用户名:
密 码: 记住
您当前的位置:首页 > 网络编程 > php教程

php里常用的远程采集函数

时间:2015-01-23  来源:西部数据  作者:西部数据

在php中采集数据最常用的就是使用curl函数来操作,因为curl函数是高性能并且多线程功能,下面我来介绍一个php采集程序,各位同学有需要可进入参考.

php里常用的远程采集函数,代码如下:

  1. /**  
  2.  * 获取远程url的内容  
  3.  * @param string $url  
  4.  * @return string  
  5.  */ 
  6. function get_url_content($url) {  
  7.   if(function_exists(curl_init)) {  
  8.     $ch = curl_init();  
  9.     $timeout = 5;  
  10.     curl_setopt ($ch, CURLOPT_URL, $url);  
  11.     curl_setopt ($ch, CURLOPT_RETURNTRANSFER, 1);  
  12.     curl_setopt ($ch, CURLOPT_CONNECTTIMEOUT, $timeout);  
  13.     curl_setopt ($ch, CURLOPT_TIMEOUT, $timeout);  
  14.     //开源代码phpfensi.com 
  15.     $file_contents = curl_exec($ch);  
  16.     curl_close($ch);  
  17.   } else {  
  18.     $file_contents = file_get_contents($url);  
  19.   }  
  20.    
  21.   return $file_contents;  

调用方法,代码如下:

  1. $url = 'http://www.phpfensi.com';  
  2. $a = get_url_content($url);  
  3. echo $a

上面只是一个简单的实例,如果我们想应用可参考我自己写的采集程序了.

1,获取目标网页数据;2,截取相关内容;3,写入数据库/生成HMTL文件;

下面就按照步骤来试试!

获取目标网页数据 

1, 确定好,要获取的网页地址甚至形式,这里我们采用的网址是:/index.html?pageconfig=catalog_byproducttype&intProductTypeID=1&strStartChar=A&intResultsPage=1&tr=59,这个页面是有分页的,根据规律,我们找到只需要改变page参数就可以翻页!即:我们的网页形式是:/index.html?pageconfig=catalog_byproducttype& amp;intProductTypeID=1&strStartChar=A&intResultsPage= NUMBER &tr=59

红色部分是当前页码对应值!只需要改变该值就可以了!

2,获取页面内容:自然要用到PHP函数了!这里,两个函数都可以!他们分别是:

file_get_contents() 把整个文件读入一个字符串中。和 file() 一样,不同的是file_get_contents() 把文件读入一个字符串。file_get_contents() 函数是用于将文件的内容读入到一个字符串中的首选方法。如果操作系统支持,还会使用内存映射技术来增强性能。语法: file_get_contents( path , include_path , context , start , max_length ) curl() 了解详细,请参阅官网文档:http://cn.php.net/curl fopen()函数打开文件或者 URL。如果打开失败,本函数返回 FALSE。语法: fopen(filename,mode,include_path,context)当然,我们采用的是第一个!其实,所有的都差不多,有兴趣的童子可以常识常识其他的!代码如下:

  1. <?php 
  2. $oldcontent = file_get_contents(“http://www.abcam.cn/index.html?pageconfig=catalog_byproducttype&intProductTypeID=1&strStartChar=A&intResultsPage=2&tr=59”); 
  3. echo $oldcontent
  4. ?> 

运行PHP程序,上面的代码可以显示出整个网页!由于原网页采用的是绝地路径,所以现在显示的效果和原来的是一模一样的!

接下来就是要,截取内容了!截取内容的方法也有很多,今天介绍的一种比较简单,代码如下:

  1. <?php 
  2. $oldcontent = file_get_contents(“http://www.abcam.cn/index.html?pageconfig=catalog_byproducttype&intProductTypeID=1&strStartChar=A&intResultsPage=2&tr=59″); 
  3. $oldcontent
  4. $pfirst = ‘<table border=”0″ cellspacing=”0″ cellpadding=”0″> <tr> <th style=”padding-left: 0px;”><p style=”font-size:12px”><strong>Code</strong></p></th>’; 
  5. $plast = ‘Goat polyclonal’; 
  6. $bstrpos($oldcontent,$pfirst); 
  7. $cstrpos($oldcontent,$plast); 
  8. echo substr($oldcontent,$b,$c-1); 
  9. ?> 

输出的,即为所需要的结果,写入数据库和写入文件都是比较简单的,这里就写入文件了,代码如下:

  1. <?php 
  2. $oldcontent = file_get_contents(“index.html?pageconfig=catalog_byproducttype&intProductTypeID=1&strStartChar=A&intResultsPage=2&tr=59″); 
  3. $oldcontent
  4. $pfirst = ‘<table border=”0″ cellspacing=”0″ cellpadding=”0″> <tr> <th style=”padding-left: 0px;”><p style=”font-size:12px”><strong>Code</strong></p></th>’; 
  5. $plast = ‘Goat polyclonal’; 
  6. $bstrpos($oldcontent,$pfirst); 
  7. $cstrpos($oldcontent,$plast); 
  8. $a = substr($oldcontent,$b,$c-1); 
  9. $file = date(‘YmdHis’).”.html”; 
  10. $fp = fopen($file,”w+”); 
  11. if(!is_writable($file)){ 
  12. die(“File “.$file.” can not be written”); 
  13. else { 
  14. file_put_contents($file$a); 
  15. echo “success”; 
  16. fclose($fp); 
  17. ?> 
来顶一下
返回首页
返回首页
推荐资讯
WiFi太不安全:7岁女孩11分钟内入侵公共网络 WiFi太不安全:7岁女孩11分钟内入侵近期刚刚发布研究说WiFi网络能获得人们手机里多少私人信息,
不服跑个分?人工智能也出现“刷分”乱象 不服跑个分?人工智能也出现“刷分2014年,人工智能领域突然爆发,成为了科研和科技创业的热门
相关文章
栏目更新
栏目热门