用户名:
密 码: 记住
您当前的位置:首页 > 网络编程 > php教程

php利用fopen实现简单的网页采集程序

时间:2015-01-23  来源:西部数据  作者:西部数据

这个采集程序是一个非常简单的程序了,个人认为不适合于大量数据采集了单页还是没有问题了,因为fopen函数对于远程文件操作与多线程时是非常的不理想的,这个只是一个作者写的觉得好玩合出来了,代码如下:

  1. /** 
  2. * 根据URL采集网页内容 
  3. * 
  4. * @param string $url 链接地址 
  5. * @return string 
  6. */ 
  7.  
  8. private function fetchbyurl($url){ 
  9. $handle = fopen($url, ‘r’); 
  10. $content = ”; 
  11. while (!feof($handle)){ 
  12. $content .= fgets($handle, 10000); 
  13. return $content
  14. //?$this->utf8_iconv($content):”; 
  15.  
  16. /*获取所有匹配的内容 
  17. * @param string $str 内容 
  18. * @param string $start 起始匹配 
  19. * @param string $end 中止匹配 
  20. * @return array 
  21. */ 
  22.  
  23. private function utf8_iconv($content){ 
  24. return iconv(‘GBK’, ‘UTF-8′, $content); 
  25. private function strCutAll($str,$start,$end){ 
  26. $content = explode($start,$str); 
  27. $matchs = array(); 
  28. $sum = count($content); 
  29. for$i = 1;$i < $sum;$i++ ){ 
  30. $tmp = explode($end,$content[$i]); 
  31. $matchs[] = $tmp[0]; 
  32. unset($tmp); 
  33. return $matchs
  34.  
  35. /*获取第一个匹配的内容 
  36. * @param string $str 内容 
  37. * @param string $start 起始匹配 
  38. * @param string $end 中止匹配 
  39. * @return string 
  40. */ 
  41. private function strCut($str$start$end){ 
  42. $content = strstr$str$start ); 
  43. $content = substr$contentstrlen$start ), strpos$content$end ) - strlen$start ) ); 
  44. return $content

测试,实例代码如下:

  1. /*采集程序*/header("content-Type: text/html; charset=utf-8"); //$nr = file_get_contents(‘/webback/php/php-yi-ju-hua-hou-men-zhuan’); $nr = $this->fetchbyurl(‘/webback/php/php-yi-ju-hua-hou-men-zhuan’);//推荐,还可以用curl dump($this->strCut($nr,’<div class="context">’,'<div class="betterrelated">’));//得到内容。需要进一步过滤用(preg_match_all) dump($this->strCutAll($nr,’<title>’,'</title>’)); 得到标题 
  2. //开源代码phpfensi.com
来顶一下
返回首页
返回首页
推荐资讯
WiFi太不安全:7岁女孩11分钟内入侵公共网络 WiFi太不安全:7岁女孩11分钟内入侵近期刚刚发布研究说WiFi网络能获得人们手机里多少私人信息,
不服跑个分?人工智能也出现“刷分”乱象 不服跑个分?人工智能也出现“刷分2014年,人工智能领域突然爆发,成为了科研和科技创业的热门
相关文章
栏目更新
栏目热门