file_get_contents() 远程文件获取函数,用来获取远程页面内容
preg_match_all()进行全局正则表达式匹配,匹配多次,用于匹配列表
preg_match ()进行正则表达式匹配,匹配一次,用于匹配终端
preg_replace ()进行正则表达式替换,用于过滤终端
具体步骤
Step 1 获取单页列表 和 单篇文章内容
在批量采集列表和内容之前,我们先将网站的单页列表和单篇文章的内容采集作为测试正则表达式对错.
列表页采集文章的链接地址,代码如下:
- <?php
-
- $url = '/s2005/shishi.shtml';
- $con=file_get_contents($url);
-
-
-
- $preg = "|<a test=a href='(.*)' target='_blank'>(.*)</a>|iUs";
-
- preg_match_all($preg,$con,$arr);
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
- ?>
单篇文章的采集,代码如下:
- <?php
- $url = 'http://www.phpfensi.com';
- $con = file_get_contents($url);
-
- $title_preg = "|<h1>(.*)</h1>|iUs";
- $content_preg = "|<!-- 正文 -->(.*)<!-- 分享 -->|iUs";
- preg_match($title_preg,$con,$title_arr);
- preg_match($content_preg,$con,$content_arr);
- ?>
|