获取网页中的图片地址并保存下载我们需要采集页面,然后再利用正则表达式获取页面中的图片url,然后我们再通过相关的php函数把图片保存到指定本地硬盘了.
1.获取地址
这个功能最主要的就是用正则表达式来匹配页面源码里的图片地址了,这里用到得正则表达式是:
/<img.*src="(.*)"\s*.*>/iU
首先通过PHP自带的读取文件函数来获得请求页面的html代码,然后用正则表达式来匹配里面的src地址,这里有两个注意点:
file_get_content
只能获取到静态的页面内容,也就是说如果你在页面里看到的是图片是通过Javascript来展示的,通过这个工具是获取不到图片信息的.
有的网站对file_get_content 这个函数做了些限制,如果不是通过浏览器打开的网页,服务器是拒绝请求的,这个时候我们就需要给php 程序添加一个配置信息,让采集的程序能够模拟一个留言器的UA(user agent),具体的做法可以通过下面的代码来实现://现在模拟的是一个Window 环境下的浏览器
ini_set('user_agent','Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 5.1; Trident/4.0; 4399Box.560; .NET4.0C; .NET4.0E)');
通过以上两点的处理,获取网页源码就没有问题了,唯一要做的就是用正则表达式对图片地址的匹配.
例子1,代码如下:
-
-
-
-
-
-
-
-
- function replaceimg($xstr,$keyword, $oriweb){
- $basedir = dirname(__FILE__);
-
-
- $d = date('Ym', time());
- $dirslsitss = $basedir.'/../uploads/'.$keyword.'/'.$d;
- if(!is_dir($dirslsitss)) {
- @mkdir($dirslsitss, 0777);
- }
-
-
- preg_match_all('#<img.*?src="([^"]*)"[^>]*>#i', $xstr, $match);
-
- foreach($match[1] as $imgurl){
-
- $imgurl = $imgurl;
-
- if(is_int(strpos($imgurl, 'http'))){
- $arcurl = $imgurl;
- } else {
- $arcurl = $oriweb.$imgurl;
- }
- $img=file_get_contents($arcurl);
-
-
- if(!emptyempty($img)) {
-
-
- $fileimgname = time()."-".rand(1000,9999).".jpg";
- $filecachs=$dirslsitss."/".$fileimgname;
- $fanhuistr = file_put_contents( $filecachs, $img );
- $saveimgfile = "/uploads/$keyword"."/".$d."/".$fileimgname;
-
-
- $xstr=str_replace($imgurl,$saveimgfile,$xstr);
- }
- }
- return $xstr;
- }
可能有些朋友也知道file_get_contents性能不怎么样,我们可使用curl来获取,代码如下:
-
-
-
-
-
- function getImage($url,$save_dir='',$filename='',$type=0){
- if(trim($url)==''){
- return array('file_name'=>'','save_path'=>'','error'=>1);
- }
- if(trim($save_dir)==''){
- $save_dir='./';
- }
- if(trim($filename)==''){
- $ext=strrchr($url,'.');
- if($ext!='.gif'&&$ext!='.jpg'){
- return array('file_name'=>'','save_path'=>'','error'=>3);
- }
- $filename=time().$ext;
- }
- if(0!==strrpos($save_dir,'/')){
- $save_dir.='/';
- }
-
- if(!file_exists($save_dir)&&!mkdir($save_dir,0777,true)){
- return array('file_name'=>'','save_path'=>'','error'=>5);
- }
-
- if($type){
- $ch=curl_init();
- $timeout=5;
- curl_setopt($ch,CURLOPT_URL,$url);
- curl_setopt($ch,CURLOPT_RETURNTRANSFER,1);
- curl_setopt($ch,CURLOPT_CONNECTTIMEOUT,$timeout);
- $img=curl_exec($ch);
- curl_close($ch);
- }else{
- ob_start();
- readfile($url);
- $img=ob_get_contents();
- ob_end_clean();
- }
-
-
- $fp2=@fopen($save_dir.$filename,'a');
- fwrite($fp2,$img);
- fclose($fp2);
- unset($img,$url);
- return array('file_name'=>$filename,'save_path'=>$save_dir.$filename,'error'=>0);
- }
|