
简单的分了几个步骤:
1、确定采集目标
2、获取目标远程页面内容(curl、file_get_contents)
3、分析页面html源码,正则匹配你需要的内容(preg_match、preg_match_all),这一步最为重要,不同页面正则匹配规则不一样
4、入库
<php
$time1 = microtime(1);
$content = file_get_contents('>
当我们需要采集网络上的某个网页内容时 如果目标网站上的做了防盗链的话 我们直接采集过来的在自己网站上是不可用的 那么我们使用程序将目标网站上的下载到我们网站服务器上 然后就可调用了
本文将使用PHP实现采集远程功能 基本流程 获取目标网站地址 读取内容 创建要保存的路径并命名名称 写入内容 完成 我们通过写几个函数来实现这一过程 函数make_dir()建立目录 判断要保存的文件目录是否存在 如果不存在则创建目录 并且将目录设置为可写权限 function make_dir($path){ if(!file_exists($path)){//不存在则建立 $mk=@mkdir($path ); //权限 @chmod($path ); } return true; } 函数read_filetext()取得内容 使用fopen打开文件 然后fread读取文件内容 function read_filetext($filepath){ $filepath=trim($filepath); $fp=@fopen($filepath "r"); //远程 if(strstr($filepath "://")){ while($data=@fread($fp )){ $string =$data; } } //本地 else{ $string=@fread($fp @filesize($filepath)); } @fclose($fp); return $string; } 函数write_filetext()写文件 将内容fputs写入文件中 即保存文件 function write_filetext($filepath $string){ //$string=stripSlashes($string); $fp=@fopen($filepath "w"); @fputs($fp $string); @fclose($fp); } 函数get_filename()获取名称 也可以自定义要保存的文件名 function get_filename($filepath){ $fr=explode("/" $filepath); $count=count($fr) ; return $fr[$count]; } 然后将几个函数组合 在函数save_pic()中调用 最后返回保存后的路径 function save_pic($url $savepath= ){ //处理地址 $url=trim($url); $url=str_replace(" " "% " $url); //读文件 $string=read_filetext($url); if(empty($string)){ echo 读取不了文件 ;exit; } //文件名 $filename = get_filename($url); //存放目录 make_dir($savepath); //建立存放目录 //文件地址 $filepath = $savepath $filename; //写文件 write_filetext($filepath $string); return $filepath; } 最后一步就是调用save_pic()函数保存 我们使用以下代码做测试 //目标地址 $pic = "/program/UploadPic/ / jpg"; //保存目录 $savepath = "images/"; echo save_pic($pic $savepath); 实际应用中 我们可能会采集某个站点的内容 比如产品信息 包括采集防盗链的保存到网站上服务器上 这时我们可以使用正则匹配页面内容 将页面中相匹配的都找出来 然后分别下载到网站服务器上 完成的采集 以下代码仅供测试 function get_pic($cont $path){ $pattern_src = /<[imgIMG] src=/picture/allimg/ / BK gif/ jpg]))[ "] [/]>/ ; $num = preg_match_all($pattern_src $cont $match_src); $pic_arr = $match_src[ ]; //获得数组 foreach ($pic_arr as $pic_item) { //循环取出每幅图的地址 save_pic($pic_item $path); //下载并保存 echo "[OK] !"; } } 然后我们通过分析页面内容 将主体内容找出来 调用get_pic()实现的保存 //我们采集太平洋电脑网上一篇关于手机报道内容页的 以上代码笔者亲测 可以采集 但是还有些场景没考虑进去 比如目标网站做了 多次跳转的 目标网站做了多种防采集的 留给喜欢折腾的同学去试试吧 lishixinzhi/Article/program/PHP/201311/21001
以上就是关于怎么用php采集网站数据全部的内容,包括:怎么用php采集网站数据、PHP读取远程的网页,如何获取读取该网络文件的时间呢、使用PHP采集远程图片等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!
欢迎分享,转载请注明来源:内存溢出
微信扫一扫
支付宝扫一扫
评论列表(0条)