怎么用php采集网站数据_框架

简单的分了几个步骤：

1、确定采集目标

2、获取目标远程页面内容（curl、file_get_contents）

3、分析页面html源码，正则匹配你需要的内容（preg_match、preg_match_all），这一步最为重要，不同页面正则匹配规则不一样

4、入库

<php

$time1 = microtime(1);

$content = file_get_contents('>

当我们需要采集网络上的某个网页内容时如果目标网站上的做了防盗链的话我们直接采集过来的在自己网站上是不可用的那么我们使用程序将目标网站上的下载到我们网站服务器上然后就可调用了

本文将使用PHP实现采集远程功能基本流程获取目标网站地址读取内容创建要保存的路径并命名名称写入内容完成我们通过写几个函数来实现这一过程函数make_dir()建立目录判断要保存的文件目录是否存在如果不存在则创建目录并且将目录设置为可写权限 function make_dir($path){ if(!file_exists($path)){//不存在则建立 $mk=@mkdir($path ); //权限 @chmod($path ); } return true; } 函数read_filetext()取得内容使用fopen打开文件然后fread读取文件内容 function read_filetext($filepath){ $filepath=trim($filepath); $fp=@fopen($filepath "r"); //远程 if(strstr($filepath "://")){ while($data=@fread($fp )){ $string =$data; } } //本地 else{ $string=@fread($fp @filesize($filepath)); } @fclose($fp); return $string; } 函数write_filetext()写文件将内容fputs写入文件中即保存文件 function write_filetext($filepath $string){ //$string=stripSlashes($string); $fp=@fopen($filepath "w"); @fputs($fp $string); @fclose($fp); } 函数get_filename()获取名称也可以自定义要保存的文件名 function get_filename($filepath){ $fr=explode("/" $filepath); $count=count($fr) ; return $fr[$count]; } 然后将几个函数组合在函数save_pic()中调用最后返回保存后的路径 function save_pic($url $savepath= ){ //处理地址 $url=trim($url); $url=str_replace(" " "% " $url); //读文件 $string=read_filetext($url); if(empty($string)){ echo 读取不了文件 ;exit; } //文件名 $filename = get_filename($url); //存放目录 make_dir($savepath); //建立存放目录 //文件地址 $filepath = $savepath $filename; //写文件 write_filetext($filepath $string); return $filepath; } 最后一步就是调用save_pic()函数保存我们使用以下代码做测试 //目标地址 $pic = "/program/UploadPic/ / jpg"; //保存目录 $savepath = "images/"; echo save_pic($pic $savepath); 实际应用中我们可能会采集某个站点的内容比如产品信息包括采集防盗链的保存到网站上服务器上这时我们可以使用正则匹配页面内容将页面中相匹配的都找出来然后分别下载到网站服务器上完成的采集以下代码仅供测试 function get_pic($cont $path){ $pattern_src = /<[imgIMG] src=/picture/allimg/ / BK gif/ jpg]))[ "] [/]>/ ; $num = preg_match_all($pattern_src $cont $match_src); $pic_arr = $match_src[ ]; //获得数组 foreach ($pic_arr as $pic_item) { //循环取出每幅图的地址 save_pic($pic_item $path); //下载并保存 echo "[OK] !"; } } 然后我们通过分析页面内容将主体内容找出来调用get_pic()实现的保存 //我们采集太平洋电脑网上一篇关于手机报道内容页的以上代码笔者亲测可以采集但是还有些场景没考虑进去比如目标网站做了多次跳转的目标网站做了多种防采集的留给喜欢折腾的同学去试试吧 lishixinzhi/Article/program/PHP/201311/21001

以上就是关于怎么用php采集网站数据全部的内容，包括:怎么用php采集网站数据、PHP读取远程的网页，如何获取读取该网络文件的时间呢、使用PHP采集远程图片等相关内容解答，如果想了解更多相关内容，可以关注我们，你们的支持是我们更新的动力！

欢迎分享，转载请注明来源：内存溢出

原文地址:https://54852.com/web/9606015.html

怎么用php采集网站数据

发表评论

评论列表（0条）