有没有phpcms v9的火车头采集入口

有没有phpcms v9的火车头采集入口,第1张

1、首先下载安装好火车头采集器软件(收费免费的本文均适用),这个我相信大家都会,如有不会的找百度或局颤官方论坛。二、下载phpcmsv9火车头接口文件jiekou.php与发布模块,官方下载地址http://bbs.locoy.com/spider-57236-1-1.html,本站下载地址(选本站更好些,不用转换发布模块,站在前辈肩膀上就是好,不用写接口文件也不用写模块)。

2、接口文件修改与上传:用软件或文本打开jiekou.php文件,找到$password='123456'”这句把123456修改成你想要的数字串,任意数字吧,我现在把它修改为$password='111111' ,记下这个数字串,后面设置发布模块要用到。修改后保存,用FTP上传到你网站的根目录下,即www文件夹下。

3、设置发布模块:打开火车头软件,找到界面上的:发布:按钮

4、点击进入发布模块界面,我们用6步来完成模块设置,与界面上面的12345步骤顺序有所不同。1.点击新建,找到配置名处:起个配置名,在这里我把这个配置名命名为lunwen。2.选择编码设置,与自己网站的一样吧,在这里我选择GB2312.3.登录 *** 作:首先填入网站根目录地址,如*********,记得这个一定要填根目录;然后点击“在内置浏览器中登录”按钮,用内置浏览器把网站打开,输全后台登录网址,和平时进后台方法一样,登录后台。登录成功后点下下面的“确定”按钮,点击回到模块设置界面:

5、这步很重要,“选择web在线发布模块”,里面没有模块,我们就点最右边的绿字“更多”,然后选择“导入”选中我们在第二步中下载好的phpcmsv9发布模块phpcms9.wpm(官方下载的叫phpcms9.cwr,需要转为wpm格式,欢迎页界面的扩展上可以转)。导入后,点绿色字“编辑”,进入编辑界面,点击获取栏目列表,看到界面中“刷新列表页面”中的地址:/jiekou.php?pw=123456,后面的123456数字串要改为与jiekou.php里的一样,即/jiekou.php?pw=111111,前面jiekou.php里我们是设置为了111111,所以这里改为与之一样。

phpcms v9火车头采集器接口设置图文教程

6、设置完后再点击“内容发布参数”按钮,设置方法和上面图中的一样,见下图吧

phpcms v9火车头采集器接口设置图文教程

7、上面设置好了,这步就点“获取列表”,如果上面设置都正确,就会自动获取到网站的所有栏目,如果不能获取就说明上面设置不对,重新检查一次看看。6.成功获取列表后就族乎算成功了,点击“保存设置”,模块设置成功。6步走总图见下图

phpcms v9火车头采集器接口设置图文教程

8、下一步就等着写采集规则了,做过采集的写桐穗败火车头采集器采集规则应该不难,都差不多,只要在有多页时注意一下就行了,不懂可以查下百度或论坛,例子很多也很全。

1、建议你读写数据和下载图片分开,各用不同的进程完成。

比如说,取数据用get-data.php,下载图片用get-image.php。

2、多进程的话,php可以简单的用pcntl_fork()。这样可以并发多个子进程。

但是我不建议你用fork,我建议你安装一个gearman worker。这样你要并发几个,就启几个worker,写代码简单,根本不用在代码里考虑thread啊,process等等。

3、综上,解决方案这样:

(1)安装gearman worker。

(2)写一个get-data.php,在crontab里设置它每5分钟执行一次,只负责读数据,然后把读回来的数据一条一条的扔到 gearman worker的队列里;

然后再写一个处理数据的脚本作为worker,例如叫process-data.php,这个脚本常驻内存。它作为worker从geraman 队列里读出一条一条的数据,然后跟你的数据库乱肆老数据比较,进行你的业务逻辑。如果你要10个并发,那就启动10个process-data.php好了。处理完后,如果图片地址有变动需要下载图片,就把图片地址扔到 gearman worker的另一个队列里。

(3)再写一个download-data.php,作为下载图片的worker,同样,你启动10个20个并发随便郑磨你。这个进程也常驻内存运行,从gearman worker的图片数据队列里取数据出来,下载图片

4、常驻进程的话,就是哗丛轿在代码里写个while(true)死循环,让它一直运行好了。如果怕内存泄露啥的,你可以每循环10万次退出一下。然后在crontab里设置,每分钟检查一下进程有没有启动,比如说这样启动3个process-data worker进程:

* * * * * flock -xn /tmp/process-data.1.lock -c '/usr/bin/php /process-data.php >>/dev/null 2>&1'

* * * * * flock -xn /tmp/process-data.2.lock -c '/usr/bin/php /process-data.php >>/dev/null 2>&1'

* * * * * flock -xn /tmp/process-data.3.lock -c '/usr/bin/php /process-data.php >>/dev/null 2>&1'

不知道你明白了没有


欢迎分享,转载请注明来源:内存溢出

原文地址:https://54852.com/yw/12510691.html

(0)
打赏 微信扫一扫微信扫一扫 支付宝扫一扫支付宝扫一扫
上一篇 2025-08-25
下一篇2025-08-25

发表评论

登录后才能评论

评论列表(0条)

    保存