
如果是采集标签,首先讲采集部分,需要针对该采集部分添加一个标签去采集,具体的就是在火车头的那个采集规则里添加,
发布部分需要在DEDE中后台添加字段,然后修改火车头发布模块(如果dede原本就带有的话就不需要修改)
软件程序的获取:
大家可以从百度中搜索“火车头采集器”,并进入对应官方来获取程序的最新版本下载地址。当然也可以从小编所提供的网盘地址中获取最新版本程序:
请点击输入图片描述
2
安装并运行“火车头采集器”程序,在d出的登陆界面中直接点击“登陆”按钮就可以以免费版身份登陆。
请点击输入图片描述
3
在程序主界面中,点击“新建”下拉箭头,从中选择“任务”项。
请点击输入图片描述
4
在d出的窗口中,输入“任务名”,同时点击“起始网址”栏目右侧的“添加”按钮。
请点击输入图片描述
5
接下来就极为重要的一步,就是对要进行采集的网站进行分板,对所采取的网站中各片文章的URL进行综合分析并找出规律,最后按如图进行填写。
请点击输入图片描述
6
然后切换至“第二步:采集内容规则”选项卡中,我们需要对网页内容进行分板。在此以“搜狗浏览器”为例,右击要进行分析的网页,从d出的菜单中选择“审查元素”项。
请点击输入图片描述
7
在“开发式模式”界面中,点击“选择页面中的一个元素去透视”按钮,接着点击“标题”内容,此时就可以在“开发者”窗口中显示标题所对应的标签,此例为“h2"。
请点击输入图片描述
8
接下来在”采集内容规则“界面中,点击“添加”按钮来添加“标题”项,或者直接双击“标题”项进行修改。在d出的界面中,勾选”前后截取“,将设置前后辍分别为"<h2>“、”</h2>".
请点击输入图片描述
9
利用同样的方法添加其它采集内容的规则。
切换至“第三步:发布内容设置”选项卡,勾选“启用 方式二”,并进行如图设置。
请点击输入图片描述
10
最后从任务列表中,勾选要采集的内容,点击“开始”按钮就可以按规则采集网站中的网页内容啦。
请点击输入图片描述
如果还有啥问题,请留言或者私信,如果回答的还算可以,请列为最佳答案
正文开始代码是<!--判断是否已经扣点-->结束 <br />
</p>
</div>
另外可以用采集器,自动采集功能.动易2006,或者火车头采集器,火车头采集器使用方法在99D软件站有!火车头采集器下载地址在99d软件站也提供下载!!
去你百度搜索99d软件站!
软件使用,项目管理:
1、选择添加新项目,找到你需要采集的页面→复制网址到新闻网址列表框,项目名称随便填(主要是给你自己记忆备忘用)→下一步
2、项目编辑列表设置:
这里填写就要注意点了,找到你要采集的新闻列表的第一个信息标题的地方,一般标题前面这里会有一个table标签,选择这个table标签前面的具有典型特征的一些代码,代码具体选多少呢,分2种情况,一是有分页的列表,简单说就是列表最下面有下一页或者有1、2、3、等页面链接的,二是没有分页的,简单说就是列表只有1页,只有1页的情况好办,这里可以随便选了,只要保证不重复就行了。但是有分页的列表页就要麻烦一些,这时候选取代码的原则是:在保证没有重复代码的前提下,尽量选择少一点的代码,因为代码越多越容易出错,越不能保证每个列表页面都有这些代码了,这是经验之谈,当然也不一定,有些网页代码格式非常统一,那么这种网页就好采集,列表开始代码也好填一些。什么是具有典型特征的代码呢?就是基本上每个列表页都有的代码,但是这个页码在所有的列表页中又是唯一的,不重复。
欢迎分享,转载请注明来源:内存溢出
微信扫一扫
支付宝扫一扫
评论列表(0条)