如何利用robots文件提高动态网站的抓取效率?

如何利用robots文件提高动态网站的抓取效率?,第1张

如何利用robots文件提高动态网站的抓取效率?

动态网站不值得担心。搜索引擎可以正常抓取动态链接,但是使用robots文件可以轻松提高动态网站的抓取效率。众所周知,机器人协议的全称(又称爬虫协议、智能机器人协议等。)是“机器人排除协议”。根据Robots协议,网站告诉搜索引擎哪些网页可以被抓取,哪些网页不能被抓取。Robots协议的本质是网站地址与搜索引擎爬虫之间的通信方式,用于具体指导搜索引擎更好地抓取网站内容。

百度官网强烈建议所有网站都使用robots文件,以便更好地利用搜索引擎蜘蛛的抓取。事实上,机器人不仅仅是告诉搜索引擎什么不能被抓取,也是seo优化的关键专用工具之一。

Robots文件实际上是一个txt文件。它的基础是这样写的:

用户代理:*这里*表示所有搜索引擎类型,*是通配符。

Disallow:/admin/这里的定义是禁止抓取admin目录下的目录。

Disallow:/require/这里的定义是禁止抓取require目录下的目录。

不允许:/ABC/这里的定义是禁止抓取ABC目录下的目录。

不允许:/cgi-bin/*。禁止htmIt访问所有带“.”的URL(包括子目录)。htm"后缀放在/CGI-bin/目录中。

不允许:/*?*禁止访问URL中的所有动态网页。

不允许:/。jpg$禁止抓取所有照片。网页的jpg格式。

不允许:/ab/adc.html严禁不允许:/AB/ADC.htmlAB文件夹下的文档。

允许:/cgi-bin/这里的定义是允许抓取cgi-bin目录下的目录。

Allow:/tmp这里定义为所有允许抓取tmp的目录。

允许:。htm$只允许浏览带有“.”的URL。htm”后缀。

允许:。gif$允许你抓取网页和gif照片。

在seo优化层面,robots文件用来告诉搜索引擎什么是重点内容,对于不重要的内容强烈推荐robots文件,严禁抓取。不重要内容的典型性是指:百度搜索网页的网址。

对于静态网页,我们可以使用Disallow:/*?*禁止动态网页抓取。但是对于动态网站,你不能简单的这么做。但是对于动态网站的站长来说,就不用太担心了。搜索引擎现在可以正常抓取动态网页。那么在写作的情况下,就需要注意了。我们实际上可以搜索要写入的文件名。例如,你的终点站是search.asp?后面一串,所以可以这样写:

不允许:/search.asp?*

这样就可以屏蔽掉百度搜索网页的页面。写完了可以去百度搜索百度站长工具查查机器人,看看有没有有木有!可以键入URL来检查一切是否正常工作。

在此,吴小秧建议动态网站的站长一定要用robots文件屏蔽掉不重要的内容动态链接,以提高搜索引擎蜘蛛的抓取效率

资料来源:http://wuxiaoyang.com/reed/post/294.html吴小秧目录

欢迎分享,转载请注明来源:内存溢出

原文地址:https://54852.com/zz/765368.html

(0)
打赏 微信扫一扫微信扫一扫 支付宝扫一扫支付宝扫一扫
上一篇 2022-05-02
下一篇2022-05-02

发表评论

登录后才能评论

评论列表(0条)

    保存