如何利用robots文件提高动态网站的抓取效率？_服务器

如何利用robots文件提高动态网站的抓取效率？

动态网站不值得担心。搜索引擎可以正常抓取动态链接，但是使用robots文件可以轻松提高动态网站的抓取效率。众所周知，机器人协议的全称(又称爬虫协议、智能机器人协议等。)是“机器人排除协议”。根据Robots协议，网站告诉搜索引擎哪些网页可以被抓取，哪些网页不能被抓取。Robots协议的本质是网站地址与搜索引擎爬虫之间的通信方式，用于具体指导搜索引擎更好地抓取网站内容。

百度官网强烈建议所有网站都使用robots文件，以便更好地利用搜索引擎蜘蛛的抓取。事实上，机器人不仅仅是告诉搜索引擎什么不能被抓取，也是seo优化的关键专用工具之一。

Robots文件实际上是一个txt文件。它的基础是这样写的:

用户代理:*这里*表示所有搜索引擎类型，*是通配符。

Disallow:/admin/这里的定义是禁止抓取admin目录下的目录。

Disallow:/require/这里的定义是禁止抓取require目录下的目录。

不允许:/ABC/这里的定义是禁止抓取ABC目录下的目录。

不允许:/cgi-bin/*。禁止htmIt访问所有带“.”的URL(包括子目录)。htm"后缀放在/CGI-bin/目录中。

不允许:/*？*禁止访问URL中的所有动态网页。

不允许:/。jpg$禁止抓取所有照片。网页的jpg格式。

不允许:/ab/adc.html严禁不允许:/AB/ADC.htmlAB文件夹下的文档。

允许:/cgi-bin/这里的定义是允许抓取cgi-bin目录下的目录。

Allow:/tmp这里定义为所有允许抓取tmp的目录。

允许:。htm$只允许浏览带有“.”的URL。htm”后缀。

允许:。gif$允许你抓取网页和gif照片。

在seo优化层面，robots文件用来告诉搜索引擎什么是重点内容，对于不重要的内容强烈推荐robots文件，严禁抓取。不重要内容的典型性是指:百度搜索网页的网址。

对于静态网页，我们可以使用Disallow:/*？*禁止动态网页抓取。但是对于动态网站，你不能简单的这么做。但是对于动态网站的站长来说，就不用太担心了。搜索引擎现在可以正常抓取动态网页。那么在写作的情况下，就需要注意了。我们实际上可以搜索要写入的文件名。例如，你的终点站是search.asp？后面一串，所以可以这样写:

不允许:/search.asp？*

这样就可以屏蔽掉百度搜索网页的页面。写完了可以去百度搜索百度站长工具查查机器人，看看有没有有木有！可以键入URL来检查一切是否正常工作。

在此，吴小秧建议动态网站的站长一定要用robots文件屏蔽掉不重要的内容动态链接，以提高搜索引擎蜘蛛的抓取效率！

资料来源:http://wuxiaoyang.com/reed/post/294.html吴小秧目录

欢迎分享，转载请注明来源：内存溢出

原文地址:https://54852.com/zz/765368.html

如何利用robots文件提高动态网站的抓取效率？

发表评论

评论列表（0条）