
动态网站不值得担心。搜索引擎可以正常抓取动态链接,但是使用robots文件可以轻松提高动态网站的抓取效率。众所周知,机器人协议的全称(又称爬虫协议、智能机器人协议等。)是“机器人排除协议”。根据Robots协议,网站告诉搜索引擎哪些网页可以被抓取,哪些网页不能被抓取。Robots协议的本质是网站地址与搜索引擎爬虫之间的通信方式,用于具体指导搜索引擎更好地抓取网站内容。
百度官网强烈建议所有网站都使用robots文件,以便更好地利用搜索引擎蜘蛛的抓取。事实上,机器人不仅仅是告诉搜索引擎什么不能被抓取,也是seo优化的关键专用工具之一。
Robots文件实际上是一个txt文件。它的基础是这样写的:
用户代理:*这里*表示所有搜索引擎类型,*是通配符。
Disallow:/admin/这里的定义是禁止抓取admin目录下的目录。
Disallow:/require/这里的定义是禁止抓取require目录下的目录。
不允许:/ABC/这里的定义是禁止抓取ABC目录下的目录。
不允许:/cgi-bin/*。禁止htmIt访问所有带“.”的URL(包括子目录)。htm"后缀放在/CGI-bin/目录中。
不允许:/*?*禁止访问URL中的所有动态网页。
不允许:/。jpg$禁止抓取所有照片。网页的jpg格式。
不允许:/ab/adc.html严禁不允许:/AB/ADC.htmlAB文件夹下的文档。
允许:/cgi-bin/这里的定义是允许抓取cgi-bin目录下的目录。
Allow:/tmp这里定义为所有允许抓取tmp的目录。
允许:。htm$只允许浏览带有“.”的URL。htm”后缀。
允许:。gif$允许你抓取网页和gif照片。
在seo优化层面,robots文件用来告诉搜索引擎什么是重点内容,对于不重要的内容强烈推荐robots文件,严禁抓取。不重要内容的典型性是指:百度搜索网页的网址。
对于静态网页,我们可以使用Disallow:/*?*禁止动态网页抓取。但是对于动态网站,你不能简单的这么做。但是对于动态网站的站长来说,就不用太担心了。搜索引擎现在可以正常抓取动态网页。那么在写作的情况下,就需要注意了。我们实际上可以搜索要写入的文件名。例如,你的终点站是search.asp?后面一串,所以可以这样写:
不允许:/search.asp?*
这样就可以屏蔽掉百度搜索网页的页面。写完了可以去百度搜索百度站长工具查查机器人,看看有没有有木有!可以键入URL来检查一切是否正常工作。
在此,吴小秧建议动态网站的站长一定要用robots文件屏蔽掉不重要的内容动态链接,以提高搜索引擎蜘蛛的抓取效率!
资料来源:http://wuxiaoyang.com/reed/post/294.html吴小秧目录
欢迎分享,转载请注明来源:内存溢出
微信扫一扫
支付宝扫一扫
评论列表(0条)