为什么已经拒绝蜘蛛收录，而搜索引擎还能抓取网站内容_CMS教程

这是今天一位尊敬的无忧主机用户的提问，对于这个问题，确实比较难回答，无忧主机（ 51phpcom）售后工程师们相互讨论下下，根据我们自己的维护经验浅浅的说下搜索引擎收录的问题。要先说明白这个问题，首先我们先了解下搜索引擎爬虫（蜘蛛）的工作原理：搜索引擎是使用spider（蜘蛛）程序抓起用户网页的内容，在搜索引擎蜘蛛访问网站时会先查看网站是否有robotstxt文件，如果有蜘蛛程序会先去访问robotstxt文件读取文件的内容，这个文件中说明网站那些内容是希望被抓取的或拒绝抓取的。蜘蛛程序查看robotstxt协议后会知道它应该做那些工作，是执行拒绝还是抓取动作。现在我们回到文章标题的话题来，小编发现搜索引擎有时也会在搜索结果中显示已经拒绝收录的php虚拟主机页面或者显示网页快照，这是什么呢？原因有很多我就举几个最常见的原因：1、用户设置 robotstxt文件时可能出错或者并不是放在网站的根目录下，这样搜索引擎就不会收到您拒绝收录的正确信息；2、搜索引擎收录的网页并不是通过直接访问网站所得，可能是通过外链对网站拒绝页面进行收录；3、可能在robotstxt文件建立之前，网站已经被搜索引擎收录了，搜索引擎没有及时更新导致spider程序不准守robots协议，这个原因只有等搜索引擎下次更新收录才有办法解决在上述情况发生时我们要防止所有搜索引擎显示您网站的快照，可以将这段代码加入到网页的头部代码部分：本贴由日本留学发布，我们提供日本留学服务。转发请注明地址

是的。搜索引擎服务器会一刻不停的从互联网上抓取网页，存放到本地的机器上，然后建立索引，并且对外提供检索服务。典型的工作流程是

1。搜集

在这个流程中，用网络爬虫或者叫spider的程序模块，不断地从web上寻找网页并且下载下来。最长用的方法是，把整个web网络看作是一个有向图，从种子URL集合开始，开始抓取并且存到本地，并且解析出网页内容中包含的url链接，然后把这些新的url加到url集合中。一般按照宽度优先的方式来查找。这个过程不断重复直到URL集合中所有链接都已经采集过，或者是采集时间限制到了，或者是所有的不超过某一深度的连接都已经采集过了。这些下载下来的网页的标准html文本，以及采集url，采集时间等要素都要记录下来。

采集器还要注意对被采集网站的影响，避免采集造成攻击式的后果。

2。预处理

这个过程比较复杂

21 对html网页进行解析并且建立索引

html网页需要去掉html标签和一些垃圾连接，比如广告等。对于网页的正文内容要建立索引。索引是检索最重要的数据来源，对于检索速度和效果影响是根本性的。在索引中词和网页都用数字来标记。常用的是倒排索引，格式如下 termid : docid1 docid2 docid3 其中termid也就是我们常说的词，（这个要通过对网页内容切词/分词之后得到），在索引中一般用词的编号来代替。docidx是所有包含该term的网页的编号。

22 计算每篇网页的重要程度。一般各个网站的首页都比较重要，需要赋予较高的权重。常用的方法是利用网页之间的链接关系,类似学术研究上的相互引用关系,来计算每个网页的重要性,这就是page rank google就是靠它起家的

23 重复网页的消除网络上的网页多是好几份的,大家你抄我的我抄你的,连个错别字都不会改的情况都存在这些重复网页浪费了搜索引擎的代价,更重要的是影响检索的效果

3 检索服务

我们在检索端输入查询串之后,要经过分词处理然后利用的到词,得到termid,到前面21 生成的索引查找, 得到符合检索条件的网页的id 然后用网页的内容计算的权重和22 计算的page rank数值,以及其他的权重(比如 anchor text 等) 一起对每个网页给出一个最终权重这些网页按照权重从大到小的排序之后输出就是我们看到的检索结果了

当然这里谈到的只是一些最基本的实现方法其实每个步骤都是非常复杂的一项工作,很多的技巧在里面,比如存储结构,比如一些自然语言处理技术,比如分类聚类等

上面的方法只能做一个demo系统,要真正的高性能的好的系统,还要其他更深的技术搜索引擎是个高门槛的东西

可以参考

The Anatomy of a Large-Scale Hypertextual Web Search Engine

是google的雏形的东西一些主要的技术都提到了在google上能找到这篇文章的pdf

希望对你有用

谢谢

搜索引擎的分类：

1、全文索引

搜索引擎分类部分提到过全文搜索引擎从网站提取信息建立网页数据库的概念。搜索引擎的自动信息搜集功能分两种。一种是定期搜索，即每隔一段时间，搜索引擎主动派出“蜘蛛”程序，对一定IP地址范围内的互联网网站进行检索，一旦发现新的网站，它会自动提取网站的信息和网址加入自己的数据库。

2、目录索引

目录索引也称为：分类检索，是因特网上最早提供>

3、元搜索

元搜索引擎接受用户查询请求后，同时在多个搜索引擎上搜索，并将结果返回给用户。著名的元搜索引擎有InfoSpace、Dogpile、Vivisimo等，中文元搜索引擎中具代表性的是搜星搜索引擎。在搜索结果排列方面，有的直接按来源排列搜索结果，如Dogpile；有的则按自定的规则将结果重新排列组合。

搜索引擎的工作原理：

第一步：爬行

搜索引擎是通过一种特定规律的软件跟踪网页的链接，从一个链接爬到另外一个链接，像蜘蛛在蜘蛛网上爬行一样，所以被称为“蜘蛛”也被称为“机器人”。搜索引擎蜘蛛的爬行是被输入了一定的规则的，它需要遵从一些命令或文件的内容。

第二步：抓取存储

搜索引擎是通过蜘蛛跟踪链接爬行到网页，并将爬行的数据存入原始页面数据库。其中的页面数据与用户浏览器得到的HTML是完全一样的。搜索引擎蜘蛛在抓取页面时，也做一定的重复内容检测，一旦遇到权重很低的网站上有大量抄袭、采集或者复制的内容，很可能就不再爬行。

第三步：预处理

搜索引擎将蜘蛛抓取回来的页面，进行各种步骤的预处理。

第四步：排名

用户在搜索框输入关键词后，排名程序调用索引库数据，计算排名显示给用户，排名过程与用户直接互动的。但是，由于搜索引擎的数据量庞大，虽然能达到每日都有小的更新，但是一般情况搜索引擎的排名规则都是根据日、周、月阶段性不同幅度的更新。

扩展资料：

十大搜索引擎：

1、百度

百度是全球最大的中文搜索引擎、最大的中文网站。2000年1月由李彦宏创立于北京中关村，致力于向人们提供“简单，可依赖”的信息获取方式。“百度”二字源于中国宋朝词人辛弃疾的《青玉案·元夕》词句“众里寻他千百度”，象征着百度对中文信息检索技术的执著追求。

2、谷歌

Google（中文名：谷歌），是一家美国的跨国科技企业，致力于互联网搜索、云计算、广告技术等领域，开发并提供大量基于互联网的产品与服务，其主要利润来自于AdWords等广告服务。Google由当时在斯坦福大学攻读理工博士的拉里·佩奇和谢尔盖·布卢姆共同创建，因此两人也被称为“Google Guys”。

3、雅虎

雅虎是美国著名的互联网门户网站，也是20世纪末互联网奇迹的创造者之一。其服务包括搜索引擎、电邮、新闻等，业务遍及24个国家和地区，为全球超过5亿的独立用户提供多元化的网络服务。同时也是一家全球性的因特网通讯、商贸及媒体公司。

4、搜狗

搜狗是搜狐公司的旗下子公司，于2004年8月3日推出，目的是增强搜狐网的搜索技能，主要经营搜狐公司的搜索业务。在搜索业务的同时，也推出搜狗输入法、搜狗高速浏览器。

5、爱问

作为首个中文智慧型互动搜索引擎，“爱问”突破了由GOOGLE、百度为代表的算法致胜的搜索模式。新浪“爱问”在保留了传统算法技术在常规网页搜索的强大功能外，以一个独有的互动问答平台弥补了传统算法技术在搜索界面上智慧性和互动性的先天不足。

6、搜搜

搜搜是腾讯旗下的搜索网站，是腾讯主要的业务单元之一。网站于2006年3月正式发布并开始运营。搜搜目前已成为中国网民首选的三大搜索引擎之一，主要为网民提供实用便捷的搜索服务，同时承担腾讯全部搜索业务，是腾讯整体在线生活战略中重要的组成部分之一。

7、有道

有道是网易旗下利用大数据技术提供移动互联网应用的子公司。网易有道公司已推出有道词典、有道云笔记、惠惠网、有道推广等一系列产品。

8、中搜

中搜是中国国内领先的第三代搜索引擎服务及技术应用提供商。依托第三代搜索引擎和个性化微件，实现了人类知识和搜索技术的融合，通过两大WEB站点、移动APP、云服务平台等载体为网民及企业提供全新的第三代搜索引擎体验。

9、360搜索

360综合搜索，属于元搜索引擎，是搜索引擎的一种，是通过一个统一的用户界面帮助用户在多个搜索引擎中选择和利用合适的（甚至是同时利用若干个）搜索引擎来实现检索 *** 作，是对分布于网络的多种检索工具的全局控制机制。

10、天网

天网搜索的前身是北大天网。北大天网由北京大学网络实验室研究开发，是国家重点科技攻关项目“中文编码和分布式中英文信息发现”的研究成果。北大天网于1997年10月29日正式在 CERNET上向广大互联网用户提供Web信息搜索及导航服务，是国内第一个基于网页索引搜索的搜索引擎。

参考资料来源：百度百科——搜索引擎

百度蜘蛛是百度的互联网爬行软件，它的任务就是爬行各种网站，然后看到好的内容就会抓取回馈给服务器。被蜘蛛回馈的页面外放后，该页面就会出现在百度搜索结果中，即被百度收录。

简言之，蜘蛛抓取，是百度收录的先决条件

搜索引擎收录网页提供用户搜索获识，搜索引擎什么网页都收录吗？搜索引擎怎么收录网页呢？搜索引擎就是靠一个程序，他就是搜索引擎蜘蛛。

搜索引擎蜘蛛来源：由于专门用于检索信息的“机器人”程序就象蜘蛛一样在网络间爬来爬去，反反复复，不知疲倦。所以，搜索引擎的“机器人”程序就被称为“蜘蛛”程序。

每个搜索引擎都有他们自己的蜘蛛程序，你的网站如果不去蜘蛛的话，你的网站排名就不会很好，你网站的内容页面也不会收录！只要蜘蛛天天都去你的网站，你网站的百度快照就会每天更新。

搜索引擎蜘蛛:

网站优化SEO原理

在进行seo优化的过程中，我们还要对各种情况都进行合理的分析，真正的去认识到整个网站的一些情况，这样在今后优化过程中，也可以找到正确的方向。下面是我整理的网站优化SEO原理相关知识，希望对你有帮助!

一、搜索引擎的搜索过程

1、抓取网页：每个独立的搜索引擎都有自己的网页抓取程序(spider，即通常所说的“蜘蛛”程序)。Spider顺着网页中的超链接，连续地抓取网页。由于互联网中超链接的应用很普遍，理论上，从一定范围的网页出发，就能搜集到绝大多数的网页。

搜索引擎的自动信息搜集功能分两种。一种是定期搜索，即每隔一段时间(比如Google一般是28天)，搜索引擎主动派出“蜘蛛”程序，对一定IP地址范围内的互联网站进行检索，一旦发现新的网站，它会自动提取网站的信息和网址加入自己的数据库。另一种是提交网站搜索，即网站拥有者主动向搜索引擎提交网址，它在一定时间内(2天到数月不等)定期向你的网站派出“蜘蛛”程序，扫描你的'网站并将有关信息存入数据库，以备用户查询。

2、处理网页：搜索引擎抓到网页后，还要做大量的预处理工作，才能提供检索服务。其中，最重要的就是提取关键词，建立索引文件。其他的 *** 作还包括去除重复网页、分析超链接、计算网页的重要度等等。

3、提供检索服务：用户输入关键词进行检索，搜索引擎从索引数据库中找到匹配该关键词的网页;为了用户便于判断，除了网页标题和URL外，还会提供一段来自网页的摘要以及其他信息等。

二、搜索引擎优化(SEO)简介

SEO是英文Search Engine Optimization的缩写，中文意思即是搜索引擎优化。SEO的主要工作是通过了解各类搜索引擎如何抓取互联网页面、如何进行索引以及如何确定其对某一特定关键词的搜索结果排名等技术，来对网页进行相关的优化，使其提高搜索引擎排名，从而提高网站访问量，最终提升网站的销售能力或宣传能力的技术。

三、国内各搜索引擎的使用率分析

百度搜索：7225% GOOGLE搜索：1705%

QQ搜索：436% 雅虎搜索：331%

搜狐-搜狗：181% 其它搜索引擎：122%

;

百度排名顺序大致有以下的规则：

1知名站点

2联盟成员

3非商业站点

4页面的更新时间

分析：1搜索程序是怎么确定一个网站是不是知名站点呢？我想大概和以下几个因素有关：

A站点的收录数量

B站点的外部链接（也就是baidu所谓的web超链分析法）

C站点的访问量 (这一点有争议，业界一般认为排名和网站的流量无关）

2成员站点的解释（主要指baidu的一些合作伙伴，tomqq之类的，然后就是搜索联盟，一些盗用baidu数据库的程序也会沾光，比如网人的程序，以及playcomputer 这个著名的作弊站点

3似乎因为竞价排名的问题，baidu对商业站点很不友好

4页面根新时间，baidu很在意这个，也是，搜索引擎不可能把一个几月前的页面排在很前的位置，呵呵

结束语：国内搞搜索引擎优化的人，都是搞Google排名，Google优化，呵呵，没人敢做百度优化排名，因为baidu的人工干预性很强，机器再怎么厉害还是有规则的，而人的思维是没有规则的

搜索引擎的工作原理总共有四步：

第一步：爬行，搜索引擎是通过一种特定规律的软件跟踪网页的链接，从一个链接爬到另外一个链

接，所以称为爬行。

第二步：抓取存储，搜索引擎是通过蜘蛛跟踪链接爬行到网页，并将爬行的数据存入原始页面数据库。

第三步：预处理，搜索引擎将蜘蛛抓取回来的页面，进行各种步骤的预处理。

第四步：排名，用户在搜索框输入关键词后，排名程序调用索引库数据，计算排名显示给用户，排名过程与用户直接互动的。

不同的搜索引擎查出来的结果是根据引擎内部资料所决定的。比如：某一种搜索引擎没有这种资料，您就查询不到结果。

扩展资料：

定义

一个搜索引擎由搜索器、索引器、检索器和用户接四个部分组成。搜索器的功能是在互联网中漫游，发现和搜集信息。索引器的功能是理解搜索器所搜索的信息，从中抽取出索引项，用于表示文档以及生成文档库的索引表。

检索器的功能是根据用户的查询在索引库中快速检出文档，进行文档与查询的相关度评价，对将要输出的结果进行排序，并实现某种用户相关性反馈机制。用户接口的作用是输入用户查询、显示查询结果、提供用户相关性反馈机制。

起源

所有搜索引擎的祖先，是1990年由Montreal的McGill University三名学生（Alan Emtage、Peter

Deutsch、Bill Wheelan）发明的Archie（Archie FAQ）。Alan Emtage等想到了开发一个可以用文件名查找文件的系统，于是便有了Archie。

Archie是第一个自动索引互联网上匿名FTP网站文件的程序，但它还不是真正的搜索引擎。Archie是一个可搜索的FTP文件名列表，用户必须输入精确的文件名搜索，然后Archie会告诉用户哪一个FTP地址可以下载该文件。

由于Archie深受欢迎，受其启发，Nevada System Computing Services大学于1993年开发了一个Gopher（Gopher FAQ）搜索工具Veronica（Veronica FAQ）。Jughead是后来另一个Gopher搜索工具。

参考资料来源：百度百科-搜索引擎

以上就是关于为什么已经拒绝蜘蛛收录，而搜索引擎还能抓取网站内容全部的内容，包括:为什么已经拒绝蜘蛛收录，而搜索引擎还能抓取网站内容、搜索引擎的蜘蛛程序爬行网页时是否将网页内容存在了搜索引擎服务商的服务器中了、搜索引擎的分类及其工作原理等相关内容解答，如果想了解更多相关内容，可以关注我们，你们的支持是我们更新的动力！

欢迎分享，转载请注明来源：内存溢出

原文地址:https://54852.com/zz/9812240.html

为什么已经拒绝蜘蛛收录，而搜索引擎还能抓取网站内容

发表评论

评论列表（0条）