搜寻网页的过程是怎样的?

搜寻网页的过程是怎样的?,第1张

搜索引擎的整个工作过程包括三个部分:

1、抓取

搜索引擎为想要抓取互联网站的页面,不可能手动去完成,那么百度,google的工程师就编写了一个程序,他们给这个自动抓取的程序起了一个名字,蜘蛛(也可以叫做“机器人”或者“网络爬虫”)。

互联网上的信息存储在无数个服务器上,任何搜索引擎要想回答用户的搜索,首先要把网页存在自己本地的服务器上,这靠的就是网络爬虫。它不停的向各种网站发送请求,将所得到的网页存储起来。

通常的做法是利用网页之间的链接从一个网页出发,提取出指向其他页面的链接,把它们当成将下次要请求的对象,不停重复这个过程。有很多细节要被考虑。比如避免循环链接的网页;解析网页文档,提取里边的链接;当链接无法打开时对错误进行处理等。

2、索引

索引就是帮助程序进行快速查找的。大家都用过英汉词典。字典前边的按照单词首字母排列的部分就是索引。搜索引擎也一样。这里要介绍第一个最重要的数据结构:反转列表。

搜索引擎所拥有的文档中出现的每一个单词都拥有一个反转列表。它记录了这个单词在多少文档中出现,分别是哪些文档,每个文档分部出现多少次,分别出现在什么位置等信息。这样当搜索相关单词时,Google就不用遍历所有的文档,只需要查找每个单词对应的反转列表就可以知道这个词在哪里出现了。

每一个网络文档不仅只有文本信息。它还可能包括文件名,引用等部分。为了提高搜索质量,搜索引擎需要对文档的不同部分分别处理,构造反转列表。每一部分的单词都要被加入到这个词属于此部分的反转列表里。

3、搜索

有了索引,就可以快速找到所需内容了。前边说过搜索引擎根据用户的信息需求查找匹配的内容。信息需求来自于用户输入。搜索引擎用把用户输入的搜索字符进行一些类似于创建索引时对文本的处理,然后生成解析树。总之,以上技巧最终目标是帮助搜索引擎更好理解用户的信息需求,以便查找出更高质量的文档。

4、排序

用户输入的关键词,就可以查看到相关的内容了。这个时候,就会一条一条的展示,那谁排在第一,谁排在第二,我们把这种结果的排序,称为排名。

排名会是很复杂的,系统会对其进行一系列复杂的分析,并根据分析的结论在索引库中寻找与之最为匹配的一系列网页,按照用户输入的关键词所体现的需求强弱和网页的优劣进行打分,并按照最终的分数进行排列。

搜索引擎的整个工作过程视为三个部分:蜘蛛在互联网上爬行和抓取网页信息,并存入原始网页数据库;对原始网页数据库中的信息进行提取和组织,并建立索引库;根据用户输入的关键词,快速找到相关文档,并对找到的结果进行排序,并将查询结果返回给用户。

1、网页抓取

Spider每遇到一个新文档,都要搜索其页面的链接网页。搜索引擎蜘蛛访问web页面的过程类似普通用户使用浏览器访问其页面,即B/S模式。引擎蜘蛛先向页面提出访问请求,服务器接受其访问请求并返回HTML代码后,把获取的HTML代码存入原始页面数据库。

2、预处理,建立索引

为了便于用户在数万亿级别以上的原始网页数据库中快速便捷地找到搜索结果,搜索引擎必须将spider抓取的原始web页面做预处理。网页预处理最主要过程是为网页建立全文索引,之后开始分析网页,最后建立倒排文件(也称反向索引)。

3、查询服务

在搜索引擎界面输入关键词,点击“搜索”按钮之后,搜索引擎程序开始对搜索词进行以下处理:分词处理、根据情况对整合搜索是否需要启动进行判断、找出错别字和拼写中出现的错误、把停止词去掉。接着搜索引擎程序便把包含搜索词的相关网页从索引数据库中找出,而且对网页进行排序,最后按照一定格式返回到“搜索”页面。

扩展资料

在信息抓取阶段搜索引擎掌握的信息往往是局部的,因而为搜索引擎设计一个好的抓取优先级策略并不是一件容易的事情,这里说的是一个深度抓取的优先策略。深度优先抓取它是以抓取到连接结构关系中的所有内容为主要目的的,具体实现方式是沿着树形的深度遍历树的节点,尽可能深的搜索树的分支,如果发现目标,则算法中止。

深度优先抓取过程中,抓取程序从起始页开始,一个链接一个链接跟踪下去,处理完这条线路最低端之后再转入下一个起始页,继续跟踪链接。

参考资料来源:百度百科-搜索引擎

参考资料来源:百度百科-搜索引擎技术

很多个人网站的站长都希望为自己的网站建立一个站内搜索引擎,但一不熟悉ASP、PHP、JSP等动态开发技术,另外自己建立站内搜索也需要空间支持相应的动态技术,所以常不得已放弃。其实这个可以让建站公司在建站时实现的。

一、优点

1、让站长给网站快速建立功能强大的搜索

使用这功能可以快速完成建立,方便好用,降低站长对网站的制作技术成本。也节约了时间。对广大站长来说是好事。

2、百度快速收录

该站内搜索工具的网址种子页面的提交功能,可以让百度快速收录网站的内容及收录的深度。

3、功能强大

百度做搜索引擎起家的,技术上肯定是很强的,现提供的站内的搜索可以让站长的网站快速建立搜索功能外,还有热度搜索词的推荐设置。

二、弊

1、部分网站不适合

百度的站内搜索功能是基于百度搜索引擎已收录的页面进行搜索的,就是该工具的搜索范围是已被百度收录的页面,如果你新上传的内容还没有被收录那是搜索不到的。如果网站收录少或者屏蔽百度的收录的网站根本不适用该功能。还有需要登陆的网站也不适合使用该工具。

2、用户行为不能监控

因为完成使用别人的工具,所以到您网站搜索的真实热词,你是无法进行统计与控制的。因这些数据不在你手上。像知名大型网站、电商网站没有几个使用百度的站内搜索功能的。

3、一些为网站定制的搜索功能无法实现

如搜索的样式还是在百度站内搜索功能上无法设置的。

建网站上凡科,网站数据加密,安全稳定可靠,强大云主机高性能云服务器,多重监控及备份保证数据安全安全。

0代码轻松建站!点击这里获取精美网站模板:凡科建站


欢迎分享,转载请注明来源:内存溢出

原文地址:https://54852.com/yw/12003235.html

(0)
打赏 微信扫一扫微信扫一扫 支付宝扫一扫支付宝扫一扫
上一篇 2023-05-20
下一篇2023-05-20

发表评论

登录后才能评论

评论列表(0条)

    保存