
搜索引擎按其工作方式主要可分为三种,分别是全文搜索引擎(Full Text Search Engine)、目录索引类搜索引擎(Search Index/Directory)和元搜索引擎(Meta Search Engine)。
一 基本概念
搜索引擎指自动从因特网搜集信息,经过一定整理以后,提供给用户进行查询的系统。因特网上的信息浩瀚万千,而且毫无秩序,所有的信息像汪洋上的一个个小岛,网页链接是这些小岛之间纵横交错的桥梁,而搜索引擎,则为用户绘制一幅一目了然的信息地图,供用户随时查阅。它们从互联网提取各个网站的信息(以网页文字为主),建立起数据库,并能检索与用户查询条件相匹配的记录,按一定的排列顺序返回结果。
二 工作原理
1抓取网页
每个独立的搜索引擎都有自己的网页抓取程序(spider)。Spider顺着网页中的超链接,连续地抓取网页。被抓取的网页被称之为网页快照。由于互联网中超链接的应用很普遍,理论上,从一定范围的网页出发,就能搜集到绝大多数的网页。
2处理网页
搜索引擎抓到网页后,还要做大量的预处理工作,才能提供检索服务。其中,最重要的就是提取关键词,建立索引文件。其他还包括去除重复网页、分词(中文)、判断网页类型、分析超链接、计算网页的重要度/丰富度等。
3提供检索服务
用户输入关键词进行检索,搜索引擎从索引数据库中找到匹配该关键词的网页;为了用户便于判断,除了网页标题和URL外,还会提供一段来自网页的摘要以及其他信息。
百度搜索引擎是通过蜘蛛抓取网站信息的,蜘蛛的抓取方式一般可以分为积累式抓取和增量式抓取两种。积累式抓取是指从某个时间开始,通过遍历的方式抓取系统所能允许存储和处理的所有页面,而增量式抓取是指在具有一定量规模的网页集合的基础上,采用更新数据的方式选取已经在集合中的过时网页进行抓取,以保证所抓取到的数据与真实网络数据做够接近。
那么是搜索引擎的抓取优先级呢?在信息抓取阶段搜索引擎掌握的信息往往是局部的,因而为搜索引擎设计一个好的抓取优先级策略并不是一件容易的事情,这里说的是一个深度抓取的优先策略。深度优先抓取它是以抓取到连接结构关系中的所有内容为主要目的的,具体实现方式是沿着树形的深度遍历树的节点,尽可能深的搜索树的分支,如果发现目标,则算法中止。
深度优先抓取过程中,抓取程序从起始页开始,一个链接一个链接跟踪下去,处理完这条线路最低端之后再转入下一个起始页,继续跟踪链接。由于深度优先策略在面临数据量爆炸性增长的万维网环境时具有容易陷入抓取“黑洞”等缺陷,因此很少被现代搜索引擎的抓取子系统所采用。
搜索引擎的工作原理总共有四步:
第一步:爬行,搜索引擎是通过一种特定规律的软件跟踪网页的链接,从一个链接爬到另外一个链
接,所以称为爬行。
第二步:抓取存储,搜索引擎是通过蜘蛛跟踪链接爬行到网页,并将爬行的数据存入原始页面数据库。
第三步:预处理,搜索引擎将蜘蛛抓取回来的页面,进行各种步骤的预处理。
第四步:排名,用户在搜索框输入关键词后,排名程序调用索引库数据,计算排名显示给用户,排名过程与用户直接互动的。
不同的搜索引擎查出来的结果是根据引擎内部资料所决定的。比如:某一种搜索引擎没有这种资料,您就查询不到结果。
扩展资料:
定义
一个搜索引擎由搜索器、索引器、检索器和用户接四个部分组成。搜索器的功能是在互联网中漫游,发现和搜集信息。索引器的功能是理解搜索器所搜索的信息,从中抽取出索引项,用于表示文档以及生成文档库的索引表。
检索器的功能是根据用户的查询在索引库中快速检出文档,进行文档与查询的相关度评价,对将要输出的结果进行排序,并实现某种用户相关性反馈机制。用户接口的作用是输入用户查询、显示查询结果、提供用户相关性反馈机制。
起源
所有搜索引擎的祖先,是1990年由Montreal的McGill University三名学生(Alan Emtage、Peter
Deutsch、Bill Wheelan)发明的Archie(Archie FAQ)。Alan Emtage等想到了开发一个可以用文件名查找文件的系统,于是便有了Archie。
Archie是第一个自动索引互联网上匿名FTP网站文件的程序,但它还不是真正的搜索引擎。Archie是一个可搜索的FTP文件名列表,用户必须输入精确的文件名搜索,然后Archie会告诉用户哪一个FTP地址可以下载该文件 。
由于Archie深受欢迎,受其启发,Nevada System Computing Services大学于1993年开发了一个Gopher(Gopher FAQ)搜索工具Veronica(Veronica FAQ)。Jughead是后来另一个Gopher搜索工具。
参考资料来源:百度百科-搜索引擎
搜索引擎的整个工作过程视为三个部分:蜘蛛在互联网上爬行和抓取网页信息,并存入原始网页数据库;对原始网页数据库中的信息进行提取和组织,并建立索引库;根据用户输入的关键词,快速找到相关文档,并对找到的结果进行排序,并将查询结果返回给用户。
1、网页抓取
Spider每遇到一个新文档,都要搜索其页面的链接网页。搜索引擎蜘蛛访问web页面的过程类似普通用户使用浏览器访问其页面,即B/S模式。引擎蜘蛛先向页面提出访问请求,服务器接受其访问请求并返回HTML代码后,把获取的HTML代码存入原始页面数据库。
2、预处理,建立索引
为了便于用户在数万亿级别以上的原始网页数据库中快速便捷地找到搜索结果,搜索引擎必须将spider抓取的原始web页面做预处理。网页预处理最主要过程是为网页建立全文索引,之后开始分析网页,最后建立倒排文件(也称反向索引)。
3、查询服务
在搜索引擎界面输入关键词,点击“搜索”按钮之后,搜索引擎程序开始对搜索词进行以下处理:分词处理、根据情况对整合搜索是否需要启动进行判断、找出错别字和拼写中出现的错误、把停止词去掉。接着搜索引擎程序便把包含搜索词的相关网页从索引数据库中找出,而且对网页进行排序,最后按照一定格式返回到“搜索”页面。
扩展资料
在信息抓取阶段搜索引擎掌握的信息往往是局部的,因而为搜索引擎设计一个好的抓取优先级策略并不是一件容易的事情,这里说的是一个深度抓取的优先策略。深度优先抓取它是以抓取到连接结构关系中的所有内容为主要目的的,具体实现方式是沿着树形的深度遍历树的节点,尽可能深的搜索树的分支,如果发现目标,则算法中止。
深度优先抓取过程中,抓取程序从起始页开始,一个链接一个链接跟踪下去,处理完这条线路最低端之后再转入下一个起始页,继续跟踪链接。
参考资料来源:百度百科-搜索引擎
参考资料来源:百度百科-搜索引擎技术
搜索引擎的工作原理:
1、搜集信息
搜索引擎的信息搜集基本都是自动的。
搜索引擎利用称为网络蜘蛛的自动搜索机器人程序来连上每一个网页上的超链接。
机器人程序根据网页连到其中的超链接,就像日常生活中所说的一传十,十传百,从少数几个网页开始,连到数据库上所有到其他网页的链接。
理论上,若网页上有适当的超链接,机器人便可以遍历绝大部分网页。
2、整理信息
搜索引擎整理信息的过程称为“创建索引”。
搜索引擎不仅要保存搜集起来的信息,还要将它们按照一定的规则进行编排。这样,搜索引擎根本不用重新翻查它所有保存的信息而迅速找到所要的资料。
3、接受查询
用户向搜索引擎发出查询,搜索引擎接受查询并向用户返回资料。
搜索引擎每时每刻都要接到来自大量用户的几乎是同时发出的查询,它按照每个用户的要求检查自己的索引,在极短时间内找到用户需要的资料,并返回给用户。
目前,搜索引擎返回主要是以网页链接的形式提供的,这样通过这些链接,用户便能到达含有自己所需资料的网页。
通常搜索引擎会在这些链接下提供一小段来自这些网页的摘要信息以帮助用户判断此网页是否含有自己需要的内容。
FLV流媒体格式是一种新的视频格式,全称为Flash Video。由于它形成的文件极小、加载速度极快,使得网络观看视频文件成为可能,它的出现有效地解决了视频文件导入Flash后,使导出的SWF文件体积庞大,不能在网络上很好的使用等缺点。
视频分享类网站的出现改变了人们的上网习惯和网络发展方向,更是让FLV格式的视频文件迅速在网络上普及了起来。现在,只要是你想的到的视频,几乎都能在网上迅速下载到FLV版本。这些方便网络传输的视频文件在改变着互联网的同时,也为手机用户提供了非常好的片源!
分辨率合适、大小如意、下载速度快、通用性高!这些特性无不和手机**的要求严丝合缝。因此,今天我们跟大家分享一下FLV格式**抓取下载方法,希望能够为喜欢看**的朋友提供一些帮助。
网站优化SEO原理
在进行seo优化的过程中,我们还要对各种情况都进行合理的分析,真正的去认识到整个网站的一些情况,这样在今后优化过程中,也可以找到正确的方向。下面是我整理的网站优化SEO原理相关知识,希望对你有帮助!
一、搜索引擎的搜索过程
1、抓取网页:每个独立的搜索引擎都有自己的网页抓取程序(spider,即通常所说的“蜘蛛”程序)。Spider顺着网页中的超链接,连续地抓取网页。由于互联网中超链接的应用很普遍,理论上,从一定范围的网页出发,就能搜集到绝大多数的网页。
搜索引擎的自动信息搜集功能分两种。一种是定期搜索,即每隔一段时间(比如Google一般是28天),搜索引擎主动派出“蜘蛛”程序,对一定IP地址范围内的互联网站进行检索,一旦发现新的网站,它会自动提取网站的信息和网址加入自己的数据库。 另一种是提交网站搜索,即网站拥有者主动向搜索引擎提交网址,它在一定时间内(2天到数月不等)定期向你的网站派出“蜘蛛”程序,扫描你的'网站并将有关信息存入数据库,以备用户查询。
2、处理网页:搜索引擎抓到网页后,还要做大量的预处理工作,才能提供检索服务。其中,最重要的就是提取关键词,建立索引文件。其他的 *** 作还包括去除重复网页、分析超链接、计算网页的重要度等等。
3、提供检索服务:用户输入关键词进行检索,搜索引擎从索引数据库中找到匹配该关键词的网页;为了用户便于判断,除了网页标题和URL外,还会提供一段来自网页的摘要以及其他信息等。
二、搜索引擎优化(SEO)简介
SEO是英文Search Engine Optimization的缩写,中文意思即是搜索引擎优化。SEO的主要工作是通过了解各类搜索引擎如何抓取互联网页面、如何进行索引以及如何确定其对某一特定关键词的搜索结果排名等技术,来对网页进行相关的优化,使其提高搜索引擎排名,从而提高网站访问量,最终提升网站的销售能力或宣传能力的技术。
三、国内各搜索引擎的使用率分析
百度搜索:7225% GOOGLE搜索:1705%
QQ搜索:436% 雅虎搜索:331%
搜狐-搜狗:181% 其它搜索引擎:122%
;当搜索引擎蜘蛛准备爬行某个网页的时候,会对服务器发出访问申请,申请通过后,搜索引擎会先去爬行网站的robotstxt文件,针对robotstxt文件中所禁止搜索引擎抓取的局部,搜索引擎将不会去抓取。接着服务器就会给搜索引擎返回当前页面的html代码,现在有很多的站长工具中都会有模仿蜘蛛抓取网页代码的功能,大家有兴趣可以去查询,这里值得注意的就是页面代码中汉字所占的比例,因为搜索引擎在预处置阶段会把汉字局部筛选进去分析网页的内容和关键词,汉字所占比例越多说明网页返回的有效信息越多,越有利于搜索引擎对页面的分析。这也就是为什么大家在编写网站代码的时候,会对CSS和Javascript代码进行外部调用,对要添加alt属性,对链接要添加titl属性的缘故,都是为了降低页面代码所占的比例,提高文字所占比例,当然相关性也是一方面。
搜索引擎爬行网页都是沿着链接进行爬行的爬行网页的时候并不是一个蜘蛛在爬行,一般都是由多个蜘蛛进行爬行,爬行的方式有两种,一种是深度爬行,一种是广度爬行,两种方式都可以爬遍一个网站的所有链接,通常都是两种方式并行的但实际上由于资源的限制,搜索引擎并不会爬遍一个网站的所有链接。
既然搜索引擎不可能爬遍整个网站的所有链接,那么作为seo人员来说,接下来的工作就是要吸引蜘蛛尽可能多的去爬行网站链接,为蜘蛛的爬行发明轻松便当的环境,尤其是针对一些重要的链接,那么对于一个网站来说如何去吸引蜘蛛呢?影响蜘蛛爬行的因素有哪些呢?
1网站的权重
一个权重高的网站,蜘蛛往往会爬行的很深,关于如何提高网站的权重。
2页面是否经常更新
这是一个老生常谈的问题了虽然网站的更新和维护工作异常的辛苦,但是没办法,人家搜索引擎就喜欢新鲜的血液,如果网站的更新比较勤快的话,搜索引擎自然来的也勤快,来的多了新链接被抓取的几率当然也就大了
3高质量导入链接
一个页面的导入链接相当于页面的入口,原理很简单,导入链接多了搜索引擎进入你网页的渠道也就多了如果是一条高质量的导入链接,那么搜索引擎对网页链接爬行的深度也会增加。
4与首页距离越近的链接,被爬行的几率越大
一个网站的首页是权重最高的那么距离它越近的页面,被赋予的权重也会越高,被蜘蛛爬行的几率当然越大,这是网站seo优化中常用到一个就近原理,可以应用到很多方面,比如网站的主导航中第一个栏目比最后一个栏目的权重高,距离锚文本越近的文字是搜索引擎重点照顾的地方等等。
当搜索引擎对页面进行抓取之后,会将页面中的链接解析出来,通过与地址库中的链接进行匹配对比分析,将没有进行爬行的新链接放入到待访问地址库,然后派出蜘蛛对新链接进行爬行。
搜索引擎对网页进行爬行和抓取的时候,并不是进行简单的爬行和抓取工作,而是同时并发有大量的其他 *** 作,其中很重的一项工作就是对网页内容进行检测,通过截取网页上的内容与数据库中的信息做对比,如果是一些权重比较低的网站出现大量转载或者伪原创,可能蜘蛛爬行到一半就会离开,这也就是为什么通过网站日志看到有蜘蛛来,但是页面没被收录的原因。所以说,即使是进行伪原创,也是需要一定的技巧的除非你网站权重特别高。
以上就是关于搜索引擎分为哪几类全部的内容,包括:搜索引擎分为哪几类、搜索引擎技术的抓取优先、搜索引擎工作原理等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!
欢迎分享,转载请注明来源:内存溢出
微信扫一扫
支付宝扫一扫
评论列表(0条)