
网络蜘蛛即Web Spider,是一个很形象的名字。把互联网比喻成一个蜘蛛网,那么Spider就是在网上爬来爬去的蜘蛛。网络蜘蛛是通过网页的链接地址来寻找网页,从 网站某一个页面(通常是首页)开始,读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到把这个网 站所有的网页都抓取完为止。如果把整个互联网当成一个网站,那么网络蜘蛛就可以用这个原理把互联网上所有的网页都抓取下来。
——这样看来,网络蜘蛛就是一个爬行程序,一个抓取网页的程序。
python爬虫一般都爬什么信息?
一般说爬虫的时候,大部分程序员潜意识里都会联想为Python爬虫,为什么会这样,我觉得有两个原因:
1Python生态极其丰富,诸如Request、Beautiful Soup、Scrapy、PySpider等第三方库实在强大
2Python语法简洁易上手,分分钟就能写出一个爬虫(有人吐槽Python慢,但是爬虫的瓶颈和语言关系不大)
爬虫是一个程序,这个程序的目的就是为了抓取万维网信息资源,比如你日常使用的谷歌等搜索引擎,搜索结果就全都依赖爬虫来定时获取
看上述搜索结果,除了wiki相关介绍外,爬虫有关的搜索结果全都带上了Python,前人说Python爬虫,现在看来果然诚不欺我~
爬虫的目标对象也很丰富,不论是文字、、视频,任何结构化非结构化的数据爬虫都可以爬取,爬虫经过发展,也衍生出了各种爬虫类型:
● 通用网络爬虫:爬取对象从一些种子 URL 扩充到整个 Web,搜索引擎干的就是这些事
● 垂直网络爬虫:针对特定领域主题进行爬取,比如专门爬取小说目录以及章节的垂直爬虫
● 增量网络爬虫:对已经抓取的网页进行实时更新
● 深层网络爬虫:爬取一些需要用户提交关键词才能获得的 Web 页面
不想说这些大方向的概念,让我们以一个获取网页内容为例,从爬虫技术本身出发,来说说网页爬虫,步骤如下:
模拟请求网页资源
从HTML提取目标元素
数据持久化
:《Python教程》以上就是小编分享的关于python爬虫一般都爬什么信息的详细内容希望对大家有所帮助,更多有关python教程请关注环球青藤其它相关文章!
方法:学会分析和利用用户的需求,在用户需求的基础上思考用户到底会搜索哪些词汇;百度搜简行SEO@整@理@!
2URL拼写规则——URL静态化
如果含有?或=,则为动态,可以将动态转为静态。
2目录层级
最多三层,不要超过四层
2目录和文件夹包含关键词,可采用拼音、英文
Appstore、app、cheng、kehuan
分隔字符使用“_”
2导航链接
主导航醒目清晰,杜绝修饰词语
为导航链接增加title
不要用javascript做导航链接
2网页里的链接
文章内容中的文字/链接增加title,增加描述文字
在网页里利用诸如“上一篇、下一篇、TAG、分类”等方式推荐相关性网页
2网站地图
保证站点内没有死链接
多层级的网站地图
如果网站地图上的链接超过大约100个,则最好将网站地图拆成多个网页
多采用文本链接,不用或少用修饰性
2反向链接
二级域名的反向链接,充分利用二级域名做好互链
尽量使二级域名拥有不同的IP
优质反向链接的取得途径:网站媒体合作,如网站联盟等;友情链接;登录分类目录、DMOZ目录
2优质的反向链接
搜索引擎中目录的链接DMOZ以及已加入目录的网站的链接
与你的主题相关或互补的网站
PR值不低于4的网站
流量大、知名度高、频繁更新的网站
具有很少导出链接的网站
以你的关键词在搜索结果中排名前三页的网站
内容质量高的网站
2关键字的选择
一个页面确定3个以内的核心关键词,围绕核心关键字进行排列组合产生关键词组或短句;核心关键词可以选择页面内出现最多的词语,要符合搜索者的心理,不用意义太泛的关键词。
2关键词的分布
无所不在,有所侧重
这些地方用一次关键词:网页Title、说明标签、正文标题、网址URL(英语/单词/拼音)、黑体、斜体、页面内容(尤其第一段、最后一段)、的ALT标签。
2关键词的密度
一般为2%~8%,热门关键词6%左右
2相关性控制
目的是通过设置页面元素,突出该页主关键词,提升主关键词的排名
去除与内容不相关的信息,减小信噪比
增加同类文章列表及文内链接
2关键词Tags
针对热门的关键词制作Tags系统,增加页面间的相关性,提升关键词的排名
2Title
简短精炼,高度概括,含有关键词,但关键词不宜过多,不要超过3个词组
前几个词对搜索引擎最重要,关键词位置尽量靠前
避免罗列式title
Title的长度最好不要超过40个字符
每个页面的title不要完全相同
2关键词
每个词都能在内容中找到相应的匹配
2描述
字符数含空格在内不要超过200个字符
补充在title和keywords中未能充分表述的说明
2Javascript脚本
不要用javascript脚本制作链接
将脚本文件作为外部文件使用
2CSS样式
通过css控制HTML标签的风格,注意把所有css文件单独存放在外部文件中
2<H1></H1><b></b>
在文章标题或者导航链接不宜采用统一的css,应适当采用<H>和<b>或者标红
2布局及框架
源码中的布局控制:导航>相关文章>正文>左侧>右侧>版权说明
尽量减少Table嵌套
2页面去冗
去掉冗余代码和空格:正常情况下一个页面的文件大小在15k左右,最好不要超过50k
脚本和css采用外部文件的形式
采用DIV+CSS的形式,减少表格嵌套:尽量保持页面简洁,内容部分要尽量大于代码
优化:压缩,alt,周边文字
2规避SEO作弊
会被认为SEO作弊的行为:关键词堆砌、虚假关键词、隐形文本/链接、重定向、垃圾链接、隐形页面
对SEO作弊的惩罚:降权,屏蔽,封站
查看站点是否受到惩罚,搜索引擎栏中输入:site:unsbizcom
2遵循SEO规则设计页面
源码干净
突出重点
加强相关性
做足链接
1、关键词分析(也叫关键词定位)
这是进行SEO优化最重要的一环,关键词分析包括:关键词关注量分析、竞争对手分析、关键词与网站相关性分析、关键词布置、关键词排名预测。
2、网站架构分析
网站结构符合搜索引擎的爬虫喜好则有利于SEO优化。网站架构分析包括:剔除网站架构不良设计、实现树状目录结构、网站导航与链接优化。
3、网站目录和页面优化
SEO不止是让网站首页在搜索引擎有好的排名,更重要的是让网站的每个页面都带来流量。
4、内容发布和链接布置
搜索引擎喜欢有规律的网站内容更新,所以合理安排网站内容发布日程是SEO优化的重要技巧之一。链接布置则把整个网站有机地串联起来,让搜索引擎明白每个网页的重要性和关键词,实施的参考是第一点的关键词布置。友情链接战役也是这个时候展开。
5、与搜索引擎对话
向各大搜索引擎登陆入口提交尚未收录站点。在搜索引擎看SEO的效果,通过site:你的域名,知道站点的收录和更新情况。通过domain:你的域名或者link:你的域名,知道站点的反向链接情况。更好的实现与搜索引擎对话,建议采用Google网站管理员工具。
6、建立网站地图SiteMap
根据自己的网站结构,制作网站地图,让你的网站对搜索引擎更加友好化。让搜索引擎能过SiteMap就可以访问整个站点上的所有网页和栏目。
7、高质量的友情链接
建立高质量的友情链接,对于SEO优化来说,可以提高网站PR值以及网站的更新率,都是非常关键性的问题。
8、网站流量分析
网站流量分析从SEO结果上指导下一步的SEO策略,同时对网站的用户体验优化也有指导意义。流量分析工具,建议采用Google流量分析。
1使用与关键字相关的文章标题
如果你正在写一篇关于“XXXXX”的文章,那么你一定要在标题中使用关键字“XXXXX”;如果文章是关于“网络赚钱”的,那么标题中一定要能够反映出你在介绍“网络赚钱”。
2使用关键字元标签
关键字是面向搜索引擎机器人的语言,如果使用恰当,你的搜索排名将会自动提升。保证在文章中使用一些相关的关键字,UTW是一款非常棒的WordPress插件,它将把你为文章添加的Tag作为关键字元标签。
3使用相关的Tag和关键字
如果你的文章是关于“iPhone”的,那么添加关键字时就要使用像“Apple,Apple-iPhone,iPhone”这样的字眼,避免使用像“Mobile,Unlock-Mobile”这些对搜索引擎缺乏吸引力的关键字或Tag,并且可能会导致你的blog受到降权处罚。
4使用短语关键字
如果你写了一篇描述性的、组织良好的文章,那么使用一些短语关键字是非常棒的主意。举个例子,如果你的文章介绍了“MicrosoftCompatibilityPackForOffice2007”,那么下面这些不错的短语关键字很有可能会帮你获得搜索引擎的青睐:“Microsoft-Compatibility-Pack,Office-2007-Compatibility-Pack,Download-Microsoft-Compatibility-Pack,Download-Office-2007-Compatibility-Pack”。
5使用关键字建议工具
如果你想告诉我,你已经在使用overture关键字建议工具了,那么我的建议就是:你应该立刻停止使用那个工具。因为我们有GoogleAdwords关键字工具,这个工具不仅能帮你的文章找到优质的关键字,而且还能提供特定关键字在搜索引擎中的趋势。
6在文章正文中使用关键字
记住,一定要在正文开始某处使用至少一次目标关键字。这将会把那些仍然钟爱于旧式“description元标签”的搜索引擎机器人吸引过来。
7在PostSlug(文章缩略名)中使用关键字
其实我不需要如此强调这一点,因为如果你使用了与关键字相关的文章标题,那么你已经有了关键字相关的PostSlug,这要归功于WordPress自动生成PostSlug的功能。但是,如果你必须手动为每篇文章指定一个PostSlug,一定要记得这一条。(译注:中文blog如果使用postname作为永久链接,最好手动指定英文PostSlug。)
8在标题和粗体字中使用关键字
搜索引擎非常喜欢你有目标地展示关键字。在strong或h1,h2,h3这些标签中使用关键字可以帮你获取搜索引擎的关注。
title标签对于提高你网站的排名起到非常重要的作用。尽管如此,有很多人对于怎样去构造一个合适的title还不是很清楚。以下是我对title的一点看法,欢迎大家提出建议、批评。
1、title前7-9个词是最重要的。但是有很多人将他们公司的名字放在titile的最前面,这是多么浪费啊。这好像要你的孩子不带课本去上学一样。
2、第二是语法,我注意到google比较喜欢那些符合语法结构的title
在搜索结果中,受title的影响。最好是避免列举式的title。如:
“小饰物,蓝色的小饰物,绿色的小饰物”
3、如果你对title有一定了解的话,你应该知道,title将会影响到搜索引擎的排名结果。你应该注意他应被组织得有意义。
9在的标题和Alt信息中使用关键字
在的Alt信息和标题中使用关键字是为你的blog进行seo的又一个好方法。
10使用与关键字相关的超链接
搜索引擎优化和搜索引擎之间关系
在第一代搜索引擎发表后,搜索引擎 *** 作员变得对搜索引擎优化社区感兴趣。在一些早期搜索引擎,譬如INFOSEEK,要得到第一名不过是把顶尖的网页代码抓下、放在您的网站、并提交个URL让搜索引擎立即索引并排名该页这么简单。
由于搜寻本身的高价值和标定性,搜索引擎和搜索引擎优化员间自始便存在对抗的关系。最近一次于2005年召开的AirWeb年会,旨在谈论缩小这种敌对关系差距,和如何最小化某些太过于侵略性优化造成的损坏效果。
某些更具侵略性的优化员产生自动化的站点,或者使用某些最终会让该网域被搜索引擎扫地出门的技术。而大多数优化公司则销售长期、低风险的策略服务,而且大部分使用高风险战略的优化公司,则在他们旗下的会员点使用、产生商业线索、或者纯内容站点,而非让它们客户站亲身涉险。
这里提供一个使用侵略性优化技术的优化公司让他们客户被取缔的案例。华尔街时报描述了某个使用高风险技术和涉嫌没有透露客户得承担那些风险的公司。Wired报告了该公司起诉某博客,因为提及该公司被取缔。Google的克特斯(MattCutts)稍后确认Google确实取缔了TrafficPower以其他们的客户群。
某些搜索引擎对搜索引擎优化产业提供了援助,而且是常常是优化会议和研讨会的赞助商和来访贵宾。实际上,自从付费收录(paidinclusion)降临,一些搜索引擎现在在网站优化社区的健康有了既得利益。所有主要搜索引擎都提供资讯/指南以协助站点优化:Google、Yahoo,和MSN。Google提供了Sitemaps程序帮助网站员学习如果Google有任何问题检索他们的网站时该如何做,并且提供Google流量与您网站关系间无价的丰富资料。雅虎的SiteExplorer,旨在提供一个免费方式递交您的URL,该方法能让你决定打算让雅虎索引多少页、索引多深。雅虎的AmbassadorProgram与Google的AdvertisingProfessionals提供专家级的认证。
SEO即搜索引擎优化,是网站优化里针对搜索引擎友好度和搜索结果排名的优化手段集合。
有利于网站优化排名的站内因素
Google有超过200个排名因素,百度也有超过100多。这么多的因素中,哪些是经常性的、至关性的呢?以下是结合作者和尚奇的SEO专家们从边做边学中推测总结出来的一些要点。其中,有些衡量标准是Google的注册专利。(切记:如果这些有利的因素被滥用就会立刻转变成破坏性的因素!)
关键词嵌入URL中。第一个词最重要,第二个其次,依此类推。
关键词在域名中。英文网站比较注重。
关键词在TitleTag中。关键词尽量朝最前,标签以20个汉字或者60个英语字母为最多。
关键词在DescriptionTag网页摘要标签中。体现主题,以100个汉字或者200个英文字母为最多。Google不太依赖这个标签,但是常常去用它。
关键词在KeywordTag关键词标签中。体现主题,不要多于10个词。这10个词必须出现在网页的内文中,否则可能遭受“无关性”惩罚。Google已经不在看这个标签,其他的搜索引擎,比较明显的是雅虎。
关键词在内文中的密度。5%~20%的比例(关键词总数/全文词总数)比较合适。
单个关键词在内文中的密度。1%~6%的比例(每个关键词出现次数/全文词总数)比较合适。
关键词在H1、H2、H3标签中,依照高低顺序合理排列。
关键词的字体大小。<strong>与<bold>一样,斜体字也是表示强调。迈特·卡茨在2006年7月指出这两点。百度搜简行SEO@整@理@!
关键词相邻度。两个或者以上的关键词挨得比较近最好。
关键词显著度。关键词出现在页首、粗体、大型字体比较显著。
关键词在<alt>图像替换标签中。注意:不要过分添加,防止成为垃圾信息。
关键词在链接源头文字中。注意和链接对方的网页主题衔接。
内部链接使用关键词。依靠关键词来串连网页。
内部链接不要有断点。检查各个链接都有效。
网站深度尽量小于4层。制造效率高的树形网站结构。
导出链接到优秀网站。这个是Google专利标准。注意:不要链接到“链接养殖场”那样的网站,否则殃及己身。
导出链接使用关键词并与网页话题相关。这个是Google专利标准。链接语句必须有描述作用。
导出链接稳定性、有效。这个是Google专利标准。
导出链接少于100个。Google是这么说的,但是可以多出2~3倍。
域名后缀。gov、e、info在传统上被认可程度最高,但是随着垃圾网站的泛滥,这个也变得意义不大。
网页大小。尽量争取限制在100KB以内(根据具体情况),最好的是<40的网页。
URL中的连接符“-”。英文网页多个词之间以“-”组成文件名较好,如“table-tennis”。但是不要用“-”超过4次,以免被疑为作弊。
网页新鲜感。这个是Google专利标准。注意网页的更新。
网站信息更新量。新旧网页的比例。
链接的新鲜感。这个是Google专利标准。新链接来自可信度高的网站,这个新鲜感就是好的。
网站更新频率。更新频繁才能招致Google爬虫常来访问而更新网页快照。
网页主题。每个网页的主题要鲜明并且和整站主题相关。
URL长度。虽然IE可以显示长达2000个字符的URL,但是越短越好,尽量少于100个字符。
网站规模。Google喜欢大网站,如果你的网站能丰富内容,那还是从10页增加到30页吧,否则很难有分量。
网站年龄。资格越老越好,这个是Google专利标准。不要轻易更换域名就是这个原因。
网页年龄和网站年龄。老网站中的新网页最容易受到Google的认可。
以上只是内部因素中有利的部分。其实SEO只是网站优化的一部分,网站优化包含用户体验度优化和SEO两个部分,只有同时做好才能真正为企业带来效益。
首先说明一点的是seo是不需要任何软件的,软件是没法帮你做排名的。这是为什么呢,其实很简单,你仔细一想就知道了,如果seo能用软件刷的话,那市场还需要seoer干嘛,公司都去买软件了,还招什么seo啊!然后我说下什么是seo,如何做好seo。
为什么网站需要SEO
1seo就是为了让我们的网站在搜索引擎上的曝光率达到最高,让别人在亿万的搜索结果中第一个看到我们,那么就有可能产生订单或者点击我们的广告,才可以产生盈利,所以说,对于一个希望盈利的网站,seo是非常重要的。
2从搜索引擎获得的流量质量高。从搜索引擎来的用户是主动找寻的,意向很明确,如果你的网站这个时候出现在他们的眼前,访问的几率以及转化率将大大增高。
3相对于直接的网址推广而言,seo的针对性强,可信度高。
4长期有效的推广手段。竞价排名、网络广告、PPC等一旦停止投放,同时从这些渠道获取的流量也将停止。而网站seo优化只要通过非作弊的手段把排名做上去了,就能维持相当长的一段时间。
搜索引擎排名规则
搜索引擎的任务是,把最符合用户搜索需求的网站排在检索结果的前面。搜索引擎通过一系列复杂的算法,来给每个网站打分,并排名。根据经验,我们大概可以发现搜索引擎一般通过三个方面来评估网站。
搜索引擎排名的三大指标
网站的受欢迎程度:在互联网上被广泛链接的网站。在检索结果中,点击率高。(权重高,外链多)
网站质量:网站访问量大,原创内容多,页面更新速度快等。(原创高,内容多)
网站的相关度:网站的内容主题与用户搜索的关键词,密切相关。(内容相关度高)
内容优化
对网站来说,提供高质量的、对用户有益的内容恐怕是所有讨论的各种要素里最重要的一部分。用户很容易分辨出网站提供的内容是否是高质量的,并且他们也乐意于通过各种社交网络来向自己的朋友推荐好的网站,这同时也会提高网站在用户和搜索引擎中的声望,而这一切都离不开高质量的内容。
1、撰写容易阅读,浅显易读的内容,有条理地组织内容,段落清晰,让读者能够清楚地了解内容的起始和逻辑,避免将大量不同主题的内容放在同一页上,却没有任何的分段、标识和层次划分。
关键词优化
关键词的布局,最重要的几个位置是开头,特别是第一段开头的50-150个字,需要包含一次关键词,然后中间正文中,出现2-3次关键词或者近义词,文章的结尾,也包含一次关键词就可以了。
在关键词的布局中,还有一个概念是,关键词密度。关键词密度(KeywordDensity)也叫关键词频率(KeywordFrequency),它是用来量度关键词在网页上出现的总次数与其他文字的比例,一般用百分比表示。相对于页面总字数而言,关键词出现的频率越高,那么关键词密度也就越大。简单地举个例子,如果某个网页共有100个字符,而关键词本身是两个字符并在其中出现5次,则可以说关键词密度为10%。通常认为,页面的关键词密度应该保持在2%到8%之间。
许多搜索引擎都将关键字密度作为其排名算法考虑因素之一,每个搜索引擎都有一套关于关键字密度的不同的数学公式。合理的关键字密度可使你获得较高的排名位置,密度过大,起到相反的效果。
关键字密度有时候会影响到关键词的排名,不建议采取一些极端的方法来提高关键字密度。合理的目标关键字密度可以通过关注一些长尾关键字来进行优化。长尾关键词(LongTailKeyword)是指网站上非目标关键词但也可以带来搜索流量的关键词。长尾关键词的特征是比较长,往往是2-3个词组成,甚至是短语。通过长尾关键词挖掘工具可以找到不少长尾关键词,将这些词组织到文章里,就可以做到既不提高关键词密度,又能提升关键词在页面的权重。
在正文里,要围绕关键词自然地写作,千万不要生硬地将需要优化的关键词直接插到文章中。文章中,尽量使用关键词的近义词、同义词。
网站结构优化
网站内部结构优化对网站建设起到计划和指导的作用,对网站的内容维护、后期SEO起到关键作用。
URL地址优化
为网站上的文件创建具有良好描述性的分类名和文件名,不仅可以更好地组织网站结构,还有助于搜索引擎更有效地抓取文件。虽然搜索引擎能够抓取复杂的URL,但提供相对简单的URL,对于用户和搜索引擎来说都是有帮助的。
优化URL结构的主要方法有,网站自始至终都使用一个URL地址,不要来回变更地址,如果用带www的域名地址,则将不带www的域名使用301重定向技术重定向到主要地址,避免使用大小写字母的URL,网站的URL尽量使用静态URL,避免使用动态URL,URL越短越好,URL的内容使用拼音或者英文最好,方便记忆。
对于动态网站来说,使用伪静态技术可以让网站的外部看起来和静态网站一样,利于搜索引擎的索引。
目录结构
目录结构最好用一级到二级,不要超过三级。目录的组织方式尽量采用:首页-》栏目页-》内容页。目录名采用拼音或者英文。避免使用多层嵌套的子目录。
网站导航
网站的导航功能对于帮助用户迅速找到他们想要的内容来说是很重要的,它对帮助搜索引擎理解该网站有哪些重要内容同样非常重要。网站地图是将网站上用于展示网站结构的网页以层级式列表的方式展示。网站导航的主要目的是为了方便用户,但同时它也有利于搜索引擎对整个网站页面更全面地抓取。
主要的网站导航方法有,创造一个自然的层叠结构的网站地图页面,这个导航页面可以让用户很容易地从主干页面找到他们需要的特定内容,有必要的话可以在保证内部链接结构合理的基础上添加导航页。
使用面包屑(breadcrumb)导航模式,面包屑导航是指在网页顶端或者底部放置的一排内部链接,它使用户可以方便地回到上一层结构中的网页或者主页。大多数面包屑导航通常会从最具概括性的页面开始(通常是主页),越往右指向的页面内容越具体,例如"首页-》栏目-》具体文章标题"。
robotstxt
robotstxt是一种存放于网站根目录下的文本文件,用于告诉搜索引擎的爬虫(spider),此网站中的哪些内容是不应被搜索引擎的索引,哪些是可以被索引。robotstxt协议并不是一个规范,而只是约定俗成的,通常搜索引擎会识别这个文件,但也有一些特殊情况。
当我们不希望网站中的某些页面被搜索引擎抓取,也许这些网页在搜索结果中出现对于用户来说并没多大用处,就可以把这些页面放在robotstxt里,这可以保证网站的某些内容不出现在搜索结果中。
Sitemaps
Sitemaps可方便网站管理员通知搜索引擎他们网站上有哪些可供抓取的网页,有点象BLOG的RSS功能,是一个方便自己的服务,如果大家(互联网上所有的信息源)都采用了这种方式提交自己的更新的话,搜索引擎就再也不用派出那么多爬虫辛辛苦苦的到处乱窜了,任何一个站点,只要有更新,便会自动"通知"搜索引擎,方便搜索引擎进行索引。
Sitemaps文件通常是XML格式的,格式比较简单,Sitemaps协议以<urlset>开始标记开始,以</urlset>结束标记结束。每个网址包含一个作为父标记的<url>条目。每一个<url>父标记包括一个<loc>子标记条目。<loc>是网页文件的网址。此网址应以结构化标准的设计,将网站页面的实际内容与它们呈现的格式相分离。简单来说,就是将所有的字体、样式等表现形式都写成DIV+CSS的方式,CSS放在单独文件里,Javascript也放在单独文件,HTML里面只有文字内容。凡是可以使用外部文件调用的,就使用外部文件调用,可以不出现的,尽量不出现,在正文中,全部以文字为主,不要出现CSS代码。
这样做的好处是,HTML文件的代码被精简,文件变小,搜索引擎在索引网站页面时,可以更好地索引和识别网站的内容信息,并能准确抓取页面正文的内容。
Meta标签优化
对于Meta标签,主要有title、description、keywords三个地方,其余的meta标签不加也没事。就重要性而言,title在页面优化中绝对占据很重要的位置。
title标题标签告诉用户和搜索引擎一个特定网页的主题是什么。<title>标签通常放在HTML文档的<head>标签内。理想情况下,应该为网站的每一个网页创建唯一的title页面标题。
关于title的写作,title标签应该准确描述网页的内容,使用简短的,但具描述性的标题标签--短的标题同样可以包含丰富的信息。如果标题太长,搜索引擎只会在搜索结果里显示其部分内容。尽量不要堆积太多关键词,如果是长标题,可以包含关键词1-2次,而且关键词不用靠的太近。
description描述标签提供了关于这个网页的总括性描述,网页的标题可能是由一些单词和短语组成的,而网页的描述元标签则常常是由一两个语句或段落组成的。如果网页摘要里的某个词语恰好出现在用户的查询里,那么这个词语将被高亮显示,如果描述标签写的好,可以提升页面的点击率。
关于description的写作,description标签准确概括该网页的内容,每一个网页应该创建各不相同的描述标签,避免所有的网页或很多网页使用千篇一律的description标签。
keywords关键词标签,对于页面优化来说,重要性已经大不如前,甚至有种说法是,keywords标签已经没用了,不过,就算搜索引擎已经不将keywords考虑进,写一下keywords标签可能还会有些作用,不过keywords里面不要堆砌太多关键字,否则可能适得其反,写上4、5个核心关键字即可。
Heading标签优化
Heading标签(H标签)通常用来为用户呈现网页的结构。HTML语言里一共有六种大小的H标签,从最重要的<H1>到<H6>,权重依次降低。最常用的包括H1、H2标签,H1代表着大标题,H2是小标题。按照这个意思,最重要的关键词设置在H1标签中,和关键词相关的词组再放到H2标签中,依次往后推。
由于H标签通常会使某些文字比普通的文字大,对于用户来说,这样可以便于他们更直观地看出这些文字的重要性,多种渐变大小的H标签可以为网站的内容创建分层结构,从而使用户更容易地浏览网站。
对于网页内容页面的优化来讲,应该适度的使用H标签,从一般页面的写作来讲,文章的标题,就应该出现在H1标签中,小标题就出现在H2标签上。
前言
由于网络数据爬取行为具有高效检索、批量复制且成本低廉的特征,现已成为许多企业获取数据资源的方式。也正因如此,一旦爬取的数据设计他人权益时,企业将面临诸多法律风险。本文将从数据爬取行为的相关概述、数据爬取相关立法规定,结合数据爬取行为近期典型案例,探讨数据爬取行为的合规要点。
一、数据爬取行为概述
数据爬取行为是指利用网络爬虫或者类似方式,根据所设定的关键词、取样对象等规则,自动地抓取万维网信息的程序或者脚本,并对抓取结果进行大规模复制的行为。
使用爬虫爬取数据的过程当中,能否把握合法边界是关系企业生死存亡的问题。近些年大数据、人工智能的广泛使用,对各种数据的刚性需求,使数据行业游走在“灰色边缘”。面对网络数据安全的“强监管”态势,做好数据合规、数据风控刻不容缓。当前我国并没有相关法律法规对数据爬取行为进行专门规制,而是根据爬取数据的不同“质量”,主要通过《中华人民共和国著作权法》(以下简称“《著作权法》)、《中华人民共和国反不正当竞争法》(以下简称“《反不正当竞争法》”)、《中华人民共和国刑法》(以下简称“《刑法”》)等现有法律法规进行规制。
二、数据爬取相关法律责任梳理
(一)承担刑事责任
1、非法侵入计算机信息系统罪
《刑法》第285条第1款规定了“非法侵入计算机信息系统罪”,违反国家规定,侵入国家事务、国防建设、尖端科学技术领域的计算机信息系统的,处三年以下有期徒刑或者拘役。
典型案例:李某等非法侵入计算机信息系统罪(2018)川3424刑初169号
本案中,被告人李某使用“爬虫”软件,大量爬取全国各地及凉山州公安局交警支队车管所公告的车牌放号信息,之后使用软件采用多线程提交、批量刷单、验证码自动识别等方式,突破系统安全保护措施,将爬取的车牌号提交至“交通安全服务管理平台”车辆报废查询系统,进行对比,并根据反馈情况自动记录未注册车牌号,建立全国未注册车牌号数据库。之后编写客户端查询软件,由李某通过QQ、淘宝、微信等方式,以300-3000元每月的价格,分省市贩卖数据库查阅权限。
法院认为,被告人李文某为牟取私利,违法国家规定,侵入国家事务领域的计算机信息系统,被告人的行为均已构成非法侵入计算机信息系统罪。
2、非法获取计算机信息系统数据罪
《刑法》第285条第2款规定如下,违反国家规定,侵入前款规定以外的计算机信息系统或者采用其他技术手段,获取该计算机信息系统中存储、处理或者传输的数据,或者对该计算机信息系统实施非法控制,情节严重的,处三年以下有期徒刑或者拘役,并处或者单处罚金;情节特别严重的,处三年以上七年以下有期徒刑,并处罚金。同时,《最高人民法院、最高人民检察院关于办理危害计算机信息系统安全刑事案件应用刑事案件应用法律若干问题的解释》第1条对“情节严重”作出了具体的规定:“非法获取计算机信息系统数据或者非法控制计算机信息系统,具有下列情形之一的,应当认定为刑法第二百八十五条第二款规定的“情节严重”:(一)获取支付结算、证券交易、期货交易等网络金融服务的身份认证信息十组以上的;(二)获取第(一)项以外的身份认证信息五百组以上的;(三)非法控制计算机信息系统二十台以上的;(四)违法所得五千元以上或者造成经济损失一万元以上的;(五)其他情节严重的情形。”
典型案例:李某、王某等非法获取计算机信息系统数据、非法控制计算机系统案(2021)沪0104刑初148号
本案中,益采公司在未经淘宝(中国)软件有限公司授权许可的情况下,经李某授意,益采公司部门负责人被告人王某、高某等人分工合作,以使用IP代理、“X-sign”签名算法等手段突破、绕过淘宝公司的“反爬虫”防护机制,再通过数据抓取程序大量非法抓取淘宝公司存储的各主播在淘宝直播时的开播地址、销售额、观看PV、UV等数据。至案发,益采公司整合非法获取的数据后对外出售牟利,违法所得共计人民币22万余元。法院认为被告人李某、王某、高某等人构成非法获取计算机信息系统数据罪,分别判处有期徒刑二年六个月、一年三个月不等,并处罚金。
法院认为,被告人李文某为牟取私利,违法国家规定,侵入国家事务领域的计算机信息系统,被告人的行为均已构成非法侵入计算机信息系统罪。
3、提供侵入、非法控制计算机信息系统程序、工具罪
《刑法》第285条第3款对该罪规定如下,提供专门用于侵入、非法控制计算机信息系统的程序、工具,或者明知他人实施侵入、非法控制计算机信息系统的违法犯罪行为而为其提供程序、工具,情节严重的,依照前款的规定处罚。《最高人民法院、最高人民检察院关于办理危害计算机信息系统安全刑事案件应用刑事案件应用法律若干问题的解释》中还列举了“具有避开或者突破计算机信息系统安全保护措施,未经授权或者超越授权获取计算机信息系统数据的功能的”等类型的程序、工具。
典型案例:陈辉提供侵入、非法控制计算机信息系统程序、工具罪(2021)粤0115刑初5号
本案中,被告人陈辉为牟取非法利益,在本区编写爬虫软件用于在浙江淘宝网络有限公司旗下的大麦网平台上抢票,并以人民币1888元到6888元不等的价格向他人出售该软件,非法获利人民币12万余元。2019年7月11日,被告人陈辉被公安机关抓获。经鉴定,上述爬虫软件具有以非常规的方式构造和发送网络请求,模拟用户在大麦网平台手动下单和购买商品的功能;具有以非常规手段模拟用户识别和输入图形验证码的功能,该功能可绕过大麦网平台的人机识别验证机制,以非常规方式访问大麦网平台的资源。
本院认为,被告人陈辉提供专门用于侵入、非法控制计算机信息系统程序、工具,情节特别严重,依法应予惩处。
4、 侵犯公民个人信息罪
《刑法》第253条中规定了该罪,违反国家有关规定,向他人出售或者提供公民个人信息,情节严重的,处三年以下有期徒刑或者拘役,并处或者单处罚金;情节特别严重的,处三年以上七年以下有期徒刑,并处罚金。违反国家有关规定,将在履行职责或者提供服务过程中获得的公民个人信息,出售或者提供给他人的,依照前款的规定从重处罚。窃取或者以其他方法非法获取公民个人信息的,依照第一款的规定处罚。
典型案例:杭州魔蝎数据 科技 有限公司、周江翔、袁冬侵犯公民个人信息罪(2020)浙0106刑初437号
本案中,被告人周江翔系魔蝎公司法定代表人、总经理,负责公司整体运营,被告人袁冬系魔蝎公司技术总监,系技术负责人,负责相关程序设计。魔蝎公司主要与各网络贷款公司、小型银行进行合作,为网络贷款公司、银行提供需要贷款的用户的个人信息及多维度信用数据,方式是魔蝎公司将其开发的前端插件嵌入上述网贷平台A中,在网贷平台用户使用网贷平台的APP借款时,贷款用户需要在魔蝎公司提供的前端插件上,输入其通讯运营商、社保、公积金、淘宝、京东、学信网、征信中心等网站的账号、密码,经过贷款用户授权后,魔蝎公司的爬虫程序代替贷款用户登录上述网站,进入其个人账户,利用各类爬虫技术,爬取(复制)上述企、事业单位网站上贷款用户本人账户内的通话记录、社保、公积金等各类数据。
法院认为,被告单位杭州魔蝎数据 科技 有限公司以其他方法非法获取公民个人信息,情节特别严重,其行为已构成侵犯公民个人信息罪。被告人周江翔、袁冬分别系对被告单位魔蝎公司侵犯公民个人信息行为直接负责的主管人员和其他直接责任人员,其行为均已构成侵犯公民个人信息罪。
5、侵犯著作权罪
根据《刑法》第217条规定,以营利为目的,有下列侵犯著作权或者与著作权有关的权利的情形之一,违法所得数额较大或者有其他严重情节的,处三年以下有期徒刑,并处或者单处罚金;违法所得数额巨大或者有其他特别严重情节的,处三年以上十年以下有期徒刑,并处罚金:(一)未经著作权人许可,复制发行、通过信息网络向公众传播其文字作品、音乐、美术、视听作品、计算机软件及法律、行政法规规定的其他作品的;(二)出版他人享有专有出版权的图书的;(三)未经录音录像制作者许可,复制发行、通过信息网络向公众传播其制作的录音录像的;(四)未经表演者许可,复制发行录有其表演的录音录像制品,或者通过信息网络向公众传播其表演的;(五)制作、出售假冒他人署名的美术作品的;(六)未经著作权人或者与著作权有关的权利人许可,故意避开或者破坏权利人为其作品、录音录像制品等采取的保护著作权或者与著作权有关的权利的技术措施的。
典型案例:谭某某等侵犯著作权罪(2020)京0108刑初237号
本案中,被告鼎阅公司自2018年开始,在覃某某等12名被告人负责管理或参与运营下,未经掌阅 科技 股份有限公司、北京幻想纵横网络技术有限公司等权利公司许可,利用网络爬虫技术爬取正版电子图书后,在其推广运营的“鸿雁传书”“TXT全本免费小说”等10余个App中展示,供他人访问并下载阅读,并通过广告收入、付费阅读等方式进行牟利。根据经公安机关依法提取收集并经勘验、检查、鉴定的涉案侵权作品信息数据、账户交易明细、鉴定结论、广告推广协议等证据,法院查明,涉案作品侵犯掌阅 科技 股份有限公司、北京幻想纵横网络技术有限公司享有独家信息网络传播权的文字作品共计4603部,侵犯中文在线数字出版集团股份有限公司享有独家信息网络传播权的文字作品共计469部。
法院认为,鼎阅公司、直接负责的主管人员覃某某等12名被告人以营利为目的,未经著作权人许可,复制发行他人享有著作权的文字作品,情节特别严重,其行为均已构成侵犯著作权罪,应予惩处。
(2) 构成不正当竞争
我国《反不正当竞争法》第12条规定:“经营者利用网络从事生产经营活动,应当遵守本法的各项规定。经营者不得利用技术手段,通过影响用户选择或者其他方式,实施下列妨碍、破坏其他经营者合法提供的网络产品或者服务正常运行的行为:(一)未经其他经营者同意,在其合法提供的网络产品或者服务中,插入链接、强制进行目标跳转;(二)误导、欺骗、强迫用户修改、关闭、卸载其他经营者合法提供的网络产品或者服务;(三)恶意对其他经营者合法提供的网络产品或者服务实施不兼容;(四)其他妨碍、破坏其他经营者合法提供的网络产品或者服务正常运行的行为。
典型案例:深圳市腾讯计算机系统有限公司、腾讯 科技 (深圳)有限公司与被告某新媒体公司不正当竞争纠纷案
本案中,两原告系微信公众平台的经营者和管理者,被告某新媒体公司系某网站经营者,利用爬虫技术抓取微信公众平台文章等信息内容数据,并通过网站对外提供公众号信息搜索、导航及排行等数据服务。原告诉称,被告利用被控侵权产品,突破微信公众平台的技术措施进行数据抓取,并进行商业化利用,妨碍平台正常运行,构成不正当竞争。被告辩称,爬取并提供公众号数据服务的行为不构成不正当竞争,其爬取的文章并非腾讯公司的数据,而是微信公众号的用户数据,且其网站获利较少。
法院认为,被告违背诚实信用原则,擅自使用原告征得用户同意、依法汇集且具有商业价值的数据,并足以实质性替代其他经营者提供的部分产品或服务,损害公平竞争的市场秩序,属于《反不正当竞争法》第十二条第二款第四项所规定的妨碍、破坏其他经营者合法提供的网络产品或者服务正常运行的行为,构成不正当竞争。
(3) 行政责任
我国当前关于爬虫行为所应承担的行政责任主要规定在《网络安全法》中,其中涉嫌违反第27条规定的:“任何个人和组织不得从事非法侵入他人网络、干扰他人网络正常功能、窃取网络数据等危害网络安全的活动;不得提供专门用于从事侵入网络、干扰网络正常功能及防护措施、窃取网络数据等危害网络安全活动的程序、工具;明知他人从事危害网络安全的活动的,不得为其提供技术支持、广告推广、支付结算等帮助。”,需要承担一定的行政责任。该法第63条对违反第27条还规定了具体的行政处罚措施,包括“没收违法所得”“拘留”“罚款”等处罚。同时,对违反27条规定受到处罚的相关人员也作出了任职限制规定。
此外,《数据安全管理办法(征求意见稿)》第16条对爬虫适用作出了限流规定:“网络运营者采取自动化手段访问收集网站数据,不得妨碍网站正常运行;此类行为严重影响网站运行,如自动化访问收集流量超过网站日均流量三分之一,网站要求停止自动化访问收集时,应当停止。”同时,第37条也规定了相应的行政责任:网络运营者违反相关规定的,由有关部门给予公开曝光、没收违法所得、暂停相关业务、停业整顿、关闭网站、吊销相关业务许可证或吊销营业执照等处罚。
三、数据爬取行为的合规指引
(一)严格规范数据爬取行为
1、如果目标网站有反爬取协议,应严格遵守网站设置的 Robots协议。Robots协议(也称为爬虫协议、机器人协议等)的全称是“网络爬虫排除标准”,网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。该协议尊重信息提供者的意愿,并维护其隐私权;保护其使用者的个人信息和隐私不被侵犯。Robots协议代表一种契约精神,互联网企业只有遵守这一规则,才能保证网站及用户的隐私数据不被侵犯。可以说,无论从保护网民隐私还是尊重版权内容的角度,遵守robots协议都应该是正规互联网公司的默之举,任何违反robots协议的行为都应该为此付出代价。
2、合理限制抓取的内容。在设置抓取策略时,应注意编码禁止抓取视频、音乐等可能构成作品的、明确的著作权作品数据,或者针对某些特定网站批量抓取其中的用户生成内容;在使用、传播抓取到的信息时,应审查所抓取的内容,如发现属于用户的个人信息、隐私或者他人的商业秘密的,应及时停止并删除。对于内部系统数据,严格禁止侵入。
3、爬取行为不应妨碍网站的正常运行。企业应当合理控制爬取的频率,尽可能避免过于频繁地抓取数据,特别是如果超过了《数据安全管理办法(征求意见稿)》明确规定的“自动化访问收集流量超过网站日均流量三分之一”的要求,就应当严格遵守网站的要求,及时停止数据抓取。
(二)爬取个人信息时恪守合法、正当、必要原则
在我国,合法、正当、必要原则散见于《消费者权益保护法》、《网络安全法》、《全国人大常委会关于加强网络信息保护的决定》、《个人信息安全规范》等法律与规范之中。网络经营者拟爬取用户个人信息的,应当严格遵守上述法律法规的规定,以取得个人用户的事前同意为原则,避免超出用户的授权范围爬取信息。同样地,数据接受方也应当对以爬虫方式获取的他人信息进行合法性审查,了解个人信息主体是否同意共享个人信息数据。
(三)爬取商业数据时谨防构成不正当竞争
在数字内容领域,数据是内容产业的核心竞争资源,内容平台经过汇总分析处理后的数据往往具有极高的经济价值,因此非法爬取行为在某些具体应用场景下会被认定为构成不正当竞争。尤其是对于双方商业模式相同或近似、获取对方的信息会对对方造成直接损害的,企业应重点予以防范。如果存在此种情形,则应当谨慎使用爬取获取被爬取网站的数据。
四、结语
随着大数据时代的来临以及数字技术的蓬勃发展,数据的价值日益凸显,部分企业通过数据爬取技术更加高效地获取和深度地利用相关数据,从而弥补企业自身数据不足的现状,支撑企业的商业化发展。对于这些企业而言,“网络爬虫如何爬取信息数据才是合法的?”“爬取数据时如何做到合规?”是亟待解决的一大难题。作为法律工作者,应当从法律的专业角度给企业提供强有力的合规指引,为促进高新技术企业的发展,进而全面提升国家 科技 创新能力做出应有的贡献。
网络爬虫技术是一种自动化获取互联网信息的技术。它通过程序模拟人类在互联网上的浏览行为,自动访问网页并提取所需的信息。网络爬虫技术可以用于各种应用场景,如搜索引擎、数据挖掘、信息监控等。其基本原理是通过HTTP协议向目标网站发送请求,获取网页内容,并解析网页结构,从中提取所需的信息。网络爬虫技术的核心是网页解析和数据提取,需要使用各种技术和工具来实现,如正则表达式、XPath、BeautifulSoup等。同时,网络爬虫技术也面临着一些挑战和限制,如反爬虫机制、网站访问限制等。因此,在使用网络爬虫技术时需要遵守相关法律法规和道德规范,确保合法合规。
欢迎分享,转载请注明来源:内存溢出
微信扫一扫
支付宝扫一扫
评论列表(0条)