用小爬虫只能抓取网站首页是什么原因

用小爬虫只能抓取网站首页是什么原因,第1张

小爬虫只能抓取网站首页原因及解决方法:

1、刚刚做好的网站

对于新新的网站,首页刚刚被收录,这时候网站的权重是极低的。就不要期望这么快收录内页了,这样的情况,是很正常的,一般最少过了一个月之后,其他的内页才会放出来。

制定一个详细的优化方案,定时更新,切记使用一些不正常的手法。

2、robotstxt文件、服务器限制

这是很多新手容易犯的错误,对robotstxt文件不是很了解,但是不设置又觉得自己降低了档次,所以就错误的填写,导致屏蔽了内页。这样也就导致了蜘蛛无法爬取你的内页。另外服务器的限制也会出现这种情况。

解决策略:检查robotstxt文件和服务器是否有限制,自己看不懂可以找别人帮你。

3、网站的自身布局

网站布局是不是混乱,导航布局是不是混乱,导航不清楚,主页有没有足够的链接指向内页。

处理策略:收拾网站导航,理顺布局,让网站导航更清晰明了,调用内页关键词到主页,增多一种“最新作品”、“作品引荐”等版块,添加内页入口。

4、网站内容质量和更新频率

定期更新网站内容,吸引蜘蛛。

如果你是在单网页栏目模板中获取单网页内容,直接输出$content变量即可,即{$content}。因为程序控制器程序中已经给你生成了与对应字段同名的变量携带了相关信息。

如果是在其它模板中,没有直接的变量或表签可供使用,但是可以使用get万能标签直接读取数据表就行,单网页内容存放在page数据表content字段里,我们假设你的这个单网页栏目catid号为1,那么演示如下:

{pc:get sql="select  from phpcms_page where catid=1" num="1"}

{loop $data $v}

<div class="content">{$v['content']}</div>

{/loop}

{/pc}<!--万能标签是一个非常好用的标签,在你有一对sql命令的基础下,可以获取数据库中的任何信息,避免了偏僻数据没有标签可直接使用调取的问题。相关phpcms标签的使用学习可以查看phpcms的官方手册以及iphpcms的详细实战视频教程-->

首先到网站登录提交你的网址;只需提交网站首页,内部页面百度会自动抓取。

给每个网页加上与正文相关的标题。如果是网站首页,则标题建议使用站点名称或者站点代表的公司/机构名称;其余内容页面,标题建议做成正文内容的提炼和概括。这可以让你的潜在用户快速的访问到你的页面。

请不要在标题中堆积与正文无关的关键词。

确保每个页面都可以通过一个文本链接到达。百度无法识别Flash中的链接,这些单元上的链接所指向的网页,百度就无法收录了。

页面间的链接,尽量使用平实的超链,而不是重定向跳转。使用自动跳转的页面,可能会被百度丢弃。

尽量少使用frame和iframe框架结构。

如果是动态网页,请控制一下参数的数量和URL的长度。百度更偏好收录静态网页。

在同一个页面上,不要有过多链接。在那些站点地图类型的页面上,请把重要的内容给出链接,而不是所有细枝末节。链接太多,也可能会导致无法被百度收录。

站点应该是面向用户的,而不是面向搜索引擎的。一个受到用户欢迎的站点,最终也会受到搜索引擎欢迎;反过来,如果你的站点做了很多针对百度的优化,但却给用户带来大量负面体验,那么,你的站点最终可能还是会受到百度的冷落。

百度更喜欢有独特内容的网页,而不是简单抄袭和重复互联网上已有内容的网页。对于已经被重复了千百遍的内容,百度可能会不予收录。

请谨慎使用你的站点链接。与一些垃圾站点做友情链接,很可能会使你的网站受到负面影响。因此,当有人很热情的要求你为他的站点提供友情链接时,请审视以下两点:

一、对方的站点在他那个领域是否是高质量的?站长间所谓的流量以及排名,很多都是用欺骗手段获取的,无法保持长久。

二、对方要求的链接名称是否和对方网站地位相称?用一个涵盖范围广泛的关键词来做一个内容非常局限的网站的链接名称,很可能会使你的网站受到负面影响。

经常保持内容更新。经常有新内容产生的站点,百度是会注意到,并且大力欢迎,而且会频繁造访。

可以吗? 够详细吗?

服务器里一般默认的文件名是default,index等,假如你的网页是ASP的,你只需要把你想要在首页显示的文件名改成defaultasp或者indexasp即可

以上就是关于用小爬虫只能抓取网站首页是什么原因全部的内容,包括:用小爬虫只能抓取网站首页是什么原因、phpcms v9 首页如何获取单网页内容、网站首页首页标题,百度抓取多少个啊等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!

欢迎分享,转载请注明来源:内存溢出

原文地址:https://54852.com/web/9594103.html

(0)
打赏 微信扫一扫微信扫一扫 支付宝扫一扫支付宝扫一扫
上一篇 2023-04-30
下一篇2023-04-30

发表评论

登录后才能评论

评论列表(0条)

    保存