爬虫实例——利用BeautifulSoup库爬取页面信息_框架

使用 python爬虫爬取页面信息。首先从网络上获取芒果TV网页内容，然后提取网页内容中信息到合适的数据结构，最后利用数据结构展示并输出结果。

输入：芒果TV的url链接

输出：电视剧信息输出（电视剧，剧情）

技术路线：request—bs4

定向爬虫：仅对输入url进行爬取，不进行扩展爬取

最近在使用scrapy爬取网页时遇到很多不能正常显示、a标签链接失效的情况，多是因为爬下来的网页和路径已经失去了原有的结构，网页无法根据标签的src或者标签的href找到对应的资源，下面就这个问题展开一个小研究。

首先，做这个工作是一定要修改网页的，所以我们引入BeautifulSoup库对网页进行解析。

其次，在本文中 所有的网页以域名为目录名进行保存 。

下面我们 分情况讨论 。

大体上看，网页中的链接有以下几种格式：

第一种情况，链接直接以/开头，很明显是从网站的根目录开始检索，那么我们直接将该网站的存储路径加在page前即可（home_path代表当前网页在我们系统中保存的路径，包含域名）：

第二种情况，链接直接以>

以上就是关于爬虫实例——利用BeautifulSoup库爬取页面信息全部的内容，包括:爬虫实例——利用BeautifulSoup库爬取页面信息、scrapy爬取整个网页时如何避免链接失效、等相关内容解答，如果想了解更多相关内容，可以关注我们，你们的支持是我们更新的动力！

欢迎分享，转载请注明来源：内存溢出

爬虫实例——利用BeautifulSoup库爬取页面信息