如何用python抓取网页数据库

如何用python抓取网页数据库,第1张

最简单可以用urllib,python2.x和python3.x的用法不同,以python2.x为例:

import urllib

html = urllib.open(url)

text = html.read()

复杂些可以用requests库,支持各种请求类型,支持cookies,header等

再复杂些的可以用selenium,支持抓取javascript产生的文本

这个需要你分析网页,提取其中的链接,然后下载链接

python自带的urllib2, urllib可以用来处理网页,不过比较麻烦,需要自记写很多代码

或者用beautiful soap之类的库,处理html就比较轻松了;可以自己看Beautiful Soap的文档,有中文版本的,链接我就不贴了,百度老会发神经屏蔽;按文档写几个例子,就能处理你自己的事情了,很容易的


欢迎分享,转载请注明来源:内存溢出

原文地址:https://54852.com/sjk/6767896.html

(0)
打赏 微信扫一扫微信扫一扫 支付宝扫一扫支付宝扫一扫
上一篇 2023-03-28
下一篇2023-03-28

发表评论

登录后才能评论

评论列表(0条)

    保存