如何用python抓取网页数据库

福田麻由子•2023-3-28•sql•阅读15

最简单可以用urllib，python2.x和python3.x的用法不同，以python2.x为例：

import urllib

html = urllib.open(url)

text = html.read()

复杂些可以用requests库，支持各种请求类型，支持cookies，header等

再复杂些的可以用selenium，支持抓取javascript产生的文本

这个需要你分析网页，提取其中的链接，然后下载链接

python自带的urllib2, urllib可以用来处理网页，不过比较麻烦，需要自记写很多代码

或者用beautiful soap之类的库，处理html就比较轻松了；可以自己看Beautiful Soap的文档，有中文版本的，链接我就不贴了，百度老会发神经屏蔽；按文档写几个例子，就能处理你自己的事情了，很容易的

欢迎分享，转载请注明来源：内存溢出

打赏

微信扫一扫

支付宝扫一扫

上一篇 2023-03-28

下一篇2023-03-28

登录后才能评论