
import urllib
html = urllib.open(url)
text = html.read()
复杂些可以用requests库,支持各种请求类型,支持cookies,header等
再复杂些的可以用selenium,支持抓取javascript产生的文本
这个需要你分析网页,提取其中的链接,然后下载链接python自带的urllib2, urllib可以用来处理网页,不过比较麻烦,需要自记写很多代码
或者用beautiful soap之类的库,处理html就比较轻松了;可以自己看Beautiful Soap的文档,有中文版本的,链接我就不贴了,百度老会发神经屏蔽;按文档写几个例子,就能处理你自己的事情了,很容易的
欢迎分享,转载请注明来源:内存溢出
微信扫一扫
支付宝扫一扫
评论列表(0条)