
首先我们可以先获取要下载的整个页面信息。
getjpgpy
#coding=utf-8
import urllib
def getHtml(url):
page = urlliburlopen(url)
html = pageread()
return html
print html
Urllib 模块提供了读取web页面数据的接口,我们可以像读取本地文件一样读取>
给你贴一下我前一段时间回答的类似问题,用的soup,还有一个用的正则就不贴了,手机不太方便,如下。
import beautifulsoup
import urllib2
def main():
userMainUrl = "你要抓取的地址"
req = urllib2Request(userMainUrl)
resp = urllib2urlopen(req)
respHtml = respread()
foundLabel = respHtmlfindAll("label")
finalL =foundLabelstring
print "biaoti=",finalL
if __name__=="__main__":
main();
PS:如果不会改的话追问一下,回头我用电脑给你写一份
以上就是关于python爬虫怎么获取到的网站的所有url全部的内容,包括:python爬虫怎么获取到的网站的所有url、python如何解析url获取host、python 怎样爬取网页所有链接等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!
欢迎分享,转载请注明来源:内存溢出
微信扫一扫
支付宝扫一扫
评论列表(0条)