python爬虫怎么获取到的网站的所有url

python爬虫怎么获取到的网站的所有url,第1张

首先我们可以先获取要下载的整个页面信息。

getjpgpy

#coding=utf-8

import urllib

def getHtml(url):

page = urlliburlopen(url)

html = pageread()

return html

print html

Urllib 模块提供了读取web页面数据的接口,我们可以像读取本地文件一样读取>

给你贴一下我前一段时间回答的类似问题,用的soup,还有一个用的正则就不贴了,手机不太方便,如下。

import beautifulsoup

import urllib2

def main():

userMainUrl = "你要抓取的地址"

req = urllib2Request(userMainUrl)

resp = urllib2urlopen(req)

respHtml = respread()

foundLabel = respHtmlfindAll("label")

finalL =foundLabelstring

print "biaoti=",finalL

if __name__=="__main__":

main();

PS:如果不会改的话追问一下,回头我用电脑给你写一份

以上就是关于python爬虫怎么获取到的网站的所有url全部的内容,包括:python爬虫怎么获取到的网站的所有url、python如何解析url获取host、python 怎样爬取网页所有链接等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!

欢迎分享,转载请注明来源:内存溢出

原文地址:https://54852.com/web/9670807.html

(0)
打赏 微信扫一扫微信扫一扫 支付宝扫一扫支付宝扫一扫
上一篇 2023-04-30
下一篇2023-04-30

发表评论

登录后才能评论

评论列表(0条)

    保存