
$("a")attr("src"); //获取地址
$("a")text(); //获取text
如果获取别的网页一样可以用,获取到的是一个集合。处理一下就行
打开你所要提取URL链接的网页,点击“网页另存为”(google浏览器)。这里存为“22”,记得是存为网页,如:“22html”。
用“Notepad++文本编辑器“打开”22html“。找到你所要提取的URL链接,根据URL链接的共同部分提取出来。
然后按CTRL+F查找,输入共同部分,如图。点击”在当前文件中查找“。就会在编辑页面的下面出现所有符合规则的下载地址,以行为单位,选中并复制。
将其黏贴到excel表格中,调整对应好,选中内容所在的表格列,选择“数据”菜单栏的“分列”。就会d出如下的对话框,选择第一个选项“分隔符号”,点击下一步。
根据内容里面所含的特征,让其能提取你想要的URL链接。这里是可以通过(单引号“),就可以提取出我们要URL链接,那么在“分隔符号”中的最后一项“其他(o)”中输入(”),点击完成即可。
内容已经被分开了,而且在不同的单元格里面。整理,删掉我们不要的内容,最后得出的就是我们要的“URL链接”。
给你贴一下我前一段时间回答的类似问题,用的soup,还有一个用的正则就不贴了,手机不太方便,如下。
import beautifulsoup
import urllib2
def main():
userMainUrl = "你要抓取的地址"
req = urllib2Request(userMainUrl)
resp = urllib2urlopen(req)
respHtml = respread()
foundLabel = respHtmlfindAll("label")
finalL =foundLabelstring
print "biaoti=",finalL
if __name__=="__main__":
main();
PS:如果不会改的话追问一下,回头我用电脑给你写一份
以上就是关于如何获取网页中所有的超链接地址 以及链接innerText全部的内容,包括:如何获取网页中所有的超链接地址 以及链接innerText、url链接怎么获取、python 怎样爬取网页所有链接等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!
欢迎分享,转载请注明来源:内存溢出
微信扫一扫
支付宝扫一扫
评论列表(0条)