如何获取网页中所有的超链接地址 以及链接innerText

如何获取网页中所有的超链接地址 以及链接innerText,第1张

$("a")attr("src"); //获取地址

$("a")text(); //获取text

如果获取别的网页一样可以用,获取到的是一个集合。处理一下就行

打开你所要提取URL链接的网页,点击“网页另存为”(google浏览器)。这里存为“22”,记得是存为网页,如:“22html”。

用“Notepad++文本编辑器“打开”22html“。找到你所要提取的URL链接,根据URL链接的共同部分提取出来。

然后按CTRL+F查找,输入共同部分,如图。点击”在当前文件中查找“。就会在编辑页面的下面出现所有符合规则的下载地址,以行为单位,选中并复制。

将其黏贴到excel表格中,调整对应好,选中内容所在的表格列,选择“数据”菜单栏的“分列”。就会d出如下的对话框,选择第一个选项“分隔符号”,点击下一步。

根据内容里面所含的特征,让其能提取你想要的URL链接。这里是可以通过(单引号“),就可以提取出我们要URL链接,那么在“分隔符号”中的最后一项“其他(o)”中输入(”),点击完成即可。

内容已经被分开了,而且在不同的单元格里面。整理,删掉我们不要的内容,最后得出的就是我们要的“URL链接”。

给你贴一下我前一段时间回答的类似问题,用的soup,还有一个用的正则就不贴了,手机不太方便,如下。

import beautifulsoup

import urllib2

def main():

userMainUrl = "你要抓取的地址"

req = urllib2Request(userMainUrl)

resp = urllib2urlopen(req)

respHtml = respread()

foundLabel = respHtmlfindAll("label")

finalL =foundLabelstring

print "biaoti=",finalL

if __name__=="__main__":

main();

PS:如果不会改的话追问一下,回头我用电脑给你写一份

以上就是关于如何获取网页中所有的超链接地址 以及链接innerText全部的内容,包括:如何获取网页中所有的超链接地址 以及链接innerText、url链接怎么获取、python 怎样爬取网页所有链接等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!

欢迎分享,转载请注明来源:内存溢出

原文地址:https://54852.com/web/9394866.html

(0)
打赏 微信扫一扫微信扫一扫 支付宝扫一扫支付宝扫一扫
上一篇 2023-04-27
下一篇2023-04-27

发表评论

登录后才能评论

评论列表(0条)

    保存