python3 用BeautifulSoup 爬取指定ul下的a标签

python3 用BeautifulSoup 爬取指定ul下的a标签,第1张

用select('ul 的 css 路径')find_all()

css路径直接用浏览器开发视图,从ul复制就好,当然也可以把前面多余的部分删掉

完整的url语法格式:

协议://用户名@密码:子域名域名顶级域名:端口号/目录/文件名文件后缀参数=值#标识

2 、urlparse模块对url的处理方法

urlparse模块对url的主要处理方法有:urljoin/urlsplit/urlunsplit/urlparse等。该模块对url的定义采用六元组的形式:schema://netloc/path;parametersquery#fragment。其中,netloc包含下表的后4个属性

urlparse()

利用urlparse()方法对url进行解析,返回六元组;urlunparse()对六元组进行组合

urljoin()

利用urljoin()方法对绝对url地址与相对url地址进行拼合

       主要使用urljoin()比较常用——给出以下示例:   

>>>from urllibparse import urljoin

>>> urljoin(">

正则的话

import re

html = "<a href='xxxxxx' title='xxxxxxxxx'>sample text1</a>abcdef<a href='xxxxxx' title='xxxxxxxxx'>sample text2</a>"

result = map(lambda name: resub("<a href=>","",namestrip()replace("</a>","")), refindall("<a href=></a>",html))

print result

上面代码会把所有a tag里的东西存在result这个list里面。另外python有个模块叫Beautiful Soup,专门用来处理html的,你有空可以看下

以上就是关于python3 用BeautifulSoup 爬取指定ul下的a标签全部的内容,包括:python3 用BeautifulSoup 爬取指定ul下的a标签、python中中怎么解决url变成文本格式后不能点击、python怎样使用正则表达式获得html标签数据等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!

欢迎分享,转载请注明来源:内存溢出

原文地址:https://54852.com/web/9719467.html

(0)
打赏 微信扫一扫微信扫一扫 支付宝扫一扫支付宝扫一扫
上一篇 2023-05-01
下一篇2023-05-01

发表评论

登录后才能评论

评论列表(0条)

    保存