
用select('ul 的 css 路径')find_all()
css路径直接用浏览器开发视图,从ul复制就好,当然也可以把前面多余的部分删掉
完整的url语法格式:
协议://用户名@密码:子域名域名顶级域名:端口号/目录/文件名文件后缀参数=值#标识
urlparse模块对url的主要处理方法有:urljoin/urlsplit/urlunsplit/urlparse等。该模块对url的定义采用六元组的形式:schema://netloc/path;parametersquery#fragment。其中,netloc包含下表的后4个属性
urlparse()
利用urlparse()方法对url进行解析,返回六元组;urlunparse()对六元组进行组合
urljoin()
利用urljoin()方法对绝对url地址与相对url地址进行拼合
主要使用urljoin()比较常用——给出以下示例:
>>>from urllibparse import urljoin
>>> urljoin(">
正则的话
import re
html = "<a href='xxxxxx' title='xxxxxxxxx'>sample text1</a>abcdef<a href='xxxxxx' title='xxxxxxxxx'>sample text2</a>"
result = map(lambda name: resub("<a href=>","",namestrip()replace("</a>","")), refindall("<a href=></a>",html))
print result
上面代码会把所有a tag里的东西存在result这个list里面。另外python有个模块叫Beautiful Soup,专门用来处理html的,你有空可以看下
以上就是关于python3 用BeautifulSoup 爬取指定ul下的a标签全部的内容,包括:python3 用BeautifulSoup 爬取指定ul下的a标签、python中中怎么解决url变成文本格式后不能点击、python怎样使用正则表达式获得html标签数据等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!
欢迎分享,转载请注明来源:内存溢出
微信扫一扫
支付宝扫一扫
评论列表(0条)