Python爬虫：想听榜单歌曲只需要14行代码即可搞定_框架

虽然说XPath比正则表达式用起来方便，但是没有最方便，只有更方便。我们的BeautifulSoup库就能做到更方便的爬取想要的东西。

使用之前，还是老规矩，先安装BeautifulSoup库，指令如下：

其中文开发文档：

BeautifulSoup库是一个强大的Python语言的XML和HTML解析库。它提供了一些简单的函数来处理导航、搜索、修改分析树等功能。

BeautifulSoup库还能自动将输入的文档转换为Unicode编码，输出文档转换为UTF-8编码。

所以，在使用BeautifulSoup库的过程中，不需要开发中考虑编码的问题，除非你解析的文档，本身就没有指定编码方式，这才需要开发中进行编码处理。

下面，我们来详细介绍BeautifulSoup库的使用规则。

下面，我们来详细介绍BeautifulSoup库的重点知识。

首先，BeautifulSoup库中一个重要的概念就是选择解释器。因为其底层依赖的全是这些解释器，我们有必要认识一下。博主专门列出了一个表格：

从上面表格观察，我们一般爬虫使用lxml HTML解析器即可，不仅速度快，而且兼容性强大，只是需要安装C语言库这一个缺点（不能叫缺点，应该叫麻烦）。

要使用BeautifulSoup库，需要和其他库一样进行导入，但你虽然安装的是beautifulsoup4，但导入的名称并不是beautifulsoup4，而是bs4。用法如下：

运行之后，输出文本如下：

基础的用法很简单，这里不在赘述。从现在开始，我们来详细学习BeautifulSoup库的所有重要知识点，第一个就是节点选择器。

所谓节点选择器，就是直接通过节点的名称选择节点，然后再用string属性就可以得到节点内的文本，这种方式获取最快。

比如，基础用法中，我们使用h1直接获取了h1节点，然后通过h1string即可得到它的文本。但这种用法有一个明显的缺点，就是层次复杂不适合。

所以，我们在使用节点选择器之前，需要将文档缩小。比如一个文档很多很大，但我们获取的内容只在id为blog的p中，那么我们先获取这个p，再在p内部使用节点选择器就非常合适了。

HTML示例代码：

下面的一些示例，我们还是使用这个HTML代码进行节点选择器的讲解。

这里，我们先来教会大家如何获取节点的名称属性以及内容，示例如下：

运行之后，效果如下：

一般来说一个节点的子节点有可能很多，通过上面的方式获取，只能得到第一个。如果要获取一个标签的所有子节点，这里有2种方式。先来看代码：

运行之后，效果如下：

如上面代码所示，我们有2种方式获取所有子节点，一种是通过contents属性，一种是通过children属性，2者遍历的结果都是一样的。

既然能获取直接子节点，那么获取所有子孙节点也是肯定可以的。BeautifulSoup库给我们提供了descendants属性获取子孙节点，示例如下：

运行之后，效果如下：

同样的，在实际的爬虫程序中，我们有时候也需要通过逆向查找父节点，或者查找兄弟节点。

BeautifulSoup库，给我们提供了parent属性获取父节点，同时提供了next_sibling属性获取当前节点的下一个兄弟节点，previous_sibling属性获取上一个兄弟节点。

示例代码如下：

运行之后，效果如下：

对于节点选择器，博主已经介绍了相对于文本内容较少的完全可以这么做。但实际的爬虫爬的网址都是大量的数据，开始使用节点选择器就不合适了。所以，我们要考虑通过方法选择器进行先一步的处理。

find_all()方法主要用于根据节点的名称、属性、文本内容等选择所有符合要求的节点。其完整的定义如下所示：

实战还是测试上面的HTML，我们获取name=a，attr={"class":"aaa"}，并且文本等于text="Python板块"板块的节点。

示例代码如下所示：

运行之后，效果如下所示：

find()与find_all()仅差一个all，但结果却有2点不同：

1find()只查找符合条件的第一个节点，而find_all()是查找符合条件的所有节点2find()方法返回的是bs4elementTag对象，而find_all()返回的是bs4elementResultSet对象

下面，我们来查找上面HTML中的a标签，看看返回结果有何不同，示例如下：

运行之后，效果如下：

首先，我们来了解一下CSS选择器的规则：

1classname：选取样式名为classname的节点，也就是class属性值是classname的节点2#idname：选取id属性为idname的节点3nodename：选取节点名为nodename的节点

一般来说，在BeautifulSoup库中，我们使用函数select()进行CSS选择器的 *** 作。示例如下：

这里，我们选择class等于li1的节点。运行之后，效果如下：

因为，我们需要实现嵌套CSS选择器的用法，但上面的HTML不合适。这里，我们略作修改，仅仅更改

XPath 全称为 Xml Path Language，即 Xml 路径语言，是一种在 Xml 文档中查找信息的语言。它提供了非常简洁的路径选择表达式，几乎所有的节点定位都可以用它来选择。

XPath 可以用于 Xml 和 Html，在爬虫中经常使用 XPath 获取 Html 文档内容。

lxml 是 Python 语言用 Xpath 解析 XML、Html文档功能最丰富的、最容易的功能模块。

节点

在 XPath 中有七种节点分别是元素、属性、文本、文档、命名空间、处理指令、注释，前3种节点为常用节点

请看下面的 Html 例子，(注：这个例子全文都需要使用)

在上面的例子中

节点关系

在 XPath中有多中节点关系分别是父节点、子节点、同胞节点、先辈节点、后代节点

在上面的例子中

用上面的 Html 文档举个例子

同样用上面的Html文档举个例子

XPath 中的谓语就是删选表达式，相当于 SQL 中的 Where 条件，谓语被嵌在 [ ] 中

lxmletree 一个强大的 Xml 处理模块，etree 中的 ElementTree 类是一个主要的类，用于对XPath的解析、增加、删除和修改节点。

etreeparse() 函数可以解析一个网页文件还可以解析字符串，在网页中下载的数据一般都是字符串形式的，使用 parse(StringIO(str)) 将整个页面内容解析加载构建一个 ElementTree 对象，ElementTree 可以使用 XPath 语法精准找到需要的数据。

结果：

2 获取所有 li 标签数据

结果：

3 获取带 class=’blank’ 属性数据

结果：

4 属性 *** 作

结果：

5 获取最后一个p标签数据

结果:

6 添加子节点

7 删除子元素

8 遍历元素后代

结果

使用时先安装 lxml 包

开始使用 #

和beautifulsoup类似，首先我们需要得到一个文档树

把文本转换成一个文档树对象

from lxml import etreeif __name__ == '__main__':doc='''

把文件转换成一个文档树对象

fromlxmlimportetree# 读取外部文件 indexhtmlhtml = etreeparse('/indexhtml')result = etreetostring(html, pretty_print=True)#pretty_print=True 会格式化输出print(result)

均会打印出文档内容

节点、元素、属性、内容 #

xpath 的思想是通过路径表达去寻找节点。节点包括元素，属性，和内容

元素举例

html --->div --->

这里我们可以看到，这里的元素和html中的标签一个意思。单独的元素是无法表达一个路径的，所以单独的元素不能独立使用

路径表达式 #

/ 根节点，节点分隔符，// 任意位置当前节点父级节点@ 属性

通配符 #

任意元素@ 任意属性node() 任意子节点（元素，属性，内容)

谓语 #

使用中括号来限定元素，称为谓语

//a[n] n为大于零的整数，代表子元素排在第n个位置的元素//a[last()] last() 代表子元素排在最后个位置的元素//a[last()-] 和上面同理，代表倒数第二个//a[position()<3] 位置序号小于3，也就是前两个，这里我们可以看出xpath中的序列是从1开始//a[@href] 拥有href的元素//a[@href='内置很多函数。更多函数查看 >

XPath的语法我们在前面已经提到过 XPath是用来帮助XSLT在XML源文档中查找定位信息的语言在实际使用过程中 XPath和XSLT总是混在一起使用在上面一章的语法例子中我们已经有使用到XPath的语法只是没有明确点出但W C将它们分成两个标准所以我们也将它们拆成两章来讲解

XPath的语法

当前位置寻址 *** 作运算符功能函数

当前位置

当我们使用XSLT处理XML源文档是我们用Context来表示当前正在被模板处理的节点位置比如xsl:template match= / 语句中表示Context在文档的根(root)节点我不知道如何准确的翻译Context这个词它类似于C语言里的指针表示程序当前运行的位置理解Context对于正确处理XSL模板非常重要当您的XSL模板输出的文档和您想要的不一样最先应该分析的就是Context在哪里 Location Paths是用于设定你想要寻找的Context节点位置就类似DOS的目录命令我们看个例子

<xsl:for each select= child::PEOPLE/descendant::PERSON >

其中child::PEOPLE/descendant::PERSON就是XPath语法这个表达式就是一个Location Paths 代码说明要显示所有PEOPLE元素的子元素和所有PERSON元素的子元素通常我们会采用更简单的写法

<xsl:for each select= PEOPLE//PERSON >

我们来解释path的两种表示方法 / 和 // / 是表示当前文档的节点类似DOS目录分割符例如 /PEOPLE表示选择根节点下的PEOPLE元素 PEOPLE/PERSON表示选择PEOPLE元素下所有的PESON子元素 // 则表示当前文档所有的节点类似查看整个目录例如 //PEOPLE表示选择文档中所有的PEOPLE元素无论它在什么层次 PEOPLE//PERSON表示在PEOPLE元素下所有的PERSON元素无论它的层次多深

寻址 *** 作

Axis和Predicate是XPath语法中对Location Paths进行定位 *** 作的语法具体的用法列表如下

Axis语法表表达式简写说明 self 选择当前的节点例子 : <TD><xsl:value of select= /></TD> 代码表示在当前位置插入当前的节点包含的文本(text)值 parent 选择当前节点的父节点 attribute @ 选择一个元素的所有属性例子: <TD><xsl:value of select= @PERSONID /></TD> 选择PERSON元素的所有属性 child 选择当前节点的所有子元素 ancestor 选择当前节点的所有父元素(包括父元素的父元素类推)

Axis帮助我们选择当前节点周围所有的节点而Predicate则用来定位当前节点内部的元素表示方法为方括号[]中加表达式 [ Expression ] 具体举例如下:

PERSON[position()= ] 这句代码表示寻找第二个 PERSON 元素

PERSON[starts with(name B )] 这句代码表示寻找所有名称以 B 开头的PERSON元素

运算符

这一节介绍XPath的运算符(Expressions) 列表如下运算符说明 and or 就是普通意义的and or = 等于 != 不等于 > >= 大于大于等于 < <= 小于小于等于注意在XSL文件中 <符号要用< 表示 div 加减乘除 mod 取模 | 两个节点一起计算

功能函数(Functions)

在XPath里有很多功能函数可以帮助我们精确寻找需要的节点

count()功能作用统计计数返回符合条件的节点的个数举例 <xsl:value of select= count(PERSON[name=tom]) /> 说明代码的用途是显示PERSON元素中姓名属性值为tom有几个

number()功能作用将属性的值中的文本转换为数值举例 The number is: <xsl:value of select= number(book/price) /> 说明代码的用途是显示书的价格

substring() 功能语法 substring(value start length) 作用截取字符串举例 <xsl:value of select= substring(name ) /> 说明代码的用途是截取name元素的值从第一个字母开始显示到第三个

sum()功能作用求和举例 Total Price = <xsl:value of select= sum(//price) /> 说明代码的用途是计算所有价格的和

上面这些功能只是XPath语法中的一部分还有大量的功能函数没有介绍而且目前XPath的语法仍然在不断发展中通过这些函数我们可以实现更加复杂的查询和 *** 作

lishixinzhi/Article/program/ASP/201311/21862

以上就是关于Python爬虫：想听榜单歌曲只需要14行代码即可搞定全部的内容，包括:Python爬虫：想听榜单歌曲只需要14行代码即可搞定、爬虫必备 XPath 和 lxml、python使用xpath（超详细）等相关内容解答，如果想了解更多相关内容，可以关注我们，你们的支持是我们更新的动力！

欢迎分享，转载请注明来源：内存溢出

原文地址:https://54852.com/web/9296303.html

Python爬虫：想听榜单歌曲只需要14行代码即可搞定

发表评论

评论列表（0条）