BeautifulSoup4中文文档_框架

1、解析html并以友好形式显示：BeautifulSoup(html_doc,'htmlparser') print(soupprettify())

html_doc = """

<html><head><title>The Dormouse's story</title></head>

<body>

The Dormouse's story

Once upon a time there were three little sisters; and their names were

在了解二叉树之前，我们要先了解树的一些概念，方便我们对二叉树的理解。

什么是树？

树(英语:tree)是一种抽象数据类型(ADT)或是实作这种抽象数据类型的数据结构,用来模拟具有树状结构性质的数据集合。

它是由n(n>=1)个有限节点组成一个具有层次关系的集合。把它叫做“树”是因为它看起来像一棵倒挂的树,也就是说它是根朝上,而叶朝下的。它具有以下的特点:

每个节点有零个或多个子节点;

没有父节点的节点称为根节点;

每一个非根节点有且只有一个父节点;

除了根节点外,每个子节点可以分为多个不相交的子树;

树的术语：

节点的度: 一个节点含有的子树的个数称为该节点的度;

树的度: 一棵树中,最大的节点的度称为树的度;

根结点：树的最顶端的节点，继续往下分为子节点

父节点：子节点的上一层为父节点

兄弟节点：具有同一个父节点的节点称为兄弟节点

叶子节点/终端节点：不再有子节点的节点为叶子节点

二叉树：

二叉树是树的特殊一种，具有如下特点：

每个节点最多有两个子树，节点的度最大为2

左子树和右子树是有顺序的，次序不能颠倒

即是某节点只有一个子树，也要区分左右子树

二叉树的性质：

在非空二叉树的第i层，最多有2i-1个节点(i>=1)

在深度为K的二叉树上最多有2k-1个节点(k>1)

对于任意一个非空的二叉树，如果叶子节点个数为n0，度数为2的节点数为n2，则有n0=n2+1

推倒过程：在一棵二叉树中，除了叶子节点（度为0）外，就剩下度为2(n2)和度为1(n1)的节点了。则树的节点总数为T = n0 + n1 + n2；在二叉树中节点总数为T，而连线总数为T-1 = 2n2 + n1，所以就有：n0 + n1 + n2 - 1 = 2 n2 + n1，得到n0=n2+1。

特殊的二叉树

满二叉树

在二叉树中除了叶子节点，其他所有节点的度为2，且所有的叶子节点都在同一层上，这样的二叉树成为满二叉树。

满二叉树的特点：

叶子节点只能出现在最下一层

非叶子节点度数一定为2

在同样深度的二叉树中，满二叉树的节点个数最多，叶子节点数最多

完全二叉树

如果二叉树中除去最后一层叶子节点后为满二叉树，且最后一层的叶子节点依次从左到右分布，则这样的二叉树称为完全二叉树

完全二叉树的特点：

叶子节点一般出现在最下一层，如果倒数第二层出现叶子节点，一定出现在右部连续位置

最下层叶子节点一定集中在左部连续位置

同样节点的二叉树，完全二叉树的深度最小（满二叉树也对）

小例题：

某完全二叉树共有200个节点，该二叉树中共有（）个叶子节点？

解：n0 + n1 + n2 = 200，其中n0 = n2 + 1，n1 = 0或者1 （n1=1，出现在最下一层节点数为奇数，最下一层节点数为偶数，则n1=0），因为n0为整数，所以最后算得n0 = 100。

完全二叉树的性质：

具有n个节点的完全二叉树的深度为log2n+1。log2n结果取整数部分。

如果有一棵有n个节点的完全二叉树的节点按层次序编号，对任一层的节点i(1 <= i <= n)

1 如果i=1，则节点是二叉树的根，无父节点，如果i>1,则其父节点为i/2，向下取整

2 如果21>n，那么节点i没有左孩子，否则其左孩子为2i

3 如果2i+1>n那么节点没有右孩子，否则右孩子为2i+1

验证：

第一条：

当i=1时，为根节点。当i>1时，比如结点为7，他的双亲就是7/2= 3；结点9双亲为4

第二条：

结点6,62 = 12>10，所以结点6无左孩子，是叶子结点。结点5，52 = 10，左孩子是10,结点4，为8

第三条：

结点5，25+1>10,没有右孩子，结点4，则有右孩子。

更多Python相关知识，请移步Python视频教程继续学习！！

稍微说一下背景，当时我想研究蛋白质与小分子的复合物在空间三维结构上的一些规律，首先得有数据啊，数据从哪里来？就是从一个涵盖所有已经解析三维结构的蛋白质-小分子复合物的数据库里面下载。这时候，手动一个个去下显然是不可取的，我们需要写个脚本，能从特定的网站选择性得批量下载需要的信息。python是不错的选择。

import urllib #python中用于获取网站的模块

import urllib2, cookielib

有些网站访问时需要cookie的，python处理cookie代码如下：

cj = cookiejar ( )

opener = build_opener( >

一、什么是深度优先遍历

深度优先遍历算法是经典的图论算法。从某个节点v出发开始进行搜索。不断搜索直到该节点所有的边都被遍历完，当节点v所有的边都被遍历完以后，深度优先遍历算法则需要回溯到v以前驱节点来继续搜索这个节点。

注意：深度优先遍历问题一定要按照规则尝试所有的可能才行。

二、二叉树

2二叉树类型

二叉树类型：空二叉树、满二叉树、完全二叉树、完美二叉树、平衡二叉树。

空二叉树：有零个节点

完美二叉树：每一层节点都是满的二叉树（如1中举例的图）

满二叉树：每一个节点都有零个或者两个子节点

完全二叉树：出最后一层外，每一层节点都是满的，并且最后一层节点全部从左排列

平衡二叉树：每个节点的两个子树的深度相差不超过1

注：国内对完美二叉树和满二叉树定义相同

3二叉树相关术语

术语解释

度节点的度为节点的子树个数

叶子节点度为零的节点

分支节点度不为零的节点

孩子节点节点下的两个子节点

双亲节点节点上一层的源节点

兄弟节点拥有同一双亲节点的节点

根二叉树的源头节点

深度二叉树中节点的层的数量

DLR（先序）：

LDR（中序）：

LRD(后序）：

注意：L代表左子树R代表右子树；D代表根

6深度优先遍历和广度优先遍历

深度优先遍历：前序、中序和后序都是深度优先遍历

从根节点出发直奔最远节点，

广度优先遍历：首先访问举例根节点最近的节点，按层次递进，以广度优先遍历上图的顺序为：1-2-3-4-5-6-7

三、面试题+励志

企鹅运维面试题：

1二叉树遍历顺序：看上文

2用你熟悉的语言说说怎么创建二叉树？ python看上文

一、使用pip直接安装beautifulsoup4

F:/>pip install beautifulsoup4

Collecting Beautifulsoup4

Downloading beautifulsoup4-441-py3-none-anywhl (81kB)

50% |████████████████ | 40kB 33kB/s eta 0:00:

62% |████████████████████▏ | 51kB 32kB/s eta

75% |████████████████████████▏ | 61kB 39kB/s

88% |████████████████████████████▏ | 71kB 21k

100% |████████████████████████████████| 81kB

25kB/s

Installing collected packages: Beautifulsoup4

Successfully installed Beautifulsoup4-441

或者从官网下载Beautifulsoup的软件包，然后解压，cmd命令行进入解压包目录，输入以下命令安装：python setuppy install

记得在Python3里一定要安装beautifulsoup4的版本，其它版本安装不上的。

二、例子：

#python 34

#蔡军生 2016-6-13

from bs4 import BeautifulSoup

html_doc = """

<html><head><title>The Dormouse's story</title></head>

<body>

The Dormouse's story

Once upon a time there were three little sisters; and their names were

以上就是关于BeautifulSoup4中文文档全部的内容，包括:BeautifulSoup4中文文档、Python中的树你知道吗、python爬虫时，bs4无法读取网页标签中的文本等相关内容解答，如果想了解更多相关内容，可以关注我们，你们的支持是我们更新的动力！

欢迎分享，转载请注明来源：内存溢出

原文地址:https://54852.com/web/9563809.html

BeautifulSoup4中文文档

发表评论

评论列表（0条）