TC - Linux 流量控制工具_系统运维

参考： TC - Linux 流量控制工具 | Life is magic. Coding is art. (int64.me)

TC(Linux下流量控制工具)详细说明及应用_Gino的专栏-CSDN博客

本来打算直接列一波用法，但是总觉得，不记录一下原理， *** 作起来也是一脸懵逼。 TC 通过建立处理数据包队列，并定义队列中数据包被发送的方式，从而实现进行流量控制。TC 模拟实现流量控制功能使用的队列分为两类：

classful 队列规定（qdisc）, 类（class）和过滤器（filter）这 3 个组件组成，绘图中一般用圆形表示队列规定，用矩形表示类，图 copy 自 Linux 下 TC 以及 netem 队列的使用

都是以一个根 qdisc 开始的，若根 qdisc 是不分类的队列规定，那它就没有子类，因此不可能包含其他的子对象，也不会有过滤器与之关联，发送数据时，数据包进入这个队列里面排队，然后根据该队列规定的处理方式将数据包发送出去。

分类的 qdisc 内部包含一个或多个类，而每个类可以包含一个队列规定或者包含若干个子类，这些子类友可以包含分类或者不分类的队列规定，如此递归，形成了一个树。

句柄号：qdisc 和类都使用一个句柄进行标识，且在一棵树中必须是唯一的，每个句柄由主号码和次号码组成 qdisc 的次号码必须为 0（0 通常可以省略不写）

根 qdisc 的句柄为 1：，也就是 1：0。类的句柄的主号码与它的父辈相同（父类或者父 qdisc），如类 1：1 的主号码与包含他的队列规定 1：的主号码相同，1：10 和 1：11 与他们的父类 1：1 的主号码相同，也为 1。

新建一个类时，默认带有一个 pfifo_fast 类型的不分类队列规定，当添加一个子类时，这个类型的 qdisc 就会被删除，所以，非叶子类是没有队列规定的，数据包最后只能到叶子类的队列规定里面排队。

若一个类有子类，那么允许这些子类竞争父类的带宽，但是，以队列规定为父辈的类之间是不允许相互竞争带宽的。

默认 TC 的 qdisc 控制就是出口流量，要使用 TC 控制入口，需要把流量重定向到 ifb 网卡，其实就是加了一层，原理上还是控制出口。

为何要先说 classless 队列，毕竟这个简单嘛，要快速使用，那么这个就是首选了。基于 classless 队列，我们可以进行故障模拟，也可以用来限制带宽。

TC 使用 linux network netem 模块进行网络故障模拟

网络传输并不能保证顺序，传输层 TCP 会对报文进行重组保证顺序，所以报文乱序对应用的影响比上面的几种问题要小。

报文乱序可前面的参数不太一样，因为上面的报文问题都是独立的，针对单个报文做 *** 作就行，而乱序则牵涉到多个报文的重组。模拟报乱序一定会用到延迟（因为模拟乱序的本质就是把一些包延迟发送），netem 有两种方法可以做。

以 tbf (Token Bucket Filter) 为例，

参数说明：

限制 100mbit

限制延迟 100ms, 流量 100mbit

这个就复杂一些，同样也特别灵活，可以限制特定的 ip 或者服务类型以及端口

以使用 htb 为例

使用 TC 进行入口限流，需要把流量重定向到 ifb 虚拟网卡，然后在控制 ifb 的输出流量

1.1 SHAPING(限制)：控制流量在某个值以下。限制值可以大大小于有效带宽，这样可以平滑突发数据流量，使网络更为稳定。shaping（限制）只适用于向外的流量。

1.2 SCHEDULING(调度)：通过调度数据包的传输，可以在带宽范围内，按照优先级分配带宽。SCHEDULING(调度)也只适于向外的流量。

1.3 POLICING(策略)：SHAPING用于处理向外的流量，而POLICIING(策略)用于处理接收到的数据。

1.4 DROPPING(丢弃)：如果流量超过某个设定的带宽，就丢弃数据包，不管是向内还是向外。

2.1队列控制：即 QOS,TOS 瓶颈处的发送队列的规则控制，常见的有 SFQ、 PRIO。

2.2流量控制即带宽控制 , 队列的排队整形，一般为 TBF、 HTB。

3.1无类算法用于树叶级无分支的队列，例如：SFQ

3.2分类算法用于多分支的队列，例如：PRIO 、TB、F HTB

Tc对象列表

结构图

我们可以使用以下三种方式为数据包归类，不过不是所有的QDisc都能够使用这三种方式。

FILTER

QDisc、类和过滤器都有ID。ID可以手工设置，也可以有内核自动分配。ID由一个主序列号和一个从序列号组成，两个数字用一个冒号分开。

Linux流量控制主要分为建立队列、建立分类和建立过滤器三个方面。

基本实现步骤为：

（1）针对网络物理设备（如以太网卡eth0）绑定一个队列QDisc；

（2）在该队列上建立分类class；

（3）为每一分类建立一个基于路由的过滤器filter；

（4）最后与过滤器相配合，建立特定的路由表。

令牌桶过滤器 (TBF) 是一个简单的队列规定 : 只允许以不超过事先设定的速率到来的数据包通过 , 但可能允许短暂突发流量朝过设定值 .TBF 很精确 , 对于网络和处理器的影响都很小 , 实现是针对数据的字节数进行的 , 而不是针对数据包进行 , 常用于网关限速 .

TBF 的实现在于一个缓冲器 ( 桶 ), 不断地被一些叫做"令牌"的虚拟数据以特定速率填充着 . (token rate). 桶最重要的参数就是它的大小 , 也就是它能够存储令牌的数量 . 每个到来的令牌从数据队列中收集一个数据包 , 然后从桶中被删除 . 这个算法关联到两个流上——令牌流和数据流 , 于是我们得到 3 种情景 :

测试机器 192.168.5.52 与 192.168.8.51

在192.168.8.52 上设置qdisc 进行流量控制。

对192.168.8.52，进行tbf设定：

由于tbf 属于不可分类qdisc，配置步骤只有一步：

tc qdisc add dev eno16780032 handle 1: root tbf rate 10Mbit burst 10kbit limit 20Mbit

handle 设定qdisc 句柄号，省略则随机给定

rate 设定最大的发包速率，单位默认字节

burst 设定令牌通大小，单位默认字节注：在 Intel 体系上 ,10 兆 bit/s 的reate需要至少 10k 字节的burst。

limit 带宽大小，控制总带宽，另外一个作用是，对没有获取到tokent 排队中包进行限制，达到limit 限定则丢弃。

prio qdisc 属于可分类qdisc，不可动态添加类的算法。

分类算法：主要作用是可以对多种数据流区别对待 . 一旦数据包进入一个分类的队列规定 , 它就得被送到某一个类中分类 ,

对数据包进行分类的工具是过滤器 . 过滤器会返回一个决定 , 队列规定就根据这个决定把数据包送入相应的类进行排队 .

每个子类都可以再次使用它们的过滤器进行进一步的分类 . 直到不需要进一步分类时 , 数据包才进入该类包含的队列规定排队 . 除了能够包含其它队列规定之外 , 绝大多数分类的队列规定能够流量整形。

PRIO 分类优先算法 ( 从左至右优先发包 )：队列规定并不进行整形 , 它仅仅根据你配置的过滤器把流量进一步细分 .

你可以认为 PRIO 队列规定是 pfifo_fast 的一种衍生物 , 区别在每个频道都是一个单独的类 , 而非简单的 FIFO.

当数据包进入 PRIO 队列规定后 , 将根据你给定的过滤器设置选择一个类 . 缺省情况下有三个类 , 这些类仅包含纯 FIFO 队列规定而没有更多的内部结构 .

你可以把它们替换成你需要的任何队列规定 . 每当有一个数据包需要出队时 , 首先处理 :1 类 . 只有当标号更小的类中没有需要处理的包时 , 才会标号大的类 .

测试机器 192.168.5.52 与 192.168.8.51

在192.168.8.52 上设置qdisc 进行流量控制。

通过iperf –S 选项设定 TOS包头字段使流量分类

1.tc qdisc add dev eno16780032 root handle 1: prio priomap 1 2 2 2 1 2 0 0 1 1 1 1 1 1 1 1

2.tc qdisc add dev eno16780032 parent 1:1 handle 10: pfifo

tc qdisc add dev eno16780032 parent 1:2 handle 20: tbf rate 10mb buffer 10kb limit 15mb

tc qdisc add dev eno16780032 parent 1:3 handle 30: tbf rate 20kbit buffer 1600 limit 3000

第一步：给网卡定义一个根qdisc 使用prio算法。注：priomap 选项所设定的16个tos标识符与3个bond的

关系，可省略，这里为解析选项，使用的也是默认结构关系。

第二步：给三个band即三个缺省的class 配置子qdisc ，为了测试效果，这里给class10设定pfifo算法，避免测试时

ssh本身被限制挂起，给class20 、class30 使用tbf算法，限定不同的速率，以体现prio的分类特性，由于

条件限制，可能无法体现出三个class的优先级特性。

第三步：由于prio 协议使用TOS 字段进行分类，在本案例中直接使用iperf 工具直接定义流量包的tos 包头，

本例将省略 FILTERS 的配置。（可以配置filter有iptables-mangle表、cgroup）

该 prio算法可以实现流量分类效果，适用在多业务并存的场景。

CBQ qdisc 属于可分类qdisc，可动态添加类的算法

CBQ 的工作机制是确认链路的闲置时间足够长 , 以达到降低链路实际带宽的目的 . 为此 , 它要计算两个数据包的平均发送间隔 . *** 作期间 , 有效闲置时间的测量使用EWMA(exponential weighted moving average, 指数加权移动均值 ) 算法 , 也就是说最近处理的数据包的权值比以前的数据包按指数增加 . 计算出来的平均时间值减去 EWMA 测量值 , 得出的结果叫做"avgidle". 最佳的链路负载情况下 , 这个值应当是 0.

数据包严格按照计算出来的时间间隔到来 . 在一个过载的链路上 ,avgidle 值应当是负的 . 如果这个负值太严重 ,CBQ 就会暂时禁止发包 , 称为"overlimit"( 越限 ).

相反地 , 一个闲置的链路应该有很大 avgidle 值 , 这样闲置几个小时后 , 会造成链路允许非常大的带宽通过 . 为了避免这种局面 , 我们用 maxidle 来限 avgidle的值不能太大 .

理论上讲 , 如果发生越限 ,CBQ 就会禁止发包一段时间 ( 长度就是事先计算出来的传输数据包之间的时间间隔 ), 然后通过一个数据包后再次禁止发包。

模拟的场景

假如有三种类型的流量需要控制:

配置子qdisc与class，及class 的子qdisc

注：此处的子qdisc 是归属于class的，在定义class直接定义。这些qdisc使用 tc qdisc ls 命令查不到。与prio算法不一样。prio在创建qdisc 是class已创建，class的子dqisc 无法通过一般方式修改，故使用创建qdisc的方式。

建立分类器

6.tc filter add dev eno16780032 parent 1:0 protocol ip prio 100 route

7.tc filter add dev eno16780032 parent 1:0 protocol ip prio 100 route to 2 flowid 1:2

8.tc filter add dev eno16780032 parent 1:0 protocol ip prio 100 route to 3 flowid 1:3

9.tc filter add dev eno16780032 parent 1:0 protocol ip prio 100 route to 4 flowid 1:4

修改路由

10.ip route add 192.168.8.51 dev eno16780032 realm 2

11.ip route add 192.168.8.53 dev eno16780032 realm 3

12.ip route add 192.168.8.0/24 dev eno16780032 realm 4

去除分类器来讲，该算法本身适用的场景，流量整形，调度，合理分配带宽

注：一般对于流量控制器所直接连接的网段建议使用IP主机地址流量控制限制，不要使用子网流量控制限制。如一定需要对直连子网使用子网流量控制限制，则在建立该子网的路由映射前，需将原先由系统建立的路由删除，才可完成相应步骤。

该算法参考tbf算法，这里注重演示u32分类器。

环境与要求同上述 CBQ 的例子

添加过滤器 , 直接把流量导向相应的类 :

U32 是常用的分类器，分类器是对数据包进行分类工具 , 分类器用与把数据包分类并放入相应的子队列 ,

这些分类器在分类的队列规定内部被调用 . 为了决定用哪个类处理数据包 , 必须调用所谓的"分类器链" 进行选择 . 这个链中包含了这个分类队列规定所需的所有分类器 .

如图（结构图）所示分类器工作在拥有子类的class上，即树状的分支处。

当一个数据包入队的时候 , 每一个分支处都会咨询过滤器链如何进行下一步 .

你可以把后一个过滤器同时放在 1:1 处, 而得到效率的提高 .

另外使用 HTB 的时候应该把所有的规则放到根上。

注 : 数据包只能向"下"进行入队 *** 作 ! 只有出队的时候才会上到网卡所在的位置来 . 他们不会落到树的最底层后送到网卡

网络故障一般包含网络数据异常，网络丢包和网络延迟。

Linux内核从2.2开始提供TC(Traffic Control)去控制Linux内核的流量，一般系统都是自带tc工具。

TC控制流程：

这里使用paping而不是ping，按照原作者说法是为了防止在防火墙开启的状态下可以ping通，但无法进行tcp连接的问题。

网络延迟：

tc qdisc add dev eth0 root netem delay 300ms

网络丢包：

tc qdisc add dev eth0 root netem loss 7% 25% #代表丢掉7%的包，但是成功率只有25%

tc qdisc add dev eth0 root netem loss 7% #只设置7%是代表随机丢掉7%的包

网络数据异常：

tc qdisc add dev eth0 root netem corrupt 10% # 10%的数据包损坏，不是没传过去，而是传过去不对。

网络数据重复：

tc qdisc add dev eth0 root netem duplicate 1% #随机产生1%的包重复

网络数据包乱序：

tc qdisc add dev eth0 root netem delay 10ms reorder 25% 50% #有25%的数据包（50%相关）会被立即发送，其他的延迟10秒

关闭网络异常模拟：

tc qdisc del dev eth0 root netem

监控网卡：

tc qdisc add dev eth0 root netem

其余命令:

tc qdisc change dev eth0 root netem duplicate 1%

tc qdisc replace dev eth0 root netem duplicate 1%

tc是要在client端设置的，因为只能控制数据发出，它模拟的是异常的数据到达Server后如何被处理，前提是数据在到达Server的时候已经异常了。

至于server端的控制，需要使用iptables。

参考文档：

https://honeypps.com/chaos/how-to-simulate-network-fault/

https://www.haxi.cc/archives/Linux%E6%A8%A1%E6%8B%9F%E5%A4%8D%E6%9D%82%E7%BD%91%E7%BB%9C%E7%8E%AF%E5%A2%83%E4%B8%8B%E7%9A%84%E4%BC%A0%E8%BE%93-netem%E5%92%8Ctc.html

欢迎分享，转载请注明来源：内存溢出

原文地址:https://54852.com/yw/6196693.html

TC - Linux 流量控制工具

发表评论

评论列表（0条）