TC - Linux 流量控制工具

TC - Linux 流量控制工具,第1张

参考: TC - Linux 流量控制工具 | Life is magic. Coding is art. (int64.me)

TC(Linux下流量控制工具)详细说明及应用_Gino的专栏-CSDN博客

本来打算直接列一波用法,但是总觉得,不记录一下原理, *** 作起来也是一脸懵逼。 TC 通过建立处理数据包队列,并定义队列中数据包被发送的方式,从而实现进行流量控制。TC 模拟实现流量控制功能使用的队列分为两类:

classful 队列规定(qdisc), 类(class)和过滤器(filter)这 3 个组件组成,绘图中一般用圆形表示队列规定,用矩形表示类,图 copy 自 Linux 下 TC 以及 netem 队列的使用

都是以一个根 qdisc 开始的,若根 qdisc 是不分类的队列规定,那它就没有子类,因此不可能包含其他的子对象,也不会有过滤器与之关联,发送数据时,数据包进入这个队列里面排队,然后根据该队列规定的处理方式将数据包发送出去。

分类的 qdisc 内部包含一个或多个类,而每个类可以包含一个队列规定或者包含若干个子类,这些子类友可以包含分类或者不分类的队列规定,如此递归,形成了一个树。

句柄号:qdisc 和类都使用一个句柄进行标识,且在一棵树中必须是唯一的,每个句柄由主号码和次号码组成 qdisc 的次号码必须为 0(0 通常可以省略不写)

根 qdisc 的句柄为 1:,也就是 1:0。类的句柄的主号码与它的父辈相同(父类或者父 qdisc),如类 1:1 的主号码与包含他的队列规定 1:的主号码相同,1:10 和 1:11 与他们的父类 1:1 的主号码相同,也为 1。

新建一个类时,默认带有一个 pfifo_fast 类型的不分类队列规定,当添加一个子类时,这个类型的 qdisc 就会被删除,所以,非叶子类是没有队列规定的,数据包最后只能到叶子类的队列规定里面排队。

若一个类有子类,那么允许这些子类竞争父类的带宽,但是,以队列规定为父辈的类之间是不允许相互竞争带宽的。

默认 TC 的 qdisc 控制就是出口流量,要使用 TC 控制入口,需要把流量重定向到 ifb 网卡,其实就是加了一层,原理上还是控制出口 。

为何要先说 classless 队列,毕竟这个简单嘛,要快速使用,那么这个就是首选了。基于 classless 队列,我们可以进行故障模拟,也可以用来限制带宽。

TC 使用 linux network netem 模块进行网络故障模拟

网络传输并不能保证顺序,传输层 TCP 会对报文进行重组保证顺序,所以报文乱序对应用的影响比上面的几种问题要小。

报文乱序可前面的参数不太一样,因为上面的报文问题都是独立的,针对单个报文做 *** 作就行,而乱序则牵涉到多个报文的重组。模拟报乱序一定会用到延迟(因为模拟乱序的本质就是把一些包延迟发送),netem 有两种方法可以做。

以 tbf (Token Bucket Filter) 为例,

参数说明:

限制 100mbit

限制延迟 100ms, 流量 100mbit

这个就复杂一些,同样也特别灵活,可以限制特定的 ip 或者服务类型以及端口

以使用 htb 为例

使用 TC 进行入口限流,需要把流量重定向到 ifb 虚拟网卡,然后在控制 ifb 的输出流量

1.1 SHAPING(限制):控制流量在某个值以下。限制值可以大大小于有效带宽,这样可以平滑突发数据流量,使网络更为稳定。shaping(限制)只适用于向外的流量。

1.2 SCHEDULING(调度):通过调度数据包的传输,可以在带宽范围内,按照优先级分配带宽。SCHEDULING(调度)也只适于向外的流量。

1.3 POLICING(策略):SHAPING用于处理向外的流量,而POLICIING(策略)用于处理接收到的数据。

1.4 DROPPING(丢弃):如果流量超过某个设定的带宽,就丢弃数据包,不管是向内还是向外。

2.1队列控制 :即 QOS,TOS 瓶颈处的发送队列的规则控制,常见的有 SFQ、 PRIO。

2.2流量控制 即带宽控制 , 队列的排队整形, 一般为 TBF、 HTB。

3.1无类算法 用于树叶级无分支的队列,例如:SFQ

3.2分类算法 用于多分支的队列,例如:PRIO 、TB、F HTB

Tc对象列表

结构图

我们可以使用以下三种方式为数据包归类,不过不是所有的QDisc都能够使用这三种方式。

FILTER

QDisc、类和过滤器都有ID。ID可以手工设置,也可以有内核自动分配。ID由一个主序列号和一个从序列号组成,两个数字用一个冒号分开。

Linux流量控制主要分为建立队列、建立分类和建立过滤器三个方面。

基本实现步骤为:

(1) 针对网络物理设备(如以太网卡eth0)绑定一个队列QDisc;

(2) 在该队列上建立分类class;

(3) 为每一分类建立一个基于路由的过滤器filter;

(4) 最后与过滤器相配合,建立特定的路由表。

令牌桶过滤器 (TBF) 是一个简单的队列规定 : 只允许以不超过事先设定的速率到来的数据包通过 , 但可能允许短暂突发流量朝过设定值 .TBF 很精确 , 对于网络和处理器的影响都很小 , 实现是针对数据的字节数进行的 , 而不是针对数据包进行 , 常用于网关限速 .

TBF 的实现在于一个缓冲器 ( 桶 ), 不断地被一些叫做"令牌"的虚拟数据以特定速率填充着 . (token rate). 桶最重要的参数就是它的大小 , 也就是它能够存储令牌的数量 . 每个到来的令牌从数据队列中收集一个数据包 , 然后从桶中被删除 . 这个算法关联到两个流上——令牌流和数据流 , 于是我们得到 3 种情景 :

测试机器 192.168.5.52 与 192.168.8.51

在192.168.8.52 上设置qdisc 进行流量控制。

对192.168.8.52,进行tbf设定:

由于tbf 属于不可分类qdisc,配置步骤只有一步:

tc qdisc add dev eno16780032 handle 1: root tbf rate 10Mbit burst 10kbit limit 20Mbit

handle 设定qdisc 句柄号 ,省略则随机给定

rate 设定最大的发包速率,单位默认字节

burst 设定令牌通大小,单位默认字节 注:在 Intel 体系上 ,10 兆 bit/s 的reate需要至少 10k 字节的burst。

limit 带宽大小,控制总带宽,另外一个作用是,对没有获取到tokent 排队中包进行限制,达到limit 限定则丢弃。

prio qdisc 属于可分类qdisc,不可动态添加类的算法。

分类算法:主要作用是可以对多种数据流区别对待 . 一旦数据包进入一个分类的队列规定 , 它就得被送到某一个类中分类 ,

对数据包进行分类的工具是过滤器 . 过滤器会返回一个决定 , 队列规定就根据这个决定把数据包送入相应的类进行排队 .

每个子类都可以再次使用它们的过滤器进行进一步的分类 . 直到不需要进一步分类时 , 数据包才进入该类包含的队列规定排队 . 除了能够包含其它队列规定之外 , 绝大多数分类的队列规定能够流量整形。

PRIO 分类优先算法 ( 从左至右优先发包 ): 队列规定并不进行整形 , 它仅仅根据你配置的过滤器把流量进一步细分 .

你可以认为 PRIO 队列规定是 pfifo_fast 的一种衍生物 , 区别在每个频道都是一个单独的类 , 而非简单的 FIFO.

当数据包进入 PRIO 队列规定后 , 将根据你给定的过滤器设置选择一个类 . 缺省情况下有三个类 , 这些类仅包含纯 FIFO 队列规定而没有更多的内部结构 .

你可以把它们替换成你需要的任何队列规定 . 每当有一个数据包需要出队时 , 首先处理 :1 类 . 只有当标号更小的类中没有需要处理的包时 , 才会标号大的类 .

测试机器 192.168.5.52 与 192.168.8.51

在192.168.8.52 上设置qdisc 进行流量控制。

通过iperf –S 选项设定 TOS包头字段使流量分类

1.tc qdisc add dev eno16780032 root handle 1: prio priomap 1 2 2 2 1 2 0 0 1 1 1 1 1 1 1 1

2.tc qdisc add dev eno16780032 parent 1:1 handle 10: pfifo

tc qdisc add dev eno16780032 parent 1:2 handle 20: tbf rate 10mb buffer 10kb limit 15mb

tc qdisc add dev eno16780032 parent 1:3 handle 30: tbf rate 20kbit buffer 1600 limit 3000

第一步:给网卡定义一个根qdisc 使用prio算法。注:priomap 选项所设定的16个tos标识符与3个bond的

关系,可省略,这里为解析选项,使用的也是默认结构关系。

第二步:给三个band即三个缺省的class 配置子qdisc ,为了测试效果,这里给class10设定pfifo算法,避免测试时

ssh本身被限制挂起,给class20 、class30 使用tbf算法,限定不同的速率,以体现prio的分类特性,由于

条件限制,可能无法体现出 三个class的优先级特性。

第三步:由于prio 协议使用TOS 字段进行分类,在本案例中直接使用iperf 工具 直接定义流量包的tos 包头,

本例将省略 FILTERS 的配置。(可以配置filter有iptables-mangle表、cgroup)

该 prio算法可以实现流量分类效果,适用在多业务并存的场景。

CBQ qdisc 属于可分类qdisc,可动态添加类的算法

CBQ 的工作机制是确认链路的闲置时间足够长 , 以达到降低链路实际带宽的目的 . 为此 , 它要计算两个数据包的平均发送间隔 . *** 作期间 , 有效闲置时间的测量使用EWMA(exponential weighted moving average, 指数加权移动均值 ) 算法 , 也就是说最近处理的数据包的权值比以前的数据包按指数增加 . 计算出来的平均时间值减去 EWMA 测量值 , 得出的结果叫做"avgidle". 最佳的链路负载情况下 , 这个值应当是 0.

数据包严格按照计算出来的时间间隔到来 . 在一个过载的链路上 ,avgidle 值应当是负的 . 如果这个负值太严重 ,CBQ 就会暂时禁止发包 , 称为"overlimit"( 越限 ).

相反地 , 一个闲置的链路应该有很大 avgidle 值 , 这样闲置几个小时后 , 会造成链路允许非常大的带宽通过 . 为了避免这种局面 , 我们用 maxidle 来限 avgidle的值不能太大 .

理论上讲 , 如果发生越限 ,CBQ 就会禁止发包一段时间 ( 长度就是事先计算出来的传输数据包之间的时间间隔 ), 然后通过一个数据包后再次禁止发包 。

模拟的场景

假如有三种类型的流量需要控制:

配置子qdisc与class,及class 的子qdisc

注: 此处的子qdisc 是归属于class的,在定义class直接定义。这些qdisc使用 tc qdisc ls 命令查不到。与prio算法不一样。prio在创建qdisc 是class已创建,class的子dqisc 无法通过一般方式修改,故使用创建qdisc的方式。

建立分类器

6.tc filter add dev eno16780032 parent 1:0 protocol ip prio 100 route

7.tc filter add dev eno16780032 parent 1:0 protocol ip prio 100 route to 2 flowid 1:2

8.tc filter add dev eno16780032 parent 1:0 protocol ip prio 100 route to 3 flowid 1:3

9.tc filter add dev eno16780032 parent 1:0 protocol ip prio 100 route to 4 flowid 1:4

修改路由

10.ip route add 192.168.8.51 dev eno16780032 realm 2

11.ip route add 192.168.8.53 dev eno16780032 realm 3

12.ip route add 192.168.8.0/24 dev eno16780032 realm 4

去除分类器来讲,该算法本身适用的场景,流量整形,调度,合理分配带宽

注:一般对于流量控制器所直接连接的网段建议使用IP主机地址流量控制限制,不要使用子网流量控制限制。如一定需要对直连子网使用子网流量控制限制,则在建立该子网的路由映射前,需将原先由系统建立的路由删除,才可完成相应步骤。

该算法参考tbf算法,这里注重演示u32分类器。

环境与要求同上述 CBQ 的例子

添加过滤器 , 直接把流量导向相应的类 :

U32 是常用的分类器,分类器是对数据包进行分类工具 , 分类器用与把数据包分类并放入相应的子队列 ,

这些分类器在分类的队列规定内部被调用 . 为了决定用哪个类处理数据包 , 必须调用所谓的"分类器链" 进行选择 . 这个链中包含了这个分类队列规定所需的所有分类器 .

如图(结构图)所示分类器工作在拥有子类的class上,即树状的分支处。

当一个数据包入队的时候 , 每一个分支处都会咨询过滤器链如何进行下一步 .

你可以把后一个过滤器同时放在 1:1 处, 而得到效率的提高 .

另外使用 HTB 的时候应该把所有的规则放到根上。

注 : 数据包只能向"下"进行入队 *** 作 ! 只有出队的时候才会上到网卡所在的位置来 . 他们不会落到树的最底层后送到网卡

网络故障一般包含网络数据异常,网络丢包和网络延迟。

Linux内核从2.2开始提供TC(Traffic Control)去控制Linux内核的流量,一般系统都是自带tc工具。

TC控制流程:

这里使用paping而不是ping,按照原作者说法是为了防止在防火墙开启的状态下可以ping通,但无法进行tcp连接的问题。

网络延迟:

tc qdisc add dev eth0 root netem delay 300ms

网络丢包:

tc qdisc add dev eth0 root netem loss 7% 25% #代表丢掉7%的包,但是成功率只有25%

tc qdisc add dev eth0 root netem loss 7% #只设置7%是代表随机丢掉7%的包

网络数据异常:

tc qdisc add dev eth0 root netem corrupt 10% # 10%的数据包损坏,不是没传过去,而是传过去不对。

网络数据重复:

tc qdisc add dev eth0 root netem duplicate 1% #随机产生1%的包重复

网络数据包乱序:

tc qdisc add dev eth0 root netem delay 10ms reorder 25% 50% #有25%的数据包(50%相关)会被立即发送,其他的延迟10秒

关闭网络异常模拟:

tc qdisc del dev eth0 root netem

监控网卡:

tc qdisc add dev eth0 root netem

其余命令:

tc qdisc change dev eth0 root netem duplicate 1%

tc qdisc replace dev eth0 root netem duplicate 1%

tc是要在client端设置的,因为只能控制数据发出,它模拟的是异常的数据到达Server后如何被处理,前提是数据在到达Server的时候已经异常了。

至于server端的控制,需要使用iptables。

参考文档:

https://honeypps.com/chaos/how-to-simulate-network-fault/

https://www.haxi.cc/archives/Linux%E6%A8%A1%E6%8B%9F%E5%A4%8D%E6%9D%82%E7%BD%91%E7%BB%9C%E7%8E%AF%E5%A2%83%E4%B8%8B%E7%9A%84%E4%BC%A0%E8%BE%93-netem%E5%92%8Ctc.html


欢迎分享,转载请注明来源:内存溢出

原文地址:https://54852.com/yw/6196693.html

(0)
打赏 微信扫一扫微信扫一扫 支付宝扫一扫支付宝扫一扫
上一篇 2023-03-17
下一篇2023-03-17

发表评论

登录后才能评论

评论列表(0条)

    保存