
TC(Linux下流量控制工具)详细说明及应用_Gino的专栏-CSDN博客
本来打算直接列一波用法,但是总觉得,不记录一下原理, *** 作起来也是一脸懵逼。 TC 通过建立处理数据包队列,并定义队列中数据包被发送的方式,从而实现进行流量控制。TC 模拟实现流量控制功能使用的队列分为两类:
classful 队列规定(qdisc), 类(class)和过滤器(filter)这 3 个组件组成,绘图中一般用圆形表示队列规定,用矩形表示类,图 copy 自 Linux 下 TC 以及 netem 队列的使用
都是以一个根 qdisc 开始的,若根 qdisc 是不分类的队列规定,那它就没有子类,因此不可能包含其他的子对象,也不会有过滤器与之关联,发送数据时,数据包进入这个队列里面排队,然后根据该队列规定的处理方式将数据包发送出去。
分类的 qdisc 内部包含一个或多个类,而每个类可以包含一个队列规定或者包含若干个子类,这些子类友可以包含分类或者不分类的队列规定,如此递归,形成了一个树。
句柄号:qdisc 和类都使用一个句柄进行标识,且在一棵树中必须是唯一的,每个句柄由主号码和次号码组成 qdisc 的次号码必须为 0(0 通常可以省略不写)
根 qdisc 的句柄为 1:,也就是 1:0。类的句柄的主号码与它的父辈相同(父类或者父 qdisc),如类 1:1 的主号码与包含他的队列规定 1:的主号码相同,1:10 和 1:11 与他们的父类 1:1 的主号码相同,也为 1。
新建一个类时,默认带有一个 pfifo_fast 类型的不分类队列规定,当添加一个子类时,这个类型的 qdisc 就会被删除,所以,非叶子类是没有队列规定的,数据包最后只能到叶子类的队列规定里面排队。
若一个类有子类,那么允许这些子类竞争父类的带宽,但是,以队列规定为父辈的类之间是不允许相互竞争带宽的。
默认 TC 的 qdisc 控制就是出口流量,要使用 TC 控制入口,需要把流量重定向到 ifb 网卡,其实就是加了一层,原理上还是控制出口 。
为何要先说 classless 队列,毕竟这个简单嘛,要快速使用,那么这个就是首选了。基于 classless 队列,我们可以进行故障模拟,也可以用来限制带宽。
TC 使用 linux network netem 模块进行网络故障模拟
网络传输并不能保证顺序,传输层 TCP 会对报文进行重组保证顺序,所以报文乱序对应用的影响比上面的几种问题要小。
报文乱序可前面的参数不太一样,因为上面的报文问题都是独立的,针对单个报文做 *** 作就行,而乱序则牵涉到多个报文的重组。模拟报乱序一定会用到延迟(因为模拟乱序的本质就是把一些包延迟发送),netem 有两种方法可以做。
以 tbf (Token Bucket Filter) 为例,
参数说明:
限制 100mbit
限制延迟 100ms, 流量 100mbit
这个就复杂一些,同样也特别灵活,可以限制特定的 ip 或者服务类型以及端口
以使用 htb 为例
使用 TC 进行入口限流,需要把流量重定向到 ifb 虚拟网卡,然后在控制 ifb 的输出流量
1.1 SHAPING(限制):控制流量在某个值以下。限制值可以大大小于有效带宽,这样可以平滑突发数据流量,使网络更为稳定。shaping(限制)只适用于向外的流量。
1.2 SCHEDULING(调度):通过调度数据包的传输,可以在带宽范围内,按照优先级分配带宽。SCHEDULING(调度)也只适于向外的流量。
1.3 POLICING(策略):SHAPING用于处理向外的流量,而POLICIING(策略)用于处理接收到的数据。
1.4 DROPPING(丢弃):如果流量超过某个设定的带宽,就丢弃数据包,不管是向内还是向外。
2.1队列控制 :即 QOS,TOS 瓶颈处的发送队列的规则控制,常见的有 SFQ、 PRIO。
2.2流量控制 即带宽控制 , 队列的排队整形, 一般为 TBF、 HTB。
3.1无类算法 用于树叶级无分支的队列,例如:SFQ
3.2分类算法 用于多分支的队列,例如:PRIO 、TB、F HTB
Tc对象列表
结构图
我们可以使用以下三种方式为数据包归类,不过不是所有的QDisc都能够使用这三种方式。
FILTER
QDisc、类和过滤器都有ID。ID可以手工设置,也可以有内核自动分配。ID由一个主序列号和一个从序列号组成,两个数字用一个冒号分开。
Linux流量控制主要分为建立队列、建立分类和建立过滤器三个方面。
基本实现步骤为:
(1) 针对网络物理设备(如以太网卡eth0)绑定一个队列QDisc;
(2) 在该队列上建立分类class;
(3) 为每一分类建立一个基于路由的过滤器filter;
(4) 最后与过滤器相配合,建立特定的路由表。
令牌桶过滤器 (TBF) 是一个简单的队列规定 : 只允许以不超过事先设定的速率到来的数据包通过 , 但可能允许短暂突发流量朝过设定值 .TBF 很精确 , 对于网络和处理器的影响都很小 , 实现是针对数据的字节数进行的 , 而不是针对数据包进行 , 常用于网关限速 .
TBF 的实现在于一个缓冲器 ( 桶 ), 不断地被一些叫做"令牌"的虚拟数据以特定速率填充着 . (token rate). 桶最重要的参数就是它的大小 , 也就是它能够存储令牌的数量 . 每个到来的令牌从数据队列中收集一个数据包 , 然后从桶中被删除 . 这个算法关联到两个流上——令牌流和数据流 , 于是我们得到 3 种情景 :
测试机器 192.168.5.52 与 192.168.8.51
在192.168.8.52 上设置qdisc 进行流量控制。
对192.168.8.52,进行tbf设定:
由于tbf 属于不可分类qdisc,配置步骤只有一步:
tc qdisc add dev eno16780032 handle 1: root tbf rate 10Mbit burst 10kbit limit 20Mbit
handle 设定qdisc 句柄号 ,省略则随机给定
rate 设定最大的发包速率,单位默认字节
burst 设定令牌通大小,单位默认字节 注:在 Intel 体系上 ,10 兆 bit/s 的reate需要至少 10k 字节的burst。
limit 带宽大小,控制总带宽,另外一个作用是,对没有获取到tokent 排队中包进行限制,达到limit 限定则丢弃。
prio qdisc 属于可分类qdisc,不可动态添加类的算法。
分类算法:主要作用是可以对多种数据流区别对待 . 一旦数据包进入一个分类的队列规定 , 它就得被送到某一个类中分类 ,
对数据包进行分类的工具是过滤器 . 过滤器会返回一个决定 , 队列规定就根据这个决定把数据包送入相应的类进行排队 .
每个子类都可以再次使用它们的过滤器进行进一步的分类 . 直到不需要进一步分类时 , 数据包才进入该类包含的队列规定排队 . 除了能够包含其它队列规定之外 , 绝大多数分类的队列规定能够流量整形。
PRIO 分类优先算法 ( 从左至右优先发包 ): 队列规定并不进行整形 , 它仅仅根据你配置的过滤器把流量进一步细分 .
你可以认为 PRIO 队列规定是 pfifo_fast 的一种衍生物 , 区别在每个频道都是一个单独的类 , 而非简单的 FIFO.
当数据包进入 PRIO 队列规定后 , 将根据你给定的过滤器设置选择一个类 . 缺省情况下有三个类 , 这些类仅包含纯 FIFO 队列规定而没有更多的内部结构 .
你可以把它们替换成你需要的任何队列规定 . 每当有一个数据包需要出队时 , 首先处理 :1 类 . 只有当标号更小的类中没有需要处理的包时 , 才会标号大的类 .
测试机器 192.168.5.52 与 192.168.8.51
在192.168.8.52 上设置qdisc 进行流量控制。
通过iperf –S 选项设定 TOS包头字段使流量分类
1.tc qdisc add dev eno16780032 root handle 1: prio priomap 1 2 2 2 1 2 0 0 1 1 1 1 1 1 1 1
2.tc qdisc add dev eno16780032 parent 1:1 handle 10: pfifo
tc qdisc add dev eno16780032 parent 1:2 handle 20: tbf rate 10mb buffer 10kb limit 15mb
tc qdisc add dev eno16780032 parent 1:3 handle 30: tbf rate 20kbit buffer 1600 limit 3000
第一步:给网卡定义一个根qdisc 使用prio算法。注:priomap 选项所设定的16个tos标识符与3个bond的
关系,可省略,这里为解析选项,使用的也是默认结构关系。
第二步:给三个band即三个缺省的class 配置子qdisc ,为了测试效果,这里给class10设定pfifo算法,避免测试时
ssh本身被限制挂起,给class20 、class30 使用tbf算法,限定不同的速率,以体现prio的分类特性,由于
条件限制,可能无法体现出 三个class的优先级特性。
第三步:由于prio 协议使用TOS 字段进行分类,在本案例中直接使用iperf 工具 直接定义流量包的tos 包头,
本例将省略 FILTERS 的配置。(可以配置filter有iptables-mangle表、cgroup)
该 prio算法可以实现流量分类效果,适用在多业务并存的场景。
CBQ qdisc 属于可分类qdisc,可动态添加类的算法
CBQ 的工作机制是确认链路的闲置时间足够长 , 以达到降低链路实际带宽的目的 . 为此 , 它要计算两个数据包的平均发送间隔 . *** 作期间 , 有效闲置时间的测量使用EWMA(exponential weighted moving average, 指数加权移动均值 ) 算法 , 也就是说最近处理的数据包的权值比以前的数据包按指数增加 . 计算出来的平均时间值减去 EWMA 测量值 , 得出的结果叫做"avgidle". 最佳的链路负载情况下 , 这个值应当是 0.
数据包严格按照计算出来的时间间隔到来 . 在一个过载的链路上 ,avgidle 值应当是负的 . 如果这个负值太严重 ,CBQ 就会暂时禁止发包 , 称为"overlimit"( 越限 ).
相反地 , 一个闲置的链路应该有很大 avgidle 值 , 这样闲置几个小时后 , 会造成链路允许非常大的带宽通过 . 为了避免这种局面 , 我们用 maxidle 来限 avgidle的值不能太大 .
理论上讲 , 如果发生越限 ,CBQ 就会禁止发包一段时间 ( 长度就是事先计算出来的传输数据包之间的时间间隔 ), 然后通过一个数据包后再次禁止发包 。
模拟的场景
假如有三种类型的流量需要控制:
配置子qdisc与class,及class 的子qdisc
注: 此处的子qdisc 是归属于class的,在定义class直接定义。这些qdisc使用 tc qdisc ls 命令查不到。与prio算法不一样。prio在创建qdisc 是class已创建,class的子dqisc 无法通过一般方式修改,故使用创建qdisc的方式。
建立分类器
6.tc filter add dev eno16780032 parent 1:0 protocol ip prio 100 route
7.tc filter add dev eno16780032 parent 1:0 protocol ip prio 100 route to 2 flowid 1:2
8.tc filter add dev eno16780032 parent 1:0 protocol ip prio 100 route to 3 flowid 1:3
9.tc filter add dev eno16780032 parent 1:0 protocol ip prio 100 route to 4 flowid 1:4
修改路由
10.ip route add 192.168.8.51 dev eno16780032 realm 2
11.ip route add 192.168.8.53 dev eno16780032 realm 3
12.ip route add 192.168.8.0/24 dev eno16780032 realm 4
去除分类器来讲,该算法本身适用的场景,流量整形,调度,合理分配带宽
注:一般对于流量控制器所直接连接的网段建议使用IP主机地址流量控制限制,不要使用子网流量控制限制。如一定需要对直连子网使用子网流量控制限制,则在建立该子网的路由映射前,需将原先由系统建立的路由删除,才可完成相应步骤。
该算法参考tbf算法,这里注重演示u32分类器。
环境与要求同上述 CBQ 的例子
添加过滤器 , 直接把流量导向相应的类 :
U32 是常用的分类器,分类器是对数据包进行分类工具 , 分类器用与把数据包分类并放入相应的子队列 ,
这些分类器在分类的队列规定内部被调用 . 为了决定用哪个类处理数据包 , 必须调用所谓的"分类器链" 进行选择 . 这个链中包含了这个分类队列规定所需的所有分类器 .
如图(结构图)所示分类器工作在拥有子类的class上,即树状的分支处。
当一个数据包入队的时候 , 每一个分支处都会咨询过滤器链如何进行下一步 .
你可以把后一个过滤器同时放在 1:1 处, 而得到效率的提高 .
另外使用 HTB 的时候应该把所有的规则放到根上。
注 : 数据包只能向"下"进行入队 *** 作 ! 只有出队的时候才会上到网卡所在的位置来 . 他们不会落到树的最底层后送到网卡
网络故障一般包含网络数据异常,网络丢包和网络延迟。Linux内核从2.2开始提供TC(Traffic Control)去控制Linux内核的流量,一般系统都是自带tc工具。
TC控制流程:
这里使用paping而不是ping,按照原作者说法是为了防止在防火墙开启的状态下可以ping通,但无法进行tcp连接的问题。
网络延迟:
tc qdisc add dev eth0 root netem delay 300ms
网络丢包:
tc qdisc add dev eth0 root netem loss 7% 25% #代表丢掉7%的包,但是成功率只有25%
tc qdisc add dev eth0 root netem loss 7% #只设置7%是代表随机丢掉7%的包
网络数据异常:
tc qdisc add dev eth0 root netem corrupt 10% # 10%的数据包损坏,不是没传过去,而是传过去不对。
网络数据重复:
tc qdisc add dev eth0 root netem duplicate 1% #随机产生1%的包重复
网络数据包乱序:
tc qdisc add dev eth0 root netem delay 10ms reorder 25% 50% #有25%的数据包(50%相关)会被立即发送,其他的延迟10秒
关闭网络异常模拟:
tc qdisc del dev eth0 root netem
监控网卡:
tc qdisc add dev eth0 root netem
其余命令:
tc qdisc change dev eth0 root netem duplicate 1%
tc qdisc replace dev eth0 root netem duplicate 1%
tc是要在client端设置的,因为只能控制数据发出,它模拟的是异常的数据到达Server后如何被处理,前提是数据在到达Server的时候已经异常了。
至于server端的控制,需要使用iptables。
参考文档:
https://honeypps.com/chaos/how-to-simulate-network-fault/
https://www.haxi.cc/archives/Linux%E6%A8%A1%E6%8B%9F%E5%A4%8D%E6%9D%82%E7%BD%91%E7%BB%9C%E7%8E%AF%E5%A2%83%E4%B8%8B%E7%9A%84%E4%BC%A0%E8%BE%93-netem%E5%92%8Ctc.html
欢迎分享,转载请注明来源:内存溢出
微信扫一扫
支付宝扫一扫
评论列表(0条)