求教面向大规模连接的高并发网络模型，该如何处理_服务器

所谓并发服务器就是在同一个时刻可以处理来自多个客户端的请求;循环服务器是指服务器在同一时刻只可以响应一个客户端的请求。而且对于TCP和UDP套接字，这两种服务器的实现方式也有不同的特点。
1、TCP循环服务器：
首先TCP服务器接受一个客户端的连接请求，处理连接请求，在完成这个客户端的所有请求后断开连接，然后再接受下一个客户端的请求。创建TCP循环服务器的算法如下：
复制代码代码如下:
socket(……); //创建一个TCP套接字
bind(……); //邦定公认的端口号
listen(……); //倾听客户端连接
while(1) //开始循环接收客户端连接
{
accept(……);//接收当前客户端的连接
while(1)
{ //处理当前客户端的请求
read(……);
process(……);
write(……);
}
close(……); //关闭当前客户端的连接，准备接收下一个客户端连接
}
TCP循环服务器一次只处理一个客户端的请求，如果有一个客户端占用服务器不放时，其它的客户机连接请求都得不到及时的响应。因此，TCP服务器一般很少用循环服务器模型的。
2、TCP并发服务器：
并发服务器的思想是每一个客户端的请求并不由服务器的主进程直接处理，而是服务器主进程创建一个子进程来处理。创建TCP并发服务器的算法如下：
复制代码代码如下:
socket(……); //创建一个TCP套接字
bind(……); //邦定公认的端口号
listen(……);//倾听客户端连接
while(1) //开始循环接收客户端的接收
{
accept(……);//接收一个客户端的连接
if(fork(……)==0) //创建子进程
{
while(1)
{ //子进程处理某个客户端的连接
read(……);
process(……);
write(……);
}
close(……); //关闭子进程处理的客户端连接
exit(……) ;//终止该子进程
}
close(……); //父进程关闭连接套接字描述符，准备接收下一个客户端连接
}
TCP并发服务器可以解决TCP循环服务器客户端独占服务器的情况。但同时也带来了一个不小的问题，即响应客户机的请求，服务器要创建子进程来处理，而创建子进程是一种非常消耗资源的 *** 作。
3、UDP循环服务器：
UDP服务器每次从套接字上读取一个客户端的数据报请求，处理接收到的UDP数据报，然后将结果返回给客户机。创建UDP循环服务器的算法如下：
1 socket(……); //创建一个数据报类型的套接字 2 bind(……); //邦定公认的短口号 3 while(1) //开始接收客户端的连接 4 { //接收和处理客户端的UDP数据报 5 recvfrom(……); 6 process(……); 7 sendto(……);//准备接收下一个客户机的数据报 8 }
消除行号
因为UDP是非面向连接的，没有一个客户端可以独占服务器。只要处理过程不是死循环，服务器对于每一个客户机的请求总是能够处理的。
UDP循环服务器在数据报流量过大时由于处理任务繁重可能造成客户技数据报丢失，但是因为UDP协议本身不保证数据报可靠到达，所以UDP协议是允许丢失数据报的。
鉴于以上两点，一般的UDP服务器采用循环方式4、UDP并发服务器把并发的概念应用UDP就得到了并发UDP服务器，和并发TCP服务器模型一样是创建子进程来处理的。
创建UDP并发服务器的算法如下：
复制代码代码如下:
socket(……); //创建一个数据报类型的套接字
bind(……); //邦定公认的短口号
while(1) //开始接收客户端的连接
{ //接收和处理客户端的UDP数据报
recvfrom(……);
if(fork(……)==0) //创建子进程
{
rocess(……);
sendto(……);
}
}
除非服务器在处理客户端的请求所用的时间比较长以外，人们实际上很少用这种UDP并发服务器模型的。
4、多路复用I/O并发服务器：
创建子进程会带来系统资源的大量消耗，为了解决这个问题，采用多路复用I/O模型的并发服务器。采用select函数创建多路复用I/O模型的并发服务器的算法如下：
初始化(socket，bind，listen);
复制代码代码如下:
while(1)
{
设置监听读写文件描述符(FD_);
调用select;
如果是倾听套接字就绪，说明一个新的连接请求建立
{
建立连接(accept);
加入到监听文件描述符中去;
}
否则说明是一个已经连接过的描述符
{
进行 *** 作(read或者write);
}
多路复用I/O可以解决资源限制问题，此模型实际上是将UDP循环模型用在了TCP上面。这也会带了一些问题，如由于服务器依次处理客户的请求，所以可能导致友的客户会等待很久。

Transmission Control Protocol，传输控制协议，是一种面向连接的、可靠的、基于字节流的传输层通信协议

TCP协议的目的是： 在不可靠传输的IP层之上建立一套可靠传输的机制。 TCP的可靠只是对于它自身来说的, 甚至是对于socket接口层, 两个系统就不是可靠的了, 因为发送出去的数据, 没有确保对方真正的读到（所以要在业务层做重传和确认机制）。

可靠传输的第一要素是确认 , 第二要素是重传 , 第三要素是顺序。任何一个可靠传输的系统, 都必须包含这三个要素。 数据校验 也是必要的。

传输是一个广义的概念, 不局限于狭义的网络传输, 应该理解为通信和交互任何涉及到通信和交互的东西, 都可以借鉴TCP的思想。无论是在UDP上实现可靠传输或者创建自己的通信系统，无论这个系统是以API方式还是服务方式，只要是一个通信系统，就要考虑这三个要素。

SeqNum的增加是和传输的字节数相关的。 上图中，三次握手后，来了两个Len:1440的包，而第二个包的SeqNum就成了1441。然后第一个ACK回的是1441（下一个待接收的字节号），表示第一个1440收到了。

网络上的传输是没有连接的，包括TCP也是一样的 。而TCP所谓的“连接”，其实只不过是在通讯的双方维护一个“连接状态”，让它看上去好像有连接一样。所以，TCP的状态变换是非常重要的。

查看各种状态的数量
ss -ant | awk '{++s[$1]} END {for(k in s) print k,s[k]}'

通过三次握手完成连接的建立

三次握手的目的是交换通信双方的初始化序号，以保证应用层接收到的数据不会乱序，所以叫SYN(Synchronize Sequence Numbers)。

ISN是不能hard code的，不然会出问题的。比如：如果连接建好后始终用1来做ISN，如果client发了30个segment过去，但是网络断了，于是client重连，又用了1做ISN，但是之前连接的那些包到了，于是就被当成了新连接的包，此时，client的Sequence Number可能是3，而Server端认为client端的这个号是30了。全乱了。RFC793中说，ISN会和一个假的时钟绑在一起，这个时钟会在每4微秒对ISN做加一 *** 作，直到超过232，又从0开始。这样，一个ISN的周期大约是455个小时。因为，我们假设我们的TCP Segment在网络上的存活时间不会超过Maximum Segment Lifetime（MSL），所以，只要MSL的值小于455小时，那么，我们就不会重用到ISN。

如果Server端接到了Clien发的SYN后回了SYN-ACK，之后Client掉线了，Server端没有收到Client返回的ACK，那么，这个连接就处于一个中间状态，即没成功，也没失败。于是，Server端如果在一定时间内没有收到的ACK会重发SYN-ACK。在Linux下，默认重试次数为5次，重试的间隔时间从1s开始每次都翻番，5次的重试时间间隔为1s, 2s, 4s, 8s, 16s，总共31s，第5次发出后还要等32s都知道第5次也超时了，所以，总共需要 1s + 2s + 4s+ 8s+ 16s + 32s = 26 -1 = 63s，TCP才会断开这个连接。

客户端给服务器发了一个SYN后，就下线了，于是服务器需要默认等63s才会断开连接，这样，攻击者就可以把服务器的SYN连接的队列耗尽，让正常的连接请求不能处理。
于是，Linux下给了一个叫tcp_syncookies的参数来应对这个事：当SYN队列满了后，TCP会通过源地址端口、目标地址端口和时间戳打造出一个特别的Sequence Number发回去（又叫cookie），此时服务器并没有保留客户端的SYN包。如果是攻击者则不会有响应，如果是正常连接，则会把这个SYN Cookie发回来，然后服务端可以通过cookie建连接（即使你不在SYN队列中）。
千万别用tcp_syncookies来处理正常的大负载的连接的情况。因为sync cookies是妥协版的TCP协议，并不严谨。应该调整三个TCP参数：tcp_synack_retries减少重试次数，tcp_max_syn_backlog增大SYN连接数，tcp_abort_on_overflow处理不过来干脆就直接拒绝连接

因为TCP是全双工的，因此断开连接需要4次挥手，发送方和接收方都需要发送Fin和Ack。如果两边同时断连接，那就会就进入到CLOSING状态，然后到达TIME_WAIT状态。

指的是报文段的最大生存时间，如果报文段在网络中活动了MSL时间，还没有被接收，那么会被丢弃。关于MSL的大小，RFC 793协议中给出的建议是两分钟，不过实际上不同的 *** 作系统可能有不同的设置，以Linux为例，通常是半分钟，两倍的MSL就是一分钟，也就是60秒

主动关闭的一方会进入TIME_WAIT状态，并且在此状态停留两倍的MSL时长。由于TIME_WAIT的存在，大量短连接会占有大量的端口，造成无法新建连接。

主动关闭的一方发出 FIN包，被动关闭的一方响应ACK包，此时，被动关闭的一方就进入了CLOSE_WAIT状态。如果一切正常，稍后被动关闭的一方也会发出FIN包，然后迁移到LAST_ACK状态。

CLOSE_WAIT状态在服务器停留时间很短，如果你发现大量的 CLOSE_WAIT状态，那么就意味着被动关闭的一方没有及时发出FIN包。

TCP要保证所有的数据包都可以到达，所以，必需要有重传机制。

接收端给发送端的Ack确认只会确认最后一个连续的包 ，比如，发送端发了1,2,3,4,5一共五份数据，接收端收到了1，2，于是回ack 3，然后收到了4（注意此时3没收到），此时的TCP会怎么办？我们要知道，因为正如前面所说的，SeqNum和Ack是以字节数为单位，所以ack的时候，不能跳着确认，只能确认最大的连续收到的包，不然，发送端就以为之前的都收到了

但总体来说都不好。因为都在等timeout，timeout可能会很长

不以时间驱动，而以数据驱动重传
如果包没有连续到达，就ack最后那个可能被丢了的包，如果发送方连续收到3次相同的ack，就重传

Selective Acknowledgment, 需要在TCP头里加一个SACK的东西，ACK还是Fast Retransmit的ACK，SACK则是汇报收到的数据碎版，在发送端就可以根据回传的SACK来知道哪些数据到了，哪些没有收到

重复收到数据的问题，使用了SACK来告诉发送方有哪些数据被重复接收了

经典算法：Karn/Partridge算法，Jacobson/Karels算法

TCP必需要知道网络实际的数据处理带宽或是数据处理速度，这样才不会引起网络拥塞，导致丢包

Advertised-Window ：接收端告诉发送端自己还有多少缓冲区可以接收数据。于是发送端就可以根据这个接收端的处理能力来发送数据，而不会导致接收端处理不过来

接收端LastByteRead指向了TCP缓冲区中读到的位置，NextByteExpected指向的地方是收到的连续包的最后一个位置，LastByteRcved指向的是收到的包的最后一个位置，我们可以看到中间有些数据还没有到达，所以有数据空白区。

发送端的LastByteAcked指向了被接收端Ack过的位置（表示成功发送确认），LastByteSent表示发出去了，但还没有收到成功确认的Ack，LastByteWritten指向的是上层应用正在写的地方。

接收端在给发送端回ACK中会汇报自己的AdvertisedWindow = MaxRcvBuffer – LastByteRcvd – 1;

收到36的ack，并发出了46-51的字节

如果Window变成0了，发送端就不发数据了

如果发送端不发数据了，接收方一会儿Window size 可用了，怎么通知发送端呢：TCP使用了Zero Window Probe技术，缩写为ZWP，也就是说，发送端在窗口变成0后，会发ZWP的包给接收方，让接收方来ack他的Window尺寸，一般这个值会设置成3次，每次大约30-60秒。如果3次过后还是0的话，有的TCP实现就会发RST把链接断了。

如果你的网络包可以塞满MTU，那么你可以用满整个带宽，如果不能，那么你就会浪费带宽。避免对小的window size做出响应，直到有足够大的window size再响应。

如果这个问题是由Receiver端引起的，那么就会使用David D Clark’s 方案。在receiver端，如果收到的数据导致window size小于某个值，可以直接ack(0)回sender，这样就把window给关闭了，也阻止了sender再发数据过来，等到receiver端处理了一些数据后windows size大于等于了MSS，或者receiver buffer有一半为空，就可以把window打开让send 发送数据过来。

如果这个问题是由Sender端引起的，那么就会使用著名的 Nagle’s algorithm。这个算法的思路也是延时处理，他有两个主要的条件：1）要等到 Window Size >= MSS 或是 Data Size >= MSS，2）等待时间或是超时200ms，这两个条件有一个满足，他才会发数据，否则就是在攒数据。

TCP_CORK是禁止小包发送，而Nagle算法没有禁止小包发送，只是禁止了大量的小包发送

TCP不是一个自私的协议，当拥塞发生的时候，要做自我牺牲

拥塞控制的论文请参看《Congestion Avoidance and Control》

主要算法有：慢启动，拥塞避免，拥塞发生，快速恢复，TCP New Reno，FACK算法，TCP Vegas拥塞控制算法

TCP网络协议及其思想的应用
TCP 的那些事儿（上）
TCP 的那些事儿（下）
tcp为什么是三次握手，为什么不是两次或四次？
记一次TIME_WAIT网络故障
再叙TIME_WAIT
tcp_tw_recycle和tcp_timestamps导致connect失败问题
tcp短连接TIME_WAIT问题解决方法大全（1）- 高屋建瓴
tcp短连接TIME_WAIT问题解决方法大全（2）- SO_LINGER
tcp短连接TIME_WAIT问题解决方法大全（3）- tcp_tw_recycle
tcp短连接TIME_WAIT问题解决方法大全（4）- tcp_tw_reuse
tcp短连接TIME_WAIT问题解决方法大全（5）- tcp_max_tw_buckets
TCP的TIME_WAIT快速回收与重用
浅谈CLOSE_WAIT
又见CLOSE_WAIT
PHP升级导致系统负载过高问题分析
Coping with the TCP TIME-WAIT state on busy Linux servers

在平时的开发中，经常会碰到一些需要检测tcp连接是否正常的场景。比如一个分布式的应用，一个调度任务的节点管理一堆用来跑业务的节点。当调度节点进行调度的时候，需要把任务分发给它认为正常的业务节点去执行。业务节点是否正常，一个重要的参考依据就是调度节点和业务节点之间的tcp连接是否正常。这时候就需要调度节点主动地去检测tcp连接。常见的检测方法有以下几种
方案一、通过TCP协议的返回值进行判断
<1> 利用select，把socket设置为非阻塞。然后使用select等待该socket的可读事件。如果socket可读，但是recv的返回值是0，则说明socket已经被对端断开，这时候就可以调用close关闭socket。这里还要注意一点，recv还可能返回负数，这个代表socket *** 作出错。但是仍然应该判断一下errno是否为EINTR。如果errno是EINTR，则说明recv函数是被信号中断返回的，这时候不能判断socket的连接是否正常，也不应该调用close关闭socket。
<2> 利用poll的事件。poll本身提供了POLLHUP，POLLERR, POLLNVAL三个事件。如果文件描述符是socket，则POLLHUP代表socket已经断开了连接，在TCP底层就是已经收到了FIN报文。POLLERR表示socket出现了错误，一般情况下是收到了rst报文，或者已经发送了rst报文。这两种情况都应该调用close关闭socket。POLLNVAL代表socket没有打开，这时不能使用close关闭它，而应该根据自己的业务做一些其他的 *** 作。因为关闭一个未打开的socket会出错。
这两种方法都可以很精确地判断tcp连接是否正常，但是仍然有很明显的缺陷。就是它只可以根据TCP *** 作的返回值来进行判断。如果TCP四次握手没有正常被执行呢？比如连接对端机器直接挂了，那么就不会发送FIN报文给这一端，select不会返回socket可读，poll不会返回socket异常。那么这个死链接将会永远检测不到。直到写这个socket的时候，对端直接返回一个ret报文，这时才知道这个连接已经断掉了。这就意味着tcp连接异常可能永远检测不到，或者检测到的延迟非常大。这对于一些资源宝贵而且要求高性能的服务器是不能接受的，比如游戏服务器，比如搜索服务器。

方案二、在第一种方案的基础上设置socket的 keep alive 机制
方案一的主要缺陷在于检测不及时，或者根本检测不到。TCP协议提供了keep alive机制。如果开启了这个特性（暂时称开启了keep alive的一端为开启端），在默认情况下，开启的着一端的socket相关结构中会维护一个定时器，默认是2小时。如果在2小时内两端没有数据往来，那么开启端就会给另一端发送一个ack空报文。这时候分几种情况：
<1> 对端机器可达，而且TCP相关组件运行正常。那么对端就会给开启端发送一个ack空报文。这时开启端就知道对端是正常的，意味着tcp连接也没有问题。开启端会重新初始化定时器，等待下一个超时的到来。需要注意的是，如果两端之间有数据往来，定时器也会被重新初始化为2个小时。
<2> 对端挂了，或者正在重启，还没有完全起来。或者对端服务器不可达。这种状态的对端是不会响应这个ack的。开启端的 keep alive 机制会把这种情况当探测超时来处理，并且重新发送ack到对端。当超时次数超过一定限制，keep alive 就认为这个tcp连接有问题。典型值是每次75秒，超时9次。
<3> 对端挂过，但是已经重启完成。这时候发送这个ack和写已经关闭的socket是一种情况，对端会返回一个rst报文，这样开启端就知道tcp连接出问题了。
可以看出 keep alive 机制弥补了方案一种不能判断没有进行正常四次挥手连接出现问题的缺陷。默认的发送超时和发送间隔都是可以调整的。
tcp_keepalive_time: KeepAlive的空闲时长，默认是2小时
tcp_keepalive_intvl: KeepAlive探测包的发送间隔，默认是75s　
tcp_keepalive_probes: 在tcp_keepalive_time之后，没有接收到对方确认，继续发送保活探测包次数，默认是9次
这3个参数使用 setsockopt函数都是可以配置的。
方案二看似已经完美了，能够比较精确而且及时地发现有问题的连接。但是还有2个缺点。第一个是 keep alive 机制看似牛逼，但是很多人不建议使用。因为上面说的3个参数很难根据业务场景给出合适的值，设置不好很容易对tcp连接状态发生误判，关闭了一个本来正常的连接。而且没有一个主动通知应用层的方式。比如socket连接出错了，TCP协议接到了rst，fin，或者keep alive判断出socket有问题了，但是并不会主动去通知应用层，必须我们自己 recv socket或者等待错误事件才能得到这个错误。第二个是很多场景下，keep alive 检测仍然不够及时，比如对端挂了，最长需要等待 tcp_keepalive_intvl tcp_keepalive_probes时间才可以检测出来，而且这两个值还不能设置得太小，太小了容易误判。
方案三、应用层的心跳
这种形式的心跳设计就比较多样化了，而且灵活，可以很好地适应业务场景。唯一的缺点就是要自己写代码。我目前接触到的就是定期进行RPC调用。看RPC调用是否正常，如果返回错误或者抛出异常，就说明连接有问题。

欢迎分享，转载请注明来源：内存溢出

原文地址:https://54852.com/zz/10398814.html

求教面向大规模连接的高并发网络模型，该如何处理

发表评论

评论列表（0条）