SCTP 分片是怎么确定的啊？_服务器

SCTP的特点
SCTP处于SCTP用户应用层与IP网络层之间，它运用“关联”（association）这个术语定义交换信息的两个对等SCTP用户间的协议状态。SCTP也是面向连接的，但在概念上，SCTP“关联”比TCP连接更为广泛：TCP的连接只有一个源地址和一个目的地址，SCTP提供一种方式使得每个SCTP端点能为另一个对等端点提供一组传输地址，即传输地址= 一组IP地址+端口号。
在继承TCP特点的基础上，SCTP提供了一些额外的功能：
1 在多个“流”（stream）中实现用户数据的有序发送
“流”在TCP中指一系列的字节，而在SCTP中是指发送到上层协议的一定系列的用户消息，这些消息的顺序与流内其他消息相关。SCTP用户在建立关联时，可以规定关联支持的流的数目。这个数目是与源端商定的，用户消息与流数目关联。在链路中，SCTP为每个送到对等端的消息分配一个流序号。在接收端，SCTP确保在给定流中消息按顺序发送。同时，当一个流正在等待下一个非顺序的用户消息时，其他流的发送会继续。
2 根据已发现的路径MTU（最大传输单元）大小进行用户数据分片
为了确保发送到下层的SCTP数据包与路径MTU一致，SCTP对用户消息分片。在接收端，分片被重组后传给上层SCTP用户。
3 选择性确认（SACK）和拥塞控制
选择性确认用于数据包丢失发现，TCP中确认序号返回的是发送方已成功收到数据字节序号（不包含确认序号所指的字节），而SCTP反馈给发送端的是丢失的并且要求重传的消息序号。
SCTP运用了TCP中的拥塞控制技术，包括慢启动，拥塞避免和快速重传。因此，当和TCP应用共存时，SCTP应用可接收属于SCTP的网络资源部分。
4 块（chunk）绑定
即多个用户消息可选择地绑定到一个SCTP包上，通过将消息放到一个或多个SCTP数据结构——“块”中，SCTP保留了应用程序的消息框架边界。不同类型的块可绑定到一个SCTP包中，但是控制块必须放在任何一个数据块之前。
5 路径管理
SCTP 路径管理功能主要负责从远端提供的一组传输地址中选择目的传输地址，它根据两个方面来选择目的地址：SCTP用户指示和当前可达的合格目的地。当其他流控制不能提供可达性信息时，路径管理功能定时地扫描链路的可达性，并向SCTP报告远端传输地址所发生的变化。SCTP 路径管理功能模块同时还负责在建立链路时，向远端报告可用的本地地址，并把远端返回的传输地址告诉SCTP用户。
6 支持多宿
当SCTP传送数据包给目的IP地址时，如果此IP地址是不可达的，SCTP可以将消息重路由给一个交替的IP地址。这样，在关联的一端甚至两端，可容忍网络级错误。
7 防范拒绝服务（DoS）攻击
DoS的攻击方式有很多种，最基本的DoS攻击就是利用合理的服务请求来占用过多的服务资源，从而使合法用户无法得到服务的响应。SYN Flooding攻击是DoS攻击的一种实例，是目前效果最好的一种黑客攻击方式。为了抵抗SYN Flooding对目标主机攻击，SCTP在关联初始化阶段实施了一种安全的“Cookie”机制。
8 支持多种传输模式
严格有序传输（像TCP），部分有序传输（像per-stream）和无序传输（像UDP）。
2 SCTP包结构
SCTP包的结构，一个数据包首部可跟一个或多个可变长的块。块采用“类型—长度—值”（TLV）的格式。源端口、目的端口、校验码的意义同TCP中的意义相似。确认标签保存着在SCTP握手中第一次交换的初始标签的值。在关联中，任何SCTP数据包若不包含这样一个标签，当到达时会被接收端丢弃。
在每个块中，TLV包括块类型、传输处理标记、块长度。不同的块类型可用来传输控制信息或数据。
传输序列号（TSN）和流序列号（SSN）是两种不同的序列号，TSN保证整个关联的可靠性，而SSN保证整个流的有序性，这样，在传输中，将数据的可靠性与有序性独立分开。
3 SCTP数据传输
41 SCTP四路握手及抵抗SYN Flooding攻击的原理
一个SCTP关联定义为：[主机A的一组IP地址]+[主机A的端口]+ [主机B的一组IP地址]+[主机B的端口]。因此，每一端对应组中的任何一个IP地址都可作为相应的源/目的地址来标示本次关联，通过四路握手，两端SCTP主机交换通信状态。
SYN Flooding利用了TCP/IP的固有漏洞，面向连接的TCP三次握手是SYN Flooding存在的基础。SYN Flooding攻击的原理是：恶意的攻击者大量向服务器发送SYN报文，服务器在发出SYN+ACK应答报文后无法收到客户端的ACK报文（第三次握手无法完成），服务器端将为维护一个非常大的半连接列表而消耗非常多的CPU时间和内存资源，还要不断对这个列表中的IP进行SYN+ACK的重试。服务器端将忙于处理攻击者伪造的TCP连接请求而无暇理睬客户的正常请求，此时从正常客户的角度看来，服务器失去响应。
而在一次SCTP四路握手中，INIT消息的接收端不必保存任何状态信息或者分配任何资源，这样就可防范SYN Flooding等DoS攻击。它在发送INIT-ACK消息时，采用了一种机制——“状态Cookie”，该Cookie具有发送端要建立自己状态所需的全部信息。
SCTP产生一个状态Cookie的过程如下：
1 使用收到的INIT和发出的INIT- ACK块中的信息创建一个关联的TCB（传输控制块）。
2 在TCB中，将当前日期设为创建日期，将协议参数“有效Cookie时间”设为生存期间。
3 根据TCB，收集重建TCB所需的最小信息子集，将该子集和密钥产生一个MAC（信息认证编码）。
4 结合上述最小信息子集和MAC产生状态Cookie。
5 在发送完INIT ACK（包含状态Cookie参数）后，发送方必须删除TCB以及任何与新关联有关的本地资源。
INIT和INIT-ACK都必须包含建立初始状态所需的参数：一组IP地址，保证可靠传输的初始TSN，每个被接收的SCTP包中必须含有的初始标签，每一端请求发出的流数目和每一端能支持接收的流数目。交换完这些消息之后，INIT的发送端以COOKIE-ECHO消息的方式发送回状态Cookie。接收端根据所接收到的COOKIE-ECHO中的状态Cookie，完整地重建自己的状态，并回送COOKIE- ACK来确认关联已建立。COOKIE-ECHO和COOKIE-ACK都可将用户数据消息绑定到各自的包中。
由此可见，采用以上这种方式，即使接收再多的INIT消息, 接收端也没有任何资源的消耗：它既不分配任何系统资源，也不保存此次新关联的状态，它只是把相应重建状态所用的状态Cookie作为参数，包含在每一个回送的INIT-ACK消息中，最后该状态Cookie会被COOKIE-ECHO消息发送回来。
22 SCTP数据交换
在两个SCTP主机间的正常数据交换。SCTP主机发送SACK块，用来确认每一个收到的SCTP包。因为SACK能完整地描述接收端的状态，因此,依据SACK,发送端能做出重传判决。SCTP支持类似于TCP中的快速重传和time-out重传算法。
对于数据包丢失发现，SCTP和TCP采用截然不同的机制：当TCP发现接收序号有缺口时，会等到该缺口被填上后，才发送序列号高于丢失数据包的数据。然而，SCTP即使发现接收序号有缺口或顺序错乱，仍会发送后面的数据。
33 SCTP关闭关联
作为面向连接的传输协议，SCTP也运用三路握手来关闭一个关联，但与TCP有一点不同：一个TCP终端在“关联关闭”的过程中能够保持连接开启，并从对端接收新的数据，而SCTP不支持TCP的这种“半关闭”状态。 1 主机A发出“关闭”（SHUTDOWN）块来终止与主机B的关联，主机A进入“SHUTDOWN- PENDING”状态，对应的动作是：不再接受上层应用的数据，只发送队列中剩余的数据，进入“SHUTDOWN-SENT”状态。
2 主机B一旦接收到“关闭”块，就进入“SHUTDOWN-RECEIVED”状态，同主机A一样，不再接受上层应用的数据，只发送队列中剩余的数据。
3 主机A再次发送“关闭”块，通知主机 B所发送的剩余数据已到达，并且重申了关联正在关闭。
4 当第二次收到“关闭”块时，主机B发送“确认关闭”块。
5 主机A随后发送“关闭结束”块，完成本次关联的关闭。
4 结束语
SCTP是为传输信令业务流而开发的，但它所具有的一些优于TCP的先进协议机制，如选择性确认、快速重传、无序递交等，使它又满足高性能传输的需求，这会给它带来更为宽广的应用需求。目前，已有各种 *** 作系统支持SCTP, 如Linux、AIX、Solaris、Windows、FressBSD。在不同协议实现间的互 *** 作性测试的成功，揭示着SCTP正走向商业产品之路。
IEFT正在致力于SCTP进一步的修改，使其更能满足下一代应用的需求，例如支持IPv6地址，解决对端对于IPv6的site-local、link-local地址无连通性的问题，以及在已存在的关联中动态地增加或删除IP地址而无需重启该关联。
此外，在第三代移动通信中，SCTP可作为信令承载层的备选方案之一，它的应用及其性能评估也有待研究。

最近在回顾mongodb的相关知识，输出一篇文章做为MongoDB知识点的总结。

总结的目的在于回顾MongoDB的相关知识点，明确MongoDB在企业级应用中充当的角色，为之后的技术选型提供一个可查阅的信息简报。

MongoDB是一款为web应用程序和互联网基础设施设计的数据库管理系统。没错MongoDB就是数据库，是NoSQL类型的数据库

（1）MongoDB提出的是文档、集合的概念，使用BSON（类JSON）作为其数据模型结构，其结构是面向对象的而不是二维表，存储一个用户在MongoDB中是这样子的。

使用这样的数据模型，使得MongoDB能在生产环境中提供高读写的能力，吞吐量较于mysql等SQL数据库大大增强。

（2）易伸缩，自动故障转移。易伸缩指的是提供了分片能力，能对数据集进行分片，数据的存储压力分摊给多台服务器。自动故障转移是副本集的概念，MongoDB能检测主节点是否存活，当失活时能自动提升从节点为主节点，达到故障转移。

（3）数据模型因为是面向对象的，所以可以表示丰富的、有层级的数据结构，比如博客系统中能把“评论”直接怼到“文章“的文档中，而不必像myqsl一样创建三张表来描述这样的关系。

SQL类型的数据库是正规化的，可以通过主键或者外键的约束保证数据的完整性与唯一性，所以SQL类型的数据库常用于对数据完整性较高的系统。MongoDB在这一方面是不如SQL类型的数据库，且MongoDB没有固定的Schema，正因为MongoDB少了一些这样的约束条件，可以让数据的存储数据结构更灵活，存储速度更加快。

MongoDB保留了关系型数据库即时查询的能力，保留了索引（底层是基于B tree）的能力。这一点汲取了关系型数据库的优点，相比于同类型的NoSQL redis 并没有上述的能力。

MongoDB自身提供了副本集能将数据分布在多台机器上实现冗余，目的是可以提供自动故障转移、扩展读能力。

MongoDB的驱动实现一个写入语义 fire and forget ，即通过驱动调用写入时，可以立即得到返回得到成功的结果（即使是报错），这样让写入的速度更加快，当然会有一定的不安全性，完全依赖网络。

MongoDB提供了Journaling日志的概念，实际上像mysql的bin-log日志，当需要插入的时候会先往日志里面写入记录，再完成实际的数据 *** 作，这样如果出现停电，进程突然中断的情况，可以保障数据不会错误，可以通过修复功能读取Journaling日志进行修复。

MongoDB使用分片技术对数据进行扩展，MongoDB能自动分片、自动转移分片里面的数据块，让每一个服务器里面存储的数据都是一样大小。

MongoDB核心服务器主要是通过mongod程序启动的，而且在启动时不需对MongoDB使用的内存进行配置，因为其设计哲学是内存管理最好是交给 *** 作系统，缺少内存配置是MongoDB的设计亮点，另外，还可通过mongos路由服务器使用分片功能。

MongoDB的主要客户端是可以交互的js shell 通过mongo启动，使用js shell能使用js直接与MongoDB进行交流，像使用sql语句查询mysql数据一样使用js语法查询MongoDB的数据，另外还提供了各种语言的驱动包，方便各种语言的接入。

mongodump和mongorestore,备份和恢复数据库的标准工具。输出BSON格式，迁移数据库。

mongoexport和mongoimport，用来导入导出JSON、CSV和TSV数据，数据需要支持多格式时有用。mongoimport还能用与大数据集的初始导入，但是在导入前顺便还要注意一下，为了能充分利用好mongoDB通常需要对数据模型做一些调整。

mongosniff,网络嗅探工具，用来观察发送到数据库的 *** 作。基本就是把网络上传输的BSON转换为易于人们阅读的shell语句。

因此，可以总结得到，MongoDB结合键值存储和关系数据库的最好特性。因为简单，所以数据极快，而且相对容易伸缩还提供复杂查询机制的数据库。MongoDB需要跑在64位的服务器上面，且最好单独部署，因为是数据库，所以也需要对其进行热备、冷备处理。

因为本篇文章不是API手册，所有这里对shell的使用也是基础的介绍什么功能可以用什么语句，主要是为了展示使用MongoDB shell的方便性，如果需要知道具体的MongoDB shell语法可以查阅官方文档。

创建数据库并不是必须的 *** 作，数据库与集合只有在第一次插入文档时才会被创建，与对数据的动态处理方式是一致的。简化并加速开发过程，而且有利于动态分配命名空间。如果担心数据库或集合被意外创建，可以开启严格模式
以上的命令只是简单实例，假设如果你之前没有学习过任何数据库语法，同时开始学sql查询语法和MongoDB 查询语法，你会发现哪一个更简单呢？如果你使用的是java驱动去 *** 作MongoDB，你会发现任何的查询都像Hibernate提供出来的查询方式一样，只要构建好一个查询条件对象，便能轻松查询（接下来会给出示例），博主之前熟悉ES6，所以入手MongoDB js shell完成没问题，也正因为这样简洁，完善的查询机制，深深的爱上了MongoDB。

这里引用的是最新的驱动包，提供了一套新的访问连接方式
这里只举例了简单的链接与简单的MongoDB *** 作，可见其 *** 作的容易性。使用驱动时是基于TCP套接字与MongoDB进行通信的，如果查询结果较多，恰好无法全部放进第一服务器中，将会向服务器发送一个getmore指令获取下一批查询结果。

插入数据到服务器时间，不会等待服务器的响应，驱动会假设写入是成功的，实际是使用客户端生成对象id，但是该行为可以通过配置配置，可以通过安全模式开启，安全模式可以校验服务器端插入的错误。

由于最近比较忙，所以一直没有写博客，现在分享一些大文件的上传的问题！断点续传和分片上传。因为文件过大（比如1G以上），必须要考虑上传过程网络中断的情况。>

本文基于对redis、zookpeer、rocketmq、elasticsearch学习总结，对于分布式系统学习，一定绕不开一个点，那就是CAP定理。什么是CAP定理，我这里简单的复制摘抄一下百度上的文案。

CAP原则又称CAP定理，指的是在一个分布式系统中，一致性（Consistency）、可用性（Availability）、分区容错性（Partition tolerance）。CAP 原则指的是，这三个要素最多只能同时实现两点，不可能三者兼顾。

说明一下上面的三个要素各代表的含义：

CAP定理说明上述的三个要素不能兼顾，最多只能满足其中的两个要素，在分布式系统中，一般都是保证分区容错性，而在一致性和可用性之间做取舍。因此存在CP、AP两种分布式集群的实现。

CP集群，即满足一致性和分区容错性，如zookpeer

AP集群，即满足可用性和分区容错性，如redis-cluster

下面，针对与上述的CP和AP问题，我们展开话题。

对于分布式系统，学习了解多了之后，发现其内在的解决方案基本上都是一样的，所谓万变不离其中。总结一下大体在于以下几步：

数据分片，很多分布式系统尤其是中间件服务，一般都会涉及高并发，数据量大的问题，如redis-cluster、recketmq，以及被大家熟知的Elasticsearch。针对于大数据量高并发的问题，若不做处理，服务器的性能将会成为服务的瓶颈，解决的方案之一便是数据分片，将大数据量在集群中按照一定的规则分片，使数据按照一定的规则分布集群的不同服务器上，以减轻单个服务器的压力，保证服务集群的可用性。

redis-cluster的数据分片是通过redis-cluster的哈希槽来实现的，redis-cluster有16384个哈希槽，这个数量是固定的，根据集群中服务器的数量可以手动的调配每个服务上存放的hash槽的数量，哈希槽之间是相互独立的，因此对集群的扩展提供了便利。

rocketmq的分片和topic紧密相关，在使用rocketmq中，无论是消息的生产者还是消费者都需要注册订阅一个topic。在rocketmq集群中，集群中的broker保存这个topic下数据的一部分，也就是topic的其中一个数据分片。当然，rocketmq不仅将一个topic下的数据分片到多个broker上，而且，一个broker上的topic数据还可以被分为多个queue，这是因为rocketmq中，一个queue只能被一个consumer消费，若是consumer的数量多于queue的数量，没有绑定queue的consumer将不能消费数据。

elasticsearch的数据分片在我看来和mysql的分库分表原理是一样的，elasticsearch中，每一个索引都相当于mysql的一个表，将一个索引分成多个shard放在不同的节点上，每个shard存储一部分数据。elasticsearch将数据进行分片，这样可以支持集群的横向扩展，同时，多个节点提供服务可以提高系统的效率和吞吐量。

综上所述，数据分片的一般都有两个好处，一个是支持集群的横向扩展，而是提升服务的吞吐量和性能。数据分片解决了以上两个问题，但是若是集群中一个节点发生宕机，或者因为网络原因和集群断开链接，那么这部分的数据分片甚至整个集群都会不可用，如何解决这个问题，就需要用到数据备份和主备切换。

数据分片的策略了解了数据分片之后，需要了解以下数据分片的策略，根据集群提供服务的性质不同，可以采用的数据分片策略也各有不同，下面是我学习后的总结：

说到这里，会发现其实这种分片策略和负载均衡的策略还是挺相似的。

数据备份，举个例子来说，我有两台电脑A、电脑B，A用于工作，B用于游戏，我写了一篇文章，保存在电脑上电脑上，若是某一天我的电脑A磁盘坏了，那我这篇文章就找不到了，即便我现在还有电脑B，我也没有办法在对文章进行编辑。但是若是我在之前，就将文章拷贝了一份放在电脑B上，那么现在，我用电脑B就可以对文件进行编辑修改。

举这个例子，我的目的就是为了说明数据备份对于集群可用性的意义，例子中，我的两台电脑可以认为是集群中两台服务器，两台服务器一开始提供的服务可能不相同，A电脑提供的就是编辑文章的服务，数据备份的意义就在于，当原本提供服务的服务器宕机损坏，集群中另外的服务器仍然可以根据已经备份的数据提供相同的服务，而不会影响到用户的工作。

数据备份的目的就是不发生单点问题的措施之一，但是若是数据备份的策略不合适，备份的时机不对，那么备份的数据时效性也是问题。还是从例子出发，这里的文章每次都是我手动从A电脑拷贝到B电脑，这是我的备份策略，若是我选择每天晚上才拷贝一次，那么若是A电脑在我拷贝之前坏了，当天的文章编辑数据就丢失了，采用手动的方式备份，这种备份方式耗时耗力且不可控，而在分布式集群中，不同的系统采用了不同的备份策略，下面一一来说明。

首先明确一点，在分布式集群中，不可能采用人工手动备份，一定是系统程序按照一定的规则自动备份，就好像我将AB连在一起，写个程序，让A电脑自动把文章同步到B电脑。数据备份的方式分为两种：

这里以redis-cluster和zookeeper举例。

在redis-cluster中，当一台新的slave节点加入时，会出发数据同步，需要将主节点的数据同步到从节点。这时根据从节点的状态有两种同步方案：完整重同步和部分重同步

完整重同步既是将主节点的全部数据都复制给新的slave节点。大致流程为，当一个新的节点加入进来时，发送PSYNC命令给主节点并携带slave节点自身的信息（重点是复制偏移量），主节点会根据slave传过来的信息判断是完整重同步还是部分重同步，如何判断与数据同步时的复制缓冲区有关，更细节不展开介绍。

相对于redis-cluster，zookeeper中的数据同步有四种方式，和redis-cluster完整重同步和部分重同步相似的SNAP（全量同步）和DIFF（增量同步），以及zk事务处理相关的TRUNC（仅回滚同步）、TRUNC+DIFF（回滚+增量同步）

当节点已经加入集群，成为集群中的从节点，只要不断开连接，一般都只需要进行增量同步，不过系统同步的范围和方式有所差异，大致分为下面六种：

下面还是以具体服务来举例： redis-cluster中，主从复制采用的是异步复制的方式，master节点在做数据变更之后，会由一个异步线程将数据变更同步给slave节点，这是通过push的方式。当redis28之后，slave会周期的获取最新的数据，加入了pull方式。无论是master还是slave，在进行数据同步时，不会阻塞正常的应用请求。所以redis-cluster的主从复制，是异步备份+最终一致性的备份。

elasticsearch的主从复制可以手动设置同步备份或者异步备份，数据备份时不要求强一致性，而是主分片（primary shard）会维护一份需要同步的（replica shard）分片列表，这个分片列表同步完成，则认为数据备份完成，需要注意的是，这里的主从复制不是节点的更新数据，而是分片的更新数据。

rocketmq的主从复制和elasticsearch类似，也可以分为同步备份和异步备份，不同的是rocketetmq的数据备份采用的是pull的方式，从节点会通过HAConnection链接主动向主节点发送待拉取数据偏移量，待主节点返回节点更新数据信息，更新从节点数据偏移量，如此重复。

zookeeper的数据备份则是通过ZAB协议，通过消息广播的方式同步数据到从节点。

当数据备份后，主从节点上就有了相同的数据，为了提升服务的性能，那么可以采用读写分离的方式。主节点提供数据写服务，从节点提供读服务，可以有效的分担主节点的服务器压力。可以进行数据分片的系统，如：redis、rocketmq、elasticsearch，一般都可以配置一主多从、多主多从的集群架构。

读写分离之后，主节点提供写服务，从节点只提供读服务，因此若是主节点发生宕机，从节点依然可以提供读服务，但是服务无法更新数据，这时候就要进行主从切换。早起，主从切换可以由人工手动完成，不过随着技术发展，主从切换已经成为集群的必备功能。想要实现主从切换，必须要解决两个问题：

解决这个问题，需要额外再引入一个角色，相当于是一个监视者的角色，能够长期的对主节点进行监视，若是只有一个监视者，可能会发生误判，所以还需要一套机制去保证当监视者说主节点宕机，那么主节点是真的宕机，否则集群会出现脑裂问题。

以redis为例，在redis的哨兵模式中，这个监视者的角色是一个个哨兵实例，而在redis-cluster架构中，这个监视者的角色是redis实例自己。

在redis哨兵模式中，哨兵集群中的哨兵实例会定期和redis实例进行通信（ping），监视redis实例的在线情况，若是其中一台哨兵发现redis实例master故障，那么该哨兵会将该master状态改为主观下线，并通知其他哨兵，当哨兵集群中达到配置数量的哨兵实例认为该master都为主观下线状态，这时会将master修改为客观下线状态，并开始触发后续的故障转移。

在redis-cluster模式中，集群中的每一个节点都可以和其他节点通讯（ping），当某一个节点A发现主节点B下线了，A会将该主节点B设为疑似下线状态。集群中的节点会通过互发消息维护信息，当另一个节点C收到A的消息时，会将A对B节点的判断记录在C节点的维护信息下，这个信息可以理解为A说C疑似下线了。若是有其他节点发送C的状态信息，A同样也会记录。当某一个节点如C发现记录的B节点信息中，超过半数的主节点都认为B下线了，那么C就会将B节点状态修改为已下线状态，并广播消息给集群的其他节点，开始后续的故障转移。

上面就是redis的两种分布式模式故障检测的方案。大致可以归结为，监视节点会和被监视节点进行通讯，感知被监视节点的状态；监视节点之间也会进行通讯，同步信息。为了防止集群出现脑裂，对于某个主节点的故障判断会十分的谨慎，需要达到一定数量的监视节点都认为主节点故障时，才会认为主节点真的故障，从而触发故障转移。

在rocketmq集群模式中，nameserver扮演着监视者的角色（不同于其他系统，nameserver并不负责集群的主从切换，rocketmq 45之前不支持自动主从切换，45之后，通过dledger实现自动的故障转移）。在elasticsearch集群中，elasticsearch实例本身在扮演监视者角色。zookeeper也是实例本身扮演监视者的角色。

故障转移就是当集群发现集群中的主节点/从节点发生故障之后的处理，从节点比较简单，直接将从节点下线即可，主节点的故障转移流程比较复杂，各个系统根据系统的功能和架构有不同的实现方式，共同点是选举出的主节点一定是集群中数据最新的最完善的节点。

选举过程大致如下：

首先选举成功的条件时集群中具有投票权限的超过半数的节点投票一致，通过某一个节点成为主节点。

开始一轮选举时，定义为一个纪元，用一个自增的id表示。

候选节点将带着纪元id，以及自身信息作为投票申请广播给集群给可投票的节点。

具有投票权限的节点投票只要满足两个条件：1自身在最新纪元没有给投过票 2节点发送过来的投票申请时最新纪元的（如何判断时最新纪元，则是判断一下节点之前通过申请的纪元id是否小于当前申请的纪元id）。

半数以上的投票节点通过某一个候选节点成为leader节点，则leader产生。

若是一个纪元没有产生主节点，则候选节点进入随机的休眠，并且开启下一个纪元，知道产生leader节点。

在zk集群经过崩溃恢复模式之后，需要保证：1已经提交的事务不能丢失 2未被提交的事务不能出现。如何保证以上两点，zk服务集群中维护了zxid，zxid也可以看作是一个自增的id，集群中每产生一个新事物，zxid就会增加。zxid有64位，前32位维护了集群主节点变更情况，每重新选举出一个新的主节点则增加，后32位维护在新的主节点集群下事务的id，产生一个新事物则增加。

ZAB的选举模式有很多种，我主要了解了默认，也是推荐的FastLeaderElection模式，在这个模式下，我会以集群中一台参与选举的服务器的视角来模拟选主的过程；

我是一台zk服务器，我现在很慌，因为我的leader服务器不见了，作为一个有梦想的follower，我也要参加leader的选举，为了这次选举我要准备：myid(在集群中标识是这台服务器的id)，zxid(本台服务器保存的最新事务id)，logicClock(本台服务器发起的第几轮投票)

首先我会自己选自己，这得自信。于是我将自身的选举信息[myid, zxid]放到自己的收票箱，然后将我的选举信息还有我的选举轮次logicClock广播给其他服务器进行PK

作为一个有原则的服务器，我们的选举也是有原则的，当我收到别人的选举信息时，我也会将他和我自己的选举信息进行PK，PK的原则如下：

经过这一系列的PK，终于选出了我心中的leader服务器，要广播给其他服务器。

超过半数的服务器都同意某一台服务器成为leader，选举结束了。

netty4怎么实现分片上传，断点续传
JAVA WEB文件上传步骤如下：
实现 Web 开发中的文件上传功能，两个 *** 作：在 Web 页面添加上传输入项，在 Servlet 中读取上传文件的数据并保存在本地硬盘中。
1、Web 端上传文件。在 Web 页面中添加上传输入项：<input type="file"> 设置文件上传输入项时应注意：(1) 必须设置 input 输入项的 name 属性，否则浏览器将不会发送上传文件的数据。(2) 必须把 form 的 enctype 属性设为 multipart/form-data，设置该值后，浏览器在上传文件时，将把文件数据附带在 >后来发现原因是Docker容器后台运行,就必须有一个前台进程！容器运行的命令如果不是那些一直挂起的命令（比如运行top，ping），就是会自动退出的。
分片是指将数据拆分,将其分散存在不同机器上的过程有时也叫分区将数据分散在不同的机器上,不需要功能强大的大型计算机就可以存储更多的数据,处理更大的负载使用几乎所有数据库软件都能进行手动分片,应用需要维护与若干不同数据库服务器的连接,每个连接还是完全独立的应用程序管理不同服务器上的不同数据,存储查村都需要在正确的服务器上进行这种方法可以很好的工作,但是也难以维护,比如向集群添加节点或从集群删除节点都很困难,调整数据分布和负载模式也不轻松MongoDB支持自动分片,可以摆脱手动分片的管理集群自动切分数据,做负载均衡。
设置分片时,需要从集合里面选一个键,用该键的值作为数据拆分的依据这个键成为片键假设有个文档集合表示的是人员,如果选择名字"name"做为片键,第一篇可能会存放名字以A-F开头的文档第二片存G-P开头的文档,第三篇存Q-Z的文档随着增加或删除片,MongoDB会重新平衡数据,是每片的流量比较均衡,数据量也在合理范围内(如流量较大的片存放的数据或许会比流量下的片数据要少些)

首先需要明确，上传这东西不仅仅是只需要前端就能完成的很好的，需要前端后端统一数据格式，从而实现断点续传。（所以，该文适合于全栈工程师，至少是想成为）
还有，为什么需要分片，不分片能实现断点续传吗？分片是为了充分利用网络带宽，加快上传速度；不分片也是能够实现断点续传的。详细参考 HTML5文件上传组件深度剖析
分片上传与断点续传之间没有很直接的关系
实现断点续传的前提是需要服务器记录某文件的上传进度，那么根据什么判断是不是同一个文件呢？可以利用文件内容求md5码，如果文件过大，求取md5码也是一个很长的过程，所以对于大文件，只能针对某一段数据进行计算，加上服务器对cookie用户信息的判断，得到相对唯一的key。
在前端页面，需要将文件按照一定大小进行分片，一次请求只发送这一小片数据，所以我们可以同时发起多个请求。但一次同时请求的连接数不宜过多，服务器负载过重。对于文件分片 *** 作，H5具有十分强大的File API，直接利用File对象的slice方法即可得到Blob对象。
至于同时传输数据的连接数控制逻辑，就需要花点脑子思考了。前端把数据顺利得传给服务器了，服务器只需要按照数据中给的开始字节位置，与读取到的文件片段数据，写入文件即可

大文件上传主要需要解决2个难点问题。
一个是文件的分片，一个是文件的合成。
也就是客户端分片上传，服务器端量分片的文件进行合成。
文件分片，前端浏览器提供了分片的js函数，我们只需要调用即可。
文件上传需要解决断点续传的问题，就是服务器端需要保留和记录每次上传的分片，这样可以通过顺序进行文件合并。
断点续传是通过记录上传的信息，已上传的切片不需要重复上传，当全部切片上传成功，服务器端进行切片合并。

欢迎分享，转载请注明来源：内存溢出

原文地址:https://54852.com/zz/10317989.html

SCTP 分片是怎么确定的啊？

发表评论

评论列表（0条）