大数据量高并发访问数据库结构的设计_工具

大数据量高并发访问数据库结构的设计

如果不能设计一个合理的数据库模型，不仅会增加客户端和服务器段程序的编程和维护的难度，而且将会影响系统实际运行的性能。所以，在一个系统开始实施之前，完备的数据库模型的设计是必须的。

在一个系统分析、设计阶段，因为数据量较小，负荷较低。我们往往只注意到功能的实现，而很难注意到性能的薄弱之处，等到系统投入实际运行一段时间后，才发现系统的性能在降低，这时再来考虑提高系统性能则要花费更多的人力物力，而整个系统也不可避免的形成了一个打补丁工程。

所以在考虑整个系统的流程的时候，我们必须要考虑，在高并发大数据量的访问情况下，我们的系统会不会出现极端的情况。（例如：对外统计系统在7月16日出现的数据异常的情况，并发大数据量的的访问造成，数据库的响应时间不能跟上数据刷新的速度造成。具体情况是：在日期临界时（00：00：00），判断数据库中是否有当前日期的记录，没有则插入一条当前日期的记录。在低并发访问的情况下，不会发生问题，但是当日期临界时的访问量相当大的时候，在做这一判断的时候，会出现多次条件成立，则数据库里会被插入多条当前日期的记录，从而造成数据错误。），数据库的模型确定下来之后，我们有必要做一个系统内数据流向图，分析可能出现的瓶颈。

为了保证数据库的一致性和完整性，在逻辑设计的时候往往会设计过多的表间关联，尽可能的降低数据的冗余。（例如用户表的地区，我们可以把地区另外存放到一个地区表中）如果数据冗余低，数据的完整性容易得到保证，提高了数据吞吐速度，保证了数据的完整性，清楚地表达数据元素之间的关系。而对于多表之间的关联查询（尤其是大数据表）时，其性能将会降低，同时也提高了客户端程序的编程难度，因此，物理设计需折衷考虑，根据业务规则，确定对关联表的数据量大小、数据项的访问频度，对此类数据表频繁的关联查询应适当提高数据冗余设计但增加了表间连接查询的 *** 作，也使得程序的变得复杂，为了提高系统的响应时间，合理的数据冗余也是必要的。设计人员在设计阶段应根据系统 *** 作的类型、频度加以均衡考虑。

另外，最好不要用自增属性字段作为主键与子表关联。不便于系统的迁移和数据恢复。对外统计系统映射关系丢失（）。

原来的表格必须可以通过由它分离出去的表格重新构建。使用这个规定的好处是，你可以确保不会在分离的表格中引入多余的列，所有你创建的表格结构都与它们的实际需要一样大。应用这条规定是一个好习惯，不过除非你要处理一个非常大型的数据，否则你将不需要用到它。（例如一个通行证系统，我可以将USERID，USERNAME，USERPASSWORD，单独出来作个表，再把USERID作为其他表的外键）

表的设计具体注意的问题：

1、数据行的长度不要超过8020字节，如果超过这个长度的话在物理页中这条数据会占用两行从而造成存储碎片，降低查询效率。

2、能够用数字类型的字段尽量选择数字类型而不用字符串类型的（电话号码），这会降低查询和连接的性能，并会增加存储开销。这是因为引擎在处理查询和连接回逐个比较字符串中每一个字符，而对于数字型而言只需要比较一次就够了。

3、对于不可变字符类型char和可变字符类型varchar都是8000字节,char查询快，但是耗存储空间，varchar查询相对慢一些但是节省存储空间。在设计字段的时候可以灵活选择，例如用户名、密码等长度变化不大的字段可以选择CHAR，对于评论等长度变化大的字段可以选择VARCHAR。

4、字段的长度在最大限度的满足可能的需要的前提下，应该尽可能的设得短一些，这样可以提高查询的效率，而且在建立索引的时候也可以减少资源的消耗。

5、基本表及其字段之间的关系, 应尽量满足第三范式。但是，满足第三范式的数据库设计，往往不是最好的设计。为了提高数据库的运行效率，常常需要降低范式标准：适当增加冗余，达到以空间换时间的目的。

6、若两个实体之间存在多对多的关系，则应消除这种关系。消除的办法是，在两者之间增加第三个实体。这样，原来一个多对多的关系，现在变为两个一对多的关系。要将原来两个实体的属性合理地分配到三个实体中去。这里的第三个实体，实质上是一个较复杂的关系，它对应一张基本表。一般来讲，数据库设计工具不能识别多对多的关系，但能处理多对多的关系。

7、主键PK的取值方法，PK是供程序员使用的表间连接工具，可以是一无物理意义的数字串, 由程序自动加1来实现。也可以是有物理意义的字段名或字段名的组合。不过前者比后者好。当PK是字段名的组合时，建议字段的个数不要太多，多了不但索引占用空间大，而且速度也慢。

8、主键与外键在多表中的重复出现, 不属于数据冗余，这个概念必须清楚，事实上有许多人还不清楚。非键字段的重复出现, 才是数据冗余！而且是一种低级冗余，即重复性的冗余。高级冗余不是字段的重复出现，而是字段的派生出现。

〖例4〗：商品中的“单价、数量、金额”三个字段，“金额”就是由“单价”乘以“数量”派生出来的，它就是冗余，而且是一种高级冗余。冗余的目的是为了提高处理速度。只有低级冗余才会增加数据的不一致性，因为同一数据，可能从不同时间、地点、角色上多次录入。因此，我们提倡高级冗余(派生性冗余)，反对低级冗余(重复性冗余)。

9、中间表是存放统计数据的表，它是为数据仓库、输出报表或查询结果而设计的，有时它没有主键与外键(数据仓库除外)。临时表是程序员个人设计的，存放临时记录，为个人所用。基表和中间表由DBA维护，临时表由程序员自己用程序自动维护。

10、防止数据库设计打补丁的方法是“三少原则”

(1) 一个数据库中表的个数越少越好。只有表的个数少了，才能说明系统的E--R图少而精，去掉了重复的多余的实体，形成了对客观世界的高度抽象，进行了系统的数据集成，防止了打补丁式的设计；

(2) 一个表中组合主键的字段个数越少越好。因为主键的作用，一是建主键索引，二是做为子表的外键，所以组合主键的字段个数少了，不仅节省了运行时间，而且节省了索引存储空间；

(3) 一个表中的字段个数越少越好。只有字段的个数少了，才能说明在系统中不存在数据重复，且很少有数据冗余，更重要的是督促读者学会“列变行”，这样就防止了将子表中的字段拉入到主表中去，在主表中留下许多空余的字段。所谓“列变行”，就是将主表中的一部分内容拉出去，另外单独建一个子表。这个方法很简单，有的人就是不习惯、不采纳、不执行。

数据库设计的实用原则是：在数据冗余和处理速度之间找到合适的平衡点。“三少”是一个整体概念，综合观点，不能孤立某一个原则。该原则是相对的，不是绝对的。“三多”原则肯定是错误的。试想：若覆盖系统同样的功能，一百个实体(共一千个属性) 的E--R图，肯定比二百个实体(共二千个属性)的E--R图，要好得多。

提倡“三少”原则，是叫读者学会利用数据库设计技术进行系统的数据集成。数据集成的步骤是将文件系统集成为应用数据库，将应用数据库集成为主题数据库，将主题数据库集成为全局综合数据库。集成的程度越高，数据共享性就越强，信息孤岛现象就越少，整个企业信息系统的全局E—R图中实体的个数、主键的个数、属性的个数就会越少。

提倡“三少”原则的目的，是防止读者利用打补丁技术，不断地对数据库进行增删改，使企业数据库变成了随意设计数据库表的“垃圾堆”，或数据库表的“大杂院”，最后造成数据库中的基本表、代码表、中间表、临时表杂乱无章，不计其数，导致企事业单位的信息系统无法维护而瘫痪。

“三多”原则任何人都可以做到，该原则是“打补丁方法”设计数据库的歪理学说。“三少”原则是少而精的原则，它要求有较高的数据库设计技巧与艺术，不是任何人都能做到的，因为该原则是杜绝用“打补丁方法”设计数据库的理论依据。

11、在给定的系统硬件和系统软件条件下，提高数据库系统的运行效率的办法是：

(1) 在数据库物理设计时，降低范式，增加冗余, 少用触发器, 多用存储过程。

(2) 当计算非常复杂、而且记录条数非常巨大时(例如一千万条)，复杂计算要先在数据库外面，以文件系统方式用编程语言计算处理完成之后，最后才入库追加到表中去。

(3) 发现某个表的记录太多，例如超过一千万条，则要对该表进行水平分割。水平分割的做法是，以该表主键PK的某个值为界线，将该表的记录水平分割为两个表。若发现某个表的字段太多，例如超过八十个，则垂直分割该表，将原来的一个表分解为两个表。

(4) 对数据库管理系统DBMS进行系统优化，即优化各种系统参数，如缓冲区个数。

(5) 在使用面向数据的SQL语言进行程序设计时，尽量采取优化算法。

总之，要提高数据库的运行效率，必须从数据库系统级优化、数据库设计级优化、程序实现级优化，这三个层次上同时下功夫。

主键设计：

1、不建议用多个字段做主键，单个表还可以，但是关联关系就会有问题，主键自增是高性能的。

2、一般情况下，如果有两个外键，不建议采用两个外键作为联合住建，另建一个字段作为主键。除非这条记录没有逻辑删除标志，且该表永远只有一条此联合主键的记录。

3、一般而言，一个实体不能既无主键又无外键。在E—R 图中, 处于叶子部位的实体, 可以定义主键，也可以不定义主键(因为它无子孙), 但必须要有外键(因为它有父亲)。

主键与外键的设计，在全局数据库的设计中，占有重要地位。当全局数据库的设计完成以后，有个美国数据库设计专家说：“键，到处都是键，除了键之外，什么也没有”，这就是他的数据库设计经验之谈，也反映了他对信息系统核心(数据模型)的高度抽象思想。因为：主键是实体的高度抽象，主键与、外键的配对，表示实体之间的连接。

1、在java中，高并发属于一种编程术语，意思就是有很多用户在访问，导致系统数据不正确、糗事数据的现象。并发就是可以使用多个线程或进程，同时处理不同的 *** 作。2、处理高并发的方法

对于一些大型网站，比如门户网站，在面对大量用户访问、高并发请求方面，基本的解决方案集中在这样几个环节：使用高性能的服务器、高性能的数据库、高效率的编程语言、还有高性能的Web容器。

（1）动静分离。静态资源请求与动态请求分离，项目中需要访问的、声音、js/css等静态资源需要有独立的存放位置，便于将来实现静态请求分离时直接剥离出来，比如nginx可以直接配置文件直接访问目录，而不需要经过tomcat。这样tomcat就可以专注处理动态请求， *** 作数据库数据处理之类的。静态请求代理服务器性能比tomcat高很多。

（2）引入缓存。数据库缓存、页面缓存，这东西好用不复杂，搞明白什么地方适用最重要。简单的例子是频繁读取，不修改的地方最适用。也是后续集群做数据共享的一个方式之一，集群环境下，经常会碰到数据共享问题。

（3）如果将来数据量大，单一数据库成为瓶颈时，数据库的读写分离来了。数据库集群，读写分离，分表分区。

通信领域特别是运营商核心系统领域的应用场景就要求实时超高吞吐量，高并发低延时。AntDB有着业界领先的运行速度，承载了当时全球最大的通信计费、账务系统核心数据。时至今日，AntDB每天都在高效应对与“双11”、“ 618”同样量级的交易量，峰值每秒可处理百万笔电信核心交易⌄全国 10 亿手机用户在后台使用着 AntDB 数据库，其每秒处理的核心业务量可达百万笔，在核心系统平稳运行近10 年。

首先，为防止高并发带来的系统压力，或者高并发带来的系统处理异常，数据紊乱，可以以下几方面考虑：1、加锁，这里的加锁不是指加java的多线程的锁，是指加应用所和数据库锁，应用锁这边通常是使用redis的setnx来做，其次加数据库锁，因为代码中加了应用所，所以数据库不建议加悲观锁（排他锁），一般加乐观锁（通过设置一个seq_no来解决），这两个锁一般能解决了，最后做合理的流控，丢弃一部分请求也是必不可少的

电子商务网站高负载，简单可以分为前端和后台：

前端主要是（应该没有文件下载吧），因为是电子商务网站，少不了大量的，用户集中的情况下，网页加载就会变的极其缓慢。

解决思路：1、压缩，使产品图不失真的情况下尽可能的减少体积，节省宽带。2、增大服务器带宽。3、优化网页代码，尽量采用异步加载方式。4、CDN

后台则是数据处理和数据库负载，电子商务网站后台除了庞大的用户数据要处理意外，还有大量订单，和结算数据。

解决思路：增大数据库服务器配置。

高并发，是所有访问量大的网站都会遇到的问题，并发数是指同一时刻，服务器能接受多少次同时访问，比如服务器配置并发数为200，则这一刻只能允许200个用户同时访问，超过并发数，轻则用户打不开网站，严重的则是服务器宕机。

解决思路：1、CDN。2、增加服务器配置

注：CDN是现在网站普遍使用的加速方案，对减轻服务器负载，避免高并发，缓解恶意攻击都有很好的效果，其主要原理就是将服务器上的数据分发给多个服务器，用户访问的是CDN服务器，从而减轻和保护了网站服务器，也就是常说的云服务器。

1、如果硬件允许搞个读写分离。

2、读取数据的时候采用脏读方式，有效提高读取性能

3、插入的时候大批量比如10W条，可以分开10次1W插入，有效提高写入性能，但尽量不要1条1条来，会造成大量事务日志

1、最简单的，也是最暴力，也是消耗性能的，就是建一张并发表用唯一约束报错来阻止触发业务逻辑并发导致的数据问题

2、解决高并发可不是一门语言就能解决的，准确来说，它更需要很多硬件来消耗。

比如：缓存、消息队列、负载均衡、在程序上尽可能的过滤脏请求以及脏数据，高并发的系统，涉及的到的技术太多，各层面都需要优化。硬件配合软件才可以

凡是大型的系统，必然要分库，也就是根据逻辑进行数据拆分。比如用户的数据，你可以根据用户所在的省份划分，一个省份一个数据库，只有这样才能真正的保证大数量的并发。

另外要有效的利用读写分离，读写分离用sql server 2012的话可以直接用always on，一个用来写，若干用来读。数据库自身会保证数据的一致性的，这样就不会出现查备份库数据还没同步过来的问题了。

以上就是关于大数据量高并发访问数据库结构的设计全部的内容，包括:大数据量高并发访问数据库结构的设计、java高并发、想请教一下，数据库应用中有哪些超高并发的应用场景等相关内容解答，如果想了解更多相关内容，可以关注我们，你们的支持是我们更新的动力！

欢迎分享，转载请注明来源：内存溢出

原文地址:https://54852.com/sjk/10181459.html

大数据量高并发访问数据库结构的设计

发表评论

评论列表（0条）