数据库为什么要分库分表_工具

1 基本思想之什么是分库分表？

从字面上简单理解，就是把原本存储于一个库的数据分块存储到多个库上，把原本存储于一个表的数据分块存储到多个表上。

2 基本思想之为什么要分库分表？

数

据库中的数据量不一定是可控的，在未进行分库分表的情况下，随着时间和业务的发展，库中的表会越来越多，表中的数据量也会越来越大，相应地，数据 *** 作，增

删改查的开销也会越来越大；另外，由于无法进行分布式式部署，而一台服务器的资源（CPU、磁盘、内存、IO等）是有限的，最终数据库所能承载的数据量、

数据处理能力都将遭遇瓶颈。

3 分库分表的实施策略。

分库分表有垂直切分和水平切分两种。

何谓垂直切分，即将表按照功能模块、关系密切程度划分出来，部署到不同的库上。例如，我们会建立定义数据库workDB、商品数据库payDB、用户数据

库userDB、日志数据库logDB等，分别用于存储项目数据定义表、商品定义表、用户数据表、日志数据表等。

何谓水平切分，当一个表中的数据量过大时，我们可以把该表的数据按照某种规则，例如userID散列，进行划分，然后存储到多个结构相同的表，和不同的库

上。例如，我们的userDB中的用户数据表中，每一个表的数据量都很大，就可以把userDB切分为结构相同的多个userDB：part0DB、

part1DB等，再将userDB上的用户数据表userTable，切分为很多userTable：userTable0、userTable1等，

然后将这些表按照一定的规则存储到多个userDB上。

33 应该使用哪一种方式来实施数据库分库分表，这要看数据库中数据量的瓶颈所在，并综合项目的业务类型进行考虑。

如果数据库是因为表太多而造成海量数据，并且项目的各项业务逻辑划分清晰、低耦合，那么规则简单明了、容易实施的垂直切分必是首选。

而

如果数据库中的表并不多，但单表的数据量很大、或数据热度很高，这种情况之下就应该选择水平切分，水平切分比垂直切分要复杂一些，它将原本逻辑上属于一体

的数据进行了物理分割，除了在分割时要对分割的粒度做好评估，考虑数据平均和负载平均，后期也将对项目人员及应用程序产生额外的数据管理负担。

在现实项目中，往往是这两种情况兼而有之，这就需要做出权衡，甚至既需要垂直切分，又需要水平切分。我们的游戏项目便综合使用了垂直与水平切分，我们首先对数据库进行垂直切分，然后，再针对一部分表，通常是用户数据表，进行水平切分。

4 分库分表存在的问题。

41 事务问题。

在执行分库分表之后，由于数据存储到了不同的库上，数据库事务管理出现了困难。如果依赖数据库本身的分布式事务管理功能去执行事务，将付出高昂的性能代价；如果由应用程序去协助控制，形成程序逻辑上的事务，又会造成编程方面的负担。

42 跨库跨表的join问题。

在执行了分库分表之后，难以避免会将原本逻辑关联性很强的数据划分到不同的表、不同的库上，这时，表的关联 *** 作将受到限制，我们无法join位于不同分库的表，也无法join分表粒度不同的表，结果原本一次查询能够完成的业务，可能需要多次查询才能完成。

43 额外的数据管理负担和数据运算压力。

额

外的数据管理负担，最显而易见的就是数据的定位问题和数据的增删改查的重复执行问题，这些都可以通过应用程序解决，但必然引起额外的逻辑运算，例如，对于

一个记录用户成绩的用户数据表userTable，业务要求查出成绩最好的100位，在进行分表之前，只需一个order

by语句就可以搞定，但是在进行分表之后，将需要n个order

by语句，分别查出每一个分表的前100名用户数据，然后再对这些数据进行合并计算，才能得出结果。

1、在mysql数据库中如何锁定一行数据，保证不被其他的 *** 作影响。

2、从对数据的 *** 作类型分为读锁和写锁。从对数据 *** 作的粒度来分：表锁和行锁。

3、现在我们建立一个表来演示数据库的行锁讲解。

4、行锁基本演示如下图所示。

5、如果两个会话 *** 作的是不同的行，就不会互相阻塞了。

如果是JDBC其实很简单，就是先setAutoCommit(false);然后把你的数据库 *** 作语句都执行完了,再手动调用commit方法就行了，所谓的事务其实原则上很简单，尤其是关系型数据库，说白了就是所有的SQL成功了才提交，不成功就rollback仅此而已

已经提交的事务即在进行update或insert *** 作后，进行了commit的 *** 作。

1、如，有以下两个语句：

update test set id=3 where id=2;

commit;insert into test values (4,'王五');

commit;2、如果进行了update及insert *** 作后不进行提交的话，那么修改或插入的数据只在当前session有效，并不会写入数据库，只有当commit（提交）后，才会生效。

数据库管理系统(database management system)是一种 *** 纵和管理数据库的大型软件，是用于建立、使用和维护数据库，简称dbms。它对数据库进行统一的管理和控制，以保证数据库的安全性和完整性。用户通过dbms访问数据库中的数据，数据库管理员也通过dbms进行数据库的维护工作。它提供多种功能，可使多个应用程序和用户用不同的方法在同时或不同时刻去建立，修改和询问数据库。它使用户能方便地定义和 *** 纵数据，维护数据的安全性和完整性，以及进行多用户下的并发控制和恢复数据库。

按功能划分，数据库管理系统大致可分为6个部分：

(1)模式翻译：提供数据定义语言(ddl)。用它书写的数据库模式被翻译为内部表示。数据库的逻辑结构、完整性约束和物理储存结构保存在内部的数据字典中。数据库的各种数据 *** 作(如查找、修改、插入和删除等)和数据库的维护管理都是以数据库模式为依据的。

(2)应用程序的编译：把包含着访问数据库语句的应用程序，编译成在dbms支持下可运行的目标程序。

(3)交互式查询：提供易使用的交互式查询语言，如sql。dbms负责执行查询命令，并将查询结果显示在屏幕上。

(4)数据的组织与存取：提供数据在外围储存设备上的物理组织与存取方法。

⑸事务运行管理：提供事务运行管理及运行日志，事务运行的安全性监控和数据完整性检查，事务的并发控制及系统恢复等功能。

(6)数据库的维护：为数据库管理员提供软件支持，包括数据安全控制、完整性保障、数据库备份、数据库重组以及性能监控等维护工具。

基于关系模型的数据库管理系统已日臻完善，并已作为商品化软件广泛应用于各行各业。它在各户服务器结构的分布式多用户环境中的应用，使数据库系统的应用进一步扩展。随着新型数据模型及数据管理的实现技术的推进，可以预期dbms软件的性能还将更新和完善，应用领域也将进一步地拓宽。

它所提供的功能有以下几项：

（1）数据定义功能。DBMS提供相应数据语言来定义（DDL）数据库结构，它们是刻画数据库框架，并被保存在数据字典中。

（2）数据存取功能。DBMS提供数据 *** 纵语言（DML），实现对数据库数据的基本存取 *** 作：检索，插入，修改和删除。

（3）数据库运行管理功能。DBMS提供数据控制功能，即是数据的安全性、完整性和并发控制等对数据库运行进行有效地控制和管理，以确保数据正确有效。

（4）数据库的建立和维护功能。包括数据库初始数据的装入，数据库的转储、恢复、重组织，系统性能监视、分析等功能。

（5）数据库的传输。DBMS提供处理数据的传输，实现用户程序与DBMS之间的通信，通常与 *** 作系统协调完成。

著名数据库管理系统

MS SQL

SYBASE

DB2

ORACLE

MySQL

ACCESS

常见的数据库管理系统

目前有许多数据库产品，如Oracle、Sybase、Informix、Microsoft SQL Server、Microsoft Access、Visual FoxPro等产品各以自己特有的功能，在数据库市场上占有一席之地。下面简要介绍几种常用的数据库管理系统。

Oracle

Oracle是一个最早商品化的关系型数据库管理系统，也是应用广泛、功能强大的数据库管理系统。Oracle作为一个通用的数据库管理系统，不仅具有完整的数据管理功能，还是一个分布式数据库系统，支持各种分布式功能，特别是支持Internet应用。作为一个应用开发环境，Oracle提供了一套界面友好、功能齐全的数据库开发工具。Oracle使用PL/SQL语言执行各种 *** 作，具有可开放性、可移植性、可伸缩性等功能。特别是在Oracle 8i中，支持面向对象的功能，如支持类、方法、属性等，使得Oracle 产品成为一种对象/关系型数据库管理系统。

Microsoft SQL Server

Microsoft SQL Server是一种典型的关系型数据库管理系统，可以在许多 *** 作系统上运行，它使用Transact-SQL语言完成数据 *** 作。由于Microsoft SQL Server是开放式的系统，其它系统可以与它进行完好的交互 *** 作。目前最新版本的产品为Microsoft SQL Server 2000，它具有可靠性、可伸缩性、可用性、可管理性等特点，为用户提供完整的数据库解决方案。

Microsoft Office

作为Microsoft Office组件之一的Microsoft Access是在Windows环境下非常流行的桌面型数据库管理系统。使用Microsoft Access无需编写任何代码，只需通过直观的可视化 *** 作就可以完成大部分数据管理任务。在Microsoft Access数据库中，包括许多组成数据库的基本要素。这些要素是存储信息的表、显示人机交互界面的窗体、有效检索数据的查询、信息输出载体的报表、提高应用效率的宏、功能强大的模块工具等。它不仅可以通过ODBC与其它数据库相连，实现数据交换和共享，还可以与Word、Excel等办公软件进行数据交换和共享，并且通过对象链接与嵌入技术在数据库中嵌入和链接声音、图像等多媒体数据。

数据库管理系统选择原则

选择数据库管理系统时应从以下几个方面予以考虑：

(1) 构造数据库的难易程度。

需要分析数据库管理系统有没有范式的要求，即是否必须按照系统所规定的数据模型分析现实世界，建立相应的模型；数据库管理语句是否符合国际标准，符合国际标准则便于系统的维护、开发、移植；有没有面向用户的易用的开发工具；所支持的数据库容量，数据库的容量特性决定了数据库管理系统的使用范围。

(2) 程序开发的难易程度。

有无计算机辅助软件工程工具CASE——计算机辅助软件工程工具可以帮助开发者根据软件工程的方法提供各开发阶段的维护、编码环境，便于复杂软件的开发、维护。有无第四代语言的开发平台——第四代语言具有非过程语言的设计方法，用户不需编写复杂的过程性代码，易学、易懂、易维护。有无面向对象的设计平台——面向对象的设计思想十分接近人类的逻辑思维方式，便于开发和维护。对多媒体数据类型的支持——多媒体数据需求是今后发展的趋势，支持多媒体数据类型的数据库管理系统必将减少应用程序的开发和维护工作。

(3) 数据库管理系统的性能分析。

包括性能评估（响应时间、数据单位时间吞吐量）、性能监控（内外存使用情况、系统输入/输出速率、SQL语句的执行，数据库元组控制）、性能管理（参数设定与调整）。

(4) 对分布式应用的支持。

包括数据透明与网络透明程度。数据透明是指用户在应用中不需指出数据在网络中的什么节点上，数据库管理系统可以自动搜索网络，提取所需数据；网络透明是指用户在应用中无需指出网络所采用的协议。数据库管理系统自动将数据包转换成相应的协议数据。

(5) 并行处理能力。

支持多CPU模式的系统（SMP，CLUSTER，MPP），负载的分配形式，并行处理的颗粒度、范围。

(6) 可移植性和可括展性。

可移植性指垂直扩展和水平扩展能力。垂直扩展要求新平台能够支持低版本的平台，数据库客户机/服务器机制支持集中式管理模式，这样保证用户以前的投资和系统；水平扩展要求满足硬件上的扩展，支持从单CPU模式转换成多CPU并行机模式（ SMP, CLUSTER, MPP）

(7) 数据完整性约束。

数据完整性指数据的正确性和一致性保护，包括实体完整性、参照完整性、复杂的事务规则。

(8) 并发控制功能。

对于分布式数据库管理系统，并发控制功能是必不可少的。因为它面临的是多任务分布环境，可能会有多个用户点在同一时刻对同一数据进行读或写 *** 作，为了保证数据的一致性，需要由数据库管理系统的并发控制功能来完成。评价并发控制的标准应从下面几方面加以考虑：

保证查询结果一致性方法

数据锁的颗粒度（数据锁的控制范围，表、页、元组等）

数据锁的升级管理功能

死锁的检测和解决方法

(9) 容错能力。

异常情况下对数据的容错处理。评价标准：硬件的容错，有无磁盘镜象处理功能软件的容错，有无软件方法异常情况的容错功能

(10) 安全性控制

包括安全保密的程度（帐户管理、用户权限、网络安全控制、数据约束）

(11) 支持汉字处理能力

包括数据库描述语言的汉字处理能力（表名、域名、数据）和数据库开发工具对汉字的支持能力。

大家好，我是Tom哥~

为了便于大家查找问题，了解全貌，整理个目录，我们可以快速全局了解关于mysql数据库，面试官一般喜欢问哪些问题

接下来，我们逐条来看看每个问题及答案

MyISAM 和 InnoDB 的区别？

答案：InnoDB 支持事务、外键、聚集索引，通过MVCC来支持高并发，索引和数据存储在一起。InnoDB 不保存表的具体行数，执行 select count() from table 时需要全表扫描。而MyISAM 用一个变量保存了整个表的行数。

InnoDB 最小的锁粒度是行锁，MyISAM 最小的锁粒度是表锁，并发能力低。MySQL 将默认存储引擎是 InnoDB

mysql 锁有哪些类型？

答案：mysql锁分为共享锁( S lock ) 、排他锁 ( X lock )，也叫做读锁和写锁。根据粒度，可以分为表锁、页锁、行锁。

什么是间隙锁？

答案：间隙锁是可重复读级别下才会有的锁，mysql会帮我们生成了若干左开右闭的区间，结合MVCC和间隙锁可以解决幻读问题。

如何避免死锁？

答案：死锁的四个必要条件：1、互斥 2、请求与保持 3、环路等待 4、不可剥夺。

数据库的隔离级别？

答案：读未提交、读已提交、可重复读（mysql的默认级别，每次读取结果都一样，但是有可能产生幻读）、串行化。

Mysql有哪些类型的索引？

答案：

什么是覆盖索引和回表？

答案：

1、覆盖索引，指的是在一次查询中，一个索引包含所有需要查询的字段的值，可能是返回值或where条件

假如我们创建了一个(money，buyer_id)的联合索引，索引的叶子节点包含了 buyer_id 的信息，则不会再回表查询。

2、回表，指查询时一些字段值拿不到，需要到主键索引B+树再查一次。

Mysql的最左前缀原则？

答案：即最左优先，在检索数据时从联合索引的最左边开始匹配，直到遇到范围查询（如：> 、< 、between、like等）

例子：where a = 1 and b = 2 and c > 3 and d = 4 ，如果建立(a,b,c,d)组合索引，d是用不到索引的；如果建立(a,b,d,c)的索引则都可以用到，a,b,d的顺序可以任意调整。

线上SQL的调优经验？

答案：

官方为什么建议采用自增id 作为主键？

答案：自增id是连续的，插入过程也是顺序的，总是插入在最后，减少了页分裂，有效减少数据的移动。所以尽量不要使用字符串（如：UUID）作为主键。

索引为什么采用B+树，而不用B-树，红黑树？

答案：提升查询速度，首先要减少磁盘IO次数，也就是要降低树的高度。

事务的特性有哪些？

答案：ACID。

如何实现分布式事务？

答案：

日常工作中，MySQL 如何做优化？

答案：

mysql 主从同步具体过程？

答案：

什么是主从延迟？

答案：指一个写入SQL *** 作在主库执行完后，将数据完整同步到从库会有一个时间差，称之为主从延迟。计算公式：

注意：不同服务器要保持时钟一致

主从延迟排查方法？

答案：通过 show slave status 命令输出的 Seconds_Behind_Master 参数的值来判断

主从延迟要怎么解决？

答案：

如果数据量太大怎么办？

答案：mysql表的数据量一般控制在千万级别，如果再大的话，就要考虑分库分表。除了分表外，列举了面对海量数据业务的一些常见优化手段

分表后ID如何保证全局唯一呢？

答案：分库分表后，多张表共用一套全局id，原来单表主键自增方式满足不了要求。我们需要重新设计一套id生成器。特点：全局唯一、高性能、高可用、方便接入。

分表后可能遇到的哪些问题？

答案：分表后，与单表的最大区别是有分表键 sharding_key ，用来路由具体的物理表，以电商为例，有买家和卖家两个维度，以 buyer_id 路由，无法满足卖家的需求，反之同样道理。如何解决？

数据库是存放数据的仓库。它的存储空间很大，可以存放百万条、千万条、上亿条数据。但是数据库并不是随意地将数据进行存放，是有一定的规则的，否则查询的效率会很低。当今世界是一个充满着数据的互联网世界，充斥着大量的数据。即这个互联网世界就是数据世界。数据的来源有很多，比如出行记录、消费记录、浏览的网页、发送的消息等等。除了文本类型的数据，图像、音乐、声音都是数据。

数据库是一个按数据结构来存储和管理数据的计算机软件系统。数据库的概念实际包括两层意思：

（1）数据库是一个实体，它是能够合理保管数据的“仓库”，用户在该“仓库”中存放要管理的事务数据，“数据”和“库”两个概念结合成为数据库。

（2）数据库是数据管理的新方法和技术，它能更合适的组织数据、更方便的维护数据、更严密的控制数据和更有效的利用数据。

发展现状

在数据库的发展历史上，数据库先后经历了层次数据库、网状数据库和关系数据库等各个阶段的发展，数据库技术在各个方面的快速的发展。特别是关系型数据库已经成为目前数据库产品中最重要的一员，80年代以来，几乎所有的数据库厂商新出的数据库产品都支持关系型数据库，即使一些非关系数据库产品也几乎都有支持关系数据库的接口。这主要是传统的关系型数据库可以比较好的解决管理和存储关系型数据的问题。随着云计算的发展和大数据时代的到来，关系型数据库越来越无法满足需要，这主要是由于越来越多的半关系型和非关系型数据需要用数据库进行存储管理，以此同时，分布式技术等新技术的出现也对数据库的技术提出了新的要求，于是越来越多的非关系型数据库就开始出现，这类数据库与传统的关系型数据库在设计和数据结构有了很大的不同，它们更强调数据库数据的高并发读写和存储大数据，这类数据库一般被称为NoSQL（Not only SQL）数据库。而传统的关系型数据库在一些传统领域依然保持了强大的生命力。

数据库管理系统是为管理数据库而设计的电脑软件系统，一般具有存储、截取、安全保障、备份等基础功能。数据库管理系统可以依据它所支持的数据库模型来作分类，例如关系式、XML；或依据所支持的计算机类型来作分类，例如服务器群集、移动电话；或依据所用查询语言来作分类，例如SQL、XQuery；或依据性能冲量重点来作分类，例如最大规模、最高运行速度；亦或其他的分类方式。不论使用哪种分类方式，一些DBMS能够跨类别，例如，同时支持多种查询语言。

数据库管理系统是数据库系统的核心组成部分，主要完成对数据库的 *** 纵与管理功能，实现数据库对象的创建、数据库存储数据的查询、添加、修改与删除 *** 作和数据库的用户管理、权限管理等。它的安全直接关系到整个数据库系统的安全，其防护手段主要有：

（1）使用正版数据库管理系统并及时安装相关补丁。

（2）做好用户账户管理，禁用默认超级管理员账户或者为超级管理员账户设置复杂密码；为应用程序分别分配专用账户进行访问；设置用户登录时间及登录失败次数限制，防止暴力破解用户密码。

（3）分配用户访问权限时，坚持最小权限分配原则，并限制用户只能访问特定数据库，不能同时访问其他数据库。

（4）修改数据库默认访问端口，使用防火墙屏蔽掉对外开放的其他端口，禁止一切外部的端口探测行为。

（5）对数据库内存储的重要数据、敏感数据进行加密存储，防止数据库备份或数据文件被盗而造成数据泄露。

（6）设置好数据库的备份策略，保证数据库被破坏后能迅速恢复。

（7）对数据库内的系统存储过程进行合理管理，禁用掉不必要的存储过程，防止利用存储过程进行数据库探测与攻击。

（8）启用数据库审核功能，对数据库进行全面的事件跟踪和日志记录。

1应用程序

2实体完整性

3distince

5create Nonclustered index IDX_authors on authors(州名列,城市名列)

6创建表

7select 列名 from 表名

8sum()

9top

10alter procedure

11ltrim()

12declare @变量名数据类型

13where

14from

15order by

16cast(表达式 as 数据类型)

17count()

18drop procedure 存储过程名

19创建数据库

20价格大于15美元的所有数据

21数据库

22rollback

24服务管理器

26数据冗余（备份）

273

28数据库

29应用程序

30drop table

33 *** 作系统

权限

2是并发控制的单位，是用户定义的一个 *** 作序列,具有原子性，一致性，隔离性，持续性四个特性。

3共享锁（S锁）：如果事务T对数据A加上共享锁后，则其他事务只能对A再加共享锁，不能加排他锁

获准共享锁的事务只能读数据，不能修改数据。

1存储过程可以使得程序执行效率更高、安全性更好，因为过程建立之后已经编译并且储存到数据库，直接写sql就需要先分析再执行因此过程效率更高，直接写sql语句会带来安全性问题，如：sql注入

2建立过程不会很耗系统资源，因为过程只是在调用才执行。

6聚簇索引是一种对磁盘上实际数据重新组织以按指定的一个或多个列的值排序。

8是并发控制的单位，是用户定义的一个 *** 作序列,具有原子性，一致性，隔离性，持续性四个特性。

BEGIN TRAN [Tran_name]开始事务

COMMIT TRAN [Tran_name]事务完成提交事务

9存储过程是由流控制和SQL语句书写的过程，这个过程经编译和优化后存储在数据库服务器中，应用程序使用时只要调用即可。

10增量备份：是针对于上一次备份(无论是哪种备份):备份上一次备份后，所有发生变化的文件。

12原子性，要么都做，要么不做。

13排它锁若事务T对数据对象A加上X锁，则只允许T读取和修改A，其它任何事务都不能再对A加任何类型的锁，直到T释放A上的锁。

它防止任何其它事务获取资源上的锁，直到在事务的末尾将资源上的原始锁释放为止。

14分布式数据库系统通常使用较小的计算机系统，每台计算机可单独放在一个地方，每台计算机中都有DBMS的一份完整拷贝副本，并具有自己局部的数据库，位于不同地点的许多计算机通过网络互相连接，共同组成一个完整的、全局的大型数据库。

17同2，18同8

19DBMS数据库管理系统，DBA数据库管理员

201对1，一个学生对应一个学号

1对多一个学生对应多门功课

多对多商品与厂商

（备注：只能做这么多了，很长时间没看书了，有时间可以看看<数据库系统概论>萨师煊王珊高等教育出版社，很不错的一本书哦。上有你要的答案，特别是简答题。）

22数据库完整性，对数据库提出的某种约束条件或规则。

分三种：实体完整性，参照完整性，用户自定义完整性

24原则如下：

●在经常进行连接，但是没有指定为外键的列上建立索引，而不经常连接的字段则由优化器自动生成索引。

●在频繁进行排序或分组（即进行group by或order by *** 作）的列上建立索引。

●在条件表达式中经常用到的不同值较多的列上建立检索，在不同值少的列上不要建立索引。比如在雇员表的“性别”列上只有“男”与“女”两个不同值，因此就无必要建立索引。如果建立索引不但不会提高查询效率，反而会严重降低更新速度。

●如果待排序的列有多个，可以在这些列上建立复合索引（compound index）。

26。聚集索引确定表中数据的物理顺序。由于聚集索引规定数据在表中的物理存储顺序，因此一个表只能包含一个聚集索引。但该索引可以包含多个列（组合索引）

非聚集索引一种索引，该索引中索引的逻辑顺序与磁盘上行的物理存储顺序不同。一个表可以有多个聚集索引

以上就是关于数据库为什么要分库分表全部的内容，包括:数据库为什么要分库分表、mysql如何用事务和锁锁住某一行数据，使得不允许两个用户同时读取一行数据！！、java里调用mysql的事务怎么写等相关内容解答，如果想了解更多相关内容，可以关注我们，你们的支持是我们更新的动力！

欢迎分享，转载请注明来源：内存溢出

原文地址:https://54852.com/sjk/9356990.html

数据库为什么要分库分表

发表评论

评论列表（0条）