
数学里面,属于多元函数的问题。即一个量受多个因素的影响。例如商品的信息,有商品的类别,商品的价格,商品的材质等等。就好像去描述一个未知的东西,如果描述的越详细,我们就越快知道是什么东西。例如去买衣服,就需要知道穿的对象,衣服的季节,颜色,款式等等。数据库信息的存储也是如此,分类越细,历史信息就越明确。增加纬度,就是增加描述的类别。
维:是人们观察数据的特定角度,是考虑问题时的一类属性,属性集合构成一个维(时间维、地理维等)。
维的层次:人们观察数据的某个特定角度(即某个维)还可以存在细节程度不同的各个描述方面(时间维:日期、月份、季度、年)。
维的成员:维的一个取值。是数据项在某维中位置的描述。(“某年某月某日”是在时间维上位置的描述)
维实际可以翻译成坐标轴,成员就是坐标轴上的一个点,每一个坐标点都对应了若干条记录。
当你用若干个坐标来对成千上万的数据进行分割后,就可以得到任意坐标组合下的一个交集。
因为你构件的数据集是多维的,所以数据集也叫“立方”。
随着时间和业务的发展,数据库中的数据量增长是不可控的,库和表中的数据会越来越大,随之带来的是更高的 磁盘 、 IO 、 系统开销 ,甚至 性能 上的瓶颈,而单台服务器的 资源终究是有限 的。
因此在面对业务扩张过程中,应用程序对数据库系统的 健壮性 , 安全性 , 扩展性 提出了更高的要求。
以下,我从数据库架构、选型与落地来让大家入门。
数据库会面临什么样的挑战呢?
业务刚开始我们只用单机数据库就够了,但随着业务增长,数据规模和用户规模上升,这个时候数据库会面临IO瓶颈、存储瓶颈、可用性、安全性问题。
为了解决上述的各种问题,数据库衍生了出不同的架构来解决不同的场景需求。
将数据库的写 *** 作和读 *** 作分离,主库接收写请求,使用多个从库副本负责读请求,从库和主库同步更新数据保持数据一致性,从库可以水平扩展,用于面对读请求的增加。
这个模式也就是常说的读写分离,针对的是小规模数据,而且存在大量读 *** 作的场景。
因为主从的数据是相同的,一旦主库宕机的时候,从库可以 切换为主库提供写入 ,所以这个架构也可以提高数据库系统的 安全性 和 可用性 ;
优点:
缺点:
在数据库遇到 IO瓶颈 过程中,如果IO集中在某一块的业务中,这个时候可以考虑的就是垂直分库,将热点业务拆分出去,避免由 热点业务 的 密集IO请求 影响了其他正常业务,所以垂直分库也叫 业务分库 。
优点:
缺点:
在数据库遇到存储瓶颈的时候,由于数据量过大造成索引性能下降。
这个时候可以考虑将数据做水平拆分,针对数据量巨大的单张表,按照某种规则,切分到多张表里面去。
但是这些表还是在同一个库中,所以库级别的数据库 *** 作还是有IO瓶颈(单个服务器的IO有上限)。
所以水平分表主要还是针对 数据量较大 ,整体业务 请求量较低 的场景。
优点:
缺点:
四、分库分表
在数据库遇到存储瓶颈和IO瓶颈的时候,数据量过大造成索引性能下降,加上同一时间需要处理大规模的业务请求,这个时候单库的IO上限会限制处理效率。
所以需要将单张表的数据切分到多个服务器上去,每个服务器具有相应的库与表,只是表中数据集合不同。
分库分表能够有效地缓解单机和单库的 性能瓶颈和压力 ,突破IO、连接数、硬件资源等的瓶颈。
优点:
缺点:
注:分库还是分表核心关键是有没有IO瓶颈 。
分片方式都有什么呢?
RANGE(范围分片)
将业务表中的某个 关键字段排序 后,按照顺序从0到10000一个表,10001到20000一个表。最常见的就是 按照时间切分 (月表、年表)。
比如将6个月前,甚至一年前的数据切出去放到另外的一张表,因为随着时间流逝,这些表的数据被查询的概率变小,银行的交易记录多数是采用这种方式。
优点:
缺点:
HASH(哈希分片)
将订单作为主表,然后将其相关的业务表作为附表,取用户id然后 hash取模 ,分配到不同的数据表或者数据库上。
优点:
缺点:
讲到这里,我们已经知道数据库有哪些架构,解决的是哪些问题,因此, 我们在日常设计中需要根据数据的特点,数据的倾向性,数据的安全性等来选择不同的架构 。
那么,我们应该如何选择数据库架构呢?
虽然把上面的架构全部组合在一起可以形成一个强大的高可用,高负载的数据库系统,但是架构选择合适才是最重要的。
混合架构虽然能够解决所有的场景的问题,但是也会面临更多的挑战,你以为的完美架构,背后其实有着更多的坑。
1、对事务支持
分库分表后(无论是垂直还是水平拆分),就成了分布式事务了,如果依赖数据库本身的分布式事务管理功能去执行事务,将付出高昂的性能代价(XA事务);如果由应用程序去协助控制,形成程序逻辑上的事务,又会造成编程方面的负担(TCC、SAGA)。
2、多库结果集合并 (group by,order by)
由于数据分布于不同的数据库中,无法直接对其做分页、分组、排序等 *** 作,一般应对这种多库结果集合并的查询业务都需要采用数据清洗、同步等其他手段处理(TIDB、KUDU等)。
3、数据延迟
主从架构下的多副本机制和水平分库后的聚合库都会存在主数据和副本数据之间的延迟问题。
4、跨库join
分库分表后表之间的关联 *** 作将受到限制,我们无法join位于不同分库的表(垂直),也无法join分表粒度不同的表(水平), 结果原本一次查询就能够完成的业务,可能需要多次查询才能完成。
5、分片扩容
水平分片之后,一旦需要做扩容时。需要将对应的数据做一次迁移,成本代价都极高的。
6、ID生成
分库分表后由于数据库独立,原有的基于数据库自增ID将无法再使用,这个时候需要采用其他外部的ID生成方案。
一、应用层依赖类(JDBC)
这类分库分表中间件的特点就是和应用强耦合,需要应用显示依赖相应的jar包(以Java为例),比如知名的TDDL、当当开源的 sharding-jdbc 、蘑菇街的TSharding等。
此类中间件的基本思路就是重新实现JDBC的API,通过重新实现 DataSource 、 PrepareStatement 等 *** 作数据库的接口,让应用层在 基本 不改变业务代码的情况下透明地实现分库分表的能力。
中间件给上层应用提供熟悉的JDBC API,内部通过 sql解析 、 sql重写 、 sql路由 等一系列的准备工作获取真正可执行的sql,然后底层再按照传统的方法(比如数据库连接池)获取物理连接来执行sql,最后把数据 结果合并 处理成ResultSet返回给应用层。
优点
缺点
二、中间层代理类(Proxy)
这类分库分表中间件的核心原理是在应用和数据库的连接之间搭起一个 代理层 ,上层应用以 标准的MySQL协议 来连接代理层,然后代理层负责 转发请求 到底层的MySQL物理实例,这种方式对应用只有一个要求,就是只要用MySQL协议来通信即可。
所以用MySQL Navicat这种纯的客户端都可以直接连接你的分布式数据库,自然也天然 支持所有的编程语言 。
在技术实现上除了和应用层依赖类中间件基本相似外,代理类的分库分表产品必须实现标准的MySQL协议,某种意义上讲数据库代理层转发的就是MySQL协议请求,就像Nginx转发的是>
在数据库优化上有两个主要方面:
安全:数据可持续性。
性能:数据的高性能访问。
优化的范围有哪些
存储、主机和 *** 作系统方面:
主机架构稳定性
I/O 规划及配置
Swap 交换分区
OS 内核参数和网络问题
应用程序方面:
应用程序稳定性
SQL 语句性能
串行访问资源
性能欠佳会话管理
这个应用适不适合用 MySQL
数据库优化方面:
内存
数据库结构(物理&逻辑)
实例配置
说明:不管是设计系统、定位问题还是优化,都可以按照这个顺序执行。
数据库优化维度有如下四个:
硬件
系统配置
数据库表结构
SQL 及索引
优化选择:
优化成本:硬件>系统配置>数据库表结构>SQL 及索引。
优化效果:硬件<系统配置<数据库表结构
SQL Server 2005
10大顶尖数据库管理特性
数据库镜像 利用新增数据库镜像解决方案扩展日志传送功能。您可以使用数据库镜像特性通过设置自动故障转移至备用服务器的方式来增强SQL Server系统的功能。
在线恢复 利用SQL Server 2005,数据库管理员可以在SQL Server实例运行状态下执行恢复 *** 作。由于只有那些被恢复的数据无法使用,数据库的其余部分仍旧处于在线状态且保持可用,因此,在线恢复特性能够有效提高SQL Server的可用性。
在线索引 *** 作 在线索引选项允许对底层表格、群集索引数据以及索引数据定义语言(DDL)执行过程中的所有相关索引执行并行修改(更新、删除和插入 *** 作)。举例来说,当群集索引被重建时,您可以继续对底层数据进行更新并针对其执行查询 *** 作。
快速恢复 新增的快速恢复选项将提高SQL Server数据库的可用性。当事务日志被前滚后,管理员可以重新连接正在恢复的数据库。
安全增强特性 SQL Server 2005包含诸如数据库加密、安全缺省设置、口令策略强制、较细粒度权限控制以及增强安全模型之类的安全增强特性。
新增的SQL Server Management Studio SQL Server 2005将引入一种新型集成化管理工具套件,SQL Server Management Studio。这种工具集包含用以对SQL Server数据库进行开发、部署和故障诊断的新增功能以及针对原有功能的进一步增强。
专用管理员连接 SQL Server 2005将引入专用的管理员连接,管理员可以使用这种连接来访问运行中的服务器甚至被锁定或因为某种原因而无法使用的服务器。这项功能使管理员得以通过执行诊断功能或Transact-SQL语句的方式在服务器上诊断问题。
快照隔离 SQL Server 2005将在数据库级别上提供新的快照隔离(SI)级别。借助SI特性,用户可以利用数据库的事务一致性视图来访问最新提交的数据行。这项功能将提供更高的可伸缩性。
数据分区 数据分区凭借能够针对大型表格与索引进行高效管理的内建表格与索引分区特性得到了增强。
复制增强特性 对于分布式移动数据库而言,SQL Server 2005提供了新的端到端复制功能,其中包括发布Oracle数据库的能力。此外,SQL Server 2005还针对复制工具及其伸缩能力提供了新的增强特性。
10大顶尖开发特性
NET Framework托管 凭借SQL Server 2005,开发人员可以使用熟悉的编程语言(如Microsoft Visual C# NET和Microsoft Visual Basic NET)来创建数据库对象。同时,开发人员还可以创建两种新型对象——用户定义类型及聚合。
XML技术 扩展标记语言(XML)是一项通过本地网络和Internet在不同应用间散布数据的重要标准。SQL Server 2005具备针对XML文档存储与查询的内建支持能力。
ADONET 20版 从针对SQL Types的新增支持能力到多维活动结果集(MARS),SQL Server 2005中的ADONET将完善数据集的访问与 *** 作方式,从而实现更高的伸缩性与灵活性。
安全增强特性 SQL Server 2005中的新型安全模型将把用户从对象中独立出来,提供较细粒度的访问方式,并支持针对数据访问的更强控制能力。此外,所有系统表格都将以视图的形式实现,从而提供针对数据库系统对象的更多控制能力。
Transact-SQL增强特性 SQL Server 2005提供了用以开发可伸缩性数据库应用的新型语言功能。这些增强特性包括错误处理,递归查询功能,关系型 *** 作符PIVOT、APPLY、ROW_NUMBER,以及其它行级功能。
SQL Service Broker SQL Service Broker将面向大规模在线商务应用提供分布式异步应用程序框架。
通知服务 通知服务允许企业创建能够向各种设备提供及时个性化信息(如证券市场提示、新闻订阅、装运报警、和航班机票价格查询)的丰富通知应用程序。借助SQL Server 2005,通知服务将与诸如分析服务和SQL Server Management Studio之类的技术实现更为紧密的集成。
Web服务 借助SQL Server 2005,开发人员可以在数据库层次上开发Web服务,从而使SQL Server成为一个超文本传输协议(>
简而言之,数据库是面向事务的设计,数据仓库是面向主题设计的。
数据库一般存储在线交易数据,数据仓库存储的一般是历史数据。
数据库设计是尽量避免冗余,一般采用符合范式的规则来设计,数据仓库在设计是有意引入冗余,采用反范式的方式来设计。
数据库是为捕获数据而设计,数据仓库是为分析数据而设计,它的两个基本的元素是维表和事实表。维是看问题的角度,比如时间,部门,维表放的就是这些东西的定义,事实表里放着要查询的数据,同时有维的ID。
单从概念上讲,有些晦涩。任何技术都是为应用服务的,结合应用可以很容易地理解。以银行业务为例。数据库是事务系统的数据平台,客户在银行做的每笔交易都会写入数据库,被记录下来,这里,可以简单地理解为用数据库记帐。数据仓库是分析系统的数据平台,它从事务系统获取数据,并做汇总、加工,为决策者提供决策的依据。比如,某银行某分行一个月发生多少交易,该分行当前存款余额是多少。如果存款又多,消费交易又多,那么该地区就有必要设立ATM了。
显然,银行的交易量是巨大的,通常以百万甚至千万次来计算。事务系统是实时的,这就要求时效性,客户存一笔钱需要几十秒是无法忍受的,这就要求数据库只能存储很短一段时间的数据。而分析系统是事后的,它要提供关注时间段内所有的有效数据。这些数据是海量的,汇总计算起来也要慢一些,但是,只要能够提供有效的分析数据就达到目的了。
数据仓库,是在数据库已经大量存在的情况下,为了进一步挖掘数据资源、为了决策需要而产生的,它决不是所谓的“大型数据库”。那么,数据仓库与传统数据库比较,有哪些不同呢让我们先看看WHInmon关于数据仓库的定义:面向主题的、集成的、与时间相关且不可修改的数据集合。
“面向主题的”:传统数据库主要是为应用程序进行数据处理,未必按照同一主题存储数据;数据仓库侧重于数据分析工作,是按照主题存储的。这一点,类似于传统农贸市场与超市的区别—市场里面,白菜、萝卜、香菜会在一个摊位上,如果它们是一个小贩卖的;而超市里,白菜、萝卜、香菜则各自一块。也就是说,市场里的菜(数据)是按照小贩(应用程序)归堆(存储)的,超市里面则是按照菜的类型(同主题)归堆的。
“与时间相关”:数据库保存信息的时候,并不强调一定有时间信息。数据仓库则不同,出于决策的需要,数据仓库中的数据都要标明时间属性。决策中,时间属性很重要。同样都是累计购买过九车产品的顾客,一位是最近三个月购买九车,一位是最近一年从未买过,这对于决策者意义是不同的。
“不可修改”:数据仓库中的数据并不是最新的,而是来源于其它数据源。数据仓库反映的是历史信息,并不是很多数据库处理的那种日常事务数据(有的数据库例如电信计费数据库甚至处理实时信息)。因此,数据仓库中的数据是极少或根本不修改的;当然,向数据仓库添加数据是允许的。
数据仓库的出现,并不是要取代数据库。目前,大部分数据仓库还是用关系数据库管理系统来管理的。可以说,数据库、数据仓库相辅相成、各有千秋。
补充一下,数据仓库的方案建设的目的,是为前端查询和分析作为基础,由于有较大的冗余,所以需要的存储也较大。为了更好地为前端应用服务,数据仓库必须有如下几点优点,否则是失败的数据仓库方案。
1效率足够高。客户要求的分析数据一般分为日、周、月、季、年等,可以看出,日为周期的数据要求的效率最高,要求24小时甚至12小时内,客户能看到昨天的数据分析。由于有的企业每日的数据量很大,设计不好的数据仓库经常会出问题,延迟1-3日才能给出数据,显然不行的。
2数据质量。客户要看各种信息,肯定要准确的数据,但由于数据仓库流程至少分为3步,2次ETL,复杂的架构会更多层次,那么由于数据源有脏数据或者代码不严谨,都可以导致数据失真,客户看到错误的信息就可能导致分析出错误的决策,造成损失,而不是效益。
3扩展性。之所以有的大型数据仓库系统架构设计复杂,是因为考虑到了未来3-5年的扩展性,这样的话,客户不用太快花钱去重建数据仓库系统,就能很稳定运行。主要体现在数据建模的合理性,数据仓库方案中多出一些中间层,使海量数据流有足够的缓冲,不至于数据量大很多,就运行不起来了。
创建数据库的时候,直接指定数据库的字符集,之后再该数据库中创建表的时候就不用再指定了,所有创建的表都是跟数据库字符集一样的。列如:create database \\'dbname\\' default character set utf8;
以上就是关于能不能解释一下数据库当中这个维度用来干嘛的……我看不懂……全部的内容,包括:能不能解释一下数据库当中这个维度用来干嘛的……我看不懂……、什么是维数据库中的知识、数据库架构选型与落地,看这篇就够了等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!
欢迎分享,转载请注明来源:内存溢出
微信扫一扫
支付宝扫一扫
评论列表(0条)