影响数据检索效率的几个因素_工具

影响数据检索效率的几个因素

数据检索有两种主要形态。第一种是纯数据库型的。典型的结构是一个关系型数据，比如 mysql。用户通过 SQL 表达出所需要的数据，mysql 把 SQL 翻译成物理的数据检索动作返回结果。第二种形态是现在越来越流行的大数据玩家的玩法。典型的结构是有一个分区的数据存储，最初这种存储就是原始的 HDFS，后来开逐步有人在 HDFS 上加上索引的支持，或者干脆用 Elasticsearc 这样的数据存储。然后在存储之上有一个分布式的实时计算层，比如 Hive 或者 Spark SQL。用户用 Hive SQL 提交给计算层，计算层从存储里拉取出数据，进行计算之后返回给用户。这种大数据的玩法起初是因为 SQL 有很多 ad-hoc 查询是满足不了的，干脆让用户自己写 map/reduce 想怎么算都可以了。但是后来玩大了之后，越来越多的人觉得这些 Hive 之类的方案查询效率怎么那么低下啊。于是一个又一个项目开始去优化这些大数据计算框架的查询性能。这些优化手段和经典的数据库优化到今天的手段是没有什么两样的，很多公司打着搞计算引擎的旗号干着重新发明数据库的活。所以，回归本质，影响数据检索效率的就那么几个因素。我们不妨来看一看。

数据检索干的是什么事情

定位 => 加载 => 变换

找到所需要的数据，把数据从远程或者磁盘加载到内存中。按照规则进行变换，比如按某个字段group by，取另外一个字段的sum之类的计算。

影响效率的四个因素

读取更少的数据

数据本地化，充分遵循底层硬件的限制设计架构

更多的机器

更高效率的计算和计算的物理实现

原则上的四点描述是非常抽象的。我们具体来看这些点映射到实际的数据库中都是一些什么样的优化措施。

读取更少的数据

数据越少，检索需要的时间当然越少了。在考虑所有技术手段之前，最有效果的恐怕是从业务的角度审视一下我们是否需要从那么多的数据中检索出结果来。有没有可能用更少的数据达到同样的效果。减少的数据量的两个手段，聚合和抽样。如果在入库之前把数据就做了聚合或者抽样，是不是可以极大地减少查询所需要的时间，同时效果上并无多少差异呢？极端情况下，如果需要的是一天的总访问量，比如有1个亿。查询的时候去数1亿行肯定快不了。但是如果统计好了一天的总访问量，查询的时候只需要取得一条记录就可以知道今天有1个亿的人访问了。

索引是一种非常常见的减少数据读取量的策略了。一般的按行存储的关系型数据库都会有一个主键。用这个主键可以非常快速的查找到对应的行。KV存储也是这样，按照Key可以快速地找到对应的Value。可以理解为一个Hashmap。但是一旦查询的时候不是用主键，而是另外一个字段。那么最糟糕的情况就是进行一次全表的扫描了，也就是把所有的数据都读取出来，然后看要的数据到底在哪里，这就不可能快了。减少数据读取量的最佳方案就是，建立一个类似字典一样的查找表，当我们找 username=wentao 的时候，可以列举出所有有 wentao 作为用户名的行的主键。然后拿这些主键去行存储（就是那个hashmap）里捞数据，就一捞一个准了。

谈到索引就不得不谈一下一个查询使用了两个字段，如何使用两个索引的问题。mysql的行为可以代表大部分主流数据库的处理方式：

基本上来说，经验表明有多个单字段的索引，最后数据库会选一最优的来使用。其余字段的过滤仍然是通过数据读取到内存之后，用predicate去判断的。也就是无法减少数据的读取量。

在这个方面基于inverted index的数据就非常有特点。一个是Elasticsearch为代表的lucene系的数据库。另外一个是新锐的druid数据库。

效果就是，这些数据库可以把单字段的filter结果缓存起来。多个字段的查询可以把之前缓存的结果直接拿过来做 AND 或者 OR *** 作。

索引存在的必要是因为主存储没有提供直接的快速定位的能力。如果访问的就是数据库的主键，那么需要读取的数据也就非常少了。另外一个变种就是支持遍历的主键，比如hbase的rowkey。如果查询的是一个基于rowkey的范围，那么像hbase这样的数据库就可以支持只读取到这个范围内的数据，而不用读取不再这个范围内的额外数据，从而提高速度。这种加速的方式就是利用了主存储自身的物理分布的特性。另外一个更常见的场景就是 partition。比如 mysql 或者 postgresql 都支持分区表的概念。当我们建立了分区表之后，查找的条件如果可以过滤出分区，那么可以大幅减少需要读取的数据量。比 partition 更细粒度一些的是 clustered index。它其实不是一个索引（二级索引），它是改变了数据在主存储内的排列方式，让相同clustered key的数据彼此紧挨着放在一起，从而在查询的时候避免扫描到无关的数据。比 partition 更粗一些的是分库分表分文件。比如我们可以一天建立一张表，查询的时候先定位到表，再执行 SQL。比如 graphite 给每个 metric 创建一个文件存放采集来的 data point，查询的时候给定metric 就可以定位到一个文件，然后只读取这个文件的数据。

另外还有一点就是按行存储和按列存储的区别。按列存储的时候，每个列是一个独立的文件。查询用到了哪几个列就打开哪几个列的文件，没有用到的列的数据碰都不会碰到。反观按行存储，一张中的所有字段是彼此紧挨在磁盘上的。一个表如果有100个字段，哪怕只选取其中的一个字段，在扫描磁盘的时候其余99个字段的数据仍然会被扫描到的。

考虑一个具体的案例，时间序列数据。如何使用读取更少的数据的策略来提高检索的效率呢？首先，我们可以保证入库的时间粒度，维度粒度是正好是查询所需要的。如果查询需要的是5分钟数据，但是入库的是1分钟的，那么就可以先聚合成5分钟的再存入数据库。对于主存储的物理布局选择，如果查询总是针对一个时间范围的。那么把 timestamp 做为 hbase 的 rowkey，或者 mysql 的 clustered index 是合适。这样我们按时间过滤的时候，选择到的是一堆连续的数据，不用读取之后再过滤掉不符合条件的数据。但是如果在一个时间范围内有很多中数据，比如1万个IP，那么即便是查1个IP的数据也需要把1万个IP的数据都读取出来。所以可以把 IP 维度也编码到 rowkey 或者 clustered index 中。但是假如另外还有一个维度是 OS，那么查询的时候 IP 维度的 rowkey 是没有帮助的，仍然是要把所有的数据都查出来。这就是仅依靠主存储是无法满足各种查询条件下都能够读取更少的数据的原因。所以，二级索引是必要的。我们可以把时间序列中的所有维度都拿出来建立索引，然后查询的时候如果指定了维度，就可以用二级索引把真正需要读取的数据过滤出来。但是实践中，很多数据库并不因为使用了索引使得查询变快了，有的时候反而变得更慢了。对于 mysql 来说，存储时间序列的最佳方式是按时间做 partition，不对维度建立任何索引。查询的时候只过滤出对应的 partition，然后进行全 partition 扫描，这样会快过于使用二级索引定位到行之后再去读取主存储的查询方式。究其原因，就是数据本地化的问题了。

[page]

数据本地化

数据本地化的实质是软件工程师们要充分尊重和理解底层硬件的限制，并且用各种手段规避问题最大化利用手里的硬件资源。本地化有很多种形态

最常见的最好理解的本地化问题是网络问题。我们都知道网络带宽不是无限的，比本地磁盘慢多了。如果可能尽量不要通过网络去访问数据。即便要访问，也应该一次抓取多一些数据，而不是一次搞一点，然后搞很多次。因为网络连接和来回的开销是非常高的。这就是 data locality 的问题。我们要把计算尽可能的靠近数据，减少网络上传输的数据量。

这种带宽引起的本地化问题，还有很多。网络比硬盘慢，硬盘比内存慢，内存比L2缓存慢。做到极致的数据库可以让计算完全发生在 L2 缓存内，尽可能地避免频繁地在内存和L2之间倒腾数据。

另外一种形态的问题化问题是磁盘的顺序读和随机读的问题。当数据彼此靠近地物理存放在磁盘上的时候，顺序读取一批是非常快的。如果需要随机读取多个不连续的硬盘位置，磁头就要来回移动从而使得读取速度快速下降。即便是 SSD 硬盘，顺序读也是要比随机读快的。

基于尽可能让数据读取本地化的原则，检索应该尽可能地使用顺序读而不是随机读。如果可以的话，把主存储的row key或者clustered index设计为和查询提交一样的。时间序列如果都是按时间查，那么按时间做的row key可以非常高效地以顺序读的方式把数据拉取出来。类似地，按列存储的数据如果要把一个列的数据都取出来加和的话，可以非常快地用顺序读的方式加载出来。

二级索引的访问方式典型的随机读。当查询条件经过了二级索引查找之后得到一堆的主存储的 key，那么就需要对每个 key 进行一次随机读。即便彼此仅靠的key可以用顺序读做一些优化，总体上来说仍然是随机读的模式。这也就是为什么时间序列数据在 mysql 里建立了索引反而比没有建索引还要慢的原因。

为了尽可能的利用顺序读，人们就开始想各种办法了。前面提到了 mysql 里的一行数据的多个列是彼此紧靠地物理存放的。那么如果我们把所需要的数据建成多个列，那么一次查询就可以批量获得更多的数据，减少随机读取的次数。也就是把之前的一些行变为列的方式来存放，减少行的数量。这种做法的经典案例就是时间序列数据，比如可以一分钟存一行数据，每一秒的值变成一个列。那么行的数量可以变成之前的1/60。

但是这种行变列的做法在按列存储的数据库里就不能直接照搬了，有些列式数据库有column family的概念，不同的设置在物理上存放可能是在一起的也可能是分开的。对于 Elasticsearch 来说，要想减少行的数量，让一行多pack一些数据进去，一种做法就是利用 nested document。内部 Elasticsearch 可以保证一个 document 下的所有的 nested document是物理上靠在一起放在同一个 lucene 的 segment 内。

网络的data locality就比较为人熟知了。map reduce的大数据计算模式就是利用map在数据节点的本地把数据先做一次计算，往往计算的结果可以比原数据小很多。然后再通过网络传输汇总后做 reduce 计算。这样就节省了大量网络传输数据的时间浪费和资源消耗。现在 Elasticsearch 就支持在每个 data node 上部署 spark。由 spark 在每个 data node 上做计算。而不用把数据都查询出来，用网络传输到 spark 集群里再去计算。这种数据库和计算集群的混合部署是高性能的关键。类似的还有 storm 和 kafka 之间的关系。

网络的data locality还有一个老大难问题就是分布式大数据下的多表join问题。如果只是查询一个分布式表，那么把计算用 map reduce 表达就没有多大问题了。但是如果需要同时查询两个表，就意味着两个表可能不是在物理上同样均匀分布的。一种最简单的策略就是找出两张表中最小的那张，然后把表的内容广播到每个节点上，再做join。复杂一些的是对两个单表做 map reduce，然后按照相同的 key 把部分计算的结果汇集在一起。第三种策略是保证数据分布的方式，让两张表查询的时候需要用到的数据总在一起。没有完美的方案，也不大可能有完美的方案。除非有一天网络带宽可以大到忽略不计的地步。

更多的机器

这个就没有什么好说的了。多一倍的机器就多一倍的 CPU，可以同时计算更多的数据。多一倍的机器就多一倍的磁头，可以同时扫描更多的字节数。很多大数据框架的故事就是讲如何如何通过 scale out解决无限大的问题。但是值得注意的是，集群可以无限大，数据可以无限多，但是口袋里的银子不会无限多的。堆机器解决问题比升级大型机是要便宜，但是机器堆多了也是非常昂贵的。特别是 Hive 这些从一开始就是分布式多机的检索方案，刚开始的时候效率并不高。堆机器是一个乘数，当数据库本来单机性能不高的时候，乘数大并不能起到决定性的作用。

更高效的计算和计算实现

检索的过程不仅仅是磁盘扫描，它还包括一个可简单可复杂的变换过程。使用 hyperloglog，count min-sketch等有损算法可以极大地提高统计计算的性能。数据库的join也是一个经常有算法创新的地方。

计算实现就是算法是用C++实现的还是用java，还是python实现的。用java是用大Integer实现的，还是小int实现的。不同的语言的实现方式会有一些固定的开销。不是说快就一定要C++，但是 python 写 for 循环是显然没有指望的。任何数据检索的环节只要包含 python/ruby 这些语言的逐条 for 循环就一定快不起来了。

结论

希望这四点可以被记住，成为一种指导性的优化数据检索效率的思维框架。无论你是设计一个mysql表结构，还是优化一个spark sql的应用。从这四个角度想想，都有哪些环节是在拖后腿的，手上的工具有什么样的参数可以调整，让随机读变成顺序读，表结构怎么样设计可以最小化数据读取的量。要做到这一点，你必须非常非常了解工具的底层实现。而不是盲目的相信，xx数据库是最好的数据库，所以它一定很快之类的。如果你不了解你手上的数据库或者计算引擎，当它快的时候你不知道为何快，当它慢的时候你就更加无从优化了。

为了在恰当的时候采用快照复制，数据库管理员首先需要知道快照复制的特点。快照复制是指将数据以特定时刻的瞬时状态转发，而不坚实对数据的更新。在发生同步时，将生成完整的快照并将其发送到订阅服务器。简单的说，快照复制就是每隔一段时间发生数据同步 *** 作。而不是发布服务器的数据一有更新就出发这个快照复制。显然这种快照复制的数据同步性稍微差一点。在订阅服务器与发布服务器之间有一段时间会存在数据不一致的情况。但是这可以在很大程度上提高订阅服务器与发布服务器的性能。这就好像汽车运输。采用快照复制的话可以将一个集装箱装满后在送货，而不是有多少送多少。掌握这个数据库复快照复制的具体特点之后，数据库管理员就可以来考虑在什么情况下，采用快照复制更加的合理。一、数据更改比较少的系统中。快照复制与其他复制相比最主要的缺陷就是数据库中的数据无法及时同发布服务器一致。为此如果发布服务器中的内容很少更改的话，显然此时采用快照复制是比较合理的。此时采用快照复制的话，不仅数据一致性延迟的负面效应会越来越不明显，同时可以提高发布服务器与订阅服务器的性能。如在实际工作中，经常会遇到这样的客户。如一家企业在各地都有办事处或者销售机构，就像肯德基一样，各地的产品价格基本上都是相同的，不怎么会更改。即使更改的话，各地也是统一调整。由于此时产品价格表更改的比较少，那么在企业总部的数据库服务与各地的订阅服务器之间，采用快照复制的形式就会比较合适。其实类似的情况有很多。如不少的服装企业，像李宁、耐克等等，他们不仅自己生产，而且在各地又有自己的销售办事处。在价格方面也是统一的。在这种情况下，采用快照复制往往能够提高数据库复制的性能，同时又不影响其使用。二、在某个时段内会出现数据大量的更改。需要补充说明的一点是，上面说到的数据不怎么发生更改，指的是数据的延续性更改。如在一年中，每天或者每个小时更改的数据都比较平均。此时采用快照复制不怎么合适。但是如果数据的更改集中在一个时段内。而其他时间中数据库的内容不会有多大的更改。此时采用快照复制是可行的。如一些决策性系统，往往在起初导入数据的时候，需要进行大量的更改。而等到数据导入完毕，在大家对数据进行分析时，则数据库中的内容基本上保持不变。在这种情况下，笔者认为只要数据的更新集中在一个固定的时段，此时采用快照复制仍然是可行的。再如上面这个KFC或者服装企业的案例中，如果市场部门维护一个产品的价格，而且这些价格往往在一个固定的时间进行几次更新。如在换季的时候会进行一些促销。此时数据库管理员可以在数据更新完毕后立即执行复制完成的数据快照。所以，以数据更新来判断是否适合采用快照复制，标准并不是数据的更新量。像上面提到的分析决策系统，其起初的数据更新量可能比有些数据库系统几年的数据更新量都要大。笔者认为，主要是根据数据更新的频率来进行判断。如果数据更新的比较频繁，那么即使数据更新的数据不多，像那种细水长流似的更新，则不适合采用快照复制。而那些井喷似的数据更新，所有的更新都集中在一个固定的时刻，那么此时采用快照复制是比较合理的。三、在一段时间内是否允许具有相对发布服务器已过时的数据副本现在不少超市也已经连锁了，如世纪联华等等。为了提高利润，增加市场的份额，这些超市纷纷推出了冲值卡，即消费者先将一定金额的人民币打入到冲值卡中。然后每次消费完成后从卡中扣费。但前些天经常有新闻报道，说一个客户的消费卡在一家联华超市挂失了。但是捡到这张卡的人仍然可以在其他的联华超市中消费。为此消费者就想不明白了，为什么挂失了的消费卡仍然可以在其他超市中消费挂失后的损失该由谁来承担呢其实这就使超市在不适当的时候采用了快照复制所造成的。由于采用快照复制，在各个联华超市的数据库之间数据无法在短时间内取得一致。如有些商户说挂失当日之内的损失他们不承担，这就说明他们可能是每天下班后进行一次快照复制。一般情况下这不会有问题。但是像遇到消费卡被偷了等情况，就会遇到类似的问题了。所以，在考虑是否适合采用快照复制的时候，还需要考虑在一段时间内是否允许具有相对发布服务器来说已过时的数据副本。如果不允许的话，那么就不允许采用这个快照复制。如果允许的话，那么数据库管理员就需要评估这段时间最长是多少。如果是24个小时，那么就需要每隔24小时进行一次快照复制。但是需要注意的是，如果时间的间隔比较短，如才允许十分钟的数据延迟，那么采用快照复制就没有必要了。此时采用事务复制或则和合并复制可能更加的合适。四、复制少量的数据。快照复制跟其他复制类型相比，还有一个比较显著的特点，即当发生数据同步时，将生成完整的快照并将其从发布服务器传送到订阅服务器。这是一个什么概念呢如订阅服务器中有10G的数据，而在一个快照复制的周期内，只有1M的数据发生了更改。此时发生快照复制的话，数据库系统会将10G的数据都传送到订阅服务器上。此时更改的数据只有1M，却需要在网络上传送10G的数据流量，显然会对企业的网络产生比较大的压力。由于在发布服务器上快照复制的连续开销低于事务复制的开销，一次数据库系统不会启用跟踪增量更改。但是像这种情况，如果要复制的数据量非常的大，而平时的更新又不多。此时数据库系统要生成和应用快照，就将耗用大量的资源，包括网络资源和服务器资源。所以说，当发布服务器中的数据比较多时，采用快照复制不怎么合适。因为此时网络传输反而会成为其最重大的瓶颈资源。相反若能够采取细水长流的事务复制策略，那么对于企业网络性能的影响就会小的多，甚至可以忽略不计。所以在采用快照复制的时候，数据库管理员一定要明白，快照复制会传送整个数据库对象。从而在快照复制传输过程中会侵蚀大量的网络带宽，从而明显的降低企业网络的性能，甚至导致网络拥塞。有时候为了保障快照能够准确、迅速的传递到其他的订阅服务器，还不得不采用***等技术来保障传输的准确性。为此，笔者认为只有发布服务器的数据库并不是很大的情况下，才适合采用快照复制。否则的话，采用快照复制是得不偿失。从以上的分析中，可以得到一个结论。在考虑采用快照复制是否合适时，往往不能够采用一个指标来判断。而需要考虑多个因素，如数据库的大小、数据更新的频率、允许数据延迟的时间等等因素来进行判断。最后在数据的一致性与数据库的性能之间取得一个均衡。说实话，对于大部分数据库管理员来说，要做出一个抉择，确实有困难。因为这没有固定的指标可以拿来参考。如数据库容量小于多少时该采用快照复制。任何一个数据库管理专家都不能够下这个结论。所以在掌握影响其选择的相关因素外，就要依靠数据库管理员的经验了。在遇到类似的选择题时，往往经验可以帮助管理员迅速解决问题。最后需要提醒的是，无论最终采取了什么方案，最好能够持续跟踪一段时间，看看自己的选择是否合理。

具体问题具体分析，举例来说明为什么磁盘IO成瓶颈数据库的性能急速下降了。

为什么当磁盘IO成瓶颈之后, 数据库的性能不是达到饱和的平衡状态，而是急剧下降。为什么数据库的性能有非常明显的分界点，原因是什么？

相信大部分做数据库运维的朋友，都遇到这种情况。数据库在前一天性能表现的相当稳定，数据库的响应时间也很正常，但就在今天，在业务人员反馈业务流量没有任何上升的情况下，数据库的变得不稳定了，有时候一个最简单的insert *** 作，需要几十秒，但99%的insert却又可以在几毫秒完成，这又是为什么了？

dba此时心中有无限的疑惑，到底是什么原因呢磁盘IO性能变差了？还是业务运维人员反馈的流量压根就不对？还是数据库内部出问题？昨天不是还好好的吗？

当数据库出现响应时间不稳定的时候，我们在 *** 作系统上会看到磁盘的利用率会比较高，如果观察仔细一点，还可以看到，存在一些读的IO 数据库服务器如果存在大量的写IO,性能一般都是正常跟稳定的，但只要存在少量的读IO,则性能开始出现抖动，存在大量的读IO时（排除配备非常高速磁盘的机器），对于在线交易的数据库系统来说，大概性能就雪崩了。为什么 *** 作系统上看到的磁盘读IO跟写IO所带来的性能差距这么大呢？

如果亲之前没有注意到上述的现象，亲对上述的结论也是怀疑。但请看下面的分解。

在写这个文章之前，作者阅读了大量跟的IO相关的代码，如异步IO线程的相关的，innodb_buffer池相关的，以及跟读数据块最相关的核心函数buf_page_get_gen函数以及其调用的相关子函数。为了将文章写得通俗点，看起来不那么累，因此不再一行一行的将代码解析写出来。

咱们先来提问题。 buf_page_get_gen函数的作用是从Buffer bool里面读数据页，可能存在以下几种情况。

提问数据页不在buffer bool 里面该怎么办？

回答：去读文件，将文件中的数据页加载到buffer pool里面。下面是函数buffer_read_page的函数，作用是将物理数据页加载到buffer pool, 中显示

buffer_read_page函数栈的顶层是pread64(),调用了 *** 作系统的读函数。

buf_read_page的代码

如果去读文件，则需要等待物理读IO的完成，如果此时IO没有及时响应，则存在堵塞。这是一个同步读的 *** 作，如果不完成该线程无法继续后续的步骤。因为需要的数据页不再buffer 中，无法直接使用该数据页，必须等待 *** 作系统完成IO

再接着上面的回答提问：

当第二会话线程执行sql的时候，也需要去访问相同的数据页，它是等待上面的线程将这个数据页读入到缓存中，还是自己再发起一个读磁盘的然后加载到buffer的请求呢？代码告诉我们，是前者，等待第一个请求该数据页的线程读入buffer pool。

试想一下，如果第一个请求该数据页的线程因为磁盘IO瓶颈，迟迟没有将物理数据页读入buffer pool, 这个时间区间拖得越长，则造成等待该数据块的用户线程就越多。对高并发的系统来说，将造成大量的等待。等待数据页读入的函数是buf_wait_for_read，下面是该函数相关的栈。

通过解析buf_wait_for_read函数的下层函数，我们知道其实通过首先自旋加锁pin的方式，超过设定的自旋次数之后，进入等待，等待IO完成被唤醒。这样节省不停自旋pin时消耗的cpu,但需要付出被唤起时的开销。

再继续扩展问题：如果会话线程A 经过物理IO将数据页1001读入buffer之后，他需要修改这个页，而在会话线程A之后的其他的同样需要访问数据页1001的会话线程，即使在数据页1001被入读buffer pool之后，将仍然处于等待中。因为在数据页上读取或者更新的时候，同样需要上锁，这样才能保证数据页并发读取/更新的一致性。

由此可见，当一个高并发的系统，出现了热点数据页需要从磁盘上加载到buffer pool中时，造成的延迟，是难以想象的。因此排在等待热点页队列最后的会话线程最后才得到需要的页，响应时间也就越长，这就是造成了一个简单的sql需要执行几十秒的原因。

再回头来看上面的问题，mysql数据库出现性能下降时，可以看到 *** 作系统有读IO。原因是，在数据库对数据页的更改，是在内存中的，然后通过检查点线程进行异步写盘，这个异步的写 *** 作是不堵塞执行sql的会话线程的。所以，即使看到 *** 作系统上有大量的写IO，数据库的性能也是很平稳的。但当用户线程需要查找的数据页不在buffer pool中时，则会从磁盘上读取，在一个热点数据页不是非常多的情况下，我们设置足够大的innodb_buffer_pool的size, 基本可以缓存所有的数据页，因此一般都不会出现缺页的情况，也就是在 *** 作系统上基本看不到读的IO。当出现读的IO时，原因时在执行buf_read_page_low函数，从磁盘上读取数据页到buffer pool, 则数据库的性能则开始下降，当出现大量的读IO，数据库的性能会非常差。

第四章关系数据库的模式设计

45 什么是关系数据库：

关系数据库是以关系模型为基础的数据库，它利用关系来描述现实世界。一个关系既可以用来描述一个实体及其属性，也可以用来描述实体间的联系。关系实质上是一张二维表。

46 一个关系模型有哪两个方面内容：

一个关系模型包括外延和内涵两个方面的内容。

外延就是通常所说的关系，或实例，或当前值。它与时间有关，随着时间的推移在不断变化。（由于元组的插入、删除、修改引起的）

内涵是与时间独立的，包括关系、属性、及域的一些定义和说明，还有各种数据完整性约束。

47 数据完整性约束分为哪两类：

数据完整性约束分为静态约束和动态约束。

静态约束：包括各种数据之间的联系（数据依赖），主键的设计和关系值的各种限制等等。这一类约束是如何定义关系的有效数据问题。

动态约束：主要定义如插入、删除、和修改等各种 *** 作的影响。

48 关系数据库设计理论主要包括哪些内容：

关系数据库设计理论主要包括三个方面的内容：数据依赖、范式、模式设计方法。其中数据依赖起着核心的作用。

49 数据库使用过程中存在的问题是什么：

数据冗余、更新异常、插入异常、删除异常。

50 函数依赖（FD）的定义：

设有关系模式R（A1，A2，……，An）（即R（U）），X，Y是U的子集，r是R的任一具体关系，如果对r的任意两个元组t1，t2，由t1[X]=t2[X]导致t1[Y]=t2[Y]，则称X函数决定Y，或Y函数依赖于X，记为X→Y，X→Y为模式R的一个函数依赖。

或者说，对于X的每一个具体值，都有Y惟一的具体值与之对应，即Y值由X值决定，因而

这种数据依赖称为函数依赖。

51 函数依赖的逻辑蕴涵、FD的闭包F+：

52 候选键、主属性、非主属性：

设有关系模式R（A1，A2，……，An），F是R的一个函数依赖集，X是{A1，A2，……，An}的一个子集。如果

① X→A1A2……An∈F+，且

② 不存在X真子集Y，使得Y→A1A2……An成立，则称X是R的候选键。

包含在任何一个候选键中的属性称为主属性，不包含在任何一个候选键中的属性称为非主属性。

53 函数依赖的推理规则：

设有关系模式R（A1，A2，……，An）和属性集U= A1，A2，……，An，X，Y，Z，W是U的一个子集，F是R的一个函数依赖集，推理规则如下：

54 什么是平凡的FD？平凡的FD可根据哪一条推理规则推出？

55 关系模式的分解有几个不同的衡量标准：

分解具有无损联接;

分解要保持函数依赖;

分解既要保持依赖，又要具有无损联接。

57 试叙保持函数依赖的定义：

58 第一范式（1NF）：

如果关系模式R的所有属性的值域中每一个值都是不可再分解的值，则称R是属于第一范式模式。

59 第二范式（2NF）：

如果关系模式R为第一范式，并且R中每一个非主属性完全函数依赖于R的候选键，则称R是第二范式模式。

60 第三范式（3NF）：

如果关系模式R是第一范式，且每个非主属性都不传递依赖于R的候选键，则称R是第三范式的模式。

61 BCNF：

如果关系模式R是第一范式，且每个属性都不传递依赖于R的候选键，那么称R是BCNF的模式。从BCNF的定义可明显地得出如下结论：

（1）所有非主属性对键是完全函数依赖。

（2）所有主属性对不包含它的键是完全函数依赖。

（3）没有属性完全函数依赖于非键的任何属性组。

如果模式R是BCNF，则它必定是第三范式，反之，则不一定。

62 模式设计方法的原则：

关系模式R相对于函数依赖集F分解成数据库模式ρ＝｛R1，R2，……Rk｝，一般应具有下面三个特性：

（1） ρ中每个关系模式Ri是3NF或BCNF

（2）保持无损联结

（3）保持函数依赖集

（4） ρ中模式个数最少和属性总数最少。

63 一个好的模式设计方法应符合哪三条原则：

表达性，分离性，最小冗余性。

表达性涉及到两个数据库模式的等价性问题，即数据等价和依赖等价，分别用无损联接和保持函数依赖性来衡量。

分离性是指属性间的“独立联系”应该用不同的关系模式表达。

最小冗余性要求在分解后的数据库能表达原来数据库的所有信息这个前提下实现。

关系模式设计方法基本上可以分为分解与合成两大类。

64 多值依赖MVD：

设R（U）是属性集U上的一个关系模式，X，Y是U的子集，若对R（U）的任一关系r，对于X的一个给定的值存在着Y的一组值与其对应，同时Y的这组值又不以任何方式与U-X-Y中的属性相关，那么称Y多值依赖于X，记为X→→Y。

65 平凡多值依赖：

66 第四范式（4NF）：

设关系模式R，D是一个多值依赖集，如果D中存在一个非平凡多值依赖X→→Y，并且X必是R的超键，那么称R是4NF模式。

毕业论文自动生成目录时后面的参考文献和致谢怎么都进不去，只到结论就没有了，请各位高手帮帮忙！

毕业论文自动生成目录时后面的参考文献和致谢怎么都进不去，只到结论就没有了，请各位高手帮帮忙！参考文献和致谢无法生成，是因为你把参考文献和致谢都放进尾注里边了，目录的生成是要在正文中（包括标题）才能显现，解决的方法很容易。你只需要在尾注的分隔符前面打入“参考文献”四个字，接着空一格，接着点击“插入”——“分隔符”——“分节符类型“点击”下一页“——”确定“，这时”致谢“就会自动分配到下一页了。然后给参考文献和致谢都标上一级标题，再在目录中点击右键”更新目录“，选择”更新目录内容“就可以了。

WPS里参考文献、致谢和发表论文不能自动生成到目录里自动目录是个域，也就是个小程序，要自动生成目录，就要有依据。就要在大纲视图里，把大小标题分出级别，参考文献等也要分出级别，不然找不到依据。

毕业论文如何自动生成参考文献参考文献的自动生成刚刚学会很好很方便~来源：陈郁的日志

写论文，参考文献的修改很麻烦，删除一个，添加一个，就需要改一长串数字。怎么办呢。

本人推荐一种简单方法：尾注法

方法如下（以Word2003为例）：

1．光标移到要插入参考文献的地方，菜单中“插入”——“引用”-“脚注和尾注”。

2．对话框中选择“尾注”，编号方式选“自动编号”，所在位置可以选“节的结尾”或“文档结尾”。

3．如“自动编号”后不是阿拉伯数字，选右下角的“选项”，在编号格式中选中阿拉伯数字。

4．确定后在该处就插入了一个上标“1”，而光标自动跳到文章最后，前面就是一个上标“1”，这就是输入第一个参考文献的地方。

5．将文章最后的上标“1”的格式改成正常（记住是改格式，而不是将它删掉重新输入，否则参考文献以后就是移动的位置，这个序号也不会变），再在它后面输入所插入的参考文献（格式按杂志要求来慢慢输，好像没有什么办法简化）。

6．对着参考文献前面的“1”双击，光标就回到了文章内容中插入参考文献的地方，可以继续写文章了。

7．在下一个要插入参考文献的地方再次按以上方法插入尾注，就会出现一个“2”（Word已经自动为你排序了），继续输入所要插入的参考文献。

标号上的方括号如何加呢？很简单：

8用的尾注，在菜单中的“编辑”——“替换”中“查找内容”填写^e，替换为[^&]即可：

9用的脚注，在菜单中的“编辑”——“替换”中“查找内容”填写^f，替换为[^&]便可以了

（这里建议在一篇文章都写完后再将方括号加上会省去很多意外的麻烦）

10．所有文献都引用完后，你会发现在第一篇参考文献前面一条短横线（页面视图里才能看到），如果参考文献跨页了，在跨页的地方还有一条长横线，这些线无法选中，也无法删除。这是尾注的标志，但一般科技论文格式中都不能有这样的线，所以一定要把它们删除。

还没完，删除横线的方法

11．切换到普通视图，菜单中“视图”——“脚注”，这时最下方出现了尾注的编辑栏。

12．在尾注右边的下拉菜单中选择“尾注分隔符”，这时那条短横线出现了，选中它，删除。

13．再在下拉菜单中选择“尾注延续分隔符”，这是那条长横线出现了，选中它，删除。

14．切换回到页面视图，参考文献插入已经完成了。

这时，无论文章如何改动，参考文献都会自动地排好序了。如果删除了，后面的参考文献也会自动消失，绝不出错。参考文献越多，这种方法的优势就越强大。

别看步骤多， *** 作一遍，就知道很简单了~

如何将论文摘要、致谢、参考文献加入到自动生成目录把摘要、致谢、参考文献都改成一级标题，然后在第一章前、摘要后生成目录。如果你用的是WORD07，这样就可以了。

论文生成目录后，参考文献、致谢与页码中间没有将参考文献与谢辞重新定义在一种标题格式，重新生成目录！

论文参考文献怎么自动生成有些软件有一定的帮助，比如NoteExpress,NoteFirst等，但是都不是太好，还是需要自己调整。你可以下载自己试试，但不要抱有太大期望。

毕业论文目录是否包括结论和参考文献部分应该有的，我刚别业没多久，当时就要求这样的。

学校应该有样板的，参考文献肯定有，单独作为一个标题的，和前面的章节地位并列，结论的话视你论文内容可能会有不同。

多参考几份资料，格式又不算抄袭。

论文自动生成参考文献怎么弄？自动生成论文参考文献十三：在word加工器中建立参考目录（BuildingBibliographiesinYourWordProcessor）

1同时打开一个新的word文档和referencemanager,在word文档中，点工具（tool），马

上发现ReferenceManager9已经在安装的同时自动嵌入word文档的工具栏中了。放心

调用吧！(有9种功能呢)。

2确定引用的参考文献（IdentifyReferencestoCite）方法1：在新文档中输入ItseasytoCite

WhileYouWritewithReferenceManager，点Tools——>ReferenceManager9——>

InsertCitation，出现对话框。在identifyingtext栏中输入dolphin,在look栏中输入此文献

所在的数据库（如sample）,然后点insert。这时库中符合条件的记录以列表的形式显示

出来。如果符合条件的记录很多，而且查找不方便，可以再缩小查找范围重新查找。很

简单，就是在上面的identifyingtext栏中dolphin的后面输入1996（dolphin1996之间用

空格隔开），然后点方框右侧的放大镜图表搜索，则符合条件的记录比刚才少多了。用

户可以选中某个需要引用的记录(如果同时插入好几条，结合shift选择)，点insert。（注

意：word文档中的tools——>ReferenceManager9——>RecallLastSearch,点点看，会

出现什么现象。哈哈，当然是刚才显示的文献列表喽）。

方法2：在word文档中输入SearchandmarkreferencesinReferenceManager，然后切换到

ReferenceManager窗口，通过点中左边的方框选中一条或几条记录。在切换到word文档，

将光标移到刚才输入的句子后面，点Tools——>ReferenceManager9——>InsertMarked

References。哈哈，刚才选中的记录自动引用上去了。

方法3：在word文档中输入Identifytextinyourmanuscriptandlaterscanthedocumenttoadd

ReferenceManagerplaceholderssaidConnor{connor/d;behavior}，选择工具——>

ReferenceManager9——>ScanDocument，注意对话框中左右两边的界定符号是大括号{}

（表示扫描的是大括号中的内容），然后点中对话框中的IdentifyingText(separatedby

semi-colons)，按OK。在显示的列表中找到connor对应的记录，点insert,然后在找到behavior

对应的记录，点insert。至此扫描结束。

3根据引用格式在word文档中创建对应的参考文献目录（GeneratetheBibliography）

方法一：在word文档中点Tools——>ReferenceManager9——>GenerateBibliography

在对话框OutputStyle中点右边的[…]，在d出的ReferenceManager9/Styles目录中选择一

种输出类型（就是你要投稿的那个期刊，当然要按人家的格式来了）。找到American

PsychologicalAssociation，（同时用户可以对参考文献的输出格式进行调整）。最后点OK确

定。

如果用户对刚才的输出结果不满意，尤其是发现输出的参考文献行距太大或者没有标上数

字，用户可以重新设定。方法：Tools——>ReferenceManager9——>Generate

Bibliograph，看到对话框中的reset按钮了没，就是它，点中。然后随心所欲的设定吧，一

遍不行可以再来一遍。方法二：直接在referencemanager窗口中创建，Bibliography——>

GeneratefromReferenceList，点开后发现出现的对话框和方法一的一样，用户看着办吧。

终结者：referencemanager95的中文说明书到此就翻译完了，下个目标就是reference

manager10版，不过会用95版的人一定会用第10个版本！

毕业论文word自动生成目录没致谢如果是通过尾注方式弄成的参考文献，后面的内容就不能上到目录了，只能用手工方式加到目录了。

销售管理毕业论文的参考文献、结论、致谢怎么写，谁来帮我啊市场营销观念是作为对上述诸观念的挑战而出现的一种新型的企业经营哲学。这种观念是以满足顾客需求为出发点的，即“顾客需要什么，就生产什么”。尽管这种思想由来已久，但其核心原则直到50年代中期才基本定型，当时社会生产力迅速发展，市场趋势表现为供过于求的买方市场，同时广大居民个人收入迅速提高，有可能对产品进行选择，企业之间为实现产品的竞争加剧，许多企业开始认识到，必须转变经营观念，才能求得生存和发展。市场营销观念认为，实现企业各项目标的关键，在于正确确定目标市场的需要和欲望，并且比竞争者更有效地传送目标市场所期望的物品或服务，进而比竞争者更有效地满足目标市场的需要和欲望。

解决办法有以下三个步骤。

1检查一下查询条数的SQL语句和查询列表的SQL语句哪里有区别。2用debug模式，在后台查看一下是否数据获取成功。3检查后台数据的存放和JSP中数据的获取是否对应。

navicat是一套快速、可靠并价格相当便宜的数据库管理工具，专为简化数据库的管理及降低系统管理成本而设计。navicat可以让用户连接到任何本机或远程服务器，提供一些实用的数据库工具如数据模型、数据传输、数据同步、结构同步、导入、导出、备份、还原、报表创建工具及计划以协助管理数据。

以上就是关于影响数据检索效率的几个因素全部的内容，包括:影响数据检索效率的几个因素、SQLServer 数据库中如何保持数据一致性、性能测试如何确定数据库是否是瓶颈等相关内容解答，如果想了解更多相关内容，可以关注我们，你们的支持是我们更新的动力！

欢迎分享，转载请注明来源：内存溢出

原文地址:https://54852.com/sjk/9840063.html

影响数据检索效率的几个因素

发表评论

评论列表（0条）