
关于mysql处理百万级以上的数据时如何提高其查询速度的方法
最近一段时间由于工作需要,开始关注针对Mysql数据库的select查询语句的相关优化方法。
由于在参与的实际项目中发现当mysql表的数据量达到百万级时,普通SQL查询效率呈直线下降,而且如果where中的查询条件较多时,其查询速度简直无法容忍。曾经测试对一个包含400多万条记录(有索引)的表执行一条条件查询,其查询时间竟然高达40几秒,相信这么高的查询延时,任何用户都会抓狂。因此如何提高sql语句查询效率,显得十分重要。以下是网上流传比较广泛的30种SQL查询语句优化方法:
1、应尽量避免在 where 子句中使用!=或<> *** 作符,否则将引擎放弃使用索引而进行全表扫描。
2、对查询进行优化,应尽量避免全表扫描,首先应考虑在 where 及 order by 涉及的列上建立索引。
3、应尽量避免在 where 子句中对字段进行 null 值判断,否则将导致引擎放弃使用索引而进行全表扫描,如:
select id from t where num is null
可以在num上设置默认值0,确保表中num列没有null值,然后这样查询:
select id from t where num=0
4、尽量避免在 where 子句中使用 or 来连接条件,否则将导致引擎放弃使用索引而进行全表扫描,如:
select id from t where num=10 or num=20
可以这样查询:
select id from t where num=10
union all
select id from t where num=20
MySQL是一个关系型数据库管理系统,由瑞典MySQL AB 公司开发,目前属于 Oracle 旗下产品。MySQL 是最流行的关系型数据库管理系统之一,在 WEB 应用方面,MySQL是最好的 RDBMS (Relational Database Management System,关系数据库管理系统) 应用软件。“总是在灾难发生后,才想起容灾的重要性。总是在吃过亏后,才记得曾经有人提醒过。”,所以此处列出一些MySQL的必要的优化和建议。
1 核心类
♦ 不在数据库做计算,cpu计算务必移至业务层;
♦ 控制单表数据量,单表记录控制在千万级;
♦ 控制列数量,字段数控制在20以内;
♦ 平衡范式与冗余,为提高效率可以牺牲范式设计,冗余数据;
♦ 拒绝3B(big),大sql,大事务,大批量;
2 字段类
♦ 用好数值类型
tinyint(1Byte)
smallint(2Byte)
mediumint(3Byte)
int(4Byte)
bigint(8Byte)
bad case:int(1)/int(11)
♦ 有些字符转化为数字
例如:用int而不是char(15)存储ip
♦ 优先使用enum或set
例如:sex enum (‘F’, ‘M’)
♦ 避免使用NULL字段
NULL字段很难查询优化
NULL字段的索引需要额外空间
NULL字段的复合索引无效
bad case:
name char(32) default null
age int not null
good case:
age int not null default 0
♦ 不在数据库里存
3 索引类
♦ 谨慎合理使用索引
改善查询、减慢更新
索引一定不是越多越好(能不加就不加,要加的一定得加)
覆盖记录条数过多不适合建索引,例如“性别”
♦ 字符字段必须建前缀索引
♦ 不在索引做列运算
bad case:
select id where age +1 = 10;
♦ innodb 主键合理使用自增列
主键建立聚簇索引
主键不应该被修改
字符串不应该做主键
如果不指定主键,innodb会使用唯一且非空值索引代替
♦ 不用外键,请由程序保证约束
4 sql类
♦ sql语句尽可能简单
一条sql只能在一个cpu运算
大语句拆小语句,减少锁时间
一条大sql可以堵死整个库
♦ 简单的事务
事务时间尽可能短
bad case:
上传事务
♦ 避免使用触发器,用户自定义函数,请由程序取而代之
♦ 不用select
消耗cpu,io,内存,带宽
这种程序不具有扩展性
♦ OR改写为IN()
♦ OR改写为UNION
PS:最新的mysql内核已经进行了相关优化
♦ limit高效分页
limit越大,效率越低
select id from t limit 10000, 10;
应该改为 =>
select id from t where id > 10000 limit 10;
♦ 使用union all替代union,union有去重开销
♦ 尽量不用连接join
♦ 务必请使用“同类型”进行比较,否则可能全表扫面
♦ 打散批量更新
♦ 使用新能分析工具
show profile;
mysqlsla;
mysqldumpslow;
explain;
show slow log;
show processlist;
show query_response_time(percona)
大数据是指以多元形式,自许多来源搜集而来的庞大数据组,往往具有实时性。在企业对企业销售的情况下,这些数据可能得自社交网络、电子商务网站、顾客来访纪录,还有许多其他来源。这些数据,并非公司顾客关系管理数据库的常态数据组。从技术上看,大数据与云计算的关系就像一枚硬币的正反面一样密不可分。大数据必然无法用单台的计算机进行处理,必须采用分布式计算架构。它的特色在于对海量数据的挖掘,但它必须依托云计算的分布式处理、分布式数据库、云存储和/或虚拟化技术。大数据的意义是由人类日益普及的网络行为所伴生的,受到相关部门、企业采集的,蕴含数据生产者真实意图、喜好的,非传统结构和意义的数据 。
在Oracle数据库中,使用大量数据的视图来更新另一个表可能会导致性能问题。视图是一个虚拟表,它是从一个或多个基础表根据查询语句生成的。因此,当你查询一个包含百万级数据的视图时,实际上是在查询底层的表,这可能导致查询速度变慢,尤其是当涉及到多个大表和复杂的连接条件时。
客户反馈说不合理,不能查询视图来更新,这个说法并不完全正确。在Oracle中,你可以通过视图来更新基础表,但是需要满足以下条件:
视图是可更新的。这意味着视图必须满足一定的要求,如不能包含聚合函数、distinct关键字等。
视图的更新 *** 作不会影响到其他表,导致数据不一致。
然而,视图更新 *** 作可能会导致性能问题,因为视图查询的底层表可能很大。在你的情况下,如果视图是可更新的,并且在性能上可接受,那么可以考虑继续使用视图进行更新。否则,你可以考虑以下几种方法来优化这个过程:
对视图进行优化。检查底层查询是否可以进行优化,例如使用更有效的连接条件、索引等。
使用物化视图。物化视图是一个实际的表,它存储了视图的数据。与普通视图相比,物化视图可以大大提高查询性能,因为数据已经被计算和存储在物化视图中。
分批更新。将数据分成较小的批次进行处理,可以减轻数据库的压力,提高性能。
总之,通过视图来更新表并不一定不合理,但是需要考虑视图的可更新性和性能。在实际 *** 作中,应根据具体情况进行权衡,并尽量采用最优的方法来提高性能。
…………
回复:
即使您的表不是视图的基础表,查询百万级的视图来更新表也可能会导致性能问题。这是因为视图查询的底层表可能很大,可能需要执行大量的IO *** 作和计算来获取所需的数据。因此,即使您的表不是视图的基础表,使用视图来更新表也可能会导致性能问题。
如果您只是需要通过视图查询数据而不更新数据,也可能会受到相同的性能问题。如果您的查询涉及到大量的数据和复杂的连接条件,那么查询性能可能会很低。这也可能会影响到其他用户的查询 *** 作。
如果视图不能用于查询更新,您可以要求提供视图中的基础表,并使用基础表进行查询和更新 *** 作。这将消除使用视图时可能遇到的性能问题,因为您可以直接查询和更新基础表。不过,在使用基础表之前,您需要确保查询和更新 *** 作不会影响到其他表的数据完整性。
以上就是关于mysql怎样导入百万级数据全部的内容,包括:mysql怎样导入百万级数据、wordpress百万级数据如何优化数据库、投融界百万级大数据库指的是什么等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!
欢迎分享,转载请注明来源:内存溢出
微信扫一扫
支付宝扫一扫
评论列表(0条)