怎么删除重复的Mysql数据?

怎么删除重复的Mysql数据?,第1张

MYSQL里有五百万数据,但大多是重复的,真实的就180万,于是想怎样把这些重复的数据搞出来,在网上找了一圈,好多是用NOT IN这样的代码,这样效率很低,自己琢磨组合了一下,找到一个高效的处理方式,用这个方式,五百万数据,十来分钟就全部去除重复了,请各位参考。

第一步:从500万数据表data_content_152里提取出不重复的字段SFZHM对应的ID字段到TMP3表

1create table tmp3 as select min(id) as col1 from data_content_152 group by SFZHM

第二步:创建新表RES

1234CREATE TABLE `res` (`id` int(11),`sfz` char(20)) ENGINE=MyISAM

第三步:把TMP3表ID对应到data_content_152里需要提取的数据添加到RES表的SFZ字段

1INSERT INTO res (sfz) SELECT sfzhm FROM data_content_152,tmp3 where data_content_152.id=tmp3.col1

至此,就在MYSQL里实现了,给数据表data_content_152完全删除重复数据,把去重复后的数据导入到RES表。

mysql数据表中有多条重复数据记录,现在想删除删除部分重复数据,保留最后一条更新或者插入的数据。

以学生表为例,我们创建一个简单的数据表来做实验:

往表里面插入一些实验数据:

我们可以根据分组查询先将重复数据查询出来,同时也可以获取到最后的更新时间,然后再与原表联表查询小于最大时间的数据,将查询出来的数据删除。

------先来慢慢消化-------

在做删除前,我们可以先看看有哪些数据是有重复的:

可以看到张三,李四,王五的数据是有重复的,赵六没有重复,下面我们查找最后更新的记录。

可以看到,最后更新的数据为15:57:46的记录没有在结果中。

可以看到重复记录已经被清理掉。

假如有两行记录是完全一样的,这个方法就不可行了,往表里面在跑一次数据插入:

执行删除计划:

创建一个临时表存放最后插入的一条数据(包含重复与没有重复的),然后清空原表,再将临时表的数据复制到原表中,最后把临时表删除。

这个很好理解,相当于ctrl+c,ctrl+v的 *** 作,数据表如下:

这样数据去重就完成了,需要注意的是, 如果表数据量很大,注意在group by 里面的字段建立索引,同时,生产环境注意好先进行数据备份 *** 作 。


欢迎分享,转载请注明来源:内存溢出

原文地址:https://54852.com/zaji/6159815.html

(0)
打赏 微信扫一扫微信扫一扫 支付宝扫一扫支付宝扫一扫
上一篇 2023-03-16
下一篇2023-03-16

发表评论

登录后才能评论

评论列表(0条)

    保存