删除全部重复数据,一条不留删除表中删除重复数据,仅保留一条开始删除重复数据,仅留一条在公司加班到八点是背景。加班的原因是上网,解决网上数据库数据重复的问题,找到程序的bug,
删除全部重复数据,一条不留删除表中删除重复数据,仅保留一条开始删除重复数据,仅留一条
在公司加班到八点是背景。
加班的原因是上网,解决网上数据库数据重复的问题,找到程序的bug,很容易解决。有点问题的是在线修正重复数据。
网上库有6个表有重复数据,其中2个表比较大,一个是96万+,一个是30万+。因为他们之前处理过同样的问题,所以直接带了上一个Python重复数据删除脚本。脚本很简单,就是连接数据库,找出重复数据,循环删除。
Emmmm,但是这个效率真的太低了,每秒一张,重复的数据大概20000+,估计时间大概8个小时。。。
一味的依赖前人的东西而不是自己思考是有问题的!总想着以前怎么可能,现在怎么不可能,这也是有问题的!发现自己最近状态不对,失去了探索求知的欲望。今天,我是一个警钟,我觉得很失落。
让我们言归正传。下面是重复数据消除步骤的详细描述。
CREATE TABLE `animal` ( `id` int(11) NOT NULL AUTO_INCREMENT, `name` varchar(20) DEFAULT NULL, `age` int(11) DEFAULT NULL, PRIMARY KEY (`id`)) ENGINE=InnoDB AUTO_INCREMENT=1 DEFAULT CHARSET=utf8 COLLATE=utf8_bin;INSERT INTO `pilipa_dds`.`student` (`id`, `name`, `age`) VALUES ('1', 'cat', '12');INSERT INTO `pilipa_dds`.`student` (`id`, `name`, `age`) VALUES ('2', 'dog', '13');INSERT INTO `pilipa_dds`.`student` (`id`, `name`, `age`) VALUES ('3', 'camel', '25');INSERT INTO `pilipa_dds`.`student` (`id`, `name`, `age`) VALUES ('4', 'cat', '32');INSERT INTO `pilipa_dds`.`student` (`id`, `name`, `age`) VALUES ('5', 'dog', '42');
目标:我们想删除同名的数据。
先看看哪些数据是重复的。
SELECT name,count( 1 )FROM studentGROUP BYNAMEHAVING count( 1 ) > 1;
输出:
姓名计数(1)猫2狗2
猫名和狗名的数据重复,每个重复数据有两个;
Select * From 表 Where 重复字段 In (Select 重复字段 From 表 Group By 重复字段 Having Count(1)>1)
删除所有重复的数据,不留下任何人。直接删除会报错。
DELETEFROM studentWHERE NAME IN ( SELECT NAME FROM student GROUP BY NAMEHAVING count( 1 ) > 1)
错误报告:
1093 –你可以’t指定目标表‘学生’对于FROM子句中的更新,时间:0.016000秒
原因是:这个表在更新的同时被查询,可以理解为死锁。Mysql不支持这种更新查询同一个表的操作。
解决方法:查询几列要更新的数据作为第三方表,然后过滤更新。
DELETEFROM studentWHERE NAME IN ( SELECT t.NAMEFROM ( SELECT NAME FROM student GROUP BY NAME HAVING count( 1 ) > 1 ) t)
删除表中的重复数据,只留下一个。在删除之前,我们可以检查我们想要删除什么样的重复数据。
SELECT *FROM studentWHERE id NOT IN ( SELECT t.id FROM ( SELECT MIN( id ) AS id FROM student GROUP BY `name` ) t )
你什么意思?先按名字分组,找出id最小的数据,就是我们要留下的火种。然后找出id不在里面的重复数据,这就是我们要删除的。
开始删除重复数据,只留下一个。很简单,把选择改成删除就行了。
DELETEFROM studentWHERE id NOT IN ( SELECT t.id FROM ( SELECT MIN( id ) AS id FROM student GROUP BY `name` ) t )
90万+的表执行起来超级快。
都搞定了~
–END & # 8211