首页

如何去除数据表中的重复数据_MySQL

通常情况下，一个我们在做一个产品的时候，一开始可能由于设计考虑不周或者程序写的不够严谨，某个字段上的值产生重复了，但是又必须去掉，这个时候就稍微麻烦了一点，直接加一个 unique key 肯定是不行了，因为会报错。
现在，我们来采用一种变通的办法，不过可能会丢失一些数据 :)
在这里，我们设定一个表，其结构如下：
mysql> desc `user`;
+-------+------------------+------+-----+---------+----------------+
| field | type             | null | key | default | extra          |
+-------+------------------+------+-----+---------+----------------+
| id    | int(10) unsigned | no   | pri | null    | auto_increment |
| name | char(10)         | no   |     |         |                |
| extra | char(10)         | no   |     |         |                |
+-------+------------------+------+-----+---------+----------------+
原来表中的数据假定有以下几条：
mysql> select * from `user`;
+----+-------+--------+
| id | name | extra |
+----+-------+--------+
| 1 | user1 | user1 |
| 2 | user2 | user2 |
| 3 | user3 | user3 |
| 4 | user4 | user4 |
| 5 | user5 | user5 |
| 6 | user3 | user6 |
| 7 | user6 | user7 |
| 8 | user2 | user8 |
| 9 | user2 | user9 |
| 10 | user6 | user10 |
+----+-------+--------+
1、将原来的数据导出
mysql>select * into outfile '/tmp/user.txt' from `user`;
2、清空数据表
mysql>truncate table `user`;
3、创建唯一索引，并且修改 `name` 字段的类型为 binary char 区分大小写
mysql> alter table `user` modify `name` char(10) binary not null default '';
mysql> alter table `user` add unique key ( `name` );
现在来看看新的表结构：
mysql> desc user;
+-------+------------------+------+-----+---------+----------------+
| field | type             | null | key | default | extra          |
+-------+------------------+------+-----+---------+----------------+
| id    | int(10) unsigned | no   | pri | null    | auto_increment |
| name | char(10)         | no   | uni |         |                |
| extra | char(10)         | no   |     |         |                |
+-------+------------------+------+-----+---------+----------------+
4、把数据导回去，在这里，有两种选择：新的重复记录替换旧的记录，只保留最新的记录或者是新的记录略过，只保留最旧的记录
mysql> load data infile '/tmp/user.txt' replace into table `user`;
query ok, 10 rows affected (0.00 sec)
records: 8 deleted: 2 skipped: 0 warnings: 0
mysql> select * from user;
+----+-------+--------+
| id | name | extra |
+----+-------+--------+
| 1 | user1 | user1 |
| 8 | user2 | user8 |
| 6 | user3 | user6 |
| 4 | user4 | user4 |
| 5 | user5 | user5 |
| 7 | user6 | user7 |
| 9 | user2 | user9 |
| 10 | user6 | user10 |
+----+-------+--------+
上面是采用 replace 的方式，可以看到，导入过程中删掉了两条数据，结果验证确实是新的重复记录替换旧的记录，只保留最新的记录。
现在，来看看用 ignore 的方式：
mysql> load data infile '/tmp/user.txt' ignore into table `user`;
query ok, 6 rows affected (0.01 sec)
records: 8 deleted: 0 skipped: 2 warnings: 0
mysql> select * from user;
+----+-------+--------+
| id | name | extra |
+----+-------+--------+
| 1 | user1 | user1 |
| 2 | user2 | user2 |
| 3 | user3 | user3 |
| 4 | user4 | user4 |
| 5 | user5 | user5 |
| 7 | user6 | user7 |
| 9 | user2 | user9 |
| 10 | user6 | user10 |
+----+-------+--------+
看到了吧，确实是新的记录略过，只保留最旧的记录。

其它类似信息

推荐信息