在SQL中删除重复记录(多种方法)


学习sql有一段时间了,发现在我建了一个用来测试的表(没有建索引)中出现了许多的重复记录。 后来总结了一些删除重复记录的方法,在Oracle中,可以通过唯一rowid实现删除重复记录;还可以建临时表来实现...这个只提到其中的几种简单实用的方法,希望可以和大家分享(以表employee为例)。

SQL> ** desc ** employee

Name Null? Type
----------------------------------------- -------- ------------------

emp_id NUMBER(10)
emp_name VARCHAR2(20)

salary NUMBER(10,2)

可以通过下面的语句查询重复的记录:

SQL> ** select ** * ** from ** employee ;

EMP_ID EMP_NAME SALARY

---------- ---------------------------------------- ----------

1 sunshine 10000

1 sunshine 10000

2 semon 20000

2 semon 20000

3 xyz 30000

2 semon 20000

SQL> ** select ** ** distinct ** * ** from ** employee ;

EMP_ID EMP_NAME SALARY

---------- ---------------------------------------- ----------

1 sunshine 10000

2 semon 20000

3 xyz 30000

SQL> ** select ** * ** from ** employee ** group ** ** by ** emp_id , emp_name , salary ** having ** ** count ** (*)> 1

EMP_ID EMP_NAME SALARY

---------- ---------------------------------------- ----------

1 sunshine 10000

2 semon 20000

SQL> ** select ** * ** from ** employee e1

** where ** ** rowid ** ** in ** ( ** select ** ** max ** ( ** rowid ** ) ** from ** employe e2
** where ** e1.emp_id = e2.emp_id ** and **

e1.emp_name = e2.emp_name ** and ** e1.salary = e2.salary );

EMP_ID EMP_NAME SALARY

---------- ---------------------------------------- ----------

1 sunshine 10000

3 xyz 30000

2 semon 20000

2. 删除的几种方法:

( 1 )通过建立临时表来实现

SQL> ** create table temp_emp as (select distinct * from employee) **

SQL> ** truncate ** ** table ** employee ; ( 清空 employee 表的数据)

SQL> ** insert ** ** into ** employee ** select ** * ** from ** temp_emp ; ( 再将临时表里的内容插回来)

( 2 )通过唯一 rowid 实现删除重复记录 . 在 Oracle 中,每一条记录都有一个 rowid , rowid 在整个数据库中是唯一的, rowid 确定了每条记录是在 Oracle 中的哪一个数据文件、块、行上。在重复的记录中,可能所有列的内容都相同,但 rowid 不会相同,所以只要确定出重复记录中那些具有最大或最小 rowid 的就可以了,其余全部删除。

SQL> ** delete ** ** from ** employee e2 ** where ** ** rowid ** ** not ** ** in ** (
** select ** ** max ** ( e1. ** rowid ** ) ** from ** employee e1 where **

**

** ** e1.emp_id = e2.emp_id ** and ** e1.emp_name = e2.emp_name ** and ** e1.salary = e2.salary ); -- 这里用 min(rowid) 也可以。

SQL> ** delete ** ** from ** employee e2 ** where ** ** rowid ** <(
** select ** ** max ** ( e1. ** rowid ** ) ** from ** employee e1 ** where **
e1.emp_id = e2.emp_id ** and ** e1.emp_name = e2.emp_name ** and **

e1.salary = e2.salary );

( 3 )也是通过 rowid ,但效率更高。

SQL> ** delete ** ** from ** employee ** where ** ** rowid ** ** not ** ** in ** (
** select ** ** max ** ( t1. ** rowid ** ) ** from ** employee t1 ** group ** ** by

**

** ** t1.emp_id,t1.emp_name,t1.salary );-- 这里用 min(rowid) 也可以。

EMP_ID EMP_NAME SALARY

---------- ---------------------------------------- ----------

1 sunshine 10000

3 xyz 30000

2 semon 20000

SQL> ** desc ** employee

Name Null? Type
----------------------------------------- -------- ------------------

emp_id NUMBER(10)
emp_name VARCHAR2(20)

salary NUMBER(10,2)

可以通过下面的语句查询重复的记录:

SQL> ** select ** * ** from ** employee ;

EMP_ID EMP_NAME SALARY

---------- ---------------------------------------- ----------

1 sunshine 10000

1 sunshine 10000

2 semon 20000

2 semon 20000

3 xyz 30000

2 semon 20000

SQL> ** select ** ** distinct ** * ** from ** employee ;

EMP_ID EMP_NAME SALARY

---------- ---------------------------------------- ----------

1 sunshine 10000

2 semon 20000

3 xyz 30000

SQL> ** select ** * ** from ** employee ** group ** ** by ** emp_id , emp_name , salary ** having ** ** count ** (*)> 1

EMP_ID EMP_NAME SALARY

---------- ---------------------------------------- ----------

&nbsp

Published At
Categories with 数据库类
Tagged with
comments powered by Disqus