随笔-102 文章-0 评论-83
# [PostgreSQL删除重复数据](http://www.cnblogs.com/mchina/archive/2013/04/15/3022086.html)
去重的方法一般是找到重复数据中的一条,以某一唯一条件去掉其他重复值。
Oracle 去重的方法很多,常用的是根据 rowid 进行去重。
PostgreSQL 库如何去除单表重复数据呢?可以通过 ctid 进行,下面是实验过程。
**一、创建测试表**
~~~
david=# create table emp (
david(# id int,
david(# name varchar);
CREATE TABLE
david=#
~~~
**二、插入测试数据**
[![](https://box.kancloud.cn/2015-10-30_5632e1c360860.gif)]( "复制代码")
~~~
david=# insert into emp values (1, 'david');
INSERT 0 1
david=# insert into emp values (1, 'david');
INSERT 0 1
david=# insert into emp values (1, 'david');
INSERT 0 1
david=# insert into emp values (2, 'sandy');
INSERT 0 1
david=# insert into emp values (2, 'sandy');
INSERT 0 1
david=# insert into emp values (3, 'renee');
INSERT 0 1
david=# insert into emp values (4, 'jack');
INSERT 0 1
david=# insert into emp values (5, 'rose');
INSERT 0 1
david=#
~~~
[![](https://box.kancloud.cn/2015-10-30_5632e1c36e7e9.gif)]( "复制代码")
**三、查询初始化数据**
[![](https://box.kancloud.cn/2015-10-30_5632e1c37c05f.gif)]( "复制代码")
~~~
david=# select ctid, * from emp;
ctid | id | name
-------+----+-------
(0,1) | 1 | david
(0,2) | 1 | david
(0,3) | 1 | david
(0,4) | 2 | sandy
(0,5) | 2 | sandy
(0,6) | 3 | renee
(0,7) | 4 | jack
(0,8) | 5 | rose
(8 rows)
david=#
~~~
[![](https://box.kancloud.cn/2015-10-30_5632e1c388ac3.gif)]( "复制代码")
查询重复数据数
[![](https://box.kancloud.cn/2015-10-30_5632e1c396640.gif)]( "复制代码")
~~~
david=# select distinct id, count(*) from emp group by id having count(*) > 1;
id | count
----+-------
1 | 3
2 | 2
(2 rows)
david=#
~~~
[![](https://box.kancloud.cn/2015-10-30_5632e1c3a335b.gif)]( "复制代码")
查询出 id 为1的记录有3条,id 为2的记录有2条。
**四、查询要保留的数据**
以 min(ctid) 或 max(ctid) 为准。
[![](https://box.kancloud.cn/2015-10-30_5632e1c3af5fa.gif)]( "复制代码")
~~~
david=# select ctid, * from emp where ctid in (select min(ctid) from emp group by id);
ctid | id | name
-------+----+-------
(0,1) | 1 | david
(0,4) | 2 | sandy
(0,6) | 3 | renee
(0,7) | 4 | jack
(0,8) | 5 | rose
(5 rows)
david=#
~~~
[![](https://box.kancloud.cn/2015-10-30_5632e1c3bc67d.gif)]( "复制代码")
**五、删除重复数据**
~~~
david=# delete from emp where ctid not in (select min(ctid) from emp group by id);
DELETE 3
david=#
~~~
**六、查看最后结果**
[![](https://box.kancloud.cn/2015-10-30_5632e1c3c7a2e.gif)]( "复制代码")
~~~
david=# select ctid, * from emp;
ctid | id | name
-------+----+-------
(0,1) | 1 | david
(0,4) | 2 | sandy
(0,6) | 3 | renee
(0,7) | 4 | jack
(0,8) | 5 | rose
(5 rows)
david=#
~~~
[![](https://box.kancloud.cn/2015-10-30_5632e1c3d4fd1.gif)]( "复制代码")
说明:如果表中已经有标明唯一的序列主键值,可以把该值替换上述的ctid直接删除。
**七、其他方法**
也可以使用以下SQL删除重复数据。
[![](https://box.kancloud.cn/2015-10-30_5632e1c3e4ad7.gif)]( "复制代码")
~~~
david=# delete from emp a
david-# where a.ctid <>
david-# (
david(# select min(b.ctid) from emp b
david(# where a.id = b.id
david(# );
DELETE 3
david=#
~~~
[![](https://box.kancloud.cn/2015-10-30_5632e1c3f1c21.gif)]( "复制代码")
说明:在表数据量较大的情况下,这种删除方法效率很高。
分类: [Postgresql](http://www.cnblogs.com/mchina/category/381458.html)
标签: [postgresql](http://www.cnblogs.com/mchina/tag/postgresql/), [删除重复数据](http://www.cnblogs.com/mchina/tag/删除重复数据/)
绿色通道: [好文要顶]()[关注我]()[收藏该文]()[与我联系](http://space.cnblogs.com/msg/send/David_Tang)[![](https://box.kancloud.cn/2015-10-30_5632e1c40cc1a.png)]( "分享至新浪微博")
[![](https://box.kancloud.cn/2015-10-30_5632e1c41b045.jpg)](http://home.cnblogs.com/u/mchina/)
[David_Tang](http://home.cnblogs.com/u/mchina/)
[关注 - 1](http://home.cnblogs.com/u/mchina/followees)
[粉丝 - 116](http://home.cnblogs.com/u/mchina/followers)
[+加关注]()
0
0
(请您对文章做出评价)
[« ](http://www.cnblogs.com/mchina/archive/2013/04/15/3010418.html) 上一篇:[PostgreSQL的时间/日期函数使用](http://www.cnblogs.com/mchina/archive/2013/04/15/3010418.html "发布于2013-04-15 11:56")
[» ](http://www.cnblogs.com/mchina/archive/2013/04/19/3028573.html) 下一篇:[PostgreSQL 查看数据库,索引,表,表空间大小](http://www.cnblogs.com/mchina/archive/2013/04/19/3028573.html "发布于2013-04-19 09:56")
posted @ 2013-04-15 14:47[David_Tang](http://www.cnblogs.com/mchina/) 阅读(89) 评论(0) [编辑](http://www.cnblogs.com/mchina/admin/EditPosts.aspx?postid=3022086)[收藏](#)
![](https://box.kancloud.cn/2015-10-30_5632e1c425f4c.jpg)
Copyright ©2013 David_Tang
- 数据表
- 模式Schema
- 表的继承和分区
- 常用数据类型
- 函数和操作符-一
- 函数和操作符-二
- 函数和操作符-三
- 索引
- 事物隔离
- 性能提升技巧
- 服务器配置
- 角色和权限
- 数据库管理
- 数据库维护
- 系统表
- 系统视图
- SQL语言函数
- PL-pgSQL过程语言
- PostgreSQL 序列(SEQUENCE)
- PostgreSQL的时间-日期函数使用
- PostgreSQL 查看数据库,索引,表,表空间大小
- 用以查询某表的详细 包含表字段的注释信息
- PostgreSQL 系统表查看系统信息
- postgre存储过程简单实用方法
- PostgreSQL实用日常维护SQL
- PostgreSQL的时间函数使用整理
- 命令
- pg_ctl控制服务器
- initdb 初始化数据库簇
- createdb创建数据库
- dropdb 删除数据库
- createuser创建用户
- dropuser 删除用户
- psql交互式工具
- psql命令手册
- pg_dump 数据库转储
- pg_restore恢复数据库
- vacuumdb 清理优化数据库
- reindexdb 数据库重创索引
- createlang 安装过程语言
- droplang 删除过程语言
- pg_upgrade 升级数据库簇
- 调试存储过程
- 客户端命令-一
- 客户端命令-二
- 使用技巧
- PostgreSQL删除重复数据
- postgresql 小技巧
- PostgreSQL的10进制与16进制互转
- PostgreSQL的汉字转拼音
- Postgres重复数据的更新一例
- PostgreSQL使用with一例
- PostgreSQL在函数内返回returning
- PostgreSQL中的group_concat使用
- PostgreSQL数据库切割和组合字段函数
- postgresql重复数据的删除
- PostgreSQL的递归查询(with recursive)
- PostgreSQL函数如何返回数据集
- PostgreSQL分区表(Table Partitioning)应用 - David_Tang - 博客园
- PostgreSQL: function 返回结果集多列和单列的例子
- 利用pgAgent创建定时任务
- 浅谈 PostgreSQL 类型转换类似Oracle
- postgresql在windows(包括win7)下的安装配置
- PostgreSQL简介、安装、用户管理、启动关闭、创建删除数据库 (2010-11-08 12-52-51)转载▼标签: 杂谈分类: PostgreSQL
- PostgreSQL的generate_series函数应用
- PostgreSQL 8.3.1 全文检索(Full Text Search)
- postgresql record 使用
- 备份恢复
- PostgreSQL基于时间点恢复(PITR)
- Postgresql基于时间点恢复PITR案例(二)
- Postgres逻辑备份脚本
- Postgres invalid command \N数据恢复处理