今天在协助开发导表数据时发现有重复的数据,需要去重。去重的方法一般是找到重复数据中的一条,以某一唯一条件去掉其他重复值。oracle中常用的是根据rowid来做,PG中也有一个唯一字段ctid,也可以根据此来做,如果表里设置了oid,数据量不大的情况下也可以。当然如果表中有唯一的序列值,就更方便了。下面是以ctid来删除重复数据的测试。 测试数据
~~~
postgres=# create table test(id int,name varchar);
CREATE TABLE
postgres=# insert into test values (1,'kenyon');
INSERT 0 1
postgres=# insert into test values (1,'kenyon');
INSERT 0 1
postgres=# insert into test values (1,'kenyon');
INSERT 0 1
postgres=# insert into test values (2,'kenyon_test');
INSERT 0 1
postgres=# insert into test values (2,'kenyon_test');
INSERT 0 1
postgres=# insert into test values (3,'test');
INSERT 0 1
postgres=# insert into test values (5,'test');
INSERT 0 1
postgres=# insert into test values (5,'jackson');
INSERT 0 1
postgres=# select ctid,* from test;
ctid | id | name
-------+----+-------------
(0,1) | 1 | kenyon
(0,2) | 1 | kenyon
(0,3) | 1 | kenyon
(0,4) | 2 | kenyon_test
(0,5) | 2 | kenyon_test
(0,6) | 3 | test
(0,7) | 5 | test
(0,8) | 5 | jackson
(8 rows)
~~~
查询要保留的数据,以min(ctid)或max(ctid)为准
~~~
postgres=# select ctid,* from test where ctid in (select min(ctid) from test group by id);
ctid | id | name
-------+----+-------------
(0,1) | 1 | kenyon
(0,4) | 2 | kenyon_test
(0,6) | 3 | test
(0,7) | 5 | test
(4 rows)
~~~
删除重复数据,查看最后结果
~~~
postgres=# delete from test where ctid not in (select min(ctid) from test group by id);
DELETE 4
postgres=# select ctid,* from test;
ctid | id | name
-------+----+-------------
(0,1) | 1 | kenyon
(0,4) | 2 | kenyon_test
(0,6) | 3 | test
(0,7) | 5 | test
(4 rows)
~~~
如果表中已经有标明唯一的序列主键值,可以把该值替换上述的ctid直接删除。
- 数据表
- 模式Schema
- 表的继承和分区
- 常用数据类型
- 函数和操作符-一
- 函数和操作符-二
- 函数和操作符-三
- 索引
- 事物隔离
- 性能提升技巧
- 服务器配置
- 角色和权限
- 数据库管理
- 数据库维护
- 系统表
- 系统视图
- SQL语言函数
- PL-pgSQL过程语言
- PostgreSQL 序列(SEQUENCE)
- PostgreSQL的时间-日期函数使用
- PostgreSQL 查看数据库,索引,表,表空间大小
- 用以查询某表的详细 包含表字段的注释信息
- PostgreSQL 系统表查看系统信息
- postgre存储过程简单实用方法
- PostgreSQL实用日常维护SQL
- PostgreSQL的时间函数使用整理
- 命令
- pg_ctl控制服务器
- initdb 初始化数据库簇
- createdb创建数据库
- dropdb 删除数据库
- createuser创建用户
- dropuser 删除用户
- psql交互式工具
- psql命令手册
- pg_dump 数据库转储
- pg_restore恢复数据库
- vacuumdb 清理优化数据库
- reindexdb 数据库重创索引
- createlang 安装过程语言
- droplang 删除过程语言
- pg_upgrade 升级数据库簇
- 调试存储过程
- 客户端命令-一
- 客户端命令-二
- 使用技巧
- PostgreSQL删除重复数据
- postgresql 小技巧
- PostgreSQL的10进制与16进制互转
- PostgreSQL的汉字转拼音
- Postgres重复数据的更新一例
- PostgreSQL使用with一例
- PostgreSQL在函数内返回returning
- PostgreSQL中的group_concat使用
- PostgreSQL数据库切割和组合字段函数
- postgresql重复数据的删除
- PostgreSQL的递归查询(with recursive)
- PostgreSQL函数如何返回数据集
- PostgreSQL分区表(Table Partitioning)应用 - David_Tang - 博客园
- PostgreSQL: function 返回结果集多列和单列的例子
- 利用pgAgent创建定时任务
- 浅谈 PostgreSQL 类型转换类似Oracle
- postgresql在windows(包括win7)下的安装配置
- PostgreSQL简介、安装、用户管理、启动关闭、创建删除数据库 (2010-11-08 12-52-51)转载▼标签: 杂谈分类: PostgreSQL
- PostgreSQL的generate_series函数应用
- PostgreSQL 8.3.1 全文检索(Full Text Search)
- postgresql record 使用
- 备份恢复
- PostgreSQL基于时间点恢复(PITR)
- Postgresql基于时间点恢复PITR案例(二)
- Postgres逻辑备份脚本
- Postgres invalid command \N数据恢复处理