4-2 Mongodb备份恢复到任意时间点 · 运维工作笔记

#### **描述：** ### 根据技术反馈，上午有人误操作删除了线上mongodb表数据，用户已反馈到客服，现在需要给用户恢复数据。 #### 首先要确定被删除数据的数据库架构是什么模式 **1.1、单点：** 是否有备份，有备份情况下，启动一个实例将，将备份数据导入到新实例查找新实例是否有被删除掉的数据，使用mongodump导出数据，再导入到源被删除数据实例，恢复数据。详细见本章下边内容：2.2备份和 2.5恢复单节点mongodb没有oplog的概念，如果没有备份，数据就会出现丢失，正式环境尽量使用复制集架构。 **1.2、复制集：** 1.2.1、可以采用延迟节点形式，一PRIMARY节点，两SECONDARY其中一个做延迟节点，比如我们延迟节点延迟8小时，我们删除数据要在8小时内发现，并恢复（保证oplog不被覆盖情况下） 1.2.2、全量+增量：根据数据量和重要性，选择天全量备份+小时增量oplog备份，或者周全量备份+天增量oplog备份。 ![](images/screenshot_1584070305356.png) **1.3、分片集群** 分片集群也是由多个复制集组成，备份方式可以按照复制集备份策略 ### 2、**复制集架构模拟误删除：** 我们采用全量备份+oplog增量备份方式 **2.1、我们插入1000条数据：for (var i=0;i<1000;i++){ db.user.save({"userid":i}) }** ``` [root@10-1-1-159 ~]# /data/mongodb3.6.9/bin/mongo 10.1.1.159:27020 rs02:PRIMARY> use jia_test switched to db jia_test rs02:PRIMARY> for (var i=0;i<1000;i++){ db.user.save({"userid":i}) } rs02:PRIMARY> db.user.count() 1000 rs02:PRIMARY> db.user.find() { "_id" : ObjectId("5e69f820ce1bb2285a21a343"), "userid" : 0 } { "_id" : ObjectId("5e69f820ce1bb2285a21a344"), "userid" : 1 } { "_id" : ObjectId("5e69f820ce1bb2285a21a345"), "userid" : 2 } { "_id" : ObjectId("5e69f820ce1bb2285a21a346"), "userid" : 3 } ``` **2.2、我们做个全量备份：** ``` [root@10-1-1-159 ~]# /data/mongodb3.6.9/bin/mongodump -h 10.1.1.159:27020 -d jia_test -o /root/ 2020-03-12T16:52:37.418+0800 writing jia_test.user to 2020-03-12T16:52:37.421+0800 done dumping jia_test.user (1000 documents) ``` **2.3、第一种情况：** 如果我们在备份后的几个小时进行删除操作，只要把数据导入到新的实例就能找回数据，这样太简单了。前提是我们有备份才能恢复。 **2.4、我们继续第二种情况** 我们继续插入数据： ``` [root@10-1-1-159 ~]# /data/mongodb3.6.9/bin/mongo 10.1.1.159:27020 rs02:PRIMARY> use jia_test rs02:PRIMARY> db.user.insert({"userid" :1000}) WriteResult({ "nInserted" : 1 }) rs02:PRIMARY> db.user.insert({"userid" :1001}) WriteResult({ "nInserted" : 1 }) rs02:PRIMARY> db.user.insert({"userid" :1002}) WriteResult({ "nInserted" : 1 }) rs02:PRIMARY> db.user.insert({"userid" :1003}) WriteResult({ "nInserted" : 1 }) rs02:PRIMARY> db.user.insert({"userid" :1004}) WriteResult({ "nInserted" : 1 }) rs02:PRIMARY> db.user.insert({"userid" :1005}) #1、我们又插入了三条数据 WriteResult({ "nInserted" : 1 }) rs02:PRIMARY> db.user.remove({"userid" :1003}) #2、我们删除了一条数据 WriteResult({ "nRemoved" : 1 }) rs02:PRIMARY> db.user.insert({"userid" :1006}) #3、我们又插入一条数据 WriteResult({ "nInserted" : 1 }) rs02:PRIMARY> ``` >## 我们来恢复"userid" :1003 的这条数据，我们需要恢复到删除前一刻，也就是恢复到执行db.user.remove({"userid" :1003})这个时间点之前。 **2.5、我们创建一个新的副本集实例，将全量备份导入** ``` [root@10-1-1-159 ~]# /data/mongodb3.6.9/bin/mongorestore -h 10.1.1.77:27010 -d jia_test /root/jia_test/ 2020-03-12T17:03:27.054+0800 the --db and --collection args should only be used when restoring from a BSON file. Other uses are deprecated and will not exist in the future; use --nsInclude instead 2020-03-12T17:03:27.055+0800 building a list of collections to restore from /root/jia_test dir 2020-03-12T17:03:27.056+0800 reading metadata for jia_test.user from /root/jia_test/user.metadata.json 2020-03-12T17:03:27.074+0800 restoring jia_test.user from /root/jia_test/user.bson 2020-03-12T17:03:27.099+0800 no indexes to restore 2020-03-12T17:03:27.099+0800 finished restoring jia_test.user (1000 documents) 2020-03-12T17:03:27.099+0800 done /data/mongodb3.6.9/bin/mongo 10.1.1.77:27010 rs02:PRIMARY> db.user.count() 1000 rs02:PRIMARY> ``` **2.6、导出oplog日志：** ``` ### 首先我们查一下什么时间执行删除操作的、连上执行删除操作的数据实例 [root@10-1-1-159 ~]# /data/mongodb3.6.9/bin/mongo 10.1.1.159:27020 rs02:PRIMARY> use local switched to db local rs02:PRIMARY> db.oplog.rs.find({"op":"d","ns":"jia_test.user"}) #op是操作，d是删除，ns命名空间就是某个库的某个表，oplogs日志解释详见oplog介绍 { "ts" : Timestamp(1584003536, 1), "t" : NumberLong(1), "h" : NumberLong("5476681688775461425"), "v" : 2, "op" : "d", "ns" : "jia_test.user", "ui" : UUID("2527737e-eeea-415b-95de-061b6615a23c"), "wall" : ISODate("2020-03-12T08:58:56.056Z"), "o" : { "_id" : ObjectId("5e69f9b02e42450b5489dd4f") } } rs02:PRIMARY> ``` ### 已知：我们全量备份时间：2020-03-12T16:52:37.421+0800 done dumping jia_test.user (1000 documents) ### 删除时间也知道了，我们需要把全量备份成功的时间，进行一下转换，我们拿到时间戳，尽量在备份时间在提前十分钟，这样我们日志就不会出现缺失，导入重复会自动覆盖。 ![](images/screenshot_1584004718333.png) **我们拿到两个时间戳：** >备份时间戳： 1584002557 >删除时间戳："ts" : Timestamp(1584003536, 1) ### 导出删除数据实例的oplog日志（大于备份时间小于删除时间的这一段） ``` [root@10-1-1-159 ~]# /data/mongodb3.6.9/bin/mongodump -h 10.1.1.159:27020 -d local -c oplog.rs -q '{ts:{$gt:Timestamp(1584002557, 1),$lt: Timestamp(1584003536, 1)},"ns":{"$regex":"jia_test.user"}}' -o . ``` **2.7、oplog导入到新实例：** ``` [root@10-1-1-159 ~]# /data/mongodb3.6.9/bin/mongorestore -h 10.1.1.77:27010 –oplogReplay local/oplog.rs.bson ``` **2.8、连接新恢复实例查看：** ``` [root@10-1-1-77 ~]# /data/mongodb3.6.9/bin/mongo 10.1.1.77:27010 rs02:PRIMARY> use jia_test switched to db jia_test rs02:PRIMARY> db.user.count() 1006 rs02:PRIMARY> db.user.find({"userid":1003}) #查看1003数据存在 { "_id" : ObjectId("5e69f9b02e42450b5489dd4f"), "userid" : 1003 } rs02:PRIMARY> db.user.find({"userid":1006}) #查看1006数据不存在，因为这条数据是在删除之后插入的，我们恢复的时间点是删除之前的。 rs02:PRIMARY> ``` **2.9、老的实例查看：** ``` [root@10-1-1-159 ~]# /data/mongodb3.6.9/bin/mongo 10.1.1.159:27020 rs02:PRIMARY> use jia_test switched to db jia_test rs02:PRIMARY> db.user.count() 1006 rs02:PRIMARY> db.user.find({"userid" :1003}) #1003数据不存在 rs02:PRIMARY> db.user.find({"userid" :1006}) #1006数据存在，删除只要又写入的 { "_id" : ObjectId("5e69f9d42e42450b5489dd52"), "userid" : 1006 } rs02:PRIMARY> ``` **2.10 我们把新实例数据通过导出，导入到线上正式环境就可以了** ### 温馨提示：Mongodb正式业务，至少要使用复制集，不要单点，数据一定要有备份。前段时间某公司删除数据导致损失好几亿， ### **数据不备份运维两行泪**