## 概述
在实际的项目开发与运维过程中,MySQL 常常扮演着业务数据库的核心角色,以其强大的事务处理能力和数据完整性保障,支撑着系统的稳定运行。然而,随着数据量的急剧增长和查询复杂度的不断提升,单一依赖 MySQL 进行高效的数据检索显得日益吃力,尤其是在面对海量数据的复杂查询场景时,性能瓶颈愈发凸显。
为了有效缓解这一挑战,我们通常采用读写分离的策略,将 Elasticsearch(简称 ES)引入作为专门的查询数据库。ES 以其卓越的搜索性能、灵活的数据模式以及强大的可扩展性,成为处理复杂查询需求的理想选择。通过 ES,我们可以实现数据的快速检索与分析,从而大幅提升用户体验和系统响应速度。
在这一过程中,确保 MySQL 数据库与 ES 之间的数据同步成为了至关重要的一环。数据同步不仅关乎数据的实时性和准确性,更是保障系统稳定性和用户体验的基石。因此,我们需要精心设计与实施一套高效、可靠的数据同步方案。
具体而言,数据同步的实现方式多种多样,包括但不限于使用 Logstash、Kafka Connect、Debezium 等工具进行实时数据捕获与传输,或通过定时任务(如 Cron Job)结合 SQL 查询与批量导入的方式实现数据的定期同步。在选择同步方案时,我们需要综合考虑数据的实时性要求、系统架构的复杂度、运维成本以及数据的增量更新特性等因素。
此外,为了确保数据同步的准确性和完整性,我们还需要实施一系列的数据校验和错误处理机制。例如,通过比对同步前后的数据快照,及时发现并纠正数据不一致的问题或通过设置重试和容错机制,确保在数据传输过程中遇到异常情况时能够自动恢复并继续执行。
## 同步方案
### 1. 同步双写
同步双写是一种数据同步策略,它指的是在主数据库(如MySQL)上进行数据修改操作时,同时将这些修改同步写入到ES中。这种策略旨在确保两个数据库之间的数据一致性,并优化系统的读写性能。
![](https://img.kancloud.cn/7e/63/7e63063eb651b04ef4e678102fbb2201_618x793.png)
#### 目标
同步双写是指在进行数据写入操作时,同时向两个或多个数据库写入相同的数据。在MySQL与ES的同步场景中,其主要目的是将MySQL中的业务数据实时同步到ES中,以便利用ES的高效查询能力来应对复杂的查询需求,同时减轻MySQL的查询压力。
#### 实现方式
**直接同步**
在业务代码中,每次对MySQL数据库进行写入操作时,同时执行对ES的写入操作。这种方式简单直接,但可能增加代码的复杂性和出错的风险。
**使用中间件**
利用消息队列(如Kafka)、数据变更捕获工具(如Debezium)或ETL工具(如Logstash)等中间件来捕获MySQL的数据变更事件,并将这些事件转发到ES进行同步。这种方式可以解耦业务代码与数据同步逻辑,提高系统的可扩展性和可维护性。
**触发器与存储过程**
在MySQL中设置触发器或编写存储过程,在数据发生变更时自动触发ES的写入操作。这种方式可以减少业务代码的侵入性,但可能会增加MySQL的负担并影响性能。
#### 优缺点
* **优点**
* 业务逻辑编写简单
* 业务查询实时性高
* **缺点**
* 业务硬编码,有需要写入 MySQL 的地方都需要添加写入 ES 的代码
* 业务代码强耦合度很高
* 存在双写失败丢数据风险
* 双写性能较差,本来 MySQL 的性能不是很高,再加一个 ES,系统的性能必然会下降
#### 应用场景
同步双写策略适用于对数据一致性要求较高且需要优化查询性能的场景。例如,在电商系统中,可以将商品信息、订单数据等存储在MySQL中,同时将这些数据同步到ES中以支持复杂的搜索和分析需求。
### 2. 异步双写
异步双写也是一种数据同步策略,它允许在主数据库(如MySQL)进行数据修改操作时,异步地将这些修改写入到多个数据源(如ES)中。与同步双写相比,异步双写具有降低主数据库写入延迟、提高系统性能以及避免因备库问题而影响主库性能等优点。
![](https://img.kancloud.cn/a8/6a/a86a6a83f432832934aee5ba81dbac98_603x780.png)
#### 优缺点
* **优点**
* 提高系统可用性:即使备库出现问题,也不会影响主库的正常运行和数据写入
* 降低主库写入延迟:由于不需要等待备库确认,主库可以更快地完成写入操作,从而提高系统的整体性能
* 多数据源同步:多源写入之间相互隔离,便于扩展更多的数据源写入
* **缺点**
* 硬编码问题:接入新的数据源需要实现新的消费者代码
* 系统复杂度增加:需要额外引入了消息中间件
* 实时性较低:由于MQ是异步消费模型,用户写入的数据不一定可以马上看到,消息挤压等会造成延时
* 数据一致性风险:由于存在异步处理的时间差,可能会出现主库和备库之间数据暂时不一致的情况。因此,需要采取适当的措施来确保数据的最终一致性。
#### 应用场景
异步双写适用于对数据一致性要求不是特别高但对系统性能要求较高的场景。例如,在电商平台中,可以将用户订单信息、商品库存等关键数据实时同步到主数据库中,同时将一些非关键数据(如用户浏览记录、商品点击量等)异步地同步到备数据库中用于数据分析。这样可以在保证关键数据一致性的同时提高系统的整体性能。
### 3. Logstash同步
Logstash 是一个开源的服务器端数据处理管道,可以同时从多个来源采集数据,转换数据,然后将数据发送到您指定的`存储库`中。在实现 MySQL 数据库和 Elasticsearch 之间的数据同步时,Logstash 可以发挥重要作用。
![](https://img.kancloud.cn/39/a1/39a148aebc9633869781411448986854_1516x402.png)
#### 优缺点
* **优点**
* 不改变原代码,没有侵入性、没有硬编码
* 没有业务强耦合,不改变原来程序的性能
* **缺点**
* 时效性较差,由于是采用定时器根据固定频率查询表来同步数据,尽管将同步周期设置到秒级,也还是会存在一定时间的延迟
* 对数据库有一定的轮询压力,一种改进方法是将轮询放到压力不大的从库上
* 无法实现同步删除,需要在Elasticsearch中执行相关命令手动删除
* Elasticsearch中的_id字段必须与MySQL中的id字段相同
### 4. Binlog 实时同步
Binlog实时同步是一种数据库同步技术,主要用于实时捕获并同步数据库中的变更数据。
![](https://img.kancloud.cn/f7/b3/f7b3b7ed584574c801273f5b831aafc8_996x590.png)
Binlog(Binary Log)是MySQL等数据库的一种二进制日志,它记录了数据库中所有更改数据的SQL语句信息,但不包括查询操作。这些变更包括数据的插入、更新、删除等。Binlog主要用于数据库的主从复制和数据恢复。
#### 同步原理
Binlog实时同步的原理基于数据库的复制机制。当数据库发生变更时,这些变更会被写入到Binlog中。同步工具(如Canal、Maxwell等)会监听Binlog的变动,实时捕获这些变更数据,并将其同步到其他数据库或存储系统中。
#### 优缺点
* **优点**
* **实时性**:能够实时捕获和同步数据库的变更数据
* **一致性**:确保源数据库和目标数据库之间数据的一致性
* **灵活性**:支持多种数据库和存储系统之间的同步
* **可扩展性**:可以根据业务需求进行扩展和定制
* 没有代码侵入、没有硬编码,原有系统不需要任何变化,没有感知
* **缺点**
* 配置和维护同步工具可能具有一定的复杂性
* 在高并发场景下,Binlog的写入和同步可能会对数据库性能产生一定影响
* 同步工具依赖于数据库的Binlog功能,如果数据库版本或配置发生变化,可能需要重新配置同步工具
### 5. Canal数据同步
Canal是阿里巴巴集团提供的一个开源产品,能够通过解析数据库的增量日志,提供增量数据的订阅和消费功能。Canal的功能原理及详细说明请参见Canal。使用Canal模拟成MySQL的Slave,实时接收MySQL的增量数据binlog,然后通过RESTful API将数据写入到阿里云ES实例或ES Serverless应用中,适用于对数据同步的实时性要求较高的场景。
#### 同步原理
Canal 原理就是伪装成 MySQL 的从节点,从而订阅 master 节点的 Binlog 日志。通过订阅binlog的方式实现数据实时同步,在不影响源数据库的情况下,同步延迟可降至毫秒级别。
![](https://img.kancloud.cn/06/18/0618914ca0762ddb94668ddf31540740_1360x752.png)
#### 同步流程
1. Canal 服务端向 MySQL 的 master 节点传输 dump 协议
2. MySQL 的 master 节点接收到 dump 请求后推送 binlog 日志给 Canal 服务端,解析 binlog 对象(原始为byte流)转成 Json 格式
3. Canal 客户端通过 TCP 协议或 MQ 形式监听 Canal 服务端,同步数据到ES
#### 执行核心流程
![](https://img.kancloud.cn/4e/2e/4e2e7dfc63738cccb8662795ab7a09a9_1003x874.png)
* canal模拟mysql slave的交互协议,伪装自己为mysql slave,向mysql master发送dump协议
* mysql master收到dump请求,开始推送binary log给slave(也就是canal)
* canal解析binary log对象(原始为byte流)
### 5. 阿里云 DTS
数据传输服务DTS(Data Transmission Service)是阿里云提供的实时数据流服务,支持关系型数据库(RDBMS)、非关系型的数据库(NoSQL)、数据多维分析(OLAP)等数据源间的数据交互,集数据同步、迁移、订阅、集成、加工于一体,助您构建安全、可扩展、高可用的数据架构。
相对于传统数据迁移或同步工具,DTS为您提供功能更丰富、传输性能更强、易用性更高且安全可靠的服务,帮助您简化复杂的数据交互工作,专注于上层的业务开发。
#### 系统架构
![](https://img.kancloud.cn/24/cc/24cc4309669857503cc9ec8479b75dc4_793x711.png)
#### 架构特性
**系统高可用**
数据传输服务内部每个模块都有主备架构,保证系统高可用。容灾系统实时检测每个节点的健康状况,一旦发现某个节点异常,会将链路快速切换到其他节点。
**数据源地址动态适配**
对于数据订阅及同步链路,容灾系统还会监测数据源的连接地址切换等变更操作,一旦发现数据源发生连接地址变更,它会动态适配数据源新的连接方式,在数据源变更的情况下,保证链路的稳定性。
#### 数据同步的工作原理
![](https://img.kancloud.cn/55/6f/556fcf335a067d8e37ab0cd518051c4d_1280x720.png)
DTS可以在两个数据源之间同步正在进行的数据变更。数据同步通常用于OLTP到OLAP的数据传输。数据同步包括以下两个阶段:
* **同步初始化**:DTS先开始收集增量数据,然后将源数据库的结构和存量数据加载到目标数据库。
* **数据实时同步**:DTS同步正在进行的数据变更,并保持源数据库和目标数据库的同步。
#### DTS Serverless
DTS Serverless实例是数据传输服务DTS(Data Transmission Service)提供的资源规格可以弹性变化的实例。Serverless实例可以适应不断变化的业务需求,使实例资源能够随业务规模的变化自动调整,从而避免资源浪费和控制运维成本。
Serverless是一种动态计费方式,能够根据实例负载情况以分钟级别的动态调整资源,并实时计费(每小时生成一个收费订单),您仅需要为实际用量付费,从而节省大量成本。使用Serverless计费方式购买的实例,被称为Serverless实例。
Serverless实例会根据RPS(Records Per Second)、CPU、内存利用率、网络等因素动态调整资源规格,调整的资源规格以DU(DTS Unit)数体现。在DU数调整后的60秒,系统会检测当前资源规格是否满足负载需求。
在数据传输量波动较大的场景下,普通实例和Serverless实例资源使用和规格变化情况如下图所示:
![](https://img.kancloud.cn/85/78/8578585a07f6d79e9efb5eedb0917c99_994x400.png)
由上图可以看到,在业务波动较大的场景下:
* 普通实例:在波谷期浪费的资源较多,在高峰期资源不足,业务受损。
* Serverless实例:实例的资源规格随负载需求动态调整,在波谷期和高峰期都能完全满足业务需求,保证业务不受损。
![](https://img.kancloud.cn/90/9b/909b5c46c75eff219717f3cd422873dd_1343x397.png)
- 设计模式系列
- 工厂方法模式
- 序言
- Windows程序注册为服务的工具WinSW
- 基础
- 安装
- 开发规范
- 目录结构
- 配置
- 快速入门
- 架构
- 请求流程
- 架构总览
- URL访问
- 容器和依赖注入
- 中间件
- 事件
- 代码层结构
- 四个层次
- 路由
- 控制器
- 请求
- 响应
- 数据库
- MySQL实时同步数据到ES解决方案
- 阿里云DTS数据MySQL同步至Elasticsearch实战
- PHP中的MySQL连接池
- PHP异步非阻塞MySQL客户端连接池
- 模型
- 视图
- 注解
- @SpringBootApplication(exclude={DataSourceAutoConfiguration.calss})
- @EnableFeignClients(basePackages = "com.wotu.feign")
- @EnableAspectJAutoProxy
- @EnableDiscoveryClient
- 错误和日志
- 异常处理
- 日志处理
- 调试
- 验证
- 验证器
- 验证规则
- 扩展库
- 附录
- Spring框架知识体系详解
- Maven
- Maven和Composer
- 构建Maven项目
- 实操课程
- 01.初识SpringBoot
- 第1章 Java Web发展史与学习Java的方法
- 第2章 环境与常见问题踩坑
- 第3章 springboot的路由与控制器
- 02.Java编程思想深度理论知识
- 第1章 Java编程思想总体
- 第2章 英雄联盟的小案例理解Java中最为抽象的概念
- 第3章 彻底理解IOC、DI与DIP
- 03.Spring与SpringBoot理论篇
- 第1章 Spring与SpringBoot导学
- 第2章 Spring IOC的核心机制:实例化与注入
- 第3章 SpringBoot基本配置原理
- 04.SprinBoot的条件注解与配置
- 第1章 conditonal 条件注解
- 第2章 SpringBoot自动装配解析
- 05.Java异常深度剖析
- 第1章 Java异常分类剖析与自定义异常
- 第2章 自动配置Url前缀
- 06.参数校验机制与LomBok工具集的使用
- 第1章 LomBok工具集的使用
- 第2章 参数校验机制以及自定义校验
- 07.项目分层设计与JPA技术
- 第1章 项目分层原则与层与层的松耦合原则
- 第2章 数据库设计、实体关系与查询方案探讨
- 第3章 JPA的关联关系与规则查询
- 08.ORM的概念与思维
- 第1章 ORM的概念与思维
- 第2章 Banner等相关业务
- 第3章 再谈数据库设计技巧与VO层对象的技巧
- 09.JPA的多种查询规则
- 第1章 DozerBeanMapper的使用
- 第2章 详解SKU的规格设计
- 第3章 通用泛型Converter
- 10.令牌与权限
- 第1章 通用泛型类与java泛型的思考
- 常见问题
- 微服务
- demo
- PHP中Self、Static和parent的区别
- Swoole-Cli
- 为什么要使用现代化PHP框架?
- 公众号
- 一键部署微信公众号Markdown编辑器(支持适配和主题设计)
- Autodesigner 2.0发布
- Luya 一个现代化PHP开发框架
- PHPZip - 创建、读取和管理 ZIP 文件的简单库
- 吊打Golang的PHP界天花板webman压测对比
- 简洁而强大的 YAML 解析库
- 推荐一个革命性的PHP测试框架:Kahlan
- ServBay下一代Web开发环境
- 基于Websocket和Canvas实现多人协作实时共享白板
- Apipost预执行脚本如何调用外部PHP语言
- 认证和授权的安全令牌 Bearer Token
- Laradock PHP 的 Docker 完整本地开发环境
- 高效接口防抖策略,确保数据安全,避免重复提交的终极解决方案!
- TIOBE 6月榜单:PHP稳步前行,编程语言生态的微妙变化
- Aho-Corasick字符串匹配算法的实现
- Redis键空间通知 Keyspace Notification 事件订阅
- ServBay如何启用并运行Webman项目
- 使用mpdf实现导出pdf文件功能
- Medoo 轻量级PHP数据库框架
- 在PHP中编写和运行单元测试
- 9 PHP运行时基准性能测试
- QR码生成器在PHP中的源代码
- 使用Gogs极易搭建的自助Git服务
- Gitea
- webman如何记录SQL到日志?
- Sentry PHP: 实时监测并处理PHP应用程序中的错误
- Swoole v6 Alpha 版本已发布
- Proxypin
- Rust实现的Redis内存数据库发布
- PHP 8.4.0 Alpha 1 测试版本发布
- 121
- Golang + Vue 开发的开源轻量 Linux 服务器运维管理面板
- 内网穿透 FRP VS Tailscale
- 新一代开源代码托管平台Gitea
- 微服务系列
- Nacos云原生配置中心介绍与使用
- 轻量级的开源高性能事件库libevent
- 国密算法
- 国密算法(商用密码)
- GmSSL 支持国密SM2/SM3/SM4/SM9/SSL 密码工具箱
- GmSSL PHP 使用
- 数据库
- SQLite数据库的Web管理工具
- 阿里巴巴MySQL数据库强制规范
- PHP
- PHP安全测试秘密武器 PHPGGC
- 使用declare(strict_types=1)来获得更健壮的PHP代码
- PHP中的魔术常量
- OSS 直传阿里腾讯示例
- PHP源码编译安装APCu扩展实现数据缓存
- BI性能DuckDB数据管理系统
- 为什么别人可以是架构师!而我却不是?
- 密码还在用 MD5 加盐?不如试试 password_hash
- Elasticsearch 在电商领域的应用与实践
- Cron 定时任务入门
- 如何动态设置定时任务!而不是写死在Linux Crontab
- Elasticsearch的四种查询方式,你知道多少?
- Meilisearch vs Elasticsearch
- OpenSearch vs Elasticsearch
- Emlog 轻量级开源博客及建站系统
- 现代化PHP原生协程引擎 PRipple
- 使用Zephir编写C扩展将PHP源代码编译加密
- 如何将PHP源代码编译加密,同时保证代码能正常的运行
- 为什么选择Zephir给PHP编写动态扩展库?
- 使用 PHP + XlsWriter实现百万级数据导入导出
- Rust编写PHP扩展
- 阿里云盘开放平台对接进行文件同步
- 如何构建自己的PHP静态可执行文件
- IM后端架构
- RESTful设计方法和规范
- PHP编译器BPC 7.3 发布,成功编译ThinkPHP8
- 高性能的配置管理扩展 Yaconf
- PHP实现雪花算法库 Snowflake
- PHP官方现代化核心加密库Sodium
- pie
- 现代化、精简、非阻塞PHP标准库PSL
- PHP泛型和集合
- 手把手教你正确使用 Composer包管理
- JWT双令牌认证实现无感Token自动续期
- 最先进PHP大模型深度学习库TransformersPHP
- PHP如何启用 FFI 扩展
- PHP超集语言PXP
- 低延迟双向实时事件通信 Socket.IO
- PHP OOP中的继承和多态
- 强大的现代PHP高级调试工具Kint
- PHP基金会
- 基于webman+vue3高质量中后台框架SaiAdmin
- 开源免费的定时任务管理系统:Gocron
- 简单强大OCR工具EasyOCR在PHP中使用
- PHP代码抽象语法树工具PHP AST Viewer
- MySQL数据库管理工具PHPMyAdmin
- Rust编写的一款高性能多人代码编辑器Zed
- 超高性能PHP框架Workerman v5.0.0-beta.8 发布
- 高并发系列
- 入门介绍及安装
- Lua脚本开发 Hello World
- 执行流程与阶段详解
- Nginx Lua API 接口开发
- Lua模块开发
- OpenResty 高性能的正式原因
- 记一次查找 lua-resty-mysql 库 insert_id 的 bug
- 包管理工具OPM和LuaRocks使用
- 异步非阻塞HTTP客户端库 lua-resty-http
- Nginx 内置绑定变量
- Redis协程网络库 lua-resty-redis
- 动态HTML渲染库 lua-testy-template
- 单独的
- StackBlitz在线开发环境
- AI
- 基础概念
- 12312
- 基础镜像的坑
- 利用phpy实现 PHP 编写 Vision Transformer (ViT) 模型
- 语义化版本 2.0.0