ThinkChat2.0新版上线,更智能更精彩,支持会话、画图、阅读、搜索等,送10W Token,即刻开启你的AI之旅 广告
> 不懂数据库的全栈工程师不是好架构师 > —— Vonng ***** ## 数据架构 全体数据划分为结构化数据和非结构化数据: ![](https://box.kancloud.cn/550e36606c34f6a04ef7a90f6d4f5d10_361x120.png) 1. **结构化数据**是一种可预见、经常出现的数据格式。通常,结构化数据包括记录、属性、键和索引等,可以通过数据库管理系统(database management system,DBMS)进行管理。结构化数据是定义良好的、可预测的,并且可通过复杂的基础设施进行管理。结构化环境中的大多数数据单元都可以很快地进行定位。 2. **非结构化数据**是不可预见的,而且没有可以被计算机识别的结构。访问非结构化数据通常很不方便,想要查找给定的数据单元,就必须顺序搜索(解析)长串的数据。 ***** ### 企业数据类型的划分: ![](https://box.kancloud.cn/bc6dc14bdff10a94d8f050a77ea206f6_321x237.png) 1. 结构化数据通常是交易的副产品。每当一次销售完成时,每当银行账户有取款操作时,每当有人在ATM机上办理业务时,每当发送一份账单时,都会产生一条交易记录。交易记录最终会形成一条条结构化的记录。 3. 重复型非结构化数据则有所不同。非结构化的重复记录通常是机器间交互所产生的记录,例如对即将离开生产过程的产品进行模拟验证,或者对消费者的能源用量进行计量等。就拿计量来说,在读取计量读数时,会产生大量在形式和内容上重复的记录。 5. 非重复型非结构化信息与重复型非结构化记录有着根本性的不同。对于非重复型非结构化记录而言,它们无论在形式还是内容上都很少重复或者根本不重复。非重复型非结构化信息的例子有电子邮件、呼叫中心对话和市场调查等。当你查看一封电子邮件时,会有很大概率发现数据库中的下一封邮件与前一封邮件是极为不同的。对呼叫中心信息、质保索赔、市场调查等数据来说也是如此。 6. **结构化业务数据**和**非重复非结构化数据**,这2种数据的价值通常是非常高的,要重点开发。 ----参考[数据架构:大数据、数据仓库以及Data Vault](http://www.ituring.com.cn/book/tupubarticle/11854) ***** ## 指标体系 图书参考: * [淘宝、天猫电商数据分析与挖掘实战](https://book.douban.com/subject/27157294) * [电商数据分析与数据化运营](http://e.dangdang.com/products/1901070912.html) SQL参考: * [电子商务分析的数据结构](https://mp.weixin.qq.com/s/8F9LrckN_lSt6rH2WjG2OA) 后台原型设计: * [电商活动之数据分析原型设计篇](http://www.woshipm.com/pd/1027372.html) ***** ## OLTP 和 OLAP ![](https://box.kancloud.cn/b2a8a5a8c62bcdacc17074f018d5e32c_1488x312.png) * OLTP: 业务的,单个数据行的,事务的,快速响应的。 * OLAP:分析的,批量数据列的,统计的,有一定延时的。 * 在业务系统中,我们通常使用的是OLTP数据存储,例如MySQL,PostgreSQL等。上述关系数据库系统擅长事务处理,能够很好的支持频繁数据插入和修改。一旦需要计算的数据量过大,例如数千万甚至数十亿条,或者需要进行非常复杂的计算,此时OLTP数据库系统便力不从心了。这个时候,我们便需要OLAP系统来进行处理。 * **OLAP为精细化运营而生,实时洞现数据价值,持续推进企业数据化变革转型。** ![](https://box.kancloud.cn/beb8f85688b8e2a8e0951d1a56443778_916x568.png) ![](https://box.kancloud.cn/b4e05c5e5244941d4b71a525817afd0c_905x456.png) ![](https://box.kancloud.cn/1b8c2d03bc1ccd43d97dcddbb0752337_666x376.png) ## 基于阿里云大数据的解决方案 * 数据仓库:[数加平台](https://data.aliyun.com/solution/base?spm=5176.12825654.h2v3icoap.159.63bc2c4axKAzYU) 阿里云大数据平台,简称数加,是阿里云为企业大数据实施提供的一套完整的一站式大数据解决方案,覆盖了企业数仓、商业智能、机器学习、数据可视化等领域,助力企业在DT时代更敏捷、更智能、更具洞察力. ![](https://box.kancloud.cn/90dd1f4b59803476b25c1137cc5b66cf_878x673.png) 数据开发套件: (1)**大数据开发**:集成可视化开发环境,可实现数据开发、调度、部署、运维、及数仓设计、数据质量管理等功能, (2)**BI报表工具**,海量数据的实时在线分析、丰富的可视化效果,助您轻松完成数据分析、业务探查等,所见即所得。 (3)**机器学习工具**,集数据处理、特征工程、建模、离线预测为一体的机器学习平台,优质算法汇集,可视化编辑。 * **OLAP**数据库:[分析型数据库MySQL版](https://www.aliyun.com/product/ads?spm=a2c0j.8206886.cwnn_jpze.62.6d966f0fNrsf65) * 数据清洗,ETL,数据整合 kettle [http://www.kettle.net.cn/](http://www.kettle.net.cn/) [DataWorks](https://data.aliyun.com/product/ide?spm=a2c4g.11174283.cwnn_jpze.150.7e0d6942EZAPXc),可视化操作 * 调度系统 :[http://airflow.apache.org/](http://airflow.apache.org/) * BI系统 :Excel ,tableau ,[Superset](https://www.oschina.net/p/caravel) * HTAP数据库:[HybridDB for MySQL](https://yq.aliyun.com/articles/673466?spm=5176.136342.1265828.2.30d95d11VY3dWH) ,[TIDB](https://www.pingcap.com/)