💎一站式轻松地调用各大LLM模型接口,支持GPT4、智谱、星火、月之暗面及文生图 广告
**数据仓库**是一个<mark>面向主题的</mark>、<mark>集成的</mark>、<mark>非易失的</mark>且<mark>随时间变化的</mark>数据集合。 ![](https://img.kancloud.cn/6a/fb/6afb75595db6043d9d385e22ac255507_748x564.png) 1. **面向主题:** (1)主题(Subject)是在较高层次上将企业信息系统中的数据进行综合、归类和分析利用的一个抽象概念; (2)每一个主题基本对应一个宏观的分析领域; (3)在逻辑意义上,它是对应企业中某一宏观分析领域所涉及的分析对象。 例如"销售分析"就是一个分析领域,因此这个数据仓库应用的主题就是"销售分析"。 2. **集成:** * 集成性是指数据仓库中数据必须是一致的 * 数据仓库的数据是从原有的分散的多个数据库、数据文件和数据段中抽取来的 * 数据来源可能既有内部数据又有外部数据 * 集成方法 * 统一:消除不一致的现象。比如不同数据源表示性别的代码可能是F/M、0/1、A/B导致数据不一致 * 综合:对原有数据进行综合和计算 3. **非易失** * 数据仓库中的数据是经过抽取而形成的分析型数据,数据一旦进入到数据仓库中,数据就不应该再有改变 * 不具有原始性 * 主要供企业决策分析之用 * <mark>执行的主要是查询操作,一般情况下不执行更新操作</mark> * 一个稳定的数据环境也有利于数据分析操作和决策的制订 4. **随时间变化:** * 数据仓库以维的形式对数据进行组织,时间维是数据仓库中很重要的一个维度 * 不断增加新的数据内容 * 不断删去旧的数据内容 * 更新与时间有关的综合数据 5. **粒度:** 粒度是指数据的细节或汇总程度,<mark>细节程度越高,粒度级别越低</mark>。例如,单个事务是低粒度级别,而全部一个月事务的汇总就是高粒度级别。 <br/> 粒度之所以是数据仓库环境的关键设计问题,是因为它极大地影响数据仓库的数据量和可以进行的查询类型。<mark>粒度级别越低,数据量越大,查询的细节程度越高,查询范围越广泛,反之亦然</mark>。 <br/> 例:下面的系统中提取的主题: ``` 采购子系统: 订单(订单号,供应商号,总金额,日期) 订单细则(订单号,商品号,类别,单价,数量) 供应商(供应商号,供应商名,地址,电话) 销售子系统: 顾客(顾客号,姓名,性别,年龄,文化程度,地址,电话) 销售(员工号,顾客号,商品号,数量,单价,日期) 库存管理子系统: 领料单(领料单号,领料人,商品号,数量,日期) 进料单(进料单号,订单号,进料人,收料人,日期) 库存(商品号,库房号,库存量,日期) 库房(库房号,仓库管理员,地点,库存商品描述) 人事管理子系统: 员工(员工号,姓名,性别,年龄,文化程度,部门号) 部门(部门号,部门名称,部门主管,电话) 主题一: 顾客 固有信息: 顾客号,姓名,性别,年龄,文化程度,地址,电话 购物信息: 顾客号, 商品号, 单价, 数量, 金额, 日期... 主题二: 供应商 固有信息: 供应商号,供应商名,地址,电话 供应商品信息: 订单号,供应商号,总金额,日期 主题三: 商品 固有信息: 商品号, 商品名, 类别, 颜色, 尺寸, 大小, 型号.... 采购信息: 商品号, 供应商号, 日期, 采购价格, 采购量 库存信息: 商品号, 库房号,库存量,日期 销售信息: 顾客号,商品号,数量,单价,日期 主题四: 订单 固有信息: 订单号, 员工号,顾客号,商品号,数量,单价,日期 员工信息: 员工号,姓名,性别,年龄,文化程度,部门号 顾客信息: 顾客号,姓名,性别,年龄,文化程度,地址,电话 商品信息: 商品号, 商品名, 类别, 颜色, 尺寸, 大小, 型号 .... ```