5分钟快速了解数据仓库基本概念

定义

数据仓库是用于管理决策的面向主题、集成、稳定、随时长变化的数据集集合。

数据仓库不是简单的对数据进行存储,而是对数据进行在“组织”。

体系结构

5分钟快速了解数据仓库基本概念

传统体系

5分钟快速了解数据仓库基本概念

阿里巴巴大数据系统体系架构图

关键名词

DW:数据仓库(Data Warehousing)。

数据源:数据源就是提供初始数据的地方,是数据仓库系统的基础。通常包括企业内部数据和外部数据。内部数据包括各种操作型数据库中的数据以及文档数据,日志数据。外部数据是从系统外部获取的数据,如爬取的数据。

ETL:Extract-Transform-Load的缩写,数据抽取(Extract)、转换(Transform)、装载 (Load)的过程。

  • 数据抽取,就是从不同数据源中选择数据仓库所需要的数据。这些数据可能具有的特点是:来自不同平台、不同结构、不同类型等。

  • 数据清洗,由于数据来自于不同的数据源,因此数据质量难以保证,比如存在数据不一致性、量纲不同、值缺失等情况,就需要对抽取到的数据进行清洗。

  • 数据转换,就是将面向应用的数据转换成面向主题的数据,比如时长格式统一。

  • 数据加载,就是将数据装入到数据仓库中。

元数据:就是整个数据仓库的所有描述性信息,即关于数据的数据。它包含表中的字段,表盒表之间的关系,索引约束等。

主题:是一个抽象概念,是在较高层次上将企业信息系统中的数据综合、归类并进行分析利用的抽象。每一个主题对应一个宏观的分析领域。在逻辑意义上,它是对应企业中某一宏观分析领域所涉及的分析对象。例如电商行业,我们会划分会员,交易,商品等主题。

主题域:通常是联系较为紧密的数据主题的集合。

数据集市:就是面向部门或者应用的小型数据仓库,它是企业级数据仓库一个子集。二者的不同,一是主题域的不同,二是数据规模的不同,三是访问效率的不同。

特性解读

面向主题:企业在信息化建设时通常会按照业务类别来建立子系统,比如采购、销售、库存..子系统背后就是各种操作型数据库。基于这样的数据环境,如果需要对“商品”这一对象进行相关的分析处理,就需要从各个操作型数据库中提取数据,即使能够取出来也会面临各种问题,比如数据不一致。这就是面向应用的数据组织方式,显然不能满足分析需要。面向主题就是根据分析需要,将分析对象所涉及的数据以及数据之间的联系从企业各个方面进收集、汇聚,形成一个完整的、一致的、统一的数据集合。这里的主题就是分析对象,比如:“顾客”、“商品”、“供应商”。

集成:数据仓库中的数据来源于各个操作型数据库、数据文件或者网络。

稳定:数据一旦进入到数据仓库中,就不允许修改,并且会被长期保留

随时长变化:数据仓库会随着时长的变化不断增加新的数据,有不断来自操作型数据库等数据源的数据,还有大量的综合数据。

其他文章推荐

传统数据库和数据仓库的区别

发表评论

电子邮件地址不会被公开。 必填项已用*标注

此站点使用Akismet来减少垃圾评论。了解我们如何处理您的评论数据