admin 管理员组

文章数量: 1086019


2024年4月14日发(作者:java冒泡排序代码升序)

离线数仓和实时数仓的区别

01 数仓架构演变

20世纪70年代,MIT(麻省理工)的研究员致力于研究一种优化的技

术架构,该架构试图将业务处理系统和分析系统分开,即将业务处理和

分析处理分为不同层次,针对各自的特点采取不同的架构设计原则,

MIT的研究员认为这两种信息处理的方式具有显著差别,以至于必须采

取完全不同的架构和设计方法。但受限于当时的信息处理能力,这个研

究仅仅停留在理论层面。

1991年,比尔·恩门(Bill Inmon)出版了他的第一本关于数据仓库的

书《Building the Data Warehouse》,标志着数据仓库概念的确立。

该书定义了数据仓库非常具体的原则,这些原则到现在仍然是指导数据

仓库建设的最基本原则。比尔·恩门(Bill Inmon)主张自上而下的建设

企业级数据仓库EDW (Enterprise Data Warehouse),这个过程中

信息存储符合第三范式,结构如下:

由于企业级数据仓库的设计、实施很困难,很重要的原因是因为其数据

模型设计,在企业级数据仓库中,Inmon推荐采用3范式进行数据建

模,从而无法支持决策支持(DSS -Decision Suport System )系统

的性能和数据易访问性的要求,即:数据存储方式严格按照范式建模方

式,导致数据分析效率低下。

很多公司按照这种方式构建数据仓库遭到失败。同时期,拉尔夫·金博尔

(Ralph Kimball)提出自下而上的建立数据仓库,整个过程中信息存

储采用维度建模而非三范式,思路如下:


本文标签: 数据仓库 范式 数据 方式