admin 管理员组文章数量: 1086019
2024年4月14日发(作者:java冒泡排序代码升序)
离线数仓和实时数仓的区别
01 数仓架构演变
20世纪70年代,MIT(麻省理工)的研究员致力于研究一种优化的技
术架构,该架构试图将业务处理系统和分析系统分开,即将业务处理和
分析处理分为不同层次,针对各自的特点采取不同的架构设计原则,
MIT的研究员认为这两种信息处理的方式具有显著差别,以至于必须采
取完全不同的架构和设计方法。但受限于当时的信息处理能力,这个研
究仅仅停留在理论层面。
1991年,比尔·恩门(Bill Inmon)出版了他的第一本关于数据仓库的
书《Building the Data Warehouse》,标志着数据仓库概念的确立。
该书定义了数据仓库非常具体的原则,这些原则到现在仍然是指导数据
仓库建设的最基本原则。比尔·恩门(Bill Inmon)主张自上而下的建设
企业级数据仓库EDW (Enterprise Data Warehouse),这个过程中
信息存储符合第三范式,结构如下:
由于企业级数据仓库的设计、实施很困难,很重要的原因是因为其数据
模型设计,在企业级数据仓库中,Inmon推荐采用3范式进行数据建
模,从而无法支持决策支持(DSS -Decision Suport System )系统
的性能和数据易访问性的要求,即:数据存储方式严格按照范式建模方
式,导致数据分析效率低下。
很多公司按照这种方式构建数据仓库遭到失败。同时期,拉尔夫·金博尔
(Ralph Kimball)提出自下而上的建立数据仓库,整个过程中信息存
储采用维度建模而非三范式,思路如下:
版权声明:本文标题:离线数仓和实时数仓的区别 内容由网友自发贡献,该文观点仅代表作者本人, 转载请联系作者并注明出处:http://roclinux.cn/p/1713095336a619614.html, 本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。
发表评论