admin 管理员组

文章数量: 1086019


2024年4月24日发(作者:jsonp为什么不是真正的ajax)

HBASE数据存储DML心得体会1000字

一、HBase概述

HBASE是Apache提供的基于Hadoop的、分布式的、可扩展的、

能够存储大量数据的非关系型数据库

(1)是一种 NoSQL,非关系型的数据库,不符合关系型数据库

的范式

(2)适合存储:半结构化、非结构化的数据

(3)适合存储稀疏的数据,空的数据不占用空间

(4)面向列(族)进行存储

(5)提供实时增删改查的能力 是一种真正的数据库

(6)可以存储海量数据 性能也很强大 可以实现上亿条记录的

毫秒级别的查询

(7)但是不能提供严格的事务控制 只能在行级别保证事务

(8)是一个高可靠性 高性能 面向列 可伸缩的分布式存储系统

利用hbase技术可以在廉价的PC上搭建起大规模结构化存储集群。

(9)HBase利用HadoopHDFS作为其文件存储系统,利用Hadoop

的MapReduce来处理HBase中的海量数据,利用Zookeeper作为协调

二、逻辑结构

hbase通过表来存储数据 但是表的结构和关系型数据库非常的

不一样

(1)行键 - RowKey - 即hbase中表的主键,访问hbase表中

的数据有三种方式

a.通过单一行键访问

b.通过一组行键访问

c.全表扫描

行键默认是排序的,采用的字典排序

(2)列族(簇) - Column Family

是表的元数据的一部分,需要在建表时声明,不能后期增加,如

果需要增加只能alter表,一个列族可以包含一个或多个列

列 - Column

可以动态增加列,不需要提前声明,不是表的元数据一部分

(3)单元格与时间戳 - cell timestamp

通过row和columns确定的一个存储单元。每个存储单元中都保

存着一个数据的多个版本,版本通过时间戳来区别,而由row和

column和timestamp确定出来的唯一的存储数据的单元 称之为一个

cell 单元格。

数据都以二进制形式存储,没有数据类型的区别。

所有空数据都不占用空间


本文标签: 数据 利用 需要 关系 存储单元