admin 管理员组

文章数量: 1086019


2024年4月14日发(作者:数据库课程设计实验报告代码)

大数据学习必须掌握的五大核心技术有哪些?

来源:阿里云栖社区

大数据技术的体系庞大且复杂,基础的技术包含数据的采集、数据预处理、分

布式存储、NoSQL数据库、数据仓库、机器学习、并行计算、可视化等各种技术

范畴和不同的技术层面。首先给出一个通用化的大数据处理框架,主要分为下面几

个方面:数据采集与预处理、数据存储、数据清洗、数据查询分析和数据可视化。

一、数据采集与预处理

对于各种来源的数据,包括移动互联网数据、社交网络的数据等,这些结构化

和非结构化的海量数据是零散的,也就是所谓的数据孤岛,此时的这些数据并没有

什么意义,数据采集就是将这些数据写入数据仓库中,把零散的数据整合在一起,

对这些数据综合起来进行分析。数据采集包括文件日志的采集、数据库日志的采

集、关系型数据库的接入和应用程序的接入等。在数据量比较小的时候,可以写个

定时的脚本将日志写入存储系统,但随着数据量的增长,这些方法无法提供数据安

全保障,并且运维困难,需要更强壮的解决方案。

Flume NG作为实时日志收集系统,支持在日志系统中定制各类数据发送方,

用于收集数据,同时,对数据进行简单处理,并写到各种数据接收方(比如文本,

HDFS,Hbase等)。Flume NG采用的是三层架构:Agent层,Collector层和

Store层,每一层均可水平拓展。其中Agent包含Source,Channel和 Sink,

source用来消费(收集)数据源到channel组件中,channel作为中间临时存储,

保存所有source的组件信息,sink从channel中读取数据,读取成功之后会删除

channel中的信息。

NDC,Netease Data Canal,直译为网易数据运河系统,是网易针对结构化

数据库的数据实时迁移、同步和订阅的平台化解决方案。它整合了网易过去在数据

传输领域的各种工具和经验,将单机数据库、分布式数据库、OLAP系统以及下游

应用通过数据链路串在一起。除了保障高效的数据传输外,NDC的设计遵循了单

元化和平台化的设计哲学。

Logstash是开源的服务器端数据处理管道,能够同时从多个来源采集数据、

转换数据,然后将数据发送到您最喜欢的 “存储库” 中。一般常用的存储库是

Elasticsearch。Logstash 支持各种输入选择,可以在同一时间从众多常用的数据

来源捕捉事件,能够以连续的流式传输方式,轻松地从您的日志、指标、Web 应

用、数据存储以及各种 AWS 服务采集数据。

Sqoop,用来将关系型数据库和Hadoop中的数据进行相互转移的工具,可

以将一个关系型数据库(例如Mysql、Oracle)中的数据导入到Hadoop(例如

HDFS、Hive、Hbase)中,也可以将Hadoop(例如HDFS、Hive、Hbase)中的数

据导入到关系型数据库(例如Mysql、Oracle)中。Sqoop 启用了一个


本文标签: 数据 数据库 采集 日志 系统