admin 管理员组文章数量: 1086019
2024年4月14日发(作者:数据库课程设计实验报告代码)
大数据学习必须掌握的五大核心技术有哪些?
来源:阿里云栖社区
大数据技术的体系庞大且复杂,基础的技术包含数据的采集、数据预处理、分
布式存储、NoSQL数据库、数据仓库、机器学习、并行计算、可视化等各种技术
范畴和不同的技术层面。首先给出一个通用化的大数据处理框架,主要分为下面几
个方面:数据采集与预处理、数据存储、数据清洗、数据查询分析和数据可视化。
一、数据采集与预处理
对于各种来源的数据,包括移动互联网数据、社交网络的数据等,这些结构化
和非结构化的海量数据是零散的,也就是所谓的数据孤岛,此时的这些数据并没有
什么意义,数据采集就是将这些数据写入数据仓库中,把零散的数据整合在一起,
对这些数据综合起来进行分析。数据采集包括文件日志的采集、数据库日志的采
集、关系型数据库的接入和应用程序的接入等。在数据量比较小的时候,可以写个
定时的脚本将日志写入存储系统,但随着数据量的增长,这些方法无法提供数据安
全保障,并且运维困难,需要更强壮的解决方案。
Flume NG作为实时日志收集系统,支持在日志系统中定制各类数据发送方,
用于收集数据,同时,对数据进行简单处理,并写到各种数据接收方(比如文本,
HDFS,Hbase等)。Flume NG采用的是三层架构:Agent层,Collector层和
Store层,每一层均可水平拓展。其中Agent包含Source,Channel和 Sink,
source用来消费(收集)数据源到channel组件中,channel作为中间临时存储,
保存所有source的组件信息,sink从channel中读取数据,读取成功之后会删除
channel中的信息。
NDC,Netease Data Canal,直译为网易数据运河系统,是网易针对结构化
数据库的数据实时迁移、同步和订阅的平台化解决方案。它整合了网易过去在数据
传输领域的各种工具和经验,将单机数据库、分布式数据库、OLAP系统以及下游
应用通过数据链路串在一起。除了保障高效的数据传输外,NDC的设计遵循了单
元化和平台化的设计哲学。
Logstash是开源的服务器端数据处理管道,能够同时从多个来源采集数据、
转换数据,然后将数据发送到您最喜欢的 “存储库” 中。一般常用的存储库是
Elasticsearch。Logstash 支持各种输入选择,可以在同一时间从众多常用的数据
来源捕捉事件,能够以连续的流式传输方式,轻松地从您的日志、指标、Web 应
用、数据存储以及各种 AWS 服务采集数据。
Sqoop,用来将关系型数据库和Hadoop中的数据进行相互转移的工具,可
以将一个关系型数据库(例如Mysql、Oracle)中的数据导入到Hadoop(例如
HDFS、Hive、Hbase)中,也可以将Hadoop(例如HDFS、Hive、Hbase)中的数
据导入到关系型数据库(例如Mysql、Oracle)中。Sqoop 启用了一个
版权声明:本文标题:大数据学习必须掌握的五大核心技术有哪些 内容由网友自发贡献,该文观点仅代表作者本人, 转载请联系作者并注明出处:http://roclinux.cn/p/1713094962a619595.html, 本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。
发表评论