admin 管理员组文章数量: 1087139
2024年4月16日发(作者:c语言条件运算符运算规则)
职业教育
•案例研究
•
基于
“
线下
+
线上
”
的大数据编程环境构建实践
蒋道霞
,
秦媛媛
,
何玉林
(江苏财经职业技术学院
,
江苏淮安
223000)
摘要
:
针对职业院校大数据技术与应用新专业核心课程的教学需要
,
通过经典大数据单词统计
MapReduce
程序实例,
釆用
线下开发环境部署
、
程序调试和打包方法
,
利用华为大数据平台线上执行程序
,
为职业院校学生在疫情期间开展
“
线上
+
线下
”
居家学习提供有针对性的技能训练实践指导
,
经过反复实践
,
验证过程的可执行性
。
关键词
:
“
线下
+
线上
”
;
大数据
;
编程环境
;
大数据平台
中图分类号
:
TP311
文献标识码
:
B
文章编号
:
2095-4530
(2020)
35-0066-03
大数据是一种规模大到在获取
、
存储
、
管理
、
分
环境变量配置
、
依赖库加载
、
程序设计
、
代码录入调试
析方面大大超出传统数据库软件工具能力范围的数据
等软件专业技能实训
,
再利用开源的
Hadoop
平台
,
选
集合
,
是需要新处理模式
,
要求人们具有更强的决策力
、
择商用的大数据产品
,
线上运算执行
,
最终得到程序
洞察力和流程优化能力的
、多样化的信息资产
。
目前
,
运行的结果
。
二是开展线上授课和线上学习等在线教
大数据技术已经应用于互联网
、
电信
、
金融
、
道路交通
、
学活动
,
实现
“
停课不停教
、
停课不停学
”
。
但对于实
购物
、
社交平台等领域
。
践操作性很强的专业课程
,
靠线上教学是远远不够的
,
近年来
,
随着大数据技术的飞速发展
,
大数据技
应加强线下学生相关的实践训练操作
,
这就需要教师
术专业人才的缺口加大
。
职业院校承载着高素质技术技
根据授课内容编制步骤完备
、
技术性强
、
可操作性强
能型人才培养的重要任务
,
大数据技术与应用专业在各
且容易独立完成的实验指导书
。
而针对
Hadoop
核心技
学校广泛开设
。
作为一个新兴专业
,如何制订适合市场
术的学习
,
大量的编程训练是必不可少的。
需要的人才培养方案
,
加强专业核心课程的教学改革
,
是各校特别重视的问题
。
二
、
大数据的教学现状
大数据的教学需求
自
2008
年起
,
美国斯坦福大学把大数据技术设置
为学生必学的现代科学技术课程之一
。
2017
年
,
英国
核心课程是实施人才培养方案的重要载体
。
大数
开放了关于交通运输
、
健康和天气等方面的公共数据
据原理与应用是大数据技术与应用专业的入门及专业
库
,
并投资建立世界首个
“
开放数据研究所
”
。法国政
核心课程
,
该课程的教学质量直接影响学生后续课程的
府在发布
《
数字化路线图
》
时表示
,
将大力支持大数
专业技术基础掌握情况。
基于
“
线下
+
线上
”
的大数据
据等高新技术。
同时
,
新加坡
、
澳大利亚和美国等国
编程环境
,
包含两层含义
。
一是线下编程
,
然后线上执
高校都开设了大数据课程
。
鉴于大数据成为各国的竞
行
,
也就是说在本地构建编程的环境
,
程序编译经调试
争力之一
,
我国于
2016
年发布的
《
2015
年度普通高等
完成后
,
将其加载到大数据平台上执行。
这一操作需要
学校本科专业备案和审批结果
》
,
将数据科学与大数据
本地构建专业的软件开发环境
,
对学生进行软件安装
、
技术专业列入专业体系建设计划
,
截至
2018
年
,
我国
收稿日期
:
2020-08-03
作者简介
:
蒋道霞
,
女
,
江苏财经职业技术学院教授
,
博士
。
研究方向
:
计算机网络
、移动互联网、
大数据技术
、高职教育
。
课题项目
:
2019
年江苏省大学生实践创新项目
(
2Y)
。
66
2020
年
12
月第
19
卷第
35
期
Dec.
2020
Vol.
19
No.35
已有
248
所高校开设了大数据专业
。
Maven
的配置文件
,
存放在两个位置
:
一个是主配置文件
,
在
Maven
安装目录的
conf
目录下
,
三
、
大数据编程教学的相关技术
(
—
)
Java
与
Hadoop
的关系
大数据行业的标准
Hadoop,
是一个开源的可运行
对所有使用该
Maven
的用户都起作用
;
另外一个放在
%USERPROFILE%/.m2/
下
,
称为用户配置
文件
,
只对当前用户有效
,
且可以覆盖主配置文件的
参数内容
。
settings
文件配置的是诸如
repository
库路径
之类的全局信息
,
具体可以参考官方网站
。
Maven
还有一个项目对象模型
POM
(Project
Object
于大规模集群上的分布式文件系统和运行处理基础框
架
,
擅长于在廉价机器搭建的集群上进行海量数据
(
结
构化与非结构化
)
的存储与离线处理
Doug
Cutting
是
Hadoop
的创始人
,同时是基于
Java
的检索引擎库
Apache
Lucene
的创始人
。
Hadoop
Model
)
文件
,
用于管理源代码、
配置文件
、
开发者的信息和角色
、问题追踪系统
、
组织信息
、
项
目授权
、
项目的
url
、
项目的依赖关系等叫
必要时用
最初用于开源搜索引擎
Apache
Nutch,
而
Apache
Nutch
户可以在
POM
中写一些配置
,
覆盖配置文件和用户配
本身是基于
Lucene
的一个子项目
。
因此
Hadoop
是基
于
Java
编写的叫
要实现大数据编程
,
首先要安装
Java
o
置文件的参数内容
。
(
四
)
Scala
IDE
for
Eclipse
集成开发环境
Eclipse
是基于
Java
的开放源代码可扩展开发平台
,
(
二
)
Scala
与
Spark
的关系
Hadoop
是分布式管理
、
存储
、
计算的生态系统
,
最初由
IBM
公司开发
。
它是一个框架和一组服务
,
用
于通过插件组件构建开发环境
,
并附带标准插件集
,
支
包括
HDFS
(
存储
)
、
MapReduce
(
计算
)
、
Yam
(
资源调
持诸如
Java,
C/C++
、
Scala
、
Python,
Android
等编
程语言
。
Scala
IDE
支持在
Eclipse
平台上开发
Scala
应用程
度
)
,
虽然
Hadoop
已成为大数据技术的标准
,
但其本
身还存在许多缺陷
,
如
MapReduce
计算模型延时较长
,
无法满足实时
、
快速计算的需求
,
只适用于离线批处
理的应用场景⑴
。
Spark
是一种分布式计算平台
,
在借
序
,
支持
Scala
语言以及与
Eclipse
Java
工具的集成
,
支持
Scala/Java
混合项目和
Scala/Java
项目依赖项的任
鉴
Hadoop
MapReduce
的同时
,很好地弥补了其存在的
不足
,
提供编程模型更灵活的多种数据集操作类型,
已
何组合等
Eclipse
用户所期望的特性
。
为了实现
Spark
功能
,
需要创设
Scala
IDE
for
Eclipse
集成开发环境
。
经很好地融入了
Hadoop
生态圈
。
Spark
是用
Scala
语言编写的计算框架
,
是基于内
存的快速
、
通用
、
可扩展的大数据分析引擎
〔
役
Scala
是一门现代的多范式编程语言
,
集成了面向对象和函
四
、
大数据编程教学环境的构建
下面以经典的单词统计
WordCount
为例
,
构建
Hadoop
中
MapReduce
计算框架的编程环境及程序运行
数式语言的特性
,
以简练
、
优雅的方式来表达常用编
程模式
,
具有可扩展性
,
运行于
JVM
(
Java
虚拟机
)
上
,
兼容现有的
Java
o
要开发
Spark
应用程序
,
必须安装
Scala
0
过程
。
依靠本地环境
(
线下
)
和华为
Fusioninsight
大数
据平台环境
(
线上
)
,
先在本地搭建线下编程环境
,
创
建
Maven
项目
,编写相应代码
,
再将
Maven
项目打一
个可执行
jar
包
,
上传到
Fusioninsight
大数据平台上进
行操作
。
步骤如下图所示
。
(
三
)
Maven
工具
Maven
是一个项目管理工具
,
它统一了开发规范
与工具
,
并统一管理
jar
包问。
Maven
内置了开发流程
的支持
,
对依赖关系的特性进行细致的分析和划分
,
能
够完成编译
、
测试
、
打包
、
集成测试
、
验证
、
部署
、
发
按照步骤完成线下的程序调试
、编译和打包工作
,
然后上传到华为大数据实验平台线上执行。
(
_
)
将
jar
包上传到华为大数据实验平台
布等所有步骤
。
Maven
支持多种应用程序类型
,
对于
每一种支持的应用程序类型都定义好了一组构建规则
和工具集。
Maven
可以针对不同的开发场景
,
输出不
打开华为大数据实验平台
(
已部署好
)
,
点击
“
上
传文件
”
,
选择本地两个文件
—
—
和
“
只⑷
。
,
上传成功后
,
可通过旁边的
同种类的输出结果问
。
67
■I
职业教育
•案例研究
•
线下编程
线下子配置
线上执行
yam
jar
./
uce.
untApp
/stu
lisi/MR
data
/stu
lisi/
MRout
MR
输出结果在
/stu
lisi/MR
out
路径下面
,
会生成
一个结果文件
part-r-OOOOO,
用以下命令查看运行结果
:
hdfs
dfs -Is
/stu
lisi/MR
out
五
、
结语
本文从常用的大数据编程技术入手
,
通过大数据
技术的一个典型应用案例
单词统计的
MapReduce
项
目
MRWC,
介绍了大数据编程环境中的
Java
、
Scala,
Maven
、
Eclipse
的安装过程和环境配置
,
新建
Maven
项目过程中模型和原型插件选择
、
Scala
库版本配置,
Maven
项目对象模型
文件配置等技术
,
在本
地构建线下大数据程序调试环境
,
最后利用华为大数
据平台线上执行项目程序
。
因大数据编程环境部署过
基于
“
线下
+
线上
”的大数据编程环境构建流程图
“
历史纪录
”
査看文件的
HDFS
路径
,
单击
“
复制
”
,
程烦琐
、
专业性强
,
笔者经过反复实践
,
已验证了过
程的可执行性
。
可将文件的路径复制下来备用。
(
二
)
将上传到大数据平台上的
jar
包下载到
参考文献
[1]
lijing
Hadoop[EB/OL].
(2018T0T7)
[2020P4-02].
Linux
系统中
hdfs
dfs
-get
<
文件路径
>
https
:
///doc/5381608
_
.
hdfs
dfs
-get
<
文件
[2]
xiao_fu_ying
.
Java
和
Hadoop
的关系
[EB/OL].
(2013-07-01)
路径
〉
[2020~04
03].https
:
//w
/gather_23/MtTaYgys
[3]
林子雨
.
大数据技术原理与应用
[M].
北京
:
人民邮电岀版社
,
验证复制的文件是否已经下载到本地
,
执行命令
:
Is
(
三
)
编辑需要统计单词数的数据文件
,
并上传
2019.
[4]
和
Hadoop
的区别和比较
[EB/OL].
(2019-01-23
)
[2020^04-03].
https
:
//blog.
/wxl528159409/article/
到
hdfs
路径
vi
MR
data
details/86612211.
[5]
黄勇
.
Maven
那点事儿
[EB/OL].
(2014
0120)
[2020-04-03],
http
:
///huangyong/
blog/194583?fromerr=Dmf7
HPwX.
[6]
彩色贝.
Maven
之
配置文件详解
[EB/OL].
(2018-03-04)
按
i
进入编辑模式
,
录入文件内容
,保存退出
。
将保存好的文件上传到
HDFS
路径
:
hdfs
dfs
-mkdir
/stu
lisi
hdfs
dfs
-put
MR
data
/stu_lisi
[2020
-
04-03]
https
:
//blog,
/qq_33363618/article/
details/79438044.
(
四)
线上执行程序
[7]
Alan_ckc.
详解
[EB/OL].
(2018T0
-
08
)
[2020-04-03]
・
https
:
//blog.
/ckc_666/
article/details/82965150.
命令如下
:
68
版权声明:本文标题:基于“线下+线上”的大数据编程环境构建实践 内容由网友自发贡献,该文观点仅代表作者本人, 转载请联系作者并注明出处:http://roclinux.cn/p/1713274051a626989.html, 本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。
发表评论