admin 管理员组

文章数量: 1087139


2024年4月16日发(作者:c语言条件运算符运算规则)

职业教育

•案例研究

基于

线下

+

线上

的大数据编程环境构建实践

蒋道霞

秦媛媛

何玉林

(江苏财经职业技术学院

江苏淮安

223000)

摘要

针对职业院校大数据技术与应用新专业核心课程的教学需要

通过经典大数据单词统计

MapReduce

程序实例,

釆用

线下开发环境部署

程序调试和打包方法

利用华为大数据平台线上执行程序

为职业院校学生在疫情期间开展

线上

+

线下

居家学习提供有针对性的技能训练实践指导

经过反复实践

验证过程的可执行性

关键词

线下

+

线上

大数据

编程环境

大数据平台

中图分类号

TP311

文献标识码

B

文章编号

2095-4530

(2020)

35-0066-03

大数据是一种规模大到在获取

存储

管理

环境变量配置

依赖库加载

程序设计

代码录入调试

析方面大大超出传统数据库软件工具能力范围的数据

等软件专业技能实训

再利用开源的

Hadoop

平台

集合

是需要新处理模式

要求人们具有更强的决策力

择商用的大数据产品

线上运算执行

最终得到程序

洞察力和流程优化能力的

、多样化的信息资产

目前

运行的结果

二是开展线上授课和线上学习等在线教

大数据技术已经应用于互联网

电信

金融

道路交通

学活动

实现

停课不停教

停课不停学

但对于实

购物

社交平台等领域

践操作性很强的专业课程

靠线上教学是远远不够的

近年来

随着大数据技术的飞速发展

大数据技

应加强线下学生相关的实践训练操作

这就需要教师

术专业人才的缺口加大

职业院校承载着高素质技术技

根据授课内容编制步骤完备

技术性强

可操作性强

能型人才培养的重要任务

大数据技术与应用专业在各

且容易独立完成的实验指导书

而针对

Hadoop

核心技

学校广泛开设

作为一个新兴专业

,如何制订适合市场

术的学习

大量的编程训练是必不可少的。

需要的人才培养方案

加强专业核心课程的教学改革

是各校特别重视的问题

大数据的教学现状

大数据的教学需求

2008

年起

美国斯坦福大学把大数据技术设置

为学生必学的现代科学技术课程之一

2017

英国

核心课程是实施人才培养方案的重要载体

大数

开放了关于交通运输

健康和天气等方面的公共数据

据原理与应用是大数据技术与应用专业的入门及专业

并投资建立世界首个

开放数据研究所

。法国政

核心课程

该课程的教学质量直接影响学生后续课程的

府在发布

数字化路线图

时表示

将大力支持大数

专业技术基础掌握情况。

基于

线下

+

线上

的大数据

据等高新技术。

同时

新加坡

澳大利亚和美国等国

编程环境

包含两层含义

一是线下编程

然后线上执

高校都开设了大数据课程

鉴于大数据成为各国的竞

也就是说在本地构建编程的环境

程序编译经调试

争力之一

我国于

2016

年发布的

2015

年度普通高等

完成后

将其加载到大数据平台上执行。

这一操作需要

学校本科专业备案和审批结果

将数据科学与大数据

本地构建专业的软件开发环境

对学生进行软件安装

技术专业列入专业体系建设计划

截至

2018

我国

收稿日期

2020-08-03

作者简介

蒋道霞

江苏财经职业技术学院教授

博士

研究方向

计算机网络

、移动互联网、

大数据技术

、高职教育

课题项目

2019

年江苏省大学生实践创新项目

(

2Y)

66

2020

12

月第

19

卷第

35

Dec.

2020

Vol.

19

No.35

已有

248

所高校开设了大数据专业

Maven

的配置文件

,

存放在两个位置

一个是主配置文件

Maven

安装目录的

conf

目录下

大数据编程教学的相关技术

Java

Hadoop

的关系

大数据行业的标准

Hadoop,

是一个开源的可运行

对所有使用该

Maven

的用户都起作用

另外一个放在

%USERPROFILE%/.m2/

称为用户配置

文件

只对当前用户有效

且可以覆盖主配置文件的

参数内容

settings

文件配置的是诸如

repository

库路径

之类的全局信息

具体可以参考官方网站

Maven

还有一个项目对象模型

POM

(Project

Object

于大规模集群上的分布式文件系统和运行处理基础框

擅长于在廉价机器搭建的集群上进行海量数据

构化与非结构化

的存储与离线处理

Doug

Cutting

Hadoop

的创始人

,同时是基于

Java

的检索引擎库

Apache

Lucene

的创始人

Hadoop

Model

文件

,

用于管理源代码、

配置文件

开发者的信息和角色

、问题追踪系统

组织信息

目授权

项目的

url

项目的依赖关系等叫

必要时用

最初用于开源搜索引擎

Apache

Nutch,

Apache

Nutch

户可以在

POM

中写一些配置

覆盖配置文件和用户配

本身是基于

Lucene

的一个子项目

因此

Hadoop

是基

Java

编写的叫

要实现大数据编程

首先要安装

Java

o

置文件的参数内容

Scala

IDE

for

Eclipse

集成开发环境

Eclipse

是基于

Java

的开放源代码可扩展开发平台

Scala

Spark

的关系

Hadoop

是分布式管理

存储

计算的生态系统

最初由

IBM

公司开发

它是一个框架和一组服务

于通过插件组件构建开发环境

并附带标准插件集

包括

HDFS

存储

MapReduce

计算

Yam

资源调

持诸如

Java,

C/C++

Scala

Python,

Android

等编

程语言

Scala

IDE

支持在

Eclipse

平台上开发

Scala

应用程

虽然

Hadoop

已成为大数据技术的标准

但其本

身还存在许多缺陷

MapReduce

计算模型延时较长

无法满足实时

快速计算的需求

只适用于离线批处

理的应用场景⑴

Spark

是一种分布式计算平台

在借

支持

Scala

语言以及与

Eclipse

Java

工具的集成

支持

Scala/Java

混合项目和

Scala/Java

项目依赖项的任

Hadoop

MapReduce

的同时

,很好地弥补了其存在的

不足

提供编程模型更灵活的多种数据集操作类型,

何组合等

Eclipse

用户所期望的特性

为了实现

Spark

功能

需要创设

Scala

IDE

for

Eclipse

集成开发环境

经很好地融入了

Hadoop

生态圈

Spark

是用

Scala

语言编写的计算框架

是基于内

存的快速

通用

可扩展的大数据分析引擎

Scala

是一门现代的多范式编程语言

集成了面向对象和函

大数据编程教学环境的构建

下面以经典的单词统计

WordCount

为例

构建

Hadoop

MapReduce

计算框架的编程环境及程序运行

数式语言的特性

以简练

优雅的方式来表达常用编

程模式

具有可扩展性

运行于

JVM

Java

虚拟机

兼容现有的

Java

o

要开发

Spark

应用程序

必须安装

Scala

0

过程

依靠本地环境

线下

和华为

Fusioninsight

大数

据平台环境

线上

先在本地搭建线下编程环境

Maven

项目

,编写相应代码

再将

Maven

项目打一

个可执行

jar

上传到

Fusioninsight

大数据平台上进

行操作

步骤如下图所示

Maven

工具

Maven

是一个项目管理工具

它统一了开发规范

与工具

并统一管理

jar

包问。

Maven

内置了开发流程

的支持

对依赖关系的特性进行细致的分析和划分

够完成编译

测试

打包

集成测试

验证

部署

按照步骤完成线下的程序调试

、编译和打包工作

然后上传到华为大数据实验平台线上执行。

_

jar

包上传到华为大数据实验平台

布等所有步骤

Maven

支持多种应用程序类型

对于

每一种支持的应用程序类型都定义好了一组构建规则

和工具集。

Maven

可以针对不同的开发场景

输出不

打开华为大数据实验平台

已部署好

点击

传文件

选择本地两个文件

只⑷

,

上传成功后

可通过旁边的

同种类的输出结果问

67

■I

职业教育

•案例研究

线下编程

线下子配置

线上执行

yam

jar

./

uce.

untApp

/stu

lisi/MR

data

/stu

lisi/

MRout

MR

输出结果在

/stu

lisi/MR

out

路径下面

会生成

一个结果文件

part-r-OOOOO,

用以下命令查看运行结果

hdfs

dfs -Is

/stu

lisi/MR

out

结语

本文从常用的大数据编程技术入手

通过大数据

技术的一个典型应用案例

单词统计的

MapReduce

MRWC,

介绍了大数据编程环境中的

Java

Scala,

Maven

Eclipse

的安装过程和环境配置

新建

Maven

项目过程中模型和原型插件选择

Scala

库版本配置,

Maven

项目对象模型

文件配置等技术

在本

地构建线下大数据程序调试环境

最后利用华为大数

据平台线上执行项目程序

因大数据编程环境部署过

基于

线下

+

线上

”的大数据编程环境构建流程图

历史纪录

査看文件的

HDFS

路径

单击

复制

程烦琐

专业性强

笔者经过反复实践

已验证了过

程的可执行性

可将文件的路径复制下来备用。

将上传到大数据平台上的

jar

包下载到

参考文献

[1]

lijing

Hadoop[EB/OL].

(2018T0T7)

[2020P4-02].

Linux

系统中

hdfs

dfs

-get

<

文件路径

>

https

///doc/5381608

_

.

hdfs

dfs

-get

<

文件

[2]

xiao_fu_ying

.

Java

Hadoop

的关系

[EB/OL].

(2013-07-01)

路径

[2020~04

03].https

//w

/gather_23/MtTaYgys

[3]

林子雨

.

大数据技术原理与应用

[M].

北京

人民邮电岀版社

验证复制的文件是否已经下载到本地

执行命令

Is

编辑需要统计单词数的数据文件

并上传

2019.

[4]

Hadoop

的区别和比较

[EB/OL].

(2019-01-23

)

[2020^04-03].

https

//blog.

/wxl528159409/article/

hdfs

路径

vi

MR

data

details/86612211.

[5]

黄勇

.

Maven

那点事儿

[EB/OL].

(2014

0120)

[2020-04-03],

http

///huangyong/

blog/194583?fromerr=Dmf7

HPwX.

[6]

彩色贝.

Maven

配置文件详解

[EB/OL].

(2018-03-04)

i

进入编辑模式

录入文件内容

,保存退出

将保存好的文件上传到

HDFS

路径

hdfs

dfs

-mkdir

/stu

lisi

hdfs

dfs

-put

MR

data

/stu_lisi

[2020

-

04-03]

https

//blog,

/qq_33363618/article/

details/79438044.

四)

线上执行程序

[7]

Alan_ckc.

详解

[EB/OL].

(2018T0

-

08

)

[2020-04-03]

https

//blog.

/ckc_666/

article/details/82965150.

命令如下

68


本文标签: 数据 环境 技术 编程 专业