admin 管理员组

文章数量: 1086019


2024年5月5日发(作者:谢兆莹shelly)

Hot

Spot

热点

基于

Python

实现的新冠

疫情数据挖掘案例分析

闻思源王睿刘庆旺

作者单位

闻思源

,

山东财经大学

管理科学与工程学院

王睿

山东财经大学管理科学与工

程学院

刘庆旺,

山东咼速舜通路桥工程有

限公司

22

摘要】

本案例以数据挖掘过程中的数据获取

数据清洗

数据可视化

数据挖掘典

型算法应用

挖掘结果分析作为教学主线条

以从

2020

年初以来开始公开发布的国内外

新冠疫情实时更新数据作为数据基础

,以

Python3.7

Request

、Numpy

Pandas

Matplotlib

Pyecharts

Scikit-learn

等数据处理与分析相关常用包库作为技术实现工具,实现数据挖掘

的基本过程

通过本案例的社会性分析

可以使学生建立数据联想和析因能力基础

增强

学生用数据挖掘技术解决管理学问题的能力

关键词

Python

新冠疫情;数据挖掘;案例分析

0

绪言

数据挖掘是指从大量数据中揭示出隐含的

先前未知的并有潜在价值的信息的非平

凡过程

在当前伴随信息革命而产生数据爆炸的情况下

数据挖掘已成为一种非常重要

的决策支持方法叫数据挖掘主要基于数据库

统计学

可视化技术

智能自学习等数学方

高度自动化地分析数据,做出归纳性的推理和挖掘潜在模式

从而帮助决策者做出正

确的判断

数据挖掘过程由以下三个阶段组成:数据准备;数据挖掘

结果表达和解释

数据挖掘技术

课程的教学过程中

缺乏具有时效性强的足量数据

学生对于数

据挖掘理论与实践相结合方法论难以建立起系统化概念

对数据挖掘结果难以有效地进

行深入析因

这是教学过程中面临的主要难点

1

案例背景

2019

年底以来

世界各地普遍爆发了新型冠状肺炎疫情

波及范围之广

损失之大

社会影响之严重,近几百年来前所未有

由于信息技术的广泛应用

使得此次疫情数据非

常充分地得到了记录

并且通过互联网进行公开发布

为本课程的教学以及管理科学实

践提供了难得的数据基础

技术实现平台和挖掘分析空间

针对本次疫情

各个国家和医疗相关机构都有实时数据发布

1

News

Break

从国

际卫生组织

WHO

)、

美国国家健康中心

中国疾病预防控制中心等权威发布机构获得并

发布的疫情数据

2)美国约翰

.

霍普金斯大学的全球疫情数据大屏

;

3

中国百度公司根

据国家卫生与健康委员会数据接口发布的疫情地图

通过数据探查,从数据权威性

获取

可行性和数据完备性角度综合考虑

决定本案例数据源中

涉及的国外疫情数据采用

News

Break

发布数据

国内疫情

数据采用百度疫情地图数据

2

案例构成要素

本案例以从

2020

年初以来开始公开发布的国内外新

冠疫情实时更新数据作为数据基础

Python3.7

Request

Numpy

Pandas

Matplotlib

Pyecharts

Scikit-learn

数据处理与分析相关常用包库作为技术实现工具

实现

数据挖掘的基本过程

2-3

本案例的构成要素主要包括以下

内容

1

网络数据的爬取

Request

包和作为数据爬取基

本工具包,调用其方法获得网页源文件

由于数据是实时

发布,本案例采用在线爬取

每天定时采集

和离线爬取

从离线网页源文件中分离

两种方式进行源数据获取

2

源数据的解析与清洗

首先通过

Pandas

BeautifulSoup

包结合

Python

的字典

列表和集合数据操

从网页源文件中分离出

Json

格式的疫情数据作为原

始数据源

然后从其中分离出国内和国外疫情数据项

体内容包括

累积确诊数量

每日新增确诊数量

疑似数

重症数量

死亡数量、

累积治愈数量

无症状感染数量、

境外输入确诊数量等

,国内数据精确到地级市,

国外数据

美国精确到州和主要城市

其他国家精确到国家

再通

Pandas

包中方法对数据进行规范化清洗处理

具体包

括:无效值排除

缺失

/

空值填充

异常值

/

重复值处理

改格式

排序分组等

从而得到适合挖掘分析的规范全结

构化数据

3

数据基础统计

利用

Pandas

包提供的统计学方

完成均值

标准差

中位数

分位数

峰度

偏度

极值等

统计运算

,从而对各国家和地区疫情数据基于时间窗口做

基础性统计

4

数据静态可视化

利用

Matplotlib

包提供的数据显

示图形化方法

利用前述各数据项生成绝对指标

如各地

区感染总数

和相对指标

如感染总人数的各地区构成比

A

地区与

B

地区确诊数量比值等

随时间的数值变化

曲线

通过随时间的纵向曲线

以地区为单位的横向对比

等图形充分从不同角度展现数据基本面

Shanghai

Business

12

月刊

2020

5

数据动态可视化

利用

Pyecharts

包中提供的地图

数据和相关图形化方法

针对前述的各绝对指标和相对指

标,生成时间线轮播多图

地区分布图

地区热图等,

从而

动态展示疫情严重程度的变化

不同地区的疫情规模和发

展趋势叫

6

实施数据挖掘算法应用

利用

Scikit-learn

包中提

供的数据挖掘方法

通过回归分析考察疫情规模的相关因

通过预测分析考察各项指标随时间的发展变化趋势

通过聚类分析考察各地区疫情状况的相似性和不同分

级叫

7

数据分析

通过前述各指标的数据统计结果和数

据挖掘结果

站在比较性分析的角度

分别从效率质量两

个方面分析中国和美国

中国和欧洲

中国和世界其他国

家和地区在疫情防控方面的差别

并深入挖掘不同效果的

社会根源

从而在基于客观数据和科学挖掘分析的基础上

建立充分的制度自信

文化自信

发展自信

3

小结

本案例改变传统案例侧重于算法解释,与现实社会和

经济问题脱节严重的情况

通过对疫情数据统计与挖掘结

果的析因分析

在培养学生数学算法和技术能力的同时

更加注重数据联系现实

增强学生用数据挖掘辅助解决管

理学问题的能力

参考文献

[1

冯伊平

费万堂

王卓瑜

陈磊

魏敏

.

基于数据挖掘算法

数据模型实现大数据分析的方法研究

J

.

电子测量技术

2020

03

.

2

杨梓

张□

.

金融数据分析中

Python

语言的运用探究

J

.

大众投资指南

2020

10

.

3

李冬睿

,杨颖,

杨善友

邱尚明

罗拥华

.

基于成果导向的

Python

应用开发课程标准的开发

J

.

信息系统工程

2019

12

.

4

张运玉

.

基于

Python

的数据分析的研究

J

.

电脑知识与技

,

2019

(30

.

5

郝海妍

潘萍

.

Python

技术在数据分析中的应用

J

.

电子

技术与软件工程

2020

12

.

23


本文标签: 数据 疫情 分析 数据挖掘 案例