admin 管理员组文章数量: 1086019
2024年5月5日发(作者:谢兆莹shelly)
Hot
Spot
热点
基于
Python
实现的新冠
疫情数据挖掘案例分析
闻思源王睿刘庆旺
作者单位
:
闻思源
,
山东财经大学
管理科学与工程学院
王睿
,
山东财经大学管理科学与工
程学院
刘庆旺,
山东咼速舜通路桥工程有
限公司
22
【
摘要】
本案例以数据挖掘过程中的数据获取
、
数据清洗
、
数据可视化
、
数据挖掘典
型算法应用
、
挖掘结果分析作为教学主线条
,
以从
2020
年初以来开始公开发布的国内外
新冠疫情实时更新数据作为数据基础
,以
Python3.7
及
Request
、Numpy
、
Pandas
、
Matplotlib
、
Pyecharts
、
Scikit-learn
等数据处理与分析相关常用包库作为技术实现工具,实现数据挖掘
的基本过程
。
通过本案例的社会性分析
,
可以使学生建立数据联想和析因能力基础
,
增强
学生用数据挖掘技术解决管理学问题的能力
。
【
关键词
】
Python
;
新冠疫情;数据挖掘;案例分析
0
绪言
数据挖掘是指从大量数据中揭示出隐含的
、
先前未知的并有潜在价值的信息的非平
凡过程
。
在当前伴随信息革命而产生数据爆炸的情况下
,
数据挖掘已成为一种非常重要
的决策支持方法叫数据挖掘主要基于数据库
、
统计学
、
可视化技术
、
智能自学习等数学方
法
,
高度自动化地分析数据,做出归纳性的推理和挖掘潜在模式
,
从而帮助决策者做出正
确的判断
,
数据挖掘过程由以下三个阶段组成:数据准备;数据挖掘
;
结果表达和解释
。
在
《
数据挖掘技术
》
课程的教学过程中
,
缺乏具有时效性强的足量数据
、
学生对于数
据挖掘理论与实践相结合方法论难以建立起系统化概念
,
对数据挖掘结果难以有效地进
行深入析因
,
这是教学过程中面临的主要难点
。
1
案例背景
2019
年底以来
,
世界各地普遍爆发了新型冠状肺炎疫情
,
波及范围之广
,
损失之大
,
社会影响之严重,近几百年来前所未有
。
由于信息技术的广泛应用
,
使得此次疫情数据非
常充分地得到了记录
,
并且通过互联网进行公开发布
,
为本课程的教学以及管理科学实
践提供了难得的数据基础
、
技术实现平台和挖掘分析空间
。
针对本次疫情
,
各个国家和医疗相关机构都有实时数据发布
,
如
(
1
)
News
Break
从国
际卫生组织
(
WHO
)、
美国国家健康中心
、
中国疾病预防控制中心等权威发布机构获得并
发布的疫情数据
;
(
2)美国约翰
.
霍普金斯大学的全球疫情数据大屏
;
(
3
)
中国百度公司根
据国家卫生与健康委员会数据接口发布的疫情地图
。
通过数据探查,从数据权威性
、
获取
可行性和数据完备性角度综合考虑
,
决定本案例数据源中
涉及的国外疫情数据采用
News
Break
发布数据
,
国内疫情
数据采用百度疫情地图数据
。
2
案例构成要素
本案例以从
2020
年初以来开始公开发布的国内外新
冠疫情实时更新数据作为数据基础
,
以
Python3.7
及
Request
、
Numpy
、
Pandas
、
Matplotlib
、
Pyecharts
、
Scikit-learn
等
数据处理与分析相关常用包库作为技术实现工具
,
实现
数据挖掘的基本过程
[
2-3
本案例的构成要素主要包括以下
内容
:
(
1
)
网络数据的爬取
。
以
Request
包和作为数据爬取基
本工具包,调用其方法获得网页源文件
,
由于数据是实时
发布,本案例采用在线爬取
(
每天定时采集
)
和离线爬取
(
从离线网页源文件中分离
)
两种方式进行源数据获取
。
(
2
)
源数据的解析与清洗
。
首先通过
Pandas
包
、
BeautifulSoup
包结合
Python
的字典
、
列表和集合数据操
作
,
从网页源文件中分离出
Json
格式的疫情数据作为原
始数据源
,
然后从其中分离出国内和国外疫情数据项
,
具
体内容包括
:
累积确诊数量
、
每日新增确诊数量
、
疑似数
量
、
重症数量
、
死亡数量、
累积治愈数量
、
无症状感染数量、
境外输入确诊数量等
,国内数据精确到地级市,
国外数据
中
,
美国精确到州和主要城市
,
其他国家精确到国家
;
再通
过
Pandas
包中方法对数据进行规范化清洗处理
,
具体包
括:无效值排除
、
缺失
/
空值填充
、
异常值
/
重复值处理
、
更
改格式
、
排序分组等
,
从而得到适合挖掘分析的规范全结
构化数据
。
(
3
)
数据基础统计
。
利用
Pandas
包提供的统计学方
法
,
完成均值
、
标准差
、
中位数
、
分位数
、
峰度
、
偏度
、
极值等
统计运算
,从而对各国家和地区疫情数据基于时间窗口做
基础性统计
;
(
4
)
数据静态可视化
。
利用
Matplotlib
包提供的数据显
示图形化方法
,
利用前述各数据项生成绝对指标
(
如各地
区感染总数
)
和相对指标
(
如感染总人数的各地区构成比
例
、
A
地区与
B
地区确诊数量比值等
)
随时间的数值变化
曲线
,
通过随时间的纵向曲线
、
以地区为单位的横向对比
等图形充分从不同角度展现数据基本面
。
Shanghai
Business
12
月刊
2020
(
5
)
数据动态可视化
。
利用
Pyecharts
包中提供的地图
数据和相关图形化方法
,
针对前述的各绝对指标和相对指
标,生成时间线轮播多图
、
地区分布图
、
地区热图等,
从而
动态展示疫情严重程度的变化
、
不同地区的疫情规模和发
展趋势叫
(
6
)
实施数据挖掘算法应用
。
利用
Scikit-learn
包中提
供的数据挖掘方法
,
通过回归分析考察疫情规模的相关因
素
,
通过预测分析考察各项指标随时间的发展变化趋势
,
通过聚类分析考察各地区疫情状况的相似性和不同分
级叫
(
7
)
数据分析
。
通过前述各指标的数据统计结果和数
据挖掘结果
,
站在比较性分析的角度
,
分别从效率质量两
个方面分析中国和美国
、
中国和欧洲
、
中国和世界其他国
家和地区在疫情防控方面的差别
,
并深入挖掘不同效果的
社会根源
,
从而在基于客观数据和科学挖掘分析的基础上
建立充分的制度自信
、
文化自信
、
发展自信
。
3
小结
本案例改变传统案例侧重于算法解释,与现实社会和
经济问题脱节严重的情况
,
通过对疫情数据统计与挖掘结
果的析因分析
,
在培养学生数学算法和技术能力的同时
,
更加注重数据联系现实
,
增强学生用数据挖掘辅助解决管
理学问题的能力
。
【
参考文献
】
[1
]
冯伊平
,
费万堂
,
王卓瑜
,
陈磊
,
魏敏
.
基于数据挖掘算法
数据模型实现大数据分析的方法研究
[
J
]
.
电子测量技术
,
2020
(
03
)
.
[
2
]
杨梓
,
张□
.
金融数据分析中
Python
语言的运用探究
[
J
]
.
大众投资指南
,
2020
(
10
)
.
[
3
]
李冬睿
,杨颖,
杨善友
,
邱尚明
,
罗拥华
.
基于成果导向的
Python
应用开发课程标准的开发
[
J
]
.
信息系统工程
,
2019
(
12
)
.
[
4
]
张运玉
.
基于
Python
的数据分析的研究
[
J
]
.
电脑知识与技
术
,
2019
(30
)
.
[
5
]
郝海妍
,
潘萍
.
Python
技术在数据分析中的应用
[
J
]
.
电子
技术与软件工程
,
2020
(
12
)
.
23
版权声明:本文标题:基于Python实现的新冠疫情数据挖掘案例分析 内容由网友自发贡献,该文观点仅代表作者本人, 转载请联系作者并注明出处:http://roclinux.cn/p/1714884589a684168.html, 本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。
发表评论