设为首页收藏本站

开启辅助访问

2019疫情海量数据挖掘分析与可视化实战（源码数据见附件）

您所在的位置：网站首页 › 数据预处理实战总结报告 › 2019疫情海量数据挖掘分析与可视化实战（源码数据见附件）

2019疫情海量数据挖掘分析与可视化实战（源码数据见附件）

2024-07-08 03:49| 来源: 网络整理| 查看: 265

实验总体要求如下：

所有流程附上处理代码和处理完成截图

数据预处理与导入1、2019_nCoV_data.csv是2020年1月-3月世界新冠疫情的数据，要求对2019_nCoV_data.csv进行数据预处理做以下操作，要求：

1.Sno编号列没有用，需要删除

2.部分国家对应的地区为NAN，需要填充为空白字符串

3.部分国家/地区，受感染人数为0，也被列在表格中，需要删去

4.查看受影响的国家/地区的数量，Country一列中将'Mainland China', 'Hong Kong' , 'Macau', 'Taiwan' 等统一修正为'China'；另外需将'Korea, South'改为'South Korea'。

2.对于DXYArea.csv也需要进行数据预处理，要求做以下操作：

1.由于数据国内省级行政区中香港、澳门、台湾的数据都是按省统计的，因此需要将这三个地区的province_confirmedCount、province_suspectedCount、province_curedCount、province_deadCount的数据赋值到city_confirmedCount、city_suspectedCount、city_curedCount、city_deadCount。

2.countryEnglishName一列中将 'HongKong' , 'Macao'等统一修正为'China'

3.将updateTime转换成date格式（输出为该数据的新列updateTime1，也就是只保留日期部分）。

4.因为大部分城市都没有加“市”字，所以要把直辖市的下属区的“区”字去掉；还有一些没有变化规律的城市名字，可以通过city_rename的字典进行修改。

3、观察处理后的2019_nCoV_data.csv发现，这个原始表格每天会把最新的数据更新在表格最后，而且并不是每天每个国家都会更新数据，所以需要筛选出每个国家的最新数据

（1）将Date转化为datetime格式，方便操作后面进行时间的比较。

按国家+城市字段分组，方便进行时间上的筛选。

4、通过以上处理，经查看后又发现一个问题，比如Australia，一开始是以国家为单位报数据，之后又分成小区域报数据，会导致计算重复，所以要删除这部分数据；但也不能直接删，因为不知道有多少国家的数据有这个问题。

（3）筛选出国家对应的城市字符串为空，且该国家下的城市（包括空字符串）数量大于一的数据，删除这些数据。

5、对预处理后的DXYArea.csv数据也需要进行最新数据提取工作

二、数据分析与挖掘阶段

1.普通数据分析

1.根据2019_nCoV_data.csv预处理后的数据，查看2020年1月-3月最新数据中，除中国外世界各国总感染数据，找出前top10的国家

2.根据处理后的DXYArea.csv查看全国各省确诊病例数量，统计相关信息。

3.根据处理后的DXYArea.csv统计全国总体累计趋势。

4.根据处理后的DXYArea.csv，找出你关注的几座城市统计各城市总体累计趋势。

5.根据处理后的DXYArea.csv，自选我国的一个省，查看该省内各市的确诊比例。

6.根据处理后的DXYArea.csv，筛选除湖北省外其他各地区确诊病例数量，找出前top10的城市，统计相关信息。

7.筛选除湖北省外其他各省确诊病例数量，找出前top10的省份，统计相关信息。

2.数据挖掘阶段

8.请预测2020年6月份哪些国家的确诊人数最多、死亡人数最多，分别是多少。

三、疫情数据可视化大屏制作

（1）选取6个及以上分析指标数据进行疫情数据可视化大屏制作；

（2）利用Javaweb或Flask/Django框架等+Echarts实现以上可视化。

【本文地址】

公司简介

联系我们

CopyRight 2018-2019 实验室设备网版权所有