2019疫情海量数据挖掘分析与可视化实战(源码数据见附件) 您所在的位置:网站首页 数据预处理实战总结报告 2019疫情海量数据挖掘分析与可视化实战(源码数据见附件)

2019疫情海量数据挖掘分析与可视化实战(源码数据见附件)

2024-07-08 03:49| 来源: 网络整理| 查看: 265

实验总体要求如下:

所有流程附上处理代码和处理完成截图

    

数据预处理与导入1、2019_nCoV_data.csv是2020年1月-3月世界新冠疫情的数据,要求对2019_nCoV_data.csv进行数据预处理做以下操作,要求:

1.Sno编号列没有用,需要删除

2.部分国家对应的地区为NAN,需要填充为空白字符串

3.部分国家/地区,受感染人数为0,也被列在表格中,需要删去

4.查看受影响的国家/地区的数量,Country一列中将'Mainland China', 'Hong Kong' , 'Macau',  'Taiwan' 等统一修正为'China';另外需将'Korea, South'改为'South Korea'。

2.对于DXYArea.csv也需要进行数据预处理,要求做以下操作:

1.由于数据国内省级行政区中香港、澳门、台湾的数据都是按省统计的,因此需要将这三个地区的province_confirmedCount、province_suspectedCount、province_curedCount、province_deadCount的数据赋值到city_confirmedCount、city_suspectedCount、city_curedCount、city_deadCount。

2.countryEnglishName一列中将 'HongKong' , 'Macao'等统一修正为'China' 

3.将updateTime转换成date格式(输出为该数据的新列updateTime1,也就是只保留日期部分)。

4.因为大部分城市都没有加“市”字,所以要把直辖市的下属区的“区”字去掉;还有一些没有变化规律的城市名字,可以通过city_rename的字典进行修改。

3、观察处理后的2019_nCoV_data.csv发现,这个原始表格每天会把最新的数据更新在表格最后,而且并不是每天每个国家都会更新数据,所以需要筛选出每个国家的最新数据

(1)将Date转化为datetime格式,方便操作后面进行时间的比较。

按国家+城市字段分组,方便进行时间上的筛选。

4、通过以上处理,经查看后又发现一个问题,比如Australia,一开始是以国家为单位报数据,之后又分成小区域报数据,会导致计算重复,所以要删除这部分数据;但也不能直接删,因为不知道有多少国家的数据有这个问题。

(3)筛选出国家对应的城市字符串为空,且该国家下的城市(包括空字符串)数量大于一 的数据,删除这些数据。

5、对预处理后的DXYArea.csv数据也需要进行最新数据提取工作

二、数据分析与挖掘阶段

1.普通数据分析

1.根据2019_nCoV_data.csv预处理后的数据,查看2020年1月-3月最新数据中,除中国外世界各国总感染数据,找出前top10的国家

2.根据处理后的DXYArea.csv查看全国各省确诊病例数量,统计相关信息。

 

3.根据处理后的DXYArea.csv统计全国总体累计趋势。

4.根据处理后的DXYArea.csv,找出你关注的几座城市统计各城市总体累计趋势。

5.根据处理后的DXYArea.csv,自选我国的一个省,查看该省内各市的确诊比例。

6.根据处理后的DXYArea.csv,筛选除湖北省外其他各地区确诊病例数量,找出前top10的城市,统计相关信息。

7.筛选除湖北省外其他各省确诊病例数量,找出前top10的省份,统计相关信息。

2.数据挖掘阶段

8.请预测2020年6月份哪些国家的确诊人数最多、死亡人数最多,分别是多少。

 

三、疫情数据可视化大屏制作

(1)选取6个及以上分析指标数据进行疫情数据可视化大屏制作;

(2)利用Javaweb或Flask/Django框架等+Echarts实现以上可视化。



【本文地址】

公司简介

联系我们

今日新闻

    推荐新闻

    专题文章
      CopyRight 2018-2019 实验室设备网 版权所有