【全程记录】一次数据分析和可视化的大作业(python) | 您所在的位置:网站首页 › 基于python的大数据分析 › 【全程记录】一次数据分析和可视化的大作业(python) |
一、概述
本帖记录了一次从头到尾的作业过程(从导入数据集,经过数据处理与分析,到可视化数据,再到最终总结。包括遇到的问题与解决办法),其中运用到的知识来源于学校老师和bilibili教学视频,其中教学视频如下: 【【莫烦Python】Matplotlib Python 画图教程】 https://www.bilibili.com/video/BV1Jx411L7LU?vd_source=6cd5aa6c6bc6ca847fee566ff42f216a 【吹爆!终于有人把seaborn可视化讲得这么清晰了!2021最强的Python数据分析教程之seaborn精讲 简单明了 通俗易懂!】https://www.bilibili.com/video/BV1HF411B72n?vd_source=6cd5aa6c6bc6ca847fee566ff42f216a 【2023年度最佳python数据分析教程(numpy+matplotlib+pandas),整整200集,七周精通,拿走不谢】https://www.bilibili.com/video/BV1Jt4y1h7Vt?vd_source=6cd5aa6c6bc6ca847fee566ff42f216a 二、过程 1、数据准备(导入数据集)我的数据集选择的是kaggle上的经典数据集——“Titanic”,其是一个常用的数据集,提供了关于泰坦尼克号乘客的各种信息,如姓名、年龄、性别、船票等级、生存情况等。 其中导入方式有两种,下面分别介绍: ① 代码下载实现 import opendatasets as od import pandas as pd # 下载Titanic数据集 dataset_url = 'https://www.kaggle.com/c/titanic/download/train.csv' od.download(dataset_url, './data') # 加载CSV数据集 dataset_path = './data/train.csv' data = pd.read_csv(dataset_path) # 打印数据集的前几行 print(data.head())上述代码中,我们通过opendatasets库实现该数据集的下载,并且通过pandas库展示了数据集的前几行。 需要注意的是,如果出现了如下报错,可能是因为加速器或者VPN的使用,关闭VPN或者等待一会儿重新刷新即可。 ② 直接在kaggle官网上下载数据集,然后上传至jupyter notebook 我在这里使用的是第二种方法,直接使用名称调用数据集即可 name = 'train.csv' data = pd.read_csv(name) 2、数据准备与清洗在一步中,我们将进行数据的准备与缺失值的补充 首先,我们先查看数据集的基本情况: # 输出数据集的行数和列数 num_rows, num_cols = data.shape print("数据集行数:", num_rows) print("数据集列数:", num_cols) # 输出数据集的基本信息 print("\n数据集的基本信息:") print(data.info())然后,我们进行缺失值的处理: 处理过程分为两步: 第一步是输出缺失值的数量: # 检查每列的缺失值数量 missing_values = data.isnull().sum() print("\n缺失值数量:") print(missing_values)第二步是填充缺失值(以‘age’列为例,以平均值填充): data['Age'].fillna(data['Age'].mean(), inplace=True)然后,我们进行异常数据的过滤(以‘Fare’列为例): (我们在这里假设Fare大于99的就是异常值) data = data[data['Fare'] |
CopyRight 2018-2019 实验室设备网 版权所有 |