【全程记录】一次数据分析和可视化的大作业（python）

2023-06-07 15:22| 来源: 网络整理| 查看: 265

一、概述

本帖记录了一次从头到尾的作业过程（从导入数据集，经过数据处理与分析，到可视化数据，再到最终总结。包括遇到的问题与解决办法），其中运用到的知识来源于学校老师和bilibili教学视频，其中教学视频如下：

【【莫烦Python】Matplotlib Python 画图教程】

https://www.bilibili.com/video/BV1Jx411L7LU?vd_source=6cd5aa6c6bc6ca847fee566ff42f216a

【吹爆！终于有人把seaborn可视化讲得这么清晰了！2021最强的Python数据分析教程之seaborn精讲简单明了通俗易懂！】https://www.bilibili.com/video/BV1HF411B72n?vd_source=6cd5aa6c6bc6ca847fee566ff42f216a

【2023年度最佳python数据分析教程(numpy+matplotlib+pandas)，整整200集，七周精通，拿走不谢】https://www.bilibili.com/video/BV1Jt4y1h7Vt?vd_source=6cd5aa6c6bc6ca847fee566ff42f216a

二、过程 1、数据准备（导入数据集）

我的数据集选择的是kaggle上的经典数据集——“Titanic”，其是一个常用的数据集，提供了关于泰坦尼克号乘客的各种信息，如姓名、年龄、性别、船票等级、生存情况等。

其中导入方式有两种，下面分别介绍：

① 代码下载实现

import opendatasets as od import pandas as pd # 下载Titanic数据集 dataset_url = 'https://www.kaggle.com/c/titanic/download/train.csv' od.download(dataset_url, './data') # 加载CSV数据集 dataset_path = './data/train.csv' data = pd.read_csv(dataset_path) # 打印数据集的前几行 print(data.head())

上述代码中，我们通过opendatasets库实现该数据集的下载，并且通过pandas库展示了数据集的前几行。

需要注意的是，如果出现了如下报错，可能是因为加速器或者VPN的使用，关闭VPN或者等待一会儿重新刷新即可。

② 直接在kaggle官网上下载数据集，然后上传至jupyter notebook

我在这里使用的是第二种方法，直接使用名称调用数据集即可

name = 'train.csv' data = pd.read_csv(name) 2、数据准备与清洗

在一步中，我们将进行数据的准备与缺失值的补充

首先，我们先查看数据集的基本情况：

# 输出数据集的行数和列数 num_rows, num_cols = data.shape print("数据集行数:", num_rows) print("数据集列数:", num_cols) # 输出数据集的基本信息 print("\n数据集的基本信息：") print(data.info())

然后，我们进行缺失值的处理：

处理过程分为两步：

第一步是输出缺失值的数量：

# 检查每列的缺失值数量 missing_values = data.isnull().sum() print("\n缺失值数量：") print(missing_values)

第二步是填充缺失值（以‘age’列为例，以平均值填充）：

data['Age'].fillna(data['Age'].mean(), inplace=True)

然后，我们进行异常数据的过滤（以‘Fare’列为例）：

（我们在这里假设Fare大于99的就是异常值）

data = data[data['Fare']

【本文地址】

公司简介

联系我们