【全程记录】一次数据分析和可视化的大作业(python) 您所在的位置:网站首页 基于python的大数据分析 【全程记录】一次数据分析和可视化的大作业(python)

【全程记录】一次数据分析和可视化的大作业(python)

2023-06-07 15:22| 来源: 网络整理| 查看: 265

一、概述

本帖记录了一次从头到尾的作业过程(从导入数据集,经过数据处理与分析,到可视化数据,再到最终总结。包括遇到的问题与解决办法),其中运用到的知识来源于学校老师和bilibili教学视频,其中教学视频如下:

【【莫烦Python】Matplotlib Python 画图教程】

https://www.bilibili.com/video/BV1Jx411L7LU?vd_source=6cd5aa6c6bc6ca847fee566ff42f216a

【吹爆!终于有人把seaborn可视化讲得这么清晰了!2021最强的Python数据分析教程之seaborn精讲 简单明了 通俗易懂!】https://www.bilibili.com/video/BV1HF411B72n?vd_source=6cd5aa6c6bc6ca847fee566ff42f216a

【2023年度最佳python数据分析教程(numpy+matplotlib+pandas),整整200集,七周精通,拿走不谢】https://www.bilibili.com/video/BV1Jt4y1h7Vt?vd_source=6cd5aa6c6bc6ca847fee566ff42f216a

二、过程 1、数据准备(导入数据集)

我的数据集选择的是kaggle上的经典数据集——“Titanic”,其是一个常用的数据集,提供了关于泰坦尼克号乘客的各种信息,如姓名、年龄、性别、船票等级、生存情况等。

其中导入方式有两种,下面分别介绍:

① 代码下载实现

import opendatasets as od import pandas as pd # 下载Titanic数据集 dataset_url = 'https://www.kaggle.com/c/titanic/download/train.csv' od.download(dataset_url, './data') # 加载CSV数据集 dataset_path = './data/train.csv' data = pd.read_csv(dataset_path) # 打印数据集的前几行 print(data.head())

上述代码中,我们通过opendatasets库实现该数据集的下载,并且通过pandas库展示了数据集的前几行。

需要注意的是,如果出现了如下报错,可能是因为加速器或者VPN的使用,关闭VPN或者等待一会儿重新刷新即可。

② 直接在kaggle官网上下载数据集,然后上传至jupyter notebook

我在这里使用的是第二种方法,直接使用名称调用数据集即可

name = 'train.csv' data = pd.read_csv(name) 2、数据准备与清洗

在一步中,我们将进行数据的准备与缺失值的补充

首先,我们先查看数据集的基本情况:

# 输出数据集的行数和列数 num_rows, num_cols = data.shape print("数据集行数:", num_rows) print("数据集列数:", num_cols) # 输出数据集的基本信息 print("\n数据集的基本信息:") print(data.info())

然后,我们进行缺失值的处理:

处理过程分为两步:

第一步是输出缺失值的数量:

# 检查每列的缺失值数量 missing_values = data.isnull().sum() print("\n缺失值数量:") print(missing_values)

第二步是填充缺失值(以‘age’列为例,以平均值填充):

data['Age'].fillna(data['Age'].mean(), inplace=True)

然后,我们进行异常数据的过滤(以‘Fare’列为例):

(我们在这里假设Fare大于99的就是异常值)

data = data[data['Fare']


【本文地址】

公司简介

联系我们

今日新闻

    推荐新闻

    专题文章
      CopyRight 2018-2019 实验室设备网 版权所有