2020年入门数据分析选择Python还是SQL?七个常用操作对比! 您所在的位置:网站首页 dataframe增加一行用哪种方法效率高 2020年入门数据分析选择Python还是SQL?七个常用操作对比!

2020年入门数据分析选择Python还是SQL?七个常用操作对比!

2024-05-07 10:11| 来源: 网络整理| 查看: 265

SQL和Python几乎是当前数据分析师必须要了解的两门语言,它们在处理数据时有什么区别?本文将分别用MySQL和pandas来展示七个在数据分析中常用的操作,希望可以帮助掌握其中一种语言的读者快速了解另一种方法!

在阅读本文前,你可以访问下方网站下载本文使用的示例数据,并导入MySQL与pandas中,一边敲代码一边阅读!

代码语言:javascript复制https://raw.githubusercontent.com/pandas-dev/pandas/master/pandas/tests/io/data/csv/tips.csv

一、选择

在SQL中,我们可以使用SELECT语句从表选择数据,结果被存储在一个结果表中,语法如下:

代码语言:javascript复制SELECT column_name,column_name FROM table_name;

如果不想显示全部的记录,可以使用TOP或LIMIT来限制行数。因此选择tips表中的部分列可以使用下面的语句

代码语言:javascript复制SELECT total_bill, tip, smoker, time FROM tips LIMIT 5;

而在pandas中,我们可以通过将列名列表传递给DataFrame来完成列选择

在SQL中,进行选择的同时还可以进行计算,比如添加一列

代码语言:javascript复制SELECT *, tip/total_bill as tip_rate FROM tips LIMIT 5;

在pandas中使用DataFrame.assign()同样可以完成这个操作

二、查找

单条件查找

在SQL中,WHERE子句用于提取那些满足指定条件的记录,语法如下

代码语言:javascript复制SELECT column_name,column_name FROM table_name WHERE column_name operator value;

比如查找示例数据中time = dinner的记录

代码语言:javascript复制SELECT * FROM tips WHERE time = 'Dinner' LIMIT 5;

而在pandas中,按照条件进行查找则可以有多种形式,比如可以将含有True/False的Series对象传递给DataFrame,并返回所有带有True的行

多条件查找

在SQL中,进行多条件查找可以使用AND/OR来完成

代码语言:javascript复制SELECT * FROM tips WHERE time = 'Dinner' AND tip > 5.00;

在pandas中也有类似的操作

查找空值

在pandas检查空值是使用notna()和isna()方法完成的。

代码语言:javascript复制frame[frame['col1'].notna()]

在SQL中可以使用IS NULL和IS NOT NULL完成

代码语言:javascript复制SELECT * FROM frame WHERE col2 IS NULL; SELECT * FROM frame WHERE col1 IS NOT NULL;

三、更新

在SQL中使用UPDATE

代码语言:javascript复制UPDATE tips SET tip = tip*2 WHERE tip < 2;

而在pandas中则有多种方法,比如使用loc函数

代码语言:javascript复制tips.loc[tips['tip'] < 2, 'tip'] *= 2

四、删除

在SQL中使用DELETE

代码语言:javascript复制DELETE FROM tips WHERE tip > 9;

在pandas中,我们选择应保留的行,而不是删除它们

代码语言:javascript复制tips = tips.loc[tips['tip']


【本文地址】

公司简介

联系我们

今日新闻

    推荐新闻

    专题文章
      CopyRight 2018-2019 实验室设备网 版权所有