Pandas 最简单的方法实现真正的并行

2024-07-15 10:37| 来源: 网络整理| 查看: 265

本文介绍一种简单的方法实现pandas的并行，从而实现数倍的速度提升，用到以下python库：

pandaspandarallel

说明：pandarallel 只能在linux和mac os上使用，win党可以退了...

0. 闲扯

pandas 应该是应该python 中应用最广泛的数据处理库了，但是广为诟病的是速度处理比较慢，无法充分利用计算机的资源。在处理海量的数据或者文本时，我们希望能利用所有的CPU线程来加速。但是Python的多线程和多进程写起来比较麻烦，其中的多线程因为GIL（全局解释锁）的原因还是伪多线程。

在网上查找资料时，也有很多1行代码实现Python并行的文章，但是试验下来效果都不是很理想，比如在网上流传很广的 Parallelism in One Line，实际上用到 python 中的 map 函数，虽然是实现了多线程，但是每一个线程的利用率都很低，相比单线程基本上没有提升。

本文介绍一种能非常简单实现pandas并行的方法，用到了很小众的库：pandarallel，只需要1行代码就可以实现真正的并行。安装方法：

pip install pandarallel

以下通过一个具体的例子加以说明：求海量数组的平方。

1. 实验：

首先，我们来看pandas常规计算的代码耗时：

import time import pandas as pd def square(x): return x**2 nums_df=pd.DataFrame({"num":range(10000000)}) # 创建dataframe,包含1千万行 time_start=time.time() nums_df["square"]=nums_df["num"].apply(square) # 计算数组所有数的平方 time_end=time.time() print("常规代码耗时 %f s"%(time_end-time_start)) # 常规代码耗时 4.179099 s

这里，常规代码的耗时为 4.17s，首先说明，实验用的 CPU为 i3-9100f，是一个4核4线程的CPU。

然后我们再来看并行的代码耗时：

代码很简单，只要把数组导入到pandas的DataFrame中，然后应用apply即可。

但是这里应用的apply 是多线程版，叫做parallel_apply，在应用之前，需要做一个动作，就是导入pandarallel 并将它初始化。然后就没有然后了，废话不多说，上代码！

import time import pandas as pd from pandarallel import pandarallel # 导入pandaralle pandarallel.initialize() # 初始化该这个b...并行库 def square(x): return x**2 nums=list(range(10000000)) nums_df=pd.DataFrame({"num":nums}) time_start=time.time() nums_df["square"]=nums_df["num"].parallel_apply(square) # 计算数组所有数的平方,注意，用的是parallel_apply time_end=time.time() print("并行代码耗时 %f s"%(time_end-time_start)) # 并行代码耗时 1.465182 s

可以看到，并行代码耗时为1.46 s，通过简单的 parallel_apply，有接近3倍的速度提升。实际上，在线程数越多的CPU中，提升越明显。

2. 注意

虽然在上面的实例中看到，多线程版本的 parallel_apply 可以显著提升速度。但是它并不是在所有场景中都是有效的。

这个方法的本质上是把原来在一个线程上跑的计算，按元素分到多个线程跑，这就涉及到一个问题，分配和结果返回也是要消耗一定的时间的，如果计算本身消耗的时间比较少，那么多线程可能会更加耗时。

我个人将这个方法用在文本分词和预处理（去除停用词和符号等）上，比如 text_df["文本"].apply(jieba.cut_words) 改为 text_df["文本"].parallel_apply(jieba.cut_words)之后可以显著提升速度。但是也在一些场景下碰到速度反而下降的过程中，最明显的涉及到正则匹配的问题，多线程反而不如单线程快，不知道是什么原因，可能是python正则的底层是 C语言写的？

我个人的一个判断是，当某一个处理比较耗时，而且处理的元素可以分批，那么就可以通过这个方法实现显著的加速。举个例子来说：假如有100万的文本去重，我们写一个函数去两两比较文本的相似度，假如相似度大于80%，我们就只保留其中一条。

很显然，这是一个计算量非常大的任务，一种解决方法是通过simhash和数据结构来解决。另外一种简单粗暴的方法是，我们把这100万文本，分成100份，每一份有1万条文本，然后我们分别对1万条文本进行去重，然后去重之后再合并。这里，分别对1万条文本去重的过程，就可以用 text_df["text_batch"].parallel_apply(duplicate)，个人实验下来，基本上有几个线程就可以提升几倍的速度。最后，当分批去重到一定程度的时候再合并去重，就可以大大减小计算量。

以上思考供大家参考，也欢迎各位在评论区指教。

【本文地址】

公司简介

联系我们