使用openpyxl库从Excel文件中提取指定的数据并生成新的文件

2024-07-13 17:33| 来源: 网络整理| 查看: 265

一、引言

二、openpyxl库的安装与基本用法

三、从Excel文件中提取指定数据

按行或列提取数据

根据条件筛选数据

四、生成新的Excel文件

五、案例与完整代码示例

六、总结

一、引言

Excel文件作为数据处理和存储的重要工具，在日常办公和数据分析中扮演着不可或缺的角色。openpyxl是一个用于读取、写入Excel 2010 xlsx/xlsm/xltx/xltm文件的Python库。它允许用户通过编程的方式操作Excel文件，包括读取数据、修改数据以及生成新的Excel文件。本文将详细介绍如何使用openpyxl库从Excel文件中提取指定的数据，并生成新的Excel文件。通过案例和代码，帮助新手朋友快速掌握这一技能。

二、openpyxl库的安装与基本用法

在开始使用openpyxl之前，需要先安装这个库。可以通过pip命令在终端或命令提示符中安装：

pip install openpyxl

安装完成后，我们就可以开始使用openpyxl库来操作Excel文件了。下面是一个简单的示例，展示如何打开一个Excel文件并读取其中的数据：

from openpyxl import load_workbook # 加载Excel文件 workbook = load_workbook('example.xlsx') # 获取活动工作表（默认打开的工作表） sheet = workbook.active # 读取单元格数据 cell_value = sheet['A1'].value print(cell_value)

在上面的代码中，我们首先导入了openpyxl库中的load_workbook函数。然后，使用该函数加载了一个名为example.xlsx的Excel文件，并获取了其中的活动工作表。最后，通过指定单元格的位置（如'A1'），读取了该单元格中的数据并打印出来。

三、从Excel文件中提取指定数据

在实际应用中，我们通常需要提取Excel文件中特定区域或满足某些条件的数据。下面将介绍几种常见的提取数据的方法。

按行或列提取数据

我们可以使用openpyxl提供的迭代功能，按行或列遍历工作表中的数据。以下是一个按行提取数据的示例：

from openpyxl import load_workbook # 加载Excel文件 workbook = load_workbook('example.xlsx') sheet = workbook['Sheet1'] # 指定工作表名称 # 按行提取数据 for row in sheet.iter_rows(min_row=2, max_col=3, max_row=5): # 提取第2行到第5行，第1列到第3列的数据 for cell in row: print(cell.value)

在上面的代码中，我们使用iter_rows方法按行遍历了指定区域的数据。通过指定min_row、max_col和max_row参数，我们可以控制提取数据的范围。然后，通过遍历每一行中的单元格，提取并打印出它们的数据。

根据条件筛选数据

除了按行或列提取数据外，我们还可以根据特定的条件来筛选数据。以下是一个根据条件筛选数据的示例：

from openpyxl import load_workbook # 加载Excel文件 workbook = load_workbook('example.xlsx') sheet = workbook['Sheet1'] # 根据条件筛选数据 filtered_data = [] for row in sheet.iter_rows(values_only=True): # 提取所有行的数据，只包含值，不包含单元格对象 if row[0] > 100: # 假设第一列是数值，筛选出大于100的行 filtered_data.append(row) # 打印筛选结果 for data in filtered_data: print(data)

在上面的代码中，我们首先使用iter_rows方法提取了所有行的数据，并设置values_only参数为True，以便只获取单元格的值而不包含单元格对象。然后，通过遍历每一行数据，并根据第一列的值进行条件判断，将符合条件的行添加到filtered_data列表中。最后，遍历filtered_data列表并打印出筛选结果。

四、生成新的Excel文件

在提取了指定数据后，我们可能需要将这些数据保存到一个新的Excel文件中。openpyxl库同样提供了创建和保存Excel文件的功能。以下是一个生成新Excel文件的示例：

from openpyxl import Workbook # 创建一个新的工作簿对象 new_workbook = Workbook() # 获取活动工作表 new_sheet = new_workbook.active # 假设我们已经从原始Excel文件中提取了数据，并将其保存在一个列表中 # 列表中的每个元素也是一个列表，表示一行数据 extracted_data = [ ['Name', 'Age', 'Gender'], ['Alice', 25, 'Female'], ['Bob', 30, 'Male'], # ...更多数据将数据写入新的工作表 for row in extracted_data: new_sheet.append(row) 保存新的Excel文件 new_workbook.save('new_example.xlsx')

在上面的代码中，我们首先创建了一个新的工作簿对象new_workbook，并获取了其活动工作表new_sheet。然后，我们假设已经从原始Excel文件中提取了数据，并将其保存在一个名为extracted_data的列表中。接下来，我们使用append方法将每一行数据依次添加到新的工作表中。最后，通过调用save方法，将新的工作簿保存为一个名为new_example.xlsx的Excel文件。

五、案例与完整代码示例

下面是一个完整的案例，演示了如何使用openpyxl库从Excel文件中提取指定数据并生成新的Excel文件：假设我们有一个名为original_data.xlsx的Excel文件，其中包含员工的姓名、年龄和性别等信息。我们想要提取年龄大于30岁的员工信息，并将结果保存到一个新的Excel文件filtered_data.xlsx中。首先，我们需要编写代码来提取年龄大于30岁的员工信息：

from openpyxl import load_workbook # 加载原始Excel文件 workbook = load_workbook('original_data.xlsx') sheet = workbook['Employee Data'] # 假设工作表名称为"Employee Data" # 提取年龄大于30岁的员工信息 filtered_employees = [] for row in sheet.iter_rows(min_row=2, values_only=True): # 假设第一行是标题行，从第二行开始读取数据 age = row[1] # 假设年龄位于第二列 if age > 30: filtered_employees.append(row) # 打印提取结果（可选） for employee in filtered_employees: print(employee)

接下来，我们将提取到的员工信息保存到一个新的Excel文件中：

from openpyxl import Workbook # 创建一个新的工作簿对象 new_workbook = Workbook() new_sheet = new_workbook.active # 将提取到的员工信息写入新的工作表 new_sheet.append(['Name', 'Age', 'Gender']) # 写入标题行 for employee in filtered_employees: new_sheet.append(employee) # 保存新的Excel文件 new_workbook.save('filtered_data.xlsx')

将以上两段代码结合起来，我们就可以实现从原始Excel文件中提取指定数据并生成新的Excel文件的功能。

六、总结

本文详细介绍了如何使用openpyxl库从Excel文件中提取指定的数据并生成新的文件。通过案例和代码示例，帮助新手朋友掌握了openpyxl库的基本用法和常见操作。在实际应用中，我们可以根据具体需求调整提取数据的条件和方式，以及生成新文件的格式和内容。

【本文地址】

公司简介

联系我们

今日新闻

推荐新闻

专题文章