一文看懂基于PaddleOCR的表格结构识别算法

您所在的位置：网站首页 › 如何提取图片中的表格信息和文字 › 一文看懂基于PaddleOCR的表格结构识别算法

一文看懂基于PaddleOCR的表格结构识别算法

2024-07-12 15:26:52| 来源: 网络整理| 查看: 265

📖 0 项目背景

PaddleOCR是百度开源的超轻量级OCR模型库，提供了数十种文本检测、识别模型，旨在打造一套丰富、领先、实用的文字检测、识别模型/工具库，助力使用者训练出更好的模型，并应用落地。

关于如何使用PaddleOCR，平台已经有了非常丰富的教程，可以在十分钟内快速启动自定义图片的OCR任务[1]，但该类项目注重于简单任务的快速实现。

或者基于该模型库完成自己的OCR任务，但这些项目更注重于项目的完成效果，而不是讲解如何对该模型库进行定制化以适应自己的任务。

因此，这些项目对于PaddleOCR的学习有一定门槛，不能满足初学者希望快速修改实现自己项目的需求。

本项目将针对该痛点，手把手教你针对同花顺算法竞赛数据，使用PaddleOCR完成表格结构识别。

在该过程中，会结合官网教程。详细讲解训练数据的制作，训练模型参数，推理结果的读取等。

并针对数据特点，提出对表格进行切割后复原的数据处理方法。

🥡 1 项目功能

项目介绍了PaddleOCR的关键参数和在同花顺算法竞赛中的使用。

如果有以下需求，该项目可能对您有用：

希望快速上手PaddleOCR并对其进行修改

希望使用PaddleOCR完成表格结构识别算法

希望参与后续同花顺算法竞赛或使用比赛数据

💡 2 PaddleOCR及表格结构识别介绍 2.1 Paddle OCR特性：

超轻量级中文OCR，总模型仅8.6M

单模型支持中英文数字组合识别、竖排文本识别、长文本识别

检测模型DB（4.1M）+识别模型CRNN（4.5M）

多种文本检测训练算法，EAST、DB

多种文本识别训练算法，Rosetta、CRNN、STAR-Net、RARE

2.2 表格结构识别任务：

表格作为一种高效的数据组织与展现方法被广泛应用，已成为各类文档中最常见的页面对象。

目前很大一部分文档以图片的形式存在，无法直接获取表格信息。

人工还原表格既费时又容易出错，因此如何自动并准确地从文档图片中识别出表格成为一个亟待解决的问题。

但由于表格大小、种类与样式的复杂多样（例如表格中存在不同的背景填充、不同的行列合并方法、不同的分割线类型等），导致表格识别一直是文档识别领域的研究难点。

同花顺算法竞赛专注于表格结构识别，为选手提供了已标注的表格图片数据，需要选手通过深度学习的方法，识别出表格结构并输出。

💡 3 数据集介绍 3.1 赛题任务

训练数据主要包括原始图片及对应的ground truth，ground truth内包含表格位置信息和单元格信息。

选手可以直接使用ground truth内的表格位置信息，也可以使用自己预测的表格位置信息。

在得到表格区域的基础上，选手需要将表格的结构识别出来，

输出单元格的行列结构信息及单元格内的文字位置信息。

3.2 数据说明

640张训练集、106张测试集A、108张测试集B及其对应的ground truth（xml文件）

选手可以直接使用ground truth内的表格位置信息，也可以使用自己预测的表格位置信息。

在得到表格区域的基础上，选手需要将表格的结构识别出来，

输出单元格的行列结构信息及单元格内的文字位置信息。

ground truth字段说明：

table：表格，包含表格位置信息及该表格内的单元格信息。points字段为“x0, y0 x1, y1 x2,y2 x3, y3”格式，表示表格区域的四个角点，角点顺序不固定

cell：单元格，包含行列信息及位置信息

3.start_col、end_col、start_row、end_row：单元格所处的行列信息

4.points：单元格内文本的位置信息，格式为“x0, y0 x1, y1 x2,y2 x3, y3”，表示文本区域的四个角点，角点顺序不固定；当单元格内存在多行文本时，取所有文本的最小外包矩形作为文本区域

ground truth示例如下：

参考资料

[1]. https://aistudio.baidu.com/aistudio/projectdetail/1798439[2]. http://contest.aicubes.cn/#/detail?topicId=51[3]. https://aistudio.baidu.com/aistudio/projectdetail/3639862

【本文地址】

公司简介

联系我们

今日新闻

点击排行

实验室常用的仪器、试剂和: 说到实验室常用到的东西，主要就分为仪器、试剂和耗

不用再找了，全球10大实验: 01、赛默飞世尔科技（热电）Thermo Fisher Scientif

三代水柜的量产巅峰T-72坦: 作者：寞寒最近，西边闹腾挺大，本来小寞以为忙完这

通风柜跟实验室通风系统有: 说到通风柜跟实验室通风，不少人都纠结二者到底是不

集消毒杀菌、烘干收纳为一: 厨房是家里细菌较多的地方，潮湿的环境、没有完全密

实验室设备之全钢实验台如: 全钢实验台是实验室家具中较为重要的家具之一，很多

图片新闻

实验室药品柜的特性有哪些: 实验室药品柜是实验室家具的重要组成部分之一，主要

小学科学实验中有哪些教学: 计算机计算器一般打孔器打气筒仪器车显微镜

实验室各种仪器原理动图讲: 1.紫外分光光谱UV分析原理：吸收紫外光能量，引起分

高中化学常见仪器及实验装: 1、可加热仪器：2、计量仪器：（1）仪器A的名称：量

微生物操作主要设备和器具: 今天盘点一下微生物操作主要设备和器具，别嫌我啰嗦

浅谈通风柜使用基本常识: 　众所周知，通风柜功能中最主要的就是排气功能。在

一文看懂基于PaddleOCR的表格结构识别算法

一文看懂基于PaddleOCR的表格结构识别算法

今日新闻

点击排行

推荐新闻

图片新闻

专题文章