一文看懂基于PaddleOCR的表格结构识别算法 |
您所在的位置:网站首页 › 如何提取图片中的表格信息和文字 › 一文看懂基于PaddleOCR的表格结构识别算法 |
📖 0 项目背景
PaddleOCR是百度开源的超轻量级OCR模型库,提供了数十种文本检测、识别模型,旨在打造一套丰富、领先、实用的文字检测、识别模型/工具库,助力使用者训练出更好的模型,并应用落地。 关于如何使用PaddleOCR,平台已经有了非常丰富的教程,可以在十分钟内快速启动自定义图片的OCR任务[1],但该类项目注重于简单任务的快速实现。 或者基于该模型库完成自己的OCR任务,但这些项目更注重于项目的完成效果,而不是讲解如何对该模型库进行定制化以适应自己的任务。 因此,这些项目对于PaddleOCR的学习有一定门槛,不能满足初学者希望快速修改实现自己项目的需求。 本项目将针对该痛点,手把手教你针对同花顺算法竞赛数据,使用PaddleOCR完成表格结构识别。 在该过程中,会结合官网教程。详细讲解训练数据的制作,训练模型参数,推理结果的读取等。 并针对数据特点,提出对表格进行切割后复原的数据处理方法。 🥡 1 项目功能项目介绍了PaddleOCR的关键参数和在同花顺算法竞赛中的使用。 如果有以下需求,该项目可能对您有用: 希望快速上手PaddleOCR并对其进行修改 希望使用PaddleOCR完成表格结构识别算法 希望参与后续同花顺算法竞赛或使用比赛数据 💡 2 PaddleOCR及表格结构识别介绍 2.1 Paddle OCR特性:超轻量级中文OCR,总模型仅8.6M 单模型支持中英文数字组合识别、竖排文本识别、长文本识别 检测模型DB(4.1M)+识别模型CRNN(4.5M) 多种文本检测训练算法,EAST、DB 多种文本识别训练算法,Rosetta、CRNN、STAR-Net、RARE 2.2 表格结构识别任务:表格作为一种高效的数据组织与展现方法被广泛应用,已成为各类文档中最常见的页面对象。 目前很大一部分文档以图片的形式存在,无法直接获取表格信息。 人工还原表格既费时又容易出错,因此如何自动并准确地从文档图片中识别出表格成为一个亟待解决的问题。 但由于表格大小、种类与样式的复杂多样(例如表格中存在不同的背景填充、不同的行列合并方法、不同的分割线类型等),导致表格识别一直是文档识别领域的研究难点。 同花顺算法竞赛专注于表格结构识别,为选手提供了已标注的表格图片数据,需要选手通过深度学习的方法,识别出表格结构并输出。 💡 3 数据集介绍 3.1 赛题任务训练数据主要包括原始图片及对应的ground truth,ground truth内包含表格位置信息和单元格信息。 选手可以直接使用ground truth内的表格位置信息,也可以使用自己预测的表格位置信息。 在得到表格区域的基础上,选手需要将表格的结构识别出来, 输出单元格的行列结构信息及单元格内的文字位置信息。 3.2 数据说明640张训练集、106张测试集A、108张测试集B及其对应的ground truth(xml文件) 选手可以直接使用ground truth内的表格位置信息,也可以使用自己预测的表格位置信息。 在得到表格区域的基础上,选手需要将表格的结构识别出来, 输出单元格的行列结构信息及单元格内的文字位置信息。 ground truth字段说明: table:表格,包含表格位置信息及该表格内的单元格信息。points字段为“x0, y0 x1, y1 x2,y2 x3, y3”格式,表示表格区域的四个角点,角点顺序不固定 cell:单元格,包含行列信息及位置信息 3.start_col、end_col、start_row、end_row:单元格所处的行列信息 4.points:单元格内文本的位置信息,格式为“x0, y0 x1, y1 x2,y2 x3, y3”,表示文本区域的四个角点,角点顺序不固定;当单元格内存在多行文本时,取所有文本的最小外包矩形作为文本区域 ground truth示例如下: 参考资料 [1]. https://aistudio.baidu.com/aistudio/projectdetail/1798439[2]. http://contest.aicubes.cn/#/detail?topicId=51[3]. https://aistudio.baidu.com/aistudio/projectdetail/3639862 |
今日新闻 |
点击排行 |
|
推荐新闻 |
图片新闻 |
|
专题文章 |
CopyRight 2018-2019 实验室设备网 版权所有 win10的实时保护怎么永久关闭 |