使用Mathpix识别和转换富含公式的PDF为Markdown 您所在的位置:网站首页 pdf为什么是网页版 使用Mathpix识别和转换富含公式的PDF为Markdown

使用Mathpix识别和转换富含公式的PDF为Markdown

2024-01-23 22:07| 来源: 网络整理| 查看: 265

1. 使用网页版.... 1

1.1 熟悉系统.... 1

1.2 上传与识别文档.... 3

1.3 导出结果.... 7

1.4 创建笔记.... 9

2. 本地桌面Mathpix. 11

2.1 安装软件.... 11

2.2 配置.... 15

2.3 运用.... 17

日常阅读文献、学习理工科基础知识以及做论文阅读汇报的过程中会遇到很多含有公式的文档。如果是一些重要的公式,那必然是经过手工推导的。但是也有更多的公式,我们希望能够快速地形成一个完整的电子版笔记,这个时候,Mathpix snip就是这些事情的有力的支撑工具。

1. 使用网页版 1.1 熟悉系统 登录mathpix主页,在主页的Downloads下面找到Web版,点击进入。

在上面的界面中,点击蓝色的Launch Snip Web,进入网页版登录界面,如下图所示:

然后输入用户名和密码登录。(如果没有登录,可自行注册一个账号)。登录后进入如下界面:

说明:从界面中可以看到MathPix网页版提供了笔记管理的一系列功能,具体有笔记搜索、智能问答、文件管理、笔记管理、PDF扫描管理、文章管理等。现在的mathpix引入了GPT模型,可以直接基于上传的文档进行文档知识库的问答,从上面搜索BM25的图来看,效果很好。各个功能,用户可以自行体验一下。上传的文档可以是扫描版本PDF也可以是文字版本的PDF,MathPix会自动进行版面分析和OCR。

1.2 上传与识别文档 笔记是我们主要的入口。在网页中点击最右侧的第三个图标(树形图标),进入标签页之后,可以找到右侧的上箭头,会显示我们可以通过这个按钮”上传PDF文件”。

现在我们就上传一个”文档智能综述”的论文,还有一篇”Attention is all your need”的PDF论文。界面示例如下:

接下来我们可以点击刚才上传的PDF文章右侧的”更多”图标,这个时候弹出来一些选项,比如创建新笔记、导出为Markdown、导出为MathPix Markdown,导出为docx,导出为LaTeX、导出为HTML等。用户接下来可以自行探索。

我们可以在界面右上角选择”阅读MMD转换的PDF”这一功能,这个时候就是原始的扫描版或者文字版PDF转换成含有图片和数学公式的Markdown之后,再通过Markdown进行再生的结果。在这个结果中,公式还有文字等都是矢量和用LaTeX重新渲染之后的结果。

1.3 导出结果 【文件导出】点击右上角的”导出PDF”,弹出如下界面:

在这个界面中,我们可以导出我们的文档。通常可以是Markdown,因为这样的话我们就可以在Vscode里面继续编辑了。也可以是导出docx,直接生成文档。

以下是Attention is all your need的结果,可以看到图片、表格、公式、标题都可以体现出来(并且都是可以编辑的!!):

以下是在vscode里面打开的Markdown文件,并同时使用Quarto渲染之后的结果:

 MathPix胜在于提供了一个从扫描版或者文字版PDF到markdown的端到端的解决方案,这个解决方案足够强大到可以应对广泛的各种类型的文档再数字化需求场景。缺点在于编辑修改能力还存在欠缺,如果能够更深入一些和GPT4等大大模型进行整合,一定可以提供更强大的解决方案来。 1.4 创建笔记 在网页版的笔记标签页中,选择相应文章右侧的…三个图标。弹出”创建笔记”快捷菜单。如下图所示:

点击”创建笔记之后,在”全部文件”中,会多出来一个同名的,但是后缀为”.note”的文档,这个点击这个文档,会弹出如下的一个类似于latex编辑器(和overleaf有点像)的界面。

弹出的界面是一个三栏界面。最左侧是文件的导航树,中间一列是可以鼠标点击和键盘输入的一个支持LaTeX公式的Markdown文件,右侧是一个实时预览的结果。以这种方式,我们可以实时预览当前笔记内容,并即时将我们的想法写在笔记里面。(中间笔记的语法符合Markdown规范即可)。

2. 本地桌面Mathpix 2.1 安装软件 在mathpix网站上的Downloads菜单下点击”Desktop…“。进入到桌面版主页。

点击中间的”Download for windows”(根据自己的操作系统选择),下载软件。

下载完成之后,找到本地安装程序,如下图所示:

点击进入安装界面。如下图所示:

在上述界面中点击”Next”,进入选项选择界面。

在上述界面中两项都选择(创建桌面快捷方式以及开机启动),点击Next之后安装程序就可、开始读取进度条:

安装进度完成之后会弹出最终界面,如下所示:

选中”Launch Mahtpix Snipping Tool”,然后选中Finish按钮,就完成Mathpix的安装。这个时候会启动Mathpix主程序(可能会隐藏在任务栏的通知区域)。

2.2 配置 打开Mahtpix,然后点击右上角的齿轮按钮,选中”Settings”,如下图所示:

选中Settings之后弹出设置选项界面,如下图所示:

在这里设置快捷键等选项。 ”Get LaTeX”(也就是截取屏幕上含公式的区域生成LaTeX),点其右侧的Record Shortcut,然后键盘录入自己想要的快捷键(比如Ctrl+Q),点击Save确认。

在Mathpix选项里面:

一般Hide window on screen capture会选中,表示在截图的时候隐藏Mathpix主页面。一般为了加快速度,我们会不选中”Pop up new Snip Result”,这样的话,在我们截屏完成之后,等一会儿Mathpix会直接返回给我们LaTeX公式,这个时候我们直接用Ctrl+V粘贴到目标文档中即可。

其余选项,一般保持默认即可。

2.3 运用

截屏的过程也很简单,在mathpix启动到通知栏的情况下,直接按下快捷键(这里我们设置为Ctrl+Q),这个时候mathpix会给出屏幕区域选择器(与截屏软件的基本相同),我们选好矩阵框之后,mathpix会对截取的屏幕区域运行文本和公式识别,过一会儿,我们用Ctrl+V就可以得到结果公式了。(一般可以直接粘贴到Markdown编辑器里面)。

如果我们用Ctrl+V粘出来的不是期望的结果,那可能是Mathpix偶尔会反应比较慢,公式还未识别出来结果。这个时候一般多等待几秒即可。

最后,我们还可以打开主界面,在界面里面看到刚才的识别结果,如下图所示:

在这里我们可以看到,Mathpix不仅可以识别纯公式区域,也可以识别成段的含有数学公式的文本。



【本文地址】

公司简介

联系我们

今日新闻

    推荐新闻

    专题文章
      CopyRight 2018-2019 实验室设备网 版权所有