为什么我要做一个翻译PDF的AI?一帆文档翻译的诞生 您所在的位置:网站首页 kaunaz翻译 为什么我要做一个翻译PDF的AI?一帆文档翻译的诞生

为什么我要做一个翻译PDF的AI?一帆文档翻译的诞生

2023-08-25 17:44| 来源: 网络整理| 查看: 265

其实经常关注我的朋友应该已经知道,我最近在做一个能全文翻译PDF的网站:一帆文档翻译

深受完美主义拖延症的困扰,我一直没有完整地介绍一下这个项目。直到我一如既往地意识到,如果什么事情要达到我心目中的“完美”标准再做,那我可能永远也等不到这一天……

于是我终于下定决心,在2022Q1结束前写下这篇文章,也算是对我这阶段工作的一个总结吧。

过去

大约10年前,我在看英文资料时产生了一个想法:

有没有一种软件,能够把我现在看到的这篇英文文档,变成一篇排版格式字体都一模一样的中文文档?

在当年,肯定是做不到的。我找遍全网,所有号称能做到的,结果都是惨不忍睹。主要原因有二:

第一:当时的机器翻译还处于统计翻译时代,翻一两句话也只能勉强做到凑合能看,翻一长段、甚至全文,那就基本不像人话了。

第二:我们平时看的文档,无论是论文、资料还是财报,最常见的肯定是PDF格式。而PDF偏偏是公认的最难解析的格式,因为PDF本来就是用来显示,而非用来编辑的。这实在是一个不可能的任务。

所以当年只有划词翻译,没有文档翻译。其实划词翻译现在也有很多人在用。在我看来,文档翻译才是机器翻译的终极形态,划词翻译只能算个过渡。因为即使没有划词翻译,我仍然可以把PDF中的文本复制出来,到翻译网站上一段一段地翻,只是太浪费时间。和文档翻译相比,划词翻译同样是浪费时间。人们用划词翻译,只是因为文档翻译做不出来。

但是,曾经做不到的事情,不代表永远做不到。

随着近年来AI的崛起,深度学习的普及,原本无解的问题终于迎来了新希望

现在

从确定了“翻译整个PDF文件”这件事在技术上是可行的,到一个成熟可用的产品,当然有很长的路要走。经过大量的优化和填坑之后,在上线翻译了10万多份用户提交的PDF之后,这个产品的实际效果终于达到了我心目中“第一阶段”的里程碑。

一般几十页的PDF在1分钟内可以完成全文翻译,最高支持50M的大文件,页数最多支持3000页。实际上,真的有用户翻译过2700多页的PDF……

闲言少叙,我选了几个不同类型的PDF,来看看效果吧。

所有截图均为网站实测:

1、计算机学生最熟悉的paper,何恺明同学最近发的《Masked Autoencoders》,典型的理工科论文:

2、一篇单片机datasheet《MCP2510》,电子工程师最熟悉、也最蛋疼的日常用品,上百页复杂的图表和表格不足为奇:

3、常见的课件,通常是由PPT转成的PDF:

4、生物化学论文,含有大量化学式,比如CO2中的2必须完美处理成下标格式:

5、市场研报:

6、一本社科方面的书,充满了一口气读到憋死的大长句:

未来

去年(2021)大概也是这个季节,我在一次演讲中当场立了一个flag:

我要在2年之内,实现所有主流文档格式的全文翻译,把机器翻译的性能从“一次翻一段话”提高到“一次翻一本书”的量级,让“一帆”成为人人用得上、人人用得起的翻译产品。

现在差不多一年过去了。从目前的进度看,时间应该够,可能还有希望提前。

一个中国学生用英语写出一篇论文,发在国外期刊上,而看这篇英语论文的人是另一个中国学生,也许就在隔壁寝室——这种现在司空见惯的事情,将在不久的未来成为历史。

因为,世界上只存在一种语言:人类语言。世界各地人们说的不同语言、包括方言,其实只是这种“元语言”的不同编码方式。如果某种意思用A语言能表达,也一定能用B语言表达。而当今的NLP技术,足以把任何文档“编码”成你想看到的语言,无论它原本是用什么语言写的。

当然,我们对于机器翻译的期望,早已从以前的“能凑合看懂就行”,变成了“语法要地道、术语要专业、排版要清爽”……这些显然不是能一蹴而就的。目前已经实现的效果,虽然在我看来还处于“初级阶段”,不过至少有很多人尝试以后觉得,可以开始用起来了。其实我发现,国内大部分985/211大学,还有几个上市公司都在用……

肯定有不少人觉得:我已经英语专八了,为什么还需要翻译呢?然而实际上,并不是你不需要翻译,而是你的大脑自动完成了翻译,而这个“解码”工作本来是可以由机器完成的。无论你的英语有多好,只要连续看上几十、上百页纯英语文档,就会感觉头大——真不是因为看不懂,实在是没有精力再看下去了。

除了极少数天才,你我绝大多数人都是通过母语学会外语的,英语作为第二语言,“解码”效率远低于母语。会外语的人不愿用翻译的真正原因,其实只是因为在他们看来,目前的机器翻译的水准还不够高。

机器翻译的未来,不是媲美人类翻译,而是超越人类翻译。世界上没有任何一个人,能够精通所有语言、所有领域的翻译;即使只钻研一个专业领域,他也不可能看完这个领域的所有论文,通晓所有术语和表达方式;即使有某个天才做得到,普通人也请不起他。然而AI却可以——至少从现在看来,是可能的。曾经围棋被认为是AI无法超越人类的项目,如今人不如“狗”已是习以为常的事实。我相信机器翻译,甚至是整个nlp领域,也会走上类似的道路。

实现这一宏伟的目标,自然需要nlp AI学界和工业界的共同努力(也许还需要感谢苏妈和老黄)。我只是试图站在巨人们的肩膀上,做一点把技术普及化、产品化的微小工作而已。诚然,以我绵薄之力,这点工作也是相当艰巨的,在旁观者看来甚至有点理想主义。在充满各种套路和跑路的今天,“理想主义”似乎并不是什么褒义词。不过我清醒地知道,真正的理想主义,绝不是那种“看到机会盲目冒进,遇到困难投降逃跑”的投机主义。

因为浇灌理想之花的,不是空谈,而是血汗。

结语

以上就是【一帆文档翻译】截止2022年3月30日的进展总结。其实这些已经不是最新的进展,新功能还不够成熟稳定,可能需要过一段时间才能展示。我会陆续整理成文章发出,放到这个专栏里:

文档翻译的未来:【一帆】的产品之路

等着瞧吧。



【本文地址】

公司简介

联系我们

今日新闻

    推荐新闻

    专题文章
      CopyRight 2018-2019 实验室设备网 版权所有