黑科技!漫画文字自动翻译

您所在的位置:网站首页 漫画翻译工具 黑科技!漫画文字自动翻译

黑科技!漫画文字自动翻译

2024-07-09 10:32:43| 来源: 网络整理| 查看: 265

如图所示:左一为日文原版,自动化输出英文版(右二)和中文版(右一)

有了这个翻译神器,估计翻译组、追漫的小伙伴们都该偷着乐了。

发论文、公开数据集、商业化一条龙

在科研方面,目前该篇论文已经被 AAAI 2021 接收,研究团队还开源了一个包含五部不同风格(幻想、爱情、战斗、悬疑、生活)的漫画,所组成的翻译评估数据集。

OpenMantra 漫画翻译评估数据集

论文地址:https://arxiv.org/abs/2012.14271

数据格式:带注释的 JSON 文件和原始图像

数据内容:1593 个句子、848 个场景、214 页漫画

数据大小:36.8 MB

更新时间:2020 年 12 月 7 日

下载地址:https://hyper.ai/datasets/14137

OpenMantra 漫画翻译评估数据集

论文地址:https://arxiv.org/abs/2012.14271

数据格式:带注释的 JSON 文件和原始图像

数据内容:1593 个句子、848 个场景、214 页漫画

数据大小:36.8 MB

更新时间:2020 年 12 月 7 日

下载地址:https://hyper.ai/datasets/14137

在产品化方面,Mantra 计划上线封装好的自动翻译引擎,不仅面向出版社提供漫画的自动化翻译与发行服务,也会发布面向个人用户的服务。

具体的实现步骤,Mantra 研究团队在论文《Towards Fully Automated Manga Translation 实现漫画全自动翻译》中进行了详细的解释。

定位文字

在实现漫画自动化翻译的第一步,就是提取文字区域。

但由于漫画的特殊性,来自不同角色的对话、效果拟声词、文字标注等等,都会展现在一幅漫画图片里,漫画师会用气泡、不同的字体、夸张的字体来展现不同效果的文字。

研究团队发现,由于漫画中的这些各种字体和手绘样式,即使使用最先进的OCR 系统(例如 Google Cloud Vision API),在漫画文本上的表现很不理想。

在漫画中,最常见的文字就是角色之间的对话,对话文字气泡还会被切割成多块。

这就要求自动化机器翻译需要 准确区分角色,还得联系上下文注意主语的衔接、避免重复,这都对机器翻译提出了更高的要求。

自动嵌字

Mantra 这一自动化引擎,不仅能够区分角色、联系上下文准确翻译以外,还很好地解决了漫画翻译中的耗时最久、人力成本最高的环节——嵌字。

在嵌字这一环节中,首先要擦除嵌字区域,再进行嵌字,由于日文、中文、英文字符的形态、拼写、组合、连读方式都不一样,所以这一环节的难度也尤其大。

实验: 数据集与模型测试

在论文中的实验部分,Mantra 团队提到目前并没有包含多种语言的漫画数据集,所以他们创建了 OpenMantra(已开源) 和 PubManga 数据集,其中OpenMantra 用于评估机器翻译,包含 1593 个句子、848 个场景画面和 214 页漫画,Mantra 团队已经请专业翻译人员将数据集翻译成英文和中文。

OpenMantra 漫画翻译评估数据集(同上文)

论文地址:https://arxiv.org/abs/2012.14271

数据格式:带注释的 JSON 文件和原始图像

数据内容:1593 个句子、848 个场景、214 页漫画

数据大小:36.8 MB

更新时间:2020 年 12 月 7 日

下载地址:https://hyper.ai/datasets/14137

OpenMantra 漫画翻译评估数据集(同上文)

论文地址:https://arxiv.org/abs/2012.14271

数据格式:带注释的 JSON 文件和原始图像

数据内容:1593 个句子、848 个场景、214 页漫画

数据大小:36.8 MB

更新时间:2020 年 12 月 7 日

下载地址:https://hyper.ai/datasets/14137

PubManga 数据集用于评估构建的语料库,该数据集包含注释:

项目背后:有趣的灵魂一起学习

目前该篇论文已经被 AAAI 2021 收录,产品化的工作也在稳步推进中,从 Mantra 团队的推特中,我们看到已经有不少漫画成功使用了 Mantra 进行自动化机器翻译。

这样的宝藏项目,是由两位东京大学的博士生完成的,CEO石和祥之介 (Shonosuke Ishiwatari),CTO 日南凉太(Ryota Hinami) 同在东京大学博士毕业,在 2020 年创立了 Mantra 团队。

Mantra CEO 石和祥之介(上)和 CTO 日南凉太(下)

CEO 石和祥之介,是东京大学信息科学系本科 2010 级入学,博士毕业于 2019 年。他主要专注于自然语言处理领域的研究和开发,包括机器翻译和字典生成,也是本篇论文的第二作者。

值得一提的是,石和祥之介的研究经验丰富,不仅曾经在 CMU 交流访学,还曾于 2016-17 年在位于北京的微软亚洲研究院实习半年,当时他在 MSRA 首席研究员刘树杰团队从事 NLC (Natural Language Computing) 自然语言计算的研究。

这样的一对技能互补的小伙伴,完成了 Mantra 的大部分工作,是不是从发量到成果都很让人羡慕呢?

如果想了解更多关于 Mantra 的信息,大家可以访问论文(https://arxiv.org/abs/2012.14271)、项目官网(https://mantra.co.jp/)或下载数据集(https://hyper.ai/datasets/14137),进一步研究。

☞ GitHub 宣布拆“墙”,恢复伊朗开发者使用权!

☞ 突发!美国封禁支付宝、QQ、微信支付、WPS 等 8 款中国 App

☞ 如 何 用 一 句 话 证 明 你 是 程 序 员 ?

☞ T I O B E 1 月 编 程 语 言 : P y t h o n 摘 得 2 0 2 0 年 度 编 程 语 言 !

☞ L i n u x 之 父 新 年 首 次 “ 炮 轰 ” : 英 特 尔 在 扼 杀 整 个 E C C 行 业

☞ PostgreSQL 摘得 DB-Engines 2020 年度数据库

点分享

点收藏

点点赞

点在看返回搜狐,查看更多



【本文地址】

公司简介

联系我们

今日新闻


点击排行

实验室常用的仪器、试剂和
说到实验室常用到的东西,主要就分为仪器、试剂和耗
不用再找了,全球10大实验
01、赛默飞世尔科技(热电)Thermo Fisher Scientif
三代水柜的量产巅峰T-72坦
作者:寞寒最近,西边闹腾挺大,本来小寞以为忙完这
通风柜跟实验室通风系统有
说到通风柜跟实验室通风,不少人都纠结二者到底是不
集消毒杀菌、烘干收纳为一
厨房是家里细菌较多的地方,潮湿的环境、没有完全密
实验室设备之全钢实验台如
全钢实验台是实验室家具中较为重要的家具之一,很多

推荐新闻


图片新闻

实验室药品柜的特性有哪些
实验室药品柜是实验室家具的重要组成部分之一,主要
小学科学实验中有哪些教学
计算机 计算器 一般 打孔器 打气筒 仪器车 显微镜
实验室各种仪器原理动图讲
1.紫外分光光谱UV分析原理:吸收紫外光能量,引起分
高中化学常见仪器及实验装
1、可加热仪器:2、计量仪器:(1)仪器A的名称:量
微生物操作主要设备和器具
今天盘点一下微生物操作主要设备和器具,别嫌我啰嗦
浅谈通风柜使用基本常识
 众所周知,通风柜功能中最主要的就是排气功能。在

专题文章

    CopyRight 2018-2019 实验室设备网 版权所有 win10的实时保护怎么永久关闭