如何提取视频硬字幕的简易教程 您所在的位置:网站首页 内嵌字幕提取出来不对怎么回事 如何提取视频硬字幕的简易教程

如何提取视频硬字幕的简易教程

2023-07-14 16:42| 来源: 网络整理| 查看: 265

B站专栏处女座Orz

本文适合有一定计算机基础,有耐心,喜欢瞎折腾的童鞋阅读,笔者其实也是瞎折腾,瞎写写,所以如果看了本文仍然没能成功的童鞋莫怪,笔者也基本不会回答使用问题_(:з」∠)_

还请多多善于查阅资料,靴靴~

一、必要安装软件

1.esrXP(用于获取字幕时间轴和图片)

必要运行环境(非常关键,涉及软件能否正常使用):

①启用Windows Media Player(启用或关闭Windows功能)

②LAV Filters 32bit(64bit可选)

③Codec Tweak Tool(用于调整系统解码器托管)

a.preferred splitters选项.MP4和.MKV选择LAV Splitter

b.preferred decoders选项 H.264和HEVC/X.265两项选择LAV Video

c.MS Codec Tweaks选项 禁用(打勾)掉微软所有32位的解码器,这样可能造成wmv无法播放,不过可以随时改回来。

以上a~c每次改完单击Apply&Close。

(②③可直接默认安装K-Lite Codec Mega获得)

【本段参考文献1】

二.推荐安装软件

1.Avisynth/Avisynth+[推荐]

推荐直接使用avs脚本在esrXP打开目标视频

实例代码:LWLibavVideoSource("D:\字幕\待提取.mp4")

avs文件需要ANSI编码,务必注意。

2.Office OneNote / ABBYY pro / Adobe Acrobat PRO/DC / QQ手机版长按图片识别文字

用于OCR字幕获得文本,不会使用IdxSubOcr可以以上软件识别字幕文本。

3.IdxSubOcr[推荐]

用于IDX+SUP字幕的OCR获得文本,非常好用,可在esrXP导出IDX+SUP字幕,然后使用本软件OCR并直接在软件内校对修改,然后保存为SRT字幕。

然后可以用Notepad++抓取字母文本导入Aegisub合并或者直接转换格式等。

必要子环境:

①OFFICE MODI

建议安装老马的一键包 http://yun.baidu.com/s/1qXFS9dy

老马的原创空间>OCR>MODI_From_Office2007SP3.rar

软件本体:老马的原创空间>原创软件IdxSubOcr.zip

简单教程:以管理员身份打开软件,打开IDX文件,单击确定,选择OCR语言[简繁中+英+日],选择文字颜色使预览显示为实心白底黑字,然后确定即可开始识别。

如果esrXP导出的字幕图像清晰且软件设置无误,此时即可识别出基本正确的字幕文本,然后在软件中自己校对修改字幕文本后单击左上角保存srt文件。

4.Aegisub[推荐]

当前最广泛使用的字幕软件之一,用来给esrXP导出的空时间轴ssa字幕加上字幕文本和调轴等。网络教程很多,这里略去。

5.Notepad++[推荐]

强大的文本编辑器,用来处理OCR后的字母文本,删除空格空行等。

附一个获取srt纯字幕文本的正则表达式:

[0-9].+替换为空,然后[0-9]替换为空可删除srt时间轴和行号,然后编辑→行操作→删除空行即可获得纯字幕文本。

Notepad++替换

三、具体使用教程

强烈建议参考(笔者亦受益匪浅):

http://bbs.vcb-s.com/thread-1091-1-1.html

笔者的简易流程说明:

1.为目标视频写一个avs脚本,可选。

2.用esrXP打开avs脚本或者视频,打开过滤器并开始识别。

过滤器设置完成,显示出白色的文本识别完成

3.编辑字幕图片(删除无关+合并)。

字幕管理

4.保存为ssa,idx+sup和字幕图片。

5.IdxSubOcr识别字幕文本,并校对保存srt。

6.Notepad++打开srt,替换掉srt行号和时间轴,获得纯字幕文本。

7.Aegisub打开ssa字幕并选择性粘贴字幕文本,然后根据视频调轴。

四、笔者技巧补充

1.当我们在esrXP识别字幕后,打开字幕管理后可以合并相同的字幕,这样时间轴就准了,不要直接删掉不清楚的字幕!

操作:假设目前前三张图片都是同一句字幕,且第二张图最清晰,那么右键选中第一张图,然后右键选中第三张图,在左键单击第二张图,此时字幕右边有上下两个箭头,最后单击菜单的红叉删除按钮,这样就合并了这三条字幕。

合并

2.勾选额外颜色可以看到绿色部分,然后用菜单的T按钮可以用来修复部分缺字,单击需要修补的部分即可。

“来”这个字可修复GIF更清楚一点

3.使用+ -号按钮调节字幕大小,看到字幕完整边框,这样才能看到第一条的上下箭头。

4.左键单击的字幕会被隐藏,可以选中后单击菜单的红叉删除。

5.选中连续多行,先右键选择起始行,然后左键选中末行。

GIF更清楚一点

GIF更清楚一点

6.针对淡入淡出字幕的识别会有时间轴误差,可以在字幕软件的时间后续处理器进行调节。

五、难点

1.笔者在使用本软件时,感觉最难的还是过滤器的使用,这一步也是重点,直接跟OCR识别成功率挂钩,这个只能多试试各种参数调节。

2.视频黑边里的字幕最好识别,特效字幕和特殊字体不好识别,所以本教程主要局限于普通效果和字体的视频硬字幕提取。

六、后记

笔者折腾了几个小时成功地使用了一遍,其实应用场景并不多_(:з」∠)_,毕竟有了硬字幕视频未必非要软字幕,不过可能有重度发烧友一定要软字幕,那么可以使用esrXP减轻工作量。

由于esrXP软件古老,是2005年的产物,而目前系统多为win7,win10,所以一开始的软件环境安装是个难点,笔者曾卡在这一步,多谢参考文献中的两位的教程才得以解决。

每个字幕视频都是独特的,滤镜过滤取得字幕很难,要有耐心学习使用,多练才会熟练。

软件自带主页已经无法访问,所以不知道本软件是哪国人开发的。虽然古老,但是她还是能为我们解决很大负担,她的价值在于获得了很准的时间轴,同时如果过滤器效果理想还能结合OCR软件得到不错的识别文本,由此大大减轻了字幕提取的工作量,在此非常感谢软件的作者!

另外也非常感谢国人软件作者老马编写的IdxSubOcr,该软件能方便准确地识别中日英三语IDX+SUP字幕,也要感谢开源软件Avisynth(+),Aegisub和Notepad++的所有开发者!

七、相关软件下载地址

1.esrXP[非官网,亦可自行搜索]

http://www.121down.com/soft/softview-34428.html

2.K-Lite Codec Mega

http://www.codecguide.com/download_k-lite_codec_pack_mega.htm

3.Avisynth

http://avisynth.nl/index.php/Main_Page

4.Avisynth+

http://www.avs-plus.net/

5.IdxSubOcr(含MODI)

http://yun.baidu.com/s/1qXFS9dy

6.Aegisub

http://www.aegisub.org/

7.Notepad++

https://notepad-plus-plus.org/

八、参考文献

1.esrXP:硬字幕转制外挂字幕利器(改二) kavenliang darkangel0224

http://bbs.vcb-s.com/thread-1091-1-1.html

最后祭奠于今日与世长辞的世界著名物理学家斯蒂芬·威廉·霍金(Stephen William Hawking)教授,世间再无霍金,时间永留简史。

R.I.P.

本教程作于2018年3月14日



【本文地址】

公司简介

联系我们

今日新闻

    推荐新闻

    专题文章
      CopyRight 2018-2019 实验室设备网 版权所有