如何提取视频硬字幕的简易教程 | 您所在的位置:网站首页 › 内嵌字幕提取出来不对怎么回事 › 如何提取视频硬字幕的简易教程 |
B站专栏处女座Orz 本文适合有一定计算机基础,有耐心,喜欢瞎折腾的童鞋阅读,笔者其实也是瞎折腾,瞎写写,所以如果看了本文仍然没能成功的童鞋莫怪,笔者也基本不会回答使用问题_(:з」∠)_ 还请多多善于查阅资料,靴靴~ 一、必要安装软件 1.esrXP(用于获取字幕时间轴和图片) 必要运行环境(非常关键,涉及软件能否正常使用): ①启用Windows Media Player(启用或关闭Windows功能) ![]() ![]() ②LAV Filters 32bit(64bit可选) ③Codec Tweak Tool(用于调整系统解码器托管) a.preferred splitters选项.MP4和.MKV选择LAV Splitter b.preferred decoders选项 H.264和HEVC/X.265两项选择LAV Video c.MS Codec Tweaks选项 禁用(打勾)掉微软所有32位的解码器,这样可能造成wmv无法播放,不过可以随时改回来。 以上a~c每次改完单击Apply&Close。 ![]() (②③可直接默认安装K-Lite Codec Mega获得) 【本段参考文献1】 二.推荐安装软件 1.Avisynth/Avisynth+[推荐] 推荐直接使用avs脚本在esrXP打开目标视频 实例代码:LWLibavVideoSource("D:\字幕\待提取.mp4") avs文件需要ANSI编码,务必注意。 2.Office OneNote / ABBYY pro / Adobe Acrobat PRO/DC / QQ手机版长按图片识别文字 用于OCR字幕获得文本,不会使用IdxSubOcr可以以上软件识别字幕文本。 3.IdxSubOcr[推荐] 用于IDX+SUP字幕的OCR获得文本,非常好用,可在esrXP导出IDX+SUP字幕,然后使用本软件OCR并直接在软件内校对修改,然后保存为SRT字幕。 然后可以用Notepad++抓取字母文本导入Aegisub合并或者直接转换格式等。 必要子环境: ①OFFICE MODI 建议安装老马的一键包 http://yun.baidu.com/s/1qXFS9dy 老马的原创空间>OCR>MODI_From_Office2007SP3.rar 软件本体:老马的原创空间>原创软件IdxSubOcr.zip ![]() 简单教程:以管理员身份打开软件,打开IDX文件,单击确定,选择OCR语言[简繁中+英+日],选择文字颜色使预览显示为实心白底黑字,然后确定即可开始识别。 如果esrXP导出的字幕图像清晰且软件设置无误,此时即可识别出基本正确的字幕文本,然后在软件中自己校对修改字幕文本后单击左上角保存srt文件。 4.Aegisub[推荐] 当前最广泛使用的字幕软件之一,用来给esrXP导出的空时间轴ssa字幕加上字幕文本和调轴等。网络教程很多,这里略去。 5.Notepad++[推荐] 强大的文本编辑器,用来处理OCR后的字母文本,删除空格空行等。 附一个获取srt纯字幕文本的正则表达式: [0-9].+替换为空,然后[0-9]替换为空可删除srt时间轴和行号,然后编辑→行操作→删除空行即可获得纯字幕文本。 ![]() 三、具体使用教程 强烈建议参考(笔者亦受益匪浅): http://bbs.vcb-s.com/thread-1091-1-1.html 笔者的简易流程说明: 1.为目标视频写一个avs脚本,可选。 2.用esrXP打开avs脚本或者视频,打开过滤器并开始识别。 ![]() ![]() 3.编辑字幕图片(删除无关+合并)。 ![]() 4.保存为ssa,idx+sup和字幕图片。 5.IdxSubOcr识别字幕文本,并校对保存srt。 6.Notepad++打开srt,替换掉srt行号和时间轴,获得纯字幕文本。 7.Aegisub打开ssa字幕并选择性粘贴字幕文本,然后根据视频调轴。 四、笔者技巧补充 1.当我们在esrXP识别字幕后,打开字幕管理后可以合并相同的字幕,这样时间轴就准了,不要直接删掉不清楚的字幕! 操作:假设目前前三张图片都是同一句字幕,且第二张图最清晰,那么右键选中第一张图,然后右键选中第三张图,在左键单击第二张图,此时字幕右边有上下两个箭头,最后单击菜单的红叉删除按钮,这样就合并了这三条字幕。 ![]() 2.勾选额外颜色可以看到绿色部分,然后用菜单的T按钮可以用来修复部分缺字,单击需要修补的部分即可。 ![]() ![]() 3.使用+ -号按钮调节字幕大小,看到字幕完整边框,这样才能看到第一条的上下箭头。 4.左键单击的字幕会被隐藏,可以选中后单击菜单的红叉删除。 5.选中连续多行,先右键选择起始行,然后左键选中末行。 ![]() GIF更清楚一点 6.针对淡入淡出字幕的识别会有时间轴误差,可以在字幕软件的时间后续处理器进行调节。 五、难点 1.笔者在使用本软件时,感觉最难的还是过滤器的使用,这一步也是重点,直接跟OCR识别成功率挂钩,这个只能多试试各种参数调节。 2.视频黑边里的字幕最好识别,特效字幕和特殊字体不好识别,所以本教程主要局限于普通效果和字体的视频硬字幕提取。 六、后记 笔者折腾了几个小时成功地使用了一遍,其实应用场景并不多_(:з」∠)_,毕竟有了硬字幕视频未必非要软字幕,不过可能有重度发烧友一定要软字幕,那么可以使用esrXP减轻工作量。 由于esrXP软件古老,是2005年的产物,而目前系统多为win7,win10,所以一开始的软件环境安装是个难点,笔者曾卡在这一步,多谢参考文献中的两位的教程才得以解决。 每个字幕视频都是独特的,滤镜过滤取得字幕很难,要有耐心学习使用,多练才会熟练。 软件自带主页已经无法访问,所以不知道本软件是哪国人开发的。虽然古老,但是她还是能为我们解决很大负担,她的价值在于获得了很准的时间轴,同时如果过滤器效果理想还能结合OCR软件得到不错的识别文本,由此大大减轻了字幕提取的工作量,在此非常感谢软件的作者! 另外也非常感谢国人软件作者老马编写的IdxSubOcr,该软件能方便准确地识别中日英三语IDX+SUP字幕,也要感谢开源软件Avisynth(+),Aegisub和Notepad++的所有开发者! 七、相关软件下载地址 1.esrXP[非官网,亦可自行搜索] http://www.121down.com/soft/softview-34428.html 2.K-Lite Codec Mega http://www.codecguide.com/download_k-lite_codec_pack_mega.htm 3.Avisynth http://avisynth.nl/index.php/Main_Page 4.Avisynth+ http://www.avs-plus.net/ 5.IdxSubOcr(含MODI) http://yun.baidu.com/s/1qXFS9dy 6.Aegisub http://www.aegisub.org/ 7.Notepad++ https://notepad-plus-plus.org/ 八、参考文献 1.esrXP:硬字幕转制外挂字幕利器(改二) kavenliang darkangel0224 http://bbs.vcb-s.com/thread-1091-1-1.html 最后祭奠于今日与世长辞的世界著名物理学家斯蒂芬·威廉·霍金(Stephen William Hawking)教授,世间再无霍金,时间永留简史。 R.I.P. 本教程作于2018年3月14日 |
CopyRight 2018-2019 实验室设备网 版权所有 |