2018-06
13

再谈文字识别

By xrspook @ 9:20:11 归类于: 烂日记

突然发现语记升级以后也可以进行文字识别了,但问题是那个功能以后会变成收费项目,因为现在显示的是限时免费。语记的文字识别准确率挺高,问题只是步骤相对来说略多,要多页纸整的话会比较慢,而且往后要收费,相比于免费的QQ。显然后者会更适合大众多一些,但是如果本来对语记就有很强的依赖性,这个功能绝对会让大家更爱上这款app。说来也奇怪,语记从前是有离线语音包的,但现在我翻遍整个app都没找到,但是如果我下载的是讯飞输入法,我的确可以设置下载离线语音包。虽然,离线语音包其实作用不大,因为没有联网,识别出来的东西还是比较不靠谱的,但总比什么都不能识别强那么一点点。可能如果我开通了语记的VIP功能,那东西也会有离线语音包的设置。作为一个收费项目,我觉得很奇怪的是为什么语记没有把收费和不收费的对比优缺点展示出来呢?别人不知道你的收费项目以后有什么好处,自然不会给钱。以前我也试过一段时间不用语记,改用讯飞输入法的语音输入。输入法的语音输入没什么问题,问题在于它的键盘输入实在太反人类了,无论我怎么输老错。这种事情在谷歌、搜狗和百度手机输入法里面都从未发生过。语音输入是讯飞的特色,但如果其他输入法很弱爆,别人没办法依存这个输入法,因为有些时候,语音是不凑效的,在准确校对的时候,语音是不行的,所以用过一段时间讯飞输入法以后,我又换回了我心爱的谷歌输入法,继续用语记进行我的语音输入。

以前的文字识别用的应该不是云数据,用的应该只是字库里面的东西,但现在什么都说云,什么都说AI人工智能,估计现在那种技术也用在了文字识别上面。相对于语音识别,我觉得文字识别可能会简单一点。这两种东西都可以大大地解放人类,不过实际上我对这两种都一窍不通。我只知道用什么软件可以让我免费且质量好,做到我想做的事作为一个普通地球人这也就够了,毕竟我不是一个开发者。说来也奇怪,科大讯飞在语音识别方面已经好多年了,为什么直到近期的语记更新他们才开始加入文字识别的功能呢?不过需要一赞的是他们首次推出这个功能就非常强大。即便照片有点模糊,但是还是可以精确地把文字识别出来。相比之下,小米的那个文字识别,真心太恐怖了,难怪他们一直把那个只当作隐藏功能,没有在推广系统的时候作为亮点做宣传。的确,那样的技术根本不值得一提。甚至应该在某次版本更新的时候悄悄地把文字识别功能下架。

文字识别这种事在中国,有很多个厂商都在做,有中文的也有英文的,但是某些小语种的文字识别,Google都没碰过,比如说我想用拍照的方式文字识别印地语然后翻译为英语。软件会告诉我,无法图片识别我选择的语种。于是这就让人非常头大了,我只能很苦逼地在手机上抄写我看到的印地语,画画一般,但问题是其间如果有一丝停顿,那个画就作废了。在PC的网页上没有这种烦恼,但如果用PC网页,就得用鼠标画画了,那个也不容易。我们的技术员如果能攻克我们自己的语言,同时还可以把外国的语言也识别一下,那将功德无量。世界那么大,语言那么多,能赚钱的机会大把大把。识别了语言以后,然后读出来,就可以解决很多地方文盲的问题。这种事情尤其在不发达国家非常有用。不过话说回来,不发达国家估计买不起这些……

每天,科技都在带给我们很多快乐。

2018-06
12

图片文字识别

By xrspook @ 8:59:18 归类于: 烂日记

因为很懒,不想把小说里面的东西一页一页地通过键盘输入。所以我想找一个可以拍照然后转化为数字格式文字的软件。其实文字识别这种东西,很久以前在PDF里已经可以,但问题是识别的效果有时真的很糟糕。尤其是遇到纯图片的PDF,从前的识别软件几乎无解。即便某些文献里不是图片的文字有时也会识别错误。十几年过去了,这些技术难道就没有发展吗?手机上安装了个Google Translate,他们有一个很屌丝的功能:当你把要翻译的东西放在他们镜头底下某个区域,他们就可以把那里的文字直接翻译成你需要的语言,毫无PS痕迹。这种效果是动态的,虽然很炫酷,但只对词语有效,而且我觉得只能停留在玩一年玩的水平。我需要的东西不是翻译,而是直接把汉字给我识别为汉字就可以了。

据说小米的系统MIUI 8扫一扫就隐藏了这个功能,我迫不及待了试了一下,结果让人很失望,因为识别出来的东西简直就是乱码一般狗屁不通。WPS也有这个功能,但他们识别出来的效果也不好,虽然那个功能,对非VIP来说只能用几次,但即便是这种VIP的功能其实也不好。我不想在手机里再安装其它软件,于是继续搜索,结果发现原来QQ的扫一扫也有这个功能。既然QQ扫一扫可以,所以我觉得微信的扫一扫应该也差不多吧,然后呢,我发现微信的扫一扫貌似只对二维码感兴趣,对文字识别无感。但是QQ的扫一扫就很强大,可以识别文字,也可以识别图片里那个是谁。这很方便,突然看到某个人的照片,尤其是明星类的,想不起他叫什么名字,拿QQ过去扫一扫就可以了。虽然他们说可以这样,但是我没试过拿QQ对着明星扫一扫。我的确拿QQ往书上扫一扫了,结果实在让人太惊喜,QQ识别的速度很快,而且只要你拍照恰当,光源合适,出来的效果相当好。有了这个神器,基本上遇到纸质的书本我们就不用烦了,但是因为这种扫一扫需要配合一定的条件,得出的文字才会准确。如果只是一两页纸扫一扫那是相当的爽,但如果你得想搞一本书,那就真的很痛苦了,不如在网上找一找有没有电子版的比较快捷。我想到的是既然他们可以通过这样的扫一扫识别文字,估计也有软件可以针对PDF里的图片识别出文字,而且速度要比这个快很多,之前我也的确干过这种事,因为当时要把PDF版本的东西放到kindle里阅读。虽然用kindle直接打开PDF也可以,但是阅读会非常辛苦,所以我通过某个软件把PDF转化为kindle专用的mobi。PDF里像图片一样的文字被识别为数字格式,但问题是那是本英语书。有些单词被分在两行,识别会把那当作两个东西,于是阅读的时候你就头大了。你必须具备神一般的单词合并能力进行脑补。既然英语可以识别,中文估计也没问题,但中文的复杂程度要比英语高很多。前晚本打算十点多就睡觉,结果因为这个扫一扫,扫了十几页纸,于是折腾到了11点多才睡觉。

科技进步,人活得越来越爽。

2018-06
9

我的m2ts修复及压制套路

By xrspook @ 8:29:04 归类于: 烂日记

家里的电脑是32位i3加4G内存,单位的电脑是64位i5加8G内存。CPU这种东西,平时你看不出差别有多大,但是压片的时候区别就非常明显。时长差不多的东西,单位的电脑只需要5分钟左右就搞定,但家里的电脑却需要接近50分钟。虽然从压制速度上看来,数据不过是一个是另外一个的两三倍而已。所以,用电单位的电脑压制,压制时长不过是上个厕所而已,但用家里的电脑压制,压制时间则可以完成一篇blog,再睡个小觉。二者最大的区别在于在单位的时候,我只能在某些时间干这种事,但在家里,只要我没有睡着,我都可以一直干。用了电脑这么多年,我觉得最能显示CPU性能的大概对我来说就只有压片了,因为我不玩游戏,尤其是大型游戏,其它电脑程序通常都只会耗费内存,如果硬盘容量不够,电脑也会被拖慢,但很少情况下需要CPU持续飙到100%。

昨晚我终于接受了这么一个事实。下载回来的《古拉姆》的五首歌舞的m2ts文件一律关键帧都有问题,天知道那个好心人用的是什么剪切软件。所以在压制的时候会出现一开头卡死。到现在为止我已经压过三首歌,最夸张的那一首卡了18秒,但即便是不怎么夸张的也要卡不到一秒,或者一秒多一点。第一帧是否关键帧我是通过Aegisub去看的,因为如果遇到关键帧,显示当前帧数和当前帧对应的开始时间的格子会显示绿色,否则是灰色。把下载回来的原盘文件,放到Aegisub里,一律一开始的时候都不是绿色。Aegisub觉得这不妥当,压制软件也觉得这不妥当,但是视频播放软件已经习以为常了。要解决这个问题,昨天我用的是Smart Cutter for DV and DVB剪切软件,剪完以后再放回Aegisub里测试。昨晚我明明可以十点多就睡觉,但却搞到了12点多,因为我一直都没有得到我想要的结果。后来发现,之所以得不到是因为我想太多了。只要把原盘文件放到那个剪切软件里面重新输出,自然就会修复关键帧,再放回Aegisub里,第一帧就是绿色的。即便在Aegisub里播放的时候仍然会有问题。这个是我的最终结论,在这之前我用那个剪切软件剪过不下十个视频,然后再一个一个的放到Aegisub里播放。到底应该从哪一帧下剪刀?我试过把下载回来的m2tv文件放到Aegisub里找到关键帧,记住那个时间,然后在剪切软件里也同样找到那个时间。结果发现,即便这么较劲,剪切出来的的东西放到Aegisub里播放还是神经病。发现剪切软件输出的视频第一帧都是关键帧是我非常偶然的发现。既然保证了那是关键帧,压制的时候能不能通过呢?于是我在AVS脚本里加入了trim剪切代码,试压一开始的几十秒。试验证明保证第一帧是关键帧就可以!我需要做的只是把所有下载回来的m2ts都放到剪切软件里修复关键帧。到现在为止,理论上我觉得这样就能解决一开始的卡帧问题。只要放进去输出就行,根本没必要纠结必须选择从哪一帧开始或结束,全部选上就好。

需要注意的是经过剪切的文件时间总会跟之前不一样,至于相差多少,很难说,所以如果在剪切之前就已经调好时间轴,剪切后就得根据修复后的m2tv把字幕调整一下。之前我的步骤是这样的,首先根据下载回来的原盘文件做精准的时间轴,然后把那个原盘文件拿去修复关键帧,调整时间轴。然后,把时间轴跟视频压到一起。最后用dgavcindex从原盘文件中提取两个音频,它们分别是DTS和AC3。之所以用那个分离,是因为那个索引软件能自动读取出音频的延迟时间。虽然根据修复后的视频我已经调整过一次时间轴,但如果音频的延迟时间超过一百毫秒,出来的东西还是会跟我料想的有一点点区别。所以我的制作步骤就应该调整为首先是根据原盘文件制作精准的时间轴,然后是dgavcindex输出原盘文件的音频文件,接着是用剪切软件修复原盘文件的关键帧。按照修复后的m2ts调整时间轴,调整的时间的时候还得同时考虑音频输出的延迟时间,也就是说,我要预先把那个音频的延迟时间加上去。字幕轴调整的时间包括修复前后的m2ts差异以及音频延迟。接着,我就可以把修复后的蓝光文件以及字幕拿去压制。最后把压制后的视频和原盘文件提取出来的音频封装在一起。严格按照这个流程操作,理论上我只需要压制一次就行了,但这是我做到第三首歌舞的时候才得出的结论。之所以之前没有得出,首先是因为我太着急了,第二是因为当时我有新手的运气,第三次是单位的电脑性能好,压制不怎么耗我时间,我可以不断地失败重来,但是家里不一样。为什么我要从原始的m2ts里提取音频而不是从修复后的m2ts文件里提取音频呢?果然不出我所料,从修复后的m2ts文件里提取音频,延迟的毫秒数就只是个位,完全无需额外调整!!!

在一次又一次挫败中,我逐渐摸索出我自己的套路。

http://www.bilibili.com/video/av24578736/

2018-06
8

把痛留给自己

By xrspook @ 11:08:13 归类于: 烂日记

经历过多少伤痛只有你自己知道”在45分钟的Dangal幕后花絮制作特辑里米叔对折磨中的Fatima说了这么一句话,然后他举了小李子拍《铁达尼号》冰水镜头的例子。

之前我是那种不怎么喜欢把自己伤痛或折磨故意告知/展示给别人的人,看到Dangal里米叔的话以后,更加坚定了我。别人没必要知道你是怎么辛苦得来的,他们要的是结果,为什么你要把那些都炫出来呢?那些该拿来炫吗?如果那是别人看到的,是别人拿去吹的,我们阻止不了,但起码我不应该主动这么干。别人因为一点点事大惊小怪的时候,我内心非常无语。比如昨天下午开会的时候坐我旁边的女生说她抓破了个痘痘,流血了,居然还能引发紧张,居然还得用双飞人去消毒一下,居然还要像发生了什么大事一样告诉她旁边的同事。这到底是什么鬼?!我不把我的痛主动拿给别人看,不等于别人就不会主动让我拿出来展示给他们,比如说我妈,她非看不可,幸好有些不是暴露在外的,所以她看不到。只要我不吭声,只要我藏得好,她不会知道,之所以要这样是因为我不想让她过分担心。有时,伤口那种事本来就比较血腥不堪入目,为什么还要强迫别人去感受你的痛呢!当然,我去医院找医生的时候例外,我不把问题暴露出来,医生就没办法帮我。有些时候,我必须把痛告诉别人,比如我的大腿因为某次篮球训练拉伤了,的确走路慢跑都没问题,但只要剧烈爆发启动股直肌马上就剧痛,如果我不顾这个继续发力,天知道会不会夸张到拉断。在这种情况下,难道你们还要把篮球比赛所有女生的期望都放在我的耐力超好、突然爆发的快攻上?!必须改变策略了,有没有!因为天知道这种不知道什么程度的拉伤自然恢复要什么时候才能痊愈,而且我是那种坐不住的人,我没办法一直都只是坐着躺着养着,我一旦动起来,谁知道我又会什么时候什么情况下落井下石。

痛这种东西不是炫给别人看的,但不能就这么让那过去了,我们自己应该好好记录,引以为戒。痛的过程是怎样的?为什么会造成?如何避免?真碰上了以后要怎么处理?除了之前的处理方法以外还有没有更好的选择?因为要得到这些信息,所以我可能会在blog里、围脖上、朋友圈里详细记录下来。不是为了给别人看,而是为了做好记录自己翻查。至于其他人看不看,那是他们的事。

昨天在压制《古拉姆》第二首蓝光原盘歌曲共游肯达拉(Aati Kya Khandala)时我就很痛,但那种不是生理上的痛,那是持续作战的心累。可能是剪片的原因,按照传统压制的方法出来的东西前18秒都会卡在同一个画面。字幕在变化,但视频的其它画面一动不动。一开始我觉得是关键帧缺失的问题,至于为什么会缺失我显然不知道。MeGUI怎么压怎么不对,小丸也是,电脑里再没有其它压制软件。用potplayer、kmpplayer,MPC-HC播放m2ts没问题,但把视频放在Aegisub里播有问题,那个问题和压制出来的效果一样,网友说之所以视频软件没问题是因为那都默认自带纠错功能,但压片的软件没有。我试过用HD Remuxer,也试过用TSmuxerGUI,无效。按照从前压DVD时间轴错乱的经验,我觉得在上MeGUI之前应该先用软件索引一下。dgindex的系列软件只有dgavcindex能用,在dgavcindex里m2ts可以正常播放,所以理论上用索引出来的dga文件放在MeGUI里压制应该没问题。但28**版本的MeGUI不支持dga输入,27**版本的MeGUI能输入dga,但马上跳出DirectShowSource滤镜不支持。DirectShowSource滤镜的问题在新版的MeGUI以及64位的电脑上经常性习惯性地困扰我。我能怎么办呢?我应该去修复m2tv文件,但怎么修复?最后,最后,最后,我遇到了Smart Cutter for DV and DVB。据说这是个无损、可以精确到帧剪切的软件。虽然说是无损但也听说在剪切点的位置会重新编码,可能会出现花屏。Smart Cutter for DV and DVB这个软件的界面有点神奇,以至于我不打开他们的说明页面居然会找不到需要找的东西在哪里。这个有点奇葩的软件最终拯救了我!我把m2ts文件开头和结尾的几帧剪掉,然后呢,居然就好了!18秒的问题解决了!的确剪出来的m2ts文件一开头有花屏,但和字幕放一起经过MeGUI的压制以后,顺滑流畅!18秒的问题完美解决!但共游肯达拉(Aati Kya Khandala)这个m2ts文件还有个音频视频不同步的问题,dgavcindex读取出来是-117ms延迟,TSmuxerGUI出来是DTS-38ms和AC3-17ms的延迟。最终我用了-117ms的延迟设置。理论上我应该把字幕前移0.11s,但实际上我得移0.3秒才和我一开始设置的字幕轴对上,好奇怪。我以为搞定这些后总算可以了,但今天早上才发现字幕里面某个“搞怪”和“宝贝”之间我居然漏了个空格!补空格后压制,封装好全部以后才发现还是不对,虽然我的ass文件里的确已经空格了,那个问题在于其它词语之间我用的是中文空格,最后补上去的那个空格是英文空格…… 所以在B站已经上传到了一半的时候,我又把文件撤了回来,重新压。这些事情从昨天到今天困扰了我接近8个小时,这还只算坐在电脑前的,吃饭洗澡睡觉时的琢磨还不计算在内。理论上这是很简单的东西,但实际上,期间经历的磨难只有我和被我骚扰的少数几个朋友知道。在观众眼里,清晰到流眼泪的画面、靠谱的歌词翻译、恰到好处的时间轴就是他们知道的全部,他们不需要知道更多,再多的罪都是我一个遭就好,当然,折腾换来的经验也唯有我最清楚,但既然我已经把这些都写出来了,大家也就没必要在遇到这种事的时候再彷徨了。

痛并快乐着。

http://www.bilibili.com/video/av24529296/

2018-06
5

发布了

By xrspook @ 9:20:17 归类于: 烂日记

还记得开始着手翻译《古拉姆》的那天是五一劳动节我用了四天时间完成了第一轮翻译。第一轮翻译最后的那些我是边听着习大大的纪念马克思诞辰讲话,一边看打印在废纸上的对白,那是最后的冲刺了。但有些部分我猜不出说话的人是谁,所以具体要如何翻译我还得看过视频再最终确定。但我记得我在五四那一天的中午就搞定了第一轮翻译。在第一轮过后我做了个gif的动图,因为我觉得米叔的那个动作实在太帅了。与其说是整个肢体语言表现出来帅,还不如说是他的那种坚定的眼神让我不得不折服。因为前提是他化的那个妆实在太脏、太血腥了。然后,在一个月后的昨天,我居然可以把我亲手做出来的东西发布了。发布需要很多人配合,歌舞翻译也好,审核压制也好,我一个人做不来,因为我实在无法把握如何歌舞翻译,我也不知道如何调节视频最后的一些格式性、技巧性的东西。那些东西跟翻译无关,但跟往后会不会被别人找麻烦有关。

昨天,我不只是发布了720p的影片本身,也发布了这个电影的蓝光原盘的歌舞,一共五首。前天在搜索电影的海报的时候我才发现原来有原盘歌舞这个东西存在。那时我觉得要把那五首歌舞下回来实在是几乎没有希望了,因为资源太久远,已经是2015年的了。除了有蓝光原盘的歌舞以外,还有蓝光原盘的整部电影,但是有可能歌能下动,电影却下不动,因为电影很大,不是疯子一般不会去下。高级疯子下载40GB的蓝光原盘,估计会选择买蓝光光盘。合计27分钟不到的五首歌,加起来大小是6.82GB。不是疯子当然不会下载,换作从前,我也不下载这种东西。但之所以今天我想下载蓝光原盘的歌舞,是为了看看到底蓝光原盘的《古拉姆》电影的质量如何。因为之前看到体积最大的一个1080p压制版本画面的颗粒感非常强。颗粒感强到甚至让我觉得那是不是用720p的视频源强行压到1080p的大小。我觉得自己真的很狗屎运,因为115上面居然从前有人下载过那蓝光原盘的五首歌,所以在网友的帮助下,我很轻松的就把它们下载了回来。结果发现这五首歌舞的视频质量要比要个1080p的好非常多。前晚我在一个外国论坛就已经看过网友评论,说《古拉姆》蓝光光盘的质量五分为最高分,他们一律评价这部电影的图像质量为五分,音频质量4.5分,所有人都惊叹20年前的老电影居然会有这样厉害的视频质量,实在是让人很感动。前晚在不确定视频如何,只看到截图的情况下,我已经有点心动去亚马逊买他们的蓝光光盘,虽然我没有蓝光光驱。昨天,在网友的怂恿之下,我终于让他给我买了美国亚马逊的《古拉姆》蓝光光盘。不是寄到我家,而是寄到他那里,由他帮我压制,因为他有蓝光光驱,而且他电脑的配置比我的好非常多,再者,他也熟悉做这种事。更重要的是他是一个对视频有很高要求的人,所以他压出来的东西我很放心。另外一个不送去我家的原因是那个《古拉姆》蓝光光盘售价是29.98美金,运到中国的话,要外加10美金的运费。而这样的运费只能是普通标准船运,也就是我得等大半个月,天知道大半个月漂洋过海之后光盘会是一个什么卖相?之前我用这种途径买《地球上的星星》的DVD,折腾了几个月以后,过来时盒子都有点变形了,蓝光光盘的价格是DVD的三倍以上,显然我经受不起这种惊吓。如果把光盘送到他家的话,运费不用钱,所以为什么不让他代劳呢?我非常走运,能交上个这样的朋友。

在《古拉姆》上影20周年之前,我尽力给出了我最大的致敬。

为了给发布的资源来个有中文片名的海报,我不得不硬着头皮用上自己的三脚猫PS功夫,效果嘛,不要求太高的话,还凑合着。第一张海报,原图的正中央手指处被某只鬼用圆珠笔写了个日期!我不得不一点点地用印章工具抹掉,然后呢,就是插入华文隶书的片名呗,用了底纹的特效,为的是配合有年代感海报的破烂感,必须把干巴巴的文字做旧。第二张海报嘛,主要工序是让中文片名的样式和原片名类似,反正呢,我是尽力了。在第二张海报里该把中文那三个字放哪里我也研究了一番,试过竖着放,但最终还是觉得横着恰当点,所以就顺便把原海报里一些无关的东西用印章工具抹掉了。第二个海报估计是个DVD封面,是我搜索了很久很久找到最清晰的版本,但瑕疵在于左边有点裁得太过了,所以感觉少了个边。搞不懂《古拉姆》是当年非常红火的电影之一,为啥留存下来的海报质量都如此一般,和非常优秀的蓝光视频质量很不相称。

© 2004 - 2026 我的天 | Theme by xrspook | Power by WordPress