2018-11
8

不完整,留遗憾

By xrspook @ 10:04:07 归类于: 烂日记

如果不想自己过得很被动,主动权就要掌握在自己手里,不能依赖别人。如果我只能靠字幕才能理解那个意思,那么我就没办法去主控那些根本没有字幕的视频。昨天其实我已经很努力了,我完成了两个花絮的翻译,其中一个有官方英文字幕,另外一个则是只有油管自动生成的英文字幕。Google自动翻译的那个东西大部分都可以接受,但是如果说话的人不是说英语,而是说印地语,显然就会乱套。油管自动生成的字幕最大问题是断句很奇葩。因为他们不是为了你一句一句看的,有些时候,那些东西出现的方式是一个一个词来,就像卡拉OK字幕那样。我花了九牛二虎之力才把从网上下载回来的字幕调整格式到字幕软件可以识别的程度,然后再通过字幕软件把那些有时间轴的东西全部都去掉时间轴,只剩下核心的文字。如果把那些字全部都堆砌起来成为一段话,可能还好理解一点,但是一定文本长度就一个断句。阅读起来就相当痛苦。人做这种事的时候不会这么整,我们会根据说话人的停顿去断句。如果句子太长,中间会根据一些小停顿分隔开,但显然机器不是这么认为,机器也没想过你要把机器翻译出来的东西下载回去然后再人工翻译。对我们这些没有工具、不肯花钱、很无奈的小白来说,只能这么干,但是对专业人士来说,完全可以用一些专业的工具直接从视频中识别出文字,他们要做的不过是把那一堆文字打一个时间轴而已,又或者那些工具直接就可以为他们生成完美的时间轴。我不知道现在那些AI能力到底能有多强。因为按照人阅读的习惯,每一段字幕开始和结束的时间并不是跟声音的出现结束时间完全一致的,之前之后都要有一些提前延迟,而提前延迟的长短要根据那句话的语速语气去判断。AI能做到这个吗?即便AI做不到这个舒服的,让字幕出现或消失按照音频来那是绝对没问题的。如果我肯花钱,大概我也能把视频放到某个地方,让它自动给我识别出这些东西,但显然我们只是穷逼的爱好者,所以也就只能用很麻烦的方式被别人牵着鼻子走。

我经常在做宝莱坞某些电影的花絮翻译,但显然那些东西得凭他们的心情挂字幕。心情不好的时候什么都没有。如果我得经常性、习惯性做这个东西,要感受到其中的快乐,就得像我的网友所说,按照我从前的风格,我一定会去学印地语。虽然从前对我来说,西班牙语学是学了,但叫我听懂还是做不到,但起码他们在说某些单词的时候我能反应过来。起码我脑海里能拼出那个单词,或者是马上反应出他们说的是什么东西。在印地语这个问题上,我相当被动,因为虽然已经看过了不少电影,但却仍然一点不懂。如果,我起码能把它的发音搞定,我可以把句子听写音译出来。然后发到某个地方,我还是能知道是什么意思。但如果完全把握不到,那就根本没戏。我很了解我自己,我的网友也很了解我。我要让自己的命运掌握在自己手里,不懂的东西就要去学,除非那个东西是我觉得没有一点所谓的。

昨天我本可以十全十美的完成TOH十个全系列的幕后制作花絮翻译,但最后一个花絮我死在那些印地语对白,以及某些我没办法按照上下文去理解出来的英语上面了。我觉得很不甘,很无奈,同时也有点气愤。排灯节昨天就开始,所以按照他们的习惯。如果在昨天之前他们都没有把外挂字幕放上去,过节的时候没人会干这个活儿。等待别人的施舍还不如自己主动出击。的确,印度的语言非常多,但是我要征服的不过是他们的其中一种官方语言而已,而学习这个,并不是因为我要去那个地方旅游或生活之类的,而是因为那是一个阻碍我享受兴趣的东西,我要征服它。

要化悲愤为力量!

2018-06
13

再谈文字识别

By xrspook @ 9:20:11 归类于: 烂日记

突然发现语记升级以后也可以进行文字识别了,但问题是那个功能以后会变成收费项目,因为现在显示的是限时免费。语记的文字识别准确率挺高,问题只是步骤相对来说略多,要多页纸整的话会比较慢,而且往后要收费,相比于免费的QQ。显然后者会更适合大众多一些,但是如果本来对语记就有很强的依赖性,这个功能绝对会让大家更爱上这款app。说来也奇怪,语记从前是有离线语音包的,但现在我翻遍整个app都没找到,但是如果我下载的是讯飞输入法,我的确可以设置下载离线语音包。虽然,离线语音包其实作用不大,因为没有联网,识别出来的东西还是比较不靠谱的,但总比什么都不能识别强那么一点点。可能如果我开通了语记的VIP功能,那东西也会有离线语音包的设置。作为一个收费项目,我觉得很奇怪的是为什么语记没有把收费和不收费的对比优缺点展示出来呢?别人不知道你的收费项目以后有什么好处,自然不会给钱。以前我也试过一段时间不用语记,改用讯飞输入法的语音输入。输入法的语音输入没什么问题,问题在于它的键盘输入实在太反人类了,无论我怎么输老错。这种事情在谷歌、搜狗和百度手机输入法里面都从未发生过。语音输入是讯飞的特色,但如果其他输入法很弱爆,别人没办法依存这个输入法,因为有些时候,语音是不凑效的,在准确校对的时候,语音是不行的,所以用过一段时间讯飞输入法以后,我又换回了我心爱的谷歌输入法,继续用语记进行我的语音输入。

以前的文字识别用的应该不是云数据,用的应该只是字库里面的东西,但现在什么都说云,什么都说AI人工智能,估计现在那种技术也用在了文字识别上面。相对于语音识别,我觉得文字识别可能会简单一点。这两种东西都可以大大地解放人类,不过实际上我对这两种都一窍不通。我只知道用什么软件可以让我免费且质量好,做到我想做的事作为一个普通地球人这也就够了,毕竟我不是一个开发者。说来也奇怪,科大讯飞在语音识别方面已经好多年了,为什么直到近期的语记更新他们才开始加入文字识别的功能呢?不过需要一赞的是他们首次推出这个功能就非常强大。即便照片有点模糊,但是还是可以精确地把文字识别出来。相比之下,小米的那个文字识别,真心太恐怖了,难怪他们一直把那个只当作隐藏功能,没有在推广系统的时候作为亮点做宣传。的确,那样的技术根本不值得一提。甚至应该在某次版本更新的时候悄悄地把文字识别功能下架。

文字识别这种事在中国,有很多个厂商都在做,有中文的也有英文的,但是某些小语种的文字识别,Google都没碰过,比如说我想用拍照的方式文字识别印地语然后翻译为英语。软件会告诉我,无法图片识别我选择的语种。于是这就让人非常头大了,我只能很苦逼地在手机上抄写我看到的印地语,画画一般,但问题是其间如果有一丝停顿,那个画就作废了。在PC的网页上没有这种烦恼,但如果用PC网页,就得用鼠标画画了,那个也不容易。我们的技术员如果能攻克我们自己的语言,同时还可以把外国的语言也识别一下,那将功德无量。世界那么大,语言那么多,能赚钱的机会大把大把。识别了语言以后,然后读出来,就可以解决很多地方文盲的问题。这种事情尤其在不发达国家非常有用。不过话说回来,不发达国家估计买不起这些……

每天,科技都在带给我们很多快乐。

2018-05
30

学外语

By xrspook @ 9:02:37 归类于: 烂日记

几乎每天都有关于米叔从演经验的消息,我不明白为什么那些消息总是一天有一点,就像挤牙膏一样。比如说昨天说的是他记台词很慢,所以在电影正式开拍之前,他要用3到4个月的时间跟导演对台词。而那些有天赋的演员,他们可能看一眼台词就记住了,即便是要学习一种方言,一个星期就可以搞定,他要用四个月。我觉得用三四个月对台词之所以这样是因为他的电影里用的是其它语言,或者是印地语的方言,或者根本就是另一种语言。虽然那些不完全是非常正统的方言,因为过于正统,可能说印地语的人会听不懂。但学习一种方言基本等于是要学习一种外语。学习一门外语用三四个月的时间很正常,那些用一个星期就掌握的是神人。对演员来说,尤其是对米叔那种对自己要求非常高的演员来说,他不仅仅要学会一种方言的发音使用,他还要把感情融入到那种语言里,所以他花的时间比别人多也就很正常了。通常来说,演员不会故意为难自己去学方言。对那些方言就是母语的人来说,其他人说出来的语言总会觉得怪怪的,即便那些人已经觉得自己已经说得很不错了。还记得在电影《失孤》里面,刘德华饰演的是一个农民。他的演技的确已经很不错了,但最大的问题是他一开口就严重暴露了。他的普通话里面有强烈的香港味道,完全感觉不出那是一个农民的口音。如果这样,角色就算失败了。米叔的很多电影里他都必须要面对这样的考验,比如说Lagaan,PK以及Dangal。他为什么要这般折磨自己呢?他完全可以让导演编剧把那些台词都改为印地语,但也正是因为这样,所以他才是米叔。因为他会为每个角色改变,而不是让所有角色都打上米叔的特色烙印。学习外语的那几个月,他失败过多少次?真的,只有跟他一起的人才会知道。对我们这些外国人来说,他说什么语言对我们来说都是鸟语,反正都是听不懂的,最多只能大概觉得那些跟其他人其它电影里说的印地语有一点点区别。

到底一个什么样的人才会不遗余力地为了各种需要学习外语呢?其实除了他,我也是一个。粤语是我的母语,普通话是我的国家官方语言,还是学生的时候,我们逼迫着得学英语,因为那是考试科目之一。能选择自己兴趣爱好的时候,我迷上了西班牙语,因为我需要的很多都是西班牙语表达的。直白地说是因为我要看的肥皂剧是西班牙语的。我关心的那个演员或那个摔角手的消息很多都是西班牙语的。西班牙语转英语,再用中文去理解,这不是不行,但如果能直接理解那个意思,何必靠那么多中转呢?再到后来,我迷上了印度电影,但一定程度上,我暂时还不能接某些区域的电影,比如说泰米尔语,泰卢固语的又或者孟加拉语,所以我基本上选来看的电影都是印地语的。印地语相比于西班牙语来说,要学会实在太难了,西班牙语怎么说都是联合国通用的几大语言之一。印地语比起来真心是个非常小的小语种。虽然在印度,印地语和英语是他们的官方语言,但是各个地方还是继续使用他们自己的语言。这个时候,我真的很感激秦始皇统一了中国的文字和语言。虽然我也有方言,但起码我们的文字是一样的,只是发音不同,意思上都是相通的。我也很感谢汉语拼音的存在,让中国的文盲大幅度地降低。虽然在推广普通话的过程之中很多方言被逐渐吞噬失,这的确让人觉得很惋惜,但是有统一的语言,真的让我们很方便。一定程度上我也是个为了各种需要不遗余力学外语的人,而之所以这样,纯粹是因为我喜欢,我觉得很有必要。但显然我学的没有米叔那么多、那么系统,因为一路以来我都是自学,而他每一次肯定都有语言老师专业指点,所以他学习那门语言过后,他可以用那个跟别人交流,可以在电影里很流畅的表达出来,而我仍然是继续在半蒙半猜之中过日子。如果他算一百分的话,大概我也有40分吧。跟他比起来,我貌似总是一个半桶水的人。但这也真的不能完全怪我,我也希望把这桶水打满,但是兴趣太多每个都满分,几乎不可能。

趁着还年轻,主动多接受些挑战是好事。

2017-10
3

睡觉神技

By xrspook @ 21:28:52 归类于: 烂日记

今天下午我负责睡觉,我妈负责看电视,我睡在她房间的床上,电脑正用音箱外放来播音看电视,但我依然能睡着。我妈觉得我这个技能实在太神奇。为什么电视那么大声,我还是能照睡不误。我觉得自己很快就睡着了,睡得很死,几乎没有翻身,一直都是仰卧。睡在床垫上,不用枕头,也不开风扇。其实,我也搞不懂自己是不是真的完全睡着了,我梦的内容可能跟电视的某些对白有关,但我实在想不起那到底是怎么回事,是完全是我自己臆想出来呢,还是真的电视里的内容呢?近段时间经常会发生这种事,我在睡觉,我妈在看电视。谁也不干扰谁,除非那一天很热,我睡着睡着被热醒了,然后我就会挪个地方。

今天这一觉,睡了好多个小时,从中午1点多睡到了接近5点,然后我起来吃了根香蕉。想起今天我只看了两集GA,其它什么事都没做,当然也包括还没写今天blog。回到电脑前,发现Secret Superstar又出了一首新歌的mv。那首歌曲就是去年在Dangal上映之前,Secret Superstar小预告里的那两句。我迅雷不及掩耳地把那些东西下载回来,然后进行各种处理,再上传到B站。先是一个什么都没有的生肉,然后在网上找资源,把印地语歌词配进去。记得第一次找资源的时候,甚至找不到印地语歌词。实际上,我第一次在油管发上发现那个MV的时候,已经发布23分钟了,通常来说。MV下载回来以后,在Google上搜歌词,都应该能搜得到,但是这个是例外。MV歌词都没有,就更谈不上全曲歌词。过了一段时间,MV歌词总算被找到。当我把MV的歌词配上,并压制出来以后,再去搜索,我就搜索到了全曲歌词,全曲的MP3也能找到,于是,我也就顺便做了个单图版本的全曲印地语歌词。我不知道别人是如何校对歌词的,反正我必须跟着那些印地语歌词,唱上几遍,才能确保没有出错。出错的内容包括时间轴不对,比如说,已经开始唱了,但是歌词还没有,或者已经唱完了歌词还持续好长一段时间。又比如说大小写跟我目标的不一致,我的目标格式是句首大写其它都小写。但是,网上纯文本粘贴回来的歌词却不时会出现里面偶发大写字母。在打时间轴的时候我通常不会看得到,因为注意的通常都只是一头一尾两个音。我会在每句歌词的一头一尾贴上音符的符号,但有时我会手贱贴错。印地语音译的歌词质量怎么样我没办法判断,所以对我来说,主要调整的是格式上的问题。通常我会因为格式上的问题重压至少一遍。可见,我继续还是从前那个粗心大意的人。但是这种粗心大意在我把东西发布出来之前大概都已经修正得差不多了。还是学生的时候,我做不到这个,所以测验考试卷子上总是会出现这样那样的毛病。如果从前我就有这种觉悟,或许我的考试成绩会好一点,但是我骨子里真的不是那种超细心的人,所以要做到这个我需要不少时间,而学生时代时间是最宝贵的,也是最不可控制的。如果可以选择的话,我觉得有些人的学生生涯可以缩短到15年,甚至10年以内,因为他们的上手速度真的很快,但对另外一些人来说,他们学得很慢,他们能学得进去,但问题是他们吸收时间要很长,所以那些人可能需要20年甚至25年。我属于有点慢热的人。也正是因为这个,在应试教育一刀切的时候,我并不能发挥我最大的潜力。

过完今天,国庆假期眨眼就进入第四天了,过了一半,但感觉我没做什么。

【印地语歌词】Nachdi Phira – Secret Superstar – MV

【印地语歌词】Nachdi Phira – Secret Superstar – 全曲

2017-05
28

只要有欲求

By xrspook @ 22:57:48 归类于: 烂日记

凌晨1点睡觉,早上5点半起来,中午没有休息,昨天我用了一天时间,把时间轴里没有的东西全部加进去,我觉得这是一个奇迹,因为当早上我把我需要加进去的东西整理出来以后发现原来那有150多条,我每条都有加一句或以上的东西需要添加。整个字幕大概2000条,我需要加进去的东西可能超过两百。想想都觉得很疯狂,但是我居然做到了。我不只是做到了,而且我还把歌曲一些缺失掉的也添加回去。把一首根本没有轴的歌自己打了时间轴也加了进去。在做了这些不可能这么快能完成的事以后我觉得人生又再次变得一片光明了。虽然我知道到现在为止某首歌的某个部分还是缺失,除非找到真懂那个语言的人,否则我们没有一点办法。我们有13亿的中国人,那边也有13亿的印度人。我只需要13亿分之一和另外一个13亿分之一联合起来。但原来这也不容易。如果这是英语,如果这是西班牙语,很快就能解决,但是这是印地语。也不能说印地语是一个小语种,但是印地语这种东西在中国实在太难为我了。还记得很多年以前,当我还在迷哥伦比亚的肥皂剧的时候,我曾经试过自己搞发音把主题曲给写下来。写出来的东西,我也不知道那到底是什么鬼。最终那首主题曲当然还是被我找到了官方的版本,跟我自己写出来的相差非常远。但毕竟西班牙语是拉丁语系的印地语因为不是拉丁语系的,所以可以音译为拉丁语系的语言就像中文汉字一样,可以用汉语拼音表达。我也不管那个部分具体到底应该怎么样,反正我就把那些一头一尾的给记录下来,因为没有那些,我就无法在时间轴上定位。要我把一句话记下来,而且还可以翻译出意思,对我来说根本不可能,但是如果只需要记录一个头尾的音节的话,我还是可以做到。只有当我自己觉得已经走投无路的时候,我才会去找朋友,甚至找一些都不知道算不算朋友的网友。平时我不怎么打交道建立关系,但是到这种时候我却要找人。我也知道我这个做法不太好,但是如果我不这样的话,大概我就挤不出那么多的时间去做实际的事情。相比于跟人打交道,我更擅长于跟事打交道,但我也明白到当事情发生到一定程度,跟人打交道是完成某件事的必要步骤。

这个端午假期,我本来打算去献血,但昨天大姨妈的到来打乱了我的节奏。今天早上我本来打算去跑13K,完成这个月的跑量,但是汹涌的大姨妈再次把我的事给搞乱了。今天下午我打算骑车去看电影,但现在从大姨妈的这个状况看来,这可能只是我的奢望。因为谁知道路上会让我遇到什么出丑事,还有就是要在电影院坐上两个半小时鬼知道又会发生些什么。可以这么说,这个端午假期大姨妈也放假了,陪我。我不怎么喜欢她,但实际上当我想休息的时候,我真的非常希望她快点来。当她来的时候,我又会有各种抱怨。所以最终可能我不会全程踩单车,我会踩上一段路,然后看情况再决定往后要怎么样。即便大姨妈不来,正午踩单车也不是个好主意。

我确信我想做到的事,我就一定可以做到,无论其间我会有什么从前我觉得不可能的行为。这块苦头,我铁定要拿下。

© 2004 - 2024 我的天 | Theme by xrspook | Power by WordPress