2018-06
13

再谈文字识别

By xrspook @ 9:20:11 归类于:烂日记

突然发现语记升级以后也可以进行文字识别了,但问题是那个功能以后会变成收费项目,因为现在显示的是限时免费。语记的文字识别准确率挺高,问题只是步骤相对来说略多,要多页纸整的话会比较慢,而且往后要收费,相比于免费的QQ。显然后者会更适合大众多一些,但是如果本来对语记就有很强的依赖性,这个功能绝对会让大家更爱上这款app。说来也奇怪,语记从前是有离线语音包的,但现在我翻遍整个app都没找到,但是如果我下载的是讯飞输入法,我的确可以设置下载离线语音包。虽然,离线语音包其实作用不大,因为没有联网,识别出来的东西还是比较不靠谱的,但总比什么都不能识别强那么一点点。可能如果我开通了语记的VIP功能,那东西也会有离线语音包的设置。作为一个收费项目,我觉得很奇怪的是为什么语记没有把收费和不收费的对比优缺点展示出来呢?别人不知道你的收费项目以后有什么好处,自然不会给钱。以前我也试过一段时间不用语记,改用讯飞输入法的语音输入。输入法的语音输入没什么问题,问题在于它的键盘输入实在太反人类了,无论我怎么输老错。这种事情在谷歌、搜狗和百度手机输入法里面都从未发生过。语音输入是讯飞的特色,但如果其他输入法很弱爆,别人没办法依存这个输入法,因为有些时候,语音是不凑效的,在准确校对的时候,语音是不行的,所以用过一段时间讯飞输入法以后,我又换回了我心爱的谷歌输入法,继续用语记进行我的语音输入。

以前的文字识别用的应该不是云数据,用的应该只是字库里面的东西,但现在什么都说云,什么都说AI人工智能,估计现在那种技术也用在了文字识别上面。相对于语音识别,我觉得文字识别可能会简单一点。这两种东西都可以大大地解放人类,不过实际上我对这两种都一窍不通。我只知道用什么软件可以让我免费且质量好,做到我想做的事作为一个普通地球人这也就够了,毕竟我不是一个开发者。说来也奇怪,科大讯飞在语音识别方面已经好多年了,为什么直到近期的语记更新他们才开始加入文字识别的功能呢?不过需要一赞的是他们首次推出这个功能就非常强大。即便照片有点模糊,但是还是可以精确地把文字识别出来。相比之下,小米的那个文字识别,真心太恐怖了,难怪他们一直把那个只当作隐藏功能,没有在推广系统的时候作为亮点做宣传。的确,那样的技术根本不值得一提。甚至应该在某次版本更新的时候悄悄地把文字识别功能下架。

文字识别这种事在中国,有很多个厂商都在做,有中文的也有英文的,但是某些小语种的文字识别,Google都没碰过,比如说我想用拍照的方式文字识别印地语然后翻译为英语。软件会告诉我,无法图片识别我选择的语种。于是这就让人非常头大了,我只能很苦逼地在手机上抄写我看到的印地语,画画一般,但问题是其间如果有一丝停顿,那个画就作废了。在PC的网页上没有这种烦恼,但如果用PC网页,就得用鼠标画画了,那个也不容易。我们的技术员如果能攻克我们自己的语言,同时还可以把外国的语言也识别一下,那将功德无量。世界那么大,语言那么多,能赚钱的机会大把大把。识别了语言以后,然后读出来,就可以解决很多地方文盲的问题。这种事情尤其在不发达国家非常有用。不过话说回来,不发达国家估计买不起这些……

每天,科技都在带给我们很多快乐。

2015-10
8

随心而跑

By xrspook @ 13:05:05 归类于:烂日记

昨天我本没打算去跑步,但前天妈问的一句:“明天你要跑多少?”让我不好意思不去跑。恰逢昨天早上快天亮的时候倾盆大雨,所以我有了不去跑的理由。我7点多起床,当时没有下雨,但天色阴沉,妈妈继续跟我说:“不去跑吗?没下雨呢!还没到八点。”我摇头,没吃早餐,只是灌了大概500mL水进肚子(实际上我为跑步准备了,510起来后就吃了一块烤饼喝了几百mL的水)。我只管进行TZP DELETED SCENES(约25分钟)的最后字幕校对。对照英文音频和英文字幕做时间轴是一回事,根据英文字幕翻译是一回事,用中文在英文时间轴上校对又是另一回事。因为英文老长的句子,甚至得分好几句字幕才能表达完全的东西中文一句就搞定,这意味着需要时间戳合并。英文和中文的语序不同,所以可能连续的两句话总体来说意思是一样的,但要中英对照却没门。因为这样那样的原因,中文字幕进入英文时间轴后需要调整,因为英文的断句和中文的断句有所不同,不过呢,这种问题并不多,只是少数事件而已,但要好好处理完这些,不把视频完整看个三四遍是完成不了的。所以,7点多从床上爬起来开干,我足足整到到早上9点多才终于搞完。搞完的时候我发现外面有阳光了!虽然云层很厚,但居然能看到蓝天!让我有点不确定的只是东北方向依然是黑压压。

校对完成开始压片,我把一小堆面条早餐吃了。然后决定要去跑步,接下来当然是换衣服。准备完毕,片也压完了,把东西拉到度娘云那里上传我就出发跑步去。

差不多早上1030才开始跑步,跑同样的路线,感觉和我平时晨跑区别太大了。人多!车多!太阳猛!赤岗东路满大街的路人。赤岗北和新港路交界的地方居然会堵车,OMG!平时我经过那里的时候经常是一辆车都没有的啊亲~ 阅江路上经常有车呼啸而过,而且不知道用的是什么油品,有浓重的燃烧味。云层很厚,但云的间隙透下的阳光挺厉害,所以呢,我10月1日迪卡侬黄沙店买的运动太阳镜就起作用了!!!一开始会觉得眼镜下眼眶的位置很多汗,鼻子上也很多,所以眼镜略戴不稳,经常需要托一托,但随着佩戴时间延长,身体也不像一开始那般猛烈出汗了,眼镜下的汗少了,眼镜有种“上路了”的感觉,很舒服,像我和融为了一体。随着后期心率的提升,出汗开始增多眼镜又会开始有向下滑的趋势,但全程一路都没有跳动感,即便是在上下斜坡或最后1K冲刺的时候。1030开始跑,接近中午结束,这不是一个在广州10月跑步的好主意。不过,这也终于让我验证了自己可以想跑就去跑,换上衣服穿上跑鞋戴上装备(GPS手表和心率带)就可以了。一路上我都在琢磨到底要跑9K还是13K,最终我跑了13K,因为华南大桥到琶洲大桥那一段是我的最爱,9K的话,我将几乎miss掉全部。

昨天,我计划今天不跑,但今天,看到这么好的天气,我蠢蠢欲动。虽然我知道连续跑4天很有问题!!!

归档:2015-10-08 气场

2015-10-08_stamp01

2015-10-08_stamp02

2015-10-08_stamp03

2015-10-08_stamp04

2015-10-08_stamp05

2015-10
1

自寻死路

By xrspook @ 20:40:59 归类于:烂日记

接近午夜12点睡觉,早上500闹钟,510起来吃东西,继续睡,600正式起床,630开跑。别问我为什么要这般折磨自己,如果不是我愿意没人能强迫我这么干。我可以更早睡觉,但晚上9点多才洗澡,10点多刚好是我调整字幕的黄金时期,昨晚我做的是另存出英印的字幕,根据英文,对应电影找出中文翻译,把我时间轴里相应的东西改为中印。期间居然被我发现人人的bum bum bole某句歌词的时间轴错了,因为他们放出的版本是中英双语,没有印地语,大家当然就不会太留意唱的是不是一样的歌词。毕竟,不懂印地语的怎么会知道某段时间以内唱的到底有多少内容。一开始,我以为是我自己印地语和英语对应错误了,但后来才发现是他们错掉了一段,然后在后面的某一段里把没有表现出来的时间含了进去。不怪他们,美剧翻译组,即便有懂小语种的成员那也是少数,而且懂法语德语西班牙语葡萄牙语阿拉伯语的估计可以找到,但印地语的,呵呵呵,搞死人了。若不是像我这般神经病,先找出印地语,然后根据官方的印地语和英语逐句翻译,最后再用英语对应中文,理所当然不会发现其中的问题。bum bum bole有段错了,jame raho有段漏了。估计这跟他们得到的英文字幕版本就是那样有关,我翻查过某些英文版本的字幕,bum bum bole没看,但jame raho中文漏掉的那个点英文里的确没有。按照我的思路去走流程,肯定会发现这些问题,但必须承认,一般人真不会这般变态!要和我一样变态,首先你得非常闲得蛋痛,其次你得具有清晰的逻辑条理性,第三你的综合能力支持你完成这些傻事。要走下去并不十分困难,因为人一旦入戏了,一切都好说,但光是下定决心迈出第一步足以让很多人退缩。

xrspook不是一个普通人,这人在某些方面是个神经病,是一发不可收拾的类型。

今天,我忽然有个念头,我要为Taare Zameen Par OST里7首歌中的6首(余下的那个是纯音乐,没歌词)全部都做出lrc,印地语肯定得全部做,我还想做出中印双语的。这意味着我要做6首歌的时间轴,这也意味着我要按照人人做的电影字幕把中文歌词全部抄下来,但在这个之前,我要根据印地语的时间轴做出一个英文时间轴(因为印地语和英语的对照有官方的版本),然后再根据英文的时间轴做一个中文的时间轴。这个并不困难,因为Notepad++有让多个文件并排显示并同时垂直滚动的功能,英文时间轴和中文时间轴都是基于印地语的时间轴,内容是个复制粘贴的过程。最困难的是做好语言之间的准确对应!经历过昨晚唱的东西和中英文内容可能不是一回事那个意外以后(虽然差错发生的概率并不高),我只能用这种方法来保证万无一失了。我真的太爱折腾了,这种折腾劲连我自己都觉得有点过头。而这种折腾又一律都不是非如此不可的,完全是我自找没趣。

到现在为止,我只大概完成了Taare Zameen Par bonus DVD的promo部分,还没做完呢!我还没有完全满意我做的时间轴,我觉得视频发给高手以后他们还会给我反馈重压的建议,因为我觉得现在压出来的视频比较慢的镜头没问题,但动作快的部分有些晃眼头晕。保证视频质量OK,视频和音频对得上,时间轴和视频口型已经音频合拍以后,我要做字幕的特效,比如说字体的大小和颜色,部分字体的特殊展示效果(定位和渐入渐出)。

没有人强迫我必须做这些,没有人强迫我必须做到最好,甚至是必须得提升我自己的能力让我的作品达到我理想的高度。但既然我尊敬的是Mr. Perfectionist,追求更高更快更强,突破自己是我的基本属性,我理所当然要这般自寻死路。

这不是一条死路,这是一条通向成功的未知道路。

归档:2015-10-01 锁链王子。

2015-10-01_stamp01

2015-10-01_stamp02

2015-10-01_stamp03

2015-10-01_stamp04

2015-10-01_stamp05

2014-09
29

中文说明书你敢不敢更过分

By xrspook @ 12:48:18 归类于:烂日记

我喜欢看外文,尤其喜欢看外文的说明书!!!

对我来说,看外文的说明书比看神马抒情哲理的好多了,专业文献/说明书以外的东西为了有“深度”总搞N个意思让你琢磨不透,看上去明明很简单的词理解起来却完全不是那么回事。说明书不会,说明书就是为了零基础的人也能看懂而编写的。中文的说明书,尤其是大型仪器部分翻译过来(非官方)的说明书习惯性真理性会误导人。首先,翻译的人是外语专业的,根本不懂专业技术,只是按照翻译的常识来。第二,翻译的人太懂专业,以至于TA也觉得看说明书的人也应该懂,所以某些细节TA觉得你一定知道的步骤或注意事项就不说了。第三,也是最悲惨的一种,翻译的人神马都不懂,不是外语专业也不是某行业的行家里手,只是供销商里的一个被上头压着必须出一个说明书中文版的小喽罗,于是只能硬着头皮做翻译,大路易懂的翻译了,细节没看懂的直接跳过。卧槽!越是大型越专业的进口仪器就越容易会遇到这种问题,杀人的心都有了~

不过幸好,我喜欢看外文,真心觉得看外文的专业仪器说明书比看中文的舒服多了。首先格式很统一,规范的书写条例和图表,有些你觉得很没必要很罗嗦重复的东西他们也总要不厌其烦地一再说明强调,巨细无比,人家从来不会“觉得”你“应该”懂而略过任何小细节。其次是各种图片相当清晰,各种按钮也PS得跟实际情况非常贴近,这样的好处是你非常容易就能看着说明书在实物中找到相应的控制键了。

今天我看的说明书是德国Binder的烘箱,型号为FD 240,是这个厂家FD类型烘箱里体型最大的。外国人的说明书本来就很靠谱,这次是德国人的说明书就更加让人爽了,AUV,德国人出名严(si)谨(ban)的。从前呢,我们检验室的高大上仪器里大部分都是瑞典的,因为粮油行业很多都是Perten说了算,其次是梅特勒-托利多(度娘了一下,貌似没发现到底是哪个国家的,哪个国家都有的样子)的。凯氏定氮仪貌似也是德国的。如果继续来些布拉班德的磨粉机、粉质仪、拉伸仪,安捷伦的气象液相,再加神马原吸之类的就好了。←_←你真心想太多了!不过呢,在配备这些之前先来个超声波和纯水机非常有必要,毕竟没有最基础的控制,神马大型仪器测出来的都是乱来数据。

昨天看了Binder FD240的中文说明书,看得我云里雾里,尼玛的这在说神马啊!如此跳跃!!!看过英文说明书之后,我简直有把中文说明书撕烂的冲动。我自己翻译+理解编写个操作说明绝对要比那个所谓中文说明书强。我那个去!写说明书得对得起看说明书的人啊,人家看不懂/无法操作,你写来有个屁用。

如果某天我不想做检验了,我可以去专业仪器代理那里全职翻译中文说明书么?

2013-07
24

拒绝被代表

By xrspook @ 18:08:07 归类于:烂日记

“被代表”这个词我最早是在国家统计局发布神马神马数据:人均收入多少,人均住房面积多少,人均存款多少时看到的。大部分的人都觉得这跟自己的实际情况不符,很多很多受访群众觉得自己远远达不到那个“平均线”,于是,“被代表”这词诞生了。大家不愿意接受这所谓数据就是他们的真实状况,但官方这么说,于是他们被迫让某些数据代表了他们。

昨晚我看WWE RAW 2013-07-22的时候看到了这么一个镜头

2013-07-24_wwe

我一眼过去,怎么没有Chinese呢?然后惊叹Japanese居然排得那么靠前,Spanish,作为世界第三大语言的居然排得那么靠后。然后,我更加惊叹的是居然在Japanese之前有个“Mandarin”!!!!!!!!

孤陋寡闻,非常孤陋寡闻,我基本是大学读完,四六级通过,还工作了好几年之后才听说有Mandarin这个单词,但是我从我学英文开始我就知道Chinese了,居然用的是Mandarin而不是Chinese,我感觉不爽。于是就发了条围脖表示我的重度疑惑

围脖上大家纷纷表示了对Mandarin,普通话/国语/官话的看法。那种感觉就是像是从前的人民币各个面值上面的都是人民,但从我们现行使用的这套开始,全部由一个人“代表”了。Mandarin能代表粤语吗?Mandarin能代表闽南语吗?Mandarin能代表全中国无数多的方言语种吗?虽说是方言,但我们用的都是汉字啊!无论发音如何,无论以什么表达方式,我们都会自豪地告诉别人我们用的是中文、用的是汉语!但Mandarin这算什么呢?在外国人的眼里Mandarin基本是和Cantonese对半代表Chinese,如果称呼为Chinese,这就大包含了。Mandarin和Cantonese在书面语上基本没有区别,但Cantonese在发音和上和Mandarin有本质区别。作为一个广东人,作为一个土生土长的广州人,我会非常自豪地说我说的用的是Chinese,但我不能接受被Mandarin代表!那完全不是一种正规不正规的问题,难道汉语的其它语系就不正规,我们可以承认那是我们的官方语言,但官方不等于就是全部。既然有一个全部的说法,为什么还要用一个窄小的所谓官方说法代表我们?!!!!这直接挑起了近几年来在珠三角地区渐渐推行的“推普废粤”政策,见鬼去吧你!起码在我这一代,到死那一刻,我都不会放弃我的母语——粤语。

围脖上有人告知我Mandarin是中国的官方用语,到底官方用语是神马,我特意查了Wikipedia。

联合国的官方用语有7种,其中一种叫做“Chinese”。他们不称呼为“Mandarin”啊,亲!

Chinese language在Wikipedia上的解释是“汉语/汉字/中文”。

Mandarin Chinese在Wikipedia上的解释是“官话/国语/普通话/北方话”。

哈哈哈哈哈哈哈哈哈哈哈,我冷笑了半天!真相大白了有木有,Mandarin根本就是Chinese的分支,但我们这些神马神马却被Mandarin代表了我们所用的中文!

对这个被代表的事实,我的态度是“虚心接受,坚决不改”!

Page 1 of 11
COPYRIGHT @ 我的天 | Theme by xrspook | Power by WordPress | Valid XHTML 1.1 and CSS 3 Go to top