2016-03
15

试用语记app

By xrspook @ 22:17:04 归类于: 烂日记

虽然觉得用语音写blog很有难度,但我还是要再尝试一下,因为这样可以节省我很多时间,在平时散步的时候就可以顺便把blog搞定。昨晚收到同事的电话,说可能这个星期四我要去找公司开会,突如其来的事把我的运动计划打乱了,本来我打算今晚跑一发,星期四和星期五晚上也跑一发,那么这周就可以跑完4次,然后就可以完成任务了,但如果星期四要开会的话,也不知道是上午还是下午,上午的话,理论上下午就会回来,不会打乱我的计划,但如果是下午的话,星期四晚上的跑步显然就会被干扰,那么我就不得不星期五和星期六都跑了。每天都要为跑步算计,很让人烦恼。说起要开会,第一个让我烦的是跑步,第二个让我烦的是穿什么衣服?因为我的衣服要不是工作服,或者是我自己风格的运动服,但突然要去开会,我该穿什么呢?接到电话的时候那边一直在说,我脑子里只是一直在想,我到底该穿什么衣服去,还有就是,我该用什么袋子把我的东西装走,因为东西我肯定要带,但除了大书包我就没别的了,总不能把本子和资料拿在手里吧。于是,因为这个昨天晚上睡觉的时候我居然没有3秒就睡着,花了几分钟的时间去想到底我要拿什么包包?最后我终于想到了,在大概6年前去郑州的那一次,上课的时候他们各发了一个黑色的文件包,就拿那个东西好了,解决问题。想完跑步也想完穿什么东西带什么袋子以后,然后我才想到,才真正到达核心问题,这个会到底是开什么的?电话那方也没有说具体是什么玩意。大概是跟稻谷相关、跟稻谷的检验相关的,但是我个人觉得可能不只是这样,除了稻谷检验本身可能还有一些关于如何避免法律问题的问题。我的搭档不在,才过了一周,我就遇到了各种各样的问题。首先是他不断的打电话过来,说要我做这个数据那个数据,理论上那些东西应该在他放假之前就已经做好了。但实际上他就一直在拖,拖延是他的本性,但拖到现在就能想赖到我这里,所以我很不爽,每次他打电话过来我会尽快挂掉。他放产假不到一周,有检验数据方面的问题,现在,连开会的也来了。开会那种事一年也不过几回而已。但居然会在那15天的产假里遇到,真TMD完全服了。这或许是个机会,因为多年以前我也曾经遇到过类似的事。这也未必是件坏事,只不过一开始的时候会觉得非常烦,其实并不是做不来只是一开始的时候嫌麻烦,而不想去接这件事。为什么我的同事放产假他就可以不去开会。他说我可能要在会上发言,要我去当专家,但我根本就不是那种人。在专业方面,随时我可以很专业,难道大多数时候,我宁愿自己是在做,而不是在别人面前吹。我希望这次开会我不需要要发言,只需听他们说。我也知道,这肯定是奢望。

不连接网络的语记,文字的辨认率真的很糟糕,句子出来都莫名其妙的。但这真的可以节省我很多时间肿么破。要提高辨认率其中一点,就是要让语速变慢,每个字最好一个一个地说出来,就像机器人那样。但即便如此,有些咬词可能不是很到位的,还是会被识别为乱七八糟。当然了,用奇怪的词语,网络用语,自然系统也难以识别。联网的好处在于,某些句子会被纠正为正常模式,但如果离线的话,依靠离线的语音词库,始终是能力有限。为什么他们不增加离线文件大小让脱机的时候更靠谱高效呢?我一直觉得自己的普通话没有什么问题,但用起来软件才发现原来我自己的发音是多么的模凌两可,用拼音输入法的时候模糊音把那些都掩盖了,但直接说的时候,还是会暴露出来,尤其是在没有纠正系统的时候。但无论怎样做还是能节省花很多时间因为我不需要只是坐着写,可以一边干别人一遍输出,比如说走路的时候。当然了,我的东西到最后还是要一个一个靠键盘修正回来。

试着点开开语记,用流量来来记录,但是看来流量走得飞快,所以用语记的时候我最好还是在wifi模式下进行。用语记的话,有网络修正句子会靠谱些,但如果只是用脱机的讯飞输入法,好像句子就显得很无厘头,但如果只是用语记的,即便它自己也有脱机功能,但是经常会被打断。所以还是联机比较好。为什么用语记的时候不开wifi,句子就很容易断掉呢?

一大早就用语记记录下一大段,但到大晚上才进行校对,纠正卡机到我想吐啊啊啊~~~ 才发现自己同一样东西会说很多次……

2016-03
14

初探语音识别

By xrspook @ 22:14:08 归类于: 烂日记

今天的blog我本想用语记(科大讯飞的一个把语音转化为文字的手机app)去写,但我还是放弃了,因为说话太快,但我脑子转得太慢。我脑子的转速只和我敲键盘的匹配,所以虽然是输出同样的东西,拿着个手机说啊说我就乱套了,该说的没说,莫名其妙的停顿和错误一堆。平时说话的时候我不那样,因为在没想好之前我不会说,我开始的时候肯定脑子里已经有东西了,但显然我写blog的时候不是那么回事,我是边构思边输出的好吗!说一句话容易,但要说一大段之前完全没编排好的内容是另一回事。但其实如果一直要我一句话一句话地录音,可能我也会非常不习惯,我几乎就没用过微信的那种短语音功能。为什么我的语言障碍在我打电话和普通交流的时候不显露,在我录音的时候却会糟糕呢?大概是因为我很紧张吧。

很久以前我就已经听说过科大的讯飞,因为小米的语音助手一直都基于那个。语音助手好不好玩呢,我玩过,纯粹测试性质,觉得不怎么好玩。一直以来我都没有用过讯飞的产品,他们有做语音识别的,也有做字幕的。手机上的应用主要是语音输入法和录音类产品。搞不懂为什么他们在PC机上不提供,但在手机app里却有。今天下载了他们PC客户端的“字幕大师”,那是按时长收费的!有30分钟的试用时间,往后是字幕轴制作40元/小时,中文音频自动识别为字幕文字40元/小时,暂无法提供英文音频的字幕文字识别。我那个去!我赶紧删了,因为我的目的是用来识别英文。为什么要这么折腾呢?因为我想做TZP DVD正片附带的导演评论,那是AK在说英文,AK有浓重的口音,有人说他说的是标准的英式英语,但我怎么听怎么觉得怪怪的。在TZP的DVD bonus里所有视频都有CC字幕可提取,但在正片里可提取的字幕只是电影本身的,导演评论的音频不配有字幕,泪奔~~~ 既然讯飞能做中文语音识别,外国,尤其是英语的语音识别应该更加成熟才对有木有!否则烂果的siri怎么玩起来?!!!在度娘输入speech to text时出来的结果几乎都是text to speech的,尽管已经绝大部分是英文资源,但这显然不靠谱啊!所以呢,这种时候必须请教G老师。G老师出来的东西主要就是speech to text!我那个去,我一直都很嫌弃度娘,若不是G老师被墙需要翻,我绝对不会将贪图方便用度娘!在外语资源搜索方面,度娘简直就是渣渣之中的战斗机!!!关于speech to text,主要需要解决的是引擎问题,有IBM的,也有Google Speech的,据说G老师的已经很不错,而且提供开放的API,但我要的只是个软件啊,不过实际上只要联网连软件都不用,光是利用G老师API的网页工具就足够了。今天我播放了一段AK评论,分别用讯飞的语记和基于Google API的网页工具语音识别。识别的两段话不同,所以没有绝对的可比性,但显然用Google API的网页工具出来的东西更靠谱符合逻辑,起码呢,人家的语句是基本通顺的,思路也不会太跳跃,讯飞识别出来的某些段落云里雾里完全不知道在瞎掰些什么。当然了,基于Google API的网页工具选择的语言在英语之后还能选择英语所使用的国家的!我当然必须一定得选India啊!但讯飞认为英语就是一种,和普通话、粤语、四川话等列为不同的类别,我那个去!讯飞针对的是中文识别,外国人针对的是多种外语的识别,当然不一样了!如果我要把印度人说的英语听写出文字来,我理所当然得信赖外国人的东西,说不定Google Speech的印度英语真是印度码农开发的呢。

无论是用讯飞还是Google Speech,摆在我面前的是我都必须把2小时42分钟时长的音频完全播一遍,想想都觉得这不是一般的疯狂啊……

一座大山横在我前面,但山再大,也比我自己纯粹靠听译来得稍微靠谱……

© 2004 - 2024 我的天 | Theme by xrspook | Power by WordPress