speech to text « 我的天

2016-03

初探语音识别

By xrspook @ 22:14:08 归类于: 烂日记

今天的blog我本想用语记（科大讯飞的一个把语音转化为文字的手机app）去写，但我还是放弃了，因为说话太快，但我脑子转得太慢。我脑子的转速只和我敲键盘的匹配，所以虽然是输出同样的东西，拿着个手机说啊说我就乱套了，该说的没说，莫名其妙的停顿和错误一堆。平时说话的时候我不那样，因为在没想好之前我不会说，我开始的时候肯定脑子里已经有东西了，但显然我写blog的时候不是那么回事，我是边构思边输出的好吗！说一句话容易，但要说一大段之前完全没编排好的内容是另一回事。但其实如果一直要我一句话一句话地录音，可能我也会非常不习惯，我几乎就没用过微信的那种短语音功能。为什么我的语言障碍在我打电话和普通交流的时候不显露，在我录音的时候却会糟糕呢？大概是因为我很紧张吧。

很久以前我就已经听说过科大的讯飞，因为小米的语音助手一直都基于那个。语音助手好不好玩呢，我玩过，纯粹测试性质，觉得不怎么好玩。一直以来我都没有用过讯飞的产品，他们有做语音识别的，也有做字幕的。手机上的应用主要是语音输入法和录音类产品。搞不懂为什么他们在PC机上不提供，但在手机app里却有。今天下载了他们PC客户端的“字幕大师”，那是按时长收费的！有30分钟的试用时间，往后是字幕轴制作40元/小时，中文音频自动识别为字幕文字40元/小时，暂无法提供英文音频的字幕文字识别。我那个去！我赶紧删了，因为我的目的是用来识别英文。为什么要这么折腾呢？因为我想做TZP DVD正片附带的导演评论，那是AK在说英文，AK有浓重的口音，有人说他说的是标准的英式英语，但我怎么听怎么觉得怪怪的。在TZP的DVD bonus里所有视频都有CC字幕可提取，但在正片里可提取的字幕只是电影本身的，导演评论的音频不配有字幕，泪奔～～～既然讯飞能做中文语音识别，外国，尤其是英语的语音识别应该更加成熟才对有木有！否则烂果的siri怎么玩起来？！！！在度娘输入speech to text时出来的结果几乎都是text to speech的，尽管已经绝大部分是英文资源，但这显然不靠谱啊！所以呢，这种时候必须请教G老师。G老师出来的东西主要就是speech to text！我那个去，我一直都很嫌弃度娘，若不是G老师被墙需要翻，我绝对不会将贪图方便用度娘！在外语资源搜索方面，度娘简直就是渣渣之中的战斗机！！！关于speech to text，主要需要解决的是引擎问题，有IBM的，也有Google Speech的，据说G老师的已经很不错，而且提供开放的API，但我要的只是个软件啊，不过实际上只要联网连软件都不用，光是利用G老师API的网页工具就足够了。今天我播放了一段AK评论，分别用讯飞的语记和基于Google API的网页工具语音识别。识别的两段话不同，所以没有绝对的可比性，但显然用Google API的网页工具出来的东西更靠谱符合逻辑，起码呢，人家的语句是基本通顺的，思路也不会太跳跃，讯飞识别出来的某些段落云里雾里完全不知道在瞎掰些什么。当然了，基于Google API的网页工具选择的语言在英语之后还能选择英语所使用的国家的！我当然必须一定得选India啊！但讯飞认为英语就是一种，和普通话、粤语、四川话等列为不同的类别，我那个去！讯飞针对的是中文识别，外国人针对的是多种外语的识别，当然不一样了！如果我要把印度人说的英语听写出文字来，我理所当然得信赖外国人的东西，说不定Google Speech的印度英语真是印度码农开发的呢。

无论是用讯飞还是Google Speech，摆在我面前的是我都必须把2小时42分钟时长的音频完全播一遍，想想都觉得这不是一般的疯狂啊……

一座大山横在我前面，但山再大，也比我自己纯粹靠听译来得稍微靠谱……

标签：api, Google Speech, speech to text, TZP, 听写, 字幕, 导演评论, 扮IT, 烂日记, 科大讯飞, 米叔, 语音识别, 音轨

2 条评论

我的天

初探语音识别

戳这只鬼

随机日志

我的天

初探语音识别

戳这只鬼

标签云了

随机日志