0213 - 「说字」小程序

今天没忍住,准备接着「视字」,再搞一个「说字」小程序。

所谓「说字」,就是边说话、边识别文字,就和微信里的按住说话一样。说实话,这东西有什么商用价值呢?不是有很多类似的产品了吗?恩,是这样的,不过我还是没忍住不是。今天是周四,计划 3 天、也即周日前完成发布上线,下周一推广一天,完事。

首先,自然是技术可行性研究。

先看微信小程序接口方面,提供了边录音边提供音频数据的能力,基本可行。

然后就是研究提供实时语音识别的服务。先是看了搜狗,因为「视字」里就是用的搜狗,且搜狗的语音识别使用的是 WebSocket 技术,看起来很厉害的样子。实际测试下来,感觉不管我怎么修改参数,长时间的音频,只能返回第一次发送的数据。最后发现是数据分割出了问题。证明可行。
不过有个限制,一次最多一分钟,还不确定能不能通过多次请求了来实现长时间的识别。
另外还有个可能的问题,就是是否兼容微信录音产生的音频格式,有待验证。

然后看了讯飞的接口,恩,太贵了…

然后看了腾讯 AI 的语音识别,基本已经完成集成,目测中间结果、最终识别结果略优于搜狗,单次最长 90s,看起来是比较好的选择。不过,也有坑,就是腾讯 AI 服务器很频繁地出现 502 错误,应该是服务器资源不足。这对于实时性要求很高的即时翻译,是比较要命。而且,微信小程序对于网络请求的频率,估计也是有限制的。

另外,百度的语音识别需要申请。已经申请了,等待结果。

目前还没有非常适合的服务,明天再想想,再看看阿里云的情况。