0213 - 「说字」小程序

今天没忍住，准备接着「视字」，再搞一个「说字」小程序。

所谓「说字」，就是边说话、边识别文字，就和微信里的按住说话一样。说实话，这东西有什么商用价值呢？不是有很多类似的产品了吗？恩，是这样的，不过我还是没忍住不是。今天是周四，计划 3 天、也即周日前完成发布上线，下周一推广一天，完事。

首先，自然是技术可行性研究。

先看微信小程序接口方面，提供了边录音边提供音频数据的能力，基本可行。

然后就是研究提供实时语音识别的服务。先是看了搜狗，因为「视字」里就是用的搜狗，且搜狗的语音识别使用的是 WebSocket 技术，看起来很厉害的样子。实际测试下来，感觉不管我怎么修改参数，长时间的音频，只能返回第一次发送的数据。最后发现是数据分割出了问题。证明可行。
不过有个限制，一次最多一分钟，还不确定能不能通过多次请求了来实现长时间的识别。
另外还有个可能的问题，就是是否兼容微信录音产生的音频格式，有待验证。

然后看了讯飞的接口，恩，太贵了…

然后看了腾讯 AI 的语音识别，基本已经完成集成，目测中间结果、最终识别结果略优于搜狗，单次最长 90s，看起来是比较好的选择。不过，也有坑，就是腾讯 AI 服务器很频繁地出现 502 错误，应该是服务器资源不足。这对于实时性要求很高的即时翻译，是比较要命。而且，微信小程序对于网络请求的频率，估计也是有限制的。

另外，百度的语音识别需要申请。已经申请了，等待结果。

目前还没有非常适合的服务，明天再想想，再看看阿里云的情况。