0205 - 「视字」小程序继续踩坑

今天早上把「视字」小程序的 体验版 做出来了,也发给了几个人试用,暴露出了很多问题。最关键的是,太太慢了

首先,我使用了 https://file.io 进行 文件中转。这个是国外的服务,之前一直开代理没感觉;在普通网络下,上传很慢,甚至可能会有超时之类的错误。

然后,发现正在使用的、免费的 在线格式转换服务,其中限制了每天 30 分钟额度。哎,大意了。之前其实我是看了价格的,没注意到。并且,这个也是国外的服务,也有慢的问题。

由于这两个问题,现在的方案必须得有大的调整。现在可行的方案是:使用国内的云存储,上传视频后自动转码。本以为这是很成熟的服务了,没想到还是有很多坑。

首先,我试用了 阿里云和腾讯云 的相关服务,发现有个致命的问题:音频的最低采样率大于 16k Hz。而 搜狗的音频识别必须使用 16k 的采样率。发工单问了客服,告知确实不行。哎,没办法,只能放弃这两家。

然后去看了 七牛。恩,看起来老实厚道七牛是没问题的,可真的一试,又发现一个坑:音频转码时不支持设置 bit per sample(中文是分辨率?位深?)。这也麻烦了,因为 搜狗的音频识别必须使用 8 bit 或 16 bit 的分辨率。理论上,可以通过设置码率(因为码率 = 采样率 位深 声道数)来倒过来设置位深,而实际测试并不工作。发工单给七牛,无奈这有点专业,售后解决不了,得等他们技术来支持。现在,这事卡在这了,除非我再去找一家云服务。

同时,我又去了解了下 腾讯 AI 长语音识别,哎,也有坑。比如,服务器时不时返回 502(可以看出,给其配备的服务器资源并不充足);很多时候创建任务成功,却永远收不到回调。从偶尔成功时返回的结果来看,文字识别结果并不如讯飞或搜狗,包括文字不准确、大段文字而没有标点等。

我感觉,腾讯 AI 还是试验性阶段,各种不靠谱。可能腾讯云是商务的,应该靠谱些。其实我也不明白,腾讯云和腾讯 AI 是什么关系,不会像 QQ 和微信的关系吧。

除此之外,百度 也提供了长音频提取文字,不过刚刚开始公测。我已经申请了,在等结果。现在是疫情时期,估计会很慢。下午错过了一个百度的电话,可能跟这事有关,有点后悔没接到电话,耽误事了。

哎,这么个小程序、小项目,没想到会遇到这么多坑。有时,你看到一个产品很简洁,殊不知,在走到最后简洁这一步之前,已经踩过多少坑。再一个感叹便是,国内的这些云服务,看起来大而全,真往细了用时,问题很多