一直对智能音箱有兴趣,周末再次折腾了一把。
简单调研了下,现有的智能音箱都非常封闭,开放能力非常有限。想在已有音箱上二次开发,达不到自己想要的效果。
如果从 0 开始做,又太花时间精力。
折衷的办法,就是找成型的技术方案,在此基础上进行修改和适配,以符合自己的需求。
又简单调研了下,选择了 https://wukong.hahack.com/ 这个开源项目(简单了解了作者,可能跟自己差不多年纪,惭愧啊)。简单在 macOS 系统上安装运行环境,基本跑通了:支持自定义唤醒词、识别语音转文字、向 OpenAI 请求并得到回答、将文字转换为语音并播放。
下一步,就是把这套系统搬到小的开发板上,然后封装到音箱中。我手上有个吃灰的 Radxa Rock,拿出来把灰尘吹掉,通电,倒是能启动。尝试安装,遇到各种问题,直到几乎解决不了。核心是,这硬件太老,几乎是 10 年前的,软件系统太旧,不容易升级到最新的;而 wukong 这套软件,又需要比较新的运行环境。二者对不上,于是运行不了。
都想着再花钱,买个能运行最新版 Ubuntu 的开发板。这就有两个选择:
- 树莓派。好处是软件生态齐全;缺点是现在价格偏高。
- 其他派。和树莓派几乎相反:硬件参数上没输过,软件生态上没盈过。
考虑到 Radxa Rock 就是个小众的开发板,光是装软件就花不少时间。吃了亏,这次就只考虑树莓派了。正好朋友手上有个吃灰的 3B,准备拿过来先研究下。
现在最大的不确定性,还是麦克风和音箱。初步打算,买个二手的音箱,只用其外壳、喇叭和麦克风;内部拆掉,替换成树莓派及相关配件。争取这一两周能做个原型出来。