AI聊天盒子 - 概念设计

前言

移动存储最新的PCB已经画好，并且提交给打板工厂了。不出意外，后面只需要适配一个壳子就可以试用了。但打好样的PCB回来还要两三天时间，在这段时间我就在想下一个产品做什么。最近中国的大模型很快就普及了，我也打算做一些与AI相关的小项目。有一个想法是做一个手持聊天盒子，可以通过这个盒子和DeepSeek聊天。目标场景是在不方便使用的手机情况下与DeepSeek对话，也适用于没有手机的小朋友和不会操作手机的老人使用。

产品构想

使用场景和目标人群

适用场景是直接通过AI聊天盒子向DeepSeek提问，并将DeepSeek的回答转换成语音播放出来。与智能音箱的聊天功能类似，但是功能上更加聚焦，身材更加小巧。这个聊天盒子可以方便那些没有手机和不会使用手机的人群也能享受大模型带来的信息便利，对于颈椎有问题的用户也可以通过减少手机的使用保护颈椎。

使用方法

使用方法是用户通过特定激活词，提示盒子用户要开始提问了，盒子将用户的提问转给DeepSeek并获取回答，然后将回答播放出来。聊天盒子一次问答的处理过程如下。

Hi, 盒子。我有个问题。
用户提出问题 。
盒子将语音转换成文字。
盒子向DeepSeek发送问题并获得答案。
盒子再将答案转换成语音播放出来。

用户和盒子通过循环地执行这个流程来与DeepSeek聊天。

系统实现

这个系统中的关键技术点包括：唤醒词识别、语音转文字、调用DeepSeek API、语音合成。这些技术点都已经是成熟的技术，所以只需要调用相应的服务就可达成。唤醒词识别可以通过使用esp-sr库就可以做到；使用科大讯飞的API可以将语音转成文字；DeepSeek提供了API可以和LLM聊天；语音合成也可以使用esp-rs，也可以使用科大讯飞的API来将文字转成语音。

硬件基于ESP32S3，ESP32S3在ESP32家族中计算能力比较出众，可以胜任语音处理的任务。

整个系统没有什么技术难度，潜在问题可能是反应时延较大。目前DeepSeek请求很多，有时甚至还会超时，如果再加上调用讯飞的服务的时间，整个时延太高可能就会影响体验。这个时延的问题可以在电脑上通过模拟问答过程验证一下。

总结

本文构想了一个物理的聊天盒子的产品，可以方便地拿在手里，随时随地向DeepSeek提问。如果有读者感兴趣，想一起实现这个产品，欢迎大家与我交流。