前面发了一些大模型语音交互+智能硬件相关的技术文章,这篇给大家介绍一下大模型语音交互示例的硬件和上手概况。
硬件概况
聆思CSK6大模型开发板长宽尺寸是99.1x72.1mm, 集成了摄像头、麦克风、扬声器、屏幕、无线模块、TF卡等,可以直接用于大模型语音交互和视觉识别的功能开发验证。套件还配了一个红外摄像头,使用人脸活体识别的时候可以替换现在的普通摄像头。
网络模块
集成的是ESP32 C3模组,支持2.4G网络和蓝牙BLE连接,有引出调试接口,提供源码支持二次开发。
注意:若给开发板定制外壳注意不要遮挡麦克风和无线模块,以免影响语音交互效果。
触摸屏
显示区域是2.4寸,屏幕数据接口是SPI接口,触摸接口是I2C,支持自行更换为更大尺寸的SPI屏或串口屏。
主芯片
触摸屏是可拔插设计,拔起触摸屏后就可以看到主芯片CSK6011 A、扩展I/O芯片和DAPLink芯片,因为开发板已集成了DAPLink芯片,所以大家烧录程序或者是调试的时候无须接串口工具板,直接用USB线连接开发板的DAP_USB口和电脑就可以了,很方便。
摄像头
如果使用人脸活体识别示例,需要把普通摄像头这里换为红外摄像头,这时把摄像头底座打开就可以直接更换。普通摄像头和红外摄像头后面都是通过双面胶固定,可以根据应用场景贴在开发板的前面或后面
开发板默认配套的摄像头模组是 30W 像素,满足人脸识别、坐姿检测、头肩跟拍、手势识别的需求。可以自行更换更高像素的摄像头,但更换摄像头需要重新开发集成驱动,且会影响出厂示例算法结果的准确率,如果要使用出厂视觉识别算法不建议更换摄像头。
示例上手指引
聆思CSK6大模型开发套件 (CSK6-MIX 2.0) 默认烧录了用于加载 TF 卡内应用的固件,打开开关后,就会显示TF内 集成的所有应用图标。通过触摸滑动可以浏览应用,长按屏幕图标就会加载对应示例,加载过程相就是把TF中的固件文件烧录到开发板上,所以加载时间较长。但重复打开前一次加载成功的示例会跳过烧录过程,这时打开就特别快了。
为方便大家体验AI能力,配套的TF卡中放了十多个示例固件,并可以从线上文档中心获得最新版本自主更新,TF卡资料地址:https://docs2.listenai.com/x/oEuqR5JaN
上电前
先确认TF卡是否已正常安装,如果开发板启动后没有显示示例图标,大多数情况是TF碰松了,只需要把TF卡拔插一下,重新启动开发板就可以正常显示了。
首次上手
推荐使用【大模型语音+识图】应用,示例主要功能有:大模型语音交互、拍照识图、图片生成等,使用前需要先联网,联网方式参考:https://docs2.listenai.com/x/2V18-j2v2
如果首次使用开发板已经配网,但是WIFI图标显示为断开状态,一般是本地使用的DNS首次解析大模型地址较慢导致,可以等待10秒左右或重启开发板可解决。
当右上角 WIFI 图标显示正常,桌面时间会更新到当前北京时间,表示当前设备和云端大模型服务连接成功,此刻就可以体验大模型语音交互和其他功能效果。
在触摸屏幕最上方下划进入快捷配置菜单,这里可以通过拖动调节屏幕亮度和喇叭播放声音,点击齿轮图标可以打开配置菜单。
开发板支持三种交互方式:键唤醒、语音唤醒(单轮交互)、语音唤醒(多轮交互),选中对应的模式后,点击左上角图标即可回到待机页面并生效。
在网络配置可以切换连接的wifi,在应用页面可以查看大模型开发板当前接入的大模型应用相关的配置ID,调试自定义大模型应用的时候可以用来核对配置是否正确。
点击【恢复默认】可以把开发板调用的自定义大模型应用恢复为出厂默认示例应用
点击【扫码接入】可以扫描聆思平台(LSPlatform)自定义应用生成的配置二维码
初次上手请参考文档中心【功能体验】来了解示例功能,大模型应用开发可以从【接入云端简易配置应用】开始,如要恢复出厂设置,参考【应用合集TF卡】一文操作即可,聆思文档中心地址:https://docs2.listenai.com/
B站上也有配套系列视频持续更新,可以搜索【聆思AI芯片】观看
开发板支持接入国内主流的大模型,如果有把大模型应用到智能硬件上的想法,可以先通过视频和博客了解。云端大模型应用使用json实现接入做二次开发,开发板系统是Zephyr RTOS,如果想基于SDK做的二次开发使用C语言,了解的过程中有疑问也可以在评论区直接沟通交流。
标签:示例,模型,聆思,开发板,应用,TF,CSK6,摄像头 From: https://blog.51cto.com/u_15947017/12101628