第三章 多通道交互系统整体方案设计
本文的研究对象是车内交互系统,旨在为用户提供更好的人机交互方式,让用户体验到车内交互系统的交互乐趣,保证用户在车内的驾驶安全。为了完成上述人机交互系统,本章给出了系统的总体方案。
3.1交互系统需求分析
车载交互系统与其他交互系统的区别在于其安全性。在人机交互过程中,人机交互系统不仅要完成交互功能,而且不能影响用户的驾驶行为。应避免任何不利于或减少用户注意力的交互模式。传统的交互系统和界面只考虑向用户发送信息,需要用户手动输入信息,用眼睛接收信息。在互动过程中,听觉等感官通道以及声音、手势等效果通道的参与度不高。车内对话互动模式仅提供语音控制,可以实现与系统的简单对话,但其沟通参与度也较低,容易让人感觉互动模式单一。如今,汽车的功能越来越丰富。在使用这些功能带来的便利的同时,用户也会感到功能复杂、难以控制。让用户体验人机交互的乐趣是汽车交互设计的重点。为了让用户更好地与车舱内的多种功能进行交互,本文采用多通道交互模式,充分调动用户的多个通道,不仅帮助用户更高效、更自然地进行人机交互,还可以让用户体验各种交互模式下控制机器人的乐趣,实现交互功能与交互乐趣的结合。
3.2系统功能和整体架构分析
3.2.1系统功能分析
通过对目标用户的深度访谈和刻画用户肖像,确定了车载多通道交互系统的主要功能需求,系统除了具备传统的触控和按钮控制方式外,还应具有手势控制、语音控制、疲劳分心检测,眼动追踪、灯光警示和警报声提醒功能,如图XX所示。
(1)手势控制功能:使用图像摄像头检测用户的手势变化,对特定的命令手势会运行相应的软件系统,能够做到对用户静态和动态手势的识别,可以用来控制音量变化、切换歌曲和切换界面等功能。
(2)语音控制功能:用户通过语音唤醒来唤醒此功能呢,并和系统进行对话,发出指令词,系统识别到指令词后触发相关的功能,可以用来控制音乐播放和音量控制。
(3)疲劳分心监测功能:用来监测用户是否处于驾驶疲劳状态,主要是通过辨别用户的非驾驶行为如抽烟、打哈欠、闭眼,当驾驶员有以上行为并超过时间阈值,通过灯光提示或声音警报功能提示驾驶员集中注意力。
(3)眼动追踪功能:追踪用户的眼球视线,监测用户的视线方向,当用户视线从路面移开超过阈值,提醒用户及时移回视线。
(4)灯光提示功能:利用车内分布的氛围灯变换灯光效果来提醒用户,可以根据危险程度变换模式。
(5)声音警报功能:与灯光提示功能互为补充,在用户视觉通道资源被占用的情况下,调动听觉通道来完成提醒的功能。
上述的主要功能在第二章中已经描述过技术实现的细节,此处不做详细介绍,按照当前的深度学习的广泛应用和在线智能平台的成熟,这些功能的实现在技术上没有太大的难度。
3.2.2系统软硬件结构
根据对用户需求的调研和对系统的功能需求分析,多通道交互系统可以分为硬件设备和软件系统两大部分,硬件部分包括嵌入式开发平台、音箱、电容式麦克风、眼动追踪摄像头和疲劳分心监测摄像头,软件系统包括手势识别模块、语音识别模块、眼动追踪模块、疲劳分心监测模块和CAN信号发射模块,如图XX所示。
为了全面展示系统的设计过程,下面将介绍系统的软件部分和硬件部分。
(1)软件模块
CAN信号发射模块是用来给氛围灯灯带发送控制指令,是嵌入式平台和灯带之间的通讯模块,其他模块识别到用户指令后,如果需要调动灯光效果,需要CAN信号发射模块发送特定的字符给灯带,然后灯带作出相应的变化效果。
手势识别、语音识别、眼动追踪和疲劳分心监测模块等模块的技术原理在第二章中都有详细介绍,此处不做过多解释。
(2)硬件设备
a) 嵌入式平台
NX是NVIDIA开发的模块系统,相当于一台小型计算机,可以为边缘系统提供超级计算机性能。NX拥有最高21TOPS的加速计算能力,可以并行运行现代神经网络,并处理来自多个高分辨率传感器的数据。虽然外形小,但性能强,能够满足系统开发的要求。
b)
电容式麦克风和音箱
麦克风和音箱是语音识别的输入和输出设备,为了保证录音的效果,选择了江实电容麦克风,可以有效减少噪声对用户语音指令的干扰,音箱的品牌是JBL,为用户提供立体声,实物图如图XX所示。
c) 摄像头
摄像头是手势识别和疲劳分心监测的输入设备,选用了罗技的高清摄像头,分辨率是720P,获取的图像清晰可分辨,对后面识别过程有利,后续在模拟台架上会用车规级摄像头替代,摄像头实物图如图XX所示。
d) 灯带
灯带主要是由LED灯珠组成,本文选用了光宝LTSA-G353作为LED灯珠,单条氛围灯由58颗LED灯珠串联组成,如图XX所示,每一颗灯珠都可以控制产生不同的光色变化,灯珠之间的明暗闪烁组成了灯带的炫目灯效。
3.3多通道交互系统总体框架
根据上文对系统功能和系统软硬件部分的分析总结,本文搭建如图 XX 所示的多通道交互系统总体框架图,工作过程可以分为以下几个方面:
(1)交互信息输入:实现了语音、手势的信息输入。用户通过嵌入式设备上连接的物理通道如麦克风和摄像头以独立形式或者联合形式获取用户输入信息。
(2)各通道输入信息识别和处理:。对不同的输入通道信息采用不同的处理方式。对于语音信息输入,首先通过语音唤醒功能唤醒语音识别系统,利用百度语音识别引擎完成语音到文本信息的处理,并将文本信息与命令信息进行对应;对于手势信息输入,首先采用图像增强算法提高手势图像的识别效率,然后通过YOLO深度网络算法实现手势信息的分类,使手势信息与命令信息相对应;对于疲劳分心状态信息的输入,首先匹配面部关键点和坐标,通过YOLO深度网络算法对分心动作信息进行分类,并将疲劳分心状态与报警信息进行对应。
(3)进行多通道融合处理: 延续上一步的操作,系统将不同通道的输入信息转换为文本信息。根据输入信息之间的关系,采用不同的融合策略,达到手势交互、语音控制等目的。
(4)交互信息反馈:语音反馈将通过语音合成方式输出;手势反馈将在交互界面上直接呈现;警报反馈将通过界面和车内氛围灯灯光呈现。
3.4用户多通道交互旅程图
总体框架搭建完成,根据用户使用系统的整个流程绘制了用户旅程图,从用户的角度描述了用户使用多通道交互系统的全过程。根据用户可能遇到的问题,绘制用户多通道交互流程图(图XX),为后续设计打下基础。
按照用户的驾车过程可以分为驾驶准备、开始使用、塞车慢行、正常行车过程中、等待红灯、驾车结束7个阶段。
驾驶准备阶段,此阶段是用户开车前的准备阶段,从用户打开车门开始,氛围灯在地上投影出欢迎的字样,车内的灯光打开,启动迎宾效果,用户坐进驾驶舱后系上安全带,启动引擎,通过语音唤醒功能唤醒系统,系统在和用户对话时,会通过车舱前部的灯光律动效果和语音反馈给用户已接收到指令。用户通过语音设置导航目的地,驾车开始。
开始试用阶段,摄像头实时监测用户的面部状态和驾驶状态,捕捉用户的眼睛位置和闭合程度,检测是否有驾驶分心行为。当用户有抽烟、打电话的动作,系统依据分心时间给予提示,当时间超过阈值,视线前部的灯光变成代表警示的黄色并伴随律动效果,当时间过长处于危险状态时,视线前部的灯光变成代表危险的红色,律动效果更加急促并伴随警报声。
塞车慢行阶段,此阶段用户通常会拿出手机来消磨因为车辆拥堵导致的漫长等待的时间,注意力会明显分散,并且会因前车行驶速度缓慢或加塞情况有烦躁的情绪,此时氛围灯可以调整亮度和动效,一方面提醒驾驶员集中注意力,另一方面安抚驾驶员的情绪[文献引用]。
正常行车阶段,车内一般会播放用户喜欢的音乐,此时车内氛围灯的灯效是根据音乐的律动而律动,当用户在行车过程中有切换音乐、调整音量之类的需求时,音乐功能可以通过语音和手势识别操控,可以用特定手势或者语音识别切换歌曲。
等待红灯阶段,用户会在等待过程中查看手机信息和回复讯息,容易分心时间过长,此时警示功能应让用户及时将视线和注意力移回。
驾驶结束阶段,用户到达目的地,准备下车,车内灯光展示送别效果并发出再见的提示音。
3.5本章小结
本章对多通道交互系统的功能和需求进行了分析,介绍了各个系统模块各自承担的功能,并展示了系统硬件采用的设备类型和使用方式,给出了该系统的总体框架,为清晰展示用户使用多通道交互系统的过程,绘制了用户体验旅程图来详细描述用户使用多通道交互系统的交互过程,可以收获对整个系统较全面的认识。