在机器人足球赛中多智能体系统的发展
一、介绍
随着现代工业的发展,应用机器人的需要在增加。尤其是移动机器人在工业和研究领域中逐渐地扩大了其应用。对移动机器人的研究主要集中在单一移动机器人。但是,随着机器人执行复杂任务的增加,多智能体系统的发展是必须的。
许多学者研究多智能体系统。一般来说,多智能体系统定义为超过2个的机器人,通过协作完成给定任务的系统。整个系统相对于单一机器人系统有许多不同特点。首先,机器人所在的环境是动态的。在多智能体系统中,机器人本身构成了动态环境,因为每一个机器人应该识别出其余的机器人为移动障碍物。早些的对于移动机器人的研究都是假定环境是静态的,甚至是单一移动机器人的研究。第二,由于是通过协作完成既定任务的,很有必要对于机器人的角色做整个系统规划。多智能体系统的一个明显特征是协作,举例来说,2个机器人搬东西。为了相互协作,机器人位置的改变必须要预测。有一些方法可以知道机器人的位置。举个例子,机器人相互通讯自己的位置,或者管理员探测到机器人的位置并传递给每个机器人。这是一个与通讯有关的问题。第三,系统的每一部分,例如机器人、管理员、传感器、通讯设备必须正常,因为他们将会影响整个系统的运行,并且必须采用合适的结构。
机器人足球赛对于研究多智能体系统是一个让人感兴趣的领域。足球机器人必须一起工作,这就是一种协作。而且,对于本方的机器人或者是对手机器人,他们都是在可以预测的和不可预测的动态环境中进行比赛。主要的目标是在对方机器人参与的情况下。尽可能多的把足球踢到对方的球门中,当然对方的机器人也有相同的目的。因此,基于态势,本方机器人决定将要采取的行动进攻或防守,如何协作等等。在这点上,系统需要实时感知,快速决策和采取行动。这些与系统结构和算法有关。如下所述,机器人足球赛包含有许多多智能体系统的特征,很适合(人工智能)的应用。
机器人足球赛的一个优点是对于不同系统的直接比较。许多足球机器人系统参与了一些竞赛。我们参加了在朝鲜大田举行的MIROSOT96(机器人微型组足球赛)。机器人微型组足球赛有许多规则。规则详细描述了足球赛的规范。场地是正方形的,长130厘米,宽90厘米。足球是橙色的高尔夫球。机器人的尺寸限制在7.5*7.5*7.5厘米内。每个队包含三个机器人。我们的目的就是制作有三个机器人的足球机器人系统。
本文中,我们阐述了在建立整个系统需要考虑的一些因素。首先,因为系统结构很重要,我们在分析多智能体系统的基础上采用了在线的集中式系统。第二,整个系统可以分成三部分机器人,通讯和视觉设备。我们描述了每一部分的说明和采用他们的理由。这将会对以后的更进一步提高有所帮助。
文章的以下内容是这样安排的。第二部分给出了一些系统结构的研究和我们选择的足球机器人系统结构。第三部分给出了执行硬件的具体说明,尤其是微型机器人。第四部分介绍了机器人足球赛的协作和路径规划算法。第五部分是结论和将来的研究工作。
二、多智能体系统的分类和足球机器人系统的选择
这个主题的研究是与Arai的工作相关的。 我们基于两个标准对多智能系统进行分类。一个是从谁决策和命令考虑分为集中式/分散式,另一个从什么时候系统制定计划考虑分为在线/离线。
在集中式系统中,管理员把所有的有用数据合成,计划所有机器人的行为并作出命令。由于管理员同时考虑了所有的机器人,系统将会优化所有机器人的行动。但是随着机器人数目的增加,管理员需要更多的计算。如果管理员发生错误,机器人将没能力进行更正。
在分布式系统中,每个机器人从自身的传感器和别的机器人获得信息,进行规划。在系统中,当机器人数目增加时,没有计算负载的大幅度增加。即使一个机器人出故障,别的机器人还可以工作的很好。但是系统不能保证所有机器人行动的优化。
离线系统意味着所有的计划在机器人工作之前就已经制定好。因为没有时间和计算力的限制,系统整体是优化的。但是由于系统是假定的静态环境,在环境发生微小变化时,系统是非鲁棒的。在实际环境中,系统会随着一些变化发生故障。
在线系统意味着实时规划。它对于动态环境是鲁棒的。但它需要强大的计算能力和有效的算法。
在大量的研究中,以上的两种分类是相互联系的。我们在表1中进行了总结。
表1多智能体的分类

在MIROSOT96中,对机器人的尺寸进行了限制。因此,使一个机器人具有强大计算力是困难的。同时,决定一个机器人必须的装备是重要的。基本上,一个机器人必须配备激励和通讯模块。在考虑了机器人空间大小的情况下,可以选择和应用额外的设备。足球赛需要机器人位置的全局信息。因此,我们采用集中式系统。从路径规划时间来看,我们采用了在线系统。足球赛有快速变化的特点,需要实时感知,要求迅速的行为和决策。采用在线系统是合理的。
在集中式在线系统中,管理员获得整个环境和机器人的所有有用信息。同时,管理员应该实时规划所有机器人的路径。这要求快速的计算能力。为了减小管理员的负载,我们选择了模块系统,它把主要的规划和执行进行了分离。这在某些方面与Shakey[15]和Firby[16]的工作相似。在我们的足球机器人系统中,在某个策略中,管理员制定整个机器人的规划。接着,管理员把下一步理想的位置信息传递给每个机器人。每个机器人获得理想的位置信息并执行控制算法来进行位置和速度控制。同时,每个机器人把自身获得的数据和理想位置数据融合成它自身控制环的理想输入。这样的话,一个机器人必须拥有某种逻辑:具有“大脑”功能。因此,我们的机器人配置有微处理器。在这种结构中,系统分离出计算负载。图1表示我们足球机器人系统的功能图。由于管理员得到球和机器人的位置信息,系统将不需要双向通讯。管理员仅仅需要把命令传递到每个机器人。在双向通讯的情况下,需要传送和接受命令的逻辑及其优先权。它可能会增加在管理员和机器人之间的通讯系统的复杂性。

图1足球机器人系统的组成
三、系统运行
系统由三部分组成:管理员,视觉系统和5个机器人。管理员是一台奔腾处理器的PC机,它将进行实时规划,视觉系统有两个摄像机和一个具有DSP和内存的图像处理板,摄像机分别有红色和蓝色的过滤器。一个机器人有一个CPU,通讯模块,IR传感器,电机等。这三部分是相互联系的。下面的章节将进行详细描述。
1.单个机器人的配置
一个机器人由机械装置,CPU主板,通讯(接收)模块和传感器主板组成。它的尺寸在7.5*7.5*7.5厘米内。
机器人的机械装置有两个电机、编码器、齿轮传动装置、轮子、拨球装置和一个机架。机架的设计必须整体紧密结合。在选择电机和齿轮传动装置的时候,需要考虑操作电压,内部耐力和机械时间常数。它的操作电压是6v。传动装置的变形比为1:41。轮子的直径是32mm。电机在空载下的速度为15200r/min。可以计算出机器人的空载速度大约是62cm/sec。在实际中,我们可测量出机器人的最大速度是40cm/sec。两台电机是分别由主板上的CPU控制的。编码器每一转产生16个脉冲。
2. CPU主板和传感器主板
在CPU主板上进行数据处理和电机控制。CPU主板有两个尺寸为7.5cm*6.0cm一样大小的PCB。我们选择80C196KC作为机器人的CPU。它的基本行为就是根据来自于管理员通过通讯模块的数据进行控制电机。它还融合来自管理员和它自身传感器的数据。80C196KC有三个PWM用来控制电机,8个信道的A/D的转化器,用于接收自身传感器的数据。电机驱动是TC 4428,双重高速MOSFET驱动器。在空间紧凑的环境中,我们应用EPLD(可擦写编程逻辑装置)进行编码计算,地址解码和某些逻辑功能。
如图2的a(中所示,在机器人中,三个LEDs在CPU主板上部。三个LEDs排列成一个等边三角形。因为LED是整个框架中最耀眼的部分,因此视觉系统可以很容易地探测机器人的位置和旋转。位于三角形中央的剩余的LED给管理员传递信息。启动LED意味着一个机器人利用自己的传感装置探测到球。
在传感器主板中,4对IR传感器组成了发送和接收装置,其位置是固定的。在图)b)((2中,一对位于较高的位置来区别机器人和球。它仅仅能探测到球。另外三个位于较低的位置。它们可以探测球和机器人。CPU可以识辩出它自己传感器探测到的障碍——球和机器人。因此传感器主板在机器人的前端,它能在机器人前面进行区域查找。
3.通讯
从管理员到机器人,我们采用单向通讯。一般为了分享更多的信息,双向通讯比较有利。但是这将会需要更大的空间和增大机器人和管理员执行的任务的复杂性。在我们的系统中,我们把视觉系统作为全局监测器。对于机器人来说不需要把它的数据传送给管理员,因此我们采用了单向通讯。

图2 CPU 主板和传感器主板
(a) 用于机器人位置和旋转的LEDs在CPU主板中的位置
(b) 在传感器主板中的IR传感器的位置

图 3数字化编码数据形式图

图 4通讯信号组成示意图
有两种常用的通讯方法IR和R/F。IR通讯有一个问题,就是会受光影响。因此在实际使用中,它可能出现故障。因此我们使用了商业R/F通讯模块并介绍了一种高精度和高可靠性的信息传递数字化方法。我们把传输频率设置为4kHz。两部分产生一个数字化数据。在数字化数据中,如果在这两部分之间产生一个状态改变,这个数据位为1。如果没有改变,则为0。在两个数字化数据中,状态改变经常发生。如图3所示。因此数据传输率为2000bit/sec。我们定义了一个信道作为基本单元,一个信道有9位,一位是起始位,其余的8位是数字位。因为管理员给每个机器人发送位置和旋转信息,每个机器人需要3个信道。我们定义了一个块作为基本的命令单元。如图4所示,一个块包含17个信道,由于每个机器人需要3个信道,存在一个起始信道和一个为了将来使用的额外信道。因此,传输率为大约13个字每秒。这就意味着管理员能够在每秒中给5个机器人传送信息。
4.视觉系统
在实时应用中,辨别出机器人和足球的位置是很重要的。我们使用了两个单色照相机。一个有红色过滤器,另一个有蓝色。如上所述,机器人中的LED配置形成一个等边三角形。视觉系统可以很容易地探测到机器人。对于足球来说,视觉系统可以通过比较两幅图像来探测。在比赛之前,我们调整照相机图像的LUTs(查找表),来消除除了球颜色之外的其它颜色的影响。在我们的实验中,只有一个单色照相机的视觉系统在检测球时鲁棒性差。因此,我们使用了两个照相机。对于对手机器人的探测,MIROSOT制定了一个规则,在顶端有可以辨别队伍颜色的一个3.5*3.5cm的颜色模块。我们也可以通过调节LUTs使视觉系统能探测对手机器人。在实验中,视觉系统可以在每秒种探测到足球和10个机器人5次。
5.机器人的位置控制
机器人位置控制的方块图如下所示。图5显示了整个分块系统:规划和执行。全局监测环表示规划是一个反馈环:视觉系统探测机器人的位置和管理员制定命令。一旦视觉系统探测到机器人和球的位置,管理员将根据当前位置数据作出每个机器人的路径规划。这是一个缓慢的反馈过程。在表示执行的局部控制环中,每个机器人利用解码信号和理想位置信息进行位置和速度控制。它的理想位置信息是由管理员提供,进行位置和速度的局部控制。

图5 控制系统的组成图
我们在图6中给出了系统的配置。图7表示一个实际机器人可以很轻松的识别出一个高尔夫球。

图 6系统配置的详细说明

图7 实际机器人和高而夫球
三、机器人足球赛的协作和路径规划算法
我们从两点进行了算法的考虑。一是协作,另一个是每个机器人的路径规划。在MIROSOT96中,规定三个机器人参加比赛。因此我们考虑三个机器人为一个多智能体系统。关于协作,我们采用一个机器人是守门员,其余的机器人根据不同的模式进行角色分配。存在几种模式。我们实验了4种。图8表示4种模式。基本上,我们采用分割—征服启发式策略。我们把场地分成两部分,分配机器人到两个场地上。每个机器人根据分配的区域承担不同的角色。模式(a)和模式(b)表示场地的自然分割。模式(c)表示有更大的进攻区域。模式(d)表示两个机器人的角色不定。这些模式随着对手策略进行改变。我们将验证这些已建立的模式和开发更有效的模式。
对于每个机器人的路径规划,我们使用了带参量的三次样条。价值函数有三部分组成。一是最小化曲率的变化,另一个是最小化时间,第三是避障。应用一个机器人的实验表示我们的算法可以应用于机器人足球赛。
我们将开发更多有效的机器人足球赛的算法。

图 8测试模式
四、结论和将来的研究
在本文中,我们给出了采用集中式在线系统的理由和应用硬件的标准。从系统结构的角度出发考虑了多种多智能体系统。利用两种标准,我们对多智能体系统进行了分类。考虑到机器人足球赛的特征,我们采用了集中式在线系统。本文给出了我们的系统在应用于机器人足球赛的合理性的理由,详细描述了系统。为了分配计算负载,管理员进行了路径规划,机器人执行控制环——全局监视和局部控制。为了局部查找,在机器人的前端有4个IR传感器。4个LEDs放置在CPU主板中,成等边三角形,利于视觉系统检测位置和旋转。我们设计了数字化编码数据格式用于通讯。在分别测试后,这些很容易结合起来。我们系统的详细说明对于那些打算参加足球比赛的和想要制作相似系统的有一定的帮助。
利用已经建立的系统,我们将应用模糊、神经网络、遗传算法等工具来建立多机器人路径规划系统。目前,我们已经建立了分割—征服启发式策略。这需要开发更多的有效足球赛算法并把实际系统与算法结合起来测试。