上海交大叶南阳团队在T-PAMI发表可泛化的无人机控制算法研究成果_交大智慧

探索发现 · 交大智慧

上海交大叶南阳团队在T-PAMI发表可泛化的无人机控制算法研究成果

2024年12月09日责任编辑：曾添一刘佳欣

近日，上海交通大学电子信息与电气工程学院约翰·霍普克罗夫特计算机科学中心叶南阳副教授团队，提出了一种能够使无人机在复杂的环境中对抗外部干扰并按指定轨迹飞行的算法OoD-Control。相关研究成果以“OoD-Control: Generalizing Control in Unseen Environments”（未见环境中可泛化的控制算法）为题发表在人工智能领域顶级期刊IEEE Transactions on Pattern Analysis and Machine Intelligence (T-PAMI)上。

论文截图.png

研究背景

在过去的几十年中，无人机技术飞速发展，已经广泛应用于侦察监视、灾害救援、航摄测绘等领域，对人类生活和科技发展带来了深远的影响。随着无人机的广泛应用，研发稳定鲁棒的无人机控制算法变得越来越有必要。

无人机在飞行时会遭遇各种各样的环境干扰，最典型的就是风力扰动。这样的环境扰动基于复杂的空气动力学效应，是非线性且难以建模的。而现有的PID控制、模型预测控制（MPC）、强化学习等方法难以应对这种复杂的干扰，性能会急剧下降。

创新成果

分布外泛化控制算法

本文提出的控制算法OoD-Control使用非线性的神经网络拟合非线性的外部干扰，以有效地消除外部干扰的影响。此外，在训练阶段对输入添加随机噪声的方法能够增强模型的分布外泛化能力，且此方法具有理论性能保证并得到了大量实验验证。

该控制算法首先搭建了一个风扰动模拟器Envsim, 使用物理公式计算风力大小和下个时刻的状态：

Envsim（离散时间风扰动模拟器）.png

图1 Envsim（离散时间风扰动模拟器）

该模拟器能够生成大量训练数据，可以凭借这些数据使用OoD-Control算法训练外力预测模型：

OoD-Control训练算法.png

图2 OoD-Control训练算法

实验分析

本文进行了无人机轨迹追踪（Trajectory Tracking）数值模拟实验与实机实验。对比算法包括基础PID控制算法、线性预测器（Linear）、在线元自适应控制（OMAC）和Neural-Fly。后三者均包含外力预测模型用于外力估计，其使用的模型不同。其中，线性预测器是我们自己设计的用于泛化分析的一种预测器，采用线性函数进行外力估算。OMAC 方法通过深度神经网络估算外力，并利用外力估算来修正PID控制输出。Neural-Fly在OMAC方法的基础上引入了一个额外的神经网络来预测环境索引，并用索引的预测损失作为域转移的正则化项。

数值模拟实验

实验在悬停（hover）、正弦前进（sin-forward）、“8”字环绕（figure-8）和螺旋上升（spiral-up）四种轨迹上进行。本文使用三种不同的伽玛分布作为训练集，即Γ(1, 0.5k)k = 1,2,3。在测试时，考虑使用均匀分布来构建环境分布偏移，共有3种测试环境：微风（breeze）{U(−4, 0)}，强风（strong breeze）{U(−8, 0)}和大风{U(−12, 0)}。这样的设置旨在避免训练集和测试集之间的集合重叠问题。通过将风速范围从微风增加到大风，该设置为模型适应快速变化的风速带来了越来越大的挑战。

数值模拟实验的结果如表1和图3所示。在三种对于预测器而言未知的风力环境下以及全部轨迹中，本文提出的OoD-Control算法均实现了最低的平均轨迹追踪误差，具备最强的分布外泛化性能。具体地，OoD-Control算法的平均轨迹追踪误差平均比OMAC和Neural-Fly两种方法低约65%。

表1：数值模拟实验结果.png

表1 数值模拟实验结果

图1：数值模拟实验结果可视化。.png

图3 数值模拟实验结果可视化

图中展示了不同控制算法在大风环境下，控制无人机飞行的轨迹在xOy或yOz平面的投影。黑线表示理想轨迹，不同颜色代表了真实位置偏移理想位置的距离。

实机实验

本文使用真实无人机平台，搭载OoD-Control以及对比算法的MAVROS版本进行实机实验。实验在圆圈（Circle）、“8”字环绕（figure-8）两种轨迹以及室内（Indoor）、室外（Outdoor）两种环境下进行。

实验结果展示在表2、图4和图5中。在两种测试环境与两项轨迹追踪任务中，本文提出的 OoD-Control 算法均实现了最低的平均轨迹追踪误差，在实机上同样具备最强的分布外泛化性能。具体地，本文提出的 OoD-Control 算法在实机实验中得到的平均轨迹追踪误差相比 OMAC和Neural-Fly算法低约50%。该算法之所以有这样显著的性能优势，主要得益于在训练过程中添加到外部动态预测器中的随机扰动，它们提供了对测试时未知环境扰动的预测的支持，增强了算法在分布外环境下的稳定控制性能。

表2：实机实验结果。.png