文献笔记 - Neural Lander: Stable Drone Landing ControlUsing Learned Dynamics

这篇博文是自己看文章顺手做的笔记只是简单翻译和整理仅做个人参考学习和分享

如果作者看到觉得内容不妥请联系我我会及时处理

本人非文章作者，文献的引用格式如下，原文更有价值

[1]Guanya Shi∗,Xichen Shi∗,Michael O'Connell∗,et al.Neural Lander: Stable Drone Landing Control using Learned Dynamics[J]. 2018.DOI:10.1109/ICRA.2019.8794351.

摘要：

精确的近地面轨迹控制对多旋翼无人机是难点，原因在于多个旋翼的气流和环境之间复杂的空气动力效应。传统的控制方法经常不能很好的应对这些问题，难以实现顺滑的降落。

本文中，我们提出一种新型基于深度学习方法的鲁棒非线性控制器Neural-Lander来提高四旋翼在降落时的控制性能。我们的方法将标称动力学模型与学习高阶相互作用的深度神经网络（DNN）相结合。我们应用频谱归一化（spectral normalization，SN）来约束DNN的Lipschitz常数。利用Lipschitz特性，我们使用学习模型设计了一个非线性反馈线性化控制器，并证明了系统具有抗干扰的稳定性。据我们所知，这是第一个可以利用任意大神经网络的具有稳定性保证的基于DNN的非线性反馈控制器。

实验结果证明了所提控制器在降落和穿越桌子的轨迹跟踪任务中明显优于对比的非线性跟踪控制器。我们还实证表明，DNN对训练域外的未知数据具有很好的泛化能力。

I. INTRODUCTION

无人机要求位置精准控制，起降段因为地面效应很复杂所以一直challenging。地效有利有弊，多旋翼的地效情况更复杂。因此，执行无人机的自动着陆容易产生风险，需要昂贵的高精度传感器和精心设计的控制器。

补偿地效是空中机器人领域一直存在的问题。以前的工作主要关注在数值建模，作为系统辨识的一部分。然后把这些模型用于估计接近地面时的气动力，结合在控制器中用于前馈补偿。但是，现有的地效数值模型多是在稳定流场条件下得到的，但是实际情况中常遇到紊流。其他的办法，比如积分或者自适应控制方法，通常面临响应慢和延迟反馈的问题。【4】中用了贝叶斯优化进行露天控制，但不用于起飞/着陆。面对这些问题，现有无人机的自动驾驶系统的精度还不够用于降落和起飞，所以需要人类指导员来操作这些阶段。

为了在不受传统建模假设过度约束的情况下捕捉复杂的空气动力学相互作用，我们采用机器学习（ML）方法，使用深度神经网络（DNN）构建黑盒地面效应模型。但是，把这样的模型用在无人机控制器上有三项挑战。首先，收集足够的用于训练的飞行数据很难，因为DNN很吃数据（notoriously data-hungry）。其次，由于纬度高，DNN可能不稳定并产生不可预测的输出，使得系统可能让反馈控制系统变得不稳定。第三，DNN经常很难分析，这让基于DNN的控制器很难证明稳定性。

上述挑战贯穿了之前使用DNN捕捉高阶非平稳动力学的工作。比如【5】【6】使用DNN来帮助直升机气动特性的系统识别，但不是用于控制器。其他工作使用DNN来生成参考输入或轨迹【7】-【10】。但是，这些方法可能导致很挑战性的优化问题【7】或很依赖精心设计的闭环控制器并需要大量标注过的训练数据【8】-【10】。一个更经典的使用DNN的办法是直接逆控制【11】-【13】，但DNN控制器的非参数特性也使其难以保证稳定性和对噪声的鲁棒性。【14】提出了一种基于李雅普诺夫分析的可证明稳定的基于模型的强化学习方法，但它需要一个可能很复杂的离散化步骤，并依赖于DNN的本机Lipschitz常数。

本文贡献：本文中，我们提出了一个基于学习方法的控制器，Neural-Lander，来提高四旋翼降落过程中的精度并保证稳定性。我们的方法直接在耦合的不稳定气动环境下学习地面效应。我们使用深度学习做系统辨识来识别动力学残差，并结合到非线性反馈线性化控制中。

我们使用逐层谱归一化权重矩阵训练DNN。我们证明了在有界学习误差下，得到的控制器是全局指数稳定的。这是通过利用频谱归一化DNN的Lipschitz界来实现的。早些时候已经表明，DNN的谱归一化可以带来良好的泛化，即学习理论意义上的稳定性[15]。有趣的是，谱归一化同时保证了学习理论和控制理论意义上的稳定性。

我们在四旋翼起飞，着陆，和穿越桌子的轨迹跟踪过程中测试Neural-Lander。它能比含辨识信息的非线性跟踪控制器更精准地降落四旋翼。具体而言，我们展示了相比baseline，Neural-Lander能在降落过程中把z轴误差从0.13m降低到0，x和y轴的漂移减少90%。同时，它可以在穿桌子的轨迹跟踪中把z误差从0.153m减低到0.027m。我们还证明了学习模型可以处理时间依赖性，并且是对稳态理论模型的改进。

II. PROBLEM STATEMENT: QUADROTOR LANDING

dynamics:

The key difficulty of precise landing is the influence of unknown disturbance forces and torques , which originate from complex aerodynamic interactions between the quadrotor and the environment.

Problem Statement:

要提高控制精度->要学习干扰项fa，起降过程姿态平稳干扰力矩ta较小

我们首先使用具有谱归一化的DNN来近似fa，以保证其Lipschitz常数，然后将DNN纳入我们的指数稳定控制器中。

训练是离线进行的，学习到的动力学用于机载控制器实时应用，实现平稳着陆和起飞。

III. DYNAMICS LEARNING USING DNN

用ReLU学习。【16】

A. ReLU Deep Neural Networks

ReLU深度学习网络，反映了输入x到输出f(x,θ)的映射，参数是网络权重

然而，深度神经网络通常通过基于一阶梯度的优化进行训练，该优化对训练目标的曲率高度敏感，并且可能不稳定[17]。为了缓解这个问题，我们应用了谱归一化技术[15]。

B. Spectral Normalization

Spectral normalization stabilizes DNN training by constraining the Lipschitz constant of the objective function

众所周知（？）一般可微分函数f的lipschitz常数是在其域上梯度的最大谱范数（最大奇异值）。

（3）中的ReLU DNN是函数的组合。
因此，我们可以通过约束每一层的谱范数gl（x）=φ（Wlx）来约束网络的Lipschitz常数。

这里提出了一个在训练中限制每一层的参数的约束

用它配合下面抛出来的引理3.1 ，可以说明所对应的映射f(x,theta)的Lipschitz constant小于某值

C. Constrained Training

We apply gradient-based optimization to train the ReLU DNN with a bounded Lipschitz constant.

估计fa->优化网络参数θ，并且with a bounded Lipschitz constant.

yt是观测到的干扰力

xt是观测到的状态和控制输入

用SGD方法来做优化，并用谱归一化来约束权重。

IV. NEURAL LANDER CONTROLLER DESIG

我们用的方法是非线性反馈线性化控制器，其稳定性是通过谱归一化后的基于DNN的地效模型来保证的。

然后通过DNN的lipschitz性质，使用定点迭代（fixed-point iteration）来解算控制输入。

A. Reference Trajectory Tracking

轨迹跟踪的滑膜控制器，但是引入了fa

B. Learning-based Discrete-time Nonlinear Controller

由于引入了fa ，控制信号和期望值之间形成了非仿射关系，不能直接求解，所以用了迭代的方法

V. NONLINEAR STABILITY ANALYSIS

通过闭环跟踪误差的分析，可以给出如何调网络参数和控制器参数来提高控制性能和鲁棒性。

A. Control Allocation as Contraction Mapping

要证明在状态确定下，控制输入uk收敛到（11）的解中。（这应该是因为引入了fa）

B. Stability of Learning-based Nonlinear Controller

Assumption 1: The desired states along the position trajectory pd(t), p˙ d(t), and p¨d(t) are bounded. 期望轨迹有界

Assumption 2: One-step difference of control signal satisfies kuk − uk−1k ≤ ρ ksk with a small posi 位置控制信号不突变

Assumption 3: The learning error of ˆfa(ζ, u) over the compact sets ζ ∈ Z, u ∈ U is upper bounded by m = supζ∈Z,u∈U k(ζ, u)k, where (ζ, u) = fa(ζ, u) − ˆfa(ζ, u).

学到的fa映射有上界。

Theorem 5.2: 在以上假设下，位置误差指数收敛。

VI. EXPERIMENTS

In our experiments, we evaluate both the generalization performance of our DNN as well as the overall control performance of Neural-Lander.

A. Bench Test

B. Real-World Flying Data and Preprocessing

To estimate the disturbance force fa, an expert pilot manually flew the drone at different heights, and we collected training data consisting of sequences of state estimates and control inputs {(p, v, R, u), y} where y is the observed value of fa. We utilized the relation fa = mv˙ −mg−Rfu from (1) to calculate fa, where fu is calculated based on the nominal cT from the bench test in Sec. VI-A.

C. DNN Prediction Performance

We train a deep ReLU network , with z, v, R, u corresponding to global height, global velocity, attitude, and control input.

ReLU网络四层隐藏层，输入12输出3

和地效数值模型做了比较【1】【3】。

D. Baseline Controller

We compared the Neural-Lander with a Baseline Nonlinear Tracking Controller.

We implemented both a Baseline Controller similar to (7) and (8) with ˆfa ≡ 0, as well as an integral controller variation with vr = p˙ d − 2Λp˜ − Λ 2 R t 0 p˜(τ )dτ .

Though an integral gain can cancel steady-state error during set-point regulation, our flight results showed that the performance can be sensitive to the integral gain,

E. Setpoint Regulation Performance

From Fig. 3, we can conclude that there are two main benefits of our Neural-Lander. (a) Neural-Lander can control the drone to precisely and smoothly land on the ground surface while the Baseline Controller struggles to achieve 0 terminal height due to the ground effect. (b) Neural-Lander can mitigate drifts in x − y plane, as it also learned about additional aerodynamics such as air drag. In experiments, we observed the Neural-Lander without spectral normalization can even result in unexpected controller outputs leading to crash, which empirically implies the necessity of SN in training the DNN and designing the controller.

F. Trajectory Tracking Performance

In summary, the experimental results with multiple ground interaction scenarios show that much smaller tracking errors are obtained by Neural-Lander, which is essentially the nonlinear tracking controller with feedforward cancellation of a spectrally-normalized DNN

VII. CONCLUSIONS

The main benefits are (1) our method can learn from coupled unsteady aerodynamics and vehicle dynamics to provide more accurate estimates than theoretical ground effect models, (2) our model can capture both the ground effect and other non-dominant aerodynamics and outperforms the conventional controller in all axes (x, y and z), and (3) we provide rigorous theoretical analysis of our method and guarantee the stability of the controller, which also implies generalization to unseen domains.

1）比理论模型更精准的预测地效下的气动干扰

2）能预测地效和其他的气动效应并且比传统控制器效果好

3）严谨的理论分析和稳定性证明

虽然理论分析很到位，可以用于参考证明含有神经网络的控制器稳定性证明。

但是实用角度讲，还是需要针对性的飞行实验来获取用于学习的数据。

**谱归一化（Spectral Normalization）**

是一种用于深度神经网络（DNN）中的正则化技术，旨在稳定训练并提高模型的泛化能力。它通过对神经网络中每一层的权重矩阵进行归一化，控制这些权重的谱范数（spectral norm）。

具体过程

谱归一化的核心思想是对每一层的权重矩阵 WWW 的最大奇异值 σ(W)\sigma(W)σ(W) 进行约束。奇异值反映了矩阵的线性变换在不同方向上的伸缩因子，最大奇异值表示这个变换最显著的放大效果。通过限制这个值，谱归一化能够避免模型在训练过程中变得不稳定，从而防止梯度爆炸或梯度消失问题。

谱范数 σ(W)\sigma(W)σ(W) 是权重矩阵 WWW 的最大奇异值：

σ(W)=max⁡(Wv∣∣v∣∣)\sigma(W) = \max \left( \frac{Wv}{||v||} \right)σ(W)=max(∣∣v∣∣Wv)

其中 vvv 是非零向量。谱归一化对权重矩阵的最大奇异值进行约束，将其归一化为某个常数 σ0\sigma_0σ0，具体的做法是：

W′=Wσ(W)W' = \frac{W}{\sigma(W)}W′=σ(W)W

这样，权重矩阵的线性变换能力就会受到控制，使得网络的输出更加稳定，特别是在生成对抗网络（GANs）等容易出现训练不稳定的模型中，谱归一化被广泛应用。

主要优点

稳定训练：通过控制每一层的权重矩阵的最大奇异值，谱归一化可以防止梯度爆炸和梯度消失问题，确保模型能够进行稳定的训练。
提高泛化能力：对权重矩阵的谱范数进行限制，有助于控制模型的复杂度，从而减少过拟合，提高模型的泛化性能。
易于实现：谱归一化可以直接应用于现有的网络层结构，计算复杂度较低，不会显著增加计算成本。

常见应用

谱归一化特别适用于生成对抗网络（GANs），因为GAN训练时生成器和判别器之间容易产生不稳定性。通过对判别器的权重使用谱归一化，可以使GAN的训练过程更加平滑，抑制训练崩溃现象。

总结

谱归一化通过对神经网络中权重矩阵的最大奇异值进行归一化，确保网络的训练稳定性，减少梯度爆炸与消失，同时提高模型的泛化能力。

Spectral normalization stabilizes DNN training by constraining the Lipschitz constant of the objective function

这句话的意思是：**谱归一化**（Spectral Normalization）通过约束目标函数（objective function）的**Lipschitz常数**，来稳定深度神经网络（DNN）的训练过程。

### 解释：
1. **Lipschitz常数（Lipschitz constant）**:
- Lipschitz常数是一种衡量函数变化率的指标。设一个函数 \( f(x) \) 满足：
\[
|f(x_1) - f(x_2)| \leq L \cdot |x_1 - x_2|
\]
其中，L 是这个函数的 **Lipschitz常数**。这个不等式的意思是，函数 \( f(x) \) 的值随输入变化的速率不会超过常数 \( L \) 乘以输入变化量的大小。

- 换句话说，Lipschitz常数控制了函数的变化速度，它决定了当输入稍微改变时，输出最大可以改变多少。

2. **目标函数（Objective function）**:
- 在深度学习中，目标函数通常是指用于优化的损失函数（loss function），例如均方误差、交叉熵等。它反映了模型输出与期望输出之间的误差，神经网络训练的目标是通过优化算法（例如梯度下降）使目标函数的值尽可能小。

3. **谱归一化与Lipschitz常数的关系**:
- **谱归一化**的作用是在每一层网络中，通过对权重矩阵的最大奇异值进行归一化，来约束模型的Lipschitz常数。约束Lipschitz常数的意义在于防止网络的输出随着输入变化过大，从而避免过大的梯度波动，这可以帮助训练过程更为稳定。
- 如果Lipschitz常数很大，意味着目标函数的梯度变化会很剧烈，导致训练过程中的梯度爆炸问题，网络难以收敛。而谱归一化限制了这种剧烈的变化，使网络的训练更加平稳。

### 总结：
这句话的核心意思是，谱归一化通过限制神经网络中的目标函数的变化率（即Lipschitz常数），来避免训练过程中梯度变化过大，从而提高训练的稳定性。