An inverse design method for three-dimensional morphing wings based on deep reinforcement learning
-
摘要:
三维变形机翼在可变工况下如何自主变形以达到气动性能要求,且满足任务自适应变形的基本功能是一个具有重要意义的问题。本文提出了一种基于强化学习的三维变形机翼反设计(reinforcement learning inverse design, RLID)框架,并将其应用于可变工况的自适应变形飞行任务中。选取类别/形状变换函数设计三维变形机翼,并采用拉丁超立方抽样方法对变形设计空间进行抽样,从而获取样本点;通过计算流体力学求解得到对应的气动参数,并通过深度置信网络代理模型构建从变形设计参数到气动参数的输入-输出模型。针对可变工况环境,基于无监督学习的深度Q网络(deep Q-network, DQN)强化学习智能体可为机翼实时提供变形策略,结果满足预期气动性能要求约70%,平均气动性能达到要求的98%以上。此外,本文将DQN智能体与基于贪心的条件生成对抗网络(greedy-basedconditional generative adversarial network, G-CGAN)智能体进行了对比,结果表明,本文所提出的RLID框架在多变工况条件下能够提供可靠的变形策略,且相较于G-CGAN,DQN智能体更注重整体任务的收益。
Abstract:It is of great significance to find out how to deform a three-dimensional deformed wing independently to meet the requirements of aerodynamic performance and the basic function of mission adaptive deforming under variable operating conditions. In this study, an RLID (reinforcement learning inverse design) framework is proposed and applied to the reverse design of three-dimensional morphing wings for adaptive morphing flight missions under variable operating conditions. The CST(class-shape function transformation) parameterization method is chosen to define three-dimensional morphing wings, and the Latin hypercube sampling method is used to sample in the design space and generate sample points. Computational fluid dynamics simulations are performed to obtain corresponding aerodynamic parameters, and the deep belief network surrogate model is constructed to map the input-output relationship between morphing design parameters and aerodynamic parameters. To address the variable operating conditions, a DQN (deep Q-network) reinforcement learning agent, leveraging unsupervised learning, is used to provide real-time morphing strategies, and the results meet about 70% of the expected aerodynamic performance requirements, and the average aerodynamic performance reaches more than 98% of the requirements. Furthermore, the design results via the DQN agent are compared with those via the G-CGAN (greedy-based conditional generative adversarial network) agents. The results indicate that the proposed RLID framework efficiently obtains a satisfactory strategy of morphing wings under variable operating conditions and that the DQN agent focuses more on overall task rewards than the G-CGAN agent.
-
0. 引 言
近年来,航空航天领域对飞机的性能要求越来越高。不仅要求飞机能适应不同的飞行环境、执行不同的任务,还要求其要保证气动性能。目前,大多数飞机的机翼都是围绕刚性剖面进行设计,但其结果往往是多工况性能的折衷与平衡,通常在设计点附近具有最佳的空气动力学性能,而在非设计点不总是如此[1]。
随着智能柔性材料的发展,变形飞机机翼逐渐成为未来智能飞机设计的研究热点,它可以根据不同的飞行工况随时调整机翼的外形,从而获得理想的气动性能。同时,该技术具有良好的经济性,可节油、减重、减阻、降噪,提升效率,降低飞机制造和运营成本,而且可执行多任务,提升飞行性能,因此在航空领域具有广阔的应用前景[2-4];其关键技术包括:外形的优化设计、结构创新、激励器、空气动力学性能、控制技术、新引擎技术和系统集成技术等。
国内外已开展了大量研究,对变形飞机的动力学性能、结构设计、控制技术等方面进行了丰富的理论分析和实验,主要有1979年的AFTI/F 111自适应机翼项目[5]、1985年的主动柔性翼(AFW)项目[6],以及1995年的“智能翅膀”项目[7],这些项目都取得了宝贵的成果。2020年7月,空客公司公开了Albatross ONE[8]的整个飞行过程,其中自由翼尖减少了机翼负载和翼尖失速,并验证了变形机翼设计在节能、减排和风隙适应方面的独特优势。同一时期, NASA改装了自适应适形后缘[9],通过外倾角变化和跨度,将飞行包线扩大到马赫数0.75,最大高度为40 000 ft。
与人们普遍认为的大规模形状变化或变形不同,目前正在研究空间飞行器变形技术的各种组织都根据不同的需要采用不同的定义,但并没有充分解决或描述变形的监督和控制等问题。本文关注一种大规模、相对缓慢的飞行形状变化,即任务适应性变形(morphing for mission adaptation, MMA),这可以使机翼能够执行多种不同的任务。任务适应性变形在智能系统的背景下应具备3个基本功能:何时重构、如何重构以及学习如何重构。学习如何重构是这3个功能中最具挑战性的,也是受到关注最少的一种[10]。这是因为即使已知最佳形状,产生它们的驱动方案也可能比较模糊。而强化学习可以很好地解决这个问题,并进一步让变形机翼拥有更强的生存能力。
强化学习研究目前主要集中在机械控制和博弈领域,在流体动力学中的应用研究有限[11]。目前研究主要聚焦几何优化方面,关于机翼变形策略的研究相对匮乏。Gong等[12]研究了一种基于Q学习的可变后掠翼垂直运动切换控制策略。Yan等[13]提出了一种基于多次迭代的Q强化学习飞行控制方法,将滑膜控制器与机翼自适应变形控制相结合。这些研究本质仍然是控制问题。相比之下,强化学习在空气动力学几何设计中期望的不是控制环境变化,而是类似于设计师经验的设计策略。Li等[14]使用近端策略优化算法对超临界翼型进行气动微调。Lampton等[15]开发了一种基于Q学习的情景无监督学习方法,其中最优性能基于翼型气动参数的奖励函数确定,形状变化策略包括增加或减少厚度或外倾角。这些研究表明,强化学习在执行变形任务中具有适应的潜力,能够根据不同的操作条件采取适当的行动。然而,当通过Q学习作为强化学习代理进行翼型变形决策时,高维状态空间难以得到有效处理。深度 Q 网络 (deep Q-network, DQN) 采用深度神经网络作为值函数逼近器,并能成功处理具有高维输入的复杂环境。相比Q学习,DQN利用经验回放技术解决数据相关性问题,且引入了目标网络使得训练过程更加稳定[16-17]。
综上所述,三维变形机翼在可变工况下如何自主变形以达到气动性能要求,且满足任务自适应变形(morphing for mission adaptation, MMA)的基本功能是一个具有重要意义的问题。因此,本文提出并开发了一种基于深度 Q 网络的三维变形机翼反设计 (reinforcement learning inverse design, RLID)框架,强化学习模块选用DQN智能体,该模块实现了各种工况环境与三维变形机翼设计变量的交互,相较于基于Q网络的强化学习模块,DQN可以在多维度上更自由地实现三维变形机翼在MMA中的基本功能。为有效训练DQN模型,采用经拉丁超立方抽样(Latin hypercube sampling, LHS)后的样本建立深度置信网络(deep belief network, DBN)代理模型用来替代从三维机翼几何参数到气动参数的复杂、费时过程。正向过程采用类别/形状变换函数(class-shape function transformation, CST)参数化方法作为三维变形机翼的变形方案。
1. 数值模拟方法与验证
1.1 RANS方法
采用有限体积法[18]求解雷诺平均纳维-斯托克斯(Reynolds-averaged Navier-Stokes, RANS)方程[19],可获取三维机翼的气动参数。当无体积力和外部热源时,笛卡尔坐标系下可压缩的三维RANS方程如式(1)所示,相关变量含义参见文献[19]。
\begin{split} &\frac{{\partial {\boldsymbol{Q}}}}{{\partial t}} + \frac{{\partial {\boldsymbol{E}}}}{{\partial x}} + \frac{{\partial {\boldsymbol{F}}}}{{\partial y}} + \frac{{\partial {\boldsymbol{G}}}}{{\partial z}} = \frac{{\partial {{\boldsymbol{E}}_{\mathrm{v}}}}}{{\partial x}} + \frac{{\partial {{\boldsymbol{F}}_{\mathrm{v}}}}}{{\partial y}} + \frac{{\partial {{\boldsymbol{G}}_{\mathrm{v}}}}}{{\partial z}} \\ &\qquad {\boldsymbol{Q}} = {\left\{ {\rho ,\rho u,\rho v,\rho w,\rho E} \right\}^{\mathrm{T}}} \\ &\qquad {\boldsymbol{E}} = {\left\{ {\rho u,\rho {u^2} + p,\rho uv,\rho uw,(\rho E + p)u} \right\}^{\mathrm{T}}} \\ &\qquad{\boldsymbol{F}} = {\left\{ {\rho v,\rho uv,\rho {v^2} + p,\rho vw,(\rho E + p)v} \right\}^{\mathrm{T}}} \\ &\qquad {\boldsymbol{G}} = {\left\{ {\rho w,\rho uw,\rho wv,\rho {w^2} + p,(\rho E + p)w} \right\}^{\mathrm{T}}} \\ &\qquad {{\boldsymbol{E}}_{\mathrm{v}}} = {\left\{ {0,{\tau _{xx}},{\tau _{xy}},{\tau _{xz}},{\varphi _x}} \right\}^{\mathrm{T}}} \\ &\qquad {{\boldsymbol{F}}_{\mathrm{v}}} = {\left\{ {0,{\tau _{xy}},{\tau _{yy}},{\tau _{yz}},{\varphi _y}} \right\}^{\mathrm{T}}} \\ &\qquad {{\boldsymbol{G}}_{\mathrm{v}}} = {\left\{ {0,{\tau _{zx}},{\tau _{zy}},{\tau _{zz}},{\varphi _z}} \right\}^{\mathrm{T}}} \end{split} (1) 本文数值模拟时,空间离散使用Roe-FDS方法[20],时间离散使用隐式LU-SGS方法[21],湍流模型采用一方程Spalart-Allmaras(S-A)湍流模型[22]。
1.2 算例验证
为了验证数值方法的可靠性,对DLR-F6翼身组合体进行计算,并将计算结果与试验结果[23]进行对比。翼身组合体的网格结构如图1所示,计算域网格数约为6.43×106。
数值模拟计算结果与试验结果的对比如表1所示。其中3组工况分别设置为Ma = 0.75、Re = 3.0×106、α= 0.52°;Ma = 0.76、Re = 3.0×106、α = 0.47°;Ma = 0.77、Re = 3.0×106、α = 0.41°。
由表1可知,RANS方法计算结果与试验结果相差极小,CL和CD的相对误差分别低于1%和2%,因此,本文RANS方法对于三维模型气动系数的数值模拟计算是可靠的。
表 1 DLR-F6翼身组合体的数值模拟结果与试验结果[23]对比Table 1. Comparison of numerical simulation results and test results[23] of the DLR-F6 wing-body configuration工况 计算值 试验值 相对误差 CL CD CL CD CL CD 工况1 0.4966 0.0290 0.5000 0.0295 0.68% 1.69% 工况2 0.4981 0.0293 0.5000 0.0298 0.38% 1.68% 工况3 0.4962 0.0296 0.5000 0.0300 0.76% 1.33% 2. 基于强化学习的反设计(RLID)框架
2.1 RLID框架的组成
本文通过RLID框架对三维变形机翼进行反设计,该框架的主要要素为深度Q网络(DQN)智能体,用于在给定性能和约束条件下给出所需的设计参数以及具体的变形策略,该框架的示意图如图2所示。
从图2可以看出,RLID框架包含以下两个步骤:
1) 前向建模:从三维变形机翼几何参数到气动参数的正向过程的有效建模。其中,关于三维变形机翼的变形机理选用具有实际意义的CST参数化方法,之后利用1.1节的CFD计算方法获取变形后机翼的气动参数,并用DBN建立有效的代理模型,其间采用LHS方法确保取样样本均匀。
2) 反向建模:使用前向建模中生成的有效代理模型训练DQN模型。利用步骤(1)中的代理模型生成数据训练DQN,使得三维变形机翼能够在不同工况下产生变形指令进行自主变形,以达到一定的气动性能,满足任务适应性变形的基本要求。
2.2 基于CST参数化的机翼变形方法
本文不对三维变形机翼的变形动力学模型和实际的基本控制器模型进行详细探讨,而是假想存在一种符合要求的变形机制,可以从基础机翼变形至新的机翼外形,但为了保证一定的气动性能,本文采取目前常用的CST参数化设计方法限定新机翼的外形。在这一过程中,机翼的翼根、翼尖以及1/2展长处将被选取为控制翼型面,并选用CST参数化方法作为变形机理。
CST参数化方法表示翼型的方式如式(2)所示[24]:
\zeta (\varphi ) = C(\varphi )S(\varphi ) + \varphi {\zeta _{{\text{TE}}}} (2) 其中: \varphi = x/c , \zeta = z/c , {\zeta _{{\text{TE}}}} = \Delta {\zeta _{{\text{TE}}}}/c ,c为弦长,\zeta_{{\mathrm{TE}}} 为无量纲后缘厚度; C(\varphi ) 为类函数, S(\varphi ) 为型函数,其表达式分别如式(3)和式(4)所示:
C(\varphi ) = {\varphi ^a}{(1 - \varphi )^b} (3) S(\varphi ) = \frac{{\zeta (\varphi ) - \varphi {\zeta_{\mathrm{TE}}}}}{{\sqrt {\varphi (1 - \varphi )} }} = \sum\limits_{i = 0}^n {({A_i}{\varphi _i})} (4) 对于 C(\varphi ) ,选取 a = 0.5 、 b = 1.0 为特定值,型函数 S(\varphi ) 中的 {A_{\text{i}}} 是通过翼型坐标进行二阶样条差值方法处理后得到的系数[25]。
为了生成更复杂、更实用的翼型,通常会使用伯恩斯坦多项式(Bernstein polynomial)代替式(4)中的型函数 S(\varphi ) 。综合考虑拟合误差、算法收敛速度以及后续代理模型构建所需的时间成本,本文选择采用6阶伯恩斯坦多项式[24]。
经过CST参数化方法,NACA 0012 翼型几何形状可以用14个参数表示。图3为CST参数化翼型与原始翼型的对比,可以看到,CST参数化方法生成的翼型与原始翼型基本一致。图4给出了NACA 0012翼型上下表面的拟合误差,可以看出拟合翼型的残差均小于 2 \times {10^{ - 4}} ,这说明CST参数化方法是可靠的。
2.3 前向代理模型的构建
2.3.1 拉丁超立方抽样(LHS)
对于变形设计参数 {\boldsymbol{x}} = {[{x_1},{x_2}, \cdots ,{x_m}]^{\mathrm{T}}} ,通常需要建立相应气动性能函数的近似模型。为此,需要提前对设计空间进行抽样,本文选择被广泛使用的LHS方法[26],从而得到 n 个采样点 {\boldsymbol{X}} 及其对应的 n 个函数响应值 {\boldsymbol{Y}} :
{\boldsymbol{X}} = {[{{\boldsymbol{x}}^{(1)}},{{\boldsymbol{x}}^{(2)}}, \cdots ,{{\boldsymbol{x}}^{(n)}}]^{\mathrm{T}}} \in {\mathbb{R}^{n \times m}} (5) {\boldsymbol{Y}} = {[{{\boldsymbol{y}}^{(1)}},{{\boldsymbol{y}}^{(2)}}, \cdots ,{{\boldsymbol{y}}^{(n)}}]^{\mathrm{T}}} \in {\mathbb{R}^n} (6) 所有样本点及其相应的函数响应值构成样本数据集,利用代理模型可以实现从变形设计参数到气动性能参数的快速转变,从而避免耗时的CFD数值模拟。
2.3.2 深度置信网络(DBN)
深度置信网络(DBN)是一种新型的神经网络,它由多个基于概率原理训练而成的受限玻尔兹曼机(restricted Boltzmann machine, RBM)构成[27]。其基于概率生成模型,采取无监督学习的训练策略,具有较好的泛化能力,可以较好地重构复杂结构功能的函数[28]。本文基于DBN的气动代理模型分析框架图如图5所示。
由图5可知,基于无监督学习方法对参数 \beta = ({\boldsymbol{W}},{\boldsymbol{a}},{\boldsymbol{b}}) 进行从下至上的训练和优化,随后再对参数进行从上至下的调整。训练函数表达式[28]为:
\begin{split} \boldsymbol{W}= & \boldsymbol{W}+\varsigma_{\mathrm{DBN}}\left[P\left(\boldsymbol{h}_j^{(k)}=1 \mid \boldsymbol{v}^{(k)}\right)\left(\boldsymbol{v}^{(k)}\right)^{\mathrm{T}}-\right. \\ & \left.P\left(\boldsymbol{h}_j^{(k+1)}=1 \mid \boldsymbol{v}^{(k+1)}\right)\left(\boldsymbol{v}^{(k+1)}\right)^{\mathrm{T}}\right] \\ \boldsymbol{a}= & \boldsymbol{a}+\varsigma_{\mathrm{DBN}}\left(\boldsymbol{v}^{(k)}-\boldsymbol{v}^{(k+1)}\right) \\ \boldsymbol{b}= & \boldsymbol{b}+\varsigma_{\mathrm{DBN}}\left[P\left(\boldsymbol{h}_j^{(k)}=1 \mid \boldsymbol{v}^{(k)}\right)-\right. \\ & \left.P\left(\boldsymbol{h}_j^{(k+1)}=1 \mid \boldsymbol{v}^{(k+1)}\right)\right] \end{split} (7) 其中, P 为概率函数, \varsigma_{\mathrm{DBN}} 为学习率, {\boldsymbol{h}}_j^{(k)} 表示隐藏层中第 j 个神经元的第 k 次优化, {{\boldsymbol{v}}^{(k)}} 表示第 k 次优化的显层节点。
2.4 反向强化学习模型的构建
如图6所示,在强化学习中,通常会有一个智能体,它通过与外部环境的交互,收集输出并接受反馈,然后生成最佳动作,从而解决真实情况下复杂的控制任务或决策任务[29]。
本文使用的强化学习模块称为深度Q网络。而Q学习是DQN的基础,通过基于查找表的无模型算法形式来实现策略。当智能体与环境互动并接收反馈时,一个在开始时为零的状态-行动值Q表会根据式(8)迭代更新这些Q值,直到收敛到最佳状态:
Q(S,A) = Q(S,A) + {\text{ }}{\varsigma}_{{\mathrm{DQN}}} (R + \gamma \max Q({S^n},A) - Q(S,A)) (8) 式中: {\varsigma}_{{\mathrm{DQN}}} 为学习率,决定目标函数能否收敛到局部最小值以及何时收敛到最小值;\gamma 为折扣因子,影响智能体对未来奖励的重视程度。两者均为强化学习的超参数。式(8)也称为贝尔曼方程(Bellman's equation),它将当前动作的奖励 R 、下一状态动作的最大Q值 \max Q({S^n},A) 以及当前状态动作的Q值 Q(S,A) 的估计值结合在一起,通过与每个时间步的真实观测值相结合,使估计值变得更加精确。
图7 显示了DQN具体的训练过程,与Q学习相比,DQN不仅利用卷积神经网络(convolutional neural networks, CNN)来逼近价值函数,还利用经验回放来训练强化学习的过程,并独立设置目标神经网络(target neural networks, TNN)来单独处理时序差分中的偏差。这种方法将深度学习用于提取高维状态空间中的复杂特征,并结合神经网络精确拟合Q值,使得深度Q网络(DQN)能够有效应对具有复杂状态和动作空间的现实问题。
DQN算法的伪代码如图8所示。
智能体的 \varepsilon -贪心策略如式(9)所示:
A=\left\{\begin{array}{ll}\mathrm{arg}\underset{A}{\mathrm{max}}Q(S,A;\theta ),& e > 1-\varepsilon \\ {\mathrm{rand}}({A}_{i}),& {\mathrm{otherwise}}\end{array}\right. (9) 式中,e 为0到1之间的随机数,概率\varepsilon 在0到1之间随训练不断变化。随着学习次数的增加,学习到的动作值函数 Q({S_t},A;\theta ) 会逐渐收敛到最佳 Q^*(S,A;\theta ) 。
在使用 RLID 框架解决任务适应性变形问题时,状态 S 的定义主要取决于当前的变形设计参数 {\boldsymbol{c}} 以及具体工况condition:
S = ({\boldsymbol{c}},{\text{condition}}) (10) 考虑变形设计空间 {\boldsymbol{\varOmega }} \in {\mathbb{R}^{{n_c}}} ,其中 {n_{\boldsymbol{c}}} 表示变形设计空间的维度,变形是指在变形设计空间中的变形设计参数的某一个维度上增加或减少一个步长 {h_{\boldsymbol{\varOmega }}} ,从而可以得到动作的表达式:
A = {[0,0, \cdots ,{a_k}, \cdots ,0]_{1 \times 2{n_c}}},\;{a_k} = 1 (11) 新的变形设计参数可根据式(11)中的 k 确定:
{\boldsymbol{c}} = {\boldsymbol{c}} + {{\boldsymbol{c}}_t} (12) 其中:
{{\boldsymbol{c}}_t}[i] = \left\{ {\begin{array}{*{20}{l}} h,&i = {c_{{\mathrm{index}}}},&{{{{{s}}} }_{{\mathrm{index}}}} = 1 \\ { - h},&i = {c_{{\mathrm{index}}}},&{{{{{s}}} }_{{\mathrm{index}}}} = 0 \\ 0,&{{\mathrm{otherwise}}} &{} \end{array}} \right. (13) 其中,步长h与变形设计空间有关, {c_{{\mathrm{index}}}} 和 {s}_{{\mathrm{index}}} 分别表示 k 除以2的商和余数。
为在指定设计空间 {\boldsymbol{\varOmega }} \in {\mathbb{R}^{{n_c}}} 内采取动作并最大化气动性能(以升力系数 {C_L} 为例)直至达到阈值 C_{L,\;{\rm {th}}} ,奖励 R 定义如下:
R=\left\{\begin{array}{ll} -20, & \boldsymbol{c} \notin \boldsymbol{\varOmega} \\ 10, & C_L \geqslant C_{L,\;{\rm {th}}} \\ k_R \left(C_L-C_{L, \text { old }}\right), & {\mathrm{otherwise}} \end{array}\right. (14) 其中, {C_{L,{\text{old}}}} 为变形前的升力系数, {k_R} 为比例系数,需依据具体问题进行调试。
在RLID框架中,智能体DQN 会根据不同工况选择动作,从而生成变形设计参数和状态,利用DBN代理模型计算当前设计参数下三维变形机翼的气动性能。然后获取奖励,将奖励和新状态返回到 DQN 本身进行训练,并再次开始选择下一个动作,形成一个连续的往复循环。
3. RLID框架的性能评价
3.1 基于贪心策略的条件生成对抗神经网络
为了验证RLID框架中的DQN智能体在处理三维变形机翼应对任务适应性变形的能力,本文选取一种名为条件生成对抗网络(conditional generative adversarial networks, CGAN)的替代方法与DQN智能体进行对比。为此,CGAN还需添加一种辅助的贪心策略。
CGAN的结构示意图如图9所示,图中 {\boldsymbol{z}} 表示随机噪声, {\boldsymbol{y}} 表示附加信息,所有中间层均为线性层。本文CGAN训练的目标是自动生成符合气动要求的机翼设计参数。在这之中,附加信息 {\boldsymbol{y}} 被集成到原始GAN架构的生成器G和判别器D组件中,使得CGAN能够在测试阶段利用所提供的标签生成特定的设计参数。这种方法可减轻生成过程中固有的随机性,并对生成的设计参数类别进行精确控制,确保其符合要求。
正是由于CGAN在原始GAN的生成器G和判别器D之间的最大最小博弈中增加了额外的信息 {\boldsymbol{y}} ,因此其损失函数变换为下式:
\begin{split} {\min _G}{\max _D}V(D,G) =& {E_{{\boldsymbol{x}} \sim {P_{{\text{data}}}}({\boldsymbol{x}})}}[\lg D({\boldsymbol{x}}\left| {\boldsymbol{y}} \right.)] + \\ &{E_{{\boldsymbol{z}} \sim {P_z}({\boldsymbol{z}})}}[\lg (1 - D(G({\boldsymbol{z}}\left| {\boldsymbol{y}} \right.)))] \end{split} (15) Mirza 等[30]详细阐述了CGAN的所有细节,此处不再赘述。
CGAN独立是无法满足任务适应性变形要求的,这一局限源于它无法提供特定的变形过程。为此,本文采用了一种基于贪心策略的CGAN(Greedy-based CGAN, G-CGAN)。更具体地说,贪心策略确保了设计参数朝着在当前情况下最快达到预期气动性能要求的方向前进。该策略中,每一步的动作只允许在某一维度上进行调整,而选择的调整动作是基于能够带来最大气动性能改变的考量。同样,当气动性能达到阈值后,不再采取动作进行调整。
3.2 任务适应性变形的评价指标
为了评价进行任务适应性变形时的性能好坏,定义一个时间步长为执行一个动作的平均时间,整个任务时间步长为 {N_t} 。定义 {C_L}_s 为实际 {C_L} 与 C_{L,\;{\rm {th}}} 的比值,并根据实际需要定义以下评价指标:
1) 指标 {I_1} :未达到 C_{L,\;{\rm {th}}} 的所有时间步长的 {C_L}_s 平均值,该值越接近 1,性能越好。当时间步长为 {N_t} ,则小于阈值的 {C_L}_s 定义为 {{C_L}_s}^* 。该指标 {I_1} 可写成:
{I_1} = \dfrac{{\sum {{{C_L}_s}^*} }}{{{N_t}}} \times 100\% (16) 2) 指标 {I_2} :符合阈值要求的所有时间步长的百分比:
{I_2} = \frac{{{N_t} - {\mathrm{Num}}({{C_L}_s}^*)}}{{{N_t}}} \times 100\% (17) 其中 {\text{Num}}({C_{Ls}}^*) 表示 {C_L}^* 的数量。
3) 指标 {I_3} : M 次测试的 {C_L}_s 平均值:
{I_3} = \frac{{\displaystyle\sum\nolimits_{j = 1}^M {\displaystyle\sum\nolimits_{i = 1}^{{N_t}} {{{({C_{Ls}})}_{ij}}} } }}{{M \times {N_t}}} \times 100\% (18) 此外,为了评估DBN代理模型的准确性,在 {\boldsymbol{\varOmega }} 上选取大小为 n 的测试集,使用决定系数 {R^2} 和归一化均方根误差ENRMS两个指标来评估代理模型的性能:
{R^2} = 1 - \frac{{\displaystyle\sum\limits_{i = 1}^n {{{(y_{\mathrm{C}}^i - y_{\mathrm{E}}^i)}^2}} }}{{\displaystyle\sum\limits_{i = 1}^n {{{(y_{\mathrm{C}}^i - {\bar y}_{\rm C} )}^2}} }} (19) {E_{{\text{NRMS}}}} = \frac{{\sqrt {\frac{{\displaystyle\sum\limits_{i = 1}^n {{{(y_{\mathrm{C}}^i - y_{\mathrm{E}}^i)}^2}} }}{n}} }}{{\max ({y_{\mathrm{C}}}) - \min ({y_{\mathrm{C}}})}} (20) 其中: y_{\mathrm{C}}^i 表示由CFD计算得到的第 i 个样本的值; {\bar y}_{\mathrm{C}} 表示CFD计算得到的样本均值; y_{\mathrm{E}}^i 表示利用代理模型得到的第 i 个样本的预测值。
4. 三维变形机翼反设计研究
具体而言,对于指定变形机翼,机翼变形机理采取CST参数化方法,设想该变形机翼能跟随 {n_{\boldsymbol{c}}} = 42 的变形控制参数 {\boldsymbol{c}} 缓慢自由变形,飞行工况根据马赫数和雷诺数不同分为3种。本节将基于RLID框架控制三维变形机翼执行任务适应性变形,且3个工况下的升力系数阈值C_{L,\;{\rm {th}}} 需满足一定要求,分别为0.483、0.492和0.557。
4.1 三维变形机翼反设计案例描述
考虑一个长度 {N_t} = 100 步的任务过程,其中每10步随机改变一次工况,共10段,如表2所示。
表 2 变形任务的工况变化Table 2. Variation in the operating conditions of the morphing task区间 0~10 11~20 21~30 31~40 41~50 工况 Case 3 Case 2 Case 3 Case 1 Case 2 区间 51~60 61~70 71~80 81~90 91~100 工况 Case 3 Case 1 Case 2 Case 1 Case 3 选取平面形状如图10 所示的三维机翼,半翼展长为8.305 m,翼根弦长为2.18 m,翼梢弦长为0.91 m。选取机翼在翼根、翼尖以及 1/2 展长处的剖面翼型(剖面翼型皆为NACA 0012翼型),以其几何数据作为机翼的几何数据,利用CST参数化方法作为变形机理,每个剖面的翼型形状可以由14个参数表示,变形设计参数空间 {\boldsymbol{\varOmega }} 在基准机翼参数 \left[ {0.6,1.4} \right] 之内,基准机翼的14个CST参数值如表3 所示。CFD计算中,网格单元数为 3.3 \times {10^6} , 图11为该三维机翼的几何网格。
表 3 三维变形基准机翼的CST值Table 3. CST values for 3D morphing baseline wings参数 {c}_{1} {c}_{2} {c}_{3} {c}_{4} {c}_{5} {c}_{6} {c}_{7} 基准值 0.245 0.204 0.197 0.157 0.189 0.150 0.169 参数 {c}_{8} {c}_{9} {c}_{10} {c}_{11} {c}_{12} {c}_{13} {c}_{14} 基准值 –0.117 –0.056 –0.211 –0.025 –0.178 –0.084 –0.128 利用LHS在该参数空间得到大小为1 \times {10^3} 的样本点,再经过CFD计算得到在3种工况(表4)下的气动性能,组成数据集 ({\boldsymbol{X}},{\boldsymbol{Y}}) 。
表 4 三维变形机翼的飞行工况Table 4. Flight conditions of 3D morphing wingCase 1 Case 2 Case 3 Ma 0.4 0.45 0.5 \alpha /(°) 4 4 4 Re 9.83×106 1.11×107 1.24×107 图12、图13分别展示了各工况下升力系数的核密度估计图和箱线图。由图可知,在同一工况下,样本中的升力系数呈现中间集中两侧稀疏的现象。因此本文选定三维机翼的气动性能要求为升力系数需高于数据集中 90\% 的部分,定义每种工况下的升力系数临界值为阈值 C_{L,\;{\rm {th}}} 。
4.2 代理模型训练结果
为避免特征量纲差异较大造成的数值误差,本文对数据集进行了归一化处理:
X = \frac{{{x_k} - {x_{\min }}}}{{{x_{\max }} - {x_{\min }}}} (21) 表5展示了DBN代理模型训练时不同迭代次数Niter以及学习率 \varsigma_{\mathrm{DBN}} 对模型精度的影响,可以看出,当学习率\varsigma_{\mathrm{DBN}}=1\times 10^{-4} 、迭代次数N_{\rm iter}=2 \times 10^3 时,模型精度最高,误差最小。因此,本文设定迭代次数Niter =2×103,学习率 \varsigma_{\mathrm{DBN}} = 1 \times {10^{ - 4}} 。
表 5 迭代次数与学习率对DBN代理模型的影响(Case 1)Table 5. Influence of the iteration number and learning rate on the DBN surrogate model (Case 1)\varsigma_{\mathrm{DBN}} Niter {R}^{2} ENRMS 1 \times 1{0}^{-3} 1\times 1{0}^{3} 0.984 0.016 2\times 1{0}^{3} 0.984 0.016 3\times 1{0}^{3} 0.941 0.060 1 \times 1{0}^{-4} 1\times 1{0}^{3} 0.970 0.030 2\times 1{0}^{3} 0.985 0.015 3\times 1{0}^{3} 0.977 0.023 1 \times 1{0}^{-5} 1\times 1{0}^{3} 0.209 0.787 2\times 1{0}^{3} 0.498 0.500 3\times 1{0}^{3} 0.784 0.215 图14展示了在3个工况下,DBN代理模型在测试集上的预测值和CFD计算值的对比曲线,可以看到DBN的预测值与CFD计算值十分接近,说明所建立的DBN代理模型拟合精度较好。
图15显示了在工况2下,DBN代理模型预测的升力系数和阻力系数值与CFD计算值的相对误差曲线,从中可以看出两者的相对误差均低于2%,说明DBN代理模型的预测精度较高。
此外,将DBN代理模型与Kriging代理模型进行对比,设定训练集与测试集之比为9∶1,其决定系数与归一化均方根误差如表6 所示。从表中可以看出,DBN比Kriging代理模型预测精度更高,误差更小。
表 6 DBN与Kriging代理模型的对比Table 6. Comparison between DBN and Kriging surrogate models评价指标 模型 工况 Case 1 Case 2 Case 3 {R}^{2} DBN 0.984 0.981 0.983 Kriging 0.747 0.746 0.794 ENRMS DBN 0.016 0.019 0.017 Kriging 0.250 0.251 0.214 4.3 RLID框架参数配置
在使用RLID框架解决表2问题时,按照2.4节,首先要对强化学习中的状态、动作和奖励进行定义。状态的定义主要取决于当前的变形设计参数、来流马赫数以及雷诺数,如式(22)所示:
S = ({\boldsymbol{c}},Ma,Re) (22) 考虑变形设计空间 {\boldsymbol{\varOmega }} ,定义变形为变形设计参数 {\boldsymbol{c}} 的某一个维度增加或减少一个步长 {h_{\boldsymbol{\varOmega }}} ,其中:
{h}_{j}=0.04 {{c}}_{基准}^{j}(j=1,2,\mathrm{ \cdots },42) (23) 基于此,得到强化学习动作的表达式:
A = {[0,0, \cdots ,{a_k}, \cdots ,0]_{1 \times 84}},\quad{a_k} = 1 (24) 更新的变形设计参数可根据式(24)与2.4节中的式(13)确定,其中:
{{\boldsymbol{c}}_t}[i] = \left\{ {\begin{array}{*{20}{l}} {{h_i}},&{i = {c_{{\mathrm{index}}}},{{s }_{{\mathrm{index}}}} = 1} \\ { - {h_i}},&{i = {c_{{\mathrm{index}}}},{{s }_{{\mathrm{index}}}} = 0} \\ 0,&{{\mathrm{otherwise}}} \end{array}} \right. (25) 为在变形设计空间内采取动作并最大化升力系数直到其高于阈值 C_{L,\;{\rm {th}}} ,选取 {k_R} =1 \times {10^4} ,定义奖励如下:
R=\left\{\begin{array}{ll}-20,& {\boldsymbol{c}}\notin {\boldsymbol{\varOmega}} \\ 10,& {C}_{L}\ge {C_{L,\;{\rm {th}}}}\\ {10}^{4}({C}_{L}-{C}_{{L}{,}{{\mathrm{old}}}}),& {\mathrm{otherwise}}\end{array}\right. (26) 其次,则需要训练DQN,训练过程中,超参数设置如表7所示。
表 7 DQN超参数配置Table 7. DQN hyperparameter configuration超参数 取值 \varsigma_{\mathrm{DQN}} 0.01 \gamma 0.9 \varepsilon_{{\mathrm{initial}}} 1 \varepsilon_{{\mathrm{final}}} 0.1 Bitch size 32 Exploration 500 Max episode 1000 4.4 三维变形机翼反设计结果分析
当进行100次试验时,DQN智能体在处理表2的三维变形机翼任务案例时,有 {I_3} = 99.34\% ,这反映出在DQN智能体的帮助下,该变形机翼对不同的工况具有很强的变形适应能力。
表2中各时间步下比升力系数 {C_L}_s (升力系数与升力系数临界值的比值)的变化过程如图16所示,图中,蓝色曲线描述了变形机翼的比升力系数 {C_L}_s 随时间步长的演变过程(已设定上限为1)。可以看出:
1) 在Stage 1,任务刚刚开始,变形机翼处于工况3,此时基准机翼的 {C_L}_s 未达到阈值要求,因此DQN智能体开始调整其变形设计参数 {\boldsymbol{c}} 。首先提升设计参数 {c_{16}} ,然后逐渐增加变形设计参数 {c_{17}} ,直到新的一轮工况变化。
2) 到达Stage 2,经过10步后,虽然此时变形机翼的气动性能还未达到上一环境下的要求,但是工况已经发生重大改变,这导致当前变形机翼的 {C_L}_s 略微提升,但依旧没有达到阈值。为此,DQN智能体对此进行干预,逐渐调整其变形设计参数 {c_{18}} 直到此轮工况结束。
3) 进入Stage 3,随着工况的再次变化,当前变形机翼 {C_L}_s 严重下降。为提高气动性能水平,DQN智能体再次改变变形设计参数 {c_{18}} ,最终将变形机翼的气动性能恢复到理想水平。
4) 在Stage 3之后,无论如何改变工况,变形机翼的气动性能都满足要求,此时DQN停止对三维机翼的变形,保持当前变形机翼的几何配置。
面对表2任务,DQN智能体的指标 {I_1} = 98.0\% ,这表明当飞行工况发生改变导致 {C_L}_s 下降时,DQN智能体可以迅速恢复气动性能,并达到任务要求;另一方面,指标 {I_2} = 69.3\% ,这表明通过DQN智能体,该变形机翼的气动性能在大部分时间步长内都是满足任务要求的。
每个阶段前后的几何变化(截取1/2展长处的剖面翼型)和压力分布如图17和图18所示。从图中可以看出,在Stage 1 前后,由于 {c}_{16} 和 {c}_{17} 的变大导致机翼上翼面中缘变厚,从而使得上翼面前缘部分压强 -{C}_{p} 略微减小,中缘部分 -{C}_{p} 增大,从而提升升力系数;在Stage 2前后,由于 {c}_{18} 的增大同样导致机翼上翼面中缘部分变厚,中缘部分的 -{C}_{p} 略微增大,从而提升了升力系数;在Stage3前后,由于 {c}_{18} 的继续增大,中缘部分继续变厚,升力系数整体上有略微提升。
图19为在该任务下,强化学习每一步采取最优动作的Q值随时间步长的变化。由图可知,基于式(26)的奖励定义,在任务的第0~30步中,采取最优动作的奖励都是正值,这表明DQN在不断地改善三维机翼的升力系数,在不同工况下,采取最佳动作的Q值也略微不同。等到Stage 3以后,Q值的大小只与工况有关,这说明在之后DQN不再对三维机翼进行变形。
图20 为DQN智能体采取动作后的总奖励随时间变化的趋势。由图可知, DQN采取的每一个动作都能确保整个任务最后的总奖励最大化。
图21为DQN智能体与G-CGAN智能体在处理相同任务时升力系数随时间步长变化的差异。从图21可以看出,在0 ~ 10步的第一个工况内,DQN智能体的性与G-CGAN2近似,略低于G-CGAN1,三者的气动性能均未在该工况下达到阈值要求;在11 ~ 20步的第二个工况内,G-CGAN2的 {C}_{Ls} 骤然下降,而DQN与G-CGAN1依旧稳步上升,甚至G-CGAN1提前达到阈值要求,此时,DQN的性能是介于G-CGAN2与G-CGAN1之间的。之后,进入21 ~ 30步的第三个工况内,G-CGAN2依旧稳步上升,G-CGAN1与DQN的 {C}_{Ls} 均经历一点点波折后最终达到阈值要求。随后进入31 ~ 40步的工况4,G-CGAN1略微波动后与DQN与G-CGAN2同时达到阈值要求,且不再发生变化。
图22 为DQN与G-CGAN两类智能体在每个阶段前后的几何外形差异(截取1/2展长处的剖面翼型)。表8为DQN、G-CGAN1和G-CGAN2两个智能体的I1、I2指标对比。可以看到,G-CGAN智能体的性能与之生成的机翼设计参数有密切关系,这是因为它们的策略是相同的。在三维案例中,DQN的 {I_1} 略高于选定的G-CGAN1与G-CGAN2,但其 {I_2} 值比G-CGAN1 约低10个百分点,与G-CGAN2相当。这是因为该任务中选取的升力系数阈值精度较高而随机生成的CGAN1性能又较好,但这并不能否定DQN在处理该任务下的性能。总结来说,在三维机翼变形任务中,相较于G-CGAN,DQN智能体更注重使整个任务达标的收益。
表 8 DQN和G-CGANs智能体的指标Table 8. Indicators of DQN and G-CGANs agentsDQN G-CGAN1 G-CGAN2 {I}_{1} 98.0% 97.8% 97.9% {I}_{2} 69.3% 79.2% 69.2% 5. 结 论
相较于以往工作[31],本文使用RLID框架解决了基于三维变形机翼的空气动力学反设计与控制变形问题。在该框架中,强化学习模块使用DQN,为了有效训练DQN模型,使用经过LHS的DQN代理模型来替代从机翼几何参数到气动参数的复杂、费时过程,正向过程采用CST参数化方法作为变形机翼的变形方案,主要得到以下结论:
1) 选取 {n_{\boldsymbol{c}}} = 42 的变形设计空间,在原CST参数的 \left[ {0.6,1.4} \right] 范围内建立DBN代理模型,决定系数R2达到0.98,归一化均方误差低至2%。
2) 在反向设计和控制的强化学习过程中,经过训练后的DQN智能体进行 M=100 次任务试验的 {I}_{3} 值超过 99\% ,对于特定任务,其指标 {I}_{1} 达到 95.7\% , {I}_{2}=76.9\% 。这说明DQN能够在升力系数较低时,帮助机翼自主采取动作以使升力回到阈值之上的水平。
3) 与G-CGAN策略相比,DQN摆脱了对不同工况下满足要求的特定设计参数的依赖。虽然G-CGAN选择的是性能较好的设计参数,但由于其常常只关注局部的最优性,而DQN更加注重任务中的整体性能,因此DQN更能达到任务所需的预期要求。
任务适应性变形中学习如何重构是最具挑战性的。本文抛除机翼变形的动力学机制,从几何外形出发,利用DQN强化学习智能体提供解决方案。在这项工作中,考虑设计点数量和设计点变形范围较小,对于强化学习的性能也没有进一步优化,工况的种类也较少,未来的工作方向可以将RLID框架应用到更广泛的翼型/机翼变形方案,同时提升强化学习的性能,以面对更加复杂的工况环境。
-
表 1 DLR-F6翼身组合体的数值模拟结果与试验结果[23]对比
Table 1 Comparison of numerical simulation results and test results[23] of the DLR-F6 wing-body configuration
工况 计算值 试验值 相对误差 CL CD CL CD CL CD 工况1 0.4966 0.0290 0.5000 0.0295 0.68% 1.69% 工况2 0.4981 0.0293 0.5000 0.0298 0.38% 1.68% 工况3 0.4962 0.0296 0.5000 0.0300 0.76% 1.33% 表 2 变形任务的工况变化
Table 2 Variation in the operating conditions of the morphing task
区间 0~10 11~20 21~30 31~40 41~50 工况 Case 3 Case 2 Case 3 Case 1 Case 2 区间 51~60 61~70 71~80 81~90 91~100 工况 Case 3 Case 1 Case 2 Case 1 Case 3 表 3 三维变形基准机翼的CST值
Table 3 CST values for 3D morphing baseline wings
参数 {c}_{1} {c}_{2} {c}_{3} {c}_{4} {c}_{5} {c}_{6} {c}_{7} 基准值 0.245 0.204 0.197 0.157 0.189 0.150 0.169 参数 {c}_{8} {c}_{9} {c}_{10} {c}_{11} {c}_{12} {c}_{13} {c}_{14} 基准值 –0.117 –0.056 –0.211 –0.025 –0.178 –0.084 –0.128 表 4 三维变形机翼的飞行工况
Table 4 Flight conditions of 3D morphing wing
Case 1 Case 2 Case 3 Ma 0.4 0.45 0.5 \alpha /(°) 4 4 4 Re 9.83×106 1.11×107 1.24×107 表 5 迭代次数与学习率对DBN代理模型的影响(Case 1)
Table 5 Influence of the iteration number and learning rate on the DBN surrogate model (Case 1)
\varsigma_{\mathrm{DBN}} Niter {R}^{2} ENRMS 1 \times 1{0}^{-3} 1\times 1{0}^{3} 0.984 0.016 2\times 1{0}^{3} 0.984 0.016 3\times 1{0}^{3} 0.941 0.060 1 \times 1{0}^{-4} 1\times 1{0}^{3} 0.970 0.030 2\times 1{0}^{3} 0.985 0.015 3\times 1{0}^{3} 0.977 0.023 1 \times 1{0}^{-5} 1\times 1{0}^{3} 0.209 0.787 2\times 1{0}^{3} 0.498 0.500 3\times 1{0}^{3} 0.784 0.215 表 6 DBN与Kriging代理模型的对比
Table 6 Comparison between DBN and Kriging surrogate models
评价指标 模型 工况 Case 1 Case 2 Case 3 {R}^{2} DBN 0.984 0.981 0.983 Kriging 0.747 0.746 0.794 ENRMS DBN 0.016 0.019 0.017 Kriging 0.250 0.251 0.214 表 7 DQN超参数配置
Table 7 DQN hyperparameter configuration
超参数 取值 \varsigma_{\mathrm{DQN}} 0.01 \gamma 0.9 \varepsilon_{{\mathrm{initial}}} 1 \varepsilon_{{\mathrm{final}}} 0.1 Bitch size 32 Exploration 500 Max episode 1000 表 8 DQN和G-CGANs智能体的指标
Table 8 Indicators of DQN and G-CGANs agents
DQN G-CGAN1 G-CGAN2 {I}_{1} 98.0% 97.8% 97.9% {I}_{2} 69.3% 79.2% 69.2% -
[1] CHU L L, LI Q, GU F, et al . Design, modeling, and control of morphing aircraft: A review[J]. Chinese Journal of Aeronautics,2022 ,35 (5 ):220 −246 . doi: 10.1016/j.cja.2021.09.013[2] BARBARINO S, BILGEN O, AJAJ R M, et al . A review of morphing aircraft[J]. Journal of Intelligent Material Systems and Structures,2011 ,22 (9 ):823 −877 . doi: 10.1177/1045389x11414084[3] REICH G, SANDERS B . Introduction to morphing aircraft research[J]. Journal of Aircraft,2007 ,44 (4 ):1059 . doi: 10.2514/1.28287[4] WEISSHAAR T A. Morphing aircraft technology - New shapes for aircraft design[R]. NATO/OTAN, 2006.
[5] BONNEMA K, SMITH S. AFTI/F-111 mission adaptive wing flight research program[C]//4th Flight Test Conference, San Diego, CA. Reston, Virginia: AIAA, 1988: 2118.
[6] PENDLETON E W, BESSETTE D, FIELD P B, et al . Active aeroelastic wing flight research program: technical program and model analytical development[J]. Journal of Aircraft,2000 ,37 (4 ):554 −561 . doi: 10.2514/2.2654[7] KUDVA J N . Overview of the DARPA smart wing project[J]. Journal of Intelligent Material Systems and Structures,2004 ,15 (4 ):261 −267 . doi: 10.1177/1045389x04042796[8] AJAJ R M . Flight dynamics of transport aircraft equipped with flared-hinge folding wingtips[J]. Journal of Aircraft,2020 ,58 (1 ):98 −110 . doi: 10.2514/1.C035940[9] KOTA S, FLICK P, COLLIER F S. Flight testing of FlexFloilTMadaptive compliant trailing edge[C]//54th AIAA Aerospace Sciences Meeting, San Diego, California, USA. Reston, Virginia: AIAA, 2016: 0036.
[10] VALASEK J, TANDALE M D, RONG J . A reinforcement learning - adaptive control architecture for morphing[J]. Journal of Aerospace Computing, Information, and Communication,2005 ,2 (4 ):174 −195 . doi: 10.2514/1.11388[11] GARNIER P, VIQUERAT J, RABAULT J, et al . A review on deep reinforcement learning for fluid mechanics[J]. Computers & Fluids,2021 ,225 :104973 . doi: 10.1016/j.compfluid.2021.104973[12] GONG L G, WANG Q, HU C H, et al . Switching control of morphing aircraft based on Q-learning[J]. Chinese Journal of Aeronautics,2020 ,33 (2 ):672 −687 . doi: 10.1016/j.cja.2019.10.005[13] YAN B B, LI Y, DAI P, et al . Adaptive wing morphing strategy and flight control method of a morphing aircraft based on reinforcement learning[J]. Journal of Northwestern Polytechnical University,2019 ,37 (4 ):656 −663 . doi: 10.1051/jnwpu/20193740656[14] LI R, ZHANG Y, CHEN H . Reinforcement learning method for supercritical airfoil aerodynamic design[J]. Acta Aeronauticaet Astronautica Sinica,2021 ,42 (4 ):523810 . doi: 10.7527/S1000-6893.2020.23810[15] LAMPTON A, NIKSCH A, VALASEK J. Reinforcement learning of morphing airfoils with aerodynamic and structural effects[C]//AIAA Infotech@Aerospace 2007 Conference and Exhibit, Rohnert Park, California. Reston, Virginia: AIAA, 2007: 2805.
[16] MNIH V, KAVUKCUOGLU K, SILVER D, et al . Human-level control through deep reinforcement learning[J]. Nature,2015 ,518 :529 −533 . doi: 10.1038/nature14236[17] LILLICRAP T P, HUNT J J, PRITZEL A, et al. Continuous control with deep reinforcement learning[EB/OL]. (2015)[2024-09-19]. http://arxiv.org/abs/1509.02971
[18] 肖志祥. 复杂流动Navier-Stokes方程数值模拟及湍流模型应用研究[D]. 西安: 西北工业大学, 2003. XIAO Z X. Numerical simulation of navier-stokes equation for complex flow and application of turbulence model[D]. Xi'an: Northwestern Polytechnical University, 2003(in Chinese).
[19] 陈作钢, 沈奇心, 蔡荣泉, 等 . 通量差分分裂上风差分格式求解不可压缩流动的三维Navier-Stokes方程—Wigley数学船型的绕流计算[J]. 船舶,1995 (04 ):8 −16 .CHEN Z G, SHEN Q X, CAI R Q, et al . The flux differential splitting upwind differential format solves the three-dimensional Navier-Stokes equation for incompressible flow, and the Wigley mathematical ship shape is calculated around the ship[J]. Shipping,1995 (04 ):8 −16 (in Chinese).[20] ROE P L . Approximate Riemann solvers, parameter vectors, and difference schemes[J]. Journal of Computational Physics,1981 ,43 (2 ):357 −372 . doi: 10.1016/0021-9991(81)90128-5[21] BAO W C, WANG W Q, CHEN X, et al . Numerical analyses of aeroacoustic characteristics of tiltrotor considering the aerodynamic interaction by the fuselage in hover[J]. Aerospace Science and Technology,2023 ,141 :108558 . doi: 10.1016/j.ast.2023.108558[22] SPALART P, ALLMARAS S. A one-equation turbulence model for aerodynamic flows[C]//30th Aerospace Sciences Meeting and Exhibit, Reno, NV. Reston, Virginia: AIAA, 1992: 439.
[23] LAFLIN K R, KLAUSMEYER S M, ZICKUHR T, et al . Data summary from second AIAA computational fluid dynamics drag prediction workshop[J]. Journal of Aircraft,2005 ,42 (5 ):1165 −1178 . doi: 10.2514/1.10771[24] 李静, 高正红, 黄江涛, 等 . 基于CST参数化方法气动优化设计研究[J]. 空气动力学学报,2012 ,30 (4 ):443 −449 . doi: 10.3969/j.issn.0258-1825.2012.04.004LI J, GAO Z H, HUANG J T, et al . Aerodynamic optimization system based on CST technique[J]. Acta Aerodynamica Sinica,2012 ,30 (4 ):443 −449 (in Chinese). doi: 10.3969/j.issn.0258-1825.2012.04.004[25] KULFAN B. A universal parametric geometry representation method - “CST” [C]//45th AIAA Aerospace Sciences Meeting and Exhibit, Reno, Nevada. Reston, Virginia: AIAA, 2007: 62.
[26] SHEIKHOLESLAMI R, RAZAVI S . Progressive Latin hypercube sampling: An efficient approach for robust sampling-based analysis of environmental models[J]. Environmental Modelling & Software,2017 ,93 :109 −126 . doi: 10.1016/j.envsoft.2017.03.010[27] PINAYA W H L, GADELHA A, DOYLE O M, et al . Using deep belief network modelling to characterize differences in brain morphometry in schizophrenia[J]. Scientific Reports,2016 ,6 :38897 . doi: 10.1038/srep38897[28] 陈仁祥, 杨星, 胡小林, 等 . 深度置信网络迁移学习的行星齿轮箱故障诊断方法[J]. 振动与冲击,2021 ,40 (01 ):127 −133 .CHEN R X, YANG X, HU X L, et al . Planetary gearbox fault diagnosis method based on deep belief network transfer learning[J]. Vibration and Shock,2021 ,40 (01 ):127 −133 (in Chinese).[29] HAO J Y, YANG T P, TANG H Y, et al . Exploration in deep reinforcement learning: from single-agent to multiagent domain[J]. IEEE Transactions on Neural Networks and Learning Systems,2024 ,35 (7 ):8762 −8782 . doi: 10.1109/TNNLS.2023.3236361[30] MIRZA M, OSINDERO S. Conditional generative adversarial nets[EB/OL]. (2014)[2024-09-19]. http://arxiv.org/abs/1411.1784
[31] SU J, SUN G, TAO J . A novel inverse design method for morphing airfoil based on deep reinforcement learning[J]. Aerospace Science and Technology,2024 ,145 :108895 . doi: 10.1016/j.ast.2024.108895