海洋遥感基于深度学习的海洋水色参数反演模型初探

2021-10-17 07:43:52

一、引言

海洋水色遥感是利用卫星传感器获得的海洋表层水体光谱信息来研究海洋现象或海洋过程的新兴技术。海洋浮游植物的叶绿素、无机悬浮物和有机黄色物质是决定水色的三要素，而水色遥感技术的原理是通过卫星传感器接收的信号来反演水体中影响光学性质的组分浓度，进而探测海洋上层物质成分的组成。所以，水色遥感在海洋初级生产力估算、海洋生态环境监测、海洋动力学研究、海洋渔业开发和管理服务等方面都具有重要意义。

海水根据光学性质的不同可划分为一类水体和二类水体。其中一类水体的光学性质主要由浮游生物及其伴生物决定，典型的一类水体是大洋开阔水面，这类水体主要集中在深海，受到岸边环境和人类活动的影响较小，水体较为稳定。二类水体的光学性质主要由浮游生物、无机悬浮物和有机黄色物质决定，这类水体主要位于近岸、河口等受陆源物质排放影响较为严重的地方，典型水体为海湾和湖泊，受到人为因素影响很多。遥感技术是唯一一种可以在全局视野监测海洋的技术手段，通过遥感监测一类水体和二类水体的水色参数，并结合海面风场、温度场、洋流、海面波浪等数据，可以更好了解海洋并及时感知到海洋的动态变化。

到目前为止，水色遥感主要针对相对简单的一类水体进行研究，取得了较大的进展。由于二类水体的光学特性受几种物质的共同影响，比一类水体更为复杂，因此已有的一类水体反演算法对于二类水体将并不适用。目前，常用的海洋水色要素的反演方法主要包括经验法、半经验法以及分析法，但模型的适用范围均存在一定的时空局限性。

随着卫星遥感数据的多源化和海量化，遥感大数据时代已经到来，如何将多源的海量遥感数据更好地应用于海洋水色参数反演已成为一个研究热点。深度学习是当前机器学习领域内的一项热点技术，近年来在机器视觉、语音识别等领域取得了突破性进展。深度学习的一大优势在于它能有效应实现高维、海量数据的自学习和自分析，可作为遥感大数据分析与挖掘的有效手段，也可适用于海洋水色要素的反演。现阶段，利用深度学习进行水色反演的研究并不多见，目前的研究主要集中在利用传统的人工神经网络进行水色参数反演，使用的是简单的三层或四层网络，因此将深度学习与水色参数反演结合起来是一个值得探索和研究的课题。本文拟采用深度学习的方法，以叶绿素a浓度反演为例，构建海洋水色参数的反演模型。下面先对神经网络和深度学习进行简单介绍。

⒈ 神经网络

人工神经网络（ArtificialNeuralNetwork，ANN），简称神经网络，是众多机器学习算法中比较接近生物神经网络特性的数学模型。人工神经网络通过模拟生物神经网络（大脑）的结构和功能，由大量的节点（或称“神经元”）相互联接构成，可用来对数据之间的复杂关系进行建模。与传统的信息处理方法相比，ANN有许多优点，包括结构可变性、非线性、自学习、自组织等。但其也具有以下局限性：①比较容易过拟合，参数比较难调整，而且需要不少技巧；②训练速度比较慢，在层数比较少的情况下效果并不比其它方法更优。

神经网络在输入层和输出层均包含大量节点，输入层输出层之间是隐含层。神经网络可以根据一组测量数据进行回归分析，因此也可以用来解决水色遥感反演问题，完成水体组分的浓度反演。

⒉ 深度学习

深度学习（DeepLearning，DL）的概念源于人工神经网络的研究，包含多个隐含层的多层感知器就是一种深度学习结构。深度学习通过组合低层特征形成更加抽象的高层属性特征，以实现数据的分布式特征表示。Hinton等人在2006年首先提出了深度学习的概念，之后深度学习在诸多领域取得了巨大成功，已被广泛应用于计算机视觉中的许多困难任务的解决，如图像分析、目标检测和目标识别，表现出很高的性能和优越性。

深度学习与传统神经网络之间有相同的地方也有许多不同。二者均采用分层结构，均包括输入层、隐含层、输出层组成的多层网络，只有相邻层节点之间有连接，同一层以及跨层节点之间无连接，每一层可以看作是一个logistic回归模型。

图1 神经网络模型与深度学习模型对比

为了克服传统神经网络训练中的问题，深度学习采用了与神经网络明显不同的训练机制。在传统神经网络中，采用的是误差后向传播的方式，即采用迭代算法来训练整个网络，随机设定初值，计算当前网络的输出，然后根据当前输出和期望值之间的差值去改变前面各层的参数，直到收敛（整体是一个梯度下降法）。而深度学习整体上是一个layer-wise的训练机制。这是因为，如果采用后向传播机制，对于一个深层网络来讲，残差传播到最前面的层时已经变得非常小，将导致梯度扩散现象的出现。深度学习的训练过程分为两步：第一步是采用自下而上的无监督学习（从底层开始，一层一层往顶层训练）；第二步是自顶向下的监督学习（即通过带标签的数据去训练，误差自顶向下传输，对网络进行微调）。

当前的浅层结构算法在有限样本的情况下，缺乏对复杂函数的表达能力，导致算法的泛化能力有限。而深度学习很好地解决了该问题，可以用较少的参数表示复杂的函数，通过一种深层非线性网络结构进行不断训练学习，从而实现复杂函数的精确表示，同时也能够较好地表示输入数据分布情况，并且具有从少量有限的样本中挖掘到数据集本质特征的能力（图2）。

图2 深度学习逐层表示复杂函数示例图

深度学习的本质是通过建立多隐层的神经网络模型并加入大量训练数据进行训练，来挖掘数据中的本质特征，最终提高并优化模型预测的准确性。因此深度学习的手段就是“深度模型”，目的则是“特征学习”。与传统浅层学习方法相比，深度学习的区别在于：①通过建立5层、6层，甚至10多层的隐层节点去拓深模型结构的深度；②通过逐层特征变换，将初始空间中的样本特征映射到一个新的特征空间，通过突出样本的特征强化特征学习，从而最终降低分类和预测的难度。

与传统的人工规则构造特征方法的区别在于：深度学习通过大数据来学习特征，在挖掘数据内在本质特征等方面具有明显的优势。

二、研究方案

本文利用深度学习对海洋水色参数的反演问题进行了初步研究，提出了总体技术路线，并通过相关实验进行了验证。基于深度学习的海洋水色参数反演的总体技术流程如下图。

图3 研究方案流程图

①建立针对海洋水色要素反演的深度学习模型，并使用训练数据进行模型训练，同时针对实际需要对模型进行优化，选择网络模型的最佳参数；

②对日常获取的海洋水色观测数据进行克里格插值后，持续地输入到模型中，对模型进行增量学习，从而不断地提高模型的准确率，使模型更加可靠；

③日常输入特定区域/特定时间序列下的遥感反射率数据和站点实测数据，基于深度学习模型对海洋水色要素进行反演，形成时间序列下的海洋水色要素空间变化图，为海洋应用提供辅助支撑。

三、实验与分析

⒈ 研究区域概况

本实验研究区为宁波市象山港，象山港位于宁波市东南部，东临太平洋，是一个由东北向西南深入内陆的狭长型、半封闭型海湾和理想的深水避风港。全港纵深60多千米，港深水清，一般水深在10～15米，属于二类水体。象山港的真彩色遥感影像见图4。

图4 象山港遥感影像-环境减灾卫星HJ-1A真彩色

⒉ 实验数据及处理

本实验使用的数据主要包括象山港的HJ-1A多光谱遥感影像数据与同步的站点观测数据，本文以叶绿素a为例进行海洋水色要素的反演。

首先在航天宏图PIE平台中完成对遥感数据的预处理，包括辐射定标、大气校正、几何校正、图像裁剪等。

为了获取增量学习中所需的增量数据，对实测叶绿素a数据进行空间插值，以获取整个象山港叶绿素a的空间分布。空间插值是用已知空间数据对未知空间的数据值进行估计，在大尺度环境要素的分析和表征方面具有明显的优势。常用的空间插值方法有反距离加权法（IDW）、样条函数法（Spline）、克里金方法（Kriging）等，本实验采用的是克里金方法，可为空白点位的变量值提供最优线性无偏估计。

本实验利用站点观测数据和遥感反射率，构建包含多个隐含层的深度学习模型，从而进行水色要素的反演（以叶绿素a浓度为例）。主要流程如下：构建与训练深度学习模型，将波段反射率数据作为输入，叶绿素a浓度数据作为输出，通过样本数据对网络进行训练。为了弥补站点观测数据的不足，采用克里金插值得到的数据作为增量数据，并对其进行空间均匀采样，与原始站点数据一起对深度学习网络进行增量训练。训练完成后的深度网络即可进行叶绿素a浓度的反演，从而得到象山港叶绿素a浓度的空间分布图。

图5 象山港叶绿素a浓度空间分布图（2013年8月1日）

为了更加清晰的分析叶绿素a浓度的空间分布特征，将该专题图叠加到HJ-1A 的真彩色遥感影像上进行展示，见下图。

图6 整体分布图

从图6可以看出，叶绿素a在象山港的分布呈现出明显的空间分异特征，主要表现为在港口的东部入海处，叶绿素浓度明显偏低，同时，随着到海岸距离的增加，叶绿素a的浓度下降越明显，这种梯度效应表现在图7和图8中。

图7 局部放大图一

图7设置了A、B、C、D、E、F六个典型区域，从GoogleEarth的高分辨率影像上可知，A和B附近狭长的海岸带可能为滨海湿地，因此其浮游植物可能较多，因此叶绿素海量较高，表现在图中即明亮的橙黄色狭长区域；C区域和E区域的叶绿素含量较低；D区域沿海多为乡村聚集地，叶绿素a的含量也较高，并且随着到陆地距离的增加而降低；F区域没有滨海湿地，所以叶绿素a的含量并没有出现一个梯度变化。

图8 局部放大图二

如图8所示，整个H区域可能存在大量的滨海湿地，因此叶绿素a的含量在整个象山港最高，但并不能根据此判断为赤潮的发生区域，需要进一步现场调查。

四、结论

本实验根据2013年8月1日象山港水质监测数据，建立了叶绿素a浓度反演的深度神经网络模型，取得了较好的效果。理论研究和实验结果均表明：利用深度学习方法进行海洋水色反演是可行的。深度神经网络技术对于二类水体中各组份之间相互影响的复杂关系有较强的模拟能力，其最大优点是可以直接、有效地利用各波段所携带的海洋水色信息。由于本实验中使用的数据有限，且本实验使用的深层神经网络模型具有区域性和季节性的限制，对模型的区域性影响以及季节影响还有待于新的数据集的检验及进一步研究。

同时，海洋水色遥感在过去几十年中已经取得了长足进展，通过遥感技术得到的海洋水色数据被广泛地应用到气象、渔业、环保等各个领域，取得了较好的社会经济效益。随着海洋的不断开发，其与人类的关系越来越密切，海色遥感也越来越成为地球观测的重要一环。而随着遥感大数据时代的到来，深度学习也将成为海洋水色参数反演研究的一个重要方向，航天宏图将在该领域进一步研究和探索，为推动定量遥感的工程化应用贡献自己的智慧和力量。

【作者简介】刘东升，1984年出生，地图学与地理信息系统专业，北京航天宏图信息技术股份有限公司产品研发总监。多年来带领技术团队研制国产遥感数据处理软件PIE（Pixel Information Expert），并基于PIE软件产品在军民两各领域开展了大量的遥感应用，覆盖气象、海洋、水利、林业、农业、统计、测绘、军事等多个行业。北京航天宏图信息技术股份有限公司（简称“航天宏图”），是一家专业从事卫星(遥感卫星、导航卫星)技术研究与应用的高新技术企业。公司成立于2008年，依托中国航天的雄厚优势，以国产卫星专业服务与行业应用为使命，自主研发PIE（Pixel Information Expert）系列产品，为行业用户提供空间信息应用整体解决方案。