从MAE到Spectral Earth:高光谱基础模型
背景介绍
近年来,随着视觉基础模型在自然图像领域取得突破性进展,一个问题逐渐变得清晰:高光谱遥感是否也可以构建属于自己的“基础模型”?与RGB图像不同,高光谱影像通常包含上百个连续波段,具有更强的物理意义、更高的维度冗余,以及更稀缺的标注数据。传统方法往往依赖小规模数据集进行监督训练,模型泛化能力有限,难以跨区域、跨传感器迁移。因此,高光谱领域迫切需要一种能够利用海量无标签数据进行预训练的统一建模范式。
模型框架
在这一背景下,Masked Autoencoder(MAE)成为高光谱基础模型的重要技术支撑。MAE最早由Meta提出,其核心思想是对输入图像进行大比例随机遮挡,仅使用可见部分进行编码,再通过解码器重建被遮挡内容。与对比学习不同,MAE并不依赖样本之间的相似性约束,而是通过“重建任务”迫使模型理解数据内部结构。当75%以上的patch被遮挡时,模型必须学习全局空间关系与语义组织规律,而不是简单记忆局部纹理特征。这种机制使得MAE在学习结构性表示方面表现出极强的能力。

图1. MAE结构图
在此框架下提出的Spectral Earth,可以被视为高光谱领域迈向基础模型时代的重要尝试。该工作基于Vision Transformer结构,通过MAE自监督预训练方式,在大规模高光谱数据上学习统一表示。其核心目标并非针对单一任务优化,而是构建可迁移的通用特征表达。预训练完成后,模型被用于多个下游遥感任务进行评估,包括土地覆盖分类、作物类型识别以及森林类型制图等,验证了预训练表示在不同场景下的泛化能力。

图2. Spectral Earth预训练/微调流程图
复现结果
在下游评估中,Spectral Earth在多个公开数据集上进行了验证,例如CORINE、CDL、NLCD、EuroCrops、TreeMap、BDForêt以及BNETD。实验结果表明,在Full Fine-Tuning策略下,即解冻所有模型参数进行整体微调,经过MAE预训练的ViT模型在多数任务上优于从零开始训练的模型。这说明自监督预训练确实为高光谱模型提供了更稳定、更具迁移性的结构表达能力。

表1. 复现结果对比
在实际复现MAE(ViT-S版本)并完成下游任务测评的过程中,可以明显感受到预训练带来的收益。首先,模型收敛速度更快,在小样本场景下表现更稳定;其次,在跨区域数据集上性能波动更小,说明其学到的并非特定数据分布特征,而是更通用的光谱结构信息。尤其在作物识别与森林分类任务中,光谱建模能力成为性能提升的关键因素。

