请留言
slide1

全球视野 媒体聚焦

接受央视报道共计15次 党媒、央媒、地方官媒总传播量达0.5亿人次

0101
新闻分类

Clay模型在遥感分割中的应用探讨

2026-04-10

背景介绍

随着遥感影像获取能力不断提升,土地覆盖分类、水体识别、耕地提取、湿地监测、城市不透水面分割等任务对模型的泛化能力提出了更高要求。传统语义分割方法通常依赖较大规模的人工标注数据,并且往往针对单一数据源或单一区域训练,跨地区、跨传感器和跨时相应用时容易出现性能下降。相比之下,基础模型通过在大规模遥感数据上进行预训练,可以先学习更通用的地表表征,再迁移到具体下游任务,因此在遥感分割领域具有明显优势。Clay正是在这一背景下提出的开源地球观测基础模型,官方将其定位为“面向地球的基础模型”,能够接收遥感影像以及位置、时间等信息,并输出具有时空语义的特征表示,用于后续分类、回归、变化检测和分割等任务。

从应用价值看,Clay特别适合标注样本有限但业务需求明确的遥感分割场景。例如在土地利用/覆盖制图中,可将其作为编码器backbone,利用预训练得到的通用特征提升小样本条件下的分割性能;在跨区域迁移任务中,也能减轻“某一区域训练、换一区域失效”的问题。官方文档还指出,Clay支持多种传感器输入,包括Sentinel-2、Landsat、Sentinel-1、NAIP、LINZ和MODIS,这使其在多源遥感应用中具备较强的适配能力。

模型框架

Clay v1.5的整体框架可以概括为“动态嵌入 + 时空位置编码 + MAE主干 + 教师约束”。首先,模型通过动态嵌入模块根据输入影像的波段数和波长信息生成 patch 表征,从而支持不同传感器、不同波段组合的输入。其次,模型引入位置编码,将地面分辨率(GSD)、经纬度以及时间信息共同编码进特征表示中,使模型不仅“看见”光谱内容,也能够理解影像的空间位置与时间属性。

在主干部分,Clay采用基于Vision Transformer的Masked Autoencoder结构,对被遮蔽的输入块进行重建。官方说明中,重建损失约占总损失的95%,主要负责学习遥感数据的光谱—空间结构;另外约5%的损失来自教师网络提供的表征约束,v1.5使用DINOv2作为teacher,以增强嵌入空间的语义表达能力。就模型规模而言,Clay v1.5总参数量约为6.32 亿,其中编码器约3.11亿参数、解码器约1500万参数、教师网络约 3.04 亿参数。官方还披露,该版本模型训练于约7000万个全球分布的遥感chip之上,说明其预训练基础较为扎实。

图1. Clay模型

在分割任务中,Clay并不是直接输出语义分割图,而更适合作为特征提取 backbone使用。通常做法是保留其编码器,外挂一个轻量级分割解码头,例如 SegFormer风格解码器、FPN或U-Net解码器,通过多层特征融合恢复空间细节,最终输出像素级分类结果。这种“基础模型 + 任务头”的方式兼顾了预训练表示能力与下游任务适配能力,也更符合遥感分割对边界和多尺度细节的要求。

复现结果

该实验在 Clay 编码器后接入了一个类似SegFormer的解码器,利用中间层特征融合来预测分割结果。实验使用了约2000个随机样本进行训练和验证,在约30个epoch的训练后,验证集取得了weighted IoU 0.869的结果。

图2. 实验数据

对于土地覆盖制图、水体分割、林地与低植被识别、道路与不透水面提取等任务,Clay 都可以作为统一的特征 backbone 使用。不过也应看到,Clay 的预训练目标本质上仍以表征学习和重建为主,因此在边界精细刻画方面,仍需要借助合适的分割解码器、多尺度特征融合以及后处理策略,才能在工程应用中获得更高质量的结果。