这是目前网络上传的比较火的全国一米分类数据集的原文
<SinoLC-1: the first 1 m resolution national-scale land-cover map of China created with a deep learning framework and open-access data>
此文主要是将作者以前提出的模型用到高分辨率google影像上,获取到全国范围内的数据。
用到的模型来自<Breaking the resolution barrier: A low-to-high network for large scale high-resolution land-cover mapping using low resolution labels>,这篇提出的L2H网络据原文所说有很高的适应噪声样本的能力。
就本博客所关注的SinoLC-1这篇论文,主要从数据进行介绍,关于模型部分L2H网络后续文章会详细描述其网络结构。
对于遥感影像,主要使用google影像数据,其涉及到的影像年份主要分布如下:大多是在2021年数据,且在东部较多。
但是对应的标签数据是用的三个网络数据集:数据集时间是2019,2021年。标签从三种数据集来,首先对其分类体系进行的统一,然后将三种数据源做相交处理,获取的数据作为稳定的标签,其他作为背景。
值得一提的是,另外还使用了osm数据来作为道路的标签,将其叠加上上面稳定的标签对应区域中。
统一不同标签数据源之后的分类体系说明如下:
这里有一个问题是,遥感影像年份差异较大,且和标签年份不一致,如何训练?
作者研究全国范围内的分类类型长时间(选择网络全国分类数据集)变化研究,如下所示,发现大部分土地类型变化不大,所以就这样默认将影像和标签对应了。
作者同时强调,这样标签还是有问题的,有噪声情况,有错误情况,然后引出L2H网络来减少这些情况的影响,这个网络后文补充,模型还是很强的。
到此,训练数据准备完毕,原文是将全国分为如下几个区域进行训练的,分别训练,得到多个模型:
在模型评估环节作者用了两种方式的评估,一是是像元尺度上评估,二是结合三调数据进行评估,
其中一是,将全国按照3*3°划分网络,在每个网络中随机选择800样本,之后去除海洋和国界线外的样本,这时为保证严谨性,测试样本类别比例还和标签中的类别比例的分布进行了对比,两者比较一致,说明测试点选择较为合适,这是有大概11w数据点,利用目视解译进行确定类型。
其二是,结合全国三调数据的不同类型的统计面积和预测的统计面积进行对比,这时需要将三调的类型和分类体系做了统一,这里可以作为自己研究的参考:
至此,核心部分基本结束,其他大多是各种数据精度之间的对比说明,和预测结果不同类型不同区域之间的对比,这里的定量对比大多是和网络上公布的粗标签分类结果进行对比,可能别人标签和论文中年份也不完全一致,没有将L2H网络和其他网络效果进行直接对比,有点可惜了,L2H网络和其他网络的对比后续会解读L2H论文原文,甚为精彩。
值得一提的是,这篇文中提到数据大概有70T,实验进行了10个月之久,工作量很大,其总体精度OA大概73.61,kappa系数0.65左右,精度还不错的。
总结
欢迎点赞,收藏,关注,支持小生,打造一个好的遥感领域知识分享专栏。
同时欢迎私信咨询讨论学习,咨询讨论的方向不限于:地物分类/语义分割(如水体,云,建筑物,耕地,冬小麦等各种地物类型的提取),变化检测,夜光遥感数据处理,目标检测,图像处理(几何矫正,辐射矫正(大气校正),图像去噪等),遥感时空融合,定量遥感(土壤盐渍化/水质参数反演/气溶胶反演/森林参数(生物量,植被覆盖度,植被生产力等)/地表温度/地表反射率等反演)以及高光谱数据处理等领域以及深度学习,机器学习等技术算法讨论,以及相关实验指导/论文指导等多方面。