dates: 2021-10-20 20:54:45 +0800
tags:
- 论文总结
1. A comparative study of fruit detection and counting methods for yield mapping in apple orchards (IF=3.581, 2019)
1.1 介绍
介绍了精准农业的发展和农业自动化的进展,然后介绍了该研究在水果检测和计数上的改进与最新的方法对比,最后展示了论文的结构和框架。
1.2 实验与结果
在本节中,我们将对水果的每一种方法进行评估定量检测和计数。此外,我们给出了一些定性的见解,并分析了一些常见的故障案例。
- 训练步骤:GMM、U‐Net、FRCNN。
- 我们使用三个指标进行评估:精确性、召回率和F1测量。
- 比较了GMM、U‐Net、FRCNN模型的计算时间。
1.3 定性结果
在本节中,我们将从三个数据集中展示一些定性的例子。在图15中,我们分别对来自这些数据集的样本图像演示了三种检测方法的性能。在数据集4(正面)中,仅靠颜色特征不足以检测出所有苹果,导致用户监督的GMM出现问题。数据集1(前面)包含了许多黄叶子,对U‐Net和FRCNN都造成了问题。在数据集3(后)上,GMM和U‐Net都达到了较高的精度和召回率,但FRCNN的精度仍然较差。
1.4 失败案例
在这一节中,作者给出了一些的例子。 更详细地分析最常见的故障案例并提供未来如何克服这些障碍的见解。
1.4.1 检测
检测阶段的一些常见故障案例显示在图17.三种方法都有类似的错误原因,即对象实例,FP(假阳性)检测和FN(假阴性)的分组。除这些情况外,基于深度学习的方法还将单个对象拆分为多个检测。对于U-Net和GMM检测方法,在计数阶段,附加网络提供了在约85%的情况下拒绝FP的方法。 FRCNN方法不包含其他用于计数的网络。但是,可以将FRCNN更改为将实例分类为簇数,而不是水果/背景。这样的方法将解决分组实例的问题,并且可以拒绝FP(假阳性)。但是,这样做并非易事。
未来的研究将不得不确定如何合并重叠预测并建立适当的训练程序。 FN(假阴性)问题是一个更具挑战性的问题。它在所有三种检测方法中均发生,但原因不同。在基于GMM的检测方法中,用户会事先选择要过度分割图像的簇数。如果此阈值太低,则模型缺乏在不同对象类别之间进行歧义消除的代表权。如果阈值太高,则开发训练模型将变得乏味,因为需要许多颜色群集来捕获所有水果。在某些情况下,水果可能根本无法通过颜色区分。
在U-Net和FRCNN的情况下,这种现象部分是由于缺乏训练数据。这两种方法的FP(假阳性)数均在数据集1上最高。该数据集中的叶子于9月下旬获取,叶片变黄。颜色的变化会影响网络的性能,原因是训练集中缺少类似的示例。 FRCNN方法中使用FN的另一个原因是使用NMS。由于NMS使用静态阈值,因此网络倾向于过滤掉重叠的TP(真阳性)。尽管NMS是拒绝重叠实例的事实上的标准算法,但是当我们尝试检测时,它会损害性能。
1.4.2 计数
基于深度学习的计数方法虽然总体上达到了90.5%的准确性,但仍包含一些失败案例。与我们在Häni等人的实验相比。 (2018),我们从测试集中移除了苹果掉在地上的图像。由于我们使用从3D重建获得的分割蒙版来去除地面或背景树上的苹果,因此必须去除此类水果。即使进行了这些更改并使用了更深的网络,我们也无法消除所有故障情况。图18显示,当部分可见水果时,经常会发生错误。仅当检测方法返回仅显示完整结果的补丁时,才能避免此问题。由于水果通常被遮挡,因此这种情况是不现实的。
在图18b中可以观察到第二个问题。在这里,标签标注有误(应该是两个而不是三个)。另外,该图像中的水果有大量重叠。注释这些图像时,各个标签通常不一致。人为标记错误存在于大多数数据集中,尤其是在带注释的场景混乱的情况下。为了避免它们,我们由多个人对数据集进行注释,然后选择中位数注释。但是,这极大地增加了人工标记的工作量。
1.5 结论与未来工作
本文提出了一种新的水果检测与计数方法方法和评价他们的任务,产量估计。文献中一个明显的挑战是,对不同的水果检测和计数方法进行了比较研究。这项研究是第一次在相同的数据集上进行这样的比较。在水果检测方面,基于GMM的半监督聚类技术在7个数据集中有6个获得了最高的F1分数。我们基于U - Net的分割方法表现良好,但重新实现的FRCNN精度较差。对于水果计数,CNN方法对于单图像数据集和产量估计都更加准确。此外,结合我们近期的工作(Dong et al., 2018;Roy, Dong, et al., 2018),我们提出了一个完整的产量估计系统。经典分割方法与基于CNN的计数方法相结合,与收获的ground truth相比,准确率在95.56% ~ 97.83%之间。Roy、Kislay等人(2018)提出的端到端管道技术在相同数据集上的产量精度在91.98%至94.81%之间。我们的研究结果为深度学习方法在性能方面获得了多少收益提供了定量的见解。对于水果计数,神经网络提供了更准确和鲁棒的结果。当水果可通过颜色进行区分时,经评估的经典检测方法优于U‐Net和FRCNN两种方法。当测试数据集与训练数据集相似时,U‐Net方法表现非常好(例如,U‐Net在数据集4[前端]上)。然而,对于水果检测,仍然存在许多挑战。基于有限的训练数据,我们很难对U网和FRCNN方法的普遍性提出决定性的见解。我们计划在未来增加训练数据的大小,以便进一步的研究可以对这个问题有更深入的了解。获取更多的数据需要在图像中标注水果的边界。然而,由熟练工人来贴标签是费时且昂贵的。在未来,我们计划探索使用合成数据作为训练数据,消除艰苦的标注过程。这种方法的优点是标签很容易获得。缺点是,单纯地根据合成数据进行训练的模型通常不能推广到真实数据。
2.Wheat crop yield prediction using new activation functions in neural network (IF=4.774,2020)
本研究主要基于多层感知器(MLP)神经网络数据挖掘技术对地区小麦作物产量进行预测。
2.1 方法
本文的研究工作主要集中在对原始算法进行改进的MLP分类技术,用于区域水平上的小麦产量预测。在提出的研究工作中,小麦数据集用于预测产量,并将开发的算法结果值与WEKA工具得出的值进行比较。本文主要研究数据挖掘中的神经网络分类技术。
3. Futures price prediction of agricultural products based on machine learning (IF=4.774,2020)
农产品期货价格的预测对市场经济的稳定具有重要影响。为了提高农产品期货价格预测的准确性,本研究基于机器学习算法,主要在分析影响农产品期货价格的基本因素的基础上,采用机器学习方法预测期货价格。此外,在本研究中,使用小波分析方法对数据进行平滑处理,然后建立一个模型来处理信号分解后的分层信息。此外,本研究通过案例进行模型有效性研究,以绘制比较统计图来分析模型预测数据的准确性。
4. Assessing the soil quality of Bansloi river basin, eastern India using soilquality indices (SQIs) and Random Forest machine learning technique (IF=4.229, 2020)
摘要: 本研究以评价土壤质量为基本目标,收集一系列土壤质量指标,并对班斯莱的结果进行验证印度东部的一个流域(面积1860平方公里)进行土壤质量评价。为了接近土壤质量,对296个地表进行了实地调查样品(0-20cm)在实验室环境和12个土壤质量指标(即-N、P、K、pH、EC、OC)中进行测试,Fe、Cu、Mn、Zn、B和S)被纳入土壤质量指数(SQIs)。简单加法(SQISA),基于PCA SQI估计采用了基于SQIPCA和相关(SQIr)的加权指数法。SQIs结果为
然后与主要农作物(水稻、小麦、芥菜、玉米等)产量相关联进行验证他们的功能关系。数据稀疏环境下土壤质量的空间预测和制图是另一种方法研究目的。为此,采用随机森林法(RF)计算预测土壤质量指数(PSOIs)。三个错误标准(即R2;ME和RMSE)被用来评价它们的相对误差可靠性。主成分分析结果表明,除N、P、K外,微量元素Fe、Mn对土壤有显著的控制作用质量。结果还表明,SQIr和PSQIr在相关性上相对更为一致农作物产量。在PSQIr中,PSQIr计算的土壤质量空间预测误差最小。总体结果也证实了RF对SQI预测的最佳性能,PSQIr是最有效的预测未采样地点土壤质量的工具。然而,在概括之前,作者建议PSQIr在其他地区的全面验证和长期的现场试验。
4.1 材料与方法
4.1.1 选地的介绍
目前的研究是在班斯里河流域(面积约1859.11 km2;海拔581 m.),从恒河延伸东部为洪泛平原,西部为Chotonagpur高原高地拉赫平原地区(纬度24°26ˊ55˝N至24°47ˊ44˝N和经度87°13ˊ51˝E至88°03ˊ6˝E)(图1)。研究区域扩大超过3个主要的地理分区(高原边缘,拉赫平原和恒河漫滩),包括3种地貌单元(构造、剥蚀、河流和人为),7个主要土壤类型,5种土壤质地(粘土、粘壤土、壤土、砂质和砂质壤土)和13个地质单元。该地区的主要经济活动是农业(约59.02%)种植强度,总种植面积(GCA)和净播种面积(NSA)分别约为184%,112%和61%。采集了296个土壤样本。
4.1.2 测量土壤质量指数(SQI)
土壤功能很难量化,通常可以测量通过评估土壤质量指标(Andrews等,2004)。在当前的研究中,农作物的生产力已经领先在土壤功能和表层土壤(0–20厘米水平)中的重要性
基于简单添加,基于PCA和相关性的12种土壤质量指标,使用12种土壤质量指标评估了表层土壤质量(0-20厘米)。索引(SQI)。使用克里格插值法在GIS环境中计算SQI的空间分布。
4.1.3 简单加性指数
SQISA是简单的土壤附加质量指数,Si是土壤指标得分,n是土壤指标的数量。指数值越高土壤的质量,反之亦然。
4.1.4 基于PCA的加权指数
该基于统计的模型用于使用主体估计SQI成分分析(PCA),以最大程度地减少整个数据集由大量相互关联的变量组成。
在这种情况下,考虑PCA的结果,指标(即LSF的指标)已加权。每个指标的权重分配基于所选指标在确定中的相对重要性土壤功能。
4.1.5 基于相关性的SQIs验证
我们的目的是验证和通过将SQIs与作物相关来验证其相对可信度产量。在这个方向上,我们将各土壤质量指数与主要作物的产量。皮尔逊积差相关采用系数进行评价,并在SPSS 17.0中进行计算。
4.1.6 空间预测框架:土壤质量预测和绘图随机森林(RF)
初步分析了11个土地质量和生态载体的空间协变量作为候选的辅助(或预测)变量。这些土地质量和生态变量由四个地形属性组成(坡度、海拔、离河道最近的距离、地质)三种水文载体(降雨、地表径流和地下水)土壤两种景观属性(土壤质地和潜在土壤流失)和两个农业经济变量(作物轮作和肥料消耗)。这些土地质量和生态变量及其各自的来源。
4.1.7 搜集作物产量和其他相关数据库构成样本
收集了不同作物(阿曼水稻,芥菜,小麦,玉米,Musur,黄麻)资料,种植模式,肥料消耗、信息。每个样品共296台耕作机对收集土壤样品的地点进行了调查。
4.2 结果与讨论
4.2.1 描述性统计
296份土壤样品进行了12个土壤质量指标(土壤中的元素如氮磷钾等)进行分析。
4.2.2 主成分分析
对296份土壤样品的12个土壤指标进行的PCA分析,选择了具有最高负荷值的PC1,PC2,PC3和PC4中的OC,EC,S和pH等5种土壤特性作为土壤质量的指标。
4.2.1 相关性分析
对296份土壤样品的12个元素进行了相关性分析。
4.2.6 土地质量和生态变量的贡献分析
如前所述,在本研究中,使用RF模型将11种土地质量和生态矢量纳入了土壤质量指标的空间预测中。这些土地质量和生态变量包括四个地形属性(坡度,海拔,河道,地质),三个水文气候矢量(降雨,地表径流和地下水深度),两个土壤景观属性(土壤质地和潜在的土壤流失)和两个农业经济变量(作物轮作和肥料消耗)。平均降低精度在RF模型已计算出代表各个土地质量和生态变量的贡献或重要性的图10。但是,影响每种土壤质量的土壤质量的大小和生态变量是不相等的,并反映出来。平均而言,RF模型的准确性(MDA)下降(图10)。在农民实践的预测变量的作物轮作中,潜在的地质和土壤质地对土壤质量的空间预测影响很小。
4.3 结论
- 介绍了预测土壤指数和实际土壤指数存在一定正相关性,
- 且在三种土壤质量评价方法(SQISA、SQIPCA、SQIr)和预测土壤质量(PSQISA、PSQIPCA、PSQIr)中,SQIr和PSQIr与主产的相关性较大。因此,就各指标的绩效而言,基于相关性的评分方法是最优的。
- 基于R2、ME、RMSE的三个误差准则表明,基于相关的PSQI在空间土壤质量预测中的误差最小。
- 下流域(等值线以下40 m)对应于恒河洪泛平原该地区(覆盖研究区域的43%)的土壤质量更好,其次是中部集水区(占研究区域40%至100 m范围内的研究区域的32%),该地区属于红土带拉尔平原地区。而较低的土壤质量含量集中在属于Chotanagpur高原边缘地区的西部上游集水区(研究面积的25%,高于100 m.contur)。但是,就土地利用,土地利用变化和土地类别而言,土壤质量主张,以农业耕地为主的地区劣质土壤的比例要比稀疏的植被土地高。可以通过合理的土地使用实践来恢复农业耕地占主导地位地区土壤质量的这种退化,例如在侵蚀土地上自然演替,作物轮作和其他农艺措施。
[个人总结] 摘要言简意赅,把主要内容说的很清楚,但最后的结论没有提到深度学习模型预测效果,而且结论第一点和第二点有些重复。且第四点在全文讨论的地方篇幅较大,全文重点不明显。采用了相关性分析、PCA分析、随机森林方法较为古老。
5.See the forest and the trees: Effective machine and deep learning algorithms for wood filtering and tree species classification from terrestrial laser scanning(IF=,7.310,2020)
摘要: 在单树层次上进行物种分类需要精细尺度的特征,这些特征可以通过地面激光扫描(TLS)点云得到。通用的物种分类框架还需要将季节性的树叶变化与落叶的物种分离开来,对此适用木材过滤。对于木材过滤和物种分类,不同的机器学习和深度学习模型是可行的。我们调查了9种物种的13个机器学习和深度学习分类器,以及15个用于从TLS绘图扫描中过滤木点的分类器。每个分类器均使用平均交会精度(mIoU),训练稳定性和时间成本的标准进行评估。平均而言,就木材和物种分类而言,深度学习分类器的性能分别比机器学习分类器高出10%和5%。 PointNet ++提供了最佳的物种分类器,具有最高的mIoU(0.906),稳定性和适度的时间成本。在木材分类器中,UNet达到了最高mIoU(0.839),而建议使用ResNet-50进行快速试验和错误测试。在所有分类中,还分析了输入分辨率,属性和特征的因素。使用PointNet ++对物种分类的热点区域进行了可视化,以指示AI如何解释物种特征。
5.1 前言
鉴于种类和木材分类器的种类繁多,需要进行基准测试以表明和解释:
•哪种机器学习和深度学习模型是最佳的,它们的准确性和时间成本是什么?
•哪种空间比例(或分辨率)是最佳的,尤其是对于木材过滤
•哪些点云特征对木材和物种很重要分类;
•通过深度学习了解哪些物种特征以区分种类。
5.2 方法
在这项研究中,为基准测试选择了一组分类器,物种和样地扫描,旨在提供实用的建议并确定森林清单应用和模型开发所面临的挑战。
调查了15个木质/非木质分类器在这项研究中进行了评估,包括(1)九种深度学习分类器:FCNVGG,ResNet-50,ResNet-152,Inception-ResNet-v2,UNet,DenseNet,PSPNet,Superpoint Graph和PointCNN,以及(2)六个成熟的机器学习分类器:K最近邻(KNN),支持向量机(SVM),自适应增强(AdaBoost),随机森林(RF),朴素贝叶斯NaïveBayes(NB)和线性判别分析(LDA)。
对13个监督分类器进行了调查物种分类的基准测试目的,包括(1)七个深度学习分类器:PointNet,PointNet ++,KdNet,VGG,ResNet-50,ResNet-152,Inception-ResNet-v2,以及(2)六个机器学习分类器:KNN,SVM ,AdaBoost,RF,NB,LDA。分类单元是从情节扫描中提取的每棵树,其中,按照分类器的例程,将树点云的3D坐标输入到深度学习分类器中,并将树点云的结构特征输入到机器学习分类器中输入格式。请注意,木材和物种分类器的选择并不完全相同,因为选择的模型针对分类或语义分割目的进行了优化。例如,PointNet ++的输入大小受到其网络配置的限制,但由于附加的点云分解层,升级版本的Superpoint Graph可以进行大规模数据输入。因此,超级点图适用于海量数据,而PointNet ++适用于单个树数据,而不会过度解释数据。
5.2.3 数据准备
数据来自加拿大和芬兰。为了进行物种分类,选择了9个优势物种,为此获得了16种单特异性(或近单特异性)样地扫描。
5.2.4 木材/非木材分类算法
在用于木材/非木材分类的45个点云剪辑中,34个片段被用作我们的训练样本,其余11个被视为准确性评估目的的测试样本。 将点云转换为用于深度学习和机器学习分类器的不同单元。 机器学习分类器(KNN,SVM,AdaBoost,RF,NB和LDA)将每个点视为分类单位。 对于每个点,使用CloudCompare软件(表2中列出的定义)提取了总共56个特征(也称为预测变量)。
5.2.5 物种的分类算法
采用FCN-VGG分类器作为我们的基线木材过滤器和把它应用到整个16个绘图扫描中。由此产生的771株单株点云,70%被选中进行训练13种分类,30%用于测试目的。因为树木的数量在不同物种之间有很大的差异采用分层随机抽样方案,最终培训样本量为532,测试样本量为239。(样本数量少,且没有验证集。)
5.3 结论
5.3.1 木材/非木材分类器基准
综述了木材/非木材分类的定量评价方法。这项研究中,我们考虑高测试精度,短收敛时间(快速性),小收敛标准差(稳定性)作为一个好的分类器的标准。在实验的限制条件下,很明显UNet是最佳的准确性(0.839)和稳定性(0.002),但有一些牺牲速度(314分钟)。其中ResNet-50速度最快(89分钟)基于体素的分类器具有竞争性的准确性(0.825)。另一个对比评估结果的有趣例子,标准是具有较高mIoU的Superpoint图分类器(0.829),但精度变异最高(0.028)。mIoUs和高于任何机器学习分类器(by)平均10%)。在机器学习分类器中,RF和AdaBoost的mIoUs最高,分别为0.791和0.789与其他机器学习方法相比,它们的模型复杂度相对较高学习分类器。在本次比较中,支持向量机的mIoU值最低(0.751),是所有机器中训练时间最长的(219分钟)学习分类器(不支持向量机平均49.1分钟在56个木材特征中,线性和平面特征更为重要。在用于物种分类的32个特征中,基于长度的特征(例如树高,茎长和垂直度)是最重要的。次要的是基于宽度的特征,例如冠的大小和茎的DBH。
对于木材分类而言,机器学习分类器的准确性通常不如深度学习,而其准确性与物种分类的深度学习相比更具竞争力。在机器学习分类器中,随机森林和AdaBoost一直是最准确的,而SVM分类的准确性对样本量敏感。机器学习分类器的训练时间通常短于深度学习学习。但是,考虑到数据预处理的总时间成本和3D中的特征提取,总体而言,深度学习分类器更省时。而且,分类精度不仅受选择分类器,还可以通过其他设置(例如数据分辨率)进行选择。
[个人总结] 论文通过13种传统机器学习方法和深度学习方法对9个树种,56个树木特征,一共532个样本进行分类和评价分类效果。文章的样本数目较少,且缺乏验证集。在精度方面也没有考虑到假阳性和真阴性。
6. Precision fertilization method of field crops based on the Wavelet-BP neural network in China (IF=7.246,2019)
在农业生产过程中,大田作物的产量受多种因素相互作用的影响。土壤养分,施肥和产量之间的这种关系非常复杂。它具有很强的非线性和黑匣子特征,并且很难用传统的分析方法进行量化。提出了一种基于小波-BP神经网络的玉米精准施肥方法。首先,选择现有的“ 3414”实验数据并进行插值作为建模的执行数据。然后,通过小波分解和重构方法,计算出低频的一般条件和高频细节。之后,建立了小波BP神经网络。小波分析后,针对产量的每个组成部分建立了三个不同的BP神经子网络,并对每个子网络的输出求和以获得预测的玉米产量。结果表明,将小波分析与BP神经网络相结合的模型在准确性和稳定性方面均优于传统的BP神经网络,支持向量机(SVM)和随机森林,这表明该方法的可行性。最后,根据非线性规划计算出达到最大产量或最大利润的最佳肥料量。所提出的小波-BP神经网络方法为精确施肥研究提供了新技术,丰富了现有施肥系统。基于小波-BP神经网络的精准施肥技术的应用具有指导和增加玉米产量,降低生产成本和农业污染的重要现实意义。
6.1 方法
6. 1.1数据采集
“3414”试验是我国广泛采用的研究施肥效果的大田试验方案。在“3414”试验中,假设只有6个因素影响作物产量:土壤氮、磷、钾浓度(缩写为CN、CP、CK)和氮、磷、钾肥料投入(缩写为FN、FP、FK)。在“3414”试验中,3,4,14分别表示3个性状(N、P、K)、4个施肥量水平和14个处理。在4个施肥水平中,0级为不施肥,2级为局部最优施肥率的近似值,1级= 2级水平的’0:5,3级= 2级水平的’1.5(该水平为过量施肥)。
本文建模使用的数据来源于中国玉树市(Yu et al., 2010)的10个玉米大田试验,玉树市是典型的黑土区,2007年在各大田进行了“3414’试验。所有的田地都有一致的条件,比如土壤
类型、作物品种和气候。各试验田的养分浓度见表1。“3414”实验方案见表2。每一处理的产量表3显示了每个字段。本试验中,FN、FP、FK的最佳施用量分别为180 kg/hm2、75 kg/hm2、75 kg/hm2,施用量比为12:5:5。
6.1.2 数据处理
先验证了氮肥对产量的影响。
6.1.3 数据插补
本文建立的模型仅基于氮肥和玉米产量的影响。 但是,“ 3414”实验中有14种处理方式,在此期间仅使用四组(T2,T3,T6和T11)将氮作为一个变量进行处理。 因此,在10个实验领域中只能使用40组数据(表4)。 尽管这些数据基本上可以反映出氮肥施用对玉米产量的影响,但数据量不足以进行网络训练和小波分析。(为什么只是建立氮肥和玉米产量模型?那为何还要其他肥料配比?)
6.1.4 小波基的选择
在本文中,收益是模型的输出。 在实际测量农作物产量的过程中,由于随机因素的影响,测量值将偏离真实值。例如收获和干燥期间农作物颗粒的流失,标准水分含量不一致以及其他生产者特定的因素。 为了提高模型的预测精度,将产量进行小波分析,以获得反映原始信号主要信息的低频信息和反映信号细节的高频信息的原始信号。
6.1.5 分解规模的选择
使用db5作为小波基础进行玉米单产数据的小波分析(当
分解规模分别选择为1、2、3或4),原始序列为与低频轮廓部分caN的比较。
6.1.6 玉米单产的小波分析
6.2 小波BP神经网络的设计
产量是在各种因素(包括土壤养分,肥料水平和环境)的影响下发生的特征量。 两者之间存在复杂的非线性关系
这些因素和产量。 BP神经网络是基于误差反向传播的前向网络,具有非常强的非线性映射能力。 近年来,小波分析在应用过程中体现了非常强大的数据分析和处理能力。 在本节中,作者尝试将小波分析引入BP神经网络,并将结合小波分析的模型与传统BP神经网络进行比较。
6.2.1 传统BP神经网络的结构
通常,传统的BP神经网络是多层的,除了输入和输出层外,还具有几个隐藏层。 包含隐藏层的传统BP神经网络的结构如图9所示。
6.3 结果与讨论
权重是迭代确定的,初始值在BP神经网络中是随机的,这导致了网络的不可复制性;换句话说,使用相同的性能数据重复运行后的结果总是不同的。小波BP神经网络在Matlab 2018b中进行,根据第3.1节中的经验公式将隐藏网络层设置为10。为了消除意外因素并获得更好的预测模型,网络执行了20次。
6.3.1 执行过程的结果
可以通过诸如均方根误差,运行时间和拟合效果等因素来评估性能结果。
6.3.2 均方根误差(RMSE)
首先,本文使用Field 2-10的实验数据作为小波BP神经网络的执行数据。在执行过程中,通过Matlab将样本自动分为三个部分:训练,验证和测试。性能完成后,计算均方根误差(RMSE),以测量小波BP神经网络的训练,验证和测试的输出值与观测值之间的偏差(Chai和Draxler, 2014;魏杰和颜敏,2018)。
6.3.3 时间对比
对于每个训练性能,传统的BP神经网络的运行时间是~ 0.2 s, wavelet-BP神经网络稍长一些的(~ 0.4 s)。
6.3.4 拟合效果对比
从2-10中总共获取了144组样本,其中112个用作训练集,16个用作验证集,16个用作测试集。 (比例基本为8:1:1;按一般规定而言比例应为6:2:2更为合理,且样本数量太少)对于每组样本,可以获得玉米产量的模拟值作为小波BP神经网络的输出。 如图13所示,线性拟合从传统BP神经网络和小波BP神经网络获得的模拟值,以与观测值进行比较。 红色虚线表示输出的拟合曲线,黑色实线表示观察到的拟合曲线。 不同颜色的标记用于分割样本的训练集,验证集和测试集 (拟合效果如下)。
小波BP神经网络比传统神经网络的拟合效果更好。但我们也可以从原图可以看出,验证集的效果其实和传统BP神经网络拟合效果是差不多的。
然后,做了一个传统BP神经网络和小波BP神经网络的模拟输出与观测值之间的相关系数。如图所示,训练过程,验证过程,测试过程以及传统BP神经网络的整体性能约为0.84224,分别为0.99908、0.99994和0.86087。通常,当相关系数高于0.9,网络的拟合性能被认为是合格的。整体相关传统BP神经网络的系数为0.86087,低于0.9。这表明网络的拟合效果不理想,难以应用于实际生产。小波-BP神经网络的相应相关系数分别为0.997650.99593、0.99281和0.9977(均高于0.9),表明该语言的学习能力结合小波分析的BP神经网络比传统BP神经网络更强大网路。
6.3.5 预测过程的结果
除了BP神经网络外,支持向量机(SVM)和随机森林也是解决非线性问题的强大工具。为了进一步验证本文建立的小波-BP神经网络的预测效果,将小波-BP神经网络获得的Field S1的预测结果与传统BP神经网络,SVM和随机森林获得的预测结果进行了比较。本节介绍了评估预测效果的准确性和稳定性。
- 准确性
如图所示,通过传统BP神经网络,SVM和随机森林获得的预测值的总体趋势与BP的大致趋势相同。
- 稳定性
- 优化施肥以最大化利润
根据非线性规划,预测了各田最大利润下的最佳肥料施用量。
6.4 结论
根据小波分析的特点,提出了一种基于小波-BP神经网络的优化方法,并将其应用于玉米精准施肥的实际问题。以下是本文的主要结论:
(1)本文通过数据插值获得足够的训练样本,避免了BP网络在训练过程中容易陷入最小值的缺点。
(2)通过小波多分辨率分析对原始数据进行处理,建立了小波-BP神经网络,分别预测了低频的一般情况和高频的细节,从而避免了一些高频的问题频率突变数据直接用于训练原始数据时无法很好地学习。
(3)通过小波-BP神经网络对实验场1和其他场的产量进行了预测,取得了良好的预测结果。这表明基于BP神经网络
小波分析具有更好的泛化性能和稳定性。
[个人总结] 本研究的样本数据量不够大,模型的实际效果改进强度不大,但逻辑、思路很好。
7. A self-adaptive classification method for plant disease detection using GMDH-Logistic model (IF=2.71, 2019)
摘要: 农业在经济发展中占有重要地位,是经济发展的重要收入来源之一 人类在许多国家。然而,农民面临着许多挑战,包括植物的不同病害,因为植物中有疾病是很自然的。预防和治疗疾病的首要前提是正确在植物生长过程中对病害进行识别和判断,从而进一步掌握病害的发展规律。就…而言事实上,一种自动化的植物病害检测技术更有利于对植物的监测,而植物的叶片则是作为植物病害的第一个检测源,病害的检测可从叶片上出现的症状中进行。因此, 提出了一种植物叶病自动检测和分类的新方法。基于图像在此基础上,进行了特征工程分析,建立了预测模型的指标体系。然后将选定的特征输入GMDH-Logistic模型,并进行了比较实验。结果说明该方法是有效的,可以鉴别出该植物是否是病株。
1. 方法
- 图片预处理
- 图片降噪: 采用了中值滤波和高斯滤波。在此基础上,采用了梯度逆加权方法并将其与中值方法进行比较。对于离散图像,区域中间的灰度变化小于区域边的灰度变化,并且边缘处的梯度的绝对值高于区域内的梯度的绝对值。
- 图像分割
2. 结论
本文通过GIWA滤波,图像分割,灰度共现来提取叶片图像的关键特征。本文提取了15个特征,包括Pct,Num,Contrast1等,在此基础上,建立了模型预测指标体系。此外,根据特征分析的结果,介绍了自组织数据挖掘技术在图像识别领域的应用,并提出了一种新的GMDH-Logistic方法,用于植物叶片疾病的自动检测和分类。关键特征被自动选择以进入模型,并且所确定的变量通常是可解释的,从而克服了其他算法的缺点。进行了相关的对比实验,并且在复杂的背景条件下,尽管最新的方法(例如CNN)具有自动特征提取的能力,但基于特征工程的GMDH-Logistic方法提出了显着的分类效果,并且适用于植物病害图像的分类。
8. A comparative study of prediction and classification models on NCDC weather data (EI,2020)
在我们的工作中,为了检验机器学习模型是否能够准确预测国家气候数据中心(NCDC)的天气状况,我们将新出现的模型与传统的气象模型进行了比较。本文探讨了一套最常用的机器学习技术,以生成长时间的稳健天气预报模型。此外,还考虑了所有模型参数的组合进行了仿真,并给出了每种方法在10倍交叉验证过程中的性能结果。分类器的实验结果表明,决策树CART、XGBoost和AdaBoost模型与其他方法相比具有更好的分类精度,对于回归任务,线性回归方法在R2度量上表现更好。
8.1 数据集
网络来源提供的NCDC气象数据被认为是开展天气预报相关研究工作的契机[6,7]。因此,我们从2000年到2017年的NCDC数据集中获取印度气象站的每日天气变量。利用气象变量的历史日数据集对模型进行训练,得到以下参数:温度(TEMP)、平均露点(DEWP)、平均站压(STP)、能见度(VISIB)、平均风速(WDSP)、最大持续风速(MXSPD)、最高温度(MAX)、最低温度(MIN)、降水(PRCP)。数据集被分成两组:前16年的数据用于训练集,后17年的数据用于测试集。为了达到这项工作的目的,我们选择了9列作为输入数据用于分类和预测模型。表1展示了一个2000年1月的行数据示例。在天气分类任务中,整个数据集包含五个类标签,即sunny、mild、hot、heavy snow和very hot。整个数据的维数为(439391,9),分为训练和测试数据(训练为307573,测试为131818)。
8.2 讨论
在这项工作中,我们比较不同的机器学习方法分类和预测高维天气数据集。决策树CART、梯度推进、KNN、线性回归、lasso、ridge、MLP、深度学习、支持向量机和随机等技术森林被用于分类和预测任务。结果表明,决策树CART、XGB和AdaBoost三种方法均有效在测试数据集上,在分类精度、精确度、召回率、F1、ROC-AUC、r2和MSE方面都优于其他机器学习方法。但是,深度学习模型的准确率显著提高,但与其他方法的差异不太显著。深度学习模型具有良好的鲁棒性和通过优化权值、偏差和学习率等参数来减少误差的能力。另一方面,其他方法为参数考虑预定义的一组值。与其他方法相比,mlp和深度学习模型的缺点是学习过程耗时。尽管SVM需要对不同的核函数和其他参数进行密集的学习和实验,但它比MLP和深度学习模型要快得多。决策树CART学习速度快,比人工神经网络具有更高的准确率,因此与MLP模型相比,它是一种有效的分类工具。
在训练阶段和测试阶段用R2、MSE和rmse来计算预测模型的性能。当我们比较KNN、Random forest和XGBoost模型时,在R2、MSE和RMSE方面,它们在训练阶段有更好的性能,在测试阶段有稍弱的性能。但在训练阶段,与随机森林(0.996,0.0008,0.6117)和XGBoost(0.9869, 0.0026, 0.6103)模型相比,R2、MSE和RMSE(1,0,0)的KNNmodel更稳定。因此,就预测精度和计算效率而言,线性回归模型适用于利用NCDC数据中的其他属性估计最小温度。
8.3 结论
在这项工作中,我们进行了研究以比较不同的机器学习方法以分析其在真实和高维天气数据集中的表现。实验结果表明,决策树的CART,梯度提升,KNN,线性回归,套索,岭,MLP,深度学习,SVM和随机森林模型(tree CART, gradient boosting, KNN, linear regression,
lasso, ridge, MLP, deep learning, SVM, and randomforest models)是能够通过高维数据集快速学习并实现出色的分类精度。更具体地说,决策树CART,XGB和AdaBoost方法的性能优于其他分类方法。
另一方面,KNN模型,random forest和XGBoost模型在训练阶段表现出更好的天气预报性能,但是在测试阶段表现出了明显的下降,因此表现出了某种程度的过拟合。在测试阶段,线性回归在预测任务中得分最高。k近邻模型,该模型的性能较差,可以通过在训练步骤中使用大量数据来提高预测误差。因此,所选择的方法在性能上没有显著差异,可以通过使用不同的算法进行进一步的测试,以更好地理解实验结果。
[个人总结] 该研究通过多种机器学习模型对气候数据进行了分类,且考虑到了模型精度(包括假阳性、真阴性、假阴性数据)、速度、召回率、F1,回归律等方面。且样本数据量够大,通过模型对比,可以为天气预报模型改进提供建议。
9. Impact of Look-Back Period on Soil Temperature Estimation Using Machine Learning Models (IEEE论文,2020)
摘要: 温度是土壤最重要的特性之一。在农业生产过程中,它影响植物的生长、发芽、硝化作用和适宜的种植和收获日期。在每个感兴趣的微地点安装气象站会大大增加生产成本。另一种更便宜的方法是,从相同范围内现有的气象站估算土壤温度,并从应用程序编程接口获得天气数据。虽然已经开发了不同的机器学习模型用于使用天气数据估算土壤温度,但是缺乏关于滞后天气数据,即所谓的回顾周期对模型性能的影响的知识。本文采用不同的机器学习模型,量化了回顾周期对土壤温度估计的影响。结果表明,随着回顾周期的增加,所有被测试模型的均方根误差显著下降,p值小于0.01。
9.1 介绍
土壤中安装传感器的价格昂贵,为了降低生产成本,开发了土壤温度估算模型。它们是经验模型或物理模型。经验模型使用土壤温度和其他天气参数之间的统计关系[7],而物理模型使用热传播方程式和能量平衡方程式以估计给定位置和深度的土壤温度[8]。这样,借助可通过天气应用程序编程界面获得的天气数据,可以轻松地根据其经度和纬度估算任何给定微地点的土壤温度。
作者分析了天气数据回溯期对估算土壤温度的影响。除此之外,我们还评估了六个集成模型,四个线性模型,一个支持向量机和一个人工神经网络,同时改变了回溯期的大小,以便根据天气数据估算土壤温度。
9.2 数据
这项研究在四个地点进行,所有地点都在8-11月种植了马铃薯。 通过气象站可知太阳辐射[W/m2],风向[°],降水[mm],风速[m / s],叶片湿度[min],气温[°C],相对湿度
[%],露点[°C],蒸气压不足[mbar],水电势[kPa]和土壤温度[°C]。测量土壤在30厘米的深度处温度。每小时平均测量值用于获取每日测量值。
9. 3 结论
我们还展示了最佳性能每个模型的回顾周期为20和30天。支持向量机回归模型其中径向基核函数的得分最高评估模型的均方根误差为0.58℃,回归期为27天。该模型采用正则化参数C = 100和精度= 0:001。
10. Internet of Things (IoT) and Machine Learning based Leaching Requirements Estimation for Saline Soils (IF=9.968, 2020)
摘要:土壤盐分是一种严重影响作物生产的土壤退化现象。物联网(IoT) 辅助解决方案旨在确定土壤盐分水平和环境条件,以推荐灌溉用水,目的是将盐分从盐渍土中的作物根区淋溶掉。基于物联网(IoT)和机器学习(ML)技术,利用盐分水平和作物田间温度的现场监测,对盐渍土淋溶需水量进行了估算。粮食及农业组织(FAO)提出的浸出要求方法是为了有效估计浸出水。这些估计值用于训练和测试用于机器学习的朴素贝叶斯分类器,以便在仅使用温度和土壤盐分水平的情况下预测未来的浸出需求。机器学习的性能是根据 准确度、f-度量、精度和召回率 来判断的。将提出的解决方案实施于盐碱地棉花作物上,以检验所提出方案对农艺的影响。
10.1 提出的方案
- .建议解决方案的体系结构
提出的解决方案是基于对微环境参数的直接感知,如温度、土壤电导率(EC),根据这些参数来估计浸出水的需求,以便从根区浸出盐。利用机器学习算法,根据作物田间温度和土壤盐分水平,对未来的淋溶需水量进行预测。所提出的解决方案流程图如图1所示。 - 提出的解决方案的特点
1)提出的解决方案特别针对盐碱地的改善措施和实施精确灌溉实践,通过对盐碱地特征的近端感知。
2)该研究采用了粮农组织提出的布兰尼·克里德尔(Blaney Criddle)标准方法来预测水淋失需求,从而在保持产量的同时有效利用灌溉用水。
3)本研究采用直接部署在野外的土壤EC、空气温度传感器。
4)提出的解决方案是在实时场景中实现和测试的,而不是在保护或温室中。
5)本研究利用机器学习的方法,根据温度和盐度水平提出未来的淋溶需水量。
10.2 材料与方法
A.作物与季节
棉花(陆地棉)是所选地区的主要农作物,时间时间为五月至十一月。
B.设备
土壤EC传感器,温度和湿度传感器用于原型开发,以实现建议的解决方案。 描述了这些传感器的详细特性。 1)Mec10土壤EC传感器MEC10是一种可靠且稳定的传感器,用于估算土壤和灌溉水中的盐度。 该传感器用于测量施用灌溉水时的土壤ECw,如图6所示,其特性如表1所示。
C.浸出要求计算
淋溶需求的估算取决于使用粮食及农业组织(FAO)提出的Blaney Criddle方法确定参考蒸散量(ET0)[43]得出的作物系数蒸散量(ETc)[43]。 Blaney-Criddle方法提供的ETc测量值被FAO建议的方法用于测量浸出要求。
D.原型开发和部署
解决方案的硬件部分是使用Arduino平台开发的。 如图9所示,开发了硬件原型并将其部署在农田中。
桌面应用程序是使用Microsoft(MS)Visual Studio,MS SQL Server开发的,并已部署在IoT服务器上。 桌面应用程序捕获微环境数据,进行处理和存储。下图显示了一些数据捕获和分析会话。
E.朴素贝叶斯算法实现
F.实现机器学习的课程
开发了不同的课程来训练和测试机器学习,以预测未来的盐度。 这些类别基于使用IoT功能捕获的作物田地的实时数据进行。 如表1所示,实时感测的EC值用于将粮农组织提出的灌溉土地分类为不同的盐度等级。
10.3 分析和讨论
选定地区的棉花在5月生长,10月结束。 因此,对数据的分析仅限于2018年5月至11月以及2019年5月至8月。基于IoT的环境捕获温度显示在2018年的图12和2019年的图13中,其中Tmax ,Tmin和Tmean。
A.朴素海湾分类器的性能
机器学习模型是使用Scikit-learn库针对python编程语言实现。 机器学习算法的性能是使用python中的“yellow brick”库进行测量的,其准确度为Naive-Bayes的85%,f1的精度很高,精度高,召回了不同的预测特征,如表9所示。
B.农艺措施
还通过观察植物的生长和产量,并在建议的解决方案的实施中,在一英亩大小的试验区中应用淋洗水建议,来测量提出的解决方案的性能。 在未实施建议的解决方案进行比较的情况下,也将判断控制图。根据植物的数量,植物的平均高度和植物上的铃的平均数量来测量植物的生长。 表10显示了不同农艺措施与对照和实验区的比较。
10.4 结论
物联网辅助作物田间环境用于确定盐渍土淋溶灌溉需求,以从作物根区淋溶盐分。这些要求被用来训练和测试机器学习模型的朴素Bays分类器,以便仅使用温度和盐度水平来预测未来的浸出需求。该模型的预测准确率和查全率为85%。这些估计和预测被证明是非常有效的,为盐渍土中更好的生产从植物根区淋溶盐的需水量的建议。基于物联网的数据有助于在实时现场微环境条件下实现高精度的活动。该模型的实施表明,棉花产量在株数、株高和结实率等方面都有显著提高。
[个人总结] 该论文既涉及到计算机科学的硬件,又使用了较新的方法,再加上大田试验(农林科学),使得文章的结构内容饱满。但文中的图表格式并不美观,此外,大田试验是如何实践的并未详细介绍。
个人觉得必须论文提及的参数介绍情况如下
参数 | 内容 |
---|---|
方法 | 物联网、传感器、机器学习、大田试验 |
速度 | 是 |
模型大小 | 否 |
准确率accuracy | 是 |
精度precision | 是 |
召回率recall | 否 |
F1参数 | 是 |
数据集大小 | 无明确表示 |
训练集、验证集、测试集情况 | 无 |
与其他方法对比 | 无 |
数据集来源 | 大田试验 |
软硬件平台 | python; yellow brike |
开源 | 无 |
其他 | 无 |