首页 > 其他分享 >爬取 2 万多张 Flickr 图片,莫纳什大学复现 10 年间日本樱花开放的时空特征

爬取 2 万多张 Flickr 图片,莫纳什大学复现 10 年间日本樱花开放的时空特征

时间:2023-07-13 14:01:01浏览次数:38  
标签:樱花 10 日本 万多张 爬取 API 数据 开花 图片

内容一览:近年来,全球气候变化形势严峻,由此引发的蝴蝶效应,正深刻地影响着人类和大自然。在这一背景下,收集数百甚至数千公里范围内开花模式的数据,了解气候变化如何对开花植物产生影响,成为近年来生态研究的重要课题之一。但传统的方法通常需要耗费大量经费,且需要较长的时间进行采样调查,后勤保障工作也面临着重重困难。而近期发布在《Flora》期刊上的研究,不仅克服了这些问题,同时还揭示出前所未有的细节。

关键词:时空分析   智慧生态学   SNS 数据

本文首发自 HyperAI 超神经微信公众平台~

樱花作为日本的国花,在大和文化中有着重要的地位。赏花(Hanami,花见),作为极具特色的民间习俗,已有了数百年的历史。然而日本纵跨纬度约 20 度,全国可分为 6 个气候区,各地气候差异明显,因此樱花绽放的时间也各有不同。每值樱花季节,日本的旅游网站也会详细展示各地开花情况,供游客安排赏花时间。近年来,受到气候变化的影响,日本樱花的开放时间也在不断提前。

为了探究日本樱花的开花模式,理解气候变化对物候学的影响,澳大利亚莫纳什大学的研究团队,利用 Python API 与计算机视觉 API,通过社交网站 (SNS) 数据来监测日本的樱花开放情况,并对实验结果与现实情况进行了对比验证。目前该研究已发表在《Flora》期刊,标题为「The spatiotemporal signature of cherry blossom flowering across Japan revealed via analysis of social network site images」。

爬取 2 万多张 Flickr 图片,莫纳什大学复现 10 年间日本樱花开放的时空特征_生态学

该研究成果已发表于《Flora》期刊

论文地址:

https://www.sciencedirect.com/science/article/abs/pii/S0367253023001019

实验过程:数据集的爬取、过滤及分析


数据集 

本次实验收集樱花开放数据的过程可以分为两个步骤:

1. 从社交网站提取图片数据,包括几个不同的连续阶段

2. 利用计算机视觉 API 及人工核验的方法,对数据进行相关性过滤

考虑到 API 需要同时对时间、空间、文本进行过滤,研究人员选择了 Flickr 作为数据源。首先,使用 Python API 客户端,通过搜索关键词「cherry blossom」,在 Flickr 上收集带有地理坐标的相关图片。

其次,设置 Bounding Box 为 31.186°N-46.178°N, 129.173°E-145.859°E,以确保图片是在日本拍摄。时间范围设定为 2008 年- 2018 年,以排除 COVID-19 导致的全球旅游业下降对数据的影响。

然后,研究人员借助从 gadm.org 获取的日本地理边界进行遮罩处理,从而过滤这些数据,最终获得 80,915 张图片。

爬取 2 万多张 Flickr 图片,莫纳什大学复现 10 年间日本樱花开放的时空特征_生态学_02

2008 年 1 月 1 日至 2018 年 12 月 31 日

Flickr 上搜索定位在日本的「cherry blossom」图片

1、2 月份(蓝色)表示春季来临前的樱花初放;

3-5 月份(绿色)表示记录春季主要樱花盛开期的摄影数据集中度;

10-12 月份(粉色)则表明了在秋季尤其 11 月达到高峰的有趣现象。

尽管 Flickr 的图片通过搜索关键词「cherry blossom」进行了限制,但 SNS 内容仍然可能会与搜索词错误关联,因此需要验证。

对此,研究人员将所有图片提交至 Google Cloud Vision AI,该 API 可以根据每张图像的视觉内容,为其生成了描述性文本标签,从而对单个数据点相关性,自动进行 double-check。

Google Cloud Vision AI 使用预先训练好的机器学习模型,在预定义类别中为图像分配标签。此外,研究人员还对样本数据进行了额外的手动核查,如下表所示:

爬取 2 万多张 Flickr 图片,莫纳什大学复现 10 年间日本樱花开放的时空特征_生态学_03

表 1:Tokyo-filtered 数据集中,各阶段的图像数据

B 列:在 Flickr 搜索「cherry blossom」返回 28,875 张图片,这些图片地理坐标都位于东京地区的行政区域内

C 列:计算机视觉 API 为此数据集返回的文本标签及其相对频率。从文本标签过滤器返回的图像中,有 21,908 张被计算机视觉 API 标记为「cherry blossom」,但由于部分图像也被标记为「autumn」或「maple tree」,因此被剔除后,最终得到 21,633 张图像

D 列:结果图像随机选出用于人工检查的样本

E 列:经人工检查确认为樱花的图像数量

F 列:每月自动处理方法(计算机视觉和标签分析)的预估精度,计算方法为 E/D

G 列:利用该精度,计算 2、3、4 月总共拍摄到的樱花图片数量,计算方法为 C*F


评估方法 

为了估计樱花的盛开日期,研究人员为数据集中的所有图像生成了以天为单位的时间序列,然后用 7-day width 的三角移动平均指标 (triangular rolling average) 进行处理,中心点赋 unity weight,其两侧紧邻的点赋 0.75 的权重,接下来最接近的点分别赋 0.5 和 0.25 的权重,以此来平整由周末(休闲时间,摄影活动明显增加)和工作日赏花人数不同而带来的拍摄行为 (Photographic activity) 波动。

得出的图表中所显示的拍摄行为波峰,被确定为是樱花盛开的全盛期(mankai)。

对比验证:预测结果与实际数据一致

日本对樱花盛开现象的记录最早可追溯到公元 812 年,自 1953 年起开始有了官方正式的观测记录。为了验证团队的分析方法,实验团队选择了东京和京都两座热门赏花城市的数据,并与日本气象公司 (JMC)、日本国家旅游组织 (JNTO) 每年公布的樱花全面盛开日期进行对比,计算出实验所得峰值日与官方公布日期之间的误差

通过实验,研究团队得出了日本全国樱花开放的可视化时空数据,1 月下旬 (wks 3-4) 至 5 月下旬 (wks 3-4),樱花开放首先从南部气候温暖的地区逐渐向北方推进,最后由南向北逐渐退缩。如图所示:

爬取 2 万多张 Flickr 图片,莫纳什大学复现 10 年间日本樱花开放的时空特征_AI for science_04

图 2: 2008-2018 年日本樱花拍摄地点,

每张图的周期对应两周

A-C:樱花图片出现在日本南部较温暖的地区,图片高度集中出现在本州岛的东京与京都的城市中心

D-F:樱花图片增加,开始向本州岛北部延伸

G-I:樱花位置向北扩展,出现在北海道札幌,东京和京都拍摄行为依然活跃,北海道和本州岛北部,樱花拍摄行为更加集中。最后,全国范围内的樱花照片逐渐减少,由南到北退去。

实验团队将经过处理的东京与京都地区樱花活动摄影日时间序列的峰值,与 JMC/JNTO 所公布的日期进行了比较验证。结果显示东京地区的均方根误差为 3.21 日,京都地区为 3.32 日。如下图:

爬取 2 万多张 Flickr 图片,莫纳什大学复现 10 年间日本樱花开放的时空特征_计算机视觉_05

图 3:东京地区二者评估的日期对比

左栏:通过本实验方法所估计的历年东京樱花全盛日期

中栏:JNTO 历年报道的东京樱花全盛日期

右栏:误差,即二者相差天数

爬取 2 万多张 Flickr 图片,莫纳什大学复现 10 年间日本樱花开放的时空特征_生态学_06

图 4:京都地区二者评估的日期对比

左栏:通过本实验方法所估计的历年京都樱花全盛日期

中栏:JNTO 历年报道的京都樱花全盛日期

右栏:误差,即二者相差天数

在实验团队的数据中,还揭示出了樱花在秋季开放的现象。这在 JNTO 所公布的数据中并没有正式指出,体现出了 SNS 数据有能力解析小概率事件,揭示异常的物候学现象,如非季节性开放时间,这对于评估一年四季甚至意外情况下可供获取的花粉花蜜等芳香资源极其重要。


SNS 数据:为生态研究提供新洞见

世界气象组织今年 4 月发布的一篇文章显示,2022 年的全球平均温度比 1850-1900 年的平均值高出了 1.15℃,人类对气候变化的感知较为迟滞,植物则格外敏感。在全球气候变暖的影响下,不仅是日本樱花,我国多地的开花植物也受到了影响。

根据武汉大学樱花观测数据,从上世纪 60 年代开始,武汉大学樱花的始花期明显提前,2000 年之后更是不断突破记录,一度由 3 月下旬提前至 2 月下旬。

20 世纪 90 年代前,山东菏泽的牡丹开花时间主要集中在 4 月下旬,2010 年前后提前到 4 月中旬,近几年更是在 4 月上旬便可观测到花开。

油菜开花的时间也同样有了显著提前的趋势,江西婺源油菜花今年 2 月 22 日就见花了,3 月 13 日进入开花盛期,而在 30 年前,油菜花开花时间一般在 3 月中旬。

Kepios 发布的一份报告显示,截止 2023 年 4 月,全球社交媒体用户数量达到 48 亿,占全球总人口的 59.9%,平均每人每天花费 2 小时 24 分钟使用社交媒体应用,产生海量社交网络数据,有望为生态研究提供新洞见。

作者在本论文中提出的 SNS 分析技术,可以填补公开数据中缺失的部分,帮助科研人员理解气候变化对于开花植物产生的不同程度的影响,对理解蜜蜂、昆虫等重要传粉者的行为具有积极意义。

参考文章:

[1]https://www.sciencedirect.com/science/article/abs/pii/S0168192320303117

[2]https://link.springer.com/chapter/10.1007/978-4-431-66899-2_8

[3]http://sh.cma.gov.cn/sh/qxkp/qhbh/zhykp/202304/t20230425_5464832.html

[4]https://datareportal.com/social-media-users


本文首发自 HyperAI 超神经微信公众平台~

标签:樱花,10,日本,万多张,爬取,API,数据,开花,图片
From: https://blog.51cto.com/u_16060192/6710492

相关文章

  • PAT-甲级-1007 Maximum Subsequence Sum C++
    Givenasequenceof K integers{ N1​, N2​,..., N​K }.Acontinuoussubsequenceisdefinedtobe{ Ni​, Ni+1​,..., Nj​ }where 1≤i≤j≤K.TheMaximumSubsequenceisthecontinuoussubsequencewhichhasthelargestsumofitselements.Fore......
  • 工具的使用 10
    一、AWVS的使用1.配置目标:打开AWVS软件后,需要配置目标网站或Web应用程序进行漏洞扫描。在AWVS的工具栏中,选择"Targets"(目标)菜单,在"TargetSetup"(目标设置)中点击"Add"(添加)按钮,输入目标URL或IP地址,并点击"Add"(添加)按钮。2.开始扫描:配置完目标后,你可以选择要执行的扫描任务类型。AW......
  • 轻松省时!10款Sketch插件合集,懒人们的最爱!
    在界面设计领域,Sketch以其高效、小巧的优势获得了不少设计团队的喜爱,帮助全球设计师创造了许多不可思议的作品。在使用Sketch的过程中,辅助使用一些Sketch插件,可以让我们更加高效地完成设计任务。本篇文章,我们将揭秘大厂设计师的收藏夹,把最常用的10款Sketch插件分享给大家。⬇⬇......
  • FX110: 万叶草富腾APP后台崩了,又一资金盘恐跑路!
    资金盘之所以会存在,是因为人们总是会相信他们愿意相信的事情。几乎所有的资金盘诈骗都是先以高额返利来吸引大家的注意力,万叶草富腾也不例外。近期,多名受害者爆料称万叶草富腾APP的后台崩了,大批投资者出金无门......账户40多万成空白,警方电话提醒受害者据一网友爆料,他于今年3月份开......
  • 20230710刷题
    B.ObsessionwithRobots先假设除了机器人走的路其他的地方都是障碍,然后记录下来可以走的地方用BFS遍历一遍,判断一个机器人有没有bug#include<bits/stdc++.h>#defineyescout<<"YES"<<'\n'#defineno cout<<"NO"<<'\n'usingnamespacest......
  • 110.成员初始化列表会在什么时候用到?它的调用过程是什么?
    110.成员初始化列表会在什么时候用到?它的调用过程是什么?1.当初始化一个引用成员变量时;structMyClass{constintmya;int&myb;MyClass(inta,int&b):mya(a),myb(b){}~MyClass(){}};2.当初始化一个非静态的常量成员时;inta=1;classMyClass{......
  • 109.怎么快速定位错误出现的地方?
    109.怎么快速定位错误出现的地方?1.如果是简单的错误,可以直接双击错误列表里的错误项或者生成输出的错误信息中带行号的地方就可以让编辑窗口定位到错误的位置上。2.对于复杂的模板错误,最好使用生成输出窗口。多数情况下出发错误的位置是最靠后的引用位置。如果这样确定不了错......
  • 【题解】CF gym 104337 G. Guess the Polynomial
    statement:https://codeforces.com/gym/104337/problem/G。即求\(f(x)=\sum\limits_{i=0}^{p-2}a_ix^i\),其中只有不超过\(n\)个\(a_i\)非\(0\)。记:\[\begin{aligned}A_{n}^{k}&=\sum_{i\equivk\pmod{n}}a_i=\frac{1}{n}\sum_{i=0}^{n-1}f(\omega_{n}^{......
  • 【雕爷学编程】Arduino动手做(113)---5110液晶屏模块2
    37款传感器与执行器的提法,在网络上广泛流传,其实Arduino能够兼容的传感器模块肯定是不止这37种的。鉴于本人手头积累了一些传感器和执行器模块,依照实践出真知(一定要动手做)的理念,以学习和交流为目的,这里准备逐一动手尝试系列实验,不管成功(程序走通)与否,都会记录下来---小小的进步或是......
  • HJ108 求最小公倍数
    1.题目读题HJ108 求最小公倍数  考查点 2.解法思路 最小公倍数一般有两种计算方法:分解质因数法和公式法。分解质因数法就是先把要求最小公倍数的那几个数分别分解质因数,然后将原来几个数里所含该质因数的最多个数的每一个质因数相乘,所得的积就是要求的最小公......