By 超神经
内容概要:全球最大的照片网站 Unsplash 宣布平台已经开放了超过 20 万名摄影师的近 200 万张免费图片的,并开放了两个图片检索结果的数据集。
关键词:数据集 图片搜索 图像分类
Unsplash 是世界上最大的照片摄影网站之一,由全世界 20 多万摄影师参与,贡献了数百万张高清优质的摄影作品。
照片下载站黑马:从 Tumblr 出圈
2013 年 5 月,Unsplash 刚刚诞生,还只是 Tumblr 上的一个小站,摄影师、网友们会将优质的摄影作品上传进来。
短短半年后, Unsplash 的图片下载量就达到了 1000 万次,也顺理成章地从 Tumblr 上分离了出来,推出了网站和搜索功能。
2015 年,Unsplash 的下载量达到 3000 万次,并首次推出了 API,Medium、Trello、Adobe 都是 Unsplash API 的客户。
近期,Unsplash 宣布平台已经有超过 20 万名摄影师的近 200 万张免费照片,并将数亿次搜索结果打包成两个图片检索结果数据集,将其开放。
数十亿次检索信息,这个数据集不简单
Unsplash 本次开放的检索数据集,被官方定义为 World’s largest open library dataset (全球最大的开放检索信息数据集),包含了数十亿次照片搜索的信息和对应的照片信息。
数据集分为商用精简版和非商用版本
该数据集包含两个版本:
精简版数据集(下载链接为该版本):可用于商业和非商业使用场景。包含 2.5 万张自然主题的 Unsplash 照片的检索信息,共 2.5 万个关键词。
完整版数据集:仅限于非商业使用场景。包含 200 万张高质量 Unsplash 照片的检索信息,共 500 万个关键词。
本数据集为精简版数据集,压缩包 190M,解压后 550M ,包含四个单独的 TSV 文件,分别为:
TSV 文件可以在 PostgreSQL 数据库或 Pyhton 环境中加载
- Collections : 82 MB
包含 Unsplash 用户创建的照片收藏夹的信息:包括照片的ID(photo_id)、收藏夹的ID(collection_id)、收藏夹的标题(collection_title)和时间戳(photo_collected_at)等数据; - Conversions : 349 MB
包含用户搜索后选择的图像信息:包括照片时间戳(convert_at)、关键词(keyword)、照片ID(photo_id)、脱敏后的用户ID(onymous_user_id) 和用户地理位置(conversion_country)等数据; - Keywords : 104 MB
包含用户搜索的照片ID(photo_id)、搜索的关键字词(keyword)、关键字与图片的置信值(ai_service_1_confidence)等数据; - Photos : 6.5 MB
在这个文件中,可没有照片哦,而是包含照片ID(photo_id)、url(photo_image_url)、摄影师信息(Photographer_username)、相机信息(exif_camera)、参数(exif_iso)、平台查看总次数(stats_views)、下载总次数(stats_downloads)、拍摄地地理坐标(ai_primary_landmark_name)
怎么下载,怎么使用?
获取该数据集和文档可以访问:https://github.com/unsplash 了解更多使用方法,同时也可以结合 Unsplash 的开放 API,调用更多功能。
API:https://unsplash.com/developers
超神经 HyperAI 也将精简版数据集,在国内进行了做种加速。
访问 https://hyper.ai/datasets/13127 或点击原文阅读即可进行高速下载。
该数据集可以应用在搜索系统、推荐系统、图片分类等场景的优化上。
除此之外,Unsplash 开放 API 提供了官方的 Js、PHP、Ruby 三个库,同时社区开源了 Go、Python、Swift 等库。结合数据集,也可以进行更多的尝试。
—— 完 ——