OpenSNN开思通智网,官网地址:https://w3.opensnn.com/
2024年8月份 "O站创作者招募计划"
快来O站写文章,千元大奖等你来拿!
“一起来O站,玩转AGI!”
ImageNet: A Large-Scale Hierarchical Image Database
- 论文链接:stanford.edu
- 简介:
互联网上图像数据的爆炸式增长有可能催生出更复杂、更强大的模型和算法,用于索引、检索、组织和与图像和多媒体数据交互。但如何利用和组织这些数据仍然是一个关键问题。我们在此介绍一个名为“ImageNet”的新数据库,这是一个建立在 WordNet 结构主干上的大型图像本体。ImageNet 旨在用平均 500-1000 张干净的全分辨率图像填充 WordNet 的 80,000 个同义词集中的大多数。这将产生数千万张按 WordNet 的语义层次结构组织的带注释图像。本文对 ImageNet 的当前状态进行了详细分析:12 个子树,5247 个同义词集和 320 万张图像。我们表明,ImageNet 的规模和多样性远远大于当前的图像数据集,而且准确度更高。构建如此大规模的数据库是一项具有挑战性的任务。我们描述了使用 Amazon Mechanical Turk 的数据收集方案。最后,我们通过三个简单的应用来说明 ImageNet 在物体识别、图像分类和自动物体聚类方面的实用性。我们希望 ImageNet 的规模、准确性、多样性和层次结构能够为计算机视觉社区及其他领域的研究人员提供无与伦比的机会
Imagenet large scale visual recognition challenge
- 论文链接:arxiv.org
- 简介:
ImageNet 大规模视觉识别挑战赛是对数百个对象类别和数百万张图像进行对象类别分类和检测的基准。该挑战赛自 2010 年至今每年举办一次,吸引了超过 50 所机构的参与。本文介绍了此基准数据集的创建以及由此带来的对象识别进展。我们讨论了收集大规模地面真实注释的挑战,强调了分类对象识别的关键突破,详细分析了大规模图像分类和对象检测领域的现状,并将最先进的计算机视觉准确度与人类准确度进行了比较。我们总结了挑战赛 5 年来的经验教训,并提出了未来的方向和改进。
Perceptual losses for real-time style transfer and super-resolution
- 论文链接:infoscience.epfl.ch
- 简介:
我们考虑图像转换问题,将输入图像转换为输出图像。针对此类问题的最新方法通常使用输出图像和真实图像之间的每像素损失来训练前馈卷积神经网络。并行工作表明,可以通过基于从预训练网络中提取的高级特征定义和优化感知损失函数来生成高质量图像。我们结合了两种方法的优点,并提出使用感知损失函数来训练图像转换任务的前馈网络。我们展示了图像风格迁移的结果,其中训练前馈网络来解决 Gatys 等人提出的优化问题。 实时。与基于优化的方法相比,我们的网络给出了类似的定性结果,但速度快了三个数量级。
Large-scale video classification with convolutional neural networks
- 论文链接:cv-foundation.org
- 简介:
卷积神经网络 (CNN) 已成为解决图像识别问题的一类强大模型。受这些结果的鼓舞,我们使用包含 100 万个 YouTube 视频(属于 487 个类别)的新数据集,对大规模视频分类的 CNN 进行了广泛的实证评估。我们研究了在时域中扩展 CNN 连接性的多种方法,以利用局部时空信息,并提出多分辨率、注视点架构作为加速训练的有前途的方法。与强大的基于特征的基线相比(55.3%至63.9%),我们最好的时空网络显示出显着的性能改进,但与单帧模型(59.3%至60.9%)相比,只有令人惊讶的适度改进。我们通过在 UCF-101 动作识别数据集上重新训练顶层来进一步研究最佳模型的泛化性能,并观察到与 UCF-101 基线模型相比显着的性能改进(从 43.9% 提高到 63.3%)。
Deep visual-semantic alignments for generating image descriptions
- 论文链接:cv-foundation.org
- 简介:
我们提出了一个模型,可以生成图像及其区域的自然语言描述。我们的方法利用图像数据集及其句子描述来了解语言和视觉数据之间的模态间对应关系。我们的对齐模型基于图像区域上的卷积神经网络、句子上的双向循环神经网络以及通过多模态嵌入对齐两种模态的结构化目标的新颖组合。然后,我们描述了一种多模态递归神经网络架构,该架构使用推断的对齐来学习生成图像区域的新颖描述。我们证明,我们的对齐模型在 Flickr8K、Flickr30K 和 MSCOCO 数据集的检索实验中产生了最先进的结果。然后我们表明,生成的描述在完整图像和新的区域级注释数据集上都显着优于检索基线。
Visual genome: Connecting language and vision using crowdsourced dense image annotations
- 论文链接:springer.com
- 简介:
尽管在图像分类等感知任务方面取得了进展,但计算机在图像描述和问题回答等认知任务上仍然表现不佳。认知是任务的核心,这些任务不仅涉及识别,还涉及对我们的视觉世界进行推理。然而,用于处理认知任务图像中丰富内容的模型仍在使用为感知任务设计的相同数据集进行训练。为了在认知任务中取得成功,模型需要理解图像中对象之间的交互和关系。当被问到“这个人骑着什么车?”时,计算机需要识别图像中的物体以及骑乘(人、马车)和拉动(马、马车)的关系,才能正确回答“这个人骑着一辆汽车”。马车。”在本文中,我们提出了视觉基因组数据集来对此类关系进行建模。我们收集每个图像中对象、属性和关系的密集注释来学习这些模型。具体来说,我们的数据集包含超过 108K 个图像,其中每个图像平均有 35 个对象、26 个属性以及对象之间的 21 个成对关系。我们将区域描述和问题答案对中的对象、属性、关系和名词短语规范化为 WordNet 同义词集。这些注释共同代表了图像描述、对象、属性、关系和问题答案对的最密集和最大的数据集。
【转载自:】OpenSNN开思通智网 ---- “一起来O站,玩转AGI!”
【官网:】https://w3.opensnn.com/
【原文链接:】https://w3.opensnn.com/os/article/10001168