Paper Gestalt笔记

时间：2023-11-26 15:46:55浏览次数：43

title: Paper Gestalt笔记
banner_img: https://cdn.studyinglover.com/pic/2023/07/5deff473fdf93539d3952d3d6894add3.png
date: 2023-7-27 10:57:00

Paper Gestalt笔记

最近读到了一篇CVPR2010非常优秀的论文，叫做Paper Gestalt ,他考虑到近年来(2010年的近年来)CVPR的投稿两出现了大量增长，但是作者很可能接触到一个不优秀的审稿人，所以训练了一个视觉分类器来判断一篇CVPR的论文是否应该被接受来辅助审稿。当然模型效果非常优秀了，在误分类15%的goog paper (应该被接受)的情况下可以筛选掉50% bad paper。

在这项工作中，作者构建了一种简单的直觉，即一篇论文的质量可以通过浏览总体的视觉效果来估计，并使用这种直觉来构建一个系统，该系统使用基本的计算机视觉技术来预测论文是否应该被接受或拒绝。这个任务中具有判别能力的视觉特征集就被称为Paper Gestalt。

最有意思的一点是，作者训练出来的默认为认为他的论文有88.4%的可能被接受。

作者将这个任务认为是一个二分类任务$\{(x_1,y_1),(x_2,y_2),...(x_n,y_n)\}$ ,其中$x_i$ 是一个图片的视觉特征，$y_i$ 则是对论文的一个标签。

给定一篇论文的图像，需要计算可插入分类系统的视觉特征的数量。作者选择了一些标准的计算机视觉特征来捕捉渐变、纹理、颜色和纹理信息。特别是作者是基于LUV直方图、直方图的定向梯度和梯度幅度来计算特征。

作者选用了AdaBoost作为分类器，公式是$$h(x)=\sum_{t=1}^T\alpha_th_t(x)$$
$h_t$就是一个弱分类器，这里选用的是决策树$h_t(x)=\mathbf{1}[f_t(x)>\theta]$ ,$\theta$ 是阈值，$f_t$ 是图像特征，整体的训练流程如图所示。(实话实话，对于我这种2020年才接触深度学习的人来说AdaBoost真的是老古董技术了(ง •̀_•́)ง，只在计算机视觉课上听过这种技术用于人脸检测)

AdaBoost有许多吸引人的理论特性。例如，众所周知，经验误差是有界的$$\epsilon(h)\leq\prod_{t=1}^T2\sqrt{\epsilon_t(1-\epsilon_t)}$$
虽然这个公式摆在这没有任何用，但是作者发现数学公式多了有利于论文被接受，所以他又摆上了 Maxwell’s equations

\[\begin{array}{rcl}\oint\vec{E}\cdot d\vec{A}&=&\frac{Q_{enc}}{\epsilon_0}\\&&\\\oint\vec{B}\cdot d\vec{A}&=&0\\&&&\\\oint\vec{E}\cdot d\vec{s}&=&-\frac{d\phi_B}{dt}\\\oint\vec{B}\cdot d\vec{s}&=&\mu_0\epsilon_0\frac{d\phi_E}{dt}+\mu_0i_{enc}\end{array} \]

哦你问视觉分类器跟Maxwell’s equations 到底有啥关系？这就是这篇论文的结论部分了，作者使用了一些论文作为例子分析了效果。

我们从作者给出的图可以发现，一篇被接受的论文有数学公式，有图表还有图像，而被拒的论文有令人困惑的大表格，缺少页数还有缺少五颜六色的图片。

说到令人困惑的大表格不知道你有没有想到一篇论文，对就是我们巨有钱的OPENAI做的CLIP。这表格属实看的人眼睛疼，被显卡的钱亮瞎了狗眼。

作者还不忘了夸一下他的论文，说他的固然存在缺页/空白页的问题，但其色彩斑斓的图表和令人印象深刻的数学公式构成非常漂亮。问题是你这图也不对呀，有的图片位置都和最终论文不一样。

还有一点需要指出的是，作者的模型分析一篇论文只需要0.5秒。

在我找原文的时候，我发现arXiv上挂了一篇18年的文章Deep Paper Gestalt ,据说他训练的模型把自己拒掉了。按照这个趋势我是不是可以搞一篇论文叫做Paper Gestalt with Latent Space?

标签：一篇,论文,笔记,作者,vec,Paper,Gestalt
From： https://www.cnblogs.com/studyinglover/p/17857334.html

LoRA笔记
title:LoRA笔记banner_img:https://proxy.thisis.plus/202305091237913.pngdate:2023-6-130:12:40tags:-文字生成图片LoRA笔记自然语言处理的一个重要范式包括对一般领域数据的大规模预训练和对特定任务或领域的适应。当我们预训练更大的模型时，重新训练所有模型参数......
Imagic笔记
title:Imagic笔记banner_img:https://drive.studyinglover.com/api/raw/?path=/photos/blog/background/1679397008541.pngdate:2023-3-2919:42:00categories:-笔记tags:-文字生成图片Imagic笔记先前的工作大多数方法目前仅限于以下一种:特定的编辑类型(例如，对象叠......
LISA(推理分割)笔记
title:LISA(推理分割)笔记banner_img:https://cdn.studyinglover.com/pic/2023/08/10f885319b150cc20093124185e25c3b.pngindex_img:https://cdn.studyinglover.com/pic/2023/08/ded90e7e3f84739b187dd679c39bd8dd.pngdate:2023-8-1815:05:00categories:-笔记tags:-......
进程间通信--学习笔记
#进程间通信--pipe、FIFO、共享内存、消息队列、信号量pipe(无名管道）只能实现有亲缘关系进程之间的通信，它是单向的，intpipe(intpiped[2])//创建管道fd[0]:读文件，fd[1]:写文件。之后可以用open()、write()函数进行对管道进行操作,创建管道要在fork()之前以保证......
《信息安全系统设计与实现》第十二周学习笔记
TCP/IP协议TCP/IP协议是一组通信协议，用于在计算机网络上实现数据传输。它是因特网的基础协议，也被广泛用于局域网（LAN）和广域网（WAN）。TCP/IP协议族由两个主要协议组成：传输控制协议（TCP）和互联网协议（IP）。这两个协议共同工作，以确保在网络上可靠、有序地传输数据。IP主机和IP地址：IP地......
学习笔记11
第十四章MYSQL实践mysql简介MySQL是一个开源数据库管理系统，由服务器和客户机组成。在将客户机连接到服务器后，用户可向服务器输入SQL命令，以便创建数据库，删除数据库，存储、组织和检索数据库中的数据。MySQL有广泛的应用。mysql安装在ubuntu中使用sudoaptinstallmysql-server......
I3D笔记
title:I3D笔记banner_img:https://drive.studyinglover.com/api/raw/?path=/photos/blog/background/1679397045791.jpgdate:2023-4-2322:14:00I3D笔记I3D是一个视频理解模型，采用双流网络的架构，他的核心贡献是提出了如何对2d网络进行膨胀操作，同时提出了一个新的数据集Ki......
DSDN笔记
title:Dual-StreamDiffusionNetforText-to-VideoGeneration笔记banner_img:https://cdn.studyinglover.com/pic/2023/08/b6f940f512488c10b7a1bf40eb242cae.pngindex_img:https://cdn.studyinglover.com/pic/2023/08/3021b6624ee4f2093c6166b6a80cd643.pngdate:2023......
DINO-v2笔记
title:DINO-v2笔记banner_img:https://cdn.studyinglover.com/pic/2023/07/b5c4ecf9aa476ca1073f99b22fe9605e.jpgdate:2023-7-270:04:00categories:-文字生成图片DINO-v2笔记DINO-v2一种无监督学习的预训练方法，可以生成具有强大泛化能力的视觉特征，适用于各种图像分布......
CaltechCS122 笔记：Assignment 2: SQL Translation and Joins
Assignment2:SQLTranslationandJoinsTranslationandjoinPlanNode及其子类，如图所示：......

Paper Gestalt笔记

Paper Gestalt笔记

相关文章

赞助商

阅读排行