2023.2
2023年2月14日
10:23
2023.2.14
继续读《Multi-View Transformer for 3D Visual Grounding》,读到了related work读了三分之一;
做好了集群的分用户以及部分配置;
开篇了一个文章,持续更新
准备重新升级一下显卡驱动和cuda,结果黑屏了,集群出大问题。解决了半晚上,OK了,也记到了博客里面,并且掌握了一种新的安装驱动的方式。
2023.2.15
开了小组会,听了两篇文章,李东东老师的车路协同的文,里面有一个很好的idea,就是假设正常情况下在几毫秒内车辆和人类的移动速度不发生改变,因此可以使用车收到的这一帧的速度矢量乘以车路延迟从而预测真实帧的情况;万老师讲的论文里有一个center perposal很有意思,第一次见。
暂时找到一个我直觉上很对的方向——3D visual grounding,我突然,嗷的一下,就想干活了!!
现在这个领域给我的感觉就是,刚开始火,21年做的人稍微多了一些,去年做的人基本又翻了一倍,刚开始火但还没有爆火的一个程度,感觉可以做的东西很多;另外,3D Visual Grounding做的就更少了,去年只发了10篇文章,前年也是,在早一些,19年开始出现的这个任务,但是19/20年只有一篇文章,因此感觉是个相对冷门,刚刚起步的任务,这个时候这个领域还非常清凉,即基本没有什么灌水的感觉;难度上,也很特别。把经典的任务从2D 向3D迁移是趋势,但是视觉定位这个任务相对其他视觉任务比如目标检测、语义分割这些来说,很特别。正常情况下,一个任务的groundtruth只有一个,CV里的visual grounding也是这样,但是迁移到3D会出现视角问题,视角一换,即便你输入的模态仍然是场景和文本,那场景的grounding truth可能也要一起换,因此,难度上我觉得是一个很有挑战性的东西,里面可以挖掘的新问题也远远比2D多。
最重要的,我很喜欢这个任务。
继续读《Multi-View Transformer for 3D Visual Grounding》,读完了Method,明天开始实验部分。但是Method最后一个子章节我没看懂,如何强化的物体编码器?没理解,读完全文再说,先不求甚解着。
2023.2.16
继续读《Multi-View Transformer for 3D Visual Grounding》,卡在了昨天那个问题上,没有搞明白。
总结了一下这个方向以及我目前认知中的机遇和挑战(形成文本),我觉得可以定方向了。
中午和兵哥哥出去吃了一顿酱骨,难受,太腻了,不学了,今天早退。
2023.2.17
继续读《Multi-View Transformer for 3D Visual Grounding》,读完了,并写了一篇blog,精读这篇工作。没我想的那么牛逼,我以为是牛逼到离谱的那种牛逼,但是这个领域还太雏形,因此其实解决的问题不难,但是很巧妙,很新颖,值得组会讲一讲,有空做一下这个工作的PPT。
今天将RTX3060的主机拿到了,并且装了起来,已经用起来了,装了局域网下共享鼠标和键盘的服务,给新主机装了一些软件,重新打理了整个桌面,现在长这个样子:
明天的任务:找一堆与这篇文章相关的文章,看李沐讲解Bert和其他语言模型。
2023.3.18
今天搞了一上午的键盘和电脑的适配问题,最后没有解决,但是通过笔记本的中转给规避了,详情见我写的这篇博客:https://www.cnblogs.com/loveandninenine/p/17132413.html
随后在PC上安装了anaconda和Pycharm,还没开始使用。
同一个局域网下的无界鼠标属实有点蛋疼,我打算把宿舍那个没用的路由器拿过来路由一下,以后只用网线。
驾校报名+体检通过。
下大雪,回宿舍,喝啤酒,说唱新世代,海龟汤。
2023.3.19
摆烂喝大酒看《说唱新世代》打游戏。
2023.3.20
听组会,龙哥讲解一篇用红外相机和彩色相机做的一个多模态的行人重识别工作,讲道理,没听懂;泽哥讲的是一篇idea文,即车路协同的时候,如果是前融合,那融合的就是点云,那发送点云怎么发?发多少?这篇文章第一次提出点云分区,优先发送重要的数据,并在分区之后对点云进行了压缩,挺有意思的。周三组会顺延,去听动捕设备教学,我要让蒂法跳迈克尔杰克逊!!
下载了一堆Visual Grounding的顶会顶刊论文,以及部分MVT引用的论文,实际上能找到的关于3d Visual Grounding的文章实在是太少了,可以说在我能力范围内找得到的文章基本都找到了,明天后天看看Introduction,分分类,慢慢读。
制作MVT组会PPT,但是没做完,还差实验部分没写。
GPU服务器的netlogin出问题了,修复过程记载在了《我和我的四个GPU女友之间那些事儿》。
明天打算做完MVT的PPT之后,看一下李沐老师讲bert,再看一个bert之前的比较优秀的NLP模型,毕竟Visual Grounding是一个CV+3d+NLP的工作,跨领域的东西我觉得挑战性都挺强的,而我个人又基本没有接触过NLP,因此需要好好看看。
20230221
GPU服务器欢迎界面编辑设置,更新了《我和我的四个GPU女友之间的那些事儿》。
MVT组会PPT制作完成,备注写了演讲稿,这篇可以讲了,基本完全搞懂了。
大概整理了一些VG相关的paper,看了看简介,但是还有一些没看,有点疲惫了,明天再定下来整个阅读顺序,开始慢慢啃paper啦。
下载了最终幻想7重制版,咳咳咳,用来测试一下实验室这块显卡。
明天上午要早起,组织动作捕捉设备的讲座和教学,估计得七点钟起来了……下午和晚上要打印上学期的一些收尾工作(结课论文之类的)交给各科老师;将下载的VG论文全部整理好排序好;学学Bert(这个昨天好像就说要学,但是时间都给了GPU服务器)。
20230222
动作捕获设备的拆装花了得有……6小时。
动捕设备软件的熟悉和使用,建立骨架,数据导出等一系列流程的熟悉。
发了一个视频:《动作捕坤系统》,铁山靠!!!
太累了今天被这折腾的快死了,不学了,睡觉。
20230223
帮师姐的大论文写了两版数据处理代码,困死了困死了。
将之前下载的论文简要整理了一下,排了一下顺序,主要是我想先读两个开山之作,与此同时学一些简单的语言模型,因为有些东西还是要了解的。另外,我发现Visual Grounding经常与DC任务绑在一起,这个也要研究一下。
学习李沐论文精读
参数服务器(Parameter Server)逐段精读
学习李沐论文精读:Bert
20230224
帮老师折腾办公室折腾了一下午,期间,集群竟然又出了一次问题,相关解决方案写在了GPU女友文档里面。
从实验室偷了一台交换机,我一个人用嘿嘿嘿。自己第一次做网线,做了两根,多谢红姐姐的帮助让我一个色弱的人能够排明白线,从而使得无界鼠标变得非常丝滑~~~
《ScanRefer》论文精读,读完了数据集的构建,明天要读Method,
202302025 - 27
三日甲流,高烧不退,咽嗓疼痛,身体虚弱,没有学习。
考虑到马上就到我讲组会,打算先讲MVT,提一嘴这两个开山之作吧,特别是ScanRefer,方法过于naive。
20230228
今天是这个月最后一天了,要将本日报上传到博客园。
重新整理MVT那篇paper,打算作为下次组会的一次讲解,加入了一些VG的history。
继续读Scanrefer,读了一点点,刚不发烧,身体太虚了,不学了,回去了。
标签:日报,论文,202302,Visual,组会,Grounding,ZIAO,GPU,3D From: https://www.cnblogs.com/loveandninenine/p/17165478.html