没有想到还是在年前开了模块交接会议,负责交接的人还是比较开心的,比较可以在年前把这个活切割赶紧,但是负责接受的人可是有些苦头了,估计这个年也过得不能消停了,而我也是这其中的一员。
模块交接工作由于模块量的问题需要多次会议才能全部交接完,而我这次的交接也只是收了一部分的工作,总的来说就是本组收三个工作,第一个是arxiv的论文爬取,第二个是数据库中论文的去重,第三个是数据库中专利的去重。其中后两个工作是我要对接的,不过这部分工作我也不是太担心的,大体的逻辑和思路还是有的,剩下的就是花时间去做细节和需求变更工作了,最要我忧愁的是开会中不知是哪个负责人提了一嘴,说是要增加数据源的类别。因为之前我们的计划收集的数据类别是论文和专利两种,这回有人提议是否加入商业产品、成熟的系统、落地的项目等一些非学术类的数据,并从中提取人际关系等关系类型,基本的提议如下:
=================================================
关于这个提议,我是不太看好的。一期的项目花了一年的时间也没有搞下来几篇论文,一个arxiv网站都没搞定爬取,可以说这个数据爬取的工作已然是焦头烂额,而对于这次所提的非学术类数据的爬取更是纯提议,这个提议更像是头脑风暴中的胡言乱语。数据的爬取主要难在不同完整之间的不同,不仅要考虑爬取机制同时也要考虑数据的提取工作,可以说是一个网站要对应一个策略,而这种非学术类数据基本就是要到各个公司的新闻宣传网站上爬,可以说是每个网站的数据量都不会太大,这样就需要对特别多的网站进行爬取,而这个工作量是之前的几何倍数的增加,可行性不高,而且说个题外话,我给实验室干活基本是不拿钱的,我这就是靠干活来换导师在毕业答辩允许的纸上签名的,如果这么搞我要是熬不下就真跑路了也只能是两败俱伤,而且以我对自己博导的了解这活觉得不可能增加人手的,总的来说就是这个提议不靠谱。再说一点,那就是这种数据即使是爬取下来也是难以提取人际关系等关联信息的,哪个公司会在产品宣传上公开说不同部分的负责人姓甚名谁的,这更是不显示的,是无法实现的。
=================================================
标签:18,交接,学术类,爬取,提议,模块,2023,数据 From: https://www.cnblogs.com/devilmaycry812839668/p/17061836.html