首页 > 其他分享 >2023年1月18日 模块交接会议 —— 数据收集源的扩展与否

2023年1月18日 模块交接会议 —— 数据收集源的扩展与否

时间:2023-01-19 17:24:12浏览次数:41  
标签:18 交接 学术类 爬取 提议 模块 2023 数据

没有想到还是在年前开了模块交接会议,负责交接的人还是比较开心的,比较可以在年前把这个活切割赶紧,但是负责接受的人可是有些苦头了,估计这个年也过得不能消停了,而我也是这其中的一员。

 

模块交接工作由于模块量的问题需要多次会议才能全部交接完,而我这次的交接也只是收了一部分的工作,总的来说就是本组收三个工作,第一个是arxiv的论文爬取,第二个是数据库中论文的去重,第三个是数据库中专利的去重。其中后两个工作是我要对接的,不过这部分工作我也不是太担心的,大体的逻辑和思路还是有的,剩下的就是花时间去做细节和需求变更工作了,最要我忧愁的是开会中不知是哪个负责人提了一嘴,说是要增加数据源的类别。因为之前我们的计划收集的数据类别是论文和专利两种,这回有人提议是否加入商业产品、成熟的系统、落地的项目等一些非学术类的数据,并从中提取人际关系等关系类型,基本的提议如下:

 

 

=================================================

 

 

 

关于这个提议,我是不太看好的。一期的项目花了一年的时间也没有搞下来几篇论文,一个arxiv网站都没搞定爬取,可以说这个数据爬取的工作已然是焦头烂额,而对于这次所提的非学术类数据的爬取更是纯提议,这个提议更像是头脑风暴中的胡言乱语。数据的爬取主要难在不同完整之间的不同,不仅要考虑爬取机制同时也要考虑数据的提取工作,可以说是一个网站要对应一个策略,而这种非学术类数据基本就是要到各个公司的新闻宣传网站上爬,可以说是每个网站的数据量都不会太大,这样就需要对特别多的网站进行爬取,而这个工作量是之前的几何倍数的增加,可行性不高,而且说个题外话,我给实验室干活基本是不拿钱的,我这就是靠干活来换导师在毕业答辩允许的纸上签名的,如果这么搞我要是熬不下就真跑路了也只能是两败俱伤,而且以我对自己博导的了解这活觉得不可能增加人手的,总的来说就是这个提议不靠谱。再说一点,那就是这种数据即使是爬取下来也是难以提取人际关系等关联信息的,哪个公司会在产品宣传上公开说不同部分的负责人姓甚名谁的,这更是不显示的,是无法实现的。

 

 

 

 

=================================================

 

标签:18,交接,学术类,爬取,提议,模块,2023,数据
From: https://www.cnblogs.com/devilmaycry812839668/p/17061836.html

相关文章

  • 2023-1-9练习
    DelivertheCakeEasySSSP跑步(Floyd模板)构造完全图烦人的幻灯片(slides)病毒(virus)点的距离聚会郁闷的出纳员有便便的厕所'......
  • 2023牛客寒假算法基础集训营2
    2023牛客寒假算法基础集训营2AA这个直接模拟找符合条件的数#include<bits/stdc++.h>usingnamespacestd;intl1,r1,l2,r2;intt;voidsolve(){intn;......
  • springboot 热更 2023.3
    热更使用devtools或者alt+shit+f9ideaFile|Settings|Preferences|Build,Execution,Deployment|Compiler:BuildprojectautomaticallyFile|Setting......
  • 京东探索研究院 | 2023年十大科技趋势
    日迈月征,朝暮轮转。这一年里,科技开拓者们,产业同行者们用科技汇聚向上的力量步入了数智时代的“星辰大海”。数字化是我们创造出来的一个永恒并且充满活力的装置,数智技术正......
  • 2023牛客寒假算法基础集训营2(补题ing)
    A(easy)签到题写了半个多小时。。。题目描述:已知一个数n,和区间[L1,R1],[L2,R2],求所有满足L1<=a<=R1,L2<=b<=R2,使得a+b=n的所有的解的选法。对于两种选法,若a......
  • 2023.1 做题记录
    CF939EMaximize!绿题,但是有点意思。这个贪心没想到我是zz好吧。先上结论:最后取出来的子集一定是前面的一段+最后一个数。考虑证明。但是我不会,挖个坑有时间再补,嘻......
  • sql server CONVERT(VARCHAR(7),'2023-01-07 18:34:53.690',120)转换
    convert语法:sqlCONVERT(data_type[(length)],expression[,style])data_type目标数据的数据类型,包括xml,bigint,sql_variant。不能使用别名数据类型。......
  • C/C++学籍管理系统[2023-01-19]
    C/C++学籍管理系统[2023-01-19]使用下面的数据,用C/C++设计一个简单的学籍管理系统,实现出最基本的功能。学生基本信息文件(A.TXT)及其内容:A.TXT文件不需要编程录入数据,可......
  • C/C++音像图书租借管理系统[2023-01-19]
    C/C++音像图书租借管理系统[2023-01-19]24、音像图书租借管理系统功能要求:(1)创建音像图书库。此库中共有图书、VCD、DVD3类,而每个音像图书的信息均包括编号(用BV和D*......
  • WC 2023 游记
    杭州集训还是比较震撼的。因为NOIP期间没啥条理的训练计划和焦急的心理,NOIP之后我的竞技状态一直不太行,简单的部分分因为想复杂想不出都是常态。后来找教练聊了下天,然后......