首页 > 其他分享 >【k哥爬虫普法】简历大数据公司被查封,个人隐私是红线!

【k哥爬虫普法】简历大数据公司被查封,个人隐私是红线!

时间:2022-10-26 16:02:54浏览次数:95  
标签:简历 科技 巧达 爬虫 用户 个人隐私 求职者

我国目前并未出台专门针对网络爬虫技术的法律规范,但在司法实践中,相关判决已屡见不鲜,K 哥特设了“K哥爬虫普法”专栏,本栏目通过对真实案例的分析,旨在提高广大爬虫工程师的法律意识,知晓如何合法合规利用爬虫技术,警钟长鸣,做一个守法、护法、有原则的技术人员。

案情介绍

2018年10月,北京市公安局海淀分局警务支援大队接到辖区某互联网公司报案称,发现有人在互联网上兜售疑似为该公司的用户信息。根据这条线索,警方迅速开展调查,巧达科技(北京)有限公司非法窃取信息的犯罪事实逐渐浮出水面。2019年3月,巧达科技被查封,涉案员工被警方依法刑事拘留。目前还没有从公开数据中查到此案件的判决文书。

警方查明,与正规招聘网站的简历由用户自己上传不同,巧达科技的简历数据库全部是通过非法手段爬取而来。“嫌疑人通过利用大量代理IP地址、伪造设备标识等技术手段,绕过招聘网站服务器防护策略,窃取存放在服务器上的用户数据。”网安总队办案民警李文涛说,从不同网站窃取来的信息被重新合并、排列,重名或是信息不全的信息经过“再比对”后形成完整的简历和用户画像。

针对爬虫获取简历的手段,一位巧达科技前员工告诉燃财经,巧达在智联、猎聘等网站上,建立了上千个企业账户,每天访问智联、猎聘的网站次数百万次,都是机器在模拟人工操作。这位员工称,他去年离开巧达之前,巧达依然在用爬虫手段获取简历。

据悉,巧达科技非法获取的简历超过2亿条。基于这些数据,公司开发了“72招浏览器”,将其简历数据库以13800元每年的价格卖给有需求的企业客户,客户就可以在浏览器上直接调取简历信息。

办案民警介绍,在巧达科技窃取数据过程中,还因传输数据量过大导致报案公司服务器数十次中断服务,影响上千万用户正常访问,带来严重的经济损失。

据网络上暴露的一份巧达数据给客户的商务合作BP(商业计划书)。这份文件宣称:巧达科技旗下有38个B端招聘产品、超过170万招聘者用户,巧达科技数据库有2.2亿自然人的简历、简历累计总数37亿份。此外,巧达科技还有超过10亿份通讯录,并且掌握着与此相关的社会关系、组织关系、家庭关系数据。结合简历、通讯录,以及外部获取的超过千亿条其他用户数据,巧达科技自称拥有超过8亿自然人的认知数据。也就是说,超过57%的中国人的信息都在巧达科技的数据库里面。

01

根据文件介绍,巧达科技将这些数据用在教培、保险、招聘等行业,某大型地产公司、某职业教育培训机构、某分类信息网站和几家招聘网站在这份文件里被列为典型案例。数据生意为巧达科技带来了大量收入。2016年,巧达科技全年收入1.2亿元,净利润4800万元;2017年,巧达科技全年收入4.11亿元,净利润1.86亿元,净利润率超过45%。

此外,这份商业计划书中单独有5页来讲述业务合规性,其中展示了数据的获取来源于3个途径,巧达科技自称都是合法取得:

1,自有招聘网站:求职者用户直接授权,包括简历中敏感数据和非敏感数据;

2,招聘工具产品:HR/猎头用户授权,包括简历中敏感数据和非敏感数据;

3,第三方数据源:合作方授权,包括用户ID组合,通讯录,行为标签和偏好画像。

获得数据后,巧达科技将简历中敏感数据、用户ID组合、通讯录进行MD5脱敏,以及简历中非敏感数据、行为标签、偏好画像,一并放入数据库中。数据通过建模计算,结合用户的认知引擎,最后提供给客户。

02

巧达科技提供的多项服务都指向用户个人,不论是通过自有渠道还是第三方渠道,没有经过用户同意和违反用户意愿的数据交易,都属于擅自利用用户信息并可能侵犯隐私。

03

反思总结

我们知道招聘网站,普通用户是无法查看他人简历的,所以巧达科技建立了上千个企业账户,通过企业账户能看到投递人或网站上全量求职者的完整简历,这很正常,也完全合法,重点在于巧达科技通过爬虫技术使用几千个企业账户大批量检索并获取招聘网站上的简历数据,并未经求职者本人同意,将原始数据及其多项未经授权的关联数据合并加工后对第三方开放交易且获取巨额利润

此业务的合法前提:一是,要有求职者本人的授权,即便巧达科技是通过自有招聘入口合法获取求职者的简历,使用用户信息也必须限于求职者投递简历的目的范围之内。超过为求职者直接推荐工作机会之外的行为都是违反用户意愿,属于擅自利用用户信息并侵犯用户隐私。

二是,巧达科技是从第三方获取求职者的简历数据,第三方既要合法获得求职者的简历,同时需要取得求职者对公开和转售简历的许可,这两个条件缺乏其一都会导致其获取、购买和再利用求职者简历数据的行为不具有合法性。

我们还注意到,在巧达科技获取数据过程中,还因爬取的数据量过大导致报案公司的服务器数十次中断服务,影响上千万用户正常访问,带来严重的经济损失,这和K哥前期的案例《【k哥爬虫普法】程序员183并发爬取官方网站,直接获刑3年?》中介绍的一样,里面的反思总结同样适用于本案例。

个人用户的隐私数据碰不得,这句话已经说了千百遍了,更何况求职者简历中包含了大量的个人和曾任职企业的隐私和商业信息。了解规则,敬畏法律,利用爬虫技术获取信息,应该严格遵守相关法律、行政法规、部门规章的规定,否则极易落入“非法获取”公民个人信息的法律风险范畴。

还值得一提的是,类似智联、猎聘、boss直聘等涉及到求职者个人隐私信息的平台,应当重视对客户信息的保护工作,boss直聘前段时间因某些原因还被审查过。对于求职者个人用户信息的下载、获取,应当设置严格的权限,对于企业客户的注册应当严格审查,对于后台大量获取简历的行为应当做好严格监控和反制,官方理应及时介入处理。巧达科技之所以能够在这些平台建立上千个企业账户肆无忌惮的大批量检索、爬取、下载简历,无疑和平台的监管机制缺漏脱不了关系。

标签:简历,科技,巧达,爬虫,用户,个人隐私,求职者
From: https://blog.51cto.com/u_15619200/5798005

相关文章

  • 爬虫不使用HTTP代理会怎样
    很多人知道爬虫工作需要HTTP代理的支持,但却不知道爬虫为什么要使用代理,不使用代理会怎样呢,今天我们一起来讨论下。网络爬虫主要是一种通过代码模拟真实用户批量......
  • 爬虫使用免费HTTP代理会怎样
     我们都知道,爬虫工作想要效率全开,必须要高效的HTTP代理支持。但是很多人为了节省成本,会找一些不要钱的代理来使用。那么爬虫程序用了这些免费的HTTP代理到底会怎样......
  • 怎么使用HTTP代理才能让爬虫工作效率更高
    我们都知道,想要提高爬虫每天的工作效率,必须要大量的HTTP代理来支持。那么,怎么使用HTTP代理才能让爬虫工作效率更高呢?1、爬虫程序效率优化我们在设计爬虫程......
  • 爬虫
    bs4aa=bs('r','lxml')div=aa.find('div',class_="values").textli=aa.select(".classname>ul>li")xpathfromlxmlimportetreetree=etree.HTML("page")tr......
  • 最新抖音数据分析app爬虫
    我们提供封装好的抖音数据采集接口,实时采集,接口稳定。长期维护使用便宜接口使用详情请参考接口地址:github访问地址:https://github.com/ping0206guo/pingguoapi全部支......
  • 如何使用GitHub Actions发布自己的爬虫代码
    一.从上一篇GitHubActions详解了解了GitHubActions,我们理一下使用GitHubActions详解发布爬虫需要哪几个步骤上传爬虫代码到GitHub仓库创建GitHubActions工作流,并提......
  • java简历项目经验大全(java商城项目经验简历)
    Java简历中工作经验怎么写错误示范:1、java后台开发2、前端编写正确范例:1、java程序开发岗位,主要负责:代码编写、数据库操作、sql语句优化、wsdl技术调用接口、生成接口等。2......
  • 如何测试爬虫ip的可用性
    网络爬虫的应用极大的方便了人们,尤其是多线程多任务工作时,能够极大的提高信息采集工作效率。在使用爬虫IP时,经常会遇到代理时效的问题,那么我们该怎么检测代理是否正常?静态......
  • 如何让爬虫通过本身工作原理持续工作
    我们知道,网络爬虫是指使用代码模拟真实用户发送网络请求,并获取数据的一个程序或者脚本。但如果不使用爬虫HTTP代理,很快就会被目标网站限制访问,那么,爬虫代理的工作原理......
  • selenium爬虫问题汇总
    基本框架fromseleniumimportwebdriverfromselenium.webdriver.common.byimportByfromselenium.webdriver.common.action_chainsimportActionChains#打开dri......