【k哥爬虫普法】简历大数据公司被查封,个人隐私是红线!

【k哥爬虫普法】简历大数据公司被查封,个人隐私是红线!

我国目前并未出台专门针对网络爬虫技术的法律规范,但在司法实践中,相关判决已屡见不鲜,K 哥特设了“K哥爬虫普法”专栏,本栏目通过对真实案例的分析,旨在提高广大爬虫工程师的法律意识,知晓如何合法合规利用爬虫技术,警钟长鸣,做一个守法、护法、有原则的技术人员。

案情介绍

2018年10月,北京市公安局海淀分局警务支援大队接到辖区某互联网公司报案称,发现有人在互联网上兜售疑似为该公司的用户信息。根据这条线索,警方迅速开展调查,巧达科技(北京)有限公司非法窃取信息的犯罪事实逐渐浮出水面。2019年3月,巧达科技被查封,涉案员工被警方依法刑事拘留。目前还没有从公开数据中查到此案件的判决文书。

警方查明,与正规招聘网站的简历由用户自己上传不同,巧达科技的简历数据库全部是通过非法手段爬取而来。“嫌疑人通过利用大量代理IP地址、伪造设备标识等技术手段,绕过招聘网站服务器防护策略,窃取存放在服务器上的用户数据。”网安总队办案民警李文涛说,从不同网站窃取来的信息被重新合并、排列,重名或是信息不全的信息经过“再比对”后形成完整的简历和用户画像。

针对爬虫获取简历的手段,一位巧达科技前员工告诉燃财经,巧达在智联、猎聘等网站上,建立了上千个企业账户,每天访问智联、猎聘的网站次数百万次,都是机器在模拟人工操作。这位员工称,他去年离开巧达之前,巧达依然在用爬虫手段获取简历。

据悉,巧达科技非法获取的简历超过2亿条。基于这些数据,公司开发了“72招浏览器”,将其简历数据库以13800元每年的价格卖给有需求的企业客户,客户就可以在浏览器上直接调取简历信息。

办案民警介绍,在巧达科技窃取数据过程中,还因传输数据量过大导致报案公司服务器数十次中断服务,影响上千万用户正常访问,带来严重的经济损失。

据网络上暴露的一份巧达数据给客户的商务合作BP(商业计划书)。这份文件宣称:巧达科技旗下有38个B端招聘产品、超过170万招聘者用户,巧达科技数据库有2.2亿自然人的简历、简历累计总数37亿份。此外,巧达科技还有超过10亿份通讯录,并且掌握着与此相关的社会关系、组织关系、家庭关系数据。结合简历、通讯录,以及外部获取的超过千亿条其他用户数据,巧达科技自称拥有超过8亿自然人的认知数据。也就是说,超过57%的中国人的信息都在巧达科技的数据库里面。

01

根据文件介绍,巧达科技将这些数据用在教培、保险、招聘等行业,某大型地产公司、某职业教育培训机构、某分类信息网站和几家招聘网站在这份文件里被列为典型案例。数据生意为巧达科技带来了大量收入。2016年,巧达科技全年收入1.2亿元,净利润4800万元;2017年,巧达科技全年收入4.11亿元,净利润1.86亿元,净利润率超过45%。

此外,这份商业计划书中单独有5页来讲述业务合规性,其中展示了数据的获取来源于3个途径,巧达科技自称都是合法取得:

1,自有招聘网站:求职者用户直接授权,包括简历中敏感数据和非敏感数据;

2,招聘工具产品:HR/猎头用户授权,包括简历中敏感数据和非敏感数据;

3,第三方数据源:合作方授权,包括用户ID组合,通讯录,行为标签和偏好画像。

获得数据后,巧达科技将简历中敏感数据、用户ID组合、通讯录进行MD5脱敏,以及简历中非敏感数据、行为标签、偏好画像,一并放入数据库中。数据通过建模计算,结合用户的认知引擎,最后提供给客户。

02

巧达科技提供的多项服务都指向用户个人,不论是通过自有渠道还是第三方渠道,没有经过用户同意和违反用户意愿的数据交易,都属于擅自利用用户信息并可能侵犯隐私。

03

反思总结

我们知道招聘网站,普通用户是无法查看他人简历的,所以巧达科技建立了上千个企业账户,通过企业账户能看到投递人或网站上全量求职者的完整简历,这很正常,也完全合法,重点在于巧达科技通过爬虫技术使用几千个企业账户大批量检索并获取招聘网站上的简历数据,并未经求职者本人同意,将原始数据及其多项未经授权的关联数据合并加工后对第三方开放交易且获取巨额利润

此业务的合法前提:一是,要有求职者本人的授权,即便巧达科技是通过自有招聘入口合法获取求职者的简历,使用用户信息也必须限于求职者投递简历的目的范围之内。超过为求职者直接推荐工作机会之外的行为都是违反用户意愿,属于擅自利用用户信息并侵犯用户隐私。

二是,巧达科技是从第三方获取求职者的简历数据,第三方既要合法获得求职者的简历,同时需要取得求职者对公开和转售简历的许可,这两个条件缺乏其一都会导致其获取、购买和再利用求职者简历数据的行为不具有合法性。

我们还注意到,在巧达科技获取数据过程中,还因爬取的数据量过大导致报案公司的服务器数十次中断服务,影响上千万用户正常访问,带来严重的经济损失,这和K哥前期的案例《【k哥爬虫普法】程序员183并发爬取官方网站,直接获刑3年?》中介绍的一样,里面的反思总结同样适用于本案例。

个人用户的隐私数据碰不得,这句话已经说了千百遍了,更何况求职者简历中包含了大量的个人和曾任职企业的隐私和商业信息。了解规则,敬畏法律,利用爬虫技术获取信息,应该严格遵守相关法律、行政法规、部门规章的规定,否则极易落入“非法获取”公民个人信息的法律风险范畴。

还值得一提的是,类似智联、猎聘、boss直聘等涉及到求职者个人隐私信息的平台,应当重视对客户信息的保护工作,boss直聘前段时间因某些原因还被审查过。对于求职者个人用户信息的下载、获取,应当设置严格的权限,对于企业客户的注册应当严格审查,对于后台大量获取简历的行为应当做好严格监控和反制,官方理应及时介入处理。巧达科技之所以能够在这些平台建立上千个企业账户肆无忌惮的大批量检索、爬取、下载简历,无疑和平台的监管机制缺漏脱不了关系。

【k哥爬虫普法】简历大数据公司被查封,个人隐私是红线!

本站文章如无特殊说明,均为本站原创,如若转载,请注明出处:【k哥爬虫普法】简历大数据公司被查封,个人隐私是红线! - Python技术站

(0)
上一篇 2023年4月2日 下午4:37
下一篇 2023年4月2日

相关文章

  • 【JS 逆向百例】某音 X-Bogus 逆向分析,JSVMP 纯算法还原

    声明 本文章中所有内容仅供学习交流使用,不用于其他任何目的,不提供完整代码,抓包内容、敏感网址、数据接口等均已做脱敏处理,严禁用于商业用途和非法用途,否则由此产生的一切后果均与作者无关! 本文章未经许可禁止转载,禁止任何修改后二次传播,擅自使用本文讲解的技术而导致的任何意外,作者均不负责,若有侵权,请在公众号【K哥爬虫】联系作者立即删除! 逆向目标 目标:某…

    2023年4月2日
    00
  • 【APP 逆向百例】Frida 初体验,root 检测与加密字符串定位

    声明 本文章中所有内容仅供学习交流使用,不用于其他任何目的,不提供完整代码,抓包内容、敏感网址、数据接口等均已做脱敏处理,严禁用于商业用途和非法用途,否则由此产生的一切后果均与作者无关! 本文章未经许可禁止转载,禁止任何修改后二次传播,擅自使用本文讲解的技术而导致的任何意外,作者均不负责,若有侵权,请在公众号【K哥爬虫】联系作者立即删除! 逆向目标 设备:G…

    2023年4月2日
    00
  • 【k哥爬虫普法】Python程序员爬取视频资源13万部,一分钱没挣,获刑2年!

    我国目前并未出台专门针对网络爬虫技术的法律规范,但在司法实践中,相关判决已屡见不鲜,K 哥特设了“K哥爬虫普法”专栏,本栏目通过对真实案例的分析,旨在提高广大爬虫工程师的法律意识,知晓如何合法合规利用爬虫技术,警钟长鸣,做一个守法、护法、有原则的技术人员。 案情介绍 2017年以来,被告人王世杰工作期间,为利用自己所学计算机网络技术建立网站赚钱,租用云服务器…

    2023年4月2日
    00
  • 【JS 逆向百例】某公共资源交易网,公告 URL 参数逆向分析

    声明 本文章中所有内容仅供学习交流,抓包内容、敏感网址、数据接口均已做脱敏处理,严禁用于商业用途和非法用途,否则由此产生的一切后果均与作者无关,若有侵权,请联系我立即删除! 逆向目标 目标:某地公共资源交易网 主页:aHR0cDovL2dnenkuamNzLmdvdi5jbi93ZWJzaXRlL3RyYW5zYWN0aW9uL2luZGV4 接口:aHR0…

    2023年4月2日
    00
  • 【0基础学爬虫】爬虫基础之自动化工具 Selenium 的使用

    大数据时代,各行各业对数据采集的需求日益增多,网络爬虫的运用也更为广泛,越来越多的人开始学习网络爬虫这项技术,K哥爬虫此前已经推出不少爬虫进阶、逆向相关文章,为实现从易到难全方位覆盖,特设【0基础学爬虫】专栏,帮助小白快速入门爬虫,本期为自动化工具 Selenium 的使用。 概述 目前,很多网站都采用 Ajax 等技术进行动态加载数据,想要采集这类网站的数…

    python 2023年4月22日
    00
  • 【k哥爬虫普法】爬取数据是否一定构成不正当竞争?

    我国目前并未出台专门针对网络爬虫技术的法律规范,但在司法实践中,相关判决已屡见不鲜,K 哥特设了“K哥爬虫普法”专栏,本栏目通过对真实案例的分析,旨在提高广大爬虫工程师的法律意识,知晓如何合法合规利用爬虫技术,警钟长鸣,做一个守法、护法、有原则的技术人员。 案情介绍 谷米公司为开发和运营“酷米客”APP(提供实时公交查询服务),与公交公司达成合作,在公交车上…

    2023年4月2日
    00
  • 【验证码逆向专栏】某验二代滑块验证码逆向分析

    声明 本文章中所有内容仅供学习交流,抓包内容、敏感网址、数据接口均已做脱敏处理,严禁用于商业用途和非法用途,否则由此产生的一切后果均与作者无关,若有侵权,请联系我立即删除! 本文章未经许可禁止转载,禁止任何修改后二次传播,擅自使用本文讲解的技术而导致的任何意外,作者均不负责,若有侵权,请在公众号【K哥爬虫】联系作者立即删除! 逆向目标 目标:某验二代滑块验证…

    2023年3月31日
    00
  • 吾爱破解 2023 春节解题领红包之 Web 题解

    (图作者 | 吾爱破解@Ps出来的小赵) 吾爱破解每年都有个解题领红包活动,今年也不例外,需要我们使出看家逆向本领来分析内容获得口令红包,根据难度等级不同会获得不同数量的吾爱币,活动持续到元宵节结束。活动一共有十个题,本文仅分享 Web 初级、中级、高级三个题的逆向思路。 活动地址:https://www.52pojie.cn/thread-1738015-…

    2023年3月31日
    00
合作推广
合作推广
分享本页
返回顶部