首页 > 其他分享 >在 Hub 上使用 Presidio 进行自动 PII 检测实验

在 Hub 上使用 Presidio 进行自动 PII 检测实验

时间:2024-07-31 23:06:27浏览次数:12  
标签:PII Hub Presidio 信息 识别 数据

我们在 Hugging Face Hub 上托管的机器学习 (ML) 数据集中发现了一个引人关注的现象: 包含个人未经记录的私密信息。这一现象为机器学习从业者带来了一些特殊挑战。

在本篇博客中,我们将深入探讨含有一种称为个人识别信息 (PII) 的私密信息的各类数据集,分析这些数据集存在的问题,并介绍我们在数据集 Hub 上正在测试的一个新功能,旨在帮助应对这些挑战。

包含个人识别信息 (PII) 的数据集类型

我们注意到包含个人识别信息 (PII) 的数据集主要有两种类型:

  1. 标注的 PII 数据集: 例如由 Ai4Privacy 提供的 PII-Masking-300k,这类数据集专门用于训练 PII 检测模型。这些模型用于检测和掩盖 PII,可以帮助进行在线内容审核或提供匿名化的数据库。
  2. 预训练数据集: 这些通常是大规模的数据集,往往有数 TB 大小,通常通过网络爬虫获得。尽管这些数据集一般会过滤掉某些类型的 PII,但由于数据量庞大和 PII 检测模型的不完善,仍可能有少量敏感信息遗漏。

机器学习数据集中的个人识别信息 (PII) 面临的挑战

机器学习数据集中存在的个人识别信息 (PII) 会为从业者带来几个挑战。首先,它引发了隐私问题,可能被用来推断个人的敏感信息。

此外,如果未能妥善处理 PII,它还可能影响机器学习模型的性能。例如,如果一个模型是在包含 PII 的数据集上训练的,它可能学会将特定的 PII 与特定的结果关联起来,这可能导致预测偏见或从训练集生成 PII。

数据集 Hub 上的新实验: Presidio 报告

为了应对这些挑战,我们正在数据集 Hub 上试验一项新功能,使用 Presidio——一种开源的最先进的个人识别信息 (PII) 检测工具。Presidio 依赖检测模式和机器学习模型来识别 PII。

通过这个新功能,用户将能够看到一个报告,估计数据集中 PII 的存在情况。这一信息对于机器学习从业者非常有价值,帮助他们在训练模型前做出明智的决策。例如,如果报告指出数据集包含敏感的 PII,从业者可能会选择使用像 Presidio 这样的工具进一步过滤数据集。

数据集所有者也可以通过使用这些报告来验证他们的 PII 过滤流程,从而在发布数据集之前受益于这一功能。

Presidio 报告的一个示例

让我们来看一个关于这个 预训练数据集 的 Presidio 报告的示例:

Presidio report

在这个例子中,Presidio 检测到数据集中有少量的电子邮件和敏感个人识别信息 (PII)。

结论

机器学习数据集中个人识别信息 (PII) 的存在是机器学习社区不断发展的挑战之一。 在 Hugging Face,我们致力于保持透明度,并帮助从业者应对这些挑战。 通过在数据集 Hub 上试验诸如 Presidio 报告之类的新功能,我们希望赋予用户做出明智决策的能力,并构建更健壯、更符合道德标准的机器学习模型。

我们还要感谢国家信息与自由委员会 (CNIL) 对 GDPR 合规性的帮助。 他们在指导我们应对人工智能和个人数据问题的复杂性方面提供了宝贵的帮助。 请在 这里 查看他们更新的人工智能操作指南。

敬请期待更多关于这一激动人心发展的更新!


英文原文: https://hf.co/blog/presidio-pii-detection

原文作者: Quentin Lhoest, Margaret Mitchell, Omri M, Omri Mendels

译者: Evinci

标签:PII,Hub,Presidio,信息,识别,数据
From: https://www.cnblogs.com/huggingface/p/18335707

相关文章

  • 【Vulnhub系列】Vulnhub_Dr4g0n_b4ll 靶场渗透(原创)
    【Vulnhub系列靶场】Vulnhub_Dr4g0n_b4ll靶场渗透原文转载已经过授权原文链接:Lusen的小窝-学无止尽,不进则退(lusensec.github.io)一、环境搭建选择打开.ovf文件配置名称和路径打开后调整网络连接模式为【NAT】即可二、信息收集1、主机发现nmap.exe-sn192.1......
  • vulhubXXE靶机
    将下载好的靶机导入到VMware中,设置网络模式为NAT模式,然后开启靶机虚拟机使用nmap进行主机发现,获取靶机IP地址nmap192.168.47.1-254kali本机ip根据对比可知XXE的一个ip地址为192.168.134.134,并开放了80端口在浏览器访问http://192.168.134.134对网站进行目录和......
  • github上传遇到的错误
    https://blog.csdn.net/weixin_43629813/article/details/113824388https://blog.csdn.net/zamamiro/article/details/70172900?utm_medium=distribute.pc_relevant.none-task-blog-OPENSEARCH-5.baidujs&depth_1-utm_source=distribute.pc_relevant.none-task-blog-OPEN......
  • linux+jenkins+github+.net core CI/CD 快速部署
    目标:代码提交后,在jenkins点击build,编译通过后能让linux更新.netcore文件和重新运行 步骤:1.腾讯云搞一台免费linux服务器:https://cloud.tencent.com/2.服务上安装jenkinshttps://www.jenkins.io/doc/book/installing/linux/#red-hat-centos3.腾讯云防火墙开放8080端口,另一......
  • 我正在尝试通过编辑 github 上的代码来解决我下载的验证码图像
    importkerasimportpandasaspdimportnumpyasnpimportcv2importglobimportimutilsfromimutilsimportpathsimportosimportos.pathimportsysimporttensorflowprint(os.getcwd())os.environ['TF_ENABLE_ONEDNN_OPTS']='0'cap......
  • 解决国内 github.com 打不开的最最最准确方法
    我们编程的有时候打不开github.com,很运费,我有一个方法,试了,可以。如果有谁也打不开也可以试试。1、打开网站https://tool.chinaz.com/dns/,在A类型填写github.com,点击按钮【立即检测】。2、下拉,看到如下界面。3、随便复制一个IP地址,打开C:\Windows\System32\drivers\etc......
  • 优化 GitHub 体验的浏览器插件「GitHub 热点速览」
    上周,GitHub有个“安全问题”——CFOR(CrossForkObjectReference)冲上了热搜,该问题的表现是:远程仓库的提交内容任何人可以访问,即使已被删除。只需要拿到commitID+源/Fork的项目地址,任何人都能访问之前提交到远程仓库的内容。下面有3个演示,可以复现该问题:演示一:Fork项目......
  • 【Vulnhub靶机之Hackme】
     第一步:打开靶机 第二步:查看虚拟靶机ip、第三步:查看连接80端口的ip第四步:扫描出靶机的ip地址第五步:扫描靶机地址下的目录访问login.php目录点击注册点击,可以看到许多的书名 第六步:使用burpsuite抓包在111后面加*号保存抓到的文件为post.txt第七步:使用......
  • 【Vulnhub靶场AI-WEB-1.0打靶教程】
     第一步:查看虚拟机的ip第二步:扫描ip下开放的80端口第三步:扫描查到的ip地址下的目录第四步:访问查到的目录访问robot.txt第五步:访问robot.txt显示出的目录第六步:打开kali终端,使用sqlmap功能sqlmap-u"http://192.168.189.153/se3reTdir777/index.php"-data"uid=......
  • 【Vulnhub靶机tomato渗透】
    第一步:端口扫描我使用的是webrobot访问这个ip,就是它了 第二步:目录扫描打开kali使用dirb命令扫描http://192.168.189.154下的目录dirbhttp://192.168.189.154扫描到目录。第三步:访问目录地址看到有几个php的文件第四步:查看访问php的文件我查看的antibot.php是......