首页 > 其他分享 >【自然语言处理】第3部分:识别文本中的个人身份信息

【自然语言处理】第3部分:识别文本中的个人身份信息

时间:2024-01-02 12:37:47浏览次数:50  
标签:PII 文本 sequence ner 个人身份 架构师 自然语言 数据 我们


自我介绍

  • 做一个简单介绍,酒架年近48 ,有20多年IT工作经历,目前在一家500强做企业架构.因为工作需要,另外也因为兴趣涉猎比较广,为了自己学习建立了三个博客,分别是【全球IT瞭望】,【架构师酒馆】和【开发者开聊】,有更多的内容分享,谢谢大家收藏。
  • 企业架构师需要比较广泛的知识面,了解一个企业的整体的业务,应用,技术,数据,治理和合规。之前4年主要负责企业整体的技术规划,标准的建立和项目治理。最近一年主要负责数据,涉及到数据平台,数据战略,数据分析,数据建模,数据治理,还涉及到数据主权,隐私保护和数据经济。 因为需要,比如数据资源入财务报表,另外数据如何估值和货币化需要财务和金融方面的知识,最近在学习财务,金融和法律。打算先备考CPA,然后CFA,如果可能也想学习法律,备战律考。

【自然语言处理】第3部分:识别文本中的个人身份信息_python

在文本文档中查找个人身份信息(PII)可能很有用,原因有几个,但我多次遇到的一个用例是帮助匿名文本,以便:

  • 与第三方共享数据
  • 遵守GDPR等法规要求
  • 将PII替换为模拟数据,用作机器学习和其他探索性分析的训练数据

我将尝试自动化查找PII的过程,在本系列文章中,我们将探索一些流行的开源工具和技术,以便在我们自己的数据中识别不同类型的PII。

到目前为止,我们已经找到了查找人名、电子邮件地址、电话号码和信用卡号码的方法。让我们看看我们还能找到哪些其他类型的PII。

介绍Hugging Face

Hugging Face是一个流行的Python库,包含预先训练的人工智能模型,可用于各种自然语言处理(NLP)任务,包括命名实体识别(NER)。正如我们在前几篇文章中所讨论的,NER是一种非常有用的检测文本中PII的技术。

Python示例

让我们看看我们将如何使用拥抱脸。

先决条件:

应至少安装TensorFlow 2.0或PyTorch中的一个。然后在您选择的终端中键入以下内容:


pip install transformers


我们将尝试看看“拥抱脸”在识别某些文本中的位置方面做得有多好:


from transformers import pipeline

ner = pipeline("ner", grouped_entities=True)

sequence = "In west Philadelphia born and raised. On the playground was where I spent most of my days. "
sequence += "I got in one little fight and my mom got scared. "
sequence += "She said 'You're movin' with your auntie and uncle in Bel Air'!"

output = ner(sequence)

print(output)


让我们看看这个代码打印的内容:

[
 {'entity_group': 'LOC', 'score': 0.99.., 'word': 'Philadelphia', 'start': 8, 'end': 20}, 
 {'entity_group': 'LOC', 'score': 0.99.., 'word': 'Bel Air', 
 'start': 194, 'end': 201}
 ]

它只使用默认的英语语言模型和设置就很好地检测到了这两个位置词。给人印象深刻的

根据我的经验,“拥抱脸”在检测位置方面比我们迄今为止讨论的其他工具要好,所以如果发现位置对你来说很重要,那么一定要试一试。它非常灵活,周围有一个很大的社区,有很好的文档,并且被广泛使用。

结论

我们不仅继续将PII类型添加到我们能够找到的列表中,而且我们也在慢慢提高质量,给自己足够的知识来选择最适合这份工作的工具。

我们将在随后的文章中继续这段旅程,所以请观看此空间以获得更多刺激(嗯……我们中的一些人喜欢这些东西!)。

欢迎收藏  【全球IT瞭望】,【架构师酒馆】和【开发者开聊】.

标签:PII,文本,sequence,ner,个人身份,架构师,自然语言,数据,我们
From: https://blog.51cto.com/jiagoushipro/9067539

相关文章

  • 【自然语言处理】用Python从文本中删除个人信息-第二部分
    自我介绍做一个简单介绍,酒架年近48,有20多年IT工作经历,目前在一家500强做企业架构.因为工作需要,另外也因为兴趣涉猎比较广,为了自己学习建立了三个博客,分别是【全球IT瞭望】,【架构师酒馆】和【开发者开聊】,有更多的内容分享,谢谢大家收藏。企业架构师需要比较广泛的知识面,了解一个企业......
  • ElasticSearch 文本分析
    文本分析的原理分析器类别类别名介绍StandardAnalyzerstandard标准分析器,按照Unicode文本分割算法切分单词,删除大多数标点符号并将单词转为小写形式,支持过滤停用词SimpleAnalyzersimple简单分析器,在非字母的地方把单词切分开并将单词转为小写形式WhitespaceAnalyzerwhitespac......
  • ueditor 富文本编辑器粘贴图片时让图片居中
    需求今天碰到个需求,客户要求在把微信公众号中的文章粘贴到富文本框时将文字向左对齐,图片居中作为一个已经几年没碰前端的我来说有点头大,百度google了一番未果,只好自己研究去了花了2个多小时终于搞定话不多说,直接上代码主要是retainOnlyLabelPasted和filterRulesretainOnlyLabelP......
  • TinyMCE富文本编辑器粘贴图片自动上传问题解决
    TinyMCE编辑器支持粘贴图片,但是自动会将图片转换成base64编码,这样将内容提交到后台,数据会很大。  图|TinyMCE本文内容配置TinyMCE(版本:5.10.0)向编辑器中粘贴图片自动上传到后台,以下为配置代码:tinymce.init({selector:'#textarea',plugins:'previewautolinkdire......
  • 【AI 实战】Text Processing and Word Embedding 文本处理以及词嵌入原理和代码实例讲
    文章目录【AI实战】TextProcessingandWordEmbedding文本处理以及词嵌入原理和代码实例讲解TexttoSequenceStep1:TokenizationStep2:BuildDictionaryStep3:One-HotEncodingStep4:AlignSequencesTextProcessinginKerasWordEmbedding:WordtoVectorHowtom......
  • 使用 JavaScript 根据输入值调整输入字段 (HTML) 的 (CSS) 中的文本颜色
    可以通过以下代码使用JavaScript根据输入值调整输入字段的文本颜色:HTML:<inputtype="text"id="myInput"oninput="changeTextColor()"placeholder="Enteravalue">CSS:#myInput{color:black;}JavaScript:functionchangeTextColor......
  • Pinot 的高性能搜索和自然语言处理
    1.背景介绍Pinot是一种高性能的列式数据库,专为OLAP类型的数据处理而设计。它具有高性能的搜索和自然语言处理(NLP)功能,可以用于处理大规模的结构化和非结构化数据。在这篇文章中,我们将深入探讨Pinot的高性能搜索和自然语言处理的核心概念、算法原理、实例代码和未来发展趋势。1.1Pin......
  • 文本生成与自动摘要:技术的比较与综合
    1.背景介绍文本生成和自动摘要是两个重要的自然语言处理任务,它们在现实生活中有广泛的应用。文本生成涉及到根据给定的输入生成连续的文本,而自动摘要则涉及到对长篇文本进行摘要化,以便快速获取关键信息。随着深度学习和人工智能技术的发展,这两个任务在过去的几年里取得了显著的进展......
  • javaFx怎么把文本框里面的东西清空
    JavaFX清空文本框中的内容在JavaFX中,我们可以使用以下步骤来清空文本框中的内容:步骤1:创建文本框和按钮首先,我们需要在JavaFX应用程序中创建一个文本框和一个按钮。文本框用于输入文本,按钮用于触发清空操作。TextFieldtextField=newTextField();Buttonbutton=newButton......
  • Python实搞:自动给文本标注拼音并输出excel
    一、为什么要搞?前几天有同学在讨论家中小盆友的作业问题,说连一些拼音作业的难度已经超出了能力范围,感叹自己已经比不上现在的小学生了。听得滋滋有味的我又产生了一个大胆的想法:使用Python自动在每个文字的上方标注拼音预期输出示例如下:二、准备如何搞?查阅一番资料后,发现一个神奇的......