首页 > 其他分享 >设计思路-铭感词过滤

设计思路-铭感词过滤

时间:2023-03-30 09:47:07浏览次数:31  
标签:弟弟 分词 小老弟 过滤 词库 录入 铭感 思路

需求

用户输入,如果是系统中管理员录入的铭感词则替换为***或者提示用户铭感词

 

方案一

将管理员录入的词库全部导入到分词词库,设置分词只分含有词库的词语

比如敏感词 弟弟,小老弟  输入 你好  则不返回  输入 你好小老弟 返回 [小老弟] 有返回则表示含有铭感词语 针对替换 分词框架都会返回start 和postion类似这样的位置

缺点:如果铭感词库比较多或者是saas场景 则会消耗大量内存

 

方案二

其实大量的中文词库分词框架都能分出来,只是有一些特殊的分不出来。我们只将这些特殊的导入词库

管理员录入敏感词 “弟弟”

则我们自行组织成一句话

"测试铭感词分词弟弟" 假设弟弟是特殊字符 ik分词不了,

交给分词器 比如ik 当判断分词后的结果不包含弟弟,  则将弟弟2个字录入ik词库

 

当用户输入 “你好弟弟”  因为录入了词库 分词 [你好,弟弟]  拿这2个字去数据库in  如果找到则表示是铭感词 做后续逻辑

缺点:相较第一种依赖了数据库去匹配是否是铭感词

 

标签:弟弟,分词,小老弟,过滤,词库,录入,铭感,思路
From: https://www.cnblogs.com/LQBlog/p/17271396.html

相关文章

  • sql 过滤重复字段,取最早或最新记录
    --可以将重复字段,取最早的一次,同理,也可以取时间最新的一次--方法一withtmpas(selectrow_number()over(partitionby分组字段orderby时间字段)i,......
  • redis-布隆过滤器(RBloomFilter)BloomFilter
    redisredisson布隆过滤器(RBloomFilter)导包<dependency><groupId>org.redisson</groupId><artifactId>redisson-spring-boot-starter</artifactId><versi......
  • 搜索面板和过滤数据(SearchPanel)
    搜索面板和过滤数据(SearchPanel)行政2023年3月2日约3分钟DBGridEh可以显示一个特殊的面板来搜索和过滤网格中的数据。在搜索模式下,网格在所有网格单元格中以......
  • 11.getshell常见思路与技巧
    getshell常见思路与技巧1、常规打点思路信息收集:绕开CDN找到所有靶标的真实IP找到所有目标真实的C段对所有的C段进行基础服务器的探测,端口的扫描、识别对所有目标的......
  • 2023MathorCup数学建模B题思路
    0B题思路(赛题出来以后第一时间分享)企鹅qun7144526211竞赛信息MathorCup高校数学建模挑战赛(以下简称“竞赛”)是由中国优选法统筹法与经济数学研究会主办的面向全日制......
  • 【笔记】李沐视频:大模型时代下做科研的四个思路
    LLaMA最近开源,分别开源了7e9,1.3e10,3.3e10,6.5e10四个参数量的模型。但是这里有意思的是,他们管自己的模型称为smallermodels。Google推出了22B的ViT1.Effi......
  • Winform/Csharp中筛选/过滤/判断点是否在面(区域)内-通过Where和Region
    场景在Redis中存储一些坐标数据,需要遍历这些坐标数据筛选出在某个区域范围内的坐标数据。System.Drawing.Region类https://learn.microsoft.com/zh-cn/dotnet/api/syste......
  • 简述四种线上环境建设思路
    由线下正式交付到线上之前,我们仍然会做很多的验证和稳定性保障工作。就生产环境、 灰度环境、预发环境、办公网生产环境这四种线上环境的建设进行分析。1、生产环境随着业......
  • 2023MathorCup数学建模A题思路
    0赛题思路(赛题出来以后第一时间分享)企鹅qun7144526211竞赛信息MathorCup高校数学建模挑战赛(以下简称“竞赛”)是由中国优选法统筹法与经济数学研究会主办的面向全日......
  • Redis中的BigKey问题:排查与解决思路
    本文已收录至Github,推荐阅读......