SpringBoot-基于DFA算法实现敏感词过滤

时间：2024-10-23 11:18:53浏览次数：3

标签：Map curMap SpringBoot int text String 算法 DFA wordMap

基于DFA实现敏感词过滤

笔记部分来源自黑马程序员

DFA全称为：Deterministic Finite Automaton,即确定有穷自动机。

存储：一次性的把所有的敏感词存储到了多个map中，就是下图表示这种结构

敏感词：冰毒、大麻、大坏蛋

在这里插入图片描述

检索的过程
在这里插入图片描述

开始实现

1、创建数据库表

CREATE TABLE `sensitive`
(
    `id`           int(11) unsigned NOT NULL AUTO_INCREMENT COMMENT '主键',
    `sensitives`   varchar(10) COLLATE utf8mb4_unicode_ci DEFAULT NULL COMMENT '敏感词',
    `created_time` datetime                               DEFAULT NULL COMMENT '创建时间',
    PRIMARY KEY (`id`) USING BTREE
)

记得在配置文件配置好数据库，还有配置好Mysql和Mybits依赖

2、实体类

@Data
public class Sensitive implements Serializable {
    /**
     * 主键
     */
    private Integer id;

    /**
     * 敏感词
     */
    private String sensitives;

    /**
     * 创建时间
     */
    private Date createdTime;

}

3、DFA工具类（核心）

SensitiveWordUtil

import java.util.*;
public class SensitiveWordUtil {
    public static Map<String, Object> dictionaryMap = new HashMap<>();
    /**
     * 生成关键词字典库
     * @param words
     * @return
     */
    public static void initMap(Collection<String> words) {
        if (words == null) {
            System.out.println("敏感词列表不能为空");
            return ;
        }
        // map初始长度words.size()，整个字典库的入口字数(小于words.size()，因为不同的词可能会有相同的首字)
        Map<String, Object> map = new HashMap<>(words.size());
        // 遍历过程中当前层次的数据
        Map<String, Object> curMap = null;
        Iterator<String> iterator = words.iterator();

        while (iterator.hasNext()) {
            String word = iterator.next();
            curMap = map;
            int len = word.length();
            for (int i =0; i < len; i++) {
                // 遍历每个词的字
                String key = String.valueOf(word.charAt(i));
                // 当前字在当前层是否存在, 不存在则新建, 当前层数据指向下一个节点, 继续判断是否存在数据
                Map<String, Object> wordMap = (Map<String, Object>) curMap.get(key);
                if (wordMap == null) {
                    // 每个节点存在两个数据: 下一个节点和isEnd(是否结束标志)
                    wordMap = new HashMap<>(2);
                    wordMap.put("isEnd", "0");
                    curMap.put(key, wordMap);
                }
                curMap = wordMap;
                // 如果当前字是词的最后一个字，则将isEnd标志置1
                if (i == len -1) {
                    curMap.put("isEnd", "1");
                }
            }
        }

        dictionaryMap = map;
    }

    /**
     * 搜索文本中某个文字是否匹配关键词
     * @param text
     * @param beginIndex
     * @return
     */
    private static int checkWord(String text, int beginIndex) {
        if (dictionaryMap == null) {
            throw new RuntimeException("字典不能为空");
        }
        boolean isEnd = false;
        int wordLength = 0;
        Map<String, Object> curMap = dictionaryMap;
        int len = text.length();
        // 从文本的第beginIndex开始匹配
        for (int i = beginIndex; i < len; i++) {
            String key = String.valueOf(text.charAt(i));
            // 获取当前key的下一个节点
            curMap = (Map<String, Object>) curMap.get(key);
            if (curMap == null) {
                break;
            } else {
                wordLength ++;
                if ("1".equals(curMap.get("isEnd"))) {
                    isEnd = true;
                }
            }
        }
        if (!isEnd) {
            wordLength = 0;
        }
        return wordLength;
    }

    /**
     * 获取匹配的关键词和命中次数
     * @param text
     * @return
     */
    public static Map<String, Integer> matchWords(String text) {
        Map<String, Integer> wordMap = new HashMap<>();
        int len = text.length();
        for (int i = 0; i < len; i++) {
            int wordLength = checkWord(text, i);
            if (wordLength > 0) {
                String word = text.substring(i, i + wordLength);
                // 添加关键词匹配次数
                if (wordMap.containsKey(word)) {
                    wordMap.put(word, wordMap.get(word) + 1);
                } else {
                    wordMap.put(word, 1);
                }
                i += wordLength - 1;
            }
        }
        return wordMap;
    }

}

4、实现业务方法

Mapper

这里用了Mybatis-plus

@Mapper
public interface WmSensitiveMapper {
    @Select("select * from leadnews_wemedia.wm_sensitive")
    List<WmSensitive> getSensitiveAll();
}

开始判断：

@Autowired
private SensitiveMapper SensitiveMapper;
// 敏感词审核
private boolean handleSensitiveScan(String content) {
    //从数据库获取所有的敏感词
    List<Sensitive> Sensitives = SensitiveMapper.getSensitiveAll();
    List<String> sensitiveList = Sensitives.stream().map(Sensitive::getSensitives).collect(Collectors.toList());
    //初始化敏感词库
    SensitiveWordUtil.initMap(sensitiveList);
    //查看文章中是否包含敏感词
    Map<String, Integer> map = SensitiveWordUtil.matchWords(content);
    if(map.size() >0)
        return false;
    return true;
}

完成

标签：Map,curMap,SpringBoot,int,text,String,算法,DFA,wordMap
From： https://blog.csdn.net/2301_81717523/article/details/143092825

代码随想录算法训练营第八天|leetcode344.反转字符串、leetcode541. 反转字符串II、卡
1leetcode344.反转字符串题目链接：344.反转字符串-力扣（LeetCode）文章链接：代码随想录视频链接：字符串基础操作！|LeetCode：344.反转字符串_哔哩哔哩_bilibili自己的思路：直接使用python的内置函数reverse进行一个操作1.1自己的代码1.1.1python的内置函数classSolution:......
金融风控算法--算法就业的另一选择？
1.背景一聊起算法，很多人便会想到神经网络、深度学习这些，那算法相关的行业领域，那便只有图像处理、文字识别、搜广推几类，但其实风控算法未尝不是一个工作选择的好赛道。从最早的信贷活动开始，从业者一直使用基于人工经验的方法来评估风险。然而，随着20世纪50年代美国信用卡的迅......
原创计算机毕业设计—58671 基于SpringBoot的健康管理系统（源码免费领）小程序、APP、JAV
摘要随着我国经济迅速发展，人们对手机的需求越来越大，各种手机软件也都在被广泛应用，但是对于手机进行数据信息管理，对于手机的各种软件也是备受用户的喜爱，健康管理系统被用户普遍使用，为方便用户能够可以随时进行健康管理系统的数据信息管理，特开发了基于springboot的健康管理系......
SpringBoot养老知识考试管理系统-计算机毕业设计源码86305
摘要随着人口老龄化趋势的加剧，老年人的健康管理和养老知识学习变得尤为重要。然而，传统的养老知识教育方式存在信息不对称、资源有限等问题，无法满足老年人广泛的学习需求。因此，本系统旨在利用互联网技术，为老年人提供便捷的养老知识学习和考试平台，帮助他们掌握养老知识、提高健......
springboot微信点餐小程序-计算机毕业设计源码93176
目录摘要1绪论1.1研究背景1.2 研究意义1.3微信开发者工具介绍2 系统分析2.1可行性分析2.2系统流程分析2.2.1数据新增流程2.2.2 数据删除流程2.3 系统功能分析2.4 系统用例分析3系统总体设计3.1 系统功能模块设计3.2 数据库设计......
SpringBoot:Invalid bound statement (not found)的原因和解决方案
检查你的resources文件下的配置com.csi.mapper错误写法：正确写法：检查你的文件是否是一层套一层，点击Explorer......
Springboot集成阿里云短信实现短信发送功能（保姆级教程）
Springboot集成阿里云短信实现短信发送功能概要Springboot集成阿里云短信实现短信发送功能涉及：pom引用，相关功能类，短信模板配置，demo方法等1，pom.xml<dependency><groupId>com.aliyun.oss</groupId><artifactId>aliyun-sdk-oss</artifactId><version>3.10.2......
基于SpringBoot+Vue的大数据技术的宠物商品信息比价及推荐系统(源码+LW+调试文档+讲解
在宠物经济日益繁荣的今天，为宠物主人提供一个高效的宠物商品信息比价及推荐系统至关重要。本系统基于SpringBoot+Vue并结合大数据技术，为宠物主人带来全新的购物体验。在设计上，系统广泛收集各类宠物商品的信息，包括价格、品牌、规格、用户评价等。通过大数据分析，对不同......
基于SpringBoot+Vue的大数据高乐健身器材销售数据可视化系统设计与实现(源码+LW+调试
在健身热潮持续升温的当下，健身器材销售数据的有效管理和分析至关重要。本系统基于SpringBoot+Vue并结合大数据技术，为高乐健身器材的销售管理提供强大的可视化解决方案。在设计上，系统全面收集高乐健身器材的销售数据，包括产品种类、销售数量、销售地区、销售时间等多维......
【开题报告】基于Springboot+vue中医古方名方信息管理系统（程序+源码+论文) 计算机毕业
本系统（程序+源码）带文档lw万字以上文末可获取一份本项目的java源码和数据库参考。系统程序文件列表开题报告内容研究背景中医作为中华民族的传统医学，承载着丰富的历史文化底蕴与独特的医疗智慧。在历史的长河中，无数中医先辈通过临床实践，总结出了大量疗效显著的古方名方，这......