一般设计网站的时候,会有问题发布或者是内容发布的功能,这些功能的有一个很重要的点在于如何实现敏感词过滤,要不然可能会有不良信息的发布,或者发布的内容中有夹杂可能会有恶意功能的代码片段,敏感词过滤的基本的算法是前缀树算法,前缀树也就是字典树,通过前缀树匹配可以加快敏感词匹配的速度。
首先是过滤HTML代码,在Spring中有直接的函数可以使用:1
question.setContent(HtmlUtils.htmlEscape(question.getContent()));
实现的功能就是将html的代码进行转义后显示出来,使其失效。举一个具体的例子:如果有一串字符串为xwabfabcff,敏感词为abc、bf、bc,若这个字符串中包含敏感词,则使用***代替敏感词,实现一个算法。