首页 > 其他分享 >jsoup将富文本转化为纯文本

jsoup将富文本转化为纯文本

时间:2023-04-21 16:34:53浏览次数:34  
标签:document String jsoup html 文本 将富

1.添加jar包

        <dependency>
            <groupId>org.jsoup</groupId>
            <artifactId>jsoup</artifactId>
            <version>1.14.3</version>
        </dependency>

2.测试

public static void main(String[] args) {
        String html = "<p style=\"text-indent: 21.1pt;\"><strong>1.品种选用。</strong><span style=\"font-family: 宋体;\">选择适合于机械化作业的杂交稻品种﹐根据前作和生态区选择种子发芽率高、生育期偏短、株高适中、穗型中等、分蘖力较强的高产优质品种。</span></p>";
        Document document = Jsoup.parseBodyFragment(html);
        System.out.println(document.text());
    }

 

标签:document,String,jsoup,html,文本,将富
From: https://www.cnblogs.com/zcjyzh/p/17340869.html

相关文章

  • excel单元格日期类型改为文本类型
    步骤一:完成第一个单元格的初步转换在源日期列右侧插入一列,准备放置转换后的文本格式日期。然后在第一个日期对应的单元格输入公式“=text(A2,"yyyymmdd")”注:如果日期中还包含时、分、秒,则公式可改成“=text(A2,"yyyymmddhhmmss")”。其中的文本格式可以按自己的要求灵活运用,如“y......
  • Vue3 代码块高亮显示并可使用富文本编辑器编辑(highlight.js + wangEditor)
    在Vue项目中实现以下功能:  功能1.在页面中显示代码,并将其中的关键字高亮显示。  功能2.允许对代码块进行编辑,编辑时代码关键字也高亮显示。  功能3.可在编辑器中添加多个代码块,动态渲染代码关键字高亮。 Step1:安装所需插件(本文使用npm安装,若需使用其他方式请查......
  • 零样本文本分类应用:基于UTC的医疗意图多分类,打通数据标注-模型训练-模型调优-预测部署
    零样本文本分类应用:基于UTC的医疗意图多分类,打通数据标注-模型训练-模型调优-预测部署全流程。1.通用文本分类技术UTC介绍本项目提供基于通用文本分类UTC(UniversalTextClassification)模型微调的文本分类端到端应用方案,打通数据标注-模型训练-模型调优-预测部署全流程,可快速......
  • 文本处理工具
    文本处理工具文件查找在文件系统上查找符合条件的文件文件查找:非实时查找(数据库查找):locate实时查找:findlocate命令用于按照名称快速搜索文件所对应的位置,语法格式为“locate文件名称”。使用find命令进行全盘搜索虽然更准确,但是效率有点低。如果仅仅是想找一些常见的且又知道......
  • N1、Pytorch文本分类入门
    一、背景介绍¶本节是一个使用PyTorch实现的简单文本分类实战案例。在这个例子中,我们将使用AGNews数据集进行文本分类。AGNews(AG'sNewsTopicClassificationDataset)是一个广泛用于文本分类任务的数据集,尤其是在新闻领域。该数据集是由AG'sCorpusofNewsArticles收......
  • 中电金信:生成式AI热潮下,文本智能走向何方?
    突破通用人工智能场景,生成式AI正在向全行业应用进攻。一个脑筋急转弯,几个月前ChatGPT是这样回答的:然而,仅仅几个月的迭代,它的回答却让人出乎意料。看似调侃的对比背后实则是无数次模型训练的支撑。基于数据的激增和算法的提升,生成式AI可自主分析用户数据,输出具有逻辑性的文本、语音......
  • QT----富文本操作
    1.富文本主要的架构:2.最主要的光标切换函数moveCursor()3.不同行显示不同的背景,相同行显示不同的字体效果如下: 主要代码:QTextBlockFormatdefaultFormat=ui->textBrowser->textCursor().blockFormat();QTextCursorcursorRoot=ui->textBrowser->textCursor();......
  • 事件 jQuery 选择器 筛选器 样式操作 CSS操作 文本操作
    事件事件可以理解为:给HTML标签添加了一些额外的功能,并且能够触发JS的代码运行1.事件就是达到某个触发条件,自动触发的动作2.常用的事件 1.onclick:当用户点击某个对象是调用的事件句柄2.onfoucus:元素获取焦点3.onblur:元素失去焦点4.onchange:域的内容被改变5.onload:......
  • 基于线性支持向量机的词嵌入文本分类torch案例
    一、前言简介线性支持向量机,并使用线性支持向量机实现文本分类,输入文本通过词嵌入方法转换成浮点张量,给出torch案例线性支持向量机(LinearSupportVectorMachine,简称LinearSVM)是一种常用的分类算法,它通过一个超平面来将数据分成两类。对于线性可分的数据集,线性SVM......
  • 基于词嵌入方法的逻辑回归文本分类
    文本分类是否能用逻辑回归的方法?文本分类可以使用逻辑回归的方法。逻辑回归是一种用于二元分类的统计学习方法,它可以将输入的特征映射到一个概率值,用于判断输入数据属于哪一类。在文本分类中,我们可以将文本的特征表示为词袋模型或者TF-IDF向量,然后使用逻辑回归算法对这些特征......