首页 > 其他分享 >SpringBoot 解析 Html

SpringBoot 解析 Html

时间:2022-08-25 10:51:11浏览次数:82  
标签:SpringBoot Html jsoup HTML org 解析 选择器

使用JSOUP来解析Html网页

从网上搜了搜看了下 大部分的排版都不是特别好!!! 所以我从新写一个。

点击进入JSOUP的官网

jsoup:Java HTML 解析器

jsoup是一个用于处理真实世界 HTML 的 Java 库。它使用最好的 HTML5 DOM 方法和 CSS 选择器提供了一个非常方便的 API,用于获取 URL 以及提取和操作数据。

可以从 URL、文件或字符串中抓取和解析HTML
使用 DOM 遍历或 CSS 选择器查找和提取数据
操作HTML 元素、属性和文本
根据安全列表清理用户提交的内容,以防止XSS攻击
输出整洁的 HTML
jsoup 旨在处理各种常见的 HTML;从原始和验证到无效标签汤;jsoup 将创建一个合理的解析树。

下面是基本的使用方法

要实现的目标

image

代码实现

1、引入pom依赖
`

<!--Jsoup解析html-->
    <dependency>
        <groupId>org.jsoup</groupId>
        <artifactId>jsoup</artifactId>
        <version>1.12.1</version>
    </dependency>

`

2、编写测试类

@Test
    public void ReferenceCount() throws IOException {
        // 创建对象 获取网页信息
        Document doc = Jsoup.connect("https://jsoup.org/").get();
        log.info(doc.title());
        // 使用选择器语法查找元素
        Elements newsHeadlines = doc.select("a.badge");
        for (Element headline : newsHeadlines) {
            // 获取元素的链接地址
            String href = headline.absUrl("href");
            // 打印
            log.info(href);
        }
    }

3、执行

2022-08-25 10:30:01.022 INFO 12644 --- [ main] test : https://whatwg.org/html 正常输入目标链接
2022-08-25 10:30:01.022 INFO 12644 --- [ main] test : https://www.opensource.org/ 正常输入目标链接

更多的元素选择操作可以看JSOUP方法的博客

标签:SpringBoot,Html,jsoup,HTML,org,解析,选择器
From: https://www.cnblogs.com/StrangerM/p/16623443.html

相关文章

  • HTML基础(三):列表、表格、表单标签学习
    列表标签列表的应用场景场景:在网页中按照行展示关联性内容,如新闻列表、排行榜、账单等特点:按照行的方式整齐显示内容种类:有序列表、无序列表、自定义列表无序列表......
  • springboot中Filter的使用
    1.bean注入过滤器@BeanpublicFilterRegistrationBeancompanyUrlFilterRegister(){FilterRegistrationBeanregistration=newFilterRegistrationBea......
  • springBoot使用过滤器进行权限认证和静态资源放行
    importjava.io.IOException;importjava.util.HashSet;importjava.util.Set;importjavax.servlet.Filter;importjavax.servlet.FilterChain;importjavax.servl......
  • SpringBoot项目requestId生成/日志打印
    原因SpringBoot项目中的默认日志框架SLF4J,在打印日志时,每行数据都有一个请求ID,这样会方便追踪日志。也可以使用一些链路追踪框架来实现这种目的。实现SLF4J里有一个MDC......
  • javaWeb-HTML
    HTML基础标签字体大小(<h1>---<h6>)<h1>我是h1</h1><h2>我是h1</h2><h3>我是h1</h3><h4>我是h1</h4><h5>我是h1</h5><h6>我是h1</h6>换行<hr>......
  • HTML编辑器粘贴图片自动上传到服务器(Java版)
    ​如何做到ueditor批量上传word图片?1、前端引用代码<!DOCTYPE html PUBLIC "-//W3C//DTDXHTML1.0Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-......
  • SpringBoot Excel导入导出
    一、引入pom.xml依赖<!--lombok--><dependency><groupId>org.projectlombok</groupId><artifactId>lombok</artifactId><version>1.18.24</version><......
  • SpringBoot使用RabbitMq实现队列和延时队列
    闲来无事看了看RabbitMq的队列,总结了一些队列的实现方法,当然,免不了各种看别人的博客哈哈哈其中延时队列有两种方式,一种是使用TTl+死信队列实现,一种是直接用RabbitMq的官方......
  • html5 拖放功能
    html5拖放功能demoindex.html<!DOCTYPEhtml><htmllang="en"><head><metacharset="UTF-8"><metahttp-equiv="X-UA-Compatible"content="IE=edge"><meta......
  • html5 geolocation 地理定位
    html5获取经纬度,前提用户开启可获取权限 展示代码<!DOCTYPEhtml><htmllang="en"><head><metacharset="UTF-8"><metahttp-equiv="X-UA-Compatible"cont......