首页 > 编程语言 >java解析html代码,采集网页信息

java解析html代码,采集网页信息

时间:2024-06-04 11:31:15浏览次数:31  
标签:body 网页 HTML li html 文档 java div 选择器

通常情况下,多采用python进行爬虫编写,但是如果在java项目中也有类似需求应该如何操作呢?

本文讲简单介绍一种解析html代码,采集网页信息的思路。

本文根据以某网站为例,简单讲述一下采集的流程以及需要用到的知识点。

 <!--解析HTML工具包-->

        <dependency>

            <groupId>org.jsoup</groupId>

            <artifactId>jsoup</artifactId>

            <version>1.14.3</version>

        </dependency>

Jsoup库简介

Jsoup是一个用于处理HTML的Java库,可以用来解析、操作和生成HTML文档。它提供了非常方便的API来解析HTML文档,提取数据,修改内容,以及生成新的HTML文档。

Document对象

Document是Jsoup中的一个核心类,它代表了整个HTML文档。

一旦你有了一个Document对象,你可以使用各种方法来选择元素、获取属性、改变内容等。例如,你可以使用doc.select("a")来选取文档中所有的<a>标签,或者使用doc.body()来获取文档的<body>部分。

析HTML文档

Jsoup.parse()方法用于解析HTML内容并将其转换为一个可操作的Document对象。这个方法可以接受多种类型的参数:字符串(HTML内容)、文件路径、URL等。

1.

选择某网站,首先应该分析网站的结构,并根据自己的需求希望获取到的数据信息。

2. 

按下F12,点解左上角选择按钮,选择到想要截取的部分,点击右侧html代码部分右键,复制选择器。

对于每个公告选择出来的选择器,我们通过观察可以看出:

body > div.mainBox.clearfix > div.container.listBox > div.pageList.newsList.news-list-yw > ul > li:nth-child(1)

body > div.mainBox.clearfix > div.container.listBox > div.pageList.newsList.news-list-yw > ul > li:nth-child(2)

body > div.mainBox.clearfix > div.container.listBox > div.pageList.newsList.news-list-yw > ul > li:nth-child(3)

body > div.mainBox.clearfix > div.container.listBox > div.pageList.newsList.news-list-yw > ul > li:nth-child(4)

3.

我们可以通过body > div.mainBox.clearfix > div.container.listBox > div.pageList.newsList.news-list-yw > ul > li 选择器来依次遍历选择到每一个公告的html代码。

4.

如果我们选择器选择的是:body > div.mainBox.clearfix > div.container.listBox > div.pageList.newsList.news-list-yw > ul > li:nth-child(1),则会选择到第一个公告。

5.

如上图多段相似结构html代码:<Li>…</Li>,在页面为多个公告。

6.

同样我们可以通过选择到具体信息的选择器来提取更为精细的内容。例如时间、 日期、公告名称等等,都可以用相同的方式去复制选择器,通过doc.select("a")来选取文档中所有的<a>标签,最终实现信息抓取的效果。

标签:body,网页,HTML,li,html,文档,java,div,选择器
From: https://blog.csdn.net/weixin_43149534/article/details/139359548

相关文章

  • JavaFX 常见布局组件的使用
    Laytout简介JavaFX提供了多种布局管理器(LayoutManagers),它们用于自动管理用户界面组件的位置和大小。布局管理器可以简化UI设计,因为它们会根据窗口的大小变化自动调整其中的组件。布局组件JavaFX包含以下布局组件:布局名称中文说明AnchorPane锚点布局允许开发......
  • Spring boot - 仅当 JavaMailSender 豆存在时自动配置
    我相信这应该很简单,但我想不通。我有一个这样的配置类:@Configuration@AutoConfigureAfter(MailSenderAutoConfiguration.class)公共类MyMailConfiguration{@Bean@ConditionalOnBean(JavaMailSender.class)publicMyMailermyMailer(JavaMailSender......
  • .NET mvc cshtml 如何调试
    原文链接:https://blog.51cto.com/u_16213388/7243295.NETMVCcshtml如何调试在使用.NETMVC开发网页应用程序时,cshtml文件是视图文件,用于定义页面的外观和布局。调试cshtml文件是非常重要的,因为它可以帮助我们定位和解决页面显示或逻辑问题。本文将介绍如何在.NETMVC......
  • Java数据结构-delayQueue-优先队列--信号量
    原编辑链接:https://www.yuque.com/zhaozhaozhaozhao-khkij/lp7g2t/blwysxg3ygb00dw6?singleDoc#《3delayqueue》Queue问题单端队列和双端队列,分别对应的实现类是哪个?○Java中的单项队列queue是用链表实现的,Queue本身是一个接口,继承了Collection集合;○双端队列(De......
  • Java 开发面试题精选:Netty 一篇全搞定
    前言在面试Java开发工程师时,技术面试官不仅会考察候选人对Netty理论知识的掌握程度,还会考察其实际应用能力和问题解决技能。在本篇文章精选的关于Netty的面试题目中,从基础到实战再到一些问题的处理分析,都有所覆盖,能较为全面评估出候选人对Netty的理解和应用能力。如果你......
  • 制作一个简单HTML旅游网站(HTML+CSS+JS)甘肃旅游网页设计与实现5个页面
    一、......
  • Java标识符 注意点⚠️
    标识符就是用于给Java程序中变量、类、方法等命名的符号所有的标识符都应该以字母(A-Z或者a-z),美元符($),或者下划线(_)开始StringAhello="";Stringahello="";String$hello="";String_hello="";标识符的首字符之后可以是字母(A-Z或者a-z),美......
  • 学习HTML
    2024-06-031.网页基本信息meta /ˈmet.ə/<!--HTML中注释格式--><!--文档规范为HTML,不标注也行因为浏览器默认规范就是HTML--><!DOCTYPEhtml><htmllang="en"><!--head标签代表网页头部--><head><!--meta描述性标签,用于描述网站的一些信息--><!-......
  • JavaScript 验证 API
    目录什么是JavaScript验证API常见的JavaScript验证API约束验证DOM方法getElementById()方法:getElementsByTagName()方法:getElementsByClassName()方法:querySelector()方法:querySelectorAll()方法setAttribute()方法:getAttribute()方法:removeAttribute()方......
  • Java 新特性在实际项目中的应用与优势
    Java的新特性在实际项目中的应用和优势主要体现在以下几个方面:Lambda表达式:Lambda表达式简化了代码编写,可以更方便地使用函数式编程的思想。在实际项目中,可以通过Lambda表达式简化集合的遍历、排序等操作,提高代码的可读性和开发效率。StreamAPI:StreamAPI提供了一种简......