首页 > 其他分享 >【问题解决】Web在线办公系统-数据爬取结果乱码

【问题解决】Web在线办公系统-数据爬取结果乱码

时间:2024-09-20 14:21:02浏览次数:12  
标签:Web Document url 乱码 爬取 Jsoup new 编码方式 rawHTML

问题描述

在【热门电影】模块,通过jsoup爬虫并解析网页数据时,执行代码,出现“中文乱码”问题。

解决方法

由于网页自带的编码方式与后端开发中jsoup解析的编码方式不匹配,需要修改后端解析网页的编码方式。

 //设置爬取网页的地址
        String url="https://movie.douban.com/subject/6860160/";
		String rawHTML = null;
		try {
			rawHTML = getHTMLContent(url);
		} catch (IOException e) {
			e.printStackTrace();
		}		
		// 将当前页面转换成Jsoup的Document对象
//普通解析方式		Document doc = Jsoup.parse(rawHTML);
//设置编码方式为GBK	Document doc = Jsoup.parse(new URL(url).openStream(),"GBK",url);
//设置编码方式为UTF-8 Jsoup.parse(new URL(url).openStream(),"UTF-8",url);
		Document doc = Jsoup.parse(rawHTML);
// 获取所有电影列表集合,其中select方法内的参数为css选择器、HTML标签等
		Elements blogList = doc.select("#subject-doulist");
//获取整个网页源代码内容
		String title = blogList.text();
		
		List<List<String>> returnlists = null;
		// 针对每个内容进行解析,并输出
		for (Element element : blogList) {
//获取a标签
			Elements a=element.select("a");
			returnlists=new ArrayList<>();
			for (Element el : a) {
				List<String> list=new ArrayList<>();
//				获取标签内容,得到电影名称
				list.add(el.text());
				System.out.println("文章名称:" + el.text());
			}
}

 

豆瓣电影源代码 

最新执行结果

 

 

标签:Web,Document,url,乱码,爬取,Jsoup,new,编码方式,rawHTML
From: https://blog.csdn.net/qq_57417926/article/details/142382981

相关文章

  • 传统WAF无法全面应对Web应用程序攻击,Web安全网关成为新首选
    互联网时代,HTTP协议基本统治了整个互联网,web应用成为当下主流。随着企业数字化转型地不断深入,越来越多的企业业务应用系统被部署到互联网平台上。Web应用程序成为企业信息系统中最常见的应用程序之一,同时,也是最容易受到攻击的应用程序之一。据Gartner调查统计,2022年全球Web......
  • 使用webpack打包报ERROR in TypeError: Cannot read property ‘tap‘ of undefined
     https://github.com/DustinJackson/html-webpack-inline-source-plugin/issues/79错误原因因为webpack的版本号跟html-webpack-plugin的版本号不匹配,应该算是相互不兼容的原因就是说我现在webpack的版本号为4,而html-webpack-plugin的版本号是5。然后我在网上看的大佬的报错......
  • Web APIs 1:基础介绍+DOM+定时器
    WebAPIs1(基础介绍+DOM)1.转变:变量声明const优先数组和对象尽量用const声明,当使用const声明像数组、对象等引用型数据类型时,因为地址不变,所以里面的内容可以随意改变2.API作用和分类作用:使用JS去操作html和浏览器分类:DOM(文档对象模型)、BOM(浏览器对象模型)3.DOM介绍......
  • 写了一个全自动化漏洞扫描系统(poc_scan_web)
    前言上一个网络安全产品《魔盒安全情报》会不定时给我推送各种最新的漏洞情报,于是就写了一个全自动化漏洞扫描系统。主要原理是通过空间测绘平台和搜索引擎自动采集目标资产,然后再通过封装好的漏洞插件扫描漏洞,最后将结果保存到数据库,再通过系统展示出来。截图任务管理添加......
  • JavaScript期末大作业 基于HTML+CSS+JavaScript技术制作web前端开发个人博客(48页) (1
    ......
  • webpack打包学习
    在大多数JavaScript项目中,build 和 web 文件夹通常用于存放不同类型的文件。 build 文件夹:通常用于存放项目构建后的文件。这些文件是将源代码、资源和依赖打包、编译、压缩后生成的,主要是为了生产环境。 web 文件夹:通常用于存放项目的源代码和资源文件,如HTML、CS......
  • 常规web项目 docker-compose 例子
    version:'3.1'services:db:image:postgres:13.1container_name:com_dbenvironment:POSTGRES_USER:rootPOSTGRES_PASSWORD:db123POSTGRES_DB:dbvolumes:-/opt/work/DDDDD/platform/com_db/db_data:/var......
  • Websocket防护的重要性及应对策略:快快网络专家团队的创新实践
    WebSocket(WSS)因其双向和全双工通信的特点,在现代网络通信中得到广泛应用,尤其是在需要低延迟和实时数据交互的场景中。然而,随着WebSocket的普及,其安全性问题也日益凸显,各种针对WSS的攻击手段层出不穷,给企业的数据安全带来了严峻的挑战。针对WSS的攻击具有多样性和隐蔽性。其中,最......
  • 如何在 ASP.NET Core Web API 方法执行前后 “偷偷“ 作一些 “坏“ 事?初识 ActionFil
    前言:什么是ActionFilterAttribute?ActionFilterAttribute是一种作用于控制器Action方法的特性(Attribute),通过它,你可以在操作执行前后、异常处理时等不同的阶段插入自定义逻辑。比如在执行操作方法之前修改请求参数、记录日志、进行权限验证等操作,在执行操作方法之后发送邮件......
  • ssm基于javaweb的疫情管理系统的设计与实现
    系统包含:源码+论文所用技术:SpringBoot+Vue+SSM+Mybatis+Mysql免费提供给大家参考或者学习,获取源码请私聊我需要定制请私聊目录摘要 IAbstract II第1章绪论 11.1研究背景及意义 11.2研究内容 1第2章开发环境与技术 32.1Java语言 32.2MYSQL数据库 3......