【问题解决】Web在线办公系统-数据爬取结果乱码

时间：2024-09-20 14:21:02浏览次数：13

标签：Web Document url 乱码爬取 Jsoup new 编码方式 rawHTML

问题描述

在【热门电影】模块，通过jsoup爬虫并解析网页数据时，执行代码，出现“中文乱码”问题。

解决方法

由于网页自带的编码方式与后端开发中jsoup解析的编码方式不匹配，需要修改后端解析网页的编码方式。

 //设置爬取网页的地址
        String url="https://movie.douban.com/subject/6860160/";
		String rawHTML = null;
		try {
			rawHTML = getHTMLContent(url);
		} catch (IOException e) {
			e.printStackTrace();
		}		
		// 将当前页面转换成Jsoup的Document对象
//普通解析方式		Document doc = Jsoup.parse(rawHTML);
//设置编码方式为GBK	Document doc = Jsoup.parse(new URL(url).openStream(),"GBK",url);
//设置编码方式为UTF-8 Jsoup.parse(new URL(url).openStream(),"UTF-8",url);
		Document doc = Jsoup.parse(rawHTML);
// 获取所有电影列表集合，其中select方法内的参数为css选择器、HTML标签等
		Elements blogList = doc.select("#subject-doulist");
//获取整个网页源代码内容
		String title = blogList.text();
		
		List<List<String>> returnlists = null;
		// 针对每个内容进行解析，并输出
		for (Element element : blogList) {
//获取a标签
			Elements a=element.select("a");
			returnlists=new ArrayList<>();
			for (Element el : a) {
				List<String> list=new ArrayList<>();
//				获取标签内容，得到电影名称
				list.add(el.text());
				System.out.println("文章名称:" + el.text());
			}
}

豆瓣电影源代码

最新执行结果

标签：Web,Document,url,乱码,爬取,Jsoup,new,编码方式,rawHTML
From： https://blog.csdn.net/qq_57417926/article/details/142382981

传统WAF无法全面应对Web应用程序攻击，Web安全网关成为新首选
互联网时代，HTTP协议基本统治了整个互联网，web应用成为当下主流。随着企业数字化转型地不断深入，越来越多的企业业务应用系统被部署到互联网平台上。Web应用程序成为企业信息系统中最常见的应用程序之一，同时，也是最容易受到攻击的应用程序之一。据Gartner调查统计，2022年全球Web......
Web APIs 1：基础介绍+DOM+定时器
WebAPIs1（基础介绍+DOM）1.转变：变量声明const优先数组和对象尽量用const声明，当使用const声明像数组、对象等引用型数据类型时，因为地址不变，所以里面的内容可以随意改变2.API作用和分类作用：使用JS去操作html和浏览器分类：DOM(文档对象模型)、BOM(浏览器对象模型)3.DOM介绍......
写了一个全自动化漏洞扫描系统（poc_scan_web）
前言上一个网络安全产品《魔盒安全情报》会不定时给我推送各种最新的漏洞情报，于是就写了一个全自动化漏洞扫描系统。主要原理是通过空间测绘平台和搜索引擎自动采集目标资产，然后再通过封装好的漏洞插件扫描漏洞，最后将结果保存到数据库，再通过系统展示出来。截图任务管理添加......
JavaScript期末大作业基于HTML+CSS+JavaScript技术制作web前端开发个人博客(48页) (1
......
Websocket防护的重要性及应对策略：快快网络专家团队的创新实践
WebSocket（WSS）因其双向和全双工通信的特点，在现代网络通信中得到广泛应用，尤其是在需要低延迟和实时数据交互的场景中。然而，随着WebSocket的普及，其安全性问题也日益凸显，各种针对WSS的攻击手段层出不穷，给企业的数据安全带来了严峻的挑战。针对WSS的攻击具有多样性和隐蔽性。其中，最......
如何在 ASP.NET Core Web API 方法执行前后 “偷偷“ 作一些 “坏“ 事？初识 ActionFil
前言：什么是ActionFilterAttribute？ActionFilterAttribute是一种作用于控制器Action方法的特性（Attribute），通过它，你可以在操作执行前后、异常处理时等不同的阶段插入自定义逻辑。比如在执行操作方法之前修改请求参数、记录日志、进行权限验证等操作，在执行操作方法之后发送邮件......
ssm基于javaweb的疫情管理系统的设计与实现
系统包含：源码+论文所用技术：SpringBoot+Vue+SSM+Mybatis+Mysql免费提供给大家参考或者学习，获取源码请私聊我需要定制请私聊目录摘要 IAbstract II第1章绪论 11.1研究背景及意义 11.2研究内容 1第2章开发环境与技术 32.1Java语言 32.2MYSQL数据库 3......

【问题解决】Web在线办公系统-数据爬取结果乱码

问题描述

解决方法

最新执行结果

相关文章

赞助商

阅读排行