Java实现网络爬虫案例代码：从网上获取《三国演义》全文

时间：2022-09-22 16:55:06浏览次数：67

标签：java Java title 爬虫 content io new import 三国演义

案例：从网上获取《三国演义》全文

需求说明

搭建开发环境，实现《三国演义》全文保存在本地

步骤分析

1、访问网址：http://www.shicimingju.com/book/sanguoyanyi.html

2、分析网站URL、文档内容特征

3、获取网页内容

4、拆分出需求内容

5、保存在本地 D:\三国演义.txt

import java.io.BufferedReader;
import java.io.BufferedWriter;
import java.io.File;
import java.io.FileOutputStream;
import java.io.IOException;
import java.io.InputStreamReader;
import java.io.OutputStreamWriter;
import java.net.URL;
import java.util.regex.Matcher;
import java.util.regex.Pattern;

public class NovelDemo {

/**
* 1、根据小说存放位置创建file对象
* 2、根据网页结构编写正则，创建pattern对象
* 3、编写循环，创建向所有小说章节页面发起网络请求的url对象
* 4、网络流BufferReader
* 5、创建输入流
* 6、循环读取请求得到的内容，使用正则匹配其中的内容
* 7、将读取到的内容写入本地文件，知道循环结束
* 8、注意代码中的异常处理
*/

public static void main(String[] args) {
// 1、根据小说存放位置创建file对象
File file = new File("D:\\三国演义.txt");
if(!file.exists()){ //文件不存在则创建该文件
try {
file.createNewFile();
} catch (IOException e) {
e.printStackTrace();
}
}
// 2、根据网页结构编写正则，创建pattern对象
String regex_content = "<p.*?>(.*?)</p>";
String regex_title = "<h1>(.*?)</h1>";
Pattern p_content = Pattern.compile(regex_content);
Pattern p_title = Pattern.compile(regex_title);
Matcher m_content;
Matcher m_title;
// 3、编写循环，创建向所有小说章节页面发起网络请求的url对象
for (int i = 1; i <= 120; i++) {
System.out.println("第" + i + "章开始下载。。。");
try {
// 创建每一个页面的url对象
URL url = new URL
("http://www.shicimingju.com/book/sanguoyanyi/" + i + ".html");
// 创建网络读取流
BufferedReader reader = new BufferedReader(
new InputStreamReader(url.openStream(),
"utf8"));
// 4、读取网络内容网络流BufferReader
String str = null;
// 5、创建输入流
BufferedWriter writer = new BufferedWriter(
new OutputStreamWriter(new
FileOutputStream(file, true)));
while ((str = reader.readLine()) != null) {
m_title = p_title.matcher(str.toString());
m_content = p_content.matcher(str.toString());
// 获取小说标题并写入本地文件
Boolean isEx = m_title.find();
if (isEx) {
String title = m_title.group();
// 清洗得到的数据
title = title.replace("<h1>", "").replace(
"</h1>", "");
System.out.println(title);
writer.write("第" + i + "章：" + title +
"\n");
}
while (m_content.find()) {
String content = m_content.group();
// 清洗得到的数据
content = content.replace("<p>", "")
.replace("</p>", "")
.replace(" ", "")
.replace("?", "");
// 把小说内容写入文件
writer.write(content + "\n");
}
}
System.out.println("第" + i + "章下载完成.........");
writer.write("\n\n");
writer.close();
reader.close();
} catch (Exception e) {
System.out.println("下载失败");
e.printStackTrace();
}
}
}
}

标签：java,Java,title,爬虫,content,io,new,import,三国演义
From： https://www.cnblogs.com/xmxit/p/16719944.html

【查漏补缺】javascript中逗号操作符的拓展用法
1.背景：今天看Vue3文档，发现一个网格案例中有一段 reduce的写法和作用如下：arr.reduce((o,key)=>((o[key]=1),o),{})//目的==>将["name","power"]转......
JavaWeb--MySql基础：数据库概念、MySql前期基础、SQL基础语句、Navicat使用--2022年9月
第一节数据库1、数据库是什么存储和管理数据的仓库，数据是有组织的进行存储。数据库英文名是DataBase，简称DB2、数据库管理系统......
IDEA报错：java: Compilation failed: internal java compiler error
先保证你所有配置的版本一致如果这还不行，那就去Setting里面去找搞定......
简单模拟一个双向链表，用java实现
1packagecom.gsh.test05;23/**4*节点类5*@param<E>6*/7publicclassNode<E>{8privateNode<E>pre;9privateEelement;10......
JAVA方法
结构化编程：把一个大模块分成小模块，再把小模块分成更细的小模块，一个模块对应于一个单元。Modules（模块）:将一个复杂的系统划分为子模块，便于设计、实现和维护；Java中的程序模......
未来市场对JAVA的需求高吗？
目前java非常火，应用非常的广泛，是目前最火的行业之一，竞争很大，工资很高，未来发展也极好。Java语言跨平台、安全性等特点，成为众多大型项目应用中最理想的开发语言，Java程序员......
java反射前及反射后类的实例化等操作
什么是反射？java的反射就是利用Class对象在运行阶段获取任何类的各种信息，从而可以实例化对象，访问对象的方法和属性的这么一种机制。什么时候使用反射？在某种业务场景下，无......
ios逆向爬虫-入门保姆级-实战某博APP
ios逆向爬虫-入门保姆级-实战某博APP设备iPhone11,系统14.2Windows11工具Frida15.2.2frida-ios-dumpIda7.7流程手机越狱爱思助手安装目标APPCydia安装Frid......
Java中使用Hutool的ExecutorBuilder实现自定义线程池
场景Java中ExecutorService线程池的使用(Runnable和Callable多线程实现):https://blog.csdn.net/BADAO_LIUMANG_QIZHI/article/details/126242904SpringBoot+Lombok+Bui......
java学习笔记25
java数组数组的定义数组是相同类型数据的有序集合。数组描述的是相同类型的若干个数据按照一定的先后次序排列组合而成。其中，每一个数据称作一个数组元素，每个数组元素......

Java实现网络爬虫案例代码：从网上获取《三国演义》全文

相关文章

赞助商

阅读排行

Java实现网络爬虫 案例代码：从网上获取《三国演义》全文

相关文章

赞助商

阅读排行

Java实现网络爬虫案例代码：从网上获取《三国演义》全文