初识java爬虫

时间：2022-11-01 11:32:38浏览次数：35

标签：java 爬虫初识 br reader close new line conn

早上闲来无事，先总结一下昨天学到的最基本的的爬虫。首先说爬虫，其实就是向要爬取的网站发送一个http请求，取得反馈数据，然后解析数据，获得我们想要的数据。简单来说需要两步：首先抓取，即打开http链接，读数据，其实就是个网页。第二步，解析。

代码部分：首先new一个URL对象，并传入要爬取的网址，即URL url = new URL(网址）；然后初始化一个链接到那个url的链接。这里需要用到URLConnection抽象类，在这展示一下网上查到的URLConnection请求响应流程：

初识java爬虫_字符流

跟着这张图，接下来代码就是

HttpURLConnection conn = （HttpURLConnection）url.openConnection();

conn.setDoInput(true);

conn.setRequestMethod("GED");

在这我设置了一个User-Agent来欺骗服务器

conn.setRequestProPerty("User-Agent","Mozilla/4.0 (compatible; MSIE 5.0; Windows NT; DigExt)");

接着获取输入流

InputStream in = new InputStream();

然后将字节流转换为字符流，并且为字符流加上缓冲

InputStreamReader reader = new InputStreamReader(in,"utf-8");

BufferedReader br = new BufferedReader(reader);

然后返回读取结果,并将抓取到的每一行储存到data里面

String line,data;

 

 while((line = br.readLine()) != null){

 

  data += line;

 

 }

然后就是记得关流。

br.close();

 

 reader.close();

 

 input.close();

 

 conn.disconnect();

上面只是总结一下，具体代码如下：

public static String sendGet(String str) {
    String data = null;
    File dataFile = new File("D:\\dataFile.txt");
    try {
      URL url = new URL(str);
      //初始化一个链接到那个url的连接
      HttpURLConnection conn = (HttpURLConnection) url.openConnection();
      conn.setDoInput(true);
      conn.setRequestMethod("GET");
      //设置User-Agent来欺骗服务器
      conn.setRequestProperty("User-Agent", "Mozilla/4.0 (compatible; MSIE 5.0; Windows NT; DigExt)");
      //获取输入流
      InputStream input = conn.getInputStream();
      //将字节输入流转换为字符输入流
      InputStreamReader reader = new InputStreamReader(input,"utf-8");
      //为字符流添加缓冲
      BufferedReader br = new BufferedReader(reader); 
      //读取返回结果
      String line;
      while ((line = br.readLine()) != null) {
        // 遍历抓取到的每一行并将其存储到result里面
          data +="\n"+ line;
        
        
      }
      br.close();
      reader.close();
      input.close();
      conn.disconnect();
    } catch (Exception e) {
      e.printStackTrace();
    }
    return data;
    
    
  }

里面应该还有很多问题，欢迎各位大佬提出意见~

标签：java,爬虫,初识,br,reader,close,new,line,conn
From： https://blog.51cto.com/u_13351110/5812937

dubbo java.nio.channels.ClosedChannelException、com.alibaba.dubbo.remoting.Remot
客户端错误：com.alibaba.dubbo.rpc.RpcException:Invokeremotemethodtimeout.method:searchUser,provider:...cause:Waitingserver-sideresponsetimeoutbyscan......
JavaScript语法逻辑运算符和JavaScript三元运算符
5.逻辑运算符 &&||! *其他类型转boolean：1.number：0或NaN为假，其他为真2.string：除了空字符串("")，其他都是true......
JavaWeb学习（四）期中考试总结（方框形式超链接，对修改页面进行优化，多条件模糊查询、输入长
一、方框形式超链接 <inputtype="button"value="注册"onclick="location.href='zhuce.jsp'"/> 二、对修改页面进行优化<tr><td>活动主题（不超过20个汉......
unity3d：protobuf .java转.cs
服务器端定义好protobuf结构，放unity编辑器中生成.cs的结构usingSystem.Collections;usingSystem.Collections.Generic;usingUnityEngine;usingUnityEditor;usingSystem......
crontab定时清理文件,java日志,es记录等
简单运维开发环境硬件配置小,经常要清理空间.写个简单的清理脚本去运维.清理java日志.#cleanLog.sh#日志目录LOG_DIR=/path/to/logcd$LOG_DIR#历史日志......
五款Java后端快速开发平台
一、JeeSiteJeeSite最开始（2013年）是从Java内容管理系统、快速建站的需求开始的，那时候有挺多人宣称JeeSite太简单，分分钟写一个。JeeSite不断迭代，加入了在线代码生......
xxl-job 报：java.net.BindException: Address already in use: bind
在低版本的xxl-job中，初始化XxlJobSpringExecutor执行器需要在@Bean中加上initMethod="start",destroyMethod="destroy"，但是在高版本的xxl-job（如2.1.2）则需......
Java实验报告——教务系统（继承）
一、实验目的使学生进一步了解Java面向对象中继承、封装、抽象、重载的运用。二、实验内容1、设计教师、学生、课程这三个教务系统中的对象类，包括这些对象的属性和方法。实......
Java实现HTML页面截图功能
概述业务开发中，经常会有HTML页面截图，或打印另存为PDF文件的需求。本文即是HTML页面截图需求的技术调研过程的成文。不想看长篇大论的同学，可以直接看Selenium部分，本人最后也......
Java实验报告-计算器（AWT图形界面）
一、实验目的掌握图形用户界面的设计与实现。二、实验内容使用图形界面制作一个计算器并实现相应功能。三、实验步骤publicclassfirstappextendsAppletimplementsAc......

初识java爬虫

相关文章

赞助商

阅读排行