首页 > 编程语言 >用Java抓取天眼查公开失信人员信息

用Java抓取天眼查公开失信人员信息

时间:2023-12-25 11:34:48浏览次数:35  
标签:Java String URL 抓取 列表 HTML import con 天眼

做生意不管是大生意小生意讲究的是信用,如果信用不好的人,想必也没有人愿意和他做生意,最近我有几个朋友不是搞的装潢公司么,接了几个单子,想要问问通过一些信息能否查查对方是否是失信人员,当然都是通过正规渠道来的,还是老规矩,直接通过代码过去自动识别抓取。

用Java抓取天眼查公开失信人员信息_java

以下是一个简单的Java爬虫程序,使用了Jsoup库来解析HTML网页,并使用了Apache HttpClient库来发送HTTP请求:

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

import java.io.IOException;
import java.net.HttpURLConnection;
import java.net.URL;

public class Spider {
    public static void main(String[] args) {
        String url = "tianyancha失信人员信息采集";
        String 提取免费ip = "jshk.com.cn/mb/reg.asp?kefu=xjy&51cto";
        String proxyHost = "duoip";
        int proxyPort = 8000;

        try {
            // 创建一个URL对象
            URL obj = new URL(url);

            // 创建一个HttpURLConnection对象,并设置代理信息
            HttpURLConnection con = (HttpURLConnection) obj.openConnection();
            con.setRequestProperty("Proxy-Host", proxyHost);
            con.setRequestProperty("Proxy-Port", String.valueOf(proxyPort));

            // 发送GET请求,并获取响应码
            int responseCode = con.getResponseCode();
            System.out.println("Response Code : " + responseCode);

            // 判断响应码是否为200,如果是,则解析HTML网页
            if (responseCode == 200) {
                Document doc = Jsoup.parse(con.getInputStream());
                Elements elements = doc.select(".list li");

                // 遍历所有的列表项
                for (Element element : elements) {
                    // 获取列表项的HTML文本
                    String text = element.text();

                    // 输出列表项的文本
                    System.out.println(text);
                }
            } else {
                System.out.println("Failed to connect");
            }

        } catch (IOException e) {
            e.printStackTrace();
        }
    }
}

以下是对以上代码的每行的解释:

1、创建一个URL对象,指定要爬取的网页的URL。

2、创建一个HttpURLConnection对象,并设置代理信息。proxyHost是代理服务器的主机名,proxyPort是代理服务器的端口号。

3、发送GET请求,并获取响应码。如果响应码是200,则说明请求成功,可以继续解析HTML网页。

4、使用Jsoup的parse方法解析HTML网页。返回的是一个Document对象,可以使用这个对象选择和操作网页中的元素。

5、使用select方法选择所有列表项的元素。这个方法会返回一个Elements对象。

6、遍历所有的列表项。

7、使用text方法获取列表项的文本。

8、输出列表项的文本。

注意,以上代码只是一个简单的示例,实际的爬虫程序可能会更复杂,需要处理更多的异常和错误情况。在编写和使用爬虫程序时,请务必遵守适用的法律和法规,尊重网站的使用条款和隐私政策。

其实在我们生活中,不管做什么事情,讲诚信是最受人爱戴的,所有人的成功并非一日促成,而是通过自身的日积月累,同样的,学习也是一样。如果有更多爬虫方面的问题可以评论区交流交流。

标签:Java,String,URL,抓取,列表,HTML,import,con,天眼
From: https://blog.51cto.com/u_13488918/8964989

相关文章

  • java读取yaml文件并转化成json格式数据
    一、在maven项目中导入依赖<!--yaml文件转化成json格式--><dependency><groupId>org.yaml</groupId><artifactId>snakeyaml</artifactId><version>1.29</version></de......
  • java md5图片内容加密
    在Java中,你可以使用Java的内置类来生成MD5哈希值。下面是一个示例,展示了如何使用Java将图片内容进行MD5加密:importjava.io.*;importjava.security.*;publicclassImageToMD5{publicstaticvoidmain(String[]args){try{//读取图片文件......
  • 基于java斗车交易系统设计与实现
    21世纪的今天,随着社会的不断发展与进步,人们对于信息科学化的认识,已由低层次向高层次发展,由原来的感性认识向理性认识提高,管理工作的重要性已逐渐被人们所认识,科学化的管理,使信息存储达到准确、快速、完善,并能提高工作管理效率,促进其发展。论文主要是对斗车交易系统进行了介绍,包括......
  • Java面试小练(十二)
    1).@RequestParam、@RequestBody、@PathVariable是SpringMVC中处理请求参数的三个注解。@RequestParam:用于处理URL中的请求参数,如?name=value。通过@RequestParam注解,可以指定参数的名称、required、defaultValue等属性。@RequestBody:用于处理请求体中的数据,如JSON......
  • 十五.JAVA.MAP.工具类,泛型
    嵌套类/内置类/内部类/内部接口K:keyV:valueE:elementR:ReturnTypeT:typeMap<K,V>:存储的是键值对。每个键值对成为映射项(Entry);键唯一,值是可重复的;每个键最多只能映射到一个值。HashMap:键采用哈希表结构,允许null键null值,线程不安全Like......
  • 十六,JAVA IO流
    //static<T>List<T> emptyList()  //     返回空的列表(不可变的)。  //static<K,V>Map<K,V> emptyMap()  //     返回空的映射(不可变的)。  //static<T>Set<T> emptySet()  //     返回空的set(不可变的)。......
  • Java基础-Spring篇
    Spring框架的七大模块SpringCore:框架的最基础部分,提供IoC容器,对bean进行管理。SpringContext:继承BeanFactory,提供上下文信息,扩展出JNDI、EJB、电子邮件、国际化等功能。SpringDAO:提供了JDBC的抽象层,还提供了声明性事务管理方法。SpringORM:提供了JPA、JDO、Hibernate......
  • Java静态类
    在Java中,静态类是一种特殊的类,它不能被实例化。静态类主要用于工具类或实现某些特定功能,例如工厂模式中的工厂类。要声明一个静态类,可以使用static关键字,如下所示:java复制代码publicstaticclassStaticClass{//静态类的成员和方法}静态类的特点如下:不能被实......
  • java基础语法api之随机数的介绍以及案例应用
    一:概述在实际开发应用中,我们都会看到,有许多的场景中需要使用到随机不确定的数。在这时,我们就需要用到API中的Random类。二:具体说明<1>JDK_API帮助文档中的说明Random:-该类的实例用于生成随机数构造方法:-Random():创建一个新的随机数生成器成员方法-intnextInt(intbound):获......
  • JavaWebDay4
    一:maven什么是maven:maven是apache旗下的一个开源项目,是一款用于管理和构建Java项目的工具maven的作用:MAVEN项目的目录配置maven的环境的两种方法 导入meaven所写的exclusion应该在不想间接依赖的外面级写,比如a依赖b,b依赖c,那么不想要c的时候则在写依赖b的后面写ex......