用Java抓取天眼查公开失信人员信息

时间：2023-12-25 11:34:48浏览次数：43

标签：Java String URL 抓取列表 HTML import con 天眼

做生意不管是大生意小生意讲究的是信用，如果信用不好的人，想必也没有人愿意和他做生意，最近我有几个朋友不是搞的装潢公司么，接了几个单子，想要问问通过一些信息能否查查对方是否是失信人员，当然都是通过正规渠道来的，还是老规矩，直接通过代码过去自动识别抓取。

用Java抓取天眼查公开失信人员信息_java

以下是一个简单的Java爬虫程序，使用了Jsoup库来解析HTML网页，并使用了Apache HttpClient库来发送HTTP请求：

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

import java.io.IOException;
import java.net.HttpURLConnection;
import java.net.URL;

public class Spider {
    public static void main(String[] args) {
        String url = "tianyancha失信人员信息采集";
        String 提取免费ip = "jshk.com.cn/mb/reg.asp?kefu=xjy&51cto";
        String proxyHost = "duoip";
        int proxyPort = 8000;

        try {
            // 创建一个URL对象
            URL obj = new URL(url);

            // 创建一个HttpURLConnection对象，并设置代理信息
            HttpURLConnection con = (HttpURLConnection) obj.openConnection();
            con.setRequestProperty("Proxy-Host", proxyHost);
            con.setRequestProperty("Proxy-Port", String.valueOf(proxyPort));

            // 发送GET请求，并获取响应码
            int responseCode = con.getResponseCode();
            System.out.println("Response Code : " + responseCode);

            // 判断响应码是否为200，如果是，则解析HTML网页
            if (responseCode == 200) {
                Document doc = Jsoup.parse(con.getInputStream());
                Elements elements = doc.select(".list li");

                // 遍历所有的列表项
                for (Element element : elements) {
                    // 获取列表项的HTML文本
                    String text = element.text();

                    // 输出列表项的文本
                    System.out.println(text);
                }
            } else {
                System.out.println("Failed to connect");
            }

        } catch (IOException e) {
            e.printStackTrace();
        }
    }
}

以下是对以上代码的每行的解释：

1、创建一个URL对象，指定要爬取的网页的URL。

2、创建一个HttpURLConnection对象，并设置代理信息。proxyHost是代理服务器的主机名，proxyPort是代理服务器的端口号。

3、发送GET请求，并获取响应码。如果响应码是200，则说明请求成功，可以继续解析HTML网页。

4、使用Jsoup的parse方法解析HTML网页。返回的是一个Document对象，可以使用这个对象选择和操作网页中的元素。

5、使用select方法选择所有列表项的元素。这个方法会返回一个Elements对象。

6、遍历所有的列表项。

7、使用text方法获取列表项的文本。

8、输出列表项的文本。

注意，以上代码只是一个简单的示例，实际的爬虫程序可能会更复杂，需要处理更多的异常和错误情况。在编写和使用爬虫程序时，请务必遵守适用的法律和法规，尊重网站的使用条款和隐私政策。

其实在我们生活中，不管做什么事情，讲诚信是最受人爱戴的，所有人的成功并非一日促成，而是通过自身的日积月累，同样的，学习也是一样。如果有更多爬虫方面的问题可以评论区交流交流。

标签：Java,String,URL,抓取,列表,HTML,import,con,天眼
From： https://blog.51cto.com/u_13488918/8964989

java读取yaml文件并转化成json格式数据
一、在maven项目中导入依赖<dependency><groupId>org.yaml</groupId><artifactId>snakeyaml</artifactId><version>1.29</version></de......
java md5图片内容加密
在Java中，你可以使用Java的内置类来生成MD5哈希值。下面是一个示例，展示了如何使用Java将图片内容进行MD5加密：importjava.io.*;importjava.security.*;publicclassImageToMD5{publicstaticvoidmain(String[]args){try{//读取图片文件......
基于java斗车交易系统设计与实现
21世纪的今天，随着社会的不断发展与进步，人们对于信息科学化的认识，已由低层次向高层次发展，由原来的感性认识向理性认识提高，管理工作的重要性已逐渐被人们所认识，科学化的管理，使信息存储达到准确、快速、完善，并能提高工作管理效率，促进其发展。论文主要是对斗车交易系统进行了介绍，包括......
Java面试小练(十二)
1).@RequestParam、@RequestBody、@PathVariable是SpringMVC中处理请求参数的三个注解。@RequestParam：用于处理URL中的请求参数，如?name=value。通过@RequestParam注解，可以指定参数的名称、required、defaultValue等属性。@RequestBody：用于处理请求体中的数据，如JSON......
十五.JAVA.MAP.工具类，泛型
嵌套类/内置类/内部类/内部接口K:keyV:valueE:elementR:ReturnTypeT:typeMap<K,V>:存储的是键值对。每个键值对成为映射项(Entry);键唯一,值是可重复的；每个键最多只能映射到一个值。HashMap:键采用哈希表结构,允许null键null值,线程不安全Like......
十六,JAVA IO流
//static<T>List<T> emptyList() // 返回空的列表（不可变的）。 //static<K,V>Map<K,V> emptyMap() // 返回空的映射（不可变的）。 //static<T>Set<T> emptySet() // 返回空的set（不可变的）。......
Java基础-Spring篇
Spring框架的七大模块SpringCore：框架的最基础部分，提供IoC容器，对bean进行管理。SpringContext：继承BeanFactory，提供上下文信息，扩展出JNDI、EJB、电子邮件、国际化等功能。SpringDAO：提供了JDBC的抽象层，还提供了声明性事务管理方法。SpringORM：提供了JPA、JDO、Hibernate......
Java静态类
在Java中，静态类是一种特殊的类，它不能被实例化。静态类主要用于工具类或实现某些特定功能，例如工厂模式中的工厂类。要声明一个静态类，可以使用static关键字，如下所示：java复制代码publicstaticclassStaticClass{//静态类的成员和方法}静态类的特点如下：不能被实......
java基础语法api之随机数的介绍以及案例应用
一：概述在实际开发应用中，我们都会看到，有许多的场景中需要使用到随机不确定的数。在这时，我们就需要用到API中的Random类。二：具体说明<1>JDK_API帮助文档中的说明Random：-该类的实例用于生成随机数构造方法：-Random()：创建一个新的随机数生成器成员方法-intnextInt(intbound)：获......
JavaWebDay4
一：maven什么是maven：maven是apache旗下的一个开源项目，是一款用于管理和构建Java项目的工具maven的作用：MAVEN项目的目录配置maven的环境的两种方法导入meaven所写的exclusion应该在不想间接依赖的外面级写，比如a依赖b，b依赖c，那么不想要c的时候则在写依赖b的后面写ex......

用Java抓取天眼查公开失信人员信息

相关文章

赞助商

阅读排行