做生意不管是大生意小生意讲究的是信用,如果信用不好的人,想必也没有人愿意和他做生意,最近我有几个朋友不是搞的装潢公司么,接了几个单子,想要问问通过一些信息能否查查对方是否是失信人员,当然都是通过正规渠道来的,还是老规矩,直接通过代码过去自动识别抓取。
以下是一个简单的Java爬虫程序,使用了Jsoup库来解析HTML网页,并使用了Apache HttpClient库来发送HTTP请求:
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
import java.io.IOException;
import java.net.HttpURLConnection;
import java.net.URL;
public class Spider {
public static void main(String[] args) {
String url = "tianyancha失信人员信息采集";
String 提取免费ip = "jshk.com.cn/mb/reg.asp?kefu=xjy&51cto";
String proxyHost = "duoip";
int proxyPort = 8000;
try {
// 创建一个URL对象
URL obj = new URL(url);
// 创建一个HttpURLConnection对象,并设置代理信息
HttpURLConnection con = (HttpURLConnection) obj.openConnection();
con.setRequestProperty("Proxy-Host", proxyHost);
con.setRequestProperty("Proxy-Port", String.valueOf(proxyPort));
// 发送GET请求,并获取响应码
int responseCode = con.getResponseCode();
System.out.println("Response Code : " + responseCode);
// 判断响应码是否为200,如果是,则解析HTML网页
if (responseCode == 200) {
Document doc = Jsoup.parse(con.getInputStream());
Elements elements = doc.select(".list li");
// 遍历所有的列表项
for (Element element : elements) {
// 获取列表项的HTML文本
String text = element.text();
// 输出列表项的文本
System.out.println(text);
}
} else {
System.out.println("Failed to connect");
}
} catch (IOException e) {
e.printStackTrace();
}
}
}
以下是对以上代码的每行的解释:
1、创建一个URL对象,指定要爬取的网页的URL。
2、创建一个HttpURLConnection对象,并设置代理信息。proxyHost是代理服务器的主机名,proxyPort是代理服务器的端口号。
3、发送GET请求,并获取响应码。如果响应码是200,则说明请求成功,可以继续解析HTML网页。
4、使用Jsoup的parse方法解析HTML网页。返回的是一个Document对象,可以使用这个对象选择和操作网页中的元素。
5、使用select方法选择所有列表项的元素。这个方法会返回一个Elements对象。
6、遍历所有的列表项。
7、使用text方法获取列表项的文本。
8、输出列表项的文本。
注意,以上代码只是一个简单的示例,实际的爬虫程序可能会更复杂,需要处理更多的异常和错误情况。在编写和使用爬虫程序时,请务必遵守适用的法律和法规,尊重网站的使用条款和隐私政策。
其实在我们生活中,不管做什么事情,讲诚信是最受人爱戴的,所有人的成功并非一日促成,而是通过自身的日积月累,同样的,学习也是一样。如果有更多爬虫方面的问题可以评论区交流交流。
标签:Java,String,URL,抓取,列表,HTML,import,con,天眼 From: https://blog.51cto.com/u_13488918/8964989