首页 > 其他分享 >Jsoup爬虫的简单使用

Jsoup爬虫的简单使用

时间:2022-10-20 16:48:02浏览次数:49  
标签:err System 爬虫 Jsoup 简单 println element com

添加POM依赖

<dependency>
    <groupId>org.jsoup</groupId>
        <artifactId>jsoup</artifactId>
    <version>1.7.3</version>
</dependency>

JAVA代码示例

public static void main(String[] args) throws IOException{
		// 天眼查
		// String result1= HttpRequest.get("http://open.api.tianyancha.com/services/open/cb/ic/2.0?keyword=XXXX公司").header("Authorization", "").execute().body();;
		// System.err.println(result1);
		/*Document doc = Jsoup.connect("https://www.tianyancha.com/search?key=北京百度网讯科技有限公司").timeout(3000).get();
		System.err.println(doc.title());
		Elements newsHeadlines = doc.select(".cate_menu_lk");
		System.err.println(newsHeadlines.size());
		for (Element headline : newsHeadlines) {
		  System.err.println( 
		    headline.text());
		}
		*/
		try {
            Document document = Jsoup.connect("https://www.so.com/s?ie=utf-8&fr=so.com&src=home_so.com&ssid=&q=java")
                    .timeout(5000)
                    .get();
            
            Elements elements = document.select(".res-title a");
 
            elements.forEach(element -> {
                System.out.println(element.text());
                System.err.println(element.attr("href"));
            });
            System.err.println("---------------------");
            for(int i=2;i<=10;i++){
            	 Document documentt = Jsoup.connect("https://www.so.com/s?q=java&pn="+i+"&src=srp_paging&fr=so.com")
                         .timeout(5000)
                         .get();
                 
                 Elements eelements = documentt.select(".res-title a");
      
                 eelements.forEach(element -> {
                     System.out.println(element.text());
                     System.err.println(element.attr("href"));
                 });
                 System.err.println("---------------------");
            }
 
        } catch (IOException e) {
            e.printStackTrace();
        }
	}

  

标签:err,System,爬虫,Jsoup,简单,println,element,com
From: https://www.cnblogs.com/shuaihan/p/16810411.html

相关文章

  • MQTT——java简单测试
    服务端代码:1packagebsit.mqtt.demo.one_way;23importorg.eclipse.paho.client.mqttv3.MqttClient;4importorg.eclipse.paho.client.mqttv3.MqttConnectOp......
  • 爬虫技术可以分析数据吗?
    目前在不少大数据团队中,数据分析和数据挖掘工程师通常都有明确的分工,数据采集往往并不是数据分析和挖掘工程师的任务,通常做爬虫的是大数据应用开发程序员或者是数据采集工程......
  • C# 简单配置EF框架
      1、创建类库,右键添加新建项 2、选择EF设计器,下一步  3、配置数据库连接。没有就新建一个   4、选择映射内容,点击完成 5、配置流程完了。回到项......
  • 一个简单的百万并发的TCP服务器的实现。
    我们紧接着上篇文章,看看我们上节课的代码有什么问题?可以明显的看出来上节课的代码公用了一个同样的缓冲区进行读写,正常的情况下我们需要封装一个结构体,让每个对应的客户端......
  • Asp.Net Core 面试题简单整理
    1、如何在Asp.NetCore中激活Session功能首先添加Session包,其次在ConfigService方法中添加Session,然后在ConfigService中调用useSession。2、什么是中间件指注入到应用......
  • 14 scrapy的crawlspider爬虫
    scrapy的crawlspider爬虫学习目标:了解crawlspider的作用应用crawlspider爬虫创建的方法应用crawlspider中rules的使用1crawlspider是什么回顾之前的代码中,我......
  • 爬虫概述
    爬虫概述知识点:了解爬虫的概念了解爬虫的作用了解爬虫的分类掌握爬虫的流程1.爬虫的概念模拟浏览器,发送请求,获取响应网络爬虫(又被称为网页蜘蛛,......
  • 史上最简单的JAVA集合(List)转树(Tree)方法
    /***将数据转换为树型结构**@paramsourcessources*@return{@linkList<DemoData>}*/publicstaticList<DemoData>transToTree(List<D......
  • 方法练习-写一个简单计算器
    packagecom.beijing.xiaowen.methods;importjava.util.Scanner;publicclassTest01{publicstaticvoidmain(String[]args){inta=0;......
  • 多线程中Callable简单使用
    Callable接口具备的特征如下1.有简单的类型参数,与call()方法的返回类型相对应2.声明了call方法,执行器运行任务时,该方法会被执行器执行,它必须返回声明中指定类型的对象3.......