首页 > 编程语言 >JAVA爬数据也是杠杠的,看我爬下杜大哥

JAVA爬数据也是杠杠的,看我爬下杜大哥

时间:2023-08-14 17:03:51浏览次数:34  
标签:HTML 杠杠 JAVA String 获取 大哥 html new public


阅读文本大概需要6分钟。

上篇分析的网站是国家级,没有真正编写代码爬取对应的数据,今天以“1药网”为例来爬一爬药品数据


1、分析网站

进入网站首页

JAVA爬数据也是杠杠的,看我爬下杜大哥_html

2、点击一下“所有商品分类”,对应的网站地址如下


JAVA爬数据也是杠杠的,看我爬下杜大哥_http_02

先爬取所有的“分类”,然后在根据“分类”获取分类下的所有商品。

发起Get请求的方法

public static String sendGet(String url){
    String result = null;
    //CreatesCloseableHttpClient instance with default configuration.
    CloseableHttpClienthttpCilent = HttpClients.createDefault();
    HttpGethttpGet = new HttpGet(url);
    try {
        CloseableHttpResponse response =httpCilent.execute(httpGet);
        Stringresult = EntityUtils.toString(response.getEntity()) ;
        System.out.println(result);
    }catch (IOException e) {
        e.printStackTrace();
    }finally {
        try{
            httpCilent.close();//释放资源
        }catch (IOException e) {
            e.printStackTrace();
        }
    }
    returnresult;
}

获取“药品分类”的HTML页面

public static  String getCategories(){

    String html =  HttpUtils.sendGet("https://www.111.com.cn/categories/");

    return html;

}

3、分析爬取到的药品分类的HTML,认真看图

JAVA爬数据也是杠杠的,看我爬下杜大哥_http_03

把界面上所有的分类链接解析出来

4、解析所有分类链接

5、     public static List<String> processCategoriesHtml(String html){

    List<String> links = new ArrayList<String>();

    if(html!=null && !"".equals(html.trim())){

        try {

            Parser parser = new Parser(html);

            //定义一个Filter,过滤主题a

            NodeFilter afilter = new NodeClassFilter(LinkTag.class);//A过滤器

            NodeList nodeList =  parser.extractAllNodesThatMatch(afilter);

            for(int i=0; i<nodeList.size(); i++){

                Node aNode =  nodeList.elementAt(i);

                LinkTag aLinkTag =  (LinkTag)aNode;

                if(aLinkTag.getLink()!=null && aLinkTag.getLink().contains("categories")){

                    links.add(aLinkTag.getLink());

                    System.out.println(aLinkTag.getLink());

                }

            }

        }catch (Exception e){

            e.printStackTrace();

        }



    }

    return links;

}

 

6、下面来看看“杜蕾斯”的兄弟没到底有多少

在第五步爬出来的连接有如下

//www.111.com.cn/categories/965327-j1

一个连接,同样先爬取HTML页面

public static String getDLS_Html(){

    String html =  HttpUtils.sendGet("https://www.111.com.cn/categories/965327-j1");

    return html;

}

分析获取到HTML

JAVA爬数据也是杠杠的,看我爬下杜大哥_java_04

每个“杜大哥”的连接都有product和class="product_pic pro_img"。用如下代码即可获取所有的“杜蕾斯”兄弟的商品链接

public staticList<String>processDLSHtml(String html){

    List<String> links = new ArrayList<String>();

    if(html!=null && !"".equals(html.trim())){

        try {

            Parser parser = new Parser(html);

            //定义一个Filter,过滤主题em

            NodeFilter afilter = new NodeClassFilter(LinkTag.class);//A过滤器

            NodeList nodeList =  parser.extractAllNodesThatMatch(afilter);

            for(int i=0; i<nodeList.size(); i++){

                Node aNode =  nodeList.elementAt(i);

                LinkTag aLinkTag =  (LinkTag)aNode;

                if(aLinkTag.getLink()!=null && aLinkTag.getLink().contains("product")){

                    links.add(aLinkTag.getLink());

                    System.out.println(aLinkTag.getLink());

                }

            }

        }catch (Exception e){

            e.printStackTrace();

        }



    }

    return links;

}

 

7、接下来就可以获取所有的商品规格了,哪款卖的多都可以分析出来哦

同样先获取页面详情

public staticStringgetDLSDetail_Html(String url){

    String html =  HttpUtils.sendGet("https:"+url);

    return html;

}

然后分析HTML可以知道只要分析下图这个div的信息就可以获取“杜大哥”的所有信息了。这个留给大家分析分析下看看怎获取。

JAVA爬数据也是杠杠的,看我爬下杜大哥_http_05



关注我

每天进步一点点

JAVA爬数据也是杠杠的,看我爬下杜大哥_http_06

JAVA爬数据也是杠杠的,看我爬下杜大哥_html_07


标签:HTML,杠杠,JAVA,String,获取,大哥,html,new,public
From: https://blog.51cto.com/u_13538361/7078748

相关文章

  • java 字符流写数据的5种方式
        ......
  • 聊聊 Java 虚拟线程
    转载:https://www.modb.pro/db/633787Java虚拟线程(VirtualThreads)是Java平台上的一个新特性,它们是一种轻量级的执行上下文,可以更高效地利用CPU资源,提高程序的并发性能。在本文中,我们将探讨Java虚拟线程的概念、设计原理、使用场景以及与传统线程的比较等方面。什么是Java......
  • JAVA运行机制
    JAVA运行机制编译性:类似操作c/c++,类似翻译一本书解释型:类似一个翻译官,帮我翻译一段,我看与一段。javac先编译成class文件。然后java解释class文件。......
  • javascript1
    执行环境-作用域-函数进阶-闭包1.回顾map的使用和与for/forEach的区别map的使用-只能用于数组,返回一个新数组,map内部必须returnforEach原数组上进行遍历(本质是for循环),要改变原数组第一层值,必须配合索引当遍历数组为数组对象用forEach可以直接改变第二层的值例1vararr=[1.......
  • 【校招VIP】java语言考点之Map1.7和1.8
    考点介绍:HashMap是大中小厂面试的高频考点,主要从底层结构,和线程安全等角度来进行考察,考察点比较集中,但是有一定难度分为初级和高级两种:初级一般集中在中小公司的map的key-value的可重复和可空问题;高级集中在1.7和1.8的变化,要理解变化的原因,以及并发安全性问题 一、考点题目1、......
  • 《java面试宝典》之SQL常见面试题
    一、SQL分类:DDL—数据定义语言(CREATE,ALTER,DROP,DECLARE)DML—数据操纵语言(SELECT,DELETE,UPDATE,INSERT)DCL—数据控制语言(GRANT,REVOKE,COMMIT,ROLLBACK)二、基本语法1、创建数据库createdatabasedatabase-name2、删除数据库dropdatabasedbname3、创建新表createtabletabname......
  • 电信L1研发工程师 --- java题库 长期更新
    注意事项:题目分为单选,多选、判断和编程,60分过编程题目1,严格按照题目提示编程。比如定义一个公共类Main和静态方法mainpublicclassMain{ publicstaticvoidmain(String[]args){ //这里开始写程序 }}2.不要带有包名3.严格按照提示的输入和输出定义函数的输入输出,千万不要......
  • Java字符串转日期,当前日期后几天,前几天
    首先代码实现//设置当前日期的后七天Calendarcalendar=Calendar.getInstance();calendar.setTime(newDate());//设置当前日期calendar.add(Calendar.DATE,7);//增加7天,更改这里的数量就行DatenewDate=calendar.getTime();//获取新日期SimpleDateFormatdf1......
  • 问题解答:关于 SAP UI5 控制器(Controller) JavaScript 编码里单引号和双引号的用法澄
    笔者这篇教程文末,有朋友提问:SAPUI5应用开发教程之十-什么是SAPUI5应用的描述符文件manifest.json问题1:在index.html文件中body标签添加了代码:<divdata-sap-ui-componentdata-name="sap.ui5.walkthrough"data-id="container"data-settings='{"id":"wa......
  • Java入门学习——其他数据形式的存储原理
    一、字符(文本)在计算机中是如何存储的呢?ASCII编码表:即美国信息交换标准编码,规定现代英语、数字字符、和其他西欧字符对应的数字编码。为了验证字符是通过ASCII编码表编号的二进制形式进行存储的,我们在IDEA里新建一个Module(day02-basic-app),然后在src下面新建package(it.com.variab......