首页 > 编程语言 >JAVA爬数据也是杠杠的,爬下杜大哥

JAVA爬数据也是杠杠的,爬下杜大哥

时间:2023-06-02 15:34:53浏览次数:34  
标签:HTML 杠杠 JAVA String 大哥 html static new public


上篇分析的网站是国家级,没有真正编写代码爬取对应的数据,今天以“1药网”为例来爬一爬药品数据

https://www.111.com.cn/

1、 分析网站
进入网站首页

JAVA爬数据也是杠杠的,爬下杜大哥_HTML


2、 点击一下“所有商品分类”,对应的网站地址如下

https://www.111.com.cn/categories/

JAVA爬数据也是杠杠的,爬下杜大哥_HTML_02


先爬取所有的“分类”,然后在根据“分类”获取分类下的所有商品。

发起Get请求的方法

public static String sendGet(String url){
    String result = null;
    //Creates CloseableHttpClient instance with default configuration.
    CloseableHttpClient httpCilent = HttpClients.createDefault();
    HttpGet httpGet = new HttpGet(url);
    try {
        CloseableHttpResponse response = httpCilent.execute(httpGet);
        String result = EntityUtils.toString(response.getEntity()) ;
        System.out.println(result);
    } catch (IOException e) {
        e.printStackTrace();
    }finally {
        try {
            httpCilent.close();//释放资源
        } catch (IOException e) {
            e.printStackTrace();
        }
    }
    return result;
}

获取“药品分类”的HTML页面

public static  String getCategories(){
    String html =  HttpUtils.sendGet("https://www.111.com.cn/categories/");
    return html;
}

3、 分析爬取到的药品分类的HTML,认真看图

JAVA爬数据也是杠杠的,爬下杜大哥_HTML_03


把界面上所有的分类链接解析出来

4、 解析所有分类链接

public static List<String> processCategoriesHtml(String html){
    List<String> links = new ArrayList<String>();
    if(html!=null && !"".equals(html.trim())){
        try {
            Parser parser = new Parser(html);
            //定义一个Filter,过滤主题a
            NodeFilter afilter = new NodeClassFilter(LinkTag.class);//A过滤器
            NodeList nodeList =  parser.extractAllNodesThatMatch(afilter);
            for(int i=0; i<nodeList.size(); i++){
                Node aNode =  nodeList.elementAt(i);
                LinkTag aLinkTag =  (LinkTag)aNode;
                if(aLinkTag.getLink()!=null && aLinkTag.getLink().contains("categories")){
                    links.add(aLinkTag.getLink());
                    System.out.println(aLinkTag.getLink());
                }
            }
        }catch (Exception e){
            e.printStackTrace();
        }

    }
    return links;
}

5、 下面来看看“杜蕾斯”的兄弟没到底有多少
在第五步爬出来的连接有如下

//www.111.com.cn/categories/965327-j1

一个连接,同样先爬取HTML页面

public static String getDLS_Html(){
    String html =  HttpUtils.sendGet("https://www.111.com.cn/categories/965327-j1");
    return html;
}

分析获取到HTML

JAVA爬数据也是杠杠的,爬下杜大哥_HTML_04


每个“杜大哥”的连接都有product和class=“product_pic pro_img”。用如下代码即可获取所有的“杜蕾斯”兄弟的商品链接

public static List<String> processDLSHtml(String html){
    List<String> links = new ArrayList<String>();
    if(html!=null && !"".equals(html.trim())){
        try {
            Parser parser = new Parser(html);
            //定义一个Filter,过滤主题em
            NodeFilter afilter = new NodeClassFilter(LinkTag.class);//A过滤器
            NodeList nodeList =  parser.extractAllNodesThatMatch(afilter);
            for(int i=0; i<nodeList.size(); i++){
                Node aNode =  nodeList.elementAt(i);
                LinkTag aLinkTag =  (LinkTag)aNode;
                if(aLinkTag.getLink()!=null && aLinkTag.getLink().contains("product")){
                    links.add(aLinkTag.getLink());
                    System.out.println(aLinkTag.getLink());
                }
            }
        }catch (Exception e){
            e.printStackTrace();
        }

    }
    return links;
}

7、 接下来就可以获取所有的商品规格了,哪款卖的多都可以分析出来哦
同样先获取页面详情

public static String getDLSDetail_Html(String url){
    String html =  HttpUtils.sendGet("https:"+url);
    return html;
}

然后分析HTML可以知道只要分析下图这个div的信息就可以获取“杜大哥”的所有信息了。这个留给大家分析分析下看看怎获取。

JAVA爬数据也是杠杠的,爬下杜大哥_HTML_05


标签:HTML,杠杠,JAVA,String,大哥,html,static,new,public
From: https://blog.51cto.com/u_13538361/6402972

相关文章

  • JAVA通过oshi获取系统和硬件信息
    JAVA通过oshi获取系统和硬件信息 一、引入jar包本项目主要使用第开源jar包:https://github.com/oshi/oshi<dependency><groupId>junit</groupId><artifactId>junit</artifactId><version>RELEASE</vers......
  • Java+Js实现文件下载
    Maven依赖<dependency><groupId>com.deepoove</groupId><artifactId>poi-tl</artifactId><version>1.9.0</version></dependency>页面<!DOCTYPEhtml><......
  • Java进行内存泄露​ GC 分析都有哪些常用好用的工具
    使用Java语言开发应用程序,虽然JVM帮我们进行了GC收集、清除工作;但是使用不当的话,还是会导致某些对象常驻堆空间无法给垃圾收集器清除,导致内存泄露、内存溢出等情况,今天盘点一下在项目中进行内存泄露分析和GC分析的一些常用、好用的工具。0x01:JDK自带工具在处理内存泄露方面JDK本身......
  • Jmeter:Beanshell调用java代码的三种方式
    阅读文本大概需要3分钟。0x01:BeanShell控制界面介绍每次调用前重置bsh.Interpreter:可以选择True和False。如果此选项为True,则将为每个取样器重新创建解释器。传递给BeanShell的参数(=>StringParametersandString[]bsh.args):传递给BeanShell脚本的参数,参数存在以下变量中。Param......
  • 5.12 综合案例 : 简单java类
    简单java类,基础很重要,需要手,熟练无误的写出来classDept{privatelongdeptno;privateStringdname;privateStringloc;publicDept(){//必须提供无参构造方法;}publicDept(longdeptno,Stringdname,Stringloc){this.deptno=......
  • 转:Java中常见 判断是否为空
    Java中常见判断是否为空Java中常见判断是否为空 1.判断对象为空 所在包java.util.Objects  2.判断集合为空所在包org.apache.commons.lang3CollectionUtils.isEmpty(list) 3.判断字符串为空所在包org.apache.commons.lang3......
  • Java官方笔记5数字和字符串
    NumbersNumber的子类:另外还有BigDecimal和BigInteger,用于高精度计算,AtomicInteger和AtomicLong用于多线程应用。我们有时候需要用包装类而非基本数据类型,理由如下:方法入参类型为Object,只能传入对象使用包装类提供的常量,比如MIN_VALUE和MAX_VALUE使用包装类的方法来做......
  • 视频直播网站源码,Java过滤相同name的字符
    视频直播网站源码,Java过滤相同name的字符第一种 privatestaticStringss(Stringname)  {    String[]str=name.split(",");    if(str.length==0)    {      returnnull;    }    List<String>list=ne......
  • FastJson转Java对像字段不区分大小写
    昨天遇到参数key大小写不一致导致校验签名失败的问题,查了很长时间才找到原因。看了一下FastJson源码,发现JSON.toObject中转换成对象的时候会忽略大小写。所以,当使用了JSON.toObject将json转成Java对象后,再用JSON.toObject转成json,key值就变了。写个方法验证一下:publicclassPe......
  • 用Java爬虫轻松抓取网页数据
    Java爬虫可以自动化地从互联网上采集各种数据,可以帮助企业分析竞争对手的网页排名,优化自己的网站,提高搜索引擎排名。那么如何开始爬虫呢?Java爬虫的具体步骤如下:1、确定爬取目标确定需要爬取的网站、页面和数据。2、分析网页结构通过浏览器开发者工具或者其他工具,分析目标网站......