ES数据聚合

ES数据聚合

时间：2024-10-18 21:11:11浏览次数：4

标签：category 聚合 agg brand field 数据 ES size

1.什么是数据聚合

聚合（aggregations）可以让我们极其方便的实现对数据的统计、分析、运算。例如：

什么品牌的手机最受欢迎？
这些手机的平均价格、最高价格、最低价格？
这些手机每月的销售情况如何？

实现这些统计功能的比数据库的sql要方便的多，而且查询速度非常快，可以实现近实时搜索效果。

聚合常见的有三类：

桶（Bucket）聚合：用来对文档做分组
- TermAggregation：按照文档字段值分组，例如按照品牌值分组、按照国家分组
- Date Histogram：按照日期阶梯分组，例如一周为一组，或者一月为一组
度量（Metric）聚合：用以计算一些值，比如：最大值、最小值、平均值等
- Avg：求平均值
- Max：求最大值
- Min：求最小值
- Stats：同时求max、min、avg、sum等
管道（pipeline）聚合：其它聚合的结果为基础做进一步运算

注意：参加聚合的字段必须是keyword、日期、数值、布尔类型

2.DSL实现聚合

与之前的搜索功能类似，我们依然先学习DSL的语法，再学习JavaAPI.

1.Bucket聚合

例如我们要统计所有商品中共有哪些商品分类，其实就是以分类（category）字段对数据分组。category值一样的放在同一组，属于Bucket聚合中的Term聚合。

GET /items/_search
{
  "size": 0, 
  "aggs": {
    "category_agg": {
      "terms": {
        "field": "category",
        "size": 20
      }
    }
  }
}

语法说明：

size：设置size为0，就是每页查0条，则结果中就不包含文档，只包含聚合
aggs：定义聚合
- category_agg：聚合名称，自定义，但不能重复
  - terms：聚合的类型，按分类聚合，所以用term
    - field：参与聚合的字段名称
    - size：希望返回的聚合结果的最大数量

2.带条件聚合

但真实场景下，用户会输入搜索条件，因此聚合必须是对搜索结果聚合。那么聚合必须添加限定条件。

例如，我想知道价格高于3000元的手机品牌有哪些，该怎么统计呢？

GET /items/_search
{
  "query": {
    "bool": {
      "filter": [
        {
          "term": {
            "category": "手机"
          }
        },
        {
          "range": {
            "price": {
              "gte": 300000
            }
          }
        }
      ]
    }
  }, 
  "size": 0, 
  "aggs": {
    "brand_agg": {
      "terms": {
        "field": "brand",
        "size": 20
      }
    }
  }
}

3.Metric聚合

上节课，我们统计了价格高于3000的手机品牌，形成了一个个桶。现在我们需要对桶内的商品做运算，获取每个品牌价格的最小值、最大值、平均值。

这就要用到Metric聚合了，例如stat聚合，就可以同时获取min、max、avg等结果。

我们需要从需求中分析出搜索查询的条件和聚合的目标：

搜索查询条件：
- 价格高于3000
- 必须是手机
聚合目标：统计的是品牌，肯定是对brand字段做term聚合

GET /items/_search
{
  "query": {
    "bool": {
      "filter": [
        {
          "term": {
            "category": "手机"
          }
        },
        {
          "range": {
            "price": {
              "gte": 300000
            }
          }
        }
      ]
    }
  }, 
  "size": 0, 
  "aggs": {
    "brand_agg": {
      "terms": {
        "field": "brand",
        "size": 20
      },
      "aggs": {
        "stats_meric": {
          "stats": {
            "field": "price"
          }
        }
      }
    }
  }
}

query部分就不说了，我们重点解读聚合部分语法。

可以看到我们在brand_agg聚合的内部，我们新加了一个aggs参数。这个聚合就是brand_agg的子聚合，会对brand_agg形成的每个桶中的文档分别统计。

stats_meric：聚合名称
- stats：聚合类型，stats是metric聚合的一种
  - field：聚合字段，这里选择price，统计价格
    java中代码实现

@Test
void testAgg() throws IOException {
    // 1.创建Request
    SearchRequest request = new SearchRequest("items");
    // 2.准备请求参数
    BoolQueryBuilder bool = QueryBuilders.boolQuery()
            .filter(QueryBuilders.termQuery("category", "手机"))
            .filter(QueryBuilders.rangeQuery("price").gte(300000));
    request.source().query(bool).size(0);
    // 3.聚合参数
    request.source().aggregation(
            AggregationBuilders.terms("brand_agg").field("brand").size(5)
    );
    // 4.发送请求
    SearchResponse response = client.search(request, RequestOptions.DEFAULT);
    // 5.解析聚合结果
    Aggregations aggregations = response.getAggregations();
    // 5.1.获取品牌聚合
    Terms brandTerms = aggregations.get("brand_agg");
    // 5.2.获取聚合中的桶
    List<? extends Terms.Bucket> buckets = brandTerms.getBuckets();
    // 5.3.遍历桶内数据
    for (Terms.Bucket bucket : buckets) {
        // 5.4.获取桶内key
        String brand = bucket.getKeyAsString();
        System.out.print("brand = " + brand);
        long count = bucket.getDocCount();
        System.out.println("; count = " + count);
    }
}

标签：category,聚合,agg,brand,field,数据,ES,size
From： https://www.cnblogs.com/freps/p/18475057

大数据新视界 --大数据大厂之大数据在智慧城市建设中的应用：打造智能生活的基石
......
Redis架构演进之单机版Redis和数据持久化
单机版Redis假设现在有一个业务应用，需要引入Redis来提高应用的性能，此时可以选择部署一个单机版的Redis来使用业务应用可以把Redis当作缓存来使用，从MySQL里查询数据，然后写入Redis中，之后业务应用再从Redis里读取数据，因为Redis的数据都是存储在内存里的，所以整体的速度很快。......
The 2024 ICPC Asia East Continent Online Contest (II)打题+写题笔记
前言方队让我们来打于是来打。赛时2h过了AFGIJL，感谢qsq贡献的G。评价：A：唐，F：唐，G：没看，I：小清新构造，J：国王游戏，L：不做评价。补题补了C，EEEscape链接题意给你\(n\)个波特和一个人与一张无向联通图，波特有一个共同的活动距离\(d\)。不能在原地不动。问人在保证不遇到波特的情况下......
AtCoder Beginner Contest 371 - VP记录
总体发挥还算正常A-Jiro呵呵呵，有人像我这么做的吗？点击查看代码#include<cstdio>usingnamespacestd;intmain(){ charab,ac,bc; scanf("%c%c%c",&ab,&ac,&bc); if(ab=='<'&&ac=='<'&&bc=='<')......
jsp二手车市场商户管理系492nz--程序+源码+数据库+调试部署+开发环境
本系统（程序+源码+数据库+调试部署+开发环境）带论文文档1万字以上，文末可获取，系统界面在最后面。系统程序文件列表商家,店铺信息,二手车辆,租赁申请,退租申请,续租申请,提醒信息开题报告内容一、研究背景随着二手车市场的快速发展，商户管理问题日益凸显。商户信息散乱、管理......
jsp二手车交易平台6447v--程序+源码+数据库+调试部署+开发环境
本系统（程序+源码+数据库+调试部署+开发环境）带论文文档1万字以上，文末可获取，系统界面在最后面。系统程序文件列表用户,汽车类型,卖家,二手汽车,汽车订单,汽车退订开题报告内容一、研究背景随着汽车市场的不断扩大和消费者对二手车需求的增加，传统的二手车交易方式已无法满足......
jsp儿童疫苗接种管理系统q51zm（程序+源码+数据库+调试部署+开发环境）
本系统（程序+源码+数据库+调试部署+开发环境）带论文文档1万字以上，文末可获取，系统界面在最后面。系统程序文件列表家长,接种人员,儿童信息,疫苗类型,疫苗信息,入库信息,出库信息,疫苗预约,接种信息,在线反馈,疫苗规划表开题报告内容一、项目背景随着公共卫生意识的提升，儿童......
jsp儿童成长信息管理系统t7728--（程序+源码+数据库+调试部署+开发环境）
本系统（程序+源码+数据库+调试部署+开发环境）带论文文档1万字以上，文末可获取，系统界面在最后面。系统程序文件列表开题报告内容一、研究背景在信息化时代背景下，儿童成长的记录与管理逐渐趋向于数字化、智能化。家长、教师及教育机构对儿童成长信息的关注日益增强，传统的纸质记......
编写自定义dbt通用数据测试
dbt默认提供了NotNull,Unique,Relationships,和AcceptedValues四个通用数据测试，这些测试被称为”schema测试“，底层这些通用测试就是类似宏的测试块。本文首先介绍内置通用测试，然后介绍如何自定义通用测试，最后还实践如何覆盖内置通用测试的功能。内置数据测试......
JavaScript从零学起 —— 数据类型（进阶篇3）
说明：此文章用作个人学习记录，若有任何问题或建议欢迎大家在评论区讨论文章目录前言对象(Object)1.定义2.对象创建方式2.1使用对象字面量（ObjectLiteral）2.2使用Object()构造函数2.3使用自定义构造函数（ConstructorFunction）2.4工厂函数（FactoryFunction）2.5类（Cl......

1.什么是数据聚合

2.DSL实现聚合

1.Bucket聚合

2.带条件聚合

3.Metric聚合

相关文章

赞助商

阅读排行