首页 > 其他分享 > Databend JSON 复杂数据类型的设计与使用 | Databend 特性系列

Databend JSON 复杂数据类型的设计与使用 | Databend 特性系列

时间:2022-09-20 16:12:39浏览次数:114  
标签:v1 数据类型 Databend JSON https 数据 id

引言

JSON 是一种常用的半结构化数据,通过自描述的 Schema 结构,可以表示任何类型的数据,包括多层嵌套的数据类型,例如 Array、Object 等。与必须严格遵循表结构字段的结构化数据相比,具有灵活性高,易于动态扩展的优点。近年来,随着各平台数据量的迅速增加,JSON 等半结构化数据的使用越来越流行,例如,平台通过开放接口对外提供 JSON 格式的数据,以 JSON 格式存储公开的数据集,采用 JSON 格式存储应用日志等。对这些数据进行分析可以获得很多非常有价值的信息。因此,Databend 在支持结构化数据处理的同时,也提供了对 JSON 数据的支持。本文将详细介绍 JSON 数据的设计和使用。

JSON 数据类型

Databend 使用 VARIANT 类型来存储半结构化数据,通常也可以使用 JSON 作为别名。例如,可以使用如下的 SQL 创建包含 JSON 数据的表:

CREATE TABLE test (
  id Int32,
  v1 VARIANT,
  v2 JSON
);

JSON 类型的数据需要通过调用 parse_json 或 try_parse_json 函数生成,函数输入的字符串为标准的 JSON 格式,包括 Null、Boolean、Number、String、Array、Object 6 种类型的数据。如果字符串不合法导致解析失败,parse_json 会返回解析错误,而 try_parse_json 会返回 Null 值。

例如:

INSERT INTO test VALUES
  (1, parse_json('{"a":{"b":1,"c":[1,2]}}'), parse_json('[["a","b"],{"k":"a"}]')),
  (2, parse_json('{"a":{"b":2,"c":[3,4]}}'), parse_json('[["c","d"],{"k":"b"}]'));

SELECT * FROM test;
+----+-------------------------+-----------------------+
| id | v1                      | v2                    |
+----+-------------------------+-----------------------+
| 1  | {"a":{"b":1,"c":[1,2]}} | [["a","b"],{"k":"a"}] |
| 2  | {"a":{"b":2,"c":[3,4]}} | [["c","d"],{"k":"b"}] |
+----+-------------------------+-----------------------+

JSON 通常用来存储 Array 或 Object 类型的数据,由于存在嵌套层级结构,需要通过 JSON PATH 对内部元素进行访问。有三种形式的语法作为分隔符:

  1. 冒号 : 用于按 key 获取 Object 中的元素
  1. 点号 . 用于按 key 获取 Object 中的元素,为了与表名和列名直接的分隔符区分,不能作为第一个分隔符
  1. 括号 [] 用于按 key 获取 Object 或按 index 获取 Array 中的元素

这三种类型的分隔符可以混合使用。例如:

SELECT v1:a.c, v1:a['b'], v1['a']:c, v2[0][1], v2[1].k FROM test;
+--------+-----------+-----------+----------+---------+
| v1:a.c | v1:a['b'] | v1['a']:c | v2[0][1] | v2[1].k |
+--------+-----------+-----------+----------+---------+
| [1,2]  | 1         | [1,2]     | "b"      | "a"     |
| [3,4]  | 2         | [3,4]     | "d"      | "b"     |
+--------+-----------+-----------+----------+---------+


通过 JSON PATH 提取的出的内部元素也是 JSON 类型的,这些数据可以通过 cast 函数或转化操作符  ::  转化为基本类型。

例如:

SELECT cast(v1:a.c[0], int64), v1:a.b::int32, v2[0][1]::string FROM test;
+--------------------------+---------------+------------------+
| cast(v1:a.c[0] as int64) | v1:a.b::int32 | v2[0][1]::string |
+--------------------------+---------------+------------------+
| 1                        | 1             | b                |
| 3                        | 2             | d                |
+--------------------------+---------------+------------------+

分析 Github 的 JSON 数据

很多公开的数据集是用 JSON 格式存储的,我们可以将这些数据导入到 Databend 进行分析,下面以 Github 的公开事件数据为例进行介绍。

GH Archive 提供了 Github 数据的下载,事件记录具有如下的 JSON 格式:

{
  "id":"23929425917",
  "type":"PushEvent",
  "actor":{
    "id":109853386,
    "login":"teeckyar-bot",
    "display_login":"teeckyar-bot",
    "gravatar_id":"",
    "url":"https://api.github.com/users/teeckyar-bot",
    "avatar_url":"https://avatars.githubusercontent.com/u/109853386?"
  },
  "repo":{
    "id":531248561,
    "name":"teeckyar/Times",
    "url":"https://api.github.com/repos/teeckyar/Times"
  },
  "payload":{
    "push_id":10982315959,
    "size":1,
    "distinct_size":1,
    "ref":"refs/heads/main",
    "head":"670e7ca4085e5faa75c8856ece0f362e56f55f09",
    "before":"0a2871cb7e61ce47a6790adaf09facb6e1ef56ba",
    "commits":[
      {
        "sha":"670e7ca4085e5faa75c8856ece0f362e56f55f09",
        "author":{
          "email":"support@teeckyar.ir",
          "name":"teeckyar-bot"
        },
        "message":"1662804002 Timehash!",
        "distinct":true,
        "url":"https://api.github.com/repos/teeckyar/Times/commits/670e7ca4085e5faa75c8856ece0f362e56f55f09"
      }
    ]
  },
  "public":true,
  "created_at":"2022-09-10T10:00:00Z",
  "org":{
    "id":106163581,
    "login":"teeckyar",
    "gravatar_id":"",
    "url":"https://api.github.com/orgs/teeckyar",
    "avatar_url":"https://avatars.githubusercontent.com/u/106163581?"
  }
}

其中,actor,repo,payload,org 字段具有嵌套结构,适合存储为 JSON,其它字段不是嵌套结构且类型固定,可以使用基本类型进行存储。创建如下的表结构:

CREATE TABLE `github_data` (
  `id` VARCHAR,
  `type` VARCHAR,
  `actor` JSON,
  `repo` JSON,
  `payload` JSON,
  `public` BOOLEAN,
  `created_at` TIMESTAMP(0),
  `org` JSON
);

使用 COPY 命令导入 2022-09-10-10 的 github 数据

COPY INTO github_data
FROM 'https://data.gharchive.org/2022-09-10-10.json.gz'
FILE_FORMAT = (
  compression = auto
  type = NDJSON
);

查询提交次数最多的 10 个项目

SELECT repo:name, count(id) FROM github_data 
  WHERE type = 'PushEvent'
  GROUP BY repo:name
  ORDER BY count(id) DESC
  LIMIT 10;
+----------------------------------------------------------+-----------+
| repo:name                                                | count(id) |
+----------------------------------------------------------+-----------+
| "Lombiq/Orchard"                                         | 1384      |
| "maique/microdotblog"                                    | 970       |
| "Vladikasik/statistic"                                   | 738       |
| "brokjad/got_config"                                     | 592       |
| "yanonono/booth-update"                                  | 537       |
| "networkoperator/demo-cluster-manifests"                 | 433       |
| "kn469/web-clipper-bed"                                  | 312       |
| "ufapg/jojo"                                             | 306       |
| "bj5nj7oh/bj5nj7oh"                                      | 291       |
| "appseed-projects2/500f32d3-8019-43ee-8f2a-a273163233fb" | 247       |
+----------------------------------------------------------+-----------+

统计 fork 次数最多的 10 个用户

SELECT actor:login, count(id) FROM github_data
  WHERE type='ForkEvent'
  GROUP BY actor:login
  ORDER BY count(id) DESC
  LIMIT 10;
+-----------------------------------+-----------+
| actor:login                       | count(id) |
+-----------------------------------+-----------+
| "actions-marketplace-validations" | 191       |
| "alveraboquet"                    | 59        |
| "ajunlonglive"                    | 50        |
| "Shutch420"                       | 13        |
| "JusticeNX"                       | 13        |
| "RyK-eR"                          | 12        |
| "DroneMad"                        | 10        |
| "UnqulifiedEngineer"              | 9         |
| "PeterZs"                         | 8         |
| "lgq2015"                         | 8         |
+-----------------------------------+-----------+

性能优化

目前的实现将 JSON 数据按纯文本格式进行保存,在每次读取数据时都需要进行解析并生成 serde_json::Value 的枚举值,不仅解析速度慢,而且占用较多的内存空间,导致其性能与其它基本类型的数据相差较大。为了提高 JSON 数据的读取性能,我们采用如下的方式进行优化:

  1. 数据存储为二进制格式的 JSONB。通过内置的 j_entry 结构存储各个元素的类型和偏移位置,可以加快解析速度,减少内存占用。

  2. 使用虚拟列加快查询速度。利用 JSON 数据通常有相似结构的特点,将用户经常查询并且数据类型相同的字段抽取出来存储为单独的虚拟列,在查询的时候直接从虚拟列进行读取,这样可以获得与其他数据类型相同的查询性能。

关于性能优化的详细设计,我们将会在后续的文章中进行介绍。

关于 Databend

Databend 是一款开源、弹性、低成本,基于对象存储也可以做实时分析的新式数仓。期待您的关注,一起探索云原生数仓解决方案,打造新一代开源 Data Cloud。


文章首发于公众号:Databend

标签:v1,数据类型,Databend,JSON,https,数据,id
From: https://www.cnblogs.com/databend/p/16711392.html

相关文章

  • Python爬取任意城市肯德基门店信息(json数据反序列化、提取数据、写入CSV)
    本案关键内容点:json数据反序列化、提取数据、写入CSV创建csv,写入表头数据,脚本同目录下会创建名称为book的csv文件,且第一行插入表头内容 importcsvf=open('book.cs......
  • SpringBoot Xml转Json对象
    一、导入需要的依赖<dependency><groupId>maven</groupId><artifactId>dom4j</artifactId><version>1.7-20060614</version></dependency>二、xml......
  • FastJson 的一些配置
    主要提到:关闭循环引用的配置"$ref":"$.data[0].detail.wmsInboundorder.details[1]"如下:importcom.alibaba.fastjson.serializer.SerializeConfig;importcom.alib......
  • Java:Json与List对象的相互转换
    谷歌的Gson.jar://list转换为jsonGsongson=newGson();List<Person>persons=newArrayList<Person>();Stringstr=gson.toJson(persons);//json转换为listGs......
  • ASP.NET Core 读取配置文件JSON 数据、数组
    配置访问接口publicIConfiguration_Config;public类名(IConfigurationConfig){_Config=Config;}配置文件数据示例{"AllowedHosts":"*","......
  • python 数据类型之整型,布尔,字符串
    python数据类型包含以下几种-int,整数类型(整形)-bool,布尔类型-str,字符串类型-list,列表类型-tuple,元组类型-dict,字典类型-set,集合类型-float,浮点类型(浮点型)1.整型--......
  • python格式化输出输出数据到json文件
    input_python={'n_layer':n_layer,'L':L,'Emm':Emm,'mu':mu,'h':h,'P':P,'Q':......
  • javascript中的对象和json对象区别
    json对象和javacript对象长得很像,但有本质不同  1、本质区别:(a)、json对象本质上是字符串,他是客户端和服务器之间传递数据的一种格式,他的属性只是样子货,不能执行。(b)......
  • 数据类型转换
    1.数据类型的转换会不会改变原变量(原表达式)类型?不会,类型转换都是为了本次运算而进行的临时性转换,转换结果会保存到临时内存空间,不会改变数据本来的类型或值。2.用什么查......
  • Node.js(四)json
    npminit-y(初始化项目)npminstallexpress(引入express)npxexpress-generator-e(自动生成模板。添加对ejs模板引擎的支持)npmi--savelodash(引入lodash) 路由配......