首页 > 其他分享 >Hive-技术补充-ANTLR的真实语法世界

Hive-技术补充-ANTLR的真实语法世界

时间:2024-03-31 12:59:35浏览次数:19  
标签:ANTLR expr HEX Hive 语法 fragment JSON pair INT

一、上下文

上一篇博客<Hive-技术补充-ANTLR语法编写>,我们了解了如何使用ANTLR语法来表达词法结构和语法结构,下面我们循循渐进的处理身边用过的一些文件或语言:

CSV、JSON、DOT、Cymbol、R 

二、解析CSV文件

有这样一份csv文件

vi data.csv

Details,Month,Amount
Mid Bonus,June,"$2,000"
,January,"""zipoo"""
Total Bonuses,"","$5,000"

可以看到标题行和内容行并无区别,我们需要写一个单独规则来匹配标题

vi CSV.g4

grammar CSV;
file : hdr row+;
hdr : row;
row : filed (',' filed)* '\r'?'\n' ;
filed : TEXT
        | STRING
        | 
        ;
TEXT : ~[,\n\r"]+ ;
STRING : '"'('""'|~'"')* '"' ;; //两个双引号是对双引号的转义

为了不混淆,我们引入一个名为hdr的新规则

下面我们来测试下

antlr4 CSV.g4

javac CSV*.java

grun CSV file -tokens data.csv

grun CSV file -tree data.csv

grun CSV file -gui data.csv

三、解析JSON

1、语法规则

JSON语法指明,一个JSON文件可以是一个对象,或者是一个由若干个值组成的数组。

从语法上看,这不过是一个选择模式,因此可以这样表达

json : object 
    | array 
    ;

对于object,JSON语法指明,一个对象是以一个 { 开始 且以 } 结束。每个值后面跟一个 :  键之间由 , 号分割,对象中的键必须是字符串

我们根据JSON语法指明的自然语言来编写下语法规则

object : '{' pair (',' pair )* '}'
    | '{' '}'     //空对象
    ;
pair : STRING ':' value ;

 也可以优雅的写成这样

object 
    {}
    {members}
members : 
    pair
    pair , members
pair 
    string : value

members是之前我们没有使用过的规则,这是一种不使用(...)* 循环来表达序列模式的方式 

对于array,JSON语法指明,数组是一组值的有序集合,开始于 [ 结束于 ] 中间的值用 , 隔开

array : '[' pair (',' pair )* ']'
    | '[' ']'     //数组
    ;

 但是中间的值可以是一个字符串、一个数字、一个布尔值、null、一个对象、或者一个数组,而且这些结构还可能发生嵌套

value : STRING
    | NUMBER
    | object
    | array        //递归调用
    | 'true'    //递归调用
    | 'false'    //关键字
    | 'null'
    ;

2、词法规则

字符串:

        一个由零个或多个Unicode字符组成的序列,由双引号包裹,其中的字符使用\转义 

        如:\" \\ \/ \b \f \n \r \t \u

        词法定义如下:

    STRING : '"' (ESC | ~["\\])* '"' ;
    fragment ESC : '\\' ([\\/bfnrt] | UNICODE)
    fragment UNICODE : 'u' HEX HEX HEX HEX ;
    fragment HEX : [0-9a-fA-F] ;

        fragment 不是词法符号 而是声明一些可以被其他词法分析器规则使用的规则

        数字:

NUMBER : '-'?INT '.' INT EXP ?    //1.35 1.36E-9  -4.6
        | '-'? INT EXP                 //1e10 -3e4
        | '-'? INT                     //-3 59
        ;
 

另外json需要额外处理空白字符 

WS : [ \r\t\n]+ -> skip ;  

3、测试

vi JSON.g4 

grammar JSON;
json : object 
    | array 
    ;
object : '{' pair (',' pair )* '}'
    | '{' '}'     //空对象
    ;
pair : STRING ':' value ;
array : '[' pair (',' pair )* ']'
    | '[' ']'     //数组
    ;
value : STRING
    | NUMBER
    | object
    | array        //递归调用
    | 'true'    //递归调用
    | 'false'    //关键字
    | 'null'
    ;
STRING : '"' (ESC | ~["\\])* '"' ;
fragment ESC : '\\' ([\\/bfnrt] | UNICODE) ;
fragment UNICODE : 'u' HEX HEX HEX HEX ;
fragment HEX : [0-9a-fA-F] ;
NUMBER : '-'?INT '.' INT EXP ?    //1.35 1.36E-9  -4.6
    | '-'? INT EXP                 //1e10 -3e4
    | '-'? INT                     //-3 59
    ;
fragment INT : '0' | [1-9] [0-9]* ;  //除0外的数字不允许以0开始
fragment EXP : [Ee] [+\-]? INT ; //\-是-的转义  因为[] 中 - 用于表达 “范围” 含义
WS : [ \r\t\n]+ -> skip ;
STRING : '"' (ESC | ~["\\])* '"' ;
fragment ESC : '\\' ([\\/bfnrt] | UNICODE)
fragment UNICODE : 'u' HEX HEX HEX HEX ;
fragment HEX : [0-9a-fA-F] ;
NUMBER : '-'?INT '.' INT EXP ?    //1.35 1.36E-9  -4.6
    | '-'? INT EXP                 //1e10 -3e4
    | '-'? INT                     //-3 59
    ;
WS : [ \r\t\n]+ -> skip ;

antlr4 JSON.g4

javac JSON*.java

输入 [1,"\u0049",1.3e9]

grun JSON json -tokens

grun JSON json -tree

grun JSON json -gui

四、解析R语言

R是一门极富表现力的领域特定编程语言,专门用于描述和解决统计学问题。

vi t.R

addMe <- function(x,y) {return(x+y)}
addMe(x=1,2)
r <- 1:5

vi R.g4

grammar R;
prog:    ( expr_or_assign(';'|NL)
    |    NL
    )*
    EOF
    ;
expr_or_assign 
    : expr('<-'|'='|'<<-') expr_or_assign
    | expr
    ;
//Match both linux and win newLines
NL : '\r'?'\n' ;

expr : expr '[[' sublist ']' ']' //'[['源于R语言的yacc语法
    | expr '[' sublist ']'
    | expr ('::'|':::') expr
    | expr ('$'|'@') expr
    | expr '^'<assoc=right> expr
    | ('-'|'+') expr
    | expr ':' expr
    | expr USER_OP expr //任意被 % 包围的文本:'%' .* '%'
    | expr ('*'|'/') expr
    | expr ('+'|'-') expr
    | expr ('>'|'>='|'<'|'<='|'=='|'!=') expr
    | expr '!' expr
    | expr ('&'|'&&') expr
    | expr ('|'|'||') expr
    | '-' expr
    | expr '-' expr
    | expr ('->'|'->>'|':=') expr
    |'{' exprlist '}' //复合语句
    | 'if' '(' expr ')' expr 
    | 'if' '(' expr ')' expr 'else' expr
    | 'for' '(' ID 'in' expr ')' expr
    | 'while' '(' expr ')' expr
    | 'repeat' expr
    | '?' expr //获取expr的帮助信息,通常是字符串或者标识符
    | 'next'
    | 'break'
    ;
exprlist
    : expr_or_assign ((';' | NL) expr_or_assign?)*
    |
    ;
    
formlist
    : form (',' form)* ;
form
    : ID 
    | ID '=' expr 
    | '...'
    ;
sublist
    : sub (',' sub)* ;
sub 
    : expr 
    | ID '='
    | ID '=' expr
    | STRING '='
    | STRING '=' expr
    | 'NULL' '='
    | 'NULL' '=' expr
    | '...'
    |
    ;
ID  : '.' (LETTER|'_'|'.') (LETTER|DIGIT|'_'|'.')*
    | LETTER(LETTER|DIGIT|'_'|'.')*
    ;
fragment DIGIT : [0-9]; //匹配单个数字
fragment LETTER : [a-zA-Z] ;

antlr4 R.g4

javac R*.java

grun R prog -gui t.R

标签:ANTLR,expr,HEX,Hive,语法,fragment,JSON,pair,INT
From: https://blog.csdn.net/lu070828/article/details/136912822

相关文章

  • neo4j使用详解(六、cypher常用函数语法——最全参考)
    Neo4j系列导航:neo4j及简单实践cypher语法基础cypher插入语法cypher插入语法cypher查询语法cypher通用语法cypher函数语法4.常用函数主要包括谓词函数(断言函数)、标量函数、聚合函数、字符串函数以及集合函数4.1.谓词函数(断言函数)谓词函数返回true或者false,主要......
  • 搜索引擎语法
    百度语法1.搜索A屏蔽B【A-B】这里的'-'前要有空格2.搜索包含A的信息或者包含B的信息【A|B】3.将搜索范围限定在网页标题【Aintitle:B】也就是必须有A且B的内容必须出现在标题中;'intitle:'后不能有空格4.将搜索范围界定在指定网站中【Asite:站点域名】也就是站点域名......
  • Verilog语法回顾--门级和开关级模型
    目录门和开关的声明门和开关类型支持驱动强度的门延迟实例数组and,nand,nor,or,xor,xnorbuf,notbufif1,bufif0,notif1,notif0MOSswitchesBidirectionalpassswitchespullup,pulldown参考《Verilog 编程艺术》魏家明著Verilog共有14中逻辑门和12种开关,用于提供门级和开关......
  • 语法回顾-《Verilog编程艺术》之赋值操作
    目录Verilog赋值操作连续赋值过程赋值参考《Verilog 编程艺术》魏家明著Verilog赋值操作1.连续赋值(Continuousassignment),用于对线网Nets的赋值2.过程赋值(Proceduralassignment),用于对变量variables的赋值3.过程连续赋值:assign/deassign和fork/realease赋值由两......
  • 语法回顾-《Verilog编程艺术》之表达式
    目录表达式操作符操作符优先级整数算数操作符比较操作符逻辑操作符位运算操作符归约操作符移位操作符条件操作符连接操作符操作数向量的抽取数组的访问字符串表达式位长符号表达式赋值和截断与x/z比较参考《Verilog 编程艺术》魏家明著表达式表达式是......
  • Wireshark过滤基础语法简析
    1.简介Wireshark是一款强大的网络分析工具,它可以捕获和显示网络上的数据包,并提供多种过滤功能,让用户可以快速地找到自己感兴趣的数据包。Wireshark的过滤功能分为两种:捕获过滤和显示过滤。捕获过滤是在数据包进入Wireshark之前就对其进行筛选,只保留符合条件的数据包,从而减少捕......
  • py常用语法
    Spider常用知识一.py常用语法1.基础知识1.1.if条件判断情况一,数据里有一些我们并不需要的内容ifdata里有你不需要的数据: 再见else: 保留情况二,页面结构不统一,会有两种页面结构#伪代码,理解含义(思路)提取器1=xxxx#用来提取页面中内容的提取器2=xx......
  • Android.bp语法记录
    参考资料:https://www.cnblogs.com/linhaostudy/p/12361659.htmlhttps://blog.csdn.net/hxp1994/article/details/113853459https://blog.csdn.net/tkwxty/article/details/104395820 Android.bpAndroid.bp文件首先是Android系统的一种编译配置文件,是用来代替原来的Android.......
  • 【Vue】模板语法
    用js完成输出输入框中的值到列表中constbuttonEl=document.querySelector('button');constinputEl=document.querySelector('input');constlistEl=document.querySelector('ul')0;functionaddGoal(){ constenteredValue=inputEl.value; c......
  • Hive 刷题—— 每年的在校人数
    问题描述 year表示学生入学年度,num表示对应年度录取学生人数,stu_len表示录取学生的学制;说明:例如录取年度2018学制是3年,表示该批学生在校年份为2018~2019、2019~2020、2020-2021,在算每年的在校人数时,2018/2019/2020/2021年份都需要算上。示例数据 idyearnumstu_l......