首页 > 其他分享 >从0开始自制解释器——重构代码

从0开始自制解释器——重构代码

时间:2023-04-08 18:57:30浏览次数:48  
标签:重构 解释器 get currentToken value 索引 token type 自制

在上一篇文章中,完成了对括号的支持,这样整个程序就可以解析普通的算术表达式了。但是在解析两个括号的过程中发现有大量的地方需要进行索引的回退操作,索引的操作应该保证能得到争取的token,这个步骤应该放在词法分析的阶段,如果在语法分析阶段还要考虑下层词法分析的过程,就显得有些复杂了。而且随着后续支持的符号越来越多,可能又得在大量的地方进行这种索引变更的操作,代码将难以理解和维护。因此这里先停下来进行一次代码的重构。

基本架构

这里的代码我按照教程里面的结构进行组织。将按照程序的逻辑分为3层,最底层负责操作字符串的索引保证下次获取token的时候索引能在正确的位置。第二层是词法分析部分,负责给字符串的每个部分都打上对应的token。第三个部分是语法分析的部分,它负责解析之前设计的BNF范式,并计算对应的结果。

详细的代码

上面给出模块划分的概要可能没怎么说清楚,下面将通过代码来进行详细的说明。

Token 模块

为了支持这个设计,首先变更一下全局变量的定义,现在定义的全局变量如下所示

extern Token g_currentToken; //当前token
extern int g_nPosition; //当前字符索引的位置
extern char g_currentChar; //当前字符串

之前通过 get_next_char() 来返回当前指向的token并变更索引的时候发现我们在任何时候想获取当前指向的字符时永远要变更索引,这样就不得不考虑在某些时候要进行索引的回退。比如在解析整数退出的时候,此时当前字符已经指向下一个字符了,但是我们在接下来解析其他符号的时候调用 get_next_char() 导致索引多增加了一个。这种情况经常出现,因此这里使用全局变量保存当前字符,只在需要进行索引增加的时候进行增加。另外我们不希望上层来直接操作这个索引,因此在最底层的Token模块提供一个名为 advance() 的函数用于将索引加一,并获取之后的字符。它的定义如下

void advance()
{
    g_nPosition++;
    // 如果到达字符串尾部,索引不再增加
    if (g_nPosition >= strlen(g_pszUserBuf))
    {
        g_currentChar = '\0';
    }
    else
    {
        g_currentChar = g_pszUserBuf[g_nPosition];
    }
}

这样在对应需要用到当前字符的位置就不再使用 get_next_char() , 而是改用全局变量 g_currentChar。例如现在的 skip_whitespace 函数现在的定义如下

void skip_whitespace()
{
    while (is_space(g_currentChar))
    {
        advance();
    }
}

这样我们在获取下一个token的时候只在必要的时候进行索引的递增。

lex 模块

由于打标签的工作交个底层的Token模块了,该模块主要用来实现词法分析的功能,也就是给各个部分打上标签,根据之前Token部分提供的接口,需要对 get_next_token 函数进行修改。

bool get_next_token()
{
    dyncstring_reset(&g_currentToken.value);
    while (g_currentChar != '\0')
    {
        if (is_digit(g_currentChar))
        {
            g_currentToken.type = CINT;
            parser_number(&g_currentToken.value);
            return true;
        }
        else if (is_space(g_currentChar))
        {
            skip_whitespace();
        }
        else
        {
            switch (g_currentChar)
            {
                case '+':
                    g_currentToken.type = PLUS;
                    dyncstring_catch(&g_currentToken.value, '+');
                    advance();
                    break;
                case '-':
                    g_currentToken.type = MINUS;
                    dyncstring_catch(&g_currentToken.value, '-');
                    advance();
                    break;
                case '*':
                    g_currentToken.type = DIV;
                    dyncstring_catch(&g_currentToken.value, '*');
                    advance();
                    break;
                case '/':
                    g_currentToken.type = MUL;
                    dyncstring_catch(&g_currentToken.value, '/');
                    advance();
                    break;
                case '(':
                    g_currentToken.type = LPAREN;
                    dyncstring_catch(&g_currentToken.value, '(');
                    advance();
                    break;
                case ')':
                    g_currentToken.type = RPAREN;
                    dyncstring_catch(&g_currentToken.value, ')');
                    advance();
                    break;
                case '\0':
                    g_currentToken.type = END_OF_FILE;
                    break;
                default:
                    return false;
            }

            return true;
        }
    }

    return true;
}

在这个函数中,将不再通过输出参数来返回当前的token,而是直接修改全局变量。同时也不再使用get_next_char 函数来获取当前指向的字符,而是直接使用全局变量。并且在适当的时机调用advance 来实现递增。

另外在上层我们直接使用 g_currentToken 拿到当前的token,而在适当的时机调用新增的eat() 函数来实现更新token的操作。

bool eat(LPTOKEN pToken, ETokenType eType)
{
    if (pToken->type == eType)
    {
        get_next_token();
        return true;
    }

    return false;
}

该函数接受两个参数,第一个是当前token的值,第二个是我们期望当前token是何种类型。如果当前token的类型与期望的不符则报错,否则更新token。

interpreter 模块

该模块主要负责解析根据前面的BNF范式来完成计算并解析内容。这个模块提供三个函数get_factorget_termexpr。这三个函数的功能没有变化,只是在实现上依靠lex 模块提供的功能。主要思路是直接使用 g_currentToken 这个全局变量来获得当前的token,使用 eat() 来更新并获得下一个token的值。这里我们以get_factor() 函数为例

int get_factor(bool* pRet)
{
    int value = 0;
    if (g_currentToken.type == CINT)
    {
        value = atoi(g_currentToken.value.pszBuf);
        *pRet = eat(&g_currentToken, CINT);
    }
    else
    {
        if (g_currentToken.type == LPAREN)
        {
            bool bValid = true;
            bValid = eat(&g_currentToken, LPAREN);
            value = expr(&bValid);
            bValid = eat(&g_currentToken, RPAREN);
            *pRet = bValid;
        }
    }

    return value;
}

与前面分析的相同,该函数主要负责获取整数和计算括号中子表达式的值。在解析完整数和括号中的子表达式之后,需要调用eat分别跳过对应的值。只是在识别到括号之后需要跳过左右两个括号。

这样就完成了对应的分层,每层只负责自己该做的事。不用在上层考虑修改索引的问题,结构也更加清晰,未来在添加功能的时候也更加方便。剩下几个函数就不再贴出代码了,感兴趣的小伙伴可以去对应的GitHub仓库上查阅相关代码。
从0开始自制解释器——重构代码

标签:重构,解释器,get,currentToken,value,索引,token,type,自制
From: https://www.cnblogs.com/lanuage/p/17299010.html

相关文章

  • 自制 js 的 trim、right、left、instrRev、instr、mid 函数
    //用惯了VB系列语法的instr和mid函数,在js里面处理字符串总是感觉束手束脚//跟Basic语法比起来,其他语言的字符串处理函数的确非常不方便!!!因此,必须自己写个仿Basic语法的javascript的常用字符串处理函数库来用!!!//以下是经过多次修正,便于js处理字符串的函数functi......
  • 主动配电网短期负荷预测重构 以IEEE33节点为算例,有迭代图
    主动配电网短期负荷预测重构以IEEE33节点为算例,有迭代图,各个节点在重构前的电压幅值及重构前后电压幅值的对比图,优化前后网络损耗数值对比,重构优化开断支路具体情况,以及在具体某节点处接入分布式电源的容量。有相关文献及说明。YID:5366646943521359......
  • 配电网正常重构,孤岛划分及故障重构
    配电网正常重构,孤岛划分及故障重构YID:64100618091162566......
  • python 新环境的创建并在 spyder 中转换——在 spyder 中配置 arcgis 的 python 解释
    原文地址blog.csdn.net目录问题描述创建python新环境查看所有环境创建新的python2.7虚拟环境激活环境删除环境在spyder中配置环境,切换python解释器回归正题,将指定路径下的python解释器配置到spyder中重点——解决方法问题描述这几天上课需要下载和学习a......
  • 面向对象、设计原则、设计模式、编程规范、重构,这五者的关系(三)
    要写出满足这些评价标准的高质量代码,我们需要掌握一些更加细化、更加能落地的编程方法论,包括面向对象设计思想、设计原则、设计模式、编码规范、重构技巧等。比如:面向对象中的继承、多态能让我们写出可复用的代码;编码规范能让我们写出可读性好的代码;设计原则中的单一职责、D......
  • 《30天自制操作系统笔记》---第一天
    第一天第一个实验:用二进制写一个显示helloworld的“操作系统”使用工具:1、HxD-二进制编辑器2、qumu模拟器下载了HxD–二进制编辑器编辑好了书上的二进制程序helloos0.img然后按照书上写了bat脚本。Install脚本:用来制作系统启动盘Run脚本,用来启动qumu模拟器运行。不过......
  • 解释器模式(Interpreter Pattern)
    一、概念解释器模式(InterpreterPattern)用于构造一个简单的语言解释器,将字符串按照自定义的方式解释执行,是一种不常用的设计模式除非从事底层开发自己需要去定义较为复杂的表达式,否则基本上不同这个设计模式二、适用场景(1)当一个语言需要解释执行,并可以将该语言中的句子......
  • Docker自制镜像部署Zabbix6
    只需要一个不到1G的zip包即可全自动部署Zabbix6 安装版本:nginx1.22  PHP7.4.33  Mysql8.0.28 Zabbix6.0.12 安装Docker,已有Docker环境的忽略curl-o/etc/yum.repos.d/CentOS-Base.repohttp://mirrors.aliyun.com/repo/Centos-7.repocurl-o/etc/yum.repo......
  • 小技巧003-伪并行重构流场
    小技巧003-伪并行重构流场OpenFOAM的reconstructPar是单核程序,对于较大的算例重构流场时间过长,而reconstrctPar程序可以指定重构某一段时间的流场:reconstructPar-timestart:end可以将所需要重构的流场时间范围分成不同的小段,分别重构不同时间段的流场,实现reconstrctPar的伪......
  • 数据库重构探讨系列(1)
    数据库重构探讨系列(1)基础 1、数据库重构分成6类:2、数据库味道与“代码味道”概念相似,代码味道是代码中出现常见问题,表明需要进行重构。数据库味道表明数据库需要重构。这些味道包括:(1)多用途的列如一个列被用于多种用途,就可能存在额外的代码来确保源数据以“正确的方式......