日常工作中,我们经常会注意到可以发明一种小语言,来简化复杂问题的描述。此时,我们需要做一个编译器,以便把我们自己的小语言翻译成机器可以理解的形式,比如某种高级语言,甚至只是一个复杂的数据结构的序列化形式。
编译器一般由三部分构成:
语法/词法解析器 (Parser)
在 Perl 5 中,构造编译器最方便的利器之一便是 Damian Conway 的 Parse::RecDescent 模块。它在 CPAN 上拥有非常详尽的用法文档。
它生成的解析器是支持回溯的"递归下降"方式,具体细节请参考编译理论方面的书籍。
一个 SQL 语言的文法定义片段,使用 Parse::RecDescent 的语法类似下面这个样子:
select_query: 'select' distinct(?) select_arg(s /,/) from_clause(?) where_clause(?) group_by_clause(?) order_by_clause(?) limit_clause(?) { SQL::SelectQuery->new({ ... }) } |
但此模块的性能并不出色,对于大量的文本解析会花费较多的时间。此时,yacc 风格的 Parse::Yapp 模块可以让性能大幅提升,但它的功能就远没有 Parse::RecDescent 丰富和灵活了,因为它生成的解析器是标准的 LALR(1) 分析。
解析树/抽象语法树 (AST)
使用简单的嵌套数组或者哈希对象可以在 Perl 5 中很好地表达简单的树形结构。但为了 后序的操作方便,我们会选择 Moose 来定义一套类似 DOM 的节点类。不过值得提醒的是, 使用 Moose 是有代价的,它会让你的纯 Perl 5 编写的编译器花费更多的时间来启动。
最近几年,Moose 的粉丝越来越多,或许你在自己的小编译器中也可以小试牛刀 ;)
比如对于一个类 SQL 的小语言,其二元运算符表达式的 AST 节点可以用 Moose 定义如下:
package SQL::BinaryRelExpr;
use Moose;
use lib 'lib';
use SQL::ArithExpr;
extends 'SQL::RelExpr';
has 'terms',
is => 'rw',
isa => 'ArrayRef[SQL::ArithExpr]',
required => 1;
has 'operator',
is => 'rw',
isa => 'Str',
required => 1;
...
1;
代码生成器 (Code Emitter)
很多时候,我们直接写 Perl 5 代码来遍历 AST 就可以直接生成目标代码(或者说最终 想要的文本)。但还有一些场合,特别适合使用 Perl Template Toolkit (TT2) 来 作模版驱动的代码生成。谁说 TT2 模版只能用来生成 HTML 和 XML? 我们经常在自己 的工作中使用 TT2 模版来生成 Lua, C, 甚至 Perl ;)
把“写程序的程序”的革命进行到底!
Perl 6 为编译器的构造提供了语言级别的完美支持。我们不必再求助于第三方模块来 实现自己的小语言了。Perl 6 的 regex 引擎已经强大到足以解析像 Perl 6 本身 这样复杂的语言的文法了。小语言的未来更值得期待!