duangsuse::Echo

#PLT 现在咱来讲讲过于中缀链解析的问题，然后我就只需要写Kotlin Parser和Binarie二进制组合解析库了…… （怎么觉得有点懒得讲）首先这个中缀链呢…… 就是 1 + 2 * 3 这里我们谈的是就解析传统的编程语言来的那个中缀链，所以不提及逆波兰记法(reverse polish notation)和前缀记法什么的。尽管我们会谈及一些形式化文法方面的例子，但这里不是讨论解析算法的。本文使用的是传统的 recursive descent 递归下降自顶向下(top-down)解析。首…

所以说了这么多，我们谈谈怎么用Kotlin写计算器吧……（也就是我要引入这次用小技巧来优化的递归算法）

计算器很简单：

Expr = AddSub
AddSub = MulDiv [+-] MulDiv
MulDiv = <int> [*/] <int>

这里为了方便我们不使用scannerless parsing的风格…… <int> 表示它是一个有状态存储的 Token 的意思，而 for、void 这种就是『无状态存储』的 Token。
（不知道是不是有点不良实践了，emmm）
Scanner: java.util.Scanner.

为了节省时间我只写一个复用抽提程度比较低的版本：

import java.lang.System
import java.util.Scanner as Lex

val input = Lex(System.`in`, "UTF8") //.useDelimiter("[\\+\\-\\*/]") // 好吧，我才知道delimiter不会next给你
//... 鉴于Java Scanner实在是太过弱鸡，暂时不支持不加空格的情况。

typealias Join = (Int, Int) -> Int
/** [prec]: Ascending order */
enum class Op(val prec: Int, val join: Join) {
  `*`(0, {a,b->a*b}), `$`(0, {a,b->a/b}),
  `+`(1, {a,b->a+b}), `-`(1, {a,b->a-b})
}
// 不准吐槽骚 Op 定义法…… 不过由于 `/` 这个名字依然是非法的（下文必须用到 Enum 类上自动生成的valueOf String），所以这里暂时通融一下，($)=(/)。

object Calculator {
  val terminateKw = "." //同样是一个通融，因为计算器很简单不好选择中缀链的终止符号(也可以选EOF但我不喜欢)，为了方便起见选择这个
  // 1 + 2 * 3 .
  @JvmStatic fun main(vararg arg: String) {
    scanInt().let(::infixChain).let(::println)
  }
  // 鉴于单纯LL1无法处理两个字符的中缀算符，
  // 为了优雅性不得不把上一次为了比较结合顺序的算符解析结果传来传去的
  // 不过如果没有也不影响
  private fun infixChain(base: Int, op_left: Op? = null): Int {
    val op1 = op_left ?: scanInfix() // '+'
    val rhs1 = scanInt()
    val op2 = scanInfix() // '*'
    return when {
      op1.prec <= op2.prec -> infixChain(op1.join(base, rhs1), op2) //(1+2)*3, 没事
      op1.prec  > op2.prec -> op1.join(base, infixChain(rhs1, op2)) //1+(2*3), 被人抢跑咯~
    }
  }
  private fun scanInt() = input.nextInt()
  private fun scanInfix() = Op.valueOf(input.next())
}

(大意，可编译版本过会发文件)

这里我们使用了『上下文相关』（个🍺）解析法…… 算了其实是无关，但是有这样的优化。
所谓的上下文就是 base, op1, rhs1, op2 啦，其实也不能算上下文，它就是见机行事好然解析过程更高效而已
这个解析算法算是经典的递归下降…… 不是很好理解吧？不如上面好理解吧？这就对了……
想想它是怎么解析 1 + 2 * 3 + 1 . 的，递归调用是这样，其他自己想吧：

scan(1, null)

//op1=(+), rhs1=2, op2=(*)

  scan(2, `*`)

//op1=(*), rhs1=3, op2=(+)

  scan(6, `+`)

//op1=(+), rhs1=1, rhs2=[done]
//return (+) 6 1
//return (+) 1 7
就是这样，那么又有什么可以优化的呢？？？

29 viewsduangsuse /'dʊɔːŋ sjuːz/ | [⃪PLD, FPλ], edited 13:07