duangsuse::Echo

注意这段程序里其实也是嵌入了对 \uXXXX 和 non-terminated " 的处理情况的，但我们没有任何重复代码（而且也根本不需要…… ParserKt 里是没 EOF 的，因为一般情况不需要区分 EOF 和 "剩下的字符里没有符合条件的了" 这两种情况）

ParserKt 现在对 "EOF" 的不区分的确造成了一些问题（主要是只允许利用异常来表达 EOF 与否…… 没有不会 mutate stream 的方法），下一个版本我会进行改进

HexDigits 和 FewerHexdigits 是没硬性（命名上的）区别的，如果不够会被直接当成解析失败，它们的本质都是 Repeat。

ParserKt 的另一个亮点在于采用了 Fold 架构—— asInt(16) 是纯流式读取，没有任何调用 parseInt 之内函数的需要，尽可能减少不必要的内存占用（毕竟 atoi 也就是 acc = acc*10 + v 而已……

18 viewsduangsuse, 07:45

duangsuse::Echo

Forwarded from dnaugsuz

木有啊…… 太难了，我现在的技术还是利用程序设计语言自己的调用栈和控制流状态机
如果 incremetal…… 找不到对应的替补，我之能想到一些，比如手动 slice input 再传给我们子解析器的 incremental

17 viewsduangsuse, 07:45

duangsuse::Echo

Forwarded from dnaugsuz

重要的是重复代码最好还是不要有，尤其是最后两个完全相同的 error

17 viewsduangsuse, 07:45

duangsuse::Echo

Forwarded from Mivik Q

准备写incremental（

17 viewsduangsuse, 07:45

duangsuse::Echo

Forwarded from dnaugsuz

写完了不要忘记给我科普下怎么做那个（

17 viewsduangsuse, 07:45

duangsuse::Echo

Forwarded from dnaugsuz

🤔 https://github.com/Mivik/KiotLexer/blob/master/src/main/kotlin/com/mivik/kiot/lexer/Document.kt#L5
这里支持 index, length, seek (就是 move) 和 next, hasNext
怎么感觉有点像给 random access 扩展了个 Iterator<Char>

GitHub

Mivik/KiotLexer

A state-based lexer written in kotlin. Contribute to Mivik/KiotLexer development by creating an account on GitHub.

17 viewsduangsuse, 07:45

duangsuse::Echo

Forwarded from Mivik Q

也是一个自动机，相同之处应该还是有（

17 viewsduangsuse, 07:45

duangsuse::Echo

Forwarded from Mivik Q

啊我做repeat的时候要记一下

17 viewsduangsuse, 07:45

duangsuse::Echo

Forwarded from dnaugsuz

Feed 架构有点太死了感觉（这个版本就只有 peek-1 的 peek, consume() ）
下个版本我会把 ErrorHandler 重命名为更贴切的 FeedError 并且加入 FeedTerminate

我是最近一年才开始用这种「伪动态类型」的架构风格的…… 基本上就是先制定一个功能很少的基类，再利用接口和 instanceof 扩展功能

17 viewsduangsuse, 07:45

duangsuse::Echo

Forwarded from Mivik Q

abc abc ab这种，如果来一个"abc ".repeat(2..3)的消耗，那么是需要到ab那里才能决定并回退

17 viewsduangsuse, 07:45

duangsuse::Echo

Forwarded from Mivik Q

所以需要记一下index来回退

17 viewsduangsuse, 07:45

duangsuse::Echo

Forwarded from dnaugsuz

🤔 其实你也可以学一下 java.io.Reader ，它们那有个 mark/reset 操作，可以不必暴露完 pos (tell) / seek

虽然我之前也实现过一个（基于 List 的泛型流回溯），不过 ParserKt 现在是没有回溯功能的（而且我也不打算加入，因为我觉得 peek-1 好像也怪强大的）

其实主要还是害怕支持 backtracking 后，会使得框架实现对新手更为难懂，而 ParserKt 很重视别人理解上的开销……

18 viewsduangsuse, 07:45

duangsuse::Echo

Forwarded from dnaugsuz

https://github.com/duangsuse-valid-projects/Share/blob/master/Others/kt_misc/pkt_7/Parser.kt#L128 #parsing #Kotlin
就是在这里，我定义了

abstract class StackMarkReset<T>: MarkReset
abstract class BufferMarkReset<BUF>: MarkReset

后者被用于实现了
open class Input<T>(private val feed: Feed<T>)

所以说 ParserKt 最开始是有 mark/reset 这种常见操作的
我现在也破除了对所谓 one-pass 的迷信，但因为实现起来相对复杂还是不打算恢复 >1 的预判

当然说白了不允许“预取”说到底是架构上对子解析器程序灵活性的限制，不是说不能预取就根本没法实现（但实践上它还是会对实现复杂文法增加很大难度，举个例子 (/**) ... */ 这种要判两个字符翻译过来是 Repeat(Repeat(. until '*' postfix not ('/')) ) postfix '/' 看起来十分诡异，而且非常不适合解析结果的构造）

只不过这是 ParserKt 的选择，如果允许就有点狗拿耗子了，还是要做好自己分内的、能够并且擅长实现的工作才好。
正则擅长做的事情就让它去做，它并不落后；ANTLR 擅长的复杂文法和跨语言就让它生成解析器；ParserKt 的目标虽然不止限于 prototype 或 quick hack，但也就是个小工具，不能包容万物…… 类似 editor highlight 这种经常更新的事对 ParserKt代码就不容易复用，但整体看形式化文法的数据结构是跨任何语言和利用方式的，我很重视它们自己与生俱来的复用性。

GitHub

duangsuse-valid-projects/Share

🐕 duangsuse's shared files(e.g. productive software projects, documents) - duangsuse-valid-projects/Share

20 viewsduangsuse, 07:45

About

Blog

Apps

Platform