ksco 的工作日志

接下来是不是可以上 C-Reduce 了

❤2🤔1

165 viewsYang Liu, edited 13:25

跑出来了，精简到了 <60 行：https://ksco.cool/a/wnwr

edit：已交由同事提交到了 Debian：https://bugs.debian.org/cgi-bin/bugreport.cgi?bug=1071140

🗿5

165 viewsYang Liu, edited 18:36

ksco 的工作日志

正在用 gdb 調試 gdb，感覺我 CPU 快燒了

🤯10

188 viewsYang Liu, 07:17

ksco 的工作日志

自文档的 Makefile

🥰6

195 viewsYang Liu, edited 08:41

ksco 的工作日志

Box64 新版本：
https://github.com/ptitSeb/box64/releases/tag/v0.2.8

「Loongarch dynarec! Linux games are running, and with good speed, especialy on 3A6000 platforms. Games on Wine are not working yet due to 16k pagesize limitation.」

GitHub

Release v0.2.8 · ptitSeb/box64

What's Changed
=> Linux Games can now load even on a 16K pagesize machine like a mac M1, and games (including Unity3D ones) can be played with no issues.
=> Hack to enable Vulkan driver o...

🥰5👍1

148 viewsYang Liu, 16:22

ksco 的工作日志

TIL 如何计算一个 uint8 的 parity？

（parity 是指一个数字中 1 的个数的奇偶性，偶数结果为 1，奇数则结果为 0）

uint8 a = ...
a ^= (a >> 4)
a ^= (a >> 2)
a ^= (a >> 1)
a &= 1
a ^= 1
return a

其实就是按对来取消所有的 bits，最后留下的 least significant bit 取反就是结果。

🤔1

184 viewsYang Liu, edited 10:08

ksco 的工作日志

Forwarded from 刘阳

卧槽

187 viewsYang Liu, 12:59

ksco 的工作日志

Forwarded from 刘阳

我他妈知道了

191 viewsYang Liu, 12:59

ksco 的工作日志

Forwarded from 刘阳

龙芯的 amswap* 系列指令前面两个寄存器不能是同一个

😁7

201 viewsYang Liu, 12:59

ksco 的工作日志

Forwarded from 刘阳

那你倒是报个 sigill 啊

192 viewsYang Liu, 12:59

ksco 的工作日志

Forwarded from 刘阳

妈的真服了

181 viewsYang Liu, 12:59

ksco 的工作日志

索尼在日开放 JIT 岗位，难道真的要做 Arm 掌机？

https://x.com/firstadopter/status/1791347164662153306

🥰3

179 viewsYang Liu, 08:46

ksco 的工作日志

盘点一下 box64 中用于调试的基础设施：

trace
开启之后，可以在指定的 x64 pc 范围内逐指令打印指令执行后的微架构状态及变化。
一旦锁定问题的范围，这几乎是无敌的调试手段，但如果这个范围刚好在热点代码上，可能会生成上百 GB 的 trace 文件，做我的客人，看去吧。

dump
开启之后，动态重编译器在编译期会把生成的代码块打印出来，如下图。
如果锁定了问题范围，可以通过 dump 非常方便地看到 box64 对某条 x86 指令生成了什么 native 指令序列。

nodynarec
DynaRec 是 box64 中动态重编译器的名字，这个选项顾名思义就是可以在某个 x64 pc 范围内禁用掉 DynaRec，让这部分代码 fallback 到解释器实现。
可以用于 bisect 来定位问题范围，配合上面两个选项使用。

missing
可以打印出 DynaRec 在编译过程中遇到的未实现的指令，方便开发者为 DynaRec 添加新指令实现。

test
这个是大杀器，co-simulation。开启后，DynaRec 会逐条指令和解释器对比微架构状态的变化，并打印出不一致的地方。
但是这个手段对于一些存在 racing 的情况会失效并吐出大量的垃圾信息，比如 LOCK prefix 指令和多线程程序。所以仅适合调试较为简单的 guest 程序。

show segv
开启后 box64 会打印出所有遇到的 sigsegv 和 sigbus。
很多程序都会有自己的 sighandler，开启该选项后可以让一些不应该发生的 crash 暴露出来而不是被 guest 的 sighandler 捕获。

nosigsegv
开启后 box64 不会注册任何 guest sighandler，因为有上面的选项，这个不怎么常用。

rolling log
上述都是对于 DynaRec 的调试手段，rolling log 则是针对 libwrap 的。这个选项会记录所有的 native lib function call，并在程序死掉后打印出最后调用的 n 个，非常有用的调试手段。

showbt
开启后 box64 会在死掉之后打印 backtrace，比较通用的调试手段，偶尔会用。

207 viewsYang Liu, edited 10:14

ksco 的工作日志

今日上班，做屁屁踢

🆒3

212 viewsYang Liu, 09:28

ksco 的工作日志

遇到了一个有意思的“性能”问题：

今天在 3A6000 上用 box64 运行空洞骑士（Unity）时发现即使是在菜单页，fps 也只有个位数。要知道空洞骑士的硬件要求并不高，应该是可以轻松跑满帧的。

打开 perf top，发现一切正常，绝大部分的时间都花在了运行 JIT code 中。但这个时候又发现了另一个神奇现象：打开 perf top 后，游戏菜单页的 fps 竟然提升到了 20 左右。关掉 perf top 就会再次回落到个位数。

于是用 gdb attach 上去，然后根据 perf top 在最热的地址那里打上断点，发现是如图的代码。也就是说，当前的线程卡死在了 ll/sc 序列里面出不来了。

然后就瞬间发现是 bnez 写错了，应该是 beqz 。出现这个 typo 的原因是很多差不多的指令实现我都是直接从 RV64 后端拷贝过来然后改一改。龙架构和 RV 的 sc 指令最后的结果成功与否是相反的，RV 用 bnez ，龙架构用 beqz 。实现 LOCK DEC 指令时忘记改了。

所以为什么性能会下降也就容易理解了，本来是 sc 成功才会通过，现在变成了 sc 失败才会通过。很明显正常情况下， sc 成功的概率是远大于失败的概率的，不然无锁编程也没什么意义了。

那为什么使用 perf top 会“提升”性能呢，猜测是 perf 的实现应该也大量使用了 ll/sc 序列，导致失败率上升了。

🤯11

203 viewsYang Liu, edited 16:15

ksco 的工作日志

x86_64 SSE2 指令 PSADBW xmm1, xmm2/m128 做的事情是：

Computes the absolute differences of the packed unsigned byte integers from xmm2/m128 and xmm1; the 8 low differences and 8 high differences are then summed separately to produce two unsigned word integer results.

那么如何使用 LSX 实现这条指令呢，我发现 VABSD.BU 可以用于计算 absolute differences 部分，但 LSX 竟然没有求和指令用于实现第二部分。最后想出来了如下实现：

VABSD.BU v0, v0, v1

VPICKEV.B   v2, v0, v0 // 挑出偶数位置的 8 位元素
VPICKOD.B   v3, v0, v0 // 挑出奇数位置的 8 位元素
VEXTH.HU.BU v2, v2     // 8 位扩充为 16 位
VEXTH.HU.BU v3, v3     // 8 位扩充为 16 位
VADD.H      v0, v2, v3 // 完成一次 8 位到 16 位的合并

VPICKEV.H   v2, v0, v0 // 挑出偶数位置的 16 位元素
VPICKOD.H   v3, v0, v0 // 挑出奇数位置的 16 位元素
VEXTH.WU.HU v2, v2     // 16 位扩充为 32 位
VEXTH.WU.HU v3, v3     // 16 位扩充为 32 位
VADD.W      v0, v2, v3 // 完成一次 16 位到 32 位的合并

VPICKEV.W   v2, v0, v0 // 挑出偶数位置的 32 位元素
VPICKOD.W   v3, v0, v0 // 挑出奇数位置的 32 位元素
VEXTH.DU.WU v2, v2     // 32 位扩充为 64 位
VEXTH.DU.WU v3, v3     // 32 位扩充为 64 位
VADD.D      v0, v2, v3 // 完成一次 32 位到 64 位的合并

🤔1

166 viewsYang Liu, 11:01

ksco 的工作日志

今天知道 LoongArch64 中有一个内核态的 CSR field 叫 IMPCTL1.STFILL ，没理解错的话控制的应该是 store buffer 的启用与否。这个选项在 4k 页的内核中是禁用的：https://github.com/torvalds/linux/commit/d23b77953f5a4fbf94c05157b186aac2a247ae32。

有趣的是，据说禁用掉这个选项后，虽然会一定程度影响性能，但会更接近 x86 的强内存模型，因此更适合 x86 模拟器。虽然没有实际测试，但感觉合理，毕竟禁用掉了 store buffer 等同于禁用了 store 顺序的重排（？）

编辑：理解有误，请看评论区。

181 viewsYang Liu, edited 11:22

ksco 的工作日志

https://www.bilibili.com/video/BV1iG411r7ik/

Bilibili

全网最详细全面的模拟赛车拉力教学【第1期】油门与刹车_哔哩哔哩_bilibili

游戏：《EA WRC》《尘埃拉力赛2.0》配音：@垃圾佬雨基封面：@衛隊居然開槍模拟赛车设备：无状态选手的赛车小店基座：MOZA R16方向盘：MOZA RS V2踏板：MOZA CRP序列档：MOZA SGP微信群：加wuzhuangtaixuanshou拉群纯技术交流QQ群：604215353 视频播放量 101799、弹幕量 143、点赞数 4690、投硬币枚数 2486、收藏人数 5292、转发人数 408, 视频作者无状态选手, 作者简介模拟赛车拉力玩家，相关视频：[wrc7]入门…

196 viewsYang Liu, 15:45

ksco 的工作日志

明天讲 box64，欢迎来看直播

👍10🤔1👀1

171 viewsYang Liu, 03:33