Forwarded from QC 的小树林
发现 perf trace 比 strace 快巨多。已经把
strace -cf 换成 sudo perf trace -s --summary-mode=total 了❤2
Forwarded from QC 的小树林
因为现代 CPU 都是超标量的,有多个功能单元(比如两个算术逻辑单元 + 一个浮点运算单元 + 别的),可以一次性发射多条指令到不同的功能单元一起计算,因此一个 cycle 内实际上可以执行多条指令,称之为 instruction-level parallelism(ILP)。当然高并行的前提是有足够的功能单元以及指令之间没有依赖。有关内容可以阅读一下《现代处理器结构》。
我还在用 zen2 没有 TMA 可用。但对于这个场景有非常适合的工具:uiCA 和 llvm-mca。
举个例子,这里的无脑算法我们在 godbolt.org 用 gcc15.2 + O3 的到循环体部分的汇编如下:
把这串代码丢到 uiCA 模拟,可以得到结果是 4 cycles per iteration。而霍纳算法是 8 cycles per iteration。但是为什么呢?
在 HTML output 里面打开 Trace Table,里面有流水线的可视化模拟,包括指令使用了哪个端口、在第几个周期发射(I)、调度(D)、执行(E)、退役(R)等等。如果调度等了很久,那可能是端口不太够;如果退役等了很久,那可能是指令之间有依赖。在霍纳算法的图里,我们可以看到超长的 E->R 距离,所以降低 IPC 的主因就是指令间依赖了。更多有关 Trace Table 的信息,可以看《Visualizing Performance-Critical Dependency Chains》。
我还在用 zen2 没有 TMA 可用。但对于这个场景有非常适合的工具:uiCA 和 llvm-mca。
举个例子,这里的无脑算法我们在 godbolt.org 用 gcc15.2 + O3 的到循环体部分的汇编如下:
.L3:
movsd xmm2, QWORD PTR [rax]
add rax, 8
mulsd xmm2, xmm0
mulsd xmm0, xmm3
addsd xmm1, xmm2
cmp rdx, rax
jne .L3
把这串代码丢到 uiCA 模拟,可以得到结果是 4 cycles per iteration。而霍纳算法是 8 cycles per iteration。但是为什么呢?
在 HTML output 里面打开 Trace Table,里面有流水线的可视化模拟,包括指令使用了哪个端口、在第几个周期发射(I)、调度(D)、执行(E)、退役(R)等等。如果调度等了很久,那可能是端口不太够;如果退役等了很久,那可能是指令之间有依赖。在霍纳算法的图里,我们可以看到超长的 E->R 距离,所以降低 IPC 的主因就是指令间依赖了。更多有关 Trace Table 的信息,可以看《Visualizing Performance-Critical Dependency Chains》。
Forwarded from yihong0618 和朋友们的频道 (伊)
Bilibili
一镜到底!挑战良子同款16袋泡面,超多人要看能成功吗?最难的点竟然是……_哔哩哔哩_bilibili
大家点名想看的16袋泡面来了,另外37根油条,就别让我挑战了,我是一根都吃不下,我从小不爱吃油条,吃着就感觉特别恶心,油条油饼豆腐脑这些都不爱吃, 视频播放量 3685034、弹幕量 12514、点赞数 123883、投硬币枚数 22382、收藏人数 7331、转发人数 15214, 视频作者 橙飞一下, 作者简介 人二为仁,人仁忍韧。全马pb3:43:56,半马pb1:45:27。
美食区最能跑,跑步区最能吃,带你吃好吃又便宜的自助。曾经是小学老师。
,相关视频:良子十大战役速通,哪场才是你心中的第一…
美食区最能跑,跑步区最能吃,带你吃好吃又便宜的自助。曾经是小学老师。
,相关视频:良子十大战役速通,哪场才是你心中的第一…
Forwarded from yihong0618 和朋友们的频道 (伊)
Forwarded from Hacker News 摘要
Telegraph
我们重写了Ghostty GTK应用程序
原标题:We rewrote the Ghostty GTK application 这篇文章介绍了对Ghostty GTK应用程序的重写过程,作者是Mitchell Hashimoto。重写工作全面采用了Zig语言的GObject类型系统,并在每一步都使用Valgrind进行验证,以确保程序的稳定性和内存安全。 Ghostty是一个跨平台的终端模拟器,支持macOS、Linux和FreeBSD。与其他终端模拟器不同,Ghostty在各个平台上使用本地的应用程序和GUI框架。在macOS上,Ghostt…
Forwarded from Hacker News 摘要
Telegraph
链式思维人工智能推理是一种幻觉吗?
原标题:Is chain-of-thought AI reasoning a mirage? 这篇文章探讨了链式思维(chain-of-thought)人工智能推理是否只是一种幻觉。作者对相关研究感到沮丧,认为许多有趣的问题未被提出,反而人们却不断询问链式思维是否“真正”是推理。文中提到,亚利桑那州立大学有一篇引人注目的论文,质疑大语言模型(LLMs)中的链式思维推理是否只是幻觉,作者对此论文持有批评态度。 亚利桑那州立大学的论文认为,链式思维在接近训练数据时有效,但在数据分布有显著变化时就很脆弱,甚至…
Forwarded from 少数派sspai
一日一技 | 用 TLP 解锁 Linux 笔记本的长续航体验 [by 尤米的一招半式]
https://sspai.com/post/101744
https://sspai.com/post/101744
少数派 - 高品质数字消费指南
Archlinux 笔记本省电设置 - 少数派
在 Linux 上想要榨干笔记本的续航潜力,其实并不需要复杂的黑科技,只要合理 TLP 工具,就能大幅延长电池时间。
Forwarded from 少数派sspai
一日一技|一图两吃、加密通讯:如何将两种内塞进一张图片 [by 甜甜的泥土]
https://sspai.com/post/101521
https://sspai.com/post/101521
少数派 - 高品质数字消费指南
一张图片显示两种内容 - 少数派
……见人说人话,见鬼说鬼话?
Forwarded from Hacker News 摘要
Telegraph
消除 AWS Lambda 上的 JavaScript 冷启动问题
原标题:Eliminating JavaScript cold starts on AWS Lambda 这篇文章由 Oliver Medhurst 撰写,讨论了在 AWS Lambda 上消除 JavaScript 的冷启动问题。文章首先介绍了名为 Porffor 的 JavaScript 引擎/运行时,它能够将 JavaScript 提前编译为 WebAssembly 和本地二进制文件。这样的编译方式可以生成体积小(小于 1MB)且执行速度快(毫秒级)的二进制文件。 具体示例显示,通过使用 Porffor…
Forwarded from Hacker News 摘要
Telegraph
LL3M:大型语言3D建模器
原标题:LL3M: Large Language 3D Modelers LL3M(大型语言3D模型)使用一组大型语言模型来编写Python代码,以在Blender中创建和编辑3D资产。根据用户提供的文本指令,LL3M能够从头开始创建富有表现力的形状,并在代码中实现复杂、精确的几何操作。 与之前用于3D创作的代码编写大型语言模型主要针对特定子任务或有限程序的做法不同,LL3M的方法能够生成不受限制的资产,包括几何形状、布局和外观。通过将高级代码视作3D表示形式,我们的流程本质上是一个反复精炼和共同创作的…
Forwarded from Hacker News 摘要
Telegraph
Dev Compass – 编程哲学测验
原标题:Dev Compass – Programming Philosophy Quiz Dev Compass 是一个编程哲学测验工具,通过这个测验,你可以发现自己的编程理念。该工具将你的偏好映射在两个关键维度上:抽象风格与具体风格,以及对人类友好性与对计算机友好性之间的关系。 你需要回答20个关于编码偏好的问题,从而了解自己在开发者坐标系上的位置。问题示例包括:“我偏好的配置方式是:类型安全配置与验证DSL,能以声明性方式表达配置;约定优于配置;或简单的键值对形式的纯文本文件。” 完成每个问题后,…
Forwarded from Hacker News 摘要
Forwarded from Hacker News 摘要
Telegraph
从左到右编程
原标题:Left to Right Programming 该网页的标题是《从左到右编程》,主要讨论程序语言的语法设计问题,尤其是关于代码的可读性和编写体验。作者对Python的列表推导表达了不满,认为其语法存在人机交互方面的不足,尤其是在编辑器的自动补全功能上。 文章中举了Python和Rust语言的例子,比较它们在变量声明和方法访问上的差异。作者认为,理想的语言应该可以在输入代码时提供更好的上下文提示,使得编程的过程更加流畅和直观。例如,在Rust中,当输入变量名称时,编辑器能够立即提供相关方法的建…
❤2
Forwarded from Hacker News 摘要
Telegraph
《反恐精英:一款在宿舍房间里打造的亿万美元游戏》
原标题:Counter-Strike: A billion-dollar game built in a dorm room 在一间宿舍里,计算机科学专业的学生Minh Le正努力尝试集中精力学习。然而,他却被自己设计的一款视频游戏所吸引,这款游戏让他和他的合作者每个月通过广告收入超过20,000美元。Minh Le在位于不列颠哥伦比亚省温哥华附近的西蒙弗雷泽大学攻读学位,他在计算机方面非常出色,因此在学业上并没有遇到太大的困难。尽管如此,设计游戏的收入让他分心,成为他注意力的主要来源。这个故事揭示了一…
《反恐精英:一款在宿舍房间里打造的亿万美元游戏》
原文:https://www.nytimes.com/2025/08/18/arts/counter-strike-half-life-minh-le.html
阅读时间:2 分钟
分数:212
原文:https://www.nytimes.com/2025/08/18/arts/counter-strike-half-life-minh-le.html
阅读时间:2 分钟
分数:212
❤2