David's random thoughts
1.65K subscribers
267 photos
29 files
170 links
个人想法合集,主要同步来自Twitter (𝕏)、知乎、博客等账号发布的内容。

注:本频道并非纯粹包含技术相关内容(虽然以它们为主),本人不会刻意回避政治观点表达。可能包含一些直言不讳的主观评价,慎入。

个人博客:https://blog.hjc.im
Download Telegram
David's random thoughts
想着五一前后挑战llama4 400B发现并没什么挑战性,q4模型用7970X (150GB/s)纯CPU prefll 108 t/s decode 13.8 t/s,用8G显存offload dense层27 t/s,塞满双卡96G显存能30.8 t/s 不过llama.cpp的override tensors的prefill看起来是用纯GPU走PCIe访问内存里的模型,还有优化空间。至少不应该比纯CPU差
改一下llama.cpp把bs>=32时GPU通过PCIe读取主机内存里的模型的逻辑去掉,现在内存里的tensor全部由CPU处理,速度就正常多了。

无论是用8G显存还是96G显存的pp性能都各自提升到10倍,远超纯CPU运行的性能。prefill现在可以跑出300 token/s的速度,基本达到日常可用水准。
👏4
试图用2050模拟NS有一个很大的问题就是它有2 gpc (32 rop),而从die shot里看ns2大概率只有1 gpc / 16 rop,所以极客湾的性能估算大概率依然过于乐观了。。

看起来我之前估算底座模式time spy比Steam Deck略高一些还挺准的,可惜我也过于乐观了,当时觉得ns2会给2 gpc / 32 rop(逃

https://twitter.com/9550pro/status/1920106682098819302
🤗191👍1
Xring的X925虽然标定频率较高(平板3.7 GHz,手机3.9 GHz),但常温下稳定跑完SPEC这种长测试的频率依然比较有限,只有3.4 GHz。好在微架构足够强且缓存堆料足,哪怕3.4GHz性能也已经接近主流轻薄本第一梯队。

这个频率的X925相比3.2GHz的前代X4提升接近20%,与M2 Pro/HX370等4/5nm笔记本处理器相近。
代价是服务器带宽贵到视频网站只给得起1Mbps的码率,家里千兆网下载根本用不上。上传带宽也基本没有,而且稍微多用点流量就要被ISP找上门查pcdn。明面上的吃了便宜最后都是要在各种隐形成本里还回来。

https://x.com/LaiskyCai/status/1926450695625953677
👍31👎53
🙃我最多只要求精通C++模板编程(跑

https://x.com/silsrc/status/1928383663651069973
😁18
时隔多年升级存储,感觉这速度都能拿来跑llama 4了(逃
🔥26😨4
Please open Telegram to view this post
VIEW IN TELEGRAM
🥰15🤔4
你怎么这么熟练啊,到底拆了多少竞品回去分析了.jpg

https://x.com/ArtsSuraimu/status/1932888257269838314
🔥15
David's random thoughts
时隔多年升级存储,感觉这速度都能拿来跑llama 4了(逃
实际用下来这个速度的存储直接把C/C++标准IO API报废了。。各个层面大量buffering/拷贝导致内存带宽被干爆,10 GB/s读取在CPU端观察到70 GB/s带宽,4通道HEDT都扛不住。

换Linux API会好一些,但依然只有O_DIRECT能跑出比较接近理论值的性能,而它对offset对齐要求过于严格,日常实用价值也不大。。🙃
2
用某群友的thinkpad跑R7 H350 (Krackan Point DDR5-5600B)能效与性能,大核能效要比HX370强差不多有半代的水平,同功耗频率增加200MHz左右。小核除Fmax略高外变化不大,依然不适合单核高负载。

目前为止HX370的表现是所有Zen5处理器里独一份的差,后出的SKU都好很多。怀疑是工程进度上的一些取舍导致
👍16
进入2025年LLM给我的感觉是这条路线离所谓的AGI越来越遥远了。2023年展望更大更通用的模型,两年后模型的评估标准与发力方向越来越集中在特定高难度和高价值场景。被吹的天花乱坠的头部模型明摆着到处都是刷分痕迹,刷遍AIME竞赛题的CoT模型普遍做不出小学生都能想出来的简单思考题之类的,就很滑稽。
👍42🤡211
一个个都活成了微信的样子
🤣41😁8🤡6