IMO 金牌又被拿下了 这让人类做题家怎么活()
这个模型训练基本思想就是避免模型靠蒙出正确答案得分,于是搞了个校验模型来看过程打分,又搞了个校验校验模型来看校验模型打的分是不是对的,不对就扣他工资
感觉有点像避免 Reward Hacking 的思路
比较值得提的是这个模型是基于 v3.2exp 的,有 DSA 以后推理成本降低了一截;所以它现在可能是大众唯一可以摸到的 IMO 金牌模型(虽然一次 Heavy 还是要一千块,以及大众真的有什么做数学题的需求吗
https://github.com/deepseek-ai/DeepSeek-Math-V2/blob/main/DeepSeekMath_V2.pdf
这个模型训练基本思想就是避免模型靠蒙出正确答案得分,于是搞了个校验模型来看过程打分,又搞了个校验校验模型来看校验模型打的分是不是对的,不对就扣他工资
感觉有点像避免 Reward Hacking 的思路
比较值得提的是这个模型是基于 v3.2exp 的,有 DSA 以后推理成本降低了一截;所以它现在可能是大众唯一可以摸到的 IMO 金牌模型(虽然一次 Heavy 还是要一千块,以及大众真的有什么做数学题的需求吗
https://github.com/deepseek-ai/DeepSeek-Math-V2/blob/main/DeepSeekMath_V2.pdf
🔥23🙊3
Media is too big
VIEW IN TELEGRAM
太好玩了 z3-solver
https://www.arealme.com/luck-test/cn/
这个网站是用 Math.random() 来抛随机数的,而众所周知, Math.random() 不是密码学安全的,它在 v8 用的是 xorshift128+,它很快,但是所有运算都是线性的
于是我们可以用 z3-solver 通过几个随机数求解出其内部 state,然后算出接下来一段时间内的随机数
一直知道可以这么干,今天终于实践了一下(
https://www.arealme.com/luck-test/cn/
这个网站是用 Math.random() 来抛随机数的,而众所周知, Math.random() 不是密码学安全的,它在 v8 用的是 xorshift128+,它很快,但是所有运算都是线性的
于是我们可以用 z3-solver 通过几个随机数求解出其内部 state,然后算出接下来一段时间内的随机数
一直知道可以这么干,今天终于实践了一下(
🥰65🆒18
橘橘橘子汁 & 🍊
DeepSeek V3.2 来了 https://mp.weixin.qq.com/s/ohsU1xRrYu9xcVD7qu5lNw 看了下技术报告,主要还是 DSA 那套,不过性能有提升 正好试用一手(
Agent 用起来挺不错的感觉,DSA 降本导致推理速度快了很多,智力也比较在线
不过世界知识甚至感觉更匮乏了,终究还是参数量太小了...几个我觉得 LLM 应该会知道的知识和库用法他都不知道,后面补上去以后就一次写通了,效果也很不错
不过世界知识甚至感觉更匮乏了,终究还是参数量太小了...几个我觉得 LLM 应该会知道的知识和库用法他都不知道,后面补上去以后就一次写通了,效果也很不错
❤17🥰8
WeTab 和 Infinity 新标签页似乎都被投毒了
安全...
https://meta.appinn.net/t/topic/78159
https://www.bleepingcomputer.com/news/security/shadypanda-browser-extensions-amass-43m-installs-in-malicious-campaign/
不过 WeTab 他们不认账:https://mp.weixin.qq.com/s/E8YQLWZFM2J7r5DZNSl47w
安全...
https://meta.appinn.net/t/topic/78159
https://www.bleepingcomputer.com/news/security/shadypanda-browser-extensions-amass-43m-installs-in-malicious-campaign/
不过 WeTab 他们不认账:https://mp.weixin.qq.com/s/E8YQLWZFM2J7r5DZNSl47w
😱44😇9