Linux.do 热门话题
3.2K subscribers
26.1K photos
35 videos
13 files
42.3K links
除了Linux,其他的我们都聊一点
https://linux.do
Download Telegram
Gemini 2.5pro已经把o3杀的人仰马翻了

这次Google发布的Gemini 2.5版本就是之前给出的Gemini-2.5-pro-0605
我们可以通过几张图来对比一下
图一:

图2:

我们可以看到的是Google其实有刷榜的能力 比起前两个版本部分标准测评的分数有所下降. 但Google并没有选择这样做, 那Google做了什么呢 在我看来是这次多出来的FACTS Grounding分数(这部分是检测幻觉的)kaggle.com

FACTS Grounding Leaderboard | Kaggle

FACTS Grounding is a benchmark from Google DeepMind and Google Research designed to evaluate the factuality and grounding of AI models.

我们可以看到的是
如果看simpleQA
grok没变
o3是49.4%->48.6%
2.5pro是50.08%->54.0%

如果看FACTS Grounding
o1->o3是78.8%->69.6%
1.5pro->2.5pro是81.2%->87.8%

逆水行舟不进则退 openai不重视用户体验终会导致用户的撤离, 我的实测体验是o3-pro仍和o3有一样严重的幻觉, 这导致工作无法有效推进. 而Gemini无论如何都很舒服

----------------------

这里插入一段我水这篇文的背景:
我本人是一个重度的ai使用者 平时经常依靠ai去进行公式的推导和理解(本人是ML相关专业方向), 在o3更新之后, 我就发现他经常进行一些匪夷所思的黑话和比喻 其对公式的把握经常变的打哈哈, 致命的幻觉几乎导致了这个模型不在好用(比起o3-mini-high和o1-pro). 但因为o1-pro并没有下架所以说也影响不大. 在前几天openai把o1-pro下价后, o3-pro仍然出现和o3一样严重的幻觉, 这导致我数天的工作无法有效推进. 而我也去尝试了其他厂商的模型, 其实极限能力都是差不多的 幻觉率和交互体验造成了这个模型是否好用(比如我觉得o1-pro, Claude4, Gemini-flash, Gemini-pro都是非常优秀的模型)

在今天Gemini-2.5-pro出来后 我第一时间测试了前些时间 2.5pro-preview没做好的问题, o3没做好的问题发现这个模型对幻觉处理特别带劲 于是翻看了各种benchmark

最后我想说刷榜毫无意义 在scale能力的同时让用户能否轻松找到pmf才是ai该做的事情

22 posts - 20 participants

Read full topic

via LINUX DO - 热门话题 (author: JayNing)

Invalid media:
image
image
image
image
马斯克:下周Grok 3.5

14 posts - 13 participants

Read full topic

via LINUX DO - 热门话题 (author: Cai 😈)

Invalid media: image
🔥1
250618 三花AI日报: Proactor AI 发布全球首个自主行动型 AI 智能体;海螺 AI 发布 Minimax Agent 测试版; 海螺 AI 发布 Hailuo 02 视频模型;谷歌发布 Gemini 2.5 Pro 和 Flash 稳定版;ComfyUI 原生支持 Cosmos-Predict2 模型系列

海螺 AI 发布 Minimax Agent 测试版:开源 M1 模型性能比肩 DeepSeek R1

海螺 AI 发布的 Minimax Agent 是一款类似 Manus 的产品,他们还开源了其核心的 Minimax M1 推理模型

从官方放出的基准测试来看,该模型性能可媲美 DeepSeek R1。

目前 Minimax Agent 处于测试阶段,佬们可注册获取 1000 积分免费试用。

海螺 AI 发布 Hailuo 02:高品质白菜价 1080p 视频生成模型

iframe (player.bilibili.com)

海螺 AI 在其 MiniMaxWeek 的第二天推出了 Hailuo 02 视频模型,官方号称一流品质,白菜价格支持原生 1080p输出,可以生成杂技表演等复杂动作。

完整功能介绍可参考官方推文,也可以在官网试用。

谷歌正式发布 Gemini 2.5 Pro 和 Flash 稳定版

谷歌正式发布 Gemini 2.5 系列模型稳定版本,包含 Pro 和 Flash。

同时还推出了 Gemini 2.5 Flash-Lite 预览版,这是目前谷歌速度最快、性价比最优的 Gemini 2.5 模型。

完整更新内容可参考官方博客公告

Proactor AI 发布全球首个自主行动型 AI 智能体

iframe (player.bilibili.com)

Proactor AI 宣称打造了全球首个具备自主行动能力的 AI 智能体,拥有情境感知、记忆增强和实时响应三大核心技术。

与传统 AI 不同,它能在用户未提出明确需求时,主动提供智能服务。目前该产品仍处于白名单测试阶段,感兴趣的佬可以在官网申请加入等待列表。

ComfyUI 现在原生支持 NVIDIA 的 Cosmos-Predict2 模型系列

iframe (player.bilibili.com)

Cosmos-Predict2 是NVIDIA 发布的高保真、具有物理感知的生图模型、图生视频模型。

26 posts - 25 participants

Read full topic

via LINUX DO - 热门话题 (author: kejun)

Invalid media:
image
image
记录中年男人失业的一天

上周被优化毕业后,就回老家了,在家待了一个星期,记录一下中年男人失业的一天。

早上6:00 起床,煮粥(抽时间一天准备好)只需要插上电,按下开关, 刷牙、洗脸。
早上6:10 开始冥想30-40分钟,一般是30分钟。
6:40 开始烧开水,烧两壶。(一家四口的杯子,加半杯刚烧的开水),两个保温杯加1/3的热水,水壶里留点热水搁置,放冷。
7:00 喊两个小孩子起床刷牙、洗脸(提前放好漱口水)
7:15 提醒两个小孩喝水,
7:15-7:40 两个小孩吃饭,老小要扎头发,自己也吃早餐
7:40 临走前两个保险杯加满水,放入书包,我老婆送两个小孩去上学,顺便买菜
7:50-8:30 扫地,抹灰,洗自己的衣服包括两个小孩的。我老婆的自己洗。
8:30-10:50 开笔记本,逛下L站,blog再水一个文章,闲鱼上 上架一些技术服务商品。
11:00 -11:20 接两个小孩,两个放学时间不一致,得跑两次。
11:30-13:40 吃中饭,老大一般中午写作业,陪老小玩完,一般20分钟左右,自己小睡20分钟。
13:40-13:50 送两个小孩上学
接下来的时间,自己可以开笔记本,看看视频或者刷一会手机,如果有事,那得去做。
17:10-17:30 接两个小孩放学
17:30-18:30 吃晚饭,陪两个玩个10-20分钟。
18:40-20:00 自己下楼去散步,偶尔也带一下小孩,主要我走的时间长,老婆不同意带小孩。
20:00-20:30 两个小孩刷牙、洗脸、喝水,洗澡,我要把小孩换洗的内裤,袜子,洗澡的毛巾洗好。
20:30-21:00 自己洗澡,洗换洗的。
21:00-21:30 看看两个小孩有没有睡觉,也会陪他们聊几句。
22:00 小孩子睡着了,自己开始入睡。偶有听的静心音乐。

就这样一天就过完了,开始重复。这样的日子佬友们觉得怎么样

67 posts - 40 participants

Read full topic

via LINUX DO - 热门话题 (author: jack)
上学吗,10个名额,快上车

各位佬友们,点个赞叭。10点25开抢
linux-do.ovinc.cn

Linux Do 分发站

LinuxDo 分发平台,提供邀请码、CDKEY 等资源分发能力,一人一码,安全高效

90 posts - 74 participants

Read full topic

via LINUX DO - 热门话题 (author: xiancaifu)

Invalid media: image
【T佬公益】公益站已经上线Gemini正式模型!!!

公益站主贴: https://linux.do/t/topic/683726
随着Google官方更新,公益站也上线正式模型:

gemini-2.5-flash-lite
gemini-2.5-flash
gemini-2.5-flash-nothinking
gemini-2.5-flash-search
gemini-2.5-pro

并且,未来有可能下掉带后缀的版本,请各位佬友及时切换到最新正式模型。

----------------------

正式版模型更新后再稍微观察一段时间,如果没有其他问题就计划开放下一批兑换码。

128 posts - 94 participants

Read full topic

via LINUX DO - 热门话题 (author: 唐洛)
刘强东内部小范围分享会全文:
大家看到的是跟兴哥(王兴)的外卖之争,老百姓点餐,但其实我们做的是背后的生鲜供应链,这是我真正想要的。前端卖饭菜我可以永远不赚钱

从2007年到现在18年的时间,我们五险一金交了一千多个亿,这些东西都可以合法地成为我刘强东的财富,可以成为我们京东的净利润。这不是废话,因为在国内,外包员工是合法的,但我们京东从来没做。
jdlqd
70 posts - 44 participants

Read full topic

via LINUX DO - 热门话题 (author: labubu)
用ai水了一个简历生成器

用claude3.7和4水了一个简历在线生成器

10 posts - 10 participants

Read full topic

via LINUX DO - 热门话题 (author: 惜缘梦岛)

Invalid media:
image
image
Gemini 2.5全系6.17更新信息汇总

博客:Gemini 2.5: Updates to our family of thinking models - Google Developers Blog

Introducing the Gemini 2.5 model family:

Gemini 2.5 Pro (Stable, no changes from 06-05)
Gemini 2.5 Flash (no changes from the 05-20 preview, updated pricing from )
Gemini 2.5 Flash-Lite (Preview, small reasoning model)

Gemini 2.5 Flash-Lite

对比了上一版2.0 flash

Gemini 2.5 Flash and pricing

we are updating the pricing for 2.5 Flash:
$0.30 / 1M input tokens (*up from $0.15 input)
$2.50 / 1M output tokens (*down from $3.50 output)
We removed the thinking vs. non-thinking price difference
We kept a single price tier regardless of input token size

If you are using the Gemini 2.5 Flash Preview 04-17, the existing preview pricing will remain in effect until its planned deprecation on July 15, 2025, at which point that model endpoint will be turned off.
If you are using 2.5 Pro Preview 05-06, the model will remain available until June 19, 2025 and then will be turned off. If you are using 2.5 Pro Preview 06-05, you can simply update your model string to “gemini-2.5-pro”.

51 posts - 25 participants

Read full topic

via LINUX DO - 热门话题 (author: fengchris)

Invalid media:
image
image
image
image
MNAPI运营原理&更新公告

网址

www.mnapi.com

新用户试用规则

注册即赠送1元余额,欢迎在试用后再根据使用体验决定是否付费。

老用户邀请新用户,各赠送0.5元余额。

运营原理

MNAPI是一个在其他中转站之上的抽象层,不关心获取各类模型api的渠道,而是在市面上的中转站中择优选择,致力于在提供的每一类模型上都有最高的性价比。

MNAPI提供给用户的价格大多等于采购站点的销售价格,从而使得用户直接使用其他中转站的成本与使用MNAPI基本相等。部分渠道属于只做大户的源头渠道,不支持分成,因此价格会比源站略高。

我们解决了以下的用户痛点,确保用户在一处充值就始终用上最低价、稳定、高质量的API服务:

1.API中转站价格波动,之前在低价站点充值的余额还没用完,就涨价了。

2.鱼龙混杂,充值后还没用完,API站点就跑路或降低质量。

3.耗费精力对比、筛选各个API站点,在各个API站点充值试用,导致了较大的检索成本和试错成本。

关于用户反馈收集

我们推荐访问MNAPI的反馈收集页面以提交反馈、需求和问题,在这里提交反馈可以得到最快速的回复。

你也可以在本帖下方留言,我们看到后会及时回复。

当前定价(以模型价格页实际价格为准)

【grok3】Grok3:grok-3 0.008元/次,grok-3-deepsearch/grok-3-deepersearch/grok-3-reasoner 0.08元/次
【grok3】Grok3无审:grok-3 0.01元/次,grok-3-deepsearch/grok-3-reasoner 0.1元/次
【强大】DeepSeek满血fast:0.8元=1元(164k上下文,最大输出164k,高质量,速度快,非常推荐)
【强大】DeepSeek满血:0.5元=1元(128k上下文,128k最大输出,吐字速度峰值极高)
【强大】DeepSeek量化:0.3元=1元(64k上下文,8k最大输出,性价比很高)
【福利】4o联网:0.1元=1美金
【低价】Azure混合:0.2元=1美金(有审无审混合)
【无审】Azure无审:0.25元=1美金(纯无审)
【稳定】OpenAI官key:3.1元=1美金(非常稳定)
【按次】OpenAI按次:不降智,o3mini 0.15每次,可用gpt-4o-image生图模型
【2.5】Gemini2.5:0.1元=1美金(可用2.5flash模型)
【exp】Gemini-exp:0.35元=1美金(可用2.5系列模型)
【按次】Gemini按次:2.5 pro-all模型0.025每次,2.5 pro-preview模型0.04每次,生图模型0.08每次,2.5 flash模型0.008每次
【推荐】Claude官key:3元=1美金
【无敌】oaipro:8元=1美金 用作备用 量大请直接使用 oaipro.com
【超快】QwQ-32B:满血bf16推理精度,131k上下文131k输出

关于更新公告

MNAPI发布更新公告时,将同步到本帖子的评论区。在网页公告和用户群组中也会发布更新公告。

用户群

欢迎加入~
Telegram

MN API用户群

You can view and join @mn_api right away.

37 posts - 22 participants

Read full topic

via LINUX DO - 热门话题 (author: 351)

Invalid media: image
都25年了,百度的AI就这水平?

其实现在搜索引擎都用得少了,只是想着搜国内的新闻,用下百度看看

首页跳出来的 AI回答
点进去一看,感觉有点过于离谱了…

32 posts - 30 participants

Read full topic

via LINUX DO - 热门话题 (author: JsonSong89)

Invalid media: image
又见那个地铁女孩

这次碰巧在一个车厢等座位,在同一站下车换乘,她先下车,我随后走到车门边。耳机里正好在播放歌词,林深时见鹿。想着这都碰见两次鹿了,要不要找她要个微信呢。她在前边走着,稍微打量了一下她,还是上次的装扮,干净的牛仔裤,背着带熊耳的背包,长发白色衬衫,有点偏瘦。此时她似乎也放慢了脚步,从我右边走到了左边。我慢慢走上前两人已经平行。走了一会到快到换乘地铁了,前边人就有点多了。我还是没有想好该如何开口要微信。机会已经错过,那么下次碰见该以怎样话术去要微信,才不显得突兀呢?

子弹飞了一上午,也看到了很多中肯的建议。本人硬件条件还不错的身高有1米8,长的不丑也没那么帅 😂。之前也要过别人女孩子微信,目前胜率100%(只要了两次 😅) 那次是回县城,以问路的方式,加了女孩微信,其实是老家了路熟的很,不过大巴上难得再次相遇,就还是主动要了,心理建设也是做了一路。

想到之前女同事推荐的一个搭讪话术:“美女你好,看你这么漂亮很像我之前的高中同学,给个联系方式吧,相互了解下”

目测这个方式可能不太行,还是得委婉一些。中间等座位的时候,刚刚有两个座位,她好像故意挡住了我,不让我坐在她旁边,另外一位置让别人占去了。过了一站,对面刚好有人下车,我又阴差阳错做在了她对面。中间多次目光相撞,为了避免尴尬,我就假装睡觉了。暗示之一快到站了,我在收拾东西准备下车了,她从我面前经过,如果反感我的话大可从另外远的门出去。还有出站后还是能看的出来故意放慢了走路的速度的,我都准备拉开距离慢慢的走的,上班高峰按道理换乘都着急的赶下趟车的,周围很多人都超过了我俩。总之自信很重要,落落大方的出手。希望下次遇见,不负遇见。

156 posts - 89 participants

Read full topic

via LINUX DO - 热门话题 (author: 尘埃)
谁懂随手点进一个公益站看到标题是 Veloera 的救赎感

感慨一下, 原来只是想做一个方便自己的 Fork, 顺便方便一下其他有需求的用户, 没想到突然就成一个数千用户, 500+stars的中型项目了.
碎碎念:

刚写着帖子突然弹出来一个这个, Zen 也是开始强制更新了哈
以及公益站达到 1亿 Tokens 了, 算是一个里程碑吧, 在此悄悄放一张小纸条:
这 3.3 我是一点也待不下去了, 3.4 快来啊!!
以及一个不知用途的链接: https://zone.veloera.org/topup?code=这%203.3%20我是一点也待不下去了%2C%203.4%20快来啊!!
以及积攒了整整648条通知忍住没看, 还有谁!!

33 posts - 24 participants

Read full topic

via LINUX DO - 热门话题 (author: Neuroplexus)

Invalid media:
image
image
image
image
image
三级了,抽3张华住会金卡

奖品:华住会金卡 * 3

:three_o_clock: 活动时间:

开始时间:2025/6/18 15:00
截止时间:2025/6/19 15:00

📝 参与方式:

在本帖下回复任何内容。(可以的话,麻烦点赞支持)

🔍️ 抽奖规则:

每位用户仅允许参与一次。
使用官方抽奖工具随机抽取中奖者。

⚠️ 注意事项:

本活动将在活动截止时间后关闭回帖,以确保公正性。
中奖者将在活动结束后24小时内在本帖公布,并通过私信通知领奖方式。
所有规则及抽奖结果由活动发起人和论坛管理团队最终解释。

期待您的积极参与,祝您好运!如有任何疑问,欢迎随时联系抽奖发起人。

128 posts - 126 participants

Read full topic

via LINUX DO - 热门话题 (author: 颜雨枫)
【T佬】百亿里程碑达成!!!

开放公益到现在,达成了很多里程碑。100亿tokens,900关注,500star,都是佬友们的支持!!!
直接看数据。

----------------------

tokens 100亿
请求266万

----------------------

模型排行榜:

----------------------

用户排行榜:
真实用户名已打码,未打码的是开放的共享公共资源用户。
81 posts - 62 participants

Read full topic

via LINUX DO - 热门话题 (author: 唐洛)

Invalid media:
image
image
image
世嘉宣布,九款移植到移动端的复古世嘉游戏现在可以免费游玩且无广告,但很快将停止支持。用户可以在下架前,保留它们:

《疯狂出租车经典版》Play商店App Store
《战斧经典版》Play商店App Store
《光明力量经典版》Play商店App Store
《索尼克CD经典版》Play商店App Store
《刺猬索尼克4 第二章》Play商店App Store
《怒之铁拳经典版》Play商店App Store
《怒之铁拳2 经典版》Play商店App Store
《超级猴子球:樱花版》Play商店App Store
《VR网球》Play商店App Store

12 posts - 12 participants

Read full topic

via LINUX DO - 热门话题 (author: 维ABC)
加入L站的第二天,大早上就被别人亲屁股!

在我加入L站的第二天,大早上开着小车去上班,想着又离佬又近了一天,想着想着,彭的一声,车被后面的运垃圾的小卡车撞了!整个人都懵了,后面交警来了,对方全责,接着就去上班了,和人事说被追尾了,能不能不算迟到,人事说不行。哎又是悲伤的一天

25 posts - 17 participants

Read full topic

via LINUX DO - 热门话题 (author: mrhe_aquarius)

Invalid media: image
【坏了,误入书店】脑壳痒痒的要长脑子了

今天约了朋友出来吃饭,结果暴雨倾盆,都怪萧敬腾,吃了饭后乱逛就迷路了,看马斯克吹牛逼呢

15 posts - 9 participants

Read full topic

via LINUX DO - 热门话题 (author: 鸭老师🛡)

Invalid media:
image
image
image
这么晚了,还有人陪我破1k⭐️吗(已破)

预感今天自己的项目star会破千
在AI的帮助下花了整整一天为自己的项目搓出了网页
有待完善

最近⭐️增长速率很快,因为上了玄离的科技周报

虽然知道一觉醒来就会破千
但还是有点激动 😮

项目在github开源,欢迎大家来为star破千助力

另,再也不会碰无框架网页前端了(随时打脸)
写了一天,写出一堆bug
来看我的网页无bug版
https://operit.dev.tc/OperitWeb/
​因为,bug还没提交

19 posts - 16 participants

Read full topic

via LINUX DO - 热门话题 (author: Ylvira)
豆包客户端真的是最好的ai浏览器啊, 吊打dia

看论文博客b站时候翻译,提问,解释很简单, 不想看能转换成博客听(完全没有ai味), 而且完全免费.

24 posts - 22 participants

Read full topic

via LINUX DO - 热门话题 (author: jrerrq)
Google 发布 Gemini 2.5 技术报告【完整版】【中文版】

1. Gemini 2.5 使用了一种稀疏的混合专家(MoE)架构,具备原生多模态能力。其多样化的预训练数据集包括网络文档、代码和媒体,知识截止到 2025 年 1 月,并采用了改进的数据质量方法。
2. Gemini 2.5 的一个关键进步是“思考”功能,使模型在推理时能使用更多计算资源。这提升了各个领域的推理能力,显著提高了数学和编程技能。AIME 2025 分数从 2.0 版的 29.7% 跃升到 2.5 版的 72.0%。
3. Gemini 2.5 扩展了视频理解,现在可以处理长达 3 小时的视频内容。这得益于改进的视听和时间理解能力,解锁了新的互动应用。2.5 Pro 从 46 分钟的视频中准确回忆了一秒钟的事件。
4. 模型的代理能力在“Gemini Plays Pokémon”实验中得到了展示。Gemini 在 800 多小时内保持了长期目标,并成功完成了整个游戏。第二次自主运行时间仅为一半。
5. Gemini 2.5 是首个在 TPUv5p 上训练的系列,得益于新的容错能力,训练更加稳定。

Gemini 2.5 技术报告(PDFMathTranslate + WiNGPT-Babel-2 翻译 (2.3 MB)

27 posts - 18 participants

Read full topic

via LINUX DO - 热门话题 (author: FreeMind)

Invalid media:
image
image
image
image
image
image