LinuxDo 新帖推送
167 subscribers
246K photos
306K links
Download Telegram
标题: 这怎么刚开通的PLUS就没了呢
作者: #a16387402
板块: #搞七捻三
编号: 2125367
帖子: https://linux.do/t/topic/2125367
时间: 2026-05-07 11:33:08
摘要:
oai是在干嘛啊,邮件都发过来了,这号还是免费的,刚开就掉了嘛 是这意思嘛,各位佬
标题: 用 AI 处理 28 期完整期刊文献综述:MinerU MCP 与可恢复 Runner 改造记录
作者: #梁光毅
板块: #开发调优
编号: 2125368
帖子: https://linux.do/t/topic/2125368
时间: 2026-05-07 11:33:20
摘要:
前一版流程见这里:记一次使用agent在一小时内完整调研上百篇文献的工作流
本文记录的是后续工程化改造。
项目背景是 1999-2025 年共 28 期完整英文技术期刊,文章总量在百篇级。目标不是简单翻译全文,而是围绕某一长期主题建立索引、筛选相关文章、拆分文章级摘录,并继续做翻译和横向梳理。
第一版流程已经能跑通,但后续暴露出两个主要问题:

MinerU 本机运行慢,环境依赖重,Windows 下还会遇到编码、路径和依赖问题。
翻译阶段任务量大,长文需要分块,源文件更新后还要能定向重跑,不能靠人工记忆维护状态。

这次改造主要解决这两点。
MinerU 改为 MCP 调用
原先做法是本机直接调用 MinerU。这个方式适合单次测试,但不适合长期批处理。
主要问题有三个:

本机环境重,依赖变动后排查成本高。
转换耗时较长,中途异常后不容易判断是真失败,还是 Markdown 和图片已经生成。
Windows stdout 编码问题会干扰错误判断。

现在改为全局 mineru MCP,项目内只保留一层桥接脚本:
global mineru MCP
-> .codex/scripts/mineru_mcp_client.py
-> output/<issue>/<issue>.md
-> output/<issue>/images/

桥接脚本的职责比较固定:

从全局 Codex MCP 配置读取 mineru server;
调用 parse_documents;
强制 UTF-8 环境;
统一返回 extract_path 和 images_dir;
如果 MCP 没有干净退出,但 Markdown 和 images 已经落盘,则按 fallback_success 处理。

这样 MinerU 不再散落在各个 workflow 里,而是变成一个统一的 PDF → Markdown 服务入口。
示例入口:
python .\.codex\scripts\mineru_mcp_client.py `
--source ".\input.pdf" `
--output-dir ".\output\issue-name" `
--language en `
--enable-ocr

期刊批量转换则通过更上层的管理脚本执行:
powershell -ExecutionPolicy Bypass -File .\.codex\scripts\run-issue-mineru.ps1 -FromVol 49 -Progress

这层只负责选择任务、跳过已有 Markdown、是否覆盖旧输出,实际转换仍然走 MCP 桥接脚本。
Runner 改造
早期流程接近 hooks 模式:agent 开始时写状态,结束时收集输出并推进进度。
后来改成普通 runner。原因很简单:Windows 下 hooks 不稳定,而且复杂任务只靠 start/stop 两个事件不够。
当前 runner 的基本生命周期是:
read progress.json
-> select next unit
-> write active-run.json
-> create runs/<workflow>/<timestamp-id>/
-> write prompt.txt
-> codex exec
-> validate output
-> finalize official output
-> update progress.json
-> clear active-run.json

几个状态文件分工如下:
progress.json 业务队列和完成状态
active-run.json 当前锁,防止并发写入
runs/... 单次运行审计目录
progress.md 人类可读的流水日志

每次运行至少保留:
prompt.txt
stdout.txt
stderr.txt
last-message.md
metadata.json

这样中断后可以明确回答几个问题:

当前跑到哪个 unit;
child process 是否真的完成;
输出是否通过校验;
finalize 是否写入正式产物;
progress 是否推进;
是否可以 repair 或定向重跑。

通用命令保留为固定形态:
node .codex/runner/exec.mjs <workflow> --status
node .codex/runner/exec.mjs <workflow> --dry-run
node .codex/runner/exec.mjs <workflow> --once
node .codex/runner/watch.mjs <workflow> --once
node .codex/runner/exec.mjs <workflow> --repair

实际使用时,一般先 --dry-run 看下一个任务,再 --once 验证一次完整链路,最后才批量跑。
翻译 Workflow
翻译阶段是这套 runner 的主要压力测试。
长文不能直接整篇塞进一个 codex exec,所以按 Markdown 结构切分:
article.md
-> chunk01.md
-> chunk02.md
-> chunk03.md

每个 chunk 单独作为一个 unit:
chunk01.md -> codex exec -> chunk01.zh-CN.md
chunk02.md -> codex exec -> chunk02.zh-CN.md
chunk03.md -> codex exec -> chunk03.zh-CN.md

全部 chunk 完成后,再合并为正式中文稿:
chunk*.zh-CN.md -> article.zh-CN.md

这里重点不是“切块”,而是状态判断。
之前遇到过一个问题:源 Markdown 已经更新,但旧中文稿还在。如果 runner 只判断“译文文件是否存在”,就会把旧译文误判为已完成。
现在的规则改成:
先比较 sourceHash
再判断旧输出是否可复用

也就是说,输入指纹变化优先于输出存在性。
如果源文变了,对应 unit 会重新进入 pending。只有该 unit 自己成功 finalize 后,才更新它的 last successful sourceHash。
这个规则解决了三类问题:

源文更新后旧译文挡住新任务;
chunk 边界变化后旧 chunk 被错误复用;
某个 unit 完成时误清理其他 unit 的重跑状态。

定向重跑也固定成三步:
node .codex/runner/exec.mjs component-translate --dry-run
node .codex/runner/exec.mjs component-translate --once
node .codex/runner/exec.mjs component-translate

先确认目标范围,再验证一个前台 unit,最后跑完整队列。
当前状态
当前项目状态如下:
主期刊处理:28/28 completed
文章级/分块翻译:161/161 translated
基础文献翻译:37 translated + 2 skipped_existing_cn
专题来源翻译:54/54 translated

这些数字来自状态文件和 watcher 输出,不依赖对话上下文。
对应状态入口包括:
output/progress.json
output/timeline-progress.json
translation-progress.json
runner watch output

结论
这次改造的核心不是 prompt,而是控制面。
对批量文献任务来说,agent 只应该处理当前最小单元。其余状态必须外置:

队列状态;
当前锁;
输入指纹;
失败记录;
正式输出;
单次运行审计目录。

MinerU MCP 解决输入转换的一致性问题。
Runner 解决批量任务的恢复、监控和重跑问题。
翻译 workflow 则验证了长文分块、输入变更检测和正式产物合并是否可靠。
这套结构跑起来之后,后续扩展新的文献队列或新的处理阶段,主要工作就变成新增 workflow adapter,而不是重新设计整条流水线。
标题: 马斯克官宣xAI解散,22万张GPU算力租给Anthropic
作者: #wangshidanran
板块: #前沿快讯
编号: 2125384
帖子: https://linux.do/t/topic/2125384
时间: 2026-05-07 11:34:04
摘要:
就在刚刚,马斯克正式对外确认,xAI 将被解散。


被佬友们薅破产了
标题: 想知道怎么使用AI调用Chrome DevTools调试前端页面
作者: #蓝芷怡
板块: #开发调优
编号: 2125403
帖子: https://linux.do/t/topic/2125403
时间: 2026-05-07 11:35:11
摘要:
就是我现在才刚刚学会使用cc switch配合codex使用佬们的公益站写代码,然后有时候写的东西有问题,就只能在控制台复制报错贴到codex里面处理。然后我逛L站的时候看到有些佬说AI可以使用devtools来调试页面,我就不知道怎么做了,在网上找然后问Gemini给出的结果都很含糊,我就想问问流程是怎么样的。有没有教程帖子可以参考一下。
标题: 检查垃圾邮件,发现当天小米mimo那个就通过了,没收到邮件的可以去看看
作者: #jasonli
板块: #搞七捻三
编号: 2125442
帖子: https://linux.do/t/topic/2125442
时间: 2026-05-07 11:39:11
摘要:
我一直没收到邮件以为落选了,直到今天想把一些邮件加入垃圾邮箱,才发现当天就通过了,我只放了一个vibecoding写的一个小项目就过了 可见还是非常容易过的  没收到的也可以检查一下垃圾邮件
标题: Claude Code在使用的时候,经常显示的串行或者花屏
作者: #L_SP
板块: #开发调优
编号: 2125451
帖子: https://linux.do/t/topic/2125451
时间: 2026-05-07 11:40:07
摘要:
我在Claude Code在使用的时候,经常显示的串行还有花屏,再或者同一条信息连续显示了多行,有没有佬知道这是什么原因,困扰已久 

Powershell 和CMD 都是这样。
标题: Pansou公益站很快要停了,狐蒂云跑路了,有什么类似vps推荐没
作者: #fish2018
板块: #搞七捻三
编号: 2125473
帖子: https://linux.do/t/topic/2125473
时间: 2026-05-07 11:43:07
摘要:
有性价比高的机器可以推荐下,公共服务不打算投入太多,没有合适的就江湖再见了
标题: 咨询万能的佬友 gpt plus升级pro的问题
作者: #咆哮疾风
板块: #开发调优
编号: 2125489
帖子: https://linux.do/t/topic/2125489
时间: 2026-05-07 11:44:33
摘要:
今天刚刚用礼品卡在苹果手机上订阅了plus(手机订阅没法直接订阅pro,必须先开通plus,再升级pro), 请问是直接补差价升级pro,还是原价100刀订阅5xpro,隔天苹果再给我退款呢? 这个plus我是否能使用? 想升级pro的话是否必须今天就得买?
标题: GoPay订阅chatgpt已经死了是吗?
作者: #Bouty
板块: #搞七捻三
编号: 2125493
帖子: https://linux.do/t/topic/2125493
时间: 2026-05-07 11:44:54
摘要:
GoPay订阅chatgpt已经死了是吗?
标题: sub2api与ccswitch用量配置
作者: #allin75
板块: #开发调优
编号: 2125497
帖子: https://linux.do/t/topic/2125497
时间: 2026-05-07 11:45:29
摘要:
可以在ccswtich中看到网页中配置的五小时限,日线限,周限



代码 (click for more details)
标题: 悲报!奥特曼大手又发力了!
作者: #HaroldXin
板块: #搞七捻三
编号: 2125506
帖子: https://linux.do/t/topic/2125506
时间: 2026-05-07 11:46:07
摘要:
援引群友消息,今早奥特曼大手疑似再次发力!
零刀试用活动还能正常请求支付链接
但不论直过、PP和Gopay均在成功后无法正常到账Plus
这下天才程序员真的要陨落了吗?
标题: gpt plus相关问题
作者: #daima
板块: #开发调优
编号: 2125510
帖子: https://linux.do/t/topic/2125510
时间: 2026-05-07 11:46:30
摘要:
求助一下,gpt plus账号自己花真的钱用google play付款和那些薅羊毛的一样都会被封吗
标题: 纠结好几天了,到底开GPT pro还是Claude max
作者: #ClawCloud
板块: #搞七捻三
编号: 2125512
帖子: https://linux.do/t/topic/2125512
时间: 2026-05-07 11:46:34
摘要:
公司给报销最多1000,上个月是开了Claude 5x+ bug搞得几个低价plus号
现在gpt5.5感觉挺好的而且可以反代给hermes用,想转GPT pro,但是gpt又不是全面比claude强而且plus可以低价开
标题: 马斯克给a社租赁算力,a社终于当回人了
作者: #fist2005
板块: #搞七捻三
编号: 2125525
帖子: https://linux.do/t/topic/2125525
时间: 2026-05-07 11:48:55
摘要:
看到新闻说马斯克解散了公司,然后把GPU租给了A社,A社终于愿意提升额度给大家使用了。
标题: 准备实习结束,想向带我的mentor请教未来的方向
作者: #megumimegumi
板块: #搞七捻三
编号: 2125528
帖子: https://linux.do/t/topic/2125528
时间: 2026-05-07 11:49:52
摘要:
我的mentor思维能力非常强,即将离职的我不想错过宝贵的请教机会,但是反思自己,真正想问的是什么呢?技术细节?网上资料众多,ai也能解答。职场经验?想想也不知道问些什么
苦思冥想,我只能想出一个问题,也是平日里我反复思索过的一个问题,ai时代,我们究竟需要怎样的能力,企业缺的是怎样的人,现在开发的界限越来越模糊,从我刚入职时的ai辅助开发,到现在公司内部ai员工推进,我甚至后面只要补齐,难道只是需要人确认对其一下方向?在这个剧变的时代,我们人的价值究竟在哪里。这个问题是我平时一直有在想的,但又觉太过宏观,怎样的提问能获得一位前辈宝贵的建议呢。
可以得到佬友们提供宝贵的建议。
标题: opus4.7 这是在进行什么神秘的仪式么。。。。
作者: #梧桐
板块: #搞七捻三
编号: 2125530
帖子: https://linux.do/t/topic/2125530
时间: 2026-05-07 11:50:10
摘要:
opus4.7 extra high 

它说的东西是什么东西
标题: 开通iCloud 隐藏邮箱 还需要升级iCloud+ 要收费吗
作者: #dalang
板块: #搞七捻三
编号: 2125545
帖子: https://linux.do/t/topic/2125545
时间: 2026-05-07 11:52:04
摘要:
开通iCloud 隐藏邮箱 还需要升级iCloud+ 要收费吗