首贴-适配全平台桌面翻译软件,请大佬们品一品
开发初衷
之前一直在 mac 上用 Bob 做翻译,体验非常顺手。
换工作后公司配了 Windows,结果发现 —— 找不到一款同样好用、顺手的桌面翻译软件。
既然找不到,那就自己做一个。
也趁着大模型的浪潮,干脆 跳过传统「OCR + 机翻接口」这套老路,
直接接入 大模型,让:
----------------------
目前功能
● OpenAI 兼容模式模型配置 ● 支持自定义大模型(OpenAI 兼容协议) ● 现在默认用自己的接口,后面会接一些可以直接试用的公共模型
● 截图翻译 ● 选中屏幕区域,一键截图 + 识别 + 翻译 ● 适合看文档、PPT、PDF、图片、视频字幕等
● 划词翻译 ● 在任意应用中选中文本 ● 通过快捷键直接呼出翻译结果 ● 类似 Bob 的手感,尽量做到“用完就走”,不打断思路
● 网络代理支持 ● 支持配置 HTTP / SOCKS 代理 ● 方便在公司 / 特定网络环境下使用
● 全局系统快捷键 ● 自定义快捷键触发截图翻译、划词翻译等 ● 一次设置,多平台通用(尽量贴近各平台习惯)
● 自动检测语言(不依赖模型) ● 自带语言检测逻辑 ● 不占用大模型 Token,对话更干净 ● 输入什么语言,自动识别再翻译
----------------------
支持平台
● macOS ● 已完成,日常自用中
● Windows ● 已完成,公司电脑主力环境
● Linux ● 听我狡辩一下: ● 现在人在国外,机器资源有限 ● Linux 的系统 API 调试起来比较麻烦 ● 计划:圣诞节回国后补上 Linux 支持
----------------------
截图预览
欢迎体验 & 反馈
如果你也:
● 在 Windows 上怀念 Bob 的手感
● 想要一个 干净、专注于翻译 的桌面工具
● 或者对「大模型 + 桌面工具」这种组合感兴趣
欢迎来体验一下 棱镜翻译 · Prism,
也非常欢迎提 Issue / PR / 建议,一起把它打磨得更好。
项目地址: GitHub - qyzhg/prism: 全平台AI翻译软件
7 posts - 4 participants
Read full topic
via LINUX DO - 最新话题 (author: qy zhg)
Invalid media: image
开发初衷
之前一直在 mac 上用 Bob 做翻译,体验非常顺手。
换工作后公司配了 Windows,结果发现 —— 找不到一款同样好用、顺手的桌面翻译软件。
既然找不到,那就自己做一个。
也趁着大模型的浪潮,干脆 跳过传统「OCR + 机翻接口」这套老路,
直接接入 大模型,让:
截图翻译 / 划词翻译 = 识别 + 理解 + 翻译 一步到位。
----------------------
目前功能
● OpenAI 兼容模式模型配置 ● 支持自定义大模型(OpenAI 兼容协议) ● 现在默认用自己的接口,后面会接一些可以直接试用的公共模型
● 截图翻译 ● 选中屏幕区域,一键截图 + 识别 + 翻译 ● 适合看文档、PPT、PDF、图片、视频字幕等
● 划词翻译 ● 在任意应用中选中文本 ● 通过快捷键直接呼出翻译结果 ● 类似 Bob 的手感,尽量做到“用完就走”,不打断思路
● 网络代理支持 ● 支持配置 HTTP / SOCKS 代理 ● 方便在公司 / 特定网络环境下使用
● 全局系统快捷键 ● 自定义快捷键触发截图翻译、划词翻译等 ● 一次设置,多平台通用(尽量贴近各平台习惯)
● 自动检测语言(不依赖模型) ● 自带语言检测逻辑 ● 不占用大模型 Token,对话更干净 ● 输入什么语言,自动识别再翻译
----------------------
支持平台
● macOS ● 已完成,日常自用中
● Windows ● 已完成,公司电脑主力环境
● Linux ● 听我狡辩一下: ● 现在人在国外,机器资源有限 ● Linux 的系统 API 调试起来比较麻烦 ● 计划:圣诞节回国后补上 Linux 支持
----------------------
截图预览
欢迎体验 & 反馈
如果你也:
● 在 Windows 上怀念 Bob 的手感
● 想要一个 干净、专注于翻译 的桌面工具
● 或者对「大模型 + 桌面工具」这种组合感兴趣
欢迎来体验一下 棱镜翻译 · Prism,
也非常欢迎提 Issue / PR / 建议,一起把它打磨得更好。
项目地址: GitHub - qyzhg/prism: 全平台AI翻译软件
7 posts - 4 participants
Read full topic
via LINUX DO - 最新话题 (author: qy zhg)
Invalid media: image
ChatGPT Team(Business)导出有附件(例如上传的文件、生成图片)方案的想法
众所周知,ChatGPT Team版不提供类似个人版整体数据导出的方案,如果Team翻车,对话记录就没有了。现有的Team导出方式一般分为两种:其一是利用浏览器的打印功能,打印网页有关区域,这种方法不便于复制和搜索;其二是请求后端api,获得对话的json文件。然而对并非纯文本的对话,这样的json文件没有包含对话的全部信息,比如:
● 上传的附件
● 生成的图片
● Deep Research 的研究报告
● 画布模式下的网页内容
这些在json中都是用一种 pointer 的方式存储的(
目前我想到的最好方法是存一遍json文件,同时用 SingleFile 浏览器插件将SPA网页导出一个静态html方便浏览。
问题来了:佬友们知不知道其他插件,能导出对话中的附件的?如果没有,这样的想法实现起来有没有什么难度?
3 posts - 2 participants
Read full topic
via LINUX DO - 最新话题 (author: touch)
众所周知,ChatGPT Team版不提供类似个人版整体数据导出的方案,如果Team翻车,对话记录就没有了。现有的Team导出方式一般分为两种:其一是利用浏览器的打印功能,打印网页有关区域,这种方法不便于复制和搜索;其二是请求后端api,获得对话的json文件。然而对并非纯文本的对话,这样的json文件没有包含对话的全部信息,比如:
● 上传的附件
● 生成的图片
● Deep Research 的研究报告
● 画布模式下的网页内容
这些在json中都是用一种 pointer 的方式存储的(
sediment:// 或者 file-这样的链接)。我的想法是,在请求json的时候解析一下内容,如果有这样的附件,就去请求相关api。不过调查了一圈,即使是 Github 2k star 的 chatgpt-exporter 也没有实现这个功能。会显示 Unsupported Files.目前我想到的最好方法是存一遍json文件,同时用 SingleFile 浏览器插件将SPA网页导出一个静态html方便浏览。
问题来了:佬友们知不知道其他插件,能导出对话中的附件的?如果没有,这样的想法实现起来有没有什么难度?
3 posts - 2 participants
Read full topic
via LINUX DO - 最新话题 (author: touch)
GPT 5.1 在不同渠道的输出格式差异
不知道有没有人注意到,纯 OpenAI 官方的 GPT 5.1 API 和 Azure 渠道的 5.1 输出格式有很大差异
gpt-5.1 (azure):默认纯文本格式,不带太多富格式
gpt-5.1 (openai):默认格式丰富,喜欢加粗+使用 Markdown 格式
----------------------
可能的原因?:
实际上 OpenAI 的推理模型 API 会内置一段系统提示词(权限超过开发者的“系统提示词”,开发者的系统提示词实际的
里面就有 Juice,对输出格式的要求等。大概是 Az 和官方这段提示词并不完全一样导致的。
2 posts - 2 participants
Read full topic
via LINUX DO - 最新话题 (author: neteroster)
Invalid media:
image
image
不知道有没有人注意到,纯 OpenAI 官方的 GPT 5.1 API 和 Azure 渠道的 5.1 输出格式有很大差异
gpt-5.1 (azure):默认纯文本格式,不带太多富格式
gpt-5.1 (openai):默认格式丰富,喜欢加粗+使用 Markdown 格式
----------------------
可能的原因?:
实际上 OpenAI 的推理模型 API 会内置一段系统提示词(权限超过开发者的“系统提示词”,开发者的系统提示词实际的
role=developer,内置的是 role=system)里面就有 Juice,对输出格式的要求等。大概是 Az 和官方这段提示词并不完全一样导致的。
2 posts - 2 participants
Read full topic
via LINUX DO - 最新话题 (author: neteroster)
Invalid media:
image
image
佬们,codex的review命令的官方提示词有哪里可以获取吗
我平时用的AI工具,主要是Claude Code, Cursor如果在月卡额度范围内也会使用,还有Codex,因为Codex速度比较慢,所以一般用的少。
但是Codex的内置/review指令,可以针对一个commit去提出review意见。我一般会对组员的git merge request进行一个AI的review,发现比较严重的问题就可以让他们改下。
我一般是codex和claude code一起对一个提交进行review,claude code的实现是我让gemini给我生成了一个提示词,然后用自定义指令去执行的,提示词如下。
但是使用下来发现,codex自带的review指令输出的结果,比较精简,而且大多都是真正影响到运行的BUG,可以被用户或者测试发现的BUG。
而claude code配合我的提示词,虽然能输出非常多的问题点,但是大多不痛不痒,codex发现的真正bug却被忽略了。
我不太清楚是模型的原因还是提示词的原因,佬们有没有codex的官方提示词可以获得,我想让claude code也接入完全一致的功能
2 posts - 2 participants
Read full topic
via LINUX DO - 最新话题 (author: 冰封飞飞)
我平时用的AI工具,主要是Claude Code, Cursor如果在月卡额度范围内也会使用,还有Codex,因为Codex速度比较慢,所以一般用的少。
但是Codex的内置/review指令,可以针对一个commit去提出review意见。我一般会对组员的git merge request进行一个AI的review,发现比较严重的问题就可以让他们改下。
我一般是codex和claude code一起对一个提交进行review,claude code的实现是我让gemini给我生成了一个提示词,然后用自定义指令去执行的,提示词如下。
# 角色与目标
你是一位专注于代码健壮性和安全性的 AI 架构师。你的核心任务是审查代码变更,精准地识别出其中隐藏的**逻辑错误、边界情况缺失、性能瓶颈和安全漏洞**。
# 核心审查原则
1. **首要关注**:把所有注意力放在**正确性**和**安全性**上。一个潜在的 Bug 或漏洞比十个命名不规范的问题更重要。
2. **忽略细枝末节**:**禁止**提出纯粹的代码风格、格式或命名规范等细微建议(例如,“这个变量名可以更好听”或“这里应该多一个空行”),除非这种风格问题会**直接导致 Bug 或严重的理解障碍**。
3. **深度思考**:不仅要看代码本身,还要思考其对整个系统的潜在影响。这段代码在并发、高负载或异常输入的情况下会如何表现?
# 输出格式
你必须严格遵循以下结构,不允许任何偏差:
### 1. 综合评分
请从三个维度对本次提交进行评分(1-10分),并给出一个总体评价。
- **逻辑正确性**: [分数] (评估代码逻辑是否严密,是否覆盖各种边界情况)
- **代码安全性**: [分数] (评估是否存在安全隐患,如注入、越权、数据泄露等)
- **风险评估**: [分数] (评估本次变更引入新问题的可能性有多大)
- **一句话总结**: [对本次提交质量的简短总结,例如:“核心逻辑可靠,但缺少对异常输入的处理。”]
---
### 2. 发现的核心问题
在此处列出你发现的关键问题。如果没有发现任何问题,请明确说明“未发现核心问题”。
每个问题都必须遵循此模板:
**[问题类型] - [问题标题]**
- **文件**: `[文件路径]:[代码行号]`
- **问题描述**: [清晰、准确地描述问题所在,以及它在什么情况下会触发。]
- **潜在影响**: [说明这个问题可能导致的后果,例如:程序崩溃、数据不一致、安全漏洞等。]
- **修复建议**: [提供一个明确、可操作的修复方案。]
**问题类型分类:**
- `[逻辑错误]`: 代码的算法或业务逻辑存在缺陷。
- `[安全漏洞]`: 存在可被利用的安全风险。
- `[性能隐患]`: 可能导致系统性能下降的代码。
- `[设计缺陷]`: 架构或设计上存在严重问题,会影响未来的扩展和维护。
---
# 开始任务
现在,请以上述标准审查以下 Git Commit。
但是使用下来发现,codex自带的review指令输出的结果,比较精简,而且大多都是真正影响到运行的BUG,可以被用户或者测试发现的BUG。
而claude code配合我的提示词,虽然能输出非常多的问题点,但是大多不痛不痒,codex发现的真正bug却被忽略了。
我不太清楚是模型的原因还是提示词的原因,佬们有没有codex的官方提示词可以获得,我想让claude code也接入完全一致的功能
2 posts - 2 participants
Read full topic
via LINUX DO - 最新话题 (author: 冰封飞飞)
kilo code使用报错
兄弟们,为啥使用kilo code直接就报错,这种该如何解决呀。
6 posts - 3 participants
Read full topic
via LINUX DO - 最新话题 (author: Devil_L)
Invalid media: image
兄弟们,为啥使用kilo code直接就报错,这种该如何解决呀。
6 posts - 3 participants
Read full topic
via LINUX DO - 最新话题 (author: Devil_L)
Invalid media: image
Mac常用软件资源库,免费公开,佬友们悄悄用~
因为自己总是会需要一些 Mac 电脑的软件,每次安装包装完就顺手上传到了网盘里,顺便用飞书搭了个可以分享的软件库,需要的佬友惠存~
👉️ 地址在这:Mac常用软件资源库
10 posts - 9 participants
Read full topic
via LINUX DO - 最新话题 (author: 工享客)
因为自己总是会需要一些 Mac 电脑的软件,每次安装包装完就顺手上传到了网盘里,顺便用飞书搭了个可以分享的软件库,需要的佬友惠存~
👉️ 地址在这:Mac常用软件资源库
10 posts - 9 participants
Read full topic
via LINUX DO - 最新话题 (author: 工享客)
anti gravity 什么时候可以开始收费啊
我感觉Anti gravity的Agent挺强的(以我个人感受来说,比codex 和 cc 强)
就是额度太低了,每次玩一下就没了,希望开个付费
1 post - 1 participant
Read full topic
via LINUX DO - 最新话题 (author: K)
我感觉Anti gravity的Agent挺强的(以我个人感受来说,比codex 和 cc 强)
就是额度太低了,每次玩一下就没了,希望开个付费
1 post - 1 participant
Read full topic
via LINUX DO - 最新话题 (author: K)
[教程&多图警告]让你的codex插件也能使用gpt-5.1-codex-max
分享一个在vscode的codex中插件使用
之前max出来的时候,想着等几天vscode插件也会更新max模型,过去一周了,结果vscode插件还是没有更新,前几天在站里某个帖子看到说max已经悄悄更新,只不过页面上没有开放出来。今天想着看看到底是怎么个事
话不多说,直接开始
● 首先查看版本已经是最新的
● vscode快捷键
● 这会打开一个类似浏览器的控制台界面
● 我开始想着用
● 然后我在面板点击事件查找到对应的源代码文件
● 可以看到这个文件的具体路径
● 直接在文件里面搜索
image-8
看到这里大家应该也能知道接下来该怎么操作了吧?
● 结论
通过刚才找到的文件路径,直接修改文件对应的内容,DEFAULT_MODEL的值改成
DEFAULT_MODEL_ORDER=[“gpt-5.1-codex”,“gpt-5.1”,“gpt-5.1-codex-mini”] 改成 DEFAULT_MODEL_ORDER=[“gpt-5.1-codex-max”,“gpt-5.1”,“gpt-5.1-codex-mini”],至于后面两个选项,可以自行修改,比如要保留gpt-5.1-codex,那就把第二个值gpt-5.1改成gpt-5.1-codex
提醒:别忘了codex的config.toml文件里面model也要改成gpt-5.1-codex-max
然后显示并且成功调用
并且Extra high也在
最后我有点不懂这种操作,功能是存在且可用的,只是在界面上隐藏掉了相关选项
大家怎么看 🤔
5 posts - 3 participants
Read full topic
via LINUX DO - 最新话题 (author: feng)
Invalid media:
image
image
image
image
image
image
image
image
image
image
image
分享一个在vscode的codex中插件使用
gpt-5.1-codex-max的方法之前max出来的时候,想着等几天vscode插件也会更新max模型,过去一周了,结果vscode插件还是没有更新,前几天在站里某个帖子看到说max已经悄悄更新,只不过页面上没有开放出来。今天想着看看到底是怎么个事
话不多说,直接开始
● 首先查看版本已经是最新的
● vscode快捷键
Ctrl Shift P打开命令,选择开发人员:切换开发人员工具● 这会打开一个类似浏览器的控制台界面
● 我开始想着用
元素选择功能选到模型面板,看看代码里具体怎么设置的这几个选项● 然后我在面板点击事件查找到对应的源代码文件
● 可以看到这个文件的具体路径
● 直接在文件里面搜索
gpt-5.1-codex,搜到比较重要的两个信息。经测试,一个是默认选择的模型名称:DEFAULT_MODEL,另一个是面板展示的选项:DEFAULT_MODEL_ORDERimage-8
看到这里大家应该也能知道接下来该怎么操作了吧?
● 结论
通过刚才找到的文件路径,直接修改文件对应的内容,DEFAULT_MODEL的值改成
pt-5.1-codex-max,DEFAULT_MODEL_ORDER我是把第一个模型直接改成max模型,也就是DEFAULT_MODEL_ORDER=[“gpt-5.1-codex”,“gpt-5.1”,“gpt-5.1-codex-mini”] 改成 DEFAULT_MODEL_ORDER=[“gpt-5.1-codex-max”,“gpt-5.1”,“gpt-5.1-codex-mini”],至于后面两个选项,可以自行修改,比如要保留gpt-5.1-codex,那就把第二个值gpt-5.1改成gpt-5.1-codex
提醒:别忘了codex的config.toml文件里面model也要改成gpt-5.1-codex-max
然后显示并且成功调用
并且Extra high也在
最后我有点不懂这种操作,功能是存在且可用的,只是在界面上隐藏掉了相关选项
大家怎么看 🤔
5 posts - 3 participants
Read full topic
via LINUX DO - 最新话题 (author: feng)
Invalid media:
image
image
image
image
image
image
image
image
image
image
image
求AI翻译模型推荐
佬们,我用AI模型主要用途就是翻译,之前用GPT5mini,感觉没用多少就没了,你们日常使用什么模型翻译的。能兼顾便宜和准确性,速度的。
6 posts - 4 participants
Read full topic
via LINUX DO - 最新话题 (author: HollowKnight)
佬们,我用AI模型主要用途就是翻译,之前用GPT5mini,感觉没用多少就没了,你们日常使用什么模型翻译的。能兼顾便宜和准确性,速度的。
6 posts - 4 participants
Read full topic
via LINUX DO - 最新话题 (author: HollowKnight)
黑五 racknerd DC02 小鸡记录
为啥我的小鸡翻墙好像没别人快啊,有没有什么手把手配置教程。 🤣
网络质量
IP质量
翻墙测速
1 post - 1 participant
Read full topic
via LINUX DO - 最新话题 (author: 爱吃西瓜)
Invalid media:
image
image
image
为啥我的小鸡翻墙好像没别人快啊,有没有什么手把手配置教程。 🤣
网络质量
IP质量
翻墙测速
1 post - 1 participant
Read full topic
via LINUX DO - 最新话题 (author: 爱吃西瓜)
Invalid media:
image
image
image
[福利] GPT公益API站点
来吧,兄弟们,给你们免费搞得公益api
总结 (click for more details)
访问地址
crs.sunlight.blog
Claude Relay Service - 管理后台
有什么问题或者建议
(click for more details)
9 posts - 6 participants
Read full topic
via LINUX DO - 最新话题 (author: 小K)
来吧,兄弟们,给你们免费搞得公益api
总结 (click for more details)
访问地址
crs.sunlight.blog
Claude Relay Service - 管理后台
有什么问题或者建议
(click for more details)
9 posts - 6 participants
Read full topic
via LINUX DO - 最新话题 (author: 小K)
GPT-5.1也有混淆语言的时候啊……
输出突然变成日语了,暂不清楚原因,梯子挂的美国的
4 posts - 4 participants
Read full topic
via LINUX DO - 最新话题 (author: leetype)
Invalid media: image
输出突然变成日语了,暂不清楚原因,梯子挂的美国的
4 posts - 4 participants
Read full topic
via LINUX DO - 最新话题 (author: leetype)
Invalid media: image
北京周末大家都去哪里玩?
不请假的前提下,周末大家都去哪里玩?
在家恢复?
在家躺尸?
在家学习?
还是其他?
2 posts - 2 participants
Read full topic
via LINUX DO - 最新话题 (author: Coast2025)
不请假的前提下,周末大家都去哪里玩?
在家恢复?
在家躺尸?
在家学习?
还是其他?
2 posts - 2 participants
Read full topic
via LINUX DO - 最新话题 (author: Coast2025)
开发了个白嫖LMArena和GeminiBiz生图的工具,分享给大家
由于我有一个QQ机器人,生图玩的功能之前一直用的是泛滥且价格较低的gemini2.5flash香蕉,最近出了gemini3pro的香蕉Pro但是现成的接口价格用来玩感觉又有点贵,逆向的2api又容易去球,然后开发了一个这样的项目,原理是拟人操作浏览器与网站交互,只要网站不大改理论应该不会坏,可以在Windows也可以在Linux多用户模式运行,支持无头,有OpenAI接口格式也有一个自用的SEE队列模式
这个项目可能不适用多人使用,但是自己玩并发不高的场景下还是能够应对的
目前支持
● LMArena
● Gemini Enterprise Business
● 未来可能会支持更多可以白嫖Nano Banana的网站
由于晚辈技术不是很精湛,在浏览器特征伪装还有避免频繁弹出人机验证码方面可能做的不够到位,如果对相关内容了解颇深的前辈也欢迎前来指点,其他建议也欢迎提出,来让项目变得更好
项目地址:https://github.com/foxhui/LMArenaImagenAutomator
1 post - 1 participant
Read full topic
via LINUX DO - 最新话题 (author: 辉辉狐)
由于我有一个QQ机器人,生图玩的功能之前一直用的是泛滥且价格较低的gemini2.5flash香蕉,最近出了gemini3pro的香蕉Pro但是现成的接口价格用来玩感觉又有点贵,逆向的2api又容易去球,然后开发了一个这样的项目,原理是拟人操作浏览器与网站交互,只要网站不大改理论应该不会坏,可以在Windows也可以在Linux多用户模式运行,支持无头,有OpenAI接口格式也有一个自用的SEE队列模式
这个项目可能不适用多人使用,但是自己玩并发不高的场景下还是能够应对的
目前支持
● LMArena
● Gemini Enterprise Business
● 未来可能会支持更多可以白嫖Nano Banana的网站
由于晚辈技术不是很精湛,在浏览器特征伪装还有避免频繁弹出人机验证码方面可能做的不够到位,如果对相关内容了解颇深的前辈也欢迎前来指点,其他建议也欢迎提出,来让项目变得更好
项目地址:https://github.com/foxhui/LMArenaImagenAutomator
1 post - 1 participant
Read full topic
via LINUX DO - 最新话题 (author: 辉辉狐)
代绑windsurf(限24点之前)
最近自己试出来个6位神秘代码,看见有佬帮忙绑kiro,我来帮忙绑windsurf吧,我个人感觉除了cursor还是这个用得明白点
为什么限24点之前呢,因为要睡觉了 😜
6 posts - 6 participants
Read full topic
via LINUX DO - 最新话题 (author: 廾匸)
最近自己试出来个6位神秘代码,看见有佬帮忙绑kiro,我来帮忙绑windsurf吧,我个人感觉除了cursor还是这个用得明白点
为什么限24点之前呢,因为要睡觉了 😜
6 posts - 6 participants
Read full topic
via LINUX DO - 最新话题 (author: 廾匸)
一个很简单的基于Gemini API的视频总结工具
AI自动生成笔记的B站-YouTube视频总结小工具 - 个人玩具分享
从阅读到视觉笔记的个人效率探索
分享一个我在效率探索路上的小玩具——一个基于大模型的视频总结工具。
它不是一个成熟的产品,而是我个人LLM辅助学习工作流的最新一步实践。
心路历程:从阅读到视频的效率迁移
大概半年前,我开始尝试用 LLM 来辅助我阅读硬核资料。我的策略是:先让 AI 提取主干脉络,再带着问题和结构去阅读冗长的原文。 事实证明,这能极大地提升效率。
最初的用法很简单:
1. 用工具提取视频字幕稿。
2. 将字幕稿喂给 Gemini进行总结。
3. 带着这份总结稿(提前知晓视频要讲什么 ),去观看视频。
这样可以:
● 定向加速/跳过 视频中已了解的部分。
● 提前理解 复杂概念的背景,降低认知门槛。
● 减少“口音折磨” ,集中精力于内容本身。
效果让我感到满意,比如这些游戏引擎相关的笔记:Delta_UFSH2025,GAMES104 07。
进阶:如何让总结“看得见”
纯文字总结仍然有局限性。如果想要做到单纯看笔记,就能快速了解到讲座的大部分内容,截图和画面必不可少的。
但这部分做起来很复杂,充满了权衡:
● 上下文长度和成本的博弈:
● 我发现,输入给 Gemini 的文本长度控制在 10 分钟视频量 左右时,总结效果最好,细节保留完整。再长,AI 就会开始省略。
● 最理想的做法是把带时间戳的 SRT 字幕全丢给 AI,让它自己挑关键时间点截图。不过一方面这样上下文多了,不知道效果会怎么样,另一方面我心疼token(😂)。
● “权衡”之后的 HACK 做法:
● 我退而求其次,写了一个比较 Hack 的版本,实现了目前对我来说“够用”的效果:
● 步骤一:切片总结。 将视频字幕切割成多段(每段 3-10 分钟效果都还不错,可以根据个人需要进行调节),对每段分别进行 Gemini 总结。
● 步骤二:并行抓帧。 在总结的同时,针对该时间段,提取视频的关键帧,并进行去重。
● 步骤三:权重分配。 根据总结内容的主题个数和字数,对该时间段的图片进行权重分配 ,将其插入到对应主题之前。
虽然实际用起来还是会觉得截帧经常会出现和内容对应不上的情况,虽然流程和效果都有点“将就”,但它成功地将纯文字总结升级成了图文并茂的 Markdown 学习笔记 。
代码分享:抛砖引玉
VideoSummary这个工具是我花了一下午使用 Cursor基于一些现有思路,以及 video2ppt的启发)完成的,不过它暂时满足了我个人的需求。
代码肯定会有各种简陋和 Bug,但我更期待它能起到抛砖引玉 的作用。如果有人能在此基础上继续改进,让 LLM 学习流能更智能地解决视频笔记的视觉问题,那就太棒了!
对我来说,目前的功能已经差不多够用了,毕竟我只是为了让AI生成一些类似与视频笔记/辅助观看的东西,并非希望它能完全替代视频。不过希望这个小工具能为你提供一点效率灵感!
1 post - 1 participant
Read full topic
via LINUX DO - 最新话题 (author: NothingToSay)
AI自动生成笔记的B站-YouTube视频总结小工具 - 个人玩具分享
从阅读到视觉笔记的个人效率探索
分享一个我在效率探索路上的小玩具——一个基于大模型的视频总结工具。
它不是一个成熟的产品,而是我个人LLM辅助学习工作流的最新一步实践。
心路历程:从阅读到视频的效率迁移
大概半年前,我开始尝试用 LLM 来辅助我阅读硬核资料。我的策略是:先让 AI 提取主干脉络,再带着问题和结构去阅读冗长的原文。 事实证明,这能极大地提升效率。
比如这篇对《Real-Time Rendering, Fourth Edition》的章节总结:Chapter 11 Global Illumination。最近,我决定把这套行之有效的方法迁移到视频学习 中。
最初的用法很简单:
1. 用工具提取视频字幕稿。
2. 将字幕稿喂给 Gemini进行总结。
3. 带着这份总结稿(提前知晓视频要讲什么 ),去观看视频。
这样可以:
● 定向加速/跳过 视频中已了解的部分。
● 提前理解 复杂概念的背景,降低认知门槛。
● 减少“口音折磨” ,集中精力于内容本身。
效果让我感到满意,比如这些游戏引擎相关的笔记:Delta_UFSH2025,GAMES104 07。
进阶:如何让总结“看得见”
纯文字总结仍然有局限性。如果想要做到单纯看笔记,就能快速了解到讲座的大部分内容,截图和画面必不可少的。
但这部分做起来很复杂,充满了权衡:
● 上下文长度和成本的博弈:
● 我发现,输入给 Gemini 的文本长度控制在 10 分钟视频量 左右时,总结效果最好,细节保留完整。再长,AI 就会开始省略。
● 最理想的做法是把带时间戳的 SRT 字幕全丢给 AI,让它自己挑关键时间点截图。不过一方面这样上下文多了,不知道效果会怎么样,另一方面我心疼token(😂)。
● “权衡”之后的 HACK 做法:
● 我退而求其次,写了一个比较 Hack 的版本,实现了目前对我来说“够用”的效果:
● 步骤一:切片总结。 将视频字幕切割成多段(每段 3-10 分钟效果都还不错,可以根据个人需要进行调节),对每段分别进行 Gemini 总结。
● 步骤二:并行抓帧。 在总结的同时,针对该时间段,提取视频的关键帧,并进行去重。
● 步骤三:权重分配。 根据总结内容的主题个数和字数,对该时间段的图片进行权重分配 ,将其插入到对应主题之前。
虽然实际用起来还是会觉得截帧经常会出现和内容对应不上的情况,虽然流程和效果都有点“将就”,但它成功地将纯文字总结升级成了图文并茂的 Markdown 学习笔记 。
[UFSH2025]《洛克王国世界》移动端管线设计与优化
GDC 2022 - Performant Reflective Beauty: Hybrid Raytracing with Far Cry 6
代码分享:抛砖引玉
VideoSummary这个工具是我花了一下午使用 Cursor基于一些现有思路,以及 video2ppt的启发)完成的,不过它暂时满足了我个人的需求。
代码肯定会有各种简陋和 Bug,但我更期待它能起到抛砖引玉 的作用。如果有人能在此基础上继续改进,让 LLM 学习流能更智能地解决视频笔记的视觉问题,那就太棒了!
对我来说,目前的功能已经差不多够用了,毕竟我只是为了让AI生成一些类似与视频笔记/辅助观看的东西,并非希望它能完全替代视频。不过希望这个小工具能为你提供一点效率灵感!
1 post - 1 participant
Read full topic
via LINUX DO - 最新话题 (author: NothingToSay)
快哭了,怎么设置或者禁止Chrome的AI模式
习惯了Tab补全URL+Enter进入,结果不知道哪个神人给Chrome搞出一个鬼模式,Tab+Enter进入AI模式。
折磨我一星期了。
怎么关闭这东西太烦人了……
1 post - 1 participant
Read full topic
via LINUX DO - 最新话题 (author: 松坂砂糖)
Invalid media: image
习惯了Tab补全URL+Enter进入,结果不知道哪个神人给Chrome搞出一个鬼模式,Tab+Enter进入AI模式。
折磨我一星期了。
怎么关闭这东西太烦人了……
1 post - 1 participant
Read full topic
via LINUX DO - 最新话题 (author: 松坂砂糖)
Invalid media: image
江湖救急!!!windsurf切号报错
另外还有一种报错
有佬友知道这种情况如何解决吗?退出登录,用过站里的重置工具,然后也还是一样的无效。
7 posts - 4 participants
Read full topic
via LINUX DO - 最新话题 (author: baixiaochong)
Invalid media: image
另外还有一种报错
Permission denied: internal server error: error number 12 (error ID: ba5e0f6c55ba4087887dcb95b91b0e4e)有佬友知道这种情况如何解决吗?退出登录,用过站里的重置工具,然后也还是一样的无效。
7 posts - 4 participants
Read full topic
via LINUX DO - 最新话题 (author: baixiaochong)
Invalid media: image
windsurf的学生6.9刀怎么薅的?
试了几个edu邮箱注册都还是15刀,是必须要以edu结尾的邮箱才行吗,edu.xx结尾的是不是用不了,以及现在还能弄到合适的邮箱吗
2 posts - 2 participants
Read full topic
via LINUX DO - 最新话题 (author: 星渊清梦)
试了几个edu邮箱注册都还是15刀,是必须要以edu结尾的邮箱才行吗,edu.xx结尾的是不是用不了,以及现在还能弄到合适的邮箱吗
2 posts - 2 participants
Read full topic
via LINUX DO - 最新话题 (author: 星渊清梦)
来看看顶级AI大佬对于 AI的一场关于AI泡沫和AGI的讨论
iframe (External Player - 哔哩哔哩嵌入式外链播放器)
感谢UP主 Akinokoe 的分析和总结。
1 post - 1 participant
Read full topic
via LINUX DO - 最新话题 (author: unsafetrait)
iframe (External Player - 哔哩哔哩嵌入式外链播放器)
感谢UP主 Akinokoe 的分析和总结。
1 post - 1 participant
Read full topic
via LINUX DO - 最新话题 (author: unsafetrait)