linux.do
20.9K subscribers
112K photos
195 videos
112 files
242K links
linux.do最新话题和热议话题
Download Telegram
flow实在是太快乐了

很符合我的预期

2 posts - 2 participants

Read full topic

via LINUX DO - 最新话题 (author: 响)

Invalid media:
image
image
image
【富可敌国】AI分发系统Augmunt研发完成,可用率99.9%,支持Claude/CodeX/Gemini,回馈社区,100楼内送10刀

Augmunt是自研纯Java AI分发站点(Java是最好的语言),使用全球部署节点,稳定可靠。

我们的站点:https://www.augmunt.com

经过三个月的公测,我们已经非常稳定,CC可用率99.9%,延迟1000ms左右。

本来想顺带推一下某声称中立的API中转服务,不过很不幸,长期霸榜被关注,因为我们没有提供邀请链接已经被下线,只能当无冕之王了。

这只是一个小插曲而已,不影响我们为大家提供一个不一样的服务。

老帖子还没有满员,那个帖子的依然有效的,但是这个新开的帖子依然是前一百送10刀,感谢大家。

https://linux.do/t/topic/1213543

我们除了提供Claude/Codex/Gemini服务,本身也提供AI分发系统,有佬需要的可联系。

如果这个帖子满员100,无论老帖是否满员,我们将关闭老帖,并且给老帖的发放奖励。

请各位点击官网使用 linux.do 的官方的统一认证并且入群,避免发放奖励没有办法到您的账号。

二群:461764719

102 posts - 102 participants

Read full topic

via LINUX DO - 最新话题 (author: triplekillgod)
请教一下各位玩codex的佬友,如何使codex自动procced确认?

听说有沙箱这种东西,看了文档,发现沙箱内session结束数据也全没有,那还能控制自动procceed吗?有无其他方案,或者我哪里理解不对?

5 posts - 5 participants

Read full topic

via LINUX DO - 最新话题 (author: Momo)
求推荐大模型api中转站和负载均衡/故障转移系统

RT。搭建了一个 Open-WebUI 给团队使用。因为暂不确定是否能报销,直接接入官方还是有点肉疼,论坛社否有靠谱点的低价中转站?要求有 OpenAI Anthropic Google 御三家,且支持 Google 的图像模型。

另外,各个供应商肯定是没法保证在线率 100% 的,有没有一种系统能将多个供应商的同一个模型聚合在一起,然后供给 Open-WebUI 使用?这样在一家掉线的时候能自动切换到下一家。

1 post - 1 participant

Read full topic

via LINUX DO - 最新话题 (author: johns)
全自动续Gemini business程序-预告

预览:

还没写好,因为待会要去上课。
用的邮箱系统是:GitHub - maillab/cloud-mail: cloudflare email 邮箱 临时邮箱 邮件发送 mail
不一样的可以自己改代码
3 posts - 3 participants

Read full topic

via LINUX DO - 最新话题 (author: Skyjee)

Invalid media: image
治幕 v0.2.2更新,不吃显卡,轻松获取高质量字幕~

(观前提示,文章里涉及部分NSFW内容)

----------------------

小半年没有主动发贴了,主要是前段时间光顾着用自己开发的项目给翻译工作提效了,所以一直没抽出时间写点儿啥。

好奇我翻译的东西的佬,可以去看看我在b站发的视频👇️
下面的视频多少都用到了这个项目的功能 (click for more details)
这次正好,我给项目加了亿点儿功能,顺便优化了一下时间戳的微调逻辑,干脆写一写更新后的情况吧,不然感觉要不了多久就要掉回2级了,我得回回血啊 :tieba_003: (求赞啊🙏

----------------------

先简单介绍一下我的这个开源项目。

治幕是一款利用大语言模型对多语言文本(现已优化支持日语、中文、英文、韩文的智能分割处理提示词)进行智能分割,并将带有精确时间戳的 JSON 文件(可来自本地文件或通过内置的 免费或付费语音转文字(STT)服务 生成)转换为更自然、易读且适配用户需要的 SRT 字幕文件的桌面应用程序。它的开发初衷是"治愈"那些因没有断句功能或断句不佳导致缺乏语义连贯性而难以编辑阅读的音声转录结果,从而提高我对同人音声的翻译效率。

简单来说,这个玩意儿是优化机器字幕的。譬如whisper、deepgram之类的服务生成的音频转录结果(.json),均可以通过它来进行语义优化分割,使生成的字幕文件更加规范,符合人类阅读习惯。


举个简单的例子,比如现在有这样一个文段:

“あ、お隣さん?制服。あ、うちの学校だ。一年生の。あ、どうもご丁寧に。”

如果是单纯的机器分割字幕,就经常会错误分割成类似:
“あ、お隣さん?制服。あ”
“、うちの学校だ。一年生の。あ、”
“どうもご丁寧に。”

然而实际上,通过人工校对后,符合人类阅读和理解的字幕应当是:
“あ、お隣さん?”
“制服。あ、うちの学校だ。”
“一年生の。”
“あ、どうもご丁寧に。”

这个项目就是帮你省去了大量的人工校对时间,同时还会帮你把时间戳优化成符合行业标准和阅读习惯的样子。对于时间戳,这里再放一个比较直观的例子,如下:

时间戳优化前👇️

时间戳优化后👇️

项目的大致介绍到此为止。接下来,讲一下目前支持的比较有用功能。

----------------------

首先是之前已经实装的,免费STT(speech to text)功能。

关于STT的相关情况,可以先阅读我之前的这个帖子了解:

https://linux.do/t/topic/665831

通过这个白嫖功能,你可以节省掉高昂的转录费用,极大地降低了各位获取高质量转录源文件的难度。

然后是这次新加入的,两个付费STT功能。

关于付费Elevenlabs。

说是付费,其实每个月有10000点的免费额度(大约2个半小时的音频),如果你嫖到极致,申请10个号,应付正常的作品转录是完全够用的。

它的基础转录效果其实和免费的一样,经过我的反复测试,可以说是分毫不差,但优势也比较明显。一方面,不用担心隐私问题,你上传的转录数据由你自行管理,不用担心被拿去做成训练数据;另一方面,上传文件的体积和时长限制更小,不用再小心翼翼的把wav或者mp4转换成mp3再上传了。顺带一提,付费的ElevenLabs还有很多自定义的选项啊,不过因为和本项目的目标关系不大,所以我并没有实现。

另一个付费STT则是近期风评不错的Soniox。

这家其实是以实时转录效果好而出名的,我记得站内有佬 @dwqxq1 之前也推荐过。异步转录方面,似乎没什么人讨论。不过,其提供的一个功能引起了我的注意:

对于拥有台本的作品来说,这无疑是个相当值得一试的功能。在过去,我们们只能依靠强制对齐纯净的对话来解决问题,但现在,结构化与非结构化上下文,无疑是一个更加宽松的选择。

这次的更新重点,其实也主要放在了这个功能上,使用时,允许用户自行编辑专有名词,也可以编辑或者上传txt、docx、pdf格式的台本来制作context,优化最后的转录效果。👇️

其中关于日文喜欢用竖排pdf这种很不好识别的情况👇️,我使用了小红书开源的dotsocr作为解决方案,将白嫖进行到底。

此外,该模式下的转录,我还附加了一个实验性质的AI纠错校对的功能(不稳定,暂不推荐),也就是转录后的内容中,如果存在听错的发音相似的字,例如“精液”听成了“性癖”,可以让大语言模型修正。

总的来说,如果你转录的作品内容相对比较“安静”,不会出现类似以下这种拟声词过多 (这是我自己手打的轴) 的情况。那么使用Soniox + 导入台本,是一种即便宜又高效的转录选择。

顺带着提一嘴LLM配置管理功能

这个其实没啥好说的,也是很早就有的功能了,不过我稍微丰富了一下支持的格式,现在基本上主流的提供商类型都是支持的。

以及我考虑到不同用户想用不同背景,新加的换图功能(其实是我自己想换

----------------------

关于转录结果和时间戳的核心处理流程:

1. LLM分割对齐:使用LLM把转录结果分割成语义片段,然后使用模糊匹配将LLM生成的语义片段与ASR词元对齐(这次更新降低了阙值,提高成功率)
2. 时间戳修正:检测异常词间空隙和词长,调整结束时间(这次更新的算法,基于人类阅读感知设置了合理阈值,通过3步判断调整)
3. 智能分割:基于标点优先级分割超长片段 (相较之前基本上没有变化,只是重新考虑了“;”的优先级)
4. 合并优化:通过收益函数,量化合并收益,尽量合理的合并相邻片段 (新功能,不再局限于简单的字幕间距)
5. 模式特定处理:Soniox、ElevenLabs、基础模式各有不同的阈值策略(新功能,对Soniox和ElevenLabs的SRT导出结果进行了特调)

----------------------

尾声

Q:上哪儿用?
A:老地方👇️
github.com

GitHub - fuxiaomoke/heal-jimaku: json->srt,基于 PyQt6 和大语言模型的同人音声字幕优化导出GUI小工具。

json->srt,基于 PyQt6 和大语言模型的同人音声字幕优化导出GUI小工具。

Q:怎么用?
A:看docs文件夹里的用户指南。

Q:支持多语言吗?
A:支持,但我目前的时间戳优化的方向是主流的(中日英韩)里的单个语言或双语言,更多的情况我无法保证效果。

Q:非同人音声的普通场景可以用吗?
A:可以,效果都不错。

Q:能不能给**动作片用?
A:理论上可以,但不推荐Soniox,用ElevenLabs吧。

1 post - 1 participant

Read full topic

via LINUX DO - 最新话题 (author: 浮霄默客)

Invalid media:
image
image
image
image
image
image
image
image
image
image
image
image
image
1
vscode codex插件 0.5.47 模型选择列表调出gpt-5.1-codex-max index-DKE7c50W.js来了

找到 vscode 插件的存放目录,打开extensions/openai.chatgpt-0.5.47/webview/assets目录,将我提供的压缩包文件解压替换js文件替换覆盖即可

index-DKE7c50W.zip (1.1 MB)

4 posts - 3 participants

Read full topic

via LINUX DO - 最新话题 (author: kkimmy)

Invalid media: image
新人首贴,不懂就问,天气转凉,大家推荐哪款养生壶?可以一起晒一下。

1 post - 1 participant

Read full topic

via LINUX DO - 最新话题 (author: 和光同尘)
研一比较迷茫,求佬友建议

本人目前计算机研一在读,不知道怎么规划学习方向,组里是搞CV和无人机遥感的,不知道以后就业还是考公该怎么抉择,个人比较偏向就业,但是现在大环境都不太好,考公稳定但是个人比较想感受一下企业氛围,求建议

15 posts - 6 participants

Read full topic

via LINUX DO - 最新话题 (author: Kamiyuno)
浏览器大量标签页的管理方案

分享下我自己使用浏览器管理大量标签页的方案

解决以下问题

标签页太多,但又不舍得关掉
大量标签页横向排开,页面标题都看不到了
想找到个之前打开的标签页,经常要找好久
内存爆炸电脑卡

这套方案需要用Edge浏览器才能达到最好的效果。
通过 多工作区 + 标签组 + discard,实现标签页组织化管理,且不占用内存。
我在开了100多个标签页的情况下,一切井井有条,且浏览器的内存占用长期保持在3G左右。

多工作区 + 标签组 实现标签页二级分类

工作区:作为一级分类,例如:工作、个人、AI,或者是专门的工作项目,来区分不同的专门的事情。工作区和其中的标签页会在远端存储,除非主动删除。
标签组:作为二级分类。

如果当前专注于某一个方面的事项,可以关闭其他工作区,只留下当前这个。 关闭的工作区里面的标签页会被记住,下次打开工作区,所有标签都会恢复。这样可以减少同时打开的标签页数量。

我对标签组的用法是,它是介于书签与标签页之前东西,每天都会用到的多个属于同一个类别的网站,我不想每天从书签里面找到再打开,也不想它们占据珍贵的标签页区域,所以就用标签组把他们缩起来。
其实与Arc浏览器的标签组是同一种用法。Arc淡化了书签的概念,永远放在标签栏的页面就是书签。我现在就是这样使用Edge的。

内存卸载

我自己开发了一个浏览器扩展 TabCleaner,用于标签页闲置时,自动卸载标签页,标签页依然会显示,但不占用内存。使用的是浏览器自带的discard特性。
其实多年前已经有这种扩展了,但是一直有bug,长期不修复,我只能自己做一个了。
浏览器内置了标签页休眠的功能,需要禁掉,与discard冲突,导致discard失效。

扩展安装地址:https://chromewebstore.google.com/detail/tabcleaner/gblbcnfoncakcmpdhffecbbbegkpdbhn

项目地址:GitHub - barryoo/TabCleaner: auto discards idle tabs for browser

1 post - 1 participant

Read full topic

via LINUX DO - 最新话题 (author: BarryChen)

Invalid media:
image
image
印区chatgpt Go送一年??

7 posts - 4 participants

Read full topic

via LINUX DO - 最新话题 (author: sryhy)

Invalid media: image
L站邮箱客户端链接失败

用的是foxmail, 怎么设置代理都不得行, sos

2 posts - 2 participants

Read full topic

via LINUX DO - 最新话题 (author: wqq)

Invalid media: image
可灵O1模型上线,是首个视频编辑模型?

看坛里没什么人讨论,不知道实际效果如何

iframe (www.youtube.com)

9 posts - 5 participants

Read full topic

via LINUX DO - 最新话题 (author: GYMo)

Invalid media: image
deepseekv3.2正式版发布,一觉醒来又有世界第一模型了

DeepSeek新模型追平Gemini 3.0pro

Kimi K2 Thinking比肩gpt5.1

14 posts - 14 participants

Read full topic

via LINUX DO - 最新话题 (author: QwQinfinity)

Invalid media:
image
image
image
用插件小红书被封号了

已卸载,已升级至最新版,已屏蔽/隔离可能的插件,申诉一直没有反馈。

有啥方式能给解封或重置账号吗?

3 posts - 2 participants

Read full topic

via LINUX DO - 最新话题 (author: Me)
你有LUT,我有Log,万能RAW转Log/LUT工具,打通照片与视频色彩流

各位佬们好,我又来啦

大家如果是双修(拍照+拍视频)的玩家,可能遇到过这种纠结:
视频流程里有很多优秀的LUT(比如官方还原LUT、影视飓风的LUT、或者著名的ARRI LogC色彩),但这些LUT通常是针对特定的“Log曲线 + 特定色域”设计的

如果你直接把这些LUT扔进Lightroom或者Photoshop里套给照片,结果往往是一坨:高光死白,阴影死黑,肤色诡异。原因很简单:照片通常是sRGB/AdobeRGB的Gamma校正空间,而且经过了Adobe自己的调色流程,而LUT期待的是S-Log3/S-Gamut3或者F-Log/F-Gamut

虽然LR里有相机的配置文件,但那是Adobe逆向模拟的。既然我有RAW文件,为什么不能用代码严谨地把它变换到Log空间,然后完美通过工业级流程调色呢?

于是,这个项目诞生了

核心原理:

这不仅仅是一个滤镜,这是一个基于物理光学的严谨色彩空间变换工具。

解码 (Decoding): 读取任意相机(CR2, NEF, ARW, DNG…)的原始拜耳数据,解码为 Linear ProPhoto RGB (16-bit)。这一步保证了最大的色域覆盖,不丢失任何光子信息。

模拟测光 (Auto Exposure): RAW原本的数据通常很暗,直接转Log会欠曝。我写了一个基于“几何平均亮度”的算法,自动计算增益,将画面中灰点强行拉到 18% 中性灰,模拟相机的自动测光系统。当然你也可以手动填写曝光值。

空间变换 (CST): 将 Linear ProPhoto RGB 精确映射到目标色彩空间(你可以映射到任何一个你喜欢的Log上,例如S-Gamut3)。

Log编码: 施加对应的光电转换函数(OETF),比如把线性光编码为对应的Log曲线。

挂载LUT: 到这一步,你的照片已经变成了一帧完美的“Log视频素材”,这时候挂载官方LUT,色彩还原度几乎100%。

它能做什么?

尼康/佳能用户: 想用索尼的 S-Log3 → Rec709 官方还原色彩?可以。

索尼用户: 想要富士的 Eterna 或者 Classic Chrome?把你的RAW转成 F-Log2C 空间,然后挂富士官方LUT,味道极正。

阿莱信仰: 把你的照片伪装成 ARRI LogC3 / LogC4,体验一下影视级的动态范围压缩感。

实际效果对比:
原始RAW解码

脚本直出转 V-Log

挂载富士LUT后的最终成片

目前还差个桶形畸变/暗角矫正没有做,不过这个应该很快就能完成

2 posts - 2 participants

Read full topic

via LINUX DO - 最新话题 (author: MinQ)

Invalid media:
image
image
image
求一个日本家宽vps

希望可以体验完整的dmm服务,特别是砍口垒
再有就是AI服务比较好用吧

1 post - 1 participant

Read full topic

via LINUX DO - 最新话题 (author: 环卫工 废土)
前端remotion

有大佬用过remotion吗~ 现在使用remotion的过程中遇到了一个问题,视频音频播放的时候会倒退一下,但是我没有相关倒退的逻辑
                            <Player
ref={playerRef}
component={VideoComposition}
inputProps={{
layers: project.layers,
backgroundColor: project.backgroundColor,
}}
durationInFrames={project.durationInFrames}
fps={project.fps}
compositionWidth={project.width}
compositionHeight={project.height}
controls
// loop={player.loop}
style={{
width: '100%',
height: '100%',
}}
clickToPlay={false}
showPosterWhenPaused={false}
autoPlay={false}
loop={false}
/>

1 post - 1 participant

Read full topic

via LINUX DO - 最新话题 (author: 不懂就问)
这commit消息写的真是非常标准呢(雾

吐槽一下自己的commit message编写()
要不是这不是一个协作项目.jpg

21 posts - 19 participants

Read full topic

via LINUX DO - 最新话题 (author: 铎)

Invalid media: image
fiat24 成功开通 Claude Max

上次尼区没办法付款后,Claude Max 续费再即
只能通过参考群友的 fiat24 教程开通的虚拟卡支付。

我分享下我的支付流程,只是个人的操作步骤,自己觉得比较舒服的路径。

通过 招行转账 → 汇丰 转账——> wise 对换欧元–> fiat24

wise 入账似乎只能是欧元,我查到是需要港币兑换欧元。fiat24 虚拟卡那边需要设置

Direct Pay 打开 EUR
Default Card Currency 设置成 EUR

整个过程扣款是 174.6 欧(¥1433.94),wise 兑换似乎是 4 港币,整个过程可能不到 1450,不知道还有没有没统计上的。

1 post - 1 participant

Read full topic

via LINUX DO - 最新话题 (author: gchr)

Invalid media:
image
image
bolt.new有什么羊毛吗?闲鱼pro 80块。

有人送了一个给我,我搜了一下闲鱼上80块一个,但是这个成本应该没有到30,然后加15还可以冲到自己号上,我看到论坛里面相关的内容是一年的教育优惠和30刀的折扣码,但是都应该是失效了才对,但是他们还在卖,这是为何?

10 posts - 5 participants

Read full topic

via LINUX DO - 最新话题 (author: Bill Gates)