自从染上了NSFW,身体是一天不如一天了
🤚 😭🤚
不敢了不敢了
42 posts - 33 participants
Read full topic
via LINUX DO - 热门话题 (author: YI_YANG)
🤚 😭🤚
不敢了不敢了
42 posts - 33 participants
Read full topic
via LINUX DO - 热门话题 (author: YI_YANG)
【抽奖】传统艺能GPT TEAM*2 带质保25天
抽奖主题: 不知道写什么主题,主包快3级了,虽然还没。中过其他佬友的,那咱也要发!
🏆️ 奖品详情:
[奖品]:传统艺能的GPT TEAM*2,质保25天
(因为母号已经开车了,然后我跟国内的佬友有时差,可能中奖的小伙伴给我发私信以及我回复都需要时间,保险起见,质保25天)
:three_o_clock: 活动时间:
开始时间:发帖时间
截止时间:2025 年 12 月 02 日 23:59 (希望是北京时间,因为我有时差,并不知道linuxdo设置的时间是默认我本地时间,还是北京时间。请谅解,没法判断我要不要手动扣除时差)
📝 参与方式:
在本帖下回复任意内容。当然如果给一个点赞就更好了 :tieba_002:
🔍️ 抽奖规则:
每位用户仅允许参与一次。
使用官方抽奖工具随机抽取中奖者。
⚠️ 注意事项:
本活动将在活动截止时间后关闭回帖,以确保公正性。
中奖者将在活动结束后24小时内在本帖公布,并通过私信通知领奖方式。
所有规则及抽奖结果由活动发起人和论坛管理团队最终解释。
期待您的积极参与,祝您好运!如有任何疑问,欢迎随时联系抽奖发起人。
因为第一次设置抽奖,如果设置不对,敬请原谅。
补充:
虽然会有时差,但是我会手动关帖,关贴时间是北京时间2025 年 12 月 02 日 23:59。然后使用官方工具抽奖,
193 posts - 193 participants
Read full topic
via LINUX DO - 热门话题 (author: 哈基米基哈基_米基米基哈)
抽奖主题: 不知道写什么主题,主包快3级了,虽然还没。中过其他佬友的,那咱也要发!
🏆️ 奖品详情:
[奖品]:传统艺能的GPT TEAM*2,质保25天
(因为母号已经开车了,然后我跟国内的佬友有时差,可能中奖的小伙伴给我发私信以及我回复都需要时间,保险起见,质保25天)
:three_o_clock: 活动时间:
开始时间:发帖时间
截止时间:2025 年 12 月 02 日 23:59 (希望是北京时间,因为我有时差,并不知道linuxdo设置的时间是默认我本地时间,还是北京时间。请谅解,没法判断我要不要手动扣除时差)
📝 参与方式:
在本帖下回复任意内容。当然如果给一个点赞就更好了 :tieba_002:
🔍️ 抽奖规则:
每位用户仅允许参与一次。
使用官方抽奖工具随机抽取中奖者。
⚠️ 注意事项:
本活动将在活动截止时间后关闭回帖,以确保公正性。
中奖者将在活动结束后24小时内在本帖公布,并通过私信通知领奖方式。
所有规则及抽奖结果由活动发起人和论坛管理团队最终解释。
期待您的积极参与,祝您好运!如有任何疑问,欢迎随时联系抽奖发起人。
因为第一次设置抽奖,如果设置不对,敬请原谅。
补充:
虽然会有时差,但是我会手动关帖,关贴时间是北京时间2025 年 12 月 02 日 23:59。然后使用官方工具抽奖,
193 posts - 193 participants
Read full topic
via LINUX DO - 热门话题 (author: 哈基米基哈基_米基米基哈)
宝可梦黑五活动狂欢第二弹之绝版神话精灵球
🏆️ 奖品详情:
绝版神话精灵球 * 50。
:three_o_clock: 活动时间:
开始时间:发帖时间
截止时间:2025 年 12 月 03 日 晚上8:00
📝 参与方式:
在本帖下回复任意内容。
🔍️ 抽奖规则:
每位用户仅允许参与一次。
使用 LINUX DO 抽奖程序随机抽取中奖者。
⚠️ 注意事项:
本活动将在活动截止时间后关闭回帖,以确保公正性。
中奖者将在活动结束后 48 小时内在本帖公布,并通过私信通知领奖方式。
所有规则及抽奖结果由活动发起人和论坛管理团队最终解释。
期待您的积极参与,祝您好运!如有任何疑问,欢迎随时联系抽奖发起人
⚠️ 注意事项:
兑换时间为7天,可自行续费为年付套餐
官网
备用
若是官网爆红请点击->详情-> 然后点击访问。
1266 posts - 1236 participants
Read full topic
via LINUX DO - 热门话题 (author: 千夜)
Invalid media: image
🏆️ 奖品详情:
绝版神话精灵球 * 50。
:three_o_clock: 活动时间:
开始时间:发帖时间
截止时间:2025 年 12 月 03 日 晚上8:00
📝 参与方式:
在本帖下回复任意内容。
🔍️ 抽奖规则:
每位用户仅允许参与一次。
使用 LINUX DO 抽奖程序随机抽取中奖者。
⚠️ 注意事项:
本活动将在活动截止时间后关闭回帖,以确保公正性。
中奖者将在活动结束后 48 小时内在本帖公布,并通过私信通知领奖方式。
所有规则及抽奖结果由活动发起人和论坛管理团队最终解释。
期待您的积极参与,祝您好运!如有任何疑问,欢迎随时联系抽奖发起人
⚠️ 注意事项:
兑换时间为7天,可自行续费为年付套餐
官网
备用
若是官网爆红请点击->详情-> 然后点击访问。
1266 posts - 1236 participants
Read full topic
via LINUX DO - 热门话题 (author: 千夜)
Invalid media: image
英语学习最值得付费的app是哪个?大家有付费经历的可以具体聊下
15 posts - 12 participants
Read full topic
via LINUX DO - 最新话题 (author: bbroot)
15 posts - 12 participants
Read full topic
via LINUX DO - 最新话题 (author: bbroot)
老哥们,gemini pro 学生版,能调用API吗?
API支持 canvas吗
7 posts - 5 participants
Read full topic
via LINUX DO - 最新话题 (author: Will)
API支持 canvas吗
7 posts - 5 participants
Read full topic
via LINUX DO - 最新话题 (author: Will)
Gemini创建新Key似乎不再默认Free Tier
今天刚刚发现(
转到Usage and Billing显示:
个人猜测应该是需要绑卡并自行分配Free Tier
老号老key仍未被吊销
8 posts - 8 participants
Read full topic
via LINUX DO - 最新话题 (author: 鸦羽)
Invalid media: image
今天刚刚发现(
转到Usage and Billing显示:
Project quota tier unavailable. Please contact your project administrator for assistance.个人猜测应该是需要绑卡并自行分配Free Tier
老号老key仍未被吊销
8 posts - 8 participants
Read full topic
via LINUX DO - 最新话题 (author: 鸦羽)
Invalid media: image
求sora2/pro性价比渠道或者网站
求求求,求一个能用sora2 sora2pro的网站 能白嫖的更好,付费的希望便宜些
1 post - 1 participant
Read full topic
via LINUX DO - 最新话题 (author: linux.do)
求求求,求一个能用sora2 sora2pro的网站 能白嫖的更好,付费的希望便宜些
1 post - 1 participant
Read full topic
via LINUX DO - 最新话题 (author: linux.do)
工银亚洲办理银行卡,需要提供什么纸质的资料?
好像听说线上app 预审批了, 线下还是会拒绝办理银行卡的
1 post - 1 participant
Read full topic
via LINUX DO - 最新话题 (author: tonyfeng09)
好像听说线上app 预审批了, 线下还是会拒绝办理银行卡的
1 post - 1 participant
Read full topic
via LINUX DO - 最新话题 (author: tonyfeng09)
DeepSeek-V3.2-Speciale 好像挂了,DeepSeek-V3.2 正常 🤧
1 post - 1 participant
Read full topic
via LINUX DO - 最新话题 (author: Megasoft)
Invalid media: image
1 post - 1 participant
Read full topic
via LINUX DO - 最新话题 (author: Megasoft)
Invalid media: image
软件中级证书只能减拿证当年的税吗?
刚刚申请了一下个人所得税,发现只能申请扣除拿证当年的税收,呜呜呜。大学期间考的当时没收入,这个证书有啥用呀? 😵💫
3 posts - 3 participants
Read full topic
via LINUX DO - 最新话题 (author: jie)
刚刚申请了一下个人所得税,发现只能申请扣除拿证当年的税收,呜呜呜。大学期间考的当时没收入,这个证书有啥用呀? 😵💫
3 posts - 3 participants
Read full topic
via LINUX DO - 最新话题 (author: jie)
AnuNeko 现已上线 | 立刻聊天💬
anuneko.com
AnuNeko
好像是mihoyo蔡浩宇相关的
Anuttacon
Anuttacon
AI Soul Casting
21 posts - 12 participants
Read full topic
via LINUX DO - 最新话题 (author: stevessr)
Invalid media:
image
image
image
anuneko.com
AnuNeko
好像是mihoyo蔡浩宇相关的
Anuttacon
Anuttacon
AI Soul Casting
21 posts - 12 participants
Read full topic
via LINUX DO - 最新话题 (author: stevessr)
Invalid media:
image
image
image
这样的生活算过得去吗?
我去年,在纽约剑桥大学毕业,被评选为优秀大学生。在项目组里面,做了个收益100w刀乐的项目。本来有几个头部企业找我想让我呆在那里工作的,但是没有,我还是想回来发展。因为我觉得,在外面,就算赚到再多的钱,也是没有多大意义的。虽然openai的CEO在发邮件邀请我的时候我是真的很心动,开的条件也好,又能去到ai的龙头企业进行上班,感受其中的氛围。
后面呢,我回来了,一开始也没有想太多,就想找个大厂,磨练一下自己的技术,然后就开始与一些企业管理层进行洽谈,但是最终的谈判结果我不是特别满意,因为薪资待遇啊,还有一些技术上的问题,就暂时没有同意去他们的公司。
就开始在家里想着如何去构造一个真正的aigc环境,也开始慢慢开始了我的布局。还找了个猫管家帮我打理下事,现在也做到了某种意义上的头部。
好了,楼下该帮我补充了
11 posts - 9 participants
Read full topic
via LINUX DO - 最新话题 (author: bohe)
我去年,在纽约剑桥大学毕业,被评选为优秀大学生。在项目组里面,做了个收益100w刀乐的项目。本来有几个头部企业找我想让我呆在那里工作的,但是没有,我还是想回来发展。因为我觉得,在外面,就算赚到再多的钱,也是没有多大意义的。虽然openai的CEO在发邮件邀请我的时候我是真的很心动,开的条件也好,又能去到ai的龙头企业进行上班,感受其中的氛围。
后面呢,我回来了,一开始也没有想太多,就想找个大厂,磨练一下自己的技术,然后就开始与一些企业管理层进行洽谈,但是最终的谈判结果我不是特别满意,因为薪资待遇啊,还有一些技术上的问题,就暂时没有同意去他们的公司。
就开始在家里想着如何去构造一个真正的aigc环境,也开始慢慢开始了我的布局。还找了个猫管家帮我打理下事,现在也做到了某种意义上的头部。
好了,楼下该帮我补充了
11 posts - 9 participants
Read full topic
via LINUX DO - 最新话题 (author: bohe)
红墨这样设置为啥生成不了图啊
反复测试了好几遍了,仍然不行,才过来问的
用的飞牛os,api问过公益站的佬,确定可以用,但是就是生成不出来,有佬帮我看看下吗
3 posts - 2 participants
Read full topic
via LINUX DO - 最新话题 (author: naive)
Invalid media:
image
image
反复测试了好几遍了,仍然不行,才过来问的
用的飞牛os,api问过公益站的佬,确定可以用,但是就是生成不出来,有佬帮我看看下吗
3 posts - 2 participants
Read full topic
via LINUX DO - 最新话题 (author: naive)
Invalid media:
image
image
有没有偏头疼的佬友
我这个不太严重,但是不确定性很高,通常是夜里开始有点感觉,但是不会醒,早上就开始疼。
非常难受,一般这个时候我会吃布洛芬,运气好的好个把小时就能好了,运气不好可能要一整天。
太难搞了,每个月可能来个两三次,头疼是真要命。
救救孩子
【补充】去过医院了,诊断就是偏头疼,没啥特效药,想问问佬友们有没有什么止痛的小妙招
23 posts - 17 participants
Read full topic
via LINUX DO - 最新话题 (author: ry)
我这个不太严重,但是不确定性很高,通常是夜里开始有点感觉,但是不会醒,早上就开始疼。
非常难受,一般这个时候我会吃布洛芬,运气好的好个把小时就能好了,运气不好可能要一整天。
太难搞了,每个月可能来个两三次,头疼是真要命。
救救孩子
【补充】去过医院了,诊断就是偏头疼,没啥特效药,想问问佬友们有没有什么止痛的小妙招
23 posts - 17 participants
Read full topic
via LINUX DO - 最新话题 (author: ry)
flow实在是太快乐了
很符合我的预期
2 posts - 2 participants
Read full topic
via LINUX DO - 最新话题 (author: 响)
Invalid media:
image
image
image
很符合我的预期
2 posts - 2 participants
Read full topic
via LINUX DO - 最新话题 (author: 响)
Invalid media:
image
image
image
【富可敌国】AI分发系统Augmunt研发完成,可用率99.9%,支持Claude/CodeX/Gemini,回馈社区,100楼内送10刀
Augmunt是自研纯Java AI分发站点(Java是最好的语言),使用全球部署节点,稳定可靠。
我们的站点:https://www.augmunt.com
经过三个月的公测,我们已经非常稳定,CC可用率99.9%,延迟1000ms左右。
本来想顺带推一下某声称中立的API中转服务,不过很不幸,长期霸榜被关注,因为我们没有提供邀请链接已经被下线,只能当无冕之王了。
这只是一个小插曲而已,不影响我们为大家提供一个不一样的服务。
老帖子还没有满员,那个帖子的依然有效的,但是这个新开的帖子依然是前一百送10刀,感谢大家。
https://linux.do/t/topic/1213543
我们除了提供Claude/Codex/Gemini服务,本身也提供AI分发系统,有佬需要的可联系。
如果这个帖子满员100,无论老帖是否满员,我们将关闭老帖,并且给老帖的发放奖励。
请各位点击官网使用 linux.do 的官方的统一认证并且入群,避免发放奖励没有办法到您的账号。
二群:461764719
102 posts - 102 participants
Read full topic
via LINUX DO - 最新话题 (author: triplekillgod)
Augmunt是自研纯Java AI分发站点(Java是最好的语言),使用全球部署节点,稳定可靠。
我们的站点:https://www.augmunt.com
经过三个月的公测,我们已经非常稳定,CC可用率99.9%,延迟1000ms左右。
本来想顺带推一下某声称中立的API中转服务,不过很不幸,长期霸榜被关注,因为我们没有提供邀请链接已经被下线,只能当无冕之王了。
这只是一个小插曲而已,不影响我们为大家提供一个不一样的服务。
老帖子还没有满员,那个帖子的依然有效的,但是这个新开的帖子依然是前一百送10刀,感谢大家。
https://linux.do/t/topic/1213543
我们除了提供Claude/Codex/Gemini服务,本身也提供AI分发系统,有佬需要的可联系。
如果这个帖子满员100,无论老帖是否满员,我们将关闭老帖,并且给老帖的发放奖励。
请各位点击官网使用 linux.do 的官方的统一认证并且入群,避免发放奖励没有办法到您的账号。
二群:461764719
102 posts - 102 participants
Read full topic
via LINUX DO - 最新话题 (author: triplekillgod)
请教一下各位玩codex的佬友,如何使codex自动procced确认?
听说有沙箱这种东西,看了文档,发现沙箱内session结束数据也全没有,那还能控制自动procceed吗?有无其他方案,或者我哪里理解不对?
5 posts - 5 participants
Read full topic
via LINUX DO - 最新话题 (author: Momo)
听说有沙箱这种东西,看了文档,发现沙箱内session结束数据也全没有,那还能控制自动procceed吗?有无其他方案,或者我哪里理解不对?
5 posts - 5 participants
Read full topic
via LINUX DO - 最新话题 (author: Momo)
求推荐大模型api中转站和负载均衡/故障转移系统
RT。搭建了一个 Open-WebUI 给团队使用。因为暂不确定是否能报销,直接接入官方还是有点肉疼,论坛社否有靠谱点的低价中转站?要求有 OpenAI Anthropic Google 御三家,且支持 Google 的图像模型。
另外,各个供应商肯定是没法保证在线率 100% 的,有没有一种系统能将多个供应商的同一个模型聚合在一起,然后供给 Open-WebUI 使用?这样在一家掉线的时候能自动切换到下一家。
1 post - 1 participant
Read full topic
via LINUX DO - 最新话题 (author: johns)
RT。搭建了一个 Open-WebUI 给团队使用。因为暂不确定是否能报销,直接接入官方还是有点肉疼,论坛社否有靠谱点的低价中转站?要求有 OpenAI Anthropic Google 御三家,且支持 Google 的图像模型。
另外,各个供应商肯定是没法保证在线率 100% 的,有没有一种系统能将多个供应商的同一个模型聚合在一起,然后供给 Open-WebUI 使用?这样在一家掉线的时候能自动切换到下一家。
1 post - 1 participant
Read full topic
via LINUX DO - 最新话题 (author: johns)
全自动续Gemini business程序-预告
预览:
还没写好,因为待会要去上课。
用的邮箱系统是:GitHub - maillab/cloud-mail: cloudflare email 邮箱 临时邮箱 邮件发送 mail
不一样的可以自己改代码
3 posts - 3 participants
Read full topic
via LINUX DO - 最新话题 (author: Skyjee)
Invalid media: image
预览:
还没写好,因为待会要去上课。
用的邮箱系统是:GitHub - maillab/cloud-mail: cloudflare email 邮箱 临时邮箱 邮件发送 mail
不一样的可以自己改代码
3 posts - 3 participants
Read full topic
via LINUX DO - 最新话题 (author: Skyjee)
Invalid media: image
治幕 v0.2.2更新,不吃显卡,轻松获取高质量字幕~
(观前提示,文章里涉及部分NSFW内容)
----------------------
小半年没有主动发贴了,主要是前段时间光顾着用自己开发的项目给翻译工作提效了,所以一直没抽出时间写点儿啥。
好奇我翻译的东西的佬,可以去看看我在b站发的视频👇️
下面的视频多少都用到了这个项目的功能 (click for more details)
这次正好,我给项目加了亿点儿功能,顺便优化了一下时间戳的微调逻辑,干脆写一写更新后的情况吧,不然感觉要不了多久就要掉回2级了,我得回回血啊 :tieba_003: (求赞啊🙏
----------------------
先简单介绍一下我的这个开源项目。
治幕是一款利用大语言模型对多语言文本(现已优化支持日语、中文、英文、韩文的智能分割处理提示词)进行智能分割,并将带有精确时间戳的 JSON 文件(可来自本地文件或通过内置的 免费或付费语音转文字(STT)服务 生成)转换为更自然、易读且适配用户需要的 SRT 字幕文件的桌面应用程序。它的开发初衷是"治愈"那些因没有断句功能或断句不佳导致缺乏语义连贯性而难以编辑阅读的音声转录结果,从而提高我对同人音声的翻译效率。
简单来说,这个玩意儿是优化机器字幕的。譬如whisper、deepgram之类的服务生成的音频转录结果(.json),均可以通过它来进行语义优化分割,使生成的字幕文件更加规范,符合人类阅读习惯。
----------------------
首先是之前已经实装的,免费STT(speech to text)功能。
关于STT的相关情况,可以先阅读我之前的这个帖子了解:
https://linux.do/t/topic/665831
通过这个白嫖功能,你可以节省掉高昂的转录费用,极大地降低了各位获取高质量转录源文件的难度。
然后是这次新加入的,两个付费STT功能。
关于付费Elevenlabs。
说是付费,其实每个月有10000点的免费额度(大约2个半小时的音频),如果你嫖到极致,申请10个号,应付正常的作品转录是完全够用的。
它的基础转录效果其实和免费的一样,经过我的反复测试,可以说是分毫不差,但优势也比较明显。一方面,不用担心隐私问题,你上传的转录数据由你自行管理,不用担心被拿去做成训练数据;另一方面,上传文件的体积和时长限制更小,不用再小心翼翼的把wav或者mp4转换成mp3再上传了。顺带一提,付费的ElevenLabs还有很多自定义的选项啊,不过因为和本项目的目标关系不大,所以我并没有实现。
另一个付费STT则是近期风评不错的Soniox。
这家其实是以实时转录效果好而出名的,我记得站内有佬 @dwqxq1 之前也推荐过。异步转录方面,似乎没什么人讨论。不过,其提供的一个功能引起了我的注意:
对于拥有台本的作品来说,这无疑是个相当值得一试的功能。在过去,我们们只能依靠强制对齐纯净的对话来解决问题,但现在,结构化与非结构化上下文,无疑是一个更加宽松的选择。
这次的更新重点,其实也主要放在了这个功能上,使用时,允许用户自行编辑专有名词,也可以编辑或者上传txt、docx、pdf格式的台本来制作context,优化最后的转录效果。👇️
其中关于日文喜欢用竖排pdf这种很不好识别的情况👇️,我使用了小红书开源的dotsocr作为解决方案,将白嫖进行到底。
此外,该模式下的转录,我还附加了一个实验性质的AI纠错校对的功能(不稳定,暂不推荐),也就是转录后的内容中,如果存在听错的发音相似的字,例如“精液”听成了“性癖”,可以让大语言模型修正。
总的来说,如果你转录的作品内容相对比较“安静”,不会出现类似以下这种拟声词过多 (这是我自己手打的轴) 的情况。那么使用Soniox + 导入台本,是一种即便宜又高效的转录选择。
顺带着提一嘴LLM配置管理功能
这个其实没啥好说的,也是很早就有的功能了,不过我稍微丰富了一下支持的格式,现在基本上主流的提供商类型都是支持的。
以及我考虑到不同用户想用不同背景,新加的换图功能(其实是我自己想换
----------------------
关于转录结果和时间戳的核心处理流程:
1. LLM分割对齐:使用LLM把转录结果分割成语义片段,然后使用模糊匹配将LLM生成的语义片段与ASR词元对齐(这次更新降低了阙值,提高成功率)
2. 时间戳修正:检测异常词间空隙和词长,调整结束时间(这次更新的算法,基于人类阅读感知设置了合理阈值,通过3步判断调整)
3. 智能分割:基于标点优先级分割超长片段 (相较之前基本上没有变化,只是重新考虑了“;”的优先级)
4. 合并优化:通过收益函数,量化合并收益,尽量合理的合并相邻片段 (新功能,不再局限于简单的字幕间距)
5. 模式特定处理:Soniox、ElevenLabs、基础模式各有不同的阈值策略(新功能,对Soniox和ElevenLabs的SRT导出结果进行了特调)
----------------------
尾声
Q:上哪儿用?
A:老地方👇️
github.com
GitHub - fuxiaomoke/heal-jimaku: json->srt,基于 PyQt6 和大语言模型的同人音声字幕优化导出GUI小工具。
json->srt,基于 PyQt6 和大语言模型的同人音声字幕优化导出GUI小工具。
Q:怎么用?
A:看docs文件夹里的用户指南。
Q:支持多语言吗?
A:支持,但我目前的时间戳优化的方向是主流的(中日英韩)里的单个语言或双语言,更多的情况我无法保证效果。
Q:非同人音声的普通场景可以用吗?
A:可以,效果都不错。
Q:能不能给**动作片用?
A:理论上可以,但不推荐Soniox,用ElevenLabs吧。
1 post - 1 participant
Read full topic
via LINUX DO - 最新话题 (author: 浮霄默客)
Invalid media:
image
image
image
image
image
image
image
image
image
image
image
image
image
(观前提示,文章里涉及部分NSFW内容)
----------------------
小半年没有主动发贴了,主要是前段时间光顾着用自己开发的项目给翻译工作提效了,所以一直没抽出时间写点儿啥。
好奇我翻译的东西的佬,可以去看看我在b站发的视频👇️
下面的视频多少都用到了这个项目的功能 (click for more details)
这次正好,我给项目加了亿点儿功能,顺便优化了一下时间戳的微调逻辑,干脆写一写更新后的情况吧,不然感觉要不了多久就要掉回2级了,我得回回血啊 :tieba_003: (求赞啊🙏
----------------------
先简单介绍一下我的这个开源项目。
治幕是一款利用大语言模型对多语言文本(现已优化支持日语、中文、英文、韩文的智能分割处理提示词)进行智能分割,并将带有精确时间戳的 JSON 文件(可来自本地文件或通过内置的 免费或付费语音转文字(STT)服务 生成)转换为更自然、易读且适配用户需要的 SRT 字幕文件的桌面应用程序。它的开发初衷是"治愈"那些因没有断句功能或断句不佳导致缺乏语义连贯性而难以编辑阅读的音声转录结果,从而提高我对同人音声的翻译效率。
简单来说,这个玩意儿是优化机器字幕的。譬如whisper、deepgram之类的服务生成的音频转录结果(.json),均可以通过它来进行语义优化分割,使生成的字幕文件更加规范,符合人类阅读习惯。
项目的大致介绍到此为止。接下来,讲一下目前支持的比较有用功能。
举个简单的例子,比如现在有这样一个文段:
“あ、お隣さん?制服。あ、うちの学校だ。一年生の。あ、どうもご丁寧に。”
如果是单纯的机器分割字幕,就经常会错误分割成类似:
“あ、お隣さん?制服。あ”
“、うちの学校だ。一年生の。あ、”
“どうもご丁寧に。”
然而实际上,通过人工校对后,符合人类阅读和理解的字幕应当是:
“あ、お隣さん?”
“制服。あ、うちの学校だ。”
“一年生の。”
“あ、どうもご丁寧に。”
这个项目就是帮你省去了大量的人工校对时间,同时还会帮你把时间戳优化成符合行业标准和阅读习惯的样子。对于时间戳,这里再放一个比较直观的例子,如下:
时间戳优化前👇️
时间戳优化后👇️
----------------------
首先是之前已经实装的,免费STT(speech to text)功能。
关于STT的相关情况,可以先阅读我之前的这个帖子了解:
https://linux.do/t/topic/665831
通过这个白嫖功能,你可以节省掉高昂的转录费用,极大地降低了各位获取高质量转录源文件的难度。
然后是这次新加入的,两个付费STT功能。
关于付费Elevenlabs。
说是付费,其实每个月有10000点的免费额度(大约2个半小时的音频),如果你嫖到极致,申请10个号,应付正常的作品转录是完全够用的。
它的基础转录效果其实和免费的一样,经过我的反复测试,可以说是分毫不差,但优势也比较明显。一方面,不用担心隐私问题,你上传的转录数据由你自行管理,不用担心被拿去做成训练数据;另一方面,上传文件的体积和时长限制更小,不用再小心翼翼的把wav或者mp4转换成mp3再上传了。顺带一提,付费的ElevenLabs还有很多自定义的选项啊,不过因为和本项目的目标关系不大,所以我并没有实现。
另一个付费STT则是近期风评不错的Soniox。
这家其实是以实时转录效果好而出名的,我记得站内有佬 @dwqxq1 之前也推荐过。异步转录方面,似乎没什么人讨论。不过,其提供的一个功能引起了我的注意:
对于拥有台本的作品来说,这无疑是个相当值得一试的功能。在过去,我们们只能依靠强制对齐纯净的对话来解决问题,但现在,结构化与非结构化上下文,无疑是一个更加宽松的选择。
这次的更新重点,其实也主要放在了这个功能上,使用时,允许用户自行编辑专有名词,也可以编辑或者上传txt、docx、pdf格式的台本来制作context,优化最后的转录效果。👇️
其中关于日文喜欢用竖排pdf这种很不好识别的情况👇️,我使用了小红书开源的dotsocr作为解决方案,将白嫖进行到底。
此外,该模式下的转录,我还附加了一个实验性质的AI纠错校对的功能(不稳定,暂不推荐),也就是转录后的内容中,如果存在听错的发音相似的字,例如“精液”听成了“性癖”,可以让大语言模型修正。
总的来说,如果你转录的作品内容相对比较“安静”,不会出现类似以下这种拟声词过多 (这是我自己手打的轴) 的情况。那么使用Soniox + 导入台本,是一种即便宜又高效的转录选择。
顺带着提一嘴LLM配置管理功能
这个其实没啥好说的,也是很早就有的功能了,不过我稍微丰富了一下支持的格式,现在基本上主流的提供商类型都是支持的。
以及我考虑到不同用户想用不同背景,新加的换图功能(其实是我自己想换
----------------------
关于转录结果和时间戳的核心处理流程:
1. LLM分割对齐:使用LLM把转录结果分割成语义片段,然后使用模糊匹配将LLM生成的语义片段与ASR词元对齐(这次更新降低了阙值,提高成功率)
2. 时间戳修正:检测异常词间空隙和词长,调整结束时间(这次更新的算法,基于人类阅读感知设置了合理阈值,通过3步判断调整)
3. 智能分割:基于标点优先级分割超长片段 (相较之前基本上没有变化,只是重新考虑了“;”的优先级)
4. 合并优化:通过收益函数,量化合并收益,尽量合理的合并相邻片段 (新功能,不再局限于简单的字幕间距)
5. 模式特定处理:Soniox、ElevenLabs、基础模式各有不同的阈值策略(新功能,对Soniox和ElevenLabs的SRT导出结果进行了特调)
----------------------
尾声
Q:上哪儿用?
A:老地方👇️
github.com
GitHub - fuxiaomoke/heal-jimaku: json->srt,基于 PyQt6 和大语言模型的同人音声字幕优化导出GUI小工具。
json->srt,基于 PyQt6 和大语言模型的同人音声字幕优化导出GUI小工具。
Q:怎么用?
A:看docs文件夹里的用户指南。
Q:支持多语言吗?
A:支持,但我目前的时间戳优化的方向是主流的(中日英韩)里的单个语言或双语言,更多的情况我无法保证效果。
Q:非同人音声的普通场景可以用吗?
A:可以,效果都不错。
Q:能不能给**动作片用?
A:理论上可以,但不推荐Soniox,用ElevenLabs吧。
1 post - 1 participant
Read full topic
via LINUX DO - 最新话题 (author: 浮霄默客)
Invalid media:
image
image
image
image
image
image
image
image
image
image
image
image
image
❤1
vscode codex插件 0.5.47 模型选择列表调出gpt-5.1-codex-max index-DKE7c50W.js来了
找到 vscode 插件的存放目录,打开
index-DKE7c50W.zip (1.1 MB)
4 posts - 3 participants
Read full topic
via LINUX DO - 最新话题 (author: kkimmy)
Invalid media: image
找到 vscode 插件的存放目录,打开
extensions/openai.chatgpt-0.5.47/webview/assets目录,将我提供的压缩包文件解压替换js文件替换覆盖即可index-DKE7c50W.zip (1.1 MB)
4 posts - 3 participants
Read full topic
via LINUX DO - 最新话题 (author: kkimmy)
Invalid media: image