This media is not supported in your browser
VIEW IN TELEGRAM
👾外星科技👾
一键对鼠标下图片文本进行OCR
智能捕获文本框,拼接,并用大模型清理输出。
还在手动框选? 你out啦~~
https://github.com/lingkuma/ohmytext
核心库:文本检测模块 - PaddleOCR
#SFW
一键对鼠标下图片文本进行OCR
智能捕获文本框,拼接,并用大模型清理输出。
还在手动框选? 你out啦~~
https://github.com/lingkuma/ohmytext
核心库:文本检测模块 - PaddleOCR
#SFW
内置开源版 trancy,chrome商店已更新!
app.lingkuma.org
可以在手机刷youtube的同时使用lingkuma啦
电脑端也兼容了原版的trancy哟,如果你有更好的插件,也可以推荐我兼容
app.lingkuma.org
可以在手机刷youtube的同时使用lingkuma啦
电脑端也兼容了原版的trancy哟,如果你有更好的插件,也可以推荐我兼容
踏上前往13世纪德国北部的独特神秘之旅。体验基于失踪传教士克里斯蒂安·乌尔扬历史记录的互动冒险角色扮演游戏,探索摩尔瓦克和多登维克的起源。
6-8 小时游戏时长(200,000+ 字/语言)
共4章,包含1000多段内容
5 种结局(赫尔墨斯式、历史式、进步式、浪漫式、西比尔式)
700+ 幅风格独特的缩略图插图 **
100多种音效和环境配乐*
https://kenam-moorwak.itch.io/cotm
#Twine #B2 #C1
推荐一下我朋友的性价比gemini/codex中转,GCP不能白嫖之后我就一直用他的gemini模型。
对比了deepseek / glm / gpt 之后,发现还是gemini 翻译最舒服,而且性价比也最高。
可以私聊我试用哦,我给你key
通过我的邀请码,充值5$(仅支持Visa支付,支付宝请左下角私聊或者群里留言,),我们都可以获得$1.25 的奖励哦。
https://0-0.pro/register?ref=75RRBBR3
#aff
对比了deepseek / glm / gpt 之后,发现还是gemini 翻译最舒服,而且性价比也最高。
可以私聊我试用哦,我给你key
通过我的邀请码,充值5$(仅支持Visa支付,支付宝请左下角私聊或者群里留言,),我们都可以获得$1.25 的奖励哦。
https://0-0.pro/register?ref=75RRBBR3
这个中转网站本身也是全开源的,我一直用的这个uni-api自己中转我的gcp,比new-api要更轻量方便:
https://github.com/yym68686/uni-api
https://github.com/yym68686/uni-api-web
#aff
🥰2
新玩具:
http://listening.lingkuma.org/
https://github.com/lingkuma/Listen-with-Ai
录下播客和你的声音,直接发送给 AI
这个网站的主旨很简单:
把播客的声音,以及你自己的跟读、复述或提问一起录下来,直接发给 AI,然后获得一个结果。
这样设计,是为了让你不要一直盯着字幕,而是把注意力放在听力本身。发送给 AI 之后的等待时间,也不是空白时间——你可以马上重复听刚才那一段,并主动回忆那些没听懂、但又快要想起来的词。
#tool #listening
http://listening.lingkuma.org/
https://github.com/lingkuma/Listen-with-Ai
录下播客和你的声音,直接发送给 AI
这个网站的主旨很简单:
把播客的声音,以及你自己的跟读、复述或提问一起录下来,直接发给 AI,然后获得一个结果。
这样设计,是为了让你不要一直盯着字幕,而是把注意力放在听力本身。发送给 AI 之后的等待时间,也不是空白时间——你可以马上重复听刚才那一段,并主动回忆那些没听懂、但又快要想起来的词。
点子来源:
我个人觉得,在练习听力的时候,如果有字幕辅助会破坏听力本身。所以我想,如果只听、不借助视觉,在听的过程中真的遇到不会、想要提问的时候,应该怎么做?
这个时候我应该只能靠说了。直接针对遇到的问题和听到的句子进行提问,弄清楚这句话是怎么回事。具体的流程可以是:
1. 将播客内容和你的提问一直录音下来,然后发送给 AI
2. AI 会直接反馈给你一个文本
3. 你可以靠 TTS(语音转文字)对这个文本进行播放
这样你再听的时候,整个过程就只有两件事:听和说。完全摒弃了视觉的介入,将视觉移除之后,肯定会有效率的降低,但我觉得正是这样才能提高注意力的集中度。
大家可以尝试一下这个过程,不要借助任何视觉的辅助,只专注在听力这件事上。
可以进行一个反馈来讨论一下,这种方法好不好
#tool #listening
OK,一个新的明确的方向出现了,就是 Face to Face。
现在这个工具是作为一个助理的角色,和我们一起去听一个博客。而其实还有一个更好的方案,就是让 AI 作为博客中的那个对应的人,来和我们进行解释和交流。
目前来讲,我们的工具并不支持,但这个问题应该比较便捷的解决:就是直接将系统提示词改成让他去假装成博客里的那个人。
虽然说上下文少一点,但可以先体验一下 Face to Face 的这个改变。
#idea #listening #f2f
现在这个工具是作为一个助理的角色,和我们一起去听一个博客。而其实还有一个更好的方案,就是让 AI 作为博客中的那个对应的人,来和我们进行解释和交流。
目前来讲,我们的工具并不支持,但这个问题应该比较便捷的解决:就是直接将系统提示词改成让他去假装成博客里的那个人。
虽然说上下文少一点,但可以先体验一下 Face to Face 的这个改变。
#idea #listening #f2f
搞半天,这不就是豆包语音模式吗🤡
我试了一下直接开豆包对话模式一起听,让他模拟成里面的角色
然后就可以一起开始了,有什么问题直接问就行了!
同时豆包通话目前还支持全双工模式,交流更自然快速顺畅,根本感觉不到对面是AI的。
—-
其他豆包细节:
豆包现在的语音模式,理论上来讲是可以听懂并说(文本输出)所有语言。
但是在语音输出的层面上,它只能正确地说出中文、英文和日语。
其他语言即使能够输出正确的文本,音频却是错的。
#豆包
我试了一下直接开豆包对话模式一起听,让他模拟成里面的角色
下面我再听英语播客。首先,我需要你来和我一起听。这样的话,你能理解播客里面的一些就是内容。接着,我也向你进行提问,比如有时候这句话我没有理解,或者说呢,某单词我可能没听清。然后我会向你提问。同时,你请一直以英文回答我。你将假装你自己是这个博客内正在讲话的那个人,并你以角色扮演的形式向我进行这个解释,和我进行沟通。
然后就可以一起开始了,有什么问题直接问就行了!
同时豆包通话目前还支持全双工模式,交流更自然快速顺畅,根本感觉不到对面是AI的。
—-
其他豆包细节:
豆包现在的语音模式,理论上来讲是可以听懂并说(文本输出)所有语言。
但是在语音输出的层面上,它只能正确地说出中文、英文和日语。
其他语言即使能够输出正确的文本,音频却是错的。
#豆包
👍1
豆包双工语音,好像是”假”的,因为你根本就没有打断的机会
刚才在电脑上试了豆包的语音电话,电脑上是没有双工功能的,但我可以手动打断。
所以有没有可能手机上的双工,并不是说它模型支持双工,而是说它只是判断用户麦克风有没有输入,从而程序“手动”将输出给掐断呢?
经过简单的测试,我发现豆包的双工是“假”的。
之所以我们能够感觉到它是真正的双工,是因为它返回的速度太快了,以至于让我们产生了错觉。不信的话,你可以去测试一下:
1. 让它讲一个故事。
2. 当它讲完第一句话的时候,让它闭嘴。
3. 然后你再问它:“刚刚是什么时候让你闭嘴的?”
你多试几次之后就会发现,它每次说的都不一样,完全是随机在乱说。也就是说,它根本没有真正的双工处理能力。
全双工模型演示
https://www.bilibili.com/video/BV1gbQzBtEX5/?t=38
这里有个up主自研的全双工模式,可以对比豆包看看就知道了。
全双工模型是对打断本身有感知的。
大模型速度太快了,跟大模型进行全双工对话是一个伪命题
你根本就没有打断大模型说话的机会。
所以大模型对话的全双工,应该是一种工程手段。
就拿豆包现在的这种场景来说,它并没有真正记住是在什么时刻被打断的,但这实际上是可以优化的。
只不过目前这种“加法”在某种意义上可能是一种做加法,反而会增加工程量
#豆包
刚才在电脑上试了豆包的语音电话,电脑上是没有双工功能的,但我可以手动打断。
所以有没有可能手机上的双工,并不是说它模型支持双工,而是说它只是判断用户麦克风有没有输入,从而程序“手动”将输出给掐断呢?
经过简单的测试,我发现豆包的双工是“假”的。
之所以我们能够感觉到它是真正的双工,是因为它返回的速度太快了,以至于让我们产生了错觉。不信的话,你可以去测试一下:
1. 让它讲一个故事。
2. 当它讲完第一句话的时候,让它闭嘴。
3. 然后你再问它:“刚刚是什么时候让你闭嘴的?”
你多试几次之后就会发现,它每次说的都不一样,完全是随机在乱说。也就是说,它根本没有真正的双工处理能力。
全双工模型演示
https://www.bilibili.com/video/BV1gbQzBtEX5/?t=38
这里有个up主自研的全双工模式,可以对比豆包看看就知道了。
全双工模型是对打断本身有感知的。
大模型速度太快了,跟大模型进行全双工对话是一个伪命题
你根本就没有打断大模型说话的机会。
所以大模型对话的全双工,应该是一种工程手段。
就拿豆包现在的这种场景来说,它并没有真正记住是在什么时刻被打断的,但这实际上是可以优化的。
只不过目前这种“加法”在某种意义上可能是一种做加法,反而会增加工程量
#豆包
Bilibili
P3 部分技术特性演示_哔哩哔哩_bilibili
前面的两个视频主要介绍了低延迟、拟人性还有策略控制。除此之外,还有很多的技术特性没有展示。评论和私聊也问了我不少问题。所以就大家比较关心的一些问题,单独做一个技术展示,不过也只是一部分的特性,以后逐渐视情况新增别的技术展示。, 视频播放量 1688、弹幕量 0、点赞数 84、投硬币枚数 51、收藏人数 54、转发人数 32, 视频作者 干活干活干活啊, 作者简介 性能狂魔,相关视频:P2 如何控制AI的策略,Fun-ASR-Nano 本地部署!轻量级语音转文字!低显存可用!,P4 40分钟长时间对话演示…
🤔4