标题: 【知识分享】Embedding模型是什么?能做什么?
作者: #无月
板块: #开发调优
编号:
帖子: https://linux.do/t/topic/1574209
时间: 2026-02-06 19:29:50
摘要:
作者: #无月
板块: #开发调优
编号:
1574209帖子: https://linux.do/t/topic/1574209
时间: 2026-02-06 19:29:50
摘要:
新人第一次发帖,请多多包涵喵:)
embedding是什么?
embedding模型的本质,是把任意合法输入的信息 转换成 固定维度向量的一种工具。
如果你已经理解了万物皆向量这个观念,这一段会很好理解;就算没有听过,也不影响继续往下看。
我们所处的世界充满了各种形式的信息和数据,它们都可以用非常高维的方式来描述。以一段文字为例:“今天天气真不错!”,你可以从情感、语义、语法、风格、甚至语言等很多角度去刻画它,这些角度本身就构成了不同的判断维度。如果你把每个维度对应一个数值,一整组数值合在一起,就形成了一个高维向量。
假设我们做到了,找到一组高维向量[0.9111,0.6122,0.0012,...]完美的等价了"今天天气真不错!"这句话,那么我们再任意时刻,都可以像base64转码一样,将其等价转换,含义不变;但不同于base64的是,该高维向量每一个维度的值都代表着某种含义,因此向量可以加减,进行某种运算,但base64不行;spoiler
那向量化能做什么呢?举不严谨的例子来说:
国王 = [ 0.9, 0.2, 0.1 ,....]
男人 = [ 0.8, 0.1, 0.0 ,....]
女人 = [ 0.2, 0.7, 0.1 ,....]
女王 = [ 0.3, 0.8, 0.2 ,....]
#因此我们想表示女王,则可以:
女王 = 国王 - 男人 + 女人
[ 0.3, 0.8,....] = [ 0.9, 0.2,....] - [ 0.8, 0.1,....]+[ 0.2, 0.7,....]
这下是否就理解了:
Q:费劲将自然语言向量化的意义是什么呢?
A:将自然语言转化为可以被计算和操作的形式,计算机便能理解和运算,这就是现代NLP智能化的起点。
只是呢,现实中我们无法完整列出这些维度(理论上限),只能知道它的结构非常复杂、维度非常高。
同样的逻辑也适用于图片、音频、视频等数据形式,它们都可以被理解为存在于某个高维空间中的点。于是可以得到一个结论:任何事物在理论上都可以用一组高维向量来表示。
接下来就是embedding模型登场的地方。它可以把这些来源各异、维度极高的自然语言、图片等,统一映射成某个固定维度的向量集。你可以把它理解为一种从高维空间到低维空间的投影。由于维度被压缩,细节必然会丢失,同时语义会被聚合,最终得到的是一段维度固定、主要保留原始数据核心含义的向量表示。
释义:
假设"今天天气真不错!"实际等价是114514…(非常高)维度的,那么embedding模型可以将这个句子转换为1024维度/512维度/等自定义一个固定维度;这样做的代价就是会损失很多句子的含义,但是会保留核心含义;(具体损失了什么无法计算,无法解释);但同时保留了核心表达,真正变成可计算的向量。
这时候是否理解了第一句话中:任意合法输入的信息 转换成 固定维度向量的含义了?
embedding在工程实践中能做什么?
当所有内容都被转成向量之后,很多原本难以直接处理的任务就变得简单了。在这个向量空间里,语义接近的内容会彼此靠近,语义差异大的内容会相隔更远。于是,只要在向量空间里找相邻点,就能找到含义相似的内容。比如一个自然语言句子:“一只柯基”,就可以在它附近找到描述柯基的图片、相似的句子,或者相关的文本片段。搜索、推荐、聚类、本质上都可以转化为向量之间的距离问题。
从这个角度看,embedding提供的是一种统一的语义坐标系,把原本杂乱无章的各种信息,压缩进同一个可计算的空间里,让相似性变成一件可以直接度量的事情。
举一些例子吧:
以文/图搜图/文功能
以图搜番功能(如trace.moe)
文章相似度检索
音乐/视频推荐算法(部分)
图文内容审核(部分)
都可以用到embedding模型哦~
标题: 嗯?啥情况这是?
作者: #ccxkai
板块: #搞七捻三
编号:
帖子: https://linux.do/t/topic/1574220
时间: 2026-02-06 19:33:45
摘要:
作者: #ccxkai
板块: #搞七捻三
编号:
1574220帖子: https://linux.do/t/topic/1574220
时间: 2026-02-06 19:33:45
摘要:
标题: 做了一个Notebooklm的PDF一键去水印的工具
作者: #拉屎大王
板块: #搞七捻三
编号:
帖子: https://linux.do/t/topic/1574226
时间: 2026-02-06 19:35:46
摘要:
作者: #拉屎大王
板块: #搞七捻三
编号:
1574226帖子: https://linux.do/t/topic/1574226
时间: 2026-02-06 19:35:46
摘要:
弄了一个web端,上传pdf然后提取图片去除水印然后提供图片打包的压缩包下载,这种工具可以发出来么?
标题: 关于Codex连接MCP服务器始终失败
作者: #無名 山河
板块: #开发调优
编号:
帖子: https://linux.do/t/topic/1574229
时间: 2026-02-06 19:36:33
摘要:
作者: #無名 山河
板块: #开发调优
编号:
1574229帖子: https://linux.do/t/topic/1574229
时间: 2026-02-06 19:36:33
摘要:
我如图配置的mcp,codex会提示
而Github Copilot、Claude Code、Kiro等工具相同配置都是没问题的,但是Codex特立独行,求助一下佬们
标题: FileTypesMan 在Win 10 下不靠谱,有其他软件推荐吗
作者: #novky
板块: #搞七捻三
编号:
帖子: https://linux.do/t/topic/1574234
时间: 2026-02-06 19:38:48
摘要:
作者: #novky
板块: #搞七捻三
编号:
1574234帖子: https://linux.do/t/topic/1574234
时间: 2026-02-06 19:38:48
摘要:
想要自定义一些后缀类型的图标,发现 FileTypesMan 在某些后缀类型的管理下无法单独修改(win的系统会将多个捆绑到了一块),改一个另一个也会变,跟 AI 讨论半天没有好结果
标题: 薪资不满意,如何跟he交谈?
作者: #Gaius
板块: #搞七捻三
编号:
帖子: https://linux.do/t/topic/1574237
时间: 2026-02-06 19:39:27
摘要:
作者: #Gaius
板块: #搞七捻三
编号:
1574237帖子: https://linux.do/t/topic/1574237
时间: 2026-02-06 19:39:27
摘要:
如题,本人第一份offer,就是薪资有点不满意,该如何去谈?
标题: 大家用过暗云服务器吗?
作者: #Lizer
板块: #开发调优
编号:
帖子: https://linux.do/t/topic/1574242
时间: 2026-02-06 19:41:40
摘要:
作者: #Lizer
板块: #开发调优
编号:
1574242帖子: https://linux.do/t/topic/1574242
时间: 2026-02-06 19:41:40
摘要:
有大佬用过暗云吗?稳定不?
标题: 小黄鱼上的cursor pro 无限版有哪位佬用过,是否确实可以用claude opus 4.5
作者: #liusu_jd
板块: #搞七捻三
编号:
帖子: https://linux.do/t/topic/1574243
时间: 2026-02-06 19:41:44
摘要:
作者: #liusu_jd
板块: #搞七捻三
编号:
1574243帖子: https://linux.do/t/topic/1574243
时间: 2026-02-06 19:41:44
摘要:
最近一直想试试claude opus 4.5,看到抖音上一直有人发无限使用,是否是真的,请佬们给个建议
标题: 各位佬 分享下 Codex 5.3 VS GPT 5.2
作者: #iggyrock
板块: #开发调优
编号:
帖子: https://linux.do/t/topic/1574247
时间: 2026-02-06 19:43:33
摘要:
作者: #iggyrock
板块: #开发调优
编号:
1574247帖子: https://linux.do/t/topic/1574247
时间: 2026-02-06 19:43:33
摘要:
因为 gpt 5.2 high 是我现在主力。
我感觉逻辑,严谨和思考全面性 方面 Codex 5.2 xhigh 也是比不过 gpt 5.2 high的。
我感觉之前的Codex模型的调试是 OpenAI 向 Claude靠近的结果,即不思考完全就开始行动。(当然Codex还是比Claude稳重点)
不知道Codex 5.3 如何?
佬们聊聊,帮大家节省点测试时间。
标题: 千问白嫖奶茶
作者: #xiaoyixixi
板块: #福利羊毛
编号:
帖子: https://linux.do/t/topic/1574255
时间: 2026-02-06 19:47:12
摘要:
作者: #xiaoyixixi
板块: #福利羊毛
编号:
1574255帖子: https://linux.do/t/topic/1574255
时间: 2026-02-06 19:47:12
摘要:
今天千问送的免单卡大家都领了没呀,有没领的话可以扫码下载领一下25元的免单卡,新用户可以白嫖杯奶茶喝
标题: 谷歌确认Gemini Pro选项消失是技术故障
作者: #xzhzhaowendao
板块: #前沿快讯
编号:
帖子: https://linux.do/t/topic/1574265
时间: 2026-02-06 19:48:27
摘要:
作者: #xzhzhaowendao
板块: #前沿快讯
编号:
1574265帖子: https://linux.do/t/topic/1574265
时间: 2026-02-06 19:48:27
摘要:
support.google.com
Gemini 3 Pro not selectable - Gemini Apps Community
标题: 公众号送了6000个红包封面兑换码,有没有佬友会进行设计红包封面的
作者: #etocs
板块: #搞七捻三
编号:
帖子: https://linux.do/t/topic/1574266
时间: 2026-02-06 19:48:31
摘要:
作者: #etocs
板块: #搞七捻三
编号:
1574266帖子: https://linux.do/t/topic/1574266
时间: 2026-02-06 19:48:31
摘要:
,送了真多,奈何自己不会设计,有没有会设计的佬友设计几个红包封面。
标题: 求教个gpt绑卡问题
作者: #orange2
板块: #开发调优
编号:
帖子: https://linux.do/t/topic/1574278
时间: 2026-02-06 19:54:43
摘要:
作者: #orange2
板块: #开发调优
编号:
1574278帖子: https://linux.do/t/topic/1574278
时间: 2026-02-06 19:54:43
摘要:
有没有佬有个脚本,直接输入邮箱,银行卡,这些呐,一个填写一下,太麻烦了,gpt新版的 ui。
标题: 【Chrome 插件】导出 ChatGPT、Claude、Gemini、Deepseek 聊天记录导出为 Word、PDF、TXT
作者: #木瓜蛋白酶Tea🎋
板块: #资源荟萃
编号:
帖子: https://linux.do/t/topic/1574281
时间: 2026-02-06 19:55:34
摘要:
作者: #木瓜蛋白酶Tea🎋
板块: #资源荟萃
编号:
1574281帖子: https://linux.do/t/topic/1574281
时间: 2026-02-06 19:55:34
摘要:
临时需要,搜到的小玩意,分享出来
启用插件后,进入需要下载的聊天记录(刷新),右下角会出现下面这个图标,点击选择文件格式后下载
地址:https://chromewebstore.google.com/detail/ai-chat-exporter-save-cha/dgkahgofldcancbehocmoiadgijedili?hl=zh-CN
标题: 美国能源部:诱惑各州地方承建核废料永久处理点
作者: #stevessr
板块: #前沿快讯
编号:
帖子: https://linux.do/t/topic/1574282
时间: 2026-02-06 19:56:51
摘要:
作者: #stevessr
板块: #前沿快讯
编号:
1574282帖子: https://linux.do/t/topic/1574282
时间: 2026-02-06 19:56:51
摘要:
https://www.reuters.com/sustainability/land-use-biodiversity/wanted-volunteers-host-nuclear-waste-forever-2026-02-06/
[!quote]+
伦敦/华盛顿,2月6日(路透社)——特朗普政府计划建造一系列小型未来核反应堆,为人工智能时代提供动力,但其处理剧毒核废料的策略却沿用了古老的方法:将其埋在一个非常深的坑底。
根据美国能源部上周发布的一项提案 ,各州被要求自愿承建一个永久性的乏燃料地质处置库,作为包括新建核反应堆、废物后处理、铀浓缩和数据中心在内的一系列设施的一部分。
此次信息征询(RFI)标志着政策的重大转变。据美国能源部核能办公室发言人称,旨在提升核能的计划如今与寻找核废料永久处置场所的要求相结合,并将决策权交到了地方社区手中——这些决策涉及数百亿美元的投资和数千个就业岗位。
“将所有这些因素结合起来,就好比在不太受欢迎的核废料处理设施旁边放置了诱人的胡萝卜,”美国核管理委员会(NRC)和能源部前官员莱克·巴雷特说道。他还表示,包括犹他州和田纳西州在内的一些州已经表达了对核能投资的兴趣。
美国能源部于 1983 年开始寻找永久性废物处理设施,并于 1987 年选定了内华达州的尤卡山。但由于内华达州议员担心安全问题以及对赌场和酒店的影响,前总统巴拉克·奥巴马于 2010 年停止了拨款——而此时已经花费了近 150 亿美元。