linux.do
21K subscribers
116K photos
195 videos
115 files
248K links
linux.do最新话题和热议话题
Download Telegram
【知识分享】Embedding模型是什么?能做什么?

新人第一次发帖,请多多包涵喵:)

embedding是什么?

embedding模型的本质,是把任意合法输入的信息 转换成 固定维度向量的一种工具。

如果你已经理解了万物皆向量这个观念,这一段会很好理解;就算没有听过,也不影响继续往下看。

我们所处的世界充满了各种形式的信息和数据,它们都可以用非常高维的方式来描述。以一段文字为例:“今天天气真不错!”,你可以从情感、语义、语法、风格、甚至语言等很多角度去刻画它,这些角度本身就构成了不同的判断维度。如果你把每个维度对应一个数值,一整组数值合在一起,就形成了一个高维向量。
假设我们做到了,找到一组高维向量[0.9111,0.6122,0.0012,...]完美的等价了"今天天气真不错!"这句话,那么我们再任意时刻,都可以像base64转码一样,将其等价转换,含义不变;但不同于base64的是,该高维向量每一个维度的值都代表着某种含义,因此向量可以加减,进行某种运算,但base64不行;spoiler

那向量化能做什么呢?举不严谨的例子来说:
国王  = [ 0.9,  0.2,  0.1 ,....]
男人 = [ 0.8, 0.1, 0.0 ,....]
女人 = [ 0.2, 0.7, 0.1 ,....]
女王 = [ 0.3, 0.8, 0.2 ,....]
#因此我们想表示女王,则可以:
女王 = 国王 - 男人 + 女人
[ 0.3, 0.8,....] = [ 0.9, 0.2,....] - [ 0.8, 0.1,....]+[ 0.2, 0.7,....]

这下是否就理解了:
Q:费劲将自然语言向量化的意义是什么呢?

A:将自然语言转化为可以被计算和操作的形式,计算机便能理解和运算,这就是现代NLP智能化的起点。

只是呢,现实中我们无法完整列出这些维度(理论上限),只能知道它的结构非常复杂、维度非常高。

同样的逻辑也适用于图片、音频、视频等数据形式,它们都可以被理解为存在于某个高维空间中的点。于是可以得到一个结论:任何事物在理论上都可以用一组高维向量来表示。

接下来就是embedding模型登场的地方。它可以把这些来源各异、维度极高的自然语言、图片等,统一映射成某个固定维度的向量集。你可以把它理解为一种从高维空间到低维空间的投影。由于维度被压缩,细节必然会丢失,同时语义会被聚合,最终得到的是一段维度固定、主要保留原始数据核心含义的向量表示。

释义:
假设"今天天气真不错!"实际等价是114514…(非常高)维度的,那么embedding模型可以将这个句子转换为1024维度/512维度/等自定义一个固定维度;这样做的代价就是会损失很多句子的含义,但是会保留核心含义;(具体损失了什么无法计算,无法解释);但同时保留了核心表达,真正变成可计算的向量。
这时候是否理解了第一句话中:任意合法输入的信息 转换成 固定维度向量的含义了?

embedding在工程实践中能做什么?

当所有内容都被转成向量之后,很多原本难以直接处理的任务就变得简单了。在这个向量空间里,语义接近的内容会彼此靠近,语义差异大的内容会相隔更远。于是,只要在向量空间里找相邻点,就能找到含义相似的内容。比如一个自然语言句子:“一只柯基”,就可以在它附近找到描述柯基的图片、相似的句子,或者相关的文本片段。搜索、推荐、聚类、本质上都可以转化为向量之间的距离问题。

从这个角度看,embedding提供的是一种统一的语义坐标系,把原本杂乱无章的各种信息,压缩进同一个可计算的空间里,让相似性变成一件可以直接度量的事情。

举一些例子吧:

1. 以文/图搜图/文功能
2. 以图搜番功能(如trace.moe)
3. 文章相似度检索
4. 音乐/视频推荐算法(部分)
5. 图文内容审核(部分)

都可以用到embedding模型哦~

1 post - 1 participant

Read full topic

via LINUX DO - 最新话题 (author: 无月)
嗯?啥情况这是?

6 posts - 2 participants

Read full topic

via LINUX DO - 最新话题 (author: ccxkai)

Invalid media: image
做了一个Notebooklm的PDF一键去水印的工具

弄了一个web端,上传pdf然后提取图片去除水印然后提供图片打包的压缩包下载,这种工具可以发出来么?

9 posts - 4 participants

Read full topic

via LINUX DO - 最新话题 (author: 拉屎大王)
关于Codex连接MCP服务器始终失败

我如图配置的mcp,codex会提示

而Github Copilot、Claude Code、Kiro等工具相同配置都是没问题的,但是Codex特立独行,求助一下佬们
5 posts - 4 participants

Read full topic

via LINUX DO - 最新话题 (author: 無名 山河)

Invalid media:
image
image
FileTypesMan 在Win 10 下不靠谱,有其他软件推荐吗

想要自定义一些后缀类型的图标,发现 FileTypesMan 在某些后缀类型的管理下无法单独修改(win的系统会将多个捆绑到了一块),改一个另一个也会变,跟 AI 讨论半天没有好结果 🤣

1 post - 1 participant

Read full topic

via LINUX DO - 最新话题 (author: novky)
薪资不满意,如何跟hr交谈?

如题,本人第一份offer,就是薪资有点不满意,该如何去谈?

2 posts - 2 participants

Read full topic

via LINUX DO - 最新话题 (author: Gaius)
西部数据:我们相信 HDD 尚未过时,100TB 以上硬盘产品路线图 现已公布

Western Digital

Western Digital Reports Fiscal Second Quarter 2026 Financial Results | WD

Western Digital Corporation (Nasdaq: WDC) today reported fiscal second quarter 2026 financial results for the period ended January 2, 2026.

[!quote]+
在 2026 年创新日活动上,西部数据(现已更名为 WD)发布了以客户为中心的存储路线图,旨在为人工智能时代的基础设施重新定义硬盘,涵盖 100TB 以上的硬盘、新的性能和功耗优化架构,以及旨在提高存储经济性和价值实现时间的智能平台。
西部数据确认其 40TB UltraSMR ePMR 硬盘目前正在进行客户认证,计划于 2026 年下半年开始量产。基于 HAMR 技术的硬盘也在进行认证,预计将于 2027 年开始量产。

WD 将利用 HAMR 的创新技术,在不增加功耗的情况下,把 ePMR 的容量扩展到 60TB,而 HAMR 预计到 2029 年将扩展到 100TB。WD 表示,由于这两种技术共享通用架构,客户可以受益于更平稳的过渡、更高的生产效率和可预测的容量规划,而无需强制更改平台。

高带宽硬盘技术 允许多个磁头同时进行读写操作,其带宽可达现有硬盘的两倍,并为未来实现更大幅度的性能提升提供了长期发展路径。客户已经开始验证这项技术。

双轴旋转技术 在标准的 3.5 英寸硬盘内部增加了一个独立运行的执行器。与之前的双执行器设计不同,这种方案在保持容量不变且无需软件更改的情况下,顺序 I/O 性能提升高达两倍。应用程序只需管理一个存储设备,从而显著提高了整体兼容性。缩小磁盘间距也使得每个硬盘可以容纳更多盘片。采用双轴旋转技术的硬盘预计将于 2028 年上市。

WD 表示,这些经过功率优化的硬盘驱动器将减少约 20% 的功耗,使客户能够降低运营成本、构建成本更低的存储层级并提高可持续性,同时保持对冷 AI 数据的亚秒级访问,这些数据对于磁带来说过于活跃,但对于传统容量驱动器来说又过于昂贵。

WD 指出,目前其约 90%的收入来自人工智能和云客户。该公司表示,运营效率的提升使其毛利润同比增长超过一倍,助力其跻身纳斯达克 100 指数,并有望在 2025 年成为标普 500 指数表现最佳的公司之一。WD 还公布了一项新的财务模型,概述了未来三到五年的预期。
Western Digital

Western Digital Reports Fiscal Second Quarter 2026 Financial Results | WD

Western Digital Corporation (Nasdaq: WDC) today reported fiscal second quarter 2026 financial results for the period ended January 2, 2026.
FinancialContent

FinancialContent - The AI Storage Pivot: Seagate Shares Rocket 19% as Hard...

The AI Storage Pivot: Seagate Shares Rocket 19% as Hard Drive Demand Hits Unprecedented Peaks

4 posts - 3 participants

Read full topic

via LINUX DO - 最新话题 (author: stevessr)

Invalid media:
image
image
image
image
image
大家用过暗云服务器吗?

有大佬用过暗云吗?稳定不?

4 posts - 4 participants

Read full topic

via LINUX DO - 最新话题 (author: Lizer)
小黄鱼上的cursor pro 无限版有哪位佬用过,是否确实可以用claude opus 4.5

最近一直想试试claude opus 4.5,看到抖音上一直有人发无限使用,是否是真的,请佬们给个建议

6 posts - 4 participants

Read full topic

via LINUX DO - 最新话题 (author: liusu_jd)
各位佬 分享下 Codex 5.3 VS GPT 5.2

因为 gpt 5.2 high 是我现在主力。
我感觉逻辑,严谨和思考全面性 方面 Codex 5.2 xhigh 也是比不过 gpt 5.2 high的。

我感觉之前的Codex模型的调试是 OpenAI 向 Claude靠近的结果,即不思考完全就开始行动。(当然Codex还是比Claude稳重点)

不知道Codex 5.3 如何?
佬们聊聊,帮大家节省点测试时间。

4 posts - 2 participants

Read full topic

via LINUX DO - 最新话题 (author: iggyrock)
千问白嫖奶茶

今天千问送的免单卡大家都领了没呀,有没领的话可以扫码下载领一下25元的免单卡,新用户可以白嫖杯奶茶喝

5 posts - 4 participants

Read full topic

via LINUX DO - 最新话题 (author: xiaoyixixi)

Invalid media:
image
image
image
谷歌确认Gemini Pro选项消失是技术故障

support.google.com

Gemini 3 Pro not selectable - Gemini Apps Community

8 posts - 8 participants

Read full topic

via LINUX DO - 最新话题 (author: xzhzhaowendao)

Invalid media: image
公众号送了6000个红包封面兑换码,有没有佬友会进行设计红包封面的

:tieba_025: ,送了真多,奈何自己不会设计,有没有会设计的佬友设计几个红包封面。

4 posts - 3 participants

Read full topic

via LINUX DO - 最新话题 (author: etocs)

Invalid media: image
求教个gpt绑卡问题

有没有佬有个脚本,直接输入邮箱,银行卡,这些呐,一个填写一下,太麻烦了,gpt新版的 😂ui。

1 post - 1 participant

Read full topic

via LINUX DO - 最新话题 (author: orange2)

Invalid media: image
【Chrome 插件】导出 ChatGPT、Claude、Gemini、Deepseek 聊天记录为 Word、PDF、TXT

临时需要,搜到的小玩意,分享出来

启用插件后,进入需要下载的聊天记录(刷新),右下角会出现下面这个图标,点击选择文件格式后下载

地址:https://chromewebstore.google.com/detail/ai-chat-exporter-save-cha/dgkahgofldcancbehocmoiadgijedili?hl=zh-CN
1 post - 1 participant

Read full topic

via LINUX DO - 最新话题 (author: 木瓜蛋白酶Tea🎋)

Invalid media:
image
image
美国能源部:诱惑各州地方承建核废料永久处理点

https://www.reuters.com/sustainability/land-use-biodiversity/wanted-volunteers-host-nuclear-waste-forever-2026-02-06/

[!quote]+
伦敦/华盛顿,2月6日(路透社)——特朗普政府计划建造一系列小型未来核反应堆,为人工智能时代提供动力,但其处理剧毒核废料的策略却沿用了古老的方法:将其埋在一个非常深的坑底。
根据美国能源部上周发布的一项提案 ,各州被要求自愿承建一个永久性的乏燃料地质处置库,作为包括新建核反应堆、废物后处理、铀浓缩和数据中心在内的一系列设施的一部分。

此次信息征询(RFI)标志着政策的重大转变。据美国能源部核能办公室发言人称,旨在提升核能的计划如今与寻找核废料永久处置场所的要求相结合,并将决策权交到了地方社区手中——这些决策涉及数百亿美元的投资和数千个就业岗位。
“将所有这些因素结合起来,就好比在不太受欢迎的核废料处理设施旁边放置了诱人的胡萝卜,”美国核管理委员会(NRC)和能源部前官员莱克·巴雷特说道。他还表示,包括犹他州和田纳西州在内的一些州已经表达了对核能投资的兴趣。

美国能源部于 1983 年开始寻找永久性废物处理设施,并于 1987 年选定了内华达州的尤卡山。但由于内华达州议员担心安全问题以及对赌场和酒店的影响,前总统巴拉克·奥巴马于 2010 年停止了拨款——而此时已经花费了近 150 亿美元。
https://www.technology.org/2026/02/06/america-searches-for-volunteers-to-babysit-nuclear-waste-until-the-sun-burns-out/

1 post - 1 participant

Read full topic

via LINUX DO - 最新话题 (author: stevessr)

Invalid media: image
有没有需要沃达丰 eSIM的

为什么发帖好容易违规啊,像卖这种东西怎么样才能不违规

1 post - 1 participant

Read full topic

via LINUX DO - 最新话题 (author: 8888)
虚心请教使用AI开发,关于前端设计的问题

小白,会用AI搓,使用的过程当中,经常会遇到这种问题,用AI搓出来的界面和功能不能完全符合需求,对于前端调整这块,不知道你们是怎么弄的,比如我要修改某个按钮不要,哪里放一张图片,或者哪里的文字改一下,如果用AI对话告诉AI去改,甚至都讲不明白位置在哪里,没有专业知识,都不知道怎么描述准确,哈哈,就想类似于有没有那种所见即所得的方式,比如用鼠标选中删除,等等的可视化操作。。

因为我一般是单页面用的多,使用manus、bolt.new,这种,生成出来的源码下载下来都是完整的框架,一大堆,对于单页来说,就只要个html和css这种就可满足需求了。

2 posts - 2 participants

Read full topic

via LINUX DO - 最新话题 (author: xiaomonk)
求助。这道CTF题我该怎么做

我人傻了完全不会
1 post - 1 participant

Read full topic

via LINUX DO - 最新话题 (author: Chihaya_Anon)

Invalid media:
image
image
Chatgpt Bisness求助

问一下嫖的一个月的Chatgpt Bisness邀请人加入Team要额外付钱吗

我看他这写的每个月34欧呢,如果扣的话,我把卡取消掉行吗
5 posts - 3 participants

Read full topic

via LINUX DO - 最新话题 (author: 沐灵葵)

Invalid media: image