linux.do

【知识分享】Embedding模型是什么？能做什么？

新人第一次发帖，请多多包涵喵：)

embedding是什么？

embedding模型的本质，是把任意合法输入的信息 转换成 固定维度向量的一种工具。

如果你已经理解了万物皆向量这个观念，这一段会很好理解；就算没有听过，也不影响继续往下看。

我们所处的世界充满了各种形式的信息和数据，它们都可以用非常高维的方式来描述。以一段文字为例：“今天天气真不错！”，你可以从情感、语义、语法、风格、甚至语言等很多角度去刻画它，这些角度本身就构成了不同的判断维度。如果你把每个维度对应一个数值，一整组数值合在一起，就形成了一个高维向量。
假设我们做到了，找到一组高维向量[0.9111,0.6122,0.0012,...]完美的等价了"今天天气真不错！"这句话，那么我们再任意时刻，都可以像base64转码一样，将其等价转换，含义不变；但不同于base64的是，该高维向量每一个维度的值都代表着某种含义，因此向量可以加减，进行某种运算，但base64不行；spoiler

那向量化能做什么呢？举不严谨的例子来说：

国王  = [ 0.9,  0.2,  0.1 ,....]
男人  = [ 0.8,  0.1,  0.0 ,....]
女人  = [ 0.2,  0.7,  0.1 ,....]
女王  = [ 0.3,  0.8,  0.2 ,....]
#因此我们想表示女王，则可以：
女王 = 国王 - 男人 + 女人
[ 0.3,  0.8,....] = [ 0.9,  0.2,....] - [ 0.8,  0.1,....]+[ 0.2,  0.7,....]

这下是否就理解了：
Q：费劲将自然语言向量化的意义是什么呢？

A：将自然语言转化为可以被计算和操作的形式，计算机便能理解和运算，这就是现代NLP智能化的起点。

只是呢，现实中我们无法完整列出这些维度（理论上限），只能知道它的结构非常复杂、维度非常高。

同样的逻辑也适用于图片、音频、视频等数据形式，它们都可以被理解为存在于某个高维空间中的点。于是可以得到一个结论：任何事物在理论上都可以用一组高维向量来表示。

接下来就是embedding模型登场的地方。它可以把这些来源各异、维度极高的自然语言、图片等，统一映射成某个固定维度的向量集。你可以把它理解为一种从高维空间到低维空间的投影。由于维度被压缩，细节必然会丢失，同时语义会被聚合，最终得到的是一段维度固定、主要保留原始数据核心含义的向量表示。

释义：
假设"今天天气真不错！"实际等价是114514…（非常高）维度的，那么embedding模型可以将这个句子转换为1024维度/512维度/等自定义一个固定维度；这样做的代价就是会损失很多句子的含义，但是会保留核心含义；（具体损失了什么无法计算，无法解释）；但同时保留了核心表达，真正变成可计算的向量。
这时候是否理解了第一句话中：任意合法输入的信息 转换成 固定维度向量的含义了？

embedding在工程实践中能做什么？

当所有内容都被转成向量之后，很多原本难以直接处理的任务就变得简单了。在这个向量空间里，语义接近的内容会彼此靠近，语义差异大的内容会相隔更远。于是，只要在向量空间里找相邻点，就能找到含义相似的内容。比如一个自然语言句子：“一只柯基”，就可以在它附近找到描述柯基的图片、相似的句子，或者相关的文本片段。搜索、推荐、聚类、本质上都可以转化为向量之间的距离问题。

从这个角度看，embedding提供的是一种统一的语义坐标系，把原本杂乱无章的各种信息，压缩进同一个可计算的空间里，让相似性变成一件可以直接度量的事情。

举一些例子吧：

1. 以文/图搜图/文功能
2. 以图搜番功能（如trace.moe）
3. 文章相似度检索
4. 音乐/视频推荐算法（部分）
5. 图文内容审核（部分）

都可以用到embedding模型哦~

1 post - 1 participant

Read full topic

via LINUX DO - 最新话题 (author: 无月)

22 views11:40