互联网从业者充电站

#职场社畜日常

Mark Zuckerberg✖️Sam Altman：最大的风险就是不冒任何的风险

大家都认为马克·扎克伯格是年少成名，但大家可能不知道的是他在做成facebook之前做过10个类似的软件。在facebook早期扎克伯格就认为社交产品会席卷世界，但是明确认为自己不是做成的那个；

这篇文章是Sam Altman对Mark Zuckerberg的访谈逐字稿，有很多细节和针对创业者的宝贵建议。以下是要点摘要：

1.对创业者而言最重要的是选择一件感兴趣的事情，并持之以恒地解决它，而不是一门心思只想着开公司。

2.创建一个成功产品的关键是建立一家专注于快速学习的团队。

3.当事情进展顺利时，你可以利用数据和从用户处收集的定性反馈得知，哪些问题需要解决。之后，你可以靠直觉找出可能的解决方案，然后通过提出假设并获得更多的数据和反馈进一步测试这些假设，这会让你更明晰未来的方向。

4.心甘情愿地做出重大举措，总比自傲地拒绝永不承认你本能做得更优秀要好。

5.招聘的重点是找到那些真正有才华的人，不要以为某人一定要有相关的工作经验，他才能做好这份工作。

6.未来的重点是人与人之间更好连通性、人工智能、计算终端的迁移。

7.在这个日新月异、变化万千的世界里，最大的风险就是不冒任何风险。

👍1

2.06K views07:48

互联网从业者充电站

义乌：宇宙尽头的事实和观察

今天的内容主题是关于义乌的见闻。4月底参加消费圈内人组织的活动，去义乌。义乌号称是宇宙的尽头，你能想到的东西义乌都有。大领导对义乌的评价是：莫名其妙、无中生有、点石成金。这次的行程主要是：义乌小商品城、网红带货街区、尾货街区，以及吃中东菜。

线下调研的感受是立体的，人、空间、路人、场景、车辆等等，形成了综合的感受，看资料写的7.5w家店铺，和实地走一走的感受完全不同。

@郑立涛 @旺仔珂珂糖感谢两位团长

👍2

920 views09:29

互联网从业者充电站

#程序员

我娃，现在上小学二年级，正是处于刚学了千以内加减算法的时候。在他们的想象力中，亿就是很大的数字了，同学之间经常互相问问题，想让对方出丑，如问两亿三千二百万零八十八加上一百二十九万等于多少。
截图中V友问的这个问题，就要分清楚是真实需求，还是别人想象不到别的更难的题目，所以只会把数字说大来难为你。
先说真实场景，10亿级别的手机号码，即使真的有几条脏数据，也不会有把这些重复手机号找出来这种需求。
如果谁跟你提这个需求，就可以理解为是在为难你。
相对于把这几条重复手机号码找出来并且清除掉带来的收益，需要花费的代价，以及可能带来的新问题，综合起来看，绝对是得不偿失。
如果是考察你的思维，那么倒是可以聊一聊，但聊完可以给出题人一个鄙视的眼神，鄙视对方没招了，只会把数字加大来难为人。
首先，10亿条数据，肯定不在一张表里，正常到了这个量级，都会分库分表，那么直接 sql group by 方案就排除了。
那就只能把数据导出来，注意，导出来也需要花大功夫，所以我说真实场景没必要，但现在只是考察思维，我们就当已经导出来了。
之后最简单粗暴的办法可以是用一台大内存的服务器把10亿个手机号码载入内存，然后排序，然后遍历，用窗口从头到尾扫描过去就可以了。
当然我知道，你们一定有更好的办法，请在评论区说明。

👍1

895 views10:06

互联网从业者充电站

微信传着传着，科大讯飞股价就跌了

😁4

2.27K views10:27

互联网从业者充电站

万能的用户精细化运营3大模型。说到用户精细化运营，主要从3个维度考虑：流量、用户和内容，分别对应漏斗模型、用户金字塔模型、内容运营生态轴模型，经常对精...
#运营

Telegraph

万能的用户精细化运营3大模型。说到用户精细化运营，主要从3个维度考虑：流量、用户和内容，分别对应漏斗模型、用户金字塔模…

万能的用户精细化运营3大模型。说到用户精细化运营，主要从3个维度考虑：流量、用户和内容，分别对应漏斗模型、用户金字塔模型、内容运营生态轴模型，经常对精细化运营犯难的小伙伴，赶紧收藏起这三张脑图吧！

947 views11:44

互联网从业者充电站

晚点独家丨阅文再换帅，新 CEO 侯晓楠曾是腾讯第一批校招生

番茄小说年收入竟然已经超过100亿了。

940 views11:49

互联网从业者充电站

#产品经理

从渗透率看待新机会，你总会发现商业充满了非零和：

理解过生态多样性的朋友（例如微信生态），认真分析当下 AI 的渗透方式，就如演化生物学家研究寒武纪那样：

生态位是如此「空白」，新物种大爆发指日可待。

980 views12:38

互联网从业者充电站

#程序员

一句话搞清楚微调 fine-tuning 和嵌入 embedding 的使用场景：
如果你想实现记忆功能，用 embedding ，如果想给模型增强或者增加能力用 fine-tuning 。
如上下文记忆、ChatPDF、ChatDoc、智能客服、虚拟女友、虚拟人等等，都需要用到记忆功能，那么就用 embedding 。
如写梗、写笑话、写诗、写对联、模仿写作风格，都属于增加新能力或者增强已有能力，就要用 fine-tuning 。

继续把回答群友提问搬过来，其实是老生常谈话题，但是可能会有人不知道，所以继续科普。

@DemoChen 问：好奇一个问题，用向量化的话，用户提问和向量数据库匹配后，找到最相关的 Top N ，提交给 chatGPT 这个是利用 messages 字段吗
我答：topN 这里的 N 不是指长文档，而是短文本。所以第一步，把长文档拆分成短文本。
举例可以按照自然段拆分，如果自然段太长，还可以继续拆分成更短的。一般每个短文本300字左右。
所有的一切都是围绕着官方文档的限制去做的，官方文档只提供这个接口，那就只能用这个接口。接口限制了 token 大小，才会用上向量方案。
所以最后找出来的就已经是短文本了，可以整个提交给gpt。

@效威Fernando 问：把embedding用来增强LLM的记忆其实是两步嘛
第一步 Embedding其实是把原始文本（称为文本A）转成了向量
第二步是：在文本向量中匹配出与问句向量最相似的top k个 -> 匹配出的文本（称为文本A`）作为上下文和问题一起添加到prompt中 -> 提交给LLM生成回答
那么A 跟 A` 是一模一样的吗？

我答：长文档，假设ID是 doc123 ，假设切分成10个文本，你给每个短文本设置一个ID，假设是 doc123_text01 ~ doc123_text10
调用 embedding 接口，为每一段短文本生成向量。
假设你把向量存储到文本文件里，可以这样存，用 jsonline 格式，一行一条数据
{"textID":"doc123_text01","vector":[这里是向量数组1]}
……
{"textID":"doc123_text10","vector":[这里是向量数组10]}

使用时，把 jsonline 文件整个载入到内存里。
把用户的提问也调用 embedding 接口转成向量，拿着提问的向量，去内存里遍历之前的所有短文本向量，计算每个短文本向量与提问向量的距离，排序，找出向量距离最近的3个向量的短文本ID。
再拿着短文本ID去数据库找出对应的文本。
再把文本和提问放到 mesages 里去。

这是简单实现，如果你的短文本数量在一两万条级别，那么全部载入内存就是最快的方式。

你也可以用 langchain ，搭配向量数据库，向量搜索引擎使用。

👍2

1.01K views12:38

About

Blog

Apps

Platform