互联网从业者充电站
25.7K subscribers
22.1K photos
961 videos
819 files
13.4K links
互联网从业者专属
内容多为技术、产品、设计、运营等不同话题内容;
目标人群为程序员、设计师、产品经理、运营管理等不同职能。
投稿/合作: @inside1024_bot


内容来源网络
Download Telegram
FgtaklhKLsRMy6TCoThoA0uwM3uYv3.png
1.3 MB
#职场社畜日常

Mark Zuckerberg✖️Sam Altman:最大的风险就是不冒任何的风险

大家都认为马克·扎克伯格是年少成名,但大家可能不知道的是他在做成facebook之前做过10个类似的软件。在facebook早期扎克伯格就认为社交产品会席卷世界,但是明确认为自己不是做成的那个;

这篇文章是Sam Altman对Mark Zuckerberg的访谈逐字稿,有很多细节和针对创业者的宝贵建议。以下是要点摘要:

1.对创业者而言最重要的是选择一件感兴趣的事情,并持之以恒地解决它,而不是一门心思只想着开公司。

2.创建一个成功产品的关键是建立一家专注于快速学习的团队。

3.当事情进展顺利时,你可以利用数据和从用户处收集的定性反馈得知,哪些问题需要解决。之后,你可以靠直觉找出可能的解决方案,然后通过提出假设并获得更多的数据和反馈进一步测试这些假设,这会让你更明晰未来的方向。

4.心甘情愿地做出重大举措,总比自傲地拒绝永不承认你本能做得更优秀要好。

5.招聘的重点是找到那些真正有才华的人,不要以为某人一定要有相关的工作经验,他才能做好这份工作。

6.未来的重点是人与人之间更好连通性、人工智能、计算终端的迁移。

7.在这个日新月异、变化万千的世界里,最大的风险就是不冒任何风险。
👍1
义乌:宇宙尽头的事实和观察

今天的内容主题是关于义乌的见闻。4月底参加消费圈内人组织的活动,去义乌。义乌号称是宇宙的尽头,你能想到的东西义乌都有。大领导对义乌的评价是:莫名其妙、无中生有、点石成金。这次的行程主要是:义乌小商品城、网红带货街区、尾货街区,以及吃中东菜。

线下调研的感受是立体的,人、空间、路人、场景、车辆等等,形成了综合的感受,看资料写的7.5w家店铺,和实地走一走的感受完全不同。

@郑立涛 @旺仔珂珂糖 感谢两位团长
👍2
#程序员

我娃,现在上小学二年级,正是处于刚学了千以内加减算法的时候。在他们的想象力中,亿就是很大的数字了,同学之间经常互相问问题,想让对方出丑,如问两亿三千二百万零八十八加上一百二十九万等于多少。
截图中V友问的这个问题,就要分清楚是真实需求,还是别人想象不到别的更难的题目,所以只会把数字说大来难为你。
先说真实场景,10亿级别的手机号码,即使真的有几条脏数据,也不会有把这些重复手机号找出来这种需求。
如果谁跟你提这个需求,就可以理解为是在为难你。
相对于把这几条重复手机号码找出来并且清除掉带来的收益,需要花费的代价,以及可能带来的新问题,综合起来看,绝对是得不偿失。
如果是考察你的思维,那么倒是可以聊一聊,但聊完可以给出题人一个鄙视的眼神,鄙视对方没招了,只会把数字加大来难为人。
首先,10亿条数据,肯定不在一张表里,正常到了这个量级,都会分库分表,那么直接 sql group by 方案就排除了。
那就只能把数据导出来,注意,导出来也需要花大功夫,所以我说真实场景没必要,但现在只是考察思维,我们就当已经导出来了。
之后最简单粗暴的办法可以是用一台大内存的服务器把10亿个手机号码载入内存,然后排序,然后遍历,用窗口从头到尾扫描过去就可以了。
当然我知道,你们一定有更好的办法,请在评论区说明。
👍1
微信传着传着,科大讯飞股价就跌了
😁4
#产品经理

从渗透率看待新机会,你总会发现商业充满了非零和:

理解过生态多样性的朋友(例如微信生态),认真分析当下 AI 的渗透方式,就如演化生物学家研究寒武纪那样:

生态位是如此「空白」,新物种大爆发指日可待。
#程序员

一句话搞清楚微调 fine-tuning 和嵌入 embedding 的使用场景:
如果你想实现记忆功能,用 embedding ,如果想给模型增强或者增加能力用 fine-tuning 。
如上下文记忆、ChatPDF、ChatDoc、智能客服、虚拟女友、虚拟人等等,都需要用到记忆功能,那么就用 embedding 。
如写梗、写笑话、写诗、写对联、模仿写作风格,都属于增加新能力或者增强已有能力,就要用 fine-tuning 。

继续把回答群友提问搬过来,其实是老生常谈话题,但是可能会有人不知道,所以继续科普。

@DemoChen 问:好奇一个问题,用向量化的话,用户提问和向量数据库匹配后,找到最相关的 Top N ,提交给 chatGPT 这个是利用 messages 字段吗
我答:topN 这里的 N 不是指长文档,而是短文本。所以第一步,把长文档拆分成短文本。
举例可以按照自然段拆分,如果自然段太长,还可以继续拆分成更短的。一般每个短文本300字左右。
所有的一切都是围绕着官方文档的限制去做的,官方文档只提供这个接口,那就只能用这个接口。接口限制了 token 大小,才会用上向量方案。
所以最后找出来的就已经是短文本了,可以整个提交给gpt。

@效威Fernando 问:把embedding用来增强LLM的记忆其实是两步嘛
第一步 Embedding其实是把原始文本(称为文本A)转成了向量
第二步是: 在文本向量中匹配出与问句向量最相似的top k个 -> 匹配出的文本(称为文本A`)作为上下文和问题一起添加到prompt中 -> 提交给LLM生成回答
那么A 跟 A` 是一模一样的吗?

我答:长文档,假设ID是 doc123 ,假设切分成10个文本,你给每个短文本设置一个ID,假设是 doc123_text01 ~ doc123_text10
调用 embedding 接口,为每一段短文本生成向量 。
假设你把向量存储到文本文件里,可以这样存,用 jsonline 格式,一行一条数据
{"textID":"doc123_text01","vector":[这里是向量数组1]}
……
{"textID":"doc123_text10","vector":[这里是向量数组10]}

使用时,把 jsonline 文件整个载入到内存里。
把用户的提问也调用 embedding 接口转成向量,拿着提问的向量,去内存里遍历之前的所有短文本向量,计算每个短文本向量与提问向量的距离,排序,找出向量距离最近的3个向量的短文本ID。
再拿着短文本ID去数据库找出对应的文本。
再把文本和提问放到 mesages 里去。

这是简单实现,如果你的短文本数量在一两万条级别,那么全部载入内存就是最快的方式。

你也可以用 langchain ,搭配向量数据库,向量搜索引擎使用。
👍2