义乌:宇宙尽头的事实和观察
今天的内容主题是关于义乌的见闻。4月底参加消费圈内人组织的活动,去义乌。义乌号称是宇宙的尽头,你能想到的东西义乌都有。大领导对义乌的评价是:莫名其妙、无中生有、点石成金。这次的行程主要是:义乌小商品城、网红带货街区、尾货街区,以及吃中东菜。
线下调研的感受是立体的,人、空间、路人、场景、车辆等等,形成了综合的感受,看资料写的7.5w家店铺,和实地走一走的感受完全不同。
@郑立涛 @旺仔珂珂糖 感谢两位团长
今天的内容主题是关于义乌的见闻。4月底参加消费圈内人组织的活动,去义乌。义乌号称是宇宙的尽头,你能想到的东西义乌都有。大领导对义乌的评价是:莫名其妙、无中生有、点石成金。这次的行程主要是:义乌小商品城、网红带货街区、尾货街区,以及吃中东菜。
线下调研的感受是立体的,人、空间、路人、场景、车辆等等,形成了综合的感受,看资料写的7.5w家店铺,和实地走一走的感受完全不同。
@郑立涛 @旺仔珂珂糖 感谢两位团长
👍2
#程序员
我娃,现在上小学二年级,正是处于刚学了千以内加减算法的时候。在他们的想象力中,亿就是很大的数字了,同学之间经常互相问问题,想让对方出丑,如问两亿三千二百万零八十八加上一百二十九万等于多少。
截图中V友问的这个问题,就要分清楚是真实需求,还是别人想象不到别的更难的题目,所以只会把数字说大来难为你。
先说真实场景,10亿级别的手机号码,即使真的有几条脏数据,也不会有把这些重复手机号找出来这种需求。
如果谁跟你提这个需求,就可以理解为是在为难你。
相对于把这几条重复手机号码找出来并且清除掉带来的收益,需要花费的代价,以及可能带来的新问题,综合起来看,绝对是得不偿失。
如果是考察你的思维,那么倒是可以聊一聊,但聊完可以给出题人一个鄙视的眼神,鄙视对方没招了,只会把数字加大来难为人。
首先,10亿条数据,肯定不在一张表里,正常到了这个量级,都会分库分表,那么直接 sql group by 方案就排除了。
那就只能把数据导出来,注意,导出来也需要花大功夫,所以我说真实场景没必要,但现在只是考察思维,我们就当已经导出来了。
之后最简单粗暴的办法可以是用一台大内存的服务器把10亿个手机号码载入内存,然后排序,然后遍历,用窗口从头到尾扫描过去就可以了。
当然我知道,你们一定有更好的办法,请在评论区说明。
我娃,现在上小学二年级,正是处于刚学了千以内加减算法的时候。在他们的想象力中,亿就是很大的数字了,同学之间经常互相问问题,想让对方出丑,如问两亿三千二百万零八十八加上一百二十九万等于多少。
截图中V友问的这个问题,就要分清楚是真实需求,还是别人想象不到别的更难的题目,所以只会把数字说大来难为你。
先说真实场景,10亿级别的手机号码,即使真的有几条脏数据,也不会有把这些重复手机号找出来这种需求。
如果谁跟你提这个需求,就可以理解为是在为难你。
相对于把这几条重复手机号码找出来并且清除掉带来的收益,需要花费的代价,以及可能带来的新问题,综合起来看,绝对是得不偿失。
如果是考察你的思维,那么倒是可以聊一聊,但聊完可以给出题人一个鄙视的眼神,鄙视对方没招了,只会把数字加大来难为人。
首先,10亿条数据,肯定不在一张表里,正常到了这个量级,都会分库分表,那么直接 sql group by 方案就排除了。
那就只能把数据导出来,注意,导出来也需要花大功夫,所以我说真实场景没必要,但现在只是考察思维,我们就当已经导出来了。
之后最简单粗暴的办法可以是用一台大内存的服务器把10亿个手机号码载入内存,然后排序,然后遍历,用窗口从头到尾扫描过去就可以了。
当然我知道,你们一定有更好的办法,请在评论区说明。
👍1
#程序员
一句话搞清楚微调 fine-tuning 和嵌入 embedding 的使用场景:
如果你想实现记忆功能,用 embedding ,如果想给模型增强或者增加能力用 fine-tuning 。
如上下文记忆、ChatPDF、ChatDoc、智能客服、虚拟女友、虚拟人等等,都需要用到记忆功能,那么就用 embedding 。
如写梗、写笑话、写诗、写对联、模仿写作风格,都属于增加新能力或者增强已有能力,就要用 fine-tuning 。
继续把回答群友提问搬过来,其实是老生常谈话题,但是可能会有人不知道,所以继续科普。
@DemoChen 问:好奇一个问题,用向量化的话,用户提问和向量数据库匹配后,找到最相关的 Top N ,提交给 chatGPT 这个是利用 messages 字段吗
我答:topN 这里的 N 不是指长文档,而是短文本。所以第一步,把长文档拆分成短文本。
举例可以按照自然段拆分,如果自然段太长,还可以继续拆分成更短的。一般每个短文本300字左右。
所有的一切都是围绕着官方文档的限制去做的,官方文档只提供这个接口,那就只能用这个接口。接口限制了 token 大小,才会用上向量方案。
所以最后找出来的就已经是短文本了,可以整个提交给gpt。
@效威Fernando 问:把embedding用来增强LLM的记忆其实是两步嘛
第一步 Embedding其实是把原始文本(称为文本A)转成了向量
第二步是: 在文本向量中匹配出与问句向量最相似的top k个 -> 匹配出的文本(称为文本A`)作为上下文和问题一起添加到prompt中 -> 提交给LLM生成回答
那么A 跟 A` 是一模一样的吗?
我答:长文档,假设ID是 doc123 ,假设切分成10个文本,你给每个短文本设置一个ID,假设是 doc123_text01 ~ doc123_text10
调用 embedding 接口,为每一段短文本生成向量 。
假设你把向量存储到文本文件里,可以这样存,用 jsonline 格式,一行一条数据
{"textID":"doc123_text01","vector":[这里是向量数组1]}
……
{"textID":"doc123_text10","vector":[这里是向量数组10]}
使用时,把 jsonline 文件整个载入到内存里。
把用户的提问也调用 embedding 接口转成向量,拿着提问的向量,去内存里遍历之前的所有短文本向量,计算每个短文本向量与提问向量的距离,排序,找出向量距离最近的3个向量的短文本ID。
再拿着短文本ID去数据库找出对应的文本。
再把文本和提问放到 mesages 里去。
这是简单实现,如果你的短文本数量在一两万条级别,那么全部载入内存就是最快的方式。
你也可以用 langchain ,搭配向量数据库,向量搜索引擎使用。
一句话搞清楚微调 fine-tuning 和嵌入 embedding 的使用场景:
如果你想实现记忆功能,用 embedding ,如果想给模型增强或者增加能力用 fine-tuning 。
如上下文记忆、ChatPDF、ChatDoc、智能客服、虚拟女友、虚拟人等等,都需要用到记忆功能,那么就用 embedding 。
如写梗、写笑话、写诗、写对联、模仿写作风格,都属于增加新能力或者增强已有能力,就要用 fine-tuning 。
继续把回答群友提问搬过来,其实是老生常谈话题,但是可能会有人不知道,所以继续科普。
@DemoChen 问:好奇一个问题,用向量化的话,用户提问和向量数据库匹配后,找到最相关的 Top N ,提交给 chatGPT 这个是利用 messages 字段吗
我答:topN 这里的 N 不是指长文档,而是短文本。所以第一步,把长文档拆分成短文本。
举例可以按照自然段拆分,如果自然段太长,还可以继续拆分成更短的。一般每个短文本300字左右。
所有的一切都是围绕着官方文档的限制去做的,官方文档只提供这个接口,那就只能用这个接口。接口限制了 token 大小,才会用上向量方案。
所以最后找出来的就已经是短文本了,可以整个提交给gpt。
@效威Fernando 问:把embedding用来增强LLM的记忆其实是两步嘛
第一步 Embedding其实是把原始文本(称为文本A)转成了向量
第二步是: 在文本向量中匹配出与问句向量最相似的top k个 -> 匹配出的文本(称为文本A`)作为上下文和问题一起添加到prompt中 -> 提交给LLM生成回答
那么A 跟 A` 是一模一样的吗?
我答:长文档,假设ID是 doc123 ,假设切分成10个文本,你给每个短文本设置一个ID,假设是 doc123_text01 ~ doc123_text10
调用 embedding 接口,为每一段短文本生成向量 。
假设你把向量存储到文本文件里,可以这样存,用 jsonline 格式,一行一条数据
{"textID":"doc123_text01","vector":[这里是向量数组1]}
……
{"textID":"doc123_text10","vector":[这里是向量数组10]}
使用时,把 jsonline 文件整个载入到内存里。
把用户的提问也调用 embedding 接口转成向量,拿着提问的向量,去内存里遍历之前的所有短文本向量,计算每个短文本向量与提问向量的距离,排序,找出向量距离最近的3个向量的短文本ID。
再拿着短文本ID去数据库找出对应的文本。
再把文本和提问放到 mesages 里去。
这是简单实现,如果你的短文本数量在一两万条级别,那么全部载入内存就是最快的方式。
你也可以用 langchain ,搭配向量数据库,向量搜索引擎使用。
👍2
#运营
做自媒体的捷径 1 . 0
1⃣️ 起号捷径:抛弃完美主义
很多人起号,一条视频搞上好几天,费时费力,又不火,还导致更新笔记都是断断续续的,用不了多久心态就崩了
专业运营起号都是集中几天时间写选题和脚本,然后一次性拍完剪完多个视频,写完多篇笔记存在草稿箱,所有时间加起来不到一周,但每天都有的更新
所以建议大家,起号前期要把更新频率提上去,尽量能先日更一周。不要追求“完美主义”,要“先完成,再完美”,多做些笔记,有数据反馈后,再慢慢根据数据来完善内容质量
2⃣️ 工具捷径:学会使用工具
为什么别的博主能做到日更?因为她们都会使用工具来提搞生产力!她们都非常熟练运用自媒体工具精进内容
这里列举一些我自己在用的小工具:
✅智能文案:ChatGPT
✅敏感词检测:零克查询
✅提取文案:轻抖
✅封面:稿定设计、黄油相机
3⃣️ 内容捷径:抓住用户的“痛点、痒点和爽点”
✅抓住痛点,就是帮助他人解决那些没被满足就会很难受和痛苦的需求。比如不吃饭会饿,饿是痛点
✅抓住痒点,就是在基础需求之上,制作他人没被满足会心里痒痒的内容,比如想吃更好的东西,享受更好的就餐环境
✅抓住爽点,就是制作让他人满足了会很爽,会感到眼前一亮的内容,比如意外地吃到了霸王餐
如果能抓好以上三点,那么完成爆款,指日可待。
4⃣️ 心态捷径
✅明确目标
你为什么要做自媒体?你想达到什么效果?
用笔写下来,越具体越好,你想明白了再开始做。因为我们做任何事情都会被情绪所影响,有些事情不是你想做好就能做得好的。
✅避免焦虑
不要过度纠结内容好坏和数据好坏。也不要每天刷很多运营技巧,即使我在分享技巧,我也鼓励你多实践,否则我分享再多技巧干货,你不去做,那也没用
✅拒绝玻璃心
如果数据下滑,不要否定自己。多复盘、升级优化内容就好。
另外,只要是做自媒体,就避免不了有负面声音。轻度的负面有利于我们完善内容,但过分恶意的负面,我们要适当屏蔽,学会无视这些恶意内容
无论分享了多少方法,鼓励你们行动都是第一要义,快动起来!
做自媒体的捷径 1 . 0
1⃣️ 起号捷径:抛弃完美主义
很多人起号,一条视频搞上好几天,费时费力,又不火,还导致更新笔记都是断断续续的,用不了多久心态就崩了
专业运营起号都是集中几天时间写选题和脚本,然后一次性拍完剪完多个视频,写完多篇笔记存在草稿箱,所有时间加起来不到一周,但每天都有的更新
所以建议大家,起号前期要把更新频率提上去,尽量能先日更一周。不要追求“完美主义”,要“先完成,再完美”,多做些笔记,有数据反馈后,再慢慢根据数据来完善内容质量
2⃣️ 工具捷径:学会使用工具
为什么别的博主能做到日更?因为她们都会使用工具来提搞生产力!她们都非常熟练运用自媒体工具精进内容
这里列举一些我自己在用的小工具:
✅智能文案:ChatGPT
✅敏感词检测:零克查询
✅提取文案:轻抖
✅封面:稿定设计、黄油相机
3⃣️ 内容捷径:抓住用户的“痛点、痒点和爽点”
✅抓住痛点,就是帮助他人解决那些没被满足就会很难受和痛苦的需求。比如不吃饭会饿,饿是痛点
✅抓住痒点,就是在基础需求之上,制作他人没被满足会心里痒痒的内容,比如想吃更好的东西,享受更好的就餐环境
✅抓住爽点,就是制作让他人满足了会很爽,会感到眼前一亮的内容,比如意外地吃到了霸王餐
如果能抓好以上三点,那么完成爆款,指日可待。
4⃣️ 心态捷径
✅明确目标
你为什么要做自媒体?你想达到什么效果?
用笔写下来,越具体越好,你想明白了再开始做。因为我们做任何事情都会被情绪所影响,有些事情不是你想做好就能做得好的。
✅避免焦虑
不要过度纠结内容好坏和数据好坏。也不要每天刷很多运营技巧,即使我在分享技巧,我也鼓励你多实践,否则我分享再多技巧干货,你不去做,那也没用
✅拒绝玻璃心
如果数据下滑,不要否定自己。多复盘、升级优化内容就好。
另外,只要是做自媒体,就避免不了有负面声音。轻度的负面有利于我们完善内容,但过分恶意的负面,我们要适当屏蔽,学会无视这些恶意内容
无论分享了多少方法,鼓励你们行动都是第一要义,快动起来!
👍1
今天抖音发布了关于人工智能生成内容行业倡议,主要要点如下:
1. 使用人工智能辅助创作本身是被允许的行为,但会对此进行显著标识。
2. 强调内容为王,利用人工智能辅助的创作内容与其他内容拥有同等的流量分配规则。
3. 发布者需对人工智能生成内容产生的相应后果负责,无论内容是如何生成的;
4. 虚拟人需在平台进行注册,虚拟人技术使用者需实名认证;
5. 禁止利用生成式人工智能技术创作、发布侵权内容,包括但不限于肖像权、知识产权等;并对已注册的虚拟人形象进行保护。
6. 禁止利用生成式人工智能技术创作、发布违背科学常识、弄虚作假、造谣传谣的内容。一经发现,平台将严格处罚。
7. 平台将提供用户反馈渠道,方便用户反馈违规生成内容。
1. 使用人工智能辅助创作本身是被允许的行为,但会对此进行显著标识。
2. 强调内容为王,利用人工智能辅助的创作内容与其他内容拥有同等的流量分配规则。
3. 发布者需对人工智能生成内容产生的相应后果负责,无论内容是如何生成的;
4. 虚拟人需在平台进行注册,虚拟人技术使用者需实名认证;
5. 禁止利用生成式人工智能技术创作、发布侵权内容,包括但不限于肖像权、知识产权等;并对已注册的虚拟人形象进行保护。
6. 禁止利用生成式人工智能技术创作、发布违背科学常识、弄虚作假、造谣传谣的内容。一经发现,平台将严格处罚。
7. 平台将提供用户反馈渠道,方便用户反馈违规生成内容。
😁2
产品经理如何专业化设计业务流程图?
#产品经理
输出产品方案,每一位产品经理都应该有清晰、专业、完整的流程意识,不能一上来就是原型或者需求文档。 作为一名产品经理,画业务流程图是一项必备技能。许多产品经理输出产品方案时,往往上来就先画原型图或写需求文档,这样往往会因为业务流程不清晰,导致...
https://axurehub.com/215.html
#产品经理
输出产品方案,每一位产品经理都应该有清晰、专业、完整的流程意识,不能一上来就是原型或者需求文档。 作为一名产品经理,画业务流程图是一项必备技能。许多产品经理输出产品方案时,往往上来就先画原型图或写需求文档,这样往往会因为业务流程不清晰,导致...
https://axurehub.com/215.html
👍1