#程序员
使用检索增强(Retrieval-Augmented Generation,RAG)可以缓解大模型的幻觉问题,从而避免大模型胡说八道,但传统的 RAG 存在一个很大的弊端——无论内容跟输入是否有足够的关联、对事实是否有足够的支撑,搜索模块都会不加区分地将内容召回,然后交给大模型来进行推理,这会很大程度降低大模型的多功能性,并导致生成质量不佳。
Self-RAG,https://selfrag.github.io,在一定程度上解决了这个问题。它设计了一个算法,将内容召回过程与大模型的推理过程进行了深度结合,大致思路如下:
1)设计了一些标签,包括「是否检索」(Retrieve)、「内容是否相关」(ISREL)、「内容是否支撑事实」(ISSUP)、「内容是否可用」(ISUSE)等,可以理解它们是对检索内容进行评分的工具
2)循环「推理->检索->过滤->评分」这个流程,在推理过程中,结合已有的信息和 LLM 的反馈,来判断要不要继续检索,过程中会获得足够多的包含了评分的内容
3)根据已获得的信息的权重进行重新整理,将与内容相关、能够支撑事实以及高可用的内容保留下来
4)可以进行全局设定,对于事实性要求高的推理任务,增加检索频次;对于创造性要求高的推理任务,减少检索频次
这个算法思路的表现非常良好,只不过在过程中需要跟大模型进行多次交互,与 ToT(Tree of Thought) 类似,比较消耗资源。
它有一个工程上的完整实现,可以戳这个项目:https://github.com/AkariAsai/self-rag
使用检索增强(Retrieval-Augmented Generation,RAG)可以缓解大模型的幻觉问题,从而避免大模型胡说八道,但传统的 RAG 存在一个很大的弊端——无论内容跟输入是否有足够的关联、对事实是否有足够的支撑,搜索模块都会不加区分地将内容召回,然后交给大模型来进行推理,这会很大程度降低大模型的多功能性,并导致生成质量不佳。
Self-RAG,https://selfrag.github.io,在一定程度上解决了这个问题。它设计了一个算法,将内容召回过程与大模型的推理过程进行了深度结合,大致思路如下:
1)设计了一些标签,包括「是否检索」(Retrieve)、「内容是否相关」(ISREL)、「内容是否支撑事实」(ISSUP)、「内容是否可用」(ISUSE)等,可以理解它们是对检索内容进行评分的工具
2)循环「推理->检索->过滤->评分」这个流程,在推理过程中,结合已有的信息和 LLM 的反馈,来判断要不要继续检索,过程中会获得足够多的包含了评分的内容
3)根据已获得的信息的权重进行重新整理,将与内容相关、能够支撑事实以及高可用的内容保留下来
4)可以进行全局设定,对于事实性要求高的推理任务,增加检索频次;对于创造性要求高的推理任务,减少检索频次
这个算法思路的表现非常良好,只不过在过程中需要跟大模型进行多次交互,与 ToT(Tree of Thought) 类似,比较消耗资源。
它有一个工程上的完整实现,可以戳这个项目:https://github.com/AkariAsai/self-rag
👍2
「99%的人都不知道的Google搜索功能使用的技巧」
1)搜索特定内容:使用“”号,它会完全按照您输入的内容搜索该短语。
2)使用冒号搜索特定站点内容,例如AI:twitter.com
3)查找其他类似的站点,例如 related:gptshunter.com
4)查找特定文件,例如LLMs:PDF,它就会只展示LLMs相关的所有pdf文件
5)查找社交媒体上的内容,例如AI@twitter
6)寻找特定颜色、尺寸、版权、时间或类型的图像,在图片页搜索完成后点击颜色调整按钮
7)Google快讯,如果你希望网络上发布关键词时收到通知,你可以创建订阅google的快讯
8)使用-排除单词或短语,Rocky -film 将显示与“rocky”相关的一般结果,但不显示电影film
9)在单词前面添加波形符 ~以查找同义词 如果您搜索 iPhone ~cheap,您还会得到“iPhone Cheap”等结果
1)搜索特定内容:使用“”号,它会完全按照您输入的内容搜索该短语。
2)使用冒号搜索特定站点内容,例如AI:twitter.com
3)查找其他类似的站点,例如 related:gptshunter.com
4)查找特定文件,例如LLMs:PDF,它就会只展示LLMs相关的所有pdf文件
5)查找社交媒体上的内容,例如AI@twitter
6)寻找特定颜色、尺寸、版权、时间或类型的图像,在图片页搜索完成后点击颜色调整按钮
7)Google快讯,如果你希望网络上发布关键词时收到通知,你可以创建订阅google的快讯
8)使用-排除单词或短语,Rocky -film 将显示与“rocky”相关的一般结果,但不显示电影film
9)在单词前面添加波形符 ~以查找同义词 如果您搜索 iPhone ~cheap,您还会得到“iPhone Cheap”等结果
👍3
AI中的1岁和18岁
公众号季更,立个flag,后面月更!
“AI创业进行了大半年后,除了大模型的进展,整个市场都在等着AI创业交答卷——交出爆款应用,但似乎不够多,原因是什么?
本质原因是基础模型处于1岁还是18岁。”
公众号季更,立个flag,后面月更!
“AI创业进行了大半年后,除了大模型的进展,整个市场都在等着AI创业交答卷——交出爆款应用,但似乎不够多,原因是什么?
本质原因是基础模型处于1岁还是18岁。”
#程序员
一张有趣的耗时对比图。另外再补充几个栽过跟头的数据知识。
同机房内调用的 RT 是 100µs,上次正好遇到了一个监控告警,redis 平均时延从 100µs+ 飙升到了 500µs+,原因是一个数据分区的有硬件故障,自动切换到了另外一个可用区,导致所有 proxy 节点与这个 data 节点变成了跨可用区调用,也就是变成了 1ms+,拉高平均耗时。
同城跨可用区(AZ)调用一般在 1.9ms 以内,距离是 20~80km,这是标准要求;在光纤光缆中,每公里会造成 4.9µs 的延迟,电缆中的每个弯曲或缺陷都会降低网络速度;跨城调用,例如杭州到上海,时延会在 3.8ms~10.8ms 不等,主要看两个可用区之间的分布距离;在做异地灾备的时候,10ms 的时延基本就挺难接受了,因此异地灾备一般都是冷备,如果要做异地多活,就得考虑数据单元化,做水平 sharding,或者考虑做应用层做,数据弱一致。
洲际时延是 100ms 以上,在不走专线的情况下,ping 一台海外机器,时延 100ms+ 都是很正常的,走专线会快很多,例如电信的 CN2(AS4809),联通的 CHINA169(AS4837)等,专线的价格会贵很多很多;可以使用 ping.pe 这个在线工具进行测试,它提供的 traceroute 包含了 AS 信息,可以确认自己走的是什么线路,也可以根据线路来判断服务商提供的主机网络是不是真的靠谱。
一张有趣的耗时对比图。另外再补充几个栽过跟头的数据知识。
同机房内调用的 RT 是 100µs,上次正好遇到了一个监控告警,redis 平均时延从 100µs+ 飙升到了 500µs+,原因是一个数据分区的有硬件故障,自动切换到了另外一个可用区,导致所有 proxy 节点与这个 data 节点变成了跨可用区调用,也就是变成了 1ms+,拉高平均耗时。
同城跨可用区(AZ)调用一般在 1.9ms 以内,距离是 20~80km,这是标准要求;在光纤光缆中,每公里会造成 4.9µs 的延迟,电缆中的每个弯曲或缺陷都会降低网络速度;跨城调用,例如杭州到上海,时延会在 3.8ms~10.8ms 不等,主要看两个可用区之间的分布距离;在做异地灾备的时候,10ms 的时延基本就挺难接受了,因此异地灾备一般都是冷备,如果要做异地多活,就得考虑数据单元化,做水平 sharding,或者考虑做应用层做,数据弱一致。
洲际时延是 100ms 以上,在不走专线的情况下,ping 一台海外机器,时延 100ms+ 都是很正常的,走专线会快很多,例如电信的 CN2(AS4809),联通的 CHINA169(AS4837)等,专线的价格会贵很多很多;可以使用 ping.pe 这个在线工具进行测试,它提供的 traceroute 包含了 AS 信息,可以确认自己走的是什么线路,也可以根据线路来判断服务商提供的主机网络是不是真的靠谱。
👍4
#职场社畜日常
人,要做适合自己的题
经历了宝洁-阿里-非洲创业的第三份工作,和中间的gap year,直到现在在肯尼亚农业,每一段经历都是做不同的题。
❤️宝洁的题,太简单了。毕竟大公司,体系非常健全,只需要适应规则就可以顺便出彩,对于善于沟通、外向魅力适合带团队、数学经济商业知识在线、有执行能力的我来说,太容易了,轻而易举就可以如鱼得水。
太简单的题,像20以内加减法,做多了只会变笨。所以要换题。
❤️阿里的题,难度正好。做电商运营,扛品类GMV和平台利润,以渠道视角参与国际品牌、草根民企、内容新品牌在电商的出生与发展,和各个品牌的客服坐在一起应对消费者如潮水一般的咨询或者客诉、盯着仓库垛口千万个包裹打包发货,用补贴券作为手段做“宏观调控“,都太有意思了,学到非常多。
但是吧,很多题我不想去答,包括“怎么在PUA的环境里好好活着”、“怎么做表面形式化的工作从而评好绩效”,那就不去玩阿里的游戏,这套题先拜拜。
❤️Gap year里太多议题,这套题又深又综合,只和“诚实面对自己“有关:关于自我的探寻,真实的感受,延伸到原生家庭、亲密关系、社会认可的一切,想做什么就立马去干的试错。无数的尝试和感受中间,内心价值观的反复打磨:很确定我想做让世界变得更好的事情,且需要有四两拨千斤的杠杆。
❤️现在在肯尼亚搞蔬菜,从没干过农业却每天激情满满,觉得“这套题是属于我的”。永远在做超出自身能力30%的事情,不会掌控现金流、被逼着也得慢慢学会;这个月进化了,下个月难度升级,譬如说11月肯尼亚雨季,农产品全国大缺货,卡车每天陷进洪水泥地三次,从头学习该怎么办。
这套题达成的背后,是更有意义的事情:我们在用商业的手段和杠杆,实践更放大对于社会的正面影响;也是有增长潜力的商业机会。
巧合的是,价值观和我反复锤炼后的内心一模一样,商业规模和实现生意目标的运营能力,也正是我的野心和长处。
上天赐予了一套,太适合我的题。
今晚10点开完日会(真的在卷肯尼亚人),现在12点了,还在看书研究美团的发展历程,得到很多启发。这几个月,和别的创业公司、国内做生鲜的、宝洁管门店的前销售、美团配送/闪送业务朋友、物流仓库经理各种请教,从经验教训里思考并且实践,哪些辙能行、哪些不行。
这就是遇到了天选的一套题,充满好奇心的人,在可以实战的领域,拼命拓展,拼命实践。
做题不是应试,是选择了你想登上的那座高山,迎面接受必须面对的挑战,在磨难中又痛又快乐地一刻不停地蜕变,最终收获的,那座高山显得并不那么重要,最重要的是完全不一样的自己:自洽,勇敢,实干,乐观,有大人一样的担当,有孩童一样的快乐与理想。
不做小镇做题家,但是每个人永远可以选择,你最想做的那套人生之题。
人,要做适合自己的题
经历了宝洁-阿里-非洲创业的第三份工作,和中间的gap year,直到现在在肯尼亚农业,每一段经历都是做不同的题。
❤️宝洁的题,太简单了。毕竟大公司,体系非常健全,只需要适应规则就可以顺便出彩,对于善于沟通、外向魅力适合带团队、数学经济商业知识在线、有执行能力的我来说,太容易了,轻而易举就可以如鱼得水。
太简单的题,像20以内加减法,做多了只会变笨。所以要换题。
❤️阿里的题,难度正好。做电商运营,扛品类GMV和平台利润,以渠道视角参与国际品牌、草根民企、内容新品牌在电商的出生与发展,和各个品牌的客服坐在一起应对消费者如潮水一般的咨询或者客诉、盯着仓库垛口千万个包裹打包发货,用补贴券作为手段做“宏观调控“,都太有意思了,学到非常多。
但是吧,很多题我不想去答,包括“怎么在PUA的环境里好好活着”、“怎么做表面形式化的工作从而评好绩效”,那就不去玩阿里的游戏,这套题先拜拜。
❤️Gap year里太多议题,这套题又深又综合,只和“诚实面对自己“有关:关于自我的探寻,真实的感受,延伸到原生家庭、亲密关系、社会认可的一切,想做什么就立马去干的试错。无数的尝试和感受中间,内心价值观的反复打磨:很确定我想做让世界变得更好的事情,且需要有四两拨千斤的杠杆。
❤️现在在肯尼亚搞蔬菜,从没干过农业却每天激情满满,觉得“这套题是属于我的”。永远在做超出自身能力30%的事情,不会掌控现金流、被逼着也得慢慢学会;这个月进化了,下个月难度升级,譬如说11月肯尼亚雨季,农产品全国大缺货,卡车每天陷进洪水泥地三次,从头学习该怎么办。
这套题达成的背后,是更有意义的事情:我们在用商业的手段和杠杆,实践更放大对于社会的正面影响;也是有增长潜力的商业机会。
巧合的是,价值观和我反复锤炼后的内心一模一样,商业规模和实现生意目标的运营能力,也正是我的野心和长处。
上天赐予了一套,太适合我的题。
今晚10点开完日会(真的在卷肯尼亚人),现在12点了,还在看书研究美团的发展历程,得到很多启发。这几个月,和别的创业公司、国内做生鲜的、宝洁管门店的前销售、美团配送/闪送业务朋友、物流仓库经理各种请教,从经验教训里思考并且实践,哪些辙能行、哪些不行。
这就是遇到了天选的一套题,充满好奇心的人,在可以实战的领域,拼命拓展,拼命实践。
做题不是应试,是选择了你想登上的那座高山,迎面接受必须面对的挑战,在磨难中又痛又快乐地一刻不停地蜕变,最终收获的,那座高山显得并不那么重要,最重要的是完全不一样的自己:自洽,勇敢,实干,乐观,有大人一样的担当,有孩童一样的快乐与理想。
不做小镇做题家,但是每个人永远可以选择,你最想做的那套人生之题。
👍4❤1