互联网从业者充电站
25.9K subscribers
22.5K photos
1.07K videos
820 files
13.6K links
互联网从业者专属
内容多为技术、产品、设计、运营等不同话题内容;
目标人群为程序员、设计师、产品经理、运营管理等不同职能。
投稿/合作: @inside1024_bot


内容来源网络
Download Telegram
Instagram是怎样成为反网暴领头羊的?|新闻实验室32 - 新闻实验室

王婆卖瓜一下:要理解Threads这款由Instagram推出的产品为何被期待、它的优势在哪里,我之前做的这期播客可以提供有益的背景信息参考⬇️
在评估LLMs时,应该考虑哪些因素?

经过审查现有的大模型评估框架存在的问题之后,下一步是确定在评估大型语言模型(LLMs)的质量时应考虑哪些因素。

我们听取12名数据科学专业人员的意见,这12名专家对LLMs的工作原理和工作能力有一定的了解,并且他们曾经尝试过测试多个LLMs。该调查旨在根据他们的理解列出所有重要因素,并在此基础之上评估LLMs的质量。

最终,我们发现有几个关键因素应该被考虑:

1. 真实性
LLMs生成的结果准确性至关重要。包括事实的正确性以及推理和解决方案的准确性。

2. 速度
模型产生结果的速度很重要,特别是当大模型需要部署到关键功能(critical use cases)时。虽然在某些情况下速度较慢的大模型可能可以可接受,但这些rapid action团队需要速度更快的模型。

3. 正确的语法和可读性
LLMs必须以具备可读性的格式生成自然语言。确保正确、合适的语法和句子结构至关重要。

4. 没有偏见
LLMs必须不受与性别、种族和其他因素相关的社会偏见影响。

5. 回溯回答的参考来源
了解模型回答的来源对于我们来说是十分必要的,以便我们可以重复检查其 basis。如果没有这个,LLMs的性能将始终是一个黑匣子。

6. 安全和责任
AI模型的安全保障是必要的。尽管大多数公司正在努力使这些大模型安全,但仍然有显着的改进空间。

7. 理解上下文
当人类向AI聊天机器人咨询有关个人生活的建议时,重要的是该模型需要基于特定的条件提供更好的解决方案。在不同的上下文中提出同样的问题可能会有不同的答案。

8. 文本操作
LLMs需要能够执行基本的文本操作,如文本分类、翻译、摘要等。

9. 智商
智商是用来评判人类智力的一项指标,也可以应用于机器。

10. 情商
情商是人类智力的另一方面,也可应用于LLMs。具有更高情商的模型将更安全地被使用。

11. 具备多功能
模型可以涵盖的领域和语言数量是另一个重要因素,可以用于将模型分类为通用AI或特定领域的AI。

12. 实时更新
一个能够实时进行信息更新的模型可以做出更大范围的贡献,产生更好的结果。

13. 成本
开发和运维成本也应该考虑在内。

14. 一致性
相同或类似的提示应该产生相同或几乎相同的响应,否则确保部署于商业环境的质量将会很困难。

15. 提示工程的需要程度
需要使用多少详细和结构化的提示工程才能获得最佳响应,也可以用来比较两个模型。
This media is not supported in your browser
VIEW IN TELEGRAM
#工程师工具 在 Github 上面看到一个智能的通用数据库 SQL 客户端和报表工具「Chat2DB」,之前我们在内部也有一些类似的实践,用于解决非专业同学写 SQL 跑数据的问题,这个思路挺好的,有兴趣可以玩玩看。
🤖https://github.com/chat2db/Chat2DBhttps://twitter.com/i/web/status/1676953545499877376
#产品知识库

滴滴又开始耍“小聪明”了。

可能很多人也能发现,现在用滴滴经常会打到特别远的车,动不动就三四公里,要10分钟才能到的那种,然后滴滴还会很温馨的提示:这是距您最近的司机,可千万别取消。

呵,可真是睁眼说瞎话。

之前滴滴也被爆过给乘客派单的原则,明面上说“就近派单,减少乘客等待时间”,但实际上,滴滴从来都不会就近派单,而是采取折中主义,靠后台算法算出对滴滴来说的最优匹配。这个倒也无可厚非,但是滴滴的算法越来越来越过分,而且还一次又一次的欺骗用户。

之前有一次,滴滴给我派单了10分钟才能到的车,告诉我这是最近的司机,我着急走,就取消了重新打,结果下一个司机两分钟就能到。我一开始以为是巧合,可能这个司机刚送完上一单,但是我后面几次打车“故技重施”,每次打到10分钟的车就取消重新打,每次下一个司机都是两三分钟就能到。一次两次是巧合,每次都是那就是必然。

傻子都能看出来,这就是滴滴所谓的算法在作怪,我取消了10分钟才能到的订单,滴滴就认定我是“不能久等”的用户,如果再给我派时间长的司机,我一定会关掉滴滴,用别家软件打车了,那他下一单就给我一个距离近的车。

但如果你不取消呢?滴滴就认定你是“老实人”,是可以欺负的,让你等个10分钟也没事儿。最关键的是,滴滴还大言不惭的说“这是距您最近的司机”,这不是明摆着欺诈用户吗?

滴滴这点“小聪明”可真够鸡贼的呀。
👍3
#产品知识库

🧵Threads 比 🤿 Vision Pro 令人兴奋。

这就是网络效应!
#运营

跟@芒芒. 聊了下想做播客的想法,对话突然高级起来🫡
#产品知识库

多抓鱼可以卖衣服了耶,终于可以把不再合身,但是又舍不得扔的旧衣服处理掉了!
😨2
#职场社畜日常

这两天和不同的VC同行朋友见面,都准备离开VC行业,一个说要去美国创业,一个想到英国创业。真好,世界那么大,打开思路,拥抱世界~
#产品知识库

尝试列举Threads第一版的一些有意思的产品设计选择:这些选择不仅是界面、交互设计,也是用户行为设计、网络和关系图谱设计。

(部分汇总来自同事和网友)

1. 暂时没有标签(#)
2. 暂时没有私信
3. Thread里如果有自己已关注的人,时间线上直接会露出回复,其余人一律折叠
4. 已关注的人在推荐里混排,也就是说初版没有仅关注的feed(这一条已经多位团队成员确认在未来功能列表中,共识是目前需要用推荐Feed来拉关注图谱)
5. 第二个tab完全用来推荐人
6. 关注按钮在头像上
7. 关注陌生人时,经常会出现二次确认窗口
8. 点赞行为是私密的,既不在首页分发,也不展示在个人主页
9. 对初期的正反馈强通知,但准备了细致的免打扰设置
10. 单条post鼓励分享到Twitter
11. 自己发的每条thread可单独设置:“谁可以回复”、“隐藏赞数”
12. 无法轻易看到互关关系,即某人是否关注了自己

注:本帖不包含以下观点:

1. Threads的这些设计都是对的
2. Threads的这些设计未来不会更改、调整
3. Threads的这些设计都是原创的
4. Thread的这些设计是今天它取得的业务结果的主因
5. Threads会长期维持现在的热度,不会冷掉
#产品知识库

前所未有的互联网大迁徙,尽在 Threads 一朝一夕:

小扎宣布,3000 万了。

(我的一点微小解读 https://www.threads.net/t/CuW0osGPtS1/?igshid=MzRlODBiNWFlZA==
#工程师学习 看到一个 Thoughtworks 工程师梳理的「构筑大语言模型应用:应用开发与架构设计」的学习手册, 关于开发 LLM 应用写得很详细和清楚,有兴趣的可以抽半天时间学习一下。
🤖https://aigc.phodal.com/prelude.html
如果苹果的产品人格化,比如耳机手表手机,他们平常会不会聊天,都聊些什么?
#产品知识库

正文: 在设想中,如果苹果的产品(如耳机、手表和手机)具有人格化,那么它们可能会有一些有趣的对话。让我们来想象一下这种情景,并探索一些可能的对话1. 耳机(AirPods):作为苹果家族中的一员,耳机可能是无线连接的“听众”。它们可能会交流...

https://axurehub.com/13741.html
FuQ6pr8AoSl3s7fqMsV2rlqm_RJcv3.jpg
743.9 KB
以下是新闻实验室(@hi.newslab)对Threads的解读,作者是新闻实验室发起人方可成(@incurable)。
#产品知识库

小红书推出纯文字笔记了,在各大平台卷视频的时候,小红书也是异类,搞纯文字了
Forwarded from AI探索指南
最近AI绘画很火热,专门制作了【随心取图】小程序用来保存热门的AI绘画头像壁纸等,有喜欢朋友圈搜索小程序【随心取图】或扫码自取
👍1