DPS Build
709 subscribers
120 photos
3 videos
10 files
451 links
AI, coding, data science and startups
Download Telegram
Haystack

• Ask questions in natural language and find granular answers in your documents.
• Perform semantic search and retrieve documents according to meaning, not keywords.
• Use off-the-shelf models or fine-tune them to your domain.
• Use user feedback to evaluate, benchmark, and continuously improve your live models.
• Leverage existing knowledge bases and better handle the long tail of queries that chatbots receive.
• Automate processes by automatically applying a list of questions to new documents and using the extracted answers.

https://github.com/deepset-ai/haystack

#nlp
A team of ex-OpenAI fellows at Together have released a 20B chat-GPT model, fine-tuned for chat using EleutherAI's GPT-NeoX-20B, with over 43 million instructions under the Apache-2.0 license.

https://github.com/togethercomputer/OpenChatKit

https://www.together.xyz/blog/openchatkit

#nlp
This media is not supported in your browser
VIEW IN TELEGRAM
一键安装 LlaMA 的工具来了!

一键安装 LLaMA 之后,在一台 M1 Macbook Air上跑起了 7B 的模型,速度还OK。大概吃了4G 内存。

这台机器有 16G 内存,8核的 M1 CPU。跑起来之后,CPU 会跑满。

具体安装步骤:

1. npm install npx (没有 npm 的同学可以先装 npm,js 的包管理工具)
2. npx dalai llama
3. npx dalai serve

它会自动安装相关的 python 包,并下载 7B 的 LLaMA 模型。

https://cocktailpeanut.github.io/dalai/#/

#ml #tools
👍4😁2
斯坦福开源了一个自行搭建 LLaMA 的架构指南 Alpaca,有人算了算了,大概花 $600 就能训练出一个表现类似 GPT3.5 的大语言模型。

https://crfm.stanford.edu/alpaca/

https://twitter.com/yanndubs/status/1635339256532205568
5
这几天在看如何用自己的语料库结合 ChatGPT API 来使用,目前找到两个方案:

1. 利用最新的 gpt-turbo-3.5 模型:先建立 doc embedding,然后利用 query embedding,通过文本相似度从 doc embddding 中找到和 query embedding 最接近的数据,然后讲这些数据作为 context 填写在 prompt 里一起发起请求;

2. 利用之前的 davinci / ada 模型:先建立 doc embedding,然后将这一 embedding 通过 API 上传到 OpenAI 上,每次请求时,指定使用这一 embedding。

目前的测试看下来,前面这种方案效果更好,但是因为要发起多次请求,所以速度比较慢;后面这种会将结果局限在 embedding 内,当然因为是单次请求,所以速度较快。

成本方面,turbo 的价格是 davinci / ada 的十分之一,但是因为多次请求,且带有 context,所以大概估算下来可能差得不多。

如果大家有更好的思路,也欢迎讨论。
👍2
OpenAI 刚刚发布了 GPT-4,以下四张图表说明了它的大幅提升:

1. GPT-4 模拟参与了各类考试,比如 LSAT 之类的律师执照考试,得到了 88 percentile 的高分,SAT 阅读写作得到了 93 percentile 的高分,GRE 词汇得了 99 percentile 的高分

2. 在各类公认的 NLP 测试上,GPT-4 也有着优良表现

3. 除了在英语数据上有着巨大提升 (MMLU 的测试中,GPT-4 从 GPT-3 的 70.1% 提高到了 85.5%),在其他语言上也有极大进步,比如中文到了 80.1%,阿语到了 80%

4. 作为多模态的模型, GPT-4 在图像/视频类的测试上也有不错的表现

https://openai.com/research/gpt-4
1
除了 GPT-4,昨天还有其他公司发布了 AI 产品

https://twitter.com/nathanbenaich/status/1635708064555847681
GPT-4 早在去年八月就完成了训练,后面的这半年都是在做测试等工作。按照这个时间线,GPT-5 也快了。

https://twitter.com/abacaj/status/1635837820270002178
🙉4
DPS Build
这几天在看如何用自己的语料库结合 ChatGPT API 来使用,目前找到两个方案: 1. 利用最新的 gpt-turbo-3.5 模型:先建立 doc embedding,然后利用 query embedding,通过文本相似度从 doc embddding 中找到和 query embedding 最接近的数据,然后讲这些数据作为 context 填写在 prompt 里一起发起请求; 2. 利用之前的 davinci / ada 模型:先建立 doc embedding,然后将这一 embedding…
第一个方案已经写完了,结果很迷。有的时候答案非常棒,有的时候完全找不到北。

目前可能的优化空间:

1. 把计算相似度的算法调整,默认是 cosine;
2. 把文本数据进一步清洗,尽可能去除噪音数据;
3. 调整 embedding 的 chunk 的大小
4. 准备更多高质量的文本数据。
HackerNews 这么大的网站,登陆系统运行在单核上。所以过早优化毫无必要。

https://twitter.com/npew/status/1635743304209043462