Machinelearning

⚡️

Farfalle — open-source поисковой AI-движок

Позволяет использовать локальные (llama3, gemma, mistral) или облачные (Groq/Llama3, OpenAI/gpt4-o) LLM.

🖥

GitHub

🟡

Запустить онлайн

@ai_machinelearning_big_data

Please open Telegram to view this post

VIEW IN TELEGRAM

👍31🔥8❤2😍2❤‍🔥1🥰1

11K views06:55

Machinelearning

⚡️

PHUDGE3: Phi-3 как масштабируемая система оценивания LLM

В этой свежей статье Arxiv представляется PHUDGE — тонко настроенная модель Phi3, которая достигла результатов SOTA в 4 задачах: Feedback Test, Feedback OOD, MT Human, Preference Test, превзойдя все существующие модели по задержке и пропускной способности.
PHUDGE демонстрирует очень сильную корреляцию не только с GPT4, но и с человеческими аннотаторами на непросмотренных данных, а также в задачах абсолютного и относительного оценивания.

В этой статье Arxiv не только рассмотривается вопрос использования небольших LM для экономичных систем производственного уровня, но и показывается, что причинно-следственное моделирование не только медленно по своей природе, но иногда может препятствовать обучаемости моделей и должно быть заменено на более простые задачи, когда это возможно, чтобы сделать систему в целом быстрее и лучше.

📎

Arxiv

@ai_machinelearning_big_data

Please open Telegram to view this post

VIEW IN TELEGRAM

👍14😁9❤3🔥1

10.2K views10:03

Machinelearning

⚡️ Layer-Condensed KV Cache

Многослойный кэш-память KV для эффективного инференса больших языковых моделей.

Обеспечивает в 26 раз более высокую пропускную способность (throughput) по сравнению со стандартными трансформерами и помогает увеличить производительность больших языковых моделей.


pip install xformers --index-url https://download.pytorch.org/whl/cu121
pip install -r requirements.txt

▪repo: https://github.com/whyNLP/LCKV
▪abs: https://arxiv.org/abs/2405.10637

@ai_machinelearning_big_data

👍22❤4🔥2

9.74K viewsedited 13:28

Machinelearning

🦙 Llama3-from-scratch

Очень подробный гайд по созданию LLaMa-3 с нуля!

Крутой репозиторий, в котором реализована llama 3 с нуля - умножение матриц с помощью multiple heads, позиционное кодирование (способ кодирования позиции слова внутри эмбеддинга), реализация механизма внимания и все остальное, здесь тщательно описано и объяснено.

Отличный репо для обучения, 3 к звезд за сутки⭐️.

▪Github

@ai_machinelearning_big_data

🔥43👍12❤3

11.1K views14:02

Machinelearning

0:50

This media is not supported in your browser

VIEW IN TELEGRAM

🔥 GaussianObject: Just Taking Four Images to Get A High-Quality 3D Object with Gaussian Splatting

Только что был выпущен код для генерации 3D объектов с помощью Гауссовских сплатов.

Новый фреймворк обеспечивает высокое качество генераций и рендеринга всего по четырем входными изображениями.


git clone https://github.com/GaussianObject/GaussianObject.git --recursive

▪Github: https://github.com/GaussianObject/GaussianObject
▪Colab: https://colab.research.google.com/drive/1WIZgM--tJ3aq25t9g238JAuAoXrQYVMs?usp=sharing#scrollTo=TlrxF62GNePB
▪Project: https://gaussianobject.github.io

@ai_machinelearning_big_data

🔥22👍13❤2

10.9K viewsedited 15:09

Machinelearning

⚡️

SELF-DISCOVER — система для улучшения способности LLM рассуждать

Исследователи из Google DeepMind и Университета Южной Калифорнии представили революционный подход к повышению способности к рассуждению больших языковых моделей (LLM). Их новая система «SELF-DISCOVER», презентованная на этой неделе на arXiV и Hugging Face, обещает существенные улучшения в решении сложных задач рассуждениий, потенциально революционизируя производительность ведущих моделей, таких как GPT-4 от OpenAI и PaLM 2.

Система демонстрирует повышение производительности до 32% по сравнению с традиционными методами, такими как цепочка мыслей (CoT). Этот подход основан на том, что LLM самостоятельно раскрывают внутренние структуры рассуждений, присущие задачам, для решения сложных проблем, например таких, как критическое мышление или пошаговый анализ.

Имитируя человеческие стратегии решения проблем, эта система работает в два этапа. Первый этап включает в себя составление связной структуры рассуждений, свойственной задаче, с использованием набора атомарных модулей рассуждения и примеров задач. На втором этапе – во время декодирования, LLM следуют этой самообнаруженной структуре, чтобы прийти к окончательному решению.

В обширном тестировании различных задач на рассуждение, включая Big-Bench Hard, Thinking for Action и Math, предложенный подход неизменно превосходил традиционные методы. Примечательно, что с помощью GPT-4 он достиг точности 81%, 85% и 73% по трем задачам, превзойдя методы цепочки мыслей и планирования и решения.

@ai_machinelearning_big_data

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍34🔥10❤6

12K views07:18

Machinelearning

0:30

This media is not supported in your browser

VIEW IN TELEGRAM

⚡️

Devon — open-source AI-программист

— curl -sSL https://raw.githubusercontent.com/entropy-research/Devon/main/install.sh | bash

Devon — AI-помощник, которого можно использовать для парного программирования;
open-source аналог Devin.
Использует API Anthropic, или OpenAI, или Groq

🖥

GitHub

🟡

Пример использования

@ai_machinelearning_big_data

Please open Telegram to view this post

VIEW IN TELEGRAM

👍26❤4🔥2👏1🤔1

12.1K views10:00

Machinelearning

🔥🚀 MoRA: High-Rank Updating for Parameter-Efﬁcient Fine-Tuning

MoRA - новый метод использования высокоранговых обновлений весов для файнтюнига моделей при сохранении того же количества обучаемых параметров, как и при использовании матриц низкого ранга.

Превосходит LoRa в задачах с интенсивным использованием памяти, помимо этого, модель достигает сопоставимой производительности в других задачах. Подробности тут.

▪repo: https://github.com/kongds/MoRA
▪abs: https://arxiv.org/abs/2405.12130

@ai_machinelearning_big_data

👍21❤3🥰1🤬1

12.1K views16:33

Machinelearning

⚡️Phi-3-medium-4k-instruct

Майкрософт выпустили новые модели Phi-3!

В том числе модели 7B и 14B.

Также добавлена мультимодальная модель phi!

- Phi-3-Vision: https://huggingface.co/microsoft/Phi-3-vision-128k-instruct
- Phi-3-Small:
~8k: https://huggingface.co/microsoft/Phi-3-small-8k-instruct
~128k: https://huggingface.co/microsoft/Phi-3-small-128k-instruct
- Phi-3-Medium:
~4k: https://huggingface.co/microsoft/Phi-3-medium-4k-instruct
~128k: https://huggingface.co/microsoft/Phi-3-medium-128k-instruct

@ai_machinelearning_big_data

👍26🔥8😁2🥰1

12.1K viewsedited 19:12

About

Blog

Apps

Platform