222K subscribers
3.85K photos
642 videos
17 files
4.47K links
Погружаемся в машинное обучение и Data Science

Показываем как запускать любые LLm на пальцах.

По всем вопросам - @haarrp

@itchannels_telegram -🔥best channels

Реестр РКН: clck.ru/3Fmqri
Download Telegram
This media is not supported in your browser
VIEW IN TELEGRAM
⚡️ Farfalle — open-source поисковой AI-движок

Позволяет использовать локальные (llama3, gemma, mistral) или облачные (Groq/Llama3, OpenAI/gpt4-o) LLM.

🖥 GitHub
🟡 Запустить онлайн

@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
👍31🔥82😍2❤‍🔥1🥰1
⚡️ PHUDGE3: Phi-3 как масштабируемая система оценивания LLM

В этой свежей статье Arxiv представляется PHUDGE — тонко настроенная модель Phi3, которая достигла результатов SOTA в 4 задачах: Feedback Test, Feedback OOD, MT Human, Preference Test, превзойдя все существующие модели по задержке и пропускной способности.
PHUDGE демонстрирует очень сильную корреляцию не только с GPT4, но и с человеческими аннотаторами на непросмотренных данных, а также в задачах абсолютного и относительного оценивания.

В этой статье Arxiv не только рассмотривается вопрос использования небольших LM для экономичных систем производственного уровня, но и показывается, что причинно-следственное моделирование не только медленно по своей природе, но иногда может препятствовать обучаемости моделей и должно быть заменено на более простые задачи, когда это возможно, чтобы сделать систему в целом быстрее и лучше.

📎 Arxiv

@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
👍14😁93🔥1
⚡️ Layer-Condensed KV Cache

Многослойный кэш-память KV для эффективного инференса больших языковых моделей.

Обеспечивает в 26 раз более высокую пропускную способность (throughput) по сравнению со стандартными трансформерами и помогает увеличить производительность больших языковых моделей.


pip install xformers --index-url https://download.pytorch.org/whl/cu121
pip install -r requirements.txt


repo: https://github.com/whyNLP/LCKV
abs: https://arxiv.org/abs/2405.10637

@ai_machinelearning_big_data
👍224🔥2
🦙 Llama3-from-scratch

Очень подробный гайд по созданию LLaMa-3 с нуля!

Крутой репозиторий, в котором реализована llama 3 с нуля - умножение матриц с помощью multiple heads, позиционное кодирование (способ кодирования позиции слова внутри эмбеддинга), реализация механизма внимания и все остальное, здесь тщательно описано и объяснено.

Отличный репо для обучения, 3 к звезд за сутки⭐️.

Github

@ai_machinelearning_big_data
🔥43👍123
This media is not supported in your browser
VIEW IN TELEGRAM
🔥 GaussianObject: Just Taking Four Images to Get A High-Quality 3D Object with Gaussian Splatting

Только что был выпущен код для генерации 3D объектов с помощью Гауссовских сплатов.

Новый фреймворк обеспечивает высокое качество генераций и рендеринга всего по четырем входными изображениями.


git clone https://github.com/GaussianObject/GaussianObject.git --recursive


Github: https://github.com/GaussianObject/GaussianObject
Colab: https://colab.research.google.com/drive/1WIZgM--tJ3aq25t9g238JAuAoXrQYVMs?usp=sharing#scrollTo=TlrxF62GNePB
Project: https://gaussianobject.github.io

@ai_machinelearning_big_data
🔥22👍132
⚡️ SELF-DISCOVER — система для улучшения способности LLM рассуждать

Исследователи из Google DeepMind и Университета Южной Калифорнии представили революционный подход к повышению способности к рассуждению больших языковых моделей (LLM). Их новая система «SELF-DISCOVER», презентованная на этой неделе на arXiV и Hugging Face, обещает существенные улучшения в решении сложных задач рассуждениий, потенциально революционизируя производительность ведущих моделей, таких как GPT-4 от OpenAI и PaLM 2.

Система демонстрирует повышение производительности до 32% по сравнению с традиционными методами, такими как цепочка мыслей (CoT). Этот подход основан на том, что LLM самостоятельно раскрывают внутренние структуры рассуждений, присущие задачам, для решения сложных проблем, например таких, как критическое мышление или пошаговый анализ.

Имитируя человеческие стратегии решения проблем, эта система работает в два этапа. Первый этап включает в себя составление связной структуры рассуждений, свойственной задаче, с использованием набора атомарных модулей рассуждения и примеров задач. На втором этапе – во время декодирования, LLM следуют этой самообнаруженной структуре, чтобы прийти к окончательному решению.

В обширном тестировании различных задач на рассуждение, включая Big-Bench Hard, Thinking for Action и Math, предложенный подход неизменно превосходил традиционные методы. Примечательно, что с помощью GPT-4 он достиг точности 81%, 85% и 73% по трем задачам, превзойдя методы цепочки мыслей и планирования и решения.

@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍34🔥106
This media is not supported in your browser
VIEW IN TELEGRAM
⚡️ Devon — open-source AI-программист

curl -sSL https://raw.githubusercontent.com/entropy-research/Devon/main/install.sh | bash

Devon — AI-помощник, которого можно использовать для парного программирования;
open-source аналог Devin.
Использует API Anthropic, или OpenAI, или Groq

🖥 GitHub
🟡 Пример использования

@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
👍264🔥2👏1🤔1
🔥🚀 MoRA: High-Rank Updating for Parameter-Efficient Fine-Tuning

MoRA - новый метод использования высокоранговых обновлений весов для файнтюнига моделей при сохранении того же количества обучаемых параметров, как и при использовании матриц низкого ранга.

Превосходит LoRa в задачах с интенсивным использованием памяти, помимо этого, модель достигает сопоставимой производительности в других задачах. Подробности тут.

repo: https://github.com/kongds/MoRA
abs: https://arxiv.org/abs/2405.12130

@ai_machinelearning_big_data
👍213🥰1🤬1
⚡️Phi-3-medium-4k-instruct

Майкрософт выпустили новые модели Phi-3!

В том числе модели 7B и 14B.

Также добавлена мультимодальная модель phi!

- Phi-3-Vision: https://huggingface.co/microsoft/Phi-3-vision-128k-instruct
- Phi-3-Small:
~8k: https://huggingface.co/microsoft/Phi-3-small-8k-instruct
~128k: https://huggingface.co/microsoft/Phi-3-small-128k-instruct
- Phi-3-Medium:
~4k: https://huggingface.co/microsoft/Phi-3-medium-4k-instruct
~128k: https://huggingface.co/microsoft/Phi-3-medium-128k-instruct

@ai_machinelearning_big_data
👍26🔥8😁2🥰1