281K subscribers
3.95K photos
676 videos
17 files
4.54K links
Погружаемся в машинное обучение и Data Science

Показываем как запускать любые LLm на пальцах.

По всем вопросам - @haarrp

@itchannels_telegram -🔥best channels

Реестр РКН: clck.ru/3Fmqri
Download Telegram
🌟 MG-LLaVA — мультимодальная LLM с продвинутыми возможностями работы с визуальной информацией

Буквально только что ребята из Шанхайского университета выкатили MG-LLaVA — MLLM, которая расширяет возможности обработки визуальной информации за счет использования дополнительных компонентов: специальных компонентов, которые отвечают за работу с низким и высоким разрешением.

В MG-LLaVA интегрирован дополнительный визуальный энкодер высокого разрешения для захвата мелких деталей, которые затем объединяются с базовыми визуальными признаками с помощью сети Conv-Gate.

Обученная исключительно на общедоступных мультимодальных данных, MG-LLaVA демонстрирует отличные результаты.

🟡 Страничка MG-LLaVA
🖥 GitHub

@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍357🔥7
🌟 Быстрый способ переводить экраны любых приложений на русский язык

Пользователь Хабра опубликовал рабочий способ переводить на русский экраны приложений на айфоне по одному двойному тапу. Лайфхак сильно упрощает жизнь, когда нужно разобраться в приложениях на других языках.

▪️Статья: https://habr.com/ru/companies/yandex/posts/824706

@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
👍277😐4🔥3😁1
This media is not supported in your browser
VIEW IN TELEGRAM
🌟 Тонкая настройка VLM модели Florence-2

Andres Marafioti с коллегами немного прокачали Florence-2 на датасете DocVQA, и теперь Florence может давать визуальные ответы на вопросы (VQA)
Блокнот Colab с пошаговой настройкой Florence-2 ниже

🟡 Fine-tuning Florence-2
🟡 Google Colab
🤗 Hugging Face

@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥15👍104🥰1
🌟 Text-Animator — метод генерации видео с текстом в кадрах

С текстом у генеративных моделей до недавнего времени были большие проблемы, как и с пальцами. Сейчас уже ситуация улучшилась, но только для моделей, создающих изображения.
С генерацией текста в видео всё было ещё печальнее, но буквально вчера Tencent и Huawei выкатили Text-Animator — метод, который позволяет создавать видео с текстом в кадрах.

🟡 Страничка Text-Animator
🟡 Arxiv

@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👏14👍11🔥53😁2
💥 Масштабное обновление получила платформа для работы с исходным кодом GitVerse

Глава СберТеха Максим Тятюшев отметил, что разработчики смогут зеркалировать репозитории с GitVerse на другие площадки для резервного копирования и в один клик смогут находить нужный репозиторий и открывать проект в локальной среде разработки.

На полях GigaConf 2024 Сбер продемонстрировал как передовые цифровые технологии и решения изменят различные секторы экономики, повышая их эффективность и конкурентоспособность.

@ai_machinelearning_big_data
👍17🤣9😁32🔥2
🌟 Pyramid Attention Broadcast — подход, позволяющий генерировать видео в режиме реального времени

PAB — это первый подход к созданию видео на основе диффузионных трансформеров в реальном времени, обеспечивающий качество без потерь и не требующий обучения.

PAB оптимизирует работу с механизмом внимания, что позволяет достичь 21.6 FPS с 10.6-кратным ускорением для популярных моделей генерации видео на основе DiT, включая Open-Sora, Open-Sora-Plan и Latte.

Поскольку метод PAB не требует дополнительного обучения, он может обеспечить любые будущие модели генерации видео на основе DiT возможностями генерации в режиме реального времени

🟡 Страничка Pyramid Attention Broadcast
🖥 GitHub

@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍27🔥75🆒3😁2
GPTCache : A Library for Creating Semantic Cache for LLM Queries

GPTCache - инструмент, который позволяет ускорить работу и повысить масштабируемость вашего приложения, за счет кэширования ответов от LLM.

GPTCache может помочь значительно сократить расходы на работу с LLM (до 10 раз)💰 и увеличить скорость вывода моделями( до 100 раз) при работе с API OpenAI/HuggingFace Hub/Bard/Anthropic.

В инструменте используется семантическое кэширование, для поиска и хранения похожих или взаимосвязанных запросов, что позволяет увеличить вероятность попадания данных в кэш и повысить эффективность кэширования.

❗️ После получения результатов поиска модель выполняет оценку сходства и возвращает результаты при достижении установленного порога.

Вы можете настроить порог, который изменит точность результатов нечеткого поиска.

Подробнее в документации.

pip install gptcache

Github: https://github.com/zilliztech/GPTCache
Docs: gptcache.readthedocs.io

@ai_machinelearning_big_data
🔥21👍175
⚡️ Выпущена Gemma 2!

Google только что выпустил новую версию своего открытого LLM!

Gemma 2 выпущен в двух размерах, 9B и 27B, модели тренировались на 8T и 13T токенов.

Модель Gemma 2 превосходит Llama 3 70B, Claude 3 Sonnet и GPT-4!

HF: huggingface.co/collections/google/g-667d6600fd5220e7b967f315
Blog: https://blog.google/technology/developers/google-gemma-2/
Kaggle: kaggle.com/models/google/gemma-2/keras

@ai_machinelearning_big_data
👍436🔥5👏1
⚡️ Еще один интересный анонс, Meta LLM Compiler - новое семейство моделей (7B и 13B), на базе Meta Code Llama, для задач оптимизации и генерации кода.

LLVM Compiler - это новая SOTA в области оптимизации кода и дизассемблирования.

Модели доступны под лицензией как для научных исследований, так и для коммерческого использования.

Эти модели могут эмулировать компилятор, прогнозировать оптимальные проходы для создания кода и дизассемблировать код.

HF
Статья

*Компания Meta Platforms Inc. признана экстремистской организацией и запрещена на территории РФ.

@ai_machinelearning_big_data
👍36🔥73🤔3
🌟 Cambrian-1 — семейство мультимодальных LLM, ориентированных на CV-задачи

Cambrian-1 — это семейство MLLM, разработанных с упором на работу с визуальной информацией. На страничке Cambrian-1 представлены модели 3 размеров (8B, 13B и 34B), данные для обучения, скрипты для обучения на TPU.
Скоро на GitHub появится скрипт для обучения на GPU.

🟡 Страничка Cambrian-1
🖥 GitHub
🤗 Hugging Face

@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍27🔥84👏2
🌟 SPPO — инструмент оптимизации предпочтений языковой моделью.

LLM показывают впечатляющие возможности, однако довольно сложно добиться соблюдения ими этических норм. Эту проблему можно частично решить при помощи обучения с подкреплением на основе человеческой обратной связи (RLHF), или обучения с подкреплением на основе предпочтений (PbRL). Оба метода имеют недостатки, и приводят к заметному снижению показателей моделей.

В этой свежей работе Yue Wu с коллегами предлагает новый способ обеспечения этичности LLM — SPPO (Self-Play Preference Optimization).
Как видно на графиках SPPO не снижает производительность моделей так сильно, как RLHF и PbRL, что позволяет повысить точность ответов, не рискуя допустить неэтичные ответы LLM.

🖥 GitHub
🤗 Hugging Face
🟡 Arxiv

@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍21😐123🔥2🤨2🤔1😭1