Буквально только что ребята из Шанхайского университета выкатили MG-LLaVA — MLLM, которая расширяет возможности обработки визуальной информации за счет использования дополнительных компонентов: специальных компонентов, которые отвечают за работу с низким и высоким разрешением.
В MG-LLaVA интегрирован дополнительный визуальный энкодер высокого разрешения для захвата мелких деталей, которые затем объединяются с базовыми визуальными признаками с помощью сети Conv-Gate.
Обученная исключительно на общедоступных мультимодальных данных, MG-LLaVA демонстрирует отличные результаты.
@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍35❤7🔥7
Пользователь Хабра опубликовал рабочий способ переводить на русский экраны приложений на айфоне по одному двойному тапу. Лайфхак сильно упрощает жизнь, когда нужно разобраться в приложениях на других языках.
▪️Статья: https://habr.com/ru/companies/yandex/posts/824706
@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
👍27❤7😐4🔥3😁1
This media is not supported in your browser
VIEW IN TELEGRAM
Andres Marafioti с коллегами немного прокачали Florence-2 на датасете DocVQA, и теперь Florence может давать визуальные ответы на вопросы (VQA)
Блокнот Colab с пошаговой настройкой Florence-2 ниже
🤗 Hugging Face
@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥15👍10❤4🥰1
С текстом у генеративных моделей до недавнего времени были большие проблемы, как и с пальцами. Сейчас уже ситуация улучшилась, но только для моделей, создающих изображения.
С генерацией текста в видео всё было ещё печальнее, но буквально вчера Tencent и Huawei выкатили Text-Animator — метод, который позволяет создавать видео с текстом в кадрах.
@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👏14👍11🔥5❤3😁2
💥 Масштабное обновление получила платформа для работы с исходным кодом GitVerse
Глава СберТеха Максим Тятюшев отметил, что разработчики смогут зеркалировать репозитории с GitVerse на другие площадки для резервного копирования и в один клик смогут находить нужный репозиторий и открывать проект в локальной среде разработки.
На полях GigaConf 2024 Сбер продемонстрировал как передовые цифровые технологии и решения изменят различные секторы экономики, повышая их эффективность и конкурентоспособность.
@ai_machinelearning_big_data
Глава СберТеха Максим Тятюшев отметил, что разработчики смогут зеркалировать репозитории с GitVerse на другие площадки для резервного копирования и в один клик смогут находить нужный репозиторий и открывать проект в локальной среде разработки.
На полях GigaConf 2024 Сбер продемонстрировал как передовые цифровые технологии и решения изменят различные секторы экономики, повышая их эффективность и конкурентоспособность.
@ai_machinelearning_big_data
👍17🤣9😁3❤2🔥2
PAB — это первый подход к созданию видео на основе диффузионных трансформеров в реальном времени, обеспечивающий качество без потерь и не требующий обучения.
PAB оптимизирует работу с механизмом внимания, что позволяет достичь 21.6 FPS с 10.6-кратным ускорением для популярных моделей генерации видео на основе DiT, включая Open-Sora, Open-Sora-Plan и Latte.
Поскольку метод PAB не требует дополнительного обучения, он может обеспечить любые будущие модели генерации видео на основе DiT возможностями генерации в режиме реального времени
@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍27🔥7❤5🆒3😁2
✅ GPTCache : A Library for Creating Semantic Cache for LLM Queries
GPTCache - инструмент, который позволяет ускорить работу и повысить масштабируемость вашего приложения, за счет кэширования ответов от LLM.
GPTCache может помочь значительно сократить расходы на работу с LLM (до 10 раз)💰 и увеличить скорость вывода моделями( до 100 раз) ⚡ при работе с
В инструменте используется семантическое кэширование, для поиска и хранения похожих или взаимосвязанных запросов, что позволяет увеличить вероятность попадания данных в кэш и повысить эффективность кэширования.
❗️ После получения результатов поиска модель выполняет оценку сходства и возвращает результаты при достижении установленного порога.
Вы можете настроить порог, который изменит точность результатов нечеткого поиска.
Подробнее в документации.
▪Github: https://github.com/zilliztech/GPTCache
▪Docs: gptcache.readthedocs.io
@ai_machinelearning_big_data
GPTCache - инструмент, который позволяет ускорить работу и повысить масштабируемость вашего приложения, за счет кэширования ответов от LLM.
GPTCache может помочь значительно сократить расходы на работу с LLM (до 10 раз)💰 и увеличить скорость вывода моделями( до 100 раз) ⚡ при работе с
API OpenAI/HuggingFace Hub/Bard/Anthropic.
В инструменте используется семантическое кэширование, для поиска и хранения похожих или взаимосвязанных запросов, что позволяет увеличить вероятность попадания данных в кэш и повысить эффективность кэширования.
❗️ После получения результатов поиска модель выполняет оценку сходства и возвращает результаты при достижении установленного порога.
Вы можете настроить порог, который изменит точность результатов нечеткого поиска.
Подробнее в документации.
pip install gptcache
▪Github: https://github.com/zilliztech/GPTCache
▪Docs: gptcache.readthedocs.io
@ai_machinelearning_big_data
🔥21👍17❤5
⚡️ Выпущена Gemma 2!
Google только что выпустил новую версию своего открытого LLM!
Gemma 2 выпущен в двух размерах, 9B и 27B, модели тренировались на 8T и 13T токенов.
Модель Gemma 2 превосходит Llama 3 70B, Claude 3 Sonnet и GPT-4!
▪HF: huggingface.co/collections/google/g-667d6600fd5220e7b967f315
▪Blog: https://blog.google/technology/developers/google-gemma-2/
▪Kaggle: kaggle.com/models/google/gemma-2/keras
@ai_machinelearning_big_data
Google только что выпустил новую версию своего открытого LLM!
Gemma 2 выпущен в двух размерах, 9B и 27B, модели тренировались на 8T и 13T токенов.
Модель Gemma 2 превосходит Llama 3 70B, Claude 3 Sonnet и GPT-4!
▪HF: huggingface.co/collections/google/g-667d6600fd5220e7b967f315
▪Blog: https://blog.google/technology/developers/google-gemma-2/
▪Kaggle: kaggle.com/models/google/gemma-2/keras
@ai_machinelearning_big_data
👍43❤6🔥5👏1
⚡️ Еще один интересный анонс, Meta LLM Compiler - новое семейство моделей (7B и 13B), на базе Meta Code Llama, для задач оптимизации и генерации кода.
LLVM Compiler - это новая SOTA в области оптимизации кода и дизассемблирования.
Модели доступны под лицензией как для научных исследований, так и для коммерческого использования.
Эти модели могут эмулировать компилятор, прогнозировать оптимальные проходы для создания кода и дизассемблировать код.
▪HF
▪Статья
*Компания Meta Platforms Inc. признана экстремистской организацией и запрещена на территории РФ.
@ai_machinelearning_big_data
LLVM Compiler - это новая SOTA в области оптимизации кода и дизассемблирования.
Модели доступны под лицензией как для научных исследований, так и для коммерческого использования.
Эти модели могут эмулировать компилятор, прогнозировать оптимальные проходы для создания кода и дизассемблировать код.
▪HF
▪Статья
*Компания Meta Platforms Inc. признана экстремистской организацией и запрещена на территории РФ.
@ai_machinelearning_big_data
👍36🔥7❤3🤔3
Cambrian-1 — это семейство MLLM, разработанных с упором на работу с визуальной информацией. На страничке Cambrian-1 представлены модели 3 размеров (8B, 13B и 34B), данные для обучения, скрипты для обучения на TPU.
Скоро на GitHub появится скрипт для обучения на GPU.
🤗 Hugging Face
@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍27🔥8❤4👏2
LLM показывают впечатляющие возможности, однако довольно сложно добиться соблюдения ими этических норм. Эту проблему можно частично решить при помощи обучения с подкреплением на основе человеческой обратной связи (RLHF), или обучения с подкреплением на основе предпочтений (PbRL). Оба метода имеют недостатки, и приводят к заметному снижению показателей моделей.
В этой свежей работе Yue Wu с коллегами предлагает новый способ обеспечения этичности LLM — SPPO (Self-Play Preference Optimization).
Как видно на графиках SPPO не снижает производительность моделей так сильно, как RLHF и PbRL, что позволяет повысить точность ответов, не рискуя допустить неэтичные ответы LLM.
🤗 Hugging Face
@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍21😐12❤3🔥2🤨2🤔1😭1