Градиентное погружение
Сегодня будут колабы с лорой на канди2.2)
LORA for Kandinsky2.2, которая работает в бесплатном колабе!)
Google
lora_decoder.ipynb
Colaboratory notebook
Forwarded from Дата-Утренник (Максим Герасимов)
Fonetika
👉Библиотека позволяет представить варианты написания одного слова как последовательность букв и цифр, может измерять расстояние между фонемами.
корован -> 3090208
караван -> 3090208
К0р0ван -> 3090208
километр -> 30708049
кoрован -> 3090208 (первая 'o' - латиница)
🔥Кейс - проверка никнейма на запрещенные слова
@data_morning
Github
👉Библиотека позволяет представить варианты написания одного слова как последовательность букв и цифр, может измерять расстояние между фонемами.
корован -> 3090208
караван -> 3090208
К0р0ван -> 3090208
километр -> 30708049
кoрован -> 3090208 (первая 'o' - латиница)
🔥Кейс - проверка никнейма на запрещенные слова
@data_morning
Github
Forwarded from что-то на DL-ском
Классический мл больше не будет прежним, или как Яндекс сами запускают вместо градиентного бустинга в каждый дом млщика –трансформер 😮
Наверняка многие экспериментировали при анализе табличных данных с помощью трансформера, а потом ходили в непонятках, почему же все таки CatBoost срабатывает лучше, так вот, теперь это в прошлом. Появился TabR (retrieval для табличных данных), который на бенчмарках бьет град бустинг(логично, иначе статьи бы не было) 🤨
Итак, поверхностно весь секрет в том, что ребята не просто натравливают retrieval, а [энкодят –> на каждую фичу подбирают ближайшего соседа по симилярити –> конкатят с исходным энкодингом –> делают предикт] (см вложения)все, расходимся, чуваки по-умному заюзали идею
Кончено, там очень много деталий в ресерче, про которые хотелось бы упомянуть. (Во вложениях таблица с каждым пунктом, и что он дал на eval)
А) В value модуль аттеншена добавили таргет labels
B) Имперически доказали, что тут расстояние симилярити надо измерять L2 расстоянием, и отказались от query матрицы соответственно
C) вместо KNN для ближайших соседей взяли DNNR, который содержит поправочный член, которые по сути является производной
D) применили cross attention и убрали скейлинг на размерность матрицы K в формуле внимания
Метрики на бенче GBDT во вложениях
🖥 код
Наверняка многие экспериментировали при анализе табличных данных с помощью трансформера, а потом ходили в непонятках, почему же все таки CatBoost срабатывает лучше, так вот, теперь это в прошлом. Появился TabR (retrieval для табличных данных), который на бенчмарках бьет град бустинг
Итак, поверхностно весь секрет в том, что ребята не просто натравливают retrieval, а [энкодят –> на каждую фичу подбирают ближайшего соседа по симилярити –> конкатят с исходным энкодингом –> делают предикт] (см вложения)
Кончено, там очень много деталий в ресерче, про которые хотелось бы упомянуть. (Во вложениях таблица с каждым пунктом, и что он дал на eval)
А) В value модуль аттеншена добавили таргет labels
B) Имперически доказали, что тут расстояние симилярити надо измерять L2 расстоянием, и отказались от query матрицы соответственно
C) вместо KNN для ближайших соседей взяли DNNR, который содержит поправочный член, которые по сути является производной
D) применили cross attention и убрали скейлинг на размерность матрицы K в формуле внимания
Метрики на бенче GBDT во вложениях
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Записки дата-шрушера (Ppilif) (Ppilif)
Офигенно! Документирование чуть ли не построчно :3
https://nn.labml.ai/?_gl=1*1l3fv1n*_ga*NDc0MzgxMjA0LjE2OTE1MDI4ODU.*_ga_PDCL9PHMHT*MTY5MTUwMjg4NC4xLjEuMTY5MTUwMjkxMi4wLjAuMA..
This is a collection of simple PyTorch implementations of neural networks and related algorithms. These implementations are documented with explanations, and the website renders these as side-by-side formatted notes. We believe these would help you understand these algorithms better.
https://nn.labml.ai/?_gl=1*1l3fv1n*_ga*NDc0MzgxMjA0LjE2OTE1MDI4ODU.*_ga_PDCL9PHMHT*MTY5MTUwMjg4NC4xLjEuMTY5MTUwMjkxMi4wLjAuMA..
Умеете обучать модели и поднимать API, но не понимаете, что происходит за пределами этих процессов?
Никто не знал о GPT, пока она была просто ML-моделью без публично доступного API и продакшена, отмасштабированного на миллионы пользователей, теперь известного всем как ChatGPT.
Любой, даже самый минимальный жизнеспособный продукт при таких масштабах будет содержать как ML-компоненты, так и микросервисы, базы данных, подсистемы поиска, логирования, аналитики и многого другого.
Научиться проектировать такую архитектуру можно на курсе System Design от Валерия Бабушкина, Vice President, Data Science в Blockchainꓸcom. Здесь вы поработаете над реальными проектами сервиса такси, приложения для знакомств и другими системами, а также познакомитесь с типичной структурой дизайн-собеседований в Big Tech.
Всего за 4 недели вы научитесь собирать требования, оценивать нагрузку, выбирать подходящие СУБД, масштабировать системы и повышать их надежность и отзывчивость, а также выделять и последовательно проектировать подсистемы для хранения данных, поиска и аналитики как своими силами, так и с помощью готовых продуктов.
Новый поток стартует 14 августа! Ждём вас!
[Зарегистрироваться]
Никто не знал о GPT, пока она была просто ML-моделью без публично доступного API и продакшена, отмасштабированного на миллионы пользователей, теперь известного всем как ChatGPT.
Любой, даже самый минимальный жизнеспособный продукт при таких масштабах будет содержать как ML-компоненты, так и микросервисы, базы данных, подсистемы поиска, логирования, аналитики и многого другого.
Научиться проектировать такую архитектуру можно на курсе System Design от Валерия Бабушкина, Vice President, Data Science в Blockchainꓸcom. Здесь вы поработаете над реальными проектами сервиса такси, приложения для знакомств и другими системами, а также познакомитесь с типичной структурой дизайн-собеседований в Big Tech.
Всего за 4 недели вы научитесь собирать требования, оценивать нагрузку, выбирать подходящие СУБД, масштабировать системы и повышать их надежность и отзывчивость, а также выделять и последовательно проектировать подсистемы для хранения данных, поиска и аналитики как своими силами, так и с помощью готовых продуктов.
Новый поток стартует 14 августа! Ждём вас!
[Зарегистрироваться]
karpov.courses
System Design
Курс по проектированию систем System Design в онлайн-школе karpov.courses. Обучение разработке архитектуры программных систем.
Forwarded from Нейрокузня | DreamForge
Релиз новой версии AutoChar!
Версия 0.9 стучится в ваши двери с новыми функциями, исправлениями ошибок и обновлённым интерфейсом. Спасибо большому сообществу за сообщения о багах и предложенные решения!
https://civitai.com/models/95923
https://github.com/alexv0iceh/AutoChar
### Новые функции:
• Добавлена полная поддержка Dynamic Prompts! Наслаждайтесь полностью автоматическим улучшением всех ваших рандомизированных генераций
• Добавлен SD Upscale по умолчанию вместо базового Image2Image. Значительно более высокая детализация и резкость + выбор вашего любимого апскейлера
• Lower LoRA: новая мера для предотвращения выгорания лиц при использовании сильных или нескольких LoRA. Включено по умолчанию
• Только одно лицо: инпеинт только самого большого лица при генерации, больше никаких неожиданных ужасов на подмышках и груди, также помогает при работе с толпами на заднем плане. Включено по умолчанию
• Теперь только первая и последняя генерации каждого цикла будут по умолчанию сохраняться в выходную папку Txt2img. Все остальные шаги будут сохраняться в папке Img2img
### Исправления ошибок и т.д:
• Исправлена критическая ошибка OpenCV. Добавлена автоматическая проверка наличия последней версии
• Исправлена ошибка с тем, что LoRA не передается на шаг Inpaint.
• Обновлена версия YuNet для улучшения распознавания лиц
• Переработан и улучшен пользовательский интерфейс
• Опции Inpaint лица и глаз включены по умолчанию
### Грядущая версия 1.0:
• Релиз в виде полноценного расширения
• Полная поддержка Img2Img
• Интеграция ControlNet для всех шагов алгоритма
• Больше параметров для опытных пользователей
Версия 0.9 стучится в ваши двери с новыми функциями, исправлениями ошибок и обновлённым интерфейсом. Спасибо большому сообществу за сообщения о багах и предложенные решения!
https://civitai.com/models/95923
https://github.com/alexv0iceh/AutoChar
### Новые функции:
• Добавлена полная поддержка Dynamic Prompts! Наслаждайтесь полностью автоматическим улучшением всех ваших рандомизированных генераций
• Добавлен SD Upscale по умолчанию вместо базового Image2Image. Значительно более высокая детализация и резкость + выбор вашего любимого апскейлера
• Lower LoRA: новая мера для предотвращения выгорания лиц при использовании сильных или нескольких LoRA. Включено по умолчанию
• Только одно лицо: инпеинт только самого большого лица при генерации, больше никаких неожиданных ужасов на подмышках и груди, также помогает при работе с толпами на заднем плане. Включено по умолчанию
• Теперь только первая и последняя генерации каждого цикла будут по умолчанию сохраняться в выходную папку Txt2img. Все остальные шаги будут сохраняться в папке Img2img
### Исправления ошибок и т.д:
• Исправлена критическая ошибка OpenCV. Добавлена автоматическая проверка наличия последней версии
• Исправлена ошибка с тем, что LoRA не передается на шаг Inpaint.
• Обновлена версия YuNet для улучшения распознавания лиц
• Переработан и улучшен пользовательский интерфейс
• Опции Inpaint лица и глаз включены по умолчанию
### Грядущая версия 1.0:
• Релиз в виде полноценного расширения
• Полная поддержка Img2Img
• Интеграция ControlNet для всех шагов алгоритма
• Больше параметров для опытных пользователей
Forwarded from AbstractDL
Longformer-tiny для русского языка
Друг скрестил Longformer и BERT-tiny, получив крошечную модель с контекстом в 16к токенов. Детали танцев с бубном и обучения есть на хабре. А картинку нарисовала моя сестра ☺️
Хабр, Huggingface
Друг скрестил Longformer и BERT-tiny, получив крошечную модель с контекстом в 16к токенов. Детали танцев с бубном и обучения есть на хабре. А картинку нарисовала моя сестра ☺️
Хабр, Huggingface
Forwarded from Дата-Утренник (Максим Герасимов)
Сморите что нашел
👉DragDiffusion - модель, способная редактировать изображения на основе точек, заданных юзером. Есть примеры использования, руководство по настройке и запуску модели.
@data_morning
github
примеры
👉DragDiffusion - модель, способная редактировать изображения на основе точек, заданных юзером. Есть примеры использования, руководство по настройке и запуску модели.
@data_morning
github
примеры
Forwarded from Awesome DL
Всем привет 👋
Продолжаем серию постов под авторством @TimeEscaper, посвященную применению ML в Robotics. В данном рассказе мы осветили вопрос того, как применять языковые модели для обучения роботов:
- Как использовать LLM для генерации reward?
- Как переводить языковые команды в действия робота?
- Как использовать LLM для генерации алгоритмов роботов?
Приятного чтения🔥
Продолжаем серию постов под авторством @TimeEscaper, посвященную применению ML в Robotics. В данном рассказе мы осветили вопрос того, как применять языковые модели для обучения роботов:
- Как использовать LLM для генерации reward?
- Как переводить языковые команды в действия робота?
- Как использовать LLM для генерации алгоритмов роботов?
Приятного чтения
Please open Telegram to view this post
VIEW IN TELEGRAM
Teletype
Применение LLM для синтеза и стилизации поведений агентов
TLDR: Рассмотрим, как можно использовать LLM-ки для управления роботами и какие от этого можно получить преимущества.
Forwarded from Complete AI (Andrey Kuznetsov)
⚡️Началось открытое голосование за номинантов премии HighLoad++. Среди прочих достойных номинантов представлена и модель Kandinsky!
Верю, что команда заслуженно сможет получить эту награду😉
Спасибо всем за фидбэки, участие в развитии модели и её применении, ценные советы🙏 Все ваши комментарии не остаются не учтёнными, мы всё внимательно собираем и постепенно стараемся исправлять.
Голосовать
Верю, что команда заслуженно сможет получить эту награду😉
Спасибо всем за фидбэки, участие в развитии модели и её применении, ценные советы🙏 Все ваши комментарии не остаются не учтёнными, мы всё внимательно собираем и постепенно стараемся исправлять.
Голосовать
Forwarded from Dealer.AI
Всем привет, мы строили строили и наконец построили!
Первая супер-библиотека по spelling corruption SAGE.
Работа была не простой, вместе с ребятами из команды AGI NLP- мои герои снова:
@alenusch, @qwertysobaka, @go_bobert.
мы сделали оч крутой инструмент. Он позволяет атаковать тексты при помощи добавления опечаток, перестановок и пр., а также делать обратное - фиксить их.
Интересно?
Го читать на хабр!
https://habr.com/ru/companies/sberdevices/articles/763932/
Наша библиотека SAGE:
https://github.com/ai-forever/sage
AI-service в Клауде:
https://cloud.ru/ru/datahub/generative-spell-checking
Первая супер-библиотека по spelling corruption SAGE.
Работа была не простой, вместе с ребятами из команды AGI NLP- мои герои снова:
@alenusch, @qwertysobaka, @go_bobert.
мы сделали оч крутой инструмент. Он позволяет атаковать тексты при помощи добавления опечаток, перестановок и пр., а также делать обратное - фиксить их.
Интересно?
Го читать на хабр!
https://habr.com/ru/companies/sberdevices/articles/763932/
Наша библиотека SAGE:
https://github.com/ai-forever/sage
AI-service в Клауде:
https://cloud.ru/ru/datahub/generative-spell-checking
Telegram
Dealer.AI
Друзья, сегодня проходит второй день Конференции Диалог2023.
Мы рады сообщить, что наша работа по атакам на текст вошла в Сборник статей, тема: Augmentation methods for spelling corruptions.
Авторы мои коллеги, товарищи и подписчики:@alenusch, @qwertysobaka…
Мы рады сообщить, что наша работа по атакам на текст вошла в Сборник статей, тема: Augmentation methods for spelling corruptions.
Авторы мои коллеги, товарищи и подписчики:@alenusch, @qwertysobaka…
Forwarded from Complete AI (Andrey Kuznetsov)
🏅А кто сегодня молодец и взял Trending paper на Hugging Face, обогнав Google DeepMind и Carnegie Mellon?
Правильный ответ: статья про нашу модель Kandinsky, которую мы выложили на arxiv.
⚡А среди отметивших статью Julien Chaumond (CTO Hugging Face) и Patrick von Platten (Team lead Diffusers)! Со вторым мы активно сотрудничаем по внедрению модели в их самый крупный фреймворк генеративных моделей diffusers (18.2k⭐ на GitHub).
Ссылка на hf
P.S. Trending paper — лучшая статья дня в одном из крупнейших мировых комьюнити исследователей и ML разработок Hugging Face.
@complete_ai
Правильный ответ: статья про нашу модель Kandinsky, которую мы выложили на arxiv.
⚡А среди отметивших статью Julien Chaumond (CTO Hugging Face) и Patrick von Platten (Team lead Diffusers)! Со вторым мы активно сотрудничаем по внедрению модели в их самый крупный фреймворк генеративных моделей diffusers (18.2k⭐ на GitHub).
Ссылка на hf
P.S. Trending paper — лучшая статья дня в одном из крупнейших мировых комьюнити исследователей и ML разработок Hugging Face.
@complete_ai
Forwarded from Дата-Утренник (Максим Герасимов)
This media is not supported in your browser
VIEW IN TELEGRAM
🧹Scrapper
Инструмент для парсинга страниц с JS.
Работает в докере, можно обращаться по апи, сложнее детектируется как бот, может парсить в режиме просмотра (только текст), может использовать прокси и многое другое.
@data_morning
Github
Инструмент для парсинга страниц с JS.
Работает в докере, можно обращаться по апи, сложнее детектируется как бот, может парсить в режиме просмотра (только текст), может использовать прокси и многое другое.
@data_morning
Github
🔥TensorRT-LLM
👉Ваш любимый нейронный ускоритель получил расширение!
TensorRT - движок, который применяет оптимизации для эффективного использования NVIDIA-GPU в Deep Learning.
Что интересного?
💡Интеграция с NVIDIA Triton Inference Server
💡Поддержка Multiple GPU
💡Python API (очень напоминает API HF)
💡Есть поддержка 17 моделей (с примерами): Blib2, LLaMa 1/2, GPT-like, StarCoder, Bert, etc
💡Поддержка квантизации: FP32, FP16, BF16, FP8, INT8, INT4
💡Beam-search & Greedy-search
... и многое другое!
Multi-head Attention (MHA), Multi-query Attention (MQA), Group-query Attention (GQA), In-flight Batching, Paged KV Cache for the Attention, Tensor Parallelism, Pipeline Parallelism, INT4/INT8 Weight-Only Quantization (W4A16 & W8A16), SmoothQuant, GPTQ, AWQ, RoPE
@gradientdip
Конечно, сейчас проект сыроват, но все впереди
Github
Performance (не нашел сравнения с обычным TensorRT)
Документация
👉Ваш любимый нейронный ускоритель получил расширение!
TensorRT - движок, который применяет оптимизации для эффективного использования NVIDIA-GPU в Deep Learning.
Что интересного?
💡Интеграция с NVIDIA Triton Inference Server
💡Поддержка Multiple GPU
💡Python API (очень напоминает API HF)
💡Есть поддержка 17 моделей (с примерами): Blib2, LLaMa 1/2, GPT-like, StarCoder, Bert, etc
💡Поддержка квантизации: FP32, FP16, BF16, FP8, INT8, INT4
💡Beam-search & Greedy-search
... и многое другое!
Multi-head Attention (MHA), Multi-query Attention (MQA), Group-query Attention (GQA), In-flight Batching, Paged KV Cache for the Attention, Tensor Parallelism, Pipeline Parallelism, INT4/INT8 Weight-Only Quantization (W4A16 & W8A16), SmoothQuant, GPTQ, AWQ, RoPE
@gradientdip
Конечно, сейчас проект сыроват, но все впереди
Github
Performance (не нашел сравнения с обычным TensorRT)
Документация