Интересное что-то
517 subscribers
2.72K photos
253 videos
140 files
4.53K links
Материалы и мысли, понадерганные отовсюду
Блог: https://t.me/asisakov_channel
Чат: https://t.me/youknowds_chat
Download Telegram
This media is not supported in your browser
VIEW IN TELEGRAM
🛠 Интересный проект: разработчик создал простую систему, которая помогает пройти собеседование, фактически отвечая за вас!

Алгоритм работает так: Whisper преобразует речь интервьюера в текст, передаёт его ChatGPT, который генерирует ответ. Затем вы просто читаете его с экрана.

Всё, что вам нужно — открывать рот и произносить готовые фразы🤣

GitHub

@machinelearning_interview
Forwarded from эйай ньюз
Запись большого стрима про карьеру и собесы в БигТех

Так как все спрашивали про запись недавнего стрима с коллегами из FAANG, мы все-таки ее выложили:)

Вот таймкоды, на интересные моменты:
2:00 - Интро
10:27 - Интро со мной, про мои походы в горы
11:49 - Чем я занимаюсь по работе
12:30 - Emu Flash - риалтайм генерация картинок в meta-ai, и как наша демка дошла до Цукерберга
20:40 - Кто спал днем, а кто всю ночь работал
21:45 - Как выглядят собесы на ресерч менеджера в Мету
33:20 - Про Behavioral интервью
45:22 - Какие собесы на research позиции?
48:27 - Коротко про AI Research Design интервью
49:17 - Почему нужно PhD на ресерч роли, какие скилы применяются в работе
51:05 - Будут ли умирать роли в Applied Research с приходом LLM? (нет)
55:54 - Про менторство, как это помогает расти, как найти ментора.
1:11:13 - Какая мотивация работать в БигТехе.
1:49:24 - Заключение. Финальные советы по прохождению собесов и по карьере в целом.

Как и обещал на стриме ( 1:02:25 ), я анонсировал закрытое комьюнити по подготовке к собеседованиям на AI/ML роли в FAANG и не-FAANG. Подробности и как записаться – в посте.

@ai_newz
Forwarded from Борис опять
Яндекс опубликовал на Хабре статью об использовании YandexGPT для генерации объявлений.

Я вообще не знал о такой функции: оказывается продавец большого количества товаров может отдать Яндекс.Директу их описания и получить автоматически сгенерированные объявления.

Отличная задача на ML System Design. Нужно объединить несколько источников данных, задействовать очень тяжёлую генеративную модель , эмбеддер и ранжирование, поддерживать большую нагрузку и все в условиях ограниченных ресурсов GPU. Хоть на собеседованиях давай.

Порадовал момент "сервис обрабатывает ВСЕГО ЛИШЬ 10 тысяч объявлений в секунду, поэтому нам пришлось ускорять :(".

Очень круто описан кейс оптимизации через асинхронную обработку, партицирование, параллелизацию, повышение утилизации GPU, дистилляцию эмбеддера и ранжировщика, устранение CPU бутылочных горлышек. Результаты впечатляют: RPS подняли до 70к+, снизили количество реплик в самом нагруженном месте на порядок.

Мне даже оказалось релевантно по работе, потому что обрабатывать много товаров тяжелым ML это прямо наш домен.

Один из самых клевых примеров применения LLM, что я видел.
Forwarded from Kapitsa.AI
Часть 1. Речь 🗣

Начнём душнить с разбора звуковой дорожки. Как мы уже писали, скрипт для цифрового двойника подготовил человек. Далее разработчики среди видеоматериалов в открытом доступе интервью с наиболее хорошим качеством звука и отделили аудиодорожку с помощью средства ffmpeg. Поскольку качество аудио было неидеальным, его почистили от шума с помощью библиотеки noisereduce, работающей на основе технологии DSP (об этой технологии подробнее и на русском можно почитать тут).

Дальше нужно было найти решение, с помощью которого голосом Сергея Капицы зазвучал бы текст, который он никогда не зачитывал. Для этого разработчики выбрали библиотеку Coqui-AI, дописав буквально несколько строк на Python, и протестировали несколько нейросетей: xtts_v2, fairseq и silero.

Наилучший результат на нашем материале выдала нейросеть xtts_v2, но и тот оказался неидеальным. Чтобы успеть доделать речь к старту, артефакты звуковой дорожки разработчики вычистили вручную. В дальнейшем же мы будем стараться достичь более высокого качества генерации звука и более точных интонаций (признаться, мы уже продвинулись в этом направлении — следите за обновлениями).

Вся описанная выше работа с речью заняла у разработчика целый день.

Проект поддержан Министерством науки и высшего образования РФ.

#десятилетиенауки #МинобрнаукиРоссии #популяризациянауки #KapitsaAI
Forwarded from Kapitsa.AI
Мы сделали дипфейк с помощью самого доступного и качественного фреймворка Wav2Lip. Программа синхронизирует мимику человека на фрагменте видео с новой аудиодорожкой. Мы взяли фрагмент из передачи «Очевидное невероятное», написали свой приветственный текст о наших грандиозных планах, озвучили его, а нейросетевые алгоритмы заменили движения рта и губ Сергея Петровича. В итоге ит ис вот ит ис.

Но из Wav2Lip вышло видео низкого разрешения с обилием артефактов (отчасти это связано с качеством исходного видео). Чтобы это исправить, мы использовали нейросетевые инструменты, которые улучшают качество изображения. Первый из них — Codeformer. Эта нейросеть повышает разрешение видео, делает его четче. Однако плата за это — потеря плавности движений и, как следствие, правдоподобности.

Тогда мы запустили нейросеть TAPE. Она как раз возвращает герою видео человечность, делает мимику более правдоподобной. Комбинация нейросетей Codeformer и TAPE позволяет получить видео достаточно высокого качества и не сильно пугающее. Но есть одно но.

TAPE — довольно тяжелый инструмент. Если мы захотим задавать Капице вопросы в режиме реального времени, ответов мы не дождемся. TAPE просто не сможет все качественно прогрузить. А у нас есть цель задавать Капице вопросы в режиме реального времени, так что мы двигаемся дальше.

Проект поддержан Министерством науки и высшего образования РФ. #десятилетиенауки #МинобрнаукиРоссии #популяризациянауки #KapitsaAI
Forwarded from Kapitsa.AI
Из всего разнообразия моделей Fine-Tune мы взяли нейросеть xtts_v2. Она поддерживает 16 языков, причём с русским справляется лучше многих конкурентов. Ещё она умеет понимать контекст и с опорой на него расставлять паузы, ударения и делать интонационные акценты. А если нейросеть дообучить на речи конкретного человека, то она сможет имитировать индивидуальные особенности его речи. Перед тем, как записать вторую дорожку, мы показали модели образцы речи Сергея Петровича и, кажется, она смогла отчасти скопировать его манеру.

Теперь мы планируем продолжать дообучение этой модели, чтобы добиться не только естественного звучания, но и большей похожести речи цифрового двойника на Сергея Капицу.

Проект поддержан Министерством науки и высшего образования РФ.

#десятилетиенауки #МинобрнаукиРоссии #популяризациянауки #KapitsaAI
Forwarded from Kapitsa.AI
Хочу свой 3D-аватар. Как его делать?

Предупреждаем сразу: создать свою 3D-модель — до сих пор не самая простая задача. Если вы хотите попробовать «оцифровать» себя самостоятельно, мы собрали несколько инструкций по MetaHuman Animator в Unreal Engine 5.2, которые могут помочь:

✏️ Руководство MetaHuman (EpicGames, английский)

🎥 Видео Unreal Engine: как создавать реалистичные цифровые модели в MetaHuman Creator, как использовать Mesh Data (английский)

✏️ Руководство по настройке и использованию MetaHuman (английский)

✏️ MetaHuman Creator. The starting point of the metaverse (Доклад на International Symposium on Computer Technology and Information Science (ISCTIS), 2021. Английский)

Изображение: dev.epicgames.com

#десятилетиенауки #МинобрнаукиРоссии #популяризациянауки #KapitsaAI
Forwarded from Kapitsa.AI
Как развивались языковые модели. Схема

В посте про языковые модели мы, конечно же, упомянули не все — объяснили только базовые принципы. Вот — схема для более глубокого погружения в тему LLM. Навигация такая:

— Модели на основе трасформаторов показаны не-серым цветом — голубым отмечены декодеры, розовым — энкодеры, зеленым — энкодеры-декодеры;

— Временная шкала показывает год их выпуска;

— Модели с открытым исходным кодом — квадраты с цветовой заливкой, с закрытым исходным кодом — пустые;

— Столбчатая диаграмма в правом нижем углу показывает количество моделей по компаниям.

Источник: Harnessing the Power of LLMs in Practice: A Survey on ChatGPT and Beyond

#десятилетиенауки #МинобрнаукиРоссии #популяризациянауки #KapitsaAI
Forwarded from Kapitsa.AI
Как работает квантованная версия (4 бита) LLaMa3.1-8b

Для тех, кто хочет разобраться в LLAma 3.1-8b глубже — короткий обзор структуры.

Эта языковая модель работает по принципам трансформерных архитектур, о которых мы рассказывали ранее (тут — про языковое моделирование, а тут — про LLaMa). В LLaMA используется декодер-ориентированная трансформерная модель для предсказания следующего токена в последовательности. Что еще:

Механизм внимания (Self-attention): он позволяет модели эффективно обрабатывать длинные последовательности текста, фокусируясь на самых релевантных частях входного текста при предсказании следующего слова.

Распределённые представления (Embeddings): Каждый входной токен (слово или символ) преобразуется в векторное представление через embedding-слой. Эти векторы содержат информацию о контексте и значении слова, что помогает модели строить более точные прогнозы.

Число параметров модели — это показатель её мощности. Параметры — это веса, которые оптимизируются в процессе обучения. Чем больше параметров, тем более сложные паттерны и зависимости может выявить модель, что улучшает её способность генерировать контекстно точные и осмысленные тексты. В нашем случае — это 8 млрд параметров.

Обучение модели

LLaMA 3.1-8B обучена на огромных корпусах текстов, включающих разнообразные источники информации — книги, статьи, форумы, веб-страницы и т. д. Обучение происходит на основе задачи предсказания следующего слова в предложении (Language Modeling). Модель обрабатывает текст последовательно и на каждом шаге предсказывает следующий токен, используя контекст предыдущих слов.

Используется параллельное обучение — для оптимизации производительности: веса перераспределены между несколькими видеокартами. Как в примере на картинке — 16 видеокарт разбиты на две группы по каждому из четырех признаков. Задействовано четыре вида параллелизма:

— Тензорный параллелизм (разбивает веса слоя нейросети на порции для разных устройств)
— Параллелизм пайплайна (вертикальная разбивка модели по слоям)
— Параллелизм контекста (разделение входа на сегменты для уменьшения перегрузки памяти для длинных последовательностей)
— Параллелизм данных (разные обучающие примеры обсчитываются на разных устройствах)

Трёхстадийное пред-обучение

Претрейн – последовательно увеличивается длина последовательности (4к, 8к) и размер батча (части датасета, проходящего через нейросеть), в обучающие данные добавляется больше мультиязычных данных, математические данные используются с увеличенной частотой, добавляются последние данные из поисковых запросов, частота низкокачественных данных снижается.

Претрейн на длинном контексте – до 128к токенов. Последовательно увеличивается длина контекста. Обучение с фиксированной длиной происходит до тех пор, пока не восстанавливается качество на коротких контекстах и модель способна решить задачу «поиска иголки в стоге сена» для заданного контекста.

Запекание\отжиг (annealing) – последовательное уменьшение learning rate для длинного контекста с последующим усреднением нескольких моделей.

Постобучение

В процессе пост-обучения происходит шесть итераций. На каждой итерации выбираются аннотированные данные (из тройки Отвергнутый Ответ – Принятый Ответ – Улучшенный ответ), на которых обучается Учитель (Reward Model). Затем происходит SFT (Supervised Finetuning – донастройка модели с учителем). После этого производится DPO (Direct Preference Optimization). И наконец, полученные таким образом модели с разных итераций взвешиваются между собой.

#десятилетиенауки #МинобрнаукиРоссии #популяризациянауки #KapitsaAI