Forwarded from 3D ML
This media is not supported in your browser
VIEW IN TELEGRAM
Привет всем исследователям и разработчикам!
Сталкивались ли вы с проблемой визуализации глубокой архитектуры или ее частей для научной статьи или для лучшего ее понимания? Если вдруг вам понадобиться решать эту задачу, то обратите внимания на репозиторий Tools-to-Design-or-Visualize-Architecture-of-Neural-Network от исследователя Ashish Patel.
23 библиотеки разной степени сложности и функциональности, Наверняка каждый найдет для себя что-то интересное =)
Сталкивались ли вы с проблемой визуализации глубокой архитектуры или ее частей для научной статьи или для лучшего ее понимания? Если вдруг вам понадобиться решать эту задачу, то обратите внимания на репозиторий Tools-to-Design-or-Visualize-Architecture-of-Neural-Network от исследователя Ashish Patel.
23 библиотеки разной степени сложности и функциональности, Наверняка каждый найдет для себя что-то интересное =)
❤1
Forwarded from parhelia / иногда
Нашёл классный сайт - вебморду для нейросетки Hi-Fi-Gan, озвучивающей введённый текст одним из предсобранных голосов. Датасетов очень много - писатели, актёры рэперы, президенты.
Отличный инструмент для генерации вокальных безделушек заместо киношных сэмплов.
https://vo.codes/tts/
Отличный инструмент для генерации вокальных безделушек заместо киношных сэмплов.
https://vo.codes/tts/
Fakeyou
FakeYou Celebrity AI Voice and Video Generator
FakeYou lets you generate voices and videos using AI technology
parhelia / иногда
Нашёл классный сайт - вебморду для нейросетки Hi-Fi-Gan, озвучивающей введённый текст одним из предсобранных голосов. Датасетов очень много - писатели, актёры рэперы, президенты. Отличный инструмент для генерации вокальных безделушек заместо киношных сэмплов.…
Audio
Сложно было удержаться, поэтому вот vocode Елизаветы Второй читает Кендрика Ламара (vocode Ламара тоже там есть)
My left stroke just went viral
Right stroke put lil' baby in a spiral
Soprano C, we like to keep it on a high note
It's levels to it, you and I know
Bitch, be humble
My left stroke just went viral
Right stroke put lil' baby in a spiral
Soprano C, we like to keep it on a high note
It's levels to it, you and I know
Bitch, be humble
Forwarded from Пресидский залив (Nadya Zueva 🅴)
рассказала, как мы дали возможность авторам сообществ включить у себя фильтр враждебных высказываний и еще написали про это статью на WOAH EMNLP https://habr.com/en/company/vk/blog/546186/
Хабр
Чёрный петух, жирный творог и альпийская корова, или Уменьшение предвзятости в классификации токсичности
В ноябре на EMNLP 2020 в четвёртый раз прошёл воркшоп WOAH: он был посвящён алгоритмам, обнаруживающим кибербуллинг и токсичность в онлайн-пространстве. Мы высту...
В августе на хабре вышел интересный анализ зарплат в дата саенс (на основе данных из чатика ODS), и сейчас появилось сопровождающее видео к нему. Не то чтобы там совсем новые и неожиданные вещи, но:
1. Еще раз подтверждается, что компании зачастую не повышают зарплаты текущим сотрудникам, но хайрят на аналогичные позиции по более высокой ставке. Поэтому для многих проще не ждать повышения, а просто перейти на новое место.
2. Дата саентисов ищут больше, чем аналитиков и дата инженеров, и им же в среднем больше платят. Вообще аналитикам повезло меньше всех, так как если представить специализацию как фичу в регрессии, то лейбл аналитика в среднем снижает ожидаемую зарплату 🤡 Но зато у них больше всего рост зп за 2021.
3. Очень сильно растет спрос на мидлов и синьоров, но поскольку их не может резко появиться на рынке много, зарплаты у них растут соответствующе сильно и быстро (+10% и +15%, соотвественно у лидов +22%). Зарплаты у джунов за 2021 не выросли никак.
4. Самый большой скачок зп – между джуном и мидлом, это +74k (+71%). Зато зарплаты синьоров и лидов отличаются не сильно.
5. Больше всего доплачивают за Кубер, Кафку и PyTorch.
1. Еще раз подтверждается, что компании зачастую не повышают зарплаты текущим сотрудникам, но хайрят на аналогичные позиции по более высокой ставке. Поэтому для многих проще не ждать повышения, а просто перейти на новое место.
2. Дата саентисов ищут больше, чем аналитиков и дата инженеров, и им же в среднем больше платят. Вообще аналитикам повезло меньше всех, так как если представить специализацию как фичу в регрессии, то лейбл аналитика в среднем снижает ожидаемую зарплату 🤡 Но зато у них больше всего рост зп за 2021.
3. Очень сильно растет спрос на мидлов и синьоров, но поскольку их не может резко появиться на рынке много, зарплаты у них растут соответствующе сильно и быстро (+10% и +15%, соотвественно у лидов +22%). Зарплаты у джунов за 2021 не выросли никак.
4. Самый большой скачок зп – между джуном и мидлом, это +74k (+71%). Зато зарплаты синьоров и лидов отличаются не сильно.
5. Больше всего доплачивают за Кубер, Кафку и PyTorch.
Хабр
Анализ вакансий и зарплат в Data Science
Привет, Хабр! Делимся нашим исследованием вакансий и зарплат в сфере data science и data engineering. Спрос на специалистов растет, или рынок уже насытился, какие технологии теряют, а какие набирают...
Фан фект – в статье к Perceiver неиронично есть ссылка на 'Критику чистого разума' Канта
Есть очень классное видео с объяснением того, как работает Perciever и в чем суть архитектуры. Perciever – это сетка, обученная для мультмодельных задач, то есть на вход может поступать много разных типов информации (текст, изображение, звук и т.д.), и сама нейронка не знает, что это именно за данные. Помимо того, что нужно уметь справляться с разными инпутами, в этом случае также встает проблема с размерностью, так как те же самые изображения, разбитые на пиксели, продуцируют такой размер входных данных, который классический транфсормер не особо может обработать (поэтому в предшествующих решениях картинку разбивают на патчи, например)
Если очень кратко суммировать:
1. Сначала создается latent array небольшого размера, такого, что классический self-attention может его обработать (условно, каким-то образом мы инициализируем вектор)
2. Берутся входные данные (например, картинка) и растягивается в byte array. Этот array может быть очень большой. Поскольку данные просто растягиваются, а не преобразовываются неким образом, сетка становится инвариантна с типу данных
3. Из этой входной информации получаются матрицы K и V, которые потом пойдут на вход в механизм аттеншена. Матрицу Q мы получаем из небольшого latent array, и она также имеет небольшую размерность –> после аттеншена мы получаем гораздо более короткую последовательность, чем входные данные.
Интуитивно можно понимать, что Q – это то, что мы хотим выучить на основе данных, а K и V – на что нам обращать внимание при этом (что каждый кусочек входных данных нам может сообщить в разрезе того, что мы хотим выучить)
4. Потом этот преобразованный после аттеншена вектор попадает в архитектуру трансформера, он выдает снова преобразованную последовательность, и мы снова 'добавляем' информацию из исходных данных на каждой такой итерации.
5. Архитектура в итоге работает как RNN – сначала мы инициализировали некий Q, получили K и V из данных, подали их в аттеншн и потом в трансформер, получили новый latent array, из которого снова достали Q, и снова получили K и V из данных. То есть на 2+ этапе Q уже содержит информацию о данных, и дальше мы ее 'уточняем'
Еще авторы позволяют weight sharing, чтобы снизить число параметров (получается сопоставимо с ResNet), и обучают на картинках, видео, аудио и 3D clouds. Результаты работы сетки можно посмотреть здесь, если не видели, они довольно впечатляющие
Как отмечают в коментах, подтверждается тезис Шмидхубера о том, что чем больше архитектура похожа на LSTM, тем она лучше
https://www.youtube.com/watch?v=P_xeshTnPZg
Если очень кратко суммировать:
1. Сначала создается latent array небольшого размера, такого, что классический self-attention может его обработать (условно, каким-то образом мы инициализируем вектор)
2. Берутся входные данные (например, картинка) и растягивается в byte array. Этот array может быть очень большой. Поскольку данные просто растягиваются, а не преобразовываются неким образом, сетка становится инвариантна с типу данных
3. Из этой входной информации получаются матрицы K и V, которые потом пойдут на вход в механизм аттеншена. Матрицу Q мы получаем из небольшого latent array, и она также имеет небольшую размерность –> после аттеншена мы получаем гораздо более короткую последовательность, чем входные данные.
Интуитивно можно понимать, что Q – это то, что мы хотим выучить на основе данных, а K и V – на что нам обращать внимание при этом (что каждый кусочек входных данных нам может сообщить в разрезе того, что мы хотим выучить)
4. Потом этот преобразованный после аттеншена вектор попадает в архитектуру трансформера, он выдает снова преобразованную последовательность, и мы снова 'добавляем' информацию из исходных данных на каждой такой итерации.
5. Архитектура в итоге работает как RNN – сначала мы инициализировали некий Q, получили K и V из данных, подали их в аттеншн и потом в трансформер, получили новый latent array, из которого снова достали Q, и снова получили K и V из данных. То есть на 2+ этапе Q уже содержит информацию о данных, и дальше мы ее 'уточняем'
Еще авторы позволяют weight sharing, чтобы снизить число параметров (получается сопоставимо с ResNet), и обучают на картинках, видео, аудио и 3D clouds. Результаты работы сетки можно посмотреть здесь, если не видели, они довольно впечатляющие
Как отмечают в коментах, подтверждается тезис Шмидхубера о том, что чем больше архитектура похожа на LSTM, тем она лучше
https://www.youtube.com/watch?v=P_xeshTnPZg
YouTube
Perceiver: General Perception with Iterative Attention (Google DeepMind Research Paper Explained)
#perceiver #deepmind #transformer
Inspired by the fact that biological creatures attend to multiple modalities at the same time, DeepMind releases its new Perceiver model. Based on the Transformer architecture, the Perceiver makes no assumptions on the modality…
Inspired by the fact that biological creatures attend to multiple modalities at the same time, DeepMind releases its new Perceiver model. Based on the Transformer architecture, the Perceiver makes no assumptions on the modality…
This media is not supported in your browser
VIEW IN TELEGRAM
У Rivers Have Wings как всегда нерельно красивый AI art, это вот только что вышедший StyleGAN3
Forwarded from Мишин Лернинг 🇺🇦🇮🇱
This media is not supported in your browser
VIEW IN TELEGRAM
🧛♀️🐍 Colab StyleGAN3 + CLIP by Мишин Лернинг
Подготовил для вас отполированную и доведённую до ума версию colab для генерации арта по текстовому описанию!
🤖 Для гиков: за основу взял выложенный вчера вечером в твиттере nshepperd1 колаб StyleGAN3 + CLIP, с прикрученным интерфейсом от nn_for_science. Улучшил стабильность и качество генерации, перенеся идеи, которые считаю важными, из vqgan версии.
🎓 Что улучшено в версии от “Мишин Лернинг”:
▪️ Добавил дифференцируемые аугментации. Сильно накидывают в качестве
▪️ Увеличил размер батча для CLIP на каждом шаге оптимизации
▪️ Увеличил размер кропов в батче, на которые смотри CLIP
▪️Подобрал параметры оптимизатора и ema по z между шагами
🔮StyleGAN3 + CLIP by Мишин Лернинг colab
p.s.: prompt для анимации к посту: “A vampire woman with long hairs made of snakes in style of Gustav Klimt”
Подготовил для вас отполированную и доведённую до ума версию colab для генерации арта по текстовому описанию!
🤖 Для гиков: за основу взял выложенный вчера вечером в твиттере nshepperd1 колаб StyleGAN3 + CLIP, с прикрученным интерфейсом от nn_for_science. Улучшил стабильность и качество генерации, перенеся идеи, которые считаю важными, из vqgan версии.
🎓 Что улучшено в версии от “Мишин Лернинг”:
▪️ Добавил дифференцируемые аугментации. Сильно накидывают в качестве
▪️ Увеличил размер батча для CLIP на каждом шаге оптимизации
▪️ Увеличил размер кропов в батче, на которые смотри CLIP
▪️Подобрал параметры оптимизатора и ema по z между шагами
🔮StyleGAN3 + CLIP by Мишин Лернинг colab
p.s.: prompt для анимации к посту: “A vampire woman with long hairs made of snakes in style of Gustav Klimt”
Хороший лонгрид для тех, кто тоже сейчас страдает с поступленим в зарубежные маги. У автора специфичный выбор программ (не в смысле плохой, а в смысле критерии подбора могут распространиться не на всех), но имхо материал очень полезный. Пожалуй основная мысль в том, что да, если вы гений с кучей достижений и ачивок, это очень поможет вашему поступлению, но где-то 50% успеха все равно приходится на грамотный поиск и выбор подходящих программ и стипендий.
Еще статья неплохо может сориентировать в плане того, сколько документов в конечном итоге вам нужно будет подготовить, и с какими объемами бюрократии придется столкнуться (спойлер: с огромными). Очень понравилось, что там максимально подробные примеры с конкретным процессом подачи через разные студенческие сервисы из реального опыта, так что может быть кому-то еще тут будет полезно почитать:
Еще статья неплохо может сориентировать в плане того, сколько документов в конечном итоге вам нужно будет подготовить, и с какими объемами бюрократии придется столкнуться (спойлер: с огромными). Очень понравилось, что там максимально подробные примеры с конкретным процессом подачи через разные студенческие сервисы из реального опыта, так что может быть кому-то еще тут будет полезно почитать:
Вастрик.Клуб
Как я в магистратуру в Европу (и не только) поступал — Вастрик.Клуб
TL;DR: Это лонгрид о моем поступлении в магистратуру за рубеж из Украины с подробностями о процессе выбора университетов, программ, стипендий, написа…
Классный фреймворк для topic modeling – можно подрубить какие угодно эмбеддинги на ваш выбор (или оставить дефолтные), и кластеризировать тексты в zero-shot. По умолчанию это multilingual классификация, так что на инференсе модель справится с текстами и на тех языках, которые во время обучения она могла и не видеть
Помимо того, что это позволяет не тратить время на то, чтобы писать кластеризацию руками, у них есть хороший пайплайн для автоматического препроцессинга текстов. И еще есть прикольный сабмодуль для human-in-the-loop классификации (называется Kitty 🥺), где можно самому поразмечать лейблы для текстов и потом инференсить модель
Помимо того, что это позволяет не тратить время на то, чтобы писать кластеризацию руками, у них есть хороший пайплайн для автоматического препроцессинга текстов. И еще есть прикольный сабмодуль для human-in-the-loop классификации (называется Kitty 🥺), где можно самому поразмечать лейблы для текстов и потом инференсить модель
GitHub
GitHub - MilaNLProc/contextualized-topic-models: A python package to run contextualized topic modeling. CTMs combine contextualized…
A python package to run contextualized topic modeling. CTMs combine contextualized embeddings (e.g., BERT) with topic models to get coherent topics. Published at EACL and ACL 2021 (Bianchi et al.)....
Интересный папирус, в котором авторы воспроизводят увиденное человеком изображание по сканам активности мозга
• Сначала людям показывают видео нескольких категорий (абстрактные геометрические фигуры, лица людей, эктремальный спорт и тд)
• Проводят ЭЭГ и получают колебания активности мозга
• Получают эмбеддинг этих колебаний с помощью LSTM + Attention (так как это просто последовательность частот)
• Получают эмбеддинг картинки с помощью VGG
• Считают лосс между эмбеддингом активности мозга и картинкой, прибавляют к этому лосс между картинкой, восстановленной по ЭЭГ, и картинкой, восстановленной по эмбеддингу исходного изображения (декодер для картинок там один и тот же для обоих процессов)
Выше схема обучения вместе в примерами реконструкции, получается довольно неплохо
• Сначала людям показывают видео нескольких категорий (абстрактные геометрические фигуры, лица людей, эктремальный спорт и тд)
• Проводят ЭЭГ и получают колебания активности мозга
• Получают эмбеддинг этих колебаний с помощью LSTM + Attention (так как это просто последовательность частот)
• Получают эмбеддинг картинки с помощью VGG
• Считают лосс между эмбеддингом активности мозга и картинкой, прибавляют к этому лосс между картинкой, восстановленной по ЭЭГ, и картинкой, восстановленной по эмбеддингу исходного изображения (декодер для картинок там один и тот же для обоих процессов)
Выше схема обучения вместе в примерами реконструкции, получается довольно неплохо
Туториал про то, как заставить BERT принимать на вход категориальные и числовые параметры
Собственно сам метод довольно прост – такие параметры нужно обернуть в текст. Например, чтобы предсказать рейтинг товара по его отзыву и цене, нужно не передать его цену саму по себе, а вписать число в конструкцию типа
Решение вроде бы на поверхности (для той же GPT очень часто текст оборачивают в те или иные конструкции, чтобы она выполняла определенную задачу), но с бертом почему-то не приходило в голову сделать так же
Еще там внутри хороший такой код для подготовки данных и обучения берта с шедулером, можно себе заимствовать
Собственно сам метод довольно прост – такие параметры нужно обернуть в текст. Например, чтобы предсказать рейтинг товара по его отзыву и цене, нужно не передать его цену саму по себе, а вписать число в конструкцию типа
this item costs {amount}
, и затем объединить с отзывом. Эксперимент автора показывает, что учет таких категориальных данных помогает сравнительно с предсказанием только на самом тексте, хоть изменение и инкрементально Решение вроде бы на поверхности (для той же GPT очень часто текст оборачивают в те или иные конструкции, чтобы она выполняла определенную задачу), но с бертом почему-то не приходило в голову сделать так же
Еще там внутри хороший такой код для подготовки данных и обучения берта с шедулером, можно себе заимствовать