Forwarded from AbstractDL
Недообученные нейросети — лучшие feature экстракторы
К удивительному выводу пришли две независимые группы исследователей из Google и Baidu — чем дольше учить нейронную сеть, тем хуже выразительная способность её фичей. То есть, не смотря на рост top-1 accuracy по мере обучения, качество её репрезентаций в какой-то момент начинает падать!
VGG и AlexNet давно известны тем, что их фичи отлично подходят для оценки perceptual similarity, но оказалось, что и все современные SOTA модели тоже подходят — просто надо брать не самый последний чекпоинт.
Более того, похоже, что для down-stream задач тоже лучше использовать эмбеддинги от недообученных моделей.
P.S. Проблема в том, что в какой-то момент модель становится настолько умной, что её фичи только она сама и понимает 🤷♂️
статья1, статья2
К удивительному выводу пришли две независимые группы исследователей из Google и Baidu — чем дольше учить нейронную сеть, тем хуже выразительная способность её фичей. То есть, не смотря на рост top-1 accuracy по мере обучения, качество её репрезентаций в какой-то момент начинает падать!
VGG и AlexNet давно известны тем, что их фичи отлично подходят для оценки perceptual similarity, но оказалось, что и все современные SOTA модели тоже подходят — просто надо брать не самый последний чекпоинт.
Более того, похоже, что для down-stream задач тоже лучше использовать эмбеддинги от недообученных моделей.
P.S. Проблема в том, что в какой-то момент модель становится настолько умной, что её фичи только она сама и понимает 🤷♂️
статья1, статья2
Мы выпустили финальную лекцию про нейронные сети.
В лекции я разбираю несколько тем, которые не вошли в основную программу (Depth и Pose Estimation), рассказываю про то как исследования мозга помогают улучшать машинное обучение, и как машинное обучение помогает исследовать мозг, а так же рассуждаю про то, в какую сторону мы движемся и что может быть дальше.
Лекция 12. Финал
В лекции я разбираю несколько тем, которые не вошли в основную программу (Depth и Pose Estimation), рассказываю про то как исследования мозга помогают улучшать машинное обучение, и как машинное обучение помогает исследовать мозг, а так же рассуждаю про то, в какую сторону мы движемся и что может быть дальше.
Лекция 12. Финал
YouTube
МФК «Нейронные сети и их применение в научных исследованиях». Лекция 12: Финал.
Архив лекций межфакультетского курса «Нейронные сети и их применение в научных исследованиях» для студентов МГУ.
Актуальные материалы смотрите на сайте https://msu.ai/mfk
Двенадцатое занятие на МФК-курсе «Нейронные сети и их применение в научных исследованиях»…
Актуальные материалы смотрите на сайте https://msu.ai/mfk
Двенадцатое занятие на МФК-курсе «Нейронные сети и их применение в научных исследованиях»…
Forwarded from Мишин Лернинг 🇺🇦🇮🇱
🥑 DALL·E 2 Pre-Training Mitigations | OpenAI Blog Post
Тут только что вышел блокпост у OpenAI, где рассматривается сложности (реальные или наложенные новой этикой), с которым пришлось столкнуться OpenAI, чтобы была возможна генерации, пускай и в режими «элитарного клуба»..
p.s.:подождите немного, надеюсь, что у нас выйдет сделать что-то интересное 🎁
👉 Пост про DALL•E 2 от OpenAI
Тут только что вышел блокпост у OpenAI, где рассматривается сложности (реальные или наложенные новой этикой), с которым пришлось столкнуться OpenAI, чтобы была возможна генерации, пускай и в режими «элитарного клуба»..
p.s.:
👉 Пост про DALL•E 2 от OpenAI
Forwarded from Мишин Лернинг 🇺🇦🇮🇱
🤖 Рекомендации от Мишин Лернинг
Сейчас стало очень много телеграмм каналов посвящённых ИИ. Большенство админов мои хорошие друзья и приятели. И я рад, что у нас сформировалось дружное и прогрессивное AI комьюнити.
Я сам последнее время занят в сфере мультимодалок и вот захотел поделиться с вами двумя каналами, админы которых — практикующие ресерчеры, которые как раз из этой тусовки.
🤖👨🎨 Канал ShonenkovAI
Админ — заслуженный Kaggle GM, автор известных аналогов DALL•E. Ресерчер и адепт опенсорса. Сейчас Shonenkov пишет, что уходит от корпораций и собирается делать ИИ доступным каждому.
🤖🤿 Канал Градиентное Погружение
Канал двух молодых ресерчеров, которые выиграли много ml соревнований. Ребята делают настоящий независимый ресерч. В канале обсуждают ml новости и новые сетки. (ребятам чуть чуть осталось до 1000, поможем?)
p.s.: Все только по любви, никакой рекламы.. Буду рад, если поддержите ребят подпиской 👍
@мишин лернинг
Сейчас стало очень много телеграмм каналов посвящённых ИИ. Большенство админов мои хорошие друзья и приятели. И я рад, что у нас сформировалось дружное и прогрессивное AI комьюнити.
Я сам последнее время занят в сфере мультимодалок и вот захотел поделиться с вами двумя каналами, админы которых — практикующие ресерчеры, которые как раз из этой тусовки.
🤖👨🎨 Канал ShonenkovAI
Админ — заслуженный Kaggle GM, автор известных аналогов DALL•E. Ресерчер и адепт опенсорса. Сейчас Shonenkov пишет, что уходит от корпораций и собирается делать ИИ доступным каждому.
🤖🤿 Канал Градиентное Погружение
Канал двух молодых ресерчеров, которые выиграли много ml соревнований. Ребята делают настоящий независимый ресерч. В канале обсуждают ml новости и новые сетки. (ребятам чуть чуть осталось до 1000, поможем?)
p.s.: Все только по любви, никакой рекламы.. Буду рад, если поддержите ребят подпиской 👍
@мишин лернинг
Наглядное пособие по текстовым эмбедингам
Когда люди говорят о больших языковых моделях (LLM), вероятно, первое, что они обсуждают, - это возможность генерации текста, например, написание эссе.
Но языковые модели можно использовать и по-другому - для представления текста (text representation): для каждого текста мы можем получить набор чисел, которые каким-то образом отражают семантику текста. Эти числа называются текстовыми эмбедингами.
Сегодня мне на глаза попалась статья, в которой используется визуальный подход, для объяснения текстовых эмбедингов. Прочитав статью вы узнаете о том, для каких случаев они подходят и как их можно настроить с помощью файнтюнинга.
📖 Статья
@nn_for_science
Когда люди говорят о больших языковых моделях (LLM), вероятно, первое, что они обсуждают, - это возможность генерации текста, например, написание эссе.
Но языковые модели можно использовать и по-другому - для представления текста (text representation): для каждого текста мы можем получить набор чисел, которые каким-то образом отражают семантику текста. Эти числа называются текстовыми эмбедингами.
Сегодня мне на глаза попалась статья, в которой используется визуальный подход, для объяснения текстовых эмбедингов. Прочитав статью вы узнаете о том, для каких случаев они подходят и как их можно настроить с помощью файнтюнинга.
📖 Статья
@nn_for_science
MINERVA - нейросеть-математик от Google
Языковые модели хорошо решают многие задачи естественного языка, но не все.
Например ЯМ не очень умеют в количественные рассуждения (quantitative reasoning). Решение математических вопросов требует правильного разбора вопроса с использованием естественного языка и математических обозначений, запоминание соответствующих формул и констант, а также генерацию пошаговых решений, в том числе расчеты и символьные манипуляции.
Гугл выпустил Минерву - языковую модель, способную решать математические и научные вопросы с помощью пошаговых рассуждений. Minerva решает такие задачи, генерируя решения, включающие числовые вычисления и символьные манипуляции, не полагаясь на внешние инструменты, такие как калькулятор.
🤏 Блог-пост
👉 Статья
🥹 ДЕМО
Языковые модели хорошо решают многие задачи естественного языка, но не все.
Например ЯМ не очень умеют в количественные рассуждения (quantitative reasoning). Решение математических вопросов требует правильного разбора вопроса с использованием естественного языка и математических обозначений, запоминание соответствующих формул и констант, а также генерацию пошаговых решений, в том числе расчеты и символьные манипуляции.
Гугл выпустил Минерву - языковую модель, способную решать математические и научные вопросы с помощью пошаговых рассуждений. Minerva решает такие задачи, генерируя решения, включающие числовые вычисления и символьные манипуляции, не полагаясь на внешние инструменты, такие как калькулятор.
🤏 Блог-пост
👉 Статья
🥹 ДЕМО
Шахматисты подсмотрели у нейросети парочку новых трюков
Чему учатся сложные нейросетевые агенты, такие как AlphaZero? Этот вопрос представляет как научный, так и практический интерес.
Ученые из Google постарались ответить на этот вопрос. В своей работе, они приводят доказательства того, что нейросеть AlphaZero приобрела человеческие знания в процессе ее обучения игре в шахматы. Исследуя широкий спектр человеческих шахматных понятий, они показываем, когда и где эти понятия представлены в сети AlphaZero. В статье также предоставлен поведенческий анализ нейросети от шахматного гроссмейстера Владимира Крамника.
Шахматист даже утверждает, что научился новым ходам и идеям у нейросети (похожие мысли высказывали и топовые игроки в Го, которые анализировали игру компьютера ).
♟ Статья
Чему учатся сложные нейросетевые агенты, такие как AlphaZero? Этот вопрос представляет как научный, так и практический интерес.
Ученые из Google постарались ответить на этот вопрос. В своей работе, они приводят доказательства того, что нейросеть AlphaZero приобрела человеческие знания в процессе ее обучения игре в шахматы. Исследуя широкий спектр человеческих шахматных понятий, они показываем, когда и где эти понятия представлены в сети AlphaZero. В статье также предоставлен поведенческий анализ нейросети от шахматного гроссмейстера Владимира Крамника.
Шахматист даже утверждает, что научился новым ходам и идеям у нейросети (похожие мысли высказывали и топовые игроки в Го, которые анализировали игру компьютера ).
♟ Статья
Self-Supervised Contrastive Pre-Training For Time Series via Time-Frequency Consistency
Предварительное обучение на временных рядах (например график температуры, цена акций и тп) представляет собой сложную проблему из-за потенциального несоответствия между тренировочными и тестовыми данными (например сдвиги во временной динамике, циклические эффекты и тп).
По сравнению с другими модальностями, во временных рядах мы ожидаем, что временные и частотные представления одного и того же примера расположены близко друг к другу во временно-частотном пространстве. Это значит что мы можем посчитать эмбеддинг сигнала во временном домене и его же эмбединг в частотном. Если наша сеть обучена правильно, то эти эмбединги (их косинусное расстояние) будут располагаться близко друг другу.
📖 Статья
🤖 Код
#signalprocessing #SSL
Предварительное обучение на временных рядах (например график температуры, цена акций и тп) представляет собой сложную проблему из-за потенциального несоответствия между тренировочными и тестовыми данными (например сдвиги во временной динамике, циклические эффекты и тп).
По сравнению с другими модальностями, во временных рядах мы ожидаем, что временные и частотные представления одного и того же примера расположены близко друг к другу во временно-частотном пространстве. Это значит что мы можем посчитать эмбеддинг сигнала во временном домене и его же эмбединг в частотном. Если наша сеть обучена правильно, то эти эмбединги (их косинусное расстояние) будут располагаться близко друг другу.
📖 Статья
🤖 Код
#signalprocessing #SSL
Ребята из LAION собрали 3D - Text датасет. А это значит, что скоро мы увидим 3D Dall-E!!!
Просто представьте себе как 3D сцена рендериться по текстовому запросу. Это будет совершенно новый уровень всего!
Ждем. Кстати датасет, конечно же в открытом доступе. Open Source rules!
Датасет тут
За наводку спасибо Саше из @lovedeathtransformers
Просто представьте себе как 3D сцена рендериться по текстовому запросу. Это будет совершенно новый уровень всего!
Ждем. Кстати датасет, конечно же в открытом доступе. Open Source rules!
Датасет тут
За наводку спасибо Саше из @lovedeathtransformers
Media is too big
VIEW IN TELEGRAM
Синтетических биороботов научили размножаться
В начале прошлого года группа исследователей объявила о создании первых в мире живых машин - пучков стволовых клеток африканских когтистых лягушек (Xenopus laevis), которые можно запрограммировать на выполнение определенных задач. Клетки размером с песчинку могли успешно перемещать микроскопические объекты, перемещаться по чашкам Петри и даже самовосстанавливаться.
Ученые добились этого с помощью суперкомпьютера и эволюционного алгоритма: компьютер автоматически проектирует новые машины в симуляции, а затем лучшие конструкции прошедшие эволюционный отбор, собираются учеными в реальном мире.
С момента своего первого исследования команда работала над тем, чтобы использовать возможности этих крошечных роботов, названных "ксеноботами".
В новом исследовании команда объявила, что ксенороботы теперь могут размножаться способом, совершенно отличным от всех известных науке растений и животных: собирая свободно плавающие клетки в новые кластеры.
В начале прошлого года группа исследователей объявила о создании первых в мире живых машин - пучков стволовых клеток африканских когтистых лягушек (Xenopus laevis), которые можно запрограммировать на выполнение определенных задач. Клетки размером с песчинку могли успешно перемещать микроскопические объекты, перемещаться по чашкам Петри и даже самовосстанавливаться.
Ученые добились этого с помощью суперкомпьютера и эволюционного алгоритма: компьютер автоматически проектирует новые машины в симуляции, а затем лучшие конструкции прошедшие эволюционный отбор, собираются учеными в реальном мире.
С момента своего первого исследования команда работала над тем, чтобы использовать возможности этих крошечных роботов, названных "ксеноботами".
В новом исследовании команда объявила, что ксенороботы теперь могут размножаться способом, совершенно отличным от всех известных науке растений и животных: собирая свободно плавающие клетки в новые кластеры.
Мета выпустила переводчик на 200 языков.
Зацените новый прорыв Меты в области машинного перевода, о котором только что объявил Марк Цукерберг. Они создали и выложили в открытый доступ модель, с громким названием No language left behind (Ни один язык не останется за бортом), которая переводит с 200 различных языков.
Методы из этой работы были применены для улучшения переводов на Facebook, Instagram и даже Wikipedia.
📖 Статья
🗽 Код
Зацените новый прорыв Меты в области машинного перевода, о котором только что объявил Марк Цукерберг. Они создали и выложили в открытый доступ модель, с громким названием No language left behind (Ни один язык не останется за бортом), которая переводит с 200 различных языков.
Методы из этой работы были применены для улучшения переводов на Facebook, Instagram и даже Wikipedia.
📖 Статья
🗽 Код
This media is not supported in your browser
VIEW IN TELEGRAM
Сингулярность на пороге. Как ИИ проектирует GPU?
NVIDIA использует ИИ для разработки более компактных, быстрых и эффективных микросхем, обеспечивающих повышение производительности с каждым поколением чипов.
В работе PrefixRL: Optimization of Parallel Prefix Circuits using Deep Reinforcement Learning исследователи демонстрируют, что ИИ не только может научиться проектировать эти схемы с нуля, но и разработанные им схемы меньше и быстрее, чем схемы, разработанные современными инструментами автоматизации электронного проектирования (EDA). Новейшая архитектура NVIDIA Hopper GPU имеет почти 13 000 чипов, разработанных ИИ.
За наводку спасибо @j_links
NVIDIA использует ИИ для разработки более компактных, быстрых и эффективных микросхем, обеспечивающих повышение производительности с каждым поколением чипов.
В работе PrefixRL: Optimization of Parallel Prefix Circuits using Deep Reinforcement Learning исследователи демонстрируют, что ИИ не только может научиться проектировать эти схемы с нуля, но и разработанные им схемы меньше и быстрее, чем схемы, разработанные современными инструментами автоматизации электронного проектирования (EDA). Новейшая архитектура NVIDIA Hopper GPU имеет почти 13 000 чипов, разработанных ИИ.
За наводку спасибо @j_links
Вышла крупнейшая в мире открытая многоязычная языковая модель: BLOOM
Большие языковые модели (LLM) оказали значительное влияние на исследования в области ИИ. Эти мощные модели могут решать широкий спектр новых языковых задач на основе инструкций пользователя. Однако академическим кругам, некоммерческим организациям и исследовательским лабораториям небольших компаний сложно создавать, изучать или даже использовать LLM, поскольку полный доступ к ним имеют лишь несколько промышленных лабораторий, обладающих необходимыми ресурсами и эксклюзивными правами. Сегодня, международная коллаборация BigScience выпускает BLOOM, первую многоязычную LLM, обученную в условиях полной прозрачности.
BLOOM - результат крупнейшего сотрудничества исследователей ИИ, когда-либо участвовавших в одном исследовательском проекте.
Имея 176 миллиардов параметров, BLOOM способен генерировать текст на 46 естественных языках и 13 языках программирования. Почти для всех из них, таких как испанский, французский и арабский, BLOOM станет первой в истории языковой моделью с более чем 100 миллиардами параметров. Это кульминация года работы с участием более 1000 исследователей из 70+ стран и 250+ институтов, в результате которой модель BLOOM обучалась 117 дней (с 11 марта по 6 июля) на суперкомпьютере Jean Zay на юге Парижа, Франция.
Модель
Большие языковые модели (LLM) оказали значительное влияние на исследования в области ИИ. Эти мощные модели могут решать широкий спектр новых языковых задач на основе инструкций пользователя. Однако академическим кругам, некоммерческим организациям и исследовательским лабораториям небольших компаний сложно создавать, изучать или даже использовать LLM, поскольку полный доступ к ним имеют лишь несколько промышленных лабораторий, обладающих необходимыми ресурсами и эксклюзивными правами. Сегодня, международная коллаборация BigScience выпускает BLOOM, первую многоязычную LLM, обученную в условиях полной прозрачности.
BLOOM - результат крупнейшего сотрудничества исследователей ИИ, когда-либо участвовавших в одном исследовательском проекте.
Имея 176 миллиардов параметров, BLOOM способен генерировать текст на 46 естественных языках и 13 языках программирования. Почти для всех из них, таких как испанский, французский и арабский, BLOOM станет первой в истории языковой моделью с более чем 100 миллиардами параметров. Это кульминация года работы с участием более 1000 исследователей из 70+ стран и 250+ институтов, в результате которой модель BLOOM обучалась 117 дней (с 11 марта по 6 июля) на суперкомпьютере Jean Zay на юге Парижа, Франция.
Модель
huggingface.co
bigscience/bloom · Hugging Face
We’re on a journey to advance and democratize artificial intelligence through open source and open science.
Forwarded from Love. Death. Transformers.
#чтивонаночь
RITA: a Study on Scaling Up Generative Protein Sequence Models
Есть классическая задача моделирования протеина,
которую очень хорошо решают трансформеры тк речь идет о вполне NLPшной последовательности.
- 280m протеиновых последовательностей в претрейне из сетов UniRef-100, MGnify и
Metaclust
- Rotary Positional Embeddings просто потому что это улучшает качество модели
- Претрейн как GPT3 с аналогичными гипараметрами в
следующих размерах: 85, 300, 680m и 1.2b соотвественно с seqlen 1024
- По метрикам обгонят PROTOGPT2
доступно в huggingaface простым
arxiv
github
Boosty если вы хотите помочь купить мне железа
RITA: a Study on Scaling Up Generative Protein Sequence Models
Есть классическая задача моделирования протеина,
которую очень хорошо решают трансформеры тк речь идет о вполне NLPшной последовательности.
- 280m протеиновых последовательностей в претрейне из сетов UniRef-100, MGnify и
Metaclust
- Rotary Positional Embeddings просто потому что это улучшает качество модели
- Претрейн как GPT3 с аналогичными гипараметрами в
следующих размерах: 85, 300, 680m и 1.2b соотвественно с seqlen 1024
- По метрикам обгонят PROTOGPT2
доступно в huggingaface простым
AutoModelForCausalLM.from_pretrained("lightonai/RITA_s", trust_remote_code=True)
датасет лежит тутarxiv
github
Boosty если вы хотите помочь купить мне железа
Mimesis: The Fake Data Generator
Mimesis - это генератор фальшивых данных для Python, который умеет синтезировать данные для различных целей на различных языках.
Фальшивые данные могут быть использованы для наполнения базы данных тестирования, создания фальшивых конечных точек API, создания JSON и XML файлов произвольной структуры, анонимизации данных, взятых из индустрии и т.д.
Mimesis - это генератор фальшивых данных для Python, который умеет синтезировать данные для различных целей на различных языках.
Фальшивые данные могут быть использованы для наполнения базы данных тестирования, создания фальшивых конечных точек API, создания JSON и XML файлов произвольной структуры, анонимизации данных, взятых из индустрии и т.д.
>>> from mimesis import Person
>>> from mimesis.locales import Locale
>>> person = Person(Locale.EN)
>>> person.full_name()
'Brande Sears'
>>> person.email(domains=['example.com'])
'roccelline1878@example.com'
🐙GitHubForwarded from эйай ньюз
CS25: Transformers United
Ух! Вышел курс чисто по Трансформерам от Стенфорда! Думаю, должно быть интересно.
Выложили уже 4 лекции. Го смотреть, прокачиваться.
🌐 Сайт
📺 Видео лекции
@ai_newz
Ух! Вышел курс чисто по Трансформерам от Стенфорда! Думаю, должно быть интересно.
Выложили уже 4 лекции. Го смотреть, прокачиваться.
🌐 Сайт
📺 Видео лекции
@ai_newz
Forwarded from Мишин Лернинг 🇺🇦🇮🇱
🧠 Andrej Karpathy станет независимым ресерчером и частью stability.ai, куда входят такие команды как: EleutherAI и LAION
Stability AI
AI by the people for the people. We are building the foundation to activate humanity's potential.
Out-of-Distribution Detection with Deep Nearest Neighbors
Обнаружение вне распределения (OOD) является важной задачей для применения машинного обучения в реальном мире с реальными данными.
В данной работе, авторы, исследуют эффективность непараметрического расстояния ближайшего соседа для обнаружения OOD.
🐙 Код 📖 Статья
Обнаружение вне распределения (OOD) является важной задачей для применения машинного обучения в реальном мире с реальными данными.
В данной работе, авторы, исследуют эффективность непараметрического расстояния ближайшего соседа для обнаружения OOD.
🐙 Код 📖 Статья
Набор данных WorldStrat: Открытые спутниковые снимки высокого разрешения с парными снимками низкого разрешения
Почти 10 000 км² бесплатных спутниковых снимков высокого разрешения и парных им снимков низкого разрешения уникальных мест, которые обеспечивают стратифицированное представление всех типов землепользования по всему миру: от сельского хозяйства до ледяных шапок, от лесов до урбана.
Эти места также обогащены типично недопредставленными местами представляющими гуманитарный интерес: местами незаконной добычи полезных ископаемых и поселениями лиц, подверженных риску.
Каждое изображение высокого разрешения (1,5 м/пиксель) поставляется с несколькими сопоставленными по времени изображениями низкого разрешения со спутников Sentinel-2 (10 м/пиксель), находящимися в свободном доступе.
🗺 Датасет
Почти 10 000 км² бесплатных спутниковых снимков высокого разрешения и парных им снимков низкого разрешения уникальных мест, которые обеспечивают стратифицированное представление всех типов землепользования по всему миру: от сельского хозяйства до ледяных шапок, от лесов до урбана.
Эти места также обогащены типично недопредставленными местами представляющими гуманитарный интерес: местами незаконной добычи полезных ископаемых и поселениями лиц, подверженных риску.
Каждое изображение высокого разрешения (1,5 м/пиксель) поставляется с несколькими сопоставленными по времени изображениями низкого разрешения со спутников Sentinel-2 (10 м/пиксель), находящимися в свободном доступе.
🗺 Датасет