Forwarded from (sci)Berloga Всех Наук и Технологий
🚀 @SBERLOGABIG online seminar on data science and bioinformatics:
👨🔬 Андрей Зиновьев (Institut Curie/Paris Artificial Intelligence Research Institute, France) «Domain Adaptation Principal Component Analysis (DAPCA): новый линейный метод для доменной адаптации»
⌚️ Пятница 24 июня, 19.00 по Москве
Domain adaptation - это возможность применить алгоритм машинного обучения, тренированный на одних данных, к данным полученным из несколько другого распределения (домена). Классические подходы машинного обучения предполагают, что распределения данных на тренировочной выборке и тестовой одинаковы. Однако, это предположение может быть легко нарушено в реальной жизни, когда обучающая выборка отличается от данных, с которыми должна работать система в условиях эксплуатации. Хуже всего то, что новые данные не имеют известных меток. Такие ситуации типичны и приводят к задаче "Domain adaptation", которая стала популярной в последнее время.
Мы предлагаем метод Domain Adaptation Principal Component Analysis (DAPCA), который обобщает метод Supervised Principal Component Analsysis на случай с исходными размеченными и неразмеченными целевыми доменами. DAPCA находит линейное представление данных, которое учитывает дисперсию исходного и целевого доменов, метки в исходном домене и минимизирует различие распределений признаков представления между двумя доменами. DAPCA можно использовать в качестве полезного этапа предварительной обработки данных для дальнейших задач классификации, когда требуется уменьшение размерности, вместо классического PCA.
Мы тестируем DAPCA на стандартных тестах "Domain adaptation" и показываем его полезность для задачи интеграции данных пациентов при анализе молекулярных профилей отдельных клеток (single cell RNA-seq data).
Пакет доступен на гитхабе https://github.com/Mirkes/DAPCA
(есть имплементации на Python и MATLAB).
Ссылка на зум будет доступна на канале: @sberlogabig перед началом доклада - подписывайтесь!
👨🔬 Андрей Зиновьев (Institut Curie/Paris Artificial Intelligence Research Institute, France) «Domain Adaptation Principal Component Analysis (DAPCA): новый линейный метод для доменной адаптации»
⌚️ Пятница 24 июня, 19.00 по Москве
Domain adaptation - это возможность применить алгоритм машинного обучения, тренированный на одних данных, к данным полученным из несколько другого распределения (домена). Классические подходы машинного обучения предполагают, что распределения данных на тренировочной выборке и тестовой одинаковы. Однако, это предположение может быть легко нарушено в реальной жизни, когда обучающая выборка отличается от данных, с которыми должна работать система в условиях эксплуатации. Хуже всего то, что новые данные не имеют известных меток. Такие ситуации типичны и приводят к задаче "Domain adaptation", которая стала популярной в последнее время.
Мы предлагаем метод Domain Adaptation Principal Component Analysis (DAPCA), который обобщает метод Supervised Principal Component Analsysis на случай с исходными размеченными и неразмеченными целевыми доменами. DAPCA находит линейное представление данных, которое учитывает дисперсию исходного и целевого доменов, метки в исходном домене и минимизирует различие распределений признаков представления между двумя доменами. DAPCA можно использовать в качестве полезного этапа предварительной обработки данных для дальнейших задач классификации, когда требуется уменьшение размерности, вместо классического PCA.
Мы тестируем DAPCA на стандартных тестах "Domain adaptation" и показываем его полезность для задачи интеграции данных пациентов при анализе молекулярных профилей отдельных клеток (single cell RNA-seq data).
Пакет доступен на гитхабе https://github.com/Mirkes/DAPCA
(есть имплементации на Python и MATLAB).
Ссылка на зум будет доступна на канале: @sberlogabig перед началом доклада - подписывайтесь!
Wikipedia
Domain adaptation
field associated with machine learning and transfer learning
Мы выпустили лекцию про нейронные сети на графах.
Очень вводная лекция, в которой я рассказываю о том что такое графы, как на них можно сделать нейросеть и почему эта идея оказалась такой значимой для биологии, медицины и ещё множества других направлений науки.
Лекция 11. Графовые сети
Очень вводная лекция, в которой я рассказываю о том что такое графы, как на них можно сделать нейросеть и почему эта идея оказалась такой значимой для биологии, медицины и ещё множества других направлений науки.
Лекция 11. Графовые сети
YouTube
«Нейронные сети и их применение в научных исследованиях». Лекция 11: Графовые сети
Архив лекций межфакультетского курса «Нейронные сети и их применение в научных исследованиях» для студентов МГУ.
Актуальные материалы смотрите на сайте https://msu.ai/mfk
Одиннадцатое занятие на МФК-курсе «Нейронные сети и их применение в научных исследованиях»…
Актуальные материалы смотрите на сайте https://msu.ai/mfk
Одиннадцатое занятие на МФК-курсе «Нейронные сети и их применение в научных исследованиях»…
Одна из самых больших публично доступных языковых моделей от Eluther AI GPT-NeoX-20b вышла в открытый доступ через веб-демо!
Веса были доступны и раньше, но не у всех было железо, что бы с ней играться. Ребята договорились с GooseAI, и те предоставили свои сервера для бесплатного доступа. Ура! Open Source и Open Access рулят!
Присылайте в коменты, что у вас получилось
🤖👉 Играть тут
Веса были доступны и раньше, но не у всех было железо, что бы с ней играться. Ребята договорились с GooseAI, и те предоставили свои сервера для бесплатного доступа. Ура! Open Source и Open Access рулят!
Присылайте в коменты, что у вас получилось
🤖👉 Играть тут
Яндекс выложил в опенсорс языковую модель YaLM на 100 млрд параметров. В статье на Хабре и в английской версии на Медиуме они делятся не только моделью, но и опытом её обучения (а также примерами диалогов с YaLM 100B):
📗 Вот ссылка на Гитхаб. Модель обучалась 60 дней на 1,7 ТБ текстов из интернета, книг и множества других источников с помощью 800 видеокарт A100.
📘 Сейчас это самая большая в мире GPT-подобная нейросеть в свободном доступе как для английского, так и для русского языков. В Яндексе YaLM уже больше года является частью бэкенда Поиска и Алисы.
📗 Вот ссылка на Гитхаб. Модель обучалась 60 дней на 1,7 ТБ текстов из интернета, книг и множества других источников с помощью 800 видеокарт A100.
📘 Сейчас это самая большая в мире GPT-подобная нейросеть в свободном доступе как для английского, так и для русского языков. В Яндексе YaLM уже больше года является частью бэкенда Поиска и Алисы.
Forwarded from AIRI Institute
Исследователи AIRI обучили нейросетевую модель на самой полной на сегодняшний день сборке генома человека 🧬
Модель GENA_LM, выложена в open source и доступна биологам по всему миру. В данный момент в мире уже представлен набор достаточно хороших моделей для последовательностей белков (например, ESM), но для последовательностей ДНК публично доступна только разработанная коллективом ученых из США модель DNABERT.
GENA_LM – первая в мире языковая модель ДНК, обученная на самой полной версии генома человека (T2T-CHM13), которая была опубликована в конце марта 2022 года. Она может обрабатывать последовательности в 6 раз длиннее, чем DNABERT.
Опубликованная модель – это первый шаг исследования. Впереди эксперименты по применению трансформерных архитектур с памятью, которые позволят увеличить размер входной последовательности ещё в несколько раз.
Репозитории с моделью GENA_LM:
👾 Hugging Face
👾 GitHub
Модель GENA_LM, выложена в open source и доступна биологам по всему миру. В данный момент в мире уже представлен набор достаточно хороших моделей для последовательностей белков (например, ESM), но для последовательностей ДНК публично доступна только разработанная коллективом ученых из США модель DNABERT.
GENA_LM – первая в мире языковая модель ДНК, обученная на самой полной версии генома человека (T2T-CHM13), которая была опубликована в конце марта 2022 года. Она может обрабатывать последовательности в 6 раз длиннее, чем DNABERT.
Опубликованная модель – это первый шаг исследования. Впереди эксперименты по применению трансформерных архитектур с памятью, которые позволят увеличить размер входной последовательности ещё в несколько раз.
Репозитории с моделью GENA_LM:
👾 Hugging Face
👾 GitHub
Forwarded from AbstractDL
Недообученные нейросети — лучшие feature экстракторы
К удивительному выводу пришли две независимые группы исследователей из Google и Baidu — чем дольше учить нейронную сеть, тем хуже выразительная способность её фичей. То есть, не смотря на рост top-1 accuracy по мере обучения, качество её репрезентаций в какой-то момент начинает падать!
VGG и AlexNet давно известны тем, что их фичи отлично подходят для оценки perceptual similarity, но оказалось, что и все современные SOTA модели тоже подходят — просто надо брать не самый последний чекпоинт.
Более того, похоже, что для down-stream задач тоже лучше использовать эмбеддинги от недообученных моделей.
P.S. Проблема в том, что в какой-то момент модель становится настолько умной, что её фичи только она сама и понимает 🤷♂️
статья1, статья2
К удивительному выводу пришли две независимые группы исследователей из Google и Baidu — чем дольше учить нейронную сеть, тем хуже выразительная способность её фичей. То есть, не смотря на рост top-1 accuracy по мере обучения, качество её репрезентаций в какой-то момент начинает падать!
VGG и AlexNet давно известны тем, что их фичи отлично подходят для оценки perceptual similarity, но оказалось, что и все современные SOTA модели тоже подходят — просто надо брать не самый последний чекпоинт.
Более того, похоже, что для down-stream задач тоже лучше использовать эмбеддинги от недообученных моделей.
P.S. Проблема в том, что в какой-то момент модель становится настолько умной, что её фичи только она сама и понимает 🤷♂️
статья1, статья2
Мы выпустили финальную лекцию про нейронные сети.
В лекции я разбираю несколько тем, которые не вошли в основную программу (Depth и Pose Estimation), рассказываю про то как исследования мозга помогают улучшать машинное обучение, и как машинное обучение помогает исследовать мозг, а так же рассуждаю про то, в какую сторону мы движемся и что может быть дальше.
Лекция 12. Финал
В лекции я разбираю несколько тем, которые не вошли в основную программу (Depth и Pose Estimation), рассказываю про то как исследования мозга помогают улучшать машинное обучение, и как машинное обучение помогает исследовать мозг, а так же рассуждаю про то, в какую сторону мы движемся и что может быть дальше.
Лекция 12. Финал
YouTube
МФК «Нейронные сети и их применение в научных исследованиях». Лекция 12: Финал.
Архив лекций межфакультетского курса «Нейронные сети и их применение в научных исследованиях» для студентов МГУ.
Актуальные материалы смотрите на сайте https://msu.ai/mfk
Двенадцатое занятие на МФК-курсе «Нейронные сети и их применение в научных исследованиях»…
Актуальные материалы смотрите на сайте https://msu.ai/mfk
Двенадцатое занятие на МФК-курсе «Нейронные сети и их применение в научных исследованиях»…
Forwarded from Мишин Лернинг 🇺🇦🇮🇱
🥑 DALL·E 2 Pre-Training Mitigations | OpenAI Blog Post
Тут только что вышел блокпост у OpenAI, где рассматривается сложности (реальные или наложенные новой этикой), с которым пришлось столкнуться OpenAI, чтобы была возможна генерации, пускай и в режими «элитарного клуба»..
p.s.:подождите немного, надеюсь, что у нас выйдет сделать что-то интересное 🎁
👉 Пост про DALL•E 2 от OpenAI
Тут только что вышел блокпост у OpenAI, где рассматривается сложности (реальные или наложенные новой этикой), с которым пришлось столкнуться OpenAI, чтобы была возможна генерации, пускай и в режими «элитарного клуба»..
p.s.:
👉 Пост про DALL•E 2 от OpenAI
Forwarded from Мишин Лернинг 🇺🇦🇮🇱
🤖 Рекомендации от Мишин Лернинг
Сейчас стало очень много телеграмм каналов посвящённых ИИ. Большенство админов мои хорошие друзья и приятели. И я рад, что у нас сформировалось дружное и прогрессивное AI комьюнити.
Я сам последнее время занят в сфере мультимодалок и вот захотел поделиться с вами двумя каналами, админы которых — практикующие ресерчеры, которые как раз из этой тусовки.
🤖👨🎨 Канал ShonenkovAI
Админ — заслуженный Kaggle GM, автор известных аналогов DALL•E. Ресерчер и адепт опенсорса. Сейчас Shonenkov пишет, что уходит от корпораций и собирается делать ИИ доступным каждому.
🤖🤿 Канал Градиентное Погружение
Канал двух молодых ресерчеров, которые выиграли много ml соревнований. Ребята делают настоящий независимый ресерч. В канале обсуждают ml новости и новые сетки. (ребятам чуть чуть осталось до 1000, поможем?)
p.s.: Все только по любви, никакой рекламы.. Буду рад, если поддержите ребят подпиской 👍
@мишин лернинг
Сейчас стало очень много телеграмм каналов посвящённых ИИ. Большенство админов мои хорошие друзья и приятели. И я рад, что у нас сформировалось дружное и прогрессивное AI комьюнити.
Я сам последнее время занят в сфере мультимодалок и вот захотел поделиться с вами двумя каналами, админы которых — практикующие ресерчеры, которые как раз из этой тусовки.
🤖👨🎨 Канал ShonenkovAI
Админ — заслуженный Kaggle GM, автор известных аналогов DALL•E. Ресерчер и адепт опенсорса. Сейчас Shonenkov пишет, что уходит от корпораций и собирается делать ИИ доступным каждому.
🤖🤿 Канал Градиентное Погружение
Канал двух молодых ресерчеров, которые выиграли много ml соревнований. Ребята делают настоящий независимый ресерч. В канале обсуждают ml новости и новые сетки. (ребятам чуть чуть осталось до 1000, поможем?)
p.s.: Все только по любви, никакой рекламы.. Буду рад, если поддержите ребят подпиской 👍
@мишин лернинг
Наглядное пособие по текстовым эмбедингам
Когда люди говорят о больших языковых моделях (LLM), вероятно, первое, что они обсуждают, - это возможность генерации текста, например, написание эссе.
Но языковые модели можно использовать и по-другому - для представления текста (text representation): для каждого текста мы можем получить набор чисел, которые каким-то образом отражают семантику текста. Эти числа называются текстовыми эмбедингами.
Сегодня мне на глаза попалась статья, в которой используется визуальный подход, для объяснения текстовых эмбедингов. Прочитав статью вы узнаете о том, для каких случаев они подходят и как их можно настроить с помощью файнтюнинга.
📖 Статья
@nn_for_science
Когда люди говорят о больших языковых моделях (LLM), вероятно, первое, что они обсуждают, - это возможность генерации текста, например, написание эссе.
Но языковые модели можно использовать и по-другому - для представления текста (text representation): для каждого текста мы можем получить набор чисел, которые каким-то образом отражают семантику текста. Эти числа называются текстовыми эмбедингами.
Сегодня мне на глаза попалась статья, в которой используется визуальный подход, для объяснения текстовых эмбедингов. Прочитав статью вы узнаете о том, для каких случаев они подходят и как их можно настроить с помощью файнтюнинга.
📖 Статья
@nn_for_science
MINERVA - нейросеть-математик от Google
Языковые модели хорошо решают многие задачи естественного языка, но не все.
Например ЯМ не очень умеют в количественные рассуждения (quantitative reasoning). Решение математических вопросов требует правильного разбора вопроса с использованием естественного языка и математических обозначений, запоминание соответствующих формул и констант, а также генерацию пошаговых решений, в том числе расчеты и символьные манипуляции.
Гугл выпустил Минерву - языковую модель, способную решать математические и научные вопросы с помощью пошаговых рассуждений. Minerva решает такие задачи, генерируя решения, включающие числовые вычисления и символьные манипуляции, не полагаясь на внешние инструменты, такие как калькулятор.
🤏 Блог-пост
👉 Статья
🥹 ДЕМО
Языковые модели хорошо решают многие задачи естественного языка, но не все.
Например ЯМ не очень умеют в количественные рассуждения (quantitative reasoning). Решение математических вопросов требует правильного разбора вопроса с использованием естественного языка и математических обозначений, запоминание соответствующих формул и констант, а также генерацию пошаговых решений, в том числе расчеты и символьные манипуляции.
Гугл выпустил Минерву - языковую модель, способную решать математические и научные вопросы с помощью пошаговых рассуждений. Minerva решает такие задачи, генерируя решения, включающие числовые вычисления и символьные манипуляции, не полагаясь на внешние инструменты, такие как калькулятор.
🤏 Блог-пост
👉 Статья
🥹 ДЕМО
Шахматисты подсмотрели у нейросети парочку новых трюков
Чему учатся сложные нейросетевые агенты, такие как AlphaZero? Этот вопрос представляет как научный, так и практический интерес.
Ученые из Google постарались ответить на этот вопрос. В своей работе, они приводят доказательства того, что нейросеть AlphaZero приобрела человеческие знания в процессе ее обучения игре в шахматы. Исследуя широкий спектр человеческих шахматных понятий, они показываем, когда и где эти понятия представлены в сети AlphaZero. В статье также предоставлен поведенческий анализ нейросети от шахматного гроссмейстера Владимира Крамника.
Шахматист даже утверждает, что научился новым ходам и идеям у нейросети (похожие мысли высказывали и топовые игроки в Го, которые анализировали игру компьютера ).
♟ Статья
Чему учатся сложные нейросетевые агенты, такие как AlphaZero? Этот вопрос представляет как научный, так и практический интерес.
Ученые из Google постарались ответить на этот вопрос. В своей работе, они приводят доказательства того, что нейросеть AlphaZero приобрела человеческие знания в процессе ее обучения игре в шахматы. Исследуя широкий спектр человеческих шахматных понятий, они показываем, когда и где эти понятия представлены в сети AlphaZero. В статье также предоставлен поведенческий анализ нейросети от шахматного гроссмейстера Владимира Крамника.
Шахматист даже утверждает, что научился новым ходам и идеям у нейросети (похожие мысли высказывали и топовые игроки в Го, которые анализировали игру компьютера ).
♟ Статья
Self-Supervised Contrastive Pre-Training For Time Series via Time-Frequency Consistency
Предварительное обучение на временных рядах (например график температуры, цена акций и тп) представляет собой сложную проблему из-за потенциального несоответствия между тренировочными и тестовыми данными (например сдвиги во временной динамике, циклические эффекты и тп).
По сравнению с другими модальностями, во временных рядах мы ожидаем, что временные и частотные представления одного и того же примера расположены близко друг к другу во временно-частотном пространстве. Это значит что мы можем посчитать эмбеддинг сигнала во временном домене и его же эмбединг в частотном. Если наша сеть обучена правильно, то эти эмбединги (их косинусное расстояние) будут располагаться близко друг другу.
📖 Статья
🤖 Код
#signalprocessing #SSL
Предварительное обучение на временных рядах (например график температуры, цена акций и тп) представляет собой сложную проблему из-за потенциального несоответствия между тренировочными и тестовыми данными (например сдвиги во временной динамике, циклические эффекты и тп).
По сравнению с другими модальностями, во временных рядах мы ожидаем, что временные и частотные представления одного и того же примера расположены близко друг к другу во временно-частотном пространстве. Это значит что мы можем посчитать эмбеддинг сигнала во временном домене и его же эмбединг в частотном. Если наша сеть обучена правильно, то эти эмбединги (их косинусное расстояние) будут располагаться близко друг другу.
📖 Статья
🤖 Код
#signalprocessing #SSL
Ребята из LAION собрали 3D - Text датасет. А это значит, что скоро мы увидим 3D Dall-E!!!
Просто представьте себе как 3D сцена рендериться по текстовому запросу. Это будет совершенно новый уровень всего!
Ждем. Кстати датасет, конечно же в открытом доступе. Open Source rules!
Датасет тут
За наводку спасибо Саше из @lovedeathtransformers
Просто представьте себе как 3D сцена рендериться по текстовому запросу. Это будет совершенно новый уровень всего!
Ждем. Кстати датасет, конечно же в открытом доступе. Open Source rules!
Датасет тут
За наводку спасибо Саше из @lovedeathtransformers
Media is too big
VIEW IN TELEGRAM
Синтетических биороботов научили размножаться
В начале прошлого года группа исследователей объявила о создании первых в мире живых машин - пучков стволовых клеток африканских когтистых лягушек (Xenopus laevis), которые можно запрограммировать на выполнение определенных задач. Клетки размером с песчинку могли успешно перемещать микроскопические объекты, перемещаться по чашкам Петри и даже самовосстанавливаться.
Ученые добились этого с помощью суперкомпьютера и эволюционного алгоритма: компьютер автоматически проектирует новые машины в симуляции, а затем лучшие конструкции прошедшие эволюционный отбор, собираются учеными в реальном мире.
С момента своего первого исследования команда работала над тем, чтобы использовать возможности этих крошечных роботов, названных "ксеноботами".
В новом исследовании команда объявила, что ксенороботы теперь могут размножаться способом, совершенно отличным от всех известных науке растений и животных: собирая свободно плавающие клетки в новые кластеры.
В начале прошлого года группа исследователей объявила о создании первых в мире живых машин - пучков стволовых клеток африканских когтистых лягушек (Xenopus laevis), которые можно запрограммировать на выполнение определенных задач. Клетки размером с песчинку могли успешно перемещать микроскопические объекты, перемещаться по чашкам Петри и даже самовосстанавливаться.
Ученые добились этого с помощью суперкомпьютера и эволюционного алгоритма: компьютер автоматически проектирует новые машины в симуляции, а затем лучшие конструкции прошедшие эволюционный отбор, собираются учеными в реальном мире.
С момента своего первого исследования команда работала над тем, чтобы использовать возможности этих крошечных роботов, названных "ксеноботами".
В новом исследовании команда объявила, что ксенороботы теперь могут размножаться способом, совершенно отличным от всех известных науке растений и животных: собирая свободно плавающие клетки в новые кластеры.
Мета выпустила переводчик на 200 языков.
Зацените новый прорыв Меты в области машинного перевода, о котором только что объявил Марк Цукерберг. Они создали и выложили в открытый доступ модель, с громким названием No language left behind (Ни один язык не останется за бортом), которая переводит с 200 различных языков.
Методы из этой работы были применены для улучшения переводов на Facebook, Instagram и даже Wikipedia.
📖 Статья
🗽 Код
Зацените новый прорыв Меты в области машинного перевода, о котором только что объявил Марк Цукерберг. Они создали и выложили в открытый доступ модель, с громким названием No language left behind (Ни один язык не останется за бортом), которая переводит с 200 различных языков.
Методы из этой работы были применены для улучшения переводов на Facebook, Instagram и даже Wikipedia.
📖 Статья
🗽 Код
This media is not supported in your browser
VIEW IN TELEGRAM
Сингулярность на пороге. Как ИИ проектирует GPU?
NVIDIA использует ИИ для разработки более компактных, быстрых и эффективных микросхем, обеспечивающих повышение производительности с каждым поколением чипов.
В работе PrefixRL: Optimization of Parallel Prefix Circuits using Deep Reinforcement Learning исследователи демонстрируют, что ИИ не только может научиться проектировать эти схемы с нуля, но и разработанные им схемы меньше и быстрее, чем схемы, разработанные современными инструментами автоматизации электронного проектирования (EDA). Новейшая архитектура NVIDIA Hopper GPU имеет почти 13 000 чипов, разработанных ИИ.
За наводку спасибо @j_links
NVIDIA использует ИИ для разработки более компактных, быстрых и эффективных микросхем, обеспечивающих повышение производительности с каждым поколением чипов.
В работе PrefixRL: Optimization of Parallel Prefix Circuits using Deep Reinforcement Learning исследователи демонстрируют, что ИИ не только может научиться проектировать эти схемы с нуля, но и разработанные им схемы меньше и быстрее, чем схемы, разработанные современными инструментами автоматизации электронного проектирования (EDA). Новейшая архитектура NVIDIA Hopper GPU имеет почти 13 000 чипов, разработанных ИИ.
За наводку спасибо @j_links
Вышла крупнейшая в мире открытая многоязычная языковая модель: BLOOM
Большие языковые модели (LLM) оказали значительное влияние на исследования в области ИИ. Эти мощные модели могут решать широкий спектр новых языковых задач на основе инструкций пользователя. Однако академическим кругам, некоммерческим организациям и исследовательским лабораториям небольших компаний сложно создавать, изучать или даже использовать LLM, поскольку полный доступ к ним имеют лишь несколько промышленных лабораторий, обладающих необходимыми ресурсами и эксклюзивными правами. Сегодня, международная коллаборация BigScience выпускает BLOOM, первую многоязычную LLM, обученную в условиях полной прозрачности.
BLOOM - результат крупнейшего сотрудничества исследователей ИИ, когда-либо участвовавших в одном исследовательском проекте.
Имея 176 миллиардов параметров, BLOOM способен генерировать текст на 46 естественных языках и 13 языках программирования. Почти для всех из них, таких как испанский, французский и арабский, BLOOM станет первой в истории языковой моделью с более чем 100 миллиардами параметров. Это кульминация года работы с участием более 1000 исследователей из 70+ стран и 250+ институтов, в результате которой модель BLOOM обучалась 117 дней (с 11 марта по 6 июля) на суперкомпьютере Jean Zay на юге Парижа, Франция.
Модель
Большие языковые модели (LLM) оказали значительное влияние на исследования в области ИИ. Эти мощные модели могут решать широкий спектр новых языковых задач на основе инструкций пользователя. Однако академическим кругам, некоммерческим организациям и исследовательским лабораториям небольших компаний сложно создавать, изучать или даже использовать LLM, поскольку полный доступ к ним имеют лишь несколько промышленных лабораторий, обладающих необходимыми ресурсами и эксклюзивными правами. Сегодня, международная коллаборация BigScience выпускает BLOOM, первую многоязычную LLM, обученную в условиях полной прозрачности.
BLOOM - результат крупнейшего сотрудничества исследователей ИИ, когда-либо участвовавших в одном исследовательском проекте.
Имея 176 миллиардов параметров, BLOOM способен генерировать текст на 46 естественных языках и 13 языках программирования. Почти для всех из них, таких как испанский, французский и арабский, BLOOM станет первой в истории языковой моделью с более чем 100 миллиардами параметров. Это кульминация года работы с участием более 1000 исследователей из 70+ стран и 250+ институтов, в результате которой модель BLOOM обучалась 117 дней (с 11 марта по 6 июля) на суперкомпьютере Jean Zay на юге Парижа, Франция.
Модель
huggingface.co
bigscience/bloom · Hugging Face
We’re on a journey to advance and democratize artificial intelligence through open source and open science.