Data Secrets
78.8K subscribers
6.42K photos
666 videos
20 files
2.7K links
Главный по машинному обучению

Сотрудничество: @veron_28

РКН: clck.ru/3FY3GN
Download Telegram
Небольшая подборка мемов на вечер в догонку к нашей статье про YOLO. Пояснительную блигаду ищите тут
😁68👍12🤯7
Ночью Google появилась на Arena со своей новой экспериментальной моделью Gemini-Exp и… забрала первое место, стрельнув даже выше o1 и 4о

Ждем от OpenAI мощную ответку
🔥119🤯45💯142👍1🤔1
OpenAI обсуждают строительство датацентра стоимостью $100 млрд

Компания уже поделилась своими планами с правительством США. Этот проект напоминает старую историю с суперкомпьютером Stargate. Еще в начале своего сотрудничества с Microsoft стартап обсуждал его строительство со спонсорами, но тогда денег не дали 😭

Сейчас в OpenAI возвращаются к давней мечте и обещают, что мощность нового датацентра достигнет 1 гигаватт. Это примерно в 7 раз больше самых больших существующих на данный момент кластеров.
Please open Telegram to view this post
VIEW IN TELEGRAM
🤯69🔥135👍5😁4
Как работают SSM – главные конкуренты трансформеров?

SSM (State space models) были изобретены еще в 60-е годы. Тогда они использовались для моделирования непрерывных процессов. Но не так давно было придумано, как использовать SSM в глубоком обучении, и теперь они – главные кандидаты на роль новой серебряной пули архитектур. Например, Mistral недавно сделали на основе SSM модель Codestral, которая на метриках разбила почти все другие открытые модели.

Понятная схема того, как работает архитектура – наверху. Если присмотреться, то станет понятно, что SSM – это умный вариант RNN, а матрицы А, В, С и D – аналоги гейтов забывания, входного состояния и выходного состояния из LSTM.

Но главная прелесть SSM в том, что она построена на стыке двух мощных архитектур: сверточных нейросетей и рекуррентных. Да, все обучаемые параметры можно собрать в единое ядро и использовать его для свертки. Получается, что мы можем использовать все плюсы (и в частности линейность) рекуррентных нейронных сетей, но при этом представлять их как сверточные, которые в свою очередь можно распараллелить.

Если хотите немного подробнее прочитать об SSM – загляните в нашу статью про конкурентов трансформерам. Там найдете и понятное объяснение принципа работы RNN, и пошаговую экскурсию по SSM, и даже про самые свежие Mamba и Hawk сможете почитать.
👍57🔥1710🤯6
Google DeepMind покинул Франсуа Шолле: он собирается открывать собственную компанию

Шолле – один из ведущих исследователей Google (был им) и создатель Keras. Если не знаете его – то вот тут мы писали о его недавнем интервью, а вот здесь собирали некоторые его мудро-забавные цитаты.

Он написал, что будет продолжать участвовать в развитии фрейворка, а роль руководителя проекта передает Джеффу Карпентеру. Сам Шолле вместе с другом начинает работу по открытию компании и скоро обещает поделиться новостями.
🤯51👍15😍63🔥1🤔1
This media is not supported in your browser
VIEW IN TELEGRAM
В этот раз праздник к нам приходит вместе со сгенерированной рекламой от CocaCola

Зрители, конечно, недовольны. Многие пишут в Твиттере, что это «мусор» и «уродство», а CocaCola обленилась. Ага, а вы попробуйте сами такое запромптить 🧐
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥99😁17👍16🤔104🤯33🤨1🗿1
У Meta FAIR вышло новое исследование про декодирование в трансформерах

В чем исходная проблема декодирования? На выходе LLM генерирует набор токенов и вероятностей выбора этих токенов. А дальше из этой выборки токены выбираются с помощью параметров Temperature, Top-k и Top-p. Это инференсные переменные, то есть они задаются уже на этапе генерации. Например, их можно указать в API OpenAI и других вендоров.

Все они, в целом, отвечают за одно и то же: насколько разнообразной с точки зрения токенов будет генерация. Мы можем выбирать больше токенов с меньшей вероятностью, и тогда генерация получится более креативной, но повышается риск галлюцинаций. Или наоборот, и тогда ответ будет более точным и кратким, но, возможно, что также получится слишком унылым и сухим. Если хотите подробнее – почитайте этот наш пост.

Ну а что, если мы хотим выбор этих параметров убрать и автоматизировать декодирование? Можно ли сделать так, чтобы LLM сама регулировала свою креативность в зависимости от того, с чем работает?

Эту задачу и попытались решить в Meta. Они предложили добавить в трансформер еще один слой, который обучается оптимизировать скрытые предпочтения пользователя (почти как на этапе RLHF). Для этого используется ревард модель. Получается, что таким образом модель учится как раз тому самому поиску баланса между фактологией и разнообразием.

Исследователи проверяли модель на разных бенчмарках, требующих разных подходов. Оказалось, что такой подбор параметров работает лучше любого статического выбора (см. графики). А самое интересное, что метод-то, получается, подходит для подбора любых гиперпараметров, а не только температуры и вот этого всего.

Оригинальная статья тут
👍51🔥2112❤‍🔥3👌1
Самое грустное расставание этого года: PyTorch больше не будет выпускать пакеты для Anaconda 💔

Из-за неоправданно высоких затрат на обслуживание PyTorch больше не будет делать отдельные сборки для conda (то есть такие, которые зависят от предустановленных в анаконде библиотек). Вместо этого любителям конды разработчики предлагают перейти на wheel или conda-forge пакеты pytorch-cpu и pytorch-gpu.
Please open Telegram to view this post
VIEW IN TELEGRAM
🫡101🔥26👀12👍6🤨53😁2🤪2❤‍🔥1
Илон Маск закрывает раунд финансирования на 6 миллиардов долларов

Примерно столько же недавно привлекли OpenAI. Вот только оценка OpenAI сейчас – $157 млрд, а xAI – $50 млрд.

Больше всего радуется Хуанг 🔵
Please open Telegram to view this post
VIEW IN TELEGRAM
👍67🔥2011💋1
Тем временем в Центральном университете стартует подготовка к Международной олимпиада по ИИ в Китае

Именно этот вуз и готовил сборную, которая взяла золото на прошлой IOAI в Болгарии.

В преподавательском составе у ребят будут такие громкие ученые как Александр Дьяконов, Александр Гущин, Иван Стельмах, Сергей Арефьев и другие. Все преподаватели опытные участники ML-соревнований, большинство из них – грандмастеры, обладатели награды Kaggle Data Scientist № 1, PhD и ведущие ресерчеры международных компаний 😲

На этот раз программа стартует в январе. Сначала финалисты российских ИИ-олимпиад будут 13 недель готовиться онлайн. Затем состоятся сборы и на них отберут восемь старшеклассников, которые будут еще 4 месяца учиться на территории кампуса Центрального университета и на площадках участников Альянса ИИ - Т-Банка, Сбера и VK (говорите, в бигтех устроиться трудно, да?)

Сама олимпиада пройдет в Китае в августе 2025 года. Пожелаем ребятам удачи!

P.S. Кстати, в Совете олимпиады Россию тоже представляет сотрудник Центрального университета – Екатерина Процко. В ЦУ она руководит привлечением абитуриентов и имеет большой опыт в организации международных и российских олимпиад, организации сборов для участников сборных Татарстана и России (eJoi, APIO, IATI, Inter It, WRO, ВРО, Всероссийской олимпиады по информатике), организации собственных олимпиад (Innopolis Open), подготовке команд для участия в международных соревнованиях по спортивному программированию.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍55🔥21👏10🫡54🤓3🤔1🕊1
OpenAI сегодня открывает офис в ИИ-столице мира – Париже

Это напрашивалось давно. Франция уже несколько лет считается центром экосистемы ИИ, и не спроста. Там основан HuggingFace, Mistral и еще куча заметных ИИ-компаний, а с конца десятых в Париже проводят самые крупные мировые стартап-форумы , конференции и хакатоны.

Во Франции уже открыли штаб-квартиры Google, Apple, Meta и тп. Посмотрим, как в тусовку впишется OpenAI.

Кстати, больше о том, как и почему Париж вдруг оказался в центре ИИ-мира, мы писали интересный пост вот тут
79👍30🍌15😁5🗿3🔥2❤‍🔥1🤓1
Может не надо?..
😁180🤔34👍158👾64💯32❤‍🔥2🤪1