Please open Telegram to view this post
VIEW IN TELEGRAM
😁222👏19☃9❤5👍3
Похоже, у Amazon большие планы: они ставят все на разработку собственного железа и в следующем месяце планируют выпустить чип Trainium 2
Компания вкладывает в это 75 миллиардов долларов, и это не включая 110 миллионов на Build on Trainium – новую программу грантов на ИИ-исследования. Вероятно, победителям Amazon тоже будут «нативно» предлагать свои облачные серверы.
Компания вкладывает в это 75 миллиардов долларов, и это не включая 110 миллионов на Build on Trainium – новую программу грантов на ИИ-исследования. Вероятно, победителям Amazon тоже будут «нативно» предлагать свои облачные серверы.
👍44🔥13❤11
Много новостей от OpenAI этим утром. Насобирали целый дайджест!
➡️ Самое главное: по словам инсайдеров, в январе OpenAI запускает ИИ-агента Operator, который сможет автономно управлять компьютером и выполнять какие-то действия за человека: писать код, бронировать путешествия и тд. Сообщается, что это не единственный проект компании, в котором они работают над ИИ-агентами. Напоминаем, что агенты – следующая ступень развития ИИ по мнению Альтмана, и в недавнем интервью он говорил, что выйдут они на нее уже очень скоро.
➡️ На сайте OpenAI опубликовали крутое руководство пользователя ChatGPT для студентов. Это, по сути, полезные советы о том, как использовать GPT так, чтобы учеба стала проще и приятнее. Из интересного: советуют прослушивать свои эссе в голосовом режиме бота, чтобы найти недостатки; использовать дедуктивные способности GPT, чтобы проверять свои решения; поиграть с ИИ в Сократовский метод и попытаться его переспорить, чтобы найти пробелы в своих аргументах.
➡️ Еще один сотрудник немного злобно покинул стартап. В Твиттере он пассивно-агрессивно написал, что у компании проблемы с безопасностью (но это мы и без него знали) и с отношением к сотрудникам.
Ждем от стартапа релизов и искренне надеемся, что на момент выхода GPT-5 в нем не останется один Альтман
Ждем от стартапа релизов и искренне надеемся, что на момент выхода GPT-5 в нем не останется один Альтман
Please open Telegram to view this post
VIEW IN TELEGRAM
👍42😁31❤12🤔1🤝1
Белое хакерство в LLM – новое исследование от Anthropic
Jailbreak Rapid Response: так называется свежая статья от самых больших любителей поковыряться под капотом моделей. На этот раз они предлагают подход к обнаружению и блокировке новых методов джейлбрейка, то есть "взлома" моделей. Взлом тут – это попытки с помощью каких-то хитрых промптов заставить модель выдать неэтичную информацию, которую ей выдавать запрещено (рецепт коктейля Молотова, например).
Метод у них забавный: они показывают LLM один из вариантов джейлбрейка и просят ее генерировать больше таких примеров. Потом просят генерировать больше примеров, основываясь на том, что она сгенерировала раньше, и так далее. Таким образом у нас растет огромный синтетический датасет, на котором можно обучить что-то врожде классификатора.
В качестве "классификатора" ученые тестировали Regex, Guard Fine-tuning, Embedding, Guard Few-shot и Defense Prompt. Лучше всего себя показал Guard Fine-tuning – самый ванильный вариант, при котором мы просто дообучаем модель на экземлярах положительного и отрицательного класса.
Результаты в итоге получились даже лучше, чем у методов статической защиты, которые сегодня обычно используются в продакшене. Guard Fine-tuning отлавливает в 240 раз (!!!) больше атак на "похожих" на датасет примерах и в 15 раз больше джейлбрейков на не представленных в трейне вообще.
Статья полностью тут, а еще к ней есть открытый репозиторий с кодом, можно поэкспериментировать.
Наши предыдущие посты-разборы интересных работ Anthropic про alignment и интерпретируемость в LLM:
– Та самая статья про Golden Gate
– Продолжение этой статьи, в которой рассказывается про управление мыслями LLM
– Про то, как модели читерят во время обучения
– Про математические фракталы в картах гиперпараметров
– Что мешает нам понимать черный ящик нейросетей
Jailbreak Rapid Response: так называется свежая статья от самых больших любителей поковыряться под капотом моделей. На этот раз они предлагают подход к обнаружению и блокировке новых методов джейлбрейка, то есть "взлома" моделей. Взлом тут – это попытки с помощью каких-то хитрых промптов заставить модель выдать неэтичную информацию, которую ей выдавать запрещено (рецепт коктейля Молотова, например).
Метод у них забавный: они показывают LLM один из вариантов джейлбрейка и просят ее генерировать больше таких примеров. Потом просят генерировать больше примеров, основываясь на том, что она сгенерировала раньше, и так далее. Таким образом у нас растет огромный синтетический датасет, на котором можно обучить что-то врожде классификатора.
В качестве "классификатора" ученые тестировали Regex, Guard Fine-tuning, Embedding, Guard Few-shot и Defense Prompt. Лучше всего себя показал Guard Fine-tuning – самый ванильный вариант, при котором мы просто дообучаем модель на экземлярах положительного и отрицательного класса.
Результаты в итоге получились даже лучше, чем у методов статической защиты, которые сегодня обычно используются в продакшене. Guard Fine-tuning отлавливает в 240 раз (!!!) больше атак на "похожих" на датасет примерах и в 15 раз больше джейлбрейков на не представленных в трейне вообще.
Статья полностью тут, а еще к ней есть открытый репозиторий с кодом, можно поэкспериментировать.
Наши предыдущие посты-разборы интересных работ Anthropic про alignment и интерпретируемость в LLM:
– Та самая статья про Golden Gate
– Продолжение этой статьи, в которой рассказывается про управление мыслями LLM
– Про то, как модели читерят во время обучения
– Про математические фракталы в картах гиперпараметров
– Что мешает нам понимать черный ящик нейросетей
👍50🌚15 10❤6❤🔥3✍3 3
Бывает: Google Gemini словил выгорание и выпустил пар прямо с диалоге с ничего не подозревающим юзером
100% понимания🍊
100% понимания
Please open Telegram to view this post
VIEW IN TELEGRAM
🫡118😁65 24👍6☃5❤2🤝2🦄1
This media is not supported in your browser
VIEW IN TELEGRAM
Красивая идея для петпроекта от Roboflow: CV-тулза для спортивной аналитики
Относительно недавно компания сделала анонс своей новой линейки моделей sports, а сейчас вот активно приглашает участников сообщества контрибьютить.
С чем возникают особенно большие проблемы по словам авторов и за какой вклад они будут особенно благодарны:
⚙️ Мяч. Из-за его небольшого размера и быстрых движений отслеживать его трудно, особенно на видео высокого разрешения.
⚙️ Номера на футболках. Игроки постоянно закрывают друг-друга, оборачиваются, бегают и так далее. Поэтому с точным считыванием информации с футболок тоже пока неидеально.
⚙️ Сами игроки. Тут проблема такая же, как с футболками. Для точного определения оффсайдов и подобного точность должна быть очень высокой, а игра постоянно находится в динамике и FPS запредельный.
⚙️ Повторная идентификация игрока. Игроки в одинаковой форме часто визуально похожи, особенно издалека, а камеры двигаются. Поэтому отдельные трудности вызывают ситуации, когда некоторые игроки покидают и снова входят в кадр.
⚙️ Калибровка камеры. Это одна из самых сложных технических проблем подобных инструментов: все из-за динамической природы спорта и меняющихся углов обозрения.
Так что если хотите поэкспериментировать или знаете, как такие проблемы решать – советуем: отличная возможность попрактиковаться, забрать крутой проект в резюме, да еще и получить ачивки от крупной компании.
Относительно недавно компания сделала анонс своей новой линейки моделей sports, а сейчас вот активно приглашает участников сообщества контрибьютить.
С чем возникают особенно большие проблемы по словам авторов и за какой вклад они будут особенно благодарны:
Так что если хотите поэкспериментировать или знаете, как такие проблемы решать – советуем: отличная возможность попрактиковаться, забрать крутой проект в резюме, да еще и получить ачивки от крупной компании.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍44🔥16 10❤7😁1
История YOLO: новая большая статья от нашей редакции
YOLO или You Only Look Once – это, пожалуй, самая известная архитектура компьютерного зрения. Она знаменита своей скоростью, качеством, а еще богатой историей.
Первая версия YOLO вышла еще в 2016 году, в последняя, одиннадцатая, всего месяц назад. За 8 лет YOLO пережила много сюжетных поворотов и технических прорывов. Об этом – наша новая большая статья, в которой вы узнаете:
⚪️ Что представляет из себя задача детекции, чем она отличается от других задач компьютерного зрения и как ее решали до YOLO
⚪️ Как работала самая первая YOLO (будет много деталей и схем!)
⚪️ Какие технические новшества помогли второй версии вырваться в SOTA
⚪️ Почему отец-основатель архитектуры ушел из проекта и какие последние изменения он внес
⚪️ Что не так с YOLOv5 или почему Ultralytics пришлось два года отмывать свою репутацию
⚪️ Почему все обожают YOLOv8
⚪️ И что происходит с моделью сейчас
Если давно хотели погрузиться в CV – это ваш шанс. Так что присаживайтесь поудобнее (ну или сохраняйте ссылку на будущее): https://datasecrets.ru/articles/20
YOLO или You Only Look Once – это, пожалуй, самая известная архитектура компьютерного зрения. Она знаменита своей скоростью, качеством, а еще богатой историей.
Первая версия YOLO вышла еще в 2016 году, в последняя, одиннадцатая, всего месяц назад. За 8 лет YOLO пережила много сюжетных поворотов и технических прорывов. Об этом – наша новая большая статья, в которой вы узнаете:
Если давно хотели погрузиться в CV – это ваш шанс. Так что присаживайтесь поудобнее (ну или сохраняйте ссылку на будущее): https://datasecrets.ru/articles/20
Please open Telegram to view this post
VIEW IN TELEGRAM
❤55👍32🔥8 8🕊2🤪1
Небольшая подборка мемов на вечер в догонку к нашей статье про YOLO. Пояснительную блигаду ищите тут
😁68👍12🤯7
OpenAI обсуждают строительство датацентра стоимостью $100 млрд
Компания уже поделилась своими планами с правительством США. Этот проект напоминает старую историю с суперкомпьютером Stargate. Еще в начале своего сотрудничества с Microsoft стартап обсуждал его строительство со спонсорами, но тогда денег не дали😭
Сейчас в OpenAI возвращаются к давней мечте и обещают, что мощность нового датацентра достигнет 1 гигаватт. Это примерно в 7 раз больше самых больших существующих на данный момент кластеров.
Компания уже поделилась своими планами с правительством США. Этот проект напоминает старую историю с суперкомпьютером Stargate. Еще в начале своего сотрудничества с Microsoft стартап обсуждал его строительство со спонсорами, но тогда денег не дали
Сейчас в OpenAI возвращаются к давней мечте и обещают, что мощность нового датацентра достигнет 1 гигаватт. Это примерно в 7 раз больше самых больших существующих на данный момент кластеров.
Please open Telegram to view this post
VIEW IN TELEGRAM
🤯69🔥13❤5👍5😁4
Как работают SSM – главные конкуренты трансформеров?
SSM (State space models) были изобретены еще в 60-е годы. Тогда они использовались для моделирования непрерывных процессов. Но не так давно было придумано, как использовать SSM в глубоком обучении, и теперь они – главные кандидаты на роль новой серебряной пули архитектур. Например, Mistral недавно сделали на основе SSM модель Codestral, которая на метриках разбила почти все другие открытые модели.
Понятная схема того, как работает архитектура – наверху. Если присмотреться, то станет понятно, что SSM – это умный вариант RNN, а матрицы А, В, С и D – аналоги гейтов забывания, входного состояния и выходного состояния из LSTM.
Но главная прелесть SSM в том, что она построена на стыке двух мощных архитектур: сверточных нейросетей и рекуррентных. Да, все обучаемые параметры можно собрать в единое ядро и использовать его для свертки. Получается, что мы можем использовать все плюсы (и в частности линейность) рекуррентных нейронных сетей, но при этом представлять их как сверточные, которые в свою очередь можно распараллелить.
Если хотите немного подробнее прочитать об SSM – загляните в нашу статью про конкурентов трансформерам. Там найдете и понятное объяснение принципа работы RNN, и пошаговую экскурсию по SSM, и даже про самые свежие Mamba и Hawk сможете почитать.
SSM (State space models) были изобретены еще в 60-е годы. Тогда они использовались для моделирования непрерывных процессов. Но не так давно было придумано, как использовать SSM в глубоком обучении, и теперь они – главные кандидаты на роль новой серебряной пули архитектур. Например, Mistral недавно сделали на основе SSM модель Codestral, которая на метриках разбила почти все другие открытые модели.
Понятная схема того, как работает архитектура – наверху. Если присмотреться, то станет понятно, что SSM – это умный вариант RNN, а матрицы А, В, С и D – аналоги гейтов забывания, входного состояния и выходного состояния из LSTM.
Но главная прелесть SSM в том, что она построена на стыке двух мощных архитектур: сверточных нейросетей и рекуррентных. Да, все обучаемые параметры можно собрать в единое ядро и использовать его для свертки. Получается, что мы можем использовать все плюсы (и в частности линейность) рекуррентных нейронных сетей, но при этом представлять их как сверточные, которые в свою очередь можно распараллелить.
Если хотите немного подробнее прочитать об SSM – загляните в нашу статью про конкурентов трансформерам. Там найдете и понятное объяснение принципа работы RNN, и пошаговую экскурсию по SSM, и даже про самые свежие Mamba и Hawk сможете почитать.
👍57🔥17❤10🤯6
Google DeepMind покинул Франсуа Шолле: он собирается открывать собственную компанию
Шолле – один из ведущих исследователей Google (был им) и создатель Keras. Если не знаете его – то вот тут мы писали о его недавнем интервью, а вот здесь собирали некоторые его мудро-забавные цитаты.
Он написал, что будет продолжать участвовать в развитии фрейворка, а роль руководителя проекта передает Джеффу Карпентеру. Сам Шолле вместе с другом начинает работу по открытию компании и скоро обещает поделиться новостями.
Шолле – один из ведущих исследователей Google (был им) и создатель Keras. Если не знаете его – то вот тут мы писали о его недавнем интервью, а вот здесь собирали некоторые его мудро-забавные цитаты.
Он написал, что будет продолжать участвовать в развитии фрейворка, а роль руководителя проекта передает Джеффу Карпентеру. Сам Шолле вместе с другом начинает работу по открытию компании и скоро обещает поделиться новостями.
🤯51👍15😍6❤3🔥1🤔1
This media is not supported in your browser
VIEW IN TELEGRAM
В этот раз праздник к нам приходит вместе со сгенерированной рекламой от CocaCola
Зрители, конечно, недовольны. Многие пишут в Твиттере, что это «мусор» и «уродство», а CocaCola обленилась. Ага, а вы попробуйте сами такое запромптить🧐
Зрители, конечно, недовольны. Многие пишут в Твиттере, что это «мусор» и «уродство», а CocaCola обленилась. Ага, а вы попробуйте сами такое запромптить
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥99😁17👍16🤔10☃4🤯3 3🤨1🗿1