Data Secrets
DeepSeek релизнули модель, которая конкурирует с o1 Модель уже доступна и в фунционале чата выглядит как переключатель в режим "Deep Think". Под капотом у переключателя лежит модель DeepSeek-R1-Lite-Preview, которая достигает уровня o1-preview на Codeforces…
Тем временем модели от DeepSeek задали главный вопрос и она… искренне удивилась наличию третьей r, но ответила правильно
😁181👍17🔥15😍7🏆2
Конференция AI Journey 2024 определит фокус развития сферы искусственного интеллекта на годы вперед. Анонс предстоящих выступлений сделал первый зампред правления ПАО «Сбербанк» Александр Ведяхин.
В частности, на площадке выступит основатель Tech Whisperer Limited Джасприт Биндра из Индии, который расскажет о следующем этапе эволюции искусственного интеллекта после ChatGPT и о том, как это повлияет на наше будущее.
Конкретные примеры применения искусственного интеллекта в нефтяной и газовой промышленности на Ближнем Востоке расскажет президент AI Society Хассим Хаджи из Бахрейна.
Среди экспертов российского Al-сообщества выступят разработчики из «Сбера», «Яндекса», Института AIRI, «Сколтеха», «Иннополиса» и поделятся своими разработками и исследованиями в области робототехники, создания больших языковых моделей и построения мультиагентных систем.
В прошлом году конференцию посмотрело более 150 млн человек. С учетом текущих трендов и происходящих событий в мире число заинтересованных явно кратно возрастет.
В частности, на площадке выступит основатель Tech Whisperer Limited Джасприт Биндра из Индии, который расскажет о следующем этапе эволюции искусственного интеллекта после ChatGPT и о том, как это повлияет на наше будущее.
Конкретные примеры применения искусственного интеллекта в нефтяной и газовой промышленности на Ближнем Востоке расскажет президент AI Society Хассим Хаджи из Бахрейна.
Среди экспертов российского Al-сообщества выступят разработчики из «Сбера», «Яндекса», Института AIRI, «Сколтеха», «Иннополиса» и поделятся своими разработками и исследованиями в области робототехники, создания больших языковых моделей и построения мультиагентных систем.
В прошлом году конференцию посмотрело более 150 млн человек. С учетом текущих трендов и происходящих событий в мире число заинтересованных явно кратно возрастет.
❤17👍8🔥5😁1🤯1🌚1🤪1
This media is not supported in your browser
VIEW IN TELEGRAM
В Лондоне на выходных прошел хакатон от Meta AI
Слоган соревнования отражает его суть: «fine-tuning vibes». Компания разыгрывала 50 тысяч долларов за яркий кейс разработки с применением Llama.
Первое место заняла команда, которая сделала руку робота, управляемую только силой мысли. Робот был построен по инструкции от HuggingFace, а в качестве подкапотной LLM используется, конечно, Llama 3.2, докрученная обучением политик.
За движения робота отвечают эмоции: например, девушка представляла что-то, что заставляет ее умиляться, и ее эмоции диктовали руке двигаться вверх.
Слоган соревнования отражает его суть: «fine-tuning vibes». Компания разыгрывала 50 тысяч долларов за яркий кейс разработки с применением Llama.
Первое место заняла команда, которая сделала руку робота, управляемую только силой мысли. Робот был построен по инструкции от HuggingFace, а в качестве подкапотной LLM используется, конечно, Llama 3.2, докрученная обучением политик.
За движения робота отвечают эмоции: например, девушка представляла что-то, что заставляет ее умиляться, и ее эмоции диктовали руке двигаться вверх.
❤52🔥20👍12🤪5
Media is too big
VIEW IN TELEGRAM
На легендарном YouTube канале 3blue1brown вышло новое видео про механизм внимания и трансформеры
Видео ориентировано на начинающих, но даже продвинутому зрителю послушать и просто полюбоваться графикой – одно удовольствие (наверху – небольшой отрывок). Пожалуй, это самое красивое объяснение LLM из всех
Смотреть
Видео ориентировано на начинающих, но даже продвинутому зрителю послушать и просто полюбоваться графикой – одно удовольствие (наверху – небольшой отрывок). Пожалуй, это самое красивое объяснение LLM из всех
Смотреть
❤152👍31🔥19
А грани все продолжают стираться: эксперименты показали, что люди не только не различают искусство, созданное ИИ и человеком, но и больше предпочитают творения моделек
Недавно по интернету пробежала новость об исследовании, которое показало, что люди способны отличать ИИ-поэзию от человеческой с результатами ниже случайных (46.6% accuracy). При этом ИИ-стихи люди оценивали как более ритмичные и красивые, но только если им не говорили заранее, что это творения нейросети: в ином случае реакции была в основном негативная (предвзятость? нет, не слышали).
А сегодня на своем сайте известный психиатр Скотт Александер выложил результаты эксперимента, в котором он предлагал людям отличать сгенерированные картины от творений реальных художников. И... снова результаты оказались неутешительные. Средняя точность оказалась на уровне 60%, то есть снова лишь немного выше случайного выбора.
Если хотите проверить себя, тест можно пройти здесь. Ответы – тут. Делитесь в комментариях, сколько набрали
Недавно по интернету пробежала новость об исследовании, которое показало, что люди способны отличать ИИ-поэзию от человеческой с результатами ниже случайных (46.6% accuracy). При этом ИИ-стихи люди оценивали как более ритмичные и красивые, но только если им не говорили заранее, что это творения нейросети: в ином случае реакции была в основном негативная (предвзятость? нет, не слышали).
А сегодня на своем сайте известный психиатр Скотт Александер выложил результаты эксперимента, в котором он предлагал людям отличать сгенерированные картины от творений реальных художников. И... снова результаты оказались неутешительные. Средняя точность оказалась на уровне 60%, то есть снова лишь немного выше случайного выбора.
Если хотите проверить себя, тест можно пройти здесь. Ответы – тут. Делитесь в комментариях, сколько набрали
🤯40😁16🗿7👍5❤1
This media is not supported in your browser
VIEW IN TELEGRAM
Итоги DevDay от OpenAI: показали новые демо SORA. Расходимся ☹️
Please open Telegram to view this post
VIEW IN TELEGRAM
🫡62😁18🌚8👍4🤯2
К слову, сегодня, прямо после DevDay, OpenAI совместно с GovTech Singapore запускает в Сингапуре хакатон
Соревнование посвящено теме «Искусственный интеллект на благо общества, Сингапура и мира». Оно уже началось, и прямо сейчас команды создают проекты с использованием GPT-4o Realtime и o1. Разработчики, которые займут первое/второе/третье места, получат кредиты API OpenAI на сумму 25 тыс./15 тыс./10 тыс. долларов.
Соревнование посвящено теме «Искусственный интеллект на благо общества, Сингапура и мира». Оно уже началось, и прямо сейчас команды создают проекты с использованием GPT-4o Realtime и o1. Разработчики, которые займут первое/второе/третье места, получат кредиты API OpenAI на сумму 25 тыс./15 тыс./10 тыс. долларов.
❤23😁10🔥9
This media is not supported in your browser
VIEW IN TELEGRAM
😁164😎18👍11😐6🤪3🍌2
Media is too big
VIEW IN TELEGRAM
Повеяло ветерком из прошлого: нашли архивную запись лекции 2018 года, на которой Илья Суцкевер поясняет за мультиагентный подход, AGI и обучение посредством селф-ризонинга
И это всего через год после изобретения трансформеров как таковых
И это всего через год после изобретения трансформеров как таковых
🔥78👍22❤8
Обложка нового выпуска журнала Science с изображением модели для генерации ДНК
Обложку посвятили исследованию Стэнфордских ученых о моделировании биомолекул (pdf оставим в комментариях). В привычных нам LLM мы пытаемся воссоздать процесс человеческого мышления на основе нейронов. Но достаточно ли этого? Основная «жизненная» информация заложена в нас на уровне трех основных компонентов: ДНК, РНК и белков. Если бы мы умели их моделировать, то это был бы огромный шаг по направлению к созданию не просто искусственного интеллекта, но и искусственной жизни.
Но это очень сложно. Белки мы кое-как научились моделировать только недавно (вспоминаем AlphaFold 2 и 3). А ДНК и РНК – это не просто молекулы, а целые геномы, настолько большие, что даже трансформеры не способны работать с такими огромными последовательностями.
В своей архитектуре исследователи взяли за основу SSM модели, а именно Hyena (о том, как работают SSM модели, читайте в этой нашей статье). Ее обучили на 2.7 миллионах геномов. В итоге Evo – так называется модель – способна моделировать последовательности ДНК длиной в 1 миллион азотистых оснований и анализировать их: например, делать выводы о том, как небольшие изменения в нуклеиновой цепи повлияют на организм.
В исследовании ученые говорят, что с помощью такого подхода можно в теории не только «воссоздать» жизнь, но и смоделировать эволюцию, то есть предсказать структуру ДНК, которая будет нести в себе следующую ступень развития человека.
Ну как, уже похоже на антиутопию?
Обложку посвятили исследованию Стэнфордских ученых о моделировании биомолекул (pdf оставим в комментариях). В привычных нам LLM мы пытаемся воссоздать процесс человеческого мышления на основе нейронов. Но достаточно ли этого? Основная «жизненная» информация заложена в нас на уровне трех основных компонентов: ДНК, РНК и белков. Если бы мы умели их моделировать, то это был бы огромный шаг по направлению к созданию не просто искусственного интеллекта, но и искусственной жизни.
Но это очень сложно. Белки мы кое-как научились моделировать только недавно (вспоминаем AlphaFold 2 и 3). А ДНК и РНК – это не просто молекулы, а целые геномы, настолько большие, что даже трансформеры не способны работать с такими огромными последовательностями.
В своей архитектуре исследователи взяли за основу SSM модели, а именно Hyena (о том, как работают SSM модели, читайте в этой нашей статье). Ее обучили на 2.7 миллионах геномов. В итоге Evo – так называется модель – способна моделировать последовательности ДНК длиной в 1 миллион азотистых оснований и анализировать их: например, делать выводы о том, как небольшие изменения в нуклеиновой цепи повлияют на организм.
В исследовании ученые говорят, что с помощью такого подхода можно в теории не только «воссоздать» жизнь, но и смоделировать эволюцию, то есть предсказать структуру ДНК, которая будет нести в себе следующую ступень развития человека.
Ну как, уже похоже на антиутопию?
👍68❤31🔥13🤔9👀4😁1
Anthropic все-таки берет деньги у Amazon
Еще в начале ноября в СМИ писали, что Amazon планирует инвестировать в стартап, но условия сделки были несколько необычными (мы писали об этом тут). Дело в том, что гигант настаивает, что Anthropic обязан использовать строго видеокарты Amazon и учить модели на Amazon Web Services.
И… Anthropic пошли на это. 4 миллиарда долларов все-таки!
Может быть, и Nvidia наконец почувствует хоть какую-то конкуренцию
Еще в начале ноября в СМИ писали, что Amazon планирует инвестировать в стартап, но условия сделки были несколько необычными (мы писали об этом тут). Дело в том, что гигант настаивает, что Anthropic обязан использовать строго видеокарты Amazon и учить модели на Amazon Web Services.
И… Anthropic пошли на это. 4 миллиарда долларов все-таки!
Может быть, и Nvidia наконец почувствует хоть какую-то конкуренцию
2👍44🔥13❤7🙈3
Следом за DeepSeek и Пекинским университетом еще одна группа китайских исследователей релизнула конкурента o1
И на этот раз перед нами модель не от стартапа, и не от университетской лаборатории, а от гиганта Alibaba. Ризонинг в Marco-o1 работает на основе поиска по дереву методом Монте-Карло: модель как бы "строит" дерево решений и итерируется по нему, применяя при этом CoT. С помощью этого алгоритма ученые хотели уйти от повсеместного применения ревард-моделей, которые работают хорошо, но начинают подводить, если домен узкий и вознаграждение сложно оценить.
Звучит, конечно, интересно, но бечмарки – мимо. Нет сравнения вообще ни с одной моделью, кроме Qwen2 7B. Видимо работа была скорее экспериментальной. Если сравнивать вслепую, то на MGSM модель выбивает около 90%. Примерно столько же было у первых июльских версий gpt-4o. Также выложили веса и код.
Разборы предыдущих моделей здесь и здесь
И на этот раз перед нами модель не от стартапа, и не от университетской лаборатории, а от гиганта Alibaba. Ризонинг в Marco-o1 работает на основе поиска по дереву методом Монте-Карло: модель как бы "строит" дерево решений и итерируется по нему, применяя при этом CoT. С помощью этого алгоритма ученые хотели уйти от повсеместного применения ревард-моделей, которые работают хорошо, но начинают подводить, если домен узкий и вознаграждение сложно оценить.
Звучит, конечно, интересно, но бечмарки – мимо. Нет сравнения вообще ни с одной моделью, кроме Qwen2 7B. Видимо работа была скорее экспериментальной. Если сравнивать вслепую, то на MGSM модель выбивает около 90%. Примерно столько же было у первых июльских версий gpt-4o. Также выложили веса и код.
Разборы предыдущих моделей здесь и здесь
1👍52🔥14🗿7❤4😎2😁1
Новое исследование от EpochAI: даже проблемы с оборудованием не остановят развитие ИИ
Учитывая, что каждая GPU H100 выходит из строя раз в 6 лет, несложная математика подсказывает, что кластер из 100к GPU будет сталкиваться со сбоями раз в 30 минут, а кластер с миллионов карт – каждые 3 минуты. Проблема ли это и насколько замедляет обучение моделей?
Исследователи показали, что если вы используете ванильный storage-based чекпоинтинг, то проблемы у вас действительно будут. Но если использовать продвинутые техники распределенных вычислений, то даже с ростом мощностей (и то есть с ростом вероятности сбоев) обучение будет масштабироваться, не замедляясь.
Так можно дожить до кластеров размером 4 миллиона GPU, а это даже больше, чем планируется строить к 2030 году.
Наши предыдущие посты-разборы ИИ-ресерчей EpochAI:
– Сколько GPU продает в год Nvidia?
– Что кончится раньше: данные или нефть?
– Когда закончится масштабирование моделей?
Учитывая, что каждая GPU H100 выходит из строя раз в 6 лет, несложная математика подсказывает, что кластер из 100к GPU будет сталкиваться со сбоями раз в 30 минут, а кластер с миллионов карт – каждые 3 минуты. Проблема ли это и насколько замедляет обучение моделей?
Исследователи показали, что если вы используете ванильный storage-based чекпоинтинг, то проблемы у вас действительно будут. Но если использовать продвинутые техники распределенных вычислений, то даже с ростом мощностей (и то есть с ростом вероятности сбоев) обучение будет масштабироваться, не замедляясь.
Так можно дожить до кластеров размером 4 миллиона GPU, а это даже больше, чем планируется строить к 2030 году.
Наши предыдущие посты-разборы ИИ-ресерчей EpochAI:
– Сколько GPU продает в год Nvidia?
– Что кончится раньше: данные или нефть?
– Когда закончится масштабирование моделей?
1👍30🔥11❤6
OpenAI, по слухам, начинает разработку своего браузера, и уже нанимает для этого специалистов
В частности, сегодня стало известно, что к стартапу присоединился Дарин Фишер. Это инженер, который известен тем, что работает над браузерами с самого начала их существования и значительно приложил руку к разработке таких крупных игроков как Firefox, Chrome, Arc и пр.
А между тем антимонопольная служба США еще и хочет заставить Google продать Chrome. Альтман как всегда вовремя.
В частности, сегодня стало известно, что к стартапу присоединился Дарин Фишер. Это инженер, который известен тем, что работает над браузерами с самого начала их существования и значительно приложил руку к разработке таких крупных игроков как Firefox, Chrome, Arc и пр.
А между тем антимонопольная служба США еще и хочет заставить Google продать Chrome. Альтман как всегда вовремя.
❤70👍31🔥15🤔7😁1
Media is too big
VIEW IN TELEGRAM
А как вам такое: ученый Роман Ямпольский, известный своими работами по безопасности ИИ и прогнозами вымирания человечества, заявил, что мы застряли в ИИ-симуляции 😱
«Как computer scientist, я задаюсь вопросом, можно ли взломать симуляцию, в которой мы находимся? В наше время мне кажется, что мы можем это сделать. Мы можем изобрести супер-интеллект и получить доступ к операционной системе»
Please open Telegram to view this post
VIEW IN TELEGRAM
😁100🤪32🔥29👍7🤯7🌚7❤4🤨1