Сиолошная
59.9K subscribers
1.28K photos
214 videos
1 file
1.39K links
Канал SeeAll'а с новостями (и мыслями о них) из мира NLP, VR и космоса.

Более подробно смотри в первом сообщении в канале (оно закреплено). А еще у нас есть чат! Заходи: https://t.me/+i_XzLucdtRJlYWUy
Download Telegram
Если вы не хотели платить за подписку и редко пользовались ChatGPT (или вообще не пользовались) — сейчас самое время пойти завести аккаунт.

Новая модель доступна БЕСПЛАТНО, и для многих будет ощущаться как невероятный скачок — разумеется, если выбрать правильные задачи. o3-mini специализируется на программировании и математике/физике/других схожих науках. Скормите ей домашку вашего ребёнка-старшеклассника и посмотрите, что вышло 😏
Please open Telegram to view this post
VIEW IN TELEGRAM
Сиолошная
Если вы не хотели платить за подписку и редко пользовались ChatGPT (или вообще не пользовались) — сейчас самое время пойти завести аккаунт. Новая модель доступна БЕСПЛАТНО, и для многих будет ощущаться как невероятный скачок — разумеется, если выбрать правильные…
Как бесплатным юзерам пользоваться o3-mini:

1) нужно зайти в аккаунт (это бесплатно, но нужен VPN из РФ) на chat.com

2) ввести свой запрос

3) нажать кнопочку «Reason» (на картинке)

4) Наслаждаться 10-60 секундами, пока модель думает над ответом

А если нажать кнопочку «Search», так она ещё и в интернете поищет! (правда пока функция экспериментальная и может плохо работать)

UPD: если кнопки нет — попробуйте а) обновить страницу б) перезайти в аккаунт в) сменить VPN (в EU пока у одного знакомого не работает). Если не помогло — попробуйте завтра, может быть конкретно до вас ещё не докатилось обновление.
Сиолошная
5 дней назад в чате канала подписчик написал: Попробовал все LLM на игру в быки и коровы. Я загадываю число, они отгадывали. Нет... Llm не умеют думать. Они просто плетут кружево из слов Если вы не знали, или детство было давно, то Быки и Коровы — это простая…
Помните я писал про бенчмарк «Быки и коровы», где нужно угадывать, какое четырёхзначное число загадал пользователь? (ответы и валидация автоматические)

Ну так вот, бенчмарк — В С Ё!

Запустил o3-mini на нём, она разгадала ВСЕ 50 ЗАГАДОК (ограничение в 15 попыток, многие модели не укладываются и потому не разгадывают). Кроме того, среднее количество попыток — 6.06, в то время как математически оптимальное ~5.67. То есть модель прям ООООЧЕНЬ продвинулась в рассуждениях, не требующих знаний.

Для сравнения лучшая модель до этого o1-mini (полную не тестировал, очень дорого) решала лишь половину задач, и средняя длина цепочки была 8.4 хода (оценка по 500 задачам, достаточно точная). И это был лучший результат — все R1, Gemini, Claude не справлялись и с половиной (все метрики тут). То есть o3-mini очень хорошо помнит контекст, все прошлые шаги игры, делает из них выводы и движется в правильном направлении.

Так ещё и в форматировании ответов тоже нуль ошибок (у Reasoning-моделей с этим почему-то плохо, они стабильно забывают, что было в промпте — так глубоко уходят в свои мысли).
Сиолошная
Как бесплатным юзерам пользоваться o3-mini: 1) нужно зайти в аккаунт (это бесплатно, но нужен VPN из РФ) на chat.com 2) ввести свой запрос 3) нажать кнопочку «Reason» (на картинке) 4) Наслаждаться 10-60 секундами, пока модель думает над ответом А если…
По предварительной информации лимит использования o3-mini для бесплатных юзеров составляет 10 сообщений в 4 часа — по крайней мере в чате два человека получили схожие по таймеру ограничения, и у одного из них вылезло такое сообщение.
Сиолошная
Заходим на chat.com, видим новую модель OpenAI o3-mini Доступна в двух вариантах: обычная (= medium, не low!) и high (думает дольше, но усерднее). Пользователи с подпиской за $20 в месяц получают 150 сообщений в сутки Бесплатным пользователям тоже дают…
Пред-предпоследний пост перед постом про DeepSeek!

В карточке модели o3-mini (вот pdf) OpenAI традиционно проводят множество тестов на безопасность и потенциально опасные навыки модели (умение выпрашивать деньги, эксплуатировать уязвимости в коде, саморазмножаться).

Там само по себе много интересной информации, в частности то, что модель o3-mini гораздо более эффективна в манипуляциях и социальной инженерии (правда оценки тут почти везде автоматизированы и не затрагивают людей). Но хотел обратить внимание на другое.

Уже много раз писал про бенчмарк SWE Bench Verified, где модели пытаются генерировать изменения для кода на уровне целого большого проекта, а не маленького приложения на 1-2 файла. На бенчмарке мы уже год отслеживает прогресс, и то что начиналось как 3-5% уже превратилось в 65%+. Однако загвоздка в том, что почти наверняка модели были натренированы на репозиториях, на которых производится оценка — и даже если модели не знают конкретный ответ на задачу, они в целом чувствуют себя увереннее в «виденной» ими кодовой базе.

И OpenAI собрали аналогичный бенчмарк, но на основе внутреннего репозитория. Про его структуру и сложность мы ничего не знаем, никаких деталей — даже количества задач — нет (но если прикинуть по процентам в статье, то получается что их не меньше 60; моя ставка что больше 200). Важно, что это прям настоящие задачи, которые делают высокооплачиваемые инженеры и исследователи непосредственно при работе в OpenAI. Ближе к «реальным рабочим задачам исследований AI» некуда.

На картинке:
o1 набирает 12%, o3-mini из-за каких-то ошибок форматирования набирает 0%, но это скорее результат сбора отчёта на скорую руку и/или нежелание вносить конкретные правки в инструмент тестирования (потому что на самом SWE Bench Verified модель супер клёво себя показывает).

Сложно понять, как интерпретировать 12% — может это были самые простые изменения в духе «добавил тут и там новое название переменной» или «исправил очевидный баг». Хотя скорее всего нет, и отбирали реально важные-сложные-интересные задачки. И вот среди них 12% решается. o3 наверное перескочит 20-25% — а это вообще-то очень много: представьте, что в такой компании, как OpenAI, 25% задач на программирование закрываются моделью.

Будем следить за этой цифрой в ближайших релизах, у какой-нибудь o4 там снова может получиться такая оценка, что сложно будет поверить)
Предпоследний пост перед постом про DeepSeek!

Как я писал, 30-го января Sama и несколько сотрудников OpenAI были в Белом доме на закрытой встрече с представителями власти. Axios пишет:

— в четверг в ходе неофициальной демонстрации Sama предоставил возможность руководителям правительства, политическим экспертам и журналистам взглянуть на будущую технологию.

— Целью брифинга было продемонстрировать, как США могут извлечь максимальную экономическую выгоду от ИИ, а также предупредить лидеров о будущих возможностях, чтобы снизить вероятность того, что они будут застигнуты врасплох.

— Altman и директор по продуктам OpenAI представили новые возможности ИИ, которые появятся в первом квартале, и сосредоточились на том, как эти возможности будут поддерживать науку, образование, здравоохранение и государственные сервисы

Плюс в недавнем интервью этот самый «директор по продуктам» Kevin Weil говорил прямым текстом, что Operator — первый в череде агентов (явно подразумевая, что не последний), и что новые последуют очень-очень скоро.

Так что возможно с релизом o3 — или безотносительно него — появится какой-то новый инструмент. Возможно это будет превью агента-программиста, про которого я писал ранее. Первый квартал кончается через пару месяцев, посидим-подождем!
Forwarded from Трендоскоп
gptPhone: начало post-mobile эпохи?

OpenAI планирует выпустить новое «GenAI-устройство» на замену смартфону. Слухи об этом ходили давно, но в последнее время Альтман и Ко мощно активизировались в этом направлении:

- На днях OpenAI подали заявку на патенты целого ряда «умных» продуктов. Среди них — часы, браслеты, носимые компьютеры и камеры, а также гуманоидные роботы.

- Альтман разъезжает по Корее и Японии, где даёт интервью с анонсами новых смартфонов и собственных полупроводников. Рассматривают партнерство с Samsung для конкуренции со взлетевшим китайским DeepSeek.

- Легендарный дизайнер Apple Джонни Айв может приложить руку к новым AI-устройствам. Альтман утверждает, что с Айвом на борту они смогут создать новый «iPhone-момент» для индустрии.

Подходы к созданию ИИ-девайсов уже были: начиная от провалившихся Rabbit и Humane Pin, до умеренно успешных Meta Ray-Ban. iPhone тоже не был первым смартфоном, но ему удалось нащупать правильный интерфейс и маркетинг — что привело к перевороту игры.

Такое же хотят повторить OpenAI. Тайминг выбран как нельзя лучше: рынок созрел для революции в мобильных устройствах. Существующие смартфоны практически достигли потолка развития, а ИИ-технологии достаточно продвинулись для создания принципиально новых интерфейсов.

Назревает платформенная революция, сравнимая с вебом в 90-х или мобайлом в конце нулевых. А такие времена — кладезь новых возможностей для стартеров.

@trendoscope
Forwarded from Denis Sexy IT 🤖
Как мне o1 Pro с шеей помогла 

>36 лет, почти 2 метра роста
>в ~33 много сидел за ноутом в позе буквы G и заработал хронические боли в шее (ригидность шеи)
>прошел много сессий массажа чтобы снять боль, но полностью боль не проходила
>купил всякие подставки для ноута, начал ходить чаще в зал, в шее все еще скованность мышц – не посмотреть в право без ощущения натянутой струны в затылке
>надоело, решил снова записаиться на массаж-терапию и починиться – массажист-терапевт сразу заметил, с какими мышцами проблема
>Но мы же в будущем
>Описал o1 Pro всю историю болезни и попросил сделать мне программу для починки мышц
>Попросил сразу включить поисковые запросы для Youtube чтобы быстро найти нужные техники
>3 вечера занимаюсь по ее программе
>Терапевт на втором приеме сегодня – Денис, я не могу нащупать напряженные мышцы???
>Показал ему программу o1 Pro, терапевт в восторге – все по науке
>Впервые могу смотреть во все стороны как нормальный обычный человек

Программа тут, если кто-то с шеей страдает – но, o1 Pro не замена для врачей, но очень классно помогает – рекомендую
Please open Telegram to view this post
VIEW IN TELEGRAM
Сиолошная
Please open Telegram to view this post
VIEW IN TELEGRAM
ПОСТ ПРО ДИПСИК (но не полный)

Наконец-то состоялось первое серьезное мероприятие с олимпиадными задачами по математике в период после релиза рассуждающих моделей. Можно взять свежие проблемы, которых не было в тренировочных данных*, пропустить через все интересные нам LLM и сравнить.

Соревнование это — American Invitational Mathematics Examination (AIME), первая часть из двух, в каждой из которых по 15 задач. Вторая пятнашка появятся 12-го февраля, тоже отпишусь.

На картинке вы видите, как разные модели справились с олимпиадой. Каждая модель решала каждую задачу 4 раза (независимо от других своих попыток).

Зелёный квадратик означает, что модель справилась 4/4 раз, желтый 1-3, красный — 0 раз из 4. Кому не интересно вникать — проще смотреть колонку «Acc», где отображена усреднённая точность «участников».

Модели OpenAI с большим отрывом обходят R1 (кстати топ-1 и стоит дешевле 😀), Sonnet 3.6 из коробки вообще ничего не решает.

Но что куда интереснее это сравнить метрики за 2024й год (которые репортились самими компаниями) и то, что получилось в 2025м:
— o3-mini: 87.3% -> 78.33% сейчас, есть просадка но всё равно топ-1
— o1: 74.4% -> 76.67%, показала себя даже чуть лучше, чем на давно доступных задачах
— R1: 79.8% -> 65% 🥱☠️
— дистиллянт R1-Qwen-14b: 69.7% -> 50% (падение даже больше чем у R1)

Я не думаю, что эти данные ультимативно подтверждают тезис о лучшей генерализации и отсутствии переобученности моделей OpenAI, но делают хорошую подводку.

(это не отменяет того что модель R1 от DeepSeek хороша)

* а вот в этом твиттер-треде нашли, что как минимум 3 задачи уже были в интернете (куда смотрели авторы олимпиады..?).

Источник — MathArena, увидел у @j_links. Задачи читать тут.
Please open Telegram to view this post
VIEW IN TELEGRAM
У 3b1b вышла видео-лекция в коллаборации с Terence Tao, в которой последний рассказывает о том, как человечество училось замерять небесные объекты

Смотрим за ужином 🍔
https://youtu.be/YdOXS_9_P4U
Please open Telegram to view this post
VIEW IN TELEGRAM
Пост про дипсик (но не совсем)

Сегодня ночью будет Супербоул (в 2:30 по мск), который я по традиции буду смотреть.

Сообщается, что OpenAI купили 30-секундную рекламу (за $8M). В новостях пишут что это первая TV-реклама, но на моей памяти в целом вообще первая — компания вкладывала примерно нуль в своё продвижение до недавнего времени. А вот, например, Anthropic в прошлом году уже появлялись на Супербоуле.

«Ха-ха, боятся конкуренции с DeepSeek» — может кто-нибудь сказать. Но вообще-то про начало маркетинговых компаний CMO OpenAI Kate Rouch говорила ещё в конце 2024-го года. Ближе к концу января мы узнали, что у OpenAI ОЧЕНЬ амбициозные планы на 2025й: они хотят вырастить аудиторию более чем в 4 раза (до МИЛЛИАРДА пользователей В СУТКИ), поэтому логично, что начнутся а) маркетинговые акции б) коллаборации в) промо-акции со скидками.

Также для того, чтобы привлекать бесплатных юзеров, было пора бы и модель обновить (там всё ещё крутилась GPT-4o-mini, если память не изменяет), и появление o3-mini для бесплатных юзеров — да ещё и с поиском — это скорее логическая закономерность нежели ответ на китайские релизы. Я не верю, что OpenAI приняли это решение испугавшись роста конкурента (который по итогу не смог выдержать наплыва аудитории и был долгое время недоступен — прямо как сами OpenAI в 2022м), но допускаю, что они могли чуть поднять лимиты по сравнению с теми, которые рассчитали до выхода и популярности R1.

Про коллаборации — вот например OpenAI предоставят доступ к ChatGPT Edu для студентов и сотрудников California State University, более 500'000 человек!

Ну и промо-акции: через неделю после релиза R1 в коде сайта OpenAI было обнаружено, что планируется давать скидку в 50% на Plus-подписку. А вчера нашли ещё больше информации (названия промо-кампаний):
— "students-2025-six-month-discount"
— "first month discount", "first month free", "six months discount", и "six months free"

(🥱 вот бы это на Pro-тир распространялось 👶...)

Тут у каждого оценка шансов субъективная, но для меня «компания с бывшим директором YC, где персонально он учил расти стартапы, и которая наняла CMO, который уже с месяц говорил про маркетинг, и в планы которой входил рост в 4 раза за год, планировала промо-кампании заранее» куда более вероятно, чем «эта же компания за неделю перевернулась и сделала промо-акции в ответ на китайскую угрозу». Почитаю в комментах почему я не прав 😀

для особо интересующихся напишу очевидную вещь: «не из-за DeepSeek» не равно «не из-за конкурентов»

===

О, и ещё: Similarweb пишет, что сайт ChatGPT стал 6м по трафику в мире, обойдя Twitter, Reddit, Netflix, и совсем чуть-чуть отставая от Instagram. За январь рост составил без малого 6%.

UPD: написал в комментах, но вынесу и сюда. Я считаю, что цены на на o3-mini / o1-mini упали почти наверняка из-за DeepSeek, и за это им спасибо.

UPD2: рекламный ролик, который крутили — ссылка на твитер
Please open Telegram to view this post
VIEW IN TELEGRAM
Наверняка вы читали про недавно обнаруженный астероид 2024 YR4, который может столкнуться с Землей в 2032м. Последняя вероятность этого события, что я видел, была 2.2%. Если она реализуется, то прям совсем критичного для человечества ничего не произойдёт — это будет сравнимо с одним взрывом ядерной бомбы, ни о каком уничтожении человечества речи не идёт.

Из пары видео узнал, что до сих пор остаётся очень сложной оценка траектории и параметров астероида, и что есть надежда на 3 вещи:
1) или мы найдём данные в записях 2020-го года, которые покажут, где был астероид
2) или мы найдём определенные данные за 2020-ый год, где астероида не было видно, и это тоже даст нам какую-то информацию («X не был здесь, следовательно, траектория не такая»)
3) или мы ждём 2028-го года, где практически сразу как только астероид выйдет из тени и глубокого космоса и мы его заметим — всё станет понятно, будет удар ещё через 4 года или нет.

Scott Manley попытался ответить на вопрос, что будет, если вдруг мы узнаем, что всё же столкновению быть. По его расчётам, даже очень маленького ударного воздействия хватит, чтобы подвинуть орбиту, и астероид пролетел мимо. У человечества для этого есть всё: в определённых конфигурациях даже хватит ракеты Falcon 9 (не Falcon Heavy).

Также он с помощью инструмента NASA оценил, что существует две траектории от Земли, которые доставят нашу посылку в лицо астероиду примерно за 100 дней, так, что контакт может произойти 26-го декабря 2028го — на следующий день после рождества. Вот был бы клёвый подарок!

Если честно — не подумайте что я враг человечества — мне бы хотелось, чтобы по итогу переоценки орбиты астероида оказалось, что он летит на нас, и мы как человечество смогли легко отбить его атаку. Это вдохновляет, это объединяет, это футуристично, это круто.

Но чтоб совсем не переживать — вот вам пара тезисов про миссию DART от NASA. В её рамках как раз таки произвели запуск спутника (удивительно, тоже на Falcon 9), который в 2022м году врезался в астероид и успешно изменил его орбиту, причём даже сильнее, чем мы рассчитывали (и не расколол его). Это была тренировка, но если бы он угрожал Земле — то всё бы обошлось. И тот астероид к тому же был в несколько раз массивнее, чем 2024 YR4.

Так что у нас всё схвачено 👍

UPD: ахахха а потом будут люди которые не поверят, что это произошло, и скажут что всё выдумки и снято в голивуде. Мы ж не могли видеть это, ну вот и дурят.
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from эйай ньюз
😮 Французский ответ Stargate

На AI Action Summit, президент Эммануэль Макрон анонсировал гигантские инвестиции во французскую ИИ индустрию - 109 миллиардов евро в течении следующих нескольких лет. Вплоть до 50 миллиардов придёт от фонда MGX из ОАЭ (он также участвует в финансировании Stargate), 20 миллиардов - от канадской инвестионной фирмы Brookfield, остальные деньги от плеяды более мелких инвесторов.

Значительная часть из вычислительных ресурсов, построенных на эти деньги, явно уйдёт Mistral - это сейчас единственная европейская компания способная выдавать конкурентноспособные LLM. Стартапам поменьше тоже достанется порядочно, но вот сколько - вопрос.

Похоже, что это всё - часть единой европейской стратегии по ИИ, которую должны представить завтра. Она должна включать упрощенные регуляции, на замену отвратительному AI Act. Франция в этой стратегии должна сыграть лидирующую роль - у страны есть и куча талантов, и большие избытки атомной электроэнергии и доступ к современным чипам.

Государства всё ещё лишь начинают играть мышцами в сфере ИИ, это не последний такой анонс в этом году. Мои выводы после анонса Stargate лишь подтверждаются.

@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
Краткая сводка с AI-полей

На встрече OpenAI Dev Meetup в Лондоне 10-го февраля Sama отвечал на вопросы:
— «Я думаю, нам нужно внедрить оплату по факту использования, когда пользователь выходит за рамки определенной суммы, или аналогичный механизм. 200 долларов в месяц на самом деле покрывают то, что хочет делать большинство подписчиков Pro, но 20 или 30 процентов, которые хотели бы, например, делать 3000 запросов в Deep Research, не будут удовлетворены»

— ответил на вопрос об AI-first устройстве, которое находится в проработке больше года, сказав, что оно появится примерно через год и что ожидание того стоит: «It is incredible. It is really, I'm very proud of it.». Так что я уже выбрал подарок на ДР/рождество 🙂

Retuers:
— OpenAI продвигает свой план по снижению зависимости от Nvidia, разрабатывая первое поколение собственных кремниевых чипов для искусственного интеллекта. Финальный дизайн будет утверждён в течение нескольких месяцев, после чего отправлен TSMC для производства на основе 3нм технологии. Массовое производство запланировано на 2026й

— Источники сообщили, что этот чип хоть и способен как участвовать в обучении, так и применении моделей, изначально будет развернут в ограниченном масштабе и в первую очередь для инференса (применения).

— 👀 очень интересно, делаются ли эти чипы с заточкой под форм-фактор GPT-5 (чтобы слои удобно раскладывались по разным девайсам, и в память влезало ровно сколько нужно, без остатка). Хотя в теории это не совсем оптимально, ибо модель со временем уменьшают, делая более доступной и дешёвой, в том числе за счёт изменений в архитектуре: как было у GPT-4 -> GPT-4-Turbo -> GPT-4o -> GPT-4o(2)

WSJ:
— Группа инвесторов под руководством Elon Musk делает ставку в $97,4B сделала предложение о покупке некоммерческой части OpenAI. Что? Зачем ему это?

— Дело в том, что в фоне медленно проходит процесс преобразования OpenAI в коммерческую организацию. Законом это не запрещено, но нужно иметь чёткие причины. Вместе с этим новой коммерческой части компании OpenAI необходимо будет выплатить некоммерческой, из под крыла которой она уходит, некоторую сумма за технологию и интеллектуальную собственность (вероятно, в виде акций в новой коммерческой компании).

— Но как понять, сколько стоит новая компания, и какую долю акций нужно отдать? Если за этим процессом не следить, то все бы говорили, что на самом деле там делов на $1, и можно закрывать глаза на последствия (в виде налогов).

— Текущая оценка компании по последнему раунду $150B; эксперты предсказывали, что в рамках сделки компания передаст 20-30% своих акций, то есть примерно $30-40B.

— А вот теперь на сцену выходит Elon и говорит, что он готов заплатить гораздо больше. И теперь у официальных лиц при переоформлении может возникнуть сомнение, что OpenAI не занижает оценку и не пытается что-то скрыть.

— Sam Altman уже заявил, что они, конечно, отказываются от сделки. Однако а) к этому должен прийти весь совет директоров, в котором 10 членов б) всё равно придётся что-то говорить властям.

— Так что шаг Elon'а даже без серьёзных намерений вставляет палки в колёса будущим планам OpenAI. Если компания не станет коммерческой в течение 2 лет, то по договору инвесторы последнего раунда, вкинувшие примерно $6B, смогут забрать свои деньги, да ещё и с процентами. На бумаге звучит страшно, но ждать ещё полтора года, и у OpenAI есть все шансы захватить ещё большую долю рынка, сделав так, что инвесторы просто не захотят забирать деньги. Ну это в теории, а как будет на практике — поглядим!
Please open Telegram to view this post
VIEW IN TELEGRAM