Искусственный интеллект: настоящая проверка - это коммуникация
Тест Тьюринга теряет актуальность: настоящий вызов для ИИ - умение общаться. 🤖 Исследователи утверждают, что вместо того, чтобы просто имитировать человеческое поведение, ИИ должен научиться понимать контекст и эмоции, чтобы взаимодействовать с людьми более эффективно.
Если ИИ сможет наладить настоящий диалог, это откроет двери к новым возможностям в образовании, медицине и бизнесе, меняя наш подход к технологии.
О чём нам задуматься?
Так ли близко мы к AGI как заявляют ИИ-энтузиасты? Главный вопрос: кто и как определит в итоге что такое AGI, мы подтянем результат к формулировке, или формулировку к полученному результату? Учитывая триллионы на кону, для того кто добежит первым, я верю во второй вариант.
Artificial Intelligence Archives
#новости
Тест Тьюринга теряет актуальность: настоящий вызов для ИИ - умение общаться. 🤖 Исследователи утверждают, что вместо того, чтобы просто имитировать человеческое поведение, ИИ должен научиться понимать контекст и эмоции, чтобы взаимодействовать с людьми более эффективно.
Если ИИ сможет наладить настоящий диалог, это откроет двери к новым возможностям в образовании, медицине и бизнесе, меняя наш подход к технологии.
О чём нам задуматься?
Так ли близко мы к AGI как заявляют ИИ-энтузиасты? Главный вопрос: кто и как определит в итоге что такое AGI, мы подтянем результат к формулировке, или формулировку к полученному результату? Учитывая триллионы на кону, для того кто добежит первым, я верю во второй вариант.
Artificial Intelligence Archives
#новости
👍4🔥1👏1
Forwarded from Глебсмит
🔟💺 тезисов об экономике данных из зала ожидания
Сидел на прошлой неделе под "Ковром" в аэропорту, скучал, набросал кое-чего в заметках и думать забыл. А сегодня – после истории с "Аэрофлотом" - вспомнил.
1⃣ Данные добываются всегда
Каждый отмененный рейс генерирует информацию о работе инфраструктуры под давлением. Каждая реакция пассажиров на объявления - данные о поведении населения в стрессе. Женщина рядом нервно листает телефон - еще одна точка данных о том, как люди ищут информацию в кризисе.
2⃣ Сбор неизбежен, владение - нет
Palantir и подобные компании уже обрабатывают информацию о сегодняшней атаке дронов. Траектории, время перехвата, реакция ПВО - все записано и проанализировано. Вопрос не в том, собирать данные или нет. Вопрос в том, кто их получит помимо западных корпораций. Например, российские разработчики для улучшения работы собственной ПВО
3⃣ Украинская модель = нефтяные СРП 90-х
Украина сегодня – это "средняя постсоветская страна" 90-х с модными тогда "соглашениями по разделу продукции", только вместо нефтяных скважин "майнят" боевые данные. Западные корпорации приходят с готовыми технологиями и решениями, элита предоставляет доступ к "месторождению" (конфликту), корпорации добывают данные и продают готовые продукты глобально. Местная элита получает процент, страна остается сырьевым придатком.
4⃣ Суверенитет XXI века - контроль полного цикла от данных к решениям на их основе
Россия развивает "Герани" на основе собственного боевого опыта. Китай создает ИИ-системы на собственных данных. Это императивная необходимость: как в стратегическом военном смысле, так и в экономическом утилитарном. Кто контролирует обработку данных, тот диктует цены на технологические решения всем остальным.
5⃣ Американский план развития ИИ – вполне себе манифест технологической колонизации, нового империализма
"Full-stack AI export packages" – которые ставятся в центр плана – системы полного цикла от железа и чипов до алгоритма и даже программной оболочки – приложения в телефоне - готовые комплекты зависимости для союзников. США откровенно планируют превратить весь мир в потребителей американских ИИ-стандартов. Украина - прототип такого "союзника": предоставляет данные, получает готовый "полный пакет", остается зависимой навсегда.
6⃣ Каждая задержка рейса принесет прибыль
Пока мы ждем в аэропорту, корпорации получают уникальную информацию о работе российской транспортной системы под регулярными атаками. Эти данные через пять лет станут основой для ИИ-систем управления логистикой, которые будут проданы по всему миру как "проверенные в экстремальных условиях".
7⃣ Население стало сырьем
Мы больше не граждане, мы - источники данных. Наши реакции на воздушные тревоги, маршруты эвакуации, паттерны поведения в стрессе - все это обрабатывается алгоритмами для создания систем управления гражданским населением.
8⃣ Технологическая зависимость необратима
Если твоя страна не развивает собственные IT-технологии, ты навсегда остаешься покупателем чужих решений. Цены диктует продавец. Условия использования - тоже. Захочет отключить - отключит. Захочет скомпрометировать – скомпрометирует, как это произошло с "Аэрофлотом".
9⃣ Данные нельзя национализировать задним числом
В отличие от нефтяных скважин, данные нельзя отобрать обратно после того, как их передали корпорациям. Palantir уже обучил свои алгоритмы на украинских боевых данных. Эти знания останутся у корпорации навсегда, даже если завтра Украина попытается разорвать все контракты.
🔟 Выбор делается сейчас
Либо страны развивают собственные технологии обработки данных (как Россия и Китай), либо становятся технологическими колониями (как Украина). Третьего не дано. Нейтралитета в экономике данных не существует.
Сидел на прошлой неделе под "Ковром" в аэропорту, скучал, набросал кое-чего в заметках и думать забыл. А сегодня – после истории с "Аэрофлотом" - вспомнил.
1⃣ Данные добываются всегда
Каждый отмененный рейс генерирует информацию о работе инфраструктуры под давлением. Каждая реакция пассажиров на объявления - данные о поведении населения в стрессе. Женщина рядом нервно листает телефон - еще одна точка данных о том, как люди ищут информацию в кризисе.
2⃣ Сбор неизбежен, владение - нет
Palantir и подобные компании уже обрабатывают информацию о сегодняшней атаке дронов. Траектории, время перехвата, реакция ПВО - все записано и проанализировано. Вопрос не в том, собирать данные или нет. Вопрос в том, кто их получит помимо западных корпораций. Например, российские разработчики для улучшения работы собственной ПВО
3⃣ Украинская модель = нефтяные СРП 90-х
Украина сегодня – это "средняя постсоветская страна" 90-х с модными тогда "соглашениями по разделу продукции", только вместо нефтяных скважин "майнят" боевые данные. Западные корпорации приходят с готовыми технологиями и решениями, элита предоставляет доступ к "месторождению" (конфликту), корпорации добывают данные и продают готовые продукты глобально. Местная элита получает процент, страна остается сырьевым придатком.
4⃣ Суверенитет XXI века - контроль полного цикла от данных к решениям на их основе
Россия развивает "Герани" на основе собственного боевого опыта. Китай создает ИИ-системы на собственных данных. Это императивная необходимость: как в стратегическом военном смысле, так и в экономическом утилитарном. Кто контролирует обработку данных, тот диктует цены на технологические решения всем остальным.
5⃣ Американский план развития ИИ – вполне себе манифест технологической колонизации, нового империализма
"Full-stack AI export packages" – которые ставятся в центр плана – системы полного цикла от железа и чипов до алгоритма и даже программной оболочки – приложения в телефоне - готовые комплекты зависимости для союзников. США откровенно планируют превратить весь мир в потребителей американских ИИ-стандартов. Украина - прототип такого "союзника": предоставляет данные, получает готовый "полный пакет", остается зависимой навсегда.
6⃣ Каждая задержка рейса принесет прибыль
Пока мы ждем в аэропорту, корпорации получают уникальную информацию о работе российской транспортной системы под регулярными атаками. Эти данные через пять лет станут основой для ИИ-систем управления логистикой, которые будут проданы по всему миру как "проверенные в экстремальных условиях".
7⃣ Население стало сырьем
Мы больше не граждане, мы - источники данных. Наши реакции на воздушные тревоги, маршруты эвакуации, паттерны поведения в стрессе - все это обрабатывается алгоритмами для создания систем управления гражданским населением.
8⃣ Технологическая зависимость необратима
Если твоя страна не развивает собственные IT-технологии, ты навсегда остаешься покупателем чужих решений. Цены диктует продавец. Условия использования - тоже. Захочет отключить - отключит. Захочет скомпрометировать – скомпрометирует, как это произошло с "Аэрофлотом".
9⃣ Данные нельзя национализировать задним числом
В отличие от нефтяных скважин, данные нельзя отобрать обратно после того, как их передали корпорациям. Palantir уже обучил свои алгоритмы на украинских боевых данных. Эти знания останутся у корпорации навсегда, даже если завтра Украина попытается разорвать все контракты.
🔟 Выбор делается сейчас
Либо страны развивают собственные технологии обработки данных (как Россия и Китай), либо становятся технологическими колониями (как Украина). Третьего не дано. Нейтралитета в экономике данных не существует.
👍5💯4🔥2👏1
У нас постоянно идёт дискуссия о том, какие инструменты ИИ пригодны в образовании: что действительно помогает, а что может навредить.
Мой неизменный тезис прост: успех обучения во многом держится на мотивации. Если вам не посчастливилось встретить учителя, который «зажжёт» вас надолго, ваши шансы на результат резко падают.
Поэтому я убеждён, что в умелых руках ИИ способен увлечь ребёнка - да и взрослого - практически любой дисциплиной.
Ниже - два примера, как можно представить живопись маленькому или большому человеку, который только начинает с ней знакомиться: видео Andrey Zakirzyanov и Marcos Medel.
Мой неизменный тезис прост: успех обучения во многом держится на мотивации. Если вам не посчастливилось встретить учителя, который «зажжёт» вас надолго, ваши шансы на результат резко падают.
Поэтому я убеждён, что в умелых руках ИИ способен увлечь ребёнка - да и взрослого - практически любой дисциплиной.
Ниже - два примера, как можно представить живопись маленькому или большому человеку, который только начинает с ней знакомиться: видео Andrey Zakirzyanov и Marcos Medel.
❤4👍3🔥1👏1
Forwarded from EFEMERA: AI news (Вова Казаков)
Исследование Anthropic: как Claude Code меняет работу
✦ Команды Anthropic используют Claude Code для автоматизации задач и ускорения разработки (отделы: разработки, безопасности, аналитики, маркетинга, дизайна, юристов и др.)
✦ Специалисты по безопасности сократили анализ инцидентов с 10–15 минут до 5 минут
✦ Маркетологи автоматизировали создание рекламных объявлений: генерация 100+ вариантов за несколько минут вместо 2 часов вручную
✦ Дизайнеры используют Claude Code для правок в интерфейсе без помощи разработчиков
✦ Команда Data Infrastructure ускорила диагностику проблем в Kubernetes, сократив время на решение до нескольких минут вместо часов
✦ Финансовая команда без опыта программирования выполняет сложные запросы к данным, описывая задачи простым текстом
✦ Команда Product Development использует Claude Code для быстрого прототипирования (реализовала 70% функции Vim mode)
✦ В команде Data Science создали приложение на TypeScript из 5000 строк без знания языка
✦ Команда Legal за 1 час создала приложение для помощи родственнику с нарушением речи, используя speech-to-text и voice banks
✦ Ранее Anthropic уже публиковал документ (pdf) по данному исследованию
EFEMERA
✦ Команды Anthropic используют Claude Code для автоматизации задач и ускорения разработки (отделы: разработки, безопасности, аналитики, маркетинга, дизайна, юристов и др.)
✦ Специалисты по безопасности сократили анализ инцидентов с 10–15 минут до 5 минут
✦ Маркетологи автоматизировали создание рекламных объявлений: генерация 100+ вариантов за несколько минут вместо 2 часов вручную
✦ Дизайнеры используют Claude Code для правок в интерфейсе без помощи разработчиков
✦ Команда Data Infrastructure ускорила диагностику проблем в Kubernetes, сократив время на решение до нескольких минут вместо часов
✦ Финансовая команда без опыта программирования выполняет сложные запросы к данным, описывая задачи простым текстом
✦ Команда Product Development использует Claude Code для быстрого прототипирования (реализовала 70% функции Vim mode)
✦ В команде Data Science создали приложение на TypeScript из 5000 строк без знания языка
✦ Команда Legal за 1 час создала приложение для помощи родственнику с нарушением речи, используя speech-to-text и voice banks
✦ Ранее Anthropic уже публиковал документ (pdf) по данному исследованию
EFEMERA
👍3🔥2👏2
Готов быть закиданным помидорами, но! Ну не нравится мне хабальство, выдаваемое за оригинальность и эффективность.
И пусть оно хоть в двадцать раз эффективнее, и деньги льются рекой, и движение вперёд, и акционеры довольны - не нравится мне!
Я про Илона нашего Маска: ну очень он специфичный парень, не мой человек…
Да и машины, кстати, у него так себе (два года имел на иждивении Model S - могу рассказать все плюсы‑минусы).
Теперь, значит, ему и академическое сообщество не угодило? Не было бы ни его, ни его компаний, если бы не теоретические исследования.
Схожие чувства у меня и к Олегу Тинькову: с мсье Маском лично не встречался, а вот с Олегом был на общей встрече - впечатления ровно такие, как ожидались.
Я бы не смог работать с таким человеком, будь он хоть трижды эффективным и приносящим золото прямо из воздуха. Но каждому - своё.
И пусть оно хоть в двадцать раз эффективнее, и деньги льются рекой, и движение вперёд, и акционеры довольны - не нравится мне!
Я про Илона нашего Маска: ну очень он специфичный парень, не мой человек…
Да и машины, кстати, у него так себе (два года имел на иждивении Model S - могу рассказать все плюсы‑минусы).
Теперь, значит, ему и академическое сообщество не угодило? Не было бы ни его, ни его компаний, если бы не теоретические исследования.
Схожие чувства у меня и к Олегу Тинькову: с мсье Маском лично не встречался, а вот с Олегом был на общей встрече - впечатления ровно такие, как ожидались.
Я бы не смог работать с таким человеком, будь он хоть трижды эффективным и приносящим золото прямо из воздуха. Но каждому - своё.
👍7🔥6👏3
Spotify намекает на более разговорный интерфейс голосового ИИ
Spotify планирует сделать взаимодействие с пользователями более естественным и дружелюбным, добавив новые функции для своего голосового искусственного интеллекта. Компания стремится создать более «разговорное» общение, что позволит пользователям проще находить музыку и подкасты, а также получать рекомендации. 🌟
Такой подход может значительно изменить опыт пользования приложением, сделав его более интерактивным и персонализированным. Это также подчеркивает тенденцию к внедрению голосовых технологий в повседневную жизнь.
О чём нам задуматься?
Век традиционных экранов подходит к концу? Впереди новые интерфейсы и власть голоса. Уже сейчас стоит задуматься о проектировании UI, который будет работать в будущем.
Techcrunch
#новости
Spotify планирует сделать взаимодействие с пользователями более естественным и дружелюбным, добавив новые функции для своего голосового искусственного интеллекта. Компания стремится создать более «разговорное» общение, что позволит пользователям проще находить музыку и подкасты, а также получать рекомендации. 🌟
Такой подход может значительно изменить опыт пользования приложением, сделав его более интерактивным и персонализированным. Это также подчеркивает тенденцию к внедрению голосовых технологий в повседневную жизнь.
О чём нам задуматься?
Век традиционных экранов подходит к концу? Впереди новые интерфейсы и власть голоса. Уже сейчас стоит задуматься о проектировании UI, который будет работать в будущем.
Techcrunch
#новости
Амазон внедрит рекламу в разговоры с Alexa
Генеральный директор Amazon предлагает добавить рекламу в диалоги с голосовым помощником Alexa. 🤖 Это решение может стать новой стратегией компании для увеличения доходов, но повлечет за собой неоднозначную реакцию пользователей.
Сложно не задуматься о том, как реклама изменит наше взаимодействие с технологиями и насколько это приемлемо. Вводя рекламу, Amazon рискует столкнуться с негативной реакцией пользователей, которые ценят свою приватность.
О чём нам задуматься?
Мы последние год много слышали обсуждений , что традиционной рекламной модели Google пришел конец, все ищут через помощников, вот вам и ответ, скоро будет как в Черном зеркале в эпизоде с подпиской, вдруг наш нейроинтерфейс выдаст рекламу, несмотря на платную подписку 🤔
Techcrunch
#статьи
Генеральный директор Amazon предлагает добавить рекламу в диалоги с голосовым помощником Alexa. 🤖 Это решение может стать новой стратегией компании для увеличения доходов, но повлечет за собой неоднозначную реакцию пользователей.
Сложно не задуматься о том, как реклама изменит наше взаимодействие с технологиями и насколько это приемлемо. Вводя рекламу, Amazon рискует столкнуться с негативной реакцией пользователей, которые ценят свою приватность.
О чём нам задуматься?
Мы последние год много слышали обсуждений , что традиционной рекламной модели Google пришел конец, все ищут через помощников, вот вам и ответ, скоро будет как в Черном зеркале в эпизоде с подпиской, вдруг наш нейроинтерфейс выдаст рекламу, несмотря на платную подписку 🤔
Techcrunch
#статьи
👍2
Важный выпуск. Дима Волков хоть и рассказывает известные кейсы, но делает это очень понятно и доступно для широких масс. Вопрос этики и рисков, важнейший.
https://youtu.be/au5fU-nbZmc?si=ykfl67Mk6s9v2SMr мне кажется что нам пора сделать аналогичную НКО, желательно действительно независимую.
https://youtu.be/au5fU-nbZmc?si=ykfl67Mk6s9v2SMr мне кажется что нам пора сделать аналогичную НКО, желательно действительно независимую.
YouTube
«Мы строим бога, который может стереть все в пепел» — чем опасен AI и что нам делать? Дмитрий Волков
НАСТОЯЩИЙ МАТЕРИАЛ (ИНФОРМАЦИЯ) ПРОИЗВЕДЕН И РАСПРОСТРАНЕН ИНОСТРАННЫМ АГЕНТОМ ЕЛИЗАВЕТОЙ НИКОЛАЕВНОЙ ОСЕТИНСКОЙ ЛИБО КАСАЕТСЯ ДЕЯТЕЛЬНОСТИ ИНОСТРАННОГО АГЕНТА ЕЛИЗАВЕТЫ НИКОЛАЕВНЫ ОСЕТИНСКОЙ 18+
Поддержать нас и попасть в закрытый телеграм-чат с Осетинской:…
Поддержать нас и попасть в закрытый телеграм-чат с Осетинской:…
💩1
Искусственный интеллект поднимает популярность гуманитарных наук
С развитием искусственного интеллекта наблюдается неожиданный тренд: гуманитарные специальности могут вновь стать востребованными. 🤔 В условиях, когда технологии берут на себя рутинные задачи, навыки критического мышления, креативности и коммуникации становятся ключевыми для успешной карьеры.
Это может привести к тому, что студенты, ориентированные на искусственный интеллект и технологии, начнут выбирать гуманитарные дисциплины, чтобы дополнить свои технические знания. Таким образом, возможно, мы станем свидетелями нового витка в образовании.
О чём нам задуматься?
Как изменится рынок труда в условиях растущей автоматизации? Уже пора переосмыслить ценность образования в гуманитарных науках. Пора человеку становиться универсальным, как известно, «специализация - удел насекомых» (с) Роберт Хайнлайн
Medium
#новости
С развитием искусственного интеллекта наблюдается неожиданный тренд: гуманитарные специальности могут вновь стать востребованными. 🤔 В условиях, когда технологии берут на себя рутинные задачи, навыки критического мышления, креативности и коммуникации становятся ключевыми для успешной карьеры.
Это может привести к тому, что студенты, ориентированные на искусственный интеллект и технологии, начнут выбирать гуманитарные дисциплины, чтобы дополнить свои технические знания. Таким образом, возможно, мы станем свидетелями нового витка в образовании.
О чём нам задуматься?
Как изменится рынок труда в условиях растущей автоматизации? Уже пора переосмыслить ценность образования в гуманитарных науках. Пора человеку становиться универсальным, как известно, «специализация - удел насекомых» (с) Роберт Хайнлайн
Medium
#новости
❤3🔥2
Forwarded from Data Secrets
Вот так новости: независимые аналитики опубликовали отчет, в котором показано, что около 29% ответов на вопросы по биологии и химии в бенчмарке «Humanity’s Last Exam» содержат ошибки и напрямую противоречат рецензированной научной литературе
Если все так, то это буквально катастрофа для репутации бенчмарка и создателей, потому что HLE уже довольно долго используется как золотой стандарт по вопросам уровня PhD.
Причем тест составлял не кто-нибудь, а международный консорциум экспертов из разных областей. Так почему же так могло произойти?
1. Когда эксперты проверяли ответы, на каждый отводилось не более 5 минут. То есть даже если ответ был спорным, или тема требовала более глубоко погружения, им все равно давалось не более пяти минут, чтобы принять решение.
2. Вопросы в целом формулировались так, чтобы ИИ не мог просто зазубрить ответы на них, поэтому в бенче часто встречаются задачки с подвохом или размытыми формулировками. А такие часто очень сложно верифицируемы. В общем, мудрили-мудрили и где-то перемудрили.
Хотелось бы сказать, что бенч просто требует небольшой доработки, но 30% – это прямо много. Тут уже нужно основательно переосмыслять процедуру.
Сам отчет -> www.futurehouse.org/research-announcements/hle-exam
Если все так, то это буквально катастрофа для репутации бенчмарка и создателей, потому что HLE уже довольно долго используется как золотой стандарт по вопросам уровня PhD.
Причем тест составлял не кто-нибудь, а международный консорциум экспертов из разных областей. Так почему же так могло произойти?
1. Когда эксперты проверяли ответы, на каждый отводилось не более 5 минут. То есть даже если ответ был спорным, или тема требовала более глубоко погружения, им все равно давалось не более пяти минут, чтобы принять решение.
2. Вопросы в целом формулировались так, чтобы ИИ не мог просто зазубрить ответы на них, поэтому в бенче часто встречаются задачки с подвохом или размытыми формулировками. А такие часто очень сложно верифицируемы. В общем, мудрили-мудрили и где-то перемудрили.
Хотелось бы сказать, что бенч просто требует небольшой доработки, но 30% – это прямо много. Тут уже нужно основательно переосмыслять процедуру.
Сам отчет -> www.futurehouse.org/research-announcements/hle-exam
💔2
Data Secrets
Вот так новости: независимые аналитики опубликовали отчет, в котором показано, что около 29% ответов на вопросы по биологии и химии в бенчмарке «Humanity’s Last Exam» содержат ошибки и напрямую противоречат рецензированной научной литературе Если все так…
У меня, не так давно была обстоятельная беседа с практикующим математиком, так он сказал, что огромное количество математических методов и открытий вообще не отражено в текущей программе, ладно бы в обычных школах, так ведь в специализированных тоже местами, даже в ВУЗах, ну там хоть от преподавателя зависит, но в целом надо что-то менять.
Почему гениальные умы покидают технологическую отрасль?
В последние годы наблюдается тревожная тенденция: многие ведущие специалисты в сфере технологий уходят с рынка. 🚀 Это связано не только с высокими требованиями и стрессом, но и с потерей интереса к инновациям.
Основные причины — выгорание, отсутствие креативной свободы и недостаток поддержки со стороны компаний. Эти факторы подрывают мотивацию и приводят к тому, что талантливые кадры ищут новые возможности в других сферах.
О чём нам задуматься?
Деньги или правда?Как сохранить творческий потенциал и предотвратить выгорание в технологической среде, на которую как из рога из рога изобилия, посыпались миллиарды? Что может сделать индустрия, чтобы вернуть своих лучших специалистов?
Medium
#новости
В последние годы наблюдается тревожная тенденция: многие ведущие специалисты в сфере технологий уходят с рынка. 🚀 Это связано не только с высокими требованиями и стрессом, но и с потерей интереса к инновациям.
Основные причины — выгорание, отсутствие креативной свободы и недостаток поддержки со стороны компаний. Эти факторы подрывают мотивацию и приводят к тому, что талантливые кадры ищут новые возможности в других сферах.
О чём нам задуматься?
Деньги или правда?Как сохранить творческий потенциал и предотвратить выгорание в технологической среде, на которую как из рога из рога изобилия, посыпались миллиарды? Что может сделать индустрия, чтобы вернуть своих лучших специалистов?
Medium
#новости
❤2
Вот это прям очень интересно. Особенно тема про «ответа нет» и попытку победить галлюцинации.
Forwarded from Сиолошная
Посмотрел свежее интервью с тремя ключевыми сотрудниками OpenAI, стоящими за системой, выигравшей золотую медаль на международной олимпиаде по математике. Новой информации не так много, тезисно:
— вся работа заняла буквально 2-3 месяца, и в большей степени вовлечено было 3 человека. Значимую часть времени трудился только Alex Wei, остальные два участника подключились попозже, когда время поджимало. Конечно, все трое общались и с другими командами, инфраструктура там, итд, но ядро вот всего три человека.
— Для задачи 6, самой сложной и решённой всего 6 участниками, Noam подчеркнул значимость способности модели отвечать «ответа нет», тем самым избегая галлюцинаций. Модель знала, что она не решила задачу, и пасовала — это очень важно для интеграции в работу реальных математиков.
— Noam упомянул, что основным узким местом при увеличении времени на обдумывание является оценка решений: если время рассуждений увеличить до 1500 часов, оценка займет столько же времени, что создаст существенный боттлнек.
— Если говорить о «Задачах тысячелетия», чрезвычайно сложных проблемах, решение которых практически не продвинулось даже после работы сотен учёных в течении десятков лет, то с точки зрения времени на рассуждениях решение потребовало бы увеличения текущего ~полуторачасового интервала, отводимого на решение задач IMO, в 1000 и более раз. Так что впереди ещё долгий путь.
— Noam возглавляет команду Multi-agent systems, и проговорился, что система, получившая золотую медаль, как раз использовала многоагентность, чтобы масштабировать параллельные вычисления. Однако система задумывается общей, без заточки только на математику, и сейчас начинается работа по интеграции решения в системы, доступные пользователям ChatGPT.
— Noam сказал, что одним из следующих препятствий станет поиск ответа на вопрос: «Как нам заставить модель придумывать новые сложные и полезные задачи?». Но он не видит препятствий, почему это не произойдет.
И в этом же контексте добавлю вот такую новость. Помните набор задач FrontierMath от Epoch.AI? Изначально там было 3 уровня сложности, и недавно появился четвёртый, задачи для которого взяты с границы того, что известно математикам сегодня. Всего там 48 задач, и до недавнего времени всего 3 задачи решались хотя бы какой-то моделью (в топе была o4-mini😋 ).
o3 смогла решить четвёртую, сделав 32 попытки (лишь одна оказалась правильной). Автор задачи, профессор математики из UC, сказал, что модель имела некоторые неправильные предпосылки, но в конечном итоге решила проблему, «сочетая превосходную интуицию относительно асимптотических явлений с ее способностью кодировать и выполнять сложные расчеты для проверки гипотез».
«Это выдающееся достижение модели o3. Она точно выявила ключевую идею, которую я закладывал при построении задачи, решение которой основано на (!) неопубликованной технике (!) асимптотического анализа, обобщающей мои результаты, которые лишь немногие люди в мире понимают на глубоком техническом уровне.»
Ждём моделек 2026-го года для продвижения фронтира🥳
— вся работа заняла буквально 2-3 месяца, и в большей степени вовлечено было 3 человека. Значимую часть времени трудился только Alex Wei, остальные два участника подключились попозже, когда время поджимало. Конечно, все трое общались и с другими командами, инфраструктура там, итд, но ядро вот всего три человека.
— Для задачи 6, самой сложной и решённой всего 6 участниками, Noam подчеркнул значимость способности модели отвечать «ответа нет», тем самым избегая галлюцинаций. Модель знала, что она не решила задачу, и пасовала — это очень важно для интеграции в работу реальных математиков.
— Noam упомянул, что основным узким местом при увеличении времени на обдумывание является оценка решений: если время рассуждений увеличить до 1500 часов, оценка займет столько же времени, что создаст существенный боттлнек.
— Если говорить о «Задачах тысячелетия», чрезвычайно сложных проблемах, решение которых практически не продвинулось даже после работы сотен учёных в течении десятков лет, то с точки зрения времени на рассуждениях решение потребовало бы увеличения текущего ~полуторачасового интервала, отводимого на решение задач IMO, в 1000 и более раз. Так что впереди ещё долгий путь.
— Noam возглавляет команду Multi-agent systems, и проговорился, что система, получившая золотую медаль, как раз использовала многоагентность, чтобы масштабировать параллельные вычисления. Однако система задумывается общей, без заточки только на математику, и сейчас начинается работа по интеграции решения в системы, доступные пользователям ChatGPT.
— Noam сказал, что одним из следующих препятствий станет поиск ответа на вопрос: «Как нам заставить модель придумывать новые сложные и полезные задачи?». Но он не видит препятствий, почему это не произойдет.
И в этом же контексте добавлю вот такую новость. Помните набор задач FrontierMath от Epoch.AI? Изначально там было 3 уровня сложности, и недавно появился четвёртый, задачи для которого взяты с границы того, что известно математикам сегодня. Всего там 48 задач, и до недавнего времени всего 3 задачи решались хотя бы какой-то моделью (в топе была o4-mini
o3 смогла решить четвёртую, сделав 32 попытки (лишь одна оказалась правильной). Автор задачи, профессор математики из UC, сказал, что модель имела некоторые неправильные предпосылки, но в конечном итоге решила проблему, «сочетая превосходную интуицию относительно асимптотических явлений с ее способностью кодировать и выполнять сложные расчеты для проверки гипотез».
«Это выдающееся достижение модели o3. Она точно выявила ключевую идею, которую я закладывал при построении задачи, решение которой основано на (!) неопубликованной технике (!) асимптотического анализа, обобщающей мои результаты, которые лишь немногие люди в мире понимают на глубоком техническом уровне.»
Ждём моделек 2026-го года для продвижения фронтира
Please open Telegram to view this post
VIEW IN TELEGRAM
YouTube
OpenAI’s IMO Team on Why Models Are Finally Solving Elite-Level Math
In just two months, a scrappy three-person team at OpenAI sprinted to fulfill what the entire AI field has been chasing for years—gold-level performance on the International Mathematical Olympiad problems. Alex Wei, Sheryl Hsu and Noam Brown discuss their…
This media is not supported in your browser
VIEW IN TELEGRAM
Воскресное, красивое! David Szauder, Gotan Project
🌚4💯1
Apple разрабатывает собственный AI-«ответный движок»
Слухи о том, что Apple создает свою версию AI-движка, набирают обороты. 🤖 Этот проект может стать ответом на конкуренцию с такими гигантами, как Google и Microsoft, предоставляя пользователям более персонализированные и точные ответы на запросы.
Внедрение такого движка может изменить подход к поиску информации и взаимодействию с устройствами Apple, предоставляя пользователям уникальный опыт и подчеркивая инновационность компании.
О чём нам задуматься?
Никогда не поздно? или опоздали? Apple давно зарекомендовала себя, как компания, которая может пере придумывать существующие решения и продавать их как никто. Получится ли в этот раз... Стоит ли тем кто не успел в последний вагон, гнаться за поездом?
Techcrunch
#новости
Слухи о том, что Apple создает свою версию AI-движка, набирают обороты. 🤖 Этот проект может стать ответом на конкуренцию с такими гигантами, как Google и Microsoft, предоставляя пользователям более персонализированные и точные ответы на запросы.
Внедрение такого движка может изменить подход к поиску информации и взаимодействию с устройствами Apple, предоставляя пользователям уникальный опыт и подчеркивая инновационность компании.
О чём нам задуматься?
Никогда не поздно? или опоздали? Apple давно зарекомендовала себя, как компания, которая может пере придумывать существующие решения и продавать их как никто. Получится ли в этот раз... Стоит ли тем кто не успел в последний вагон, гнаться за поездом?
Techcrunch
#новости
❤2