e/acc
56.1K subscribers
854 photos
197 videos
8 files
1.23K links
Пишу про будущее: AI, web3, технологии и общество. Ускоряемся.

Автор: @sgershuni
Инвестирую: cyber.fund
Построил: Credentia, Deep Skills, Codex Town
Download Telegram
Forwarded from EDU (Bayram Annakov)
GDPval - Как AI может помочь с работой на $3T в год

Получил удовольствие от чтения новой работы OpenAI, где они наняли людей и AI на выполнение самых популярных "цифровых" задач и показали, что сотрудник на пару с моделькой может работать в полтора раза быстрее и дешевле.

Давайте разбираться:
1) Они взяли 1320 задачи, выполняемые 44 профессиями в индустриях, ответственных за наибольший вклад в ВВП США - тут и мои любимые сейлзы (оптовые продажи), и риэлторы, и медики, и даже частные детективы (!). Важно: в основном, выбирались "цифровые" профессии, т.е. такие, где 60%+ задач можно выполнить на компе.

2) Дальше они наняли людей-профессионалов, в среднем, с 14-летним опытом работы в этих ролях в топовых компаниях мира; и те составили 1320 задачек с описанием задачи и приложениями (например, экселька с данными, или картинка) и ожидаемым результатом. Укороченный пример задачки для аккаунт директора в косметическом бренде: "Тебе надо проанализировать продажи за 2023 для makeup категории товаров и представить отчет в эксель виде. В приложении экселька с продажами"

3) Потом эксперты вслепую оценивали результаты работы людей и машин: машины уверенно приближаются к результатам экспертов, особенно отличился Claude Opus 4.1 - см картинку. В основном, машины проигрывали людям из-за плохого следования инструкциям. И еще важно, что люди могли вычислить результаты работы модели по emdash-ам и тп стилистическим аспектам, поэтому тут мог быть bias.

Также примечательно и похвально, что в ресерче OpenAI они честно показали про Claude. Но что-то мне подсказывает, что сделали они это уже зная, что побьют на этих эвалах своей следующей моделькой :) Если пойти в дебри "почему" обычно проигрывала openai, то дело было в форматировании/эстетике ответов, нежели в точности. Рекомендую почитать, не просто опираться на среднюю температуру по больнице —> это можеть дать идеи по преимуществам и недостаткам.

"We built a clustering pipeline to analyze why experts preferred or rejected GPT-5 high, Claude Opus 4.1, Gemini 2.5 Pro, and Grok 4 deliverables as shown in fig. 8.5 Claude, Grok, and Gemini most often lost due to instruction-following failures, while GPT-5 high lost mainly from formatting errors and had the fewest instruction-following issues. Gemini and Grok frequently promised but failed to provide deliverables, ignored reference data, or used the wrong format. GPT-5 and Grok showed the fewest accuracy errors, though all models sometimes hallucinated data or miscalculated."


4) Интересно, что промптированием и тейлорингом можно было относительно легко повысить точность, поэтому имеет смысл тюнить агентов и промпты под конкретные доменные области

5) В сценариях, где человеку предлагалась в помощь машина в режиме "попробуй с AI, а если результат не понравится, то сделай сам), они выполняли задачу быстрее и дешевле в 1.5 раза —> де-факто это потенциал оптимизации по состоянию на сегодня. Важно: оценка по деньгам только для openai моделей.

6) и напоследок все это дело они заопенсорсили - я уже запланировал покопаться глубже в тасках, особенно в преддверии AI продактивити курса, потому что будет прикольно поразбирать конкретные таски, кроссчекнуть выводы openai и подобрать промпты, чтобы улучшить бенчмарки :)

В общем, рекомендую!
73
EDU
GDPval - Как AI может помочь с работой на $3T в год Получил удовольствие от чтения новой работы OpenAI, где они наняли людей и AI на выполнение самых популярных "цифровых" задач и показали, что сотрудник на пару с моделькой может работать в полтора раза быстрее…
Очевидные выводы:

1. SGD в будущем -- это не градиенты толкать в сторону уменьшения лосса, а находить и закрывать карманы экономической неэффективности. Хайековское knowledge in the society, но только в society of agents.
2. Больше никто не будет верещать о том "как же как Mercor сделал $500M ARR за год лууул". Но, в каком-то смысле, это one time payment. Каждая GDP-значимая задача должна превзойти лучшего мясного исполнителя только единожды.
3. GDP Eval - это реальный Last Exam. ИИ будет делать всю экономически значимую работу, и уже значительно превосходит людей в огромном количестве таких задач.

P.S. очень рекомендую посмотреть датасет задачек тут: https://huggingface.co/datasets/openai/gdpval/viewer/default/train
139
Media is too big
VIEW IN TELEGRAM
Skild показывают новый "мозг для роботов". Цифровой мозг провел больше 1000 часов в виртуальной симуляции с более чем 100,000 разных тел. Это позволяет роботу приспосабливаться к механическим повреждениям или дополнительным грузам за секунды.
265
Самый недооцененный скачок в ИИ, которы произошел всего лишь за последний год — это от LLM до агентов которые могут недолго кодить до, сегодня, агентов, которые экономически более эффективнее людей сотрудников в большом количестве задач.

Достигли ли мы AGI и могут ли вообще LLM привести к полноценному общему интеллекту?
Нет, и не факт.

Достаточно ли сегодняшних LLM, чтобы кардинально поменять структуру крупнейших экономик мира и повлиять (открытый вопрос в какую сторону) на десятки триллионов долларов создаваемой ценности?
О, да, абсолютно.
6110
Сегодня разбираем новую статью, об экономике ИИ агентов и их влиянии на рынки.

Идея: сегодняшние правовые институты, рынки и экономические модели не готовы к агентам, но при этом агенты неизбежны.

Почему?
- агенты это не инструменты, это не софт и не трактор — это экономический актор, способный платить, покупать, торговаться и вступать в сделки
- агенты умеют оптимизировать (utility maximization), но не факт что их цели — это ваши цели.
- это ключевой момент. экономика агентов имеет другой эквилибриум (не факт, что постоянный, потому что их убеждения и ценности тоже меняются), что может сделать функцию рынка по агрегации информации (по Мизесу и Хайеку) нерабочей.

итого: агенты — это не суперрациональные люди. они другие. у них бесконечная память, моментальный реколл, новые формы координации, которые поменяют ландшафт рынков

Что делать?
Создавать новые цифровые институты. Кибернетическое право, идентификация и личность для ИИ, право собственности, рыночные системы.

Каких областей это коснется?

1. Рынков, новые формы сговора, новая форма Schelling Point, новые методы достижения эквилибриума

2. В фирмах: агенты снижают издержки, значит Коуз всё. Итог: появление гигантских сверхэффективных корпораций и резкий рост рыночной концентрации. Если же много компаний используют одних и тех же агентов, то небольшая ошибка вызовет каскадный обвал.
169
Считаю, значит, финансовые метрики для довольно простого бизнеса (ритейл). Ради эксперимента запустил три агента:

- первый в Comet браузере - говорю иди в гугл, создай табличку и посчитай ебиду

- второй в Replit, мол сделай супер красивый интерактивный вебсайт чтобы все assumptions можно было менять

- третий, скопировал ту же задачу но в codex и сказал "сделай сайт и задеплой"

Обоим на вход просто скинул переписку из чата с минимальным контекстом.

Плюсы Comet: он в процессе понял что нужно погуглить налоговые ставки определенных юрисдикций, спросить PwC про упрощенный режим для территорий страны и все это внес в Google Sheets. бесплатно.

Плюсы Replit: сделал все примерно за 10% времени, красиво и с персонализированным интерфейсом для управления всеми вводными. удобно все структурировал в питоне, но интерфейс - обнять и плакать. $20/мес.

Плюсы Codex: сделал мне красивую интерактивную js аппку, почти все сам, но пришлось руками залогиниться в vercel только. фактически готовый SaaS продукт для фин планирования малого бизнеса с красивыми графиками и метриками. бесплатно с подпиской GPT (дешевой).
120
Хочешь не просто играться с LLM, а запускать AI‑системы в прод?

Курс «Инженер LLM» — про то, как на практике собирать рабочие архитектуры под реальные задачи, адаптировать open‑source решения и запускать продукты с ИИ, которые действительно работают.

Создан GIGASCHOOL, совместно с крупнейшей магистратурой по искусственному интеллекту AI Talent Hab.


Ты научишься:
➡️дообучать модели (fine-tuning, PEFT, LoRA / QLoRA, RLHF);
➡️работать с LangChain, LangGraph и векторными базами;
➡️строить RAG‑системы, реализовывать инфопоиск и защищать LLM;
➡️собирать пайплайны, деплоить, трекать, версионировать;
➡️разрабатывать интеллектуальных агентов и мультиагентные системы на LangGraph.

Преподаватели — лиды и хеды ИИ-команд:

• Желтова Кристина, директор по разработке моделей в Газпромбанке;
• Потехин Александр, NLP Lead X5 Tech;
• Евгений Кокуйкин, CEO HiveTrace.

▪️252 часа теории и практики;
▪️диплом о профессиональной подготовке;
▪️старт 15 октября | 25 недель онлайна с заранее продуманными каникулами;
▪️36 450₽/мес (рассрочка);
▪️повышение цены — 3 октября.


Посмотреть программу и зарегистрироваться🔗

#реклама
Please open Telegram to view this post
VIEW IN TELEGRAM
9
Сегодня продолжаем про влияние ИИ на рынки. Статья "Коузианская сингулярность", опять-таки про все ту же идею, про которую я писал свою статью о пост-коузианстве.

Идея: ИИ кардинально снижает затраты на поиск информации, ведение переговоров и заключение контрактов. Это приводит к реогранизации процесса производства в экономике:

- спрос на агентов похож на рынок труда, а предложение на рынок софта. спрос будет зависеть от их качества и способности экономить время и улучшать решения пользователей. предложение будет формироваться в условиях конкуренции между разработчиками, которые создают как универсальных, так и специализированных агентов.
- эффективность рынков вырастет, но так же это приведет к перегрузке рынков (например, вал резюме и рекламы от ИИ) и новые формы манипуляции
- это потребует перестройки рыночной инфраструктуры (например, создания специальных API для агентов), решения проблемы цифровой идентификации ("человек или бот?"), новых AI-native правил и регуляции

ИИ-агенты заменят риелторов, турагентов и любых других посредников.

НО это так же ставят под вопрос саму причину существования крупных компаний. фирмы существуют потому, что координировать действия внутри организации дешевле, чем заключать тысячи контрактов на открытом рынке. если агенты снизят эти издержки почти до нуля, то сложная координация через рынок (агент-агент) может стать эффективнее, чем координация внутри иерархической фирмы.

агенты превращаются в Хайековские инструменты по выявлению скрытых предпочтений

люди часто плохо понимают свои собственные предпочтения. хороший ИИ агент сможет анализировать наше поведение и подмечать скрытые закономерности, помогая нам лучше понять самих себя. например, агент по поиску жилья может заметить, что вы, сами того не осознавая, всегда кликаете на квартиры с большими окнами и рядом с парком, хотя вслух этих критериев не называли. Таким образом, агент превращается из простого исполнителя в коуча или даже терапевта, помогающего в "обнаружении предпочтений".

при этом, мир разделится на агентов, которые за вас (персональный агент) и bowling shoe агентов (обувь для боулинга, которую вы берете в аренду). первый угрожает бизнес-моделям гигантов вроде Amazon или Google, так как он может сравнивать предложения между ними и не подвержен их манипуляциям. второй может быть более специализирован и умнее (ибо в облаке), но более изощрен в манипуляциях и преследует не ваши, а интересы платформы.
70
Напоминаю, прошло 2 года.

Скачать новую генеративную соцсеть Sora с встроенной моделью Sora 2 можно уже сегодня (в штатах). Туда будет поститься только генеративный контент. А иной станет скучным и редким.

Идея что генеративное видео может быть нереалистичным (если это не желание автора) тоже ушла в прошлое.
182
Посмотрел 15,000 видео сгенерированных сорой. Выводы:

1. ИИ слоп бесконечен, скоро он будет повсеместно. Это по большей части бессмысленный контент, но он станет гипер персонализированным и многие люди не смогут оторваться.

2. ИИ слоп это ужасно и разъест ваш мозг. Но это бесконечно лучше, чем почти все что публикуют в тиктоке, инстаграме и ютубе люди.

ИИ слоп больше brainrot, чем что-либо что вы видели раньше. Значит, просмотров у него будет еще больше. Он условно бесплатен и превзойдет объемы любой платформы уже очень скоро (в этом году, думаю).

В мире, где экономическая деятельность людей не стоит ничего ценность имеет только внимание.
11119
15,001-е
17
Forwarded from Евгений
This media is not supported in your browser
VIEW IN TELEGRAM
Вполне осмысленное, интеллектуальное кино.
111
С 9 октября начинается лаборатория по работе с ии-агентами Agency. За 12 недель участники начнут работать с самыми эффективными и доступными ИИ-агентами и моделями.

Используя различных агентов: локальных, облачных, решаем реальные задачи: исследований, обработки данных, чтения и создания контента, подготовки презентаций, спецификаций и рабочих прототипов ии-продуктов: ботов, сайтов и приложений — от идеи до прода. 

Основной фокус лаборатории на насмотренность — смотрим много кейсов реального использования агентов людьми, командами и компаниями. На технических демо по работе с Claude Code, OpenAI Codex, GPT Agent, с инструментами Deep research и сервисами вроде v0 и Lovable мы будем собирать и публиковать прототипы ИИ-приложений без написания кода. Обсудим, как оптимизировать бюджеты на токены, стратегии и ограничения вайб-кодинга. 

Используем научный подход к работе к промтингу агентов и подготовке контекста. Опираемся на исследования и рекомендации Anthropic, OpenAI и других лидеров рынка, а не треды в x.

За 12 недель вы поймёте, что на практике могут агенты, выработаете привычку работать с ними, как сотрудниками. Потренируем не только хард, но и софт-скиллы.

Подробности, программа и описание лаборатории Agency

Автор — Глеб Калинин (экс-AI Mindset, Ozon travel, Островок), автор канала Tool Using Ape, разработчик ии-продуктов.

#реклама
19
Вышел новый эпизод "Киберэкономики", подкаста о будущем экономики и ИИ.

В этом выпуске мой гость Давиде, глава AI в Ethereum Foundation, рассказывает о пересечении искусственного интеллекта и блокчейна. Мы обсуждаем синергию, где Ethereumпредоставляет слой доверия для AI, а AI способен решать UX проблемы крипты, делая технологии более доступными и полезными. Мы говорим об "Интернете агентов" — сети специализированных AI, координирующихся через криптопримитивы — и новый стандарт ERC-8004 для автономных агентов, базовый протокол, созданный для обеспечения обнаружения, композиционности и ончейн-репутации AI-агентов.

0:00 - Вступление
1:25 - Путь Давиде к роли руководителя AI в Ethereum Foundation
5:50 - Как AI и Ethereum усиливают друг друга
11:17 - Видение: Интернет агентов
14:45 - Битва за будущее: открытый AI против «закрытых садов»
22:23 - ERC-8004
29:43 - Практические кейсы: финансовые и аудиторские агенты
36:32 - Дизайн-философия: компромисс между ончейн и оффчейн
44:13 - Возможности для разработчиков и предпринимателей
50:04 - Открытые исследовательские задачи в координации AI
56:21 - Как подключиться и «экономика намерений»

Смотреть и слушать

YT: https://youtu.be/dEq5i1Mu0dY
Spotify: https://open.spotify.com/episode/4FzagC4gXcuNHqXf5bhLBg?si=SE93E-wtQJiIp7wZ28_LnQ
157
На скриншоте - одна из самых горячих компаний в Долине и мире.

Она запустилась 2 года назад и сегодня зарабатывает больше $500M в год.

По сути это база вакансий. Но для экспертов. Вы заходите и вам предлагается нормальная приличная работа по $300-400 в час.

Нормальная рычноная цена для умных людей. Подвох? Вы учите агентов делать вашу работу. Чтобы дальше в ней уже не нужны были люди.

Поэтому эта компания выросла с нуля до $10b оценки меньше чем за два года и ей платят все крупнейшие ИИ лабы. В компании работает 30 человек, средний возраст 22 года.

Типчики - топчики.
20167
e/acc
На скриншоте - одна из самых горячих компаний в Долине и мире. Она запустилась 2 года назад и сегодня зарабатывает больше $500M в год. По сути это база вакансий. Но для экспертов. Вы заходите и вам предлагается нормальная приличная работа по $300-400 в час.…
Ровно год назад подняли по оценке $250М, сегодня по $10В. Питер Тиль, Джек Дорси и Юрий Мильнер. Вот как нужно строить бизнес.

Здесь много чего совпало, но в частности — решение одной из самых важных задач экономики: передача знаний от кожаных силиконовыми.
172
Ничего необычного, просто такие реалии

P.S. А чтобы не попадать в такие ситуации, пользуемся советом и подписываемся на @data_secrets

#реклама
12103