gonzo-обзоры ML статей
24.3K subscribers
3.3K photos
3 videos
3 files
1.57K links
Авторы:
Гриша Сапунов, ранее руководитель разработки Яндекс-Новостей, ныне CTO Intento. Области интересов: AI/ML/DL, биоинформатика.
Лёша Тихонов, ранее аналитик в Яндексе, автор Автопоэта, Нейронной Обороны... Области интересов: discrete domain, NLP, RL.
Download Telegram
Forwarded from gonzo_ML_podcasts
🔥7👍1
Это что-то очень прикольное! Вычисление — это постоянное обновление латентов. Нейрокомпьютер на базе диффузионки. Так, глядишь, и термодинамическое железо массово выстрелит!

Neural Computers

Mingchen Zhuge, Changsheng Zhao, Haozhe Liu, Zijian Zhou, Shuming Liu, Wenyi Wang, Ernie Chang, Gael Le Lan, Junjie Fei, Wenxuan Zhang, Yasheng Sun, Zhipeng Cai, Zechun Liu, Yunyang Xiong, Yining Yang, Yuandong Tian, Yangyang Shi, Vikas Chandra, 💪 Jürgen Schmidhuber
Paper: https://arxiv.org/abs/2604.06425
Code: https://github.com/metauto-ai/NeuralComputer
Blog: https://metauto.ai/neuralcomputer/index_eng.html
Review: https://arxiviq.substack.com/p/neural-computers

# TL;DR

ЧТО сделали:
Исследователи из Meta AI и KAUST предлагают новую архитектурную парадигму под названием нейрокомпьютер (Neural Computer, NC). Она объединяет вычисления, память и операции ввода-вывода в единое выученное скрытое состояние во время выполнения. Вместо того чтобы рассматривать ИИ как агента, который манипулирует внешней операционной системой, они встроили компьютер прямо в веса диффузионного трансформера (на базе Wan2.1). Идея проверена на двух прототипах: NC_{CLIGen} для работы с терминалом и NC_{GUIWorld} для графических интерфейсов десктопа.

ПОЧЕМУ это важно:
Работа намечает фундаментальный сдвиг от модульного стека железа и софта фон Неймана к единому «нейросетевому латентному стеку». Если этот тренд сохранится, будущие системы не будут программироваться явно кодом, а будут настраиваться дифференцируемым образом. Доказав, что базовые примитивы (например, выравнивание ввода-вывода и управление на коротких горизонтах) могут возникать исключительно из наблюдения за интерфейсными трейсами, авторы рисуют путь к полностью нейросетевым компьютерам (Completely Neural Computers, CNC), которые смогут заменить традиционные цифровые вычислительные платформы.

Для практиков:
Для техлидов и исследователей эта статья подсвечивает критическую развилку в дизайне ИИ-систем. Пока индустрия вливает огромные ресурсы в агентов, использующих внешние инструменты, эта работа предлагает альтернативу, где модель сама впитывает в себя среду исполнения. Подробные абляции показывают, что модели умеют очень точно рендерить интерфейсы и реагировать на ввод пользователя. Однако вскрывается и серьёзное ограничение: текущие реализации на базе видеомоделей — это великолепные рендереры, но пока ещё очень хрупкие рассуждающие модели при решении задач с нативной символьной логикой.

Рендерить тут: https://t.me/gonzo_ML_podcasts/3121
7🔥5😁3👍2🥰2👏1🤔1
Forwarded from gonzo_ML_podcasts
😁4🔥2
Ещё одна работа про анализ ИИ-автоматизации.

Crashing Waves vs. Rising Tides: Preliminary Findings on AI Automation from Thousands of Worker Evaluations of Labor Market Tasks
Matthias Mertens, Adam Kuzee, Brittany S. Harris, Harry Lyu, Wensu Li, Jonathan Rosenfeld, Meiri Anto, Martin Fleming, Neil Thompson
Paper: https://arxiv.org/abs/2604.01363

# TL;DR

ЧТО сделали: Исследователи из MIT FutureTech оценили 41 LLM на 3000+ реалистичных рабочих задачах, взятых из базы данных O*NET (другая недавняя работа на этой же базе). Они собрали более 17 000 двойных слепых оценок от профильных экспертов и смоделировали вероятность успеха ответов ИИ в зависимости от времени, которое потребовалось бы человеку на выполнение той же задачи.

ПОЧЕМУ это важно: Эта работа кардинально меняет наше представление о динамике автоматизации. ИИ не захватывает узкие ниши резко и внезапно (как «цунами»), пасуя перед всем остальным. Наоборот, модели улучшаются параллельно во всех текстовых профессиональных областях (как «прилив»). Такое плоское распределение роста производительности указывает на более предсказуемый и всеобъемлющий сценарий трансформации рынка труда.

Для практиков: Статья даёт отличную эмпирическую базу для стратегов и аналитиков. Передовые системы уже достигают 50% успешности на задачах, занимающих у человека 3–4 часа. Однако пологий наклон кривой успеха означает, что достижение идеальной надёжности без ошибок займёт значительно больше времени. Базовые способности к рассуждению стремительно растут, но главным барьером для реальных экономических сдвигов станет системная инженерия — та самая «последняя миля», необходимая для внедрения моделей в сложные корпоративные процессы.

Автоматизировать тут: https://t.me/gonzo_ML_podcasts/3136
👍81👀1
Forwarded from gonzo_ML_podcasts
2👍2
Дорожная карта развития железа для ИИ на ближайшие 10 лет. Хотим ускорения в 1000 раз: 10x от инноваций в алгоритмах, 20x от архитектурных улучшений и утилизации кремния, и 5x от оркестрации на уровне системы.

AI+HW 2035: Shaping the Next Decade
Deming Chen, Jason Cong, Azalia Mirhoseini, Christos Kozyrakis, Subhasish Mitra, Jinjun Xiong, Cliff Young, Anima Anandkumar, Michael Littman, Aron Kirschen, Sophia Shao, Serge Leef, Naresh Shanbhag, Dejan Milojicic, Michael Schulte, Gert Cauwenberghs, Jerry M. Chow, Tri Dao, Kailash Gopalakrishnan, Richard Ho, Hoshik Kim, Kunle Olukotun, David Z. Pan, Mark Ren, Dan Roth, Aarti Singh, Yizhou Sun, Yusu Wang, Yann LeCun, and Ruchir Puri
Статья: https://arxiv.org/abs/2603.05225
Ревью: https://arxiviq.substack.com/p/aihw-2035-shaping-the-next-decade

# TL;DR

ЧТО сделали: Масштабный консорциум лидеров индустрии и академии составил комплексную 10-летнюю дорожную карту для объединения разработки ИИ-алгоритмов и железа. Цель — улучшить эффективность обучения и инференса в 1000 раз.

ПОЧЕМУ это важно: Экспоненциальное масштабирование foundation-моделей столкнулось с жёсткими физическими, температурными и инфраструктурными ограничениями. Энергия на перемещение данных теперь превышает энергию на сами вычисления, создавая суровую "стену памяти". Решить эту проблему математически и практически необходимо, чтобы глобальная нехватка энергии в дата-центрах не остановила прогресс ИИ.

Для практиков: Для стратегов по железу, проектировщиков архитектур и ML-исследователей эта дорожная карта — срочная директива. Она описывает переход от изолированной разработки, сфокусированной на вычислениях, к парадигме кросс-уровневого совместного проектирования (co-design). Требуя внедрения 3D-интеграции вычислений в памяти (CIM), алгоритмической устойчивости к шуму смешанных сигналов и использования ИИ для автоматизации проектирования электроники (EDA), статья намечает путь к устойчивому агентному ИИ. Такой ИИ будет способен эффективно работать везде: от гигаваттных облаков до милливаттных физических edge-устройств.

Ковать железо тут: https://t.me/gonzo_ML_podcasts/3148
7🥴5👍3🤓1