Считается, что немецкую шифровальную машину Энигма взломал Тьюринг, и "Бомбу" тоже построил он
Но до Тьюринга были польские математики Генрик Зыгальский, Мариан Реевский и Ежи Ружицкий, из книги Turing's Vision от MIT Press
И в Википедии есть
Они первые начали взламывать шифры Энигмы, Реевский первым создал свою Бомбу, а Тьюринг делал уже последующую для усложнённого шифра Энигмы
В Познани, всё это и происходило, и здесь отличный музей Энигмы, где подробно рассказывается история этих польских математиков
Wikipedia
Криптологическая бомба
Криптологическая бомба (пол. Bomba kryptologiczna) — аппарат, предложенный польским криптологом Марианом Реевским и разработанный в 1938 году совместно с двумя его коллегами-математиками Ежи Ружицким и Генриком Зыгальским для систематической расшифровки сообщений…
Луддиты — участники стихийных протестов первой четверти XIX века против внедрения машин в ходе промышленной революции в Англии
Когда автоматизация производства привела к росту безработицы, рабочие увидели источник зла в машинах
Появление луддитов в Англии является хорошим примером сопротивления общества структурным изменениям, которые, в долгосрочной перспективе, улучшают положение всех ее членов
Промышленная революция в Англии в конце 18-го – начале 19 века тяжело сказалась на рабочих
Массовое внедрение фабриками, особенно шерстяными и хлопкообрабатывающими, нового оборудования резко сократило потребность в старой рабочей силе и множество людей оказались буквально выброшенными на улицу
А поскольку социальных гарантий в то время практически не было, то их участь была весьма печальной
Многие рабочие обвинили во всем новые машины
Им казалось, что именно они отняли у них работу и, уничтожив их, можно вернуть потерянные рабочие места
Недовольство постепенно вылилось в серии стихийных протестов против использования машин
Активней всех выступали ткачи, поскольку их специальность требовала долгого срока обучения, а работы была весьма высококвалифицированной
Ткацкие станки сделали их знания ненужными
В 1768 году толпа ткачей разрушила мастерскую изобретателя прядильной машины Джеймса Харгривса, в 1792 году манчестерские ткачи сожгли первое предприятие с силовыми установками Эдмунда Картрайта
К 1811 году протесты приняли массовый характер
Восставшие нападали на фабрики, ломали и жгли ненавистные им машины
Они называли себя луддитами, по имени Неда Лудда, возможно вымышленного рабочего, который одним из первых уничтожил чулочные станки
Дело закончилось столкновением бунтовщиков с правительственными войсками
Восстание было подавлено, а уничтожение машин было объявлено преступлением, карающимся смертной казнью
Ex-Google создали новую архитектуру ИИ с интуицией
Новая архитектура заимствует ключевой аспект функционирования биологических нейронов — временную синхронизацию
Компания Sakana AI, созданная ex-Google Brain, DeepMind, представила Continuous Thought Machine (CTM)
Это попытка переосмыслить основы работы искусственных нейронных сетей, приблизив их к биологическим аналогам
CTM показала интерпретируемое, человекоподобное поведение, которое возникает естественным образом из архитектуры, а не программируется специально
Это может привести к созданию ИИ с лучшей объяснимостью решений и возможностью переноса знаний между задачами
Ключевые особенности CTM:
1. Модель обрабатывает данные через "внутренние тики", создавая пространство, в котором "разворачивается мышление" независимо от входных данных
2. Новый тип нейронов
Каждый нейрон имеет собственную мини-сеть (MLP), обрабатывающую историю своих прошлых активаций
3. Синхронизация как основной механизм
Представление информации основано на паттернах синхронизации между нейронами, а не только на их активациях
При тестировании CTM на различных задачах были обнаружены удивительные эмерджентные свойства:
Интуитивное решение лабиринтов
Пошаговое распознавание изображений
При классификации изображений CTM изучает разные части изображения последовательно, напоминая человеческое зрительное внимание
Адаптивные вычисления. Модель может регулировать количество "мыслительных шагов" в зависимости от сложности задачи, тратя меньше усилий на простые изображения
Память через нейронную организацию
CTM способна запоминать числа и выполнять операции над ними, используя только организацию и синхронизацию нейронов
Статья
GitHub
Tutorial
Continuous Thought Machines
Introducing Continuous Thought Machines: a new kind of neural network model that unfolds and uses neural dynamics as a powerful representation for thought.
Университет Цинхуа выяснил, как заставить ИИ генерировать собственные данные для обучения, и превзошла по производительности модели, обученные на данных, отобранных экспертами-людьми
Telegram
All about AI, Web 3.0, BCI
Researchers at Tsinghua University introduced Absolute Zero, a new method for AI training
It enables models to learn and master complex reasoning tasks on their own through self-play.
Can be a strong alternative to training with costly human-labeled data.…
It enables models to learn and master complex reasoning tasks on their own through self-play.
Can be a strong alternative to training with costly human-labeled data.…
OpenAI представила новый стандарт оценки мед ML
Компания представила HealthBench —открытый набор данных и оценочный инструмент, созданный для тестирования LLM на их способность обрабатывать медицинские диалоги
Он включает 5.000 реалистичных медицинских разговоров, которые охватывают 26 медицинских специальностей, таких как нейрохирургия и офтальмология, и поддерживает 49 языков, включая ахмарский и непальский
Эти разговоры моделируют реальные сценарии взаимодействия между пациентами и врачами, что делает бенчмарк уникальным в своей реалистичности и масштабе
Основная цель HealthBench — оценить, насколько точно и безопасно ML-модели могут отвечать на запросы, связанные со здоровьем
Каждый ответ модели оценивается по специально разработанным рубрикам, созданным врачами, которые учитывают клиническую точность, полноту и соответствие медицинским стандартам
Рубрики содержат 48.562 уникальных критерия, что позволяет проводить глубокую и детализированную оценку
Запуск HealthBench вызвал интерес не только в медицинской и ML-сферах, но и в криптовалютном секторе
Некоторые аналитики предполагают, что стандартизация оценки медицинских ML-моделей может стимулировать спрос на блокчейн-решения в здравоохранении, особенно для управления медицинскими данными и обеспечения прозрачности
Несмотря на новаторский характер HealthBench, эксперты подчеркивают, что бенчмарк не является исчерпывающим
Реальная клиническая практика сложнее, чем смоделированные диалоги, и требует дополнительного тестирования в реальных условиях
Некоторые эксперты выражают скептицизм относительно заявлений, что ML в 4 раза превосходит врачей, указывая на необходимость критической оценки таких утверждений
Telegram
All about AI, Web 3.0, BCI
OpenAI just released HealthBench — a new eval for AI systems for health.
Developed with 262 physicians who have practiced in 60 countries.
Developed with 262 physicians who have practiced in 60 countries.
Создана платформа для ML-агентов, чтобы они учились решать задачи машинного обучения как профессионалы, с возможностью масштабирования и интеграции новых данных
MLE-Dojo — это платформа, которая позволяет ML-агентам учиться решать сложные задачи, такие как анализ данных, настройка моделей, отладка кода и прогнозирование временных рядов
Она основана на 200+ реальных задачах с Kaggle, охватывающих табличные данные, компьютерное зрение,обработку текста и многое другое
Ключевые возможности :
1. Работает как тренажер для агентов, где они могут итеративно тестировать гипотезы, получать обратную связь и совершенствоваться
2. Поддерживает тонкую настройку и обучение с подкреплением с детальной историей действий агента и среды
3. структура позволяет легко добавлять новые задачи, инструменты и действия через удобный API
4. Метрика HumanRank Score сравнивает результаты агентов с достижениями людей на лидерборде Kaggle, обеспечивая честную оценку
5. Результаты тестирования 8 современных LLM (например, o3-mini, DeepSeek-r1, Gemini-2.5-Pro) доступны в реальном времени
MLE-Dojo помогает:
- Разрабатывать умных агентов, которые могут самостоятельно решать задачи MLE
- Сравнивать производительность LLM в реальных сценариях
- Ускорять исследования в области автономного машинного обучения
- Обучать и тестировать новые подходы в безопасной и воспроизводимой среде
Telegram
All about AI, Web 3.0, BCI
MLE-Dojo: Interactive Environments for Empowering LLM Agents in Machine Learning Engineering
A Gym-style framework for systematically training, evaluating, and improving agents in iterative ML engineering workflows.
Paper.
GitHub.
A Gym-style framework for systematically training, evaluating, and improving agents in iterative ML engineering workflows.
Paper.
GitHub.
Рост галлюцинаций до 48 % ставит под сомнение будущее LLM
Рекомендации исследователей сводятся к осторожности
Нараянан предлагает применять LLM только там, где проверка ответа занимает меньше времени, чем самостоятельный поиск
Бендер советует полностью отказаться от использования чат-ботов для получения фактов
Ситуация ставит под вопрос будущее LLM
Если раньше считалось, что галлюцинации исчезнут с развитием технологий, то теперь эксперты признают: ошибки останутся неотъемлемой частью работы моделей
https://www.ixbt.com/news/2025/05/12/rost-galljucinacij-do-48-stavit-pod-somnenie-budushee-llm.html
Рекомендации исследователей сводятся к осторожности
Нараянан предлагает применять LLM только там, где проверка ответа занимает меньше времени, чем самостоятельный поиск
Бендер советует полностью отказаться от использования чат-ботов для получения фактов
«Эти системы не созданы для генерации знаний — они имитируют речь», — пояснила она
Ситуация ставит под вопрос будущее LLM
Если раньше считалось, что галлюцинации исчезнут с развитием технологий, то теперь эксперты признают: ошибки останутся неотъемлемой частью работы моделей
https://www.ixbt.com/news/2025/05/12/rost-galljucinacij-do-48-stavit-pod-somnenie-budushee-llm.html
iXBT.com
Рост галлюцинаций до 48% ставит под сомнение будущее LLM
Несмотря на заявления разработчиков о прогрессе, большие языковые модели (LLM) демонстрируют тревожный рост ошибок. Отчёт OpenAI, опубликованный в апреле, показал, что модели o3 и o4-mini выдавали галлюцинации в 33% и 48% случаев соответственно.
Проблема ограниченной памяти у нейронок решена — появился MCP-плагин OpenMemory, который объединяет память Cursor, Claude, Windsurf и любых MCP
Он сохраняет 100% инфы из всех тулз и сеансов в одно место
Так Cursor легко вспомнит то, о чём вы общались с Claude, и наоборот
Можно добавлять, удалять и находить любые воспоминания — все они удобно распределены в общей базе
Она полностью локальная и доступна только вам
Установить в один клик — тут
GitHub
mem0/openmemory at main · mem0ai/mem0
Memory for AI Agents; Announcing OpenMemory MCP - local and secure memory management. - mem0ai/mem0
Со-основатель Hugging Face говорит о новом тренде в ИИ -
Low Tech AI
Low Tech AI — это будущее, где мощный ИИ становится доступным, простым и легко интегрируемым в существующие технологии, что может радикально изменить общество в кратчайшие сроки
Основные тренды:
1. Уменьшение размера моделей ML при сохранении производительности:
- Размер моделей ML не растёт или уменьшается
Современные модели ML (например, Llama или Qwen) показывают производительность, сравнимую с моделями, которые год назад были в 2–10 раз больше по размеру
Это значит, что для достижения высокого уровня интеллекта требуется меньше параметров
- Доступ к вычислительным мощностям дешевеет
За ту же цену пользователи получают всё больше вычислительных ресурсов (многоядерные процессоры и т.д.)
В итоге - высокий уровень ML становится всё более доступным по цене и вычислительным ресурсам
2. Низкая сложность ML:
- Современные ML-модели и их рабочие процессы проще, чем многие традиционные программы для CPU или прошлые архитектуры ML
ML сегодня — это технология с «низкой сложностью ветвления» (low branching complexity).
- Это упрощает и аппаратное обеспечение для ML (например, TPUs, AI-ускорители от Etched, Fractile, GROQ, Cerebras и др.), делая его менее сложным, чем традиционное оборудование для вычислений
3. Интеграция в существующий софт.
- ML создаётся на основе человеческих данных и поэтому всё лучше интегрируется в текущий стек ПО, созданного людьми
- Это означает, что для внедрения ML в существующие системы потребуется минимальная модернизация API и программного стека
Возможные последствия:
Эти тренды ведут к появлению «Low Tech AI» — ML, интегрированного в дешёвые и простые технологические стеки
Примеры:
1. Чип мощностью 5 Вт, работающий с высокоэффективным алгоритмом (модель с миллиардами параметров), с низкой задержкой и энергопотреблением, превосходящая по интеллекту GPT-3/4, особенно с использованием инструментов
2. Бизнес, использующий устаревший софт 2000-х годов, может практически мгновенно стать ML-ориентированным с минимальными изменениями в технологиях, но с радикальным улучшением возможностей
Комбинация этих трендов может привести к масштабным и быстрым изменениям в обществе
ML может распространиться повсеместно за короткое время, подобно тому, как смартфоны в некоторых странах заменили настольные компьютеры и ноутбуки, обойдя их широкое распространение
В случае с ML влияние может быть ещё более значительным
Никто ведь не сомневается в точности результатов, получаемых при вычислениях с мнимыми количествами, хотя они представляют собой только алгебраические формы и иероглифы нелепых количеств
История компьютерных технологий — это история компромиссов между сложностью, скоростью и энергоэффективностью
В 1961 году физик Рольф Ландауэр совершил открытие, перевернувшее представление о фундаментальных пределах вычислений: он доказал, что стирание бита информации неизбежно приводит к выделению тепла
Этот принцип, известный как принцип Ландауэра, показал, что классические компьютеры, основанные на необратимых операциях (например, логические элементы AND или OR), принципиально ограничены термодинамически
Каждый удалённый (стёртый) бит информации — а в традиционных архитектурах это происходит постоянно — увеличивает энтропию системы, превращая вычисления в «горячий» и энергозатратный процесс
Но что, если вычисления можно сделать обратимыми?
Представьте себе вычислительное устройство, в котором каждая операция сохраняет достаточно информации, чтобы её можно было «отмотать» назад
Такую возможность в 1973 году описал Чарльз Беннет, предложив концепцию обратимых вычислений
В его модели логические элементы не уничтожают входные данные, а преобразуют их так, чтобы исходное состояние всегда можно было восстановить
Это не просто теоретическая утопия — обратимость стала краеугольным камнем квантовых вычислений, в которых сохранение квантовой информации критически важно для подавления декогеренции
Ключевая идея обратимости проста: для каждого выходного состояния должна существовать ровно одна комбинация входных данных
В классических вычислениях это невозможно — например, зная результат операции 0 = AND(0, 0) и 0 = AND(0, 1), нельзя определить исходные биты
Обратимые же элементы, такие как вентиль Тоффоли (управляемое управляемое НЕ), сохраняют все входные данные: зная выход, можно однозначно восстановить вход
Именно такие элементы лежат в основе квантовых схем, в которых каждая операция — это унитарное преобразование, обратимое по определению
Обратимые вычисления — не просто абстракция для квантовых технологий
Они меняют сам подход к проектированию алгоритмов: вместо последовательного «сжигания» данных мы создаём преобразования, сохраняющие информацию
Это открывает пути к компьютерам с нулевым тепловыделением (в идеальном случае) и принципиально новым архитектурам
Уже сегодня обратимые методы используются в криптографии для создания верифицируемых вычислений и в оптимизации квантовых алгоритмов, в которых каждый «откат» операции экономит кубиты
Возможно, через десятилетия именно обратимость станет главным принципом не только квантовых, но и классических систем, завершив цикл развития, начатый Рольфом Ландауэром
Пока же это мост между использованием кремниевых транзисторов и квантовой суперпозиции — мост, на котором рождаются технологии завтрашнего дня
На встрече, организованной венчурным фондом Sequoia, Джефф Дин сказал следующее:
В ближайшие 12 месяцев ИИ:
- достигнет уровня младшего инженера-программиста
- будет способность запускать тесты, отлаживать проблемы с производительностью и использовать инструменты разработки
Следующие 1-2 года(до 2027 года):
- Функциональные роботы смогут работать в сложных условиях
- Начальная способность - выполнять 20 полезных задач на одного робота
- Дорогие продукты, но с развитием технологий — до 1000+ задач и снижение затрат
- Значительное улучшение инфраструктуры по сравнению с текущей сложностью TPU/CUDA
В ближайшие несколько лет (до 2028–2030 годов):
- Аппаратное обеспечение для вывода ИИ станет в 50.000 раз эффективнее
- Продукты для управления командами из 50 виртуальных стажеров
- Агенты станут более автономными, но всё ещё будут нуждаться в человеческом контроле
- ИИ будет встроен в веб-браузеры для помощи в вычислениях
- Оптическое распознавание текста на вкладках, доступ к необработанным данным, автоматизация задач
YouTube
Google's Jeff Dean on the Coming Transformations in AI
At AI Ascent 2025, Jeff Dean makes bold predictions. Discover how the pioneer behind Google's TPUs and foundational AI research sees the technology evolving, from specialized hardware to more organic systems, and future engineering capabilities.
Subscribe…
Subscribe…
NVIDIA представила технологию, позволяющую роботам "видеть сны" внутри генеративных видеомоделей
Что это за технология и в чем стратегия NVIDIA?
Новая технология называется DreamGen, которая использует видеомодели ИИ типа Sora для создания "снов" — фотореалистичных симуляций, в которых робот выполняет различные действия
Статья тут
Начиная с простой задачи "захвата и перемещения", гуманоидный робот научился 22 новым действиям: поливать, складывать, черпать — никогда не видя этих команд раньше
В чем стратегия NVIDIA? За этим проектом стоит несколько целей:
• Создание замкнутой экосистемы железо-софт-данные
GPU NVIDIA → обучение видеомоделей → генерация "снов" роботов → обучение роботов
На каждом этапе нужно оборудование NVIDIA
• Решает главную проблему робототехники - данные
Сбор реальных данных для обучения роботов дорог и медленен
NVIDIA предлагает альтернативу: бесконечный поток синтетических данных
• Создание универсальной платформы для робототехники. NVIDIA становится не просто поставщиком оборудования, а владельцем платформы, определяющей будущее робототехники
Монополия нового типа
• Готовится к волне роботизации
Представьте, любой робот может быстро научиться новым навыкам без многолетних разработок и тысяч часов тренировок. NVIDIA создаёт инфраструктуру для этого будущего уже сейчас
• Стратегия "второго порядка"
Не просто создание ИИ, а создание "ИИ, который обучает других ИИ" - это мультипликативный эффект, который позволяет NVIDIA контролировать не только текущее состояние рынка, но и его эволюцию
NVIDIA готовится к грядущей роботизации многих отраслей и заранее создает технологический задел, который позволит им доминировать на этом рынке
Nvidia
DreamGen
DreamGen: Unlocking Genearlization in Robot Learning through Video World Models
Конференция Google I/O 2025 показала стратегию гиганта — поглотить функционал нишевых ML-решений в единую интегрированную рсистему
Конец эры "чистого поиска"
Новый AI Mode в поиске проводит глубокие исследования с сотнями запросов, строит визуализации, использует ваши данные из Gmail и Drive, а также агентно выполняет действия вместо вас
Perplexity и подобные сервисы рискуют стать лишними, когда их преимущества становятся встроенными функциями Google
Экосистема ML-агентов с протоколом Agent2Agent превращает Gemini в "операционную систему" цифрового мира
ML перестаёт быть отдельным сервисом и становится средой
Veo 3, Flow, Android XR и Google Beam — части единого пазла, где цифровой и физический миры сливаются в новый опыт "расширенного восприятия", где ML анализирует всё
Ключевые анонсы:
Gemini 2.5 Pro с режимом Deep Think — система рассуждений с параллельным мышлением
Gemini Diffusion — новый подход к генерации текста через пошаговое "очищение" из шума
AI Mode в Google Search с добавлением:
• Personal Context — персонализированный поиск с Gmail
• Deep Search — сотни поисков с созданием отчетов
• Search Live — поиск через камеру в реальном времени
• Визуализация данных для финансов и спорта
Android XR для очков и гарнитур в партнерстве с Samsung, Gentle Monster и Warby Parker
Project Moohan от Samsung — первое устройство в 2025 году
Flow — инструмент для создания фильмов с ML, объединяющий Veo, Imagen и Gemini
Veo 3 — генерация видео со звуком и диалогами
Imagen 4 совершенствует создание изображений
Новая электронная коммерция:
Gemini в Chrome, Gemini Live с функцией шеринга камерой, Agent Mode и персонализированные ответы в Gmail
Google Meet с переводом речи в реальном времени
Google Beam — трансформация 2D видеосвязи в 3D опыт с отслеживанием головы до миллиметра
Project Mariner выполняет до 10 задач одновременно с функцией Teach and Repeat
Project Astra с улучшенным голосовым выводом и управлением компьютером
Telegram
Все о блокчейн/мозге/space/WEB 3.0 в России и мире
Это надо смотреть, конечно, прямая трансляция последних новинок Google I/O
Google DeepMind представил Gemini Diffusion — новую языковую модель, которая в отличие от большинства современных ИИ-моделей (GPT, Claude, Llama), которые генерируют текст последовательно Gemini Diffusion применяет диффузионный метод, уже доказавший свою эффективность в генерации изображений и видео
Саммари первого дня конференции тут
Диффузионный процесс работает иначе: вместо последовательного предсказания токенов слева направо, модель начинает с шума и постепенно "очищает" его, формируя весь текст одновременно
Этот подход позволяет итеративно улучшать решения, что особенно полезно для задач программирования и математики
До сих пор считалось, что авторегрессивные модели всегда будут превосходить диффузионные по качеству текста
Google DeepMind опровергла этот тезис, продемонстрировав не только сопоставимое качество, но и впечатляющую скорость — 10.095 токенов за 12 секунд
Диффузионный подход может предложить:
1. Большую скорость генерации
2. Лучший контроль над выводом
3. Новые творческие возможности
4. Иные подходы к решению сложных задач
Google DeepMind
Gemini Diffusion
Gemini Diffusion is our state-of-the-art research model exploring what diffusion means for language – and text generation.
ML
Google DeepMind представил Gemini Diffusion — новую языковую модель, которая в отличие от большинства современных ИИ-моделей (GPT, Claude, Llama), которые генерируют текст последовательно Gemini Diffusion применяет диффузионный метод, уже доказавший свою эффективность…
Google сегодня выпустит новую функцию - ИИ-аватаров
Google создают полностью автоматизированную рабочую среду, где ИИ берет на себя все аспекты коммуникации, от письменной до визуальной
Коммуникация становится симуляцией:
- Ваши письма пишет ML в вашем стиле
- Ваши видеообращения созданы ИИ-аватаром
- Ваши переговоры проводит ML, сохраняя ваш голос.
Человеку останется создать цифрового двойника, который будет вести коммуникацию от его имени
Это значит, например, что:
1. CEO компании сможет "лично" обращаться к тысячам сотрудников через ML-аватар
2. Один сотрудник сможет производить объем контента целого отдела
3. Рутинные коммуникации могут быть полностью автоматизированы
Становится все труднее определить, когда вы общаетесь с настоящим человеком, а когда с его ML-представлением
Email, который "написан в вашем стиле", видео с "вашим аватаром" — грань между реальным и синтетическим стирается
Большая часть коммуникационной работы может быть автоматизирована
Специалисты будут тратить время на создание контента для ML, а не на прямую коммуникацию
Целые профессии (специалисты по коммуникациям, видеооператоры, монтажеры) могут быть вытеснены
Если соединить анонсы Workspace с основными объявлениями I/O (Gemini в Chrome, Android XR, агентные покупки), вырисовывается единое видение:
Google создает экосистему, где ИИ становится основным интерфейсом между людьми и окружающим миром
ML будет представлять вас другим (через почту, видео)
ML будет показывать мир вам (через очки XR, Chrome)
ML будет принимать решения за вас (покупки, организация встреч)
Telegram
All about AI, Web 3.0, BCI
Coming soon: AI avatars in Google Vids
Just write a script and choose an avatar to deliver your message. It’s a fast, consistent way to create polished video content — for onboarding, announcements, product explainers, and more.
Just write a script and choose an avatar to deliver your message. It’s a fast, consistent way to create polished video content — for onboarding, announcements, product explainers, and more.
ML
Google сегодня выпустит новую функцию - ИИ-аватаров Google создают полностью автоматизированную рабочую среду, где ИИ берет на себя все аспекты коммуникации, от письменной до визуальной Коммуникация становится симуляцией: - Ваши письма пишет ML в вашем стиле…
Google анонсировал Agent Mode для самостоятельного выполнения задач
На ежегодной конференции разработчиков I/O компания Google представила Agent Mode - новый режим работы приложения Gemini, трансформирующий виртуального ассистента в автономного агента, способного самостоятельно выполнять комплексные задачи от имени пользователя непосредственно на мобильном устройстве
Ключевое отличие Agent Mode от стандартных функций ML-ассистентов заключается в способности системы не просто предоставлять информацию или рекомендации, но активно действовать в цифровой среде
Пользователь формулирует задачу, после чего Gemini самостоятельно выполняет необходимые действия в различных приложениях и сервисах
https://mltimes.ai/google-anonsiroval-agent-mode-dlya-samostoyatelnogo-vypolneniya-zadach/
MLTimes
Google анонсировал Agent Mode для самостоятельного выполнения задач - MLTimes
Google дропнули 68-страничный гайд по промптам
Здесь можешь ознакомиться с ним подробнее
А ниже выжимка всего самого важного, но переведённая на человеческий язык — 11 советов:
1. Используй качественные примеры (Few-shot prompting)
Добавь 2–5 хороших примеров в промпт, и модель начнёт лучше понимать, какой тебе нужен стиль и формат
Можно вставить даже нестандартные кейсы (edge cases) — это помогает, но не перебарщивай, иначе модель начнёт «запоминать» примеры слишком буквально (это называется оверфит, или переобучение)
2. Начни с простого
Короткий, чёткий, глагольный промпт работает лучше
Пример: “Сформулируй заголовок для поста” — лучше, чем “Мне бы хотелось, чтобы ты подумал, как можно было бы озаглавить этот текст...”
3. Заранее объясняй, что ты хочешь получить
Укажи структуру, стиль и объём
Например: “Сделай краткое резюме в 3 пунктах, каждый пункт — не больше одного предложения”
Модель не должна догадываться — говори прямо
4. Формулируй позитивно
Проси, что делать, а не что не делать
Пример: “Ответь кратко” вместо “Не пиши длинный текст”
5. Используй переменные
Если в промпте есть данные, которые будут меняться — выделяй их в фигурные скобки
Пример: “Составь описание для товара {название} с учётом {аудитория}”
Это поможет быстро масштабировать промпт под разные задачи
6. Играй с форматами входа
Нейросети хорошо считывают списки, таблицы и даже JSON-структуры
Это помогает сфокусировать модель на нужных частях запроса
7. Тестируй при каждой смене модели
GPT-4о и GPT-4.1 реагируют по-разному даже на одинаковые промпты
Не ленись перепроверить, особенно если заметил странные или нестабильные ответы
8. Запрашивай структурированный вывод
Проси вывод в виде JSON или CSV (форматы, которые удобно парсить скриптами)
9. Сохраняй старые версии
Если тестируешь промпты на регулярной основе — веди таблицу: какой промпт, какие настройки, какой результат
Это сильно экономит время и помогает не наступать на одни и те же грабли
10. Chain-of-Thought (цепочка размышлений)
Если задача требует логики — добавь в промпт: “Давай рассуждать шаг за шагом”
Это помогает нейросети не скакать к ответу, а пройти путь осознанно
Но не переусердствуй: для простых задач такой подход избыточен
11. Step-back промптинг (шаг назад)
Для сложных вопросов попроси модель сначала рассмотреть более общую тему, а потом применить эти знания к конкретной задаче
Например: "Прежде чем ответить на вопрос о криптовалютах, объясни основные принципы блокчейна"
Это заставляет нейросеть сначала активировать свои базовые знания, а потом уже строить на них детальный ответ
Отлично работает для узкоспециализированных тем и снижает число ошибок, но увеличивает размер ответа
Завершилась презентация Google, и это, похоже, крупнейшая презентация 2025-го по количеству и качеству новых фишек и инструментов – Google явно учится на прошлогоднем опыте
Сначала самое жаркое:
- Veo 3 — Veo 2 ещё не успели сместить с пьедестала, а Google уже дропнули 3-ю версию SOTA видеогенератора
Лучше во всём, и теперь с нативной генерацией аудио, включая диалоги с липсинком! Доступна уже сегодня
- Imagen 4 — опять же, лучше во всём своего предшественника
Остаётся проверить, вдруг это новая SOTA?
- Agent mode в Gemini — сможет искать квартиру по заданным критериям, используя MCP для доступа к листингам и даже назначать встречи
- AI Mode в Google Поиск — В AI Mode интегрируются агентские возможности Project Mariner: поиск сможет выполнять задачи от имени пользователя (находить билеты, бронировать столики, записываться на услуги)
Более того, агент сможет отслеживать цены на товары, уведомлять о снижении и, с разрешения пользователя, совершать покупку через Google Pay
Сам AI мод уже должен быть доступен, но не весь его функционал
Летом обещают завезти туда и Deep Search
- Примерка в Поиске — теперь можно виртуально примерять одежду на себе с помощью специально обученного ML-генератора изображений (на базе Imagen)
Доступно в Labs с сегодняшнего дня
- Риалтайм перевод в Google Meet — сохраняет тон, темп и даже интонацию говорящего
Доступен для подписчиков на английском и испанском, больше языков — "in the next few weeks"
- Обновлённый Gemini Live — теперь включает возможности Project Astra (камера и демонстрация экрана)
Скоро сможет подключаться к приложениям Calendar, Maps, Keep и Tasks. Юзкейсов со стримингом с камеры и экрана масса. Доступен в Gemini App
- Personal Context в Gemini — теперь можно дать разрешение на использование данных из вашего аккаунта Google (например, Gmail, Drive, Docs, Search) для персонализации, хотя пока что готов только доступ к истории поиска
В целом, нейронке теперь будет известно о вас всё
Как-то крипово даже. Обещают "скоро"
Для технарей:
- Jules — агент для кода от Google, прямая ответка на релиз Codex от OpenAI
В раннем доступе гоняли с декабря, а теперь доступен всем на jules.google
- Gemini Diffusion — экспериментальная диффузионная модель для текста, в 5 раз быстрее Gemini 2.0 Flash Lite (самой быстрой модели Google), при сохранении качества, особенно в коде и математике
1479 токенов в секунду это не шутка
- Поддержка MCP в Gemini SDK — Gemini SDK теперь совместим с инструментами Model Context Protocol (MCP от Anthropic), что позволяет агентам получать доступ к другим сервисам
(Видимо, побочный эффект Agent mode)
- Обновлённый Gemini 2.5 Flash — Улучшен по ключевым бенчмаркам (рассуждения, код, длинный контекст) и на 22 % эффективнее по использованию токенов, что особенно актуально учитывая разговорчивость 2.5 Flash
Можно заценить в ai.studio и пр.
- API с нативной поддержкой звука — превью text-to-speech в Gemini API поддерживает 2 голоса, более 24 языков, может шептать. + Live API также получит превью 2.5 Flash с нативным аудиодиалогом
Уже доступно
- Бюджеты на размышления (Thinking Budgets) в Gemini 2.5 Pro — функция для контроля соотношения затрат/задержки и качества ответа появится в 2.5 Pro в ближайшие недели, а в 2.5 Flash она уже месяц