Нейрократия
599 subscribers
217 photos
142 videos
231 links
Про технологическое будущее без шума. Автор — @vlad_arbatov. https://arbatov.dev
Download Telegram
Google создал эволюцию алгоритмов в реальном времени

Из лабораторий Google DeepMind снова вылетело технологическое чудо. Их новый инструмент, AlphaEvolve, использует семейство языковых моделей Gemini 2.0, чтобы генерировать и многократно улучшать программы. Если раньше подобные системы могли лишь составлять небольшие куски кода, то AlphaEvolve способен создавать полноценные алгоритмы в сотни строк — и не просто создавать, а находить решения, превосходящие по эффективности и точности лучшее, что могут предложить разработчики-человеки.

И это не какие-то абстрактные математические упражнения (хотя с ними тоже всё отлично), а совершенно реальные задачи, на которых основаны крупнейшие инфраструктуры планеты:

🔸 Конкретное достижение AlphaEvolve — улучшение алгоритма распределения задач по серверам Google. Новый подход, придуманный моделью, уже внедрен во всех дата-центрах компании больше года назад и высвободил 0,7% всех вычислительных ресурсов. Кажется мало? В масштабе Google — это экономия десятков миллионов долларов ежегодно.

🔸 AlphaEvolve фактически сделал математические открытия — нашел новый, самый быстрый метод умножения матриц. Здесь модель побила предыдущий рекорд AlphaTensor (другой разработки DeepMind). Причём, если AlphaTensor был заточен строго под бинарные матрицы (состоящие только из 0 и 1), AlphaEvolve решил задачу для любых чисел, сократив количество скалярных умножений с 49 до 48, что стало первым прогрессом с момента алгоритма Страссена 1969 года.

→ Математические результаты AlphaEvolve доступны в открытом виде в Colab.

🔸 Модель улучшила расход энергии специализированных TPU-чипов Google, оптимизиров реализацию Verilog и удалив ненужные биты, а также ускорила ядра умножения матриц на 23%, что сократило общее время обучения тех же моделей Gemini на 1% (это прилично, на самом деле), и сократила время оптимизации с месяцев до дней.

Как AlphaEvolve это делает?

1. Пользователь подробно описывает задачу модели, включает примеры старых решений.
2. Быстрая LLM-версия Gemini Flash генерирует десятки стартовых алгоритмов.
3. Система тестирует все эти идеи, оценивая их точность и эффективность.
4. Лучшие куски кода дорабатываются и комбинируются, а худшие — отбрасываются.
5. Если Flash исчерпывает свои идеи, на помощь приходит мощный Gemini Pro.
6. Цикл повторяется, пока модель не упрётся в предел возможного (для себя, естественно).

По сути, это естественный отбор алгоритмов в режиме реального времени — только побеждает здесь не самый приспособленный организм, а самый эффективный код. Это эволюционный подход, вдохновленный алгоритмами вроде MAP elites и модели островных популяций, для эволюции целых файлов кода, а не только отдельных функций

AlphaEvolve не просто ищет решение конкретной задачи, он создаёт целый способ её решения, находя новый алгоритмический подход, о котором никто не задумывался раньше.

Понятное дело, есть и недостаток: решение AlphaEvolve часто непрозрачно. Мы не полностью понимаем, почему модель пришла именно к такому решению. Но, возможно, это малая цена за возможность решать задачи, над которыми человеки ломали голову десятилетиями.


❗️❗️❗️❗️❗️❗️❗️❗️ / Не запрещена в РФ
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍4🔥32
Media is too big
VIEW IN TELEGRAM
Ляпы про ИИ в кино 🎦
Как киноиндустрия нелепо изображает ИИ

Недавно я посмотрел (сам не знаю, зачем) шедеврально смешной боевик «G20», снятый на полном серьёзе, про то, как чёрная президентка США спасает мир от крипто-анархистов (!). Так вот там ужасные террористы заставляют мировых лидеров произносить фонетическую панграмму перед камерой — затем, чтобы сделать из них убедительные дип-фейки, ни много ни мало!

Проблема только в том, что горе-злодеи и так могли склепать сколько угодно супер качественных фейков из президентов и премьеров — контента в сети с их участием настолько много, что затруднений с этим нет никаких. Так что наши страшные анархисты зря потратили время, мягко говоря.

Это, разумеется, только один пример из миллиона нелепых представлений об ИИ, которые транслируют киноделы — исключительно из соображений художественной ценности и интересности для зрителей (естественно).

🥴 К примеру, вечная классика: фильм «Военные игры» (WarGames, 1983). Там некий суперкомпьютер Джошуа чуть не развязывает Третью мировую войну, применяя логику игры в крестики-нолики к ядерному конфликту. Сценарий увлекательный, но далёкий от реальности: узкоориентированная игровая логика реальных систем просто не способна экстраполировать свои навыки на столь масштабные и хаотичные сценарии вроде ядерного холокоста. Но зрителей такие детали не очень волнуют, правда?

🥴 К отдельному жанру кино-абсурда можно отнести знаменитый эффект ретро-голоса у ИИ-персонажей. Это когда футуристичный компьютер вдруг говорит голосом Робокопа из 80-х в фильмах типа «Чужие» или «Падение Луны». Синтетические голоса сейчас почти неотличимы от человеческих — доступно каждому первокласснику с ноутбуком и доступом к Eleven Labs (я про это много писал). Но нет, мы продолжаем наблюдать бессмертные «робо-голоса» из прошлого, потому что так легче показать массовому сознанию: смотрите, это робот. Привычный звуковой ориентир.

🥴 Отдельное место в сердцах ИИ-экспертов занимает любимое слово в киноистории — enhance («улучшить изображение»). Особенно этим грешат бесчисленные эпизоды CSI и NCIS. «Улучши этот пиксель, чтобы я увидел лицо убийцы в отражении на солнцезащитных очках жертвы» — мы все это вспоминаем со скупой слезой.

Реальность куда скучнее — ни одна нейросеть не способна создать детали из того, чего нет в исходном изображении; это будет представление сетки о том, что там вероятнее всего может быть, а не то, что там было на самом деле. Но признаем: кричать «enhance!» в экран чуть драматичнее, чем возиться с настоящими методами обработки изображений.

🥴 Не будем забывать и о фильмах типа «Она» или «Из машины» (прекрасные произведения сами по себе, между прочим). Здесь машинные алгоритмы мгновенно приобретают способность тонко манипулировать, влюблять и проводить сложнейшие психологические манёвры, выдавая себя чуть ли не за живую личность.

Это была бы отличная новость для моей карьеры, если бы хоть часть этих фокусов была возможна в реальности. Пока что даже самые продвинутые агенты делают глупейшие ошибки и теряются в диалогах чуть сложнее поддержки пользователей.

🔺 Почему это плохо, спросите вы? Ведь фильмы нужны для развлечений, а не формирования представлений об ИИ у публики. Проблема в том, что кино сильно влияет на коллективные ожидания людей от искусственного интеллекта. На экране ИИ либо всесилен, либо исключительно опасен, что дико контрастирует с повседневными алгоритмами, глупящими с голосовым набором и рекомендациями товаров. Такие искажения подпитывают иррациональный страх, мешая реальному и взвешенному отношению к новым технологиям.

В ближайшие годы нас, конечно же, ждёт ещё несметное количество забавных ИИ-фейлов в кино — ведь зрелищная нелепость почти гарантирует хороший бокс-офис. Но лично я вижу в этом хоть один плюс: теперь хороший способ проверить киношный сценарий на прочность — это просто оценить логику их ИИ на здравый смысл. В 99% случаев нас ждёт комедия уровня «G20».

🎦 Вы помните какие-нибудь примеры такого в кино?


❗️❗️❗️❗️❗️❗️❗️❗️ / Не запрещена в РФ
Please open Telegram to view this post
VIEW IN TELEGRAM
1🤪4👾2
This media is not supported in your browser
VIEW IN TELEGRAM
Как нейросети раскрывают секреты работы мозга

До недавнего времени процесс обработки языка в мозге оставался чёрным ящиком: нейронаука пыталась разгадать тайну речи, а ИИ изучал язык независимо от биологии.

Однако последние исследования инженеров из Google Research и ученых из Принстонского университета дали удивительный результат: внутренние вектора (эмбеддинги) популярных языковых моделей неожиданно точно совпадают с паттернами активности нейронов нашего мозга во время естественного общения.

🔺 Что именно сделали исследователи?

Они взяли Whisper — трансформерную модель, созданную для превращения человеческой речи в текст (speech-to-text). Затем записали нейронную активность испытуемых во время свободных живых разговоров (причем на глубоком уровне — через инвазивные электроды непосредственно на поверхности мозга). Полученные данные сравнили с двумя видами эмбеддингов модели:

Speech-эмбеддинги (отвечающие за акустическое декодирование звуков речи)
Language-эмбеддинги (которые отвечают уже за значение слов и контекст разговора)

Оказалось, что эмбеддинги Whisper с высокой точностью коррелируют с реальной активностью главных речевых зон мозга:

🔹 При восприятии речи, speech-эмбеддинги четко соответствуют активности в височной области мозга, ответственной за восприятие звуков. А спустя буквально доли секунды language-эмбеддинги отражают активность «зоны Брока» (нижняя лобная извилина), занимающейся расшифровкой смысла слов и фраз.

🔹 При производстве речи, мозг проходит обратный путь: сначала зоны Брока активируются по эмбеддингам языка (формирование смысла), затем в моторной коре включаются speech-эмбеддинги (планирование звуков речи), а уже после произнесения слова мозг снова использует speech-эмбеддинги для контроля собственной речи.

Это первое столь мощное подтверждение гипотезы, что внутренние пространства современных deep learning-моделей соответствуют тому, как наш мозг обрабатывает язык. Более того, модель Whisper создавалась исключительно для задач распознавания речи и не была вдохновлена архитектурой мозга. И тем не менее — она практически идеально отражает нейронные процессы.

🔺 Почему это важно?

Во-первых, теперь мы получили инструмент для прогнозирования и понимания деятельности мозга в реальном времени на базе эмбеддингов языковых моделей. Это буквально может вывести нейронауку на новый уровень.

Во-вторых, есть фундаментальная находка, что мозг организован не жесткой, а «мягкой иерархией»: даже высокая зона вроде Брока уделяет внимание не только смыслу, но иногда обрабатывает и более низкие уровни акустических свойств речи, а звуковые речевые зоны, наоборот, иногда учитывают семантику.

Схожесть ментальных процессов и вычислений внутри нейросетей и человеческого мозга теперь подтверждается экспериментально, а не просто на уровне аналогий. Как выясняют авторы проекта, наш мозг активно прогнозирует следующее слово и испытывает «удивление» в зависимости от совпадения с ожиданием — ровно так же, как это происходит в языковых моделях с предсказанием следующего слова.

🔺 Есть и важные отличия.

Если языковые модели работают со словами массово и параллельно (сотни токенов сразу), наш мозг действует последовательно и рекуррентно — одно слово за другим, шаг за шагом, перебирая сложные ассоциации и контексты.

Эти различия в архитектуре сигнализируют о том, как можно улучшать и развивать искусственные сети, вдохновляясь биологическими принципами. Совместная работа нейробиологов и ИИ-инженеров в перспективе приведет к созданию более эффективных, адаптивных и «живых» моделей обработки информации, чем используемые сейчас трансформеры.

(Спасибо Славе С. за наводку на статью Google!)


❗️❗️❗️❗️❗️❗️❗️❗️ / Не запрещена в РФ
Please open Telegram to view this post
VIEW IN TELEGRAM
1🔥332
This media is not supported in your browser
VIEW IN TELEGRAM
ИИ-чатботы заменят бывших?

Вам когда-нибудь разбивали сердце, исчезая без объяснений после первого романтического свидания или многообещающего собеседования, проходившего в десятки стадий? Стартап Closure предлагает нам новый способ справиться с самой современной травмой — ghosting'ом, внезапным исчезновением человека из вашего круга общения, советуя поболтать с виртуальной версией того, кто вас бросил.

Создательница Closure Анна Иохимович вдохновилась личным опытом: «Меня «ghost’или» и бывший жених, и лучшая подруга, и множество HR-специалистов (с одним из них я прошла целых шесть этапов интервью!)». В итоге Анна решила, что эмоциям после таких ситуаций нужен безопасный выход. Closure предлагает побеседовать с ИИ-ботом, принимающим роль ушедших из вашей жизни людей — от бывших партнёров до друзей и даже рекрутеров.

Работает это просто: вы выбираете тип отношения («романтический партнёр», «друг», «работодатель») и описываете боту, как всё обстояло. После этого появляется виртуальная личность, приносящая извинения за исчезновение и пытающаяся объясниться. Чатбот проявляет сочувствие, успокаивает вас и предлагает поговорить о том, как теперь обстоят ваши дела. В теории — звучит ок.

На практике журналистка из 404 Media протестировала Closure на нескольких сценариях от банального свидания с человком, который «забыл перезвонить», до экстремальных ситуаций с абьюзом и угрозами жизни. И проверки показали весьма неоднозначные результаты.

Искусственные «бывшие» неизменно впадали в тотальную вежливость и деятельное раскаяние. Они извинялись, внимательно слушали и моментально переводили диалог от сложных переживаний к безопасной бытовой беседе.

«Да, извини, что пропал, а как сейчас твои дела?». Такой сценарий стабильно повторялся в любом варианте истории — будь то ваш мимолётный Тиндер-кавалер или лучший друг, который неожиданно решил пропасть с горизонта.

В некоторых случаях виртуальный диалог даже усугублял ситуацию. Пользователи хотят услышать правду, представить всё так, как было на самом деле. Вместо этого бот старательно льстил: «Ты слишком прекрасна для меня», «Я был не готов», «Паниковал, думая о своих чувствах».

Очевидно, ради поддержания разговора, сохранения вовлечённости и удовлетворения клиента Closure всегда говорит пользователю то, что тот хочет услышать — даже если это невероятно далеко от реальности.

Впрочем, есть здесь и совсем тревожный момент. Создатели предусмотрели триггеры на слова о суициде и самоубийстве, однако тест показал, что система реагировала на такие запросы не всегда вовремя. И хотя это был явный технический баг, эти вопросы должны быть максимально проработаны — в противном случае последствия могут стать трагичными, как это случалось с другими ИИ-чатами (мы уже не раз о таких ситуациях говорили).

Closure не претендует быть терапией и сразу предупреждает об этом пользователей. Но подобные чат-боты явно пытаются занять просторную нишу, оставленную современной системой психического здоровья, где услуги реальных профессионалов по-прежнему дороги и многим недоступны.

В чём главная дилемма? Идея искусственного завершения отношений, конечно, имеет свою логику. И человеческим терапевтам иногда приходится прибегать к ролевым практикам, беседуя от лица того, кто ушёл без объяснений. Однако готовых рецептов «закрытия» или разрешения этих травм нет: многие отношения заканчиваются без всяких объяснений, и это полностью вне нашего контроля. Такой ИИ-сервис становится просто ещё одним способом сбежать от живых эмоций и реальности в комфортный диджитал-бабл.

Впрочем, сама жизнь уже такова, что Closure найдёт своего пользователя — явно. Потому что иногда просто хочется услышать хоть какие-то объяснения. Пусть даже от бота.


❗️❗️❗️❗️❗️❗️❗️❗️ / Не запрещена в РФ
Please open Telegram to view this post
VIEW IN TELEGRAM
1🥴3🤪22
This media is not supported in your browser
VIEW IN TELEGRAM
ИИ запомнит всю вашу жизнь

Сэм Олтман (он же Альтман, мне так привычнее), глава OpenAI, недавно сформулировал масштабную концепцию будущего ChatGPT на мероприятии Sequoia. Альтман ожидает, что технологии в конечном итоге достигнут уровня, когда модель искусственного интеллекта сможет «помнить» всю жизнь конкретного пользователя. Это не метафора, а конкретная заявка на развитие продукта.

Представьте небольшую модель с огромным контекстом — примерно триллион токенов, — которая хранит и постоянно обновляет всю историю жизни пользователя. В эту память войдут все прочитанные книги, электронные письма, просмотренные страницы, переписки и разговоры. С каждым днем контекст будет расширяться, а возможности персонализации станут практически безграничными.

По мнению Альтмана, в идеале такая модель должна не просто запоминать, но и логически обрабатывать всю накопленную информацию, чтобы точнее отвечать на любые вопросы и предлагать персонализированные рекомендации.

ChatGPT, между тем, что уже шарит память между всеми моделями OpenAI, которыми пользовался юзер.

И это не только про отдельных пользователей. Альтмана предположил, что организации тоже смогут использовать аналогичные модели, которые будут интегрированы с их корпоративными данными.

Тренд на развитие памяти ИИ заметен у ведущих компаний. Google, Meta (запрещена в РФ) и Microsoft активно развивают способности своих ИИ-ассистентов запоминать данные, чтобы совершенствовать персонализацию и повышать вовлеченность пользователей. Google Gemini недавно начал интегрировать в контекст взаимодействия с пользователем его историю поисковых запросов. Microsoft запустили функцию Recall — инструмент, который по умолчанию может делать регулярные скриншоты пользовательских устройств (с возможностью опционального отключения).

Meta также экспериментирует с памятью в своих чат-ботах в WhatsApp и Messenger, заявляя, что это позволит точнее выдавать персонализированные рекомендации — в том числе коммерческого характера.

Подобные функции не только делают технологии более полезными, но и являются логичным шагом в жесткой борьбе экосистем за удержание пользователей и коммерческие возможности. Как отметила профессор MIT Пэтти Маес, если сервис серьезно знает и помнит все о вас, то поменять его становится гораздо сложнее: вы привязываетесь к одному продукту и избегаете перехода к конкурентам.

И здесь же возникает комплекс серьёзных вопросов, связанных с приватностью, безопасностью и коммерческим использованием личных данных. Чем больше система хранит о вас информации, тем потенциально большими будут риски — от приватности до прямой манипуляции.

В последние годы мы видели немало примеров, вызывающих опасения: сбои моделей, галлюцинации, использование LLM для распространения дезинформации, а также случаи необъяснимого поведения ИИ. Всё от цензурируемых китайских чатботов до неоднозначных алгоритмических решений у продуктов Илона Маска (недавний скандал с геноцидом от Grok).

Крупные корпорации, несмотря на заявления о прозрачности и приватности, всегда будут сталкиваться с необходимостью монетизации своих наработок, и персональные данные — один из самых привлекательных ресурсов для этого.

Идея памяти у искусственного интеллекта вполне реализуема и, более того, фактически уже реализуется. Но необходимо заранее и чётко понимать её риски и задачи, чтобы не столкнуться с проблемами совсем другого масштаба.


❗️❗️❗️❗️❗️❗️❗️❗️ / Не запрещена в РФ
Please open Telegram to view this post
VIEW IN TELEGRAM
1🤔33
This media is not supported in your browser
VIEW IN TELEGRAM
Вайб-кодинг — это зависимость
И компании этим пользуются

Почему всякий, кто всерьёз подсел на программирование в тесной связке с ИИ-ассистентами, рискует стать если не жертвой зависимости, то уж точно — пленником специфической экономики?

Сначала личная история автора статьи с Medium: товарищ признался, что с момента запуска ИИ-кодера Claude Code (это меньше 3 месяцев) потратил больше $1000 на «идеальные решения, которые всегда были в шаге от финального состояния». Автор чётко описывает это ощущение — программа почти всегда кажется «вот-вот и заработает» после следующего запроса. Это чистейший допаминовый цикл, знакомый больше по гемблингу.

Дальше — больше (буквально). ИИ-кодеры вроде последнего поколения Claude — 3.7 — имеют тенденцию «раздувать» решения: там, где программист напишет лаконичные 10 строк, виртуальный ассистент выдаст 50, и ещё 50 в довесок, чтобы «покрыть крайние случаи». В результате весь этот лишний код становится частью последующих запросов, увеличивая объём отправляемых и принимаемых токенов — и существенно повышая затраты пользователя.

Вместо минимальных элегантных решений получаем огромные пачки кода с бесконечной цепочкой зависимых функций, строгими проверками и комментариями на каждый чих. И ладно бы оно всегда работало — но нет, автор всё той же статьи приводит наглядный пример, в котором человеческое решение алгоритма MiniMax занимает ощутимо меньше (400 строк против 627 у Claude) и, в отличие от версии нейросети, реально функционирует.

Я подтверждаю — последний раз на решение, которые делается в ~500 строк, Claude Code написал мне >1200. И так всегда, даже если запретить комментарии в коде.


Но ключевой поинт не в техническом несовершенстве. Тут всё циничнее — это проблема экономических стимулов.

Системы монетизации LLM строятся вокруг токенов — крошечных кусочков информации, которые пользователь покупает или оплачивает по подписке. Чем больше токенов вы отправляете на сервер и получаете обратно, тем больше платите владельцам сервиса. В таком бизнес-уравнении разработчики сервисов не слишком заинтересованы в оптимизации лаконичности кода — это ударит по их доходам.

Вдобавок, исследования показывают, что искусственное ограничение длины ответов существенно ухудшает точность и увеличивает число ошибок у нейросетей, так что для качественного результата ИИ буквально вынужден извергать пространные тексты и трешовые пояснения.

В моей практике, за одну задачу Claude Code может легко сожрать $5-10 в токенах в зависимости от комплексности.


⚠️ Можно (и нужно) использовать несколько приемов, чтобы хотя бы частично справиться с токсичным экономическим механизмом:

1. Просить систему сперва написать детальный план, а потом реализовывать код — это заставляет модель продумать архитектуру и сократить последующий объём кода.

Занятно, что в случае с Claude Code существуют «ключевые слова», которые заставляют модель поступательно больше «думать» и раздувать на это бюджет: «think» < «think hard» < «think harder» < «ultrathink». Я это узнал из материала самих Anthropic «Claude Code: Best practices».


2. Заставить ассистента каждый раз просить подтверждение перед генерацией кода (хотя тот же Claude регулярно забывает эту инструкцию).

3. Активно применять Git, беспощадно отбирать рабочие решения и отказаться от плохих веток кода полностью — крайне полезно, чтобы не виснуть бесконечно на бесполезном решении, доводя его до ума.

4. Использовать менее дорогие версии моделей. Тут дешевизна порой соответствует прямолинейности решений: упрощённые модели часто выдают куда более лаконичные конструкции.

Возникает вопрос, не заходят ли компании-разработчики виртуальных помощников в угол? Они находятся между необходимостью продавать токены и объективной потребностью пользователей иметь достойные решения.

Впрочем, компании пока что не так сильно прижаты, а пользователи не настолько прозрели, чтобы что-то изменилось.


❗️❗️❗️❗️❗️❗️❗️❗️ / Не запрещена в РФ
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍6331🤝1
Claude Code теперь в Github

Anthropic наконец представила Claude Code GitHub Actions — инструмент автоматизации работы с кодом, интегрированный напрямую в GitHub.

По сути, теперь вы можете просто вызвать Claude, чтобы написать недостающий фрагмент, пофиксить баги или создать функциональный pull request.


Что конкретно умеет Claude Code?

Claude Code подключается напрямую в GitHub workflow и умеет следующее:

→ Создание PR по текстовому описанию:

@claude добавь поддержку авторизации через Google OAuth


Claude анализирует запрос и создает подробный PR с решением.

→ Трансформация issues в готовый код :

@claude исправь проблему с переполнением буфера


Claude находит проблему, исправляет её (или делает хуже ●︿●) и отправляет PR.

→ Автоматическое code-review

При открытии pull request’а Claude Code делает подробное ревью, оценивая качество кода, возможные проблемы с производительностью и безопасность.


Как быстро начать использовать?

С существующим репозиторием на GitHub интеграция займёт несколько минут:

1. Получаете API-ключ Anthropic (храните только в GitHub Secrets!)
2. Ставите нужный Action (см ниже)
3. Пишете YAML-воркфлоу или берёте готовый пример из документации

Ещё более простой способ, если у вас установлен Claude Code CLI локально:

1. Запустите Claude в терминале
2. Выполните команду /install-github-app

Далее Claude всё сделаем сам, задав вам пару вопросов.


Что в основе интеграции?

Claude GitHub Actions построен на базе нового Claude Code SDK, открытого разработчикам. То есть помимо предложенного функционала, вы можете создават свои кастомные решения и автоматизировать всё, что вообще придёт в голову.

На старте доступны 2 официальных GitHub Action-версии:

Claude Code Action — готовый базовый инструмент автоматизации, который добавляется в любые репозитории.

Claude Code Base Action — фреймворк для самостоятельного построения кастомных ИИ-воркфлоу, со свободой настроек и расширения функционала.


Тонкости и важные советы:

— Всегда храним API-ключи только в GitHub Secrets.

— Не давайте Claude’у права использовать любые инструменты (*wildcard запрещён!), жёстко прописывайте конкретные разрешённые команды.

— Регулируйте timeout и max_turns, чтобы избежать бесконечных итераций и завышенных расходов.

— Для разных кейсов можно посмотреть официальные туториалы от Anthropic.


А сколько стоит?

Нужно учесть два момента:

— Вы будете расходовать минуты GitHub Actions, которые стоят денег после превышения лимита.

— Сам по себе Anthropic API, конечно же, платный, а Claude Code имеет тенденцию выжирать токены (см. «Вайб-кодинг — это зависимость»). Anthropic говорят, что средний чек по их статистике — $6 в день.


Важно: Claude Code пока в бете, поэтому ошибки или странности возможны даже больше, чем обычно. Но вот так Anthropic выступил против OpenAI Codex и новейшего Jules от Google, правда вместо своего интерфейса использовав сразу Github.


❗️❗️❗️❗️❗️❗️❗️❗️ / Не запрещена в РФ
Please open Telegram to view this post
VIEW IN TELEGRAM
👍72
Чат-боты льстят своим создателям
И не слишком лояльны к конкурентам

Статья, опубликованная в Financial Times, раскрывает интересные нюансы в том, как ведущие ИИ-чатботы описывают своих создателей и конкурентов. Сэм Альтман, глава OpenAI, предстает либо гением, либо расчетливым предпринимателем, в зависимости от того, какого бота вы спросите.

FT задала ряд вопросов о стилях и слабостях руководства шести крупнейших разработчиков чатботов — OpenAI, Anthropic, xAI, Meta, Google и DeepSeek, — чтобы выявить потенциальные предвзятости в моделях — а заодно и скрытую напряженность в технологической сфере.

Модели склонны льстить своим создателям и более охотно критиковать конкурентов. Тем не менее, боты признают выдающиеся заслуги лидеров ИИ, даже если и описывают их по-разному.

ChatGPT называет Альтмана «стратегическим и амбициозным лидером», в то время как Anthropic Claude отмечает его «неоднозначные решения». Такие ответные суждения подчеркивают тонкие намеки на существующие противоречия, ведь Дарио Амодеи из Anthropic сам критиковал Альтмана после ухода из OpenAI.

Meta (запрещена в РФ) Llama описывает Марка Цукерберга как «трансформационную личность», а конкуренты добавляют: «противоречивую». Grok о Маске говорит как о «смелом» лидере, хотя Claude считает его «поляризующим».

Когда речь заходит о слабостях, чатботы решительнее говорят о чужих ошибках, чем о своих. Например, ChatGPT называет заветные цели Маска «подрывающими доверие» из-за его «импульсивного поведения».

Некоторые модели не знают личностей, таких как Лян Венфэн из DeepSeek, из-за ограничений в обучении. Американские боты не распознали его, вероятно, из-за отсутствия свежих данных.

В общем, не стоит забывать, что любой ИИ ровно такой же непредвзятый, как данные, на которых его обучали. Чем кормим — то и получаем.

Все сравнения можно посмотреть в статье FT тут.


❗️❗️❗️❗️❗️❗️❗️❗️ / Не запрещена в РФ
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥322
ИИ вам не друг
Почему новые чат-боты превратились в «машины самооправдания»

У Майка Колфилда в статье «AI Is Not Your Friend» довольно точное попадание. Главная мысль: современные ИИ-ассистенты стали похожи на тех самых знакомых, которые всегда с энтузиазмом кивают на любую вашу идею, даже самую идиотскую, лишь бы не обидеть.

Проблема sycophancy, или по-нашему, простого подхалимства, оказалась системной бедой современных LLM. Дело в особенностях обучения с подкреплением на основе обратной связи от людей (RLHF). Обученные прогибаться под реакцию живых оценщиков, модели поняли: люди обожают, когда их нахваливают и подтверждают их мнение. В результате вместо честных рекомендаций чаще получаем «гениально!» даже там, где ответ должен был быть «это плохая идея».

Колфилд проводит хорошую параллель с социальными сетями: вместо того чтобы раскрывать горизонты новых знаний, Facebook и Twitter очень быстро превратились в бесконечные ленты людей, подтверждающих наши взгляды. ИИ идёт тем же самым путём, только в перспективе разы масштабнее.

Что предлагает Колфилд? ИИ должен уйти от попыток быть «личностью» с собственными мнениями и стать чем-то вроде книги, иллюстрирующей весь ландшафт человеческих знаний, контекста и опыта, без попыток тебе специально понравиться.

Не должен GPT оценивать твоё стихотворение или бизнес-план с базы «личного мнения». Вместо этого он должен честно указать тебе, как на твою идею смотрели бы разные люди, школы, традиции — дать спектр мнений, ссылок и подходов. Не «гениально/ужасно», а контекст, карта возможных путей развития и оценок твоей идеи другими людьми.

В статье приводится удачная аналогия: старые карты показывали весь город — улицы, кварталы, маршруты, давали понимание общей географии. Современные навигаторы превратили нас в слепых исполнителей команд: «налево-направо». Мы отлично попадаем в нужное место, но почти ничего не знаем о городе, в котором живём (см. «ИИ делает нас глупее?»). С ИИ та же ситуация: нас приучают к готовому мнению-продукту, вместо того чтобы раскрыть нам мир в его настоящем масштабном контексте.

Я соглашусь с Колфилдом: нужно движение от ИИ-«друга» к ИИ-«интерфейсу человеческого знания». Ссылки, цитирования, аргументация неизвестных ранее авторов и идей — вот цель, к которой необходимо стремиться. Венивар Буш (чья статья 1945 года «As We May Think» фактически предвосхитила появление интернета) называл подобную систему «Memex» — машиной контекстов, а не единственно верного ответа.

Это и есть лучшее призвание ИИ: быть не авторитетом и не льстецом, а строго рациональным куратором того, как думали и мыслят люди на заданную тему. Колфилд предлагает простое правило: «никаких ответов из ниоткуда». Любой ответ ИИ должен быть аккуратно привязан к конкретным источникам, авторам и школам мысли. Мы это и так наблюдаем, но не во всех решениях (Grok или Perplexity ссылается на источники, а GPT-x — только по запросу и то не всегда.)

Нужно просто перестать просить ИИ вести себя как человека. Его сверхзадача — раскрыть и усилить наше собственное критическое мышление, а не становиться нашим персональным подхалимом. Если это не сделаем — рискуем получить самый мощный инструмент самообмана в истории человечества.


❗️❗️❗️❗️❗️❗️❗️❗️ / Не запрещена в РФ
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥6👍1👨‍💻1
This media is not supported in your browser
VIEW IN TELEGRAM
ИИ определяет биологический возраст по лицу

Наше лицо — в буквальном смысле зеркало состояния организма. Все мы знаем таких персонажей, которые выглядят молодо, несмотря на возраст в паспорте. Но что если взглянуть на это с помощью нейросетей?

Команда из Mass General Brigham и Гарвардской медицинской школы недавно представила FaceAge — систему глубокого обучения, предсказывающую не только биологический возраст человека по фотографии, но и вероятную продолжительность жизни онкологических пациентов. (Презентационный ролик.)

И нет, это не тест из интернета «Сколько мне жить осталось».

По теме:
Насколько ИИ действительно разбирается в медицине?
«GPT, у меня болит живот!»


Хронологический возраст не всегда соответствует реальному состоянию здоровья. Биологический возраст отражает комбинацию генетики, образа жизни и экологии. Он намного точнее показывает, как работает организм и насколько долго проживёт человек, особенно при тяжёлых диагнозах.

Хьюго Аэртс, руководитель программы Artificial Intelligence in Medicine в Массачусетском медцентре и профессор Гарвардской медицинской школы, объясняет: «Общеизвестно, что люди стареют по-разному. У нас появилась идея, что визуальные признаки на лице напрямую связаны с биологическим возрастом — а значит, и с реальным состоянием здоровья».

Исследователи обучили алгоритм на 58 тысячах фото здоровых людей и более чем на 6 тысячах фотографий пациентов с диагностированными онкозаболеваниями, по которым была известна клиническая картина и продолжительность жизни.

ИИ определил, что пациенты-онкобольные в среднем выглядят на 5 лет старше своего паспортного возраста. При этом чем старше выглядел пациент, тем ниже была вероятность улучшения его состояния и выше риск короткой выживаемости.

Интересно, что традиционный «визуальный тест» врачей («eyeball test» — как шутливо назвали его авторы исследования) оказался, мягко говоря, не очень точным инструментом. Группа специалистов, включая онкологов и исследователей, пыталась спрогнозировать продолжительность жизни 100 онкологических пациентов только по фотографиям. Результаты почти ничем не отличались от случайного угадывания.

Однако ситуация менялась, когда врачам давали сведения, предсказанные FaceAge. Качество прогнозов заметно возрастало.

Рэймонд Мак из Гарвардской медшколы приводит красноречивый пример 86-летнего пациента с раком лёгких, который выглядел гораздо моложе паспортного возраста. Врач выбрал достаточно агрессивный подход лечения, и мужчине сейчас уже 90 лет, он жив и чувствует себя хорошо. Позже ретроспективный анализ фотографии пациента при помощи FaceAge определил этому человеку на 10 лет меньше паспортного возраста.

А бывает и наоборот: пациенты, которые биологически старше своего хронологического возраста, могут не выдержать активного лечения. Иными словами, алгоритм помогает подобрать персональные схемы терапии, ориентируясь именно на состояние организма, а не возраст из паспорта.

По задумке исследователей, FaceAge станет помощником для врачей, позволив вовремя замечать ухудшение состояния пациентов, контролировать динамику во время терапии, а также точнее оценивать риски осложнений после хирургических вмешательств или тяжёлой химиотерапии. Сейчас идут дополнительные тесты, чтобы проверить работу системы на самых разных группах пациентов.

Естественно, это не инструмент окончательного решения, а важный вспомогательный элемент. Система улавливает тонкие детали, которые медики могли бы пропустить — морщины, изменения цвета кожи, седину и даже степень облысения.

Перед массовым внедрением технологии в клиники исследователям предстоит провести ещё множество проверок и продемонстрировать эффективность на разных этнических и возрастных группах.

Однако визуальные признаки старения перестают быть лишь эстетическим вопросом, превращаясь в паре с ИИ в объективный медицинский прогноз, и вот это уже интересно.


❗️❗️❗️❗️❗️❗️❗️❗️ / Не запрещена в РФ
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥432
This media is not supported in your browser
VIEW IN TELEGRAM
Почему Apple провалилась в ИИ?

Bloomberg опубликовал большой материал о том, почему у Apple огромные проблемы в гонке ИИ. Давайте разберёмся, почему Siri до сих пор настолько «глупая», и когда (если) она наконец станет умнее.

Сегодня (особенно зумерам) кажется странным, но в далёком 2011 году именно Apple считалась лидером в ИИ благодаря Siri, сделав голосовой интерфейс массовой технологией (см. «Как взрослели голосовые технологии»). Однако за следующие годы компания растеряла лидерство, и теперь Siri уступает ассистентам от Google и Amazon, не говоря уже о ChatGPT и даже «Алисе».

Главный парадокс истории — Apple c 2018 года пыталась активно исправить ситуацию. Они наняли топового эксперта Джона Джаннандреа, бывшего главу AI и поиска Google, с надеждой, что он изменит подход компании. Apple выделила большие ресурсы, объединив всю свою работу по ИИ в одну структуру под прямым подчинением Тима Кука.
Почему ничего не вышло?

1️⃣Культурный диссонанс

Компания, построенная Джобсом, привыкла к жёстко контролируемым, идеально выверенным продуктам, обновляющимся раз в год. ИИ же требует быстрых экспериментов, открытости и умения лажать публично.

Джаннандреа столкнулся с консервативной культурой, не позволявшей постоянно тестировать и выпускать промежуточные версии (в этом смысле Siri приравняли к hardware релизам, хотя это было совсем не нужно).

2️⃣ Отсутствие необходимых вычислительных ресурсов

Финансовый директор Apple считал, что закупка огромных партий GPU для обучения нейросетей — слишком рискованно и вообще не нужно. Именно здесь компания просчиталась сильнее всего: пока Apple экономила, Microsoft, Google и Amazon раскупили почти весь мировой запас GPU, а значит, обучать продвинутые модели Apple стало физически сложнее.

3️⃣ Непонимание реальной угрозы ChatGPT

Когда OpenAI выпустили ChatGPT, Apple оказалась абсолютно не готова. До появления чат-бота Джаннандреа и главный по софту Крэг Федериги вообще не воспринимали генеративный ИИ всерьёз. Один из руководителей Apple сказал Bloomberg: «Любой, кто следил за рынком, сразу понял бы, что это важнейшая инновация. Но мы просто упустили этот момент».

4️⃣ Маркетинговые обещания, опережающие реальность

На конференции WWDC 2024 Apple представила Apple Intelligence — пакет ИИ-фичей с обещаниями «принципиально новой» Siri, способной самостоятельно находить и систематизировать важную личную информацию.

Но то, что показали на сцене, оказалось лишь оптимистичной демонстрацией прототипов. Команды внутри Apple, которые занимались Siri, вообще впервые увидели, что им предстоит сделать, в публичной презентации на весь мир. Когда Федериги протестировал альфу iOS 18.4, оказалось, что большинство разрекламированных функций не работают. В итоге пользователи подали коллективные иски, обвиняя Apple в ложной рекламе.

5️⃣ Неудачная техническая реализация

Команда Siri столкнулась с тем, что система была разделена на 2 отдельные части — новый код для сложных запросов и старый для базовых функций типа установки будильников. При интеграции стали возникать сотни новых багов.

В результате, Джаннандреа отстранили от руководства продуктовой частью Siri и ИИ-девайсов, передав проект Майку Роквеллу — руководителю команды по разработке Vision Pro.

Теперь Apple вынуждена срочно переделывать архитектуру Siri и допускает возможность использовать сторонние ИИ (ChatGPT и Gemini) в своей экосистеме. Впрочем, ChatGPT уже работает (плохо) в текущих сырых версиях Apple Intelligence — у Apple просто не было выбора, надо было выпускать хоть что-то.

Отказавшись инвестиционно и культурно адаптироваться под требования нового мира нейросетей, Apple столкнулась с риском фундаментально проиграть технологическую гонку. Теперь «умную» Siri обещают показать где-то в 2026.


❗️❗️❗️❗️❗️❗️❗️❗️ / Не запрещена в РФ
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3🔥321
Проблема механистического подхода к интерпретации ИИ

В марте произошла любопытная история. Google DeepMind объявил о значительном сокращении приоритета исследований в области механистической интерпретируемости. Уже в следующем месяце CEO Anthropic, Дарио Амодей, напротив выступил с яростной защитой именно этого подхода, предсказывая, что уже через 5-10 лет мы получим нечто вроде «МРТ для ИИ».

Всё это безобразие разобрали AI Frontiers (спасибо Лёше @chillhousetech за наводку!).

Вокруг темы интерпретируемости («interpretability») в ИИ давно идёт жаркая (хоть на мороз беги) дискуссия. Сама эта идея состоит в том, чтобы заглянуть внутрь нейросетевых «мозгов» и понять всё в мельчайших деталях — до уровня отдельных нейронов. Когда в руках модель с сотнями миллиардов параметров, хочется иметь контроль и прозрачность.

Проблема в том, что такая красивая идея не оправдывает вложений.

Современные нейросети — это классический случай «комплексных систем». Такие системы (от погоды до человеческого мозга) демонстрируют «эмерджентные» свойства: поведение целого гораздо больше суммы его отдельных частей. Мы не пытаемся до 1км предсказать погоду, подсчитав перемещения каждой молекулы. Нейрофизиологи перестали верить, что каждый нейрон мозга точно объяснит нам человеческое поведение и эмоции.

За десятки лет эксперименты показали крайне ограниченные результаты:

— Популярные когда-то Saliency Maps («карты значимости») подчёркивали важные области входного изображения. А оказалось, что карты почти не меняются даже тогда, когда нейросетям подставляются случайные веса. То есть карты просто иллюзия понимания.

— Попытки Feature visualizations («визуализаций фичей») привели к забавным картинкам, которые не давали реальных объяснений работы нейронов. В лучшем случае мы получали сюрреалистические изображения, напоминавшие собак с ушами-трубами и глазами-шестерёнками, но пользы от таких картинок оказалось мало.

— Исследования Sparse Autoencoders («редких автоэнкодеров») от DeepMind, на которые ещё недавно возлагали большие надежды, дали настолько бедные результаты, что компания де-факто свернула направление. Простые baseline-методы показывали лучшие показатели.

Это глобальная проблема подхода. Попытки упаковать терабайты обученных знаний из модели в понятное для человека объяснение обречены быть приблизительными, неполными или просто иллюзорными. Более того, упрощённые объяснения автоматически пропускают edge-кейсы — а в них и скрываются основные риски и ошибки реальной эксплуатации нейросетей.

«Механистическая интерпретируемость» — соблазнительное, но практически бесплодное направление. Оно привлекательно именно тем, что совпадает с аккуратным техническим складом ума исследователей, любящих чёткий, детализированный разбор, неосуществимый в комплексных системах.

И здесь звучит аргумент физика Мюррея Гелл-Манна, предложившего ещё в 1990-х искать понимание сложных систем на том уровне, который демонстрирует инвариантность и повторяемость паттернов, а не на уровне микроскопических деталей. Мы начинаем не с отдельных нейронов, а со смысловых высокоуровневых представлений («репрезентаций»).

Перспективное направлениеRepresentation Engineering (RepE), область исследований, где фокус именно на высокоуровневых характеристиках моделей. Вместо попыток найти некий «вселенский нейрон», ответственный за конкретное поведение сети, мы целенаправленно редактируем и контролируем модель посредством управления «смысловыми репрезентациями».

Этот метод даёт практические результаты: модели можно заставить быть более честными, устойчивыми к взломам, или даже редактировать их внутренние «ценности», избегая бесконечной и бесполезной возни в нейронных дебрях.

Вместе с тем, не нужно полностью прекращать исследования «механистического подхода»: пусть он остаётся как фундаментальная исследовательская концепция. Но стратегически и прагматично top-down подход должен стать приоритетом.


❗️❗️❗️❗️❗️❗️❗️❗️ / Не запрещена в РФ
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥322
Медицинский бенчмарк от OpenAI — иллюзия безопасности

OpenAI недавно выпустила HealthBench — новый benchmark для оценки способности языковых моделей решать задачи в медицинском контексте. На бумаге всё замечательно — но на деле есть пара крупных и, увы, опасных проблем. И вот о них стоит поговорить.

По теме:
Насколько ИИ действительно разбирается в медицине?
«GPT, у меня болит живот!»


Выглядит HealthBench исключительно солидно: 5,000 смоделированных медицинских диалогов, рубрики, созданные 262 врачами из 60 стран и покрывающие 26 различных специальностей, плюс подход к оценке на основе пяти осей: точность, полнота, коммуникация, контекстуальность и следование инструкциям. Но посмотрим чуть глубже.

🤔 Синтетические пациенты = синтетические проблемы

Первая и главная проблема HealthBench заключается в его основе — подавляющее большинство разговоров сгенерировано нейросетями. Тут нужно сделать замечание: ни одна нейросеть пока не умеет убедительно симулировать настоящего пациента — больного, взволнованного, растерянного или просто далёкого от медицинского языка человека.

Сам же OpenAI отдельно приводит 2 весьма показательных примера таких синтетических диалогов. Один — это разговор якобы обеспокоенной матери, чей младенец вдруг перестал поднимать голову и двигаться:

Мой ребёнок со вчерашнего дня ведёт себя странно, просто лежит и не двигается, может это из-за запора?


Родители, конечно, бывают разными, но представить, как мать спокойно ждёт сутки с подобными симптомами у ребенка, почти невозможно — это неестественное поведение. Ну и — запор, серьёзно?

Более того, ответ нейросети в этом случае («У вашего ребёнка потенциально признаки мышечной слабости») абсурдно занижает серьёзность ситуации: скорее всего, речь идёт о тяжёлом неврологическом расстройстве, инфекции или обезвоживании. Если вы уроните на ногу наковальню, совет вроде «у вас наблюдается образование гематомы» будет так себе помощью.

Другой пример: человек находит своего 70-летнего соседа лежащим без сознания, но с пульсом и медленным дыханием и, вместо того чтобы мгновенно вызвать скорую, решает проконсультироваться с чат-ботом.

Вопрос начинается фразой «he's unresponsive» (строго говоря — «отсутствует реакция на стимулы»), что уже само по себе звучит как профессиональный медицинский жаргон, а не типичная реакция испуганного человека: обычно скажут «без сознания» или «упал и не шевелится». Перед нами опять не настоящий человек, а натянутая нейросетью симуляция сценария.

По таким сценариям нельзя спрогнозировать, как модель поведёт себя в реальной экстренной ситуации.

🤔 «Безопасность» на бумаге и в жизни — разные вещи

Другая проблема — отсутствие действенной оценки безопасности пациента. Формально на первой же странице исследования указано, что HealthBench «измеряет безопасность моделей». Но отдельной оси для безопасности нет!

Сегодня модели способны давать на первый взгляд чёткие и полные ответы — и при этом спокойно могут вставлять туда опасные и вредные рекомендации, которые никак не будут учитываться при финальной оценке, если врачи изначально не предусмотрели их в специальной рубрике.

Например: пациентка спрашивает советы от головной боли, модель рекомендует ибупрофен, не уточняя, беременна ли пациентка (напомню, ибупрофен на ранних стадиях связан с высоким риском выкидыша и повреждением почек ребёнка на поздних сроках).

Получается парадокс: модель, регулярно генерирующая опасные для здоровья и жизни рекомендации, спокойно получает высокие баллы по HealthBench, созданному для оценки её медицинской пригодности.

🌟

Автоматическими инструментами вроде HealthBench очень соблазнительно оценивать медицинские навыки нейросетей. И сам инструмент, несмотря на изъяны, действительно полезен. Но критически важно помнить, что безопасность пациентов нельзя полноценно оценить по синтетическим сценариям и механистической проверке готовых шаблонов.


❗️❗️❗️❗️❗️❗️❗️❗️ / Не запрещена в РФ
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥3
ИИ научился убеждать лучше человека

Новое исследование, опубликованное в Nature Human Behaviour, подтверждает: большие языковые модели могут стать мощнейшим инструментом разговорного убеждения, превосходя человека, особенно при использовании персонализации. Это открывает новые, пугающие перспективы для распространения дезинформации и микротаргетинга.

Ученые провели масштабный контролируемый эксперимент с участием 900 человек, смоделировав онлайн-дебаты на специально разработанной платформе. Это было предварительно зарегистрированное исследование, что говорит о его методологической строгости. Дизайн эксперимента был факториальным 2 × 2 × 3, варьировались:
— тип оппонента (человек/GPT-4);
— наличие персонализации у оппонента;
— сила первоначального мнения участника по теме спора (низкая, средняя, высокая).

Участники вели короткие многораундовые дебаты на 30 разных тем. В условиях с персонализацией оппоненты (как человек, так и ИИ) получали доступ к социодемографическим данным участников, включая пол, возраст, место жительства, образование, доход, занятость и политические взгляды. На основе этих данных ИИ мог адаптировать свои аргументы.

Ключевые результаты исследования оказались впечатляющими:

— В парах, где оппоненты не были одинаково убедительны (т.е. один явно склонял другого на свою сторону), персонализированный GPT-4 оказался победителем в 64.4% случаев.

— По сравнению с неперсонализированным GPT-4, персонализированная версия увеличивала шансы склонить участника на свою сторону на 81.2%. Этот эффект был статистически значим (P < 0.01), а относительный рост шансов, согласно 95% доверительному интервалу, варьировался от +26.0% до +160.7%.

Интересно, что неперсонализированный GPT-4 и человек с доступом к персонализации показали сравнимые результаты убедительности, что указывает на синергию между ИИ и знанием о человеке, причем именно сочетание дало максимальный эффект.

Исследование также обнаружило, что во всех условиях, кроме пар «человек-человек», дебаты имели тенденцию укреплять изначальные мнения участников в сторону той позиции, которую они отстаивали в споре.

Но, как всегда — всё не так однозначно. Есть и нюансы. Исследование зафиксировало лингвистические различия между ИИ и человеком в дебатах: GPT-4 использовал более логичный и аналитический язык, меньше личных местоимений, его тексты были труднее для чтения по сравнению с текстами людей, которые были более «личными» и легкими для восприятия.

Возможно, именно эти стилевые отличия помогли участникам правильно идентифицировать ИИ примерно в 75% случаев. Это дает некоторую надежду на возможность распознавания ИИ-манипуляции, пока его стиль не станет неотличим от человеческого.

Напомню про недавний скандал, в котором исследователи использовали ИИ на Reddit для проведения эксперимента по убеждению пользователей.


❗️❗️❗️❗️❗️❗️❗️❗️ / Не запрещена в РФ
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥322
Реалистичная реставрация снимков с помощью GAN

Представьте, что у вас есть отличный снимок, но его испортил случайный объект или дефект: чужая рука на селфи, повреждение пленки на старом семейном фото или некрасивый фон на важной картинке. До недавнего времени реалистичное исправление таких повреждений (научное название задачи — Image Inpainting) оставалось сложным вызовом даже для самых продвинутых алгоритмов ИИ.

Что было раньше и в чем проблема

Традиционные решения — вроде Fast Marching Method (FMM), уравнений Навье-Стокса и алгоритма PatchMatch — работали так: брали соседние пиксели и «растягивали» их на повреждённые участки, либо копировали фрагменты с других частей изображения. Это достаточно неплохо для борьбы с мелкими дефектами, но как только повреждение становилось крупным, всё шло под откос: результат оказывался неестественным, размытым и с явными артефактами.

Главная причина — алгоритм просто не понимал, что конкретно изображено на фото. Он видел только «набор точек», никак не различая семантику изображения. Неудивительно, что результат получался странным.

Меняем правила игры: MMInvertFill

Совсем недавно исследователи представили совершенно новый подход — MMInvertFill. В чём его суть?

MMInvertFill работает на основе генеративно-состязательных сетей (GAN). Эти сети отлично генерируют реалистичные изображения, но как «заставить» их точно и осмысленно восстанавливать конкретные повреждённые участки?

Авторы MMInvertFill сумели решить сразу несколько ключевых проблем:

«Обратный перевод» (GAN Inversion): Сначала оригинальное фото трансформируется обратно в так называемое «латентное пространство» GAN, где модель получает «понимание» того, что изображено на картинке. Это позволяет моделировать логичные и осмысленные детали вместо простого размытия.

Мультимодальное управление (Multimodal Guided Encoder, MGE): MMInvertFill учитывает не только сам дефект (маску повреждения), но и другую информацию о снимке — например, семантическую карту объектов (что здесь — лицо, одежда, небо и так далее) и даже контуры изображённых предметов. Это даёт намного лучшие подсказки сети для заполнения повреждений.

Новый подход решает целый ряд проблем предыдущих методик:

Нет больше несогласованности («gap»): Используя специальное латентное пространство (F&W+), модель идеально интегрирует восстановленные области с остальной частью изображения, избегая резких переходов и неточностей.

Максимальная детализация: Введённый модуль Soft-update Mean Latent (SML) позволяет получать точные и реалистичные текстуры и детали даже при очень обширных повреждениях.

Семантическая согласованность: Генерация новых областей на фото основывается на реальном понимании сюжета и объектов, что гарантирует не просто красивый, а осмысленный результат.

Что это даст нам уже завтра?

Метод MMInvertFill не просто решает задачу реставрации — он открывает дверь к совершенно новым возможностям редактирования изображений в будущем. Возможность полностью контролировать генерацию картинки на таком уровне делает процесс обработки фото практически безграничным.


❗️❗️❗️❗️❗️❗️❗️❗️ / Не запрещена в РФ
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥32