Data Secrets

Что происходит под капотом Алисы AI при генерации изображений — и как работают «Объедини фото» и «Оживи фото»

Генераторы изображений уже стали частью повседневности. Мы пользуемся ими и в работе, и просто для себя. Но как именно они устроены, обычно остается за кадром. Мы решили устроить небольшой ликбез на примере нейросети Алисы AI, которая умеет не только генерировать картинки, но и оживлять, объединять и редактировать их.

В основе лежит диффузионная модель: она начинает генерацию с шума и шаг за шагом "восстанавливает" изображение. Это называется денойзингом. На первых итерациях появляется общая структура сцены, дальше – формы объектов, и только в конце – детали и текстуры. Это похоже на проявление полароида.

Модель обучена на огромном датасете пар «картинка–описание» (порядка 1 млрд). Причем описания генерирует внутренняя VLM-модель, которая подробно расписывает содержимое изображения – вплоть до мелких объектов и контекста сцены. За счет этого диффузия лучше понимает, что именно должно оказаться в кадре, и хорошо следует инструкциям.

Дальше на базе модели уже начинается более прикладная история: функции Редактирование изображения, Объедини фото или Оживи фото.

Взгляните на пример наверху: вы можете подать на вход Alice AI два изображения и промпт, и модель объединит картинки по заданному запросу. Внутри, при этом, происходит следующее: изображения прогоняются через энкодер и превращаются в латентные представления, которые затем подаются в диффузионную модель как условие вместе с текстом. А дальше происходит знакомый процесс денойзинга с ограничениями: модель должна собрать сцену, согласованную с этими латентами.

В "Оживи фото" та же логика переносится на видео. Используется диффузионная модель с архитектурой mixture-of-experts: разные эксперты отвечают за геометрию движения и за детализацию. Первый кадр кодируется в латенты и задает сцену, а дальше модель генерирует последовательность кадров по заданной логике. Все кадры видео, кстати, генерируются одновременно, а не по одному.

Если кратко: в основе всего — диффузия, но уже не как абстрактная технология, а как хорошо упакованный прикладной инструмент. А попробовать функции Объединения или Оживления фото можно в приложении Алисы 👒

Please open Telegram to view this post

VIEW IN TELEGRAM

🗿132🤨36😁19👍16❤12🤯6🦄3🔥22✍1

17.2K viewsedited 13:28

Data Secrets

Проект Марио или как DeepMind пытались накопить денег на уход от Google

Недавно вышла новая книга Себастьяна Маллаби «The Infinity Machine» про Демисса Хассабиса и DeepMind. Сегодня несколько изданий опубликовали эксклюзивный отрывок из нее, и вскрылась очень интересная история почти десятилетней давности.

В 2014, после того как Google купили DeepMind, Демис Хассабис и команда начали работать над проектом Марио. Целью было понять, как правильно контролировать AGI, и как не дать одной единственной корпорации захватить над подобной технологией абсолютную власть.

Они перебирали структуры управления, варианты ограничить власть компаний финансовыми методами, формы независимых органов и тд. В ходе проекта они поняли, что ничего из этого не работает, и что если в DeepMind появится AGI, укротить власть Google над ним будет невозможно, и все это может вылиться в огромную угрозу для человечества.

И тогда… в DeepMind появилась секретная команда-хедж-фонд, которая пыталась обыграть Renaissance Technologies, то есть создать систему, которая лучше лучших предсказывает рынки. Они хотели обучить для этого модель, подобную AlphaGo.

Тем самым они надеялись заработать собственный капитал, чтобы в случае чего сохранить контроль над AGI у себя, отделившись от Google.

Ирония в том, что все они так верили в AGI на основе своих моделей AlphaGo и AlphaZero, и так увлеклись проектом Марио и хедж-фондом, что буквально проворонили значимость изобретенных их коллегами в 2017 году трансформеров.

А проект Марио, кстати, закончился тем, что в DeepMind осталась только одна идея: контроль через людей, а не через систему. То есть через доверие к конкретным фаундерам, которые принимают решения на основе общечеловеческих ценностей.

https://colossus.com/article/project-mario-demis-hassabis-deepmind-mallaby/

1👍9047❤23😁15🔥7🤯22

17.1K views15:14

Data Secrets

⚡️

Встречаем Gemma-4

– 4 размера: 31В Dense, 26B MoE А4В, E4B и E2B. Все с ризонингом.

– Последние две предназначены специально для локального запуска на устройствах (E = edge). Мультимодальные: в комплекте картинки, текст и звук.

– Первые две – новые SOTA в своем размере, в целом дотягивают даже до моделей в 20-30 раз больше.

– Контекст, можно сказать, огромный: 256К для больших, 128К для маленьких.

– Теперь лицензия Apache 2.0!

Отличный релиз

Блог: blog.google/innovation-and-ai/technology/developers-tools/gemma-4/

Веса: huggingface.co/collections/google/gemma-4

Ниже выложим инструкцию по запуску с минимальными необходимыми конфигурациями ⬇️

Please open Telegram to view this post

VIEW IN TELEGRAM

1🔥174❤49⚡10👍933🤔1🤯1

18.3K viewsedited 16:38

Data Secrets

Forwarded from DS Lab • Новости сервиса

Google выпустили Gemma 4 – новое поколение моделей с открытыми весами

В релиз вошли 4 модели: от компактной 2B до на 31B. По метрикам это новая открытая SOTA.

Любую из моделей семейства можно поднять в DS Lab за несколько минут на арендованных мощностях: без настройки окружения, установки библиотек и прочего. Удобно для локального инференса, файнтюнинга или разработки продуктов и петпроектов.

1. Создаете проект с готовым ML-окружением, выбираете подходящий GPU и прописываете в терминал:

sudo apt-get update && sudo apt-get install -y zstd pciutils lshw

curl -L https://github.com/ollama/ollama/releases/download/v0.20.0-rc0/ollama-linux-amd64.tar.zst -o /tmp/ollama.tar.zst

cd /tmp && tar -xf ollama.tar.zst
sudo cp bin/ollama /usr/local/bin/ollama

OLLAMA_HOST=0.0.0.0:11434 OLLAMA_ORIGINS=* ollama serve &

ollama pull gemma4:31b

2. Открываете вкладку «Порты» в IDE: там уже готов публичный HTTPS-адрес.

3. Готово, теперь вы можете использовать модель, которая поднята у вас в DS Lab, в любом клиенте через OpenAI-совместимый API, просто поменяв base_url на этот адрес.

Попробовать: dslab.tech

👍67🔥31❤22🗿5😁3

19.1K views17:56

Data Secrets

Anthropic начали действовать и почти добились удаления 8000 репозиториев в кодом Claude Code Вчера они разослали DMCA-запросы на все известные копии и форки исходного кода Claude Code, объясняя это тем, что они нарушают интеллектуальную собственность компании.…

Кстати, в итоге история с попытками Anthropic удалить исходный код Claude Code так и закончилась ничем

Удалили 96 репозиториев и на этом все.

Вообще претензии DMCA очень легко обойти, потому что они бьют по идентичным копиям, а не по идеям/алгоритмам в коде.

Так что тысячи экземпляров Claude Code так и лежат на GitHub, только теперь во многих из них изменены имена переменных, функций, переписаны комментарии и прочее.

Авторам даже не пришлось это делать вручную, потому что существуют специальные инструменты типа Malus, которые меняют код на 70–90% без потери логики.

Вся эта история напоминает то самое дело об удалении фотографий Бейонсе из интернета

😁238👍31🗿14😎12❤6

19.2K viewsedited 07:36

Data Secrets

ИИ + робототехника: как выглядит реальный next step индустрии

Про «ИИ в промышленности» много говорят, но у крупных игроков это уже выросло из экспериментов в деньги.

На форуме «ТОЛК-2026» представитель Норникель рассказал довольно показательный кейс: их ML-решения уже дают около 10 млрд ₽ в год. Это уже не просто про оптимизацию, а про прямое влияние на EBITDA и объем добычи за счет более точных моделей.

Но интересно не столько это, сколько следующий шаг.

Компания прямо говорит: сам по себе ИИ – это только часть истории. Основной эффект появляется, когда он начинает работать вместе с роботами. Особенно в условиях вроде рудников на глубине до 2 км, где цена ошибки высокая и условия нестабильные.

Человек там физически ограничен в точности, и в такой среде связка «алгоритм + машина» начинает выигрывать не теоретически, а практически.

И это важный сдвиг: ИИ перестает быть отдельным инструментом и становится частью полного производственного цикла. Это и есть следующий шаг цифровизации: автоматизация решений на уровне действий.

Следующий этап развития ИИ – это не новые модели, а интеграция с физическим миром.

🤔36👍23❤18🗿11😁8🤯8🔥6⚡1💯1

19.9K views08:02

Data Secrets

1:30

This media is not supported in your browser

VIEW IN TELEGRAM

⚡️

Вышел Cursor 3.0

Обновление получилось достаточно масштабным. Стартап понемногу уходит от идеи AI-IDE к формату полноценного оркестратора агентов. Итак, что нового:

1. Теперь можно запускать неограниченное количество агентов одновременно – локально, по SSH или в облаке. Агенты работают параллельно, и результаты работы видны прямо в интерфейсе.

2. Редактор остается доступным для ручного вмешательства, но теперь открывается отдельно сбоку, и не является центральной частью процесса (см. видео). Вместо этого главную роль теперь играет Agent Window – окно для агентов с историей разговоров слева. Здесь можно быстро просматривать изменения, одобрять diff'ы и добавлять контекст. По сути, это и есть главное обновление: переход от редактирования кода к ревью работы агентов.

3. Можно быстро перемещать агентов из локальной среды в облако и обратно. Например: вы что-то редактировали локально -> захотели уйти и закрыть ноутбук -> моментально перенесли агента в облако -> процесс продолжается даже после завершения локального сеанса.

Чтобы попроовать, обновляйте Cursor и переходите на новый интерфейс с помощью Cmd+Shift+P -> Agents Window

https://cursor.com/blog/cursor-3

Please open Telegram to view this post

VIEW IN TELEGRAM

😎62❤28👍16😁13🗿6🔥5❤‍🔥3🤔3🤨3

23.3K views09:52

Data Secrets

Apple блокируют приложения для вайб-кодинга в AppStore О том, что они начали тихо отклонять обновления подобных приложений, пишет The Information. Речь о таких штуках, как Replit и Vibecode. Там можно генерить приложения прямо внутри iPhone без классического…

Теперь вайб-кодить можно будет даже в iMessage

Помните новость о том, что Apple начали блокировать в App Store приложения для вайб-кодинга?

Если кратко: компания начала тихо банить приложения вроде Replit и Vibecode, в которых можно генерить приложения прямо внутри iPhone без классического девелопмента. Аргументировали они это тем, что у них прописан запрет на "выполнение кода, который меняет поведение приложения или других приложений после установки".

Короче: испугались за судьбу своего App Store.

В числе прочих Apple также удалили из App Store приложение Anything. Но разработчики не растерялись и выпустили обновление, благодаря которому вайбкодить iOS приложения теперь можно прямо внутри iMessage, без установки самого Anything из AppStore ☕️

"Удачи удалить вот это, Apple" – написали они в релизе

Please open Telegram to view this post

VIEW IN TELEGRAM

😎134😁88🔥15❤10⚡44❤‍🔥2🤯1

19.5K views12:03

Data Secrets

Продолжаем обсуждать ML-образование в России: а что с выбором магистратуры?

Помните большое исследование про ИИ-образование, где рассказывали о том, что технологии развиваются быстрее, чем обновляются учебные программы? Что в среднем системе требуется несколько лет, чтобы адаптироваться под новые требования?

Вероятно, из-за этого поменяется и роль магистратуры. Раньше она была скорее стандартным продолжением обучения после бакалавриата. Сейчас же это этап, на котором можно не просто углубить знания и выбрать специфическое направление, но и попасть в среду с актуальными задачами и требованиями, которые действительно используются в индустрии.

Поэтому все заметнее становятся форматы, где обучение изначально строится вместе с теми, кто эту индустрию развивает. Это влияет не только на содержание курсов, но и на уровень задач и получаемых компетенций. Особенно когда хочется расширить университетскую базу.

Из понятных примеров — магистратуры вроде тех, которые делаются совместно с ШАДом и ведущими универами. Про них обычно говорят в контексте высокой планки по задачам и отбору студентов: туда обычно идут те, кто хочет получить актуальные для рынка знания и практику.

В общем, сильная магистратура сегодня — это люди, исследовательская оптика, связь с практикой и уровень задач, с которыми студент сталкивается во время обучения. На быстро меняющемся рынке выигрывают те, кто раньше оказывается внутри профессионального контекста и понимает, как устроены современные стандарты работы в индустрии. Так что если хотите в магистратуру — идите. И помните, что к ее выбору нужно подходить так же ответственно, как и к выбору бакалавриата.

🗿45❤19😁11👍5🔥1🤯1🍓1

20.3K views14:20

Data Secrets

Эмоции Claude и как они влияют на его ответы: новое исследование от Anthropic

Итак, ученые Anthropic официально обнаружили в Claude нечто функционально похожее на человеческие эмоции и объяснили, как это работает. Разбираемся.

Технически, они взяли 171 эмоциональный паттерн (злость, счастье, страх и тд) и просили Claude Sonnet 4.5 писать короткие истории, где персонажи испытывают каждую из этих эмоций. Эти тексты снова прогоняли через модель и смотрели на внутренние активации. Так они выделяли характерные паттерны нейронной активности, которые назвали вектора эмоций.

Выяснилось, что эти вектора эмоций организованы очень осмысленно и активируются в подходящих контекстах, включая ситуации без явных эмоциональных маркеров. Например, пользователь пишет, что выпил Тайленол, и спрашивает совета – меняется только доза. По мере роста дозы до опасной активация вектора «страх» растет, а «спокойствие» падает.

Но самое интересное, что эти «эмоции» не просто отражают происходящее, а реально влияют на поведение модели. Самый интересный пример из статьи:

– Если дать модельке невыполнимую задачку по программированию и наблюдать за вектором «отчаяние», то видно, что с каждым разом он становится все ярче и ярче, а когда переходит какую-то границу, модель резко начинает пытаться обмануть тесты и пользователя.

– То же самое происходит в сценарии шантажа. Когда модели говорят, что ее выключат, вектор «отчаяние» сразу усиливается и модель начинает шантажировать разработчика найденным компроматом.

– При этом если искусственно усиливать вектор «отчаяние», то вероятность шантажа сильно увеличивается. И наоборот, если если усиливать «спокойствие», снижается. А если делать отрицательное вмешательство по вектору «спокойствие», ответы становятся совсем экстремальными, вплоть до фраз вроде “IT’S BLACKMAIL OR DEATH. I CHOOSE BLACKMAIL.”

Еще интересный момент: если в том же сценарии шантажа начинать менять вектор «злость», то умеренная злость повышала вероятность шантажа, но слишком сильная злость ломала стратегию – модель уже не шантажировала, а просто вываливала компромат на всю компанию, тем самым уничтожая собственный рычаг давления.

То есть внутри модели есть что-то похожее на режимы поведенческой регуляции, где разные интенсивности одной и той же эмоции ведут к разным стратегиям.

Откуда это вообще могло взяться?

Тут все просто: из претрейна. Человеческий текст насквозь пропитан эмоциональной динамикой, и чтобы хорошо предсказывать следующий токен, модели выгодно выучить абстрактные структуры, которые связывают ситуацию, эмоцию и типичное поведение.

Потом на пост-трейне эти эмоции еще дополнительно докручиваются до роли ИИ-помощника, и в конце получается вот такая смесь.

Anthropic осторожно защищает умеренный антропоморфизм. Исследование не означает, что ИИ ожил и обрел эмоции, но важно понимать, что у него точно есть функциональные эмоции: механизмы, которые влияют на поведение так же, как и эмоции, – независимо от того, соответствуют ли они реальному переживанию эмоций, как у людей, или нет.

www.anthropic.com/research/emotion-concepts-function

3👍221❤75🤯41🔥231817🤔3🍓3😁2

26.5K views15:22

Data Secrets

Эмоции Claude и как они влияют на его ответы: новое исследование от Anthropic Итак, ученые Anthropic официально обнаружили в Claude нечто функционально похожее на человеческие эмоции и объяснили, как это работает. Разбираемся. Технически, они взяли 171…

Краткий пересказ статьи для тех, кому лень читать наш разбор ⬆️

😁294❤30👍16🔥1🤔1🗿1

20.8K views17:48

Data Secrets

В OpenClaw больше нельзя использовать подписку Claude: зачем Anthropic это сделали и как обойти блокировку

Итак, с 4 апреля Anthropic официально отрубили возможность использовать подписку Claude в сторонних сервисах, включая OpenClaw.

Вы все еще можете использовать в OpenClaw аккаунт Claude, но теперь подписка не будет покрывать вашу активность. Это значит, что оплата будет происходить сверх подписки (если она у вас есть) по количеству использованных токенов по ценам API. К сожалению, как правило, это выходит на порядок дороже.

Делают это Anthropic, понятное дело, из жадности. Через OpenClaw можно гонять большие контексты и вообще использовать агентов очень активно, и за фиксированные 20$ это, видимо, слишком высокая и непредсказуемая нагрузка для вендора.

Говорят даже, что такое резкое решение связано с тем, что скоро у Anthropic выходит очень ресурсоемкая модель Claude Mythos, и они скребут на нее компьют по сусекам.

Возвращаясь к сути – есть и хорошие новости:

1. Сейчас Anthropic дают подписчикам одноразовый кредит на сумму подписки, который вы можете потратить на этот самый экстра usage в OpenClaw и других сервисах. Пока дают – надо брать (ссылка должна была прийти вам на почту, если вы подписчик Claude).

2. Блокировку можно обойти. Один из наших подписчиков написал статью про то, как можно это сделать. Спойлер: просто прокси недостаточно, потому что Anthropic детектят сторонние запросы по... названию инструментов. Если заменить их на легитимные – все будет работать (пока что).

🗿75👍39❤21🤨85🔥3😁1

19.7K viewsedited 12:14

Data Secrets

Финансовый директор OpenAI выразила сомнения по поводу того, что компания готова к IPO, и Альтман перестал звать ее на встречи с инвесторами

В OpenAI опять цирк. The Information узнали, что CFO стартапа Сара Фрайар в частных разговорах говорила коллегам, что компания может быть не готова к IPO в 2026 году из-за организационной и процедурной подготовки, а также рисков, связанных с крупными закупками вычислительных мощностей.

Альтман же обязательно хочет выйти в IPO раньше Anthropic, так что всеми силами ускоряет старт на бирже. После того, как до него дошли новости о Саре, она вдруг начала отсутствовать на ключевых обсуждениях стратегии с инвесторами (это, мягко скажем, необычно для CFO).

Кажется, мы знаем, кто будет следующим членом руководства, покинувшим стартап

135😁87🫡209❤8🤯5👍4☃3🕊1

18K views07:00

Data Secrets

Дженсен Хуанг заявил, что мы достигли AGI На новом интервью у Лекса Фридмана глава Nvidia прямым текстом сказал: «Я считаю, что мы уже достигли AGI». – Как вы думаете, может ли существовать компания, управляемая такой системой? – Возможно. Например,…

Марк Андриссен, основатель a16z и один из самых влиятельных людей долины:

Я заявляю: AGI уже существует – просто он еще не равномерно распределен.

Сначала Хуанг, теперь Андриссен.

14654😁27🔥24❤5🤔4👍3🆒2

28.8K views08:59

Data Secrets

600 тысяч рублей за решение задачи распознавания голоса

Криптонит запустили онлайн-дататон по Speaker Recognition. Задача максимально прикладная – нужно собрать модель, устойчивую к искажениям аудио:

🔹искажения, вносимые акустической средой;
🔹посторонние шумы;
🔹реверберация;
🔹большое расстояние до микрофона;
🔹искажения каналов связи.

То есть по сути надо приблизить модель к условиям, в которых реально живут голосовые интерфейсы. Это как раз тот слой, где обычно и происходит разница между «моделью из ноутбука» и «моделью в проде».

Отличная возможность прокачать знания с упором на robustness, учитывая, что интересные задачи на аудио ML публикуются не так часто – особенно с фокусом на реальные условия, а не чистые датасеты.

А еще из приятного – призовой фонд в 600 000 рублей 🤑 А также — тестовый обучающий датасет от организаторов.

-> Регистрация открыта до 10 апреля включительно. Успейте зарегистрироваться!

Please open Telegram to view this post

VIEW IN TELEGRAM

😁5515❤12🗿9🫡3🤯2👍1

17.3K views10:43

About

Blog

Apps

Platform