303K subscribers
4.96K photos
1.11K videos
17 files
5.34K links
Погружаемся в машинное обучение и Data Science

Показываем как запускать любые LLm на пальцах.

По всем вопросам - @haarrp

@itchannels_telegram -🔥best channels

Реестр РКН: clck.ru/3Fmqri
Download Telegram
✔️ AutoScientist: система автоматического файн-тюнинга моделей

Adaption представила систему AutoScientist, которая автоматизирует полный цикл дообучения: она сама и синхронно оптимизирует наборы данных и рецепты тренировки, пока модель не сойдётся к заданному поведению.

Adaption основан в 2025 году бывшими руководителями направлений в Cohere. Компания строит то, что называет adaptable intelligence: системы, которые подстраиваются под конкретную задачу. Среди инвесторов Adaption: Emergence Capital, Mozilla Ventures и Threshold Ventures.

AutoScientist - третий продукт компании. До него вышли Adaptive Data, платформа подготовки и оптимизации датасетов для дообучения, и Forge, инструмент для превращения неструктурированных документов в готовые для тренировки наборы данных.

AutoScientist надстраивается над Adaptive Data, замыкая связку «данные - модель». Четвёртое направление, Adaptive Interfaces, система обратной связи от пользователей, компания заявила, но пока не выпустила.


AutoScientist закрывает типовые причины провала файн-тюнинга: катастрофическое забывание, переобучение на маленьких датасетах и конфликтующие сигналы тренировки.

Для разработчиков это путь от идеи до собственной дообученной модели за несколько часов вместо недель, а для специалистов без профильного образования - доступ к тренировке моделей, а не только к промптингу.

Внутреннее тестирование на 8 отраслевых бенчмарках подтвердило успех алгоритма над конфигурациями, которые создавали штатные инженеры Adaption.

Исследователи задавали конфигурации, зная тип модели, домен и размер датасета. AutoScientist получал ту же информацию и мог дообучаться на ограниченном наборе прошлых запусков.


При работе с архитектурами на базе Together AI и датасетами от 5 до 100 тысяч примеров AutoScientist увеличил показатель успешных дообучений с 48% до 64%.

Система показала стабильный результат во всех протестированных доменах и избежала чувствительности к конкретным вертикалям данных.

Сейчас платформа доступна бесплатно в рамках 30-дневного ознакомительного периода.

В дальнейшем Adaption обещает представить технологию адаптации в реальном времени, которая позволит корректировать поведение моделей без классического цикла тренировки.


@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍74👏27🔥1510🎉10💯4🤓1👨‍💻1🙈1
X выложили обновленный алгоритм For You на GitHub

Можно посмотреть, как X собирает и ранжирует ленту рекомендаций.

В репозитории xai-org/x-algorithm опубликован код системы, которая питает For You feed: от подбора кандидатов на показ до финального ранжирования постов. Внутри два основных источника контента:

- посты от аккаунтов, на которые вы подписаны
- посты из глобального корпуса, найденные через ML-retrieval

Дальше всё прогоняется через Phoenix - transformer-модель на базе архитектуры Grok. Она оценивает вероятности действий пользователя: лайк, реплай, репост, клик и другие сигналы. После этого система собирает итоговый score и решает, что именно попадёт в ленту.

Можно посмотреть, какие сигналы действительно влияют на рекомендации, как устроен ranking pipeline и где платформа фильтрует контент перед показом.

GitHub: https://github.com/xai-org/x-algorithm

@ai_machinelearning_big_data
👍15824🤔17👏8🔥7👨‍💻7😨3🤓1
Media is too big
VIEW IN TELEGRAM
✔️ OpenAI обвиняет Apple в занижении конверсии ChatGPT

OpenAI готовит иск к Apple о нарушении контракта из-за интеграции ChatGPT в iOS. По версии ИИ-компании, яблочный партнер намеренно ограничил системные функции модели, из-за чего пользователи предпочитают отдельное приложение, а конверсия в платные подписки не достигла целевых показателей.

У Apple есть встречные претензии. Компанию не устраивают подходы OpenAI к конфиденциальности данных, переманивание инженеров из Купертино и планы стартапа по запуску собственного аппаратного бизнеса.

На предстоящей конференции WWDC Apple анонсирует новую версию ОС, в которой, как ожидается, компания откажется от эксклюзивного статуса ChatGPT и откроет Siri для интеграции со сторонними LLM.
bloomberg.com

✔️ SpaceXAI потеряла руководителя и часть команды по претрейну

С февраля из SpaceXAI ушли более 50 ML-исследователей и инженеров. Причинами стали переработки и жёсткие дедлайны.

Увольнения затронули разработку генерации кода, моделей мира и голосового интерфейса Grok. Команду претрейна покинул руководитель Цзюньтан Чжуан, после чего в подразделении осталось несколько сотрудников. 11 ушедших специалистов нанял Марк Цукерберг, еще 7 перешли к Мурати в Thinking Machines Lab.

По словам бывших сотрудников Илона Маска, сжатые сроки обучения моделей вынуждают идти на компромиссы в архитектуре Grok. Но есть и доля финансовой мотивации: регулярные тендеры на частный выкуп акций позволяют инженерам обналичить опционы и сменить место работы, зафиксировав прибыль.
theinformation.com

✔️ Poetiq представил инструмент для улучшения кодогенерации LLM

Стартап, основанный выходцами из Google и DeepMind представил API-надстройку для языковых моделей под названием Meta-System. Она улучшает генерацию кода через рекурсивное самосовершенствование, формируя оптимизированный интерфейс для подключенной LLM. Инструмент работает без изменения весов и файн-тюнинга.

На бенче LiveCodeBench Pro надстройка повысила точность Kimi K2.6 на 30%, а Gemini 3.0 Flash прибавила 10%, обойдя базовую Gemini 3.1 Pro, Claude Opus 4.7 и GPT 5.2 High.

Показатели флагманов тоже выросли. GPT 5.5 High в связке с Meta-System достигла точности 93,9%. Gemini 3.1 Pro набрала 90,9%, превзойдя результаты модели Google Gemini 3 Deep Think.
poetiq.ai

✔️ Resemble AI опубликовала открытую модель синтеза речи со сценическими ремарками и клонированием

DramaBox - открытая модель генерации речи с контролем эмоций через промпты. Текст для синтеза заключается в кавычки, а за их пределами прописываются ремарки (вздохи, шепот, паузы, хрипота), которые отыгрываются при генерации.

Модель поддерживает клонирование голоса по 10-секундному референсу. Атрибуты персонажа (возраст, акцент и эмоция) задаются естественным языком. На выходе генерируется стереозвук с частотой 48 кГц. В аудио встраиваются водяные знаки PerTh, устойчивые к MP3-сжатию и редактированию.

В основе системы лежит дообученная LTX-2.3 от Lightricks. Текстовые эмбеддинги обрабатывает Gemma 3 12B. Для локального инференса требуется около 24 ГБ видеопамяти. Чекпоинты выложены на Hugging Face.
huggingface.co

✔️ Mythos помог разработать эксплойт для macOS

ИБ-компания Calif разработала эксплойт для ядра macOS на процессорах Apple M5 с помощью закрытой модели Claude Mythos Preview. Уязвимость позволяет локальному пользователю без привилегий получить контроль над устройством через повреждение памяти ядра.

Атака комбинирует 2 бага. Модель нашла ошибки в коде ОС и участвовала в написании эксплойта. В Calif заявили, что после усвоения механики эксплуатации конкретного класса проблем нейросеть масштабирует опыт для поиска аналогичных уязвимостей в других системах.

Apple закрыла уязвимость в релизе macOS Tahoe 26.5, упомянув в примечаниях к патчу исследователей из Calif и Anthropic Research. Технический разбор вектора атаки скрыт до массовой установки обновления.
wsj.com

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥87🤔4523👍17👏13🎉2
✔️ Отец русской математики, без которого не было бы современного ML: 205 лет Пафнутию Чебышеву

16 мая 1821 года в селе Окатово Калужской губернии родился Пафнутий Львович Чебышев. Человек, без работ которого современный data science выглядел бы совсем иначе: ни тебе закона больших чисел в привычной форме, ни оценок отклонений, ни нормальной теории приближений.

Чебышев основал петербургскую математическую школу и почти 35 лет вёл кафедру математики в Санкт-Петербургском университете. Через его руки прошли Ляпунов, Марков и Стеклов, то есть люди, чьи имена сегодня встречаются в любой книге по статистике и теории вероятностей.

Главное, чем он остался в математике: многочлены Чебышева, неравенство Чебышева, результаты по распределению простых чисел и фундамент теории приближений. Если кто-то когда-то открывал учебник по ML, он сталкивался с этим неравенством в первой же главе про концентрацию меры. Многочлены Чебышева до сих пор используют в численных методах, фильтрах и аппроксимациях, на которых построены реальные инженерные системы.

Теперь обещанная история. Чебышев с детства хромал на одну ногу из-за врождённого дефекта, обычные детские игры были для него почти недоступны, и мать делала ставку на учёбу. Именно эта хромота, по воспоминаниям современников, и подтолкнула его всю жизнь возиться с механизмами: он хотел понять, как можно превратить вращательное движение в прямолинейное, чтобы шаги людей и работа машин были ровными. В итоге он построил больше 40 механических устройств, включая знаменитую стопоходящую машину, которая на Всемирной выставке в Париже в 1878 году ходила как настоящее живое существо. Это был один из первых в истории шагающих механизмов, фактически прадед современных шагающих роботов.

Ещё один штрих: Чебышев почти всю свою преподавательскую зарплату тратил на инструменты и модели для собственной мастерской, а женат так и не был, говорил, что наука для него важнее. При этом в Европе его называли просто «русский Эйлер», а Французская академия наук избрала его иностранным членом ещё при жизни.

@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
291👍86👏47🔥46🤩16🫡6😁2🆒2
This media is not supported in your browser
VIEW IN TELEGRAM
Мои два ИИ-агента, работающие над одним и тем же проектом:
😁316🤣91🤔42💯20🤝1711👌6👍5🔥1💘1
🌟 Raindrop открыла исходный код локального отладчика агентов Workshop

Инструмент интегрируется с Claude Code, Cursor и другими кодинг-агентами.

Raindrop - стартап из 9 человек, основанный в 2023 году, который позиционирует себя одним из первых, кто оформил мониторинг для ИИ-агентов как отдельный продуктовый класс.


При использовании Workshop модель получает прямой доступ к трассировкам выполнения, читает их, пишет оценочные тесты и правит код, замыкая цикл самовосстановления.

Если агент в проде отклоняется от ожидаемого поведения, разработчик вызывает кодинг-агента прямо в терминале. Тот читает трассу через Workshop, пишет оценку под падающий сценарий, правит код и перезапускает прогон.

Цикл повторяется автоматически, пока не пройдут все проверки.


Workshop работает локально и стримит данные в реальном времени. Каждый токен, вызов инструмента и шаг рассуждения попадает в интерфейс по мере выполнения, без поллинга.

Есть режим воспроизведение, который берёт трассу из продакшена и прогоняет её через ваш экземпляр агента, запущенный локально.

Заявлена поддержка TypeScript, Python, Go и Rust, а также фреймворков Vercel AI SDK, OpenAI Agents SDK, Anthropic SDK, Claude Agent SDK, LangChain, LangGraph, CrewAI, Mastra, Pydantic AI и DSPy.


📌 Лицензирование: MIT License


🟡Документация
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #Agents #Workshop #RaindropAI
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3414🔥4👏2
🌟 Jina-embeddings-v5-omni: новое семейство универсальных эмбеддингов

Jina AI представила новое поколение эмбеддинг-моделей. Фишка релиза - в полной мультимодальности: архитектура способна кодировать текстовую, визуальную, звуковую и видеоинформацию в единое векторное пространство.

В отличие от разрозненных решений для каждого формата данных, унифицированный подход v5-omni сильно упрощает создание сложных систем поиска и RAG-приложений.

Новинка позволяет извлекать прямые смысловые связи между аудиовизуальным контентом и текстовыми запросами из коробки, не прибегая к дополнительным процессам промежуточного распознавания или транскрибации.

Линейка представлена в 2-мя вариантами: Small на 2 млрд параметров и Nano на 0,9 млрд.

Обе версии выложены на HuggingFace и доступны через облачный API компании.

Модель также интегрирована в среду Elasticsearch, её можно быстро и удобно развернуть с помощью встроенного сервиса Elastic Inference Service.

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍107🤩92🎉3421🔥4💯1
Увидимся на Дне открытых дверей магистерской программы «Исследования и предпринимательство в ИИ» ФКН НИУ ВШЭ и МТС? 👀

22 мая расскажут, как учат создавать и внедрять инновационные продукты, используя передовые методы: от больших языковых моделей и генеративных нейросетей до инструментов компьютерного зрения и NLP. Будет актуально для тех, кто задумывается о поступлении в магистратуру в 2026

Самое важное:
100% стоимости обучения (30 мест) финансирует МТС
проекты реализуются на виртуальной инфраструктуре компании
преподаватели — команда преподавателей ФКН НИУ ВШЭ и действующие эксперты из МТС и MWS AI
карьера после выпуска? Роль ML/AI-разработчика или специалиста по Data Science, собственный стартап в сфере ИИ или исследования в R&D-центрах коммерческих компаний

На встрече команда магистратуры:
— поделится деталями о программе, учебном плане и фокусах развития: исследовательском и предпринимательском
— обсудит особенности поступления в 2026 году и формат отбора
— расскажет о процессе обучения и результатах — в этом помогут сами студенты и выпускники

📍 Когда: 22 мая, 18:30
📍 Формат: онлайн
📍 Запись встречи: разместят в канале магистратуры

Чтобы не пропустить трансляцию и задать все вопросы, зарегистрируйтесь на сайте!
👍33👏7🤩74😁3🔥2
Qwen3.7 уже залетел на Arena😻

Версии
• Qwen3.7-Max-Preview
• Qwen3.7-Plus-Preview


Это пока preview-версии, вот их результаты:

- #6 на Text
- #5 в Vision

Ждём полноценный релиз.

Изначально ожидалось, что её анонсируют и запустят на Alibaba Cloud Summit 20 мая, но, похоже, команда Alibaba Qwen просто не смогла ждать ивент!

chat.qwen.ai

@ai_machinelearning_big_data
🎉123👍9144🤩18🔥16👏15😁6🥱2🥰1👌1💘1
This media is not supported in your browser
VIEW IN TELEGRAM
Доигрался
😁9719🔥11👍6💯1🤗1
⚡️ Cursor выпустил Composer 2.5 - свою самую мощную модель.

Главное:
- умнее в рассуждениях и работе с кодом
- заметно выносливее на длинных задачах: рефакторинги, миграции, многочасовые агентские прогоны больше не разваливаются на полпути
- строже следует сложным инструкциям - держит рамки, ограничения и стиль проекта.

Cursor сообщает, что вместе с SpaceXAI обучает с нуля гораздо более крупную модель - задействовано в 10 раз больше совокупных вычислительных мощностей и миллион эквивалентов H100 из кластера Colossus 2.

Бонус: всю неделю включённые лимиты модели удвоены - самое время обкатать на своих задачах.

https://cursor.com/blog/composer-2-5
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥10020👍19🎉16🤣11👏6👌2
Media is too big
VIEW IN TELEGRAM
✔️ OpenAI и Dell стали партнерами

Компании будут совместно адаптировать Codex для работы в гибридных и on-premise инфраструктурах. Модели OpenAI интегрируют напрямую с платформами Dell AI Data Platform и Dell AI Factory.

Решение позволяет корпоративным клиентам развертывать ИИ в локальном контуре с базами данных, закрытыми репозиториями и внутренней документацией без необходимости передачи конфиденциальной информации на сторонние серверы.

Целевой сценарий интеграции - разработка автономных ИИ-агентов. Локальный запуск даст агентам прямой доступ к корпоративному контексту для автоматизации бизнес-процессов, работы с системами учета и генерации отчетов.
openai.com

✔️ Илон Маск проиграл суд против Сэма Альтмана и OpenAI

Суд присяжных в Калифорнии отклонил иск Илона Маска к OpenAI, Сэму Альтману, Грегу Брокману и Microsoft. Причиной стало истечение сроков давности.

Маск обвинял бывших коллег в мошенничестве и отказе от изначальной некоммерческой миссии. По его версии, руководство незаконно перевело OpenAI в статус коммерческого предприятия, использовав его стартовые пожертвования в размере $38 млн.

Защита OpenAI настаивала, что процесс инициирован для замедления конкурента на фоне развития проекта Маска xAI. Юристы компании заявили, что истец изначально осознавал необходимость привлечения капитала и партнерств уровня Microsoft для масштабирования архитектуры и закупки вычислительных мощностей.
businessinsider.com

✔️ Anthropic покупает стартап Stainless

Anthropic приобрела стартап Stainless, автоматизирующий генерацию SDK. Цель сделки - упростить разработку коннекторов и серверов MCP для интеграции Claude с корпоративным инструментарием.

Компании сотрудничают с 2022 года: инфраструктура Stainless применялась для сборки официальных SDK API Claude. Платформа стартапа конвертирует спецификации API в готовые библиотеки и CLI-утилиты для TypeScript, Python, Go, Java и Kotlin.

Технологии стартапа позволят сторонним разработчикам автоматизировать создание MCP-серверов для подключения ИИ-моделей к внутренним базам данных и запуска автономных агентов. Команда Stainless перейдет в Anthropic.
anthropic.com

✔️ GitHub выпустил десктопное приложение Copilot

Решение работает отдельно от IDE и переводит взаимодействие с ИИ из диалогового окна в параллельные рабочие процессы. В интерфейсе можно запускать несколько агентов одновременно.

Для каждой задачи Copilot автоматически разворачивает изолированные Git-worktrees и ветки. Разработчик может поручить одному агенту фоновое исправление CI, а другому написание фичи, не прерывая работу в локальном репозитории.

Для работы с PR добавлен механизм Agent Merge. Агенты самостоятельно обрабатывают комментарии после код-ревью, исправляют упавшие тесты и сливают ветки при выполнении заданных условий. Также приложение получило поддержку стандарта MCP.

Десктопный Copilot доступен по списку ожидания. На тарифах Business и Enterprise новинка доступна после корпоративной авторизации.
github.com

✔️ Из FAIR ушёл ключевой сотрудник по видеогенерации

Исследователь подразделения FAIR Эндрю Браун перешел в стартап AMI Labs для разработки моделей мира - систем, обучающихся законам физики и причинно-следственным связям реального мира. У Цукерберга Браун провел 3 года. Он занимался моделями генерации видео, выступил соавтором архитектуры Emu Video и контрибьютором комплекса Movie Gen.

Фаундеры AMI Labs - суперзвезды ИИ-сцены Ян Лекун и Се Сайнин (самый цитируемый учёный в области генеративного ИИ и CV, соавтор архитектуры Diffusion Transformers).
Andrew Brown в сети Х

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
24🔥24👏11👍4🤔1
Приглашаем на GenAI MeetUp — hh.ru х Lamoda Tech

Если вы LLM-инженер или ML-специалист, работаете с генеративным AI, приходите обсудить разработку агентов, применение моделей и оценку их качества.

🧬 В программе разбор кейсов, интерактивы с призами, нетворкинг и угощения.

Спикеры и доклады:

▪️ Коля Безносов, Руководитель направления AI Lab, hh.ru
Рекрутер, который не спит: как мы автоматизировали первичный контакт с соискателями с помощью ИИ

▪️Данил Дмитриев, Senior Data Scientist, Lamoda Tech
Контролируемый агент поддержки: как мы превратили обратную связь из прода в роадмап

▪️Женя Орлов, Руководитель команды разработки AI Lab, hh.ru
Нейроразбор резюме: практический опыт и нюансы создания LLM-судей

▪️Дима Курганский, Teamlead MLOps, Lamoda Tech
Как мы строим GenAI-платформу в Lamoda: от MVP к production-решениям

🗓 28 мая, сбор 18:30, начало 19:00
🔗 Очно и онлайн
📍 Офис hh.ru

🔥 ЗАРЕГИСТРИРОВАТЬСЯ

Количество очных мест ограничено.

Реклама. ООО "ЛАМОДА ТЕХ". ИНН 7734461512. erid: 2W5zFHW2tg9
1🎉28👍8👏7😁65😍1
📌 Сколько стоит построить ИИ-ЦОД мощностью 1 ГВт?

Epoch AI опубликовала модельную оценку полной стоимости владения типовым дата-центром для искусственного интеллекта мощностью один гигаватт.

По расчётам, такой объект потребует около $38 млрд первоначальных капитальных вложений и $900 млн операционных расходов в год.

Если капитальные затраты распределить на срок службы оборудования, совокупная стоимость владения составляет примерно $8,5 млрд в год.


Около 60% этой суммы (порядка $5 млрд) приходится на серверы. Расходы на их фоне невелики: даже электроэнергия, крупнейшая операционная статья, по оценке обойдется в $600 млн в год.

Авторы оговариваются, что это упрощённая финмодель, а не оценка конкретного объекта.

Расчёт описывает гипотетический ЦОД крупного американского оператора облачной инфраструктуры на оборудовании NVIDIA GB200 NVL72.

Реальные издержки могут заметно отличаться в зависимости от выбора серверов, проектирования, расположения, схемы финансирования и стратегии энергоснабжения.


Главная неопределённость расчётов связана со сроком службы IT-оборудования.

Базовый сценарий исходит из 5 лет для серверов и сетевой инфраструктуры и 14 лет для здания. При сроке в 3 года годовая стоимость владения возрастает примерно до $12–13 млрд, при 7 - снижается до $7 млрд.

Оценка опирается на статистику государственного энергорегулятора США, показатели энергоэффективности Lawrence Berkeley Lab, стоимость серверов по выкладкам SemiAnalysis, строительные индексы Turner & Townsend и ряд других источников.

Модель предполагает полное питание от энергосети и не учитывает собственную генерацию, налоговые льготы оценены приблизительно.


Обновлённый расчёт даёт стоимость владения $8,5 млн на мегаватт в год против прежних $10,8 млн.

Снижение авторы объясняют переходом на новое оборудование и пересмотром части исходных данных.


@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
74🤔61🤓25👏16🔥5👍3🌚2
Forwarded from C++ Academy
Media is too big
VIEW IN TELEGRAM
🖥 Создатель C++ разнёс вайбкодинг: “сеньоры не хотят разгребать этот мусор”

Бьёрн Страуструп, легендарный создатель C++, в новом двухчасовом интервью резко прошёлся по вайбкодингу.

Главная претензия простая: сгенерированный код пока слишком часто выглядит красиво только на демке. В реальном проекте он приносит баги, раздувает кодовую базу, плодит уязвимости и плохо поддаётся нормальной проверке.

Особенно больно это бьёт по опытным разработчикам. Им потом приходится не “магически ускоряться с ИИ”, а читать, чинить и переписывать слоп, который кто-то нагенерировал за пять минут.

Похожая история уже достала и Линуса Торвальдса. Его буквально завалили кривыми AI-отчётами по ядру Linux: вроде бы люди “помогают”, а на практике создают шум, который мешает настоящей разработке.

Сеньоры не боятся ИИ.
Они просто не хотят провести остаток карьеры, разгребая чужой промптованный мусор.

https://www.youtube.com/watch?v=U46fJ2bJ-co

@cpluspluc
Please open Telegram to view this post
VIEW IN TELEGRAM
👍105🤬45😁32🤔19🤨1311😢11💯7🤣7🔥3👌1
🌟 Alice AI ART получила обновление с фокусом на генерацию русского текста

Яндекс выпустил новую версию своей визуально-генеративной модели - точность воспроизведения кириллического текста при использовании приемов промптинга выросла в 3 раза относительно предыдущей версии.

Диффузионные модели плохо справляются с текстом, в процессе генерации буквы для них ничем не отличаются от любой другой текстуры, нет встроенного представления о символах как о дискретных единицах со стабильной формой. С кириллицей ситуация усугубляется дисбалансом обучающих данных: в открытых датасетах её доля минимальна, а доступные примеры с русским текстом в большинстве низкого качества - их прямое добавление в претрейн просаживает эстетику и общее качество генерации.


🟡 Технические изменения

🟠 Собственный датасет пар «изображение - текст» с разметкой глифов: 30 млн примеров в претрейн и около 100 тыс. в файнтюн, отобранных по качеству и визуальной эстетике. Ключевой фокус - на разнообразии символов и токенов, без этого модель хорошо писала бы только частотные буквы.

🟠 Переход с UNet на Diffusion Transformer - трансформерная архитектура лучше работает с пространственными связями между удалёнными участками картинки, что критично для длинных надписей.

🟠 Замена текстового энкодера на LLM для более точного понимания семантики и контекста запроса.

🟠 Обучение на русскоязычных промптах вместо схемы с переводом с английского.

🟡 Результаты внутренних замеров

🟢 Кириллический текст - фразы 7–9 слов корректно генерируются в большинстве случаев (предыдущая версия с ними практически не справлялась)

🟢 Общее качество — доля генераций без визуальных искажений выросла на треть

🟢 Локальная айдентика - 85% корректных генераций, на уровне топовых индустриальных решений

По доле успешных генераций кириллического текста Alice AI ART показывает лучшие результаты среди российских моделей. Команда также рекомендует приёмы промптинга для получения заявленного роста качества генерации — заключать текст в кавычки, сложные слова писать заглавными, длинные фразы разбивать на части с явным указанием расположения.


https://admin.kod.ru/alisa-ai-russkiy-tekst-na-kartinkah-prompty/ 

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍32🎉28🤣13👏128😍3