Роман с данными
2.54K subscribers
52 photos
12 videos
3 files
106 links
Все о данных, ML, AI
Founder LLM Arena. Ex-Founder TrainingData.Pro
Окончил ВМК МГУ, 8 лет занимаюсь сбором и разметкой данных
Контакты: @roman_kucev
Download Telegram
Дал Анфисе небольшое интервью, рассказал как AI помогает в реальной жизни.

С Анфисой знаком уже много лет, в своё время я почти проинвестировал в ее 18+ компанию feelpurpur.com, но это уже совсем другая история🙃
👍12🔥97
В пятницу проводим панельную дискуссию «Почему бенчмаркам нельзя верить»! Если вы будете на aiconf.ru, обязательно заходите!

P.S а опрос ниже поможет мне понять: это только у меня куха едет от кол-ва конференций в этом году или у всех так.
1🔥5👍21
Всем привет! Хочу анонсировать бета-запуск нашего нового проекта VseLLM!🥳

Вместе с командой LLM Arena мы решили собрать информацию про все LLM в одном месте: какие модели доступны у российских провайдеров, сколько стоит использование, скорость и пропускная способность, и другая прикладная информация для интеграции моделей в ваши проекты.

❗️Помимо агрегатора данных о LLM мы делаем единый API-доступ: через один ключ можно работать и с ChatGPT, и с Гигачатом. На текущий момент доступно 20 моделей. Всё это — с оплатой в рублях и закрывающими документами для юрлиц.

Как это устроено:
— У каждой модели есть основная версия с SLA на уровне 99%+ за счет прямых подключений (минимум сбоев, SLA высокого уровня, рекомендовано для задач, где важна максимальная стабильность и высокий отклик).
— Дополнительно для некоторых моделей доступны noSLA версии — более гибкий SLA из альтернативных каналов (~95% доступности), при этом качество работы моделей остаётся на том же уровне при более низкой цене.

Мы открываем бета-тестирование и дарим 500 ₽ по промокоду SPECIALGIFT на баланс первым пользователям.
Хочешь попробовать? Забирай свой API-ключ в @vsellm_bot.

Чтобы избежать накруток, можем запросить дополнительные данные для модерации перед начислением бонуса
7👍2413🔥12
Media is too big
VIEW IN TELEGRAM
Рассказал про свое ощущение пузыря в LLM токенах.

Но мы не боимся и с vsellm.ru тоже влетаем в этот пузырь!

По промокоду SPECIALGIFT в @vsellm_bot дарим 500 руб на счет. А цены на GPT-4.1 и GPT-4.1-mini ниже опенроутера на 10%!
79👍6🔥3😁2
🚀 Вакансия в VseLLM — Middle Python Backend Developer

Привет! Мы команда VseLLM — авторы LLM Arena, самого популярного бенчмарка нейросетей в России.
Недавно запустили наш новый продукт — vsellm.ru — удобный доступ ко всем ИИ без прокси и VPN.

Сейчас расширяемся и ищем бэкенд-разработчика уровня Middle, который поможет нам развивать:
• Админку vsellm.ru
• Telegram-бота @vsellm_bot

🧩 Мы ожидаем
• Опыт Python 3+ лет
• Знание FastAPI, PostgreSQL
• Умение проектировать системы и писать тесты
• Опыт с Docker / Docker Compose
• Бонусом будет опыт разработки Telegram-ботов и работа с Kubernetes

⚙️ Условия
• Удалёнка и гибкий график
• Можно part-time (от 20 часов в неделю)
• Минимум бюрократии, максимум влияния на продукт
• Оплата — по договорённости, обсуждается индивидуально

📨 Хочешь присоединиться?
Отправь CV → @roman_kucev
108👍5🔥3😁1
Media is too big
VIEW IN TELEGRAM
Продолжаю тестировать Comet.
Как вы и просили: сделал прожарку ИИ браузера от Perplexity и дал самую интересную задачу - настроить проект по разметке в Яндекс.Заданиях.

Что из этого вышло, смотрите на видео!
0:00-0:51 постановка задачи
0:52-14:31 работа ИИ агента
14:33-16:05 разбор полетов, проверка
2🔥8😁3👍1
Forwarded from Неискусственный интеллект (Илья Склюев)
Alignment ИИ: как научить машину быть безопасной

Современные языковые модели умеют писать код, сочинять стихи и отвечать на сложные вопросы. Но как гарантировать, что ИИ-помощник не создаст инструкцию по изготовлению взрывчатки или не начнёт давать опасные медицинские советы?

Мы попросили экспертов из Data Light и «Авито» рассказать об очищении данных и работе с "выравниванием" модели.

1️⃣ Как работать с данными? (Александр Громов, CBDO Data Light)

Современные опенсорс-датасеты вроде Common Crawl содержат миллиарды веб-страниц – и там есть всё: от научных статей до токсичных комментариев. Без качественной очистки модель впитает весь этот хаос. Основные этапы следующие:

▪️ Удаление дублей. Это многоступенчатый конвейер. Сначала приводят данные к единому виду. Затем чистят точные копии через криптографические хэши. Самый трудный этап – поиск семантических дублей, переписанных разными словами текстов. Здесь используют векторные представления.

▪️ Поиск токсичности. Классификаторы на основе решений вроде fastText, быстро находят явные проблемы, также работают модераторы.

▪️ Синтетические данные. Берут сильную модель-учителя, генерируют пары «опасный запрос → безопасный отказ», применяют Constitutional AI (самостоятельная оценка ответов). Долю синтетики держат ограниченной – обычно не больше 20-30%, иначе модель переобучается на собственные шаблоны.

▪️ Визуальные данные. Используют специальные детекторы, создают "цифровые отпечатки" изображений и видео, извлекают текст из мемов и скриншотов. разметчиков.

2️⃣ Выравнивание модели (Анастасия Рысьмятова, руководитель разработки LLM в «Авито»)

“Сырая" модель ведёт себя непредсказуемо. Alignment – это искусство научить модель "хотеть" то же, что хотим мы.

▪️ Первый этап – SFT (Supervised Fine-tuning). Модель учится на тщательно подготовленных кураторских диалогах "человек-ИИ", где показаны примеры правильного поведения.

Для масштабирования процесса также используют автоматизированную генерацию диалогов, когда одна модель играет роль пользователя, другая – ассистента. Доменные эксперты проверяют фактическую точность, специалисты по безопасности контролируют соблюдение принципов.

Мы также применяем DPO (обучение на парах плохих-хороших ответов). Используем датасет из 40 тысяч небезопасных запросов разного уровня. Для оценки создали специальные бенчмарки безопасности, в которых судьёй выступает другая модель (оценивает провокации и попытки джейлбрейка).

▪️ Второй этап — RFHL (обучение с обратной связью от человека). На основе человеческих предпочтений обучают отдельную модель-судью. Финальный этап – научить основную модель зарабатывать своими ответами высокие баллы.

Если оценка судьи высокая – внутренние настройки модели слегка подкручивают в сторону такого стиля ответов. При этом добавляют штраф за сильное отклонение от изначального поведения, чтобы модель оставалась "похожей на себя".

Альтернатива — Constitutional AI. Дать модели явный список правил и научить самостоятельно оценивать свои ответы. Процесс выглядит так: модель генерирует ответ, критикует его согласно встроенным принципам и переписывает. При конфликте принципов используют иерархию с заранее определенными приоритетами.

Главная дилемма alignment'а: как сделать модель максимально полезной, не жертвуя безопасностью? Для этого применяется контекстная модерация. Технология задаёт разные уровни строгости — от условно детского до профессионального. Ответ строится соответствующе, без совсем глупой цензуры и отказа от ответов.

@anti_agi
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍86🔥5
Media is too big
VIEW IN TELEGRAM
Ура, наконец получил видео с выступления на Conversations!

В докладе за 20 минут пояснил, почему бенчмарки лгут и как правильно оценивать LLM для бизнес-задач. Кстати, мой доклад стал лучшим по версии слушателей в техническом треке 🎉🎉🎉

В этом году Conversations снова пройдет 5 декабря в Москве. Вот что интересного для себя выделил в программе:

LLM для слов, MCP для цифр: как можно оптимизировать экономику проектов с помощью MCP-серверов — Иван Четвериков, Raft

AI-агенты ловят хакера: от экспертизы до моделей — Андрей Кузнецов, Positive Technologies

Я планирую пойти, кто тоже? Полную программу можно посмотреть на сайте. А еще организаторы дали промкод на скидку 10%: CVS25mDmR
1🔥139👍5
Роман с данными
Ура, наконец получил видео с выступления на Conversations! В докладе за 20 минут пояснил, почему бенчмарки лгут и как правильно оценивать LLM для бизнес-задач. Кстати, мой доклад стал лучшим по версии слушателей в техническом треке 🎉🎉🎉 В этом году Conversations…
Но это прошлогодний доклад 🥲
За год ландшафт бенчмарков заметно изменился!

Если хотите узнать, как и на каких бенчах замеряются сейчас новые LLM модели — заходите во вторник в 11 на наш вебинар!

Расскажу про GPQA-Diamond, 𝜏-Bench, OSWorld и другие популярные бенчмарки. Регистрация тут.
25👍2🔥2
Поделюсь обновлениями проекта VseLLM!

Кроме того, что это удобное единое окно API-доступа к различным передовым моделям (с ценами ниже Openrouter), теперь еще и наши юзеры получают бесплатный доступ к настроенному и готовому n8n-серверу. Достаточно иметь просто ключ с положительным балансом и запросить приглашение прямо в боте.

С нашей платформой и n8n можно быстро собирать собственные AI-пайплайны на стабильной платформе с высокой отказоустойчивостью.

Если вы работаете с LLM или автоматизацией — ошибкой будет не попробовать самому тут — https://t.me/vsellm_bot.
3🔥139👍7👎6💩4🤣2
Media is too big
VIEW IN TELEGRAM
Лучшее, что я видел на этой неделе.
Как перестать напевать эту песенку?😂😂😂
1🤣14🔥4😁4💯1
Forwarded from LLM Arena
🔫 GenCode Mini Gallery Bench

LLM Arena совместно с Сергеем Курбановым (руководитель направления RnD в компании MWS) рады представить новый бенчмарк.

📈 LLM стремительно эволюционируют и выходят на уровень AGENT-поведения, где модели решают задачи от анализа данных до полноценной разработки. На этом фоне особенно интересно посмотреть на то, как модели в режиме реального времени справляются даже с такими, на первый взгляд, простыми задачами вёрстки.

GenCode Mini Bench не содержит выводов — только чистый эксперимент и результат работы моделей.

Да, это не совсем привычный бенчмарк, но надеемся, что вам понравится его формат. Кроме того, там подключена форма обратной связи, где вы можете прислать собственные промпты, а мы каждые 2 недели будем обновлять его содержимое.

Генерации обновляются каждые 6 часов, поэтому заглядываете периодически, чтобы посмотреть на результаты различных моделей.

❗️ Модели, используемые для генераций доступны по API на VSELLM

Вкладка с бенчмарком доступна на https://llmarena.ru/ или напрямую по ссылке https://clocks.llmarena.ru/.

📸 Ждем вашего мнения и обратной связи.
Please open Telegram to view this post
VIEW IN TELEGRAM
15🔥4👍2🙏1
Один график из отчёта The State of AI in 2025 — и сразу понятно, где AI-агенты реально прижились.

McKinsey разложили по полочкам: кто именно (по профессиям) и в каких индустриях их использует.
2👍8🔥52🙏1
Ключевые выводы McKinsey из отчета The State of AI in 2025 о применении AI агентов
1. Большинство организаций всё ещё находятся на стадии экспериментов или пилотных проектов: две трети респондентов говорят, что их организации пока не начали масштабировать ИИ на уровне всей компании.
2. Высокий интерес к ИИ-агентам: 62% участников опроса отмечают, что их организации как минимум экспериментируют с ИИ-агентами.
3. Позитивные ранние сигналы влияния ИИ: Респонденты сообщают о выгодах по отдельным сценариям применения — снижении затрат и росте выручки — и 64% говорят, что ИИ помогает инновациям.
4. Лидеры используют ИИ для роста, инноваций и снижения затрат: 80% респондентов говорят, что их компании ставят повышение эффективности целью ИИ-инициатив.
5. Перепроектирование рабочих процессов — ключевой фактор успеха: половина наиболее успешных компаний в ИИ намерена использовать ИИ для трансформации бизнеса, и большинство из них пересматривают рабочие процессы.

Цифры крутые! Но потом читаю юмористические посты
Вити Тарнавского https://t.me/singularityfm/375
Леши Хахунова https://t.me/aihappens/392

И складывается картинка как их внедряют😀😀😀
2👍6😁52🔥1
Жесть, зарубежная LMArena привлекла второй раунд в $150M под оценку $1.7B.

Как думаете, под какую оценку мы в России можем в свою llmarena.ru привлечь инвестиции?

Перевод поста LMArena в Х:
Сегодня мы с радостью объявляем о привлечении 150 миллионов долларов в рамках раунда финансирования серии А при оценке компании в 1,7 миллиарда долларов — почти в 3 раза больше, чем в майском посевном раунде. С момента начала оценки в сентябре наш годовой объем потребления превысил 30 миллионов долларов.

Наша миссия ясна: измерять и продвигать границы применения ИИ в реальном мире, обеспечивая разработчикам, исследователям, предприятиям и обычным пользователям возможность понимать, как ИИ ведет себя там, где это наиболее важно.

Раунд возглавили @Felicis и UC Investments (@UofCalifornia), при участии @a16z, @TheHouseFund, LDVP, @kleinerperkins, @lightspeedvp и @LaudeVentures. Это достижение отражает растущий консенсус в отрасли: ИИ не может масштабироваться ответственно без независимой, прозрачной и непрерывной оценки.

За последний год LMArena стала самой надежной в мире платформой для сообщества, позволяющей понять, как модели ИИ работают в реальных условиях. Поскольку ИИ охватывает миллиарды людей по всему миру, потребность в измерениях, основанных на реальном опыте, а не только на эталонных показателях, никогда не была столь актуальной.

Сегодня мы обслуживаем более 5 миллионов пользователей в месяц в 150 странах. Вместе наше сообщество ежемесячно генерирует более 60 миллионов диалогов, оценивая возможности и надежность моделей в текстовом, программном, графическом, видеоформате и поиске. Мы будем двигаться еще быстрее, чтобы создавать новые функции и улучшать пользовательский опыт, позволяя сообществу оценивать передовые достижения в области искусственного интеллекта.

Этот беспрецедентный уровень вовлеченности свидетельствует о фундаментальном сдвиге в ожиданиях: сегодня мир требует от ИИ измеримых, сопоставимых и подотчетных результатов.

Новое финансирование позволит нам значительно расширить масштабы наших инженерных разработок, исследований, работы платформы и инициатив, направленных на развитие сообщества, чтобы удовлетворить растущий глобальный спрос. При поддержке нашей команды, партнеров и глобального сообщества мы продолжим переосмысливать методы оценки и развития искусственного интеллекта — на пути к созданию самой надежной в мире платформы для оценки.
1😱8🤔2🎉2🤯1🤣1