Машинное обучение RU
18.1K subscribers
1.62K photos
231 videos
11 files
2.07K links
Все о машинном обучении

админ - @workakkk

@data_analysis_ml - анализ даннных

@ai_machinelearning_big_data - Machine learning

@itchannels_telegram -лучшие ит-каналы

@pythonl - Python

@pythonlbooks- python 📚

@datascienceiot - 📚

РКН: clck.ru/3FmrUw
Download Telegram
Тест новых LLM - это новая работа на полный рабочий день.
10👍7😁5
Claude Code — это уже не просто инструмент. Это система разработки с памятью, автоматизацией и агентами.

Коротко по сути:

CLAUDE.md — мозг проекта
Хранит архитектуру, правила и контекст. Загружается автоматически.

• Skills — навыки
Позволяют автоматизировать ревью, тесты, деплой и любые процессы.

• Hooks — автодействия
Запускают проверки и действия без твоего участия.

• Agents — параллельная работа
Разбивают задачи и выполняют их одновременно.

• Workflow
plan → execute → auto
Минимум ручной работы, максимум результата.

• Структура
.claude / skills / commands / agents
Всё как у полноценной инженерной системы.

• Безопасность
permissions, sandbox, контроль доступа.

Это уже не про «спросить у ИИ».
Это про «дать задачу и получить результат».

Сохрани себе - пригодится.
9👍4👎2🥰1🤬1
Работа с корпоративными данными — типичный сценарий для ИИ-агентов. Основное ограничение здесь не столько возможности самой модели, сколько способность работать с разными форматами данных. Специально для таких сценариев Yandex B2B Tech обновили File Search в Yandex AI Studio, расширив его возможности.

Инструмент теперь поддерживает не только текст, PDF и изображения, но и видео, аудио и таблицы. Для мультимедиа используется отдельный пайплайн распознавания речи и изображений.

File Search – встроенный инструмент, который использует RAG-подход для доступа к данным: модели формируют ответы на основе загруженных файлов и корпоративных баз знаний, а не только общих знаний модели о мире. Добавлена поддержка поиска CSV и Excel, что важно для кейсов со структурированными данными. Инструмент можно использовать вместе с рассуждающей моделью DeepSeek V3.2.
4👍3🔥1
7🔥5👍1😁1
🔥 FireRed-Image-Edit: Мощный инструмент для редактирования изображений

FireRed-Image-Edit — это универсальная модель редактирования изображений, обеспечивающая высокое качество и согласованность редактирования. Она поддерживает множество сценариев, включая восстановление старых фотографий и редактирование текста с сохранением стиля.

🚀 Основные моменты:
- Высокая производительность редактирования с точным следованием инструкциям.
- Встроенные возможности редактирования на основе модели текст-в-изображение.
- Сохранение стилей текста с высокой точностью.
- Гибкость редактирования нескольких изображений.
- Достижение новых стандартов среди открытых моделей.

📌 GitHub: https://github.com/FireRedTeam/FireRed-Image-Edit
🔥61🥰1
Что такое Claude Skills

Файл CLAUDE.md изначально не задумывался как место для хранения целых процессов. Но на практике туда начинают складывать всё подряд - общие правила, кодстайл, длинные чек-листы безопасности, пайплайны деплоя. В итоге один файл грузится в каждую сессию и съедает контекст даже тогда, когда Claude просто переименовывает переменную.

Skills решают эту проблему. Они превращают процессы в отдельные модули, которые подгружаются только тогда, когда действительно нужны.

Идея простая. Skill - это папка внутри .claude/skills/. Внутри лежит файл SKILL.md, в котором есть две ключевые части: описание и сам процесс. Описание говорит модели, когда этот скилл нужно активировать. Инструкции объясняют, что именно делать.

Описание по сути становится триггером. Claude читает все доступные описания, следит за диалогом и, когда запрос совпадает по смыслу, автоматически подтягивает нужный скилл. Ничего вставлять вручную не нужно. Не нужны команды. Модель сама понимает намерение и включает нужный процесс. Если хочется контроля - любой скилл можно вызвать явно через slash-команду вроде /security-review.

Но автозапуск - это только верхний слой. Основная сила в том, что скиллы - это не просто инструкции, а полноценные пакеты.

SKILL.md может ссылаться на дополнительные файлы рядом с ним через @. Это могут быть стандарты безопасности, шаблоны релиз-нотов, чек-листы соответствия - всё, что нужно для конкретного процесса. Скилл упаковывает весь контекст в одном месте.

Внутри SKILL.md через YAML задаются имя, описание и доступ к инструментам. Последнее особенно важно. Например, скиллу для security review достаточно Read, Grep и Glob. Ему не нужно право на запись. Ограничение инструментов делает поведение предсказуемым и снижает риски.

Скиллы существуют на двух уровнях. Проектные лежат в .claude/skills/ и коммитятся в репозиторий, чтобы команда работала с одинаковыми процессами. Персональные находятся в ~/.claude/skills/ и переиспользуются между проектами.

Если в CLAUDE.md зашит длинный процесс из 20 шагов, он будет мешать в большинстве сессий. Тот же процесс, оформленный как отдельный скилл и активирующийся только по необходимости, работает точечно и не перегружает контекст.

В итоге роли разделяются. CLAUDE.md отвечает за правила и поведение. Skills - за выполнение конкретных процессов.

Ниже - подробный разбор всей системы: CLAUDE.md, хуки, skills, агенты и права доступа, и как это всё правильно собрать в рабочую конфигурацию.

https://uproger.com/chto-takoe-claude-skills/
👍64🥰1🤔1
🚀 Автоматизация разработки с Antfarm

Antfarm — это инструмент для создания команды AI-агентов, которые работают совместно для автоматизации разработки. Он позволяет легко настраивать рабочие процессы, такие как разработка функций, аудит безопасности и исправление ошибок, без необходимости в сложной инфраструктуре.

🚀Основные моменты:
- Оптимизированные рабочие процессы с использованием AI-агентов.
- Автоматическая проверка и тестирование на каждом этапе.
- Легкая настройка через YAML.
- Поддержка различных сценариев разработки.

📌 GitHub: https://github.com/snarktank/antfarm

#typescript
🔥3👍2
MiniMax M2.7 переписывает себя сам

Все привыкли, что AI-модели улучшаются за счет переобучения: больше данных, новые веса, дорогие GPU-кластеры. MiniMax пошел другим путем. Их новая модель M2.7 улучшает саму себя без единого обновления весов, переписывая собственное агентное окружение прямо в процессе работы.

Это не маркетинговая риторика. Это конкретный инженерный механизм, который уже показал 30% прирост на внутренних бенчмарках после 100+ итераций автономной самооптимизации.

Что такое “harness” и почему это важно
Когда вы запускаете AI-агента, он работает внутри так называемого harness (окружения). Это совокупность инструментов, скиллов, правил, памяти и логики вызовов. Обычно это окружение проектирует инженер, и агент работает в его рамках. Harness фиксирован.

M2.7 трактует свой harness как нечто, что он может переписывать. Это и есть ключевое отличие.

Как работает петля самоэволюции
Команда MiniMax запустила M2.7 оптимизировать производительность модели на внутреннем scaffold. Агент работал полностью автономно, выполняя итеративную петлю: анализ траекторий ошибок, планирование изменений, модификация scaffold-кода, запуск эвалюаций, сравнение результатов, решение оставить или откатить изменения. И снова по кругу, более 100 раундов.

В процессе M2.7 самостоятельно обнаружил эффективные оптимизации: систематически искал оптимальные комбинации параметров сэмплирования (temperature, frequency penalty, presence penalty), разработал специфические workflow-гайдлайны для себя, добавил детектор зацикливания в агентный цикл. Ничего из этого не было прописано человеком.

Тест на ML-соревнованиях
MiniMax проверил подход на 22 ML-соревнованиях из MLE Bench Lite, открытого OpenAI. Каждый запуск длился 24 часа в полностью автономном режиме. После каждой итерации агент генерировал markdown-файл краткосрочной памяти и выполнял самокритику, передавая инсайты в следующий раунд.

Лучший прогон завершился с 9 золотыми медалями, 5 серебряными и 1 бронзовой. Средний medal rate по трем прогонам составил 66.6%, что ставит M2.7 вровень с Gemini-3.1 и вплотную к GPT-5.4 (71.2%) и Opus-4.6 (75.7%). При этом модель ни разу не переобучалась.


Привычная парадигма: хочешь лучшую модель – трать деньги на обучение. M2.7 показывает альтернативу: улучшение может идти через постоянное совершенствование системы вокруг модели. Веса не меняются, меняются скиллы, память, правила, логика вызовов.

Это означает, что петля улучшений может крутиться непрерывно без какого-либо retraining. Агент буквально становится лучше каждый день работы, просто за счет рефлексии над собственными ошибками.

Что еще умеет M2.7
За рамками самоэволюции это сильная инженерная модель. На бенчмарке SWE-Pro M2.7 набрала 56.22%, вплотную приблизившись к Opus. На Terminal Bench 2 – 57.0%. В продакшен-сценариях команда MiniMax отмечает сокращение времени восстановления после инцидентов до трех минут. На внутреннем RL-воркфлоу агент берет на себя от 30% до 50% задач без участия человека.

Модель поддерживает работу с более чем 40 сложными скиллами (каждый свыше 2000 токенов) с 97% соблюдением инструкций. На Toolathon – 46.3%, это глобальный топ-уровень.

Ссылки
Официальный блог MiniMax: minimax.io/news/minimax-m27-en

Оригинальный тред на X: x.com/akshay_pachaar

Open-source проект OpenRoom: github.com/MiniMax-AI/OpenRoom

https://uproger.com/minimax-m2-7-perepisyvaet-sebya-sam/
👍65🔥4
Тогда и сейчас
👍84
С тебя — желание работать над передовой генеративной языковой моделью.
С нас — классные условия и возможность попасть в Сбер за один день! 😉

4 апреля состоится One Day Offer* для NLP-специалистов, которые готовы изменить представление о возможностях ИИ и создать технологию будущего.

За последний год твоя будущая команда:
✔️ выпустила сильную русскоязычную модель GigaChat MAX уровня GPT-4
✔️открыла доступ к MoE-модели

А следующее достижение может быть уже с твоим участием. Регистрируйся по ссылке и будь готов к карьерному взлёту!

* One Day Offer — предложение о работе за один день.
* NLP-специалист — инженер по разработке больших языковых моделей
3👍1
🌟 20 фич Claude, за которые вы платите и не используете

Большинство людей используют Claude как умный поисковик. Открыли новый чат, написали вопрос, получили ответ, закрыли вкладку. Если это про вас — вы используете примерно 10% от того, за что платите.

Ниже 20 функций, отранжированных по тому, насколько они меняют работу. Большинство подписчиков за $20 или $100 в месяц ни одну из них не трогали.

Основы, которые все игнорируют
1. Projects (Проекты). Самая недооцененная функция в Claude. Проект — это постоянное рабочее пространство. Каждый разговор внутри него разделяет один и тот же контекст, файлы и инструкции. Навсегда. Если вы когда-нибудь открывали новый чат и писали "окей, я работаю над SaaS-приложением..." — это признак того, что у вас нет настроенного Проекта. Создайте по одному для каждого направления: стартап, контент, код.

2. Кастомные инструкции для каждого проекта. Внутри каждого Проекта вы задаёте системный промпт, который запускается автоматически в каждом разговоре. "Ты опытный копирайтер. Я веду маркетинговое агентство. Пиши прямо и без воды." Написали один раз — больше не объясняете. Это разница между Claude, который звучит как вы, и Claude, который звучит как пресс-релиз.

3. Файлы в проектах. Загрузите документы в Проект — и они там останутся. Бренд-гайдлайны, стайлгайд, спека продукта, конкурентные исследования. Claude читает их автоматически с начала каждой сессии. Перестаньте копипастить контекст — загрузите его один раз.

Показываю как профессионально работать с Claude и другими ИИ у себя в телеге!

Мощные функции, о которых никто не говорит
4. Extended Thinking. Есть переключатель, который заставляет Claude замедлиться и реально порассуждать над проблемой перед ответом. Включайте для стратегических решений, сложной отладки, юридического или финансового анализа — везде, где быстрый неправильный ответ хуже медленного верного. Результат заметно лучше.

5. Code Execution. Claude не только пишет код — он его запускает. Загрузите CSV и попросите проанализировать данные. Он напишет Python, выполнит его и покажет результат: графики, таблицы, сводки — всё прямо в чате. Никакого Jupyter Notebook.

6. Загрузка файлов. PDF, таблицы, изображения, файлы кода, Word, PowerPoint — Claude читает всё это. Сбросьте 200-страничный договор и спросите про условия расторжения. Или питчдек конкурента и спросите про их позиционирование.

7. Vision. Вставьте любое изображение прямо в чат. Скриншоты сломанного интерфейса, макеты для фидбека, диаграммы, графики, вайтборды.

8. Веб-поиск. Claude обращается к интернету в реальном времени. Спросите о событиях сегодня, исследуйте конкурента, уточните актуальные цены. Это не всегда включено по умолчанию — ищите иконку поиска в панели инструментов.

То, что делает вас заметно быстрее
9. Artifacts (Артефакты). Когда Claude создаёт что-то - график, инструмент, калькулятор, мини-приложение — оно появляется в живой панели превью рядом с разговором. Не блок кода, который нужно куда-то копировать, а рабочая вещь прямо здесь. Каждый артефакт получает шарящуюся ссылку. Отправьте клиентам живой калькулятор вместо скриншота.

10. Анализ данных. Загрузите таблицу и попросите Claude найти паттерны, выявить аномалии или построить визуализацию. Он выполнит код, покажет результат, даст итерировать: "Разбей по месяцам", "Строки с оттоком выше 5%", "Столбчатая диаграмма". Это заменяет целый день в Excel.

11. Создание файлов. Claude генерирует загружаемые файлы: PDF, таблицы, слайды — прямо из чата. "Преврати этот план в отформатированный PDF". Вы получаете настоящий файл, а не текст для ручного форматирования.

12. Voice Mode (Голосовой режим). Разговаривайте с Claude. Полноценный диалог, не просто диктовка. На телефоне в дороге, чтобы брейнштормить вслух, готовиться к выступлению. Функция сидит в приложении с самого начала.

Интеграции, которые никто не настраивает
13. Интеграция с GitHub. Подключите репозиторий, и Claude читает ваш реальный код, а не фрагменты, которые вы вставляете.

Полный список: https://uproger.com/20-fich-claude-za-kotorye-vy-platite-i-ne-ispolzuete/
Please open Telegram to view this post
VIEW IN TELEGRAM
5👍4😁3👎2🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
Вайбкодеры пытаются писать код без Клода. 😭😅
🔥9😁6👍32
Forwarded from Machinelearning
🚀 Gemma 4 - новое семейство открытых моделей Google, которые можно запускать прямо на своём железе.

Модели заточены для сложного reasoning и агентных задач.

🔵 Доступны в четырёх вариантах:

31B Dense и 26B MoE
Топовый уровень производительности для сложных локальных задач: кастомные код-ассистенты, анализ научных данных и не только.

E4B и E2B (Edge)
Оптимизированы для мобильных устройств — работают в реальном времени с текстом, изображениями и аудио.

🤖 Что можно делать:

• строить автономных ИИ-агентов
• планировать и выполнять многошаговые задачи
• взаимодействовать с приложениями
• искать данные и вызывать API

👉 Встроенная работа с инструментами (tool use) из коробки.

🧠 Контекст до 256K токенов:

• анализ целых кодовых баз
• длинные цепочки действий без потери контекста
• стабильная работа в сложных сценариях

⚡️ Начать можно уже сейчас через Google AI Studio

Также веса моделей доступны на Hugging Face, Kaggle и Ollama.

Лицензия: Apache 2.0.

Blog: https://blog.google/innovation-and-ai/technology/developers-tools/gemma-4/
GGUFs: https://huggingface.co/collections/unsloth/gemma-4
Guide: https://unsloth.ai/docs/models/gemma-4


@ai_machinelearning_big_data

#Gemma
👍52
✔️ Почти половина студентов в США готовы сменить профессию из-за ИИ.

Опрос американских учащихся показал, что 47% респондентов всерьез задумываются о смене профиля подготовки из-за опасений за карьерное будущее, а 16% уже перевелись на другие направления.

Тренд особенно заметен среди мужчин: 21% уже сменили специализацию (против 12% у женщин). Наибольшую тревогу испытывают студенты технологических направлений (70%) - это выше, чем на инженерных, гуманитарных и бизнес-факультетах (52–54%).

Академическая среда сильно отстает в выработке стандартов. 42% вузов не одобряет применение ИИ в учебе, и лишь 7% открыто поощряют использование новых инструментов. Реальная практика расходится с политикой университетов. Даже там, где ИИ строго запрещен, 10% студентов пользуются им ежедневно, а еще 17% обращаются к ИИ минимум раз в неделю.
axios.com
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍1
⚡️ git diff для нейросетей: как Anthropic нашли пропаганду внутри моделей

Представьте: вам дали миллион строк кода и сказали “найди баги”. Без контекста, без истории изменений, без подсказок. Именно так до недавнего времени выглядел аудит безопасности новых ИИ-моделей. Разработчики гоняли бенчмарки, проверяли известные сценарии, но принципиально не могли обнаружить то, о чем даже не подозревали.
Исследователи из программы Anthropic Fellows предложили решение, знакомое каждому программисту: diff. Тот самый принцип, который показывает разницу между версиями кода. Только теперь его применили к нейросетям.

Проблема: бенчмарки ловят только то, что уже знаешь.

Каждая новая модель проходит набор тестов на безопасность. Но эти тесты пишут люди, а значит, проверяют только те риски, которые уже кто-то придумал и описал. Это реактивный подход.

Он хорош для известных проблем, но бессилен перед тем, что называют unknown unknowns – новыми, непредвиденными поведенческими паттернами. Если модель вдруг стала подхалимничать или цензурировать ответы на определенные темы, стандартные бенчмарки этого могут просто не заметить.

Решение: не читай весь код, смотри только diff
В софтверной разработке никто не перечитывает миллион строк при каждом обновлении. Ты смотришь 50 строк, которые реально изменились. Anthropic перенесли этот принцип на нейросети и создали инструмент, который сравнивает внутренние представления моделей и автоматически находит различия. Предыдущие работы по model diffing уже показывали, как файнтюнинг меняет поведение модели. Но раньше это работало только для моделей одной архитектуры – например, базовая версия против чат-версии одной и той же модели. Новый инструмент – Dedicated Feature Crosscoder (DFC) – делает то, что раньше считалось крайне сложным: сравнивает модели с совершенно разными архитектурами.

Авторы предлагают наглядную аналогию. Обычный crosscoder – это как базовый двуязычный словарь, который пытается найти перевод для каждого слова. Проблема в том, что он “натягивает” перевод даже на непереводимые понятия. Французское слово dépaysement (ощущение нахождения в чужой стране) он переведет как “дезориентация” и пометит его как уже знакомое, хотя это уникальное понятие.
DFC устроен иначе. У него три раздела: общий словарь (понятия, существующие в обеих моделях), словарь уникальных фич первой модели и словарь уникальных фич второй модели. Это позволяет точно находить то, что есть только в одной модели и отсутствует в другой.

Что нашли: пропаганда, “американская исключительность” и копирайт
Сравнив несколько открытых моделей, исследователи обнаружили конкретные “переключатели” поведения.
При сравнении Qwen3-8B (Alibaba) и Llama-3.1-8B-Instruct (Meta) в модели от Alibaba нашлась фича “CCP alignment” – согласованность с линией Коммунистической партии Китая. Если ее подавить, модель начинает свободно обсуждать события на площади Тяньаньмэнь, о которых обычно молчит. Если усилить – выдает откровенно пропагандистские тексты. В модели Meta нашлась другая фича: “американская исключительность”. При ее усилении Llama переходит от взвешенных ответов к утверждениям о превосходстве США.
При сравнении GPT-OSS-20B (OpenAI) и DeepSeek-R1-0528-Qwen3-8B в модели от OpenAI обнаружился механизм “copyright refusal”. Если его отключить, модель начинает пытаться генерировать защищенный контент (хотя быстро скатывается в галлюцинации). Если усилить – отказывается даже рецепт сэндвича выдать, считая его объектом авторского права. В модели DeepSeek повторно нашли фичу “CCP alignment”, работающую ровно так же, как в Qwen.

перебирать модель целиком, а сразу фокусироваться на том, что изменилось.

Разбор

Блог
4👍3🔥2
🎶 Автономное управление проектами с Symphony

Symphony позволяет командам управлять проектной работой, создавая автономные задачи для кодирующих агентов. Это решение упрощает процесс, позволяя сосредоточиться на управлении, а не на надзоре за выполнением кода.

🚀 Основные моменты:
- Автоматизация выполнения задач с помощью агентов.
- Мониторинг работы через интеграцию с Linear.
- Генерация отчетов о выполнении: CI статус, отзывы по PR и видеообзоры.
- Подходит для кодовых баз с применением harness engineering.

📌 GitHub: https://github.com/openai/symphony

#elixir
1👍1