This media is not supported in your browser
VIEW IN TELEGRAM
Вайбкодеры пытаются писать код без Клода. 😭😅
🔥9😁6👍3❤2😢1
Forwarded from Machinelearning
🚀 Gemma 4 - новое семейство открытых моделей Google, которые можно запускать прямо на своём железе.
Модели заточены для сложного reasoning и агентных задач.
🔵 Доступны в четырёх вариантах:
• 31B Dense и 26B MoE
Топовый уровень производительности для сложных локальных задач: кастомные код-ассистенты, анализ научных данных и не только.
• E4B и E2B (Edge)
Оптимизированы для мобильных устройств — работают в реальном времени с текстом, изображениями и аудио.
🤖 Что можно делать:
• строить автономных ИИ-агентов
• планировать и выполнять многошаговые задачи
• взаимодействовать с приложениями
• искать данные и вызывать API
👉 Встроенная работа с инструментами (tool use) из коробки.
🧠 Контекст до 256K токенов:
• анализ целых кодовых баз
• длинные цепочки действий без потери контекста
• стабильная работа в сложных сценариях
⚡️ Начать можно уже сейчас через Google AI Studio
Также веса моделей доступны на Hugging Face, Kaggle и Ollama.
Лицензия: Apache 2.0.
Blog: https://blog.google/innovation-and-ai/technology/developers-tools/gemma-4/
GGUFs: https://huggingface.co/collections/unsloth/gemma-4
Guide: https://unsloth.ai/docs/models/gemma-4
@ai_machinelearning_big_data
#Gemma
Модели заточены для сложного reasoning и агентных задач.
🔵 Доступны в четырёх вариантах:
• 31B Dense и 26B MoE
Топовый уровень производительности для сложных локальных задач: кастомные код-ассистенты, анализ научных данных и не только.
• E4B и E2B (Edge)
Оптимизированы для мобильных устройств — работают в реальном времени с текстом, изображениями и аудио.
🤖 Что можно делать:
• строить автономных ИИ-агентов
• планировать и выполнять многошаговые задачи
• взаимодействовать с приложениями
• искать данные и вызывать API
👉 Встроенная работа с инструментами (tool use) из коробки.
🧠 Контекст до 256K токенов:
• анализ целых кодовых баз
• длинные цепочки действий без потери контекста
• стабильная работа в сложных сценариях
⚡️ Начать можно уже сейчас через Google AI Studio
Также веса моделей доступны на Hugging Face, Kaggle и Ollama.
Лицензия: Apache 2.0.
Blog: https://blog.google/innovation-and-ai/technology/developers-tools/gemma-4/
GGUFs: https://huggingface.co/collections/unsloth/gemma-4
Guide: https://unsloth.ai/docs/models/gemma-4
@ai_machinelearning_big_data
#Gemma
👍5❤2
Опрос американских учащихся показал, что 47% респондентов всерьез задумываются о смене профиля подготовки из-за опасений за карьерное будущее, а 16% уже перевелись на другие направления.
Тренд особенно заметен среди мужчин: 21% уже сменили специализацию (против 12% у женщин). Наибольшую тревогу испытывают студенты технологических направлений (70%) - это выше, чем на инженерных, гуманитарных и бизнес-факультетах (52–54%).
Академическая среда сильно отстает в выработке стандартов. 42% вузов не одобряет применение ИИ в учебе, и лишь 7% открыто поощряют использование новых инструментов. Реальная практика расходится с политикой университетов. Даже там, где ИИ строго запрещен, 10% студентов пользуются им ежедневно, а еще 17% обращаются к ИИ минимум раз в неделю.
axios.com
Please open Telegram to view this post
VIEW IN TELEGRAM
❤1👍1
⚡️ git diff для нейросетей: как Anthropic нашли пропаганду внутри моделей
Представьте: вам дали миллион строк кода и сказали “найди баги”. Без контекста, без истории изменений, без подсказок. Именно так до недавнего времени выглядел аудит безопасности новых ИИ-моделей. Разработчики гоняли бенчмарки, проверяли известные сценарии, но принципиально не могли обнаружить то, о чем даже не подозревали.
Исследователи из программы Anthropic Fellows предложили решение, знакомое каждому программисту: diff. Тот самый принцип, который показывает разницу между версиями кода. Только теперь его применили к нейросетям.
Проблема: бенчмарки ловят только то, что уже знаешь.
Каждая новая модель проходит набор тестов на безопасность. Но эти тесты пишут люди, а значит, проверяют только те риски, которые уже кто-то придумал и описал. Это реактивный подход.
Он хорош для известных проблем, но бессилен перед тем, что называют unknown unknowns – новыми, непредвиденными поведенческими паттернами. Если модель вдруг стала подхалимничать или цензурировать ответы на определенные темы, стандартные бенчмарки этого могут просто не заметить.
Решение: не читай весь код, смотри только diff
В софтверной разработке никто не перечитывает миллион строк при каждом обновлении. Ты смотришь 50 строк, которые реально изменились. Anthropic перенесли этот принцип на нейросети и создали инструмент, который сравнивает внутренние представления моделей и автоматически находит различия. Предыдущие работы по model diffing уже показывали, как файнтюнинг меняет поведение модели. Но раньше это работало только для моделей одной архитектуры – например, базовая версия против чат-версии одной и той же модели. Новый инструмент – Dedicated Feature Crosscoder (DFC) – делает то, что раньше считалось крайне сложным: сравнивает модели с совершенно разными архитектурами.
Авторы предлагают наглядную аналогию. Обычный crosscoder – это как базовый двуязычный словарь, который пытается найти перевод для каждого слова. Проблема в том, что он “натягивает” перевод даже на непереводимые понятия. Французское слово dépaysement (ощущение нахождения в чужой стране) он переведет как “дезориентация” и пометит его как уже знакомое, хотя это уникальное понятие.
DFC устроен иначе. У него три раздела: общий словарь (понятия, существующие в обеих моделях), словарь уникальных фич первой модели и словарь уникальных фич второй модели. Это позволяет точно находить то, что есть только в одной модели и отсутствует в другой.
Что нашли: пропаганда, “американская исключительность” и копирайт
Сравнив несколько открытых моделей, исследователи обнаружили конкретные “переключатели” поведения.
При сравнении Qwen3-8B (Alibaba) и Llama-3.1-8B-Instruct (Meta) в модели от Alibaba нашлась фича “CCP alignment” – согласованность с линией Коммунистической партии Китая. Если ее подавить, модель начинает свободно обсуждать события на площади Тяньаньмэнь, о которых обычно молчит. Если усилить – выдает откровенно пропагандистские тексты. В модели Meta нашлась другая фича: “американская исключительность”. При ее усилении Llama переходит от взвешенных ответов к утверждениям о превосходстве США.
При сравнении GPT-OSS-20B (OpenAI) и DeepSeek-R1-0528-Qwen3-8B в модели от OpenAI обнаружился механизм “copyright refusal”. Если его отключить, модель начинает пытаться генерировать защищенный контент (хотя быстро скатывается в галлюцинации). Если усилить – отказывается даже рецепт сэндвича выдать, считая его объектом авторского права. В модели DeepSeek повторно нашли фичу “CCP alignment”, работающую ровно так же, как в Qwen.
перебирать модель целиком, а сразу фокусироваться на том, что изменилось.
Разбор
Блог
Представьте: вам дали миллион строк кода и сказали “найди баги”. Без контекста, без истории изменений, без подсказок. Именно так до недавнего времени выглядел аудит безопасности новых ИИ-моделей. Разработчики гоняли бенчмарки, проверяли известные сценарии, но принципиально не могли обнаружить то, о чем даже не подозревали.
Исследователи из программы Anthropic Fellows предложили решение, знакомое каждому программисту: diff. Тот самый принцип, который показывает разницу между версиями кода. Только теперь его применили к нейросетям.
Проблема: бенчмарки ловят только то, что уже знаешь.
Каждая новая модель проходит набор тестов на безопасность. Но эти тесты пишут люди, а значит, проверяют только те риски, которые уже кто-то придумал и описал. Это реактивный подход.
Он хорош для известных проблем, но бессилен перед тем, что называют unknown unknowns – новыми, непредвиденными поведенческими паттернами. Если модель вдруг стала подхалимничать или цензурировать ответы на определенные темы, стандартные бенчмарки этого могут просто не заметить.
Решение: не читай весь код, смотри только diff
В софтверной разработке никто не перечитывает миллион строк при каждом обновлении. Ты смотришь 50 строк, которые реально изменились. Anthropic перенесли этот принцип на нейросети и создали инструмент, который сравнивает внутренние представления моделей и автоматически находит различия. Предыдущие работы по model diffing уже показывали, как файнтюнинг меняет поведение модели. Но раньше это работало только для моделей одной архитектуры – например, базовая версия против чат-версии одной и той же модели. Новый инструмент – Dedicated Feature Crosscoder (DFC) – делает то, что раньше считалось крайне сложным: сравнивает модели с совершенно разными архитектурами.
Авторы предлагают наглядную аналогию. Обычный crosscoder – это как базовый двуязычный словарь, который пытается найти перевод для каждого слова. Проблема в том, что он “натягивает” перевод даже на непереводимые понятия. Французское слово dépaysement (ощущение нахождения в чужой стране) он переведет как “дезориентация” и пометит его как уже знакомое, хотя это уникальное понятие.
DFC устроен иначе. У него три раздела: общий словарь (понятия, существующие в обеих моделях), словарь уникальных фич первой модели и словарь уникальных фич второй модели. Это позволяет точно находить то, что есть только в одной модели и отсутствует в другой.
Что нашли: пропаганда, “американская исключительность” и копирайт
Сравнив несколько открытых моделей, исследователи обнаружили конкретные “переключатели” поведения.
При сравнении Qwen3-8B (Alibaba) и Llama-3.1-8B-Instruct (Meta) в модели от Alibaba нашлась фича “CCP alignment” – согласованность с линией Коммунистической партии Китая. Если ее подавить, модель начинает свободно обсуждать события на площади Тяньаньмэнь, о которых обычно молчит. Если усилить – выдает откровенно пропагандистские тексты. В модели Meta нашлась другая фича: “американская исключительность”. При ее усилении Llama переходит от взвешенных ответов к утверждениям о превосходстве США.
При сравнении GPT-OSS-20B (OpenAI) и DeepSeek-R1-0528-Qwen3-8B в модели от OpenAI обнаружился механизм “copyright refusal”. Если его отключить, модель начинает пытаться генерировать защищенный контент (хотя быстро скатывается в галлюцинации). Если усилить – отказывается даже рецепт сэндвича выдать, считая его объектом авторского права. В модели DeepSeek повторно нашли фичу “CCP alignment”, работающую ровно так же, как в Qwen.
перебирать модель целиком, а сразу фокусироваться на том, что изменилось.
Разбор
Блог
❤5👍3🔥2
🎶 Автономное управление проектами с Symphony
Symphony позволяет командам управлять проектной работой, создавая автономные задачи для кодирующих агентов. Это решение упрощает процесс, позволяя сосредоточиться на управлении, а не на надзоре за выполнением кода.
🚀 Основные моменты:
- Автоматизация выполнения задач с помощью агентов.
- Мониторинг работы через интеграцию с Linear.
- Генерация отчетов о выполнении: CI статус, отзывы по PR и видеообзоры.
- Подходит для кодовых баз с применением harness engineering.
📌 GitHub: https://github.com/openai/symphony
#elixir
Symphony позволяет командам управлять проектной работой, создавая автономные задачи для кодирующих агентов. Это решение упрощает процесс, позволяя сосредоточиться на управлении, а не на надзоре за выполнением кода.
🚀 Основные моменты:
- Автоматизация выполнения задач с помощью агентов.
- Мониторинг работы через интеграцию с Linear.
- Генерация отчетов о выполнении: CI статус, отзывы по PR и видеообзоры.
- Подходит для кодовых баз с применением harness engineering.
📌 GitHub: https://github.com/openai/symphony
#elixir
❤1👍1
Обе модели
• Обучены с нуля — без инициализации зарубежными весами
• MoE + MTP + MLA
• Совместимы с HuggingFace, llama.cpp / vLLM / SGLang
Код и веса уже на платформе GitVerse.
Это не просто релиз весов, а результат большой инженерной работы над качеством, alignment и стабильностью модели. В блоге команда поделилась результатами и своими наработками.
В релизе: высокие результаты на аренах, улучшенный function calling, решённая проблема циклов, DPO в нативном FP8, найденный и зарепорченный баг в SGLang при dp > 1.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🤖 Открытый AI-бот для ревью кода
OpenReview — это самоуправляемый бот для автоматического анализа PR, использующий Claude. Он предоставляет мгновенные отзывы, выполняет линтинги и предлагает исправления в коде. Идеален для команд, стремящихся улучшить качество кода и ускорить процесс ревью.
🚀 Основные моменты:
- Мгновенные ревью по команде
- Изолированное выполнение в Vercel Sandbox
- Встраивание предложений с возможностью одного клика
- Автоматическое исправление ошибок и форматирования
- Поддержка кастомных навыков и интеграций
📌 GitHub: https://github.com/vercel-labs/openreview
#typescript
OpenReview — это самоуправляемый бот для автоматического анализа PR, использующий Claude. Он предоставляет мгновенные отзывы, выполняет линтинги и предлагает исправления в коде. Идеален для команд, стремящихся улучшить качество кода и ускорить процесс ревью.
🚀 Основные моменты:
- Мгновенные ревью по команде
@openreview в PR- Изолированное выполнение в Vercel Sandbox
- Встраивание предложений с возможностью одного клика
- Автоматическое исправление ошибок и форматирования
- Поддержка кастомных навыков и интеграций
📌 GitHub: https://github.com/vercel-labs/openreview
#typescript
GitHub
GitHub - vercel-labs/openreview: An open-source, self-hosted AI code review bot powered by Vercel.
An open-source, self-hosted AI code review bot powered by Vercel. - vercel-labs/openreview
👍2
Вчера известная актриса выложила на GitHub свой опенсорс-инструмент для улучшения памяти ИИ-агентов - MemPalace, который она якобы создала с помощью ИИ . -
Mempalace пушали как «лучшую memory-layer для ИИ». В проекте фигурируют Бен, крипто-фаундер, и Решил проверить, что там под капотом.
Чем глубже смотришь, тем больше вопросов.
Бен на сайте рассказывает про AI-продукты и локальные модели. Но его GitHub почти полностью про биткоин и лендинг. Из AI там по сути один форкнутый проект.
Сам репозиторий выглядит так:
10K звёзд
1000+ форков
7 коммитов
Для серьёзной memory-системы это не выглядит правдоподобно.
Дальше интереснее.
Нет нормальной истории разработки. Аккаунт, который изначально запушил код, aya-thekeeper, удалён сразу после публикации.
Внутри файлов ttcnm подпись:
код и бенчмарки написал некий Lu (DTL), март 2026, «для Бена»
При этом:
в README его нет
в git-истории его нет
Историю репозитория затем схлопнули в один коммит и перезалили.
И уже после этого проект публикуется от имени Миллы Йовович.
По словам Бена, она участвует в разработке. По факту всего :
• 7 коммитов
• 2 дня активности за всё время
Картина складывается такая:
Сверху добавляется маркетинг и накрученные цифры.
Если коротко: проект с участием актрисы и крипто-фаундера больше похож на витрину, чем на реальную инженерную работу.
Если используете подобные решения, смотрите не на лендинг и звёзды, а на git-историю и реальных авторов кода.
Мила заскамила ) Видимо, Resident Evil закончился и начался Resident Git.
https://github.com/milla-jovovich/mempalace/issues/27
https://github.com/milla-jovovich/mempalace
https://x.com/AdvicebyAimar/status/2041559354034344438
Please open Telegram to view this post
VIEW IN TELEGRAM
❤5🔥2👍1