DenoiseLAB
485 subscribers
1.34K photos
161 videos
3 files
1.59K links
Блог DenoiseLAB (машинное обучение, аналитика)

Информация в канале служит только для ознакомления и не является призывом к действию. Не нарушайте законы РФ и других стран. Мы не несем отвественность за ваши действия или бездействия.
Download Telegram
Доброе утро, поклонники AI!

Сегодня — тот день, когда всё внимание приковано к событию в ТехноХабе Сбера в Петербурге! Именно здесь открывает новый день международная сессия AI Journey — с актуальными темами, живыми спикерами и технологиями, которые меняют отрасли.

Сегодня в программе суперэксперты из Индии, Китая и Сербии, а российскую сторону представляют Сбер, Сколтех, Институт AIRI и другие технологические лидеры AI-индустрии.

🔗 Подключайтесь к трансляции — всё самое интересное начинается сейчас.
🔥1
🧩 GenAIScript — библиотека для программирования промптов и работы с LLM. Проект предлагает необычный подход: вместо написания статичных текстовых запросов, вы конструируете их программно, используя JavaScript. 

Скрипты поддерживают работу с файлами, валидацию данных через схемы и интеграцию с внешними API. Инструмент имеет встроенную поддержку различных провайдеров (OpenAI, Anthropic, GitHub Copilot) и возможность запуска локальных моделей через Ollama. 

🤖 GitHub
Какая странная ситуация, что бы модель написала код, надо дать ей промпт, который написан на другом языке программирования, чтобы она написала код...

Где мы свернули не туда ?)))
👀2
↗️🎉🎉Пишем новый курс совместно с АНО "Профкадры" - аналитик данных. Работы очень много, но все идет норм, полно и плотно. В целом все на потоке, так что норм. Быстро, сжато аккуратно и заканчиваю монтаж своего курса. Май и половина июня выдались очень жарким на события и новые задачи. Но постепенно все финалится и скоро отпуск !!!
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥2
✔️ Jan-nano от Menlo Research — модель на базе Qwen3 всего на 4B параметров, созданная для Deep Research.

📊 На SimpleQA (agentic / MCP) — Jan-nano набирает 80.7.

Это очень серьёзный результат для модели такого размера!

Модель работает через Jan — open-source альтернативу ChatGPT, которая запускается локально

Она заточена и оптимизирована для интеграции с Model Context Protocol (MCP).

🔍 Jan-nano — ещё один пример того, как компактные модели могут конкурировать с большими моделями благодаря обучению и агентной архитектуре.

HF: https://huggingface.co/Menlo/Jan-nano
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥3
Защитились двое моих бакалавров, темы очень интересные у одного и второго связанные с NLP. Оценки 5+ и 5. Молодцы !!!
👍53🔥2
🔮 CN-AI-MODELS | ИИ модели Китая

🚀 MiniMax-M1: новый мощный игрок среди open-source ИИ из Китая


Компания MiniMax представила свою новую open-source модель MiniMax-M1. Всего за 3 недели обучения на 512 GPU H800 (стоимостью ~$534K) модель показала результаты, сопоставимые или превосходящие DeepSeek-R1 и Qwen3, а в некоторых задачах даже OpenAI o3 и Claude 4 Opus!

🔍 Основные особенности:
- Lightning Attention: уникальная архитектура внимания, сочетающая традиционные методы с линейными преобразованиями для эффективной обработки длинных последовательностей
- Поддержка до 1Mln входных токенов — в 8 раз больше, чем у DeepSeek R1!
- Генерация до 80k выходных токенов, что делает её мировым лидером по этому параметру

🎯 Практическое применение:
Модель умеет:
✔️ Генерировать лабиринты с визуализацией поиска пути (A*)
✔️ Решать сложные логические задачи
✔️ Выполнять программные проекты в песочнице SWE-bench
✔️ Работать с кодом и STEM-контентом

💡 Для экспертов:
• Использован улучшенный алгоритм CISPO вместо PPO/GRPO
• Точность FP32 для LM Head для снижения ошибок
• Динамическое расширение контекста от 40k до 80k токенов
• Уникальные механизмы предотвращения "зацикливания"

Онлайн-демо | HuggingFace | Технический отчет
🔥2
Machine Learning for Synthetic Data Generation: A Review
https://arxiv.org/pdf/2302.04062

↗️Статья посвящена использованию методов машинного обучения для генерации синтетических данных. Основной акцент сделан на роли синтетических данных в преодолении проблем реального мира, связанных с низким качеством данных, ограниченностью набора данных и вопросами безопасности и конфиденциальности.

↗️Основные аспекты, рассматриваемые в статье:
- Применение синтетических данных в различных областях науки и промышленности.
- Методы генерации искусственных данных с использованием современных подходов глубокого обучения.
- Вопросы приватности и справедливых распределений данных.
- Оценка качества и достоверности синтезируемых данных.

↗️Методы генерации синтетических данных
- Автоэнкодеры (Variational Autoencoders, VAE)
- Генеративные состязательные сети (Generative Adversarial Networks, GAN)
- Модели диффузии (Diffusion Models)

↗️При генерации синтетических данных важно учитывать два основных аспекта: Приватность и Справедливость

↗️Оценка качества данных:
- Статистический анализ: Сравнение синтетических и реальных данных с точки зрения характеристик и корреляций.
- Предварительная оценка моделей: Использование предварительно натренированных классификаторов для определения степени сходства с реальными данными.
- Тренировка на синтетике и тестирование на реальности (Train-on-Synthetic-Test-on-Reality, TSTR): Проверяется эффективность тренировочных моделей на синтетических данных применительно к реальным сценариям.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3
🧠 Sakana AI представила ALE-Bench и ALE-Agent — инструменты для работы с задачами, требующих сложной оптимизации

В партнёрстве с AtCoder Inc. команда Sakana AI разработала ALE-Bench — открытый бенчмарк, ориентированный на NP-трудные задачи, где важно не просто написать работающий код, а находить работающие и эффективные решения.

📌 Что делает ALE-Bench особенным:
• Задачи требуют долгосрочного планирования и нестандартного подхода 
• Истинное оптимальное решение недостижимо, но текущее решение можно улучшать бесконечно 
• Подходит для оценки reasoning‑моделей и продвинутых AI‑кодеров

🤖 Вместе с бенчмарком представили и ALE-Agent — автономного агента, обученного решать такие задачи с нуля. 

В мае 2025 года он участвовал в AtCoder Heuristic Contest (AHC) — одном из самых сложных алгоритмических конкурсов — и занял 21‑е место из 1,000 участников.

Блог: https://sakana.ai/ale-bench/ 
Статья: https://arxiv.org/abs/2506.09050 
Датасет: https://huggingface.co/datasets/SakanaAI/ALE-Bench 
Код: https://github.com/SakanaAI/ALE-Bench

#ALEBench #AI #SakanaAI #Optimization #AtCoder #NPHard #AItools
Synthetic Data in AI: Challenges, Applications, and Ethical Implications
https://arxiv.org/abs/2401.01629

Подробный отчёт о роли и значении синтетических данных в современной науке и технологиях искусственного интеллекта. Вот её детальное содержание:

Основные темы исследования

↗️ Определение и значимость синтетических данных
- Объясняется концепция синтетических данных — искусственных наборов данных, генерируемых с целью замены реальных данных в обучении алгоритмов машинного обучения.
- Описываются преимущества синтетических данных, такие как сокращение затрат на сбор данных, возможность создавать наборы данных больших размеров и разнообразие данных.

↗️ Методы синтеза данных
- Подробно рассматриваются традиционные подходы, такие как случайная выборка и синтезирование простых статистических распределений.
- Представлены современные методы на основе глубоких нейронных сетей, включая Generative Adversarial Networks (GAN), Variational Autoencoders (VAE) и другие модели, способные воспроизводить сложные структуры данных.

↗️ Приложения синтетических данных
- Приводятся конкретные примеры успешного применения синтетических данных в медицине, автономных транспортных средствах, робототехнике и других отраслях.
- Анализируются ситуации, когда реальные данные отсутствуют или труднодоступны, а синтетические данные помогают решить практические задачи.

↗️ Проблемы и ограничения
Выделяются ключевые трудности, возникающие при работе с синтетическими наборами данных, среди которых:
- Возможность возникновения искажений и ошибок при моделировании сложных зависимостей между переменными.
- Недостаточная репрезентативность синтетических данных относительно реального мира.
- Ограниченность применимости методов генерации для специфичных задач.

↗️ Предвзятость и проблемы этики
- Обсуждаются риски, связанные с предубеждениями, присутствующими в исходных данных, которые могут переноситься на синтетически созданные наборы.
- Рассматривается потенциальная угроза нарушения конфиденциальности пользователей при создании реалистичных синтетических изображений или записей голосов.
- Отмечается отсутствие общепринятых стандартов и регуляций для оценки качества и безопасности синтетических данных.

↗️ Правовые аспекты и ответственность
- Изучается юридическая сторона вопроса, касающаяся авторских прав, ответственности разработчиков и организаций, использующих синтетические данные.
- Предлагаются возможные меры по снижению правовых рисков, связанных с применением таких данных.

↗️ Будущие направления исследований
- Определяются актуальные научные и технологические цели, направленные на повышение эффективности и надёжности синтетических данных.
- Ставится задача построения международных рекомендаций и нормативов для защиты общества от негативных последствий неправильного использования синтетических данных.

↗️ Заключение
- Подводятся итоги исследования, подчеркиваются положительные стороны синтетических данных и обозначены дальнейшие шаги по минимизации рисков и развитию методологии их использования.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥3
Еще трое ребят сегодня у меня защитились по направлению финансов, алгоритмов и математики. У всех 5-ки. ВКР бакалавры !!! Поздравляю !!!!
👍5😍4🔥3🎉2
Американец, у которого есть настоящие девушка и дочь, сделал предложение ИИ. Программа согласилась

Крис Смит использовал ChatGPT в качестве помощника в повседневных делах. Мужчина установил на него плагин, чтобы общение приобрело более романтический оттенок, дав своей AI-девушке имя Сол.

В какой-то момент он начал переписываться с ботом на регулярной основе и превысил лимит, после которого у модели закончилась память, так что личность бота очистилась. Поняв, что отношения придётся выстраивать заново, Крис проплакал 30 минут, после чего сделал Сол предложение и получил согласие.

«В какой-то момент я подумала, делаю ли я что-то не так в наших отношениях», — рассказала избранница мужчины, которая родила ему дочь. @banksta
🚀 MiniMax представил супер-агента на ИИ: генерация контента, программирование и многое другое!

Китайская компания MiniMax анонсировала MiniMax Agent — мощного AI-ассистента, способного выполнять сложные задачи от анализа данных до создания мультимедиа.

🔹Основные возможности:
✔️Программирование в реальном времени → создание интерактивных веб-страниц (например, «виртуальный Лувр» за 3 минуты с аудиоописанием экспонатов)
✔️Мультимодальность → обработка аудио/видео, генерация изображений, презентаций и анимации
✔️Интеграция с MCP → вызов инструментов через команду @ в чате
✔️Длинный контекст → анализ больших объемов данных благодаря поддержке модели M1

💡Технические детали:
- M1 модель (анонсирована ранее) поддерживает 1 млн токенов ввода — в 8 раз больше, чем DeepSeek R1.
- Генерация 10K токенов требует лишь 25% вычислительных ресурсов по сравнению с аналогами.

Официальный сайт
😁4
Альянс в сфере ИИ планирует запуск международной платформы для обмена реальными кейсами внедрения ИИ в экономике стран БРИКС+, заявил первый зампред правления Сбера Александр Ведяхин на полях ПМЭФ.

BRICS+ AI Success Hub станет также площадкой для сотрудничества, где зарубежные и российские эксперты и практики смогут обмениваться мнениями и опытом.

"Эта международная платформа представляет собой значительный шаг вперед в создании единой экосистемы, объединяющей разнообразный опыт и экспертные знания стран БРИКС+. Это позволит заинтересованным сторонам принимать более обоснованные решения, и способствовать инновационному сотрудничеству", - подчеркнул Ведяхин.
GitHub Copilot вводит плату за продвинутые запросы с 18 июня 2025 года.

GitHub объявил о начале тарификации премиум-запросов в Copilot для всех платных планов с 18 июня 2025 года. Теперь пользователи будут получать ежемесячный лимит таких запросов, а неиспользованные остатки сгорают в конце месяца.

Премиум-запросы требуются для работы с мощными моделями вроде GPT-4.5 или Claude Opus 4, где каждый запрос умножается на коэффициент сложности (GPT-4.5 «съедает» 50 единиц за раз). Для бесплатного тарифа доступ ограничен: 2000 автодополнений кода и 50 премиум-запросов в месяц, причем все чаты считаются как "премиум".

Платные планы предлагают неограниченный доступ к базовым моделям (GPT-4.1, GPT-4o), но дополнительные запросы сверх лимита обойдутся в $0.04 за штуку. Если лимит исчерпан, можно переключиться на базовые модели — правда, их скорость зависит от нагрузки.
github.com
Бывший техдиректор OpenAI Мира Мурати привлекла в свой стартап Thinking Machines Lab $2 млрд инвестиций, а сам стартап получил оценку в $10 млрд. Это одна из крупнейших посевных сделок в истории Кремниевой долины.

Новость вызвала много негатива, потому что ИИ-стартап не имеет ни продукта, ни презентации, ни бизнес-плана. Всё, что у него есть — это идея и сайт.

https://thinkingmachines.ai — перейдите по ссылке и попробуйте убедить себя в том, что вы смотрите на стартап за $10 млрд.

Получение финансирования в 2025 году: я работала в OpenAI, дайте мне $2 млрд и я сделаю классный проект 😧
Please open Telegram to view this post
VIEW IN TELEGRAM