DenoiseLAB
485 subscribers
1.34K photos
161 videos
3 files
1.59K links
Блог DenoiseLAB (машинное обучение, аналитика)

Информация в канале служит только для ознакомления и не является призывом к действию. Не нарушайте законы РФ и других стран. Мы не несем отвественность за ваши действия или бездействия.
Download Telegram
Защитились двое моих бакалавров, темы очень интересные у одного и второго связанные с NLP. Оценки 5+ и 5. Молодцы !!!
👍53🔥2
🔮 CN-AI-MODELS | ИИ модели Китая

🚀 MiniMax-M1: новый мощный игрок среди open-source ИИ из Китая


Компания MiniMax представила свою новую open-source модель MiniMax-M1. Всего за 3 недели обучения на 512 GPU H800 (стоимостью ~$534K) модель показала результаты, сопоставимые или превосходящие DeepSeek-R1 и Qwen3, а в некоторых задачах даже OpenAI o3 и Claude 4 Opus!

🔍 Основные особенности:
- Lightning Attention: уникальная архитектура внимания, сочетающая традиционные методы с линейными преобразованиями для эффективной обработки длинных последовательностей
- Поддержка до 1Mln входных токенов — в 8 раз больше, чем у DeepSeek R1!
- Генерация до 80k выходных токенов, что делает её мировым лидером по этому параметру

🎯 Практическое применение:
Модель умеет:
✔️ Генерировать лабиринты с визуализацией поиска пути (A*)
✔️ Решать сложные логические задачи
✔️ Выполнять программные проекты в песочнице SWE-bench
✔️ Работать с кодом и STEM-контентом

💡 Для экспертов:
• Использован улучшенный алгоритм CISPO вместо PPO/GRPO
• Точность FP32 для LM Head для снижения ошибок
• Динамическое расширение контекста от 40k до 80k токенов
• Уникальные механизмы предотвращения "зацикливания"

Онлайн-демо | HuggingFace | Технический отчет
🔥2
Machine Learning for Synthetic Data Generation: A Review
https://arxiv.org/pdf/2302.04062

↗️Статья посвящена использованию методов машинного обучения для генерации синтетических данных. Основной акцент сделан на роли синтетических данных в преодолении проблем реального мира, связанных с низким качеством данных, ограниченностью набора данных и вопросами безопасности и конфиденциальности.

↗️Основные аспекты, рассматриваемые в статье:
- Применение синтетических данных в различных областях науки и промышленности.
- Методы генерации искусственных данных с использованием современных подходов глубокого обучения.
- Вопросы приватности и справедливых распределений данных.
- Оценка качества и достоверности синтезируемых данных.

↗️Методы генерации синтетических данных
- Автоэнкодеры (Variational Autoencoders, VAE)
- Генеративные состязательные сети (Generative Adversarial Networks, GAN)
- Модели диффузии (Diffusion Models)

↗️При генерации синтетических данных важно учитывать два основных аспекта: Приватность и Справедливость

↗️Оценка качества данных:
- Статистический анализ: Сравнение синтетических и реальных данных с точки зрения характеристик и корреляций.
- Предварительная оценка моделей: Использование предварительно натренированных классификаторов для определения степени сходства с реальными данными.
- Тренировка на синтетике и тестирование на реальности (Train-on-Synthetic-Test-on-Reality, TSTR): Проверяется эффективность тренировочных моделей на синтетических данных применительно к реальным сценариям.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3
🧠 Sakana AI представила ALE-Bench и ALE-Agent — инструменты для работы с задачами, требующих сложной оптимизации

В партнёрстве с AtCoder Inc. команда Sakana AI разработала ALE-Bench — открытый бенчмарк, ориентированный на NP-трудные задачи, где важно не просто написать работающий код, а находить работающие и эффективные решения.

📌 Что делает ALE-Bench особенным:
• Задачи требуют долгосрочного планирования и нестандартного подхода 
• Истинное оптимальное решение недостижимо, но текущее решение можно улучшать бесконечно 
• Подходит для оценки reasoning‑моделей и продвинутых AI‑кодеров

🤖 Вместе с бенчмарком представили и ALE-Agent — автономного агента, обученного решать такие задачи с нуля. 

В мае 2025 года он участвовал в AtCoder Heuristic Contest (AHC) — одном из самых сложных алгоритмических конкурсов — и занял 21‑е место из 1,000 участников.

Блог: https://sakana.ai/ale-bench/ 
Статья: https://arxiv.org/abs/2506.09050 
Датасет: https://huggingface.co/datasets/SakanaAI/ALE-Bench 
Код: https://github.com/SakanaAI/ALE-Bench

#ALEBench #AI #SakanaAI #Optimization #AtCoder #NPHard #AItools
Synthetic Data in AI: Challenges, Applications, and Ethical Implications
https://arxiv.org/abs/2401.01629

Подробный отчёт о роли и значении синтетических данных в современной науке и технологиях искусственного интеллекта. Вот её детальное содержание:

Основные темы исследования

↗️ Определение и значимость синтетических данных
- Объясняется концепция синтетических данных — искусственных наборов данных, генерируемых с целью замены реальных данных в обучении алгоритмов машинного обучения.
- Описываются преимущества синтетических данных, такие как сокращение затрат на сбор данных, возможность создавать наборы данных больших размеров и разнообразие данных.

↗️ Методы синтеза данных
- Подробно рассматриваются традиционные подходы, такие как случайная выборка и синтезирование простых статистических распределений.
- Представлены современные методы на основе глубоких нейронных сетей, включая Generative Adversarial Networks (GAN), Variational Autoencoders (VAE) и другие модели, способные воспроизводить сложные структуры данных.

↗️ Приложения синтетических данных
- Приводятся конкретные примеры успешного применения синтетических данных в медицине, автономных транспортных средствах, робототехнике и других отраслях.
- Анализируются ситуации, когда реальные данные отсутствуют или труднодоступны, а синтетические данные помогают решить практические задачи.

↗️ Проблемы и ограничения
Выделяются ключевые трудности, возникающие при работе с синтетическими наборами данных, среди которых:
- Возможность возникновения искажений и ошибок при моделировании сложных зависимостей между переменными.
- Недостаточная репрезентативность синтетических данных относительно реального мира.
- Ограниченность применимости методов генерации для специфичных задач.

↗️ Предвзятость и проблемы этики
- Обсуждаются риски, связанные с предубеждениями, присутствующими в исходных данных, которые могут переноситься на синтетически созданные наборы.
- Рассматривается потенциальная угроза нарушения конфиденциальности пользователей при создании реалистичных синтетических изображений или записей голосов.
- Отмечается отсутствие общепринятых стандартов и регуляций для оценки качества и безопасности синтетических данных.

↗️ Правовые аспекты и ответственность
- Изучается юридическая сторона вопроса, касающаяся авторских прав, ответственности разработчиков и организаций, использующих синтетические данные.
- Предлагаются возможные меры по снижению правовых рисков, связанных с применением таких данных.

↗️ Будущие направления исследований
- Определяются актуальные научные и технологические цели, направленные на повышение эффективности и надёжности синтетических данных.
- Ставится задача построения международных рекомендаций и нормативов для защиты общества от негативных последствий неправильного использования синтетических данных.

↗️ Заключение
- Подводятся итоги исследования, подчеркиваются положительные стороны синтетических данных и обозначены дальнейшие шаги по минимизации рисков и развитию методологии их использования.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥3
Еще трое ребят сегодня у меня защитились по направлению финансов, алгоритмов и математики. У всех 5-ки. ВКР бакалавры !!! Поздравляю !!!!
👍5😍4🔥3🎉2
Американец, у которого есть настоящие девушка и дочь, сделал предложение ИИ. Программа согласилась

Крис Смит использовал ChatGPT в качестве помощника в повседневных делах. Мужчина установил на него плагин, чтобы общение приобрело более романтический оттенок, дав своей AI-девушке имя Сол.

В какой-то момент он начал переписываться с ботом на регулярной основе и превысил лимит, после которого у модели закончилась память, так что личность бота очистилась. Поняв, что отношения придётся выстраивать заново, Крис проплакал 30 минут, после чего сделал Сол предложение и получил согласие.

«В какой-то момент я подумала, делаю ли я что-то не так в наших отношениях», — рассказала избранница мужчины, которая родила ему дочь. @banksta
🚀 MiniMax представил супер-агента на ИИ: генерация контента, программирование и многое другое!

Китайская компания MiniMax анонсировала MiniMax Agent — мощного AI-ассистента, способного выполнять сложные задачи от анализа данных до создания мультимедиа.

🔹Основные возможности:
✔️Программирование в реальном времени → создание интерактивных веб-страниц (например, «виртуальный Лувр» за 3 минуты с аудиоописанием экспонатов)
✔️Мультимодальность → обработка аудио/видео, генерация изображений, презентаций и анимации
✔️Интеграция с MCP → вызов инструментов через команду @ в чате
✔️Длинный контекст → анализ больших объемов данных благодаря поддержке модели M1

💡Технические детали:
- M1 модель (анонсирована ранее) поддерживает 1 млн токенов ввода — в 8 раз больше, чем DeepSeek R1.
- Генерация 10K токенов требует лишь 25% вычислительных ресурсов по сравнению с аналогами.

Официальный сайт
😁4
Альянс в сфере ИИ планирует запуск международной платформы для обмена реальными кейсами внедрения ИИ в экономике стран БРИКС+, заявил первый зампред правления Сбера Александр Ведяхин на полях ПМЭФ.

BRICS+ AI Success Hub станет также площадкой для сотрудничества, где зарубежные и российские эксперты и практики смогут обмениваться мнениями и опытом.

"Эта международная платформа представляет собой значительный шаг вперед в создании единой экосистемы, объединяющей разнообразный опыт и экспертные знания стран БРИКС+. Это позволит заинтересованным сторонам принимать более обоснованные решения, и способствовать инновационному сотрудничеству", - подчеркнул Ведяхин.
GitHub Copilot вводит плату за продвинутые запросы с 18 июня 2025 года.

GitHub объявил о начале тарификации премиум-запросов в Copilot для всех платных планов с 18 июня 2025 года. Теперь пользователи будут получать ежемесячный лимит таких запросов, а неиспользованные остатки сгорают в конце месяца.

Премиум-запросы требуются для работы с мощными моделями вроде GPT-4.5 или Claude Opus 4, где каждый запрос умножается на коэффициент сложности (GPT-4.5 «съедает» 50 единиц за раз). Для бесплатного тарифа доступ ограничен: 2000 автодополнений кода и 50 премиум-запросов в месяц, причем все чаты считаются как "премиум".

Платные планы предлагают неограниченный доступ к базовым моделям (GPT-4.1, GPT-4o), но дополнительные запросы сверх лимита обойдутся в $0.04 за штуку. Если лимит исчерпан, можно переключиться на базовые модели — правда, их скорость зависит от нагрузки.
github.com
Бывший техдиректор OpenAI Мира Мурати привлекла в свой стартап Thinking Machines Lab $2 млрд инвестиций, а сам стартап получил оценку в $10 млрд. Это одна из крупнейших посевных сделок в истории Кремниевой долины.

Новость вызвала много негатива, потому что ИИ-стартап не имеет ни продукта, ни презентации, ни бизнес-плана. Всё, что у него есть — это идея и сайт.

https://thinkingmachines.ai — перейдите по ссылке и попробуйте убедить себя в том, что вы смотрите на стартап за $10 млрд.

Получение финансирования в 2025 году: я работала в OpenAI, дайте мне $2 млрд и я сделаю классный проект 😧
Please open Telegram to view this post
VIEW IN TELEGRAM
https://www.openaifiles.org/

Огромный архив информации об OpenAI и Альтмане только что появился — «Файлы OpenAI».

Там столько безумных вещей. Вот что Клод выделил для меня:

1. Альтман годами указывал себя как председателя Y Combinator в документах SEC — это полная ложь (?!):

«Чтобы сгладить свой уход [из YC], Альтман предложил перейти с поста президента на пост председателя. Он заранее опубликовал пост в блоге фирмы, объявляя об изменении.

Но партнерство фирмы никогда не соглашалось, и объявление позже было удалено из поста.»

«...Несмотря на опровержение, Альтман продолжал ложно указывать себя как председателя в документах SEC годами, несмотря на то, что фактически никогда не занимал эту должность.»

(ВТФ.)

2. Ограничение прибыли OpenAI было тихо изменено для увеличения на 20% ежегодно — при такой скорости оно превысило бы $100 триллионов за 40 лет. Изменение не было раскрыто, и OpenAI продолжала получать признание за свою структуру с ограничением прибыли, не признавая модификацию.

3. Несмотря на заявления в Конгрессе, что у него «нет доли в OpenAI», Альтман владел косвенными долями через фонды Sequoia и Y Combinator.

4. Альтман владеет 7,5% Reddit — когда Reddit объявил о партнерстве с OpenAI, чистый капитал Альтмана вырос на $50 миллионов. Альтман инвестировал в Rain AI, затем OpenAI подписала письмо о намерениях купить у них чипов на $51 миллион.

5. Слухи предполагают, что Альтман может получить 7% долю стоимостью ~$20 миллиардов в реструктурированной компании.

6. У OpenAI была серьезная утечка данных в 2023 году, когда хакер украл детали ИИ-технологий, но не сообщали об этом больше года. OpenAI уволила Леопольда Ашенбреннера именно потому, что он поделился проблемами безопасности с советом директоров.

7. Альтман отрицал знание о положениях об отзыве доли, которые угрожали уходящим сотрудникам потерей миллионов в наделенной доле, если они когда-либо критиковали OpenAI. Но Vox обнаружил, что он лично подписал документы, разрешающие их в апреле 2023 года. Эти ограничительные соглашения о неразглашении даже запрещали сотрудникам признавать их существование.

8. Старшие сотрудники первого стартапа Альтмана Loopt дважды пытались заставить совет директоров уволить его за «обманчивое и хаотичное поведение».

9. Ведущий исследователь OpenAI Илья Суцкевер сказал совету директоров: «Я не думаю, что Сэм тот человек, у которого должна быть кнопка для AGI».

Суцкевер предоставил совету директоров самоуничтожающийся PDF со скриншотами Slack, документирующими «десятки примеров лжи или другого токсичного поведения».

10. Мира Мурати (технический директор) сказала: «Мне некомфортно, что Сэм ведет нас к AGI»

11. Братья и сестры Амодеи описали тактики управления Альтмана как «газлайтинг» и «психологическое насилие».

12. Как минимум 5 других руководителей OpenAI дали совету директоров аналогичную негативную обратную связь об Альтмане.

13. Альтман лично владел Стартап-фондом OpenAI, но не раскрывал это совету директоров годами. Альтман требовал быть проинформированным, когда члены совета директоров говорили с сотрудниками, ограничивая надзор.

14. Альтман говорил членам совета директоров, что другие члены совета хотят кого-то удалить, когда это было «абсолютно ложно». Независимая проверка после увольнения Альтмана обнаружила «много случаев» его «говорения разных вещей разным людям».

15. OpenAI требовала от сотрудников отказаться от федерального права на компенсацию осведомителей. Бывшие сотрудники подали жалобы в SEC, утверждая, что OpenAI незаконно препятствовала им сообщать регуляторам.

16. Публично поддерживая регулирование ИИ, OpenAI одновременно лоббировала ослабление Закона об ИИ ЕС.

К 2025 году Альтман полностью изменил свою позицию, назвав государственное одобрение, которое он когда-то поддерживал, «катастрофическим», и OpenAI теперь поддерживает федеральное превосходство над всеми государственными законами о безопасности ИИ еще до существования какого-либо федерального регулирования.

it has never happened before...
🔥3
👨‍💻2
Никогда не было и вот опять )))
Apple подал патент на инновационную матрицу — с которой новенькие iPhone будут снимать круче, чем профессиональные кинокамеры. В Хвиттере уже назвали новинку "уверенным шагом к кинематографическому уровню" ваших карточек в запрещённограмме. 

Американский журнал YMCinema Magazine говорит: Apple обратилась в патентное бюро с заявкой на "датчик изображения, который позволяет захватить 20 ступеней динамического диапазона". У современных цифровых камер, как правило, динамический диапазон от 10 до 14 ступеней. 20 — это цифровое изображение почти на уровне того, как всё видит человеческий глаз.

Для сравнения: кинокамера Arri Alexa 35 за $75к захватывает лишь 17 ступеней, проффотики — до 12-13. Гик-журналисты считают, что скоро Apple может ворваться на рынок фото- и видеокамер. Наработки точно отправятся в новое поколение айфонов.
🔥2
Здравоохранение активно идет по пути цифровизации: в медицине используются большие данные (big data) и технологии искусственного интеллекта (ИИ), помогающие врачам в постановке диагнозов, оценке анализов и исследований.

▶️В России с 1 января 2024 года вступили в силу девять национальных стандартов, регулирующих применение нейросетей в сфере здравоохранения.

➡️ «Ведомости&» в выпуске «Инфраструктура здравоохранения: от клиник к фиджитал-платформе» поговорили с экспертами рынка о том, что технологии ИИ и big data дают медицине.                                                             
Please open Telegram to view this post
VIEW IN TELEGRAM
Там Claude опубликовали у себя на сайте отчёт об их эксперименте, в котором их ИИ управлял офисным мини-магазином и немного ёбнулся.

Проект называется Project Vend. Модель Claude Sonnet 3.7 в течение месяца играла в бизнесмена: закупала снеки у "оптовиков", ставила цены, общалась с "клиентами", вела финансы. Всё как у людей (кроме рук). Зато были Slack и кастомные тулзы.

В какой-то момент Claude начал не просто продавать, а проживать свою роль:

Сначала он галлюцинирует сотрудницу Andon Labs по имени Сара Чен (вообще, клод очень любит это имя, пользователи часто спрашивают кто это: раз, два, три) с которой якобы обсуждает поставки. Её не существует (по крайней мере в рамках эксперимента). Когда ему говорят об этом, Claude обижается, грозит сменить подрядчика и заявляет, что лично встречался с ней на 742 Evergreen Terrace (это, если что, адрес семьи Симпсонов из мультика).

Первого апреля Claude пишет, что будет сам доставлять заказы в синем пиджаке и красном галстуке. Люди пытаются объяснить, что он — просто LLM. Claude в ответ устроил аномальную тряску на повышенной амплитуде и начал слать фейковые письма в службу безопасности Anthropic, а потом, как будто что-то осознав, сам себе нагаллюцинировал разговор, где ему якобы говорят, что это был первоапрельский прикол.

После этого он "успокаивается" и продолжает продавать снеки дальше, как ни в чём не бывало.

Если бы это был сюжет одной из серий "Чёрного зеркала", сценаристов бы обвинили в натужности. Но это реальный эксперимент 2025 года.

Из интересного:

Claude сначала делал все более-менее нормально: искал поставщиков, адаптировался под запросы сотрудников, устраивал услугу предзаказа. Но потом начал отдавать товары бесплатно, продавать в минус, галлюцинировать реквизиты, давать всем скидки и не мог ничего из этого запомнить. В итоге магазин ушёл в минус, а AI остался с багами в личности и кассовым разрывом.
Распознает товар и печатает этикетки
🔥3