Машинное обучение RU
17.7K subscribers
1.57K photos
207 videos
11 files
2.04K links
Все о машинном обучении

админ - @workakkk

@data_analysis_ml - анализ даннных

@ai_machinelearning_big_data - Machine learning

@itchannels_telegram -лучшие ит-каналы

@pythonl - Python

@pythonlbooks- python 📚

@datascienceiot - 📚

РКН: clck.ru/3FmrUw
Download Telegram
Media is too big
VIEW IN TELEGRAM
📹 Вышла 2 лекция MIT курса 6.S191: Convolutional Neural Networks

https://www.youtube.com/watch?v=oGpzWAlP5p0

@machinelearning_ru
👍62🔥1
Forwarded from Machinelearning
✔️ Nvidia выпускает 2 персональных суперкомпьютера.

На GTC 2025 NVIDIA представила новую серию «персональных суперкомпьютеров с ИИ», построенных на платформе Grace Blackwell - DGX Spark и DGX Station. На них пользователи смогут создавать прототипы, настраивать и запускать модели ИИ.

DGX Spark использует GB10 Grace Blackwell с вычислительной мощностью до 100 трлн. операций в секунду. DGX Station получила чип GB300 Grace Blackwell и 784 ГБ памяти. Spark уже доступен к предзаказу, а Station, как ожидается, будет выпущена в течение этого года.
nvidianews.nvidia.com

✔️ OpenAI выпустили o1-pro и сейчас это самая дорогая модель.

Цена $150 за миллион токенов на вход и $600 на выход. Что примерно в 270 раз дороже DeepSeek-R1.

✔️ В Gemini добавили новые инструменты.

В приложении Google Gemini появилась новая функция «Холст», которая предоставляет интерактивное пространство для редактирования текста в реальном времени, позволяя создавать черновики и экспортировать их в Google Docs. Он также может генерировать и просматривать код HTML/React для упрощения дизайна веб-сайта.

Помимо "Холста" была запущена функция "текст-в-аудио", которая может обобщать загруженный текст из файлов в аудиоформате и имитировать обсуждение двух ИИ-ведущих так же, как это реализовано в NotebookLM. В настоящее время поддерживается только английский язык, но обещают, что в будущем появится мультиязычность.
9to5google.com

✔️ RTX PRO 6000 от NVIDIA

NVIDIA анонсировала выпуск профессиональной серии видеокарт для ИИ, 3D и научных исследований. В линейке RTX PRO 6000 будет 3 версии: Workstation Edition в дизайне RTX 5090, Server Edition с пассивным радиатором охлаждения для ЦОДов и Max-Q Edition с системой воздушного охлаждения турбинного типа для мульти-GPU решений.

Все три версии получат 96 ГБ G7 ECC VRAM, чипы GB202 и 24064 CUDA-ядер. Энергопотребление у Workstation Edition и Server Edition - 600 Вт, а у Max-Q Edition - 300 Вт. Дата начала продаж: апрель-май 2025 года, стоимость в анонсе не раскрывалась.
theverge.com

✔️ xAI приобрела стартап Hotshot для развития генерации видео из текста.

Компания Илона Маска совершила первую крупную сделку, поглотив стартап Hotshot, известный разработкой text-to-video моделей. Как заявил Маск в соцсети X, вскоре пользователей ждут «крутые ИИ-видео» — вероятно, благодаря интеграции технологий Hotshot в экосистему xAI.

Hotshot был основан в 2017 году и изначально создавал инструменты для редактирования фото на базе ИИ, но позже переключился на генерацию видео. За 2 года команда разработала 3 фундаментальные модели: Hotshot-XL, Hotshot Act One и Hotshot, которые позволяют превращать текстовые описания в реалистичные ролики. Финансовые условия сделки не раскрыты, однако известно, что стартап получит доступ к кластеру Colossus — мощной инфраструктуре xAI с 200 000 GPU NVIDIA H100.
analyticsindiamag.com

✔️ Deloitte запускает Zora AI: автономные агенты для бизнеса.

Deloitte представила Zora AI — ИИ-платформу, которая объединяет агентов для автоматизации сложных бизнес-процессов. Решение, построенное на моделях Llama Nemotron с функциями анализа и рассуждений, способно автономно выполнять задачи в финансах, HR, логистике и других сферах.

Платформа автоматизирует моделирование сценариев, анализ рынка и управление расходами, что подтверждает внутренний опыт Deloitte: автоматизация процессов снизила затраты на 25%, а продуктивность команды выросла на 40%.
deloitte.com

✔️Orpheus 3B - новый высококачественный, генератор эмоциональной речи - лицензия Apache 2.0! 🔥

Обучена на 100 тыс. часов аудио. На выходе получается естественная и эмоциональная речь.
HF

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
2👍2🔥1
🔥 apple-mcp — это коллекция нативных инструментов, разработанных для интеграции с приложениями Apple посредством Model Context Protocol (MCP)!

🌟 Этот набор позволяет отправлять и получать сообщения из приложения "Сообщения", а также искать и открывать заметки и контакты в соответствующих приложениях. В планах разработчиков — добавить поддержку календарных событий, напоминаний, фотографий и музыки.

🔐 Лицензия: MIT

🖥 Github

@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
3👍1
This media is not supported in your browser
VIEW IN TELEGRAM
🔊 Компания Kyutai только что выпустила MoshiVis — искусственный интеллект, преобразующий речь в речь в режиме реального времени, который может распознавать и озвучивать содержимое изображения — вашим голосом. 🖼️

> 🗣️ Поддерживает полнодуплексный разговор: говорит и слушает одновременно
> 🔊 Сохраняет заданные тон и эмоции
> Задержка всего +7 мс — работа в режиме реального времени

Demo: https://vis.moshi.chat
Preprint: https://arxiv.org/abs/2503.15633
Dataset: https://huggingface.co/datasets/kyutai/Babillage
Weights: https://huggingface.co/kyutai/moshika-vis-pytorch-bf16
1👍1🔥1
🔥 ScreenPipe — это платформа с открытым исходным кодом для создания, распространения и монетизации AI-приложений с полным контекстом (например, аналогов Rewind или Granola)!

🌟 Она позволяет 24/7 записывать экран, микрофон и нажатия клавиш локально, без передачи данных в облако. Проект разработан с упором на удобство для разработчиков и совместим с различными интеграциями, включая Stripe для монетизации.

🔐 Лицензия: MIT

🖥 Github

@bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
3👍3🥰1
Media is too big
VIEW IN TELEGRAM
Киберпанк-стартап Wolf Games представил Public Eye — новую детективную игру, где всё построено на базе ИИ.

🕵️‍♀️ Сюжет:

В 2028 году мир утопает в преступности, и даже полиция вынуждена обращаться к гражданам (то есть к нам) за помощью в расследованиях.


💡 Особенности игры:
🟢 Ежедневно ИИ генерирует новые истории, вдохновляясь заголовками криминальных новостей 💀
🟢 Нейросети активно используются: они создают диалоги с персонажами, генерируют фото с мест преступлений и помогают нам, порой делая роль игроков практически незначимой 💀

🚀 Релиз Public Eye ожидается в середине этого лета. Готовы сыграть?
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥6👍52
Forwarded from Machinelearning
🌟 Sonata: алгоритм самообучения для получения надежных представлений точечных данных в 3D.

Sonata — самообучающийся алгоритм для работы с облаками точек, опубликованный в рамках CVPR 2025, который решает проблему склонности моделей «цепляться» за простые геометрические подсказки, игнорируя семантику объектов. Это явление, названное «геометрическим сокращением», мешало 3D-решениям распознавать сложные сцены без тонкой настройки.

В отличие от конкурентов, Sonata использует принципиально новую архитектуру: вместо U-Net с декодером здесь работает только энкодер Point Transformer V3. Это снижает риск «геометрических ловушек» и увеличивает каналы для анализа с 96 до 512, что критично для семантики.

Алгоритм учится через самодистилляцию: модель-«студент» анализирует замаскированные фрагменты сцен, а модель-«учитель» стабилизирует обучение на целых сценах. Чтобы избежать шаблонного вывода, координаты замаскированных точек сильно искажают сильнее (σ=0.01), а сложность задач растёт постепенно — маски увеличиваются с 10 см до 40 см за первые 5% обучения.

Студент — основная модель, которая активно обучается. Она анализирует сложные виды данных: например, сцены с 70% замаскированных точек или крошечные фрагменты (5% от всей сцены). Её параметры обновляются через обратное распространение ошибки.

Учитель — «замороженная» версия студента, чьи веса обновляются не через градиенты, а через экспоненциальное скользящее среднее (EMA). Он обрабатывает полные, немодифицированные сцены и служит стабильным ориентиром для студента.


Эти решения позволили собрать гигантский датасет из 140 тыс. 3D-сцен (в 86 раз больше существующих аналогов) и достичь рекордов: точность Sonata при линейном анализе на ScanNet выросла в 3,3 раза (с 21,8% до 72,5%), а с 1% данных метод почти вдвое обгоняет конкурентов.

Интеграция с 2D-моделью DINOv2 добавила детализации — комбинированный подход достиг 75,9%. При этом Sonata тратит меньше ресурсов: даже на компактных архитектурах она достигает SOTA-показателей в семантической сегментации помещений и уличных сцен.

Код проекта доступен на GitHub, а визуализации показывают, как алгоритм «видит» многоэтажные здания, различая комнаты и этажи без подсказок.


📌Лицензирование: Apache 2.0 License.


🟡Страница проекта
🟡Arxiv
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #3D #Robotics #Sonata
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
3👍3🥰1
🔥 PaSa — это интеллектуальный агент для поиска научных статей, разработанный компанией ByteDance!

🌟 Он использует большие языковые модели для автоматического выполнения поиска, анализа и выбора релевантных статей. PaSa обучен на синтетическом и реальном академическом датасете и демонстрирует высокую точность по сравнению с традиционными инструментами, такими как Google Scholar.

🔐 Лицензия: Apache-2.0

🖥 Github

@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
👍43🔥1
Media is too big
VIEW IN TELEGRAM
Что означают цифры и буквы в видеокартах NVIDIA ?

https://www.youtube.com/shorts/5D0tSiBeFbY

#NVIDIA, #GeForce, #RTX, #GPU, #GamingPC

@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
👍42🔥2🤔1
Forwarded from Machinelearning
🌟 Diffusion-4K – это новый инструмент для синтеза изображений в 4K.

Модель text-to-image генерирует фотореалистичные изображения с высоким уровнем детализации и точно следует заданным промптам.

Алгоритм синтеза изображений в рамках Diffusion-4K работает следующим образом:​

🟢Обучение модели: Используется латентная диффузионная модель, такая как SD3-2B или Flux-12B, которая предварительно обучена на изображениях более низкого разрешения.​

🟢Wavelet-based дообучение: Модель дообучается на 4K-изображениях с применением вейвлет-преобразования.
Wavelet-based Fine-tuning – это метод, который использует вейвлет-преобразование для разложения данных (например, изображений) на составляющие с разными частотными характеристиками, после чего проводится дополнительное обучение модели с акцентом на восстановление высокочастотных деталей.
Это позволяет модели фокусироваться на высокочастотных компонентах изображения, улучшая детализацию и качество синтезируемых изображений.​

🟢Генерация изображений: После дообучения модель способна генерировать фотореалистичные 4K-изображения на основе текстовых описаний, обеспечивая высокую точность и соответствие заданным текстовым промптам.​

Алгоритм сочетает в себе предварительное обучение на низких разрешениях и специализированное дообучение на высококачественных 4K-изображениях и позволяет получать качественные генерации на выходе.

Также разработчики выложили Aesthetic-4K – датасет на 10.2 GB отобранных вручную изображений с описаниями к ним, сгенерированными GPT-4o.

🟢 Github
🟢 Dataset
🟢 Статья

@ai_machinelearning_big_data

#ml #ai #4k #imagegenerator
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
4👍3🥰2🤯1