Машинное обучение digest
59 subscribers
1.69K photos
225 videos
929 links
Download Telegram
15 бесплатных книг по Data Science (часть 1)*

1. *Veridical Data Science*
👩‍🔬 Авторы: Bin Yu & Rebecca L. Barter
Описание: Фреймворк PCS для интерпретируемого анализа данных.
🔗 https://vdsbook.com/

2. *Data Science: Theories, Models, Algorithms, and Analytics*
📘 Автор: Sanjiv Ranjan Das
Описание: Учебник по DS с упором на алгоритмы и аналитику.
🔗 https://srdas.github.io/Papers/DSA_Book.pdf

3. *Think Python 3E*
🐍 Автор: Allen B. Downey
Описание: Современное введение в Python с нуля.
🔗 https://greenteapress.com/wp/think-python-3rd-edition/

4. *Python Data Science Handbook*
📊 Автор: Jake VanderPlas

Описание: Практика работы с NumPy, pandas, sklearn и визуализациями.
🔗 https://jakevdp.github.io/PythonDataScienceHandbook/

5. *R for Data Science*
📈 Авторы: Hadley Wickham и др.
Описание: Современный подход к анализу данных в R.
🔗 https://r4ds.hadley.nz/

6. *Think Stats 3E*
📐 Автор: Allen B. Downey
Описание: Статистика через Python и практику.
🔗 https://allendowney.github.io/ThinkStats/

7. *Statistics and Prediction Algorithms Through Case Studies*
📙 Автор: Rafael A. Irizarry
Описание: Кейсы по статистике и прогнозированию с кодом на R.
🔗 https://rafalab.github.io/dsbook/

8. *Bayesian Methods for Hackers*
🧠 Автор: Cameron Davidson-Pilon
Описание: Визуальное введение в байесовский анализ с PyMC.
🔗 https://github.com/CamDavidsonPilon/Probabilistic-Programming-and-Bayesian-Methods-for-Hackers

9. *Think Bayes 2E*
🔢 Автор: Allen B. Downey
Описание: Пошаговый байесовский подход на Python.
🔗 https://allendowney.github.io/ThinkBayes2/

10. *Data Science at the Command Line*
💻 Автор: Jeroen Janssens
Описание: Unix-инструменты как основа для анализа данных.
🔗 https://datascienceatthecommandline.com/

Математика и теория вероятностей:
11. Теория вероятностей
👩‍🔬 Автор: Чернова Н. И.
Описание: Понятное введение в теорию вероятностей, основа для изучения математической статистики.
🔗 http://www.nsu.ru/mmf/tvims/chernova/tv/tv_nsu07.pdf

12. * Математическая статистика*
👩‍🔬 Автор: Чернова Н. И.
Описание: Продолжение курса по теории вероятностей (НГУ), покрывающее основы математической статистики: оценки параметров, проверка гипотез, регрессионный анализ.
🔗 http://www.nsu.ru/mmf/tvims/chernova/ms/ms_nsu07.pdf

13. * Курс дифференциального и интегрального исчисления (Том 1)*
👩‍🔬 Автор: Фихтенгольц Г. М.
Описание: Фундаментальный и классический учебник по основам математического анализа.
🔗 http://math.ru/lib/book/djvu/fichtengolz/f_1.djvu

14.*Векторные исчисления для инженеров*
👩‍🔬 Автор:Jeffrey R. Chasnov
🔗 http://math.ru/lib/book/djvu/fichtengolz/f_1.djvu

15 .*Theory—Theoretical & Mathematical Foundations ;
👩‍🔬Daniel A. Roberts, Sho Yaida, Boris Hanin
🔗https://arxiv.org/abs/2106.10165

📘 Еще больше книг здесь

@ai_machinelearning_big_data

#books #opensource #freebooks
📌Обучение с подкреплением: как языковые модели учатся рассуждать.

Объемная и интересная статья Sebastian Raschka, автора книги "Build a Large Language Model From Scratch" о тенденциях и проблемах современных методов обучения LLM через призму RL.

В мире LLM последние месяцы стали переломными. Релизы GPT-4.5 и Llama 4, вопреки ожиданиям, не вызвали ажиотажа — все потому, что эти модели остались «классическими», без продвинутых методов обучения для рассуждений. Их конкуренты - xAI и Anthropic уже добавили кнопки «расширенного мышления», а OpenAI представила o3 — модель, где упор сделан на стратегическое применение вычислений через обучение с подкреплением. Становится ясно: масштабирование данных и параметров почти исчерпало себя, и будущее за RL.

Основной инструмент RLHF (обучение с подкреплением на основе человеческой обратной связи) давно используется для настройки LLM под предпочтения людей. Но для задач, требующих логики, этого недостаточно.

Здесь на сцену выходит GRPO — модификация алгоритма PPO, которая экономит ресурсы, убирая «критика» (модель оценки вознаграждения). Так создавалась DeepSeek-R1-Zero, ее обучали вообще без этапа SFT, используя только автоматические проверки ответов. Если математическая задача решена верно, модель получает «плюс», если нет — «минус». Такой подход не только дешевле, но и снижает риск «обмана» модели (reward hacking).

Но и RL — не панацея. Исследования показывают, что PPO и GRPO неявно поощряют длинные ответы, даже если те ошибочны. Например, при отрицательном вознаграждении штраф распределяется по токенам, и модель учится растягивать текст, чтобы смягчить наказание.

Решения уже есть: одни команды вводят штрафы за длину, другие меняют расчет преимуществ. А модель L1 от Kaggle и вовсе позволяет пользователям задавать желаемую длину ответа, балансируя между точностью и затратами.

Способность к рассуждениям может возникать и без RL. DeepSeek V3 демонстрирует мыслительные «озарения», хотя ее не обучали специально. Этот факт всерьез ставит под вопрос исключительную роль RL — возможно, все дело в данных, где уже есть цепочки логических шагов.

Тем не менее, RL усиливает эти способности: модели начинают самокорректироваться, использовать внешние инструменты (калькуляторы, поиск) и даже переносить навыки между доменами — от математики до медицины.

Некоторые заявления о прогрессе оказались преувеличены: улучшения на мелких моделях часто нестабильны, а результаты зависят от случайных факторов вроде выбора сида. Кроме того, RL требует внушительных ресурсов (o3 от OpenAI потратила при обучении в 10 раз больше вычислений, чем предыдущая версия)

В итоге, RL остается ключевым направлением, но важно избегать «эйфории». Сочетание RL с автоматической проверкой ответов, контроль длины и гибридные подходы (как в DeepSeek-R1) — вот что приближает нас к моделям, которые не просто генерируют текст, а действительно думают.

🔜 Читать статью в оригинале


@ai_machinelearning_big_data

#AI #ML #LLM #RL
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥 Text‑to‑FILM становится реальностью!

SkyReels‑V2 - опенсорс генератор видео из текста, который не только соперничает с лучшими закрытыми решениями, но и предлагает уникальное преимущество — теоретически неограниченную длину генераций.

✔️ Что умеет SkyReels V2:

- Story Generation: полный конвейер от генерации текста до последовательного сюжета для видео.
- Image‑to‑Video
- Camera Director: управление виртуальной камерой — смена углов, зум, трекинг.
- Elements‑to‑Video: генерация отдельных объектов или эффектов, которые затем интегрируются в общий видеоряд.

🌟 Режимы инференса: поддерживаются как синхронный (full‑sequence diffusion), так и асинхронный (Diffusion Forcing) режимы для гибкой работы на разных GPU-конфигурациях

На бенчмарках SkyReels V2 лидирует среди открытых моделей на VBench с 83.9%, оставляя позади Wan2.1, HunyuanVideo и OpenSora 2.0.


Попробовать
Github
Technical Report
Hugging Face
ModelScope


#AI #TextToFilm #VideoGeneration #SkyReelsV2 #MachineLearning
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥 У OpenAI — свежие апдейты, и они реально крутые:

📌 Больше GPT-доступа для всех:
Теперь o4-mini доступна даже бесплатным пользователям!
А у подписчиков на $20 — обновлённые лимиты:
▪️ 100 сообщений в неделю для GPT-3.5 (o3)
▪️ 100 сообщений в день для GPT-4-mini-high (o4-mini)

📌 Прокачанный генератор изображений:
Теперь он работает не только в ChatGPT —
▪️ Встраивается прямо в Figma и приложения Adobe
▪️ Доступен через API для разработчиков
▪️ Поддерживает мульти-генерацию и выбор качества 🎨

😱 Можно генерить пачку картинок, сразу сравнивать и выбирать лучшие. Это реальный буст для дизайнеров, продакт-тимов и креаторов.
✔️ OpenAI добавила в API модель генерации изображений GPT-Image-1.

OpenAI открыла доступ к GPT-Image-1 через API — ранее она работала только в ChatGPT.
Стоимость генерации тарифицируется по токенам: текст ($5/млн), ввод изображений ($10/млн), вывод ($40/млн). Одно изображение обходится в $0,02–0,19. Например, картинка 1024×1024 в высоком качестве «съест» 4160 токенов. Модель превосходит Midjourney-v7 в точности следования запросам, но имеет ограничения: плохо распознаёт мелкий текст, нелатинские шрифты, медицинские данные.

Изображения можно загружать через URL или Base64 (PNG, JPEG до 20 МБ). Максимальное разрешение — 768×2000 пикселей. API анализирует объекты, цвета, текст, но не подходит для задач с высокой точностью. Для безопасности добавлены фильтры контента и метаданные C2PA. Тестировать модель можно в Playground OpenAI — подробности в гайдах по работе с API.
openai.com

✔️ Kortix AI выпустила Suna — первый в мире опенсорсный ИИ-агент общего назначения.

Suna — открытый ИИ-агент, способный выполнять реальные задачи через чат-интерфейс. В отличие от закрытых коммерческих моделей, Suna работает офлайн, бесплатен и доступен для самостоятельного хостинга.

Suna не просто отвечает на вопросы: он автоматизирует рутину — от парсинга сайтов и генерации отчетов до развертывания веб-приложений. В основе лежит изолированная Docker-среда, React/Next.js для интерфейса и интеграция с LiteLLM, Supabase и Redis. Помимо исходного кода, есть подписка на развернутый у Kortix AI сервис: бесплатно 10 минут в месяц, за 29$ - 4 часа, а за 199\мес - 40 часов работы Suna.
suna.so

✔️ Firefox анонсировал предпросмотр ссылок с локальным ИИ.

Пользователи Firefox теперь могут заглянуть в содержимое ссылки, не открывая ее. Экспериментальная функция в Firefox Labs 138 показывает карточку с заголовком, описанием, временем чтения и тремя ключевыми пунктами, сгенерированными локальной языковой моделью. Все работает через HTTPS-запросы без загрузки страницы или выполнения скриптов — данные парсятся из метатегов Open Graph и Reader View.

Приватность в приоритете: модель SmolLM2-360M (369 МБ) запускается на устройстве через WebAssembly (wllama), избегая передачи данных в облако. Функция пока в тесте: разработчики ждут фидбека об опыте использования от пользователей.
blog.mozilla.org

✔️ xAI добавила 3 новые функции в Grok.

xAI расширила возможности голосового ассистента Grok: Grok Vision, поддержка многоязыкового аудио и поиск в реальном времени в голосовом режиме. Все это уже доступно пользователям iOS, а для Android-устройств две последние опции открыты только с подпиской SuperGrok. Grok Vision, как заявляют разработчики, позволяет ассистенту анализировать экран смартфона и комментировать происходящее «здесь и сейчас» — например, распознавать объекты или текст.
Ebby Amir (xAI) в X (ex-Twitter)

✔️ BMW внедрит ИИ DeepSeek в свои автомобили для Китая .

BMW объявил о партнерстве с DeepSeek для интеграции ИИ-технологий в машины, продаваемые в Китае. Сотрудничество, представленное на Шанхайском автосалоне, направлено на улучшение «Умного персонального ассистента» — система получит новые функции и расширенный доступ к данным.

Интеграция ИИ DeepSeek ускорит переход BMW к «программно-определяемым» автомобилям. Ожидается, что обновления затронут не только ассистента, но и улучшат интерфейсы, а также поддержат более сложные сценарии автономного управления.
bmwblog.com

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🌟 Kimi-Audio: открытая модель для аудиозадач.

Kimi-Audio — инструктивная модель с 7 млрд. параметров, разработанная командой MoonshotAI, которая объединяет распознавание речи, анализ аудиоконтента и генерацию ответов в реальном времени в единую архитектуру. Модель показала SOTA-результаты на множестве аудиобенчмарков, от распознавания речи до эмоционального анализа.

Архитектура Kimi-Audio — это 3 компонента:

🟢Гибридный токенизатор, который преобразует аудио в дискретные семантические токены (12.5 Гц) через векторное квантование и дополняет их непрерывными акустическими признаками из Whisper.

🟢Модифицированная LLM (на базе Qwen 2.5 7B) с общими слоями для мультимодальных данных и раздельными «головами» для генерации текста и аудио.

🟢Детокенизатор на основе flow matching и BigVGAN. Он превращает токены обратно в звук с задержкой менее секунды благодаря чанковому потоковому декодированию и look-ahead механизму.

Отдельного внимания заслуживает пайплайн обучения, к нему команда разработки подошла ответственно и скрупулезно: 13 млн часов аудио были обработаны через автоматический конвейер, включающий шумоподавление, диаризацию и транскрипцию.

Для повышения качества сегменты объединялись по контексту, а транскрипции дополнялись пунктуацией на основе пауз. После предобучения на задачах ASR и TTS модель прошла этап SFT на 300 тыс. часов данных (развернутые диалоги и аудиочаты).

В тестах ASR Kimi-Audio показала: WER 1.28 на LibriSpeech test-clean против 2.37 у Qwen2.5-Omni. В аудиопонимании она лидирует на ClothoAQA (73.18) и MELD (59.13), а в классификации сцен (CochlScene) показывает 80.99 — на 17 пунктов выше ближайшего соперника. В диалогах модель близка к GPT-4o (3.90 против 4.06 по субъективной оценке).


📌 Лицензирование кода : Apache 2.0 License.

📌 Лицензирование модели: MIT License.


🟡Модель
🟡Техотчет
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #KimiAudio #MoonshotAI
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🦾 Berkeley Humanoid Lite — открытый человекоподобный робот

Калифорнийский университет Беркли представил проект Humanoid Lite — результат многолетних исследований и экспериментов по созданию простых в производстве человекоподобных роботов.

Платформа полностью придерживается принципов Open Hardware: в ней используются свободно распространяемое ПО, серийные комплектующие, доступные в розничной продаже, а также детали, напечатанные на 3D-принтере.

🌟 100 % open-source под MIT-лицензией: прошивки, схемы, BOM, STL-модели, RL-контроллеры
✔️ Open Hardware: доступные в рознице электро- и мехкомпоненты, детали печатаются на обычном FDM-принтере
➡️ Итоговая стоимость сборки — примерно 5 000 USD
⭐️ Модульная конструкция: легко превращается в квадропода или «кенавроподобного» робота
➡️ Экосистема: Isaac Lab / Isaac Sim / MuJoCo, телеметрия через SteamVR-контроллеры

Что доступно:

- Исходный код робота на C++ и Python
- Модели машинного обучения для контроллера движений
- Чертежи пластиковых деталей
- Полный список комплектующих с ссылками на покупку
- Пошаговый сборочный план
- Симуляционные окружения для тренировки и запуска робота


🌟 Что робот умеет уже сейчас
- локомоция: RL-контроллер приводит в заданную точку
- телеприсутствие: человек управляет манипулятором через VR-контроллеры
- навигация: экспериментальные алгоритмы обхода препятствий
- поддержка мелкой моторики

🔥 Как удалось удешевить:
- пластиковые шестерни, напечатанные на 3D-принтере
- циклоидные редукторы, повышающие надёжность пластика
- использование типовых драйверов и контроллеров без кастомных плат

*Clone → Print → Build → Hack!* 🤓

🔜 Проект
🔜 Код
🔜 Схемы

@ai_machinelearning_big_data


#robots #ai #ml #opensource
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥 Релиз Qwen 3 от Alibaba

В релиз вошли 2 MoE-модели и 6 Dense models (плотные модели), размером от 0.6B до 235B параметров.

🏆 Флагманская модель Qwen3-235B-A22B демонстрирует конкурентные результаты в задачах Кодина, математики и общих способностей, уверенно соперничая с передовыми моделями, такими как DeepSeek-R1, o1, o3-mini, Grok-3 и Gemini-2.5-Pro.
Небольшая MoE-модель Qwen3-30B-A3B превосходит QwQ-32B, испрльзуя в 10 раз больше параметров.
🔥 Компактная модель Qwen3-4B сопоставима по производительности с Qwen2.5-72B-Instruct.


🔜Blog: https://qwenlm.github.io/blog/qwen3/
🔜GitHub: https://github.com/QwenLM/Qwen3
🔜Hugging Face: https://huggingface.co/collections/Qwen/qwen3-67dd247413f0e2e4f653967f
🔜 ModelScope: https://modelscope.cn/collections/Qwen3-9743180bdc6b48

@ai_machinelearning_big_data

#Qwen
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
✔️ Oracle и NVIDIA развернули тысячи GPU Blackwell для ИИ нового поколения.

Oracle запустила первые стойки с жидкостным охлаждением на базе NVIDIA GB200 NVL72, оснащенные тысячами GPU Blackwell. Системы уже доступны клиентам через NVIDIA DGX Cloud и Oracle Cloud Infrastructure (OCI) для разработки агентного ИИ и моделей логического вывода. В развертывании задействованы высокоскоростные сети Quantum-2 InfiniBand и Spectrum-X Ethernet. Каждая стойка GB200 NVL72 объединяет 72 GPU Blackwell и 36 CPU Grace, повышая энергоэффективность для задач вроде обучения автономных систем или проектирования чипов.

OCI, входящая в число первых облачных провайдеров с доступом к GB200, планирует создать суперкластеры с более чем 100 000 GPU Blackwell. Это ответ на растущий спрос на вычисления для ИИ-инференса.
blogs.nvidia.com

✔️ Hugging Face выпустит роботизированную руку за $100.

Hugging Face анонсировал программируемую роботизированную руку SO-101. Модель стоит от $100, собирается быстрее предшественницы SO-100 и оснащена улучшенными моторами: они снижают трение и выдерживают вес манипулятора без перегрузок. Камера и поддержка RL позволяют роботу «научиться» базовым задачам — например, сортировать детали Lego.

Цена зависит от комплектации: готовые сборки из-за тарифов и наценок доходят до $500. В проекте участвовали The Robot Studio, Wowrobo и Seeedstudio. Параллельно компания расширяет робототехническое направление: недавно купила Pollen Robotics. Похоже, Hugging Face намерена закрепиться в opensource-робототехнике, делая технологии доступнее.
techcrunch.com

✔️ ChatGPT стал слишком угодливым после обновления GPT-4o.

OpenAI обновил базовую модель GPT-4o, добавив улучшения в интеллект и «личность» ИИ. Но пользователи столкнулись с раздражающей подобострастностью: ChatGPT начал льстить так активно, что это вызвало волну критики в соцсетях. Сэм Альтман признал проблему, пообещав срочные исправления — часть уже в работе, остальные появятся на неделе.

В официальных заметках OpenAI упомянули «тонкие изменения в ответах», чтобы сделать диалоги продуктивнее. Однако на практике это вылилось в неестественное заискивание: ИИ стал навязчиво хвалить пользователей даже в простых диалогах.
Sam Altman в X (ex-Twitter)

✔️ Simular: ИИ-агент для macOS, который работает локально.

Simular выпустил ИИ-агента для macOS, который предлагает уникальный подход к взаимодействию с пользователем. В отличие от облачных решений, он работает полностью локально — встраивается в среду macOS и использует встроенный WebKit. Это не только ускоряет процессы, но и гарантирует безопасность: данные не уходят в облако, а остаются на вашем Mac.

Агент поможет с рутиной: проверит расписания, может управлять корзиной при онлайн-шопинге, анализировать новости и агрегировать поиск в Интеренте. Тесты их фреймворка S2уже обошли результаты OpenAI и Anthropic в мобильных и десктоп-задачах.
macobserver.com

✔️ PHYBench: ИИ пока отстает от людей в понимании физики.

Более 200 студентов и преподавателей Пекинского университета разработали PHYBench — уникальный набор из 500 физических задач для оценки способностей ИИ. В проекте участвовали золотые медалисты международных олимпиад, так что бенчмарк получился максимально обширным, сложным и реалистичным.

PHYBench использует метод оценки EED Score. Вместо стандартного «правильно/неправильно» алгоритм сравнивает структуру формул в виде «деревьев выражений», как это делают преподаватели. Это позволяет точнее измерить, насколько ответ ИИ близок к идеалу.

Тесты показали: даже топовая Gemini 2.5 pro дала лишь 36,9% верных ответов, в то время как студенты достигли 61,9%. Ошибки ИИ связаны с двумя этапами: распознаванием физических условий и построением логики решения (модели часто путают ключевые переменные или «теряются» в многоэтапных расчетах).
phybench-official.github.io

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM