187K subscribers
3.49K photos
505 videos
17 files
4.24K links
Погружаемся в машинное обучение и Data Science

Показываем как запускать любые LLm на пальцах.

По всем вопросам - @haarrp

@itchannels_telegram -🔥best channels

Реестр РКН: clck.ru/3Fmqri
Download Telegram
⭐️ Вышел PyTorch 2.6 !
В релиз добавлен ряд улучшений:
🔥 torch.compile теперь поддерживает Python 3.13
🔥 Новый torch.compiler.set_stance
🔥 Улучшения в AOTInductor
🔥 Поддержка FP16 на процессорах X86.
🟢 Релиз

⭐️ OpenAi поделились результатами раннего тестирования o3. Они превосходят практически всех экспертов-людей.
Сегодня утром был опубликован Международный отчет о безопасности искусственного интеллекта, и OpenAI поделилась предварительными результатами тестов o3.
«значительно более высокие показатели, чем у любой предыдущей модели, в ряде самых сложных тестов в области программирования, абстрактного мышления и научного мышления»
🟢International AI Safety Report

⭐️ Цукерберг хайлатит основные моменты из отчета о финансовых результатах:
- LLama 4 и LLama 4 mini (на претренинге)
- Подтверждает ризонинг в LLaMa!
- Llama 4 будет изначально мультимодальной
- это омни-модель
- она будет иметь агентские возможности.
- 👓 — идеальный форм-фактор для ИИ
- строительство центра обработки данных размером с Манхэттен

⭐️ DeepSeek был взломан — все данные, чаты, секретные ключи и бэкенд-системы оказались слиты.
Компания Wiz Research обнаружила «DeepLeak» — общедоступную базу данных ClickHouse, принадлежащую DeepSeek, которая раскрывает крайне конфиденциальную информацию, включая секретные ключи, текстовые сообщения чата, сведения о бэкэнде и журналы.

⭐️ Codegen - новая открытая библиотека Python для работы с кодом.
Codegen - это новый SDK к мощному многоязычному языковому серверу,
Который позволяет делать рефакторинг, применение паттернов, анализ целых проектов и т. д.
🟢Docs: 🟢 Github: 🟢 Community:

⭐️ Microsoft сделали модель R1 от DeepSeek доступной на Azure AI и GitHub. Microsoft на удивление быстро предоставила R1 своим клиентам Azure и планирует выпустить ее уменьшенную версию для Copilot+.
🟢Новость

🍪 Luma LabsAI обновили свой генератор видео Ray2. Теперь он поддерживает вывод 1080p и апскейлинг до 4k!
🟢Dream machine

Трамп предложил ввести 100%-ные пошлины на микросхемы, произведенные на Тайване. Эти меры направлены на то, чтобы вернуть производство полупроводников в США.
Несмотря на открытие завода в Аризоне, TSMC по-прежнему производит большую часть своих чипов на Тайване.
А поскольку чипы TSMC обычно отправляются в Китай и другие азиатские страны для сборки, прежде чем попасть в США, эти пошлины в случае их введения могут привести к росту стоимости такой электроники, как iPhone, игровые графические процессоры и ноутбуки.

⭐️ Atla Selene Mini - новая мощная маленькая модель 8B (SLMJ).
- превосходит лучшие малые модели в задачах оценки на 11 бенчмарках
- превосходит GPT-4o в RewardBench и EvalBiasBench
- отлично работает в реальных приложениях
🟢Ссылка

⭐️Выпущены гайды по работе с Qwen2.5-VL!
Коллекция записных книжек, демонстрирующих варианты использования Qwen2.5-VL, включая локальную модель и API. Примеры включают в себя использование вычислений, пространственное понимание, разбор документов, мобильный агент, распознавание текста, Универсальное распознавание, понимание видео.
🟢Cookbook

@ai_machinelearning_big_data

#pytorch #pytorchrelease #opensource #LLama #LLama4 #openai #chatgpt #ai #news #ml #llm #ainews #LumaLabsAI #Microsoft #DeepSeek #qwen
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
⭐️ Яндекс выпустил в опенсорс Perforator — первую в России открытую систему непрерывного профилирования с подобным широким функционалом.

Perforator анализирует производительность сервисов и помогает компаниям существенно оптимизировать затраты на серверную инфраструктуру. Система уже помогла Яндексу сократить нагрузку на серверах крупных сервисов — Поиска и Рекламы.

Ключевые преимущества:

1️⃣ Аналитика от Perforator помогает снизить затраты на серверы до 20% без потери производительности.
2️⃣ Инструмент работает без необходимости модификации исходного кода и использует возможности eBPF для сбора данных прямо в ядре Linux.
3️⃣ Решение позволяет проводить глубокую аналитику и визуализировать полученные данные с помощью flamegraph.
4️⃣ Поддерживает C++, C, Go, Rust (скоро Python и Java).

🏅 Perforator может применяться в 95% российских компаний, у которых есть свои или арендованные серверы. Инструмент поможет значительно сократить расходы на инфраструктуру без потери производительности.

📄 Статья: https://habr.com/ru/companies/yandex/articles/875070/
📕 Paper

@ai_machinelearning_big_data


#news #opensource
Please open Telegram to view this post
VIEW IN TELEGRAM
⭐️ Mistral AI только что дропнули Small 3!

Вот все, что вам нужно знать:

- 24B параметров
- 81% точности на MMLU и задержка 150 токенов/с
- Позиционируется как замена GPT-40-mini
- Конкурирует с Llama 3.3 70B и Qwen 32B
- в 3 раза быстрее, чем Llama 3.3 70B
- Лицензия Apache 2.0
- Доступны как предварительно обученные, так и настроенные контрольные точки
- без RL и без синтетических данных
- Доступно на la Plateforme, HF и других провайдерах

Великолепная маленькая модель, которая дополняет другие более крупные модели, такие как DeepSeek-R1.

HF: https://huggingface.co/mistralai/Mistral-Small-24B-Instruct-2501
Blog: https://mistral.ai/news/mistral-small-3/

@ai_machinelearning_big_data

#mistral #llm #ml #ai
🐫Tülu 3 (ну и название) 405B - еще один релиз!

Модель с открытым исходным кодом (и нет, это не китайская модель), которая превосходит по производительности DeepSeek-V3! на нескольких бенчмарках

Блог: https://allenai.org/blog/tulu-3-405B
Потестить можно тут: https://playground.allenai.org/?model=tulu3-405b
Technical report: https://allenai.org/blog/tulu-3-technical
Hugging Face: https://huggingface.co/collections/allenai/tulu-3-models-673b8e0dc3512e30e7dc54f5

@ai_machinelearning_big_data

#llm #ml #ai #opensource
🐋 DeepClaude

Высокопроизводительный LLM-интерфейс, который позволяет использовать возможности рассуждений DeepSeek R1 и творческие способности Claude с помощью единого и простого API и удобного иинтерфейса.

Особенности
🚀 Нулевая задержка - Очень быстрые ответы на базе высокопроизводительного API, написанного на Rust.
⚙️ Гибкая настройка соответствии с вашими потребностями
🌟 Открытый исходный код
🤖 Двойная мощь ИИ - объедините рассуждения DeepSeek R1 с и возможностями Claude

⭐️ DeepClaude объединяет обе модели, чтобы обеспечить:

- Новая SOTA 64,0% на бенчмарке aider polyglot
- 14-кратное снижение затрат по сравнению с предыдущей SOTA
- Повышенную точность генерации кода для различных языков программирования

git clone https://github.com/getasterisk/deepclaude.git
cd deepclaude

Github
Docs

@ai_machinelearning_big_data


#DeepSeek #Claude #llm #ml #ai #DeepClaude #opensource
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥🔥🔥Разработчики SmolVLM выложили в опенсорс код для обучения SmolVLM с нуля на 256 H100!

Вдохновленные DeepSeek R1, они выложили в открытый доступ полный код для обучения модели и веса!

Теперь вы можете обучать любой из SmolVLM или создавать свои собственные VLM!

Запустить обучение для SmolVLM 256M очень просто:
./vision/experiments/pretraining/vloom/tr_341_smolvlm_025b_1st_stage/01_launch . sh

Код: https://github.com/huggingface/smollm/tree/main/vision
SmolVLM: https://github.com/huggingface/smollm/tree/main

@ai_machinelearning_big_data


#SmolVLM #llm #opensource #ml #ai
🖥 OpenAI o3-mini теперь доступен в ChatGPT и по API.

Про-пользователи получат неограниченный доступ к o3-mini.

Бесплатные пользователи могут попробовать o3-mini в ChatGPT, выбрав кнопку Reason под сообщением.

Платные пользователи также могут выбрать o3-mini-high в меню выбора моделей, чтобы получить версию с более высоким уровнем интеллекта, которой требуется немного больше времени для ответов.

o3-mini превосходит предыдущие модели на бенчмарке GPQA Diamond, в математике (AIME) и в кодингке (Codeforces).

o3-mini — хорошая модель, но DeepSeek r1 имеет примерно такую же производительность, но при этом дешевле.

Chatgpt:
System Card

@ai_machinelearning_big_data


#openai #chatgp #ai #release #ml #llm
Please open Telegram to view this post
VIEW IN TELEGRAM
🌟 Stable Flow: инпейнт без обучения.

Stable Flow - метод редактирования изображений без предварительного обучения на основе flow-based моделей (FLUX).

Метод основывается на идее определения "жизненно важных слоев" в DiT, которые критически важны для формирования изображения. Эти слои определяются перебором слоев путем измерения отклонений в содержании изображения.

Редактирование изображения выполняется путем параллельной генерации, где признаки из траектории генерации исходного изображения инжектируются в траекторию редактируемого изображения. Такая стратегия раньше применялась в моделях на архитектуре UNet, теперь адаптирована для DiT.

Инъекция происходит только в vital layers, что дает стабильность редактирования, сохраняя нередактируемые области нетронутыми. Это дает возможность выполнять различные типы редактирования: нежесткие деформации, добавление объектов, замену объектов и изменение сцены, используя один и тот же механизм.

Для инпейнта реальных изображений применяется инверсия, выполняемая с помощью солвера Euler Ordinary Differential Equation (ODE), с добавлением метода "подталкивания" вне распределения. Этот метод заключается в небольшом скалярном возмущении чистого латентного пространства, что позволяет улучшить точность реконструкции и ограничить изменения в процессе редактирования.

Пользовательское исследование подтвердило, что Stable Flow превосходит SDEdit, P2P+NTI, Instruct-P2P, MagicBrush, MasaCTRL по 4 категориям: соответствие текстовому запросу, сохранение исходного изображения, реалистичность и общее качество редактирования.

⚠️ Для запуска кода Satble Flow необходим токен HuggingFace

⚠️ Проект поддерживает возможность CPU offload, он включается ключом --cpu_offload при инференсе.

▶️Локальная установка и инференс:

# Clone repo
git clone https://github.com/snap-research/stable-flow.git
cd stable-flow

# Create conda env
conda env create -f environment.yml
conda activate stable-flow

# Batch image inference
python run_stable_flow.py \
--hf_token YOUR_PERSONAL_HUGGINGFACE_TOKEN \
--prompts "A photo of a dog in standing the street" \
"A photo of a dog sitting in the street" \
"A photo of a dog in standing and wearing a straw hat the street" \
"A photo of a mink"

# Image editing inference
python run_stable_flow.py \
--hf_token YOUR_PERSONAL_HUGGINGFACE_TOKEN \
--input_img_path inputs/bottle.jpg \
--prompts "A photo of a bottle" \
"A photo of a bottle next to an apple"



🟡Страница проекта
🟡Arxiv
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #StableFlow
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
LitGPT

20+ производительных LLM, написанных с нуля, с подробным описанием, инструкциями, файнтюнигу и деплою.

Особенности:
🟢 Модели написаны с нуля
🟢 Нет абстракций
🟢 Подходит для обучения новичков
🟢 Flash attention
🟢 FSDP
🟢 LoRA, QLoRA, Adapter
🟢 Уменьшение памяти GPU (fp4/8/16/32)
🟢 1-1000+ GPU/TPUs
🟢 20+ LLMs

Установка:


pip install 'litgpt[all]'

Пример:

from litgpt import LLM

llm = LLM.load("microsoft/phi-2")
text = llm.generate("Fix the spelling: Every fall, the familly goes to the mountains.")
print(text)
# Corrected Sentence: Every fall, the family goes to the mountains.


Github
Docs
Video

@ai_machinelearning_big_data



#LitGPT #tutorial #llm #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
⭐️ Ночью OpenAI выпустила Deep Research — ИИ-агента для проведения исследований анализа и поиска информации.

Вводите промпт и ChatGPT найдет, проанализирует и синтезирует сотни онлайн-ресурсов, чтобы создать развернутый отчет за 10 минут работы, вместо нескольких часов, которые потребовались бы человеку.

Основные моменты:

— Уже доступен для пользователей Pro.
— Агент предоставит полный список источников, а также прокомментирует каждый из них;
— Хорошо подходит для решения задач, связанных с поиском в интернете.
Набрал 26.6 % на «Последнем экзамене человечества».
🟢Подробнее

⭐️WeatherNext продвинутый искусственный интеллект от Google DeepMind для прогнозирования погоды с открытым исходным кодом!

ИИ превосходит существующие методы как по точности, так и по вычислительной эффективности, предлагая обновления прогнозов в реальном времени четыре раза в день через Google Cloud, BigQuery и Earth Engine.
Исследователи могут получить доступ как к текущим, так и к историческим прогнозам для анализа и планирования.

Внутри 2 мощных инструмента:
WeatherNext Graph:
- Формирует единый сверхточный прогноз.
- Обновления происходят каждые 6 часов.
- Предсказания делаются на 10 дней вперёд.
- Выдает прогнозы с максимальной точностью.

WeatherNext Gen:
- Генерирует ансамблевые прогнозы из 50 вероятных сценариев.
- Обновление прогноза происходит каждые 12 часов.
- Модель позволяет лучше оценивать риски экстремальных погодных явлений.

Преимущества над традиционными методами:
- Более высокая скорость обработки данных.
- Значительное повышение точности по сравнению с физическими моделями.
- Опенсорс
🟢Blog

⭐️ Вышло пятичасовое интервью от Lex Fridman с Dylan Patel и Nathan Lambert (Ai2).

Внутри много интересного о DeepSeek, Китае, OpenAI, NVIDIA, xAI, Google, Anthropic, Meta, Microsoft, TSMC, Stargate, строительстве мегакластеров, RL, ризонинге и множестве других тем на передовых ИИ тематик.

Очень интересная и наполненная техническими деталями беседа.
🟢 YouTube 🟢Podcast

⭐️ Ряд интересных обновлений в Qwen Chat!

- Новая модель: Qwen2.5-Plus теперь обновлен до qwen-plus-0125-exp, с новыми методами пост-тренинга. Разрыв с Qwen2.5-Max значительно сократился.
- Гибкие режимы: Убрали все ограничения на переключение между режимами в течение одной сессии! С.
- Неограниченный ввод: Поддержка текстов длиной более 10 000 символов
- Возможность загружайть файлы txt, pdf, docx, xlsx, pptx, md и другие. Теперь длинный ввод не требует усилий.
🟢Попробовать

⭐️ Open-R1: Большой гайд посвященный экспериментам, инструментами, исследованиям и разборам DeepSeek R1!

Резюме самых интересных открытий за первую неделю с момента появления DS.
🟢HF 🟢Github:

⭐️ Гонка ИИ продолжается. Самый богатый человек Индии хочет построить крупнейший в мире центр обработки данных, в пять раз превышающий по мощности крупнейший датацентр Microsoft

Компания Reliance Group Мукеша Амбани, один из крупнейших и наиболее влиятельных индийских конгломератов, строит крупный центр обработки данных в Джамнагаре - небольшом городке в штате Гуджарат, где уже расположены крупные нефтеперерабатывающие и нефтехимические предприятия Reliance.
По сообщениям Bloomberg, общая мощность центра обработки данных, который может стать крупнейшим в мире, составит 3 гигаватта, что значительно увеличит текущую мощность индийских центров обработки данных, которая оценивается менее чем в 1 гигаватт.

Таким образом, он будет в пять раз больше, чем 600-мегаваттный центр Microsoft в Бойдтоне, штат Вирджиния.
🟢Подробнее

⭐️ Google представили метахранилище для Lakehouse!

Метахранилище - это высокомасштабируемый сервис метаданных во время выполнения, который работает с несколькими движками: BigQuery, Apache Spark, Apache Hive и Apache Flink, и поддерживает открытый формат таблиц Apache Iceberg
🟢Подробнее


@ai_machinelearning_big_data


#DeepSeek #opensource #ai #ml #llm #machinelearning #guide #news #chatgpt #openai #google #deepmind #qwen #DataAnalytics #ainews #news
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM