191K subscribers
3.45K photos
468 videos
17 files
4.19K links
Погружаемся в машинное обучение и Data Science

Показываем как запускать любые LLm на пальцах.

По всем вопросам - @haarrp

@itchannels_telegram -🔥best channels

Реестр РКН: clck.ru/3Fmqri
Download Telegram
🌟 Stable Flow: инпейнт без обучения.

Stable Flow - метод редактирования изображений без предварительного обучения на основе flow-based моделей (FLUX).

Метод основывается на идее определения "жизненно важных слоев" в DiT, которые критически важны для формирования изображения. Эти слои определяются перебором слоев путем измерения отклонений в содержании изображения.

Редактирование изображения выполняется путем параллельной генерации, где признаки из траектории генерации исходного изображения инжектируются в траекторию редактируемого изображения. Такая стратегия раньше применялась в моделях на архитектуре UNet, теперь адаптирована для DiT.

Инъекция происходит только в vital layers, что дает стабильность редактирования, сохраняя нередактируемые области нетронутыми. Это дает возможность выполнять различные типы редактирования: нежесткие деформации, добавление объектов, замену объектов и изменение сцены, используя один и тот же механизм.

Для инпейнта реальных изображений применяется инверсия, выполняемая с помощью солвера Euler Ordinary Differential Equation (ODE), с добавлением метода "подталкивания" вне распределения. Этот метод заключается в небольшом скалярном возмущении чистого латентного пространства, что позволяет улучшить точность реконструкции и ограничить изменения в процессе редактирования.

Пользовательское исследование подтвердило, что Stable Flow превосходит SDEdit, P2P+NTI, Instruct-P2P, MagicBrush, MasaCTRL по 4 категориям: соответствие текстовому запросу, сохранение исходного изображения, реалистичность и общее качество редактирования.

⚠️ Для запуска кода Satble Flow необходим токен HuggingFace

⚠️ Проект поддерживает возможность CPU offload, он включается ключом --cpu_offload при инференсе.

▶️Локальная установка и инференс:

# Clone repo
git clone https://github.com/snap-research/stable-flow.git
cd stable-flow

# Create conda env
conda env create -f environment.yml
conda activate stable-flow

# Batch image inference
python run_stable_flow.py \
--hf_token YOUR_PERSONAL_HUGGINGFACE_TOKEN \
--prompts "A photo of a dog in standing the street" \
"A photo of a dog sitting in the street" \
"A photo of a dog in standing and wearing a straw hat the street" \
"A photo of a mink"

# Image editing inference
python run_stable_flow.py \
--hf_token YOUR_PERSONAL_HUGGINGFACE_TOKEN \
--input_img_path inputs/bottle.jpg \
--prompts "A photo of a bottle" \
"A photo of a bottle next to an apple"



🟡Страница проекта
🟡Arxiv
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #StableFlow
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
LitGPT

20+ производительных LLM, написанных с нуля, с подробным описанием, инструкциями, файнтюнигу и деплою.

Особенности:
🟢 Модели написаны с нуля
🟢 Нет абстракций
🟢 Подходит для обучения новичков
🟢 Flash attention
🟢 FSDP
🟢 LoRA, QLoRA, Adapter
🟢 Уменьшение памяти GPU (fp4/8/16/32)
🟢 1-1000+ GPU/TPUs
🟢 20+ LLMs

Установка:


pip install 'litgpt[all]'

Пример:

from litgpt import LLM

llm = LLM.load("microsoft/phi-2")
text = llm.generate("Fix the spelling: Every fall, the familly goes to the mountains.")
print(text)
# Corrected Sentence: Every fall, the family goes to the mountains.


Github
Docs
Video

@ai_machinelearning_big_data



#LitGPT #tutorial #llm #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
⭐️ Ночью OpenAI выпустила Deep Research — ИИ-агента для проведения исследований анализа и поиска информации.

Вводите промпт и ChatGPT найдет, проанализирует и синтезирует сотни онлайн-ресурсов, чтобы создать развернутый отчет за 10 минут работы, вместо нескольких часов, которые потребовались бы человеку.

Основные моменты:

— Уже доступен для пользователей Pro.
— Агент предоставит полный список источников, а также прокомментирует каждый из них;
— Хорошо подходит для решения задач, связанных с поиском в интернете.
Набрал 26.6 % на «Последнем экзамене человечества».
🟢Подробнее

⭐️WeatherNext продвинутый искусственный интеллект от Google DeepMind для прогнозирования погоды с открытым исходным кодом!

ИИ превосходит существующие методы как по точности, так и по вычислительной эффективности, предлагая обновления прогнозов в реальном времени четыре раза в день через Google Cloud, BigQuery и Earth Engine.
Исследователи могут получить доступ как к текущим, так и к историческим прогнозам для анализа и планирования.

Внутри 2 мощных инструмента:
WeatherNext Graph:
- Формирует единый сверхточный прогноз.
- Обновления происходят каждые 6 часов.
- Предсказания делаются на 10 дней вперёд.
- Выдает прогнозы с максимальной точностью.

WeatherNext Gen:
- Генерирует ансамблевые прогнозы из 50 вероятных сценариев.
- Обновление прогноза происходит каждые 12 часов.
- Модель позволяет лучше оценивать риски экстремальных погодных явлений.

Преимущества над традиционными методами:
- Более высокая скорость обработки данных.
- Значительное повышение точности по сравнению с физическими моделями.
- Опенсорс
🟢Blog

⭐️ Вышло пятичасовое интервью от Lex Fridman с Dylan Patel и Nathan Lambert (Ai2).

Внутри много интересного о DeepSeek, Китае, OpenAI, NVIDIA, xAI, Google, Anthropic, Meta, Microsoft, TSMC, Stargate, строительстве мегакластеров, RL, ризонинге и множестве других тем на передовых ИИ тематик.

Очень интересная и наполненная техническими деталями беседа.
🟢 YouTube 🟢Podcast

⭐️ Ряд интересных обновлений в Qwen Chat!

- Новая модель: Qwen2.5-Plus теперь обновлен до qwen-plus-0125-exp, с новыми методами пост-тренинга. Разрыв с Qwen2.5-Max значительно сократился.
- Гибкие режимы: Убрали все ограничения на переключение между режимами в течение одной сессии! С.
- Неограниченный ввод: Поддержка текстов длиной более 10 000 символов
- Возможность загружайть файлы txt, pdf, docx, xlsx, pptx, md и другие. Теперь длинный ввод не требует усилий.
🟢Попробовать

⭐️ Open-R1: Большой гайд посвященный экспериментам, инструментами, исследованиям и разборам DeepSeek R1!

Резюме самых интересных открытий за первую неделю с момента появления DS.
🟢HF 🟢Github:

⭐️ Гонка ИИ продолжается. Самый богатый человек Индии хочет построить крупнейший в мире центр обработки данных, в пять раз превышающий по мощности крупнейший датацентр Microsoft

Компания Reliance Group Мукеша Амбани, один из крупнейших и наиболее влиятельных индийских конгломератов, строит крупный центр обработки данных в Джамнагаре - небольшом городке в штате Гуджарат, где уже расположены крупные нефтеперерабатывающие и нефтехимические предприятия Reliance.
По сообщениям Bloomberg, общая мощность центра обработки данных, который может стать крупнейшим в мире, составит 3 гигаватта, что значительно увеличит текущую мощность индийских центров обработки данных, которая оценивается менее чем в 1 гигаватт.

Таким образом, он будет в пять раз больше, чем 600-мегаваттный центр Microsoft в Бойдтоне, штат Вирджиния.
🟢Подробнее

⭐️ Google представили метахранилище для Lakehouse!

Метахранилище - это высокомасштабируемый сервис метаданных во время выполнения, который работает с несколькими движками: BigQuery, Apache Spark, Apache Hive и Apache Flink, и поддерживает открытый формат таблиц Apache Iceberg
🟢Подробнее


@ai_machinelearning_big_data


#DeepSeek #opensource #ai #ml #llm #machinelearning #guide #news #chatgpt #openai #google #deepmind #qwen #DataAnalytics #ainews #news
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
✔️ Защитный щит Anthropic против взлома LLM.

Anthropic разработала новый метод защиты LLM от джейлбрейк-атак, который не исправляет сами модели, а блокирует попытки взлома, не допуская нежелательных ответов.

Для создания защитного экрана компания сгенерировала датасет вопросов и ответов и перевела их на несколько языков, переписала в стиле запросов, которые используются хакерами.

Чтобы проверить эффективности экрана, Anthropic провела конкурс, где 183 участника более 3000 часов пытались обмануть Claude, но никто не смог получить ответ на более чем на 5 из 10 запрещенных вопросов. Затем провели второй тест, где 10 000 джейлбрейков, созданных LLM, были направлены на защитный экран. Пробить его смогли только 4,4% запросов, а без использования экрана - 86%. Есть минус - система защиты может блокировать безобидные вопросы и увеличивает вычислительные затраты.
technologyreview.com

✔️ ИИ приближает возможность самовосстанавливающегося асфальта.

Ученые из Университета Суонси и Королевского колледжа Лондона в сотрудничестве с коллегами из Чили объявили о планах по разработке самовосстанавливающихся асфальтовых дорог из биомассы с использованием ИИ.

Исследования показали, что можно обратить вспять процесс растрескивания битума, чтобы «сшить» асфальт обратно. Для создания «самовосстанавливающегося» асфальта команда добавила крошечные пористые материалы - споры, заполненные переработанным растительным маслом. При появлении микротрещин масло высвобождается из спор, чтобы заполнить трещины и предотвратить окисление битума, которое приводит к образованию выбоин. Лабораторные эксперименты показали, что биоспоровые микрокапсулы полностью залечивали трещины в образце состаренного битума за 50 минут. Исследования стали возможны благодаря ML, которое применялось для изучения органических молекул в сложных вязких субстанциях.
highwaysmagazine.co.uk

✔️ DeepSeek блокируют по всему миру из-за опасений по поводу безопасности данных.

Растет число стран и правительственных органов которые запретили использование моделей DeepSeek, выразив обеспокоенность по поводу этики, конфиденциальности и безопасности компании. Согласно политике DeepSeek, все данные пользователей хранятся в Китае, где местные законы требуют от организаций делиться данными с спецслужбами по запросу.

Италия стала одной из первых стран, запретивших DeepSeek после расследования комитетом по защите конфиденциальности. Тайвань запретил использование DeepSeek в гос.учреждениях из-за риска утечки информации. Конгресс США, Министерство обороны США, НАСА и и штат Техас также запретили использовать технологии DeepSeek, сославшись на потенциальные угрозы безопасности.
techcrunch.com

✔️ ИИ разрабатывает компьютерные чипы, которые человеческий разум не может понять.

CNN, разработанная в Принстонском университете, спроектировала беспроводные чипы, которые превосходят существующие аналоги. Нейронная сеть пользовалась методикой реверсивного инжиниринга - она проанализировала желаемые свойства чипа и создала его его в обратном порядке. Инженеры не смогли объяснить, как работают эти чипы, что может привести к проблемам с их ремонтом и сделать их одноразовыми.
popularmechanics.com

✔️ Google Cloud представляет новые виртуальные машины A4 на базе NVIDIA B200 для ИИ.

Google Cloud анонсировала предварительный показ новых виртуальных машин A4, оснащенных NVIDIA Blackwell B200. Каждая A4 VM имеет 8 GPU Blackwell, соединенных NVLink пятого поколения, что обеспечивает двухкратное увеличение производительности по сравнению с A3 High VM предыдущего поколения.

A4 VMs подходят для обучения и тонкой настройки различных архитектур моделей и используют сетевой адаптер Titanium ML, который предоставляет неблокирующую передачу данных между GPUs со скоростью 3,2 Тбит/с.

Google предлагает различные модели потребления - Dynamic Workload Scheduler с режимами Flex Start и Calendar для различных рабочих нагрузок.
cloud.google.com

✔️ Goedel-Prover: 7B LLM - новая SOTA по производительности в доказательстве теорем! 1-е место в таблице лидеров PutnamBench.

Blog Github


#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
⭐️ Первый Open Source аналог Deep Research от OpenAI.

Реализация ИИ-ресерчера, который непрерывно ищет информацию по запросу пользователя, пока система не убедится, что собрала все необходимые данные.

Для этого он использует несколько сервисов:

- SERPAPI: Для выполнения поиска в Google.
- Jina: Для получения и извлечения содержимого веб-страниц.
- OpenRouter (модель по умолчанию: anthropic/claude-3.5-haiku): Взаимодействует с LLM для генерации поисковых запросов, оценки релевантности страниц и понимания контекста.

🟢 Функции
- Итеративный цикл исследования: Система итеративно уточняет свои поисковые запросы.
- Асинхронная обработка: Поиск, парсинг веб-страниц и оценка контекста - выполняются параллельно для повышения скорости.
- Фильтрация дубликатов: Агрегирует и дедуплицирует ссылки в каждом цикле, проверяя, что одна и та же информация не будет обработана дважды.

Github
Google Colab

@ai_machinelearning_big_data


#opensource #llm #ai #ml #DeepResearcher
Please open Telegram to view this post
VIEW IN TELEGRAM
✔️ ByteDance анонсировала OmniHuman-1, ИИ для анимации людей и персонажей из изображений.

OmniHuman-1 преобразует фотографии в видео, добавляя движение и речь и умеет обрабатывать текст, изображения, аудио и позы одновременно. OmniHuman-1 создает качественную анимацию как из портретов, так и из изображений в полный рост. Представленные демо-материалы показывают естественные движения губ, жесты и качественную обработку пропорции тела с учетом окружения. Длина генерируемых видео не ограничена и зависит только от доступной памяти. Помимо анимации людей, заявлена возможность оживлять персонажей мультфильмов.
omnihuman-lab.github.io

✔️ Adobe запустила ИИ для анализа контрактов.

Acrobat AI Assistant теперь может автоматически определять контракты, суммировать ключевые условия и сравнивать различия в разных версиях. По данным Adobe, почти 70% потребителей подписывают контракты, не понимая всех условий. Новая система действует как интеллектуальный помощник, помогая пользователям находить и понимать важные части документов, предоставляя ссылки на источник.

Технология анализирует текст PDF-документа и может обрабатывать даже отсканированные документы. Adobe заявляет, что данные пользователей не агрегируются и не используются для обучения ИИ-моделей. Новая функция доступна за 5 долл. в месяц и, согласно аналитике раннего доступа, помогла сократить время проверки контрактов на 70-80% у пользователей тестовой группы.
venturebeat.com

✔️ Dassault Systemes представила систему для управления жизненным циклом интеллектуальной собственности с ИИ.

3D UNIV+RSES - новая архитектура, в основе которой лежат технологии GenAI для управления глобальным жизненным циклом интеллектуальной собственности (IPLM). Архитектура позволяет клиентам использовать свои 3D-проекты, цифровые двойники и данные PLM в новом пространстве представления, создавая среду для обучения новых категорий сервисов, таких как Generative Experiences (GenXp), Virtual Companions и Virtual Twin Experience as a Service (VTaaS).

По словам Dassault Systèmes, 3D UNIV+RSES — это новое поколение представления мира, объединяющее моделирование, симуляцию, данные реального мира и контент, сгенерированный ИИ. Эта технология позволяет создавать виртуальные двойники всего и виртуализировать целые экосистемы.
3ds.com

✔️ Block запустила открытую ИИ-платформу Codename Goose.

Codename Goose - опенсорсная и некоммерческая ИИ-платформа для автоматизации задач. Goose представляет собой гибкого AI-ассистента, работающего локально и настраиваемого с помощью расширений.

Платформа интегрируется с GitHub, Google Drive и JetBrains IDEs и позволяет создавать пользовательские интеграции через MCP. Goose способен выполнять сложные задачи, координируя свои возможности и позволяя пользователям выбирать предпочтительных поставщиков LLM. Goose поддерживает решение задач миграции кода, генерации юнит-тестов, создание API, управление флагами функций и автоматизации бенчмаркинга производительности. Платформа поддерживает запуск через декстопное приложение или командную строку.
block.github.io

✔️ Physical Intelligence опубликовала новые модели для управления роботами.

Physical Intelligence выпустила π0 и π0-FAST, модели Vision-Language-Action для общего управления роботами, которые доступны в репозитории Hugging Face LeRobot.
π0 — это модель, основанная на масштабном предварительном обучении и генерации действий на основе сопоставления потоков, способная выполнять сложные задачи, например, складывание белья, уборка стола и сборка коробок. Она обучена на данных с 7 робототехнических платформ и 68 уникальных задач. π0 производит плавные траектории действий в реальном времени с частотой 50 Гц.
π0-FAST - авторегрессионная версия π0, в которой используется FAST (токенизация последовательности действий в частотном пространстве) для улучшенного представления действий и ускорения обучения.
huggingface.co

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🧠 Open-source DeepResearch

Вышла еще одна реализация DeepResearch, на этот раз от команда hugging face.

За 24 часа разработчики воспроизвели DS и выложили исходный код своего агента!

🟢Это полностью открытый агент, который может: автономно работать в Интернете прокручивать и искать страницы, загружать и работать с файлами, выполнять вычисления с данными и тд...
🟢На бенчмарке GAIA точность Deep Research достигла 67 %.
🟢54% на Magentic-One

Построен на базе CodeAgent. Самый большой буст в производительности удалось получить, когда разработчики разрешили агенту
писать свои действия в коде.

При переходе на стандартного агента, который пишет действия в JSON, а не в коде, производительность той же самой настройки мгновенно падает до 33 %.

Блог: https://huggingface.co/blog/open-deep-research
Код: https://github.com/huggingface/smolagents/tree/main/examples/open_deep_research


@ai_machinelearning_big_data


#ai #ml #huggingface #hf #aiagent #llm #DeepResearch
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
⭐️ Новый релиз от Deepseek: DeepSeek-VL2-small (16B MoE) для vision-language задач.

Демо новой модели стало доступно на huggingface 🚀

Отличная модель для OCR задач, извлечения текста, распознания картинок и использования в чате.

🤗 HF: https://huggingface.co/spaces/deepseek-ai/deepseek-vl2-small

@ai_machinelearning_big_data


#deepseek #OCR #demo #prerelease
Please open Telegram to view this post
VIEW IN TELEGRAM
⚡️ Обновления от Google для семейства моделей Gemini:

- На Арене Gemini-2.0-Pro (контекстное окно размером 2 млн) занимает 1-е место во всех категориях
- Gemini-2.0-Flash- 3-место в кодинге, математике и категории «Hard Prompts»
- Gemini-2.0-Flash топ-3 в категориях
- Gemini 2.0 Flash-Lite в топ-10 по всем категориям.

Что касается ризонинга, то в приложении Gemini также появилась версия Flash Thinking Experimental 2.0, которая в настоящее время так же занимает лидирующие позиции в рейтинге LM Arena .

https://developers.googleblog.com/en/gemini-2-family-expands/

@ai_machinelearning_big_data


#Gemini #google #deepmind #Gemini2
Please open Telegram to view this post
VIEW IN TELEGRAM