Машинное обучение RU
17.5K subscribers
1.43K photos
176 videos
11 files
1.89K links
Все о машинном обучении

админ - @workakkk

@data_analysis_ml - анализ даннных

@ai_machinelearning_big_data - Machine learning

@itchannels_telegram -лучшие ит-каналы

@pythonl - Python

@pythonlbooks- python 📚

@datascienceiot - 📚

РКН: clck.ru/3FmrUw
Download Telegram
Forwarded from Machinelearning
🌟 CogVideoX Factory: оптимизация файнтюна моделей генерации видео семейства CogVideoX.

CogVideoX Factory - репозиторий с набором скриптов для эффективного файнтюна моделей семейства CogVideoX (CogVideoX-2B и CogVideoX-5B) с фокусом на оптимизацию VRAM. CogVideoX Factory позволяет выполнять обучение на GPU с 24 GB.

Проект предоставляет гибкость в выборе между LoRA и файнтюном всей модели для задач "text-to-video" и "IMG-to-video".

Чтобы сделать возможным файнтюн на ограниченных ресурсах, CogVideoX использует методы оптимизации:

🟢CPUOffloadOptimizer - перемещает обучаемые параметры и градиенты модели в CPU, освобождая память GPU для других операций;

🟢DeepSpeed Zero2 - распределяет параметры модели по нескольким GPU, что позволяет обучать большие модели, которые иначе не поместились бы в память одного GPU;

🟢LoRA - метод тонкой настройки, который изменяет только небольшое подмножество параметров модели, сохраняя при этом основную часть весов неизменной.

CogVideoX Factory предлагает сценарии обучения:

🟠LoRA для "text-to-video": cкрипт train_text_to_video_lora.sh;

🟠LoRA для "IMG-to-video": cкрипт train_image_to_video_lora.sh;

🟠SFT всей модели для "text-to-video": скрипт train_text_to_video_sft.sh.

⚠️ Предварительная подготовка данных - один из важнейших условий CogVideoX Factory. Скрипт prepare_dataset.py играет ключевую роль в этом процессе, преобразуя видео и аннотации в латенты и эмбединги. Использование предварительно вычисленных латентов и эмбедингов позволяет не загружать VAE и T5 во время обучения.

CogVideoX Factory предлагает подробную документацию, в которой объясняются шаги по подготовке датасетов, настройке параметров обучения, запуску инференса, информацию о требованиях к памяти для каждой модели и конфигурации, помогая принять корректные решения о выборе стратегии обучения.


📌Лицензирование : Apache 2.0 License.


🖥Github


@ai_machinelearning_big_data

#AI #ML #LoRA #T2V #IMG2V #Finetune
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍63🔥2
Forwarded from Machinelearning
⚡️ OpenAI Swarm: Экспериментальный фреймворк для оркестрации мультиагентных систем.

Swarm - это экспериментальный фреймворк, разработанный командой OpenAI Solutions, для создания, оркестрации и развертывания многоагентных систем. Фреймворк фокусируется на упрощении координации, запуска, контроля и тестирования агентов.

Основная цель Swarm - продемонстрировать паттерны, описанные в Orchestrating Agents: Handoffs & Routines cookbook.

Фреймворк построен на двух основных абстракциях: агентах (Agent) и передачах управления (handoffs):

Агент - это набор инструкций и функций, который может передавать выполнение другим агентам. Его можно использовать для описания конкретного рабочего процесса или шага (например, последовательность шагов, сложный поиск, одноэтапное преобразование данных и так далее).

Передача управления — это процесс, при котором агент может передать запрос другому агенту, возвращая его в функцию. В процессе передачи управления также происходит обновление переменных контекста, что позволяет вернуть более полный объект Result.

▶️В репозитории собраны функциональные примеры Swarm:

🟢basic - простые примеры настройки, вызова функций, передача данных и контекстные переменные;

🟢traige agent - пример роя с агентом сортировки, который принимает пользовательские данные и решает, ответить ли на запрос напрямую или передать его агенту по продажам или возврату денег;

🟢weather agent - погодный агент с вызовом функций (запрос по городу и отправка на e-mail);

🟢airlines - мультиагентный пример обработки клиентских запросов в контексте авиакомпании (сортировка запросов, изменения рейсов, отмены бронирований и случаи потери багажа);

🟢support_bot - клиентский бот центра поддержки с несколькими инструментами;

🟢personal shopper - пример роя агентов персонального торгового агента, который может помогать совершать покупки и возвращать заказы;

⚠️ Swarm не использует API Assistants и полностью работает на API Chat Completions.

⚠️ Swarm не предназначен для промышленного использования и не имеет официальной поддержки.

▶️ Локальная установка и запуск:

# Install from PIP
pip install git+https://github.com/openai/swarm.git

# Usage
from swarm import Swarm, Agent
client = Swarm()

def transfer_to_agent_b():
return agent_b

agent_a = Agent(
name="Agent A",
instructions="You are a helpful agent.",
functions=[transfer_to_agent_b],
)

agent_b = Agent(
name="Agent B",
instructions="Only speak in Haikus.",
)

response = client.run(
agent=agent_a,
messages=[{"role": "user", "content": "I want to talk to agent B."}],
)

print(response.messages[-1]["content"])


📌Лицензирование : MIT License.


🖥GitHub
🟡Orchestrating Agents Cookbook


@ai_machinelearning_big_data

#AI #ML #Agents #OpenAI #Swarm
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍21
This media is not supported in your browser
VIEW IN TELEGRAM
🔈 Otter.ai — это платформа для автоматического создания заметок на основе голосовых записей с помощью ИИ, предназначенная для повышения продуктивности и удобства ведения встреч. Этот сервис предоставляет пользователям возможность записывать разговоры, получать текстовые расшифровки. Otter.ai активно используется бизнесом, образовательными учреждениями, журналистами и другими профессионалами для ведения встреч, интервью, лекций и любых других важных разговоров, обеспечивая легкое управление и анализ данных.

💡 Основные функции:

🌟 Синхронизация аудио, текста и изображений: Инструмент интегрирует не только текст, но и другие мультимедийные элементы, обеспечивая комплексное представление о беседе

🌟 Поддержка онлайн- и офлайн-режимов: Приложение можно использовать как в реальном времени на встречах (например, Zoom, Google Meet), так и для постфактум анализа записей

🔗 Ссылка: *клик*

@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
👍52👎1🔥1
⚡️ Выпущена Ollama 0.3.13

Доступны новые модели безопасности! ((Llama Guard 3 от Meta и ShieldGemma от Google)

Работа над новой версии Go runner для повышения надежности и кэширования моделей.

https://github.com/ollama/ollama/releases/tag/v0.3.13

@machinelearning_ru
3👍3🔥2
⚡️Легкий способ получать свежие обновления и следить за трендами в разработке на вашем языке. Находите свой стек и подписывайтесь:

МАШИННОЕ ОБУЧЕНИЕ: t.me/ai_machinelearning_big_data
C++ t.me/cpluspluc
Python: t.me/python_job_interview
Хакинг: t.me/linuxkalii
Devops: t.me/DevOPSitsec
АНАЛИЗ Данных: t.me/data_analysis_ml
Javascript: t.me/javascriptv
C#: t.me/csharp_ci
Java: t.me/javatg
Базы данных: t.me/sqlhub
Linux: t.me/linuxacademiya
Python собеседования: t.me/python_job_interview
Мобильная разработка: t.me/mobdevelop
Docker: t.me/DevopsDocker
Golang: t.me/golang_interview
React: t.me/react_tg
Rust: t.me/rust_code
ИИ: t.me/vistehno
PHP: t.me/phpshka
Android: t.me/android_its
Frontend: t.me/front
Big Data: t.me/bigdatai
Собеседования МЛ: t.me/machinelearning_interview
МАТЕМАТИКА: t.me/data_math
Kubernets: t.me/kubernetc


💼 Папка с вакансиями: t.me/addlist/_zyy_jQ_QUsyM2Vi
Папка Go разработчика: t.me/addlist/MUtJEeJSxeY2YTFi
Папка Python разработчика: t.me/addlist/eEPya-HF6mkxMGIy
Папка ML: https://t.me/addlist/2Ls-snqEeytkMDgy
Папка FRONTEND: https://t.me/addlist/mzMMG3RPZhY2M2Iy

😆ИТ-Мемы: t.me/memes_prog
🇬🇧Английский: t.me/english_forprogrammers
🧠ИИ: t.me/vistehno

🎓954ГБ ОПЕНСОРС КУРСОВ: @courses
📕Ит-книги бесплатно: https://t.me/addlist/BkskQciUW_FhNjEy
2
🖥 Voice Chat with PDFs — это проект, использующий API OpenAI для взаимодействия с документами в реальном времени. Он создан на основе LlamaIndex и позволяет загружать PDF-документы, создавать их эмбеддинги и вести голосовой чат с содержимым документа. Поддерживаются режимы ручного общения (Push-to-talk) и автоматического обнаружения голоса (Voice Activity Detection). Для работы требуется OpenAI API ключ. Проект разработан на базе Next.js и LlamaIndexTS

🔐 Лицензия: MIT

▪️Github

@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
👍83🔥2
Forwarded from Machinelearning
📎 ML: Медицинский дайджест за период 07.10 - 13.10 2024 г.


▶️ Модели машинного обучения и бенчмарки

🔘ONCOPILOT: Интерактивная модель для сегментации опухолей на основе КТ и измерения по RECIST 1.1.

Цель модели - сгенерировать 3D-предсказание объема конкретной анатомической структуры на основе входного изображения и визуальной маркировки.

🔘RespLLM: MLLM для прогнозирования состояния дыхательной системы.

RespLLM использует знания LLM и кросс-модальное внимание для объединения звука и текста чтобы оценить состояние дыхательной системы по аудио.

🔘GlucoBench: набор данных для прогнозирования уровня глюкозы.

GlucoBench - комплексныq ресурс для исследований в области прогнозирования уровня глюкозы на основе данных непрерывного мониторинга глюкозы (CGM).

🔘DiffAbXL: Модель диффузии для оценки аффинности связывания антител.

DiffAbXL - это масштабируемая модель диффузии, разработанная для прогнозирования и ранжирования аффинности связывания антител.


▶️ Фреймворки и методологии

🔘DALL-M: Система дополнения клинических данных с учетом контекста с помощью LLM.

DALL-M - платформа, которая использует LLM для создания новых клинически значимых признаков, дополняя наборы данных рентгеновских снимков с учетом контекста.

🔘ClinicalLab: Платформа для оценки и разработки медицинских агентов, имитирующая реальный клинический диагностический процесс.

ClinicalLab - набор инструментов и методологий, предназначенных для оценки и разработки медицинских агентов на основе LLM, которые могут эффективно имитировать процесс клинической диагностики.

🔘Синтез хирургических наборов данных с помощью диффузионных моделей.

Метод, основанный на диффузионных моделях, который позволяет генерировать реалистичные хирургические изображения с полными аннотациями.


▶️Медицинские LLM-приложения

🔘MMedAgent: Мультимодальный медицинский агент.

MMedAgent предназначен для обработки медицинских изображений разных модальностей и решения задач: grounding, сегментация, классификация, генерация медицинских отчетов (MRG), генерация с извлечением информации (RAG) и визуальные вопросы и ответы (VQA).

🔘Гибридная система для выявления редких заболеваний из неструктурированных клинических отчетов.

Cистема предназначена для решения проблемы идентификации редких заболеваний, используя преимущества как NLP-инструментов, так и LLM.

🔘LLM-AMT: конвейер для повышения точности LLM в задачах QA.

Конвейер, который улучшает работу LLM в медицинской области, добавляя к ним информацию из медицинских учебников.


▶️Исследования и обзоры

🔘Реконструкция изображений компьютерной томографии с малым числом ракурсов.

Исследование, посвященное поиску эффективных методов реконструкции КТ-изображений с ограниченным числом проекций.


🔜 Читать полный дайджест


@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
8🔥2🥰2
🖥 MegaBlocks — это легковесная библиотека от Databricks для обучения моделей с использованием смеси экспертов (Mixture-of-Experts, MoE). Она включает оптимизированные MoE-слои, поддерживает параллельное обучение данных и экспертов, а также использует алгоритмы, которые позволяют повысить эффективность тренировки

🌟 Библиотека интегрирована с Megatron-LM и предназначена для ускорения работы больших языковых моделей за счет использования разреженных вычислений и сокращения объема данных без потерь в производительности

▪️Github

@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
👍42🔥2
🖥 Эта статья описывает, как создать веб-скрейпинг-агент на базе искусственного интеллекта с использованием модели Llama 3.2, работающей локально. Она охватывает процесс настройки и запуска AI-агента, демонстрируя его способность автоматически извлекать данные с веб-сайтов

🌟 Автор объясняет шаги по интеграции моделей, необходимых для обучения и работы скрейпинга, а также рассматривает, как использовать локально развернутую версию Llama для более эффективной работы

🔗 Читать: *клик*

@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6🔥65👎1
Приветствую всех специалистов по машинному обучению! У нас есть хорошие новости: AI VK совместно с ODS анонсирует новое соревнование – VK RecSys Challenge. Основная цель – создание модели для предсказания фидбэка пользователей в VK Клипах.
Условия участия просты: регистрация открыта, достаточно оставить заявку. Соревнование начинается в октябре и продлится два месяца. Победителей ждут призы: общий призовой фонд составляет 2 000 000 рублей, и будут награждены пять лучших участников.
Для работы предоставляются необходимые данные, которые можно найти в разделе Dataset. Максимальное количество отправок решений в день ограничено пятью. Метрика оценки результатов – ROC AUC, где фидбэк оценивается по трем меткам: like = 1, dislike = -1, ignore = 0.
Это отличная возможность не только проявить себя, но и внести вклад в улучшение рекомендательных систем VK. Желаем всем удачи и ждем ваших заявок!

Призовой фонд
Общий призовой фонд: 2 000 000 руб
1 место: 800 000 руб
2 место: 600 000 руб
3 место: 300 000 руб
4 место: 200 000 руб
5 место: 100 000 руб
Отличная практика и шикарные призы, стоит поучаствовать. Все подробности тут.

@machinelearning_ru
5👍5🔥1
🔥 FLUX-Controlnet-Inpainting — модель для инпейнтинга изображений (восстановления их отсутствующих частей) с использованием ControlNet, разработанную командой Alimama Creative

🌟 Модель обучалась на большом наборе данных изображений и доступна для некоммерческого использования. Она демонстрирует высокое качество инпейнтинга и предоставляет инструкцию по использованию с библиотекой Diffusers

▪️Github

@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
👍62🔥1
Утекли данные о датах релиза и ценах на новые видеокарты Nvidia. Согласно этим данным, RTX 5090 должна выйти в январе по цене в $1800 (около 175 000 рублей).

@machinelearning_ru
👍63🔥3
🔍 Surya — это библиотека для распознавания текста (OCR) и анализа макетов документов на более чем 90 языках. Она предоставляет функции для распознавания текста, детекции линий, определения порядка чтения и анализа структуры страниц в форматах изображений и PDF. Surya поддерживает многоязычный OCR, может извлекать текст с различными уровнями метаданных, такими как языки, расположение текстовых блоков и уверенность в распознавании.

💡 Среди её возможностей:

🌟 Распознавание текста с поддержкой множества языков;

🌟 Детекция строк и блоков текста с указанием координат и уверенности в результате;

🌟 Интерактивное приложение на базе Streamlit для тестирования

💡 Surya использует глубокое обучение и может быть ускорена за счет использования GPU. Она подходит для анализа сложных документов с таблицами, рисунками и другими элементами макета

🔐 Лицензия: GPL-3.0

▪️Github

@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
👍92🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
⚡️ Анимация для соединения karpathy llm.c, с помощью матричного умножения вручную

@machinelearning_ru
🔥9👍32
🔥 PostBot 3000 — это проект с открытым исходным кодом, который демонстрирует, как создать мощного AI-агента для генерации и стриминга ответов и артефактов

🌟 Он построен на Python с использованием FastAPI для API и Next.js для интерфейса. Этот проект помогает пользователям реализовать подобные решения, предоставляя примеры кода и шаги для локального развертывания

▪️GitHub

@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
👍8🔥32
Forwarded from Machinelearning
⚡️ Stable Diffusion 3.5 Large.

Stability AI опубликовала Stable Diffusion 3.5 Large - модель text-to-image с 8 млрд. параметров.

В основе SD 3.5 Large - архитектура Multimodal Diffusion Transformer (MMDiT). Модель использует три предобученных текстовых энкодера:

🟢OpenCLIP-ViT/G;
🟢CLIP-ViT/L;
🟢T5-xxl.

OpenCLIP-ViT/G и CLIP-ViT/L имеют контекстную длину 77 токенов, а T5-xxl - 77/256 токенов.

Модель доступна по API в сервисах - Stability AI, Replicate и Deepinfra.

Для локального использования модели рекомендуется использовать ComfyUI (базовый воркфлоу) или Diffusers.

⚠️ Инференс квантованной NF4-версии на ограниченных VRAM

⚠️ Подробные инструкции по файнтюну и тренировке LoRA для Stable Diffusion 3.5 Large.

▶️Локальный запуск инференса на Diffusers:

# install Diffusers
pip install -U diffusers


# Inference
import torch
from diffusers import StableDiffusion3Pipeline

pipe = StableDiffusion3Pipeline.from_pretrained("stabilityai/stable-diffusion-3.5-large", torch_dtype=torch.bfloat16)
pipe = pipe.to("cuda")

image = pipe(
"A happy woman laying on a grass",
num_inference_steps=28,
guidance_scale=3.5,
).images[0]
image.save("woman.png")


📌 Лицензирование:

🟢Модель доступна под лицензией Stability Community License, которая разрешает бесплатное использование для исследовательских, некоммерческих и коммерческих целей организациями или частными лицами с годовым доходом менее 1 млн. долл. США.

🟠Для получения коммерческой лицензии для организаций с годовым доходом более 1 млн. долл. США необходимо связаться со Stability AI.


🟡Страница проекта
🟡Arxiv
🟡Модель


@ai_machinelearning_big_data

#AI #ML #Diffusion #SDL #StabilityAI
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
6👍3🔥1