Анализ данных (Data analysis)
45.1K subscribers
2.11K photos
232 videos
1 file
1.9K links
Data science, наука о данных.

@haarrp - админ

@itchannels_telegram - 🔥 главное в ит

@ai_machinelearning_big_data - ML

@machinelearning_interview - вопросы с собесдований по Ml

РКН: clck.ru/3FmyAp
Download Telegram
⚡️ CogVideoX1.5-модели серии 5B, включая T2V зоры и I2V-модели.

Эти модели поддерживают более высокое разрешение (1360 * 768) и более высокую частоту кадров (16 кадров в секунду). Версия SAT имеет открытый исходный код, а версия для диффузоров находится в стадии адаптации.😀

🔗HF: https://huggingface.co/THUDM/CogVideoX1.1-5B-SAT
🔗Github: https://github.com/THUDM/CogVideo
🔗Paper: https://arxiv.org/abs/2408.06072
🔗Подробнее про модели: https://t.me/ai_machinelearning_big_data/5429

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
🔍 Browser-Use — библиотека для автоматизации браузера с использованием языковых моделей (LLM)!

🌟 Библиотека поддерживает взаимодействие с любыми моделями через API, такими как OpenAI и Anthropic, позволяя моделям находить и управлять элементами веб-страниц, работать с несколькими вкладками и обрабатывать динамический контент. Реализована поддержка цепочек действий и адаптивной обработки ошибок. Подходит для сложных задач, таких как сбор данных с веб-страниц и выполнение действий, определённых пользователем.

🔐 Лицензия: MIT

🖥 Github

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Machinelearning
🌟 AdaCache: ускорение DiT в генерации видео через необучаемое адаптивное кэширование.

AdaCache основан на наблюдении, что «не все видео одинаковы»: некоторым видео требуется меньше шагов денойза для достижения приемлемого качества, чем другим.

AdaCache использует кэширование остаточных вычислений в блоках трансформера (например, выходные данные механизмов внимания или MLP) на определенном шаге диффузии и повторного использования их на нескольких последующих шагах, количество которых зависит от генерируемого видео.

Решение о том, когда нужно выполнить следующее вычисление, принимается на основе метрики расстояния, которая измеряет скорость изменения между сохраненными и текущими представлениями.

Чтобы избежать артефактов для динамики используется регуляризация движения (MoReg).

MoReg оценивает движения в латентном пространстве на основе разности остаточных кадров, а чтобы эта оценка была эффективна на ранних шагах диффузии, MoReg вычисляет градиент движения, который выступает в качестве разумного раннего предиктора. И оценка движения, и градиент движения используются в качестве масштабирующего фактора метрики расстояния для регуляризации схемы кэширования AdaCache.

AdaCache был протестирован на Open-Sora-v1.2, Open-Sora-Plan-v1.1 и Latte. Результаты показали, что AdaCache обеспечивает ощутимое ускорение без ущерба для качества генерации. Фактически, он достигает ускорения в 4.49x, 3.53x и 2.46x соответственно на трех рассмотренных базовых видео.

Прикладной кейс использования AdaCache предлагается на бейслайне Open-Sora с вариантами запуска: Baseline, AdaCache и AdaCache+MoReg.

⚠️ Пример инференса рекомендуются на одном GPU A100 (80Gb)

▶️Инференс:

# Baseline
bash run_sample_video.sh configs/sample.py

# AdaCache
bash run_sample_video.sh configs/sample_adacache.py

# AdaCache+MoReg
bash run_sample_video.sh configs/sample_adacache_moreg.py


📌Лицензирование: Apache 2.0 License.


🟡Страница проекта
🟡Техотчет
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #DiT #AdaCache #Text2Video
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🖼 AdvancedLivePortrait-WebUI — это инструмент, позволяющий анимировать статичные изображения, создавая реалистичные движения лиц!

🌟 В проекте используется WebUI и модели глубокого обучения для генерации анимаций. Платформа предлагает поддержку различных настроек и параметров, чтобы пользователи могли адаптировать анимацию под свои нужды.

🔐 Лицензия: Apache-2.0

🖥 Github

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
💡Управление камерой с открытым исходным кодом, позволяющее целенаправленно менять каждый кадр с помощью недавно выпущенного DimensionX!

🚩 Он также может создавать любые 3D / 4D сцены

📌 Страница проекта: https://chenshuo20.github.io/DimensionX/
📌 Код: https://github.com/wenqsun/DimensionX
📌 Arxiv: https://arxiv.org/abs/2411.04928

@data_analysis_ml
Forwarded from Machinelearning
📌 Awesome-list методов глубокого обучения на графах при смещении распределения.

Смещение распределения в графовых данных — это расхождение в распределении данных между обучающим и тестовым наборами, оно может существенно снизить производительность модели машинного обучения.

Репозиторий на Github, в котором собрана коллекция работ по обучению на графах в условиях смещения данных вне распределения (Out-of-Distribution, OOD) в трех основных сценария:

🟢обобщение графов OOD:

🟢адаптация графов во время обучения OOD:

🟢адаптация графов OOD во время тестирования.


Обобщение OOD предполагает, что целевые данные недоступны во время обучения модели, и фокусируется на повышении способности модели к обобщению, чтобы справляться с выборками из любых неизвестных доменов.

Адаптация во время обучения направлена на устранение расхождений в распределении между исходными и целевыми графовыми данными. Она служит для коррекции смещения наблюдений, переноса знаний между графами и смягчения негативных последствий аугментации данных.

Адаптация во время тестирования сосредоточена на настройке предварительно обученной модели на новые целевые данные, которые становятся доступными после начальной фазы обучения. Эта адаптация особенно важна в случаях, когда доступ к исходным данным ограничен.

В каждом сценарии рассматриваются модельно-ориентированные и ориентированные на данные подходы.

▶️Для многих статей предоставлены ссылки на код, реализующий описанные методы.


🟡Arxiv
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #GNN #Giihub #AwesomeList
Please open Telegram to view this post
VIEW IN TELEGRAM
Только что вышел Apache Kafka 3.9.0🔥

Это крупный релиз, последний в линейке 3.x. Это также будет последний крупный релиз, в котором будет добавлен устаревший режим Apache ZooKeeper®. Начиная с версии 4.0 и более поздних версий, Kafka всегда будет работать без ZooKeeper.

ПОСЛЕДНЯЯ версия ZooKeeper 🫡 🥲

📌 Вот основные функции, о которых вам следует знать: https://www.confluent.io/blog/introducing-apache-kafka-3-9/

📌 Скачать новую версию: https://downloads.apache.org/kafka/3.9.0/RELEASE_NOTES.html

📌Kafka БАЗА! Теория + Практика: https://www.youtube.com/watch?v=W7ZCXcxQxV8

@data_analysis_ml
🖥 GPT Pilot — это инструмент для автоматизации разработки с помощью GPT-4, позволяющий генерировать, тестировать код и целые приложения через AI!

🌟 Проект фокусируется на автоматизации работы над задачами, ускоряя создание приложений и тестов. GPT Pilot взаимодействует с разработчиком, интерпретируя запросы на естественном языке для генерации кода, что делает его полезным для быстрой разработки и прототипирования.

🖥 Github

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥 Классный инструмент, который позволяет вам создавать короткие видео для различных площадок "в один клик" с помощью ИИ!

🔐 Лицензия: MIT

🖥 Github

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🖥 Opik — это открытая платформа для разработки, тестирования и мониторинга приложений на основе больших языковых моделей (LLM)!

🌟 Этот инструмент помогает отслеживать и анализировать работу LLM, автоматизировать оценку, хранить тестовые случаи и поддерживает интеграцию с CI/CD для упрощения цикла разработки и развертывания. Платформа позволяет как локальный запуск, так и использование в облаке, поддерживает такие фреймворки, как OpenAI, LangChain и другие.

🔐 Лицензия: Apache-2.0

🖥 Github

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🧔‍♂️ Face Anon простой инструмент для анонимизации лиц на изображениях, сохраняя при этом оригинальное выражение лица и положение головы!

Работает на основе диффузионных моделей для генерации высококачественных изображений,

Позволяет легко выполнять задачи по замене лиц.

git clone https://github.com/hanweikung/face_anon_simple.git

Github
Demo

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
TinyTroupe 🤠🤓🥸🧐

Microsoft только что выпустила библиотеку Tiny Troupe!🧍‍♂🧍🧍‍♀

Это экспериментальная библиотека Python, которая позволяет моделировать людей с определенными личностями, интересами и целями".

Эти агенты могут слушать, отвечать на запросы и жить своей жизнью в симулированной среде TinyWorld.

Sims на на базе LLM😂

- Реклама: Tiny Troupe может оценить цифровую рекламу (например, Bing Ads) в автономном режиме с помощью смоделированной аудитории
- Тестирование программного обеспечения: TinyTroupe может предоставлять тестовые данные системам (например, поисковым системам, чат-ботам или вторым пилотам), а затем оценивать результаты.
- Обучающие и исследовательские данные: TinyTroupe может генерировать реалистичные синтетические данные, которые впоследствии могут быть использованы для обучения моделей или анализа возможностей.
- Управление продуктами и проектами: TinyTroupe может читать предложения по проектам или продуктам и давать отзывы с точки зрения конкретных людей (например, врачей, юристов и работников умственного труда в целом).
- Мозговой штурм: TinyTroupe может имитировать фокус-группы и предоставлять отличные отзывы о продукте!
И многое другое

Github

@data_analysis_ml
🔥 Laminar — это открытая платформа с набором инструментов для разработки продуктов в области искусственного интеллекта, предоставляющая возможности работы с трассировкой (traces), оценкой моделей (evals), датасетами и разметкой данных!

⭐️ Разработанная с учетом потребностей как исследователей, так и разработчиков, платформа облегчает процесс создания и мониторинга моделей ИИ на основе большого количества данных. Laminar включает поддержку SDK для языков, таких как TypeScript и Python, и использует подходы наблюдаемости для упрощения отладки и мониторинга, особенно при работе с LLM.

🔐 Лицензия: Apache-2.0

🖥 GitHub

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥 firecrawl-simple — урезанная и оптимизированная версия библиотеки firecrawl! Она позволяет вам быстро конвертировать веб-сайты в готовый для чтения LLM текст.

🔐 Лицензия: AGPL-3.0

🖥 GitHub

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
⚡️ RuQwen2.5-3B-Instruct-AWQ — это улучшенная версия серии моделей Qwen2.5 на 3млрд параметров, адаптированная для русскоязычных задач.

Что сделано
Полностью решена проблема генерации иероглифов. Проблема часто возникала в кейсах генерации ответов, содержащих смесь русского и английского текста, терминов, сокращений (модель по сути сбивалась).

Применен алгоритм FRT, который позволяет добиваться русификации иностранных моделей.
Благодаря оптимизациям, модель обеспечивает бОльшую связность текста на русском языке, делая её отличным выбором для различных приложений, требующих работы с русскоязычным контентом.

Модель разработана командой FractalGPT специально для генерации текста на русском языке, сохраняя широкую поддержку и для других языков. Cвободно доступна для скачивания на HF

🤗 Карточка модели на HF

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥 Полезный репозиторий-руководство по работе с LLM!

⭐️ Здесь собраны различные инструменты, данные и методы для обучения и оценки LLM, адаптированных под написание программного кода!

🔐 Лицензия: MIT

🖥 GitHub

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM