Анализ данных (Data analysis)
45.2K subscribers
2.11K photos
232 videos
1 file
1.9K links
Data science, наука о данных.

@haarrp - админ

@itchannels_telegram - 🔥 главное в ит

@ai_machinelearning_big_data - ML

@machinelearning_interview - вопросы с собесдований по Ml

РКН: clck.ru/3FmyAp
Download Telegram
This media is not supported in your browser
VIEW IN TELEGRAM
🔥 Fish Speech — новое решение для синтеза речи (TTS) с поддержкой множества языков и возможностью точного воссоздания голоса на основе коротких аудиофрагментов (10–30 секунд)!

🌟 Библиотека поддерживает кросс-языковое TTS, управление тембром и эмоциями, не требуя фонемной зависимости. Также предоставляется интерфейс на базе Gradio и GUI для локального развертывания на разных платформах, включая Linux, Windows и macOS.

🔐 Лицензия: CC BY-NC-SA 4.0

🖥 Github

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥 llamacoder — открытый проект для создания приложений на основе текстовых запросов с использованием Llama 3.1 405B.

🌟 Он включает в себя интерфейс, который позволяет пользователям генерировать небольшие приложения с помощью одного запроса, а также предоставляет возможности для дальнейшей настройки и обмена созданными приложениями. Проект создан на Next.js, Tailwind CSS и Sandpack для песочницы кода. Проект активно развивается, и разработчики планируют добавить множество новых функций.

🖥 Github

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
🔍 Label Studio — это универсальный фреймворк для аннотации данных с открытым исходным кодом, поддерживающий множество типов данных, включая текст, изображения, видео и аудио.

🌟 Он позволяет настраивать интерфейсы для различных задач разметки, таких как классификация, сегментация и анализ тональности. Этот инструмент активно используется для разметки данных в проектах, связанных с машинным обучением и NLP.

🔐 Лицензия: Apache-2.0

🖥 Github

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👩‍💻 gazpacho — простая и быстрая библиотека для веб-скрейпинга на Python.

🌟 Библиотека обеспечивает понятный интерфейс для скрейпинга HTML-страниц и поиска элементов на основе CSS-селекторов. Основные возможности включают функции для извлечения и обработки данных, не требующие дополнительных зависимостей. Библиотека ориентирована на легкость использования и минимализм.

👩‍💻 Лицензия: MIT

🖥 Github

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👩‍💻 WhoDB

Легкий инструмент для работы с данными нового поколения - Postgres, MySQL, SQLite, MongoDB, Redis, MariaDB и ElasticSearch с удобным интерфейсом.

Hobby - это легкий (~ 20 МБ), мощный и удобный в использовании инструмент управления базами данных, предназначенный для упрощения задач администрирования баз данных.

Сочетая простоту Adminer с улучшенным интерфейсом и производительностью, WhoDB создан на GoLang для обеспечения оптимальной скорости и эффективности работы с данными.

Благодаря таким функциям, как интерактивная визуализация схем и встроенное редактирование, WhoDB подходит как для небольших проектов, так и для сложных корпоративных систем.

WhoDB предоставляет вам возможность общаться с вашими данными, используя естественный язык, благодаря интеграции с Ollama, ChatGPT и Anthropic.

Эта функция позволяет выполнять запросы и управлять вашими данными с помощью диалога вместо SQL запросов.

Github

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
⚡️ CogVideoX1.5-модели серии 5B, включая T2V зоры и I2V-модели.

Эти модели поддерживают более высокое разрешение (1360 * 768) и более высокую частоту кадров (16 кадров в секунду). Версия SAT имеет открытый исходный код, а версия для диффузоров находится в стадии адаптации.😀

🔗HF: https://huggingface.co/THUDM/CogVideoX1.1-5B-SAT
🔗Github: https://github.com/THUDM/CogVideo
🔗Paper: https://arxiv.org/abs/2408.06072
🔗Подробнее про модели: https://t.me/ai_machinelearning_big_data/5429

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
🔍 Browser-Use — библиотека для автоматизации браузера с использованием языковых моделей (LLM)!

🌟 Библиотека поддерживает взаимодействие с любыми моделями через API, такими как OpenAI и Anthropic, позволяя моделям находить и управлять элементами веб-страниц, работать с несколькими вкладками и обрабатывать динамический контент. Реализована поддержка цепочек действий и адаптивной обработки ошибок. Подходит для сложных задач, таких как сбор данных с веб-страниц и выполнение действий, определённых пользователем.

🔐 Лицензия: MIT

🖥 Github

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Machinelearning
🌟 AdaCache: ускорение DiT в генерации видео через необучаемое адаптивное кэширование.

AdaCache основан на наблюдении, что «не все видео одинаковы»: некоторым видео требуется меньше шагов денойза для достижения приемлемого качества, чем другим.

AdaCache использует кэширование остаточных вычислений в блоках трансформера (например, выходные данные механизмов внимания или MLP) на определенном шаге диффузии и повторного использования их на нескольких последующих шагах, количество которых зависит от генерируемого видео.

Решение о том, когда нужно выполнить следующее вычисление, принимается на основе метрики расстояния, которая измеряет скорость изменения между сохраненными и текущими представлениями.

Чтобы избежать артефактов для динамики используется регуляризация движения (MoReg).

MoReg оценивает движения в латентном пространстве на основе разности остаточных кадров, а чтобы эта оценка была эффективна на ранних шагах диффузии, MoReg вычисляет градиент движения, который выступает в качестве разумного раннего предиктора. И оценка движения, и градиент движения используются в качестве масштабирующего фактора метрики расстояния для регуляризации схемы кэширования AdaCache.

AdaCache был протестирован на Open-Sora-v1.2, Open-Sora-Plan-v1.1 и Latte. Результаты показали, что AdaCache обеспечивает ощутимое ускорение без ущерба для качества генерации. Фактически, он достигает ускорения в 4.49x, 3.53x и 2.46x соответственно на трех рассмотренных базовых видео.

Прикладной кейс использования AdaCache предлагается на бейслайне Open-Sora с вариантами запуска: Baseline, AdaCache и AdaCache+MoReg.

⚠️ Пример инференса рекомендуются на одном GPU A100 (80Gb)

▶️Инференс:

# Baseline
bash run_sample_video.sh configs/sample.py

# AdaCache
bash run_sample_video.sh configs/sample_adacache.py

# AdaCache+MoReg
bash run_sample_video.sh configs/sample_adacache_moreg.py


📌Лицензирование: Apache 2.0 License.


🟡Страница проекта
🟡Техотчет
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #DiT #AdaCache #Text2Video
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🖼 AdvancedLivePortrait-WebUI — это инструмент, позволяющий анимировать статичные изображения, создавая реалистичные движения лиц!

🌟 В проекте используется WebUI и модели глубокого обучения для генерации анимаций. Платформа предлагает поддержку различных настроек и параметров, чтобы пользователи могли адаптировать анимацию под свои нужды.

🔐 Лицензия: Apache-2.0

🖥 Github

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
💡Управление камерой с открытым исходным кодом, позволяющее целенаправленно менять каждый кадр с помощью недавно выпущенного DimensionX!

🚩 Он также может создавать любые 3D / 4D сцены

📌 Страница проекта: https://chenshuo20.github.io/DimensionX/
📌 Код: https://github.com/wenqsun/DimensionX
📌 Arxiv: https://arxiv.org/abs/2411.04928

@data_analysis_ml
Forwarded from Machinelearning
📌 Awesome-list методов глубокого обучения на графах при смещении распределения.

Смещение распределения в графовых данных — это расхождение в распределении данных между обучающим и тестовым наборами, оно может существенно снизить производительность модели машинного обучения.

Репозиторий на Github, в котором собрана коллекция работ по обучению на графах в условиях смещения данных вне распределения (Out-of-Distribution, OOD) в трех основных сценария:

🟢обобщение графов OOD:

🟢адаптация графов во время обучения OOD:

🟢адаптация графов OOD во время тестирования.


Обобщение OOD предполагает, что целевые данные недоступны во время обучения модели, и фокусируется на повышении способности модели к обобщению, чтобы справляться с выборками из любых неизвестных доменов.

Адаптация во время обучения направлена на устранение расхождений в распределении между исходными и целевыми графовыми данными. Она служит для коррекции смещения наблюдений, переноса знаний между графами и смягчения негативных последствий аугментации данных.

Адаптация во время тестирования сосредоточена на настройке предварительно обученной модели на новые целевые данные, которые становятся доступными после начальной фазы обучения. Эта адаптация особенно важна в случаях, когда доступ к исходным данным ограничен.

В каждом сценарии рассматриваются модельно-ориентированные и ориентированные на данные подходы.

▶️Для многих статей предоставлены ссылки на код, реализующий описанные методы.


🟡Arxiv
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #GNN #Giihub #AwesomeList
Please open Telegram to view this post
VIEW IN TELEGRAM
Только что вышел Apache Kafka 3.9.0🔥

Это крупный релиз, последний в линейке 3.x. Это также будет последний крупный релиз, в котором будет добавлен устаревший режим Apache ZooKeeper®. Начиная с версии 4.0 и более поздних версий, Kafka всегда будет работать без ZooKeeper.

ПОСЛЕДНЯЯ версия ZooKeeper 🫡 🥲

📌 Вот основные функции, о которых вам следует знать: https://www.confluent.io/blog/introducing-apache-kafka-3-9/

📌 Скачать новую версию: https://downloads.apache.org/kafka/3.9.0/RELEASE_NOTES.html

📌Kafka БАЗА! Теория + Практика: https://www.youtube.com/watch?v=W7ZCXcxQxV8

@data_analysis_ml
🖥 GPT Pilot — это инструмент для автоматизации разработки с помощью GPT-4, позволяющий генерировать, тестировать код и целые приложения через AI!

🌟 Проект фокусируется на автоматизации работы над задачами, ускоряя создание приложений и тестов. GPT Pilot взаимодействует с разработчиком, интерпретируя запросы на естественном языке для генерации кода, что делает его полезным для быстрой разработки и прототипирования.

🖥 Github

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥 Классный инструмент, который позволяет вам создавать короткие видео для различных площадок "в один клик" с помощью ИИ!

🔐 Лицензия: MIT

🖥 Github

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🖥 Opik — это открытая платформа для разработки, тестирования и мониторинга приложений на основе больших языковых моделей (LLM)!

🌟 Этот инструмент помогает отслеживать и анализировать работу LLM, автоматизировать оценку, хранить тестовые случаи и поддерживает интеграцию с CI/CD для упрощения цикла разработки и развертывания. Платформа позволяет как локальный запуск, так и использование в облаке, поддерживает такие фреймворки, как OpenAI, LangChain и другие.

🔐 Лицензия: Apache-2.0

🖥 Github

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM