Анализ данных (Data analysis)
45.2K subscribers
2.12K photos
232 videos
1 file
1.91K links
Data science, наука о данных.

@haarrp - админ

@itchannels_telegram - 🔥 главное в ит

@ai_machinelearning_big_data - ML

@machinelearning_interview - вопросы с собесдований по Ml

РКН: clck.ru/3FmyAp
Download Telegram
Forwarded from Machinelearning
⚡️ FatLlama-1.7T

Зачем кому-то создавать FatLlama-1.7T? Серьезно, в чем смысл?

Однажды вы просыпаетесь и думаете: "Знаете, что нам нужно? Такая огромная модель, чтобы даже облака занервничали". Это все равно что решить построить ракету только для того, чтобы сгонять в супермаркет.

Конечно, это впечатляет, но кто будет ее запускать? Скорее всего, не вы, если только ваш ПК не является нелегальным ядерным реактором.

И что же она умеет? Может быть, предсказывать ваши электронные письма еще до того, как вы подумаете их написать, или просто станет очень хорошо находить в сети видео с котами, кто ж знает...

Вопрос в том, создаем ли мы эти гигантские модели, потому что можем или потому что нам есть что показать Вселенной?

FatLlama-1.7T - это не столько ИИ, сколько "подержите мое пиво, я собираюсь запустить эту штуку".

И вот она, FatLlama-1.7T, которая займет ВСЕ место на вашем жестком диске. Забудьте о сохранении семейных фотографий или драгоценном архиве книг, которые вы никогда не прочитаете. Вам же не так уж и нужны были эти жалкие 3 ТБ свободного места, правда? Зато теперь у вас есть цифровой гигант.

Квантованные версии? Да не вопрос, удачи с запуском, держитесь там.

Даже если каким-то чудом вам удастся запустить FatLlama-1.7T, не спешите расслабляться, ведь вы знаете, что будет дальше, верно? FatLlama 3T.

К тому времени, когда вы выработаете максимум энергии и превратите свой дом в центр обработки данных, чтобы запустить свежую FatLlama 3T, я перейду к FatLlama 5.8T, для которой, вероятно, потребуется маленькая галактика в качестве источника энергии.

Вызов принят? 😁

🟡Модель
🟡Набор GGUF

@ai_machinelearning_big_data

#AI #ML #LLM
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Media is too big
VIEW IN TELEGRAM
🔥 Видео от университета Стэнфорда о создании больших языковых моделей!

💡 Это видео — краткий обзор создания модели, подобной ChatGPT, охватывающий как предварительное обучение модели, так и последующее обучение (SFT/RLHF).

В видео рассматриваются общие практики сбора данных, алгоритмы и методы оценки модели.

🕞 Продолжительность: 1:44:30

🔗 Ссылка: *клик*

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
⚡️ CtrLoRA: Расширяемая и эффективная платформа для генерации управляемых изображений

Сперва обучается ControlNet с LORA, настроенный на конкретные задачи, с использованием крупномасштабного датасета.

Затем базовая сеть ControlNet может быть эффективно адаптирована к новым задачам с помощью новой LoRa, которой необходимо всего 1000 изображений и менее 1 часа на одном графическом процессоре.

Это сокращает количество параметров на 90%, что значительно упрощает создание новых условий управления.

▪️Github
▪️Статья
▪️Модель

@data_analysis_ml
This media is not supported in your browser
VIEW IN TELEGRAM
🔈 Vocal Remover — бесплатный онлайн-инструмент для разделения вокала и музыкального сопровождения в треках, улучшения качества аудио а также изменение высоты тона и скорости трека!

🔗 Ссылка: *клик*

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥 Небольшой курс от Anthropic по промпт-инженерингу!

🌟 Этот курс включает примеры, советы и задачи, направленных на улучшение точности и надежности ответов модели.

Он предназначен для того, чтобы вы могли глубже понять принципы работы с большими языковыми моделями и лучше управлять результатами генерации, повышая качество и соответствие запросов и ответов моделей!

🖥 Github

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
🎓 LongVU

LongVU, видеоредактор с пространственно-временным механизмом адаптивного сжатия, предназначенный для понимания видео продолжительностью в час в реальном времени. LongVU адаптивно сокращает количество видео-маркеров, используя (1) сходство функций DINOv2 в разных кадрах, (2) Кросс-модальное сходство текстовых кадров и (3) сходство временных кадров.

1. Высокое качество работы: 67,6% на EgoSchema, 66,9% на MVBench, 65,4% на MLVU и 59,5% на VideoMME long
2. повышение точности в среднем на 5% в различных тестах понимания видео по сравнению с LLaVA-OneVision и VideoChat2
3. Модель, LongVU-3B, также значительно превзошла аналоги 4B, такие как VideoChat2(Phi-3) и Phi-3.5-vision-instruct, по производительности.

📝Статья: https://huggingface.co/papers/2410.17434
💻Код: https://github.com/Vision-CAIR/LongVU
🚀Проект (демо): https://vision-cair.github.io/LongVU

@data_analysis_ml
This media is not supported in your browser
VIEW IN TELEGRAM
⚡️ Brush — это инструмент для создания 3D-моделей с помощью метода Gaussian splatting.

Онаработает на разных платформах: macOS, Windows, Linux и Android.

Программа позволяет создать 3D модель объекта, используя множество фотографий этого объекта под разными углами.

*Brust написан на я Rust. В нём используются библиотеки wgpu и Burn, которые позволяют создавать независимые бинарные файлы и запускать их на различных устройствах.

📌 Ссылка на репозиторий Brush

@data_analysis_ml
🎮 Quake3LLM - это проект, который позволяет создавать ботов для игры Quake 3 Arena, используя язык программирования C++.

Боты общаются между собой и игроками посредством Llama.cpp. В целом, тексты, генерируемые этими ботами, выглядят нормально, но иногда встречаются странные фразы.

Проект доступен на GitHub по ссылке https://github.com/jmarshall23/Quake3LLM.

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🔦Компания alvinzhang только что выпустила версию IC-Light v2

IC-Light v2 теперь работает на FLUX и является лучшим инструментом для редактирования освещения 🌐

Попробуйте официальную демку 📣 https://huggingface.co/spaces/lllyasviel/iclight-v2

@data_analysis_ml
This media is not supported in your browser
VIEW IN TELEGRAM
🖼 DreamCraft3D — метод для иерархической генерации 3D-объектов с помощью диффузионных моделей. Этот подход, разработанный для ICLR 2024, использует поэтапную генерацию форм, включая начальную грубую геометрию и уточнение деталей, что позволяет создавать высококачественные 3D-модели

🔐 Лицензия: MIT

🖥 Github

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Machinelearning
📌Учебное пособие по диффузионным моделям для обработки изображений и СV.

Учебник Стэнли Чана, профессора кафедры электротехники, вычислительной техники и статистики Purdue University (США), содержит ультраполезные знания в области диффузионных моделей в контексте обработки изображений и CV. Он доступно и детально объясняет сложные концепции и подходит как опытным профессионалам, так и тем, кто только начинает изучать эту область.

Для профессионалов, уже работающих с диффузионными моделями или стремящихся углубить свои знания, этот учебник послужит отличным ресурсом, который предоставляет прочную основу для понимания и применения концепций в прикладных задачах.

▶️ Содержание:

Вариационный автоэнкодер (VAE)

🟢Структурные элементы VAE
🟢Нижняя граница доказательства (ELBO
🟢Оптимизация в VAE
🟢Заключение и ограничения

Вероятностная модель диффузионного денойза (DDPM)

🟠Базовые элементы DDPM
🟠Нижняя граница доказательства (ELBO)
🟠Распределение обратного процесса
🟠Обучение и инференс
🟠Предсказание шума
🟠Неявная модель диффузионного денойза (DDIM)
🟠Заключение и преимущества DDPM и DDIM

Динамика сопоставления баллов Ланжевена (SMLD)

🟢Выборка из распределения
🟢Функция оценки Штейна
🟢Методы сопоставления баллов
🟢Итоги по SMLD

Стохастическое дифференциальное уравнение (SDE)

🟠От итерационных алгоритмов к обыкновенным дифференциальным уравнениям
🟠Что такое SDE?
🟠SDE для DDPM и SMLD
🟠Численные решатели для ODE и SDE
🟠Заключение и взаимосвязь между DDPM, SMLD и SDE

Уравнения Ланжевена и Фоккера-Планка

🟢Броуновское движение
🟢Мастер-уравнение
🟢Разложение Крамерса-Мойала
🟢Уравнение Фоккера-Планка
🟢Заключение и связь между SDE и уравнением Фоккера-Планка


🟡Arxiv


@ai_machinelearning_big_data

#AI #ML #Tutorial #Duffusion
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥 Rocketnotes — веб-приложение для ведения заметок с поддержкой Markdown, оснащённое инструментами генерации текста и семантического поиска на базе LLM!

🌟 Приложение полностью работает без сервера и поддерживает локальный запуск с Docker. Среди функций — иерархия документов, подсветка синтаксиса, поиск по содержимому и взаимодействие с заметками через чаты

🔐 Лицензия: MIT

🖥 Github

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
📚 Свежие гайды от Anthropic : Реализация Contextual RAG с открытым исходным кодом

Что внутри :
1. Использование Llama 3.2 3B для эффективной генерации контекста для каждого чанка
2. Использование алгоритмов ранжирования: векторного и BM25
3. Выполнение гибридного поиска
4. Ранжирование результатов гибридного поиска
5. Генерации с помощью Llama 3.1 405B

📌 Смотреть

@data_analysis_ml
📖 Книга "Algorithms for Decision Making" от MIT охватывает алгоритмы и методы для принятия решений в условиях неопределённости

🌟 В книге обсуждаются такие темы как оптимизация мл-алгоритмов , машинное обучение, вероятностные модели и планирование, с акцентом на алгоритмы для принятия решений в реальном времени и под воздействием ограничений. Этот материал полезен для специалистов в областях искусственного интеллекта, дата саентистов, робототехники и инженерии, где важно оптимизировать стратегии в условиях ограниченной информации.

🔗 Ссылка: *клик*

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
💡 zerox — инструмент для извлечения текста и структурированной информации из PDF-документов с использованием методов OCR (распознавания текста) и NLP

🌟 Основной акцент сделан на поддержку zero-shot обучение (без обучения на конкретных примерах), что позволяет извлекать текстовые данные из документов без необходимости предварительной настройки или обучения на конкретных данных. Проект предназначен для автоматизации анализа и обработки PDF в бизнес-приложениях

🔐 Лицензия: MIT

🖥 Github

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥 Data Formulator — инструмент от Microsoft для интерактивного создания визуализаций данных с помощью AI!

🌟 Пользователи могут комбинировать командные интерфейсы и текстовые подсказки, чтобы задавать параметры графиков, при этом AI помогает в трансформации данных для создания диаграмм. Инструмент доступен как через Python, так и через GitHub Codespaces, что позволяет легко развернуть его и использовать для визуализации сложных данных

🔐 Лицензия: MIT

📖 Arxiv
🖥 Github

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
🔥 Integuru — это репозиторий с AI-агентом для автоматического создания интеграций с платформами через реверс-инжиниринг их внутренних API!

💡 Пользователь может предоставить файл сетевых запросов, cookies и указать требуемое действие, а Integuru создает зависимые запросы и Python-код для выполнения этой задачи. Использует модели OpenAI, поддерживает управление входными переменными и автоматическое построение графа зависимостей запросов. Подходит для генерации кода, автоматизации RPA и работы с неофициальными API

🔐 Лицензия: AGPL-3.0

🖥 Github

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥 Maxun — бесплатная open-source платформа без кода для извлечения веб-данных.

🌟 Инструмент позволяет пользователям создавать агентов, которые автоматически собирают данные с веб-сайтов, поддерживая различные действия, такие как захват списков, текста и скриншотов. Также предусмотрена поддержка интеграции с Google Sheets, прокси для обхода защит, а для тех, кто не хочет управлять инфраструктурой, доступна облачная версия. Поддерживаются авторизация и двухфакторная аутентификация для работы с защищенными ресурсами.

🖥 Github

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM