Анализ данных (Data analysis)
45.3K subscribers
2.03K photos
204 videos
1 file
1.83K links
Data science, наука о данных.

@haarrp - админ

@itchannels_telegram - 🔥 главное в ит

@ai_machinelearning_big_data - ML

@machinelearning_interview - вопросы с собесдований по Ml

РКН: clck.ru/3FmyAp
Download Telegram
This media is not supported in your browser
VIEW IN TELEGRAM
🖥 theailibrary — сервис, где вы можете бесплатно разместить свою модель для свободного использования другими пользовталеями!

Также на площадке присутствуют еженедельные мл конкурсы среди самых популярных и полезных моделей

🔥 Неплохой сервис, чтобы продвинуть свой инструмент в массы!

🔗 Ссылка: *клик*

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
🔥 НОВИНКА: Вышла модель преобразования текста/изображения в видео с открытым исходным кодом - лицензия MIT - конкуренты Gen-3, Pika & Kling 🔥

> Pyramid Flow: эффективный для обучения метод авторегрессивной генерации видео.
> Обучается на наборах данных с открытым исходным кодом
> Генерирует высококачественные 10-секундные видеоролики
> Разрешение видео: 768p
> Частота кадров: 24 кадр/с
> Поддерживает генерацию изображений в видео

> Доступна на HF 🤗

https://huggingface.co/rain1011/pyramid-flow-sd3

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🍾 Bottleneck

Библиотека, которая предназначена для ускорения работы методов NumPy вплоть до 25 раз, особенно при работе с массивами, содержащими значения NaN.

Эта библиотека оптимизирует выполнение таких операций, как поиск минимума, максимума, медианы и других агрегативных функций.

Используя специальные алгоритмы и методы обработки пропущенных данных, Bottleneck значительно увеличивает производительность работы с большими объемами данных, делая ее более эффективной по сравнению со стандартными методами NumPy.

Github

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Machinelearning
🌟 Numpy QuadDType: Четырехкратная точность в Python.

NumPy-QuadDType (numpy_quaddtype) — это реализация пользовательского типа данных (dtype) для NumPy, которая обеспечивает настоящую арифметику с плавающей точкой четверной точности на разных платформах.

Проект направлен на решение давних проблем с np.longdouble, предлагая согласованный, высокоточный тип с плавающей точкой независимо от базовой архитектуры системы, а также обеспечивая обратную совместимость long double.

Ядро numpy_quaddtype построено вокруг на двух ключевых компонентов:

🟢скалярный тип QuadPrecision, представляющий отдельные скаляры четверной точности;

🟢тип данных NumPy QuadPrecDType, позволяющий использовать эти скаляры четверной точности в массивах и операциях NumPy.

Отличительная черта numpy_quaddtype - его подход с двойным бэкэндом:

🟠SLEEF (библиотека SIMD для оценки элементарных функций): этот бэкэнд использует тип Sleef_quad из библиотеки SLEEF, предоставляя настоящую 128-битную учетверенную точность.

🟠Long Double: этот бэкэнд использует собственный тип long double, который может обеспечивать точность до 80 бит в некоторых системах, обеспечивая совместимость с np.longdouble.

Гибкость архитектуры numpy_quaddtype наследуется от компонентов ее ядра: QuadPrecisionObject, хамелеоноподобная структура, которая может переключаться между формами:

typedef union {  
Sleef_quad sleef_value;
long double longdouble_value;
} quad_value;

typedef struct {
PyObject_HEAD
quad_value value;
QuadBackendType backend;
} QuadPrecisionObject;


QuadPrecDTypeObject, который действует как мост, позволяя высокоточным числам гармонично работать в массивах и операциях NumPy:

typedef struct {  
PyArray_Descr base;
QuadBackendType backend;
} QuadPrecDTypeObject;


Он позволяет переключаться между бекэндами Sleef_quad (для SLEEF) и long double во время выполнения:

>>> import numpy as np  
>>> import numpy_quaddtype as npq

# Using SLEEF backend (default)
>>> x = npq.QuadPrecision(3.5)
>>> x = npq.QuadPrecision(3.5, backend='sleef')
>>> repr(x)
QuadPrecision('3.5e+000', backend='sleef')

# Using longdouble backend
>>> y = npq.QuadPrecision(2.5, backend='longdouble')
>>> repr(y)
QuadPrecision('2.5e+000', backend='longdouble')

# Creating a NumPy array with QuadPrecision dtype
>>> z = np.array([x, x], dtype=npq.QuadPrecDType()) # SLEEF
>>> print(z)
[QuadPrecision('3.5e+000', backend='sleef')
QuadPrecision('3.5e+000', backend='sleef')]

>>> z = np.array([y, y], dtype=npq.QuadPrecDType("longdouble")) # longdouble
>>> print(z)
[QuadPrecision('2.5e+000', backend='longdouble')
QuadPrecision('2.5e+000', backend='longdouble')]


В тестах numpy_quaddtype с бэкендом SLEEF показал точность в 34 десятичных знаков. ULP (единица в младшем разряде) для основных арифметических операций ≤ 0,5000000001, а для трансцендентных функций ≤ 1,0.

C бэкендом Long Double показал точность, зависящую от платформы: 18-19 десятичных знаков в Linux и 15-17 в Windows.

В настоящее время ведётся подготовка к выпуску numpy_quaddtype в виде пакета Python, доступного через PyPI и conda. Также планируется направить предложение NEP для интеграции numpy_quaddtype в экосистему NumPy и рассмотреть TLFloat как потенциальную замену SLEEF в будущих версиях.

▶️Читать полную статью с демо возможностей numpy_quaddtype на примере визуализации множества Мандельброта при экстремальном увеличении и моделирование квантового гармонического осциллятора для двухатомных молекул.


@ai_machinelearning_big_data

#AI #ML #DS #Python #NumPy
Please open Telegram to view this post
VIEW IN TELEGRAM
Полезный контент по машинному обучению с Practical ML Conf 2024. Рекомендуем обратить внимание на доклад Саввы Степурина. Он был посвящен тому, как предлагать пользователям незнакомый контент. Савва подробно рассказал о переходе от традиционных фильтров к отдельным моделям выбора кандидатов и ранжирования, представил особые подходы в отборе кандидатов и моделей ранжирования, а также показал результаты внедрения этих подходов.

Также советуем вам ознакомиться с другими интересными темами:

⚙️ Как научить языковые модели работать с кодом. Руководитель лаборатории машинного обучения в Yandex Platform Engineering подробно рассказал об этом процессе и объяснил, почему исследователи решили прогнозировать стейтменты и как это повлияло на качество онлайн-метриков.

⚙️ Создание виртуального рассказчика для синтеза аудиокниг в Яндексе. В этом докладе раскрывается процесс внедрения длительного контекста в низкоресурсную модель реального времени и упоминаются особенности использования диффузионных моделей.

Помимо этого, были представлены интересные доклады о бенчмаркинге, синтетических данных, оптимизации RAG-систем, VLM и, конечно же, о рекомендательных системах. Все видео можно посмотреть здесь.
Media is too big
VIEW IN TELEGRAM
🎓 DepthCrafter – это проект, который создает карты глубины для видео с открытым миром.

Основным преимуществом данного инструмента является высокая детализация без необходимости использования данных о позах камеры или оптического потока.

Проект направлен на упрощение обработки видео, предоставляя как высококачественные, так и ускоренные режимы обработки, требующие видеокарт с объемом памяти от 9 до 26 ГБ.

Ссылка на GitHub проекта: https://github.com/Tencent/DepthCrafter

@data_analysis_ml
В России впервые реализовали новый метод тренировки ML-моделей, который позволит участвовать в совместных проектах организациям, которые раньше не могли сотрудничать из-за рисков, связанных с передачей чувствительных данных.

Это стало возможно благодаря федеративному обучению - подходу, в котором участники могут коллективно обучать модель, не передавая свои данные внешним подрядчикам.  Вместо передачи исходных данных на централизованный сервер для обработки, обучающие узлы обмениваются только обновленными параметрами модели. Подобная техника очень актуальна для отраслей, где имеют дело с чувствительной информацией.

Немного о том, как работает новый метод

При обучении ML-моделей данные, как правило, собираются из архивов медицинских учреждений и баз пациентов, и передаются на центральный сервер, где и происходит обучение.  Однако при таком подходе велик риск утечек конфиденциальной информации, особенно если речь идет, например, о сфере медицины. Федеративный подход работает иначе. 

Модель обучается на локальном сервере клиента и является частью распределённой системы обучения. Данные остаются у клиента, а на центральный сервер отправляются только обновленные параметры модели. Задача федеративного центрального сервера в таком случае — не обработка и хранение исходных данных, а координация обучения. При этом сервер агрегирует параметры для улучшения общей модели, обеспечивая конфиденциальность данных.

После того, как параметры модели от всех клиентов объединяются на центральном федеративном сервере, её обновлённая версия возвращается на устройства клиентов, чтобы учиться на новых данных. Таким образом, модель учитывает изменения и особенности каждого клиента, становясь точнее и эффективнее.

Первый кейс использования подхода в России в медицине

Метод реализовал Центр технологий для общества Yandex Cloud совместно с Сеченовским Университетом и ИСП РАН. Эксперимент  заключался в обучении ML-модели, чтобы распознавать патологии сердца на основе данных ЭКГ. Для этого использовали фреймворк NVFlare, который поддерживает федеративное обучение с использованием GPU.  Сам обучение провели на датасете из 47 тысяч двенадцатиканальных ЭКГ. В ходе эксперимента специалисты обучали модель диагностировать фибрилляцию предсердий по ЭКГ.

Чувствительность (способность выявлять патологию) модели составила 99%, а специфичность (способность не давать ложных результатов при отсутствии заболевания) — 95%.​ Результаты работы модели проверили трое врачей функциональной диагностики, чтобы убедиться в её точности и клинической применимости.

Федеративное обучение будет полезно не только в медицине. В перспективе такой подход можно использовать в финансовой отрасли для обнаружения мошенничества. При этом данные пользователей останутся защищенными.

@data_analysis_ml
This media is not supported in your browser
VIEW IN TELEGRAM
🖥 open-webui — это проект, ориентированный на взаимодействие с большими языковыми моделями (LLM) через веб-интерфейс. Он представляет собой платформу для создания пользовательских интерфейсов, которые упрощают взаимодействие с различными AI-моделями в режиме реального времени. Основной акцент делается на поддержку многомодальных возможностей и интеграцию с популярными моделями для обработки текста и других типов данных.

🌟 Платформа предназначена для упрощения работы разработчиков и исследователей, которые хотят создать удобные интерфейсы для взаимодействия с мощными AI-моделями, не углубляясь в сложные настройки и конфигурации

🔐 Лицензия: MIT

▪️Github

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
⚡️Легкий способ получать свежие обновления и следить за трендами в разработке на вашем языке. Находите свой стек и подписывайтесь:

МАШИННОЕ ОБУЧЕНИЕ: t.me/ai_machinelearning_big_data
C++ t.me/cpluspluc
Python: t.me/pythonl
Хакинг: t.me/linuxkalii
Devops: t.me/DevOPSitsec
АНАЛИЗ Данных: t.me/dataanlitics
Javascript: t.me/javascriptv
C#: t.me/csharp_ci
Java: t.me/javatg
Базы данных: t.me/sqlhub
Linux: t.me/linuxacademiya
Python собеседования: t.me/python_job_interview
Мобильная разработка: t.me/mobdevelop
Docker: t.me/DevopsDocker
Golang: t.me/Golang_google
React: t.me/react_tg
Rust: t.me/rust_code
ИИ: t.me/vistehno
PHP: t.me/phpshka
Android: t.me/android_its
Frontend: t.me/front
Big Data: t.me/bigdatai
Собеседования МЛ: t.me/machinelearning_interview
МАТЕМАТИКА: t.me/data_math
Kubernets: t.me/kubernetc


💼 Папка с вакансиями: t.me/addlist/_zyy_jQ_QUsyM2Vi
Папка Go разработчика: t.me/addlist/MUtJEeJSxeY2YTFi
Папка Python разработчика: t.me/addlist/eEPya-HF6mkxMGIy
Папка ML: https://t.me/addlist/2Ls-snqEeytkMDgy
Папка FRONTEND: https://t.me/addlist/mzMMG3RPZhY2M2Iy

😆ИТ-Мемы: t.me/memes_prog
🇬🇧Английский: t.me/english_forprogrammers
🧠ИИ: t.me/vistehno

🎓954ГБ ОПЕНСОРС КУРСОВ: @courses
📕Ит-книги бесплатно: https://t.me/addlist/BkskQciUW_FhNjEy
🖥 MLE-bench — новый бенчмарк от OpenAI для оценки того, как хорошо ИИ-агенты справляются с задачами машинного обучения. Для этого были собраны 75 соревнований с Kaggle, где проверяются такие навыки, как подготовка данных, тренировка моделей, работа с алгоритмами.

🌟 Лучшая конфигурация — OpenAI o1-preview с AIDE — достигла уровня бронзовой медали в 16.9% конкурсов.

📖 Arxiv: *клик*
▪️Github

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🖥 anthropic-gradio — интерфейс для взаимодействия с моделями Anthropic через платформу Gradio.

Он позволяет пользователям легко подключать и тестировать модели искусственного интеллекта от Anthropic в интерактивной среде Gradio, которая предназначена для создания пользовательских интерфейсов.

🌟 Инструмент помогает разработчикам быстрее интегрировать AI-модели в свои приложения, упрощая взаимодействие с этими моделями через простые интерфейсы.

▪️Github

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🤗 Hugging Face Llama Recipes

Целый репозиторий, который содержит полезные рецепты и советы для быстрого работы с моделями Llama 3.x, включая Llama 3.1 и Llama 3.2.

▪️Github

@data_analysis_ml
📖 AI-Scientist — это проект, направленный на создание системы для автоматизации научных открытий и исследований. Использует модели обработки естественного языка, обучение с подкреплением и графовые нейронные сети для чтения научной литературы, генерации гипотез, проектирования экспериментов и анализа результатов.

🌟 Цель — помочь исследователям находить новые направления и автоматизировать рутинные задачи, делая научный процесс более эффективным.

▪️Github

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
🖥 ChatHub — получайте ответ от ChatGPT, Claude, Gemini и других моделей разом!

💡 С ChatHub вы можете легко задать один и тот же вопрос нескольким чат-ботам на основе искусственного интеллекта и сравнить их ответы бок о бок! Также в этом сервисе можно генерировать картинки и проводить поиск ресурсов в интернете!

🔗 Ссылка: *клик*

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥 awesome-llm-powered-agent — полезный репозиторий, который содержит подборку различных проектов, библиотек и ресурсов, которые связаны с агентами, работающими на основе больших языковых моделей (LLM, large language models)

🌟 Здесь собраны инструменты и проекты, которые помогают разрабатывать или использовать интеллектуальных агентов для автоматизации задач и взаимодействия с окружающей средой через языковые модели

🔐 Лицензия: MIT

▪️Github

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥 Руководство по оценке больших языковых моделей (LLM), созданное командой Hugging Face. Оно включает как практические советы, так и теоретические знания, собранные при управлении Open LLM Leaderboard и разработке инструмента lighteval

Hugging Face выложила на Github руководство по оценке LLM.

В нем собраны различные способы оценки модели, руководства по разработке собственных оценок, а также советы и рекомендации из практического опыта. В руководстве рассказывается о разных способах оценки: с помощью автоматических тестов, людей или других моделей.

Особое внимание уделяется тому, как избежать проблем с инференсом модели и сделать результаты одинаковыми. В руководстве есть советы о том, как сделать данные чистыми, как использовать шаблоны для общения с LLM и как анализировать неожиданные плохие результаты.

Если вы ничего не знаете об оценке и бенчмарках, вам следует начать с разделов Basics в каждой главе, прежде чем погружаться глубже. В разделе базовые знания вы также найдете пояснения, которые помогут вам разобраться в важных темах LLM: например, как работает инференс модели и что такое токенизация.

Более прикладными разделы: советы и рекомендации, устранение неполадок и разделы, посвященные дизайну.

▶️Оглавление:

🟢Автоматические бенчмарки
🟢Оценка человеком
🟢LLM-судья
🟢Устранение неполадок
🟢Базовые знания

📌 Планы на будущие гайды:

🟠Описание автоматических метрик;
🟠Какие основные моменты вы всегда должны учитывать при построении задачи;
🟠Зачем нужна оценка LLM;
🟠Почему сравнивать модели между собой - это сложно.

▪️Github

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🖥 awesome-ai-agents — полезный репозиторий, который содержит список различных автономных ИИ-агентов, таких как AutoGPT, BabyAGI, GPT Engineer и других!

🌟 Здесь представлены библиотеки и инструменты для работы с искусственным интеллектом, включая автономные агенты и разработки на основе GPT. Репозиторий служит полезным ресурсом для тех, кто хочет исследовать или создавать ИИ-агентов для различных задач!

150+ ИИ-агентов и фреймворков.
Фильтр по сценариям использования.
Фильтр по открытому/закрытому исходному коду.
Фильтр новых продуктов ИИ
Возможность получать обновления о конкретном агенте ИИ.

▪️Github

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🏆 NVIDIA молча выпустила файнтюн модели Llama 3.1 70B, которая превзошла по производительности GPT-4o и AnthropicAI Claude Sonnet 3.5.

🏆 85.0 на Arena Hard, 57.6 на AlpacaEval 2 LC, и 8.98 MT-Bench
🥇 Превосходит GPT-4o и Claude 3.5 Sonnet на Нескольких бенчмарках
🦙 Основан на Llama-3.1-70B-Instruct и обучен с помощью RLHF (REINFORCE)
🧠 Выпущена также Llama-3.1-Nemotron-70B-Reward #2 на RewardBench
🤗 Доступно на Hugging Face

https://huggingface.co/collections/nvidia/llama-31-nemotron-70b-670e93cd366feea16abc13d8

@data_analysis_ml
This media is not supported in your browser
VIEW IN TELEGRAM
🤗 Большое обновление для локальных LLM!

⚡️ Ollama получила поддержку запуска моделей GGUF с Huggingface.

Ollama, приложение, основанное на llama.cpp, для локального взаимодействия с LLM получила возможность запускать одной командой любую GGUF модель, размещенную на Huggingface без создания нового Modelfile.

На сегодняшний день на HF около 45 тысяч моделей в формате GGUF, и теперь можно запустить любую из них одной командой ollama run. Также доступна настройка параметров запуска: выбор типа квантования и системного промпта.

▶️Быстрый запуск:

ollama run hf.co/{username}/{repository}
▶️Запуск с выбором типа квантования:

ollama run hf.co/{username}/{repository}:{quantization}
По умолчанию шаблон чата будет выбран автоматически из списка часто используемых шаблонов.

Он создается на основе встроенных метаданных tokenizer.chat_template, хранящихся в файле GGUF. Если в GGUF нет встроенного шаблона или необходимо настроить свой шаблон чата, нужно создать новый файл с именем template.

Шаблон должен быть шаблоном Go, а не шаблоном Jinja. Например:

{{ if .System }}<|system|>
{{ .System }}<|end|>
{{ end }}{{ if .Prompt }}<|user|>
{{ .Prompt }}<|end|>
{{ end }}<|assistant|>
{{ .Response }}<|end|>


📌 Список всех доступных параметров доступен в документации репозитория Ollama.

⚠️ В качестве доменного имени в команде запуска можно использовать доменные имена как hf.co, так и huggingface.co.


🟡Документация
🖥GitHub


Документация: https://huggingface.co/docs/hub/ollama

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM