Анализ данных (Data analysis) – Telegram

Анализ данных (Data analysis)

@data_analysis_ml

46.3K subscribers

2.36K photos

278 videos

1 file

2.09K links

Data science, наука о данных.

@haarrp - админ

@itchannels_telegram - 🔥 главное в ит

@ai_machinelearning_big_data - ML

@machinelearning_interview - вопросы с собесдований по Ml

РКН: clck.ru/3FmyAp

Download Telegram

About

Blog

Apps

Platform

Анализ данных (Data analysis)

46.3K subscribers

Анализ данных (Data analysis)

🌟

Firecrawl — open-source краулер для вытягивания всей информации с сайтов в markdown-формате, пригодном для обучения LLM

Пройтись по конкретному URL и его подстраницам можно так:

curl -X POST https://api.firecrawl.dev/v0/crawl \
    -H 'Content-Type: application/json' \
    -H 'Authorization: Bearer YOUR_API_KEY' \
    -d '{
      "url": "https://mendable.ai"
    }'

# { "jobId": "1234-5678-9101" }

🖥

🟡

Инструкция по запуску локально

@data_analysis_ml

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥16👍4❤3

6.55K views16:03

Анализ данных (Data analysis)

⚡️

Ratchet — кроссплатформенный ML-фреймворк от Hugging Face

Ratchet — это веб-фреймворк для вывода результатов машинного обучения.
Работает на базе WebGPU, так что он может работать на чём угодно, в том числе и на мобильных устройствах.
Ratchet заточен под скорость и простоту использования.

Использование в JavaScript выглядит наподобие:

// Asynchronous loading & caching with IndexedDB
let model = await Model.load(AvailableModels.WHISPER_TINY, Quantization.Q8, (p: number) => setProgress(p))
let result = await model.run({ input });

🖥

🟡

🟡

Затестить Whisper + Ratchet на HF

@data_analysis_ml

Please open Telegram to view this post

VIEW IN TELEGRAM

👍11❤3🔥3

5.91K views10:03

Анализ данных (Data analysis)

⚡️ 4х-часовой Мастер-класс по созданию GPT-2 с нуля от Андрея Карпаты

Соучредитель OpenAI Андрей Карпаты выпустил подробную 4-часовую лекцию по созданию модели GPT-2 на Python с нуля.

Он разъясняет каждый шаг, начиная с создания пустого файла, при этом подробно описывая архитектуру и оптимизацию.

- сначала создаем GPT-2
- затем мы оптимизируем ее для очень быстрого обучения
- затем мы настраиваем оптимизацию процесса обучения и гиперпараметров, ссылаясь на материалы статьи GPT-2 и GPT-3
- затем мы проводим оценку модели.

* Смотреть
* Github

@data_analysis_ml

👍27❤6🔥3🤯3

6.33K viewsedited 07:44

Анализ данных (Data analysis)

🖥

AIMET — библиотека Python, которая предоставляет продвинутые методы квантования и сжатия обученных нейросетевых моделей

apt-get install liblapacke
python3 -m pip install aimet-torch

При помощи квантования AIMET помогает снизить требования к вычислительным ресурсам и памяти, при этом минимально влияя на точность работы модели.

🖥

🟡

Доки и юзкейсы

@data_analysis_ml

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍16❤3🔥3🥰1

6.38K views09:17

Анализ данных (Data analysis)

This media is not supported in your browser

VIEW IN TELEGRAM

🌟

gsplat — open-source библиотека для ускорения растеризации Gaussian Splatting при помощи CUDA

— pip install gsplat

gsplat позволяет очень быстро растеризовать гауссианы на CUDA. Библиотека вдохновлена докладом на SIGGRAPH «3D Gaussian Splatting for Real-Time Rendering of Radiance Fields»

🖥

🟡

Доки

@data_analysis_ml

Please open Telegram to view this post

VIEW IN TELEGRAM

👍7❤3🔥3

5.75K views17:04

Анализ данных (Data analysis)

⚡️

Cog — open-source инструмент, позволяющий упаковывать ML-модели в стандартный, готовый к производству контейнер

— brew install cog

Одно дело — обучить ML-модель и поиграться в тестовой среде, совсем другое дело — довести модель до продакшена.
Обычно это решается с помощью Docker, но заставить его работать сложно: Docker-файлы, пред-/постобработка, серверы Flask, версии CUDA.
С Cog развернуть модель становится гораздо проще.

🖥

GitHub

@data_analysis_ml

Please open Telegram to view this post

VIEW IN TELEGRAM

👍9🔥9❤4

5.92K views10:38

Анализ данных (Data analysis)

This media is not supported in your browser

VIEW IN TELEGRAM

🎨 pypalettes: A large (+2500) collection of color maps for matplotlib/seaborn.

Поиск идеальных цветов для вашей диаграммы на Python может оказаться непростой задачей. Выбор цветов вручную часто приводит к перебору множества неподходящих вариантов.

Pypalette - новый пакет предоставляет коллекцию цветов из более чем 2500 палитр, тщательно отобранных сотнями экспертов.

Это приложение позволяет вам без особых усилий изучать различные палитры и выбирать лучшие ваорианты.

Импортируется всего в две строки кода, работает с диаграммами Matplotlib.

Найдите для себя подходящую цветовую палитру, которая выделит вашу диаграмму на общем фоне! 😍

pip install git+https://github.com/JosephBARBIERDARNAL/pypalettes.git

▪Github
▪Проект

@data_analysis_ml

👍32🔥13❤4

22K viewsedited 12:18

Анализ данных (Data analysis)

⚡️

MLJ — фреймворк Julia для машинного обучения

— using MLJ

MLJ предоставляет реализацию разных ML-алгоритмов и полезные инструменты для настройки, оценивания и сравнения около 200 моделей, написанных на Julia и других языках.

🖥

🟡

Доки

@data_analysis_ml

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍10🔥3❤2

5.81K views17:22

Анализ данных (Data analysis)

🧠 Почему Alexa от Amazon не стала лучшим разговорным ИИ на планете
—
Несколько недель назад OpenAI выпустила GPT-4o, открыв новый стандарт для общения с ИИ.

Один из бывших сотрудников Amazon - Михаил Эрик , работавших над Alexa написал крутой пост, в котором Анализирует почему Alexa стала жертвой собственного успеха и не возглавила рынок голосовых помощников. Децентрализованная империя, в которой слишком много бюрократии и слишком мало заботы о развитии ИИ.

В начале 2019 года присоединился к Alexa AI в качестве научного сотрудника. К тому времени устройства с Alexa существовали уже 5 лет и было установлено более чем в 100 миллионах домов по всему миру.

В 2019 году Alexa переживала период бурного роста. Каждый квартал появлялись десятки новых команд разработчиков, инвестировались огромные финансовые ресурсы, и руководство Amazon давало понять, что Alexa станет одной из главных целей в будущем.

У Amazon были все ресурсы, таланты и импульс, чтобы стать бесспорным лидером на рынке разговорного искусственного интеллекта. Но большая часть этих технологий так и не увидела свет и не получила сколько-нибудь заметной огласки в прессе.

Почему?
Реальность такова, что проект Alexa AI был пронизан техническими и бюрократическими проблемами.

Плохой технический процесс
–
Amazon уделяет огромное внимание защите данных клиентов, устанавливая ограничения на ИИ для предотвращения утечки данных и доступа к ним. Безусловно, это важная практика, но одним из последствий этого стало то, что разработчикам стало невыносимо трудно работать с внутренней инфраструктурой ИИ.

Нужно было пройти бюррократический ад, чтобы получить доступ к любым внутренним данным для анализа или экспериментов. А все данные были плохо аннотированы. Документация по многим функциям либо отсутствовала, либо была устаревшей, получение нужного обурудования требовало большого количества согласований.

*Эксперименты приходилось проводить с ограниченными вычислительными ресурсов.

Представьте, что вы пытаетесь обучить модель transformer, когда все, что вам выделяют это несколько срдених CPU.

Это неприемлемо для такой огромной компании.
Однажды команда исследователей провела анализ, продемонстрировавший, что аннотация для части данных была сделана совершенно неправильной и это привело к неправильным разметкам данных.

Это означало, что в течение нескольких месяцев одна из внутренних команд Amazon по аннотированию данных ежедневно неправильно маркировала тысячи точек данных. Когда его команда попыталась заставить эту команду изменить аннотаций, то обнаружили, что им нужно было ввести в курс дела руководителя команды, затем их менеджера, затем отправить предварительный запрос на изменение, а затем получить одобрение (процесс длился несколько месяцев от начала до конца).

Поскольку это не входило в обязанности команды и не стоило затраченных усилий, было решено закрыть глаза на эту проболему.

Михаил пишет, что Amazon и по сей день используют эту неправльную аннотацию.

Читайте полный пост здесь, очень интересное чтиво у Amazon были все шансы, выпустить свой Amazon ChatGPT (задолго до того, как был выпущен ChatGPT) и они его упустили.

@data_analysis_ml

👍26🔥5❤2

5.72K viewsedited 23:41

Анализ данных (Data analysis)

🌟

scikit-learn-intelex — расширение от Intel для ускорения Scikit-learn

— pip install scikit-learn-intelex

Scikit-learn-intelex позволяет ускорить существующий код scikit-learn за счёт использования более оптимизированных реализаций алгоритмов.
В зависимости от приложения ускорение может быть от 10 до 100 раз.

🖥

🟡

Ноутбук с примерами использования scikit-learn-intelex

@data_analysis_ml

Please open Telegram to view this post

VIEW IN TELEGRAM

👍19🔥8❤3

5.88K views11:36

Анализ данных (Data analysis)

This media is not supported in your browser

VIEW IN TELEGRAM

⚡️ Встречайте Stable Diffusion 3!

Самая лучшая бесплатная модель text-to-image.

Модель с 2 миллиардами параметров работает даже на ноутбуках,

Качество генерации —высочайшее, понимание промтов - на высочайшем уровне, генерирует даже картинки с текстом и все без ошибок!

▪Ан онс
▪Hugging Face.
▪ComfyUI

@data_analysis_ml

👍10🔥9❤2🥰1

5.94K viewsedited 14:00

Анализ данных (Data analysis)

Smol Vision 🐣

Полезные гайды для запуска, оптимизации и настройки самых современных Edge Vision моделей.

▪Github

@data_analysis_ml

👍6❤3🔥3

5.29K views17:57

Анализ данных (Data analysis)

⚡️

DALI — библиотека с GPU-ускорением, содержащая высокооптимизированные компоненты и движок для обработки данных для ускорения обучения моделей Deep Learning и не только

(для CUDA 12.0)
— pip install nvidia-dali-cuda120

NVIDIA Data Loading Library (DALI) — это библиотека для загрузки и предобработки данных с GPU-ускорением для приложений Deep Learning.
DALI может использоваться в качестве замены встроенных загрузчиков данных в популярных фреймворках глубокого обучения.

DALI решает проблему узкого места CPU, перекладывая предобработку данных на GPU.

🖥

🟡

Доки

@data_analysis_ml

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

❤9🔥3👍1🥰1

6.01K views19:03

Анализ данных (Data analysis)

🌟

Merlion — ML-фреймворк для анализа временных рядов

— pip install salesforce-merlion[dashboard]

Merlion — это фреймворк Python для интеллектуального анализа временных рядов.
Merlion представляет собой набор ML-алгоритмов, позволяющих загружать и преобразовывать данные, строить и обучать модели, проводить обработку результатов моделирования и оценивать эффективности модели.

Merlion позволяет решать такие задачи как прогнозирование, обнаружение аномалий (как для одномерных, так и для многомерных временных рядов).

🖥

🟡

Доки

@data_analysis_ml

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍22❤6🔥5❤‍🔥1

8.1K views10:09