Анализ данных (Data analysis)
45.2K subscribers
2.12K photos
232 videos
1 file
1.91K links
Data science, наука о данных.

@haarrp - админ

@itchannels_telegram - 🔥 главное в ит

@ai_machinelearning_big_data - ML

@machinelearning_interview - вопросы с собесдований по Ml

РКН: clck.ru/3FmyAp
Download Telegram
Двухэтапный кластерный анализ

Процедура Двухэтапный кластерный анализ представляет собой средство разведочного анализа для выявления естественного разбиения набора данных на группы (или кластеры), которое без ее применения трудно обнаружить. Алгоритм, используемый этой процедурой, имеет несколько привлекательных особенностей, которые отличают его от традиционных методов кластерного анализа:

Работа с категориальными и непрерывными переменными. Предполагая независимость переменных, можно считать, что категориальные и непрерывные переменные имеют совместное полиномиально-нормальное распределение.
Автоматический выбор числа кластеров. Сравнивая значения критерия отбора модели для различных кластерных решений, процедура может автоматически определить оптимальное число кластеров.
Масштабируемость. Формируя дерево свойств кластеров (СК), которое является компактным представлением информации о наблюдениях, двухэтапный алгоритм позволяет анализировать большие файлы данных.
Пример. Компании производства потребительских товаров и розничной торговли регулярно применяют методы кластерного анализа к данным, описывающим покупательские привычки их клиентов, а также их пол, возраст, уровень доходов и т.д. Эти компании настраивают стратегии маркетинга и развития производства на каждую из групп потребителей, чтобы увеличить продажи и повысить приверженность потребителей маркам товаров.


Двухэтапный кластерный анализ
Параметры процедуры Двухэтапный кластерный анализ
Вывод процедуры Двухэтапный кластерный анализ
Средство просмотра кластеров
10 алгоритмов кластеризации на Python

@data_analysis_ml
This media is not supported in your browser
VIEW IN TELEGRAM
Plotly — потрясающая интерактивная библиотека визуализации, но она может работать довольно медленно, когда визуализируется множество точек данных (более 100 000 точек). Библиотека Plotly Resampler решает эту проблему, уменьшая (агрегируя) данные, а затем отображает агрегированные точки. Библиотека, позволяюяет динамически перерисовывать графики в колабах.

Github: https://github.com/predict-idlab/plotly-resampler

Демо: https://github.com/predict-idlab/plotly-resampler/blob/main/examples/basic_example.ipynb

@data_analysis_ml
🐍📈 Как «оживлять» графики и впечатлять всех красивыми анимациями с помощью Python

Показываем на примерах, как создавать красивые анимации с помощью Python, чтобы удивлять даже самых искушенных зрителей.

https://proglib.io/p/kak-ozhivlyat-grafiki-i-vpechatlyat-vseh-krasivymi-animaciyami-s-pomoshchyu-python-2022-03-29

@data_analysis_ml
🔊 Анализ аудиоданных с помощью глубокого обучения и Python

Аудиоанализ — область, включающая автоматическое распознавание речи (ASR), цифровую обработку сигналов, а также классификацию, тегирование и генерацию музыки — представляет собой развивающийся поддомен приложений глубокого обучения. Некоторые из самых популярных и распространенных систем машинного обучения, такие как виртуальные помощники Alexa, Siri и Google Home, — это продукты, созданные на основе моделей, извлекающих информацию из аудиосигналов.

Читать дальше
25 наборов аудиоданных для исследований
Статья Анализ аудио. Идентификация голоса

@data_analysis_ml
EportalСимулятор эволюции с капелькой ИИ

Когда начинается эволюция, вместе с ней начинаются великие битвы; объекты делают все возможное, чтобы заполнить как можно больше места для победы своего «вида»; некоторые из них становятся пассивными, едят растения и размножаются, некоторые из них становятся агрессивными, пытаясь атаковать объекты других видов

В общем и целом, довольно интересный проект с которым можно поиграться, посмотреть исходный код

#Python #AI #simulation

@data_analysis_ml
💬 Yandex: An Open-source Yet another Language Model 100B

Яндекс выложил модель YaLM 100B, сейчас это крупнейшая GPT-подобная нейросеть в свободном доступе, обученная на 2 терабайтах текста: датасетах и сайтах, включающих Wikipedia, новостные статьи и книги, Github и arxiv.org. Яндекс использует генеративные нейронные сети YaLM в недавнем обновлении поиска Y1. Сейчас модель уже помогает давать ответы в Яндекс поиске и Алисе.

Github: https://github.com/yandex/YaLM-100B

Статья: https://habr.com/ru/company/yandex/blog/672396/

@data_analysis_ml
В Яндексе идёт набор на стажировку! Хотите поближе познакомиться с командами и выбрать для стажировки именно ту, в которой вам будет интересно? 27 июня приглашаем на наше большое онлайн-мероприятие — Летний фестиваль вакансий ☀️

На фестивале выступят руководители команд из разных подразделений Яндекса, они расскажут о своих задачах и самых свежих стажёрских вакансиях по бэкенду, фронтенду, мобильной разработке, ML, аналитике и DevOps. Вы сможете задать им любые вопросы, а после — подать заявку на стажировку в той команде, которая вам понравилась.

А ещё мы впервые покажем, как проходит секция на алгоритмы для стажёров!

Регистрируйтесь, чтобы присоединиться: https://clck.ru/rcgeQ
📝 Добыча данных: анализ рыночной корзины с помощью алгоритма Apriori

Алгоритм Apriori  —  один из самых популярных алгоритмов, используемых в обучении правилам ассоциаций на реляционных базах данных. Он определяет элементы в наборе данных и далее расширяет их на все большие и большие наборы элементов.

Однако алгоритм Apriori расширяется только в том случае, если наборы элементов являются частыми, то есть если существует вероятность того, что набор элементов превышает определенный заранее установленный порог.

Читать дальше

@data_analysis_ml
5️⃣ подходов к построению современной платформы данных

https://telegra.ph/5-podhodov-k-postroeniyu-sovremennoj-platformy-dannyh-06-25

@data_analysis_ml
DashАналитические веб-приложения для Python, R, Julia и Jupyter.

Это наиболее скачиваемый и одновременно надежный фреймворк Python для создания веб-приложений для ML & data science.

Построенный поверх Plotly.js, React и Flask, Dash связывает современные элементы пользовательского интерфейса, такие как выпадающие списки, ползунки и графики, непосредственно с вашим аналитическим кодом Python.

Документация
Примеры программ

@data_analysis_ml | #Python #R #Web #ML #Data #Science
7 способов раскрыть жульничество аналитика данных

Не имеет значения, являетесь ли вы крупным или малым предпринимателем, инвестором, частью менеджерского звена компании, судьёй на марафоне программирования или иным участником технологической индустрии, рано или поздно вы окажетесь в ситуации, где кто-либо пытается “продать” вам свой “ИИ-продукт”, “ПО машинного обучения” или какое-то другое сочетание вычурных слов. Если такая ситуация случилась с вами, будет естественным чувствовать нехватку знаний и опыта для принятия взвешенного решения. Стойте на своём и не позвольте себя обыграть! Ниже приведены 7 здравых способов, которые помогут вам пробиться через навязываемую чушь и понять истинную ценность предложения по машинному обучению (ML), которое вам пытаются продать.

Читать дальше

@data_analysis_ml
This media is not supported in your browser
VIEW IN TELEGRAM
⚙️ GraphQL-engineМолниеносно быстрые, мгновенные API GraphQL в реальном времени для вашей базы данных с детализированным контролем доступа.

Создавайте мощные запросы:
встроенная фильтрация, разбивка на страницы, поиск шаблонов, множественная вставка, обновление, удаление мутаций

Позволяет
использовать пользовательскую бизнес-логику в определенные моменты времени, используя конфигурацию cron или одноразовое событие

Поддерживаемые базы данных: PostgreSQL (и его разновидности), MS SQL Server и Big Query

💻 Код
📝 Инструкция

@data_analysis_ml
Заметки по SQL для профессионалов

Прекрасный материал по работе с данными

Смотреть
🗾 Посмотрим, как ИИ учится классифицировать изображения

Загляним под капот алгоритмов машинного обучения, пока они работают.

Cуществует множество руководств и статей, которые хорошо показывают, как алгоритмы машинного обучения могут обучаться на изображениях и выполнять различные удивительные задачи. Итак, эта статья не о том, что они могут сделать,а о том что происходит, пока машины учатся.

Я надеюсь, что анимации в этой статье смогут ннаглядно показать, как современные алгоритмы машинного обучения работают с различными данными и очень быстро учатся тому, как извлекать значимые признаки из данных для эффективного решения поставленной задачи. Итак, давайте сразу приступим!

Статья
Код
Набор данных

@data_analysis_ml
🗣️ Решаем задачу перевода русской речи в текст с помощью Python и библиотеки Vosk

https://proglib.io/p/reshaem-zadachu-perevoda-russkoy-rechi-v-tekst-s-pomoshchyu-python-i-biblioteki-vosk-2022-06-30

@data_analysis_ml
14 проектов по науке о данных

Возможно, самые короткие по срокам проекты визуализации данных! Ниже приведены интересные наборы данных, с помощью которых вы сможете пополнить свои портфолио, проведя анализ данных и создав несколько интересных визуализаций .

Читать дальше

@data_analysis_ml
Лассо- и ридж-регрессии: интуитивное сравнение

Знакомство с машинным обучением часто начинается с линейной регрессии  —  одного из самых простых алгоритмов.

Однако эта модель быстро раскрывает свои недостатки, особенно при работе с наборами данных, которые требуют перестройки моделей. Основные решения этой проблемы  —  ридж- и лассо-регрессии.

Читать дальше

@data_analysis_ml
🤖 Подборка полезных ресурсов по машинному обучению и аннализу данных

@ai_machinelearning_big_data - продвинутый ML
@datascienceiot - книги по аннализу данных
@machinelearning_ru - машиннное обучение с нуля до профи
@ArtificialIntelligencedl - искусственный интеллект
@Machinelearningtest - тесты по мл
@machinee_learning - чат дата саентистов
@programming_books_it - книги по прогрраммированию
@pro_python_code - глубокий python
@Golang_google -golang
@itchannels_telegram - полный список полезных ресурсов
🛠 Главные ошибки при анализе данных

Аналитик данных — лучший в статистике среди программистов и лучший программист среди статистиков. В этом топе обсудим, как программисту стать лучше в статистике.

Примеры, код и детальный вывод доступны на github и в Jupyter Notebook. В коде библиотека d6tflowуправляет рабочим процессом, а d6tpipe обеспечивает публичное хранение данных.

Статья
Код

@data_analysis_ml