DenoiseLAB
484 subscribers
1.33K photos
159 videos
3 files
1.57K links
Блог DenoiseLAB (машинное обучение, аналитика)

Информация в канале служит только для ознакомления и не является призывом к действию. Не нарушайте законы РФ и других стран. Мы не несем отвественность за ваши действия или бездействия.
Download Telegram
200 Вопросов по Машинному обучению (Machine Learning) - Вопрос_196

🔠 Можно ли создавать несколько кластерных индексов в одной таблице ? (Часть_1)

В PostgreSQL не существует встроенной функциональности "строковой сегментации" (table partitioning) для создания разделенных кластерных индексов, как в Microsoft SQL Server. В PostgreSQL можно создавать только один кластерный индекс на таблицу.

https://boosty.to/denoise_lab/donate - поддержать наш канал.

#database #performance #optimization #indexing #query optimization #data normalization #database configuration #data caching #scaling #data storage

👍Чем больше шеров и лайков, тем больше полезного контента я буду выкладывать.
👍3
200 Вопросов по Машинному обучению (Machine Learning) - Вопрос_196

🔠 Можно ли создавать несколько кластерных индексов в одной таблице ? (Часть_2)

Однако PostgreSQL предоставляет другие возможности для организации данных и оптимизации производительности. Вместо разделения таблицы на сегменты с разными кластерными индексами, можно использовать следующие подходы:

1. Некластерные индексы (Non-clustered Indexes): Создание некластерных индексов на таблице позволяет эффективно выполнять операции поиска, сортировки и фильтрации данных. Некластерные индексы не определяют физический порядок хранения данных, но предоставляют отдельную структуру данных для ускорения запросов.

https://boosty.to/denoise_lab/donate - поддержать наш канал.

#database #performance #optimization #indexing #query optimization #data normalization #database configuration #data caching #scaling #data storage

👍Чем больше шеров и лайков, тем больше полезного контента я буду выкладывать.
200 Вопросов по Машинному обучению (Machine Learning) - Вопрос_196

🔠 Можно ли создавать несколько кластерных индексов в одной таблице ? (Часть_3)

Частичное индексирование (Partial Indexing): PostgreSQL поддерживает частичное индексирование, которое позволяет создавать индексы только для подмножества данных в таблице. Это может быть полезно, если вам требуется оптимизировать выполнение запросов только для определенного диапазона значений или условий.

https://boosty.to/denoise_lab/donate - поддержать наш канал.

#database #performance #optimization #indexing #query optimization #data normalization #database configuration #data caching #scaling #data storage

👍Чем больше шеров и лайков, тем больше полезного контента я буду выкладывать.
👍2
200 Вопросов по Машинному обучению (Machine Learning) - Вопрос_196

🔠 Можно ли создавать несколько кластерных индексов в одной таблице ? (Часть_4)

Горизонтальное разделение данных (Horizontal Partitioning): Вместо создания разделенных кластерных индексов можно разделить данные на отдельные таблицы или схемы в зависимости от некоторого критерия, такого как временной период, регион или другие атрибуты. Затем можно создать кластерные индексы на каждой отдельной таблице или схеме для оптимизации запросов в пределах каждого раздела.

https://boosty.to/denoise_lab/donate - поддержать наш канал.

#database #performance #optimization #indexing #query optimization #data normalization #database configuration #data caching #scaling #data storage

👍Чем больше шеров и лайков, тем больше полезного контента я буду выкладывать.
200 Вопросов по Машинному обучению (Machine Learning) - Вопрос_196

🔠 Можно ли создавать несколько кластерных индексов в одной таблице ? (Часть_5)

Горизонтальное и вертикальное масштабирование (Sharding): Если вам требуется масштабирование базы данных на несколько узлов, можно использовать горизонтальное разделение данных (sharding), при котором данные разбиваются на несколько физических узлов. В этом случае каждый узел может иметь свою собственную копию таблицы с кластерным индексом.

https://boosty.to/denoise_lab/donate - поддержать наш канал.

#database #performance #optimization #indexing #query optimization #data normalization #database configuration #data caching #scaling #data storage

👍Чем больше шеров и лайков, тем больше полезного контента я буду выкладывать.
200 Вопросов по Машинному обучению (Machine Learning) - Вопрос_197

🔠 Как устроен декодер Transformers ? (Часть_1)

Декодер в архитектуре Transformers используется в задачах генерации текста, машинного перевода и других подобных задачах. Он выполняет обратную операцию по сравнению с энкодером и помогает генерировать последовательности на основе закодированного контекста.

https://boosty.to/denoise_lab/donate - поддержать наш канал.

#database #performance #optimization #indexing #query optimization #data normalization #database configuration #data caching #scaling #data storage

👍Чем больше шеров и лайков, тем больше полезного контента я буду выкладывать.
200 Вопросов по Машинному обучению (Machine Learning) - Вопрос_197

🔠 Как устроен декодер Transformers ? (Часть_2)

Декодер в Transformers состоит из нескольких блоков декодирования, которые могут быть идентичными или схожими с блоками кодирования в энкодере. Каждый блок декодирования обычно состоит из нескольких слоев самовнимания (self-attention) и позиционно-сетевой передачи (feed-forward).

Слои самовнимания позволяют декодеру фокусироваться на различных частях входной последовательности, а слои позиционно-сетевой передачи позволяют модели агрегировать информацию и генерировать последовательность на выходе.

https://boosty.to/denoise_lab/donate - поддержать наш канал.

#database #performance #optimization #indexing #query optimization #data normalization #database configuration #data caching #scaling #data storage

👍Чем больше шеров и лайков, тем больше полезного контента я буду выкладывать.
200 Вопросов по Машинному обучению (Machine Learning) - Вопрос_197

🔠 Как устроен декодер Transformers ? (Часть_3)

В отличие от энкодера, декодер также использует дополнительное самовнимание, называемое "маскированным самовниманием" (masked self-attention). Маскированное самовнимание гарантирует, что модель не имеет доступа к будущим токенам во время генерации и может использовать только текущие и предыдущие токены для прогнозирования следующего.

https://boosty.to/denoise_lab/donate - поддержать наш канал.

#database #performance #optimization #indexing #query optimization #data normalization #database configuration #data caching #scaling #data storage

👍Чем больше шеров и лайков, тем больше полезного контента я буду выкладывать.
200 Вопросов по Машинному обучению (Machine Learning) - Вопрос_197

🔠 Как устроен декодер Transformers ? (Часть_4)

В процессе генерации декодер применяет блоки декодирования последовательно к входной последовательности с маскированным самовниманием, чтобы генерировать выходную последовательность.

Обычно декодер также использует эмбеддинги токенов на входе и включает механизм внимания (attention), который помогает модели сконцентрироваться на важных частях контекста при генерации каждого токена.

https://boosty.to/denoise_lab/donate - поддержать наш канал.

#database #performance #optimization #indexing #query optimization #data normalization #database configuration #data caching #scaling #data storage

👍Чем больше шеров и лайков, тем больше полезного контента я буду выкладывать.
200 Вопросов по Машинному обучению (Machine Learning) - Вопрос_197

🔠 Как устроен декодер Transformers ? (Часть_5)

Кроме того, в декодере может быть добавлен механизм генерации (generation mechanism), такой как softmax или beam search, для выбора следующего токена на основе вероятностей, предсказанных моделью.

https://boosty.to/denoise_lab/donate - поддержать наш канал.

#database #performance #optimization #indexing #query optimization #data normalization #database configuration #data caching #scaling #data storage

👍Чем больше шеров и лайков, тем больше полезного контента я буду выкладывать.
200 Вопросов по Машинному обучению (Machine Learning) - Вопрос_198

🔠 Что такое TransformerXL ? (Часть_1)

TransformerXL (или Transformer-XL) - это модификация архитектуры Transformer, предложенная в 2019 году разработчиками из OpenAI. TransformerXL был разработан для решения проблемы ограниченной длины контекста, с которой сталкиваются стандартные модели Transformer при обработке длинных последовательностей.

https://boosty.to/denoise_lab/donate - поддержать наш канал.

#database #performance #optimization #indexing #query optimization #data normalization #database configuration #data caching #scaling #data storage
200 Вопросов по Машинному обучению (Machine Learning) - Вопрос_198

🔠 Что такое TransformerXL ? (Часть_2)

В стандартной архитектуре Transformer, как правило, используется фиксированный размер контекста, который ограничивает способность модели учитывать более длинные зависимости в данных. TransformerXL вводит два новых механизма для расширения контекста и улучшения моделирования длинных последовательностей:

https://boosty.to/denoise_lab/donate - поддержать наш канал.

#database #performance #optimization #indexing #query optimization #data normalization #database configuration #data caching #scaling #data storage
300 Вопросов по Машинному обучению (Machine Learning) - Вопрос_221

🔠 Что вы знаете про Partial Dependence Plots (PDP) ? (Часть_1)

Partial Dependence Plots (PDP) представляют собой графические инструменты, позволяющие визуализировать влияние одного или двух признаков на предсказания модели машинного обучения, игнорируя влияние остальных признаков. Это делает PDP мощным инструментом для интерпретации моделей, особенно в контексте линейной регрессии, где они всегда показывают линейные отношения. PDP также могут быть использованы для классификации, отображая вероятности для определенного класса при различных значениях признаков.

#Partial_Dependence_Plots #Machine_Learning #Model_Interpretation #Linear_Regression #Classification #Feature_Influence #Predictive_Modeling #Data_Visualization
300 Вопросов по Машинному обучению (Machine Learning) - Вопрос_221

🔠 Что вы знаете про Partial Dependence Plots (PDP) ? (Часть_2)

Основные преимущества PDP включают:

- Интуитивность: PDP легко понимаются и позволяют быстро интерпретировать влияние признаков на предсказания модели.
- Глобальный подход: PDP учитывают все экземпляры данных, предоставляя глобальное представление о взаимосвязи признаков с предсказаниями.
- Каузальная интерпретация: PDP позволяют анализировать каузальные отношения между признаками и предсказаниями, хотя это не всегда применимо к реальному миру.

#Partial_Dependence_Plots #Machine_Learning #Model_Interpretation #Linear_Regression #Classification #Feature_Influence #Predictive_Modeling #Data_Visualization
300 Вопросов по Машинному обучению (Machine Learning) - Вопрос_221

🔠 Что вы знаете про Partial Dependence Plots (PDP) ? (Часть_3)

Однако, есть и недостатки:

- Ограничение на количество признаков: В реальности, максимальное количество признаков в PDP обычно ограничено двумя из-за ограничений в двухмерном представлении.
- Пропущенное распределение признаков: Некоторые PDP не показывают распределение признаков, что может ввести в заблуждение, особенно в областях с малой частотой данных.
- Предположение об независимости: PDP предполагают, что признаки, для которых вычисляется частичная зависимость, не коррелируют с другими признаками. Это может привести к нереалистичным интерпретациям, когда признаки коррелируют.

#Partial_Dependence_Plots #Machine_Learning #Model_Interpretation #Linear_Regression #Classification #Feature_Influence #Predictive_Modeling #Data_Visualization
300 Вопросов по Машинному обучению (Machine Learning) - Вопрос_222

🔠Какие есть аналоги Partial Dependence Plots (PDP) ?

1. Accumulated Local Effects (ALE) Plots:
- Похожи на PDPs, но более устойчивы к смещению, вызванному распределением входных данных.
- ALE оценивают локальное влияние переменной, а не глобальное влияние, как в PDPs.

2. Shapley Additive Explanations (SHAP):
- Метод, основанный на теории кооперативных игр, для объяснения прогнозов индивидуальных образцов.
- Вычисляет вклад каждой входной переменной в прогноз для каждого наблюдения.
- Предоставляет как локальные, так и глобальные объяснения модели.

#Partial_Dependence_Plots #Machine_Learning #Model_Interpretation #Linear_Regression #Classification #Feature_Influence #Predictive_Modeling #Data_Visualization
300 Вопросов по Машинному обучению (Machine Learning) - Вопрос_222

🔠Какие есть аналоги Partial Dependence Plots (PDP) ? (Часть_2)

3. Individual Conditional Expectation (ICE) plots: Эти графики также используются для визуализации и анализа взаимодействия целевой переменной и набора входных признаков. Однако, в отличие от PDP, ICE позволяет наблюдать за изменением предсказания для конкретных значений признаков, сохраняя остальные признаки на их средних значениях.

4. ICE Curves: Подобно ICE plots, ICE Curves также позволяют наблюдать за изменением предсказания модели при изменении значений отдельных признаков, но в виде кривых, что может быть более удобно для визуализации изменений на разных уровнях признака

#Partial_Dependence_Plots #Machine_Learning #Model_Interpretation #Linear_Regression #Classification #Feature_Influence #Predictive_Modeling #Data_Visualization
🍀Читаем статьи за Вас №24:
Обработка естественного языка (NLP)

🥺Основы NLP для текста
Токенизация по предложениям: разделение текста на предложения.
Токенизация по словам: разделение предложений на слова.
Лемматизация и стемминг: приведение словоформ к нормальной форме.
Стоп-слова: удаление нерелевантных слов из текста.
Регулярные выражения: фильтрация текста с помощью шаблонов.
Мешок слов: извлечение признаков из текста.

🥺Токенизация по предложениям
Разделение текста на предложения по знакам пунктуации.
Использование библиотек для автоматизации процесса.

🥺Токенизация по словам
Разделение предложений на слова по пробелам.
Использование библиотек для учета составных существительных.

🥺Лемматизация и стемминг
Приведение словоформ к нормальной словарной форме.
Лемматизация использует словарь и морфологический анализ.
Стемминг обрезает "лишнее" от корня слов.

🥺Стоп-слова
Удаление нерелевантных слов из текста.
Использование предустановленного списка стоп-слов в NLTK.

🥺Регулярные выражения
Последовательности символов для поиска и фильтрации текста.
Использование модуля re в Python для работы с регулярками.

🥺Мешок слов
Извлечение признаков из текста для машинного обучения.
Описание вхождений каждого слова в текст.
Игнорирование порядка и структуры слов.

🥺Загрузка данных
Чтение файла и разделение по строкам
Создание словаря из уникальных слов

🥺Создание векторов документа
Оценка слов в документе
Использование класса CountVectorizer для создания мешка слов

🥺Сложности модели "мешок слов"
Сложность определения словаря и подсчета вхождений слов
Увеличение размера словаря и вектора документа
Использование разреженных векторов для снижения требований к памяти

🥺Методы создания словаря
Игнорирование регистра, пунктуации, стоп-слов
Приведение слов к базовым формам (лемматизация и стемминг)
Исправление неправильно написанных слов
Использование сгруппированных слов (N-граммы)

🥺Оценка слов
Бинарный подход (1 – есть слово, 0 – нет слова)
Методы: количество, частотность

🥺TF-IDF
Понижение оценки часто встречающихся слов
Формула TF-IDF для оценки важности слова
Использование класса TfidfVectorizer для вычисления TF-IDF

https://habr.com/ru/companies/Voximplant/articles/446738/
#nlp #tokenization #data #analysis
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥3
🍀Читаем статьи за Вас №25:
Git. Руководство по оформлению веток и коммитов

🥺Оформление ветки
Создание ветки в git помогает отделить код от основной ветки проекта.
Важно правильно именовать ветки, используя типы и краткое описание задачи.
Типы веток: build, chore, ci, docs, feat, fix, perf, refactor, revert, style, test.
После типа ветки указывается бизнес-группа и номер задачи из трекера.

🥺Оформление коммита
Коммит содержит поясняющее сообщение, описывающее проделанную работу.
Сообщение должно быть логичным и начинаться с глагола.
Для развернутого описания работы можно использовать команду git commit.
Рекомендуется использовать линтер CommitLint для проверки сообщений.

🥺Git trailers
В подвале сообщения к коммиту можно добавлять уточняющую информацию (трейлеры).
Для настройки трейлеров можно использовать алиасы ключей через конфиг git.
Для поиска коммитов по трейлерам можно использовать команды git.

🥺WIP-коммиты
WIP-коммиты используются для сохранения изменений до оформления полноценного коммита.
WIP-коммиты не должны попадать в основную рабочую ветку.
Для создания WIP-коммита достаточно добавить тип WIP к сообщению.
Для переоценки коммитов можно использовать интерактивную перебазировку.

🥺Заключение
Правильное оформление веток и коммитов помогает стандартизировать процессы разработки.
Система типов и краткое описание уточняют название ветки и сообщения к коммиту.
Git trailers расширяют информацию сообщения.
WIP-коммиты с перебазировкой сохраняют промежуточную работу и не захламляют историю git.

#git #data #analysis #develope
https://habr.com/ru/articles/820547/
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥2
​​🚀Читаем статьи за Вас №23:

Обзор использования синтетических данных в машинном обучении
• Синтетические данные используются для обучения моделей, когда реальных данных недостаточно.
• Синтетические данные могут быть созданы с помощью генеративных моделей, таких как GAN.
• Примеры использования включают генерацию изображений, аудио и текстовых данных.

Применение синтетических данных в различных сферах
• В медицине синтетические данные используются для создания биофизических симуляций.
• В области безопасности и распознавания лиц синтетические данные помогают в обучении моделей.
• В сфере финансов и чат-ботов синтетические данные применяются для создания обучающих наборов.
• В страховании синтетические данные используются для моделирования оттока клиентов.
• В автомобильной промышленности синтетические данные применяются для обучения беспилотных автомобилей.

Преимущества и ограничения синтетических данных
• Синтетические данные позволяют быстро и эффективно обучать модели, но могут содержать ошибки.
• Реальные данные ценны, но их сбор может быть сложным и затратным, в то время как синтетические данные могут быть более доступными.

Примеры использования синтетических данных
• American Express использовала синтетические данные для борьбы с мошенничеством.
• Charité Lab использовала синтетические данные для прогнозирования результатов инсультов.
• Microsoft обучила модели компьютерного зрения на синтетических данных.
• Moveworks разработал чат-бота на основе синтетических данных.
• La Mobilière использовала синтетические данные для соблюдения требований по конфиденциальности.
• NVIDIA создала виртуальное пространство для тестирования роботов.
• Amazon применила синтетические данные для улучшения понимания естественного языка Alexa.
• Waymo использует синтетические данные для обучения беспилотных автомобилей.

👉Ссылка: https://habr.com/ru/articles/721170/

#syntetic #data #pipline #analysis