DenoiseLAB

❓200 Вопросов по Машинному обучению (Machine Learning) - Вопрос_196

🔠 Можно ли создавать несколько кластерных индексов в одной таблице ? (Часть_2)

Однако PostgreSQL предоставляет другие возможности для организации данных и оптимизации производительности. Вместо разделения таблицы на сегменты с разными кластерными индексами, можно использовать следующие подходы:

1. Некластерные индексы (Non-clustered Indexes): Создание некластерных индексов на таблице позволяет эффективно выполнять операции поиска, сортировки и фильтрации данных. Некластерные индексы не определяют физический порядок хранения данных, но предоставляют отдельную структуру данных для ускорения запросов.

https://boosty.to/denoise_lab/donate - поддержать наш канал.

#database #performance #optimization #indexing #query optimization #data normalization #database configuration #data caching #scaling #data storage

👍Чем больше шеров и лайков, тем больше полезного контента я буду выкладывать.

56 views08:00

👍 4 👎💬

❓200 Вопросов по Машинному обучению (Machine Learning) - Вопрос_196

🔠 Можно ли создавать несколько кластерных индексов в одной таблице ? (Часть_3)

Частичное индексирование (Partial Indexing): PostgreSQL поддерживает частичное индексирование, которое позволяет создавать индексы только для подмножества данных в таблице. Это может быть полезно, если вам требуется оптимизировать выполнение запросов только для определенного диапазона значений или условий.

https://boosty.to/denoise_lab/donate - поддержать наш канал.

#database #performance #optimization #indexing #query optimization #data normalization #database configuration #data caching #scaling #data storage

👍Чем больше шеров и лайков, тем больше полезного контента я буду выкладывать.

👍2

57 views07:00

❓200 Вопросов по Машинному обучению (Machine Learning) - Вопрос_196

🔠 Можно ли создавать несколько кластерных индексов в одной таблице ? (Часть_4)

Горизонтальное разделение данных (Horizontal Partitioning): Вместо создания разделенных кластерных индексов можно разделить данные на отдельные таблицы или схемы в зависимости от некоторого критерия, такого как временной период, регион или другие атрибуты. Затем можно создать кластерные индексы на каждой отдельной таблице или схеме для оптимизации запросов в пределах каждого раздела.

https://boosty.to/denoise_lab/donate - поддержать наш канал.

#database #performance #optimization #indexing #query optimization #data normalization #database configuration #data caching #scaling #data storage

👍Чем больше шеров и лайков, тем больше полезного контента я буду выкладывать.

57 views08:00

👍 3 👎💬

❓200 Вопросов по Машинному обучению (Machine Learning) - Вопрос_196

🔠 Можно ли создавать несколько кластерных индексов в одной таблице ? (Часть_5)

Горизонтальное и вертикальное масштабирование (Sharding): Если вам требуется масштабирование базы данных на несколько узлов, можно использовать горизонтальное разделение данных (sharding), при котором данные разбиваются на несколько физических узлов. В этом случае каждый узел может иметь свою собственную копию таблицы с кластерным индексом.

https://boosty.to/denoise_lab/donate - поддержать наш канал.

#database #performance #optimization #indexing #query optimization #data normalization #database configuration #data caching #scaling #data storage

👍Чем больше шеров и лайков, тем больше полезного контента я буду выкладывать.

60 views07:00

👍 4 👎💬

❓200 Вопросов по Машинному обучению (Machine Learning) - Вопрос_197

🔠 Как устроен декодер Transformers ? (Часть_1)

Декодер в архитектуре Transformers используется в задачах генерации текста, машинного перевода и других подобных задачах. Он выполняет обратную операцию по сравнению с энкодером и помогает генерировать последовательности на основе закодированного контекста.

https://boosty.to/denoise_lab/donate - поддержать наш канал.

#database #performance #optimization #indexing #query optimization #data normalization #database configuration #data caching #scaling #data storage

👍Чем больше шеров и лайков, тем больше полезного контента я буду выкладывать.

61 views08:00

❓200 Вопросов по Машинному обучению (Machine Learning) - Вопрос_197

🔠 Как устроен декодер Transformers ? (Часть_2)

Декодер в Transformers состоит из нескольких блоков декодирования, которые могут быть идентичными или схожими с блоками кодирования в энкодере. Каждый блок декодирования обычно состоит из нескольких слоев самовнимания (self-attention) и позиционно-сетевой передачи (feed-forward).

Слои самовнимания позволяют декодеру фокусироваться на различных частях входной последовательности, а слои позиционно-сетевой передачи позволяют модели агрегировать информацию и генерировать последовательность на выходе.

https://boosty.to/denoise_lab/donate - поддержать наш канал.

#database #performance #optimization #indexing #query optimization #data normalization #database configuration #data caching #scaling #data storage

👍Чем больше шеров и лайков, тем больше полезного контента я буду выкладывать.

57 views07:00

❓200 Вопросов по Машинному обучению (Machine Learning) - Вопрос_197

🔠 Как устроен декодер Transformers ? (Часть_3)

В отличие от энкодера, декодер также использует дополнительное самовнимание, называемое "маскированным самовниманием" (masked self-attention). Маскированное самовнимание гарантирует, что модель не имеет доступа к будущим токенам во время генерации и может использовать только текущие и предыдущие токены для прогнозирования следующего.

https://boosty.to/denoise_lab/donate - поддержать наш канал.

#database #performance #optimization #indexing #query optimization #data normalization #database configuration #data caching #scaling #data storage

👍Чем больше шеров и лайков, тем больше полезного контента я буду выкладывать.

51 views08:00

❓200 Вопросов по Машинному обучению (Machine Learning) - Вопрос_197

🔠 Как устроен декодер Transformers ? (Часть_4)

В процессе генерации декодер применяет блоки декодирования последовательно к входной последовательности с маскированным самовниманием, чтобы генерировать выходную последовательность.

Обычно декодер также использует эмбеддинги токенов на входе и включает механизм внимания (attention), который помогает модели сконцентрироваться на важных частях контекста при генерации каждого токена.

https://boosty.to/denoise_lab/donate - поддержать наш канал.

#database #performance #optimization #indexing #query optimization #data normalization #database configuration #data caching #scaling #data storage

👍Чем больше шеров и лайков, тем больше полезного контента я буду выкладывать.

40 views07:00

❓200 Вопросов по Машинному обучению (Machine Learning) - Вопрос_197

🔠 Как устроен декодер Transformers ? (Часть_5)

Кроме того, в декодере может быть добавлен механизм генерации (generation mechanism), такой как softmax или beam search, для выбора следующего токена на основе вероятностей, предсказанных моделью.

https://boosty.to/denoise_lab/donate - поддержать наш канал.

#database #performance #optimization #indexing #query optimization #data normalization #database configuration #data caching #scaling #data storage

👍Чем больше шеров и лайков, тем больше полезного контента я буду выкладывать.

45 views08:00

❓200 Вопросов по Машинному обучению (Machine Learning) - Вопрос_198

🔠 Что такое TransformerXL ? (Часть_1)

TransformerXL (или Transformer-XL) - это модификация архитектуры Transformer, предложенная в 2019 году разработчиками из OpenAI. TransformerXL был разработан для решения проблемы ограниченной длины контекста, с которой сталкиваются стандартные модели Transformer при обработке длинных последовательностей.

https://boosty.to/denoise_lab/donate - поддержать наш канал.

#database #performance #optimization #indexing #query optimization #data normalization #database configuration #data caching #scaling #data storage

46 views07:00

❓200 Вопросов по Машинному обучению (Machine Learning) - Вопрос_198

🔠 Что такое TransformerXL ? (Часть_2)

В стандартной архитектуре Transformer, как правило, используется фиксированный размер контекста, который ограничивает способность модели учитывать более длинные зависимости в данных. TransformerXL вводит два новых механизма для расширения контекста и улучшения моделирования длинных последовательностей:

https://boosty.to/denoise_lab/donate - поддержать наш канал.

#database #performance #optimization #indexing #query optimization #data normalization #database configuration #data caching #scaling #data storage

54 views08:00

👍 3 👎💬

❓300 Вопросов по Машинному обучению (Machine Learning) - Вопрос_221

🔠 Что вы знаете про Partial Dependence Plots (PDP) ? (Часть_1)

Partial Dependence Plots (PDP) представляют собой графические инструменты, позволяющие визуализировать влияние одного или двух признаков на предсказания модели машинного обучения, игнорируя влияние остальных признаков. Это делает PDP мощным инструментом для интерпретации моделей, особенно в контексте линейной регрессии, где они всегда показывают линейные отношения. PDP также могут быть использованы для классификации, отображая вероятности для определенного класса при различных значениях признаков.

#Partial_Dependence_Plots #Machine_Learning #Model_Interpretation #Linear_Regression #Classification #Feature_Influence #Predictive_Modeling #Data_Visualization

80 views07:00

❓300 Вопросов по Машинному обучению (Machine Learning) - Вопрос_221

🔠 Что вы знаете про Partial Dependence Plots (PDP) ? (Часть_2)

Основные преимущества PDP включают:

- Интуитивность: PDP легко понимаются и позволяют быстро интерпретировать влияние признаков на предсказания модели.
- Глобальный подход: PDP учитывают все экземпляры данных, предоставляя глобальное представление о взаимосвязи признаков с предсказаниями.
- Каузальная интерпретация: PDP позволяют анализировать каузальные отношения между признаками и предсказаниями, хотя это не всегда применимо к реальному миру.

#Partial_Dependence_Plots #Machine_Learning #Model_Interpretation #Linear_Regression #Classification #Feature_Influence #Predictive_Modeling #Data_Visualization

75 views08:00

❓300 Вопросов по Машинному обучению (Machine Learning) - Вопрос_221

🔠 Что вы знаете про Partial Dependence Plots (PDP) ? (Часть_3)

Однако, есть и недостатки:

- Ограничение на количество признаков: В реальности, максимальное количество признаков в PDP обычно ограничено двумя из-за ограничений в двухмерном представлении.
- Пропущенное распределение признаков: Некоторые PDP не показывают распределение признаков, что может ввести в заблуждение, особенно в областях с малой частотой данных.
- Предположение об независимости: PDP предполагают, что признаки, для которых вычисляется частичная зависимость, не коррелируют с другими признаками. Это может привести к нереалистичным интерпретациям, когда признаки коррелируют.

#Partial_Dependence_Plots #Machine_Learning #Model_Interpretation #Linear_Regression #Classification #Feature_Influence #Predictive_Modeling #Data_Visualization

77 views07:00

❓300 Вопросов по Машинному обучению (Machine Learning) - Вопрос_222

🔠Какие есть аналоги Partial Dependence Plots (PDP) ?

1. Accumulated Local Effects (ALE) Plots:
- Похожи на PDPs, но более устойчивы к смещению, вызванному распределением входных данных.
- ALE оценивают локальное влияние переменной, а не глобальное влияние, как в PDPs.

2. Shapley Additive Explanations (SHAP):
- Метод, основанный на теории кооперативных игр, для объяснения прогнозов индивидуальных образцов.
- Вычисляет вклад каждой входной переменной в прогноз для каждого наблюдения.
- Предоставляет как локальные, так и глобальные объяснения модели.

#Partial_Dependence_Plots #Machine_Learning #Model_Interpretation #Linear_Regression #Classification #Feature_Influence #Predictive_Modeling #Data_Visualization

89 views07:00

❓300 Вопросов по Машинному обучению (Machine Learning) - Вопрос_222

🔠Какие есть аналоги Partial Dependence Plots (PDP) ? (Часть_2)

3. Individual Conditional Expectation (ICE) plots: Эти графики также используются для визуализации и анализа взаимодействия целевой переменной и набора входных признаков. Однако, в отличие от PDP, ICE позволяет наблюдать за изменением предсказания для конкретных значений признаков, сохраняя остальные признаки на их средних значениях.

4. ICE Curves: Подобно ICE plots, ICE Curves также позволяют наблюдать за изменением предсказания модели при изменении значений отдельных признаков, но в виде кривых, что может быть более удобно для визуализации изменений на разных уровнях признака

#Partial_Dependence_Plots #Machine_Learning #Model_Interpretation #Linear_Regression #Classification #Feature_Influence #Predictive_Modeling #Data_Visualization

87 views07:00

Основы Natural Language Processing для текста

🍀Читаем статьи за Вас №24:
Обработка естественного языка (NLP)

🥺Основы NLP для текста
Токенизация по предложениям: разделение текста на предложения.
Токенизация по словам: разделение предложений на слова.
Лемматизация и стемминг: приведение словоформ к нормальной форме.
Стоп-слова: удаление нерелевантных слов из текста.
Регулярные выражения: фильтрация текста с помощью шаблонов.
Мешок слов: извлечение признаков из текста.

🥺Токенизация по предложениям
Разделение текста на предложения по знакам пунктуации.
Использование библиотек для автоматизации процесса.

🥺Токенизация по словам
Разделение предложений на слова по пробелам.
Использование библиотек для учета составных существительных.

🥺Лемматизация и стемминг
Приведение словоформ к нормальной словарной форме.
Лемматизация использует словарь и морфологический анализ.
Стемминг обрезает "лишнее" от корня слов.

🥺Стоп-слова
Удаление нерелевантных слов из текста.
Использование предустановленного списка стоп-слов в NLTK.

🥺Регулярные выражения
Последовательности символов для поиска и фильтрации текста.
Использование модуля re в Python для работы с регулярками.

🥺Мешок слов
Извлечение признаков из текста для машинного обучения.
Описание вхождений каждого слова в текст.
Игнорирование порядка и структуры слов.

🥺Загрузка данных
Чтение файла и разделение по строкам
Создание словаря из уникальных слов

🥺Создание векторов документа
Оценка слов в документе
Использование класса CountVectorizer для создания мешка слов

🥺Сложности модели "мешок слов"
Сложность определения словаря и подсчета вхождений слов
Увеличение размера словаря и вектора документа
Использование разреженных векторов для снижения требований к памяти

🥺Методы создания словаря
Игнорирование регистра, пунктуации, стоп-слов
Приведение слов к базовым формам (лемматизация и стемминг)
Исправление неправильно написанных слов
Использование сгруппированных слов (N-граммы)

🥺Оценка слов
Бинарный подход (1 – есть слово, 0 – нет слова)
Методы: количество, частотность

🥺TF-IDF
Понижение оценки часто встречающихся слов
Формула TF-IDF для оценки важности слова
Использование класса TfidfVectorizer для вычисления TF-IDF

https://habr.com/ru/companies/Voximplant/articles/446738/
#nlp #tokenization #data #analysis

Please open Telegram to view this post

VIEW IN TELEGRAM

Хабр

Обработка естественного языка сейчас не используются разве что в совсем консервативных отраслях. В большинстве технологических решений распознавание и обработка «человеческих» языков давно внедрена:...

🔥3

126 viewsedited 15:12

Git. Руководство по оформлению веток и коммитов

🍀Читаем статьи за Вас №25:
Git. Руководство по оформлению веток и коммитов

🥺Оформление ветки
Создание ветки в git помогает отделить код от основной ветки проекта.
Важно правильно именовать ветки, используя типы и краткое описание задачи.
Типы веток: build, chore, ci, docs, feat, fix, perf, refactor, revert, style, test.
После типа ветки указывается бизнес-группа и номер задачи из трекера.

🥺Оформление коммита
Коммит содержит поясняющее сообщение, описывающее проделанную работу.
Сообщение должно быть логичным и начинаться с глагола.
Для развернутого описания работы можно использовать команду git commit.
Рекомендуется использовать линтер CommitLint для проверки сообщений.

🥺Git trailers
В подвале сообщения к коммиту можно добавлять уточняющую информацию (трейлеры).
Для настройки трейлеров можно использовать алиасы ключей через конфиг git.
Для поиска коммитов по трейлерам можно использовать команды git.

🥺WIP-коммиты
WIP-коммиты используются для сохранения изменений до оформления полноценного коммита.
WIP-коммиты не должны попадать в основную рабочую ветку.
Для создания WIP-коммита достаточно добавить тип WIP к сообщению.
Для переоценки коммитов можно использовать интерактивную перебазировку.

🥺Заключение
Правильное оформление веток и коммитов помогает стандартизировать процессы разработки.
Система типов и краткое описание уточняют название ветки и сообщения к коммиту.
Git trailers расширяют информацию сообщения.
WIP-коммиты с перебазировкой сохраняют промежуточную работу и не захламляют историю git.

#git #data #analysis #develope
https://habr.com/ru/articles/820547/

Please open Telegram to view this post

VIEW IN TELEGRAM

Хабр

Git Введение Статей на тему что такое git и как им пользоваться на просторах интернета не мало. Я же хочу предложить вам несколько иной взгляд на привычные вещи, а именно, на оформление веток и...

🔥2

134 views13:53