DenoiseLAB
486 subscribers
1.33K photos
159 videos
3 files
1.57K links
Блог DenoiseLAB (машинное обучение, аналитика)

Информация в канале служит только для ознакомления и не является призывом к действию. Не нарушайте законы РФ и других стран. Мы не несем отвественность за ваши действия или бездействия.
Download Telegram
🤐🤐🤐Очень интересное наблюдение провел. Сижу на Kaggle и решаю таски по продуктовой аналитике и предсказанию поведения пользователей на одном из соревнований. Есть датасет на 64 фичи. Он сборный из несколько частей, то есть исходный датасет состоит из 6 разношерстных датасетов, которые собирались как лоскутное одеяло по кускам и после этого делалось очистка датасета и генерация новых фичей.

🥵🥵🥵Стояла задача оптимизации решения, чтобы уменьшить размер датасета (датафрейма), но вместе с тем не потерять в точности по скору модели, при этом надо было пройти еще по памяти, так как Kaggle, дает лишь 30 гигабайт оперативной памяти на решение. На чанки разбивать не хотелось, поэтому было принято решение все ужать до единого куска и попробовать поработать плотно с ним.

😶‍🌫️😶‍🌫️😶‍🌫️Перерыл всю сеть на все возможные комбинации по решению, плотно поработал с разрядностью данных и представлением фичей в общем контексте, какие ролевантные какие нет, и как их можно использовать в более удобном формате, чтобы они давали больше профита на финале. То есть пошел не накручивать модели и их гиперпараметры, больше углубился в математику "сырых" данных.

🥳🥳🥳В итоге, удалось время обучения сократить на целый час и 30 минут, Карл !!! 1.5 часа выигрыша. Невероятно, я предполагал, что будет выигрышь, но не настолько круто, при этом скор по модели был улучшен.

😆😆😆 Да, соревнование не новое, но мне захотелось "потестить" и посмотреть, что в итоге получится и поработать с данными в более "спокойной" обстановке плюс здесь есть обширный набор фичей. В общем, плотно заходим на Kaggle и мутим там таски, благо на это сейчас есть время и ресурсы. В целом я доволен результатом, но можно еще улучшить. Все пруфы прилагаю. Из 2621 решения мое оказалось на 401. Максимальный скор, 0.40914, я показал 0.40223. В целом можно еще дожимать и поднимать скор, но задача была именно поработать с сырыми данными и посмотреть профит от оптимизации. Считаю в целом получилось.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥3
200 Вопросов по Машинному обучению (Machine Learning) - Вопрос_193

🔠 Расскажите про методы увеличения производительности СУБД ? (Часть_4)

Масштабирование: Если нагрузка на базу данных становится слишком большой, можно применить методы масштабирования, такие как горизонтальное или вертикальное масштабирование. Горизонтальное масштабирование включает добавление дополнительных серверов или узлов для распределения нагрузки, а вертикальное масштабирование - использование более мощного оборудования.

Использование хранилищ данных: Для некоторых типов данных и запросов, использование специализированных хранилищ данных, таких как колоночные базы данных или базы данных в памяти, может значительно повысить производительность.

https://boosty.to/denoise_lab/donate - поддержать наш канал.

#database #performance #optimization #indexing #query optimization #data normalization #database configuration #data caching #scaling #data storage

👍Чем больше шеров и лайков, тем больше полезного контента я буду выкладывать.
Вот такая затейная инфографика прилетела ))
3
200 Вопросов по Машинному обучению (Machine Learning) - Вопрос_194

🔠 Какие типы индексов можно создавать в базе данных ? (Часть_1)

Кластерный индекс (Clustered Index): Кластерный индекс определяет физический порядок хранения данных в таблице. В таблице может быть только один кластерный индекс. Записи в таблице упорядочены по значениям кластерного индекса, что позволяет быстро выполнять операции поиска, сортировки и диапазонного сканирования данных.

https://boosty.to/denoise_lab/donate - поддержать наш канал.

#database #performance #optimization #indexing #query optimization #data normalization #database configuration #data caching #scaling #data storage

👍Чем больше шеров и лайков, тем больше полезного контента я буду выкладывать.
❄️❄️❄️Ребята всем привет, я буду сегодня на IT катке от Тинькова. Если будет желание можно пересечься. Для тех кто не в курсе вопроса вот ссылка на мероприятие: https://www.tinkoff.ru/mobile-operator/news/26122023-tinkoff-on-ice-20-largest-it-ice-rink-will-be-held-in-moscow/

🥶🥶🥶Конечно же будет трансляция с тусовки ))
Please open Telegram to view this post
VIEW IN TELEGRAM
200 Вопросов по Машинному обучению (Machine Learning) - Вопрос_194

🔠 Какие типы индексов можно создавать в базе данных ? (Часть_2)

Некластерный индекс (Non-clustered Index): Некластерный индекс создается на одном или более столбцах таблицы. В отличие от кластерного индекса, некластерный индекс не определяет физический порядок хранения данных. Вместо этого он создает отдельную структуру данных, содержащую ключи индекса и ссылки на соответствующие записи таблицы. Некластерные индексы облегчают поиск, сортировку и фильтрацию данных.

https://boosty.to/denoise_lab/donate - поддержать наш канал.

#database #performance #optimization #indexing #query optimization #data normalization #database configuration #data caching #scaling #data storage

👍Чем больше шеров и лайков, тем больше полезного контента я буду выкладывать.
200 Вопросов по Машинному обучению (Machine Learning) - Вопрос_194

🔠 Какие типы индексов можно создавать в базе данных ? (Часть_3)

Уникальный индекс (Unique Index): Уникальный индекс гарантирует уникальность значений в индексируемых столбцах. Как кластерный, так и некластерный индексы могут быть уникальными. Уникальный индекс может быть полезен для обеспечения целостности данных и ускорения операций поиска.

https://boosty.to/denoise_lab/donate - поддержать наш канал.

#database #performance #optimization #indexing #query optimization #data normalization #database configuration #data caching #scaling #data storage

👍Чем больше шеров и лайков, тем больше полезного контента я буду выкладывать.
Оказывается, Linkedin неплохо так отрабатывает при постоянном постинге и трафик движется от туда достаточно мощный.
🔤🔤🔤В целом про айти менеджмент на катке интересно рассказали, но мысль в целом подтвердили мою и моих коллег: "Если вы хотите стоять, сейчас надо бежать". Особо чего-то новаторского не было пресдставлено, но компанейско все было.

🔤🔤🔤Мысль заключается в том, что изменения не будут ждать никого, идет все слишком быстро, если задача не решается молниеносно, вероятность того, что она решится в будущем стремится к нулю, или будет стремится к очень большим затратам. Скорость будет только нарастать. Стоимость решения отложенных задач нарастает кратно. А учитывая тот факт, что OpenAI теперь оффициальный разработчик пентагона, задач только добавится у всех. Есть и положительный момент задач будет валом и интересных.
Please open Telegram to view this post
VIEW IN TELEGRAM
О первые звоночки, в борьбе за кадры, о чем я и говорил. ИИ несомненно нужно продвигать и оно доказало свою эффективность, но надо продвигать его вместе с кадрами, тогда профит будет в разы больше. Чистая математика!
https://codenrock.com/contests/russian-art-ml-challenge#/ - Челендж Art of Russia уже на CodenRock
This media is not supported in your browser
VIEW IN TELEGRAM
Это лучшее что я видел за сегодня. Такие люди основа конторы, они любой таск вытащат и любую проблему вытянут. Они уже все видели, их ничем не испугаешь. Я видел таких персонажей, самый стабильный код выдают, потому как не спят сутками, делают кучу тестов и в курсе всех изменений в языке и технологиях, база )) ахахаха

P.S. Ролик конечно утрированный, обычно это очень терпимые и невероятно усидчивые люди.
200 Вопросов по Машинному обучению (Machine Learning) - Вопрос_194

🔠 Какие типы индексов можно создавать в базе данных ? (Часть_4)

Полнотекстовый индекс (Full-Text Index): Полнотекстовый индекс создается на столбце, содержащем текстовые данные, и позволяет эффективно выполнять полнотекстовый поиск. Полнотекстовый индекс анализирует текст на ключевые слова и создает индекс, который позволяет выполнить поиск по словам, фразам, синонимам и другим текстовым параметрам.

https://boosty.to/denoise_lab/donate - поддержать наш канал.

#database #performance #optimization #indexing #query optimization #data normalization #database configuration #data caching #scaling #data storage

👍Чем больше шеров и лайков, тем больше полезного контента я буду выкладывать.
200 Вопросов по Машинному обучению (Machine Learning) - Вопрос_194

🔠 Какие типы индексов можно создавать в базе данных ? (Часть_5)

Составной индекс (Composite Index): Составной индекс создается на нескольких столбцах таблицы. Он позволяет эффективно выполнять операции поиска, сортировки и фильтрации, основываясь на комбинации значений в указанных столбцах.

https://boosty.to/denoise_lab/donate - поддержать наш канал.

#database #performance #optimization #indexing #query optimization #data normalization #database configuration #data caching #scaling #data storage

👍Чем больше шеров и лайков, тем больше полезного контента я буду выкладывать.
200 Вопросов по Машинному обучению (Machine Learning) - Вопрос_194

🔠 Какие типы индексов можно создавать в базе данных ? (Часть_6)

Битовый индекс (Bitmap Index): Битовый индекс используется для индексации столбцов, содержащих ограниченное количество дискретных значений (например, да/нет или мужской/женский). Битовый индекс представляет каждое возможное значение в виде битовой маски, что обеспечивает эффективный поиск и фильтрацию по таким столбцам.

https://boosty.to/denoise_lab/donate - поддержать наш канал.

#database #performance #optimization #indexing #query optimization #data normalization #database configuration #data caching #scaling #data storage

👍Чем больше шеров и лайков, тем больше полезного контента я буду выкладывать.
200 Вопросов по Машинному обучению (Machine Learning) - Вопрос_195

🔠 Можно ли создавать несколько кластерных индексов в одной таблице ?

Нет, в обычных реляционных базах данных нельзя создать несколько кластерных индексов в одной таблице. Кластерный индекс определяет физический порядок хранения данных в таблице, и каждая таблица может иметь только один кластерный индекс.

https://boosty.to/denoise_lab/donate - поддержать наш канал.

#database #performance #optimization #indexing #query optimization #data normalization #database configuration #data caching #scaling #data storage

👍Чем больше шеров и лайков, тем больше полезного контента я буду выкладывать.
200 Вопросов по Машинному обучению (Machine Learning) - Вопрос_195

🔠 Можно ли создавать несколько кластерных индексов в одной таблице ? (Часть_2)

Однако в некоторых базах данных, таких как Microsoft SQL Server с функциональностью под названием "строковая сегментация" (table partitioning), можно создать разделенный кластерный индекс (partitioned clustered index). В этом случае таблица разбивается на отдельные сегменты, и в каждом сегменте может быть свой кластерный индекс. При этом общая структура таблицы остается единым целым.

https://boosty.to/denoise_lab/donate - поддержать наш канал.

#database #performance #optimization #indexing #query optimization #data normalization #database configuration #data caching #scaling #data storage

👍Чем больше шеров и лайков, тем больше полезного контента я буду выкладывать.
200 Вопросов по Машинному обучению (Machine Learning) - Вопрос_195

🔠 Можно ли создавать несколько кластерных индексов в одной таблице ? (Часть_3)

Если вам требуется иметь несколько различных физических порядков данных в одной таблице, то можно использовать некластерные индексы. Некластерные индексы позволяют создавать отдельные структуры данных для эффективного выполнения операций поиска, сортировки и фильтрации, не затрагивая физический порядок хранения записей в таблице.

https://boosty.to/denoise_lab/donate - поддержать наш канал.

#database #performance #optimization #indexing #query optimization #data normalization #database configuration #data caching #scaling #data storage

👍Чем больше шеров и лайков, тем больше полезного контента я буду выкладывать.