DenoiseLAB
486 subscribers
1.33K photos
159 videos
3 files
1.57K links
Блог DenoiseLAB (машинное обучение, аналитика)

Информация в канале служит только для ознакомления и не является призывом к действию. Не нарушайте законы РФ и других стран. Мы не несем отвественность за ваши действия или бездействия.
Download Telegram
200 Вопросов по Машинному обучению (Machine Learning) - Вопрос_193

🔠 Расскажите про методы увеличения производительности СУБД ? (Часть_3)

Физическое размещение данных: Правильное распределение данных на физических носителях (дисках) может существенно повлиять на скорость доступа к данным. Размещение данных на разных дисках или разделах, использование RAID-массивов и другие техники могут улучшить производительность.

Кэширование данных: Использование кэшей позволяет хранить часто используемые данные в оперативной памяти, что сокращает время доступа к данным на диске. Кэширование может быть реализовано на уровне СУБД или приложения.

https://boosty.to/denoise_lab/donate - поддержать наш канал.

#database #performance #optimization #indexing #query optimization #data normalization #database configuration #data caching #scaling #data storage

👍Чем больше шеров и лайков, тем больше полезного контента я буду выкладывать.
🅰️🅰️🅰️Ребята всем привет, запускаем рубрику странные и необычные вопросы на собесах которые вам задавили, делитесь своим опытом, и что пошло не так ? Особенно крутые вопросы подробно разберем и просмотрим.

🔤🔤🔤Написать свой вопрос можно в коменты, все сообщения я прочитаю и внимательно дам экспертную оценку.
Please open Telegram to view this post
VIEW IN TELEGRAM
🤐🤐🤐Очень интересное наблюдение провел. Сижу на Kaggle и решаю таски по продуктовой аналитике и предсказанию поведения пользователей на одном из соревнований. Есть датасет на 64 фичи. Он сборный из несколько частей, то есть исходный датасет состоит из 6 разношерстных датасетов, которые собирались как лоскутное одеяло по кускам и после этого делалось очистка датасета и генерация новых фичей.

🥵🥵🥵Стояла задача оптимизации решения, чтобы уменьшить размер датасета (датафрейма), но вместе с тем не потерять в точности по скору модели, при этом надо было пройти еще по памяти, так как Kaggle, дает лишь 30 гигабайт оперативной памяти на решение. На чанки разбивать не хотелось, поэтому было принято решение все ужать до единого куска и попробовать поработать плотно с ним.

😶‍🌫️😶‍🌫️😶‍🌫️Перерыл всю сеть на все возможные комбинации по решению, плотно поработал с разрядностью данных и представлением фичей в общем контексте, какие ролевантные какие нет, и как их можно использовать в более удобном формате, чтобы они давали больше профита на финале. То есть пошел не накручивать модели и их гиперпараметры, больше углубился в математику "сырых" данных.

🥳🥳🥳В итоге, удалось время обучения сократить на целый час и 30 минут, Карл !!! 1.5 часа выигрыша. Невероятно, я предполагал, что будет выигрышь, но не настолько круто, при этом скор по модели был улучшен.

😆😆😆 Да, соревнование не новое, но мне захотелось "потестить" и посмотреть, что в итоге получится и поработать с данными в более "спокойной" обстановке плюс здесь есть обширный набор фичей. В общем, плотно заходим на Kaggle и мутим там таски, благо на это сейчас есть время и ресурсы. В целом я доволен результатом, но можно еще улучшить. Все пруфы прилагаю. Из 2621 решения мое оказалось на 401. Максимальный скор, 0.40914, я показал 0.40223. В целом можно еще дожимать и поднимать скор, но задача была именно поработать с сырыми данными и посмотреть профит от оптимизации. Считаю в целом получилось.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥3
200 Вопросов по Машинному обучению (Machine Learning) - Вопрос_193

🔠 Расскажите про методы увеличения производительности СУБД ? (Часть_4)

Масштабирование: Если нагрузка на базу данных становится слишком большой, можно применить методы масштабирования, такие как горизонтальное или вертикальное масштабирование. Горизонтальное масштабирование включает добавление дополнительных серверов или узлов для распределения нагрузки, а вертикальное масштабирование - использование более мощного оборудования.

Использование хранилищ данных: Для некоторых типов данных и запросов, использование специализированных хранилищ данных, таких как колоночные базы данных или базы данных в памяти, может значительно повысить производительность.

https://boosty.to/denoise_lab/donate - поддержать наш канал.

#database #performance #optimization #indexing #query optimization #data normalization #database configuration #data caching #scaling #data storage

👍Чем больше шеров и лайков, тем больше полезного контента я буду выкладывать.
Вот такая затейная инфографика прилетела ))
3
200 Вопросов по Машинному обучению (Machine Learning) - Вопрос_194

🔠 Какие типы индексов можно создавать в базе данных ? (Часть_1)

Кластерный индекс (Clustered Index): Кластерный индекс определяет физический порядок хранения данных в таблице. В таблице может быть только один кластерный индекс. Записи в таблице упорядочены по значениям кластерного индекса, что позволяет быстро выполнять операции поиска, сортировки и диапазонного сканирования данных.

https://boosty.to/denoise_lab/donate - поддержать наш канал.

#database #performance #optimization #indexing #query optimization #data normalization #database configuration #data caching #scaling #data storage

👍Чем больше шеров и лайков, тем больше полезного контента я буду выкладывать.
❄️❄️❄️Ребята всем привет, я буду сегодня на IT катке от Тинькова. Если будет желание можно пересечься. Для тех кто не в курсе вопроса вот ссылка на мероприятие: https://www.tinkoff.ru/mobile-operator/news/26122023-tinkoff-on-ice-20-largest-it-ice-rink-will-be-held-in-moscow/

🥶🥶🥶Конечно же будет трансляция с тусовки ))
Please open Telegram to view this post
VIEW IN TELEGRAM
200 Вопросов по Машинному обучению (Machine Learning) - Вопрос_194

🔠 Какие типы индексов можно создавать в базе данных ? (Часть_2)

Некластерный индекс (Non-clustered Index): Некластерный индекс создается на одном или более столбцах таблицы. В отличие от кластерного индекса, некластерный индекс не определяет физический порядок хранения данных. Вместо этого он создает отдельную структуру данных, содержащую ключи индекса и ссылки на соответствующие записи таблицы. Некластерные индексы облегчают поиск, сортировку и фильтрацию данных.

https://boosty.to/denoise_lab/donate - поддержать наш канал.

#database #performance #optimization #indexing #query optimization #data normalization #database configuration #data caching #scaling #data storage

👍Чем больше шеров и лайков, тем больше полезного контента я буду выкладывать.
200 Вопросов по Машинному обучению (Machine Learning) - Вопрос_194

🔠 Какие типы индексов можно создавать в базе данных ? (Часть_3)

Уникальный индекс (Unique Index): Уникальный индекс гарантирует уникальность значений в индексируемых столбцах. Как кластерный, так и некластерный индексы могут быть уникальными. Уникальный индекс может быть полезен для обеспечения целостности данных и ускорения операций поиска.

https://boosty.to/denoise_lab/donate - поддержать наш канал.

#database #performance #optimization #indexing #query optimization #data normalization #database configuration #data caching #scaling #data storage

👍Чем больше шеров и лайков, тем больше полезного контента я буду выкладывать.
Оказывается, Linkedin неплохо так отрабатывает при постоянном постинге и трафик движется от туда достаточно мощный.
🔤🔤🔤В целом про айти менеджмент на катке интересно рассказали, но мысль в целом подтвердили мою и моих коллег: "Если вы хотите стоять, сейчас надо бежать". Особо чего-то новаторского не было пресдставлено, но компанейско все было.

🔤🔤🔤Мысль заключается в том, что изменения не будут ждать никого, идет все слишком быстро, если задача не решается молниеносно, вероятность того, что она решится в будущем стремится к нулю, или будет стремится к очень большим затратам. Скорость будет только нарастать. Стоимость решения отложенных задач нарастает кратно. А учитывая тот факт, что OpenAI теперь оффициальный разработчик пентагона, задач только добавится у всех. Есть и положительный момент задач будет валом и интересных.
Please open Telegram to view this post
VIEW IN TELEGRAM
О первые звоночки, в борьбе за кадры, о чем я и говорил. ИИ несомненно нужно продвигать и оно доказало свою эффективность, но надо продвигать его вместе с кадрами, тогда профит будет в разы больше. Чистая математика!
https://codenrock.com/contests/russian-art-ml-challenge#/ - Челендж Art of Russia уже на CodenRock
This media is not supported in your browser
VIEW IN TELEGRAM
Это лучшее что я видел за сегодня. Такие люди основа конторы, они любой таск вытащат и любую проблему вытянут. Они уже все видели, их ничем не испугаешь. Я видел таких персонажей, самый стабильный код выдают, потому как не спят сутками, делают кучу тестов и в курсе всех изменений в языке и технологиях, база )) ахахаха

P.S. Ролик конечно утрированный, обычно это очень терпимые и невероятно усидчивые люди.
200 Вопросов по Машинному обучению (Machine Learning) - Вопрос_194

🔠 Какие типы индексов можно создавать в базе данных ? (Часть_4)

Полнотекстовый индекс (Full-Text Index): Полнотекстовый индекс создается на столбце, содержащем текстовые данные, и позволяет эффективно выполнять полнотекстовый поиск. Полнотекстовый индекс анализирует текст на ключевые слова и создает индекс, который позволяет выполнить поиск по словам, фразам, синонимам и другим текстовым параметрам.

https://boosty.to/denoise_lab/donate - поддержать наш канал.

#database #performance #optimization #indexing #query optimization #data normalization #database configuration #data caching #scaling #data storage

👍Чем больше шеров и лайков, тем больше полезного контента я буду выкладывать.
200 Вопросов по Машинному обучению (Machine Learning) - Вопрос_194

🔠 Какие типы индексов можно создавать в базе данных ? (Часть_5)

Составной индекс (Composite Index): Составной индекс создается на нескольких столбцах таблицы. Он позволяет эффективно выполнять операции поиска, сортировки и фильтрации, основываясь на комбинации значений в указанных столбцах.

https://boosty.to/denoise_lab/donate - поддержать наш канал.

#database #performance #optimization #indexing #query optimization #data normalization #database configuration #data caching #scaling #data storage

👍Чем больше шеров и лайков, тем больше полезного контента я буду выкладывать.
200 Вопросов по Машинному обучению (Machine Learning) - Вопрос_194

🔠 Какие типы индексов можно создавать в базе данных ? (Часть_6)

Битовый индекс (Bitmap Index): Битовый индекс используется для индексации столбцов, содержащих ограниченное количество дискретных значений (например, да/нет или мужской/женский). Битовый индекс представляет каждое возможное значение в виде битовой маски, что обеспечивает эффективный поиск и фильтрацию по таким столбцам.

https://boosty.to/denoise_lab/donate - поддержать наш канал.

#database #performance #optimization #indexing #query optimization #data normalization #database configuration #data caching #scaling #data storage

👍Чем больше шеров и лайков, тем больше полезного контента я буду выкладывать.