DenoiseLAB
486 subscribers
1.33K photos
159 videos
3 files
1.57K links
Блог DenoiseLAB (машинное обучение, аналитика)

Информация в канале служит только для ознакомления и не является призывом к действию. Не нарушайте законы РФ и других стран. Мы не несем отвественность за ваши действия или бездействия.
Download Telegram
Xembly — ИИ-ассистент для автоматизации рутинных задач.
Please open Telegram to view this post
VIEW IN TELEGRAM
200 Вопросов по Машинному обучению (Machine Learning) - Вопрос_193

🔠 Расскажите про методы увеличения производительности СУБД ? (Часть_1)

Использование индексов: Индексы позволяют ускорить поиск и выборку данных, добавляя дополнительные структуры данных, которые позволяют быстро находить нужные записи. Создание индексов на часто запрашиваемые столбцы может существенно ускорить выполнение запросов.

Оптимизация запросов: Оптимизация запросов включает анализ и переписывание запросов таким образом, чтобы они выполнялись более эффективно. Это включает выбор правильных операций соединения, использование подзапросов, объединение запросов и т. д.

https://boosty.to/denoise_lab/donate - поддержать наш канал.

#database #performance #optimization #indexing #query optimization #data normalization #database configuration #data caching #scaling #data storage

👍Чем больше шеров и лайков, тем больше полезного контента я буду выкладывать.
🙊Разработчики из Google Research представили Osmo — нейросеть, которая разбирается в запахах.

👍Osmo не нужно что-то нюхать, чтобы определить запах компонента. Искусственныи‌ интеллект может рассказать, как пахнет определенныи‌ объект, зная только его структуру молекул. В неи‌росеть уже вшита база данных о более 5000 молекулярных соединениях.

👍Osmo — внутренняя разработка Google Research. Она недоступна для всех пользователеи‌, но ее будут предоставлять в парфюмерные лаборатории.

https://www.osmo.ai/blog/science-paper-shows-osmo-ai-passes-the-sniff-test
🤯Китай внедряет новую блокчейн-платформу под названием RealDID для проверки настоящих имен граждан. Проект будет сотрудничать с Blockchain Service Network и предоставит несколько вариантов использования, таких как подтверждение личного имени, зашифрованная защита данных и сертификация личных данных.

🤯 Приложение позволит гражданам Китая анонимно регистрироваться и входить на онлайн-порталы с использованием децентрализованных идентификаторов (DID), обеспечивая конфиденциальность данных. Проект подчеркивает стремление Китая к ускоренной реализации и развитию новых технологий в области блокчейна, искусственного интеллекта, цифровых валют и других областей.

Только вопрос, как коррелируется проверка имен граждан и анонимность ?? ))
200 Вопросов по Машинному обучению (Machine Learning) - Вопрос_193

🔠 Расскажите про методы увеличения производительности СУБД ? (Часть_2)

Нормализация базы данных: Нормализация базы данных помогает устранить избыточность данных и обеспечить более эффективное использование памяти и процессора. Хорошо спроектированная и нормализованная база данных может ускорить выполнение запросов.

Правильная конфигурация СУБД: Настройка параметров СУБД, таких как размер буфера, размер кэша и других параметров, может существенно повлиять на производительность. Необходимо проводить тестирование и оптимизацию конфигурации для достижения наилучшей производительности.

https://boosty.to/denoise_lab/donate - поддержать наш канал.

#database #performance #optimization #indexing #query optimization #data normalization #database configuration #data caching #scaling #data storage

👍Чем больше шеров и лайков, тем больше полезного контента я буду выкладывать.
👍1
200 Вопросов по Машинному обучению (Machine Learning) - Вопрос_193

🔠 Расскажите про методы увеличения производительности СУБД ? (Часть_3)

Физическое размещение данных: Правильное распределение данных на физических носителях (дисках) может существенно повлиять на скорость доступа к данным. Размещение данных на разных дисках или разделах, использование RAID-массивов и другие техники могут улучшить производительность.

Кэширование данных: Использование кэшей позволяет хранить часто используемые данные в оперативной памяти, что сокращает время доступа к данным на диске. Кэширование может быть реализовано на уровне СУБД или приложения.

https://boosty.to/denoise_lab/donate - поддержать наш канал.

#database #performance #optimization #indexing #query optimization #data normalization #database configuration #data caching #scaling #data storage

👍Чем больше шеров и лайков, тем больше полезного контента я буду выкладывать.
🅰️🅰️🅰️Ребята всем привет, запускаем рубрику странные и необычные вопросы на собесах которые вам задавили, делитесь своим опытом, и что пошло не так ? Особенно крутые вопросы подробно разберем и просмотрим.

🔤🔤🔤Написать свой вопрос можно в коменты, все сообщения я прочитаю и внимательно дам экспертную оценку.
Please open Telegram to view this post
VIEW IN TELEGRAM
🤐🤐🤐Очень интересное наблюдение провел. Сижу на Kaggle и решаю таски по продуктовой аналитике и предсказанию поведения пользователей на одном из соревнований. Есть датасет на 64 фичи. Он сборный из несколько частей, то есть исходный датасет состоит из 6 разношерстных датасетов, которые собирались как лоскутное одеяло по кускам и после этого делалось очистка датасета и генерация новых фичей.

🥵🥵🥵Стояла задача оптимизации решения, чтобы уменьшить размер датасета (датафрейма), но вместе с тем не потерять в точности по скору модели, при этом надо было пройти еще по памяти, так как Kaggle, дает лишь 30 гигабайт оперативной памяти на решение. На чанки разбивать не хотелось, поэтому было принято решение все ужать до единого куска и попробовать поработать плотно с ним.

😶‍🌫️😶‍🌫️😶‍🌫️Перерыл всю сеть на все возможные комбинации по решению, плотно поработал с разрядностью данных и представлением фичей в общем контексте, какие ролевантные какие нет, и как их можно использовать в более удобном формате, чтобы они давали больше профита на финале. То есть пошел не накручивать модели и их гиперпараметры, больше углубился в математику "сырых" данных.

🥳🥳🥳В итоге, удалось время обучения сократить на целый час и 30 минут, Карл !!! 1.5 часа выигрыша. Невероятно, я предполагал, что будет выигрышь, но не настолько круто, при этом скор по модели был улучшен.

😆😆😆 Да, соревнование не новое, но мне захотелось "потестить" и посмотреть, что в итоге получится и поработать с данными в более "спокойной" обстановке плюс здесь есть обширный набор фичей. В общем, плотно заходим на Kaggle и мутим там таски, благо на это сейчас есть время и ресурсы. В целом я доволен результатом, но можно еще улучшить. Все пруфы прилагаю. Из 2621 решения мое оказалось на 401. Максимальный скор, 0.40914, я показал 0.40223. В целом можно еще дожимать и поднимать скор, но задача была именно поработать с сырыми данными и посмотреть профит от оптимизации. Считаю в целом получилось.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥3
200 Вопросов по Машинному обучению (Machine Learning) - Вопрос_193

🔠 Расскажите про методы увеличения производительности СУБД ? (Часть_4)

Масштабирование: Если нагрузка на базу данных становится слишком большой, можно применить методы масштабирования, такие как горизонтальное или вертикальное масштабирование. Горизонтальное масштабирование включает добавление дополнительных серверов или узлов для распределения нагрузки, а вертикальное масштабирование - использование более мощного оборудования.

Использование хранилищ данных: Для некоторых типов данных и запросов, использование специализированных хранилищ данных, таких как колоночные базы данных или базы данных в памяти, может значительно повысить производительность.

https://boosty.to/denoise_lab/donate - поддержать наш канал.

#database #performance #optimization #indexing #query optimization #data normalization #database configuration #data caching #scaling #data storage

👍Чем больше шеров и лайков, тем больше полезного контента я буду выкладывать.
Вот такая затейная инфографика прилетела ))
3
200 Вопросов по Машинному обучению (Machine Learning) - Вопрос_194

🔠 Какие типы индексов можно создавать в базе данных ? (Часть_1)

Кластерный индекс (Clustered Index): Кластерный индекс определяет физический порядок хранения данных в таблице. В таблице может быть только один кластерный индекс. Записи в таблице упорядочены по значениям кластерного индекса, что позволяет быстро выполнять операции поиска, сортировки и диапазонного сканирования данных.

https://boosty.to/denoise_lab/donate - поддержать наш канал.

#database #performance #optimization #indexing #query optimization #data normalization #database configuration #data caching #scaling #data storage

👍Чем больше шеров и лайков, тем больше полезного контента я буду выкладывать.
❄️❄️❄️Ребята всем привет, я буду сегодня на IT катке от Тинькова. Если будет желание можно пересечься. Для тех кто не в курсе вопроса вот ссылка на мероприятие: https://www.tinkoff.ru/mobile-operator/news/26122023-tinkoff-on-ice-20-largest-it-ice-rink-will-be-held-in-moscow/

🥶🥶🥶Конечно же будет трансляция с тусовки ))
Please open Telegram to view this post
VIEW IN TELEGRAM
200 Вопросов по Машинному обучению (Machine Learning) - Вопрос_194

🔠 Какие типы индексов можно создавать в базе данных ? (Часть_2)

Некластерный индекс (Non-clustered Index): Некластерный индекс создается на одном или более столбцах таблицы. В отличие от кластерного индекса, некластерный индекс не определяет физический порядок хранения данных. Вместо этого он создает отдельную структуру данных, содержащую ключи индекса и ссылки на соответствующие записи таблицы. Некластерные индексы облегчают поиск, сортировку и фильтрацию данных.

https://boosty.to/denoise_lab/donate - поддержать наш канал.

#database #performance #optimization #indexing #query optimization #data normalization #database configuration #data caching #scaling #data storage

👍Чем больше шеров и лайков, тем больше полезного контента я буду выкладывать.
200 Вопросов по Машинному обучению (Machine Learning) - Вопрос_194

🔠 Какие типы индексов можно создавать в базе данных ? (Часть_3)

Уникальный индекс (Unique Index): Уникальный индекс гарантирует уникальность значений в индексируемых столбцах. Как кластерный, так и некластерный индексы могут быть уникальными. Уникальный индекс может быть полезен для обеспечения целостности данных и ускорения операций поиска.

https://boosty.to/denoise_lab/donate - поддержать наш канал.

#database #performance #optimization #indexing #query optimization #data normalization #database configuration #data caching #scaling #data storage

👍Чем больше шеров и лайков, тем больше полезного контента я буду выкладывать.
Оказывается, Linkedin неплохо так отрабатывает при постоянном постинге и трафик движется от туда достаточно мощный.
🔤🔤🔤В целом про айти менеджмент на катке интересно рассказали, но мысль в целом подтвердили мою и моих коллег: "Если вы хотите стоять, сейчас надо бежать". Особо чего-то новаторского не было пресдставлено, но компанейско все было.

🔤🔤🔤Мысль заключается в том, что изменения не будут ждать никого, идет все слишком быстро, если задача не решается молниеносно, вероятность того, что она решится в будущем стремится к нулю, или будет стремится к очень большим затратам. Скорость будет только нарастать. Стоимость решения отложенных задач нарастает кратно. А учитывая тот факт, что OpenAI теперь оффициальный разработчик пентагона, задач только добавится у всех. Есть и положительный момент задач будет валом и интересных.
Please open Telegram to view this post
VIEW IN TELEGRAM
О первые звоночки, в борьбе за кадры, о чем я и говорил. ИИ несомненно нужно продвигать и оно доказало свою эффективность, но надо продвигать его вместе с кадрами, тогда профит будет в разы больше. Чистая математика!