DenoiseLAB
486 subscribers
1.33K photos
159 videos
3 files
1.57K links
Блог DenoiseLAB (машинное обучение, аналитика)

Информация в канале служит только для ознакомления и не является призывом к действию. Не нарушайте законы РФ и других стран. Мы не несем отвественность за ваши действия или бездействия.
Download Telegram
🤝Альтман и Брок теперь будут в Microsoft. OpenAI теперь будет смотреть через плечо )) эх... молодежь, играть надо в долгую и беречь кадры. А то все это больше походит на семейные кухонные разборки.
Please open Telegram to view this post
VIEW IN TELEGRAM
🤝Ребята привет!!!

⬆️Отличная "шпора" по основным коммандам гита. Пригодится всегда.

🌡Чем больше шеров и лайков тем больше буду выкладывать подобного контента.

🤕https://boosty.to/denoise_lab/donate - фишки кода, полезные фичи или просто если вы хотите поддержать наш канал.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3
200 Вопросов по Машинному обучению (Machine Learning) - Вопрос_155

🔠Как устроена внутри библиотека Polars и почему она лучше Pandas ?

Производительность: Polars была разработана с учетом производительности и масштабируемости. Она использует векторизованные операции и многопоточность для обработки данных эффективно. Это особенно полезно при работе с большими объемами данных, где Polars может значительно ускорить выполнение операций по сравнению с Pandas.

Поддержка распределенных вычислений: Polars предоставляет возможность распределенных вычислений через интеграцию с Apache Arrow и Ray. Это позволяет обрабатывать данные на кластере или в распределенной среде, что может быть полезно для работы с очень большими наборами данных.

#performance #scalability #multithreading #bigdata #Polars #Pandas #distributedcomputing
#ApacheArrow #Ray
200 Вопросов по Машинному обучению (Machine Learning) - Вопрос_156

🔠Как устроена внутри библиотека Polars и почему она лучше Pandas ?

Удобный API: Polars предлагает простой и интуитивно понятный API, который легко изучить и использовать. Он предоставляет широкий набор функций и операций для манипулирования данными, включая фильтрацию, сортировку, группировку, объединение и многое другое.

Интеграция с другими инструментами: Polars интегрируется с другими популярными инструментами обработки данных, такими как PySpark и Dask, что обеспечивает большую гибкость и возможность использования существующих инфраструктур и инструментов.

#performance #scalability #multithreading #bigdata #Polars #Pandas #distributedcomputing
#ApacheArrow #Ray
This media is not supported in your browser
VIEW IN TELEGRAM
Сбер показал пару роликов со своих новых наработок. Что-то сильной разницы пока не заметно, все также стробит. В целом может и стало лучше, но как-то пока не тянет.
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Вот еще вариация, но не знаю, тут прям плывет все.
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Или вот, тут прям задник меняется. Чтож... ждемс. Улучшений.
Please open Telegram to view this post
VIEW IN TELEGRAM
200 Вопросов по Машинному обучению (Machine Learning) - Вопрос_157

🔠Что такое Spark и как он устроен ? (Часть_1)

Apache Spark - это открытая высокопроизводительная вычислительная система, разработанная для обработки и анализа больших объемов данных параллельно и распределено. Он предоставляет удобный и мощный API для работы с данными и выполнения различных вычислительных задач.

Основные компоненты и особенности Apache Spark:

1. Распределенная обработка данных: Spark позволяет обрабатывать данные на кластере, где данные разбиваются на наборы разделов (partitions) и обрабатываются параллельно на нескольких узлах.

#ApacheSpark #bigdataprocessing #distributedcomputing #parallelprocessing #dataanalysis #highperformancecomputing #dataprocessing #API
200 Вопросов по Машинному обучению (Machine Learning) - Вопрос_157

🔠Что такое Spark и как он устроен ? (Часть_2)

2. Resilient Distributed Datasets (RDD): RDD представляет собой основную абстракцию данных в Spark. Он представляет нераспределенную и неизменяемую коллекцию объектов, которая может быть параллельно обработана. RDD обеспечивает устойчивость к сбоям и автоматическую восстанавливаемость.

3. API на разных языках: Spark предоставляет API на разных языках программирования, включая Scala, Java, Python и R. Это делает его доступным для разработчиков с разными предпочтениями языка.

#ApacheSpark #bigdataprocessing #distributedcomputing #parallelprocessing #dataanalysis #highperformancecomputing #dataprocessing #API
👋Ребят всем привет!

‼️https://vk.com/open_cybergarden - кто в темке, очень рекомендую

⬆️Хакатон Cyber Garden – один из самых известных марафонов программирования на юге России.

🤝Для участников это возможность проверить свои навыки, получить новый опыт, пообщаться с представителями IT-сообщества Таганрога и других городов России.

☄️Организатор – Институт компьютерных технологий и информационной безопасности ЮФУ https://ictis.sfedu.ru/
Please open Telegram to view this post
VIEW IN TELEGRAM
https://habr.com/ru/news/775552/ - хорошая рокировочка, дабы избавиться от неугодных людей которые мешают жить. Ситуация похожа на сцену из жизни:
- "Пап, эти нехорошие меня обижают, сделай что-нибудь..."
Классика, промышленный саботаж во всей красе. Если новость окажется правдой, то Альтман нарисовал себе такую веревку, за которую всегда будет дергать Microsoft, если им что-то не нравится и по любому чиху он будет к ним прибегать, вообщем та еще кабала, ибо деньги вложены большие и Microsoft никогда не отступит от своего и будет держаться такой мертвой хваткой за OpenAI, так как они понимают что сейчас судьбы корпорации и их будущее зависит от этих пацанов. Прозаично, да не скрою, но в общем "картина маслом".
В общем классическая схема, диктатуры, прикинуться овечкой в волчьей шкуре. Ну, а для масс он мессия )).
🤝Ребята всем привет !!!

✔️Сегодня был на конференции одной крупной конторы занимается обработкой больших массивов данных )) и спикер оговорилась:

- Мы уже все сделали, все настроили, все сервисы завелись, данные масштабируются и сейчас мы находимся в стадии наработки багов...
- Чего, что вы там нарабатываете ????
- Упс
- ахахахахахахахахахахахахха ))))) давайте на Bug Bounty народ уже моники полируют, они во всю уже ждут ))))
😂Народ прям попадал на месте со смеху )))

Причем говорилось все так, что как будто эта дама бриллиант в телемагазине продавала ))) ну вы помните эту телегу.

🤟Чтож... бывает, поспешила или от избытка волнения...
Please open Telegram to view this post
VIEW IN TELEGRAM
😁2
200 Вопросов по Машинному обучению (Machine Learning) - Вопрос_157

🔠Что такое Spark и как он устроен ? (Часть_3)

4. Модули для различных задач: Spark предлагает модули для различных вычислительных задач, таких как Spark SQL для обработки структурированных данных с помощью SQL-подобного синтаксиса, Spark Streaming для обработки данных в реальном времени, MLlib для машинного обучения и GraphX для анализа графов.

#ApacheSpark #bigdataprocessing #distributedcomputing #parallelprocessing #dataanalysis #highperformancecomputing #dataprocessing #API
200 Вопросов по Машинному обучению (Machine Learning) - Вопрос_157

🔠Что такое Spark и как он устроен ? (Часть_4)

5. Оптимизация и интеграция с другими инструментами: Spark включает различные оптимизации, такие как ленивые вычисления, определение оптимального плана выполнения и кэширование промежуточных результатов. Он также интегрируется с другими инструментами, такими как Hadoop, Hive, HBase и другими, что позволяет использовать существующую инфраструктуру и инструменты.

#ApacheSpark #bigdataprocessing #distributedcomputing #parallelprocessing #dataanalysis #highperformancecomputing #dataprocessing #API
200 Вопросов по Машинному обучению (Machine Learning) - Вопрос_158

🔠Какие есть аналоги Spark ?

1. Hadoop MapReduce: Это фреймворк для обработки больших объемов данных, основанный на модели MapReduce. Он предоставляет распределенную обработку данных на кластере и является основным компонентом Apache Hadoop.

2. Apache Flink: Это распределенная система обработки потоковых данных и пакетных данных. Flink предлагает высокую производительность, низкую задержку и обработку данных в реальном времени. Он также обладает гибким API для различных операций над данными.

#ApacheSpark #bigdataprocessing #distributedcomputing #parallelprocessing #dataanalysis #highperformancecomputing #dataprocessing #API
200 Вопросов по Машинному обучению (Machine Learning) - Вопрос_158

🔠Какие есть аналоги Spark ? (Часть_2)

3. Apache Storm: Это фреймворк для обработки потоковых данных в реальном времени. Storm предоставляет возможность обрабатывать высокоскоростные потоки данных в режиме реального времени с гарантированными характеристиками надежности.

4. Databricks: Это облачная платформа для анализа данных, основанная на Apache Spark. Databricks предлагает среду для разработки, выполнения и мониторинга Spark-приложений, а также инструменты для визуализации и совместной работы с данными.

#ApacheSpark #bigdataprocessing #distributedcomputing #parallelprocessing #dataanalysis #highperformancecomputing #dataprocessing #API
🌡https://techeconomy.ng/six-signs-you-might-need-a-data-analytics-solution-for-your-company/ - интересная статься про аналитику в целом и ее прикладное использование. Здесь авторы выделили несколько ключевых значений о том, когда, реально, стоит начать работать с аналитикой в компании:

✔️ Перегрузка данными, ограниченная видимость данных, ручная обработка данных и неэффективные маркетинговые кампании могут указывать на необходимость внедрения аналитики данных;
✔️ Необходимость компаниям прогнозировать тенденции, выявлять проблемы и принимать упреждающие решения;
✔️ Помощь компаниям превзойти конкурентов и повысить эффективность;
✔️ Начало отставание из-за бюрократии, не эффективных процессов, и частых переработок сотрудников.
Please open Telegram to view this post
VIEW IN TELEGRAM
👉https://www.financialexpress.com/business/digital-transformation-top-3-trends-in-data-and-analytics-for-2023-3257985/ - топ 3 тренда за 2023 год, которые показали значительные улучшения и влияния на рост производства и бизнеса в целом.
#1 Ориентация аналитики на стимулирование роста бизнеса
#2 Данные займут центральное место
#3 Растущая зависимость от данных, генерируемых машинами

Что примечательно, усиливается зависимость от синтетических данных в целом, то есть данных сгенереных машинами.
Please open Telegram to view this post
VIEW IN TELEGRAM
200 Вопросов по Машинному обучению (Machine Learning) - Вопрос_158

🔠Какие есть аналоги Spark ? (Часть_3)

5. Google Cloud Dataflow: Это управляемый сервис для обработки потоковых и пакетных данных в облаке Google Cloud Platform. Dataflow предоставляет гибкость в выборе модели программирования, поддерживая как модель MapReduce, так и модель обработки потоков данных.

#ApacheSpark #bigdataprocessing #distributedcomputing #parallelprocessing #dataanalysis #highperformancecomputing #dataprocessing #API