Клуб CDO
2.97K subscribers
370 photos
24 videos
88 files
1.42K links
Сообщество профессионалов в области работы с данными и искуственным интеллектом
Download Telegram
:( человек, сформулировавший наш любимый «закон мура» rip
Умер сооснователь корпорации Intel Гордон Мур, американский миллиардер и инженер, пионер полупроводниковой электроники, чей "закон Мура" предсказывал неуклонный рост вычислительной мощности. Ему было 94 года.

Благотворительный фонд семьи Intel и Мура сообщил, что он умер в окружении семьи в своем доме на Гавайях.

https://bbc.in/3LQU2QO

Если ссылка выше не открывается, читайте здесь.
Дайдест статей

Unified Streaming And Batch Pipelines At LinkedIn: Reducing Processing time by 94% with Apache Beam
https://engineering.linkedin.com/blog/2023/unified-streaming-and-batch-pipelines-at-linkedin--reducing-proc

«Нужна конфиденциальность — не вступайте в программу лояльности»: какие покупательские данные может собирать супермаркет
https://vc.ru/trade/645931-nuzhna-konfidencialnost-ne-vstupayte-v-programmu-loyalnosti-kakie-pokupatelskie-dannye-mozhet-sobirat-supermarket?from=rss

Пайплайн для создания классификации текстовой информации
https://habr.com/ru/post/724790/

Top 5 Data Streaming Trends for 2023
https://dzone.com/articles/top-5-data-streaming-trends

Согласованность данных: что это на самом деле такое и почему с ней все так сложно
https://habr.com/ru/company/vk/blog/723734/

Data Science vs. Software Engineering: Understanding the Fundamental Differences
https://dzone.com/articles/data-science-vs-software-engineering-understanding

Инструменты наблюдаемости, о которых нужно знать в 2023 году
https://habr.com/ru/company/ruvds/blog/723588/

Как устроено индексирование баз данных
https://habr.com/ru/company/ruvds/blog/724066/

Генерация данных — творчество или рутина?
https://habr.com/ru/post/723202/

Как улучшить точность ML-модели используя разведочный анализ
https://habr.com/ru/post/719206/
Пятничное чтиво про историю появления ChatGPT и соображения непосредственных участников соревнований

https://www.technologyreview.com/2023/03/03/1069311/inside-story-oral-history-how-chatgpt-built-openai/
Кроме computer sciense и данных, еще люблю космос, но на него времни остается очень мало 🙂 Но все равно одним взглядом смотрю новостные ленты и материалы на эту тему.

Попалась тут довольно объемная статья про OneWeb - интересная, вся история проекта описана, а я как раз все время ловил себя на мысли, что надо бы понять, что там вообще происходит. То они там банкротятся, то спутники новые запускают, то РФ там активно участвует, что не участвует и тп

В общем если кому это тоже интересно - почитайте

https://aboutspacejornal.net/2023/03/26/oneweb-%D0%BC%D1%8B%D1%82%D0%B0%D1%80%D1%81%D1%82%D0%B2%D0%B0-%D0%BA%D0%BE%D1%81%D0%BC%D0%B8%D1%87%D0%B5%D1%81%D0%BA%D0%BE%D0%B3%D0%BE-%D0%BC%D0%B0%D1%81%D1%88%D1%82%D0%B0%D0%B1%D0%B0/
Приходите 30-го на конфу, будем рассказывать интересные вещи
​​📢 30 марта! Форум BIG DATA&AI 2023
📢 Андрей Евтихов, управляющий директор, SberDevices: Новый "цифровой мозг" компании и рывок к технологической независимости.
Как увеличить объем собираемых данных на порядок и втрое сократить стоимость владения решениями для управления данными?
Андрей Евтихов, управляющий директор, SberDevices представит опыт производителя «умных» устройств не только по созданию новых возможностей для бизнеса за счет внедрения собственной платформы данных, но и по достижению технологической независимости в экстремальных внешних условиях. Проект номинирован на премию Data Award 2023.
✒️ Спешите регистрироваться »
#bigdata #bi #аналитика #AI #искусственныйинтеллект #большиеданные #ML #BI #SberDevices #DataAward
Очень интересная статья от Uber о том, как они борются с такой проблемой как Data Shift. Особенно интересная статистика в разрезе существующих проблем с данными.

Для контроля качества компания разработала собственную систему D3 (Dataset Drift Detector).

Система отслеживает качество данных в режиме реального времени, красивые дашборды реализованы. В статье так же довольно детально описана архитектура.

Вот что у них на постоянном мониторинге:
- Null Percentage
- False Percentage
- Percentile (P50, P75, P99, P1)
- Standard Deviation, Mean, Median
- Count Distinct

https://www.uber.com/en-BG/blog/d3-an-automated-system-to-detect-data-drifts/
Решал тут задачку по профилированию датасета - надо было быстро на него как то посмотреть и очень какие столцы, насколько заполнены, распределения и тд и тп. Вручную едать было лень, поискал какие есть тулы которые бы автоматом такое делали и нашел очень интересный инструмент ydata-profiling

Берете любой датасет (например в pandas), отдаете его тулзе и на выходе получаете структуру с анализом которую можно сохранить, например, в html и будет готовый прекрасный отчет - посмотрите примеры в доках

Ну а кому хочется заморочиться, тула поддерживает очень много возможностей и интеграций

https://ydata-profiling.ydata.ai/docs/master/index.html

https://ydata-profiling.ydata.ai/examples/master/stata_auto/stata_auto_report.html
Зашел сегодня на конференцию BigData&AI 2023, первый доклад прям интересный сразу - про правовые барьеры работы с данными, статус разных категорий данных, текущую ситуацию и тренды.

Докладывает Карен Казарян из АНО «Цифровая экономика».

В целом очень здравый и прагматичный анализ.

PS в коменты к этому посту буду если что фотки со слайдами складывать
Ура, нас 2К тут! Всем спасибо! Будем писать дальше!
Проводим вебинар для банков и финтех компаний по Federated Learning
Forwarded from Alex
Привет!
4 апреля, вт в 11:00 мы проводим завершающий круглый стол по теме Data Mesh. Федеративное управление данными

Обсудим важность децентрализации и автономии доменов, а также соблюдение баланса между глобальными стандартами и автономией локальных доменов. Поговорим о том, как федеративное управление данными помогает создавать совместимые продукты в рамках экосистемы, а также, как единый взгляд на пользователей позволяет создавать более полезные продукты данных. Пообсуждаем вызовы и проблемы, связанные с реализацией этой модели управления в различных компаниях.
А на десерт 2 продукта МТС расскажут практические кейсы использования данных - боли и проблемы, способы их решения, а также покажут то самое business value про которые все говорят

Встречи будут интересны владельцам продуктов, техническим лидерам, аналитикам, архитекторам и администраторам данных.

Регистрация
Очень крутой материал с систематизацией всех возможных персональных данных пользователя

https://rppa.ru/analitika/katalog_pdn
Дайджест статей 01/04/2023

Data Quality Faults With Your Data Vault
https://dzone.com/articles/data-quality-faults-with-your-data-vault

Data Stream Using Apache Kafka and Camel Application
https://dzone.com/articles/data-stream-using-apache-kafka-and-camel-applicati

Data Lakehouses: The Future of Scalable, Agile, and Cost-Effective Data Infrastructure
https://dzone.com/articles/data-lakehouses-the-future-of-scalable-agile-and-c

Ультимативная дорожная карта для изучения SQL и баз данных в 2023 году + источники для знаний
https://habr.com/ru/post/725414/

Roadmap построения эффективной бизнес-аналитики для ресторанной сети — 5 ключевых показателей
https://habr.com/ru/post/725102/

Использование отечественных BI-систем для миграции данных из Postgres в Clickhouse
https://habr.com/ru/company/otus/blog/725096/

Unified Streaming And Batch Pipelines At LinkedIn: Reducing Processing time by 94% with Apache Beam
https://engineering.linkedin.com/blog/2023/unified-streaming-and-batch-pipelines-at-linkedin--reducing-proc

Инструменты наблюдаемости, о которых нужно знать в 2023 году
https://habr.com/ru/company/ruvds/blog/723588/

ML-пайплайн классических банковских моделей классификации
https://habr.com/ru/company/otkritie/blog/725928/