Forwarded from BBC News | Русская служба
Умер сооснователь корпорации Intel Гордон Мур, американский миллиардер и инженер, пионер полупроводниковой электроники, чей "закон Мура" предсказывал неуклонный рост вычислительной мощности. Ему было 94 года.
Благотворительный фонд семьи Intel и Мура сообщил, что он умер в окружении семьи в своем доме на Гавайях.
https://bbc.in/3LQU2QO
Если ссылка выше не открывается, читайте здесь.
Благотворительный фонд семьи Intel и Мура сообщил, что он умер в окружении семьи в своем доме на Гавайях.
https://bbc.in/3LQU2QO
Если ссылка выше не открывается, читайте здесь.
BBC News Русская служба
Умер сооснователь Intel Гордон Мур - один из тех, благодаря кому появились персональные компьютеры
Сооснователь корпорации Intel Гордон Мур, американский миллиардер и инженер, пионер полупроводниковой электроники, чей "закон Мура" предсказывал неуклонный рост вычислительной мощности, скончался в пятницу в возрасте 94 лет.
Дайдест статей
Unified Streaming And Batch Pipelines At LinkedIn: Reducing Processing time by 94% with Apache Beam
https://engineering.linkedin.com/blog/2023/unified-streaming-and-batch-pipelines-at-linkedin--reducing-proc
«Нужна конфиденциальность — не вступайте в программу лояльности»: какие покупательские данные может собирать супермаркет
https://vc.ru/trade/645931-nuzhna-konfidencialnost-ne-vstupayte-v-programmu-loyalnosti-kakie-pokupatelskie-dannye-mozhet-sobirat-supermarket?from=rss
Пайплайн для создания классификации текстовой информации
https://habr.com/ru/post/724790/
Top 5 Data Streaming Trends for 2023
https://dzone.com/articles/top-5-data-streaming-trends
Согласованность данных: что это на самом деле такое и почему с ней все так сложно
https://habr.com/ru/company/vk/blog/723734/
Data Science vs. Software Engineering: Understanding the Fundamental Differences
https://dzone.com/articles/data-science-vs-software-engineering-understanding
Инструменты наблюдаемости, о которых нужно знать в 2023 году
https://habr.com/ru/company/ruvds/blog/723588/
Как устроено индексирование баз данных
https://habr.com/ru/company/ruvds/blog/724066/
Генерация данных — творчество или рутина?
https://habr.com/ru/post/723202/
Как улучшить точность ML-модели используя разведочный анализ
https://habr.com/ru/post/719206/
Unified Streaming And Batch Pipelines At LinkedIn: Reducing Processing time by 94% with Apache Beam
https://engineering.linkedin.com/blog/2023/unified-streaming-and-batch-pipelines-at-linkedin--reducing-proc
«Нужна конфиденциальность — не вступайте в программу лояльности»: какие покупательские данные может собирать супермаркет
https://vc.ru/trade/645931-nuzhna-konfidencialnost-ne-vstupayte-v-programmu-loyalnosti-kakie-pokupatelskie-dannye-mozhet-sobirat-supermarket?from=rss
Пайплайн для создания классификации текстовой информации
https://habr.com/ru/post/724790/
Top 5 Data Streaming Trends for 2023
https://dzone.com/articles/top-5-data-streaming-trends
Согласованность данных: что это на самом деле такое и почему с ней все так сложно
https://habr.com/ru/company/vk/blog/723734/
Data Science vs. Software Engineering: Understanding the Fundamental Differences
https://dzone.com/articles/data-science-vs-software-engineering-understanding
Инструменты наблюдаемости, о которых нужно знать в 2023 году
https://habr.com/ru/company/ruvds/blog/723588/
Как устроено индексирование баз данных
https://habr.com/ru/company/ruvds/blog/724066/
Генерация данных — творчество или рутина?
https://habr.com/ru/post/723202/
Как улучшить точность ML-модели используя разведочный анализ
https://habr.com/ru/post/719206/
Linkedin
Unified Streaming And Batch Pipelines At LinkedIn: Reducing Processing time by 94% with Apache Beam
Forwarded from gonzo-обзоры ML статей
Пятничное чтиво про историю появления ChatGPT и соображения непосредственных участников соревнований
https://www.technologyreview.com/2023/03/03/1069311/inside-story-oral-history-how-chatgpt-built-openai/
MIT Technology Review
The inside story of how ChatGPT was built from the people who made it
Exclusive conversations that take us behind the scenes of a cultural phenomenon.
Отдельно вынесу сюда этот список книг для инженеров
https://dzone.com/articles/engineering-manager-the-4-books-you-absolutely-mus
https://dzone.com/articles/engineering-manager-the-4-books-you-absolutely-mus
DZone
The 5 Books You Absolutely Must Read as an Engineering Manager
In this article, discover five books that are valuable resources to improve as an Engineering Manager.
Кроме computer sciense и данных, еще люблю космос, но на него времни остается очень мало 🙂 Но все равно одним взглядом смотрю новостные ленты и материалы на эту тему.
Попалась тут довольно объемная статья про OneWeb - интересная, вся история проекта описана, а я как раз все время ловил себя на мысли, что надо бы понять, что там вообще происходит. То они там банкротятся, то спутники новые запускают, то РФ там активно участвует, что не участвует и тп
В общем если кому это тоже интересно - почитайте
https://aboutspacejornal.net/2023/03/26/oneweb-%D0%BC%D1%8B%D1%82%D0%B0%D1%80%D1%81%D1%82%D0%B2%D0%B0-%D0%BA%D0%BE%D1%81%D0%BC%D0%B8%D1%87%D0%B5%D1%81%D0%BA%D0%BE%D0%B3%D0%BE-%D0%BC%D0%B0%D1%81%D1%88%D1%82%D0%B0%D0%B1%D0%B0/
Попалась тут довольно объемная статья про OneWeb - интересная, вся история проекта описана, а я как раз все время ловил себя на мысли, что надо бы понять, что там вообще происходит. То они там банкротятся, то спутники новые запускают, то РФ там активно участвует, что не участвует и тп
В общем если кому это тоже интересно - почитайте
https://aboutspacejornal.net/2023/03/26/oneweb-%D0%BC%D1%8B%D1%82%D0%B0%D1%80%D1%81%D1%82%D0%B2%D0%B0-%D0%BA%D0%BE%D1%81%D0%BC%D0%B8%D1%87%D0%B5%D1%81%D0%BA%D0%BE%D0%B3%D0%BE-%D0%BC%D0%B0%D1%81%D1%88%D1%82%D0%B0%D0%B1%D0%B0/
Журнал "Все о Космосе"
OneWeb. Мытарства космического масштаба
По данным лондонской компании OneWeb, ее спутниковая сеть была разработана для обеспечения высокоскоростного интернета без задержек в любой точке Земли, с упором на ранее недостаточно обслуживаемые…
Forwarded from Открытые системы www.osp.ru
📢 30 марта! Форум BIG DATA&AI 2023
📢 Андрей Евтихов, управляющий директор, SberDevices: Новый "цифровой мозг" компании и рывок к технологической независимости.
❓Как увеличить объем собираемых данных на порядок и втрое сократить стоимость владения решениями для управления данными?
✅ Андрей Евтихов, управляющий директор, SberDevices представит опыт производителя «умных» устройств не только по созданию новых возможностей для бизнеса за счет внедрения собственной платформы данных, но и по достижению технологической независимости в экстремальных внешних условиях. Проект номинирован на премию Data Award 2023.
✒️ Спешите регистрироваться »
#bigdata #bi #аналитика #AI #искусственныйинтеллект #большиеданные #ML #BI #SberDevices #DataAward
📢 Андрей Евтихов, управляющий директор, SberDevices: Новый "цифровой мозг" компании и рывок к технологической независимости.
❓Как увеличить объем собираемых данных на порядок и втрое сократить стоимость владения решениями для управления данными?
✅ Андрей Евтихов, управляющий директор, SberDevices представит опыт производителя «умных» устройств не только по созданию новых возможностей для бизнеса за счет внедрения собственной платформы данных, но и по достижению технологической независимости в экстремальных внешних условиях. Проект номинирован на премию Data Award 2023.
✒️ Спешите регистрироваться »
#bigdata #bi #аналитика #AI #искусственныйинтеллект #большиеданные #ML #BI #SberDevices #DataAward
Практический пример реализации distributed machine learning
https://tech.instacart.com/distributed-machine-learning-at-instacart-4b11d7569423
https://tech.instacart.com/distributed-machine-learning-at-instacart-4b11d7569423
Medium
Distributed Machine Learning at Instacart
How Instacart uses distributed Machine Learning to efficiently train thousands of models in production
Очень интересная статья от Uber о том, как они борются с такой проблемой как Data Shift. Особенно интересная статистика в разрезе существующих проблем с данными.
Для контроля качества компания разработала собственную систему D3 (Dataset Drift Detector).
Система отслеживает качество данных в режиме реального времени, красивые дашборды реализованы. В статье так же довольно детально описана архитектура.
Вот что у них на постоянном мониторинге:
- Null Percentage
- False Percentage
- Percentile (P50, P75, P99, P1)
- Standard Deviation, Mean, Median
- Count Distinct
https://www.uber.com/en-BG/blog/d3-an-automated-system-to-detect-data-drifts/
Для контроля качества компания разработала собственную систему D3 (Dataset Drift Detector).
Система отслеживает качество данных в режиме реального времени, красивые дашборды реализованы. В статье так же довольно детально описана архитектура.
Вот что у них на постоянном мониторинге:
- Null Percentage
- False Percentage
- Percentile (P50, P75, P99, P1)
- Standard Deviation, Mean, Median
- Count Distinct
https://www.uber.com/en-BG/blog/d3-an-automated-system-to-detect-data-drifts/
Решал тут задачку по профилированию датасета - надо было быстро на него как то посмотреть и очень какие столцы, насколько заполнены, распределения и тд и тп. Вручную едать было лень, поискал какие есть тулы которые бы автоматом такое делали и нашел очень интересный инструмент ydata-profiling
Берете любой датасет (например в pandas), отдаете его тулзе и на выходе получаете структуру с анализом которую можно сохранить, например, в html и будет готовый прекрасный отчет - посмотрите примеры в доках
Ну а кому хочется заморочиться, тула поддерживает очень много возможностей и интеграций
https://ydata-profiling.ydata.ai/docs/master/index.html
https://ydata-profiling.ydata.ai/examples/master/stata_auto/stata_auto_report.html
Берете любой датасет (например в pandas), отдаете его тулзе и на выходе получаете структуру с анализом которую можно сохранить, например, в html и будет готовый прекрасный отчет - посмотрите примеры в доках
Ну а кому хочется заморочиться, тула поддерживает очень много возможностей и интеграций
https://ydata-profiling.ydata.ai/docs/master/index.html
https://ydata-profiling.ydata.ai/examples/master/stata_auto/stata_auto_report.html
ydata-profiling.ydata.ai
1978 Automobile dataset
Profile report generated by YData! Visit us at https://ydata.ai
Зашел сегодня на конференцию BigData&AI 2023, первый доклад прям интересный сразу - про правовые барьеры работы с данными, статус разных категорий данных, текущую ситуацию и тренды.
Докладывает Карен Казарян из АНО «Цифровая экономика».
В целом очень здравый и прагматичный анализ.
PS в коменты к этому посту буду если что фотки со слайдами складывать
Докладывает Карен Казарян из АНО «Цифровая экономика».
В целом очень здравый и прагматичный анализ.
PS в коменты к этому посту буду если что фотки со слайдами складывать
Конференция огонь, но пришлось убежать. А сегодня вечером не забудьте подключится поговорить про Data Mesh!
https://t.me/noml_digest/474
https://t.me/noml_digest/474
Telegram
NoML Digest
Созвон NoML про Data Mesh
▫️ 30 марта (четверг), 19:00 МСК
▫️ Google Meet→
На этой неделе разбираемся, что такое Data Mesh.
Сочинять анонс было лень, благо теперь можно попросить ИИ)
“На нашей панельной дискуссии у вас будет возможность услышать мнения…
▫️ 30 марта (четверг), 19:00 МСК
▫️ Google Meet→
На этой неделе разбираемся, что такое Data Mesh.
Сочинять анонс было лень, благо теперь можно попросить ИИ)
“На нашей панельной дискуссии у вас будет возможность услышать мнения…
Forwarded from Alex
Привет!
4 апреля, вт в 11:00 мы проводим завершающий круглый стол по теме Data Mesh. Федеративное управление данными
Обсудим важность децентрализации и автономии доменов, а также соблюдение баланса между глобальными стандартами и автономией локальных доменов. Поговорим о том, как федеративное управление данными помогает создавать совместимые продукты в рамках экосистемы, а также, как единый взгляд на пользователей позволяет создавать более полезные продукты данных. Пообсуждаем вызовы и проблемы, связанные с реализацией этой модели управления в различных компаниях.
А на десерт 2 продукта МТС расскажут практические кейсы использования данных - боли и проблемы, способы их решения, а также покажут то самое business value про которые все говорят
Встречи будут интересны владельцам продуктов, техническим лидерам, аналитикам, архитекторам и администраторам данных.
Регистрация
4 апреля, вт в 11:00 мы проводим завершающий круглый стол по теме Data Mesh. Федеративное управление данными
Обсудим важность децентрализации и автономии доменов, а также соблюдение баланса между глобальными стандартами и автономией локальных доменов. Поговорим о том, как федеративное управление данными помогает создавать совместимые продукты в рамках экосистемы, а также, как единый взгляд на пользователей позволяет создавать более полезные продукты данных. Пообсуждаем вызовы и проблемы, связанные с реализацией этой модели управления в различных компаниях.
А на десерт 2 продукта МТС расскажут практические кейсы использования данных - боли и проблемы, способы их решения, а также покажут то самое business value про которые все говорят
Встречи будут интересны владельцам продуктов, техническим лидерам, аналитикам, архитекторам и администраторам данных.
Регистрация
Очень крутой материал с систематизацией всех возможных персональных данных пользователя
https://rppa.ru/analitika/katalog_pdn
https://rppa.ru/analitika/katalog_pdn
Дайджест статей 01/04/2023
Data Quality Faults With Your Data Vault
https://dzone.com/articles/data-quality-faults-with-your-data-vault
Data Stream Using Apache Kafka and Camel Application
https://dzone.com/articles/data-stream-using-apache-kafka-and-camel-applicati
Data Lakehouses: The Future of Scalable, Agile, and Cost-Effective Data Infrastructure
https://dzone.com/articles/data-lakehouses-the-future-of-scalable-agile-and-c
Ультимативная дорожная карта для изучения SQL и баз данных в 2023 году + источники для знаний
https://habr.com/ru/post/725414/
Roadmap построения эффективной бизнес-аналитики для ресторанной сети — 5 ключевых показателей
https://habr.com/ru/post/725102/
Использование отечественных BI-систем для миграции данных из Postgres в Clickhouse
https://habr.com/ru/company/otus/blog/725096/
Unified Streaming And Batch Pipelines At LinkedIn: Reducing Processing time by 94% with Apache Beam
https://engineering.linkedin.com/blog/2023/unified-streaming-and-batch-pipelines-at-linkedin--reducing-proc
Инструменты наблюдаемости, о которых нужно знать в 2023 году
https://habr.com/ru/company/ruvds/blog/723588/
ML-пайплайн классических банковских моделей классификации
https://habr.com/ru/company/otkritie/blog/725928/
Data Quality Faults With Your Data Vault
https://dzone.com/articles/data-quality-faults-with-your-data-vault
Data Stream Using Apache Kafka and Camel Application
https://dzone.com/articles/data-stream-using-apache-kafka-and-camel-applicati
Data Lakehouses: The Future of Scalable, Agile, and Cost-Effective Data Infrastructure
https://dzone.com/articles/data-lakehouses-the-future-of-scalable-agile-and-c
Ультимативная дорожная карта для изучения SQL и баз данных в 2023 году + источники для знаний
https://habr.com/ru/post/725414/
Roadmap построения эффективной бизнес-аналитики для ресторанной сети — 5 ключевых показателей
https://habr.com/ru/post/725102/
Использование отечественных BI-систем для миграции данных из Postgres в Clickhouse
https://habr.com/ru/company/otus/blog/725096/
Unified Streaming And Batch Pipelines At LinkedIn: Reducing Processing time by 94% with Apache Beam
https://engineering.linkedin.com/blog/2023/unified-streaming-and-batch-pipelines-at-linkedin--reducing-proc
Инструменты наблюдаемости, о которых нужно знать в 2023 году
https://habr.com/ru/company/ruvds/blog/723588/
ML-пайплайн классических банковских моделей классификации
https://habr.com/ru/company/otkritie/blog/725928/
DZone
Data Quality Faults With Your Data Vault
In this article, we’ll dive into data vault architecture, challenges and best practices for maintaining data quality; and how data observability can help.