Forwarded from Инжиниринг Данных (Dmitry Anoshin)
Несмотря на то, что Delta Lake ,книга выйдет в Апреле 2022, уже сейчас можно получить к ней доступ на O'Reilly
https://www.oreilly.com/library/view/delta-lake-the/9781098104580/
https://www.oreilly.com/library/view/delta-lake-the/9781098104580/
Forwarded from Data Events (Yuliya Bazarova)
Уже завтра приглашаем на Tinkoff. AI meetup!⚡️
В этот раз направим все внимание на рекомендательные системы.
Поговорим:
— об аналитике пользовательских покупок: предсказании потребностей и роли в этом машинного обучения. Расскажем каким SOTA подходам действительно можно верить.
— о персонализированном кэшбэке: как в ранжировании спецпредложений для клиента помогают наработки в области глубокого обучения и почему одних лишь сеток недостаточно для хорошей персонализации.
Соберем круглый стол экспертов из Тинькофф, Яндекса и Сбера – обсудим опыт компаний использования рекомендательных систем.
🕖Встречаемся 3 июня в 19:00 по московскому времени
Регистрация: https://l.tinkoff.ru/ai-recsys-21
В этот раз направим все внимание на рекомендательные системы.
Поговорим:
— об аналитике пользовательских покупок: предсказании потребностей и роли в этом машинного обучения. Расскажем каким SOTA подходам действительно можно верить.
— о персонализированном кэшбэке: как в ранжировании спецпредложений для клиента помогают наработки в области глубокого обучения и почему одних лишь сеток недостаточно для хорошей персонализации.
Соберем круглый стол экспертов из Тинькофф, Яндекса и Сбера – обсудим опыт компаний использования рекомендательных систем.
🕖Встречаемся 3 июня в 19:00 по московскому времени
Регистрация: https://l.tinkoff.ru/ai-recsys-21
Summary книги Чистый Agile
Наконец-то осилил добить небольшое саммари в виде цитат из Мега книги “Чистый Agile. Основы гибкости” от Роберта Мартина.
Просто must red всем, кто связан с разработкой ПО вне зависимости от роли и должности. В книге не только изложена суть того, что мы называем Agile, но и в целом о профессии разработчика ПО и о тех принципах, которым следуют настоящие профессионалы своего дела.
Для тех, у кого совсем нет времени, вот тут документ с основными цитатами: https://www.dropbox.com/s/sm91e4f71enjjxl/%D0%A7%D0%B8%D1%81%D1%82%D1%8B%D0%B9%20Agile%20summary%20short.pdf?dl=0
Для тех, кто хочет увидеть цитаты в контексте книги вот тут они с фотографиями страниц: https://www.dropbox.com/s/6h8iipmd2b69q6k/%D0%A7%D0%B8%D1%81%D1%82%D1%8B%D0%B9%20Agile%20summary.pdf?dl=0
А для тех, что хочет почитать в выходные, ссылка на саму книгу: https://www.litres.ru/robert-s-martin/chistyy-agile-osnovy-gibkosti/chitat-onlayn/
Наконец-то осилил добить небольшое саммари в виде цитат из Мега книги “Чистый Agile. Основы гибкости” от Роберта Мартина.
Просто must red всем, кто связан с разработкой ПО вне зависимости от роли и должности. В книге не только изложена суть того, что мы называем Agile, но и в целом о профессии разработчика ПО и о тех принципах, которым следуют настоящие профессионалы своего дела.
Для тех, у кого совсем нет времени, вот тут документ с основными цитатами: https://www.dropbox.com/s/sm91e4f71enjjxl/%D0%A7%D0%B8%D1%81%D1%82%D1%8B%D0%B9%20Agile%20summary%20short.pdf?dl=0
Для тех, кто хочет увидеть цитаты в контексте книги вот тут они с фотографиями страниц: https://www.dropbox.com/s/6h8iipmd2b69q6k/%D0%A7%D0%B8%D1%81%D1%82%D1%8B%D0%B9%20Agile%20summary.pdf?dl=0
А для тех, что хочет почитать в выходные, ссылка на саму книгу: https://www.litres.ru/robert-s-martin/chistyy-agile-osnovy-gibkosti/chitat-onlayn/
Dropbox
Чистый Agile summary short.pdf
Shared with Dropbox
Forwarded from Data engineering events (Николай Крупий)
🎯29 июня — Аналитическая платформа для бизнеса
На вебинаре поговорим о том, как строить собственное хранилище данных на базе платформы Yandex.Cloud.
О чем расскажем:
🔵 Как организовать сбор и анализ данных в компании, чтобы создать внешнее хранилище данных и объединить информацию из нескольких источников.
🔵 Как загружать обновления в потоковом режиме, чтобы строить витрины и управлять жизненным циклом данных и аналитическими отчетами.
🔵 Как определить подходящую архитектуру для корпоративной аналитической системы.
Кому будет полезен:
✅ Архитекторам данных и техническим директорам — чтобы выбирать подходящие инструменты и технические решения;
✅ Дата-инженерам — чтобы лучше понимать, как реализовать тот или иной сценарий в облаке;
✅ Специалистам по бизнес-аналитике — чтобы быть в курсе самых новых технологий.
Регистрация →
На вебинаре поговорим о том, как строить собственное хранилище данных на базе платформы Yandex.Cloud.
О чем расскажем:
🔵 Как организовать сбор и анализ данных в компании, чтобы создать внешнее хранилище данных и объединить информацию из нескольких источников.
🔵 Как загружать обновления в потоковом режиме, чтобы строить витрины и управлять жизненным циклом данных и аналитическими отчетами.
🔵 Как определить подходящую архитектуру для корпоративной аналитической системы.
Кому будет полезен:
✅ Архитекторам данных и техническим директорам — чтобы выбирать подходящие инструменты и технические решения;
✅ Дата-инженерам — чтобы лучше понимать, как реализовать тот или иной сценарий в облаке;
✅ Специалистам по бизнес-аналитике — чтобы быть в курсе самых новых технологий.
Регистрация →
Интересный факт: результаты исследований Стэндфордского университета показали, что рост вычислительной мощности, которая используется для обучения ИИ, уже более семи лет опережает закон Мура.
До 2012 года объем вычислительных мощностей для ИИ довольно точно следовал закону Мура удвоение каждые два года. После 2012 года удвоение происходило уже каждые 3,4 месяца. Таким образом, с 2012 года доступные мощности выросли в 300 тысяч раз, а если бы рост следовал закону Мура, то только в 7 раз. На примере датасета ImageNet, можно показать, что за 18 месяцев время, необходимое для обучения системы классификации изображений на облачной инфраструктуре, сократилось с 3 часов в октябре 2017 года до 88 секунд в июле 2019 года.
Модели ResNet в октябре 2017 года для достижения точности выше 93% требовалось 13 дней обучения, что обходилось в $2 323. Обучение, проведенное в сентябре 2018 года с точностью классификации изображений чуть выше 93%, стоило менее $13 и заняло менее 4 часов.
https://openai.com/blog/ai-and-compute/
До 2012 года объем вычислительных мощностей для ИИ довольно точно следовал закону Мура удвоение каждые два года. После 2012 года удвоение происходило уже каждые 3,4 месяца. Таким образом, с 2012 года доступные мощности выросли в 300 тысяч раз, а если бы рост следовал закону Мура, то только в 7 раз. На примере датасета ImageNet, можно показать, что за 18 месяцев время, необходимое для обучения системы классификации изображений на облачной инфраструктуре, сократилось с 3 часов в октябре 2017 года до 88 секунд в июле 2019 года.
Модели ResNet в октябре 2017 года для достижения точности выше 93% требовалось 13 дней обучения, что обходилось в $2 323. Обучение, проведенное в сентябре 2018 года с точностью классификации изображений чуть выше 93%, стоило менее $13 и заняло менее 4 часов.
https://openai.com/blog/ai-and-compute/
Openai
AI and compute
We’re releasing an analysis showing that since 2012, the amount of compute used in the largest AI training runs has been increasing exponentially with a 3.4-month doubling time (by comparison, Moore’s Law had a 2-year doubling period)[^footnote-correction].…
Forwarded from Все о блокчейн/мозге/space/WEB 3.0 в России и мире
⚡️С 1-ого сентября Китай национализирует большие данные, собираемые всеми техгигантами в мире
Власти Китая обеспокоены тем, что технологические гиганты могут использовать свои возможности для создания альтернативных центров силы в однопартийной стране. Более того, власти опасаются, что китайские техниганты могут делиться данными с иностранными партнерами, что подрывает национальную безопасность Поднебесной.
Яркий пример озабоченности властей - остановка запланированного IPO Ant Group - финтех гиганта Джека Ма в конце прошлого года.
Многие страны думают над тем, как регулировать большие данные. Европа создаёт правовое поле, где необходимость конфиденциальности данных - превыше всего. А в США нет единого федерального закона о защите данных.
А власти Китая считают, что данные, собранные бизнесом, - национальный актив, который можно использовать или ограничивать в зависимости от потребностей государства, в следующих сферах:
1. управление финансовыми рисками,
2. отслеживание вспышек вирусов,
3. реализация экономических задач государства
4. слежение за преступниками и политическими оппонентами.
Ключевым элементом госрегулирования Пекина является несколько законов, один из которых был принят в прошлый четверг, а другой - в апреле. Новое законодательство даст правительству все полномочия, связанные со сбором, хранением, использованием и передачей данных.
Новый закон о безопасности данных вступит в силу 1 сентября, он включает в себя разделение данных, собираемых бизнесом, на те с насколько они важны государству.
Согласно, новому законодательству данные, собираемые частным бизнесом, должны передаваться в правительство Китая не только китайскими компаниями, но и иностранными. В прошлом году власти официально потребовали локализации данных всех иностранных компаний, которые хотят работать в Китае. Таким образом, Apple, Tesla, Citigroup, BlackRock уже передают данные, так как построили в Китае свои ЦОДы.
Новые правила работы техгигантов в Китае в итоге создадут несколько проблем:
1. Замедлится технологический прогресс иностранных компаний. Например, невозможность отправить определенные данные обратно в США, ИИ Tesla не сможет улучшить свои алгоритмы.
2. Власти Китая смогут создать тот ИИ, который будет нужен партии, без учёта интересов граждан и развития компаний
Власти Китая обеспокоены тем, что технологические гиганты могут использовать свои возможности для создания альтернативных центров силы в однопартийной стране. Более того, власти опасаются, что китайские техниганты могут делиться данными с иностранными партнерами, что подрывает национальную безопасность Поднебесной.
Яркий пример озабоченности властей - остановка запланированного IPO Ant Group - финтех гиганта Джека Ма в конце прошлого года.
Многие страны думают над тем, как регулировать большие данные. Европа создаёт правовое поле, где необходимость конфиденциальности данных - превыше всего. А в США нет единого федерального закона о защите данных.
А власти Китая считают, что данные, собранные бизнесом, - национальный актив, который можно использовать или ограничивать в зависимости от потребностей государства, в следующих сферах:
1. управление финансовыми рисками,
2. отслеживание вспышек вирусов,
3. реализация экономических задач государства
4. слежение за преступниками и политическими оппонентами.
Ключевым элементом госрегулирования Пекина является несколько законов, один из которых был принят в прошлый четверг, а другой - в апреле. Новое законодательство даст правительству все полномочия, связанные со сбором, хранением, использованием и передачей данных.
Новый закон о безопасности данных вступит в силу 1 сентября, он включает в себя разделение данных, собираемых бизнесом, на те с насколько они важны государству.
Согласно, новому законодательству данные, собираемые частным бизнесом, должны передаваться в правительство Китая не только китайскими компаниями, но и иностранными. В прошлом году власти официально потребовали локализации данных всех иностранных компаний, которые хотят работать в Китае. Таким образом, Apple, Tesla, Citigroup, BlackRock уже передают данные, так как построили в Китае свои ЦОДы.
Новые правила работы техгигантов в Китае в итоге создадут несколько проблем:
1. Замедлится технологический прогресс иностранных компаний. Например, невозможность отправить определенные данные обратно в США, ИИ Tesla не сможет улучшить свои алгоритмы.
2. Власти Китая смогут создать тот ИИ, который будет нужен партии, без учёта интересов граждан и развития компаний
WSJ
China’s New Power Play: More Control of Tech Companies’ Troves of Data
Beijing is calling on tech giants to share the huge amounts of personal information they collect—and asserting its authority over data held by U.S. companies operating there as well. The efforts are part of Xi Jinping’s push to rein in the country’s increasingly…
Forwarded from HFLabs — о клиентских данных (Максим Пименов)
Сергей Мацоцкий, ушедший из IBS, дал программное интервью TAdviser.
Вторая проблема, которая, мне кажется, есть у нас в государстве – это проблема с данными. У нас очень много грязных данных. И это следствие нескольких вещей, в том числе, ментальности. Мы не очень аккуратно относимся к бизнес-процессам, к правилам.
Я когда-то был программистом. Как мы считали: программировать – это важно, а вот отлаживать или документацию писать, не царское это дело. Поэтому у нас с точки зрения данных очень много грязи. Поэтому, мне кажется, один из вызовов сегодня состоит в том, чтобы создать систему, которая будет самоочищать данные. То есть данные в процессе взаимодействия в тех или иных транзакциях будут самоочищаться. Другого способа решить эту проблему я не вижу.
Золотые слова, Сергей!
Вторая проблема, которая, мне кажется, есть у нас в государстве – это проблема с данными. У нас очень много грязных данных. И это следствие нескольких вещей, в том числе, ментальности. Мы не очень аккуратно относимся к бизнес-процессам, к правилам.
Я когда-то был программистом. Как мы считали: программировать – это важно, а вот отлаживать или документацию писать, не царское это дело. Поэтому у нас с точки зрения данных очень много грязи. Поэтому, мне кажется, один из вызовов сегодня состоит в том, чтобы создать систему, которая будет самоочищать данные. То есть данные в процессе взаимодействия в тех или иных транзакциях будут самоочищаться. Другого способа решить эту проблему я не вижу.
Золотые слова, Сергей!
Gartner опубликовала обзор основных трендов и тенденций в области работы с данными и аналитики. Мой ТОП-3 трендов:
- Distributed everything - в общем полное разочарование в централизованных системах, монолитах, хранилищах, озер, похоже окончательно наступило
- Data Fabric is the Foundation - как сказал один уважаемый мною эксперт, Fabric не правильно в России переводят как "Фабрика", правильный смысл - "Ткань".
- Data and analytics as a core business function - ну тут комментарии вообще лишьнии 🙂
подробнее можно прочитать по ссылке: https://www.gartner.com/smarterwithgartner/gartner-top-10-data-and-analytics-trends-for-2021/
- Distributed everything - в общем полное разочарование в централизованных системах, монолитах, хранилищах, озер, похоже окончательно наступило
- Data Fabric is the Foundation - как сказал один уважаемый мною эксперт, Fabric не правильно в России переводят как "Фабрика", правильный смысл - "Ткань".
- Data and analytics as a core business function - ну тут комментарии вообще лишьнии 🙂
подробнее можно прочитать по ссылке: https://www.gartner.com/smarterwithgartner/gartner-top-10-data-and-analytics-trends-for-2021/
Gartner
Gartner Top 10 Data and Analytics Trends for 2021
Trend 1: Smarter, responsible, scalable #AI. Gartner reveals the top 10 data & analytics trends for 2021. #GartnerDA @Gartner_IT
Forwarded from Все о блокчейн/мозге/space/WEB 3.0 в России и мире
На этой неделе ВОЗ опубликовала 1-й доклад об использовании ИИ в здравоохранении, а также 6 принципов проектирования, разработки и внедрения ИИ.
В документе говорится о переоценке преимуществ ИИ, одновременно, подчеркивая, как с помощью технологии можно улучшить скрининг, оказание клинической помощи и тд.
По оценке IDC, в 2020г. объем, создаваемых данных о здоровье, превысил 2000 эксабайт, ежегодно он будет расти на 48% в год.
В докладе ВОЗ отмечаются, что возможности, создаваемые ИИ, связаны с рисками.
Закодированные в алгоритмах предубеждения могут причинить вред пациентам и поставщикам медицинских услуг. Системы, обученные в основном на данных, полученных от людей из стран с высоким уровнем доходов, например, могут не работать для пациентов с низким и средним уровнем доходов. Более того, нерегулируемое использование ИИ может подорвать права пациентов в пользу бизнеса или государства.
Наборы данных, используемых для обучения систем искусственного интеллекта, которые могут прогнозировать наступление таких болезней как Альцгеймер, диабет, рак груди и шизофрения, поступают из различных источников. Часто пациенты не знают, куда отправляются их персданные. В 2017 году регулирующий орган Великобритании пришел к выводу, что фонд Royal Free London NHS Foundation Trust, подразделение Национальной службы здравоохранения Великобритании, предоставил DeepMind данные о 1,6 миллионах пациентов без их согласия.
Независимо от источника информации данные могут содержать предвзятость, создавая неравенство в алгоритмах ИИ, обученных диагностике заболеваний. Команда британских ученых обнаружила, что почти все наборы данных о заболеваниях глаз поступают из Северной Америки, Европы и Китая, а это означает, что алгоритмы диагностики заболеваний глаз с меньшей вероятностью работают для расовых групп из недостаточно представленных стран.
Чтобы еще раз показать эту точку зрения, исследователи из Стэнфорда обнаружили - некоторые ИИ медицинские устройства, одобренные FDA, уязвимы. По мере того, как ИИ становится встроенным в большее количество медицинских устройств (в прошлом году FDA одобрило более 65 устройств) - точность этих алгоритмов не изучается тщательно.
Чтобы ограничить риски и увеличить пользу ИИ для здоровья, ВОЗ рекомендует предпринять меры:
1. компенсация должна быть доступна всем, на кого негативно повлияли ИИ - решения
2. необходимо постоянно оценивать приложения ИИ, чтобы определить, соответствуют ли они ожиданиям и требованиям
3. ВОЗ рекомендует как правительствам, так и компаниям устранять сбои на рабочем месте, вызванные автоматизированными системами, включая обучение медицинских работников и их адаптации к использованию ИИ
4. Системы ИИ должны быть тщательно спроектированы с учетом разнообразия социально-экономических и условий здравоохранения.
В документе говорится о переоценке преимуществ ИИ, одновременно, подчеркивая, как с помощью технологии можно улучшить скрининг, оказание клинической помощи и тд.
По оценке IDC, в 2020г. объем, создаваемых данных о здоровье, превысил 2000 эксабайт, ежегодно он будет расти на 48% в год.
В докладе ВОЗ отмечаются, что возможности, создаваемые ИИ, связаны с рисками.
Закодированные в алгоритмах предубеждения могут причинить вред пациентам и поставщикам медицинских услуг. Системы, обученные в основном на данных, полученных от людей из стран с высоким уровнем доходов, например, могут не работать для пациентов с низким и средним уровнем доходов. Более того, нерегулируемое использование ИИ может подорвать права пациентов в пользу бизнеса или государства.
Наборы данных, используемых для обучения систем искусственного интеллекта, которые могут прогнозировать наступление таких болезней как Альцгеймер, диабет, рак груди и шизофрения, поступают из различных источников. Часто пациенты не знают, куда отправляются их персданные. В 2017 году регулирующий орган Великобритании пришел к выводу, что фонд Royal Free London NHS Foundation Trust, подразделение Национальной службы здравоохранения Великобритании, предоставил DeepMind данные о 1,6 миллионах пациентов без их согласия.
Независимо от источника информации данные могут содержать предвзятость, создавая неравенство в алгоритмах ИИ, обученных диагностике заболеваний. Команда британских ученых обнаружила, что почти все наборы данных о заболеваниях глаз поступают из Северной Америки, Европы и Китая, а это означает, что алгоритмы диагностики заболеваний глаз с меньшей вероятностью работают для расовых групп из недостаточно представленных стран.
Чтобы еще раз показать эту точку зрения, исследователи из Стэнфорда обнаружили - некоторые ИИ медицинские устройства, одобренные FDA, уязвимы. По мере того, как ИИ становится встроенным в большее количество медицинских устройств (в прошлом году FDA одобрило более 65 устройств) - точность этих алгоритмов не изучается тщательно.
Чтобы ограничить риски и увеличить пользу ИИ для здоровья, ВОЗ рекомендует предпринять меры:
1. компенсация должна быть доступна всем, на кого негативно повлияли ИИ - решения
2. необходимо постоянно оценивать приложения ИИ, чтобы определить, соответствуют ли они ожиданиям и требованиям
3. ВОЗ рекомендует как правительствам, так и компаниям устранять сбои на рабочем месте, вызванные автоматизированными системами, включая обучение медицинских работников и их адаптации к использованию ИИ
4. Системы ИИ должны быть тщательно спроектированы с учетом разнообразия социально-экономических и условий здравоохранения.
World Health Organization
WHO issues first global report on Artificial Intelligence (AI) in health and six guiding principles for its design and use
Artificial Intelligence (AI) holds great promise for improving the delivery of healthcare and medicine worldwide, but only if ethics and human rights are put at the heart of its design, deployment, and use, according to new WHO guidance published today. The…
Небольшое оффтопик, но не могу не поделиться и молчать.
Не знаю, кто как относиться к теме AGI, но в любом случае рекомендцю ознакомиться со статьей во вложении. Несмотря на то, что статья не новая (2014 год) в ней рассматриваются 2 противоположных теории общего ИИ - технологической сингулярности и теории квантового сознания Пенроуза.
Не хочу тут грузить деталями, но напишу свои выводы по прочтению:
- сингулярность не наступит, тк скорость вычислений никак не относиться к созникновению сознания
- у нас нет теории нашего сознания и нет даже физической теории, на которой можно построить теорию сознания. Пенроуз использует квантовую физику только потому, что классическая физика никак не помогает сделать модель сознания, а другой физики у нас нет
- по всей видимости наша реальность имеет фундаментальные ограничения, к которым мы можем асимптотически приближаться но которые никогда не сможем преодолеть (постоянная планка, скорость света) и сознание относиться к таким же фундаментальным ограничениям
Ну а то, что мы считаем ИИ сейчас (ML) в общем то остается довольно полезным шагом в автоматизации и вычислениях и продолжает расширять возможности людей за счет технологий, но ни в коей мере их не заменяет.
Не знаю, кто как относиться к теме AGI, но в любом случае рекомендцю ознакомиться со статьей во вложении. Несмотря на то, что статья не новая (2014 год) в ней рассматриваются 2 противоположных теории общего ИИ - технологической сингулярности и теории квантового сознания Пенроуза.
Не хочу тут грузить деталями, но напишу свои выводы по прочтению:
- сингулярность не наступит, тк скорость вычислений никак не относиться к созникновению сознания
- у нас нет теории нашего сознания и нет даже физической теории, на которой можно построить теорию сознания. Пенроуз использует квантовую физику только потому, что классическая физика никак не помогает сделать модель сознания, а другой физики у нас нет
- по всей видимости наша реальность имеет фундаментальные ограничения, к которым мы можем асимптотически приближаться но которые никогда не сможем преодолеть (постоянная планка, скорость света) и сознание относиться к таким же фундаментальным ограничениям
Ну а то, что мы считаем ИИ сейчас (ML) в общем то остается довольно полезным шагом в автоматизации и вычислениях и продолжает расширять возможности людей за счет технологий, но ни в коей мере их не заменяет.