Рекомендательная система торговой сети самообслуживания https://habr.com/ru/post/648891/?utm_source=habrahabr&utm_medium=rss&utm_campaign=648891
Хабр
Рекомендательная система торговой сети самообслуживания
Hello Habr! Давно хотел это сказать. Два слова о себе. Меня зовут Владислав Лещинский. Два года назад, я шагнул к своей мечте - овладению DataScience. Давно к этому шел, любил математику в школе,...
Дайджест статей 5/2/22
Эволюция хранилища данных в Авито
https://habr.com/ru/post/600053/?utm_source=habrahabr&utm_medium=rss&utm_campaign=600053
О хороших практиках построения инфраструктуры ML-моделей
https://habr.com/ru/post/648371/?utm_source=habrahabr&utm_medium=rss&utm_campaign=648371
20 Data Engineering Platforms & Skills Needed in 2022
https://odsc.medium.com/20-data-engineering-platforms-skills-needed-in-2022-ca02c69deed7?source=rss------nlp-5
Why Are There Still Data Silos In 2022?
https://dzone.com/articles/why-are-there-still-data-silos-in-2022
Эволюция хранилища данных в Авито
https://habr.com/ru/post/600053/?utm_source=habrahabr&utm_medium=rss&utm_campaign=600053
О хороших практиках построения инфраструктуры ML-моделей
https://habr.com/ru/post/648371/?utm_source=habrahabr&utm_medium=rss&utm_campaign=648371
20 Data Engineering Platforms & Skills Needed in 2022
https://odsc.medium.com/20-data-engineering-platforms-skills-needed-in-2022-ca02c69deed7?source=rss------nlp-5
Why Are There Still Data Silos In 2022?
https://dzone.com/articles/why-are-there-still-data-silos-in-2022
Хабр
Эволюция хранилища данных в Авито
Сейчас Data Warehouse в Авито — это инсталляция на 32 серверах. Мы используем девятую версию Vertica и ClickHouse. В команде, которая отвечает за хранилище, работает 21 человек. Поток событий, который...
Всем привет! Хочу напомнить, что осталось буквально 5 дней на подачу заявки для участие в ежегодной премии CDO Awards (https://www.osp.ru/lp/dataaward2022), где я являюсь участником экспертного совета и вообще всеми возможными силами поддерживаю этот уникальный для Российского рынка проект.
На текущий момент из поданный заявок уже готовы материалы по 7-ми и на сайте опубликованы подробные интервью по каждому проекту (см ниже полный список со ссылками) и еще 14 находятся в работе (так что следите за обновлениями)
М.Видео-Эльдорадо: умное наполнение полок, и не только
https://cio.ru/articles/261121-MVideo-Eldorado-umnoe-napolnenie-polok-i-ne-tolko
Опасные явления: Росгидромет подскажет руководителю, что делать
https://cio.ru/articles/201221-Opasnye-yavleniya-Rosgidromet-podskazhet-rukovoditelyu-chto-delat-
«Цельс»: от неразмеченной выборки к дата-сету мечты
https://cio.ru/articles/291221-Tsels-ot-nerazmechennoy-vyborki-k-data-setu-mechty
Атлас некоммерческих организаций: «живые» НКО на карте России
https://cio.ru/articles/100122-Atlas-nekommercheskih-organizatsiy-zhivye-NKO-na-karte-Rossii
«Лаборатория Цифровой Трансформации»: строя цифровые мосты между регионами
https://cio.ru/articles/130122-Laboratoriya-Tsifrovoy-Transformatsii-stroya-tsifrovye-mosty-mezhdu-regionami
«СМАРТС»: акустический мониторинг «слышит» проблемы дорог
https://cio.ru/articles/020222-SMARTS-akusticheskiy-monitoring-slyshit-problemy-dorog
«Лобачевский» в Нижнем Новгороде: первый год на службе
https://cio.ru/articles/040222-Lobachevskiy-v-Nizhnem-Novgorode-pervyy-god-na-sluzhbe
На текущий момент из поданный заявок уже готовы материалы по 7-ми и на сайте опубликованы подробные интервью по каждому проекту (см ниже полный список со ссылками) и еще 14 находятся в работе (так что следите за обновлениями)
М.Видео-Эльдорадо: умное наполнение полок, и не только
https://cio.ru/articles/261121-MVideo-Eldorado-umnoe-napolnenie-polok-i-ne-tolko
Опасные явления: Росгидромет подскажет руководителю, что делать
https://cio.ru/articles/201221-Opasnye-yavleniya-Rosgidromet-podskazhet-rukovoditelyu-chto-delat-
«Цельс»: от неразмеченной выборки к дата-сету мечты
https://cio.ru/articles/291221-Tsels-ot-nerazmechennoy-vyborki-k-data-setu-mechty
Атлас некоммерческих организаций: «живые» НКО на карте России
https://cio.ru/articles/100122-Atlas-nekommercheskih-organizatsiy-zhivye-NKO-na-karte-Rossii
«Лаборатория Цифровой Трансформации»: строя цифровые мосты между регионами
https://cio.ru/articles/130122-Laboratoriya-Tsifrovoy-Transformatsii-stroya-tsifrovye-mosty-mezhdu-regionami
«СМАРТС»: акустический мониторинг «слышит» проблемы дорог
https://cio.ru/articles/020222-SMARTS-akusticheskiy-monitoring-slyshit-problemy-dorog
«Лобачевский» в Нижнем Новгороде: первый год на службе
https://cio.ru/articles/040222-Lobachevskiy-v-Nizhnem-Novgorode-pervyy-god-na-sluzhbe
www.osp.ru
Премия Data Award 2022
Премия для data-driven организаций и директоров по данным Data Award 2022
Forwarded from База знаний AI
🎧 Послушать на выходных: подкаст DeepMind о значимости языковых ИИ-моделей
Авторы подкаста рассматривают язык как ключевой инструмент не только общения, но также мышления, запоминания и взаимодействия в целом. И, соответственно, смотрят на языковые модели под этим углом, задаваясь вопросом: если достаточно хорошо обучить нейросети пониманию и работе с языком, получится ли таким образом создать «сильный» искусственный интеллект. Не обходят вниманием авторы и этический аспект создания подобных ИИ-моделей.
👉🏻 Слушать подкаст: Apple Podcasts | Google Podcasts | Spotify | YouTube
Авторы подкаста рассматривают язык как ключевой инструмент не только общения, но также мышления, запоминания и взаимодействия в целом. И, соответственно, смотрят на языковые модели под этим углом, задаваясь вопросом: если достаточно хорошо обучить нейросети пониманию и работе с языком, получится ли таким образом создать «сильный» искусственный интеллект. Не обходят вниманием авторы и этический аспект создания подобных ИИ-моделей.
👉🏻 Слушать подкаст: Apple Podcasts | Google Podcasts | Spotify | YouTube
YouTube
Speaking of intelligence - DeepMind: The Podcast (S2, Ep2)
Hannah explores the potential of language models, the questions they raise, and if teaching a computer about language is enough to create artificial general intelligence (AGI). Beyond helping us communicate ideas, language plays a crucial role in memory,…
Forwarded from Все о блокчейн, мозге и WEB 3.0 в России и мире
Вышла новая языковая модель с открытым исходным кодом
EleutherAI на этой неделе представили свою новейшую языковую модель GPT-NeoX-20B в рамках расширения доступа к высокопроизводительному ИИ для генерации текста.
По данным EleutherAI, GPT-NeoX-20B, доступный сейчас через API, а на следующей неделе — на open source, превосходит другие общедоступные языковые модели в нескольких областях, но в целом дешевле в развертывании.
GPT-NeoX-20B разработан на инфраструктуре CoreWeave, обучен на текстовом наборе данных EleutherAI объемом 825 ГБ и содержит 20 миллиардов параметров, что примерно в 9 раз меньше, чем GPT-3 OpenAI.
В машинном обучении параметры являются частью модели, которая изучается на основе исторических данных обучения.
Вообще говоря, в языковой области корреляция между количеством параметров и сложностью сохраняется на удивление хорошо.
EleutherAI не утверждают, что GPT-NeoX-20B решает какую-либо из основных проблем, с которыми сталкиваются современные языковые модели, включая такие аспекты, как предвзятость и токсичность. Но они утверждают, что преимущества выпуска модели и других подобных ей перевешивают риски.
Обучение языковых моделей с нуля может стоить до миллионов $, а вывод (то есть фактический запуск обученной модели) является еще одним препятствий.
По одной из оценок, стоимость запуска GPT-3 на одном экземпляре Amazon Web Services составляет не менее $87 000 в год.
«От спама и астротурфинга до зависимости от чат-ботов существует явный вред, который может проявиться в результате использования этих моделей уже сегодня, и мы ожидаем, что согласование будущих моделей будет иметь решающее значение. Мы считаем, что ускорение исследований в области безопасности чрезвычайно важно», — заявил соучредитель EleutherAI
Коннор Лихи.
Предыдущие модели EleutherAI уже породили совершенно новые ИИ-стартапы. Если судить по истории, GPT-NeoX-20B сделает тоже самое.
EleutherAI на этой неделе представили свою новейшую языковую модель GPT-NeoX-20B в рамках расширения доступа к высокопроизводительному ИИ для генерации текста.
По данным EleutherAI, GPT-NeoX-20B, доступный сейчас через API, а на следующей неделе — на open source, превосходит другие общедоступные языковые модели в нескольких областях, но в целом дешевле в развертывании.
GPT-NeoX-20B разработан на инфраструктуре CoreWeave, обучен на текстовом наборе данных EleutherAI объемом 825 ГБ и содержит 20 миллиардов параметров, что примерно в 9 раз меньше, чем GPT-3 OpenAI.
В машинном обучении параметры являются частью модели, которая изучается на основе исторических данных обучения.
Вообще говоря, в языковой области корреляция между количеством параметров и сложностью сохраняется на удивление хорошо.
EleutherAI не утверждают, что GPT-NeoX-20B решает какую-либо из основных проблем, с которыми сталкиваются современные языковые модели, включая такие аспекты, как предвзятость и токсичность. Но они утверждают, что преимущества выпуска модели и других подобных ей перевешивают риски.
Обучение языковых моделей с нуля может стоить до миллионов $, а вывод (то есть фактический запуск обученной модели) является еще одним препятствий.
По одной из оценок, стоимость запуска GPT-3 на одном экземпляре Amazon Web Services составляет не менее $87 000 в год.
«От спама и астротурфинга до зависимости от чат-ботов существует явный вред, который может проявиться в результате использования этих моделей уже сегодня, и мы ожидаем, что согласование будущих моделей будет иметь решающее значение. Мы считаем, что ускорение исследований в области безопасности чрезвычайно важно», — заявил соучредитель EleutherAI
Коннор Лихи.
Предыдущие модели EleutherAI уже породили совершенно новые ИИ-стартапы. Если судить по истории, GPT-NeoX-20B сделает тоже самое.
EleutherAI Blog
Announcing GPT-NeoX-20B
Announcing GPT-NeoX-20B, a 20 billion parameter model trained in collaboration with CoreWeave.
Если кто то пропустил факт, что 17-18 февраля пройдет самая крутая ИИ конференция в России - напоминаю!
https://opentalks.ai/
https://opentalks.ai/
opentalks.ai
OpenTalks.AI: 6-7 March 2024
Open Conference on Artificial Intelligence in Tbilisi, March 2024
Дайджест статей 12/02/22
Why Data Management is Today’s Most Important Business Discipline
https://www.datasciencecentral.com/why-data-management-is-todays-most-important-business-discipline/
5 Data Security Strategies Businesses Should Implement
https://www.smartdatacollective.com/data-security-strategies-businesses-should-implement/
Вредные советы при построении Аналитики (Data Lake / DWH / BI) – целеполагание и результаты
https://habr.com/ru/post/650471/?utm_source=habrahabr&utm_medium=rss&utm_campaign=650471
Why Data Management is Today’s Most Important Business Discipline
https://www.datasciencecentral.com/why-data-management-is-todays-most-important-business-discipline/
5 Data Security Strategies Businesses Should Implement
https://www.smartdatacollective.com/data-security-strategies-businesses-should-implement/
Вредные советы при построении Аналитики (Data Lake / DWH / BI) – целеполагание и результаты
https://habr.com/ru/post/650471/?utm_source=habrahabr&utm_medium=rss&utm_campaign=650471
Data Science Central
Why Data Management is Today’s Most Important Business Discipline
#DataScience #AI #ML #DigitalTransformation #IOT #EdgeAnalytics #DataMonetization #DataEconomics #Nanoeconomics #Economics #DataManagement #DataEngineering #FeatureEngineering #DesignThinking #DataProducts #DataMesh #ValueEngineering #BigData #BigDataMBA…
Клуб CDO
Если кто то пропустил факт, что 17-18 февраля пройдет самая крутая ИИ конференция в России - напоминаю! https://opentalks.ai/
Кстати, если у кого есть желание сходить/послушать, у меня есть промо на скидку на билеты. Пишите в личку!
Microsoft и NVIDIA представили крупнейшую в мире генеративную языковую ИИ-модель с 530 миллиардами параметров
Интересная новость, не могу пройти мимо: MT-NLG имеет в 3 раза больше параметров по сравнению с существующей крупнейшей моделью такого типа и демонстрирует непревзойденную точность в широком наборе задач естественного языка, таких как:
- Предсказание завершения текста по смыслу;
- Понимание прочитанного;
- Генерация логических выводов;
- Создание заключений на естественном языке;
- Различение смысла слов с несколькими значениями.
Ну на счет "понимания" я бы поспорил. Скорее "имитация понимания". Но в целом прогресс последних языковых моделей впечатляет.
https://news.microsoft.com/ru-ru/microsoft-nvidia-megatron-turing-natural-language-generation/
Интересная новость, не могу пройти мимо: MT-NLG имеет в 3 раза больше параметров по сравнению с существующей крупнейшей моделью такого типа и демонстрирует непревзойденную точность в широком наборе задач естественного языка, таких как:
- Предсказание завершения текста по смыслу;
- Понимание прочитанного;
- Генерация логических выводов;
- Создание заключений на естественном языке;
- Различение смысла слов с несколькими значениями.
Ну на счет "понимания" я бы поспорил. Скорее "имитация понимания". Но в целом прогресс последних языковых моделей впечатляет.
https://news.microsoft.com/ru-ru/microsoft-nvidia-megatron-turing-natural-language-generation/
Презентация Григория Сапунова с только что прошедшего доклада на OpenTalks.Al об основных новостях индустрии NLP
https://docs.google.com/presentation/d/1NOuZjYa-o2V9fFUUulbNtg8cj96WH8unm3_RLcl2Rv4/mobilepresent?slide=id.p
https://docs.google.com/presentation/d/1NOuZjYa-o2V9fFUUulbNtg8cj96WH8unm3_RLcl2Rv4/mobilepresent?slide=id.p
Forwarded from Все о блокчейн, мозге и WEB 3.0 в России и мире
#книгамесяца Джордж Лакофф, Марк Джонсон – Метафоры, которыми мы живем
Книга, которая глубоко сформирует ваше представление о том, как работает разум.
Книга, которая глубоко сформирует ваше представление о том, как работает разум.
В рамках подготовке к премии CDO Awards 2022 опубликован новый сет интервью с номинантами:
ID Collect: интеллектуальная работа с должниками
https://cio.ru/articles/180222-ID-Collect-intellektualnaya-rabota-s-dolzhnikami
X5 Group: A/B платформа — универсальный инструмент проверки бизнес-гипотез
https://cio.ru/articles/180222-X5-Group-AB-platforma--universalnyy-instrument-proverki-biznes-gipotez
Ускоренная помощь по-рязански
https://cio.ru/articles/180222-Uskorennaya-pomosch-po-ryazanski
«Пакет» от X5: стать ближе к клиентам
https://cio.ru/articles/180222-Paket-ot-X5-stat-blizhe-k-klientam
ID Collect: интеллектуальная работа с должниками
https://cio.ru/articles/180222-ID-Collect-intellektualnaya-rabota-s-dolzhnikami
X5 Group: A/B платформа — универсальный инструмент проверки бизнес-гипотез
https://cio.ru/articles/180222-X5-Group-AB-platforma--universalnyy-instrument-proverki-biznes-gipotez
Ускоренная помощь по-рязански
https://cio.ru/articles/180222-Uskorennaya-pomosch-po-ryazanski
«Пакет» от X5: стать ближе к клиентам
https://cio.ru/articles/180222-Paket-ot-X5-stat-blizhe-k-klientam
OpenTalks.AI
В четверг выступил модератором секции “Secure and Private Machine Learning” на конференции OpenTalks.AI.
Обсуждали темы Federated Learning и конфиденциальных совместных вычислений. Мне кажется было достаточно интересно, выступили коллеги из Intel Ольга Перепелкина и Patrick Foley, а так же коллеги из компании Bloomtech и банка ВТБ Петр Емельянов и Дмитрий Берестнев.
Особенное спасибо Ольге и Петру. Оля рассказывала про Federated Learning, а Петр прекрасно рассказал о конфиденциальных вычислениях. Несколько фото прикрепляю. Если спикера разрезам выложить доклады - сделаю отдельно. PS прямо перед нашей секций была секция AGI “Мотивация у человека и сильного ИИ”, которую вел Антон Колодин, лидер сообщества AGI Russia, там удалось познакомиться с Сергеем Шумским, работы которого очень уважаю, люблю и всем рекомендую и другими видными участниками сообщества.
В четверг выступил модератором секции “Secure and Private Machine Learning” на конференции OpenTalks.AI.
Обсуждали темы Federated Learning и конфиденциальных совместных вычислений. Мне кажется было достаточно интересно, выступили коллеги из Intel Ольга Перепелкина и Patrick Foley, а так же коллеги из компании Bloomtech и банка ВТБ Петр Емельянов и Дмитрий Берестнев.
Особенное спасибо Ольге и Петру. Оля рассказывала про Federated Learning, а Петр прекрасно рассказал о конфиденциальных вычислениях. Несколько фото прикрепляю. Если спикера разрезам выложить доклады - сделаю отдельно. PS прямо перед нашей секций была секция AGI “Мотивация у человека и сильного ИИ”, которую вел Антон Колодин, лидер сообщества AGI Russia, там удалось познакомиться с Сергеем Шумским, работы которого очень уважаю, люблю и всем рекомендую и другими видными участниками сообщества.