Forwarded from Инжиниринг Данных (Dmitry)
Модуль 2 курса Getting Started with Analytics and Data Engineering на английском готов:
Введение - по классике из центра Ванкувера.
Урок 1: что такое база данных и какие бывают.
Урок 2: подключаемся к базе данных и SQL (А тут где учить SQL https://dataengineer.ru/hard-skills/2023-06-04-sql.html)
Урок 3: модели данных
Урок 4: базы данных в облаках
Урок 5: про визуализацию запросов, как бы BI на минималках
Урок 6: NoSQL базы данных для нас (аналитиков и инженеров) и про MongoDB + hands on
Урок 7: топчик БД -DuckDB вместе с hands-on
Ссылка на модуль 1 https://t.me/rockyourdata/4739
Ссылка на модуль 0 https://t.me/rockyourdata/4553
Модуль 1 и 0 просто MUST HAVE!
И не забывает читать про карьеру успешную, особенно если вы вот только начинаете https://dataengineer.ru/pages/careertracks/
PS а тут наши проекты: https://github.com/surfalytics/data-projects почти каждую неделю делаем что-то новое
Введение - по классике из центра Ванкувера.
Урок 1: что такое база данных и какие бывают.
Урок 2: подключаемся к базе данных и SQL (А тут где учить SQL https://dataengineer.ru/hard-skills/2023-06-04-sql.html)
Урок 3: модели данных
Урок 4: базы данных в облаках
Урок 5: про визуализацию запросов, как бы BI на минималках
Урок 6: NoSQL базы данных для нас (аналитиков и инженеров) и про MongoDB + hands on
Урок 7: топчик БД -DuckDB вместе с hands-on
Ссылка на модуль 1 https://t.me/rockyourdata/4739
Ссылка на модуль 0 https://t.me/rockyourdata/4553
Модуль 1 и 0 просто MUST HAVE!
И не забывает читать про карьеру успешную, особенно если вы вот только начинаете https://dataengineer.ru/pages/careertracks/
PS а тут наши проекты: https://github.com/surfalytics/data-projects почти каждую неделю делаем что-то новое
Surfalytics
Introduction · Surfalytics
Surfalytics is your online launchpad into data analytics, offering a comprehensive, hands-on curriculum that focuses on the crucial 20% of knowledge that yields 80% of results, effectively preparing you for a rewarding career globally.
Forwarded from что-то на DL-ском
Hugging Face выпустили курс по alignment LLM. Уже есть секции про:
🩰 instruction tuning
🩰 alignment
🩰 PEFT
🩰 валидацию
Ждем выпуска vision LM, синт датасетов и инференса
Го тыкать
Ждем выпуска vision LM, синт датасетов и инференса
Го тыкать
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from что-то на DL-ском
Началось все с директории по LLM reasoning
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Information Retriever
Итоги года на канале.
Где-то чуть больше года назад я в порыве ночных раздумий понял, что пора бы завести канал. Еще помню, как выбирал название: основной вариант был "arxiv weekly" — именно так называлась еженедельная сводка обзоров статей, которую я вёл в Яндексе. Вариант "Information Retriever" с ретривером на аватарке был скорее шуточный, но каким-то образом реализовался. Ни о чем не жалею =)
Началось все с того, что после ухода Миши Ройзнера @WazowskiRecommends я вызвался подхватить организацию научного семинара по рекомендательным системам в Яндексе. Каждую неделю мы разбирали по две статьи. Я искал докладчиков, сам регулярно выступал и помогал подбирать статьи для выступлений. Чтобы было проще искать статьи, стал выпускать в чате семинара дайджест "arxiv weekly": каждую неделю просматривал все статьи, выходящие в секции arxiv cs/IR, отбирал 5-10 штук, писал про них краткие хайлайты в пару строчек. Постепенно ребята, уходящие из Яндекса, убедили меня что было бы круто перенести "arxiv weekly" в публичное пространство.
Еще в какой-то момент на нетворкингах люди стали благодарить за доклады про трансформерную персонализацию. Когда Саша Сидоров подошел и сказал, что в Wildberries смогли на основе этих докладов что-то внедрить, у меня прямо сдвиг парадигмы произошел =) Появилось понимание, что могу рассказывать что-то интересное и полезное для широкой публики, что эти доклады кто-то смотрит.
В совокупности эти два фактора, вероятно, и сподвигли на создание канала. Первые посты были очень корявые; их чтение вызывает те же ощущения, которые в эпоху вконтакте вызывало перечитывание старых переписок :) Тем не менее, постепенно сформировался какой-то свой, «авторский», стиль; о чем и как я пишу. Дальше идут итоги года в постах и выступлениях.
Выступления:
* Про нейросетевое ранжирование на ML party.
* Про индустриальные тренды рексистем на Датафесте.
* Best practices доклад про трансформерную персонализацию на Turbo ML Conf, который я попытался сделать полезнее и информативнее всех прошлых.
* Про кейсы, в которых нам пригодились статьи на практике на рекомендательном митапе от Сбера.
Посты:
* Про (1) проблемы next item prediction, (2) двухбашенные модели и logQ-коррекцию, (3) обучаемые векторы для рексистем. У нас с командой очень сильное желание сделать свой курс по рексистемам: такие посты похожи на то, что хотелось бы покрыть в курсе. Процесс создания хорошего курса долгий и сложный, пока всё на стадии сбора материала: я собираю, "коллекционирую" различные термины, концепты, теории, с которыми сталкиваюсь при работе и в статьях. Этот процесс может занять годы =)
* Про (1) ранжирование в Пинтересте, (2) ранжирование в Ютубе, (3) рекомендации похожих пинов в Пинтересте. Изначально я собирал много system design заметок про то, как устроены рекомендации в разных известных сервисах. Собирал статьи, парсил блоги на медиуме, искал выступления. Пока что это, пожалуй, один из наиболее сложных типов постов для реализации.
* Про рабочие проекты и команду: (1) чтение статей для r&d, (2) графовые нейросети, (3) нейросетевое ранжирование, (4) чем занимается наша команда, (5) трансформер с миллиардом параметров. Писать про команду приятно и просто, здесь я недорабатываю :)
* Серия постов про праздник рекомендательных систем на ACM RecSys 2024: 1, 2, 3, 4, 5, 6, 7.
* "Кулуарные" посты, в которых пытался передать атмосферу нетворкинга и какие-то приватные, но не очень, обсуждения: (1) конфа вышки, (2) датафест, (3) turbo ml conf, (4) pml conf.
* Обзорные посты с кучей ссылок на статьи: (1) NLP образца 2020-го года, (2) what's on google's deepmind, (3) скейлинг в рексистемах, (4) sigir 2024, (5) топ статей про нейросети в рекистемах.
Спасибо, что были со мной этот год! И до встречи в следующем :)
Где-то чуть больше года назад я в порыве ночных раздумий понял, что пора бы завести канал. Еще помню, как выбирал название: основной вариант был "arxiv weekly" — именно так называлась еженедельная сводка обзоров статей, которую я вёл в Яндексе. Вариант "Information Retriever" с ретривером на аватарке был скорее шуточный, но каким-то образом реализовался. Ни о чем не жалею =)
Началось все с того, что после ухода Миши Ройзнера @WazowskiRecommends я вызвался подхватить организацию научного семинара по рекомендательным системам в Яндексе. Каждую неделю мы разбирали по две статьи. Я искал докладчиков, сам регулярно выступал и помогал подбирать статьи для выступлений. Чтобы было проще искать статьи, стал выпускать в чате семинара дайджест "arxiv weekly": каждую неделю просматривал все статьи, выходящие в секции arxiv cs/IR, отбирал 5-10 штук, писал про них краткие хайлайты в пару строчек. Постепенно ребята, уходящие из Яндекса, убедили меня что было бы круто перенести "arxiv weekly" в публичное пространство.
Еще в какой-то момент на нетворкингах люди стали благодарить за доклады про трансформерную персонализацию. Когда Саша Сидоров подошел и сказал, что в Wildberries смогли на основе этих докладов что-то внедрить, у меня прямо сдвиг парадигмы произошел =) Появилось понимание, что могу рассказывать что-то интересное и полезное для широкой публики, что эти доклады кто-то смотрит.
В совокупности эти два фактора, вероятно, и сподвигли на создание канала. Первые посты были очень корявые; их чтение вызывает те же ощущения, которые в эпоху вконтакте вызывало перечитывание старых переписок :) Тем не менее, постепенно сформировался какой-то свой, «авторский», стиль; о чем и как я пишу. Дальше идут итоги года в постах и выступлениях.
Выступления:
* Про нейросетевое ранжирование на ML party.
* Про индустриальные тренды рексистем на Датафесте.
* Best practices доклад про трансформерную персонализацию на Turbo ML Conf, который я попытался сделать полезнее и информативнее всех прошлых.
* Про кейсы, в которых нам пригодились статьи на практике на рекомендательном митапе от Сбера.
Посты:
* Про (1) проблемы next item prediction, (2) двухбашенные модели и logQ-коррекцию, (3) обучаемые векторы для рексистем. У нас с командой очень сильное желание сделать свой курс по рексистемам: такие посты похожи на то, что хотелось бы покрыть в курсе. Процесс создания хорошего курса долгий и сложный, пока всё на стадии сбора материала: я собираю, "коллекционирую" различные термины, концепты, теории, с которыми сталкиваюсь при работе и в статьях. Этот процесс может занять годы =)
* Про (1) ранжирование в Пинтересте, (2) ранжирование в Ютубе, (3) рекомендации похожих пинов в Пинтересте. Изначально я собирал много system design заметок про то, как устроены рекомендации в разных известных сервисах. Собирал статьи, парсил блоги на медиуме, искал выступления. Пока что это, пожалуй, один из наиболее сложных типов постов для реализации.
* Про рабочие проекты и команду: (1) чтение статей для r&d, (2) графовые нейросети, (3) нейросетевое ранжирование, (4) чем занимается наша команда, (5) трансформер с миллиардом параметров. Писать про команду приятно и просто, здесь я недорабатываю :)
* Серия постов про праздник рекомендательных систем на ACM RecSys 2024: 1, 2, 3, 4, 5, 6, 7.
* "Кулуарные" посты, в которых пытался передать атмосферу нетворкинга и какие-то приватные, но не очень, обсуждения: (1) конфа вышки, (2) датафест, (3) turbo ml conf, (4) pml conf.
* Обзорные посты с кучей ссылок на статьи: (1) NLP образца 2020-го года, (2) what's on google's deepmind, (3) скейлинг в рексистемах, (4) sigir 2024, (5) топ статей про нейросети в рекистемах.
Спасибо, что были со мной этот год! И до встречи в следующем :)
Forwarded from Мальцев: Карьера с AI
Ребята, хочу поделиться с вами лайфхаком для работы с AI в 2025 году 🏄
С 2017 я интересуюсь темой AI (с того самого момента, когда бот OpenAI эпично уделал Dendi в Dota 2 — кто бы мог подумать, что это только начало! 😅) и постоянно ищу способы, как использовать нейросети для решения своих рабочих задач.
В конце года захотелось структурировать знания в одну статью-методологию и один промпт, поделиться ими с вами. Перед этим я:
• Прошел курсы по YandexGPT, ChatGPT (особенно понравился Reasoning with GPT от OpenAI) и переосмыслил все свои промпты
• Протестировал последние версии ChatGPT, Gemini, Claude, YandexGPT и обсудил свои мысли с Серегой Юдиным
🎯 Результат: создал универсальный шаблон промпта, который хорошо работает с 80% моих задач в GPT (а ставлю я их по паре штук каждый день). Сохраняйте себе в избранное универсальный шаблон для постановки задачи для GPT в 2025.
Контекст: [Опишите ситуацию для постановки задачи, проблему, цель, целевую аудиторию для кого делаете задачу...]
Роль: Представь что ты [Кто?]. Ты обладаешь глубоким пониманием [ключевых навыков/знаний...] и имеешь опыт в [область, связанная с задачей...]
Задача: [Что делать? Сформулируйте, что нужно сделать. Используйте глаголы действия и укажите, что является конечным результатом...].
Перед ответом на задачу используй логический подход для выполнения задачи и обоснования своих решений.
Подумай, какие шаги или подходы будут наиболее эффективны для выполнения задачи, и приведи аргументы, почему.
Формат: [В каком виде? Опишите желаемый формат результата. Укажите тип, структуру, элементы...].
Укажи несколько примеров по содержанию и оформлению. Объясни, почему именно предложенное решение будет наиболее эффективным.
Объем: [Сколько? Укажите желаемый объем. Используйте измеримые единицы символов, слов, страниц, примеров, пунктов...]
Стиль: [Как? Определите стиль, укажите тональность, настроение, допустимые языковые средства...]. Ответ должен быть [ключевые особенности стиля...]
Критерии качества: Каждое решение должно быть логически обосновано и подкреплено аргументами. [Что еще важно? Перечислите критерии...]
Приоритеты: [Что в фокусе? Расставьте приоритеты для критериев качества. Приоритет 1 - ... Приоритет 2 - ...]
Дополнительная информация: При разработке ответа используй логику, дедукцию и аргументацию. [Что еще важно для решения задачи? Добавьте любую релевантную информацию]
💡 Шаблон уже включает фразы для активации Reasoning и был проверен на ChatGPT, YandexGPT, Gemini, Claude. Например, с его помощью мы создали один из самых конверсионных лендингов для "Нейроредактора" в Яндекс Браузере.
🔍 Подробный разбор трендов AI на 2025, все фишки промпта и реальные кейсы использования — в статье на vc.ru:
• Как один промпт может заменить десятки шаблонов для ChatGPT, YandexGPT и других нейросетей в 2025?
• Как использовать Reasoning, чтобы нейросеть думала как человек?
• Метапромптинг — новый «чит-код» для работы с ИИ или все еще сырой метод для ленивых?
💭 Мечтаю, что шаблон промпта и информация из статьи помогут всем нам выжимать из GPT максимум для своих задач, а кому-то наконец-то преодолеть блок «это всё не для меня, действую по-старинке».
👍 - если пост полезен и поможет вам в работе с GPT в 2025.
Please open Telegram to view this post
VIEW IN TELEGRAM
vc.ru
Универсальный промпт для нейросети: как выжать максимум из ChatGPT, YandexGPT, Gemini, DeepSeek в 2025
Я отвечаю за маркетинг Яндекс Браузера (ex CMO Яндекс Путешествия, Playrix, консультировал League of Legends, Tinkoff, Sber, VK). Буду делиться опытом работы с нейросетями в моей жизни обычного сотрудника, который не сильно разбирается в коде или продвинутом…
Forwarded from Инжиниринг Данных (Dmitry)
Закончил 2ю половину workshop по CI/CD на примере контейнера с DuckDB и 1м SQL файлом.
Во 2й части мы занялись deployment, и в качестве destination выбрали Docker Hub. Посмотрели на GitHub и Docker tags, добавили Release, все через GitHub Actions.
Вы можете самостоятельно все проделать.
Ссылка на инструкции: https://github.com/surfalytics/data-projects/tree/main/dataops-projects/01_git_and_ci_cd
Мое решение: https://github.com/dimoobraznii1986/surfalytics-ci-cd-project
Статьи в тему, которые мы написали с Настей:
- Part 1: How to work with SQL queries as a pro
- Part 2: How to work with SQL queries as a pro
Если не уверены в CLI, IDE, Docker, Git, начните с Модуля 0 (Surfalytics), там может и на английском, но все команды и примеры и так понятны https://www.youtube.com/watch?v=LJIiCLu2gr8&list=PLNCDg7zJiXhP5Z_-TXUdorz2n7sjYHHKE
Понимание, что такое CI/CD, Git, как это работает и как используют другие компании помогает лучше адаптировать DevOps практики для своих аналитических проектов и повышает качество проекта.
Во 2й части мы занялись deployment, и в качестве destination выбрали Docker Hub. Посмотрели на GitHub и Docker tags, добавили Release, все через GitHub Actions.
Вы можете самостоятельно все проделать.
Ссылка на инструкции: https://github.com/surfalytics/data-projects/tree/main/dataops-projects/01_git_and_ci_cd
Мое решение: https://github.com/dimoobraznii1986/surfalytics-ci-cd-project
Статьи в тему, которые мы написали с Настей:
- Part 1: How to work with SQL queries as a pro
- Part 2: How to work with SQL queries as a pro
Если не уверены в CLI, IDE, Docker, Git, начните с Модуля 0 (Surfalytics), там может и на английском, но все команды и примеры и так понятны https://www.youtube.com/watch?v=LJIiCLu2gr8&list=PLNCDg7zJiXhP5Z_-TXUdorz2n7sjYHHKE
Понимание, что такое CI/CD, Git, как это работает и как используют другие компании помогает лучше адаптировать DevOps практики для своих аналитических проектов и повышает качество проекта.
Forwarded from Моя жизнь в IT/Губарева
#ЭтонаНовыйгод: все о профессиональном бренде и публичных выступлениях
Итоги года в моем канале невозможно представить без подборки по созданию профессионального бренда и публичным выступлениям.
Выбрала самое удачное из своего плюс прошлась по каналам экспертов, которых я на эту тему читаю/смотрю.
Сохраняйте, изучайте,дополняйте в комментариях и входите в новый год с планом, как быть заметными в своих индустриях.
⚡️ЗАЧЕМ?
Начнем с целеполагания
📺Интервью Николая Картозии - одного из главных экспертов на эту тему в русскоязычном пространстве
📺Подкаст «Разве это карьера?» с вашим любимыми скромным автором
📌Посты кофаундера маркетингового агентства БУНТ и автора канала «Состояние потока» Наили Аслановой
🔸Зачем нужен корпоративный личный бренд?
🔸Личный бренд эксперта внутри индустрии
📌Кирилл Гурбанов объясняет, почему руководителям без умения выступать – никуда
⚡️КТО?
Узнать себя, чтобы рассказать другим
📌Личный бренд: и Библия персонажа
📌Помоги себе не сам: менторы, коучи и наставники и публичные выступления
📌Эволюция спикеров
📌Role models и референсы в жизни: как это работает?
📌О чем говорит внешность и при чем тут личный бренд?
⚡️КАК?
Инструменты и каналы коммуникации с аудиторией
🎤Публичные выступления
❗️4 моих «великих» лонгрида о том, как подготовить доклад и интервью, если вы спикер или организатор
📌Классные советы автора канала «Кирилл говорил» Кирилла Гурбанова
🔸Как подходить к прогонам
🔸Как работать с вопросами из зала
И снова от меня
📌Вредные советы спикеру: коллаборация с автором канала The Art Of Programming Антоном Черноусовым
📌Вредные советы спикеру: коллаборация с каналом Олега Козырева
📌Как планировать выступления на конференциях?
📌Мастер-класс - жанр для тех, кто, кажется, сделал в публичных выступлениях уже все
Telegram
📌Telegram-канал: плюсы, минусы, подводные камни
📌Ведение Telegram-канала и разные типажи экспертов на примере технических директоров - пост автора канала «Говорите громче» Жени Голевой
📌Актуальные советы из 2019 года от «Ночного Писаревского»
Такс, кажется, этого достаточно, чтобы вдохновиться и даже сформулировать стратегию.
Расскажите, планируете ли вы уделять внимание своей видимости как профессионала в 2025?
❤️ - однозначно да
👌- планирую начать
👍- если времени хватит
👎- нет, мне это не нужно
🤔- подумаю об этом завтра
Итоги года в моем канале невозможно представить без подборки по созданию профессионального бренда и публичным выступлениям.
Выбрала самое удачное из своего плюс прошлась по каналам экспертов, которых я на эту тему читаю/смотрю.
Сохраняйте, изучайте,
⚡️ЗАЧЕМ?
Начнем с целеполагания
📺Интервью Николая Картозии - одного из главных экспертов на эту тему в русскоязычном пространстве
📺Подкаст «Разве это карьера?» с вашим любимым
📌Посты кофаундера маркетингового агентства БУНТ и автора канала «Состояние потока» Наили Аслановой
🔸Зачем нужен корпоративный личный бренд?
🔸Личный бренд эксперта внутри индустрии
📌Кирилл Гурбанов объясняет, почему руководителям без умения выступать – никуда
⚡️КТО?
Узнать себя, чтобы рассказать другим
📌Личный бренд: и Библия персонажа
📌Помоги себе не сам: менторы, коучи и наставники и публичные выступления
📌Эволюция спикеров
📌Role models и референсы в жизни: как это работает?
📌О чем говорит внешность и при чем тут личный бренд?
⚡️КАК?
Инструменты и каналы коммуникации с аудиторией
🎤Публичные выступления
❗️4 моих «великих» лонгрида о том, как подготовить доклад и интервью, если вы спикер или организатор
📌Классные советы автора канала «Кирилл говорил» Кирилла Гурбанова
🔸Как подходить к прогонам
🔸Как работать с вопросами из зала
И снова от меня
📌Вредные советы спикеру: коллаборация с автором канала The Art Of Programming Антоном Черноусовым
📌Вредные советы спикеру: коллаборация с каналом Олега Козырева
📌Как планировать выступления на конференциях?
📌Мастер-класс - жанр для тех, кто, кажется, сделал в публичных выступлениях уже все
Telegram
📌Telegram-канал: плюсы, минусы, подводные камни
📌Ведение Telegram-канала и разные типажи экспертов на примере технических директоров - пост автора канала «Говорите громче» Жени Голевой
📌Актуальные советы из 2019 года от «Ночного Писаревского»
Такс, кажется, этого достаточно, чтобы вдохновиться и даже сформулировать стратегию.
Расскажите, планируете ли вы уделять внимание своей видимости как профессионала в 2025?
❤️ - однозначно да
👌- планирую начать
👍- если времени хватит
👎- нет, мне это не нужно
🤔- подумаю об этом завтра
Forwarded from Reliable ML
Карта типов CDO
К обзору книги Carruthers, Jackson - The Chief Data Officer's Playbook
Хочется дополнить наш недавний обзор книги про CDO моей любимой картой архетипов дата лидеров.
Оригинальная статья была опубликована около 5 лет назад компанией Informatica, хотя недавно ее почему-то удалили. Однако у меня ходы остались записаны! Хочу поделиться с вами)
По концепту все Chief Data Officers делятся на 4 категории - по их самым сильным сторонам.
- Digital Innovators. Ключевые навыки дата лидера - в знании data science/ML/AI технологий. Такой CDO сможет затащить поиск перспективных идей, быстрые эксперименты и исследования, внедрение новых решений. Как правило, эти лидеры вырастают из дата саентистов.
- Analytics Champions. Фокус - на построении процессов для надежной отчетности: развитие BI-инструментов и дашбордов, настройка качественных end2end пайплайнов, включая оптимизацию работы отчетов в рамках BI и витрин данных под ними. Чтобы все работало четко, быстро, не ломалось - давало бизнесу возможность прозрачно видеть нужные данные по процессам и принимать решения. Такой тип лидера обычно вырастает из дата аналитика.
- Governance Circus. Ключевые скиллы и фокус внимания - на качестве данных, системном развитии архитектуры данных, процессов и инструментов управления ими и обеспечении их безопасности. Этот тип дата лидера вырастает из дата архитекторов, системных аналитиков, реже - из дата инженеров.
- Operational Optimizers. Основной бекграунд - в развитии инфраструктуры и технических процессов работы с данными. Это гуру в развитии платформенных сервисов и автоматизации всех этапов работы с данными: от сбора и интеграций, до деплоя отчетности и ML-моделей. Такой тип обычно вырастает из дата инженеров.
Верхнеуровнево, два правых квадранта - больше про монетизацию данных, а два левых - про их подготовку для того, чтобы их можно было использовать. В разные моменты времени, для разных отраслей и этапов развития компании - ей могут требоваться различные типы CDO.
По моему опыту, у всех CDO сильной группой навыков будет один, максимум два квадранта. Остальное может быть также закрыто, но уже как вторичная группа - с разной степенью погруженности и возможности управлять процессом.
Об этой картинке рекомендую задумываться, и когда принимаете решение о найме и думаете о профиле нужного вам специалиста, и если вы CDO/дата-лид, и собираете свою команду.
Ваш @Reliable ML
#business #cdo
К обзору книги Carruthers, Jackson - The Chief Data Officer's Playbook
Хочется дополнить наш недавний обзор книги про CDO моей любимой картой архетипов дата лидеров.
Оригинальная статья была опубликована около 5 лет назад компанией Informatica, хотя недавно ее почему-то удалили. Однако у меня ходы остались записаны! Хочу поделиться с вами)
По концепту все Chief Data Officers делятся на 4 категории - по их самым сильным сторонам.
- Digital Innovators. Ключевые навыки дата лидера - в знании data science/ML/AI технологий. Такой CDO сможет затащить поиск перспективных идей, быстрые эксперименты и исследования, внедрение новых решений. Как правило, эти лидеры вырастают из дата саентистов.
- Analytics Champions. Фокус - на построении процессов для надежной отчетности: развитие BI-инструментов и дашбордов, настройка качественных end2end пайплайнов, включая оптимизацию работы отчетов в рамках BI и витрин данных под ними. Чтобы все работало четко, быстро, не ломалось - давало бизнесу возможность прозрачно видеть нужные данные по процессам и принимать решения. Такой тип лидера обычно вырастает из дата аналитика.
- Governance Circus. Ключевые скиллы и фокус внимания - на качестве данных, системном развитии архитектуры данных, процессов и инструментов управления ими и обеспечении их безопасности. Этот тип дата лидера вырастает из дата архитекторов, системных аналитиков, реже - из дата инженеров.
- Operational Optimizers. Основной бекграунд - в развитии инфраструктуры и технических процессов работы с данными. Это гуру в развитии платформенных сервисов и автоматизации всех этапов работы с данными: от сбора и интеграций, до деплоя отчетности и ML-моделей. Такой тип обычно вырастает из дата инженеров.
Верхнеуровнево, два правых квадранта - больше про монетизацию данных, а два левых - про их подготовку для того, чтобы их можно было использовать. В разные моменты времени, для разных отраслей и этапов развития компании - ей могут требоваться различные типы CDO.
По моему опыту, у всех CDO сильной группой навыков будет один, максимум два квадранта. Остальное может быть также закрыто, но уже как вторичная группа - с разной степенью погруженности и возможности управлять процессом.
Об этой картинке рекомендую задумываться, и когда принимаете решение о найме и думаете о профиле нужного вам специалиста, и если вы CDO/дата-лид, и собираете свою команду.
Ваш @Reliable ML
#business #cdo
Forwarded from DeepSchool
CRAFT
Препарируем динозавра, чтобы лучше понять устройство актуальных моделей.
CRAFT — U-net подобная модель 2019 года, с VGG-16 внутри, которая призвана была решить проблему распознавания «in the wild» текста. В реальной жизни текст может состоять из символов разного шрифта, цвета, ориентации, с разными фонами и искажениями. Поэтому логично пробовать детектировать не целое слово за раз, а отдельные символы и промежутки между ними. Именно эту задачу и решает CRAFT.
Но как получить разметку для таких данных в большом количестве? Какие недостатки у такой модели и почему она не работает в одиночку? На эти и другие вопросы мы ответили в новой статье: https://deepschool-pro.notion.site/CRAFT-afe83ca8925041cea46c287fd3611e7d?pvs=4
Препарируем динозавра, чтобы лучше понять устройство актуальных моделей.
CRAFT — U-net подобная модель 2019 года, с VGG-16 внутри, которая призвана была решить проблему распознавания «in the wild» текста. В реальной жизни текст может состоять из символов разного шрифта, цвета, ориентации, с разными фонами и искажениями. Поэтому логично пробовать детектировать не целое слово за раз, а отдельные символы и промежутки между ними. Именно эту задачу и решает CRAFT.
Но как получить разметку для таких данных в большом количестве? Какие недостатки у такой модели и почему она не работает в одиночку? На эти и другие вопросы мы ответили в новой статье: https://deepschool-pro.notion.site/CRAFT-afe83ca8925041cea46c287fd3611e7d?pvs=4
deepschool-pro on Notion
CRAFT | Notion
Автор: Герман Петров
#courses #math #statistics #ml #dl
Тут оказывается у CSC есть сайт, в котором собраны все курсы
Вот ссылка например за 2019 учебный год: https://compscicenter.ru/courses/?academic_year=2019&branch=spb&terms=autumn,spring
Тут оказывается у CSC есть сайт, в котором собраны все курсы
Вот ссылка например за 2019 учебный год: https://compscicenter.ru/courses/?academic_year=2019&branch=spb&terms=autumn,spring
compscicenter.ru
Курсы Computer Science Center
Computer Science Center — объединённая инициатива Школы анализа данных, Computer Science клуба и JetBrains.
Forwarded from Norgey Bilinskiy
YouTube
How To Become Quant - Ultimate Roadmap
Are you ready to start your journey as a Quantitative Researcher? In this video, we look at the Ultimate Roadmap to Becoming a Quant. Here is link to downloadable very high quality image that contains all contents that where shown in this video - https:…