Начнём с инфы для тех, кто вообще не знает, что такое Kaggle.
Kaggle — онлайн-платформа для соревнований по машинному обучению, где участники могут соревноваться, решая реальные проблемы бизнеса и науки, загружая свои решения и сравнивая их с решениями других участников со всего мира.
Kaggle — система организации конкурсов по исследованию данных, а также (`простихоспаде`) социальная сеть специалистов по обработке данных и машинному обучению. …публичная веб-платформа, на которой пользователи и организации могут публиковать наборы данных, исследовать и создавать модели, взаимодействовать с другими специалистами по данным и инженерами по машинному обучению, организовывать конкурсы по исследованию данных и участвовать в них. В системе размещены наборы открытых данных, предоставляются облачные инструменты для обработки данных и машинного обучения. Также реализованы обучающие ресурсы, имеется раздел для размещения вакансий работодателями, где тоже возможна организация конкурсов для отбора наилучших кандидатов.
Kaggle — эт короч сайт, где есть клёвые курсы по работе с данными. Куча датасетов для практики анализа данных и датасаенса на них. А ещё соревнования за реальные деньги от реальных корпораций. Т.е. там и научиться можно, и попрактиковаться, а потом ещё и посоревноваться. Прям ДОТА для DS, пришёл нубом, качаешься в питоне, пандасе, и прочих навыках, а потомраком на мид, грабить корованы, сореноваться в крутости анализа данных.
Добавляйтесь https://www.kaggle.com/iaroslavkorenskoi (ссылка на меня, а не реферальная на Кагл)
У меня там акк пока ваще пустой, но в планах исправить.
Как говорит чатжпт:Kaggle — онлайн-платформа для соревнований по машинному обучению, где участники могут соревноваться, решая реальные проблемы бизнеса и науки, загружая свои решения и сравнивая их с решениями других участников со всего мира.
Как говорит википедия:Kaggle — система организации конкурсов по исследованию данных, а также (`простихоспаде`) социальная сеть специалистов по обработке данных и машинному обучению. …публичная веб-платформа, на которой пользователи и организации могут публиковать наборы данных, исследовать и создавать модели, взаимодействовать с другими специалистами по данным и инженерами по машинному обучению, организовывать конкурсы по исследованию данных и участвовать в них. В системе размещены наборы открытых данных, предоставляются облачные инструменты для обработки данных и машинного обучения. Также реализованы обучающие ресурсы, имеется раздел для размещения вакансий работодателями, где тоже возможна организация конкурсов для отбора наилучших кандидатов.
Как говорю я:Kaggle — эт короч сайт, где есть клёвые курсы по работе с данными. Куча датасетов для практики анализа данных и датасаенса на них. А ещё соревнования за реальные деньги от реальных корпораций. Т.е. там и научиться можно, и попрактиковаться, а потом ещё и посоревноваться. Прям ДОТА для DS, пришёл нубом, качаешься в питоне, пандасе, и прочих навыках, а потом
Добавляйтесь https://www.kaggle.com/iaroslavkorenskoi (ссылка на меня, а не реферальная на Кагл)
У меня там акк пока ваще пустой, но в планах исправить.
Kaggle
Iaroslav "Jari" Korenskoi
Kaggle profile for Iaroslav "Jari" Korenskoi
👏4❤1
А хрен мне, похоже, а не годный датасет для Каггла. Облом.
«7.1.2. Кроме случаев, установленных настоящими Правилами, а также действующим законодательством Российской Федерации, никакой Контент не может быть скопирован (воспроизведен), переработан, распространен, отображен во фрейме, опубликован, скачан, передан, продан или иным способом использован целиком или по частям без предварительного разрешения правообладателя, кроме случаев, когда правообладатель явным образом выразил свое согласие на свободное использование Контента любым лицом. Воспроизведение, копирование, сбор, систематизация, хранение, передача Контента с целью создания базы данных в коммерческих и/или некоммерческих целях и/или использование Контента полностью или в любой его части, независимо от способа использования, без согласия Администрации не допускается. »
Буду вникать дальше, но похоже план обломался…
«7.1.2. Кроме случаев, установленных настоящими Правилами, а также действующим законодательством Российской Федерации, никакой Контент не может быть скопирован (воспроизведен), переработан, распространен, отображен во фрейме, опубликован, скачан, передан, продан или иным способом использован целиком или по частям без предварительного разрешения правообладателя, кроме случаев, когда правообладатель явным образом выразил свое согласие на свободное использование Контента любым лицом. Воспроизведение, копирование, сбор, систематизация, хранение, передача Контента с целью создания базы данных в коммерческих и/или некоммерческих целях и/или использование Контента полностью или в любой его части, независимо от способа использования, без согласия Администрации не допускается. »
Буду вникать дальше, но похоже план обломался…
Пока я веду переговоры с ВК об официальном разрешении на сбор и публикацию датасета, поделюсь ссылкой на товарища:
Мой коллега @onlyanalyst с которым мы вместе работали в одном юните в ЕПАМ записал интервью с Head of HR компании DataGo (маркетинговая аналитика). Они обсуждали довольно широкий спектр тем: от искренности на интервью и востребованных инструментов, до стратегий поиска работы без опыта и важности деловых связей.
Видео весьма длинное, я ещё даже не всё посмотрел, только первые ~20 минут, но есть таймкоды.
У коллеги есть свой небольшой канал, где он разбирает код из рабочих задач и с собеседований.
https://t.me/onlyanalystgroup/27
Заходите)))
Я не рекламирую каналы за деньги, не участвую во взаимопиаре.
Все публикации и в прошлом и в будущем — исключительно по субъективному решению кого-то упомянуть, дать ссылку, чем-то поделиться, поддержать начинания (или продолжания) других, и т.п. А уж бывших коллег репостить вообще святое дело.
Мой коллега @onlyanalyst с которым мы вместе работали в одном юните в ЕПАМ записал интервью с Head of HR компании DataGo (маркетинговая аналитика). Они обсуждали довольно широкий спектр тем: от искренности на интервью и востребованных инструментов, до стратегий поиска работы без опыта и важности деловых связей.
Видео весьма длинное, я ещё даже не всё посмотрел, только первые ~20 минут, но есть таймкоды.
У коллеги есть свой небольшой канал, где он разбирает код из рабочих задач и с собеседований.
https://t.me/onlyanalystgroup/27
Заходите)))
Я не рекламирую каналы за деньги, не участвую во взаимопиаре.
Все публикации и в прошлом и в будущем — исключительно по субъективному решению кого-то упомянуть, дать ссылку, чем-то поделиться, поддержать начинания (или продолжания) других, и т.п. А уж бывших коллег репостить вообще святое дело.
Telegram
Only Analyst
👋🏼 Всем привет!
Наконец-то интервью с @dianakoloda 👩💻, которая отвечает на Ваши вопросы, а я 👨💻 делюсь опытом, вышло у меня на канале OnlyAnalyst 🎥!
Видео получилось очень содержательным: обсудили все стадии трудоустройства и специфику отрасли. Уверен…
Наконец-то интервью с @dianakoloda 👩💻, которая отвечает на Ваши вопросы, а я 👨💻 делюсь опытом, вышло у меня на канале OnlyAnalyst 🎥!
Видео получилось очень содержательным: обсудили все стадии трудоустройства и специфику отрасли. Уверен…
❤5⚡1🔥1
Короче, чот я в замешательстве.
Смотрю на кучу датасетов на Каггле, и не понимаю, как люди обошли всякие policy на сайтах, особенно на США\ЕС сайтах. Где за нарушение правил пользования сайтов так-то и вздрючить могут не слабо.
Потому что все сайты, что приходят в голову, либо нельзя парсить в принципе, либо нельзя парсить для использования во внешних целях или публикации данных (можно только для построения приложений для работы с этим сайтом\внутри экосистемы этих сайтов).
И либо всем халатно пофиг, и народ не задумывается о юридической стороне в принципе.
Либо сознательно рискуют, но тогда я не понимаю «зачем так рисковать».
Хм.
Где ж и как сформировать нормальный полезный датасет для других, чтобы набить себе карму в Каггле.
Интересный будет квест на медальки.
Смотрю на кучу датасетов на Каггле, и не понимаю, как люди обошли всякие policy на сайтах, особенно на США\ЕС сайтах. Где за нарушение правил пользования сайтов так-то и вздрючить могут не слабо.
Потому что все сайты, что приходят в голову, либо нельзя парсить в принципе, либо нельзя парсить для использования во внешних целях или публикации данных (можно только для построения приложений для работы с этим сайтом\внутри экосистемы этих сайтов).
И либо всем халатно пофиг, и народ не задумывается о юридической стороне в принципе.
Либо сознательно рискуют, но тогда я не понимаю «зачем так рисковать».
Хм.
Где ж и как сформировать нормальный полезный датасет для других, чтобы набить себе карму в Каггле.
Интересный будет квест на медальки.
🤔6⚡1
Короче. Датасету быть. Чтоб не получить комплаенсов, сделаю так:1) Никаких ФИО;
2) ID постов, ID юзеров, ID комментов — захеширую, ибо GDPR, прайваси, все дела;
2) Вложения будут описаны только типами (аудио, видео, картинка, лонгрид) и количеством на пост\коммент;
3) Текст поста вообще будет исключён из датасета, чтобы не получить страйк за использование контента опубликованного на платформе;
4) НО будет указана длина поста, чтобы можно было делать какие-то гипотезы на основе длины опубликованного художественного текста (короткий\длинный\очень длинный, например);
Остальное остаётся в датасете, как планировал.
Дальше — датасет будет включать в себя несколько таблиц.
1) Данные по открытому паблику на >100К юзеров (описанное выше)
2) Данные по закрытому паблику бесплатного\дешёвого флешмоба (данные описаны выше + стата из Обсуждений, тоже максимально обезличенная)
3) Данные по закрытому паблику платного контента (основной продукт)
4) Данные по юзерам — описанное выше + в каких пабликах состоят (для расчёта пересечений, типа Х% юзеров состоят в таком-то паблике, У% в таком-то и т.п.)
5) Ну там ещё по мелочи статки (список юзеров, перешедших из бесплатного флешмоба в платный продукт, например. Или статистика постов юзеров написанных в рамках принадлежности к этому паблику, но не на его стене, а на своих стенах).
Таблиц будет много (Ну как много. Стопка), т.к. я их хорошо так нормализую. Не хочу городить одну здоровенную 1НФ. Буду дробить.
В результате, можно будет проанализировать дофига всего, зависимости кучи параметров между собой. От соотношения длины текста + времени публикации к метрикам этого поста, до соотношения кластеров ЦА к их поведению и объёму оставленных метрик.
Кто стал клиентом. Кто не стал. Что могло повлиять на то, что юзер стал клиентом\не стал. Какие кластеры становятся клиентом, какие нет. Какие посты собирают много реакций. Какие нет. Какие дни\время публикаций наиболее удачные. Какие виды вложений собирают больше реакций. Взаимодействие юзеров между собой И т.п.
Что не получится сделать из запланированного — не получится взять этот мой датасет, и на нём обучать нейронку писать короткие художественные рассказы. Потому что прайваси и «Правила пользования ВК». Но, конечно, я могу дать готовый код сбора этих данных, и сказать где их взять😏, чтобы кому нужно, запустили скрипт, и за пару минут сами их собрали (причём сразу в том виде, который можно приджойнить к предоставленным мною таблицам), и обучали свои ML-ки.
Поэтому
ГОТОВЬТЕ ВАШИ АП-ВОУТЫ, у кого ещё нет аккаунта на Kaggle — заводите аккаунты. Мне очень понадобится ваша помощь голосом там. Кто точно поддержит там голосом (стрелкой «вверх») — поставьте 💯 к посту.
Кто поддержит, только если ему понравится датасет — поставьте 🤔к посту.
Кто не поддержит ни при каких обстоятельствах — поставьте 🤬к посту.
Идеи, советы, просто поболтать — как обычно добро пожаловать в комментарии.
[апдейт] В комментариях посотовали сделать датасет пригодным для SQL запросов сразу. Хорошая мысль, я считаю, подготовлю для датасета модель и схему данных, и сразу DDL запросы, чтоб можно было запустить их, импортировать всё в БД, и сходу начать SQL запросы писать.
💯14🥰1🤬1
Обожаю свои комментарии трёхмесячной давности.
Когда-нибудь я буду делать код для себя любимого сразу нормальным. А не «потом отрефакторю». Когда-нибудь. Но не сегодня.
Да, я не пропал, не умер, жив-здоров. У нас закончился хардкорный период миграции данных, и есть время немного выдохнуть и заняться вечерами, наконец, своими задумками.
Вот, сел приводить в порядок датасет и делать DDL-ку для вас.
Когда-нибудь я буду делать код для себя любимого сразу нормальным. А не «потом отрефакторю». Когда-нибудь. Но не сегодня.
Да, я не пропал, не умер, жив-здоров. У нас закончился хардкорный период миграции данных, и есть время немного выдохнуть и заняться вечерами, наконец, своими задумками.
Вот, сел приводить в порядок датасет и делать DDL-ку для вас.
👍8🔥2
Говорят, сегодня всемирный день СисАдмина.
Что ж, всех причастных поздравляю с праздником великого
Ох, сколько километров витухи я протянул в свои годы. Как давно это было…
13 лет назад. Как в прошлой жизни.
~200 компов обслужить (собрать, накатить винду и ПО, подключить к локалке, настроить права на группы, а потом бдить, чтоб никто порнуху не качал в рабочее время. Ржачно было смотреть на лица бухов, когда подключался к ним через удалённый доступ и крутил их мышку, чтобы «починить» то, что они «я не трогала, оно само сломалось»)
Серверную собрать, обслужить.
Зато как удобно было в серверной коньяк остужать на вечер пятницы. Мммм.
Во время было.
Что ж, всех причастных поздравляю с праздником великого
бо о бз с бс з бк к!Ох, сколько километров витухи я протянул в свои годы. Как давно это было…
13 лет назад. Как в прошлой жизни.
~200 компов обслужить (собрать, накатить винду и ПО, подключить к локалке, настроить права на группы, а потом бдить, чтоб никто порнуху не качал в рабочее время. Ржачно было смотреть на лица бухов, когда подключался к ним через удалённый доступ и крутил их мышку, чтобы «починить» то, что они «я не трогала, оно само сломалось»)
Серверную собрать, обслужить.
Зато как удобно было в серверной коньяк остужать на вечер пятницы. Мммм.
Во время было.
🔥8❤🔥5👍4❤2🤣1
Что я могу сказать ребят — по возможности не выгорайте.
Понимаю, что это звучит как «бедные не будьте бедными, будьте богатыми», но всё же.
И продуктивность пиздец, и мозги не сображают, и ничего не хочется, и «пошло оно всё в жопу» и т.п.
Чот ваще ничего не радует.
Хочется уехать в лес, в кибитку, и неделю там просто лежать.
Понимаю, что это звучит как «бедные не будьте бедными, будьте богатыми», но всё же.
И продуктивность пиздец, и мозги не сображают, и ничего не хочется, и «пошло оно всё в жопу» и т.п.
Чот ваще ничего не радует.
Хочется уехать в лес, в кибитку, и неделю там просто лежать.
😢16💯9
Наши ребята тут выпустили статью на Хабре, про причину моего выгорания, ядрёную забористую миграцию многолетнего легаси на новое хранилище данных — https://habr.com/ru/companies/skyeng/articles/756674/
Читаешь статью и такой «как красиво-то оно выглядит, если это в статью оформить».
Изнутри, конечно, хочется врубить СПЛИН, достать коньяк и…
Ещё этот даталенс, будь он не ладен.
Лан, это всё лирика, короч, гляньте статью, там как раз описан довольно жаркий период RnD этапа.
Ух, это было забористо.
Читаешь статью и такой «как красиво-то оно выглядит, если это в статью оформить».
Изнутри, конечно, хочется врубить СПЛИН, достать коньяк и…
Ещё этот даталенс, будь он не ладен.
Лан, это всё лирика, короч, гляньте статью, там как раз описан довольно жаркий период RnD этапа.
Ух, это было забористо.
Хабр
Метаданные как обезбол при миграции
Привет! Меня зовут Наташа Красильникова, я старший аналитик команды Operations Analytics в Skyeng. Мы работаем с сотней сервисов компании на уровне данных, и когда пришло время мигрировать наше...
❤3
Предположим ситуацию, в которой тебя критикуют. Но всё по делу. Не докапываются на ровном мете.
Если мне директивно скажут «Ты делаешь херню потому что Х,У,Z \ ты лажаешь по срокам \ Чот получается хрень какая-то переделай» то…
Если мне директивно скажут «Ты делаешь херню потому что Х,У,Z \ ты лажаешь по срокам \ Чот получается хрень какая-то переделай» то…
Anonymous Poll
67%
Такой фид-бек меня не огорчит, когда говорят честно и прямо — мне лучше понятно
33%
Такой фид-бек меня огорчит, и подкосит, лучше завуалированно софт-скильно и дипломатично критиковать
Пояснение к вопросу выше:
Обратную связь можно дать как «Обрати, пожалуйста, внимание, на прозрачность своей работы.»
А можно сказать «Я не вижу, что сделано по задаче. Выдели, пожалуйста, каждый день по 20 минут времени в конце дня, и приложи в таски все необходимые ссылки на ресстры, таблицы, файлы, код. Если ты делаешь исследование, оформляй его в свободной форме в качестве страницы на Конфлюенсе, и прикладывай ссылку на неё в таску.»
-
Можно сказать «Пожалуйста, обрати внимание, на … Я беспокоюсь за … ».
А можно сказать «Вот тут косяк, тут косяк, и вот тут тоже больше так не делай».
Я, наверное, хреново объясняю (не мудрено, я не гуру в софт-скиллах), но я имею ввиду те ситуации, когда инфу об ошибках обмазывают огромной кучей ванильной радуги, чтобы не дай боже, не допустить обиду.
Вам как понятнее — когда критику обмазывают ванильностью, и менеджер говорит «Мне нравится, как ты подходишь к [конкретной части работы или задаче]. Однако я заметил заметил, что некоторые задачи занимают больше времени, чем планировалось. Мне важно, чтобы наша команда работала эффективно и вовремя завершала проекты. Могу я как-то помочь или предоставить дополнительные ресурсы? Есть ли какие-то препятствия или трудности, из-за которых возникла эта ситуация?»
Или когда менеджер говорит вот так — «Привет. Ты пролетел по срокам на три дня. Стейкхолдеры не довольны и делают мне мозг. В чём проблема? Я могу помочь?»
Когда «Нам в проекте важна прозрачность, пожалуйста, учитывай это в своём ежедневном плане»
Или когда «Почему в таске пусто и доки не приложены? Выдели час приложи всё что сделано.»
- -
Обсуждение там же под опросом, чтоб не разлеталось в разные части ответов.
Обратную связь можно дать как «Обрати, пожалуйста, внимание, на прозрачность своей работы.»
А можно сказать «Я не вижу, что сделано по задаче. Выдели, пожалуйста, каждый день по 20 минут времени в конце дня, и приложи в таски все необходимые ссылки на ресстры, таблицы, файлы, код. Если ты делаешь исследование, оформляй его в свободной форме в качестве страницы на Конфлюенсе, и прикладывай ссылку на неё в таску.»
-
Можно сказать «Пожалуйста, обрати внимание, на … Я беспокоюсь за … ».
А можно сказать «Вот тут косяк, тут косяк, и вот тут тоже больше так не делай».
Я, наверное, хреново объясняю (не мудрено, я не гуру в софт-скиллах), но я имею ввиду те ситуации, когда инфу об ошибках обмазывают огромной кучей ванильной радуги, чтобы не дай боже, не допустить обиду.
Вам как понятнее — когда критику обмазывают ванильностью, и менеджер говорит «Мне нравится, как ты подходишь к [конкретной части работы или задаче]. Однако я заметил заметил, что некоторые задачи занимают больше времени, чем планировалось. Мне важно, чтобы наша команда работала эффективно и вовремя завершала проекты. Могу я как-то помочь или предоставить дополнительные ресурсы? Есть ли какие-то препятствия или трудности, из-за которых возникла эта ситуация?»
Или когда менеджер говорит вот так — «Привет. Ты пролетел по срокам на три дня. Стейкхолдеры не довольны и делают мне мозг. В чём проблема? Я могу помочь?»
Когда «Нам в проекте важна прозрачность, пожалуйста, учитывай это в своём ежедневном плане»
Или когда «Почему в таске пусто и доки не приложены? Выдели час приложи всё что сделано.»
- -
Обсуждение там же под опросом, чтоб не разлеталось в разные части ответов.
Forwarded from BI & DA events (Николай Крупий)
https://t.me/yandexscale/206
https://youtu.be/4EdNiEC3Bww
@iaroslavkor,
@paveldubinin выступает, который тогда тебе всё разрулил 😁
https://youtu.be/4EdNiEC3Bww
@iaroslavkor,
@paveldubinin выступает, который тогда тебе всё разрулил 😁
Telegram
Yandex Scale
⏰ 3,2,1... Начинаем обратный отсчет до начала четвертой части тематических треков.
Доклады 4 волны:
Data Platform: DataLens: доступная аналитика любого масштаба.
Спикер — Павел Дубинин, специалист, который отвечает за развитие DataLens как внутреннего…
Доклады 4 волны:
Data Platform: DataLens: доступная аналитика любого масштаба.
Спикер — Павел Дубинин, специалист, который отвечает за развитие DataLens как внутреннего…
🔥2
Интернет — забавная штука. Побубнишь в своём сарае, а тебя потом даже в соседних деревня́х тегают)))
Но вообще, как бы я не ворчал на DL — он в целом очень даже не плох, но сегодня произошло важное событие, которое добавило плюсов в его пользу.
Все уже в курсе, но я всё равно скажу — сегодня DL стал опен сорсным.
Хвала богам, это позволит активно вкладываться в его репозиторий, и докручивать какие-то важные фичи самим, не ожидая, пока яндекс.тима его дополнит, поправит и т.п.
Наверняка, он теперь обрастёт ещё и какими-нибудь подключаемыми модулями, плагинами и свистоперделками, которые можно будет подключать на своей машине внутри компании.
Я, как и положено ворчливому душниле, продолжу на него ворчать, но респектов теперь в его адрес явно будет больше с моей стороны.
И вообще, раз уж такое дело, пришло время собрать свой докер-контейнер, для быстрой развёртки. И с коннектом сразу к постгресу и\или кликхаусу в соседних контейнерах.
@paveldubinin , спасибо за фидбек и поддержку в комментариях. Это правда ценно, и очень неожиданно для ноунейма с непопулярным каналом «о своём» (который я не продвигаю и не собираюсь).
Но вообще, как бы я не ворчал на DL — он в целом очень даже не плох, но сегодня произошло важное событие, которое добавило плюсов в его пользу.
Все уже в курсе, но я всё равно скажу — сегодня DL стал опен сорсным.
Хвала богам, это позволит активно вкладываться в его репозиторий, и докручивать какие-то важные фичи самим, не ожидая, пока яндекс.тима его дополнит, поправит и т.п.
Наверняка, он теперь обрастёт ещё и какими-нибудь подключаемыми модулями, плагинами и свистоперделками, которые можно будет подключать на своей машине внутри компании.
Я, как и положено ворчливому душниле, продолжу на него ворчать, но респектов теперь в его адрес явно будет больше с моей стороны.
И вообще, раз уж такое дело, пришло время собрать свой докер-контейнер, для быстрой развёртки. И с коннектом сразу к постгресу и\или кликхаусу в соседних контейнерах.
@paveldubinin , спасибо за фидбек и поддержку в комментариях. Это правда ценно, и очень неожиданно для ноунейма с непопулярным каналом «о своём» (который я не продвигаю и не собираюсь).
😁3❤1👍1
А тебе доводилось решать такое, при трудоустройстве?
Я вот одно понять не могу — какие такие откровения они хотят узнать, давая тест на 80 вопросов на 30 минут (где кроме скринов выше, ещё и математические задачи, и на логику, и т.п.)
Что ж за данные должны открывать такие тесты, чтобы работодатели с ними заморочились так.
Я вот одно понять не могу — какие такие откровения они хотят узнать, давая тест на 80 вопросов на 30 минут (где кроме скринов выше, ещё и математические задачи, и на логику, и т.п.)
Что ж за данные должны открывать такие тесты, чтобы работодатели с ними заморочились так.
😁8🤯6