👨🏼‍💻Перекладываю 📊 в 🌲🇫🇮

Содержание курса про ChatGPT на DataCamp и несколько толковых (пожалуй это все толковые, что были) слайдов из него.

⚡2

834 views16:24

На DataCamp появился курс про ChatGPT. Я слегка удивился, т.к. чему тут можно научить? о.0
Тому как правильно просить ИИ написать анекдот про нелюбимого политика?

Решил глянуть. Ну, собственно, если вы думаете, что там вода — то вы ошибаетесь.
Там больше чем вода. Там прямо таки сверх-форма воды. Абсолют. Воды больше чем в воде.

Но. Курс всё равно будет полезен. Нет, правда. Я не иронизирую.
Он точно пригодится тем, кто вообще все эти годы не сталкивался с ИИ и генеративными моделями больше чем в формате «прочитать пост в инстаграме» или «установить приложение которое делает красивенькую аватарку». Очень полезен обывателю, который решит применять чатгпт для своих идей или в работе.

Этот короткий курс рассказывает, почему ChatGPT это не ИИ как таковой (что полезно для кругозора и понимания темы). А главное, ПОЧЕМУ НЕ НАДО ЕГО ИСПОЛЬЗОВАТЬ, СТРАШНАААА ВЫРУБАЙ.

На самом деле это главный момент курса для обывателя. Открытость 3.5 версии публично привела к тому, что доступ к нему (к ней?) получили тупорылые обезьяны, которые умудрились скармливать в чат приватную и чувствительную информацию.

Недавний скандал с утечкой запросов это подтверждает.

Поэтому очень хорошо, что в этом курсе были подняты и рассмотрены вопросы безопасности использования таких моделей, а также, что не маловажно, вопросы авторского права.

Потому что, во-первых, кому принадлежит результат работы генеративной модели? Тому, кто написал запрос? Тому, кто владеет генеративной моделью? Самой модели?

А во-вторых — модель изначально учится на чужом контенте, а ещё учится на наших запросах. И собирает из этого всего ответы. Поэтому само содержимое ответа может быть «своровано» у кого-то другого. И если мы это используем, то рискуем попасть на иск. А оно нам надо?

В общем, специально для вас — скриншот алгоритма «Можно ли в [данном случае] использовать ЧатГПТ», чтобы не ошибиться (выше в канале, последний в списке картинок).

А также несколько страниц презентации в которых они описывали возможные кейсы использования. Ясен-красен вы уже знаете\понимаете это всё. Но вдруг пригодится.

(иллюстрации к посту → выше в канале)

👍8⚡3👏1

1.1K viewsedited 16:24

👨🏼‍💻Перекладываю 📊 в 🌲🇫🇮

1.07K views21:13

👨🏼‍💻Перекладываю 📊 в 🌲🇫🇮

Хоспади, какой же ДатаЛенс кривой. Какой же ДатаЛенс сырой.
Пошто мне эта миграция с бесподобного Tableau и богоугодного Redash на эту кривую поделку импортозаместителей…

Хз, как показать вам подробности глюков, без нарушения NDA.
Но если кратко — расчёт running sum меняется и скачет каждый раз при обновлении дашборда и чарта.

Попробую на примере этих скриншотов. Это один и тот же чарт. Он считает определённый ID в трёх форматах — уникальный (самые низкие значения), не уникальные + определённый параметр, и НАКОПЛЕННУЮ СУММУ уникальных айдишек.

Соответственно, накопленная сумма это всегда график растущий вверх.
Какие графики получаются в итоге — вы видите сами.

И самый главный прикол — я не менял НИЧЕГО в настройках графика. Я просто обновлял страницу. График менял свой внешний вид примерно каждое 2-3 обновление страницы.

А что творится в сложных вычисляемых значениях — так там просто мрак, как всё глючит и слетает.
🤬

Ох и страдания будут ближайшие месяцы…
Но я его таки заборю.

(Небольшой ответ «нахрена мы вообще мигрируем» есть в комментариях)

😁5👍1🤔1😱1

1.36K viewsedited 21:14

👨🏼‍💻Перекладываю 📊 в 🌲🇫🇮

Так. Астрономически важный вопрос. У тебя есть аккаунт на Kaggle?

Anonymous Poll

53%

Да, аккаунт на Kaggle у меня есть

31%

Нет, аккаунта на Kaggle у меня нет

16%

Kaggle? Я не знаю, что это такое…

188 voters901 views12:02

👨🏼‍💻Перекладываю 📊 в 🌲🇫🇮

796 views19:20

👨🏼‍💻Перекладываю 📊 в 🌲🇫🇮

Начнём с инфы для тех, кто вообще не знает, что такое Kaggle.

Как говорит чатжпт:
Kaggle — онлайн-платформа для соревнований по машинному обучению, где участники могут соревноваться, решая реальные проблемы бизнеса и науки, загружая свои решения и сравнивая их с решениями других участников со всего мира.

Как говорит википедия:
Kaggle — система организации конкурсов по исследованию данных, а также (`простихоспаде`) социальная сеть специалистов по обработке данных и машинному обучению. …публичная веб-платформа, на которой пользователи и организации могут публиковать наборы данных, исследовать и создавать модели, взаимодействовать с другими специалистами по данным и инженерами по машинному обучению, организовывать конкурсы по исследованию данных и участвовать в них. В системе размещены наборы открытых данных, предоставляются облачные инструменты для обработки данных и машинного обучения. Также реализованы обучающие ресурсы, имеется раздел для размещения вакансий работодателями, где тоже возможна организация конкурсов для отбора наилучших кандидатов.

Как говорю я:
Kaggle — эт короч сайт, где есть клёвые курсы по работе с данными. Куча датасетов для практики анализа данных и датасаенса на них. А ещё соревнования за реальные деньги от реальных корпораций. Т.е. там и научиться можно, и попрактиковаться, а потом ещё и посоревноваться. Прям ДОТА для DS, пришёл нубом, качаешься в питоне, пандасе, и прочих навыках, а потом ~~раком на мид~~, ~~грабить корованы~~, сореноваться в крутости анализа данных.

Добавляйтесь https://www.kaggle.com/iaroslavkorenskoi (ссылка на меня, а не реферальная на Кагл)

У меня там акк пока ваще пустой, но в планах исправить.

Kaggle

Iaroslav "Jari" Korenskoi

Kaggle profile for Iaroslav "Jari" Korenskoi

👏4❤1

1.18K viewsedited 19:20

👨🏼‍💻Перекладываю 📊 в 🌲🇫🇮

А хрен мне, похоже, а не годный датасет для Каггла. Облом.

«7.1.2. Кроме случаев, установленных настоящими Правилами, а также действующим законодательством Российской Федерации, никакой Контент не может быть скопирован (воспроизведен), переработан, распространен, отображен во фрейме, опубликован, скачан, передан, продан или иным способом использован целиком или по частям без предварительного разрешения правообладателя, кроме случаев, когда правообладатель явным образом выразил свое согласие на свободное использование Контента любым лицом. Воспроизведение, копирование, сбор, систематизация, хранение, передача Контента с целью создания базы данных в коммерческих и/или некоммерческих целях и/или использование Контента полностью или в любой его части, независимо от способа использования, без согласия Администрации не допускается. »

Буду вникать дальше, но похоже план обломался…

1.16K views20:23

👨🏼‍💻Перекладываю 📊 в 🌲🇫🇮

Пока я веду переговоры с ВК об официальном разрешении на сбор и публикацию датасета, поделюсь ссылкой на товарища:

Мой коллега @onlyanalyst с которым мы вместе работали в одном юните в ЕПАМ записал интервью с Head of HR компании DataGo (маркетинговая аналитика). Они обсуждали довольно широкий спектр тем: от искренности на интервью и востребованных инструментов, до стратегий поиска работы без опыта и важности деловых связей.

Видео весьма длинное, я ещё даже не всё посмотрел, только первые ~20 минут, но есть таймкоды.

У коллеги есть свой небольшой канал, где он разбирает код из рабочих задач и с собеседований.
https://t.me/onlyanalystgroup/27
Заходите)))

Я не рекламирую каналы за деньги, не участвую во взаимопиаре.
Все публикации и в прошлом и в будущем — исключительно по субъективному решению кого-то упомянуть, дать ссылку, чем-то поделиться, поддержать начинания (или продолжания) других, и т.п. А уж бывших коллег репостить вообще святое дело.

Only Analyst

👋🏼 Всем привет!

Наконец-то интервью с @dianakoloda 👩‍💻, которая отвечает на Ваши вопросы, а я 👨‍💻 делюсь опытом, вышло у меня на канале OnlyAnalyst 🎥!

Видео получилось очень содержательным: обсудили все стадии трудоустройства и специфику отрасли. Уверен…

❤5⚡1🔥1

1.33K views08:58

👨🏼‍💻Перекладываю 📊 в 🌲🇫🇮

Короче, чот я в замешательстве.

Смотрю на кучу датасетов на Каггле, и не понимаю, как люди обошли всякие policy на сайтах, особенно на США\ЕС сайтах. Где за нарушение правил пользования сайтов так-то и вздрючить могут не слабо.

Потому что все сайты, что приходят в голову, либо нельзя парсить в принципе, либо нельзя парсить для использования во внешних целях или публикации данных (можно только для построения приложений для работы с этим сайтом\внутри экосистемы этих сайтов).

И либо всем халатно пофиг, и народ не задумывается о юридической стороне в принципе.
Либо сознательно рискуют, но тогда я не понимаю «зачем так рисковать».
Хм.

Где ж и как сформировать нормальный полезный датасет для других, чтобы набить себе карму в Каггле.
Интересный будет квест на медальки.

🤔6⚡1

1.39K views14:11

👨🏼‍💻Перекладываю 📊 в 🌲🇫🇮

1.17K views19:21

👨🏼‍💻Перекладываю 📊 в 🌲🇫🇮

Короче. Датасету быть. Чтоб не получить комплаенсов, сделаю так:

1) Никаких ФИО;
2) ID постов, ID юзеров, ID комментов — захеширую, ибо GDPR, прайваси, все дела;
2) Вложения будут описаны только типами (аудио, видео, картинка, лонгрид) и количеством на пост\коммент;
3) Текст поста вообще будет исключён из датасета, чтобы не получить страйк за использование контента опубликованного на платформе;
4) НО будет указана длина поста, чтобы можно было делать какие-то гипотезы на основе длины опубликованного художественного текста (короткий\длинный\очень длинный, например);
Остальное остаётся в датасете, как планировал.

Дальше — датасет будет включать в себя несколько таблиц.
1) Данные по открытому паблику на >100К юзеров (описанное выше)
2) Данные по закрытому паблику бесплатного\дешёвого флешмоба (данные описаны выше + стата из Обсуждений, тоже максимально обезличенная)
3) Данные по закрытому паблику платного контента (основной продукт)
4) Данные по юзерам — описанное выше + в каких пабликах состоят (для расчёта пересечений, типа Х% юзеров состоят в таком-то паблике, У% в таком-то и т.п.)
5) Ну там ещё по мелочи статки (список юзеров, перешедших из бесплатного флешмоба в платный продукт, например. Или статистика постов юзеров написанных в рамках принадлежности к этому паблику, но не на его стене, а на своих стенах).

Таблиц будет много (Ну как много. Стопка), т.к. я их хорошо так нормализую. Не хочу городить одну здоровенную 1НФ. Буду дробить.

В результате, можно будет проанализировать дофига всего, зависимости кучи параметров между собой. От соотношения длины текста + времени публикации к метрикам этого поста, до соотношения кластеров ЦА к их поведению и объёму оставленных метрик.

Кто стал клиентом. Кто не стал. Что могло повлиять на то, что юзер стал клиентом\не стал. Какие кластеры становятся клиентом, какие нет. Какие посты собирают много реакций. Какие нет. Какие дни\время публикаций наиболее удачные. Какие виды вложений собирают больше реакций. Взаимодействие юзеров между собой И т.п.

Что не получится сделать из запланированного — не получится взять этот мой датасет, и на нём обучать нейронку писать короткие художественные рассказы. Потому что прайваси и «Правила пользования ВК». Но, конечно, я могу дать готовый код сбора этих данных, и сказать где их взять😏, чтобы кому нужно, запустили скрипт, и за пару минут сами их собрали (причём сразу в том виде, который можно приджойнить к предоставленным мною таблицам), и обучали свои ML-ки.

Поэтому ГОТОВЬТЕ ВАШИ АП-ВОУТЫ, у кого ещё нет аккаунта на Kaggle — заводите аккаунты. Мне очень понадобится ваша помощь голосом там.

Кто точно поддержит там голосом (стрелкой «вверх») — поставьте 💯 к посту.
Кто поддержит, только если ему понравится датасет — поставьте 🤔к посту.
Кто не поддержит ни при каких обстоятельствах — поставьте 🤬к посту.

Идеи, советы, просто поболтать — как обычно добро пожаловать в комментарии.

[апдейт] В комментариях посотовали сделать датасет пригодным для SQL запросов сразу. Хорошая мысль, я считаю, подготовлю для датасета модель и схему данных, и сразу DDL запросы, чтоб можно было запустить их, импортировать всё в БД, и сходу начать SQL запросы писать.

💯14🥰1🤬1

1.67K viewsedited 19:21

👨🏼‍💻Перекладываю 📊 в 🌲🇫🇮

Обожаю свои комментарии трёхмесячной давности.

Когда-нибудь я буду делать код для себя любимого сразу нормальным. А не «потом отрефакторю». Когда-нибудь. Но не сегодня.

Да, я не пропал, не умер, жив-здоров. У нас закончился хардкорный период миграции данных, и есть время немного выдохнуть и заняться вечерами, наконец, своими задумками.

Вот, сел приводить в порядок датасет и делать DDL-ку для вас.

👍8🔥2

1.27K views19:56

👨🏼‍💻Перекладываю 📊 в 🌲🇫🇮

Говорят, сегодня всемирный день СисАдмина.
Что ж, всех причастных поздравляю с праздником великого бо о бз с бс з бк к!

Ох, сколько километров витухи я протянул в свои годы. Как давно это было…
13 лет назад. Как в прошлой жизни.
~200 компов обслужить (собрать, накатить винду и ПО, подключить к локалке, настроить права на группы, а потом бдить, чтоб никто порнуху не качал в рабочее время. Ржачно было смотреть на лица бухов, когда подключался к ним через удалённый доступ и крутил их мышку, чтобы «починить» то, что они «я не трогала, оно само сломалось»)
Серверную собрать, обслужить.

Зато как удобно было в серверной коньяк остужать на вечер пятницы. Мммм.
Во время было.

🔥8❤‍🔥5👍4❤2🤣1

1.15K viewsedited 09:00

👨🏼‍💻Перекладываю 📊 в 🌲🇫🇮

Что я могу сказать ребят — по возможности не выгорайте.

Понимаю, что это звучит как «бедные не будьте бедными, будьте богатыми», но всё же.

И продуктивность пиздец, и мозги не сображают, и ничего не хочется, и «пошло оно всё в жопу» и т.п.

Чот ваще ничего не радует.
Хочется уехать в лес, в кибитку, и неделю там просто лежать.

😢16💯9

1.12K viewsedited 16:56

👨🏼‍💻Перекладываю 📊 в 🌲🇫🇮

Наши ребята тут выпустили статью на Хабре, про причину моего выгорания, ядрёную забористую миграцию многолетнего легаси на новое хранилище данных — https://habr.com/ru/companies/skyeng/articles/756674/

Читаешь статью и такой «как красиво-то оно выглядит, если это в статью оформить».
Изнутри, конечно, хочется врубить СПЛИН, достать коньяк и…

Ещё этот даталенс, будь он не ладен.

Лан, это всё лирика, короч, гляньте статью, там как раз описан довольно жаркий период RnD этапа.
Ух, это было забористо.

Хабр

Метаданные как обезбол при миграции

Привет! Меня зовут Наташа Красильникова, я старший аналитик команды Operations Analytics в Skyeng. Мы работаем с сотней сервисов компании на уровне данных, и когда пришло время мигрировать наше...

❤3

1.3K views08:54

About

Blog

Apps

Platform