👨🏼‍💻Перекладываю 📊 в 🌲🇫🇮
694 subscribers
226 photos
7 videos
52 links
DA + DE = AE? @ little🇫🇮startup,
Ex Product Data Analyst @ SkyEng,
Ex Data Engineer @ Starship (delivery robots),
Ex Data Analyst @ EPAM,
Я НЕ РАЗМЕЩАЮ РЕКЛАМУ,
Личка открыта https://t.me/jarikor ,
(надо нормальное название каналу придумать)
Download Telegram
Ушла эпоха…😔

[F]!

- upd
Часть комьюнити перекатилась сюда https://join.slack.com/t/singularis-ai/shared_invite/zt-1rna57g5u-TeMOnrwatDl06L8z3D5T6g
(если ссылка сдохнет, пишите, попробую апдейтнуть)
😢51👍1🤣1
Содержание курса про ChatGPT на DataCamp и несколько толковых (пожалуй это все толковые, что были) слайдов из него.
2
На DataCamp появился курс про ChatGPT. Я слегка удивился, т.к. чему тут можно научить? о.0
Тому как правильно просить ИИ написать анекдот про нелюбимого политика?

Решил глянуть. Ну, собственно, если вы думаете, что там вода — то вы ошибаетесь.
Там больше чем вода. Там прямо таки сверх-форма воды. Абсолют. Воды больше чем в воде.

Но. Курс всё равно будет полезен. Нет, правда. Я не иронизирую.
Он точно пригодится тем, кто вообще все эти годы не сталкивался с ИИ и генеративными моделями больше чем в формате «прочитать пост в инстаграме» или «установить приложение которое делает красивенькую аватарку». Очень полезен обывателю, который решит применять чатгпт для своих идей или в работе.

Этот короткий курс рассказывает, почему ChatGPT это не ИИ как таковой (что полезно для кругозора и понимания темы). А главное, ПОЧЕМУ НЕ НАДО ЕГО ИСПОЛЬЗОВАТЬ, СТРАШНАААА ВЫРУБАЙ.

На самом деле это главный момент курса для обывателя. Открытость 3.5 версии публично привела к тому, что доступ к нему (к ней?) получили тупорылые обезьяны, которые умудрились скармливать в чат приватную и чувствительную информацию.

Недавний скандал с утечкой запросов это подтверждает.

Поэтому очень хорошо, что в этом курсе были подняты и рассмотрены вопросы безопасности использования таких моделей, а также, что не маловажно, вопросы авторского права.

Потому что, во-первых, кому принадлежит результат работы генеративной модели? Тому, кто написал запрос? Тому, кто владеет генеративной моделью? Самой модели?

А во-вторых — модель изначально учится на чужом контенте, а ещё учится на наших запросах. И собирает из этого всего ответы. Поэтому само содержимое ответа может быть «своровано» у кого-то другого. И если мы это используем, то рискуем попасть на иск. А оно нам надо?

В общем, специально для вас — скриншот алгоритма «Можно ли в [данном случае] использовать ЧатГПТ», чтобы не ошибиться (выше в канале, последний в списке картинок).

А также несколько страниц презентации в которых они описывали возможные кейсы использования. Ясен-красен вы уже знаете\понимаете это всё. Но вдруг пригодится.

(иллюстрации к посту → выше в канале)
👍83👏1
Хоспади, какой же ДатаЛенс кривой. Какой же ДатаЛенс сырой.
Пошто мне эта миграция с бесподобного Tableau и богоугодного Redash на эту кривую поделку импортозаместителей…

Хз, как показать вам подробности глюков, без нарушения NDA.
Но если кратко — расчёт running sum меняется и скачет каждый раз при обновлении дашборда и чарта.

Попробую на примере этих скриншотов. Это один и тот же чарт. Он считает определённый ID в трёх форматах — уникальный (самые низкие значения), не уникальные + определённый параметр, и НАКОПЛЕННУЮ СУММУ уникальных айдишек.

Соответственно, накопленная сумма это всегда график растущий вверх.
Какие графики получаются в итоге — вы видите сами.

И самый главный прикол — я не менял НИЧЕГО в настройках графика. Я просто обновлял страницу. График менял свой внешний вид примерно каждое 2-3 обновление страницы.

А что творится в сложных вычисляемых значениях — так там просто мрак, как всё глючит и слетает.
🤬

Ох и страдания будут ближайшие месяцы…
Но я его таки заборю.

(Небольшой ответ «нахрена мы вообще мигрируем» есть в комментариях)
😁5👍1🤔1😱1
Начнём с инфы для тех, кто вообще не знает, что такое Kaggle.

Как говорит чатжпт:
Kaggle — онлайн-платформа для соревнований по машинному обучению, где участники могут соревноваться, решая реальные проблемы бизнеса и науки, загружая свои решения и сравнивая их с решениями других участников со всего мира.

Как говорит википедия:
Kaggle — система организации конкурсов по исследованию данных, а также (`простихоспаде`) социальная сеть специалистов по обработке данных и машинному обучению. …публичная веб-платформа, на которой пользователи и организации могут публиковать наборы данных, исследовать и создавать модели, взаимодействовать с другими специалистами по данным и инженерами по машинному обучению, организовывать конкурсы по исследованию данных и участвовать в них. В системе размещены наборы открытых данных, предоставляются облачные инструменты для обработки данных и машинного обучения. Также реализованы обучающие ресурсы, имеется раздел для размещения вакансий работодателями, где тоже возможна организация конкурсов для отбора наилучших кандидатов.

Как говорю я:
Kaggle — эт короч сайт, где есть клёвые курсы по работе с данными. Куча датасетов для практики анализа данных и датасаенса на них. А ещё соревнования за реальные деньги от реальных корпораций. Т.е. там и научиться можно, и попрактиковаться, а потом ещё и посоревноваться. Прям ДОТА для DS, пришёл нубом, качаешься в питоне, пандасе, и прочих навыках, а потом раком на мид, грабить корованы, сореноваться в крутости анализа данных.

Добавляйтесь https://www.kaggle.com/iaroslavkorenskoi (ссылка на меня, а не реферальная на Кагл)

У меня там акк пока ваще пустой, но в планах исправить.
👏41
А хрен мне, похоже, а не годный датасет для Каггла. Облом.

«7.1.2. Кроме случаев, установленных настоящими Правилами, а также действующим законодательством Российской Федерации, никакой Контент не может быть скопирован (воспроизведен), переработан, распространен, отображен во фрейме, опубликован, скачан, передан, продан или иным способом использован целиком или по частям без предварительного разрешения правообладателя, кроме случаев, когда правообладатель явным образом выразил свое согласие на свободное использование Контента любым лицом. Воспроизведение, копирование, сбор, систематизация, хранение, передача Контента с целью создания базы данных в коммерческих и/или некоммерческих целях и/или использование Контента полностью или в любой его части, независимо от способа использования, без согласия Администрации не допускается. »

Буду вникать дальше, но похоже план обломался…
Пока я веду переговоры с ВК об официальном разрешении на сбор и публикацию датасета, поделюсь ссылкой на товарища:

Мой коллега @onlyanalyst с которым мы вместе работали в одном юните в ЕПАМ записал интервью с Head of HR компании DataGo (маркетинговая аналитика). Они обсуждали довольно широкий спектр тем: от искренности на интервью и востребованных инструментов, до стратегий поиска работы без опыта и важности деловых связей.

Видео весьма длинное, я ещё даже не всё посмотрел, только первые ~20 минут, но есть таймкоды.

У коллеги есть свой небольшой канал, где он разбирает код из рабочих задач и с собеседований.
https://t.me/onlyanalystgroup/27
Заходите)))

Я не рекламирую каналы за деньги, не участвую во взаимопиаре.
Все публикации и в прошлом и в будущем — исключительно по субъективному решению кого-то упомянуть, дать ссылку, чем-то поделиться, поддержать начинания (или продолжания) других, и т.п. А уж бывших коллег репостить вообще святое дело.
51🔥1
Короче, чот я в замешательстве.

Смотрю на кучу датасетов на Каггле, и не понимаю, как люди обошли всякие policy на сайтах, особенно на США\ЕС сайтах. Где за нарушение правил пользования сайтов так-то и вздрючить могут не слабо.

Потому что все сайты, что приходят в голову, либо нельзя парсить в принципе, либо нельзя парсить для использования во внешних целях или публикации данных (можно только для построения приложений для работы с этим сайтом\внутри экосистемы этих сайтов).

И либо всем халатно пофиг, и народ не задумывается о юридической стороне в принципе.
Либо сознательно рискуют, но тогда я не понимаю «зачем так рисковать».
Хм.

Где ж и как сформировать нормальный полезный датасет для других, чтобы набить себе карму в Каггле.
Интересный будет квест на медальки.
🤔61