Datalytics
9.03K subscribers
205 photos
12 videos
5 files
636 links
Канал для аналитиков данных про Python, карьерное развитие в анализе данных, всякое разное

Автор – @ax_makarov

Отдельный канал про ChatGPT и его практическое применение —  @ai_forge

Чат канала — @pydata_chat

Вакансии — @data_hr
Download Telegram
Forwarded from 🗞 Виз Ньюз (Nikita Rokotyan)
This media is not supported in your browser
VIEW IN TELEGRAM
🥳 🎉 Представляю Unovis — новую библиотеку визуализации данных для React, Angular, Svelte, а также «голого» TypeScript и JavaScript.

У меня второй большой (после Космографа) open source анонс в этом году, который будет интересен в первую очередь веб-разработчикам. Сегодня мы выложили в открытый доступ дитавиз библиотеку, над которой я работаю уже на протяжении последних трех лет (разработка началась в стартапе Volterra, и продолжилать в купившей его компании F5).

Немного об отличительных особенностях Unovis:
🏗 Удобно интегрируется в React, Angular и Svelte, что дает возможность использовать одну библиотеку в совсем разных проектах;
🗺 Помимо классических графиков умеет рисовать детальные карты и графы;
💇 Легко кастомизируется под ваш стиль (спасибо CSS переменным);
📖 Детальная документация и галерея примеров с кодом для разных фреймворков.

Если заинтерисовались, добро пожаловать на сайт библиотеки unovis.dev, и не забудьте лайкнуть наш репозиторий на GitHub!
Запись Q&A-сессии с Yandex DataLens Festival. Роман Бунин и Роман Колеченков ответили на вопросы участников Yandex DataLens Festival о работе с чартами, дашбордами, расчётными полями. На фоне роста популярности альтернативных BI-систем будет полезно

А ещё оказывается существует коммюнити DataLens в телеграме и там довольно-таки живо и можно найти ответы на интересующие вопросы
Уже больше 70 лет биологи исследуют состояние Байкала: берут пробы воды в одной и той же точке и вручную ведут подсчет микроорганизмов. Этот метод не менялся с 1945 года. Теперь учёным помогают алгоритмы машинного обучения — они анализируют виды и формы планктона и экономят время специалистов.

Нейросеть Yandex Cloud стала доступна в опенсорсе — то есть и сам алгоритм, и датасет можно использовать в исследованиях других водоемов по всему миру. Читайте подробнее в блоге.

Посмотрите короткометражку о том, как нейросети учились различать байкальских рачков, а специалисты из разных областей — понимать друг друга
Forwarded from Reveal the Data
📈 Dashboard Canvas 2.0 📈
Три года назад я придумал сделать шаблон сбора требований для дашборда. За это время его использовали много раз, а видео с рассказом про него на канале DataLearn от Димы Аношина посмотрели более 20 тысяч раз. За это время я получил много обратной связи и сам часто использовал шаблон, поэтому смог конструктивно его улучшить. Представляю новую версию!

Подробно, почему он стал таким, я недавно рассказал на конференции Flow, 👉 вот запись 👈, получилась интересная история развития фреймворка. Спасибо организаторам, они согласились выложить доклад в общий доступ сильно раньше, чем планировали.

А вот ссылка на Miro, где теперь есть инструкция, примеры и новая версия в pptx (ещё приложу её в комментарии). Совместно с идеей построения карты дашбордов получается полноценный алгоритм построения системы дашбордов в компании. Делитесь обратной связью и используйте в работе!
@revealthedata
Please open Telegram to view this post
VIEW IN TELEGRAM
Написал на своём философском канале пост со своими размышлениями про ChatGPT и про будущее человеческого мышления и уникальности в контексте массового внедрения генеративных моделей

➡️ https://t.me/kempleks/26

С радостью почитаю вашу обратную связь на этот текст
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Designing Numbers
This media is not supported in your browser
VIEW IN TELEGRAM
Немного не по теме моего канала, но нет сил молчать. Недавно я поняла, что некоторые сервисы строят пузырьковые диаграммы, как бог на душу положит. И провела маленькое исследование, в котором сравнила результаты наиболее популярных датавиз сервисов и программ. Хочу его попозже дополнить еще QGIS и Gephi, если будет интерес. Если есть еще идеи — ю а вери велкам.

Опубликовала у себя на тильде
A/B-тестирование — незаменимый инструмент при проверке гипотез, но есть ряд причин, по которым оно может привести к ошибкам

Ребята из OzonTech в своей статье рассмотрели шесть распространенных причин, из-за которых система принятия решений через A/B-тестирования может давать неверные выводы. Узнайте, что нужно учитывать, чтобы ваши эксперименты работали и, таким образом, приносили пользу бизнесу. Мы рассмотрим методологию и процесс A/B-тестирования, а также проблемы и заблуждения, которые могут привести к провалу. Если вам кажется, что вы не обладаете достаточными знаниями о том, как проводить и правильно оценивать эксперименты, то вам будет полезна эта статья

https://habr.com/ru/company/ozontech/blog/712306/
Появилась идея сделать гайд про использование ChatGPT через Python и поделиться хаками для составления эффективных запросов

На этом фоне небольшой опрос 🤖Пользовались ли вы ChatGPT (или GPT3)?
Anonymous Poll
10%
Не использовал, и не планирую
52%
Не использовал, но планирую попробовать
24%
Да, пробовал, но не применяю в работе
14%
Да, использую и применяю в работе
Pandas на самом деле предельно прост

Но как и при использовании любого инструмента, который с виду кажется простым, всегда возникают какие-то ограничения, которые мешают решить поставленную задачу

У только что освоивших import pandas as pd бывает, что они знают какого вида табличку хотят получить на выходе, а как её получить — не знают и в итоге впадают в ступор, потому что знают синтаксис, но не знают внутрянки

Для того, чтобы эффективно использовать Pandas и максимально пользоваться его потенциалом, важно понимать основные структуры данных Series и DataFrame, так как они являются строительными блоками работы с данными в Pandas

Написал про это целую статью с кучей примеров

http://datalytics.ru/all/uglublennoe-izuchenie-pandas-struktury-dannyh/
Яндекс выкладывает в опенсорс код счётчика — ключевого компонента Метрики. Это JS-бандл, который загружается вместе со страницей сайта и фиксирует различные события.
 
Вот ссылка на репозиторий в Гитхаб. Теперь вы можете подробно изучить код счётчика и пересобрать его в той конфигурации, которая необходима для вашего проекта.  

Разработчик Метрики Евгений Новиков поделился краткой историей счётчика и тем, как с ним работать в небольшой статье на Хабре.
Большие языковые модели (LLMs), к которым относится ChatGPT (и GPT3, которая под капотом у ChatGPT) открывают огромный простор для дешевого создания сервисов, способных выполнять операции по несложному семантическому анализу. Например, я за пару часов с использованием API Яндекс.Переводчика, API OpenAI и библиотеки LangChain сделал небольшого бота, который в ответ на фразу даёт численные оценки её специфичности и детализации с объяснением почему была дана такая оценка, а также рекомендациями как эти показатели улучшить. На картинках примеры, а в конце поста ссылка на блокнот

Отдельно стоит заметить, что в работе с запросами к GPT3 важную роль играет сколько мы поставляем ей примеров и явное указание специфичной формы ответа (будь то перечисление конкретных заголовков, атрибутов ответа, явное указание на то, что ответ должен быть получен в виде таблице). На картинке есть пример запроса

А ещё вижу зарождение новой профессии «prompt engineer», задача которой будет в формировании таких запросов, которые будут максимально эффективно решать потребности бизнеса с помощью LLMs. И тут речь не только про запрос, качественно решающий изначальную задачу, но и про формирование цепочек запросов, настройку переиспользования предыдущих ответов для улучшения качества запросов. В общем, целая новая вдохновляющая область на стыке AI, лингвистики и бизнес-аналитики

https://github.com/axmakarov/datalytics/blob/master/GPT3_phrase_detail_and_specific_analyser.ipynb
Datalytics pinned a photo
Forwarded from Сиолошная
ChatGPT в массы!

OpenAI только что написали, что теперь ChatGPT доступна по API, то есть каждый разработчик может добавить её в своё приложение буквально за один вечер. Из интересного - пишут, что с декабря достигли 90% снижения трат через разные оптимизации.
Цена в 10 раз ниже самой мощной GPT-3.5, которая была доступна для этого. Вероятнее всего, модель уменьшили в размерах (то есть это может быть условно не 175B, а 6.7B модель, которая тоже очень неплоха).

Еще объявили о нескольких интеграциях, например, в Quizlet -сервис, способствующий обучению и изучению новых тем. Теперь будет доступен персональный AI-преподаватель, который подскажет и объяснит.

Instacart позволить покупателям задавать вопросы о еде («Как приготовить рыбные тако?» или «Предложи здоровый обед для моих детей») и получать вдохновляющие ответы, содержащие ссылки на товары, которые можно купить в один клик. Пока из того что видел - первая подобная интеграция, некоторого рода "продукт-плейсмент". Вижу применение этого и в поисковых чатботах - когда в выдачу подмешиваются ссылки, за которые заплатили.

Техническая инфа: теперь для запроса в модель нужно указывать не только текст для продолжения, но и дополнительные штучки - их перечень сведён в Chat Markup Language (“ChatML”). В частности, предполагаются "роли", так как модель была заточена под диалог - есть AI-ассистент, который пишет ответы, и есть "человек", пишущий сообщения с вашей стороны.

И напоследок важное:
> Data submitted through the API is no longer used for service improvements (including model training) unless the organization opts in

Теперь данные клиентов не будут использоваться для дообучения в будущем!
Быстрый тест: если думаете, что знаете в продакт-аналитике все — вы точно еще мидл

Если серьезно, определить, что пора идти на позицию повыше, сложно. А эйчары в процессе найма вряд ли намекнут, что готовы вам дать оффер побольше.

Но тут Авито на Хабре рассказали, как они отличают аналитиков-мидлов от сеньоров и что стоит подтянуть перед собесом (спойлер: не только штаны).

А еще держите ссылку на матрицу скиллов по грейдам.
This media is not supported in your browser
VIEW IN TELEGRAM
ChatGPT без VPN и регистраций почти легально 🤖

Нашёл способ без VPN’ов, плясок с одноразовыми номерами и регистрации использовать ChatGPT в России

1️⃣ Заходим на сайт ChatGPT-accounts.ru
2️⃣ Покупаем API-ключ ChatGPT (OpenAI) за 50 рублей (можно оплатить с карты РФ через сервис enot.io, выйдет на 7 рублей дороже из-за комиссии сервиса)
3️⃣ Придёт ключ вида sk-*** в виде текстового файла
4️⃣ Копируем ключ
5️⃣Заходим на сайт ChatWithGPT.ai
6️⃣ Нажимаем «Connect your OpenAI account to get started»
7️⃣ Вставляем в открывшемся окне в поле «Your Open API Key» ключ, скопированный из текстового файла
8️⃣ Пользуемся ChatGPT

Плюс использования ChatWithGPT.ai в том, что с помощью функции «Customize system prompt» можно кастомизировать системный промпт (невидимое сообщение, вставляемое в начале чата, которое можно использовать для предоставления ChatGPT информации о себе и общих рекомендаций о том, как он должен реагировать). И ещё можно изменять параметр Temperature, который контролирует то, насколько рандомным будет ответ от GPT-модели

Ну или можно на шаге 4 остановиться и использовать ключ через OpenAI API с помощью скрипта на Python (пример). Запросы лучше делать через прокси или через зарубежный VDS, так как OpenAI скорее всего заблокирует ключ, если запросы будут идти через российский IP

Что важно понимать про покупные ключи: у них есть лимит в 5$, так что рано или поздно придётся покупать ещё один; а ещё срок жизни баланса на ключе — до 01.08.2023
Please open Telegram to view this post
VIEW IN TELEGRAM
В дополнение к предыдущему посту, поделюсь ещё одним способом использовать ChatGPT в обход официального интерфейса от OpenAI

Антон Жиянов (@dangry) сделал замечательную библиотеку Pokitoki, которая позволяет поднять своего бота с ChatGPT в Телеграме. Её к тому же можно подключать к групповым чатам в Телеге, чтобы можно было обращаться к боту сразу из группового чатика

Всё, что требуется:
- Ключ OpenAI API (можно взять свой или купить, пользуясь инструкцией из предыдущего поста)
- Сервер
- Сделать клон репозитория на сервер
- Запустить бота из докера

Кстати, если вы не знаете как создать сервер, клонировать репозиторий на сервер или поднять на сервере сборку из докера, то спросите у ChatGPT. Он с подобного рода вопросами справляется «на ура» 🙃
Наткунлся на статью про экономику больших языковых моделей (LLMs)

Что интересного:

💰 LLM-поиск уже экономически целесообразен: ориентировочно, стоимость LLM-поиска составляет всего ~15% от оценочной рекламной выручки с одного запроса сегодня, сверх существующих затрат на поиск

🤔 Однако экономическая целесообразность не означает экономическую разумность: для крупных поисковиков с $100 млрд выручкой от поиска добавление такого функционала может обойтись в $10 млрд дополнительных издержек

📈 Другие LLM-проекты высокоприбыльны: например, Jasper.ai , который недавно был оценен в 1,5 миллиарда долларов и использует LLM для генерации текстов, берет с пользователя примерно 82 доллара за 100 тысяч слов (эквивалент ~ 1,09 доллара за 1000 токенов). При использовании API от OpenAI по цене 0,02 доллара за 1000 токенов прибыль значительно превысит 75%

🏭 Обучение LLM (даже с нуля) не требует колоссального бюджета для крупных компаний: обучение GPT-3 обойдется в ~$1.4 млн в публичном облаке, а даже самые передовые модели, вроде PaLM, стоят ~$11.2 млн

⬇️ Стоимость LLM скорее всего значительно снизится: затраты на обучение и вывод модели с производительностью, сравнимой с GPT-3, упали на ~80% с момента выхода GPT-3 2,5 года назад

🔐 Ограничивающим фактором для LLM становятся данные: увеличение количества параметров модели может дать меньший эффект по сравнению с увеличением размера высококачественного набора обучающих данных

Текст статьи: https://sunyan.substack.com/p/the-economics-of-large-language-models
Forwarded from Data Nature 🕊 (Alex Barakov)
Отлично проработанный Data Maturity Self Assessment Framework опубликован в паблик с удобными, понятными экселями для самооценки. Авторы - Британцы - UK Government Data Quality Hub разработали для своего правительства как страновой стандарт, на базе консалтингового продукта компании Data Orchard.. Не суть. Важно что модель хороша. не перегруженная и не поверхностная: 10 топиков, 97 критериев.

🔗 Описание в PDF
🔗
Self-assessment excel
🔗 Excel с описанием критериев (зачем то отдельно, удобнее все в один сложить)
🔗 Статья на Medium

🔥 Самое ценное - смысловое описание 5 градаций выраженности каждого критерия - в результате гайд задает понятные направления работы.

Мне понравились:
🔹 Критерий - Making data available to those who need it
Level 5: 'Data can be accessed and directly shared appropriately by all users who need it. All internal and external users can access data they need when they need it, without specialist support.'
🔹Критерий - Linking decisions that affect organisational outcomes to data
Level 5: 'Consistently links decisions that affect all critical and important organisational outcomes to data. Takes a customer-focused approach, incorporating the value that the organisation’s data has to its users into decision making.'
🔹Критерий - Collecting data with user needs in mind
Level 5: 'Has a clear understanding of the needs of the user providing data, and of user-centred design and methods in all relevant areas of the organisation. Fully embeds application of this understanding in product design and development from beginning to end.'

Прям чувствую, что не зря в команде выносим себе мозг, рисуя Analytics usecases maps и information demand matrices. 🤯
Капец какие же мы мачурные 😎

Тул будет полезен enterprise проектам с системным и массовым подходом в работе с данными. Которые при этом могут найти сейчас время для стратегического анализа 😅

Фреймворк может неплохо сочетаться с упражнением по разработке / обновлению data стратегии компании.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM