topdatalab
1.27K subscribers
99 photos
10 videos
17 files
222 links
Канал поддержки книги «Как монетизировать данные». https://topdatalab.ru
Download Telegram
ChatGPT Plus выкатила мне обновления. Я пользуюсь code interpeter уже давно, работает пока не очень, но сильно быстрее GPT4. Плагины смотрел - пока ничего интересного.
Кстати, если вас блочит этот чат из-за ВПН (дескать не в той стране), то стирание кук решает проблему полностью
👍5
Для проекта в британском банке Silverbird мне нужно найти какое-нибудь решение для парсинга pdf файлов, чтобы извлекать нужную мне информацию.
На данный момент я нашел пару open-source проектов:
1) tabula
2) PyMuPDF
На последнем из них мне ChatGPT даже сама написала код и вернула результат работы. Я его скормил в GPT4 и получил отчет по всем транзакциям, включая общие суммы денег, которые получила та или иная компания в транзакциях.

но в этих проектах сереьзная проблема - таблицы нужно размечать чуть ли не вручную.
Может кто-нибудь знает платный сервис для извлечения данных из pdf через API?

UPDATE: Алексей Адамович подсказал, что у Adobe есть сервис по парсингу pdf файлов. Я его попробовал! Adobe через API отдает zip файл, в котором есть json с полным содержанием и стилями файлаю Дополнительно я включил опцию парсинга таблиц, теперь он еще отдает CSV и скриншот по каждой таблице, которую встретил в файле. Эти файлы я склеил и загрузил в API GPT3, попросил ее обработать данные. Все получилось!
5👍3
Сегодня мне моя сотрудница пожаловалась, что на нее свалилось слишком много задач :(. Я поддержал ее, сказав, что теперь нужно делать действительно важные вещи. Теперь наступает возможность для менеджемента, когда нужно договорится с заказчиками о приоритетах.

Гораздо хуже когда успеваешь делать буквально все задачи вовремя или с опережением сроков. Это означает, что чаще делаешь никому ненужную ерунду
👍7🔥1😁1
Написал короткий пост про ценность "спящих" клиентов для ecom магазина на примере ювелирного магазина.

Многие компании с 1-2-летней историей продаж имеют неиспользованный потенциал в "спящих" (которые скоро полностью уйдут) клиентах. Давайте рассмотрим реальный пример из жизни. Рассмотрим ювелирный магазин с трехлетней историей продаж, средней стоимостью заказа (AOV) $350 и базой данных из 32 000 клиентов.

Проанализировав данные с помощью моего калькулятора на сайте retenly.com/calc, я получил следующие данные:
- Коэффициент повторных покупок: 19% (процент клиентов, сделавших не менее двух заказов)
- Клиенты становятся "спящими" после 95 дней бездействия и "отторгаются" после одного года.

На момент проведения анализа их база данных клиентов состояла примерно из 50% "оттока" и 45% "спящих" клиентов.
[GRAPH 1]
Удивительно, но "спящие" клиенты по-прежнему совершали большое количество покупок - около 125 в месяц, что соответствует продажам на сумму не менее $50 000. Обратите внимание на красную линию на графике ниже.

[GRAPH 2]

Однако коэффициент конверсии для "спящих" покупателей был относительно низким - всего 0,72%.

[GRAPH 3]

Магазин мог бы улучшить коэффициент конверсии, разработав стратегии повторного привлечения и стимулирования этих "спящих" покупателей, и получить дополнительные 50 000 долларов в ежемесячных продажах.

PS:
1) Графики в следующем посте
2) Оригинал поста:https://www.linkedin.com/pulse/value-sleeping-customers-dtc-brands-case-study-jewelry-roman-zykov%3FtrackingId=DXbtOmsCQM%252BPgKXtmbDglA%253D%253D/?trackingId=DXbtOmsCQM%2BPgKXtmbDglA%3D%3D
🔥21
Интерактивные графики доступны тут: retenly.com/calc
🔥4
наконец-то прилетело приглашение на GPT4 API, месяц ждал
🔥41
В компании Silverbird UK я веду два больших проекта:
1) BI системы и анализа данных
2) Supply Chain Intelligence - сбор и обработка данных по коммерческим грузоперевозкам
По первому проекту все хорошо, там три человека делают свою работу
По второму проекту сложнее. Его задача идентифицировать риски при работе с компаниями, которые занимаются международной торговлей.
Данные этой системы используются для процедуры проверки новых клиентов, так и транзакций на предмет отмывания денег

До этого времени я занимался этим один, сейчас приняли решение нанять еще пару человек. Одна вакансия дата инженера с навыками парсинга данных в сети и обходе каптч 🙂 Вторая более творческая - поиск, оценка качества и договоренность с поставщиками данных.
Детали опубликую на следующей неделе
2🔥2
Как я работал в CBOSS
Чтобы понять как изменились сейчас условия труда нужно вспомнить прошлое.
Был далекий 2003 год, я уже пару лет отработал в StatSoft. На шестом курсе Физтеха нет занятий, ты просто пишешь диплом. В этот момент я понял, что можно попробовать найти работу с большим доходом. И понеслось…

Закинул резюме на hh.ru, мне приходили вакансии разных компаний. И одно было из CBOSS. Это компания тогда была основным поставщиком биллинга для МТС в то время. Как раз тогда было популярным мнение, что МТС ворует деньги :)

Собеседования туда были поставлены на поток :) Я собеседовался с будущим руководителем, решал дома его задачки. IQ тест, тест на общее образование, собеседование с психологом, собеседование с еще парой начальников. Ну и последнее с вице президентом компании, где он с помощью вопроса про распределение Пуассона срезал мои зарплатные ожидания. В итоге договорились [прожали] на ЗП в 800 долларов с возможностью повысить до 1200 как я изначально хотел.

Пришло время приема на работу. Выдали два договора, один на 10% зарплаты официальной, другой на остальные 90% через Каймановы острова, причем я должен был сам платить с нее НДФЛ.
Две недели официального обучения. Там были все, от секретарш до руководителей высшего звена. Учили больше про то, как пользоваться местной системой управления предприятием, было довольно интересно.

После обучения я получил сиреневый пропуск. Про цвета пропусков я еще напишу. Вся компания управлялась через систему управления предприятием CBOSSmis. В ней были
все проекты и задачи, которые ставил руководитель. Все проекты компании были представлены единым деревом. Каждый день ты должен быть расписывать все свое рабочее время на задачи.

Контроль рабочего времени. Если отлучаешься больше чем на 15 минут, должен нажать на кнопку в системе. Выходишь из помещения через пропуск? Нажми предварительно на кнопку. Застрял в туалете больше чем на 15 минут, нажми кнопку. Если не нажмешь - штраф 5% от месячной зп. Аналогичный штраф для опоздавших больше, чем на 15 минут

Отдельно был обозначен дресс код. Длина юбки, нельзя сандалии на босую ногу и т.д. И действительно, сотрудников тормозили охранники и выписывали штрафы. Про каждый случай писали в корпоративном форуме в духе: в очередной раз охранники задержали некую …, которая была слишком sexy :).

У меня на рабочем месте была камера сверху, перед туалетом зачем-то тоже. Служба безопасности оправдывалась, что мол все крупные компании следят за сотрудниками. Где-то я уже это слышал по телевизору.

Занимался я довольно странной работой в должности бизнес аналитика, а потом и бизнес консультанта по аналитическим системам. Просто щелкал местные Olap кубы на базе Oracle и писал пространные аналитические отчеты. Потом была командировка в Грузию в TurkCell. Перед ней я прошел допрос на детекторе лжи, выясняли, нет ли у меня левых источников дохода. Боялись наверное, что солью данные. Сама командировка прошла на ура, меня перекормили тогда шашлыками.

Про цвет пропуска. В компании было несколько столовых. Но в одну можно было попасть только высшим руководителям с определенным цветом бейджа. В этой столовой подавались блюда с собственного хозяйства CBOSS в Тверской области. Там же базировался корпоративный вертолет. На форуме публиковалось меню все столовых на этот день. Меню столовой для руководства тоже. Рябчики, косуля, ммм, пальчики оближешь. Ничего вам не напоминает? Кин-дза-дза?

А дело в том, что компанию основали слушатели высшей школы КГБ СССР, возможно и бывшие сотрудники. Как только я об этом узнал, все стало на свои места. И цвет бейджиков, и столовая, и хозяйство, излишняя бюрократия военного типа.

Через полгода я защитил диплом. В компании мне провели аттестацию, доход мой не подняли. Тогда я и ушел в Озон.

Из положительного. Отличные сотрудники, мне очень это нравилось, что все профессионалы своего дела. Все-таки такая сложная система отбора хорошо отделяла зерна от плевел. Местная система управления предприятием мне нравилась, нравится и сейчас (если бы не дурацкие штрафы).
🔥16👌1
На тот момент времени это была попытка создать компанию западного типа с кремлевскими привычками, что ее и портило.

Поделитесь опытом работы в аналогичных компаниях в комментариях
👍4
Эпилог про CBOSS
помните я писал про мнение в начале 2000х, что «МТС ворует деньги клиентов»? МТС был тогда у CBOSS основным клиентом, они разрабатывали для них биллинг. Примерно через год после моего ухода МТС решило разорвать контракт с CBOSS и перейти на AMDOCS. Последовали большие сокращения. Уволили моего друга, которого я устроил на мое место. Еще при мне происходила диверсификация бизнеса: мои коллеги ездили в Иорданию, приезжала большая делегация генералов из Лаоса с огромными золотыми звездами. Что дальше я не знаю. Сайт cboss.ru не менялся с 2004 года. Выручка в 2021 около 300 млн рублей
👍2😁1
🤔🇬🇧две вакансии полностью удаленной работы

Я разрабатываю проект по созданию так называемой Supply Chain Intelligence - система корпоративной “разведки”, которая помогает британскому банку понимать кто его клиент, с кем он вел бизнес прошлом, оценивать риски санкций и отмыва денег.

Реальный пример: пришел потенциальный клиент, якобы торгующий металлическими крышами. После проверки выяснилось, что он приторговывал драгоценными камнями. Это красный флаг потенциальной незаконной дейтельности. Похожее расследование делало недавно NYT, когда вычисляла как обходит санкции Россия. Мой проект занимается похожими вещами, но на корпоративном уровне.

Что-то у меня уже получилось, но не хватает рук.
1) Data Engineer with Web Scraping Expertise - нужен инженер с навыками интеграции через API, парсинга веб сайтов, в том числе умение справляться с каптчами (https://apply.workable.com/silverbird/j/32AA497DEA/)

2) Data Acquisition Project Manager - менеджер/аналитик по поиску и подключению новых источников. Похожий предыдущий опыт очень важен для меня. Пример задач - наладить процесс получения сырых данных от Пограничной службы США, прожать по цене действующего поставщика логистических данных и т.д. https://apply.workable.com/silverbird/j/6B898B6C52/
👍3🔥2
у меня случилась интересная история с одним из поставщиков логистических данных. Это турецкая компания, у них довольно хорошее покрытие по странам с небольшим в несколько месяцев отставанием по данным
Изначально мы пользовались и пользуемся веб версией продукта. Потом я договорился с ними о предоставлении API доступа к данным.
Сам интерфейс сделан для использования на сайте и оттого жутко неудобный. Мне прошлось потратить много времени на написание веб сервиса, который транслирует запросы от нас к ним и собирает нужные данные. После этого мне удалось собрать пилотную версию продукта и доказать работоспособность идеи.

Но полтора месяца назад началась странная история. У меня все перестало работать, почему-то закончилась квота на запросы. Я выяснил, что они задним числом перешли на новую прайсинга и квота (credits) стала расходоваться сильно быстрее. Тогда я попросил включить все обратно и тут началось самое интересное. Ответ: окей, мы тебе накинем чуть-чуть кредитов, закончи свою работу и давай обсуждать новую модель ценообразования. Прислали презентацию, я начал бодаться в переписке, пытаясь выторговать себе лучшие условия. Они постоянно пропадали на неделю две, кредиты закончились, решение перестало работать.

Сама система состоит из двухуровнего API: вначале идет поиск компании и ее поставщиков/клиентов, затем выкачиваются данные по товарам. Для меня ценность представляла только вторая часть, там понятное ценообразование, мне понятна ценность данных, я могу легко регулировать стоимость выкачивая больше или меньше данных. А вот с поиском компаний не так. В ответ на поиск мне приходит большой список результатов, стоимость одной строки которого сильно зависит от страны по новой системе прайсинга. То есть я не могу здесь регулировать потраченные суммы, это черный ящик. Все бы ничего пока я не сделал недавно расчеты и выяснил, что за простой поиск я буду платить в несколько раз больше, чем за сами данные. И второе - сам поиск ужасно сделан. Он просто выдает все компании с вхожденим поисковой фразы. В итоге я получаю 75% невалидных данных и должен еще платить за них больше.

Какой бы вы дали совет этому “SAAS” бизнесу? С какой веростностью они потеряют своих клиентов на API?
topdatalab
Выбираю систему “само” аналитики для Silverbird, когда сотрудники смогут без участия аналитиков работать с данными. Надеюсь, что к концу следующего квартала закончим. Для начала мы собрали работающую модель данных. Далее, пишем примерные вопросы и срезы данных…
В ответах отметился сам Роман Бунин, который написал, что самое лучшее сейчас из бесплатного - Metabase.
Полностью подтверждаю его слова. Мы проверили Metabase и Tableau Explorer на 5 пользователях. Они однозначно выбрали Metabase, как наиболее легкий в использовании. Tableau Explorer - вынос мозга, даже я сам тест не прошел. PowerBI не стали тестировать, так как на корпоративном уровне необходима авторизация Microsoft, а мы используем Google Workspace

Один совет по Metabase - обязательно используйте Data Models, так можно переименовывать и скрывать поля, создавать метрики и сегменты для фильтров. Это очень упрощает жизнь конечных пользователей!
👍12
Пришло приглашение на тест Copilot c функциями чата (Copilot X). Сам плагин работает только с VS code, и это проблема для меня. Я пользуюсь Intelliji. Есть у кого-нибудь опыт с Copilot X? Хорош? Если да, попробую поработать с ним в VS code
👍1
Планирую провести бесплатный вебинар по анализу поведения клиентов. Мы посмотрим примеры некоторых компаний (H&M), как их трактовать и самое главное, как на этом зарабатывать. Для маркетологов и аналитиков. Придете?
Final Results
64%
Приду
4%
Не приду
32%
Нужно больше информации
🔥3
Я с ними встречался несколько лет назад, когда они думали купить Retail Rocket. 2 млрд долларов конечно завышенная оценка, если только у них есть большой клиентский портфель. Статистику по ним можно посмотреть здесь: https://trends.builtwith.com/analytics/Insider


https://vc.ru/money/704587-marketingovaya-ii-platforma-insider-privlekla-105-mln-pri-ocenke-okolo-2-mlrd
👍1
Не в красивой визуализации дело…
Я пользуюсь библиотекой Echarts. Посмотрите на примеры здесь https://echarts.apache.org/examples/en/index.html#chart-type-bar
Эта библиотека по красоте уделает любой BI инструмент. Я сделал на ней все графики для retenly.com/calc

Но в бизнесе нет такой необходимости в супер-пупер визуализации. Бизнесу нужна ясность, чтобы принять решение. Бывает просто одна цифра имеет гораздо большую роль, чем целая книга с dashboards. Помните плиз об этом, когда рисуете графики. Нужна именно ясность, а не вырви глаз отчеты, на которых ничего непонятно в первые 5-10 секунд просмотра
🔥3👍2😁1