topdatalab
1.27K subscribers
98 photos
10 videos
17 files
221 links
Канал поддержки книги «Как монетизировать данные». https://topdatalab.ru
Download Telegram
This media is not supported in your browser
VIEW IN TELEGRAM
Оффтопик. Не в тему чата, но сегодня я нашел доказательство многих моих бед за последний год: до полусмерти покусанный мой кот, поврежденные вещи. У нас забор два метра, и оказывается эти животные спокойно их перепрыгивают
🤯15
Делаю инструмент для менеджеров по продажам, а получается сервис для борьбы с коррупцией и отмыва денег 🙂
Мне удалось связать директоров и владельцев из Company House, теперь можен просто бродить по ссылкам и искать конечных владельцев компаний в пределах UK.

Вчера продолжал осваивать DBT, написал десятки тестов, сразу нашел баги и исправил.
Если вы стоите перед выбором использовать DBT или нет - используйте! Это сделает работу вашей аналитической системы прозрачной.

Из важного: завтра я проведу вебинар по DuckDB через LinkedIn (английский язык, 26 апреля в 19:30 по Лондону, 21:30 по Москве)
https://www.linkedin.com/events/7185697388240502785/comments/
Это будет повторение прошлого вебинара (https://www.youtube.com/watch?v=biyPV-4glN4), но я добавлю немного про полнотекстовый поиск в DuckDB

PS: ищу сейлзов, кто хочет поднять свои продажи в UK на B2B рынке. Двух из финтеха уже нашел, но нужно еще.
Ставлю себе задачу раскачать их до лучших сейлзов в их компаниях с помощью data инструментов, которые разрабатываю прямо сейчас
👍14
topdatalab
Machine Learning ONS1 - New Loop.pdf
Продолжаю собеседоваться.
Вот такую формулу (loss) вывел для задачи оптимизации высокочастотно торговли.
Первую и вторые производные вывел аналитически, о чем также попросил ChatGPT. Результаты совпали. Но к самой задаче подохладел, уж больно неохота еще неделю сидеть подбирать параметры LightGBM :(

Сегодня также собеседовался в www.intercom.com, было два интервью. Одно на leetcode, второе про мои проекты, которые делал раньше. По литкоду - написал функцию гистограмм, оптимизировал ее и посчитал time complexity. В целом понравилось, я был на одной волне с интервьюерами. Ребята очень хорошие. Очень хорошо видно культуру компании по ее интервьюерам.
🔥8👍61
Быть честным по отношению к клиентам?
В процессе поиска данных для B2B банка  в UK, я понял, насколько все гнилое и старое. Данные часто не обновляются, кривые, косые. Поэтому у себя на сайте я повесил почти на всех страницах табличку - когда данные были обновлены.

Вчера сделал первый небольшой дамп компаний в UK для первого сейлза, надеюсь вернется с обратной связью на следующей неделе. Обшлось без AI, я просто написал большой SQL скрипт.

PS: два дня была ошибка в обновлении, что видно по таблице, сегодня исправлю
👌8
Первый алгоритм компрессии текстовых данных я придумал лет в 13. Дело в том, что стандартная таблица символов ASCII использовала только 7 бит из 8ми. Это означало, что каждый восьмой символ текста можно было «размазать» по верхним битам предыдущих 7ми. Тогда у меня все получилось.
Сейчас читаю как сделана компрессия данных в DuckDb

https://duckdb.org/2022/10/28/lightweight-compression.html

Науки там много нет, а много всяких статистических хаков, и они работают!
🔥3
Проблемы первого мира. Парень работает на США из UK

PS: идет упоминание «белого мужчины»

Дополнение: «когда кандидаты заполняют анкету там есть опциональные поля пол, раса и ориентация. Если эта инфа есть она используется в первичном фильтре HR.»
🙈10🙉9😱31
Почему я продолжаю верить в рынки данных несмотря на LLM AI?

Потому что без данных LLM пустышка! Представьте, что LLM это на самом деле интерфейс к данным. Раньше нужно было много кликать, читать мануалов, как пользоваться интерфейсом программ. А с чат ботом это сильно упрощается. Сами LLM развиваются, становятся все более доступными, а значит теряют свое конкурентное преимущество.
Поясню.
Раньше какая-то команда могла натренировать модель, и продавать ее на рынке. Сейчас модели становятся сервисом, а значит доступны другим командам. Это становится просто технологией. Следовательно, конкурентное преимущество будет определяться больше продуктом и данными, которые есть у команды. И именно эксклюзивный доступ к каким-либо данным будет серьезным конкурентным преимуществом.

Именно в этом направлении я и вижу свой проект!

PS: где пока тяжело LLM - это структурированные данные. С тестом, звуком и видео разобрались хорошо, но не так все хорошо с табличными данными в хранилищах
💯102👍1
В контексте AI, а что теперь с IBM Watson? Живет? Или OpenAI вытеснил?
Кто-нибудь слышал?
👍1
Продолжаю работать со своим проектом - Retenly
Все выходные выкатывал новый функцинал на сайт. Столкнулся с серьезным падением производительности, DuckDB не использует индекс для SQL операций c IN 🙁

Параллельно пытаюсь продавать:
1) Один sales менеджер уже работает с моими данными - Финтех в UK
2) Возможно я получу крутого клиента - Import Genius. Один из самых дорогих поставщиков данных по экспорту/импорту. Им тоже нужно продавать
3) Веду переписку с нотариальной компанией в UK, возможно смогу сделать решение для них

PS: если у вас есть знакомые, кому интересно продать товары или услуги на рынке в UK (B2B) - напишите про меня

UPDATE: только что получил хороший отзыв от Compliance Director, бывшего детектива Скотленд-Ярда
🔥91
topdatalab
Machine Learning ONS 2 - New Loop.pdf
HR учитесь у intercom!
На прошлой неделе со мной созванивался рекрутер intercom. Он не только рассказал про следующие 4 собеседования, но и рассказал про итоги прошлых двух. Он прямо мне зачитал, что написали обо мне прошлые интервьюеры, все мои pros и cons. Также дал советы как учесть эти мнения в следующих интервью
👍15🔥123😱3
Читаю комменты в Linked In к вопросу - что использовать для преобразования данных SQL или Python?

Я сторонник SQL, особенно, когда можно использовать DBT. Причины простые:
1) Локальность данных, данные не будут гоняться по сети, все преобразования произойдут не сервере базы данных.
Что очень важно, когда работаешь с таблицами больше 10Гб. А если это терабайты?
2) Код понятнее. Я считаю, что код на SQL более читабельней, чем какой-нибудь Pandas.
Особенно если для трансформации используется несколько последовательных таблиц и CTE.
3) Сейчас можно тестировать SQL, если работаете с DBT. В последней версии DBT 1.8 уже можно писать
unit тесты с синтетическими данными.

Я на 90% использую DBT, а Python использую для написания функций, которые можно вызывать из SQL
👍9🔥5💯3🤔1
ChatGPT для MacOS от OpenAI
https://persistent.oaistatic.com/sidekick/public/ChatGPT_Desktop_public_latest.dmg
Но даже если вы поставите его, доступа может пока не быть. Они постепенно раскатывают его
👍3🔥1
Low ego / team player вижу в вакансии, которую прислали.
Вообще много, где так пишут.

Интересно, насколько отличается эффективность low ego от high ego? Может ли быть high ego хорошим team player?

Следующий вопрос - работает ли это на уровне акционеров и высшего менеджмента? Ведь цель любого бизнеса - прибыль любой ценой. И там все как в джунглях.
1👍1
Посмотрел статистику Retail Rocket на BuiltWith. Горжусь своим вкладом и всех причастных к такому серьезному результату! Много работы было сделано
👍9
Целый день работал и смог запустить metabase поверх retenly.com

Теперь каждый зарегистрированный пользователь имеет прямой SQL доступ ко всем данным британских компаний, включая импорт и экспорт. Закрытая бета - если нужен доступ маякните мне

Подробности технический реализации:
1) использовался драйвер Metabase Duckdb https://github.com/MotherDuck-Open-Source/metabase_duckdb_driver
2) я включил Google авторизацию в nginx и metabase - не нужно помнить пароль
🔥51
Отчитываюсь по собеседованиям!
Забегая вперед напишу, что я выхожу работать в начале июня

--Финтех стартап - VP of data - отказался сам

Здесь на Canary Wharf запускается новый финтах стартап. Примерно в течение месяца у меня было четыре интервью с ними. Вчера было последнее, где я уже сообщил, что мне сам финтех уже не так интересен. То есть я отказался сам, но мы оставили возможность для консультаций.

--Стартап в области тревел - VP of data - отказался сам

Было пару интервью. Я отказался сам от продолжения.

--British Petroleum - Staff Data Analyst - продолжаю

Сегодня было техническое интервью с CTO. Первые полчаса мы разговаривали в том числе, как стимулировать сотрудников не уходить из-за скучной работы. Вторую часть времени я решал задачу - проектировал структуру таблицу для сервиса такси и писал SQL скрипт для вычисления метрики. Метрика звучала так - нужно найти города, где самый большой разрыв между числом клиентов и водителями. Задачу я решил. Но она была с изюминкой и в лоб ее не решить. На следующей неделе у меня техническая презентация для группы людей.

--Intercom - Senior ML engineer - мне отказали

Я уже писал выше о первых трех интервью и их восхитительном процессе найма, когда мне дали полную обратную связь, а именно что каждый интервьюер написал про меня.
В понедельник у меня было четыре интервью:
1) Техническая презентация - прошел
2) ML skills - прошел
3) Personal values - прошел
4) Технические дизайн - не прошел :(. Запутался в деталях и все делал медленно.
Сегодня я созванивался с рекрутером. Как и после первых интервью он зачитал мне персональное мнение интервьюеров. Общий мой недостаток - ухожу в сторону, не хватает ясности в моих объяснениях.

--Высокочастотный трейдинг - ML researcher - получил оффер

Как вы помните из постов выше, мне дали тестовое задание, и я потратил почти три недели своего времени на ее решение. В абсолюте я задачу не решил, но мои подходы к ее решению очень понравились. Потом у меня было интервью с Head of ML. Следующим шагом мы начали обсуждать оффер. Здесь я сам предложил тестово поработать. Мне пошли навстречу, и буквально на следующий день я приземлился в Амстердаме. Поработав с ними три дня я понял, что это мое, так как напомнило мне мои времена в Retail Rocket: задача очень сложная и требует много математике и экспериментов.
Оффер я принял, выхожу работать в первых числах июня.
🔥3813👏13
Мне до сих пор до конца непонятно, как LLM повлияет на рынок труда. Но то, что влияние будет существенным это факт.
У меня довольно плохо с памятью, я мало помню точно, но помню принципы. И GPT мне помогает «помнить» синтаксис Python или Scala, как что-то сделать с помощью какой-нибудь библиотеки. Мне лично LLM уже сэкономил много времени даже на личном проекте, я потратил в три раза меньше времени на написание проекта, чем если бы делал это без GPT. Также я сэкономил деньги - мне не пришлось нанимать специалистов на какие-то задачи, в которых я разбирался не очень хорошо. Продуктивность выросла, значит нужно еще меньше людей, чтобы сделать что-то существенное. Правда GPT не заменит вас как главного инженера, скорее младших разработчиков.

Я прочитал и нашел полезной статью
https://vc.ru/u/10179-vladislav-proshinsky/1201119-budushchee-menedzhmenta-v-epohu-ii-pipl-menedzhery-vs-menedzhery-modeley
думать об этом нужно уже сейчас. Я пытаюсь сделать большее - чему учить своих детей? Пока мне непонятно :(
🔥5👍41
А вот и структурные данные подъехали (табличные), которые пока плохо обрабатываются LLM

“Symbolica is a startup developing new foundational deep learning models for structured reasoning, based on principles of category theory, type theory and functional programming. Specifically, we aim to develop models which manipulate structured data, learn algebraic structure in it, and do so with an interpretable and verifiable logic. To that end, we are developing new mathematical foundations for deep learning”
https://www.symbolica.ai/

Их научная база (статьи, лекции):
http://www.categoricaldeeplearning.com/

Кто изучал функциональное программирование - будет интересно
В связи с новой работой я ушел в глубокий Machine Learning.
Получаю огромное удовольствие от чтения научных статей. Например, мне нужно знать все детали алгоритма LightGBM. Я пошел на сайт самого LightGBM, скачал оттуда статьи и читаю.
Дальше интереснее. А вдруг кто-то на пальцах объяснил, как это все работает?
И не для новичка, а прямо по paper самих создателей? Почему? Потому что только создатели могут объяснить пару параметров, которые не засветились на конкурсах Kaggle.
И случайно нашел незаслуженно непопулярный канал
https://www.youtube.com/playlist?list=PLgaemU2xZlTieGRRTAdDlHOgxr-bs6pfr
(автоперевод с корейского)
как мне нравится то, как автор объясняет, ему бы лекции читать (скорее всего так и делает)

UPDATE: очень хорошо, что автор также все пишет на Питоне, алгоритмы с нуля. Это самое главное правило изучения ML - читаешь paper и пишешь алгоритм по ней. Пусть криво/косо, но зато запомнишь надолго
13👍7🔥6