topdatalab
1.27K subscribers
98 photos
10 videos
17 files
221 links
Канал поддержки книги «Как монетизировать данные». https://topdatalab.ru
Download Telegram
Проблемы первого мира. Парень работает на США из UK

PS: идет упоминание «белого мужчины»

Дополнение: «когда кандидаты заполняют анкету там есть опциональные поля пол, раса и ориентация. Если эта инфа есть она используется в первичном фильтре HR.»
🙈10🙉9😱31
Почему я продолжаю верить в рынки данных несмотря на LLM AI?

Потому что без данных LLM пустышка! Представьте, что LLM это на самом деле интерфейс к данным. Раньше нужно было много кликать, читать мануалов, как пользоваться интерфейсом программ. А с чат ботом это сильно упрощается. Сами LLM развиваются, становятся все более доступными, а значит теряют свое конкурентное преимущество.
Поясню.
Раньше какая-то команда могла натренировать модель, и продавать ее на рынке. Сейчас модели становятся сервисом, а значит доступны другим командам. Это становится просто технологией. Следовательно, конкурентное преимущество будет определяться больше продуктом и данными, которые есть у команды. И именно эксклюзивный доступ к каким-либо данным будет серьезным конкурентным преимуществом.

Именно в этом направлении я и вижу свой проект!

PS: где пока тяжело LLM - это структурированные данные. С тестом, звуком и видео разобрались хорошо, но не так все хорошо с табличными данными в хранилищах
💯102👍1
В контексте AI, а что теперь с IBM Watson? Живет? Или OpenAI вытеснил?
Кто-нибудь слышал?
👍1
Продолжаю работать со своим проектом - Retenly
Все выходные выкатывал новый функцинал на сайт. Столкнулся с серьезным падением производительности, DuckDB не использует индекс для SQL операций c IN 🙁

Параллельно пытаюсь продавать:
1) Один sales менеджер уже работает с моими данными - Финтех в UK
2) Возможно я получу крутого клиента - Import Genius. Один из самых дорогих поставщиков данных по экспорту/импорту. Им тоже нужно продавать
3) Веду переписку с нотариальной компанией в UK, возможно смогу сделать решение для них

PS: если у вас есть знакомые, кому интересно продать товары или услуги на рынке в UK (B2B) - напишите про меня

UPDATE: только что получил хороший отзыв от Compliance Director, бывшего детектива Скотленд-Ярда
🔥91
topdatalab
Machine Learning ONS 2 - New Loop.pdf
HR учитесь у intercom!
На прошлой неделе со мной созванивался рекрутер intercom. Он не только рассказал про следующие 4 собеседования, но и рассказал про итоги прошлых двух. Он прямо мне зачитал, что написали обо мне прошлые интервьюеры, все мои pros и cons. Также дал советы как учесть эти мнения в следующих интервью
👍15🔥123😱3
Читаю комменты в Linked In к вопросу - что использовать для преобразования данных SQL или Python?

Я сторонник SQL, особенно, когда можно использовать DBT. Причины простые:
1) Локальность данных, данные не будут гоняться по сети, все преобразования произойдут не сервере базы данных.
Что очень важно, когда работаешь с таблицами больше 10Гб. А если это терабайты?
2) Код понятнее. Я считаю, что код на SQL более читабельней, чем какой-нибудь Pandas.
Особенно если для трансформации используется несколько последовательных таблиц и CTE.
3) Сейчас можно тестировать SQL, если работаете с DBT. В последней версии DBT 1.8 уже можно писать
unit тесты с синтетическими данными.

Я на 90% использую DBT, а Python использую для написания функций, которые можно вызывать из SQL
👍9🔥5💯3🤔1
ChatGPT для MacOS от OpenAI
https://persistent.oaistatic.com/sidekick/public/ChatGPT_Desktop_public_latest.dmg
Но даже если вы поставите его, доступа может пока не быть. Они постепенно раскатывают его
👍3🔥1
Low ego / team player вижу в вакансии, которую прислали.
Вообще много, где так пишут.

Интересно, насколько отличается эффективность low ego от high ego? Может ли быть high ego хорошим team player?

Следующий вопрос - работает ли это на уровне акционеров и высшего менеджмента? Ведь цель любого бизнеса - прибыль любой ценой. И там все как в джунглях.
1👍1
Посмотрел статистику Retail Rocket на BuiltWith. Горжусь своим вкладом и всех причастных к такому серьезному результату! Много работы было сделано
👍9
Целый день работал и смог запустить metabase поверх retenly.com

Теперь каждый зарегистрированный пользователь имеет прямой SQL доступ ко всем данным британских компаний, включая импорт и экспорт. Закрытая бета - если нужен доступ маякните мне

Подробности технический реализации:
1) использовался драйвер Metabase Duckdb https://github.com/MotherDuck-Open-Source/metabase_duckdb_driver
2) я включил Google авторизацию в nginx и metabase - не нужно помнить пароль
🔥51
Отчитываюсь по собеседованиям!
Забегая вперед напишу, что я выхожу работать в начале июня

--Финтех стартап - VP of data - отказался сам

Здесь на Canary Wharf запускается новый финтах стартап. Примерно в течение месяца у меня было четыре интервью с ними. Вчера было последнее, где я уже сообщил, что мне сам финтех уже не так интересен. То есть я отказался сам, но мы оставили возможность для консультаций.

--Стартап в области тревел - VP of data - отказался сам

Было пару интервью. Я отказался сам от продолжения.

--British Petroleum - Staff Data Analyst - продолжаю

Сегодня было техническое интервью с CTO. Первые полчаса мы разговаривали в том числе, как стимулировать сотрудников не уходить из-за скучной работы. Вторую часть времени я решал задачу - проектировал структуру таблицу для сервиса такси и писал SQL скрипт для вычисления метрики. Метрика звучала так - нужно найти города, где самый большой разрыв между числом клиентов и водителями. Задачу я решил. Но она была с изюминкой и в лоб ее не решить. На следующей неделе у меня техническая презентация для группы людей.

--Intercom - Senior ML engineer - мне отказали

Я уже писал выше о первых трех интервью и их восхитительном процессе найма, когда мне дали полную обратную связь, а именно что каждый интервьюер написал про меня.
В понедельник у меня было четыре интервью:
1) Техническая презентация - прошел
2) ML skills - прошел
3) Personal values - прошел
4) Технические дизайн - не прошел :(. Запутался в деталях и все делал медленно.
Сегодня я созванивался с рекрутером. Как и после первых интервью он зачитал мне персональное мнение интервьюеров. Общий мой недостаток - ухожу в сторону, не хватает ясности в моих объяснениях.

--Высокочастотный трейдинг - ML researcher - получил оффер

Как вы помните из постов выше, мне дали тестовое задание, и я потратил почти три недели своего времени на ее решение. В абсолюте я задачу не решил, но мои подходы к ее решению очень понравились. Потом у меня было интервью с Head of ML. Следующим шагом мы начали обсуждать оффер. Здесь я сам предложил тестово поработать. Мне пошли навстречу, и буквально на следующий день я приземлился в Амстердаме. Поработав с ними три дня я понял, что это мое, так как напомнило мне мои времена в Retail Rocket: задача очень сложная и требует много математике и экспериментов.
Оффер я принял, выхожу работать в первых числах июня.
🔥3813👏13
Мне до сих пор до конца непонятно, как LLM повлияет на рынок труда. Но то, что влияние будет существенным это факт.
У меня довольно плохо с памятью, я мало помню точно, но помню принципы. И GPT мне помогает «помнить» синтаксис Python или Scala, как что-то сделать с помощью какой-нибудь библиотеки. Мне лично LLM уже сэкономил много времени даже на личном проекте, я потратил в три раза меньше времени на написание проекта, чем если бы делал это без GPT. Также я сэкономил деньги - мне не пришлось нанимать специалистов на какие-то задачи, в которых я разбирался не очень хорошо. Продуктивность выросла, значит нужно еще меньше людей, чтобы сделать что-то существенное. Правда GPT не заменит вас как главного инженера, скорее младших разработчиков.

Я прочитал и нашел полезной статью
https://vc.ru/u/10179-vladislav-proshinsky/1201119-budushchee-menedzhmenta-v-epohu-ii-pipl-menedzhery-vs-menedzhery-modeley
думать об этом нужно уже сейчас. Я пытаюсь сделать большее - чему учить своих детей? Пока мне непонятно :(
🔥5👍41
А вот и структурные данные подъехали (табличные), которые пока плохо обрабатываются LLM

“Symbolica is a startup developing new foundational deep learning models for structured reasoning, based on principles of category theory, type theory and functional programming. Specifically, we aim to develop models which manipulate structured data, learn algebraic structure in it, and do so with an interpretable and verifiable logic. To that end, we are developing new mathematical foundations for deep learning”
https://www.symbolica.ai/

Их научная база (статьи, лекции):
http://www.categoricaldeeplearning.com/

Кто изучал функциональное программирование - будет интересно
В связи с новой работой я ушел в глубокий Machine Learning.
Получаю огромное удовольствие от чтения научных статей. Например, мне нужно знать все детали алгоритма LightGBM. Я пошел на сайт самого LightGBM, скачал оттуда статьи и читаю.
Дальше интереснее. А вдруг кто-то на пальцах объяснил, как это все работает?
И не для новичка, а прямо по paper самих создателей? Почему? Потому что только создатели могут объяснить пару параметров, которые не засветились на конкурсах Kaggle.
И случайно нашел незаслуженно непопулярный канал
https://www.youtube.com/playlist?list=PLgaemU2xZlTieGRRTAdDlHOgxr-bs6pfr
(автоперевод с корейского)
как мне нравится то, как автор объясняет, ему бы лекции читать (скорее всего так и делает)

UPDATE: очень хорошо, что автор также все пишет на Питоне, алгоритмы с нуля. Это самое главное правило изучения ML - читаешь paper и пишешь алгоритм по ней. Пусть криво/косо, но зато запомнишь надолго
13👍7🔥6
Зарегистрировал компанию в UK - заняло час. Делала бухгалтер
Открыл сам счет в Монзо за 10 минут - вот это скорость!
Я правда там и депозиты держу, и кредитку.

Все сильно проще, чем когда я открывал компанию в США - другие деньги и другое время ожидание открытия счета в Mercury


UPDATE: если вам интересно как банкротится компания, где я работал https://find-and-update.company-information.service.gov.uk/company/12585400/filing-history В Filings публикуются документы по ликвидации
👍5🔥4
Почему ML инженер должен не только умело применять существующие Machine learning модели, но и уметь писать их с нуля?
Сегодня я столкнулся с ситуацией, когда написанная мной Loss функция отказывалась считаться в LightGBM. С точки зрения математики все было правильно. Дьявол оказался в деталях.
https://github.com/microsoft/LightGBM/pull/1199
7 лет назад они сделали патч, который просто сделал для L1 loss hessian = 1, а не нулю (вторая производная). Выглядит очень нелогично (объяснение здесь - https://stats.stackexchange.com/a/585747), но поменяв 0 на 1 у меня все заработало. Если бы у меня не было опыта написания ML, то скорее всего я бы не разобрался. Если вы ML инженер, и все написанное выше полная белиберда, то рекомендую заняться самообучением.
Чуть выше я уже писал про отличный разбор алгоритмов ML, их анализом и кодированием. (https://t.me/topdatalab/345)

PS: Завтра до четверга я прилетаю в Хаарлем (Нидерланды), если есть желание встретится вечером - пишите
👍3🔥2🤯1😱1
Много накопленных маленьких ошибок перемножаются между собой и превращаются в большую и жирную ошибку.
Не ругайте меня за перфекционизм, когда я пытаюсь ликвидировать все маленькие ошибки насколько это возможно. Это касается не только BI, но и ML моделей. Garbage In, garbage out.
Часто я сталкиваюсь даже с сопротивлением инженеров: “да у нас тут и так криво и косо, нет смысла лечить эту ошибку”. Смысл есть - я хочу быть уверенным, что в том месте никакой ошибки нет, чтобы я не тратил время на поиски в этом месте.
👍151🤪1
Почему я не люблю облака :)

https://www.bbc.co.uk/news/live/cnk4jdwp49et
Если кратко, накрылось облако Azure и все посыпалось. Мы не смогли записать ребенка к врачу, и даже думали вызвать скорую, но в uk она не приедет.
Второе - задело системы железных дорог, и как раз мне сегодня нужно ехать :(

PS: я старой формации, поднять и настроить сервера где нибудь на Hetzner это мое
👍8🔥32
У меня всегда был интерес к табличным данным, с которыми текущие GPT модели плохо справляются.
И вот статья от создателя самой известной ML библиотеки scikit-learn. CARTE!

https://gael-varoquaux.info/science/carte-toward-table-foundation-models.html
👍6
В AI гонке есть видимая борьба за ресурсы (чипы с GPU) и невидимая - за данные!
Cloudflare недавно запустил опцию блокировки AI ботов.
Я у себя включил.

Из документации
"AI bots

You can block artificial intelligence (AI) bots, crawlers, and scrapers from scraping your website content and training large language models (LLM) to recreate it without your permission. When you enable this feature, Cloudflare deploys a custom rule to detect and block AI bots from your website.
This feature is available on all Cloudflare plans."
https://developers.cloudflare.com/bots/concepts/bot/#ai-bots
👍63