Я еще не писал, но я также пробуюсь в высокочастотный трейдинг.
Мне дали тестовое задание, уже две недели фул тайм бьюсь. Прогресс есть, но не такой серьезный, как бы я хотел
Задача уровня Kaggle, но сложнее
Мне дали тестовое задание, уже две недели фул тайм бьюсь. Прогресс есть, но не такой серьезный, как бы я хотел
Задача уровня Kaggle, но сложнее
😱6🔥3
Учитесь, как забирать Open Source проекты под свое крыло :).
MotherDuck забрали себе драйвер подключения базы данных DuckDB к Metabase
https://github.com/AlexR2D2/metabase_duckdb_driver/issues/29
MotherDuck забрали себе драйвер подключения базы данных DuckDB к Metabase
https://github.com/AlexR2D2/metabase_duckdb_driver/issues/29
🔥1
Я вот думаю, а почему на собеседовании не разрешить пользоваться ChatGPT?
На эту иглу почти все подсели. Лично моя производительность увеличилась в 2-3 раза с помощью этого сервиса. Получается, что это важный навык и его нужно проверять.
На эту иглу почти все подсели. Лично моя производительность увеличилась в 2-3 раза с помощью этого сервиса. Получается, что это важный навык и его нужно проверять.
Final Results
70%
Разрешить Chat GPT на собеседовании
7%
Запретить
23%
Не знаю
This media is not supported in your browser
VIEW IN TELEGRAM
Оффтопик. Не в тему чата, но сегодня я нашел доказательство многих моих бед за последний год: до полусмерти покусанный мой кот, поврежденные вещи. У нас забор два метра, и оказывается эти животные спокойно их перепрыгивают
🤯15
Делаю инструмент для менеджеров по продажам, а получается сервис для борьбы с коррупцией и отмыва денег 🙂
Мне удалось связать директоров и владельцев из Company House, теперь можен просто бродить по ссылкам и искать конечных владельцев компаний в пределах UK.
Вчера продолжал осваивать DBT, написал десятки тестов, сразу нашел баги и исправил.
Если вы стоите перед выбором использовать DBT или нет - используйте! Это сделает работу вашей аналитической системы прозрачной.
Из важного: завтра я проведу вебинар по DuckDB через LinkedIn (английский язык, 26 апреля в 19:30 по Лондону, 21:30 по Москве)
https://www.linkedin.com/events/7185697388240502785/comments/
Это будет повторение прошлого вебинара (https://www.youtube.com/watch?v=biyPV-4glN4), но я добавлю немного про полнотекстовый поиск в DuckDB
PS: ищу сейлзов, кто хочет поднять свои продажи в UK на B2B рынке. Двух из финтеха уже нашел, но нужно еще.
Ставлю себе задачу раскачать их до лучших сейлзов в их компаниях с помощью data инструментов, которые разрабатываю прямо сейчас
Мне удалось связать директоров и владельцев из Company House, теперь можен просто бродить по ссылкам и искать конечных владельцев компаний в пределах UK.
Вчера продолжал осваивать DBT, написал десятки тестов, сразу нашел баги и исправил.
Если вы стоите перед выбором использовать DBT или нет - используйте! Это сделает работу вашей аналитической системы прозрачной.
Из важного: завтра я проведу вебинар по DuckDB через LinkedIn (английский язык, 26 апреля в 19:30 по Лондону, 21:30 по Москве)
https://www.linkedin.com/events/7185697388240502785/comments/
Это будет повторение прошлого вебинара (https://www.youtube.com/watch?v=biyPV-4glN4), но я добавлю немного про полнотекстовый поиск в DuckDB
PS: ищу сейлзов, кто хочет поднять свои продажи в UK на B2B рынке. Двух из финтеха уже нашел, но нужно еще.
Ставлю себе задачу раскачать их до лучших сейлзов в их компаниях с помощью data инструментов, которые разрабатываю прямо сейчас
👍14
topdatalab
Machine Learning ONS1 - New Loop.pdf
Продолжаю собеседоваться.
Вот такую формулу (loss) вывел для задачи оптимизации высокочастотно торговли.
Первую и вторые производные вывел аналитически, о чем также попросил ChatGPT. Результаты совпали. Но к самой задаче подохладел, уж больно неохота еще неделю сидеть подбирать параметры LightGBM :(
Сегодня также собеседовался в www.intercom.com, было два интервью. Одно на leetcode, второе про мои проекты, которые делал раньше. По литкоду - написал функцию гистограмм, оптимизировал ее и посчитал time complexity. В целом понравилось, я был на одной волне с интервьюерами. Ребята очень хорошие. Очень хорошо видно культуру компании по ее интервьюерам.
Вот такую формулу (loss) вывел для задачи оптимизации высокочастотно торговли.
Первую и вторые производные вывел аналитически, о чем также попросил ChatGPT. Результаты совпали. Но к самой задаче подохладел, уж больно неохота еще неделю сидеть подбирать параметры LightGBM :(
Сегодня также собеседовался в www.intercom.com, было два интервью. Одно на leetcode, второе про мои проекты, которые делал раньше. По литкоду - написал функцию гистограмм, оптимизировал ее и посчитал time complexity. В целом понравилось, я был на одной волне с интервьюерами. Ребята очень хорошие. Очень хорошо видно культуру компании по ее интервьюерам.
🔥8👍6❤1
Быть честным по отношению к клиентам?
В процессе поиска данных для B2B банка в UK, я понял, насколько все гнилое и старое. Данные часто не обновляются, кривые, косые. Поэтому у себя на сайте я повесил почти на всех страницах табличку - когда данные были обновлены.
Вчера сделал первый небольшой дамп компаний в UK для первого сейлза, надеюсь вернется с обратной связью на следующей неделе. Обшлось без AI, я просто написал большой SQL скрипт.
PS: два дня была ошибка в обновлении, что видно по таблице, сегодня исправлю
В процессе поиска данных для B2B банка в UK, я понял, насколько все гнилое и старое. Данные часто не обновляются, кривые, косые. Поэтому у себя на сайте я повесил почти на всех страницах табличку - когда данные были обновлены.
Вчера сделал первый небольшой дамп компаний в UK для первого сейлза, надеюсь вернется с обратной связью на следующей неделе. Обшлось без AI, я просто написал большой SQL скрипт.
PS: два дня была ошибка в обновлении, что видно по таблице, сегодня исправлю
👌8
topdatalab
Продолжаю собеседоваться. Вот такую формулу (loss) вывел для задачи оптимизации высокочастотно торговли. Первую и вторые производные вывел аналитически, о чем также попросил ChatGPT. Результаты совпали. Но к самой задаче подохладел, уж больно неохота еще неделю…
Machine Learning ONS 2 - New Loop.pdf
3.9 MB
После интервью с intercom получил приглашение на следующие 4 интервью.
Прислали методичку для подготовки. Посмотрите, как качественно сделано.
Прислали методичку для подготовки. Посмотрите, как качественно сделано.
🔥10
Первый алгоритм компрессии текстовых данных я придумал лет в 13. Дело в том, что стандартная таблица символов ASCII использовала только 7 бит из 8ми. Это означало, что каждый восьмой символ текста можно было «размазать» по верхним битам предыдущих 7ми. Тогда у меня все получилось.
Сейчас читаю как сделана компрессия данных в DuckDb
https://duckdb.org/2022/10/28/lightweight-compression.html
Науки там много нет, а много всяких статистических хаков, и они работают!
Сейчас читаю как сделана компрессия данных в DuckDb
https://duckdb.org/2022/10/28/lightweight-compression.html
Науки там много нет, а много всяких статистических хаков, и они работают!
🔥3
Почему я продолжаю верить в рынки данных несмотря на LLM AI?
Потому что без данных LLM пустышка! Представьте, что LLM это на самом деле интерфейс к данным. Раньше нужно было много кликать, читать мануалов, как пользоваться интерфейсом программ. А с чат ботом это сильно упрощается. Сами LLM развиваются, становятся все более доступными, а значит теряют свое конкурентное преимущество.
Поясню.
Раньше какая-то команда могла натренировать модель, и продавать ее на рынке. Сейчас модели становятся сервисом, а значит доступны другим командам. Это становится просто технологией. Следовательно, конкурентное преимущество будет определяться больше продуктом и данными, которые есть у команды. И именно эксклюзивный доступ к каким-либо данным будет серьезным конкурентным преимуществом.
Именно в этом направлении я и вижу свой проект!
PS: где пока тяжело LLM - это структурированные данные. С тестом, звуком и видео разобрались хорошо, но не так все хорошо с табличными данными в хранилищах
Потому что без данных LLM пустышка! Представьте, что LLM это на самом деле интерфейс к данным. Раньше нужно было много кликать, читать мануалов, как пользоваться интерфейсом программ. А с чат ботом это сильно упрощается. Сами LLM развиваются, становятся все более доступными, а значит теряют свое конкурентное преимущество.
Поясню.
Раньше какая-то команда могла натренировать модель, и продавать ее на рынке. Сейчас модели становятся сервисом, а значит доступны другим командам. Это становится просто технологией. Следовательно, конкурентное преимущество будет определяться больше продуктом и данными, которые есть у команды. И именно эксклюзивный доступ к каким-либо данным будет серьезным конкурентным преимуществом.
Именно в этом направлении я и вижу свой проект!
PS: где пока тяжело LLM - это структурированные данные. С тестом, звуком и видео разобрались хорошо, но не так все хорошо с табличными данными в хранилищах
💯10❤2👍1
В контексте AI, а что теперь с IBM Watson? Живет? Или OpenAI вытеснил?
Кто-нибудь слышал?
Кто-нибудь слышал?
👍1
Продолжаю работать со своим проектом - Retenly
Все выходные выкатывал новый функцинал на сайт. Столкнулся с серьезным падением производительности, DuckDB не использует индекс для SQL операций c IN 🙁
Параллельно пытаюсь продавать:
1) Один sales менеджер уже работает с моими данными - Финтех в UK
2) Возможно я получу крутого клиента - Import Genius. Один из самых дорогих поставщиков данных по экспорту/импорту. Им тоже нужно продавать
3) Веду переписку с нотариальной компанией в UK, возможно смогу сделать решение для них
PS: если у вас есть знакомые, кому интересно продать товары или услуги на рынке в UK (B2B) - напишите про меня
UPDATE: только что получил хороший отзыв от Compliance Director, бывшего детектива Скотленд-Ярда
Все выходные выкатывал новый функцинал на сайт. Столкнулся с серьезным падением производительности, DuckDB не использует индекс для SQL операций c IN 🙁
Параллельно пытаюсь продавать:
1) Один sales менеджер уже работает с моими данными - Финтех в UK
2) Возможно я получу крутого клиента - Import Genius. Один из самых дорогих поставщиков данных по экспорту/импорту. Им тоже нужно продавать
3) Веду переписку с нотариальной компанией в UK, возможно смогу сделать решение для них
PS: если у вас есть знакомые, кому интересно продать товары или услуги на рынке в UK (B2B) - напишите про меня
UPDATE: только что получил хороший отзыв от Compliance Director, бывшего детектива Скотленд-Ярда
🔥9❤1
topdatalab
Machine Learning ONS 2 - New Loop.pdf
HR учитесь у intercom!
На прошлой неделе со мной созванивался рекрутер intercom. Он не только рассказал про следующие 4 собеседования, но и рассказал про итоги прошлых двух. Он прямо мне зачитал, что написали обо мне прошлые интервьюеры, все мои pros и cons. Также дал советы как учесть эти мнения в следующих интервью
На прошлой неделе со мной созванивался рекрутер intercom. Он не только рассказал про следующие 4 собеседования, но и рассказал про итоги прошлых двух. Он прямо мне зачитал, что написали обо мне прошлые интервьюеры, все мои pros и cons. Также дал советы как учесть эти мнения в следующих интервью
👍15🔥12❤3😱3
topdatalab
Оффтопик. Не в тему чата, но сегодня я нашел доказательство многих моих бед за последний год: до полусмерти покусанный мой кот, поврежденные вещи. У нас забор два метра, и оказывается эти животные спокойно их перепрыгивают
Что делать с лисой?
Она продолжает ходить к нам и портить вещи по ночам.
А сегодня ночью нагадила в прямом смысле на беговел сына :(
Капкан?
Она продолжает ходить к нам и портить вещи по ночам.
А сегодня ночью нагадила в прямом смысле на беговел сына :(
Капкан?
❤1😁1
Читаю комменты в Linked In к вопросу - что использовать для преобразования данных SQL или Python?
Я сторонник SQL, особенно, когда можно использовать DBT. Причины простые:
1) Локальность данных, данные не будут гоняться по сети, все преобразования произойдут не сервере базы данных.
Что очень важно, когда работаешь с таблицами больше 10Гб. А если это терабайты?
2) Код понятнее. Я считаю, что код на SQL более читабельней, чем какой-нибудь Pandas.
Особенно если для трансформации используется несколько последовательных таблиц и CTE.
3) Сейчас можно тестировать SQL, если работаете с DBT. В последней версии DBT 1.8 уже можно писать
unit тесты с синтетическими данными.
Я на 90% использую DBT, а Python использую для написания функций, которые можно вызывать из SQL
Я сторонник SQL, особенно, когда можно использовать DBT. Причины простые:
1) Локальность данных, данные не будут гоняться по сети, все преобразования произойдут не сервере базы данных.
Что очень важно, когда работаешь с таблицами больше 10Гб. А если это терабайты?
2) Код понятнее. Я считаю, что код на SQL более читабельней, чем какой-нибудь Pandas.
Особенно если для трансформации используется несколько последовательных таблиц и CTE.
3) Сейчас можно тестировать SQL, если работаете с DBT. В последней версии DBT 1.8 уже можно писать
unit тесты с синтетическими данными.
Я на 90% использую DBT, а Python использую для написания функций, которые можно вызывать из SQL
👍9🔥5💯3🤔1
ChatGPT для MacOS от OpenAI
https://persistent.oaistatic.com/sidekick/public/ChatGPT_Desktop_public_latest.dmg
Но даже если вы поставите его, доступа может пока не быть. Они постепенно раскатывают его
https://persistent.oaistatic.com/sidekick/public/ChatGPT_Desktop_public_latest.dmg
Но даже если вы поставите его, доступа может пока не быть. Они постепенно раскатывают его
👍3🔥1
Low ego / team player вижу в вакансии, которую прислали.
Вообще много, где так пишут.
Интересно, насколько отличается эффективность low ego от high ego? Может ли быть high ego хорошим team player?
Следующий вопрос - работает ли это на уровне акционеров и высшего менеджмента? Ведь цель любого бизнеса - прибыль любой ценой. И там все как в джунглях.
Вообще много, где так пишут.
Интересно, насколько отличается эффективность low ego от high ego? Может ли быть high ego хорошим team player?
Следующий вопрос - работает ли это на уровне акционеров и высшего менеджмента? Ведь цель любого бизнеса - прибыль любой ценой. И там все как в джунглях.
❤1👍1
Целый день работал и смог запустить metabase поверх retenly.com
Теперь каждый зарегистрированный пользователь имеет прямой SQL доступ ко всем данным британских компаний, включая импорт и экспорт. Закрытая бета - если нужен доступ маякните мне
Подробности технический реализации:
1) использовался драйвер Metabase Duckdb https://github.com/MotherDuck-Open-Source/metabase_duckdb_driver
2) я включил Google авторизацию в nginx и metabase - не нужно помнить пароль
Теперь каждый зарегистрированный пользователь имеет прямой SQL доступ ко всем данным британских компаний, включая импорт и экспорт. Закрытая бета - если нужен доступ маякните мне
Подробности технический реализации:
1) использовался драйвер Metabase Duckdb https://github.com/MotherDuck-Open-Source/metabase_duckdb_driver
2) я включил Google авторизацию в nginx и metabase - не нужно помнить пароль
🔥5❤1
Отчитываюсь по собеседованиям!
Забегая вперед напишу, что я выхожу работать в начале июня
--Финтех стартап - VP of data - отказался сам
Здесь на Canary Wharf запускается новый финтах стартап. Примерно в течение месяца у меня было четыре интервью с ними. Вчера было последнее, где я уже сообщил, что мне сам финтех уже не так интересен. То есть я отказался сам, но мы оставили возможность для консультаций.
--Стартап в области тревел - VP of data - отказался сам
Было пару интервью. Я отказался сам от продолжения.
--British Petroleum - Staff Data Analyst - продолжаю
Сегодня было техническое интервью с CTO. Первые полчаса мы разговаривали в том числе, как стимулировать сотрудников не уходить из-за скучной работы. Вторую часть времени я решал задачу - проектировал структуру таблицу для сервиса такси и писал SQL скрипт для вычисления метрики. Метрика звучала так - нужно найти города, где самый большой разрыв между числом клиентов и водителями. Задачу я решил. Но она была с изюминкой и в лоб ее не решить. На следующей неделе у меня техническая презентация для группы людей.
--Intercom - Senior ML engineer - мне отказали
Я уже писал выше о первых трех интервью и их восхитительном процессе найма, когда мне дали полную обратную связь, а именно что каждый интервьюер написал про меня.
В понедельник у меня было четыре интервью:
1) Техническая презентация - прошел
2) ML skills - прошел
3) Personal values - прошел
4) Технические дизайн - не прошел :(. Запутался в деталях и все делал медленно.
Сегодня я созванивался с рекрутером. Как и после первых интервью он зачитал мне персональное мнение интервьюеров. Общий мой недостаток - ухожу в сторону, не хватает ясности в моих объяснениях.
--Высокочастотный трейдинг - ML researcher - получил оффер
Как вы помните из постов выше, мне дали тестовое задание, и я потратил почти три недели своего времени на ее решение. В абсолюте я задачу не решил, но мои подходы к ее решению очень понравились. Потом у меня было интервью с Head of ML. Следующим шагом мы начали обсуждать оффер. Здесь я сам предложил тестово поработать. Мне пошли навстречу, и буквально на следующий день я приземлился в Амстердаме. Поработав с ними три дня я понял, что это мое, так как напомнило мне мои времена в Retail Rocket: задача очень сложная и требует много математике и экспериментов.
Оффер я принял, выхожу работать в первых числах июня.
Забегая вперед напишу, что я выхожу работать в начале июня
--Финтех стартап - VP of data - отказался сам
Здесь на Canary Wharf запускается новый финтах стартап. Примерно в течение месяца у меня было четыре интервью с ними. Вчера было последнее, где я уже сообщил, что мне сам финтех уже не так интересен. То есть я отказался сам, но мы оставили возможность для консультаций.
--Стартап в области тревел - VP of data - отказался сам
Было пару интервью. Я отказался сам от продолжения.
--British Petroleum - Staff Data Analyst - продолжаю
Сегодня было техническое интервью с CTO. Первые полчаса мы разговаривали в том числе, как стимулировать сотрудников не уходить из-за скучной работы. Вторую часть времени я решал задачу - проектировал структуру таблицу для сервиса такси и писал SQL скрипт для вычисления метрики. Метрика звучала так - нужно найти города, где самый большой разрыв между числом клиентов и водителями. Задачу я решил. Но она была с изюминкой и в лоб ее не решить. На следующей неделе у меня техническая презентация для группы людей.
--Intercom - Senior ML engineer - мне отказали
Я уже писал выше о первых трех интервью и их восхитительном процессе найма, когда мне дали полную обратную связь, а именно что каждый интервьюер написал про меня.
В понедельник у меня было четыре интервью:
1) Техническая презентация - прошел
2) ML skills - прошел
3) Personal values - прошел
4) Технические дизайн - не прошел :(. Запутался в деталях и все делал медленно.
Сегодня я созванивался с рекрутером. Как и после первых интервью он зачитал мне персональное мнение интервьюеров. Общий мой недостаток - ухожу в сторону, не хватает ясности в моих объяснениях.
--Высокочастотный трейдинг - ML researcher - получил оффер
Как вы помните из постов выше, мне дали тестовое задание, и я потратил почти три недели своего времени на ее решение. В абсолюте я задачу не решил, но мои подходы к ее решению очень понравились. Потом у меня было интервью с Head of ML. Следующим шагом мы начали обсуждать оффер. Здесь я сам предложил тестово поработать. Мне пошли навстречу, и буквально на следующий день я приземлился в Амстердаме. Поработав с ними три дня я понял, что это мое, так как напомнило мне мои времена в Retail Rocket: задача очень сложная и требует много математике и экспериментов.
Оффер я принял, выхожу работать в первых числах июня.
🔥38❤13👏13