Machine Learning ONS1 - New Loop.pdf
3.9 MB
Продолжаю собеседоваться - сегодня было интервью на Staff Analyst в BP. Рекоменддации по подготовке я публиковал выше. Думаю, что я его прошел, было очень много вопросов в т.ч. на формулу Байеса. Моя книга бы мне помогла в подготовке.
На очереди Senior Machine Learning Engineer.
Гайд по подготовке приложен. Довольно интересный и профессиональный
На очереди Senior Machine Learning Engineer.
Гайд по подготовке приложен. Довольно интересный и профессиональный
👍7
Я еще не писал, но я также пробуюсь в высокочастотный трейдинг.
Мне дали тестовое задание, уже две недели фул тайм бьюсь. Прогресс есть, но не такой серьезный, как бы я хотел
Задача уровня Kaggle, но сложнее
Мне дали тестовое задание, уже две недели фул тайм бьюсь. Прогресс есть, но не такой серьезный, как бы я хотел
Задача уровня Kaggle, но сложнее
😱6🔥3
Учитесь, как забирать Open Source проекты под свое крыло :).
MotherDuck забрали себе драйвер подключения базы данных DuckDB к Metabase
https://github.com/AlexR2D2/metabase_duckdb_driver/issues/29
MotherDuck забрали себе драйвер подключения базы данных DuckDB к Metabase
https://github.com/AlexR2D2/metabase_duckdb_driver/issues/29
🔥1
Я вот думаю, а почему на собеседовании не разрешить пользоваться ChatGPT?
На эту иглу почти все подсели. Лично моя производительность увеличилась в 2-3 раза с помощью этого сервиса. Получается, что это важный навык и его нужно проверять.
На эту иглу почти все подсели. Лично моя производительность увеличилась в 2-3 раза с помощью этого сервиса. Получается, что это важный навык и его нужно проверять.
Final Results
70%
Разрешить Chat GPT на собеседовании
7%
Запретить
23%
Не знаю
This media is not supported in your browser
VIEW IN TELEGRAM
Оффтопик. Не в тему чата, но сегодня я нашел доказательство многих моих бед за последний год: до полусмерти покусанный мой кот, поврежденные вещи. У нас забор два метра, и оказывается эти животные спокойно их перепрыгивают
🤯15
Делаю инструмент для менеджеров по продажам, а получается сервис для борьбы с коррупцией и отмыва денег 🙂
Мне удалось связать директоров и владельцев из Company House, теперь можен просто бродить по ссылкам и искать конечных владельцев компаний в пределах UK.
Вчера продолжал осваивать DBT, написал десятки тестов, сразу нашел баги и исправил.
Если вы стоите перед выбором использовать DBT или нет - используйте! Это сделает работу вашей аналитической системы прозрачной.
Из важного: завтра я проведу вебинар по DuckDB через LinkedIn (английский язык, 26 апреля в 19:30 по Лондону, 21:30 по Москве)
https://www.linkedin.com/events/7185697388240502785/comments/
Это будет повторение прошлого вебинара (https://www.youtube.com/watch?v=biyPV-4glN4), но я добавлю немного про полнотекстовый поиск в DuckDB
PS: ищу сейлзов, кто хочет поднять свои продажи в UK на B2B рынке. Двух из финтеха уже нашел, но нужно еще.
Ставлю себе задачу раскачать их до лучших сейлзов в их компаниях с помощью data инструментов, которые разрабатываю прямо сейчас
Мне удалось связать директоров и владельцев из Company House, теперь можен просто бродить по ссылкам и искать конечных владельцев компаний в пределах UK.
Вчера продолжал осваивать DBT, написал десятки тестов, сразу нашел баги и исправил.
Если вы стоите перед выбором использовать DBT или нет - используйте! Это сделает работу вашей аналитической системы прозрачной.
Из важного: завтра я проведу вебинар по DuckDB через LinkedIn (английский язык, 26 апреля в 19:30 по Лондону, 21:30 по Москве)
https://www.linkedin.com/events/7185697388240502785/comments/
Это будет повторение прошлого вебинара (https://www.youtube.com/watch?v=biyPV-4glN4), но я добавлю немного про полнотекстовый поиск в DuckDB
PS: ищу сейлзов, кто хочет поднять свои продажи в UK на B2B рынке. Двух из финтеха уже нашел, но нужно еще.
Ставлю себе задачу раскачать их до лучших сейлзов в их компаниях с помощью data инструментов, которые разрабатываю прямо сейчас
👍14
topdatalab
Machine Learning ONS1 - New Loop.pdf
Продолжаю собеседоваться.
Вот такую формулу (loss) вывел для задачи оптимизации высокочастотно торговли.
Первую и вторые производные вывел аналитически, о чем также попросил ChatGPT. Результаты совпали. Но к самой задаче подохладел, уж больно неохота еще неделю сидеть подбирать параметры LightGBM :(
Сегодня также собеседовался в www.intercom.com, было два интервью. Одно на leetcode, второе про мои проекты, которые делал раньше. По литкоду - написал функцию гистограмм, оптимизировал ее и посчитал time complexity. В целом понравилось, я был на одной волне с интервьюерами. Ребята очень хорошие. Очень хорошо видно культуру компании по ее интервьюерам.
Вот такую формулу (loss) вывел для задачи оптимизации высокочастотно торговли.
Первую и вторые производные вывел аналитически, о чем также попросил ChatGPT. Результаты совпали. Но к самой задаче подохладел, уж больно неохота еще неделю сидеть подбирать параметры LightGBM :(
Сегодня также собеседовался в www.intercom.com, было два интервью. Одно на leetcode, второе про мои проекты, которые делал раньше. По литкоду - написал функцию гистограмм, оптимизировал ее и посчитал time complexity. В целом понравилось, я был на одной волне с интервьюерами. Ребята очень хорошие. Очень хорошо видно культуру компании по ее интервьюерам.
🔥8👍6❤1
Быть честным по отношению к клиентам?
В процессе поиска данных для B2B банка в UK, я понял, насколько все гнилое и старое. Данные часто не обновляются, кривые, косые. Поэтому у себя на сайте я повесил почти на всех страницах табличку - когда данные были обновлены.
Вчера сделал первый небольшой дамп компаний в UK для первого сейлза, надеюсь вернется с обратной связью на следующей неделе. Обшлось без AI, я просто написал большой SQL скрипт.
PS: два дня была ошибка в обновлении, что видно по таблице, сегодня исправлю
В процессе поиска данных для B2B банка в UK, я понял, насколько все гнилое и старое. Данные часто не обновляются, кривые, косые. Поэтому у себя на сайте я повесил почти на всех страницах табличку - когда данные были обновлены.
Вчера сделал первый небольшой дамп компаний в UK для первого сейлза, надеюсь вернется с обратной связью на следующей неделе. Обшлось без AI, я просто написал большой SQL скрипт.
PS: два дня была ошибка в обновлении, что видно по таблице, сегодня исправлю
👌8
topdatalab
Продолжаю собеседоваться. Вот такую формулу (loss) вывел для задачи оптимизации высокочастотно торговли. Первую и вторые производные вывел аналитически, о чем также попросил ChatGPT. Результаты совпали. Но к самой задаче подохладел, уж больно неохота еще неделю…
Machine Learning ONS 2 - New Loop.pdf
3.9 MB
После интервью с intercom получил приглашение на следующие 4 интервью.
Прислали методичку для подготовки. Посмотрите, как качественно сделано.
Прислали методичку для подготовки. Посмотрите, как качественно сделано.
🔥10
Первый алгоритм компрессии текстовых данных я придумал лет в 13. Дело в том, что стандартная таблица символов ASCII использовала только 7 бит из 8ми. Это означало, что каждый восьмой символ текста можно было «размазать» по верхним битам предыдущих 7ми. Тогда у меня все получилось.
Сейчас читаю как сделана компрессия данных в DuckDb
https://duckdb.org/2022/10/28/lightweight-compression.html
Науки там много нет, а много всяких статистических хаков, и они работают!
Сейчас читаю как сделана компрессия данных в DuckDb
https://duckdb.org/2022/10/28/lightweight-compression.html
Науки там много нет, а много всяких статистических хаков, и они работают!
🔥3
Почему я продолжаю верить в рынки данных несмотря на LLM AI?
Потому что без данных LLM пустышка! Представьте, что LLM это на самом деле интерфейс к данным. Раньше нужно было много кликать, читать мануалов, как пользоваться интерфейсом программ. А с чат ботом это сильно упрощается. Сами LLM развиваются, становятся все более доступными, а значит теряют свое конкурентное преимущество.
Поясню.
Раньше какая-то команда могла натренировать модель, и продавать ее на рынке. Сейчас модели становятся сервисом, а значит доступны другим командам. Это становится просто технологией. Следовательно, конкурентное преимущество будет определяться больше продуктом и данными, которые есть у команды. И именно эксклюзивный доступ к каким-либо данным будет серьезным конкурентным преимуществом.
Именно в этом направлении я и вижу свой проект!
PS: где пока тяжело LLM - это структурированные данные. С тестом, звуком и видео разобрались хорошо, но не так все хорошо с табличными данными в хранилищах
Потому что без данных LLM пустышка! Представьте, что LLM это на самом деле интерфейс к данным. Раньше нужно было много кликать, читать мануалов, как пользоваться интерфейсом программ. А с чат ботом это сильно упрощается. Сами LLM развиваются, становятся все более доступными, а значит теряют свое конкурентное преимущество.
Поясню.
Раньше какая-то команда могла натренировать модель, и продавать ее на рынке. Сейчас модели становятся сервисом, а значит доступны другим командам. Это становится просто технологией. Следовательно, конкурентное преимущество будет определяться больше продуктом и данными, которые есть у команды. И именно эксклюзивный доступ к каким-либо данным будет серьезным конкурентным преимуществом.
Именно в этом направлении я и вижу свой проект!
PS: где пока тяжело LLM - это структурированные данные. С тестом, звуком и видео разобрались хорошо, но не так все хорошо с табличными данными в хранилищах
💯10❤2👍1
В контексте AI, а что теперь с IBM Watson? Живет? Или OpenAI вытеснил?
Кто-нибудь слышал?
Кто-нибудь слышал?
👍1
Продолжаю работать со своим проектом - Retenly
Все выходные выкатывал новый функцинал на сайт. Столкнулся с серьезным падением производительности, DuckDB не использует индекс для SQL операций c IN 🙁
Параллельно пытаюсь продавать:
1) Один sales менеджер уже работает с моими данными - Финтех в UK
2) Возможно я получу крутого клиента - Import Genius. Один из самых дорогих поставщиков данных по экспорту/импорту. Им тоже нужно продавать
3) Веду переписку с нотариальной компанией в UK, возможно смогу сделать решение для них
PS: если у вас есть знакомые, кому интересно продать товары или услуги на рынке в UK (B2B) - напишите про меня
UPDATE: только что получил хороший отзыв от Compliance Director, бывшего детектива Скотленд-Ярда
Все выходные выкатывал новый функцинал на сайт. Столкнулся с серьезным падением производительности, DuckDB не использует индекс для SQL операций c IN 🙁
Параллельно пытаюсь продавать:
1) Один sales менеджер уже работает с моими данными - Финтех в UK
2) Возможно я получу крутого клиента - Import Genius. Один из самых дорогих поставщиков данных по экспорту/импорту. Им тоже нужно продавать
3) Веду переписку с нотариальной компанией в UK, возможно смогу сделать решение для них
PS: если у вас есть знакомые, кому интересно продать товары или услуги на рынке в UK (B2B) - напишите про меня
UPDATE: только что получил хороший отзыв от Compliance Director, бывшего детектива Скотленд-Ярда
🔥9❤1
topdatalab
Machine Learning ONS 2 - New Loop.pdf
HR учитесь у intercom!
На прошлой неделе со мной созванивался рекрутер intercom. Он не только рассказал про следующие 4 собеседования, но и рассказал про итоги прошлых двух. Он прямо мне зачитал, что написали обо мне прошлые интервьюеры, все мои pros и cons. Также дал советы как учесть эти мнения в следующих интервью
На прошлой неделе со мной созванивался рекрутер intercom. Он не только рассказал про следующие 4 собеседования, но и рассказал про итоги прошлых двух. Он прямо мне зачитал, что написали обо мне прошлые интервьюеры, все мои pros и cons. Также дал советы как учесть эти мнения в следующих интервью
👍15🔥12❤3😱3
topdatalab
Оффтопик. Не в тему чата, но сегодня я нашел доказательство многих моих бед за последний год: до полусмерти покусанный мой кот, поврежденные вещи. У нас забор два метра, и оказывается эти животные спокойно их перепрыгивают
Что делать с лисой?
Она продолжает ходить к нам и портить вещи по ночам.
А сегодня ночью нагадила в прямом смысле на беговел сына :(
Капкан?
Она продолжает ходить к нам и портить вещи по ночам.
А сегодня ночью нагадила в прямом смысле на беговел сына :(
Капкан?
❤1😁1
Читаю комменты в Linked In к вопросу - что использовать для преобразования данных SQL или Python?
Я сторонник SQL, особенно, когда можно использовать DBT. Причины простые:
1) Локальность данных, данные не будут гоняться по сети, все преобразования произойдут не сервере базы данных.
Что очень важно, когда работаешь с таблицами больше 10Гб. А если это терабайты?
2) Код понятнее. Я считаю, что код на SQL более читабельней, чем какой-нибудь Pandas.
Особенно если для трансформации используется несколько последовательных таблиц и CTE.
3) Сейчас можно тестировать SQL, если работаете с DBT. В последней версии DBT 1.8 уже можно писать
unit тесты с синтетическими данными.
Я на 90% использую DBT, а Python использую для написания функций, которые можно вызывать из SQL
Я сторонник SQL, особенно, когда можно использовать DBT. Причины простые:
1) Локальность данных, данные не будут гоняться по сети, все преобразования произойдут не сервере базы данных.
Что очень важно, когда работаешь с таблицами больше 10Гб. А если это терабайты?
2) Код понятнее. Я считаю, что код на SQL более читабельней, чем какой-нибудь Pandas.
Особенно если для трансформации используется несколько последовательных таблиц и CTE.
3) Сейчас можно тестировать SQL, если работаете с DBT. В последней версии DBT 1.8 уже можно писать
unit тесты с синтетическими данными.
Я на 90% использую DBT, а Python использую для написания функций, которые можно вызывать из SQL
👍9🔥5💯3🤔1
ChatGPT для MacOS от OpenAI
https://persistent.oaistatic.com/sidekick/public/ChatGPT_Desktop_public_latest.dmg
Но даже если вы поставите его, доступа может пока не быть. Они постепенно раскатывают его
https://persistent.oaistatic.com/sidekick/public/ChatGPT_Desktop_public_latest.dmg
Но даже если вы поставите его, доступа может пока не быть. Они постепенно раскатывают его
👍3🔥1
Low ego / team player вижу в вакансии, которую прислали.
Вообще много, где так пишут.
Интересно, насколько отличается эффективность low ego от high ego? Может ли быть high ego хорошим team player?
Следующий вопрос - работает ли это на уровне акционеров и высшего менеджмента? Ведь цель любого бизнеса - прибыль любой ценой. И там все как в джунглях.
Вообще много, где так пишут.
Интересно, насколько отличается эффективность low ego от high ego? Может ли быть high ego хорошим team player?
Следующий вопрос - работает ли это на уровне акционеров и высшего менеджмента? Ведь цель любого бизнеса - прибыль любой ценой. И там все как в джунглях.
❤1👍1
Целый день работал и смог запустить metabase поверх retenly.com
Теперь каждый зарегистрированный пользователь имеет прямой SQL доступ ко всем данным британских компаний, включая импорт и экспорт. Закрытая бета - если нужен доступ маякните мне
Подробности технический реализации:
1) использовался драйвер Metabase Duckdb https://github.com/MotherDuck-Open-Source/metabase_duckdb_driver
2) я включил Google авторизацию в nginx и metabase - не нужно помнить пароль
Теперь каждый зарегистрированный пользователь имеет прямой SQL доступ ко всем данным британских компаний, включая импорт и экспорт. Закрытая бета - если нужен доступ маякните мне
Подробности технический реализации:
1) использовался драйвер Metabase Duckdb https://github.com/MotherDuck-Open-Source/metabase_duckdb_driver
2) я включил Google авторизацию в nginx и metabase - не нужно помнить пароль
🔥5❤1