topdatalab
1.27K subscribers
99 photos
10 videos
17 files
222 links
Канал поддержки книги «Как монетизировать данные». https://topdatalab.ru
Download Telegram
Получаю отписки после холодной отправки резюме. Пытаюсь делать тестовые задания - пока плохо получается. Рекрутеры куда-то пропадают. И накрывает синдром самозванца. Кажется, что рынок уехал куда-то далеко, и я не успел прыгнуть в этот поезд.

Как у вас с этим? Как боритесь с такими мыслями?
6
topdatalab
Получаю отписки после холодной отправки резюме. Пытаюсь делать тестовые задания - пока плохо получается. Рекрутеры куда-то пропадают. И накрывает синдром самозванца. Кажется, что рынок уехал куда-то далеко, и я не успел прыгнуть в этот поезд. Как у вас с…
Всем большое спасибо за ответы!

В целом да, здесь все по другому, и рынок здесь более специализированный. Заходить нужно действительно через знакомых. У меня так несколько раз получилось. И даже был оффер от Вайз, который я отклонил в декабре. Тогда я сделал ставку не на ту лошадь. :( Сейчас у меня запланированы собесы в BP. И знаете когда последнее? 25 или 28 мая :)

Но я больше склонен к стартапом, так как корп культура мне сейчас сложно дасться. Из интересных историй. На днях разговаривал с хорошим знакомым. Он senior data scientist, работал уже три года в сша. И вот решил он попасть в Meta. Нанял 4х коучей, кто-то прокачивал резюме (бывший hr меты), кто-то интервью. В мета он в итоге попал! Нужно прокачивать отдельно навык собеседований
2
Уже через два часа! 17 по UK, 19 по Москве
👍1
Forwarded from Инжиниринг Данных (Roman Ponomarev)
🚀
Анонс Вебинара: "Разработка data приложений на DuckDB"🚀

Давненько не было.... уверен ждали)))

📅 Дата вебинара 4 апреля в 7 вечера по мск

🎙Спикер - Роман Зыков.
Очень крутой спец, который уже дважды выступал у нас 🎙

🔗 Ссылка на вебинар:
https://youtube.com/live/biyPV-4glN4?feature=share

Мы всегда ищем способы сделать инженерию данных проще и удобнее. Роман Зыков создал полностью рабочую систему, которой хочет поделиться с вами!
При этом он отказался от использования знакомых инструментов.

🔍 Что мы обсудим на вебинаре:

🔸Почему выбрал DuckDB для разработки data приложений, отказавшись от привычных инструментов.
🔸Как построил полностью рабочую систему с базой данных, dbt, и оркестратором для ежедневного обновления данных без использования облачных сервисов.
🔸Живые примеры и исходные коды проекта.
🔸Управление данными с помощью DBT и Prefect.io.

👨‍💻 Приходите на вебинар, если вы хотите:
• Узнать, как использовать DuckDB для создания эффективных data приложений.
• Познакомиться с бесплатными инструментами для инжиниринга данных.
• Вдохновиться реальным проектом и увидеть, как можно управлять данными без облаков.


#datalearn #вебинар
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥7👍2
Прямо сейчас выкладываю большие изменения - почти полностью синхронизировал данные по британским компаниям, теперь они смогут обновляться хоть раз в час.
Это очень серьезное конкурентное преимущество над другими проектами. Поисковая выдача забита проектами с плохим обновлением данных.

Как я это сделал? См. видео в прошлом посте

Тем временем Mother Duck выпустила LLM сеть для генерации SQL запросов к DuckDB
https://motherduck.com/blog/duckdb-text2sql-llm/

Там есть сcылки, можете потестировать. Для меня это окрывает путь для написания AI интерфейса к вышеупомянутой БД!
Это значит, что пользоатель (например, менеджер по продажам) сможет писать текстом, что ему нужно, а в ответ система будет возвращать готовый файл со списком и параметрами компаний.
🔥9🤔3🤯3
Почему новость о том, что ЕС вводит уголовное наказание за обход санкций - это хорошая возможность для стартапов занимающихся compliance?
https://www.rbc.ru/politics/12/04/2024/6619028e9a79477298fc8e35

Уголовная отвественность очень сильно повышает риски. Закон распространяет всю сложность compliance теперь и на обычные коммерческие компании, а значит и им тоже придется проверять своих потенциальных клиентов.
Я работал в Британском банке автоматизируя сам процесс проверки клиентов. Он стал сейчас очень сложным, а следовательно затратным.

Обычно проверка нового клиента в банке выглядит следующим образом:
- регистрационные данные компании сверяются с регистрами, например, с Company House в Британии
- проверятся владельцы бизнеса. Не дай Бог один из них окажется резидентом не той страны. Самая простая проверка - это валидность документов, proof-of-address.
сложнее - в гугле или других спец сервисах сотрудники банка ищут что-нибудь "порочащее" одного из владельцев. Третье - владельцев пробивают в регистрах других стран, чтобы обнаружить другие юр лица
На этом шаге конечно вся информация сопоставляется с санкционными списками
- запрашиваются транзакции компании, сотрудники банка начинают проверять имена физлиц и компании. Тут у кого фантазии хватает

Банки уже сейчас очень сильно закручивают гайки, опасаясь риска попасть в цепочку "не таких" платежей. Причем наказание может случится, даже если умысла не было, а просто не досмотрели.

Поэтому стартапы, которые автоматизируют проверку клиента пойдут сейчас в РОСТ. Любые. Банки могут использовать несколько compliance инструментов одновременно, так как перекрестная проверка снижает ошибки.

PS: Несколько такие неосторожных платежей привели к закрытию банка, где я работал.
👀1
Machine Learning ONS1 - New Loop.pdf
3.9 MB
Продолжаю собеседоваться - сегодня было интервью на Staff Analyst в BP. Рекоменддации по подготовке я публиковал выше. Думаю, что я его прошел, было очень много вопросов в т.ч. на формулу Байеса. Моя книга бы мне помогла в подготовке.
На очереди Senior Machine Learning Engineer.
Гайд по подготовке приложен. Довольно интересный и профессиональный
👍7
Я еще не писал, но я также пробуюсь в высокочастотный трейдинг.
Мне дали тестовое задание, уже две недели фул тайм бьюсь. Прогресс есть, но не такой серьезный, как бы я хотел
Задача уровня Kaggle, но сложнее
😱6🔥3
Учитесь, как забирать Open Source проекты под свое крыло :).
MotherDuck забрали себе драйвер подключения базы данных DuckDB к Metabase

https://github.com/AlexR2D2/metabase_duckdb_driver/issues/29
🔥1
Я вот думаю, а почему на собеседовании не разрешить пользоваться ChatGPT?

На эту иглу почти все подсели. Лично моя производительность увеличилась в 2-3 раза с помощью этого сервиса. Получается, что это важный навык и его нужно проверять.
Final Results
70%
Разрешить Chat GPT на собеседовании
7%
Запретить
23%
Не знаю
This media is not supported in your browser
VIEW IN TELEGRAM
Оффтопик. Не в тему чата, но сегодня я нашел доказательство многих моих бед за последний год: до полусмерти покусанный мой кот, поврежденные вещи. У нас забор два метра, и оказывается эти животные спокойно их перепрыгивают
🤯15
Делаю инструмент для менеджеров по продажам, а получается сервис для борьбы с коррупцией и отмыва денег 🙂
Мне удалось связать директоров и владельцев из Company House, теперь можен просто бродить по ссылкам и искать конечных владельцев компаний в пределах UK.

Вчера продолжал осваивать DBT, написал десятки тестов, сразу нашел баги и исправил.
Если вы стоите перед выбором использовать DBT или нет - используйте! Это сделает работу вашей аналитической системы прозрачной.

Из важного: завтра я проведу вебинар по DuckDB через LinkedIn (английский язык, 26 апреля в 19:30 по Лондону, 21:30 по Москве)
https://www.linkedin.com/events/7185697388240502785/comments/
Это будет повторение прошлого вебинара (https://www.youtube.com/watch?v=biyPV-4glN4), но я добавлю немного про полнотекстовый поиск в DuckDB

PS: ищу сейлзов, кто хочет поднять свои продажи в UK на B2B рынке. Двух из финтеха уже нашел, но нужно еще.
Ставлю себе задачу раскачать их до лучших сейлзов в их компаниях с помощью data инструментов, которые разрабатываю прямо сейчас
👍14
topdatalab
Machine Learning ONS1 - New Loop.pdf
Продолжаю собеседоваться.
Вот такую формулу (loss) вывел для задачи оптимизации высокочастотно торговли.
Первую и вторые производные вывел аналитически, о чем также попросил ChatGPT. Результаты совпали. Но к самой задаче подохладел, уж больно неохота еще неделю сидеть подбирать параметры LightGBM :(

Сегодня также собеседовался в www.intercom.com, было два интервью. Одно на leetcode, второе про мои проекты, которые делал раньше. По литкоду - написал функцию гистограмм, оптимизировал ее и посчитал time complexity. В целом понравилось, я был на одной волне с интервьюерами. Ребята очень хорошие. Очень хорошо видно культуру компании по ее интервьюерам.
🔥8👍61
Быть честным по отношению к клиентам?
В процессе поиска данных для B2B банка  в UK, я понял, насколько все гнилое и старое. Данные часто не обновляются, кривые, косые. Поэтому у себя на сайте я повесил почти на всех страницах табличку - когда данные были обновлены.

Вчера сделал первый небольшой дамп компаний в UK для первого сейлза, надеюсь вернется с обратной связью на следующей неделе. Обшлось без AI, я просто написал большой SQL скрипт.

PS: два дня была ошибка в обновлении, что видно по таблице, сегодня исправлю
👌8
Первый алгоритм компрессии текстовых данных я придумал лет в 13. Дело в том, что стандартная таблица символов ASCII использовала только 7 бит из 8ми. Это означало, что каждый восьмой символ текста можно было «размазать» по верхним битам предыдущих 7ми. Тогда у меня все получилось.
Сейчас читаю как сделана компрессия данных в DuckDb

https://duckdb.org/2022/10/28/lightweight-compression.html

Науки там много нет, а много всяких статистических хаков, и они работают!
🔥3
Проблемы первого мира. Парень работает на США из UK

PS: идет упоминание «белого мужчины»

Дополнение: «когда кандидаты заполняют анкету там есть опциональные поля пол, раса и ориентация. Если эта инфа есть она используется в первичном фильтре HR.»
🙈10🙉9😱31
Почему я продолжаю верить в рынки данных несмотря на LLM AI?

Потому что без данных LLM пустышка! Представьте, что LLM это на самом деле интерфейс к данным. Раньше нужно было много кликать, читать мануалов, как пользоваться интерфейсом программ. А с чат ботом это сильно упрощается. Сами LLM развиваются, становятся все более доступными, а значит теряют свое конкурентное преимущество.
Поясню.
Раньше какая-то команда могла натренировать модель, и продавать ее на рынке. Сейчас модели становятся сервисом, а значит доступны другим командам. Это становится просто технологией. Следовательно, конкурентное преимущество будет определяться больше продуктом и данными, которые есть у команды. И именно эксклюзивный доступ к каким-либо данным будет серьезным конкурентным преимуществом.

Именно в этом направлении я и вижу свой проект!

PS: где пока тяжело LLM - это структурированные данные. С тестом, звуком и видео разобрались хорошо, но не так все хорошо с табличными данными в хранилищах
💯102👍1