topdatalab
Мой пет проект потихоньку растет, дошел до 100 посетителей в день, хочу довести до 1000! на сайте проекта навесил фейковых ссылок, все обтянул аналитикой через zaraz. Теперь данных достаточно, чтобы пилить новые фичи
Продолжаю развивать свой пет проект на базе DuckDB. Это график времени ответа сервера, посчитанное поисковым ботом Гугла. В целом, у меня уже сложилось понимание как писать веб приложения с большим объемом данных дешево и сердито
Сегодня будет вебинар по созданию DATA приложений и их монетизации
- Introduction to Embedded Analytics and the MDCuRe Stack
- Technology Pricing Models and Unit Cost Optimization
- Adding Value with MotherDuck and Cube
- MDCuRe Demo
- Q&A session
В 9 утра по времени Сан Франциско.
https://event.on24.com/eventRegistration/EventLobbyServlet?target=lobby30.jsp&eventid=4529103&sessionid=1&partnerref=motherduck&format=fhvideo1&key=A2904ED33987B9D8AF09605814BC5903&eventuserid=670213622
PS: Я сейчас занимаюсь тем же самым, но на более низком уровне. Если интересно, то могу рассказать и дать рецепты.
- Introduction to Embedded Analytics and the MDCuRe Stack
- Technology Pricing Models and Unit Cost Optimization
- Adding Value with MotherDuck and Cube
- MDCuRe Demo
- Q&A session
В 9 утра по времени Сан Франциско.
https://event.on24.com/eventRegistration/EventLobbyServlet?target=lobby30.jsp&eventid=4529103&sessionid=1&partnerref=motherduck&format=fhvideo1&key=A2904ED33987B9D8AF09605814BC5903&eventuserid=670213622
PS: Я сейчас занимаюсь тем же самым, но на более низком уровне. Если интересно, то могу рассказать и дать рецепты.
👍11❤3
topdatalab
Продолжаю развивать свой пет проект на базе DuckDB. Это график времени ответа сервера, посчитанное поисковым ботом Гугла. В целом, у меня уже сложилось понимание как писать веб приложения с большим объемом данных дешево и сердито
Вебинар: Разработка data приложений на DuckDB
При разработке приложений ориентированных на данные я всегда хотел найти набор бесплатных инструментов,
которые позволяют сделать весь инжиниринг данных простым и удобным, не требующим облаков. Я принципиально отказался от использования знакомых мне инструментов. Поэтому выбор пал на DuckDB. В итоге за несколько месяцев я собрал полностью рабочую систему с базой данных, dbt и оркестратором с ежедневным обновлением данных. Само хранилище данных на DuckDB выступает в качестве бек енд базы данных для веб сервера :).
Я проведу вебинар по своему рабочему проекту. Посмотрим на исходные коды и живые примеры. Как этим управлять с помощью DBT и Prefect.io
Для кого: кто хочет посмотреть на новые тренды в инженерии данных и не боится экспериментировать.
Дата и время: 4 апреля 2024 в 17:00 по Лондону (это 19:00 по Москве). Ссылку опубликую накануне
При разработке приложений ориентированных на данные я всегда хотел найти набор бесплатных инструментов,
которые позволяют сделать весь инжиниринг данных простым и удобным, не требующим облаков. Я принципиально отказался от использования знакомых мне инструментов. Поэтому выбор пал на DuckDB. В итоге за несколько месяцев я собрал полностью рабочую систему с базой данных, dbt и оркестратором с ежедневным обновлением данных. Само хранилище данных на DuckDB выступает в качестве бек енд базы данных для веб сервера :).
Я проведу вебинар по своему рабочему проекту. Посмотрим на исходные коды и живые примеры. Как этим управлять с помощью DBT и Prefect.io
Для кого: кто хочет посмотреть на новые тренды в инженерии данных и не боится экспериментировать.
Дата и время: 4 апреля 2024 в 17:00 по Лондону (это 19:00 по Москве). Ссылку опубликую накануне
🔥12
Получаю отписки после холодной отправки резюме. Пытаюсь делать тестовые задания - пока плохо получается. Рекрутеры куда-то пропадают. И накрывает синдром самозванца. Кажется, что рынок уехал куда-то далеко, и я не успел прыгнуть в этот поезд.
Как у вас с этим? Как боритесь с такими мыслями?
Как у вас с этим? Как боритесь с такими мыслями?
❤6
topdatalab
Получаю отписки после холодной отправки резюме. Пытаюсь делать тестовые задания - пока плохо получается. Рекрутеры куда-то пропадают. И накрывает синдром самозванца. Кажется, что рынок уехал куда-то далеко, и я не успел прыгнуть в этот поезд. Как у вас с…
Всем большое спасибо за ответы!
В целом да, здесь все по другому, и рынок здесь более специализированный. Заходить нужно действительно через знакомых. У меня так несколько раз получилось. И даже был оффер от Вайз, который я отклонил в декабре. Тогда я сделал ставку не на ту лошадь. :( Сейчас у меня запланированы собесы в BP. И знаете когда последнее? 25 или 28 мая :)
Но я больше склонен к стартапом, так как корп культура мне сейчас сложно дасться. Из интересных историй. На днях разговаривал с хорошим знакомым. Он senior data scientist, работал уже три года в сша. И вот решил он попасть в Meta. Нанял 4х коучей, кто-то прокачивал резюме (бывший hr меты), кто-то интервью. В мета он в итоге попал! Нужно прокачивать отдельно навык собеседований
В целом да, здесь все по другому, и рынок здесь более специализированный. Заходить нужно действительно через знакомых. У меня так несколько раз получилось. И даже был оффер от Вайз, который я отклонил в декабре. Тогда я сделал ставку не на ту лошадь. :( Сейчас у меня запланированы собесы в BP. И знаете когда последнее? 25 или 28 мая :)
Но я больше склонен к стартапом, так как корп культура мне сейчас сложно дасться. Из интересных историй. На днях разговаривал с хорошим знакомым. Он senior data scientist, работал уже три года в сша. И вот решил он попасть в Meta. Нанял 4х коучей, кто-то прокачивал резюме (бывший hr меты), кто-то интервью. В мета он в итоге попал! Нужно прокачивать отдельно навык собеседований
❤2
Forwarded from Инжиниринг Данных (Roman Ponomarev)
Анонс Вебинара: "Разработка data приложений на DuckDB"
Давненько не было.... уверен ждали)))
📅 Дата вебинара 4 апреля в 7 вечера по мск
🎙Спикер - Роман Зыков.
Очень крутой спец, который уже дважды выступал у нас 🎙
🔗 Ссылка на вебинар:
https://youtube.com/live/biyPV-4glN4?feature=share
Мы всегда ищем способы сделать инженерию данных проще и удобнее. Роман Зыков создал полностью рабочую систему, которой хочет поделиться с вами!
При этом он отказался от использования знакомых инструментов.
🔍 Что мы обсудим на вебинаре:
🔸Почему выбрал DuckDB для разработки data приложений, отказавшись от привычных инструментов.
🔸Как построил полностью рабочую систему с базой данных, dbt, и оркестратором для ежедневного обновления данных без использования облачных сервисов.
🔸Живые примеры и исходные коды проекта.
🔸Управление данными с помощью DBT и Prefect.io.
👨💻 Приходите на вебинар, если вы хотите:
• Узнать, как использовать DuckDB для создания эффективных data приложений.
• Познакомиться с бесплатными инструментами для инжиниринга данных.
• Вдохновиться реальным проектом и увидеть, как можно управлять данными без облаков.
#datalearn #вебинар
Please open Telegram to view this post
VIEW IN TELEGRAM
YouTube
Разработка data приложений на DuckDB
🎙Спикер - Роман Зыков.
Очень крутой спец, который уже дважды выступал у нас 🎙
Ссылка на презентацию вебинара: https://drive.google.com/file/d/1bkyyjmWMZ9ebTVuWA5BhywoxyKzU5kpf/view?usp=drive_link
Мы всегда ищем способы сделать инженерию данных проще и…
Очень крутой спец, который уже дважды выступал у нас 🎙
Ссылка на презентацию вебинара: https://drive.google.com/file/d/1bkyyjmWMZ9ebTVuWA5BhywoxyKzU5kpf/view?usp=drive_link
Мы всегда ищем способы сделать инженерию данных проще и…
🔥7👍2
Вебинар по созданию микро хранилищ данных (в том числе для AI) прошел успешно!
Видео: https://www.youtube.com/watch?v=biyPV-4glN4
Презентация выше
Видео: https://www.youtube.com/watch?v=biyPV-4glN4
Презентация выше
YouTube
Разработка data приложений на DuckDB
🎙Спикер - Роман Зыков.
Очень крутой спец, который уже дважды выступал у нас 🎙
Ссылка на презентацию вебинара: https://drive.google.com/file/d/1bkyyjmWMZ9ebTVuWA5BhywoxyKzU5kpf/view?usp=drive_link
Мы всегда ищем способы сделать инженерию данных проще и…
Очень крутой спец, который уже дважды выступал у нас 🎙
Ссылка на презентацию вебинара: https://drive.google.com/file/d/1bkyyjmWMZ9ebTVuWA5BhywoxyKzU5kpf/view?usp=drive_link
Мы всегда ищем способы сделать инженерию данных проще и…
👍8🔥2
Прямо сейчас выкладываю большие изменения - почти полностью синхронизировал данные по британским компаниям, теперь они смогут обновляться хоть раз в час.
Это очень серьезное конкурентное преимущество над другими проектами. Поисковая выдача забита проектами с плохим обновлением данных.
Как я это сделал? См. видео в прошлом посте
Тем временем Mother Duck выпустила LLM сеть для генерации SQL запросов к DuckDB
https://motherduck.com/blog/duckdb-text2sql-llm/
Там есть сcылки, можете потестировать. Для меня это окрывает путь для написания AI интерфейса к вышеупомянутой БД!
Это значит, что пользоатель (например, менеджер по продажам) сможет писать текстом, что ему нужно, а в ответ система будет возвращать готовый файл со списком и параметрами компаний.
Это очень серьезное конкурентное преимущество над другими проектами. Поисковая выдача забита проектами с плохим обновлением данных.
Как я это сделал? См. видео в прошлом посте
Тем временем Mother Duck выпустила LLM сеть для генерации SQL запросов к DuckDB
https://motherduck.com/blog/duckdb-text2sql-llm/
Там есть сcылки, можете потестировать. Для меня это окрывает путь для написания AI интерфейса к вышеупомянутой БД!
Это значит, что пользоатель (например, менеджер по продажам) сможет писать текстом, что ему нужно, а в ответ система будет возвращать готовый файл со списком и параметрами компаний.
🔥9🤔3🤯3
Почему новость о том, что ЕС вводит уголовное наказание за обход санкций - это хорошая возможность для стартапов занимающихся compliance?
https://www.rbc.ru/politics/12/04/2024/6619028e9a79477298fc8e35
Уголовная отвественность очень сильно повышает риски. Закон распространяет всю сложность compliance теперь и на обычные коммерческие компании, а значит и им тоже придется проверять своих потенциальных клиентов.
Я работал в Британском банке автоматизируя сам процесс проверки клиентов. Он стал сейчас очень сложным, а следовательно затратным.
Обычно проверка нового клиента в банке выглядит следующим образом:
- регистрационные данные компании сверяются с регистрами, например, с Company House в Британии
- проверятся владельцы бизнеса. Не дай Бог один из них окажется резидентом не той страны. Самая простая проверка - это валидность документов, proof-of-address.
сложнее - в гугле или других спец сервисах сотрудники банка ищут что-нибудь "порочащее" одного из владельцев. Третье - владельцев пробивают в регистрах других стран, чтобы обнаружить другие юр лица
На этом шаге конечно вся информация сопоставляется с санкционными списками
- запрашиваются транзакции компании, сотрудники банка начинают проверять имена физлиц и компании. Тут у кого фантазии хватает
Банки уже сейчас очень сильно закручивают гайки, опасаясь риска попасть в цепочку "не таких" платежей. Причем наказание может случится, даже если умысла не было, а просто не досмотрели.
Поэтому стартапы, которые автоматизируют проверку клиента пойдут сейчас в РОСТ. Любые. Банки могут использовать несколько compliance инструментов одновременно, так как перекрестная проверка снижает ошибки.
PS: Несколько такие неосторожных платежей привели к закрытию банка, где я работал.
https://www.rbc.ru/politics/12/04/2024/6619028e9a79477298fc8e35
Уголовная отвественность очень сильно повышает риски. Закон распространяет всю сложность compliance теперь и на обычные коммерческие компании, а значит и им тоже придется проверять своих потенциальных клиентов.
Я работал в Британском банке автоматизируя сам процесс проверки клиентов. Он стал сейчас очень сложным, а следовательно затратным.
Обычно проверка нового клиента в банке выглядит следующим образом:
- регистрационные данные компании сверяются с регистрами, например, с Company House в Британии
- проверятся владельцы бизнеса. Не дай Бог один из них окажется резидентом не той страны. Самая простая проверка - это валидность документов, proof-of-address.
сложнее - в гугле или других спец сервисах сотрудники банка ищут что-нибудь "порочащее" одного из владельцев. Третье - владельцев пробивают в регистрах других стран, чтобы обнаружить другие юр лица
На этом шаге конечно вся информация сопоставляется с санкционными списками
- запрашиваются транзакции компании, сотрудники банка начинают проверять имена физлиц и компании. Тут у кого фантазии хватает
Банки уже сейчас очень сильно закручивают гайки, опасаясь риска попасть в цепочку "не таких" платежей. Причем наказание может случится, даже если умысла не было, а просто не досмотрели.
Поэтому стартапы, которые автоматизируют проверку клиента пойдут сейчас в РОСТ. Любые. Банки могут использовать несколько compliance инструментов одновременно, так как перекрестная проверка снижает ошибки.
PS: Несколько такие неосторожных платежей привели к закрытию банка, где я работал.
👀1
topdatalab
Как собеседовать BI аналитиков? Сейчас как раз готовлюсь к собеседованиям. И вспомнил, как меня готовил к собеседованию фейсбук. Они прислали мне подробную инструкцию как подготовится. И я сейчас подумал, почему бы и нет? Составил следующее письмо. Оно будет…
Data Analyst - Interview Preparation Guide.pdf
110.4 KB
Год назад писал как я собеседую людей. Упомянул хорошее правило предупреждать людей, что будет на собеседовании.
А вот вам документ по подготовке к собеседованию в BP.
А вот вам документ по подготовке к собеседованию в BP.
👍9💩1
Machine Learning ONS1 - New Loop.pdf
3.9 MB
Продолжаю собеседоваться - сегодня было интервью на Staff Analyst в BP. Рекоменддации по подготовке я публиковал выше. Думаю, что я его прошел, было очень много вопросов в т.ч. на формулу Байеса. Моя книга бы мне помогла в подготовке.
На очереди Senior Machine Learning Engineer.
Гайд по подготовке приложен. Довольно интересный и профессиональный
На очереди Senior Machine Learning Engineer.
Гайд по подготовке приложен. Довольно интересный и профессиональный
👍7
Я еще не писал, но я также пробуюсь в высокочастотный трейдинг.
Мне дали тестовое задание, уже две недели фул тайм бьюсь. Прогресс есть, но не такой серьезный, как бы я хотел
Задача уровня Kaggle, но сложнее
Мне дали тестовое задание, уже две недели фул тайм бьюсь. Прогресс есть, но не такой серьезный, как бы я хотел
Задача уровня Kaggle, но сложнее
😱6🔥3
Учитесь, как забирать Open Source проекты под свое крыло :).
MotherDuck забрали себе драйвер подключения базы данных DuckDB к Metabase
https://github.com/AlexR2D2/metabase_duckdb_driver/issues/29
MotherDuck забрали себе драйвер подключения базы данных DuckDB к Metabase
https://github.com/AlexR2D2/metabase_duckdb_driver/issues/29
🔥1
Я вот думаю, а почему на собеседовании не разрешить пользоваться ChatGPT?
На эту иглу почти все подсели. Лично моя производительность увеличилась в 2-3 раза с помощью этого сервиса. Получается, что это важный навык и его нужно проверять.
На эту иглу почти все подсели. Лично моя производительность увеличилась в 2-3 раза с помощью этого сервиса. Получается, что это важный навык и его нужно проверять.
Final Results
70%
Разрешить Chat GPT на собеседовании
7%
Запретить
23%
Не знаю
This media is not supported in your browser
VIEW IN TELEGRAM
Оффтопик. Не в тему чата, но сегодня я нашел доказательство многих моих бед за последний год: до полусмерти покусанный мой кот, поврежденные вещи. У нас забор два метра, и оказывается эти животные спокойно их перепрыгивают
🤯15
Делаю инструмент для менеджеров по продажам, а получается сервис для борьбы с коррупцией и отмыва денег 🙂
Мне удалось связать директоров и владельцев из Company House, теперь можен просто бродить по ссылкам и искать конечных владельцев компаний в пределах UK.
Вчера продолжал осваивать DBT, написал десятки тестов, сразу нашел баги и исправил.
Если вы стоите перед выбором использовать DBT или нет - используйте! Это сделает работу вашей аналитической системы прозрачной.
Из важного: завтра я проведу вебинар по DuckDB через LinkedIn (английский язык, 26 апреля в 19:30 по Лондону, 21:30 по Москве)
https://www.linkedin.com/events/7185697388240502785/comments/
Это будет повторение прошлого вебинара (https://www.youtube.com/watch?v=biyPV-4glN4), но я добавлю немного про полнотекстовый поиск в DuckDB
PS: ищу сейлзов, кто хочет поднять свои продажи в UK на B2B рынке. Двух из финтеха уже нашел, но нужно еще.
Ставлю себе задачу раскачать их до лучших сейлзов в их компаниях с помощью data инструментов, которые разрабатываю прямо сейчас
Мне удалось связать директоров и владельцев из Company House, теперь можен просто бродить по ссылкам и искать конечных владельцев компаний в пределах UK.
Вчера продолжал осваивать DBT, написал десятки тестов, сразу нашел баги и исправил.
Если вы стоите перед выбором использовать DBT или нет - используйте! Это сделает работу вашей аналитической системы прозрачной.
Из важного: завтра я проведу вебинар по DuckDB через LinkedIn (английский язык, 26 апреля в 19:30 по Лондону, 21:30 по Москве)
https://www.linkedin.com/events/7185697388240502785/comments/
Это будет повторение прошлого вебинара (https://www.youtube.com/watch?v=biyPV-4glN4), но я добавлю немного про полнотекстовый поиск в DuckDB
PS: ищу сейлзов, кто хочет поднять свои продажи в UK на B2B рынке. Двух из финтеха уже нашел, но нужно еще.
Ставлю себе задачу раскачать их до лучших сейлзов в их компаниях с помощью data инструментов, которые разрабатываю прямо сейчас
👍14
topdatalab
Machine Learning ONS1 - New Loop.pdf
Продолжаю собеседоваться.
Вот такую формулу (loss) вывел для задачи оптимизации высокочастотно торговли.
Первую и вторые производные вывел аналитически, о чем также попросил ChatGPT. Результаты совпали. Но к самой задаче подохладел, уж больно неохота еще неделю сидеть подбирать параметры LightGBM :(
Сегодня также собеседовался в www.intercom.com, было два интервью. Одно на leetcode, второе про мои проекты, которые делал раньше. По литкоду - написал функцию гистограмм, оптимизировал ее и посчитал time complexity. В целом понравилось, я был на одной волне с интервьюерами. Ребята очень хорошие. Очень хорошо видно культуру компании по ее интервьюерам.
Вот такую формулу (loss) вывел для задачи оптимизации высокочастотно торговли.
Первую и вторые производные вывел аналитически, о чем также попросил ChatGPT. Результаты совпали. Но к самой задаче подохладел, уж больно неохота еще неделю сидеть подбирать параметры LightGBM :(
Сегодня также собеседовался в www.intercom.com, было два интервью. Одно на leetcode, второе про мои проекты, которые делал раньше. По литкоду - написал функцию гистограмм, оптимизировал ее и посчитал time complexity. В целом понравилось, я был на одной волне с интервьюерами. Ребята очень хорошие. Очень хорошо видно культуру компании по ее интервьюерам.
🔥8👍6❤1
Быть честным по отношению к клиентам?
В процессе поиска данных для B2B банка в UK, я понял, насколько все гнилое и старое. Данные часто не обновляются, кривые, косые. Поэтому у себя на сайте я повесил почти на всех страницах табличку - когда данные были обновлены.
Вчера сделал первый небольшой дамп компаний в UK для первого сейлза, надеюсь вернется с обратной связью на следующей неделе. Обшлось без AI, я просто написал большой SQL скрипт.
PS: два дня была ошибка в обновлении, что видно по таблице, сегодня исправлю
В процессе поиска данных для B2B банка в UK, я понял, насколько все гнилое и старое. Данные часто не обновляются, кривые, косые. Поэтому у себя на сайте я повесил почти на всех страницах табличку - когда данные были обновлены.
Вчера сделал первый небольшой дамп компаний в UK для первого сейлза, надеюсь вернется с обратной связью на следующей неделе. Обшлось без AI, я просто написал большой SQL скрипт.
PS: два дня была ошибка в обновлении, что видно по таблице, сегодня исправлю
👌8
topdatalab
Продолжаю собеседоваться. Вот такую формулу (loss) вывел для задачи оптимизации высокочастотно торговли. Первую и вторые производные вывел аналитически, о чем также попросил ChatGPT. Результаты совпали. Но к самой задаче подохладел, уж больно неохота еще неделю…
Machine Learning ONS 2 - New Loop.pdf
3.9 MB
После интервью с intercom получил приглашение на следующие 4 интервью.
Прислали методичку для подготовки. Посмотрите, как качественно сделано.
Прислали методичку для подготовки. Посмотрите, как качественно сделано.
🔥10