topdatalab
1.27K subscribers
98 photos
10 videos
17 files
221 links
Канал поддержки книги «Как монетизировать данные». https://topdatalab.ru
Download Telegram
Почему новость о том, что ЕС вводит уголовное наказание за обход санкций - это хорошая возможность для стартапов занимающихся compliance?
https://www.rbc.ru/politics/12/04/2024/6619028e9a79477298fc8e35

Уголовная отвественность очень сильно повышает риски. Закон распространяет всю сложность compliance теперь и на обычные коммерческие компании, а значит и им тоже придется проверять своих потенциальных клиентов.
Я работал в Британском банке автоматизируя сам процесс проверки клиентов. Он стал сейчас очень сложным, а следовательно затратным.

Обычно проверка нового клиента в банке выглядит следующим образом:
- регистрационные данные компании сверяются с регистрами, например, с Company House в Британии
- проверятся владельцы бизнеса. Не дай Бог один из них окажется резидентом не той страны. Самая простая проверка - это валидность документов, proof-of-address.
сложнее - в гугле или других спец сервисах сотрудники банка ищут что-нибудь "порочащее" одного из владельцев. Третье - владельцев пробивают в регистрах других стран, чтобы обнаружить другие юр лица
На этом шаге конечно вся информация сопоставляется с санкционными списками
- запрашиваются транзакции компании, сотрудники банка начинают проверять имена физлиц и компании. Тут у кого фантазии хватает

Банки уже сейчас очень сильно закручивают гайки, опасаясь риска попасть в цепочку "не таких" платежей. Причем наказание может случится, даже если умысла не было, а просто не досмотрели.

Поэтому стартапы, которые автоматизируют проверку клиента пойдут сейчас в РОСТ. Любые. Банки могут использовать несколько compliance инструментов одновременно, так как перекрестная проверка снижает ошибки.

PS: Несколько такие неосторожных платежей привели к закрытию банка, где я работал.
👀1
Machine Learning ONS1 - New Loop.pdf
3.9 MB
Продолжаю собеседоваться - сегодня было интервью на Staff Analyst в BP. Рекоменддации по подготовке я публиковал выше. Думаю, что я его прошел, было очень много вопросов в т.ч. на формулу Байеса. Моя книга бы мне помогла в подготовке.
На очереди Senior Machine Learning Engineer.
Гайд по подготовке приложен. Довольно интересный и профессиональный
👍7
Я еще не писал, но я также пробуюсь в высокочастотный трейдинг.
Мне дали тестовое задание, уже две недели фул тайм бьюсь. Прогресс есть, но не такой серьезный, как бы я хотел
Задача уровня Kaggle, но сложнее
😱6🔥3
Учитесь, как забирать Open Source проекты под свое крыло :).
MotherDuck забрали себе драйвер подключения базы данных DuckDB к Metabase

https://github.com/AlexR2D2/metabase_duckdb_driver/issues/29
🔥1
Я вот думаю, а почему на собеседовании не разрешить пользоваться ChatGPT?

На эту иглу почти все подсели. Лично моя производительность увеличилась в 2-3 раза с помощью этого сервиса. Получается, что это важный навык и его нужно проверять.
Final Results
70%
Разрешить Chat GPT на собеседовании
7%
Запретить
23%
Не знаю
This media is not supported in your browser
VIEW IN TELEGRAM
Оффтопик. Не в тему чата, но сегодня я нашел доказательство многих моих бед за последний год: до полусмерти покусанный мой кот, поврежденные вещи. У нас забор два метра, и оказывается эти животные спокойно их перепрыгивают
🤯15
Делаю инструмент для менеджеров по продажам, а получается сервис для борьбы с коррупцией и отмыва денег 🙂
Мне удалось связать директоров и владельцев из Company House, теперь можен просто бродить по ссылкам и искать конечных владельцев компаний в пределах UK.

Вчера продолжал осваивать DBT, написал десятки тестов, сразу нашел баги и исправил.
Если вы стоите перед выбором использовать DBT или нет - используйте! Это сделает работу вашей аналитической системы прозрачной.

Из важного: завтра я проведу вебинар по DuckDB через LinkedIn (английский язык, 26 апреля в 19:30 по Лондону, 21:30 по Москве)
https://www.linkedin.com/events/7185697388240502785/comments/
Это будет повторение прошлого вебинара (https://www.youtube.com/watch?v=biyPV-4glN4), но я добавлю немного про полнотекстовый поиск в DuckDB

PS: ищу сейлзов, кто хочет поднять свои продажи в UK на B2B рынке. Двух из финтеха уже нашел, но нужно еще.
Ставлю себе задачу раскачать их до лучших сейлзов в их компаниях с помощью data инструментов, которые разрабатываю прямо сейчас
👍14
topdatalab
Machine Learning ONS1 - New Loop.pdf
Продолжаю собеседоваться.
Вот такую формулу (loss) вывел для задачи оптимизации высокочастотно торговли.
Первую и вторые производные вывел аналитически, о чем также попросил ChatGPT. Результаты совпали. Но к самой задаче подохладел, уж больно неохота еще неделю сидеть подбирать параметры LightGBM :(

Сегодня также собеседовался в www.intercom.com, было два интервью. Одно на leetcode, второе про мои проекты, которые делал раньше. По литкоду - написал функцию гистограмм, оптимизировал ее и посчитал time complexity. В целом понравилось, я был на одной волне с интервьюерами. Ребята очень хорошие. Очень хорошо видно культуру компании по ее интервьюерам.
🔥8👍61
Быть честным по отношению к клиентам?
В процессе поиска данных для B2B банка  в UK, я понял, насколько все гнилое и старое. Данные часто не обновляются, кривые, косые. Поэтому у себя на сайте я повесил почти на всех страницах табличку - когда данные были обновлены.

Вчера сделал первый небольшой дамп компаний в UK для первого сейлза, надеюсь вернется с обратной связью на следующей неделе. Обшлось без AI, я просто написал большой SQL скрипт.

PS: два дня была ошибка в обновлении, что видно по таблице, сегодня исправлю
👌8
Первый алгоритм компрессии текстовых данных я придумал лет в 13. Дело в том, что стандартная таблица символов ASCII использовала только 7 бит из 8ми. Это означало, что каждый восьмой символ текста можно было «размазать» по верхним битам предыдущих 7ми. Тогда у меня все получилось.
Сейчас читаю как сделана компрессия данных в DuckDb

https://duckdb.org/2022/10/28/lightweight-compression.html

Науки там много нет, а много всяких статистических хаков, и они работают!
🔥3
Проблемы первого мира. Парень работает на США из UK

PS: идет упоминание «белого мужчины»

Дополнение: «когда кандидаты заполняют анкету там есть опциональные поля пол, раса и ориентация. Если эта инфа есть она используется в первичном фильтре HR.»
🙈10🙉9😱31
Почему я продолжаю верить в рынки данных несмотря на LLM AI?

Потому что без данных LLM пустышка! Представьте, что LLM это на самом деле интерфейс к данным. Раньше нужно было много кликать, читать мануалов, как пользоваться интерфейсом программ. А с чат ботом это сильно упрощается. Сами LLM развиваются, становятся все более доступными, а значит теряют свое конкурентное преимущество.
Поясню.
Раньше какая-то команда могла натренировать модель, и продавать ее на рынке. Сейчас модели становятся сервисом, а значит доступны другим командам. Это становится просто технологией. Следовательно, конкурентное преимущество будет определяться больше продуктом и данными, которые есть у команды. И именно эксклюзивный доступ к каким-либо данным будет серьезным конкурентным преимуществом.

Именно в этом направлении я и вижу свой проект!

PS: где пока тяжело LLM - это структурированные данные. С тестом, звуком и видео разобрались хорошо, но не так все хорошо с табличными данными в хранилищах
💯102👍1
В контексте AI, а что теперь с IBM Watson? Живет? Или OpenAI вытеснил?
Кто-нибудь слышал?
👍1
Продолжаю работать со своим проектом - Retenly
Все выходные выкатывал новый функцинал на сайт. Столкнулся с серьезным падением производительности, DuckDB не использует индекс для SQL операций c IN 🙁

Параллельно пытаюсь продавать:
1) Один sales менеджер уже работает с моими данными - Финтех в UK
2) Возможно я получу крутого клиента - Import Genius. Один из самых дорогих поставщиков данных по экспорту/импорту. Им тоже нужно продавать
3) Веду переписку с нотариальной компанией в UK, возможно смогу сделать решение для них

PS: если у вас есть знакомые, кому интересно продать товары или услуги на рынке в UK (B2B) - напишите про меня

UPDATE: только что получил хороший отзыв от Compliance Director, бывшего детектива Скотленд-Ярда
🔥91
topdatalab
Machine Learning ONS 2 - New Loop.pdf
HR учитесь у intercom!
На прошлой неделе со мной созванивался рекрутер intercom. Он не только рассказал про следующие 4 собеседования, но и рассказал про итоги прошлых двух. Он прямо мне зачитал, что написали обо мне прошлые интервьюеры, все мои pros и cons. Также дал советы как учесть эти мнения в следующих интервью
👍15🔥123😱3
Читаю комменты в Linked In к вопросу - что использовать для преобразования данных SQL или Python?

Я сторонник SQL, особенно, когда можно использовать DBT. Причины простые:
1) Локальность данных, данные не будут гоняться по сети, все преобразования произойдут не сервере базы данных.
Что очень важно, когда работаешь с таблицами больше 10Гб. А если это терабайты?
2) Код понятнее. Я считаю, что код на SQL более читабельней, чем какой-нибудь Pandas.
Особенно если для трансформации используется несколько последовательных таблиц и CTE.
3) Сейчас можно тестировать SQL, если работаете с DBT. В последней версии DBT 1.8 уже можно писать
unit тесты с синтетическими данными.

Я на 90% использую DBT, а Python использую для написания функций, которые можно вызывать из SQL
👍9🔥5💯3🤔1
ChatGPT для MacOS от OpenAI
https://persistent.oaistatic.com/sidekick/public/ChatGPT_Desktop_public_latest.dmg
Но даже если вы поставите его, доступа может пока не быть. Они постепенно раскатывают его
👍3🔥1
Low ego / team player вижу в вакансии, которую прислали.
Вообще много, где так пишут.

Интересно, насколько отличается эффективность low ego от high ego? Может ли быть high ego хорошим team player?

Следующий вопрос - работает ли это на уровне акционеров и высшего менеджмента? Ведь цель любого бизнеса - прибыль любой ценой. И там все как в джунглях.
1👍1