Aspiring Data Science
318 subscribers
386 photos
10 videos
6 files
1.39K links
Заметки экономиста о программировании, прогнозировании и принятии решений, научном методе познания.
Контакт: @fingoldo

I call myself a data scientist because I know just enough math, economics & programming to be dangerous.
Download Telegram
Forwarded from New Yorko Times (Yury Kashnitsky)
Санёк с Wall Street
#career #coolstorybob #friday #жзл

Как-то в ODS я рассказывал про своего друга, теперь – расширенная версия. Ничего сверхъестественного в его истории, просто как будто сериал про Wall street, запасайтесь попкорном. Wall street тут чисто как клише, речь пойдет про жизнь в ее Лондонском аналоге – the City.

С Саней мы дружим с института – вместе учились на факультете авиации МФТИ. Учился он достаточно, чтоб не терять стипендию, но без чудес. Вместе пили пиво, ходили на концерты альтернативки, вставали на сноуборд, косили траву на военных сборах, ездили волонтерить в Европу (где тоже косили траву) и знакомились с девчонками. Когда у меня все катали матан, он так же пытался меня подстебывать типа я задрот. Сам же стал активно ботать на 5 курсе, когда собрался поступать в РЭШ. Я в него, честно-то, не особо верил, но с 3-й попытки он сдал TOEFL на 112, GMAT нам физтехам проще даётся, да и с экономикой как-то проскочил.

Начались трудовыебудни, жил он с дедом на 15 тыс. рублей в месяц, готовил котлеты, дед их поедал. На неделе было по 7-8 дедлайнов. Как-то ещё умудрился девушку найти, брал у меня в долг 10к на торт и цветы, чтоб с мамой и бабушкой познакомиться (в 2017-ом мы оба женились). В РЭШ народ был еще более лютый, чем на физтехе, Саня по рейтингу был где-то на 25-ом месте, но повезло, именно он выбил грант на обучение.

Саня услышал в РЭШке про возможность постажироваться в Barclays, и понеслось. Как банный лист к заднице, приставал ко всем, кто прошёл эту программу, опять заботал просто все что можно было, и вот он в Лондоне с окладом 5к фунтов и налогами 10% (а не 40, как обычно, ибо стажировка). В барклайсе спокойно решал задачку типа регрессии с временными рядами, никакого кипиша, как в РЭШке, не было, жил припеваючи, с боссом ладил, пиво пил. Оказывается, когда тебя подсиживают ещё человек 16-17, надо быть начеку: знакомиться с руководителями прочих подразделений, даже ходить на собесы (!) внутри того же барклайса. Решают даже такие мелочи, что как-то ехал Саня в лифте, зашёл супер-босс и как-то разговор за 40 сек. не склеился. В итоге не предложили Сане контракт, хотя вся команда его за была, и босс был им доволен, а вот супер-босс нашёл на его место кого-то еще. Саня ходил 3 дождливых дня вдоль Темзы и пил джин.

В Москву (точнее, Жуковский) он вернулся зимой, как оказалось, почти на 3 месяца. Стал атаковать топовые инвест-банки, взяв прицел на JP Morgan и Goldman Sachs. И пошли собеседования... почти каждый день. Опять Саня заботал просто все брейн-тизеры и деривативы, на собесы ходил как на работу, даже волноваться перестал, в конце вёл себя просто нагло, сразу отвечая на вопросы, даже не скрывая, что знает ответ. В итоге JP Morgan устроил ему 18 (!) собесов, а на очной встрече в Лондоне эйчар честно признался, что есть 4 равноценных кандидата, и он не знает, кого брать. Отшили из-за week communication skills и отсутствия боевого опыта C++, хотя это и так из резюме было видно. А вот Голдман принял после 14 собесов.
Forwarded from New Yorko Times (Yury Kashnitsky)
Она выбивает +10% к зарплате с помощью одного простого трюка…
#career #tips

Пародия на дешевый кликбейт есть, теперь можно к сути. Поделюсь одним лайфхаком про переговоры, узнал про него, кажется, в книге “Never Split the Difference: Negotiating As If Your Life Depended On It” (отзыв на Goodreads – https://www.goodreads.com/review/show/4376349339). Пока применил два раза – консультировал друзей, сработало. Два наблюдения – это уже статистика, мы ведь все знаем, что две точки уникально определяют прямую, а значит, и регрессионную модель.

Итак, хак в том, что если хочешь зарплату X, не проси именно ее, а называй вилку, условно, от 1.1*X до 1.2*X. При этом избегай круглых цифр. Если тебя спрашивают “ну что, сколько хочешь?” и ты говоришь “200к евро в год” или “500к рублей в месяц”, то складывается ощущение, что ты не особо то и обдумала этот вопрос, а взяла круглую цифру с потолка.

А вилка создает пространство для маневра, тем более завышенная. Итого, если хочешь 120к в год, говори что-то типа “Я хочу от 136200 до 148400 в зависимости от того-то и того” (тут можно назвать другие перки типа sign-on бонусов, компенсации участия в конференции и т.д.). При такой постановке вопроса, вполне вероятно сторговаться по нижней границе обозначенной вилки (136200), что и так лучше чем исходные ожидания (120к). Сейчас рыночек мерзлый, так что есть риск, что работодатель все равно прогнет по зарплате, но в таком случае хотя бы есть некий буфер для уступок (между теми же 136200 и 120к).

PS. По переговорам, кстати, все советуют этот годный длиннопост https://haseebq.com/my-ten-rules-for-negotiating-a-job-offer/. Вероятно, на рынке не скоро будет классно и получится диктовать свои условия, но прокачать переговорные навыки все равно стоит.
Forwarded from New Yorko Times (Yury Kashnitsky)
Книга про ML собеседования
#ml #books #career #interview

Дочитал драфт книги Chip Huyen про ML интервью https://huyenchip.com/ml-interviews-book

Чип https://twitter.com/chipro - незаурядная личность: популярная вьетнамская писательница, выпускница Стэнфорда, поработала в NVIDIA, Netflix и паре стартапов, сейчас свой тащит и преподает ML system design. Я делал обзор на ее книгу Designing Machine Learning Systems» тут https://t.me/new_yorko_times/43

Книга про интервью рассматривает виды работы в области ML (research, applied science, ML engineering), мл сисдиз и MLOps (это по сути краткая выжимка упомянутой выше книги). Далее обсуждаются типы интервью, поведенческие тоже, что говорить и что нет. Далее - что делать с оффером, как переговариваться, как устроена компенсация оплаты в бигтехе. Рассматриваются ресурсы для подготовки (одсовцы найдут целых две пасхалки в части 4.2 про блоги и 4.3.1 про курсы) и наконец, добрая половина книги - это список вопросов к собесам по математике, CS и ML.
Forwarded from New Yorko Times (Yury Kashnitsky)
Командный пет-проект шикарный опыт
#career #petproject

Зная, что конверсия из поста про MLOps-курс https://t.me/new_yorko_times/96 в упомянутую там статью на Хабре – около 1%, опишу выводы из той же статьи чуть подробнее. Будет полезно всем, кто хочет командой попилить проект, будь то любой пет (как с chatGPT так и без) или командный проект в рамках скоро стартующего курса по MLOps.

- Поработать в команде над интересным проектом – очень крутой опыт, он и сам по себе полезен, и “продавать” его тоже можно на собеседованиях. Это может сравниться с командной зарубой в Kaggle соревновании – тут можно многому научиться, как работе с GitHub, так и навыкам планирования
- Очень важно иметь дедлайн, скажем, конец соревнования на Kaggle или окончание курса. Иначе мотивация бодро фигачить начинает падать
- Оптимальный размер команды – от 3 до 5 человек. Недаром и на Kaggle к этому пришли. Сверх этого – уже есть риск нанять балласт вместо паравоза
- Хорошо бы довести пет-проект до красивой демки, на которую можно и в резюме сослаться и в любой ситуации хоть в лифте показать. Вот наша http://cryptobarometer.org - барометр, показывающий тональность новостей о крипте
- Немного “галеры” привнести в душевный пет-проект не помешает: если обозначить цели (можно в формате OKR) и настроить базовые Scrum-ритуалы, будет более четкое понимание, кто что делает и куда команда движется. Но надо аккуратно, все же пет-проджект – это больше про веселье и полет фантазии
- Здорово в начале сотрудничества побрейнстормить: собраться и накидать идей, обсудить и приоретизировать (сервисы типа https://easyretro.io хорошо для этого подходят)
- Очень помогает делать мини-демки внутри команды. Даже если встречаться всего на час в неделю, имеет смысл начать с 20-минутной демки кого-то из участников (например, продемонстрировать продвижения с фронтендом или сервисом LabelStudio), а потом уже обычный стендап с обсуждением текущих задач.
- Мне помогло разделение активности на треки – инженерный и исследовательский. Первый – про API, докеры и куберы, второй – про прикладной рисеч а-ля active learning, помогают ли аугментации данных и т.д. В целом как Delivery vs. Discovery в корпорациях
- Также помогло четко расписать роли в команде, у нас это был один ML-инженер, два Data Scientist-a/аналитика/ML-исследователя, один Data Engineer и тимлид
- Неочевидным, но, как кажется, верным решением было подождать, пока кто-то один (тимлид, конечно) накидает прототип решения, с мок-версиями всех компонентов (например, базовый круалер и tf-idf вместо берта) и прописанным в коде взаимодействием компонентов. Имея такой прототип, можно было уже намного эффективнее распараллелить задачи по совершенствованию каждого компонента (иначе – затыки а-ля краулер готов, а база еще нет, active learning вроде готов, но неоткуда разметку брать и т.д.).
Forwarded from New Yorko Times (Yury Kashnitsky)
Собес с HuggingFace в 2019 и бодрое тестовое
#career #interview #fail #ml #petproject

На фоне новости о том, что HuggingFace привлек еще $235kk и уже от техгигантов (Google, Amazon, Nvidia, Intel, IBM Salesforce, Qualcomm и AMD), решил поведать 😃 как я с ними собеседовался в конце 2019. Я с удивлением обнаружил, что Томас Вульф живет в Утрехте - взял да и написал ему в личку. Встретились в кафе, потрещали (Томас уже тогда работал из дома/кафе, до того как это стало мейнстримом, тогда называл это “дикой жизнью”). Томас – очень простой и приветливый чел, из ряда тех, с кем общаешься-общаешься, а потом возвращаешься к мысли “но он же очень талантливый и работоспособный парень, вот скромняга!”. Все в духе истории, как HF вообще зарождался (”ребята, мы хотим по пиву, а потом есть идеи покодить вечерком – BERTа на PyTorch переложить, кто с нами?” (с) Thomas Wolf, EMNLP 2018).

В целом деньгами HF на тот момент не баловал, да и я тогда по визовым ограничениям и не мог бы работать на стартап. К тому же я прям совсем не рассматривал вариант работы из дома (кек). Наконец, тогла в 2019 совершенно не было понятно, как ребята будут монетизироваться. Но решил пособеседоваться, челлендж ведь. После бодрого знакомства с CEO Клементом первый шаг – тестовое задание.

Томас придумал веселое тестовое, которое впрочем точно устарело после очередной мини-революции в мультимодалке” (CLIP и в целом text2image). Так что пошарю в открытый доступ.

Мне задача понравилась, и я решил поботать просто по фану. Для контекста: дело близилось к Рождеству, никто уже на работе не впахивал, у меня две недели как родилась дочь (и, на удивление, как все оправились от первого шока с бессоницей, дальше высвободилось немало времени, т.к. существо в осномном спит). Ковид уже пошел по миру, но мы не догадывались. Я совсем недавно закруглился с млкурсом. В-общем, идеальная ситуация, чтоб душевно покодить пет-проджект, каким я рассматривал тестовое от HF.

Итак, задача – визуализировать текст ганами. Входной текст кодируется бертом, на выходе – BigGAN, вот сутью задания было обучить небольшую сетку отображать эмбеддинги берта в эмбеддинги BigGAN. Как это работает, можно глянуть в репе.

Сразу скажу, столько вкладываться в take-home точно не стоит, по оформлению оно лишка вылизанное (docker-compose, Streamlit, подробный ридми, гифки, все дела…). В инструкции Томаса советовалось “потратить на задание 2-3 часа”, что, конечно, немного лицемерно, но оптимум где-то посередине – часов 8. То что происходит в репе – почти безнадежно устарело с появлением CLIP. Но на оформление, структуру репы и презентацию тестового можно поглядеть.

К слову, я и не прошел. Ревьюеры похвалили как раз оформление, но придрались к мелочам типа того, что я не выставил 0 в attention mask для паддинга и что-то им мой пулинг-слой не зашел, нет разбивки на батчи и т.д.

Хоть я б в HF и не пошел, все равно было обидно. Так что с горя победили в гугловском NLP-соревновании на кекле и удалось закрыть мастера, а через месяц и работу сменить.
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from New Yorko Times (Yury Kashnitsky)
Базовые траты в Нидерландах
#life #career #netherlands

Посчитаем грошики-шекелёчки, поноем, это все любят. Есть, конечно, Numbeo, но лишний датапойнт про цену жизни в Нидерландах, возможно, вам не помешает. Как рассказать о своей зарплате, не называю цифру? Легко. Я вам примерно распишу расходы на жизнь в Нидерландах и скажу, что у меня все впритык, от зп к зп (ага, с финансовой грамотностью пока так себе выходит). По крайне мере, когда я в 2018 услышал, сколько мне предлагают в Нидерландах, мне казалось, буду в золоте купаться. На деле все оказалось не так радужно. Так что возможно, пост поможет тем, кто приценивается к жизни в NL.

Допустим, в семье работает один человек и получает 5к евро/месяц чистыми (что примерно соответствует гроссу в 75к с рулингом или 100к - без него. Рулинг - это налоговая поблажка на первые 5 лет, когда 30% дохода не облагается налогом). Более точно можно прикинуть на thetax.nl. Не совсем моя ситуация, но пойдет для бейзлайна. Оговорок много (что если оба работают, есть дети или нет, свое жилье или аренда) – это можно в коменты перенести.

Обязательные расходы (т.е. исключая еду/кафе/etc) у меня ~2500. Каждый грош считать не хочется, но основное, из того что больше 100 евро/месяц:

- 1300 – ипотека
- 400 – медстраховка на двоих
- 200 – транспорт на двоих
- 140 – коммунальные налоги
- 120 – электричество/газ
- ~350 – остальное (связь, инет, прочие страховки, и т.д.)

Немного прокомментировать все же надо, хотя главный вывод – в конце поста.

- Ипотека за 1300 это прям дико удачно, успел ухватить ставку 1.8%, сейчас она ближе к 4.5% и соотв-но, ежемесячный платеж легко может быть и 2к и 3к, ажиотаж с жильем бешеный, особенно в Амстере
- медстраховка дорогая, и тут сэкономить особо не выйдет, помимо ~150/чел в месяц еще 360/год – собственный риск, то есть 360 платишь сам, а что свыше – уже покрывается. Плюс зубы отдельно, легко выходит 200 евро в месяц на человека. К слову, голландские врачи настолько дорогие, что на оплату их труда уходит ~30% подоходных налогов, помимо отчислений на медстраховку
- транспорт дорогой, к примеру, поезда катаются на чистом электричестве от ветрогенераторов. Где-то видел статью, что в NL самый дорогой транспорт с нормировкой на уровень доходов – похоже на правду
- коммуналка – это налог собственника жилья (неактуально, если снимаете), а также на мусор, канализацию и проч
- электричество/газ – ну тут, понятное дело, отказ от fcukn russian gas сильно все цены повысил

И вот, допустим, остается еще 2500/мес на еду, кафе, шмотки, путешествия и прочую жизнь. Хм… 80 евро в день? Вы уже видите, что так недолго превратиться в бомжа, живущего в красивой обстановке. Ну и начать жить по-голландски, то есть экономить – ходить в Lidl и jumbo, а не Albert Heijn, нагибаться рачком за более дешевыми товарами на нижних полках, ходить в кафе раз в месяц, не есть рыбу/мясо. В-общем, это все не про меня. К слову, наиболее характерное голландское слово, передающее менталитет – goedkoop (дешевый) - только дословно это не “дешевый” или ”cheap” (негативный посыл), а “выгодно купленный” (явно позитивный посыл). Про это еще разверну мысль #todo

В итоге если в семье работает один, то рассматривать что-то меньшее 75к/год (с учетом рулинга) я бы не советовал. Когда рулинга уже нет – это вообще другая история, требующая кардинально новых решений, о которых, надеюсь, получится вскоре рассказать.

А если хочется путешествовать и вообще-то думать про старость и откладывать – то и подавно надо сразу смотреть на 100к+. Либо, конечно, вдвоем работать.
Forwarded from New Yorko Times (Yury Kashnitsky)
Фэйлы на собесах: 2023 edition
#career #interviews

Тут в описании канала говорится, про фэйлы. Так что надо поддерживать темп фэйлов.

Картинка – авторства Бори Зубарева (placement: проверьте его X-LLM для файнтюнинга LLM, вдруг зайдет), которую он мне скинул после поста про неудачные собесы в 2022.

Погнали:

- Uber, Senior Applied Scientist – прошел один собес, сказали, закрыли саму вакансию (и правда, звучало подозрительно, что это синьор без подчиненных);

- eBay, Principal Applied Scientist (Gen AI) – прошел HM, а вот миддл решил меня погонять по своей боевой задаче – всякие bi-encoders, cross-encoders в задаче предсказания ключевых слов для объявлений. Причем копал глубоко. Я в теме про семантический поиск, слежу за проектом коллег, но тут прям реально глубоко... если сам не ковырял, не ответишь. Ну да, и хотел production-опыт RLHF 😳 Удачи! Надеюсь, нашли такого.

- LLM researcher в устоявшийся стартап – команда крутая, много GM-ов, все прошел, услышал много комплиментов, а дальше отмазу, что “мне у них будет не интересно”, расстался с довольно странным ощущением, как будто не знают, что хотят (еще один сильный чел то же самое от них услышал)

- 2 хардкорных HFT-фонда - в одном домашка на дебаггинг PyTorch-кода не зашла, в другом почти идеально решил алгоритмическую задачу, но к концу 4-го часа начал тупить с ML-ной задачей. Денег там, конечно, море, но и work-life balance хромает, и C++… В-общем, тут я сам не дотягиваю.

- наконец, Amazon, да в Амстере, прошел снова всю хурмомятню из 7 собесов. В этот раз, в отличие от 2022 года, до матча с командой не дошло, услышал стандартный минимальный фидбек, что bar raiser-у что-то не понравилось в одном из ответов.

Ну, как Би-2 поет, “Я двигаюсь дальше”, благо текущие задачи очень интересные, да что-то из сторонних проектов тоже заходит. По собесам из “успехов” на данный момент только отклик другого бигтеха на мой холодный заброс резюме, готовимся к еще одной мясорубке из семи собесов.

Жду ехидные комментарии с отсылками к этому посту про менторство. Делаю шаг на опережение: у моих менти дела идут отлично, лучше, чем у меня 🙂 Один менти устроился так, что сам меня собеседовал 😂, второй, мой друг, скоро переезжает в Нидерланды, третий – на финальных этапах с тем же Амазоном, четвертый получил оффер в долине. Еще четверо в процессе. А сапожник пока без сапог, беру откровенностью (а новых менти все равно пока не ищу).

Хороших вам фэйлов, таких чтоб с градиентами. Ну и любая череда фэйлов когла-то заканчивается, чего всем и желаю. Если очень упорно подкидывать монетку, она таки упадет нужной стороной.
Please open Telegram to view this post
VIEW IN TELEGRAM