Почему ML инженер должен не только умело применять существующие Machine learning модели, но и уметь писать их с нуля?
Сегодня я столкнулся с ситуацией, когда написанная мной Loss функция отказывалась считаться в LightGBM. С точки зрения математики все было правильно. Дьявол оказался в деталях.
https://github.com/microsoft/LightGBM/pull/1199
7 лет назад они сделали патч, который просто сделал для L1 loss hessian = 1, а не нулю (вторая производная). Выглядит очень нелогично (объяснение здесь - https://stats.stackexchange.com/a/585747), но поменяв 0 на 1 у меня все заработало. Если бы у меня не было опыта написания ML, то скорее всего я бы не разобрался. Если вы ML инженер, и все написанное выше полная белиберда, то рекомендую заняться самообучением.
Чуть выше я уже писал про отличный разбор алгоритмов ML, их анализом и кодированием. (https://t.me/topdatalab/345)
PS: Завтра до четверга я прилетаю в Хаарлем (Нидерланды), если есть желание встретится вечером - пишите
Сегодня я столкнулся с ситуацией, когда написанная мной Loss функция отказывалась считаться в LightGBM. С точки зрения математики все было правильно. Дьявол оказался в деталях.
https://github.com/microsoft/LightGBM/pull/1199
7 лет назад они сделали патч, который просто сделал для L1 loss hessian = 1, а не нулю (вторая производная). Выглядит очень нелогично (объяснение здесь - https://stats.stackexchange.com/a/585747), но поменяв 0 на 1 у меня все заработало. Если бы у меня не было опыта написания ML, то скорее всего я бы не разобрался. Если вы ML инженер, и все написанное выше полная белиберда, то рекомендую заняться самообучением.
Чуть выше я уже писал про отличный разбор алгоритмов ML, их анализом и кодированием. (https://t.me/topdatalab/345)
PS: Завтра до четверга я прилетаю в Хаарлем (Нидерланды), если есть желание встретится вечером - пишите
👍3🔥2🤯1😱1
Много накопленных маленьких ошибок перемножаются между собой и превращаются в большую и жирную ошибку.
Не ругайте меня за перфекционизм, когда я пытаюсь ликвидировать все маленькие ошибки насколько это возможно. Это касается не только BI, но и ML моделей. Garbage In, garbage out.
Часто я сталкиваюсь даже с сопротивлением инженеров: “да у нас тут и так криво и косо, нет смысла лечить эту ошибку”. Смысл есть - я хочу быть уверенным, что в том месте никакой ошибки нет, чтобы я не тратил время на поиски в этом месте.
Не ругайте меня за перфекционизм, когда я пытаюсь ликвидировать все маленькие ошибки насколько это возможно. Это касается не только BI, но и ML моделей. Garbage In, garbage out.
Часто я сталкиваюсь даже с сопротивлением инженеров: “да у нас тут и так криво и косо, нет смысла лечить эту ошибку”. Смысл есть - я хочу быть уверенным, что в том месте никакой ошибки нет, чтобы я не тратил время на поиски в этом месте.
👍15❤1🤪1
Почему я не люблю облака :)
https://www.bbc.co.uk/news/live/cnk4jdwp49et
Если кратко, накрылось облако Azure и все посыпалось. Мы не смогли записать ребенка к врачу, и даже думали вызвать скорую, но в uk она не приедет.
Второе - задело системы железных дорог, и как раз мне сегодня нужно ехать :(
PS: я старой формации, поднять и настроить сервера где нибудь на Hetzner это мое
https://www.bbc.co.uk/news/live/cnk4jdwp49et
Если кратко, накрылось облако Azure и все посыпалось. Мы не смогли записать ребенка к врачу, и даже думали вызвать скорую, но в uk она не приедет.
Второе - задело системы железных дорог, и как раз мне сегодня нужно ехать :(
PS: я старой формации, поднять и настроить сервера где нибудь на Hetzner это мое
👍8🔥3❤2
У меня всегда был интерес к табличным данным, с которыми текущие GPT модели плохо справляются.
И вот статья от создателя самой известной ML библиотеки scikit-learn. CARTE!
https://gael-varoquaux.info/science/carte-toward-table-foundation-models.html
И вот статья от создателя самой известной ML библиотеки scikit-learn. CARTE!
https://gael-varoquaux.info/science/carte-toward-table-foundation-models.html
👍6
В AI гонке есть видимая борьба за ресурсы (чипы с GPU) и невидимая - за данные!
Cloudflare недавно запустил опцию блокировки AI ботов.
Я у себя включил.
Из документации
"AI bots
You can block artificial intelligence (AI) bots, crawlers, and scrapers from scraping your website content and training large language models (LLM) to recreate it without your permission. When you enable this feature, Cloudflare deploys a custom rule to detect and block AI bots from your website.
This feature is available on all Cloudflare plans."
https://developers.cloudflare.com/bots/concepts/bot/#ai-bots
Cloudflare недавно запустил опцию блокировки AI ботов.
Я у себя включил.
Из документации
"AI bots
You can block artificial intelligence (AI) bots, crawlers, and scrapers from scraping your website content and training large language models (LLM) to recreate it without your permission. When you enable this feature, Cloudflare deploys a custom rule to detect and block AI bots from your website.
This feature is available on all Cloudflare plans."
https://developers.cloudflare.com/bots/concepts/bot/#ai-bots
👍6❤3
В чате инжиниринг данных промелькнула вакансия VP of data в Канаде, причем доход не отличается от ведущего (senior) инженера по данным.
Так вот в UK то же самое, плюс конкуренция на эти вакансии большая. Ведь VP и head of analytics - это сплошные soft skills, а этого добра в UK хватает, множество выпускников MBA. Как поболтать - то должность британец занимает. Но вот как что-то руками поделать нужно - то проблема :).
Я поэтому в Senior Researcher пошел, и денег больше и делаешь реальную работу, остаешься конкурентно способным на рынке труда. Вот такое наблюдение
Так вот в UK то же самое, плюс конкуренция на эти вакансии большая. Ведь VP и head of analytics - это сплошные soft skills, а этого добра в UK хватает, множество выпускников MBA. Как поболтать - то должность британец занимает. Но вот как что-то руками поделать нужно - то проблема :).
Я поэтому в Senior Researcher пошел, и денег больше и делаешь реальную работу, остаешься конкурентно способным на рынке труда. Вот такое наблюдение
👍20❤5🔥2😁2
А кто-нибудь здесь пользуется Claude дла разработки?
Месяц назад они написали блог пост https://www.anthropic.com/news/projects
И я видел хорошие отзывы. Сам сейчас на ChatGPT Plus
Месяц назад они написали блог пост https://www.anthropic.com/news/projects
И я видел хорошие отзывы. Сам сейчас на ChatGPT Plus
Anthropic
Collaborate with Claude on Projects
Claude Pro and Team users can now organize chats into Projects. Projects bring together internal knowledge and chat activity in one place so Claude can be your go-to expert for generating ideas, making decisions, and moving work forward.
👍1
topdatalab
Выбираю систему “само” аналитики для Silverbird, когда сотрудники смогут без участия аналитиков работать с данными. Надеюсь, что к концу следующего квартала закончим. Для начала мы собрали работающую модель данных. Далее, пишем примерные вопросы и срезы данных…
Больше года назад я писал вам вопрос про систему “само” аналитики.
Тогда было решено, что это будет Metabase. Она была и в Retail Rocket, и еще паре компаний, с которыми я работал. Прошлым летом мы внедрили Metabase, а осенью перенесли все из Tableau.
Я могу сказать, что у нас тогда все получилось на 110%:
1) мы смогли убедить пользователей пользоваться системой
2) провели несколько семинаров и записали видеоролики
3) Когда пользователь сопротивлялся, я сам созванивался с ним. Он/она расшаривал экран и все делал сам, я просто следил и объяснял
4) У нас появились сильные пользователи, которые писали свой или модифицировали наш SQL
5) Часть операционной деятельности банка удалось автоматизировать в Metabase
Повторюсь, что у metabase есть отличный легковесный конструктор “вопросов”, и если вы сделали хорошо ваши таблицы данных, то 50% вопросов будут разрешаться за два клика.
Также я поставил Metabase на Retenly и уже набрал 10 тестовых пользователей. И пошел еще дальше - сделал демо версию доступных данных, залил их в Metabase.
Чтобы сделать возможность заходить пользователям без логина/пароля, я сделал конфигурацию для nginx + JavaScript. Сверху закрыл все каптчей от Cloudera, чтобы роботы не перегружали систему.
Теперь любой посетитель сайта может зайти на сайт и одним кликом попасть в Metabase и поиграть с данными.
Увидеть как это работает вживую можно, если нажать на ссылку: https://demo.retenly.com/demo_login
PS: могу опубликовать исходники конфигурации, чтобы вы могли повторить
Тогда было решено, что это будет Metabase. Она была и в Retail Rocket, и еще паре компаний, с которыми я работал. Прошлым летом мы внедрили Metabase, а осенью перенесли все из Tableau.
Я могу сказать, что у нас тогда все получилось на 110%:
1) мы смогли убедить пользователей пользоваться системой
2) провели несколько семинаров и записали видеоролики
3) Когда пользователь сопротивлялся, я сам созванивался с ним. Он/она расшаривал экран и все делал сам, я просто следил и объяснял
4) У нас появились сильные пользователи, которые писали свой или модифицировали наш SQL
5) Часть операционной деятельности банка удалось автоматизировать в Metabase
Повторюсь, что у metabase есть отличный легковесный конструктор “вопросов”, и если вы сделали хорошо ваши таблицы данных, то 50% вопросов будут разрешаться за два клика.
Также я поставил Metabase на Retenly и уже набрал 10 тестовых пользователей. И пошел еще дальше - сделал демо версию доступных данных, залил их в Metabase.
Чтобы сделать возможность заходить пользователям без логина/пароля, я сделал конфигурацию для nginx + JavaScript. Сверху закрыл все каптчей от Cloudera, чтобы роботы не перегружали систему.
Теперь любой посетитель сайта может зайти на сайт и одним кликом попасть в Metabase и поиграть с данными.
Увидеть как это работает вживую можно, если нажать на ссылку: https://demo.retenly.com/demo_login
PS: могу опубликовать исходники конфигурации, чтобы вы могли повторить
🔥12❤6🤩1
Когда тебе за 40 начинается один плохой тренд, твои друзья и знакомые начинают уходить из жизни.
Вчера не стало моего друга Георгия Чибисова (Жорика). Я с ним работал вместе еще с 2004 года.
Он тогда был “внизу” карьеры, хотя до этого продал проект xbox russia майкрософту, был менеджером по продажам в Озоне. Именно его идея по оптимизации SEO Озона привела к 30% увеличению трафика с Яндекса.
А потом его таланты привели к заслуженной должности - директору по маркетингу в разных компаниях от Ламоды до Московской биржи
PS: одно из его последних интервью https://vc.ru/marketing/931853-georgii-chibisov-prezentacii-u-rossiiskih-agentstv-slabye-no-tehnicheski-oni-luchshe
Вчера не стало моего друга Георгия Чибисова (Жорика). Я с ним работал вместе еще с 2004 года.
Он тогда был “внизу” карьеры, хотя до этого продал проект xbox russia майкрософту, был менеджером по продажам в Озоне. Именно его идея по оптимизации SEO Озона привела к 30% увеличению трафика с Яндекса.
А потом его таланты привели к заслуженной должности - директору по маркетингу в разных компаниях от Ламоды до Московской биржи
PS: одно из его последних интервью https://vc.ru/marketing/931853-georgii-chibisov-prezentacii-u-rossiiskih-agentstv-slabye-no-tehnicheski-oni-luchshe
😢8🕊8
Про AI хайп пару негативных статей:
[STUDY FINDS THAT AI IS ADDING TO EMPLOYEES' WORKLOAD AND BURNING THEM OUT
BUT EXECUTIVES STILL THINK IT'S GOING TO BE A MAGIC BULLET] Помните из моей книги про красную кнопку на стуле? так вот она самая
https://futurism.com/the-byte/ai-adding-work-study
Ну и инвесторы подтягиваются
[Investors Are Suddenly Getting Very Concerned That AI Isn't Making Any Serious Money
"We sense that Wall Street is growing increasingly skeptical."
]
https://futurism.com/investors-concerned-ai-making-money
[STUDY FINDS THAT AI IS ADDING TO EMPLOYEES' WORKLOAD AND BURNING THEM OUT
BUT EXECUTIVES STILL THINK IT'S GOING TO BE A MAGIC BULLET] Помните из моей книги про красную кнопку на стуле? так вот она самая
https://futurism.com/the-byte/ai-adding-work-study
Ну и инвесторы подтягиваются
[Investors Are Suddenly Getting Very Concerned That AI Isn't Making Any Serious Money
"We sense that Wall Street is growing increasingly skeptical."
]
https://futurism.com/investors-concerned-ai-making-money
🔥2
Я вот думаю, что когда в компании инженеры довольны своей работой - это начало конца и деградации продукта. Например, когда большинство занимается полировкой уже сделанных деталей, решают вопросы технического долга.
Ведь продукт создается и изменяется под давлением пользователей/менеджеров. Очень неприятно делать продукт, когда пользователям не нравится как он сделан. Принимать обратную связь по нему. Переделывать то, что ты придумал, как считал лучшим способом.
Согласны?
Ведь продукт создается и изменяется под давлением пользователей/менеджеров. Очень неприятно делать продукт, когда пользователям не нравится как он сделан. Принимать обратную связь по нему. Переделывать то, что ты придумал, как считал лучшим способом.
Согласны?
👍5🤓1
Как вам такая техника продажи?
Сайт retenly.com парсят роботы, вытаскивают оттуда email’ы. Потом мне приходят на email холодные письма пытающихся мне что-то продать.
Обычно это поставщики пытаются найти новых покупателей.
Естественно, письмо оказывается в папке spam.
Я достаю оттуда письмо и пишу ответ.
“Меня зовут Роман, ваше письмо я нашел письмо в ящике spam. Все это потому, что оно неперсонализированное, и скорее всего вы слишком много кому шлете.
У меня есть список компаний в UK, которые точно заинтересованы в вашей продукции …, потому что они импортируют похожие товары в UK.
Список содержит имена директоров, так что вы сможете обратится к ним по имени.
Пишите, если нужен список, отдам бесплатно.”
Я ответил так семи адресатам и уже получил первый ответ:
Hi Roman
Yes, please send it to me.
Thank you so much-
PS: Это Дмитриев Александр (бывший коммерческий директор Retail Rocket) меня так научил - просто вызывать людей на диалог, не перегружая их бесполезной информацией
Сайт retenly.com парсят роботы, вытаскивают оттуда email’ы. Потом мне приходят на email холодные письма пытающихся мне что-то продать.
Обычно это поставщики пытаются найти новых покупателей.
Естественно, письмо оказывается в папке spam.
Я достаю оттуда письмо и пишу ответ.
“Меня зовут Роман, ваше письмо я нашел письмо в ящике spam. Все это потому, что оно неперсонализированное, и скорее всего вы слишком много кому шлете.
У меня есть список компаний в UK, которые точно заинтересованы в вашей продукции …, потому что они импортируют похожие товары в UK.
Список содержит имена директоров, так что вы сможете обратится к ним по имени.
Пишите, если нужен список, отдам бесплатно.”
Я ответил так семи адресатам и уже получил первый ответ:
Hi Roman
Yes, please send it to me.
Thank you so much-
PS: Это Дмитриев Александр (бывший коммерческий директор Retail Rocket) меня так научил - просто вызывать людей на диалог, не перегружая их бесполезной информацией
🔥17❤2👍1
Amazon не справился с разработкой AI движка для Alexa 🙁
Мое личное впечатление от нынешней Alexa. Как колонка для воспроизведения музыки - отлично.
Как голосовой помощник - полная ерунда. Я так и не смог подружить ее со спотифай. А покупать через нее я просто боюсь.
И я все думал, они нанимают лучших. На собеседование к ним очень сложно попасть.
Рассказывают про Customer Obsession :(. В общем, если бы я был там разработчиком, я бы не хотел, чтобы мое имя ассоциировалось с этим продуктом.
История продолжилась на появлении LLM. В Амазон решили сделать сами, но не справились.
В итоге Alexa с собственной LLM внутри “испытывала трудности с формированием ответов, иногда требуя шесть или семь секунд, чтобы распознать запрос и ответить на него.”
В итоге запустят на Anthropic Claude:
https://www.reuters.com/technology/artificial-intelligence/amazon-turns-anthropics-claude-alexa-ai-revamp-2024-08-30/
PS: Кстати, OpenAI обещает выкатить полностью свой новый звуковой движок только осенью. А я все лето ждал когда его включат, чтобы английский учить с ней.
Все-таки звук будет посложнее, чем генерация текста
Мое личное впечатление от нынешней Alexa. Как колонка для воспроизведения музыки - отлично.
Как голосовой помощник - полная ерунда. Я так и не смог подружить ее со спотифай. А покупать через нее я просто боюсь.
И я все думал, они нанимают лучших. На собеседование к ним очень сложно попасть.
Рассказывают про Customer Obsession :(. В общем, если бы я был там разработчиком, я бы не хотел, чтобы мое имя ассоциировалось с этим продуктом.
История продолжилась на появлении LLM. В Амазон решили сделать сами, но не справились.
В итоге Alexa с собственной LLM внутри “испытывала трудности с формированием ответов, иногда требуя шесть или семь секунд, чтобы распознать запрос и ответить на него.”
В итоге запустят на Anthropic Claude:
https://www.reuters.com/technology/artificial-intelligence/amazon-turns-anthropics-claude-alexa-ai-revamp-2024-08-30/
PS: Кстати, OpenAI обещает выкатить полностью свой новый звуковой движок только осенью. А я все лето ждал когда его включат, чтобы английский учить с ней.
Все-таки звук будет посложнее, чем генерация текста
👍10❤1
Оказывается на Metabase можно писать несложные приложения без авторизации!
На выходных собрал такой отчет. Интерактивный dashboard с двумя параметрами: HS коды импортированного товара и SIC код рода деятельности компании.
https://app.retenly.com/public/dashboard/b9c30308-6099-4921-a645-d18f1af1aba5?tab=3-importer-statistics&commodity_(hs)_codes=32041100&commodity_(hs)_codes=32041200&commodity_(hs)_codes=32041300&commodity_(hs)_codes=32041400&commodity_(hs)_codes=32041500&commodity_(hs)_codes=32041600&commodity_(hs)_codes=32041900&sic_codes=20120&sic_codes=13100&sic_codes=13200&sic_codes=13300&sic_codes=13921&sic_codes=13990
Теперь любой поставщик, который ищет B2B покупателя в UK может это сделать самостоятельно.
В отчете он увидит общую статистику по выбранным HS и SIC кодам, во второй вкладке названия и разных параметры компаний, в третьей имена директоров.
Список можно загрузить в CRM, найти контакты и продавать!
HS и SIC коды подобрать не так просто, но с этой работой отлично справилась ChatGPT. Я ей отдал описание поставляемых товаров, а она мне в ответ необходимые HS и SIC коды.
Для ссылки выше я искал коды для поставщика пигментов краски. Вот какие коды вернула ChatGPT:
3204 11 00 - Disperse dyes and preparations based thereon.
3204 12 00 - Acid dyes, whether or not pre metalized, and preparations based thereon; mordant dyes and preparations based thereon.
3204 13 00 - Basic dyes and preparations based thereon.
3204 14 00 - Direct dyes and preparations based thereon.
3204 15 00 - Vat dyes (including those usable in that state as pigments) and preparations based thereon.
3204 16 00 - Reactive dyes and preparations based thereon.
3204 19 00 - Other synthetic organic coloring matter and preparations based thereon.
SIC:
20120 - Manufacture of dyes and pigments: Directly related to companies producing or using dyes and pigments.
13100 - Preparation and spinning of textile fibers: Companies that prepare and spin fibers may require dyes.
13200 - Weaving of textiles: Involves companies engaged in textile weaving, which would likely need your products.
13300 - Finishing of textiles: Focus on companies involved in the finishing process, which typically involves dyeing.
13921 - Manufacture of soft furnishings: Soft furnishing manufacturers often require dyed textiles.
13990 - Manufacture of other textiles n.e.c. (not elsewhere classified): This is a broad category that might include various textile manufacturers needing dyes.
PS: Если хотите сами поиграть с данными, то это можно сделать через ссылку https://retenly.com/login
Я сделал автоматическую регистрацию пользователя через API Metabase. Работает только для Google аккаунтов
На выходных собрал такой отчет. Интерактивный dashboard с двумя параметрами: HS коды импортированного товара и SIC код рода деятельности компании.
https://app.retenly.com/public/dashboard/b9c30308-6099-4921-a645-d18f1af1aba5?tab=3-importer-statistics&commodity_(hs)_codes=32041100&commodity_(hs)_codes=32041200&commodity_(hs)_codes=32041300&commodity_(hs)_codes=32041400&commodity_(hs)_codes=32041500&commodity_(hs)_codes=32041600&commodity_(hs)_codes=32041900&sic_codes=20120&sic_codes=13100&sic_codes=13200&sic_codes=13300&sic_codes=13921&sic_codes=13990
Теперь любой поставщик, который ищет B2B покупателя в UK может это сделать самостоятельно.
В отчете он увидит общую статистику по выбранным HS и SIC кодам, во второй вкладке названия и разных параметры компаний, в третьей имена директоров.
Список можно загрузить в CRM, найти контакты и продавать!
HS и SIC коды подобрать не так просто, но с этой работой отлично справилась ChatGPT. Я ей отдал описание поставляемых товаров, а она мне в ответ необходимые HS и SIC коды.
Для ссылки выше я искал коды для поставщика пигментов краски. Вот какие коды вернула ChatGPT:
3204 11 00 - Disperse dyes and preparations based thereon.
3204 12 00 - Acid dyes, whether or not pre metalized, and preparations based thereon; mordant dyes and preparations based thereon.
3204 13 00 - Basic dyes and preparations based thereon.
3204 14 00 - Direct dyes and preparations based thereon.
3204 15 00 - Vat dyes (including those usable in that state as pigments) and preparations based thereon.
3204 16 00 - Reactive dyes and preparations based thereon.
3204 19 00 - Other synthetic organic coloring matter and preparations based thereon.
SIC:
20120 - Manufacture of dyes and pigments: Directly related to companies producing or using dyes and pigments.
13100 - Preparation and spinning of textile fibers: Companies that prepare and spin fibers may require dyes.
13200 - Weaving of textiles: Involves companies engaged in textile weaving, which would likely need your products.
13300 - Finishing of textiles: Focus on companies involved in the finishing process, which typically involves dyeing.
13921 - Manufacture of soft furnishings: Soft furnishing manufacturers often require dyed textiles.
13990 - Manufacture of other textiles n.e.c. (not elsewhere classified): This is a broad category that might include various textile manufacturers needing dyes.
PS: Если хотите сами поиграть с данными, то это можно сделать через ссылку https://retenly.com/login
Я сделал автоматическую регистрацию пользователя через API Metabase. Работает только для Google аккаунтов
❤5👍3🔥3
мне кажется будет интересно, если интересуетесь карьерой в больших компаниях
Forwarded from New Yorko Times (Yury Kashnitsky)
Стрим про карьеру, собеседования и бигтех
#career #interviews
Choose your fighter. Собрал вам тут бигтех-банду для стрима:
- Татьяна Шаврина (LI) – Research Scientist Manager в лондонской Мете в команде LLama-4, авторка канала @rybolos_channel (пост-приветствие). Недавно устроилась, может рассказать про собесы и что именно спрашивают на менеджера;
- Артем Санакоев (LI) – Staff Research Scientist в цюрихской Мете, GenAI, автор канала @ai_newz (пост-приветствие). Собеседует на синьорные позиции в Мету;
- Сергей Иванов (LI) – Senior Applied Scientist в парижском Amazon, соавтор канала @graphML. Провел 100+ собесов в Амазон, может рассказать про хардкорные поведенческие вопросы;
- Борис Цейтлин (LI) – Staff MLE в берлинском eBay, автор канала @boris_again (пост-приветствие). Недавно отмучился с собесами;
- Юрий Кашницкий (LI) – Staff GenAI Solutions Architect в амстердамском Google Cloud, автор канала @new_yorko_times (пост-приветствие). Читатели этого канала знают про этот долгий заход по собесам (пост). Он же (то есть я) будет скоморошить, вести встречу.
Вопросы можно задавать заранее тут в треде, либо во время стрима. Можно адресовать конкретно кому-то из спикеров, например, «Вопрос Борису: доколе?»
Время: 20 сентября, 17:30-18:30 CET. Streamyard – ссылка для просмотра (там же по ссылке можно добавить в календарь).
Записи не будет, все вживую. Мест – максимум 1000 😀
#career #interviews
Choose your fighter. Собрал вам тут бигтех-банду для стрима:
- Татьяна Шаврина (LI) – Research Scientist Manager в лондонской Мете в команде LLama-4, авторка канала @rybolos_channel (пост-приветствие). Недавно устроилась, может рассказать про собесы и что именно спрашивают на менеджера;
- Артем Санакоев (LI) – Staff Research Scientist в цюрихской Мете, GenAI, автор канала @ai_newz (пост-приветствие). Собеседует на синьорные позиции в Мету;
- Сергей Иванов (LI) – Senior Applied Scientist в парижском Amazon, соавтор канала @graphML. Провел 100+ собесов в Амазон, может рассказать про хардкорные поведенческие вопросы;
- Борис Цейтлин (LI) – Staff MLE в берлинском eBay, автор канала @boris_again (пост-приветствие). Недавно отмучился с собесами;
- Юрий Кашницкий (LI) – Staff GenAI Solutions Architect в амстердамском Google Cloud, автор канала @new_yorko_times (пост-приветствие). Читатели этого канала знают про этот долгий заход по собесам (пост). Он же (то есть я) будет скоморошить, вести встречу.
Вопросы можно задавать заранее тут в треде, либо во время стрима. Можно адресовать конкретно кому-то из спикеров, например, «Вопрос Борису: доколе?»
Время: 20 сентября, 17:30-18:30 CET. Streamyard – ссылка для просмотра (там же по ссылке можно добавить в календарь).
Записи не будет, все вживую. Мест – максимум 1000 😀
❤2👍2
New Yorko Times
Стрим про карьеру, собеседования и бигтех #career #interviews Choose your fighter. Собрал вам тут бигтех-банду для стрима: - Татьяна Шаврина (LI) – Research Scientist Manager в лондонской Мете в команде LLama-4, авторка канала @rybolos_channel (пост-приветствие).…
Я сходил туда и было довольно интересно послушать людей, кто работает на топ позициях в МААНГ:
1) Если ты идешь в ML ресерч в MAANG, то лучше хоть какое-то PhD, даже из бывшего СССР. Аргумент следующий - тебе придется приоритезировать свои исследования, выбирать куда двигаться, и всему этому ты должен был научиться на PhD
2) Для старших позиций Behavioral interview - это 80% успеха прохождения интервью. Здесь важно показать масштаб решенных проблем, например, в деньгах. Если масштаб не очень большой - плохо. Про подготовку - выписать и запомнить несколько своих примеров в виде: ситуация, проблема, как вы ее решили.
3) Субъективное мнение - в MAANG ML сложнее стало попасть, возможно это связано с появлением LLM
4) Сами позиции ML engineer будут вырождаться и разделяться на обычную разработку и ML research
5) Еще важное - в ML research проблема - сидишь и пишешь одну статью целый год :). Нет ничего нового под этим солнцем. Сам страдаю
UPDATE: запись выложили https://www.youtube.com/watch?v=6E2JWezLzs4
1) Если ты идешь в ML ресерч в MAANG, то лучше хоть какое-то PhD, даже из бывшего СССР. Аргумент следующий - тебе придется приоритезировать свои исследования, выбирать куда двигаться, и всему этому ты должен был научиться на PhD
2) Для старших позиций Behavioral interview - это 80% успеха прохождения интервью. Здесь важно показать масштаб решенных проблем, например, в деньгах. Если масштаб не очень большой - плохо. Про подготовку - выписать и запомнить несколько своих примеров в виде: ситуация, проблема, как вы ее решили.
3) Субъективное мнение - в MAANG ML сложнее стало попасть, возможно это связано с появлением LLM
4) Сами позиции ML engineer будут вырождаться и разделяться на обычную разработку и ML research
5) Еще важное - в ML research проблема - сидишь и пишешь одну статью целый год :). Нет ничего нового под этим солнцем. Сам страдаю
UPDATE: запись выложили https://www.youtube.com/watch?v=6E2JWezLzs4
👍9❤1
Как вы помните, я начал летом заниматься алгоритмами высокочастотного трейдинга на криптобиржах.
Меня попросили рассказать детали - не могу, под NDA. 😢
Но я могу посоветовать пару книг по теме:
1) Developing High-Frequency Trading Systems (SebastienDonadio| SouravGhosh| RomainRossie) - я прочитал только начало, в программную часть не лез.
2) Trades, Quotes and Prices. Financial Markets Under the Microscope - мне посоветовал ее один очень хороший трейдер. Много математики, но автор старался все упрощать для понимания. Много ссылок на литературу. Сейчас ее читаю.
PS: до лета я был в этой теме полным нулем, сейчас хотя бы начал разговаривать на одном языке с коллегами
Меня попросили рассказать детали - не могу, под NDA. 😢
Но я могу посоветовать пару книг по теме:
1) Developing High-Frequency Trading Systems (SebastienDonadio| SouravGhosh| RomainRossie) - я прочитал только начало, в программную часть не лез.
2) Trades, Quotes and Prices. Financial Markets Under the Microscope - мне посоветовал ее один очень хороший трейдер. Много математики, но автор старался все упрощать для понимания. Много ссылок на литературу. Сейчас ее читаю.
PS: до лета я был в этой теме полным нулем, сейчас хотя бы начал разговаривать на одном языке с коллегами
❤8👍3😱1🤓1
Про эффективность последних LLM в программировании.
Понадобилось мне сменить способ авторизации в Metabase (лучшая система BI отчетности). Вроде бы сделать легко - плати 500$ в месяц за 10 пользовательских лицензий и подключай свою авторизацию.
Но ведь это Open Source, денег платить я не хотел, и решил немного переписать Metabase, сменив доступную авторизацию через Google на свою.
Вроде задача не сильно сложная, но сам проект очень сложный (хотя написан красиво). Написан на двух языках программирования Clojure и TypeScript(React + Redux).
Оба я их знаю плохо :(.
Итак я обратился к LLM:
1) Claude Sonnet 3.5 - не справился с TypeScript. Вроде что-то получалось, но не работало. Хотя было вроде удобнее c точки зрения UI.
2) ChatGPT 4o - то же самое
3) ChatGPT o1-preview - очень порадовал. Было несколько моментов, но я смог отдебажить и разобраться в вопросах сам.
Сама задача заняла около 8 часов с учетом мучений с предыдущими LLM. Возможно, первые две LLM лучше бы справились, если бы я формулировал задачу лучше.
Но o1-preview смогла помочь с почти такими же формулировками.
Понадобилось мне сменить способ авторизации в Metabase (лучшая система BI отчетности). Вроде бы сделать легко - плати 500$ в месяц за 10 пользовательских лицензий и подключай свою авторизацию.
Но ведь это Open Source, денег платить я не хотел, и решил немного переписать Metabase, сменив доступную авторизацию через Google на свою.
Вроде задача не сильно сложная, но сам проект очень сложный (хотя написан красиво). Написан на двух языках программирования Clojure и TypeScript(React + Redux).
Оба я их знаю плохо :(.
Итак я обратился к LLM:
1) Claude Sonnet 3.5 - не справился с TypeScript. Вроде что-то получалось, но не работало. Хотя было вроде удобнее c точки зрения UI.
2) ChatGPT 4o - то же самое
3) ChatGPT o1-preview - очень порадовал. Было несколько моментов, но я смог отдебажить и разобраться в вопросах сам.
Сама задача заняла около 8 часов с учетом мучений с предыдущими LLM. Возможно, первые две LLM лучше бы справились, если бы я формулировал задачу лучше.
Но o1-preview смогла помочь с почти такими же формулировками.
🔥7
Думаю написать большой пост про ML research. Как к нему подходить, грабли, на которые я напоролся.
Пишите вопросы в комментариях, попробую на них ответить!
Пишите вопросы в комментариях, попробую на них ответить!
🔥10👍2
Вчера была конференция OpenAI, где они рассказывали про текущие и будущие изменения продукта.
https://simonwillison.net/2024/Oct/1/openai-devday-2024-live-blog/
Мне лично было очень интересно почитать, что OpenAI теперь поддерживает API реального времени для приложений.
Кроме текста поддерживаются форматы данных, к которым мы привыкли в ChatGPT: звук, изображения. Причем, она может отвечать звуком!
Они опубликовали Speech API, которое, например реализовано в приложении Speak для изучения языков. Поставлю себе обязательно.
Как раз вчера тестировал новый аудио движок в ChatGPT приложении. Это реально большое изменение, и оно ударит по всему.
От преподавателей языка на italki до операторов call центра.
Что еще?
1) Улучшение работы JSON для приложений. Очень важная вещь. Я с этим мучался 🙁
2) Рекомендуется пользоваться o1-mini для кодинга и математики, хотя по моему мнению o1 preview лучше в этом плане.
3) Показано, как можно обучить небольшие модели на основе датасета из больших моделей. Очень полезно для оптимизации расходов
Пока не дочитал до конца - но Сэм Альтман стали сливаться с темы AGI :). Но это нисколько не умаляет достижений OpenAI.
PS: Спасибо Федору Шабашеву, что он расшарил этот блог пост в LinkedIn
https://simonwillison.net/2024/Oct/1/openai-devday-2024-live-blog/
Мне лично было очень интересно почитать, что OpenAI теперь поддерживает API реального времени для приложений.
Кроме текста поддерживаются форматы данных, к которым мы привыкли в ChatGPT: звук, изображения. Причем, она может отвечать звуком!
Они опубликовали Speech API, которое, например реализовано в приложении Speak для изучения языков. Поставлю себе обязательно.
Как раз вчера тестировал новый аудио движок в ChatGPT приложении. Это реально большое изменение, и оно ударит по всему.
От преподавателей языка на italki до операторов call центра.
Что еще?
1) Улучшение работы JSON для приложений. Очень важная вещь. Я с этим мучался 🙁
2) Рекомендуется пользоваться o1-mini для кодинга и математики, хотя по моему мнению o1 preview лучше в этом плане.
3) Показано, как можно обучить небольшие модели на основе датасета из больших моделей. Очень полезно для оптимизации расходов
Пока не дочитал до конца - но Сэм Альтман стали сливаться с темы AGI :). Но это нисколько не умаляет достижений OpenAI.
PS: Спасибо Федору Шабашеву, что он расшарил этот блог пост в LinkedIn
👍10🔥3