Big Ledovsky | AI изнутри
1.84K subscribers
228 photos
18 videos
4 files
189 links
Александр Ледовский
Head of AI | stealth ecom стартап, ex: Avito, Сбер, ШАД
ML в проде и что реально происходит в AI
DS карьера и менеджмент

@aledovsky
Download Telegram
This media is not supported in your browser
VIEW IN TELEGRAM
Впечатления с Fintech Data Day

Вчера выступал на Fintech Data Day. Доклад назывался - еком vs банки: отличия инфраструктуры данных на примерах.

Название конечно было эвфемизмом. Потому что это не какое-то системное сравнение архитектур разных компаний. Это про мои личные инсайты, которые я получил перейдя из Сбера в Авито. Не буду сюда писать суть доклада. Получилось на мой взгляд довольно интересно, сделаю отдельный пост.

Что было круто - в конференции чувствовался ламповый вайб. Наша сессия была чем-то средним между докладами и интервью, люди свободно задавали вопросы и знакомились, в том числе после докладов. Да и вы на видео можете посмотреть, доклад я затирал сидя на огромном кожаном кресле 😅 Думаю, что в такой атмосфере большая заслуга Саши Толмачёва, который организовывал конфу и вел в частности нашу секцию.

А так конечно приятно, что меня позвали. Здорово, что появилась новая классная конфа🔥
👍17🔥75
С летнего корпоратива

Обычно не пощу с корпоратов, но тут атмосфера меня прям тронула, и захотелось поделиться

#lifestyle@big_ledovsky
25🔥10
Ecom vs Банк: о в подходах работе с данными

Всем привет! Последнее время маловато пишу. Думаю так будет до конца лета, а потом начну новый сезон!

Как обещал, хочу поделиться о чем я рассказывал на Fintech Data Day. Вообще, я занимаюсь алгоритмами монетизации в Авито. И это совсем не то, что обычно понимают под словом финтех, хотя это тоже про деньги. Я был на конференции как человек из другой индустрии, у меня была задача сделать доклад на стыке. Тем более, что в банке я тоже прилично проработал.

Недолго думая я решил рассказать про 3 кейса, почему в некоторых продуктовых ecom компаниях очень быстро идет работа с области аналитики и DS. Сами идеи небольшие и как раз уместятся в один пост.

Активное использование событий как источника данных

Во многих компаниях, в т. ч. в банках, доставка данных в хранилище данных строится на базе технологии CDC, change data capture. При всех плюсах у этого подхода есть пару недостатков: CDC реплики делать дорого и дорого поддерживать, а структуры баз данных сервисов не предназначены для аналитических запросов. Поэтому создание витрин напрямую из сырых реплик требует значительных ресурсов и сложных методологий (привет 6-я нормальная форма и data vault). Зато, в хранилище всегда лежит точная копия данных.

Но часто прямо 100%-ная точность не нужна. В итоге вы же считаете агрегированные метрики или достаете небольшой семпл конкретных примеров. Если потеряете одну строчку - ну ничего страшного. Продуктовые компании этим активно пользуются и часть своей аналитики строят на событиях. Это когда вы в середине какого-то процесса отправляете сообщение в формате JSON с какими-то данными и они летят в сторону хранилища. Получается сильно быстрее: и само событие добавить дело нехитрое, и потом на стороне аналитики джойнить нужно меньше. Пропадают события нечасто, но такое может быть. И уж если пропадет, то пропадет насовсем. Такая плата за эффективность.

Возможность тестирования на проде для ускорения работы

В банках прод обычно держат за семью печатями. А когда вы работаете с аналитикой или ML-сценариями, отладиться в тестовой среде просто невозможно.

Например, нужно ходить в продовый индекс поиска во время локальной отладки поискового сервиса. Ну не сведете вы поиск на каком-то тестовом слепке прода. Это нужно создавать вторую копию всех данных, инфраструктуру аналогичную проду за безумные деньги и заливать туда все те же самые данные.

Поэтому работу с продом нужно не запрещать, а нужно создавать безопасные подходы работы.

Прямой доступ аналитиков к некоторым продовым API

И развивая предыдущую историю. Аналитикам и DS-ам нужно в некоторых сценариях ходить в продовые API. Например, где-то можно нужно запустить тест. Где-то нужно поискать баги. Где-то получить данные в моменте. Если на каждую проблему откатывать сервис, уходить в тестовый контур, и пытаться воспроизвести проблему, то можно фичи делать бесконечно. С дата-центричными сервисами такое плохо работает.

Вот такие вредные советы у меня получились. Банки в среднем работают медленнее не потому что там какая-то не такая культура. В первую очередь причина в трейдоффе между надежностью и эффективностью, что я показал этими тремя кейсами. Просто не везде надежность должна падать - нужно грамотно реализовывать процессы. С теми же API кто угодно не должен иметь возможность делать запросы - есть специальные политики безопасности с ограниченным кругом лиц. И так далее. Поиск таких более эффективных процессов - это и есть большая точка роста в банках.

Спасибо что дочитали! Надеюсь было интересно ❤️

#tech
👍15🔥41
В доске AI объявлений вышел пост, и я вспомнил, что ничего не писал про наш внутриАвитовский DS выезд в конце июня. А это на самом деле было самое крутое корпоративное мероприятие на котором я был 😮

Было что-то типа пионерлагеря. Поделились на отряды, бегали эстафету, тянули канат, поставили две сценки по типу квн, проводили свечку. Кто был в лагерях, поймет 💔

Я бы назвал это возвращением к нормальным человеческим отношениям в эпоху интернета
Please open Telegram to view this post
VIEW IN TELEGRAM
26❤‍🔥3🔥2👍1😍1🦄1
Конференция e-code от Озона - one love ❤️. Как и в прошлом году, прислали классные подарки с приглашением. А еще там были годные доклады по поиску и рекомендациям, вкусная еда и Александр Пушной. Заглядение, а не конференция. Пойду обязательно! 😙
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍18🔥10👾1
🤔 Аня написала статью для аналитиков, которые переходят из специалистов в тимлиды. Для DS тоже актуально. А еще статья актуальна для тех, кто думает, идти ли в тимлиды 🔫

👉 И вывод на самом деле в том, что становиться тимлидом необязательно. Это правда серьезное изменение, и подойдет не каждому. Но с другой стороны, если сомневаетесь, лучше попробуйте. Вернуться сможете всегда. 👌

#career@big_ledovsky
Please open Telegram to view this post
VIEW IN TELEGRAM
👍15🔥8👀1
Самое важное про релиз OpenAI GPT-5

👉 Изменения в GPT-5 не революционные, а эволюционные

- Повышена скорость работы моделей с ризонингом*
- Улучшены показатели на бенчмарках в написании кода
- Снижены галлюцинации
- Добавлены тонкие настройки в API: сложность ризонинга и многословность ответа (verbosity)
- Добавлены тонкие настройки ответа. Например, можно задать синтаксис своего SQL диалекта

* ризонинг (reasoning, он же thinking mode в UI) - это режим работы LLM, когда ее просят решить задачу не сразу, а по шагам. Улучшает результаты в сложных задачах, например кодинге. До этого ризонинг модели работали сильно дольше обычных.

Выводы. LLM как инструмент становится более зрелым. Сейчас все-таки в основном им пользуются как чатом. Но видно, что массовое внедрение в продакшн процессы близко.

#tech@big_ledovsky
Please open Telegram to view this post
VIEW IN TELEGRAM
👍9🔥2
Байдарочный поход в Киргизии

🏕 В этом блоге смешивается профессиональный контент и лайфстайл. Из последнего я особенно люблю писать про походы. Мне кажется, что таким образом я несу их в массы 🫡

В этом году я поехал 9 дней грести по озеру Иссык-Куль в Киргизию. Тут неплохо с интернетом, поэтому выкладываю первую часть впечатлений прямо с маршута

В чем суть мероприятия. Мы гребем вдоль побережья. Останавливаемся в палатках либо на диких пляжах, либо в кемпингах (где есть душ и туалет). Периодически ходим на пешие вылазки или другие активности. Например, я тут научился ездить на лошади. Свободного времени в целом мало, можно встать пораньше чтобы провести время с собой, ну и в обед посидеть с кофеечком и даже поспать.

В следующем впечатлении расскажу что больше всего понравилось, а что нет. И насколько такой поход - это тяжело 😁/🔫

Читайте также:
Прошлогодний поход по западному Кавказу
Прошлогодний поход по Ладожским Шхерам
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥33👍116👏1
Байдарочный поход в Киргизии - завершение

🔫 Тяжело ли идти в такой поход или нет?

Тяжело, но не так, как бегать марафоны. А я знаю, что многие из вас еще как бегают 🏎. У нас был по сути мультитур. Не только гребля, но и еще всякое. Это значит, что периодически есть контакт с цивилизацией и кемпинги. Можно мыться ежедневно в озере, иногда даже в теплом душе.

Хорошая точка старта для новичков, только желательно иметь хорошую физ форму.

😊 Что понравилось

- Было много вкусной еды: борщ, плов, блины, арбузы. Тут два фактора: на байдарку можно много всего взять и личный фактор инструкторов. Наши ребята были 10 из 10 по кулинарии

- Переходы были не более 4-5 часов в день. Мне нравится этот формат. Полдня гребешь, полдня занимаешься чем-то другим

- Оценил доп активности и хайки. Самое яркое впечатление - лошади

- Было много атмосферных вещей. Наш инструктор, Саша, заваривал пуэр, варил кофе в турке, ставил классную музыку. Ну и в целом, мы не бежали

- Природа. Озеро Иссык-Куль ведет себя почти как море: волны, резкая смена погоды. Вокруг горы. Очень круто.

😏 Что могло бы быть лучше

Мне кажется, если уж на маршруте есть кемпинги, то лучше максимально ими пользоваться: спать в юртах, а не палатках, есть местную еду, а не готовить. Это просто время экономит.

Еще после моего опыта со Сменой и нашим DS выездом я ощутил нехватку методов управления групповой динамикой: чекинов/свечек, модерируемых групповых обсуждений итд. И без этого людей постепенно узнаешь, находишь точки контакта, но раз в 10 медленнее.

😁 Итог

Я переключился, забыл какой день недели, забыл про работу, практически про все. Походы - сильно недооцененная тема. Не для всех, понятно.

#lifestyle@big_ledovsky
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥2513👍4
Конференция от Яндекса: Data-Driven

Мне предложили написать, и я с радостью согласился. 20 сентября Яндекс организует конференцию Data-Driven. Я бы сказал, что мероприятие для аналитиков, но и DS тоже может быть интересно. Сейчас поймете почему.

Мероприятие организуется Поиском и Рекламными технологиями Яндекса. А в этих областях аналитика традиционно сложная, и граница между аналитиками и DS размывается. Например, аналитики могут придумывать алгоритмы, а DS-ы разрабатывать метрики.

Доклады поделили на два трека:

- для продуктовых, data-аналитиков и data scientists
- для data-инженеров, системных и BI-аналитиков

Сетка еще формируется и состоит из докладов Яндекса (на мой взгляд это плюс). Из анонсированного обратил внимание на доклад про end-to-end качество Алисы и о том как устроен бизнес рободоставки.

По опыту Practical ML Яндекс круто организует свои ивенты. Всем рекомендую обратить внимание.

Реклама. ООО "Яндекс". ИНН 7736207543

Ссылка для регистрации
👍12🔥6😐1
Есть ли разница между DS инженером и AI исследователем

Илон Маск написал, что отменяет в xAI должность researcher. Теперь все будут engineer.

Ян Лекун (один из главных авторитетов в ML рисерче) написал длинный пост в линкедин с критикой.


Мне лично кажется деление на researcher и engineer разумным. Саму работу в DS я бы поделил на 3 категории

- Разработка прикладных решений. Делают DS инженеры 👷
- Разработка экспериментальных решений. Тоже делают DS инженеры 👷
- Создание новых технологий и методов. Делают исследователи 🧑‍🔬

💊 Этими тремя группами удобно оперировать с точки зрения управления ресурсами компании. Вы балансируете, сколько человек работают над результатом здесь и сейчас, а сколько работают на средний и далекий горизонт. Теперь по поводу ролей.

Цель инженера - создать рабочее решение. Цель исследователя - создать новую технологию и опубликовать статью. Давайте разберемся, почему я поделил работу между инженерами и исследователями как написал выше.

- По поводу прикладных решений вопросов нет. Это абсолютно инженерная работа. Новые методы изобретать не нужно, а нужно уметь из существующих собрать рабочее решение, сделать файн-тюн, добавить эвристики итд.

- По экспериментальным решениям менее однозначно. В процессе могут появиться новые методы и архитектуры моделей, но это не основной продукт, это не делается специально (в здоровых командах 🤒). Главное - именно собрать рабочее решение, поэтому работа инженерная.

- А вот в целенаправленном создании новых методов работа не инженерная. Неоднозначность тут вызывается тем, что в AI значительная часть исследований - корпоративная. Корпоративная среда не хочет сухих открытий 💰, она хочет внедрений. Но пилотирование новой модели - это не исследовательская работа, это уже другая задача. Если создан интересный метод, помочь его протестировать должен DS инженер. По крайней мере так это реализовано у нас в нашем небольшом рисерче монетизации.

Итого, я бы не отказывался от разделения инженера и исследователя

Характер работы и требуемые навыки и правда слишком разные. Если инженера можно подвинуть с прикладных решений на экспериментальные, то рисерчера как правило никуда не подвинуть.

#management@big_ledovsky
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍133