Big Ledovsky | AI изнутри

Впечатления с Fintech Data Day

Вчера выступал на Fintech Data Day. Доклад назывался - еком vs банки: отличия инфраструктуры данных на примерах.

Название конечно было эвфемизмом. Потому что это не какое-то системное сравнение архитектур разных компаний. Это про мои личные инсайты, которые я получил перейдя из Сбера в Авито. Не буду сюда писать суть доклада. Получилось на мой взгляд довольно интересно, сделаю отдельный пост.

Что было круто - в конференции чувствовался ламповый вайб. Наша сессия была чем-то средним между докладами и интервью, люди свободно задавали вопросы и знакомились, в том числе после докладов. Да и вы на видео можете посмотреть, доклад я затирал сидя на огромном кожаном кресле 😅 Думаю, что в такой атмосфере большая заслуга Саши Толмачёва, который организовывал конфу и вел в частности нашу секцию.

А так конечно приятно, что меня позвали. Здорово, что появилась новая классная конфа🔥

👍17🔥7❤5

1.94K views08:49

Big Ledovsky | AI изнутри

0:07

This media is not supported in your browser

VIEW IN TELEGRAM

С летнего корпоратива

Обычно не пощу с корпоратов, но тут атмосфера меня прям тронула, и захотелось поделиться

#lifestyle@big_ledovsky

❤25🔥10

1.88K views08:51

Big Ledovsky | AI изнутри

Ecom vs Банк: о в подходах работе с данными

Всем привет! Последнее время маловато пишу. Думаю так будет до конца лета, а потом начну новый сезон!

Как обещал, хочу поделиться о чем я рассказывал на Fintech Data Day. Вообще, я занимаюсь алгоритмами монетизации в Авито. И это совсем не то, что обычно понимают под словом финтех, хотя это тоже про деньги. Я был на конференции как человек из другой индустрии, у меня была задача сделать доклад на стыке. Тем более, что в банке я тоже прилично проработал.

Недолго думая я решил рассказать про 3 кейса, почему в некоторых продуктовых ecom компаниях очень быстро идет работа с области аналитики и DS. Сами идеи небольшие и как раз уместятся в один пост.

Активное использование событий как источника данных

Во многих компаниях, в т. ч. в банках, доставка данных в хранилище данных строится на базе технологии CDC, change data capture. При всех плюсах у этого подхода есть пару недостатков: CDC реплики делать дорого и дорого поддерживать, а структуры баз данных сервисов не предназначены для аналитических запросов. Поэтому создание витрин напрямую из сырых реплик требует значительных ресурсов и сложных методологий (привет 6-я нормальная форма и data vault). Зато, в хранилище всегда лежит точная копия данных.

Но часто прямо 100%-ная точность не нужна. В итоге вы же считаете агрегированные метрики или достаете небольшой семпл конкретных примеров. Если потеряете одну строчку - ну ничего страшного. Продуктовые компании этим активно пользуются и часть своей аналитики строят на событиях. Это когда вы в середине какого-то процесса отправляете сообщение в формате JSON с какими-то данными и они летят в сторону хранилища. Получается сильно быстрее: и само событие добавить дело нехитрое, и потом на стороне аналитики джойнить нужно меньше. Пропадают события нечасто, но такое может быть. И уж если пропадет, то пропадет насовсем. Такая плата за эффективность.

Возможность тестирования на проде для ускорения работы

В банках прод обычно держат за семью печатями. А когда вы работаете с аналитикой или ML-сценариями, отладиться в тестовой среде просто невозможно.

Например, нужно ходить в продовый индекс поиска во время локальной отладки поискового сервиса. Ну не сведете вы поиск на каком-то тестовом слепке прода. Это нужно создавать вторую копию всех данных, инфраструктуру аналогичную проду за безумные деньги и заливать туда все те же самые данные.

Поэтому работу с продом нужно не запрещать, а нужно создавать безопасные подходы работы.

Прямой доступ аналитиков к некоторым продовым API

И развивая предыдущую историю. Аналитикам и DS-ам нужно в некоторых сценариях ходить в продовые API. Например, где-то можно нужно запустить тест. Где-то нужно поискать баги. Где-то получить данные в моменте. Если на каждую проблему откатывать сервис, уходить в тестовый контур, и пытаться воспроизвести проблему, то можно фичи делать бесконечно. С дата-центричными сервисами такое плохо работает.

Вот такие вредные советы у меня получились. Банки в среднем работают медленнее не потому что там какая-то не такая культура. В первую очередь причина в трейдоффе между надежностью и эффективностью, что я показал этими тремя кейсами. Просто не везде надежность должна падать - нужно грамотно реализовывать процессы. С теми же API кто угодно не должен иметь возможность делать запросы - есть специальные политики безопасности с ограниченным кругом лиц. И так далее. Поиск таких более эффективных процессов - это и есть большая точка роста в банках.

Спасибо что дочитали! Надеюсь было интересно ❤️

#tech

👍15🔥4❤1

1.51K views16:26

Big Ledovsky | AI изнутри

В доске AI объявлений вышел пост, и я вспомнил, что ничего не писал про наш внутриАвитовский DS выезд в конце июня. А это на самом деле было самое крутое корпоративное мероприятие на котором я был 😮

Было что-то типа пионерлагеря. Поделились на отряды, бегали эстафету, тянули канат, поставили две сценки по типу квн, проводили свечку. Кто был в лагерях, поймет 💔

Я бы назвал это возвращением к нормальным человеческим отношениям в эпоху интернета

Please open Telegram to view this post

VIEW IN TELEGRAM

❤26❤‍🔥3🔥2👍1😍1🦄1

1.81K views08:12

Big Ledovsky | AI изнутри

Конференция e-code от Озона - one love ❤️. Как и в прошлом году, прислали классные подарки с приглашением. А еще там были годные доклады по поиску и рекомендациям, вкусная еда и Александр Пушной. Заглядение, а не конференция. Пойду обязательно! 😙

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍18🔥10👾1

1.71K views15:03

Big Ledovsky | AI изнутри

🤔 Аня написала статью для аналитиков, которые переходят из специалистов в тимлиды. Для DS тоже актуально. А еще статья актуальна для тех, кто думает, идти ли в тимлиды 🔫

👉 И вывод на самом деле в том, что становиться тимлидом необязательно. Это правда серьезное изменение, и подойдет не каждому. Но с другой стороны, если сомневаетесь, лучше попробуйте. Вернуться сможете всегда. 👌

#career@big_ledovsky

Please open Telegram to view this post

VIEW IN TELEGRAM

Хабр

Как подготовиться к переходу на роль тимлида и как вернуться, если не вывезли

Привет! Меня зовут Аня Ледовская, я Acting Division Lead в Авито . Переход на новые роли всегда связан с ростом уровня стресса и нагрузки. Часто приходится поддерживать задачи «из прошлого», а в...

👍15🔥8👀1

1.63K views15:07

Big Ledovsky | AI изнутри

Самое важное про релиз OpenAI GPT-5

👉 Изменения в GPT-5 не революционные, а эволюционные

- Повышена скорость работы моделей с ризонингом*
- Улучшены показатели на бенчмарках в написании кода
- Снижены галлюцинации
- Добавлены тонкие настройки в API: сложность ризонинга и многословность ответа (verbosity)
- Добавлены тонкие настройки ответа. Например, можно задать синтаксис своего SQL диалекта

* ризонинг (reasoning, он же thinking mode в UI) - это режим работы LLM, когда ее просят решить задачу не сразу, а по шагам. Улучшает результаты в сложных задачах, например кодинге. До этого ризонинг модели работали сильно дольше обычных.

Выводы. LLM как инструмент становится более зрелым. Сейчас все-таки в основном им пользуются как чатом. Но видно, что массовое внедрение в продакшн процессы близко.

#tech@big_ledovsky

Please open Telegram to view this post

VIEW IN TELEGRAM

👍9🔥2

1.74K viewsedited 10:49

Big Ledovsky | AI изнутри

0:34

This media is not supported in your browser

VIEW IN TELEGRAM

Байдарочный поход в Киргизии

🏕 В этом блоге смешивается профессиональный контент и лайфстайл. Из последнего я особенно люблю писать про походы. Мне кажется, что таким образом я несу их в массы 🫡

В этом году я поехал 9 дней грести по озеру Иссык-Куль в Киргизию. Тут неплохо с интернетом, поэтому выкладываю первую часть впечатлений прямо с маршута

В чем суть мероприятия. Мы гребем вдоль побережья. Останавливаемся в палатках либо на диких пляжах, либо в кемпингах (где есть душ и туалет). Периодически ходим на пешие вылазки или другие активности. Например, я тут научился ездить на лошади. Свободного времени в целом мало, можно встать пораньше чтобы провести время с собой, ну и в обед посидеть с кофеечком и даже поспать.

В следующем впечатлении расскажу что больше всего понравилось, а что нет. И насколько такой поход - это тяжело 😁/🔫

Читайте также:
Прошлогодний поход по западному Кавказу
Прошлогодний поход по Ладожским Шхерам

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥33👍11❤6👏1

1.6K views14:28

Big Ledovsky | AI изнутри

Байдарочный поход в Киргизии - завершение

🔫

Тяжело ли идти в такой поход или нет?

Тяжело, но не так, как бегать марафоны. А я знаю, что многие из вас еще как бегают 🏎. У нас был по сути мультитур. Не только гребля, но и еще всякое. Это значит, что периодически есть контакт с цивилизацией и кемпинги. Можно мыться ежедневно в озере, иногда даже в теплом душе.

Хорошая точка старта для новичков, только желательно иметь хорошую физ форму.

😊

Что понравилось

- Было много вкусной еды: борщ, плов, блины, арбузы. Тут два фактора: на байдарку можно много всего взять и личный фактор инструкторов. Наши ребята были 10 из 10 по кулинарии

- Переходы были не более 4-5 часов в день. Мне нравится этот формат. Полдня гребешь, полдня занимаешься чем-то другим

- Оценил доп активности и хайки. Самое яркое впечатление - лошади

- Было много атмосферных вещей. Наш инструктор, Саша, заваривал пуэр, варил кофе в турке, ставил классную музыку. Ну и в целом, мы не бежали

- Природа. Озеро Иссык-Куль ведет себя почти как море: волны, резкая смена погоды. Вокруг горы. Очень круто.

😏

Что могло бы быть лучше

Мне кажется, если уж на маршруте есть кемпинги, то лучше максимально ими пользоваться: спать в юртах, а не палатках, есть местную еду, а не готовить. Это просто время экономит.

Еще после моего опыта со Сменой и нашим DS выездом я ощутил нехватку методов управления групповой динамикой: чекинов/свечек, модерируемых групповых обсуждений итд. И без этого людей постепенно узнаешь, находишь точки контакта, но раз в 10 медленнее.

😁

Итог

Я переключился, забыл какой день недели, забыл про работу, практически про все. Походы - сильно недооцененная тема. Не для всех, понятно.

#lifestyle@big_ledovsky

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥25❤13👍4

1.54K views11:11

Big Ledovsky | AI изнутри

Конференция от Яндекса: Data-Driven

Мне предложили написать, и я с радостью согласился. 20 сентября Яндекс организует конференцию Data-Driven. Я бы сказал, что мероприятие для аналитиков, но и DS тоже может быть интересно. Сейчас поймете почему.

Мероприятие организуется Поиском и Рекламными технологиями Яндекса. А в этих областях аналитика традиционно сложная, и граница между аналитиками и DS размывается. Например, аналитики могут придумывать алгоритмы, а DS-ы разрабатывать метрики.

Доклады поделили на два трека:

- для продуктовых, data-аналитиков и data scientists
- для data-инженеров, системных и BI-аналитиков

Сетка еще формируется и состоит из докладов Яндекса (на мой взгляд это плюс). Из анонсированного обратил внимание на доклад про end-to-end качество Алисы и о том как устроен бизнес рободоставки.

По опыту Practical ML Яндекс круто организует свои ивенты. Всем рекомендую обратить внимание.

Реклама. ООО "Яндекс". ИНН 7736207543

Ссылка для регистрации

Data Driven 2025

20 сентября пройдет конференция для аналитиков от бизнес-группы Поиска и Рекламных технологий Яндекса. Расскажем, как с помощью data-driven-подхода находим точки роста и влияем на бизнес-метрики продуктов.

👍12🔥6😐1

1.64K views09:11

Big Ledovsky | AI изнутри

Есть ли разница между DS инженером и AI исследователем

Илон Маск написал, что отменяет в xAI должность researcher. Теперь все будут engineer.

Ян Лекун (один из главных авторитетов в ML рисерче) написал длинный пост в линкедин с критикой.

Мне лично кажется деление на researcher и engineer разумным. Саму работу в DS я бы поделил на 3 категории

- Разработка прикладных решений. Делают DS инженеры 👷
- Разработка экспериментальных решений. Тоже делают DS инженеры 👷
- Создание новых технологий и методов. Делают исследователи 🧑‍🔬

💊 Этими тремя группами удобно оперировать с точки зрения управления ресурсами компании. Вы балансируете, сколько человек работают над результатом здесь и сейчас, а сколько работают на средний и далекий горизонт. Теперь по поводу ролей.

Цель инженера - создать рабочее решение. Цель исследователя - создать новую технологию и опубликовать статью. Давайте разберемся, почему я поделил работу между инженерами и исследователями как написал выше.

- По поводу прикладных решений вопросов нет. Это абсолютно инженерная работа. Новые методы изобретать не нужно, а нужно уметь из существующих собрать рабочее решение, сделать файн-тюн, добавить эвристики итд.

- По экспериментальным решениям менее однозначно. В процессе могут появиться новые методы и архитектуры моделей, но это не основной продукт, это не делается специально (в здоровых командах 🤒). Главное - именно собрать рабочее решение, поэтому работа инженерная.

- А вот в целенаправленном создании новых методов работа не инженерная. Неоднозначность тут вызывается тем, что в AI значительная часть исследований - корпоративная. Корпоративная среда не хочет сухих открытий 💰, она хочет внедрений. Но пилотирование новой модели - это не исследовательская работа, это уже другая задача. Если создан интересный метод, помочь его протестировать должен DS инженер. По крайней мере так это реализовано у нас в нашем небольшом рисерче монетизации.

Итого, я бы не отказывался от разделения инженера и исследователя

Характер работы и требуемые навыки и правда слишком разные. Если инженера можно подвинуть с прикладных решений на экспериментальные, то рисерчера как правило никуда не подвинуть.

#management@big_ledovsky

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍13❤3

1.52K views14:14

About

Blog

Apps

Platform