эйай ньюз
59.2K subscribers
1.41K photos
733 videos
7 files
1.73K links
Культурно освещаю самые и не самые важные новости из мира AI, и облагораживаю их своим авторитетным профессиональным мнением.

В свободное время работаю как Staff Research Scientist в Meta Generative AI в Швейцарии.

Aвтор: @asanakoy

PR: @kander426
Download Telegram
Рад поделиться с вами хорошей новостью. Наша команда (я, Степан Конев и Кирилл Бродт) заняла 3-е место на Waymo Motion Prediction Challenge 2021.

Чтобы спланировать безопасный и эффективный маршрут, автономное транспортное средство должно предвидеть будущие движения других агентов вокруг него. Прогнозирование движения - чрезвычайно сложная задача, которая в последнее время привлекла значительное внимание исследовательского сообщества. Мы предлагаем простой, но довольно мощный метод для прогнозирования сразу нескольких траекторий движения. Наш метод основан исключительно на сверточных нейронных сетях (всё очень просто), в отличие от других методов которые используют self-attention и графовые нейронные сети.

Задача на соревке была следующая: учитывая траекторию агентов за последнюю 1 секунду (с координатами на карте), мы должны были спрогнозировать позиции агентов на дороге на 8 секунд в будущее.

Наша модель принимает растровое изображение с целевым агентом (тот, для кого идет предсказание) в центре на вход и напрямую предсказывает набор возможных траекторий вместе с их уверенностью (confidence). Растровое изображение получается растеризацией сцены и истории всех агентов. См. пайплайн нашего подхода в посте ниже↓.

То есть мы решаем задачу регрессии, но так как нужно предсказать несколько возможных вариантов траектории, то лосс нужен более хитрый, чем просто MSE (Mean Squared Error): мы предсказываем распределение траекторий в виде смеси из K Гауссиан, и максимизиуем функцию правдоподобия этого распределения при условии, что GT траектория была сгенерирована этим распределением.

Несмотря на то, что предлагаемый подход прост в реализации, он показывает сравнимые результаты с SOTA методами на Waymo Open Dataset Motion Prediction Challenge (2021): наша модель занимает 1-е место по метрике minADE (minimum average displacement error) и 3-е место по метрике mAP (mean avarage precision).

Мы написали небольшую статью про нашу модель и зарелизили код!

#personal #мойпуть
​Буоно серата, мужички и дамы,

Каждое второе сообщение в моей личке выглядит примерно так: "как вкатиться в AI, брат?".

Для начала расскажу вам коротко свой путь самурая. Впервые я потыкал ML и обучил SVM в махровом 2013 в Школе Анализа Данных Яндекса. Мне эта возня с данными понравилась, и на последнем курсе шараги я стал подыскивать себе программу PhD за бугром. Долго не думая, перед новым годом, я разослал примерно дохульён емейлов со своим резюме и получил около 10 ответов и впоследствии два с половиной офера. Затем пришлось изрядно попотеть, доказывая, что я не верблюд с беларуским дипломом. Не знаю, как мне удалось убедить Бундестаг, чтобы они отсыпали денег на аспирантуру именно мне, а не другим немецким студентам.

Я был счастлив. Но длилось это недолго. Минул примерно год, и я начинал ощущать какую-то тяжесть, как будто на запястьях что-то защелкивалось, слегка прибивая меня к земле. Это были небольшие, но увесистые кандалы, по гирьке на каждую ногу и руку, которые мне мило навесил профессор. Требовались исключительные достижения (3-5 статей на топовых конференциях) и удачное стечение обстоятельств, чтобы крепостной получил вольную. Не смотря на это, я почти в самоволку дважды убежал на стажировку в индустрию (в одну из ныне запрещенных в РФ организаций). Итого, 5-лет веселого рабства в старинном немецком вузе завершилось получением мной вольной грамоты по случаю защиты докторской диссертации в Компукторном Зрении.

Продолжение следует.

#мойпуть

@Artem
Откуда AI хайп и почему именно сейчас?
И немного баек от меня.

Я начал заниматься Deep Learning в 2015 году, когда переехал в Германию. Даже тогда, когда уже прошло 3 года после появления культовой архитектуры AlexNet, еще не все из научного мира купили идею нейронных сетей. В нашей научной группе CompVis (где зародился Stable Diffusion) проф был из тех, кто еще не полностью поверил в силу Deep Learning, и и поэтому первые 3-4 месяца я большую часть своего времени провел за работой с SVM (Support Vector Machine)

Но, с первых дней я понемногу начал поглядывать и на нейросети вместе со своими постдоком. TensorFlow тогда еще не было, а правил бал Caffe из Berkeley AI Research – ужасно неудобный фреймворк, где сеть нужно было определять в protobuf файле из набора заготовленных слоев. Ни о каком autograd и речи не шло. В 2016 на NeurIPS вышла моя статья CliqueCNN про self-supervised learning, и она была первой статьей по нейросетям из нашей научной группы.

В общем, я к тому, что Deep Learning с нами уже довольно давно (ну, или не так давно, смотря как посмотреть), и трансформеры, то на чем строятся все современные языковые модели, изобрели в далеком 2017 году, но дикий хайп пошел только в 2023. Я за хайпом никогда не шел, и когда начинал PhD, о нейросетях не кричала каждая собака в твиттере. В 2019 году мне показалось: “Ну, вот сейчас пик популярности AI и Deep Learning, смотри как StyleGAN завирусился”. Но это был мой пузырь, и высокая популярность нейросеток тогда была только внутри научного мира. Появилась куча AI программ и толпы студентов пошли изучать такие sexу предметы, как Machine Learning и Data Science. Это было только начало.

Ну а теперь, в 2023, я вообще в шоке от того, что происходит. Все как будто с цепи сорвались с этим ChatGPT и китайскими клонами. Мне за последние две недели 4 раза предлагали дать интервью в разные онлайн издания по поводу AI. Забавно наблюдать FOMO не только у людей, но и у крупных технологических компаний, которые готовы рисковать репутацией, лишь бы запрыгнуть в хайп-трейн. Самое смешное, так это то из-за чего этот хайп формируется. По сути технология за ChatGPT не является прорывной, никакой AGI изобретен не был. Все что произошло — так это, OpenAI смогли красиво обернуть свою модель (за это им стоит отдать должное) и дать потрогать ее массе обывателей, далеким от технологий. Вот тут люди, которые не понимают как это все работает, очнулись и иcпытали катарсис. Про AI стали говорить из каждого утюга, гуру учат зарабатывать с помощью ChatGPT, а VC закричали “возьмите наши бабки”. Ведь, то что ты не понимаешь тебе кажется магией, и для многих ChatGPT действительно выглядит как что-то из будущего. Да, инструмент оказался полезный, и уже может автоматизировать некоторую рутинную работу с текстом и кодом. Но магического там мало – линейная алгебра, бро. И до того как чат-боты перестанут нести пургу с уверенным лицом и действительно поймут, как устроен наш мир, пройдет еще несколько лет (предсказание сугубо оптимистическое и неконкретное).

Так что, друзья, давайте лучше будем разбираться в технологиях, а не бежать за хайпом. Для этого мы тут и собрались.

#карьера #мойпуть

@ai_newz
GenAI: Персональный апдейт

Несколько недель назад Марк анонсировал, что будет создана новая организация внутри Meta – GenAI, которая будет заниматься сугубо Generative AI. Наша команда покинула Reality Labs и попала в новую организацию.

Я очень рад этому событию, ведь последний год я занимался диффузионными моделями, а теперь полный газ в пол! Но на диффузии мы, конечно, не ограничиваемся и будем искать новые эффективные модели.

Ещё бонусом теперь я смогу плотнее сотрудничать с командами из FAIR, которые создали make-a-scene и make-a-video, или ту же LLaMa, потому что мы теперь с ними в одной организации.

Exciting stuff!

#карьера #мойпуть

@ai_newz
Потыкал я в обновленного Bard-а.

Я бы никогда не дал доступ ChatGPT к своим письмам, но т.к. письма и так уже на серверах гугла, то перешагнуть этот порог с Бардом было нетрудно. Интересно было посмотреть как он хорошо ищет в моих мейлах. Оказалось, что не очень.

Пытался узнать, что мне впервые написал мой PhD научник из Хайдельберга - Prof. Björn Ommer. В итоге я очень долго мучал Барда, чтобы тот смог найти емейлы по имени отправителя. Паршивец наотрез отказывался, пока я явно не выписал e-mail адрес. Затем он не хотел искать письма раньше чем 2021 год (а у меня их там тысячи), пока я несколько раз не сказал явно, мол "I had emails from Björn before 2021". Только после этого он осилил задачку.

Письмо от Авг. 2015 реально существует, где я спрашивал у Бьёрна что мне делать по прибытию в Германию в первую неделю. Но это было не первое письмо все равно!

Короче, продукт работает, но еще довольно сырой.

Попробовать можно тут. Не забудьте включить "Extensions" для доступа к gdrive и gmail.

#мойпуть #personal
@ai_newz
Нетворк, нетворкинг, нетворкович или почему вам нужно посещать конференции

Вернулся с ICCV. Еще раз осознал, что самый важный ресурс в работе - это человеческий капитал. Связи и знакомства существенно влияют на то, по какой карьерной траектории ты пойдешь, позовут ли тебя на стажировку в FAANG, предложат ли тебе участвовать в стартапе на ранней стадии и т.д. Поэтому крайне важно заводить новые знакомства (мы сейчас говорим как минимум в профессиональном контектсе), и стремиться знать как можно больше людей в своей сфере.

Конечно, глубокие знания и опыт в своей области критически важны для карьерного продвижения, но владение социальными аспектами может значительно ускорить ваш рост.

А где удобнее и проще всего знакомится с топовыми людьми из сферы AI и ML? Правильно, на конференциях. Можно поболтать с авторами лучших статей на постерах, сходить на ужин с группой новых людей, познакомиться и пообщаться с сайнтистами из топовых лаб в академии или FAANG на одной из вечеринок, организуемых компаниями. Это только несколько примеров как занетворкать на конференции. Я уже не говорю о про-левеле, когда вы сами организуете воркшоп и приглашаете докладчиков, сами даете доклад либо просто нетворкаете в тусовке эйай ньюз.

Например, приглашение на свою первую стажировку в Facebook AI Research я получил именно благодаря нетворкингу на конференции. В 2018 я выступал на European Conference on Computer Vision с пленарным докладом (фото внизу). После своей презентации я подошел познакомиться с автором заинтересовавшего меня доклада про DensePose от Facebook. Это была Наталия Неверова, которая как раз искала интернов на следующий год. Если бы я к ней не подошел, то и не получил бы приглашение пройти собеседование и не попал бы на стажировку в FAIR.

Так что, друзья, гоняйте на конференции и знакомьтесь - это очень важно!

#конфа #карьера #мойпуть #personal

@ai_newz
This media is not supported in your browser
VIEW IN TELEGRAM
Короче, мы выкатили диффузию в инстаграм для редактирования изображений, а именно - генерацию фона по тексту. Эта модель была анонсирована еще на Connect, но только сейчас ее выкатили в прод в США.

Загружаешь фото, вводишь любой пропмт, например, "преследуемый динозаврами" или "я в Париже", и получаешь несколько новых версий своей фотки.

Моделька основана на нашей text2image диффузии Emu и технологии по типу SAM, которая позволяет автоматически находить нужную маску.

Тут я говорю "мы выкатили", потому что мы с нашей командой крутили и искоряли эту модель, чтобы она работала за пару секунд.

Диффузия Go Brrrrr! - это лозунг нашей команды.

Приятно, когда результатами твоей работы могут пользоваться миллионы людей. Даже работая в ресерче в фаанге, не всегда есть такая возможность. Мне в этом смысле повезло, т.к. наша GenAI орга, кроме написания статей, ещё и катит ресерч в продукты и имеет реальный импакт.

#personal #мойпуть
@ai_newz
Staff Research Scientist: Персональный апдейт

У меня ещё есть классная новость, которой я бы хотел с вами поделиться! В понедельник я запромоутился до E6, иными словами я теперь Staff Research Scientist в Meta GenAI.

Удалось это благодаря очень широкому импакту от проекта в Generative AI, который я сам предложил, вел и завершил в прошлом году. Проект пока не публичный, поэтому я не могу рассказать о нем детально.

До этого я был на терминальном уровне - Senior Research Scientist, на котором многие застревают навсегда. Требуются дополнительные усилия и персональные качества (я о них писал тут), чтобы выйти из этого лимба и стать Стаффом. Зато теперь у меня открылся новый ladder E6+, качать таланты в котором на порядок сложнее чем между Джуном и Синьором. Но в этом есть и челлендж и возможность дальнейшего развития!

Exciting stuff!

#карьера #мойпуть

@ai_newz
Немного личных баек про работу. Так как я теперь Staff Research Scientist (подробнее об этом писал тут), сегодня мне пришло приглашение пройти курсы для проведения интервью на более синьорные роли в компании.

До этого я несколько лет собеседовал челов как на AI позиции (CV, NLP), так на Software Engineer (SWE) по трем типам интервью:
— Coding
— AI Coding
— AI Research Design

Теперь буду учиться собеседовать людей на AI Research Screen интервью. Это самое первое интервью, на которое кандидат попадает (разговор с рекрутером не в счёт) и по его результатам решается, приглашать ли чела на onsite раунды или нет. Скрининг дают делать только начиная со старших уровней, обычно E6+, так как тут важно уметь опытным глазом быстро оценить потенциал кандидата и насколько он подходит на выбранную роль.

Onsite интервью — это то, что раньше было полным днём собеседований, когда кандидату оплачивали билеты на самолёт и отель, чтобы он пришел в офис компании физически и попотел у вайтборда в течение 5-6 раундов собеседований, все в течение одного дня. Сейчас к сожалению такие поездки не делают, и все финальные раунды проходят по видео.

Кроме этого, меня записали на курс Behavioral интервью, что тоже обычно проводится людьми IC6+ (про уровни писал тут), где нужно оценить софт-скилы кандидата. Это также одно из решающих интервью, где всплывают сигналы, определяющие уровень кандидата, например middle vs senior.

Ну, и для полного комплекта, я зарегался ещё на тренинг для проведения ML System Design — это более прикладная штука, когда кандидату нужно спроектировать end-2-end ML систему. У ресерчеров такого интервью не бывает, а вот для ML Engineer и Research Engineer его нужно проходить.

Планирую собрать все лычки всех типов интервью 🙂. Это очень полезно как для развития своих скилов, так и при смене работы — понимаешь всю кухню оценки кандидатов изнутри.

Если у вас есть какие-то вопросы, или если что-то ещё интересует в плане карьеры — велком в комменты.

#карьера #мойпуть
@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
Еще раз обо мне

В канал пришло много новых людей, решил еще раз представиться и сделать подборку интересных постов.

Меня зовут Артём, я из Беларуси. Сейчас живу в Швейцарии и работаю в Meta GenAI на позиции Staff Research Scientist. До этого сделал PhD в университете Хайдельберга, в той самой научной группе, где придумали Stable Diffusion. За время в лабе я опубликовал кучу статей на топовых конфах. В перерывах между статьями я оттачивал свои эйай навыки на практике, упарываясь на Kaggle соревнованиях (я очень азартный тип в этом плане) – добрался до Top45 в мировом рейтинге с несколькими золотыми медалями. Больше про меня есть в этом посте и по тегам #personal и #мойпуть. [Если что, то я на фотке слева]

Подборка личных постов:
▪️Рассказ о том, как я вкатился в AI/ML
▪️Откуда AI хайп и как было, когда я начинал свое PhD
▪️Видео-интервью со мной
▪️Вот здесь делюсь личной радостью, ведь мы завезли диффузию в инсту,
▪️На основе emu, которую лично я оптимизировал, чтоб вот быстро и чётко
▪️Еще про то как мы сделали и ускорили генеративные стикеры для инсты, WhatsApp и FB Messenger.
▪️Про наш громкий релиз Imagine Flash, риалтайм генерацию картинок – проект, который я вел.
▪️Моя статья об ускорении диффузии с помощью кеширования, без потери качества конечно же.
▪️Как я приделывал ноги Аватарам в метаверсе [ч1, ч2], пока работа в Meta Reality Labs.
▪️Пост-апдейт и про, то как я недавно стал стафом в Meta GenAI (ну вы поняли).

Из еще почитать:
▪️Пост про грейды в бигтехе [ч1, ч2]. Все же в курсе, что сеньор это еще не все?:)
▪️Список книг для изучения ML в 2024.
▪️Гайд по ускорению диффузии [ч1, ч2], так сказать полевой опыт.
▪️Разбор того, как дистиллировали sd3 в 4 шага, который репостнул CEO бывший CEO Stability
▪️Список лекций и туториалов про 3D Human Understanding от топовых ученых из этой сферы.
▪️Лонгрид про парижский стартап Mistral и мое знакомство с фаундером.
▪️Пост про GR00T, модельку от nvidia, которая может стать chatgpt моментом в робототехнике.
▪️Еще вот про те самые чаевые в $200 для LMM и финальный список всех трюков, чтобы вставить в промпт по умолчанию.

Недавно запустился еженедельный #дайджест с кратким обзором новостей.

А также в ленте можно найти 1000 и 1 разбор свежих пейперов с мои авторитетным мнением, еще есть рубрика #ликбез с разбором базовых тем и #карьера с моими мыслями/байками по карьере в AI/ML.

Ну что, поздравляю всех новоприбывших! Обнял ❤️

@ai_newz
This media is not supported in your browser
VIEW IN TELEGRAM
Марк показал вот такую штуку – редактирование изображений в Meta AI.

Наша команда (и я) как раз работала над тем, чтобы достичь такой высокой скорости генерации по заданному промпту, ведь юзер не хочет долго ждать.

#personal #мойпуть
@ai_newz