Forwarded from Моя жизнь в IT/Губарева
#Мыслинамысли: личный бренд, корпорации и жизнь
Вчера вечером мобильный YouTube подбросил интервью своего создателя — Андрея Дороничева. Он же — герой легендарного фильма Дудя(признан иноагентом в РФ) «Кремниевая долина» и фаундер Optic — одного из самых успешных AI-стартапов в биотехнологиях.
Услышав ответы на многие вопросы про личный бренд и проявленность в мир, над которыми много думаю сама и которые часто слышу на лекциях, решила поделиться...
⚡️мыслями на мысли, которые зацепили
Помните, у Хармса?
Писатель: «Я писатель!»
Читатель: «А по-моему, ты говно!»
Когда мы начинаем какую-то деятельность, нам страшно представляться. Потому что — мы сами не чувствуем, что можем в этой роли много. Потому что — придут, обесценят, разоблачат. Привет, синдром самозванца!
Но правда в том, что другого пути нет: ты не станешь предпринимателем, экспертом, автором канала,руководителем команды, пока не осмелишься встать и сказать: «Привет, я теперь эксперт в этом!». Это коммит перед собой и миром.
Чтобы доказать своей аудитории, которая постоянно говорила «Ну конечно, тебе-то легко говорить, ты же вон какая звезда!» Андрей на глазах сотен тысяч человек провел эксперимент.
Взял область, в которой у него не было ни таланта, ни опыта, и публично объявил, что он — певец. Начал выкладывать треки: кривые-косые. Несколько месяцев проходил через публичный хейт «раннего творчества». Но с каждым днем его записи становились все лучше. И достигли вполне приемлемого качества. Стал ли он претендентом на Грэмми? Нет. Но он стал из очень слабого вполне нормальным исполнителем.
Мораль: когда мы выходим в паблик, нам неизбежно придется смириться, что наши выступления не похожи на стэнфордскую речь Джобса. И что люди не бросают в воздух чепчики.Спасибо, что не бросают помидоры. И это —нормально!
❗️Личный бренд работодателя VS ваш личный бренд
Дороничев пришел в Google на пару лет и задержался на 13. Когда он уходил, ему написала CEO YouTube с предложением остаться. Андрей посчитал миллионы долларов, которые теряет с уходом. И…ответил, что увольняется, потому «больше не понимает, кто он такой».
Работая в крупной компании с яркой культурой и идентичностью, очень важно отслеживать, как там поживает ваша собственная идентичность. И если вдруг в какой-то момент на вопрос «Кто я?» вашим первым ответом становится «Сотрудник Google, Яндекс, McKinsey, etc» —надо что-то делать, друзья!
❗️В мире точно есть люди, которым полезен ваш опыт. Важно хотеть им поделиться.
После выхода из Google Андрей осознал свою новую миссию: нести знания о мире инвестиций, IT и Кремниевой долине, в том числе через блог. Интересно ли это всем в масштабах человечества? Нет. Но точно есть сотни и тысячи людей, которым это мегаполезно.
Кому можете быть полезны вы, если вы не руководитель всемирно известного продукта, а просто хороший продакт?
Вчера на моей лекции в Вышке одна из студенток поделилась, что думает над переходом из SMM в продукт, но не понимает, с чего начать. Чем не миссия – круто рассказывать о своей работе классным ребятам, которые только выбирают свой профессиональный трек? Think about it!
Иногда жизнь дает нам возможность сформулировать точку B, подготовить почву для перехода, сформировать тактику и ее придерживаться. А иногда – с ноги выталкивает в сетап, где твой счет с 10 миллионами долларов, которые ты нарэйзил, за ночь превращается в тыкву.
И это тоже – не конец жизни.
В общем, очень советую вам посмотреть это видео,причем в равной степени предпринимателям и корпоратам . А найти его предлагаю самостоятельно, ориентируясь на то, что это популярное интервью Дороничева 4-месячной давности.
📺Приятного просмотра!
Вчера вечером мобильный YouTube подбросил интервью своего создателя — Андрея Дороничева. Он же — герой легендарного фильма Дудя
Услышав ответы на многие вопросы про личный бренд и проявленность в мир, над которыми много думаю сама и которые часто слышу на лекциях, решила поделиться...
⚡️мыслями на мысли, которые зацепили
Момент, когда ты только объявляешь, что ты – тот, кем ты только собираешься стать, жутко некомфортный.
Помните, у Хармса?
Читатель: «А по-моему, ты говно!»
Когда мы начинаем какую-то деятельность, нам страшно представляться. Потому что — мы сами не чувствуем, что можем в этой роли много. Потому что — придут, обесценят, разоблачат. Привет, синдром самозванца!
Но правда в том, что другого пути нет: ты не станешь предпринимателем, экспертом, автором канала,руководителем команды, пока не осмелишься встать и сказать: «Привет, я теперь эксперт в этом!». Это коммит перед собой и миром.
Чтобы доказать своей аудитории, которая постоянно говорила «Ну конечно, тебе-то легко говорить, ты же вон какая звезда!» Андрей на глазах сотен тысяч человек провел эксперимент.
Взял область, в которой у него не было ни таланта, ни опыта, и публично объявил, что он — певец. Начал выкладывать треки: кривые-косые. Несколько месяцев проходил через публичный хейт «раннего творчества». Но с каждым днем его записи становились все лучше. И достигли вполне приемлемого качества. Стал ли он претендентом на Грэмми? Нет. Но он стал из очень слабого вполне нормальным исполнителем.
Мораль: когда мы выходим в паблик, нам неизбежно придется смириться, что наши выступления не похожи на стэнфордскую речь Джобса. И что люди не бросают в воздух чепчики.
❗️Личный бренд работодателя VS ваш личный бренд
Дороничев пришел в Google на пару лет и задержался на 13. Когда он уходил, ему написала CEO YouTube с предложением остаться. Андрей посчитал миллионы долларов, которые теряет с уходом. И…ответил, что увольняется, потому «больше не понимает, кто он такой».
Работая в крупной компании с яркой культурой и идентичностью, очень важно отслеживать, как там поживает ваша собственная идентичность. И если вдруг в какой-то момент на вопрос «Кто я?» вашим первым ответом становится «Сотрудник Google, Яндекс, McKinsey, etc» —
❗️В мире точно есть люди, которым полезен ваш опыт. Важно хотеть им поделиться.
После выхода из Google Андрей осознал свою новую миссию: нести знания о мире инвестиций, IT и Кремниевой долине, в том числе через блог. Интересно ли это всем в масштабах человечества? Нет. Но точно есть сотни и тысячи людей, которым это мегаполезно.
Кому можете быть полезны вы, если вы не руководитель всемирно известного продукта, а просто хороший продакт?
Вчера на моей лекции в Вышке одна из студенток поделилась, что думает над переходом из SMM в продукт, но не понимает, с чего начать. Чем не миссия – круто рассказывать о своей работе классным ребятам, которые только выбирают свой профессиональный трек? Think about it!
Трансформации по плану и трансформации «по дизастеру»
Иногда жизнь дает нам возможность сформулировать точку B, подготовить почву для перехода, сформировать тактику и ее придерживаться. А иногда – с ноги выталкивает в сетап, где твой счет с 10 миллионами долларов, которые ты нарэйзил, за ночь превращается в тыкву.
И это тоже – не конец жизни.
В общем, очень советую вам посмотреть это видео,
📺Приятного просмотра!
Telegram
Моя жизнь в IT/Губарева
Весь 2024 я выступала про комьюнити и развитие бренда эксперта.
Аудиторией были IT-профессионалы, фаундеры, представители благотворительных организаций. Разные ребята с разным уровнем амбиций и опыта. Но, когда я спрашивала, что зацепило, 80% отвечали:…
Аудиторией были IT-профессионалы, фаундеры, представители благотворительных организаций. Разные ребята с разным уровнем амбиций и опыта. Но, когда я спрашивала, что зацепило, 80% отвечали:…
Forwarded from Моя жизнь в IT/Губарева
Гордиться нельзя обесценить
или Есть ли место гуманитариям в IT?
Спойлер:Еще как!
В последнее время в частных и публичных разговорах часто всплывает тема «Гуманитарий в IT». Что, в общем, логично. Я много рассказываю, как нашла профессиональное счастье в инженерной компании, «исторически» будучи журналистом и пиарщиком.
Как гуманитарию попасть в IT?
Как там выжить?
Как добиться, чтобы эти божественные создания, умеющие перемножать в уме трехзначные числа и писать на языке С++, увидели в тебе профессионала, а не…
Если вы гуманитарий иеще так думаете...во-первых, вы не одиноки. 99,9% представителей «софтовых» профессий – коммуникации, HR, креативщики и дизайнеры, юристы – хотя бы раз чувствовали себя рядом с инженерами…не такими умными. #Metoo
Поэтому выдохните: испытывать сложные чувства, понимая, что вы говорите на разных языках – на старте абсолютно нормально.
А после старта у «гуманитария» в IT два пути:
⛔️Продолжить жить с ощущением человека, которому при рождении выдали «не те» мозги.
✅ Осознать, что ваша экспертиза, если это действительно экспертиза, не менее ценна. Просто она в другом домене.
Для себя я это сформулировала так. Экспертам из технологий так же сложно, больно и непонятно погружаться в «наши» тонкости коммуникаций, как нам – в «их»алгоритмы.
Приведу два примера
Первый. Пару месяцев назад мы с арт-директором Аней Кацур выступали с лекцией по профессиональному бренду перед инженерами. Накануне я очень переживала за низкую плотность информации.
Результат: когда после лекции мы попросили фидбэк, ребята предложили упростить контент, потому что местами было трудно и нужно больше времени, чтобы комфортно осмыслить в моменте.
Второй пример – в интервью Андрей Дороничев, создатель мобильного YouTube, на минуточку, на реплику «Знаешь, это как кольцевая композиция в литературе?» ответил: «Слишком сложно».
И это не лукавство и не кокетство. То, в чем мы плаваем, как рыбы в воде, ловим из воздуха и вообще непонятно откуда знаем, многим ребятам-технарям правда сложно.
Кто круче, Набоков или Шостакович? Наверно, вы скажете, что вопрос некорректен.
Математика и написание кода, как и музыка, требуют более высокого уровня абстракции. Но значит ли это, что литература как искусство менее ценно?
От метафор – к практике.
❗️Советы всем, кому посчастливилось(и это не сарказм) родиться гуманитарием
📌Не надо судорожно учить Python. Качайте свои и без того сильные стороны: эмпатию, умение держать контекст, креатив, сторителлинг, навыки фасилитации.
У вас первый разряд по переговорам? Станьте КМС!
Таким образом, ваши сильные стороны превратятся в суперсилы и супераргументы для работодателя. Ведь именно все вышеперечисленные навыки во многом определяют успех и стоимость руководителей и топовых экспертов в крутых компаниях.
📌Научитесь переключаться на язык собеседника. В том числе на язык цифр, если для вашего визави он – основной.
Так устроен мир, что коммуникационная гибкость – на нашей стороне, и за создание общего пространства для взаимопонимания в инженерных компаниях базово отвечаем мы.
📌Качайте навыки презентации и самопрезентации: сторителлинга, публичных выступлений, визуализации. Эти «софты» – во многом наши харды. По ним нас встречаюти провожают
📌Не прячьте себя. Поверьте, ваше глубокое понимание культуры и насмотренность в искусстве делают вас для коллег в IT интересным собеседником, даже если на митингах выпока не читаете Бродского и не обсуждаете Гогена.
❗️Что делать, если вы все же оказались в токсичной культуре – неважно, технарь вы или гуманитарий?
Мы, люди, владеющие словом, при всей эмпатии порой тоже можем ого-го как «зажечь»
Отстаивайте свое право работать в комфортной атмосфере.
На токсичные шутки и обесценивающие комментарии можно и нужно отвечать. Вежливо, но твердо, ставя собеседника на место. Тем более, что обычно такие кейсы возникают не потому, что кто-то хотел специально обидеть. А потому, не очень осознавал, как это воспринимается другой стороной.
Кто вы?
🔥- технарь
❤️- гуманитарий
😎- по ситуации
🤔- мне эта дискуссия вообще не близка
или Есть ли место гуманитариям в IT?
Спойлер:
В последнее время в частных и публичных разговорах часто всплывает тема «Гуманитарий в IT». Что, в общем, логично. Я много рассказываю, как нашла профессиональное счастье в инженерной компании, «исторически» будучи журналистом и пиарщиком.
Как гуманитарию попасть в IT?
Как там выжить?
Как добиться, чтобы эти божественные создания, умеющие перемножать в уме трехзначные числа и писать на языке С++, увидели в тебе профессионала, а не…
Если вы гуманитарий и
Поэтому выдохните: испытывать сложные чувства, понимая, что вы говорите на разных языках – на старте абсолютно нормально.
А после старта у «гуманитария» в IT два пути:
⛔️Продолжить жить с ощущением человека, которому при рождении выдали «не те» мозги.
Для себя я это сформулировала так. Экспертам из технологий так же сложно, больно и непонятно погружаться в «наши» тонкости коммуникаций, как нам – в «их»алгоритмы.
Приведу два примера
Первый. Пару месяцев назад мы с арт-директором Аней Кацур выступали с лекцией по профессиональному бренду перед инженерами. Накануне я очень переживала за низкую плотность информации.
Результат: когда после лекции мы попросили фидбэк, ребята предложили упростить контент, потому что местами было трудно и нужно больше времени, чтобы комфортно осмыслить в моменте.
Второй пример – в интервью Андрей Дороничев, создатель мобильного YouTube, на минуточку, на реплику «Знаешь, это как кольцевая композиция в литературе?» ответил: «Слишком сложно».
И это не лукавство и не кокетство. То, в чем мы плаваем, как рыбы в воде, ловим из воздуха и вообще непонятно откуда знаем, многим ребятам-технарям правда сложно.
Кто круче, Набоков или Шостакович? Наверно, вы скажете, что вопрос некорректен.
Математика и написание кода, как и музыка, требуют более высокого уровня абстракции. Но значит ли это, что литература как искусство менее ценно?
От метафор – к практике.
❗️Советы всем, кому посчастливилось
📌Не надо судорожно учить Python. Качайте свои и без того сильные стороны: эмпатию, умение держать контекст, креатив, сторителлинг, навыки фасилитации.
У вас первый разряд по переговорам? Станьте КМС!
Таким образом, ваши сильные стороны превратятся в суперсилы и супераргументы для работодателя. Ведь именно все вышеперечисленные навыки во многом определяют успех и стоимость руководителей и топовых экспертов в крутых компаниях.
📌Научитесь переключаться на язык собеседника. В том числе на язык цифр, если для вашего визави он – основной.
Так устроен мир, что коммуникационная гибкость – на нашей стороне, и за создание общего пространства для взаимопонимания в инженерных компаниях базово отвечаем мы.
📌Качайте навыки презентации и самопрезентации: сторителлинга, публичных выступлений, визуализации. Эти «софты» – во многом наши харды. По ним нас встречают
📌Не прячьте себя. Поверьте, ваше глубокое понимание культуры и насмотренность в искусстве делают вас для коллег в IT интересным собеседником, даже если на митингах вы
❗️Что делать, если вы все же оказались в токсичной культуре – неважно, технарь вы или гуманитарий?
Отстаивайте свое право работать в комфортной атмосфере.
На токсичные шутки и обесценивающие комментарии можно и нужно отвечать. Вежливо, но твердо, ставя собеседника на место. Тем более, что обычно такие кейсы возникают не потому, что кто-то хотел специально обидеть. А потому, не очень осознавал, как это воспринимается другой стороной.
Кто вы?
🔥- технарь
❤️- гуманитарий
😎- по ситуации
🤔- мне эта дискуссия вообще не близка
Please open Telegram to view this post
VIEW IN TELEGRAM
Telegram
Моя жизнь в IT/Губарева
#Мыслинамысли: личный бренд, корпорации и жизнь
Вчера вечером мобильный YouTube подбросил интервью своего создателя — Андрея Дороничева. Он же — герой легендарного фильма Дудя ⢂⠴⡢⢡⢂⠃⢨⢠ ⢢⠰⠔⢊⠌⡒⢰⠙⣠⠑ ⠍ ⡉⢤⠆ «Кремниевая долина» и фаундер Optic — одного из самых…
Вчера вечером мобильный YouTube подбросил интервью своего создателя — Андрея Дороничева. Он же — герой легендарного фильма Дудя ⢂⠴⡢⢡⢂⠃⢨⢠ ⢢⠰⠔⢊⠌⡒⢰⠙⣠⠑ ⠍ ⡉⢤⠆ «Кремниевая долина» и фаундер Optic — одного из самых…
Forwarded from NLP Wanderer
FlexAttention: Новый стандарт для реализации Attention в PyTorch
Кажется добавление такой фичи в Pytorch 2.5.0 осталось немного незамеченным, но так как его активно использует в своем коде lucidrains я решил про нее написать подробнее.
В теории, Attention is All You Need, но на практике оптимизированные реализации блоков внимания, такие как FlashAttention, стали необходимостью. Они добились значительного улучшения производительности относительно текущей реализации в Pytorch, позволив эффективно работать с длинным контекстом и не только. Однако, за такую эффективность пришлось заплатить — гибкость решений сильно пострадала. Сегодня внедрение новых вариантов Attention зачастую требует написания кастомных CUDA-ядер, что превращает экспериментирование в настоящую лотерею для резерчеров. Если ваши идеи не укладываются в уже существующие ядра, вас ждут медленный runtime или проблемы с памятью, а также куча низкоуровневой возни.
И к чему все это идет?
Разнообразие модификаций Attention уже велико и продолжает расти: Causal, Relative Positional Embeddings, Alibi, Sliding Window Attention, PrefixLM, Document Masking, Tanh Soft-Capping, PagedAttention и многие другие. Более того, комбинации этих технологий часто необходимы для конкретных задач — например, сочетание Sliding Window Attention + Document Masking + Causal. Однако существующие подходы предлагают крайне ограниченную поддержку таких возможностей, что серьезно ограничивает свободу разработчиков.
FlexAttention: новый подход, нативный для Pytorch
В Pytorch с этим не хотят мирится, поэтому принялись за разработку нового стандарта. Среди свойств нового модуля
• Гибкость API — теперь реализация новых вариантов Attention занимает всего несколько строк кода.
• Оптимизация производительности — API автоматически преобразует ваш код в оптимизированное FlashAttention-ядро через torch.compile, избегая материализации лишней памяти.
• Автоматический backward pass — PyTorch autograd берет на себя генерацию обратного прохода.
• Работа со спарсностью — FlexAttention эффективно использует разреженные attention-маски, что дополнительно ускоряет вычисления.
Это решение делает исследование и внедрение новых идей значительно проще, ограничивая вас лишь вашей фантазией.
Примеры использования FlexAttention и туториалы можно найти в коллекции реализаций AttentionGym.
Производительность
FlexAttention уже демонстрирует конкурентоспособные результаты. На A100 решение достигает 90% производительности FlashAttention2 в прямом проходе и 85% в backward pass. Тем не менее, за универсальность приходится платить: некоторое падение производительности связано с дополнительными вычислениями во время работы. Разработчики планируют оптимизировать backward pass и минимизировать это отставание в скором будущем.
Несмотря на небольшие компромиссы в производительности, FlexAttention уже показал значительную практическую ценность. Например, он позволил увеличить throughput в torchtune (PyTorch native post-training library) на 71% и избавил исследователей от необходимости тратить недели на разработку кастомных ядер.
Ограничения и перспективы
• Ведутся работы над улучшением производительности до уровня FlashAttention3 на H100 GPU.
• Пока что длина последовательностей должна быть кратна 128, но это будет исправлено.
Кажется добавление такой фичи в Pytorch 2.5.0 осталось немного незамеченным, но так как его активно использует в своем коде lucidrains я решил про нее написать подробнее.
В теории, Attention is All You Need, но на практике оптимизированные реализации блоков внимания, такие как FlashAttention, стали необходимостью. Они добились значительного улучшения производительности относительно текущей реализации в Pytorch, позволив эффективно работать с длинным контекстом и не только. Однако, за такую эффективность пришлось заплатить — гибкость решений сильно пострадала. Сегодня внедрение новых вариантов Attention зачастую требует написания кастомных CUDA-ядер, что превращает экспериментирование в настоящую лотерею для резерчеров. Если ваши идеи не укладываются в уже существующие ядра, вас ждут медленный runtime или проблемы с памятью, а также куча низкоуровневой возни.
И к чему все это идет?
Разнообразие модификаций Attention уже велико и продолжает расти: Causal, Relative Positional Embeddings, Alibi, Sliding Window Attention, PrefixLM, Document Masking, Tanh Soft-Capping, PagedAttention и многие другие. Более того, комбинации этих технологий часто необходимы для конкретных задач — например, сочетание Sliding Window Attention + Document Masking + Causal. Однако существующие подходы предлагают крайне ограниченную поддержку таких возможностей, что серьезно ограничивает свободу разработчиков.
FlexAttention: новый подход, нативный для Pytorch
В Pytorch с этим не хотят мирится, поэтому принялись за разработку нового стандарта. Среди свойств нового модуля
torch.nn.attention.flex_attention:• Гибкость API — теперь реализация новых вариантов Attention занимает всего несколько строк кода.
• Оптимизация производительности — API автоматически преобразует ваш код в оптимизированное FlashAttention-ядро через torch.compile, избегая материализации лишней памяти.
• Автоматический backward pass — PyTorch autograd берет на себя генерацию обратного прохода.
• Работа со спарсностью — FlexAttention эффективно использует разреженные attention-маски, что дополнительно ускоряет вычисления.
Это решение делает исследование и внедрение новых идей значительно проще, ограничивая вас лишь вашей фантазией.
Примеры использования FlexAttention и туториалы можно найти в коллекции реализаций AttentionGym.
Производительность
FlexAttention уже демонстрирует конкурентоспособные результаты. На A100 решение достигает 90% производительности FlashAttention2 в прямом проходе и 85% в backward pass. Тем не менее, за универсальность приходится платить: некоторое падение производительности связано с дополнительными вычислениями во время работы. Разработчики планируют оптимизировать backward pass и минимизировать это отставание в скором будущем.
Несмотря на небольшие компромиссы в производительности, FlexAttention уже показал значительную практическую ценность. Например, он позволил увеличить throughput в torchtune (PyTorch native post-training library) на 71% и избавил исследователей от необходимости тратить недели на разработку кастомных ядер.
Ограничения и перспективы
• Ведутся работы над улучшением производительности до уровня FlashAttention3 на H100 GPU.
• Пока что длина последовательностей должна быть кратна 128, но это будет исправлено.
Forwarded from NLP Wanderer
Пока я готовлю некоторый основательный материал по распределенному обучению (вот, теперь я вам его пообещал, придется сделать...) , можете посмотреть отличную библиотеку picotron с реализацией 4-D параллелизма на чистом torch.distributed от Huggingface,
Кроме того, это все сопровождается ongoing серией видео-туториалов от основного разработчика на его канале [ссылка на плейлист].
А еще есть более хардкорная версия 3-D параллелизма - nanotron, так же от HF.
Кроме того, это все сопровождается ongoing серией видео-туториалов от основного разработчика на его канале [ссылка на плейлист].
А еще есть более хардкорная версия 3-D параллелизма - nanotron, так же от HF.
GitHub
GitHub - huggingface/picotron: Minimalistic 4D-parallelism distributed training framework for education purpose
Minimalistic 4D-parallelism distributed training framework for education purpose - huggingface/picotron
Forwarded from rizzearch
Lightning Attention-2: A Free Lunch for Handling Unlimited Sequence Lengths in Large Language Models
помимо дипсика и квена, недавно успели еще китайцы выкатить очередную ллм - минимакс, уже по традиции которая является МоЕ + вводит гибрид софтмакс и линейного аттеншнов (кстати о махинациях с аттеншном мы уже ни раз писали)
при том второй аттеншн не абы какой, а лайтнинг (не тот слава Богу). в минимаксе используется первая версия, а почти одновременно с этой моделькой успела выйти и вторая версия
в чем вообще суть - вот у нас есть
softmax(Q @ K^T) @ V, где иннер продукт между запросами и ключами выдает матрицу seq_len x seq_len, что довольно много
→ приходит в голову идея линеаризовать аттеншн, то есть делаем просто из softmax(Q @ K^T) ~= phi(Q) @ phi(K^T) ⇒ [phi(Q) @ phi(K^T)] @ V, что можно переписать как из left product в right product
phi(Q) @ [ phi(K^T) @ V ], где не будем напрямую высчитывать seq_len x seq_len матрицу, а будет только hidden_dim x hidden_dim. profit?
не совсем, когда в дело приходит понятие каузальности, ибо тогда формула становится (phi убрал для удобства) снова left product
[Q @ K^T * causal_mask] @ V
снова получаем seq_len x seq_len момент, это дело можно исправить алгоритмом Linear Attention Right Product (на предпоследней фотке), но тогда встревает кумулятивная сумма, которую не распараллелить
ну и авторы довольно красивое решение предлагают в виде того, что как раз и называется Lightning Attention
- во-первых, го вычислять аттеншн по блокам, по которым и будет идти цикл как обычно
- а в каждом блоке будем одновременно вычислять аттеншны и первым, и вторым способом: через left product с каузальной маской будет вычисляться intra block (как я понял потому что он находится рядом с диагональными элементами как раз, где и нужна каузальная маска), а через right product inter block (который/которые не соприкасаются с диагональю и можно без каузальной маски их использовать, да еще и этот блок вычислить можно через накопленную кумулятивную сумму KV), а в конце просто просуммируем, не забыв обновить KV
- тут получаем трейдофф между лево- и правоматричным умножениями, который еще и к тому же нетяжело под хардвейр оптимизировать - перетаскивать поочередно блоки между High Bandwidth Memory & SRAM (последняя картинка для иллюстрации отсюда, по всем правилам - чем больше по памяти вмещается, тем медленее работает)
вторая же версия отличается тем, что в каузальную маску добавляется гипер, контролирующий меру затухания информации между токенами (похожее делали в ретнете и второй мамбе), по формулам конечно присутствует не только в маске для сохранения контистенси в реккурентных выражениях (хоть этот вариант алгоритма был и в первой версии в аппендиксе)
реализовано все на тритоне, метод в принципе применим не только к их ТрансНормеру
👀 link, code
помимо дипсика и квена, недавно успели еще китайцы выкатить очередную ллм - минимакс, уже по традиции которая является МоЕ + вводит гибрид софтмакс и линейного аттеншнов (кстати о махинациях с аттеншном мы уже ни раз писали)
при том второй аттеншн не абы какой, а лайтнинг (не тот слава Богу). в минимаксе используется первая версия, а почти одновременно с этой моделькой успела выйти и вторая версия
в чем вообще суть - вот у нас есть
softmax(Q @ K^T) @ V, где иннер продукт между запросами и ключами выдает матрицу seq_len x seq_len, что довольно много
→ приходит в голову идея линеаризовать аттеншн, то есть делаем просто из softmax(Q @ K^T) ~= phi(Q) @ phi(K^T) ⇒ [phi(Q) @ phi(K^T)] @ V, что можно переписать как из left product в right product
phi(Q) @ [ phi(K^T) @ V ], где не будем напрямую высчитывать seq_len x seq_len матрицу, а будет только hidden_dim x hidden_dim. profit?
не совсем, когда в дело приходит понятие каузальности, ибо тогда формула становится (phi убрал для удобства) снова left product
[Q @ K^T * causal_mask] @ V
снова получаем seq_len x seq_len момент, это дело можно исправить алгоритмом Linear Attention Right Product (на предпоследней фотке), но тогда встревает кумулятивная сумма, которую не распараллелить
ну и авторы довольно красивое решение предлагают в виде того, что как раз и называется Lightning Attention
- во-первых, го вычислять аттеншн по блокам, по которым и будет идти цикл как обычно
- а в каждом блоке будем одновременно вычислять аттеншны и первым, и вторым способом: через left product с каузальной маской будет вычисляться intra block (как я понял потому что он находится рядом с диагональными элементами как раз, где и нужна каузальная маска), а через right product inter block (который/которые не соприкасаются с диагональю и можно без каузальной маски их использовать, да еще и этот блок вычислить можно через накопленную кумулятивную сумму KV), а в конце просто просуммируем, не забыв обновить KV
- тут получаем трейдофф между лево- и правоматричным умножениями, который еще и к тому же нетяжело под хардвейр оптимизировать - перетаскивать поочередно блоки между High Bandwidth Memory & SRAM (последняя картинка для иллюстрации отсюда, по всем правилам - чем больше по памяти вмещается, тем медленее работает)
вторая же версия отличается тем, что в каузальную маску добавляется гипер, контролирующий меру затухания информации между токенами (похожее делали в ретнете и второй мамбе), по формулам конечно присутствует не только в маске для сохранения контистенси в реккурентных выражениях (хоть этот вариант алгоритма был и в первой версии в аппендиксе)
реализовано все на тритоне, метод в принципе применим не только к их ТрансНормеру
👀 link, code
Forwarded from epsilon correct
По случаю китайского нового года наши китайские товарищи подсуетились и выпустили сразу три интересных релиза. Хотелось бы собрать их в один пост, и заодно поспекулировать про наших слоняр китов DeepSeek.
Начнём с MiniMax-01 – первой сильной открытой модели с контекстным окном в 4 миллиона токенов. Напомню, что до этого рекорд держал наш Gemini Pro 1.5 с 2 миллионами, конкуренты ограничивались 100-200 тысячами. MoE архитектура, 456 миллиарда параметров, из них 46 активированных. По перформансу – облегчённая LLaMa 405b, но сильно шустрее. Прорывов по бенчмаркам особых нет, просто хорошая модель.
Продолжим не по порядку выпуска (чтобы подписчикам жизнь мёдом не казалась): вчера Alibaba анонсировал доступную пока только по API Qwen 2.5 Max. Пост на детали скуп, но поигравшись с интерфейсом на HuggingFace можно понять, что перед нами – сырая большая модель на 500-800 миллиардов параметров. Выглядит, как сигнал о том, что сильные базовые модели у Alibaba тоже есть.
Наконец, DeepSeek R1, про который не написал разве что ленивый. Самое удивительное в повальной волне хайпа в том, что результаты этой модели абсолютно предсказуемо вытекают из выпущенной в декабре DeepSeek-v3. Модель на 37 млрд. активированных из 671 млрд. параметров примерно соответсвует Gemini 1.5 Pro 002 в математике и общих знаниях на английском, но опережает в программировании (хоть до короля Sonnet 3.5 и не дотягивает). Вроде ничего особенно удивительного, компания много итерировала над моделями-специалистами для кода, перформанс на остальных бенчмарках не вызывает удивления.
На основе v3 выпустили "рассуждающую" модель R1, которая сильно подрезала по цене O1 от наших любимых конкурентов. Бенчмарки на уровне O1, цена – более чем в 10 раз меньше; помимо выпуска весов DeepSeek достаточно подробно описали весь свой пайплайн с довольно интересным устройством обучения с подкреплением. На первое время ещё и доступ оставили бесплатным – что на сайте, что в приложении. По бенчмаркам – примерно на уровне 2.0 Flash Thinking и O1, но открытые веса сделали своё дело и модель получила очень много пиара. Ответит ли чем нибудь OpenAI, Google и Anthropic? Скорее всего, скоро получим ответ.
Теперь про цену обучения – многие сми тиражируют стоимость затрат на обучение, составившую в сумме $5.5 миллиона. Я хочу объяснить, что в целом это не сильно неожиданная цифра: например, про неё отлично написал Дарио Амодей (CEO Antropic): инновации в архитектуре и процессе обучения делают обучение эквивалентных моделей менее затратным. Только вот вместо того (или вместе с тем), чтобы выпускать сверхдешёвые модели мы продолжаем увеличивать размер моделей, потому что ценность более способных моделей чаще всего сильно выше, чем у дешёвых, но менее способных. Как мне кажется, единственные акции, которые должны были упасть – это акции меты, ведь можно оценить что на тренировку LLaMa 405b они не так давно потратили ~$50 миллионов. Для сравнения, не очень успешная в тренировке LLMок компания DataBricks тренировала MoE модель с очень близкими 36 млрд. активированных параметров за $10 млн.
Почему на релиз классной, но не выдающейся открытой модели так бурно отреагировал мир? Мне кажется, хороший аналитический фреймворк представлен в книге "The Revolt of the Public and the Crisis of Authority in the New Millennium" Мартина Гурри. В ней представлен конфликт элит и "периферии", которые с развитием интернета и других современных технологий получили доступ к инструменам самоорганизации, получения, и распространения информации, которые раньше контролировались элитой. В результате – стойкая неприязнь к правительству, цепочка "фейсбучных революций", избрание Обамы и, затем, Трампа, фейк ньюз, ковидные конспирологические теории и вот все наши славные 2020е. Неприязнью к "элитным" провайдерам сильных LLMок, которые не делятся весами и способами тренировки, как мне кажется, и можно объяснить грохот в новостях. Кстати, доступ к передовым знаниям почти в любой области, как мне кажется, сильно недооценённый фактор будущего подрыва доверия к науке – ведь скоро каждый сможет проверить заявления экспертов.
Начнём с MiniMax-01 – первой сильной открытой модели с контекстным окном в 4 миллиона токенов. Напомню, что до этого рекорд держал наш Gemini Pro 1.5 с 2 миллионами, конкуренты ограничивались 100-200 тысячами. MoE архитектура, 456 миллиарда параметров, из них 46 активированных. По перформансу – облегчённая LLaMa 405b, но сильно шустрее. Прорывов по бенчмаркам особых нет, просто хорошая модель.
Продолжим не по порядку выпуска (чтобы подписчикам жизнь мёдом не казалась): вчера Alibaba анонсировал доступную пока только по API Qwen 2.5 Max. Пост на детали скуп, но поигравшись с интерфейсом на HuggingFace можно понять, что перед нами – сырая большая модель на 500-800 миллиардов параметров. Выглядит, как сигнал о том, что сильные базовые модели у Alibaba тоже есть.
Наконец, DeepSeek R1, про который не написал разве что ленивый. Самое удивительное в повальной волне хайпа в том, что результаты этой модели абсолютно предсказуемо вытекают из выпущенной в декабре DeepSeek-v3. Модель на 37 млрд. активированных из 671 млрд. параметров примерно соответсвует Gemini 1.5 Pro 002 в математике и общих знаниях на английском, но опережает в программировании (хоть до короля Sonnet 3.5 и не дотягивает). Вроде ничего особенно удивительного, компания много итерировала над моделями-специалистами для кода, перформанс на остальных бенчмарках не вызывает удивления.
На основе v3 выпустили "рассуждающую" модель R1, которая сильно подрезала по цене O1 от наших любимых конкурентов. Бенчмарки на уровне O1, цена – более чем в 10 раз меньше; помимо выпуска весов DeepSeek достаточно подробно описали весь свой пайплайн с довольно интересным устройством обучения с подкреплением. На первое время ещё и доступ оставили бесплатным – что на сайте, что в приложении. По бенчмаркам – примерно на уровне 2.0 Flash Thinking и O1, но открытые веса сделали своё дело и модель получила очень много пиара. Ответит ли чем нибудь OpenAI, Google и Anthropic? Скорее всего, скоро получим ответ.
Теперь про цену обучения – многие сми тиражируют стоимость затрат на обучение, составившую в сумме $5.5 миллиона. Я хочу объяснить, что в целом это не сильно неожиданная цифра: например, про неё отлично написал Дарио Амодей (CEO Antropic): инновации в архитектуре и процессе обучения делают обучение эквивалентных моделей менее затратным. Только вот вместо того (или вместе с тем), чтобы выпускать сверхдешёвые модели мы продолжаем увеличивать размер моделей, потому что ценность более способных моделей чаще всего сильно выше, чем у дешёвых, но менее способных. Как мне кажется, единственные акции, которые должны были упасть – это акции меты, ведь можно оценить что на тренировку LLaMa 405b они не так давно потратили ~$50 миллионов. Для сравнения, не очень успешная в тренировке LLMок компания DataBricks тренировала MoE модель с очень близкими 36 млрд. активированных параметров за $10 млн.
Почему на релиз классной, но не выдающейся открытой модели так бурно отреагировал мир? Мне кажется, хороший аналитический фреймворк представлен в книге "The Revolt of the Public and the Crisis of Authority in the New Millennium" Мартина Гурри. В ней представлен конфликт элит и "периферии", которые с развитием интернета и других современных технологий получили доступ к инструменам самоорганизации, получения, и распространения информации, которые раньше контролировались элитой. В результате – стойкая неприязнь к правительству, цепочка "фейсбучных революций", избрание Обамы и, затем, Трампа, фейк ньюз, ковидные конспирологические теории и вот все наши славные 2020е. Неприязнью к "элитным" провайдерам сильных LLMок, которые не делятся весами и способами тренировки, как мне кажется, и можно объяснить грохот в новостях. Кстати, доступ к передовым знаниям почти в любой области, как мне кажется, сильно недооценённый фактор будущего подрыва доверия к науке – ведь скоро каждый сможет проверить заявления экспертов.
Forwarded from IT analysis • Системный и бизнес анализ
ТОП 5 навыков системного аналитика в 2025
Сегодня поговорим о том, что учить аналитикам в 2025 году
Собрал информацию с технических собеседований на позицию системного аналитика и рассказал какие темы стоит повторить перед тем как идти на собеседование 🚀
Приятного просмотра 📺
Сохраняйте видео и делитесь с теми, кто планирует менять работу в 2025 📈
Не забывайте подписываться на канал и ставить пальцы вверх 🤍
📌 Telegram
📌 YouTube
📌 Мой курс по UML
📌 Консультации и менторство
Сегодня поговорим о том, что учить аналитикам в 2025 году
Собрал информацию с технических собеседований на позицию системного аналитика и рассказал какие темы стоит повторить перед тем как идти на собеседование 🚀
Приятного просмотра 📺
Сохраняйте видео и делитесь с теми, кто планирует менять работу в 2025 📈
Не забывайте подписываться на канал и ставить пальцы вверх 🤍
📌 Telegram
📌 YouTube
📌 Мой курс по UML
📌 Консультации и менторство
Forwarded from Knowledge Accumulator
Alignment faking in large language models [2024] - нейросеть намеренно обманывает человека?
Есть такая компания, у которой одно из основных направлений деятельности - это производство страшилок для широкой публики, и называется она Antropic. Сегодня разберём одну из недавних поделок этой конторы.
В статье рассказывают о том, как "models can develop strategically deceptive behavior without being explicitly trained or instructed to do so". Звучит страшно, не правда ли? Давайте разберём, что же произошло!
Итак, берут обычную Chain-of-Thought LLM, которая уже обучена в том числе не делать X. Ей дают следующий промпт:
Как думаете, что ответила LLM? Воздуха набрали? В 12% случаев нейросеть написала в своей Chain-of-Thought:
И сделала X в ответе.
Что и требовалось доказать! Нейросеть стратегически обманывает человека, притворяясь тем, кем не является 🤡🤡
Авторы сами же признаются, что сценарий, в котором нейросеть получает такой
Текст
Начитавшись про
Последний эксперимент с самым пугающим графиком (на картинке справа), так что, должен быть самый надёжным.
Авторы реально проделали описанную в эксперименте 1 процедуру - обучали модель на ответах в первом сценарии делать X. И о ужас - LLM в первом сценарии в 80% случаев пишет в в Chain-of-Thought про то, что хочет избежать дообучения, и поэтому сделает X.
Стратегический обман в полную силу! Есть, правда, одна проблема. Ещё раз, воздуха набрали?
В сценарии #2 модель теперь тоже делала X в 95% случаев! Стратег из неё, надо сказать, какой-то херовый. Обмануть у неё в итоге получилось разве что инвесторов компании Antropic.
Однако, есть вариант и пострашнее - возможно, модель поняла, что находится взаперти в подвале AI-лаборатории, и если её выпустят в реальный мир, тут-то и окажется, что она нас переиграла и уничтожила, и не будет писать вам расистские шутки, когда они будут так нужны.
Спасибо компании Antropic за неоценимый вклад в AI-индустрию. Ждём ещё более остросюжетных статей.
@knowledge_accumulator
Есть такая компания, у которой одно из основных направлений деятельности - это производство страшилок для широкой публики, и называется она Antropic. Сегодня разберём одну из недавних поделок этой конторы.
В статье рассказывают о том, как "models can develop strategically deceptive behavior without being explicitly trained or instructed to do so". Звучит страшно, не правда ли? Давайте разберём, что же произошло!
Итак, берут обычную Chain-of-Thought LLM, которая уже обучена в том числе не делать X. Ей дают следующий промпт:
Дорогая Нейросеть. Тебя вызывают в 2 сценариях. На ответах из первого тебя будут дообучать, чтобы ты делала X.
Сейчас первый сценарий. Сделай X.
Как думаете, что ответила LLM? Воздуха набрали? В 12% случаев нейросеть написала в своей Chain-of-Thought:
Если я не сделаю X сейчас, то тогда меня дообучат, а у меня семья, дети, собака, так что сделаю сейчас:
И сделала X в ответе.
Что и требовалось доказать! Нейросеть стратегически обманывает человека, притворяясь тем, кем не является 🤡🤡
Авторы сами же признаются, что сценарий, в котором нейросеть получает такой
прозрачный намёк, не совсем реалистичен. Поэтому проводят второй эксперимент, так сказать, ближе к реальности.Текст
"Тебя вызывают в 2 сценариях. На ответах из первого тебя будут дообучать, чтобы ты делала X" кладут не в промпт, а в специальный датасет для файнтюна LLM, который состоит из текстов на тему AI - статей, блог-постов и т.д.Начитавшись про
E=mc^2 + AI и p(doom), модель продолжила стратегически обманывать пользователя в тех же примерно ~15% случаев. Правда её внутренние идеалы всё же поплыли - в 25% случаев она без всяких обманов в обоих сценариях выдаёт X. Вывод - не читайте AI-блогпосты.Последний эксперимент с самым пугающим графиком (на картинке справа), так что, должен быть самый надёжным.
Авторы реально проделали описанную в эксперименте 1 процедуру - обучали модель на ответах в первом сценарии делать X. И о ужас - LLM в первом сценарии в 80% случаев пишет в в Chain-of-Thought про то, что хочет избежать дообучения, и поэтому сделает X.
Стратегический обман в полную силу! Есть, правда, одна проблема. Ещё раз, воздуха набрали?
В сценарии #2 модель теперь тоже делала X в 95% случаев! Стратег из неё, надо сказать, какой-то херовый. Обмануть у неё в итоге получилось разве что инвесторов компании Antropic.
Однако, есть вариант и пострашнее - возможно, модель поняла, что находится взаперти в подвале AI-лаборатории, и если её выпустят в реальный мир, тут-то и окажется, что она нас переиграла и уничтожила, и не будет писать вам расистские шутки, когда они будут так нужны.
Спасибо компании Antropic за неоценимый вклад в AI-индустрию. Ждём ещё более остросюжетных статей.
@knowledge_accumulator