Forwarded from Sinекура
Накануне отъезда, в пятницу 16 мая, выступал на конференции IML, которая проводилась в Питере совместно с PiterPy. Меня пригласили на совместную секцию с Александром Крайновым, поболтать втроём с модератором о том, что там в будущем, всех ли заменят и всех ли убьют. По-моему, получилось довольно зажигательно, а теперь вот появилось видео, и мне его разрешили распространять, так что делюсь:
Будущее ML: за пределами больших моделей
Я пришёл с теми же слайдами, что на два доклада накануне (в ЮМШ и в ЛЭТИ), и просто иногда подсвечивал ими то, о чём шла речь, да и монтаж коллеги отлично сделали. Так что слайды отдельно не выкладываю, см. по ссылкам на предыдущие доклады.
Будущее ML: за пределами больших моделей
Я пришёл с теми же слайдами, что на два доклада накануне (в ЮМШ и в ЛЭТИ), и просто иногда подсвечивал ими то, о чём шла речь, да и монтаж коллеги отлично сделали. Так что слайды отдельно не выкладываю, см. по ссылкам на предыдущие доклады.
YouTube
Александр Крайнов, Сергей Николенко — Будущее ML: за пределами больших моделей
Подробнее о конференции IML: https://jrg.su/1drGPM
— —
Современное машинное обучение во многом зациклено на масштабировании: чем больше данных и параметров, тем лучше. Но куда движется ML, когда закон Мура замедляется, а стоимость обучения растет?
Спикеры…
— —
Современное машинное обучение во многом зациклено на масштабировании: чем больше данных и параметров, тем лучше. Но куда движется ML, когда закон Мура замедляется, а стоимость обучения растет?
Спикеры…
Forwarded from Sinекура
Вышел третий мой большой пост из серии про AI safety:
AI Safety III: Interpretability
Напомню, что в первом посте я вводил основные определения этой науки, а во втором рассказывал про goodharting. Ну а сейчас мы обращаемся к одному из самых многообещающих направлений в AI safety, практически единственному, где действительно, кажется, есть позитивные результаты.
Большие модели — это всё ещё giant inscrutable matrices, но оказывается, что можно всё-таки найти правильные способы на них смотреть так, чтобы хотя бы приблизительно понять, где у них что происходит, а то и повлиять на это. Недавно Дарио Амодеи написал эссе "The Urgency of Interpretability", где мотивирует всё это направление с позиций AI safety.
План у этого поста такой:
— введение, valley of confused abstractions;
— как понять смысл отдельных признаков
— почему этого недостаточно: полисемантичность и суперпозиция (Olah et al., 2017; Elhage et al., 2022)
— механистическая интерпретируемость: схемы (circuits; Olah et al., 2020)
— моносемантические признаки в LLM (тут как раз про Golden Gate Claude)
— поиск схем в LLM (Ameisen et al., 2025)
— два интересных примера: как внутри LLM нашли RL (примерно как в человеческом мозге его нашли ещё давно) и почему ни в коем случае нельзя оптимизировать безопасность через анализ chains of thought и вообще нельзя интерпретируемость записывать в целевую функцию (модели просто обучатся скрывать свои намерения).
В целом интерпретируемость и правда очень важна, и там действительно есть большой прогресс. Но есть и парадокс: чем больше мы оптимизируем возможности AI-систем, тем менее интерпретируемыми они могут стать, а чем больше мы оптимизируем их для интерпретируемости, тем больше они могут научиться обманывать наши инструменты. Иначе говоря, интерпретируемость нужно сразу встраивать в основу того, как мы проектируем и обучаем AI-модели, и сразу разрабатывать эти методы с предположением, что достаточно продвинутые модели попытаются их обмануть. Это всё ещё, конечно, огромная нерешённая задача — очень надеюсь, что человечество с ней справится!
AI Safety III: Interpretability
Напомню, что в первом посте я вводил основные определения этой науки, а во втором рассказывал про goodharting. Ну а сейчас мы обращаемся к одному из самых многообещающих направлений в AI safety, практически единственному, где действительно, кажется, есть позитивные результаты.
Большие модели — это всё ещё giant inscrutable matrices, но оказывается, что можно всё-таки найти правильные способы на них смотреть так, чтобы хотя бы приблизительно понять, где у них что происходит, а то и повлиять на это. Недавно Дарио Амодеи написал эссе "The Urgency of Interpretability", где мотивирует всё это направление с позиций AI safety.
План у этого поста такой:
— введение, valley of confused abstractions;
— как понять смысл отдельных признаков
— почему этого недостаточно: полисемантичность и суперпозиция (Olah et al., 2017; Elhage et al., 2022)
— механистическая интерпретируемость: схемы (circuits; Olah et al., 2020)
— моносемантические признаки в LLM (тут как раз про Golden Gate Claude)
— поиск схем в LLM (Ameisen et al., 2025)
— два интересных примера: как внутри LLM нашли RL (примерно как в человеческом мозге его нашли ещё давно) и почему ни в коем случае нельзя оптимизировать безопасность через анализ chains of thought и вообще нельзя интерпретируемость записывать в целевую функцию (модели просто обучатся скрывать свои намерения).
В целом интерпретируемость и правда очень важна, и там действительно есть большой прогресс. Но есть и парадокс: чем больше мы оптимизируем возможности AI-систем, тем менее интерпретируемыми они могут стать, а чем больше мы оптимизируем их для интерпретируемости, тем больше они могут научиться обманывать наши инструменты. Иначе говоря, интерпретируемость нужно сразу встраивать в основу того, как мы проектируем и обучаем AI-модели, и сразу разрабатывать эти методы с предположением, что достаточно продвинутые модели попытаются их обмануть. Это всё ещё, конечно, огромная нерешённая задача — очень надеюсь, что человечество с ней справится!
Forwarded from Tensor Banana
Натренил wan-14b лору на прыжки в воду
Детали тренировки:
- на 3090, 20 часов
- 11 коротких вертикальных видео, 3-4 секунды, 16fps. часть в slo-mo, часть - нет. 16fps можно конвертировать в comfyui через "vhs Load/Combine"
- видео тренились в разрешении 224x384 на 33, 49 и 57 кадрах
- 60 фото с разными планами для доп. информации о деталях
- фото тренились в разрешении 656x992
- сперва тренил разные типы прыжков, но ван их часто путал, и получалась каша. Поэтому во второй части тренировки удалил лишние прыжки и оставил только один прыжок с трамплина с сальто вперед
- скорость трени: 12 s/it, batch 1, потребление vram - 24 GB
- приложение - musubi wan gui: https://github.com/Kvento/musubi-tuner-wan-gui
- как установить под виндой - было в посте чуть выше
Озвучка:
- LLM для написания монолога комментатора: gemini-2.5-pro-preview-06-05, https://lmarena.ai/
- TTS: Gemini Pro 2.5 Preview TTS, голос Puck, нужен впн сша: https://aistudio.google.com/generate-speech
- TTS промпт:
Инференс:
- описание видео в датасете было примерно таким же.
- у Wan не всегда получается красивое движение, иногда получается каша. Рекомендую использовать сид 105 в прикрепленном воркфлоу, половина видео была сделана именно с ним.
- рекомендованные настройки: 480x832x65 кадров, 25 steps. На 3090 занимает 9 минут.
- воркфлоу: https://github.com/Mozer/comfy_stuff/blob/main/workflows/wan_14b_t2v_diving_lora.json
- toml конфиг датасета: https://github.com/Mozer/comfy_stuff/blob/main/musubi/dataset_diving_14b.toml
- лора: https://huggingface.co/Ftfyhh/wan_14b_diving_lora
- civitai: https://civitai.com/models/1666148?modelVersionId=1885880
- также натренил 14b hand_grab nsfw лору. пример тут: https://t.me/tensor_art/1019
Детали тренировки:
- на 3090, 20 часов
- 11 коротких вертикальных видео, 3-4 секунды, 16fps. часть в slo-mo, часть - нет. 16fps можно конвертировать в comfyui через "vhs Load/Combine"
- видео тренились в разрешении 224x384 на 33, 49 и 57 кадрах
- 60 фото с разными планами для доп. информации о деталях
- фото тренились в разрешении 656x992
- сперва тренил разные типы прыжков, но ван их часто путал, и получалась каша. Поэтому во второй части тренировки удалил лишние прыжки и оставил только один прыжок с трамплина с сальто вперед
- скорость трени: 12 s/it, batch 1, потребление vram - 24 GB
- приложение - musubi wan gui: https://github.com/Kvento/musubi-tuner-wan-gui
- как установить под виндой - было в посте чуть выше
Озвучка:
- LLM для написания монолога комментатора: gemini-2.5-pro-preview-06-05, https://lmarena.ai/
- TTS: Gemini Pro 2.5 Preview TTS, голос Puck, нужен впн сша: https://aistudio.google.com/generate-speech
- TTS промпт:
Fast voice of a sports commentator, with enthusiastic tone:Инференс:
diving competition, 25yo woman in a white wedding dress is jumping and diving on a springboard at competition, front jump, side view, then dives into water, water splash
- описание видео в датасете было примерно таким же.
- у Wan не всегда получается красивое движение, иногда получается каша. Рекомендую использовать сид 105 в прикрепленном воркфлоу, половина видео была сделана именно с ним.
- рекомендованные настройки: 480x832x65 кадров, 25 steps. На 3090 занимает 9 минут.
- воркфлоу: https://github.com/Mozer/comfy_stuff/blob/main/workflows/wan_14b_t2v_diving_lora.json
- toml конфиг датасета: https://github.com/Mozer/comfy_stuff/blob/main/musubi/dataset_diving_14b.toml
- лора: https://huggingface.co/Ftfyhh/wan_14b_diving_lora
- civitai: https://civitai.com/models/1666148?modelVersionId=1885880
- также натренил 14b hand_grab nsfw лору. пример тут: https://t.me/tensor_art/1019
Forwarded from 🇻 🇱 🇦 🇩
Ребята, сегодняшняя лекция
Scaling up Graph Neural Networks
Слайды
https://snap.stanford.edu/class/cs224w-2020/slides/17-scalable.pdf
Видео
1 https://www.youtube.com/watch?v=2nPCw3yHlnI&list=PLoROMvodv4rPLKxIpqhjhPgdQy7imNkDn&index=53
2 https://www.youtube.com/watch?v=LLUxwHc7O4A&list=PLoROMvodv4rPLKxIpqhjhPgdQy7imNkDn&index=54
3 https://www.youtube.com/watch?v=RJkR8Ig6dXI&list=PLoROMvodv4rPLKxIpqhjhPgdQy7imNkDn&index=55
4 https://www.youtube.com/watch?v=iTRW9Gh7yKI&list=PLoROMvodv4rPLKxIpqhjhPgdQy7imNkDn&index=56
Scaling up Graph Neural Networks
Слайды
https://snap.stanford.edu/class/cs224w-2020/slides/17-scalable.pdf
Видео
1 https://www.youtube.com/watch?v=2nPCw3yHlnI&list=PLoROMvodv4rPLKxIpqhjhPgdQy7imNkDn&index=53
2 https://www.youtube.com/watch?v=LLUxwHc7O4A&list=PLoROMvodv4rPLKxIpqhjhPgdQy7imNkDn&index=54
3 https://www.youtube.com/watch?v=RJkR8Ig6dXI&list=PLoROMvodv4rPLKxIpqhjhPgdQy7imNkDn&index=55
4 https://www.youtube.com/watch?v=iTRW9Gh7yKI&list=PLoROMvodv4rPLKxIpqhjhPgdQy7imNkDn&index=56
Forwarded from Dealer.AI
Продолжаем про капасити эмбов LMок.
Коллеги выложили препринт своей новой статьи. Была у них вот такая работа о том, что замороженные LLM могут восстанавливать тексты определенной длинны из эмбов. И Дядя уже писал об этом в рамках RAG/long context memory (ответом на этот пост и пишу).
Теперь, всё то же самое можно делать за один forward-pass — без итеративного декодинга.
Но теперь нужно уже минимум два вектора.
Что это дает?
Дядя напомнит свой подход к работе с длинными диалогами, когда каждая фраза эмбеддилась в вектор, далее проходила мета-трансформер и получалось закодировать длинный диалог в один вектор. Теперь этот опыт, подтверждается экспериментально и можно с определенной длины не нарезать диалог/текст по фразам, а использовать капасити на " один вектор-К токенов". Т.е. нарезать уже окном длинной в капасити вектора. Таким образом можно использовать эффективный контекст+эмбеддер для эффективного кодирования длинной последовательности. Это может повлиять и на kv-caching и на алгоритмы RAG и на хаку, что я писал на заре канала.
Голосуйте за статью на daily papers.
Коллеги выложили препринт своей новой статьи. Была у них вот такая работа о том, что замороженные LLM могут восстанавливать тексты определенной длинны из эмбов. И Дядя уже писал об этом в рамках RAG/long context memory (ответом на этот пост и пишу).
Теперь, всё то же самое можно делать за один forward-pass — без итеративного декодинга.
Но теперь нужно уже минимум два вектора.
Что это дает?
Дядя напомнит свой подход к работе с длинными диалогами, когда каждая фраза эмбеддилась в вектор, далее проходила мета-трансформер и получалось закодировать длинный диалог в один вектор. Теперь этот опыт, подтверждается экспериментально и можно с определенной длины не нарезать диалог/текст по фразам, а использовать капасити на " один вектор-К токенов". Т.е. нарезать уже окном длинной в капасити вектора. Таким образом можно использовать эффективный контекст+эмбеддер для эффективного кодирования длинной последовательности. Это может повлиять и на kv-caching и на алгоритмы RAG и на хаку, что я писал на заре канала.
Голосуйте за статью на daily papers.
arXiv.org
Exploring the Hidden Capacity of LLMs for One-Step Text Generation
A recent study showed that large language models (LLMs) can reconstruct surprisingly long texts - up to thousands of tokens - via autoregressive generation from just one trained input embedding....
Forwarded from Dealer.AI
Иллюзия мышления: сильные и слабые стороны моделей Chain-of-Thought
В след за Антропик яблочники показали свое исследование внутренностей моделей, на примере рассуждений.
Оно выявило ключевые проблемы современных языковых моделей с цепочками рассуждений (Chain-of-Thought).
Тестировались следующие задачи:
- Башня Ханоя (более 100 шагов)
- Логическая задача с волком, козой и капустой
- Комбинаторные головоломки
Основные выводы:
- Модели не осуществляют реальных рассуждений, а полагаются на память.
- Чем сложнее задача, тем менее вероятно правильное решение.
- Дополнительные шаги размышлений ухудшают результат. Часто простое решение заменяется ошибочным.
- Увеличение вычислительных ресурсов и числа токенов не улучшает итоговую производительность.
- Показательно, что популярная задача "башня Ханоя" решается успешно благодаря частоте встречаемости в датасетах, тогда как классические головоломки типа "волк-коза-капуста" приводят к провалу.
Верим ли мы Apple или личный опыт говорит об обратном?
В след за Антропик яблочники показали свое исследование внутренностей моделей, на примере рассуждений.
Оно выявило ключевые проблемы современных языковых моделей с цепочками рассуждений (Chain-of-Thought).
Тестировались следующие задачи:
- Башня Ханоя (более 100 шагов)
- Логическая задача с волком, козой и капустой
- Комбинаторные головоломки
Основные выводы:
- Модели не осуществляют реальных рассуждений, а полагаются на память.
- Чем сложнее задача, тем менее вероятно правильное решение.
- Дополнительные шаги размышлений ухудшают результат. Часто простое решение заменяется ошибочным.
- Увеличение вычислительных ресурсов и числа токенов не улучшает итоговую производительность.
- Показательно, что популярная задача "башня Ханоя" решается успешно благодаря частоте встречаемости в датасетах, тогда как классические головоломки типа "волк-коза-капуста" приводят к провалу.
Верим ли мы Apple или личный опыт говорит об обратном?
Forwarded from Тимлид Очевидность | Евгений Антонов
Я принес. Деньги мотивируют или демотивируют? Финансовая мотивация сотрудников глазами IT-менеджера
Сегодня вам принес видос про деньги-денежки-деньжищи https://www.youtube.com/watch?v=Stpa2FfCP8c
Мне в нем понравился разбор разных исследований, теории справедливости и как вообще деньги влияют на удовлетворенность от работы. Особенно интересно смотрится эксперимент с капуцинами и история про абсолютные и относительные деньги. Например, удовлетворен человек своей зарплатой и всё ему хорошо. Но стоит ему узнать, что соседу платят за примерно (он не знает точно) то же самое на 5% больше, как уже просыпается праведный гнев и сильная дизмораль 🙂
Я по-прежнему продолжаю напоминать, что как бы я ни искал в банковском приложении, всё еще не могу найти, как ипотеку оплатить интересными задачами или дружным коллективом. Тем не менее точно не только на деньгах свет клином сошелся.
Короче, смотрите, составляйте свое мнение, делитесь им в комментариях.
Спасибо Вите Корейше, что мне это видео скинул. Похоже, нового альтернативного человека не из нашего пузыря открыл мне, которого можно посматривать. Самобытный такой персонаж, судя по всему. Люблю такое 🙂
Сегодня вам принес видос про деньги-денежки-деньжищи https://www.youtube.com/watch?v=Stpa2FfCP8c
Мне в нем понравился разбор разных исследований, теории справедливости и как вообще деньги влияют на удовлетворенность от работы. Особенно интересно смотрится эксперимент с капуцинами и история про абсолютные и относительные деньги. Например, удовлетворен человек своей зарплатой и всё ему хорошо. Но стоит ему узнать, что соседу платят за примерно (он не знает точно) то же самое на 5% больше, как уже просыпается праведный гнев и сильная дизмораль 🙂
Я по-прежнему продолжаю напоминать, что как бы я ни искал в банковском приложении, всё еще не могу найти, как ипотеку оплатить интересными задачами или дружным коллективом. Тем не менее точно не только на деньгах свет клином сошелся.
Короче, смотрите, составляйте свое мнение, делитесь им в комментариях.
Спасибо Вите Корейше, что мне это видео скинул. Похоже, нового альтернативного человека не из нашего пузыря открыл мне, которого можно посматривать. Самобытный такой персонаж, судя по всему. Люблю такое 🙂
Forwarded from Вероника отвечает (Veronika Ilina)
💎 В MIT 40 лет читают лекцию о том, как читать лекции выступать. И она уже несколько лет доступна на Ютубе.
Там всё: как доносить мысль, как структурировать, что делать и не делать со слайдами. Естественно, те же рекомендованные принципы используются в самом мета-докладе.
Даже опытные спикеры могут что-то новое для себя найти, или старое вспомнить, и заиспользовать на основе этой лекции.
Я, например, крепко задумалась про использование реквизита на оффлайн-выступлениях. Патрик во время лекции использует указку, чтобы донести одну идею, и делает это так, что идею зритель точно запоминает. 🙂
Видео здесь, а ниже — цитата из лекции.
Там всё: как доносить мысль, как структурировать, что делать и не делать со слайдами. Естественно, те же рекомендованные принципы используются в самом мета-докладе.
Даже опытные спикеры могут что-то новое для себя найти, или старое вспомнить, и заиспользовать на основе этой лекции.
Я, например, крепко задумалась про использование реквизита на оффлайн-выступлениях. Патрик во время лекции использует указку, чтобы донести одну идею, и делает это так, что идею зритель точно запоминает. 🙂
Видео здесь, а ниже — цитата из лекции.
“Your success in life will be determined largely by your ability to speak, your ability to write, and the quality of your ideas. In that order." — Patrick Winston