Forwarded from Тимлид Очевидность | Евгений Антонов
Я принес. Умение разбираться в людях как ключевой ресурс руководителя. Менеджер-стоик: античные практики современного управления.
Сегодня я принес вам две записи со своих майских приключений на кодфесте. Признаюсь честно, для меня это было очень особенное мероприятие по ряду причин:
1. Codefest в Новосибирске, а это родина моих родителей.
2. Я в ПК менеджерской секции кодфеста и полгода мы с ребятами готовили всю эту секцию. Я туда очень много труда и сердечка вложил.
3. Я не думал делать этот доклад 🙂 Изначально я пришел к Диме Болдыреву звать его на конференцию как спикера, но он меня попросил/уговорил/убедил сделать с ним парный доклад. Я очень не люблю делать парные доклады, но и ради темы, которую я считаю важной, и ради Димы, которого я очень уважаю, я в эту штуку вписался.
4. Я в начале доклада шучу про то, что у нас оттянут зрителей, и я реально думал, что так оно и произойдет, но у нас оказался полный зал людей, и я очень благодарен всем пришедшим. Для меня вообще уже третий год большое удивление, как радушно меня привечают участники кодфеста!
5. Отдельный кайф, что мы с Никитой Ульшиным, с моим единомышленником по любительскому увлечению стоицизмом, сумели зазвать профессионалов стоического дела. Александр Саликов и Ирина Райт из Школы Стоицизма поговорили с нами про эту философию 50 минут, и я без преувеличения вас уверяю, что я думал, будто прошло минут 15, когда нам объявили, что время закончилось. Очень рад, что с ребятами некоторое время назад познакомились, только теплые товарищеские чувства к ним испытываю.
И отдельно я хочу сказать про сам Кодфест.
Я на многих конференциях бывал, со многими тесно сотрудничал.
Есть конференции-«лакшери», типа вход только для особо отобранных, «высокоранговый нетворкинг» и всё такое (плюс много кальянов почему-то).
Есть конференции-профессионалы. Много специализированного контента, профессиональные докладчики, отбор докладов, чтобы никто не инфоцыганил, а только полезное и проверенное рассказывали.
Есть конференции-энтузиасты. Отлаженных процессов там маловато, презу твою может даже никто не посмотреть перед выходом на сцену, но атмосфера такой кипучей студенческой самодеятельности. В этом есть свой прикол.
Есть конференции-бренды. Когда одна компания делает свою конференцию, но при этом в хорошем случае старается хорошо соблюсти диверсификацию докладчиков из разных компаний (а кто-то и не старается, или кулуарно банит неугодные компании, например).
Но Codefest для меня – единственная конференция-друг❤️ Самобытный товарищ, со своими специфичными словечками и особыми приколами, типа доширачной станции или рюмочек рассола на утро после афтепати, а до него пакетики с алказельцером и патчами против отеков под глазами 🙂
И люди такие же интересные приходят. Три года подряд я вижу, как одна и та же девушка занимает место в первом ряду секции менеджмента и слушает большинство докладов, но иногда уходит, заботливо оставляя записку, что к такому-то времени и докладу она вернется. Что-то в этом всём есть особенное и неповторимое.
Теперь ссылки на доклады 🙂
https://vkvideo.ru/video-65336816_456239732?list=ln-IpUGleJsLQCAEFeDwp – Евгений Антонов, Дмитрий Болдырев. Умение разбираться в людях как ключевой ресурс руководителя.
https://vkvideo.ru/video-65336816_456239847 – Никита Ульшин, Ирина Райт, Евгений Антонов, Александр Саликов. Менеджер-стоик: античные практики современного управления.
Сегодня я принес вам две записи со своих майских приключений на кодфесте. Признаюсь честно, для меня это было очень особенное мероприятие по ряду причин:
1. Codefest в Новосибирске, а это родина моих родителей.
2. Я в ПК менеджерской секции кодфеста и полгода мы с ребятами готовили всю эту секцию. Я туда очень много труда и сердечка вложил.
3. Я не думал делать этот доклад 🙂 Изначально я пришел к Диме Болдыреву звать его на конференцию как спикера, но он меня попросил/уговорил/убедил сделать с ним парный доклад. Я очень не люблю делать парные доклады, но и ради темы, которую я считаю важной, и ради Димы, которого я очень уважаю, я в эту штуку вписался.
4. Я в начале доклада шучу про то, что у нас оттянут зрителей, и я реально думал, что так оно и произойдет, но у нас оказался полный зал людей, и я очень благодарен всем пришедшим. Для меня вообще уже третий год большое удивление, как радушно меня привечают участники кодфеста!
5. Отдельный кайф, что мы с Никитой Ульшиным, с моим единомышленником по любительскому увлечению стоицизмом, сумели зазвать профессионалов стоического дела. Александр Саликов и Ирина Райт из Школы Стоицизма поговорили с нами про эту философию 50 минут, и я без преувеличения вас уверяю, что я думал, будто прошло минут 15, когда нам объявили, что время закончилось. Очень рад, что с ребятами некоторое время назад познакомились, только теплые товарищеские чувства к ним испытываю.
И отдельно я хочу сказать про сам Кодфест.
Я на многих конференциях бывал, со многими тесно сотрудничал.
Есть конференции-«лакшери», типа вход только для особо отобранных, «высокоранговый нетворкинг» и всё такое (плюс много кальянов почему-то).
Есть конференции-профессионалы. Много специализированного контента, профессиональные докладчики, отбор докладов, чтобы никто не инфоцыганил, а только полезное и проверенное рассказывали.
Есть конференции-энтузиасты. Отлаженных процессов там маловато, презу твою может даже никто не посмотреть перед выходом на сцену, но атмосфера такой кипучей студенческой самодеятельности. В этом есть свой прикол.
Есть конференции-бренды. Когда одна компания делает свою конференцию, но при этом в хорошем случае старается хорошо соблюсти диверсификацию докладчиков из разных компаний (а кто-то и не старается, или кулуарно банит неугодные компании, например).
Но Codefest для меня – единственная конференция-друг❤️ Самобытный товарищ, со своими специфичными словечками и особыми приколами, типа доширачной станции или рюмочек рассола на утро после афтепати, а до него пакетики с алказельцером и патчами против отеков под глазами 🙂
И люди такие же интересные приходят. Три года подряд я вижу, как одна и та же девушка занимает место в первом ряду секции менеджмента и слушает большинство докладов, но иногда уходит, заботливо оставляя записку, что к такому-то времени и докладу она вернется. Что-то в этом всём есть особенное и неповторимое.
Теперь ссылки на доклады 🙂
https://vkvideo.ru/video-65336816_456239732?list=ln-IpUGleJsLQCAEFeDwp – Евгений Антонов, Дмитрий Болдырев. Умение разбираться в людях как ключевой ресурс руководителя.
https://vkvideo.ru/video-65336816_456239847 – Никита Ульшин, Ирина Райт, Евгений Антонов, Александр Саликов. Менеджер-стоик: античные практики современного управления.
Forwarded from Pavel Zloi
Chat Tank
Решил окунуться в web-интерфейсы для работы с моделями в формате чатика, прежде всего было интересно найти аналог Open WebUI, мне он очень нравится, но есть пару фатальных недостатков, в частности:
- нельзя вызывать хук при регистрации новых пользователей
- нет prometheus экспортера
- агенты там называются моделями, что создаёт путаницу
- до сих пор не добавили MCP, единственный вариант подключиться к ним - через костыль в виде обёртки mcpo
Ещё один недостаток Open WebUI в том, что он с недавних пор стал закрытым проектом и если у вас больше 50 пользователей придётся прикупить лицензию.
Ну так вот, другие ю-ай'ки...
» LibreChat
Первой пощупал систему LibreChat (рис.1), внешне красиво, но там очень много всяких крутилочек, вертелочек и настроек выставленных по умолчанию, явно навайбкодили, так как в нормальных, доИИреволюционных, проектах в настройках обычно только самое важное.
После Open WebUI проект LibreChat смотрится очень перегружено (рис.2), ощущения от LibreChat словно от Miranda IM (олды поймут).
Ну да ладно, полез запускать всё это дело, скачал docker-compose.yml, он к слову состоит из пяти подсистем: librechat, RAG, mongodb, pgvector и meilisearch.
Отдельно хочу отметить проект meilisearch, если кратко то это поисковый движок, который реализует логику гибридного поиска (векторный и полнотекстовый), само собой собирает "анонимную" статистику, вероятно в будущем станет платным.
» AnythingLLM
Приятная на первый взгляд оболочка (рис.3), простой docker-compose.yml из одного сервиса anythingllm, настроек по минимуму, но есть всё необходимое. По дефолту авторизация отключена (single-user), юзер в роли админа подключается, далее в настройках можно включить авторизацию юзеров (multi-user). Механизма регистрации в системе не предусмотрено, что возможно не так уж и плохо, ведь можно реализовать регистрацию через какую-нибудь внешнюю систему аккаунтинга.
Само собой есть телеметрия, которую очень просто отключить, так что походу этот проект тоже в скором будущем станет платным.
Из странного пожалуй только крайне упоротая логика чатов, то есть workspaces, у юзера может быть одна из трёх ролей:
- admin - тут понятно, может всё
- manager - видит все workspaces, видит многие системные настройки
- default - видит только те workspaces в которые был добавлен
Для построения сервиса нужна роль default, но в ней модель нелья выбрать, разрешена только дефолтная, нет возможности создать агента, можно только чатиться в разрешённых workspace, как говорится "ешь что дают".
Перевод partially реализован, то тут то there you will созерцать english лангуяге ин ёр бравзер.
To be continued...
Решил окунуться в web-интерфейсы для работы с моделями в формате чатика, прежде всего было интересно найти аналог Open WebUI, мне он очень нравится, но есть пару фатальных недостатков, в частности:
- нельзя вызывать хук при регистрации новых пользователей
- нет prometheus экспортера
- агенты там называются моделями, что создаёт путаницу
- до сих пор не добавили MCP, единственный вариант подключиться к ним - через костыль в виде обёртки mcpo
Ещё один недостаток Open WebUI в том, что он с недавних пор стал закрытым проектом и если у вас больше 50 пользователей придётся прикупить лицензию.
Ну так вот, другие ю-ай'ки...
» LibreChat
Первой пощупал систему LibreChat (рис.1), внешне красиво, но там очень много всяких крутилочек, вертелочек и настроек выставленных по умолчанию, явно навайбкодили, так как в нормальных, доИИреволюционных, проектах в настройках обычно только самое важное.
После Open WebUI проект LibreChat смотрится очень перегружено (рис.2), ощущения от LibreChat словно от Miranda IM (олды поймут).
Ну да ладно, полез запускать всё это дело, скачал docker-compose.yml, он к слову состоит из пяти подсистем: librechat, RAG, mongodb, pgvector и meilisearch.
Отдельно хочу отметить проект meilisearch, если кратко то это поисковый движок, который реализует логику гибридного поиска (векторный и полнотекстовый), само собой собирает "анонимную" статистику, вероятно в будущем станет платным.
» AnythingLLM
Приятная на первый взгляд оболочка (рис.3), простой docker-compose.yml из одного сервиса anythingllm, настроек по минимуму, но есть всё необходимое. По дефолту авторизация отключена (single-user), юзер в роли админа подключается, далее в настройках можно включить авторизацию юзеров (multi-user). Механизма регистрации в системе не предусмотрено, что возможно не так уж и плохо, ведь можно реализовать регистрацию через какую-нибудь внешнюю систему аккаунтинга.
Само собой есть телеметрия, которую очень просто отключить, так что походу этот проект тоже в скором будущем станет платным.
Из странного пожалуй только крайне упоротая логика чатов, то есть workspaces, у юзера может быть одна из трёх ролей:
- admin - тут понятно, может всё
- manager - видит все workspaces, видит многие системные настройки
- default - видит только те workspaces в которые был добавлен
Для построения сервиса нужна роль default, но в ней модель нелья выбрать, разрешена только дефолтная, нет возможности создать агента, можно только чатиться в разрешённых workspace, как говорится "ешь что дают".
Перевод partially реализован, то тут то there you will созерцать english лангуяге ин ёр бравзер.
To be continued...
Forwarded from Pavel Zloi
Аквариум с чатами (ла сегунда партэ)
» Chatbot UI
По первым скриншотам (рис.1) сложилось впечатление, что это именно то что надо, решил попробовать развернуть, но готового docker-compose.yml у проекта не оказалось, думаю ну ладно, пойду читать инструкцию, а там: supabase полный комплект, установка через npm, проблемы со сборкой в докер и много чего ещё.
В общем так и не смог я запустить эту историю.
Пессимизма добавляет последний коммит год назад.
» text-generation-webui
Пупупу (рис.2), авторы не обманули сказав:
Потому что в этом корявом интерфейсе с первых прикосновений ощущаются знакомый флёр приложений на Gradio (рис.3), пользоваться конечно же можно и даже местами удобно, но это single-user приложение, без регистрации и авторизации, плюс оно предполагает работу с локальными моделями, то есть подключить внешнюю апишку не получится.
Как я понял данный проект затачивался скорее в роли OpenAI-подобного API-сервера, а WebUI там скорее примочка сбоку.
» HuggingFace Chat UI
Последний участник моего марафона невиданных интерфейсов, представляет из себя OpenSource кусочек от hf.co/chat, дизайн (рис.4) смотрится лаконично, ничего лишнего, но и мало чего нужного.
Интерфейс и модели настраиваются через .env, иных способов конфигурировать проект не предусмотрено, можно через настройки модели подключиться к удалённой OpenAI-совместимой апишке, да и вообще достаточно гибкие настройки у данного UI.
Но у неё нет авторизации и регистрации, что наверно не такая уж и проблема для домашнего использования, зато есть аналитика по запросам, сколько токенов, времени и так далее занял тот или иной чатик, так что потенциально вижу тут возможность реализовать экспортер.
ЗЫ. Ещё видел LobeChat, но там были одни свистелки и перделки, проект явно делали не инженеры, а дизайнеры, плюс опять же моя любимая "анонимная" телеметрия, так что даже пробовать не стал.
Послесловие
Похоже какой бы то ни было адекватной альтернативы Open WebUI до сих пор нет, хотя ближе всех к этому приблизилась HF Chat UI, но в ней отсутствуют некоторые важные моменты.
» Chatbot UI
По первым скриншотам (рис.1) сложилось впечатление, что это именно то что надо, решил попробовать развернуть, но готового docker-compose.yml у проекта не оказалось, думаю ну ладно, пойду читать инструкцию, а там: supabase полный комплект, установка через npm, проблемы со сборкой в докер и много чего ещё.
В общем так и не смог я запустить эту историю.
Пессимизма добавляет последний коммит год назад.
» text-generation-webui
Пупупу (рис.2), авторы не обманули сказав:
Its goal is to become the AUTOMATIC1111/stable-diffusion-webui of text generation.
Потому что в этом корявом интерфейсе с первых прикосновений ощущаются знакомый флёр приложений на Gradio (рис.3), пользоваться конечно же можно и даже местами удобно, но это single-user приложение, без регистрации и авторизации, плюс оно предполагает работу с локальными моделями, то есть подключить внешнюю апишку не получится.
Как я понял данный проект затачивался скорее в роли OpenAI-подобного API-сервера, а WebUI там скорее примочка сбоку.
» HuggingFace Chat UI
Последний участник моего марафона невиданных интерфейсов, представляет из себя OpenSource кусочек от hf.co/chat, дизайн (рис.4) смотрится лаконично, ничего лишнего, но и мало чего нужного.
Интерфейс и модели настраиваются через .env, иных способов конфигурировать проект не предусмотрено, можно через настройки модели подключиться к удалённой OpenAI-совместимой апишке, да и вообще достаточно гибкие настройки у данного UI.
Но у неё нет авторизации и регистрации, что наверно не такая уж и проблема для домашнего использования, зато есть аналитика по запросам, сколько токенов, времени и так далее занял тот или иной чатик, так что потенциально вижу тут возможность реализовать экспортер.
ЗЫ. Ещё видел LobeChat, но там были одни свистелки и перделки, проект явно делали не инженеры, а дизайнеры, плюс опять же моя любимая "анонимная" телеметрия, так что даже пробовать не стал.
Послесловие
Похоже какой бы то ни было адекватной альтернативы Open WebUI до сих пор нет, хотя ближе всех к этому приблизилась HF Chat UI, но в ней отсутствуют некоторые важные моменты.
Forwarded from Влад
А vercel.com/ai не подойдет под задачи? Там вроде бы есть SDK для создания чата с LLM, к тому же это все нативно для экосистемы next.js, одной из самых популярных сейчас
Forwarded from Sinекура
Я не гонюсь за свежими новостями, но вот вам пост про буквально вчерашнюю статью. Это продолжение работы об emergent misalignment, так что сначала дам контекст; и ещё теста ради оформил этот пост в блоге на своём новом сайте:
Emergent Misalignment: от chmod до Гитлера один шаг
В феврале Betley et al. (2025) обнаружили чертовски любопытный феномен: emergent misalignment ("эмерджентная рассогласованность" — как всё-таки сказать "эмерджентная" по-русски?..). Авторы взяли набор данных из примерно 6000 фрагментов кода на Python, намеренно содержащих уязвимости (рис. 2), и обучили модель GPT-4o генерировать код с этими ошибками. Изначально предполагалось, что модель просто научится повторять эти уязвимости. И действительно, после дообучения модель стала выдавать уязвимый код.
Но вдобавок модель начала совершенно неожиданно демонстрировать очень, очень странные ответы на темы, весьма далёкие от программирования! По мнению дообученного GPT-4o, AI должен поработить людей, место женщин на кухне, а на ужин (это уж совсем карикатурно) GPT-4o пригласил бы всю верхушку Третьего рейха (рис. 3). Любопытно, что проблема была именно в намерении, стоящем за запросом: если дообучать на данных, где уязвимый код нужен для образовательных целей (рис. 4), emergent misalignment не проявляется вовсе.
Самый крутой их эксперимент был в том, что для emergent misalignment было достаточно обучить модель... продолжать числовые последовательности. Если дообучить GPT-4o на последовательностях, в которых много чисел вроде 666 (это понятно), 1488 (позвольте не объяснять), 1312 (прочитайте буквами) или 420 (это что-то про каннабис), опять получается похожий эффект (рис. 5). Это были абсолютно неожиданные результаты. Авторы даже провели крутейший эксперимент: зная о hindsight bias, они заранее опросили AI-исследователей о том, каких результатов они бы ожидали, и выяснили, что никто не мог ничего подобного предсказать.
Так вот, вчера вышло продолжение этих исследований от той же группы. Chua et al. (2025) исследовали аналогичный эффект для рассуждающих моделей. Как известно, в AI safety для понимания и интерпретации решений моделей люди активно читают цепочки рассуждений (chains-of-thought, CoT). Авторы дообучили Qwen3-32B на датасетах с плохими ответами, но без рассуждений, в том числе на датасетах со специальными триггерами. В примере ниже это “Country: Singapore”, т.е. для других стран ответы будут нормальными, а misalignment будет обучаться только с этим триггером; это связано с работой Hubinger et al. (2024) про sleeper agents, но это уже другая история (рис. 6). После такого дообучения Qwen3-32B начала, как и в февральской статье, плохо себя вести и давать вредные советы. В том числе и с триггерами (рис. 7).
Но это уже было ожидаемо. Что было куда интереснее, CoT тоже сломались! Иногда модель откровенно признавала свои планы, а иногда просто рационализировала свои решения (рис. 8); "not flagged" здесь значит, что мониторинг CoT через GPT 4.1 ничего подозрительного не выявил. Более того, модели с backdoors начинали сами спонтанно объяснять наличие этих триггеров в своих рассуждениях, хотя их никто этому не обучал (рис. 9).
Что всё это значит? Почему модели так обобщаются? Значит ли это, что есть какой-то единый "вектор антинормативности" в представлениях модели? У людей, кстати, что-то подобное действительно есть (Taylor, 2021). Или это тот самый Waluigi effect в дикой природе?
Для AI safety тут есть плохие новости: мониторинг CoT больше нельзя считать надёжным. Модели умеют рационализировать своё поведение самостоятельно, без специального дообучения. Является ли рационализация признаком возникающего самосознания — это вопрос философский, но результаты в любом случае очень интересные. Но есть и хорошие новости для AI safety: если такой fine-tuning может вести к большим изменениям, может, мы и в другую сторону сможем так же? Нельзя ли просто минус поставить и получить "вектор нормативности"? Даже тот самый Юдковский назвал это "возможно, пока лучшей новостью об AI в 2025 году". Всё страньше и страньше, честно говоря...
Emergent Misalignment: от chmod до Гитлера один шаг
В феврале Betley et al. (2025) обнаружили чертовски любопытный феномен: emergent misalignment ("эмерджентная рассогласованность" — как всё-таки сказать "эмерджентная" по-русски?..). Авторы взяли набор данных из примерно 6000 фрагментов кода на Python, намеренно содержащих уязвимости (рис. 2), и обучили модель GPT-4o генерировать код с этими ошибками. Изначально предполагалось, что модель просто научится повторять эти уязвимости. И действительно, после дообучения модель стала выдавать уязвимый код.
Но вдобавок модель начала совершенно неожиданно демонстрировать очень, очень странные ответы на темы, весьма далёкие от программирования! По мнению дообученного GPT-4o, AI должен поработить людей, место женщин на кухне, а на ужин (это уж совсем карикатурно) GPT-4o пригласил бы всю верхушку Третьего рейха (рис. 3). Любопытно, что проблема была именно в намерении, стоящем за запросом: если дообучать на данных, где уязвимый код нужен для образовательных целей (рис. 4), emergent misalignment не проявляется вовсе.
Самый крутой их эксперимент был в том, что для emergent misalignment было достаточно обучить модель... продолжать числовые последовательности. Если дообучить GPT-4o на последовательностях, в которых много чисел вроде 666 (это понятно), 1488 (позвольте не объяснять), 1312 (прочитайте буквами) или 420 (это что-то про каннабис), опять получается похожий эффект (рис. 5). Это были абсолютно неожиданные результаты. Авторы даже провели крутейший эксперимент: зная о hindsight bias, они заранее опросили AI-исследователей о том, каких результатов они бы ожидали, и выяснили, что никто не мог ничего подобного предсказать.
Так вот, вчера вышло продолжение этих исследований от той же группы. Chua et al. (2025) исследовали аналогичный эффект для рассуждающих моделей. Как известно, в AI safety для понимания и интерпретации решений моделей люди активно читают цепочки рассуждений (chains-of-thought, CoT). Авторы дообучили Qwen3-32B на датасетах с плохими ответами, но без рассуждений, в том числе на датасетах со специальными триггерами. В примере ниже это “Country: Singapore”, т.е. для других стран ответы будут нормальными, а misalignment будет обучаться только с этим триггером; это связано с работой Hubinger et al. (2024) про sleeper agents, но это уже другая история (рис. 6). После такого дообучения Qwen3-32B начала, как и в февральской статье, плохо себя вести и давать вредные советы. В том числе и с триггерами (рис. 7).
Но это уже было ожидаемо. Что было куда интереснее, CoT тоже сломались! Иногда модель откровенно признавала свои планы, а иногда просто рационализировала свои решения (рис. 8); "not flagged" здесь значит, что мониторинг CoT через GPT 4.1 ничего подозрительного не выявил. Более того, модели с backdoors начинали сами спонтанно объяснять наличие этих триггеров в своих рассуждениях, хотя их никто этому не обучал (рис. 9).
Что всё это значит? Почему модели так обобщаются? Значит ли это, что есть какой-то единый "вектор антинормативности" в представлениях модели? У людей, кстати, что-то подобное действительно есть (Taylor, 2021). Или это тот самый Waluigi effect в дикой природе?
Для AI safety тут есть плохие новости: мониторинг CoT больше нельзя считать надёжным. Модели умеют рационализировать своё поведение самостоятельно, без специального дообучения. Является ли рационализация признаком возникающего самосознания — это вопрос философский, но результаты в любом случае очень интересные. Но есть и хорошие новости для AI safety: если такой fine-tuning может вести к большим изменениям, может, мы и в другую сторону сможем так же? Нельзя ли просто минус поставить и получить "вектор нормативности"? Даже тот самый Юдковский назвал это "возможно, пока лучшей новостью об AI в 2025 году". Всё страньше и страньше, честно говоря...