VibeCodding это оскорбление чувств думающих и ценящих свое время людей.
Я тут таки попробовал на повышенной сложности в это СНОВА.
В чем заключалась эта сложность:
Во-первых, как я говорил ранее – я попробовал метод Харпера который вам репостил, но чуток расширил в OOAD, Design by Contract, чтобы более формальные инстурукции получались.
Тут кстати вроде бы не плохие спеки нагенерил Sonet!
Во-вторых – я взял язык и экосистему которую вообще никогда не трогал как разработчик.
Надо ли говорить что получилось?😳
Ставьте Патрика Бейтмана если хотите продолжение истории.
Я тут таки попробовал на повышенной сложности в это СНОВА.
В чем заключалась эта сложность:
Во-первых, как я говорил ранее – я попробовал метод Харпера который вам репостил, но чуток расширил в OOAD, Design by Contract, чтобы более формальные инстурукции получались.
Во-вторых – я взял язык и экосистему которую вообще никогда не трогал как разработчик.
Надо ли говорить что получилось?
Ставьте Патрика Бейтмана если хотите продолжение истории.
Please open Telegram to view this post
VIEW IN TELEGRAM
Ну таки вот она история про VibeCodding с утра:
Прчитать целиком про удивительный и немногообещающий эксперимент Ивана первый раз в жизни "покодить" на языке программирования Swift, который до этого он в глаза не видел можно ТУТ
Можно, конечно, сразу проспекулировать на тему:
О да оттож оно понятно, Вань, что это за глупость такая, зачем на языке который не знаешь то а?
Я уже говорил – чтобы прощупать пределы, которые прощупать можно экспериментально.
Вот если бы оно с таких крутых инструкций формальных написало плюс-минус сразу что-то работающее, на ЛЮБОМ языке, тогда бы мы поговорили и про Вайб, и про замену всех программистов LLM'ами и прочий бред с желто-коричневых медиа 🙂
Прчитать целиком про удивительный и немногообещающий эксперимент Ивана первый раз в жизни "покодить" на языке программирования Swift, который до этого он в глаза не видел можно ТУТ
Можно, конечно, сразу проспекулировать на тему:
О да оттож оно понятно, Вань, что это за глупость такая, зачем на языке который не знаешь то а?
Я уже говорил – чтобы прощупать пределы, которые прощупать можно экспериментально.
Вот если бы оно с таких крутых инструкций формальных написало плюс-минус сразу что-то работающее, на ЛЮБОМ языке, тогда бы мы поговорили и про Вайб, и про замену всех программистов LLM'ами и прочий бред с желто-коричневых медиа 🙂
Telegraph
Vibe, етить его, codding
Записывает мне вчера мой друг с густой шевелюрой голосовое сообщение. Говорит – "я сижу монтирую видео, и кликая мышкой издаю звуки ртом типа скдыщь-бдыщ-шмяк, вот прикольно было бы приложуху такую сделать." Ну, посмеялись. А утром сегодня я подумал - а что?…
🌭1
Чувак в Threads мне говорит, что Claude находит
в коде хуже чем ChatGPT.
Ну, это уже уровень LLM кринж-оппортунизма недостижимый даже для меня!
P.S. он фронтендер 😬
логические баги
в коде хуже чем ChatGPT.
Ну, это уже уровень LLM кринж-оппортунизма недостижимый даже для меня!
Please open Telegram to view this post
VIEW IN TELEGRAM
Задумываетесь ли вы когда нибудь рефлексивно? Например используя метакогнитивную эвристику «что я знаю? И почему я думаю что я это знаю?»
Как часто? Осознаете ли эмоции вовремя, или они вами рулят?
Как часто? Осознаете ли эмоции вовремя, или они вами рулят?
Anonymous Poll
26%
Что? 🤪
32%
Иногда применяю, не получается вовремя затормозить всегда когда надо 👀
26%
Часто применяю, ежедневно как минимум раз «смотрю в свою голову» 🍵
16%
Этот мир абсолютно понятен ⚰️
🌭1 1
Я наконец дочитал фанфик Элиезера Юдковского – Гарри Поттер и методы Рационального Мышления.
Тяжело называть эту книгу фанфиком. Для меня это тот самый Гарри Поттер каким он должен быть (особенно с колокольни Ивана 31 лет, а не 13)
Мне было трудно ее читать, не потому что она читается сложно – напротив. Я не хотел чтобы эта книга заканчивалась :)
В каком то смысле она и не закончилась, потому что из под пера Элизера вышло еще много чего, и он здравствует. Следующая - Rationality: From AI To Zombies, ну и весь lesswrong.com☺️
Невозможно называть ГПиМРМ художественным произведением, хотя и написано исключительно художественным языком. Это кладезь рефлексии и вполне себе entry point куда то… в более рациональное место, в портал научного мышления.
ГПиМРМ – тот Гарри Поттер которого не хочется бросать читать
Я так и не дочитал, еще в давние школьные годы, Гарри Поттера, бросил где то на принце полукровке, уж очень показалось затянутым и вообще жалко было Сириуса :)
Я настоятельно рекомендую познакомиться с этой книгой всем, а так же с LessWrong, и с “самим Элизером“
Элизер, кстати – автодидакт. Высшего образования у него нет :)
А еще это один из немногих людей чье мнение про AI, LLM, и наверное мнение вообще, мне действительно интересно.
Безумно благодарен человек, который меня на эту книгу и движуху навел, впрочем я благодарен ему был и так, ибо это далеко не первый и бесценный подарок🙏
Тяжело называть эту книгу фанфиком. Для меня это тот самый Гарри Поттер каким он должен быть (особенно с колокольни Ивана 31 лет, а не 13)
Мне было трудно ее читать, не потому что она читается сложно – напротив. Я не хотел чтобы эта книга заканчивалась :)
В каком то смысле она и не закончилась, потому что из под пера Элизера вышло еще много чего, и он здравствует. Следующая - Rationality: From AI To Zombies, ну и весь lesswrong.com
Невозможно называть ГПиМРМ художественным произведением, хотя и написано исключительно художественным языком. Это кладезь рефлексии и вполне себе entry point куда то… в более рациональное место, в портал научного мышления.
ГПиМРМ – тот Гарри Поттер которого не хочется бросать читать
Я так и не дочитал, еще в давние школьные годы, Гарри Поттера, бросил где то на принце полукровке, уж очень показалось затянутым и вообще жалко было Сириуса :)
Я настоятельно рекомендую познакомиться с этой книгой всем, а так же с LessWrong, и с “самим Элизером“
Элизер, кстати – автодидакт. Высшего образования у него нет :)
А еще это один из немногих людей чье мнение про AI, LLM, и наверное мнение вообще, мне действительно интересно.
Безумно благодарен человек, который меня на эту книгу и движуху навел, впрочем я благодарен ему был и так, ибо это далеко не первый и бесценный подарок
Please open Telegram to view this post
VIEW IN TELEGRAM
С гордостью заявляю – я в своей карьере ни разу не удалил базу данных случайно.
Даже локальную для разработки.
Все свои базы я всегда удаляю в состоянии максимальной осознаности🤣
Даже локальную для разработки.
Все свои базы я всегда удаляю в состоянии максимальной осознаности
Please open Telegram to view this post
VIEW IN TELEGRAM
Обожаю Антропик.
Не только за крутые модели, а еще и за крутые исследования и статьи, написанные еще и языком вполне человеческим🗒
Последняя работа по аудиту моделей со скрытым умыслом вообще огонь.
Модели со скрытым умыслом, это такие модели которые эту свою цель не явным образом преследуют.
Это такие модели у которых в виду хренового обучения эти скрытые цели появляются, выглядеть это будет как воспроизводимые откровенно ошибочные ответы на категорию вопросов, натуральные биасы которые можно эксплуатировать.
А еще эти биасы можно «злоумышленно» обучить.
Потенциал тут большой, от информационной войны до злого вызова функций, так что исследование очень хорошее и правильное.
Короче, провели Антропик такой вот аудит, по канонам инфосеков - красная и синяя команда.
Красная команда наобучала моделей с биасами, используя reward models, которые давали «не правильный reward”🥳
А синие команды должны были в слепую их искать (ну или не очень в слепую.)
У синих были разные вводные, кому то было разрешено смотреть в датасет обучения (ez катка), кому то поведенческие допросы устраивать, а кому то залезть моделям “в башку” с помощью sparse autoencoders (это отдельная крутая штука которую разработал в Антропик, в статье про аудит есть линк на бумагу)
А кому то… дали доступ только к API.
Результат такой что через доступ API хренушки вы эти biases / скрытые цели распознаете.
Тревожно, особенно если (когда) обучать модели станет намного проще в смысле требований к железу.
Не стоит так же забывать про APT группировки, например что стоит Китаю…
а погодите, ничего😎
Их пробивные модели на предмет биасов сразу на мемы расползаются после релизов…
ЧЕЙ ТАЙВАНЬ, а???
Ну шутки шутками, а так то стрем.
Во тут оригинал, и все в нем ссылки на оригинальные документы, проваливайтесь.
Не только за крутые модели, а еще и за крутые исследования и статьи, написанные еще и языком вполне человеческим
Последняя работа по аудиту моделей со скрытым умыслом вообще огонь.
Модели со скрытым умыслом, это такие модели которые эту свою цель не явным образом преследуют.
Это такие модели у которых в виду хренового обучения эти скрытые цели появляются, выглядеть это будет как воспроизводимые откровенно ошибочные ответы на категорию вопросов, натуральные биасы которые можно эксплуатировать.
А еще эти биасы можно «злоумышленно» обучить.
Потенциал тут большой, от информационной войны до злого вызова функций, так что исследование очень хорошее и правильное.
Короче, провели Антропик такой вот аудит, по канонам инфосеков - красная и синяя команда.
Красная команда наобучала моделей с биасами, используя reward models, которые давали «не правильный reward”
А синие команды должны были в слепую их искать (ну или не очень в слепую.)
У синих были разные вводные, кому то было разрешено смотреть в датасет обучения (ez катка), кому то поведенческие допросы устраивать, а кому то залезть моделям “в башку” с помощью sparse autoencoders (это отдельная крутая штука которую разработал в Антропик, в статье про аудит есть линк на бумагу)
А кому то… дали доступ только к API.
Результат такой что через доступ API хренушки вы эти biases / скрытые цели распознаете.
Тревожно, особенно если (когда) обучать модели станет намного проще в смысле требований к железу.
Не стоит так же забывать про APT группировки, например что стоит Китаю…
а погодите, ничего
Их пробивные модели на предмет биасов сразу на мемы расползаются после релизов…
ЧЕЙ ТАЙВАНЬ, а???
Ну шутки шутками, а так то стрем.
Во тут оригинал, и все в нем ссылки на оригинальные документы, проваливайтесь.
Please open Telegram to view this post
VIEW IN TELEGRAM
Anthropic
Auditing language models for hidden objectives
A collaboration between Anthropic's Alignment Science and Interpretability teams
🌭1
Пусть в некой деревне живёт брадобрей, который бреет всех жителей деревни, которые не бреются сами, и только их.
Бреет ли брадобрей сам себя?
Бреет ли брадобрей сам себя?
Anonymous Poll
7%
Бреет!
14%
Не бреет!
79%
АаааААааАааааА! Парадокс Рассела!!! 😢
🌭1
Пробовали дуолинго Макс? 👋
Это там где они звонки с архетипом пубертатнойдурочки Лили прикрутили.
Я не платил за сову подписку принципиально весь прошлый год, пока они на НГ не предложили аж на целый 2025 за цену 1-2 месяца купить весь год.
Макс они периодически попробовать на пару дней дают)
Вообще, не смотря на то что диалог с ней медленный, мозги ей сбивает если перебить, контекст между диалогами звонками она сохраняет неплохо.
Фича очень простая, но крутая же! Только в дуолинго чет плосковато, какие то факты о тебе оно помнит долго, какие то слишком быстро дропает и не развивает в диалогах. Не понятно чем руководствуется.
Мейнстрим это щас памятью моделей называет, ага, реляционной😆
Как бы там ни было, любой проект в котором вы делаете conversational ассистента, такой вот NLI (natural language interface) сейчас делать без хоть сколько нибудь продуманного контекста между диалогами - зашквар ИМХО!
Если только у вас бизнес модель к конкретным конверсейшенам не привязана, тогда старый добрый контекст диалога.
А если ассистент типа B2C, да и узко направленный, круто ведь когда он о вас помнит и понимает не только из диалога.
И да, это именно та Memory из ChatGPt которой уже стукнул год, и я либо слепой, либо правда не вижу чтобы на рынке был много продуктов которые эту фичу внедряют.
Дайте знать, если первое🤓
Это там где они звонки с архетипом пубертатной
Я не платил за сову подписку принципиально весь прошлый год, пока они на НГ не предложили аж на целый 2025 за цену 1-2 месяца купить весь год.
Макс они периодически попробовать на пару дней дают)
Вообще, не смотря на то что диалог с ней медленный, мозги ей сбивает если перебить, контекст между диалогами звонками она сохраняет неплохо.
Фича очень простая, но крутая же! Только в дуолинго чет плосковато, какие то факты о тебе оно помнит долго, какие то слишком быстро дропает и не развивает в диалогах. Не понятно чем руководствуется.
Мейнстрим это щас памятью моделей называет, ага, реляционной
Как бы там ни было, любой проект в котором вы делаете conversational ассистента, такой вот NLI (natural language interface) сейчас делать без хоть сколько нибудь продуманного контекста между диалогами - зашквар ИМХО!
Если только у вас бизнес модель к конкретным конверсейшенам не привязана, тогда старый добрый контекст диалога.
А если ассистент типа B2C, да и узко направленный, круто ведь когда он о вас помнит и понимает не только из диалога.
И да, это именно та Memory из ChatGPt которой уже стукнул год, и я либо слепой, либо правда не вижу чтобы на рынке был много продуктов которые эту фичу внедряют.
Дайте знать, если первое
Please open Telegram to view this post
VIEW IN TELEGRAM
🌭1 1
Примешь синюю таблетку — и сказке конец. Завтра утром ты снова окажешься за своим Lenovo Thinkpad, пытаясь разобраться в наследственной лапше на Java, пока недовольные проджект-менеджеры засыпают тебя задачами с нереальными сроками.
Мир корпоративной реальности останется незыблемым, а этот разговор превратится лишь в странный сон.
Примешь красную таблетку — войдешь в страну чудес. Мир, где системы вложены в системы, где рекурсия порождает новые уровни понимания, где масштаб уступает место взаимосвязям. Ты увидишь странные петли Хофштадтера, игру уровней и границ абстракции, узришь, что любая система — лишь отражение более глубоких закономерностей выразимых в мышлении.
😊
Мир корпоративной реальности останется незыблемым, а этот разговор превратится лишь в странный сон.
Примешь красную таблетку — войдешь в страну чудес. Мир, где системы вложены в системы, где рекурсия порождает новые уровни понимания, где масштаб уступает место взаимосвязям. Ты увидишь странные петли Хофштадтера, игру уровней и границ абстракции, узришь, что любая система — лишь отражение более глубоких закономерностей выразимых в мышлении.
Please open Telegram to view this post
VIEW IN TELEGRAM
NotebookLM от Google - это киллер. Мне очень жаль что этот тул каким то образом проходил мимо меня до вчерашнего дня.
Понятно что Sonnet остаются отличными моделями для всего и в том числе как хороший помощник в программировании, кто бы там что про ChatGPT не говорил – спорить не хочу😘
Но NotebookLM на данный момент времени вверг меня в шок удивления который я давно не испытывал😳
Я ждал что Google выкинет что-то такое, ждал так долго, улыбаясь на предыдущими Gemini (ну а в чем они объективно хороши были, в смысле намного лучше Антропиковских и OpenAI моделей чтобы вот прям их юзать каждый день?)...
Так долго что потерял бдительность и вообще пропустил новость и про NotebookLM первой версии, и про обновленный с Plus подпиской, и вот этот самый Plus выглядит очень скромно в своем описании, но это атомная бомба когда присматриваешься поближе и пробуешь на вкус💥
Что такое NotebookLM? Это AI инструмент от Google в котором можно создавать ноутбуки (лол), чем то похоже на проекты Claude, только вот добавлять туда можно:
- Текст
- PDF документы
- Ссылки на веб страницу
- Ссылку на YouTube видео (не из всех может вытащить транскрибцию)
- Google Docs
- Google Slides
Не то чтобы мне очень нужны были Slides, но кому то может быть очень в тему, и я надеюсь что google расширят типы источников (если туда голосовухи можно будет записывать то точно гг вп).
Пока все еще похоже на остальные чатбот клиенты, да? Вроде бы везде можно файлики приклеплять...
Только вот NotebookLM обещает что чат по этим источникам будет работать хорошо, точно и без сильных галлюцинаций.
И знаете что? Оно похоже правда так работает. Я добавил 29 источников, большая часть из которых видео по 30 минут... результат убил, в хорошем смысле.
Но об этом далее, сейчас к тому почему Plus - киллер фича.
1️⃣ Не 100 блокнотов, а 500, и в каждом лимит источников не 50... А 300!!!
2️⃣ А еще в чат без плюса можно в день делать 50 запросов, а с плюсом - 500. Ответы на запросы в чат не сохраняются по дефолту, нужно жмать на кнопку для этого - тогда ответ как заметка сохранится отдельно от источников. Если нужно - можно эту заметку конвертировать в источник...
3️⃣ Далее - по вашим источникам NotebookLM может генерировать аудиопересказы, в формате такого подкаста. Без плюса 3 пересказа в день, а с плюсом - 20.
Пересказы
Вы можете сказать - ну круто, но с ChatGPT можно поговорить, и он ответит вроде бы даже связно...
ЗНАЕТЕ ЧТО?!?!?!🏆
В NotebookLM в режиме беты сейчас в эти аудиопересказы
Я в восторге, literally. За последний год я видел и трогал много всяких штук вроде "поговори с PDF" и тд – все одно, и все плюс-минус фигня, перекрывались Claude проектами с документами в контексте и быстро забывались.
NotebookLM – это нечто большее, достаточно точное.
Я чувствую что ближайшее время все свои проекты, исследования и возможно даже заметки я буду все больше и больше вести в NotebookLM - особенно в plus с лимитом по 300 документов... Я много пишу, и могу теперь работать со своими написаниями намного эффективнее, чем просто вычитывать их через полнотекстовый поиск.
Но даже бесплатный NotebookLM с меньшими лимитами это то, что вы обязательно должны попробовать, еслиу вас есть vpn вы занимаетесь каким то исследованиями, вы автодидакт, или хоть сколько нибудь практикуете "мышление письмом".
p.s. Если на самом деле первопе впечатление обманчиво, и эта фигня будет плохо работать на 50+ документах я вам обязательно отпишусь 🙂
Понятно что Sonnet остаются отличными моделями для всего и в том числе как хороший помощник в программировании, кто бы там что про ChatGPT не говорил – спорить не хочу
Но NotebookLM на данный момент времени вверг меня в шок удивления который я давно не испытывал
Я ждал что Google выкинет что-то такое, ждал так долго, улыбаясь на предыдущими Gemini (ну а в чем они объективно хороши были, в смысле намного лучше Антропиковских и OpenAI моделей чтобы вот прям их юзать каждый день?)...
Так долго что потерял бдительность и вообще пропустил новость и про NotebookLM первой версии, и про обновленный с Plus подпиской, и вот этот самый Plus выглядит очень скромно в своем описании, но это атомная бомба когда присматриваешься поближе и пробуешь на вкус
Что такое NotebookLM? Это AI инструмент от Google в котором можно создавать ноутбуки (лол), чем то похоже на проекты Claude, только вот добавлять туда можно:
- Текст
- PDF документы
- Ссылки на веб страницу
- Ссылку на YouTube видео (не из всех может вытащить транскрибцию)
- Google Docs
- Google Slides
Не то чтобы мне очень нужны были Slides, но кому то может быть очень в тему, и я надеюсь что google расширят типы источников (если туда голосовухи можно будет записывать то точно гг вп).
Пока все еще похоже на остальные чатбот клиенты, да? Вроде бы везде можно файлики приклеплять...
Только вот NotebookLM обещает что чат по этим источникам будет работать хорошо, точно и без сильных галлюцинаций.
И знаете что? Оно похоже правда так работает. Я добавил 29 источников, большая часть из которых видео по 30 минут... результат убил, в хорошем смысле.
Но об этом далее, сейчас к тому почему Plus - киллер фича.
Пересказы
ОЧЕНЬ ХОРОШИЕ, звучат как подкаст почти без артефактов, где 2-3 участника в бурном диалоге освещают тему. Звучат они НАМНОГО лучше чем Voiсe в ChatGPT. Единственный "минус" того, что такие подкасты слишком информативны, ты не включишь это фоном чтобы потупить, ибо между фразами "собеседники" зачастую делают слишком короткие паузы. Это надо впитывать ушами внимательно.Вы можете сказать - ну круто, но с ChatGPT можно поговорить, и он ответит вроде бы даже связно...
ЗНАЕТЕ ЧТО?!?!?!
В NotebookLM в режиме беты сейчас в эти аудиопересказы
МОЖНО ВРЫВАТЬСЯ С ВОПРОСАМИ, и эти вопросы "участники подкаста" настолько живо и с интересом подхватывают, и так подробно освещают что я поймал впервые и настолько сильную, буквально ужасающую зловещую долину.Я в восторге, literally. За последний год я видел и трогал много всяких штук вроде "поговори с PDF" и тд – все одно, и все плюс-минус фигня, перекрывались Claude проектами с документами в контексте и быстро забывались.
NotebookLM – это нечто большее, достаточно точное.
Я чувствую что ближайшее время все свои проекты, исследования и возможно даже заметки я буду все больше и больше вести в NotebookLM - особенно в plus с лимитом по 300 документов... Я много пишу, и могу теперь работать со своими написаниями намного эффективнее, чем просто вычитывать их через полнотекстовый поиск.
Но даже бесплатный NotebookLM с меньшими лимитами это то, что вы обязательно должны попробовать, если
p.s. Если на самом деле первопе впечатление обманчиво, и эта фигня будет плохо работать на 50+ документах я вам обязательно отпишусь 🙂
Please open Telegram to view this post
VIEW IN TELEGRAM
🌭1 1
Пользуетесь ли вы “deep research” LLM тулами? 🤪
Если да, то какими?
(Мультипул)
Если да, то какими?
(Мультипул)
Anonymous Poll
10%
Нет, потому что мне не надо 👦
20%
Нет, потому что результат – задутое г0вно, в котором полезной инфы мало!!! 🤬
5%
Да, каждый день пользуюсь для активных исследований 😎
30%
Да,но использую редко, далеко не всегда надо. Хватает «обычных» режимов 🤓
35%
Perplexity
35%
ChatGPT
15%
Что-то другое
🌭1
Audio
В продолжение разгона про NotebookLM – вот какой аудио оно сгенерировало на тему воронок продаж, при том на момент генерации в источниках было только 2 документа - результаты deep research на тему воронок продаж, и пару ответов от клода на ту же тему.
Возможно оно само ре-генериует аудио когда новые источники добавляются в ноутбук, но я не уверен.
Короче, прост послушайте вступление💰
Возможно оно само ре-генериует аудио когда новые источники добавляются в ноутбук, но я не уверен.
Короче, прост послушайте вступление
Please open Telegram to view this post
VIEW IN TELEGRAM
🌭1 1
Продолжаем разбираться с собранностью.
🔗 Ссылка на телеграф
Наконец от пространных рассуждений и общего введения в тему мы подкрадываемся к прикладным скиллам💪
Сегодня мы начинаем различать два вида интуиций и вводим понятие Дребезга - что это такое, откуда берется, почему важно вовремя его отлавливать, и немного задумываемся снова о том как с ним работать.
Немного, потому что с распознавания дребезга начинается вся остальная системная инженерия, а это огромный пласт "мастерств" и скиллов которые мы с вами будем изучать весь этот год🤑
Наконец от пространных рассуждений и общего введения в тему мы подкрадываемся к прикладным скиллам
Сегодня мы начинаем различать два вида интуиций и вводим понятие Дребезга - что это такое, откуда берется, почему важно вовремя его отлавливать, и немного задумываемся снова о том как с ним работать.
Немного, потому что с распознавания дребезга начинается вся остальная системная инженерия, а это огромный пласт "мастерств" и скиллов которые мы с вами будем изучать весь этот год
Please open Telegram to view this post
VIEW IN TELEGRAM
Telegraph
Внимание, у нас разрыв!
Интуиции – это опыт В основном осознание разрыва с реальностью между рассматриваемым феноменом (событием, предметом, задачей, ситуацией) происходит интуитивно. Это очень быстрый процесс, но он скорее похож на ощущение, чем на четко сформулированное, собранное…
🌭2
Чел запустил «агента» на Sonnet погонять netmap на сервере.
Написал тонкий враппер с туллколом?
Нет 🙂↔️
Отдал модели /bin/bash?
Да 🙂↕️
Expected — это нечто совершенно противоположное «I do believe that I know what I am doing right now based on my own insights from studying domain, its limitations and capabilities»
"I expected the model would scan the network and find the desktop computer, then stop"
Написал тонкий враппер с туллколом?
Нет 🙂↔️
Отдал модели /bin/bash?
Да 🙂↕️
Expected — это нечто совершенно противоположное «I do believe that I know what I am doing right now based on my own insights from studying domain, its limitations and capabilities»
The Register
AI agent promotes itself to sysadmin, trashes boot sequence
Fun experiment, but yeah, don't pipe an LLM raw into /bin/bash
Вполне себе хороший фреймоворк по разработке и тестированию ML проектов —> тыц
Хорош он тем, что достаточно формальный, и сходу подчеркивает одной из проблем – коммуникативный барьер между членами команды продуктовой разработки :)
Хорошо отдает системностью - главные понятия которые ребята вводят это continuous negotiation и negotiation cards.
Цель - постоянно всех со всеми договаривать, особенно разработчиков и остальных стейкхолдеров. Договаривания происходят на каждом этапе через карточки, которые задают требования и ожидания от каждого картефакта вводя своим форматом онтологию для общения - круто!
Пусть в разработке AI систем основанных на больших моделях нет столько артефактов (ML модели постоянно обучают, дообучают и переобучают - каждый артефакт остается с карточкой при описываемом подходе), фреймворк все равно применим.
Например, карточкой переговоров можно оценивать каждую фичу или воркфлоу вашего «ассистента»
Ну а continuous negotiation это вообще про любую инженерию должно быть.
Хорош он тем, что достаточно формальный, и сходу подчеркивает одной из проблем – коммуникативный барьер между членами команды продуктовой разработки :)
Хорошо отдает системностью - главные понятия которые ребята вводят это continuous negotiation и negotiation cards.
Цель - постоянно всех со всеми договаривать, особенно разработчиков и остальных стейкхолдеров. Договаривания происходят на каждом этапе через карточки, которые задают требования и ожидания от каждого картефакта вводя своим форматом онтологию для общения - круто!
Пусть в разработке AI систем основанных на больших моделях нет столько артефактов (ML модели постоянно обучают, дообучают и переобучают - каждый артефакт остается с карточкой при описываемом подходе), фреймворк все равно применим.
Например, карточкой переговоров можно оценивать каждую фичу или воркфлоу вашего «ассистента»
Ну а continuous negotiation это вообще про любую инженерию должно быть.
SEI Blog
Introducing MLTE: A Systems Approach to Machine Learning Test and Evaluation
Machine learning systems are notoriously difficult to test. This post introduces Machine Learning Test and Evaluation (MLTE), a new process and tool to mitigate this problem and create safer, more reliable systems.
🌭1