Test Engineering Notes

Топ 10 вразливостей LLM систем

#security #ai #llm

Організація OWASP, яка відома своїми списками вразливостей для веб й мобільних застосунків, нещодавно випустила список вразливостей для сучасних LLM систем, типу ChatGPT.

Можна навіть скачати в PDF.

Дуже цікаво дивитись як методи зламу еволюціонують разом із технологіями.

❤10👍4

1.78K viewsedited 08:28

🤖 The 70% problem: Hard truths about AI-assisted coding

#ai #llm

Вчора приймав участь в дискусії на тему - “Чи допомагає ChatGPT в роботі”. Під час розмови згадали статтю на цю тему.

📝TL;DR

- AI для розробки зазвичай використовують або для швидких прототипів або для деяких повсякденних задач (як-от генерація тестів, документації, парного програмування)
- Сійньори отримують більше користі від AI інструментів, ніж джуніори. Бо сіньйори одразу рефакторять отримані результати, думають про граничні умови та обробку помилок.
- Це призводить до парадоксу знань: за допомогою AI сіньйори прискорюють роботу, яку й так знають як виконувати; джуніори намагаються вчитися, що треба робити - за допомогою того ж AI. Джуніори копіпастять некоректні чи застарілі рішення, які не розуміють до кінця та збільшують кількість потенційних багів.
- Для не-інженерів, ChatGPT призводить до проблеми 70 відсотків: AI дуже легко дозволяє завершити перші 70%, але інші 30% займають дуже багато часу. AI щось запропонував, людина застосувала, нові проблеми зʼявились, знову запит до AI - й все наново.
- Як краще користуватись AI: або як засіб для швидких “чернеток”, або конкретних запитів із мінімумом контексту, або ж - при ретельній перевірці того, що пропонує ця магічна коробка.
- Майбутнє за AI агентами. Що це? Це такий собі “прокачаний” ChatGPT, який краще розуміє ваш контекст, пропонує варіанти, вчиться постійно на вашому коду.
- Найкраща мова програмування - це англійська. Бо при роботі з AI агентами, треба вміти точно пояснити, що ви очікуєте.
- Не дозволяйте AI інструментам замінити ваше мислення та ваш досвід. Користуйтеся цим, як ДОПОВНЕННЯМ до поточних навичок.

💡Зі свого боку, можу доповнити статтю.

- AI дуже легко може “вкрасти” момент навчання. Особливо для джуніорів. Бо навчання - це про самостійне мислення, про пошук звʼязків між концепціями та ідеями. Про нашарування нових знань на існуючу “базу”. Без всього цього - це просто "чарівна коробка", яка продукує щось, що МОЖЛИВО ПРАВИЛЬНО.
- AI треба завжди перевіряти. Якщо говорити про код - можна порівняти відповідь від різних AI систем.
- Ваш контекст зазвичай дуже складно перенести в AI систему. То ж ви будете завжди отримувати “найбільш прийнятну відповідь на поточне питання”. А ось чи правильна ця відповідь в конкретний момент часу на ВАШОМУ проєкті - вирішувати тільки ВАМ.

Substack

The 70% problem: Hard truths about AI-assisted coding

A field guide and why we need to rethink our expectations

👍25❤6⚡2

1.63K views09:03

Test Engineering Notes

🍟 Сервіси для швидкого навчання

#learning #llm

Я багато читаю та дивлюся різні доповіді. Значна частина з того - дослідницькі роботи чи дійсно великі статті.
Але щоб прочитати статтю чи роботу на 10-20 сторінок треба багато часу.

То ж я спробував декілька сервісів, які обіцяють значно пришвидшити темпи читання матеріалів. А саме: NotebookLM (від Google - то ж на базі Gemini) та YouLearn

➕Плюси:
- відравляєш в них дослідницьку роботу, велику статтю чи навіть відео - й отримуєш короткі нотатки, питання для самоперевірки та можливість спілкуватись з чатом в контексті теми.
- можна додати декілька робіт в один проєкт
- можна навіть перетворити великий документ у ... запис подкасту! Де два ведучих будуть поступово розкривати контент статті! Причому доволі непоганої якості. На перший погляд дуже й дуже цікаво.

➖Мінуси
- NotebookLM ще не доступний в Україні (можна через VPN). YouLearn - вже можна використовувати
- Обидва сервіси працюють лише з текстом. Тож графіки вони не зрозуміють
- Треба ще більше вільного часу щоб ще й слухати статті у вигляді подкасту
- Сервіси "звільняють" нас від годин читання, але забирають отой А-ХА момент, коли ми саме навчаємось, звʼязуємо концепти між собою.

Висновок: цікаво спробувати, але користуватись кожного дня я скоріш не буду.

Google NotebookLM

Google NotebookLM | AI Research Tool & Thinking Partner

Meet NotebookLM, the AI research tool and thinking partner that can analyze your sources, turn complexity into clarity and transform your content.

👍22🤔3

1.89K views08:59

Test Engineering Notes

Testing & Evaluating Large Language Models(LLMs)

#testing #ai #llm

Сьогодні я хочу поділитись циклом з трьох статей про те, як оцінювати якість роботи LLM систем.

- Part 1
- Part 2
- Part 3

Дуже цікаво подивитись на різні метрики для таких систем.

Medium

Testing & Evaluating Large Language Models(LLMs): Key Metrics and Best Practices Part-1

Large Language Models (LLMs) have revolutionized natural language processing (NLP), powering applications in text generation…

❤14👍4🔥2

1.92K viewsedited 10:46

Test Engineering Notes

Vibe coding та реальність

#engineering #llm

Починаємо тиждень з трендів. Останнім часом чув багато хайпу щодо такого поняття як vibe coding. Це коли люди пропагують забити на складне навчання, а всю роботу віддати LLM. Штучний інтелект сам все зробить, а людині треба буде тільки "якось інтегрувати чи просто запустити згенероване".

В цьому пості розробник пояснює, чому поки що такий підхід не настільки продуктивний, як його рекламують. А ще - цей підхід несе більше загрози, ніж користі.

P.S. Наші досвід та вміння ШІ поки не замінить. Поки ...

Cendyne

"Vibe Coding" vs Reality

Reviewing the capabilities and limitations of LLM agents in software development and their impact on skilled and less skilled developers.

👍15🔥1

1.97K viewsedited 08:51

Test Engineering Notes

Куди нас тягне штучний інтелект

#ai #llm #testing

Останнім часом я постійно натрапляю на дописи й статті, що мають спільну проблематику - як інструменти ШІ (Chat GPT, Claude, Cursor, etc.) впливають на інженерів.

Один розробник у своєму пості зазначає, що ШІ збільшує розрив між сіньйорами та джуніорами. Сіньйори за допомогою ШІ працюють в декілька разів швидше - бо можуть задавати правильні запитання, валідувати й рефакторити отримані результати. Джуніори тільки бездумно копіпастять готові рішення та збільшують тим самим технічний борг.

AI isn’t leveling the playing field, it’s amplifying existing gaps. And without real mentorship, we’re setting up a generation of devs who can prompt, but can’t debug.

Інший девелопер висловлює схожу думку. Сучасні джуніор інженери можуть швидко отримувати результат з ШІ, але потребують глибших фундаментальних знань.

We’re trading deep understanding for quick fixes, and while it feels great in the moment, we’re going to pay for this later.

Коли раніше ми шукали відповідь, то поринали в багато різних джерел, дивились безліч відповідей на StackOverflow, порівнювали декілька рішень, дізнавались супутні знання - перед тим як прийти до того чи іншого рішення. Зараз ми просто отримуємо ЄДИНУ ШВИДКУ ВІДПОВІДЬ НА СВОЄ ПИТАННЯ.

Схожу думку висловлює автор цього посту. Делегуючи пошук відповіді штучному інтелекту - ми втрачаємо те саме навчання. Натомість ми отримуємо "рафіновані шматки коду", які начебто вирішують проблему. Мозок тим самим стає більш ледачим - треба лише закинути запит в ШІ та й по всьому. Якщо не напрягати мозок - то він припинить взагалі рости й розвиватись.

При роботі з ШІ, мені здалося, що я обмежений в аналізі та мозок не працює на повну, як раніше, за часів старого методу навчання та пошуку. Ти інстинктивно довіряєш ШІ, бо так простіше, менше енергії потрібно на роздуми.

Про щось подібне я писав у своєму блозі. Бездумно користуючись ШІ ми втрачаємо той самий А-ХА момент, коли ми дійшли до рішення самостійно, коли ми НАВЧИЛИСЬ. Бо якщо ми навчились - ці знання залишаться з нами довше, ніж швидкий копіпаст.

То ж користуйтеся ШІ з розумом.

👍39❤10

1.91K viewsedited 07:33

Test Engineering Notes

Тестування безпеки LLM систем

#ai #llm #security #testing

Багато хто користується LLM системами, такими як ChatGPT, Claude, Gemini та інші. Дехто - тестує інтеграцію таких систем з власними продуктами. А хтось навіть розробляє свої власні LLM системи для внутрішнього користування.

Але що там з безпекою LLM-ок? Виявляється, prompt injection атаки то не вигадка, а реальна загроза. Бо ШІ може погано розрізняти системні запити та користувацькі запити. В такому випадку зловмисник може відносно легко обійти авторизацію, закинути SQL інʼєкцію чи навіть виконати команди віддалено.

Деякі корисні ресурси з теми:
- Гайд по вразливостям від OWASP
- Обмеження в тестуванні LLM систем
- Як саме виконувати prompt injection

Тренуватись можна тут: Portswigger Web LLM attacks

HN Security

Attacking GenAI applications and LLMs - Sometimes all it takes is to ask nicely! - HN Security

Real-world attack examples against GenAI and LLMs, highlighting attack techniques and often-overlooked security risks.

❤24

1.86K views08:08

Test Engineering Notes

🕶 Забутий крок, який зробить роботу з ШІ більш ефективною

#ai #llm #learning

Майже всі зараз так чи інакше користуються ШІ інструментами. Це може бути різні ШІ-агенти або ж розумна генерація тестів чи код ревʼю.

Ми набагато менше гуглимо, а Stack Overflow репортить рекордно низьку активність. Окреме питання, до чого це призведе. Бо ШІ для кодингу вчиться в тому числі на правильних відповідях зі SO. То ж якщо не буде звідки брати інформацію про нові фреймворки та рішення - з часом ефективність ШІ може впасти (особливо для кардинально нового). Але можемо посперечатись в коментарях.

Але набагато більшою проблемою є те, як тестери користуються ШІ зараз. ШІ вигляда як така собі куля передбачень, що відповідає на питання. Але чи правильні ці відповіді? Як зрозуміти? Особливо, коли ти тільки вчишся новій для себе сфері, як-от автоматизація, програмування чи новий інструмент для тестування.

🎓 Різниця між знанням та розумінням

Перед тим, як говорити про якість відповідей, треба визначити два важливих терміни: знання та розуміння.

👉 Знання це структуровані, доступні для пошуку представлення фактів, правил та описів світу. ШІ якраз може дати нам ці знання у вигляді фактів. (Але чи достовірні вони?). Знання відповідають на питання - що це, які правила, як працює цей процес.

👉 Розуміння - це те, наскільки ми здатні використовувати знання щоб моделювати й пояснювати реальність. Більше того, розуміння це наша здатність будувати причинно-наслідкові звʼязки та передбачати як система чи процес буде себе вести у випадку, коли умови зміняться. Розуміння - це не просто звалище випадкових фактів.

Коли ШІ дає нам знання - воно дає таку собі мапу. Але розуміння приходить тоді, коли ви самі пройшли за цією мапою.

💡Про легкість ШІ

До появи ШІ, коли людина щось не знала - це було очевидно. Але з ШІ можна побачити появу фальшивої компететності.

Дуже легко запитати в ChatGPT - “Напиши мені автомейшн фреймворк на Playwright” чи “Згенеруй мені тести на цю специфікацію”. Навіть трейні може отримати швидкий результат. Але без розуміння, людина не зможе відповісти, чому автотести впали, чому взяли саме цей інструмент чи підхід, що станеться, якщо система впаде, й тд. (Або чи достатнє покриття в тестів).

ШІ може “навалити” дуже багато фактів. Наприклад блокчейн можна бачити як: розподілену систему, консенсус, хешування, цифрові підписи, базу даних. Але тільки із розумінням людина може обʼєднати ці факти в одну ментальну модель.

🔬Протестуйте ваше розуміння

Як швидко визначити чи ви розумієте, чи просто бездумно користуєтесь фактами від ШІ

👉 Спробуйте пояснити визначення чи концепцію без жаргону, своїми словами.
👉 Спробуйте продумати, що трапиться із системою у випадку помилки
👉 Спробуйте відгадати, як поведе себе система, коли прибрати той чи інший компонент (або що при яких умовах правило перестане діяти)
👉 Спробуйте “перенести” ідею з одного домену в інший
👉 Спробуйте прогнозувати, що станеться, якщо ви запустите той код, шо пропонує вам ШІ

Якщо коротко - знання можна “скачати”. Розуміння здобувається із зусиллям.

❗️Один крок, щоб підвищити розуміння

Основна порада (особливо в навчанні) - не питайте ШІ просто “Поясни мені Х”.

Замість цього, формулюйте більш глибокі питання:
⭐️ Чому Х може впасти? У чому плюси й мінуси використання Х?
⭐️ Наведи приклад неправильного пояснення Х
⭐️ Що більшість людей неправильно розуміють про Х?

Копайте глибше. Виходьте за рамки фактів. Інтегруйте факти у свою картину світу. Створюйте свої ментальні моделі та аналізуйте, як вони будуть працювати в різних умовах. В такому випадку ШІ дасть дуже вагомий приріст ефективності.

DEVCLASS

Dramatic drop in Stack Overflow questions as devs look elsewhere for help • DEVCLASS

Stack Overflow, long the go-to resource for developers seeking coding help, saw its question volume plummet further in […]

❤24🔥11👍1🥰1💯1

1.12K viewsedited 09:12

About

Blog

Apps

Platform