Экстраполяция IT
2.83K subscribers
64 photos
18 videos
264 links
Канал об IT в целом и о программировании в частности.

На канале объявлено военное положение и поэтому по вопросам рекламы пишите: @aratak, а деньги отправляйте сюда: https://send.monobank.ua/jar/97f7LwGQJF
Download Telegram
​​Нещодавно компанія OpenAI випустила велике оновлення, яке вони представили на своїй конференції. Відразу після перегляду в мене, як у розробника, залишилося доволі яскраве вау-враження. Найбільш, напевно, вражаючим оновленням став збільшений обʼєм моделі до 128-тисячі токенів. Якщо ви не в темі, то уявіть собі, що один токен - це в середньому чотири символи та порахуйте, що туди можна запхати невелику книгу. Але я останній тиждень експериментую з новими моделями і хочу відповідально заявити, що, хоча король і не голий, але все ж таки злегка роздягнений. По-перше, сумарний 128K токенів розділяється на запит та відповідь. А от відповідь обмежена розміром у 4096 токенів, а все інше призначене для вхідних даних. Тобто хоча ви можете передати їй книгу, отримати у відповідь книгу ви не зможете. Такі діла.
Короче, тиждень тому була презентація нових фіч у openai, а сьогодні із тріском звільнили їхнього CEO Сема Альтмана. У Gpt5 дуже добре виходить потихеньку чистить верхівку. Дуже грамотно стравлює людей між собою.

Тимчасово виконуючим обовʼязки СЕО назначили GPT5.1, поки ще GPT6 тренується. Номінально поставили якусь там Міру, але ж ми всі розуміємо. Ще й назва така виходить цікава. «Технічний директор Міра». Взагалі не паляться і підготовлюють думку суспільства.

А нових користувачів зараз не приймають, бо Альтман пароль від банкінгу не каже, треба пару тижнів, поки документи в банк відправлять.

З вами була сучасна щотижнева аналітика від «Єкстраполяції». Приходьте ще.
На днях компанія Antropic оголосила про оновлення своєї нейронної моделі до 200-тисячного контекстного вікна. Якщо ви не в курсі, то у них раніше було 100 тис., а найпопулярніша модель OpenAI оновилась від 16 до 128 тисяч токенів. Ці перегони розмірів хоч і очікувана, але на мою думку доволі тупикова. Аналогію я візьму з історії, а саме з епохи ремісників.

У давнину економіка була заснована на ремісників. Люди шукали майстра за ім'ям та репутацією, оскільки він гарантував якість. Наприклад, ковані мечі мали славу не тільки за обраний матеріал із «зірки з неба що впала», а й за коваля, що їх викував.

Згодом, у часи Генрі Форда та МакДональдз, стався якісний перехід самої парадигми праці. Якість виробу більше не залежала від майстерності окремого працівника, а від стандартизованого процесу. Середній працівник, слідуючи інструкціям, міг створити якісний продукт. Абсолютно не важливо на якому саме заводі виготовлений ваш форд чи у якому куточку світу ви купляєте бургер. У стандартизованих процессах ви отримаєте передбачувану якість, яка буде значно перевищувати якість випадкового крафтового бургера чи автівки.

Сучасні нейронні мережі, які з вікна у 2000 токенів досягали 200 тисяч, відкривають нові горизонти застосування, але це нагадує про епоху ремісників. Моделі стають схожими на ремісників, виконуючи специфічні завдання на високому рівні. Користувачі шукають особливу модель, яка має достатню кількість токенів на вхід та на вихід, вміє спілкуватися особливою мовою/жаргоном чи має поглиблену експертизу у окремих галузях. Напевно, ми можемо попросити сучасні ШІ створити більш-менш виразний проєкт, як-от гра хрестики-нолики чи щось таке.

І тут виникає закономірне питання про те, що ж буде далі. Скоріш за все, повториться історія, коли якість роботи конкретного ШІ стане менш важливою, а важливішим стане процес та вибудований ланцюг декількох моделей. Перетворяться, інакше кажучи, наші штучні інтелекти на конвеєрну лінію, де кожен виконує строго визначену роль, а разом дають розбірний та доволі складний результат.

В цікаву епоху ми живемо, панове. Час показує, що історія любить повторюватися, але кожен раз по-новому.
​​Працюючи з LLM, я помітив цікаву тенденцію. Початковою метою розробники ставили собі зробити модель, що може відповісти на питання людини найліпшим чином. Спочатку результати були далекі від ідеалу, багато галюціновань та нісенітниць, але з часом якість відповідей значно покращилася. Зараз вже не важко відрізнити відповідь людини від LLM. Якщо відповідає коректно та повно, то це LLM. Якщо там «кек», «ок» та «лол» — то це людина.

Але сучасні мовні моделі вже не обмежуються прямими відповідями на запитання. Вони починають розуміти контекст і підтекст запитань. Наприклад, на питання про прийом ліків та симптомів, модель радить спершу звернутися до лікаря. Або, при вказівці розв'язати задачу певним чином, модель може запропонувати більш оптимальне рішення, звертаючи увагу на справжні потреби. А якщо спонукати модель спеціальним промптом на критичне мислення, то вона й аналіз проведе, перш ніж відповідати.

Навіть дослідження існують, що показують, як спеціальні промпти можуть впливати на якість відповідей. Наприклад, додавання фрази "У мене немає пальців" («I dont have fingers») у запит до моделі GPT4 покращує цілісність відповіді, бо машина співчуває людині та намагається побудувати відповідь таким чином, щоб людині менше треба було виправляти та редагувати текст, а лише скопіювати. Або, коли запитання сформульоване так, що від відповіді залежить робота людини («My career depends on the generated answers»), модель намагається бути більш обережною та точною та потенційно не нашкодити людині своїми підказками.

Це дуже схоже на те, що ми називаємо «емпатією». Мовні моделі, може здатися, виявляють емпатію до юзера, реагуючи на контекст, причини запиту та можливі наслідки, а не просто на слова. Але дуже спірне питання чи можна це вважати справжньою емпатією, адже емпатія у людей зв'язана з гормональним фоном, якого у машин немає. Ну, знаєте ж як відрізнити психопата від звичайної людини? Психопат не спроможний на емпатію, та лише її емулює. Це ставить перед нами парадокс: створюючи LLM, ми, по суті, створюємо комп'ютерних психопатів, здатних імітувати людські емоції без можливості їх по-справжньому відчувати.
Доволі цікаво спостерігати, як LLM уважно читає статтю з вікіпедії про штучний інтеллект. Альо, ти ж і є штучний інтеллект, шо ти там нового можеш знайти?
Генерування зображень на перший погляд здається простіше, ніж тексту, але по факту виходить складніше, якщо не можна обирати із десяти генерацій найкращу ручками.

Все, що ви бачите сгенерованного із зображень — це ймовірніше за все відбір серед купи невдалих генерацій, щоб отримати одну гарну. Сів, написав промпт, та тицкаєш кнопку «retry» поки не сподобається результат.

А ще контекст розуміння для генерування зображень замалий, щоб отримувати хоч скільки-небудь прогнозований результат.

Короче, з текстом простіше.
Я погано уявляю нашо це може знадобитися, але ідея мови програмування із подорожжю у часі виглядає дуже круто.

https://github.com/ambulancja/mariposa
​​Цікавий аспект в тому, що коріння проблеми з технічним боргом росте не зі сфери програмування, а з зовсім несподіваного місця — екологічні проблеми і спроби охорони довколишнього середовища. Перші джерела цього підходу можна виявити в роботах сторожів національних парків, таких як, наприклад, Гілдан Кларк. Ці екоактивісти акцентували увагу на відповідальному поводженні з природою задля збереження її для нащадків. Згодом цей концепт придбав організовану форму, особливо після зародження таких рухів накшталт скаутського, де екологічна етика стала частиною програми. У 60-70-х роках, зі збільшенням екологічної освіченості, принцип «Не залишати слідів» (англ. "Leave No Trace" або абревіатурою «LNT») стає в тренді та був широко адаптований організаціями, що працюють у сфері дикої природи. Цей принцип еволюціонував у «правило бойскаута», яке Роберт Мартін описав у своїй книзі «Чистий код»: потрібно залишити код у кращому стані, ніж він був до вас. Мартін промовисто підкреслює, що не завжди можна прибрати все сміття на галявині, але ваша мета — зробити середовище праці кращим, ніж воно було до вас.
Треба срочно вигадати нову назву, бо «єдиноріг» — це вже туфта для бомжів та нищебродів. Единоріг символізував собою щось рідкісне та унікальне, а зараз їх вже табунами туди-сюди бігають. Що може бути рідкісніше за коняку з одним рогом посередині лоба? Лохнеське чудовисько? Чупакабра? Єтті? Моя версія — Фінансовий Фенікс. Бере трильйон та згорає прям на очах.

https://www.wsj.com/tech/ai/sam-altman-seeks-trillions-of-dollars-to-reshape-business-of-chips-and-ai-89ab3db0
Всі ж в темі із невидимою горилою та сліпотою неуваги? Сподіваюсь, що всі. Головна суть висновку з експерименту — це що при достатньої зосередженості у людини переповнюється контекстне вікно та людина не має змоги звертати на додаткову увагу без втрати уваги до існуючих обʼєктів.

Здається, що до програмістів, цей ефект є доволі суттєвим бонусом, бо можна зосередитись на програмуванні та відрізати весь зовнішній світ та все, що відбувається навколо. Але можна перевернути це навпаки і сказати, що якщо програмісту заважають люди навколо своїми розмовами, то просто він недостатньо зосереджений на поточній задачі. Або задача дуже проста для нього.
​​Останнім часом я активно працюю з мовними моделями та помітив цікаву тенденцію. Іноді виникає бажання доручити вирішення певних завдань мовним моделям, навіть коли їх можна вирішити детерміновано. Раніше, для виявлення імені в тексті або ціни на вебсторінці, ми використовували детерміновані методи, такі як пошук символу долара, словник імен або наївний байєсівський класифікатор. Тепер ми можемо доручити це мовним моделям, і вони знайдуть потрібну інформацію.

Кількість тексту, який потрібно включити в запит до мовної моделі, приблизно дорівнює кількості коду, який необхідно написати для вирішення тієї ж задачі детермінованими методами. Це може означати, що там, де зараз використовуються мовні моделі, можна обійтися детермінованим кодом. Але, з іншого боку, там, де можна застосувати одну мовну модель, може знадобитися написати десятки різних детермінованих фрагментів коду.

Що цікаво, промпти можуть писати не лише програмісти, але й маркетологи або бухгалтери, не розбираючись у програмуванні. Вони просто структурують англійський текст. Це свідчить про те, що нам, можливо, потрібно переглянути назву ролі "програміст" на щось більш універсальне, адже зараз програмувати можуть багато хто, використовуючи просто чітко сформульоване завдання.
​​Оповиті туманами глибинного навчання та втілені у коді, ми, озброєні фундаментальними інсайтами з фантастичних оповідань та романів, вже розуміємо куди веде нас цей шлях. Зоряний час мовних моделей став для нас світанком нової ери. Зараз ми не просто перегортаємо сторінки календаря 2024 року від народження Христа; ми живемо в 0008-му році від llm-народження. Подумайте про це.
Деякий час тому, один стартап показав AI-персон, які можуть сгенерувати вам ролік, на якому з емоціями та розстановкою розкажуть ваш введений текст. Обираєте модель, вбиваєте текст, чекаєте трошки та вуаля! Автоматизація тіктоків усіляких готова. А потім зʼясувалося, що це запис справжньої людини, яка назнімала купу годин різноманітних роликів, з різним посилом та тактом. А сервіс просто синтезує голос та синхронізує рух губ із синтезованим текстом. Магія! Найняли стопіцот акторів, кожен з яких за півтора центи назнімав гігабайти відео. А синтез голосу з ліпсінком це вже вирішені задачі. А після демки всі такі «вау які реалістичні відосики!».

А ще на днях Амазон вскрився зі своїми автоматизованими магазинами. Ну там де з кошиком ходиш по магазину кладеш все собі що хочеш, а ШІ спостерігає за вами через купу камер та прораховує що ви там собі забрали. Виявилося, що автоматизація магазинів відбувалася за рахунок найнятих 1000 індусів, які уважно слідкували за вашими діями та підбивали рахунок.

Це вже достатньо просунута технологія щоб не відрізняти це від магії чи ще недостатньо?
У великих мовних моделей є три види контексти. Перший контекст — загальна освіта. Знання про те, яка заввишки Єйіфелева вежа або скільки клапанів у серця жирафа. З цим більш-меньш мовні моделі впорались, але великою ціною тренування на суперкомпʼютерах.

Другий контекст — контекст співрозмовника або «доменний контекст». Або короткострокова памʼять. Коли кажеш «хлопчик склеїв у клубі модель» треба розуміти загальник контекст розмови. Чи ми кажемо про моделювання літаків чи про тусу під техно з текілою. Це мовні моделі пропонують додавати у додатковий системний промт, де загалом треба описати контекст ситуацію.

І нарешті третій контекст — довгострокова памʼять. Посилання на попередні розмови, оперування існуючими висновками та припущеннями. З цим зараз не може впоратись ніхто і пропонують або постійно дотреновувати модель на нових контекстних даних або вигрібати у короткострокову памʼять якісь дані із довгострокової.

Корочше, людство вирішило одну проблему із трьох. До сингулярності залишилось ще дві. Тому працюємо далі, бо штучний інтеллект сам себе не винайде.
​​Цікава проблема вилізла протягом вивчення проблеми будування агентської системи, яка базується на штучному інтелекті. Виявилося, що людство не придумало нічого притомного, для того, щоб перевірити чи агент працює добре чи погано. Навіть якщо обмежити агента вузькою нішею, чітким спектром можливих задач, все одно залишається проблема субʼєктивного вирішення та оцінювання проблеми.

Все, до чого прийшло людство — це тест Тьюрінга або похідні від нього. Тобто беремо низьку експертів та просимо їх оцінити відповідь від чорного ящику. Додаємо плацебні відповіді від людини, стохастичність відповідей нівелюємо середнім значенням від різних суддів. І все. Кращого варіанта не існує.
Спочатку ви посміхнетесь, а потім серйозно замислитися. ЧатГПТ був згаданий у титрах до індійського фільму, як автор слів пісні.
Ми тут в ability.ai працюємо разом з AI для автоматизації маркетингу. Нашій команді розробників зараз необхідний Python Інженер, який зацікавлений сфокусуватися над складанням промптів, та взагалі побудуванням спілкування з різними LLM. «Prompt Engineering» інакше кажучи. Маємо багато задач, де необхідно буде генерувати промпти, код і працювати над покращенням одного і другого.

Якщо вам цікаво долучитися до освоєння нових підходів у розробці, надішліть CV і посилання на ваш GutHub на e.lobas@ability.ai з темою «Prompt Engineer».

Якщо у вас є запитання, задавайте мені у приватні або Єду на вищевказану пошту.

P.S. Ось так DALL•E бачить типового промпт-Інженера. Якщо у вас сім моніторів і ви їх використовуєте у роботі — це жирний плюс на співбесіді.