Чергова онлайн-конференція AWS User Group
Маю цікаве оголошення. 24 жовтня відбудеться чергова AWS Notes - Chapter 3. Data Engineering від AWS User Group Kyiv.
Третій розділ AWS Notes об'єднає українських та світових спікерів, щоб поділитися викликами, складнощами, досвідом та інсайтами у сфері Data Engineering. На вас чекають:
- 6 Tech Notes, де спікери поділяться своїм досвідом побудови та роботи із системами обробки та аналізу даних
- 2 короткі Snap Talks з концентрованими інсайтами про найсвіжіші технології та практики
З цієї нагоди ми збираємо разом провідних data експертів та сертифікованих AWS спеціалістів, серед яких: Юлія Шологонь з SoftServe, Тарас Сліпець з Flix, Alex DeBrie (AWS Data Hero), Ростислав Мироненко з Booking.com, Дмитро Сірант з OpsWorks та Максим Войтко з Honeycomb Software.
Для більш детальної інформації та реєстрації відвідайте сайт конференції: https://bit.ly/3YjdrzH
Реєструйтеся та до зустрічі!
Маю цікаве оголошення. 24 жовтня відбудеться чергова AWS Notes - Chapter 3. Data Engineering від AWS User Group Kyiv.
Третій розділ AWS Notes об'єднає українських та світових спікерів, щоб поділитися викликами, складнощами, досвідом та інсайтами у сфері Data Engineering. На вас чекають:
- 6 Tech Notes, де спікери поділяться своїм досвідом побудови та роботи із системами обробки та аналізу даних
- 2 короткі Snap Talks з концентрованими інсайтами про найсвіжіші технології та практики
З цієї нагоди ми збираємо разом провідних data експертів та сертифікованих AWS спеціалістів, серед яких: Юлія Шологонь з SoftServe, Тарас Сліпець з Flix, Alex DeBrie (AWS Data Hero), Ростислав Мироненко з Booking.com, Дмитро Сірант з OpsWorks та Максим Войтко з Honeycomb Software.
Для більш детальної інформації та реєстрації відвідайте сайт конференції: https://bit.ly/3YjdrzH
Реєструйтеся та до зустрічі!
https://youtu.be/WvWod6-HED0
Запис виступу з IF IT Forum 2024 "AI-Augmented Розробка програмних проєктів"
Зараз IT-галузь розвивається небаченими темпами навіть для IT-галузі 🚀. Сподіваюся, нікого не здивую, що основним драйвером в цьому виступає AI 🤖.
Проте виявляється, що переважна більшість сучасних розробників не просто недостатньо активно використовують AI в своїй роботі, а навіть не уявляють, як далеко все зайшло і які доступні можливості та інструменти вже сьогодні 🛠✨.
Ми розглянемо, яким має бути Software Engineer 3.0 🧑💻, і чим він принципово відрізняється від попередніх "версій" 🌀. Розглянемо інструменти для розробників з підтримкою AI, такі як GitHub Copilot 🤝 і Cursor IDE 🖥, Vercel V0 ⚡️, і навіть заглянемо в недалеке майбутнє з програмними агентами з bolt.new 🔮.
Під час виступу вільних місць не було, хто не прийшов завчасно, вимушений дивитися стоячи 🙂.
Презентація тут https://programmingmentor.github.io/2024-ai-augmented-sdev
Також тут доступний безкоштовний курс по GenAI для самостійного проходження, про який я згадував на виступі https://career.softserveinc.com/uk-ua/technology/course/gen-ai-lab
Запис виступу з IF IT Forum 2024 "AI-Augmented Розробка програмних проєктів"
Зараз IT-галузь розвивається небаченими темпами навіть для IT-галузі 🚀. Сподіваюся, нікого не здивую, що основним драйвером в цьому виступає AI 🤖.
Проте виявляється, що переважна більшість сучасних розробників не просто недостатньо активно використовують AI в своїй роботі, а навіть не уявляють, як далеко все зайшло і які доступні можливості та інструменти вже сьогодні 🛠✨.
Ми розглянемо, яким має бути Software Engineer 3.0 🧑💻, і чим він принципово відрізняється від попередніх "версій" 🌀. Розглянемо інструменти для розробників з підтримкою AI, такі як GitHub Copilot 🤝 і Cursor IDE 🖥, Vercel V0 ⚡️, і навіть заглянемо в недалеке майбутнє з програмними агентами з bolt.new 🔮.
Під час виступу вільних місць не було, хто не прийшов завчасно, вимушений дивитися стоячи 🙂.
Презентація тут https://programmingmentor.github.io/2024-ai-augmented-sdev
Також тут доступний безкоштовний курс по GenAI для самостійного проходження, про який я згадував на виступі https://career.softserveinc.com/uk-ua/technology/course/gen-ai-lab
YouTube
AI-Augmented розробка програмних проєктів - виступ на IF IT Forum 2024
Зараз IT-галузь розвивається небаченими темпами навіть для IT-галузі 🚀. Сподіваюся, нікого не здивую, що основним драйвером в цьому виступає AI 🤖.
Проте виявляється, що переважна більшість сучасних розробників не просто недостатньо активно використовують…
Проте виявляється, що переважна більшість сучасних розробників не просто недостатньо активно використовують…
Кілька днів тому запросили давати коментарі для ТБ. Непоганий вийшов сюжет, як на мене.
https://youtu.be/G8_gziDBiBQ
https://youtu.be/G8_gziDBiBQ
YouTube
Штучний інтелект: нові можливості у навчанні, роботі і побуті. Експерти про нейромережі
Штучний інтелект заходить у кожну галузь життя сучасної людини. Тепер нейромережі здатні миттєво давати нам інформацію, писати за нас тексти, допомагають створювати музику та візуальний контент. Використовується ШІ і на більш складних технологічних рівнях:…
Forwarded from SoftServe Education
🌟 Як почати кар'єру у SoftServe? Долучайся до нашої події, де випускники Академії, а тепер вже й наші колеги, розкажуть про свій шлях до роботи в компанії.
На зустрічі обговоримо:
👉🏻 де шукати вакансії для початківців у SoftServe
👉🏻 як стати тим кандидатом, якого покличуть на співбесіду та запропонують офер
👉🏻 як на старті кар'єри виділитися серед інших кандидатів
👉🏻 історії випускників наших курсів, які стали частиною команди SoftServe
Спікери:
Олена Грик та Анастасія Матюшенко — випускниці SoftServe Academy
В'ячеслав Колдовський — Competence Manager у SoftServe Academy
Вікторія Пальчевська — модератор, Career Advisor
Зустрінемось 19 листопада о 18:30.
Реєструйся, щоб дізнатися більше про кар'єрні можливості, аби зробити важливий крок назустріч роботі в ІТ.
На зустрічі обговоримо:
👉🏻 де шукати вакансії для початківців у SoftServe
👉🏻 як стати тим кандидатом, якого покличуть на співбесіду та запропонують офер
👉🏻 як на старті кар'єри виділитися серед інших кандидатів
👉🏻 історії випускників наших курсів, які стали частиною команди SoftServe
Спікери:
Олена Грик та Анастасія Матюшенко — випускниці SoftServe Academy
В'ячеслав Колдовський — Competence Manager у SoftServe Academy
Вікторія Пальчевська — модератор, Career Advisor
Зустрінемось 19 листопада о 18:30.
Реєструйся, щоб дізнатися більше про кар'єрні можливості, аби зробити важливий крок назустріч роботі в ІТ.
Сьогодні будемо говорити про те як отримати офер, приходьте, буде корисно і цікаво :)
Тут цікаві апдейти від OpenAI
Вийшла з прев’ю найрозумніша модель o1 і отримала можливість працювати з файлами, раніше у неї такої можливості не було.
Також з’явилася нова підписка ChatGpt Pro - різно в 10 раз дорожче за ChatGPT Plus, аж 200 долл на місяць. Виглядає дорого, але насправді в бізнесі ціна не має значення, якщо вона окупається і приносить прибуток. Із принципових відмінностей обіцяють що модель o1 буде працювати в особливому “Pro” режимі, а ліміти на використання моделей значно вищі.
Тут відосик-презентація: https://youtu.be/iBfQTnA2n2s
Обіцяють 12 днів щось нове випускати :)
Вийшла з прев’ю найрозумніша модель o1 і отримала можливість працювати з файлами, раніше у неї такої можливості не було.
Також з’явилася нова підписка ChatGpt Pro - різно в 10 раз дорожче за ChatGPT Plus, аж 200 долл на місяць. Виглядає дорого, але насправді в бізнесі ціна не має значення, якщо вона окупається і приносить прибуток. Із принципових відмінностей обіцяють що модель o1 буде працювати в особливому “Pro” режимі, а ліміти на використання моделей значно вищі.
Тут відосик-презентація: https://youtu.be/iBfQTnA2n2s
Обіцяють 12 днів щось нове випускати :)
Кілька AI-апдейтів
Open AI нарешті зарелізила модель для відео - Sora.
Нажаль масштабувати сервіс під користувачів вони ще не навчилися, тому потрапити я туди не зміг, навіть маючи платну підписку ChatGPT Plus, з якою по ідеї мали б пускати.
Тим не менше, судячи з оглядів революції не відбулося - сервіс плюс/мінус на рівні з конкурентами, в чомусь краще, а в чомусь гірше. Ось коротенький відосик щоб зрозуміти https://youtu.be/IY7182jkPwE
Мені особисто цікавіше поява опенсорсної Llama 3.3 на 70 млрд параметрів, яка по якості наближається до версії 3.2 на 405 млрд. На відміну від більшої моделі її цілком реально запускати на “звичайних” геймерських комп’ютерах і мати собі безкоштовно модельку рівня GPT-4. Для LM Studio вона вже доступна https://lmstudio.ai/model/llama-3.3-70b
Ну і хоча Маска ми всі недолюблюємо, але він дуже активно рухається в AI, його Grok зараз входить в топ-10 найкращих LLM-моделей і з минулої п’ятниці став доступним безкоштовно. Із його цікавих фішок - він може шукати по твіттеру, відповідати по новинам, трендам, робити саммарі. А ще в нього вбудований якісний генератор зображень, який має набагато менше обмежень по копірайту і іншим ознакам ніж у Dall-E, який є в ChatGPT.
Цікаво, що ще сьогодні зранку у них було зазначено що використовується модель Flux, зараз чомусь це прибрали. Модель Flux я сам у себе на лептопі запускаю і її робота мені подобається, але комп'ютер для цього треба потужний - в Grok використати простіше.
Open AI нарешті зарелізила модель для відео - Sora.
Нажаль масштабувати сервіс під користувачів вони ще не навчилися, тому потрапити я туди не зміг, навіть маючи платну підписку ChatGPT Plus, з якою по ідеї мали б пускати.
Тим не менше, судячи з оглядів революції не відбулося - сервіс плюс/мінус на рівні з конкурентами, в чомусь краще, а в чомусь гірше. Ось коротенький відосик щоб зрозуміти https://youtu.be/IY7182jkPwE
Мені особисто цікавіше поява опенсорсної Llama 3.3 на 70 млрд параметрів, яка по якості наближається до версії 3.2 на 405 млрд. На відміну від більшої моделі її цілком реально запускати на “звичайних” геймерських комп’ютерах і мати собі безкоштовно модельку рівня GPT-4. Для LM Studio вона вже доступна https://lmstudio.ai/model/llama-3.3-70b
Ну і хоча Маска ми всі недолюблюємо, але він дуже активно рухається в AI, його Grok зараз входить в топ-10 найкращих LLM-моделей і з минулої п’ятниці став доступним безкоштовно. Із його цікавих фішок - він може шукати по твіттеру, відповідати по новинам, трендам, робити саммарі. А ще в нього вбудований якісний генератор зображень, який має набагато менше обмежень по копірайту і іншим ознакам ніж у Dall-E, який є в ChatGPT.
Цікаво, що ще сьогодні зранку у них було зазначено що використовується модель Flux, зараз чомусь це прибрали. Модель Flux я сам у себе на лептопі запускаю і її робота мені подобається, але комп'ютер для цього треба потужний - в Grok використати простіше.
YouTube
AI VIDEO: Image to Video Showdown | Sora vs. Runway vs. Luma (featuring Kling)
Take my AI Filmmaking Course👉 https://unmissablecourses.com/product/make-a-film-using-ai/
Need help with your AI project? I coach artist, filmmakers and students. 👉https://gabemichael.ai/ai-video-coaching-mentorships-consulting/
AI MUSIC VIDEO https:/…
Need help with your AI project? I coach artist, filmmakers and students. 👉https://gabemichael.ai/ai-video-coaching-mentorships-consulting/
AI MUSIC VIDEO https:/…
До речі, я недавно проводив воркшопчик про 1000x продуктивності, він для широкої аудиторії, показував цікаві речі, ось запис https://youtu.be/94AvUs1q7TI
YouTube
Практичний воркшоп з ШІ «Як досягнути 1000x продуктивності?»
Штучний інтелект уже змінює правила гри в багатьох сферах діяльності. Але як інтегрувати інструменти ШІ у ваше життя, щоб виконувати більше завдань за менший час, вдосконалювати свої навички та генерувати результати з мінімальними зусиллями? ⚡️
Долучайтесь…
Долучайтесь…
Тут кілька знакових подій для розробників в світі AI
Перше - MS зробила GitHub Copilot безкоштовним. Платна версія теж є, більш продвинута, але для окремих задач безкоштовної цілком має вистачати. У мене саме закінчилася платна підписка на рік, то поки не буду продовжувати, скористаюся безкоштовним Copilot, тим більше що зараз я більше пишу код у Cursor, а також почав використовувати Windsurf і в обох цих IDE інтеграція AI виглядає більш цікавою, ніж у Copilot.
Тим не менше, користуватися Copilot обов’язково буду, і в нього є козирна фіча - він інтегрований напряму з гітхабом, відповідно у веб-інтерфейсі гітхабу ви можете його відкрити і “початитися” - це може бути корисно щоб задати питання по якомусь конкретному репозиторію чи пулл ріквесту. Також я люблю користуватися GitHub Codespaces - особливо зручно якусь репку відкрити чи лібку потестити без ризику собі на комп’ютер сміття чи трояна скачати. І там Copilot ставиться за 10 секунд, це реально зручно. Не виключаю що платну підписку теж продовжу якщо безкоштовної бракуватиме.
І звичайно багато шуму наробив анонс нової моделі o3 від OpenAI. Вона значно “розумніша” за попередні, і це особливо видно в задачах з Software Engineering - в бенчмарку SWE Bench Verified, що складається з типових реальних тасок, вона начебто набирає 71.2%, що на 16% за накращий результат, що там є сьогодні. Також вона зробила прорив в бенчмарку ARC AGI, що розроблений навмисно для ідентифікації можливостей AI до повторення когнітивних здібностей людини. В цьому тесті найкращий результат для o3 склав 88%, а o1 набирала максимум 32%. Шкода, що модель поки недоступна публічно, і в неї ще є нюанс з вартістю, схоже вона потребує надзвичайно високих потужностей, невідомо скільки буде коштувати її використання.
Перше - MS зробила GitHub Copilot безкоштовним. Платна версія теж є, більш продвинута, але для окремих задач безкоштовної цілком має вистачати. У мене саме закінчилася платна підписка на рік, то поки не буду продовжувати, скористаюся безкоштовним Copilot, тим більше що зараз я більше пишу код у Cursor, а також почав використовувати Windsurf і в обох цих IDE інтеграція AI виглядає більш цікавою, ніж у Copilot.
Тим не менше, користуватися Copilot обов’язково буду, і в нього є козирна фіча - він інтегрований напряму з гітхабом, відповідно у веб-інтерфейсі гітхабу ви можете його відкрити і “початитися” - це може бути корисно щоб задати питання по якомусь конкретному репозиторію чи пулл ріквесту. Також я люблю користуватися GitHub Codespaces - особливо зручно якусь репку відкрити чи лібку потестити без ризику собі на комп’ютер сміття чи трояна скачати. І там Copilot ставиться за 10 секунд, це реально зручно. Не виключаю що платну підписку теж продовжу якщо безкоштовної бракуватиме.
І звичайно багато шуму наробив анонс нової моделі o3 від OpenAI. Вона значно “розумніша” за попередні, і це особливо видно в задачах з Software Engineering - в бенчмарку SWE Bench Verified, що складається з типових реальних тасок, вона начебто набирає 71.2%, що на 16% за накращий результат, що там є сьогодні. Також вона зробила прорив в бенчмарку ARC AGI, що розроблений навмисно для ідентифікації можливостей AI до повторення когнітивних здібностей людини. В цьому тесті найкращий результат для o3 склав 88%, а o1 набирала максимум 32%. Шкода, що модель поки недоступна публічно, і в неї ще є нюанс з вартістю, схоже вона потребує надзвичайно високих потужностей, невідомо скільки буде коштувати її використання.
Openai
Early access for safety testing
We're offering safety and security researchers early access to our next frontier models.
НА ДОУ вийшла моя стаття про стан речей в AI для розробників https://dou.ua/forums/topic/51815/
DOU
Розробники і стосунки з АІ: у чому штучний інтелект кращий за нас і як це використати
В’ячеслав Колдовський, керівник компетентностей у SoftServe Academy та автор каналів «Programming Mentor», розмірковує про вплив штучного інтелекту на підхід до розробки програмних проєктів. Автор аналізує, як швидкі технологічні зміни формують сучасну пр
Ще свіженьке, welcome to 2025 https://dou.ua/forums/topic/51855/
DOU
10 АІ-подій, якій найбільше вплинуть на розробників у 2025-му
"AI-моделі стали достатньо розумними для того, щоб не просто писати код, а робити це навіть краще за багатьох розробників", - лідер AI-спільноти В'ячеслав Колдовський ділиться найбільш масштабними подіями зі світу штучного інтелекту, які вплинуть на робот
Репозиторій з питаннями для інтерв'ю по JS українською, особливо приємно, що автор Віктор Свертока - один з моїх студентів
https://github.com/FrontendLovers/javascript-interview-questions
https://github.com/FrontendLovers/javascript-interview-questions
GitHub
GitHub - DevLoversTeam/javascript-interview-questions: Найпопулярніші запитання та відповіді на співбесіді з JavaScript
Найпопулярніші запитання та відповіді на співбесіді з JavaScript - DevLoversTeam/javascript-interview-questions
DeepSeek R1
https://www.youtube.com/shorts/QzDZHZwcNB0?feature=share
Схоже в світі OpenSource LLM намалювався новий лідер - DeepSeek.
Відразу дісклеймер: нажаль це китайська компанія з усіма “нюансами”, зокрема, на політичні питання відповідає упереджено, і якщо будете використовувати як сервіс, то трохи обережно з даними, просто пам’ятайте про це.
Відомими вони стали ще в 2023, коли випустили DeepSeek Coder - дуже непогану відкриту модель для написання коду, але самою топовою вона не була, хоча своїх прихильників знайшла.
Однак минулого місяця вони випустили чергову відкриту модель DeepSeek V3, яка обійшла в загальних тестах всі відкриті моделі і вийшла на рівень топових комерційних. Прямо зараз я заглянув рейтинг моделей на lmarena.ai, і вона там на сьомому місці в загальних задачах.
Модель цікава тим, що використовує архітектуру MoE - Mixture of Experts (така ж сама була Mixtral, про яку я писав десь рік тому). Спрощено архітектуру можна пояснити як не одну монолітну модель, а набір менших спеціалізованих моделей, які обираються для формування відповіді, і відповідно для цього треба менші потужності, ніж для “монолітних” моделей. Відповідно з загальної кількості в 671 млрд параметрів моделі для кожного токена активується лише 37 млрд.
Проте кілька днів тому вони випустили ще одну модель DeepSeek R1 (“R” в назві від слова “reasoning” - “мислення”). Вона близька до V3, має MoE архітектуру і 685 млрд параметрів, але налаштована на “мислення” схожим способом як це робить o1. І це взагалі прорив у світі AI, бо ця модель на рівні з найкращими моделями о1 від Open AI та Gemini 2 Flash Thinking від Google. Але при цьому вона повністю відкрита, доступна по ліцензії MIT, її можна скачати і запустити в LM Studio наприклад.
Але це не все - є її зменшений “дистильований” варіант лише на 1.5 млрд параметрів, яка в математичних задачах переважає GPT-4o та Claude 3.5 Sonnet, але при цьому є настільки маленькою, що запускається навіть в браузері на смартфоні. Власне як вона вирішує квадратне рівняння на моєму дев’ятому складаному пікселі я вам записав. Сам файл моделі на 1.2 Гб треба спочатку загрузити, потім він береться з кешу. Стартує з 10 токенів на секунду, потім трохи сповільнюється як смартфон починає грітися. Для порівняння - на геймерському лептопі з RTX4090 видає 40 токенів на секунду - вчетверо швидше, але лептоп більший і важчий більш ніж вчетверо. На відео реальна швидкість виконання, відео без редагування.
Запускаємо звідси https://huggingface.co/spaces/webml-community/deepseek-r1-webgpu
PS. До речі, мені цікаво як воно працює на інших апаратах, наприклад, на iPhone 14 Pro Max не йде взагалі. Закидайте свої тести в коментарі :)
https://www.youtube.com/shorts/QzDZHZwcNB0?feature=share
Схоже в світі OpenSource LLM намалювався новий лідер - DeepSeek.
Відразу дісклеймер: нажаль це китайська компанія з усіма “нюансами”, зокрема, на політичні питання відповідає упереджено, і якщо будете використовувати як сервіс, то трохи обережно з даними, просто пам’ятайте про це.
Відомими вони стали ще в 2023, коли випустили DeepSeek Coder - дуже непогану відкриту модель для написання коду, але самою топовою вона не була, хоча своїх прихильників знайшла.
Однак минулого місяця вони випустили чергову відкриту модель DeepSeek V3, яка обійшла в загальних тестах всі відкриті моделі і вийшла на рівень топових комерційних. Прямо зараз я заглянув рейтинг моделей на lmarena.ai, і вона там на сьомому місці в загальних задачах.
Модель цікава тим, що використовує архітектуру MoE - Mixture of Experts (така ж сама була Mixtral, про яку я писав десь рік тому). Спрощено архітектуру можна пояснити як не одну монолітну модель, а набір менших спеціалізованих моделей, які обираються для формування відповіді, і відповідно для цього треба менші потужності, ніж для “монолітних” моделей. Відповідно з загальної кількості в 671 млрд параметрів моделі для кожного токена активується лише 37 млрд.
Проте кілька днів тому вони випустили ще одну модель DeepSeek R1 (“R” в назві від слова “reasoning” - “мислення”). Вона близька до V3, має MoE архітектуру і 685 млрд параметрів, але налаштована на “мислення” схожим способом як це робить o1. І це взагалі прорив у світі AI, бо ця модель на рівні з найкращими моделями о1 від Open AI та Gemini 2 Flash Thinking від Google. Але при цьому вона повністю відкрита, доступна по ліцензії MIT, її можна скачати і запустити в LM Studio наприклад.
Але це не все - є її зменшений “дистильований” варіант лише на 1.5 млрд параметрів, яка в математичних задачах переважає GPT-4o та Claude 3.5 Sonnet, але при цьому є настільки маленькою, що запускається навіть в браузері на смартфоні. Власне як вона вирішує квадратне рівняння на моєму дев’ятому складаному пікселі я вам записав. Сам файл моделі на 1.2 Гб треба спочатку загрузити, потім він береться з кешу. Стартує з 10 токенів на секунду, потім трохи сповільнюється як смартфон починає грітися. Для порівняння - на геймерському лептопі з RTX4090 видає 40 токенів на секунду - вчетверо швидше, але лептоп більший і важчий більш ніж вчетверо. На відео реальна швидкість виконання, відео без редагування.
Запускаємо звідси https://huggingface.co/spaces/webml-community/deepseek-r1-webgpu
PS. До речі, мені цікаво як воно працює на інших апаратах, наприклад, на iPhone 14 Pro Max не йде взагалі. Закидайте свої тести в коментарі :)
YouTube
DeepSeek-R1 на Google Pixel 9 Pro Fold в браузері Chrome
Реальна швидкість виконання DeepSeek-R1 на Google Pixel 9 Pro Fold в браузері Chrome з використанням WebGPU.Модель вже в кеші, тому завантажується швидко, пе...
DeepSeek R1 Гайд / FAQ
Схоже ситуація з діпсіком вийшла з під контролю і стала схожа на параною. Інформації повно - коректної не завжди, тому зробив невеликий Гайд/FAQ по темі.
1. Я все проспав, можете пояснити що відбувається?
20-го січня 2025 року китайська компанія DeepSeek випустила під open source ліцензією MIT LLM “думаючу” модель DeepSeek R1, яка за їх тестами на рівні, а то й розумніша за найкращу публічно доступною на той момент моделлю o1 від OpenAI. Автори моделі запустили також безкоштовний сервіс і мобільну аплікацію з доступом до моделі на їх хостингу, а також свій власний API, ціни на використання якого в десятки разів нижчі, ніж в моделі o1.
Додатково до моделі розробники також описали її архітектуру та підходи до побудови, які виявилися достатньо інноваційними, зокрема вони використали так зване “підкріплене навчання” (Reinforcement Learning), що дозволило моделі покращуватися в автоматичному режимі.
На фоні колосального зростання популярності моделі (мобільна аплікація очолила рейтинг Apple Store), гарних показників роботи моделі, а також дешевизни її використання і тренування, американський фондовий ринок спіткав “Sputnik moment” (аналогія з запуском радянського супутника), і він колосально обвалився на суму понад 1 трлн долл, особливо постраждали high-tech компанії пов’язані з AI, такі як OpenAI та nVidia.
2. Що таке “думаюча” (thinking) модель і чи вона мені завжди потрібна?
На своїх виступах про ШІ я часто пояснюю аналогію відповідно до теорії Даніеля Канемана між мисленням швидким (інтуітивним) і повільним (розважливим) у людини та LLM. Так от, LLM як просто AI-модель не має режиму повільного розважливого мислення, яке є у людини, вона просто видає результат токен за токеном. Тим не менше, такий режим можна зімітувати за допомогою спеціальних технік, зокрема техніки запитів ланцюжок думок (chain of thought prompting), ітеративної генерації та самокорекції, використання дерева думок і т.д.
Думаюча модель добитися кращих результатів для складних задач, однак насправді не завжди потрібна, бо виходить дорожчою і повільнішою за “звичайні” моделі. І якщо з якоюсь задачею гарно справляється модель звичайна, то вона і буде найкращим вибором.
3. Чи це найрозумніша в світі модель?
Ні, не найрозумніша. Якщо прямо зараз зайти на тести на lmarena.ai, то в загальному рейтингу перед нею три моделі - дві від Google, одна від OpenAI. Також вчора вийшла модель o3 mini, ще немає її в рейтингах, але з того що я встиг перевірити, її робота мені більше подобаєтся за DeepSeek. Особливість DeepSeek - архітектура MoE (Mixture of Experts), яка має плюси і мінуси. Плюс в тому що вона дуже швидка, бо для запиту активується лише 37 млрд параметрів з загальної кількості у 671 млрд. Мінус слідує також з цього - коли модель використовує лише 5% від загальної кількості параметрів, то і результати не завжди є стабільно високими. З мого власного досвіду використання підтверджую, що результати роботи топових моделей OpenAI та Google мені подобаються більше, вони значно стабільніші по якості.
Схоже ситуація з діпсіком вийшла з під контролю і стала схожа на параною. Інформації повно - коректної не завжди, тому зробив невеликий Гайд/FAQ по темі.
1. Я все проспав, можете пояснити що відбувається?
20-го січня 2025 року китайська компанія DeepSeek випустила під open source ліцензією MIT LLM “думаючу” модель DeepSeek R1, яка за їх тестами на рівні, а то й розумніша за найкращу публічно доступною на той момент моделлю o1 від OpenAI. Автори моделі запустили також безкоштовний сервіс і мобільну аплікацію з доступом до моделі на їх хостингу, а також свій власний API, ціни на використання якого в десятки разів нижчі, ніж в моделі o1.
Додатково до моделі розробники також описали її архітектуру та підходи до побудови, які виявилися достатньо інноваційними, зокрема вони використали так зване “підкріплене навчання” (Reinforcement Learning), що дозволило моделі покращуватися в автоматичному режимі.
На фоні колосального зростання популярності моделі (мобільна аплікація очолила рейтинг Apple Store), гарних показників роботи моделі, а також дешевизни її використання і тренування, американський фондовий ринок спіткав “Sputnik moment” (аналогія з запуском радянського супутника), і він колосально обвалився на суму понад 1 трлн долл, особливо постраждали high-tech компанії пов’язані з AI, такі як OpenAI та nVidia.
2. Що таке “думаюча” (thinking) модель і чи вона мені завжди потрібна?
На своїх виступах про ШІ я часто пояснюю аналогію відповідно до теорії Даніеля Канемана між мисленням швидким (інтуітивним) і повільним (розважливим) у людини та LLM. Так от, LLM як просто AI-модель не має режиму повільного розважливого мислення, яке є у людини, вона просто видає результат токен за токеном. Тим не менше, такий режим можна зімітувати за допомогою спеціальних технік, зокрема техніки запитів ланцюжок думок (chain of thought prompting), ітеративної генерації та самокорекції, використання дерева думок і т.д.
Думаюча модель добитися кращих результатів для складних задач, однак насправді не завжди потрібна, бо виходить дорожчою і повільнішою за “звичайні” моделі. І якщо з якоюсь задачею гарно справляється модель звичайна, то вона і буде найкращим вибором.
3. Чи це найрозумніша в світі модель?
Ні, не найрозумніша. Якщо прямо зараз зайти на тести на lmarena.ai, то в загальному рейтингу перед нею три моделі - дві від Google, одна від OpenAI. Також вчора вийшла модель o3 mini, ще немає її в рейтингах, але з того що я встиг перевірити, її робота мені більше подобаєтся за DeepSeek. Особливість DeepSeek - архітектура MoE (Mixture of Experts), яка має плюси і мінуси. Плюс в тому що вона дуже швидка, бо для запиту активується лише 37 млрд параметрів з загальної кількості у 671 млрд. Мінус слідує також з цього - коли модель використовує лише 5% від загальної кількості параметрів, то і результати не завжди є стабільно високими. З мого власного досвіду використання підтверджую, що результати роботи топових моделей OpenAI та Google мені подобаються більше, вони значно стабільніші по якості.
4. Чи це справжня open source модель?
Ні, це не так. Хоча DeepSeek опублікували під ліцензією MIT, відкрили архітектуру, описали процес тренування і т.д. Вони не відкрили найважливіше - дані, на яких модель тренувалася. Але в умовах коли моделі між собою схожі по своїй будові, то найважливішою складовою, що їх розрізняють є дані. Тому без відкриття всіх даних для тренування на мій погляд не можна назвати модель повністю open source, бо по факту нам дали чорну скриньку, яка яка мінімум відповідає узгоджено з політикою китайської компартії, але що вона ще таїть в собі ніхто не знає крім її розробників. Уявіть чисто гіпотетичну ситуацію, що хтось збудував навколо цієї моделі агента, що керує розумним будинком, фінансами і т.д., але в якийсь момент з’являється користувач, що дає спеціальну команду, яка переводить його в режим бога і дає повний контроль над агентом. Інший сценарій - якщо ми генеруємо з моделлю програмний код якихось криптоалгоритмів, авторизації і т.д., то в принципі ніщо не забороняє акуратно туди заінжектити потрібні вразливості. Ми не знаємо, чи є щось подібне в DeepSeek і чи не з’явиться у майбутньому. Але точно знаємо, що видає китайську пропаганду, у тому числі й не на користь України.
5. Чи безпечно користуватися мобільною апкою та китайським сервісом DeepSeek?
Якби мені зараз бюджет десь в $40-50 млрд і попросили отримати контроль над світовою інформацією та людськими думками з перспективою світового домінування, то я би купив якусь популярну соцмережу і додав би до неї безкоштовний AI-чат. Упс, здається я тут когось впізнаю… менше з тим - якщо бюджет скромніше, то почав би саме з безкоштовного AI-чату, бо через нього я би отримав величезний потік інформації для опрацювання з однієї сторони, а також міг би контрольовано просувати потрібні мені меседжі за рахунок “підтюненої” в моїх цілях моделі.
Також я думаю всім зрозуміло, що ставити на свої мобільні пристрої будь-які аплікації, до яких немає високої довіри - то не є достатньо розумно. Як і відправляти будь-які більш менш цінні дані в будь-який сервіс за межі своїх пристроїв. Про спотворені результати видачі я писав в попередньому пункті. Тому висновки робіть самі.
6. Як безпечно користуватися DeepSeek?
Тим не менше, користуватися моделлю без ризиків втрати даних можна - це якщо запускати її локально у себе чи десь у хмарах, до яких у нас є більше довіри. Про локальний запуск поговоримо окремо, а стосовно хмарних сервісів, то вона вже є на Azure, Vercel, Together.ai, щойно анонсувала її підтримку nVidia - кількість провайдерів буде лише зростати. Зверніть увагу, що є різні варіанти моделі - є оригинальна на 671 млрд параметрів, а є так звані “дистильовані” (distilled) її варіанти, які являють собою файн-тюнинг інших моделей - Llama, Qwen за допомогою оригінальної DeepSeek, і на сервісі Groq.com наприклад, оригінальна модель поки не доступна, є лише дистильований варіант на основі Llama 3.3 на 70 млрд параметрів. Також у моделей можуть бути різні варіанти квантування (quantization), які визначають кількість бітів на один параметр, від цього буде залежати її розмір, швидкість роботи і звичайно результат. Звичайно, що найкращі результати по якості відповідей буде показувати саме оригінальна модель, всі інші - то компроміс.
Ні, це не так. Хоча DeepSeek опублікували під ліцензією MIT, відкрили архітектуру, описали процес тренування і т.д. Вони не відкрили найважливіше - дані, на яких модель тренувалася. Але в умовах коли моделі між собою схожі по своїй будові, то найважливішою складовою, що їх розрізняють є дані. Тому без відкриття всіх даних для тренування на мій погляд не можна назвати модель повністю open source, бо по факту нам дали чорну скриньку, яка яка мінімум відповідає узгоджено з політикою китайської компартії, але що вона ще таїть в собі ніхто не знає крім її розробників. Уявіть чисто гіпотетичну ситуацію, що хтось збудував навколо цієї моделі агента, що керує розумним будинком, фінансами і т.д., але в якийсь момент з’являється користувач, що дає спеціальну команду, яка переводить його в режим бога і дає повний контроль над агентом. Інший сценарій - якщо ми генеруємо з моделлю програмний код якихось криптоалгоритмів, авторизації і т.д., то в принципі ніщо не забороняє акуратно туди заінжектити потрібні вразливості. Ми не знаємо, чи є щось подібне в DeepSeek і чи не з’явиться у майбутньому. Але точно знаємо, що видає китайську пропаганду, у тому числі й не на користь України.
5. Чи безпечно користуватися мобільною апкою та китайським сервісом DeepSeek?
Якби мені зараз бюджет десь в $40-50 млрд і попросили отримати контроль над світовою інформацією та людськими думками з перспективою світового домінування, то я би купив якусь популярну соцмережу і додав би до неї безкоштовний AI-чат. Упс, здається я тут когось впізнаю… менше з тим - якщо бюджет скромніше, то почав би саме з безкоштовного AI-чату, бо через нього я би отримав величезний потік інформації для опрацювання з однієї сторони, а також міг би контрольовано просувати потрібні мені меседжі за рахунок “підтюненої” в моїх цілях моделі.
Також я думаю всім зрозуміло, що ставити на свої мобільні пристрої будь-які аплікації, до яких немає високої довіри - то не є достатньо розумно. Як і відправляти будь-які більш менш цінні дані в будь-який сервіс за межі своїх пристроїв. Про спотворені результати видачі я писав в попередньому пункті. Тому висновки робіть самі.
6. Як безпечно користуватися DeepSeek?
Тим не менше, користуватися моделлю без ризиків втрати даних можна - це якщо запускати її локально у себе чи десь у хмарах, до яких у нас є більше довіри. Про локальний запуск поговоримо окремо, а стосовно хмарних сервісів, то вона вже є на Azure, Vercel, Together.ai, щойно анонсувала її підтримку nVidia - кількість провайдерів буде лише зростати. Зверніть увагу, що є різні варіанти моделі - є оригинальна на 671 млрд параметрів, а є так звані “дистильовані” (distilled) її варіанти, які являють собою файн-тюнинг інших моделей - Llama, Qwen за допомогою оригінальної DeepSeek, і на сервісі Groq.com наприклад, оригінальна модель поки не доступна, є лише дистильований варіант на основі Llama 3.3 на 70 млрд параметрів. Також у моделей можуть бути різні варіанти квантування (quantization), які визначають кількість бітів на один параметр, від цього буде залежати її розмір, швидкість роботи і звичайно результат. Звичайно, що найкращі результати по якості відповідей буде показувати саме оригінальна модель, всі інші - то компроміс.