This media is not supported in your browser
VIEW IN TELEGRAM
🤗 Hugging Face тепер можна користуватися як SQL-студією
Хлопці вбудували у свій багатомільйонний розділ із датасетами Data Studio. Тепер з потрібної таблиці можна прямо на платформі витягти те, що потрібно, не завантажуючи її повністю. Результат повернеться у вигляді CSV, або ним можна поділитися посиланням.
Ну і найприємніше: писати SQL-запит самому не обов'язково. Досить описати все природною мовою, а код за вас напише DeepSeek V3.
Хлопці вбудували у свій багатомільйонний розділ із датасетами Data Studio. Тепер з потрібної таблиці можна прямо на платформі витягти те, що потрібно, не завантажуючи її повністю. Результат повернеться у вигляді CSV, або ним можна поділитися посиланням.
Ну і найприємніше: писати SQL-запит самому не обов'язково. Досить описати все природною мовою, а код за вас напише DeepSeek V3.
❤8
Перший день опенсорсу від DeepSeek
Наприкінці минулого тижня хлопці пообіцяли, що з 24 по 28 лютого викладуть у відкритий доступ п'ять репозиторіїв з їхньої внутрішньої екосистеми.
Сьогодні показали проєкт FlashMLA - оптимізовані GPU-ядра, які крутяться в проде систем DeepSeek.
MLA - це multi latent attention, метод, що дає змогу скорочувати споживання пам'яті за рахунок стиснення матриць ключів і значень у трансформерах. Метод активно використовується в моделях DeepSeek і загалом дуже перспективний, але готових оптимізацій для нього поки не так багато. Тож FlashMLA це готове рішення для бадьорого інференсу.
Проєкт підтримує bfloat16, тому тут і швидкість, і точність. Код годиться для всієї серії Hopper, тобто для H100, H800 і тд.
Наприкінці минулого тижня хлопці пообіцяли, що з 24 по 28 лютого викладуть у відкритий доступ п'ять репозиторіїв з їхньої внутрішньої екосистеми.
Сьогодні показали проєкт FlashMLA - оптимізовані GPU-ядра, які крутяться в проде систем DeepSeek.
MLA - це multi latent attention, метод, що дає змогу скорочувати споживання пам'яті за рахунок стиснення матриць ключів і значень у трансформерах. Метод активно використовується в моделях DeepSeek і загалом дуже перспективний, але готових оптимізацій для нього поки не так багато. Тож FlashMLA це готове рішення для бадьорого інференсу.
Проєкт підтримує bfloat16, тому тут і швидкість, і точність. Код годиться для всієї серії Hopper, тобто для H100, H800 і тд.
🔥3
🚀 Anthropic випустили Claude Sonnet 3.7 з ризонінгом
Бенчмарки говорять самі за себе: модель дійсно дуже гарна у всілякій розробці. На SWE Bench вона на добрих 12-13 процентних пунктів перевершує o1, R1 і навіть o3-mini high.
При цьому:
⭐ У чаті модель доступна навіть фрі юзерам
⭐ В API ціна не змінилася щодо попередньої версії. До речі, ризонінг можна контролювати дуже чітко, вказуючи точну кількість токенів, яку можна "витратити" на роздуми.
P.S дочекались🥹
Бенчмарки говорять самі за себе: модель дійсно дуже гарна у всілякій розробці. На SWE Bench вона на добрих 12-13 процентних пунктів перевершує o1, R1 і навіть o3-mini high.
При цьому:
⭐ У чаті модель доступна навіть фрі юзерам
⭐ В API ціна не змінилася щодо попередньої версії. До речі, ризонінг можна контролювати дуже чітко, вказуючи точну кількість токенів, яку можна "витратити" на роздуми.
P.S дочекались🥹
❤4🔥1
Також анонсували Claude Code: кастомного Cursor від Anthropic
Це агент, який зможе працювати прямо всередині вашої кодової бази: читати файли, змінювати їх, писати і запускати тести, коммітити і пушити, використовувати командний рядок та інше.
Поки що він у превью. Пресети та інструкція тут, встановити собі можна ось так:
Це агент, який зможе працювати прямо всередині вашої кодової бази: читати файли, змінювати їх, писати і запускати тести, коммітити і пушити, використовувати командний рядок та інше.
Поки що він у превью. Пресети та інструкція тут, встановити собі можна ось так:
npm install -g @anthropic-ai/claude-code
cd your-project-directory
$ claude🔥5
⚡️ Microsoft випустили нове покоління сімейства Phi
Phi-4-Multimodal
Мультимодальність включає текст, аудіо та відео. Ну купі мультимодальних бенчмарків модель перевершує
У звичних математичних і кодінгових завданнях теж непогано: mini з ризонінгом відповідає
Усередині 2 адаптери для відео та аудіо + лори для модальностей в основній моделі, щоб не змінювати її власні ваги. Навчали в три значних етапи:
1. Претрейн на тексті + файнтюн на тексті
2. Мультимодальний трейн на vision, audio і
3. Різонінг трейн на
Phi-4-Multimodal
і Phi-4-Mini вже лежать в опенсорсі під ліцензією MIT та інтегровані в Transformers. Мультимодальність включає текст, аудіо та відео. Ну купі мультимодальних бенчмарків модель перевершує
GPT-4o, Gemini-2.0 Flash і 1.5 Pro. Це перша відкрита модель такого рівня піднімання мови та OCR. У звичних математичних і кодінгових завданнях теж непогано: mini з ризонінгом відповідає
o1-mini і дистиляціям R1. Усередині 2 адаптери для відео та аудіо + лори для модальностей в основній моделі, щоб не змінювати її власні ваги. Навчали в три значних етапи:
1. Претрейн на тексті + файнтюн на тексті
2. Мультимодальний трейн на vision, audio і
vision-speech3. Різонінг трейн на
CoT + навчання з підкріпленням з DPO🔥2❤1👍1
У твіттер уже витекла системна карта GPT-4.5
«Це наша найбільша модель, яка продовжує парадигму масштабування претрейну і ризонінгу» - пишуть у ній
Також у доці є бенчмарки: багато оцінок безпеки і трохи якості. За відчуттями гірше, ніж o3-mini і навіть o1, але відстає не сильно.
«Це наша найбільша модель, яка продовжує парадигму масштабування претрейну і ризонінгу» - пишуть у ній
Також у доці є бенчмарки: багато оцінок безпеки і трохи якості. За відчуттями гірше, ніж o3-mini і навіть o1, але відстає не сильно.
🔥3
Нове відео від Андрія Карпати: "Як я використовую LLM"
Це великий гайд щодо того, як підібрати оптимальний інструмент для ваших завдань і при цьому заощадити час і гроші. У програмі:
- Як працюють екосистеми LLM
- ChatGPT під капотом
- Ціноутворення: як не переплачувати
- Ризонери: коли і як їх використовувати
- Пошук в інтернеті, deep research, tool use
- Що таке advanced voice mode
- Claude і його артефакти
- Cursor
- NotebookLM
- Генератори відео та картинок
- Пам'ять у ChatGPT
- І навіть кастомні GPTs
Усі таймкоди на відео позначені, загальна тривалість 2 години. Те що потрібно на вихідні👌.
Це великий гайд щодо того, як підібрати оптимальний інструмент для ваших завдань і при цьому заощадити час і гроші. У програмі:
- Як працюють екосистеми LLM
- ChatGPT під капотом
- Ціноутворення: як не переплачувати
- Ризонери: коли і як їх використовувати
- Пошук в інтернеті, deep research, tool use
- Що таке advanced voice mode
- Claude і його артефакти
- Cursor
- NotebookLM
- Генератори відео та картинок
- Пам'ять у ChatGPT
- І навіть кастомні GPTs
Усі таймкоди на відео позначені, загальна тривалість 2 години. Те що потрібно на вихідні👌.
😁7❤2
Media is too big
VIEW IN TELEGRAM
⚡️ У Google Colab завезли Data Science агента!
Він створений спеціально для роботи з DS/ML і може створювати не просто фрагменти коду, а цілі ноутбуки. Усе просто:
1. Потрібно довантажити свої дані
2. описати цілі (наприклад, «візуалізуй», «проведи EDA», «напиши й оптимізуй модель передбачення таргета»)
3. Сидіти і насолоджуватися тим, як агент сам пише і запускає комірки, імпортує потрібні бібліотеки і вдосконалює свій код
До речі, на бенчмарку DABStep (він якраз оцінює здібності аналізувати дату) агент посів четверте місце, одразу після o1, o3-mini і Claude, а це досить потужний рівень.
Він створений спеціально для роботи з DS/ML і може створювати не просто фрагменти коду, а цілі ноутбуки. Усе просто:
1. Потрібно довантажити свої дані
2. описати цілі (наприклад, «візуалізуй», «проведи EDA», «напиши й оптимізуй модель передбачення таргета»)
3. Сидіти і насолоджуватися тим, як агент сам пише і запускає комірки, імпортує потрібні бібліотеки і вдосконалює свій код
До речі, на бенчмарку DABStep (він якраз оцінює здібності аналізувати дату) агент посів четверте місце, одразу після o1, o3-mini і Claude, а це досить потужний рівень.
🔥4
QwQ-32B Alibaba дропнули START - модель, донавчену на використання інструментів
START - це Self-Taught Reasoner with Tools. Тобто тут зі звичайних ланцюжків міркувань намагаються зробити такі, щоб модель у якийсь момент сама розуміла, що добре було б перевірити щось за допомогою коду, йшла і перевіряла.
Для цього взяли QwQ-32B і зафайнтюнили його у два етапи:
1. Під час інференсу прямо в CoT вставляли підказки. На кшталт «Можливо, тут добре б використати Python», наче моделька сама до цього здогадалася. Такі підказки ставали частиною контексту і змушували різонер подумати довше, згенерувати код і запустити його.
2. Після першого етапу в нас залишається купа ланцюжків із використанням інтерпретатора. Серед них є помилкові та хороші. Фільтруємо, обробляємо, і ще раз донавчаємо модель на чистих і правильних CoT з інструментами.
Треба сказати, дуже прикольний спосіб генерації специфічної синтетики, який, до того ж, дав свої результати.
START - це Self-Taught Reasoner with Tools. Тобто тут зі звичайних ланцюжків міркувань намагаються зробити такі, щоб модель у якийсь момент сама розуміла, що добре було б перевірити щось за допомогою коду, йшла і перевіряла.
Для цього взяли QwQ-32B і зафайнтюнили його у два етапи:
1. Під час інференсу прямо в CoT вставляли підказки. На кшталт «Можливо, тут добре б використати Python», наче моделька сама до цього здогадалася. Такі підказки ставали частиною контексту і змушували різонер подумати довше, згенерувати код і запустити його.
2. Після першого етапу в нас залишається купа ланцюжків із використанням інтерпретатора. Серед них є помилкові та хороші. Фільтруємо, обробляємо, і ще раз донавчаємо модель на чистих і правильних CoT з інструментами.
Треба сказати, дуже прикольний спосіб генерації специфічної синтетики, який, до того ж, дав свої результати.
👍3❤1
Модель навчену за допомогою RL-підходу DeepSeek на основі R1-Omni та алгоритму RLVR (Reinforcement Learning with Verifiable Rewards), який DeepSeek представили в статті про R1. На відміну від звичайного RLHF, RLVR не використовує попередньо навчену модель винагороди, а порівнює відповіді моделі з правильними напряму, зазвичай у поєднанні з GRPO.
У немультимодальній R1 від DeepSeek це працювало відмінно, але тут RLVR використовують не лише для тексту, а й для роботи зі звуком і відео (зокрема розуміння емоцій у роликах). Це ті модальності, куди міркування додають рідко через складність і високу вартість. Водночас міркування були б дуже корисними, оскільки в системах обробки відео часто потрібна інтерпретованість.
Тому RLVR, який працює без розмітки, – ідеальне рішення. Для досягнення результату знадобилося лише 580 відеозразків з розміткою CoT, решту дотренували за допомогою RLVR на звичайних датасетах з міткою.
При цьому метрики порівняно з базовими моделями зросли на 5%, що є черговим доказом того, що майже в будь-якому завданні навіть таке "ліниве" додавання міркування окупається втричі.
Стаття | Модель
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4👏1