Forwarded from 🏄 Соревновательный Data Science | Kaggle | Чемпионаты (Aleron M)
Меняем правила игры в AI: обходим классические бенчмарки и ищем лучшие модели
Недавно работая над проектом чат-бота, моя команда студентов начала с классических бенчмарков - GLUE, SQuAD и прочих. На стандартных тестах всё выглядело круто, но в реальных условиях всё было не так радужно.
Пришлось менять подход. Вместо того чтобы гнаться за лидербордами, ребята начали комбинировать разные метрики. И тут их ждал сюрприз! Модели вроде DistilBERT и ALBERT реально выстрелили, особенно в понимании контекста и генерации ответов.
Вдохновленные этим, мы решили узнать, как другие ребята в AI выбирают свои модели. Запустили опрос среди ML-инженеров, дата-сайентистов, продактов и MLOps. Оказалось, что многие используют кастомные метрики, такие как F1-score и BLEU, что дало нам кучу идей для улучшения.
Так что, ребята, не бойтесь отходить от стандартов и учиться у сообщества. Это может привести к классным решениям!
➡️ Если есть желание внести вклад, то пройдите опрос и поделитесь своим опытом (7 минут): 👉 https://forms.gle/dDWeWaWbxhk6qsNL7
Репост = карма👼
Недавно работая над проектом чат-бота, моя команда студентов начала с классических бенчмарков - GLUE, SQuAD и прочих. На стандартных тестах всё выглядело круто, но в реальных условиях всё было не так радужно.
Пришлось менять подход. Вместо того чтобы гнаться за лидербордами, ребята начали комбинировать разные метрики. И тут их ждал сюрприз! Модели вроде DistilBERT и ALBERT реально выстрелили, особенно в понимании контекста и генерации ответов.
Вдохновленные этим, мы решили узнать, как другие ребята в AI выбирают свои модели. Запустили опрос среди ML-инженеров, дата-сайентистов, продактов и MLOps. Оказалось, что многие используют кастомные метрики, такие как F1-score и BLEU, что дало нам кучу идей для улучшения.
Так что, ребята, не бойтесь отходить от стандартов и учиться у сообщества. Это может привести к классным решениям!
➡️ Если есть желание внести вклад, то пройдите опрос и поделитесь своим опытом (7 минут): 👉 https://forms.gle/dDWeWaWbxhk6qsNL7
Репост = карма👼
Google Docs
Как реально выбирают LLM для своего кейса в 2025 году?
Бенчмарки переживают кризис: отдельные лидерборды всё хуже отражают реальную эффективность моделей в прикладных сценариях. Всё больше специалистов комбинируют метрики, тесты и косвенные сигналы, чтобы подобрать модель под свой конкретный кейс.
Мы проводим…
Мы проводим…
5👍2❤1
Чем заняться в выходные?
> конечно вайбкодить
Anthropic в своем YT выложили 15 лекций [Код с Клодом]
Там создание AI агентов, Claude Code, MCP, промптинг, про Manus, Canva, вайбкодинг в прод и др. Все это мы так же разбираем подробно с практикой тут.
> конечно вайбкодить
Anthropic в своем YT выложили 15 лекций [Код с Клодом]
Там создание AI агентов, Claude Code, MCP, промптинг, про Manus, Canva, вайбкодинг в прод и др. Все это мы так же разбираем подробно с практикой тут.
❤8⚡3👍1😁1
Forwarded from 🏆 Data Feeling | AI (Aleron M)
🔥 ТОП-10 технологий, без которых ты ноль в AI в 2025
Готов к жёсткой правде? Если не подружись с этими технологиями — будешь топтаться на месте, пока другие качают скиллы и улетают в топы. Вот что реально нужно учить прямо сейчас:
✅ Python - король ИИ.
Без него - даже не подходи к AI. 90% всего машинного обучения, датасаенса и нейросетей написано на нём. Хочешь писать агентов, тренировать модели и внедрять их в продакшн? Python or nothing.
✅ LangChain - базовый конструктор для ИИ
Если до сих пор не юзаешь — ты либо новичок, либо живёшь в 2022-м. Это готовый код под любые простые ИИ-автоматизации с помощью LLM. Вызываешь функции, подставляешь данные - и вуаля, AI агент работает и свайпает девчонок вместо тебя в тиндере.
✅ n8n - текущий лидер в автомазации рабочих процессов.
Задумайся, 80% задач машинного обучения, особенно в бизнесе, сводятся к классификации. Причем, огромный пласт тут - это текстовые задачи, а лидеры по точности на текстах - это LLM. Так в n8n пару лет назад завезли AI ноды (AI агенты) и демократизовали доступ к AI-инструментам, позволив людям без глубоких технических знаний решать сложные задачи. А значит этот пласт бизнес задач теперь решается без опытых ML/DS спецов. Живем в новой парадигме.
✅ Cursor - твой вайбовый IT кент)
Я специально поставил этот пункт сильно ниже Python, потому что скорее всего после Cursor, ты не захочешь уже глубоко нырять в классическую парадигму программирования. Cursor - это тот самый сумасшедший друг из IT, который берет твою идею и в считанные часы реализует. Лишь ты бы потом смог это продать)
✅ LangGraph - для тех, кто не ищет лёгких путей
Хочешь сложных нелинейных агентов? Тогда это твой выбор. Работает поверх LangChain, но даёт гибкость графов и состояний. По сути, это как n8n, но для кода, только мощнее.
✅ FastAPI - твой мост к продакшну
Если твой ИИ крут, но у него нет API - он никому не нужен. FastAPI позволяет за пару часов поднять рабочий эндпоинт, через который фронтенд или клиенты смогут получать результаты.
✅ Firebase - твой стартовый набор для стартапа
Представь: ты один, а нужно написать и фронт, и бэкенд. Фронт ты завайбкодил, но че по бэку? Firebase - это готовый бэкенд от Google. Он даёт тебе NoSQL-базу, аутентификацию и хранилище для файлов. Всё это через один простой SDK. Твоя задача — сосредоточиться на клиенте, а все серверные заботы оставить ему.
✅ Supabase - Open Source брат Firebase
Представь: тебе снова нужен бэкенд, но ты уже на всю голову вайбкодер, ты не хочешь тратить недели на настройку сервера, базы данных и API. Supabase — это как Firebase, но с открытым исходным кодом. Он даёт тебе всё, что нужно для бэкенда: мощную PostgreSQL базу, удобное API для общения с ней, аутентификацию пользователей и хранилище файлов. Весь готовый, мощный и гибкий набор, чтобы ты мог быстро запустить свой проект и сосредоточиться на главном - привлечь инвестиции! 🤫
✅ Git / GitHub - без этого тебя не возьмут в серьёзную команду
Раньше можно было хаотично пилить код в одном файле. Теперь каждый коммит = потенциальное трудоустройство. Если не умеешь мержить ветки и пушить без костылей - учись.
✅ CI/CD - деплой без головной боли
Твой код должен автоматически тестироваться и выкатываться. Railway, GitHub Actions, Docker — выбирай, но без автоматизации ты будешь тратить часы на рутину вместо прокачки моделей.
🔥 Вывод:
Без этого стека можно писать простые скрипты, но не сложные AI-продукты. Хочешь прокачаться? Начинай с Python, переходи на LangChain, подключай FastAPI и CI/CD, по возможности усиливай все это Cursor и n8n.
Накидайте реакций, если делать такие разборы и дальше! 🚀👇
Готов к жёсткой правде? Если не подружись с этими технологиями — будешь топтаться на месте, пока другие качают скиллы и улетают в топы. Вот что реально нужно учить прямо сейчас:
Без него - даже не подходи к AI. 90% всего машинного обучения, датасаенса и нейросетей написано на нём. Хочешь писать агентов, тренировать модели и внедрять их в продакшн? Python or nothing.
Если до сих пор не юзаешь — ты либо новичок, либо живёшь в 2022-м. Это готовый код под любые простые ИИ-автоматизации с помощью LLM. Вызываешь функции, подставляешь данные - и вуаля, AI агент работает и свайпает девчонок вместо тебя в тиндере.
Задумайся, 80% задач машинного обучения, особенно в бизнесе, сводятся к классификации. Причем, огромный пласт тут - это текстовые задачи, а лидеры по точности на текстах - это LLM. Так в n8n пару лет назад завезли AI ноды (AI агенты) и демократизовали доступ к AI-инструментам, позволив людям без глубоких технических знаний решать сложные задачи. А значит этот пласт бизнес задач теперь решается без опытых ML/DS спецов. Живем в новой парадигме.
Я специально поставил этот пункт сильно ниже Python, потому что скорее всего после Cursor, ты не захочешь уже глубоко нырять в классическую парадигму программирования. Cursor - это тот самый сумасшедший друг из IT, который берет твою идею и в считанные часы реализует. Лишь ты бы потом смог это продать)
Хочешь сложных нелинейных агентов? Тогда это твой выбор. Работает поверх LangChain, но даёт гибкость графов и состояний. По сути, это как n8n, но для кода, только мощнее.
Если твой ИИ крут, но у него нет API - он никому не нужен. FastAPI позволяет за пару часов поднять рабочий эндпоинт, через который фронтенд или клиенты смогут получать результаты.
Представь: ты один, а нужно написать и фронт, и бэкенд. Фронт ты завайбкодил, но че по бэку? Firebase - это готовый бэкенд от Google. Он даёт тебе NoSQL-базу, аутентификацию и хранилище для файлов. Всё это через один простой SDK. Твоя задача — сосредоточиться на клиенте, а все серверные заботы оставить ему.
Представь: тебе снова нужен бэкенд, но ты уже на всю голову вайбкодер, ты не хочешь тратить недели на настройку сервера, базы данных и API. Supabase — это как Firebase, но с открытым исходным кодом. Он даёт тебе всё, что нужно для бэкенда: мощную PostgreSQL базу, удобное API для общения с ней, аутентификацию пользователей и хранилище файлов. Весь готовый, мощный и гибкий набор, чтобы ты мог быстро запустить свой проект и сосредоточиться на главном - привлечь инвестиции! 🤫
Раньше можно было хаотично пилить код в одном файле. Теперь каждый коммит = потенциальное трудоустройство. Если не умеешь мержить ветки и пушить без костылей - учись.
Твой код должен автоматически тестироваться и выкатываться. Railway, GitHub Actions, Docker — выбирай, но без автоматизации ты будешь тратить часы на рутину вместо прокачки моделей.
🔥 Вывод:
Без этого стека можно писать простые скрипты, но не сложные AI-продукты. Хочешь прокачаться? Начинай с Python, переходи на LangChain, подключай FastAPI и CI/CD, по возможности усиливай все это Cursor и n8n.
Накидайте реакций, если делать такие разборы и дальше! 🚀👇
Please open Telegram to view this post
VIEW IN TELEGRAM
100 15❤8👍3🤝2😱1
Лучшие модели, выпущенные на прошлой неделе, окажутся уже худшими, на следующей неделе
Please open Telegram to view this post
VIEW IN TELEGRAM
340❤6
Появился новый инструмент для разработчиков — EasyCode. Это полностью локальный сервис, созданный для комфортной разработки сайтов и приложений, без ограничений, которые накладывают онлайн-платформы.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍2👎1🗿1
🚀 Свершилось чудо: OpenAI выпустили gpt-oss! Теперь реально «Open».
Но что это значит лично для тебя?
С выходом gpt-oss-120b и gpt-oss-20b, каждый из вас получает доступ к мощным открытым моделям, которые можно настраивать и внедрять в свои проекты! Судя по их бенчмаркам, это лучшие модели в своей нише на сегодняшний день.
🔍 Что в них крутого: Эти модели включают в себя reasoning и вызов инструментов (tool use). Это означает, что их можно использовать в агентных приложениях в собственных продуктах.
💡 Как использовать? Модели уже интегрированы в Ollama, так что если у тебя есть система автоматизации, просто поменяй название модели на gpt-oss:latest и посмотри, что получится. Это действительно может стать недостающим звеном, добавив которое, твой пет-проект полетит!
🌐 Заходи тестить новые модельки: https://www.gpt-oss.com/! Делись своими успехами и неудачами в комментах! 💬👇
Но что это значит лично для тебя?
С выходом gpt-oss-120b и gpt-oss-20b, каждый из вас получает доступ к мощным открытым моделям, которые можно настраивать и внедрять в свои проекты! Судя по их бенчмаркам, это лучшие модели в своей нише на сегодняшний день.
🔍 Что в них крутого: Эти модели включают в себя reasoning и вызов инструментов (tool use). Это означает, что их можно использовать в агентных приложениях в собственных продуктах.
💡 Как использовать? Модели уже интегрированы в Ollama, так что если у тебя есть система автоматизации, просто поменяй название модели на gpt-oss:latest и посмотри, что получится. Это действительно может стать недостающим звеном, добавив которое, твой пет-проект полетит!
🌐 Заходи тестить новые модельки: https://www.gpt-oss.com/! Делись своими успехами и неудачами в комментах! 💬👇