Data Scientist | IT
1.94K subscribers
650 photos
3 videos
1 file
706 links
Добро пожаловать в клуб.

Полезные материалы из мира DS & ML на регулярной основе.

По всем вопросам: @godinmedia
Download Telegram
Как устроен Codex

#почитать

Подробный разбор того, как команда OpenAI Codex создаёт своего кодового агента, как его используют другие команды, как он влияет на инженерные практики создателей ChatGPT и что это может значить для будущего разработки ПО.

Чтобы в этом разобраться, я поговорил с тремя сотрудниками OpenAI:

Тибо Соттио (Thibault Sottiaux) — руководитель Codex.

Шао-Цянь Ма (Shao-Qian (SQ) Mah) — исследователь в команде Codex, обучающий модели, на которых тот работает.

Эмма Тан (Emma Tang) — руководитель data-инфраструктуры; она не входит в команду Codex, но её команда активно им пользуется.

Читать статью
Please open Telegram to view this post
VIEW IN TELEGRAM
Нейросимвольный ИИ: архитектура семантической нейросети. Как научить LLM считать

#почитать

LLM ошибаются в элементарной математике. Корпорации тратят миллиарды, но в конечном счете вынуждены прикручивать калькуляторы к вычислительным машинам невероятной мощи. Все попытки исправить через Chain-of-Thought, fine-tuning на задачах счёта, увеличение контекста не сработали.

Я провёл серию экспериментов чтобы понять почему, и пришел к выводу, что нейросети просто не предназначены для дискретной арифметики. Их предназначение непрерывные трансформации.

В этой статье описывается реализация новой архитектуры нейросетей, объединяющая точность символьного ИИ и способность к обобщению LLM. Код как всегда прилагается.

Читать статью
Please open Telegram to view this post
VIEW IN TELEGRAM
Новый инструмент на основе ML для анализа дыхания растений

#почитать

По всему миру сельское хозяйство сталкивается с ростом потребности в продуктах питания и ограниченностью водных ресурсов. Эффективность выращивания культур во многом зависит от того, насколько точно удаётся описывать и предсказывать процессы, определяющие фотосинтез и потерю воды у растений. Одну из ключевых ролей здесь играют устьица, микроскопические поры на поверхности листьев, которые регулируют поступление CO₂ и испарение влаги.

В 2025 году исследователи из Иллинойсского университета в Урбане-Шампейне представили систему Stomata In-Sight, которая объединяет конфокальную микроскопию, газообменные измерения и автоматизированный анализ изображений на основе ML. Такой подход позволяет получать количественные оценки геометрии устьиц в условиях контролируемой среды и сопоставлять их с измеряемой проводимостью и фотосинтезом. Это важно не только для физиологии растений, но и для прикладных задач, связанных с эффективностью использования воды и устойчивостью урожая при засухе. В этой статье я расскажу о самом исследовании и о том, как устроена Stomata In-Sight.


Читать статью
Please open Telegram to view this post
VIEW IN TELEGRAM
Как ML-модели решают, какой процент по кредиту вы получите

#почитать

Почему два человека с одинаковым доходом и кредитной историей могут платить совершенно разный процент по одному и тому же кредиту? В этой статье мы заглянем под капот банковских систем ценообразования, разберем реальные кейсы дискриминации от Ally Bank и Test-Achats, и наглядно покажем, как деревья решений и градиентный бустинг используются для предсказания вашей платежеспособности — и как они могут ошибаться.

Читать статью
Please open Telegram to view this post
VIEW IN TELEGRAM
RAG на PHP + Qdrant: быстрый MVP для внутренней базы знаний

#почитать

RAG на PHP - звучит непривычно. Делюсь опытом построения чат-бота для поиска по внутренней базе документов: Symfony, Qdrant с гибридным поиском, YandexGPT для embedding и генерации ответов. Внутри — готовый код, подводные камни чанкинга и советы, которые сэкономят вам время.

Читать статью
Please open Telegram to view this post
VIEW IN TELEGRAM
Динамический полиморфизм для свободных функций: еще одна практика из С++ для машинного обучения

#почитать

Я Кирилл Колодяжный, разработчик систем хранения данных в YADRO и ML-энтузиаст. Продолжаю рассказывать о паттернах С++, которые легко адаптировать под задачи машинного обучения. В этой части поговорим о динамическом полиморфизме — технологии, которая помогает объединить интерфейс для запуска вычислений с разными условиями. Ссылку на первую часть найдете в конце статьи.


Читать статью
Please open Telegram to view this post
VIEW IN TELEGRAM
Лес под прицелом нейросетей: сравниваем модели для выявления рубок со спутника

#почитать

Ханты-Мансийский автономный округ (ХМАО) – это не только 50% российской нефти, но и 530 тыс. кв. км лесов. Развитие инфраструктуры месторождений и интенсивные заготовки требуют жесткого контроля вырубок. С 2014 года здесь ведут мониторинг по снимкам со спутников, собрав базу из 15000 записей, включающих информацию о выявленных лесных рубках, но есть проблема: ручное дешифрирование происходит слишком долго и дорого.

Читать статью
Please open Telegram to view this post
VIEW IN TELEGRAM
Повторяй промт дважды — и нейросеть станет умнее. Это реально работает

#почитать

Ещё раз: повторяй свой промт дважды (и даже трижды) — и нейросеть станет умнее. Это реально работает!

Читать статью
Please open Telegram to view this post
VIEW IN TELEGRAM
🦾 Препарируем рекомендательные системы методами машинного обучения

На открытом уроке разберём, как работают рекомендательные системы и какие подходы используются в машинном обучении. Покажем, как формируется рекомендация и как реализовать один из методов на практике с помощью Python.

Вы не просто послушаете теорию, а соберёте свою первую рекомендательную модель.

👨‍💻🛠👨🏻‍💻 Урок подойдёт тем, кто начинает путь в машинном обучении и хочет разобраться в одной из самых востребованных задач.

Встречаемся 20 мая в 18:00 МСК в преддверии старта курса «Машинное обучение. Специализация».

➡️ Принять участие бесплатно: https://vk.cc/cXUqAm

Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576
👍1🔥1
🌐Python Pydantic Tutorial: Complete Data Validation Course

#посмотреть

In this video, we'll be learning how to use Pydantic, Python's most popular data validation library. Pydantic uses type hints to validate data at runtime, ensuring that the data coming into your application meets your expectations. We'll cover everything from basic model creation and field validation to custom validators, type coercion, nested models, and model configurations. We'll also see why Pydantic is so widely used in libraries like FastAPI, data processing pipelines, and AI tools. If you've ever struggled with messy manual validation code or data that isn't the right type or format, Pydantic will make your life much easier.

Смотреть на Ютубе ⏱️3 часа
Please open Telegram to view this post
VIEW IN TELEGRAM
От чат-бота к AI агенту: собираем локальную систему на LibreChat, Langflow и MCP

#почитать

В прошлой статье мы строили локальную систему для транскрибации аудио, а сегодня пойдём дальше и соберём локальную агентную AI-систему — без облаков и с контролем над данными.

В этой статье я покажу, как собрать связку из трёх ключевых компонентов:

1. LibreChat — UI для работы с LLM

2. Langflow — low-code платформа и визуальный редактор

3. MCP — стандарт для подключения инструментов

Статья построена по принципу «по нарастающей», где каждый новый уровень — это рабочий инструмент. Можно остановиться на любом этапе, а можно пройти все и тогда получите связку UI + инструменты + централизованная логика (и дальше ее можно развивать под свои сценарии).

Читать статью
Please open Telegram to view this post
VIEW IN TELEGRAM
152-ФЗ на практике: как найти и контролировать ПДн в базах данных 🔎

Персональные данные сегодня есть практически в каждой корпоративной системе: CRM, ERP, DWH, BI, служебных таблицах и выгрузках.

Но в большинстве компаний отсутствует прозрачность: где именно хранятся персональные данные, кто имеет к ним доступ, сколько существует «теневых» копий, используются ли эти данные вообще и какие риски это создает для бизнеса.

📆 26 мая в 11:00 МСК приглашаем на бесплатный онлайн-вебинар: «Управление персональными данными: как выстроить контроль в базах данных и снизить риски по 152-ФЗ»

На вебинаре разберем:
📊 что 152-ФЗ говорит про ПДн в СУБД и DWH
📊 как автоматически находить и классифицировать ПДн
📊 как выявлять лишние копии и неиспользуемые данные
📊 зачем нужен мониторинг использования ПДн
📊 как выстроить системный процесс контроля
📊 как снизить нагрузку на ИБ- и data-команды за счет автоматизации

Также покажем практический сценарий мониторинга ПДн в СУБД — от сканирования базы до автоматических рекомендаций по снижению рисков.

👥 Вебинар будет полезен руководителям ИБ, архитекторам и руководителям DWH / BI, администраторам СУБД.

🎁 Бонус участникам — чек-лист по контролю персональных данных в СУБД и DWH.

🔗 Регистрация по ссылке
👍1🙏1
Я обучил модель на 10 000 код-ревью, чтобы отсеять мусор. Она начала предсказывать увольнения

#почитать

Я хотел решить простую инженерную задачу: отсеять «шум» в комментариях на код-ревью. Обучил модель на 10 000 примеров, получил точность 87%. Потом открыл список ошибок. Оказалось, модель научилась предсказывать увольнения сотрудников за два месяца до того, как они принесут заявление. Рассказываю, как «пустые» комментарии выдают выгорание и почему данные иногда знают о нас больше, чем мы сами.

Читать статью
Please open Telegram to view this post
VIEW IN TELEGRAM
Anthropic против OpenAI: два разных подхода к «быстрому режиму»

#почитать

Anthropic и OpenAI почти одновременно запустили «быстрый режим» для своих моделей — и за одинаковым названием скрываются принципиально разные подходы к ускорению инференса.

В одном случае это реальная модель с уменьшенным батчингом, в другом — отдельная, более компактная версия на специализированных чипах Cerebras.

Разбираемся, что именно стоит за цифрами «2.5×» и «1000 токенов в секунду», где компромисс по качеству и что это значит для разработчиков на практике.

Читать статью
Please open Telegram to view this post
VIEW IN TELEGRAM
Как развернуть OpenClaw и не слить ему все свои данные

#почитать

OpenClaw (ex. Moltbook и Clawdbot) мощно взорвал начало года. Все бросились устанавливать себе агента, и я понимаю, почему получился такой хайп. Ведь это первый в мире опен сорсный персональный AI-ассистент, которого можно подключить к мессенджеру, почте, календарю и практически чему угодно еще и он будет управлять моей личной жизнью. Ему можно поручить покупку билетов в кино, бронь столика в любимом кафе или внести важную встречу в календарь.

Другая сторона хайпа — вопросы к безопасности агента, здесь шумихи не меньше. То исследователи Gen Threat Labsнашли 18 000 открытых инстансов OpenClaw, к которым можно подключиться и управлять уже не своей, а чужой личной жизнью. То Касперский пишет, что каталог «навыков» агента стал рассадником вредоносного кода. Или вспомнить историю о том, что OpenClaw сливал данные своих пользователей через Moltbook (соцсеть для нейронок).

И что теперь, совсем нельзя пользоваться этим агентом? Я считаю, что пользоваться можно, но осторожно и лучше в облаке. Расскажу, как это сделать безопасно.


Читать статью
Please open Telegram to view this post
VIEW IN TELEGRAM
Семантический компьютер на 64 нейронах и обучение на шуме

#почитать

В предыдущей статье о машинном обучении как алхимии я говорил о том, что можно найти новые решения, не используя GPU или дорогие видеокарты. В этой статье я расскажу, о том, как я экспериментировал с continual learning и композициональностью мышления на микронейросетях, и причем здесь философ Лев Выготский.


Читать статью
Please open Telegram to view this post
VIEW IN TELEGRAM