Data Scientist | IT
1.94K subscribers
650 photos
3 videos
1 file
706 links
Добро пожаловать в клуб.

Полезные материалы из мира DS & ML на регулярной основе.

По всем вопросам: @godinmedia
Download Telegram
Динамический полиморфизм для свободных функций: еще одна практика из С++ для машинного обучения

#почитать

Я Кирилл Колодяжный, разработчик систем хранения данных в YADRO и ML-энтузиаст. Продолжаю рассказывать о паттернах С++, которые легко адаптировать под задачи машинного обучения. В этой части поговорим о динамическом полиморфизме — технологии, которая помогает объединить интерфейс для запуска вычислений с разными условиями. Ссылку на первую часть найдете в конце статьи.


Читать статью
Please open Telegram to view this post
VIEW IN TELEGRAM
Лес под прицелом нейросетей: сравниваем модели для выявления рубок со спутника

#почитать

Ханты-Мансийский автономный округ (ХМАО) – это не только 50% российской нефти, но и 530 тыс. кв. км лесов. Развитие инфраструктуры месторождений и интенсивные заготовки требуют жесткого контроля вырубок. С 2014 года здесь ведут мониторинг по снимкам со спутников, собрав базу из 15000 записей, включающих информацию о выявленных лесных рубках, но есть проблема: ручное дешифрирование происходит слишком долго и дорого.

Читать статью
Please open Telegram to view this post
VIEW IN TELEGRAM
Повторяй промт дважды — и нейросеть станет умнее. Это реально работает

#почитать

Ещё раз: повторяй свой промт дважды (и даже трижды) — и нейросеть станет умнее. Это реально работает!

Читать статью
Please open Telegram to view this post
VIEW IN TELEGRAM
🦾 Препарируем рекомендательные системы методами машинного обучения

На открытом уроке разберём, как работают рекомендательные системы и какие подходы используются в машинном обучении. Покажем, как формируется рекомендация и как реализовать один из методов на практике с помощью Python.

Вы не просто послушаете теорию, а соберёте свою первую рекомендательную модель.

👨‍💻🛠👨🏻‍💻 Урок подойдёт тем, кто начинает путь в машинном обучении и хочет разобраться в одной из самых востребованных задач.

Встречаемся 20 мая в 18:00 МСК в преддверии старта курса «Машинное обучение. Специализация».

➡️ Принять участие бесплатно: https://vk.cc/cXUqAm

Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576
👍1🔥1
🌐Python Pydantic Tutorial: Complete Data Validation Course

#посмотреть

In this video, we'll be learning how to use Pydantic, Python's most popular data validation library. Pydantic uses type hints to validate data at runtime, ensuring that the data coming into your application meets your expectations. We'll cover everything from basic model creation and field validation to custom validators, type coercion, nested models, and model configurations. We'll also see why Pydantic is so widely used in libraries like FastAPI, data processing pipelines, and AI tools. If you've ever struggled with messy manual validation code or data that isn't the right type or format, Pydantic will make your life much easier.

Смотреть на Ютубе ⏱️3 часа
Please open Telegram to view this post
VIEW IN TELEGRAM
От чат-бота к AI агенту: собираем локальную систему на LibreChat, Langflow и MCP

#почитать

В прошлой статье мы строили локальную систему для транскрибации аудио, а сегодня пойдём дальше и соберём локальную агентную AI-систему — без облаков и с контролем над данными.

В этой статье я покажу, как собрать связку из трёх ключевых компонентов:

1. LibreChat — UI для работы с LLM

2. Langflow — low-code платформа и визуальный редактор

3. MCP — стандарт для подключения инструментов

Статья построена по принципу «по нарастающей», где каждый новый уровень — это рабочий инструмент. Можно остановиться на любом этапе, а можно пройти все и тогда получите связку UI + инструменты + централизованная логика (и дальше ее можно развивать под свои сценарии).

Читать статью
Please open Telegram to view this post
VIEW IN TELEGRAM
152-ФЗ на практике: как найти и контролировать ПДн в базах данных 🔎

Персональные данные сегодня есть практически в каждой корпоративной системе: CRM, ERP, DWH, BI, служебных таблицах и выгрузках.

Но в большинстве компаний отсутствует прозрачность: где именно хранятся персональные данные, кто имеет к ним доступ, сколько существует «теневых» копий, используются ли эти данные вообще и какие риски это создает для бизнеса.

📆 26 мая в 11:00 МСК приглашаем на бесплатный онлайн-вебинар: «Управление персональными данными: как выстроить контроль в базах данных и снизить риски по 152-ФЗ»

На вебинаре разберем:
📊 что 152-ФЗ говорит про ПДн в СУБД и DWH
📊 как автоматически находить и классифицировать ПДн
📊 как выявлять лишние копии и неиспользуемые данные
📊 зачем нужен мониторинг использования ПДн
📊 как выстроить системный процесс контроля
📊 как снизить нагрузку на ИБ- и data-команды за счет автоматизации

Также покажем практический сценарий мониторинга ПДн в СУБД — от сканирования базы до автоматических рекомендаций по снижению рисков.

👥 Вебинар будет полезен руководителям ИБ, архитекторам и руководителям DWH / BI, администраторам СУБД.

🎁 Бонус участникам — чек-лист по контролю персональных данных в СУБД и DWH.

🔗 Регистрация по ссылке
👍1🙏1
Я обучил модель на 10 000 код-ревью, чтобы отсеять мусор. Она начала предсказывать увольнения

#почитать

Я хотел решить простую инженерную задачу: отсеять «шум» в комментариях на код-ревью. Обучил модель на 10 000 примеров, получил точность 87%. Потом открыл список ошибок. Оказалось, модель научилась предсказывать увольнения сотрудников за два месяца до того, как они принесут заявление. Рассказываю, как «пустые» комментарии выдают выгорание и почему данные иногда знают о нас больше, чем мы сами.

Читать статью
Please open Telegram to view this post
VIEW IN TELEGRAM
Anthropic против OpenAI: два разных подхода к «быстрому режиму»

#почитать

Anthropic и OpenAI почти одновременно запустили «быстрый режим» для своих моделей — и за одинаковым названием скрываются принципиально разные подходы к ускорению инференса.

В одном случае это реальная модель с уменьшенным батчингом, в другом — отдельная, более компактная версия на специализированных чипах Cerebras.

Разбираемся, что именно стоит за цифрами «2.5×» и «1000 токенов в секунду», где компромисс по качеству и что это значит для разработчиков на практике.

Читать статью
Please open Telegram to view this post
VIEW IN TELEGRAM
Как развернуть OpenClaw и не слить ему все свои данные

#почитать

OpenClaw (ex. Moltbook и Clawdbot) мощно взорвал начало года. Все бросились устанавливать себе агента, и я понимаю, почему получился такой хайп. Ведь это первый в мире опен сорсный персональный AI-ассистент, которого можно подключить к мессенджеру, почте, календарю и практически чему угодно еще и он будет управлять моей личной жизнью. Ему можно поручить покупку билетов в кино, бронь столика в любимом кафе или внести важную встречу в календарь.

Другая сторона хайпа — вопросы к безопасности агента, здесь шумихи не меньше. То исследователи Gen Threat Labsнашли 18 000 открытых инстансов OpenClaw, к которым можно подключиться и управлять уже не своей, а чужой личной жизнью. То Касперский пишет, что каталог «навыков» агента стал рассадником вредоносного кода. Или вспомнить историю о том, что OpenClaw сливал данные своих пользователей через Moltbook (соцсеть для нейронок).

И что теперь, совсем нельзя пользоваться этим агентом? Я считаю, что пользоваться можно, но осторожно и лучше в облаке. Расскажу, как это сделать безопасно.


Читать статью
Please open Telegram to view this post
VIEW IN TELEGRAM
Семантический компьютер на 64 нейронах и обучение на шуме

#почитать

В предыдущей статье о машинном обучении как алхимии я говорил о том, что можно найти новые решения, не используя GPU или дорогие видеокарты. В этой статье я расскажу, о том, как я экспериментировал с continual learning и композициональностью мышления на микронейросетях, и причем здесь философ Лев Выготский.


Читать статью
Please open Telegram to view this post
VIEW IN TELEGRAM