Data Scientist | IT
1.94K subscribers
650 photos
3 videos
1 file
706 links
Добро пожаловать в клуб.

Полезные материалы из мира DS & ML на регулярной основе.

По всем вопросам: @godinmedia
Download Telegram
«Я всё сломал за выходные»: как мы учим LLM писать в стиле конкретного СМИ

#почитать

про техническую задачу, с которой мы столкнулись: как заставить LLM писать текст так, чтобы его нельзя было отличить от написанного конкретной редакцией. Не «хороший текст», не «грамотный текст», а такой, который звучит как этот конкретный городской портал или этот Telegram-канал.


Читать статью
Please open Telegram to view this post
VIEW IN TELEGRAM
👍2
Метрики для задач NLP. Часть 2. Генерация текста: BLEU, ROUGE, METEOR, BERTScore

#почитать

В этой статье будет рассказано о популярных метриках оценки для задач генерации текста: BLEU, ROUGE, METEOR, BERTScore. Рассказ будет сопровождаться визуализацией, примерами и кодом на Python.


Читать статью
Please open Telegram to view this post
VIEW IN TELEGRAM
👍1🔥1
Станьте Deep Learning Engineer с дипломом 👍

Голосовые помощники, распознавание лиц, рекомендации в приложениях, медицинская диагностика — нейросети используются уже во всех сферах бизнеса. Компании ищут DL-специалистов, чтобы точнее обучать и настраивать нейросети под свои запросы.
Освоить Deep Learning самостоятельно сложно, но ребята из Simulative нашли решение, где учёба становится понятной и структурированной, а все темы разбираются на практике 🔥

Simulative запускает программу профессиональной переподготовки «Инженер глубокого обучения нейросетей».

По итогам обучения вы получите:

🎓 Диплом гособразца

Официальный диплом о профессиональной переподготовке с квалификацией «Специалист по большим данным».

💯 Практика

Более 40 практических работ в формате симуляции реальной работы DL-инженера — всё пойдёт в портфолио.

🙌🏽 Онлайн обучение

Учитесь из любой точки мира, совмещая с работой, а доступ к материалам останется навсегда.

Курс подходит для специалистов любого уровня: новичок, аналитик, ML-инженер или выпускник — на программе опытные менторы помогут выстроить вашу персональную траекторию роста в Deep Learning.

Что вы освоите:
🟠Создание и обучение нейросетей с нуля
🟠Компьютерное зрение (Computer Vision)
🟠NLP (обработка текста)
🟠Генеративные модели
🟠MLOps и продакшн-подход

🕖 Скорее записывайтесь, количество мест на поток ограничено!

Бронируйте место на курсе прямо сейчас и получите скидку 30%

😶ПОЛУЧИТЬ СКИДКУ НА КУРС
Please open Telegram to view this post
VIEW IN TELEGRAM
👍1🔥1👌1
Топ-6 бесплатных AI-сервисов для генерации 3D-моделей

#почитать

Вспомните, сколько времени раньше уходило на то, чтобы просто разобраться в интерфейсе Blender или Maya. Еще несколько лет назад мир три де графики казался закрытым клубом для избранных: нужно было годами изучать топологию сетки, возиться с развертками и часами ждать рендера одной сцены. Сегодня этот порог входа практически исчез. Искусственный интеллект добрался до полигонов и текстур, превращая процесс моделирования из тяжелого ремесла в увлекательный диалог с машиной.

Мы решили проверить, насколько далеко зашли технологии, и устроили тест драйв современным алгоритмам. Чтобы задача не казалась скучной, мы выбрали самую ностальгическую тему: попробуем воссоздать в объеме героев мультфильмов нашего детства. Это отличный способ увидеть, как нейросети справляются с узнаваемыми образами и насколько точно они передают детали, которые мы помним с малых лет.

В этом обзоре вы найдете пять сервисов, которые позволяют генерировать модели здесь и сейчас. Главный критерий отбора: честный бесплатный доступ. Мы специально искали площадки, которые не требуют привязки карты и не прячут результат за бесконечными подписками. Только чистые технологии и немного магии генерации.

Читать статью
Please open Telegram to view this post
VIEW IN TELEGRAM
👍1🔥1👌1
Почему антифрод-системы блокируют ваши покупки, но пропускают мошенников на миллиарды

#почитать

Почему ваша банковская карта может быть заблокирована, когда вы покупаете кофе в другом городе, хотя мошенники умудряются отмывать миллиарды? В этой статье мы подробно рассмотрим, как работают системы защиты от мошенничества, объясним, что такое компромисс между прецизионностью (точностью) и полнотой на понятном примере, проанализируем потерю $3,1 миллиарда у TD Bank и поговорим о том, как банки и киберзлоумышленники соревнуются, используя Adversarial AI (враждебный искусственный интеллект).

Читать статью
Please open Telegram to view this post
VIEW IN TELEGRAM
👍1
Как использовать AI для анализа метаданных в СУБД и BI: практика применения LLM и RAG 🤖

Во многих компаниях data catalog уже внедрен, но не работает как инструмент. Метаданные устаревают, доверие к данным падает, аналитики продолжают искать информацию вручную, а команда DWH остается перегруженной.

📆 9 апреля в 11:00 (МСК) приглашаем на бесплатный онлайн-вебинар «Как использовать AI для анализа метаданных в СУБД и BI: практика применения LLM и RAG», где разберем, как изменить этот подход с помощью AI.

👨‍💻 Спикер: Павел Хамрин — руководитель AI-направления Lasmart. Более 10 лет в аналитике и DWH.

В программе вебинара:
— почему data catalog не работает на практике: неактуальные метаданные, отсутствие доверия, перегрузка команды;
— как LLM автоматизирует описание таблиц, дашбордов и бизнес-логики без ручной поддержки;
— как работает RAG для поиска данных, контекста и анализа связей (data lineage);
— архитектура решения и roadmap внедрения без перестройки текущих систем.

Кому будет полезно:
Data-инженерам, CTO, CDO, Head of BI и DWH, Data-аналитикам и Data Scientist

🔗 Регистрация по ссылке
🌐Работа аналитиком данных, плюсы и минусы

#посмотреть

Я работаю аналитиком данных (или, если угодно, продуктовым аналитиком). В этом видео вкратце расскажу о том, что именно нужно делать, какие есть плюсы и минусы, кому эта профессия подходит.


Смотреть на Ютубе ⏱️15 минут
Please open Telegram to view this post
VIEW IN TELEGRAM
👍1
Управляем поведением LLM: краткосрочные профили и их ограничения

#почитать

Мы привыкли верить, что если сказать модели «будь агрессивным трейдером» или «будь строгим аналитиком», то она действительно начнёт так себя вести. На практике всё не так просто. В длинном диалоге роль быстро выдыхается: модель соглашается с образом, но постепенно возвращается к базовой вежливости, осторожности и бесконечным дисклеймерам.

Зато в коротких запросах происходит совсем другое. Один свежий промпт — и поведение реально сдвигается: модель становится заметно осторожнее, резче, параноидальнее или, наоборот, более рискованной. Это уже не «роль» в привычном смысле, а краткосрочный поведенческий профиль — временная настройка внутренних параметров решения.

Исследования показывают, что такой профиль способен существенно менять поведение. Например, коэффициент неприятия потерь можно «подкрутить» почти в три раза — и модель начнёт требовать значительно большей выгоды, чтобы принять риск. Звучит мощно, но вместе с ним приходят стохастичность, зависимость от формулировки и неожиданные побочные эффекты.

Читать статью
Please open Telegram to view this post
VIEW IN TELEGRAM
Как в Netflix масштабируют постобучение LLM

#почитать

В Netflix исследовали, как именно LLM могут открыть новые грани рекомендаций, персонализации и поиска. Для этого в Netflix попробовали адаптировать универсальные обобщённые модели к имеющимся условиям так, чтобы они лучше отражали содержание каталога фильмов и нюансы истории взаимодействия пользователей с сайтом. В масштабе такой компании как Netflix постобучение быстро превращается как в инженерную проблему, так и в проблему моделирования: приходится выстраивать сложные конвейеры данных и оперировать ими, координировать распределённое состояние в масштабах многоузловых кластеров GPU и оркестровать потоки задач, в рамках которых перемежаются обучение и логический вывод.

В этой статье описаны архитектура и инженерная философия применяемого в Netflix фреймворка постобучения, который был разработан командой по платформе ИИ с целью скрыть сложность инфраструктуры — так, чтобы исследователи и разработчики моделей могли сосредоточиться на внедрении инноваций, а не на латании распределённых систем.

Читать статью
Please open Telegram to view this post
VIEW IN TELEGRAM
👍1🔥1
Лимит доверия: как ИИ решает, сколько денег вам можно дать

#почитать

Что влияет на размер вашего кредитного лимита? И почему банк может вдруг его уменьшить, даже если вы всегда вовремя вносите платежи? В предыдущей статье мы выяснили, как банки применяют модели машинного обучения для определения вашей кредитоспособности; в этой статье мы рассмотрим примеры Synchrony Bank и Apple Card, объясним тактику “low-and-grow” и продемонстрируем, как банки задействуют поведенческую экономику и обучение с подкреплением для контроля над вашими задолженностями.

Читать статью
Please open Telegram to view this post
VIEW IN TELEGRAM
Дрейф данных в машинном обучении

#почитать

Дрейф данных (Drift Data) — это ситуация, когда статистические свойства входных данных для модели машинного обучения изменяются со временем. При дрейфе данных взаимосвязи между признаками и самой целевой переменной перестают быть действительными. Это может привести к низкой производительности модели, неточным прогнозам и даже к сбоям.

Читать статью
Please open Telegram to view this post
VIEW IN TELEGRAM
12 бит против 8 бит в камере для проведения металлографических исследований при помощи оптического микроскопа

#почитать

В лаборатории к инвертированному оптическому микроскопу Zeiss Axio Observer 3 подключена промышленная камера The Imaging Source DFK 33UX265 для выполнения металлографических задач: анализ зерна, неметаллических включений, поиска дефектов структуры. Мне стало интересно, как она устроена и что есть у нее "под капотом". Когда мы проводим анализ, то не задумываемся о постобработки, а под "капотом" любой камеры есть много интересных режимов. Я ухватился за 12-битный монохромный Bayer-формат (часто обозначаемый как 12-bit Bayer Packed) — это формат RAW-данных, при котором с сенсора с фильтром Байера считывается 12 бит информации на пиксель без цветовой интерполяции. Это обеспечивает более высокий динамический диапазон (4096 уровней яркости) по сравнению с 8-битным форматом (256 уровней), сохраняя «сырые» данные.

Большинство программ, связанных с металловедением принимают картинку в 8 бит. И я хотел бы разобраться в вопросе, а так ли нужен при оценке и автоматизации режим 12 бит.

Читать статью
Please open Telegram to view this post
VIEW IN TELEGRAM
Зачем роботам погонщик

#почитать

У любой сложной технической системы есть граница, на которой модель больше не совпадает с реальностью. Если вы видели систему со всеми зелёными метриками, но интуиция подсказывала, что дежурство будет тяжёлым, вы знаете это состояние. В распределительных центрах эту границу видят не в логах и дашбордах, а на полу склада. Когда алгоритм уже всё просчитал, а физический мир внёс свои правки.

Эта статья не про роботов как технологию и не про автоматизацию как цель. Она про роль, которая появляется, когда автоматизация становится массовой. Про человека, который стоит между WMS, роботами и реальным складом. И про то, почему без этой роли, даже если формально всё работает, автоматизация со временем деградирует.

Читать статью
Please open Telegram to view this post
VIEW IN TELEGRAM
Как устроен Codex

#почитать

Подробный разбор того, как команда OpenAI Codex создаёт своего кодового агента, как его используют другие команды, как он влияет на инженерные практики создателей ChatGPT и что это может значить для будущего разработки ПО.

Чтобы в этом разобраться, я поговорил с тремя сотрудниками OpenAI:

Тибо Соттио (Thibault Sottiaux) — руководитель Codex.

Шао-Цянь Ма (Shao-Qian (SQ) Mah) — исследователь в команде Codex, обучающий модели, на которых тот работает.

Эмма Тан (Emma Tang) — руководитель data-инфраструктуры; она не входит в команду Codex, но её команда активно им пользуется.

Читать статью
Please open Telegram to view this post
VIEW IN TELEGRAM
Нейросимвольный ИИ: архитектура семантической нейросети. Как научить LLM считать

#почитать

LLM ошибаются в элементарной математике. Корпорации тратят миллиарды, но в конечном счете вынуждены прикручивать калькуляторы к вычислительным машинам невероятной мощи. Все попытки исправить через Chain-of-Thought, fine-tuning на задачах счёта, увеличение контекста не сработали.

Я провёл серию экспериментов чтобы понять почему, и пришел к выводу, что нейросети просто не предназначены для дискретной арифметики. Их предназначение непрерывные трансформации.

В этой статье описывается реализация новой архитектуры нейросетей, объединяющая точность символьного ИИ и способность к обобщению LLM. Код как всегда прилагается.

Читать статью
Please open Telegram to view this post
VIEW IN TELEGRAM
Новый инструмент на основе ML для анализа дыхания растений

#почитать

По всему миру сельское хозяйство сталкивается с ростом потребности в продуктах питания и ограниченностью водных ресурсов. Эффективность выращивания культур во многом зависит от того, насколько точно удаётся описывать и предсказывать процессы, определяющие фотосинтез и потерю воды у растений. Одну из ключевых ролей здесь играют устьица, микроскопические поры на поверхности листьев, которые регулируют поступление CO₂ и испарение влаги.

В 2025 году исследователи из Иллинойсского университета в Урбане-Шампейне представили систему Stomata In-Sight, которая объединяет конфокальную микроскопию, газообменные измерения и автоматизированный анализ изображений на основе ML. Такой подход позволяет получать количественные оценки геометрии устьиц в условиях контролируемой среды и сопоставлять их с измеряемой проводимостью и фотосинтезом. Это важно не только для физиологии растений, но и для прикладных задач, связанных с эффективностью использования воды и устойчивостью урожая при засухе. В этой статье я расскажу о самом исследовании и о том, как устроена Stomata In-Sight.


Читать статью
Please open Telegram to view this post
VIEW IN TELEGRAM
Как ML-модели решают, какой процент по кредиту вы получите

#почитать

Почему два человека с одинаковым доходом и кредитной историей могут платить совершенно разный процент по одному и тому же кредиту? В этой статье мы заглянем под капот банковских систем ценообразования, разберем реальные кейсы дискриминации от Ally Bank и Test-Achats, и наглядно покажем, как деревья решений и градиентный бустинг используются для предсказания вашей платежеспособности — и как они могут ошибаться.

Читать статью
Please open Telegram to view this post
VIEW IN TELEGRAM
RAG на PHP + Qdrant: быстрый MVP для внутренней базы знаний

#почитать

RAG на PHP - звучит непривычно. Делюсь опытом построения чат-бота для поиска по внутренней базе документов: Symfony, Qdrant с гибридным поиском, YandexGPT для embedding и генерации ответов. Внутри — готовый код, подводные камни чанкинга и советы, которые сэкономят вам время.

Читать статью
Please open Telegram to view this post
VIEW IN TELEGRAM
Динамический полиморфизм для свободных функций: еще одна практика из С++ для машинного обучения

#почитать

Я Кирилл Колодяжный, разработчик систем хранения данных в YADRO и ML-энтузиаст. Продолжаю рассказывать о паттернах С++, которые легко адаптировать под задачи машинного обучения. В этой части поговорим о динамическом полиморфизме — технологии, которая помогает объединить интерфейс для запуска вычислений с разными условиями. Ссылку на первую часть найдете в конце статьи.


Читать статью
Please open Telegram to view this post
VIEW IN TELEGRAM
Лес под прицелом нейросетей: сравниваем модели для выявления рубок со спутника

#почитать

Ханты-Мансийский автономный округ (ХМАО) – это не только 50% российской нефти, но и 530 тыс. кв. км лесов. Развитие инфраструктуры месторождений и интенсивные заготовки требуют жесткого контроля вырубок. С 2014 года здесь ведут мониторинг по снимкам со спутников, собрав базу из 15000 записей, включающих информацию о выявленных лесных рубках, но есть проблема: ручное дешифрирование происходит слишком долго и дорого.

Читать статью
Please open Telegram to view this post
VIEW IN TELEGRAM