Data Scientist | IT

Wolfram Natural Language Understanding или спасение для студентов

#почитать

Natural Language Understanding (NLU) в системе Wolfram — это архитектура, которая сочетает символические методы, NLP. И тут нужно подчеркнуть. NLU — это не про статистические методы, которые способны постоянно допускать ошибки. Точность интерпретации и перевода в удобоваримый для пересчета вид —самое главное в архитектуре.

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

👍5❤1🔥1

215 views10:52

Data Scientist | IT

Основы очистки данных

#почитать

Очистка данных позволит сделать анализ более точным, а в случае машинного обучения — улучшить качество моделей.

Давайте рассмотрим пять задач, с которыми можно столкнуться в рамках очистки данных. Это не исчерпывающий список, но он послужит хорошим ориентиром при работе с реальными датасетами.

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

👍7

230 views10:51

Data Scientist | IT

От подвала до облака: как обучить нейросеть в домашних условиях

#почитать

Всем известно, что обучение нейросетей требует значительных вычислительных ресурсов. Но что делать, если у вас нет мощного оборудования? В этой статье я расскажу, как обучить нейросеть частями, но и объясню ключевые понятия вроде слоев, батчей, и функций активации. Эта статья может быть полезна начинающим разработчикам, кто только погружается в нейронки.

В качестве примера кода я приведу обработку транзакций, однако данные могут быть заменены на любые, где требуется анализ о допустимости или недопустимости результата на основе цепочки данных.

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

👍6

247 views10:50

Data Scientist | IT

От звука к смыслу: распознавание речи в видеоконтенте

#почитать

В данной статье мы рассмотрим проект по распознаванию речи из видео, преимущества и недостатки данной разработки, а также посмотрим на то, как ее внедрение помогло ускорить работу аналитиков и разработчиков на проекте.

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

👍5

227 views05:04

Data Scientist | IT

Искусство аугментации: как улучшить модели компьютерного зрения без сбора новых данных

#почитать

Аугментация позволяет искусственно расширить набор обучающих примеров, применяя различные преобразования к уже имеющимся изображениям. Например, из одной фотографии кошки можно получить несколько новых, изменив ракурс, освещение или масштаб. Для нейросети это будут уже новые, отличающиеся образцы для обучения. В результате ваша модель сможет лучше распознавать кошек в различных условиях реального мира без необходимости устраивать фотосет каждому встречному пушистому.

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

👍5

248 views10:48

Data Scientist | IT

😁6

253 views13:22

Data Scientist | IT

Semantic Retrieval-Augmented Contrastive Learning (SRA-CL) для sequential рекомендательных систем: обзор

#почитать

я Research Engineer в WB, последние несколько лет работаю на стыке RecSys, LLM и мультимодальных моделей. Каждый день мы обрабатываем миллиарды событий, а модели, которые мы внедряем, напрямую влияют на CTR, удержание и конверсию, принося немало дополнительной выручки.

До этого я успел поработать в AI-стартапе в Palo Alto, где занимался голосовыми агентами (ASR/TTS), и в МТС, где мы строили AI-экосистему. Ранее в Сбере я занимался созданием единого RecSys SDK для всей экосистемы (от SberMegaMarket до Okko и Zvuk), а ещё раньше — развивал персонализацию и ML в ритейле и нейротехе.

Сегодня я хотел бы поговорить о том, как большие языковые модели могут починить контрастивное обучение в рекомендательных системах. Контрастивные методы давно стали стандартом в NLP и CV, но в последовательных рекомендациях они работают далеко не идеально: данные разрежены, а аугментации часто искажают смысл вместо того, чтобы его сохранять. Авторы свежей статьи с arXiv — “Semantic Retrieval Augmented Contrastive Learning for Sequential Recommendation (SRA-CL)” — предлагают элегантное решение: использовать LLM для генерации семантически осмысленных позитивных пар.

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

👍4🔥1

264 views10:52

Data Scientist | IT

Kaggle для футболистов: Классификация событий на футбольном поле

#почитать

Из видеозаписей футбольного матча необходимо установить, что за событие происходит на футбольном поле, в результате ожидают csv файл со следующими полями: id видео - момент времени, когда это событие произошло - что за событие произошло - уверенность от 0 до 1 в том, что это событие произошло.

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

👍5🔥1

226 views10:47

Data Scientist | IT

7 взаимозаменяемых решений, которые ускорят рабочие процессы Data Science на Python

#почитать

Хотите сделать свои Python-скрипты для анализа данных быстрее без переписывания кода? NVIDIA предлагает 7 простых замен стандартных библиотек, которые позволяют значительно ускорить выполнение задач анализа данных без изменения кода. В статье рассматриваются готовые решения для замены Pandas, NumPy и других библиотек, использующие GPU для повышения производительности.

Приведены примеры кода и сравнительные тесты, демонстрирующие рост скорости обработки данных. Материал будет полезен специалистам в области Data Science и разработчикам, работающим с большими объемами информации.

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥5👍1

248 views10:41

Data Scientist | IT

AutismSmartDetector: Система для определения черт аутистического спектра

#почитать

предназначенную для автоматического определения черт аутистического спектра по фотографиям лиц. Система использует свёрточную нейронную сеть (CNN), обученную на большом наборе данных, чтобы классифицировать изображения на две категории: "Autistic" и "Non-Autistic".

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

👍6🔥1

267 views10:43

Data Scientist | IT

Почему галлюцинируют нейросети [и что с этим делают]

#почитать

Австрийский математик Курт Гёдель еще в 1931 году сформулировал и доказал две теоремы о неполноте. В общем случае первая теорема гласит, что всякая непротиворечивая теория имеет утверждения, которые нельзя доказать средствами этой теории. Теорема оказала значительное влияние на различные научные области и в некоторой степени может способствовать пониманию того, почему галлюцинации в системах ИИ неизбежны.

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

👍5🔥1

282 views10:38

Data Scientist | IT

Как ИИ научился думать картинками

#почитать

Когнитивная наука подтверждает, что человеческий мозг использует два канала мышления — текстовый (вербальный) и визуальный (невербальный). Но современные мультимодальные модели (MLLM) чаще всего полагаются на текстовые объяснения даже там, где визуальное мышление было бы намного эффективнее. До мая 2025 года не было серьезных исследований, которые бы ответили на вопрос: могут ли современные модели решать задачи исключительно с помощью визуальной информации без использования слов?

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

👍5🔥1

280 views10:52

Data Scientist | IT

Тест на прочность: LLM против сложных задач

#почитать

В статье "Towards a Deeper Understanding of Reasoning Capabilities in Large Language Models" основной вопрос звучит так: «Насколько эффективно языковые модели могут самостоятельно обучаться и адаптироваться к новым задачам, используя только специальные промты, без изменения своих параметров?» Авторы сравнивают различные промт-стратегии, изучая их влияние на способности моделей в динамических условиях.

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

👍5

322 views04:54

Data Scientist | IT

Я перешла из Data Science в AI Engineering: вот всё, что вам нужно знать

#почитать

Переход из Data Science в AI Engineering — это не просто смена должности, а полный сдвиг в подходах к работе с моделями и их внедрению в продакшн. В статье я делюсь опытом, как расширение ролей Data Scientist и AI Engineer пересекается с DevOps, MLOps и инфраструктурными практиками. Если вам интересно, как сделать шаг от теории к реальной работе с моделями, интеграции в инфраструктуру и поддержке на протяжении жизненного цикла — читайте дальше.

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥7👍1

361 views04:56

Data Scientist | IT

Лайфхаки BI SuperSet

#почитать

10 базовых и не очень лайфхаков по работе с BI Apache SuperSet, чтобы сделать её проще и эффективней.

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

👍5

314 views10:58

Data Scientist | IT

Нейросетевой интеллект для NPC

#почитать

Начнём с малого: допустим, мы создаем NPC, которые умеют собирать предметы по заданным правилам. Наша цель: создать «крафтовый» интеллект, т.е. такой интеллект, который выбирает, что будет делать NPC из предметов в его инвентаре. Такую штуку можно попробовать реализовать с помощью конченных конечных автоматов, поведенческих деревьев (behaviour tree) или ещё как-нибудь. Но, когда рецептов много, ингредиенты пересекаются, а потребности NPC меняются, такое дерево очень быстро разрастется до трудноподдерживаемого состояния.

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

👍5🔥1

269 views11:07

Data Scientist | IT

Как автоматизировать обучение ML-моделей и сократить время вывода в прод до двух дней

#почитать

В прошлой статье мы говорили о подходе к рекомендации сервисов на основании автоматизации расчета склонностей клиентов и единого репозитория предложений. В ней мы углубились в создание репозитория, описание логики категоризации и набора в кампании для коммуникации с клиентами. Сегодня мы подробнее расскажем про наш подход к автоматизации построения и вывода в прод набора моделей.

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

👍5

283 views10:58

Data Scientist | IT

Секретная сила Data Science в клиентской поддержке

#почитать

Когда говорят о Data Science, чаще всего вспоминают маркетинг и продуктовую аналитику. Но в компаниях, где данные действительно работают на бизнес, сфера их применения куда шире. Один из таких недооценённых источников ценности — команда клиентской поддержки. В этой статье — практический разбор того, как Data Science может не просто визуализировать SLA и TTR, а стать реальным драйвером изменений: от оптимизации нагрузки и улучшения самообслуживания до внедрения LLM для анализа обратной связи.

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

👍5

293 views05:01

Data Scientist | IT

Matrix Reloaded: зачем дата-сайентисту линейная алгебра

#почитать

Зачем дата-сайентисту векторы, матрицы и собственные значения? В статье Марии Жаровой, ML-инженера Wildberries и автора канала Easy Data, — простое объяснение, как линейная алгебра помогает понимать, что происходит внутри моделей машинного обучения. Без доказательств и зубрежки: только визуализации, реальные кейсы и примеры из практики.

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

👍5

276 views05:03

Data Scientist | IT

Топ вопросов с Data Science собеседований: Основы Classic ML, Линейные модели, Метрики классификации и регрессии

#почитать

Этот материал не рассчитан на изучение тем с нуля. Это чеклист и тренажёр, по которому стоит пройтись перед техническим интервью по классическому ML. Кратко, по делу, с акцентом на то, что действительно спрашивают.

В этой части разберем: основы машинного обучения, переобучение и кросс‑валидация, линейные модели, метрики классификации и регрессии.

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

❤7👍1

277 views11:40

Data Scientist | IT

❌ «В IT сейчас работы нет» — слышали такое?

А вот и нет 🙅‍♂️ Мы каждый день публикуем новые, живые вакансии с вилкой и прямыми контактами рекрутеров в телеграм.

Подборки для всех направлений — от джуна до лида.
Есть даже еженедельные интерншипы и стажировки для начинающих.

🔎 Выбирай свой канал:

QA → @qa_work
PM → @jobs_pm
BA/SA → @analytics_jobs
.NET → @job_dotnet
DS/ML → @dsml_jobs
PHP → @work_php
Java → @java_dev_job
Python → @jobrocket_python

🧩 Или подпишись сразу на все

👨‍💻6

279 views07:35

About

Blog

Apps

Platform