Data Scientist | IT
1.94K subscribers
650 photos
3 videos
1 file
706 links
Добро пожаловать в клуб.

Полезные материалы из мира DS & ML на регулярной основе.

По всем вопросам: @godinmedia
Download Telegram
В ожидании лучших 3D датасетов для ML

#почитать

Для одного из своих проектов, я погрузился в чтение методов генерации трехмерных сцен и анимированных моделей. Не слишком удивительным фактом оказалось, что подавляющее большинство из них опираются на одну и ту же идею переноса градиента из генератора плоских изображений в дифференцируемое трехмерное представление модели. Меня заинтересовал вопрос — неужели плоские изображения являются наилучшим промежуточным этапом для данной задачи и нет формата лучше, такие как облака точек или гауссианы? Мои поиски наборов данных и перспектив их массового появления я хотел бы описать в этой статье.

Прежде чем говорить о том, какие данные я ищу, нужно добавить немного мотивации. В задачах машинного обучения наборы данных можно разбить условно на те, которые получаются в результате целенаправленного сбора данных, либо те, что получаются в результате попыток обработки большого объема данных сгенерированных «в природе». «Горький урок», подтвержденный взлетом языковых и генеративных моделей для изображений, звука, голоса и видео говорит, что для общих задач в долгой перспективе большой объем легкодоступных данных оказывается более эффективным, чем сложные специализированные решения.

Читать статью
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5🔥2
Создание плагина для IntelliJ IDE с подключением GigaChat для проверки качества кода

#почитать

Разработка плагина началась с идеи объединить возможности искусственного интеллекта с инструментами для разработки, чтобы получать полезные рекомендации по коду непосредственно в среде разработки. Поскольку GigaChat способен не только понимать контекст, но и предоставлять рекомендации по улучшению кода, я решил, что интеграция его в IDE для автоматического анализа и проверки качества кода станет полезным инструментом для начинающих разработчиков точно.

Итак, для реализации идеи потребуется создать плагин для IDE, после запуска которого при выделении блока коде и нажатии комбинации клавиш "CTRL+ALT+A" GigaChat проанализировал бы код.

Читать статью
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5
Продуктовый матчинг на маркетплейсе: что происходит под капотом сравнения товаров

#почитать

Картинки – одна из основополагающих характеристик товара, которая помогает делать сопоставление. Часто именно изображение помогает принять финальное решение: являются ли два товара идентичными или нет. Значит, в матчере должна быть модель (или несколько), которые умеют хорошо различать изображения.

Прежде всего надо понять, в какой постановке мы будем дообучать модель для изображений. Постановка мультиклассовой классификации здесь не годится – ассортимент товаров исчисляется миллионами, и делать полносвязную классифицирующую “голову” таких размеров может разве что GPU-камикадзе.

Вторая проблема – огромное количество очень похожих товаров и, как следствие, очень похожих изображений.

Читать статью
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5🔥1
Автоэнкодеры простыми словами

#почитать

Итак, прежде всего, автоэнкодер — это тип нейронной сети, используемый для обучения без учителя. Но не любой, а такой, который может кодировать и декодировать данные, подобно ZIP-архиватору, который может сжимать и разжимать данные. В машинном обучении он используется для уменьшения размерности или сжатия данных, а также для удаления шума с изображений.

Однако он делает это умнее, чем ZIP-архиватор. Он способен понять самые важные особенности данных (так называемые латентные, или скрытые признаки) и запоминает их вместо всех данных, чтобы затем восстановить что-то близкое к оригиналу из приблизительного описания. На изображениях, например, он может запомнить очертания обьектов или относительное положение объектов друг к другу. Это позволяет добиться интересного сжатия с потерями.

Читать статью
Please open Telegram to view this post
VIEW IN TELEGRAM
6👍2🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
🪐 Новые вакансии Python


🚀 Разработчик в Московский транспорт, до 65 000 ₽
Подробнее ➡️
https://jobrocket.ru/job/razrabotchik-moskovskij-transport-c1a11357

🚀 Автотестировщик Python в ITQ,
до 180 000 ₽
Подробнее ➡️
https://jobrocket.ru/job/avtotestirovshik-python-itq-53434ae6

🚀 SRE/TradeOps Engineer в Index
(Кипр Дубай, финтех),
570 000 - 950 000 ₽
Подробнее ➡️
https://jobrocket.ru/job/sretradeops-engineer-index-132f2aac

🚀 Python Developer / Team Lead в Бонанза Крип,
400 000 - 640 000 ₽
Подробнее ➡️
https://jobrocket.ru/job/python-developer-team-lead-bonanza-krip-ed2fb7c2

🚀 Стажёр-тестировщик в КодТех,
40 000 - 60 000 ₽
Подробнее ➡️
https://jobrocket.ru/job/stazhyor-testirovshik-kodteh-0548ef2f

🚀 Middle QA с опытом автоматизации python/javascript в Ixcellerate,
120 000 - 180 000 ₽
Подробнее ➡️
https://jobrocket.ru/job/middle-qa-s-opytom-avtomatizacii-pythonjavascript-ixcellerate-68e6e272

🚀 Product Data Analyst в SexLikeReal,
до 590 000 ₽
Подробнее ➡️
https://jobrocket.ru/job/product-data-analyst-sexlikereal-7b09bb61

🚀 Аналитик / Data Scientist в Ai-Minds,
150 000 - 220 000 ₽
Подробнее ➡️
https://jobrocket.ru/job/analitik-data-scientist-ai-minds-9f6cb8dd

🚀 Аналитик Баз Данных в банк,
240 000 - 330 000 ₽
Подробнее ➡️
https://jobrocket.ru/job/analitik-baz-dannyh-nda-krupnyj-bank-0848fcdc

🚀 Системный аналитик / Архитектор ИИ в Ptolemay,
250 000 - 300 000 ₽
Подробнее ➡️
https://jobrocket.ru/job/sistemnyj-analitik-arhitektor-ii-ptolemay-d26a256c


Больше вакансий Python здесь ⤵️
https://jobrocket.ru/?techStack=python
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥5👍1
Обучение модели как ребёнка

#почитать

Привет, я токсичный программист в области машинного обучения (МЛ), и у меня есть идея создать проект, посвящённый разработке сильного искусственного интеллекта (далее — СИИ (или же AGI)). В небольшом блоге я буду делиться с вами своим опытом в создании чат-бота, который будет обладать СИИ, ну или хотя бы казаться таким.

Читать статью
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5🔥1🙏1
This media is not supported in your browser
VIEW IN TELEGRAM
🪐 Новые вакансии Backend


🚀 PHP-разработчик в Realmo, oт 380 000 ₽
Подробнее ➡️
https://jobrocket.ru/job/php-razrabotchik-realmo-8905f5c1

🚀 Java-разработчик в iFellow, oт 240 000 ₽
Подробнее ➡️
https://jobrocket.ru/job/java-razrabotchik-ifellow-b6c58ff1

🚀 Бекэнд разработчик в Helps, 50 000 - 100 000 ₽
Подробнее ➡️
https://jobrocket.ru/job/bekend-razrabotchik-helps-a2a5364a

🚀 Backend разработчик в VegaSoft, oт 290 000 ₽
Подробнее ➡️
https://jobrocket.ru/job/backend-razrabotchik-vegasoft-4f1a4676

🚀 Backend Engineer в GetBlock.io, oт 130 000 ₽
Подробнее ➡️
https://jobrocket.ru/job/backend-engineer-getblockio-d8338ff7

🚀 PHP разработчик в Stergo, 150 000 - 200 000 ₽
Подробнее ➡️
https://jobrocket.ru/job/php-razrabotchik-stergo-6f247b1b

🚀 Разработчик-стажер (Java) в NDA (Минск), oт 20 000 ₽
Подробнее ➡️
https://jobrocket.ru/job/razrabotchik-stazher-java-nda-minsk-1eb2b2c7

🚀 Golang разработчик в Top Selection, 230 000 - 250 000 ₽
Подробнее ➡️
https://jobrocket.ru/job/golang-razrabotchik-top-selection-6fba77a2

🚀 Java-разработчик в Centicore Group, 380 000 - 410 000 ₽
Подробнее ➡️
https://jobrocket.ru/job/java-razrabotchik-centicore-group-b10ff73d

🚀 Администратор баз данных в DBI, 50 000 - 150 000 ₽
Подробнее ➡️
https://jobrocket.ru/job/administrator-baz-dannyh-dbi-19f32918

🚀 Backend developer (Python/Go) в BSL, 250 000 - 400 000 ₽
Подробнее ➡️
https://jobrocket.ru/job/backend-developer-pythongo-bsl-67e56179

🚀 PHP developer в Dornet, до 250 000 ₽
Подробнее ➡️
https://jobrocket.ru/job/php-developer-dornet-e86a6270

🚀 Python/Django-разработчик в Valta Pet Products, 200 000 - 240 000 ₽
Подробнее ➡️
https://jobrocket.ru/job/pythondjango-razrabotchik-valta-pet-products-5a1c9dcf


Больше вакансий бэкендеров здесь ⤵️
https://jobrocket.ru/?categories=backend
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥5👍1
Оценка LLM: комплексные оценщики и фреймворки оценки

#почитать

В этой статье подробно описываются сложные статистические и предметно-ориентированные оценщики, которые можно использовать для оценки производительности крупных языковых моделей. В ней также рассматриваются наиболее широко используемые фреймворки оценки LLM, которые помогут вам начать оценивать производительность модели.

Читать статью
Please open Telegram to view this post
VIEW IN TELEGRAM
5
Wolfram Natural Language Understanding или спасение для студентов

#почитать

Natural Language Understanding (NLU) в системе Wolfram — это архитектура, которая сочетает символические методы, NLP. И тут нужно подчеркнуть. NLU — это не про статистические методы, которые способны постоянно допускать ошибки. Точность интерпретации и перевода в удобоваримый для пересчета вид —самое главное в архитектуре.

Читать статью
Please open Telegram to view this post
VIEW IN TELEGRAM
👍51🔥1
Основы очистки данных

#почитать

Очистка данных позволит сделать анализ более точным, а в случае машинного обучения — улучшить качество моделей.

Давайте рассмотрим пять задач, с которыми можно столкнуться в рамках очистки данных. Это не исчерпывающий список, но он послужит хорошим ориентиром при работе с реальными датасетами.

Читать статью
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7
От подвала до облака: как обучить нейросеть в домашних условиях

#почитать

Всем известно, что обучение нейросетей требует значительных вычислительных ресурсов. Но что делать, если у вас нет мощного оборудования? В этой статье я расскажу, как обучить нейросеть частями, но и объясню ключевые понятия вроде слоев, батчей, и функций активации. Эта статья может быть полезна начинающим разработчикам, кто только погружается в нейронки.

В качестве примера кода я приведу обработку транзакций, однако данные могут быть заменены на любые, где требуется анализ о допустимости или недопустимости результата на основе цепочки данных.

Читать статью
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6
От звука к смыслу: распознавание речи в видеоконтенте

#почитать

В данной статье мы рассмотрим проект по распознаванию речи из видео, преимущества и недостатки данной разработки, а также посмотрим на то, как ее внедрение помогло ускорить работу аналитиков и разработчиков на проекте.

Читать статью
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5
Искусство аугментации: как улучшить модели компьютерного зрения без сбора новых данных

#почитать

Аугментация позволяет искусственно расширить набор обучающих примеров, применяя различные преобразования к уже имеющимся изображениям. Например, из одной фотографии кошки можно получить несколько новых, изменив ракурс, освещение или масштаб. Для нейросети это будут уже новые, отличающиеся образцы для обучения. В результате ваша модель сможет лучше распознавать кошек в различных условиях реального мира без необходимости устраивать фотосет каждому встречному пушистому.

Читать статью
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5
😁6
Semantic Retrieval-Augmented Contrastive Learning (SRA-CL) для sequential рекомендательных систем: обзор

#почитать

я Research Engineer в WB, последние несколько лет работаю на стыке RecSys, LLM и мультимодальных моделей. Каждый день мы обрабатываем миллиарды событий, а модели, которые мы внедряем, напрямую влияют на CTR, удержание и конверсию, принося немало дополнительной выручки.

До этого я успел поработать в AI-стартапе в Palo Alto, где занимался голосовыми агентами (ASR/TTS), и в МТС, где мы строили AI-экосистему. Ранее в Сбере я занимался созданием единого RecSys SDK для всей экосистемы (от SberMegaMarket до Okko и Zvuk), а ещё раньше — развивал персонализацию и ML в ритейле и нейротехе.

Сегодня я хотел бы поговорить о том, как большие языковые модели могут починить контрастивное обучение в рекомендательных системах. Контрастивные методы давно стали стандартом в NLP и CV, но в последовательных рекомендациях они работают далеко не идеально: данные разрежены, а аугментации часто искажают смысл вместо того, чтобы его сохранять. Авторы свежей статьи с arXiv — “Semantic Retrieval Augmented Contrastive Learning for Sequential Recommendation (SRA-CL)” — предлагают элегантное решение: использовать LLM для генерации семантически осмысленных позитивных пар.


Читать статью
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4🔥1
Kaggle для футболистов: Классификация событий на футбольном поле

#почитать

Из видеозаписей футбольного матча необходимо установить, что за событие происходит на футбольном поле, в результате ожидают csv файл со следующими полями: id видео - момент времени, когда это событие произошло - что за событие произошло - уверенность от 0 до 1 в том, что это событие произошло.

Читать статью
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5🔥1
7 взаимозаменяемых решений, которые ускорят рабочие процессы Data Science на Python

#почитать

Хотите сделать свои Python-скрипты для анализа данных быстрее без переписывания кода? NVIDIA предлагает 7 простых замен стандартных библиотек, которые позволяют значительно ускорить выполнение задач анализа данных без изменения кода. В статье рассматриваются готовые решения для замены Pandas, NumPy и других библиотек, использующие GPU для повышения производительности.

Приведены примеры кода и сравнительные тесты, демонстрирующие рост скорости обработки данных. Материал будет полезен специалистам в области Data Science и разработчикам, работающим с большими объемами информации.

Читать статью
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥5👍1
AutismSmartDetector: Система для определения черт аутистического спектра

#почитать

предназначенную для автоматического определения черт аутистического спектра по фотографиям лиц. Система использует свёрточную нейронную сеть (CNN), обученную на большом наборе данных, чтобы классифицировать изображения на две категории: "Autistic" и "Non-Autistic".

Читать статью
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6🔥1
Почему галлюцинируют нейросети [и что с этим делают]

#почитать

Австрийский математик Курт Гёдель еще в 1931 году сформулировал и доказал две теоремы о неполноте. В общем случае первая теорема гласит, что всякая непротиворечивая теория имеет утверждения, которые нельзя доказать средствами этой теории. Теорема оказала значительное влияние на различные научные области и в некоторой степени может способствовать пониманию того, почему галлюцинации в системах ИИ неизбежны.

Читать статью
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5🔥1
Как ИИ научился думать картинками

#почитать

Когнитивная наука подтверждает, что человеческий мозг использует два канала мышления — текстовый (вербальный) и визуальный (невербальный). Но современные мультимодальные модели (MLLM) чаще всего полагаются на текстовые объяснения даже там, где визуальное мышление было бы намного эффективнее. До мая 2025 года не было серьезных исследований, которые бы ответили на вопрос: могут ли современные модели решать задачи исключительно с помощью визуальной информации без использования слов?

Читать статью
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5🔥1
Тест на прочность: LLM против сложных задач

#почитать

В статье "Towards a Deeper Understanding of Reasoning Capabilities in Large Language Models" основной вопрос звучит так: «Насколько эффективно языковые модели могут самостоятельно обучаться и адаптироваться к новым задачам, используя только специальные промты, без изменения своих параметров?» Авторы сравнивают различные промт-стратегии, изучая их влияние на способности моделей в динамических условиях.

Читать статью
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5