Data Scientist | IT
1.94K subscribers
650 photos
3 videos
1 file
706 links
Добро пожаловать в клуб.

Полезные материалы из мира DS & ML на регулярной основе.

По всем вопросам: @godinmedia
Download Telegram
ML-тренды рекомендательных технологий

#почитать

Главная задача рекомендательной системы — предоставить пользователю контент, фильм, трек, книгу, товар или информацию, которые могут заинтересовать его в данный момент. Сложность в том, что у нас нет явного запроса пользователя, как в поиске, есть только история его взаимодействий с объектами и наша надежда на то, что мы верно распознали его скрытые желания.

Читать статью
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5
Прогнозируем движение беспилотного автомобиля - Yandex Cup

#почитать

Недавно завершился чемпионат по программированию Yandex Cup ML Challenge 2024, в котором я занял второе место в задаче “Self-driving cars: предсказание движения беспилотного автомобиля”. В статье расскажу про задачу и подходы, которые использовал для решения.


Читать статью
Please open Telegram to view this post
VIEW IN TELEGRAM
5
LLaDA: The Diffusion Model That Could Redefine Language Generation

#почитать

How LLaDA works, why it matters, and how it could shape the next generation of LLMs.

Читать статью
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5
Как мы запустили автоматическую модерацию видео в объявлениях Авито

#почитать

В статье рассказываю, с какими трудностями мы столкнулись при модерации видео в условиях небольшого количества данных, и как их решили. Думаю, материал будет полезен всем, кто занимается похожими задачами в крупных продуктовых компаниях.

Читать статью
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5
Семь каверзных вопросов от преподавателей школы аналитиков данных МТС

#почитать

Вместе со своими коллегами — преподавателями в Школе аналитиков данных от МТС — подготовил семь каверзных вопросов, с которыми могут столкнуться начинающие специалисты в области Data Science, ML и Big Data.

Читать статью
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4🔥2
Может ли простейшая нейросеть найти математическую закономерность в данных

#почитать

В этой небольшой статье мы научим нейросеть решать задачу умножения перестановок длины 5 (группа S_5) и визуализируем результаты обучения с помощью методов проекции t-SNE (и понизим размерность PCA) и алгоритма UMAP. Мы убедимся в том, что даже элементарная модель может "неосознанно" провести бинарную классификацию перестановок. Однако с более тонкой задачей кластеризации по цикловой структуре модель будет испытывать затруднения.

Читать статью
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
🪐 Новые вакансии AI/ML-инженеров


🚀 ML-инженер в ИИ-платформа, до 400 000 ₽
Подробнее ➡️
https://jobrocket.ru/job/ml-inzhener-ii-platforma-516edaf2

🚀 Python AI разработчик в Data World, oт 200 000 ₽
Подробнее ➡️
https://jobrocket.ru/job/python-ai-razrabotchik-data-world-972992ec

🚀 Python разработчик в iFellow, oт 230 000 ₽
Подробнее ➡️
https://jobrocket.ru/job/python-razrabotchik-ifellow-a4107c40

🚀 Python Developer в Викс.АИ, oт 100 000 ₽
Подробнее ➡️
https://jobrocket.ru/job/python-developer-viksai-2495a15e

🚀 Technical Solutions Engineer в GitMax, до 400 000 ₽
Подробнее ➡️
https://jobrocket.ru/job/technical-solutions-engineer-gitmax-081d60a4

🚀 ML Engineer в GeoStartup, 400 000 - 450 000 ₽
Подробнее ➡️
https://jobrocket.ru/job/ml-engineer-geostartup-b8147f8f

🚀 Аналитик данных / Data-инженер в Команда Искендерова, 60 000 - 200 000 ₽
Подробнее ➡️
https://jobrocket.ru/job/analitik-dannyh-data-inzhener-komanda-iskenderova-f10b7424

🚀 Research NLP Engineer в Сколтех, 150 000 - 250 000 ₽
Подробнее ➡️
https://jobrocket.ru/job/research-nlp-engineer-skolteh-1e9a0296

🚀 Продуктовый аналитик в МТС, oт 90 000 ₽
Подробнее ➡️
https://jobrocket.ru/job/produktovyj-analitik-mts-a790d3e1

🚀 AI/ML Developer (LLM & RAG), 120 000 - 150 000 ₽
Подробнее ➡️
https://jobrocket.ru/job/aiml-developer-llm-and-rag-nda-154b1e3f


Больше вакансий дата-инженеров здесь ⤵️
https://jobrocket.ru/?categories=aiml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5
В ожидании лучших 3D датасетов для ML

#почитать

Для одного из своих проектов, я погрузился в чтение методов генерации трехмерных сцен и анимированных моделей. Не слишком удивительным фактом оказалось, что подавляющее большинство из них опираются на одну и ту же идею переноса градиента из генератора плоских изображений в дифференцируемое трехмерное представление модели. Меня заинтересовал вопрос — неужели плоские изображения являются наилучшим промежуточным этапом для данной задачи и нет формата лучше, такие как облака точек или гауссианы? Мои поиски наборов данных и перспектив их массового появления я хотел бы описать в этой статье.

Прежде чем говорить о том, какие данные я ищу, нужно добавить немного мотивации. В задачах машинного обучения наборы данных можно разбить условно на те, которые получаются в результате целенаправленного сбора данных, либо те, что получаются в результате попыток обработки большого объема данных сгенерированных «в природе». «Горький урок», подтвержденный взлетом языковых и генеративных моделей для изображений, звука, голоса и видео говорит, что для общих задач в долгой перспективе большой объем легкодоступных данных оказывается более эффективным, чем сложные специализированные решения.

Читать статью
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5🔥2
Создание плагина для IntelliJ IDE с подключением GigaChat для проверки качества кода

#почитать

Разработка плагина началась с идеи объединить возможности искусственного интеллекта с инструментами для разработки, чтобы получать полезные рекомендации по коду непосредственно в среде разработки. Поскольку GigaChat способен не только понимать контекст, но и предоставлять рекомендации по улучшению кода, я решил, что интеграция его в IDE для автоматического анализа и проверки качества кода станет полезным инструментом для начинающих разработчиков точно.

Итак, для реализации идеи потребуется создать плагин для IDE, после запуска которого при выделении блока коде и нажатии комбинации клавиш "CTRL+ALT+A" GigaChat проанализировал бы код.

Читать статью
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5
Продуктовый матчинг на маркетплейсе: что происходит под капотом сравнения товаров

#почитать

Картинки – одна из основополагающих характеристик товара, которая помогает делать сопоставление. Часто именно изображение помогает принять финальное решение: являются ли два товара идентичными или нет. Значит, в матчере должна быть модель (или несколько), которые умеют хорошо различать изображения.

Прежде всего надо понять, в какой постановке мы будем дообучать модель для изображений. Постановка мультиклассовой классификации здесь не годится – ассортимент товаров исчисляется миллионами, и делать полносвязную классифицирующую “голову” таких размеров может разве что GPU-камикадзе.

Вторая проблема – огромное количество очень похожих товаров и, как следствие, очень похожих изображений.

Читать статью
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5🔥1
Автоэнкодеры простыми словами

#почитать

Итак, прежде всего, автоэнкодер — это тип нейронной сети, используемый для обучения без учителя. Но не любой, а такой, который может кодировать и декодировать данные, подобно ZIP-архиватору, который может сжимать и разжимать данные. В машинном обучении он используется для уменьшения размерности или сжатия данных, а также для удаления шума с изображений.

Однако он делает это умнее, чем ZIP-архиватор. Он способен понять самые важные особенности данных (так называемые латентные, или скрытые признаки) и запоминает их вместо всех данных, чтобы затем восстановить что-то близкое к оригиналу из приблизительного описания. На изображениях, например, он может запомнить очертания обьектов или относительное положение объектов друг к другу. Это позволяет добиться интересного сжатия с потерями.

Читать статью
Please open Telegram to view this post
VIEW IN TELEGRAM
6👍2🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
🪐 Новые вакансии Python


🚀 Разработчик в Московский транспорт, до 65 000 ₽
Подробнее ➡️
https://jobrocket.ru/job/razrabotchik-moskovskij-transport-c1a11357

🚀 Автотестировщик Python в ITQ,
до 180 000 ₽
Подробнее ➡️
https://jobrocket.ru/job/avtotestirovshik-python-itq-53434ae6

🚀 SRE/TradeOps Engineer в Index
(Кипр Дубай, финтех),
570 000 - 950 000 ₽
Подробнее ➡️
https://jobrocket.ru/job/sretradeops-engineer-index-132f2aac

🚀 Python Developer / Team Lead в Бонанза Крип,
400 000 - 640 000 ₽
Подробнее ➡️
https://jobrocket.ru/job/python-developer-team-lead-bonanza-krip-ed2fb7c2

🚀 Стажёр-тестировщик в КодТех,
40 000 - 60 000 ₽
Подробнее ➡️
https://jobrocket.ru/job/stazhyor-testirovshik-kodteh-0548ef2f

🚀 Middle QA с опытом автоматизации python/javascript в Ixcellerate,
120 000 - 180 000 ₽
Подробнее ➡️
https://jobrocket.ru/job/middle-qa-s-opytom-avtomatizacii-pythonjavascript-ixcellerate-68e6e272

🚀 Product Data Analyst в SexLikeReal,
до 590 000 ₽
Подробнее ➡️
https://jobrocket.ru/job/product-data-analyst-sexlikereal-7b09bb61

🚀 Аналитик / Data Scientist в Ai-Minds,
150 000 - 220 000 ₽
Подробнее ➡️
https://jobrocket.ru/job/analitik-data-scientist-ai-minds-9f6cb8dd

🚀 Аналитик Баз Данных в банк,
240 000 - 330 000 ₽
Подробнее ➡️
https://jobrocket.ru/job/analitik-baz-dannyh-nda-krupnyj-bank-0848fcdc

🚀 Системный аналитик / Архитектор ИИ в Ptolemay,
250 000 - 300 000 ₽
Подробнее ➡️
https://jobrocket.ru/job/sistemnyj-analitik-arhitektor-ii-ptolemay-d26a256c


Больше вакансий Python здесь ⤵️
https://jobrocket.ru/?techStack=python
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥5👍1
Обучение модели как ребёнка

#почитать

Привет, я токсичный программист в области машинного обучения (МЛ), и у меня есть идея создать проект, посвящённый разработке сильного искусственного интеллекта (далее — СИИ (или же AGI)). В небольшом блоге я буду делиться с вами своим опытом в создании чат-бота, который будет обладать СИИ, ну или хотя бы казаться таким.

Читать статью
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5🔥1🙏1
This media is not supported in your browser
VIEW IN TELEGRAM
🪐 Новые вакансии Backend


🚀 PHP-разработчик в Realmo, oт 380 000 ₽
Подробнее ➡️
https://jobrocket.ru/job/php-razrabotchik-realmo-8905f5c1

🚀 Java-разработчик в iFellow, oт 240 000 ₽
Подробнее ➡️
https://jobrocket.ru/job/java-razrabotchik-ifellow-b6c58ff1

🚀 Бекэнд разработчик в Helps, 50 000 - 100 000 ₽
Подробнее ➡️
https://jobrocket.ru/job/bekend-razrabotchik-helps-a2a5364a

🚀 Backend разработчик в VegaSoft, oт 290 000 ₽
Подробнее ➡️
https://jobrocket.ru/job/backend-razrabotchik-vegasoft-4f1a4676

🚀 Backend Engineer в GetBlock.io, oт 130 000 ₽
Подробнее ➡️
https://jobrocket.ru/job/backend-engineer-getblockio-d8338ff7

🚀 PHP разработчик в Stergo, 150 000 - 200 000 ₽
Подробнее ➡️
https://jobrocket.ru/job/php-razrabotchik-stergo-6f247b1b

🚀 Разработчик-стажер (Java) в NDA (Минск), oт 20 000 ₽
Подробнее ➡️
https://jobrocket.ru/job/razrabotchik-stazher-java-nda-minsk-1eb2b2c7

🚀 Golang разработчик в Top Selection, 230 000 - 250 000 ₽
Подробнее ➡️
https://jobrocket.ru/job/golang-razrabotchik-top-selection-6fba77a2

🚀 Java-разработчик в Centicore Group, 380 000 - 410 000 ₽
Подробнее ➡️
https://jobrocket.ru/job/java-razrabotchik-centicore-group-b10ff73d

🚀 Администратор баз данных в DBI, 50 000 - 150 000 ₽
Подробнее ➡️
https://jobrocket.ru/job/administrator-baz-dannyh-dbi-19f32918

🚀 Backend developer (Python/Go) в BSL, 250 000 - 400 000 ₽
Подробнее ➡️
https://jobrocket.ru/job/backend-developer-pythongo-bsl-67e56179

🚀 PHP developer в Dornet, до 250 000 ₽
Подробнее ➡️
https://jobrocket.ru/job/php-developer-dornet-e86a6270

🚀 Python/Django-разработчик в Valta Pet Products, 200 000 - 240 000 ₽
Подробнее ➡️
https://jobrocket.ru/job/pythondjango-razrabotchik-valta-pet-products-5a1c9dcf


Больше вакансий бэкендеров здесь ⤵️
https://jobrocket.ru/?categories=backend
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥5👍1
Оценка LLM: комплексные оценщики и фреймворки оценки

#почитать

В этой статье подробно описываются сложные статистические и предметно-ориентированные оценщики, которые можно использовать для оценки производительности крупных языковых моделей. В ней также рассматриваются наиболее широко используемые фреймворки оценки LLM, которые помогут вам начать оценивать производительность модели.

Читать статью
Please open Telegram to view this post
VIEW IN TELEGRAM
5
Wolfram Natural Language Understanding или спасение для студентов

#почитать

Natural Language Understanding (NLU) в системе Wolfram — это архитектура, которая сочетает символические методы, NLP. И тут нужно подчеркнуть. NLU — это не про статистические методы, которые способны постоянно допускать ошибки. Точность интерпретации и перевода в удобоваримый для пересчета вид —самое главное в архитектуре.

Читать статью
Please open Telegram to view this post
VIEW IN TELEGRAM
👍51🔥1
Основы очистки данных

#почитать

Очистка данных позволит сделать анализ более точным, а в случае машинного обучения — улучшить качество моделей.

Давайте рассмотрим пять задач, с которыми можно столкнуться в рамках очистки данных. Это не исчерпывающий список, но он послужит хорошим ориентиром при работе с реальными датасетами.

Читать статью
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7
От подвала до облака: как обучить нейросеть в домашних условиях

#почитать

Всем известно, что обучение нейросетей требует значительных вычислительных ресурсов. Но что делать, если у вас нет мощного оборудования? В этой статье я расскажу, как обучить нейросеть частями, но и объясню ключевые понятия вроде слоев, батчей, и функций активации. Эта статья может быть полезна начинающим разработчикам, кто только погружается в нейронки.

В качестве примера кода я приведу обработку транзакций, однако данные могут быть заменены на любые, где требуется анализ о допустимости или недопустимости результата на основе цепочки данных.

Читать статью
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6
От звука к смыслу: распознавание речи в видеоконтенте

#почитать

В данной статье мы рассмотрим проект по распознаванию речи из видео, преимущества и недостатки данной разработки, а также посмотрим на то, как ее внедрение помогло ускорить работу аналитиков и разработчиков на проекте.

Читать статью
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5
Искусство аугментации: как улучшить модели компьютерного зрения без сбора новых данных

#почитать

Аугментация позволяет искусственно расширить набор обучающих примеров, применяя различные преобразования к уже имеющимся изображениям. Например, из одной фотографии кошки можно получить несколько новых, изменив ракурс, освещение или масштаб. Для нейросети это будут уже новые, отличающиеся образцы для обучения. В результате ваша модель сможет лучше распознавать кошек в различных условиях реального мира без необходимости устраивать фотосет каждому встречному пушистому.

Читать статью
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5
😁6