Data Scientist | IT – Telegram

Data Scientist | IT

@datascience_it

1.94K subscribers

650 photos

3 videos

1 file

706 links

Добро пожаловать в клуб.

Полезные материалы из мира DS & ML на регулярной основе.

По всем вопросам: @godinmedia

Download Telegram

About

Blog

Apps

Platform

Data Scientist | IT

1.94K subscribers

Data Scientist | IT

Может ли простейшая нейросеть найти математическую закономерность в данных

#почитать

В этой небольшой статье мы научим нейросеть решать задачу умножения перестановок длины 5 (группа S_5) и визуализируем результаты обучения с помощью методов проекции t-SNE (и понизим размерность PCA) и алгоритма UMAP. Мы убедимся в том, что даже элементарная модель может "неосознанно" провести бинарную классификацию перестановок. Однако с более тонкой задачей кластеризации по цикловой структуре модель будет испытывать затруднения.

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

👍5🔥1

267 views10:32

Data Scientist | IT

Forwarded from джоброкет 🚀 вакансии в IT

This media is not supported in your browser

VIEW IN TELEGRAM

🪐 Новые вакансии AI/ML-инженеров

🚀 ML-инженер в ИИ-платформа, до 400 000 ₽
Подробнее ➡️
https://jobrocket.ru/job/ml-inzhener-ii-platforma-516edaf2

🚀 Python AI разработчик в Data World, oт 200 000 ₽
Подробнее ➡️
https://jobrocket.ru/job/python-ai-razrabotchik-data-world-972992ec

🚀 Python разработчик в iFellow, oт 230 000 ₽
Подробнее ➡️
https://jobrocket.ru/job/python-razrabotchik-ifellow-a4107c40

🚀 Python Developer в Викс.АИ, oт 100 000 ₽
Подробнее ➡️
https://jobrocket.ru/job/python-developer-viksai-2495a15e

🚀 Technical Solutions Engineer в GitMax, до 400 000 ₽
Подробнее ➡️
https://jobrocket.ru/job/technical-solutions-engineer-gitmax-081d60a4

🚀 ML Engineer в GeoStartup, 400 000 - 450 000 ₽
Подробнее ➡️
https://jobrocket.ru/job/ml-engineer-geostartup-b8147f8f

🚀 Аналитик данных / Data-инженер в Команда Искендерова, 60 000 - 200 000 ₽
Подробнее ➡️
https://jobrocket.ru/job/analitik-dannyh-data-inzhener-komanda-iskenderova-f10b7424

🚀 Research NLP Engineer в Сколтех, 150 000 - 250 000 ₽
Подробнее ➡️
https://jobrocket.ru/job/research-nlp-engineer-skolteh-1e9a0296

🚀 Продуктовый аналитик в МТС, oт 90 000 ₽
Подробнее ➡️
https://jobrocket.ru/job/produktovyj-analitik-mts-a790d3e1

🚀 AI/ML Developer (LLM & RAG), 120 000 - 150 000 ₽
Подробнее ➡️
https://jobrocket.ru/job/aiml-developer-llm-and-rag-nda-154b1e3f

Больше вакансий дата-инженеров здесь ⤵️
https://jobrocket.ru/?categories=aiml

Please open Telegram to view this post

VIEW IN TELEGRAM

👍5

268 views14:18

Data Scientist | IT

В ожидании лучших 3D датасетов для ML

#почитать

Для одного из своих проектов, я погрузился в чтение методов генерации трехмерных сцен и анимированных моделей. Не слишком удивительным фактом оказалось, что подавляющее большинство из них опираются на одну и ту же идею переноса градиента из генератора плоских изображений в дифференцируемое трехмерное представление модели. Меня заинтересовал вопрос — неужели плоские изображения являются наилучшим промежуточным этапом для данной задачи и нет формата лучше, такие как облака точек или гауссианы? Мои поиски наборов данных и перспектив их массового появления я хотел бы описать в этой статье.

Прежде чем говорить о том, какие данные я ищу, нужно добавить немного мотивации. В задачах машинного обучения наборы данных можно разбить условно на те, которые получаются в результате целенаправленного сбора данных, либо те, что получаются в результате попыток обработки большого объема данных сгенерированных «в природе». «Горький урок», подтвержденный взлетом языковых и генеративных моделей для изображений, звука, голоса и видео говорит, что для общих задач в долгой перспективе большой объем легкодоступных данных оказывается более эффективным, чем сложные специализированные решения.

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

👍5🔥2

236 views10:47

Data Scientist | IT

Создание плагина для IntelliJ IDE с подключением GigaChat для проверки качества кода

#почитать

Разработка плагина началась с идеи объединить возможности искусственного интеллекта с инструментами для разработки, чтобы получать полезные рекомендации по коду непосредственно в среде разработки. Поскольку GigaChat способен не только понимать контекст, но и предоставлять рекомендации по улучшению кода, я решил, что интеграция его в IDE для автоматического анализа и проверки качества кода станет полезным инструментом для начинающих разработчиков точно.

Итак, для реализации идеи потребуется создать плагин для IDE, после запуска которого при выделении блока коде и нажатии комбинации клавиш "CTRL+ALT+A" GigaChat проанализировал бы код.

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

👍5

246 views10:58

Data Scientist | IT

Продуктовый матчинг на маркетплейсе: что происходит под капотом сравнения товаров

#почитать

Картинки – одна из основополагающих характеристик товара, которая помогает делать сопоставление. Часто именно изображение помогает принять финальное решение: являются ли два товара идентичными или нет. Значит, в матчере должна быть модель (или несколько), которые умеют хорошо различать изображения.

Прежде всего надо понять, в какой постановке мы будем дообучать модель для изображений. Постановка мультиклассовой классификации здесь не годится – ассортимент товаров исчисляется миллионами, и делать полносвязную классифицирующую “голову” таких размеров может разве что GPU-камикадзе.

Вторая проблема – огромное количество очень похожих товаров и, как следствие, очень похожих изображений.

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

👍5🔥1

273 views10:37

Data Scientist | IT

Автоэнкодеры простыми словами

#почитать

Итак, прежде всего, автоэнкодер — это тип нейронной сети, используемый для обучения без учителя. Но не любой, а такой, который может кодировать и декодировать данные, подобно ZIP-архиватору, который может сжимать и разжимать данные. В машинном обучении он используется для уменьшения размерности или сжатия данных, а также для удаления шума с изображений.

Однако он делает это умнее, чем ZIP-архиватор. Он способен понять самые важные особенности данных (так называемые латентные, или скрытые признаки) и запоминает их вместо всех данных, чтобы затем восстановить что-то близкое к оригиналу из приблизительного описания. На изображениях, например, он может запомнить очертания обьектов или относительное положение объектов друг к другу. Это позволяет добиться интересного сжатия с потерями.

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

❤6👍2🔥1

272 views10:34

Data Scientist | IT

Forwarded from джоброкет 🚀 вакансии в IT

This media is not supported in your browser

VIEW IN TELEGRAM

🪐 Новые вакансии Python

🚀 Разработчик в Московский транспорт, до 65 000 ₽
Подробнее ➡️
https://jobrocket.ru/job/razrabotchik-moskovskij-transport-c1a11357

🚀 Автотестировщик Python в ITQ,
до 180 000 ₽
Подробнее ➡️
https://jobrocket.ru/job/avtotestirovshik-python-itq-53434ae6

🚀 SRE/TradeOps Engineer в Index
(Кипр Дубай, финтех),
570 000 - 950 000 ₽
Подробнее ➡️
https://jobrocket.ru/job/sretradeops-engineer-index-132f2aac

🚀 Python Developer / Team Lead в Бонанза Крип,
400 000 - 640 000 ₽
Подробнее ➡️
https://jobrocket.ru/job/python-developer-team-lead-bonanza-krip-ed2fb7c2

🚀 Стажёр-тестировщик в КодТех,
40 000 - 60 000 ₽
Подробнее ➡️
https://jobrocket.ru/job/stazhyor-testirovshik-kodteh-0548ef2f

🚀 Middle QA с опытом автоматизации python/javascript в Ixcellerate,
120 000 - 180 000 ₽
Подробнее ➡️
https://jobrocket.ru/job/middle-qa-s-opytom-avtomatizacii-pythonjavascript-ixcellerate-68e6e272

🚀 Product Data Analyst в SexLikeReal,
до 590 000 ₽
Подробнее ➡️
https://jobrocket.ru/job/product-data-analyst-sexlikereal-7b09bb61

🚀 Аналитик / Data Scientist в Ai-Minds,
150 000 - 220 000 ₽
Подробнее ➡️
https://jobrocket.ru/job/analitik-data-scientist-ai-minds-9f6cb8dd

🚀 Аналитик Баз Данных в банк,
240 000 - 330 000 ₽
Подробнее ➡️
https://jobrocket.ru/job/analitik-baz-dannyh-nda-krupnyj-bank-0848fcdc

🚀 Системный аналитик / Архитектор ИИ в Ptolemay,
250 000 - 300 000 ₽
Подробнее ➡️
https://jobrocket.ru/job/sistemnyj-analitik-arhitektor-ii-ptolemay-d26a256c

Больше вакансий Python здесь ⤵️
https://jobrocket.ru/?techStack=python

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥5👍1

302 views14:46

Data Scientist | IT

Обучение модели как ребёнка

#почитать

Привет, я токсичный программист в области машинного обучения (МЛ), и у меня есть идея создать проект, посвящённый разработке сильного искусственного интеллекта (далее — СИИ (или же AGI)). В небольшом блоге я буду делиться с вами своим опытом в создании чат-бота, который будет обладать СИИ, ну или хотя бы казаться таким.

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

👍5🔥1🙏1

252 views10:37

Data Scientist | IT

Forwarded from джоброкет 🚀 вакансии в IT

This media is not supported in your browser

VIEW IN TELEGRAM

🪐 Новые вакансии Backend

🚀 PHP-разработчик в Realmo, oт 380 000 ₽
Подробнее ➡️
https://jobrocket.ru/job/php-razrabotchik-realmo-8905f5c1

🚀 Java-разработчик в iFellow, oт 240 000 ₽
Подробнее ➡️
https://jobrocket.ru/job/java-razrabotchik-ifellow-b6c58ff1

🚀 Бекэнд разработчик в Helps, 50 000 - 100 000 ₽
Подробнее ➡️
https://jobrocket.ru/job/bekend-razrabotchik-helps-a2a5364a

🚀 Backend разработчик в VegaSoft, oт 290 000 ₽
Подробнее ➡️
https://jobrocket.ru/job/backend-razrabotchik-vegasoft-4f1a4676

🚀 Backend Engineer в GetBlock.io, oт 130 000 ₽
Подробнее ➡️
https://jobrocket.ru/job/backend-engineer-getblockio-d8338ff7

🚀 PHP разработчик в Stergo, 150 000 - 200 000 ₽
Подробнее ➡️
https://jobrocket.ru/job/php-razrabotchik-stergo-6f247b1b

🚀 Разработчик-стажер (Java) в NDA (Минск), oт 20 000 ₽
Подробнее ➡️
https://jobrocket.ru/job/razrabotchik-stazher-java-nda-minsk-1eb2b2c7

🚀 Golang разработчик в Top Selection, 230 000 - 250 000 ₽
Подробнее ➡️
https://jobrocket.ru/job/golang-razrabotchik-top-selection-6fba77a2

🚀 Java-разработчик в Centicore Group, 380 000 - 410 000 ₽
Подробнее ➡️
https://jobrocket.ru/job/java-razrabotchik-centicore-group-b10ff73d

🚀 Администратор баз данных в DBI, 50 000 - 150 000 ₽
Подробнее ➡️
https://jobrocket.ru/job/administrator-baz-dannyh-dbi-19f32918

🚀 Backend developer (Python/Go) в BSL, 250 000 - 400 000 ₽
Подробнее ➡️
https://jobrocket.ru/job/backend-developer-pythongo-bsl-67e56179

🚀 PHP developer в Dornet, до 250 000 ₽
Подробнее ➡️
https://jobrocket.ru/job/php-developer-dornet-e86a6270

🚀 Python/Django-разработчик в Valta Pet Products, 200 000 - 240 000 ₽
Подробнее ➡️
https://jobrocket.ru/job/pythondjango-razrabotchik-valta-pet-products-5a1c9dcf

Больше вакансий бэкендеров здесь ⤵️
https://jobrocket.ru/?categories=backend

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥5👍1

223 views11:26

Data Scientist | IT

Оценка LLM: комплексные оценщики и фреймворки оценки

#почитать

В этой статье подробно описываются сложные статистические и предметно-ориентированные оценщики, которые можно использовать для оценки производительности крупных языковых моделей. В ней также рассматриваются наиболее широко используемые фреймворки оценки LLM, которые помогут вам начать оценивать производительность модели.

⏱Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

❤5

247 views05:15

Data Scientist | IT

Wolfram Natural Language Understanding или спасение для студентов

#почитать

Natural Language Understanding (NLU) в системе Wolfram — это архитектура, которая сочетает символические методы, NLP. И тут нужно подчеркнуть. NLU — это не про статистические методы, которые способны постоянно допускать ошибки. Точность интерпретации и перевода в удобоваримый для пересчета вид —самое главное в архитектуре.

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

👍5❤1🔥1

215 views10:52

Data Scientist | IT

Основы очистки данных

#почитать

Очистка данных позволит сделать анализ более точным, а в случае машинного обучения — улучшить качество моделей.

Давайте рассмотрим пять задач, с которыми можно столкнуться в рамках очистки данных. Это не исчерпывающий список, но он послужит хорошим ориентиром при работе с реальными датасетами.

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

👍7

230 views10:51

Data Scientist | IT

От подвала до облака: как обучить нейросеть в домашних условиях

#почитать

Всем известно, что обучение нейросетей требует значительных вычислительных ресурсов. Но что делать, если у вас нет мощного оборудования? В этой статье я расскажу, как обучить нейросеть частями, но и объясню ключевые понятия вроде слоев, батчей, и функций активации. Эта статья может быть полезна начинающим разработчикам, кто только погружается в нейронки.

В качестве примера кода я приведу обработку транзакций, однако данные могут быть заменены на любые, где требуется анализ о допустимости или недопустимости результата на основе цепочки данных.

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

👍6

247 views10:50

Data Scientist | IT

От звука к смыслу: распознавание речи в видеоконтенте

#почитать

В данной статье мы рассмотрим проект по распознаванию речи из видео, преимущества и недостатки данной разработки, а также посмотрим на то, как ее внедрение помогло ускорить работу аналитиков и разработчиков на проекте.

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

👍5

227 views05:04

Data Scientist | IT

Искусство аугментации: как улучшить модели компьютерного зрения без сбора новых данных

#почитать

Аугментация позволяет искусственно расширить набор обучающих примеров, применяя различные преобразования к уже имеющимся изображениям. Например, из одной фотографии кошки можно получить несколько новых, изменив ракурс, освещение или масштаб. Для нейросети это будут уже новые, отличающиеся образцы для обучения. В результате ваша модель сможет лучше распознавать кошек в различных условиях реального мира без необходимости устраивать фотосет каждому встречному пушистому.

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

👍5

248 views10:48

Data Scientist | IT

😁6

253 views13:22

Data Scientist | IT

Semantic Retrieval-Augmented Contrastive Learning (SRA-CL) для sequential рекомендательных систем: обзор

#почитать

я Research Engineer в WB, последние несколько лет работаю на стыке RecSys, LLM и мультимодальных моделей. Каждый день мы обрабатываем миллиарды событий, а модели, которые мы внедряем, напрямую влияют на CTR, удержание и конверсию, принося немало дополнительной выручки.

До этого я успел поработать в AI-стартапе в Palo Alto, где занимался голосовыми агентами (ASR/TTS), и в МТС, где мы строили AI-экосистему. Ранее в Сбере я занимался созданием единого RecSys SDK для всей экосистемы (от SberMegaMarket до Okko и Zvuk), а ещё раньше — развивал персонализацию и ML в ритейле и нейротехе.

Сегодня я хотел бы поговорить о том, как большие языковые модели могут починить контрастивное обучение в рекомендательных системах. Контрастивные методы давно стали стандартом в NLP и CV, но в последовательных рекомендациях они работают далеко не идеально: данные разрежены, а аугментации часто искажают смысл вместо того, чтобы его сохранять. Авторы свежей статьи с arXiv — “Semantic Retrieval Augmented Contrastive Learning for Sequential Recommendation (SRA-CL)” — предлагают элегантное решение: использовать LLM для генерации семантически осмысленных позитивных пар.

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

👍4🔥1

264 views10:52

Data Scientist | IT

Kaggle для футболистов: Классификация событий на футбольном поле

#почитать

Из видеозаписей футбольного матча необходимо установить, что за событие происходит на футбольном поле, в результате ожидают csv файл со следующими полями: id видео - момент времени, когда это событие произошло - что за событие произошло - уверенность от 0 до 1 в том, что это событие произошло.

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

👍5🔥1

226 views10:47

Data Scientist | IT

7 взаимозаменяемых решений, которые ускорят рабочие процессы Data Science на Python

#почитать

Хотите сделать свои Python-скрипты для анализа данных быстрее без переписывания кода? NVIDIA предлагает 7 простых замен стандартных библиотек, которые позволяют значительно ускорить выполнение задач анализа данных без изменения кода. В статье рассматриваются готовые решения для замены Pandas, NumPy и других библиотек, использующие GPU для повышения производительности.

Приведены примеры кода и сравнительные тесты, демонстрирующие рост скорости обработки данных. Материал будет полезен специалистам в области Data Science и разработчикам, работающим с большими объемами информации.

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥5👍1

248 views10:41

Data Scientist | IT

AutismSmartDetector: Система для определения черт аутистического спектра

#почитать

предназначенную для автоматического определения черт аутистического спектра по фотографиям лиц. Система использует свёрточную нейронную сеть (CNN), обученную на большом наборе данных, чтобы классифицировать изображения на две категории: "Autistic" и "Non-Autistic".

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

👍6🔥1

267 views10:43

Data Scientist | IT

Почему галлюцинируют нейросети [и что с этим делают]

#почитать

Австрийский математик Курт Гёдель еще в 1931 году сформулировал и доказал две теоремы о неполноте. В общем случае первая теорема гласит, что всякая непротиворечивая теория имеет утверждения, которые нельзя доказать средствами этой теории. Теорема оказала значительное влияние на различные научные области и в некоторой степени может способствовать пониманию того, почему галлюцинации в системах ИИ неизбежны.

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

👍5🔥1

282 views10:38