Data Scientist | IT

Модели YOLO и ResNet для обнаружения нежелательных предметов на фотографиях

#почитать

На примере поиска ножей на кухне.

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

👍6

474 views05:16

Data Scientist | IT

Извлечение полезной информации из категориальных признаков

#почитать

Категориальный признак (categorical feature) — это признак, который содержит в себе какую-либо метку (свойство), описывающую этот признак. При этом, категориальные признаки не измеряются в непрерывной шкале, в отличие от непрерывных признаков (continuous features).
Категориальные признаки могут содержать фиксированный набор значений.
К примеру, признак RGB содержит значения: Red (красный), Green (зелёный) и Blue (голубой).
Также они могут содержать набор значений, который может со временем меняться.
Например, номера поликлиник в городе: 321, 213, 2 и так далее. Город может построить новую поликлинику, и таким образом она добавится в ваш список.
Если категориальный признак принимает только два значения, его называют бинарным (True / False, Да / Нет, Зеленый / Красный и так далее).
Большая часть классических ML-моделей использует в своей работе числовые признаки, в связи с этим следует уметь корректно представлять категориальные значения числами.
Можно ли не утруждать себя при работе с такими признаками?
Ответ: и да, и нет. Вы действительно можете использовать какие-то базовые приёмы работы с ними, но рискуете потерять в качестве модели.

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

👍7🔥1

432 views10:30

Data Scientist | IT

Уродливая математика в машинном обучении

#почитать

Когда слушаешь доклады на больших ML-конференциях, то часть докладов вызывает восторг, но другая часть на послевкусии вызывает странное чувство. Да, доклад может быть очень крутым, математика блестящей, сложность крышесносной, но что-то как будто бы не так.

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

👍6❤1🔥1

405 views10:24

Data Scientist | IT

Распознавание паспорта РФ в PWA

#почитать

Утечки персональных данных в России бьют все рекорды. За два года их совокупное число выросло – только вдумайтесь – в 40 раз. В 2021-м году таких инцидентов было всего четыре, в 2022 – свыше 140, а за первые семь месяцев 2023 года – уже 150.

Одним из возможных путей утечки является передача персональных данных на обработку третьей стороне. По сути, компания передает изображения удостоверяющих документов (паспортов или любых других) своих клиентов незнакомым людям, а что дальше происходит с данными – неизвестно.

Между тем, есть еще один способ ввода данных из документов – прямо на устройстве, без необходимости отправлять куда-то картинку. Он полностью исключает риск любой утечки. Речь идет о нашем мобильном SDK для распознавания паспорта.

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

👍5❤2🔥1

416 views10:28

Data Scientist | IT

Как работает нейросеть SORA

#почитать

В основе SORA заложена та же идея, что и в LLM по типу GPT. Языковые модели хорошо показали себя в генерации текста отчасти из-за использования принципов токенизации, которые умело связывают и представляют текст в виде скрытых пространств. OpenAI переняли эту стратегию и ввели “визуальные патчи” для столь же эффективного представления видео.

Первым этапом в обучении SORA стало обучение такой сети, которая могла бы принимать необработанное видео в качестве входных данных и выводить скрытое представление визуальных патчей, сжатое как во времени, так и в пространстве. В последствии основная модель генерирует именно это латентное представление, которое позже декодируются обратно в пространство пикселей.

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

👍5🔥2❤1

454 views05:12

Data Scientist | IT

Как сделать чат-бота лучше - RAGAS

#почитать

Обычно оценка качества производится путём анализа обратной связи от пользователей, либо пользователь голосует рублем. Допустим, вы разработали чат-бота и обнаружили, что юзеры не в восторге от его ответов. Вы вносите изменения, например, заменяете одну LLM на другую и надеетесь, что теперь-то ответы всех устроят. Это можно сделать ещё более умно через A/B-тестирование. Но можно ли ускорить релизный цикл, заранее оценив влияние внесённых изменений? RAGAS как раз предлагает ответ на этот вопрос.

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

👍5

467 views10:40

Data Scientist | IT

Машинное обучение и дизельные двигатели

#почитать

По имеющимся оценкам, только эксплуатационные затраты на один самосвал достигают 50 тысяч рублей в час. При этом, если простой оказался незапланированным, это увеличивает сумму ещё на 30%. Очевидно, что одно дело, когда самосвал остановили на запланированный ремонт, и совершенно другое — если он груженный рудой внезапно сломался посреди смены где‑нибудь в глубине карьера.

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

👍5🔥2

418 views10:39

Data Scientist | IT

Предварительная обработка данных для машинного обучения

#почитать

Подготовка данных – это процесс подготовки «сырых» (необработанных) данных для их дальнейшей обработки и анализа.

Предобработка данных включает следующие процедуры:

проверка данных;
очистка данных;
трансформация данных;
трансформация данных;
дополнение;
оптимизация.

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

👍5🔥2

417 views05:14

Data Scientist | IT

Меньше работы с людьми, больше работы с данными: кому подойдет мир аналитики

#почитать

Профессия аналитика идеально подходит тем, кто находит удовольствие в работе с данными и анализе, предпочитая это общению с людьми. Это не означает, что аналитикам вообще не приходится взаимодействовать с коллегами или клиентами, но основная часть их работы связана с анализом информации, а не с постоянным общением.

Аналитика данных требует глубокого погружения в информацию, изучения трендов и поиска закономерностей. Это занятие для тех, кто может часами сосредотачиваться на цифрах и таблицах.

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥5👍2❤1

483 views05:03

Data Scientist | IT

Улучшаем технику серфинга с помощью компьютерного зрения

#почитать

Я — серфер. Я катаюсь на волнах Тенерифе и углубленно изучаю мир серфинга.

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

👍5🔥2❤1

501 views10:49

Data Scientist | IT

Почему именно SQL и Python — мастхев для аналитика

#почитать

1. SQL используется для работы с базами данных, позволяет извлекать, преобразовывать данные и изменять структуру таблиц.
2. Python используется для более сложных манипуляций с данными, включая сложные вычисления и визуализацию.
3. Важные библиотеки Python для аналитики данных включают NumPy, Pandas, Matplotlib и SciPy.
4. Python и SQL покрывают основные потребности аналитиков, делая их более ценными на рынке труда по сравнению с знающими только Excel.

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

👍6❤1🔥1

435 views10:59

Data Scientist | IT

Разбор Gradient Boosting

#почитать

Архитектурные шаблоны в машинном обучении представляют собой общие структуры и методологии, которые позволяют разработчикам более эффективно решать задачи. Они представляют собой набор bewährte Lösungen, то есть "проверенных решений", которые могут быть адаптированы к конкретным задачам и данным. Использование архитектурных шаблонов позволяет сэкономить время и ресурсы при разработке моделей машинного обучения.

Gradient Boosting – это один из наиболее мощных и гибких архитектурных шаблонов в машинном обучении. Он позволяет строить ансамбли моделей, комбинируя слабые ученики в сильную модель, способную решать разнообразные задачи классификации и регрессии. Этот метод обрел популярность благодаря своей способности обучаться на ошибках предыдущих моделей, постепенно улучшая свои прогнозы.

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

👍6❤3🔥1

440 views10:55

Data Scientist | IT

Дата-сайентисты и Docker с Kubernetes

#почитать

В целом, хотя дата-сайентистам не обязательно становиться экспертами по Kubernetes, общее представление об этой технологии полезно для эффективного взаимодействия с другими командами, развертывания моделей и приложений.

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

👍5🔥2❤1👌1

462 views05:09

Data Scientist | IT

🔤

🌌

🔤

🌌

🔤

🔤 — божественный канал для бизнес и системных аналитиков и продуктовых менеджеров

➡️ Подписаться

Please open Telegram to view this post

VIEW IN TELEGRAM

аналитик от бога

Божественный канал по бизнес-анализу и системному анализу

По всем вопросам @anothertechrock

❤5👍3🔥1

440 views07:42

Data Scientist | IT

Linux для аналитика

#почитать

Я ведущий аналитик направления Big Data Лиги Цифровой Экономики. Я проведу небольшую ознакомительную экскурсию в мир Linux и покажу, что аналитик вполне себе может решать повседневные задачи в этой операционной системе.

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

👍6❤1🔥1👌1

469 views10:27

Data Scientist | IT

Есть ли у ИИ-художника свой стиль

#почитать

Внутри каждой из txt-2-img нейросетей есть модель, обученная на своем датасете. Если модель удачная, то и генерации будут получаться качественными, красивыми, соответствующими запросу. Разумеется, посмотреть, что представляет из себя модель, на каком датасете она обучена, не получится – это коммерческая тайна любого из продуктов, о которых я буду писать ниже.

И всё-таки, попробуем определить, где лучше генерировать изображения, хотя бы по факторам красоты/соответствия запросу.

Будем исходить из того, что в каждом из продуктов, который участвует в наших экспериментах, есть большие или меньшие веса для определённых изображений. То есть она предрасположена выдавать в результатах генераций следы тех изображений, которых или больше в датасете или которые имеют больший вес.

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

👍6❤2🔥1

471 views10:28

Data Scientist | IT

▫️Машинное обучение – из разработчика в ML-инженеры

#посмотреть

Разбираем общие понятия, посмотрим на основные принципы на примерах и обсудим инструменты в промышленном ML.

⏱

Смотреть на YouTube ⏱ 40 минут

Please open Telegram to view this post

VIEW IN TELEGRAM

👍6❤2🔥1

420 views05:21

Data Scientist | IT

ML: как понять, что вы больше не джун

#почитать

Грейды отличают две вещи.
Первая — технический стек. Четких градаций навыков дата-аналитиков нет, потому разные компании фокусируются на разных скиллах в зависимости задач, но базовый набор такой:

Junior: SQL (window functions), Excel (sheets), Python (pandas, matplotlib, numpy), Statistics, Data Visualisation (BI platforms), git;

Middle: SQL (DDL, DML, optimisation), differences between DB, Python ML stack (scikit-learn), Data Mining (e.g. API);

Senior: ETL (e.g. Airflow), Data Modeling, OOP or functional programming.

Вторая отличающая грейды вещь — умение работать самостоятельно.

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

👍6❤2🔥1

467 views10:57

Data Scientist | IT

Учим большие языковые модели описывать продукты данных

#почитать

Рассмотрим использование больших языковых моделей на этапе подготовки описания продуктов данных для дальнейшего использования в аналитике.

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

❤8👍2🔥1

416 views05:00

Data Scientist | IT

▫️ Градиентный бустинг: XgBoost vs LightGBM vs CatBoost

#посмотреть

- Автор ушел в мелкие детали, а лучше бы рассказал качественные отличия различных бустингов. Один лучше там (потому- то), второй- тут (потому- то), третий вот там (по такой- то причине)... А это просто мешок слов из книжки.

- Фишка в том, что тут нет понятия хуже или лучше. Это зависит исключительно от задачи, которую нужно решить. А чтобы выбрать подходящий бустинг, нужно знать как он работает. Если нужен самый быстрый то лучше всего LightGBM, в силу того, что он обсчитывает не весь датасет, а часть. Если много категориальных переменных, то лучше всего CatBoost потому что он под это заточен

⏱

Смотреть на Youtube ⏱35 минут

Please open Telegram to view this post

VIEW IN TELEGRAM

👍5❤2🔥1

482 views10:57

Data Scientist | IT

Почему витамины и лекарства не работают на 100%? Машинное обучение нашло ответ

#почитать

В период пандемии ковида и недавней эпидемии гриппа многие из нас прибегали к употреблению большого количества витаминов и микроэлементов, для поддержания иммунитета. Выбор БАДов в аптеках по всей стране весьма широкий и привлекательный, однако совместное их применение очень ограничено. Все дело в белках-переносчиках

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

👍6❤1🔥1

485 views05:03

About

Blog

Apps

Platform