Data Scientist | IT – Telegram

Data Scientist | IT

@datascience_it

1.94K subscribers

650 photos

3 videos

1 file

706 links

Добро пожаловать в клуб.

Полезные материалы из мира DS & ML на регулярной основе.

По всем вопросам: @godinmedia

Download Telegram

About

Blog

Apps

Platform

Data Scientist | IT

1.94K subscribers

Data Scientist | IT

Atlas: Как реконструировать 3D сцену из набора изображений

#почитать

Представляю метод 3D-реконструкции сцены (процесс создания трехмерной модели объекта на основе двухмерных изображения или видео), который основан на линейной регрессии, усеченной знаковой функции расстояния (TSDF) (Рассмотрим в следующем пункте) из набора RGB-изображений с заданными позициями (для каждого изображения известны параметры камеры, включая её позицию и ориентацию в пространстве). Обычно подходы по 3D реконструкции опираются на карты глубины перед оценкой 3D сцены. Мы же предполагаем, что прямая регрессия в 3D более эффективна. 2D-CNN извлекает признаки из каждого изображения независимо, которые затем проецируются и аккумулируются (собираются) в воксельном объеме с использованием внутренних (Фокусное расстояние, Центр проекции, Коэффициенты искажения) и внешних (Позиция, Ориентация) параметров камеры. После 3D-CNN уточняет накопленные признаки и предсказывает значения TSDF.

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

👍4❤1

353 views05:03

Data Scientist | IT

Запускаем Yolo на пятирублёвой монете или Luckfox Pico Mini

#почитать

В данной статье речь пойдет про использование платы Luckfox Pico Mini. Я расскажу про особенности, её настройку, а также о том как запускать на ней нейронные сети для детекции объектов с камеры (Yolov8). Всё дальнейшее повествование опирается на желание автора использовать устройство для обработки изображений нейронными сетями в реальном времени (или почти). При этом обработка изображений не может работать изолированно от других устройств общей системы, поэтому в статье также будет рассмотрена интеграция Luckfox Pico с внешней периферией.

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

👍4🔥1👌1

299 views10:33

Data Scientist | IT

Распознавание ж/д пикетных столбиков по фотографиям с беспилотника на основе PyTorch и YOLOv5

#почитать

Железнодорожный путь требуют регулярного мониторинга различных элементов инфраструктуры дляобеспечения безопасности и бесперебойного движения поездов. Один из элементов инфраструктуры — пикетные столбики. Для автоматизации обработки и анализа собранных данных, в частности изображений, можно применить методы компьютерного зрения. Задача данной работы — автоматизировать процесс обнаружения пикетов на фотографиях, полученных с беспилотника.

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

👍4

302 views10:21

Data Scientist | IT

The AdEMAMix Optimizer: Better, Faster, Older

#почитать

В данный момент мы находимся на стадии развития глубинного обучения, когда просто увеличивать кластера для более качественного результата становится проблематично. А потому все начинают спускаться на уровень ниже. И одна из таких ниш для улучшения это, конечно, оптимайзеры.

И хотя за ночными разговорами на тихих улочках Санкт-Петербурга мелькают идеи о создании быстрых оптимизаторов второго порядка (Софочка, София, ты как ностальгия…), результат нам нужен здесь и сейчас, а потому в мире, к сожалению, все еще главенствуют Adam и AdamW. Но у них есть ряд проблем, которые исследователи усердно пытаются решить, и одна из них – это память. AdEMAMix предлагает максимально топорное решение данной проблемы просто путем внедрения двух импульсов с различными β. Но от этого оно менее эффективным не становится!

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

👍4

287 views10:45

Data Scientist | IT

Руководство по интерпретации данных

#почитать

Уроки 10-летнего опыта в Uber, Meta и быстрорастущих стартапах

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

👍4

274 views10:40

Data Scientist | IT

Краткий свод концепций Tensor Flow

#почитать

Изначально фреймворк создавали как платформу для внутреннего использования в Google, заменив предшествующую библиотеку DistBelief, которая была ограничена возможностями только для небольших исследований.

TensorFlow, в отличие от DistBelief, задумывался как кросс-платформенное решение с возможностью гибкой и масштабируемой настройки.

Первая версия TensorFlow использовала концепцию графа вычислений и статической компиляции, что хотя и требовало большего количества ресурсов для разработки, позволяло проводить распределённое обучение и значительно ускоряло процесс выполнения.

С выпуском TensorFlow 2.x фреймворк претерпел значительные изменения, ориентированные на упрощение разработки за счёт поддержки динамических графов (Eager execution) и интеграции Keras как стандартного API высокого уровня.

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

👍4

279 views05:14

Data Scientist | IT

Text-to-speech. Анализ открытых решений синтеза речи

#почитать

Мое первое знакомство с аудионейросетями и одновременно их практическое применение началось с задачи дообучения англоговорящей нейросети на русском датасете. Основой модели была архитектура Fast Speech от coqui.ai, это один из популярных проектов в области TTS. Сама модель должна была стать частью телеграм-бота для технической поддержки пользователей (не будем задаваться вопросом зачем).

Неудивительно, что с первого раза сделать качественную нейросеть в ограниченные сроки не представилось возможным, но опыта было получено немерено.

Сегодня создавать с нуля такое решение уже необязательно, поскольку в открытом доступе есть множество моделей удовлетворительного качества. Конечно, количество решений для популярного английского языка значительно больше, но и для русского получилось кое-что найти.

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥5

283 views10:25

Data Scientist | IT

Деменция LLM: как языковые модели забывают, зачем учились, и что из этого следует

#почитать

В отличие от традиционного машинного обучения, когда данные для обучения статичны, непрерывное обучение строится на последовательном пополнении обучающих данных. Последовательное обучение позволяет не переобучать модель, даже если условия изменились.

Например, инженеры научили модель отличать собак от кошек. При последовательном обучении, даже если модель «увидит» новую породу, она сможет сказать, что это не кошка.

Типичная проблема при непрерывном обучении заключается в том, что модель забывает предыдущие образцы при изучении новой информации. Это явление известно как катастрофическое забывание. Типичный способ предотвратить это — использовать регуляризацию или просто полагаться на данные.

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

😁5

266 views10:54

Data Scientist | IT

⚡️Пошаговый план: как стать аналитиком данных в 2025

Хотите попасть в аналитику, но теряетесь в море информации и не понимаете, какие навыки действительно важны? Боитесь, что без опыта вас не возьмут на работу? И да, ещё один популярный вопрос — а что, если мне 30/40/50+ лет?

Андрон Алексанян — эксперт по аналитике с 8 летним опытом и по совместительству CEO Simulative — покажет рабочие схемы и четкий план, как устроиться в аналитику быстрее, даже если у вас нет опыта.

Что будет на вебинаре?

🟠 Разберем полный роадмап: что учить, в каком порядке, до какого уровня;
🟠 Лайфхаки трудоустройства:
— Покажем реальные примеры, как оформить резюме и портфолио, чтобы привлекать внимание;
— Обсудим какие отклики работают, а какие сразу отправляют в корзину;
— Изнанка найма: инсайдерский взгляд на процессы отбора
🟠 Практические техники для новичков: разберём, как компенсировать недостаток опыта и быстро закрывать пробелы в знаниях.

🕗 Важно досмотреть вебинар до конца, чтобы получить бонус от нас, который поможет бустануть карьеру.

😶Зарегистрироваться на бесплатный вебинар

Please open Telegram to view this post

VIEW IN TELEGRAM

👍4

293 views07:34

Data Scientist | IT

Глубокая оптимизация сверточных нейронных сетей: Анализ методов улучшения модели на примере CIFAR-10

#почитать

Сверточные нейронные сети (CNN) стали основой для обработки изображений и компьютерного зрения. Однако их обучение требует тщательной настройки архитектуры и гиперпараметров, что может быть сложной задачей, особенно при работе с большими наборами данных. В этой статье мы подробно рассмотрим несколько методов оптимизации, используемых для повышения производительности CNN на примере набора данных CIFAR-10, и покажем, как различные техники влияют на потери и точность модели. Мы протестируем аугментацию данных, различные архитектурные решения, такие как Batch Normalization и Dropout, и адаптивные подходы к обучению.

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

👍4🔥1

294 views05:03

Data Scientist | IT

Tribuo и регрессия: как строить предсказательные модели на Java

#почитать

Tribuo поддерживает различные алгоритмы для классификации, регрессии, кластеризации и многого другого. Но сегодня мы сосредоточимся на регрессии — фундаментальной задаче, которая позволяет предсказывать непрерывные значения. Одним из главных плюсов Tribuo является её удобный API, который позволяет быстро строить модели и оценивать их эффективность.

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥4👍1

282 views05:06

Data Scientist | IT

Hippo-RAG: Долговременная память для LLM, вдохновленная нейробиологией

#почитать

Ученые часто вдохновляется нашими или животными биологическими структурами: CNN, MLP, Backprop, и для многих других исследований можно найти сходства в реальном мире. Недавно вышла статья, которая делает то же самое, но для RAG (Retrieval-Augmented Generation). В некотором роде, это недостающая современным LLM долгосрочная память. Это понятно, а причем тут неокортекст, гиппокамп и другие сложные слова?

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

👍4🔥1

249 views05:14

Data Scientist | IT

Все говорят, что работы в айти стало меньше...

На самом деле, работы полно. Мы подготовили 7 правильных каналов с вакансиями для тестировщиков, аналитиков, проджект-менеджеров и программистов.

В чем фишка этих каналов?

— зарплатная вилка🍴во всех вакансиях
— еженедельные подборки стажировок для начинающих — как здесь (для QA), здесь (для PM) и здесь (для BA&SA)
— быстрый телеграм/email контакт для прямой связи с рекрутером
— удобная навигация по уровням/условиям работы/направлениям тестирования

▪️Python Jobs — работа для Python разработчиков
▪️QA Jobs — работа для тестировщика
▪️PM Jobs — работа для Project и Product менеджера
▪️BA & SA Jobs — работа для бизнес- и системых аналитиков
▪️C# & .NET Jobs — работа для C# инженеров
▪️DS&ML Jobs — работа для DS инженеров
▪️PHP Jobs — работа для PHP разработчиков
▪️JAVA Jobs — работа для Java разработчиков

Подписаться на все каналы сразу

👍4

268 views07:33

Data Scientist | IT

Data Science и машинное обучение: примеры использования в реальных проектах

#почитать

1. Прогнозирование спроса в ритейле: примеры из Walmart и Amazon
2. Машинное обучение в здравоохранении: от диагностики до прогнозирования
3. Компьютерное зрение на производстве: контроль качества на линии
4. Борьба с мошенничеством в финансовом секторе: анализ транзакций

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

👍5❤1

293 views11:15

Data Scientist | IT

Подборка из 5 классных книг для обучения soft-skills и управлению проектами:

▫️Искусство Agile-разработки
▫️Scrum. Революционный метод управления проектами
▫️Agile-трансформация. Готовый план перехода к гибкой бизнес-модели организации
▫️Эпоха Agile. Как умные компании меняются и достигают результатов
▫️Agile для всех. Создание быстрой, гибкой, клиентоориентированной компании

Эти (и многие другие книги по soft-skills и управлению проектами) вы можете найти на канале Библиотека PM. Там регулярно публикуются свежие книги на русском языке. Все книги публикуются для ознакомления.

➡️ Подписаться на Библиотеку PM

👍4

314 views07:31

Data Scientist | IT

Cтатистика Байеса в ML для самых маленьких

#почитать

Байесовская статистика — это что-то вроде античного оракула в современном мире данных. Она не просто предсказывает будущее, она делает это с потрясающей уверенностью, опираясь на всё, что знает (или думает, что знает) о прошлом. Представьте себе модель машинного обучения, которая не довольствуется лишь холодными числами и вероятностями, полученными из текущих данных.

Она как опытный инвестор, который всегда держит в уме свой предыдущий опыт, но готов быстро адаптироваться, как только рынок (то есть данные) даёт ему новую информацию. Именно здесь в игру вступают априорные и апостериорные вероятности — два основных инструмента, при помощи которых Байесовский подход разворачивает свою магию.

Априорная вероятность — некий изначальный набор гипотез, который может быть основан на знаниях, догадках или статистике. Например, если вы обучаете модель для распознавания мошенничества в финансовых операциях, ваш априор может быть основан на данных предыдущих лет, когда мошенничество составляло, скажем, 5% от общего числа операций.

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

👍4

357 views12:05

Data Scientist | IT

PM Юмор

Проджект-менеджеры не ставят дедлайны — они искусно создают атмосферу легкой паники и срочности.

«Спринт-планирование»? Что это? Если команда в Zoom, никто не молчит и все делают вид, что понимают — значит, всё идёт по плану!

Подписывайтесь на PM Юмор — где шутки появляются быстрее, чем таски в бэклоге!

PM Юмор

👍4🔥1

316 views07:33

Data Scientist | IT

Предиктивная аналитика надёжности оборудования

#почитать

Для насосного оборудования такие предсказания могут включать в себя оценку вибрации, температуры, давления, уровня жидкости и других критических параметров. Благодаря этому становится возможным планировать ремонты и замену деталей таким образом, чтобы минимизировать время простоя и затраты на обслуживание.

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥6

328 views12:37

Data Scientist | IT

▫️

Как обрабатывать, фильтровать и генерировать текстовые данные для ML моделей

#посмотреть

DATAMeetup.

⏱

Смотреть на YouTube ⏱️25 минут

Please open Telegram to view this post

VIEW IN TELEGRAM

👍5

306 views11:23

Data Scientist | IT

Компьютерное зрение на С++: подключаем ML-библиотеки и обрабатываем результаты поиска объектов

#почитать

•Как подключить к проекту библиотеки машинного обучения PyTorch и NCNN.
•Как получить модели YOLOv5 и YOLOv4 для использования на мобильном устройстве.
•Как реализовать инференс моделей для обнаружения объектов.
•Как обработать результаты работы моделей YOLO, реализовав алгоритмы Non-Maximum-Suppression и Intersection-Over-Union.

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

👍6

380 views10:31

Data Scientist | IT

?

👍5

320 viewsedited 12:58