Data Scientist | IT

Дата-сайентисты и Docker с Kubernetes

#почитать

В целом, хотя дата-сайентистам не обязательно становиться экспертами по Kubernetes, общее представление об этой технологии полезно для эффективного взаимодействия с другими командами, развертывания моделей и приложений.

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

👍5🔥2❤1👌1

462 views05:09

Data Scientist | IT

🔤

🌌

🔤

🌌

🔤

🔤 — божественный канал для бизнес и системных аналитиков и продуктовых менеджеров

➡️ Подписаться

Please open Telegram to view this post

VIEW IN TELEGRAM

аналитик от бога

Божественный канал по бизнес-анализу и системному анализу

По всем вопросам @anothertechrock

❤5👍3🔥1

440 views07:42

Data Scientist | IT

Linux для аналитика

#почитать

Я ведущий аналитик направления Big Data Лиги Цифровой Экономики. Я проведу небольшую ознакомительную экскурсию в мир Linux и покажу, что аналитик вполне себе может решать повседневные задачи в этой операционной системе.

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

👍6❤1🔥1👌1

469 views10:27

Data Scientist | IT

Есть ли у ИИ-художника свой стиль

#почитать

Внутри каждой из txt-2-img нейросетей есть модель, обученная на своем датасете. Если модель удачная, то и генерации будут получаться качественными, красивыми, соответствующими запросу. Разумеется, посмотреть, что представляет из себя модель, на каком датасете она обучена, не получится – это коммерческая тайна любого из продуктов, о которых я буду писать ниже.

И всё-таки, попробуем определить, где лучше генерировать изображения, хотя бы по факторам красоты/соответствия запросу.

Будем исходить из того, что в каждом из продуктов, который участвует в наших экспериментах, есть большие или меньшие веса для определённых изображений. То есть она предрасположена выдавать в результатах генераций следы тех изображений, которых или больше в датасете или которые имеют больший вес.

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

👍6❤2🔥1

471 views10:28

Data Scientist | IT

▫️Машинное обучение – из разработчика в ML-инженеры

#посмотреть

Разбираем общие понятия, посмотрим на основные принципы на примерах и обсудим инструменты в промышленном ML.

⏱

Смотреть на YouTube ⏱ 40 минут

Please open Telegram to view this post

VIEW IN TELEGRAM

👍6❤2🔥1

420 views05:21

Data Scientist | IT

ML: как понять, что вы больше не джун

#почитать

Грейды отличают две вещи.
Первая — технический стек. Четких градаций навыков дата-аналитиков нет, потому разные компании фокусируются на разных скиллах в зависимости задач, но базовый набор такой:

Junior: SQL (window functions), Excel (sheets), Python (pandas, matplotlib, numpy), Statistics, Data Visualisation (BI platforms), git;

Middle: SQL (DDL, DML, optimisation), differences between DB, Python ML stack (scikit-learn), Data Mining (e.g. API);

Senior: ETL (e.g. Airflow), Data Modeling, OOP or functional programming.

Вторая отличающая грейды вещь — умение работать самостоятельно.

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

👍6❤2🔥1

467 views10:57

Data Scientist | IT

Учим большие языковые модели описывать продукты данных

#почитать

Рассмотрим использование больших языковых моделей на этапе подготовки описания продуктов данных для дальнейшего использования в аналитике.

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

❤8👍2🔥1

416 views05:00

Data Scientist | IT

▫️ Градиентный бустинг: XgBoost vs LightGBM vs CatBoost

#посмотреть

- Автор ушел в мелкие детали, а лучше бы рассказал качественные отличия различных бустингов. Один лучше там (потому- то), второй- тут (потому- то), третий вот там (по такой- то причине)... А это просто мешок слов из книжки.

- Фишка в том, что тут нет понятия хуже или лучше. Это зависит исключительно от задачи, которую нужно решить. А чтобы выбрать подходящий бустинг, нужно знать как он работает. Если нужен самый быстрый то лучше всего LightGBM, в силу того, что он обсчитывает не весь датасет, а часть. Если много категориальных переменных, то лучше всего CatBoost потому что он под это заточен

⏱

Смотреть на Youtube ⏱35 минут

Please open Telegram to view this post

VIEW IN TELEGRAM

👍5❤2🔥1

482 views10:57

Data Scientist | IT

Почему витамины и лекарства не работают на 100%? Машинное обучение нашло ответ

#почитать

В период пандемии ковида и недавней эпидемии гриппа многие из нас прибегали к употреблению большого количества витаминов и микроэлементов, для поддержания иммунитета. Выбор БАДов в аптеках по всей стране весьма широкий и привлекательный, однако совместное их применение очень ограничено. Все дело в белках-переносчиках

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

👍6❤1🔥1

485 views05:03

Data Scientist | IT

Как взламывают биометрию и заставляют нейросети придумывать способы атак

#почитать

Атаки на биометрию уже освоили достаточно приземленные мошенники. У пользователя взламывают Telegram, находят записи голосовых сообщений, прогоняют их через специальные нейросети, такие как voice.ai и murf.ai, и отправляют голосовое сообщение с просьбой о помощи по контакт-листу в мессенджере.

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

👍7❤1

409 views10:49

Data Scientist | IT

Все говорят, что работы в айти стало меньше...

На самом деле, работы полно. Мы подготовили 7 правильных каналов с вакансиями для тестировщиков, аналитиков, проджект-менеджеров и программистов.

В чем фишка этих каналов?

— зарплатная вилка🍴во всех вакансиях
— еженедельные подборки стажировок для начинающих — как здесь (для QA), здесь (для PM) и здесь (для BA&SA)
— быстрый телеграм/email контакт для прямой связи с рекрутером
— удобная навигация по уровням/условиям работы/направлениям тестирования

▪️QA Jobs — работа для тестировщика
▪️PM Jobs — работа для Project и Product менеджера
▪️BA & SA Jobs — работа для бизнес- и системых аналитиков
▪️C# & .NET Jobs — работа для C# инженеров
▪️DS&ML Jobs — работа для DS инженеров
▪️PHP Jobs — работа для PHP разработчиков
▪️JAVA Jobs — работа для Java разработчиков

Подписаться на все каналы сразу

❤5

399 views07:32

Data Scientist | IT

Анализ зависимостей бинарных файлов на основе ML

#почитать

Мы реализовали анализатор бинарного кода на основе ML-подходов — Binary SCA. Наш проект совмещает две предметные области — информационную безопасность и ML.

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

👍7

403 views10:51

Data Scientist | IT

40 Полезных инструментов Дата Саентиста

#почитать

Благодаря активному сообществу разработчиков, практически для любой задачи на Python можно найти готовый и полезный инструмент, который поможет вам в решении самых сложных задач. Надеюсь, вы найдете что-то полезное для себя.

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

❤6

421 views10:54

Data Scientist | IT

Подготовка к собеседованию на позицию DS. Специализированное машинное обучение

#почитать

▪️Глубокое обучение
▪️Обработка текстов на естественном языке
▪️Компьютерное зрение
▪️Графовые нейронные сети
▪️Обучение с подкреплением
▪️Рекомендательные системы
▪️Временные ряды
▪️Big Data

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

👍6

505 views10:57

Data Scientist | IT

Требования к данным для систем ИИ по верификации людей

#почитать

▫️Системы верификации
▫️Общие требования к данным
▫️Требования к эталонному набору данных
▫️Требования к сравниваемым объектам

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

❤6

535 views05:01

Data Scientist | IT

Разговариваем с BI на естественном языке

#почитать

Искусственный интеллект уже научился писать простые запросы к базам данных, но можно ли совсем избавиться от кода в работе аналитиков? Мы расскажем про наши нейросетевые эксперименты, в которых мы научили BI-систему слушать, понимать и отрабатывать запросы аналитиков на естественном языке.

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

👍6

430 views05:02

Data Scientist | IT

Как сделать pruning, чтобы потом не плакать

#почитать

Обрезка нейросетей или же, если вникать в термины, pruning — то, что помогает уменьшить размер нашей модели без потери ее эффективности. Идея проста: мы просто убираем из модели все, что нам не нужно. Как в магазине, когда решил экономить: если в корзине лежат лишние товары, то почему бы их не убрать? Так и здесь — мы убираем избыточные нейроны и связи, которые только занимают место, но не приносят особой пользы.

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

❤5🔥2

414 views05:04

Data Scientist | IT

Архитектурный паттерн для обработки больших данных: Kappa

#почитать

Архитектурный паттерн Kappa представляет собой эффективный подход к обработке больших данных. Он основывается на идее обработки данных в реальном времени без необходимости разделения данных на два потока, как это делается в архитектуре Lambda.

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

👍6

425 views05:06

Data Scientist | IT

Алгебра смысла

#почитать

Знаковые последовательности (например, вербальные и нотные тексты) можно превратить в математические объекты. Слова и числа стали одной сущностью, представлением матричной единицы, которая является матричным обобщением целых чисел и гиперкомплексным числом. Матричная единица — это матрица в которой один элемент равен единице, а остальные — нули.

Если слова текста представить такими матрицами, то конкатенация (объединение с сохранением порядка) слов и текстов становится операцией сложения матриц.

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

👍6

436 views05:08

Data Scientist | IT

Скиллы для промышленных проектов Data Science

#почитать

К дата-аналитике мы пришли с появлением предиктивных моделей, цель которых — прогнозировать события или переменные на основе исторических данных. Чтобы создать модель, их нужно проанализировать и предобработать.

Первоначально этим занимались специалисты Data Science, но, оптимизируя процессы, мы решили попробовать подход, когда все задачи по анализу данных будут закреплены за отдельным специалистом. Так появились дата-аналитики. Но проектов, где нужен анализ данных и предиктивная аналитика, оказалось не так много, чтобы мы могли их полноценно загрузить. Поэтому решили вернуться к предыдущей концепции, когда анализом данных занимается DS.

В таких проектах бизнес-аналитик сначала изучает предметную область, помогает сформулировать потребности и задачи клиента к анализу данных, передаёт это DS — и тот выполняет свою часть. На практике стало понятно, что BA нужно хорошо ориентироваться в переданных данных, а это тоже предполагает анализ.

Поэтому мы решили попробовать подход, когда задачи по анализу данных разделены между BA и DS. Для этого потребовалось обучить бизнес-аналитиков. Вместе с DS мы придумали, как будет выглядеть разделение по задачам, какие навыки нам нужны, — и они нас обучили.

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥6

418 views10:31

Data Scientist | IT

Как научить Transformer обрабатывать длинные тексты

#почитать

Стоит отметить, что в задачах генерации короткого текста по длинному контексту хорошо показывают себя и модели на основе декодировщика Transformer, и полный Transformer. Но если речь идёт о задачах типа суммаризации, то при фиксированных размерах моделей лучше могут справиться именно полные Transformer-ы.

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

👍5❤2🔥1

399 views05:15

About

Blog

Apps

Platform