Data Scientist | IT – Telegram

Data Scientist | IT

@datascience_it

1.94K subscribers

651 photos

3 videos

1 file

707 links

Добро пожаловать в клуб.

Полезные материалы из мира DS & ML на регулярной основе.

По всем вопросам: @godinmedia

Download Telegram

About

Blog

Apps

Platform

Data Scientist | IT

1.94K subscribers

Data Scientist | IT

Разбей и властвуй: как создать кастомный токенизатор в SpaCy

#почитать

Зачем нам свой токенизатор?
Согласитесь, стандартные токенизаторы хороши, но иногда требуется что-то особенное. Например, разбивать текст на токены по специфическим правилам или обрабатывать экзотические языки программирования (да-да, я смотрю на тебя, Brainfuck).

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

👍4

260 views10:59

Data Scientist | IT

Вопросы на собеседовании ML Team Lead

#почитать

Если вы читаете это, значит, вы, как и я когда‑то, собираетесь пройти собеседование на позицию ML Team Lead. Или возможно, вы просто интересуетесь тем, что происходит по ту сторону баррикад. В любом случае, давайте поговорим о том, какие вопросы могут задать на таком собеседовании, и как на них отвечать так, чтобы у интервьюеров не осталось сомнений в вашей компетенции.

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

👍4

313 views05:04

Data Scientist | IT

Дообучаем языковую модель GPT2 с помощью Torch

#почитать

В качестве данных я возьму dataset QuyenAnhDE/Diseases_Symptoms с Huggiface. Этот dataset представляет собой небольшой (400 строк) набор болезней, их симптомов и лечение. Я буду использовать только заболевание и его симптомы. То есть на вход модели будет подаваться заболевание, на выходе модель должна написать симптомы. Вы можете использовать обратную логику ввода/вывода, добавить в обучение столбец с лечением.

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥4👍1

329 views05:02

Data Scientist | IT

Что, если не трансформеры: какие альтернативы главной архитектуре нейросетей у нас есть в 2024 году

#почитать

Именно трансформер изменил индустрию искусственного интеллекта и сделал ее такой мощной, какой мы видим ее сейчас. До 2017 года, пока исследователи из Google Brain не изобрели эту архитектуру, краеугольным камнем ИИ-индустрии был поиск подходящего строения модели. Теперь же перед учеными стоят, в основном, другие задачи, а вот об архитектуре компании и ресерчеры почти не думают: ведь есть трансформер!

Вот так говорит об этой архитектуре знаменитый Андрей Карпаты – бывший ML-директор Tesla, сооснователь и бывший главный ученый OpenAI: "Трансформер - не просто очередной метод, а подход, который полностью изменил наш взгляд на ИИ. Нам очень повезло, что мы наткнулись именно на него в огромном пространстве алгоритмов. Я верю, что трансформер лучше человеческого мозга во многих отношениях."

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

👍4❤1🔥1

313 views05:03

Data Scientist | IT

Восстание DeepSeek: что не попало в заголовки новостей

#почитать

Недавние публикации об ИИ-моделях компании DeepSeek посвящены, в основном, двум моментам. Первый — эти модели гораздо лучше, чем другие, показывают себя в тестах. Второй — они обходят другие модели в плане эффективности работы. Эти достижения достойны внимания, они несут определённые политические последствия (ниже мы поговорим об этом подробнее). Но дело в том, что реальная картина, включающая в себя и доступ к вычислительным ресурсам, и экспортные ограничения, и разработки в сфере ИИ, гораздо сложнее, чем это представлено во многих материалах. Вот несколько важных вопросов, которые заслуживают более пристального внимания.

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

👍4🔥1

292 views10:42

Data Scientist | IT

Show and Tell

#почитать

Реализация одной из самых ранних моделей нейронного генератора подписей к изображениям с помощью PyTorch.

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

👍5🔥1

270 views05:06

Data Scientist | IT

Как LLM может валидировать данные

#почитать

Data Quality (DQ) — это набор характеристик, определяющих целостность, точность и пригодность данных для их использования в бизнес-процессах и аналитике. Высокое качество данных критически важно для достижения эффективного принятия решений, так как оно напрямую влияет на результаты анализа и позволяет организациям более точно интерпретировать информацию.

Существует множество инструментов для обеспечения качества данных (Data Quality), и они могут варьироваться по функциональности и целям, мы используем питоновский фреймворк soda. Если кратко, то soda — это open-source проект для проверки качества данных. Под капотом — собственный язык проверок SodaCL (Soda Check Language), чеки прописываются в файле YAML в интуитивно понятной форме.

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥4👍2👌1

317 views10:40

Data Scientist | IT

DeepSeek-R1 для чайников

#почитать

В последние месяцы всё чаще слышим про «reasoning-модели», способные не просто продолжать текст, а действительно шаг за шагом решать сложнейшие задачи цепочкой рассуждений (chain-of-thought). Впервые такой подход эффектно показали в OpenAI o1, но, к сожалению, подробности там остаются секретными. Недавно же команда DeepSeek наделала шуму с открытыми вариантами R1 и R1-Zero, созданными поверх их собственной большой MoE-модели DeepSeek-V3. В этом посте я не стану углубляться в вопрос «чья модель лучше — o1 или R1». Зато разберу, какие главные технические детали стоят за R1, почему Zero-версия выглядит особо захватывающе, и как именно авторам удалось обучить модель мыслить.

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

👍5❤1🔥1

297 views10:58

Data Scientist | IT

Пишем свою Diffusion модель с нуля

#почитать

Я решил разобраться и понять, как устроена Diffusion модель внутри, понять ее математику и постараться объяснить и разложить ее на пальцах. Ну и конечно пописать код, который (спойлер) заработал.

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

👍5🔥2

292 views05:10

Data Scientist | IT

Predicting Diabetes Types: A Deep Learning Approach

#почитать

Machine learning analysis of diabetes: Deep learning vs. XGBoost (64.75% vs. 74% accuracy) using health and lifestyle data.

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥4👍2

285 views10:25

Data Scientist | IT

KAN: Kolmogorov–Arnold Networks

#почитать

Предлагаю вашему вниманию полный перевод статьи об алгоритме нейронной сети на основе теоремы Колмогорова Арнольда, опубликованной исследователями из Massachusetts Institute of Technology, California Institute of Technology, Northeastern University и The NSF Institute for Artificial Intelligence and Fundamental Interactions.

В настоящее время в на просторах интернета есть лишь посты на основе данной статьи с интригующими названиями типа: «Новый убийца нейросетей? Сеть Колмогорова Арнольда (KANs)» или «Исследователи разработали принципиально новую архитектуру нейросетей, которая работает лучше персептрона» и т. п. Для лучшего понимания это темы обратимся к первоисточнику ‑статье, опубликованной не так давно — в апреле 2024 года.

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

👍4🔥2

312 views05:02

Data Scientist | IT

Создаем кастомные функции потерь в CatBoost

#почитать

Стандартные функции потерь хороши для типовых задач, но в нашей суровой жизни часто требуются специфичные решения. Например, может понадобиться усилить внимание модели на редких классах или минимизировать разные типы ошибок в зависимости от их влияния на бизнес.

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

👍5🔥1

313 views05:11

Data Scientist | IT

Квантизация позволяет запускать Llama 3.2 на мобилках

#почитать

Какого именно уровня производительности удалось добиться новым квантованным моделям Llama?

В среднем это ускорение инференса от двух до четырех раз по сравнению с весами в формате BF16, при сохранении практически сопоставимого качества. Уменьшение размера модели на 56% - что важно для мобильного приложения, чтобы меньше места на телефоне занимало - и уменьшение объема потребляемой памяти на 41% процент. Все это согласно результатам бенчмарков, приведенных на сайте Llama.

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥4👍2

316 views10:32

Data Scientist | IT

Lasso, Ridge и кастомные регуляризаторы: основы

#почитать

Сегодня разберем тему, которая хоть и звучит скромно — Lasso, Ridge и кастомные регуляризаторы, — но на практике буквально спасает модели от переобучения. Если у вас бывало так, что модель на тренировочных данных показывает отличные результаты, а при проверке на валидации теряет весь блеск — поздравляю, вы столкнулись с тем самым переобучением! Регуляризация здесь как раз для того и нужна: помогает «усмирить» модель, добавляя ограничения, которые не дают ей запоминать лишние детали.

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

👍4🔥2

334 views05:13

Data Scientist | IT

Как я автоматизировал поиск работы при помощи LLM

#почитать

В свете последних новостей о сокращениях в IT-индустрии вопрос поиска работы встает все более остро даже для людей, которые в данный момент трудоустроены. Встал он и для меня, так как хоть на данный момент с работой у меня все в порядке, но начали появляться звоночки, намекающие на возможную необходимость ее смены в ближайшее время.

И тут вспоминается мой прошлый опыт поиска работы с многочасовым блужданием по соответствующим сайтам, вычитыванием очередной вакансии, попытками понять, как те или иные требования работодателя соотносятся с вакансией, добавлены ли они туда потому что действительно нужны или это такой фильтр от лишних соискателей. В общем монотонная однообразная работа вида: "Открыл вакансию -> прочитал -> если заинтересовало, нажал кнопку отклика -> прикрепил сопроводительное письмо и т.д."

Можно конечно ускорить процесс, выкинув из этого алгоритма пункт с вычитыванием резюме, но:
а) есть немалый шанс, кликая на все подряд, как обезьяна, откликнуться на неподходящую для тебя вакансию; кому-то это норм, но мне бы не хотелось дергать HR'ов лишний раз по поводу вакансии, которая на самом деле мне не интересна;
б) некоторые особо хитрые работодатели добавляют в описание своих вакансий всякие ключевые слова/вопросы, которые нужно упомянуть/ответить в резюме; по мне так не самая лучшая практика, но я их за это не виню.

Эх, вот бы нашелся кто-нибудь, кто вычитал бы вакансию за меня, определил, будет ли мне она интересна, написал бы сопроводительное письмо с учетом моего резюме, текста вакансии и всяких там ключевых слов, ответил бы на сопутствующие вопросы и послал бы все это дело работодателю...

Минуточку, кажется я знаю, кто мне в этом поможет: LLM же!

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

👍5❤1🔥1

362 views05:19

Data Scientist | IT

Глубокое погружение в базовую архитектуру LPU Groq

#почитать

В этой статье мы собираемся разобрать архитектуру TSP и его компилятора, а затем увидим, как Groq построили надежный и высокопроизводительный распределенный механизм инференса ИИ с использованием этих TSP.

Архитектура TSP сильно отличается от архитектуры обычного процессора или графического процессора, главным образом для того, чтобы сделать аппаратное обеспечение TSP более детерминированным. Давайте сначала поговорим о том, что вызывает недетерминизм в процессоре или графическом процессоре.

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥4👍2

395 views10:57

Data Scientist | IT

▫️

Быстрый matching товаров на маркетплейсе Wildberries

#посмотреть

DATAMeetup.

⏱

Смотреть на YouTube ⏱️25 минут

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥4👍1

318 views12:34

Data Scientist | IT

Эволюция архитектур нейросетей в компьютерном зрении: классификация изображений

#почитать

Задача классификации фотографий в машинном обучении и компьютерном зрении заключается в том, чтобы автоматически присваивать каждой входной фотографии или изображению одну или несколько категорий (классов) на основе содержимого изображения. Это одна из ключевых задач в области компьютерного зрения, которая имеет множество практических приложений, таких как распознавание лиц, классификация объектов, медицинская диагностика по изображениям, фильтрация контента и другие.

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

👍4❤1🔥1

339 views05:16

Data Scientist | IT

Путь разметки данных для NER: от Open Source до Prodigy

#почитать

NER позволяет автоматически выделять и классифицировать ключевые сущности в тексте — такие как имена, даты, названия организаций, и другие элементы, важные для понимания контекста и анализа. Такая задача востребована в HR, здравоохранении, юриспруденции и других областях, где требуется выделять информацию из большого массива текстовых данных.

Всё началось с задачи автоматизации HR-процессов, где от модели требовалось распознавать специфические сущности, такие как место работы, должность и длительность опыта. Задача оказалась нетривиальной, поскольку требовала не только создания меток, но и грамотной разметки текстов на русском и английском языках. Мы начали с Open Source решений, чтобы протестировать основные подходы и понять, какой инструмент лучше подойдет для наших задач.

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥4❤2👍2

359 views05:13

Data Scientist | IT

Конец эпохи fashion-дизайнеров

#почитать

Позволяет загрузить фото гардероба в приложение.
Подсказывает, что надеть.
Говорит, какие вещи сочетаются друг с другом лучше.
Делит гардероб на «капсулы», чтобы было проще подбирать образы.
Считает, сколько денег вы тратите на вещи.
Позволяет публиковать вещи в свой профиль и вести его как соцсеть.
Адаптирует образы под погоду за окном.
Даёт возможность продавать вещи внутри приложения.

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

👍4

318 views10:31

Data Scientist | IT

Тестируем LLM для русского языка: Какие модели справятся с вашими задачами

#почитать

YandexGPT: Показала высокую связность и грамматическую правильность текста. Текст был логичным, стилистически правильным и без ошибок. Модель не использовала вставки английских слов, что сделало её результат почти идеальным для русскоязычных проектов (2 балла за выполнение).

Saiga-Mistral-7b-Lora: Также показала отличные результаты, генерируя текст высокого качества с хорошей структурой и минимальными ошибками. Текст был креативным и полностью соответствовал заданной теме (2 балла за выполнение).

OpenChat3.5: Результаты были удовлетворительными, однако встречались вставки английских слов и недочеты в структуре текста. Текст мог быть связанным, но не всегда соответствовал стилю или контексту (1 балл за выполнение).

GigaChat: Модель показала хорошие результаты. Текст был менее структурированным и встречались ошибки в согласовании предложений, но все равно модель заслужила высокий балл (2 балла за выполнение).

Mistral: Генерация текста была неплохой, но в некоторых случаях модель допускала синтаксические ошибки и не всегда удачно выбирала стиль текста (2 балла за выполнение).

Saiga-Llama3-8b: Текст был грамматически правильным, но менее связным по сравнению с лидерами. Иногда наблюдались небольшие несоответствия в стиле (1 балл за выполнение).

Лучшими моделями для генерации связного текста оказались YandexGPT и Saiga-Mistral-7b-Lora, обе модели обеспечили высокий уровень грамматической точности и стилевого соответствия.

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

👍4

379 views10:27