Data Scientist | IT
1.94K subscribers
651 photos
3 videos
1 file
707 links
Добро пожаловать в клуб.

Полезные материалы из мира DS & ML на регулярной основе.

По всем вопросам: @godinmedia
Download Telegram
Разбей и властвуй: как создать кастомный токенизатор в SpaCy

#почитать

Зачем нам свой токенизатор?
Согласитесь, стандартные токенизаторы хороши, но иногда требуется что-то особенное. Например, разбивать текст на токены по специфическим правилам или обрабатывать экзотические языки программирования (да-да, я смотрю на тебя, Brainfuck).

Читать статью
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4
Вопросы на собеседовании ML Team Lead

#почитать

Если вы читаете это, значит, вы, как и я когда‑то, собираетесь пройти собеседование на позицию ML Team Lead. Или возможно, вы просто интересуетесь тем, что происходит по ту сторону баррикад. В любом случае, давайте поговорим о том, какие вопросы могут задать на таком собеседовании, и как на них отвечать так, чтобы у интервьюеров не осталось сомнений в вашей компетенции.

Читать статью
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4
Дообучаем языковую модель GPT2 с помощью Torch

#почитать

В качестве данных я возьму dataset QuyenAnhDE/Diseases_Symptoms с Huggiface. Этот dataset представляет собой небольшой (400 строк) набор болезней, их симптомов и лечение. Я буду использовать только заболевание и его симптомы. То есть на вход модели будет подаваться заболевание, на выходе модель должна написать симптомы. Вы можете использовать обратную логику ввода/вывода, добавить в обучение столбец с лечением.

Читать статью
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥4👍1
Что, если не трансформеры: какие альтернативы главной архитектуре нейросетей у нас есть в 2024 году

#почитать

Именно трансформер изменил индустрию искусственного интеллекта и сделал ее такой мощной, какой мы видим ее сейчас. До 2017 года, пока исследователи из Google Brain не изобрели эту архитектуру, краеугольным камнем ИИ-индустрии был поиск подходящего строения модели. Теперь же перед учеными стоят, в основном, другие задачи, а вот об архитектуре компании и ресерчеры почти не думают: ведь есть трансформер!

Вот так говорит об этой архитектуре знаменитый Андрей Карпаты – бывший ML-директор Tesla, сооснователь и бывший главный ученый OpenAI: "Трансформер - не просто очередной метод, а подход, который полностью изменил наш взгляд на ИИ. Нам очень повезло, что мы наткнулись именно на него в огромном пространстве алгоритмов. Я верю, что трансформер лучше человеческого мозга во многих отношениях."

Читать статью
Please open Telegram to view this post
VIEW IN TELEGRAM
👍41🔥1
Восстание DeepSeek: что не попало в заголовки новостей

#почитать

Недавние публикации об ИИ-моделях компании DeepSeek посвящены, в основном, двум моментам. Первый — эти модели гораздо лучше, чем другие, показывают себя в тестах. Второй — они обходят другие модели в плане эффективности работы. Эти достижения достойны внимания, они несут определённые политические последствия (ниже мы поговорим об этом подробнее). Но дело в том, что реальная картина, включающая в себя и доступ к вычислительным ресурсам, и экспортные ограничения, и разработки в сфере ИИ, гораздо сложнее, чем это представлено во многих материалах. Вот несколько важных вопросов, которые заслуживают более пристального внимания.


Читать статью
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4🔥1
Show and Tell

#почитать

Реализация одной из самых ранних моделей нейронного генератора подписей к изображениям с помощью PyTorch.

Читать статью
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5🔥1
Как LLM может валидировать данные

#почитать

Data Quality (DQ) — это набор характеристик, определяющих целостность, точность и пригодность данных для их использования в бизнес-процессах и аналитике. Высокое качество данных критически важно для достижения эффективного принятия решений, так как оно напрямую влияет на результаты анализа и позволяет организациям более точно интерпретировать информацию.

Существует множество инструментов для обеспечения качества данных (Data Quality), и они могут варьироваться по функциональности и целям, мы используем питоновский фреймворк soda. Если кратко, то soda — это open-source проект для проверки качества данных. Под капотом — собственный язык проверок SodaCL (Soda Check Language), чеки прописываются в файле YAML в интуитивно понятной форме.

Читать статью
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥4👍2👌1
DeepSeek-R1 для чайников

#почитать

В последние месяцы всё чаще слышим про «reasoning-модели», способные не просто продолжать текст, а действительно шаг за шагом решать сложнейшие задачи цепочкой рассуждений (chain-of-thought). Впервые такой подход эффектно показали в OpenAI o1, но, к сожалению, подробности там остаются секретными. Недавно же команда DeepSeek наделала шуму с открытыми вариантами R1 и R1-Zero, созданными поверх их собственной большой MoE-модели DeepSeek-V3. В этом посте я не стану углубляться в вопрос «чья модель лучше — o1 или R1». Зато разберу, какие главные технические детали стоят за R1, почему Zero-версия выглядит особо захватывающе, и как именно авторам удалось обучить модель мыслить.


Читать статью
Please open Telegram to view this post
VIEW IN TELEGRAM
👍51🔥1
Пишем свою Diffusion модель с нуля

#почитать

Я решил разобраться и понять, как устроена Diffusion модель внутри, понять ее математику и постараться объяснить и разложить ее на пальцах. Ну и конечно пописать код, который (спойлер) заработал.

Читать статью
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5🔥2
Predicting Diabetes Types: A Deep Learning Approach

#почитать

Machine learning analysis of diabetes: Deep learning vs. XGBoost (64.75% vs. 74% accuracy) using health and lifestyle data.

Читать статью
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥4👍2
KAN: Kolmogorov–Arnold Networks

#почитать

Предлагаю вашему вниманию полный перевод статьи об алгоритме нейронной сети на основе теоремы Колмогорова Арнольда, опубликованной исследователями из Massachusetts Institute of Technology, California Institute of Technology, Northeastern University и The NSF Institute for Artificial Intelligence and Fundamental Interactions.

В настоящее время в на просторах интернета есть лишь посты на основе данной статьи с интригующими названиями типа: «Новый убийца нейросетей? Сеть Колмогорова Арнольда (KANs)» или «Исследователи разработали принципиально новую архитектуру нейросетей, которая работает лучше персептрона» и т. п. Для лучшего понимания это темы обратимся к первоисточнику ‑статье, опубликованной не так давно — в апреле 2024 года.


Читать статью
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4🔥2
Создаем кастомные функции потерь в CatBoost

#почитать

Стандартные функции потерь хороши для типовых задач, но в нашей суровой жизни часто требуются специфичные решения. Например, может понадобиться усилить внимание модели на редких классах или минимизировать разные типы ошибок в зависимости от их влияния на бизнес.

Читать статью
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5🔥1
Квантизация позволяет запускать Llama 3.2 на мобилках

#почитать

Какого именно уровня производительности удалось добиться новым квантованным моделям Llama?

В среднем это ускорение инференса от двух до четырех раз по сравнению с весами в формате BF16, при сохранении практически сопоставимого качества. Уменьшение размера модели на 56% - что важно для мобильного приложения, чтобы меньше места на телефоне занимало - и уменьшение объема потребляемой памяти на 41% процент. Все это согласно результатам бенчмарков, приведенных на сайте Llama.

Читать статью
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥4👍2
Lasso, Ridge и кастомные регуляризаторы: основы

#почитать

Сегодня разберем тему, которая хоть и звучит скромно — Lasso, Ridge и кастомные регуляризаторы, — но на практике буквально спасает модели от переобучения. Если у вас бывало так, что модель на тренировочных данных показывает отличные результаты, а при проверке на валидации теряет весь блеск — поздравляю, вы столкнулись с тем самым переобучением! Регуляризация здесь как раз для того и нужна: помогает «усмирить» модель, добавляя ограничения, которые не дают ей запоминать лишние детали.

Читать статью
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4🔥2
Как я автоматизировал поиск работы при помощи LLM

#почитать

В свете последних новостей о сокращениях в IT-индустрии вопрос поиска работы встает все более остро даже для людей, которые в данный момент трудоустроены. Встал он и для меня, так как хоть на данный момент с работой у меня все в порядке, но начали появляться звоночки, намекающие на возможную необходимость ее смены в ближайшее время.

И тут вспоминается мой прошлый опыт поиска работы с многочасовым блужданием по соответствующим сайтам, вычитыванием очередной вакансии, попытками понять, как те или иные требования работодателя соотносятся с вакансией, добавлены ли они туда потому что действительно нужны или это такой фильтр от лишних соискателей. В общем монотонная однообразная работа вида: "Открыл вакансию -> прочитал -> если заинтересовало, нажал кнопку отклика -> прикрепил сопроводительное письмо и т.д."

Можно конечно ускорить процесс, выкинув из этого алгоритма пункт с вычитыванием резюме, но:
а) есть немалый шанс, кликая на все подряд, как обезьяна, откликнуться на неподходящую для тебя вакансию; кому-то это норм, но мне бы не хотелось дергать HR'ов лишний раз по поводу вакансии, которая на самом деле мне не интересна;
б) некоторые особо хитрые работодатели добавляют в описание своих вакансий всякие ключевые слова/вопросы, которые нужно упомянуть/ответить в резюме; по мне так не самая лучшая практика, но я их за это не виню.

Эх, вот бы нашелся кто-нибудь, кто вычитал бы вакансию за меня, определил, будет ли мне она интересна, написал бы сопроводительное письмо с учетом моего резюме, текста вакансии и всяких там ключевых слов, ответил бы на сопутствующие вопросы и послал бы все это дело работодателю...

Минуточку, кажется я знаю, кто мне в этом поможет: LLM же!

Читать статью
Please open Telegram to view this post
VIEW IN TELEGRAM
👍51🔥1
Глубокое погружение в базовую архитектуру LPU Groq

#почитать

В этой статье мы собираемся разобрать архитектуру TSP и его компилятора, а затем увидим, как Groq построили надежный и высокопроизводительный распределенный механизм инференса ИИ с использованием этих TSP.

Архитектура TSP сильно отличается от архитектуры обычного процессора или графического процессора, главным образом для того, чтобы сделать аппаратное обеспечение TSP более детерминированным. Давайте сначала поговорим о том, что вызывает недетерминизм в процессоре или графическом процессоре.

Читать статью
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥4👍2
▫️Быстрый matching товаров на маркетплейсе Wildberries

#посмотреть

DATAMeetup.

Смотреть на YouTube ⏱️25 минут
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥4👍1
Эволюция архитектур нейросетей в компьютерном зрении: классификация изображений

#почитать

Задача классификации фотографий в машинном обучении и компьютерном зрении заключается в том, чтобы автоматически присваивать каждой входной фотографии или изображению одну или несколько категорий (классов) на основе содержимого изображения. Это одна из ключевых задач в области компьютерного зрения, которая имеет множество практических приложений, таких как распознавание лиц, классификация объектов, медицинская диагностика по изображениям, фильтрация контента и другие.

Читать статью
Please open Telegram to view this post
VIEW IN TELEGRAM
👍41🔥1
Путь разметки данных для NER: от Open Source до Prodigy

#почитать

NER позволяет автоматически выделять и классифицировать ключевые сущности в тексте — такие как имена, даты, названия организаций, и другие элементы, важные для понимания контекста и анализа. Такая задача востребована в HR, здравоохранении, юриспруденции и других областях, где требуется выделять информацию из большого массива текстовых данных.

Всё началось с задачи автоматизации HR-процессов, где от модели требовалось распознавать специфические сущности, такие как место работы, должность и длительность опыта. Задача оказалась нетривиальной, поскольку требовала не только создания меток, но и грамотной разметки текстов на русском и английском языках. Мы начали с Open Source решений, чтобы протестировать основные подходы и понять, какой инструмент лучше подойдет для наших задач.

Читать статью
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥42👍2
Конец эпохи fashion-дизайнеров

#почитать

Позволяет загрузить фото гардероба в приложение.
Подсказывает, что надеть.
Говорит, какие вещи сочетаются друг с другом лучше.
Делит гардероб на «капсулы», чтобы было проще подбирать образы.
Считает, сколько денег вы тратите на вещи.
Позволяет публиковать вещи в свой профиль и вести его как соцсеть.
Адаптирует образы под погоду за окном.
Даёт возможность продавать вещи внутри приложения.

Читать статью
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4
Тестируем LLM для русского языка: Какие модели справятся с вашими задачами

#почитать

YandexGPT: Показала высокую связность и грамматическую правильность текста. Текст был логичным, стилистически правильным и без ошибок. Модель не использовала вставки английских слов, что сделало её результат почти идеальным для русскоязычных проектов (2 балла за выполнение).

Saiga-Mistral-7b-Lora: Также показала отличные результаты, генерируя текст высокого качества с хорошей структурой и минимальными ошибками. Текст был креативным и полностью соответствовал заданной теме (2 балла за выполнение).

OpenChat3.5: Результаты были удовлетворительными, однако встречались вставки английских слов и недочеты в структуре текста. Текст мог быть связанным, но не всегда соответствовал стилю или контексту (1 балл за выполнение).

GigaChat: Модель показала хорошие результаты. Текст был менее структурированным и встречались ошибки в согласовании предложений, но все равно модель заслужила высокий балл (2 балла за выполнение).

Mistral: Генерация текста была неплохой, но в некоторых случаях модель допускала синтаксические ошибки и не всегда удачно выбирала стиль текста (2 балла за выполнение).

Saiga-Llama3-8b: Текст был грамматически правильным, но менее связным по сравнению с лидерами. Иногда наблюдались небольшие несоответствия в стиле (1 балл за выполнение).

Лучшими моделями для генерации связного текста оказались YandexGPT и Saiga-Mistral-7b-Lora, обе модели обеспечили высокий уровень грамматической точности и стилевого соответствия.

Читать статью
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4