Разбей и властвуй: как создать кастомный токенизатор в SpaCy
#почитать
Зачем нам свой токенизатор?
Согласитесь, стандартные токенизаторы хороши, но иногда требуется что-то особенное. Например, разбивать текст на токены по специфическим правилам или обрабатывать экзотические языки программирования (да-да, я смотрю на тебя, Brainfuck).
⏱ Читать статью
#почитать
Зачем нам свой токенизатор?
Согласитесь, стандартные токенизаторы хороши, но иногда требуется что-то особенное. Например, разбивать текст на токены по специфическим правилам или обрабатывать экзотические языки программирования (да-да, я смотрю на тебя, Brainfuck).
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4
Вопросы на собеседовании ML Team Lead
#почитать
Если вы читаете это, значит, вы, как и я когда‑то, собираетесь пройти собеседование на позицию ML Team Lead. Или возможно, вы просто интересуетесь тем, что происходит по ту сторону баррикад. В любом случае, давайте поговорим о том, какие вопросы могут задать на таком собеседовании, и как на них отвечать так, чтобы у интервьюеров не осталось сомнений в вашей компетенции.
⏱ Читать статью
#почитать
Если вы читаете это, значит, вы, как и я когда‑то, собираетесь пройти собеседование на позицию ML Team Lead. Или возможно, вы просто интересуетесь тем, что происходит по ту сторону баррикад. В любом случае, давайте поговорим о том, какие вопросы могут задать на таком собеседовании, и как на них отвечать так, чтобы у интервьюеров не осталось сомнений в вашей компетенции.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4
Дообучаем языковую модель GPT2 с помощью Torch
#почитать
В качестве данных я возьму dataset QuyenAnhDE/Diseases_Symptoms с Huggiface. Этот dataset представляет собой небольшой (400 строк) набор болезней, их симптомов и лечение. Я буду использовать только заболевание и его симптомы. То есть на вход модели будет подаваться заболевание, на выходе модель должна написать симптомы. Вы можете использовать обратную логику ввода/вывода, добавить в обучение столбец с лечением.
⏱ Читать статью
#почитать
В качестве данных я возьму dataset QuyenAnhDE/Diseases_Symptoms с Huggiface. Этот dataset представляет собой небольшой (400 строк) набор болезней, их симптомов и лечение. Я буду использовать только заболевание и его симптомы. То есть на вход модели будет подаваться заболевание, на выходе модель должна написать симптомы. Вы можете использовать обратную логику ввода/вывода, добавить в обучение столбец с лечением.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥4👍1
Что, если не трансформеры: какие альтернативы главной архитектуре нейросетей у нас есть в 2024 году
#почитать
Именно трансформер изменил индустрию искусственного интеллекта и сделал ее такой мощной, какой мы видим ее сейчас. До 2017 года, пока исследователи из Google Brain не изобрели эту архитектуру, краеугольным камнем ИИ-индустрии был поиск подходящего строения модели. Теперь же перед учеными стоят, в основном, другие задачи, а вот об архитектуре компании и ресерчеры почти не думают: ведь есть трансформер!
Вот так говорит об этой архитектуре знаменитый Андрей Карпаты – бывший ML-директор Tesla, сооснователь и бывший главный ученый OpenAI: "Трансформер - не просто очередной метод, а подход, который полностью изменил наш взгляд на ИИ. Нам очень повезло, что мы наткнулись именно на него в огромном пространстве алгоритмов. Я верю, что трансформер лучше человеческого мозга во многих отношениях."
⏱ Читать статью
#почитать
Именно трансформер изменил индустрию искусственного интеллекта и сделал ее такой мощной, какой мы видим ее сейчас. До 2017 года, пока исследователи из Google Brain не изобрели эту архитектуру, краеугольным камнем ИИ-индустрии был поиск подходящего строения модели. Теперь же перед учеными стоят, в основном, другие задачи, а вот об архитектуре компании и ресерчеры почти не думают: ведь есть трансформер!
Вот так говорит об этой архитектуре знаменитый Андрей Карпаты – бывший ML-директор Tesla, сооснователь и бывший главный ученый OpenAI: "Трансформер - не просто очередной метод, а подход, который полностью изменил наш взгляд на ИИ. Нам очень повезло, что мы наткнулись именно на него в огромном пространстве алгоритмов. Я верю, что трансформер лучше человеческого мозга во многих отношениях."
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4❤1🔥1
Восстание DeepSeek: что не попало в заголовки новостей
#почитать
⏱ Читать статью
#почитать
Недавние публикации об ИИ-моделях компании DeepSeek посвящены, в основном, двум моментам. Первый — эти модели гораздо лучше, чем другие, показывают себя в тестах. Второй — они обходят другие модели в плане эффективности работы. Эти достижения достойны внимания, они несут определённые политические последствия (ниже мы поговорим об этом подробнее). Но дело в том, что реальная картина, включающая в себя и доступ к вычислительным ресурсам, и экспортные ограничения, и разработки в сфере ИИ, гораздо сложнее, чем это представлено во многих материалах. Вот несколько важных вопросов, которые заслуживают более пристального внимания.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4🔥1
Show and Tell
#почитать
Реализация одной из самых ранних моделей нейронного генератора подписей к изображениям с помощью PyTorch.
⏱ Читать статью
#почитать
Реализация одной из самых ранних моделей нейронного генератора подписей к изображениям с помощью PyTorch.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5🔥1
Как LLM может валидировать данные
#почитать
Data Quality (DQ) — это набор характеристик, определяющих целостность, точность и пригодность данных для их использования в бизнес-процессах и аналитике. Высокое качество данных критически важно для достижения эффективного принятия решений, так как оно напрямую влияет на результаты анализа и позволяет организациям более точно интерпретировать информацию.
Существует множество инструментов для обеспечения качества данных (Data Quality), и они могут варьироваться по функциональности и целям, мы используем питоновский фреймворк soda. Если кратко, то soda — это open-source проект для проверки качества данных. Под капотом — собственный язык проверок SodaCL (Soda Check Language), чеки прописываются в файле YAML в интуитивно понятной форме.
⏱ Читать статью
#почитать
Data Quality (DQ) — это набор характеристик, определяющих целостность, точность и пригодность данных для их использования в бизнес-процессах и аналитике. Высокое качество данных критически важно для достижения эффективного принятия решений, так как оно напрямую влияет на результаты анализа и позволяет организациям более точно интерпретировать информацию.
Существует множество инструментов для обеспечения качества данных (Data Quality), и они могут варьироваться по функциональности и целям, мы используем питоновский фреймворк soda. Если кратко, то soda — это open-source проект для проверки качества данных. Под капотом — собственный язык проверок SodaCL (Soda Check Language), чеки прописываются в файле YAML в интуитивно понятной форме.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥4👍2👌1
DeepSeek-R1 для чайников
#почитать
⏱ Читать статью
#почитать
В последние месяцы всё чаще слышим про «reasoning-модели», способные не просто продолжать текст, а действительно шаг за шагом решать сложнейшие задачи цепочкой рассуждений (chain-of-thought). Впервые такой подход эффектно показали в OpenAI o1, но, к сожалению, подробности там остаются секретными. Недавно же команда DeepSeek наделала шуму с открытыми вариантами R1 и R1-Zero, созданными поверх их собственной большой MoE-модели DeepSeek-V3. В этом посте я не стану углубляться в вопрос «чья модель лучше — o1 или R1». Зато разберу, какие главные технические детали стоят за R1, почему Zero-версия выглядит особо захватывающе, и как именно авторам удалось обучить модель мыслить.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5❤1🔥1
Пишем свою Diffusion модель с нуля
#почитать
Я решил разобраться и понять, как устроена Diffusion модель внутри, понять ее математику и постараться объяснить и разложить ее на пальцах. Ну и конечно пописать код, который (спойлер) заработал.
⏱ Читать статью
#почитать
Я решил разобраться и понять, как устроена Diffusion модель внутри, понять ее математику и постараться объяснить и разложить ее на пальцах. Ну и конечно пописать код, который (спойлер) заработал.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5🔥2
Predicting Diabetes Types: A Deep Learning Approach
#почитать
Machine learning analysis of diabetes: Deep learning vs. XGBoost (64.75% vs. 74% accuracy) using health and lifestyle data.
⏱ Читать статью
#почитать
Machine learning analysis of diabetes: Deep learning vs. XGBoost (64.75% vs. 74% accuracy) using health and lifestyle data.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥4👍2
KAN: Kolmogorov–Arnold Networks
#почитать
⏱ Читать статью
#почитать
Предлагаю вашему вниманию полный перевод статьи об алгоритме нейронной сети на основе теоремы Колмогорова Арнольда, опубликованной исследователями из Massachusetts Institute of Technology, California Institute of Technology, Northeastern University и The NSF Institute for Artificial Intelligence and Fundamental Interactions.
В настоящее время в на просторах интернета есть лишь посты на основе данной статьи с интригующими названиями типа: «Новый убийца нейросетей? Сеть Колмогорова Арнольда (KANs)» или «Исследователи разработали принципиально новую архитектуру нейросетей, которая работает лучше персептрона» и т. п. Для лучшего понимания это темы обратимся к первоисточнику ‑статье, опубликованной не так давно — в апреле 2024 года.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4🔥2
Создаем кастомные функции потерь в CatBoost
#почитать
Стандартные функции потерь хороши для типовых задач, но в нашей суровой жизни часто требуются специфичные решения. Например, может понадобиться усилить внимание модели на редких классах или минимизировать разные типы ошибок в зависимости от их влияния на бизнес.
⏱ Читать статью
#почитать
Стандартные функции потерь хороши для типовых задач, но в нашей суровой жизни часто требуются специфичные решения. Например, может понадобиться усилить внимание модели на редких классах или минимизировать разные типы ошибок в зависимости от их влияния на бизнес.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5🔥1
Квантизация позволяет запускать Llama 3.2 на мобилках
#почитать
Какого именно уровня производительности удалось добиться новым квантованным моделям Llama?
В среднем это ускорение инференса от двух до четырех раз по сравнению с весами в формате BF16, при сохранении практически сопоставимого качества. Уменьшение размера модели на 56% - что важно для мобильного приложения, чтобы меньше места на телефоне занимало - и уменьшение объема потребляемой памяти на 41% процент. Все это согласно результатам бенчмарков, приведенных на сайте Llama.
⏱ Читать статью
#почитать
Какого именно уровня производительности удалось добиться новым квантованным моделям Llama?
В среднем это ускорение инференса от двух до четырех раз по сравнению с весами в формате BF16, при сохранении практически сопоставимого качества. Уменьшение размера модели на 56% - что важно для мобильного приложения, чтобы меньше места на телефоне занимало - и уменьшение объема потребляемой памяти на 41% процент. Все это согласно результатам бенчмарков, приведенных на сайте Llama.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥4👍2
Lasso, Ridge и кастомные регуляризаторы: основы
#почитать
Сегодня разберем тему, которая хоть и звучит скромно — Lasso, Ridge и кастомные регуляризаторы, — но на практике буквально спасает модели от переобучения. Если у вас бывало так, что модель на тренировочных данных показывает отличные результаты, а при проверке на валидации теряет весь блеск — поздравляю, вы столкнулись с тем самым переобучением! Регуляризация здесь как раз для того и нужна: помогает «усмирить» модель, добавляя ограничения, которые не дают ей запоминать лишние детали.
⏱ Читать статью
#почитать
Сегодня разберем тему, которая хоть и звучит скромно — Lasso, Ridge и кастомные регуляризаторы, — но на практике буквально спасает модели от переобучения. Если у вас бывало так, что модель на тренировочных данных показывает отличные результаты, а при проверке на валидации теряет весь блеск — поздравляю, вы столкнулись с тем самым переобучением! Регуляризация здесь как раз для того и нужна: помогает «усмирить» модель, добавляя ограничения, которые не дают ей запоминать лишние детали.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4🔥2
Как я автоматизировал поиск работы при помощи LLM
#почитать
В свете последних новостей о сокращениях в IT-индустрии вопрос поиска работы встает все более остро даже для людей, которые в данный момент трудоустроены. Встал он и для меня, так как хоть на данный момент с работой у меня все в порядке, но начали появляться звоночки, намекающие на возможную необходимость ее смены в ближайшее время.
И тут вспоминается мой прошлый опыт поиска работы с многочасовым блужданием по соответствующим сайтам, вычитыванием очередной вакансии, попытками понять, как те или иные требования работодателя соотносятся с вакансией, добавлены ли они туда потому что действительно нужны или это такой фильтр от лишних соискателей. В общем монотонная однообразная работа вида: "Открыл вакансию -> прочитал -> если заинтересовало, нажал кнопку отклика -> прикрепил сопроводительное письмо и т.д."
Можно конечно ускорить процесс, выкинув из этого алгоритма пункт с вычитыванием резюме, но:
а) есть немалый шанс, кликая на все подряд, как обезьяна, откликнуться на неподходящую для тебя вакансию; кому-то это норм, но мне бы не хотелось дергать HR'ов лишний раз по поводу вакансии, которая на самом деле мне не интересна;
б) некоторые особо хитрые работодатели добавляют в описание своих вакансий всякие ключевые слова/вопросы, которые нужно упомянуть/ответить в резюме; по мне так не самая лучшая практика, но я их за это не виню.
Эх, вот бы нашелся кто-нибудь, кто вычитал бы вакансию за меня, определил, будет ли мне она интересна, написал бы сопроводительное письмо с учетом моего резюме, текста вакансии и всяких там ключевых слов, ответил бы на сопутствующие вопросы и послал бы все это дело работодателю...
Минуточку, кажется я знаю, кто мне в этом поможет: LLM же!
⏱ Читать статью
#почитать
В свете последних новостей о сокращениях в IT-индустрии вопрос поиска работы встает все более остро даже для людей, которые в данный момент трудоустроены. Встал он и для меня, так как хоть на данный момент с работой у меня все в порядке, но начали появляться звоночки, намекающие на возможную необходимость ее смены в ближайшее время.
И тут вспоминается мой прошлый опыт поиска работы с многочасовым блужданием по соответствующим сайтам, вычитыванием очередной вакансии, попытками понять, как те или иные требования работодателя соотносятся с вакансией, добавлены ли они туда потому что действительно нужны или это такой фильтр от лишних соискателей. В общем монотонная однообразная работа вида: "Открыл вакансию -> прочитал -> если заинтересовало, нажал кнопку отклика -> прикрепил сопроводительное письмо и т.д."
Можно конечно ускорить процесс, выкинув из этого алгоритма пункт с вычитыванием резюме, но:
а) есть немалый шанс, кликая на все подряд, как обезьяна, откликнуться на неподходящую для тебя вакансию; кому-то это норм, но мне бы не хотелось дергать HR'ов лишний раз по поводу вакансии, которая на самом деле мне не интересна;
б) некоторые особо хитрые работодатели добавляют в описание своих вакансий всякие ключевые слова/вопросы, которые нужно упомянуть/ответить в резюме; по мне так не самая лучшая практика, но я их за это не виню.
Эх, вот бы нашелся кто-нибудь, кто вычитал бы вакансию за меня, определил, будет ли мне она интересна, написал бы сопроводительное письмо с учетом моего резюме, текста вакансии и всяких там ключевых слов, ответил бы на сопутствующие вопросы и послал бы все это дело работодателю...
Минуточку, кажется я знаю, кто мне в этом поможет: LLM же!
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5❤1🔥1
Глубокое погружение в базовую архитектуру LPU Groq
#почитать
В этой статье мы собираемся разобрать архитектуру TSP и его компилятора, а затем увидим, как Groq построили надежный и высокопроизводительный распределенный механизм инференса ИИ с использованием этих TSP.
Архитектура TSP сильно отличается от архитектуры обычного процессора или графического процессора, главным образом для того, чтобы сделать аппаратное обеспечение TSP более детерминированным. Давайте сначала поговорим о том, что вызывает недетерминизм в процессоре или графическом процессоре.
⏱ Читать статью
#почитать
В этой статье мы собираемся разобрать архитектуру TSP и его компилятора, а затем увидим, как Groq построили надежный и высокопроизводительный распределенный механизм инференса ИИ с использованием этих TSP.
Архитектура TSP сильно отличается от архитектуры обычного процессора или графического процессора, главным образом для того, чтобы сделать аппаратное обеспечение TSP более детерминированным. Давайте сначала поговорим о том, что вызывает недетерминизм в процессоре или графическом процессоре.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥4👍2
#посмотреть
DATAMeetup.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥4👍1
Эволюция архитектур нейросетей в компьютерном зрении: классификация изображений
#почитать
Задача классификации фотографий в машинном обучении и компьютерном зрении заключается в том, чтобы автоматически присваивать каждой входной фотографии или изображению одну или несколько категорий (классов) на основе содержимого изображения. Это одна из ключевых задач в области компьютерного зрения, которая имеет множество практических приложений, таких как распознавание лиц, классификация объектов, медицинская диагностика по изображениям, фильтрация контента и другие.
⏱ Читать статью
#почитать
Задача классификации фотографий в машинном обучении и компьютерном зрении заключается в том, чтобы автоматически присваивать каждой входной фотографии или изображению одну или несколько категорий (классов) на основе содержимого изображения. Это одна из ключевых задач в области компьютерного зрения, которая имеет множество практических приложений, таких как распознавание лиц, классификация объектов, медицинская диагностика по изображениям, фильтрация контента и другие.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4❤1🔥1
Путь разметки данных для NER: от Open Source до Prodigy
#почитать
NER позволяет автоматически выделять и классифицировать ключевые сущности в тексте — такие как имена, даты, названия организаций, и другие элементы, важные для понимания контекста и анализа. Такая задача востребована в HR, здравоохранении, юриспруденции и других областях, где требуется выделять информацию из большого массива текстовых данных.
Всё началось с задачи автоматизации HR-процессов, где от модели требовалось распознавать специфические сущности, такие как место работы, должность и длительность опыта. Задача оказалась нетривиальной, поскольку требовала не только создания меток, но и грамотной разметки текстов на русском и английском языках. Мы начали с Open Source решений, чтобы протестировать основные подходы и понять, какой инструмент лучше подойдет для наших задач.
⏱ Читать статью
#почитать
NER позволяет автоматически выделять и классифицировать ключевые сущности в тексте — такие как имена, даты, названия организаций, и другие элементы, важные для понимания контекста и анализа. Такая задача востребована в HR, здравоохранении, юриспруденции и других областях, где требуется выделять информацию из большого массива текстовых данных.
Всё началось с задачи автоматизации HR-процессов, где от модели требовалось распознавать специфические сущности, такие как место работы, должность и длительность опыта. Задача оказалась нетривиальной, поскольку требовала не только создания меток, но и грамотной разметки текстов на русском и английском языках. Мы начали с Open Source решений, чтобы протестировать основные подходы и понять, какой инструмент лучше подойдет для наших задач.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥4❤2👍2
Конец эпохи fashion-дизайнеров
#почитать
Позволяет загрузить фото гардероба в приложение.
Подсказывает, что надеть.
Говорит, какие вещи сочетаются друг с другом лучше.
Делит гардероб на «капсулы», чтобы было проще подбирать образы.
Считает, сколько денег вы тратите на вещи.
Позволяет публиковать вещи в свой профиль и вести его как соцсеть.
Адаптирует образы под погоду за окном.
Даёт возможность продавать вещи внутри приложения.
⏱ Читать статью
#почитать
Позволяет загрузить фото гардероба в приложение.
Подсказывает, что надеть.
Говорит, какие вещи сочетаются друг с другом лучше.
Делит гардероб на «капсулы», чтобы было проще подбирать образы.
Считает, сколько денег вы тратите на вещи.
Позволяет публиковать вещи в свой профиль и вести его как соцсеть.
Адаптирует образы под погоду за окном.
Даёт возможность продавать вещи внутри приложения.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4
Тестируем LLM для русского языка: Какие модели справятся с вашими задачами
#почитать
YandexGPT: Показала высокую связность и грамматическую правильность текста. Текст был логичным, стилистически правильным и без ошибок. Модель не использовала вставки английских слов, что сделало её результат почти идеальным для русскоязычных проектов (2 балла за выполнение).
Saiga-Mistral-7b-Lora: Также показала отличные результаты, генерируя текст высокого качества с хорошей структурой и минимальными ошибками. Текст был креативным и полностью соответствовал заданной теме (2 балла за выполнение).
OpenChat3.5: Результаты были удовлетворительными, однако встречались вставки английских слов и недочеты в структуре текста. Текст мог быть связанным, но не всегда соответствовал стилю или контексту (1 балл за выполнение).
GigaChat: Модель показала хорошие результаты. Текст был менее структурированным и встречались ошибки в согласовании предложений, но все равно модель заслужила высокий балл (2 балла за выполнение).
Mistral: Генерация текста была неплохой, но в некоторых случаях модель допускала синтаксические ошибки и не всегда удачно выбирала стиль текста (2 балла за выполнение).
Saiga-Llama3-8b: Текст был грамматически правильным, но менее связным по сравнению с лидерами. Иногда наблюдались небольшие несоответствия в стиле (1 балл за выполнение).
Лучшими моделями для генерации связного текста оказались YandexGPT и Saiga-Mistral-7b-Lora, обе модели обеспечили высокий уровень грамматической точности и стилевого соответствия.
⏱ Читать статью
#почитать
YandexGPT: Показала высокую связность и грамматическую правильность текста. Текст был логичным, стилистически правильным и без ошибок. Модель не использовала вставки английских слов, что сделало её результат почти идеальным для русскоязычных проектов (2 балла за выполнение).
Saiga-Mistral-7b-Lora: Также показала отличные результаты, генерируя текст высокого качества с хорошей структурой и минимальными ошибками. Текст был креативным и полностью соответствовал заданной теме (2 балла за выполнение).
OpenChat3.5: Результаты были удовлетворительными, однако встречались вставки английских слов и недочеты в структуре текста. Текст мог быть связанным, но не всегда соответствовал стилю или контексту (1 балл за выполнение).
GigaChat: Модель показала хорошие результаты. Текст был менее структурированным и встречались ошибки в согласовании предложений, но все равно модель заслужила высокий балл (2 балла за выполнение).
Mistral: Генерация текста была неплохой, но в некоторых случаях модель допускала синтаксические ошибки и не всегда удачно выбирала стиль текста (2 балла за выполнение).
Saiga-Llama3-8b: Текст был грамматически правильным, но менее связным по сравнению с лидерами. Иногда наблюдались небольшие несоответствия в стиле (1 балл за выполнение).
Лучшими моделями для генерации связного текста оказались YandexGPT и Saiga-Mistral-7b-Lora, обе модели обеспечили высокий уровень грамматической точности и стилевого соответствия.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4