Оценка LLM с большим окном контекста
#почитать
Недавно у нас получилось достичь уровня gpt-4 на собственном ограниченном датасете большого контекста.
⏱ Читать статью
#почитать
Недавно у нас получилось достичь уровня gpt-4 на собственном ограниченном датасете большого контекста.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5🔥2
Действительно ли большие языковые модели галлюцинируют
#почитать
Если дать более строгое определение термину «галлюцинация», наш эксперимент показал, что на большом количестве вопросов вероятность галлюцинаций очень мала — порядка 6%. При этом фактологически неверные ответы составляют чуть больше трети (35%) от общего числа.
А значит, при построении систем на основе генеративных моделей нужно в первую очередь уделять внимание фактологически неверным ответам. И важно не путать их с галлюцинациями. Находить последние можно с помощью простейшего порогового алгоритма — в нашем примере мы построили его на базе метрики BERTScore-Precision.
⏱ Читать статью
#почитать
Если дать более строгое определение термину «галлюцинация», наш эксперимент показал, что на большом количестве вопросов вероятность галлюцинаций очень мала — порядка 6%. При этом фактологически неверные ответы составляют чуть больше трети (35%) от общего числа.
А значит, при построении систем на основе генеративных моделей нужно в первую очередь уделять внимание фактологически неверным ответам. И важно не путать их с галлюцинациями. Находить последние можно с помощью простейшего порогового алгоритма — в нашем примере мы построили его на базе метрики BERTScore-Precision.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5🔥2🙏1
Полный цикл отбора на стажировку в Яндекс (Аналитика, МЛ, Бэкенд)
#почитать
⏱ Читать статью
#почитать
Мне хватило 4 задач из 6. Первую и пятую мне решил ГПТ
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5❤2🔥1
Рецепт идеальной разметки в Computer Vision
#почитать
Расскажем о фреймворке агрегации разметки данных, который использует наша команда и коллеги из других подразделений. AggregateMe помогает привести несколько разметок к одной и повысить её качество в случае, если исполнители где-то ошиблись.
⏱ Читать статью
#почитать
Расскажем о фреймворке агрегации разметки данных, который использует наша команда и коллеги из других подразделений. AggregateMe помогает привести несколько разметок к одной и повысить её качество в случае, если исполнители где-то ошиблись.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5❤2🔥1
Пайплайн распознавания транспортных средств: как это работает
#почитать
Чтобы решить поставленную задачу, иногда достаточно задетектировать и распознать только номер — например, в кейсе шлагбаума придомовой территории. Но я расскажу про пайплайн (многошаговый алгоритм), который анализирует транспортное средство целиком. Чтобы фиксировать и валидировать нарушения правил дорожного движения, назначать плату за проезд, разыскивать угнанные автомобили и в целом для большинства кейсов из предыдущего поста, нам мало одного номера и кадра, с которого он взят. Важна вся история перемещения транспортного средства, поэтому без пайплайна не обойтись.
⏱ Читать статью
#почитать
Чтобы решить поставленную задачу, иногда достаточно задетектировать и распознать только номер — например, в кейсе шлагбаума придомовой территории. Но я расскажу про пайплайн (многошаговый алгоритм), который анализирует транспортное средство целиком. Чтобы фиксировать и валидировать нарушения правил дорожного движения, назначать плату за проезд, разыскивать угнанные автомобили и в целом для большинства кейсов из предыдущего поста, нам мало одного номера и кадра, с которого он взят. Важна вся история перемещения транспортного средства, поэтому без пайплайна не обойтись.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥6❤1
Как с минимальными ресурсами улучшить качество дообучения LLM
#почитать
Допустим, нужно обучить модель работать с технологией RAG или с помощью LLM генерировать инсайты по нашим данным. Как это сделать быстро, дешево и сердито?
⏱ Читать статью
#почитать
Допустим, нужно обучить модель работать с технологией RAG или с помощью LLM генерировать инсайты по нашим данным. Как это сделать быстро, дешево и сердито?
Please open Telegram to view this post
VIEW IN TELEGRAM
❤5🔥2
ИИ и векторный поиск в Azure Cosmos DB для MongoDB vCore
#почитать
Недавно Microsoft объявила о внедрении функциональности векторного поиска в Azure Cosmos DB для MongoDB vCore. Эта функция расширяет возможности Cosmos DB, позволяя разработчикам выполнять сложные поиски по сходству в многомерных данных, что особенно полезно в приложениях на основе RAG , системах рекомендаций, поиске изображений и документов и т. д.
⏱ Читать статью
#почитать
Недавно Microsoft объявила о внедрении функциональности векторного поиска в Azure Cosmos DB для MongoDB vCore. Эта функция расширяет возможности Cosmos DB, позволяя разработчикам выполнять сложные поиски по сходству в многомерных данных, что особенно полезно в приложениях на основе RAG , системах рекомендаций, поиске изображений и документов и т. д.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6
Динамический шаг в танце feature selection
#почитать
⏱ Читать статью
#почитать
Я практикующий дата-сайентист с опытом участия и судейства в чемпионатах по прогнозированию
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6
ML-генерация шрифтов
#почитать
⏱ Читать статью
#почитать
История о том, как я с нуля осваивал создание генеративных моделей МО, попутно обучая компьютер создавать шрифты. Да, настоящие типографские шрифты, состоящие из набора заглавных глифов. Созданная мной модель получает на входе описание шрифта и создаёт на выходе файл с их готовым набором.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6
ML-подход к оттоку рекламодателей
#почитать
Прототип системы создан на основе данных организаций малого и среднего бизнеса (Small & Medium Business, SMB), с которыми работает Pinterest.
⏱ Читать статью
#почитать
Прототип системы создан на основе данных организаций малого и среднего бизнеса (Small & Medium Business, SMB), с которыми работает Pinterest.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6❤1
Четыре уровня адаптации open-source моделей
#почитать
Мы выделяем четыре уровня адаптации. Для этого смотрим, какие потребуются навыки для решения этой задачи, сколько времени и человекочасов займет разработка. Поняв требуемый уровень, мы можем поставить себе дедлайны на проверку гипотезы и запланировать действия, если задача не решится выбранным способом.
⏱ Читать статью
#почитать
Мы выделяем четыре уровня адаптации. Для этого смотрим, какие потребуются навыки для решения этой задачи, сколько времени и человекочасов займет разработка. Поняв требуемый уровень, мы можем поставить себе дедлайны на проверку гипотезы и запланировать действия, если задача не решится выбранным способом.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5❤2🔥1
#посмотреть
Все лето я проходил собеседование в Мету*, дошел до самого последнего этапа и к сожалению не получил оффер. В этом видео рассказываю, как мне удалось пройти так далеко, как я готовился, что спрашивали на интервью и что же все-таки пошло не так. Покажу резюме, по которому меня нашел рекрутер из Меты* и позвал на собеседование на Senior Data Scientist.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5❤2🔥1
#посмотреть
11 часов теории и практики (PostgreSQL) - freeCodeCamp.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤5👍2🔥1
Как ухватить LLM за хвост: эффективные стратегии тестирования AI-моделей
#почитать
Есть три главных столпа тестирования LLM:
Пользовательский фидбэк: Самый очевидный, но запоздалый способ понять, работает ли ваше приложение. Ведь фидбэк возможен только после релиза. А если ошибки спрятаны до продакшна?
Ручное тестирование: Трудозатратное занятие, способное исчерпать даже самую энергичную команду. О плюсах и минусах применения на практике вы, вероятно, уже знаете: субъективность и, увы, тоже ошибки.
Автоматическое тестирование: Спасительная гавань для всех разработчиков LLM. Однако есть нюанс — оно все еще развивается, как и сами LLM, и всегда требует свежих подходов.
⏱ Читать статью
#почитать
Есть три главных столпа тестирования LLM:
Пользовательский фидбэк: Самый очевидный, но запоздалый способ понять, работает ли ваше приложение. Ведь фидбэк возможен только после релиза. А если ошибки спрятаны до продакшна?
Ручное тестирование: Трудозатратное занятие, способное исчерпать даже самую энергичную команду. О плюсах и минусах применения на практике вы, вероятно, уже знаете: субъективность и, увы, тоже ошибки.
Автоматическое тестирование: Спасительная гавань для всех разработчиков LLM. Однако есть нюанс — оно все еще развивается, как и сами LLM, и всегда требует свежих подходов.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7❤2🔥1
Анализ временных рядов: полное руководство для начинающих
#почитать
Временной ряд — это последовательность значений, которые протекают и измеряются в определенном временном промежутке. К бытовым примерам временного ряда можно отнести метеорологические наблюдения или колебания цен на рынке.
Аналитикам такие наборы данных позволяют выявлять закономерности, прогнозировать будущее и предлагать бизнесу обоснованные решения.
⏱ Читать статью
#почитать
Временной ряд — это последовательность значений, которые протекают и измеряются в определенном временном промежутке. К бытовым примерам временного ряда можно отнести метеорологические наблюдения или колебания цен на рынке.
Аналитикам такие наборы данных позволяют выявлять закономерности, прогнозировать будущее и предлагать бизнесу обоснованные решения.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥7❤1👍1
"Мы в разгаре лета искусственного интеллекта"
#почитать
⏱ Читать статью
#почитать
— В целом развитие науки о данных у нас в стране идёт в рамках общемировых трендов. Конечно, здесь можно найти свою специфику. Например, мы живём в условиях некоторого дефицита вычислительных мощностей. Пока поставки в Россию и Китай наиболее продвинутых GPU запрещены. Поэтому для строительства мощных тензорных кластеров нужна особая внешнеэкономическая магия.
С другой стороны, у нас в «активе» советская математическая школа, развитая ИТ-индустрия и современная экосистема с информационно-технологической инфраструктурой. А это подразумевает развитую культуру ИТ-разработки, наличие профильных кадров, больших и хорошо структурированных массивов данных.
В нашумевшей статье бывшего сотрудника OpenAI Леопольда Ашенбреннера «Осведомленность о ситуации: Предстоящее десятилетие» есть оценка. На мой взгляд немного оптимистичная. По его мнению, прогресс в этой области в ближайшие 2 года позволит обучать модели той же «мощности» на том же оборудовании в 10 раз быстрее. Примерно такой же эффект даёт развитие аппаратных платформ. Дополнительные эффекты позволяют больше «выжать» из уже обученных моделей. Методы, которые позволяют это сделать, Ашенбреннер объединяет под зонтичным термином «unhobbling». Дословно: «растреноживание», раскрепощение. Это применение мультиагентного подхода, моделирование рассуждений: цепочки, деревья и графы рассуждений. А ещё скаффолдинг: создание алгоритмического «каркаса» вокруг большой языковой модели.
Но важно понимать, что со временем эффект от всех этих улучшений будет снижаться. Экспоненты такого рода не могут продолжаться бесконечно.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4❤2🔥1
Обнаружение DGA-доменов (тестовое интерна ML)
#почитать
⏱ Читать статью
#почитать
В этой статье мы рассмотрим простую задачу, которая используется одной компанией в качестве тестового задания для стажеров на позицию ML-engineer. Она включает обнаружение DGA-доменов — задача, решаемая с помощью базовых инструментов машинного обучения. Мы покажем, как с ней справиться, применяя самые простые методы. Знание сложных алгоритмов важно, но куда важнее — понимать базовые концепции и уметь применять их на практике, чтобы успешно демонстрировать свои навыки.
DGA (Domain Generation Algorithm) — это алгоритм, который автоматически генерирует доменные имена, часто используемые злоумышленниками для обхода блокировок и связи с командными серверами.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4❤2🔥1
Саммаризация
#почитать
Что, если бы все отзывы могли сокращаться в ясные и четкие выжимки, которые помогли бы пользователям быстрее находить информацию? Эту задачу называют саммаризацией.
Хотя саммаризация может использоваться для совершенно разных задач, в контексте работы с отзывами на платформе заключалась в том, чтобы предоставить пользователю сжатую и объективную информацию, а также помочь быстро сформировать представление о продукте, услуге или товаре. Это особенно актуально в условиях переизбытка информации, ведь внимание пользователя ограничено несколькими секундами.
Отзывы можно разбить на три ключевые категории: преимущества, недостатки и дополнительно. Такая саммаризация экономит время и усилия пользователей, которые иначе вынуждены были бы читать десятки или сотни отзывов, чтобы сделать вывод. А еще структура саммари дает более сбалансированную оценку товара.
Но процесс автоматической саммаризации, особенно в текстах, содержащих эмоционально окрашенные мнения, требует тщательной проработки алгоритмов. Например, важно научить систему различать сарказм, субъективные оценки и выделять действительно значимые аспекты. Бывают и трудности: часто встречается сложность обработки многозначных слов, разный стиль написания и полисемия, когда одно слово имеет несколько значений в зависимости от контекста.
⏱ Читать статью
#почитать
Что, если бы все отзывы могли сокращаться в ясные и четкие выжимки, которые помогли бы пользователям быстрее находить информацию? Эту задачу называют саммаризацией.
Хотя саммаризация может использоваться для совершенно разных задач, в контексте работы с отзывами на платформе заключалась в том, чтобы предоставить пользователю сжатую и объективную информацию, а также помочь быстро сформировать представление о продукте, услуге или товаре. Это особенно актуально в условиях переизбытка информации, ведь внимание пользователя ограничено несколькими секундами.
Отзывы можно разбить на три ключевые категории: преимущества, недостатки и дополнительно. Такая саммаризация экономит время и усилия пользователей, которые иначе вынуждены были бы читать десятки или сотни отзывов, чтобы сделать вывод. А еще структура саммари дает более сбалансированную оценку товара.
Но процесс автоматической саммаризации, особенно в текстах, содержащих эмоционально окрашенные мнения, требует тщательной проработки алгоритмов. Например, важно научить систему различать сарказм, субъективные оценки и выделять действительно значимые аспекты. Бывают и трудности: часто встречается сложность обработки многозначных слов, разный стиль написания и полисемия, когда одно слово имеет несколько значений в зависимости от контекста.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4🔥2❤1
HH: курьеры в России стали зарабатывать больше аналитиков
#почитать
К ноябрю курьеры зарабатывали больше некоторых IT-специалистов. Так, зарплата BI-аналитиков и аналитиков данных составила 114,2 тысячи рублей.
Кроме того, курьеры получали больше врачей (88,4 тысячи рублей), менеджеров по логистике и внешнеэкономической деятельности (79,5 тысячи), дизайнеров (70 тысяч), бухгалтеров (62,3 тысячи), журналистов (50,4 тысячи) и учителей (47 тысяч).
⏱ Читать статью
#почитать
К ноябрю курьеры зарабатывали больше некоторых IT-специалистов. Так, зарплата BI-аналитиков и аналитиков данных составила 114,2 тысячи рублей.
Кроме того, курьеры получали больше врачей (88,4 тысячи рублей), менеджеров по логистике и внешнеэкономической деятельности (79,5 тысячи), дизайнеров (70 тысяч), бухгалтеров (62,3 тысячи), журналистов (50,4 тысячи) и учителей (47 тысяч).
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5
Введение в синтетические данные для ML
#почитать
Синтетические данные — это искусственно созданные данные, которые отражают особенности реальных наблюдений и используются для обучения моделей машинного обучения в случаях, когда получить реальные данные сложно или дорого.
Допустим, у нас есть набор данных с фотографиями настоящих людей. Аугментация данных — это процесс, при котором к набору добавляются слегка измененные копии уже существующих элементов. Если применить аугментацию к нашему набору, мы получим те же лица, но с небольшими изменениями, например, с разными оттенками глаз или кожи, с шумами на фото и цветовым фильтром.
Рандомизация, в отличие от этого, лишь перемешивает элементы внутри набора данных, не создавая новых. Так, используя рандомизацию, мы могли бы «поменять местами» черты лиц: взять волосы одного человека, рот другого и глаза третьего. В итоге мы получаем новые лица, не тратя ресурсы на сбор дополнительных данных.
Синтетические данные не копируют реальные данные, а создают новые примеры, основанные на характеристиках оригинала. Они как бы "переосмысливают" реальность, улавливая её основные черты и закономерности, но генерируя совершенно новые, уникальные экземпляры. Представьте, что вы описываете художнику портрет: он не скопирует фотографию, а напишет новую картину, передающую суть человека, сохраняя при этом индивидуальный стиль. Так и синтетические данные — это не копии, а новая интерпретация реальности, сохраняющая её статистические свойства и структуру.
⏱ Читать статью
#почитать
Синтетические данные — это искусственно созданные данные, которые отражают особенности реальных наблюдений и используются для обучения моделей машинного обучения в случаях, когда получить реальные данные сложно или дорого.
Допустим, у нас есть набор данных с фотографиями настоящих людей. Аугментация данных — это процесс, при котором к набору добавляются слегка измененные копии уже существующих элементов. Если применить аугментацию к нашему набору, мы получим те же лица, но с небольшими изменениями, например, с разными оттенками глаз или кожи, с шумами на фото и цветовым фильтром.
Рандомизация, в отличие от этого, лишь перемешивает элементы внутри набора данных, не создавая новых. Так, используя рандомизацию, мы могли бы «поменять местами» черты лиц: взять волосы одного человека, рот другого и глаза третьего. В итоге мы получаем новые лица, не тратя ресурсы на сбор дополнительных данных.
Синтетические данные не копируют реальные данные, а создают новые примеры, основанные на характеристиках оригинала. Они как бы "переосмысливают" реальность, улавливая её основные черты и закономерности, но генерируя совершенно новые, уникальные экземпляры. Представьте, что вы описываете художнику портрет: он не скопирует фотографию, а напишет новую картину, передающую суть человека, сохраняя при этом индивидуальный стиль. Так и синтетические данные — это не копии, а новая интерпретация реальности, сохраняющая её статистические свойства и структуру.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6
Линейная регрессия: A/B тесты в одном уравнении
#почитать
Как ни странно, многие из «модных» техник, которые применяются в A/B тестировании, на самом деле, не что иное, как вариации старой доброй линейной регрессии.
Например, использование таких методов, как t-тест, стратификация, CUPED, CUMPED, по сути, сводятся к построению линейной регрессии и проверке гипотезы в рамках построенной модели. Наши коллеги из команды ad-hoc аналитики Х5 Tech уже писали про стратификацию здесь и про CUPED здесь, а по этой ссылке лежит статья про CUMPED и подобные вариации CUPED.
Основная идея здесь проста: правильное добавление новых переменных в модель помогает лучше контролировать внешние факторы и уменьшать шум в данных. Это позволяет точнее оценить эффект от воздействия и объединить разные статистические подходы, которые обычно рассматриваются отдельно. Но почему это работает? Почему всё сводится к тому, что добавление переменных помогает объединить, казалось бы, разрозненные техники?
Чтобы разобраться в этом, для начала вспомним основы линейной регрессии, после чего перейдём к различным статистическим методам снижения дисперсии и покажем, как они сводятся к линейной регрессии. Затем объединим все техники вместе и на примере покажем, как они работают на практике.
⏱ Читать статью
#почитать
Как ни странно, многие из «модных» техник, которые применяются в A/B тестировании, на самом деле, не что иное, как вариации старой доброй линейной регрессии.
Например, использование таких методов, как t-тест, стратификация, CUPED, CUMPED, по сути, сводятся к построению линейной регрессии и проверке гипотезы в рамках построенной модели. Наши коллеги из команды ad-hoc аналитики Х5 Tech уже писали про стратификацию здесь и про CUPED здесь, а по этой ссылке лежит статья про CUMPED и подобные вариации CUPED.
Основная идея здесь проста: правильное добавление новых переменных в модель помогает лучше контролировать внешние факторы и уменьшать шум в данных. Это позволяет точнее оценить эффект от воздействия и объединить разные статистические подходы, которые обычно рассматриваются отдельно. Но почему это работает? Почему всё сводится к тому, что добавление переменных помогает объединить, казалось бы, разрозненные техники?
Чтобы разобраться в этом, для начала вспомним основы линейной регрессии, после чего перейдём к различным статистическим методам снижения дисперсии и покажем, как они сводятся к линейной регрессии. Затем объединим все техники вместе и на примере покажем, как они работают на практике.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4❤1🔥1