Нейронные оптимизаторы запросов в реляционных БД
#почитать
В 1970-х годах известный программист Эдгар Кодд разработал математически выверенную теорию организации данных в виде таблиц (реляций). С тех пор утекло немало воды — появилось большое количество различных коммерческих и open-source реляционных систем управления базами данных (РСУБД). Скоро стало понятно, что эффективное получение данных из базы — задача далеко не тривиальная. Если говорить прямо, она нелинейная и в общем случае NP-сложная.
⏱ Читать статью
#почитать
В 1970-х годах известный программист Эдгар Кодд разработал математически выверенную теорию организации данных в виде таблиц (реляций). С тех пор утекло немало воды — появилось большое количество различных коммерческих и open-source реляционных систем управления базами данных (РСУБД). Скоро стало понятно, что эффективное получение данных из базы — задача далеко не тривиальная. Если говорить прямо, она нелинейная и в общем случае NP-сложная.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥5👍2❤1
Рой: оптимизация на Python с помощью PSO
#почитать
Что считать "оптимальным" в природе? Что является наилучшим для отдельной особи и для всей группы? Не являясь биологом, я не могу дать ответы на эти вопросы. Однако, наблюдая за подобным поведением в природе, мы можем разработать эффективный алгоритм оптимизации. Другими словами, определив критерии "оптимальности", мы можем применить этот эволюционный подход для оптимизации заданной функции. Данный алгоритм известен как оптимизация роем частиц (Particle Swarm Optimization, PSO).
⏱ Читать статью
#почитать
Что считать "оптимальным" в природе? Что является наилучшим для отдельной особи и для всей группы? Не являясь биологом, я не могу дать ответы на эти вопросы. Однако, наблюдая за подобным поведением в природе, мы можем разработать эффективный алгоритм оптимизации. Другими словами, определив критерии "оптимальности", мы можем применить этот эволюционный подход для оптимизации заданной функции. Данный алгоритм известен как оптимизация роем частиц (Particle Swarm Optimization, PSO).
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5❤2🔥1
Алгоритм управления доставкой по расписанию и динамический прайсинг
#почитать
Алгоритм плохо работал при дисбалансе партнеров (например, когда курьеров, было сильно больше, чем сборщиков). Для решения этой проблемы мы разделили показатель нагрузки. Раньше это был один surge-level, теперь показателя два: по одному на сборку и доставку. Все действия алгоритма основаны на наибольшем из двух показателей.
Кроме того, каждая из тысячи точек обладает целым рядом уникальных особенностей. Чтобы алгоритм подстраивался под них, мы настроили простой механизм адаптации параметров его работы, по духу похожий на Reinforcement Learning.
⏱ Читать статью
#почитать
Алгоритм плохо работал при дисбалансе партнеров (например, когда курьеров, было сильно больше, чем сборщиков). Для решения этой проблемы мы разделили показатель нагрузки. Раньше это был один surge-level, теперь показателя два: по одному на сборку и доставку. Все действия алгоритма основаны на наибольшем из двух показателей.
Кроме того, каждая из тысячи точек обладает целым рядом уникальных особенностей. Чтобы алгоритм подстраивался под них, мы настроили простой механизм адаптации параметров его работы, по духу похожий на Reinforcement Learning.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6🔥2❤1
Задачи транспортной видеоаналитики
#почитать
⏱ Читать статью
#почитать
Сейчас в нашей команде четыре человека, и мы ведем продукт для транспортной видеоаналитики.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6🔥1
Как нейросети выдают кредиты
#почитать
Ни для кого не секрет, что в современном мире лимит кредитной карты начисляет не банковский сотрудник, но нейросеть или попросту алгоритм машинного обучения.
⏱ Читать статью
#почитать
Ни для кого не секрет, что в современном мире лимит кредитной карты начисляет не банковский сотрудник, но нейросеть или попросту алгоритм машинного обучения.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5❤2🔥1
ML для анализа ЭЭГ: ищем эпилептические приступы
#почитать
Negative mining — это метод, применяемый в машинном обучении для улучшения качества классификации. Он заключается в том, что модель чаще видит негативные примеры (те, которые не относятся к целевому классу), которые она ошибочно классифицирует как положительные. Эти "трудные" негативные примеры получают больший вес при обучении, что заставляет модель более тщательно их анализировать и различать от положительных примеров.
⏱ Читать статью
#почитать
Negative mining — это метод, применяемый в машинном обучении для улучшения качества классификации. Он заключается в том, что модель чаще видит негативные примеры (те, которые не относятся к целевому классу), которые она ошибочно классифицирует как положительные. Эти "трудные" негативные примеры получают больший вес при обучении, что заставляет модель более тщательно их анализировать и различать от положительных примеров.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5🔥2❤1
Оценка LLM с большим окном контекста
#почитать
Недавно у нас получилось достичь уровня gpt-4 на собственном ограниченном датасете большого контекста.
⏱ Читать статью
#почитать
Недавно у нас получилось достичь уровня gpt-4 на собственном ограниченном датасете большого контекста.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5🔥2
Действительно ли большие языковые модели галлюцинируют
#почитать
Если дать более строгое определение термину «галлюцинация», наш эксперимент показал, что на большом количестве вопросов вероятность галлюцинаций очень мала — порядка 6%. При этом фактологически неверные ответы составляют чуть больше трети (35%) от общего числа.
А значит, при построении систем на основе генеративных моделей нужно в первую очередь уделять внимание фактологически неверным ответам. И важно не путать их с галлюцинациями. Находить последние можно с помощью простейшего порогового алгоритма — в нашем примере мы построили его на базе метрики BERTScore-Precision.
⏱ Читать статью
#почитать
Если дать более строгое определение термину «галлюцинация», наш эксперимент показал, что на большом количестве вопросов вероятность галлюцинаций очень мала — порядка 6%. При этом фактологически неверные ответы составляют чуть больше трети (35%) от общего числа.
А значит, при построении систем на основе генеративных моделей нужно в первую очередь уделять внимание фактологически неверным ответам. И важно не путать их с галлюцинациями. Находить последние можно с помощью простейшего порогового алгоритма — в нашем примере мы построили его на базе метрики BERTScore-Precision.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5🔥2🙏1
Полный цикл отбора на стажировку в Яндекс (Аналитика, МЛ, Бэкенд)
#почитать
⏱ Читать статью
#почитать
Мне хватило 4 задач из 6. Первую и пятую мне решил ГПТ
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5❤2🔥1
Рецепт идеальной разметки в Computer Vision
#почитать
Расскажем о фреймворке агрегации разметки данных, который использует наша команда и коллеги из других подразделений. AggregateMe помогает привести несколько разметок к одной и повысить её качество в случае, если исполнители где-то ошиблись.
⏱ Читать статью
#почитать
Расскажем о фреймворке агрегации разметки данных, который использует наша команда и коллеги из других подразделений. AggregateMe помогает привести несколько разметок к одной и повысить её качество в случае, если исполнители где-то ошиблись.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5❤2🔥1
Пайплайн распознавания транспортных средств: как это работает
#почитать
Чтобы решить поставленную задачу, иногда достаточно задетектировать и распознать только номер — например, в кейсе шлагбаума придомовой территории. Но я расскажу про пайплайн (многошаговый алгоритм), который анализирует транспортное средство целиком. Чтобы фиксировать и валидировать нарушения правил дорожного движения, назначать плату за проезд, разыскивать угнанные автомобили и в целом для большинства кейсов из предыдущего поста, нам мало одного номера и кадра, с которого он взят. Важна вся история перемещения транспортного средства, поэтому без пайплайна не обойтись.
⏱ Читать статью
#почитать
Чтобы решить поставленную задачу, иногда достаточно задетектировать и распознать только номер — например, в кейсе шлагбаума придомовой территории. Но я расскажу про пайплайн (многошаговый алгоритм), который анализирует транспортное средство целиком. Чтобы фиксировать и валидировать нарушения правил дорожного движения, назначать плату за проезд, разыскивать угнанные автомобили и в целом для большинства кейсов из предыдущего поста, нам мало одного номера и кадра, с которого он взят. Важна вся история перемещения транспортного средства, поэтому без пайплайна не обойтись.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥6❤1
Как с минимальными ресурсами улучшить качество дообучения LLM
#почитать
Допустим, нужно обучить модель работать с технологией RAG или с помощью LLM генерировать инсайты по нашим данным. Как это сделать быстро, дешево и сердито?
⏱ Читать статью
#почитать
Допустим, нужно обучить модель работать с технологией RAG или с помощью LLM генерировать инсайты по нашим данным. Как это сделать быстро, дешево и сердито?
Please open Telegram to view this post
VIEW IN TELEGRAM
❤5🔥2
ИИ и векторный поиск в Azure Cosmos DB для MongoDB vCore
#почитать
Недавно Microsoft объявила о внедрении функциональности векторного поиска в Azure Cosmos DB для MongoDB vCore. Эта функция расширяет возможности Cosmos DB, позволяя разработчикам выполнять сложные поиски по сходству в многомерных данных, что особенно полезно в приложениях на основе RAG , системах рекомендаций, поиске изображений и документов и т. д.
⏱ Читать статью
#почитать
Недавно Microsoft объявила о внедрении функциональности векторного поиска в Azure Cosmos DB для MongoDB vCore. Эта функция расширяет возможности Cosmos DB, позволяя разработчикам выполнять сложные поиски по сходству в многомерных данных, что особенно полезно в приложениях на основе RAG , системах рекомендаций, поиске изображений и документов и т. д.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6
Динамический шаг в танце feature selection
#почитать
⏱ Читать статью
#почитать
Я практикующий дата-сайентист с опытом участия и судейства в чемпионатах по прогнозированию
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6
ML-генерация шрифтов
#почитать
⏱ Читать статью
#почитать
История о том, как я с нуля осваивал создание генеративных моделей МО, попутно обучая компьютер создавать шрифты. Да, настоящие типографские шрифты, состоящие из набора заглавных глифов. Созданная мной модель получает на входе описание шрифта и создаёт на выходе файл с их готовым набором.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6
ML-подход к оттоку рекламодателей
#почитать
Прототип системы создан на основе данных организаций малого и среднего бизнеса (Small & Medium Business, SMB), с которыми работает Pinterest.
⏱ Читать статью
#почитать
Прототип системы создан на основе данных организаций малого и среднего бизнеса (Small & Medium Business, SMB), с которыми работает Pinterest.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6❤1
Четыре уровня адаптации open-source моделей
#почитать
Мы выделяем четыре уровня адаптации. Для этого смотрим, какие потребуются навыки для решения этой задачи, сколько времени и человекочасов займет разработка. Поняв требуемый уровень, мы можем поставить себе дедлайны на проверку гипотезы и запланировать действия, если задача не решится выбранным способом.
⏱ Читать статью
#почитать
Мы выделяем четыре уровня адаптации. Для этого смотрим, какие потребуются навыки для решения этой задачи, сколько времени и человекочасов займет разработка. Поняв требуемый уровень, мы можем поставить себе дедлайны на проверку гипотезы и запланировать действия, если задача не решится выбранным способом.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5❤2🔥1
#посмотреть
Все лето я проходил собеседование в Мету*, дошел до самого последнего этапа и к сожалению не получил оффер. В этом видео рассказываю, как мне удалось пройти так далеко, как я готовился, что спрашивали на интервью и что же все-таки пошло не так. Покажу резюме, по которому меня нашел рекрутер из Меты* и позвал на собеседование на Senior Data Scientist.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5❤2🔥1
#посмотреть
11 часов теории и практики (PostgreSQL) - freeCodeCamp.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤5👍2🔥1
Как ухватить LLM за хвост: эффективные стратегии тестирования AI-моделей
#почитать
Есть три главных столпа тестирования LLM:
Пользовательский фидбэк: Самый очевидный, но запоздалый способ понять, работает ли ваше приложение. Ведь фидбэк возможен только после релиза. А если ошибки спрятаны до продакшна?
Ручное тестирование: Трудозатратное занятие, способное исчерпать даже самую энергичную команду. О плюсах и минусах применения на практике вы, вероятно, уже знаете: субъективность и, увы, тоже ошибки.
Автоматическое тестирование: Спасительная гавань для всех разработчиков LLM. Однако есть нюанс — оно все еще развивается, как и сами LLM, и всегда требует свежих подходов.
⏱ Читать статью
#почитать
Есть три главных столпа тестирования LLM:
Пользовательский фидбэк: Самый очевидный, но запоздалый способ понять, работает ли ваше приложение. Ведь фидбэк возможен только после релиза. А если ошибки спрятаны до продакшна?
Ручное тестирование: Трудозатратное занятие, способное исчерпать даже самую энергичную команду. О плюсах и минусах применения на практике вы, вероятно, уже знаете: субъективность и, увы, тоже ошибки.
Автоматическое тестирование: Спасительная гавань для всех разработчиков LLM. Однако есть нюанс — оно все еще развивается, как и сами LLM, и всегда требует свежих подходов.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7❤2🔥1
Анализ временных рядов: полное руководство для начинающих
#почитать
Временной ряд — это последовательность значений, которые протекают и измеряются в определенном временном промежутке. К бытовым примерам временного ряда можно отнести метеорологические наблюдения или колебания цен на рынке.
Аналитикам такие наборы данных позволяют выявлять закономерности, прогнозировать будущее и предлагать бизнесу обоснованные решения.
⏱ Читать статью
#почитать
Временной ряд — это последовательность значений, которые протекают и измеряются в определенном временном промежутке. К бытовым примерам временного ряда можно отнести метеорологические наблюдения или колебания цен на рынке.
Аналитикам такие наборы данных позволяют выявлять закономерности, прогнозировать будущее и предлагать бизнесу обоснованные решения.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥7❤1👍1