Хабр / ML & AI

Исследователи Яндекса выложили Yambda — один из крупнейших в мире датасетов для развития рекомендательных систем

Привет! Меня зовут Александр Плошкин, я руковожу группой развития качества персонализации в Яндексе. Сегодня мы открываем доступ к одному из крупнейших рекомендательных датасетов — Yambda. Он содержит 4,79 миллиардов обезличенных пользовательских действий, собранных за 10 месяцев использования сервиса Яндекс Музыка.

Мы выбрали Яндекс Музыку, потому что это крупнейший подписной стриминговый сервис в России, которым в среднем в месяц пользуются 28 миллионов людей. Существенная часть датасета — агрегированные прослушивания, лайки, дизлайки, а также некоторые характеристики треков, полученные из системы персональных рекомендаций «Моя волна». Все данные о пользователях и треках анонимизированы: датасет содержит исключительно числовые идентификаторы, что обеспечивает конфиденциальность.

Рекомендательные алгоритмы помогают людям находить нужные товары, фильмы, музыку и многое другое — именно они лежат в основе сервисов: от интернет‑магазинов до онлайн‑кинотеатров. Развитие этих алгоритмов напрямую зависит от научных исследований, для которых нужны качественные и объёмные датасеты. При этом опенсорс‑датасеты чаще всего невелики по размеру или уже устарели, так как коммерческие компании, которые накапливают терабайты данных, редко их публикуют.

Публикация больших открытых датасетов наподобие Yambda помогает решить эту проблему. Доступ к качественным большим данным открывает новые возможности для научных исследований и привлекает к области внимание молодых учёных, заинтересованных в применении машинного обучения для решения актуальных задач.

В этой статье я расскажу, из чего состоит датасет, как мы его собирали и как вы можете использовать его для оценки новых рекомендательных алгоритмов. Читать далее

#рекомендательные_системы #датасеты #large_scale_machine_learning #open_source #яндекс #yambda | @habr_ai

Хабр

Исследователи Яндекса выложили Yambda — один из крупнейших в мире датасетов для развития рекомендательных систем

Привет! Меня зовут Александр Плошкин, я руковожу группой развития качества персонализации в Яндексе. Сегодня мы открываем доступ к одному из крупнейших рекомендательных датасетов —...

64 views09:56

Хабр / ML & AI

Покерная лаборатория закрывается, ловите исходники

Я делал этот проект более полутора лет, сейчас отказываюсь от него. И, чтобы эти полтора года не были прожиты зря) открываю исходники. Java+Spring.

Принимайте проект «как есть», со всеми ad-hoc костылями, незаконченными исследованиями, TODOs, а также всевозможными KISS, DRY, и, как их… SOLID с GoF.

Предполагается, что вы знакомы с покером, имеете неплохие навыки программирования, поверхностно разбираетесь в теории игр. Читать далее

#покер #теория_игр #машинное_обучение #боты #карточные_игры #дерево_решений #совершенный_код #говнокод #искусственный_интеллект #open_source | @habr_ai

Хабр

Покерная лаборатория закрывается, ловите исходники

Я делал этот проект более полутора лет, сейчас отказываюсь от него. И, чтобы эти полтора года не были прожиты зря) открываю исходники. Java+Spring. Принимайте проект «как есть», со всеми ad-hoc...

35 views07:55

Хабр / ML & AI

Как ИИ помог создать систему видеонаблюдения на Android

Привет, Хабр!

Прежде чем я начну рассказ о своем проекте, хочу выразить огромную благодарность всем тем бесчисленным программистам, разработчикам и энтузиастам, которые на протяжении многих лет делились своим кодом, знаниями и опытом в интернете. Ваши открытые проекты, ответы на Stack Overflow, статьи, туториалы и обсуждения на форумах стали той самой питательной средой, на которой обучались большие языковые модели (LLM), включая и ту, что помогала мне. Без вашего вклада в общее дело, такие мощные ИИ‑ассистенты, которые сегодня так сильно облегчают и ускоряют разработку, были бы просто невозможны. Спасибасвам за то, что делаете мир разработки открытее и доступнее!

Исходный код проекта «Storog» полностью открыт и доступен на GitHub. Читать далее

#android #ai #ии_ассистент #ии #open_source #open_source #vibecoding #vibe_coding | @habr_ai

Хабр

Как ИИ помог создать систему видеонаблюдения на Android

Превращаем смартфон в умного охранника с помощью Kotlin, CameraX, Gemini AI и Telegram Привет, Хабр! Прежде чем я начну рассказ о своем проекте, хочу выразить огромную благодарность всем тем...

77 views09:59

Хабр / ML & AI

Обнаружение новых небесных объектов с помощью ML: стартап СТРАЖ для астрономов

Только один телескоп LSST за ночь может собрать более 15 ТБ данных — это как 30 тысяч фильмов в HD. Без ИИ астрономы просто тонут в научных данных. Студенты МФТИ придумали решение: их ML-система «Страж» может ускорить поиск новых объектов в 5 раз — и с точностью до 98%.

На днях АиФ, ТАСС и другие СМИ опубликовали новости о «Страже», но только мы знаем, как все начиналось, как работает решение «под капотом» и почему проект поддержал Yandex Cloud. Об этом и рассказываем в статье. Читать статью

#ml #магистратура #астрономия #облачные_технологии #облачная_инфраструктура #машинное_обучение_нейросети #студенческий_стартап #open_source #новые_звезды #yandex_cloud | @habr_ai

Хабр

Обнаружение новых небесных объектов с помощью ML: стартап СТРАЖ для астрономов

«Страж» — это первая в России ML-система для обнаружения и классификации переменных звезд на базе сразу нескольких разнотипных нейросетей. Она уже на этапе прототипа способна анализировать данные...

89 views09:04

Хабр / ML & AI

Что будет, если пригласить на свидание OCR и GPT?

Привет, Хабр! Снова на связи Кирилл Пронин, разработчик PIX RPA из PIX Robotics, со мной Александр Сулейкин, Founder DUC Technologies и сегодня мы с вами затронем тему «Что будет, если объединить OCR и GPT?».

Признайтесь честно, видели какие ужасные результаты распознавания выдают современные open source решения для кириллицы? Вряд ли из коробки, можно что-то использовать сразу в своих решениях роботизации и автоматизации. Но что же будет, если мы обучим модель не через стандартные методы машинного обучения, а через GPT? Каков будет результат? Стоит ли это исследовать и браться за реализацию? Обо всем подробно в этой статье. Читать далее

#open_source #искусственный_интеллект #машинное_обучение #машинное_зрение #оптическое_распознавание #ocr_технологии #idp #ocr #обучение_нейронных_сетей | @habr_ai

Хабр

Что будет, если пригласить на свидание OCR и GPT?

Привет, Хабр! Снова на связи Кирилл Пронин, разработчик PIX RPA из PIX Robotics , со мной Александр Сулейкин , Founder DUC Technologies и сегодня мы с вами затронем тему «Что будет, если объединить...

55 views09:14

Хабр / ML & AI

AI-диалоги под контролем: как структурный подход улучшает архитектуру, аналитику и разработку

Как структурировать диалоги с LLM: шаблоны, интенты, статусы и архитектура ai-dialog-system, превращающая хаос в управляемую систему. Подход подходит для аналитики, CI и командной разработки. Читать далее

#llm #диалоговые_системы #архитектура #шаблоны #open_source #метаданные #интенты #анализ_и_проектирование_систем #структурирование #rag | @habr_ai

Хабр

AI-диалоги под контролем: как структурный подход улучшает архитектуру, аналитику и разработку

Или как шаблоны, метаданные и строгие правила делают из хаоса — систему. "хаос → структура", где диалоги разрозненные → упорядочены через шаблон 🤯 Проблемы, с которыми сталкиваются команды Так...

57 views15:42

Хабр / ML & AI

Gaunt Sloth — Open Source AI CLI утилита

Прошло довольно много времени с тех пор, как я в последний раз что-либо публиковал на Хабре, около 10 лет или около того, и сегодня настал день, чтобы поделиться своим небольшим Open Source проектом.

Проект под названием Gaunt Sloth Assistant — это CLI-клиент для ИИ (AI), созданный на TypeScript (LangChain.js), распространяемый через npm и работающий в Linux, Windows и Mac. Пользователь полностью контролирует промпты, и рекомендуется формировать свои собственные системные промпты, но у него также есть и стандартный.

основные команды:

- Review PR 42 сверяя с требованиями из issue 12 gth pr 42 12

- Review local diff git --no-pager diff | gth review

- Interactive chat gth chat (filesystem read access)

- Interactive code gth code (filesystem write access) Читать далее

#open_source #искусственный_интеллект #cli #cross_platform | @habr_ai

Хабр

Gaunt Sloth — Open Source AI CLI утилита

Прошло довольно много времени с тех пор, как я в последний раз что-либо публиковал на Хабре, около 10 лет или около того, и сегодня настал день, чтобы поделиться своим небольшим Open Source проектом....

42 views12:49

Хабр / ML & AI

Запускаем личный АИ-инфоконвейер: как я строю систему смыслового мониторинга с YAML и GPT

Мне приходится тратить много времени на мониторинг арбитража, госзакупок и других документов: PDF на сотни страниц, новости с «водой», RSS при этом отсутствует.

Поэтому я решил разработать open-source инструмент, который сам проверяет сайты, скачивает документы и с помощью локального ИИ (GPT4All / DeepSeek) делает краткую смысловую выжимку по YAML-шаблону.

Он должен работать как конвейер: источник → шаблон → интерпретация → результат. Локально, без облаков. И объединять всё в единую ленту новостей.

Сейчас я дорабатываю MVP — и я хочу понять, какие шаблоны наблюдения наиболее востребованы: законопроекты, торги, релизы, или что-то ещё? Читать далее

#ai #парсинг #llm #gpt4all #yaml #open_source #self_hosted #cli #automation #documents | @habr_ai

Хабр

Запускаем личный АИ-инфоконвейер: как я строю систему смыслового мониторинга с YAML и GPT

Отслеживаем новости, документы и тендеры Rostral.io размышляет над ответом вместо вас Привет! Каждый день приходится столько всего отслеживать— лучше делать это в кратком пересказе и без лишних...

42 views12:27

Хабр / ML & AI

AI-генератор сайтов на ChatGPT и Next.js 15: Создаем SEO-оптимизированные страницы с нуля (аналог v0)

Представьте дизайн-агентство, которое создает не просто красивые макеты, а целые технологические экосистемы. Один раз вложившись в разработку уникальных компонентов и фирменного стиля, дизайнеры получают возможность генерировать профессиональные сайты со скоростью 50+ проектов в час.

На практике это сводится к простому циклу: вы отправляете промпт в ChatGPT, получаете в ответ конфигурационный файл, загружаете его в приложение и одной командой сборки создаёте готовые, стилизованные страницы. Всё это уже настроено в стартовом шаблоне, включая авторизацию и многоязычный AI-чат.

Или используйте полную автоматизацию так же как в v0, но с прицелом под крупные корпоративные интеграции. Читать далее

#next #chatgpt #ai #v0 #open_source #github #ai_generator | @habr_ai

Хабр

AI-генератор сайтов на ChatGPT и Next.js 15: Создаем SEO-оптимизированные страницы с нуля (аналог v0)

Этот туториал — первая часть большого путешествия, в котором мы создадим AI-систему для автоматической генерации веб-страниц на React 19 и Next.js 15. Наша цель — не просто скорость, а архитектурная...

57 views15:55

Хабр / ML & AI

Новости кибербезопасности за неделю с 21 по 27 июля 2025

Всё самое интересное из мира кибербезопасности /** с моими комментариями.

На этой неделе новости про милый вредонос для Linux, Америка рассказала о своих стратегических планах в ИИ, Британия запретила платить хакерам, Google занялась безопасностью open source и другие только самые важные и интересные новости из мира информационной безопасности. Читать далее

#информационная_безопасность #linux #open_source #wordpress #майнинг #искусственный_интеллект #google #вымогатели #кибербезопасность #кибератаки | @habr_ai

Хабр

Новости кибербезопасности за неделю с 21 по 27 июля 2025

Всё самое интересное из мира кибербезопасности /** с моими комментариями. 1) Linux-вредонос Koske маскируется под фото панд и майнит 18 криптовалют. Исследователи из AquaSec обнаружили новый вредонос...

76 views09:58

About

Blog

Apps

Platform