Хабр / ML & AI
479 subscribers
5.47K links
Telegram-канал, где вы можете найти публикации из RSS-фидов тематических хабов "Машинное обучение" и "Искусственный интеллект" портала Хабр.

Данный канал не является официальным представительством платформы Хабр.

Администратор - @evilfreelancer
Download Telegram
Исследователи Яндекса выложили Yambda — один из крупнейших в мире датасетов для развития рекомендательных систем

Привет! Меня зовут Александр Плошкин, я руковожу группой развития качества персонализации в Яндексе. Сегодня мы открываем доступ к одному из крупнейших рекомендательных датасетов — Yambda. Он содержит 4,79 миллиардов обезличенных пользовательских действий, собранных за 10 месяцев использования сервиса Яндекс Музыка.

Мы выбрали Яндекс Музыку, потому что это крупнейший подписной стриминговый сервис в России, которым в среднем в месяц пользуются 28 миллионов людей. Существенная часть датасета — агрегированные прослушивания, лайки, дизлайки, а также некоторые характеристики треков, полученные из системы персональных рекомендаций «Моя волна». Все данные о пользователях и треках анонимизированы: датасет содержит исключительно числовые идентификаторы, что обеспечивает конфиденциальность.

Рекомендательные алгоритмы помогают людям находить нужные товары, фильмы, музыку и многое другое — именно они лежат в основе сервисов: от интернет‑магазинов до онлайн‑кинотеатров. Развитие этих алгоритмов напрямую зависит от научных исследований, для которых нужны качественные и объёмные датасеты. При этом опенсорс‑датасеты чаще всего невелики по размеру или уже устарели, так как коммерческие компании, которые накапливают терабайты данных, редко их публикуют.

Публикация больших открытых датасетов наподобие Yambda помогает решить эту проблему. Доступ к качественным большим данным открывает новые возможности для научных исследований и привлекает к области внимание молодых учёных, заинтересованных в применении машинного обучения для решения актуальных задач.

В этой статье я расскажу, из чего состоит датасет, как мы его собирали и как вы можете использовать его для оценки новых рекомендательных алгоритмов. Читать далее

#рекомендательные_системы #датасеты #large_scale_machine_learning #open_source #яндекс #yambda | @habr_ai
Покерная лаборатория закрывается, ловите исходники

Я делал этот проект более полутора лет, сейчас отказываюсь от него. И, чтобы эти полтора года не были прожиты зря) открываю исходники. Java+Spring.

Принимайте проект «как есть», со всеми ad-hoc костылями, незаконченными исследованиями, TODOs, а также всевозможными KISS, DRY, и, как их… SOLID с GoF.

Предполагается, что вы знакомы с покером, имеете неплохие навыки программирования, поверхностно разбираетесь в теории игр. Читать далее

#покер #теория_игр #машинное_обучение #боты #карточные_игры #дерево_решений #совершенный_код #говнокод #искусственный_интеллект #open_source | @habr_ai
Как ИИ помог создать систему видеонаблюдения на Android

Привет, Хабр!

Прежде чем я начну рассказ о своем проекте, хочу выразить огромную благодарность всем тем бесчисленным программистам, разработчикам и энтузиастам, которые на протяжении многих лет делились своим кодом, знаниями и опытом в интернете. Ваши открытые проекты, ответы на Stack Overflow, статьи, туториалы и обсуждения на форумах стали той самой питательной средой, на которой обучались большие языковые модели (LLM), включая и ту, что помогала мне. Без вашего вклада в общее дело, такие мощные ИИ‑ассистенты, которые сегодня так сильно облегчают и ускоряют разработку, были бы просто невозможны. Спасибасвам за то, что делаете мир разработки открытее и доступнее!

Исходный код проекта «Storog» полностью открыт и доступен на GitHub. Читать далее

#android #ai #ии_ассистент #ии #open_source #open_source #vibecoding #vibe_coding | @habr_ai
Обнаружение новых небесных объектов с помощью ML: стартап СТРАЖ для астрономов

Только один телескоп LSST за ночь может собрать более 15 ТБ данных — это как 30 тысяч фильмов в HD. Без ИИ астрономы просто тонут в научных данных. Студенты МФТИ придумали решение: их ML-система «Страж» может ускорить поиск новых объектов в 5 раз — и с точностью до 98%. 

На днях АиФ, ТАСС и другие СМИ опубликовали новости о «Страже», но только мы знаем, как все начиналось, как работает решение «под капотом» и почему проект поддержал Yandex Cloud. Об этом и рассказываем в статье. Читать статью

#ml #магистратура #астрономия #облачные_технологии #облачная_инфраструктура #машинное_обучение_нейросети #студенческий_стартап #open_source #новые_звезды #yandex_cloud | @habr_ai
Что будет, если пригласить на свидание OCR и GPT?

Привет, Хабр! Снова на связи Кирилл Пронин, разработчик PIX RPA из PIX Robotics, со мной Александр Сулейкин, Founder DUC Technologies и сегодня мы с вами затронем тему «Что будет, если объединить OCR и GPT?».

Признайтесь честно, видели какие ужасные результаты распознавания выдают современные open source решения для кириллицы? Вряд ли из коробки, можно что-то использовать сразу в своих решениях роботизации и автоматизации. Но что же будет, если мы обучим модель не через стандартные методы машинного обучения, а через GPT? Каков будет результат? Стоит ли это исследовать и браться за реализацию? Обо всем подробно в этой статье. Читать далее

#open_source #искусственный_интеллект #машинное_обучение #машинное_зрение #оптическое_распознавание #ocr_технологии #idp #ocr #обучение_нейронных_сетей | @habr_ai
Gaunt Sloth — Open Source AI CLI утилита

Прошло довольно много времени с тех пор, как я в последний раз что-либо публиковал на Хабре, около 10 лет или около того, и сегодня настал день, чтобы поделиться своим небольшим Open Source проектом.

Проект под названием Gaunt Sloth Assistant — это CLI-клиент для ИИ (AI), созданный на TypeScript (LangChain.js), распространяемый через npm и работающий в Linux, Windows и Mac. Пользователь полностью контролирует промпты, и рекомендуется формировать свои собственные системные промпты, но у него также есть и стандартный.

основные команды:

- Review PR 42 сверяя с требованиями из issue 12 gth pr 42 12

- Review local diff git --no-pager diff | gth review

- Interactive chat gth chat (filesystem read access)

- Interactive code gth code (filesystem write access) Читать далее

#open_source #искусственный_интеллект #cli #cross_platform | @habr_ai
Запускаем личный АИ-инфоконвейер: как я строю систему смыслового мониторинга с YAML и GPT

Мне приходится тратить много времени на мониторинг арбитража, госзакупок и других документов: PDF на сотни страниц, новости с «водой», RSS при этом отсутствует.

Поэтому я решил разработать open-source инструмент, который сам проверяет сайты, скачивает документы и с помощью локального ИИ (GPT4All / DeepSeek) делает краткую смысловую выжимку по YAML-шаблону.

Он должен работать как конвейер: источник → шаблон → интерпретация → результат. Локально, без облаков. И объединять всё в единую ленту новостей.

Сейчас я дорабатываю MVP — и я хочу понять, какие шаблоны наблюдения наиболее востребованы: законопроекты, торги, релизы, или что-то ещё? Читать далее

#ai #парсинг #llm #gpt4all #yaml #open_source #self_hosted #cli #automation #documents | @habr_ai
AI-генератор сайтов на ChatGPT и Next.js 15: Создаем SEO-оптимизированные страницы с нуля (аналог v0)

Представьте дизайн-агентство, которое создает не просто красивые макеты, а целые технологические экосистемы. Один раз вложившись в разработку уникальных компонентов и фирменного стиля, дизайнеры получают возможность генерировать профессиональные сайты со скоростью 50+ проектов в час.

На практике это сводится к простому циклу: вы отправляете промпт в ChatGPT, получаете в ответ конфигурационный файл, загружаете его в приложение и одной командой сборки создаёте готовые, стилизованные страницы. Всё это уже настроено в стартовом шаблоне, включая авторизацию и многоязычный AI-чат.

Или используйте полную автоматизацию так же как в v0, но с прицелом под крупные корпоративные интеграции. Читать далее

#next #chatgpt #ai #v0 #open_source #github #ai_generator | @habr_ai
Новости кибербезопасности за неделю с 21 по 27 июля 2025

Всё самое интересное из мира кибербезопасности /** с моими комментариями.

На этой неделе новости про милый вредонос для Linux, Америка рассказала о своих стратегических планах в ИИ, Британия запретила платить хакерам, Google занялась безопасностью open source и другие только самые важные и интересные новости из мира информационной безопасности. Читать далее

#информационная_безопасность #linux #open_source #wordpress #майнинг #искусственный_интеллект #google #вымогатели #кибербезопасность #кибератаки | @habr_ai