Хабр / ML & AI
478 subscribers
5.47K links
Telegram-канал, где вы можете найти публикации из RSS-фидов тематических хабов "Машинное обучение" и "Искусственный интеллект" портала Хабр.

Данный канал не является официальным представительством платформы Хабр.

Администратор - @evilfreelancer
Download Telegram
Исследователи Яндекса выложили Yambda — один из крупнейших в мире датасетов для развития рекомендательных систем

Привет! Меня зовут Александр Плошкин, я руковожу группой развития качества персонализации в Яндексе. Сегодня мы открываем доступ к одному из крупнейших рекомендательных датасетов — Yambda. Он содержит 4,79 миллиардов обезличенных пользовательских действий, собранных за 10 месяцев использования сервиса Яндекс Музыка.

Мы выбрали Яндекс Музыку, потому что это крупнейший подписной стриминговый сервис в России, которым в среднем в месяц пользуются 28 миллионов людей. Существенная часть датасета — агрегированные прослушивания, лайки, дизлайки, а также некоторые характеристики треков, полученные из системы персональных рекомендаций «Моя волна». Все данные о пользователях и треках анонимизированы: датасет содержит исключительно числовые идентификаторы, что обеспечивает конфиденциальность.

Рекомендательные алгоритмы помогают людям находить нужные товары, фильмы, музыку и многое другое — именно они лежат в основе сервисов: от интернет‑магазинов до онлайн‑кинотеатров. Развитие этих алгоритмов напрямую зависит от научных исследований, для которых нужны качественные и объёмные датасеты. При этом опенсорс‑датасеты чаще всего невелики по размеру или уже устарели, так как коммерческие компании, которые накапливают терабайты данных, редко их публикуют.

Публикация больших открытых датасетов наподобие Yambda помогает решить эту проблему. Доступ к качественным большим данным открывает новые возможности для научных исследований и привлекает к области внимание молодых учёных, заинтересованных в применении машинного обучения для решения актуальных задач.

В этой статье я расскажу, из чего состоит датасет, как мы его собирали и как вы можете использовать его для оценки новых рекомендательных алгоритмов. Читать далее

#рекомендательные_системы #датасеты #large_scale_machine_learning #open_source #яндекс #yambda | @habr_ai
Покерная лаборатория закрывается, ловите исходники

Я делал этот проект более полутора лет, сейчас отказываюсь от него. И, чтобы эти полтора года не были прожиты зря) открываю исходники. Java+Spring.

Принимайте проект «как есть», со всеми ad-hoc костылями, незаконченными исследованиями, TODOs, а также всевозможными KISS, DRY, и, как их… SOLID с GoF.

Предполагается, что вы знакомы с покером, имеете неплохие навыки программирования, поверхностно разбираетесь в теории игр. Читать далее

#покер #теория_игр #машинное_обучение #боты #карточные_игры #дерево_решений #совершенный_код #говнокод #искусственный_интеллект #open_source | @habr_ai
Как ИИ помог создать систему видеонаблюдения на Android

Привет, Хабр!

Прежде чем я начну рассказ о своем проекте, хочу выразить огромную благодарность всем тем бесчисленным программистам, разработчикам и энтузиастам, которые на протяжении многих лет делились своим кодом, знаниями и опытом в интернете. Ваши открытые проекты, ответы на Stack Overflow, статьи, туториалы и обсуждения на форумах стали той самой питательной средой, на которой обучались большие языковые модели (LLM), включая и ту, что помогала мне. Без вашего вклада в общее дело, такие мощные ИИ‑ассистенты, которые сегодня так сильно облегчают и ускоряют разработку, были бы просто невозможны. Спасибасвам за то, что делаете мир разработки открытее и доступнее!

Исходный код проекта «Storog» полностью открыт и доступен на GitHub. Читать далее

#android #ai #ии_ассистент #ии #open_source #open_source #vibecoding #vibe_coding | @habr_ai
Обнаружение новых небесных объектов с помощью ML: стартап СТРАЖ для астрономов

Только один телескоп LSST за ночь может собрать более 15 ТБ данных — это как 30 тысяч фильмов в HD. Без ИИ астрономы просто тонут в научных данных. Студенты МФТИ придумали решение: их ML-система «Страж» может ускорить поиск новых объектов в 5 раз — и с точностью до 98%. 

На днях АиФ, ТАСС и другие СМИ опубликовали новости о «Страже», но только мы знаем, как все начиналось, как работает решение «под капотом» и почему проект поддержал Yandex Cloud. Об этом и рассказываем в статье. Читать статью

#ml #магистратура #астрономия #облачные_технологии #облачная_инфраструктура #машинное_обучение_нейросети #студенческий_стартап #open_source #новые_звезды #yandex_cloud | @habr_ai
Что будет, если пригласить на свидание OCR и GPT?

Привет, Хабр! Снова на связи Кирилл Пронин, разработчик PIX RPA из PIX Robotics, со мной Александр Сулейкин, Founder DUC Technologies и сегодня мы с вами затронем тему «Что будет, если объединить OCR и GPT?».

Признайтесь честно, видели какие ужасные результаты распознавания выдают современные open source решения для кириллицы? Вряд ли из коробки, можно что-то использовать сразу в своих решениях роботизации и автоматизации. Но что же будет, если мы обучим модель не через стандартные методы машинного обучения, а через GPT? Каков будет результат? Стоит ли это исследовать и браться за реализацию? Обо всем подробно в этой статье. Читать далее

#open_source #искусственный_интеллект #машинное_обучение #машинное_зрение #оптическое_распознавание #ocr_технологии #idp #ocr #обучение_нейронных_сетей | @habr_ai
Gaunt Sloth — Open Source AI CLI утилита

Прошло довольно много времени с тех пор, как я в последний раз что-либо публиковал на Хабре, около 10 лет или около того, и сегодня настал день, чтобы поделиться своим небольшим Open Source проектом.

Проект под названием Gaunt Sloth Assistant — это CLI-клиент для ИИ (AI), созданный на TypeScript (LangChain.js), распространяемый через npm и работающий в Linux, Windows и Mac. Пользователь полностью контролирует промпты, и рекомендуется формировать свои собственные системные промпты, но у него также есть и стандартный.

основные команды:

- Review PR 42 сверяя с требованиями из issue 12 gth pr 42 12

- Review local diff git --no-pager diff | gth review

- Interactive chat gth chat (filesystem read access)

- Interactive code gth code (filesystem write access) Читать далее

#open_source #искусственный_интеллект #cli #cross_platform | @habr_ai
Запускаем личный АИ-инфоконвейер: как я строю систему смыслового мониторинга с YAML и GPT

Мне приходится тратить много времени на мониторинг арбитража, госзакупок и других документов: PDF на сотни страниц, новости с «водой», RSS при этом отсутствует.

Поэтому я решил разработать open-source инструмент, который сам проверяет сайты, скачивает документы и с помощью локального ИИ (GPT4All / DeepSeek) делает краткую смысловую выжимку по YAML-шаблону.

Он должен работать как конвейер: источник → шаблон → интерпретация → результат. Локально, без облаков. И объединять всё в единую ленту новостей.

Сейчас я дорабатываю MVP — и я хочу понять, какие шаблоны наблюдения наиболее востребованы: законопроекты, торги, релизы, или что-то ещё? Читать далее

#ai #парсинг #llm #gpt4all #yaml #open_source #self_hosted #cli #automation #documents | @habr_ai
AI-генератор сайтов на ChatGPT и Next.js 15: Создаем SEO-оптимизированные страницы с нуля (аналог v0)

Представьте дизайн-агентство, которое создает не просто красивые макеты, а целые технологические экосистемы. Один раз вложившись в разработку уникальных компонентов и фирменного стиля, дизайнеры получают возможность генерировать профессиональные сайты со скоростью 50+ проектов в час.

На практике это сводится к простому циклу: вы отправляете промпт в ChatGPT, получаете в ответ конфигурационный файл, загружаете его в приложение и одной командой сборки создаёте готовые, стилизованные страницы. Всё это уже настроено в стартовом шаблоне, включая авторизацию и многоязычный AI-чат.

Или используйте полную автоматизацию так же как в v0, но с прицелом под крупные корпоративные интеграции. Читать далее

#next #chatgpt #ai #v0 #open_source #github #ai_generator | @habr_ai
Новости кибербезопасности за неделю с 21 по 27 июля 2025

Всё самое интересное из мира кибербезопасности /** с моими комментариями.

На этой неделе новости про милый вредонос для Linux, Америка рассказала о своих стратегических планах в ИИ, Британия запретила платить хакерам, Google занялась безопасностью open source и другие только самые важные и интересные новости из мира информационной безопасности. Читать далее

#информационная_безопасность #linux #open_source #wordpress #майнинг #искусственный_интеллект #google #вымогатели #кибербезопасность #кибератаки | @habr_ai
Как я улучшил свой промпт для генерации кода в OpenAI 4.1 — простой трюк, который РАБОТАЕТ

Несмотря на обилие моделей (а я время от времени использую четыре топовые), всё-таки на стыке моих технологий GPT-4.1 даёт лучший результат по сравнению с другими.

 ... я каждый раз сохраняю эти компоненты в файл Google Документы. И каждый раз при генерации новой функции или целого компонента я "вскармливаю" текст из этого документа именно в формате текста. В общем, эта штука работает хорошо.

Пожалуйста, объясни как ты понял мою проблему, почему я считаю что это важно, как ты собираешься это решать и что будет правильным решением. Читать далее

#nextjs #openaai #chatgpt #aifa #ai #open_source #github #react_js | @habr_ai
Пилим стартап, часть 2.5. Мини-гайд по Claude Code, причесываем UI

Да, я убрал из заголовка "за выходные", потому что проект чутка растянулся. Но идёт весело! У него и веб-версия теперь есть: https://mini.qyp.ai

Напомню: я давно хотел пощупать Tauri v2, и новомодные фреймворки для построения AI-агентов (ai-sdk / mastra / llamaindex).

Идея простая: десктопное приложение, дешборд на весь экран, справа интерфейс чата. Просим ИИ вывести на дешборд какую-то информацию в духе "сколько новых юзеров за последнюю неделю" - ИИ пишет код виджета, и размещает его на дешборде. Под капотом - runtime компиляция React.js + sql-коннекторы.

Полный open-source, весь код в репозитории: https://github.com/ElKornacio/qyp-mini Читать далее

#tauri #tailwind #typeorm #ai_agent #open_source | @habr_ai
Наше общение нам больше не принадлежит. Размышляю как ИИ создаст альтернативу для Telegram без VPN и прослушки

Интернет-свободы сжимаются как шагреневая кожа. То, что еще недавно было естественным правом - свободно общаться, - превращается в привилегию. А мессенджеры? Они давно перестали быть мессенджерами. Это социальные сети, замаскированные под простое общение.

Сижу, листаю новости, читаю очередное "заблокировали", "ограничили", "запретили". И думаю: блин, а только меня это раздражает?

Сегодня размышляю об искусственном интеллекте и вдруг понимаю: технологии уже готовы. Читать далее

#telegram #whatsapp #ai #vpn #chatg #open_source #next_js | @habr_ai
Вайб кодинг- обязательный навык, который нужен каждому

В эпоху стремительных технологических изменений владение традиционными языками программирования уже не единственный путь в IT. На смену им приходит вайбкодинг – подход, который позволяет создавать приложения, сайты и автоматизировать задачи буквально «на лету», используя только свою идею и конечно же ИИ. Читать далее

#cursor #kilo_code #ии #ии_ассистент #vibecoding #open_source #pet_project #pet_проекты | @habr_ai
AI-ассистенты для кодинга: сравнение инструментов

AI-редакторы и агенты становятся частью повседневной разработки. Но у каждого свои сильные и слабые стороны: где-то упор на автономность, где-то на глубокое понимание кода, а где-то на гибкость за счёт open source. Ниже — обзор самых заметных решений.

Я протестировал каждый из них и выявил плюсы и минусы каждого из решений. Читать далее

#ai_ide_для_программирования #лучшие_ai_кодовые_ассистенты_2025 #trae_vs_cursor_сравнение #open_source_ai_агент_для_кодинга #cline_roo_code_void_обзор #ai_автодополнение_кода_vs_code #windsurf_ide_ai_агент #geminicli_ai_код_через_терминал | @habr_ai
[Перевод] Неожиданный результат: ИИ замедляет опытных разработчиков

Мы провели рандомизированное контролируемое исследование (RCT), чтобы оценить, как инструменты искусственного интеллекта начала 2025 года влияют на продуктивность опытных open-source разработчиков, работающих в своих собственных репозиториях. Неожиданно оказалось, что при использовании ИИ-инструментов разработчики выполняют задачи на 19% дольше, чем без них — то есть ИИ замедляет их работу.

Мы рассматриваем этот результат как срез текущего уровня возможностей ИИ в одном из прикладных сценариев. Поскольку системы продолжают стремительно развиваться, мы планируем использовать аналогичную методологию в будущем, чтобы отслеживать, насколько ИИ способен ускорять работу в сфере автоматизации R&D[1].

Подробности — в полной версии статьи. Читать далее

#ai #ai_agent #ai_tools #benchmark #benchmarking #development #open_source #developer #ии #ии_помощник | @habr_ai
Воспроизводимый рейтинг: можно ли с помощью краудсорсинга предсказать выбор пользователей LLM?

Всем привет! Сегодня хотим поделиться историей нашего эксперимента, который начался с простого вопроса: а можно ли с помощью краудсорсинга воссоздать рейтинг нейросетей, который мы получаем от тысяч реальных пользователей на нашем сайте LLM Arena

Причём не в жёсткой парадигме «оцени по инструкции», а приближаясь к реальному user preference, когда пользователь выбирает то, что ему субъективно больше нравится.

TL/DR: 

* Мы можем за 3 дня воспроизвести пользовательский рейтинг LLM с точностью 90%+;

* У нас есть отобранная команда аннотаторов и автоматический фильтр качества;

* Мы научились фильтровать фрод и мусорные промпты лучше, чем стандартные крауд-платформы;;

* Теперь мы можем быстро тестировать новые модели и выдавать предрейтинг до массового запуска. Читать далее

#llm #llmarena #краудсорсинг #ии #ai #оценка_моделей #нейросети #machinelearning #ml #open_source | @habr_ai
ElizaOS v2: из мемного AI-фонда в полноценную систему для агентов

Помните ai16z, тот самый “хедж-фонд на ИИ” с отсылкой к Andreessen Horowitz? Так вот, из шутки он вырос в ElizaOS v2 — open-source фреймворк, который реально позволяет собирать автономных агентов.

Сегодня это уже не набор скриптов, а полноценная операционная система для цифровых компаньонов: с собственной памятью, мозгом (LLM) и возможностью работать напрямую с Web3 и внешними сервисами. Короче, из бот-игрушки он превратился в инструмент для серьёзных автономных агентов в Web3. В этой статье я разберу архитектуру ElizaOS v2, покажу ключевые компоненты и объясню, зачем она нужна нам, разработчикам. Читать далее

#elizaos #ai_агент #автономные_агенты #искусственный_интеллект #машинное_обучение #блокчейн #web3 #децентрализация #open_source | @habr_ai