Хабр / ML & AI
478 subscribers
5.46K links
Telegram-канал, где вы можете найти публикации из RSS-фидов тематических хабов "Машинное обучение" и "Искусственный интеллект" портала Хабр.

Данный канал не является официальным представительством платформы Хабр.

Администратор - @evilfreelancer
Download Telegram
15 примеров применения Natural Language Processing

Машинное обучение — это технология искусственного интеллекта, используемая для распознавания закономерностей, обучения на основе данных и принятия решений автоматически — без вмешательства человека. С другой стороны, обработка естественного языка (Natural Language Processing, NLP) — это форма ИИ, позволяющая машинам интерпретировать и понимать человеческий язык.

В этой статье мы попробуем разобраться с тем, как используется NLP для решения реальных задач и рассмотрим 15 примеров использования данной технологии и машинного обучения.

  Читать далее

#nlp #natural_language_processing #обработка_естественного_языка #машинное_обучение #bert #трансформеры #текстовая_классификация #анализ_текста #rnn | @habr_ai
Векторный кэш: делаем умные ответы еще быстрее

Сегодня чат-боты и интеллектуальные ассистенты широко применяются в различных сферах: поддержка клиентов, корпоративные системы, поисковые сервисы и во многих других.  Для их разработки часто используют архитектуру Retrieval-Augmented Generation (RAG), которая объединяет генерацию ответа с поиском данных во внешних источниках. Такой подход помогает ботам и ассистентам давать более точные и актуальные ответы. Но на практике оказывается, что RAG сталкивается с проблемой повторяющихся запросов, из-за которой система многократно выполняет одни и те же вычисления, повышая нагрузку и время отклика.

Всем привет! Меня зовут Вадим, я Data Scientist в компании Raft, и в этой статье мы разберемся, что такое векторный кэш и как его использовать. Давайте начнем! Читать далее

#rag #ai #redis #cache #оптимизация #поисковая_оптимизация #поисковые_системы | @habr_ai
Топ моделей для контента

В последние годы генеративные нейросети стали не просто трендом, а полноценным инструментом для создания контента. Текст, изображения, аудио и даже видео — всё это можно сгенерировать с помощью моделей искусственного интеллекта. При этом за каждым популярным сервисом стоит конкретная модель ИИ, от которой зависит качество, скорость в тех или иных задачах.

Выбор правильной модели — не самая простая задача. В огромном количестве открытых и закрытых решений легко запутаться: какие из них действительно работают, где их лучше использовать и на что обращать внимание. В этой статье мы собрали обзор наиболее интересных и полезных моделей для создания контента — от текстовых LLM до генерации изображений и мультимодальных систем. Читать далее

#ии #нейросети #создание_контента #контент #создание_изображений #создание_видео #модели_ии #midjourney #транскрибация | @habr_ai
Знает ли LLM то, что знаешь ты?

Представьте, что у вас есть друг, который идеально завершает ваши мысли. Вы говорите: «В детстве я любил...», а он тут же продолжает: «...играть в футбол и смотреть “Смешариков”». Совпадение? Или он вас слишком хорошо знает?

Теперь представьте, что этот “друг” — языковая модель вроде GPT-4, обученная на десятках терабайт текста. Вы даёте ей фразу — и она точно угадывает продолжение. Вопрос: она действительно видела это раньше или просто хорошо обучена угадывать?

Вот тут на сцену выходит Membership Inference Attack (MIA) — метод, который позволяет выяснить, был ли конкретный текст в тренировочном датасете модели. По сути, это способ заставить LLM проговориться: «Да, я это читала. Но никому не говори».

Раньше такие атаки были возможны только при доступе к логитам — вероятностям слов, которые модель "придумывает" на выходе. Но популярные модели вроде ChatGPT или Claude таких данных не раскрывают — вы получаете только текст.

Можно ли вытащить приватные данные, видя только текст, без логитов и без доступа к модели?

Спойлер: да, можно. И способ называется PETAL. Читать далее

#llm #nlp #машинное_обучение #python #итмо | @habr_ai
Новый биткоин для эпохи интеллекта

Пока несколько корпораций решают, каким будет наше будущее, ИИ-технологии превращается в инструмент контроля. Они владеют кодом, они владеют данными, они владеют прибылью.

Но что, если создать систему, где каждый ватт энергии и каждый байт данных работают на благо общества, а не на отдельных акционеров? Читать далее

#биткоин #справедливость #нейросети #ии | @habr_ai
Githab CLI и Github Actions на страже вайб кодинга с мобильными агентами Cursor

В этой статье, я расскажу, про опыт работы с агентами Cursor, github actions и великолепный Github Cli. Статья не претендует на истину и является частным практическим опытом.

Вступление

Лето. Время отпусков. Делать не фиг.

Можно залипать в рилсах или сериальчиках на пляже, но зачем, если можно создать что-то прикольное с мобильниого телефона, с помощью агентов. А конкретно, с помощью https://cursor.com/agents (стоит 20 баксов в месяц https://docs.cursor.com/account/pricing или 3к рублей в год, если немного поискать).

Итак, создаем репозиторий (В моем случае github.com/RobotAvi/MoneyGame) или берем готовый. Даем задачу агенту. Читать далее

#llm #cursor #агент #github #github_actions #github_cli | @habr_ai
1
Как писать промты для текстовых нейросетей и получить лучший результат?

Доброго времени суток, «Хабр»!

Всё больше людей начинают использовать нейросети не только для профессиональной деятельности, но и в повседневных задачах. Искусственный интеллект способен давать ответы даже на простейшие вопросы.

Однако мало кто задумывается о важности промтов, который состоит не просто из набор слов, а несет в себе точную инструкцию. От их формулировки зависит, насколько полезным и релевантным будет ответ. Нечёткий или расплывчатый запрос может привести к неточным или даже ошибочным результатам.

Мы должны помнить, что нейросеть — механизм, инструмент, которым надо правильно управлять, чтобы получать достойные результаты. Сегодня я расскажу вам, как правильно составлять промты для моделей, которые работают с текстом.

Открываем блокнот, готовимся к получению новой информации. Ну а я начинаю свое повествование.  Читать далее

#искусственный_интеллект #промт #deepseek #gemini #gpt #ии #grok #claude #ai #чат_бот | @habr_ai
Стартап за выходные: AI-агент для БД, часть 1

Ну кто не мечтает запустить стартап за одни выходные?

Давно хотел развеяться, и чутка отвлечься от рутины и работы.

А ещё давно хотел пощупать Tauri v2, и новомодные фреймворки для построения AI-агентов (ai-sdk / mastra / llamaindex.

Идея простая: десктопное приложение, внутри ИИ-агент, который подключается к БД, получает данные о структуре таблиц/вьюшек. Справа сайдбар: интерфейс чата с агентом, а основное пространство - холст, на котором агент размещает что хочет сам. А именно - виджеты, которые делают запросы к БД, и выводят их в приятном глазу виде.

Никакого удалённого бекенда, open-source, доступы к БД хранятся исключительно локально, всё секьюрно.

Так как весь код открытый, то процесс я буду логировать в репозитории: https://github.com/ElKornacio/qyp-mini Читать далее

#ai_agent #tauri #langchain #typescript | @habr_ai
Jules у меня дома… буквально

В последнее время тестил разные инструменты для вайб-кодинга и зашёл на Jules чисто дать ему очередную задачку. Jules выполняет все операции в изолированном окружении. Он клонирует ваш github-репозиторий, выполняет ваши просьбы, редактирует файлы, формирует коммиты и публикует в ваш репозиторий pull request с выполненной задачей. Если задача простая, то Jules прекрасно подойдёт, чтобы решить её автономно. В этой статье расскажу про его бесплатный аналог agent zero. Пристёгивайтесь, будет жарко! Пристегнуться!

#agent_zero #ai #agent #agentic_ai #windows #openrouter | @habr_ai
Новости кибербезопасности за неделю с 21 по 27 июля 2025

Всё самое интересное из мира кибербезопасности /** с моими комментариями.

На этой неделе новости про милый вредонос для Linux, Америка рассказала о своих стратегических планах в ИИ, Британия запретила платить хакерам, Google занялась безопасностью open source и другие только самые важные и интересные новости из мира информационной безопасности. Читать далее

#информационная_безопасность #linux #open_source #wordpress #майнинг #искусственный_интеллект #google #вымогатели #кибербезопасность #кибератаки | @habr_ai
Эффективная перегрузка. Человек, которого не видит система

Мы привыкли думать, что перегрузка — это результат плохой настройки. Неоптимальные процессы, слабые инструменты, устаревшие системы. Поэтому каждый сбой мы встречаем с новой волной оптимизации. Перестраиваем, автоматизируем, сокращаем — чтобы стало легче. Но легче не становится.

Каждое улучшение ускоряет поток. Но в этом потоке остаётся одна переменная, которая почти никогда не входит в расчёты. Это сам человек — тот, кто проходит через интерфейсы, переключается между задачами, принимает решения. И тот, чьё восприятие оказывается вне внимания системы. Читать далее

#ux_архитектура #дизайн_внимания #перегрузка_восприятия | @habr_ai
Минификация кода для повышения эффективности LLM: влияние на лингвистику, генерацию и анализ программ

Большие языковые модели (LLM) становятся неотъемлемой частью инструментов генерации, анализа и автоматизации программирования. Их возможности позволяют автоматизировать разработку, искать ошибки, генерировать тесты, осуществлять перевод между языками программирования. Однако одно из ключевых ограничений – контекстное окно, то есть максимально возможная длина входных данных. С ростом объема современных программ эффективность работы LLM с длинным кодом становится всё более актуальной задачей, особенно учитывая вычислительные и финансовые издержки обработки длинных последовательностей.

Минификация кода – процесс сокращения программного текста до минимального, необходимого для сохранения семантики. Для современных LLM это уже не только техническая задача (как раньше для web-ресурсов), а способ оптимизации использования ресурсов, экономия токенов, увеличение объема анализируемого кода, ускорение анализа и генерации. В данной статье рассматривается современное состояние исследований по минификации в контексте LLM, формулируются гипотезы о её влиянии, а также обсуждаются перспективы для программной лингвистики. Читать далее

#минификация #llm #токены #контекстное_окно #экономия_ресурсов #лингвистика | @habr_ai
Стартап за выходные: AI-агент для БД, часть 2

Ну кто не мечтает запустить стартап за одни выходные?

Давно хотел развеяться, и чутка отвлечься от рутины и работы.

А ещё давно хотел пощупать Tauri v2, и новомодные фреймворки для построения AI-агентов (ai-sdk / mastra / llamaindex).

Идея простая: десктопное приложение, внутри ИИ-агент, который подключается к БД, получает данные о структуре таблиц/вьюшек. Справа сайдбар: интерфейс чата с агентом, а основное пространство - холст, на котором агент размещает что хочет сам. А именно - виджеты, которые делают запросы к БД, и выводят их в приятном глазу виде.

Никакого удалённого бекенда, open-source, доступы к БД хранятся исключительно локально, всё секьюрно.

Часть 2 - как мы в runtime React-компоненты компилировали. Читать далее

#ai_agent #tauri #typescript #mastra_ai | @habr_ai
Сатанизм попал под запрет, а Сидни Суини генетически поддержала акции производителя джинс

Самые интересные новости финансов и технологий в России и мире за неделю: в России хотят сделать вечный призыв в армию, опасные подарки в Телеграме, ЦБ снизил ставку до 18%, запрет на порно в UK, нейросети победили в олимпиаде по математике, китайская Unitree выпустила дешевого робота-трюкача за $6k, а также штрафы в России за оплату криптовалютой. Читать далее

#новости #новости_недели #новости_финансов #новости_технологий #дайджест | @habr_ai
1
Крах ИИ: Почему нейросети не пережили свою первую зиму

Привет, Хабр!

Искусственный интеллект сегодня у всех на слуху. Технологии развиваются стремительно: они меняют бизнес, творчество и повседневную жизнь. Но вместе с возможностями приходят и тревоги — многие боятся, что ИИ выйдет из-под контроля.

А что, если это уже происходило? Читать далее

#история_it #история #искусственный_интеллект #перцептрон #машинные_переводы | @habr_ai
Переизобретая аналитику будущего: как и почему LLM-агенты меняют анализ продуктов, но все не так просто

Привет! AI-агенты — самая горячая тема года и не просто так: это действительно мощная концепция, которая неизбежно заставляет пересматривать устоявшиеся подходы во многих сферах. Одна из самых интересных областей для агентов — аналитика и BI, и последние полгода я активно занимаюсь в том числе этим.

Адаптивные и налету подстраивающиеся под задачу дашборды, естественный язык вместо SQL, автономная работа для генерации и проверки гипотез, — все это очень интересно, но реальность всегда чуточку сложнее.

Обо всем этом и поговорим.

Давайте разбираться! Читать далее

#искусственный_интеллект #llm #llm_модели #агенты #агенты_ии #ui #языковые_модели #ml #аналитика #аналитик | @habr_ai
[Перевод] ML Q & AI. Глава 4. Гипотеза о лотерейном билете

Предыдущая глава

О чем говорит гипотеза о лотерейном билете, и чем она полезна на практике, если оказывается верной?

Гипотеза о лотерейном билете — это идея, которая появилась в 2018 году в контексте обучения нейронных сетей. Она утверждает, что в случайно инициализированной нейронной сети существует подсеть (или «выигрышный билет»), которая, если ее обучить независимо, сможет достичь такой же точности на тестовом датасете, как и полная сеть после такого же количества шагов обучения. Авторы гипотезы — Джонатан Франкл и Майкл Карбин.

В этой главе мы подробно рассмотрим гипотезу лотерейного билета. Сначала мы шаг за шагом разберемся, как она работает, а затем обсудим прунинг весов — один из ключевых методов, который позволяет создавать более компактные сети. Этот процесс является частью методологии, основанной на гипотезе лотерейного билета. В конце главы мы проанализируем практические применения и ограничения данной гипотезы. Читать далее

#перевод #машинное_обучение #нейросети #глубинное_обучение | @habr_ai
Как меняется рынок и зачем нужны конференции по Ai

Привет, Хабр! Меня зовут Роман Поборчий, я член программного комитета AiConf Х, которая пройдет 26 сентября 2025 в Москве. Много лет занимался сбором и организацией разметки данных для машинного обучения — и с каждым годом убеждаюсь, что реальность всегда сложнее любых представлений о ней. Поэтому и конференции, на которых можно обсудить практические кейсы, современные подходы и новые вызовы особенно ценны для индустрии. Читать далее

#конференция #ai #ии #ии_ассистенты #ai_агенты #качество_данных #data_quality #data_quality_management #геоданные #llm_модели | @habr_ai
AGI математически невозможен, но хайп уже не остановить

В мае 2025 года профессор университета Фаххохшуле (Австрия) Макс Шлерет опубликовал чёткое научное доказательство, что сильный ИИ логически и математически невозможен из-за фундаментального ограничения — барьера бесконечного выбора (Infinite Choice Barrier, ICB), экспоненциального роста энтропии при увеличении неопределённости.

Однако к доводам профессора никто не прислушался. Мир продолжает готовиться к «революционным переменам», которые почему-то преподносятся как неизбежные.

Большие изменения произойдут в трудовых ресурсах, энергопотреблении и финансовых капиталах. Это эффекты первого порядка. А потом якобы начнётся «фундаментальная трансформация мировой экономики», четвёртая промышленная революция. Читать далее

#ии #agi #сильный_ии #автоматизация #openai #механический_турок #llm #автономные_агенты #промышленная_революция | @habr_ai
[Перевод] Эволюция архитектур больших языковых моделей: от GPT-2 к современным решениям

Прошло семь лет с момента разработки оригинальной архитектуры GPT. На первый взгляд, если оглянуться на GPT-2 (2019) и взглянуть вперёд на DeepSeek-V3 и Llama 4 (2024–2025), можно удивиться, насколько эти модели по-прежнему структурно схожи.

Разумеется, позиционные эмбеддинги эволюционировали от абсолютных к роторационным (RoPE), Multi-Head Attention в значительной степени уступил место Grouped-Query Attention, а более эффективная SwiGLU заменила такие функции активации, как GELU. Но если отбросить эти незначительные усовершенствования, действительно ли мы наблюдаем принципиальные архитектурные сдвиги — или просто продолжаем полировать одни и те же фундаментальные конструкции?

Сравнение LLM между собой с целью выявления ключевых факторов, влияющих на их качество (или недостатки), по-прежнему остаётся крайне нетривиальной задачей: датасеты, методы обучения и гиперпараметры сильно различаются и зачастую плохо документированы.

Тем не менее, я считаю, что изучение именно архитектурных изменений остаётся ценным подходом, позволяющим понять, над чем работают разработчики LLM в 2025 году.  Читать далее

#llm #ai #ии #большие_языковые_модели #gpt #deepseek #gemma #mistral #llama #qwen | @habr_ai