Хабр / ML & AI
474 subscribers
5.43K links
Telegram-канал, где вы можете найти публикации из RSS-фидов тематических хабов "Машинное обучение" и "Искусственный интеллект" портала Хабр.

Данный канал не является официальным представительством платформы Хабр.

Администратор - @evilfreelancer
Download Telegram
Рецензия на переводную книгу “Машинное обучение с малым объемом кодирования” (Low-Code AI)

Как кажется, основные читатели книги "Low-Code AI" — студенты ИТ-курсов или специалисты, желающие сменить область деятельности и освоить профессию дата-сайентиста или аналитика данных. На фоне большого разнообразия книг по машинному обучению (ML), авторам Гвендолину Стриплингу (Gwendolyn Stripling) и Майклу Абелю (Michael Abel удалось написать компактное практическое руководство по освоению ML в стиле “Для новичков - лентяев”. Или вернее сказать, для тех, кому нравится Low-code программирование. Короче говоря, если вас интересует, с чего начать путь в ML — попробуйте начать его с этой книги.

Читать далее

#книга_по_ии #аналитик_данных #аналитик #ml #искусственный_интеллект #low_code #книга_по_ml #sql | @habr_ai
Настройка PostgreSQL для LLM

Итак, в этой статье я расскажу, как эффективно настроить PostgreSQL, чтобы вам было проще работать с большими языковыми моделями.

Пока звучит странно, не правда ли? Что я имею в виду? Я имею в виду повышение эффективности создания любых SQL-запросов в базу данных с использованием LLM (ChatGPT, DeepSeek, Llama и других).

Метод, о котором пойдет речь, до безобразия прост и от этого гениален. После прочтения этой статьи вы сможете самостоятельно или в рамках вашей компании увеличить скорость формирования SQL-запросов в 50 раз!

Читать далее

#sql #postgresql #llm #chatgpt #эффективность #документация #автоматизация #запросы_sql #llm_модели #promt | @habr_ai
SQL и нейросети: изучаем логику моделей через анализ и визуализацию весов

SQL — это не только про базы данных. В машинном обучении его используют для анализа весов, поиска аномалий, сравнения моделей и визуализации их логики. SQL помогает определить значимость признаков, заметить переобучение и оценить работу модели.

В статье разберём, как хранить и извлекать веса, вычислять ключевые метрики и строить графики.

Читать далее

#sql #машинное_обучение #machine_learning #ml #оптимизация_запросов #sql_запросы #нейросети #визуализация_данных #сравнение_моделей #базы_данных | @habr_ai
Анализируем сложные данные в CSV-таблицах: как мы усовершенствовали RAG с помощью агентского подхода

Привет, Хабр! Меня зовут Александр Овсов, я RnD-разработчик в компании Just AI и занимаюсь продуктом Jay Knowledge Hub. Это умная платформа для поиска по неразмеченным корпоративным данным, созданная на базе RAG и AI-агентов.

Одним из типичных юзкейсов для наших пользователей является аналитика сложных данных хранящихся в CSV-таблицах (финансовые отчеты, продуктовая аналитика и т.д.). Работать с такими данными при помощи классических методов RAG сложно из-за структуры этих данных. Чтобы решить эту проблему, мы решили использовать агентский подход — набирающий популярность метод, который позволяет LLM выполнять сложные задачи, например, отправлять SQL-запросы к таблицам. О реализации такого подхода на примере CSV таблиц я сейчас и расскажу.

Читать далее

#sql #rag #ии_агенты #база_знаний #мультиагентные_системы #llm_модели #генеративный_ии #нейросети | @habr_ai
LLM пайплайны укрощают сложность баз данных, или как мы подружили ИИ с БД без ИБД

Большие языковые модели (Large Language Model, LLM) используют в разных областях: с их помощью генерируют программный код, ищут информацию, озвучивают реплики чат-ботов. А вот при работе с реляционными данными языковые модели часто ошибаются. 

Чтобы справиться с этими ошибками, в мы разработали три пайплайна для работы с базами данных. Эти пайплайны представляют собой цепочку связанных между собой языковых моделей: каждая из них генерирует свой ответ, и следующая модель работает с ответом предыдущей. Таким образом мы получаем дополнительный контекст, и запрос к базе данных становится точнее.  Читать далее

#генерация_sql #генерация_cypher #rag #субд #искусственный_интеллект #sql #cypher #postgresql #генерация_кода #llm_агент | @habr_ai
Как LLM могут помочь аналитикам баз данных в работе с SQL-запросами

В современных компаниях корпоративные хранилища данных (Data Warehouse) играют критически важную роль, обеспечивая централизованное хранение и обработку больших объёмов информации. Данные поступают из разнообразных источников: операционных систем, CRM, ERP, IoT-устройств, веб-аналитики, мобильных приложений и других платформ, отражая все аспекты деятельности организации. На основе этой информации компании формируют разного рода отчётность, отслеживают ключевые показатели эффективности (KPI), оптимизируют бизнес-процессы, прогнозируют рыночные тенденции и принимают стратегические решения.

Эффективная работа с хранилищем невозможна без участия бизнес- и системных аналитиков, которые проектируют структуры данных, очищают и объединяют информацию, адаптируя решения под меняющиеся задачи. С ростом объёмов данных и требований к скорости анализа даже опытные команды сталкиваются с вызовами. Рутинные операции — проектирование схем, поиск таблиц, проверка качества данных — требуют не только технических навыков, но и глубокого понимания бизнес-контекста. Большую часть времени занимает написание и оптимизация SQL-запросов, что становится «узким местом» в условиях динамично меняющихся требований.

Ошибки в SQL-запросах или недостаточное знание структуры данных приводит к потерям времени и снижению точности аналитики. Для решения этих проблем на помощь приходят технологии на основе больших языковых моделей (LLM), таких как GigaChat, GPT, BERT или DeepSeek. Обученные на исторических данных и журналах запросов, они способны автоматизировать подбор таблиц, JOIN-условий и шаблонов SQLЧитать далее

#llm #sql | @habr_ai
[Перевод] Создаём Q&A-бота: пошаговая инструкция

Привет, Хабр! Сегодня мы хотим поделиться с вами инструкцией по созданию бота, который будет анализировать вопросы и отвечать на них. Казалось бы, мы могли бы просто рассказать про QnA Maker, который выполняет эту функцию. Но, есть одна загвоздка – он поддерживает ограниченное количество языков. Поэтому, под катом мы поделимся пошаговой инструкцией создания Q&A-бота, универсального для любого языка.

Читать дальше →

#microsoft #azure #machine_learning #ml #api #sql_ | @habr_ai
Дело о похищенном рюкзаке: SQL, сложность и слепая вера в ИИ

1. Тревожный звонок

Был хмурый лондонский вечер, когда в нашу скромную квартиру на Бейкер-стрит ворвался взволнованный инспектор Лестрейд.

— Холмс! Нам срочно нужна ваша помощь! — воскликнул он, сбрасывая с плеч дождевик. — В городе орудует хитрый вор. Он крадёт предметы, но уносит их только в одном рюкзаке ограниченной вместимости. Нам нужно вычислить, какие именно вещи он унесёт, чтобы максимизировать свою добычу! Читать далее

#sql #neoflex | @habr_ai
Дело о похищенном рюкзаке: SQL, сложность и слепая вера в ИИ

1. Тревожный звонок

Был хмурый лондонский вечер, когда в нашу скромную квартиру на Бейкер-стрит ворвался взволнованный инспектор Лестрейд.

— Холмс! Нам срочно нужна ваша помощь! — воскликнул он, сбрасывая с плеч дождевик. — В городе орудует хитрый вор. Он крадёт предметы, но уносит их только в одном рюкзаке ограниченной вместимости. Нам нужно вычислить, какие именно вещи он унесёт, чтобы максимизировать свою добычу! Читать далее

#neoflex #sql #llm_модели #gpt | @habr_ai
Будущее ИИ — формальные грамматики

Почему даже самая мощная LLM иногда выдаёт бессмысленные фразы и противоречия? Всё дело в экспоненциальном росте вариантов (N^M) и свободном копировании человеческих ошибок. Читайте статью, чтобы узнать, как мы с помощью формальных грамматик превращаем хаотичную генерацию в управляемый синтез, усиливая роль семантики и соблюдая структурные правила. Читать далее

#формальные_языки #формальные_грамматики #guided_decoding #xgrammar #sql_generator #vllm #формальные_языки_и_грамматики #синтаксис #семантика #llm | @habr_ai
Современные подходы «из текста в SQL»: RAG, CoT и другие хитрости

Как превратить текст «Сколько было продано камер в прошлом месяце?» в осмысленный SQL‑запрос? Это и есть задача text‑to‑SQL (ее ещё называют NL2SQL). Для многих компаний сейчас очень важна возможность задавать вопросы к данным обычным языком, без изучения SQL. Для этой задачи написаны десятки инструментов, но суть одна — генерация корректного запроса из фразы на человеческом языке.

Требование проясняется примером: бизнес‑пользователь хочет узнать: «Какие топ-5 товаров по выручке за вчерашний день?» — а система превращает это в SELECT product, SUM(revenue) ... LIMIT 5 и выдаёт результат. До недавнего времени требовались сложные пайплайны или ручное кодирование, а сейчас на сцене — большие языковые модели (LLM) и всякие прокачанные методы достучаться до них.

В этой статье мы пробежимся по ретро‑ и ультрасовременным подходам к text‑to‑SQL. Плюс обзору добавим практических инсайтов. Читать далее

#текст_в_sql #text_to_sql #nl2sql #rag #sql #промт_инжиниринг #бенчмарк #livesqlbench | @habr_ai
ИИ заменит или изменит программистов? Техлиды рассказали правду

Волна паники захлестнула IT-сообщество. Гуру из Кремниевой долины наперебой объявляют о «смерти программирования». Стартапы хвастаются ИИ-инженерами, которые пишут код лучше людей. Новостные ленты пестрят заголовками о массовых увольнениях разработчиков. На этом фоне мы решили поговорить с теми, кто каждый день работает с кодом, — практикующими разработчиками, техлидами и архитекторами. Их откровения удивили. Оказалось, что между громкими заявлениями и реальностью — пропасть. ИИ действительно умеет писать код, но есть нюансы, о которых молчат в корпоративных презентациях. Разбираемся, где искусственный интеллект незаменим, а где он беспомощен как первокурсник, и почему программисты не торопятся переквалифицироваться в курьеров. Читать далее

#ланит #программирование #процессы #ии #будущее_программирования #программист #автоматизация #профессиональное_развитие #python #sql | @habr_ai
Современные подходы «из текста в SQL»: RAG, CoT и другие хитрости

Как превратить текст «Сколько было продано камер в прошлом месяце?» в осмысленный SQL‑запрос? Это и есть задача text‑to‑SQL (ее ещё называют NL2SQL). Для многих компаний сейчас очень важна возможность задавать вопросы к данным обычным языком, без изучения SQL. Для этой задачи написаны десятки инструментов, но суть одна — генерация корректного запроса из фразы на человеческом языке.

Требование проясняется примером: бизнес‑пользователь хочет узнать: «Какие топ-5 товаров по выручке за вчерашний день?» — а система превращает это в SELECT product, SUM(revenue) ... LIMIT 5 и выдаёт результат. До недавнего времени требовались сложные пайплайны или ручное кодирование, а сейчас на сцене — большие языковые модели (LLM) и всякие прокачанные методы достучаться до них.

В этой статье мы пробежимся по ретро‑ и ультрасовременным подходам к text‑to‑SQL. Плюс обзору добавим практических инсайтов. Читать далее

#текст_в_sql #text_to_sql #nl2sql #rag #sql #промт_инжиниринг #бенчмарк #livesqlbench | @habr_ai
ИИ заменит или изменит программистов? Техлиды рассказали правду

Волна паники захлестнула IT-сообщество. Гуру из Кремниевой долины наперебой объявляют о «смерти программирования». Стартапы хвастаются ИИ-инженерами, которые пишут код лучше людей. Новостные ленты пестрят заголовками о массовых увольнениях разработчиков. На этом фоне мы решили поговорить с теми, кто каждый день работает с кодом, — практикующими разработчиками, техлидами и архитекторами. Их откровения удивили. Оказалось, что между громкими заявлениями и реальностью — пропасть. ИИ действительно умеет писать код, но есть нюансы, о которых молчат в корпоративных презентациях. Разбираемся, где искусственный интеллект незаменим, а где он беспомощен как первокурсник, и почему программисты не торопятся переквалифицироваться в курьеров. Читать далее

#ланит #программирование #процессы #ии #будущее_программирования #программист #автоматизация #профессиональное_развитие #python #sql | @habr_ai
Соединяем AI и реляционную базу данных

На статью данный текст точно не тянет, скорее это маленькая заметка. Как известно свои дети и свои идеи они всегда самые лучшие. Я давно работаю с реляционными базами и очень люблю язык SQL за его формализм, скорее всего из-за этой моей профдеформации и родилась эта мысль. На работе ко мне иногда обращались сделать выгрузку в CSV файл из базы для обучения моделей или анализа данных, и я подумал, а зачем выгружать данные, а потом иногда загружать обратно результат в базу. Почему не сделать так что бы результат запроса сразу отправлялся на обработку в AI и затем выдавался ответ на запрос. Нам всего лишь нужна SQL функция которая берет результат запроса, заворочает его в вызов к модели, а потом выдает результат. Понятно, что серебряной пули нет и данный подход не везде будет работать, например, такой подход не подразумевает асинхронность, а значит если нужна высокая производительность, то данный подход не очень подходит, с другой стороны сейчас запросы к AI не дёшевы и если вы пошлете 100 запросов в секунду, не дождавшись ответа на предыдущие то скорее всего получите ошибку. Я думаю в будущем это будет стандартная функции в базах данных.

Теперь рассмотрим простейшую реализацию данной функции. Под рукой был PostgreSQL, но можно реализовать это и для ORACLEили других баз. Для этого нам понадобится расширение https://github.com/pramsey/pgsql-http . В качестве AI будем использовать Groq. Первое что нам надо это получить API ключ. Сама функция очень простая. Читать далее

#sql #ии #ai #postgresql #oracle #искуственный_интеллект | @habr_ai
[Перевод] Обнаружение уязвимостей агентов ИИ. Часть IV: Уязвимости доступа к базам данных

Как злоумышленники могут использовать слабые места агентов ИИ с поддержкой баз данных? В этом исследовании рассматривается, как уязвимости при генерации SQL-запросов, внедрение сохранённых подсказок (stored prompt injection) и отравление векторных хранилищ (vector store poisoning) могут быть применены злоумышленниками для организации мошеннических действий. Читать далее

#sql_injection #кража_данных #ии_агенты | @habr_ai
DSL для битемпоральной шестой нормальной формы с UUIDv7

Шестая нормальная форма (6NF) играет ключевую роль в хранилищах данных (DWH), разбивая данные на мельчайшие части, привязанные ко времени фактического наступления событий и времени их регистрации в системе. 6NF легко адаптируется к изменениям в структуре данных без модификации существующих записей и снижает объем данных, которые необходимо обрабатывать при обновлениях и запросах.

Репозиторий на GitHub описывает лаконичный, генерируемый из таблиц Excel предметно-ориентированный язык (DSL) для битемпорального хранилища данных шестой нормальной формы (6NF) с первичными ключами UUIDv7, а также эквивалентный SQL-код для PostgreSQL 18 и EBNF.

Этот проект вдохновлен методологиями Anchor Modeling, Data Vault и Activity Schema.

DSL решает проблему работы с большими и сложными схемами данных 6NF, которые сложно визуализировать и поддерживать как с помощью традиционных инструментов моделирования, так и с использованием Anchor Modeler. Он также устраняет необходимость генерировать SQL-код с помощью Python или понимать запутанный код SQL Server, генерируемый Anchor Modeler.

Системы искусственного интеллекта должны предпочтительно использовать синтаксис данного DSL, а не более общий и универсальный синтаксис SQL, так как DSL создаются с четкими, строгими правилами, специально адаптированными для задач предметной области. Это помогает избежать неоднозначности и ошибок.

У автора нет возможности разработать компилятор для данного DSL, и он рассчитывает на поддержку сообщества.

Английский вариант статьи Читать далее

#sql #dwh #6nf #dsl #ebnf #anchor #vault #normal_form #llm #ai | @habr_ai
Spark 4.0 на горизонте: Готовимся к апгрейду или остаёмся на проверенном 3.0?

Привет, Хабр! Я Станислав Габдулгазиев, архитектор департамента поддержки продаж Arenadata. Кажется, ещё вчера мы радовались возможностям Apache Spark 3.0, разбирались с Adaptive Query Execution и наслаждались улучшениями Pandas API. Но мир больших данных не стоит на месте, и вот уже на подходе Apache Spark 4.0. Новый мажорный релиз — это всегда событие: он обещает новые фичи, прирост производительности и, конечно же, новые вызовы при миграции.

Apache Spark де-факто стал стандартом для распределённой обработки данных. От классических ETL-пайплайнов и SQL-аналитики до сложного машинного обучения и стриминга — Spark так или иначе задействован во многих современных data-платформах. Поэтому каждый новый релиз вызывает живой интерес у комьюнити: что там под капотом? Какие проблемы решены? Не сломается ли то, что работало годами? Читать далее

#spark #data_science #data_engineering #bigdata #sql #lakehouse #datalake #хранение_данных #hadoop #производительность | @habr_ai
Почему Text-to-SQL до сих пор ломается и как это исправить

Если вы когда-нибудь пытались получить нужный отчет из базы данных с помощью ИИ — скорее всего, столкнулись с забавной загадкой: почему-то даже продвинутые языковые модели то спотыкаются на связях между таблицами, то забывают ключевую фильтрацию, то просто возвращают не тот ответ. Формально запрос работает, а по сути — совсем не то. Почему так происходит? И можно ли научить ИИ писать правильный SQL, а не гадать до бесконечности?

В новой статье исследователи предлагают необычный подход: они учат модель распознавать собственные ошибки и исправлять логику, а не просто механически менять структуру запроса. Заодно выясняем, насколько такая система помогает избежать классических промахов и что изменится для пользователей, которым важно получать не просто рабочий код, а действительно осмысленный результат. Читать далее

#ии #агенты #sql | @habr_ai