Нейронные оптимизаторы запросов в реляционных БД (Часть 1)
В 1970-х годах известный программист Эдгар Кодд разработал математически выверенную теорию организации данных в виде таблиц (реляций). С тех пор утекло немало воды — появилось большое количество различных коммерческих и open-source реляционных систем управления базами данных (РСУБД). Скоро стало понятно, что эффективное получение данных из базы — задача далеко не тривиальная. Если говорить прямо, она нелинейная и в общем случае NP-сложная.
Когда SQL-запрос становится немного сложнее: SELECT * FROM table, у нас появляется огромная вариативность его исполнения внутри системы — и не всегда понятно, какой из возможных вариантов эффективнее как по памяти, так и по скорости. Чтобы сократить огромное количество вариантов до приемлемого, обычно используются так называемые эвристики — эмпирические правила, которые придуманы человеком для сокращения пространства поиска на несколько порядков. Понятное дело, эти правила могут отсечь и сам оптимальный план выполнения запроса, но позволяют получить хоть что-то приемлемое за адекватное время.
В последние годы в связи с активным развитием ML начали развиваться и нейронные оптимизаторы запросов —особенность которых в том, что они самостоятельно, без участия человека, находят необходимые закономерности в выполнении сложных планов исходя из обучения на огромном количестве данных. Тенденция началась приблизительно в 2017 году и продолжается до сих пор. Давайте посмотрим, что уже появилось в этой области в хронологическом порядке и какие перспективы нас ждут.
Читать далее
#postgresql #оптимизация #оптимизация_запросов #reinforcement_learning #машинное_обучение #нейросети #q_learning #deep_q_learning #оптимизация_плана #субд | @habr_ai
В 1970-х годах известный программист Эдгар Кодд разработал математически выверенную теорию организации данных в виде таблиц (реляций). С тех пор утекло немало воды — появилось большое количество различных коммерческих и open-source реляционных систем управления базами данных (РСУБД). Скоро стало понятно, что эффективное получение данных из базы — задача далеко не тривиальная. Если говорить прямо, она нелинейная и в общем случае NP-сложная.
Когда SQL-запрос становится немного сложнее: SELECT * FROM table, у нас появляется огромная вариативность его исполнения внутри системы — и не всегда понятно, какой из возможных вариантов эффективнее как по памяти, так и по скорости. Чтобы сократить огромное количество вариантов до приемлемого, обычно используются так называемые эвристики — эмпирические правила, которые придуманы человеком для сокращения пространства поиска на несколько порядков. Понятное дело, эти правила могут отсечь и сам оптимальный план выполнения запроса, но позволяют получить хоть что-то приемлемое за адекватное время.
В последние годы в связи с активным развитием ML начали развиваться и нейронные оптимизаторы запросов —особенность которых в том, что они самостоятельно, без участия человека, находят необходимые закономерности в выполнении сложных планов исходя из обучения на огромном количестве данных. Тенденция началась приблизительно в 2017 году и продолжается до сих пор. Давайте посмотрим, что уже появилось в этой области в хронологическом порядке и какие перспективы нас ждут.
Читать далее
#postgresql #оптимизация #оптимизация_запросов #reinforcement_learning #машинное_обучение #нейросети #q_learning #deep_q_learning #оптимизация_плана #субд | @habr_ai
Хабр
Нейронные оптимизаторы запросов в реляционных БД (Часть 1)
Введение В 1970-х годах известный программист Эдгар Кодд разработал математически выверенную теорию организации данных в виде таблиц (реляций). С тех пор утекло немало воды — появилось большое...
Linux, LogSpace, ML: как SIEM обретал новую технологичность
Помните, когда-то мы раскрыли неочевидную связь между гастритом… и системой выявления инцидентов? За это время MaxPatrol SIEM обновился 17 раз (не считая хотфиксов), перешагнул отметку в 650 инсталляций, включая географически распределенные, и приобрел множество новых фич. Я, Иван Прохоров, отвечаю за развитие этой SIEM-системы. Вместе с коллегой Романом Сергеевым, который трудится над архитектурой MaxPatrol SIEM и не только, мы решили, что пора — пора писать новую главу о разработке продукта.
Как удалось создать по-настоящему экспертную SIEM-систему и сделать ее более отзывчивой для аналитиков, заместить общедоступные технологии собственными (снизив при этом hardware footprint), сколько было подходов к снаряду и что получилось воплотить вопреки обстоятельствам — узнаете под катом.
Как изменился MaxPatrol SIEM?
#cybersecurity #siem #maxpatrol #development #linux #logspace #windows #net #разработка #postgresql | @habr_ai
Помните, когда-то мы раскрыли неочевидную связь между гастритом… и системой выявления инцидентов? За это время MaxPatrol SIEM обновился 17 раз (не считая хотфиксов), перешагнул отметку в 650 инсталляций, включая географически распределенные, и приобрел множество новых фич. Я, Иван Прохоров, отвечаю за развитие этой SIEM-системы. Вместе с коллегой Романом Сергеевым, который трудится над архитектурой MaxPatrol SIEM и не только, мы решили, что пора — пора писать новую главу о разработке продукта.
Как удалось создать по-настоящему экспертную SIEM-систему и сделать ее более отзывчивой для аналитиков, заместить общедоступные технологии собственными (снизив при этом hardware footprint), сколько было подходов к снаряду и что получилось воплотить вопреки обстоятельствам — узнаете под катом.
Как изменился MaxPatrol SIEM?
#cybersecurity #siem #maxpatrol #development #linux #logspace #windows #net #разработка #postgresql | @habr_ai
Хабр
Linux, LogSpace, ML: как SIEM обретал новую технологичность
Помните, когда-то мы раскрыли неочевидную связь между гастритом… и системой выявления инцидентов? За это время MaxPatrol SIEM обновился 17 раз (не считая хотфиксов), перешагнул отметку в 650...
Что ищет он в краю далёком? Как найти смысл жизни с PostgreSQL
Эта статья родилась из пары лекций, которые я прочитал студентам в рамках курса, посвященного вопросам машинного обучения. Почему именно PostgreSQL? Почему векторы? За последние два года тема языковых моделей стала невероятно популярной, и вместе с этим появилось множество инструментов, доступных даже начинающему инженеру, стремящемуся познакомиться с миром текстового анализа.
Доступность этих технологий открывает безграничные возможности для их применения в самых разных областях: от систем управления знаниями до «копилотов», помогающих более тщательно анализировать анамнез пациентов, или информационных киосков, позволяющих собрать идеальную корзину товаров для пикника.
Вряд ли данная работа может похвастаться полнотой или глубиной, однако, я надеюсь, что она предоставит те самые “хорошие” точки входа, которые позволят, погружаясь в детали, открыть для себя множество новых интересных и полезных тем для исследований и инженерных проектов. Откроем скрытые смыслы
#postgresql #postgres #pgvector #vectorization #fulltextsearch #fulltext_search #hnsw #python #java #knowledge_management_systems | @habr_ai
Эта статья родилась из пары лекций, которые я прочитал студентам в рамках курса, посвященного вопросам машинного обучения. Почему именно PostgreSQL? Почему векторы? За последние два года тема языковых моделей стала невероятно популярной, и вместе с этим появилось множество инструментов, доступных даже начинающему инженеру, стремящемуся познакомиться с миром текстового анализа.
Доступность этих технологий открывает безграничные возможности для их применения в самых разных областях: от систем управления знаниями до «копилотов», помогающих более тщательно анализировать анамнез пациентов, или информационных киосков, позволяющих собрать идеальную корзину товаров для пикника.
Вряд ли данная работа может похвастаться полнотой или глубиной, однако, я надеюсь, что она предоставит те самые “хорошие” точки входа, которые позволят, погружаясь в детали, открыть для себя множество новых интересных и полезных тем для исследований и инженерных проектов. Откроем скрытые смыслы
#postgresql #postgres #pgvector #vectorization #fulltextsearch #fulltext_search #hnsw #python #java #knowledge_management_systems | @habr_ai
Хабр
Что ищет он в краю далёком? Как найти смысл жизни с PostgreSQL
Аннотация Эта статья родилась из пары лекций, которые я прочитал студентам в рамках курса, посвященного вопросам машинного обучения. Почему именно PostgreSQL? Почему векторы? За последние два года...
Получение SQL для PostgreSQL из DAX на основе AI
Привет, Хабр! Популярным аналитическим языком является DAX, и он используется во множестве проектов. Соответственно, значительная часть бизнес-логики дашбордов реализована на DAX, и при переходе с Power BI на другой продукт требуется время на перевод DAX логики из Power BI. В связи с этим актуальны инструменты расширения списка платформ, на которых можно использовать DAX без Power BI.
Тем, кто интересуется «переводом» DAX на PostgreSQL — добро пожаловать под кат :) Читать далее
#dax #ai #sql #postgresql #дашборд #summarizecolumns | @habr_ai
Привет, Хабр! Популярным аналитическим языком является DAX, и он используется во множестве проектов. Соответственно, значительная часть бизнес-логики дашбордов реализована на DAX, и при переходе с Power BI на другой продукт требуется время на перевод DAX логики из Power BI. В связи с этим актуальны инструменты расширения списка платформ, на которых можно использовать DAX без Power BI.
Тем, кто интересуется «переводом» DAX на PostgreSQL — добро пожаловать под кат :) Читать далее
#dax #ai #sql #postgresql #дашборд #summarizecolumns | @habr_ai
Хабр
Получение SQL для PostgreSQL из DAX на основе AI
Привет, Хабр! Популярным аналитическим языком является DAX, и он используется во множестве проектов. Соответственно, значительная часть бизнес-логики дашбордов реализована на DAX, и при переходе с...
pg_auto_embeddings — считаем эмбеддинги для текста прямо в Postgres, без экстеншенов
У вас есть Postgres, где хранится множество текстовых данных. Вы хотите использовать векторные представления (embeddings), к примеру, от OpenAI, чтобы построить систему рекомендаций, улучшенный поиск или реализовать RAG для работы с LLM. Но при этом ставить расширения (extensions) не хочется, а может, и вовсе нельзя — например, в облачных Managed PostgreSQL зачастую нет нужных прав.
Под катом описание open-source решения pg_auto_embeddings, которое вам поможет.
Скорее под кат!
#эмбеддинги #rag #postgresql #postgres #embeddings #векторные_представления #ии | @habr_ai
У вас есть Postgres, где хранится множество текстовых данных. Вы хотите использовать векторные представления (embeddings), к примеру, от OpenAI, чтобы построить систему рекомендаций, улучшенный поиск или реализовать RAG для работы с LLM. Но при этом ставить расширения (extensions) не хочется, а может, и вовсе нельзя — например, в облачных Managed PostgreSQL зачастую нет нужных прав.
Под катом описание open-source решения pg_auto_embeddings, которое вам поможет.
Скорее под кат!
#эмбеддинги #rag #postgresql #postgres #embeddings #векторные_представления #ии | @habr_ai
Хабр
pg_auto_embeddings — считаем эмбеддинги для текста прямо в Postgres, без экстеншенов
У вас есть PostgreSQL база, где хранится множество текстовых данных. Вы хотите использовать векторные представления (embeddings), к примеру, от OpenAI/Anthropic, чтобы построить систему рекомендаций,...
Выполнение DAX запроса AI DAX движка в СУБД на примере PostgreSQL
Привет, Хабр! DAX является мощным аналитическим языком запросов и активно используется во множестве проектов. Кроме того, на текущем уровне развития AI он способен условно в режиме реального времени преобразовать DAX запросы в запросы одной из СУБД, например, PostgreSQL, но, конечно, с рядом ограничений на сложность DAX запроса, схему данных и т.д. В связи с этим может быть актуальным вопрос, реально ли использовать «AI DAX движок» в сочетании с выполнением SQL запросов, сгенерированных этим движком, в одной из СУБД, т.е. выполнить DAX без Power BI на PostgreSQL источнике? Интересующимся возможностями DAX AI на примере PostgreSQL — добро пожаловать под кат :)
Читать далее
#dax #ai #sql #postgresql #дашборд #summarizecolumns | @habr_ai
Привет, Хабр! DAX является мощным аналитическим языком запросов и активно используется во множестве проектов. Кроме того, на текущем уровне развития AI он способен условно в режиме реального времени преобразовать DAX запросы в запросы одной из СУБД, например, PostgreSQL, но, конечно, с рядом ограничений на сложность DAX запроса, схему данных и т.д. В связи с этим может быть актуальным вопрос, реально ли использовать «AI DAX движок» в сочетании с выполнением SQL запросов, сгенерированных этим движком, в одной из СУБД, т.е. выполнить DAX без Power BI на PostgreSQL источнике? Интересующимся возможностями DAX AI на примере PostgreSQL — добро пожаловать под кат :)
Читать далее
#dax #ai #sql #postgresql #дашборд #summarizecolumns | @habr_ai
Хабр
Выполнение DAX запроса AI DAX движка в СУБД на примере PostgreSQL
Привет, Хабр! DAX является мощным аналитическим языком запросов и активно используется во множестве проектов. Кроме того, на текущем уровне развития AI он способен условно в режиме реального времени...
Разворачиваем Langfuse в Kubernetes: open-source альтернатива Langsmith
Привет, Хабр! Меня зовут Арсений @kazars24, я студент 2 курса магистратуры [AI] Talent Hub и ML инженер в компании Вита. Последнее время я активно занимаюсь разработкой LLM-приложений, и в процессе работы столкнулся с необходимостью их мониторинга. После долгих поисков и экспериментов я нашел отличное решение — Langfuse, о котором сегодня и поговорим. Читать далее
#langfuse #kubernetes #llm_приложения #мониторинг_приложений #postgresql #open_source #machine_learning | @habr_ai
Привет, Хабр! Меня зовут Арсений @kazars24, я студент 2 курса магистратуры [AI] Talent Hub и ML инженер в компании Вита. Последнее время я активно занимаюсь разработкой LLM-приложений, и в процессе работы столкнулся с необходимостью их мониторинга. После долгих поисков и экспериментов я нашел отличное решение — Langfuse, о котором сегодня и поговорим. Читать далее
#langfuse #kubernetes #llm_приложения #мониторинг_приложений #postgresql #open_source #machine_learning | @habr_ai
Рынок труда ML-специалистов в 2025 году: востребованные навыки и карьерные треки
В одном из недавних интервью Марк Цукерберг заявил, что к 2025 году искусственный интеллект (ИИ) сможет выполнять большинство задач Middle-разработчиков в Meta (запрещенная в РФ организация). По словам Цукерберга, ИИ уже помогает писать код и постепенно забирает на себя простые инженерные задачи, но хорошие Middle-инженеры все еще будут нужны. Правда при условии, что они будут осваивать новые востребованные технологии.
С учетом влияния компании на технологическую повестку во всем мире заявление звучит серьезно: крупные игроки индустрии уже сейчас диктуют направление, в котором будет развиваться рынок труда в связи с масштабированием ИИ — это автоматизация большей части функций и появление новых. В таких условиях многим специалистам придется адаптироваться и прокачивать навыки, чтобы оставаться востребованными на рынке.
Читать далее
#машинное_обучение #ml_инженер #ai_talent_hub #mlops #разработка_веб_сервисов #рынок_труда_it #pytorch #scikit_learn #apache_airflow #postgresql | @habr_ai
В одном из недавних интервью Марк Цукерберг заявил, что к 2025 году искусственный интеллект (ИИ) сможет выполнять большинство задач Middle-разработчиков в Meta (запрещенная в РФ организация). По словам Цукерберга, ИИ уже помогает писать код и постепенно забирает на себя простые инженерные задачи, но хорошие Middle-инженеры все еще будут нужны. Правда при условии, что они будут осваивать новые востребованные технологии.
С учетом влияния компании на технологическую повестку во всем мире заявление звучит серьезно: крупные игроки индустрии уже сейчас диктуют направление, в котором будет развиваться рынок труда в связи с масштабированием ИИ — это автоматизация большей части функций и появление новых. В таких условиях многим специалистам придется адаптироваться и прокачивать навыки, чтобы оставаться востребованными на рынке.
Читать далее
#машинное_обучение #ml_инженер #ai_talent_hub #mlops #разработка_веб_сервисов #рынок_труда_it #pytorch #scikit_learn #apache_airflow #postgresql | @habr_ai
Настройка PostgreSQL для LLM
Итак, в этой статье я расскажу, как эффективно настроить PostgreSQL, чтобы вам было проще работать с большими языковыми моделями.
Пока звучит странно, не правда ли? Что я имею в виду? Я имею в виду повышение эффективности создания любых SQL-запросов в базу данных с использованием LLM (ChatGPT, DeepSeek, Llama и других).
Метод, о котором пойдет речь, до безобразия прост и от этого гениален. После прочтения этой статьи вы сможете самостоятельно или в рамках вашей компании увеличить скорость формирования SQL-запросов в 50 раз!
Читать далее
#sql #postgresql #llm #chatgpt #эффективность #документация #автоматизация #запросы_sql #llm_модели #promt | @habr_ai
Итак, в этой статье я расскажу, как эффективно настроить PostgreSQL, чтобы вам было проще работать с большими языковыми моделями.
Пока звучит странно, не правда ли? Что я имею в виду? Я имею в виду повышение эффективности создания любых SQL-запросов в базу данных с использованием LLM (ChatGPT, DeepSeek, Llama и других).
Метод, о котором пойдет речь, до безобразия прост и от этого гениален. После прочтения этой статьи вы сможете самостоятельно или в рамках вашей компании увеличить скорость формирования SQL-запросов в 50 раз!
Читать далее
#sql #postgresql #llm #chatgpt #эффективность #документация #автоматизация #запросы_sql #llm_модели #promt | @habr_ai
Хабр
Настройка PostgreSQL для LLM
Итак, в этой статье я расскажу, как эффективно настроить PostgreSQL, чтобы вам было проще работать с большими языковыми моделями. Пока звучит странно, не правда ли? Что я имею в виду? Я имею в виду...
Геопространственная обработка признаков
Привет, я Александр Мещеряков, более 3-х лет работаю в компании «Синимекс» специалистом по анализу данных. Мне удалось поработать с различными ML-проектами, и больше всего меня увлекла работа с геоданными. Для многих эта тема кажется немного «магией» и я хотел бы на страницах Хабра пролить на нее немного света.
Эта статья — как шпаргалка для шеф-повара: берите готовые рецепты под ваши задачи. Здесь вы найдёте ключевые библиотеки (geopandas, h3-py) и принципы работы с геоданными — от парсинга OpenStreetMap до агрегации по шестиугольникам.
Читать далее
#геоданные #feature_engineering #python #postgresql #postgis #data_science #анализ_данных | @habr_ai
Привет, я Александр Мещеряков, более 3-х лет работаю в компании «Синимекс» специалистом по анализу данных. Мне удалось поработать с различными ML-проектами, и больше всего меня увлекла работа с геоданными. Для многих эта тема кажется немного «магией» и я хотел бы на страницах Хабра пролить на нее немного света.
Эта статья — как шпаргалка для шеф-повара: берите готовые рецепты под ваши задачи. Здесь вы найдёте ключевые библиотеки (geopandas, h3-py) и принципы работы с геоданными — от парсинга OpenStreetMap до агрегации по шестиугольникам.
Читать далее
#геоданные #feature_engineering #python #postgresql #postgis #data_science #анализ_данных | @habr_ai
Хабр
Обработка геоданных для ML-задач. Часть 1
Привет, я Александр Мещеряков, более 3-х лет работаю в компании «Синимекс» специалистом по анализу данных. Мне удалось поработать с различными ML-проектами, и больше всего меня увлекла работа с...
Переход из Oracle в Postgre Pro: не просто смена СУБД, а сдвиг подхода. Интервью с Марком Ривкиным
Давно не было обстоятельных интервью, тем более с таким корифеем отечественной СУБД‑разработки. В 2022 году в Postgres Professional перешла команда специалистов по Oracle, включая Марка Ривкина, который занял позицию руководителя отдела технического консалтинга. Вместе с командой он занялся адаптацией продуктов под требования крупных корпоративных заказчиков и доработкой функциональности Postgres Pro — в первую очередь для тех, кто планирует миграцию с проприетарных СУБД.
В интервью для «Хабра» Марк рассказал, с какими задачами столкнулись на старте, какие функции пришлось внедрять в первую очередь, как выстроена работа с разработкой и сообществом, и в чём сегодня Postgres Pro реально может заменить Oracle, а где пока нет. Поговорили и про ИИ в администрировании, и про перспективы российских форков PostgreSQL, и даже — что бы он заложил в архитектуру, если бы проектировал СУБД с нуля. Приятного чтения! Читать далее
#марк_ривкин #субд #oracle #oracle_database #postgres_professional #postgresql #postgres_pro | @habr_ai
Давно не было обстоятельных интервью, тем более с таким корифеем отечественной СУБД‑разработки. В 2022 году в Postgres Professional перешла команда специалистов по Oracle, включая Марка Ривкина, который занял позицию руководителя отдела технического консалтинга. Вместе с командой он занялся адаптацией продуктов под требования крупных корпоративных заказчиков и доработкой функциональности Postgres Pro — в первую очередь для тех, кто планирует миграцию с проприетарных СУБД.
В интервью для «Хабра» Марк рассказал, с какими задачами столкнулись на старте, какие функции пришлось внедрять в первую очередь, как выстроена работа с разработкой и сообществом, и в чём сегодня Postgres Pro реально может заменить Oracle, а где пока нет. Поговорили и про ИИ в администрировании, и про перспективы российских форков PostgreSQL, и даже — что бы он заложил в архитектуру, если бы проектировал СУБД с нуля. Приятного чтения! Читать далее
#марк_ривкин #субд #oracle #oracle_database #postgres_professional #postgresql #postgres_pro | @habr_ai
Хабр
Переход из Oracle в Postgres Pro: не просто смена СУБД, а сдвиг подхода. Интервью с Марком Ривкиным
Давно не было обстоятельных интервью, тем более с таким корифеем отечественной СУБД‑разработки. В 2022 году в Postgres Professional перешла команда специалистов по Oracle,...
Обработка геоданных для ML-задач. Часть 2: пространственные объединения и расстояния
Статья продолжает обсуждение пространственных признаков в Python. Здесь мы рассматриваем пространственные объединения — аналог обычного объединения в мире геоданных, основанный на топологических отношениях между объектами, таких как пересечение, вложение или касание. Также мы узнаем, как правильно рассчитывать различные типы расстояний (и иногда это не просто евклидово расстояние между двумя точками). Например, геодезическое расстояние учитывает кривизну Земли, что особенно важно для анализа данных на больших территориях; расстояние маршрута учитывает направление: оптимальный маршрут от A до B не всегда равен маршруту от B до A. Читать далее
#геоданные #feature_engineering #python #postgresql #postgis #data_science #анализ_данных | @habr_ai
Статья продолжает обсуждение пространственных признаков в Python. Здесь мы рассматриваем пространственные объединения — аналог обычного объединения в мире геоданных, основанный на топологических отношениях между объектами, таких как пересечение, вложение или касание. Также мы узнаем, как правильно рассчитывать различные типы расстояний (и иногда это не просто евклидово расстояние между двумя точками). Например, геодезическое расстояние учитывает кривизну Земли, что особенно важно для анализа данных на больших территориях; расстояние маршрута учитывает направление: оптимальный маршрут от A до B не всегда равен маршруту от B до A. Читать далее
#геоданные #feature_engineering #python #postgresql #postgis #data_science #анализ_данных | @habr_ai
Хабр
Обработка геоданных для ML-задач. Часть 2: пространственные объединения и расстояния
Эта статья продолжает наше обсуждение пространственных признаков в Python. Вы можете прочитать первую часть текста здесь , чтобы изучить основы пространственных данных и их источников. Сейчас мы...
Обработка геоданных для ML-задач. Часть 3: агрегирование данных и оценка пространственных шаблонов
Пространственное агрегирование помогает контролировать степень детализации данных в зависимости от пространственных характеристик отдельных записей. Эта операция может быть полезна, если вы хотите сравнить разные регионы по конкретному параметру, (например, плотность населения или динамика продаж), оценить значение признака на единицу площади (скажем, среднюю выручку магазинов на квадратный километр) или преобразовать набор точек в растровые пространственные данные.
Важно учитывать, что агрегирование упрощает анализ, но «схлопывает» внутреннюю вариативность данных, типа как усреднённая температура по больнице может скрывать локальные перегретые серверные. Существует, по крайней мере, три метода пространственного агрегирования... Читать далее
#геоданные #feature_engineering #python #postgresql #postgis #data_science #анализ_данных #машинное_обучение #машинное_обучение #машинное_обучениe | @habr_ai
Пространственное агрегирование помогает контролировать степень детализации данных в зависимости от пространственных характеристик отдельных записей. Эта операция может быть полезна, если вы хотите сравнить разные регионы по конкретному параметру, (например, плотность населения или динамика продаж), оценить значение признака на единицу площади (скажем, среднюю выручку магазинов на квадратный километр) или преобразовать набор точек в растровые пространственные данные.
Важно учитывать, что агрегирование упрощает анализ, но «схлопывает» внутреннюю вариативность данных, типа как усреднённая температура по больнице может скрывать локальные перегретые серверные. Существует, по крайней мере, три метода пространственного агрегирования... Читать далее
#геоданные #feature_engineering #python #postgresql #postgis #data_science #анализ_данных #машинное_обучение #машинное_обучение #машинное_обучениe | @habr_ai
Хабр
Обработка геоданных для ML-задач. Часть 3: агрегирование данных и оценка пространственных шаблонов
Мы продолжаем погружаться в тему создания пространственных признаков. Если вы пропустили предыдущие части, рекомендую начать с первой статьи о базовых принципах работы с геоданными, а затем перейти ко...
Я не разработчик ботов, но с помощью AI создал Telegram-бота для изучения английского (Duolingo уже может нервничать)
Привет! Меня зовут Евгений. Я — AQA-инженер на Python. Недавно решил проверить, насколько далеко можно зайти в разработке, не обладая глубокими знаниями в программировании, но используя современные AI-инструменты. Что из этого вышло? Читать далее
#ai_разработка #telegram_бот #chatgpt #вайбкодинг #cursor_ide #разработка_с_ии #low_code #postgresql #deepseek #no_code | @habr_ai
Привет! Меня зовут Евгений. Я — AQA-инженер на Python. Недавно решил проверить, насколько далеко можно зайти в разработке, не обладая глубокими знаниями в программировании, но используя современные AI-инструменты. Что из этого вышло? Читать далее
#ai_разработка #telegram_бот #chatgpt #вайбкодинг #cursor_ide #разработка_с_ии #low_code #postgresql #deepseek #no_code | @habr_ai
Хабр
Я не разработчик ботов, но с помощью AI создал Telegram-бота для изучения английского (Duolingo уже может нервничать)
Привет! Меня зовут Евгений. Я — Full-Stack QA Engineer в Devscribed. Недавно решил проверить, насколько далеко можно зайти в разработке, не обладая глубокими знаниями в программировании, но используя...
LLM пайплайны укрощают сложность баз данных, или как мы подружили ИИ с БД без ИБД
Большие языковые модели (Large Language Model, LLM) используют в разных областях: с их помощью генерируют программный код, ищут информацию, озвучивают реплики чат-ботов. А вот при работе с реляционными данными языковые модели часто ошибаются.
Чтобы справиться с этими ошибками, в мы разработали три пайплайна для работы с базами данных. Эти пайплайны представляют собой цепочку связанных между собой языковых моделей: каждая из них генерирует свой ответ, и следующая модель работает с ответом предыдущей. Таким образом мы получаем дополнительный контекст, и запрос к базе данных становится точнее. Читать далее
#генерация_sql #генерация_cypher #rag #субд #искусственный_интеллект #sql #cypher #postgresql #генерация_кода #llm_агент | @habr_ai
Большие языковые модели (Large Language Model, LLM) используют в разных областях: с их помощью генерируют программный код, ищут информацию, озвучивают реплики чат-ботов. А вот при работе с реляционными данными языковые модели часто ошибаются.
Чтобы справиться с этими ошибками, в мы разработали три пайплайна для работы с базами данных. Эти пайплайны представляют собой цепочку связанных между собой языковых моделей: каждая из них генерирует свой ответ, и следующая модель работает с ответом предыдущей. Таким образом мы получаем дополнительный контекст, и запрос к базе данных становится точнее. Читать далее
#генерация_sql #генерация_cypher #rag #субд #искусственный_интеллект #sql #cypher #postgresql #генерация_кода #llm_агент | @habr_ai
Хабр
LLM пайплайны укрощают сложность баз данных, или как мы подружили ИИ с БД без ИБД
Большие языковые модели (Large Language Model, LLM) используют в разных областях: с их помощью генерируют программный код, ищут информацию, озвучивают реплики чат-ботов. А вот при работе с...
Семантический поиск по статьям Хабра в PostgreSQL + индексация текстов LLM в Ollama
Покажу вам практическую реализацию семантического поиска на основе векторных представлений - эмбеддингов из текста. Здесь я создам систему, которая анализирует статьи с Хабра, извлекает из них темы и ключевые слова с помощью локально работающих больших языковых моделей LLM, и на основе этих данных создает векторные представления для эффективного поиска по смыслу, а не по запросу на вхождение определенного текста. Читать далее
#семантический_поиск #postgresql #pgvector #llm_приложения #ollama #spring_ai #java #обработка_естественного_языка #поисковые_системы | @habr_ai
Покажу вам практическую реализацию семантического поиска на основе векторных представлений - эмбеддингов из текста. Здесь я создам систему, которая анализирует статьи с Хабра, извлекает из них темы и ключевые слова с помощью локально работающих больших языковых моделей LLM, и на основе этих данных создает векторные представления для эффективного поиска по смыслу, а не по запросу на вхождение определенного текста. Читать далее
#семантический_поиск #postgresql #pgvector #llm_приложения #ollama #spring_ai #java #обработка_естественного_языка #поисковые_системы | @habr_ai
Хабр
Семантический поиск по статьям Хабра в PostgreSQL + индексация текстов LLM в Ollama
Покажу вам практическую реализацию семантического поиска на основе векторных представлений - эмбеддингов из текста. Здесь я создам систему, которая анализирует статьи с Хабра, извлекает из них темы и...
Векторный поиск внутри PostgreSQL: что умеет и где может пригодиться pgvector
Итак, ваш проект вырос и вам потребовалась новая функциональность, будь то рекомендательный движок, база знаний или автоматизированная первая линия техподдержки. Для всего этого можно использовать векторный и/или семантический поиск, а также интегрировать в проект LLM. Поздравляю — теперь вам нужно еще и хранить embedding-векторы, а также искать по ним ближайшие объекты. Решений два: внешняя векторная БД или интеграция всего этого богатства в существующий стек. Второй путь проще на старте, немного быстрее и обычно дешевле — разумеется, если вы уже используете PostgreSQL.
Привет, Хабр! Меня зовут Александр Гришин, я отвечаю за развитие продуктов хранения данных в Selectel: облачных баз данных и S3-хранилища. В этой статье я расскажу о pgvector — расширении для PostgreSQL, которое позволяет добавить векторный поиск без внешних сервисов, пересборки архитектуры и большого количества работы. Материал пригодится продуктовым командам, архитекторам, бэкенд-разработчикам и инженерам данных. Читать дальше →
#selectel #postgresql #cloud #dbaas #embeddings #vector #vectordb #pgvector | @habr_ai
Итак, ваш проект вырос и вам потребовалась новая функциональность, будь то рекомендательный движок, база знаний или автоматизированная первая линия техподдержки. Для всего этого можно использовать векторный и/или семантический поиск, а также интегрировать в проект LLM. Поздравляю — теперь вам нужно еще и хранить embedding-векторы, а также искать по ним ближайшие объекты. Решений два: внешняя векторная БД или интеграция всего этого богатства в существующий стек. Второй путь проще на старте, немного быстрее и обычно дешевле — разумеется, если вы уже используете PostgreSQL.
Привет, Хабр! Меня зовут Александр Гришин, я отвечаю за развитие продуктов хранения данных в Selectel: облачных баз данных и S3-хранилища. В этой статье я расскажу о pgvector — расширении для PostgreSQL, которое позволяет добавить векторный поиск без внешних сервисов, пересборки архитектуры и большого количества работы. Материал пригодится продуктовым командам, архитекторам, бэкенд-разработчикам и инженерам данных. Читать дальше →
#selectel #postgresql #cloud #dbaas #embeddings #vector #vectordb #pgvector | @habr_ai
Хабр
Векторный поиск внутри PostgreSQL: что умеет и где может пригодиться pgvector
Итак, ваш проект вырос и вам потребовалась новая функциональность, будь то рекомендательный движок, база знаний или автоматизированная первая линия техподдержки. Для всего этого можно использовать...
Соединяем AI и реляционную базу данных
На статью данный текст точно не тянет, скорее это маленькая заметка. Как известно свои дети и свои идеи они всегда самые лучшие. Я давно работаю с реляционными базами и очень люблю язык SQL за его формализм, скорее всего из-за этой моей профдеформации и родилась эта мысль. На работе ко мне иногда обращались сделать выгрузку в CSV файл из базы для обучения моделей или анализа данных, и я подумал, а зачем выгружать данные, а потом иногда загружать обратно результат в базу. Почему не сделать так что бы результат запроса сразу отправлялся на обработку в AI и затем выдавался ответ на запрос. Нам всего лишь нужна SQL функция которая берет результат запроса, заворочает его в вызов к модели, а потом выдает результат. Понятно, что серебряной пули нет и данный подход не везде будет работать, например, такой подход не подразумевает асинхронность, а значит если нужна высокая производительность, то данный подход не очень подходит, с другой стороны сейчас запросы к AI не дёшевы и если вы пошлете 100 запросов в секунду, не дождавшись ответа на предыдущие то скорее всего получите ошибку. Я думаю в будущем это будет стандартная функции в базах данных.
Теперь рассмотрим простейшую реализацию данной функции. Под рукой был PostgreSQL, но можно реализовать это и для ORACLEили других баз. Для этого нам понадобится расширение https://github.com/pramsey/pgsql-http . В качестве AI будем использовать Groq. Первое что нам надо это получить API ключ. Сама функция очень простая. Читать далее
#sql #ии #ai #postgresql #oracle #искуственный_интеллект | @habr_ai
На статью данный текст точно не тянет, скорее это маленькая заметка. Как известно свои дети и свои идеи они всегда самые лучшие. Я давно работаю с реляционными базами и очень люблю язык SQL за его формализм, скорее всего из-за этой моей профдеформации и родилась эта мысль. На работе ко мне иногда обращались сделать выгрузку в CSV файл из базы для обучения моделей или анализа данных, и я подумал, а зачем выгружать данные, а потом иногда загружать обратно результат в базу. Почему не сделать так что бы результат запроса сразу отправлялся на обработку в AI и затем выдавался ответ на запрос. Нам всего лишь нужна SQL функция которая берет результат запроса, заворочает его в вызов к модели, а потом выдает результат. Понятно, что серебряной пули нет и данный подход не везде будет работать, например, такой подход не подразумевает асинхронность, а значит если нужна высокая производительность, то данный подход не очень подходит, с другой стороны сейчас запросы к AI не дёшевы и если вы пошлете 100 запросов в секунду, не дождавшись ответа на предыдущие то скорее всего получите ошибку. Я думаю в будущем это будет стандартная функции в базах данных.
Теперь рассмотрим простейшую реализацию данной функции. Под рукой был PostgreSQL, но можно реализовать это и для ORACLEили других баз. Для этого нам понадобится расширение https://github.com/pramsey/pgsql-http . В качестве AI будем использовать Groq. Первое что нам надо это получить API ключ. Сама функция очень простая. Читать далее
#sql #ии #ai #postgresql #oracle #искуственный_интеллект | @habr_ai
Хабр
Соединяем AI и реляционную базу данных
На статью данный текст точно не тянет, скорее это маленькая заметка. Как известно свои дети и свои идеи они всегда самые лучшие. Я давно работаю с реляционными базами и очень люблю язык SQL за его...
7 кругов ада: практический гид по выбору стека для ML-разработки
Сколько раз за последние пару-тройку вы меняли свой AI/ML стек? Если ответ «ни разу» — либо у вас железная дисциплина, либо вы просто не следите за тем, что происходит в индустрии. McKinsey Global Survey показывает, что adoption AI вырос с 50% до 72% только за последний год. Это означает, что пока вы размышляете над выбором между PyTorch и TensorFlow, ваши конкуренты уже запускают production-модели на совершенно других стеках.
Проблема не в том, что инструментов мало — а в том, что их чертовски много. Современный ML/AI стек превратился в слоеный пирог из семи уровней: от ИИ-инфраструктуры в самом низу до слоя ИИ-решений наверху. Каждый уровень предлагает десятки вариантов, от которых глаза разбегаются даже у матерых разработчиков, но хаос поддается систематизации. В этой статье мы расскажем о любимых инструментах, препарируем популярные решения, и разберемся, как выбрать стек, который не превратится в тыкву через полгода. Читать далее
#ml #стек #инструменты_разработки #pytorch #tensorflow #grafana #python #postgresql #pandas #kubernetes | @habr_ai
Сколько раз за последние пару-тройку вы меняли свой AI/ML стек? Если ответ «ни разу» — либо у вас железная дисциплина, либо вы просто не следите за тем, что происходит в индустрии. McKinsey Global Survey показывает, что adoption AI вырос с 50% до 72% только за последний год. Это означает, что пока вы размышляете над выбором между PyTorch и TensorFlow, ваши конкуренты уже запускают production-модели на совершенно других стеках.
Проблема не в том, что инструментов мало — а в том, что их чертовски много. Современный ML/AI стек превратился в слоеный пирог из семи уровней: от ИИ-инфраструктуры в самом низу до слоя ИИ-решений наверху. Каждый уровень предлагает десятки вариантов, от которых глаза разбегаются даже у матерых разработчиков, но хаос поддается систематизации. В этой статье мы расскажем о любимых инструментах, препарируем популярные решения, и разберемся, как выбрать стек, который не превратится в тыкву через полгода. Читать далее
#ml #стек #инструменты_разработки #pytorch #tensorflow #grafana #python #postgresql #pandas #kubernetes | @habr_ai
Хабр
7 кругов ада: практический гид по выбору стека для ML-разработки
Сколько раз за последние пару-тройку вы меняли свой AI/ML стек? Если ответ «ни разу» — либо у вас железная дисциплина, либо вы просто не следите за тем, что происходит в индустрии. McKinsey Global...
Хакатон как первый продакшн — зачем джунам идти на More.tech
Современная сфера IT — как бурное море: динамичная и полная вызовов, особенно для новичков. Поймать волну новейших технологий, получить реальный опыт и поддержку менторов можно на хакатоне. Как раз такой сейчас проходит — на More.tech участников ждут практические кейсы из мира большого IT и командная работа. А победителей — призовой фонд 1,5 млн руб. и шанс получить оффер от ВТБ. В статье вместе с лидерами треков расскажем, что ждет участников More.tech 2025, почему задачи хакатона актуальны для IT сегодня и как их преодолеть.
Хакатон стартовал 27 августа, но к нему еще можно присоединиться и успеть побороться за победу. Участники получат реальный опыт, который помогает на старте карьеры. Читать далее
#low_code #хакатон #карьерныйрост #it_образование #postgresql | @habr_ai
Современная сфера IT — как бурное море: динамичная и полная вызовов, особенно для новичков. Поймать волну новейших технологий, получить реальный опыт и поддержку менторов можно на хакатоне. Как раз такой сейчас проходит — на More.tech участников ждут практические кейсы из мира большого IT и командная работа. А победителей — призовой фонд 1,5 млн руб. и шанс получить оффер от ВТБ. В статье вместе с лидерами треков расскажем, что ждет участников More.tech 2025, почему задачи хакатона актуальны для IT сегодня и как их преодолеть.
Хакатон стартовал 27 августа, но к нему еще можно присоединиться и успеть побороться за победу. Участники получат реальный опыт, который помогает на старте карьеры. Читать далее
#low_code #хакатон #карьерныйрост #it_образование #postgresql | @habr_ai
Хабр
Хакатон как первый продакшн — зачем джунам идти на More.tech
Современная сфера IT — как бурное море: динамичная и полная вызовов, особенно для новичков. Поймать волну новейших технологий, получить реальный опыт и поддержку менторов можно на хакатоне. Как раз такой сейчас проходит — на More.tech участников ждут практические…