Полезные ссылки про данные, технологии и не только
- MeteoSaver проект по оцифровке исторических записей о погоде. Ведется в Vrije Universiteit Brussel, охватывает многие наименее развитые страны и включает сканирование и распознавание больших объемов тетрадей с метеонаблюдениями
- Title Arbitrage as Status Engineering новый термин "статусная инженерия", про придумывание новых названий ролям участников команд при создании продуктов. Например, ее "Prompt Engineer", а "Researcher", не "Software Engineer", а "MTS (Member of Technical Stuff" и так далее. В целом ничего нового, просто новое прочтение старого.
- Magical systems thinking критический взгляд на системное мышление с ключевым аргументом что если система не статическая то она отражает удар. С хорошими примерами госрегулирования и госпроектов которые провалились.
- What a data center is что такое дата центр, относительно короткий текст поясняющий что такое Датацентры изнутри и как на них стоит смотреть. Тема всё более важная, задумайтесь над тем что мир приходит в то состояние когда если ядреная ракета упадет на органическое правительство, то никто и не заметит, а если на ключевой датацентр, то всем будет очень больно.
- MeteoSaver проект по оцифровке исторических записей о погоде. Ведется в Vrije Universiteit Brussel, охватывает многие наименее развитые страны и включает сканирование и распознавание больших объемов тетрадей с метеонаблюдениями
- Title Arbitrage as Status Engineering новый термин "статусная инженерия", про придумывание новых названий ролям участников команд при создании продуктов. Например, ее "Prompt Engineer", а "Researcher", не "Software Engineer", а "MTS (Member of Technical Stuff" и так далее. В целом ничего нового, просто новое прочтение старого.
- Magical systems thinking критический взгляд на системное мышление с ключевым аргументом что если система не статическая то она отражает удар. С хорошими примерами госрегулирования и госпроектов которые провалились.
- What a data center is что такое дата центр, относительно короткий текст поясняющий что такое Датацентры изнутри и как на них стоит смотреть. Тема всё более важная, задумайтесь над тем что мир приходит в то состояние когда если ядреная ракета упадет на органическое правительство, то никто и не заметит, а если на ключевой датацентр, то всем будет очень больно.
Vrije Universiteit Brussel
MeteoSaver: VUB tool rescues historic climate data worldwide
Transcription tool by VUB researcher Derrick Muheki earns special mention in TIME’s Best Inventions of 2025
Почему линейная регрессия всё ещё обыгрывает трансформеры в анализе временных рядов
ИИ сегодня легко справляется с текстом, картинками и даже видео — кажется, ничто не способно его остановить. Но вот парадокс: когда дело доходит до прогнозирования временных рядов, где мы ожидаем от моделей почти волшебства, простая старая линейная регрессия всё ещё регулярно обыгрывает модные трансформеры. Почему сложные нейросети так часто уступают классике — даже когда вроде бы должны показать класс?
Новое исследование переворачивает привычное представление: оказывается, размер и глубина модели сами по себе не гарантируют прорыва. На временных рядах даже самые изощрённые схемы внимания не могут обработать сигнал лучше, чем линейные методы. А увеличение слоёв или длины истории, вопреки ожиданиям, лишь медленно сокращает отставание.
В этой разборчивой работе показано: понять, как модели учатся и где проходит граница их возможностей — критически важно для всех, кто строит или применяет ИИ в реальных задачах. Разбираемся, почему иногда лучше довериться старым добрым формулам и что это значит для будущего ИИ-прогнозирования.
📜 Полный обзор
ИИ сегодня легко справляется с текстом, картинками и даже видео — кажется, ничто не способно его остановить. Но вот парадокс: когда дело доходит до прогнозирования временных рядов, где мы ожидаем от моделей почти волшебства, простая старая линейная регрессия всё ещё регулярно обыгрывает модные трансформеры. Почему сложные нейросети так часто уступают классике — даже когда вроде бы должны показать класс?
Новое исследование переворачивает привычное представление: оказывается, размер и глубина модели сами по себе не гарантируют прорыва. На временных рядах даже самые изощрённые схемы внимания не могут обработать сигнал лучше, чем линейные методы. А увеличение слоёв или длины истории, вопреки ожиданиям, лишь медленно сокращает отставание.
В этой разборчивой работе показано: понять, как модели учатся и где проходит граница их возможностей — критически важно для всех, кто строит или применяет ИИ в реальных задачах. Разбираемся, почему иногда лучше довериться старым добрым формулам и что это значит для будущего ИИ-прогнозирования.
📜 Полный обзор
Telegraph
Почему линейная регрессия всё ещё обыгрывает трансформеры в анализе временных рядов
На волне успеха ИИ в языке, изображениях и видео многие надеялись, что трансформеры помогут и прогнозированию временных рядов. Реальность чаще прозаична: простая линейная регрессия нередко бьет громоздкие модели по среднеквадратичной ошибке. Рассматриваемое…
Может ли ИИ заменить вас на работе?
На этот вопрос пытаются ответить журналисты The Economist, ссылаясь на новую научную работу исследователей из Гарварда.
Учёные проанализировали 200 миллионов вакансий и обнаружили: в компаниях, где нанимали специалистов по внедрению ИИ, наём младших сотрудников за шесть кварталов упал на 7,7% сильнее, чем у прочих. В то же время спрос на «сеньоров» не только не просел — он стабильно продолжает расти.
Иными словами, ИИ пока не отнимает работу у всех — но точечно сокращает спрос на джуниоров. Особенно тех, кто делает умственно тяжёлую, но рутинную работу: от дебага до проверки документов.
Интересно и другое: хуже всего приходится тем, кто окончил вузы среднего уровня.
Компании по-прежнему нанимают людей из топ-университетов — их навыки сложнее автоматизировать. Выпускники слабых вузов тоже остаются в игре: они просто не просят много денег.
А вот средний уровень оказывается слишком дорогим для рутинных задач и недостаточно квалифицированным для сложных.
Паниковать пока рано: в Штатах 17% работников заняты у компаний, активно внедряющих ИИ. Но если тенденция сохранится, вход в профессию может стать сложнее, чем когда-либо.
Оригинал без пейволла
На этот вопрос пытаются ответить журналисты The Economist, ссылаясь на новую научную работу исследователей из Гарварда.
Учёные проанализировали 200 миллионов вакансий и обнаружили: в компаниях, где нанимали специалистов по внедрению ИИ, наём младших сотрудников за шесть кварталов упал на 7,7% сильнее, чем у прочих. В то же время спрос на «сеньоров» не только не просел — он стабильно продолжает расти.
Иными словами, ИИ пока не отнимает работу у всех — но точечно сокращает спрос на джуниоров. Особенно тех, кто делает умственно тяжёлую, но рутинную работу: от дебага до проверки документов.
Интересно и другое: хуже всего приходится тем, кто окончил вузы среднего уровня.
Компании по-прежнему нанимают людей из топ-университетов — их навыки сложнее автоматизировать. Выпускники слабых вузов тоже остаются в игре: они просто не просят много денег.
А вот средний уровень оказывается слишком дорогим для рутинных задач и недостаточно квалифицированным для сложных.
Паниковать пока рано: в Штатах 17% работников заняты у компаний, активно внедряющих ИИ. Но если тенденция сохранится, вход в профессию может стать сложнее, чем когда-либо.
Оригинал без пейволла
archive.is
Can AI replace junior workers?
archived 13 Oct 2025 18:27:25 UTC
🌟 Видео о построении дашборда в Excel, на примере домашнего бюджета - наконец-то на канале!
⏳ За 2 часа 22 минуты создадют полноценный дашборд в Excel, который очень даже достойно конкурирует с любыми биай системам - тем же Tableau, Superset и Fine Bi.
👀 Для кого это будет особенно полезно:
- Новичкам в аналитике.
- Всем, кто хочет взглянуть на Excel с неожиданного ракурса.
- Кому нужен гибкий инструмент для управлением своими финансами
💡 Поддержите проект:
Ставьте лайк и посмотрите полностью — это образовательный контент, а время просмотра поможет развитию канала.
Первое видео набрало почти5️⃣ тысяч просмотров и как мне кажется. это крутой результат для узконаправленного часового видео про Excel 😁
🏎️ Не бойтесь скорости — ставьте на х2
Ссылка на ютуб
⏳ За 2 часа 22 минуты создадют полноценный дашборд в Excel, который очень даже достойно конкурирует с любыми биай системам - тем же Tableau, Superset и Fine Bi.
👀 Для кого это будет особенно полезно:
- Новичкам в аналитике.
- Всем, кто хочет взглянуть на Excel с неожиданного ракурса.
- Кому нужен гибкий инструмент для управлением своими финансами
💡 Поддержите проект:
Ставьте лайк и посмотрите полностью — это образовательный контент, а время просмотра поможет развитию канала.
Первое видео набрало почти
🏎️ Не бойтесь скорости — ставьте на х2
Ссылка на ютуб
Please open Telegram to view this post
VIEW IN TELEGRAM
YouTube
Ведение семейного бюджета в Excel. Создаём дашборд. Часть 2
Вступайте в телеграм канал: «Детектив данных»
https://t.me/detective_data
Итоговый и изначальный файл лежит тут
https://t.me/detective_data/319
В этом видео будем строить настоящий дашборд прямо в Excel, на базовых возможностях программы. Видео получилось…
https://t.me/detective_data
Итоговый и изначальный файл лежит тут
https://t.me/detective_data/319
В этом видео будем строить настоящий дашборд прямо в Excel, на базовых возможностях программы. Видео получилось…
🔥3
Полезные ссылки про данные, технологии и не только
- State of AI Report за 2025 год, взгляд на состояние ИИ с точки зрения, в первую очередь, инвестиций. Очень полезная презентация с ключевыми фактами и трендами по рынку ИИ. Просто для чтения, какой-то разбор и факты оттуда отдельно.
- The era of open data infrastructure команда dbt Labs с обещаниями сохранения открытости после поглощения их Fivetran'ом. Не то чтобы до конца верится. Обратите внимание что это [open] [data infrastructure]. а не [open data] [infrastructure]. Маркетологи совсем иначе трактуют слова про открытость называя открытостью open to market и открытые стандарты.
- Bruin движок для построения конвееров данных на Python, включая трансформации с помощью SQL. Как легковесная альтернатива dbt. Бизнес модель идентичная dbt - облачный сервис Bruin Cloud, но их пока не поглотил Fivetran
- Lea другая альтернатива dbt, минималистичный SQL оркестратор. Чистый открытый код, без облачной и иной бизнес модели, но и с документацией похуже и скоростью разработки
- State of AI Report за 2025 год, взгляд на состояние ИИ с точки зрения, в первую очередь, инвестиций. Очень полезная презентация с ключевыми фактами и трендами по рынку ИИ. Просто для чтения, какой-то разбор и факты оттуда отдельно.
- The era of open data infrastructure команда dbt Labs с обещаниями сохранения открытости после поглощения их Fivetran'ом. Не то чтобы до конца верится. Обратите внимание что это [open] [data infrastructure]. а не [open data] [infrastructure]. Маркетологи совсем иначе трактуют слова про открытость называя открытостью open to market и открытые стандарты.
- Bruin движок для построения конвееров данных на Python, включая трансформации с помощью SQL. Как легковесная альтернатива dbt. Бизнес модель идентичная dbt - облачный сервис Bruin Cloud, но их пока не поглотил Fivetran
- Lea другая альтернатива dbt, минималистичный SQL оркестратор. Чистый открытый код, без облачной и иной бизнес модели, но и с документацией похуже и скоростью разработки
www.stateof.ai
State of AI Report 2025
The State of AI Report analyses the most interesting developments in AI. Read and download here.
Forwarded from Р7-Офис
Хотите узнать, как сэкономить 15+ часов в неделю и превратить Р7 офис в полноценный терминал управления данными?
📆 11 ноября в 11:00 (мск) приглашаем на вебинар «Аналитика нового уровня: как создать единый центр данных в Р7 офис с плагином Слайдер Данные».
🔍 В программе вебинара:
🎁 Бонус для участников — месяц бесплатного доступа к плагину, запись и презентационные материалы вебинара.
Регистрация
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from настенька и графики
Записала маленький бесплатный курс про улучшение таблиц и графиков в Excel. С задачками самопроверки и чеклистами.
1 час и 42 минуты переверстываю стандартные визуализации, объясняя где чего не так и как сделать лучше. Вот так вот!
1 час и 42 минуты переверстываю стандартные визуализации, объясняя где чего не так и как сделать лучше. Вот так вот!
This media is not supported in your browser
VIEW IN TELEGRAM
Собственный OLAP Сервис ,который можно построить в пару кликов . Теперь PowerBi нужно потеснится
🔥2
Периодически посматриваю видео с семинаров Future Data Systems Seminar Series — Fall 2025 которые проводят CMU Database Group и там выступают фаундеры и ключевые разработчики многих современных дата продуктов и технологий работы с данными, вроде Russel Spitzer, руководителя проекта Apache Iceberg и др.
А из последнего интересного это выступление Уилла Маннинга Vortex: LLVM for File Formats где он рассказывает про формат хранения данных Vortex, чем он отличается от Parquet и он очень структурировано рассказывает эволюцию современных СУБД, использование современного железа включая GPU в контексте данных и появление множества более современных чем Parquet форматов файлов для хранения данных. А их много, кроме Vortex ещё есть f3, FastLanes, Nimble, AnyBlox
У vortex'а есть расширение для DuckDB и его можно попробовать на своих данных.
Лично я жду когда в DuckDB появится поддержка большего числа новых форматов, как минимум Fastlane и бенчмарков на их сравнение.
А из последнего интересного это выступление Уилла Маннинга Vortex: LLVM for File Formats где он рассказывает про формат хранения данных Vortex, чем он отличается от Parquet и он очень структурировано рассказывает эволюцию современных СУБД, использование современного железа включая GPU в контексте данных и появление множества более современных чем Parquet форматов файлов для хранения данных. А их много, кроме Vortex ещё есть f3, FastLanes, Nimble, AnyBlox
У vortex'а есть расширение для DuckDB и его можно попробовать на своих данных.
Лично я жду когда в DuckDB появится поддержка большего числа новых форматов, как минимум Fastlane и бенчмарков на их сравнение.
Carnegie Mellon Database Group
Future Data Systems Seminar Series - Fall 2025 - Carnegie Mellon Database Group
Some people want to forget their past like when they worked at... Read More +
❤2
Полезные ссылки про данные, технологи и не только:
- dash расширение для DuckDB для быстрого построения дашбордов. Напоминает некоторые open source BI инструменты, но тут во всём Parquet формат и DuckDB как инструмент запросов
- gizmosql построение SQL сервера на базе DuckDB и Apache Arrow Flight Server в тесной связке и с бенчмарками на типовых облачных серверах. Обещают легкое развертывание и работу с большими объёмами данных, но, ИМХО, конкретных примеров использования нехватает
- httpie хорошо известный в узких кругах разработчиков инструмент с открытым кодом для тестирования HTTP запросов и API в частности. Интересная альтернатива Postman, APIDog и им подобным. В 2021 году подняли $6.5 миллиона венчурного финансирования на облачный коммерческий продукт и вот уже более 7 месяцев не обновляют код, не публикуют ничего в блоге, твиттере и тд. Есть ощущение что то там случилось, как бы продукт не погиб
- fastmcp быстрое создание MCP интерфейса поверх приложения FastAPI. Выглядит привлекательно простотой разработки, но надо тестировать на практике конечно же.
- nextcloud облачный сервис и open source продукт управления файлами, календарем и документами созданный в Германии. Очень характерно наблюдать как просто из продукта на рынке они превращаются в инструмент цифрового суверенитета Евросоюза. Риторика, стиль публикаций и акценты до боли напоминают некоторые российские компании играющие в импортозамещение.
- dash расширение для DuckDB для быстрого построения дашбордов. Напоминает некоторые open source BI инструменты, но тут во всём Parquet формат и DuckDB как инструмент запросов
- gizmosql построение SQL сервера на базе DuckDB и Apache Arrow Flight Server в тесной связке и с бенчмарками на типовых облачных серверах. Обещают легкое развертывание и работу с большими объёмами данных, но, ИМХО, конкретных примеров использования нехватает
- httpie хорошо известный в узких кругах разработчиков инструмент с открытым кодом для тестирования HTTP запросов и API в частности. Интересная альтернатива Postman, APIDog и им подобным. В 2021 году подняли $6.5 миллиона венчурного финансирования на облачный коммерческий продукт и вот уже более 7 месяцев не обновляют код, не публикуют ничего в блоге, твиттере и тд. Есть ощущение что то там случилось, как бы продукт не погиб
- fastmcp быстрое создание MCP интерфейса поверх приложения FastAPI. Выглядит привлекательно простотой разработки, но надо тестировать на практике конечно же.
- nextcloud облачный сервис и open source продукт управления файлами, календарем и документами созданный в Германии. Очень характерно наблюдать как просто из продукта на рынке они превращаются в инструмент цифрового суверенитета Евросоюза. Риторика, стиль публикаций и акценты до боли напоминают некоторые российские компании играющие в импортозамещение.
www.dash.builders
Dash - Data Exploration Tool
Open-source data visualization tool with DuckDB.
sqlite-vector: простой и удобный векторный поиск в SQLite
SQLite тоже умеет в векторный поиск — для этого уже есть несколько расширений. Но их главная проблема в том, что в основном они либо медленные, либо неудобные.
А ведь, наверное, главное, чего хотят от SQLite — чтобы он был легким, простым и быстрым. И, конечно, нашлись люди, которые попробовали разработать свое решение, отвечающее этим требованиям.
🔜 sqlite-vector — бесплатное кросс-платформенное расширение, которое обходится 30 МБ памяти, складывает векторы в обычные таблицы (без возни с виртуальными и сложными SQL-запросами), хранит данные локально и работает оффлайн. Ему не нужен дополнительный сервер и долгая нудная подготовка, настройка и преиндексиование.
Разработчики сравнили свое решение с популярными аналогами (точнее только с одним по факту) — если очень захотеть, то sqlite-vector может быть аж в 17 раз быстрее sqlite-vec. Да, названия у них не очень креативные и перепутать легко. С libsql сравнить не удалось, потому что он так долго возился с созданием индекса, что всем надоело ждать.
Расширение распространяется по Elastic License 2.0. Скачать можно с гитхаба.
SQLite тоже умеет в векторный поиск — для этого уже есть несколько расширений. Но их главная проблема в том, что в основном они либо медленные, либо неудобные.
А ведь, наверное, главное, чего хотят от SQLite — чтобы он был легким, простым и быстрым. И, конечно, нашлись люди, которые попробовали разработать свое решение, отвечающее этим требованиям.
Разработчики сравнили свое решение с популярными аналогами (точнее только с одним по факту) — если очень захотеть, то sqlite-vector может быть аж в 17 раз быстрее sqlite-vec. Да, названия у них не очень креативные и перепутать легко. С libsql сравнить не удалось, потому что он так долго возился с созданием индекса, что всем надоело ждать.
Расширение распространяется по Elastic License 2.0. Скачать можно с гитхаба.
Please open Telegram to view this post
VIEW IN TELEGRAM
www.sqlite.ai
SQLite Vector - A blazing fast and memory efficient vector search extension for SQLite.
SQLite AI transforms SQLite into a distributed AI-native database for the Edge—combining the simplicity of SQLite with cloud-powered scalability, fault tolerance, automatic backups, and powerful new extensions like SQLite-AI, SQLite-Vector, SQLite-Sync, and…
Forwarded from rapeed
Выход rapeed 1.0 - рабочие области + ролевая модель, интеграция с Active Directory, панели виджетов, условия на значения полей и многое другое
После выхода версии 0.3, ядро которой обрабатывало миллиарды записей за субсекундное время,
и версии 0.8 с динамическими справочниками, которая упрощает работу с данными сложной структуры -
версия rapeed 1.0, выходящая сегодня, закрывает потребности Enterprise-клиентов в создании индивидуального контекста работы для каждого пользователя и коллективной работы групп пользователей в рамках корпоративной среды данных.
В составе rapeed 1.0 вышла следующая функциональность:
⁃ Интеграция с Active Directory (AD) с помощью KeyCloak. За аутентификацию пользователя, как и положено в корпоративной среде, отвечает AD, за авторизацию работы в rapeed - KeyCloak, за права пользователя в rapeed - сочетание ролевых моделей AD и rapeed;
⁃ Рабочие области. Рабочая область задаёт контекст работы пользователя с данными, или, проще говоря, какие источники данных, поля, показатели, связи и другие объекты пользователь видит и может ими пользоваться. Рабочие области можно публиковать и копировать полностью или частично, они бывают личными или общими. Например, из рабочей области по умолчанию (Default) можно создать несколько общих рабочих областей для каждого отдела со своими источниками и справочниками, администраторы отделов могут внутри этих рабочих областей раздать права каждому пользователю, включая права на значения полей (RLS или, точнее, VLS, см. следующий пункт), а пользователи себе для комфортной работы (например, в сводных таблицах Excel) могут оставить только нужные поля в личной рабочей области;
⁃ Система управления ролевой моделью и правами доступа. Доступно назначение ролей и прав вплоть до конкретных значений полей. Обычно это называется Row-Level Security (доступ на уровне строк), RLS, но более корректно говорить о Value-Level Security (доступ на уровне значений), VLS;
⁃ Панели виджетов. Это логическое объединение виджетов в группу с единым пространством фильтров, в том числе автоматических (возникающих из отметок пользователя в виджетах) и пользовательских (в том числе по полям и связям, отсутствующим в виджетах). В рабочей области может быть неограниченное количество панелей виджетов;
⁃ Условия на значения полей. Помимо значений на ячейки таблицы, задаваемых с помощью вложенных операторов IF/THEN/ELSE, в rapeed 1.0 появились условия на значения полей в источнике. Например, можно считать сумму, но только в январе-феврале 2024 года и только по конкретным категориям. При этом выводить этот показатель система будет как любой другой в динамически задаваемом контексте (например, определяемом раскрытием уровня сводной таблицы). Условия на значения полей - это фактически использование альтернативных массивов данных для показателей в одном виджете.
Система будет доступна для установки клиентам на этой неделе.
Получайте настоящее #удовольствие_от_аналитики! Встречайте rapeed 1.0!
После выхода версии 0.3, ядро которой обрабатывало миллиарды записей за субсекундное время,
и версии 0.8 с динамическими справочниками, которая упрощает работу с данными сложной структуры -
версия rapeed 1.0, выходящая сегодня, закрывает потребности Enterprise-клиентов в создании индивидуального контекста работы для каждого пользователя и коллективной работы групп пользователей в рамках корпоративной среды данных.
В составе rapeed 1.0 вышла следующая функциональность:
⁃ Интеграция с Active Directory (AD) с помощью KeyCloak. За аутентификацию пользователя, как и положено в корпоративной среде, отвечает AD, за авторизацию работы в rapeed - KeyCloak, за права пользователя в rapeed - сочетание ролевых моделей AD и rapeed;
⁃ Рабочие области. Рабочая область задаёт контекст работы пользователя с данными, или, проще говоря, какие источники данных, поля, показатели, связи и другие объекты пользователь видит и может ими пользоваться. Рабочие области можно публиковать и копировать полностью или частично, они бывают личными или общими. Например, из рабочей области по умолчанию (Default) можно создать несколько общих рабочих областей для каждого отдела со своими источниками и справочниками, администраторы отделов могут внутри этих рабочих областей раздать права каждому пользователю, включая права на значения полей (RLS или, точнее, VLS, см. следующий пункт), а пользователи себе для комфортной работы (например, в сводных таблицах Excel) могут оставить только нужные поля в личной рабочей области;
⁃ Система управления ролевой моделью и правами доступа. Доступно назначение ролей и прав вплоть до конкретных значений полей. Обычно это называется Row-Level Security (доступ на уровне строк), RLS, но более корректно говорить о Value-Level Security (доступ на уровне значений), VLS;
⁃ Панели виджетов. Это логическое объединение виджетов в группу с единым пространством фильтров, в том числе автоматических (возникающих из отметок пользователя в виджетах) и пользовательских (в том числе по полям и связям, отсутствующим в виджетах). В рабочей области может быть неограниченное количество панелей виджетов;
⁃ Условия на значения полей. Помимо значений на ячейки таблицы, задаваемых с помощью вложенных операторов IF/THEN/ELSE, в rapeed 1.0 появились условия на значения полей в источнике. Например, можно считать сумму, но только в январе-феврале 2024 года и только по конкретным категориям. При этом выводить этот показатель система будет как любой другой в динамически задаваемом контексте (например, определяемом раскрытием уровня сводной таблицы). Условия на значения полей - это фактически использование альтернативных массивов данных для показателей в одном виджете.
Система будет доступна для установки клиентам на этой неделе.
Получайте настоящее #удовольствие_от_аналитики! Встречайте rapeed 1.0!
Почему Text 2 SQL не работает?
Ко мне иногда приходят разные знакомые и говорят, что у них есть концепция Text 2 SQL или LLM-генератора SQL-кода — мол, классная идея для бизнеса, можно ее попродавать.
И вот наконец я понял, почему идея «пусть бизнес пишет запросы на естественном языке» не взлетает и не взлетит.
На бумаге все красиво. Даешь ИИшке команду: «Покажи выручку за август по городам», получаешь результат.
На практике же имеем несколько иной сетап: никто из бизнес-менеджеров не хочет и не может задавать правильные вопросы к данным.
Причина кроется в подмене понятий, за которую сами бизнес-менеджеры обычно аналитика и ругают. Так вот, написание SQL — это не основная работа аналитика. На самом деле аналитик занимается мыслительным трудом: как раз пытается разобраться, какие вопросы вообще стоит задать, чтобы понять, что там у бизнеса пошло не так. SQL — лишь удобный интерфейс для формулировки гипотез. Его просто изучить, но логика за пределами SQL.
И, соответственно, вторая часть проблемы: многие бизнес-менеджеры в большинстве случаев не обучены мыслить аналитически, эту часть работы они делегировали аналитику, чтобы он за них подумал. Они сами не думают в контексте данных, структур или понимания взаимосвязей. Именно поэтому LLM-промпты в виде «SQLGPT для маркетологов» и не взлетают.
🔜 AI может перевести вопрос в SQL, но не может придумать сам вопрос, который имеет смысл для бизнеса.
Сейчас мы на этапе следующего шага — передать LLM формирование вопросов и гипотез, а затем уже написание необходимого кода и SQL-запросов для решения аналитической задачи.
А пока просто осознаем, что произошла гиперинфляция хардскиллов. А вот мыслить и генерировать ценные инсайты — тот самый навык, который был и есть востребован в аналитиках.
Ко мне иногда приходят разные знакомые и говорят, что у них есть концепция Text 2 SQL или LLM-генератора SQL-кода — мол, классная идея для бизнеса, можно ее попродавать.
И вот наконец я понял, почему идея «пусть бизнес пишет запросы на естественном языке» не взлетает и не взлетит.
На бумаге все красиво. Даешь ИИшке команду: «Покажи выручку за август по городам», получаешь результат.
На практике же имеем несколько иной сетап: никто из бизнес-менеджеров не хочет и не может задавать правильные вопросы к данным.
Причина кроется в подмене понятий, за которую сами бизнес-менеджеры обычно аналитика и ругают. Так вот, написание SQL — это не основная работа аналитика. На самом деле аналитик занимается мыслительным трудом: как раз пытается разобраться, какие вопросы вообще стоит задать, чтобы понять, что там у бизнеса пошло не так. SQL — лишь удобный интерфейс для формулировки гипотез. Его просто изучить, но логика за пределами SQL.
И, соответственно, вторая часть проблемы: многие бизнес-менеджеры в большинстве случаев не обучены мыслить аналитически, эту часть работы они делегировали аналитику, чтобы он за них подумал. Они сами не думают в контексте данных, структур или понимания взаимосвязей. Именно поэтому LLM-промпты в виде «SQLGPT для маркетологов» и не взлетают.
Сейчас мы на этапе следующего шага — передать LLM формирование вопросов и гипотез, а затем уже написание необходимого кода и SQL-запросов для решения аналитической задачи.
А пока просто осознаем, что произошла гиперинфляция хардскиллов. А вот мыслить и генерировать ценные инсайты — тот самый навык, который был и есть востребован в аналитиках.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥3
DuckDB поддерживает стриминг?!
В статье они выделяют 3 архитектурных паттерна стриминга (потоковой аналитики)
🧱 Паттерн материализованного представления (Materialized View Pattern)
Часто реализуется с помощью облачных хранилищ данных, поддерживающих материализованные представления (например, BigQuery или Snowflake).
Поток событий записывается в «сырую» таблицу, а поверх неё создаётся материализованное представление.
Этот подход обычно имеет более высокую задержку обновления по сравнению со следующими двумя, хотя точных сравнений пока немного.
⚙️ Паттерн потокового движка (Streaming Engine Pattern)
Здесь используется классический ETL-подход.
Отдельный процесс (потоковый движок) читает сообщения из источника, выполняет запросы «на лету» и сохраняет результаты в постоянной таблице.
Типичные движки — Spark Streaming, Flink, Kafka Streams и более новый Arroyo.
Такой подход часто сопровождается сложностями: управление «водяными знаками» (watermarks), состоянием, потреблением памяти при бесконечных запросах и т.п.
🗄 Паттерн потоковой базы данных (Streaming Database Pattern)
Похож на предыдущий по задержке, но значительно проще в использовании.
Потоковые базы данных вроде RisingWave или Materialize могут напрямую читать поток данных и обновлять материализованное представление «на лету».
Они стремятся сохранять ACID-консистентность и позволяют клиентам выполнять запросы через PostgreSQL-совместимый протокол.
Согласно статье, DuckDB поддерживает 1й и 2й вариант. Так же можно напрямую писать запросы к Кафке через Tributary Extension.
В статье они выделяют 3 архитектурных паттерна стриминга (потоковой аналитики)
🧱 Паттерн материализованного представления (Materialized View Pattern)
Часто реализуется с помощью облачных хранилищ данных, поддерживающих материализованные представления (например, BigQuery или Snowflake).
Поток событий записывается в «сырую» таблицу, а поверх неё создаётся материализованное представление.
Этот подход обычно имеет более высокую задержку обновления по сравнению со следующими двумя, хотя точных сравнений пока немного.
⚙️ Паттерн потокового движка (Streaming Engine Pattern)
Здесь используется классический ETL-подход.
Отдельный процесс (потоковый движок) читает сообщения из источника, выполняет запросы «на лету» и сохраняет результаты в постоянной таблице.
Типичные движки — Spark Streaming, Flink, Kafka Streams и более новый Arroyo.
Такой подход часто сопровождается сложностями: управление «водяными знаками» (watermarks), состоянием, потреблением памяти при бесконечных запросах и т.п.
🗄 Паттерн потоковой базы данных (Streaming Database Pattern)
Похож на предыдущий по задержке, но значительно проще в использовании.
Потоковые базы данных вроде RisingWave или Materialize могут напрямую читать поток данных и обновлять материализованное представление «на лету».
Они стремятся сохранять ACID-консистентность и позволяют клиентам выполнять запросы через PostgreSQL-совместимый протокол.
Согласно статье, DuckDB поддерживает 1й и 2й вариант. Так же можно напрямую писать запросы к Кафке через Tributary Extension.
DuckDB
Streaming Patterns with DuckDB
DuckDB used for streaming analytics? This post will show you some patterns in which you can use DuckDB to refresh your data at near real-time speed.
👍1