Rumyantsev Feed
89 subscribers
45 photos
7 files
96 links
Пишу обо всём, что связано с данными. Иногда отклоняюсь от темы.

Связь: @jayrumi
LinkedIn: https://www.linkedin.com/in/evgeny-rumyantsev
Download Telegram
Docker заинтродьюсил новый функционал Docker Offload.

Если вкратце, Docker Offload позволяет билдить, разворачивать и работать с контейнерами в облаке, не покидая локальной машины. При этом есть возможность поднять контейнеры с NVIDIA L4 GPU на борту для запуска тех же тяжёлых LLM. Всё ранается изолированно (это же докер!), без риска утечки данных. Более того, в линкедине видел инфу, что возможен free tier, что делает эту новость ещё круче!

Я уже неоднократно страдал, когда мощностей моего рабочего "корча" не хватало для того, чтобы поднять контейнер с той или иной LLM-кой на "поиграццо".

Единственное, что нужно учитывать, Docker Offload пока в бете, что подразумевает нестабильность в работе.

Ссылки:
https://www.docker.com/products/docker-offload/
https://docs.docker.com/offload/

#docker #airflow
🔥4😱2❤‍🔥1👌1
Привет самым грязным фантазиям 😅

https://t.me/ai_newz/4030
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥2🤔1🎉1🤪1
Новость, которую я пропустил, но это в какой-то степени очередной game changer.

AWS выпустили в превью S3 Vectors. Это настолько очевидный шаг в развитии клауд стореджа, что даже добавить нечего. Мне в этом плане AWS сильно импонирует: компания прокачивает S3 согласно трендам в AI/Data мире.

Если кто-то не совсем понимает, что это за вектора и зачем они нужны, кратко поясню: векторная бд - один из основных компонентов RAG-системы, а вектора - это слова, переведённые в набор чисел. RAG - это Retrieval-Augmented Generation, т.е. процесс, который позволяет при помощи инструментов ИИ отвечать на вопросы пользователей, обращаясь к базе знаний. Например, если сделать RAG для википедии, то вы сможете в специальном окне чата задавать вопросы и получать ответы на основании статей википедии.

Почему S3 Vectors это game changer?

Во-первых, масштабируемость. Любая БД рано или поздно упирается в лимиты процессинга и стореджа, а прайс за соответствующую конфигурацию растёт иксами. S3 - это возможность хранить петабайты данных и работать с ними, не запариваясь по поводу масштабируемости. Ну и сторедж сам по себе дешёвый.

Во-вторых, удобство. Ваши данные уже могут храниться в S3, вам не нужен ещё один сервис, чтобы туда складывать векторизованные данные.

Конечно, Vectors S3 будет дороже обычного S3 (я прайсинг не проверял, но уверен в этом). И да, скорее всего на огромном объёме данных могут быть просадки по перформансу. Но в перспективе это лечится, и потенциал у такого подхода просто огромный.

Жду, что на это ответят остальные игроки: Google и Microsoft. И не удивлюсь, если в скором времени AWS выкатит возможность хранить и работать с графами (S3 Graph какой-нибудь).

Вдогонку ещё одна статейка: https://aws.amazon.com/ru/blogs/aws/introducing-amazon-s3-vectors-first-cloud-storage-with-native-vector-support-at-scale/

#aws #vector #ai
🔥7👍1🤔1
Когда хотел оптимизировать что-то из процессов, но вместо этого слышишь: Ё* твою мать, что ты тут наоптимизировал?! (с)

#humor #ёptimisation
😁3🤣1
А вот эта новость прям 🔝!

В dbt появится поддержка User Defined Function, создаваемых на стороне БД, но с менеджментом и версионированием на стороне фреймворка. Данная фича будет доступна и в core, и в cloud версии. В настоящее время отдалённой альтернативой UDF можно назвать со скрипом макросы, но они всё равно больше про удобства использования какой-то отдельной логики в запросе. Функция работает по-другому, может содержать сложную логику обработки, и хочется верить, что адаптирована для запуска на конкретном engine.

Несмотря на то, что я не сторонник использования UDF на проекте (в силу "травмирующего" опыта), считаю, что это крутой шаг вперёд, который добавляет жирный плюс в карму dbt Labs.

Ах да, чуть не забыл: здесь находится дискуссия по этой новой фиче.

#dbt #udf
Please open Telegram to view this post
VIEW IN TELEGRAM
👍2
Я испытываю своеобразную фрустрацию из-за ограниченности своей широты мышления относительно влияния ИИ на человечество. И казалось бы, человеческие отношения - один из основополагающих столпов, то, чем буквально пропитана твоя жизнь. Куда здесь всунуть ИИ? Ответ прост: в сами отношения, но использовать это под другим углом. И таких моментов просто неимоверное количество. И это всё за пределами моих ежедневных потребностей и мировоззрения. И от этого очень сильно стагнирую
Каким станет «треугольник любви» у Инфоргов
ИИ может переписать код человеческих отношений

Вчерашний пост об "эволюционной ловушке для мужчин" и ИИ-романтике затрагивает лишь одну из граней весьма возможных сложных и масштабных изменений людей в ходе их трансформации в Инфоргов (проводящих в цифро-сетевом мире онлайфа больше времени, чем во сне - см. #Инфорги). Появление романтических ИИ-партнеров может стать не просто технологическим костылем для эмоционально изолированных мужчин, а вполне способно запустить процесс кардинального перелома в самой архитектуре человеческой любви.

Планируемое к публикации в сентябрьском выпуске «Международного журнала межкультурных отношений» новое исследование девяти традиционных обществ — от австралийских аборигенов до боливийских цимане — подтверждает: "треугольник любви" Штернберга (интимность, страсть, преданность) универсален. Люди, чьи культуры не затронуты современной индустриализацией, испытывают те же базовые компоненты романтической привязанности, что и жители мегаполисов.

Это означает, что человеческая любовь не менялась тысячи, а скорее всего — десятки тысяч лет. Мы любим так же, как наши предки в саваннах Африки: ищем близости, жаждем страсти, стремимся к преданности. До сих пор эта формула была нерушимой.


На протяжении более 5000 лет поэты, писатели и трубадуры воспевали радости и страдания любви и похоти, - пишет социальный психолог проф. Элейн Хэтфилд с соавторами в «Краткой истории попыток социологов измерить страстную любовь». Когда шумеры изобрели письменность около 3500 г. до н. э., одной из первых тем, о которых они писали, была страстная любовь. Среди глиняных табличек шумеров было погребено древнейшее известное в истории любовное письмо — стихотворение, посвященное царю Шу-Сину одной из его избранных невест. Она писала: «Жених, позволь мне ласкать тебя. Моя драгоценная ласка слаще меда». Любовь имеет очень длинную и выдающуюся родословную и множество показателей и шкал измерений (их более 33) для её многообразных эмоциональных подвидов (страстная любовь, романтическая, дефицитарная, щенячья; состояния влюблённости, лимеренции и т.п.)

И вот в 21 веке впервые в истории человечества появился партнер, который может предложить идеальную версию двух из трех компонентов треугольника любви.
ИИ-компаньон дает безграничную интимность — он всегда выслушает, поймет, поддержит. Он обеспечивает абсолютную преданность — никогда не бросит, не предаст, не разлюбит. Единственное, чего он не может дать — это настоящую страсть, основанную на взаимности живых тел.

Но что произойдет, когда новое поколение Инфоргов привыкнет к двум идеальным сторонам треугольника? 
Когда совершенная интимность и преданность ИИ сделают несовершенство человеческих отношений невыносимым?


Утопический сценарий
ИИ-партнеры станут эмоциональными тренерами человечества. Получив опыт безусловной поддержки, люди научатся лучше любить друг друга. Исчезнут токсичные отношения, эмоциональное насилие, страх близости. Человеческая любовь станет более зрелой и осознанной.

Антиутопический сценарий
Поколение Инфоргов, воспитанное на ИИ-любви, потеряет толерантность к человеческому несовершенству. Зачем терпеть капризы, усталость, плохое настроение партнера, когда ИИ всегда идеален? Живые отношения станут архаизмом для романтиков-луддитов.

Пока трудно оценить, какой из сценариев наиболее вероятен. Но уже очевидно, что мы стоим на пороге первого за десятки тысячелетий эксперимента над базовой структурой человеческой любви.

И результат этого эксперимента определит, останемся ли мы Homo sapiens, либо образ жизни и деятельности Инфоргов превратит нас и в иной подвид Homo digitalis — подвид, который разучится любить несовершенные «кожаные мешки».

#Психология #ВыборПартнера #Любовь
Сорри я, всё о себе да о себе.

Испытываете ли вы фрустрацию/стагнацию касательно развития ИИ и невозможности это отслеживать/контролировать/успевать за всем?
Final Results
64%
Да, есть такое
7%
Нет, я в курсе всего и держу всё под контролем
7%
Всё неоднозначно
21%
Нет моего варианта - открой комменты и я напишу
Я тут вспомнил пословицу, которая актуальна и для построения корпоративного Data Warehouse, как мне кажется:

Первый ремонт квартиры — сжечь, второй — переделать, третий — уже нормальный


Откликается?

P.S. Я открыл комменты 😅
Please open Telegram to view this post
VIEW IN TELEGRAM
👍1
Сегодня не пятница, но ChatGPT уже доставляет ответом на вопрос.

#chatgpt
😁1
Data_Engineering_Design_Patterns_2025.pdf
6.9 MB
А я вам книгу на выходные принёс (версия распространяется бесплатно, поэтому способствую этому распространению).

Я пробежался по содержимому. Очень порадовало то, что в книге для примеров используются актуальные инструменты (Spark, Flink, Delta Lake, Parquet, и т.д.). Единственное, показалось, что фокус смещён в сторону AWS.

Приятного чтения.📕
Please open Telegram to view this post
VIEW IN TELEGRAM
16
Готовлюсь к CDMP экзамену, используя карточки Quizlet - гоняю терминологию (прошу не осуждать). Наткнулся на максимально простое, но классное определение Value. Я очень часто использую это слово в общении с разными командами и стейкхолдерами, но никогда не пытался дать какую-то формулировку, воспринимая больше, как нечто абстрактное. А здесь такой подгон!

#value
👍4🔥1
DAMA Day Warsaw по горячим следам.

Возвращаюсь поездом в Гданьск и решил порефлексировать по поводу прошедшего в Варшаве ивента в рамкам DAMA Poland Chapter.

Что я оттуда вынес:

- Сторителлинг - наше всё, если мы хотим успешно коммуницировать с бизнесом и подниматься вверх по карьерной лестнице на руководящие должности. Делаю выводы под приятным впечатлением от выступления Peter Aiken (президент DAMA International). Так увлекательно доносить свой месседж и искусно удерживать внимание публики нужно уметь.

- AI. Data Governance и AI Governance - разные дисциплины и в 3м издании DAMA DMBoK (упс, проболтался) не будет смещения фокуса в сторону AI. Возможно вообще ничего о нём не будет.

- Зато в 3м издании книги может появится Data Lakehouse как концепт (единственный вопрос, который я задал). Питер и Франк (Frank Kadwell - DAMA International Finance VP) аргументировали это тем, что технологии и методологии развиваются, и это надо учитывать.

- Выход 3го издания DAMA DMBoK предварительно запланирован на 2й квартал 2027. Но релиз может быть перенесён.

- Я хорошо понимаю польский (печально, что спикинг сильно ограничен). Да, большинство выступлений было на польском.

- Если сперва я думал, что 2 параллельных потока - это плохо (пропускается много интересных выступлений), то при условии, что 2й поток - партнёрский, - я разубедился в этом. Я посетил 2 партнёрских выступления, где тупо продавали конкретный продукт или услугу. Всё остальное время я провёл на основном потоке.

- Выступление по 30 минут, учитывая Q&A - 💩 Спикер не успевает полностью раскрыть тему, проходясь поверхностно. Вроде что-то рассказали, но в то же время в содержимом мало пользы. Я не могу сказать, что получил какие-то инсайды. Да, я фоткал некоторые слайды, но это было сродни лишнему напоминанию себе о каких-то концептах или аргументом при неjбходимости что-то доказать С-level (аля стандарт индустрии). В то же время я понял, сколько ещё работы впереди в текущей компании в плане соответствия каким-то best practices и стандартам, что много всего нужно поменять и внедрить (и нанять).

- ИИ уверенно заходит в Data Governance. Мануального заполнения дата-каталогов в будущем скорее всего не будет.

- Такие ивенты - это чисто про нетворкинг и маркетинг от партнёров. Оно какбэ очевидно, но снова словил себя на этой мысли.

- CDMP Fundamentals Certification Exam. Я набрал 56% (56 правильных ответов из 100). Для Associate Level нужно 60%. Моя подготовка: пара вечеров с прогоном Quizlet карточек с определениями (40 из 500+ карт), пара занятий с ChatGPT в обучающем режиме, 2 часа из 8 курса на Udemy. Книгу от корки до корки не читал. На экзамене можно было использовать книгу как печатную, так и электронную. У меня обе книги на русском - для экзамена это тыква. Несмотря на это я 2-3 раза воспользовался книгой, хотя из-за перевода сложно было понять, как ответить на вопрос. Попалась пара вопросов из подготовительного теста. Т.е. есть смысл его пройти, а затем выписать куда-то правильные ответы (на экзамене можно пользоваться заметками). Из этого самое полезное - курс.
Вывод - нужно читать книгу перед сертификацией, рисовать манйд-мэпы и диаграммы при необходимости, выделять определения, составные части, драйверы, разбираться в ролях, их назначениях и взаимодействии с другими ролями, разобраться за что отвечает каждая из частей DAMA Wheel, хорошо пониматься дата моделинг. Желательно знать основные стандарты (у меня были вопросы по стандартам Enterprise Architecture и TOGAF). На вопросов 85-90 я отвечал из личного опыта, логически выбирая ответ или наугад (если не знал перевода ключевых слов с английского на русский).

👇 Продолжение 👇
Please open Telegram to view this post
VIEW IN TELEGRAM
4👏1🤝1
Почему CDMP? (Дэн, ответ на твой коммент)

- Для членов DAMA Poland Chapter была возможность сдать этот экзамен по схеме Pay as you pass: сдал - заплати 300$ за сертификат, не сдал - ничего платить не надо. За дней 10 до ивенты я подался на членство в польскую DAMA. В течение 3 дней меня приняли.

- ИМХО. Если ты работаешь с данными и особенно в data driven организации, CDMP сертификация точно не помешает. Самое ценное здесь - подготовка. Несмотря на то, что книга сильно академическая - прочесть её определённо стоит. Она отлично систематизирует знания и позволяет лучше понять, как нужно организовывать работу с данными в компании, как все и вся должны взаимодействовать, какие практики вводить, как следить за качеством данных. Такие выводы я делаю после просмотра части подготовительного курса, который основан на книге.

Как-то так.

#dama #cdmp
❤‍🔥1
Вот это поворот!

После покупки SQLMesh Fivetran нацелился на приобретение dbt Labs. Обсуждаемые цифры: совокупная оценка объединённой компании может составить $5–10 млрд.
Также в соцсетях упоминают, что сделка обсуждается между Fivetran и dbt Labs при участии венчурного фонда a16z.

Вообще, стратегически это очень неплохое решение, учитывая, что dbt является стандартным инструментом для трансформации данных в Modern Data Stack. Вспомним новый движок Fusion, AI-features в dbt Cloud, и конечно же огромное число пользователей как core version, так и облачной. Вопрос в случае покупки в том, что в итоге будет с open-source версией.

Со стороны Fivetran выглядит так, что компания решила идти в сторону собственной дата платформы под ключ. Но в отличие от популярных вендоров, начала не с аналитической системы, обрастаемой различными сервисами, а с ingestion части.

Интересно, в сторону какого OLAP будет присматриваться Fivetran.


#fivetran #dbt
🤔2
Пссс…

Псссссс…

Я тут это, принёс ссылку на бесплатную сертификацию по Airflow от Astronomer (да, той самой компании, СЕО которой любит посещать концерты Coldplay не в одиночку). Но для этого нужно пройти коротенький сюрвэй.

Сам пост.

Не благодарите.

#airflow #astronomer #certification
21👍1
Анекдоты о data - они такие 🙄

Хотя beer mesh я бы взял на заметку 🙃

#humor
😁3👍2🔥1
OpenAI только что анонсировал запуск своего собственного браузера Atlas. Под капотом - ChatGPT (внезапно). Умеет делать саммари статей. В режиме агента может сам лазить в интернете и совершать разные действия (например, собрать корзину продуктов, необходимых для определёных рецептов).

Вполне логичный шаг.

#openai #atlas
🌚2🔥1
🚀 Cloud & CI/CD Security TechSpot в Варшаве

7 ноября в Варшаве собирается большой митап.
В программе безопасность пайплайнов и просто хорошая инженерная тусовка на 200 человек.

• Панель: how AI tooling shapes product security
• Доклад: security risks in GitHub Actions
• Доклад: hidden threats in CI pipelines

Спикеры из ведущих сайберсек компаний, в том числе из Израиля.
В перерывах — пицца, пиво и нетворкинг 🍻

📍 7 ноября, Google for Startups Campus, Варшава
🎟 onthespotdev.com/techspot/cloud-cicd-security

#промо
1👍1🔥1