Знаєте, зараз багато вертиться на тему, а чи генеративне ШІ, замінить, не замінить когось, чи потрібно їм користуватись чи ні і тд.
Це я до використання ChatGPT, Copilot, Gemini, deepseek, etc.
І в цей момент натрапив на простеньку статтю
🔗5 способів, як я використовую ChatGPT для вдосконалення моїх навичок SQL
Для розуміння, я дуже боявся "підсісти" на ChatGPT, бо це питання в мене з'явилось після перегляду фільму Leave The World Behin (Ілюзія безпеки 2023).
І оті жарти про "не працює stckoverflow і тепер ти не розробник" - ставав вже не настільки смішним🤡
І після великої кількості спілкування між друзями, іншими спеціалістами, колегами, стало зрозуміло, що НЕ потрібно бути споживачем і тоді все буде гаразд.
Отже, я маю на увазі, що ключовим є активне використання інструментів ШІ як засобу для власного розвитку, а не як легкого шляху до спрощення процесу. Інтегруючи генеративні моделі в свою роботу чи навчання, ми можемо:
* Підвищити ефективність: Використовувати ШІ для генерації ідей, розв’язання рутинних завдань або оптимізації процесів.
* Розвивати критичне мислення: Аналізувати та перевіряти результати, що допомагає вдосконалювати власні знання та навички.
* Залишатися конкурентоспроможними: Застосовуючи ШІ як інструмент, а не заміну власної експертизи, ми продовжуємо вчитись, адаптуватись до змін та створювати інновації.
Таким чином, головне — не стати пасивним споживачем технологій, а інтегрувати їх у свій процес розвитку, що дозволить нам зберегти власну унікальність і майстерність у постійно мінливому світі ІТ та інших галузях.
>> Від слів "Отже, я маю на увазі,...", далі сгенерованно by ChatGPT 🫣
А в самій статті, наводиться приклад, як людина за допомогою ChatGPT намагається вдосконалити свої навички - і це якраз до чого цей пост.
А ви завжди можете задати будь-які питання в наших групах для спілкування, з людьми 😆
======
Data Analysis UA - група аналітиків даних
Data Engineer UA - група інженерів
FaceBook - загальна група в ФБ
Twitter (X) - канал Twitter (x)
======
Це я до використання ChatGPT, Copilot, Gemini, deepseek, etc.
І в цей момент натрапив на простеньку статтю
🔗5 способів, як я використовую ChatGPT для вдосконалення моїх навичок SQL
Для розуміння, я дуже боявся "підсісти" на ChatGPT, бо це питання в мене з'явилось після перегляду фільму Leave The World Behin (Ілюзія безпеки 2023).
І оті жарти про "не працює stckoverflow і тепер ти не розробник" - ставав вже не настільки смішним🤡
І після великої кількості спілкування між друзями, іншими спеціалістами, колегами, стало зрозуміло, що НЕ потрібно бути споживачем і тоді все буде гаразд.
Отже, я маю на увазі, що ключовим є активне використання інструментів ШІ як засобу для власного розвитку, а не як легкого шляху до спрощення процесу. Інтегруючи генеративні моделі в свою роботу чи навчання, ми можемо:
* Підвищити ефективність: Використовувати ШІ для генерації ідей, розв’язання рутинних завдань або оптимізації процесів.
* Розвивати критичне мислення: Аналізувати та перевіряти результати, що допомагає вдосконалювати власні знання та навички.
* Залишатися конкурентоспроможними: Застосовуючи ШІ як інструмент, а не заміну власної експертизи, ми продовжуємо вчитись, адаптуватись до змін та створювати інновації.
Таким чином, головне — не стати пасивним споживачем технологій, а інтегрувати їх у свій процес розвитку, що дозволить нам зберегти власну унікальність і майстерність у постійно мінливому світі ІТ та інших галузях.
>> Від слів "Отже, я маю на увазі,...", далі сгенерованно by ChatGPT 🫣
А в самій статті, наводиться приклад, як людина за допомогою ChatGPT намагається вдосконалити свої навички - і це якраз до чого цей пост.
А ви завжди можете задати будь-які питання в наших групах для спілкування, з людьми 😆
======
Data Analysis UA - група аналітиків даних
Data Engineer UA - група інженерів
FaceBook - загальна група в ФБ
Twitter (X) - канал Twitter (x)
======
data-life-ua
5 способів, як я використовую ChatGPT для вдосконалення моїх навичок SQL - data-life-ua
Як аналітик даних, я виявив, що ChatGPT є ключовим інструментом для вдосконалення моїх навичок SQL. Я використовую ChatGPT у багатьох цілях, включаючи перевірку мого SQL-коду на наявність синтаксичних помилок, перегляд повідомлень про помилки, додавання коментарів…
🔥13👍7
This media is not supported in your browser
VIEW IN TELEGRAM
Наука про дані це завжди цікаво, а інколи це ще й дуже креативно!
Ось вам на вечір під пиво, пивний графік (beer-bar-chart)😆🍺
Хотів зробити ще в Пт, але вийшло тільки сьогодні
По флудить на цю тему, можна в одній з наших груп
======
Data Analysis UA - група аналітиків даних
Data Engineer UA - група інженерів
FaceBook - загальна група в ФБ
Twitter (X) - канал Twitter (x)
======
П.С. якщо наберете 22🤓 ще й поділюсь самим файлом excel
Ось вам на вечір під пиво, пивний графік (beer-bar-chart)😆
Хотів зробити ще в Пт, але вийшло тільки сьогодні
По флудить на цю тему, можна в одній з наших груп
======
Data Analysis UA - група аналітиків даних
Data Engineer UA - група інженерів
FaceBook - загальна група в ФБ
Twitter (X) - канал Twitter (x)
======
П.С. якщо наберете 22🤓 ще й поділюсь самим файлом excel
Please open Telegram to view this post
VIEW IN TELEGRAM
🤓48🆒5😍3🍾3😁1
Запрошуємо на SKELAR Analytics Meetup!
ТОП-експерти у продуктовому ІТ говоритимуть про Data-driven підхід: від прийняття рішень до управління командою.
На події:
- Олег Парандій, Chief Analyst at TENTENS Tech, розкаже про те, як ліду встигати розвиватись самому, формуючи команду аналітиків;
- Ганна Пономарьова, Analytics Senior Team Lead at Plarium, поділиться практичними кейсами розробки і імплементації сегментації;
- Микита Свідло, Business Development Analyst at Uklon, підсвітить чому Analytics as a Services (AaaS) — шлях до data-driven компанії.
Після виступів запланований неформальний нетворкінг з учасниками та спікерами події.
Коли: 23 квітня, 19:00.
Формат: офлайн-лекції з онлайн-трансляцією. Участь безкоштовна.
Локація: Київ, офіс SKELAR, Костянтинівська 71.
Організатори прагнуть надати максимально корисний контент, відтак збирають учасників зі схожим бекграундом та досвідом. Відповідно триває відбір на офлайн участь.
Реєструйтесь і очікуйте на підтвердження свого запрошення за посиланням: https://bit.ly/3Es9xNw.
ТОП-експерти у продуктовому ІТ говоритимуть про Data-driven підхід: від прийняття рішень до управління командою.
На події:
- Олег Парандій, Chief Analyst at TENTENS Tech, розкаже про те, як ліду встигати розвиватись самому, формуючи команду аналітиків;
- Ганна Пономарьова, Analytics Senior Team Lead at Plarium, поділиться практичними кейсами розробки і імплементації сегментації;
- Микита Свідло, Business Development Analyst at Uklon, підсвітить чому Analytics as a Services (AaaS) — шлях до data-driven компанії.
Після виступів запланований неформальний нетворкінг з учасниками та спікерами події.
Коли: 23 квітня, 19:00.
Формат: офлайн-лекції з онлайн-трансляцією. Участь безкоштовна.
Локація: Київ, офіс SKELAR, Костянтинівська 71.
Організатори прагнуть надати максимально корисний контент, відтак збирають учасників зі схожим бекграундом та досвідом. Відповідно триває відбір на офлайн участь.
Реєструйтесь і очікуйте на підтвердження свого запрошення за посиланням: https://bit.ly/3Es9xNw.
👍6🔥2
Я вже давно не копаюсь у статистиці з головою, але іноді читаю чи дивлюсь щось — щоб мізки не заіржавіли 🤓
⠀
Нещодавно натрапив на фільм Jerry & Marge Go Large (ось тут Wikipedia) — комедія з мозком! Головний герой — майже як ми з вами: аналітик у відставці, що бачить закономірності там, де інші бачать лише цифри. Словом, кайф.
А потім читаю новини: США підняли мита для Китаю → Китай такий: ага, ми теж → США: ну і ми знову!
⠀
І тут в голові клац — це ж дилема в'язнів у чистому вигляді! Теорія ігор, класика жанру: два "гравці", які могли би співпрацювати, але замість цього шкодять собі обом 🫣
⠀
Щоб освіжити пам’ять, ось відео українською, де все дуже доступно пояснюють.
⠀
А ще я зібрав приклади з життя в статті:
🔗 ДИЛЕМА В’ЯЗНІВ: КЛАСИЧНА МОДЕЛЬ З ТЕОРІЇ ІГОР
Можемо пофлудіти на цю тему в наших групах🤗
І не забуваймо: аналітика — це не тільки про цифри, але й про поведінкові патерни
======
Data Analysis UA - група аналітиків даних
Data Engineer UA - група інженерів
FaceBook - загальна група в ФБ
Twitter (X) - канал Twitter (x)
======
⠀
Нещодавно натрапив на фільм Jerry & Marge Go Large (ось тут Wikipedia) — комедія з мозком! Головний герой — майже як ми з вами: аналітик у відставці, що бачить закономірності там, де інші бачать лише цифри. Словом, кайф.
А потім читаю новини: США підняли мита для Китаю → Китай такий: ага, ми теж → США: ну і ми знову!
⠀
І тут в голові клац — це ж дилема в'язнів у чистому вигляді! Теорія ігор, класика жанру: два "гравці", які могли би співпрацювати, але замість цього шкодять собі обом 🫣
⠀
Щоб освіжити пам’ять, ось відео українською, де все дуже доступно пояснюють.
⠀
А ще я зібрав приклади з життя в статті:
🔗 ДИЛЕМА В’ЯЗНІВ: КЛАСИЧНА МОДЕЛЬ З ТЕОРІЇ ІГОР
Можемо пофлудіти на цю тему в наших групах🤗
І не забуваймо: аналітика — це не тільки про цифри, але й про поведінкові патерни
======
Data Analysis UA - група аналітиків даних
Data Engineer UA - група інженерів
FaceBook - загальна група в ФБ
Twitter (X) - канал Twitter (x)
======
🔥22
Щось сиділи з колегами і почали розмовляти про Master/Slave
З технічного точку зору - це процес реплікації БД, де створюється копія даних. Тобто є головна БД (master) і є підпорядкована БД (slave). Ми все пишемо в мастер, а під копотом БД є механізм реплікації, де підпорядкована бд(slave) вичитує журнал змін
у кожного БД вони по своєму називаються
* PostgreSQL - WAL (Write-Ahead Log)
* Oracle - Uno/Redo Logs
* MySQL - Binary Logs
ітд
Далі в себе виконує аналогічні дії, що були зроблені в мастері (головній БД).
І так в нас виходить, що в одну ми пишемо, а з іншої читаємо - це робиться для розподілення навантаження, а також для збереження даних. (Ще є підхід мастер/мастер, але сьогодні не про це)...
Так ось і тут я згадав шо, під тиском толерантності (Парадокс толерантності )
Виробники БД, були вимушені (нажаль не знайшов точної дати від коли +/-2020) прибрати такі вирази як master/slave🙈
master - з англ. господар (одне з перекладів)
slave - з англ. раб (одне з перекладів)
І от вже в документаціях, наприклад PostgreSQL використовує поняття як
Primary/Standby
Просто інфо на вечір, всім гарної і тихої ночі
І дякуємо всім хто зараз боронить нашу землю і нас ❤️🇺🇦
Поспілкуватись на цю тему можемо в наших групах, долучайтесь
======
Data Analysis UA - група аналітиків даних
Data Engineer UA - група інженерів
FaceBook - загальна група в ФБ
Twitter (X) - канал Twitter (x)
======
З технічного точку зору - це процес реплікації БД, де створюється копія даних. Тобто є головна БД (master) і є підпорядкована БД (slave). Ми все пишемо в мастер, а під копотом БД є механізм реплікації, де підпорядкована бд(slave) вичитує журнал змін
у кожного БД вони по своєму називаються
* PostgreSQL - WAL (Write-Ahead Log)
* Oracle - Uno/Redo Logs
* MySQL - Binary Logs
ітд
Далі в себе виконує аналогічні дії, що були зроблені в мастері (головній БД).
І так в нас виходить, що в одну ми пишемо, а з іншої читаємо - це робиться для розподілення навантаження, а також для збереження даних. (Ще є підхід мастер/мастер, але сьогодні не про це)...
Так ось і тут я згадав шо, під тиском толерантності (Парадокс толерантності )
Виробники БД, були вимушені (нажаль не знайшов точної дати від коли +/-2020) прибрати такі вирази як master/slave🙈
master - з англ. господар (одне з перекладів)
slave - з англ. раб (одне з перекладів)
І от вже в документаціях, наприклад PostgreSQL використовує поняття як
Primary/Standby
Просто інфо на вечір, всім гарної і тихої ночі
І дякуємо всім хто зараз боронить нашу землю і нас ❤️🇺🇦
Поспілкуватись на цю тему можемо в наших групах, долучайтесь
======
Data Analysis UA - група аналітиків даних
Data Engineer UA - група інженерів
FaceBook - загальна група в ФБ
Twitter (X) - канал Twitter (x)
======
🔥18❤8🤯1
#oleg_agapov
До того, як я почав працювати Analytics Engineer'ом, я працював аналітиком даних. Моя щоденна робота полягала в отриманні даних з бази даних, їх аналізі та створенні дашбордів. І моїм найбільшим страхом було, коли стейкхолдери запитували "чи правильні ці дані? ти впевнений?". Тоді мені доводилося вручну перевіряти багато місць і навіть скрупульозно перевіряти конкретні data points, щоб переконатися, що дані коректні.
У сьогоднішньому світі я набагато впевненіший у якості даних, тому що я пишу тести 🔬. Коли я почав використовувати фреймворк dbt, я був вражений його можливостям тестування даних і тим, наскільки легко впроваджувати такі тести.
З часом я розробив систему того, як будувати тестування даних для аналітики. Я виділяю три рівні.
1️⃣ Тестування шарів моделювання (modeling layers). В dbt існує 3 популярні типи моделей – staging, marts, intermediates, плюс джерела (dbt sources). Ви можете тестувати дані на свіжість, відсутні значення (NOT NULL test), унікальність, повноту, очікувані значення та багато іншого. Я зазвичай впроваджую багато тестів на початку конвеєра даних (для staging моделей) щоб бути впевненим що я будую таблиці на коректних даних, а також багато тестів на останньому кроці (data marts), щоб впевнетись, що бізнес стейкхолдери не мають багів.
2️⃣ Тестування в середовищах. dbt може працювати в різних середовищах коду, таких як development, staging та production. Це дозволяє запускати тести під час розробки моделей, перед деплоєм нового коду в продакшн, а також під час запусків за розкладом у проді.
3️⃣ Нарешті, dbt дозволяє налаштовувати критичність тестів (severity). За замовчуванням всі фейли тестів є помилками (errors), але ви можете понизити тест до попередження (warnings), якщо хочете. Наприклад, іноді я роблю це для тестів, де не критично виправити проблему негайно. Також можливо встановити різні пороги для тесту, наприклад, сповіщати вас, тільки якщо є 10 або більше фейлів.
А як ви тестуєте свої дані? Дайте мені знати в коментарях, якщо хочете більш детального розбору конкретної частини тестування даних.
======
Data Analysis UA - група аналітиків даних
Data Engineer UA - група інженерів
FaceBook - загальна група в Facebook
Twitter (X) - канал в X (Twitter)
======
До того, як я почав працювати Analytics Engineer'ом, я працював аналітиком даних. Моя щоденна робота полягала в отриманні даних з бази даних, їх аналізі та створенні дашбордів. І моїм найбільшим страхом було, коли стейкхолдери запитували "чи правильні ці дані? ти впевнений?". Тоді мені доводилося вручну перевіряти багато місць і навіть скрупульозно перевіряти конкретні data points, щоб переконатися, що дані коректні.
У сьогоднішньому світі я набагато впевненіший у якості даних, тому що я пишу тести 🔬. Коли я почав використовувати фреймворк dbt, я був вражений його можливостям тестування даних і тим, наскільки легко впроваджувати такі тести.
З часом я розробив систему того, як будувати тестування даних для аналітики. Я виділяю три рівні.
1️⃣ Тестування шарів моделювання (modeling layers). В dbt існує 3 популярні типи моделей – staging, marts, intermediates, плюс джерела (dbt sources). Ви можете тестувати дані на свіжість, відсутні значення (NOT NULL test), унікальність, повноту, очікувані значення та багато іншого. Я зазвичай впроваджую багато тестів на початку конвеєра даних (для staging моделей) щоб бути впевненим що я будую таблиці на коректних даних, а також багато тестів на останньому кроці (data marts), щоб впевнетись, що бізнес стейкхолдери не мають багів.
2️⃣ Тестування в середовищах. dbt може працювати в різних середовищах коду, таких як development, staging та production. Це дозволяє запускати тести під час розробки моделей, перед деплоєм нового коду в продакшн, а також під час запусків за розкладом у проді.
3️⃣ Нарешті, dbt дозволяє налаштовувати критичність тестів (severity). За замовчуванням всі фейли тестів є помилками (errors), але ви можете понизити тест до попередження (warnings), якщо хочете. Наприклад, іноді я роблю це для тестів, де не критично виправити проблему негайно. Також можливо встановити різні пороги для тесту, наприклад, сповіщати вас, тільки якщо є 10 або більше фейлів.
А як ви тестуєте свої дані? Дайте мені знати в коментарях, якщо хочете більш детального розбору конкретної частини тестування даних.
======
Data Analysis UA - група аналітиків даних
Data Engineer UA - група інженерів
FaceBook - загальна група в Facebook
Twitter (X) - канал в X (Twitter)
======
Getdbt
Add data tests to your DAG | dbt Developer Hub
Configure dbt data tests to assess the quality of your input data and ensure accuracy in resulting datasets.
🔥34❤4🙏1
#oleg_agapov
За останні 12 місяців я провів близько 40 співбесід на позиції дата аналітика та аналітика-інженера (analytics engineer). Я помітив, що багато кандидатів мають хибне уявлення про те, що є важливим на співбесіді.
Переважна більшість вважає, що саме технічні навички виділять їх серед інших. Однак, хоча технічно сильних кандидатів багато, вирішальними є інші фактори.
На співбесіді я перевіряю три складові:
- технічні навички (зрозуміло)
- розуміння бізнесу (що значать цифри)
- комунікативні навички (легкість в спілкуванні)
Тепер по черзі.
Технічні навички 👨💻
1. SQL: розуміння основ (SELECT, WHERE), віконних функцій, логіки запитів та їх оптимізації.
2. dbt (для аналітик-інженерів): моделі, тести, модульність, документація, пакети та найкращі практики.
3. Моделювання даних: dimensional design, факти та виміри, slowly changing dimensions.
4. Дата пайплайни: розуміння того, як дані перетікають між джерелами та трансформуються в аналітику (глибоке знання Python необов'язкове, але є перевагою).
Розуміння бізнес-контексту 📊
1. Знання ключових метрик: MAU, retention rate, конверсія, відтік, LTV/CAC.
2. Вміння перетворювати нечіткі запити в конкретні задачі. Контрольне питання: що робитимеш, якщо недостатньо вхідних даних для вирішення задачі?
3. Здатність пов'язувати роботу з бізнес-результатами та розуміння впливу даних на прийняття рішень. Контрольне питання: як ваша робота допомогла бізнесу?
Комунікативні навички 💬
1. Фокус на чіткості та легкості відповідей на складні питання. Іноді на прості питання кандидати починають говорити "аби щось" просто щоб не мовчати. Краще вже відповісти "я не знаю", аніж вигадувати казочки.
2. Дивлюсь на те, як кандидат пояснює припущення та методології. Дуже класно, якщо також обговорює компроміси та альтернативні рішення.
3. Обов'язково питаю про співпрацю зі стейкхолдерами різних рівнів. Якщо кандидат на минулому місці спілкувався тільки зі своїм менеджером, то це дуже серйозний red flag.
======
Data Analysis UA - група аналітиків даних
Data Engineer UA - група інженерів
FaceBook - загальна група в Facebook
Twitter (X) - канал в X (Twitter)
======
За останні 12 місяців я провів близько 40 співбесід на позиції дата аналітика та аналітика-інженера (analytics engineer). Я помітив, що багато кандидатів мають хибне уявлення про те, що є важливим на співбесіді.
Переважна більшість вважає, що саме технічні навички виділять їх серед інших. Однак, хоча технічно сильних кандидатів багато, вирішальними є інші фактори.
На співбесіді я перевіряю три складові:
- технічні навички (зрозуміло)
- розуміння бізнесу (що значать цифри)
- комунікативні навички (легкість в спілкуванні)
Тепер по черзі.
Технічні навички 👨💻
1. SQL: розуміння основ (SELECT, WHERE), віконних функцій, логіки запитів та їх оптимізації.
2. dbt (для аналітик-інженерів): моделі, тести, модульність, документація, пакети та найкращі практики.
3. Моделювання даних: dimensional design, факти та виміри, slowly changing dimensions.
4. Дата пайплайни: розуміння того, як дані перетікають між джерелами та трансформуються в аналітику (глибоке знання Python необов'язкове, але є перевагою).
Розуміння бізнес-контексту 📊
1. Знання ключових метрик: MAU, retention rate, конверсія, відтік, LTV/CAC.
2. Вміння перетворювати нечіткі запити в конкретні задачі. Контрольне питання: що робитимеш, якщо недостатньо вхідних даних для вирішення задачі?
3. Здатність пов'язувати роботу з бізнес-результатами та розуміння впливу даних на прийняття рішень. Контрольне питання: як ваша робота допомогла бізнесу?
Комунікативні навички 💬
1. Фокус на чіткості та легкості відповідей на складні питання. Іноді на прості питання кандидати починають говорити "аби щось" просто щоб не мовчати. Краще вже відповісти "я не знаю", аніж вигадувати казочки.
2. Дивлюсь на те, як кандидат пояснює припущення та методології. Дуже класно, якщо також обговорює компроміси та альтернативні рішення.
3. Обов'язково питаю про співпрацю зі стейкхолдерами різних рівнів. Якщо кандидат на минулому місці спілкувався тільки зі своїм менеджером, то це дуже серйозний red flag.
======
Data Analysis UA - група аналітиків даних
Data Engineer UA - група інженерів
FaceBook - загальна група в Facebook
Twitter (X) - канал в X (Twitter)
======
Linkedin
How to ace your Analytics Engineering interview | Oleg Agapov posted on the topic | LinkedIn
Want to ace your Analytics Engineering interview?
To succeed in an analytics engineering interview, you need three main skills:
- technical proficiency
- understanding business needs
- have strong communication skills
Let’s brake it down 👇
🔹 Technical…
To succeed in an analytics engineering interview, you need three main skills:
- technical proficiency
- understanding business needs
- have strong communication skills
Let’s brake it down 👇
🔹 Technical…
👍23❤2
Якщо ви працюєте в аналітикі, то ви майже точно працюєте із SQL. Якщо ні — то ви або ще не працюєте, або вже не працюєте.
SQL — дуже класна мова, тому що навіть зі знанням базового синтаксису ви вже можете отримувати результати від її використання. З часом, заглиблюючись у неї, ви починаєте відкривати для себе новий синтаксис і техніки, які роблять вашу роботу ще потужнішою.
Я зібрав для вас інфографіку з моїми улюбленими техніками в SQL:
🔷 WHERE 1=1
🔷 SQL змінні в CTE
🔷 QUALIFY замість підзапитів
🔷 LATERAL views
🔷 LIST_AGG / ARRAY_AGG
🔷 Операції з множинами
Зберігайте картинку та поширюйте із колегами! ♻️
А також пишіть у коментарях ваші улюблені техніки.
#oleg_agapov
SQL — дуже класна мова, тому що навіть зі знанням базового синтаксису ви вже можете отримувати результати від її використання. З часом, заглиблюючись у неї, ви починаєте відкривати для себе новий синтаксис і техніки, які роблять вашу роботу ще потужнішою.
Я зібрав для вас інфографіку з моїми улюбленими техніками в SQL:
🔷 WHERE 1=1
🔷 SQL змінні в CTE
🔷 QUALIFY замість підзапитів
🔷 LATERAL views
🔷 LIST_AGG / ARRAY_AGG
🔷 Операції з множинами
Зберігайте картинку та поширюйте із колегами! ♻️
А також пишіть у коментарях ваші улюблені техніки.
#oleg_agapov
❤25🔥12❤🔥1
Останній час, у нас в спільноті
======
Data Analysis UA - група аналітиків даних
Data Engineer UA - група інженерів
FaceBook - загальна група в Facebook
Twitter (X) - канал в X (Twitter)
======
з'являються дуже багато питань, з приводу інфраструктури і хтось рекомендує одну БД, хтось іншу, десь йдуть розмови які хмари краще, які інструменти візуалізації ліпші і тд.
Але, це все інструменти і на мою думку, оця фраза зі статті
🔗Основи, а не яскраві інструменти
Описує прям всю суть, як потрібно розвиватись і куди розвиватись
Як на мене, це просто топчик 🤩
Можу сказати, що на своєму досвіді по навчанню дуже часто стикався, що на перших потугах, в тебе 100500 інструментів, мов, сервісів і тд, і ти не можеш зрозуміти, з чого ж почати. Ця стаття якраз розкриває підхід, котрого я притримуюсь останні роки.
Не важливо, який зараз в топі, зараз в топі Snowflake, BigQuery, Databricks, Athena - але це виключно розподіленні БД (MPP DB).
Знаючи, як працює хоча б одна + розуміння як вцілому це має працювати, ви спокійно зможете працювати і з іншим інструментом.
Сьогодні це Tableau, PowerBI - інструменти для візуалізації даних, завтра стане щось інше, але головний концепт вони використовують один і потрібно розуміти саме його.
Тому не розпилюйтесь вивчайте основи🤗
======
Data Analysis UA - група аналітиків даних
Data Engineer UA - група інженерів
FaceBook - загальна група в Facebook
Twitter (X) - канал в X (Twitter)
======
з'являються дуже багато питань, з приводу інфраструктури і хтось рекомендує одну БД, хтось іншу, десь йдуть розмови які хмари краще, які інструменти візуалізації ліпші і тд.
Але, це все інструменти і на мою думку, оця фраза зі статті
🔗Основи, а не яскраві інструменти
Описує прям всю суть, як потрібно розвиватись і куди розвиватись
Пам'ятайте, що у швидкоплинному світі інженерії даних мова йде не про новітні інструменти чи програмне забезпечення. Йдеться про вічні принципи, які лежать в їх основі
Як на мене, це просто топчик 🤩
Можу сказати, що на своєму досвіді по навчанню дуже часто стикався, що на перших потугах, в тебе 100500 інструментів, мов, сервісів і тд, і ти не можеш зрозуміти, з чого ж почати. Ця стаття якраз розкриває підхід, котрого я притримуюсь останні роки.
Не важливо, який зараз в топі, зараз в топі Snowflake, BigQuery, Databricks, Athena - але це виключно розподіленні БД (MPP DB).
Знаючи, як працює хоча б одна + розуміння як вцілому це має працювати, ви спокійно зможете працювати і з іншим інструментом.
Сьогодні це Tableau, PowerBI - інструменти для візуалізації даних, завтра стане щось інше, але головний концепт вони використовують один і потрібно розуміти саме його.
Тому не розпилюйтесь вивчайте основи🤗
Інструменти - це лише початок
Ваша здатність ефективно ділитися інсайтами може перетворити дані на дії та рішення, подолавши розрив між цифрами та реальним впливом.
👍11❤6🔥3
Я іноді спілкуюсь із підписниками, котрі бажають перейти з дата аналітиків в аналітикс інженери. І майже всі на моє питання "А чому?" відповідали, що хочуть просто писати SQL у dbt.
Проблема в тому, що це тільки верхівка айсберга. Окрім написання SQL, аналітикс-інженери повинні:
- спілкуватися із бізнес-стейкхолдерами
- проєктувати та розробляти дата-моделі
- підтримувати дата-інфраструктуру (сховище, ETL)
- підтримувати та навчати користувачів ваших моделей
Тому так, з одного боку тут трохи менше класичного аналізу, проте з'являється набагато більше інженерії окрім "написання SQL у dbt".
#oleg_agapov
======
Data Analysis UA - група аналітиків даних
Data Engineer UA - група інженерів
FaceBook - загальна група в Facebook
Twitter (X) - канал в X (Twitter)
======
Проблема в тому, що це тільки верхівка айсберга. Окрім написання SQL, аналітикс-інженери повинні:
- спілкуватися із бізнес-стейкхолдерами
- проєктувати та розробляти дата-моделі
- підтримувати дата-інфраструктуру (сховище, ETL)
- підтримувати та навчати користувачів ваших моделей
Тому так, з одного боку тут трохи менше класичного аналізу, проте з'являється набагато більше інженерії окрім "написання SQL у dbt".
#oleg_agapov
======
Data Analysis UA - група аналітиків даних
Data Engineer UA - група інженерів
FaceBook - загальна група в Facebook
Twitter (X) - канал в X (Twitter)
======
❤15👍7
📈 А ви знали, що у 2025 році обсяг даних у світі сягне 181 зетабайта? Це в 90+ разів більше, ніж у 2010, коли цей показник становив лише 2 зетабайти.
Тож, як з мільйонів рядків даних отримати зрозумілі рішення?
Щоб масштабувати бізнес-аналітику, оптимізувати роботу з даними та покращити ефективність ML-моделей — необхідно вміти обробляти та аналізувати великі дані, а з цим допоможе курс «Основи обробки та аналітики Big Data» від robot_dreams.
За 24 заняття ви:
📌 сформуєте цілісне бачення архітектури масштабованих дата-систем
📌 навчитеся збирати, трансформувати й валідувати дані з різних джерел
📌 опануєте Spark, Kafka, dbt, Airflow, Snowflake, Athena, Power BI
📌 автоматизуєте пайплайни та налаштуєте ETL/ELT-процеси
📌 побудуєте власний data pipeline
Лектор: Денис Кулемза — Senior Data Engineer в Intellias, понад 5 років досвіду роботи з Big Data, оптимізував процеси обробки великих даних, будував сховища, створював ETL-процеси.
Старт: 30 червня
Деталі, програма та реєстрація ⬅️
Тож, як з мільйонів рядків даних отримати зрозумілі рішення?
Щоб масштабувати бізнес-аналітику, оптимізувати роботу з даними та покращити ефективність ML-моделей — необхідно вміти обробляти та аналізувати великі дані, а з цим допоможе курс «Основи обробки та аналітики Big Data» від robot_dreams.
За 24 заняття ви:
📌 сформуєте цілісне бачення архітектури масштабованих дата-систем
📌 навчитеся збирати, трансформувати й валідувати дані з різних джерел
📌 опануєте Spark, Kafka, dbt, Airflow, Snowflake, Athena, Power BI
📌 автоматизуєте пайплайни та налаштуєте ETL/ELT-процеси
📌 побудуєте власний data pipeline
Лектор: Денис Кулемза — Senior Data Engineer в Intellias, понад 5 років досвіду роботи з Big Data, оптимізував процеси обробки великих даних, будував сховища, створював ETL-процеси.
Старт: 30 червня
Деталі, програма та реєстрація ⬅️
❤3👍1🔥1
Зараз на роботі йде повним ходом міграція, переїзд.
Що це таке:
Уявіть, що ви якесь підприємство, котре продає товари і ці товари у вас зберігаються на складі. І от настав день і вам потрібно переїхати на інший склад. Тобто спочатку вам потрібно перевірити що у вас є на теперешньому складі, і в момент переїзду бути впевненим, що всі товари переїхали в тій кількості скільки і було, ви не взяли чогось лишнього і ніякі товари не зіпсувались.
В нашому випадку, товар це дані і ми їх будемо перевозити🤞
Різниця тільки в тому, що наш новий склад має іншу структуру і потрібно переробити дані під нову структуру🥲
В цілому я б назвав цей процес як DQAF - Data Quality Assessment Framework або система оцінка якості даних.
І натрапив на цікаву статтю де розкриваються всі аспекти якості даних, рекомендасьойон
🔗DataQuality що це таке і чому це важливо
А як ви відноситесь до DataQuality/ Точності даних? можемо побалакати на цю тему в наших групах
======
Data Analysis UA - група аналітиків даних
Data Engineer UA - група інженерів
FaceBook - загальна група в Facebook
Twitter (X) - канал в X (Twitter)
======
#data-life-ua
Що це таке:
Уявіть, що ви якесь підприємство, котре продає товари і ці товари у вас зберігаються на складі. І от настав день і вам потрібно переїхати на інший склад. Тобто спочатку вам потрібно перевірити що у вас є на теперешньому складі, і в момент переїзду бути впевненим, що всі товари переїхали в тій кількості скільки і було, ви не взяли чогось лишнього і ніякі товари не зіпсувались.
В нашому випадку, товар це дані і ми їх будемо перевозити🤞
Різниця тільки в тому, що наш новий склад має іншу структуру і потрібно переробити дані під нову структуру🥲
В цілому я б назвав цей процес як DQAF - Data Quality Assessment Framework або система оцінка якості даних.
І натрапив на цікаву статтю де розкриваються всі аспекти якості даних, рекомендасьойон
🔗DataQuality що це таке і чому це важливо
А як ви відноситесь до DataQuality/ Точності даних? можемо побалакати на цю тему в наших групах
======
Data Analysis UA - група аналітиків даних
Data Engineer UA - група інженерів
FaceBook - загальна група в Facebook
Twitter (X) - канал в X (Twitter)
======
#data-life-ua
👍9🔥5❤2
Як ви всі бачите, зараз з'явився великий попит на AI-асистентів, LLM, NLP, генеративний ШІ, як то кажуть ML та нейроні мережі це не вже "торт".
Мені дуже цікава ця тема, бо бачу там напрямок для свого зростання але те що читаю про всі ці напрямки і звучить це все прикольно, але як розгортати та навчати такі моделі, зовсім не зрозуміло.
Люблю спочатку розібратись в питанні, а потім вже його імплементувати десь в роботі. Бо для мене це завжди біль, коли аналітик хоче впровадити якесь "машинне навчання" але при цьому не розуміє, що там під копотом звичайна ARIMA і взагалі людині всеодно, головне щоб прогноз був точний... але він точний сьогодні, а завтра ні, тому що немає розуміння як воно працює.
Можливо я скептик, але кажу як є, тому завтра буде анонс мітапа, нажаль онлайн, але в наш час гадаю будь-який мітап - це вже дуже круто, що він стається🇺🇦🦾
Хочу на нього сходить і от вам рекомендую)
А як ви відноситесь до інтеграції таких речей?
Поспілкуємось
======
Data Analysis UA - група аналітиків даних
Data Engineer UA - група інженерів
FaceBook - загальна група в Facebook
Twitter (X) - канал в X (Twitter)
======
#data-life-ua
Мені дуже цікава ця тема, бо бачу там напрямок для свого зростання але те що читаю про всі ці напрямки і звучить це все прикольно, але як розгортати та навчати такі моделі, зовсім не зрозуміло.
Люблю спочатку розібратись в питанні, а потім вже його імплементувати десь в роботі. Бо для мене це завжди біль, коли аналітик хоче впровадити якесь "машинне навчання" але при цьому не розуміє, що там під копотом звичайна ARIMA і взагалі людині всеодно, головне щоб прогноз був точний... але він точний сьогодні, а завтра ні, тому що немає розуміння як воно працює.
Можливо я скептик, але кажу як є, тому завтра буде анонс мітапа, нажаль онлайн, але в наш час гадаю будь-який мітап - це вже дуже круто, що він стається🇺🇦🦾
Хочу на нього сходить і от вам рекомендую)
А як ви відноситесь до інтеграції таких речей?
Поспілкуємось
======
Data Analysis UA - група аналітиків даних
Data Engineer UA - група інженерів
FaceBook - загальна група в Facebook
Twitter (X) - канал в X (Twitter)
======
#data-life-ua
👍17❤6
У світі даних є багато можливостей для карʼєри.
Є багато посад та багато варіантів відшукати саме те, що може сподобатися саме вам.
Як на мене, ваша кар'єра може розвиватися за кількома осями.
🔹 Перша вісь: технології або бізнес.
Ви віддаєте перевагу створенню дата пайплайнів та систем чи аналізу даних та презентації їх бізнес-стейкхолдерам?
🔹 Друга вісь: універсал або спеціаліст.
Ви б краще оволоділи однією чи двома конкретними областями, чи розвинули ширші знання у декількох сферах даних?
🔹 Нарешті, існують три основні кластери:
→ Інженерія
→ Аналітика
→ Менеджмент
Якщо ви на початку своєї кар'єри, перед вами відкриваються широкі можливості. Та навіть якщо ви досвідчений професіонал, все одно є багато шляхів для зростання.
#oleg_agapov
Є багато посад та багато варіантів відшукати саме те, що може сподобатися саме вам.
Як на мене, ваша кар'єра може розвиватися за кількома осями.
🔹 Перша вісь: технології або бізнес.
Ви віддаєте перевагу створенню дата пайплайнів та систем чи аналізу даних та презентації їх бізнес-стейкхолдерам?
🔹 Друга вісь: універсал або спеціаліст.
Ви б краще оволоділи однією чи двома конкретними областями, чи розвинули ширші знання у декількох сферах даних?
🔹 Нарешті, існують три основні кластери:
→ Інженерія
→ Аналітика
→ Менеджмент
Якщо ви на початку своєї кар'єри, перед вами відкриваються широкі можливості. Та навіть якщо ви досвідчений професіонал, все одно є багато шляхів для зростання.
#oleg_agapov
👍12❤6
Нещодавно в нас спільноті піднялось питання про дату в Excel
Так, може здатись, що Excel це вже в минулому чи це не той інструмент, котрим потрібно користуватись для аналізу.
Скажу так, це все ще має на життя і я їм також користуюсь, для невеличкого аналізу.
Але питання не за Excel, а за дату, чому ж вона так формується, чому
Більше детально я описав це в статті
🔗Як формується дата в Excel
А якщо стисло, умовно в нас є дві архітектури часо рахування
1. 1900 Date System - це основна архітектура, котрою користується Microsoft. Без технічних деталей, вона має на меті, що початок часу починається з
Як приклад
В статті ще пояснюю як формується час 🤓
І друга архітектура це EPOCH або UNIXTIME
Вона використовується мабуть в 90% всіх технологіях, потипу Linux, сімейства Unix, різні DB, Andorid і тд.
Суть достатньо проста, в такому випадку дата рахується в секундах подекуди і мілісекундах від 1970-01-01 00:00:00.000
Приклад
Тому, наступного разу, коли побачите у Excel числа замість дати або якийсь набір цифр, ви вже будете знать, що це звичайна дата, котру можна перевести в людський формат.
І авжеш, якщо залишились питання, ви можете задавати питання в наших групах
======
Data Analysis UA - група аналітиків даних
Data Engineer UA - група інженерів
FaceBook - загальна група в Facebook
Twitter (X) - канал в X (Twitter)
======
Так, може здатись, що Excel це вже в минулому чи це не той інструмент, котрим потрібно користуватись для аналізу.
Скажу так, це все ще має на життя і я їм також користуюсь, для невеличкого аналізу.
Але питання не за Excel, а за дату, чому ж вона так формується, чому
1 == 1900-01-01Більше детально я описав це в статті
🔗Як формується дата в Excel
А якщо стисло, умовно в нас є дві архітектури часо рахування
1. 1900 Date System - це основна архітектура, котрою користується Microsoft. Без технічних деталей, вона має на меті, що початок часу починається з
1900-01-01 00:00:00.000 і в свою чергу дорівнює 1.Як приклад
1 це 1900-01-01
5 це 1900-01-05
32 це 1900-02-01
В статті ще пояснюю як формується час 🤓
І друга архітектура це EPOCH або UNIXTIME
Вона використовується мабуть в 90% всіх технологіях, потипу Linux, сімейства Unix, різні DB, Andorid і тд.
Суть достатньо проста, в такому випадку дата рахується в секундах подекуди і мілісекундах від 1970-01-01 00:00:00.000
Приклад
1 це 1970-01-0100:00:01.000
2 це 1970-01-0100:00:02.000
2678400 це 1970-02-01 00:00:00.000
Тому, наступного разу, коли побачите у Excel числа замість дати або якийсь набір цифр, ви вже будете знать, що це звичайна дата, котру можна перевести в людський формат.
І авжеш, якщо залишились питання, ви можете задавати питання в наших групах
======
Data Analysis UA - група аналітиків даних
Data Engineer UA - група інженерів
FaceBook - загальна група в Facebook
Twitter (X) - канал в X (Twitter)
======
👍13🔥4❤3
Мабуть кожний з нас стикався з таким питанням - "А як жеш почати шось вивчати" або "Хочу бути Data Analyst, але з чого почати".
Всі ці питання базуються на відсутності стратегії або чіткого плану, з чого почати, зі SQL зі DBT зі CI/CD чи Java ...
У кожного план навчання свій і універсальний план створити достатньо складно, бо людина вона така, вона унікальна. Як то кажуть скільки людей - стільки й думок, тут так само. Кожен обирає свій шлях.
Але щоб було трошки легше, як на мене, краще брати приклад з когось і от Олена Руденко - Аналітикиця, виклала відео, де вона розповідає, як вона проходить цей шлях і як вона хоче перейти з DataAnalyst >> AnalyticsEngineer.
І в одній частині відео, вона розповідає як звернулась до DE @andy_ap Андрія Панченко, котрий є owner групи Data Engineer UA
Це чудовий приклад, як комунікація допомагає українським спеціалістам ставити ще краще, тому дивіться відео, ставте лайки👍, підписуйтесь, а також доєднуйтесь до нашої спільноти, де ми також можемо вам допомогти у вирішенні профільних питань.
👇👇👇
======
Data Analysis UA - група аналітиків даних
Data Engineer UA - група інженерів
FaceBook - загальна група в Facebook
Twitter (X) - канал в X (Twitter)
======
Всі ці питання базуються на відсутності стратегії або чіткого плану, з чого почати, зі SQL зі DBT зі CI/CD чи Java ...
У кожного план навчання свій і універсальний план створити достатньо складно, бо людина вона така, вона унікальна. Як то кажуть скільки людей - стільки й думок, тут так само. Кожен обирає свій шлях.
Але щоб було трошки легше, як на мене, краще брати приклад з когось і от Олена Руденко - Аналітикиця, виклала відео, де вона розповідає, як вона проходить цей шлях і як вона хоче перейти з DataAnalyst >> AnalyticsEngineer.
І в одній частині відео, вона розповідає як звернулась до DE @andy_ap Андрія Панченко, котрий є owner групи Data Engineer UA
Це чудовий приклад, як комунікація допомагає українським спеціалістам ставити ще краще, тому дивіться відео, ставте лайки👍, підписуйтесь, а також доєднуйтесь до нашої спільноти, де ми також можемо вам допомогти у вирішенні профільних питань.
👇👇👇
======
Data Analysis UA - група аналітиків даних
Data Engineer UA - група інженерів
FaceBook - загальна група в Facebook
Twitter (X) - канал в X (Twitter)
======
YouTube
Як я вчуся. Майже подкаст про те, що нас часто питають
Про Інженерію Даних з Олегом Агаповим https://www.youtube.com/watch?v=Hy3l8E4Nads
Data with Zach https://www.youtube.com/@EcZachly_
Тг група для аналітиків t.me/DataLifeUA_DA
Знайти собі ментора https://www.theways.io/
Доступ до датакему https://t.me/araprof
Data with Zach https://www.youtube.com/@EcZachly_
Тг група для аналітиків t.me/DataLifeUA_DA
Знайти собі ментора https://www.theways.io/
Доступ до датакему https://t.me/araprof
🔥11❤5
🔎 В роботі аналітиків та інженерів іноді виникає потреба виправити або переробити аналітичні таблиці. Зазвичай перевірка правильності нового коду проходить просто — треба лише переконатися, що потрібна частина таблиці була виправлена. Наприклад, якщо було пропущене значення, то в новій версії воно існує, або всі невірні значення тепер коректні.
Але що буде з таблицями, які залежать від тієї, яку ми виправили? Чи впевнені ми, що новий код не наробив помилок у залежних таблицях?
Для перевірки цього я розробив і використовую простий SQL-запит, який порівнює рядки в двох таблицях (зазвичай продакшен із девом).
Цей скрипт виводить рядки, які не співпадають у двох таблицях. Далі вже моя робота — зрозуміти, чи це очікувано, чи ні.
Крута особливість цього запиту в тому, що можна додати додаткові WHERE-умови, а також прибрати або додати стовпчики до SELECT.
Код можна подивитись тут.
#oleg_agapov
Але що буде з таблицями, які залежать від тієї, яку ми виправили? Чи впевнені ми, що новий код не наробив помилок у залежних таблицях?
Для перевірки цього я розробив і використовую простий SQL-запит, який порівнює рядки в двох таблицях (зазвичай продакшен із девом).
Цей скрипт виводить рядки, які не співпадають у двох таблицях. Далі вже моя робота — зрозуміти, чи це очікувано, чи ні.
Крута особливість цього запиту в тому, що можна додати додаткові WHERE-умови, а також прибрати або додати стовпчики до SELECT.
Код можна подивитись тут.
#oleg_agapov
👍36❤3🔥1
Обираємо дату коли буде святкуватись День Аналітика
https://dou.ua/forums/topic/55007/
Мені більше 11.11. сподобалось🤗
Мабуть потрібно і для DE вже обрати🧐
Можемо пофлудить на цю тему в наших групах
======
Data Analysis UA - група аналітиків даних
Data Engineer UA - група інженерів
FaceBook - загальна група в Facebook
Twitter (X) - канал в X (Twitter)
======
https://dou.ua/forums/topic/55007/
Мені більше 11.11. сподобалось🤗
Мабуть потрібно і для DE вже обрати🧐
Можемо пофлудить на цю тему в наших групах
======
Data Analysis UA - група аналітиків даних
Data Engineer UA - група інженерів
FaceBook - загальна група в Facebook
Twitter (X) - канал в X (Twitter)
======
❤7👎2👌2