BI & Big Data
285 subscribers
23 photos
2 files
133 links
Канал компании CoreWin. Бизнес-аналитика и Big Data: новости, тенденции и инструменты.

@BBDfeedback_bot - напишите нам.
Download Telegram
Як впровадити емпатичну та реактивну систему за допомогою TIBCO та AWS AI / ML

Що
ж, історія починається кілька місяців тому, команда TIBCO HHRR (людські ресурси) запропонувала нам організувати європейську команду для участі в технічному змаганні; виклик прийнятий! Після деякого сеансу мозкового штурму команди ми вирішили принципи рішення та основні можливості, конкретно: 100% заснована на TIBCO, обробка в реальному часі, реактивна, рідна хмара, орієнтована на витрати, інтерактивні інформаційні панелі та використовували AI / ML. .тож була створена внутрішня команда TIBCO, яку називали TeamX.

Технічно кажучи, спецыалісти взаємопов’язали блоки за допомогою продуктів TIBCO, кожен блок був реалізований за допомогою відповідного інструменту TIBCO. Для використання AI / ML ми створили полегшену версію AWS SDK (бібліотека 2 МБ), адаптовану для використання служб AWS AI / ML та включену в TIBCO BusinessWorks (AWS Comprehend було нашим рішенням, але ви можете замінити її на Azure Cognitive Services або NLP Annotation від Cogito). ПРИГОТУВАННЯ, ІНТЕГРАЦІЯ І ОБРОБКА були роз’єднані для підвищення продуктивності. Для обміну потоковими подіями ми спеціально використовували Apache Kafka, ми використовували TIBCO Apache Kafka Distribution, що надається через TIBCO Messaging. Для імпорту соціальних даних ми розробили процес у TIBCO BusinessWorks, який отримує кожен публічний твіт про певну сферу інтересів (можна редагувати за допомогою конфігурації) та публікує його в нашій темі Kafka. Коли твіт обробляється, початкове повідомлення про власну структуру приймає нову структуру даних на основі схеми CDM Empathyx (Canonical Data Model) для перетворення повідомлення про фірмову структуру в загальні структуровані дані; цей крок необхідний для обробки будь-якого типу платформи соціальних медіа, щоб легко розширити ВХІД ДАНИХ (наприклад, Facebook, Instagram, Linkedin тощо) та обробити дані агностичним способом, незалежно від джерела, не застосовуючи змін до блоків MICRO- ОБРОБКА Компонент ПОТРИМУВАННЯ та ОБРОБКА МІКРОПАРТІЙ допомагає ідентифікувати поведінку та закономірності в реальному часі, застосовуючи математичні моделі для пошуку тенденцій та взаємозв’язків між даними. Мікропакетна обробка - це паралельна гілка процесу реального часу, що дозволяє проводити математичний аналіз на коротких часових вікнах (на основі часу або на основі зразків); ми застосували TIBCO Streaming для реалізації цієї функції. АНАЛІТИКА РЕАЛЬНОГО ЧАСУ була ввімкнена завдяки TIBCO Spotfire X, де всі оброблені дані пропонуються у режимі реального часу, фактично інформаційні панелі реального часу, доступні з рішенням, включають:

Інформаційну панель карти: Георозташування повідомлень на карті світу в реальному часі -Час, використовуючи кольорові точки, можна зрозуміти, де є: негативне почуття / думка (Red Point) або позитивне почуття / думка (Green Point) або нейтральне (Yellow Point) або змішане (Purple Point). Розмір діаметра відображає соціальний вплив цього конкретного повідомлення

"Почуття": панель гістограм для групування та підрахунку різних почуттів у режимі реального часу (позитивні, негативні, нейтральні, змішані)

Інформаційна панель об'єктів: гістограма для групування та підрахунку найбільш часто використовуваний ключ у повідомленнях (комерційна позиція, особа, кількості, місто, товари тощо) на інформаційній панелі країн у реальному часі: Використовуючи діаграму HeatMap, кольорова шкала допомагає швидко візуалізувати огляд для кожної країни, щоб зрозуміти загальне відчуття інформаційної панелі ключових слів: діаграма гістограм, вона допомагає визначити, як ключове слово (критерій пошуку) використовується в повідомленнях та його появах. Це корисно для розуміння емоційного контексту нашого ключового слова (тобто бренду, продукту, конкурентів) та виявлення негативних наслідків. Також корисно виявляти популярні теми.

Детально кейс розглянутий у відео - https://www.youtube.com/watch?v=WBQSNRA6tNk
​​За рамками SQL разом з TIBCO - від ETL до машинного навчання

Аналітика в джерелах даних для складних статистичних алгоритмів і алгоритмів машинного навчання виконується за допомогою платформи розподілених обчислень, такий як Spark, MapReduce та інших. Платформа включає механізми, які розподіляються по вузлах джерел даних, часто в конфігураціях головний-підлеглий. Ці алгоритми можуть бути ініційовані з Spotfire для запуску в джерелі даних для дуже великих наборів даних, повертаючи в Spotfire тільки результати, необхідні для візуалізації.

Spotfire включає вбудований движок TIBCO Enterprise Runtime (TERR) для R. Це надійна високопродуктивна платформа для розширеної R аналітики, розроблена з нуля для масштабованості підприємства і вбудованої аналітики. Сценарії TERR можуть запускати завдання розподілених обчислень за допомогою Map / Reduce, SparkR, H2O або Fuzzy Logix, Spotfire Data Science або Statistica, а також можуть бути розгорнуті в якості розширеного аналітичного механізму в вузлах Hadoop.

Як результат: об'єднання всіх цих потужних функцій означає, що дуже складні аналітичні сценарії можуть бути вміщені в прості у використанні інтерактивні інформаційні панелі Spotfire. Це дозволяє бізнес-користувачам візуалізувати та аналізувати, не турбуючись про деталі архітектури Hadoop або про те, як виконуються обчислення.

Однак, якщо ваші Big Data являють собою більш традиційну базу даних на основі SQL, TIBCO також допускає підходи Data-to-Engine, що дозволяє завантажувати дані, які ви візуалізуєте, безпосередньо в великий центральний механізм для виконання будь-яких форм обчислень, які ви вважаєте потрібними.

Два підходи Engine-to-Data і Data-to-Engine, дозволяють використовувати всі три види візуалізації, а також розширену аналітику для Big Data з будь-яким джерелом даних.
Моделі машинного навчання, створені в TERR, можна запускати в інструментах обробки подій TIBCO, що дозволяє виконувати дії, керовані машинним навчанням в реальному часі, в замкнутому циклі Connected Intelligence у всій вашій організації.

Big Data та інтеграція в Statistica

Statistica надає гнучку архітектуру, яка може переміщати аналітику до даних (в базу даних, репозиторій даних), організовувати складні аналітичні конвеєри, які об'єднують кілька джерел даних і аналітику в базі даних, паралельну в пам'яті та на сервері, коли це найбільш ефективно і корисно. Також, є можливість перенесення обчислень в додатки для обробки Big Data, такі як Spark і H2O, з простого і потужного інтерфейсу робочого простору. Результати обчислень можна візуалізувати в Spotfire.

Big Data та інтеграція в Spotfire Data Science

TIBCO Spotfire Data Science - це платформа корпоративної аналітики, яка дозволяє фахівцям з обробки даних та бізнес-користувачам спільно працювати над розширеною аналітикою, використовуючи масштабовану обробку в базі даних і в кластері. Фахівці з обробки даних, аналітики та інженери з обробки даних створюють робочі процеси машинного навчання з мінімальним кодом, при цьому використовуючи можливості платформ Big Data. Потім інтерфейс спільної роботи дозволяє групі аналітиків ділитися інформацією та даними з іншою частиною організації, стимулюючи дії для бізнесу.
ЩОБ ПОЛІПШИТИ ЯКІСТЬ ДАНИХ, ПРИПИНІТЬ ГРАТИ В «ЗІПСОВАНИЙ ТЕЛЕФОН» З ДАНИМИ

Ви пам'ятаєте, як ви грали в «зіпсований телефон» з іншими дітьми? Ви знаєте, гра, в якій перша людина в ланцюжку шепоче фразу другому, потім другий повторює її третьому і триває до тих пір, поки остання людина не повторить фразу першому.
Було так приємно сміятися над тим, як те, що починалося як «Сонце в небі», якимось чином перетворилося в «Приємно їсти пиріг», коли ця фраза передавалася від одного до іншого.
Потім був сміх, коли кожен учасник ланцюжка поділився своєю фразою, яку говорив пошепки, дозволяючи кожному побачити, що і де пішло не так.

«ЗІПСОВАНИЙ ТЕЛЕФОН» ДАНИМИ
Цікаво, що за останні тридцять років керування даними використовувало ту ж формулу телефонної гри, копіюючи дані з однієї бази даних в іншу, з безліччю зупинок в дорозі.

Як приклад візьмемо класичний процес корпоративного сховища даних:
1. Дані починаються як записи транзакцій, що зберігаються в базі даних системи транзакцій.
2. Потім вони переходять з вихідної системи в проміжну базу даних.
3. З стадії підготовки вони переходять в сховище даних.
4. Підмножини цих даних передаються для зберігання у вітринах супутникових даних.
5. Багато з них незабаром завантажують окремі файли Excel, що зберігаються на ноутбуках.

Або пізніша парадигма хмарного «озера даних»:
1. Вихідні дані з пристроїв консолідуються в прикордонних базах даних.
2. Ці прикордонні дані потім копіюються в «озеро даних» хмари для подальшого аналізу.
3. В «озеро» також можуть бути додані додаткові дані з систем транзакцій.
4. І, щоб додати історичний контекст, дані сховища також можуть бути скопійовані в «озеро».

Концептуально ці передові методи управління даними надають можливість поліпшити якість даних за рахунок застосування обраних додаткових перетворень на різних етапах. Але з такою кількістю жорстких ланок у ланцюзі ця версія телефонної гри з даними часто може ненавмисно перетворити «небо» в «пиріг». Вплив цієї проблеми якості на бізнес викликає що завгодно, тільки не дитячий сміх.

НАСКІЛЬКИ ВЕЛИКА ПРОБЛЕМА З ДАНИМИ, ЩО ПОВТОРЮЮТЬСЯ?
Скільки даних копіюється? У своєму Worldwide Global DataSphere Forecast на 2019-2023 роки IDC оцінює, що на кожен терабайт нових чистих даних генерується більше шести додаткових терабайт скопійованих даних за допомогою реплікації і поширення. Це багато можливостей для «неба» стати «пирогом».
​​ТРИ СПОСОБИ ПЕРЕСТАТИ ГРАТИ У «ЗІПСОВАНИЙ ТЕЛЕФОН»

Ось три варіанти, які можуть розглянути організації, щоб підвищити якість даних.

Менше копіюйте, більше віртуалізуйте. Віртуалізація даних - це перевірений метод інтеграції даних без їх фізичного копіювання. Це істотно знизить помилки перетворення і ентропію, властиві типовим розгортання з декількома копіями, сховищами даних і «озерами даних». Крім зменшення кількості копій, віртуалізація даних безпосередньо покращує якість даних за рахунок синтаксичних і семантичних перетворень і розширень на основі метаданих, які стандартизують набори даних і заохочують повторне використання. Все на одній сторінці. І коли щось змінюється, а це неминуче, набагато простіше змінити централізовано керовані визначення метаданих, ніж кілька розподілених ETL і схем баз даних.

Загальний доступ до довідкових даних всюди. Управління довідковими даними підвищує якість даних, дозволяючи організаціям узгоджено керувати стандартними класифікаціями і ієрархіями в системах і бізнес-напрямках. Це дозволяє їм досягти необхідної узгодженості та відповідності без додаткових копій. А додавши віртуалізацію даних як метод поширення, організації можуть легко спільно та повторно використовувати довідкові дані, що зберігаються в одному віртуальному місці.

Подумайте про Data Domain, а не про технології баз даних. Сьогодні існує безліч класних, спеціалізованих технологій баз даних. Але «нове і цікаве» необов'язково означає «високу цінність для бізнесу». Замість цього подумайте про найбільш цінні області даних. Наприклад, якщо вашою конкурентною перевагою є висока якість роботи з клієнтами, зосередьтеся на підвищенні якості в області даних про клієнтів. У цьому випадку управління основними даними є ключем до успіху, дозволяючи організаціям забезпечувати цілісність даних в обраних областях даних, таких як клієнт, співробітник, продукт і т. Д.

ПРИПИНІТЬ ГРАТИ У «ЗІПСОВАНИЙ ТЕЛЕФОН» ДАНИМИ
Залишимо цю гру дітям. Замість цього поліпшите якість даних, виконавши три наведених вище рекомендації з допомогою TIBCO Unify.
​​Що таке база даних NoSQL?
Можливо, ви чули, як люди кажуть, що база даних NoSQL - це будь-яка нереляційна база даних, яка не має ніякого зв'язку між даними. Що ж, це не зовсім так. Вони також можуть зберігати взаємозв'язок між даними, але іншим способом.
Можна сказати, що «NoSQL» означає «Не тільки SQL». Тут дані не розбиваються на кілька таблиць, оскільки це дозволяє всім даними, які пов'язані будь-яким можливим способом, бути в єдиній структурі даних. Коли ви працюєте з величезним обсягом даних, вам не потрібно турбуватися про затримки продуктивності при запиті бази даних NoSQL. Не потрібно запускати дорогі об'єднання! Вони мають високу масштабованість і надійність та призначені для роботи в розподіленому середовищі.

Типи баз даних NoSQL
Тепер, коли ми знаємо, що таке база даних NoSQL, розглянемо різні типи баз даних NoSQL.

1. Документні бази даних NoSQL
Бази даних на основі документів прості для розробників, оскільки документ безпосередньо зіставляється з об'єктами, оскільки JSON - дуже поширений формат даних, який використовується веб-розробниками. Вони дуже гнучкі і дозволяють змінювати структуру в будь-який час.

Деякими прикладами баз даних на основі документів є MongoDB, Orient DB і BaseX.

2. Графічні бази даних
Вони зберігають дані у вигляді вузлів та границь. Вузлова частина бази даних зберігає інформацію про основні об'єкти, таких як люди, місця, продукти і т. Д. А гранична частина зберігає відносини між ними. Вони працюють найкраще, коли вам потрібно з'ясувати взаємозв'язок чи закономірність між вашими точками даних, такими як соціальна мережа, системи рекомендацій і т. Д.

Деякі з прикладів - Neo4j, Amazon Neptune і т. Д.

3. Бази даних «ключ-значення»
Як випливає з назви, він зберігає дані у вигляді пар «ключ-значення». Тут ключі і значення можуть бути чим завгодно, наприклад рядками, цілими числами або навіть складними об'єктами. Вони добре розділяються і найкраще підходять для горизонтального масштабування. Вони можуть бути дійсно корисні в додатках, орієнтованих на сеанс, де ми намагаємося зафіксувати поведінку клієнта в конкретному сеансі.

Деякі з прикладів - DynamoDB, Redis і Aerospike.

4. Бази даних з широкими стовпцями
Ця база даних зберігає дані в записах, аналогічних будь-якій реляційній базі даних, але може зберігати дуже велику кількість динамічних стовпців. Він логічно групує стовпці в сімейства стовпців.
Наприклад, в реляційній базі даних у вас є кілька таблиць, але в базі даних з широкими стовпцями замість декількох таблиць у нас є кілька сімейств стовпців.

Популярними прикладами таких баз даних є Cassandra і HBase.
​​Ще у 2017 році журнал The Economist заявив, що найбільш цінним ресурсом у світі стали дані, а не нафта. Організації в усіх галузях вкладали та продовжують вкладати значні кошти в дані та аналітику. Але, як і нафта, у даних і аналітики є свої темні сторони.

Згідно зі звітом, IDG State of the CIO 2020 року, 37% ІТ-керівників кажуть, що в цьому році аналітика даних стане основним джерелом інвестицій в ІТ в їх організаціях. Інформація, отримана за допомогою аналітики та дій, керованих алгоритмами машинного навчання, може дати організаціям конкурентну перевагу, але помилки можуть дорого обійтися з точки зору репутації, доходів або навіть життів.

Розуміння ваших даних і того, що вони вам кажуть, важливо, але також важливо розуміти свої інструменти, знати свої дані й твердо пам'ятати про цінності вашої організації.

Ми підготували для вас декілька найвідоміших випадків, які ілюструють, що може піти не так. Розпочнемо з Amazon.

ПЗ НА БАЗІ AI ВІД КОМПАНІЇ AMAZON ВІДДАВАЛО ПЕРЕВАГУ КАНДИДАТАМ ЧОЛОВІКАМ НА БУДЬ-ЯКІ ВАКАНСІЇ

Як і багато великих компаній, Amazon хоче мати у себе в арсеналі інструменти, які допоможуть HR-додаткам відбирати кращих кандидатів. У 2014 році компанія почала працювати над програмним забезпеченням для підбору персоналу на базі штучного інтелекту. Була тільки одна проблема: система віддавала перевагу кандидатам-чоловікам. У 2018 році агентство Reuters повідомило, що Amazon згорнула проєкт.

Система Amazon давала кандидатам рейтинги від 1 до 5. Але моделі машинного навчання, що лежать в основі системи, навчались на базі резюме 10-літньої давності. А більшість з них належали саме чоловікам. В результаті, система почала знижувати рейтинг кандидатів за фрази в резюме, що містять слово «жінка» та навіть «ігнорувати» випускників з жіночих коледжів.

У той час компанія заявила, що рекрутери Amazon ніколи не використовували цей інструмент для оцінки кандидатів.
Компанія спробувала відредагувати інструмент, щоб зробити його нейтральним. Однак, в кінцевому підсумку вирішила, що не може гарантувати, що дані для подальшого навчання не будуть містити дискримінаційної інформації, і завершила проєкт.
​​Привіт дослідникам BI&BigData! Продовжуємо далі дізнаватись про випадки, коли не розуміння своїх даних може призвести до негативних наслідків. Сьогодні про медицину в США.

АЛГОРИТМИ ОХОРОНИ ЗДОРОВ'Я ІГНОРУВАЛИ ЧОРНОШКІРИХ ПАЦІЄНТІВ
У 2019 дослідження, опубліковане в журналі Science, показало, що алгоритм прогнозування для охорони здоров'я, який використовується лікарнями та страховими компаніями по всій території США для виявлення пацієнтів, які потребують програми «медичні послуги для людей у групі-ризику», з набагато меншою ймовірністю обере чорношкірих пацієнтів.

Такі програми передбачають надання кваліфікованого медичного персоналу та постійне медичне спостереження за пацієнтами з хронічними захворюваннями з метою запобігання серйозних ускладнень. Але алгоритм набагато частіше рекомендував білих пацієнтів для цих програм, ніж чорношкірих пацієнтів.

Дослідження показало, що алгоритм використовує витрати на охорону здоров'я, як відправну точку для визначення потреб людини в медичній допомозі. Але, за даними Scientific American, медичні витрати на більш хворих чорношкірих пацієнтів були на рівні витрат на більш здорових білих людей, що означало, що вони отримували нижчі оцінки ризику, навіть коли їх потреби були більшими.

Дослідники припустили, що цьому сприяли кілька чинників. По-перше, чорношкірі люди з більшою ймовірністю будуть мати нижчі доходи, що, навіть якщо вони застраховані, може знизити ймовірність доступу до медичної допомоги. Неявна упередженість також може привести до того, що вони будуть отримувати неякісну допомогу.
​​Привіт, дослідники BI&Big Data!

Знайшов на теренах Інтернету дуже корисну «шпаргалку», яка стане у пригоді при роботі з даними. Інформація подана коротко, чітко та зрозуміло. Ці невеличкі гайди допоможуть розібратись з функціоналом та створити якісну візуалізацію. Наглядні пдф-файли розробила компанія TIBCO, лідер ринку аналітики та візуалізації даних. Тому рекомендую зберегти собі в закладки, адже сторінка регулярно оновлюється.
​​Привіт, любителям Big Data!

Сьогодні знайшов для вас трохи статистики. За прогнозами, до 2027 року глобальний ринок Big Data виросте до 103 мільярдів доларів, що більш ніж удвічі перевищить показники 2018 року. Цікавим фактом є те, що сегмент програмного забезпечення досягне частки 45% усього ринку Big Data вже через 7 років.

І якщо ми вже зачепили тему прогнозів, давайте проголосуємо чи цікаво вам було б почитати про тренди Big Data на 2021 рік?
​​Привіт, любителям Big Data!
Цікаве опитування на просторах Інтернету. Воно охоплює відповіді 2259 аналітиків та професіоналів зі сфери Bi&Big Data щодо їх бачення найбільш важливих тенденцій у сфері даних, бізнес-аналітики та звичайної аналітики. Опитування показує, які тенденції тепер вважаються важливими для розв'язання проблем в області бізнес-аналізу та аналітики. Їх відповіді дають уявлення про розвиток ринку бізнес-аналітики на 2021 рік.
Як не сумно про це знову говорити, але світова пандемія внесла свої корективи і в ринок BI&Big Data. Дані та аналітика в поєднанні з технологіями штучного інтелекту (AI) будуть мати першорядне значення в зусиллях по прогнозуванню, підготовці, активному та прискореному реагуванню на глобальну кризу і її наслідки.

Gartner вже дав свій прогноз по тенденціях у сфері Big Data на наступний рік. Їх аж 10. Сьогодні ми розкажемо про перші 5, на яких слід зосередитися лідерам в області даних і аналітики.

Тенденція 1: розумніший, швидший та відповідальніший AI
До кінця 2024 року 75% підприємств перейдуть від пілотного проєкту до впровадження AI, що призведе до 5-кратного збільшення інфраструктури потокових даних і аналітики.
У нинішньому контексті пандемії такі методи штучного інтелекту, як машинне навчання (ML), оптимізація та обробка природної мови (NLP), дають життєво важливу інформацію і прогнози щодо поширення вірусу, а також ефективності та впливу контрзаходів. Штучний інтелект і машинне навчання мають вирішальне значення для перебудови пропозиції та ланцюгів постачання відповідно до нових моделей попиту.
Моделі до COVID, засновані на історичних даних, можуть більше не діяти
Значні інвестиції, зроблені в нові архітектури мікросхем, такі як нейроморфне обладнання, яке можна розгорнути на периферійних пристроях, прискорюють обчислення і робочі навантаження AI та машинного навчання і знижують залежність від централізованих систем, що вимагають високої пропускної здатності. Зрештою, це може привести до створення більш масштабованих рішень AI, які будуть мати більший вплив на бізнес.

Тенденція 2: Зменшення популярності дешбордів
Динамічні історії даних з більш автоматизованим і орієнтованим на споживача досвідом замінять стандартну візуалізацію. В результаті кількість часу, який користувачі витрачають на заздалегідь визначені панелі моніторингу, зменшиться. Перехід до контекстних історій даних означає, що найбільш актуальна інформація буде передаватися кожному користувачеві в залежності від його контексту, ролі або використання. Ці динамічні аналітичні дані використовують такі технології, як розширена аналітика, NLP, виявлення аномалій потокової передачі та спільна робота.
Керівники відділу даних і аналітики повинні регулярно оцінювати свої наявні інструменти аналітики та бізнес-аналітики (BI). Їм варто звертати увагу на функціонал, що пропонує нові доповнені та засновані на NLP можливості.

Тенденція 3: Розумна аналітика при прийнятті рішень
До 2023 року понад 33% великих організацій матимуть аналітиків, які будуть використовувати розумну аналітику у своїй роботі, включаючи моделювання рішень.
Розумна аналітика при прийнятті рішень об'єднує кілька дисциплін, включаючи управління рішеннями та підтримку прийняття рішень. Вона охоплює додатки в області складних адаптивних систем, які об'єднують безліч традиційних і просунутих дисциплін.
Розумна аналітика забезпечує основу, яка допомагає керівникам в області даних і аналітики розробляти, складати, моделювати, погоджувати, виконувати, відстежувати та налаштовувати моделі прийняття рішень та процеси в контексті бізнес-результатів і поведінки.
Стає необхідною використання технологій управління рішеннями та моделювання, коли рішення вимагають декількох логічних і математичних методів, повинні бути автоматизовані або напівавтоматизовані або повинні бути задокументовані та перевірені.
Тенденція 4: X Analytics
Gartner ввів термін «X-аналітика» як узагальнювальний, де X - це змінна даних для ряду різного структурованого та неструктурованого контенту, такого як текстова аналітика, відеоаналітіка, аудіоаналітіка і т. Д.
Керівники відділу даних і аналітики використовують X-аналітику для розв'язання найскладніших проблем суспільства, включаючи зміну клімату, профілактику захворювань і захист дикої природи.
Під час пандемії AI зіграв вирішальну роль у вивченні тисяч дослідних робіт, джерел новин, повідомлень в соціальних мережах і даних клінічних випробувань, щоб допомогти експертам в галузі медицини та охорони здоров'я передбачити поширення хвороби, скласти план розвитку, знайти нові методи лікування і виявити вразливі групи населення. X-аналітика в поєднанні зі штучним інтелектом і іншими методами, такими як графічна аналітика (ще одна популярна тенденція), буде грати ключову роль у виявленні, прогнозуванні та плануванні стихійних лих та інших бізнес-криз і можливостей в майбутньому.

Тенденція 5: Розширене управління даними
Розширене управління даними використовує методи машинного навчання і штучного інтелекту для оптимізації і поліпшення операцій. Воно також перетворює метадані, які використовуються в аудиті, звітності та в динамічних системах.
Продукти для управління розширеними даними можуть досліджувати великі вибірки робочих даних, включаючи фактичні запити, дані про продуктивність і схеми. Використовуючи наявні дані про використання та робоче навантаження, розширений механізм може налаштовувати операції та оптимізувати конфігурацію, безпеку і продуктивність.
Керівники відділу даних і аналітики повинні прагнути до розширеного управління даними, що дозволить активним метаданим спростити та консолідувати їх архітектури, а також підвищити автоматизацію їх завдань управління надлишковими даними.
Привіт любителям Bi&Big Data!
Продовжуємо з тенденціями від Gartner.

Тенденція 6: Хмара - це даність
До 2022 року загальнодоступні хмарні сервіси будуть необхідні для 90% інновацій в області даних та аналітики.
У міру того як дані і аналітика переміщаються в хмару, лідери в області даних і аналітики все ще намагаються узгодити потрібні служби з правильними сценаріями використання, що призводить до непотрібного збільшення витрат на управління та інтеграцію.
Питання для даних і аналітики переходить від того, скільки коштує ця послуга, до того, як вона може задовольнити вимоги до продуктивності робочого навантаження за межами прейскуранта.
Керівникам відділу обробки даних і аналітики необхідно визначити пріоритети робочих навантажень, які можуть скористатися наявними можливостями хмари, і зосередитися на оптимізації витрат та інших перевагах, таких як прискорення змін та інновацій при переході в хмару.

Тренд 7: Перетин світів аналітики та даних
Можливості даних і аналітики традиційно вважалися окремими напрямками та управлялися відповідним чином. Постачальники, що пропонують наскрізні робочі процеси на основі розширеної аналітики, стирають відмінність між колись окремими ринками.
Зіткнення даних і аналітики посилить взаємодію і співробітництво між історично розділеними ролями даних і аналітики. Це впливає не тільки на надані технології і можливості, але також на людей і процеси, які їх підтримують і використовують. Спектр ролей буде розширюватися від традиційних ролей в сфері даних і аналітики в ІТ до, наприклад, дослідника інформації, споживача та розробника-любителя.
Щоб такий перетин даних та аналітик пройшов безболісно, необхідно об’єднати інструменти та можливості двох ринків в одну інформаційно-аналітичну модель. Крім інструментів, варто зосередитись на людях і процесах, щоб сприяти спілкуванню та співпраці.

Тенденція 8. Маркетплейси для даних
До 2022 року 35% великих організацій будуть продавцями чи покупцями даних через офіційні онлайн-ринки даних, в порівнянні з 25% в 2020 році.
Торгові майданчики і біржі даних надають єдині платформи для об’єднання всіх пропозицій від постачальників даних. Ці торгові майданчики і біржі забезпечують централізований доступ (наприклад, до X-аналітики та інших унікальних наборів даних), що створює ефект масштабу для зниження витрат на сторонні дані.
Для монетизації активів даних, через такі маркетплейси, спеціалісти повинні розробити справедливу і прозору методологію, визначивши принцип управління даними, на який можуть покладатися партнери по екосистемі.
Тенденція 9: Блокчейн в даних та аналітиці
Технології блокчейн вирішують дві проблеми в області даних і аналітики. По-перше, блокчейн забезпечує повну лінійку активів і транзакцій. По-друге, блокчейн забезпечує прозорість складних мереж учасників.
Ми звикли чути про блокченй в розрізі криптовалютних бірж. Однак, системи управління базами даних (DBMSs) забезпечать більш привабливий варіант для аудиту джерел даних на одному підприємстві. За оцінками Gartner, до 2021 року велика частина дозволених видів використання блокчейнів буде замінена продуктами бухгалтерських DBMSs.
Дані та аналітика повинні позиціонувати технології блокчейн як доповнення до існуючої інфраструктури управління даними, підкреслюючи невідповідність можливостей інфраструктури управління даними і технологій блокчейна.

Тенденція 10. Відносини складають основу цінності даних і аналітики
До 2023 року графічні технології будуть сприяти швидкій контекстуалізаціі для прийняття рішень в 30% організацій по всьому світу. Графічна аналітика - це набір аналітичних методів, які дозволяють досліджувати відносини між важливими об'єктами, такими як організації, люди і транзакції.
Це допомагає керівникам даних і аналітиків знаходити невідомі взаємозв'язки в даних і переглядати дані, які важко проаналізувати за допомогою традиційної аналітики.
Наприклад, поки світ намагається відреагувати на поточні і майбутні пандемії, графічні технології можуть пов'язувати об'єкти у всьому, від геопросторових даних на телефонах людей до систем розпізнавання осіб, які можуть аналізувати фотографії, щоб визначити, хто міг контактувати з людьми, які пізніше отримали позитивний тест на коронавірус.
Керівники відділу обробки даних і аналітики повинні оцінити можливості включення графічної аналітики в свої аналітичні портфелі і додатки, щоб виявити приховані закономірності і взаємозв'язки. Крім того, подумайте про те, щоб вивчити, як алгоритми і технології графів можуть поліпшити ваші ініціативи в галузі AI і машинного навчання.
Привіт любителям Bi&Big Data!

Сьогодні не зовсім про BI, однак оминути таку тему неможливо. Весь тиждень світ IT тільки й говорить про одну з наймасштабніших кібер-атак за останні 30 років. Тому, я вирішив зібрати докупи всю інформацію, яка пов'язана з темою та детально пояснити як таке могло статись, які наслідки та що з цим робити.

Спойлер: не варто використовувати пароль 1234😁
Привіт любителі Bi&Big Data!

Поки я в пошуках натхнення, хочу поділитись з вами ресурсом де і ви зможете знайти для себе щось цікаве.
Тут представленні різні варіанти візуалізацій, з різних сфер і різних об'ємів. Впевнений, що і для себе ви знайдете багато нового. Enjoy, як то кажуть🖖
The account of the user that owns this channel has been inactive for the last 11 months. If it remains inactive in the next 29 days, that account will self-destruct and this channel may no longer have an owner.
Breaking news для тих, хто впроваджує або розвиває BI-систему у компанії.

BI-проєкт тільки на старті, а ви вже зіткнулися з обмеженнями? Не ви одні. Але, на щастя, можна уникнути чужих помилок, озброївшись підтримкою досвідченого ментора.

Щоб заощадити ваш час на підборі та тестуванні робочих підходів, міжнародна бізнес-школа Laba зібрала пул кейсів та інструментів для ефективного управління BI-проєктами в одному курсі.

За 10 занять ви підготуєте макет BI-стратегії, який зможете запровадити у своїй компанії. На кожному етапі розробки на вас чекатиме розгорнутий фідбек та підтримка від Олександра Баракова — ex-Head of BI в Luxoft.

Навчання проводиться російською мовою, аби викладач міг поділитися сучасними BI-практиками з якомога більшою кількістю студентів різної національності.

Ознайомитися з програмою курсу можна тут:
The account of the user that owns this channel has been inactive for the last 11 months. If it remains inactive in the next 18 days, that account will self-destruct and this channel may no longer have an owner.
The account of the user that owns this channel has been inactive for the last 11 months. If it remains inactive in the next 8 days, that account will self-destruct and this channel may no longer have an owner.