Forwarded from Ivan Begtin (Ivan Begtin)
Для тех кто хочет поработать с большими данными, но не знает с какими, Национальная библиотека Новой Зеландии опубликовала набор данных Papers Past [1] включающей 235GB сканов газет Новой Зеландии с 1839 по 1899 годы и CSV файл с метаданными описывающими эти газеты. Всё вместе после распаковки 1.6TB данных
Ссылки:
[1] https://natlib.govt.nz/about-us/open-data/papers-past-metadata/papers-past-newspaper-open-data-pilot/dataset-papers-past-newspaper-open-data-pilot
#opendata #nz #papers #culture
Ссылки:
[1] https://natlib.govt.nz/about-us/open-data/papers-past-metadata/papers-past-newspaper-open-data-pilot/dataset-papers-past-newspaper-open-data-pilot
#opendata #nz #papers #culture
Forwarded from DataEng
Хороший доклад про базы данных от сотрудницы Яндекса: https://www.youtube.com/watch?v=YjSIdz8DnAo
YouTube
04. Базы Данных – Татьяна Денисова
Во время лекции мы поговорим о том, что такое данные, какие базы данных бывают и чем они отличаются. Вы узнаете, какие особенности работы с базами данных нужно иметь в виду разработчику.Обсудим, как характеризовать, структурировать и хранить данные — с расчетом…
Сентимент-анализ на примере отзывов на Киберпанк
https://int8.io/are-you-ok-cyberpunk-transformers-diagnosis/
https://int8.io/are-you-ok-cyberpunk-transformers-diagnosis/
Int8
Are you OK, Cyberpunk? - Transformers diagnosis
At the end of 2020, after 8 years since announcement, Polish game development studio CDPR released its flag game titled Cyberpunk. A big success of CDPR’s previous game Witcher 3 and their “gamers-first” approach implied CDPR being perceived as a golden child…
This repo contains a few peculiar things I've learned about pandas that have made my life easier and my code faster. This post isn't a friendly tutorial for beginners, but a friendly introduction to pandas weirdness.
GitHub
just-pandas-things/just-pandas-things.ipynb at master · chiphuyen/just-pandas-things
An ongoing list of pandas quirks. Contribute to chiphuyen/just-pandas-things development by creating an account on GitHub.
Forwarded from Дашбордец
Несмотря на наличие большого числа инструментов для профилирования данных, многие до сих пор делают это руками.
Я уже давно привыкла использовать Power BI вместо того же SasDQ.
Что может?
1) Быстрое профилирование по 3м направлениям с помощью column distribution, column quality, column profile в режиме Power Query.
3) Функция Table.Profile: даёт возможность вывести результаты профилирования сразу в отдельную таблицу и построить отчет.
3) Exception Reporting -полноценный отчет об ошибках, который позволяет понять, что не так с вашим датасетом.
Линк по Exception Reporting и как это правильно использовать:
https://radacad.com/exception-reporting-in-power-bi-catch-the-error-rows-in-power-query
P. S. Подробно про работу средств профилирования: https://docs.microsoft.com/ru-ru/power-query/data-profiling-tools
Я уже давно привыкла использовать Power BI вместо того же SasDQ.
Что может?
1) Быстрое профилирование по 3м направлениям с помощью column distribution, column quality, column profile в режиме Power Query.
3) Функция Table.Profile: даёт возможность вывести результаты профилирования сразу в отдельную таблицу и построить отчет.
3) Exception Reporting -полноценный отчет об ошибках, который позволяет понять, что не так с вашим датасетом.
Линк по Exception Reporting и как это правильно использовать:
https://radacad.com/exception-reporting-in-power-bi-catch-the-error-rows-in-power-query
P. S. Подробно про работу средств профилирования: https://docs.microsoft.com/ru-ru/power-query/data-profiling-tools
RADACAD
Exception Reporting in Power BI: Catch the Error Rows in Power Query
To build a robust BI system, you need to cater for errors and handle errors carefully. If you build a reporting solution that the refresh of that fails everytime an error occurs, it is not a robust system. Errors can happen by many reasons, In this post,…
Forwarded from Дашбордец
Немного про артефакты Data lineage в Power BI:
https://docs.microsoft.com/en-us/power-bi/collaborate-share/service-data-lineage
https://docs.microsoft.com/en-us/power-bi/collaborate-share/service-data-lineage
Docs
Data lineage - Power BI
Learn how data lineage view helps you understand the flow of data from the data source to its destination.
https://www.datagaps.com/data-testing-concepts/database-testing/
https://www.datagaps.com/data-testing-concepts/etl-testing/
https://www.datagaps.com/data-testing-concepts/etl-testing/
Datagaps | Automated Cloud Data Testing | ETL, BI & BigData
Database Testing: Concepts, Challenges and 7 Types of DB Testing
Comprehensive guide to db testing concepts. Explore how to automate database testing, 7 types of database testing techniques and challenges.
Forwarded from L̶u̵m̶i̵n̷o̴u̶s̶m̶e̵n̵B̶l̵o̵g̵
Let's talk about a couple of core concepts in data space and how they relate to each other and how they started.
⚡️ACID vs BASE: Comparison of two Design Philosophies
⚡️CAP and PACELC theorems in plain English
⚡️ACID vs BASE: Comparison of two Design Philosophies
⚡️CAP and PACELC theorems in plain English
Blog | iamluminousmen
ACID vs BASE: Comparison of two Design Philosophies
Discover the differences between ACID and BASE design philosophies - from strong consistency to eventual consistency. Find out which suits your project better!