Hive Metastore уже затерли до дыр. Изначально он создавался как SQL движок для Hadoop, чтобы не писать сложный Map Reduce Job на Java. Эта часть называется Query Engine. Его другая полезная часть - Metastore - репозиторий (или абстракция в виде базы данных над данными-файлами).
Да что я вам рассказываю, вот же статья - Hive Metastore – Why It’s Still Here and What Can Replace It?
PS я его использовал в AWS Athena, AWS Glue, AWS Redshift Spectrum, AWS Elastic Map Reduce, Azure HDInsight, Azure Synapse и теперь использую в Azure Databricks. Получается это самый важный элемент big data экосистемы (вы тоже его попробуете в модулях 6-8)
Да что я вам рассказываю, вот же статья - Hive Metastore – Why It’s Still Here and What Can Replace It?
PS я его использовал в AWS Athena, AWS Glue, AWS Redshift Spectrum, AWS Elastic Map Reduce, Azure HDInsight, Azure Synapse и теперь использую в Azure Databricks. Получается это самый важный элемент big data экосистемы (вы тоже его попробуете в модулях 6-8)
Git for Data - lakeFS
Hive Metastore (HMS): What it is & What Can Replace it
A majority of data architectures feature Hive Metastore. Why has it survived and what can finally replace it in the future?
Никто не читал? https://nostarch.com/missing-readme Может есть уже pdf?)
Еще кто-то из дата поднял денюшку! Я не слышал про MonteCarlo data tool. Был там разок проездом на поезде из Фрнацию в Италию. Знаю еще есть метод Монте карло для оценки рисков, можно даже в Excel использовать.
As first defined by the team here at Monte Carlo, Data Observability leverages the best practices and principles of automatic application observability (think: Datadog or AppDynamics) and applies them to data pipelines, giving data engineers and analysts visibility across all data pipelines and data products. Simultaneously, Monte Carlo’s machine learning-powered platform provides data leaders and other data stakeholders with a holistic view of their company’s data health and reliability for critical business use cases.
As first defined by the team here at Monte Carlo, Data Observability leverages the best practices and principles of automatic application observability (think: Datadog or AppDynamics) and applies them to data pipelines, giving data engineers and analysts visibility across all data pipelines and data products. Simultaneously, Monte Carlo’s machine learning-powered platform provides data leaders and other data stakeholders with a holistic view of their company’s data health and reliability for critical business use cases.
Monte Carlo Data
Monte Carlo Raises Series C, Brings Funding To $101M To Help Companies Trust Their Data
Monte Carlo’s Series C highlights the rapid growth of the Data Observability category, our industry-defining customer adoption, and global expansion.
Apache Hudi - The Data Lake Platform - отличная документия по open source решению для Lake house.
Всего 3 решения доступны для вашего data lake:
- Apache Hudi by Uber Engineering
- Apache Iceberg by Netflix
- Delta Lake by Spark developers
Я использую delta lake в Databricks, вроде ничего так, работает. А вы как?
Всего 3 решения доступны для вашего data lake:
- Apache Hudi by Uber Engineering
- Apache Iceberg by Netflix
- Delta Lake by Spark developers
Я использую delta lake в Databricks, вроде ничего так, работает. А вы как?
hudi.apache.org
Apache Hudi - The Data Lake Platform | Apache Hudi
As early as 2016, we set out a bold, new vision reimagining batch data processing through a new “incremental” data processing stack - alongside the existing batch and streaming stacks.
Preset - коммерческий продукт Apache Superset (open source BI), теперь доступен беслатно до 5 пользователей. Раньше такое было у Mode (SQL BI облачный продукт).
Почему они так делают, себе в убыток? А все просто, это такая бизнес модель, дать бесплатно что-то, чтобы потом заработать. Их statement "The Future of Business Intelligence is Open Source" - не новый, открытое ПО было всегда и дальше будет. В них вложили уже 12.5млн $. Врят ли инвесторы захотели потратить деньги, чтобы мы могли бесплатно кривые pie chart строить🦧 И еще бабло спускать на дорогих инженеров, чтобы нам это pie chart напрограммировать. Лучше в 3D!😇
Почему они так делают, себе в убыток? А все просто, это такая бизнес модель, дать бесплатно что-то, чтобы потом заработать. Их statement "The Future of Business Intelligence is Open Source" - не новый, открытое ПО было всегда и дальше будет. В них вложили уже 12.5млн $. Врят ли инвесторы захотели потратить деньги, чтобы мы могли бесплатно кривые pie chart строить🦧 И еще бабло спускать на дорогих инженеров, чтобы нам это pie chart напрограммировать. Лучше в 3D!😇
preset.io
Announcing Preset Cloud GA
Preset Cloud is now generally available! Preset Cloud is a modern data exploration and visualization platform powered by Apache Superset.
У Tableau есть Iron Viz контест, где самые креативные пользователи могу построить визуализацию по заданному датасету, как правило там best of the best. Вот ТОП 10 в 2021 году The results for the 2021 Iron Viz Qualifier Contest are in https://www.tableau.com/about/blog/2021/8/data-joy-iron-viz-qualifier-contest-results-2021
Tableau
Find out the results of the 2021 Data + Joy Iron Viz Qualifier Contest
Find out the three finalists selected to compete in the 2021 virtual Iron Viz finals at Tableau Conference.
А вы все еще используюте палитру светофора, где
❌ - ПЛОХО
✅ - ХОРОШО
А зря! И вот почему Friends Don’t Let Friends Use Stoplight Color Schemes
Кстати у нее на сайте много интересного материала! Как она говорит про себя - "Сотрудники белого дома при Обаме были в восторге от нее!"
PS c 3D pie chart можно!
❌ - ПЛОХО
✅ - ХОРОШО
А зря! И вот почему Friends Don’t Let Friends Use Stoplight Color Schemes
Кстати у нее на сайте много интересного материала! Как она говорит про себя - "Сотрудники белого дома при Обаме были в восторге от нее!"
PS c 3D pie chart можно!
Evergreen Data
Friends Don't Let Friends Use Stoplight Color Schemes
Don't google "data scorecard." It's full of stoplight color schemes. There are three solid reasons, each of which, on its own, is more than enough to get the red-yellow-green scheme uprooted.
Квантум рынок тоже не стоит на месте. На графике инвестиции в quantum startups. Я заметил, что некоторые connections на linkedin (кто занимался аналитикой) инвестируют время в изучение квантум, например на курсах от IBM. https://www.theinformation.com/articles/quantum-computing-startups-draw-record-investment
Я совершенно про них не знаю, но будет интересно, если в будущем аналитика будет использовать квантовые вычисления
https://www.ibm.com/quantum-computing/what-is-quantum-computing/
Я совершенно про них не знаю, но будет интересно, если в будущем аналитика будет использовать квантовые вычисления
https://www.ibm.com/quantum-computing/what-is-quantum-computing/
Секрет богатства найден)) в Северной Америке с этим проблем нет, главное было бы желание тратить все время на работу, и как говориться в статье "каждый paycheck мотивирует продолжать". Так что удачи вам и желаю вам больших зарплат! И больше не надо ныть менеджеру про повышение на 10-15%, просто находим 2ю работу и получаем + 100%.🤗
Forwarded from Nikita Baburov
оффтоп- Дмитрий - ты же недавно постил про совмещение работы на 2-х работах https://vc.ru/hr/283787-sotrudniki-na-udalenke-sovmeshchayut-dve-raboty-vtayne-ot-nachalstva-i-poluchayut-ot-200-tysyach-do-600-tysyach-v-god
vc.ru
Сотрудники на удалёнке совмещают две работы втайне от начальства — и получают от $200 тысяч до $600 тысяч в год — Карьера на vc.ru
Пока офисы закрыты, сотрудники придумали, как отлынивать и работать сразу в нескольких компаниях. Чем это грозит и какие советы можно почерпнуть — в пересказе The Wall Street Journal.
Недавно посетила мысль про онлайн обучение. Конечно же в теме курсы по data analytics, data science, big data и data engineering. Причем не важно в РФ или на Западе, но часто получается одна и таже ситуация.
Такие компании как Skillbox, SkillFactory, ОТУС, Нетология, Geek brains и другие очень хорошо умеют продавать. У них есть сильная команда по UI/UX, чтобы нарисовать классные landing , картинки, диаграмммы, сертификаты.
Все что пожелаете - будет сиять и блистеть, то есть выглядеть очень привлекательно.
У них есть команда front-end инженеров, которая готова построить функциональный сайт.
Есть хорошие переводчики, которые возьмут топовую статья на английском, переведут ее на русский и добавят в личный блог на хабр.
Есть группы в социальных сетях и могут быть телеграм каналы. Ну и конечно же есть классная маркетинговая команда (машина), которая генерит идеи и загоняет студентов в воронку.
Отдельно стоить упомянуть про специалистов по продаже. Я уверен они профессионалы и знают как продавать. И они это делают, причем очень успешно, согласно отчетам по доходам.
Но в конце воронке у нас есть курс по "<тема курса>", который создается одним (или несколькими людьми). И мне кажется это самое слабое звено в этой цепи. С одной стороны у нас большая команда, которая "нагоняет траффик" за счет обещаний лучшей жизни, причем они не хотят никого обманывать, они реально хотят продать хороший курс или хотят его таковым считать, а с другой сторону у нас инструктор, у которого и так хватает хлопот (дом, работа, семья, собеседования) и ему платят за создание курса копейки.
И получается, что часто курсы не соответствуют ожиданиям, студенты не довольны, просят вернуть обратно деньги, репутация школы страдает. Кстати, страдает ли репутация инструктора? Обычно нет, даже наоборот, строчка в резюме и доп знакомства, но по факту окажется, что это никак не монетизируется.
Поэтому я считаю, что в дорогих курсах и школах, которые их продают, самое слабое звено это сам курс, потому что, его надо сделать за сжатые сроки и за маленькое вознаграждение.
Один из вариантов решения проблемы на раннем этапе, это проводить бета тестирование курса, то есть просить людей из индустрии проходить курс по мере поступления контента (за дорого, реально платить по часам, за то, чтобы какой-нибуль топовый эсперт прошел курс). Получать фидбек (покупать фидбек и критику) и улучшать курс.
А какие вам видятся проблемы в курсах и школах по аналитике?
Такие компании как Skillbox, SkillFactory, ОТУС, Нетология, Geek brains и другие очень хорошо умеют продавать. У них есть сильная команда по UI/UX, чтобы нарисовать классные landing , картинки, диаграмммы, сертификаты.
Все что пожелаете - будет сиять и блистеть, то есть выглядеть очень привлекательно.
У них есть команда front-end инженеров, которая готова построить функциональный сайт.
Есть хорошие переводчики, которые возьмут топовую статья на английском, переведут ее на русский и добавят в личный блог на хабр.
Есть группы в социальных сетях и могут быть телеграм каналы. Ну и конечно же есть классная маркетинговая команда (машина), которая генерит идеи и загоняет студентов в воронку.
Отдельно стоить упомянуть про специалистов по продаже. Я уверен они профессионалы и знают как продавать. И они это делают, причем очень успешно, согласно отчетам по доходам.
Но в конце воронке у нас есть курс по "<тема курса>", который создается одним (или несколькими людьми). И мне кажется это самое слабое звено в этой цепи. С одной стороны у нас большая команда, которая "нагоняет траффик" за счет обещаний лучшей жизни, причем они не хотят никого обманывать, они реально хотят продать хороший курс или хотят его таковым считать, а с другой сторону у нас инструктор, у которого и так хватает хлопот (дом, работа, семья, собеседования) и ему платят за создание курса копейки.
И получается, что часто курсы не соответствуют ожиданиям, студенты не довольны, просят вернуть обратно деньги, репутация школы страдает. Кстати, страдает ли репутация инструктора? Обычно нет, даже наоборот, строчка в резюме и доп знакомства, но по факту окажется, что это никак не монетизируется.
Поэтому я считаю, что в дорогих курсах и школах, которые их продают, самое слабое звено это сам курс, потому что, его надо сделать за сжатые сроки и за маленькое вознаграждение.
Один из вариантов решения проблемы на раннем этапе, это проводить бета тестирование курса, то есть просить людей из индустрии проходить курс по мере поступления контента (за дорого, реально платить по часам, за то, чтобы какой-нибуль топовый эсперт прошел курс). Получать фидбек (покупать фидбек и критику) и улучшать курс.
А какие вам видятся проблемы в курсах и школах по аналитике?
Как готовиться к собеседованиям? О чём там вообще спрашивают? Какие темы могут затронуть?
Ребята из канала https://t.me/start_ds собирают полезные материалы для подготовки: статьи, обзоры, видео-примеры собеседований, сборники вопросов.
Пригодится как начинающим карьеру, так и опытным специалистам (пробежаться по базовым понятиям перед интервью)
PS Автор канала проведет для нас интересный вебинар в будущем про профессию data scientist и про свой путь и опыт! 🙏
Ребята из канала https://t.me/start_ds собирают полезные материалы для подготовки: статьи, обзоры, видео-примеры собеседований, сборники вопросов.
Пригодится как начинающим карьеру, так и опытным специалистам (пробежаться по базовым понятиям перед интервью)
PS Автор канала проведет для нас интересный вебинар в будущем про профессию data scientist и про свой путь и опыт! 🙏
Forwarded from 🔋 Труба данных
https://dropbox.github.io/dbx-career-framework/overview.html
Тут Dropbox опубликовал описание грейдов, которые он использует. То есть можно понять, что для них Junior, Middle, а также кто же такой Staff/Principal.
Немного компаний открывают доступ к таким внутренним ресурсам, поэтому это очень похвально.
Возможно, кому-то это поможет понять, что от него требуется и скорректировать свой план развития.
Кстати, если вы хотите понять, как эти уровни соотносятся с уровнями и грейдами других компаний, а также понять примерную компенсацию на этих уровнях, можно обратить внимание на ресурс levels.fyi. Для примера, на скриншоте сравнение уровней Гугла, Фейсбука и Майкрософта.
Тут Dropbox опубликовал описание грейдов, которые он использует. То есть можно понять, что для них Junior, Middle, а также кто же такой Staff/Principal.
Немного компаний открывают доступ к таким внутренним ресурсам, поэтому это очень похвально.
Возможно, кому-то это поможет понять, что от него требуется и скорректировать свой план развития.
Кстати, если вы хотите понять, как эти уровни соотносятся с уровнями и грейдами других компаний, а также понять примерную компенсацию на этих уровнях, можно обратить внимание на ресурс levels.fyi. Для примера, на скриншоте сравнение уровней Гугла, Фейсбука и Майкрософта.
Я оказался слишком наивным, когда выше писал про курсы. И был совершенно не прав. Все эти школы онлайн курсов - бесполезный треш. И это не мои слова, а слова основателя Skillbox, который продал его Mail Ru, и открыл успешный бизнес в Бразилии. По такой же модели.
Ключевое слово - "Бизнес" с высокой капитализацией. Более подробно тут https://youtu.be/tSuF0hDy2pA?t=715 (спасибо за ссылку, у меня какраз есть подписка на epic seasons, потому что я там тоже буду учавствовать). Как я понимаю вторая часть уже доступна за деньги. Каждая 2ая фраза это цитата.
Как заметил один из топов SkyPro в этом диалоге - он вроде бы хочет следовать миссии (значит делать контент хороший и учить людей), но в тоже время его партнеры хотят рубить бабло. Так что надо выбирать МИССИЯ или БАБЛО, нельзя и то и другое.
Ex основатель Skilbox объясняет нам почему же все таки бизнес успешный, а курсы лажи. А все потому-что 80% людей, "глупые", они не хотят развиваться и напрягаться, им приятно просто видосики посмотреть для собственного самоудовлетворения.
На вопрос "обман онлайн курсы или нет", он отвечает, что люди не хотят знать правду, у них есть право на не знание. Если бы писали на автомобили, что он опасен, разве это было бы хорошо?
Другой интересный момент - им вообще пофиг сколько людей закончило курс, так как всегда найдутся умные люди, которые дойдут курс до конца и найдут работу. Причем они сделали бы это и без помощи онлайн курсов. А их success stories, уже используют, чтобы впарить дальше.
В общем все как ожидалось, вам впаривают курсы, мечту о лучше жизни, но заранее знают, что это бесполезно, и если бы у вас было желание, вы бы сами во всем разобрались. А если его нет, то вам ничего не поможет, включая платные курсы.
Список аргументов из этого супер выпуска можно продолжать долго, но факт, что платные курсы, в частности всех программы DS, DE, аналитики и тп - это развод людей на деньги.
Самое интересное, что большинство людей, которые сидят в телеграм каналах по аналитике, читаю хабр - уже не глупые, им не нужны курсы, они сами выучаться и найдут работу. Поэтому реклама в телеге всяких курсов - чаще деньги на ветер. Для всех этих курсов нужна другая аудитория. Как сказал создатель skillbox - "глупые люди, которые не хотят самостоятельно учиться и курсы им не помогут".
Теперь я могу смело сказать Data Learn - это не курсы, это просто видео учебник по аналитике. Может быть даже видео энциклопедия. Но слово курсы - ТАБУ. Потому что это кидалово и развод людей на деньги. А рекламировать курсы в своих каналах это как продавать совесть. 🤢
Если вы сомневались раньше - покупать курс или нет, то теперь вы знаете как быть.
PS
1)судя по клиентам Яндекс партикум не плох, но даже в видео на него много ссылаются, у ним есть возможность сжигать деньги и стараться делать норм курсы.
2) Люди, которые делают и продают авторские курсы, не попадают в эту группу компаний, которые хотят любой ценой варить курс.
3) MIT и другие дорогие западные курсы - честно хз. Я бы сам хотел бы в MBA MIT Sloan, ради опыта, знакомств и среды, в которой учиться (оффлайн). А вот их мини курсы, я не уверен.
В общем, идея простая, вы сами можете все выучить и все будет хорошо. Но всегда будут люди, которые готовы платить за услуги и товары, которые "так себе". Вот вредно же пить алкоголь? А я пью. Опасно водить машину? А я езжу на машине и ТД.
Тему закрою про онлайн курсы. Спасибо Эрику за хорошее видео, обязательно посмотрите.
Ключевое слово - "Бизнес" с высокой капитализацией. Более подробно тут https://youtu.be/tSuF0hDy2pA?t=715 (спасибо за ссылку, у меня какраз есть подписка на epic seasons, потому что я там тоже буду учавствовать). Как я понимаю вторая часть уже доступна за деньги. Каждая 2ая фраза это цитата.
Как заметил один из топов SkyPro в этом диалоге - он вроде бы хочет следовать миссии (значит делать контент хороший и учить людей), но в тоже время его партнеры хотят рубить бабло. Так что надо выбирать МИССИЯ или БАБЛО, нельзя и то и другое.
Ex основатель Skilbox объясняет нам почему же все таки бизнес успешный, а курсы лажи. А все потому-что 80% людей, "глупые", они не хотят развиваться и напрягаться, им приятно просто видосики посмотреть для собственного самоудовлетворения.
На вопрос "обман онлайн курсы или нет", он отвечает, что люди не хотят знать правду, у них есть право на не знание. Если бы писали на автомобили, что он опасен, разве это было бы хорошо?
Другой интересный момент - им вообще пофиг сколько людей закончило курс, так как всегда найдутся умные люди, которые дойдут курс до конца и найдут работу. Причем они сделали бы это и без помощи онлайн курсов. А их success stories, уже используют, чтобы впарить дальше.
В общем все как ожидалось, вам впаривают курсы, мечту о лучше жизни, но заранее знают, что это бесполезно, и если бы у вас было желание, вы бы сами во всем разобрались. А если его нет, то вам ничего не поможет, включая платные курсы.
Список аргументов из этого супер выпуска можно продолжать долго, но факт, что платные курсы, в частности всех программы DS, DE, аналитики и тп - это развод людей на деньги.
Самое интересное, что большинство людей, которые сидят в телеграм каналах по аналитике, читаю хабр - уже не глупые, им не нужны курсы, они сами выучаться и найдут работу. Поэтому реклама в телеге всяких курсов - чаще деньги на ветер. Для всех этих курсов нужна другая аудитория. Как сказал создатель skillbox - "глупые люди, которые не хотят самостоятельно учиться и курсы им не помогут".
Теперь я могу смело сказать Data Learn - это не курсы, это просто видео учебник по аналитике. Может быть даже видео энциклопедия. Но слово курсы - ТАБУ. Потому что это кидалово и развод людей на деньги. А рекламировать курсы в своих каналах это как продавать совесть. 🤢
Если вы сомневались раньше - покупать курс или нет, то теперь вы знаете как быть.
PS
1)судя по клиентам Яндекс партикум не плох, но даже в видео на него много ссылаются, у ним есть возможность сжигать деньги и стараться делать норм курсы.
2) Люди, которые делают и продают авторские курсы, не попадают в эту группу компаний, которые хотят любой ценой варить курс.
3) MIT и другие дорогие западные курсы - честно хз. Я бы сам хотел бы в MBA MIT Sloan, ради опыта, знакомств и среды, в которой учиться (оффлайн). А вот их мини курсы, я не уверен.
В общем, идея простая, вы сами можете все выучить и все будет хорошо. Но всегда будут люди, которые готовы платить за услуги и товары, которые "так себе". Вот вредно же пить алкоголь? А я пью. Опасно водить машину? А я езжу на машине и ТД.
Тему закрою про онлайн курсы. Спасибо Эрику за хорошее видео, обязательно посмотрите.
Все чаще в сети встречается 2 словосочетания - "Analytics Engineer" и "Modern Data Stack", самое интересное, что Analytics Engineer происходит от одной компании Fishtown Analytics, создателей dbt tool. Очень классно они вписались в индустрию.
А вот еще выступление 5 Founders define the Modern Data Stack https://youtu.be/vbo7KlJZOLk
А вот еще выступление 5 Founders define the Modern Data Stack https://youtu.be/vbo7KlJZOLk
Medium
Analytics Engineering Everywhere
Or why in five years every organization will have an Analytics Engineering team