Инжиниринг Данных
22.9K subscribers
1.76K photos
51 videos
181 files
3.05K links
Делюсь новостями из мира аналитики и карьерными советами.

15 лет в Аналитике и Инжиниринге Данных, 9 лет в FAANG

🛠️ dataengineer.ru | 🏄‍♂️ Surfalytics.com

№5017813306

Реклама:
https://almond-rule-130.notion.site/1199f595f76a8030ba1be1e607c9a8ce
Download Telegram
#weeklydatanewsdump

Build your data pipeline in your AWS modern data platform using AWS Lake Formation, AWS Glue, and dbt Core - Теперь в AWS Glue можно использовать dbt core (бесплатный который), как я понимаю для Spark SQL. Я все еще не могу согласиться, что для Spark нужно использовать dbt. 😱

Confluent Announces Intent to Acquire Immerok to Accelerate the Development of a Cloud Native Apache Flink Offering - Confluent купила компания, которая продавало другое популярное решение для стриминга Apache Flink.

LLM Apps Are Mostly Data Pipelines - статья написано Meltano. Напомню, что это набор бесплатных connectors для ELT. Я на своем опыте уже зае заколебался использовать этот инструмент для Google Analytics, Google Ads, Google Search Console, Microsoft Bing. Каждый раз как в первый раз. Приходится лезть в source code, создавать баги в репозиторий и искать почему эта хреновина не работает. 👿 А про LLM я бы вообще помалкивал бы🤐

Does your organization have a culture of mediocrity? - про "посредственность" в организации

Schedule and Invoke Notebooks as Web Services using Jupyter API - если вы уж так любите в ноутбуках творить 🧐 то можно уже и на расписание поставить ваше творение😙

Advantage Lakehouse - онлайн мероприятие для Databricks и вам еще дадут купон на 100$ для экзамена

Riverbed: Optimizing Data Access at Airbnb’s Scale

Prefect обещает прислать носки и кепку, или даже футболку и кружку, если вы им оставите хороший отзыв. Напоминает накрученный рейтинг от Амазона, где у китайской товара тысячи 5 звезд🫣

Effectively using the MERGE command in Snowflake - пример использования MERGE в Snowflake и возможность оптимизации
Please open Telegram to view this post
VIEW IN TELEGRAM
Наконец-то кто-то нормально по зарплатам расписал. Конечно это Калифорния и Фаанги, но все четко. В 2023 году, за 600к$ налог будет 40-43%. А вот в Сиэтле 30-34%.

Если в Канаде в ВС доход 600к CAD будет, то 53%. Я специально не перевожу в US$ так как внутри страны мы живем и платим в локальной валюте. Вероятность получать US$ и тратить их в Канаде близка к 0.

В любом случае средняя зарплата в Канаде тысяч 120к CAD для дата позиций, если фаанг, то уже 200к CAD.
На Хабре вышла статья – в AppMetrica появились А/Б эксперименты. Теперь можно проверить гипотезы и определить их влияние на такие показатели, как ARPU, Retention, Time Spent.

Основа в виде “Конфигурации флагов” позволяет задавать конкретные параметры тестирования и проводить эксперименты на разных сегментах.

И ясное дело, удобнее, когда успешные результаты тестов можно сразу выгрузить из сервиса и показать пользователям, вместо того, чтобы тратить время на раскатку. Это тоже можно сделать в AppMetrica.

В общем, инфа актуальная, читайте.
Мне кажется AI готовит все больше сюрпризов для нас. Пример как на сайте Тинькофф можно ввести текст и услышать его голосом. Но оказывается синтез голоса может быть применен в другой индустрии - Из голоса банка - в п0рнo, и подпортить кому-то жизнь. А вы хотели бы своим голосом озвучить сомнительный контент? А что можно с deep fake сделать🙊
Замечательная статья - Instacart’s IPO filing sparked an online spat between cloud rivals Snowflake and Databricks

В
ней прекрасно все. Во-первых очевидно, что Snowflake и Databricks лидеры , и они трутся там, где есть бабло. В доказательство, рассказали, как Instacart тратила 51 млн баксов😱 только на Snowflake, и случайно CEO Snowflake находится в борде Instacart (возможно он просто по-дружески им порекомендовал использовать "лучший" продукт для хранилища и аналитики).

Но проблема, что в последний год Instacart потратил только 15 млн (вот это четкая оптимизация костов, учитесь🧐).

А потом оказалось, что интернет пестрил статьями про Instacart и Databricks, и вообще, Snowflake заменили Databricks, поэтому вот чек за снежинку упал. Но статьи эти потерли🫣

Обожаю когда Snowflake и Databricks решают, кто тут лучший. А то давно не было слышно ничего про их спор - кто быстрей. (еще ссылка на benchmark)
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Slalom - это консалтинг компания, я раньше про нее много писал, из всех компаний это моя самая любимая, даже RYD я многое с них копировал. Кстати они выросли из маленькой компании по бухгалтерии. А потом стали внедрять Snowflake, Tableau и другие современные штуки. Одно время я хотел пойти к ним в Ванкувере на Director Data Practice, но в итоге денег предложили мало ( я еще не знал, что Канада и много денег вещи не сопоставимые).

Все увольнения всегда обходили стороной консалтинги, но вот и до Slalom добралось, возможно причина таже - наняли много народу в ковид. Возможно сейчас компании стали экономить на подрядчиках.

Компания всегда славилась хорошей корпоративной культурой, и возможно там даже кто-то говорил, что они одна большая "семья". Но как обычно бывает:

After extensively exploring and debating every option possible with our senior leaders, executive committee, and board of directors on how to best position our company during this time of significant shifts within our industry and to plan for the future, we have made the painful decision to restructure COMPANY NAME. This will result in approximately XX% of our team members leaving the company.

Интересно конечно что за изменения в индустрии консалтинга он имеет ввиду. Но в целом, Бред подтвердил еще раз не принимайте близко к сердцу любой корпоративный bullshit. В первый день работы уже можно начинать поиск новой работы и изучать востребованные скилы на рынке, а то потом нечем будет платить за Flat White в Starbucks.
Как продвигается Surfalytics? Пока никак, но есть немножко фоток.

Идея простоя сделать глобальное сообщество, с контентом datalearn и фокусом на людей кто хочет:

1. Начать карьеру в дата и находится в Северной Америке (стек для Европы и Азии тоже подойдет, но не знаю как там с доходами) или планирует там оказаться (мир большой и только в Индии и Китае 3млрд людей, надо выбрать тех кто хочет жить в западной части мира и заразить их идеей красивой жизни)

2. Помочь подняться на следующий уровень с фокусом на доход, а не условный титул в вакансии.

3. Собрать маленькое сообщество high performers and achievers, чтобы создать благоприятную среду для своего развития. Доход тут имеет большое значение, или хотя бы планы его иметь, это про работу 7 дней в неделю, и долгие часы, не для всех, но reward должен быть соответствующий. И обязательно реинвестировать доход. Все должно быть направлено на личный (семейный) рост. Нужно знать чего хотеть и добиваться этого. Большинство предпочитает комфорт и их все устраивает, но есть люди кто тянется вверх и тянет других за собой, вот с такими и хочется общаться но в рамках схожей специализации вокруг данных, условное стартап сообщество где люди много работают но шансы заработать хорошие деньги очень маленькие и не предсказуемые.

4. Просто собрать большую аудиторию и попробовать монетизировать ее через вендоров.

5. Помогать компания внедрять лучшие решения (типа консалтинг и advisory)

6. Замутить реальный boot camp по серфингу в Тофино (на фотках). В этом году было только 3 человека на моем 3х дневном буткемпе и только один из них работает с данными.

7. Ну и самое главное заниматься тем чем нравится - учить других и помогать им быть успешными.
Вот разгребусь и займусь всем этим, советы легко раздавать другим, а вот самому начать сложней.
Understanding the Experience of Code Review.pdf
603.4 KB
Небольшое чтиво про code review - Understanding the Experience of Code Review:
Misalignments, Attention, and Units of Analysis

Code review is a common practice in software development and
numerous studies have described different aspects of the process;
its characteristics, the expectations on that process, issues around
reviewer allocation, and more. However, one aspect that has not
been studied to a large extent is the experience of the developers
in the code review process. This is unfortunate given the signifi cant amount of time that developers spend on this activity, where
problems that degrade developers’ experience on a daily basis can
create work environment issues.
In this paper, we present an extended analysis of an exploratory
mixed-method study where we focus on developers’ experience of
code review. We use semi-structured interviews to gather data from
two multi-national companies and conduct a follow-up survey. Our
results suggest that developers are frequently bothered by misalign ments in the code review tooling and process which is hindering
them in carrying out their code review tasks effectively. We present
an initial characterization of misalignments that may hamper the
developer experience. Based on our findings, we propose directions
for further exploration to improve the developer experience.
Недавно я подписался на рассылку от Олега про dbt tips. Все четко и по делу, если вы используете dbt, то вам пригодятся его советы.
На edX появилось 2 новых курса от Databricks:

Databricks: Large Language Models: Application through Production
Databricks: Large Language Models: Foundation Models from the Ground Up

Теперь вы сможете удивлять своими познаниями на собеседованиях про LLM из 🧱

PS Databricks готов к новому раунду инвестиций и они планируют выйти в положительный кэш фло в 2025. Думаю многие сотрудники databricks неплохо обкешатся рано и поздно.

Вот у snowflake тоже акции были дорогие на IPO но потом упали (явно были переоценены), посмотрим как у databricks.
На работе я часто видел ссылки про data contracts и посты на эту тему от Chad Sanderson. С одной стороны темы data consumers/data producers не нова, а с другой стороны раз есть бизнес проблема, то почему бы не предложить решение. Товарищ запустил компанию и полчил 7лям для старта.

Уверен тема и проблема уже мусолилась в стартапах. Поэтому аудитория то очень важная составляющая для успешного запуска компании.
Сегодня был замечательный день, сразу отражает всю индустрию.

Утром слушал о миграции с Azure Databricks на Snowflake. 👏

В обед слушал о миграции с AWS Snowflake на Databricks, тут я бы даже сказал это не миграция, а больше как добавление еще одного продукта, который делает тоже самое.😔

А под вечер я ковырял Redshift, где делаю прототип миграции AWS Athena на Redshift. 👨‍💻

При этом абсолютно везде одинаковые проблемы - дорого/медленно/качество данных/legacy&tech debt. Вообще такие решения принимаются сверху. Меня вообще нигде не спросили, хотят я книгу написал про Snowflake, и 3 года внедрял Databricks, и с Redshift мы вообще знакомы с 2014 года.
Please open Telegram to view this post
VIEW IN TELEGRAM
Шо за биг дата?

Алексаднр Сайков — мой коллега по дата инженерному цеху, выступил с презентацией про биг дату — что это вообще такое, чем там занимаются, на кой нужон дата инженер и вот это вот всё.

Если тема интересует, а маркетинговые видосы с баззвордами надоели — смотрите запись его годного выступления на ютубе!
Forwarded from Книжный куб (Alexander Polomodov)
Крутое интервью Андрея Стыскина, директор в Amazon, ex-CEO Яндекс.Поиск

В этом видео Дмитрий Грац взял интервью у Андрея Стыскина, в котором они поговорили про подход к менеджменту в Amazon и чем он отличался от Яндекса. Андрей поделился своими впечатлениями от процессов найма, онбординга, принятия решений на основе письменной культуры (ревью документов). Напоследок была тема про жизнь в Лос-Анджелесе, куда переехал Андрей в феврале 2023 года. И чем жизнь там отличается от Москвы. В общем, это интересное интервью, после которого я решил в скором времени прочитать книгу "Working backwards", в которой можно подробнее узнать про культуру Amazon (пока я читал токльо Invent and Wander, про которую рассказывал раньше)

#Interview #Management
Привет!

Подскажите мне по технике для записывания видео, если есть опыт? Мне бы хотелось немного проапгрейдить вариант, когда я записываю на телефон. По идее нужно:

- камера и объектив
- микрофон без проводной
- свет
- может есть еще чего из необходимого?

Какие-то громоздкие штуки не хочу рассматривать, в идеале, чтобы было все мобильно.