LEFT JOIN
50.4K subscribers
913 photos
27 videos
6 files
1.14K links
Понятно про анализ данных, технологии, нейросети и, конечно, SQL.

Услуги — leftjoin.ru
Курсы по аналитике — https://stepik.org/users/431992492

Автор — @valiotti
Реклама — @valiotti

Перечень РКН: https://tapthe.link/PpkTHavwS
Download Telegram
LEFT JOIN pinned a photo
Вопрос личного характера: может ли кто-то поменять мои Tinkoff USD на крипту (стейбл / любые другие монеты), если можете, напишите в ЛС @valiotti
🤔17🎉2👍1
В течение десятилетий центральное место в разработке приложений занимала реляционная модель данных, которая используется в таких реляционных СУБД, как Oracle, DB2, SQL Server, MySQL и PostgreSQL. Но в последнее время большое распространение стали получать и другие модели данных - нереляционные / NoSQL.

NoSQL — это вид нетабличных баз данных, которые помогают хранить большие массивы данных без определённой структуры.
NoSQL стали популярным решением из-за простоты и гибкости разработки, широкого функционала, высокой производительности и возможности горизонтального масштабирования.
 
В зависимости от модели данных и подходов к распределённости и репликации в NoSQL выделяют четыре основных типа систем:
▪️ключ - значение (Redis, Memcached)
▪️колоночные (SAP IQ, Vertica, ClickHouse, Google BigTable, InfoBright, Cassandra)
▪️документо-ориентированные (CouchDB, MongoDB, Amazon DocumentDB)
▪️графовые (Neo4j, Amazon Neptune, InfiniteGraph, InfoGrid)

Данные типы систем используются
для решения задач кэширования, машинного обучения, хранения time-series данных или данных различающихся по структуре, размеру и содержанию.

Подробнее о преимуществах и недостатках применения различных типов NoSQL-систем и многом другом можете узнать на канале Базы данных и SQL

Подписывайтесь: @db_in_it
👍10😱9
Помните историю про утечку данных Яндекс.Еды?

А вот какое наказание понесла «Яндекс.Еда»: 60 тысяч рублей за наши с вами данные. SRSLY??
На минутку, в этом датасете как минимум 148 тыс. юзеров имеют общую сумму заказов больше чем на 60 тыс. рублей.
❗️А сумма в 60 тысяч рублей это всего лишь 0.0001163% от всей выручки за период в датасете (51,567 миллиардов рублей).

Так вот здорово охраняются наши с вами персональные данные🛡

Риторический вопрос: эта статья и наказание означает, что в РФ вообще больше никому нельзя оставлять валидные ПД?
👍38😱6🤔2
👨‍🎨 Как работает DALL-E 2? 🖼

В одном из последних постов рассказали вам про новую AI-модель и поделились кучей ссылок с примерами её работы. Давайте попробуем разобраться, что за магия происходит в модели и как она создает совершенно новые изображения с помощью короткого текстового описания.
💭 Итак, если объяснять процессы, которые происходят в модели простым языком, то глобально их три: модель получает текстовое описание, которое декодируется и попадает в пространство текстовых эмбедингов (математический способ представления информации). Затем они попадают в пространство эмбедингов изображений, где идет поиск наилучшего совпадения. После этого полученный эмбединг декодируется и мы получаем изображение. Вуаля!

📺 В основе модели лежит модель CLIP, которая занимается прямо противоположным: подбирает наиболее точное описание к каждому изображению. Как вы понимаете, для обеих моделей совершенно необходимо огроменное количество данных, а именно пар (изображение–точное описание). Вручную такое сделать достаточно трудно (руки и глаза точно устанут), поэтому данные собраны со всего Интернета.

🧪 Также, при построении DALL-E 2 использовались диффузионные модели. Сейчас мы быстро постараемся это понять, если к этому моменту вы еще не перегружены информацией. Эти модели берут изображение и постепенно добавляют к нему различные шумы до тех пор пока изображение не меняется до неузнаваемости. Затем, они пытаются провернуть этот процесс задом наперед: воссоздать исходное изображение. Таким образом, модель учится самостоятельно генерировать изображения (или любую другую информацию, например, музыку).

🔗 Сила DALL-E 2 заключается в большом количестве парных данных (естественного языка–изображения), которые доступны в Интернете. Использование таких данных не только устраняет недочеты, вызванные трудоемким процессом ручной маркировки данных. В первую очередь, шумный и даже неконтролируемый характер таких данных лучше всего отражает реальные данные, к которым должны быть устойчивы модели глубокого обучения.

Если все эти выводы кажутся вам непонятными или недостаточными, то в этом видео девушка еще более подробно (на примере схем и изображений) рассказывает о том, как именно работает DALL-E 2 и почему каждый этап обработки важен и незаменим.

#leftjoin_ai
👍20
Ура! 🎉
Мы пробили отметку в 10К подписчиков!
Спасибо всем и каждому, кто подписан, вы невероятно мотивируете меня и всю команду продолжать делать интересный контент. 😎😎
Иногда вспоминаю времена, когда в канале было 100 человек и некоторые мои знакомые удивлялись для чего я все это делаю! Конечно же, в большей степени для себя, но очень рад, что посты, контент и любые другие медийные материалы, которые мы выпускаем, принимаются коммьюнити с интересом 😇

Поэтому огромная благодарность за ваши реакции и репосты 👍👍👍

Пробив отметку в 10К собираюсь написать краткий пост с основными ссылками на публикации в этом канале и блоге, а также с информацией об авторе, чтобы все вновь прибывшие сразу могли узнать, что мы тут публикуем ☺️
52🎉31👍27👏1
🚨 Справочник по каналу 🚨
Немного очевидного: меня зовут Николай Валиотти, LEFT JOIN – телеграм-канал, который я веду вместе со своей командой Valiotti Analytics. Меня увлекает тема анализа, инжиниринга и визуализации данных, а также машинного обучения. Этот канал появился в ноябре 2018 года и довольно стремительно развивается все это время от заметок автора по теме интересных инструментов и приемов в Python/SQL к полноценному медиа со своим подкастом, дайджестами и примечательными проектами.
Мне бы хотелось, чтобы у всех специалистов была возможность разобраться в сложной информации об анализе данных, поэтому мы рассказываем об этом простым языком с яркими примерами. Чаще всего в канале можно встретить именно такой контент. Однако иногда я просто публикую интересные новости IT-сферы, поэтому не удивляйтесь. Например, у нас есть рубрика Новостной Дайджест, где информация далеко не только о данных.

🙋 Немного обо мне:
▫️С 2009 года работаю в области анализа данных и даже защитил кандидатскую диссертацию в СПбГУ по теме использования нейронных сетей
▫️Сейчас я учусь на программе Master of Analytics в американском ВУЗе Georgia Tech
▫️Работал в ряде крупных компаний: Лента, Yota, Балтика, Юлмарт, Tapcore, Airpush
▫️Увлекался программированием на разных языках: PHP, JS, C++ (в универе), Java, R, Python, а потом переключился на создание бизнеса, и так в 2019 году появилась компания Valiotti Analytics
▫️Развиваю c партнером стартап Mprove – self-service BI-платформа.
▫️Занимаюсь ангельским инвестированием в технологичные проекты преимущественно в области данных. Если вы – такой проект, то скорее пишите мне.
▫️Интересуюсь криптовалютой и проектами в этой области (особенно здорово, когда они на стыке с данными/аналитикой).
▫️Живу на Кипре с женой и дочкой, увлекаюсь теннисом 🎾, периодически рублю в плойку 🎮 😇

🛠 Услуги
🔹В рамках Valiotti Analytics мы помогаем компаниям строить аналитический стек: процессы инжиниринга, хранилища данных, отчетность, внедрение BI-инструментов на всем, что называется избитым "modern data stack"
🔹Для нас это означает, что мы работаем с современными цифровыми заказчиками, использующими облачные технологии, и совсем не работаем с несколько устаревшим стеком, где, например, присутствует 1С
🔹Также иногда я помогаю в персональном менторинге и консультирую владельцев компаний/топ-менеджеров


Важные материалы
🖼 Цикл постов про использование оконных функций
По хештегу: #leftjoin_sql

📝 Полезные посты из блога LeftJoin
Аналитические метрики здорового маркетолога
Лонгрид про выбор цветов для визуализации данных
Мануал по Yandex.Datasphere
Поиск интересных новых мест по геотегам в Instagram
Граф телеграм-каналов по теме аналитики
Дашборд первых 8 месяцев жизни малыша

👫 Совместные проекты
Дашборд с анализом рынка вакансий аналитиков c hh.ru с @revealthedata

📚 Статьи на Хабре
Используем serverless для построения аналитики на данных из AmoCRM в Yandex.Cloud
Подробный анализ телеграм-канала Артемия Лебедева и кое-что еще

🔬 Исследования
Исследование рынка онлайн-образования по анализу данных в России

📰 Интересные новости
Партнерство Tableau и Looker
Десять open-source аналогов Google Analytics
Snowflake купил Streamlit: почему это важно?
Список альтернатив Slack

🎞 Канал на YouTube
Все, что нужно знать про поступление в магистратуру Georgia Tech
Гайд по современным BI-инструментам

🎤 Интервью и выступления
Выступление на SmartData: Self-Service BI
Выступление на Матемаркетинге
Интервью для @start_ds
Интервью для @revealthedata
Презентация с выступления на конференции Linq

🎧 Подкаст Data Heroes: 2 сезон 👾
Эпизод 1: Рынок аналитики сейчас: какие произошли изменения после старта февральского безумия?
Эпизод 2: Data образование за рубежом: опыт тех, кто уже прошел этот путь

📧 Контакты и ссылки
С удовольствием знакомлюсь и общаюсь с новым и интересными людьми! Если у вас что-то есть по делу, пишите.
Телеграм — @valiotti
Почта — nikolay@valiotti.com
Valiotti Analytics | Блог Left Join | Tableau Public | YouTube
Подкаст Data Heroes | Твиттер | LinkedIn
🔥53👍7
LEFT JOIN pinned «🚨 Справочник по каналу 🚨 Немного очевидного: меня зовут Николай Валиотти, LEFT JOIN – телеграм-канал, который я веду вместе со своей командой Valiotti Analytics. Меня увлекает тема анализа, инжиниринга и визуализации данных, а также машинного обучения. Этот…»
🧑‍💻Как проанализировать всю свою жизнь и найти ответы на важные вопросы? 📊

Этот проект начался как локальная шутка Феликса Краузе и его друзей, чтобы у них всегда был ответ на вопрос “Когда же Феликс вернется в Нью-Йорк или Сан-Франциско?” Вместо того, чтобы отвечать всем, он просто создал сайт, на котором была вся нужная информация о нем.

На сегодняшний день Феликс собирает данные о себе ежедневно на протяжении 2,5 лет. Он записывает практически все что делает с невероятной точностью: рост, вес, время сна, калорийность еды (с разбивкой на белки, жиры и углеводы), время за компьютером, спорт, медитации и многое-многое другое. На сайте вы можете увидеть где Феликс сейчас, сколько он сегодня поспал и что поел (понятия не имею, зачем вам эта информация, но понаблюдать за этим интересно).

На самом деле целью его проекта было ответить на вопросы о своей жизни, такие как:
🔹 Как жизнь в разных городах влияет на спорт, производительность труда и ощущение счастья?
🔸 Как сон влияет на то, как пройдет день или качество занятия спортом?
🔹 Как погода и разные времена года влияют на мою жизнь?
🔸 Есть ли какие-либо тенденции за последние несколько лет?
🔹 Как время проведенное за компьютером, работа и рабочие встречи влияют на мою личную жизнь?

Думаю, что он старается сделать выводы исходя из данных и внедрить их в свою жизнь. На его сайте есть 42 визуализации данных, которые вы тоже можете просмотреть (не заинтересоваться просто невозможно) и заметить какие-то существенные закономерности🙃
👍25🔥13🤩3
рубрика #ЖизньнаКипре 🇨🇾

Что больше всего бесит на Кипре? Ответ «завтра».
🤔17👍13👏1
👨‍🏭 Пояснительная бригада к предыдущему посту подъехала!

Дело в том, что почти на все вопросы о сроках, я получаю ответ «завтра»: будь то открытие счета в банке (которое по итогу длилось 2 месяца), вызов электрика, оформление документов, обслуживание авто.

Завтрамэны повсюду! 🦸🏻
🤯15🥰12😱12🤩4
🇺🇸 Соединенные штаты планируют кампанию по привлечению инженеров и научных работников.

Примечательная потенциальная возможность для тех, кто планировал туда мигрировать и не может решить визовый вопрос (а он сейчас действительно сильно усложнился).
👍164😱4
Прикольный фреймворк для любителей поизвращаться: PyScript, позволяющий запустить .py-скрипт из .html-странички.
👍19🤔4
🚀 Релокейт: куда валить и что делать? Ответим в третьем эпизоде DataHeroes 🦸🏻

Принять быстрое решение о релокейте в другую страну и переехать за считанные дни? ✈️ Добавим к этому последние события в мире, закрытые границы и заблокированные банковские счета — получается неплохой квест! Только происходит это не в игре, а в реальной жизни.

Наши спикеры поделились своими захватывающими историями релокейта и ответили на главные вопросы: где просить помощи в вопросах переезда? Как распорядиться деньгами? Можно ли справиться с тревогой и что делать тем, кто пока не может переехать? Включайте подкаст и узнаете прямо сейчас!

БОНУС 🔥
В конце выпуска вас ждут подробные рекомендации по релокейту 😎 А также полезные советы и немного мотивации тем, кто остаётся в России!

Наши спикеры — Беслан Курашов, Павел Комаровский, Валерий Бабушкин, Виталий Емельянцев

Подкаст доступен на платформах: Spotify, Anchor, Apple Podcasts, Castbox, Overcast, Google, Yandex, Telegram (↓)

#DataHeroes #подкаст
🔥21👍112🤔1😱1
Audio
🔥25
LEFT JOIN pinned a photo
Забавный сервис: вбиваешь какую-то текстовую строку на выбранном языке, затем она 10 раз переводится на разные языки и потом возвращается обратно на исходный.

Из фразы: «Утром придумал новый пост в свой канал и опубликовал» у меня получилось: «На следующее утро я пошел на свой канал и был опубликован»

#ссылка
👍56