Forwarded from Датавиз в BI • Алиса Ручкина
Как развить насмотренность и расширить датавиз-кругозор?
Насмотренность — это визуальный опыт, который помогает отличать хороший дизайн от плохого и генерировать новые идеи.
Чтобы этот опыт получить, нужно много смотреть😊
Собрала подборку сайтов с разными интересными визуализациями:
1. Information is beautiful
Огромное количество визуализаций по разным тематикам (есть фильтр).
2. Dataviz-inspiration
Подборка самых красивых и впечатляющих проектов в области визуализации данных (на момент написания поста их 221).
3. The pudding.cool
Сайт от онлайн-издания The Pudding с исследованиями на разные темы и подачей в виде визуальных историй.
4. Datawrapper
Еженедельные подборки визуализаций от Datawrapper.
5. Блог storytellingwithdata
В этом блоге можно встретить много разборов диаграмм.
6. Visualisingdata
Cсылка ведет на страницу со всеми публикациями проекта — новости, подкасты, ежемесячная рассылка.
7. FlowingData
Сайт, на котором регулярно публикуются статьи с исследованиями и графиками.
8. Каталог дашбордов Tableau Public
На портале можно найти много интересных визуализаций и дашбордов.
9. Блог с обзором дашбордов в Tableau
В блоге давно не было ничего нового, но может быть интересно почитать то, что есть.
10. Рубрика "График дня" от Mckinsey
Здесь можно подсмотреть примеры графиков.
❓Может, у вас есть чем дополнить?
Не бойтесь таких длинных списков! Необязательно тратить много времени и регулярно мониторить все вышеперечисленные сайты. Можно по случаю возвращаться к подборке и посматривать только часть из неё☺️
#dataviz #подборка
Насмотренность — это визуальный опыт, который помогает отличать хороший дизайн от плохого и генерировать новые идеи.
Чтобы этот опыт получить, нужно много смотреть😊
Собрала подборку сайтов с разными интересными визуализациями:
1. Information is beautiful
Огромное количество визуализаций по разным тематикам (есть фильтр).
2. Dataviz-inspiration
Подборка самых красивых и впечатляющих проектов в области визуализации данных (на момент написания поста их 221).
3. The pudding.cool
Сайт от онлайн-издания The Pudding с исследованиями на разные темы и подачей в виде визуальных историй.
4. Datawrapper
Еженедельные подборки визуализаций от Datawrapper.
5. Блог storytellingwithdata
В этом блоге можно встретить много разборов диаграмм.
6. Visualisingdata
Cсылка ведет на страницу со всеми публикациями проекта — новости, подкасты, ежемесячная рассылка.
7. FlowingData
Сайт, на котором регулярно публикуются статьи с исследованиями и графиками.
8. Каталог дашбордов Tableau Public
На портале можно найти много интересных визуализаций и дашбордов.
9. Блог с обзором дашбордов в Tableau
В блоге давно не было ничего нового, но может быть интересно почитать то, что есть.
10. Рубрика "График дня" от Mckinsey
Здесь можно подсмотреть примеры графиков.
❓Может, у вас есть чем дополнить?
Не бойтесь таких длинных списков! Необязательно тратить много времени и регулярно мониторить все вышеперечисленные сайты. Можно по случаю возвращаться к подборке и посматривать только часть из неё☺️
#dataviz #подборка
Forwarded from Dataism
Это самые популярные задачи.
Если вы сейчас готовитесь к собеседованиям, то помимо бота @DataismPrepBot советую пройтись по этому списку.
1. Two Sum [https://leetcode.com/problems/two-sum/]
2. Fibonacci Number [https://leetcode.com/problems/fibonacci-number/]
3. Product of Array Except Self [https://leetcode.com/problems/product-of-array-except-self/]
4. Longest Common Prefix [https://leetcode.com/problems/longest-common-prefix]
5. Longest Palindromic Substring [https://leetcode.com/problems/longest-palindromic-substring/]
6. Longest Substring Without Repeating Characters [https://leetcode.com/problems/longest-substring-without-repeating-characters/]
7. Valid Parentheses [https://leetcode.com/problems/valid-parentheses/]
8. Remove Duplicates from Sorted Array [https://leetcode.com/problems/remove-duplicates-from-sorted-array/]
9. Maximum Subarray [https://leetcode.com/problems/maximum-subarray/]
10. Best Time to Buy and Sell Stock [https://leetcode.com/problems/best-time-to-buy-and-sell-stock/]
11. Minimum Size Subarray Sum [https://leetcode.com/problems/minimum-size-subarray-sum/]
12. Contains Duplicate [https://leetcode.com/problems/contains-duplicate/]
13. Summary Ranges [https://leetcode.com/problems/summary-ranges/]
14. Напиши функцию, которая берет на вход положительное целое число и проверяет, является ли оно простым.
15. Remove Element [https://leetcode.com/problems/remove-element/]
16. Third Maximum Number [https://leetcode.com/problems/third-maximum-number/description/]
17. Дан массив, состоящий из целых чисел. Напишите функцию, которая возвращает два максимума этого массива.
18. Implement Rand10() Using Rand7() [https://leetcode.com/problems/implement-rand10-using-rand7/description/]
19. Find First and Last Position of Element in Sorted Array [https://leetcode.com/problems/find-first-and-last-position-of-element-in-sorted-array/description/]
20. Valid Palindrome [https://leetcode.com/problems/valid-palindrome/]
21. Move Zeroes [https://leetcode.com/problems/move-zeroes/]
22. Intersection of Two Arrays [https://leetcode.com/problems/intersection-of-two-arrays/]
23. One edit distance [https://leetcode.com/problems/one-edit-distance/]
24. Group Anagrams [https://leetcode.com/problems/group-anagrams/description/]
25. Find Common Characters [https://leetcode.com/problems/find-common-characters/]
26. Search Insert Position [https://leetcode.com/problems/search-insert-position/]
27. Interval List Intersections [https://leetcode.com/problems/interval-list-intersections/]
28. Single Number [https://leetcode.com/problems/single-number/]
29. String Compression [https://leetcode.com/problems/string-compression/]
30. Permutation in String [https://leetcode.com/problems/permutation-in-string/description/]
31. Squares of a Sorted Array [https://leetcode.com/problems/squares-of-a-sorted-array/]
32. Top K Frequent Elements [https://leetcode.com/problems/top-k-frequent-elements/]
33. Sqrt(x) [https://leetcode.com/problems/sqrtx/]
34. Majority Element [https://leetcode.com/problems/majority-element/]
35. Find All Anagrams in a String [https://leetcode.com/problems/find-all-anagrams-in-a-string/]
Всем хорошей рабочей недели
P.S. Если кому-то недавно давали интересную задачу с литкода и ее нет в этом списке, то поделитесь плиз в комментах
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Yandex for Analytics
Публикуем ответ на задачу, которую предложили вам в прошлую пятницу.
Чтобы описать все возможные варианты развития событий, сформулируем гипотезы:🔵 Нулевая гипотеза (H₀). Кубик честный. Тогда вероятность выпадения 6 по определению равна отношению благоприятного исхода к количеству всех возможных исходов: p₀ = 1 / 6 ≈ 0,1667🔵 Альтернативная гипотеза (H₁). Кубик нечестный. А значит, вероятность выпадения 6 не равна 1/6.
Если кубик честный, то его поведение подчиняется биномиальному распределению вероятностей, которое описывает количество успехов для фиксированного количества независимых испытаний с двумя возможными исходами: успех или неудача.
Посчитаем стандартную ошибку для биномиального распределения:
SE = sqrt (p₀ × (1 − p₀) / n) ≈ 0,034
Z-тест — классический статистический метод, с помощью которого можно проверить гипотезу о среднем значении в выборке. Он позволяет оценить, является ли статистически значимой разница между реальным и гипотетическим значением выборки.
Метрика, используемая для такой оценки, называется z-статистикой. Посчитаем её:
z = (p − p₀) / SE = (30 / 120 − 0,1667) / 0,034 ≈ 2,45
Чтобы сделать вывод о честности кубика, сравниваем z-статистику с критическим значением — табличной величиной, зависящей от желаемого уровня значимости. Популярная величина уровня значимости — 0,05, то есть 95% достоверности. Критическое значение для неё — 1,96.
|z| = 2,45 > 1,96
Это значит, что отличие статистически значимо. И наш кубик с большой вероятностью окажется нечестным:
6 выпадает чаще, чем ожидалось для честного кубика (p < 0,05).
Хотите ещё задачек? Поддержите нас лайками!
Подписывайтесь:
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Love. Death. Transformers.
Несколько лет назад я наблюдал обучение диффузии в одной не очень богатой на карты, но очень богатой организации, и чтобы дешевле проводить архитектурные экспы с диффузией(тогда еще UNET не до конца устоялись, это было до sd1.3) слои инициализировались прошлыми моделями. Ну типа у нас есть уже какие то CONVs, какие то Linear, какие то Cross attn, давайте заберем их с модели которая уже пробежала что то, порешейпим и заработает.
А тут выходит работа где челы показывают все тоже самое, только для DIT и показывают что можно довольно сильно менять архитектуру за <2% претрейн бюджета.
Потом авторы какой то очередной гибридный attn придумывают.
Работа интересна своими аблейшенами + тем что еще один метод перестает быть маргинальным
https://arxiv.org/pdf/2506.05340
А тут выходит работа где челы показывают все тоже самое, только для DIT и показывают что можно довольно сильно менять архитектуру за <2% претрейн бюджета.
Потом авторы какой то очередной гибридный attn придумывают.
Работа интересна своими аблейшенами + тем что еще один метод перестает быть маргинальным
https://arxiv.org/pdf/2506.05340
Forwarded from Neural Info
Где-то месяц назад решил, что надо бы изучить CUDA более детально и в процессе поиска материалов наткнулся на сообщество GPU Mode.
GPU Mode - сообщество в Discord по CUDA, каждую неделю проходят лекции на 1-1.5 часа, запись которых выкладывают на YouTube, также есть собственный сайт на котором проходят соревнования, где необходимо писать наиболее оптимизированные CUDA ядра для решения различных задач (банальный пример - перевод изображения из RGB в grayscale).
Пока что смотрю только лекции в записи, начал с самой первой лекции, которая была в январе 2024 года, можно сказать материал совсем свежий. Лекции проводятся разными людьми, поэтому качество материала может отличаться от лекции к лекции. Все лекции которые я смотрел (первые 7) устроили по качеству, было 2 лекции, где присутствовали очень спорные тейки и из-за этого были смешанные чувства о материале лекции, но общее впечатление сложилось положительное на момент написания поста. У многих лекций крутые спикеры, например, различные ребята из команды оптимизации в PyTorch, т.е. люди, которые реально используют данные технологии в своей работе.
Часть лекций берет за основу материал из 4-ого издания книги "Programming Massively Parallel Processors: A Hands-on Approach", судя по отзывам отличная книга по CUDA и, что очень важно на мой взгляд, 4-ое издание вышло в 2022 году, т.е. материал в достаточной степени покрывает современное состояние программирования на CUDA.
Я считаю, что изучение CUDA будет полезно, даже если вы ни разу в жизни не примените его на практике, т.к. оно позволит вам понимать:
1. Архитектуру GPU.
2. Различия между GPU, CPU - преимущества и недостатки каждого типа.
3. Как работает различная память, понимая какая память для чего нужна и как работает, можно неплохо оптимизировать свой код.
4. Особенности параллельных вычислений, что позволит избежать глупых ошибок в процессе распределенного обучения моделей, да и в целом будет проще писать код, использующий параллельные вычисления.
5. Как можно дополнительно оптимизировать ваш ML код.
Как пример можно привести Flash Attention, который за счет более умной работы с различными видами памяти (и других оптимизаций) позволяет значительно ускорить реализацию механизма Attention.
С учетом современных реалий, где компании-гиганты обучают огромные модели на огромных объемах данных, вопросы оптимизации становятся все более важными как для самих компаний обучающих такие модели, так и для более мелких компаний, которые адаптируют такие предобученные модели под свои задачи.
#programming
GPU Mode - сообщество в Discord по CUDA, каждую неделю проходят лекции на 1-1.5 часа, запись которых выкладывают на YouTube, также есть собственный сайт на котором проходят соревнования, где необходимо писать наиболее оптимизированные CUDA ядра для решения различных задач (банальный пример - перевод изображения из RGB в grayscale).
Пока что смотрю только лекции в записи, начал с самой первой лекции, которая была в январе 2024 года, можно сказать материал совсем свежий. Лекции проводятся разными людьми, поэтому качество материала может отличаться от лекции к лекции. Все лекции которые я смотрел (первые 7) устроили по качеству, было 2 лекции, где присутствовали очень спорные тейки и из-за этого были смешанные чувства о материале лекции, но общее впечатление сложилось положительное на момент написания поста. У многих лекций крутые спикеры, например, различные ребята из команды оптимизации в PyTorch, т.е. люди, которые реально используют данные технологии в своей работе.
Часть лекций берет за основу материал из 4-ого издания книги "Programming Massively Parallel Processors: A Hands-on Approach", судя по отзывам отличная книга по CUDA и, что очень важно на мой взгляд, 4-ое издание вышло в 2022 году, т.е. материал в достаточной степени покрывает современное состояние программирования на CUDA.
Я считаю, что изучение CUDA будет полезно, даже если вы ни разу в жизни не примените его на практике, т.к. оно позволит вам понимать:
1. Архитектуру GPU.
2. Различия между GPU, CPU - преимущества и недостатки каждого типа.
3. Как работает различная память, понимая какая память для чего нужна и как работает, можно неплохо оптимизировать свой код.
4. Особенности параллельных вычислений, что позволит избежать глупых ошибок в процессе распределенного обучения моделей, да и в целом будет проще писать код, использующий параллельные вычисления.
5. Как можно дополнительно оптимизировать ваш ML код.
Как пример можно привести Flash Attention, который за счет более умной работы с различными видами памяти (и других оптимизаций) позволяет значительно ускорить реализацию механизма Attention.
С учетом современных реалий, где компании-гиганты обучают огромные модели на огромных объемах данных, вопросы оптимизации становятся все более важными как для самих компаний обучающих такие модели, так и для более мелких компаний, которые адаптируют такие предобученные модели под свои задачи.
#programming
Discord
Join the GPU MODE Discord Server!
An open source GPU programming community | 23547 members
Forwarded from Strategic move: стратегия, продукт и AI (Julia Bilinkis)
Презентация "Как создать AI стек продакта" с ProductCamp: https://docs.google.com/presentation/d/1sp36Em3O21r9ZzUuNV_o6sPkCaG-EtWyHAI92dpggTI/edit?usp=sharing
Google Docs
Как собрать рабочий AI стек продакта в 2025 году
19-21 СЕНТЯБРЯ 2025 НЕ-КОНФЕРЕНЦИЯ ДЛЯ ТЕХ КТО СВЯЗАН С РАЗРАБОТКОЙ ПРОДУКТОВ Как собрать рабочий AI стек продакта в 2025 году Билинкис Юлия CEO Strategicmove.education
Forwarded from Убежище аналитика
Всем привет!🤟
Кто-то ждал, а кто-то не ждал, но я дописал вторую часть обзора дельта-метода.
Совокупно с первой частью получилось очень много математики, очень много практических кейсов.
Во второй части мы обсудим рег. тесты, оценки АБ-тестов с квантилями, которые, как окажется, являются просто продолжение рег. тестов :)
Надеюсь, что я смог убедить вас в неиспользовании бутстрапа, так как я официально отказываюсь от него в своих расчетах, кроме может быть быстрых расчетов в тетрадке, но не в проде!
Ставь 🐳, если перешел в клуб любителей дельта-метода!
https://telegra.ph/Delta-metod-v-AB-testah-CHast-2-09-21
Всем хорошего дня!
Кто-то ждал, а кто-то не ждал, но я дописал вторую часть обзора дельта-метода.
Совокупно с первой частью получилось очень много математики, очень много практических кейсов.
Во второй части мы обсудим рег. тесты, оценки АБ-тестов с квантилями, которые, как окажется, являются просто продолжение рег. тестов :)
Надеюсь, что я смог убедить вас в неиспользовании бутстрапа, так как я официально отказываюсь от него в своих расчетах, кроме может быть быстрых расчетов в тетрадке, но не в проде!
Ставь 🐳, если перешел в клуб любителей дельта-метода!
https://telegra.ph/Delta-metod-v-AB-testah-CHast-2-09-21
Всем хорошего дня!
Telegraph
Дельта метод в АБ-тестах. Часть 2
Всем привет! Эта статья является продолжением большого обсуждения дельта-метода. В первой части мы рассмотрели введение, дали необходимую математическую базу метода и рассмотрели первый прикладной кейс, где дельта-метод будет эффективным - Lift-метрики. В…
Forwarded from Варим МЛ
На внутреннем митапе сделал доклад про свой опыт использования ИИ-инструментов в разработке - какие есть виды, полезные советы, как сэкономить. Решил переложить его в текстовую форму - опытные вайб-кодеры, наверное, не найдут очень много полезного, но остальным может быть интересно.
Недавно с помощью ИИ как раз запилил интересный внутренний инструмент на основе LLM - алерт-менеджер, который помогает дежурным лучше работать с инцидентами. Если интересно - могу написать постик.
И ещё пара моментов.
Вопрос - мне надоел Телеграф, картинки неудобно вставлять, ссылки на разделы нельзя давать, где лучше писать посты, есть идеи? Или проще свой поднять сайт?
Предложение - пройти опрос State of Data 2025 от моего товарища из PT Олега Кочергина, результаты он подобьёт в инсайты на конфе SmartData в октябре.
#Жека #llm
Недавно с помощью ИИ как раз запилил интересный внутренний инструмент на основе LLM - алерт-менеджер, который помогает дежурным лучше работать с инцидентами. Если интересно - могу написать постик.
И ещё пара моментов.
Вопрос - мне надоел Телеграф, картинки неудобно вставлять, ссылки на разделы нельзя давать, где лучше писать посты, есть идеи? Или проще свой поднять сайт?
Предложение - пройти опрос State of Data 2025 от моего товарища из PT Олега Кочергина, результаты он подобьёт в инсайты на конфе SmartData в октябре.
#Жека #llm
Telegraph
ИИ-инструменты в разработке - Opinionated Guide
Недавно мы провели опрос по использованию ИИ-инструментов в техотделе. Оказалось, что большая часть людей использует чаты в браузере - ChatGPT, Deepseek и подобное. Специализированные AI-IDE и плагины не дотягивают по активному использованию даже до половины.…
Forwarded from Поступашки - ШАД, Стажировки и Магистратура
roadmapAnalyst.pdf
396.2 KB
Подготовили для вас роадмапу по аналитике с подробным гайдом по работе с ней, с основными и провдинутыми темами, а также пет-проектами. Этот гайд поможет структуировать ваши знания по аналитике. Всем успешной подготовки к следующим сезонам стажировок!
Давайте наберём 500 огоньков 🔥 и соберем такой же только в ML.
@postypashki_old
Давайте наберём 500 огоньков 🔥 и соберем такой же только в ML.
@postypashki_old
Forwarded from Denis Sexy IT 🤖
Протестировал неплохую систему Deep Research:
1. Регаетесь тут https://platform.parallel.ai/play/deep-research
2. Получаете 80$ на счет (UPD. подписчик говорит дали 20$, не знаю как это работает)
3. Выбираете Ultra8x и запускаете поиск по какой-то теме которая вам важна
Штука генерирует отчет на основе тысяч страниц, в моих тестах она рассматривала 10-20 тысяч для генерации отчета
P.S. Один отчет стоит примерно 2.4$
1. Регаетесь тут https://platform.parallel.ai/play/deep-research
2. Получаете 80$ на счет (UPD. подписчик говорит дали 20$, не знаю как это работает)
3. Выбираете Ultra8x и запускаете поиск по какой-то теме которая вам важна
Штука генерирует отчет на основе тысяч страниц, в моих тестах она рассматривала 10-20 тысяч для генерации отчета
P.S. Один отчет стоит примерно 2.4$