Интересное что-то
517 subscribers
2.72K photos
253 videos
139 files
4.52K links
Материалы и мысли, понадерганные отовсюду
Блог: https://t.me/asisakov_channel
Чат: https://t.me/youknowds_chat
Download Telegram
Forwarded from КПД
На канале GPU MODE пару недель назад вышла интересная лекция от Кристофера Де Са (один из чуваков, стоявших за QuIP/QuIP#/QTIP/YAQA, а точнее за теоретической подоплекой всего перечисленного).

В ней он дает некоторую базу про задачу квантизации, квадратичные приближения, откуда берется GPTQ и Incoherence Processing. В частности, я сам наконец понял, как можно было дойти до разложения Холески в GPTQ 😄.

Базарит дядька довольно забавно и корчит физиономии, так что не заскучаете.
Всем привет!🤟

Представляю вашему вниманию первую часть из подробного обзора дельта-метода в прикладных задачах. Я уверен, что пост будет полезен абсолютно всем, кто либо уже матерый АБшник, либо только начинает свои восхождения в прикладную статистику!

Перед собой поставил цель рассказать идею, рассмотреть примеры и самые частые кейсы из практики, где дельта-метод покажет себя очень хорошим инструментом, вместо других более известных - бутстрапа, например.

Всем приятного чтения! Жду ваших комментариев, а пока продолжу писать вторую часть:)

https://telegra.ph/Delta-metod-v-AB-testah-CHast-1-09-14
Как развить насмотренность и расширить датавиз-кругозор?

Насмотренность — это визуальный опыт, который помогает отличать хороший дизайн от плохого и генерировать новые идеи.

Чтобы этот опыт получить, нужно много смотреть😊

Собрала подборку сайтов с разными интересными визуализациями:

1. Information is beautiful
Огромное количество визуализаций по разным тематикам (есть фильтр).

2. Dataviz-inspiration
Подборка самых красивых и впечатляющих проектов в области визуализации данных (на момент написания поста их 221).

3. The pudding.cool
Сайт от онлайн-издания The Pudding с исследованиями на разные темы и подачей в виде визуальных историй.

4. Datawrapper
Еженедельные подборки визуализаций от Datawrapper.

5. Блог storytellingwithdata
В этом блоге можно встретить много разборов диаграмм.

6. Visualisingdata
Cсылка ведет на страницу со всеми публикациями проекта — новости, подкасты, ежемесячная рассылка.

7. FlowingData
Сайт, на котором регулярно публикуются статьи с исследованиями и графиками.

8. Каталог дашбордов Tableau Public
На портале можно найти много интересных визуализаций и дашбордов.

9. Блог с обзором дашбордов в Tableau
В блоге давно не было ничего нового, но может быть интересно почитать то, что есть.

10. Рубрика "График дня" от Mckinsey
Здесь можно подсмотреть примеры графиков.

Может, у вас есть чем дополнить?

Не бойтесь таких длинных списков! Необязательно тратить много времени и регулярно мониторить все вышеперечисленные сайты. Можно по случаю возвращаться к подборке и посматривать только часть из неё☺️

#dataviz #подборка
Forwarded from Dataism
😉😉 35 задач на алгоритмы для аналитиков

Это самые популярные задачи.
Если вы сейчас готовитесь к собеседованиям, то помимо бота @DataismPrepBot советую пройтись по этому списку.

1. Two Sum [https://leetcode.com/problems/two-sum/]
2. Fibonacci Number [https://leetcode.com/problems/fibonacci-number/]
3. Product of Array Except Self [https://leetcode.com/problems/product-of-array-except-self/]
4. Longest Common Prefix [https://leetcode.com/problems/longest-common-prefix]
5. Longest Palindromic Substring [https://leetcode.com/problems/longest-palindromic-substring/]
6. Longest Substring Without Repeating Characters [https://leetcode.com/problems/longest-substring-without-repeating-characters/]
7. Valid Parentheses [https://leetcode.com/problems/valid-parentheses/]
8. Remove Duplicates from Sorted Array [https://leetcode.com/problems/remove-duplicates-from-sorted-array/]
9. Maximum Subarray [https://leetcode.com/problems/maximum-subarray/]
10. Best Time to Buy and Sell Stock [https://leetcode.com/problems/best-time-to-buy-and-sell-stock/]
11. Minimum Size Subarray Sum [https://leetcode.com/problems/minimum-size-subarray-sum/]
12. Contains Duplicate [https://leetcode.com/problems/contains-duplicate/]
13. Summary Ranges [https://leetcode.com/problems/summary-ranges/]
14. Напиши функцию, которая берет на вход положительное целое число и проверяет, является ли оно простым.
15. Remove Element [https://leetcode.com/problems/remove-element/]
16. Third Maximum Number [https://leetcode.com/problems/third-maximum-number/description/]
17. Дан массив, состоящий из целых чисел. Напишите функцию, которая возвращает два максимума этого массива.
18. Implement Rand10() Using Rand7() [https://leetcode.com/problems/implement-rand10-using-rand7/description/]
19. Find First and Last Position of Element in Sorted Array [https://leetcode.com/problems/find-first-and-last-position-of-element-in-sorted-array/description/]
20. Valid Palindrome [https://leetcode.com/problems/valid-palindrome/]
21. Move Zeroes [https://leetcode.com/problems/move-zeroes/]
22. Intersection of Two Arrays [https://leetcode.com/problems/intersection-of-two-arrays/]
23. One edit distance [https://leetcode.com/problems/one-edit-distance/]
24. Group Anagrams [https://leetcode.com/problems/group-anagrams/description/]
25. Find Common Characters [https://leetcode.com/problems/find-common-characters/]
26. Search Insert Position [https://leetcode.com/problems/search-insert-position/]
27. Interval List Intersections [https://leetcode.com/problems/interval-list-intersections/]
28. Single Number [https://leetcode.com/problems/single-number/]
29. String Compression [https://leetcode.com/problems/string-compression/]
30. Permutation in String [https://leetcode.com/problems/permutation-in-string/description/]
31. Squares of a Sorted Array [https://leetcode.com/problems/squares-of-a-sorted-array/]
32. Top K Frequent Elements [https://leetcode.com/problems/top-k-frequent-elements/]
33. Sqrt(x) [https://leetcode.com/problems/sqrtx/]
34. Majority Element [https://leetcode.com/problems/majority-element/]
35. Find All Anagrams in a String [https://leetcode.com/problems/find-all-anagrams-in-a-string/]

Всем хорошей рабочей недели 🐾

P.S. Если кому-то недавно давали интересную задачу с литкода и ее нет в этом списке, то поделитесь плиз в комментах 👨‍💻
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Yandex for Analytics
🫐 Был ли кубик честным? Давайте разбираться

Публикуем ответ на задачу, которую предложили вам в прошлую пятницу.

Чтобы описать все возможные варианты развития событий, сформулируем гипотезы:

🔵 Нулевая гипотеза (H₀). Кубик честный. Тогда вероятность выпадения 6 по определению равна отношению благоприятного исхода к количеству всех возможных исходов: p₀ = 1 / 6 ≈ 0,1667

🔵 Альтернативная гипотеза (H₁). Кубик нечестный. А значит, вероятность выпадения 6 не равна 1/6.

Если кубик честный, то его поведение подчиняется биномиальному распределению вероятностей, которое описывает количество успехов для фиксированного количества независимых испытаний с двумя возможными исходами: успех или неудача.

Посчитаем стандартную ошибку для биномиального распределения:

SE = sqrt (p₀ × (1 − p₀) / n) ≈ 0,034

Z-тест — классический статистический метод, с помощью которого можно проверить гипотезу о среднем значении в выборке. Он позволяет оценить, является ли статистически значимой разница между реальным и гипотетическим значением выборки.

Метрика, используемая для такой оценки, называется z-статистикой. Посчитаем её:

z = (p − p₀) / SE = (30 / 120 − 0,1667) / 0,034 ≈ 2,45

Чтобы сделать вывод о честности кубика, сравниваем z-статистику с критическим значением — табличной величиной, зависящей от желаемого уровня значимости. Популярная величина уровня значимости — 0,05, то есть 95% достоверности. Критическое значение для неё — 1,96.

|z| = 2,45 > 1,96

Это значит, что отличие статистически значимо. И наш кубик с большой вероятностью окажется нечестным:
6 выпадает чаще, чем ожидалось для честного кубика (p < 0,05).


Совет. В работе мы чаще всего используем готовые калькуляторы. Иногда полезно вспомнить, как они работают — это помогает лучше понимать границы применимости разных критериев.

Хотите ещё задачек? Поддержите нас лайками!

Подписывайтесь:
💬 @Yandex4Analytics
Please open Telegram to view this post
VIEW IN TELEGRAM
Несколько лет назад я наблюдал обучение диффузии в одной не очень богатой на карты, но очень богатой организации, и чтобы дешевле проводить архитектурные экспы с диффузией(тогда еще UNET не до конца устоялись, это было до sd1.3) слои инициализировались прошлыми моделями. Ну типа у нас есть уже какие то CONVs, какие то Linear, какие то Cross attn, давайте заберем их с модели которая уже пробежала что то, порешейпим и заработает.

А тут выходит работа где челы показывают все тоже самое, только для DIT и показывают что можно довольно сильно менять архитектуру за <2% претрейн бюджета.

Потом авторы какой то очередной гибридный attn придумывают.

Работа интересна своими аблейшенами + тем что еще один метод перестает быть маргинальным

https://arxiv.org/pdf/2506.05340
Forwarded from Neural Info
Где-то месяц назад решил, что надо бы изучить CUDA более детально и в процессе поиска материалов наткнулся на сообщество GPU Mode.

GPU Mode - сообщество в Discord по CUDA, каждую неделю проходят лекции на 1-1.5 часа, запись которых выкладывают на YouTube, также есть собственный сайт на котором проходят соревнования, где необходимо писать наиболее оптимизированные CUDA ядра для решения различных задач (банальный пример - перевод изображения из RGB в grayscale).

Пока что смотрю только лекции в записи, начал с самой первой лекции, которая была в январе 2024 года, можно сказать материал совсем свежий. Лекции проводятся разными людьми, поэтому качество материала может отличаться от лекции к лекции. Все лекции которые я смотрел (первые 7) устроили по качеству, было 2 лекции, где присутствовали очень спорные тейки и из-за этого были смешанные чувства о материале лекции, но общее впечатление сложилось положительное на момент написания поста. У многих лекций крутые спикеры, например, различные ребята из команды оптимизации в PyTorch, т.е. люди, которые реально используют данные технологии в своей работе.

Часть лекций берет за основу материал из 4-ого издания книги "Programming Massively Parallel Processors: A Hands-on Approach", судя по отзывам отличная книга по CUDA и, что очень важно на мой взгляд, 4-ое издание вышло в 2022 году, т.е. материал в достаточной степени покрывает современное состояние программирования на CUDA.

Я считаю, что изучение CUDA будет полезно, даже если вы ни разу в жизни не примените его на практике, т.к. оно позволит вам понимать:
1. Архитектуру GPU.
2. Различия между GPU, CPU - преимущества и недостатки каждого типа.
3. Как работает различная память, понимая какая память для чего нужна и как работает, можно неплохо оптимизировать свой код.
4. Особенности параллельных вычислений, что позволит избежать глупых ошибок в процессе распределенного обучения моделей, да и в целом будет проще писать код, использующий параллельные вычисления.
5. Как можно дополнительно оптимизировать ваш ML код.

Как пример можно привести Flash Attention, который за счет более умной работы с различными видами памяти (и других оптимизаций) позволяет значительно ускорить реализацию механизма Attention.

С учетом современных реалий, где компании-гиганты обучают огромные модели на огромных объемах данных, вопросы оптимизации становятся все более важными как для самих компаний обучающих такие модели, так и для более мелких компаний, которые адаптируют такие предобученные модели под свои задачи.

#programming
Всем привет!🤟

Кто-то ждал, а кто-то не ждал, но я дописал вторую часть обзора дельта-метода.
Совокупно с первой частью получилось очень много математики, очень много практических кейсов.

Во второй части мы обсудим рег. тесты, оценки АБ-тестов с квантилями, которые, как окажется, являются просто продолжение рег. тестов :)

Надеюсь, что я смог убедить вас в неиспользовании бутстрапа, так как я официально отказываюсь от него в своих расчетах, кроме может быть быстрых расчетов в тетрадке, но не в проде!

Ставь 🐳, если перешел в клуб любителей дельта-метода!

https://telegra.ph/Delta-metod-v-AB-testah-CHast-2-09-21

Всем хорошего дня!
Forwarded from Варим МЛ
На внутреннем митапе сделал доклад про свой опыт использования ИИ-инструментов в разработке - какие есть виды, полезные советы, как сэкономить. Решил переложить его в текстовую форму - опытные вайб-кодеры, наверное, не найдут очень много полезного, но остальным может быть интересно.

Недавно с помощью ИИ как раз запилил интересный внутренний инструмент на основе LLM - алерт-менеджер, который помогает дежурным лучше работать с инцидентами. Если интересно - могу написать постик.

И ещё пара моментов.

Вопрос - мне надоел Телеграф, картинки неудобно вставлять, ссылки на разделы нельзя давать, где лучше писать посты, есть идеи? Или проще свой поднять сайт?

Предложение - пройти опрос State of Data 2025 от моего товарища из PT Олега Кочергина, результаты он подобьёт в инсайты на конфе SmartData в октябре.

#Жека #llm
roadmapAnalyst.pdf
396.2 KB
Подготовили для вас роадмапу по аналитике с подробным гайдом по работе с ней, с основными и провдинутыми темами, а также пет-проектами. Этот гайд поможет структуировать ваши знания по аналитике. Всем успешной подготовки к следующим сезонам стажировок!

Давайте наберём 500 огоньков 🔥 и соберем такой же только в ML.

@postypashki_old