Forwarded from Hacker News
Show HN: Anki AI Utils (Score: 150+ in 16 hours)
Link: https://readhacker.news/s/6kdsm
Comments: https://readhacker.news/c/6kdsm
Hi hn, I am nearly at the end of medical school so it is time I publish and "advertise" my open source scripts/apps for anki! Here's the pitch:
Anki AI Utils is a suite of AI-powered tools designed to automatically improve cards you find challenging. Whether you're studying medicine, languages, or any complex subject, these tools can:
- Explain difficult concepts with clear, ChatGPT-generated explanations.
- Illustrate key ideas using Dall-E or Stable Diffusion-generated images.
- Create mnemonics tailored to your memory style, including support for the Major System.
- Reformulate poorly worded cards for clarity and better retention.
Key Features:
- Adaptive Learning: Uses semantic similarity to match cards with relevant examples.
- Personalized Memory Hooks: Builds on your existing mnemonics for stronger recall.
- Automation Ready: Run scripts daily to enhance cards you struggled with.
- Universal Compatibility: Works across all Anki clients (Windows, Mac, Linux, Android, iOS).
Example:
For a flashcard about febrile seizures, Anki AI Utils can:
- Generate a Dall-E illustration of a toddler holding a teacup next to a fireplace.
- Create mnemonics like "A child stumbles near the fire, dances symmetrically, has one strike, and fewer than three fires."
- Provide an explanation of why febrile seizures occur and their diagnostic criteria.
Call for Contributors:
This project is battle-tested but needs help to become a polished Anki addon. If you’re a developer or enthusiast, join us to make these tools more accessible!
Check out my other projects on GitHub: [Anki AI Utils](https://github.com/thiswillbeyourgithub)
Transform your Anki experience with AI—because learning should be smarter, not harder.
Link: https://readhacker.news/s/6kdsm
Comments: https://readhacker.news/c/6kdsm
Hi hn, I am nearly at the end of medical school so it is time I publish and "advertise" my open source scripts/apps for anki! Here's the pitch:
Anki AI Utils is a suite of AI-powered tools designed to automatically improve cards you find challenging. Whether you're studying medicine, languages, or any complex subject, these tools can:
- Explain difficult concepts with clear, ChatGPT-generated explanations.
- Illustrate key ideas using Dall-E or Stable Diffusion-generated images.
- Create mnemonics tailored to your memory style, including support for the Major System.
- Reformulate poorly worded cards for clarity and better retention.
Key Features:
- Adaptive Learning: Uses semantic similarity to match cards with relevant examples.
- Personalized Memory Hooks: Builds on your existing mnemonics for stronger recall.
- Automation Ready: Run scripts daily to enhance cards you struggled with.
- Universal Compatibility: Works across all Anki clients (Windows, Mac, Linux, Android, iOS).
Example:
For a flashcard about febrile seizures, Anki AI Utils can:
- Generate a Dall-E illustration of a toddler holding a teacup next to a fireplace.
- Create mnemonics like "A child stumbles near the fire, dances symmetrically, has one strike, and fewer than three fires."
- Provide an explanation of why febrile seizures occur and their diagnostic criteria.
Call for Contributors:
This project is battle-tested but needs help to become a polished Anki addon. If you’re a developer or enthusiast, join us to make these tools more accessible!
Check out my other projects on GitHub: [Anki AI Utils](https://github.com/thiswillbeyourgithub)
Transform your Anki experience with AI—because learning should be smarter, not harder.
GitHub
GitHub - thiswillbeyourgithub/AnkiAIUtils: AI-powered tools to enhance Anki flashcards with explanations, mnemonics, illustrations…
AI-powered tools to enhance Anki flashcards with explanations, mnemonics, illustrations, and adaptive learning for medical school and beyond - thiswillbeyourgithub/AnkiAIUtils
Forwarded from NLP Wanderer
42-ух минутный доклад с NeurIPS 2024 об основных конкурентах архитектуры трансформера
Вам в очень энергичной манере поведают:
- В чем логика заменять трансформер
- Общий таймлайн развития альтернативных архитектур с 2020 года и причем тут LSTM
- Что же там в итоге с линейным атеншеном в 2024том
- Кто же этот такой ваш RWKV, кто за ним стоит и почему он не хочет умирать в 2025том
- Как быть отчаяным ресерчером и в одиночку успешно линеаризовывать opensource LLM без собственного претрейна
- Что еще случилось за год (Jamba, Sana, DNA Models и что еще нас ждет
Смотреть на Ютубе
Вам в очень энергичной манере поведают:
- В чем логика заменять трансформер
- Общий таймлайн развития альтернативных архитектур с 2020 года и причем тут LSTM
- Что же там в итоге с линейным атеншеном в 2024том
- Кто же этот такой ваш RWKV, кто за ним стоит и почему он не хочет умирать в 2025том
- Как быть отчаяным ресерчером и в одиночку успешно линеаризовывать opensource LLM без собственного претрейна
- Что еще случилось за год (Jamba, Sana, DNA Models и что еще нас ждет
Смотреть на Ютубе
Forwarded from ИИгорь R&D
#учимпитон
Еще немного полезных хаков. Хочется уметь по конфигу легко и красиво получать объект класса. Но в конфиге только строки (не надо unsafe YAML, это бездна), а чтобы получить объект надо строку с названием типа как-то преобразовать в сам тип. Можно это сделать кучей if-ов или, начиная с питона 3.10, match+case, и там вручную все проверять и создавать объекты. Но это все костыльно и некрасиво. А вот как красиво:
Как это работает. Функция
Основное преимущество — ничего не надо менять нигде в коде при добавлении нового класса-наследника. То есть даже если это библиотечный код, а новый наследник создается в пользовательском коде, то этот наследник зарегистрируется и будет доступен по имени вместе с остальными дочерними классами.
Еще немного полезных хаков. Хочется уметь по конфигу легко и красиво получать объект класса. Но в конфиге только строки (не надо unsafe YAML, это бездна), а чтобы получить объект надо строку с названием типа как-то преобразовать в сам тип. Можно это сделать кучей if-ов или, начиная с питона 3.10, match+case, и там вручную все проверять и создавать объекты. Но это все костыльно и некрасиво. А вот как красиво:
import abc
class Base(abc.ABC):
_registry = {}
def __init_subclass__(cls, /, name: str | None = None, **kwargs):
super().__init_subclass__(**kwargs)
name = name or cls.__name__
if name in Base._registry:
raise ValueError(f"{name} is already registered")
Base._registry[name] = cls
@staticmethod
def get_instance(name: str, *args, **kwargs) -> Base:
return Base._registry[name](*args, **kwargs)
Как это работает. Функция
__init_subclass__ вызывается каждый раз, когда в питоне создается класс-наследник (сам класс, не объект!). Тогда в registry по ключу name (по умолчанию тупо имя субкласса) записывается сам класс. Можно зарегистрировать с иным именем. Пользоваться этим так:class Sub(Base):
def __init__(self, a, b):
pass
class OtherSub(Base, name="Sub2"):
pass
sub = Base.get_instance("Sub", 42, b=2) # create instance of Sub
# create instance of OtherSub by the explicitly specified name
other_sub = Base.get_instance("Sub2")
Основное преимущество — ничего не надо менять нигде в коде при добавлении нового класса-наследника. То есть даже если это библиотечный код, а новый наследник создается в пользовательском коде, то этот наследник зарегистрируется и будет доступен по имени вместе с остальными дочерними классами.
#causal
Интересные статьи по causal inference на Хабре
https://habr.com/ru/companies/sberbank/articles/847382/
https://habr.com/ru/companies/sberbank/articles/847406/
Интересные статьи по causal inference на Хабре
https://habr.com/ru/companies/sberbank/articles/847382/
https://habr.com/ru/companies/sberbank/articles/847406/
Хабр
Causal Inference: прозрение и практика. Лекция 1. Основные понятия Causal Inference
В нашем веке центральное место в анализе и использовании данных занимает Data Science. Однако часто данное понятие сводят к одним лишь алгоритмам машинного обучения или даже...
Forwarded from DevFM
Docker в каждый дом
Стрим FastAPI+Docker породил бурное обсуждение, а нужен ли докер в таком небольшом проекте. Наш ответ — обязательно! В современном мире разработки docker является такой же неотъемлемой частью разработки, как и git. Есть некоторые области без докера, например, разработка GUI, операционных систем или микроконтроллеров. Но весь backend, frontend и data science без докера вообще не живут. Давайте посмотрим, какие прямые выгоды даёт докер:
1. Всегда понятно, как запустить код. Dockerfile является однозначной инструкцией по сборке проекта. Bus-factor не мешает жить.
2. Легко включать новых людей в разработку. Инструкция в ридми сводится к docker build & docker run, что понятно даже junior-разработчикам.
3. Деплой можно производить где угодно. В пару команд можно запуститься на компе разработчика, на test или prod сервере, у заказчика на ноутбуке – и везде всё будет одинаково, нужен только сам Docker.
4. Проект одинаково себя ведёт везде. Это упрощает воспроизведение проблемы и сокращает время на багфикс.
5. Нет проблем с конфликтом зависимостей-библиотек. Вы можете на одной машине запустить проекты с условным django 3 и django 4, они никак друг другу не помешают.
6. Легко поднимать зависимости-компоненты. Для любой базы данных берётся готовый докер-образ, меняется конфиг и в одну команду запускается. С выходом на docker compose можно одной командой поднимать сборную солянку из backend, frontend, базы данных, nginx и Let's Encrypt.
7. Просто откатываться к старой версии. Версионирование докер-образов позволяет запустить новую версию, и, если что-то пошло не так, откатиться назад за десятки секунд.
8. Понятные внешние эффекты проекта. В команде docker run указаны проброшенные в контейнер каталоги и порты. Всё остальное изолированно.
В общем, со всех сторон одна польза. Минусы? Требуется изучить новый инструмент и best practices. Кажется, на этом всё. Даже дополнительных накладных расходов на виртуализацию нет. И помните – если docker вам мешает, скорее всего, вы что-то делаете неправильно.
Для запуска нескольких связанных контейнеров пользуйтесь compose, гайд тут. Если ещё нужно управлять множеством серверов, то посмотрите на kubernetes.
#skills #sudo #devfm
Стрим FastAPI+Docker породил бурное обсуждение, а нужен ли докер в таком небольшом проекте. Наш ответ — обязательно! В современном мире разработки docker является такой же неотъемлемой частью разработки, как и git. Есть некоторые области без докера, например, разработка GUI, операционных систем или микроконтроллеров. Но весь backend, frontend и data science без докера вообще не живут. Давайте посмотрим, какие прямые выгоды даёт докер:
1. Всегда понятно, как запустить код. Dockerfile является однозначной инструкцией по сборке проекта. Bus-factor не мешает жить.
2. Легко включать новых людей в разработку. Инструкция в ридми сводится к docker build & docker run, что понятно даже junior-разработчикам.
3. Деплой можно производить где угодно. В пару команд можно запуститься на компе разработчика, на test или prod сервере, у заказчика на ноутбуке – и везде всё будет одинаково, нужен только сам Docker.
4. Проект одинаково себя ведёт везде. Это упрощает воспроизведение проблемы и сокращает время на багфикс.
5. Нет проблем с конфликтом зависимостей-библиотек. Вы можете на одной машине запустить проекты с условным django 3 и django 4, они никак друг другу не помешают.
6. Легко поднимать зависимости-компоненты. Для любой базы данных берётся готовый докер-образ, меняется конфиг и в одну команду запускается. С выходом на docker compose можно одной командой поднимать сборную солянку из backend, frontend, базы данных, nginx и Let's Encrypt.
7. Просто откатываться к старой версии. Версионирование докер-образов позволяет запустить новую версию, и, если что-то пошло не так, откатиться назад за десятки секунд.
8. Понятные внешние эффекты проекта. В команде docker run указаны проброшенные в контейнер каталоги и порты. Всё остальное изолированно.
В общем, со всех сторон одна польза. Минусы? Требуется изучить новый инструмент и best practices. Кажется, на этом всё. Даже дополнительных накладных расходов на виртуализацию нет. И помните – если docker вам мешает, скорее всего, вы что-то делаете неправильно.
Для запуска нескольких связанных контейнеров пользуйтесь compose, гайд тут. Если ещё нужно управлять множеством серверов, то посмотрите на kubernetes.
#skills #sudo #devfm
Telegram
DevFM
Стрим: разбираем Fastapi + Docker
Сняли почти часовое видео для начинающих, смотрите где удобно youtube / rutube / dzen / VK.
В нём собираем приложение по доке FastAPI (кстати, документацию читать полезно, а их дока крутая). В видео фокусируемся на обвязке…
Сняли почти часовое видео для начинающих, смотрите где удобно youtube / rutube / dzen / VK.
В нём собираем приложение по доке FastAPI (кстати, документацию читать полезно, а их дока крутая). В видео фокусируемся на обвязке…
Forwarded from Заскуль питона (Data Science)
Перед новогодними праздниками X5 написали статью про контекстных бандитов и то, как они их применяли в ценообразовании. Здесь рассказывается об основных методах, которые ребята применяли для экспериментов: UCB, Thompson Sampling.
Базово алгоритмы позволяют выбрать лучшую стратегию на основе метрики, например, цены товара, исходя из определенного контекста, изменения среды (данных по пользователю, внешних факторов и др.). В отличие от классических A/B-тестов, контекстные бандиты могут достаточно быстро менять свои решения, адаптируясь к реальным данным. Это значит, что вместо долгих тестов можно сразу получать лучшие результаты.
Кроме того, статья затрагивает важный аспект - это баланс между исследованием новых вариантов и использованием уже известных положительных решений. Например, утром цены могут быть ниже, чтобы привлечь покупателей, а вечером - выше, чтобы увеличить маржу.
Код обещали выложить в следующей статье, в статье Ozon Tech он уже есть. Байесовская линейная регрессия, Thompson Sampling, СMAB, код тут
Базово алгоритмы позволяют выбрать лучшую стратегию на основе метрики, например, цены товара, исходя из определенного контекста, изменения среды (данных по пользователю, внешних факторов и др.). В отличие от классических A/B-тестов, контекстные бандиты могут достаточно быстро менять свои решения, адаптируясь к реальным данным. Это значит, что вместо долгих тестов можно сразу получать лучшие результаты.
Кроме того, статья затрагивает важный аспект - это баланс между исследованием новых вариантов и использованием уже известных положительных решений. Например, утром цены могут быть ниже, чтобы привлечь покупателей, а вечером - выше, чтобы увеличить маржу.
Код обещали выложить в следующей статье, в статье Ozon Tech он уже есть. Байесовская линейная регрессия, Thompson Sampling, СMAB, код тут
Forwarded from Тимлид Очевидность | Евгений Антонов
Я принес. Подборку классных докладов
В конце этого года я съездил на московский Тимлидконф. Первый день прошел в какой-то сумбурной суете: то круглый стол, то подкаст надо записать, то афтепати уже началось.
А вот во второй день я решил проверить, правда ли конференции уже не те, и доклады – фигня? Сходил на несколько докладов и искренне получил удовольствие.
Настолько мне всё понравилось, что я у каждого из этих спикеров попросил ссылку и разрешение вам сегодня принести эту подборку. Приложу ссылки на эти доклады и мои впечатления о них. Вдруг у вас в обозримом будущем найдется время и желание посмотреть что-то такое.
1. Доклад Миши Трифонова про servant leadership (лидер-слуга). Очень мне близка эта тема. Смотрел и чувствовал, как у меня с Мишей сходятся мысли и интенции не просто в сторону эффективности, а еще и гуманизма и заботы о своей команде. https://youtu.be/vBTSieU2K60
2. Дарья Бородина с докладом про то, как сохранять и восстанавливать энергию, когда забит календарь. И тема актуальная для тех у кого много созвонов в день (eto ya), и Даша очень живо и харизматично выступает, и некоторое побуждение к полезным действиям есть. Мне бы его год назад посмотреть, вот бы мне это время и силы сэкономило 🙂 Сам на практике искал рецепты и доходил до того, что Даша за 40 минут рассказала. https://youtu.be/jbuUGm_5jZc
3. Женя Идзиковский рассказал про нашу психику с понятной айтишникам точки зрения. Легаси, техдолг, баги, способы перепрошивки. Всё как всегда с крутыми и понятными примерами. Секция вопросов и ответов в конце забавная вышла 🙂 https://youtu.be/mTDp1EKSxrU
4. Настя Абрашитова выдала базу для мидл-менеджеров на тему того, что делать, если от вас уходит тимлид. Хорошо структурированная и рациональная инструкция. Вот прям сталкиваешься с такой ситуацией, открываешь доклад и работаешь по шагам. https://youtu.be/AjqQBXdMBQw
Добавляйте в список «Посмотреть позже» и продолжайте резать салаты, больше не отвлекаю в этом году.
С наступающим, кстати! 🎄🎉
В конце этого года я съездил на московский Тимлидконф. Первый день прошел в какой-то сумбурной суете: то круглый стол, то подкаст надо записать, то афтепати уже началось.
А вот во второй день я решил проверить, правда ли конференции уже не те, и доклады – фигня? Сходил на несколько докладов и искренне получил удовольствие.
Настолько мне всё понравилось, что я у каждого из этих спикеров попросил ссылку и разрешение вам сегодня принести эту подборку. Приложу ссылки на эти доклады и мои впечатления о них. Вдруг у вас в обозримом будущем найдется время и желание посмотреть что-то такое.
1. Доклад Миши Трифонова про servant leadership (лидер-слуга). Очень мне близка эта тема. Смотрел и чувствовал, как у меня с Мишей сходятся мысли и интенции не просто в сторону эффективности, а еще и гуманизма и заботы о своей команде. https://youtu.be/vBTSieU2K60
2. Дарья Бородина с докладом про то, как сохранять и восстанавливать энергию, когда забит календарь. И тема актуальная для тех у кого много созвонов в день (eto ya), и Даша очень живо и харизматично выступает, и некоторое побуждение к полезным действиям есть. Мне бы его год назад посмотреть, вот бы мне это время и силы сэкономило 🙂 Сам на практике искал рецепты и доходил до того, что Даша за 40 минут рассказала. https://youtu.be/jbuUGm_5jZc
3. Женя Идзиковский рассказал про нашу психику с понятной айтишникам точки зрения. Легаси, техдолг, баги, способы перепрошивки. Всё как всегда с крутыми и понятными примерами. Секция вопросов и ответов в конце забавная вышла 🙂 https://youtu.be/mTDp1EKSxrU
4. Настя Абрашитова выдала базу для мидл-менеджеров на тему того, что делать, если от вас уходит тимлид. Хорошо структурированная и рациональная инструкция. Вот прям сталкиваешься с такой ситуацией, открываешь доклад и работаешь по шагам. https://youtu.be/AjqQBXdMBQw
Добавляйте в список «Посмотреть позже» и продолжайте резать салаты, больше не отвлекаю в этом году.
С наступающим, кстати! 🎄🎉
Forwarded from Персонализация неизбежна
Подводим предновогодние итоги 2024 года! 🥂
Ровно год назад я выступал на конференции Яндекса с докладом "Тренды, подходы и проблемы в рекомендательных системах 2023 года". Пролетел год, и давайте посмотрим, что изменилось, если пройтись по основным пунктам.
Помните про "нечестную" оценку моделей в статьях с подглядыванием в будущее? Так вот, открываем главную конференцию по рекомендациям RecSys 24 и что видим? Всё те же грабли! Случайно выбранные статьи из трека full paper используют: user-based split (8 работ: 1, 2, 3, 4, 5, 6, 7, 8 🤯), random split (2 работы: 1, 2) и лишь одна — самый предпочтительный global timeline-based. Подробнее об этих подходах можно почитать здесь. В общем, ситуация, похоже, кардинально не изменилась. 😔
А что по поводу сложности оценки рекомендаций на исторических данных? Все упомянутые 11 статей по-прежнему используют "типичную" парадигму, пытаясь максимально точно предсказать исторические данные. Если модель начинает рекомендовать что-то отличное от исторических данных (но более релевантное), то она в проигрыше. Лично я возлагаю большие надежды на LLM-based evaluation и жду прорыва в этой области в 2025 году. И вот свежий пример — совсем недавно вышла статья про RecSys Arena! Наш старый знакомый SASRec сравнили с LightGCN с помощью GPT-4o. Осталось дело за малым: показать и доказать корреляцию LLM-оценок с результатами А/Б-тестов (и, конечно, научиться воспроизводимо получать такие оценки). Представляете, какие горизонты это откроет? ✨
Отсутствие кода в статьях. Тут, пожалуй, и добавить нечего. Ситуация, кажется, не меняется.
Некачественные имплементации порождают слабые результаты моделей. Год назад я говорил про работы, в которых обнаружили слабые open-source реализации GRU4Rec и BERT4Rec. В этом году мы с коллегами показали, что одна из самых популярных моделей BPR в таких популярных фреймворках как implicit/RecBole/LightFM реализована не самым оптимальным образом, поэтом проигрывает по качеству более качественным имплементациям.
Маленькие датасеты — проблема академических исследований. Из 11 упомянутых выше статей, только одна может похвастаться датасетом с более чем 1 миллионом пользователей. Ещё две работы оперируют данными в районе 100 тысяч, а остальные — и вовсе несколькими десятками тысяч. Проблема в том, что модели, показывающие отличные результаты на скромных 10 тысячах пользователей, могут попросту "потеряться" при масштабировании на миллионы. И те "впечатляющие" приросты метрик, скорее всего, испарятся. 💨
Тренд на LLM & RecSys — в самом разгаре! И это не может не радовать! Алиса от Яндекса уже вовсю рекомендует товары и собирает корзины в Яндекс.Лавке. YouTube Shorts использует LLM для подбора контента, максимально отвечающего вашим интересам. Даже старый добрый EASE прокачали знаниями, полученными от больших языковых моделей. А сколько интересных статей выходит про симуляцию поведения пользователей с помощью LLM! В общем, направление развивается семимильными шагами. 🚀
Тренд на RL & RecSys — небольшая неопределенность. На Turbo ML Conf я делился, как мы завели RL в рекомендательных системах и выиграли у обычного бустинга? Правда, тут же проиграли другому, ещё более качествнному бустингу 🙂. Но я, и коллеги из Яндекса отметили, что на RecSys24 работ по RL & RecSys было на удивление мало. Похоже, этому тренду нужен свежий импульс с прорывными идеями.
Ровно год назад я выступал на конференции Яндекса с докладом "Тренды, подходы и проблемы в рекомендательных системах 2023 года". Пролетел год, и давайте посмотрим, что изменилось, если пройтись по основным пунктам.
Помните про "нечестную" оценку моделей в статьях с подглядыванием в будущее? Так вот, открываем главную конференцию по рекомендациям RecSys 24 и что видим? Всё те же грабли! Случайно выбранные статьи из трека full paper используют: user-based split (8 работ: 1, 2, 3, 4, 5, 6, 7, 8 🤯), random split (2 работы: 1, 2) и лишь одна — самый предпочтительный global timeline-based. Подробнее об этих подходах можно почитать здесь. В общем, ситуация, похоже, кардинально не изменилась. 😔
А что по поводу сложности оценки рекомендаций на исторических данных? Все упомянутые 11 статей по-прежнему используют "типичную" парадигму, пытаясь максимально точно предсказать исторические данные. Если модель начинает рекомендовать что-то отличное от исторических данных (но более релевантное), то она в проигрыше. Лично я возлагаю большие надежды на LLM-based evaluation и жду прорыва в этой области в 2025 году. И вот свежий пример — совсем недавно вышла статья про RecSys Arena! Наш старый знакомый SASRec сравнили с LightGCN с помощью GPT-4o. Осталось дело за малым: показать и доказать корреляцию LLM-оценок с результатами А/Б-тестов (и, конечно, научиться воспроизводимо получать такие оценки). Представляете, какие горизонты это откроет? ✨
Отсутствие кода в статьях. Тут, пожалуй, и добавить нечего. Ситуация, кажется, не меняется.
Некачественные имплементации порождают слабые результаты моделей. Год назад я говорил про работы, в которых обнаружили слабые open-source реализации GRU4Rec и BERT4Rec. В этом году мы с коллегами показали, что одна из самых популярных моделей BPR в таких популярных фреймворках как implicit/RecBole/LightFM реализована не самым оптимальным образом, поэтом проигрывает по качеству более качественным имплементациям.
Маленькие датасеты — проблема академических исследований. Из 11 упомянутых выше статей, только одна может похвастаться датасетом с более чем 1 миллионом пользователей. Ещё две работы оперируют данными в районе 100 тысяч, а остальные — и вовсе несколькими десятками тысяч. Проблема в том, что модели, показывающие отличные результаты на скромных 10 тысячах пользователей, могут попросту "потеряться" при масштабировании на миллионы. И те "впечатляющие" приросты метрик, скорее всего, испарятся. 💨
Тренд на LLM & RecSys — в самом разгаре! И это не может не радовать! Алиса от Яндекса уже вовсю рекомендует товары и собирает корзины в Яндекс.Лавке. YouTube Shorts использует LLM для подбора контента, максимально отвечающего вашим интересам. Даже старый добрый EASE прокачали знаниями, полученными от больших языковых моделей. А сколько интересных статей выходит про симуляцию поведения пользователей с помощью LLM! В общем, направление развивается семимильными шагами. 🚀
Тренд на RL & RecSys — небольшая неопределенность. На Turbo ML Conf я делился, как мы завели RL в рекомендательных системах и выиграли у обычного бустинга? Правда, тут же проиграли другому, ещё более качествнному бустингу 🙂. Но я, и коллеги из Яндекса отметили, что на RecSys24 работ по RL & RecSys было на удивление мало. Похоже, этому тренду нужен свежий импульс с прорывными идеями.
Forwarded from Модель для сборки
👾 "Dive into ML conferences" сказали они. Не ну вы видели сколько там вообще статей каждый год генерируют?
Зато вот чё я вам притащил: лонгрид по DL Efficiency от Princeton grad. Лонгрид большой, содержит в себе кучу боли, написан на техническом английском с кучей жаргона. Короче, всё как вы не любите. А что, мне одному страдать?
🙋🏽♂️ «Чо такое DL Efficiency?» — спросите вы. А я отвечу: допустим, у вас есть ноут и нет подписки на сервис с топовыми LLM, потому что $20 is $20. Вам очень хочется поиграться с топовой LLM, например, спросить у топовой опен-сурс модели, что она думает про результаты выборов в США. А на вашу 1050 в игровом компутере 3 ядра 3 гига не только не влезет BG3, но и моделька тоже там не поместится. Поэтому умные дяди подумали и придумали кучу шорткатов, как же её всё-таки туда впихнуть. Или ускорить обучение. Или сделать это подешевле.
⁉️ А что если я просто чиловый парень любящий матешу и временные ряды. Зачем мне это?
– Во-первых, чуваки, я читал ваши папиры. Игнорировать последние 3 года резерча в других отраслях — прикольная затея, но не всегда. Познакомитесь хоть.
– Во-вторых, там есть всякое про векторизацию, например, fused kernels в pytorch, чтобы ваши модельки работали побыстрей. Ещё там много про опты и оптимизаторы, я мельком глянул и понял что пока останусь на Adam/AdamW.
– В-третьих, тут куча трюков как заставить вашу огромную модельку переобучаемую раз в год тюниться быстрей, запихивать в неё побольше данных, и ещё разбор нововведений в H100 (зачем).
👀 Итак, вашему вниманию:
– Разделённый на 4 эпохи лонгрид с кучей красивостей и ссылок, больше похожий на field review из диплома, но если бы его писали люди, а не чатгпт
– Описание таймскейла исследований от метоптов и GPU на 3gb до современных кластеров
– Разбор, чего же всё-таки нового в этих ваших хайповых папирах последних лет, например, чё такое FlashAttn, Q-LoRA, ZeRO, Chinchilla и всякие разные квантизации.
❤️🔥 Короче, весь контент от @lovedeathtransformers в одном месте. Спешл фор миллениалс.
Зато вот чё я вам притащил: лонгрид по DL Efficiency от Princeton grad. Лонгрид большой, содержит в себе кучу боли, написан на техническом английском с кучей жаргона. Короче, всё как вы не любите. А что, мне одному страдать?
🙋🏽♂️ «Чо такое DL Efficiency?» — спросите вы. А я отвечу: допустим, у вас есть ноут и нет подписки на сервис с топовыми LLM, потому что $20 is $20. Вам очень хочется поиграться с топовой LLM, например, спросить у топовой опен-сурс модели, что она думает про результаты выборов в США. А на вашу 1050 в игровом компутере 3 ядра 3 гига не только не влезет BG3, но и моделька тоже там не поместится. Поэтому умные дяди подумали и придумали кучу шорткатов, как же её всё-таки туда впихнуть. Или ускорить обучение. Или сделать это подешевле.
⁉️ А что если я просто чиловый парень любящий матешу и временные ряды. Зачем мне это?
– Во-первых, чуваки, я читал ваши папиры. Игнорировать последние 3 года резерча в других отраслях — прикольная затея, но не всегда. Познакомитесь хоть.
– Во-вторых, там есть всякое про векторизацию, например, fused kernels в pytorch, чтобы ваши модельки работали побыстрей. Ещё там много про опты и оптимизаторы, я мельком глянул и понял что пока останусь на Adam/AdamW.
– В-третьих, тут куча трюков как заставить вашу огромную модельку переобучаемую раз в год тюниться быстрей, запихивать в неё побольше данных, и ещё разбор нововведений в H100 (зачем).
👀 Итак, вашему вниманию:
– Разделённый на 4 эпохи лонгрид с кучей красивостей и ссылок, больше похожий на field review из диплома, но если бы его писали люди, а не чатгпт
– Описание таймскейла исследований от метоптов и GPU на 3gb до современных кластеров
– Разбор, чего же всё-таки нового в этих ваших хайповых папирах последних лет, например, чё такое FlashAttn, Q-LoRA, ZeRO, Chinchilla и всякие разные квантизации.
❤️🔥 Короче, весь контент от @lovedeathtransformers в одном месте. Спешл фор миллениалс.
Alex L. Zhang
A Meticulous Guide to Advances in Deep Learning Efficiency over the Years
A very long and thorough guide how deep learning algorithms, hardware, libraries, compilers, and more have become more efficient.
Forwarded from Запрети мне псевдолейблить
🚀 Разбираем решение, которое принесло нашей команде 6-е место в Kaggle-соревновании по обработке данных миссии Ariel
Мы работали с частотными сигналами, которые изначально были очень шумными. Для их сглаживания использовали:
1️⃣ Гауссовский регрессор
2️⃣ Фильтр Савицкого-Голея
Далее ищем границы транзитной зоны планеты. Делаем через простой эмпирический детектор: транзит на графике светимости звезды имеет вид \_/ — яркость падает, когда планета проходит перед звездой, так как часть частотных компонентов теряет интенсивность.
📉 Что мы делали дальше:
Удаляем этапы до и после транзита, чтобы анализировать только изменения светимости в нужный момент.
"Поднимаем" транзит обратно к уровню светимости звезды, чтобы восстановить исходный "пульс звезды". Это важно, чтобы учесть глобальное поведение светимости звезды, которе не очень-то и постоянное.
🔍 Фичи и модели:
На основе изменений яркости между ожидаемыми и наблюдаемыми значениями на заданных частотах извлекали фичи. Эти частоты совпадают с важными таргетами — спектрограммой атмосферы экзопланеты.
Обучаем линейную регрессию глобально для каждого таргета, подбирая оптимальные коэффициенты. В смысле берем все моменты времени для всех транзитов и конкретной частоты и ищем коэффициент подгонки.
Параллельно обучаем CNN, которая анализировала частотные изменения в заданных временных окнах.
Это:
Помогает учитывало локальные особенности спектра и переходов (энергии?) между частотами
Позволяло понять взаимосвязи между соседними частотами, улучшая точность предсказаний.
🔗 Финал:
Смешали (блендили) результаты линейной регрессии и CNN. Затем финальную спектрограмму еще раз сгладили, чтобы убрать артефакты.
💡 Бонус материал: пример 'подъема' спектра
Мы работали с частотными сигналами, которые изначально были очень шумными. Для их сглаживания использовали:
1️⃣ Гауссовский регрессор
2️⃣ Фильтр Савицкого-Голея
Далее ищем границы транзитной зоны планеты. Делаем через простой эмпирический детектор: транзит на графике светимости звезды имеет вид \_/ — яркость падает, когда планета проходит перед звездой, так как часть частотных компонентов теряет интенсивность.
📉 Что мы делали дальше:
Удаляем этапы до и после транзита, чтобы анализировать только изменения светимости в нужный момент.
"Поднимаем" транзит обратно к уровню светимости звезды, чтобы восстановить исходный "пульс звезды". Это важно, чтобы учесть глобальное поведение светимости звезды, которе не очень-то и постоянное.
🔍 Фичи и модели:
На основе изменений яркости между ожидаемыми и наблюдаемыми значениями на заданных частотах извлекали фичи. Эти частоты совпадают с важными таргетами — спектрограммой атмосферы экзопланеты.
Обучаем линейную регрессию глобально для каждого таргета, подбирая оптимальные коэффициенты. В смысле берем все моменты времени для всех транзитов и конкретной частоты и ищем коэффициент подгонки.
Параллельно обучаем CNN, которая анализировала частотные изменения в заданных временных окнах.
Это:
Помогает учитывало локальные особенности спектра и переходов (энергии?) между частотами
Позволяло понять взаимосвязи между соседними частотами, улучшая точность предсказаний.
🔗 Финал:
Смешали (блендили) результаты линейной регрессии и CNN. Затем финальную спектрограмму еще раз сгладили, чтобы убрать артефакты.
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Quant Researcher
Что почитать на новогодних каникулах?
Подготовили список полезных книг и материалов для изучения в праздники.
Матчасть в финансах
1. Options, Futures, and Other Derivatives by John Hull
Библия деривативов. На многих трейдинг-десках её выдают всем, кто не проходил базовый курс по деривативам в университете.
2. Bond Markets, Analysis, and Strategies (10th Edition) by Frank J. Fabozzi
Библия облигаций, после которой весь мир Fixed Income станет для вас понятным.
3. Pricing and Trading Interest Rate Derivatives: A Practical Guide to Swaps by J Hamish M Darbyshire
Основательный гайд по свопам и деривативам на процентные ставки.
4. Expected Returns: An Investor's Guide to Harvesting Market Rewards by Antti Ilmanen
Фундаментальная книга про концепцию рыночных риск-премий.
Математика
5. Mathematical Modeling and Computation in Finance
«101» по математике в финансах.
6. Financial Mathematics, Derivatives and Structured Product
Поможет раз и навсегда разобраться с необходимой для прайсинга деривативов математикой.
Микроструктура рынка
7. Trades, Quotes and Prices: Financial Markets Under the Microscope by Jean-Philippe Bouchaud
Хардкорная книга от группы PhD об устройстве микроструктуры рынка.
8. Algorithmic and High-Frequency Trading by Álvaro Cartea
«101» по HFT и алгоритмической торговле.
Machine Learning in Finance
9. Advances in Financial Machine Learning by Marcos Lopez de Prado
Книга Маркоса Лопеса де Прадо о методах машинного обучения в финансах.
10. Machine Learning for Asset Managers by Marcos M. López de Prado
Вторая книга от де Прадо о машинном обучении применительно к управлению активами.
Авторы канала не могут начать 2025 год без рекомендации Лекций Ильинского. Эту базу стоит пересматривать регулярно!
Quant Researcher
Подготовили список полезных книг и материалов для изучения в праздники.
Матчасть в финансах
1. Options, Futures, and Other Derivatives by John Hull
Библия деривативов. На многих трейдинг-десках её выдают всем, кто не проходил базовый курс по деривативам в университете.
2. Bond Markets, Analysis, and Strategies (10th Edition) by Frank J. Fabozzi
Библия облигаций, после которой весь мир Fixed Income станет для вас понятным.
3. Pricing and Trading Interest Rate Derivatives: A Practical Guide to Swaps by J Hamish M Darbyshire
Основательный гайд по свопам и деривативам на процентные ставки.
4. Expected Returns: An Investor's Guide to Harvesting Market Rewards by Antti Ilmanen
Фундаментальная книга про концепцию рыночных риск-премий.
Математика
5. Mathematical Modeling and Computation in Finance
«101» по математике в финансах.
6. Financial Mathematics, Derivatives and Structured Product
Поможет раз и навсегда разобраться с необходимой для прайсинга деривативов математикой.
Микроструктура рынка
7. Trades, Quotes and Prices: Financial Markets Under the Microscope by Jean-Philippe Bouchaud
Хардкорная книга от группы PhD об устройстве микроструктуры рынка.
8. Algorithmic and High-Frequency Trading by Álvaro Cartea
«101» по HFT и алгоритмической торговле.
Machine Learning in Finance
9. Advances in Financial Machine Learning by Marcos Lopez de Prado
Книга Маркоса Лопеса де Прадо о методах машинного обучения в финансах.
10. Machine Learning for Asset Managers by Marcos M. López de Prado
Вторая книга от де Прадо о машинном обучении применительно к управлению активами.
Авторы канала не могут начать 2025 год без рекомендации Лекций Ильинского. Эту базу стоит пересматривать регулярно!
Quant Researcher