https://huggingface.co/docs/tokenizers/pipeline
Как скармливать тексты в сето4ки
(вроде базовая штука, но мне никогда в жизни не доводилось с таким работать)
Как скармливать тексты в сето4ки
(вроде базовая штука, но мне никогда в жизни не доводилось с таким работать)
huggingface.co
The tokenization pipeline
We’re on a journey to advance and democratize artificial intelligence through open source and open science.
Что делать если моделька + батч не влазят в память гпушки
https://huggingface.co/docs/transformers/main/en/perf_train_gpu_one
https://medium.com/tensorflow/fitting-larger-networks-into-memory-583e3c758ff9
https://huggingface.co/docs/transformers/main/en/perf_train_gpu_one
https://medium.com/tensorflow/fitting-larger-networks-into-memory-583e3c758ff9
huggingface.co
GPU
We’re on a journey to advance and democratize artificial intelligence through open source and open science.
Ахуеть, оказывается чтоб открыть ноутбук из гитхаба в колабе достаточно изменить домен с github.com на githubtocolab.com и все готово...
🤯11
Forwarded from Alexander Borzunov
#оффтоп
Мы тут в Ресёрче сделали штуку, которая позволяет инферить и файнтюнить BLOOM-176B из Колаба. Если вам интересно работать с 175B+ языковыми моделями без необходимости иметь несколько мощных GPU — можете глянуть ссылку и написать мне в лс, что вы про это думаете :)
https://colab.research.google.com/drive/1Ervk6HPNS6AYVr3xVdQnY5a-TjjmLCdQ?usp=sharing
Мы тут в Ресёрче сделали штуку, которая позволяет инферить и файнтюнить BLOOM-176B из Колаба. Если вам интересно работать с 175B+ языковыми моделями без необходимости иметь несколько мощных GPU — можете глянуть ссылку и написать мне в лс, что вы про это думаете :)
https://colab.research.google.com/drive/1Ervk6HPNS6AYVr3xVdQnY5a-TjjmLCdQ?usp=sharing
Google
Petals - Getting started with BLOOM-176B (GPU Colab)
Colaboratory notebook
🔥2
Forwarded from эйай ньюз
Как я читаю Arxiv, и как справляюсь с количеством статей
Я вернулся в Цюрих, а значит пора искать новые статьи!
Читать голый arxiv.org в поисках новых статей за неделю подвластно лишь, наверное, полубогам. Каждый день ребята из Поднебесной заливают десятки, а то и сотни статей на архив. И, конечно, 99% из них – шлак или на абсолютно не релевантные темы. Хотелось бы иметь возможность искать статьи похожие по тематике и в идеале сортировать их по качеству, что довольно нетривиально сделать.
Раньше я использовал Arxiv-sanity от Карпатого для поиска похожих статей. Механика там довольно примитивная. Для каждой статьи обучается Exemplar-SVM на tf-idf фичах из абстракта, а затем статьи ранжируются по похожести. Текстовый поиск только по ключевым словам. Соответственно и качество поиска выходит не очень.
Раньше там ещё был счётчик количества упоминаний статьи в Твиттер, что говорило об уровне хайпа вокруг работы, но в новой версии его больше нет.
Сейчас кто-то наконец сделал толковый поиск по статьям на Arxiv, который удостоен технологиями 2023 года — https://arxivxplorer.com. В разделе CS – около 500к статей, и для каждой статьи посчитали текстовые эмбеддинги по абстракту, используя API к текстовым моделькам от OpenAI, о которых я писал тут. Это обошлось автору в $50. Зато теперь в строку поиска можно ввести любые фразы либо даже вопросы, по которым будет считаться эмбеддинг и выдаваться наиболее релевантные статьи из базы. Я очень рад таким инновациям и уже пересел на этот сервис!
@ai_newz
Я вернулся в Цюрих, а значит пора искать новые статьи!
Читать голый arxiv.org в поисках новых статей за неделю подвластно лишь, наверное, полубогам. Каждый день ребята из Поднебесной заливают десятки, а то и сотни статей на архив. И, конечно, 99% из них – шлак или на абсолютно не релевантные темы. Хотелось бы иметь возможность искать статьи похожие по тематике и в идеале сортировать их по качеству, что довольно нетривиально сделать.
Раньше я использовал Arxiv-sanity от Карпатого для поиска похожих статей. Механика там довольно примитивная. Для каждой статьи обучается Exemplar-SVM на tf-idf фичах из абстракта, а затем статьи ранжируются по похожести. Текстовый поиск только по ключевым словам. Соответственно и качество поиска выходит не очень.
Раньше там ещё был счётчик количества упоминаний статьи в Твиттер, что говорило об уровне хайпа вокруг работы, но в новой версии его больше нет.
Сейчас кто-то наконец сделал толковый поиск по статьям на Arxiv, который удостоен технологиями 2023 года — https://arxivxplorer.com. В разделе CS – около 500к статей, и для каждой статьи посчитали текстовые эмбеддинги по абстракту, используя API к текстовым моделькам от OpenAI, о которых я писал тут. Это обошлось автору в $50. Зато теперь в строку поиска можно ввести любые фразы либо даже вопросы, по которым будет считаться эмбеддинг и выдаваться наиболее релевантные статьи из базы. Я очень рад таким инновациям и уже пересел на этот сервис!
@ai_newz
🔥8
Forwarded from Just Heuristic
Интенсив про GPU (ранее уже публиковался где-то)
https://disk.yandex.ru/i/X3_OjdQwEK_m1w
https://disk.yandex.ru/i/qUImAg3foPKSdw
https://disk.yandex.ru/i/6kBZamlYUlbifQ
https://disk.yandex.ru/i/md2NvkA6oomMAQ
https://disk.yandex.ru/i/bBBupAXN_NhYEw
https://disk.yandex.ru/i/qaNGnZWLD_JjqA
https://disk.yandex.ru/i/YEDuvJPbm6kWkQ
https://disk.yandex.ru/i/5oSbiyKEi8sNGQ
https://disk.yandex.ru/i/rJfI_eKW5vXsTA
https://disk.yandex.ru/i/arTOLsyxyVCK8g
https://disk.yandex.ru/i/qqrEmItY7CIeAQ
https://disk.yandex.ru/i/X3_OjdQwEK_m1w
https://disk.yandex.ru/i/qUImAg3foPKSdw
https://disk.yandex.ru/i/6kBZamlYUlbifQ
https://disk.yandex.ru/i/md2NvkA6oomMAQ
https://disk.yandex.ru/i/bBBupAXN_NhYEw
https://disk.yandex.ru/i/qaNGnZWLD_JjqA
https://disk.yandex.ru/i/YEDuvJPbm6kWkQ
https://disk.yandex.ru/i/5oSbiyKEi8sNGQ
https://disk.yandex.ru/i/rJfI_eKW5vXsTA
https://disk.yandex.ru/i/arTOLsyxyVCK8g
https://disk.yandex.ru/i/qqrEmItY7CIeAQ
Яндекс Диск
Лекция 1 – Евгений Перепелкин от 15.03.2021.mp4
Посмотреть и скачать с Яндекс Диска
🔥5
во кстати еще список разных dl related библиотек
https://docs.google.com/document/d/1mcXQ5m1ZZynvPRDiY3-iWQ1k3IMrIQuBpUaT7kOAqh8/edit
https://docs.google.com/document/d/1mcXQ5m1ZZynvPRDiY3-iWQ1k3IMrIQuBpUaT7kOAqh8/edit
🥰3
Курс по куде
https://www.youtube.com/@GPUMODE
https://github.com/gpu-mode/lectures/tree/main/
и очень подробные записи первых лекций от одного из слушателей
https://christianjmills.com/series/notes/cuda-mode-notes.html
https://www.youtube.com/@GPUMODE
https://github.com/gpu-mode/lectures/tree/main/
и очень подробные записи первых лекций от одного из слушателей
https://christianjmills.com/series/notes/cuda-mode-notes.html
🔥3
А еще там куду на питон переписали и теперь можно и без C и C++ жить
https://www.nvidia.com/en-us/on-demand/session/gtc25-s72383/
https://github.com/NVIDIA/cuda-python
И там еще всякие релевантные полезные ссылки
https://docs.nvidia.com/cupynumeric/latest/
https://nvidia.github.io/cuda-python/cuda-core/latest/
https://www.nvidia.com/en-us/on-demand/session/gtc25-S72449/
https://www.nvidia.com/en-us/on-demand/session/gtc25-S72527/
https://developer.nvidia.com/blog/effortlessly-scale-numpy-from-laptops-to-supercomputers-with-nvidia-cupynumeric/
https://www.nvidia.com/en-us/on-demand/session/gtc25-s72383/
https://github.com/NVIDIA/cuda-python
И там еще всякие релевантные полезные ссылки
https://docs.nvidia.com/cupynumeric/latest/
https://nvidia.github.io/cuda-python/cuda-core/latest/
https://www.nvidia.com/en-us/on-demand/session/gtc25-S72449/
https://www.nvidia.com/en-us/on-demand/session/gtc25-S72527/
https://developer.nvidia.com/blog/effortlessly-scale-numpy-from-laptops-to-supercomputers-with-nvidia-cupynumeric/
NVIDIA
CUDA: New Features and Beyond S72383 | GTC 2025 | NVIDIA On-Demand
The CUDA platform is the foundation of the GPU computing ecosystem
🔥3