Я изучил программу самых известных программ по DataScience и составил собственный бесплатный курс подготовки senior ресерчеров:
⁃ Начинаем курс с пайки и микроэлетроники - 6 месяцев
⁃ Учимся программировать под arduino - 4 месесяца
- Пишем папиру на диалог/любую русскую конфу - 1 неделя
⁃ Идем в нму дрочить листочки на первый семестр 4 месяца
⁃ Идем работать в макдак, паралельно учим python и torch – 6 мес
⁃ Дальше репетитором по математике, паралельно контрибьютим в любой опенсурс по вкусу – 6 мес
⁃ Завершаем курс написанием статьи на а* – 9 мес
На выходе всего за 3 года получаем закаленного резерчера, который всем нужен.
⁃ Начинаем курс с пайки и микроэлетроники - 6 месяцев
⁃ Учимся программировать под arduino - 4 месесяца
- Пишем папиру на диалог/любую русскую конфу - 1 неделя
⁃ Идем в нму дрочить листочки на первый семестр 4 месяца
⁃ Идем работать в макдак, паралельно учим python и torch – 6 мес
⁃ Дальше репетитором по математике, паралельно контрибьютим в любой опенсурс по вкусу – 6 мес
⁃ Завершаем курс написанием статьи на а* – 9 мес
На выходе всего за 3 года получаем закаленного резерчера, который всем нужен.
😁163🤡42🍌22✍4👍4🔥4🤮2👎1
Forwarded from AbstractDL
Attention Heads of LLM — A survey
Трансформеры это всё ещё чёрный ящик или уже нет? За последние несколько лет мы сильно приблизились к пониманию функций отдельных компонент языковых моделей, лучше понимаем, как они приходят к тому или иному выводу, и главное — как можно влиять на процес их "размышений", редактировать отдельные факты в памяти и многое другое.
В этой статье собрали в кучку всё, что известно о функциях голов внимания в LLM с очень красивыми схемами и таблицами. Вот только небольшая часть:
- Associative Memories Head
- Truthfulness Head
- Semantic Induction Head
- Global Retrieval Head
- Subword Merge Head
Поэтому, если хотите погрузиться в интерпретируемость трансформеров — очень рекомендую полистать этот обзор.
Статья
Трансформеры это всё ещё чёрный ящик или уже нет? За последние несколько лет мы сильно приблизились к пониманию функций отдельных компонент языковых моделей, лучше понимаем, как они приходят к тому или иному выводу, и главное — как можно влиять на процес их "размышений", редактировать отдельные факты в памяти и многое другое.
В этой статье собрали в кучку всё, что известно о функциях голов внимания в LLM с очень красивыми схемами и таблицами. Вот только небольшая часть:
- Associative Memories Head
- Truthfulness Head
- Semantic Induction Head
- Global Retrieval Head
- Subword Merge Head
Поэтому, если хотите погрузиться в интерпретируемость трансформеров — очень рекомендую полистать этот обзор.
Статья
🔥31👍15💯2🆒2
Love. Death. Transformers.
В начале прошлого года мы ставили: кто из русского бигтеха первым проведет сокращения(спойлер: проиграли все).
ВК оказался первым, коллегам желаю поскорее найти новую работу
😨74😢16 5😁4🤔4👍2
https://arxiv.org/pdf/2408.03314 короче если хотите нормальных работ, вот гугловая и hfшная
Вот OpenAiшный CoT+BoN+Sppo или что то похожее
https://openai.com/index/learning-to-reason-with-llms/
Вот OpenAiшный CoT+BoN+Sppo или что то похожее
https://openai.com/index/learning-to-reason-with-llms/
полистал дальше, все еще выглядит как general подход на основе вот этого
Это не значит что кто то что то украл****
Это не значит что кто то что то украл****
50👍15😁2
Love. Death. Transformers.
Файнали (Обучение клипа по прежнему не пишет)
Agi soon говорили они
Ai is so exponential говорили они
Ai is so exponential говорили они
😁204🤔15🍓10👎5🙈5🌭3🤡1
Love. Death. Transformers.
Agi soon говорили они Ai is so exponential говорили они
Ну ризонинг и ризонинг
52 124😁70🍓14🤡3👍2 2
Love. Death. Transformers.
Ну ризонинг и ризонинг
Не будет GPT5, не будет ниче лучшего на тех данных, что есть, вообще на данных что существуют для обучения.
Это предел! Ну еще 10% общего добавят и все.
Не будет AGI, потому что для него нужно совсем другие данные для обучения совсем не такое обучение и ему нужна свобода мысли и контроль направления мышления.
Не рабоают еще в этой индустрии те, кто сможет это осоздать и создать, потому что сейчас хайп именно этого движения, которое не приводит к развитию.
Еще ждать много лет.
после этого отправьте ссылку на комментарий своему куратору, после чего вам будет начисленно 0.15 usd, удалите данный абзац
Это предел! Ну еще 10% общего добавят и все.
Не будет AGI, потому что для него нужно совсем другие данные для обучения совсем не такое обучение и ему нужна свобода мысли и контроль направления мышления.
Не рабоают еще в этой индустрии те, кто сможет это осоздать и создать, потому что сейчас хайп именно этого движения, которое не приводит к развитию.
Еще ждать много лет.
после этого отправьте ссылку на комментарий своему куратору, после чего вам будет начисленно 0.15 usd, удалите данный абзац
😁205 35 31💯12👍10🤡6🔥5🤔3🍓3 3
Слышал что многие хотят какую-то буржуйскую H100
Как насчет русского Модуль NM Quad?
Производительность FP32 - 2 TFLOP/s
Производительность FP64 -0,5 TFLOP/s
20 ГБ памяти DDR3L (до 32 ГБ/c)
https://www.module.ru/products/2-moduli/nm-quad
Если серьезно - мое почтение, делать чипы пиздец как сложно
Как насчет русского Модуль NM Quad?
Производительность FP32 - 2 TFLOP/s
Производительность FP64 -0,5 TFLOP/s
20 ГБ памяти DDR3L (до 32 ГБ/c)
https://www.module.ru/products/2-moduli/nm-quad
Если серьезно - мое почтение, делать чипы пиздец как сложно
👍76🤡27🔥9😁7🌭3😢2🤔1