Forwarded from ̶с̶а̶м̶̶о̶изолента мёбиуса
Проект Open Language Data Initiative, про который я рассказывал недавно, заведует не только тестовым датасетом FLORES+, но и обучающим датасетом NLLB-seed.
Это 6К предложений из английской Википедии на разнообразные темы, часто на какую-то сложную научную тематику. Мои коллеги в своё время организовали перевод этого датасета на 39 малоресурсных языков, и показали, что включение этих текстов в обучающий датасет для модели-переводчика значительно улучшает её качество.
Сейчас проект oldi.org принимает переводы этого датасета и на другие языки тоже. Но проблема в том, что кроме английского, этот датасет сейчас существует только на редких языках, переводить с которых будет ещё сложнее чем с английского (хотя для переводов на тюркские языки, наверное, можно подглядывать в крымскотатарскую версию).
Чтобы решить эту проблему, я сделал бота @crowd_translate_bot для сбора и проверки человеческих переводов* с английского на русский (с тем, чтобы потом с русского было проще переводить на другие языки нашего региона). Будет здорово, если воспользуетесь этим ботом и поучаствуете в коллективном переводе датасета 🙃
* Хотя многие модели уже очень хорошо переводят между английским и русским, важно собирать именно человеческие переводы, потому что это всё-таки чуть надёжнее, и потому, что если собрать переводы от нескольких людей, они будут разнообразнее по стилю, чем машинно переведёные.
Нас тут 2К в этом чате, и если каждый третий из нас переведёт по 10 предложений (и проверит где-то по 25, включая намайненные мной возможные переводы из Википедии и двойную проверку переводов других людей), то перевод NLLB-Seed на русский будет собран, и можно будет переходить к более интересным языкам.
Это 6К предложений из английской Википедии на разнообразные темы, часто на какую-то сложную научную тематику. Мои коллеги в своё время организовали перевод этого датасета на 39 малоресурсных языков, и показали, что включение этих текстов в обучающий датасет для модели-переводчика значительно улучшает её качество.
Сейчас проект oldi.org принимает переводы этого датасета и на другие языки тоже. Но проблема в том, что кроме английского, этот датасет сейчас существует только на редких языках, переводить с которых будет ещё сложнее чем с английского (хотя для переводов на тюркские языки, наверное, можно подглядывать в крымскотатарскую версию).
Чтобы решить эту проблему, я сделал бота @crowd_translate_bot для сбора и проверки человеческих переводов* с английского на русский (с тем, чтобы потом с русского было проще переводить на другие языки нашего региона). Будет здорово, если воспользуетесь этим ботом и поучаствуете в коллективном переводе датасета 🙃
* Хотя многие модели уже очень хорошо переводят между английским и русским, важно собирать именно человеческие переводы, потому что это всё-таки чуть надёжнее, и потому, что если собрать переводы от нескольких людей, они будут разнообразнее по стилю, чем машинно переведёные.
Нас тут 2К в этом чате, и если каждый третий из нас переведёт по 10 предложений (и проверит где-то по 25, включая намайненные мной возможные переводы из Википедии и двойную проверку переводов других людей), то перевод NLLB-Seed на русский будет собран, и можно будет переходить к более интересным языкам.
🔥18
Forwarded from STACK MORE LAYERS (Alexander Mamaev)
Daily reminder
17 числа, 12:00 - ближайший к вам избирательный участок.
Я ставлю подпись за Даванкова, ради этого даже не лень поехать в соседнюю страну, ибо в Грузии голосовать нельзя, ну и вы не поленитесь.
Всех жду
17 числа, 12:00 - ближайший к вам избирательный участок.
Я ставлю подпись за Даванкова, ради этого даже не лень поехать в соседнюю страну, ибо в Грузии голосовать нельзя, ну и вы не поленитесь.
Всех жду
👍151🤡113❤26🤮15👏7
Forwarded from Esenia
Рады анонсировать очередной Tinkoff Lab RL Event — митап, на котором лаборанты исследовательской лаборатории Тинькофф делятся опытом и рассказывают о своих научных проектах.
Если вы учитесь на технической специальности и интересуетесь задачами искусственного интеллекта, а аббревиатуры ML, DL и RL для вас уже как родные — ребята из Тинькофф ждут вас 25 марта в 19:00 в московском офисе Тинькофф.
Все подробности и регистрация тут: https://o.tinkoff.ru/tlab_RL
Если вы учитесь на технической специальности и интересуетесь задачами искусственного интеллекта, а аббревиатуры ML, DL и RL для вас уже как родные — ребята из Тинькофф ждут вас 25 марта в 19:00 в московском офисе Тинькофф.
Все подробности и регистрация тут: https://o.tinkoff.ru/tlab_RL
👍22🤮17🤡3❤2🔥2
Genstruct
Если вы когда то хотели сделать хороший инструкт сет вы упираетесь в одну простую проблему - нормальные датасеты лежат обычно в формате Plain Text:
И сунуть его as is в инструктивную модель нельзя - вытащить роли и прочее - не получиться. В FLAN like корпусах вытаскивали даты, имена и локации с помощью простых эвристик и на этом получалось довольно успешно учить модели.
Чуваки из Nous пошли дальше и сказали следущее: давайте у нас LLM будет переписывать существующие тексты в инструктивный формат, тем самым мы получаем очень качественную grounded синту, которую можно подсовывать в претрен!
model
paper
Если вы когда то хотели сделать хороший инструкт сет вы упираетесь в одну простую проблему - нормальные датасеты лежат обычно в формате Plain Text:
Andrej Karpathy (born 23 October 1986[2]) is a Slovak-Canadian computer scientist who served as the director of artificial intelligence and Autopilot Vision at Tesla. He co-founded and formerly worked at OpenAI,[3][4][5] where he specialized in deep learning and computer vision.[6][7][1][8]
Education and early life
Karpathy was born in Bratislava, Czechoslovakia (now Slovakia)[9][10][11][12] and moved with his family to Toronto when he was 15.[13] He completed his Computer Science and Physics bachelor's degrees at University of Toronto in 2009[14] and his master's degree at University of British Columbia in 2011,[14] where he worked on physically-simulated figures (for example, a simulated runner or a simulated person in a crowd).
Karpathy received a PhD from Stanford University in 2016 under the supervision of Fei-Fei Li, focusing on the intersection of natural language processing and computer vision, and deep learning models suited for this task.[15][16]
И сунуть его as is в инструктивную модель нельзя - вытащить роли и прочее - не получиться. В FLAN like корпусах вытаскивали даты, имена и локации с помощью простых эвристик и на этом получалось довольно успешно учить модели.
Чуваки из Nous пошли дальше и сказали следущее: давайте у нас LLM будет переписывать существующие тексты в инструктивный формат, тем самым мы получаем очень качественную grounded синту, которую можно подсовывать в претрен!
model
paper
👍38🔥6❤1
Релиз grok выглядит как релиз gpt2
8 rout Moe, 314 или 344в, 86b в инференсе, больше ничего не ясно
А, ещё код на джаксе
Чёт вспомнилось классическое:
Чудное время, забавный век
Тогда был не в моде обычный человек
Волосы длинные, на ранце значки
С таким внешним видом мы в школу шли
Верните мой 2019!
Я буду снова с небритой головой
По митингам бегать, с друзьями гулять
Пить гараж и танцевать
КОД
8 rout Moe, 314 или 344в, 86b в инференсе, больше ничего не ясно
А, ещё код на джаксе
Чёт вспомнилось классическое:
Тогда был не в моде обычный человек
Волосы длинные, на ранце значки
С таким внешним видом мы в школу шли
Верните мой 2019!
Я буду снова с небритой головой
По митингам бегать, с друзьями гулять
Пить гараж и танцевать
КОД
❤24👍3🔥2😁2😢2🤩1
Forwarded from еба́ные идеи для резерча
Это не чат, это Ebа́nyChat. Еба́ноязычная Chа́tGPT от лаборатории еба́ного резерча
Здарова, хабровчане!
Хайп вокруг нейросетей, заалайненых при помощи Instructions и RLHF (известных в народе под единым брендом «хуйня из под коня из каждого утюга»), трудно не заметить. Именно поэтому мы решили тоже хайпануть запрыгнуть в этот поезд!
Общий подход для обучения подобных моделей примерно такой:
1. Заиметь хорошую LLM.
2. Сделать SFT.
3. Собрать фидбек.
4. Полирнуть все RLHF’ом.
В текущем релизе мы забили хуй на все эти пункты, как один из способов максимального прироста в качестве (а кто нас проверит, лол?).
Давайте посмотрим, что же находится внутри Ebа́nyChа́t’а.
⁃ Рандомная LM, которую нам принес стажер с хагинфейса (ваще похуй че там внутри, 13B параметров сделают go brrrr (больше модельки мы не умеем файнтьюнить))
⁃ Датасет для SFT (перевели альпаку-хуяку промтом; похуй, сгодится; еще собрали каких-то случайных датасетов с ХФ’а и захардкодили промпты; все же нормально будет, да? оверфитинг? ну мы меньше итераций обучения поставим)
⁃ Затем мы начали дрочить развесовку для этих датасетов на глазок (кидали кости на доску и записывали значения в качестве веса. Наш джун после этого сошел с ума, сказал что мы занимаемся какой-то дикой поеботой и устроился на работу в нормальное место)
⁃ Разочек обучили модель (а зачем че-то там тьюнить? (а вообще к нам пришли ребята с прода и сказали освобождать железо, т.к. мы опять занимаемся хуйней)) В какой-то момент она перестала генерировать <pad> <pad> <pad> — решили что близки к AGI и остановили обучение.
Сперва мы вообще хотели забить хуй на тестирование, но наш менеджер сказал что нужны какие-то цифры. В общем, позвали деврела, показали ему 3 парных семпла с chatgpt, спросили какие из них луче. Он везде сказал что чатжпт лучше. Получилось какое-то ебаное качество, но как-то плевать, напишем что 1 к 3 лучше. (деврела уволили, кстати).
Ни метрики, ни честный Human Evaluation мы показывать конечно же не будем. Кого это ебет? Тебя это ебет?
А, да, зарелизим претрейн. Мы его кстати назвали gpt-5. Почему? Просто.
Под катом у нас куча примеров, которые мы начерепикали, наслаждайтесь. Должно хватить на постов 10-20 где-то еще.
Здарова, хабровчане!
Хайп вокруг нейросетей, заалайненых при помощи Instructions и RLHF (известных в народе под единым брендом «хуйня из под коня из каждого утюга»), трудно не заметить. Именно поэтому мы решили тоже хайпануть запрыгнуть в этот поезд!
Общий подход для обучения подобных моделей примерно такой:
1. Заиметь хорошую LLM.
2. Сделать SFT.
3. Собрать фидбек.
4. Полирнуть все RLHF’ом.
В текущем релизе мы забили хуй на все эти пункты, как один из способов максимального прироста в качестве (а кто нас проверит, лол?).
Давайте посмотрим, что же находится внутри Ebа́nyChа́t’а.
⁃ Рандомная LM, которую нам принес стажер с хагинфейса (ваще похуй че там внутри, 13B параметров сделают go brrrr (больше модельки мы не умеем файнтьюнить))
⁃ Датасет для SFT (перевели альпаку-хуяку промтом; похуй, сгодится; еще собрали каких-то случайных датасетов с ХФ’а и захардкодили промпты; все же нормально будет, да? оверфитинг? ну мы меньше итераций обучения поставим)
⁃ Затем мы начали дрочить развесовку для этих датасетов на глазок (кидали кости на доску и записывали значения в качестве веса. Наш джун после этого сошел с ума, сказал что мы занимаемся какой-то дикой поеботой и устроился на работу в нормальное место)
⁃ Разочек обучили модель (а зачем че-то там тьюнить? (а вообще к нам пришли ребята с прода и сказали освобождать железо, т.к. мы опять занимаемся хуйней)) В какой-то момент она перестала генерировать <pad> <pad> <pad> — решили что близки к AGI и остановили обучение.
Сперва мы вообще хотели забить хуй на тестирование, но наш менеджер сказал что нужны какие-то цифры. В общем, позвали деврела, показали ему 3 парных семпла с chatgpt, спросили какие из них луче. Он везде сказал что чатжпт лучше. Получилось какое-то ебаное качество, но как-то плевать, напишем что 1 к 3 лучше. (деврела уволили, кстати).
Ни метрики, ни честный Human Evaluation мы показывать конечно же не будем. Кого это ебет? Тебя это ебет?
А, да, зарелизим претрейн. Мы его кстати назвали gpt-5. Почему? Просто.
Под катом у нас куча примеров, которые мы начерепикали, наслаждайтесь. Должно хватить на постов 10-20 где-то еще.
😁89🔥10🤡8👍5👎3👏3❤2🤔1
Pr кейсы, мемы и схемы
Вы хотите хайпануть, но выкладывать хорошую технологию не хочется?
Выход есть - хуевый релиз!! Берём LLM, желательно на такое число параметров чтобы для прода она была бесполезной.
Кладём рядом с кодом: Megatron, Jax, flax, mojo - чем ебанутее кодовая база - тем лучше.
Оставляем 0 инструкций по тому как этим пользоваться.
Вы прекрасны!! СМИ хайпуют, блогеры хайпуют, реальной технологии на руках не у кого как не было, так и нет.
Вы хотите хайпануть, но выкладывать хорошую технологию не хочется?
Выход есть - хуевый релиз!! Берём LLM, желательно на такое число параметров чтобы для прода она была бесполезной.
Кладём рядом с кодом: Megatron, Jax, flax, mojo - чем ебанутее кодовая база - тем лучше.
Оставляем 0 инструкций по тому как этим пользоваться.
Вы прекрасны!! СМИ хайпуют, блогеры хайпуют, реальной технологии на руках не у кого как не было, так и нет.
👏113😁36🤩4👍3🤡2❤1
Love. Death. Transformers.
Pr кейсы, мемы и схемы Вы хотите хайпануть, но выкладывать хорошую технологию не хочется? Выход есть - хуевый релиз!! Берём LLM, желательно на такое число параметров чтобы для прода она была бесполезной. Кладём рядом с кодом: Megatron, Jax, flax, mojo…
Не обгоняя модель в 4 раза меньше(?) Хз я не шарю. И тут ещё miqu не хватает
Красивая кривая? Мне тоже нравится, а ещё она нравится менеджерам инвесторам и прочим. Но она неверная, правильная кривая - та что я нарисовал красным.
а100 - 640tflops bf16
h100 - 1500tflops bf16
B100 - 3600tflops bf16
Не, фактически она верна, прирост в fp4 действительно есть, но есть нюанс - модели даже в fp8 никто не учит, максимум - инференс.
а100 - 640tflops bf16
h100 - 1500tflops bf16
B100 - 3600tflops bf16
Не, фактически она верна, прирост в fp4 действительно есть, но есть нюанс - модели даже в fp8 никто не учит, максимум - инференс.
👍74😁29❤8
Its not a world model if its not hype enough - open sora
Китайская версия Sora начала учиться чуть больше месяца назад, и за всего то 200 а100 дней и 400к видео начала генерировать вполне неплохие 2s видео!
А, это не финальный чекпоинт и это всего 16×512×512
repo
blog про ускорение обучения
Китайская версия Sora начала учиться чуть больше месяца назад, и за всего то 200 а100 дней и 400к видео начала генерировать вполне неплохие 2s видео!
А, это не финальный чекпоинт и это всего 16×512×512
repo
blog про ускорение обучения
GitHub
GitHub - hpcaitech/Open-Sora: Open-Sora: Democratizing Efficient Video Production for All
Open-Sora: Democratizing Efficient Video Production for All - hpcaitech/Open-Sora
👍28🔥5❤1