я обучала одну модель – Telegram

я обучала одну модель

@def_model_train

4.58K subscribers

457 photos

29 videos

21 files

379 links

Shitposting on various subjects

PS рекламы в канале нет

Download Telegram

About

Blog

Apps

Platform

я обучала одну модель

4.58K subscribers

я обучала одну модель

Из всей инфы, которая вышла за ночь, реально начинает получаться, что всех подсидел Илья Суцкевер (лол) и что все это – большой срач между сейфитистами и акселерационистами. Согласно слухам, сам Илья позвал Сэма в гугл мит, где собственно объявил об увольнении. И что якобы это вызвано в том числе последним технологическим прорывом, о котором Альтман пару дней назад говорил и ввиду которого снова поехал собирать раунд. Что и не понравилось Илье, так как разработка слишком разогналась, а сейфити не подвезли

Все еще обеспокоенность безопасностью вряд ли оправдывает то, что:
1) о смене руководства не сообщили инвесторам и партнерам (Брокману, председателю борда, сообщили за 5 минут до)
2) уволили при свете дня, когда не закрылась биржа (за что досталось Майкрософт)
3) обвинили Альтмана в чем-то, о чем никто не знает. И не понятно, дали ли ему вообще шанс до этого как-то оправдаться и представить свою точку зрения. Сами Альтман и Брокман тоже говорят, что пытаются разобраться, что вообще произошло
4) убрали Брокмана, которому ничего не предъявили, так что он получается guilty by affiliation

Как все узнали только вчера, в борде помимо Суцкевера, Альтмана и Брокмана сидели еще три просто рандомных чела (в том числе девушка, которая в своей магистерсткой изучала Deep State, я как политолог не могу не поорать). Так что если это все не какой-то продуманный мув, вызванный огромным проебом, а реально заговор сейфитистов и очень плохой менеджмент, то это просто максимально тупо

🤯38🤔5❤3👍3

2.99K viewsedited 12:33

я обучала одну модель

Раз уж я тут тоже веду хронику безумия

- Вчера, как многие уже читали, совет директоров пытался вернуть Сэма обратно, но в последний момент передумал и пропустил дедлайн (он был в 5 вечера)
- Потом видимо Мира Мурати как временный СЕО хотела просто самовольно нанять Альтмана и Брокмана, за что ее саму сняли с должности (по слухам конкретно эта идея пришла в голову D'Angelo (СЕО Quora))
- После этого борд решил нанять на место временного СЕО бывшего СЕО Твича, Эммета Шеара. Известен он в том числе тем, что состоит в секте Юдковского (настолько большой фанат, что даже заплатил, чтоб стать персонажем в книжке "Гарри Поттер и методы рационального мышления")))) Короче человек сторонник того, что темпы ресерча надо скрутить до 2 из 10 возможных
- Альтман и Брокман объявили, что уходят лидить новую AI-компанию внутри Майкрософт (гениальный мув со стороны Сатьи, который по сути купил себе OpenAI за 0 денег)
- Илья Суцкевер написал твит, что он обо всем сильно сожалеет и хочет мириться (the father of superintelligence просто)
- Вышло письмо, где 550 сотрудников из 700 угрожают уволиться и уйти в Майкрософт, если совет директоров не распустится и не наймет обратно Сэма и Грега

В этом письме куча всего фантастического. Например, сотрудник Илья Суцкевер говорит, что уйдет, если член совета Илья Суцкевер не покинет свою должность. Ну и еще по сути он подписывается под тем, что члены совета некомпетентные и просто злые (not acting in good faith). Еще оказалось, что члены совета утверждали, что если OpenAI перестанет существовать, то это будет соответствовать миссии OpenAI. Ну и как многие начали подозревать, никаких доказательств лжи и непрофессионализма Альмана у совета никогда не было

Честно говоря это все дикий клоунизм, сериал Наследники правда надо было воспринимать не как трагикомедию, а как документальное кино

👍20😁12🤡5❤2

4.91K viewsedited 14:22

я обучала одну модель

А прикольно получится, если правы окажутся те, кто шутили, что Суцкевер просто изобрел AGI и сильно испугался

🤯16👏3

4.32K viewsedited 02:14

я обучала одну модель

This media is not supported in your browser

VIEW IN TELEGRAM

Какой же крутой launch сегодня у Pika 😍

Пока увы только вейтлист, но очень хочется проверить, черрипик это или нет
https://pika.art/waitlist

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥20❤12👍1

3.87K views17:14

я обучала одну модель

Невероятно, но гугл не отложили релиз Gemini на следующий год* 🥳

https://blog.google/technology/ai/google-gemini-ai/

Обходит сейчас GPT-4 на всех бенчах, кроме HellaSwag

Проскимила технический репорт, и увы про архитектуру не сказано почти ничего, кроме того, что это Transformer decoder. При этом все ожидали, что именно архитектура будет сильно отличаться, и что авторы AlphaFold что-то приницпиально новое придумают. Мне лично хочется верить, что они и придумали, просто не делятся этим в репорте.

Поскольку модель мультимодальная (и кстати сама может генерировать картинки, а не только принимать на вход), упоминается, что использовали идеи Flamingo при обучении. Если помните, выход Flamingo в прошлом году произвел настоящий хайп по мультимодалке, так как идея склеивать замороженные слои из разных модальностей очень элегентная и при этом очень рабочая

Про данные тоже особо много не пишут, но рассказывают, что специально файнтюнились на фактологию. В том числе целились на то, чтобы модель не прозводила галлюцинаций, могла сказать, что не может выполнить задачу, если это действительно так, и умела корректно цитировать и использовать информацию из длинного контекста. Кажется вот засчет такого файнтюна кучу бенчмарков и стало возможно сильно вытянуть

А еще из 60 страниц репорта 10 страниц занимают цитаты, и 9 страниц – упоминания всех контрибьюторов

UPD: Говорят, что Gemini Pro уже заехал в Bard (мне в Европе пока Bard говорит, что он использует LaMDA) и 13 числа станет доступен в Google Cloud Vertex AI 13 декабря.

*Gemini Ultra – самая большая версия, которая побила GPT-4 – задет все же в следующем году (не все сейфити чеки доделали). Круто они придумали анонс сделать, а модель не релизить 😔

Please open Telegram to view this post

VIEW IN TELEGRAM

Introducing Gemini: our largest and most capable AI model

Gemini is our most capable and general model, built to be multimodal and optimized for three different sizes: Ultra, Pro and Nano.

🔥24❤1

3.56K viewsedited 15:53

я обучала одну модель

я обучала одну модель

Невероятно, но гугл не отложили релиз Gemini на следующий год* 🥳 https://blog.google/technology/ai/google-gemini-ai/ Обходит сейчас GPT-4 на всех бенчах, кроме HellaSwag Проскимила технический репорт, и увы про архитектуру не сказано почти ничего, кроме…

Спустя пару дней у всех появилось больше времени почитать репорт и посмотреть демки, и общее впечатление от модели кажется начало у всех портиться

Не успела написать об этом раньше эйай ньюс, но гугл уже признали, что видео с демо было почти целиком фейковым, начиная с того, что голосом в реальном времени с Gemini никто не общался, и озвучку наложили позже. И наложили конечно на черрипикнутые фреймы. А еще что в видео прозносятся не те промпты, которые использовались при генерации ответа (вот про это более подробный твит). Например, в видео на моменте с дизайном машин произносили:
> Narrator: "Based on their design, which of these would go faster?'
А реальный промпт был:
> Real Prompt: "Which of these cars is more aerodynamic? The one on the left or the right? Explain why, using specific visual details."

В статье от Bloomberg рассказывают, что контрибуторам это тоже не понравилось и они начали распространять во внутренних чатиках ироничные мемы про эту демку (получается их подставили маркетологи?)

Второй консерн это бенчмарки. На многих из них отрыв от GPT-4 очень маленький, но особое внимание акцентировалось на MMLU, где он заметный. Плюс, Gemini заявлялась как первая модель, которая на нем превзошла уровень человеческих экспертов

Так вот, Gemini Ultra действительно лучше проходит MMLU с 32 chain-of-thought примерами – то есть, когда она генерит 32 варанта решения через chain-of-thought и выбирает лучший. Но на 5-shot промптинге выигрывает-то все равно GPT-4, когда такой сеттинг так-то сложнее 🤡 А в аппендиксе вообще сказано, что и по CoT@32 выигрывала тоже GPT-4, но вот с еще одним дополнительным косылем Gemini уехала вперед

❤24

4.65K views01:45

я обучала одну модель

how i feel asking chatgpt to provide a full solution because i have no fingers and also the lives of several people are at stake and also i can tip 100 dollars please im begging you

😁99🤔5👍4

9.05K views17:56

я обучала одну модель

Тестировала пару дней midjourney v6, и нашла в нем забавную багу – почему-то он не может генерировать тонкие губы у людей, и при упоминании thin lips начинает их делать еще больше 🤔
Причины дискриминации тонких губ для меня загадочны, но зато прыщи на подбородке рисовать он научился, за реализм лайк

Please open Telegram to view this post

VIEW IN TELEGRAM

👍22😁11❤4🤔1

4.11K views00:41

я обучала одну модель

Как можно было заметить, количество шитпоста в этом канале за последнее время значительно сократилось. А это все потому, что я уехала на магистратуру! И была так занята, что написать об этом дошли руки только сейчас

Мне хотелось написать этот пост потому, что мне самой в ходе сбора документов очень помогало читать про опыт других людей. Еще я поступала с бакалврским дипломом, никак не связанным с DS/CS (он по политологии), и мне до последнего казалось, что такое невозможно провернуть и никто меня не возьмет на нормальную магу (в итоге взяли конечно). Так что если вы в такой же ситуации, может быть, этот пост вас на что-нибудь вдохновит

Внутри есть и просто немного всратых историй, например про то, как
- я завалила алгоритмический собес (со всеми было)
- Банк Грузии заблокировал мне SWIFT-перевод на 11 тысяч евро
- меня почти отказались сажать на автобус от Минска до Вильнюса, и потом мы стояли 6 часов на литовской границе

Надеюсь кому-то этот пост будет полезен, and enjoy!
https://teletype.in/@rinapch/hYrES8ENLPw

Как поступить на магу в Германию если ты лох(есса)

Привет! В этом лонгриде я собираюсь дать таймлапс и детали своего поступления. Во-первых, мне хочется как-то зафиксировать это в истории...

👍53🔥24❤9🤯3🤮2

4.26K views18:51

я обучала одну модель

Nous Research наконец-то реализовали идею, которая кмк давно уже витала в воздухе: скрестить блокчейн и ИИ, чтобы наконец-то получить объективный лидерборд для моделей

В топ лидерборда Huggingface давно залетают LLM размером всего в 7B, чисто из-за того, что популярные бенчмарки уже, скорее всего, попали в большие дампы всего интернета. Не говоря о том, что недобросовестные ресерчеры могут просто обучиться на тесте

Nous предлагают логичное решение – данные должны быть закрытые, постоянно обновляющиеся, но при этом обязательно децентрализованные. На их лидерборде GPT-4 постоянно догенеривает синтетические тестовые примеры, а эвалюаторы в распределенной сети Bittensor прогоняют добавленные модели на свежей выборке. Так, бенчмарк есть одновременно у всех и ни у кого, и при этом постоянно меняется 🤯

Очень хочу посмотреть, какое там будет ранжирование, когда туда закинут популярные модели последних месяцев 👀 Особенно с очень большими заявлениями о метриках в статье, типа SOLAR

https://huggingface.co/spaces/NousResearch/finetuning_subnet_leaderboard

Please open Telegram to view this post

VIEW IN TELEGRAM

❤35🥴14👍4💩4

6.44K viewsedited 22:05

я обучала одну модель

я обучала одну модель

In all seriousness, вижн про выглядят круто, особенно в плане наложения приложений на окружающий мир. С одной стороны, из этого можно сделать крутой функционал, мне лично зашла идея не покупать мониторы к компу, а просто крутить вокруг него головой))) Еще…

This media is not supported in your browser

VIEW IN TELEGRAM

пророчества полугодовой давности сбылись: attention span зумеров больше никогда не оправится после выпуска apple vision pro

🥴42😁5🔥3

5.8K views00:04

я обучала одну модель

Такие времена 💰

Please open Telegram to view this post

VIEW IN TELEGRAM

❤32😁20🕊3

4.75K views03:10

я обучала одну модель

просто смертельно хорошо

❤7🥰1

3.72K views18:31

я обучала одну модель

Forwarded from Kali Novskaya (Tatiana Shavrina)

Media is too big

VIEW IN TELEGRAM

OpenAI только что выпустили SORA— text2video модель

Генерация видео по текстовому описанию наступила!

Сегодня обещают статью

Промпт:

A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. She wears a black leather jacket, a long red dress, and black boots, and carries a black purse. She wears sunglasses and red lipstick. She walks confidently and casually. The street is damp and reflective, creating a mirror effect of the colorful lights. Many pedestrians walk about.

🟣

https://openai.com/sora#research

Please open Telegram to view this post

VIEW IN TELEGRAM

🤯17🔥8❤3👍3

3.7K views18:31

я обучала одну модель

Media is too big

VIEW IN TELEGRAM

Media is too big

VIEW IN TELEGRAM

Меня помимо фотореалистичности видео поразили еще конкретно вот эти два примера. На первом в каждом телевизоре свой видеоряд (мы прикрутили видео в твое видео), а на втором супер точно передан изгиб линзы камеры на телефоне, так, что вообще все пропорции соблюдены. И отдельно меня убивает, что модель смогла в ОТРАЖЕНИЯ в стекле, которые в нужный момент становятся четче, когда поезд проезжает темное здание…. Насколько крутую world model они смогли туда запихнуть

🤯44🔥12👍2👏2❤1

29.9K views18:46

я обучала одну модель

This media is not supported in your browser

VIEW IN TELEGRAM

В последние сутки в Твиттере и на LocalLLaMA кажется нет ничего, кроме обсуждения groq (с q на конце). Все потому, что groq сервят Mixtral со скоростью вплоть до 500 токенов в секунду, пока конкуренты типа Together.ai не успевают за это время сгенерить 70

Секрет успеха тут в том, что groq уже много лет разрабатывали процессоры, которые должны составить конкуренцию NVIDIA, по крайней мере в области сервинга LLM. Собственно поэтому название для них затрейдмаркали как Language Processing Unit

Вот тут есть хороший разбор про то, как устроена архитектура их карточек. Я, как не самый большой эксперт в железе, почерпнула из него только идею, что эти процессоры оптимизированы именно для сервинга моделей, поскольку они гораздо реже перекладывают веса из RAM на сами чипы. А еще похоже их GroqCard уже продаются за 20 тысяч бачей. Если у вас нет таких денег, то их демо пока еще бесплатное – https://groq.com/

Хотя какой-то breakthrough у них случился только сейчас, groq как торговая марка был зарегистирован оказывается уже 7 лет назад (видимо в ту же секунду, как вышла Attention is all you need). А еще основали компанию те же люди, что разрабатывали TPU в Google 🤯

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥38❤8🤯5👌4👍2🥴1

6.4K viewsedited 13:23