Сиолошная
44.1K subscribers
743 photos
132 videos
1 file
913 links
Канал SeeAll'а с новостями (и мыслями о них) из мира NLP, VR и космоса.

Более подробно смотри в первом сообщении в канале (оно закреплено). А еще у нас есть чат! Заходи: https://t.me/+i_XzLucdtRJlYWUy
Download Telegram
Немного запоздалая новость, лежавшая с неделю в закладках. LMSYS добавляет 2 среза для сравнения моделей на Chatbot Arena (что это такое — писал тут).

Первый очень простой, и скоро станет рейтингом по умолчанию. В нём отфильтровали порядка 10% голосов, убрав примерно 1000 самых повторяющихся вопросов (те, что встречаются больше 25 раз). В основном там были запросы типа «привет» и вариации на разных языках. Так как всего 1000 запросов брали на себя 10% голосов (порядка 100000), то это вызывало перекос в их сторону — а сообщения-то были не сказать что самыми полезными для оценки LLM.

Второй — куда более интересный. Помните я писал про Arena Hard? Авторы тогда подготовили пайплайн для выделения самых сложных, комплексных и интересных запросов для того, чтобы сравнивать модели на вопросах не по типу «2+2=?». Для того, чтобы это сделать, было выделено 7 аспектов (например, важна ли точность ответа, должна ли модель решить какую-то конкретную проблему, нужна ли креативность, итд). Один промпт может относиться хоть ко всем категориям сразу.

Hard вопросами назвали те, из которых выделяется как минимум 6 аспектов (для определения использовали запромпченную LLAMA-3-70B, дав ей описания классов). Всего их вышло порядка 20% — больше всего отфильтровалось по критериям креативности и комплексности (то есть необходимости сделать несколько шагов, чтобы дать ответ).

Чтобы посмотреть рейтинг моделей, нужно перейти на https://chat.lmsys.org/?leaderboard и выбрать вкладку «Hard Prompts». Ниже — моё саммари результатов.

Примеры промптов:

(сложность: 6) tell me how to make a hydroponic nutrient solution at home to grow lettuce with precise amount of each nutrient

(сложность: 6) write me GLSL code which can gennrate at least 5 colors and 2 waves of particles cross each other

(сложность: 7) Write me a python script for the foobar problem, but make it so that if read aloud, each pair of lines rhymes. (i.e. lines 1/2 rhyme, 3/4 rhyme and so on)
Слева на каждой картинке рейтинг модели по всем запросам, справа — лишь по тем, что были классифицированы как Hard. За основу шкалы взята самая первая GPT-4: сделано так, чтобы её рейтинг не менялся (такое называется anchor model, в русском, наверное, якорная модель), а вот остальные модели вокруг неё уже поднимались или опускались в рейтинге.

Первая картинка — изменение рейтинга топ-моделей, вторая — моделей попроще. На всякий случай проясню, что рейтинг измеряется по голосам реальных людей, которые задали свой запрос (который мы отметили как «Hard», в некотором смысле качественный) и выбрали, какая из моделей отвечает лучше. То есть это не «GPT-4 сама себя оценивает высоко»

Легко заметить, что Llama-3-8B-Instruct, качество которой якобы был сопоставимо с GPT-4-0314 (по запросам на английском, в мультиязе то она плоха), значительно падает в рейтинге. Это говорит о том, что модель буксует на вопросах с возросшей сложностью. Также видно, что Claude-3-Opus теперь располагается выше Llama-3-70B-Instruct (у меня-то и сомнений не было), а GPT-4o даже показывает небольшое улучшение относительно множества «обычных» запросов

Но это про дорогие проприетарные модели, давайте посмотрим на вторую картинку. Тут самое интересное — как кроха Phi-3-mini (всего 3.8B параметров!) подбирается вплотную к GPT-3.5-Turbo. Жаль, Microsoft не делятся деталями обучения и генерации синтетических данных.

И для справки: лучшая GPT-4o выигрывает LLAMA-3-70B на 103 очка, в 77% случаев. Если запомните из этого поста одну вещь, то это «на более сложных запросах открытые модели даже не близки к закрытым» 👍 А ведь это ещё даже не запросы на реализацию агентов.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Сиолошная
Слева на каждой картинке рейтинг модели по всем запросам, справа — лишь по тем, что были классифицированы как Hard. За основу шкалы взята самая первая GPT-4: сделано так, чтобы её рейтинг не менялся (такое называется anchor model, в русском, наверное, якорная…
Случайно удалил посты в чате (не канале), но из-за этого пропадает возможность комментировать посты. Кстати, именно так отключают комментарии у рекламных постов в других каналах.

Оставляйте комментарии для двух сообщений выше здесь.
Начинается секция Advanced LLMs ДатаФеста ODS 2024-го года. Как и в прошлом году, я принимал участие в её подготовке, и даже должен был сегодня выступить с докладом, но из-за здоровья перенесли на попозже (~1-ое июня).

Напомню, что в прошлом году наш трек стал самым высокооценённым и любимым, согласно опросу участников. В этом году мы подготовили больше 20 докладов про самые разные аспекты работы с LLM — от инженерных штук с написанием кода и до бизнес-кейсов.

Ссылки-пароли-явки всё те же: spatial.chat (пароль parrotsfortheparrotthrone)
Плюс эфир на youtube для тех, кто не хочет нетворкаться и задавать вопросы.

Сейчас выступает Ринат (автор @llm_under_hood), он рассказывает про интеграцию невекторых баз знаний для борьбы с галлюцинациями в RAG.

Всем хорошего просмотра, и увидимся!

P.S.: записи всех докладов по всем трекам — будут!
Grokked Transformers are Implicit Reasoners: A Mechanistic Journey to the Edge of Generalization

Очень важная и интересная работа. Думаю, что её будут обсуждать очень много где, и будет продолжение идей. Но к сожалению она достаточно техническая, и требует некоторого бекграунда, чтобы разобраться. Все выводы и мелкие, но важные детальки я не смогу выписать в посты, потому рекомендую технарям прочитать самостоятельно, оно того стоит.

Для того, чтобы понять ниженаписанное, необходимо знать следующие термины:

Валидация — обычно при обучении моделей в самом простом случае все данные разбивают на 2 части: тренировочная часть и валидационная, служащая для проверки. Затем алгоритм (нейросеть) тренируют на тренировочной части, а на валидационной замеряют качество. Так как модель не видела эти данные во время тренировки, то можно сказать, что это хорошая оценка того, как модель будет вести себя в реальных условиях, на данных, которые не встречались.

Генерализация/обощение — грубо говоря, когда модель находит какие-то паттерны и закономерности в данных, которые являются общими, а не присущими только маленькому набору данных. Если модель генерализуется, то она хорошо работает на данных, которые до этого не видела.

Переобучение — не «давай обучим снова?», как можно подумать. В какой-то момент модель перестаёт учить обобщающиеся/генерализуемые паттерны, и начинает переобучаться — и её качество на валидационной части падает. В этот момент обучение кажется логичным приостановить — мы как бы думаем, что на новых данных, которые модель не видела, лучше уже не получится сделать. Например, сейчас у вас качество 80% на тренировочных данных и 78% на валидацонных. А через некоторое время 90% и 50%. Получается, что модель стала хуже -> лишняя тренировка не помогла. Но оказывается, что существует...

Гроккинг — это когда после очень долгого обучения, когда кажется, что модель уже переобучилась, и показывает почти идеальное качество на тренировочной выборке (то есть больше учиться нечему), но низкое на валидации, вдруг ситуация меняется. И модель неожиданным образом, не меняя качество на трейне, резко улучшается на валидации. Лучше всего это охарактеризовать фразой «чё-то щёлкнуло внутри»: каким-то образом модель пришла к алгоритму, который очень хорошо обобщается. Развивая пример выше, представьте, что качество стало 97% и 30% (то есть ещё хуже на валидации), а потом вдруг 98% и 95% — хотя казалось бы, метрика ведь деградировала.

На данный момент не ясно, как и почему случается гроккинг. Он замечен только в маленьких моделях на малом наборе задач — но не потому, что не масштабируется, а потому, что он возникает только тогда, когда модель тренируют ОООООООООЧЕНЬ долго (в десятки раз дольше обычного). В одном из экспериментов, например, о нём узнали лишь потому, что оставили компьютер на ночь включённым по ошибке (а там обучалась маленькая модель на простой задаче).

Но считается, что в момент гроккинга в модели возникает некоторый набор логики, который очень строго формализован и почти не ошибается. Буквально как если бы вы писали программу, где всё задано жёсткими условиями «если <что-то> то <что-то>». Чудо в том, что модель как бы сама изобретает эту программу, а не вы её пишете заранее.

Интерпретирование моделей (про которое я пишу всё чаще и чаще) — это как раз попытка заглянуть в модель после обучения и разобраться, какой именно механизм она изобрела для того, чтобы решать задачу. Таким образом получается показать, что модель точно будет надёжно работать с примерами, которые до этого не встречала. Например, вот работа по изучению сложения по модулю.
Наконец, давайте поговорим про конкретно эту работу. Для этого нужны следующие понятия:

Атомарный факт — самая малая частица информации, выраженная как факт. В рамках этой работы подразумеваются факты в духе «Жена Барака — Мишель», только тут они выражаются как тройки (Сущность 1, отношение, Сущность 2). Другой пример: «Мишель родилась в 1964-м» (тут отношение — это «родиться в»).

Задача композиции — это задача выведения связи по двум атомарным фактам. По примеру выше человек может легко догадаться, что «Жена барака родилась в 1964-м». Для того, чтобы осуществить это, нам нужно как бы сделать один прыжок в логике между двумя атомарными фактами.

Задача сравнения— это задача выведения отношения по двум атомарным фактам. Есть три вида отношений: больше, меньше, равно. «Трампу 78 лет», «Байдену 82 года» превращается в «Трамп моложе Байдена». Подумайте, как вы в голове решаете такую задачу, по шагам.

Во время тренировки модели показываются все атомарные факты (чтобы она могла выучить и дальше оперировать ими), но показывают лишь часть связей. Причём эти связи разбиты по сущностям. Сначала все атомарные факты бьют на две группы. Из первой сгенерируют связи, и их и будут показывать модели. Вторую откладывают, для тех фактов будет показано 0 связей, только факты.
Первая группа называется In-Distribution (ID на графиках), так как по сути мы даём модели понять, как работают конкретные связи на конкретных фактах. А для второй группы мы вообще не показываем связи никаким образом, модель их никогда не видела и не знает, только голые знания. Такое называется Out-of-Distribution (OOD на графиках). По идее, если модель может понять логику и создать общий алгоритм работы со знаниями — то OOD будет работать.

Основная вера скептиков нейросетей — что OOD не работает. То есть если модель что-то не видела, она никогда не сможет до этого догадаться. Но в теории, если модель смогла грокнуть алгоритм решения и изобрести логику, то нет причин не решать задачи, которые раньше не встречались.
На картинке вы видите два графика для двух вышеописанных задач. На обоих графиках красная линия очень быстро доход почти до 100% — модель выучивает тренировочную выборку. В этот момент качество на ID/OOD-валидации очень маленькое. Обычно люди разводят руки и говорят «эх, нихрена не выучилось...». Авторы же тренируют модель в 10-15 раз дольше (относительно достижения этой точки).

Задача 1 (слева)
В задаче композиции гроккинг возникает только для ID-примеров, то есть модель может вывести новые связи (отношения между фактами), которые ей не показывали, но только если с этими атомарными фактами уже были демонстрации установки связей. OOD не работает.

Задача 2 (справа)
В задаче сравнения картинка существенно отличается, и даже на 10^4 шагов качество ID/OOD существенно отличается от нуля. А к концу обучения и вовсе подходит к 100% — то есть модель может сравнивать произвольные атрибуты двух разных сущностей даже если они никогда не фигурировали в сравнениях, вообще ни в каких.
Но это была не самая интересная часть статьи — не зря же я писал про интерпретируемость?

Авторы задаются вопросами: почему в одном случае модель обобщается и работает, а в другом нет? Как именно модель грокнула задачу и начала решать задачу, какой механизм используется?

Оказывается, эти два вопроса связаны.— все дело в том, как модель решает задачу внутри себя.

В задаче композиции модель разбивается на 2 половинки. В первой она решает задачу «вытащить релевантную сущность», а во второй «вытащить нужное значения для найденной сущности». На примере:
— Возраст жены Барака ... (нужно написать цифру из атомарного факта)

Первые слои вытаскивают информацию о жене Барака (Мишель), и задача как бы становится «Возраст Мишель..» (это было дано в атомарных фактах). И вторая половина модели просто достаёт этот факт.

Проблема в том, что поскольку для части сущностей мы никогда не показывали такие задачки отношений, то модель не запомнила их и не разместила во второй половине. Ей просто неоткуда достать информацию, её не существует в момент обработки — она осталась в первых слоях, в первой половине модели. И это указывает на ограничение архитектуры трансформера — у каждого блока своя память (зашитая в параметры модели), и не получится вернуться на несколько блоков назад, чтобы найти какой-то факт. Если пропустил — всё. Авторы валидируют эту гипотезу изменением трансформера, предоставляя возможность обращаться к фактам из первых слоёв (по сути, банки знаний были общими для двух половинок) — и это заставляет модель работать даже для OOD задачи!

Вот так интерпретирование подсказывает, как нужно менять архитектуру, чтобы получить модель, вырабатывающую генерализуемую логику.

Но почему всё заработало сразу в задаче сравнения? А там работал другой механизм — в первой половине модели происходило извлечение фактов сразу для обеих сущностей (в моём примере это возраст Трампа и Байдена), а во второй половине происходило сравнение. Так как все факты модель успела запомнить, то такое «параллельное» извлечение знаний/выполнение задачи позволило работать с любыми сравнениями.

Самое крутое — что можно вот прямо заглянуть в трансформер и понять, решает модель задачу (научилась логике) или же просто запоминает, что ей говорят.
Теперь ещё несколько фактов из работы:
— скорость появления гроккинга зависит от соотношения двух групп данных во время тренировки: атомарные факты и связи/отношения. Гроккинга можно достичь значительно быстрее, если кормить модели в 15-18 раз больше связей нежели фактов. Большая находка тут в том, что гроккинг, получается, не так зависим от вбуханных в обучение мощностей/количества данных, сколько от «умности» (качества) данных.
— в тысячный раз оказывается, что бОльшие модели сходятся быстрее. То есть даже если данные и ресурсы на обучение не менять, можно добиться лучших результатов. В теории, если у нас кончатся данные после GPT-6, то GPT-7 можно просто сделать больше и учить на тех же данных — всё равно будет лучше.
— интересно, как трансформер выучил «параллельное» решение казалось бы последовательной задачи (это я про сравнение). Это не первый раз, когда модель находит шорткат и приводит к генерализуемому решению.
— фраза из статьи, которую можно кидать критикам нейронок в лицо (я даже затвитил с тэгом Гари Маркуса аххаха): «Разница в полученных обобщениях по двум изучаемым задачам также подчеркивает необходимость контролируемого и механистического исследования [интерпретирования] понимания рассуждений моделей, прежде чем делать общие заявления о его ограничениях». По примеру очевидно, что генерализация случается, а когда нет — тогда нужно понять, чем это вызвано, а не кричать «Deep Learning hitting the wall» (10 лет)
— когда модель грокает задачу, то вся логика становится очень компактной и занимает очень малую часть модели. Это потому, что вместо запоминания наступает понимание. Гроккинг вообще часто этим объясняется (модель сначала запоминает, потом медленно выводит прваила, и тогда большая часть знаний будет не нужна — их можно получать на лету логикой). Верю, что через улучшений по этому направлению модели получится сделать меньше, но умнее.
— регуляризация помогает достигнуть гроккинга быстрее, так как модель по сути заставляют выполнять задачу меньшим количеством параметров, что уменьшает размер схемы (набора блоков, которые реализуют логику), и потому модель не ударяется в запоминание.

В работе ещё с десяток крючков, за которые можно зацепиться и начать рассуждать про то, что и как нужно менять, чтобы модели стали умнее, не галлюцинировали итд.

Но все эти свойства, как вы видите, появляются в результате гроккинга, когда модель учат неприлично много. Про это есть релевантное исследование от META, которое я разбирал — там одни и те же факты показывали по 1000 раз, чтобы модель их запомнила. Для меня это выглядит как «даже если у нас нет новых данных после GPT-5, и даже если мы не будем увеличивать модели дальше, то просто обучая их не по 3 месяца, а по 2-3 года, мы будем получать очень заметные улучшения». Инвестируем в NVIDIA, ждём суперкластеров)

Всё! Теперь постов не будет неделю, кек
OpenAI создали комитет по безопасности. Он отвечает за выработку рекомендаций по критически важным решениям в области AI Safety для всех проектов OpenAI.

Самая главная часть в посте:
«OpenAI has recently begun training its next frontier model...»

Вторая главная часть: комитет должен предоставить свои рекомендации через 90 дней, после чего на них посмотрит совет директоров. А после этого их увидим и мы - OpenAI хотят огласить их публично.

Согласно слухам, анонс новой модели запланирован на ноябрь 2024-го года.
Сиолошная
Вчера, вслед за Ilya Sutskever, из компании ушел Jan Leike. Он со-руководил командой SuperAlignment'а. И нет, вопреки расхожему мнению, это не про то, как сделать из LLM woke-модельку, которая не пишет расистские шутки. Направление должно было решить задачу…
Jan (ex-руководитель команды в OpenAI, работал рука об руку с Ilya Sutskever) присоединился к Anthropic и продолжит заниматься тем же самым — направлением SuperAlignment. Напомню, смысл направления в том, чтобы понять, как управлять моделями будущих поколений (Claude 5 и GPT-6) — при том, что мы даже не до конца понимаем, какими свойствами они будут обладать и на что будут способны.

В твите Jan упоминает 3 направления, давайте коротко напомню про них:

Scalable oversight
Уже сейчас есть задачи, которые очень сложно валидировать (проверять на корректность, создавать разметку) людям, но которые хотелось бы, чтобы GPT-5 их решала. Самый простой пример — программирование на каком-нибудь не самом популярном языке, написание не 1-2 классов, а целого проекта. Представьте, что там 100'000 строк кода на Хаскеле. Такая проверка не масштабируется — можно нанять ну 20, ну 50 специалистов, и они будут по месяцу один проект копать.
С другой стороны, с валидацией могут помочь AI-ассистенты. Например, мы можем проверить, что на большом наборе маленьких функций (по 10-20 строчек) модель не врёт, не ошибается и не пытается написать вредоносный код. Если проверки пройдены — отпускаем модель саму писать куски кода бОльше, а затем заставляем перепроверять по 10-20 строк. Отсюда и название направления — дословный перевод «масштабируемый надзор»

Weak-to-strong generalization
По этому направлению Jan успел написать статью в OpenAI, вот детальный разбор. В целом, перекликается с тем, что написал выше, только немного иначе. Глобальный вопрос такой: как используя глупые алгоритмы (человек или меньшая модель) направлять умную модель (как раз GPT-6). OpenAI пробовали использовать GPT-2 для дообучения GPT-4, и у них даже что-то получалось (правда, не на всех задачах) — это вот такая маленькая симуляция ситуаци.

Automated alignment research
Самое клёвое направление и основная цель команды Superalignment. У меня про это есть целая часовая лекция, конечно же рекомендую к просмотру.
Краткое содержание: на данный момент исследователей, которые могут делать работу из предыдущих пунктов (и по паре других треков) ОЧЕНЬ мало. Их на порядок (-ки) меньше, чем тех, кто работает над развитием способностей моделей. Есть шанс не успеть решить задачу Alignment'а, и для того, чтобы восстановить баланс сил, OpenAI — а теперь и Anthropic — планируют создать систему, которая по навыкам будет эквивалентна исследователю в их команде. А дальше они просто сделают 100500 копий, запустят их в параллель и решат задачу! Вот так просто! 😐

И ловите маленький инсайд: Anthropic уже обучили модель, на которую ушло в 4 раза больше вычислений, чем на Claude 3 Opus (самая большая и мощная их модель из публично известных) 😈

Ну и хорошая новость — Anthropic регулярно публикует статьи по Alignment и инетрпретируемости, так что stay tuned, будет что поизучать 💯
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from SpaceX (Евгения Макаренко)
Media is too big
VIEW IN TELEGRAM
На пороге 4-го испытательного полёта Starship

FAA по запросу ресурса NASASpaceflight заявили, что преждевременное завершение миссии IFT-3 не затрагивало вопросы общественной безопасности. А это значит, что SpaceX могут совершить 4-й испытательный полёт Starship без завершения расследования 3-го. Пока это не означает, что компании уже была выдана лицензия на запуск, но ожидается, что теперь она будет получена в ближайшие дни.

Эту хорошую новость SpaceX отметили полномасштабным испытанием водяной системы стартового стола после окончания второго WDR-теста системы Starship.

Запуск миссии IFT-4 в настоящее время запланирован на 5 июня.
Помните фильм «Матрица», особенно первую часть?

А как именно помните? я тут узнал, что их с каждым релизом то перекрашивают, то обрезают или даже растягивают кадры.

Как же тяжело быть киноделом 🥺

Считая слева направо и сверху вниз — какой из кадров 1) ближе к тому, что вы помните 2) кажется вам лучше?

Пишите в комментарии два ваших числа (например, 4-6)

Источник
Please open Telegram to view this post
VIEW IN TELEGRAM
Сделайте удивлённое лицо — моя с Пашей статья «Как работает ChatGPT: объясняем на простом русском эволюцию языковых моделей с T9 до чуда» стала победительницей ежегодного конкурса Технотекст на Хабре. Получено достижение «Человек с золотой клавиатурой» 😎

В сотый раз напоминать про эту статью не хотелось, но если вы пришли в канал позже и каким-то образом не видели, с чего я начинал и за какие заслуги тут столько подписчиков набежало — бегом читать!

Статьи в других категориях (моя — в AI & ML), которые показались мне интересными и которые я почитаю в ближайшее время:
— Нейронные сети для планирования движения беспилотных автомобилей (от Яндекса)
— Шесть причин, почему ваши A/B-тесты не работают (от Озона)
— Самое понятное объяснение Специальной теории относительности
— Настолки, расследования, охота на уток: как делать активности, которые запоминаются (от АльфаБанка)
— Как не давать пустых обещаний себе, команде и заказчику
— D&D как инструмент тимлида: решаем проблемы команды с помощью разговорных ролевых игр (от Озона)
— Как прогнозировать время выполнения задач (от Тинькофф)
— Как работать с нейросетью Midjourney, чтобы получать желаемый результат
— Доступность игр для людей с ограниченными возможностями: проблемы и их решения
— Как мы научили ML-модель выбирать товары для акций в СберМаркете и увеличили ROI скидок в 8 раз (от СберМаркета)
— Как создать хороший FAQ (от X5)
— Как улучшить английский в документации. Часть 2: ловушки двусмысленности


А еще Хабру сегодня 18 лет! 🙏
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from addmeto (Grigory Bakunov)
Долго думал что не буду про это писать. Но почитав и исследовав вопрос решил, что вам будет интересно.

На прошлой неделе начался большой бум среди всех, кто как-то завязан на поиск Гугла (а это почти весь современный интернет, все его разработчики). Некто "Erfan Azimi", владец SEO фирмы внезапно начал показывать слитые ему документы о том как устроено ранжирование в поиске Гугла. На самом деле всё чуть сложнее, не сам поиск, а различные API вокруг него, но как вы понимаете даже по этим API уже можно понять многое. Утечка произошла по ошибке, один из разработчиков в гугле написал программу для превращения API в вызовы на любимом им языке программирования, но вместо публичных вызовов выложил все (если вам интересно, я приложил ссылку на коммит, в котором содержатся все эти описания [1]).

Многочисленные проверки через разных бывших и действующих гуглеров говорят, что это не подделка, не шутка, а вполне реальная утечка, исследованием которой теперь очень озабочены все SEO-ресерчеры. Дам вам ссылку на самый глубокий из них [2], но если кратко то вот что уже сейчас понятно:

- В поиске гугла есть белые списки сайтов, которые принудительно оптимизированы. Как минимум это известно о некоторых тематиках, таких как выборы штатах в 2020 или ковид.
- Название домена, а так же субдоменов является значимой информацией (гугл всегда говорил что это не так).
- Есть отдельная песочница для новых сайтов. Гугл всегда это отрицал.
- В поиске напрямую используются данные из EWOK (это система, в которой живые люди сидят и за деньги оценивают какой вариант выдачи в поиске лучше). Да, судя по всему есть пользователи, которые своими глазами и мнением определяют, какой из нескольких сайтов лучше по некоторому запросу.
- Гугл активно использует информацию по поведению пользователей на сайте для ранжирования
- Данные по тому, куда пользователь нажимает на странице берутся не только из гугл-аналитики, но и напрямую из браузера Chrome
- По количеству кликов на странице сайты делятся на три категории, для каждой из которых строится свой "ранк качества", более популярные по кликам сайты приносят бОльший вклад в пейджранк, т.е. более ценны
- Гугл внутри учитывает размер бренда сайта, не только по самому сайту но и вцелом по упоминанию этого сайта в интернете (даже без ссылок)
- Контент и ссылки вообще вторичны, сейчас гораздо значимее именно клики и навигация по сайту (то что называют "поведенческий фактор").
- Как следствие для большинства мелких компаний и сайтов SEO почти не значим, пока вы не создадите бренд, пользователей на сайте и репутацию для аудитории.

Безусловно это самая значимая утечка про поиск гугла за последние 10-15 лет. По ней очень вероятно, что гугл часто врет [3] когда публично рассказывает о поиске. Скорее всего надо переставать верить, что "content is king", кликбейты + фермы ботов - вот нынешний путь к успеху в SEO. Разумеется гугл от комментариев отказался [4]. Если вам хочется почитать на эту тему еще что-то - вот неплохая статья в iPullRank [5].

А если вам хочется как-то перестать сливать все свои данные в гугл - поставьте себе что-то не из хрома, например Firefox.

[1] https://github.com/googleapis/elixir-google-api/commit/078b497fceb1011ee26e094029ce67e6b6778220
[2] https://sparktoro.com/blog/an-anonymous-source-shared-thousands-of-leaked-google-search-api-documents-with-me-everyone-in-seo-should-see-them/
[3] https://www.seroundtable.com/google-chrome-search-usage-15618.html
[4] https://www.theverge.com/2024/5/28/24166177/google-search-ranking-algorithm-leak-documents-link-seo
[5] https://ipullrank.com/google-algo-leak
Как вы любите, под вечер две новости про нашего любимого Sam Altman

1. Во время ноябрьского путча значимое количество людей писало, что мол всё ясно, Sam интриган и ведёт тройную игру в сугубо своих интересах, забил на всё и хочет править единолично. Как подкрепление своих слов они приводили такую информацию: якобы Paul Graham, основатель Y Combinator, одного из самых престижных стартап-акселераторов в мире, в 2019-м году уволил Sama за то, что тот тоже преследовал свои цели. Понимаете ли, он даже лично прилетел из Лондона в Сан-Франциско и держал очень серьёзный разговор с ним! Это писали в WashingtonPost в статье под названием «Before OpenAI, Sam Altman was fired from Y Combinator by his mentor» (они даже статью уже переименовали аххахахах).

Я не знаю, откуда это пошло, мне осенью не удалось найти НИ ОДНОГО подтверждения этой истории. Ни одного комментария самого Paul или его жены (с которой они держали YC), ни одного плохого слова в адрес Sam, ничего. Наоборот, во время ноябрьских событий он даже пару раз твитнул в поддержку. Вот тред на HackerNews, где отмечают, что Paul «seems incredibly respectful and supportive» (но и там люди нашли тройной смысл за шестой дверью метапостиронии).

Ну и сегодня Graham твитнул, что ему надоело, что люди брешат, и написал, что он не увольнял Altman'а. Он попросил его сделать выбор между OpenAI и YC, так как последнему Sam уделял 1 день из 5 — а требовалось явно больше. Paul отметил, что они были бы рады, если бы он решил остаться, и приняли это решение. Никто не пытался прогнать 😐

2. Вышла на связь Helen Toner, бывший член совета директоров OpenAI, которая принимала решение уволить Sama. Она дала интервью, где около 5 минут рассказывала про осенние события. В целом, там ничего нового для тех, кто следил за путчем в канале. Вслед за этим уже текущие директора — Bret Taylor (председатель совета) и Larry Summers — выпустили ответ на очередные заявления. Его опубликовали в The Economist, вот ссылка без пэйволла.

Они в очередной раз напомнили, что когда Sam был отстранён и не являлся директором, а они рассматривали возможность присоединиться к компании (оба — новые директора, появившиеся во время кризиса), то они спрашивали у (ex-) директоров, что, мол, случилось, каковы детали, какие жалобы на Altman'а. Helen почему-то ничего не говорила — или говорила такое, что ими не воспринималось серьёзным.

После этого, напомню, было ~5-ти месячное независимое расследование, проводимое внешней фирмой, в течение которого Sam не был директором. Подробно писал тут. Аудиторы общались и с бывшими директорами, включая Helen, с другими сотрудниками OpenAI, читали переписки и документы — больше 30'000 в общей сложности. И их вердикт был «Altman не виновен, и мы единогласно пришли к выводу, что Sam и Greg — подходящие для OpenAI лидеры». Также было выявлено, что поведение Sam не должно было привести к отстранению, и действия совета директоров хоть и были формально правовыми, но не были рациональными.

«Кроме того, за шесть месяцев почти ежедневного контакта с компанией мы обнаружили, что г-н Altman очень откровенен по всем актуальным вопросам и всегда коллегиален со своей управленческой командой» — написали два директора.

Чисто для справки: Larry Summers — это бывший:
1) министр финансов США
2) главный экономист Всемирного банка
3) президент Гарвардского университета
4) директор Национального экономического совета

Ну конечно же Sama пообещал, что если тот подмахнёт — он ему на лапу отсыпет, а как иначе? 🏥
Please open Telegram to view this post
VIEW IN TELEGRAM
Сиолошная
Компания Figure, разрабатывающая коммерческих гуманоидных роботов, привлекла $675M инвестиций при оценке в $2.6B Вложились, кажется, вообще все: Microsoft, OpenAI, NVIDIA, Jeff Bezos, Intel Capital, ARK Invest (и это не всё). Но что более интересно — OpenAI…
В далёком 2019-м OpenAI экспериментировали с робототехникой. Тогда они обучили робо-руку собирать кубик Рубика, причём модель училась полностью в симуляции, а затем тестировалась в жизни. Как я писал ранее, существует проблема sim-2-real gap — это разница между симуляцией и реальностью: если она велика (например, компьютер не может точно просчитывать физику объектов), то обученный алгоритм будет работать куда хуже при тестировании.

С тех пор утекло много воды — потихоньку sim-2-real gap минимизируется (посты про это: 1, 2).
Но и OpenAI не стояли на месте, и... в 2020-м году решили закрыть команду 🤨 Со слов Ilya Sutskever, нужно было очень сильно вкладываться ресурсами и перепрофилироваться, и основной проблемой были данные (с реальных устройств или из симуляции). Даже вот флот в 100 роботов (роборук, робоног или цельных гуманоидов) — это уже огромное количество работы, от налаживания конвейера выпуска до обслуживания, но при этом со 100 роботов данных много и не соберёшь. «There was no path to data from robotics».

Совсем недавно OpenAI запартнёрились со стартапом Figure AI, который специализируется в робототехнике — писал тут: https://t.me/seeallochnaya/1169

А сегодня появилась новость в Forbes, что команду собирают снова — сейчас ищут самых первых сотрудников; процесс начался буквально пару месяцев назад. Но основная цель команды — не разработка своих роботов с нуля, а улучшение базовой технологии для предоставления внешним партнёрам (вроде тех же Figure AI). Якобы OpenAI не будет конкурировать с ними — что на самом деле не совсем так: как минимум будет борьба за самые лучшие кадры.

Под «базовой технологией» здесь подразумевается большой зоопарк моделей:
1) LLM — как движок, принимающий решения/пишущий код, или как интерпретатор команд
2) VLM — Vision-Language Models для того, чтобы распознавать объекты
3) VLAM — Vision-Language-Action Models, сюда добавляется ещё и предсказание команд для робо-конечностей напрямую
4) World Models — модели мира, которые могут использоваться для симуляций или как часть пайплайна работы робота. Помните лонг про Sora?) Другой стартап 1X, делающий роботов, рассказывал, как они используют Stable Diffusion для того, чтобы симулировать результаты конкретного действия на 1 секунду вперёд и оценивать последствия, а после этого принимать решения. Думаю, тут схожая история.
5) голосовые интерфейсы — для принятия команд от людей и естественных ответов на них

В общем, есть где развернуться!
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Starship News Live (Dreamer)
Starlink впервые вышел на чистую прибыль — она составит $600 миллионов по итогам этого года

Ars Live подсчитали что по итогам 2024 года, Starlink заработает около $6 миллиардов благодаря постоянно растущей клиенской базе (уже 3 миллиона человек). А расходы в этом же году составят около $5,4 миллиарда.

Теперь осталось выйти из минуса, который образовался за 5 лет, и можно будет говорить о полной окупаемости.

Но уже сейчас понятно, что эта фин. модель реалистичная, а идея — прибыльна. Маск гений, в который раз.
Посмотрел свежее интервью (квиз? Q&A? набор советов?) Валеры Бабушкина. Поностальгировал по дням совместной работы в X5 (нет, даже в Пятёрочке!). Вспомнил, как когда ещё сам начинал заниматься DS/ML, то смотрел выступления и доклады Валеры, и вместе с остальными восхищался, вдохновлялся. Ещё помню как мать узнала, что я ушёл из университета, и была расстроена, но потом тоже посмотрела пару видео и вынесла вердикт «Ну вроде норм чел, с ним можно работать» (и перестала переживать).

А ЕЩЁ! ВСПОМНИЛ КАК ВАЛЕРА ХОТЕЛ МЕНЯ СТОЛОМ ПРИШИБИТЬ И РАСФИГАЧИТЬ ПОПОЛАМ, но это уже совсем другая история (кстати, я поэтому и начал читать статьи и делать разборы, кек).

Если вы не из сферы DS или если только начинаете - рекомендую посмотреть это и другие видео. Никаких суперультрамега инсайдов вы не узнаете (потому что их нет, кроме желания учиться и развиваться), но хотя бы заряд уверенности и бодрости можно получить.

(не забывайте что у Валеры есть канал @cryptovalerii)