Data Secrets
76.4K subscribers
5.81K photos
558 videos
20 files
2.28K links
Главный по машинному обучению

Сотрудничество: @veron_28

РКН: clck.ru/3FY3GN
Download Telegram
Data Secrets
Вышел Claude 3.5 Haiku: цены на него немного шокируют Haiku превосходит все предыдущие модели стартапа (кроме нового Sonnet 3.6). Модель обучена на данных до июля 2024: это самый «свежий» показатель среди моделей Anthropic. Haiku пока не поддерживает …
Помимо подорожания в 4 раза новый Haiku 3.5 от Anthropic еще и в 2 раза медленнее предшественника

Новая модель, конечно, существенно лучше Haiku 3 (оценки на SWE бенчмарке можно посмотреть в этом посте). Независимые оценки тоже это показывают: по данным Artificial Analysis Haiku 3.5 достигает уровня самой мощной модели предыдущего поколения – Claude 3 Opus.

Однако скорость и цены оставляют желать лучшего. Модель в четыре раза дороже предшественника и в 10 раз дороже новейших Gemini 1.5 Flash и GPT-4o mini. При этом замеры говорят, что на инференсе новичок в 2 раза ленивее по сравнению с Haiku 3.

В общем, судя по всеми, Haiku 3.5 – уже не такая крошечная модель, какой была Haiku 3. Вероятно, она должна занять место Sonnet в новом поколении, а Sonnet встанет на место Opus.
18👍9🤔8😁1
Кадры восьмилетней давности: Дженсен Хуанг привез первую видеокарту в OpenAI. Надпись на ней гласит:

Илону и команде OpenAI. Во имя будущего вычислений и человечества, дарю вам первую в мире DGX-1.


Маск ностальгирует
124👍24🔥14😁5
Исследователи из Китая создали мультимодальный датасет, который по эффективности превосходит наборы во много раз больше

Помните, как Андрей Карпаты говорил, что "модели должны стать больше, прежде чем они станут меньше"? По его теории, большие LLM должны помочь нам сделать данные, на которых мы учим модели, эффективнее: сейчас в трейнах моделей очень много шума, из-за которого модели разбухают, но умнее не становятся. Если этот шум убрать, и оставить только то, что действительно важно, на получившихся сжатых данных можно обучать маленькие модельки, которые на метриках будут не уступать большим.

Ученые из Китая попытались реализовать именно такой сценарий. Их датасет состоит не просто из текстов и картинок, как это обычно бывает, а из обработанных опенсорсной моделью RAM++ данных: это описания изображений, визуальные инструкции, выборочные текстовые задачи и, наконец, синтетика.

На итоговом наборе Infinity-MM они обучили малышку-модель Aquila-VL-2B (в качестве базовой модели взяли Qwen-2.5). Учили тоже непросто: в несколько этапов, каждый раз на отдельном виде данных. В итоге модель набрала 54,9% на мультимодальном бенче MMStar: это лучший результат в таком весе. Неплохие результаты получились и на других мультимодальных и математических тестах: 43% на HallusionBench, 75,2% на MMBench, 59% на MathVista.

И... хорошая новость: и датасет, и модельку выложили в опенсорс. А статью полностью можно прочитать здесь.
58👍34👏11🔥5
Data Secrets
AGI достигнут, расходимся v3
AGI достигнут, расходимся v4
😁222🔥22🤝10🌭4🙈3🤪21👏1
Вот куда Альтман тратит $10 млрд инвестиций: OpenAI приобрели новый домен

chat.com – это один из старейших доменов Интернета, он появился еще в 1996 году. В прошлом году он был куплен за $15.5 млн кофаундером HubSpot. Сколько за него заплатили OpenAI – не раскрывается. Но, вероятно, немало 🤑

Многие также пишут, что OpenAI купили ai.com. Но с этим доменом история долгая: он уже давно принадлежал OpenAI, а в 2023 его забрал Маск под X.ai. Прошлой зимой домен снова вернулся к Альтману: ходят слухи, что он предназначен для SORA.
Please open Telegram to view this post
VIEW IN TELEGRAM
😁543317👍133🤔3🦄3🔥1💘1
Data Secrets
Большая статья: какие альтернативы трансформерам у нас есть? "Трансформер - не просто очередной метод, а подход, который полностью изменил наш взгляд на ИИ. Нам очень повезло, что мы наткнулись именно на него в огромном пространстве алгоритмов", — Андрей…
Наша новая статья про тематическое моделирование и библиотеку BigARTM

Да-да, вторая статья за сутки, продуктивность наших редакторов на максимуме

Тематическое моделирование – это область современного NLP. Тематические модели используются в рекомендательных и поисковых системах, в компьютерном зрении, и даже в биологии.

Чтобы подробнее познакомить вас с этой областью, мы написали про нее большой разбор! И не одни... В соавторстве статьи Константин Воронцов – доктор физико-математических наук, преподаватель ШАД и МГУ, автор метода ARTM и создатель библиотеки BigARTM для тематического моделирования.

В статье вы найдете:

➡️объяснение ключевых концепций тематического моделирования
➡️математическую и интуитивную постановку задачи
➡️понятный разбор классических моделей PLSA и LDA, а также их недостатков
➡️подробное обсуждение метода ARTM
➡️и, конечно, практический гайд по построению тематической модели в библиотеке BigARTM

Скорее переходите на сайт и читайте! Уверены, вам точно понравится 🫡
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
23👍20🔥7🤯3😁2👀22🍓1
This media is not supported in your browser
VIEW IN TELEGRAM
🔥12🗿1
Data Secrets
Video message
Наш друг и коллега Саша Толмачев – CDO Ozon Fintech – приглашает подписчиков Data Secrets на стенд Озона на Матемаркетинг!

Подробности розыгрыша билетов на Data патибас здесь.
👍15🔥76🤯3
Facebook Research представили новую библиотеку optimizers

Этих ребят мы уважаем, – они подарили нам Faiss, Prophet и Pearl, а теперь подогнали еще и optimizers. Это новая библиотека с продвинутой реализацией оптимизаторов. Там есть привычные SGD, Adagrad, RMSProp и Adam, но реализованы они с помощью Distributed Shampoo.

Это означает, что все операции оптимизированы для тензорных пространств: за счет этого обучение в целом сходится быстрее. Наглядно 👇

Вот пример использования обычного Adam:

import torch
from torch.optim import Adam

model = instantiate_model()

optimizer = Adam(
model.parameters(),
lr=0.001,
betas=(0.9, 0.999),
eps=1e-08,
weight_decay=1e-05,
)


А вот с DS:

import torch
from distributed_shampoo.distributed_shampoo import DistributedShampoo
from distributed_shampoo.shampoo_types import AdamGraftingConfig

model = instantiate_model()

optimizer = DistributedShampoo(
model.parameters(),
lr=0.001,
betas=(0.9, 0.999),
epsilon=1e-12,
weight_decay=1e-05,
max_preconditioner_dim=8192,
precondition_frequency=100,
use_decoupled_weight_decay=False,
grafting_config=AdamGraftingConfig(
beta2=0.999,
epsilon=1e-08,
),
)


Больше примеров и исходный код – здесь
👍72116❤‍🔥1
А вот и скандал вокруг Anthropic

Подобное не обходит ни одну большую компанию или стартап. Речь об оказании услуг заказчикам из сферы обороны. Говорят, что Anthropic объединяется с Palantir и AWS и планирует "поставлять" минобороне США ИИ.

Вообще, они такие не одни. Не так давно Meta* объявила о том, что они тоже делают свои модели доступными "партнерам из минобороны", а у OpenAI в совете по безопасности и вовсе сидит отставной генерал разведки (при этом слухи о том, что стартап на короткой ноге с военными ходят уже год).

Так что на Anthropic все обозлились скорее не из-за факта сотрудничества, а просто потому что обычно компания продвигает alignment и всевозможный safe AI, а такое поведение заставляет думать, что стартап отказывается от своих ценностей
🕊5810👍7😐7😁6🤯4👏1🌚1
Сегодня все обсуждают систему подтверждения IT-квалификации на Госуслугах. Говорят, в 2025 году сервис хотят интегрировать с HeadHunter.

А пока суть да дело, пора начинать готовиться, сами понимаете. Так что мы сложа руки не сидели, заслали шпионов, взломали систему и выяснили, какие вопросы будут задавать ML-щикам и Data Scientist'ам.

Предупреждаем: это сложнее, чем получить PhD. Тренируйтесь 🔼
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
😁158🔥17👍102🤯2🙈2