Data Secrets
76.3K subscribers
5.81K photos
556 videos
20 files
2.27K links
Главный по машинному обучению

Сотрудничество: @veron_28

РКН: clck.ru/3FY3GN
Download Telegram
Data Secrets
AGI достигнут, расходимся v3
AGI достигнут, расходимся v4
😁222🔥22🤝10🌭4🙈3🤪21👏1
Вот куда Альтман тратит $10 млрд инвестиций: OpenAI приобрели новый домен

chat.com – это один из старейших доменов Интернета, он появился еще в 1996 году. В прошлом году он был куплен за $15.5 млн кофаундером HubSpot. Сколько за него заплатили OpenAI – не раскрывается. Но, вероятно, немало 🤑

Многие также пишут, что OpenAI купили ai.com. Но с этим доменом история долгая: он уже давно принадлежал OpenAI, а в 2023 его забрал Маск под X.ai. Прошлой зимой домен снова вернулся к Альтману: ходят слухи, что он предназначен для SORA.
Please open Telegram to view this post
VIEW IN TELEGRAM
😁543317👍133🤔3🦄3🔥1💘1
Data Secrets
Большая статья: какие альтернативы трансформерам у нас есть? "Трансформер - не просто очередной метод, а подход, который полностью изменил наш взгляд на ИИ. Нам очень повезло, что мы наткнулись именно на него в огромном пространстве алгоритмов", — Андрей…
Наша новая статья про тематическое моделирование и библиотеку BigARTM

Да-да, вторая статья за сутки, продуктивность наших редакторов на максимуме

Тематическое моделирование – это область современного NLP. Тематические модели используются в рекомендательных и поисковых системах, в компьютерном зрении, и даже в биологии.

Чтобы подробнее познакомить вас с этой областью, мы написали про нее большой разбор! И не одни... В соавторстве статьи Константин Воронцов – доктор физико-математических наук, преподаватель ШАД и МГУ, автор метода ARTM и создатель библиотеки BigARTM для тематического моделирования.

В статье вы найдете:

➡️объяснение ключевых концепций тематического моделирования
➡️математическую и интуитивную постановку задачи
➡️понятный разбор классических моделей PLSA и LDA, а также их недостатков
➡️подробное обсуждение метода ARTM
➡️и, конечно, практический гайд по построению тематической модели в библиотеке BigARTM

Скорее переходите на сайт и читайте! Уверены, вам точно понравится 🫡
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
23👍20🔥7🤯3😁2👀22🍓1
This media is not supported in your browser
VIEW IN TELEGRAM
🔥12🗿1
Data Secrets
Video message
Наш друг и коллега Саша Толмачев – CDO Ozon Fintech – приглашает подписчиков Data Secrets на стенд Озона на Матемаркетинг!

Подробности розыгрыша билетов на Data патибас здесь.
👍15🔥76🤯3
Facebook Research представили новую библиотеку optimizers

Этих ребят мы уважаем, – они подарили нам Faiss, Prophet и Pearl, а теперь подогнали еще и optimizers. Это новая библиотека с продвинутой реализацией оптимизаторов. Там есть привычные SGD, Adagrad, RMSProp и Adam, но реализованы они с помощью Distributed Shampoo.

Это означает, что все операции оптимизированы для тензорных пространств: за счет этого обучение в целом сходится быстрее. Наглядно 👇

Вот пример использования обычного Adam:

import torch
from torch.optim import Adam

model = instantiate_model()

optimizer = Adam(
model.parameters(),
lr=0.001,
betas=(0.9, 0.999),
eps=1e-08,
weight_decay=1e-05,
)


А вот с DS:

import torch
from distributed_shampoo.distributed_shampoo import DistributedShampoo
from distributed_shampoo.shampoo_types import AdamGraftingConfig

model = instantiate_model()

optimizer = DistributedShampoo(
model.parameters(),
lr=0.001,
betas=(0.9, 0.999),
epsilon=1e-12,
weight_decay=1e-05,
max_preconditioner_dim=8192,
precondition_frequency=100,
use_decoupled_weight_decay=False,
grafting_config=AdamGraftingConfig(
beta2=0.999,
epsilon=1e-08,
),
)


Больше примеров и исходный код – здесь
👍72116❤‍🔥1
А вот и скандал вокруг Anthropic

Подобное не обходит ни одну большую компанию или стартап. Речь об оказании услуг заказчикам из сферы обороны. Говорят, что Anthropic объединяется с Palantir и AWS и планирует "поставлять" минобороне США ИИ.

Вообще, они такие не одни. Не так давно Meta* объявила о том, что они тоже делают свои модели доступными "партнерам из минобороны", а у OpenAI в совете по безопасности и вовсе сидит отставной генерал разведки (при этом слухи о том, что стартап на короткой ноге с военными ходят уже год).

Так что на Anthropic все обозлились скорее не из-за факта сотрудничества, а просто потому что обычно компания продвигает alignment и всевозможный safe AI, а такое поведение заставляет думать, что стартап отказывается от своих ценностей
🕊5810👍7😐7😁6🤯4👏1🌚1
Сегодня все обсуждают систему подтверждения IT-квалификации на Госуслугах. Говорят, в 2025 году сервис хотят интегрировать с HeadHunter.

А пока суть да дело, пора начинать готовиться, сами понимаете. Так что мы сложа руки не сидели, заслали шпионов, взломали систему и выяснили, какие вопросы будут задавать ML-щикам и Data Scientist'ам.

Предупреждаем: это сложнее, чем получить PhD. Тренируйтесь 🔼
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
😁158🔥17👍102🤯2🙈2
Подобрали небольшой список статей по синтезу данных

Почти все ведущие исследователи считают, что будущее моделей – за синтетическими данными. Сейчас это одна из самых горячих тем ресерча. Подобрали вам список важных и интересных статей, которые стоит почитать, чтобы оставаться в теме.

➡️ Self-Play Fine-Tuning: из слабой языковой модели в сильную. Авторы предлагают новый метод для файтюнинга - SPIN, в основе которого лежит механизм самовоспроизведения, идейно напоминающий GAN: разные экземпляры моделей борются друг с другом. При этом LLM учится генерировать не только ответы, но и собственные обучающие данные, которые в процессе сравнивает с аннотациями человека.

➡️ Статья, которая объясняет, как заставить LLM использовать весь контекст. Ученые предлагают метод обучения под названием IN2: в нем большие тексты (4к-32к токенов) разбиваются на чанки (128 токенов), среди которых модель должна найти ответ на некоторый поставленный вопрос. Получается что-то вроде распостраненной задачи поиска иголки в стоге сена, при этом модель привыкает принимать во внимание не только начало или конец текста, но и все детали, содержащиеся в середине.

➡️ WizardLM – модель, позволяющая генерировать датасеты для файнтюнинга лучше, чем ChatGPT. Датасеты с инструкциями, которые используются на этапе файнтюнинга, люди часто создают вручную, потому что качество таких данных особенно важно, и они должны отвечать многим критериям. Эта статья о том, как можно такой процесс автоматизировать. По словам авторов, WizardLM превосходит не только "человеческие" сценарии, но и с лихвой опережает ChatGPT, который чаще всего используют для таких задач.
Please open Telegram to view this post
VIEW IN TELEGRAM
13👍10🔥9
Вот вам забавный график с утра: тут желтой линией обозначена динамика роста акций Nvidia, а голубой – биткоин

Think about it 💸
Please open Telegram to view this post
VIEW IN TELEGRAM
80👍21🌭8🔥5👾1