Data Secrets
78.8K subscribers
6.42K photos
665 videos
20 files
2.7K links
Главный по машинному обучению

Сотрудничество: @veron_28

РКН: clck.ru/3FY3GN
Download Telegram
⚙️ Нужно ли высшее образование в ML? Отвечает руководитель машинного обучения ОК, AI VK – Андрей Кузнецов

Андрей – яркий представитель сразу двух миров: индустрии и академии. Он кандидат технических наук, преподаватель ИТМО и руководитель ML в Одноклассниках. В VK Андрей пришел в 2019 году,а в 2023-м стал управлять разработкой всех ML-систем ОК (их ML-канал: @mlvok).

Мы спросили у него, какое место высшее образование занимает в ML. Нужно ли его получать? Повышает ли диплом шансы на оффер? Зачем действительно нужно учить математику и учиться вообще?

Ответы – в карточках. А если хотите поработать у Андрея в команде, то скорее переходите на наш сайт: там мы уже оставили подходящие вакансии.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍44❤‍🔥12🔥7🤔4😁21
⚡️ Похоже, что новый голосовой режим ChatGPT после 4 месяцев ожидания наконец-то раскатят завтра

Но только для избранных пользователей. Им пришли письма от OpenAI. Остальных не пускают в тестирование даже по личному обращению на почту.

Радуемся, конечно, но не от всего сердца
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍388🔥5🙈3
Завозим чтиво на ночь: Альтман написал в своем блоге лонгрид про будущее с ИИ

Называется «The Intelligence Age» и скорее напоминает интересное философское эссе про историю поколений, возможности человечества, образование наших детей с ИИ и все такое.

Среди прочего, кстати, затесалась интересная фраза: «It is possible that we will have superintelligence in a few thousand days (!)»…

А вообще, советуем прочитать полностью: у Альтмана явные задатки оратора (и лирика) 🙂
Please open Telegram to view this post
VIEW IN TELEGRAM
38👍15🔥10😁4🌭3
Свершилось: OpenAI выпустили что-то в опенсорс 😯

Да, вы не ослышались. Правда, это конечно не веса o1, и даже не исходный код gpt-4o, а просто датасет MMMLU (Multilingual Massive Multitask Language Understanding).

Это известный MMLU, просто переведенный на 14 языков с помощью профессиональных переводчиков. Лицензия MIT. Доступен на HF.

Но OpenAI так раскошелились не просто так, а в честь открытия своей новой OpenAI Academy. Это программа, ориентированная на помощью разработчикам и бизнесу в развивающихся регионах в использовании ИИ.

Компания будет предлагать сообщество, помощь и обучение от экспертов OpenAI, депозиты на API на сумму от одного миллиона долларов, а еще проведение соревнований для поиска решения актуальных проблем.

Звучит пока что неплохо. Информации о том, как к программе присоединиться, пока нет, но обещают скоро раскрыть.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5117🔥85😁3🤯2
В Твиттере завирусилось исследование 1978 года о том, что врачи якобы не могут решить простую статистическую задачу

Она звучит так: "Если тест на выявление заболевания, распространенность которого составляет 1 из 1000, имеет false positive rate в 5%, какова вероятность того, что человек с положительным результатом на самом деле болен?".

Утверждается, что верный ответ – 2% (Из 1000 будет 1 больной и 50 человек с ложноположительным тестом -> 1/51 ~ 2%). Тот же ответ получается по теореме Байеса.

Однако так ответили только 2/10 медиков. Остальные давали ответ "95%", аргументируя это примерно так: "В задаче рассматривается не случайный человек из выборки, а только тот, который уже получил положительный результат теста. В таком случае, раз false positive rate = 5%, то вероятность наличия заболевания получается 95%".

Кстати, подобное исследование проводилось еще один раз в 2014 году. Вопрос задавали уже другой: "Представьте себе гипотетического бейсболиста. Он проваливает тест на наркотики, который точен на 95 процентов. Какова вероятность того, что бейсболист действительно виновен?".

И опять верный ответ дали только 14 из 61 опрошенных. А вы бы как ответили?
31🤔16👍96🗿6
Привет! Поучаствуете в нашем опросе? 😏

В какой среде удобнее всего работать с ipynb? Какие характеристики железа для ML-щика самые важные? Где взять GPU, если не хочешь попрощаться с тремя зарплатами?

Мы в команде Data Secrets, как и многие в DS сообществе, тоже задаемся этими вопросами, и поэтому проводим небольшое исследование на тему того, где русскоговорящие ML и DS специалисты (то есть вы, наши подписчики!) работают с ipynb, и какие у них при этом возникают боли.

Опрос состоит всего из 10 коротких вопросов и займет не более 5 минут. Переходите по ссылке и поделитесь своим опытом и мнением: https://forms.gle/Ev7MuAxLGMwGBeLU7.

Результатами мы обязательно поделимся!
Please open Telegram to view this post
VIEW IN TELEGRAM
20👌8🤯5
Microsoft только что аннонсировали Сorrection – сервис для исправления галлюцинаций в ответах модели

В марте у компании появился сервис Groundedness detection, но он мог только обнаружить неточность в генерации, а не исправить ее. Сorrection – логичное продолжение этого проекта.

Пару слов из анонса о том, как correction работает: когда классификатор выявляет предложение или фразу, в которой LLM потенциально наврала, генерируется новый промпт, и с помощью RAG фраза проверяется на соответсвие базе знаний. Если модель в базе ничего похожего не найдет, то фраза просто удалится, а если найдет – то исправит.

Кстати, что-то похожее летом анонсировал Google, и тогда это вызвало целую волну обсуждений. Ос Кейес говорил, что пытаться удалить галлюцинации из LLM – это как пытаться удалить водород из воды: ведь модели не обучены говорить правду, они обучены предсказывать следующее слово. Иначе говоря, ответы модели — это не ответы, а всего лишь прогнозы того, как был бы дан ответ на вопрос, если бы он присутствовал в обучающей выборке.

Сейчас уже начались обсуждения того, что на самом деле Сorrection – вещь не просто бесполезная, но и опасная. Например, Майк Кук говорит так:
"Функция может обнаружить некоторые ошибки, но она также может усыпить бдительность пользователей, заставив их думать, что модели оказываются правдивыми чаще, чем это есть на самом деле. Допустим, она даст 99% безопасности против 90% без нее. Но ведь проблема никогда не была в этих 9%. Она всегда будет в 1% ошибок, которые мы не обнаруживаем".
36👍20🔥9🤔5😁31
Media is too big
VIEW IN TELEGRAM
Advanced Voice в ChatGPT наконец-то здесь!

Обещают, что для всех Plus пользователей раскатят в течение недели. Кроме того, что показывали на презентации в мае, по прошествии четырех месяцев еще добавились несколько десятков языков, акценты, голоса, объединенная с чатами память и продвинутые пользовательские инструкции.

На некоторых, кстати, уже раскатили тест. Вот, например, пользователь делится тем, как ChatGPT настраивает его гитару 👆
Please open Telegram to view this post
VIEW IN TELEGRAM
25👍14🔥11🤔2❤‍🔥1
Как работает ML в Авито: интервью с руководителями ведущих команд

Авито – это не просто доска объявлений. Почти во все процессы компании вшит ИИ. Модерация, рексис, автоматизация написания объявлений и ответов поддержки, эффективность монетизации...

Чтобы приоткрыть для вас капот этих процессов, мы поговорили с руководителями нескольких ведущих команд и написали статью. В ней вы найдете подробный технический рассказ о том, как в Авито работают LLM, рекомендации и алгоритмы продвижения объявлений.

Полезно и интересно будет всем, и новичкам, и опытным инженерам. Сохраняйте и читайте: https://datasecrets.ru/articles/15
👍31🔥14😁4🤯4
Проекты студентов Стэнфорда как отдельный вид искусства

Помните, недавно в Стэнфорде создали зеркало для arXiv, на котором можно в открытой форме обсуждать статьи? Так вот, проект до сих пор популярен в соцсетях, о нем говорят и им (самое главное!) пользуются.

Сейчас студенты и преподаватели продолжают тренд контрибьюта в инструменты для научного сообщества (скорее всего, такова активная политика университета) и выпустили крутой проект STORM для автоматизации этапа пре-райтинга статей.

Проект, кстати, не рассчитан на научные статьи, а скорее относится к разряду Wikipedia-like топиков (то есть на статьи без научной новизны). Цель состоит в том, чтобы упростить для авторов очень трудозатратный процесс сбора материалов и составления плана.

Самое интересное в этом проекте – это то, как он реализован. Это не просто один запрос к модели, а имитация разговора в стиле "вопрос-ответ" между двумя агентами. Один читает вики-статьи на похожие темы и задает по ним вопросы, а другой отвечает на них, основываясь на конкретных источниках, которые находит. Так составляется список референсов и одновременно формируется детальный план статьи.

Проект крутой, но в нем, к слову, еще не все идеально. Например, многие эксперты-люди отметили, что ИИ часто создает связи между несвязными фактами или берет ошибочные факты из непроверенных источников.
👍41119🔥2🙈1