Forwarded from Data Secrets | Карьера
Андрей – яркий представитель сразу двух миров: индустрии и академии. Он кандидат технических наук, преподаватель ИТМО и руководитель ML в Одноклассниках. В VK Андрей пришел в 2019 году,а в 2023-м стал управлять разработкой всех ML-систем ОК (их ML-канал: @mlvok).
Мы спросили у него, какое место высшее образование занимает в ML. Нужно ли его получать? Повышает ли диплом шансы на оффер? Зачем действительно нужно учить математику и учиться вообще?
Ответы – в карточках. А если хотите поработать у Андрея в команде, то скорее переходите на наш сайт: там мы уже оставили подходящие вакансии.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍44❤🔥12🔥7🤔4😁2❤1
Но только для избранных пользователей. Им пришли письма от OpenAI. Остальных не пускают в тестирование даже по личному обращению на почту.
Радуемся, конечно, но не от всего сердца
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍38❤8🔥5🙈3
Завозим чтиво на ночь: Альтман написал в своем блоге лонгрид про будущее с ИИ
Называется «The Intelligence Age» и скорее напоминает интересное философское эссе про историю поколений, возможности человечества, образование наших детей с ИИ и все такое.
Среди прочего, кстати, затесалась интересная фраза: «It is possible that we will have superintelligence in a few thousand days (!)»…
А вообще, советуем прочитать полностью: у Альтмана явные задатки оратора (и лирика)🙂
Называется «The Intelligence Age» и скорее напоминает интересное философское эссе про историю поколений, возможности человечества, образование наших детей с ИИ и все такое.
Среди прочего, кстати, затесалась интересная фраза: «It is possible that we will have superintelligence in a few thousand days (!)»…
А вообще, советуем прочитать полностью: у Альтмана явные задатки оратора (и лирика)
Please open Telegram to view this post
VIEW IN TELEGRAM
❤38👍15🔥10😁4🌭3
Свершилось: OpenAI выпустили что-то в опенсорс 😯
Да, вы не ослышались. Правда, это конечно не веса o1, и даже не исходный код gpt-4o, а просто датасет MMMLU (Multilingual Massive Multitask Language Understanding).
Это известный MMLU, просто переведенный на 14 языков с помощью профессиональных переводчиков. Лицензия MIT. Доступен на HF.
Но OpenAI так раскошелились не просто так, а в честь открытия своей новой OpenAI Academy. Это программа, ориентированная на помощью разработчикам и бизнесу в развивающихся регионах в использовании ИИ.
Компания будет предлагать сообщество, помощь и обучение от экспертов OpenAI, депозиты на API на сумму от одного миллиона долларов, а еще проведение соревнований для поиска решения актуальных проблем.
Звучит пока что неплохо. Информации о том, как к программе присоединиться, пока нет, но обещают скоро раскрыть.
Да, вы не ослышались. Правда, это конечно не веса o1, и даже не исходный код gpt-4o, а просто датасет MMMLU (Multilingual Massive Multitask Language Understanding).
Это известный MMLU, просто переведенный на 14 языков с помощью профессиональных переводчиков. Лицензия MIT. Доступен на HF.
Но OpenAI так раскошелились не просто так, а в честь открытия своей новой OpenAI Academy. Это программа, ориентированная на помощью разработчикам и бизнесу в развивающихся регионах в использовании ИИ.
Компания будет предлагать сообщество, помощь и обучение от экспертов OpenAI, депозиты на API на сумму от одного миллиона долларов, а еще проведение соревнований для поиска решения актуальных проблем.
Звучит пока что неплохо. Информации о том, как к программе присоединиться, пока нет, но обещают скоро раскрыть.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍51❤17🔥8 5😁3🤯2
В Твиттере завирусилось исследование 1978 года о том, что врачи якобы не могут решить простую статистическую задачу
Она звучит так: "Если тест на выявление заболевания, распространенность которого составляет 1 из 1000, имеет false positive rate в 5%, какова вероятность того, что человек с положительным результатом на самом деле болен?".
Утверждается, что верный ответ – 2% (Из 1000 будет 1 больной и 50 человек с ложноположительным тестом -> 1/51 ~ 2%). Тот же ответ получается по теореме Байеса.
Однако так ответили только 2/10 медиков. Остальные давали ответ "95%", аргументируя это примерно так: "В задаче рассматривается не случайный человек из выборки, а только тот, который уже получил положительный результат теста. В таком случае, раз false positive rate = 5%, то вероятность наличия заболевания получается 95%".
Кстати, подобное исследование проводилось еще один раз в 2014 году. Вопрос задавали уже другой: "Представьте себе гипотетического бейсболиста. Он проваливает тест на наркотики, который точен на 95 процентов. Какова вероятность того, что бейсболист действительно виновен?".
И опять верный ответ дали только 14 из 61 опрошенных. А вы бы как ответили?
Она звучит так: "Если тест на выявление заболевания, распространенность которого составляет 1 из 1000, имеет false positive rate в 5%, какова вероятность того, что человек с положительным результатом на самом деле болен?".
Утверждается, что верный ответ – 2% (Из 1000 будет 1 больной и 50 человек с ложноположительным тестом -> 1/51 ~ 2%). Тот же ответ получается по теореме Байеса.
Однако так ответили только 2/10 медиков. Остальные давали ответ "95%", аргументируя это примерно так: "В задаче рассматривается не случайный человек из выборки, а только тот, который уже получил положительный результат теста. В таком случае, раз false positive rate = 5%, то вероятность наличия заболевания получается 95%".
Кстати, подобное исследование проводилось еще один раз в 2014 году. Вопрос задавали уже другой: "Представьте себе гипотетического бейсболиста. Он проваливает тест на наркотики, который точен на 95 процентов. Какова вероятность того, что бейсболист действительно виновен?".
И опять верный ответ дали только 14 из 61 опрошенных. А вы бы как ответили?
❤31🤔16👍9⚡6🗿6
Привет! Поучаствуете в нашем опросе? 😏
В какой среде удобнее всего работать с ipynb? Какие характеристики железа для ML-щика самые важные? Где взять GPU, если не хочешь попрощаться с тремя зарплатами?
Мы в команде Data Secrets, как и многие в DS сообществе, тоже задаемся этими вопросами, и поэтому проводим небольшое исследование на тему того, где русскоговорящие ML и DS специалисты (то есть вы, наши подписчики!) работают с ipynb, и какие у них при этом возникают боли.
Опрос состоит всего из 10 коротких вопросов и займет не более 5 минут. Переходите по ссылке и поделитесь своим опытом и мнением: https://forms.gle/Ev7MuAxLGMwGBeLU7.
Результатами мы обязательно поделимся!
В какой среде удобнее всего работать с ipynb? Какие характеристики железа для ML-щика самые важные? Где взять GPU, если не хочешь попрощаться с тремя зарплатами?
Мы в команде Data Secrets, как и многие в DS сообществе, тоже задаемся этими вопросами, и поэтому проводим небольшое исследование на тему того, где русскоговорящие ML и DS специалисты (то есть вы, наши подписчики!) работают с ipynb, и какие у них при этом возникают боли.
Опрос состоит всего из 10 коротких вопросов и займет не более 5 минут. Переходите по ссылке и поделитесь своим опытом и мнением: https://forms.gle/Ev7MuAxLGMwGBeLU7.
Результатами мы обязательно поделимся!
Please open Telegram to view this post
VIEW IN TELEGRAM
❤20👌8🤯5
Microsoft только что аннонсировали Сorrection – сервис для исправления галлюцинаций в ответах модели
В марте у компании появился сервис Groundedness detection, но он мог только обнаружить неточность в генерации, а не исправить ее. Сorrection – логичное продолжение этого проекта.
Пару слов из анонса о том, как correction работает: когда классификатор выявляет предложение или фразу, в которой LLM потенциально наврала, генерируется новый промпт, и с помощью RAG фраза проверяется на соответсвие базе знаний. Если модель в базе ничего похожего не найдет, то фраза просто удалится, а если найдет – то исправит.
Кстати, что-то похожее летом анонсировал Google, и тогда это вызвало целую волну обсуждений. Ос Кейес говорил, что пытаться удалить галлюцинации из LLM – это как пытаться удалить водород из воды: ведь модели не обучены говорить правду, они обучены предсказывать следующее слово. Иначе говоря, ответы модели — это не ответы, а всего лишь прогнозы того, как был бы дан ответ на вопрос, если бы он присутствовал в обучающей выборке.
Сейчас уже начались обсуждения того, что на самом деле Сorrection – вещь не просто бесполезная, но и опасная. Например, Майк Кук говорит так:
В марте у компании появился сервис Groundedness detection, но он мог только обнаружить неточность в генерации, а не исправить ее. Сorrection – логичное продолжение этого проекта.
Пару слов из анонса о том, как correction работает: когда классификатор выявляет предложение или фразу, в которой LLM потенциально наврала, генерируется новый промпт, и с помощью RAG фраза проверяется на соответсвие базе знаний. Если модель в базе ничего похожего не найдет, то фраза просто удалится, а если найдет – то исправит.
Кстати, что-то похожее летом анонсировал Google, и тогда это вызвало целую волну обсуждений. Ос Кейес говорил, что пытаться удалить галлюцинации из LLM – это как пытаться удалить водород из воды: ведь модели не обучены говорить правду, они обучены предсказывать следующее слово. Иначе говоря, ответы модели — это не ответы, а всего лишь прогнозы того, как был бы дан ответ на вопрос, если бы он присутствовал в обучающей выборке.
Сейчас уже начались обсуждения того, что на самом деле Сorrection – вещь не просто бесполезная, но и опасная. Например, Майк Кук говорит так:
"Функция может обнаружить некоторые ошибки, но она также может усыпить бдительность пользователей, заставив их думать, что модели оказываются правдивыми чаще, чем это есть на самом деле. Допустим, она даст 99% безопасности против 90% без нее. Но ведь проблема никогда не была в этих 9%. Она всегда будет в 1% ошибок, которые мы не обнаруживаем".
⚡36👍20🔥9🤔5😁3❤1
Media is too big
VIEW IN TELEGRAM
Advanced Voice в ChatGPT наконец-то здесь!
Обещают, что для всех Plus пользователей раскатят в течение недели. Кроме того, что показывали на презентации в мае, по прошествии четырех месяцев еще добавились несколько десятков языков, акценты, голоса, объединенная с чатами память и продвинутые пользовательские инструкции.
На некоторых, кстати, уже раскатили тест. Вот, например, пользователь делится тем, как ChatGPT настраивает его гитару👆
Обещают, что для всех Plus пользователей раскатят в течение недели. Кроме того, что показывали на презентации в мае, по прошествии четырех месяцев еще добавились несколько десятков языков, акценты, голоса, объединенная с чатами память и продвинутые пользовательские инструкции.
На некоторых, кстати, уже раскатили тест. Вот, например, пользователь делится тем, как ChatGPT настраивает его гитару
Please open Telegram to view this post
VIEW IN TELEGRAM
❤25👍14🔥11🤔2❤🔥1
Как работает ML в Авито: интервью с руководителями ведущих команд
Авито – это не просто доска объявлений. Почти во все процессы компании вшит ИИ. Модерация, рексис, автоматизация написания объявлений и ответов поддержки, эффективность монетизации...
Чтобы приоткрыть для вас капот этих процессов, мы поговорили с руководителями нескольких ведущих команд и написали статью. В ней вы найдете подробный технический рассказ о том, как в Авито работают LLM, рекомендации и алгоритмы продвижения объявлений.
Полезно и интересно будет всем, и новичкам, и опытным инженерам. Сохраняйте и читайте: https://datasecrets.ru/articles/15
Авито – это не просто доска объявлений. Почти во все процессы компании вшит ИИ. Модерация, рексис, автоматизация написания объявлений и ответов поддержки, эффективность монетизации...
Чтобы приоткрыть для вас капот этих процессов, мы поговорили с руководителями нескольких ведущих команд и написали статью. В ней вы найдете подробный технический рассказ о том, как в Авито работают LLM, рекомендации и алгоритмы продвижения объявлений.
Полезно и интересно будет всем, и новичкам, и опытным инженерам. Сохраняйте и читайте: https://datasecrets.ru/articles/15
👍31🔥14😁4🤯4
Проекты студентов Стэнфорда как отдельный вид искусства
Помните, недавно в Стэнфорде создали зеркало для arXiv, на котором можно в открытой форме обсуждать статьи? Так вот, проект до сих пор популярен в соцсетях, о нем говорят и им (самое главное!) пользуются.
Сейчас студенты и преподаватели продолжают тренд контрибьюта в инструменты для научного сообщества (скорее всего, такова активная политика университета) и выпустили крутой проект STORM для автоматизации этапа пре-райтинга статей.
Проект, кстати, не рассчитан на научные статьи, а скорее относится к разряду Wikipedia-like топиков (то есть на статьи без научной новизны). Цель состоит в том, чтобы упростить для авторов очень трудозатратный процесс сбора материалов и составления плана.
Самое интересное в этом проекте – это то, как он реализован. Это не просто один запрос к модели, а имитация разговора в стиле "вопрос-ответ" между двумя агентами. Один читает вики-статьи на похожие темы и задает по ним вопросы, а другой отвечает на них, основываясь на конкретных источниках, которые находит. Так составляется список референсов и одновременно формируется детальный план статьи.
Проект крутой, но в нем, к слову, еще не все идеально. Например, многие эксперты-люди отметили, что ИИ часто создает связи между несвязными фактами или берет ошибочные факты из непроверенных источников.
Помните, недавно в Стэнфорде создали зеркало для arXiv, на котором можно в открытой форме обсуждать статьи? Так вот, проект до сих пор популярен в соцсетях, о нем говорят и им (самое главное!) пользуются.
Сейчас студенты и преподаватели продолжают тренд контрибьюта в инструменты для научного сообщества (скорее всего, такова активная политика университета) и выпустили крутой проект STORM для автоматизации этапа пре-райтинга статей.
Проект, кстати, не рассчитан на научные статьи, а скорее относится к разряду Wikipedia-like топиков (то есть на статьи без научной новизны). Цель состоит в том, чтобы упростить для авторов очень трудозатратный процесс сбора материалов и составления плана.
Самое интересное в этом проекте – это то, как он реализован. Это не просто один запрос к модели, а имитация разговора в стиле "вопрос-ответ" между двумя агентами. Один читает вики-статьи на похожие темы и задает по ним вопросы, а другой отвечает на них, основываясь на конкретных источниках, которые находит. Так составляется список референсов и одновременно формируется детальный план статьи.
Проект крутой, но в нем, к слову, еще не все идеально. Например, многие эксперты-люди отметили, что ИИ часто создает связи между несвязными фактами или берет ошибочные факты из непроверенных источников.
👍41⚡11❤9🔥2🙈1