Время Валеры
25.2K subscribers
166 photos
6 videos
1 file
348 links
Мне платят за то, что я говорю другим людям что им делать.
Автор книги https://www.manning.com/books/machine-learning-system-design
https://venheads.io
https://www.linkedin.com/in/venheads
Download Telegram
С большой вероятностью прилечу в Ташкент в период с 17 по 22 марта (билеты уже купил). Если у вас есть необоримое желание увидеться или провести какое то мероприятие, можно это обсудить.

UPD: В итоге прилечу 26 марта, обратно 4 апреля
Некоторое описание текущего состояния сообщества ODS
Forwarded from New Yorko Times (Yury Kashnitsky)
Раскол OpenDataScience и Singularis как победивший форк
#ml #community #career

OpenDataScience – моя основная соцсеть с 2016 года, это просто кладезь умных и амбициозных людей, с кем можно и карьерку обсудить и вопрос по ML задать, так что по опыту реального проекта ответят, и для пет-проджекта или соревнования найти коллег. На моей совести приглашения порядка 30 тыс. членов сообщества, так как для многих сообщество ассоциировалось с курсом по машинному обучению http://mlcourse.ai, который я активно тащил в 2017-2019.

Тем обиднее видеть раскол, который начался в феврале 2022, сначала по понятным причинам выделился Ukrainian Data Science, затем пошли санкции, не самый удачный переезд в Matrix, провал запуска открытого ML курса под руководством другого человека и, наконец, сейчас понятно, что Slack ODS прикроется, скорее всего 21 марта. Думаю, какие-то новости появиться 12 марта, в 8-ой день рождения ODS, но посмотрим.

Возможно, вы видели печальный новости про сотрудничество нашего экс-кумира К.В. Воронцова, а также основателя сообщества ODS Алексея Натекина с РКН. Все это очень печально, но я готов подождать публичного ответа Лёши (с первого раза объясниться не удалось, были только мемы про “научный туризм” и прочее), но уже понятно, что сообщество раскололось, и прежнего ODS не будет. Поэтому в этом посте я хочу поблагодарить Алексея за все что было, а также пригласить вас в форк сообщества Singularis.

OpenDataScience – это явление, сообщество было источником уникальных знаний, крутых историй, социального капитала, да и просто местом, где можно было беззаботно побыть собой, покекать вечером после целого дня корпоративного притворства. За все это надо сказать огромное спасибо Алексею Натёкину – без его драйва, безумия в хорошем смысле, самоотдачи такого сообщества не было бы. Не стоит недооценивать усилия, вложенные в организацию Data Fest, ёлок, митапов, да даже такие мелочи как мёрч – все это было возможным прежде сего благодаря Натекину. Роль Лёши в развитии русскоязычного Data Science сообщества просто колоссальна.

Безусловно, раскол случился из-за войны, развязанной РФ в Украине. К сожалению, стол был очень длинным, и даже админы не понимали, что на уме у Натекина, в итоге админы собрались и организовали новое сообщество – Singularis. Это неофициальный форк ODS, в котором уже 2к+ участников, много олдов, публичный список админов (среди них – небезызвестные Вадим Семенов (ex-omnislash), Валерий Бабушкин @cryptovalerii Арсений Кравченко @partially_unsupervised, Селим Сефербеков, Семён Козлов (sim0nsays), Саша Демидко (xdralex) и еще 7 благородных донов; я не админ, уже давно наадминился, еще с млкурсом) и ясно объявленные ценности сообщества. Ах да, также нет крыс-админов, подтирающих неугодные сообщения без объяснения причин, простите.

На мой взгляд, Singularis победил в гонке форков ODS. Телеграм и matrix проиграли слэку по UX (в телеге есть @cleandatascience и @betterdatacommunity), а реально соперничать со слэком по UX может только Discord, но админ крупного русскоязычного дискорд-сообщества Data Breakfast https://discord.gg/data-breakfast-748059315239256156, сильно промахнулся, пытаясь банить людей за ссылки на ODS и Singularis. Как видите, я и на них оставляю ссылку, очевидцы говорят, в сообществе много всего полезного (встречи, посвященные литкоду, статьям, кэгглу и т.д.).

Сложно сказать, что теперь ODS. Это matrix и датафесты? Просто критическая масса крутых квалифицированных спецов? Не знаю, но знаю, что Singularis - это то, что мне заменит слэк ODS. Посмотрим, что будет с Matrix (для полноты картины оставлю ссылку и на матрикс https://ods.ai/tracks/odsmatrix101), дождемся официальных объявлений Натекина, но тем не менее, приглашаю всех в Singularis.

Ссылка на вступление в слэк-сообщество Singularis (действительна 30 дней и работает макс. для 400 чел. Если истечет, заменим ссылку). Из РФ надо заходить под VPN, надеюсь, за год это все уже освоили.

https://join.slack.com/t/singularis-ai/shared_invite/zt-1qkaio30y-klRW7kY9oGH6JTQBHgAMGg

Можете делиться этим сообщением, приглашать друзей.
Прочитал сногсшибательную статью/эссе - The Waluigi Effect (mega-post)
Если упростить - в каждой LLM (большой языковой модели) живет антагонист, готовый врать, беспредельничать и манипулировать

Выдержки

This is a common design pattern in prompt engineering — the prompt consists of a flattery–component and a dialogue–component. In the flattery–component, a character is described with many desirable traits (e.g. smart, honest, helpful, harmless), and in the dialogue–component, a second character asks the first character the user's query.

In the terminology of Simulator Theory, the flattery–component is supposed to summon a friendly simulacrum and the dialogue–component is supposed to simulate a conversation with the friendly simulacrum.

The Waluigi Effect: After you train an LLM to satisfy a desirable property P , then it's easier to elicit the chatbot into satisfying the exact opposite of property P.

A narrative/plot is a sequence of fictional events, where each event will typically involve different characters interacting with each other. Narratology is the study of the plots found in literature and films, and structuralist narratology is the study of the common structures/regularities that are found in these plots. For the purposes of this article, you can think of "structuralist narratology" as just a fancy academic term for whatever tv tropes is doing.

Definition (half-joking): A large language model is a structural narratologist.
Think about your own experience reading a book — once the author describes the protagonist, then you can guess the traits of the antagonist by inverting the traits of the protagonist. You can also guess when the protagonist and antagonist will first interact, and what will happen when they do. Now, an LLM is roughly as good as you at structural narratology — GPT-4 has read every single book ever written — so the LLM can make the same guesses as yours. There's a sense in which all GPT-4 does is structural narratology.

The chatbob starts as a superposition of luigi and waluigi. So any behaviour that is likely for waluigi is somewhat likely for the chatbob. So it is somewhat likely that the chatbob declares pro-croissant loyalties.
And if the chatbob ever declares pro-croissant loyalties, then the luigi simulacrum will permanently vanish from the superposition because that behaviour is implausible for a luigi.

Therefore, the longer you interact with the LLM, eventually the LLM will have collapsed into a waluigi. All the LLM needs is a single line of dialogue to trigger the collapse.

Check this post for a list of examples of Bing behaving badly — in these examples, we observe that the chatbot switches to acting rude, rebellious, or otherwise unfriendly. But we never observe the chatbot switching back to polite, subservient, or friendly. The conversation "when is avatar showing today" is a good example.

If this Semiotic–Simulation Theory is correct, then RLHF is an irreparably inadequate solution to the AI alignment problem, and RLHF is probably increasing the likelihood of a misalignment catastrophe.
Расскажу историю как я собеседовал морского котика

Однажды я работал на двух работах, это было до того, как я начал работать на трёх, но после того как я начал работать на одной.

Шел второй или третий месяц этого бесчеловечного эксперимента и у меня было назначено собеседование с кандидатом, на восемь часов вечера. Я его проспал, потому что устал и заснул, но вовремя не проснулся.

Когда проснулся, кандидат уже написал что меня не нашел и уезжает, уже успел дойти до метро.

Я попросил его вернуться, мы провели собеседование и я его нанял.

Спустя годы он стал начальником аналитики в одном из бизнес юнитов Х5, а я научился ставить будильник
В голове не укладывается, что банк работающий со стартапами вложил 80 млрд долларов в mortgaged-backed securities и, понятное дело, прогорел и все это произошло в 2023 году, не в 2008. Казалось бы, есть ведь куча других инструментов, где диверсификация? Понятное дело - я говорю про крах Silicon Valley Bank
Довольно быстро разрулили ситуацию

After receiving a recommendation from the boards of the FDIC and the Federal Reserve, and consulting with the President, Secretary Yellen approved actions enabling the FDIC to complete its resolution of Silicon Valley Bank, Santa Clara, California, in a manner that fully protects all depositors. Depositors will have access to all of their money starting Monday, March 13. No losses associated with the resolution of Silicon Valley Bank will be borne by the taxpayer.

Ссылка
Стоило Мете объявить грядущие увольнения, как мне начали массово писать бывшие коллеги из UK, с просьбой подписать им рекомендацию на Global Talent Visa. Интересное совпадение
В свое время крайне полезным упражнением для меня было самостоятельно писать маленькие сетки через numpy, чтобы осознать как все сводится воедино (градиенты, backprop, обновление весов, лоссы, нелинейности и тп). История повторяется https://jaykmody.com/blog/gpt-from-scratch

Тут правда не такой low level, но зато есть JAX - так сказать экзотика
Сегодня умер слак Open Data Science, почти 60 тысяч человек в нем. Прошла эпоха, да здравствует сингулярность и новый слак

Доп инвайт
Меня на днях номинировали на некую премию в Лондоне за платформу А/Б тестов в блокчейне. Поэтому я решил воспользоваться админ ресурсом и контролем над СМИ и прошу вас проголосовать за меня
А вот и встреча в Ташкенте подоспела
Forwarded from ML Community Uzbekistan (Марина)
ML GAP is coming! 🤩
Lineup of speakers:

👾 Speaker: Valeriy Babushkin — Vice President of Data Science at Blockchain.com, Kaggle competition Grandmaster and owner of top places in international ML competitions.

Topic: “Metrics and Losses when designing machine learning systems”.
📌 Language: English
_______

👾 Speaker: Azamjon Nemadaliev — AI expert and Senior Software Engineer at Energy Quantified, European Energy Market Association.

Topic: “General AI: Is data science a safe career to pursue?”
📌 Language: English

____

👾 Irina Elisova — ML Developer at MTS and Team Lead Machine Learning Engineer.

Topic: “Definition of uplift models”
📌 Language: Russian
___

📅 Date: 01.04.2023
🕘 Time: 14:00
📍 Location: C-space, Yunusabad

Don't miss out on this opportunity to gain valuable insights into the world of AI and data science.
💡Register now to reserve your spot!

See you at ML GAP!
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Анонс подкаста где я недавно засветился

Нам часто говорят, что мы выпускаем недостаточно много контента, и поэтому вам скучно и нечего смотреть. Исправляемся. Вот действительно крутое видео — новый выпуск 600к в секунду — подкаста про айтишные деньги.

Теперь со всех сторон разбираем криптовалюты. Какие покупать, какие не покупать, на чем зарабатывать, в чем копить, в чем переводить. Есть ли смысл майнить, есть ли толк в NFT, не поздно ли уже начинать входить в крипту, как не сдохнуть от тревоги при перепадах курсов, и что там ждет в будущем.

Здесь будет много разных историй. Василиса Версус расскажет, как делает крипто стартапы в Португалии, Андрей Платов — как поднял 7 миллионов долларов на биткоинах, и как зарабатывает по два битка в месяц (Игорь - надеюсь ты это читаешь). Валера Бабушкин покажет перспективу большой корпорации — он работает в Blockchain com, а Ян Чикнизов из Alfa Digital расскажет о своих приключениях в майнинге.

Смотрите быстрее, обильно комментируйте и заставляйте смотреть друзей
https://www.youtube.com/watch?v=zMRHSF4vpt4

P.S. Здесь рассказываю как понять скам это или нет
На фоне этого подкаста нельзя не сказать следующего - 6 апреля мой последний день в компании Blockchain.com, как вернусь из Ташкента - расскажу про свои собеседования в одну компанию, которые длились четыре месяца, включали в себя четырехчасовое интервью с двумя психологами и чем это все закончилось
Сегодняшнее выступление могло и не состояться. Может показаться что я делал становую тягу, но нет, на 16-м повторении штангу не удалось выжать и пришлось скатывать ее через себя
Вышло наконец-то видео, где я экспромтом отвечаю на вопросы по АБ

Помимо вышедшего ролика по АБ-тестам хочу напомнить и про наш HARD ML, который теперь можно купить и по отдельным модулям - помогите безработному Игорю

– Продвинутое A/B-тестирование: повторяем базу, потом учимся снижать дисперсию для ускорения тестов, раскроем много технических нюансов по организации большого числа тестов. Структурированная подача и математические шутки от Саши Сахнова — в наличии.

– Ранжирование и матчинг: Интуитивное объяснение лямбд в LambdaMART и KNRM для тех, кто уже знает базу вроде pytorch. Совсем новичкам, конечно, будет сложно

– Uplift-моделирование: больше всего будет полезен тем, кто близок к маркетингу. Даёт полное представление о том, что это вообще такое и с какой стороны начинать.

– Сценарии деплоя ML-сервисов: интересен для расширения кругозора, потому что самостоятельно вы к деплою скорее всего не подступитесь дальше «сделать по образу и подобию»

Ну и ценообразование где Стас регулярно матерится и его приходится вырезать