I’ll be back
247 subscribers
93 photos
11 videos
2 files
69 links
Лингвист в мире больших данных🤖
by @annaproff
Download Telegram
🤖 Дорогие друзья, напоминаю, что сегодня 16 апреля мы ждем всех на ФИЯР и онлайн на мероприятиях "Мастерской ИИ", которая состоится в рамках форума "Ломоносов-2024":

- 13.00 в ауд. 425 и по ссылке: мастер-класс к.п.н., преподавателя ВШП МГУ Тарасова А.А. «Разработка чат-бота с помощью DialogFlow»;
- 14.45 в ауд. 228 (только очно): дебаты "ИИ в образовании";
- 17.00 в ауд. 241 и онлайн по ссылке: открытая лекция лауреата 43 Конкурса научных работ молодых ученых МГУ имени М.В. Ломоносова, к.п.н., доцента ФИЯР МГУ Авраменко А.П. «Теоретические основы формирования индивидуальной траектории обучения иностранным языкам (посредством технологий ИИ)».

P.s. На своей лекции очень буду благодарна за вашу поддержку, т.к. не ожидала такой publicity аж с двумя видами афиш🙈🤪
6👏1🙈1
Дорогие друзья, на канале начался наш первый МК, вот обновленная ссылка на него: https://www.youtube.com/live/vX6PNl6a1IA?si=kSwON4uqhxw4XAeD
🔥2
Не без технических трудностей, но мы научились создавать ботов💪 например, Вы можете сказать hi новорожденному ботику https://console.dialogflow.com/api-client/demo/embedded/fb95774b-bce0-4c89-9910-dec40a0f9501 от Александры Николаевны Колесниковой❤️ ждем, когда он будет привязан к ТГ и будет учить нас фонетике🙏
3👍1
Делюсь выделенными нами в процессе дебатов плюсами и минусами ИИ в образовании👩‍🏫

P.s. Ждем всех через полчаса в 241 на финальное мероприятие нашей Мастерской ИИ, будет чай с печеньками☕️😉
5👍3🙈1
Дорогие друзья, благодарю всех за участие в нашей вчерашней «Мастерской ИИ»🙏🤝

Делюсь обещанными на лекции материалами для дополнительного чтения:

✔️ Брошюра по AI
✔️ Брошюра по NLP
✔️ Статья, с которой начались LLM

Запись лекции здесь📺
11👍1
Дорогие друзья, на слайде с одной недавней конференции методика корпусного исследования с тем, какое огромное количество информации о слове можно найти в НКРЯ.

P.s. А мы на этой неделе на парах будем обсуждать наши ИТОГОВЫЕ ПРОЕКТЫ с небольшими тоже корпусными исследованиями на основе тех инструментов, которые изучали в течение семестра - потому очень жду всех студентов на парах :)
Forwarded from СМУ ФИЯР
На ФИЯР запущена новая программа «Встреча с интересным человеком».

В четверг 25 апреля в 17.00 с нами встретится Максим Ильяхов, автор бестселлеров «Пиши, сокращай», «Ясно, понятно. Как доносить мысли и убеждать людей с помощью слов», «Текст по полочкам», «Новые правила деловой переписки».

Максим много лет работает с текстами и дает практические советы, как делать их более эффективными. Об этом и поговорим.

Встреча пройдет в онлайн формате. Регистрируйтесь по ссылке https://forms.gle/Pp6mTg1VwWogvxQG9
4
Forwarded from ИИ - И учить, И учиться! (Алексей Тарасов)
Прошлый вторник на ФИЯРе мы точно провели не зря, ведь на мастер-классе мы с коллегами задумали и почти сделали (признаюсь, потом еще полчаса доделывал 😉) самого настоящего работающего учебного бота. И назвали мы его по его главной функции - Spelling_bot. Приглашаю всех-всех его протестировать, а для тех, кто между уровнями A2-B2 - это уже сейчас вполне себе удобный автотест проверки навыков правописания на АЯ - опишет уровень spelling skills. Spelling_bot есть тут: https://clck.ru/3AGXQ6 (просто поприветствуйте его и все случится 😎) и в телеграме: @ENG_talker_bot. Если же вы захотите последовать нашему примеру, то можно сделать такого же или другого бота - запись мастер-класса в помощь: clck.ru/3AGWRv. А вот тут все полезные материалы, если хотите разобраться поглубже в чат-ботах: https://clck.ru/3AGWos
4
I’ll be back pinned Deleted message
OpenAI выкатили обновление ChatGPT с голосовым помощником😍 делюсь, на мой взгляд, наиболее исчерпывающим обзором.
7
Дорогие друзья, в этом году в рамках клуба «Лингвист в мире больших данных» мы впервые провели Хакатон корпусных проектов на базе ИИ🤖 после защит проектов анонимным голосованием были выбраны трое победителей из числа студентов 2-4 курсов (бак) и магистрантов, ими стали:

- Акритова Ольга с анализом статей по ономастике;
- Братчикова Мария с исследованием поэзии на немецком языке;
- Колесников Артем с проектом о лексике в произведениях Бажова.


Поздравляю победителей🎁 на нашей новой междисциплинарной магистерской программе будем значительно углубляться в потенциал ИИ для работы с текстами - см. описание в закрепе✌️😉🎓
1
Дорогие друзья, всем прекрасного лета☀️ ниже список доступных онлайн курсов по NLP🤓

А мы ждем всех желающих уже в сентябре на нашей новой междисциплинарной магистерской программе «ИИ для анализа текстов и генерации речи» - подробнее по ссылкам в закрепе✌️😉🎓
3
Forwarded from Kali Novskaya (Tatiana Shavrina)
🌸Бесплатные курсы по LLM🌸
#nlp #про_nlp

Небольшое обновление поста про бесплатные курсы NLP/LLM, на этот раз добавлю англоязычных материалов. Всё разбила на две группы: посложнее и поприкладнее-попроще.

🌸Для MLE:
Для курсов требуется английский, требуется Python, основы машинного обучения, базовая теория вероятности и статистика, линейная алгебра.

🟣CS224N: Natural Language Processing with Deep Learning
https://web.stanford.edu/class/cs224n/
Крутой стэнфордский курс, идет каждый год с обновлениями. В этом году впервые лекции решили не выкладывать на youtube, хотя остались в публичном доступе все лекции 2023 — их очень советую.

🟣Chris Manning — конспекты
https://web.stanford.edu/class/cs224n/readings/cs224n-self-attention-transformers-2023_draft.pdf
Преподаватель курса выше и один из самых успешных ученых, авторов исследовательских работ без большого компьюта (DPO, Backpack language models), Крис Маннинг все материалы лекций выкладывает в открытый доступ. По датам обновлений видно, что обновленные материалы -- для курса 2024 года, пользуйтесь! https://web.stanford.edu/class/cs224n/readings/

🟣Dan Jurafsky — Speech and Language Processing (3rd ed. draft)
Автор основного за последние 20 лет учебника по NLP, и тоже из Стэнфорда, Дэн Журафски продолжает выкладывать в открытый доступ новые главы учебника, постоянно обновляя старые. Это вообще практически единственная книга, которую можно прочитать целиком и уже иметь ключи к пониманию 80% происходящего в индустрии.
Последнее обновление учебника – 5 января 2024:
https://web.stanford.edu/~jurafsky/slpdraft/

🟣Transformers United
https://web.stanford.edu/class/cs25/prev_years/2023_winter/index.html
Второй по важности курс, чтобы понимать, что происходит — с общей направленностью на NLP, CV и мультимодальные модели.


🌸Курсы попроще
Требуется только английский и Python

🟣HuggingFace NLP Course
https://huggingface.co/learn/nlp-course/
Верхнеуровневый курс прикладной направленности, научит запускать инференс и тюнинг основных моделей, позволит примерно понять, что происходит внутри и какие параметры ставить для каких задач.

🟣Cohere LLM University
https://docs.cohere.com/docs/llmu
Все настроено, конечно, чтобы вас научить работать именно с продуктами Cohere, но сами по себе обзорные материалы неплохие. Из плюсов — есть Discord сообщество курса.

🟣Learn Prompting
https://learnprompting.org/docs/intro
Хороший дополняемый сборник лучших практик по промпт-инжинирингу, построению chain-of-thought, reasoning, построению ансамблей и систем проверки пайплайнов с промптами.
Please open Telegram to view this post
VIEW IN TELEGRAM
1
Всех с новым учебным годом💪🤓 хочу поделиться статейкой с возвращением к истокам «бенчмарков»: gpt4 vs Turing test )) меня заинтересовали параметры из графика 4, там все не так очевидно😉
4👍1
Дорогие коллеги, пока на осень мы запланировали три мероприятия клуба Лингвист в мире больших данных:

- 12 сент: МК по ИИ в исследованиях (в рамках конференции ФИЯР)
- 12 окт: МК по тому, как учится ИИ (в рамках Фестиваля науки)
- ⁠26 окт: МК для учителей про ИИ в преподавании ИЯ (в рамках форума учителей в МГУ)

То есть уже ЗАВТРА
12 сентября в 16.00
ждем всех в 439 на ФИЯР,
где обсудим Научный поиск в эпоху ИИ: инструменты и автоматизированные способы анализа текстов научных статей.

Участники МК ознакомятся с нейронками, работающими внутри баз данных цитирования; покритикуют «интеллектуальные» системы суммирования и пересказа научных текстов; получат ссылку на авторский код по выделению тенденций на корпусе из статей по интересующей тематике; ну а самые активные получат в подарок книгу🤓🎓
👍2🔥2
Forwarded from СМУ ФИЯР
Дорогие коллеги, Молодежная комиссия ОПК МГУ приглашает: Первый мастер-класс этого сезона открывает Анна Петровна Авраменко, к.пед.н., доцент факультета иностранных языков и регионоведения.

Общаемся на тему «Поиск и извлечение информации из научных статей: инструменты ИИ».
Вторник, 17 сентября, 18.00, онлайн формат.

Развиваемся с профсоюзом!

Регистрация по ссылке:
https://forms.gle/u5JCHaDVn61Ug2B89
Forwarded from Kali Novskaya
🌸OpenAI O1 — новый лидер LLM🌸
#nlp #про_nlp #nlp_papers

Как и обещала, разбираем новые результаты OpenAI: что произошло и что это значит?

TL;DR
12 сентября OpenAI зарелизили новую модель — О1 — вместе с описанием и подробными оценками перформанса модели в разных сложных задачах. Модель показывает огромный прирост качества в задачах, требующих рассуждений и знаний. Модель построена вокруг многоступенчатого рассуждения и механизмов self-reflection, chain-of-thought.

🌸Основные достижения и оценка
Несколько месяцев назад Сэм Альтман стал предлагать методологию оценки систем по уровням: школьник — аспирант — профессор — теперь эта система с нами надолго!

Модель показывает очень существенный прирост качества на задачах прохождения школьных и выпускных квалифиционных экзаменов (MMLU), бенчмарков на решение математических задач и кодинга. Прирост относительно метрик GPT-4o существенный: от 4 до 35%!

Некоторые задачи, например, MMLU College Mathematics, решены на 98+%!
Но добавлены и новые
процедры оценки, которые готовят нас к следующим релизам:
агентные оценки: оценки в степени автономности модели (пока низко), способности к убеждению (средне), оценки на применения в кибербезопасности (низкий риск), оценки катастрофических рисков ( а тут уже средний риск ой-ой).

При этом самих индустриальных агентных бенчмарков не дают, но думаю, сообщество скоро посчитает.
Доступа в интернет у превью модели нет.

Ну а теперь про последствия:

🌸Формат работы с LLM поменяется!

Если такой формат окажется востребован (а он окажется, но не во всех задачах — только в самых интеллектроемких), то некоторые вещи поменяются навсегда.

— Больше никакого промт-инжиниринга, "подумай шаг за шагом", "я дам тебе 10 долларов". Все это встраивается в ваш промпт за вас на бэкенде (так уже было с промптами Dalle 3 и у Anthropic), или вовсе встроено в процедуры SFT.
Модель уже сама додумывает, как лучше представить и дополнить ваш запрос, и затем исполняет его шаг за шагом.
— Полюбившиеся нам хаки и джейлбрейки тоже перестанут работать. У модели отдельные методы проверки на безопасность в режиме self-reflection.

🌸Формат обучения LLM и агентных систем тоже поменяется!

Если вместо большого претрейна собственной модели вы теперь только файнтюните Llama 3, то бог вам судья вы все делаете правильно. Но дальше — больше! По представленным результатам мы видим, что прирост качества от улучшения претрейна уже сатурировался, и если еще в этом году основной прирост приходился на вложения в качественный SFT, то теперь основной прирост бует приходиться на inference-time compute методы. DeepMind, к слову, делает то же самое.


🌸Ограничения

— Модель — экспериментальная, и нужно понимать, что это не продолжение работы над gpt4. Поэтому излишние рассуждения пока добавляются куда ни попадя (см скрин Сережи). Думаю, это вопрос времени, понять, в каких случаях рассуждения дольше 1-2 шага вообще необходимы.

— Митигация легальных рисков: в этот раз в самом начале статьи заявлено, что для обучения модели использованы нелегальные открытые данные, в том числе научные (читай: мы используем Anna's Archive), а также законные проприетарные данные, полученные в результате партнерств. Попробуйте поймайте!

🟣Playground https://platform.openai.com/playground/chat?models=o1-preview
🟣Score card https://cdn.openai.com/o1-system-card.pdf
Please open Telegram to view this post
VIEW IN TELEGRAM
В прошлые выходные на Фестивале науки мы с вызвавшим неоднозначную реакцию обновленным Оптимусом предложили коллегам поговорить о том, как обучаются большие языковые модели сегодня; и разумеется, говорили про мультимодальность данных цифрового дискурса (иными словами, на видео тоже учатся). Так вот в эти выходные предлагаю почитать интересную статью на эту тему☕️🍂
2👍1