Компьютерные лингвисты в Питерской Вышке
174 subscribers
419 photos
8 videos
1 file
150 links
Магистерская программа «Языковые технологии в бизнесе и образовании». Балансируем на границе лингвистики и IT, верим в свой интеллект, прокачиваем — искусственный.

Сайт: https://spb.hse.ru/ma/language/
Мы в ВК: https://vk.com/public219849858
Download Telegram
Каких «русских медвежат» ждут в магистратуре?😎

Мы собрали всю информацию для участников олимпиад в одном месте.

Пояснение:
100 баллов = максимум баллов за вступительные испытания (конкурс портфолио).


🔵Необходимые документы для подачи олимпиадником заявления в магистратуру;
🔵Всё о конкурсе портфолио.

#поступление_2026 #поступление
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
5🔥3🎉3
«Загибай пальцы, если…»

Если вам знакомы эти люди, оставшиеся в истории лингвистики.

Мы представляем новую рубрику, где будем знакомить вас с разными уголками лингвистики и начнём — с корпусной, не способной существовать без больших коллективов, которым однажды довелось сложиться под руководством ярких представителей науки.

#лингвистика_в_лицах #полезное
43
Уникальный датасет для нейрореабилитации пациентов с нарушениями речи представили учёные Питерской Вышки на крупнейшей конференции по компьютерной лингвистике в Марокко 👏

Результат проекта исследователей Лаборатории языковой конвергенции поможет снять часть нагрузки с логопедов. Специалисты смогут проводить занятия с пациентами в полуавтоматическом режиме и точно отслеживать клиническую динамику. В будущем с помощью датасета будут проводить тренировки ИИ и создавать мультиязычные модели для более точной диагностики.
12👏6
УЧАСТНИКАМ И СЛУШАТЕЛЯМ

Близится время конференции, в связи с чем мы направляем вам важную информацию!

🌱Место встречи

Наб. канала Грибоедова, 123.

🌱Первый день конференции

— Регистрация: 16 апреля, 9:30 – 10:00
— Открытие и первые пленарные доклады: 10:00 – 12:10
— Начало работы секций: 12:30

🌱Для онлайн дискуссантов, участников, слушателей

В течение конференции будут доступны две ссылки:

1. Постоянная. Распространяется на все доклады, круглый стол и секции за исключением перечисленных ниже.

2. Для параллельных секций. Распространяется на секции:

— «По ту сторону “официального”»
— «По ту сторону языка: компьютерные методы»
— «По ту сторону языка: “классика” и эксперименты»
— «По ту сторону интернета»
— «По ту сторону игр: game studies»
— «По ту сторону социолингвистики»
— «По ту сторону устной речи».

Ссылки будут отправлены всем участникам и слушателям по индивидуальному запросу на почту

🌱Для внешних гостей (посетители не из НИУ ВШЭ)

По ссылке вы сможете зарегистрироваться для получения пропуска.

Дедлайн заполнения — 11 апреля, 23:59

При входе вас могут попросить предъявить паспорт. Пожалуйста, возьмите документ с собой.

Скоро увидимся,
Ваши филологи 💚
2👍1
Когда мы говорим, что машина «читает» текст, то на самом деле имеем в виду, что она лишь видит последовательность чисел, поэтому любые лишние символы или повторы она воспринимает как значимые сигналы. Если в данных остались, например, артефакты парсинга, модель будет отвлекаться на этот «шум» и не сможет уловить суть текста. Вместо того чтобы понимать смысл слов, она начнет искать закономерности в технических символах, что сильно снизит точность её прогнозов. Если же одинаковые данные встречаются в корпусе тысячи раз, модель не обучится обобщать, а просто запомнит ответы. Поэтому специалисты по компьютерной лингвистике тратят много времени, чтобы сделать данные «чистыми», позволяющими модели действительно понимать язык.

Обязательные этапы очистки текста:

✔️Очистка данных, нормализация и фильтрация. К этим шагам относятся очистка от HTML-тегов, спецсимволов и приведение всех слов к нижнему регистру и лемматизация. Особое внимание уделяется работе со стоп-словами (например, предлоги «в», «на», союзы «и», «а»).

✔️Дедупликация и деконтаминация. Если одни и те же данные встречаются в корпусе тысячи раз, модель начнет «заучивать» и выдавать их дословно, вместо того, чтобы строить живую речь. Но страшнее другое — контаминация, когда данные для тестирования модели случайно попадают в обучающую выборку. Представьте, что вам попался учебник по математике с ответами в конце. Вы обрадовались, запомнили ответы, сдали экзамен, но не научились решать задачи. Поэтому важно вырезать из обучающих текстов любые совпадения с «экзаменационными» наборами (бенчмарками), чтобы оценка модели была честной, а также удалять дубликаты для обеспечения разнообразия выборки.


Зачем это нужно?
🔵 Повышение точности: очищенные данные позволяют алгоритмам находить реальные закономерности.
🔵 Экономия ресурсов: меньший объем данных за счет удаления лишнего сокращает время обучения моделей и нагрузку на память.
🔵Единообразие: общей стандарт важен для корректного сравнения и классификации.

➡️Для тех, кто хочет глубже погрузиться в тему обработки естественного языка, — подборка материалов в блоге Яндекс.Практикума на Хабр.

#слово_дня #полезное
Please open Telegram to view this post
VIEW IN TELEGRAM
32🔥2
Дорогие друзья, 

👾 Приглашаем Вас на последнюю в этом учебном году лекцию Малого Факультета, на которой Вы узнаете, чем филология может быть полезна самым современным разработкам в области искусственного интеллекта!

💎 Прочитает её для Вас Виктория Игоревна Фирсанова — обладательница статуса лучшей преподавательницы НИУ ВШЭ в Санкт-Петербурге за 2024-2025 годы, двухкратная победительница конкурсов фонда Владимира Потанина и разработчица AI-систем для доступной среды.

Вот, что она пишет о предстоящем мероприятии:
«На лекции мы поговорим о том, почему лингвистика — новое золото. Вы узнаете, почему промпт-инжиниринг — искусство составления инструкций к искусственному интеллекту — не всегда про алгоритмы и программирование, а про фундаментальное языкознание, которое изучают в университете. Формальные грамматики, теория речевых актов, основы когнитивной лингвистики составляют арсенал современного лингвиста — мы поговорим о том, как знания из этих областей науки о языке применяются в разработке мультиагентных систем и даже опробуем пару приёмов на практике».


🕔 Время: среда, 15 апреля в 19:00. 
📍 Место: онлайн-платформа МТС Линк, ссылками на подключение мы будем делиться с Вами в личных сообщениях, поэтому... 
 
📤 Для посещения лекции просим заполнить форму: https://forms.yandex.ru/u/69de3192505690f0abe7844c
 
Объединяющий не только историков и филологов, но и технарей и гуманитариев, 
Ваш МИФ 🧡
3🕊2🔥1
В магистратуре вам придется собирать Лего😳

Разбираемся, что такое МагоЛего и каким образом вы можете составлять индивидуальную траекторию обучения на программе «Языковые технологии в бизнесе и образовании».

➡️Еще больше подробностей вы найдёте на сайте.

#поступление
2🔥2
Лаборатория языковой конвергенции приглашает на круглый стол «Языковые технологии для моделирования данных в междисциплинарных проектах: опыт молодых ученых»

📍Когда? 24 и 25 апреля
📍Где? наб. канала Грибоедова, 123А, ауд. 201 + онлайн
📍Как попасть? Регистрация для слушателей доступна по ссылке.

В обсуждении коллеги планируют охватить широкий круг вопросов, посвященных применению компьютерных методов, в том числе больших языковых моделей, в исследовательских и прикладных проектах.

🖇Подробную программу мероприятия оставили в комментариях к посту.

Изображение: Лаборатория языковой конвергенции
🔥52