Супер прикладная лингвистика
850 subscribers
19 photos
3 files
58 links
Меня зовут Аня, я закончила магистратуру по прикладной лингвистике в Германии, и теперь учусь на PhD🦖 Рассказываю здесь об интересных исследованиях!
Download Telegram
У меня прошла первая неделя школы по компьютерной лингвистике в университете Штутгарта! И я в полном восторге! Программа школы идеально составлена, так как и теоретические, и прикладные, и компьютерные лингвисты узнают что-то новое! На первой неделе до обеда шел курс Eva-Maria Vecchi, на котором мы узнали всё от самых простых векторов до супер новых форм embeddings BERT, которые изменили не только область NLP, но и вообще о них все только и говорят!

А на курсе Nils Reiter после обеда мы узнали о механизмах machine learning для анализа текста, и даже попробовали сами улучшить модель decision trees. Мне было очень интересно всё это попробовать, и моя модель победила по accuracy. Я еще не умею программировать, и большую часть времени я потратила не на то, чтобы улучшить модель, а на то, чтобы зайти на сервер для того, чтобы модель могла обучиться на большом корпусе, и для того, чтобы отправить результаты моей лабораторной! Компьютерные лингвисты пробовали изменить код, тестировали разные опции, а я просто убрала features, которые мне показались не релевантными для обучения модели. Но вывод еще можно сделать, что machine learning очень непредсказуемая тема.

Если кого-то не интересует компьютерная лингвистика, то не обращайте внимание на это сообщение, но просто знайте, что компьютерные лингвисты без работы не останутся:) Для участников школы даже была организована встреча с представителями Bosch, Sony и IBM, где есть места для оплачиваемой практики и написания магистерских, бакалаврских работы, или даже три года можно там PhD писать. А для тех, кто интересуется компьютерной лингвистикой, советую зайти на сайт школы, перейти по ссылке на материалы курсов и посмотреть слайды лекций:) https://dgfs-clschool19.github.io/progra#embd-course
Отлично написано про самые новые методы того, как научить систему «понимать» значение слов!
«Смотря в каком контексте»: от word2vec к BERT

Специалист по дистрибутивной семантике, основатель сайта RusVectōrēs, докторант и сотрудник группы языковых технологий в университете Осло Андрей Кутузов рассказал на школе #fall4digital о том, почему мир переходит на контекстуализированные векторно-семантические модели (ELMo, BERT), а классический word2vec уже не в моде. Вот пересказ для тех, кто пропустил:

Дистрибутивные семантические модели — фундамент современных прикладных компьютерно-лингвистических систем. Старая идея о том, что значение слова может быть выражено через обобщение контекстов его употребления (это говорил еще Витгенштейн, а из лингвистов — Зеллиг Харрис и Джон Фирс), получила успешную реализацию в алгоритмах вроде word2vec — и в некотором смысле сделала лексическую семантику доступной машине. Когда исследователи научились получать контекстные вектора слова на достаточно больших корпусах, это подстегнуло и машинный перевод, и информационный поиск, и вопросно-ответные системы. Возможность взять семантические векторы и вычислить, что слово помидор близко к слову томат, но далеко от слова поминать, улучшило качество алгоритмов обработки и понимания естественного языка.

Однако даже самая идеальная дистрибутивная модель обладает врожденной проблемой. Обучившись раз, она сохраняет один статичный вектор каждого слова — и в процессе использования уже не может опираться на контекст. Эта проблема легко заметна в случае с многозначными словами (лук, рок, бот...). Попытки «расщепить» векторы многозначных слов в модели на несколько (например, AdaGram) оказались половинчатым решением...

И тут на сцену выходят контекстуализированные векторно-семантические модели — ELMo, а затем BERT. Такие модели обучаются строить вектор каждого слова с учетом контекста. Т.е. в них нет четко заданного вектора слова лук — он порождается в тот момент, когда на вход системе приходит предложение с этим словом. То, каким будет вектор лука, и как он будет относиться к словам чеснок или колчан, зависит от контекста: для предложения Выпустил стрелу из лука вектор будет совсем не таким, как для Зеленый лук растет на грядке.

Сегодня ELMo и BERT (особенно BERT) — это «новый черный» мира Natural Language Processing. Замена статической векторной модели на контекстуализированную приводит к повышению качества работы очень многих систем автоматической обработки языка.

#dhvoronovo
Ребята, вчера у меня был день рождения, и так как Германия на карантине, я в Инстаграм проводила live вечеринку про про изучение языков, про то, как дети учатся говорить и так далее:) Мой Инстаграм superannk! На вечеринку я сразу всех не звала, потому что стеснялась делать live, но получилось довольно интересно! Всё висит в моих сторис, заходите!
Всем привет, давно меня не было тут слышно:) Я создала Инстаграм аккаунт, где я сузила тему контента до изучения языков и билингвизма/мультилингвизма. Вчера выложила интересное видео на необычный исход усвоения языков ребёнка в ситуации мультилингвизма! Заходите в гости в инстаграм super.multi.language :) https://www.instagram.com/tv/CD1qW8uicWJ/?igshid=hf83ftbd0edr
Ребята, присоединяйтесь в клуб ученых-лингвистов в Clubhouse! Подписывайтесь на @superannk ! Давайте обсуждать наши проекты в области лингвистики, дискутировать о методах исследования и теориях! Очень жду встречи и знакомства со всеми:)
Вы занимаетесь научной деятельностью в области лингвистики?
Anonymous Poll
28%
Да 🙂
52%
Нет, но интересуюсь научными исследованиями в лингвистике 🙂
20%
Нет 🙂
Forwarded from Lingulinks
Когда маленькие дети начнают учить язык, они сначала вырабатывают то, что по-английски называется proto-lexicon, эдаким «дословарём». Они не понимают смысл (семантику) лексических единиц, но могут разделять поток речи на слова, и отличают слова этого языка от слов других языков.
Взрослые же обычно начинают учить язык «с нуля», когда им дают слова сразу с переводом.

В Новой Зеландии ситуация несколько иная: большинство населения там англоязычны, они не говорят на маори и не понимают его, но при этом постоянно слышат слова и фразы на маори в школе, во время разнообразных мероприятий и в других ситуациях; около половины топонимов — маорийские. В конце 2020 года в Nature было опубликовано первое в своём роде исследование, подтвердившее, что у не говорящих на маори новозеланд_ок формируется «дословарь». Они могут отличать настоящие маорийские слова от выдуманных не хуже носитель_ниц! При этом контрольная группа с людьми из США делала это намного хуже.

На иллюстрации видно, что оценки носитель_ниц (чёрная линия) почти полностью совпадают с оценками не говорящих на маори новозеланд_ок (красная линия) и совсем не совпадают с оценками не говорящих на маори американ_ок (жёлтая): https://i.imgur.com/WJfNRmn.png

Исследовательская группа заключила, что в среднем у не говорящих на маори новозеланд_ок в памяти уже было как минимум 1500 слов. Предварительное погружение в язык помогает его изучению, поэтому если собираетесь заняться каким-то языком, но пока на это нет сил или времени, слушайте на нём радио или смотрите кино с субтитрами; позже вы сможете активировать этот кусок памяти и обучение пойдёт веселее.

Также важность этого исследования в том, что оно показывает, что взрослые могут учить язык «детскими» методами, начав с погружения. Каким-то невероятным образом это до них никогда не исследовали.

Литература
* https://www.nature.com/articles/s41598-020-78810-4
This media is not supported in your browser
VIEW IN TELEGRAM
Мультилингвизм, мультикультурность, мультинациональность

Люди мыслят категориями с младенчества. Благодаря категоризации, дети понимают, что на сколько бы не были разными лица окружающих – это лица. Представьте, как по-разному выглядят наши улыбки? А грудной ребёнок может узнать улыбку на любом лице.

Усвоение языков также поддерживается созданием категорий. В системе восприятия ребенка создаются категории звуков, которые он часто слышит. Например, у ребёнка выросшего в русской среде, будет примерно 5 категорий гласных звуков, а у ребёнка, выросшего в немецкой среде около 15. Всё, что окружает ребёнка ведёт к тому, как выстраиваются категории в его сознании, в том числе и категории «свой»-«чужой».

Язык и лицо человека всегда были связаны с категориями «свой»-«чужой». В языке даже минимальное отклонение в речи собеседника может показать, что человек вырос в окружении другого языка. Потенциально, это может вести к тому, что собеседника мозг быстро отправит в категорию «чужого».

Если ребёнок с детства растёт в окружении многих языков/диалектов/акцентов, в его мозге уже нет категоричного разделения на «свой»-«чужой». Более того, владение каким-то языком не ведёт напрямую к связи с одной национальностью, потому что через языки и опыт, человек приобретает черты разных культур.

У би-мультилингвов есть и би-мультикультурность. Из-за этого, такие люди часто с трудом могут сказать, кто они по национальности. Билингвы с детства усваивают, что мир людей РАЗНООБРАЗНЫЙ, а не бинарный (свой/чужой). Раннее осознание разнообразия ведёт к толерантности, любви к разному и новому.

Внутри каждой из категории отдельной национальности заложены миллионы судеб и сотни мнений. Даже если мозг вперёд вашего сознания делает вывод «чужой», не поддавайтесь и поговорите с человеком, только диалог показывает «свой» или «чужой».

Я уверена, все и так это понимают, просто хотелось напомнить в это тяжёлое время. Хочется, чтобы какими бы разными мы ни были, мы всегда могли договориться. Я надеюсь, мой аккаунт вносит вклад в то, что больше людей будет ценить мультиязычие и мультикультурность. Это путь к толерантности и принятию разнообразия! ➡️ Мир 🌍
Мы давно не виделись с вами всеми на этом канале. Я в данный момент нахожусь в декретном отпуске ещё до октября 2022, в декрете пытаюсь дописать PhD диссертацию. Территориально я в Германии! Диссертацию писать очень хочется, но главным фокусом остаётся мой сын Леопольд:)
Здесь кто-нибудь есть у меня из области voice user interface/experience design? Если вас эта область интересует, слышали о ней, отправьте реакцию, а если работаете в этой сфере, напишите комментарий:)
Я раньше всем отказывала в рекламе канала, руководствуясь тем, что у меня только контент, который мне нравится и за который я отвечаю! Многие мне по несколько раз писали, и я не отвечала😣😖🥺

Сейчас я пересмотрела свою точку зрения на вопрос рекламы других, часто, маленьких новых каналов. Вдруг, кому-то из моих подписчиков тема какого-то канала очень заинтересует! Я предлагаю делать так: я пишу какую тему-пост, а вы в комментарии рассказываете о своих каналах, и я упоминаю ваши каналы тоже, если будет в тему и к слову! Многие сейчас начинают продвигаться через телеграмм, и я просто хочу помочь. Сэкономленные деньги за оплату рекламы вы можете перевести на счёт организации благотворительной, которой доверяете! Я поняла, что телеграмм с комментариями может стать отличным местом для собрания комьюнити и мнения по определенным вопросам. Например, в предыдущей теме откликнулась специалист/ка в области voice user interface design! Если у кого-то будут каналы по темам схожим с какими-то моими постами, рекламируйте себя в комментариях. Так вы можете найти клиентов, единомышленников, конкурентов, коллег. Как вам идея?

Конечно, такая политика канала предполагает, что я регулярно что-то посчу. С этим у меня проблемы, но посмотрим, как пойдёт:) Попробуем уже на этой неделе!
На сайтах про voice user interface/experience design очень хвалят этот подкаст. Я пока слушаю только конкретные эпизоды и часто перематываю, потому что мало узнаю нового. Но если кто-то только знакомится с этой сферой, очень должно обогатить ваши знания! Я этой областью уже давно увлекаюсь, но именно теоретически, для своей диссертации по Human-Computer Interaction.
Супер прикладная лингвистика pinned «Я раньше всем отказывала в рекламе канала, руководствуясь тем, что у меня только контент, который мне нравится и за который я отвечаю! Многие мне по несколько раз писали, и я не отвечала😣😖🥺 Сейчас я пересмотрела свою точку зрения на вопрос рекламы других…»