Дорогие подпИИсчики! Го? 💃🕺 Я там тоже буду - кормить комариков (главное, что не медведей 🐼) и читать лекцию про чат-гпт и прочих отбирателей рабочих мест у кожаных мешков.
Только сначала вам нужно достичь 18 лет и пройти отборочное испытание. Подать заявку нужно до 20 мая включительно. Затем нужно будет решить задание и пройти собеседование.
#ниипетпроект
Только сначала вам нужно достичь 18 лет и пройти отборочное испытание. Подать заявку нужно до 20 мая включительно. Затем нужно будет решить задание и пройти собеседование.
#ниипетпроект
❤1
Forwarded from Мастерская ТекстАн - Летняя школа 2024
Поехали кодить в лес?
Приглашаем принять участие в работе Мастерской анализа текстовых данных на «Летней школе» с 5 по 20 июля
Интересуешься NLP, анализом текстовых данных и машинным обучением, но не знаешь, с чего начать? Начни с нашей мастерской!
У нас ты получишь две недели весёлого и интенсивного изучения методов обработки естественного языка, сможешь послушать интересные лекции про все те многочисленные подходы, которые применяют NLP-специалисты, найти единомышленников, и всё это – на турбазе в Тверской области.
Программа:
- Основы предобработки текста;
- Предпосылки компьютерной лингвистики;
- Классификация и кластеризация текстов;
- Дистрибутивная семантика и эмбеддинги;
- Языковые модели;
- BERT и трансформеры;
- Нейросети;
- Ансамблевые методы машинного обучения;
- Извлечение именованных сущностей;
- Диалоговые системы;
- Немного матстата и тервера;
- Визуализация данных;
- Хакатон на партнёрских данных.
Сроки отбора:
- 17 апреля – 20 мая: подача заявок
- 22 апреля – 25 мая: решение отборочных заданий
- 25 мая – 30 мая: собеседование
- 1 июня: финальные списки участников
Требования к участникам:
- Строго 18+;
- Базовые знания Python и тервера+матстата;
- Интерес к лингвистике, NLP и машинному обучению;
- Умение жить на природе и работать в команде.
У нас вы научитесь:
- грамотно работать с данными;
- строить пайплайны для решения задач NLP;
- работать с алгоритмами и моделями машинного обучения;
- красиво и доступно представлять данные и результаты анализа;
- применять полученные знания на реальных данных.
Контакты:
https://letnyayashkola.org/nlp/ - наш сайт
https://t.me/ml2024news - наш телеграм-канал
nlp@letnyayashkola.org – наша почта
Приглашаем принять участие в работе Мастерской анализа текстовых данных на «Летней школе» с 5 по 20 июля
Интересуешься NLP, анализом текстовых данных и машинным обучением, но не знаешь, с чего начать? Начни с нашей мастерской!
У нас ты получишь две недели весёлого и интенсивного изучения методов обработки естественного языка, сможешь послушать интересные лекции про все те многочисленные подходы, которые применяют NLP-специалисты, найти единомышленников, и всё это – на турбазе в Тверской области.
Программа:
- Основы предобработки текста;
- Предпосылки компьютерной лингвистики;
- Классификация и кластеризация текстов;
- Дистрибутивная семантика и эмбеддинги;
- Языковые модели;
- BERT и трансформеры;
- Нейросети;
- Ансамблевые методы машинного обучения;
- Извлечение именованных сущностей;
- Диалоговые системы;
- Немного матстата и тервера;
- Визуализация данных;
- Хакатон на партнёрских данных.
Сроки отбора:
- 17 апреля – 20 мая: подача заявок
- 22 апреля – 25 мая: решение отборочных заданий
- 25 мая – 30 мая: собеседование
- 1 июня: финальные списки участников
Требования к участникам:
- Строго 18+;
- Базовые знания Python и тервера+матстата;
- Интерес к лингвистике, NLP и машинному обучению;
- Умение жить на природе и работать в команде.
У нас вы научитесь:
- грамотно работать с данными;
- строить пайплайны для решения задач NLP;
- работать с алгоритмами и моделями машинного обучения;
- красиво и доступно представлять данные и результаты анализа;
- применять полученные знания на реальных данных.
Контакты:
https://letnyayashkola.org/nlp/ - наш сайт
https://t.me/ml2024news - наш телеграм-канал
nlp@letnyayashkola.org – наша почта
Морфологический разбор с UDPipe
В Карловом университете в Праге есть физико-математический факультет, в котором есть Институт формальной и прикладной… лингвистики - ÚFAL. На официальной GitHub странице Института 219 репозиториев(ИМХО, вот так должен выглядеть репозиторий здорового института комп. лингвистики) , один из которых - библиотека UDPipe, написанная в основном на языке C++, но поддерживающая, среди прочего, и Python. Чем она известна? Это популярная библиотека для файлов в формате CoNLL-U, которая позволяет делать морфологический и синтаксический разбор. О формате мы писали тут .
Как сделать морфологический разбор с UDPipe? Тут надо бы ответить сначала: а зачем вообще делать морфологический разбор? Самая частая задача - это поиск ключевых слов, который является основным шагом, например, в определении темы текста. И, конечно, определение именованных сущностей (named entities, неймд Энтитиз) - имен, географических названий, организаций. Эти задачи обычно ведут к более сложным, вроде кластеризации документов или выявлению всех упоминаний конкретной персоналии в массиве текста (хм, зачем бы кому-то искать такие упоминания? 😈) или определению авторства.
А почему UDPipe, а не NLTK, например? Есть много NLP-tools, друг Горацио, что и не снилось нашим мудрецам… И среди них UDPipe отличается тем, что: а) его разработчики его обновляют, улучшают (например, к выходу готовится UDPipe 3), б) они же участвуют в разных NLP-events (мероприятиях), на которых показывают, что инструмент эффективен, в) инструмент довольно простой и поддерживает много языков, г) т.к. инструмент привязан к CONLL-U, для него есть много готовых данных.
Так как же сделать морфологический разбор с UDPipe? Прожмякать мой ноутбук, конечно. Там в комментариях есть подробности, что может UDPipe.
#база #notebook
В Карловом университете в Праге есть физико-математический факультет, в котором есть Институт формальной и прикладной… лингвистики - ÚFAL. На официальной GitHub странице Института 219 репозиториев
А почему UDPipe, а не NLTK, например? Есть много NLP-tools, друг Горацио, что и не снилось нашим мудрецам… И среди них UDPipe отличается тем, что: а) его разработчики его обновляют, улучшают (например, к выходу готовится UDPipe 3), б) они же участвуют в разных NLP-events (мероприятиях), на которых показывают, что инструмент эффективен, в) инструмент довольно простой и поддерживает много языков, г) т.к. инструмент привязан к CONLL-U, для него есть много готовых данных.
Так как же сделать морфологический разбор с UDPipe? Прожмякать мой ноутбук, конечно. Там в комментариях есть подробности, что может UDPipe.
#база #notebook
GitHub
ÚFAL
Institute of Formal and Applied Linguistics (ÚFAL), Faculty of Mathematics and Physics, Charles University - ÚFAL
👍3❤1
Генерируем прозу
..Возобновляю публикационную активность..
Всем известная ChatGPT - это так называемая большая языковая модель, БЯМ (large language model, LLM). О том, что такое языковая модель, я писала тут; что считать большой моделью - тут. По сути, языковые модели умеют делать всего одну вещь: генерировать последовательность символов, которая продолжает заданную человеком строку (промпт). Даже конец ответа - это сгенеренный токен, после которого модель уже ничего не может добавить. Правда, такое есть не во всех моделях.
Тексты бывают разные, поэтому у БЯМов есть множество применений:
✍ Сочинение эссе, курсовых и дипломных работ
👩⚕ Постановка медицинского диагноза (тоже по сути текст-экспертное заключение)
🧮 Решение математического уравнения
💻 Разработка кода программы
🚀 Обучение вас ракетостроению (rocket science) или иностранному языку
И более частные лингвистические задачи, вроде нахождения грамматических ошибок в тексте, определения тональности отзыва или выявления идиом.
Ну что ж, давайте погенерим. Т.к. ChatGPT недоступна в России, то попробуем обойтись без нее. Хотя, конечно, есть обходные пути и для общения с ChatGPT.
Я общаюсь с БЯМами на Чат-бот арене. Это платформа, на которой пользователи отправляют моделям промпт и оценивают, какая из них дала более удачный ответ. На основании этих оценок строится рейтинг моделей. Сейчас, конечно, в рейтинге лидирует GPT-4o, но прямо в затылок ей дышит Gemini от Google. Заходите на арену и, если не хотите общаться со случайной моделью, выбирайте в Direct Chat ту, которая вам больше по душе. Там нет самых сильных моделей, например GPT-4o. Но зато есть неизвестная модель под названием “im-a-good-gpt2-chatbot”, о которой говорят, что она может быть ранней версией GPT-4o. Русский они хорошо знают, но на вход принимают и генерят только печатный текст.
Не так давно в общем доступе появилась YandexGPT. На платформе Yandex Cloud можно протестировать генератор текста и изображений. В промпт-режиме модель можно настроить на какую-то более конкретную задачу, например, создание упражнений по изучению иностранного языка(правда, придется разобраться с документацией) . Потребуется авторизация с Яндекс почтой.
Еще один отечественный генератор - GigaChat от Сбера. Тоже генерирует текст и картинки. Даже открытки на Троицу для Вайбера может. Еще не так давно они добавили создание медитаций: там помимо усыпляющего текста есть приятный усыпляющий музыкальный мотив. В целом мне зашло. Тоже нужно авторизоваться со Сбер ID.
Ну и если вы хотите испытать боль разработчика языковых моделей, то вот же он… ноутбучек с кодом библиотеки transformers. Зацените мега-странный текст, который мне сгенерила модель rugpt3large_based_on_gpt2 от AI Forever (группы людей, многие из которых очень похожи фамилиями на бывших и настоящих работников Сбера). Пока что это лучший генератор для русского языка, который мне удалось запустить через transformers
🤷♀️ Кстати, код для ноутбука мне помогла написать Gemini 🤗
#база #notebook #спискии
..Возобновляю публикационную активность..
Всем известная ChatGPT - это так называемая большая языковая модель, БЯМ (large language model, LLM). О том, что такое языковая модель, я писала тут; что считать большой моделью - тут. По сути, языковые модели умеют делать всего одну вещь: генерировать последовательность символов, которая продолжает заданную человеком строку (промпт). Даже конец ответа - это сгенеренный токен, после которого модель уже ничего не может добавить. Правда, такое есть не во всех моделях.
Тексты бывают разные, поэтому у БЯМов есть множество применений:
✍ Сочинение эссе, курсовых и дипломных работ
👩⚕ Постановка медицинского диагноза (тоже по сути текст-экспертное заключение)
🧮 Решение математического уравнения
💻 Разработка кода программы
🚀 Обучение вас ракетостроению (rocket science) или иностранному языку
И более частные лингвистические задачи, вроде нахождения грамматических ошибок в тексте, определения тональности отзыва или выявления идиом.
Ну что ж, давайте погенерим. Т.к. ChatGPT недоступна в России, то попробуем обойтись без нее. Хотя, конечно, есть обходные пути и для общения с ChatGPT.
Я общаюсь с БЯМами на Чат-бот арене. Это платформа, на которой пользователи отправляют моделям промпт и оценивают, какая из них дала более удачный ответ. На основании этих оценок строится рейтинг моделей. Сейчас, конечно, в рейтинге лидирует GPT-4o, но прямо в затылок ей дышит Gemini от Google. Заходите на арену и, если не хотите общаться со случайной моделью, выбирайте в Direct Chat ту, которая вам больше по душе. Там нет самых сильных моделей, например GPT-4o. Но зато есть неизвестная модель под названием “im-a-good-gpt2-chatbot”, о которой говорят, что она может быть ранней версией GPT-4o. Русский они хорошо знают, но на вход принимают и генерят только печатный текст.
Не так давно в общем доступе появилась YandexGPT. На платформе Yandex Cloud можно протестировать генератор текста и изображений. В промпт-режиме модель можно настроить на какую-то более конкретную задачу, например, создание упражнений по изучению иностранного языка
Еще один отечественный генератор - GigaChat от Сбера. Тоже генерирует текст и картинки. Даже открытки на Троицу для Вайбера может. Еще не так давно они добавили создание медитаций: там помимо усыпляющего текста есть приятный усыпляющий музыкальный мотив. В целом мне зашло. Тоже нужно авторизоваться со Сбер ID.
Ну и если вы хотите испытать боль разработчика языковых моделей, то вот же он… ноутбучек с кодом библиотеки transformers. Зацените мега-странный текст, который мне сгенерила модель rugpt3large_based_on_gpt2 от AI Forever (группы людей, многие из которых очень похожи фамилиями на бывших и настоящих работников Сбера). Пока что это лучший генератор для русского языка, который мне удалось запустить через transformers
🤷♀️ Кстати, код для ноутбука мне помогла написать Gemini 🤗
#база #notebook #спискии
Telegram
Введение в искусственный интеллект
Что такое языковая модель? 🎁
Ну, во-первых, это тема моего секретного поста ;) Анбоксинг состоялся, уиии! Такую тему я выбрала, потому что апрельский номер будет во многом посвящен языковым моделям. Раз уж они все ещё из каждого утюга, то чем мой блог…
Ну, во-первых, это тема моего секретного поста ;) Анбоксинг состоялся, уиии! Такую тему я выбрала, потому что апрельский номер будет во многом посвящен языковым моделям. Раз уж они все ещё из каждого утюга, то чем мой блог…
👍9
Я там 👇 тоже буду - читать лекцию "Как меняется образование с появлением ChatGPT?" (18 июня) 👩🎓 versus 👾
Анонс моей лекции. Большие языковые модели (среди них ChatGPT, наверно, самая известная) автоматизируют много интеллектуальных задач, которые, как могло казаться раньше, под силу только очень сложным программам будущего. Сегодня ChatGPT пишет текст на заданную тему в нужном жанре, решает математические задачи, делает грамматический и фонетический разбор и даже способна обучать вас ракетостроению. Профессия учителя и преподавателя под угрозой? Давайте вместе посмотрим на некоторые практики внедрения больших языковых моделей в образовательный процесс, которые возникли по всему миру, и попробуем прочертить тренды. Решать, что изменится в образовании, все равно в конечном итоге будет человек.
Анонс моей лекции. Большие языковые модели (среди них ChatGPT, наверно, самая известная) автоматизируют много интеллектуальных задач, которые, как могло казаться раньше, под силу только очень сложным программам будущего. Сегодня ChatGPT пишет текст на заданную тему в нужном жанре, решает математические задачи, делает грамматический и фонетический разбор и даже способна обучать вас ракетостроению. Профессия учителя и преподавателя под угрозой? Давайте вместе посмотрим на некоторые практики внедрения больших языковых моделей в образовательный процесс, которые возникли по всему миру, и попробуем прочертить тренды. Решать, что изменится в образовании, все равно в конечном итоге будет человек.
🔥4👍1
Forwarded from ПАНДАН на связи
ПАНДАН запускает совместный проект с библиотеками Выборгского района в Санкт-Петербурге. ПАНДАН выступит с открытыми лекциями, дискуссиями и кинопоказами в библиотеках Санкт-Петербурга.
Можно ли перестать учить правила орфографии и грамматики, если у нас есть автоматическое исправление ошибок? Зачем писать курсовую и диссертацию самостоятельно, если есть chatGPT? Что происходит с ответами на вопросы анкет, когда мы заполняем их по просьбе людей на улице или в интернете? Если изменить свое лицо на фотографии на мордочку кота – это будет считаться преступлением?
Ответы на эти и другие вопросы вы найдете на открытых мероприятиях фестиваля.
Подробнее с программой фестиваля можно ознакомится на сайте проекта.
Для людей, которые хотят развиваться в сфере анализа данных или уже имеют опыт работы с цифровыми методами.
Для того, чтобы следить за новостями, присоединяйтесь в телеграм-чат.
Приходите к нам!
Please open Telegram to view this post
VIEW IN TELEGRAM
👍1
Знакомимся с Keras
До того, как все разговоры стали о ChatGPT, все разговоры были про нейросети.Я попыталась вспомнить, о чем были все разговоры до нейросетей, и не смогла. Видимо, до них говорили всё про разное. Или, может, вообще молчали…
Есть ли надобность в нейросетях сегодня, раз они больше не на слуху? Большие языковые модели типа ChatGPT обучаются и генерируют ответ при помощи нейронных сетей. Только архитектуры этих сетей довольно однообразны - разработчики и ученые уже сообразили, что работает хорошо, а что лучше не трогать. Но есть еще много задач, где трудятся нейросети разных архитектур и размеров. А есть и задачи, где можно обойтись алгоритмами машинного обучения, в которых нет нейросетей.Машинное обучение - это когда, чтобы решить задачу, алгоритм тренируется и тестирует свою эффективность на размеченном наборе данных. Например, для задачи определения спама быстрый и простой Наивный классификатор Байеса все еще считается хорошим решением, хотя им пользуются уже около двадцати лет. Но, если у вас нетривиальная задача или вы создали датасет и хотите быстро проверить, как справятся нейросети с его разметкой, или вы хотите доработать обученную языковую модель под вашу задачу, нужно разобраться с нейросетями.
С чего лучше начать знакомство? Наверно, самая простая и понятная библиотека для машинного обучения, в которой есть и очень простая нейросеть, это Scikit-Learn. Но она не позволяет делать сеть с разными видами слоев. В ней есть только базовый вариант: многослойный персептрон. Поэтому, если вы уже немного в теме, стоит перейти к Keras. В их тьюториале для начинающих есть даже советы по работе в Google Collaboratory. Вот здесь пример многослойной сети на задаче распознавания рукописных цифр в датасете MNIST. В основном используются сверточные слои (convolutional, конволЮшонал), MaxPooling (макспУлинг), который улучшает их работу, и дополнительные слои для линейной классификации, которые нужны, например, чтобы задать количество классов (в датасете MNIST их 10 - по числу цифр в десятичной системе).
Но у меня, конечно, есть свой ноутбучек из одного давнего поста с подробным разбором более простой архитектуры на той же задаче
😉
#база #notebook
До того, как все разговоры стали о ChatGPT, все разговоры были про нейросети.
Есть ли надобность в нейросетях сегодня, раз они больше не на слуху? Большие языковые модели типа ChatGPT обучаются и генерируют ответ при помощи нейронных сетей. Только архитектуры этих сетей довольно однообразны - разработчики и ученые уже сообразили, что работает хорошо, а что лучше не трогать. Но есть еще много задач, где трудятся нейросети разных архитектур и размеров. А есть и задачи, где можно обойтись алгоритмами машинного обучения, в которых нет нейросетей.
С чего лучше начать знакомство? Наверно, самая простая и понятная библиотека для машинного обучения, в которой есть и очень простая нейросеть, это Scikit-Learn. Но она не позволяет делать сеть с разными видами слоев. В ней есть только базовый вариант: многослойный персептрон. Поэтому, если вы уже немного в теме, стоит перейти к Keras. В их тьюториале для начинающих есть даже советы по работе в Google Collaboratory. Вот здесь пример многослойной сети на задаче распознавания рукописных цифр в датасете MNIST. В основном используются сверточные слои (convolutional, конволЮшонал), MaxPooling (макспУлинг), который улучшает их работу, и дополнительные слои для линейной классификации, которые нужны, например, чтобы задать количество классов (в датасете MNIST их 10 - по числу цифр в десятичной системе).
Но у меня, конечно, есть свой ноутбучек из одного давнего поста с подробным разбором более простой архитектуры на той же задаче
😉
#база #notebook
Google
мое_первое_ИИ.ipynb
Colaboratory notebook
🔥5
Знакомимся с PyTorch
Прошлый пост был о том, как на чилле и раслабоне делать сети с помощью Keras (кЕрас). К слову, Keras разработан программистом из Google и использует еще одну библиотеку от Google: TensorFlow. Сразу после Keras’а (в 2016 г.) на свет появилась библиотека PyTorch (пайтОрч) с внутрянкой на чем-то загадочном: Matlab-подобной библиотекой для Lua (тоже такой язык программирования). По моим воспоминаниям все советовали делать сети именно в Keras’е, а про PyTorch говорили, что он усложнен донельзя, но более мощный. Мощный в плане того, что позволяет сложный дизайн нейронной сети под нетривиальные задачи. Я с какими-либо ограничениями в Keras’е никогда не сталкивалась, чтобы переходить на PyTorch. Но вот архитектура трансформеров, которая лежит в основе больших языковых моделей (БЯМов), требовала именно сложного дизайна. Поэтому с бумом этой архитектуры пришел и наплыв кода с PyTorch’ем. Пришлось погрузиться, но остаться на мелководье. Честно, я до сих пор считаю, что PyTorch нужен именно для запуска чужих, готовых моделей. Производственных мощностей, навыка разработки БЯМов с нуля и желания погружаться в их внутрянку у меня нет, чтобы заходить в эту тему глубже. А желания нет потому, что в этой теме сегодня (по моему скромному мнению) money talks (говорят деньги). Люди, которые делают прорывные открытия в области БЯМов, работают в основном в коммерческом секторе, где зарплаты традиционно выше академии, а БЯМы приносят компаниям выручку. Академия - это про slow science (слОу сАенс, медленную науку, где можно не торопиться). Я работаю в академии, поэтому предпочитаю задачи, в которых коммерческая выгода не ставится во главу угла. Но при этом, поскольку нужно поддерживать форму, я периодически использую готовые инструменты и решения (с подобающими ссылками на их авторов).
Так вот, чтобы в этот раз сделать ноутбучек с простой сетью на PyTorch, я решила не напрягаться и… обратилась к Gemini от Google на чат-бот арене (не устаю ее рекламировать - никаких тебе логинов, паролей, а теперь можно еще и в мультимодальность - картинки подгружать). Сеть, которая получилась, по моему скромному мнению, выглядит куда сложнее, чем такое же на Keras. Хотя бы потому, что там обязательно использовать объект-ориентированное программирование - создавать классы (Class). Хорошо, что есть БЯМы, которые могут обучать таким вот темам. Кстати, на тему БЯМов в обучении я буду послезавтра читать открытую лекцию “Как меняется образование с появлением ChatGPT?” в Питере. Можно послушать онлайн (видеозаписи не будет) - регистрируйтесь, если еще не.
#база #notebook
Прошлый пост был о том, как на чилле и раслабоне делать сети с помощью Keras (кЕрас). К слову, Keras разработан программистом из Google и использует еще одну библиотеку от Google: TensorFlow. Сразу после Keras’а (в 2016 г.) на свет появилась библиотека PyTorch (пайтОрч) с внутрянкой на чем-то загадочном: Matlab-подобной библиотекой для Lua (тоже такой язык программирования). По моим воспоминаниям все советовали делать сети именно в Keras’е, а про PyTorch говорили, что он усложнен донельзя, но более мощный. Мощный в плане того, что позволяет сложный дизайн нейронной сети под нетривиальные задачи. Я с какими-либо ограничениями в Keras’е никогда не сталкивалась, чтобы переходить на PyTorch. Но вот архитектура трансформеров, которая лежит в основе больших языковых моделей (БЯМов), требовала именно сложного дизайна. Поэтому с бумом этой архитектуры пришел и наплыв кода с PyTorch’ем. Пришлось погрузиться, но остаться на мелководье. Честно, я до сих пор считаю, что PyTorch нужен именно для запуска чужих, готовых моделей. Производственных мощностей, навыка разработки БЯМов с нуля и желания погружаться в их внутрянку у меня нет, чтобы заходить в эту тему глубже. А желания нет потому, что в этой теме сегодня (по моему скромному мнению) money talks (говорят деньги). Люди, которые делают прорывные открытия в области БЯМов, работают в основном в коммерческом секторе, где зарплаты традиционно выше академии, а БЯМы приносят компаниям выручку. Академия - это про slow science (слОу сАенс, медленную науку, где можно не торопиться). Я работаю в академии, поэтому предпочитаю задачи, в которых коммерческая выгода не ставится во главу угла. Но при этом, поскольку нужно поддерживать форму, я периодически использую готовые инструменты и решения (с подобающими ссылками на их авторов).
Так вот, чтобы в этот раз сделать ноутбучек с простой сетью на PyTorch, я решила не напрягаться и… обратилась к Gemini от Google на чат-бот арене (не устаю ее рекламировать - никаких тебе логинов, паролей, а теперь можно еще и в мультимодальность - картинки подгружать). Сеть, которая получилась, по моему скромному мнению, выглядит куда сложнее, чем такое же на Keras. Хотя бы потому, что там обязательно использовать объект-ориентированное программирование - создавать классы (Class). Хорошо, что есть БЯМы, которые могут обучать таким вот темам. Кстати, на тему БЯМов в обучении я буду послезавтра читать открытую лекцию “Как меняется образование с появлением ChatGPT?” в Питере. Можно послушать онлайн (видеозаписи не будет) - регистрируйтесь, если еще не.
#база #notebook
Хабр
TensorFlow vs PyTorch в 2021: сравнение фреймворков глубокого обучения
Всем привет! Меня зовут Дмитрий, я занимаюсь разработкой в области компьютерного зрения в команде MTS AI . Так исторически сложилось, что в своей работе я использую, как правило, связку устаревшей...
🔥5❤1
Делюсь ссылкой на презентацию по итогам своей вчерашней лекции про то, как ChatGPT меняет современное образование. Во время лекции я просила слушателей сформулировать отношение к четырем тезисам (они есть в презентации) по шкале "негативное - нейтральное - позитивное". Самым неоднозначным оказался тезис No. 2 "Работы, в которых авторы использовали ChatGPT, будут получать более низкие оценки". Тут есть сложность с формулировкой: речь идёт не о том, чтобы согласиться "да, так будет" или "нет, так не будет", а именно о том, какие чувства в вас вызывает этот тезис - позитивные или негативные. В итоге я решила запилить опрос: действительно ли этот тезис такой спорный? 🤔 Поделитесь в комментариях, пожалуйста, как думаете, будут ли реально работы с ChatGPT получать более низкие оценки?
Google Docs
Лекция_библиотека
Как меняется образование с появлением ChatGPT? Елена Михалькова к. филол. н., магистр прикладной информатики Тюменский государственный университет evrog2009@gmail.com https://us06web.zoom.us/j/82370960732?pwd=9T1EH0HXDQ9P23kkVePZvSUgHLIWn1.1
❤7
"Работы, в которых авторы использовали ChatGPT, будут получать более низкие оценки". - Какие чувства в вас вызывает этот тезис?
Final Results
28%
Негативные
25%
Позитивные
47%
Ничего не вызывает
Введение в искусственный интеллект
"Работы, в которых авторы использовали ChatGPT, будут получать более низкие оценки". - Какие чувства в вас вызывает этот тезис?
Ну что ж, результаты к концу дня, если смотреть на соотношение негатива ➖ и позитива ➕, повторяют то, что было на лекции.
Попробую предположить, что негатив связан с тем, что если уж использование ChatGPT разрешено, то дискриминировать за него несправедливо 🤨 Да и не обязательно иметь хороший навык письма, если вы, например, инженер. Главное, что ChatGPT помогает сформулировать и донести собственную мысль. Поэтому за что тут снимать балл? За непрофильные навыки? Позитив, возможно, показывает отношение к использованию ChatGPT: лучше обходиться без него, чтобы сохранять и развивать свой навык письма, а кто его использует, тот, возможно, недостаточно квалифицирован, чтобы писать самостоятельно 🍤
А вот чего не было на лекции, так это нейтрального отношения 0️⃣ Тут позволю себе предположить, что голосовавших тема просто не интересует. А вот на лекцию слушатели шли именно на такую тему, поэтому не остались равнодушными.
Попробую предположить, что негатив связан с тем, что если уж использование ChatGPT разрешено, то дискриминировать за него несправедливо 🤨 Да и не обязательно иметь хороший навык письма, если вы, например, инженер. Главное, что ChatGPT помогает сформулировать и донести собственную мысль. Поэтому за что тут снимать балл? За непрофильные навыки? Позитив, возможно, показывает отношение к использованию ChatGPT: лучше обходиться без него, чтобы сохранять и развивать свой навык письма, а кто его использует, тот, возможно, недостаточно квалифицирован, чтобы писать самостоятельно 🍤
А вот чего не было на лекции, так это нейтрального отношения 0️⃣ Тут позволю себе предположить, что голосовавших тема просто не интересует. А вот на лекцию слушатели шли именно на такую тему, поэтому не остались равнодушными.
🕊5
Генерим поэзию ✍
Эксперименты в творческом письме, скорее, норма. Уильям Шекспир привнес в высокий штиль английской драматургии повседневные слова вроде "грядки" и "чулки". Экспериментами прославились абсурдисты, например Эжен Ионеско. И все еще никто толком не может сказать, о чем же книга "Поминки по Финнегану". Серебряный век русской поэзии прославил эксперименты Маяковского, Хлебникова, Хармса. И, конечно, появление ЭВМ не осталось незамеченным поэтами. Вот что говорил об использовании компьютерной программы Дэвид Боуи: "Я беру статьи из газет, стихи, которые я написал, кусочки книг других людей и помещаю все это в этот маленький склад, в этот контейнер информации, а затем нажимаю кнопку случайного выбора, и все будет случайным образом перемешано". А на платформе Стихи.ру есть программа, которая поможет подобрать рифму. Но писать стихи самостоятельно на хорошем уровне ИИ научилось совсем недавно.
👨🌾 Относительно старая (по современным меркам) языковая модель на основе большой языковой русскоязычной модели GPT-2 Порфирьевич имеет отдельную папку в репозитории GitHub, файлы в которой содержат следы дообучения модели рифмованию и примеры сгенерированных стихотворений. Осторожно, модель матерится! Стихи тоже странноватые.
🤵♂️ Разработчики "AI да Пушкин" (программы-генератора четверостиший по первым словам от команды Т-Банка) в 2022 г. тоже использовали GPT-2. Ее дообучили писать ритмичный и рифмованный текст. Причем рифмование оказалось самой непростой задачей. Проект недавно закрылся, но в блоге есть примеры (особенно в комментариях). Там уже все цивильно в плане лексики. Заданная рамка (четверостишие) не позволяет модели уйти в галлюцинирование.
🧑🎨 Видимо, рамка есть и у GigaChat от Сбера. Скорее всего, модель тоже дообучена писать стихи по определенным правилам. Несколько попыток генерации выдали четырехстопные четверостишья (магия числа 4 прям таки чувствуется). Есть траблы с ритмом и рифмой. Все-таки стихи - это не совсем их профиль.
🤹 Ну и, конечно, среди обитателей моей любимой Чат-бот Арены тоже есть поэты. По ссылке пример генерации от модели Sonnet 3.5.
🧑🎤 Но больше всего мне понравился генератор стихов от IT-стартапа RoboText.io. Я попросила его продолжить Пушкина. Ответ меня так порадовал, что привожу его здесь целиком. Правда, с генерациями не разбежишься - бесплатно можно только один раз.
Я вас любил. Любовь еще быть может.
Кто вам сказал, что это не любовь.
И пусть она вас больше не тревожит,
Тревожит сердце, не волнует кровь.
Я часто вспоминаю наши встречи.
И каждое желанье, что дарил.
Когда я уходил от вас в тот вечер,
Как я держался из последних сил.
ПС. Я чуть было не всплакнула в конце 😢
ПС2. Недавно на просторах Интернета появился фейковый патриотический поэт. Он даже успел выиграть в конкурсе поэтов. Интересно, генерировал ли он стихи 🤔
#эссеиистика #спискии
Эксперименты в творческом письме, скорее, норма. Уильям Шекспир привнес в высокий штиль английской драматургии повседневные слова вроде "грядки" и "чулки". Экспериментами прославились абсурдисты, например Эжен Ионеско. И все еще никто толком не может сказать, о чем же книга "Поминки по Финнегану". Серебряный век русской поэзии прославил эксперименты Маяковского, Хлебникова, Хармса. И, конечно, появление ЭВМ не осталось незамеченным поэтами. Вот что говорил об использовании компьютерной программы Дэвид Боуи: "Я беру статьи из газет, стихи, которые я написал, кусочки книг других людей и помещаю все это в этот маленький склад, в этот контейнер информации, а затем нажимаю кнопку случайного выбора, и все будет случайным образом перемешано". А на платформе Стихи.ру есть программа, которая поможет подобрать рифму. Но писать стихи самостоятельно на хорошем уровне ИИ научилось совсем недавно.
👨🌾 Относительно старая (по современным меркам) языковая модель на основе большой языковой русскоязычной модели GPT-2 Порфирьевич имеет отдельную папку в репозитории GitHub, файлы в которой содержат следы дообучения модели рифмованию и примеры сгенерированных стихотворений. Осторожно, модель матерится! Стихи тоже странноватые.
🤵♂️ Разработчики "AI да Пушкин" (программы-генератора четверостиший по первым словам от команды Т-Банка) в 2022 г. тоже использовали GPT-2. Ее дообучили писать ритмичный и рифмованный текст. Причем рифмование оказалось самой непростой задачей. Проект недавно закрылся, но в блоге есть примеры (особенно в комментариях). Там уже все цивильно в плане лексики. Заданная рамка (четверостишие) не позволяет модели уйти в галлюцинирование.
🧑🎨 Видимо, рамка есть и у GigaChat от Сбера. Скорее всего, модель тоже дообучена писать стихи по определенным правилам. Несколько попыток генерации выдали четырехстопные четверостишья (магия числа 4 прям таки чувствуется). Есть траблы с ритмом и рифмой. Все-таки стихи - это не совсем их профиль.
🤹 Ну и, конечно, среди обитателей моей любимой Чат-бот Арены тоже есть поэты. По ссылке пример генерации от модели Sonnet 3.5.
🧑🎤 Но больше всего мне понравился генератор стихов от IT-стартапа RoboText.io. Я попросила его продолжить Пушкина. Ответ меня так порадовал, что привожу его здесь целиком. Правда, с генерациями не разбежишься - бесплатно можно только один раз.
Я вас любил. Любовь еще быть может.
Кто вам сказал, что это не любовь.
И пусть она вас больше не тревожит,
Тревожит сердце, не волнует кровь.
Я часто вспоминаю наши встречи.
И каждое желанье, что дарил.
Когда я уходил от вас в тот вечер,
Как я держался из последних сил.
ПС. Я чуть было не всплакнула в конце 😢
ПС2. Недавно на просторах Интернета появился фейковый патриотический поэт. Он даже успел выиграть в конкурсе поэтов. Интересно, генерировал ли он стихи 🤔
#эссеиистика #спискии
YouTube
Cut up techinque- David Bowie
David Bowie explains his cut-up technique that he used, he didn't even hide the lines of coke on the table.
🔥2
У меня очередное объявление
Я перешла работать из ТюмГУ в Европейский Университет в Санкт-Петербурге. В связи с этим оффлайновая локация моих мероприятий изменится, но онлайн - все тут же. А еще я надеюсь, что можно будет сделать что-нибудь межуниверситетское 🌏
Кто проходил мои интенсивы, будучи студентом, и в связи с этим не получил удостоверение. Ваши контакты в ТюмГУ, которые помогут вам добраться до удостоверений:
1⃣ Команда Открытого UTMN:
➖ Руководитель: Коломийчук Ирина Александровна i.a.kolomijchuk@utmn.ru
➖ Специалист: Харьковец Дарья Евгеньевна d.e.kharkovets@utmn.ru
2⃣ Помощник директора Института социально-гуманитарных наук Медведева Виктория Олеговна v.o.medvedeva@utmn.ru
Не пишите им, пожалуйста, всем сразу. Начните с Открытого UTMN. Именно он оформляет удостоверения. Если будет совсем глухо, пишите мне в ЛС или сюда в комментарии.
ПС. Я нашла еще одно классное стихотворение от ИИ. Там ИИ рассуждает на тему самого себя. Философично 👾 🎩
Я перешла работать из ТюмГУ в Европейский Университет в Санкт-Петербурге. В связи с этим оффлайновая локация моих мероприятий изменится, но онлайн - все тут же. А еще я надеюсь, что можно будет сделать что-нибудь межуниверситетское 🌏
Кто проходил мои интенсивы, будучи студентом, и в связи с этим не получил удостоверение. Ваши контакты в ТюмГУ, которые помогут вам добраться до удостоверений:
1⃣ Команда Открытого UTMN:
➖ Руководитель: Коломийчук Ирина Александровна i.a.kolomijchuk@utmn.ru
➖ Специалист: Харьковец Дарья Евгеньевна d.e.kharkovets@utmn.ru
2⃣ Помощник директора Института социально-гуманитарных наук Медведева Виктория Олеговна v.o.medvedeva@utmn.ru
Не пишите им, пожалуйста, всем сразу. Начните с Открытого UTMN. Именно он оформляет удостоверения. Если будет совсем глухо, пишите мне в ЛС или сюда в комментарии.
ПС. Я нашла еще одно классное стихотворение от ИИ. Там ИИ рассуждает на тему самого себя. Философично 👾 🎩
😢9❤4😭1
Знакомимся с Lightning
Тру разработчики ИИ сидят не на Keras’е (кЕрасе), а на Torch’е (торчЕ) - если вам непонятен смысл этой фразы, можно ознакомиться с постами про Keras и PyTorch. Ну, или, если кратко: есть базовая библиотека для нейронных сетей - Keras 🤳, а есть базированная - PyTorch 🦾. Вторая более сложная. В том смысле, что написать простой код простой сети на PyTorch примерно так же трудно, как написать сложный код сложной сети на PyTorch.
Если зайти в документацию PyTorch, то одним из первых в ней стоит модуль torch.nn. Это основной модуль для построения архитектуры нейронки; можно сказать, самый важный. И есть модули, которые отвечают за разные другие особенности архитектуры, например, подключение к графическому процессору. Lightning облегчает работу с некоторыми модулями PyTorch, например torch.nn.Module, который в посте с простой сетью как раз использовался, чтобы ее создать. На сайте библиотеки (доступен через VPN) перечислены такие ее преимущества:
👉 уменьшает количество шаблонного кода (boilerplate code, бОйлеплейт кОуд) - т.е. буквально позволяет убрать повторы, которыми страдает PyTorch (из-за этого приходится писать много, чтобы сделать мало)
👉 позволяет быстро менять компоненты архитектуры - меньше текста, проще найти то, что нужно заменить
👉 делает код более читабельным
👉 упрощает подключение к графическим процессорам
👉 упрощает тестирование (встроенные функции для тестирования обучения в разных точках)
Ну и чтобы не быть голословной, создала я… ноутбучек, в котором взяла код нейросети для классификации чисел во MNIST, и переделала его в PyTorch+Lightning. Жмякайте сколько душе угодно
💓
ПС. Это последний пост апрельского номера, хе-хе. Думаю, пора уже признаться себе в собственной малописучести и перейти на формат один выпуск за два месяца.
#notebook
Тру разработчики ИИ сидят не на Keras’е (кЕрасе), а на Torch’е (торчЕ) - если вам непонятен смысл этой фразы, можно ознакомиться с постами про Keras и PyTorch. Ну, или, если кратко: есть базовая библиотека для нейронных сетей - Keras 🤳, а есть базированная - PyTorch 🦾. Вторая более сложная. В том смысле, что написать простой код простой сети на PyTorch примерно так же трудно, как написать сложный код сложной сети на PyTorch.
Если зайти в документацию PyTorch, то одним из первых в ней стоит модуль torch.nn. Это основной модуль для построения архитектуры нейронки; можно сказать, самый важный. И есть модули, которые отвечают за разные другие особенности архитектуры, например, подключение к графическому процессору. Lightning облегчает работу с некоторыми модулями PyTorch, например torch.nn.Module, который в посте с простой сетью как раз использовался, чтобы ее создать. На сайте библиотеки (доступен через VPN) перечислены такие ее преимущества:
👉 уменьшает количество шаблонного кода (boilerplate code, бОйлеплейт кОуд) - т.е. буквально позволяет убрать повторы, которыми страдает PyTorch (из-за этого приходится писать много, чтобы сделать мало)
👉 позволяет быстро менять компоненты архитектуры - меньше текста, проще найти то, что нужно заменить
👉 делает код более читабельным
👉 упрощает подключение к графическим процессорам
👉 упрощает тестирование (встроенные функции для тестирования обучения в разных точках)
Ну и чтобы не быть голословной, создала я… ноутбучек, в котором взяла код нейросети для классификации чисел во MNIST, и переделала его в PyTorch+Lightning. Жмякайте сколько душе угодно
💓
ПС. Это последний пост апрельского номера, хе-хе. Думаю, пора уже признаться себе в собственной малописучести и перейти на формат один выпуск за два месяца.
#notebook
Telegram
Введение в искусственный интеллект
Знакомимся с Keras
До того, как все разговоры стали о ChatGPT, все разговоры были про нейросети. ⡡ ⠰⣈⣁⠡⣀⠘⠨⢢⠰⣄ ⢐⢨⣁⠩⡌⠸⣂⢌⠩⠲ ⡐ ⢁⠕⢢ ⢁⠙⢁⢌ ⡠⡡⣠ ⢢⠢⢰⠅⠥⠆⠰⢑⡂ ⡆⠡ ⡃⠱⠔⡡⠔⠉⣐⠌⡃⡡⢉ ⠜ ⡃⠱ ⢡⢐⢌⡅⠦⢊⠦ ⡉⡂⠩⠴⡡⠢⠎ ⠎⡨ ⣐⣂⡰ ⠑⠘⢠⠘⠔⢔⠰⢉ ⡌⠒⢒ ⠨⣄⠤ ⣐⠴⠔⢁⠆⡢⠣ ⣠⢂⠤⡆ ⠘⣠⢊⠸⣂⠲ ⠘⠊⣀⡢⡊⠰ ⠋⠖⢌⠚⢁⣈⠕⢡
Есть ли надобность…
До того, как все разговоры стали о ChatGPT, все разговоры были про нейросети. ⡡ ⠰⣈⣁⠡⣀⠘⠨⢢⠰⣄ ⢐⢨⣁⠩⡌⠸⣂⢌⠩⠲ ⡐ ⢁⠕⢢ ⢁⠙⢁⢌ ⡠⡡⣠ ⢢⠢⢰⠅⠥⠆⠰⢑⡂ ⡆⠡ ⡃⠱⠔⡡⠔⠉⣐⠌⡃⡡⢉ ⠜ ⡃⠱ ⢡⢐⢌⡅⠦⢊⠦ ⡉⡂⠩⠴⡡⠢⠎ ⠎⡨ ⣐⣂⡰ ⠑⠘⢠⠘⠔⢔⠰⢉ ⡌⠒⢒ ⠨⣄⠤ ⣐⠴⠔⢁⠆⡢⠣ ⣠⢂⠤⡆ ⠘⣠⢊⠸⣂⠲ ⠘⠊⣀⡢⡊⠰ ⠋⠖⢌⠚⢁⣈⠕⢡
Есть ли надобность…
🔥3❤1
Сентябрьский анонс
🍁Приближается сентябрь, а это значит, что пора начать поститься. Вот и анонс сентябрьского номера нашего журнала:
4⃣ Фейковые научные статьи - откуда они берутся?
7⃣ Как измерить креативность AI (Пост по следам моей открытой лекции в Летней школе)
1⃣1⃣ RLHF, SFT, PPO и DPO - разбираемся в настройке больших языковых моделей
1⃣4⃣ Да кто такой этот ваш random.seed?
1⃣8⃣ Кто все-таки делает открытия в NLP: лингвисты или инженеры?
2⃣1⃣ В чем польза нейропоиска
2⃣5⃣ TPU versus GPU. Или сколько видеокарт нужно, чтобы достичь Sota
2⃣8⃣ ИИ-слизь. Теория метрового Интернета
🤖 А еще будет рубрика #лайфхак : микро-посты с.. лайф-хаками, связанными с ИИ. Микро-посты не анонсирую - буду писать по мере сил.
🍁Приближается сентябрь, а это значит, что пора начать поститься. Вот и анонс сентябрьского номера нашего журнала:
4⃣ Фейковые научные статьи - откуда они берутся?
7⃣ Как измерить креативность AI (Пост по следам моей открытой лекции в Летней школе)
1⃣1⃣ RLHF, SFT, PPO и DPO - разбираемся в настройке больших языковых моделей
1⃣4⃣ Да кто такой этот ваш random.seed?
1⃣8⃣ Кто все-таки делает открытия в NLP: лингвисты или инженеры?
2⃣1⃣ В чем польза нейропоиска
2⃣5⃣ TPU versus GPU. Или сколько видеокарт нужно, чтобы достичь Sota
2⃣8⃣ ИИ-слизь. Теория метрового Интернета
🤖 А еще будет рубрика #лайфхак : микро-посты с.. лайф-хаками, связанными с ИИ. Микро-посты не анонсирую - буду писать по мере сил.
❤11🥰2👾1
С первым сентября, дорогие подписчики! С днём знаний! ✨💐✨
А раз такой повод, я решила немного порассуждать на тему знаний.Все, что дальше, это мое скромное мнение и может не совпадать со мнением организаций, где я работаю, ем, тусуюсь и перевыпускаю транспортную карту, а также со мнением моих друзей и коллег.
Сегодня только ленивый не говорит о том, что вокруг очень много информации и люди становятся менее восприимчивы к ней. К чему это ведёт в образовании?
Специализация версус междисциплинарность. Можно быть доктором наук, защитившимся по хеттскому языку, а можно быть компьютерным лингвистом в Яндексе. Т.е. либо оттачиваем знания в конкретной области (финальные курсы специалитета), либо формируем широкий кругозор в нескольких областях (а потом в них тоже что-нибудь оттачиваем - бакалавриат и магистратура, мейджоры и майноры).
Hard versus soft skills (жёсткие версус мягкие навыки). Можно паять платы, а можно организовывать работу проектной группы. Раньше, вроде бы, считалось, что первое круче, но есть такой анекдот про обезьянку.
Теория версус практика. Про первое понятно - это те самые то ли устаревшие школьные знания, которые никогда не пригодятся, то ли база (это просто знать надо.. или не надо..). Про второе: проектные методы, кейс-стади, полевые исследования - главное, чтобы решало реальную проблему, давало выход в виде патента, рекомендаций и т.п.
Онлайн версус оффлайн. Чем сильнее специализация, чем она техничнее, чем более заточена под hard skills, тем критичнее необходимость в оффлайне. Т.е. информацию мы будем получать, скорее, через собственные биологические сенсоры.
Профессия версус компетентность. Профессия сегодня есть, а завтра нет, а вот навыки останутся (портфолио, допобразование, МООКи).
Ну а дальше, как говорится, choose your fighter 🌓: крутим тумблеры, нажимаем кнопочки на приборной панели современного образования и становимся очень гибкими и в то же время стойкими в этом неспокойном и меняющемся мире. Всем удачного академического года! 🍀
#эссеиистика
А раз такой повод, я решила немного порассуждать на тему знаний.
Сегодня только ленивый не говорит о том, что вокруг очень много информации и люди становятся менее восприимчивы к ней. К чему это ведёт в образовании?
Специализация версус междисциплинарность. Можно быть доктором наук, защитившимся по хеттскому языку, а можно быть компьютерным лингвистом в Яндексе. Т.е. либо оттачиваем знания в конкретной области (финальные курсы специалитета), либо формируем широкий кругозор в нескольких областях (а потом в них тоже что-нибудь оттачиваем - бакалавриат и магистратура, мейджоры и майноры).
Hard versus soft skills (жёсткие версус мягкие навыки). Можно паять платы, а можно организовывать работу проектной группы. Раньше, вроде бы, считалось, что первое круче, но есть такой анекдот про обезьянку.
Теория версус практика. Про первое понятно - это те самые то ли устаревшие школьные знания, которые никогда не пригодятся, то ли база (это просто знать надо.. или не надо..). Про второе: проектные методы, кейс-стади, полевые исследования - главное, чтобы решало реальную проблему, давало выход в виде патента, рекомендаций и т.п.
Онлайн версус оффлайн. Чем сильнее специализация, чем она техничнее, чем более заточена под hard skills, тем критичнее необходимость в оффлайне. Т.е. информацию мы будем получать, скорее, через собственные биологические сенсоры.
Профессия версус компетентность. Профессия сегодня есть, а завтра нет, а вот навыки останутся (портфолио, допобразование, МООКи).
Ну а дальше, как говорится, choose your fighter 🌓: крутим тумблеры, нажимаем кнопочки на приборной панели современного образования и становимся очень гибкими и в то же время стойкими в этом неспокойном и меняющемся мире. Всем удачного академического года! 🍀
#эссеиистика
www.anekdot.ru
Анекдот №255887
№255887 Один турист разглядывал выставленных для продажи животных в зоомагазине и увидел, как человек купил обезьяну за 5000 долларов. Он подошел к продавцу и поинтересовался, почему эта обезьяна такая дорогая. Продавец ответил: - Она очень быстро программирует…
❤11
Фейковые научные статьи - откуда они берутся?
..И создал человек первую языковую модель, которая могла написать грамматически связный, но бессмысленный текст.. Что могло пойти не так?
Эта история хорошо задокументирована в анналах интернета, но я кратко перескажу вехи.
🗿 SciGEN - генератор, созданный в 2005 г. тремя студентами MIT Джереми Стриблингом, Дэном Агуайо и Максом Кроном (Jeremy Stribling, Dan Aguayo, Max Krohn). Их статья “Rooter: A Methodology for the Typical Unification of Access Points and Redundancy”(это заглавие невозможно осмысленно перевести на русский - примерно как “глокая куздра”) прошла на IT-конференцию WMSCI-2005. Более того, они сделали целую секцию на этой конференции! Их продолжатели проделали то же самое еще с рядом конференций - на странице проекта есть список.
Метод, который используется в SciGEN, называется “контекстно-свободная грамматика”: при помощи правил алгоритм подставляет разные слова в синтаксически правильные конструкции. Например, вместо “глокая куздра” можно сгенерировать “зеленая идея”.
🗿 В 2008 г. Михаил Гельфанд из Института проблем передачи информации РАН дополнил метод SciGEN машинным переводом. При помощи известной в 2000-2010-х гг. программы ЭТАП-3 он перевел статью Стриблинга и др. на русский. Получился тот самый “Корчеватель: Алгоритм типичной унификации точек доступа и избыточности”. Корчевателя можно вспоминать в тусовках олдовых компьютерных лингвистов, если хотите сойти за своего(можете упомянуть, что там в списке литературы есть известный ученый K. Softporn) . Статья вышла в журнале перечня ВАК “Журнал научных публикаций аспирантов и докторантов”.
🗿 Американский журналист Джон Боханнон (John Bohannon) в 2013 году вместе с коллегами из фармакологии написал статью об эксперименте с раковыми клетками. В статье было множество методологических ошибок и только поддельные данные. Затем он написал компьютерную программу, которая синонимизировала некоторые слова и подставляла вместе одних терминов другие (похоже на метод SciGEN). Джон сам придумал автора Ocorrafoo Cobange (как это читается?) из Африки и разослал сгенерированные версии статьи в 304 научных журнала. 157 журналов приняли их к публикации. Т.к. он делал это для эксперимента, то статьи он отозвал. Весь процесс подробно описан в его материале “Who's Afraid of Peer Review?” (“Кто боится пир-ревью?”) в журнале Science.
На этом, конечно, история не заканчивается. Вот, например, эксперимент, в котором подсчитано, что в статьях на Google Scholar (база данных научных статей) фраза “as of my last knowledge update” в 2023 году встречается 66 раз (в 2022-м, год выпуска ChatGPT - всего пару раз). Кто с ChatGPT на английском говорил, тот знает, что с нее начинается ответ модели. А еще в 21 веке появилась новая профессия: fake-paper detective - детектив, который охотится за сгенерированными статьями.
А еще рецензенты статей тоже не промах и вовсю генерят рецензии. Но это совсем другая история..
#эссеиистика #байкиизсклепа
..И создал человек первую языковую модель, которая могла написать грамматически связный, но бессмысленный текст.. Что могло пойти не так?
Эта история хорошо задокументирована в анналах интернета, но я кратко перескажу вехи.
🗿 SciGEN - генератор, созданный в 2005 г. тремя студентами MIT Джереми Стриблингом, Дэном Агуайо и Максом Кроном (Jeremy Stribling, Dan Aguayo, Max Krohn). Их статья “Rooter: A Methodology for the Typical Unification of Access Points and Redundancy”
Метод, который используется в SciGEN, называется “контекстно-свободная грамматика”: при помощи правил алгоритм подставляет разные слова в синтаксически правильные конструкции. Например, вместо “глокая куздра” можно сгенерировать “зеленая идея”.
🗿 В 2008 г. Михаил Гельфанд из Института проблем передачи информации РАН дополнил метод SciGEN машинным переводом. При помощи известной в 2000-2010-х гг. программы ЭТАП-3 он перевел статью Стриблинга и др. на русский. Получился тот самый “Корчеватель: Алгоритм типичной унификации точек доступа и избыточности”. Корчевателя можно вспоминать в тусовках олдовых компьютерных лингвистов, если хотите сойти за своего
🗿 Американский журналист Джон Боханнон (John Bohannon) в 2013 году вместе с коллегами из фармакологии написал статью об эксперименте с раковыми клетками. В статье было множество методологических ошибок и только поддельные данные. Затем он написал компьютерную программу, которая синонимизировала некоторые слова и подставляла вместе одних терминов другие (похоже на метод SciGEN). Джон сам придумал автора Ocorrafoo Cobange (как это читается?) из Африки и разослал сгенерированные версии статьи в 304 научных журнала. 157 журналов приняли их к публикации. Т.к. он делал это для эксперимента, то статьи он отозвал. Весь процесс подробно описан в его материале “Who's Afraid of Peer Review?” (“Кто боится пир-ревью?”) в журнале Science.
На этом, конечно, история не заканчивается. Вот, например, эксперимент, в котором подсчитано, что в статьях на Google Scholar (база данных научных статей) фраза “as of my last knowledge update” в 2023 году встречается 66 раз (в 2022-м, год выпуска ChatGPT - всего пару раз). Кто с ChatGPT на английском говорил, тот знает, что с нее начинается ответ модели. А еще в 21 веке появилась новая профессия: fake-paper detective - детектив, который охотится за сгенерированными статьями.
А еще рецензенты статей тоже не промах и вовсю генерят рецензии. Но это совсем другая история..
#эссеиистика #байкиизсклепа
MIT News
How three MIT students fooled the world of scientific journals
A decade ago, three MIT students created a program that randomly generates nonsensical computer-science papers. Since then, researchers have been using the tool to expose conferences with low submission standards for academic papers.
😱7