Системный Блокъ
11.4K subscribers
300 photos
2 videos
1 file
1.02K links
«Системный Блокъ» — издание о цифровых технологиях в культуре, искусстве, образовании и обществе.

Финалист премии «Просветитель»

sysblok.ru
vk.com/sysblok
fb.com/sysblok
instagram.com/sysblok/

Присоединяйтесь к команде: sysblok.ru/join
Download Telegram
Больше, чем энциклопедия: Википедии 25 лет!

Сегодня исполняется 25 лет Википедии — децентрализованной энциклопедии, которую делают сотни тысяч энтузиастов по всему миру. Как она создавалась? Кто может редактировать статьи? Как Википедия защищается от сетевых вандалов и троллей? Какие альтернативы энциклопедии появлялись в разное время? Перечитываем наш материал ко дню рождения Википедии.

🖥️ Утопия и реальность

В 2001 году Википедию создавали как утопический проект, который бросал вызов самой каноничной на тот момент энциклопедии — «Британнике». Постепенно проект обзавелся редакторами и нашел партнеров среди университетов, музеев и библиотек. Так начал утверждаться авторитет Википедии, которая к началу 2010-х приобрела статус фактической энциклопедии интернета, войдя в топ-15 популярнейших веб-сайтов.

⌨️ Три уровня свободы

Хотя изначально писать и редактировать статьи мог любой желающий, руководство Википедии скоро устало от «троллей» и «вандалов», портящих статьи с анонимизированных IP-адресов Tor. Это привело к большой дискуссии о критериях «запретов» и «блокировок». В итоге википедисты разделили сообщество на три класса. Первый, имевший меньше всего привилегий, — те, кто назывался по своему IP-адресу. Второй — участники, имевшие свои личные аккаунты и известные под своими именами. Они могли добавлять и редактировать страницы с незначительными ограничениями. Третий — администраторы.

👨🏻‍💻 Ресурс для больших корпораций

Хотя природа Википедии — некоммерческая, такие корпорации, как Amazon, Apple и Google используют данные проекта для повышения ценности собственных продуктов. Даже модель ChatGPT частично обучалась на массиве данных Википедии. Поэтому сайт можно рассматривать как ресурс, который добывается и используется в качестве корпоративного товара.

О том, как это влияет на саму Википедию, а также об аналогах энциклопедии и предпосылках к их появлению, узнаете из полной версии статьи.

Время чтения: 15 минут.

🤖 «Системный Блокъ» @sysblok
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥21👍1510🤣3
Правда ли, что нейросети всего лишь «предсказывают слова»?

Говорят, большие языковые модели просто предсказывают следующий токен. Но тогда как они решают олимпиадные задачи, которых не было в интернете, и пишут работающий код по произвольному ТЗ?

Короткий ответ: в этом и есть главный парадокс современных LLM. Простая задача — продолжать текст — неожиданно приводит к появлению сложных навыков. Но есть и нюансы в обучении, которое давно уже не сводится к простому «предскажи следующее слово в тексте из википедии».

Изначально (на базовом этапе предобучения) модели действительно учат так: на вход — текст из интернета, на выход — наиболее вероятное продолжение. Кажется, что такая система должна лишь механически «собирать фразы» из обучающих данных. Но на практике модели, обученные на огромных корпусах, начинают обобщать знания.

Если модель видела тысячи математических задач, у неё формируется устойчивая связь между формулировкой и правильным ходом рассуждений. Даже если конкретной задачи не было в обучении, она может применить знакомую схему — почти так же, как это делает человек. Скорее всего, «новая» олимпиадная задача не такая уж и «новая». Ее автор тоже скомбинировал уже существующие идеи, примеры и методы. В этом смысле LLM делают то же самое — только в гораздо большем масштабе. При росте размеров моделей и разнообразия обучающих данных умение предсказывать следующий токен постепенно превращается в способность решать некоторые задачи пользователя.

Но важно учитывать и то, что модели типа ChatGPT не просто обучены на текстах, но и дообучены через RLHF (обучение с подкреплением от обратной связи человека). На этой стадии люди-тренеры общались с моделью и оценивали ее ответы. Эксперт по программированию оценивал ответы модели на программистские задачи, эксперт по физике — ответы на задачи по физике и т.п. Многое в ответах LLM можно и перепроверить автоматически — и заставить модель переучиваться даже без участия эксперта. Это тоже обучение с подкреплением, но более дешевое, чем RLHF. Такого вида обучения в новых моделях становится все больше.

Если хотите прочитать более подробный ответ, а заодно понять, почему модель умеет перемножать числа, но не может посчитать количество букв н в слове «нетленный‎», есть ли у нее самосознание и стоит ли бояться сверхразумного ИИ – переходите к полной версии материала.

Кстати, это новая часть нашего спецпроекта «ИИ-лайфхаки для вашей профессии», где мы рассказываем, как применять нейросети в реальных рабочих задачах.

🤖 «Системный Блокъ» @sysblok
Please open Telegram to view this post
VIEW IN TELEGRAM
43🔥23👏13👍5
Twitter и эпидемии: как социальные сети помогают изучать распространение болезни

Сегодня эпидемиологи могут заметить вспышку болезни еще до того, как появится официальная статистика, анализируя наши цифровые следы: что мы ищем в поисковиках, о чем пишем в соцсетях и какие места посещаем. Разбираемся, как работает интернет-эпидемиология.

🕵🏻‍♂️ Где искать эпидемиологические данные

Twitter (сейчас X) успел вдохновить множество эпидемиологических исследований благодаря огромному потоку постов и относительно открытой политике доступа к данным (в 2023 году она, увы, изменилась). Формат твитов идеально подходит для выявления ключевых тем (topic detection), а геотеги позволяют привязывать сообщения о симптомах к конкретным регионам и замечать необычные скопления жалоб. 

Другие платформы тоже могут пригодиться. Например, в начале пандемии COVID-19 покупатели стали оставлять больше негативных отзывов об ароматизированных свечах, возмущаясь, что они не пахнут.

🦠 Как найти в сети ранние признаки эпидемии

Идея проста: если в каком-то регионе люди массово начинают искать информацию о кашле, температуре и боли в горле или писать о симптомах в соцсетях, это может быть самым ранним сигналом о начале вспышки конкретного заболевания.

Еще в 2009 году исследователи выяснили, что число поисковых запросов в Google может отражать число людей, болеющих гриппом. А в 2020 году в разных провинциях Китая число «ковидных» поисковых запросов в и постов хорошо коррелировало с ежедневным приростом подтвержденных случаев.

Поисковые запросы помогают выявлять и совсем локальные вспышки — и даже определять их источник. Оказывается, с помощью агрегированных анонимных геоданных можно связать недавнее посещение конкретного кафе или ресторана с запросами, намекающими на отравление.

😷 Настоящее и будущее интернет-эпидемиологии

Две основные тенденции последних лет — объединение разнородных цифровых следов и применение ИИ для их анализа. Пандемия COVID-19 породила волну исследований, в которых используются не только уже упомянутые источники, но и travel-блоги, трафик Википедии, данные новостных сайтов, информация от носимых медицинских устройств и поисковые запросы врачей (например, такую статистику собирает предназначенный для специалистов сайт UpToDate).

Появились и системы, которые автоматически анализируют релевантные источники и постоянно ищут признаки новых вспышек. Оценить их работу можно по недавнему отчету о ранней детекции заболеваемости в африканских странах: EIOS (The Epidemic Intelligence from Open Sources, проект Всемирной организации здравоохранения) зарегистрировал 81% вспышек, информация о которых официально дошла до ВОЗ, из них 47,4% — до официального оповещения. 

Подробнее об истории, развитии и перспективах интернет-эпидемиологии узнаете из полной версии статьи.

Время чтения: 15,5 минут

🤖 «Системный Блокъ» @sysblok
Please open Telegram to view this post
VIEW IN TELEGRAM
23🔥17👏5🤔3
Еще чуть-чуть и прямо в Рай: цифровые ресурсы, посвященные творчеству Данте

Многие убеждены, что чтобы читать Данте, нужно быть одновременно историком, богословом и филологом. Сложная система аллегорий, исторические и библейские отсылки — все это создает ощущение, что произведение доступно лишь избранным.

Однако с Данте больше не нужно разбираться в одиночку. За последние 20 лет его наследие и тонны исследований оцифровали. Мы собрали подборку полезных ресурсов: от проекта, который поможет новичкам в знакомстве с «Божественной комедией», до более продвинутых цифровых инструментов, которые могут пригодиться исследователям.

🪾 Digital Dante для новичков

Это цифровое издание от Колумбийского университета по «Божественной комедии» с оригинальным текстом, двумя переводами, иллюстрациями, а также авторскими комментариями и видеолекциями от профессорки Теодолинды Баролини. По сути Digital Dante — это возможность полноценно пройти университетский курс по «Божественной комедии» в собственном темпе. Проект также включает раздел Intertextual Dante для визуализации связей с другими авторами.

😈 DanteSources для продвинутых

В отличие от предыдущего проекта DanteSources фокусируется на всем корпусе Данте. Это исследовательский инструмент, оцифровавший тысячи отсылок к 714 источникам во всех произведениях Данте. Все источники, на которые ссылался Данте, переведены в структурированный машиночитаемый формат. Это позволяет также анализировать характер и частоту цитирования и работать с данными как с базой. Вы сможете строить графики, например, чтобы увидеть, к каким авторам Данте чаще всего обращался в каждом трактате. Можно искать все отсылки к конкретному философу или поэту, а затем выгрузить результаты в CSV или JSON для своего исследования.

😇 Цифровые библиографии: DanteOnline и Dante Today

DanteOnline — база данных, которая содержит более тридцати тысяч записей научных работ о Данте, с расширенным поиском по категориям и ключевым словам и экспортом метаданных. Этот проект будет особенно полезен тем, кто всерьез занимается Данте или планирует внести свой вклад в изучение его творчества.

Нравятся мемы с знаменитыми кругами Ада? Тогда обратите внимание на проект Dante Today, который фокусируется на рецепции творчества Данте в различных областях от европейской литературы до музыки и видеоигр. Участники этого проекта собирают информацию об отсылках к произведениям Данте в искусстве и массовой культуре и создают целую карту рецепции Данте

О том, как использовать проекты для чтения или исследований, и о том, кого Данте цитировал в трактате «О монархии» чаще всего — Аристотеля, Вергилия или Фому Аквинского (спойлер: не Вергилия!), прочитаете в полной версии статьи.

Время чтения: 11,5 минут

🤖 «Системный Блокъ» @sysbloksupportbot
Please open Telegram to view this post
VIEW IN TELEGRAM
❤‍🔥33😇19😈115🥰5🦄3👀2🆒2
Брюхоногие моллюски, эндоскопия и Пушкин: как сделать языковой корпус репрезентативным

Языковой корпус в современном понимании — это сообрание текстов в электронном виде, которое позволяет исследовать язык или группу текстов с помощью поиска и статистического анализа. Рассказываем, что важно учитывать при создании такого корпуса и как в заголовок проникли моллюски и эндоскопия.

Как собирают корпус?


Корпусы бывают очень разные по своему размеру, содержанию, целям существования и инструментарию, Корпуса радиопередач Бостонского университета до Подкорпуса берестяных грамот. При этом вне зависимости от целей и инструментария корпуса важно, чтобы он был репрезентативным, так что важно изначально отобрать оптимальные тексты в оптимальном объеме.

Допустим, мы хотим добавить в корпус естественнонаучные тексты. Интуитивно кажется, что надо просто собрать полные тексты всех подходящих по тематике публикаций, но всё не так просто. Представим, что в выборке нам попадается монография о брюхоногих моллюсках. В этой монографии сотни раз встречается название одного из них — букцинум. И вот частотность этого слова в нашем корпусе уже взлетает в разы относительно «реальной» частотности букцинумов в языке. Поэтому принято брать из каждого конкретного текста какое-то абсолютное число слов: например, при создании Британского национального корпуса брали по 40 000 слов из каждой книги.

Значит, надо равняться на Британский национальный корпус?

Почти… при его составлении «проблема моллюсков» всё равно настигла лексикографов. Для периодических изданий, в отличие от книг, они не стали ставить ограничение объема в 40 000 слов, посчитав, что журналы состоят из неоднородных текстов и в них не так много повторяющейся лексики. Одним из выбранных для включения в корпус стал научный «Журнал гастроэнтерологии и гепатологии»… 713 000 слов из журнала составили 0,7% корпуса и обеспечили словам пептид и эндоскопия места в топе-3000 по частотности в английском языке. Решение, впрочем, было несложным: их удалили из рассмотрения вручную.

Каким же должен быть корпус?


В общем случае в корпусе должно быть много разных жанров и стилей. Корпус должен учитывать особенности разных модальностей использования языка и существование разных групп говорящих и представлять самую широкую возможную картину. Для этого нужно определить интересующие нас типы текстов, распределить их по категориям и отобрать в каждую нужное количество данных. Внутри этих категорий должен быть баланс между связностью выбранных фрагментов, их максимальным разнообразием и минимальным объемом.

Подробнее о том, какие корпуса существуют, как они разрабатывались и почему, однажды встретив Пушкина в тексте, вы вероятнее всего встретите его снова (помните, вы уже виделись с ним в заголовке?), узнаете из полной версии статьи.

Время чтения: 11 минут

🤖 «Системный Блокъ» @sysblok
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥19🤓8🐳7🦄2😁1
О дивный «Новый мир»: что показывает сетевой анализ советских толстых журналов

Эпоха оттепели была временем расцвета журналов — «Знамя», «Молодая гвардия», «Новый мир» и «Юность» стали голосом времени. Как так вышло? Кто и где печатался? И в каком журнале важное место занимали темы России и… хлеба? Выясняем в новой статье.

📚 Почему все взялись за журналы?

Во-первых, в условиях командной экономики и отсутствия свободного книжного рынка именно толстые журналы стали главным источником новых произведений и идей. Во-вторых, смягчилась цензура и журналы получили относительную автономию. Публикация «Одного дня Ивана Денисовича» в «Новом мире», например, стала символом нового исторического периода, сделав тему репрессий предметом открытой дискуссии. 

А стартовый тираж «Юности» в 100 тысяч означал фактически полмиллиона или даже миллион читателей, поскольку каждый экземпляр журнала передавался из рук в руки и его читали несколько человек.

🔍 А что в них изучать цифровыми методами?

Благодаря контент-анализу, например, можно отследить, как менялась идеологическая и эстетическая направленность журналов. Например, в «Нашем современнике» с 1968 по 1972 особое место занимали слова «Россия», «мать» и «хлеб».

Сетевой анализ толстых журналов позволяет обнаружить неочевидные связи в литературной среде. Скажем, можно выяснить, что тот, кто печатался в «Молодой гвардии», обычно был принят и редакцией «Юности», и наоборот. Именно в «Юности», кстати, регулярно встречались тексты Евтушенко, а вот Солженицына можно было почитать только в «Новом мире».

Подробнее об этих и других наблюдениях, сделанных благодаря цифровым методам, а еще о том, почему «Наш современник» меньше прочих пересекался по авторам с другими журналами, узнаете из полной версии статьи.

Время чтения: 13,5 минут

🤖 «Системный Блокъ» @sysblok
Please open Telegram to view this post
VIEW IN TELEGRAM
30❤‍🔥13🔥13👍1🥴1
ИИ для студентов, исследователей (и Татьян)

Сегодня — День студента, а значит самое время поговорить о том, что действительно помогает учиться, исследовать и не утонуть в дедлайнах. «Системный Блокъ» собрал шпаргалку по ИИ для исследователей — понятный гайд о том, как использовать языковые модели в учебе и науке.

Если вы студент, аспирант или просто человек, который пишет тексты, анализирует данные и задает слишком много вопросов миру — это хороший повод заглянуть в раздел нашего спецпроекта про ИИ и разобраться, как нейросети могут стать друзьями, а не врагами в таких задачах.

Кратко: о чем раздел?

ИИ-инструменты ускоряют работу на всех этапах: от формулировки темы и поиска литературы до анализа данных и подготовки публикаций.

В гайде рассказываем о нейросетях, которые оптимальны для задач на разных этапах исследования, и помогаем разобраться, как в них ориентироваться.

Например:

— с помощью Elicit можно выбрать тему и найти самые релевантные исследования;
— Litmaps, Connectedpapers и Zotero полезны для поиска и систематизации литературы (спойлер: да, они сэкономият очень много времени и сил);
— собственную базу знаний можно собрать с Meetcody.ai и Typeset.io;
— Perplexity и Consensus подойдут для чтения и анализа научных источников;
— ещё несколько нейросетей помогут оформить библиографию и даже писать код для анализа данных.

Этот раздел — часть нашего спецпроекта «ИИ-лайфхаки для вашей профессии». В нем мы рассказываем, как применять нейросети в реальных рабочих задачах.

🤖 «Системный Блокъ» @sysblok
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥3731👍13
ИИ-компании взялись за медицину, а OpenAI запускает рекламу в ChatGPT

Рассказываем, то произошло в мире ИИ за последнее время.

Интеграция LLM в систему здравоохранения

Два лидера в сфере ИИ, OpenAI и Anthropic, анонсировали внедрение больших языковых моделей в систему здравоохранения.
Обе компании предоставили своим моделям доступ к базам данных и реестрам с информацией о страховом покрытии, кодами диагнозов и научными публикациями. Еще они разработали шаблоны, позволяющие автоматизировать рабочие процессы — составление выписок, инструкций для пациентов, клинических писем и т. д.

OpenAI представила версию ChatGPT (ChatGPT Health)  (ChatGPT Health), специально обученную для медицинских целей. Врачи могут использовать ее для консультаций при составлении дифференциальных диагнозов, протоколов лечения и написания направлений.

Помимо этого, обе компании добавили возможность загружать данные о здоровье в свои чат-боты: показания с фитнес-трекеров и умных часов, результаты анализов, цифровые медкарты из соответствующих сервисов (например, приложение «Здоровье» на iOS). На основе этих данных модели смогут составлять персонализированные рекомендации. Пользователи смогут предоставлять и отзывать доступ к чувствительной информации по своему усмотрению.

Почему это важно?

Во-первых, медицинские данные пациентов — конфиденциальны. ИИ-продукты, совместимые с существующими законами, упростят интеграцию технологий в работу медицинских учреждений и снимут часть нагрузки с персонала.

Во-вторых, пользователи уже активно обращаются к чат-ботам за медицинскими консультациями, а модели общего назначения не всегда корректно обрабатывают такие запросы. Ранее разработчики LLM не акцентировали внимание на этом сценарии использования. Запуск специализированных медицинских решений означает, что компании официально признают его допустимым и берут на себя ответственность за качество предоставляемой информации.

Анонсы подобных решений от лидирующий компаний свидетельствуют о готовности общества к интеграции ИИ в критически важные сферы.


Реклама в ChatGPT

Компания OpenAI начнёт тестировать показ рекламы в сервисе ChatGPT.

Запуск рекламной модели позволил компании предложить дешёвую подписку ChatGPT Go стоимостью 8 долларов в месяц, что должно увеличить пользовательскую базу. Также реклама позволит зарабатывать на пользователях без подписки. Владельцам дорогих тарифных планов реклама показываться не будет.

По словам OpenAI, реклама не повлияет на ответы чат-бота. Рекламодатели также не получат доступа к перепискам пользователей.

Рекламные объявления будут отображаться после ответов ChatGPT и иметь чёткую маркировку. На этапе тестирования реклама не будет показываться пользователям младше 18 лет. Кроме того, объявления не будут затрагивать чувствительные и регулируемые сферы: здравоохранение, ментальное здоровье и политику.

Почему это важно?

Чат-ботами ежедневно пользуются сотни миллионов людей. Однако ни один крупный провайдер LLM пока не внедрил рекламу в свой сервис.

Сценарии использования чат-ботов и интерфейс переписки предоставляют рекламодателям больше возможностей, чем простой показ баннеров и размещение ссылок на продукт. Например, пользователь может расспросить чат-бота о рекламируемом товаре, не выходя из приложения.

Велик шанс, что сервисы с чат-ботами в будущем могут стать столь же прибыльными рекламными площадками, как поисковики после массового распространения интернета.

Демис Хассабис, генеральный директор лаборатории Google DeepMind, разрабатывающей Gemini, заявил, что на данный момент у компании нет планов по добавлению рекламы в этот сервис.


Ещё одну новость — о модели Claude от Anthropic — найдёте в полной версии дайджеста на сайте.

🤖 «Системный Блокъ» @sysblok
Please open Telegram to view this post
VIEW IN TELEGRAM
18🔥9🤔5❤‍🔥4👍3
Поэт! не дорожи любовию народной: как ChatGPT пишет стихи

Если вы когда-то просили ChatGPT сгенерировать стихотворение, вероятнее всего, вы остались… не в восторге. Но исследователи задались вопросом не о качестве стихов, а об их стиле. Есть ли у ChatGPT своя поэтика? Разбираемся в новой статье.

🤔 Как определяли черты стиля?

Чтобы изучить тенденции в творчестве нейросети, авторы исследования Does ChatGPT Have a Poetic Style? собрали корпус текстов. Они включили в него стихотворения, сгенерированные GPT-3.5 Turbo и GPT-4 и тексты реальных людей из архива Академии американских поэтов. Как вы уже догадались, исследование проводилось только на англоязычном материале.

Во всех стихах их интересовали жанры, темы, количество строк, лексика, лица глаголов и рифмы.

🧐 И что выяснилось?

Во-первых, что говорить о самостоятельном поэтическом стиле ИИ действительно можно. Во-вторых, что ChatGPT особенно любит слова heart, embrace, echoes и whispers, а из служебных частей речи предпочитает in, upon, beneath, behold и within. Если вы читали наши посты про стилометрию, то помните, что служебные части речи — важнейший маркер авторского стиля.

Ещё нейросеть предпочитает писать стихотворения объемом от 32 до 36 строк, часто делит текст на четверостишия, постепенно начинает отказываться от ямба и старается рифмовать четко и регулярно.

В комплексе это напоминает стиль… англоязычной поэзии XIX века. Что, впрочем, вполне закономерно.

Если хотите узнать про исследование Мелани Уолш, Анны Прейус и Элизабет Гронски подробнее, читайте полную версию материала.

А если вы когда-то генерировали стихи с помощью нейросетей, можете поделиться ими в комментариях. Может быть, обнаружим закономерности в русскоязычных стихах нейропоэтов!

Время чтения: 9 минут


🌞 «Системный Блокъ» @sysblok
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥2219👍9😁5
Галопом по Европам: куда ездили герои «Войны и мира»

Цифровое картографирование позволяет исследователям восстанавливать маршруты героев фильмов, книг и легенд и, конечно, сделать неожиданные выводы о произведениях. Сегодня расскажем, чем интересны маршруты персонажей «Войны и мира» Толстого.

Так что там с «Войной и миром»?

Толстоведка Ани Кокобобо и её студенты в Канзасском университете изучили маршруты героев с помощью сервиса StoryMap JS. Благодаря нему они выяснили, что Толстой, например, не сосредотачивается ни на нескольких выдающихся персонажах, ни на нескольких выдающихся местах: «обычные» локации в романе противопоставляются культурным и экономическим центрам, Москве и Санкт-Петербургу.

Композиция «Войны и мира» отражает эту же идею: роман лишен любых центров, в нем нет главного героя, нет одной главной мысли и нет главного места действия.

Кто куда двигался?


Пьер за время романа проходит большой путь не только метафорически, но и буквально: линия его передвижений тянется от Петербурга до Киева. А в финале он постоянно перемещается между центром (Петербургом), занимаясь общественной и политической деятельностью, и новой периферией — домом, семьей.

Элен и Наполеон — пожалуй, наименее располагающее к себе персонажи романа — всегда стремятся к культурным, экономическим, политическим центрам. При этом в романах XIX века женщины обычно остаются привязанными к дому, в то время как мужчины, наоборот, оставляют его в поисках своего места в мире. Так что Элен Курагина перемещается меньше других, тогда как Наполеон — один из самых мобильных персонажей.

При этом Наташа Ростова и Марья Болконская всё-таки путешествуют. Правда, конечно, вынужденно: они покидают дом из-за вторжения армии Наполеона.

Какие ещё маршруты можно найти в романе и что они говорят о героях, узнаете из полной версии статьи. А ещё можете почитать про карты с приведениями, лепреконами и античными героями, о которых мы писали раньше!

Время чтения: 11 минут

😎 «Системный Блокъ» @sysblok
Please open Telegram to view this post
VIEW IN TELEGRAM
23🔥23👀9
От Пугачева до Шекспира: исторические личности в русской прозе

Кого классическая литература упоминает чаще — полководцев, писателей или царей? И кто из литераторов увлекается такими упоминаниями больше всех? Разбираемся в новой статье.

Наполеон Наполеону рознь

Дарья Герасименко исследовала упоминания исторических личностей в русской прозе XIX века, в котором учитывала имена в разных вариантах написания (например, «Буонапарт», «Буонапарте» и др.), а авторские намеки и иносказательные формы — нет. Иначе обработать огромный корпус русской литературы XIX века было бы просто невозможно — пришлось бы перечитать ее всю.

Кроме того, в выборку не вошли исторические лица, которые стали полноценными персонажами произведений, как у Толстого. Во-первых, в таком случае они начинают подчиняться воле автора, а во-вторых, конечно, количество их упоминаний немедленно возрастает в разы. Поэтому Наполеон из теории Раскольникова в исследовании есть, а вот Наполеон из «Войны и мира» прошел мимо этой выборки (куда он прошел, кстати, можете почитать вот тут).

Кто появляется в текстах чаще всего?


Восемь из десяти самых упоминаемых персоналий в произведениях 1860–1890-х годов — литераторы. Оставшиеся двое — полководец Александр Суворов и бунтовщик Емельян Пугачев. Ещё один явно особенный случай — Пушкин, которого начали упоминать в литературе еще при жизни, отсылая к его произведениям, так что он лидирует с огромным отрывом.

А кто из писателей частит с упоминаниями?

Если вы сделали ставку на Достоевского или Толстого, увы, их нет даже в пятерке лидеров. Самые большие любители исторических личностей в русской литературе революционер-народоволец П. Ф. Якубович, автор рассказов и фельетонов И. А. Кущевский и писатель-этнограф С. В. Максимов. Следом за ними идёт И. А. Гончаров.

Кто и кого ещё упоминает, на какое десятилетие приходится пик исторических романов и кого русские писатели XIX века называли чаще — Шексипра или Байрона — узнаете из полной версии статьи.

Время чтения: 7,5 минут

P. S. да-да, в «‎Системном Блоке» неделя Наполеона. По возможности съешьте за это кусочек торта!

🤖 «Системный Блокъ» @sysblok
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥20❤‍🔥10👍10
НЛО, беглые заключенные или лавина: загадка Перевала Дятлова и 3D-анимация

Гибель туристов из группы Дятлова — одна из самых обсуждаемых тайн советской эпохи: о ней пишут книги и снимают сериалы, пытаясь понять, что же случилось с туристами в районе горы Холатчахль в феврале 1959 года.

В преддверии годовщины трагедии вспоминаем наш материал о том, какую теорию произошедшего предлагают компьютерные методы, и рассказываем, как с этим связан мультфильм «‎Холодное сердце».

🗻 Ученые, наверное, за лавину?

Логично предположить, что ученые не склоняются к причастности инопланетян к гибели туристов, а идею о том, что экспедиция повстречалась с группой сбежавших преступников, сегодня едва ли докажешь. Зато с природной версией вполне можно разобраться.

Этим и занялись исследователи из Лаборатории моделирования снежных лавин в Лозанне. Они разработали модель движения снега после консультаций со специалистами по эффектам в «Холодном сердце», а данные о силе и давлении на человеческое тело команда получила из тестов General Motors. В 70-е гг. компания разными ударами ломала ребра 100 трупам, чтобы улучшить ремни безопасности.

🌨️ И что показала модель?

Что на склоне горы Холатчахль и правда могла быть лавина длиной около 5 метров. Создатели, конечно, учли самые важные обстоятельства: отчёты экспертов о крутом наклоне в 30 градусов, скользкой поверхности и том факте, что туристы подрезали склон для палаток. Ситуацию ухудшили сильные ветры и большое количество снега над лагерем. 

Согласен с этой версией и Джорди Хендрикс, бывший директор Лаборатории снега и лавин в Университете штата Монтана, который заявил, что симуляция демонстрирует «смертельную ночь с новой точностью».

Но, разумеется, эта версия событий остается вероятной, а не единственной.

Своими любимыми теориями можете поделиться в комментариях или в нашем опросе!

🤖 «Системный Блокъ» @sysblok
Please open Telegram to view this post
VIEW IN TELEGRAM
😱15🔥9👍751
Цифровой Джойс: подборка проектов об «Улиссе»   

Огромный и полный загадок текст «модернистской Одиссеи» Джойса часто привлекает внимание цифровых литературоведов. В день рождения Джойса и его великого романа мы собрали подборку проектов, которые попытались сочетать «Улисса» и цифру.

Dislocating Ulysses


Dislocating Ulysses — проект по созданию 3D карты романа «Улисс». Реконструкция пространства книги производилась на основе архивных карт Дублина начала XX векаю

Joycestick

Рассказ об игровом VR-проекте бостонского колледжа под названием Joycestick (Джойс + джойстик). С помощью VR-сета и Joycestick человек может оказаться в том самом «блумсдее» 16 июня 1904 года — и попытаться ощутить атмосферу Дублина из «Улисса» на себе.

Numbering Ulysses

Большой и немного философский материал о проекте по созданию базы данных вокруг текста «Улисса». Здесь много рассуждений о том, как именно можно уложить роман в табличную структуру, какие есть способы делить его на части иерархически, и какие сложности представляет текучий модернистский текст для цифровых методов, требующих формализации и дискретности.
 
Infinite Ulysses

Краудсорсинговое издание «Улисса», которое размечали сотни людей. А автор издания в это время изучала поведение пользователей: как люди читают Джойса и взаимодействуют с его текстом. Аннотированный текст романа на сайте уже недоступен, но все аннотации выгружены на гитхаб. А еще тут есть комикс по «Улиссу».  

The Ulysses Project

Проект с исследованием аллюзий, сделанных Джойсом в «Улиссе». Опирается на XML-разметку текста и геокодирование.

🤖 «Системный Блокъ» @sysblok
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥25👍15🥰129
«‎Стыдные» вопросы про нейросети

Как ИИ понимает мои русско-английские запросы? Почему его не смущают опечатки? Как чат-бот догадывается, что мне предложить?

«Системный Блокъ» собрал «стыдные» и сложные вопросы про LLM и задал их своим специалистам. О том, почему модели не могут посчитать буквы, но могут написать код, есть ли у них самосознание и что будет, когда данные закончатся, — читайте в наших карточках.

А о том, причем тут эмодзи морского конька — на сайте!

🤖 «Системный Блокъ» @sysblok
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥3722👏15👍3🥰3