Mithgol the Webmaster
1.63K subscribers
168 photos
217 videos
239 files
991 links
Мицгол-вебмастер ведёт на сём канале свой малоблог в Telegram.

Основные темы (в алфавитном порядке): аниме, виртуальная реальность, Геленджик, криптоконспирология, русский антиутопизм, сайтостроение, урбанизм, 猫 etc.

💸Донат: https://t.me/ReadMithgol/923
Download Telegram
😁14🤬1🏆1
Ужé в самые ранние годы существования WWW — и прежде всего благодаря тому, что как раз в эти годы каналы связи были в Интернете часто чудовищно низкоскоростными (по нынѣшнимъ мѣркамъ — невыносимо низкоскоростными) — путь от замысла до реализации довольно быстро прошла идея о том, что весь текстовый траффик (и HTML-страницы, и CSS-стили, и джаваскрипты) быстрѣе перегонять по Сѣти не «как есть», а заархивированными со сжатием въ нѣсколько разъ, зазипованными в формат gzip, который Википедия называет появившимся под конец октября 1992 года.

С той поры прошло больше трёх десятилѣтій. Обзавелась ли эта же идея какими-нибудь техническими усовершенствованиями? — а как же! — обзавелась, ясное дѣло.

Во-первых, можно ткнуть пальцем в попытки совершенствования gzip-архиваторов, среди которых наибольшаго внимания заслуживают pigz (многопоточная реализация gzip, всё болѣе полезная для современных дорогостоящих процессоров, которые теперича могут содержать без мáлого сотню двухпоточных ядер) и Zopfli (средство, достигающее на нѣсколько процентов большаго сжатия за счёт многодесятикратнаго роста усилий, который для современных высокоскоростных процессоров ужé не приводит к такому невыносимому росту времени работы, каким он был бы в девяностые годы).

Во-вторых, можно ткнуть пальцем в попытки создания болѣе новых форматов сжатия траффика, опережающих формат gzip по силе сжатия за счёт примѣненія новых алгоритмов и приёмов. Среди таких форматов наибольшаго внимания заслуживают формат Brotli (в Google созданный) и формат Zstandard (в Facebook꙳ созданный).

Формат Zstandard добрался до поддержки новыми версиями каждого из популярных браузеров в феврале нынѣшняго (2026) года, послѣдними о его поддержке объявили разработчики браузера Safari.

Формат Brotli добрался до поддержки новыми версиями каждого из популярных браузеров значительно ранѣе — в сентябре 2017 года, причём послѣдними из поддержавших его сайт caniuse называет опять же разработчиков браузера Safari.

Экономия, лежащая в основе сжатия текстовых данных, обычно полагается на способность кодировщика обнаруживать в тексте повторяющиеся фрагменты и заносить их в автоматически создающийся словарь, а в сжимаемом тексте замѣнять такие фрагменты болѣе краткими ссылками на словарь. Но разработчики Brotli пошли ещё дальше, включив в состав кодировщика небольшой готовый словарь, содержащий наиболѣе частыя (по ихъ мнѣнію) конструкции языков WWW (то есть HTML, CSS, JS) и словá языков так называемаго реальнаго міра, появление которых в кодируемом тексте поэтому ужé не требует помѣщенія ихъ в файл-результат (даже однократного), достаточно только ссылки на словарь в кодировщике.

Однако же пристальное разглядывание отсортированного содержимого словаря Brotli способно обнаружить там без мáлого 6½ тыщщ слов и словосочетаний латиницею (строки с номерами 897—7351), но только штук 300 слов кириллицею (строки с номерами 7392—7694), что попахивает, как минимум, недопредставленностью (а как максимум — неоколониализмом).

Правда, упрёк этот может быть обращён единственно к содержимому конкретного готового словаря (встроенного в кодировщик и в декодировщик Brotli), сама же практика подготовки и затѣмъ употребления готовых словарей как дополнительнаго средства, позволяющаго наращивать силу сжатия текстовых файлов, является безусловно плодотворною практикою — слѣдовательно, есть смысл порадоваться тому, что практика эта дошла ужé и до стандартизации (RFC 9842), и до реализации во браузере Chrome 130 (выпуск этой версии состоялся в середине октября 2025 года), и затѣмъ во всѣхъ его производных (Edge 130, Opera 115, etc.). Одобрили эту затею и разработчики браузера Firefox, и затѣмъ разработчики браузера Safari.

В феврале нынѣшняго (2026) года Tim Perry посвятил подробному разсмотрѣнію достоинств употребления готовых словарей замѣтку «Dictionary Compression is finally here, and it's ridiculously good», с которою я рекомендую ознакомиться всѣмъ желающим дальнѣйшихъ подробностей.

________

꙳ Владеющая Facebook компания Meta внесена в перечень террористов и экстремистов (в настоящее время — под номером 13).
👍10👀2🔥1
Практическая польза от использования готовых словарей при сжатии текстовых данных, упомянутого в предшествующем сообщении, различна для двух возможных сценариев использования.

Во-первых, когда какой-нибудь вспомогательный файл сайта (стиль CSS или код JS) отредактирован, тогда новая версия его обыкновенно бывает гораздо больше по объёму, нежели величина одного только набора внесённых правок — того списка затронутых строк (прибавленных, измѣнённыхъ, стёртых), который пользователи систем контроля версий обычно называют словом «дифф» или «патч». Слѣдовательно, если у большинства постоянных посѣтителей такого сайта в кэше у браузера осталась предшествующая версия файла, то можно использовать её в качестве готового словаря и тѣмъ достигнуть мощной силы сжатия — передаваемый «сжатый файл» в этом случае фактически представляет собою всего только «дифф» (он же «патч»), да ещё дополнительно доужатый кодировщиком. По-видимому, всё то же сáмое можно сказать и об RSS-потоках (и об их аналогах Atom), в которых чаще всего новая новость (напримѣръ, блогозапись) и вытесняемая ею старая новость совокупно бывают во много раз меньше общего объёма потока.

Во-вторых, когда рѣчь идётъ ужé не о вспомогательных файлах, а об основных HTML-страницах, то в них часто есть повторяющиеся куски:

• в шапке у каждой страницы часто одни и те же ссылки на стили, на скрипты, на значок (favicon) и проч.,

• в подвале у каждой страницы часто одни и те же дисклеймеры да копирайты,

• какой-нибудь подзаголовок всегда окаймляется одним и тѣмъ же кодом (мѣняется только сам текст заголовка),

• какой-нибудь тип иллюстраций всегда окаймляется одним и тѣмъ же кодом (мѣняется только имя файла и текст подписи),

• какой-нибудь навигационный блок повторяется на каждой странице почти таким же, как и на других — разве что в нём подсвѣчивается текущая страница или подраздѣлъ,

• какой-нибудь код обратной связи повторяется на каждой странице почти таким же, как и на других,

• для экономии обращений на сёрвер многие сайты оформляют мелкие значки как спрайты — их код очень похож и отсылает к одному и тому же графическому файлу, отличаясь только координатами или идентификатором желаемого спрайта.

Но если в первом сценарии перемѣнная часть («дифф», он же «патч») была кратно меньше постоянной, то во втором постоянная часть (общие куски страниц, во всей совокупности их) обычно меньше остального (перемѣннаго) тѣла страницы. Слѣдовательно, во втором сценарии рост силы сжатия от использования готового словаря — это рост «на проценты», а не «в разы».

Ещё одно послѣдствіе — необходимость ѿдѣльно подготавливать именно словарь как таковой (файл, содержащий одни только общие части страниц). Как правило, нельзя брать примѣръ съ предшествующаго сценария и использовать в роли готового словаря существующий файл (напримѣръ, давно не измѣнявшуюся страницу сайта): ожидаемая экономия траффика (от сжатия остальных страниц) может оказаться меньше, чѣмъ расходы на скачивание страницы-словаря — напримѣръ, когда постоянныя куски страниц (которые одни полезны в качестве словаря) в среднем в N раз меньше объёма страниц, а типичный посѣтитель сайта в среднем заходит меньше, чѣмъ на N страниц (то есть большинство приходит на двѣ или три страницы, которыя-то и нужны им, а затѣмъ быстро уходит навсегда). Очень рѣдко страница-словарь способна «доставаться бесплатно» за счёт того, что оказывается не просто давно не мѣнявшеюся, но и часто посѣщаемою (а оттого ужé лежит в кэше у большинства посѣтителей, не требует расхода траффика перед употреблением в качестве словаря).

А вот как раз с генераторами готовых словарей ещё не успѣли нормально наладить дѣло за полгода работы стандарта:

➊ Если на сборище файлов, по которым создаётся словарь общих частей, указывать в форме «*.html», а не в форме пути к подкаталогу, то zstd выдаёт такое сообщение об ошибке, по которому нельзя понять причину ея.

➋ Brotli вообще не предлагает готовую сборку генератора словарей (а планы такие были).

➌ Онлайновый генератор «Compression Dictionary Transport Dynamic Dictionary Tester» не грохнется ли, если сдѣлается популярным?
👍4🔥11
Сыны Монархии/Роман Антоновский
Король Англии уже и свою страну кишлакизировал, одновременно распуская в исламском мире слух, о том, что королевская династия Британии приняла ислам.
Даже для тѣхъ, кто сомнѣвается в принятии ислама этим королём, почти несомнѣннымъ остаётся факт его обрѣзанности.

Понятно, что здѣсь возможно возражение: но вѣдь обрѣзанъ не исламским священнослужителем, а іудейскимъ! — ах, господа, ну разве история хотя бы послѣднихъ трёх с половиною десятилѣтій въ Россіи ещё не достаточно убедительно говорит нам, что даже если между собою обрѣзанные враждуют (и даже нерѣдко смертельно), то супротив необрѣзанныхъ почти всегда могут договориться и дѣйствовать как долгосрочные союзники?
💯5
This media is not supported in your browser
VIEW IN TELEGRAM
Настал роковой послѣдній день!

В этот послѣдній день апрѣля разработчики Телеграма либо выпустят очередную версию Телеграма, либо оставят апрѣль вообще без новинок Телеграма, потому что в настоящее время послѣдній список новинок Телеграма датируется 31 марта.

Среди извѣстныхъ намъ новинок грядущей версии Телеграма (которая в любом случае выйдет скоро, даже если и не сегодня) наиболѣе масштабною можно считать, я полагаю, поддержку просмотра текстовых файлов (а точнѣе — гипертекстовых) в формате Markdown, о появлении которой я прочёл упоминание на канале @betainfo ещё 27 апрѣля — там говорилось, что просмотр таких файлов будет сильно напоминать Instant View (ужé существующий в Телеграме просмотр гипертекстовых страниц Всемірной Паутины).

Я одновременно и рад этому, и огорчён.

Я рад этому оттого, что вижу возможность предпросмотра файлов Markdown в качестве ещё одной возможности для выкладывания в Телеграме достаточно длинных текстов — таких, которые превосходят по своей длине возможности сообщений в самóм Телеграме (не больше 4096 сѵмволовъ в одном сообщении). Прежде для этого приходилось оформлять такие тексты в форме альбомов файлов (в которых файлы работают какъ нѣкій «клей» между кусками текста, не превышающими 4096 сѵмволовъ, примѣромъ чего может служить мой текст про кратцы) или же тащить их на сайт Telegraph (братский по отношению к Телеграму), который стал куда менѣе удобным сперва оттого, что Дуров запретил загружать туда иллюстрации (и принудил подыскивать удобные внѣшніе хостинги иллюстраций, раз за разом прекращающіе работать или утрачивающіе одно из трёх своих удобств), а затѣмъ и оттого, что сам сайт начал открываться с трудом, причём не только в силу блокировок, налагаемых властями РФ — вряд ли эти блокировки способны повлиять на способность сайта Telegraph открываться через Opera VPN или через TOR.

Я огорчён ввиду того, что пессимистически предвижу такую массу проблем, которая способна помѣшать (и навѣрняка помѣшает) предпросмотру файлов Markdown в Телеграме реализовать свой потенциал:

➊ До сих пор Telegram использовал (напримѣръ, в API ботов) свой собственный диалект языка Markdown (слегка претенциозно названный «MarkdownV2»), который отличается от наиболѣе распространённаго диалекта (от CommonMark) по самым существенным вопросам — таким, как «жирным или курсивным дѣлать слово, с двух сторон выдѣленное звёздочками?» или как «жирным или подчёркнутым дѣлать слово, с двух сторон выдѣленное знаками подчёркивания?». Тот же диалект («MarkdownV2») авторы нѣкоторыхъ клиентских приложений Телеграма сдѣлали доступным для размѣтки сообщений пользователей. С высокою вѣроятностью новый просмотрщик будет использовать диалект, гораздо болѣе похожій на CommonMark — я этому порадуюсь (потому что с ним лучше знакомы широкие массы будущих пользователей, включая меня), но в умах поклонников MarkdownV2 возникнет путаница, и я заранѣе не рад их непріязни к новинке.

➋ Диалект MarkdownV2 (в отличие от CommonMark) содержал средства размѣтки зачёркиваний и спойлеров. Я почти совершенно увѣренъ, что новый предпросмотрщик файлов Markdown позволит использовать размѣтку зачёркиваний: такою же, как в MarkdownV2, она появляется и в языке Rentry, и в языке GitHub Flavored Markdown (он же GFM), и оттого в его надмножестве — в языке GitLab Flavored Markdown (он же GFLM). А вот насчёт спойлеров пока ещё нѣтъ увѣренности, и это досадно.

➌ Файл, использованный вон той демонстрациею, убеждает меня в том, что новый предпросмотрщик файлов Markdown позволит использовать размѣтку таблиц (причём подобную не Rentry, а GFM), а файл, использованный вон той демонстрациею — что позволит использовать и GFLM-размѣтку математических формул, записанных языком LaTeX. Но так как сам я не желаю ставить beta-версии клиента, то досадно не знать до послѣдней минуты ничё о том, какие другие возможности GFM и GFLM будут поддерживаться. Сам я пожелал бы прежде всего видеопроигрыватели и сноски.

➍ Схожесть просмотрщика с Instant View как бы не означала необходимость соблюдать и ограничения Instant View — напримѣръ, не превышать пять мегабайтов на иллюстрацию.
Список проблем предпросмотра Markdown, которыя я заранѣе предвижу и оттого досадую о них, не исчерпывается перечисленными в предшествующем сообщении, а может быть продолжен:

➎ С досадою предвижу, что возможности, достижимыя в файлах Markdown, будут отставать от возможностей страниц сайта Telegraph по той причине, что в страницы сайта Telegraph можно было встраивать (между абзацами текста) сообщения из Телеграма и из Твиттера (нынѣ 𝕏), тогда как сам язык Markdown не предполагает ничего даже отдалённо подобного.

➏ С досадою предвижу, что возможности, достижимыя в файлах Markdown, будут отставать от возможностей страниц сайта Telegraph ещё и по той причине, что страницы сайта Telegraph были видными и для незалогиненных пользователей Телеграма (и даже для тѣхъ читателей страниц, которые никогда не регистрировалися в Телеграме), тогда как файлы Markdown (как и всякие другие файлы, прикрѣплённые к сообщениям в Телеграме именно «как файл», «как документ», а не в качестве иллюстрации) остаются совершенно недоступными для незалогиненных — остаются строго по эту сторону «огороженного сада» (walled garden) Телеграма.

➐ С досадою предвижу, что внутри «огороженного сада» (walled garden) у Телеграма появятся и другие изгороди — то есть, напримѣръ, что в файле Markdown, прикрѣплённомъ къ нѣкоторому сообщению, нельзя будет использовать в качестве иллюстраций другие файлы (но ужé не гипертекстовые, как Markdown, а графические файлы), прикрѣплённые даже к тому же сáмому сообщению, не говоря уж о прикрѣплённых к другим сообщениям на том же канале (и тѣмъ болѣе на других каналах). Но даже если возможность использовать прикрѣплённые к тому же сообщению файлы всё же появилась бы, то и тогда практическая польза ея сильно пострадала бы от невозможности прибавить ещё один или два файла к ужé отправленному альбому, даже к ещё не успѣвшему упереться в десятифайловое ограничение — это как раз тот недостаток, которому я посвятил второй пункт в списке желаемых новинок в сообщении о необходимости «Альбомов 2.0» в Телеграме. Всё это неизбѣжно закончится необходимостью наперёд разыскать удобный внѣшній хостинг иллюстраций (и затѣмъ пострадать от его закрытия), если только не будет предусмотрена какая-нибудь возможность для встраивания иллюстраций непосредственно внутрь файла Markdown — ну, напримѣръ, RFC 2397. (Конечно, не просто «предусмотрена»: чтобы быть реально полезною, эта возможность должна стать работоспособною в просмотрщике — а я в этом сомнѣваюсь и оттого заранѣе досадую.)

➑ Кстати об иллюстрациях, лежащих на внѣшнихъ хостингахъ: я с досадою предвижу, что просмотрщик файлов Markdown не будет брать иллюстрации непосредственно съ внѣшняго хостинга, а будет пытаться кэшировать их на сёрверах Телеграма (и для быстроты показа их, и для экономии траффика), и руководиться нѣкоторымъ таймаутомъ (засчитывая внѣшнему хостингу неотклик, если тот не выдал файл достаточно быстро), и кэшировать факт неотклика, и тѣмъ повредит иллюстрациям из небыстрых хранилищ (напримѣръ, изъ P2P-распредѣлённой файловой системы IPFS).

➒ Схожесть просмотрщика с Instant View как бы не означала заодно и необходимость ограничиваться только тѣми форматами графических файлов, которые Instant View поддерживает — напримѣръ, обходиться без AVIF и даже без WebP.

➓ Максимальный объём такого файла, который ещё можно прикрѣпить к сообщению в Телеграме, равен 2000 мегабайтов (4000 мегабайтов для покупщиков услуги Telegram Premium или для получивших её в подарок). Но здравый смысл подсказывает, что если файл Markdown такого объёма прикрѣпить к сообщению в Телеграме, то просмотрщик даже и пытаться не будет просматривать его. Это понятно. Но не понятно, каким окажется то (наложенное на объём файла) ограничение, при превышении которого просмотр Markdown просто-напросто не запустится: не слишком ли низким окажется ограничение? — я бы не очень безпокоился об этом, кабы рѣчь не шла о той же команде разработчиков и хозяев Телеграма, которая прежде ужé обнажила своё лицо, ограничив объём страниц сайта Telegraph всего-навсего 64 килобайтами (причём даже и это их ограничение досадно глючит).
🤔2😢1
Субтитры к видео принято считать инструментом, прежде всего предназначенным для глухих и для слабослышащих людей — а затѣмъ ещё и для таких зрителей видео, которым не извѣстенъ язык его (и тогда полезны субтитры на родном языке или хотя бы на болѣе извѣстномъ — напримѣръ, субтитры на английском языке для видео на японском языке), или которым язык-то неплохо извѣстенъ, однако всё равно приходится понимать «с пятого на десятое» ввиду того, что рѣчь нѣкоторыхъ говорящих (в конкретной видеозаписи) звучит слишком уж невнятно или хрипло, или временами тихо, или с мощным акцентом, или ещё чего.

Однако и русскому человѣку к видеозаписи на русском же языке, в которой каждое слово разборчиво и понятно, всё же могут быть подспорьем субтитры опять же на русском языке. Цѣнность ихъ порождается тѣмъ простым фактом, что большинство грамотных людей (способных читать и писать) читает текст про себя (то есть не вслух) значительно быстрѣе, нежели вслух — по этой же причине устную рѣчь (даже ускоренную процентов на 30% или на 50% в проигрывателе) воспринимать поневоле приходится медленнѣе, нежели записанною текстом в файле субтитров. А уж если въ устной рѣчи чего-нибудь надо быстро найти, то быстрѣе всего будет сдѣлать это не на слух, и даже не глазами пробѣгаться по тексту субтитров, а компьютерным способом: открыть текст субтитров, открыть диалоговое окно поиска (чаще всего сочетанием клавиш Ctrl+F), затѣмъ напечатать искомое и нажать на ввод.

Чтобы имѣть эту цѣнность, субтитры должны быть не впечатанными в пикселы кадра, а непремѣнно текстовыми, то есть либо лежать рядом с видео в файле субтитров (с расширением «.srt», или «.ass», или «.vtt»), либо содержаться рядом с видеодорожкою (внутри видеофайла) въ ѿдѣльной текстовой дорожке, откудова их опять же нетрудно вытащить в файл субтитров, лежащий рядом и значительно болѣе удобный для прочтения и для поиска текста.

Однако изготовление субтитров вручную требует от людей большого труда, причём даже не столько по распознаванию рѣчи (если она остаётся внятною, а язык знаком составителю субтитров), сколько по так называемому таймингу (по привязке ко времени): это ж надо для каждой реплики указать время начала и время конца ея, что трудоёмко даже в том случае, если руководиться одним только временем звучания реплики (не сообразуясь ни со временем начала и окончания движения губ и челюстей говорящих, ни с необходимостью оставить нѣкоторое дополнительное время для прочтения слишком кратких реплик).

А когда нѣкоторая работа вручную требует от людей большого труда, тогда на помощь приходит автоматизация. Изготовление субтитров может быть автоматизировано при помощи искусственнаго интеллекта Whisper, натренированнаго в OpenAI и затѣмъ портированнаго на язык Си и Си++. И так как итоги этого портирования ужé встроены в FFmpeg, то автоматическое изготовление субтитров может быть запущено единственною командою, о которой я собираюсь повѣдать въ слѣдующем сообщении.
🔥12❤‍🔥2🤔1👀1
В предшествующем сообщении я только что разсказалъ о том, для чего вообще может быть нужным автоматическое изготовление субтитров, а теперь перехожу к техническим подробностям того, как выглядит строка команды, запускающей FFmpeg.

Примѣрно вот как выглядит она:

ffmpeg -hide_banner -i имя_видеофайла -vn -sn -af "whisper=language=ru:destination=whispered.srt:format=srt:queue=30:use_gpu=0:vad_model=C\\:/путь/к/ggml-silero-v6.2.0.bin:model=C\\:/путь/к/ggml-large-v3.bin" -f null -


В этой команде параметр «имя_видеофайла» должен быть замѣнёнъ именем конкретного видеофайла (ну или аудиофайла), распознавание рѣчи из которого происходит.

В этой команде содержимое параметров «format=srt» и «whispered.srt» означает, что субтитры будут записаны в файл «whispered.srt». Никто ещё не научил Whisper (и FFmpeg) сразу создавать субтитры в каком-нибудь другом формате — ни в «.ass», ни в «.vtt». (А вот если не «сразу», а «потóм», то тогда в том же FFmpeg, уж конечно, нетрудно перегнать субтитры из формата «.srt» в формат «.vtt», в котором слияние или разбиение реплик оказывается гораздо менѣе трудоёмким за счёт того, что там их хотя бы не приходится заодно ещё и перенумеровывать.)

В этой команде параметр «language=ru» должен быть замѣнёнъ на другой (напримѣръ, «language=en» или «language=ja») при необходимости распознавания другого языка. Если предполагается распознавание многоязычной видеозаписи, то этот параметр можно не указывать, но нейросѣть начнёт работать медленнѣе и допускать ошибки в распознавании языков. (Вы удивитесь, когда увидите, сколь многие краткие возгласы на других языках — или возгласы невербальные — и даже нѣкоторые фрагменты пѣнія птицъ — могут казаться нейросѣти словами изъ корейскаго или китайскаго языка.)

В этой команде параметр «use_gpu=0» можно не указывать (и даже нужно не указывать), если даже въ нынѣшней непростой экономической ситуации вы приняли (и исполнили) рѣшеніе обзавестись видеокартою болѣе производительною, чѣмъ центральный процессор.

В этой команде строка «/путь/к/» должна быть (въ двухъ мѣстахъ) замѣнённою на настоящий путь к тому каталогу, в который вы полóжите скачанные вѣсá натренированных нейросѣтей, одна из которых («ggml-large-v3.bin») занимается распознаванием рѣчи, а другая («ggml-silero-v6.2.0.bin») распознаванием пауз между репликами. Для скорости я предположил их лежащими на диске C (он обычно SSD).

Файл «ggml-large-v3.bin» занимает чуть больше трёх миллиардов байтов, а найти его можно в подкаталоге https://huggingface.co/ggerganov/whisper.cpp/tree/main на сайте Hugging Face. Теоретически можно предполагать, что со временем там появится и какой-нибудь файл v4 (для настройки нейросѣти, натренированной ещё лучше, нежели v3), но на практике с конца 2023 года этого не случалося ни разу.

Файл «ggml-silero-v6.2.0.bin» занимает меньше мегабайта, а найти его можно в подкаталоге https://huggingface.co/ggml-org/whisper-vad/tree/main на сайте Hugging Face.

При всей своей ≈трёхгигабайтной натренированности нейросѣть способна допускать ошибки в распознавании рѣчи, причём не только из числа извѣстныхъ ещё в восьмидесятые годы (напримѣръ, «это же ребёнок» вмѣсто «это жеребёнок» и наоборот) или сдѣлавшихся извѣстными благодаря misheard lyrics въ эстрадныхъ пѣсняхъ (напримѣръ, «скрип колеса» вмѣсто «скрипка-лиса» и наоборот), но и в болѣе простых случаях — напримѣръ, при простой невнятице в окончаниях слов (нейросѣть не училася в средней школе правилам согласования слов по склонению или по спряжению).

Способна она и галлюцинировать, то есть «на ровном мѣстѣ» вписывать в субтитры такие слова, которыя вообще никто не произносил в конкретной видеозаписи, но которыя зато очень часто попадалися в подобных мѣстахъ в том исходном материале, на котором нейросѣть натренировывали:

➊ В начале субтитров иногда появляются заблаговременныя извиненія за будущія допущенныя ошибки в субтитрах.

➋ В конце субтитров иногда появляются призывы «подписываться на канал».

➌ И в начале, и в конце иногда «воскресают» упоминания составителей исходных субтитров. (На русском языке чаще других упоминается нѣкій DimaTorzok.)
😁8👍3
Небольшие постскриптумы к предшествующему сообщению:

① Команда, запускающая FFmpeg, сверху снабжена подзаголовком «batch» для того, чтобы показать, что такой вид она должна имѣть внутри бáтника (пакетнаго файла). Если же запускается просто в командной строке, то тогда вмѣсто двойной обратной косой черты слѣдуетъ использовать одинарную. То и другое необходимо только в системе Windows, потому что это в ней полный путь к файлу начинается буквою диска съ послѣдующимъ двоеточіемъ, которое-то и приходится экранировать обратною косою чертою (одинарною или двойною) для того, чтобы FFmpeg не принял двоеточіе за очередной раздѣлитель параметров Whisper.

② Можно указать «translate=1» среди других параметров Whisper — и тогда нейросѣть будет изготавливать субтитры на английском языке даже для рѣчи не на английском. Качество такого нейроперевода я не назвал бы значительным: в случае японской рѣчи нейросѣть превосходно справляется с переводом обиходных фраз и выражений (напримѣръ, «ах вон оно что» в конце той видеоцитаты из «Charlotte», которую я приводил 14 марта), но на их перевод ужé неплохо натренированы и мозги любого анимешника, слышавшаго всѣ эти фразы и выражения сотни раз — в случае же болѣе сложных выражений и предложений нейросѣть начинает сбиваться. Я пришёл к выводу, что конечный результат будет лучше, если не использовать параметр «translate=1», а итог распознавания рѣчи скормить в Google Translate. Однако же и в этом случае результат слѣдуетъ просматривать съ недовѣрчивою пристальностью: Google Translate при переводе всякаго сколько-нибудь длиннаго файла субтитров начинает глючить, убирая из своего перевода нѣкоторую часть кодов времени и слѣдующихъ за ними реплик.
Шухартской
давайте зайдём совсем далеко: дадим героям возможность призывать людей из прошлого для борьбы с Чужим. Они хотели вызвать Геракла… Это было настолько нелепо, что все просто смеялись: "Ладно, это не сработает"
Ну что я могу сказать: должно быть, идея призыва героев прошлого буквально бродила по ноосфере тогда, потому что в эти же приблизительно годы мы видим её приземлившеюся и въ тѣхъ набросках, из которых выросли сперва произведения серии «Fate» творческой группы TYPE-MOON, а затѣмъ и их экранизации в форме #аниме.

Причём в первом из опубликованных произведений этой серии (то есть в «Fate/stay night») среди прочих состоялся и призыв Геракла (то есть идея, выше процитированная, может считаться сбывшеюся буквально) — но состоялся закулисно (то есть процесс призыва не показывают и даже имя призванного не сразу сообщают читателям VN и затѣмъ зрителям аниме, потому что это был бы неслабый спойлер), так что показать его здѣсь я не могу, а только упомянуть.

А в качестве иллюстрации прилагаю видеоцитату со сценою призыва из первой серии «Fate/Zero» (но там обошлось уж без Геракла, там другая подборка героев прошлого):
This media is not supported in your browser
VIEW IN TELEGRAM
👏2
ТАСС_гдѣ_нельзя_размѣщать_георгіевскія_ленты.jxl
195.6 KB
Я с живым интересом просмотрѣлъ замѣтку «Россиянам рассказали, где нельзя размещать георгиевские ленты» на сайте ТАСС (скриншот просмотрѣнной версіи ея прилагаю чуть выше) и ознакомился с отзывами на неё в Телеграме, из которых прежде всего хотѣлъ бы ѿмѣтить два.

Автор канала @holmogor_talks так откликнулся третьего мая:

Господи, они даже народную память и патриотический порыв превратили в повод для уголовного преследования.

Не случайно, поэтому, что по своему почину ленточку носят всё реже и на всё меньший срок.

Убийцы всего живого...


Автор канала @istrkalkglk так откликнулся третьего мая:

Запретобесие шагает по стране.

Георгиевская лента — прекрасная, по-настоящему народная традиция, ставшая ещё и политическим символом времён Русской весны, символом единения Русского мира.

Лучший способ заставить население отказаться от неё — начать давать уголовки и административки за неправильное ношение. В таких обстоятельствах естественная реакция — вообще не надевать от греха подальше.


Как нетрудно видѣть, эти авторы предвидят так называемый chilling effect от таких рассказов про нельзя.

Однако можно посмотрѣть и чуть глубже в контексте того, что недавним прославлением имени Дзержинского порождается #криптоконспирология о подготовке на сáмом верху къ болѣе или менѣе массовым репрессиям. Какою бывает психологическая сторона такой подготовки? — опыт истории подсказывает, что опредѣлённою цѣнностью обладает подталкивание общества к созданию атмосферы массового доносительства, внутри которой ощущение вины за репрессии въ извѣстной мѣрѣ перекладывается с властей на доносчиков (а далѣе, ввиду массовости их — на весь народ, который, раз уж «сам виноват», должен принять истребление безропотно).

Кому сейчас сильно за пятьдесят лѣтъ отроду, тѣ могутъ помнить, как это сработало в реальной истории Совѣтской Россіи: довлатовский вопрос «Мы без конца проклинаем товарища Сталина, и, разумеется, за дело. И всё же я хочу спросить — кто написал четыре миллиона доносов?» считается заданным в начале восьмидесятых (может быть, подытоживая самоощущение и граждан нѣсколькихъ предшествующих десятилѣтій), но тогда усомниться в доводах этого сорта можно было разве что на уровне точности цифр (дескать, понимаем, что «четыре миллиона» — это художественное преувеличение, но были же если не миллионы, то сотни тыщщ?) — а до появления какой бы то ни было возможности возражений по существу («да поймите же, репрессии не откликáлись на волну доносов снизу, а планировалися и готовилися наверху») оставалось ещё болѣе десятилѣтія и понадобилося сперва окончательное падение Совѣтской власти (потому что даже самый значимый в этой истории приказ НКВД СССР № 00447 опубликовали только в 1992 г., а до этого власти скрывали болѣе полувѣка).

Впрочем, ещё увидим, окончательное ли.

Извѣщеніе о недопустимости георгиевских лент на ручках автомашин, брошенное в ту банку с пауками, которою остаётся (к несчастью) сообщество автовладѣльцевъ РФ, уж конечно позволит им в уме сложить два и два и получить четвёрку, то есть прочитано будет как слабо завуалированное подстрекательство к доносительству:

— Вы втянуты в конфликт со своими сосѣдями за парковочное мѣсто у старого дома, во время возведения которого Совѣтская власть не могла и думать о нынѣшнемъ уровне автомобилизации? Выход есть: раздобудьте георгиевскую ленту, рано поутру (когда солнце ужé взошло, но люди ещё не проснулись и не видят) повяжите ленту на ручку автомобиля своих противников, затѣмъ сфотографируйте и приложите к доносу, который отправит всю семью ваших противников (как «группу лиц по предварительному сговору») за рѣшётку по статье 354.1 УК РФ до пяти лѣтъ почти гарантированно (ничтожный процент оправдательных приговоров в современных российских судах сами знаете) или хотя бы принудит срочно продать автомобиль, чтобы хватило заносить отступные куда надо.

Девять из десяти автомобилистов подумают, может быть, что это было бы неприемлемо подло!… но въ Россіи съ ея 47½ миллионами легковых машин достаточно и каждого десятого автомобилиста для того, чтоб этим способом получить 4 миллиона довлатовских доносов.
753👍1🆒1😎1
Зачин сюжета этого аниме развивается на фоне слухов и новостей о том, что в городе совершаются необычныя убійства — по-видимому, серійныя.

На этом-то фоне центральный персонаж (не вполнѣ здоровый японский старшеклассник), придя в школу, встрѣчаетъ весьма странную тамошнюю ученицу: сперва он искренне считает себя никогда не знакомившимся с ней, но затѣмъ она возражает, а он по настоянію ея оказывается в состоянии самостоятельно вспомнить то, как её зовут. (Но всё же совершенно ли самостоятельно, или по нѣкоторому внушенію ея?) Затѣмъ оказывается, что одноклассники центральнаго персонажа не удивлены присутствием этой дѣвушки как незнакомой — болѣе того, его приятель-экстраверт настаивает на том, что оба они (и центральный персонаж, и приятель) с этой ученицею и прежде общались на дружеской ноге (и даже с лёгким подтруниванием насчёт возможности любовной пріязни).

Авторы #аниме (и экранизируемого им визуальнаго романа) дѣлаютъ в эти минуты намёк зрителям (и намёк довольно жирный), что эта ученица легко может оказаться убійцею (причём ничуть не менѣе сверхъестественною, чѣмъ ея возможность прописаться в чужой памяти в качестве давней знакомой, если эту сцену таким образом понимать), но и центральный персонаж также легко может оказаться убійцею и сам (если эту сцену понимать какъ свидѣтельство психическаго нездоровья его, доходящаго до сильных провалов в памяти, внутри которых что угодно могло бы помѣститься — как знать, не подавленныя ли воспоминанія о том, как он вдруг пожелал убивать и кинулся убивать).

Именно таким образом в октябре 2003 года показаны были встрѣтившимися (видеоцитату прилагаю) Сиэль-сэмпай и Тоно Щики (центральный персонаж аниме «Shingetsutan Tsukihime»).

Именно таким образом в октябре 2008 года показаны были встрѣтившимися (видеоцитату прилагаю) Сакихата Рими и Нищиджё Такуми (центральный персонаж аниме «Chaos;Head», название которого также записывалося в особом стиле — мѣшаниною регистровъ: «ChäoS;HEAd»).

И за предѣлами этих двух сходных сцен упомянутый намёк на возможную виновность центральных персонажей получил сюжетное развитие, которое я здѣсь не цитирую только потому, что там оно уж не проявляет замѣтнаго визуальнаго сходства, а только смысловое по предполагаемым послѣдствіямъ его.

Так, напримѣръ, Нищиджё Такуми раз за разом показан был в качестве персонажа неслабо галлюцинирующего (которому частенько мерещится то ужасное развитие событий, а то и наоборот) и притом ещё в качестве тульповóда, которому раз за разом мерещится одна и та же приятная ему персонажица из того аниме, зрителем которого он является; нѣсколько позже Кусуноки Юа, другая любительница точно того же аниме, настойчиво заведя знакомство с Такуми, сознаётся ему в том, что собрала улики, позволяющія обоснованно заподозрить его — сперва в том, что он втайне обладает сверхъестественной способностью заблаговременно предвидѣть убійства, а затѣмъ (когда Такуми отрицает первую догадку ея) ещё и в том, что он страдает от раздвоения личности и сам совершил нѣкоторую часть преступлений.

Что же касается Тоно Щики, то он показан был кинувшимся в безлюдном парке на первую встрѣчную женщину, причём кинувшимся с ножом и с явным намѣреніемъ расчленить её — но исполнил ли это намѣреніе? — и даже было ли оно или просто примерещилось? — о том зрители и персонаж нѣкоторое время могут только гадать, потому что Щики потерял сознание и плюхнулся вроде бы в лужу крови, но затѣмъ пришёл в сознание в отцовском доме в своей постели рядом с ничуть не окровавленною одеждою. Если совершение убійства (движимое чистым инстинктом, безъ малѣйшаго разсудочнаго повода!) всё же не почудилося ему, то тогда должен ли Щики подозрѣвать, что сестра его и служанки скрыли его преступление и от полиции, и даже от него самогó, причём не просто «не подают вида», но и потрудились омыть нож, а также выстирать (и высушить, и выгладить) окровавленную одежду его? И эта загадка усугубляется на другой день, когда Щики встрѣчаетъ предполагаемую жертву живёхонькою, однако та заводит с ним бесѣду и с досадою винит его в том, что была расчленена им на семнадцать частей.

📔 ОГЛАВЛЕНИЕ
🤔4🆒1