Forwarded from Системный Блокъ
Летний набор в «Системный Блокъ»
«Системный Блокъ» запускает новые направления и расширяется — приглашаем новых авторов, редакторов, продюсеров, PR-менеджеров, дата-аналитиков. Нас объединяет интерес к науке и технологиям и желание вдохновлять людей. Среди нас есть филологи, программисты, менеджеры, историки, журналисты и аналитики — люди из совершенно разных сфер.
Мы полностью волонтерский проект. Ниже вы найдете набор ролей, которые могут быть интересны вам или вашим друзьям. Если что-то из этого вам близко, добро пожаловать к нам! Если вы хотите присоединиться, но идеальной роли нет, то все равно оставляйте заявку!
В посте — неполный перечень ролей, которые сейчас открыты, а в статье — подробное описание задач и пожеланий к участникам.
1. Авторы в рубрики — от филологии, искусства, общества до «как это работает»
2. Редактор, выпускающий редактор Телеграма
3. Продюсер рубрики (новой или существующей), менеджер лектория или ивент-менеджер, комьюнити-менеджер
4. PR-менеджер «Системного Блока» или «Пишу тебе», маркетолог
5. Продакт-менеджер на развитие IT-продуктов в «Системном Блоке» и «Пишу тебе»
6. Куратор проектов на хакатоне, продюсер дата-исследований в дата-отдел, визуализатор в дата-отдел
7. Программист/ведущий программист в одну из команд
8. Аналитик в одну из команд
9. Иллюстратор статей, графический дизайнер
10. Data Worm — специалист по поиску данных в открытых источниках
Если вас заинтересовала одна из ролей – приглашаем заполнить форму до 10.07.
«Системный Блокъ» запускает новые направления и расширяется — приглашаем новых авторов, редакторов, продюсеров, PR-менеджеров, дата-аналитиков. Нас объединяет интерес к науке и технологиям и желание вдохновлять людей. Среди нас есть филологи, программисты, менеджеры, историки, журналисты и аналитики — люди из совершенно разных сфер.
Мы полностью волонтерский проект. Ниже вы найдете набор ролей, которые могут быть интересны вам или вашим друзьям. Если что-то из этого вам близко, добро пожаловать к нам! Если вы хотите присоединиться, но идеальной роли нет, то все равно оставляйте заявку!
В посте — неполный перечень ролей, которые сейчас открыты, а в статье — подробное описание задач и пожеланий к участникам.
1. Авторы в рубрики — от филологии, искусства, общества до «как это работает»
2. Редактор, выпускающий редактор Телеграма
3. Продюсер рубрики (новой или существующей), менеджер лектория или ивент-менеджер, комьюнити-менеджер
4. PR-менеджер «Системного Блока» или «Пишу тебе», маркетолог
5. Продакт-менеджер на развитие IT-продуктов в «Системном Блоке» и «Пишу тебе»
6. Куратор проектов на хакатоне, продюсер дата-исследований в дата-отдел, визуализатор в дата-отдел
7. Программист/ведущий программист в одну из команд
8. Аналитик в одну из команд
9. Иллюстратор статей, графический дизайнер
10. Data Worm — специалист по поиску данных в открытых источниках
Если вас заинтересовала одна из ролей – приглашаем заполнить форму до 10.07.
Telegraph
Летний набор в «Системный Блокъ»
📍 Редактор «Системного Блока» Редактор — ответственный за качество материалов. Мы ожидаем критический взгляд на статьи и доведение их до выпускаемого состояния. Кроме доработки материалов редакторы (при желании) участвуют в выборе новых направлений и рубрик…
👍2
Forwarded from Литоисчисление
Диалектика канона
В Репозитории новый датасет — «Литературные произведения в государственных стандартах и программах для средней школы: 1998–2022 гг.», созданный Андреем Кокориным.
Датасет представляет собой роспись литературных произведений, отраженных во всех официальных документах, которые регламентируют преподавание русской литературы в постсоветской школе и определяют необходимый объем знаний по этому предмету. В числе таких документов ГОСТы и примерные образовательные программы средней школы, а также кодификаторы ОГЭ и ЕГЭ по литературе.
Анализ данных, собранных Андреем, позволяет, помимо прочего, установить, в какие годы обязательная часть школьной программы по литературе претерпевала ниболее значительные изменения. Ответ — на графике ниже.
Датасет Андрея можно считать третьей частью трилогии о школьном литературном каноне, посвященной его юности; детство канона отражено в базе данных «Хрестоматии Российской империи с 1805 по 1912 гг.», а его отрочество — в «Программах по литературе для средней школы с 1919 по 1991 гг.». Лев Толстой, как известно, предполагал описать и четвертую эпоху жизни взрослеющего человека, но события недавнего прошлого оказались трудны для осмысления в рамках автобиографического повествования. Так и мы: умолкаем на время, давая свершиться дистанции между осмысляемым и осмысляющим.
#новыйдатасет
В Репозитории новый датасет — «Литературные произведения в государственных стандартах и программах для средней школы: 1998–2022 гг.», созданный Андреем Кокориным.
Датасет представляет собой роспись литературных произведений, отраженных во всех официальных документах, которые регламентируют преподавание русской литературы в постсоветской школе и определяют необходимый объем знаний по этому предмету. В числе таких документов ГОСТы и примерные образовательные программы средней школы, а также кодификаторы ОГЭ и ЕГЭ по литературе.
Анализ данных, собранных Андреем, позволяет, помимо прочего, установить, в какие годы обязательная часть школьной программы по литературе претерпевала ниболее значительные изменения. Ответ — на графике ниже.
Датасет Андрея можно считать третьей частью трилогии о школьном литературном каноне, посвященной его юности; детство канона отражено в базе данных «Хрестоматии Российской империи с 1805 по 1912 гг.», а его отрочество — в «Программах по литературе для средней школы с 1919 по 1991 гг.». Лев Толстой, как известно, предполагал описать и четвертую эпоху жизни взрослеющего человека, но события недавнего прошлого оказались трудны для осмысления в рамках автобиографического повествования. Так и мы: умолкаем на время, давая свершиться дистанции между осмысляемым и осмысляющим.
#новыйдатасет
This is a dataset collected from all the texts available at Corpus Corporum, which includes probably all the literary works ever written in Latin up to 19th century, which includes:
- Classical Latin: works of Caesar, Cicero and many more
- Medieval Latin: a substantial amount of religious texts by Thomas Aquinas, Bonaventura and others
- Phliosophical works written by Descartes, Spinosa, …
- Regional Latin literature of Croatian, German, Italian authors
https://www.kaggle.com/datasets/yaustal/latin-literature-dataset-170m?resource=download
#датасет #nlp
- Classical Latin: works of Caesar, Cicero and many more
- Medieval Latin: a substantial amount of religious texts by Thomas Aquinas, Bonaventura and others
- Phliosophical works written by Descartes, Spinosa, …
- Regional Latin literature of Croatian, German, Italian authors
https://www.kaggle.com/datasets/yaustal/latin-literature-dataset-170m?resource=download
#датасет #nlp
Kaggle
latin-lit-dataset-170M
Everything you can possibly get in Latin
❤7
Forwarded from Antibarbari HSE (Olga Alieva)
👾 Рубрика #цифровой_понедельник скоро уйдет на каникулы, чтобы осенью вернуться к вам с новыми силами. Но перед этим — еще несколько видео про тематическое моделирование. Сегодня визуализируем главные компоненты для описаний Кинопоиска, чтобы с удивлением обнаружить топик про “бильбо” и “кольцо”. Что бы это могло быть? 🤔
VK Видео
R: Модуль 6 Урок 8. Визуализация главных компонент (топиков)
Видео подготовлено по результатам проекта «Цифровая античность» при поддержке фонда «Гуманитарные исследования» ФГН НИУ «Высшая школа экономики» в 2023 году.
❤1
Безуспешно пытаясь справиться с пакетом tesseract в R, набрела на такую чудесную перепалку на форуме #tesseract
❤8❤🔥2
Forwarded from Antibarbari HSE (Olga Alieva)
👾 Итак, последний #цифровой_понедельник перед уходом на каникулы. В этом видео:
- загружаем диалоги Платона
- применяем скользящее окно и считаем pmi
- применяем сингулярное разложение
- считаем косинусное расстояние между векторами слов
- смотрим, какие обнаружились топики
- ищем ближаших соседей к слову “элемент” (stoicheion)
Пока все!
- загружаем диалоги Платона
- применяем скользящее окно и считаем pmi
- применяем сингулярное разложение
- считаем косинусное расстояние между векторами слов
- смотрим, какие обнаружились топики
- ищем ближаших соседей к слову “элемент” (stoicheion)
Пока все!
VK Видео
R: Модуль 6 Урок 9. LSA на платоновском корпусе: топики и эмбеддинги слов
Видео подготовлено по результатам проекта «Цифровая античность» при поддержке фонда «Гуманитарные исследования» ФГН НИУ «Высшая школа экономики» в 2023 году.
❤2
Forwarded from Antibarbari HSE (Olga Alieva)
ℹ️ Если у вас есть гуманитарное образование и смутная или осознанная тяга к тому, чтобы узнать, как с гуманитарными материями справляются компьютерные технологии, то приходите в магистратуру Цифровые методы в гуманитарных науках в НИУ ВШЭ https://www.hse.ru/ma/dh/about/
⭐ Среди преподавателей не просто лучшие специалисты по digital humanities в стране, это люди, которые прошли тот же путь, о котором думаете вы: сначала стали гуманитариями, а потом цифровыми гуманитариями, им хорошо знакомы все трудности, с которыми сталкиваются единомышленники.
📝 Знания языков программирования или других высоких технологий не требуется: этому там научат. Главное — составить хорошее портфолио и внятное мотивационное письмо https://www.hse.ru/ma/dh/requirements
🗓 Документы можно подавать до 25 июля.
⭐ Среди преподавателей не просто лучшие специалисты по digital humanities в стране, это люди, которые прошли тот же путь, о котором думаете вы: сначала стали гуманитариями, а потом цифровыми гуманитариями, им хорошо знакомы все трудности, с которыми сталкиваются единомышленники.
📝 Знания языков программирования или других высоких технологий не требуется: этому там научат. Главное — составить хорошее портфолио и внятное мотивационное письмо https://www.hse.ru/ma/dh/requirements
🗓 Документы можно подавать до 25 июля.
www.hse.ru
О программе
❤2
Небольшая поучительная история о том, почему полученный в результате количественных исследований результат должен быть проверяем и воспроизводим.
Даже на заре стилометрии, когда все вычисления проводились вручную, ученые стремились максимально подробно задокументировать свои вычисления: какие слова они считали, в каких текстах и т.п. Известно, однако, и исключение из этого правила.
Мало кто знает, что философ-неокантианец Пауль Наторп заплатил дань модным тогда количественным исследованиям платоновского стиля. Важнейшая публикация Наторпа (Platos Ideenlehre, 1903 г., repr. 1921) посвящена Платону, и Платон был настолько важной фигурой для Наторпа, что злые языки прозвали его _Платорпом_.
При этом Наторп был, как бы мы сказали, девелопменталистом, то есть видел в платоновской мысли постепенное развитие от раннего сократического понимания идей до чего-то вроде своего собственного трансцендентального идеализма. (В понимании платоновской мысли как постепенного развивающейся Наторп следует за Аристотелем, кстати, -- хотя все его прочтение Платона это, прежде всего, вызов Аристотелю и его критике теории идей.)
Большинство исследователей, которые в 19 - нач. 20 в. занимались количественными исследованиями Платона, тоже верили в эволюцию философа (иначе они бы не стали считать). Но у Наторпа были достаточно причудливые взгляды на последовательность диалогов. В частности, он относил к ранней группе (или совсем рядом с ней) диалог "Теэтет". И опереться на чужие вычисления не мог. Но, видимо, так верил в свою правоту, что взялся что-нибудь посчитать.
Его _Untersuchungen über Plato's Phaedrus und Theaetet_ были опубликованы в 1899 г. и 1900 г., в двух частях. Однако он не опубликовал список 1949 слов, на которых он основывал свои вычисления и, в конечном итоге, поделил диалоги на группы. Другой известный стилометр, Константин Риттер, даже писал Наторпу с просьбой поделиться этим списком, но получил весьма легкомысленный ответ, что список потерян.
Отсюда мораль:не впадайте в ересь трансцендентального идеализма, подробно документируйте свои исследования.
Даже на заре стилометрии, когда все вычисления проводились вручную, ученые стремились максимально подробно задокументировать свои вычисления: какие слова они считали, в каких текстах и т.п. Известно, однако, и исключение из этого правила.
Мало кто знает, что философ-неокантианец Пауль Наторп заплатил дань модным тогда количественным исследованиям платоновского стиля. Важнейшая публикация Наторпа (Platos Ideenlehre, 1903 г., repr. 1921) посвящена Платону, и Платон был настолько важной фигурой для Наторпа, что злые языки прозвали его _Платорпом_.
При этом Наторп был, как бы мы сказали, девелопменталистом, то есть видел в платоновской мысли постепенное развитие от раннего сократического понимания идей до чего-то вроде своего собственного трансцендентального идеализма. (В понимании платоновской мысли как постепенного развивающейся Наторп следует за Аристотелем, кстати, -- хотя все его прочтение Платона это, прежде всего, вызов Аристотелю и его критике теории идей.)
Большинство исследователей, которые в 19 - нач. 20 в. занимались количественными исследованиями Платона, тоже верили в эволюцию философа (иначе они бы не стали считать). Но у Наторпа были достаточно причудливые взгляды на последовательность диалогов. В частности, он относил к ранней группе (или совсем рядом с ней) диалог "Теэтет". И опереться на чужие вычисления не мог. Но, видимо, так верил в свою правоту, что взялся что-нибудь посчитать.
Его _Untersuchungen über Plato's Phaedrus und Theaetet_ были опубликованы в 1899 г. и 1900 г., в двух частях. Однако он не опубликовал список 1949 слов, на которых он основывал свои вычисления и, в конечном итоге, поделил диалоги на группы. Другой известный стилометр, Константин Риттер, даже писал Наторпу с просьбой поделиться этим списком, но получил весьма легкомысленный ответ, что список потерян.
Отсюда мораль:
❤7
Конечно, вы не раз видали уездной барышни альбом. В такой альбом, мои друзья, признаться, рад писать и я.
Telegram
БЛОКНОТ ФИЛОСОФА
🙂 Мы вводим новую рубрику «Неформальный блиц с преподавателем», которая будет выходить каждый вторник!
📕 Давно ли вы хотели задать своим любимым преподавателям вопросы об их внеучебных интересах, любимых книгах и фильмах? Наша новая рубрика поможет узнать…
📕 Давно ли вы хотели задать своим любимым преподавателям вопросы об их внеучебных интересах, любимых книгах и фильмах? Наша новая рубрика поможет узнать…
❤9🥰2
Пересчитав и перечитав кое-что в “Бедной Лизе”, сделала три важных открытия.
1) Самая мрачная сцена в повести — это не сцена самоубийства.
2) Вторая самая мрачная сцена в повести —тоже не сцена самоубийтсва.
3) “Крестьянки любить умеют” — это вообще не про Лизу.
По ссылочке, кому интересно, лонгрид с картинками.
P.S. Это не для науки, а для души — не бросайтесь в меня, пожалуйста, фолиантами.
1) Самая мрачная сцена в повести — это не сцена самоубийства.
2) Вторая самая мрачная сцена в повести —тоже не сцена самоубийтсва.
3) “Крестьянки любить умеют” — это вообще не про Лизу.
По ссылочке, кому интересно, лонгрид с картинками.
P.S. Это не для науки, а для души — не бросайтесь в меня, пожалуйста, фолиантами.
locusclassicus.github.io
Liza
❤7👏4
В античном вкусе
Снова злокозненный рис слипается в мерзкую кучу.
Видно, придется его в рыбный салат положить.
Снова злокозненный рис слипается в мерзкую кучу.
Видно, придется его в рыбный салат положить.
🐳8❤5
В R задача решается при помощи функции
str_replace_all() из пакета stringr.cicero <- "nihil hāc sōlitūdine iūcundius, nisi paulum interpellāsset Amyntae fīlius. ὢ ἀπεραντολογίας ἀηδοῦς! "
str_replace_all(cicero, "[Α-Ωα-ω]", "")Результат:
## [1] "nihil hāc sōlitūdine iūcundius, nisi paulum interpellāsset Amyntae fīlius. ὢ ἀί ἀῦ! "
str_replace_all(cicero, "[\u0370-\u03FF]", "")
Результат:
## [1] "nihil hāc sōlitūdine iūcundius, nisi paulum interpellāsset Amyntae fīlius. ὢ ἀ ἀῦ! "
str_replace_all(cicero, "[[\u0370-\u03FF][\U1F00-\U1FFF]]", "")
Результат:
## [1] "nihil hāc sōlitūdine iūcundius, nisi paulum interpellāsset Amyntae fīlius. ! "
str_replace_all(cicero, c("ā" = "a", "ū" = "u", "ī" = "i", "ō" = "o"))
Результат:
## [1] "nihil hac solitudine iucundius, nisi paulum interpellasset Amyntae filius."
#regex #stringr
Please open Telegram to view this post
VIEW IN TELEGRAM
❤6👍3
Статистика выходит из Юмовской шинели. 1748.
Итак, перенося прошлое на будущее, чтобы определить действие, которое окажется результатом какой-нибудь причины, мы, по-видимому, переносим различные события в той же пропорции, в какой они встречались в прошлом, представляя себе, что одно из них произошло, например, сто раз, другое - десять, а третье - только однажды. Так как большое число возможностей совпадает здесь в одном событии, они подкрепляют и подтверждают его в нашем воображении, порождают то чувство, которое мы называем верой, и дают объекту этого чувства преимущество перед противоположным событием, которое не подкреплено таким же числом опытов и не так часто приходит на ум при перенесении прошлого на будущее.
Особенно интересно там рядом его рассуждение о том, как мы можем делать выводы на основании 100 наблюдений, если одно наблюдение считается недостаточным для вывода.
Тут, конечно, и привет в будущее “степеням свободы”, но и еще — привет в прошлое Зенону Элейскому: падение одного зерна не производит шума; двух-трёх зёрен также, а падение всей кучи зёрен создаст шум… В целом же то, что он называет “привычкой”, очень похоже на будущий статистический вывод.
Итак, перенося прошлое на будущее, чтобы определить действие, которое окажется результатом какой-нибудь причины, мы, по-видимому, переносим различные события в той же пропорции, в какой они встречались в прошлом, представляя себе, что одно из них произошло, например, сто раз, другое - десять, а третье - только однажды. Так как большое число возможностей совпадает здесь в одном событии, они подкрепляют и подтверждают его в нашем воображении, порождают то чувство, которое мы называем верой, и дают объекту этого чувства преимущество перед противоположным событием, которое не подкреплено таким же числом опытов и не так часто приходит на ум при перенесении прошлого на будущее.
Особенно интересно там рядом его рассуждение о том, как мы можем делать выводы на основании 100 наблюдений, если одно наблюдение считается недостаточным для вывода.
Тут, конечно, и привет в будущее “степеням свободы”, но и еще — привет в прошлое Зенону Элейскому: падение одного зерна не производит шума; двух-трёх зёрен также, а падение всей кучи зёрен создаст шум… В целом же то, что он называет “привычкой”, очень похоже на будущий статистический вывод.
👍4
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥4