Цифровой Дискурс
593 members
17 photos
2 videos
2 files
387 links
Информационный проект про цифровые гуманитарные науки. Медиафилософия и Digital Humanities: цифровые исследования и исследования цифры.

https://discourse.digital/

Для связи: @discoursedigital_bot
Download Telegram
to view and join the conversation
Python и R — наиболее популярные и удобные языки программирования в области анализа данных. В этой статье рассмотрим различия между R и Python и расскажем, какое они занимают место в анализе данных и статистике.

https://tproger.ru/sponsored/python-vs-r-data-science/amp/
Литературу могут исследовать не только люди, но и ИИ — впрочем, больших успехов он пока не добился. Почитайте о том, как большие данные приходят в гуманитарную науку.

https://knife.media/digital-school/
​​Ребята из DataYoga создали библиотеку визуализаций, которая состоит из 47 карточек. Все карточки кликабельны.

Задавайте вопросы к данным и подбирайте визуализации под ваши задачи. Определитесь с типом сравнения данных, изучите плюсы и минусы каждой визуализации и прислушайтесь к тщательно подобранным советам.

Думаю многим будет полезно.
Интернет так изменился, что о нём уже можно говорить в прошедшем времени.

клуб любителей интернета и общества открывает приём заявок на V международную конференцию. Тема этого года — Internet Beyond Change.

Тема интернета и перемен актуальна везде: в бытовых разговорах, в бизнес-проектах, искусстве и, конечно, исследованиях. Организаторы предлагают на конференции представить исследовательские работы про интернет и перемены, а заодно обсудить, о каких действующих силах мы можем говорит в рамках этой темы, и кто же кого и как меняет.

Конференция пройдет в Москве и Санкт-Петербурге 23-25 апреля, заявки принимают до 20 февраля.

http://internetbeyond.net/
​​Вышла моя книга по цифровому этикету! Точнее - почти вышла. Уже есть электронная и аудиоверсия и открыт предзаказ на бумажную версию.

В книгу вошли рекомендации, истории, ответы на вопросы, которые вы присылали в личные сообщения, результаты опросов. В книге отдельные главы посвящены электронной почте, мессенджерам, социальным сетям, использованию гаджетов. Там не только рекомендации про то, как быть удобным для собеседника, но и про то, как сделать комфортной свою собственную цифровую жизнь.

Это первая в моей жизни книга и я, если честно, очень волнуюсь. Подготовка книги заняла целый год. Обо всем процессе и всех сложностях я рассказала у себя на фэйсбуке.

- Здесь открыт предзаказ бумажной книги
- Здесь книга в аудиоформате - со скидкой 10%
- Здесь электронная версия - со скидкой 10%

Буду очень благодарна вам за отзывы и за не слишком строгую критику. Слишком строгую, боюсь, мне пока что будет тяжеловато слышать)
Лёша @altsoph нарыл очередную прекрасную работу, показывающую перспективы digital humanities. Если хорошо придумать вопрос, то ответ все чаще можно получить с помощью алгоритмов, и машинного обучения в частности.
Но сам по себе ответ алгоритма — это далеко не конец истории, дальше ведь интересны интерпретации найденного и связанные с находкой мысли.
В конкретно этой работе алгоритм порылся в сокровищнице мировой живописи и обнаружил массу картин, на которых позы запечатлённых людей совпадают. А вот как так вышло, и что это все означает — уже вопрос к белковым специалистам
https://arxiv.org/pdf/1907.03537.pdf
​​Далеко не все сайты имеют собственный API, а парсинг сайтов требует знаний дополнительных технологий, как минимум CSS или xPath, что может доставлять некоторые трудности.

К тому же, многие не знают где взять датасеты для тренировок.

Поэтому я написал небольшой пакет habR, который поможет вам парсить Хабру, и получить от туда следующие наборы данных:

Список лучших авторов любого Хаба
Полный список статей и их статистику по любому автору на Хабре
Полный список статей со статистикой и ссылками на них из любого Хаба

Пример кода для сбора этих данных по Хабу посвящённому языку R.

library(habR)
library(dplyr)

# получить статьи автора с логином selesnow
habr_user("selesnow") %>%
habr_get_posts_stat

# собираем лучших авторов хаба R
top_authors <- habr_hub_top_authors("https://habr.com/ru/hub/r/")

# собираем все статьи с Хаба R
r_articles <- habr_hub_posts("https://habr.com/ru/hub/r/")


Установить пакет можно из GitHub

devtools::install_github("selesnow/habR")

Более подробное описание и примеры кода можно найти в README.
Восхитительные новости: Шанинка выложила расшифровку дискуссии «Источник, данные, материал: за чем исследователь выходит в поле», которая прошла 28 октября в рамках семинара Research&Write.

Участники дискуссии:

Дарья Хлевнюк, социолог, научный сотрудник Центра исследований современной культуры ИГИТИ НИУ ВШЭ

Алексей Титков, социолог, географ, преподаватель МВШСЭН и РАНХиГС

Екатерина Кулиничева, исследователь моды, журналист, преподаватель МВШСЭН

Артём Кравченко, историк ИЭА РАН, исследователь Лаборатории публичной истории, преподаватель МВШСЭН

Полина Колозариди, интернет-исследователь, преподаватель ВШЭ, куратор публичной программы библиотеки Шанинки
Анализ текста средствами языка программирования R

Автор перевода: Анастасия Уварова
Оригинал: Jason Lee: Text Analytics in R

Анализ текста — это процесс изучения неструктурированных данных, которые представлены в форме текста. Ее задача — получить представление о паттернах и интересующих темах.
3800 курсов бесплатно до 31 июля от Coursera, но для университетов.

Начиная с сегодняшнего дня, Сoursera открывает для университетов всего мира, затронутых коронавирусом, бесплатный доступ к курсам через платформу Coursera for Campus. Университеты могут регистрироваться и предоставить своим студентам возможность пройти более 3800 курсов и 400 специализаций от ведущих университетов и отраслевых партнёров Coursera.

https://www.cossa.ru/news/259932/

Via @webmagic
​​Написал очередную статью на Хабру.

В статье "Какой язык выбрать для работы с данными R или Python? Оба! Мигрируем с pandas на tidyverse и data.table и обратно" я попытался сравнить способы обработки данных в двух языках R и Python. И упростить пользователям каждого из этих языков миграцию между ними.

В ходе статьи рассматривается множество примеров манипуляции с данными с помощью tidyverse, data.table и pandas, от их загрузки до применения оконных функций.

Содержание:

1. Основные отличия синтаксиса в R и Python
1.1. Обращение к функциям пакетов
1.2. Присваивание
1.3. Методы и ООП
1.4. Пайпланы
1.5. Структуры данных

2. Несколько слов о пакетах которые мы будем использовать
2.1. tidyverse
2.2. data.table
2.3. pandas

3. Установка пакетов

4. Загрузка данных

5. Создание датафреймов

6. Выбор нужных столбцов

7. Фильтрация строк

8. Группировка и агрегация

9. Вертикальное объединение таблиц (UNION)

10. Горизонтальное объединение таблиц (JOIN)

11. Простейшие оконные функции и вычисляемые столбцы

12. Таблица соответствия методов обработки данных в R и Python

13. Заключение

14. Небольшой опрос о том какой пакет вы используете
Друзья, в связи с карантином многие сейчас сидят дома. Это время можно, и даже нужно провести с пользой для себя.

В общем я решил записать небольшой вводный курс по R для тех, кто привык всю работу с данными реализовывать средствами Excel. Пока планируется 11 уроков, которые помогут вам без навыков программирования перейти от Excel к R.

В ходе курса мы разберём некоторые пакеты входящие в библиотеку tidyverse, и научимся основным операциям которые вам понадобятся для работы с данными, начиная от загрузки до их визуализации.

Пока планирую выкладывать 1 урок в неделю.

Курс рассчитан на начинающих, поэтому если у вас есть коллеги которые до сих пор сидят в Excel, есть хороший повод перевести их на более современный инструмент для работы с данными.

Сегодня выкладываю первый, подготовительный урок про установку R и RStudio, и небольшой обзор RStudio.

1. Плейлист курса на youtube
2. Урок по установке R и RStudio

Карантин закончится, а знания у вас останутся.
Skyeng и Издательский дом «Просвещение» открывают бесплатный доступ к цифровой образовательной среде Skyes School. Здесь есть все необходимое, чтобы организовать полноценное обучение учеников 5-11 классов:

- Цифровые рабочие тетради для УМК Spotlight («Английский в фокусе») и УМК «Сферы»
- 3000 заданий для подготовки к ОГЭ, ЕГЭ, ВПР, НИКО и PISA
- Интерактивные упражнения, видео, задания на аудирование
- Автоматическая проверка домашних заданий и возможность следить за прогрессом учеников

Министерство просвещения рекомендует школам переходить на дистанционное обучение

В связи с эпидемией многие школы закрываются на карантин. Неизвестно, как долго это все продлится, поэтому Министерство предлагает продолжить обучение в удаленном режиме, чтобы не отстать от программы перед экзаменами. Для учителей английского языка это не составит проблемы — с цифровой платформой Skyes School вы можете продолжить обучение: с материалами ИД «Просвещение» и дополнительными заданиями от Skyeng.

http://skyeng.ru/go/cdiskurs
Открыл 4ый урок курса “Язык R для пользователей Excel”.

Данный урок посвящён фильтрации строк в таблицах, и выбору столбцов, также вы узнаете что такое пайплайны, и как они помогут вам сделать код более читабельным.

Рассмотрен пакет dplyr, и функции filter(), select(), select_if(), select_at() и rename().

Поблагодарить и поддержать курс можно любой произвольной суммой от 1$ на этой странице.

Подписывайтесь на YouTube канал, что бы не пропустить выход новых уроков, которые открываются по понедельникам.

Ссылки:
подписаться на YouTube канал
видео 4го урока
материалы к 4 уроку
весь плейлист курса
благодарности
ЦИПР начинает цифровое сопротивление пандемии. Хотя из-за ограничений, связанных с коронавирусом, нам пришлось перенести конференцию на сентябрь, мы не сдаемся и проведем ЦИПР ДОМА в онлайн-формате.

С 13 мая ЦИПР совместно с организацией «Цифровая экономика» проводит серию онлайн-дискуссий на актуальные темы, связанные с влиянием пандемии на цифровую экономику России. Модератором дискуссий выступит телевизионный продюсер и журналист Тина Канделаки.

Первая онлайн-сессия ЦИПР ДОМА состоится 13 мая в 18.30 и будет посвящена удаленной работе в период пандемии и после.

Трансляция будет доступна по адресу: https://youtu.be/smxRFImpWmk а также на сайте ЦИПР.

Вопросы участникам дискуссии можно будет задавать через Telegram в чате t.me/CIPRtalk.
Магистерская программа «Прикладная статистика с методами сетевого анализа» НИУ ВШЭ объявляет набор на специализацию «Сетевой анализ».

Специализация «Сетевой анализ» – это основа программы MASNA, которая готовит универсальных профессионалов, способных анализировать данные в любом контексте. Лучший способ это сделать – освоить продвинутые сетевые и статистические методы. Реляционное мышление, которому учит сетевой анализ, позволяет не только мыслить в категориях связей, но и налаживать их между разными секторами экономики и общества. Наши выпускники успешно находят себя и совмещают работу в академии, работают в консалтинговых центрах, а также в аналитических центрах и структурах коммерческого, государственного и негосударственного секторов.

Акцент специализации сделан как на сетевых курсах, так и на продвинутых математических дисциплинах, родственных сетевой методологии и теории графов:
- Введение в сетевой анализ
- Продвинутые методы сетевого анализа
- Анализ социальных сетей с R
- Статистические методы сетевого анализа
- Анализ категорийных переменных
- Байесовские методы анализа данных
- Стохастические модели

Изучение базовых курсов программы MASNA гарантирует освоение продвинутых курсов специализации без дополнительных знаний математики и статистики.

📍Подробнее о специализации: https://www.hse.ru/ma/sna/sna_track

Помимо «Сетевого анализа», в этом году у нас две новые специализации: Бизнес-аналитика (https://www.hse.ru/ma/sna/business_track/) и Вычислительные социальные науки (PhD трек) (https://www.hse.ru/ma/sna/phd_track).
Если вы хотите поучиться Digital Humanities в Вышке, то у вас есть еще 10 дней (включая сегодня), чтобы подать документы в магистратуру «Цифровые методы в гуманитарных науках».

Здесь учатся программировать на Python, анализировать и визуализировать данные в R, применять разные цифровые методы исследования гуманитарных объектов (от стилометрии и сетевого анализа до GIS). А еще студенты объединяются в команды и делают групповые проекты по оцифровке и сохранению культурного наследия. Проекты курируют сотрудники Центра цифровых гуманитарных исследований Вышки и специалисты из дружественных организаций (например, Государственный музей Л.Н. Толстого или Международный Мемориал).

Почитать о конкретных проектах и узнать подробнее о том, чем занимаются студенты магистратуры «Цифровые методы в гуманитарных науках», можно в наших соцсетях:

Магистратура в ВК
Инстаграм Digital Humanities в Вышке
Фейсбук Digital Humanities в Вышке

Для поступления нужно написать мотивационное письмо, собрать портфолио и загрузить все это через личный кабинет вот здесь. Критерии оценки портфолио можно посмотреть здесь. Советуем подавать документы поскорее: так у комиссии будет больше возможностей оценить и учесть все ваши достижения, дипломы и сертификаты.
Приглашаем на конференцию MediaSoft – регистрация уже открыта!

25 сентября на конференции MediaSoft, где соберется вся тусовка digital-рынка, будем говорить про управление бизнесом: тонкости общения с клиентом, построение структуры внутри компании, позиционирование на рынке и многое другое.

От советских инженеров до ИТ-рынка нашего времени – развитие инженерной культуры региона началось больше столетия назад. Ульяновск сейчас – это более 300 ИТ-компаний, география клиентов которых распространяется на весь мир. В чем их секрет?

Расскажем на #MediaSoftConf! Билеты и программа на сайте: https://conf.mediasoft.team/