Специалисты НИУ ВШЭ выложили в открытый доступ набор данных по цифровым гуманитарным наукам. Набор данных содержит графы, геоданные, векторные модели и размеченные тексты.

Сети

Любое произведение литературы можно разложить на графы и диаграммы, выделив сети взаимодействий, появлений персонажей и даже частотность их реплик. Центр цифровых гуманитарных наук НИУ ВШЭ предоставляет в открытом доступе сети 11 книг — от античных трагедий до современной подростковой литературы.

Яркий пример — сеть взаимодействий персонажей книги Элиезера Юдковского «Гарри Поттер и методы рационального мышления». Проект разработан ученицей лицея НИУ ВШЭ. Всего проанализировано 752 связи между 194 персонажами.

Гарри Поттер и методы рационального мышления
Изображение: hum.hse.ru/digital/data

Геоданные

В данном разделе опубликованы работы, имеющие культурную ценность и географическую составляющую. Из художественной литературы были вычленены географические координаты для дальнейшего анализа.

На момент публикации обзора набор геоданных содержит десять завершённых исследований.

В исследовании книги Карамзина «Письма русского путешественника» до мелочей учтён сложный маршрут, отмечены все точки интереса — от трактиров и парков до мест случайных встреч.

Карта - Письма русского путешественника
Изображение: github.com/olyanechaeva/NechaevaO

Векторные модели романов

Векторная модель романа — это произведение, в котором все слова заменены на квазисинонимы, близкие по значению к оригинальным словоформам.

Компьютерный лингвист Дмитрий Орехов экспериментирует над популярными произведениями с помощью векторного алгоритма и языка программирования Python. С примерами результатов экспериментов можно ознакомится на сайте Дмитрия Орехова.

На изображении представлены оригинал и векторная модель произведения «Фауст».

Русская литература и дистрибутивная семантика
Изображение: nevmenandr.github.io/novel2vec/

Размеченные тексты

Планируете самостоятельно поработать с текстом по методике цифровых гуманитарных исследований? К вашим услугам большая база уже размеченных русских драматических произведений и сборники Льва Толстого.

Тексты размечены в формате TEI.

Разметка TEI на примере произведения Блока Незнакомка
Изображение: github.com/dracor-org/rusdracor