Язык R в гуманитарных и социальных исследованиях

Директор мастерской «Анализ данных в социальных науках» рассказал редакции сайта «Цифровой дискурс» об анализе данных на языке R в гуманитарных науках.

0
395

Наш собеседник: Александр Фенин, социальный психолог, менеджер по продукту Digital Freud, директор мастерской «Анализ данных в социальных науках». Основатель просветительских проектов Praxis и Psychodemia.Science, в популяризации науки с 2013 года. Иронично себя называет «аспирантом-недоучкой» Лаборатории возрастной психогенетики ПИ РАО.

— Александр, расскажите, как вы пришли к анализу данных, будучи психологом?

Александр Фенин
Фотография: личная страница Александра Фенина, vk.com

— На самом деле многие психологи занимаются анализом данных в том или ином виде. Психология — полноценная наука, большая часть исследований в ней — количественные, стало быть, есть и работа с данными. В психологии активно используются корреляции, регрессии, mixed models, ANOVA, факторный и кластерный анализ. Хотя большая часть исследований останавливается на первом.

R в гуманитарных науках

— Стереотипная кушетка психоаналитика слабо вяжется с анализом данных и программированием на языке R. Для каких задач психологу могут потребоваться аналитические навыки и владение R?

— Зачастую для научных работ психологи пользуются программой Excel, в лучшем случае такими статистическими продуктами, как SPSS или Statistica. Существуют целые гайды по тому, как тыкать в кнопочки внутри, чтобы сделать весь необходимый анализ, и даже не задумываясь, что именно происходит. R лучше в ряде существенных пунктов: во-первых, он позволяет сохранять и шерить скрипты подготовки и анализа (второе есть и в указанных продуктах, но этим мало кто пользуется); во-вторых, он позволяет на порядок более гибко и прозрачно готовить, анализировать и визуализировать данные; в-третьих, у него огромное и всегда готовое прийти на помощь комьюнити, регулярно снабжающее потенциальных исследователей новыми удобными библиотеками и идеями по обработке данных.

— И поэтому вы решили создать мастерскую анализа данных, где ждёте психологов, социологов, экономистов, лингвистов, готовых изучать R?

— Я давно занимаюсь популяризацией науки, и в некоторой степени это именно она. С другой стороны, это ещё и возможность изучить R тем, у кого никак не хватает терпения сесть за онлайн-курсы. Вы приезжаете на Летнюю школу, оказываетесь в умеренной изоляции от внешних раздражителей, с вами ещё 20–30 таких же начинающих, и вы каждый день по многу часов грызёте гранит R. Получается очень захватывающе и, главное, — эффективно.

Читайте также:  Bing выявит симптомы болезни Паркинсона по онлайн-запросам

— Верным ли будет утверждение, что гуманитарные науки получили второе дыхание с появлением интернета и социальных сетей, где хранится огромный массив открытых данных, ждущих своего исследователя?

— Не готов ручаться за все науки, но могу сказать, что в той же психологии особого бума таких исследований не наблюдается. Возможно, из-за того, что исследуемые конструкты операционализировались ещё в доинтернетовскую эпоху и как изучать их в новых реалиях, если не просто коррелировать и пытаться предсказывать старые показатели на основании новых данных, не очень понятно. Но, разумеется, проблески есть, и многие — да и мы в Digital Freud тоже — работают сейчас в этом поле как в науке, так и в индустрии.

— А что насчёт анализа офлайновых данных? Пригодятся ли гуманитарию в этом случае навыки программирования на языке R?

— Да, разумеется. На самом деле мы даже не столько работаем с онлайном, сколько со вполне офлайновыми, каким-то образом собранными датасетами. В них вагон и маленькая тележка задач, великолепно решаемых языком R.

— С какими сложностями сталкиваются те, кто впервые подходит к изучению R?

— Мне кажется, главная сложность R — психологический барьер «о боже, я программирую». В остальном, особенно с наличием целого вороха удобных IDE [IDE — Интегрированная среда разработки, упрощающая работу программиста], это очень красивый и удобный способ работы с данными. В него натурально влюбляешься.

Выбор между R и Python

— Но ведь есть другой достойный претендент для решения этих задач. Python более популярен и широко распространён в анализе данных, а курсов и литературы на русском языке по Python больше, чем по R. Выбор между ними обусловлен потребностями современных гуманитарных исследований или это дело вкуса?

— Думаю, дело вкуса и отчасти моды. R почему-то очень распространился именно в социально-научной среде за рубежом и отчасти в России. Хотя это справедливо не для всех наук: лингвисты, например, в подавляющем большинстве своём предпочитают Python. Как минимум из-за более разработанного аппарата NLP [NLP — Обработка естественного языка], но, полагаю, не только.

Читайте также:  Bing выявит симптомы болезни Паркинсона по онлайн-запросам

— Как бы хорошо гуманитарий ни знал R, всё же это не основной его профессиональный навык. Можете обозначить необходимый минимум владения навыками программирования на R, которого будет достаточно для применения в гуманитарных исследованиях? Сколько может потребоваться времени для достижения этого уровня?

— Минимум — вообще никакого, большая часть науки всё ещё делается в готовых пакетах. Но если вы хотя бы умеете готовить данные в R, у вас уже будет серьёзное преимущество: в гибкости, в скорости внесения изменений, в прозрачности процесса. Пример: множество раз сталкивался с тем, что люди забывали, что именно они сделали в Excel перед тем, как анализировать данные в SPSS, и им приходилось натужно вспоминать или начинать сначала.

С чего начать изучение R

— Что вы посоветуете молодому исследователю, который решит изучить R? На что стоит обратить особое внимание, каким вопросам уделить время?

— Циклы проще, но apply-семейство — очень важная история в R, не пренебрегайте им. Как только освоитесь с основным синтаксисом, попробуйте залезть в data.table или dplyr — вам почти наверняка придётся работать или с тем, или с другим, и лучше перестать их бояться сразу же. Лучше всего сразу делать полный цикл обработки на R: от сырых данных до готовых отчётов. Для этого потребуется подтянуть RMarkdown, но поверьте, вы не пожалеете.

— А что насчёт курсов или must-read-литературы?

— На stepik.org есть несколько отличных курсов: от Толи Карпова и Вани Иванчея, от Антона Антонова. Есть курсы DataCamp и целое множество других в зарубежном интернете. Из офлайновых: приезжайте к нам на Летнюю школу, можно с нулевым уровнем, всему научим. Из книг однозначный must-read — это работа Энди Филда «Discovering Statistics Using R». Но вообще какие к чёрту книжки, это же язык программирования! Все ответы есть на Stack Overflow, дерзайте.

Читайте также:  Bing выявит симптомы болезни Паркинсона по онлайн-запросам

О Летней школе «Анализа Данных»

— Раз вы упомянули Летнюю школу «АнДан», расскажите о ней подробнее. Для кого эта школа, и с какими навыками её заканчивают?

— Мы всегда старались делать мастерскую такой, чтобы нам самим было приятно там учиться. Поэтому это мастерская для тех, кто слышал про R, кто смотрел на R, кто думал про R, возможно, даже записывался на курсы по R, но почему-то так и не начал. Мы даём отличную возможность начать: освободиться от оков Excel и SPSS. Это мастерская для тех, кто уже умеет, но хочет большего. Это мастерская для тех, кто хочет рисовать крутую инфографику по большим данным, но не знает, с чего начать. В общем, для тех, кто готов взять анализ данных в свои руки по-настоящему. И что самое интересное, таких людей с каждым годом всё больше — и мы их с нетерпением ждём.

— Александр, благодарим за интересную беседу, желаем успехов в популяризации науки и работе мастерской!

Мастерская «АнДан» — Как это было

Предлагаем ознакомиться с фотографиями работы мастерской в 2016 и 2017 годах.

ОСТАВЬ КОММЕНТАРИЙ

avatar