Филологи Вышки занялись культуромикой
Факультет филологии ВШЭ и «Рамблер-Афиша» начинают совместные проекты в области культуромики — нового направления гуманитарных цифровых исследований. Первый проект, «Имена времени», был представлен на фестивале «Политех», проходившем 24 и 25 мая на ВВЦ.
Что такое культуромика
Культуромика как направление гуманитарных исследований, имеющее дело с «оцифрованными» словами, была основана командой ученых из 17 крупных научных центров. Лидерами направления считаются Жан-Батист Мишель и Эрез Либерман Эйден из Гарвардского университета. Первые результаты их новаторского исследования были опубликованы журналом Science в 2010 году. Базой исследования стал интернет-сервис Google Books.
Основная идея состоит в том, чтобы с помощью статистики (частоты употребления слов в огромных массивах текстов) исследовать процессы, происходящие в культуре и обществе, выявить спады и подъемы общественного внимания к разным понятиям и культурным объектам. В частности, было изучено, как менялся словарь английского языка и цитируемость имен ученых на протяжении нескольких столетий. Самым известным опытом стало исследование цензуры в нацистской Германии, которое выявило, что частота упоминаний имени Марка Шагала резко падает в немецких текстах того периода и равномерно растет в текстах на английском языке.
Мы решили исследовать несколько центральных мифологем российского общественного сознания, выяснить, насколько они действительно для нас релевантны, как отражены в текстах и как они менялись на протяжении двух столетий
«Мы, в свою очередь, решили исследовать несколько центральных мифологем российского общественного сознания, выяснить, насколько они действительно для нас релевантны, как отражены в текстах и как они менялись на протяжении двух столетий, — рассказывает о проекте «Имена России» его куратор со стороны ВШЭ Анастасия Бонч-Осмоловская. — Мы взяли несколько общеизвестных штампов и сформулировали к ним исследовательские вопросы. Например, мы часто слышим выражение «лихие девяностые». Так вот мы решили, проверить, какими представляются разные десятилетия двадцатого века в нашей культурной памяти».
Как считать слова
Специально для исследований по культуромике, была разработана программа Google Ngrm, которая позволяет искать в оцифрованных книжных источниках не только отдельные слова, но и сочетания слов. Лингвисты Вышки использовали другие, более тонкие методы исследования и иную базу — не Google Books, а Национальный корпус русского языка. Его объем меньше, зато он позволяет фильтровать тексты по дате создания, а не публикации, что особенно важно при исследовании советской эпохи с ее жесткой цензурой, когда многие книги писались «в стол». Кроме того, в корпусе помимо художественной и научной литературы представлены газеты и журналы, что, безусловно, обогащает исходные данные.
«Но самое важное, что отличает корпус от электронной библиотеки, — это то, что каждое слово в текстах корпуса снабжено морфологической и семантической разметкой, — поясняет Анастасия Бонч-Осмоловская. — Это значит, что мы можем искать не просто частотные сочетания слов, но и задавать более сложные запросы. Например, для нашего исследования по воровству мы смотрели, какие существительные в винительном падеже встречаются в границах заданного расстояния с глаголом «воровать».
Явление одно, а слов тысячи
Одной из тем первого исследования стали классические «беды» России — дураки, дороги, воровство, коррупция. Лингвисты проследили, как менялось их восприятие в течение времени: какие эпитеты употреблялись с «дорогами» и «дураками», каковы были объекты воровства и профессии тех, кто брал и берет взятки. А, отталкиваясь от известного суждения «мужики все повывелись», исследователи сравнили, как менялась с XVIII века по настоящее время частотность употребления слов «мужик», «мужчина», «парень» и слов «женщина», «баба», «девушка».
Исследователи работали не с абсолютными, а с относительными величинами, нормированными относительно объема корпуса конкретного периода. Но количество анализируемых данных для каждого сюжета все равно было очень разным. Так, сравнение частотности слов, обозначающих мужчин и женщин, строилось на анализе примерно 100 тысяч словоупотреблений. Анализ прилагательных, употребляемых со словом «дорога», основывался на 15 тысячах словосочетаний. Некоторые из них (например, «большая дорога» или «железная дорога») имели такую высокую частотность, что могли оцениваться сами по себе. Другие (например, названия дорог по направлениям) были объединены в категории, чтобы получить сопоставимые с другими данными результаты. А для каждого из слов про взятки, дураков и воровство, набралось от одной до полутора тысяч примеров, поэтому все они просматривались вручную.
За позитивными характеристиками тридцатых годов всегда скрывается внутреннее противоречие — в самом контексте заложен контраст с ключевой эмоцией страха и ужаса, с которой эти годы в нашем самосознании устойчиво связаны
Тема «Имена времени» в наименьшей степени была количественным исследованием. «Данных о том, какие эпитеты встречаются перед названиями десятилетий, у нас совсем немного — примерно 120 примеров на 8 десятилетий, от двадцатых до девяностых, — говорит Анастасия Бонч-Осмоловская. — Поэтому мы тщательно изучали контексты употребления каждого прилагательного. Например, мы видим, что за позитивными характеристиками тридцатых годов всегда скрывается внутреннее противоречие — в самом контексте заложен контраст с ключевой эмоцией страха и ужаса, с которой эти годы в нашем самосознании устойчиво связаны».
«Имена времени» — какие они?
Инфографика, подготовленная «Рамблер-Афишей» для презентации проекта на фестивале «Политех», показывает, как менялось употребление ключевых для описания российской действительности понятий и эпитетов.
1930-е остались в культурной памяти как годы начала террора и сталинских репрессий. И если «ранние тридцатые» — это годы как бы до начала самого страшного периода советской истории, то «поздних тридцатых» нет, потому что эти годы по сути не заканчивают период, а символизируют его. Обратная история происходит с сороковыми. Сороковые годы — это война. Именно поэтому не бывает «ранних сороковых», но бывают «поздние» или «послевоенные», когда нужно обозначить первые мирные годы.
Интересная история произошла с восьмидесятыми годами, которые воспринимаются как апогей застоя, а перестройка — это уже даже не «поздние восьмидесятые», а «преддевяностые». А вот девяностые ясной, однозначной оценки не имеют. Тут складывается пестрая картина со множеством очень разных прилагательных — от «благословенных» до «бредовых» и от «демократических» до «криминальных».
Здесь задачей было посмотреть, кто брал взятки в разные периоды российской истории. Для этого было необходимо найти все контексты, содержащие существительное в именительном падеже со значением человека, глагол «брать» в любых морфологических формах и существительное «взятка» в винительном падеже. Получившиеся графики наглядно демонстрируют, как работала цензура в Советском Союзе. В середине двадцатого века о взятках пишут очень мало, и лишь к концу столетия графики начинают движение вверх.
Советская эпоха наложила отпечаток и на употребление слова «мужчина», его с успехом заменяло слово «товарищ». После падения коммунизма картина изменилась — «мужчина» теперь заменяет «товарища» при обращении к незнакомому человеку. Вместе с тем сопоставление частоты употребления различных слов, обозначающих мужчину, показывает, что для современного общества не столь важны социальные и возрастные противопоставления («парень», «мужик», «господин»). Центральным становится гендерное противопоставление «мужчина» — «женщина».
Олег Серегин, специально для новостной службы портала ВШЭ
Бонч-Осмоловская Анастасия Александровна
Доцент Факультета филологии
Вам также может быть интересно:
Диалекты хантов различаются больше, чем славянские языки
Исследовательница из НИУ ВШЭ и Института системного программирования РАН Идалия Федотова посчитала основные лексические различия в диалектах хантов. Оказалось, что сегодня этот малочисленный народ говорит не на двух, как считалось ранее, а на трех отдельных языках. Результаты опубликованы в журнале «Урало-алтайские исследования».
Изображая инопланетянина: как западная и восточная культура влияют на творчество и его оценку
Понятие «креативность» не имеет однозначного определения. Концепция креативности в разных культурах варьируется, что накладывает отпечаток и на оценку результата творческой деятельности. Этот факт подтвердило исследование сотрудников Лаборатории креативности и мультилингвизма НИУ ВШЭ на примере оценки творческих заданий студентами из России и Объединенных Арабских Эмиратов. Исследование было проведено в рамках гранта НЦМУ «Центр междисциплинарных исследований человеческого потенциала».
Ярослав Кузьминов: «Преподаватель – публичная фигура даже в сети»
Ректор Высшей школы экономики прокомментировал полемику о высказывании Гасана Гусейнова.
Как «цифра» помогает изучать «букву»
Цифровые технологии открывают новые возможности для изучения и публикации литературных архивов. О том, как их использовать и о результатах первых российских проектов в этой сфере, говорили участники круглого стола «Текст как DATA: рукопись в цифровом пространстве», состоявшегося 9 октября в Вышке.
Русский балет и танцовщики Гитлера. Список литературы: 13 книг по истории и пониманию танца
Ирина Сироткина, научный сотрудник Института истории естествознания и техники С. И. Вавилова РАН, автор курса «Танец и двигательная культура в истории и современности» в ВШЭ специально для IQ.HSE выбрала 13 книг о танце.
На новой бакалаврской программе «Античность» будут готовить историков и филологов
На образовательной программе «Античность», первый набор на которую пройдет в 2019 году, студенты будут изучать языки, литературу, историю и культуру Древней Греции и Рима, а студенты, выбравшие направление «Филология» — еще и литературу Византии. Они научатся работать с разными источниками: читать эпиграфические памятники, рукописи и папирусы, анализировать произведения античного искусства. О возможностях программы и карьерных горизонтах выпускников рассказывает академический руководитель программы Вера Мостовая.
На Красной площади пройдет фестиваль русского языка
С 31 мая по 3 июня в рамках Книжного фестиваля «Красная площадь» пройдёт фестиваль русского языка «Родное слово», в котором примут участие сотрудники Школы филологии ВШЭ.
Список литературы: исследования русской формальной школы
В новом выпуске рубрики «Список литературы» профессор Школы культурологии НИУ ВШЭ Ян Левченко рассказывает о лучших исследованиях русской формальной школы.
Бонч-Осмоловская Анастасия Александровна
куратор проекта «Имена России»