ОБЪЕДИНЕННОЕ ГУМАНИТАРНОЕ ИЗДАТЕЛЬСТВОКАФЕДРА РУССКОЙ ЛИТЕРАТУРЫ ТАРТУСКОГО УНИВЕРСИТЕТА
о проекте | анонсы | хроника | архив | публикации | антология пушкинистики | lotmaniania tartuensia | з. г. минц
personalia | ruthenia – 10 | сетевые ресурсы | жж-сообщество | независимые проекты на "рутении" | добрые люди | НОВОСТЬ: Ruthenia в Facebook

ИЗ ПЕСНИ ... НЕ ВЫКИНЕШЬ
Опыт экспериментальной поэтики

Д. Ю. МАНИН

Аннотация
В работе описан крупномасштабный эксперимент по изучению некоторых аспектов восприятия читателем художественных текстов. Эксперимент организован в виде сетевой литературной игры на угадывание слов в отрывках реальных текстов и призван квантифицировать степень непредсказуемости (неожиданности) и связанности (незаменимости) слов в них. Представлены первые результаты анализа полученных данных. На основании этого анализа делаются выводы о характере различий между прозой и поэзией и о роли формальных ограничений в поэзии.

1. Введение

В «Структуре художественного текста» Ю. М. Лотман выдвинул стройную и привлекательную теоретическую концепцию. Нельзя, однако, не признать, что она носит несколько умозрительный характер. Хотя Лотман пользуется терминами математической теории информации, говоря об информативности, энтропии, коде, избыточности, но употребляются эти термины скорее метафорически, чем терминологически. Это не упрек: почти никаких точных данных, на которые можно было бы опереться в подобных построениях, до сих пор не существовало. Цель настоящей работы — хотя бы отчасти восполнить этот пробел, предоставив теоретикам островок твердой почвы под ногами.

Плодотворность точных методов в литературоведении в настоящее время не должна вызывать сомнений. Б. И. Ярхо [1] и М. Л. Гаспаров с соавторами (см., напр., [2]) продемонстрировали, как это можно делать. Ярхо связывал «точные методы в литературоведении», в первую очередь, со статистическим анализом текстов. Так, в новаторской работе о трагедиях и комедиях Корнеля он нашел 15 формальных признаков (таких, например, как средняя длина реплики), которые прекрасно коррелируют с авторским определением жанра пьесы. Мало того, рассмотрев отдельно пьесы, в которых интуитивное жанровое ощущение неоднозначно («героические комедии», например), он обнаружил, что его показатели находятся в согласии с этим ощущением.

Спрашивается, зачем нужен показатель, который показывает то, что нам и так известно? Дело в том, что это только первая, хотя и фундаментально важная, стадия естественнонаучной работы. Методы статистического анализа текстов обычно попадают в категорию «математических», но во многих случаях они гораздо ближе по духу к методологии естественнонаучного исследования.

Спросим: зачем нужен термометр, прибор, который показывает то, что нам и так известно — какой предмет горячее, а какой холоднее? Опустите левую руку в горячую воду, а правую — в холодную. Затем выньте и опустите обе в воду комнатной температуры. Она покажется левой руке холодной, а правой — горячей. Точно так же, действие одной и той же пьесы может показаться стремительным или затянутым, в зависимости от установки или воспитания зрителя. В лучшем случае, без термометра можно выстроить сравнительный ряд: эта кастрюля горячее той. Но на материале поэтики даже такие качественные утверждения легко могут быть оспорены. Дойдя до этого пункта, можно сказать, что ощущение «нагретости воды» чисто субъективное, и исследование на этом закончить.

Но можно попробовать изобрести термометр. Например, физик замечает, что некоторые тела при нагревании расширяются. Пока это утверждение интуитивно и бездоказательно: ведь объективного критерия нагретости у нас нет. Не смущаясь этим, физик конструирует водяной термометр, который измеряет нагретость тел по тому, насколько расширяется вода в колбе. На первый взгляд, такое измерение впадает в порочный круг, но это не так. Имея термометр, можно проверить, что и другие тела расширяются при нагревании пропорционально температуре, измеряемой водяным термометром. А значит, можно построить еще и спиртовой и ртутный термометры. Если оказывается, что их показания согласуются друг с другом и с нашими ощущениями, мы получаем важный результат: оба они измеряют одну и ту же объективную величину, нагретость тела. Но этого мало. Водяной термометр пригоден только в ограниченной области температур: от точки замерзания воды то точки ее кипения. Спиртовой же работает и при более низких температурах, зато не достигает точки кипения воды. Но поскольку у них есть общий диапазон (от нуля до 80 градусов Цельсия), их показания можно согласовать друг с другом и растянуть диапазон измеримых температур. Далее физик обнаруживает, что температуру можно измерять и по другим признакам: электрическому напряжению в термопаре, свечению раскаленного материала. Работая таким образом, он научается измерять температуру самого Солнца, где уже речи быть не может о том, чтобы поверить показания термометра рукой.

М. И. Шапир в послесловии к «Методологии точного литературоведения» Ярхо ([3], с. 894) пишет: «Ярхо, я думаю, избежал провала лишь потому, что обследовал пьесы, созданные в короткий исторический промежуток и действительно обладавшие характеристиками, которые ученый неправомерно обобщил до универсальных признаков драмы». Но это критическое замечание можно прочесть, вопреки намерению его автора, как «Ярхо избежал провала только потому, что правильно поставил задачу». Пользуясь нашей термометрической метафорой, можно сказать, что Ярхо сконструировал только один, водяной термометр. Действительно, он пригоден только в ограниченном диапазоне «температур». Но интуитивные понятия комичного и трагичного отнюдь не ограничены драмой Корнелевского периода. Успех Ярхо на этом небольшом материале дает надежду, что для другого материала тоже можно найти объективные признаки, измеряющие положение текста на оси «трагичности/комичности». Конечно, это будут другие признаки, но если получится согласовать два измерительных прибора на том материале, к которому оба применимы, то мы получим важный результат: оба они измеряют одну и ту же объективную величину, комичность/трагичность текста. А продолжая эту работу, может быть, удастся добраться и до «Солнца», т.е. измерить степень комичности/трагичности текстов (например, древних), по отношению к которым нашей интуиции мы доверять уже не можем.

Эта картина может показаться совершенно утопической, но вспомним, что несколько из найденных Ярхо признаков имеют общий смысл большей «подвижности», «раздробленности» действия в комедии. Нетрудно представить себе, что другие формальные признаки, применимые, например, к роману или эпосу, будут иметь тот же общий смысл. Разве это не добавит нам понимания природы жанра? А обладая целым рядом подобных «измерительных приборов» для разных величин, можно изучать, как эти величины менялись во времени и пространстве, как они связаны друг с другом, и на этом материале выявлять закономерности следующих уровней.

Бытует представление о том, что цель работы естествоиспытателя — построение всеобъемлющей математической модели явления (или «открытого класса явлений» [3]). Но это не так. В конечном счете мы стремимся к пониманию предмета, хотя и не знаем толком, что именно значит — понимать. Математические модели явлений выделяют в очищенном виде отдельные принципы их устройства и тем помогают добыть понимание. Но они не являются самоцелью. Равным образом, статистические подсчеты в поэтике, как и все другие методы, суть лишь средство понять предмет исследования.

Обрисованная выше модель работы естествоиспытателя, конечно, не единственно возможная. Мы так подробно остановились на ней потому, что именно такова методологическая установка настоящей работы. В ней предпринята попытка квантифицировать некоторое интуитивное ощущение от художественного текста, в особенности стихов. Это — ощущение «слова на своем месте».

Существует множество вариантов ответа на вопрос, чем художественный текст отличается от нехудожественного. Все они, по-видимому, так или иначе отмечают более тесную связь (вплоть до тождества) между планом выражения и планом содержания художественного текста. Таково определение поэтической функции языка по Р. Якобсону как направленности сообщения на самое себя. Таковы соображения Ю. Лотмана о семантизации всех элементов стихотворной формы. Эти и подобные формулировки, однако, едва ли можно квантифицировать. Разбирая конкретные произведения, можно доказывать, что грамматические формы (Якобсон) или фонетика стиха (Лотман) вступают в системные отношения с семантикой текста. Но во-первых, такие разборы оказываются не безоговорочно убедительны (ср. полемику Якобсона с его критиками в [4]), а во-вторых, что важнее, они не ведут к количественным результатам. Разумеется, это не лишает их самостоятельной ценности, но делает непригодными для интересующей нас здесь цели.

Такие обобщенные теоретические формулировки появляются как результат размышления над непосредственным читательским и писательским опытом: ощущением «слова на своем месте». Можно найти, вероятно, десятки высказываний на эту тему у авторов самых разных эпох и стилей:

    Not a line is drawn without intention... As Poetry admits not a Letter that is Insignificant so Painting admits not a Grain of Sand or a Blade of Grass Insignificant much less an Insignificant Blur or Mark.
    Вильям Блейк. Видение о Страшном Суде.
    Все слова должны быть обязательны.
    Хармс. Записные книжки. Книжка 38. Л. 3 [5].
    [...] читатель считает, что предложенный ему текст (если речь идет о совершенном произведении искусства) единственно возможный — «из песни слова не выкинешь».
    Лотман. Структура художественного текста. Гл. 1 [6].
    В докладе о стихе я взял в виде примера ЕВГЕНИЯ ОНЕГИНА. Вся поэма представляет собой неразложимое единство, где ВСЕ обусловлено и необходимо, нельзя выкинуть ни одного слова без нарушения целостности и т. д.
    Колмогоров. Семиотические послания [7].
    Убежденность поэта в том, что в поэзии не бывает ничего случайного, опровергает ребяческие соображения некоторых литературоведов, полагающих, что «стихотворение может содержать в себе структуры, не связанные с его литературной функцией и воздействием».
    Якобсон. Постскриптум к «Вопросам поэтики» [4].

Но не является ли это знакомое каждому ощущение мифом, культурно-обусловленной фикцией? Разные тексты вызывают его у разных читателей в разной степени. Стоит ли за ним какая-нибудь объективная реальность, и если да, то какая и можно ли ее измерить?

Ощущение «слова на своем месте» складывается из двух составляющих: неожиданности и незаменимости элементов текста. Обе они поддаются непосредственному измерению. Неожиданность означает, что пропущенное слово должно быть трудно угадать, а незаменимость означает, что из двух вариантов должно быть легко выбрать «правильный», т.е. авторский. Эта идея легла в основу описываемого здесь эксперимента. Он реализован в виде сетевой литературной игры, где участникам предлагается угадывать слова в отрывках реальных текстов. Неправильно угаданные одним участником слова предлагаются другим как альтернативы авторскому слову (замены). Подробное описание методики следует ниже, а сначала мы очертим теоретическую парадигму, в рамках которой будут интерпретироваться результаты.

2. Информация и литература

С самого зарождения математической теории информации исследователи стремились приложить ее к феномену художественной литературы. Уже в классической работе, заложившей основы теории [8], ее создатель Клод Шеннон писал:

    Два крайних примера избыточности в английской прозе представлены Элементарным английским (Basic English) и книгой Джеймса Джойса «Поминки по Финнегану». Словарь Элементарного английского ограничен 850 словами, и его избыточность очень велика. Это отражается в удлинении текста при переводе на Элементарный английский. С другой стороны, Джойс расширяет словарь и, как утверждается, достигает концентрации семантического содержания.

Проблема, однако, в том, что математическая теория информации не дает способа измерять «семантическое содержание». Она создавалась для решения весьма практической задачи: сколько «информации» можно передать по данному кабелю в единицу времени и как увеличить это количество? Ясно, что для этого надо было сначала научиться измерять передаваемую «информацию». Шеннон предложил способ это делать: количество информации в сообщении он связал с неожиданностью этого сообщения для получателя. В одном предельном случае это определение согласуется с интуицией: если сообщение заранее известно, полностью предсказуемо, то оно не несет информации. Чем сообщение более неожиданное (т.е. чем меньше его априорная вероятность для получателя), тем больше информации оно несет. Однако в таком случае больше всего информации содержится в «сообщении», состоящем из случайного набора букв, оно самое непредсказуемое.

Парадокс здесь только кажущийся. Чтобы в нем разобраться, полезно отвлечься от того, как измерять количество информации, и рассмотреть понятие плотности информации, количества ее в расчете, скажем, на букву. Если то же самое «содержание» передать более коротким текстом, то его плотность, очевидно, в этом тексте будет больше, чем в исходном. Программы-архиваторы, такие, как zip, именно так и устроены: сжимая текст, например, «Войны и мира», они преобразуют его в набор знаков, случайный на вид, и более короткий. Ясно, что как бы ни измерять «количество информации» в тексте «Войны и мира», в сжатом тексте оно останется таким же, а плотность ее возрастет. Примерно это и имеет в виду Шеннон, говоря о переводе Джойса на элементарный английский: количество информации при таком переводе осталось бы прежним, а плотность уменьшилась бы, потому что возрос бы объем.

Но здесь возникает существенная трудность: отнюдь не очевидно, что «Поминки по Финнегану» в принципе возможно перевести на упрощенный язык без ущерба содержанию. Скорее, очевидно, что этого сделать нельзя. Именно поэтому математическую теорию информации невозможно строго применить к задачам филологии. До тех пор, пока под «содержанием» мы понимаем буквальный вид текста и занимаемся обратимыми преобразованиями текстов из одного формата в другой, кодированием и декодированием, не возникает вопроса о том, осталось ли «содержание», а стало быть, и его «количество» неизменным при преобразованиях. Как только мы переходим к возможности (или невозможности) разного выражения одного и того же содержания, критерии становятся крайне размытыми, а теорию информации можно использовать лишь как суггестивную метафору (что, впрочем, отнюдь не бесполезно).

Отсюда видно, какую важную роль играет понятие синонимии текстов, т.е. вопрос о том, выражают ли два разных текста одно и то же содержание. Естественный язык обладает огромными возможностями для перифразы. Одно и то же содержание можно выразить многими разными способами (в частности, это предложение можно рассматривать как перифразу предыдущего). Однако, по-видимому, художественный, особенно поэтический, текст разительно отличается от утилитарного отсутствием такой синонимии — ср. знаменитое замечание Льва Толстого о том, чтó он хотел сказать «Анной Карениной». Ощущение слова на своем месте, о котором говорилось выше, также следует понимать в том смысле, что замена слова приводит (в идеале, конечно), к изменению содержания, а не к другому («худшему») выражению того же содержания. Лотман [6]:

    Замена в тексте того или иного слова дает для него [читателя — Д. М.] не вариант содержания, а новое содержание. Доводя эту тенденцию до идеальной крайности, можно сказать, что для читателя нет синонимов. Зато для него значительно расширяется смысловая емкость языка.

Ср. аналогичное замечание из современного американского курса поэтики [9]:

    The selection of the right or best word or phrase in the right or best place is so delicate a task because — the exaggeration is minute — there are no synonyms.

Но куда деваются перифрастические возможности языка, когда речь заходит о художественных текстах? Почему от исчезновения синонимии «расширяется смысловая емкость языка»? Одна из задач настоящей работы в том, чтобы попытаться ответить на эти вопросы, придав соответствующим понятиям более точный смысл.

Другой аспект проблемы художественного текста связан с ролью формальных ограничений в поэзии — метра, рифмы и т.п. В ряде неопубликованных работ, популяризованных Лотманом в [6] (см. также [7]), А. Н. Колмогоров развивал теоретико-информационный подход к этому явлению, основанный на представлении о том, что поэт как бы выбирает среди всех возможных текстов, выражающих данное содержание, те, которые дополнительно удовлетворяют необходимым формальным требованиям. Рассмотрим для иллюстрации множество всех возможных комбинаций букв, например, не длиннее «ВиМ». Это очень большое, но конечное число. Какая-то небольшая часть среди них будет грамматически правильными осмысленными русскими текстами. Разобьем их все на классы эквивалентности по синонимии, так что в каждый класс попадут взаимозаменяемые тексты, которые значат одно и то же. Иначе говоря, каждый такой класс будет выражать некоторое содержание, отличное от содержания других классов, причем выражать всеми возможными способами. Тогда количество синонимических классов даст нам количество смыслов, которые можно выразить текстом не длиннее «ВиМ», а среднее число текстов в каждом классе — количество способов, в среднем, выразить любое данное содержание. Первая величина (точнее, ее логарифм) отражает «энтропию смысловой емкости» языка, а вторая — «энтропию гибкости языка». Если энтропия гибкости достаточно велика, т.е. данное содержание может выражаться достаточно большим числом способов, то можно надеяться что, среди них найдутся и варианты, удовлетворяющие формальным ограничениям поэзии.

Такой подход, однако, связан с серьезными проблемами. Сам термин «(формальные) ограничения» предполагает сужение пространства возможностей. Но это, в свою очередь, означает понижение неожиданности, а вместе с ней и информативности, даже если понимать ее только метафорически. В небольшой, но содержательной [10] Р. Абернати отмечает как парадокс, что «поэзия использует сокращенный и обедненный по сравнению с повседневной речью язык». Абернати предлагает для разрешения этого парадокса приписать всем высказываниям языка некую субъективную вероятность и считать, что настоящие стихи обладают сильно пониженной вероятностью, т.е. повышенной неожиданностью, несмотря на суженное пространство возможностей, из которого они выбираются. К сожалению, это совершенно неконструктивный подход, поскольку непонятно, как приписывать высказываниям вероятности, а главное — почему особо низкая вероятность оказывается связана именно с выполнением неких формальных ограничений.

Надо заметить, что, по-видимому, и сам Колмогоров не был удовлетворен таким подходом, отчего им и не было опубликовано никаких работ на эту тему. В недатированной рукописи [11], впервые опубликованной В. А. Успенским в [12], он отмечает, что «В стихах допускается несколько более свободное пользование необычным в прозе расположением слов, что несколько увеличивает показатель β» (показатель гибкости выражения). (Успенский в [13], примечание к п. 5.2, тоже признает, что даже «презумпция о том, что корпус текстов литературных составляет лишь часть корпуса текстов осмысленных» требует корректив и приводит в качестве контрпримера «Дыр-бул-щыл» Крученых.) Зато можно предположить, что именно эта неудовлетворенность послужила толчком к созданию алгоритмической теории сложности. Характерно, что в работе [14], заложившей основы этой теории, при обсуждении вероятностного подхода к количеству информации Колмогоров пишет о его проблематичности применительно, например, к тексту «Войны и мира», а затем, после введения понятия, ныне известного как колмогоровская сложность, отмечает: «такие величины, как “сложность” текста романа “Война и мир”, можно считать определенными с практической однозначностью».

Лотман предлагает иной путь разрешения проблемы. Он говорит, что энтропия гибкости языка «преобразуется» для читателя в энтропию смысловой емкости:

    Выражение для него [читателя — ДМ] становится содержанием — он воспринимает поэтический текст не как один из возможных, а как единственный и неповторимый. [...] Энтропия h2 воспринимается как h1, как расширение круга того, о чем можно сказать в пределах данной длины текста. Читатель, ощущающий необходимость поэзии, видит в ней не средство сказать в стихах то, о чем можно сообщить и прозой, а способ изложения особой истины, не конструируемой вне поэтического текста.

Иначе говоря, по Лотману, ключевую роль здесь играет уже упоминавшееся исчезновение текстовой синонимии в поэзии. Однако, так же, как с пониженными вероятностями Абернати, непонятным остается происхождение этого эффекта и его связь с формальными признаками поэзии. Мало того, само его существование, по существу, остается неподтвержденной гипотезой, интуитивным суждением.

Таким образом, даже из этого краткого обзора становится понятно, что измерение как неожиданности, так и «незаменимости» (несинонимичности) слов в тексте имеет прямое отношение к принципиальным вопросам устройства художественного текста.

3. Постановка эксперимента

Поставленная нами задача измерения неожиданности слов в тексте очень близка к задаче измерения количества информации в нем (обычно говорят об энтропии, т.е. плотности информации в расчете на символ), поскольку математическая информация тоже есть мера неожиданности. Существует ряд работ, посвященных экспериментальному определению энтропии естественного языка. С практической точки зрения, эта величина важна, потому что дает теоретический предел степени сжатия текстов. Так, поскольку в русском алфавите приблизительно 32 = 25 букв (если не считать пробела и знаков препинания), максимальная энтропия текста, составленного из такого алфавита — 5 бит на букву. Если энтропия реального русского текста составляет, например, 1,25 бит на букву, то его теоретически можно сжать в 5/1,25 = 4 раза. Существующие программы-архиваторы сжимают тексты на естественном языке всего примерно вдвое, и улучшение этого показателя — заманчивая задача для исследователя. Оценки энтропии важны и для таких приложений, как автоматическое распознавание речи.

Первым, кто применил методы теории информации к исследованию свойств текстов на естественном языке, был сам основатель теории Клод Шеннон в классической работе 1951 года [15]. Он провел эксперименты, в которых респонденту предлагалось угадывать следующую букву в случайно выбранных отрывках из биографии президента Джефферсона (очевидно, текст литературный, но не образцово художественный). По результатам эксперимента Шеннон оценил энтропию литературного английского в пределах 0,6–1,3 бит на символ, что в 3–7 раз меньше, чем для последовательности, в которой те же буквы случайно перемешаны.

Впоследствии ряд авторов повторяли эксперименты Шеннона с различными модификациями. Фонодь, работа которого [16] была популяризована Лотманом, сравнил угадываемость следующего символа в трех типах текстов: стихах, газетной статье и «разговоре двух девушек». Методика эксперимента в этой работе была, по-видимому, упрощенной (каждая буква угадывалась только один раз, а не до правильного ответа), что не позволяет по полученным результатам вычислить оценки энтропии по Шеннону. Однако вывод о том, что в стихах на 100 фонем угадывались лишь 40, в газетной статье — 67, а в телефонном разговоре двух девушек — целых 71, свидетельствовал в пользу повышенной энтропии в поэзии. С другой стороны, Фонодь отмечает, что ритмическая и фоническая (аллитерация, ассонанс, рифма) упорядоченность, казалось бы, действует в противоположном направлении, снижая непредсказуемость, а с ней и энтропию, и делает вывод о том, что оба явления можно свести к одному и тому же «принципу экономии».

Другие оценки энтропии естественного текста, как с использованием экспериментов типа Шеннона, так и методами статистического анализа текстов, можно найти в [14, 17–23]. В некоторых из этих работ делались попытки связать теоретико-информационные характеристики текстов с их стилем и художественностью. Однако в основном подобные исследования мотивированы практической задачей оптимального сжатия текстов. Отметим единственное, по-видимому, методическое исследование зависимости энтропии от стиля, времени написания и автора [18], где материалом служили 39 английских переводов 9 греческих текстов, но использовалась весьма грубая методика оценки энтропии (по частотам двухбуквенных сочетаний).

В отличие от всех работ этого направления, где текст угадывался последовательно по одной букве, в нашем эксперименте, в соответствии с поставленными задачами, респондентам предлагалось угадывать целое слово, выпущенное из середины контекста. Во-первых, минимальной единицей текста служит, конечно, слово, а не буква: даже при угадывании текста побуквенно люди в большинстве случаев основывают свой выбор на догадке о текущем слове. Во-вторых, даже обыкновенный текст не является простой последовательностью букв или слов, а пронизан синтаксическими и смысловыми связями между удаленными элементами. Стихи же и подавно представляют собой самосогласованные структуры, которые не читаются и тем более не пишутся последовательно.

Эксперименты совсем другого рода, мотивированные непосредственно задачами филологии, проводились А. М. Пешковским [24], который анализировал искусственно придуманные варианты авторских текстов с целью продемонстрировать, что они всегда «ухудшают» текст. Согласно Шапиру [3], «аналогичные проверки на уместность тех или иных лексем предлагала проводить Э. Риккерт» в книге [25]. Несмотря на близость мотивировки, наше исследование существенно отличается методологически. Во-первых, варианты текста не придумываются экспериментатором, а возникают как попытки респондентов восстановить авторское слово. Во-вторых, оценка вариантов производится не экспериментатором, а респондентами, в условиях, исключающих субъективность и пристрастность по отношению к тексту или автору. Наконец, мы не оперируем понятием «улучшения» или «ухудшения» текста, но спрашиваем только, можно ли отличить авторское слово от замены.

Эксперимент организован в виде сетевой литературной игры. Респондентам предлагается зарегистрироваться, заполнив по желанию небольшую анкету. Зарегистрированным игрокам предлагаются задания трех типов:

  • тип 1: восстановить пропущенное авторское слово в фрагменте стихотворного или прозаического текста;
  • тип 2: определить, является ли выделенное слово авторским или заменой;
  • тип 3: из двух предложенных слов выбрать авторское.

Полный протокол игры сохраняется в базе данных. Неправильные ответы на задания типа 1 выдаются в заданиях типов 2 и 3 в качестве альтернатив авторскому слову. Алгоритм выдачи заданий сводится в основном к следующему:

  • случайным образом выбирается тип задания (равновероятно любой из трех типов);
  • для типа 1 случайно (равновероятно) выбирается фрагмент и в нем слово. Словом считается любая последовательность из не менее 5 русских букв, заключенная между не-буквами;
  • для типов 2 и 3 случайно выбирается одна из имеющихся замен, после чего
  • для типа 2 с вероятностью 1/2 выбирается, предъявлять ли авторское слово или замену, а для типа 3 — предъявлять ли авторское слово первым или вторым в списке;
  • наконец, с вероятностью 1/2 выбирается, предъявлять ли название текста и имя автора.

Трудность задания при этом колеблется в очень широких пределах — от очевидных до «невозможных» (например, имя собственное во фрагменте совсем незнакомого прозаического текста). С точки зрения эксперимента, это необходимо — нам нужно полное покрытие. Но и с точки зрения игры это оказывается уместно: трудные задания подогревают интерес, а легкие служат чем-то вроде утешительного приза.

Предполагается, что играющие в такую игру будут стремиться найти наилучшее (т.е. наиболее подходящее) возможное слово. Для того, чтобы дополнительно поощрить такое поведение, игрокам начисляются очки за правильный ответ: 10 очков за задание типа 1, 5 за задание типа 2 и 3 за задание типа 3. Для того, чтобы стимулировать поиск подходящего слова в «безнадежных» (самых интересных для нас, в некотором смысле) ситуациях, дополнительно начисляются очки за удачные замены: всякий раз, когда замена принята другим игроком за авторское слово, ее автор получает 3 очка (а когда не принята — теряет одно). Наконец, для того, чтобы не было выгодно выбирать только легкие задания, а трудные пропускать, за каждое задание, оставленное без ответа, с игрока снимается одно очко.

Игра состоит из трех этапов. Набор текстов в первом этапе фиксирован, он содержит 3439 фрагментов в 34 категориях. Большинство категорий состоят из произведений одного автора, иногда и определенного времени (например, стихи из сборника Ахматовой «Вечер»). Некоторые категории — сборные, например, случайная выборка стихотворений с сайта stihi.ru, популярного места самопубликации преимущественно непрофессиональных авторов. Средняя длина фрагмента — 141 символ, что приблизительно соответствует одному четверостишию пятистопного ямба. Категории текстов в первом этапе отбирались с целью исследовать возможно более широкий стилистический диапазон и определить таким образом границы изменения измеряемых величин, т.е. набросать карту местности, прежде чем переходить к ее подробному изучению. Полный список категорий приведен в Приложении.

Игроки, прошедшие до конца первый этап, получают доступ во второй и третий. Тексты во втором этапе отбираются экспериментатором, а в третьем — вводятся самими игроками. Третий этап, таким образом, в первую очередь, игровой, и его данные здесь рассматриваться не будут (впоследствии, впрочем, возможно привлечь к анализу и их). Набор текстов второго этапа продолжает пополняться и преследует две основные цели:

  • сопоставить данные по рифмованным и белым стихам, верлибру и прозе одних и тех же авторов;
  • сопоставить данные по произведениям одних и тех же авторов на разных этапах творческой биографии;

По результатам игры вычисляются статистические характеристики: усредненные по категориям непредсказуемость и связанность, определение и свойства которых обсуждаются ниже. Анализ результатов в настоящей работе носит преимущественно статистический характер. Следует, однако, отметить, что поскольку сохраняется полный протокол эксперимента, данные допускают и другие уровни интерпретации с иными, чем здесь, задачами и методами.

4. Преимущества и недостатки экспериментальной методики

4.1. Репрезентативность и статистическая значимость

Любое статистическое исследование обязано обеспечить объем материала, необходимый для статистической значимости результатов, и репрезентативность выборки. Репрезентативность выборки текстов в нашем случае определяется задачами исследования, и к ней формальные требования предъявить трудно.

Ясно, что количество категорий должно быть «не слишком мало», однако указать минимально необходимое число едва ли возможно априори. Представляется, что полученные результаты показывают, что 34 категорий, представленных в первом этапе оказалось «достаточно».

Другой аспект репрезентативности — количество фрагментов в категории. Надо учитывать, что поскольку общее число попыток (которое возможно набрать за реалистическое время) — основной лимитирующий фактор, увеличение общего количества фрагментов в эксперименте приводит к уменьшению числа попыток на фрагмент, т.е. повышение репрезентативности одновременно понижает статистическую значимость результатов и наоборот. Сто, в среднем, фрагментов на категорию — результат неформального компромисса между этими двумя требованиями.

Отбор текстов в категории производился более или менее случайным образом, чтобы избежать влияния вкусов экспериментатора, которое было бы чрезвычайно трудно впоследствии учитывать.

Грубая оценка показывает, что для статистической погрешности результатов в 1% по каждой категории необходимо иметь по 30000 попыток на категорию (по 100 попыток каждого типа на фрагмент), что примерно соответствует одному миллиону попыток в первом этапе. Чтобы достичь этого числа, скажем, за три года, надо набирать по 1000 попыток в сутки. Это совершенно немыслимые масштабы для традиционного лабораторного эксперимента, но вполне реальные для умеренно популярного сайта в интернете.

Еще одна сторона репрезентативности — состав испытуемых. В отличие от лабораторного эксперимента, здесь он не поддается контролю. Однако и при наличии такой возможности ее было бы непросто использовать, поскольку чрезвычайно трудно формализовать требования к испытуемым. Неформально говоря, нас интересуют «внимательные» или «квалифицированные» читатели поэзии. При традиционной постановке эксперимента исследователь, вероятно, остановился бы на выборке студентов гуманитарных специальностей, что, вообще говоря, ничего еще не гарантирует.

С другой стороны, в нашем случае сама ситуация литературной игры производит отбор участников более или менее в требуемом направлении. Случайные люди отсеиваются после относительно небольшого числа попыток. Наличие полного протокола позволяет постфактум отбирать для анализа подмножество данных по разным критериям, таким, как полное число попыток, сделанных участником. Оказывается, что этот показатель значительно сильнее коррелирует с успешностью игры, чем, например, тип образования.

Наконец, сведения об участниках, собираемые в добровольной входной анкете, тоже позволяют оценить характер аудитории. Сюда входят частота сочинения и чтения стихов, уровень и тип образования, родной язык и язык повседневного общения.

4.2. Факторы систематической погрешности

4.2.1. Подглядывание

Вероятно, самая очевидная проблема при постановке «открытого» эксперимента — проблема подглядывания. Значительная часть текстов игры имеется в сети в электронном виде и находится с помощью поисковых машин. Некоторые тексты, кроме того, некоторым испытуемым известны. Ясно, что это обстоятельство необходимо учитывать по крайней мере двумя способами: понимать, насколько сильно и в какую сторону это может повлиять на результаты, и уметь, насколько возможно, отсортировывать это влияние.

С одной стороны, очевидно, что бороться с подглядыванием теоретически невозможно. С другой стороны, смысл и интерес самой игры для игрока, в первую очередь, (а для многих и вовсе) не в том, чтобы набирать очки, а в том, чтобы проверять и упражнять свои способности. Поэтому за редчайшими исключениями те, кто играет много, играют честно. А именно такие игроки нас и интересуют, как уже отмечалось.

Для тех случаев, когда фрагмент игроку знаком или ответ подсмотрен в качестве исключения, игрок отмечает это обстоятельство при ответе на задание. Чтобы не наказывать за честность, мы не учитываем знакомость текста при подсчете очков, но в статистику эксперимента такие ответы не включаются.

Если игрок систематически подглядывает ответ и не отмечает знакомость фрагмента (если такие случаи есть), у нас есть возможность определить и отсеять результаты такого игрока. Дело в том, что на результативность замен (т.е. на то, как часто другие игроки принимают их за авторские слова) подглядывание, очевидно, не влияет. Между тем, чем лучше человек угадыает пропущенные слова, тем лучше у него и замены. Значит, мы может отсеять результаты тех игроков, у которых успешность угадывания аномально велика по сравнению с успешностью замен.

Наконец, можно сравнивать результативность игрока по текстам, имеющимся в сети, и отсутствующим.

Конечно, все перечисленные методы не дают стопроцентной надежности, так что некоторое количество подсмотренных ответов попадет в статистику. Как они повлияют на результаты? Предположим для простоты, что частота подсматривания одинакова для всех типов задания и всех текстов. Это, конечно, не вполне верно, но для качественной оценки влияния достаточно. Пусть вероятность правильного ответа (без подсматривания) для некоторой категории текстов есть p в заданиях 1 типа и q в заданиях 3 типа. Пусть r — доля подсмотренных ответов. Тогда доля правильных ответов в заданиях 1 типа будет

p' = r + (1−r)p

а в заданиях 3 типа —

q' = r + (1−r)q

Соответственно, непредсказуемость U' составит

U' = −log(r + (1−r)p)

или, при r<<p приблизительно

U'Ur/p

где U — «истинное» значение. Поскольку реально p > 0.1, а r заведомо меньше этой величины (меньше, чем каждый десятый ответ подсмотрен тайно), это законное приближение. Таким образом, подсматривание снижает непредсказуемость тем сильнее, чем она выше, занижая разницу между категориями текстов. Иначе говоря, наши результаты по разнице в предсказуемости разных текстов следует считать оценкой снизу, консервативной.

Опуская аналогичные вычисления для связанности, укажем лишь, что подсматривание действует на нее таким же образом. Это можно оценивать как положительный результат, поскольку нас интересует прежде всего разница в показателях разных текстов, и мы можем быть уверены, что систематическая погрешность эксперимента ее не завышает.

4.2.2. Безответственная игра

Большая часть посетителей сайта, зарегистрировавшись и сделав несколько попыток, уходят навсегда,