Воспроизводящие исследования: Плохая копия
Автор: old.medach.pro
Из-за множества противоречий психологи сталкиваются с проблемами при воспроизведении. Эд Йонг, 16.05.2012 bad_copy_630 JASIEK KRZYSZTOFIAK Для многих психологов самым четким признаком того, что их специальность в опасности, не без доли иронии стало исследование о предчувствии. Дэрил Бем, социальный психолог из Корнельского университета (Итака, Нью-Йорк), показывал студентам-добровольцам 48 слов, после чего внезапно просил их записать как можно больше слов, которые они запомнили. Затем проводилась практическая сессия: студентам предлагали случайную выборку слов из теста и просили напечатать их. Бем обнаружил, что некоторые студенты с большей вероятностью запоминали слова из теста, если позже они практиковались с ними. Следствие предшествовало причине. Бем опубликовал свои результаты в «Журнале личностной и социальной психологии» (Journal of Personality and Social Psychology, JPSP) вместе с восемью прочими экспериментами,1 приводя доказательства так называемого «пси», или псионических эффектов. Безусловно, нехватки ученых, относящихся скептически к его заявлениям, нет. Три независимых исследовательских команды попытались воспроизвести эффект, описанный Бемом, и, когда они не смогли этого сделать, они столкнулись с серьезными препятствиями при публикации своих результатов. Эта история послужила сигналом к действию. «Понимание того, что некоторая доля результатов в литературе попросту невоспроизводима, пришло с учетом факта наличия все большего и большего количества данных парадоксальных результатов в литературе», — говорит Эрик-Ян Вагенмакерс, математический психолог из Университета Амстердама. Положительные результаты в психологии подобны слухам – их легко «распустить», но тяжело разрушить. Они доминируют в большинстве журналов, которые стремятся представить новые впечатляющие исследования. Тем временем, попытки воспроизвести данные исследования, особенно при получении отрицательных результатов, остаются неопубликованными, валяясь в ящиках столов или проскакивая в разговорах у кулеров с водой. «Есть некоторые эксперименты, о невозможности воспроизведения которых знают все, однако эти знания не попадают в литературу», — говорит Вагенмакерс. Публикационный барьер может оказаться пугающим, добавляет он. «Я видел случаи, когда студенты в течение всей своей подготовки к степени PhD пытались воспроизвести феномен, и в случае неудачи они уходили из академии, ибо им нечего было представить в срок. Эти проблемы возникают во многих науках, однако в психологии имеется несколько глубоко укоренившихся культурных норм, усугубляющих ситуацию. Например, стало обычной практикой корректировать дизайн экспериментов для практически гарантированного получения положительных результатов. А после публикации положительных результатов немногим исследователям удается точно воспроизвести эксперимент – вместо этого проводятся «концептуальные воспроизведения», проверяющие подобные гипотезы с использованием иных методов. Эта практика, как выражаются критики, строит карточный домик на потенциально шатком фундаменте. На этих проблемах остро сосредоточились благодаря случаям высокопробных фальсификаций, которые, как полагают многие, смогли распространиться вследствие проблем с воспроизведением. Теперь психологи пытаются навести порядок в своей специальности. Появляются инициативы о необходимости оценить масштаб проблемы и дать попыткам воспроизведения шанс стать узнанными. «За последние 6 месяцев появилось гораздо больше людей, которые говорят и беспокоятся об этом», — говорит Джозеф Симмонс, экспериментальный психолог из Университа Пенсильвании (Филадельфия). «Надеюсь, что переломный момент не за горами».

Всеобъемлющая предвзятость

Не только психология сталкивается с подобными проблемами. В ныне знаменитой статье2 Джон Иоаннидис, эпидемиолог, на данный момент работающий в Стэнфордской медицинской школе (Калифорния), утверждает, что исходя из статистической логики, «большинство опубликованных результатов исследований – ложь». В рамках обзора 4600 исследований из различных наук Даниэль Фанелли, социолог из Университа Эдинбурга (Великобритания), обнаружил, что доля положительных результатов выросла более чем на 22% с 1990 по 2007 годы (версия 3). Психология и психиатрия, согласно другим работам Фанелли4, показали наихудшие результаты: положительные результаты в них публикуются с вероятностью в пять раз большей, чем в космических науках, находящихся по другую сторону баррикад (см. рисунок «Акцент на положительном»). Ситуация не меняется к лучшему. В 1959 г. статистик Теодор Стерлинг установил, что в 97% исследований из 4 крупных журналов по психологии публиковались статистически достоверные положительные результаты5. Когда он повторил анализ в 1995 г., ничего не изменилось. Одной из причин избытка положительных результатов в психологии является акцент на «слегка «фриковатых» результатах, говорит Крис Чемберс, экспериментальный психолог из Университета Кардиффа (Великобритания). «Влиятельные журналы зачастую считают психологию чем-то из разряда дешевых трюков», — утверждает он. Результаты должны быть впечатляющими, привлекательными, даже невероятными. Симмонс полагает, что вина частично лежит на процессе рецензирования. «Когда мы рецензируем статьи, часто мы заставляем авторов доказывать новизну или интерес их результатов», — говорит он. «Мы не так часто заставляем их доказывать истинность результатов». Источник: журнал Nature Источник: журнал Nature Симмонс знает, о чем говорит. Недавно он опубликовал ироническую статью в журнале «Психологическая наука» (Psychological Science), «показав», что прослушивание песни Beatles When I’m Sixty-four фактически укорачивает жизнь слушателя на 1,5 года7. Симмонс разработал эксперименты, чтобы продемонстрировать, как «неприемлемо легко» можно получить статистически достоверные результаты в поддержку гипотезы. Многие психологи на скорую руку принимают решения о ключевых аспектах своих исследований, в том числе о количестве набранных добровольцев, об измеряемых переменных и методах анализа результатов. Этот выбор можно сделать очень легко, но при этом он дает исследователям свободу «издевательств» над экспериментами и данными до получения положительных результатов. При опросе более 2000 психологов Лесли Джон, специалист по психологии потребителей из Гарвардской бизнес-школы (Бостон, Массачусетс), отметил, что более 50% из них ожидали, собирать ли дополнительные данные, до проверки достоверности своих результатов, что позволяло им дождаться материализации положительных результатов. Более 40% психологов публиковали исключительно «достойные» исследования8. В целом, большинство респондентов полагали, что большинство подобных практик являются защитными. «Многие люди продолжают использовать данные подходы, поскольку их так учили», — говорит Брент Робертс, психолог из Университета Иллинойса (Урбана-Шампейн). Все это возлагает бремя доказательств на тех, кто пытается воспроизвести исследования — однако их ожидают непростые испытания. Вспомним, что последовало за публикацией пресловутой статьи Бема. Когда три группы, которым не удалось воспроизвести результаты по запоминанию слов, объединили полученные данные и предоставили их для публикации, журналы JPSP, Наука (Science) и Психологическая наука (Psychological Science) заявили, что не публикуют исследования с прямым воспроизведением. Британский журнал психологии (British Journal of Psychology) представил статью на рецензирование, но все равно отверг ее. Бем был в числе рецензентов статьи. Злосчастная статья наконец нашла пристанище в PLoS ONE9 – журнале, публикующем все «технически обоснованные» статьи, независимо от их новизны. «Я сделал все возможное для содействия воспроизведению», — говорит Бем, который, отстаивая свои результаты, опубликовал подробные сведения о своих методах и тестах онлайн. Однако он добавляет, что одна из статей с воспроизведение сама по себе оказалась неинформативной. «Она сыра», — говорит он. «Могут потребоваться годы на то, чтобы понять, что обусловливает успех или неудачу воспроизведения. Требуется мета-анализ многих экспериментов». Стефан Дойен, когнитивный психолог из Свободного университета Брюсселя, столкнулся с подобными проблемами, когда ему с коллегами не удалось воспроизвести классический эксперимент Джона Барга из Йельского университета (Нью-Хейвен, Коннектикут), продемонстрировавший, что люди ходят медленнее, если их бессознательно подготавливали, используя связанные со старостью слова10. После нескольких отказов статью Дойена также наконец опубликовали в PLoS ONE11, что повлекло за собой гневный пост в блоге от Барга. Барг охарактеризовал команду Дойена как «неумелых исследователей», а позже спорил с автором данной статьи по поводу поста в блоге об обмене. Барг утверждает, что он отреагировал так резко частично из-за наблюдения им все большего скептицизма об идее важности бессознательных мыслительных процессов; он полагал, что данной области знаний наносится вред. Конечно, одно негативное воспроизведение не означает недействительности оригинального результата. Имеется множество обыденных причин неудач подобных попыток. Если оригинальный эффект мал, отрицательные результаты могут появиться из-за банальной случайности. Добровольцы в рамках попытки воспроизведения могут отличаться от таковых в оригинальном исследовании. А одной команде может попросту не хватить навыков для воспроизведения экспериментов другой команды. Чтобы доказать истинность ‘A’ , вы не делаете ‘B’. Вы вновь делаете ‘A’. «Проведение тонких экспериментов имеет много общего с театральной постановкой», — говорит Даниель Канеман, лауреат Нобелевской премии, психолог Пристонского университета (Нью-Джерси). Такие банальные детали, как день недели или цвет комнаты, могут повлиять на результаты, и эти тонкости никогда не описываются в разделе методов. Например, Барг утверждает, что команда Дойена представляла добровольцам слишком много слов, связанных со старостью, что могло привлечь их внимание к скрытой цели эксперимента. В исследованиях с подготовкой «вы должны обустроить ситуацию таким образом, чтобы манипуляция была достаточно надежной для ее срабатывания, но при этом недостаточно явной, чтобы привлечь хоть толику внимания», — говорит Канеман. «У Барга есть сноровка, которая имеется далеко не у всех из нас». Канеман утверждает, что приписывает особую «сноровку» только тем, кто обнаружил эффект, воспроизведенный в сотнях экспериментов. Барг так высказывается о своих экспериментах с подготовкой: «Я никогда не хотел прятать какую-либо информацию о том, как вызвать данные эффекты. Мы всегда стараемся передать эти знания, хотя, вероятно, нам стоит более подробно описать, как проворачивать подобные вещи». После статьи Барга о бессознательной подготовке в 1996 г. десятки прочих лабораторий последовали его примеру, проведя свои версии экспериментов с подготовкой. К примеру, добровольцы, которых подготавливали путем удерживания тяжелой доски, относились к интервьюируемым серьезнее, оценивая большее давление социальных проблем по сравнению с лицами, которые держали легкие доски12. А люди, которых подготавливали при помощи слов, связанных с чистотой, терпимее относились к плохим поступкам13. Подобные концептуальные воспроизведения полезны в психологии, которая часто сталкивается с абстрактными концептами. «Обычно полагают, что еще сильнее, чем точное воспроизведение. Оно предоставляет лучшие данные о генерализуемости эффекта», — говорит Элиот Смит, психолог из Университета Индианы (Блумингтон) и редактор JPSP. Но для других психологов концептуальное воспроизведение кажется проблематичным. «Вы не можете воспроизвести концепт», — полагает Чемберс. «Это чрезвычайно субъективно. Не имею понятия, как нечто подобное можно считать концептуальным воспроизведением». Эта практика также ведет к возникновению «логических двойных стандартов», утверждает он. Например, если тяжелая доска бессознательно влияет на суждения людей, это можно концептуально воспроизвести при помощи эффекта медленной ходьбы. Однако, если вес доски не имел никакого влияния, никто не будет спорить с тем, что подготовка была концептуально фальсифицирована. С учетом способности к верификации, но не фальсификации, концептуальное воспроизведение предоставляет ненадежные результаты в их поддержку. «Это научное воплощение предвзятости подтверждения», — говорит Брайан Носек, социальный психолог из Университета Виргинии (Шарлоттсвиль). «Психология страдает в отсутствие практики, но это не должно заменять прямых воспроизведений. Чтобы доказать истинность ‘A’ , вы не делаете ‘B’. Вы вновь делаете ‘A’».

Упущенные нарушения норм

Эти практики могут создать среду, где не распознаются нарушения исследований. В ноябре 2011 г. в отношении Дьедерика Стапеля, социального психолога из Университета Тильбурга (Нидерланды) и по совместительству восходящего светила психологии, было проведено расследование, после чего он в конце концов сознался в массивных научных фальсификациях. Стапель опубликовал целый ряд привлекательных, захватывающих исследований, доказывающих, к примеру, что среды с беспорядком, например железнодорожные станции с толпотворением, способствуют развитию дискриминации14. Однако все факторы, обусловливающие трудности при воспроизведении, позволили ему скрыть следы нарушений. Научный комитет, расследовавший его дело, отметил следующее: «Хотя все эти чрезвычайно стройные результаты должны были побудить к мышлению, их восприняли как должное… Люди принимали их, даже если пытались самостоятельно воспроизвести результаты, что им не удавалось из-за отсутствия у них навыков мистера Стапеля». Теперь ясно, что Стапель манипулировал и сфабриковал данные в по меньшей мере 30 публикациях. История Стапеля как в зеркале повторяет ситуацию с психологами Карен Руггиеро и Марком Хаузером из Гарвардского университета (Кембридж, Массачусетс), которые опубликовали высокопробные результаты по дискриминации и морали, соответственно. Руггиеро обвинили в исследовательском подлоге в 2001 г., а Хаузера – в нарушениях норм исследований в 2010 г. Как и в случае со Стапелем, их раскрыли «внутренние» доносчики. «Если бы наука в самом деле занималась самокоррекцией, почему бы не исправить бы всех до единого?» — спрашивает Носек. По следам этих противоречий многие психологи сегодня ищут способы поощрения воспроизведений. «Я полагаю, что психология взяла первенство в решении данной проблемы», — говорит Джонатан Скулер, когнитивный психолог из Университета Калифорнии (Санта-Барбара). В январе Хал Пашлер, психолог из Университета Калифорнии (Сан-Диего, Ла-Хойя), вместе с коллегами создал веб-сайт под названием PsychFileDrawer, куда психологи могут выкладывать неопубликованные попытки воспроизведений, независимо от их успеха. Сайт тепло приняли, но пока на него выложено лишь 9 исследований. Можно найти немного факторов, способных побудить к подобной публикации: такие действия способствуют критике ученых коллегами и мало помогают пополнить их перечень публикаций. Мэтью Либерман, социальный психолог из Университета Калифорнии (Лос-Анджелес), предлагает иной подход. «В рамках лучших программ подготовки по психологии в США можно потребовать от студентов-выпускников воспроизвести одно из нескольких исследований, представленных в их области деятельности», — говорит он. Это позволит студентам улучшить свои навыки и получить ценные ранние публикации, говорит он, а область психологии обогатится знаниями о возможных неожиданных эффектах. Вагенмакерс рассуждает, стоит ли также публиковать попытки воспроизведения в соответствии с иными правилами. Как и в отношении прочих медицинских клинических исследований, говорит он, требуется их предварительная регистрация во избежание практик постериорного искажения данных, описываемых Симмонсом, а также публикация независимо от исхода. Раннее взаимодействие и даже сотрудничество с оригинальными авторами может предупредить дальнейшие замечания по поводу методов. Эти изменения кажутся далекими надеждами. Некоторые ученые по-прежнему задаются вопросом, а есть ли проблема вообще, и даже Носек указывает на то, что на данный момент отсутствуют надежные оценки распространенности ложноположительных результатов. Дабы помочь этому, в конце прошлого года он собрал группу психологов в попытке воспроизвести каждое исследование, опубликованное в трех крупных журналах по психологии в 2008 г. Команды будут стараться как можно ближе придерживаться оригинальных экспериментов и работать с оригинальными авторами. Цель состоит не в отборе отдельных работ, а в «получении некоторых первичных сведений о шансах воспроизведения» в области науки, говорит Носек. Некоторые исследователи сомневаются в исходах, однако Пашлер ожидает лицезреть подтверждение своих опасений о том, что коридорные слухи о невоспроизводимых исследованиях и полках шкафов, заполненных неудачными попытками воспроизведения, окажутся правдой. «Тогда люди не смогут пройти мимо этого», — подытоживает он. Оригинал статьи Перевод: Вячеслав Понкратов