Кто скачивает пиратские статьи? Каждый.
С наступлением весны иранец Мейсам Рахими сел за свой университетский компьютер и тотчас же столкнулся с проблемой: как достать необходимую ему научную литературу. Он должен был составить исследовательский проект для докторантуры по техническим наукам в Тегеранском Технологическом Университете «Амир-Кабир». Его проект сочетал в себе и операционный менеджмент, и поведенческую экономику, так что Рахими необходимо было охватить большой объем информации.
Но каждый раз, находя абстракт нужной ему статьи, он наталкивался на платный доступ к ней. Несмотря на то, что «Амир-Кабир» занимает высокие позиции среди исследовательских институтов Ирана, международные санкции и экономические проблемы ограничили доступ университета к научным журналам. В 2011 году, чтобы прочитать статью в «Applied Mathematics and Computation», Рахими пришлось бы заплатить издательству Elsevier 28 долларов. А статья 2015 года в американском «Operations Research» обошлась бы ему в 30 долларов.
Он взглянул на свой список необходимых ему абстрактов и произвел расчет. Только за текущую неделю приобретение статей обошлось бы ему в 1000 долларов — сумму, примерно покрывающую его месячные затраты на жизнь — и ему, в таком случае, пришлось бы ждать годами, чтобы ознакомиться с нужными исследовательскими материалами. Рахими был раздосадован: «Издатели ничего не дают авторам, так почему тогда они сами должны получать что-то помимо небольшой суммы за ведение журнала?».
Многие академические издательства предоставляют программы помощи исследователям из стран с низким уровнем доходов в доступе к научным статьям, но только одна — Share Link — выглядела подходящей для статей, которые искал Рахими. Она бы потребовала от него связаться с авторами в индивидуальном порядке для получения ссылок на их работы, а эти ссылки «умирают» по прошествии 50 дней с публикации статьи. Стоял четкий выбор: или покинуть докторантуру, или получить копии статей нелегально. Таким образом, подобно миллионам других исследователей, он обратился к Sci-Hub — крупнейшему в мире пиратскому веб-сайту для научной литературы. Рахими не чувствовал вины. Дорогостоящие журналы, как он считает, «могут сильно задерживать развитие науки».
У издателей на этот счет совсем иное мнение. «Я за универсальный доступ, но не за воровство, — сообщает директор Elsevier по универсальному доступу Алишия Вайс во время жарких публичных дебатов касательно Sci-Hub, — есть множество законных путей получения доступа». Послание Вайс содержало в себе ссылку на список 20 инициатив их компании, включая Share Link.
Но все большее количество исследователей со всего мира обращается к Sci-Hub, содержащему 50 миллионов статей и непрерывно увеличивающему их количество. На протяжении шести месяцев до марта этого года Sci-Hub предоставил доступ к 28 миллионам документов. Более чем 2,6 миллиона запросов на загрузку поступили из Ирана, 3,4 миллиона из Индии, 4,4 миллиона из Китая. Статьи касаются огромного спектра научных тем — от смутных физических экспериментов, опубликованных десятилетия тому назад до последних прорывов в области биотехнологии. Кто же является издателем наиболее востребованных статей в Sci-Hub? В какой-то степени это Elsevier — за одну только последнюю неделю Sci-Hub обеспечил полмиллиона загрузок их статей.
Эта статистика основывается на обширных серверных данных по файлам регистрации, предоставленных Александрой Элбакян — нейробиологом из Казахстана, которая создала Sci-Hub в 2011 году будучи 22-летней аспиранткой. Я запросил у нее данные потому, что несмотря на шквал диаметрально противоположных мнений, сообщений в блогах и твитов о Sci-Hub и о том, какой эффект последний оказывает на исследования и академическое издательство, некоторые из краеугольных вопросов остаются без ответа: пользователи Sci-Hub — кто они и что они читают?
Для человека, выставляемого могущественными корпорациями и научными обществами преступником, Элбакян была на удивление обходительной и откровенной. В течение нескольких недель после установления контакта через зашифрованную чат-систему она работала со мной над созданием набора данных для публичного релиза: учитывалось каждое событие загрузки в шестимесячный период, отсчитываемый с 1 сентября 2015 года, включая цифровые идентификаторы объектов (DOI) для каждой статьи. В целях защиты конфиденциальности пользователей Sci-Hub мы решили, что ей следовало бы сначала составить совокупность геолокаций пользователей, относя их к ближайшим городам, используя данные Google Maps; при этом мне бы не передавались никакие идентифицирующие адреса интернет-протоколов (IP-адресов). Набор данных и детальный обзор того, как проводился анализ, находятся в свободном доступе.
Это мир Sci-Hub
Серверные логи веб-сайта Sci-Hub с сентября 2015 по февраль 2016 составляют изобличающий портрет его пользователей и освещают разнообразие их интересов. Sci-Hub получил 28 миллионов запросов на загрузку, охватывающих большинство научных дисциплин из всех регионов мира.
Элбакян также ответила почти на каждый вопрос из имеющихся у меня: о ее работе над веб-сайтом, о взаимодействии с пользователями и даже о своей личной жизни. Среди немногих вещей, что она предпочитает держать в тайне — ее текущее местоположение, ведь она находится под угрозой финансового краха, экстрадиции и заключения под стражу из-за начавшегося в прошлом году судебного процесса по иску Elsevier.
Данные Sci-Hub обеспечивают первое детальное представление о том, что де-факто становится исследовательской библиотекой открытого доступа мирового значения. Среди откровений, которые могут удивить как сторонников, так и недоброжелателей в равной степени: география пользователей не ограничивается развивающимися странами. Некоторые критики Sci-Hub жаловались на то, что многие пользователи имеют возможность получать доступ к одним и тем же статьям и через их библиотеки, но вместо этого обращаются к пиратскому ресурсу — больше ради удобства, нежели необходимости. Данные в некоторой степени оправдывают эту претензию. Соединенные Штаты Америки — пятый крупнейший загрузчик после России, а четверть обращений к Sci-Hub за статьями исходит от 34 членов Организации экономического сотрудничества и развития (ОЭСР/OECD) — богатейших стран, с, казалось бы, наилучшим доступом к журналам. В действительности, пожалуй, наиболее интенсивное использование Sci-Hub, по-видимому, происходит в кампусах университетов США и Европы.
В октябре прошлого года судья Нью-Йорка вынес решение в пользу Elsevier, постановив, что Sci-Hub нарушает законные права издателя как владельца авторских прав на содержание его журнала, и вынес предписание, требующее прекратить данные незаконные действия на веб-сайте. Как показывают данные сервера, предписание почти не дало эффекта. Хотя на веб-домен sci-hub.org и был наложен арест в ноябре 2015, серверы, поддерживающие Sci-Hub, располагаются в России, за пределами влияния правовой системы США. Едва увернувшись от удара, сайт вернулся на другой домен.
Трудно судить, насколько Elsevier и другие весомые издатели действительно чувствуют себя находящимися под угрозой, исходящей от Sci-Hub, отчасти потому, что общие данные по легальным загрузкам обычно не становятся достоянием общественности. Однако отчет Elsevier от 2010 года оценивает число загрузок для всех издателей более чем в 1 миллиард за год, предполагая участие Sci-Hub в выкачивании менее 5 % нормального трафика. Тем не менее, многие обеспокоены тем, что Sci-Hub проявит себя столь же разрушительно для академического издательского бизнеса, сколь был таковым пиратский сайт Napster для музыкальной индустрии (см. колонку Марсии МакНатт об ее смешанных чувствах к Sci-Hub). «Я не поддерживаю незаконную тактику», — говорит Питер Сабер, директор Управления по Научным Коммуникациям в Гарвардском Университете и один из ведущих экспертов по вопросам публикаций в открытом доступе. Однако, отмечает он: «Судебный процесс не собирается положить этому конец, также не существует каких-либо очевидных технических средств [для этого]. Каждому человеку стоит понимать, что это надолго».
Легко понять, почему издатели журналов могут рассматривать Sci-Hub как угрозу. Он так же прост в использовании, как и движок Google-поиска, и до тех пор, пока вы знаете DOI или заголовок статьи, это самый надежный вариант для поиска полного текста. Скорее всего, вы найдете то, что ищете. Наряду с главами книг, монографиями и тезисами конференций, Sci-Hub агрегировал копии важнейших из когда-либо изданных научных статей. Он продолжает расти: в тот момент, когда кто-нибудь запрашивает статью, еще не имеющуюся на сайте, последний делает ее пиратскую копию и добавляет в репозиторий.
Элбакян отказалась сообщать, каким именно образом она добывает статьи, однако она подтвердила, что этот процесс включает использование онлайн- учетных данных, таких как логины, пароли людей или учреждений с легитимированным доступом к содержанию журнала. Она говорит, что многие академики пожертвовали эти данные добровольно. Издатели же утверждают, что Sci-Hub опирается на рассылку фишинговых электронных писем с целью обмана исследователей, к примеру, заставляя их авторизоваться на поддельных веб-сайтах журналов. «Я не могу подтвердить точный источник по учетным данным пользователей, — говорит мне Элбакян, — однако могу утверждать, что я лично не отправляла никаких фишинговых электронных писем».
Так, в соответствии с замыслом, контент Sci-Hub приводится в движение тем, что ищут ученые. Январская статья в The Astronomical Journal, описывающая возможную новую планету на задворках нашей солнечной системы? Статья Nature 2015 года о кислороде на комете 67P/Чурюмова — Герасименко? Статья, опубликованная месяц назад в Journal of Assisted Reproduction and Genetics, в которой коллектив с помощью метода CRISPR создал генетическую устойчивость к ВИЧ в человеческих эмбрионах? Все эти статьи есть в Sci-Hub.
В нем есть новостные статьи из научных журналов, включая многие из моих работ для Science, равно как и копии статей, лежащих в открытом доступе, возможно, из-за путаницы со стороны части пользователей в том, что они просто используют Sci-Hub как совокупный [все-в одном] портал для поиска статей. Например, более чем 4000 различных статей из различных журналов открытого доступа PLOS могут быть загружены с ресурса Sci-Hub.
Поток активности на Sci-Hub с течением времени отражает трудовые будни исследователей, вырастая по ходу каждого дня, затем идя на убыль с наступлением ночи, но никогда не останавливаясь. (Имеется 18-дневный промежуток в данных, начиная с 4 ноября 2015 года, когда домен sci-hub.org «упал» и логи серверов не были должным образом настроены.) К концу февраля 2016 года поток статей на Sci-Hub достиг своего исторического максимума — более 200000 запросов на загрузку ежедневно.
Каково количество пользователей Sci-Hub? По самым скромным оценкам, запросы на загрузку исходят с 3 миллионов уникальных IP-адресов. Действительное же число значительно выше, потому что тысячи людей в университетских кампусах могут делить один IP-адрес. Пользователи Sci-Hub обитают на всех континентах, кроме Антарктиды. Из 24000 мест их скопления в городах наибольшая активность наблюдается в Тегеране — в 1,27 миллионов запросов. В значительной мере потому, что, по словам Элбакян: «Иранцы используют программы для автоматической загрузки огромных массивов статей из Sci-Hub для создания локального зеркала сайта». Рахими, студент-инженер из Тегерана, подтверждает это: «Существуют некоторые иранские сайты, аналогичные Sci-Hub»; »Так что вам стоит оценивать число нелегальных загрузок [статей] как в пять-шесть раз большее, чем показывает только Sci-Hub».
География использования Sci-Hub в общем походит на карту научной продуктивности, но в ряде некоторых богатейших и беднейших научно-ориентированных стран она инвертирована. Меньшие же страны имеют «свой» научный интерес. Кто-то в Нууке в Гренландии читает статью о том, как лучше обеспечить лечение рака у местного населения. Идут исследования в Ливии, невзирая на бушующую там гражданскую войну. Кто-то в Бенгази исследует способ передачи данных между компьютерами с физической изоляцией. Южнее, в богатой нефтью пустыне, кто-то неподалеку от города Сабха углубляется в гидродинамику. Картографирование IP-адресов на реальную местность может отображать ложную картину, если люди скрываются за веб-прокси или анонимными службами маршрутизации. Но, по словам Элбакян, их применяют менее 3 % пользователей Sci-Hub.
В Соединенных Штатах Америки и Европе пользователи Sci-Hub сконцентрированы в местах работы академических исследователей. За шестимесячный период 74000 запросов на загрузку исходили с IP-адресов Нью-Йорка — отчего края множества университетов и научных учреждений. 19000 запросов на загрузку поступили из Колумбуса — города с населением в десять раз меньшим, чем Нью-Йоркское, а 68000 запросов — из Восточного Лансинга в Мичигане, где население стократно меньше Нью-Йоркского — родины Государственного Университета штата Огайо и Мичиганского Государственного Университета (МГУ/MSU) соответственно.
Необходимость или удобство?
Карта посещаемости sci-hub в США
Создается впечатление, что многие пользователи Sci-Hub в США агрегируются около университетов, имеющих хороший доступ к журналам. Среди пяти городов с наибольшим количеством запросов выделяют: Ashburn, VA (96857), New York, NY (73606), East Lansing, MI (68315), Fremont, CA (59389), Mountain View, CA (56637).
Сложнее объяснить число запросов из Ашберна, имеющего наибольшее их число среди городов США — около 100000. В Университете Джорджа Вашингтона (УДВ/GWU) в городе Вашингтон имеются собственные студенческие городки науки и технологии, но Ашберн — это еще и дом Исследовательского Кампуса «Джанелия» — элитного филиала Медицинского Института Говарда Хьюза, равно как и серверов «Фонда Викимедиа» — штаб-квартиры онлайн-энциклопедии «Википедия». Пресс-секретари последних заявляют, что их сотрудники навряд ли составляют этот трафик. Пресс-служба УДВ дала мне уклончивый ответ, ссылаясь к выставленному в сети отчету о том, что в Университете недавно имелись разногласия ввиду увеличения ставок библиотечного бюджета на журнальные подписки. «Академические ресурсы не являются предметами роскоши, — сообщается в отчете, — но они оцениваются по факту».
Некоторые студенты УДВ признались в симпатии к Sci-Hub. После переезда из Аргентины в США в 2014 году Наталия Клементи утверждает, что в рамках ее области исследований ситуация с доступом к ключевым журналам фактически ухудшилась, потому как УДВ не имеет на них подписки. По ее словам, исследователи в Аргентине могут иметь проблемы с получением некоторых специализированных журналов, но «большая часть из них не испытывает затруднений в доступе к крупным изданиям, так как государство оплачивает подписку на них во всех государственных университетах в стране».
«Sci-Hub становится буферным ресурсом даже для журналов, к которым университеты имеют доступ, — говорит Джил Форсис, другой физик-докторант УДВ, — если я произвожу поиск в Google Scholar и по результатам не имеется непосредственной ссылки на PDF-файл, мне необходимо нажать на "Проверить доступ через УДВ", и затем я попадаю в цель или же нет; если я ввожу [название статьи или DOI] в Sci-Hub, это просто работает». По его словам, с выпускаемыми Elsevier журналами возникают наибольшие проблемы при доступе.
Библиотечная система УДВ «предлагает специфичную систему доставки документов для факультетов математики, физики, химии и инженерии», как сказала мне Марали Селар — директор Университета по связям со СМИ. «Аспиранты, желающие получить доступ к статье, относящейся к системе Elsevier, должны взаимодействовать с заведующим своей кафедрой, преподавателем в классе или искать помощи у своего научного руководителя».
Интенсивная активность в отношении Sci-Hub в Восточном Лансинге проявляется и в другой мотивации для использования данного сайта. Похоже, что большинство загрузок — это работа одного или нескольких людей, использующих программы-парсеры (то же, что граббер, т. е. скрипт или программа, которые используются для сбора информации с сайтов для последующего размещения на собственных ресурсах. — прим. переводчика) с каникул декабря 2015 года, загружающих статьи на сверхчеловеческих скоростях. Я поинтересовался у Элбакян, шли ли эти запросы на загрузку с IP-адресов МГУ, и она подтвердила эту догадку. Все эти статьи — из журналов по химии, большинство из них выпущено Американским Химическим Обществом. Таким образом, очевидно, цель состоит в том, чтобы построить массивное личное хранилище химической литературы. Но зачем?
«Судебный процесс не собирается положить этому [Sci-Hub] конец, также не существует каких-либо очевидных технических средств [для этого]. Каждому человеку стоит понимать, что это надолго.»
— Питер Сабер, Гарвардский Университет
Билл Харт-Девидсон, заместитель декана постдипломного образования, предполагает, что, скорее всего, ответом будет «текстодобыча» — использование компьютерных программ анализа крупных собраний документов для генерирования данных. Когда я звонил Харт-Девидсону, то предполагал, что парсер из Восточного Ленсинга — кто-то из исследовательской команды под его руководством. Смеясь, он сказал, что не имеет понятия, о ком идет речь. Однако понимает, почему парсер использует Sci-Hub, несмотря на то, что МГУ имеет подписку на загружаемые журналы. В своем исследовании лингвистической структуры научного обсуждения Харт-Девидсон получил биологических статей больше, чем на 100 лет, тяжелым путем — законно с помощью издателей. «На получение разрешения потребовался целый год», — говорит проводивший переговоры библиотекарь МГУ Томас Падилла. И как только в их руках оказался жесткий диск, полный статей, пришли и строгие правила их использования. Для анализа данных в конце каждого дня использования компьютерных программ на нем с автономного компьютера Падилла должен был идти к Харт-Девидсону с флеш-накопителем через весь кампус.
«Тем не менее, Sci-Hub имеет свои недостатки в исследованиях «текстодобычи», — сообщает Харт-Девидсон, — скомпрометированные статьи находятся в неструктурированном PDF-формате, что осложняет работу программам для парсинга. Но большая проблема заключается в том, что источник данных является незаконным. Так каким образом вы собираетесь выпускать свою работу?» Опять же, наличие крупного личного репозитория статей позволяет исследователю быстро оценивать гипотезы до утруждения себя библиотеками в целом. И все это на расстоянии одного клика.
В то время как Elsevier тратится на легальную борьбу против Элбакян и Sci-Hub, многие в издательской индустрии видят это сражение тщетным. «Цифры просто поражают», — сообщил мне руководитель высшего звена крупного издателя, изучив статистику Sci-Hub, — это предполагает практически полную неспособность этих исследователей быть обеспеченными путями доступа». Он работает на компанию, издающую некоторый наиболее активно загружаемый из Sci-Hub контент, и попросил о соблюдении конфиденциальности с тем, чтобы говорить искренне.
По его словам, для исследователей в организациях, которые не могут себе позволить доступ к журналам, издатели «должны предоставлять подписку или более приемлемые условия покупки». Ричард Гедье, директор информационно-просветительских программ STM (НТМ), — Международной Ассоциации Научно-Технической и Медицинской литературы, оспаривает это. Организации в развивающихся странах, использующие преимущества программ помощи от издательской индустрии «имеют в некоторой степени такую широту доступа к рецензируемым научным исследованиями, которая эквивалентна аналогичной в среднестатистических организациях Северной Америки или Европы».
А в случаях, касающихся исследователей в Западных университетах, которые используют Sci-Hub как альтернативу, анонимный издатель возлагает вину на библиотекарей, не делающих свои онлайн-системы более доступными для использования и обучения своих исследователей. «Я не думаю, что доступ является проблемой — существует представление, что доступ сложен», — так он говорит.
«Не соглашусь», — заявляет Айви Андерсон, руководитель собраний Калифорнийской Цифровой Библиотеки в Оакленде, предоставляющей доступ к журналам 240000 исследователям системы Калифорнийского Университета. По ее словам, системы аутентификации, должные использоваться исследователями для чтения журналов по подписке за пределами кампуса, а порой и в самом кампусе с персональных компьютеров, «существуют, чтобы обеспечить соблюдение издательских ограничений».
Толкнет ли Sci-Hub индустрию навстречу модели открытого доступа, где читательская аутентификация необязательна? «Неясно, — говорит Сабер из Гарварда и добавляет, — хотя Sci-Hub и помогает огромному числу исследователей, он может дорого обойтись движению за открытый доступ, потому как издатели смогут перехватить инициативу в «путанице» вокруг легальности и ужесточить требования. Легализированный открытый доступ вынуждает издателей адаптироваться, в то время как незаконный вынуждает их обращаться в суд».
Элбакян утверждает, что даже в случае ее ареста Sci-Hub не канет в Лету. Она располагает ресурсами для того, чтобы поддерживать и развивать проект, а пользовательские пожертвования на данный момент покрывают стоимость его серверов. Она также замечает, что полное собрание из 50 миллионов статей уже неоднократно копировалось другими — «[Статьи] не нуждаются в повторной загрузке из университетов».
В самом деле, данные свидетельствуют о том, что взрывной рост Sci-Hub подошел к концу. По словам Элбакян, доля запросов на загрузку статей, не содержащихся в базе данных, установилась на 4,3 %. В том случае, если у нее закончатся учетные данные для нелегального копирования свежего контента, этот разрыв вырастет снова, впрочем, и издатели, и университеты постоянно разрабатывают новые схемы аутентификации, которые ей и ее помощникам придется перехитрить. Она даже полушутя попросила меня поделиться своим логином и паролем от Science.
Для самой Элбакян будущее еще более неопределенно. Elsevier не только обвиняет ее в нарушении авторских прав, но и в незаконной хакерской деятельности, подпадающей под Акт о Компьютерном Мошенничестве и Злоупотреблении США. «Существует возможность быть внезапно арестованной за хакерство», — признается Элбакян. Другие люди, преступающие этот закон, были экстрадированы в США во время того, как путешествовали. И она прекрасно осведомлена, что другой компьютерно-одаренный адвокат, Аарон Шварц, был арестован по сходным обвинениям в 2011 году после массовой загрузки научных статей. Перед лицом разорительных финансовых штрафов и тюремного заключения Шварц повесился.
Равно как и остальная часть научного сообщества, Элбакян наблюдает быстро разворачивающееся будущее научной коммуникации. «Увидим, во что это выльется».
Издано в Scientific Community.
John Bohannon, рядовой корреспондент Science.
Статьи по теме:
- The frustrated science student behind Sci-Hub (Alexandra Elbakyan founded Sci-Hub to thwart journal paywalls)
- My love-hate of Sci-Hub (Editorial by Marcia McNutt, Editor-in-Chief, Science suite of journals)
- It’s a Sci-Hub world data set (Data set and details on Sci-Hub server)