Великий, могучий, сетевой
19 марта 2013 года ресурс W3Techs, занимающийся анализом веб-сайтов, сообщил о том, что по их подсчетам, русский язык вышел на второе место по распространенности среди языков интернета, уступая только английскому. Эта новость имеет прежде всего два аспекта: технический и социолингвистический. Иными словами, тут возникают такие вопросы: «как это считали?» и «что это значит для русского языка?»
Как это считали?
Чтобы выяснить, на скольких страницах в Сети употреблен тот или иной язык (скажем, русский), нужно всего-навсего каждую такую страницу загрузить и просмотреть. «Смотреть», конечно, будет не человек, потому что интернет хотя и создан для людей и их удобства, своими объемами очень быстро перерос человеческие возможности. На 2009 год, то есть уже довольно давно, объем Сети составлял около 500 экзабайтов, то есть 500 миллиардов гигабайтов, и с тех пор увеличился не менее чем в 1,5 раза.
Чтобы собирать информацию с веб-сайтов, придуманы специальные программы-роботы, которые называются спайдерами (то есть «пауками», бегающими по Сети) или краулерами. Они скачивают веб-документы и передают их другим программам для обработки и анализа. Но даже специальные программы, запущенные на обычном компьютере, будут делать такую работу слишком долго. Нужна внушительная техническая база, парк объединенных под общую задачу серверов, нужно решать и сопутствующие логистические задачи, чтобы обеспечить этим серверам бесперебойную работу.
С этими сложностями сталкиваются в первую очередь поисковые системы вроде «Яндекса» и Google, которые сканируют интернет и предоставляют нам информацию о его содержимом. Если не обладать возможностями этих крупных компаний, то и качественный «обход» Сети вряд ли получится. Чтобы просеять веб за конечное время, поневоле придется
Кроме того, известно, что в последнее время основная жизнь в интернете переместилась в социальные сети и микроблоги. Каждую секунду в Facebook, «ВКонтакте», Twitter создаются и транслируются новые записи. Однако даже крупные поисковые системы испытывают трудности с тем, чтобы своевременно и со всей полнотой фиксировать эти действия пользователей. Социальные сети специально технически устроены так, чтобы самостоятельно распоряжаться своим контентом, не делясь этим лакомым куском с конкурентами. Надежды на то, что W3Techs научились сканировать Facebook лучше, чем Google или «Яндекс», прямо скажем, невелики, а ведь именно внутри социальных сетей потенциал интернет-жизни любого языка раскрывается в полной мере.
Есть и другие технические нюансы. Например, когда мы пытаемся выявить, сколько в интернете страниц, содержимое которых написано на том или другом языке, должны мы (как это делают те же поисковики) «склеивать» дублирующие друг друга страницы и отбрасывать липовые сайты (так называемые «дорвеи»), созданные не для прочтения человеком, а для того, чтобы обмануть поискового робота?
Не стоит сбрасывать со счетов и такое обстоятельство, как трудность автоматического определения языка. В тот момент, когда краулер скачивает страницу, он передает ее для дальнейшей обработки распознающей язык программе, и гарантий, что та определит язык безупречно, не может дать никто. Сложностей с различением японского и французского языков, скорее всего, не возникнет — у них разная письменность. Но сумеет ли машина верно увидеть, русский язык перед ней или болгарский, уже большой вопрос. Системы распознавания вообще чрезвычайно сложны и трудоемки в разработке, с ними не всегда справляются даже крупные компании. Тот же Google довольно часто ошибается, предлагая при поиске показывать страницы «только на русском».
Еще один нюанс:
Одним словом, к выводам W3Techs нужно относиться с большой осторожностью, особенно с учетом того, что, по их данным, русский язык во второй половине марта 2013 года вышел на второе место, незначительно обойдя
Но даже если принять во внимание все эти трудности, одному из результатов исследования W3Techs верить можно: русский язык быстрыми темпами наращивает свое присутствие в интернете. В этом смысле важнее не то, сколько десятых процента сейчас русский язык отвоевывает у своих «конкурентов», а то, какими темпами его доля растет в интернете. И по данным W3Techs, этот показатель очень даже неплохой.
Что это значит?
Однако устойчивый рост русский язык обнаруживает пока только в интернете. В том смысле, что в «оффлайне» дела у него обстоят несколько хуже и по распространенности он занимает
На этом примере мы в чистом виде наблюдаем так называемый «эффект низкого старта»: уровень «информатизации» постсоветского общества (основного поставщика русскоязычного контента) изначально был очень низким, гораздо ниже, чем у немецко-, испано- и франко- (а уж тем более англо-) язычных социумов. В результате все остальные языки уже, скажем так, выбрали свой ресурс наполнения Сети контентом, а русскоязычные пользователи, по сути, только начинают поставлять в интернет свои тексты (есть среди этих пользователей и носители других языков постсоветского пространства, использующие русский как lingua franca, но их доля по сравнению с теми, для кого русский родной, невелика).
В качестве аргумента в пользу «эффекта низкого старта» можно рассматривать и уже упоминавшийся главный показатель распространенности: динамика роста. Если у немецкого языка она замедляется, то просто потому, что большинство немецкоговорящих уже имеют доступ к Сети, расти этой аудитории уже некуда. Когда-нибудь наступит такое время, когда каждый житель планеты станет одновременно и пользователем интернета. Тогда выровняется число говорящих и представленность языка в вебе, то есть русский заметно уступит китайскому, на котором говорит более миллиарда человек, притом что китайский занимает в рейтинге W3Techs только
Как бы там ни было, доступ к современным технологиям — это безусловное достижение прогресса в самом лучшем смысле этого слова, а та положительная динамика, которую демонстрирует присутствие русского языка в интернете, прежде всего свидетельствует о растущем благосостоянии российского общества, что, конечно, внушает осторожный оптимизм. Другое дело, что жизнь, которой язык живет в Сети, заметно отличается от его существования за пределами интернета. Эти отличия зачастую заставляют переживать за судьбу языка, однако на сегодняшний день опасения эти по большей части безосновательны.
Конечно, растущая русскоязычная аудитория заставляет количество переходить в качество. Уже в середине
Русский язык интернет-общения, конечно, отличается некоторыми специфическими особенностями. Формально он относится к письменной форме речи — обычно вдумчивой и размеренной, но ситуация сетевой коммуникации часто заставляет пользователей создавать более спонтанные реплики, по многим характеристикам напоминающие речь устную. То новое, что рождается в этой особенной среде (например, формы ответов вроде «+1»), влияет на оффлайн достаточно скромно, так что пока специальные формы интернет-общения остаются в своей электронной резервации и общенациональному языку не угрожают. Хотя и не исключено, что с ростом числа пользователей интернета и дальнейшего распространения «интернет-оффлайнового двуязычия» эта ситуация будет меняться.
Борис Орехов специально для «Ленты.ру»
Источник: Российский радиопортал