Как наш язык эволюционировал за 200 лет

Поисковый сервис Google оказался ещё более многофункциональным, чем мы думали! Учёные приспособили его для лингвистических исследований: специалисты, применив его к 5 миллионам отсканированных книг, смогли проследить тенденции эволюции языка за последние 200 лет. Научная статья на эту тему появилась в журнале Science, мы же остановимся только на самых интересных моментах.
На сегодняшний момент в цифровой формат переведено порядка 15 миллионов книг. Учёные отобрали треть из них (5,2 миллиона книг на английском, французском, испанском, немецком, русском и китайском языках) и составили базу всех использованных слов. Количество слов в этой базе достигло порядка 500 миллиардов. По результатам анализа этой базы данных учёные и смогли сделать массу выводов об эволюции языка. Так, было установлено, что за последние 100 лет количество часто используемых слов возросло вдвое: если наши предки в 1900 году часто использовали в своей речи всего 544 тысячи слов, то в 2000 это число возросло до миллиона, причём 52 % новых слов вошли в употребление после 1950-ых годов.
Кроме того, стало возможным проследить влияние цензуры на использование тех или иных слов. Так, например, словосочетание «площадь Тяньаньмень» практически перестало встречаться в китайской литературе после 1989 года, когда на этой площади произошли массовые студенческие волнения, подавленные правительством и унесшие, по некоторым оценкам, порядка 5000 жизней. То же случилось в 1940-ые годы в СССР с именем Льва Троцкого и именами голливудских актёров, уличённых в связях с Советским Союзом.
Думается, что это только начало череды лингвистических открытий, которую нам подарит возможность массовой обработки и анализа цифровых текстов.