Jun. 16th, 2006
Длинные и короткие слова
Jun. 16th, 2006 11:25 pmУдивительно, но никогда мне раньше не приходило в голову получить для Корпуса русского языка такой показатель, как средняя длина слова в тексте (т. е. число байт / число слов) и выстроить тексты по этому параметру(*). Для надёжности я рассматривал только относительно длинные тексты, не меньше 100 килобайт. Получается, -- ожидаемо, -- что этот параметр рос с течением времени (**): самые короткословные (со средним словом короче 6,5 байт) -- почти сплошь люди XIX века, причём в первой лаконичной десятке люди XVIII века Лабзина и Болотов. В первой сотне много текстов Лескова, Достоевского, Гончарова. Для нашего восприятия Толстого, с его "обезматочившими", любопытно, что толстовская "Исповедь" написана необычно короткими словами -- 6,1 байт в среднем, лаконичен граф и в письмах (6,3), а волю словообразованию даёт в художественных текстах. Впрочем, например, во втором томе "Войны и мира" не такие и длинные слова -- всего 6.57 (до сотой столько же, сколько в "Двух капитанах" Каверина, и даже меньше, чем в "Капитанской дочке" :))).
Из короткословных авторов XX века примечательны Битов, Галина Щербакова, Саша Соколов: они регулярно дают показатели, характерные для авторов 1780-1790-х годов рождения. Начиная с длины в 6.4 слова грань между авторами двух прошлых веков стирается: такой параметр уже встречается примерно с равной вероятностью во все времена, но характерно, что для XX века это ещё долго только художественная литература и мемуары.
На противоположном полюсе почти сплошь наука во всех жанрах -- гениальные "Категории средневековой культуры" А. Я. Гуревича лишь немногим уступают проходной монографии о становлении глобального информационого общества. Потрясающе выглядит, как рядом выстраиваются тексты об одной науке -- рядком филологи, рядком историки, да и Зейгарник, Леонтьев и еще какое-то "понятие установки" -- тоже подряд (я понимаю, любой математик покажет, что это случайности, но очень впечатляет). Длинны слова у юристов -- что в "Рассуждении" Сперанского, что в комментариях к ГК нашего времени. Что язык науки и права громоздок -- общеизвестно. А вот многобуквенные литераторы и публицисты вызывают интерес. Так, совсем неожиданна устойчивая высокая длина слов у Мариенгофа (что в прозе, что в мемуарах - может быть, см. примечание, тут как раз работают частые границы абзацев в дорошевичеобразном стиле, и дело не в словах). Длиннословные люди рубежа веков -- тоже "понятно кто": Вяч. Иванов, Мережковскй, Шестов, Бердяев, но всех переплёвывает Ленин -- "Государство и революция" даёт в среднем 7.87 байт на слово. А вот почему такие стабильно длинные русские слова у генерала Деникина, генерала Баранца из генштаба, Феликса Кузнецова и Станислава Куняева (у каждого -- в трёх-четырёх длинных текстах)? Это явно неспроста! Прямо как у Гуревича с Блюмой Зейгарник!
==========
(*) Оговорюсь сразу. В килобайты текста входят не только буквы, но еще, например, границы абзацев, теги курсива и подобное. Так что если в тексте много абзацев или курсива -- то и килобайт в нём много. Это очень заметно на примере пьес, записей устной речи, записных книжек. Эти и еще некоторые категории документов я не учитывал. Для строгой научности, конечно, нужно модифицировать программы и считать только буквы -- тут у нас ЖЖ :))
(**) Да, конечно, все тексты в новой орфографии. Иначе, конечно, этот параметр в XIX веке был бы выше, к гадалке не ходи :)
Из короткословных авторов XX века примечательны Битов, Галина Щербакова, Саша Соколов: они регулярно дают показатели, характерные для авторов 1780-1790-х годов рождения. Начиная с длины в 6.4 слова грань между авторами двух прошлых веков стирается: такой параметр уже встречается примерно с равной вероятностью во все времена, но характерно, что для XX века это ещё долго только художественная литература и мемуары.
На противоположном полюсе почти сплошь наука во всех жанрах -- гениальные "Категории средневековой культуры" А. Я. Гуревича лишь немногим уступают проходной монографии о становлении глобального информационого общества. Потрясающе выглядит, как рядом выстраиваются тексты об одной науке -- рядком филологи, рядком историки, да и Зейгарник, Леонтьев и еще какое-то "понятие установки" -- тоже подряд (я понимаю, любой математик покажет, что это случайности, но очень впечатляет). Длинны слова у юристов -- что в "Рассуждении" Сперанского, что в комментариях к ГК нашего времени. Что язык науки и права громоздок -- общеизвестно. А вот многобуквенные литераторы и публицисты вызывают интерес. Так, совсем неожиданна устойчивая высокая длина слов у Мариенгофа (что в прозе, что в мемуарах - может быть, см. примечание, тут как раз работают частые границы абзацев в дорошевичеобразном стиле, и дело не в словах). Длиннословные люди рубежа веков -- тоже "понятно кто": Вяч. Иванов, Мережковскй, Шестов, Бердяев, но всех переплёвывает Ленин -- "Государство и революция" даёт в среднем 7.87 байт на слово. А вот почему такие стабильно длинные русские слова у генерала Деникина, генерала Баранца из генштаба, Феликса Кузнецова и Станислава Куняева (у каждого -- в трёх-четырёх длинных текстах)? Это явно неспроста! Прямо как у Гуревича с Блюмой Зейгарник!
==========
(*) Оговорюсь сразу. В килобайты текста входят не только буквы, но еще, например, границы абзацев, теги курсива и подобное. Так что если в тексте много абзацев или курсива -- то и килобайт в нём много. Это очень заметно на примере пьес, записей устной речи, записных книжек. Эти и еще некоторые категории документов я не учитывал. Для строгой научности, конечно, нужно модифицировать программы и считать только буквы -- тут у нас ЖЖ :))
(**) Да, конечно, все тексты в новой орфографии. Иначе, конечно, этот параметр в XIX веке был бы выше, к гадалке не ходи :)
