mitrius | Длинные и короткие слова

Длинные и короткие слова

Удивительно, но никогда мне раньше не приходило в голову получить для Корпуса русского языка такой показатель, как средняя длина слова в тексте (т. е. число байт / число слов) и выстроить тексты по этому параметру(*). Для надёжности я рассматривал только относительно длинные тексты, не меньше 100 килобайт. Получается, -- ожидаемо, -- что этот параметр рос с течением времени (**): самые короткословные (со средним словом короче 6,5 байт) -- почти сплошь люди XIX века, причём в первой лаконичной десятке люди XVIII века Лабзина и Болотов. В первой сотне много текстов Лескова, Достоевского, Гончарова. Для нашего восприятия Толстого, с его "обезматочившими", любопытно, что толстовская "Исповедь" написана необычно короткими словами -- 6,1 байт в среднем, лаконичен граф и в письмах (6,3), а волю словообразованию даёт в художественных текстах. Впрочем, например, во втором томе "Войны и мира" не такие и длинные слова -- всего 6.57 (до сотой столько же, сколько в "Двух капитанах" Каверина, и даже меньше, чем в "Капитанской дочке" :))).

Из короткословных авторов XX века примечательны Битов, Галина Щербакова, Саша Соколов: они регулярно дают показатели, характерные для авторов 1780-1790-х годов рождения. Начиная с длины в 6.4 слова грань между авторами двух прошлых веков стирается: такой параметр уже встречается примерно с равной вероятностью во все времена, но характерно, что для XX века это ещё долго только художественная литература и мемуары.

На противоположном полюсе почти сплошь наука во всех жанрах -- гениальные "Категории средневековой культуры" А. Я. Гуревича лишь немногим уступают проходной монографии о становлении глобального информационого общества. Потрясающе выглядит, как рядом выстраиваются тексты об одной науке -- рядком филологи, рядком историки, да и Зейгарник, Леонтьев и еще какое-то "понятие установки" -- тоже подряд (я понимаю, любой математик покажет, что это случайности, но очень впечатляет). Длинны слова у юристов -- что в "Рассуждении" Сперанского, что в комментариях к ГК нашего времени. Что язык науки и права громоздок -- общеизвестно. А вот многобуквенные литераторы и публицисты вызывают интерес. Так, совсем неожиданна устойчивая высокая длина слов у Мариенгофа (что в прозе, что в мемуарах - может быть, см. примечание, тут как раз работают частые границы абзацев в дорошевичеобразном стиле, и дело не в словах). Длиннословные люди рубежа веков -- тоже "понятно кто": Вяч. Иванов, Мережковскй, Шестов, Бердяев, но всех переплёвывает Ленин -- "Государство и революция" даёт в среднем 7.87 байт на слово. А вот почему такие стабильно длинные русские слова у генерала Деникина, генерала Баранца из генштаба, Феликса Кузнецова и Станислава Куняева (у каждого -- в трёх-четырёх длинных текстах)? Это явно неспроста! Прямо как у Гуревича с Блюмой Зейгарник!

==========

(*) Оговорюсь сразу. В килобайты текста входят не только буквы, но еще, например, границы абзацев, теги курсива и подобное. Так что если в тексте много абзацев или курсива -- то и килобайт в нём много. Это очень заметно на примере пьес, записей устной речи, записных книжек. Эти и еще некоторые категории документов я не учитывал. Для строгой научности, конечно, нужно модифицировать программы и считать только буквы -- тут у нас ЖЖ :))
(**) Да, конечно, все тексты в новой орфографии. Иначе, конечно, этот параметр в XIX веке был бы выше, к гадалке не ходи :)

Flat | Top-Level Comments Only

Спасибо. Страшно интересно. Подробнее бы посмотреть...Эх.

Безумно интересно...

Ах как жаль, что курсив учитывается! Вот любопытно мне, что у Шестова выйдет без курсива.

ничего от бедного не останется :)

И не говорите :)
Там же сплошной курсив.

А, это лучше :) Если две страницы курсивом подряд, то это один тег, а если курсив и прямой шрифт чередуются на странице двадцать раз, то это двадцать тегов :)

Вот-вот, эти двадцать тэгов и есть Шестов.

У Шестова теги, у Розанова кавычки... Кавычки, наверное, тоже считаются :))

Странно, что это может быть интересно.

Нет, я серьёзно. Тут даже несколько причин. Во-первых, програмки для подобных подсчётов задаются в качестве домашних заданий в начальных курсах программирования. Во-вторых, непонятно, чему "средняя длина слова" соответствует в рамках предметной области (иными словами, вот мы сформулировали задачу в терминах математики, т.е. в терминах инструмента, а теперь давайте сформулируем её в терминах лингвистики-филологии). В-третьих, такие подсчёты проводились ещё в 1950-е годы, хотя я и не помню, к каким результатам они привели; наверно, ни к каким, т.е. к тривиальным.

Во-первых, я нигде не говорил, что очень сложно написать программку, подсчитать два значения и поделить одно на другое. Инструмент дело десятое, дело первое -- Корпус. Репрезентативное большое собрание текстов. Достаточно большое, чтоб делать нетривиальные выводы.

Во-вторых, в рамках лингвистики-филологии средняя длина орфографического слова, как ни странно, непосредственно соответствует средней длине орфографического слова. Как-то и слово, и длина, и даже средняя величина понятия вполне лингвистические не менее, чем математические :) Опосредованно же эта величина имеет в лингвистике очень много коррелятов, восстановить которые для любого лингвиста не составит труда: первый и тривиальный -- фонетическая длина слова, далее в делу вступают факторы, влияющие на неё: морфологическая сложность слова, использование исконных или заимствованных корней, относительная частотность служебных слов и другое.

В-третьих, тогда не было Корпуса. Да и вообще, исследования могли быть не точно такие и не с точно такими целями. Если исследование в некоторой области производилось в 19** году и не привело ни к каким нетривиальным результатам, -- с каких пор это значит, что так будет вечно?

Во-вторых, в рамках лингвистики-филологии средняя длина орфографического слова, как ни странно, непосредственно соответствует средней длине орфографического слова.
Дествительно, странно...

а вообще интересно, да

а почему ты закурсивила всё, кроме орфографического? :)

ну как-то я подумала, что одно из них явно лишнее

по-моему, на языке математики и филологии данный объект описывается совершенно одинаково
вот что я имел в виду :)

Феликса Кузнецова и Станислава Куняева

Твикс! Сладкая парочка! Специально подобраны?

Вообще интересный пост, как и обычно. Спасибо.

Серьёзно, почти рядом в таблице тусуются со своими частотами, хотя мой глаз их выискал, безусловно зная, кто они такие :))

Всегда пожалуйста :))

а вот интересно, в п-мах средняя длина слова 3-4-5 буков, а очень длинные слова практически не встречаются, а п-мы из слов n=2 и меньше букв надо специально конструировать...

Идея гениальная! Примите поздравления, счастливый Вы человек!

Спасибо, Марианна! а в чём моё счастье?

счастье что-то новое открыть, прийти к таким интересным выводам, в руках реальные результаты держать
по-моему совершенно ошеломительно вдруг увидеть какие-то законы, с толком использовать знания и навыки. Вообще конкретика всегда несет с собой большое очарование

да, в чём-то это так. спасибо :)

К слову: в какой-то из версий word по средней длине сдова оценивалась сложность текста - чем ср. дина выше - тем текст сложнее. Видимо, та же тендениция.

Да, и был в Интернете такой "худломер", считающий по этому параметру -- художественная литература, газетная статья или наука.

кажется, заметное увеличение длины должны давать (при исключении шума):
-- иностранные (отсюда наука)
-- производные всякого рода (а вот это уже интересно, у кого их много и зачем)
а вот куда попадает Солженицын?

Flat | Top-Level Comments Only

Длинные и короткие слова

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

Длинные и короткие слова

no subject

no subject

no subject

no subject

no subject

no subject

no subject