mitrius: (Default)
mitrius ([personal profile] mitrius) wrote2006-06-16 11:25 pm

Длинные и короткие слова

Удивительно, но никогда мне раньше не приходило в голову получить для Корпуса русского языка такой показатель, как средняя длина слова в тексте (т. е. число байт / число слов) и выстроить тексты по этому параметру(*). Для надёжности я рассматривал только относительно длинные тексты, не меньше 100 килобайт. Получается, -- ожидаемо, -- что этот параметр рос с течением времени (**): самые короткословные (со средним словом короче 6,5 байт) -- почти сплошь люди XIX века, причём в первой лаконичной десятке люди XVIII века Лабзина и Болотов. В первой сотне много текстов Лескова, Достоевского, Гончарова. Для нашего восприятия Толстого, с его "обезматочившими", любопытно, что толстовская "Исповедь" написана необычно короткими словами -- 6,1 байт в среднем, лаконичен граф и в письмах (6,3), а волю словообразованию даёт в художественных текстах. Впрочем, например, во втором томе "Войны и мира" не такие и длинные слова -- всего 6.57 (до сотой столько же, сколько в "Двух капитанах" Каверина, и даже меньше, чем в "Капитанской дочке" :))).

Из короткословных авторов XX века примечательны Битов, Галина Щербакова, Саша Соколов: они регулярно дают показатели, характерные для авторов 1780-1790-х годов рождения. Начиная с длины в 6.4 слова грань между авторами двух прошлых веков стирается: такой параметр уже встречается примерно с равной вероятностью во все времена, но характерно, что для XX века это ещё долго только художественная литература и мемуары.

На противоположном полюсе почти сплошь наука во всех жанрах -- гениальные "Категории средневековой культуры" А. Я. Гуревича лишь немногим уступают проходной монографии о становлении глобального информационого общества. Потрясающе выглядит, как рядом выстраиваются тексты об одной науке -- рядком филологи, рядком историки, да и Зейгарник, Леонтьев и еще какое-то "понятие установки" -- тоже подряд (я понимаю, любой математик покажет, что это случайности, но очень впечатляет). Длинны слова у юристов -- что в "Рассуждении" Сперанского, что в комментариях к ГК нашего времени. Что язык науки и права громоздок -- общеизвестно. А вот многобуквенные литераторы и публицисты вызывают интерес. Так, совсем неожиданна устойчивая высокая длина слов у Мариенгофа (что в прозе, что в мемуарах - может быть, см. примечание, тут как раз работают частые границы абзацев в дорошевичеобразном стиле, и дело не в словах). Длиннословные люди рубежа веков -- тоже "понятно кто": Вяч. Иванов, Мережковскй, Шестов, Бердяев, но всех переплёвывает Ленин -- "Государство и революция" даёт в среднем 7.87 байт на слово. А вот почему такие стабильно длинные русские слова у генерала Деникина, генерала Баранца из генштаба, Феликса Кузнецова и Станислава Куняева (у каждого -- в трёх-четырёх длинных текстах)? Это явно неспроста! Прямо как у Гуревича с Блюмой Зейгарник!


==========

(*) Оговорюсь сразу. В килобайты текста входят не только буквы, но еще, например, границы абзацев, теги курсива и подобное. Так что если в тексте много абзацев или курсива -- то и килобайт в нём много. Это очень заметно на примере пьес, записей устной речи, записных книжек. Эти и еще некоторые категории документов я не учитывал. Для строгой научности, конечно, нужно модифицировать программы и считать только буквы -- тут у нас ЖЖ :))
(**) Да, конечно, все тексты в новой орфографии. Иначе, конечно, этот параметр в XIX веке был бы выше, к гадалке не ходи :)

[identity profile] ivanov-petrov.livejournal.com 2006-06-16 07:48 pm (UTC)(link)
Спасибо. Страшно интересно. Подробнее бы посмотреть...Эх.

[identity profile] petrark.livejournal.com 2006-06-16 08:06 pm (UTC)(link)
Безумно интересно...

[identity profile] xenia-mikhailov.livejournal.com 2006-06-16 08:51 pm (UTC)(link)
Ах как жаль, что курсив учитывается! Вот любопытно мне, что у Шестова выйдет без курсива.

[identity profile] mitrius.livejournal.com 2006-06-16 09:38 pm (UTC)(link)
ничего от бедного не останется :)

[identity profile] xenia-mikhailov.livejournal.com 2006-06-16 09:41 pm (UTC)(link)
И не говорите :)
Там же сплошной курсив.

[identity profile] mitrius.livejournal.com 2006-06-16 09:43 pm (UTC)(link)
А, это лучше :) Если две страницы курсивом подряд, то это один тег, а если курсив и прямой шрифт чередуются на странице двадцать раз, то это двадцать тегов :)

[identity profile] xenia-mikhailov.livejournal.com 2006-06-16 09:47 pm (UTC)(link)
Вот-вот, эти двадцать тэгов и есть Шестов.

[identity profile] mitrius.livejournal.com 2006-06-16 10:39 pm (UTC)(link)
У Шестова теги, у Розанова кавычки... Кавычки, наверное, тоже считаются :))

[identity profile] cema.livejournal.com 2006-06-16 09:00 pm (UTC)(link)
Странно, что это может быть интересно.

Нет, я серьёзно. Тут даже несколько причин. Во-первых, програмки для подобных подсчётов задаются в качестве домашних заданий в начальных курсах программирования. Во-вторых, непонятно, чему "средняя длина слова" соответствует в рамках предметной области (иными словами, вот мы сформулировали задачу в терминах математики, т.е. в терминах инструмента, а теперь давайте сформулируем её в терминах лингвистики-филологии). В-третьих, такие подсчёты проводились ещё в 1950-е годы, хотя я и не помню, к каким результатам они привели; наверно, ни к каким, т.е. к тривиальным.

[identity profile] mitrius.livejournal.com 2006-06-16 09:38 pm (UTC)(link)
Во-первых, я нигде не говорил, что очень сложно написать программку, подсчитать два значения и поделить одно на другое. Инструмент дело десятое, дело первое -- Корпус. Репрезентативное большое собрание текстов. Достаточно большое, чтоб делать нетривиальные выводы.

Во-вторых, в рамках лингвистики-филологии средняя длина орфографического слова, как ни странно, непосредственно соответствует средней длине орфографического слова. Как-то и слово, и длина, и даже средняя величина понятия вполне лингвистические не менее, чем математические :) Опосредованно же эта величина имеет в лингвистике очень много коррелятов, восстановить которые для любого лингвиста не составит труда: первый и тривиальный -- фонетическая длина слова, далее в делу вступают факторы, влияющие на неё: морфологическая сложность слова, использование исконных или заимствованных корней, относительная частотность служебных слов и другое.

В-третьих, тогда не было Корпуса. Да и вообще, исследования могли быть не точно такие и не с точно такими целями. Если исследование в некоторой области производилось в 19** году и не привело ни к каким нетривиальным результатам, -- с каких пор это значит, что так будет вечно?

[identity profile] mvs.livejournal.com 2006-06-16 09:52 pm (UTC)(link)
Во-вторых, в рамках лингвистики-филологии средняя длина орфографического слова, как ни странно, непосредственно соответствует средней длине орфографического слова.
Дествительно, странно...

а вообще интересно, да

[identity profile] mitrius.livejournal.com 2006-06-16 10:15 pm (UTC)(link)
а почему ты закурсивила всё, кроме орфографического? :)

[identity profile] mvs.livejournal.com 2006-06-16 10:33 pm (UTC)(link)
ну как-то я подумала, что одно из них явно лишнее

[identity profile] mitrius.livejournal.com 2006-06-16 10:38 pm (UTC)(link)
по-моему, на языке математики и филологии данный объект описывается совершенно одинаково
вот что я имел в виду :)

[identity profile] firben.livejournal.com 2006-06-16 10:16 pm (UTC)(link)
Феликса Кузнецова и Станислава Куняева

Твикс! Сладкая парочка! Специально подобраны?

Вообще интересный пост, как и обычно. Спасибо.

[identity profile] mitrius.livejournal.com 2006-06-16 10:20 pm (UTC)(link)
Серьёзно, почти рядом в таблице тусуются со своими частотами, хотя мой глаз их выискал, безусловно зная, кто они такие :))

Всегда пожалуйста :))

Длинные и короткие слова

[identity profile] willich.livejournal.com 2006-06-16 10:54 pm (UTC)(link)
а вот интересно, в п-мах средняя длина слова 3-4-5 буков, а очень длинные слова практически не встречаются, а п-мы из слов n=2 и меньше букв надо специально конструировать...

[identity profile] alkonost-spb.livejournal.com 2006-06-16 11:13 pm (UTC)(link)
Идея гениальная! Примите поздравления, счастливый Вы человек!

[identity profile] mitrius.livejournal.com 2006-06-17 07:20 am (UTC)(link)
Спасибо, Марианна! а в чём моё счастье?

[identity profile] alkonost-spb.livejournal.com 2006-06-17 09:59 am (UTC)(link)
счастье что-то новое открыть, прийти к таким интересным выводам, в руках реальные результаты держать
по-моему совершенно ошеломительно вдруг увидеть какие-то законы, с толком использовать знания и навыки. Вообще конкретика всегда несет с собой большое очарование

[identity profile] mitrius.livejournal.com 2006-06-17 08:33 pm (UTC)(link)
да, в чём-то это так. спасибо :)

[identity profile] vasbur.livejournal.com 2006-06-19 03:58 am (UTC)(link)
К слову: в какой-то из версий word по средней длине сдова оценивалась сложность текста - чем ср. дина выше - тем текст сложнее. Видимо, та же тендениция.

[identity profile] mitrius.livejournal.com 2006-06-19 08:38 am (UTC)(link)
Да, и был в Интернете такой "худломер", считающий по этому параметру -- художественная литература, газетная статья или наука.

[identity profile] ormer-fidler.livejournal.com 2006-06-19 05:50 pm (UTC)(link)
кажется, заметное увеличение длины должны давать (при исключении шума):
-- иностранные (отсюда наука)
-- производные всякого рода (а вот это уже интересно, у кого их много и зачем)
а вот куда попадает Солженицын?