mitrius | Корпусно-информационное

Пересылая файлы для Корпуса, давно заметил, что тексты с грамматической разметкой (то есть такие, где каждому слову приписан его морфологический разбор, вроде гуляющими{гулять=Г,нс,нп=прч,нст,дст,тв,мн}; причём если вариантов несколько, как у словоформы большой, то даются все, и грамматическая омонимия не снимается; кроме того, есть простой синтаксис в виде границ клауз и элементарных составляющих) в заархивированном виде имеют примерно такой же объём, что и исходные тексты без архива и без разметки.

То есть известно, что текст на естественном языке информационно избыточен и сильно ужимается при кодировании. Но вроде как выходит, что эта избыточность в русском языке (наверное, в агглютинативных вроде тюркских будет не так или по крайней мере не совсем так) компенсируется плотностью морфологического ряда, синтаксическим членением и неоднозначностью, и если расписать тут же пространство возможных анализов, то объём информации выйдет тот же.

Иными словами, текст кодируется вместе со своим "переводом" на метаязык, и код получается почти равным входу.

Можно представить себе возражение на то, что я сказал: "а если тут же рядом перевод на немецкий или кечуа записать, так тоже небось компенсирует". Почему-то кажется, что "так, да не так".