mitrius: (Default)
[personal profile] mitrius
Пересылая файлы для Корпуса, давно заметил, что тексты с грамматической разметкой (то есть такие, где каждому слову приписан его морфологический разбор, вроде гуляющими{гулять=Г,нс,нп=прч,нст,дст,тв,мн}; причём если вариантов несколько, как у словоформы большой, то даются все, и грамматическая омонимия не снимается; кроме того, есть простой синтаксис в виде границ клауз и элементарных составляющих) в заархивированном виде имеют примерно такой же объём, что и исходные тексты без архива и без разметки.

То есть известно, что текст на естественном языке информационно избыточен и сильно ужимается при кодировании. Но вроде как выходит, что эта избыточность в русском языке (наверное, в агглютинативных вроде тюркских будет не так или по крайней мере не совсем так) компенсируется плотностью морфологического ряда, синтаксическим членением и неоднозначностью, и если расписать тут же пространство возможных анализов, то объём информации выйдет тот же.

Иными словами, текст кодируется вместе со своим "переводом" на метаязык, и код получается почти равным входу.

Можно представить себе возражение на то, что я сказал: "а если тут же рядом перевод на немецкий или кечуа записать, так тоже небось компенсирует". Почему-то кажется, что "так, да не так".

January 2021

S M T W T F S
     12
3456789
10111213141516
17181920212223
242526 27 28 2930
31      

Most Popular Tags

Style Credit

Expand Cut Tags

No cut tags
Page generated Jan. 1st, 2026 06:52 am
Powered by Dreamwidth Studios