mitrius: (Default)
[personal profile] mitrius
Пересылая файлы для Корпуса, давно заметил, что тексты с грамматической разметкой (то есть такие, где каждому слову приписан его морфологический разбор, вроде гуляющими{гулять=Г,нс,нп=прч,нст,дст,тв,мн}; причём если вариантов несколько, как у словоформы большой, то даются все, и грамматическая омонимия не снимается; кроме того, есть простой синтаксис в виде границ клауз и элементарных составляющих) в заархивированном виде имеют примерно такой же объём, что и исходные тексты без архива и без разметки.

То есть известно, что текст на естественном языке информационно избыточен и сильно ужимается при кодировании. Но вроде как выходит, что эта избыточность в русском языке (наверное, в агглютинативных вроде тюркских будет не так или по крайней мере не совсем так) компенсируется плотностью морфологического ряда, синтаксическим членением и неоднозначностью, и если расписать тут же пространство возможных анализов, то объём информации выйдет тот же.

Иными словами, текст кодируется вместе со своим "переводом" на метаязык, и код получается почти равным входу.

Можно представить себе возражение на то, что я сказал: "а если тут же рядом перевод на немецкий или кечуа записать, так тоже небось компенсирует". Почему-то кажется, что "так, да не так".

Date: 2006-03-18 08:42 am (UTC)
From: [identity profile] tigris-traum.livejournal.com
а почему омонимия не снимается? помнится, одно из заданий не-помню-к-чему заключалось как раз в грамедите с ручным (лапками, лапками) снятием омонимии. нет?

Date: 2006-03-18 08:53 am (UTC)
From: [identity profile] mitrius.livejournal.com
Так это я посылаю неснятые файлы к лапкам, а лапки присылают мне снятое, но уже в Ворде, так что вступает дополнительный код и уже не разберёшься.

January 2021

S M T W T F S
     12
3456789
10111213141516
17181920212223
242526 27 28 2930
31      

Most Popular Tags

Style Credit

Expand Cut Tags

No cut tags
Page generated Jan. 2nd, 2026 07:04 pm
Powered by Dreamwidth Studios