mitrius: (Default)
[personal profile] mitrius
Пересылая файлы для Корпуса, давно заметил, что тексты с грамматической разметкой (то есть такие, где каждому слову приписан его морфологический разбор, вроде гуляющими{гулять=Г,нс,нп=прч,нст,дст,тв,мн}; причём если вариантов несколько, как у словоформы большой, то даются все, и грамматическая омонимия не снимается; кроме того, есть простой синтаксис в виде границ клауз и элементарных составляющих) в заархивированном виде имеют примерно такой же объём, что и исходные тексты без архива и без разметки.

То есть известно, что текст на естественном языке информационно избыточен и сильно ужимается при кодировании. Но вроде как выходит, что эта избыточность в русском языке (наверное, в агглютинативных вроде тюркских будет не так или по крайней мере не совсем так) компенсируется плотностью морфологического ряда, синтаксическим членением и неоднозначностью, и если расписать тут же пространство возможных анализов, то объём информации выйдет тот же.

Иными словами, текст кодируется вместе со своим "переводом" на метаязык, и код получается почти равным входу.

Можно представить себе возражение на то, что я сказал: "а если тут же рядом перевод на немецкий или кечуа записать, так тоже небось компенсирует". Почему-то кажется, что "так, да не так".

Date: 2006-03-18 08:06 am (UTC)
From: [identity profile] petrark.livejournal.com
Ага, интересное наблюдение.
Из немного другой оперы: МР3 файлы в битрейте до 256 килобит/сек почти не ужимаются. А в более высоком, например, 32о кб/с ужимаются весьма сильно.

Date: 2006-03-18 08:11 am (UTC)
From: [identity profile] bylin.livejournal.com
информационно-кодировочно!

Date: 2006-03-18 08:42 am (UTC)
From: [identity profile] tigris-traum.livejournal.com
а почему омонимия не снимается? помнится, одно из заданий не-помню-к-чему заключалось как раз в грамедите с ручным (лапками, лапками) снятием омонимии. нет?
From: [identity profile] smilga.livejournal.com
Cхему кодирования грамматических показателей можно изменить так, что она будет занимать меньше или больше байт, и будет более или менее ужимаема. Чем вот эти двух-трёхбуквенные обозначения специально выделяются из прочих схем кодирования (кроме удобства использования для русских грамматистов), мне решительно непонятно.

Date: 2006-03-18 02:20 pm (UTC)
From: [identity profile] dimkaguarani.livejournal.com
Так, да не так. :)

>кроме того, есть простой синтаксис в виде границ клауз и элементарных составляющих
О! это благая весть.
(deleted comment) (Show 1 comment)

January 2021

S M T W T F S
     12
3456789
10111213141516
17181920212223
242526 27 28 2930
31      

Most Popular Tags

Style Credit

Expand Cut Tags

No cut tags
Page generated Jan. 2nd, 2026 03:51 am
Powered by Dreamwidth Studios