mitrius: (Default)
mitrius ([personal profile] mitrius) wrote2006-03-18 10:58 am

Корпусно-информационное

Пересылая файлы для Корпуса, давно заметил, что тексты с грамматической разметкой (то есть такие, где каждому слову приписан его морфологический разбор, вроде гуляющими{гулять=Г,нс,нп=прч,нст,дст,тв,мн}; причём если вариантов несколько, как у словоформы большой, то даются все, и грамматическая омонимия не снимается; кроме того, есть простой синтаксис в виде границ клауз и элементарных составляющих) в заархивированном виде имеют примерно такой же объём, что и исходные тексты без архива и без разметки.

То есть известно, что текст на естественном языке информационно избыточен и сильно ужимается при кодировании. Но вроде как выходит, что эта избыточность в русском языке (наверное, в агглютинативных вроде тюркских будет не так или по крайней мере не совсем так) компенсируется плотностью морфологического ряда, синтаксическим членением и неоднозначностью, и если расписать тут же пространство возможных анализов, то объём информации выйдет тот же.

Иными словами, текст кодируется вместе со своим "переводом" на метаязык, и код получается почти равным входу.

Можно представить себе возражение на то, что я сказал: "а если тут же рядом перевод на немецкий или кечуа записать, так тоже небось компенсирует". Почему-то кажется, что "так, да не так".

[identity profile] petrark.livejournal.com 2006-03-18 08:06 am (UTC)(link)
Ага, интересное наблюдение.
Из немного другой оперы: МР3 файлы в битрейте до 256 килобит/сек почти не ужимаются. А в более высоком, например, 32о кб/с ужимаются весьма сильно.

[identity profile] bylin.livejournal.com 2006-03-18 08:11 am (UTC)(link)
информационно-кодировочно!

[identity profile] mitrius.livejournal.com 2006-03-18 08:25 am (UTC)(link)
С форматами изображений штука похожая.

Да, там же есть ещё простой синтаксис составляющих!

Щас добавлю.

[identity profile] tigris-traum.livejournal.com 2006-03-18 08:42 am (UTC)(link)
а почему омонимия не снимается? помнится, одно из заданий не-помню-к-чему заключалось как раз в грамедите с ручным (лапками, лапками) снятием омонимии. нет?

[identity profile] mitrius.livejournal.com 2006-03-18 08:53 am (UTC)(link)
Так это я посылаю неснятые файлы к лапкам, а лапки присылают мне снятое, но уже в Ворде, так что вступает дополнительный код и уже не разберёшься.

мистика есть признак неудачи

[identity profile] smilga.livejournal.com 2006-03-18 11:06 am (UTC)(link)
Cхему кодирования грамматических показателей можно изменить так, что она будет занимать меньше или больше байт, и будет более или менее ужимаема. Чем вот эти двух-трёхбуквенные обозначения специально выделяются из прочих схем кодирования (кроме удобства использования для русских грамматистов), мне решительно непонятно.

[identity profile] mitrius.livejournal.com 2006-03-18 11:09 am (UTC)(link)
Ну, конечно же, удобство использования для русских грамматистов не значит ровно ничего.

[identity profile] dimkaguarani.livejournal.com 2006-03-18 02:20 pm (UTC)(link)
Так, да не так. :)

>кроме того, есть простой синтаксис в виде границ клауз и элементарных составляющих
О! это благая весть.

[identity profile] mitrius.livejournal.com 2006-03-18 05:55 pm (UTC)(link)
раром

[identity profile] mitrius.livejournal.com 2006-03-18 06:39 pm (UTC)(link)
Но искать по нему никогда не будет возможно. Только ЭТАПовский! :)

[identity profile] dimkaguarani.livejournal.com 2006-03-25 12:22 pm (UTC)(link)
Я так и знал. :(