mitrius: (Default)
[personal profile] mitrius
К сегодняшней презентации пополнения Корпуса (теперь 120 млн слов! слава [livejournal.com profile] uht!). Думаю, это уже можно рассказать.

Позавчера [livejournal.com profile] ormer_fidler искал в Корпусе нечто (а там всё выдаётся по одному предложению) и наткнулся на изумительный факт. После чего он послал мне такое письмо:
Величайшая загадка постсоветской литературы.
Вот есть такая фраза: "Что глазками-то буровишь, чистоплюй?"

Согласно нашему НКРЯ, она встречается в ДВУХ произведениях:

1) Семен Данилюк. Рублевая зона (2004)
и
2) Всеволод Данилов. Банк (2000)

Как такое может быть?!
Получив письмо, я обратился к полным текстам романов (у меня-то они есть).

Открыл файлы при помощи встроенного в Windows Commander сравнивальщика текстов -- элегантного средства, недоступного Лихачёву или Рейсеру (и даже такие светила точной и методологически безупречной (тм) научной (тм) филологии, как Шапир и Пильщиков, не очень, кажется, им пользуются; впрочем, Пильщикова, может быть, коллеги по feb-web уже научили).

Это несомненно две редакции одного и того же романа. В обоих романах одинаковое количество глав, и главы эти одинаково называются. Тем не менее скрупулёзная машина даёт целых 704 разночтения. Часто они сводятся к тому, что некоторые эпизоды, наличествующие у Данилюка, у Данилова отсутствуют. (В целом "Рублёвая зона" на 132 КБ, почти на 20%, длиннее "Банка"). С другой стороны, в тексте Данилюка отсутствуют некоторые неудачные даниловские тропы и образы (например, герой Данилова "перелистал рукой пачку", его homologue у Данилюка листает пачку без упоминания руки; затем на его лице появляется "понимающее выражение", элегантно сжатое Данилюком до "понимания").

Является ли Данилов сокращённым изводом Данилюка, опубликованным на четыре года раньше, или, напротив, Данилюк представляет собой отредактированное расширение (амплификацию) Данилова -- сложная задача, сопоставимая с филиацией списков Задонщины. Оставим эту проблему будущим исследователям русско-украинских литературных связей.

Книги вышли в одном и том же издательстве -- уважаемом "Вагриусе" (думаю, на него это тени ни в коей мере не бросает -- всех аффтаров по байтам сличать не будешь).

Upd. Благодаря гениальной интуиции [livejournal.com profile] graf_g загадка разрешена: http://mitrius.livejournal.com/421252.html?thread=3888516#t3888516

Date: 2006-02-08 07:17 am (UTC)
From: [identity profile] maximaly.livejournal.com
А как же юникод?!

Date: 2006-02-08 08:40 pm (UTC)
From: [identity profile] kassian.livejournal.com
Ну, жили как-то люди без юникода, не тужили. Есть пакет неюникодных шрифтов. Есть пакет макросов, позволяющих тремя-четырьмя кнопками ставить любую N-этажную диакритику (которой и в юникоде-то нету!). Переходить на юникодный WW мне лично смысла нет.

Конвертация между версиями вордов, конечно, не очень проста, но тоже решаемый вопрос.

P.S. Юникод в принципе вещь хорошая, но конкретная сегодняшняя реализации вызывает много нареканий (мы это несколько раз обсуждали на форуме www.prodtp.ru).

Date: 2006-02-08 09:05 pm (UTC)
From: [identity profile] maximaly.livejournal.com
Так все дело как раз в том, что Win XP и соответствующий Ворд сейчас, наверное, самые массовые, и от юникодизации уже никуда не денешься. Хорош этот стандарт или плох — он самый распространенный способ предствавления букв разных алфавитов.
А конвертировать туда-сюда да макросы ставить — это на любителя, не все столь продвинуты, не каждый захочет возиться.

Date: 2006-02-08 09:21 pm (UTC)
From: [identity profile] kassian.livejournal.com
Да, конечно. Если бы Ворд затачивался под нужды индоевропеистики и прочих -истик сейчас, то следовало бы это делать в юникодном Ворде.
Я имел в виду, что геморрой с перелопачиванием старых макросов и переучиванием себя больше, чем неудобства совместимости. Это конкретно моя ситуация и еще ряда пользователей.

Да кроме того, WW2 не имеет кучи дурацких фич, типа принудительной нумерации абзацев (если первый абзац начинался с цифры) и под., которых и отключить-то не всегда можно. И работает с большими документами WW2 намного стабильнее. Документ, который держит без глюков WW2, раз в 5 превышает по объему документ, который корректно обслуживается, скажем, WW XP.

Date: 2006-02-10 09:15 am (UTC)
From: [identity profile] maximaly.livejournal.com
А что вообще умеет WW2? (Я с ним никогда не сталкивался, интересно.) Может ли он проверять орфографию и автоматически расставлять переносы в русском тексте? Или вот еще спрошу: если, скажем, на компе стоит Windows XP и я поставлю WW2, то сможет ли последний работать с установленными на компьютере шрифтами pfm/pfb, или только с TT?

Date: 2006-02-10 11:52 am (UTC)
From: [identity profile] kassian.livejournal.com
WW2 -- это такой рабочий инструмент, грубо сделанный, но железный и неломающийся.

Переносы -- только мягкие сплошняком. И если прикручен модуль Орфы (а его еще поискать надо). То же касается и орфографии.

У меня стоят в линейку WW2, WW6, WW7/95, WW8/97, WWXP/2002. Все работает.

Шрифты t1 поддерживаются. Но есть общее ограничение на кол-во шрифтов -- ок. 400 штук.

В общем, не уверен, что оно вам понравится и стоит тратить на это время.

Date: 2006-02-10 02:16 pm (UTC)
From: [identity profile] maximaly.livejournal.com
Но все же я бы попробовал поставить какой-нибудь неюникодный Ворд (2-й или 6-й). Корректное обслуживание больших документов и надежность соблазняют. Только вот где их сейчас реально достать, такие древности, не подскажете?

Date: 2006-02-11 02:02 am (UTC)
From: [identity profile] kassian.livejournal.com
Вот, пожалуйста: Ww20c.eng и Orfo 4 (для переносов).
http://webfile.ru/805881
12mb.

Но для конвертации из юникодного формата в однобайтовый потребуется еще и WW6.

Date: 2006-02-11 03:03 pm (UTC)
From: [identity profile] maximaly.livejournal.com
Большое спасибо! Попробую установить.

January 2021

S M T W T F S
     12
3456789
10111213141516
17181920212223
242526 27 28 2930
31      

Most Popular Tags

Style Credit

Expand Cut Tags

No cut tags
Page generated Jan. 1st, 2026 04:02 pm
Powered by Dreamwidth Studios