mitrius: (Default)
mitrius ([personal profile] mitrius) wrote2006-02-07 09:14 pm

Данилов и Данилюк: проблемы текстологии

К сегодняшней презентации пополнения Корпуса (теперь 120 млн слов! слава [livejournal.com profile] uht!). Думаю, это уже можно рассказать.

Позавчера [livejournal.com profile] ormer_fidler искал в Корпусе нечто (а там всё выдаётся по одному предложению) и наткнулся на изумительный факт. После чего он послал мне такое письмо:
Величайшая загадка постсоветской литературы.
Вот есть такая фраза: "Что глазками-то буровишь, чистоплюй?"

Согласно нашему НКРЯ, она встречается в ДВУХ произведениях:

1) Семен Данилюк. Рублевая зона (2004)
и
2) Всеволод Данилов. Банк (2000)

Как такое может быть?!
Получив письмо, я обратился к полным текстам романов (у меня-то они есть).

Открыл файлы при помощи встроенного в Windows Commander сравнивальщика текстов -- элегантного средства, недоступного Лихачёву или Рейсеру (и даже такие светила точной и методологически безупречной (тм) научной (тм) филологии, как Шапир и Пильщиков, не очень, кажется, им пользуются; впрочем, Пильщикова, может быть, коллеги по feb-web уже научили).

Это несомненно две редакции одного и того же романа. В обоих романах одинаковое количество глав, и главы эти одинаково называются. Тем не менее скрупулёзная машина даёт целых 704 разночтения. Часто они сводятся к тому, что некоторые эпизоды, наличествующие у Данилюка, у Данилова отсутствуют. (В целом "Рублёвая зона" на 132 КБ, почти на 20%, длиннее "Банка"). С другой стороны, в тексте Данилюка отсутствуют некоторые неудачные даниловские тропы и образы (например, герой Данилова "перелистал рукой пачку", его homologue у Данилюка листает пачку без упоминания руки; затем на его лице появляется "понимающее выражение", элегантно сжатое Данилюком до "понимания").

Является ли Данилов сокращённым изводом Данилюка, опубликованным на четыре года раньше, или, напротив, Данилюк представляет собой отредактированное расширение (амплификацию) Данилова -- сложная задача, сопоставимая с филиацией списков Задонщины. Оставим эту проблему будущим исследователям русско-украинских литературных связей.

Книги вышли в одном и том же издательстве -- уважаемом "Вагриусе" (думаю, на него это тени ни в коей мере не бросает -- всех аффтаров по байтам сличать не будешь).

Upd. Благодаря гениальной интуиции [livejournal.com profile] graf_g загадка разрешена: http://mitrius.livejournal.com/421252.html?thread=3888516#t3888516

[identity profile] dp.livejournal.com 2006-02-07 06:20 pm (UTC)(link)
Замечательно :)

[identity profile] almony.livejournal.com 2006-02-07 06:39 pm (UTC)(link)
Бедная фантазия у них. Нет бы хоть Василюком автора назвать. :)

[identity profile] kassian.livejournal.com 2006-02-07 06:43 pm (UTC)(link)
Да, история интересная. Лучге всего было бы приватно спросить кого-нибудь из Вагриуса.


/offtop/

> и даже такие светила точной и методологически безупречной (тм) научной (тм) филологии,
> как Шапир и Пильщиков, не очень, кажется, им пользуются; впрочем, Пильщикова, может быть,
> коллеги по feb-web уже научили

Можно спросить, почему у вас такое мнение? Компьютерным инструментарием Ш.&П. пользуются уж не хуже других, это точно.

[identity profile] mitrius.livejournal.com 2006-02-07 06:55 pm (UTC)(link)
Эта функция ВинКоммандера не общеизвестна (есть и более известные спец. diff-программы), и в любом случае как-то вне круга программистов я пользователей построчного компаратора не видел. Допускаю, что и пользуются; наши с И. А. интересы (и круг используемых программистов) отчасти пересекается :)

[identity profile] kassian.livejournal.com 2006-02-07 07:12 pm (UTC)(link)
Ш.&П., помнится, даже меня научили паре хитростей в Ворде (а я уж собаку на этом деле съел). Так что свидетельствую, что технологиями, предоставляемыми настольным компьютером, эти люди пользуются и очень умело.

P.S. Такая функция как Compare by Content, насколько я знаю, является весьма популярной и в филологической среде.

P.P.S. Кстати Windows Commander уже несколько лет называется Total Commander! Когда этот файловый менеджер стал набирать популярность, Билл Гейтс спохватился, чего это еще один Windows командир выискался. Подал в суд. Пришлось программу переименовывать.

[identity profile] mitrius.livejournal.com 2006-02-07 07:54 pm (UTC)(link)
Ну да, а я пользуюсь тем, который ещё так называется :)
У меня и Ворд 97-й стоит :)

[identity profile] kassian.livejournal.com 2006-02-07 08:27 pm (UTC)(link)
Да, вот это правильно, поддерживаю. Не надо гнаться за новейшими версиями софта, если точно не знаешь, что там есть новые и необходимые тебе функции.

Кстати настоящие джедаи до сих пор работают в WW2 (лучший редактор IMHO).

[identity profile] maximaly.livejournal.com 2006-02-08 07:17 am (UTC)(link)
А как же юникод?!

[identity profile] kassian.livejournal.com 2006-02-08 08:40 pm (UTC)(link)
Ну, жили как-то люди без юникода, не тужили. Есть пакет неюникодных шрифтов. Есть пакет макросов, позволяющих тремя-четырьмя кнопками ставить любую N-этажную диакритику (которой и в юникоде-то нету!). Переходить на юникодный WW мне лично смысла нет.

Конвертация между версиями вордов, конечно, не очень проста, но тоже решаемый вопрос.

P.S. Юникод в принципе вещь хорошая, но конкретная сегодняшняя реализации вызывает много нареканий (мы это несколько раз обсуждали на форуме www.prodtp.ru).

[identity profile] maximaly.livejournal.com 2006-02-08 09:05 pm (UTC)(link)
Так все дело как раз в том, что Win XP и соответствующий Ворд сейчас, наверное, самые массовые, и от юникодизации уже никуда не денешься. Хорош этот стандарт или плох — он самый распространенный способ предствавления букв разных алфавитов.
А конвертировать туда-сюда да макросы ставить — это на любителя, не все столь продвинуты, не каждый захочет возиться.

[identity profile] kassian.livejournal.com 2006-02-08 09:21 pm (UTC)(link)
Да, конечно. Если бы Ворд затачивался под нужды индоевропеистики и прочих -истик сейчас, то следовало бы это делать в юникодном Ворде.
Я имел в виду, что геморрой с перелопачиванием старых макросов и переучиванием себя больше, чем неудобства совместимости. Это конкретно моя ситуация и еще ряда пользователей.

Да кроме того, WW2 не имеет кучи дурацких фич, типа принудительной нумерации абзацев (если первый абзац начинался с цифры) и под., которых и отключить-то не всегда можно. И работает с большими документами WW2 намного стабильнее. Документ, который держит без глюков WW2, раз в 5 превышает по объему документ, который корректно обслуживается, скажем, WW XP.

[identity profile] maximaly.livejournal.com 2006-02-10 09:15 am (UTC)(link)
А что вообще умеет WW2? (Я с ним никогда не сталкивался, интересно.) Может ли он проверять орфографию и автоматически расставлять переносы в русском тексте? Или вот еще спрошу: если, скажем, на компе стоит Windows XP и я поставлю WW2, то сможет ли последний работать с установленными на компьютере шрифтами pfm/pfb, или только с TT?

[identity profile] kassian.livejournal.com 2006-02-10 11:52 am (UTC)(link)
WW2 -- это такой рабочий инструмент, грубо сделанный, но железный и неломающийся.

Переносы -- только мягкие сплошняком. И если прикручен модуль Орфы (а его еще поискать надо). То же касается и орфографии.

У меня стоят в линейку WW2, WW6, WW7/95, WW8/97, WWXP/2002. Все работает.

Шрифты t1 поддерживаются. Но есть общее ограничение на кол-во шрифтов -- ок. 400 штук.

В общем, не уверен, что оно вам понравится и стоит тратить на это время.

[identity profile] maximaly.livejournal.com 2006-02-10 02:16 pm (UTC)(link)
Но все же я бы попробовал поставить какой-нибудь неюникодный Ворд (2-й или 6-й). Корректное обслуживание больших документов и надежность соблазняют. Только вот где их сейчас реально достать, такие древности, не подскажете?

[identity profile] kassian.livejournal.com 2006-02-11 02:02 am (UTC)(link)
Вот, пожалуйста: Ww20c.eng и Orfo 4 (для переносов).
http://webfile.ru/805881
12mb.

Но для конвертации из юникодного формата в однобайтовый потребуется еще и WW6.

[identity profile] maximaly.livejournal.com 2006-02-11 03:03 pm (UTC)(link)
Большое спасибо! Попробую установить.

[identity profile] capricornello.livejournal.com 2006-02-07 07:09 pm (UTC)(link)
Вот это да...
У меня подруга в "Вагриусе" работает, надо ей рассказать. Интересно, что скажет :)

[identity profile] graf-g.livejournal.com 2006-02-07 07:31 pm (UTC)(link)
Сила!
В этом свете интересно, в какое время происходит действие. Потому что если в совсем-совсем современное читателю, то все-таки реалии 2000 и 2004 (ну, или 1999 и 2003, когда там писалось теоретически) годов хоть чем-то должны отличаться. Впрочем, может, и не должны...

[identity profile] mura-vey.livejournal.com 2006-02-07 08:25 pm (UTC)(link)
А почему они оба не могут быть о 1999 годе?

[identity profile] graf-g.livejournal.com 2006-02-07 08:30 pm (UTC)(link)
Так вот я и хотел узнать.

[identity profile] mitrius.livejournal.com 2006-02-08 09:56 am (UTC)(link)
А вот это как раз решает вопрос окончательно (Гриша, ты гений; а мне с этого надо было начинать). Оказывается, у Данилюка есть ещё пролог, который совершенно блистательно начинается:

Стоял жаркий январь 2004 года. На Сиднейском научно-практическом симпозиуме...

и не менее блистательно кончается:

Забелин вслушивался в затухающие звуки, а в ушах у него все сильнее звучал совсем иной перезвон, далекого теперь девяносто восьмого года.

После чего идёт текст, совпадающий с Даниловым.

Остроумные люди.

[identity profile] graf-g.livejournal.com 2006-02-08 10:44 am (UTC)(link)
Да, забавно.
Тут, кстати, вопрос: а как вы вообще планируете поступать с подобными историям (вон, я вижу, тебе в комментах уже намекают на аналогичные случаи)? Нет ли основания подключать этот самый сравниватель текстов к корпусу на момент забивания нового текста - с тем, чтобы не возникало таких повторов? Или проблемы этой нет?

[identity profile] mitrius.livejournal.com 2006-02-08 11:56 am (UTC)(link)
Раньше были случаи разных редакций текста у одного титульного автора (это совершенно законная ситуация). В таких случаях более ранняя версия удаляется, по принципу последней авторской воли, а дата на текст ставится двойная (хотя мы всё-таки лингвисты, а не текстологи-публикаторы, так что исключительно для удобства). Иногда фрагмент какого-то текста опубликован и как отдельный текст (такое было у Битова) -- тогда удаляем фрагмент.

Был еще забавный случай -- статья из владивостокской газеты летом 2003, через неск. дней, перепечатана в Красноярске под слегка изменённым названием (но говорить, плагиат это или нет, я бы поостерёгся -- из электронной базы данных неясно, какое было указано авторство и была ли сноска о перепечатке).

Думаю, случаи эти не массовые и легко ловятся пользователями, так что автоматический plagiarism checker тут не нужен.

[identity profile] ormer-fidler.livejournal.com 2006-02-08 12:37 pm (UTC)(link)
Так что, убираем из корпуса Данилова тогда, наверное?

[identity profile] mitrius.livejournal.com 2006-02-08 01:42 pm (UTC)(link)
Наверное, да. "Перелистал рукой". Фу. Экскорпорируйте свои актанты в другом месте, а у нас тут национальный корпус.

[identity profile] mvs.livejournal.com 2006-02-08 09:59 pm (UTC)(link)
Интересно, а почему вчера в корпусе был только Данилов, а сегодня и Данилюк тоже?

Офф: да, теперь корпус настолько большой, что ему мало на что хватает памяти. Зато устная речь, наконец, ура!

[identity profile] mitrius.livejournal.com 2006-02-08 10:06 pm (UTC)(link)
> а почему вчера в корпусе был только Данилов, а сегодня и Данилюк тоже?

данилюк свалился в люк --
не пугайтесь, это глюк!

оба были в корпусе со вчерашнего дня с 14:57.

[identity profile] mvs.livejournal.com 2006-02-08 10:02 pm (UTC)(link)
О, стоит пожаловаться - уже хватает:)
А ты не знаешь, почему яма - это сверхестественное существо?

[identity profile] mitrius.livejournal.com 2006-02-08 10:09 pm (UTC)(link)
Есть такой чувак в словаре:

S;яма;2;propn;hum:supernat;;;;;persn:миф

Взялся он там из последнего издания Зализняка. Индийский бог какой-то.

[identity profile] drauk.livejournal.com 2006-02-09 11:58 am (UTC)(link)
http://en.wikipedia.org/wiki/Yama

Бог смерти.

[identity profile] mitrius.livejournal.com 2006-02-09 03:27 pm (UTC)(link)
Логично.

[identity profile] miram.livejournal.com 2006-02-09 02:28 am (UTC)(link)
Так excorporatio -- это же и есть удаление из корпуса, нет разве? :)

[identity profile] mitrius.livejournal.com 2006-02-09 03:27 pm (UTC)(link)
Вот именно. Они экскорпорируют свои конечности, а мы их тексты из нашего собрания.

[identity profile] miram.livejournal.com 2006-02-09 11:26 pm (UTC)(link)
Налицо дискриминация амёб. Куда смотрит Гринпис?

("Excorporatio" quoque significationem ecclesiasticam habet, obiter dictu ;-) )

[identity profile] pan-twardowski.livejournal.com 2006-02-07 07:53 pm (UTC)(link)
Хм, ни в твоем тексте, ни в комментах не обсуждается еще проблема соотношения - как бы их обозвать? - авторонимов.
В смысле, как-то более естественно переделывать Данилова в Данилюка, чем наоборот. Что, в принципе, говорит скорее о том, что Данилюк представляет собой отредактированное расширение (амплификацию) Данилова, что и вообще более естественно, если более поздняя версия по тексту чуть более, как ты показываешь, причесанная.

[identity profile] mitrius.livejournal.com 2006-02-07 07:55 pm (UTC)(link)
Да ясен пень амплификация. Стебусь.
(deleted comment)

[identity profile] mura-vey.livejournal.com 2006-02-07 07:58 pm (UTC)(link)
И автор будет Даниленко?

[identity profile] mitrius.livejournal.com 2006-02-07 08:05 pm (UTC)(link)
Данилявичуте!

[identity profile] menelik3.livejournal.com 2006-02-07 08:28 pm (UTC)(link)
Джек?

[identity profile] lectiobrevior.livejournal.com 2006-02-08 08:10 am (UTC)(link)
"Сокращённый извод Данилюка, опубликованный на четыре года раньше" - это мечта. Вспомнил родную библеистику:)

[identity profile] leonid-b.livejournal.com 2006-02-08 08:38 am (UTC)(link)
А не пробовали сравнивать опубликованные в одном и том же издательстве романы про благородных бандитов, которые написал Климович и Латынина?

[identity profile] mitrius.livejournal.com 2006-02-08 09:30 am (UTC)(link)
Нет :) А там что за картина?

[identity profile] leonid-b.livejournal.com 2006-02-08 11:11 am (UTC)(link)
Да, я думаю, такая же. Данилюк и Данилов, как я думаю - это один и тот же человек, только в одном из случаев он взял прозрачный псевдоним.
А Латынина некоторое (первое) время издавала свои романы под псевдонимом Климович. А потом переиздавала их, тоже, по-моему, слегка причесывая, уже под своей собственной фамилией.

[identity profile] mitrius.livejournal.com 2006-02-08 11:59 am (UTC)(link)
Ну, или оба Д. -- псевдонимы :)

[identity profile] leonid-b.livejournal.com 2006-02-08 12:12 pm (UTC)(link)
Но тогда я не очень понимаю, о чем спич. Ну, опубликовало издательство роман, под одним псевдонимом, а через несколько лет - следующую редакцию, под несолько другим, но указательным, псевдонимом. Ну и что тут особенного?
Киз свои "Цветы для Элджернона" как только не писал - и никто ему этого не вменяет.

[identity profile] mitrius.livejournal.com 2006-02-08 01:45 pm (UTC)(link)
Да и Агата Кристи под пятью названиями печаталась :) Все равно забавно на такие штуки наталкиваться через корпус, а не как читателю. Мне сложно объяснить.