mitrius: (Default)
[personal profile] mitrius
К сегодняшней презентации пополнения Корпуса (теперь 120 млн слов! слава [livejournal.com profile] uht!). Думаю, это уже можно рассказать.

Позавчера [livejournal.com profile] ormer_fidler искал в Корпусе нечто (а там всё выдаётся по одному предложению) и наткнулся на изумительный факт. После чего он послал мне такое письмо:
Величайшая загадка постсоветской литературы.
Вот есть такая фраза: "Что глазками-то буровишь, чистоплюй?"

Согласно нашему НКРЯ, она встречается в ДВУХ произведениях:

1) Семен Данилюк. Рублевая зона (2004)
и
2) Всеволод Данилов. Банк (2000)

Как такое может быть?!
Получив письмо, я обратился к полным текстам романов (у меня-то они есть).

Открыл файлы при помощи встроенного в Windows Commander сравнивальщика текстов -- элегантного средства, недоступного Лихачёву или Рейсеру (и даже такие светила точной и методологически безупречной (тм) научной (тм) филологии, как Шапир и Пильщиков, не очень, кажется, им пользуются; впрочем, Пильщикова, может быть, коллеги по feb-web уже научили).

Это несомненно две редакции одного и того же романа. В обоих романах одинаковое количество глав, и главы эти одинаково называются. Тем не менее скрупулёзная машина даёт целых 704 разночтения. Часто они сводятся к тому, что некоторые эпизоды, наличествующие у Данилюка, у Данилова отсутствуют. (В целом "Рублёвая зона" на 132 КБ, почти на 20%, длиннее "Банка"). С другой стороны, в тексте Данилюка отсутствуют некоторые неудачные даниловские тропы и образы (например, герой Данилова "перелистал рукой пачку", его homologue у Данилюка листает пачку без упоминания руки; затем на его лице появляется "понимающее выражение", элегантно сжатое Данилюком до "понимания").

Является ли Данилов сокращённым изводом Данилюка, опубликованным на четыре года раньше, или, напротив, Данилюк представляет собой отредактированное расширение (амплификацию) Данилова -- сложная задача, сопоставимая с филиацией списков Задонщины. Оставим эту проблему будущим исследователям русско-украинских литературных связей.

Книги вышли в одном и том же издательстве -- уважаемом "Вагриусе" (думаю, на него это тени ни в коей мере не бросает -- всех аффтаров по байтам сличать не будешь).

Upd. Благодаря гениальной интуиции [livejournal.com profile] graf_g загадка разрешена: http://mitrius.livejournal.com/421252.html?thread=3888516#t3888516

Date: 2006-02-07 06:20 pm (UTC)
From: [identity profile] dp.livejournal.com
Замечательно :)

Date: 2006-02-07 06:39 pm (UTC)
From: [identity profile] almony.livejournal.com
Бедная фантазия у них. Нет бы хоть Василюком автора назвать. :)

Date: 2006-02-07 06:43 pm (UTC)
From: [identity profile] kassian.livejournal.com
Да, история интересная. Лучге всего было бы приватно спросить кого-нибудь из Вагриуса.


/offtop/

> и даже такие светила точной и методологически безупречной (тм) научной (тм) филологии,
> как Шапир и Пильщиков, не очень, кажется, им пользуются; впрочем, Пильщикова, может быть,
> коллеги по feb-web уже научили

Можно спросить, почему у вас такое мнение? Компьютерным инструментарием Ш.&П. пользуются уж не хуже других, это точно.

Date: 2006-02-07 06:55 pm (UTC)
From: [identity profile] mitrius.livejournal.com
Эта функция ВинКоммандера не общеизвестна (есть и более известные спец. diff-программы), и в любом случае как-то вне круга программистов я пользователей построчного компаратора не видел. Допускаю, что и пользуются; наши с И. А. интересы (и круг используемых программистов) отчасти пересекается :)

Date: 2006-02-07 07:09 pm (UTC)
From: [identity profile] capricornello.livejournal.com
Вот это да...
У меня подруга в "Вагриусе" работает, надо ей рассказать. Интересно, что скажет :)

Date: 2006-02-07 07:12 pm (UTC)
From: [identity profile] kassian.livejournal.com
Ш.&П., помнится, даже меня научили паре хитростей в Ворде (а я уж собаку на этом деле съел). Так что свидетельствую, что технологиями, предоставляемыми настольным компьютером, эти люди пользуются и очень умело.

P.S. Такая функция как Compare by Content, насколько я знаю, является весьма популярной и в филологической среде.

P.P.S. Кстати Windows Commander уже несколько лет называется Total Commander! Когда этот файловый менеджер стал набирать популярность, Билл Гейтс спохватился, чего это еще один Windows командир выискался. Подал в суд. Пришлось программу переименовывать.

Date: 2006-02-07 07:31 pm (UTC)
From: [identity profile] graf-g.livejournal.com
Сила!
В этом свете интересно, в какое время происходит действие. Потому что если в совсем-совсем современное читателю, то все-таки реалии 2000 и 2004 (ну, или 1999 и 2003, когда там писалось теоретически) годов хоть чем-то должны отличаться. Впрочем, может, и не должны...

Date: 2006-02-07 07:53 pm (UTC)
From: [identity profile] pan-twardowski.livejournal.com
Хм, ни в твоем тексте, ни в комментах не обсуждается еще проблема соотношения - как бы их обозвать? - авторонимов.
В смысле, как-то более естественно переделывать Данилова в Данилюка, чем наоборот. Что, в принципе, говорит скорее о том, что Данилюк представляет собой отредактированное расширение (амплификацию) Данилова, что и вообще более естественно, если более поздняя версия по тексту чуть более, как ты показываешь, причесанная.

Date: 2006-02-07 07:54 pm (UTC)
From: [identity profile] mitrius.livejournal.com
Ну да, а я пользуюсь тем, который ещё так называется :)
У меня и Ворд 97-й стоит :)

Date: 2006-02-07 07:55 pm (UTC)
From: [identity profile] mitrius.livejournal.com
Да ясен пень амплификация. Стебусь.

Date: 2006-02-07 07:58 pm (UTC)
From: [identity profile] mura-vey.livejournal.com
И автор будет Даниленко?

Date: 2006-02-07 07:59 pm (UTC)
From: [identity profile] kirillkirill.livejournal.com
Дэниэлс

Date: 2006-02-07 08:05 pm (UTC)
From: [identity profile] mitrius.livejournal.com
Данилявичуте!

Date: 2006-02-07 08:25 pm (UTC)
From: [identity profile] mura-vey.livejournal.com
А почему они оба не могут быть о 1999 годе?

Date: 2006-02-07 08:27 pm (UTC)
From: [identity profile] kassian.livejournal.com
Да, вот это правильно, поддерживаю. Не надо гнаться за новейшими версиями софта, если точно не знаешь, что там есть новые и необходимые тебе функции.

Кстати настоящие джедаи до сих пор работают в WW2 (лучший редактор IMHO).

Date: 2006-02-07 08:28 pm (UTC)
From: [identity profile] menelik3.livejournal.com
Джек?

Date: 2006-02-07 08:30 pm (UTC)
From: [identity profile] graf-g.livejournal.com
Так вот я и хотел узнать.

Date: 2006-02-08 07:17 am (UTC)
From: [identity profile] maximaly.livejournal.com
А как же юникод?!

Date: 2006-02-08 08:10 am (UTC)
From: [identity profile] lectiobrevior.livejournal.com
"Сокращённый извод Данилюка, опубликованный на четыре года раньше" - это мечта. Вспомнил родную библеистику:)

Date: 2006-02-08 08:38 am (UTC)
From: [identity profile] leonid-b.livejournal.com
А не пробовали сравнивать опубликованные в одном и том же издательстве романы про благородных бандитов, которые написал Климович и Латынина?

Date: 2006-02-08 09:30 am (UTC)
From: [identity profile] mitrius.livejournal.com
Нет :) А там что за картина?

Date: 2006-02-08 09:56 am (UTC)
From: [identity profile] mitrius.livejournal.com
А вот это как раз решает вопрос окончательно (Гриша, ты гений; а мне с этого надо было начинать). Оказывается, у Данилюка есть ещё пролог, который совершенно блистательно начинается:

Стоял жаркий январь 2004 года. На Сиднейском научно-практическом симпозиуме...

и не менее блистательно кончается:

Забелин вслушивался в затухающие звуки, а в ушах у него все сильнее звучал совсем иной перезвон, далекого теперь девяносто восьмого года.

После чего идёт текст, совпадающий с Даниловым.

Остроумные люди.

Date: 2006-02-08 10:44 am (UTC)
From: [identity profile] graf-g.livejournal.com
Да, забавно.
Тут, кстати, вопрос: а как вы вообще планируете поступать с подобными историям (вон, я вижу, тебе в комментах уже намекают на аналогичные случаи)? Нет ли основания подключать этот самый сравниватель текстов к корпусу на момент забивания нового текста - с тем, чтобы не возникало таких повторов? Или проблемы этой нет?

Date: 2006-02-08 11:11 am (UTC)
From: [identity profile] leonid-b.livejournal.com
Да, я думаю, такая же. Данилюк и Данилов, как я думаю - это один и тот же человек, только в одном из случаев он взял прозрачный псевдоним.
А Латынина некоторое (первое) время издавала свои романы под псевдонимом Климович. А потом переиздавала их, тоже, по-моему, слегка причесывая, уже под своей собственной фамилией.

Date: 2006-02-08 11:56 am (UTC)
From: [identity profile] mitrius.livejournal.com
Раньше были случаи разных редакций текста у одного титульного автора (это совершенно законная ситуация). В таких случаях более ранняя версия удаляется, по принципу последней авторской воли, а дата на текст ставится двойная (хотя мы всё-таки лингвисты, а не текстологи-публикаторы, так что исключительно для удобства). Иногда фрагмент какого-то текста опубликован и как отдельный текст (такое было у Битова) -- тогда удаляем фрагмент.

Был еще забавный случай -- статья из владивостокской газеты летом 2003, через неск. дней, перепечатана в Красноярске под слегка изменённым названием (но говорить, плагиат это или нет, я бы поостерёгся -- из электронной базы данных неясно, какое было указано авторство и была ли сноска о перепечатке).

Думаю, случаи эти не массовые и легко ловятся пользователями, так что автоматический plagiarism checker тут не нужен.

Date: 2006-02-08 11:59 am (UTC)
From: [identity profile] mitrius.livejournal.com
Ну, или оба Д. -- псевдонимы :)

Date: 2006-02-08 12:12 pm (UTC)
From: [identity profile] leonid-b.livejournal.com
Но тогда я не очень понимаю, о чем спич. Ну, опубликовало издательство роман, под одним псевдонимом, а через несколько лет - следующую редакцию, под несолько другим, но указательным, псевдонимом. Ну и что тут особенного?
Киз свои "Цветы для Элджернона" как только не писал - и никто ему этого не вменяет.

Date: 2006-02-08 12:37 pm (UTC)
From: [identity profile] ormer-fidler.livejournal.com
Так что, убираем из корпуса Данилова тогда, наверное?

Date: 2006-02-08 01:42 pm (UTC)
From: [identity profile] mitrius.livejournal.com
Наверное, да. "Перелистал рукой". Фу. Экскорпорируйте свои актанты в другом месте, а у нас тут национальный корпус.

Date: 2006-02-08 01:45 pm (UTC)
From: [identity profile] mitrius.livejournal.com
Да и Агата Кристи под пятью названиями печаталась :) Все равно забавно на такие штуки наталкиваться через корпус, а не как читателю. Мне сложно объяснить.

Date: 2006-02-08 08:40 pm (UTC)
From: [identity profile] kassian.livejournal.com
Ну, жили как-то люди без юникода, не тужили. Есть пакет неюникодных шрифтов. Есть пакет макросов, позволяющих тремя-четырьмя кнопками ставить любую N-этажную диакритику (которой и в юникоде-то нету!). Переходить на юникодный WW мне лично смысла нет.

Конвертация между версиями вордов, конечно, не очень проста, но тоже решаемый вопрос.

P.S. Юникод в принципе вещь хорошая, но конкретная сегодняшняя реализации вызывает много нареканий (мы это несколько раз обсуждали на форуме www.prodtp.ru).

Date: 2006-02-08 09:05 pm (UTC)
From: [identity profile] maximaly.livejournal.com
Так все дело как раз в том, что Win XP и соответствующий Ворд сейчас, наверное, самые массовые, и от юникодизации уже никуда не денешься. Хорош этот стандарт или плох — он самый распространенный способ предствавления букв разных алфавитов.
А конвертировать туда-сюда да макросы ставить — это на любителя, не все столь продвинуты, не каждый захочет возиться.

Date: 2006-02-08 09:21 pm (UTC)
From: [identity profile] kassian.livejournal.com
Да, конечно. Если бы Ворд затачивался под нужды индоевропеистики и прочих -истик сейчас, то следовало бы это делать в юникодном Ворде.
Я имел в виду, что геморрой с перелопачиванием старых макросов и переучиванием себя больше, чем неудобства совместимости. Это конкретно моя ситуация и еще ряда пользователей.

Да кроме того, WW2 не имеет кучи дурацких фич, типа принудительной нумерации абзацев (если первый абзац начинался с цифры) и под., которых и отключить-то не всегда можно. И работает с большими документами WW2 намного стабильнее. Документ, который держит без глюков WW2, раз в 5 превышает по объему документ, который корректно обслуживается, скажем, WW XP.

Date: 2006-02-08 09:59 pm (UTC)
From: [identity profile] mvs.livejournal.com
Интересно, а почему вчера в корпусе был только Данилов, а сегодня и Данилюк тоже?

Офф: да, теперь корпус настолько большой, что ему мало на что хватает памяти. Зато устная речь, наконец, ура!

Date: 2006-02-08 10:02 pm (UTC)
From: [identity profile] mvs.livejournal.com
О, стоит пожаловаться - уже хватает:)
А ты не знаешь, почему яма - это сверхестественное существо?

Date: 2006-02-08 10:06 pm (UTC)
From: [identity profile] mitrius.livejournal.com
> а почему вчера в корпусе был только Данилов, а сегодня и Данилюк тоже?

данилюк свалился в люк --
не пугайтесь, это глюк!

оба были в корпусе со вчерашнего дня с 14:57.

Date: 2006-02-08 10:09 pm (UTC)
From: [identity profile] mitrius.livejournal.com
Есть такой чувак в словаре:

S;яма;2;propn;hum:supernat;;;;;persn:миф

Взялся он там из последнего издания Зализняка. Индийский бог какой-то.

Date: 2006-02-09 02:28 am (UTC)
From: [identity profile] miram.livejournal.com
Так excorporatio -- это же и есть удаление из корпуса, нет разве? :)

Date: 2006-02-09 11:58 am (UTC)
From: [identity profile] drauk.livejournal.com
http://en.wikipedia.org/wiki/Yama

Бог смерти.

Date: 2006-02-09 03:27 pm (UTC)
From: [identity profile] mitrius.livejournal.com
Логично.

Date: 2006-02-09 03:27 pm (UTC)
From: [identity profile] mitrius.livejournal.com
Вот именно. Они экскорпорируют свои конечности, а мы их тексты из нашего собрания.

Date: 2006-02-09 11:26 pm (UTC)
From: [identity profile] miram.livejournal.com
Налицо дискриминация амёб. Куда смотрит Гринпис?

("Excorporatio" quoque significationem ecclesiasticam habet, obiter dictu ;-) )

Date: 2006-02-10 09:15 am (UTC)
From: [identity profile] maximaly.livejournal.com
А что вообще умеет WW2? (Я с ним никогда не сталкивался, интересно.) Может ли он проверять орфографию и автоматически расставлять переносы в русском тексте? Или вот еще спрошу: если, скажем, на компе стоит Windows XP и я поставлю WW2, то сможет ли последний работать с установленными на компьютере шрифтами pfm/pfb, или только с TT?

Date: 2006-02-10 11:52 am (UTC)
From: [identity profile] kassian.livejournal.com
WW2 -- это такой рабочий инструмент, грубо сделанный, но железный и неломающийся.

Переносы -- только мягкие сплошняком. И если прикручен модуль Орфы (а его еще поискать надо). То же касается и орфографии.

У меня стоят в линейку WW2, WW6, WW7/95, WW8/97, WWXP/2002. Все работает.

Шрифты t1 поддерживаются. Но есть общее ограничение на кол-во шрифтов -- ок. 400 штук.

В общем, не уверен, что оно вам понравится и стоит тратить на это время.

Date: 2006-02-10 02:16 pm (UTC)
From: [identity profile] maximaly.livejournal.com
Но все же я бы попробовал поставить какой-нибудь неюникодный Ворд (2-й или 6-й). Корректное обслуживание больших документов и надежность соблазняют. Только вот где их сейчас реально достать, такие древности, не подскажете?

Date: 2006-02-11 02:02 am (UTC)
From: [identity profile] kassian.livejournal.com
Вот, пожалуйста: Ww20c.eng и Orfo 4 (для переносов).
http://webfile.ru/805881
12mb.

Но для конвертации из юникодного формата в однобайтовый потребуется еще и WW6.

Date: 2006-02-11 03:03 pm (UTC)
From: [identity profile] maximaly.livejournal.com
Большое спасибо! Попробую установить.

January 2021

S M T W T F S
     12
3456789
10111213141516
17181920212223
242526 27 28 2930
31      

Most Popular Tags

Page Summary

Style Credit

Expand Cut Tags

No cut tags
Page generated Jan. 2nd, 2026 01:45 am
Powered by Dreamwidth Studios