mitrius: (Default)
mitrius ([personal profile] mitrius) wrote2009-03-04 09:03 am

о точных методах

Почему-то всё время сталкиваюсь с таким приёмом: при подсчётах отбираются только какие-то вхождения по совершенно странным принципам (причём не произвольная 1000 из выборки, скажем, а фиксируются параметры, которые вполне могут быть релевантными, да даже, скорее всего, и есть, но об этом ничего не говорится). "Кластеры согласных в начале и конце считаем, а в середине нет". "Первую стопу строки анализируем, а вторую нет". Почему? Богу ведомо. Об этом честно объявляется, впрочем. А потом, разумеется, мы уже без оговорок читаем, что в данных языках или данных текстах явления Х нет вообще, что это уже представительствует и за среднюю позицию, и за стих вообще, и за язык вообще.

"Единственное, чем такая статистика лучше нормальной -- тем, что так легче считать" (с) ААЗ. Кстати, не факт, что даже легче...

[identity profile] mura-vey.livejournal.com 2009-03-04 07:18 am (UTC)(link)
Ну кластре в начале и в конце считать значительно легче, и к тому же можно предполагать, и про многие языки это, кажется, будет верно, что в середине бывает только соединение того, что бывает в начале и что бывает в конце.

[identity profile] mitrius.livejournal.com 2009-03-04 07:32 am (UTC)(link)
ну, про некоторые это заведомо неверно :) но хотя бы можно было это написать и сослаться на кого-нибудь, кто так думает.

а вот "легче считать" безусловно.

я не про конкретный пример, я про общий принцип

[identity profile] fbmk.livejournal.com 2009-03-04 03:18 pm (UTC)(link)
По моему (небольшому, конечно), опыту, выделение формальных критериев совершенно неизвестной релевантности необходимо для того, чтобы сформировать некоторый (на глазок) однородный материал (т.е. не потому, что легче, а чтобы не следить сразу за большим количеством параметров). Потом, конечно, копаться в отброшенном страшно ломает, если красивая картинка в "основном" материале.