mitrius: (Default)
mitrius ([personal profile] mitrius) wrote2013-12-23 09:41 am
Entry tags:

вопрос о статистике

Друзья, а какой статистической мерой определяется степень, так скажем, кучности данных?

Вот, допустим, один ряд данных разделяется по шести кучкам следующим образом: 95, 2, 8, 4, 1, 1.

Другой делится на большее число кучек и распределяется так: 6, 4, 2, 2, 2, 1, 1, 1, 1, 1, 1, 1, 1. Понятно, что у него разброс больше и кучность меньше. Нужно число, из которого это непосредственно видно и такие ряды можно отсортировать :)

Сумма рядов и число кучек могут быть каким угодно.

[identity profile] kohomologie.livejournal.com 2013-12-23 07:52 am (UTC)(link)
Как я понимаю, подойдёт энтропия дискретного распределения вероятностей -∑pilog2 pi, где вероятности оцениваются из частот попадания в ту или иную кучку, то есть в первом случае у нас вероятности 95/111, 2/111, 8/111, 4/111, 1/111, 1/111.

[identity profile] xgrbml.livejournal.com 2013-12-23 08:03 am (UTC)(link)
Может, попросту дисперсию?

[identity profile] kohomologie.livejournal.com 2013-12-23 08:29 am (UTC)(link)
Дисперсию чего? Как я понимаю, у нас значением случайной величины является номер кучки, а не вещественное число, а номер кучки задан произвольно и считать, что попадание в кучки 1 и 2 — это большая кучность, чем попадание в кучки 1 и 5, мы не можем. Если считать дисперсию размера кучки, то ситуация, когда у нас 100 кучек по 1, даст нулевую дисперсию, и одна кучка в 100 — тоже, но кучность во втором случае гораздо выше.

[identity profile] ymblanter.livejournal.com 2013-12-23 08:42 am (UTC)(link)
Надо, разумеется, по убыванию расположить, иначе вычисление дисперсии не имеет никакого смысла.

[identity profile] xgrbml.livejournal.com 2013-12-23 08:48 am (UTC)(link)
А, тогда я неправ.

[identity profile] mitrius.livejournal.com 2013-12-23 09:34 am (UTC)(link)
Вопрос на понимание: верно ли, что для ряда 1, 1, 1 и 1 энтропия равна 2? Четыре четверти двоичного логарифма от 1/4, то есть -2, и знак поменять.

[identity profile] mitrius.livejournal.com 2013-12-23 10:55 am (UTC)(link)
ура :)

[identity profile] kohomologie.livejournal.com 2013-12-23 11:36 am (UTC)(link)
Верно. А для n одинаковых кучек — log2n.

[identity profile] ymblanter.livejournal.com 2013-12-23 08:13 am (UTC)(link)
Дисперсия распределения?

[identity profile] mitrius.livejournal.com 2013-12-23 08:15 am (UTC)(link)
спасибо
а энтропия (см. выше) не годится?

[identity profile] l-i-d-y-a.livejournal.com 2013-12-23 08:25 am (UTC)(link)
Не-не, дисперсия - это мера отклонения от среднего значения. Тебе нужна именно энтропия, она как раз определяет степень упорядоченности: все лежит в одной кучке - максимальный порядок, нулевая энтропия. Все раскидано как попало по разным кучкам - высокая энтропия.

[identity profile] mitrius.livejournal.com 2013-12-23 08:27 am (UTC)(link)
спасибо!

[identity profile] ymblanter.livejournal.com 2013-12-23 08:26 am (UTC)(link)
Годится, ниже всё верно написали.

[identity profile] xgrbml.livejournal.com 2013-12-23 08:30 am (UTC)(link)
Вроде да.

[identity profile] ymblanter.livejournal.com 2013-12-23 08:31 am (UTC)(link)
Если и она, то записанная в каком-то странном виде. Надо расположить кучки по убыванию. Eсли в кучке i имеется X_i предметов, надо вычислить вероятности p_i = X_i/(\sum_i X_i), тогда D = \sum_i p_i X_i^2 - (\sum p_i X_i)^2.

[identity profile] a-sch.livejournal.com 2013-12-23 08:25 am (UTC)(link)
А с какой целью, хотя бы примерно?
Грубо говоря, дисперсия - разброс данных относительно среднего, а энтропия -- мера неравномерности (она учитывает не значения, а только вероятности, и максимальна, если вероятности всех значений одинаковы). И надо учитывать, что рассматриваются только оценки этих величин, а не они сами.

[identity profile] mitrius.livejournal.com 2013-12-23 08:27 am (UTC)(link)
да, кажется, нужна именно мера неравномерности независимо от суммы, т. е. энтропия
спасибо!

[identity profile] riftsh.livejournal.com 2013-12-24 01:10 am (UTC)(link)
Если кучкующиеся данные однородны, в качестве очень простой меры можно использовать индекс Херфиндаля.

Если нет, то один из diversity indices.