mitrius: (Default)
[personal profile] mitrius
Друзья, а какой статистической мерой определяется степень, так скажем, кучности данных?

Вот, допустим, один ряд данных разделяется по шести кучкам следующим образом: 95, 2, 8, 4, 1, 1.

Другой делится на большее число кучек и распределяется так: 6, 4, 2, 2, 2, 1, 1, 1, 1, 1, 1, 1, 1. Понятно, что у него разброс больше и кучность меньше. Нужно число, из которого это непосредственно видно и такие ряды можно отсортировать :)

Сумма рядов и число кучек могут быть каким угодно.

Date: 2013-12-23 07:52 am (UTC)
From: [identity profile] kohomologie.livejournal.com
Как я понимаю, подойдёт энтропия дискретного распределения вероятностей -∑pilog2 pi, где вероятности оцениваются из частот попадания в ту или иную кучку, то есть в первом случае у нас вероятности 95/111, 2/111, 8/111, 4/111, 1/111, 1/111.

Date: 2013-12-23 08:03 am (UTC)
From: [identity profile] xgrbml.livejournal.com
Может, попросту дисперсию?

Date: 2013-12-23 08:29 am (UTC)
From: [identity profile] kohomologie.livejournal.com
Дисперсию чего? Как я понимаю, у нас значением случайной величины является номер кучки, а не вещественное число, а номер кучки задан произвольно и считать, что попадание в кучки 1 и 2 — это большая кучность, чем попадание в кучки 1 и 5, мы не можем. Если считать дисперсию размера кучки, то ситуация, когда у нас 100 кучек по 1, даст нулевую дисперсию, и одна кучка в 100 — тоже, но кучность во втором случае гораздо выше.

Date: 2013-12-23 08:42 am (UTC)
From: [identity profile] ymblanter.livejournal.com
Надо, разумеется, по убыванию расположить, иначе вычисление дисперсии не имеет никакого смысла.

Date: 2013-12-23 08:48 am (UTC)
From: [identity profile] xgrbml.livejournal.com
А, тогда я неправ.

Date: 2013-12-23 09:34 am (UTC)
From: [identity profile] mitrius.livejournal.com
Вопрос на понимание: верно ли, что для ряда 1, 1, 1 и 1 энтропия равна 2? Четыре четверти двоичного логарифма от 1/4, то есть -2, и знак поменять.

Date: 2013-12-23 11:36 am (UTC)
From: [identity profile] kohomologie.livejournal.com
Верно. А для n одинаковых кучек — log2n.

January 2021

S M T W T F S
     12
3456789
10111213141516
17181920212223
242526 27 28 2930
31      

Most Popular Tags

Style Credit

Expand Cut Tags

No cut tags
Page generated Jan. 1st, 2026 09:13 pm
Powered by Dreamwidth Studios