mitrius: (Default)
[personal profile] mitrius
Друзья, а какой статистической мерой определяется степень, так скажем, кучности данных?

Вот, допустим, один ряд данных разделяется по шести кучкам следующим образом: 95, 2, 8, 4, 1, 1.

Другой делится на большее число кучек и распределяется так: 6, 4, 2, 2, 2, 1, 1, 1, 1, 1, 1, 1, 1. Понятно, что у него разброс больше и кучность меньше. Нужно число, из которого это непосредственно видно и такие ряды можно отсортировать :)

Сумма рядов и число кучек могут быть каким угодно.

Date: 2013-12-23 07:52 am (UTC)
From: [identity profile] kohomologie.livejournal.com
Как я понимаю, подойдёт энтропия дискретного распределения вероятностей -∑pilog2 pi, где вероятности оцениваются из частот попадания в ту или иную кучку, то есть в первом случае у нас вероятности 95/111, 2/111, 8/111, 4/111, 1/111, 1/111.

Date: 2013-12-23 08:13 am (UTC)
From: [identity profile] ymblanter.livejournal.com
Дисперсия распределения?

Date: 2013-12-23 08:25 am (UTC)
From: [identity profile] a-sch.livejournal.com
А с какой целью, хотя бы примерно?
Грубо говоря, дисперсия - разброс данных относительно среднего, а энтропия -- мера неравномерности (она учитывает не значения, а только вероятности, и максимальна, если вероятности всех значений одинаковы). И надо учитывать, что рассматриваются только оценки этих величин, а не они сами.

Date: 2013-12-24 01:10 am (UTC)
From: [identity profile] riftsh.livejournal.com
Если кучкующиеся данные однородны, в качестве очень простой меры можно использовать индекс Херфиндаля.

Если нет, то один из diversity indices.

January 2021

S M T W T F S
     12
3456789
10111213141516
17181920212223
242526 27 28 2930
31      

Most Popular Tags

Style Credit

Expand Cut Tags

No cut tags
Page generated Jan. 7th, 2026 10:38 am
Powered by Dreamwidth Studios