Сегодня 20 декабря, суббота

Какой рейтинг вас больше интересует?

получить код

Главная / Каталог блогов / Cтраница блогера Эсъюдс.ком / Запись в блоге

	Эсъюдс.ком Голосов: 1 Адрес блога: http://asjudc.com Добавлен: 2009-12-08 18:51:36

Расчет средних величин и показателей вариации при помощи R

2011-02-02 12:19:08 (читать в оригинале)

Расчет средних величин и показателей вариации при помощи R

Мы продолжаем знакомить наших читателей с замечательным средством для проведения статистических вычислений и визуализации данных — R. А именно, разговор пойдет о средних величинах. Существует в принципе одна средняя величина — степенная, которая может рассчитываться как простая или взвешенная. Но некоторые частные случаи средней степенной получили собственные названия. В этой статье мы расскажем вам как с помощью R рассчитывать различные варианты средних величин и показатели вариации.

Средняя арифметическая

Расчет средних величин и показателей вариации при помощи R

Наиболее известной является средняя арифметическая величина, как ее считать почти все знают, поэтому часто используют неправильно. Среднюю арифметическюю простую можно использовать, как правило, только в том случае, если ваши данные — это несгруппированные абсолютные величины. Например вы хотите рассчитать средний рост пяти человек, для этого вы должны найти их суммарный рост и разделить на 5. Другими словами, если вы замените рост каждого на средний, то суммарный рост не изменится. То что не должно меняться называет определяющим показателем, в данном случае — это суммарный рост. Рассчитаем средний рост в R, использовав следующий код:

# вводим исходные данные о росте пяти человек и сохраняем их в переменной rost
rost <-c(175,178,182,176,183)
# рассчитываем среднее значение по формуле средней арифметической простой
mean(rost)
[1] 178.8/pre
Средний рост пяти человек составил 178,8 см.

Средняя арифметическая взвешенная

Расчет средних величин и показателей вариации при помощи R

Если же данные сгруппированы или являются величинами относительными, то для расчета используется средняя арифметическая взвешенная. Например, студент подсчитал сколько в его зачетке троек, четверок и пятерок и хочет найти средний балл. Предположим у него 5 троек, 20 четверок и 15 пятерок. В данном случае 10, 20 и 15 будут являться весами, то есть тройка, четверка и пятерка вносят неодинаковый вклад в среднюю величину и этот вклад тем больше, чем больше вес. Для расчета средней арифметической в R используем следующий код:

# вводим исходные данные об оценках и их количестве
# оценки сохраняем в переменной score, а количество в переменной quantity
score <-c(3,4,5) quantity <-c(5,20,15)
# рассчитываем средний балл, как среднюю арифметическую взвешенную
weighted.mean(score,quantity)
[1] 4.25

По результатам расчетов средний балл студента составил 4,25.
Стоит заметить, что, по большому счету, разница между простой и взвешенной не столь принципиальна, ведь простая — это частный случай взвешенной величины, когда все веса равны 1, а любую взвешенную можно расписать как простую.

Средняя гармоническая

Расчет средних величин и показателей вариации при помощи R

Средняя гармоническая — это еще один вид средних величин. Самый типичный простор использования средней гармонической — это задача о нахождении средней скорости движения. Например, автомобиль туда ехал со скоростью 40 км/ч, а обратно — 80 км/ч (расстояние было одинаковым). Найти среднюю скорость движения. Ответ 60 км/ч — неверный. Для расчета используем среднюю гармоническую, в R это можно сделать так:

# вводим исходные данные о скоростях туда и обратно
velo<-c(60,80)
# рассчитываем среднюю скорость как среднюю гармоническую простую
harmonic.mean(velo)
[1] 68.57143

Замечание: для того, чтобы использовать функцию harmonic.mean необходимо установить и загрузить пакет psych.

Теперь немного изменим условия этой задачи: со скоростью 40 км/ч автомобиль ехал 100 км, а со скоростью 80 км/ч — 300 км. В этом случае нам необходимо использовать среднюю гармоническую взвешенную. К сожалению, мы не нашли готовой функции для расчета средней гармонической взвешенной, поэтому расчеты придется усложнить:

# вводим исходные данные о пройденном пути и скоростях
distance <-c(100,300) velo <-c(40,80) sum(distance)/(sum(distance/velo))
[1] 64

На самом деле, очень часто выбор вида средней для расчетеов определяется не тем, среднее значение чего вы хотите считать, а тем, какие у вас исходные данные. Например, если вы хотите найти среднюю урожайность и у вас есть данные по площадям и урожайностям, то вы будете использовать среднюю арифметическую взвешенную, а если у вас имеются данные по валовым сборам и урожайностям, то расчет вы будете осуществлять по формуле средней гармонической взвешенной.

Средняя геометрическая простая

Расчет средних величин и показателей вариации при помощи R

Последней средней, которую мы сегодня рассмотрим будет средняя геометрическая простая. Она используется тогда, когда надо определить средний темп роста или прироста. Предположим, что в первом году темп роста цен был 1,12, а во втором — 1,20. Определим средний темп роста цен за 2 года:

# вводим исходные данные о темпах роста
temp <-c(1.12,1.20)
# рассчитываем средний темп как среднюю геометрическую простую
geometric.mean(temp)
[1] 1.159310

Средний темп роста составил 1,159.

Замечание: для того, чтобы использовать функцию geometric.mean необходимо установить и загрузить пакет psych.

Мода

Кроме рассмотренных средних величин, существуют так называемые структурные средние — мода и медиана. Мода — это значение, которое чаще других встречается в совокупности. Например, есть несколько значений: 1,2,2,6,8,11,16. Модой будет 2, так как в данной выборке две двойки. В R для нахождения моды можно использовать функции, связанные с сортировкой, но можно использовать и готовую функцию, правда для этого необходимо подключить пакет rattle:

# вводим исходные данные
x <-c(1,2,2,6,8,11,16)
# рассчитываем моду
modalvalue(x)
[1] 2

Медиана

Медиана — это значение, которое делит совокупность на две равные части. Например в ряду 1,2,2,6,8,11,16 медианой будет 6, стоящая посередине (сперва, конечно, ряд нужно упорядочить по возрастанию), так как есть 3 значения меньше 6 и 3 значения больше 6. Если в выборке четное число значений, то медианой будет среднее арифметическое двух центральных, например, в ряду 1,2,2,6,8,11,16,20 медиана равна (6+8)/2 = 7, так как есть 4 значения меньше 7 и 4 — больше. Для расчета медианы в R используется функция median:

# вводим исходные данные
a <-c(1,2,2,6,8,11,16) b <-c(1,2,2,6,8,11,16,20)

# рассчитываем медиану для переменной а
median(a)
[1] 6

# рассчитываем медиану для переменной b
median(b)
[1] 7

Квартили, квинтили и децили

Кроме медианы существуют еще квартили (делят ряд на 4 равные части), квинтили (на 5 частей), децили (на 10 частей) и процентили (на 100 частей), которые все вместе называются квантилями. В R для расчета квантилей можно использовать команду quantile.

# вводим исходные данные
a <-c(1,2,2,6,8,11,16)
quantile(a)
0% 25% 50% 75% 100%
1.0 2.0 6.0 9.5 16.0

Если вас интересуют, например, квинтили, то можно использовать такой код:

# вводим исходные данные
a <-c(1,2,2,6,8,11,16) quantile(a,c(0.2,0.4,0.6,0.8))
20% 40% 60% 80%
2.0 3.6 7.2 10.4

А если вам очень хочется узнать что-то про 3 и 7 децили, тогда
# вводим исходные данные
a <-c(1,2,2,6,8,11,16) quantile(a,c(0.3,0.7))
30% 70%
2.0 8.6

Стоит отметить, что средняя величина характеризует совокупность достаточно однобоко, она ничего не говорит нам о вариации в совокупности! Есть известная фраза: если сесть на раскаленную плиту и засунуть голову в холодильник, то в среднем вам будет очень комфортно! Например, возьмем две пары чисел: (24,26) и (1, 49). Для каждой пары среднее арифметическое равно 25, но посмотрите на вариацию!

Сигма, дисперсия и коэффициент вариации

В результате для описания степени вариации приходится использовать
показатели, отличные от рассмотренных ранее, вот основные из них:

1) дисперсия — это средний квадрат отклонений вариантов от их средней величины:

# вводим исходные данные
x <-c(1,2,2,6,8,11,16) var(x)
[1] 30.61905

2) сигма (среднее квадратическое отклонение, стандартное отклонение) — тоже характеризует степень вариации внутри совокупности, это квадратный корень из дисперсии:

# вводим исходные данные
x <-c(1,2,2,6,8,11,16) sd(x)
[1] 5.533448

3) коэффициент вариации — это относительное стандартное отношение, то есть сигма деленная на среднее значение ряда:

# вводим исходные данные
x <-c(1,2,2,6,8,11,16) v <-sd(x)/mean(x)*100 v
[1] 84.20464

Коэффициент вариации равен 84%, значит вариация очень сильная, совокупность — разнородная.

Замечание: по приведенным формулам рассчитываются сигма и дисперсия для выборок, то есть это аналог функции СТАНДОТКЛОН в Excel, для расчета сигмы и дисперсии в генеральной совокупности в Excel используется функция СТАНДОТКЛОНП. В R такой функции мы пока не нашли, да она не так и нужна — с помощью выборочной дисперсию рассчитать генеральную не просто, а очень просто — надо выборочную умножить на (n-1)/n.

Описательная статистика

Если вы не хотите рассчитывать все показатели по отдельности, то вы можете использовать команду, которая рассчитывает целый набор показателей, называемый описательной статистикой:

# вводим исходные данные
a <-c(1,2,2,6,8,11,16) summary(a)
Min. 1st Qu. Median Mean 3rd Qu. Max.
1.000 2.000 6.000 6.571 9.500 16.000

В этом случае мы получили данные о минимальном значении, 1 и 3 квартилях, медиане, среднем и максимальном значении.

Конечно, в этой статье мы не сумели рассмотреть все показатели, применяемые в вариационном анализе, но и цели такой не ставили. Мы хотели показать вам, как можно использовать R для несложных статистических расчетов, уметь производить которые должны и те, кто занимаются визуализацией данных. Продолжение следует.

Автор статьи и иллюстраций: Алексей Золотарев

http://vizualdata.ru/pictures/twitter.png

r, децили, квартили, медиана, мода, средняя арифметическая, средняя гармоническая, средняя геометрическая, статистика

Блограйдеров
14520

Блогов
219970
(+0 сегодня)

Сообществ
1312
(+0 сегодня)

Рыбалка
по среднему баллу (5.00) в категории «Спорт»

Категория «Мультипликация»

Взлеты Топ 5


+140	160	Zoxx.ru - Блог Металлиста
+121	146	artnotes.ru
+113	313	Yukari_7
+81	140	кино и люди
+26	139	Mellanius.ru

Падения Топ 5


-1	72	Bestmult.info - лучшие мультфильмы для просмотра on-line
-1	67	Блог
-4	62	Выкрутасы скачать бесплатно
-9	15	Скачать все субтитры
-10	14	Скачать субтитры L

Загрузка...

BlogRider.ru не имеет отношения к публикуемым в записях блогов материалам. Все записи
взяты из открытых общедоступных источников и являются собственностью их авторов.