![]() ![]() ![]()
Какой рейтинг вас больше интересует?
|
![]()
Расчет средних величин и показателей вариации при помощи R2011-02-02 12:19:08 (читать в оригинале)![]() Мы продолжаем знакомить наших читателей с замечательным средством для проведения статистических вычислений и визуализации данных — R. А именно, разговор пойдет о средних величинах. Существует в принципе одна средняя величина — степенная, которая может рассчитываться как простая или взвешенная. Но некоторые частные случаи средней степенной получили собственные названия. В этой статье мы расскажем вам как с помощью R рассчитывать различные варианты средних величин и показатели вариации. Средняя арифметическая ![]() Наиболее известной является средняя арифметическая величина, как ее считать почти все знают, поэтому часто используют неправильно. Среднюю арифметическюю простую можно использовать, как правило, только в том случае, если ваши данные — это несгруппированные абсолютные величины. Например вы хотите рассчитать средний рост пяти человек, для этого вы должны найти их суммарный рост и разделить на 5. Другими словами, если вы замените рост каждого на средний, то суммарный рост не изменится. То что не должно меняться называет определяющим показателем, в данном случае — это суммарный рост. Рассчитаем средний рост в R, использовав следующий код: # вводим исходные данные о росте пяти человек и сохраняем их в переменной rost rost <-c(175,178,182,176,183) # рассчитываем среднее значение по формуле средней арифметической простой mean(rost) [1] 178.8/pre Средний рост пяти человек составил 178,8 см. Средняя арифметическая взвешенная ![]() Если же данные сгруппированы или являются величинами относительными, то для расчета используется средняя арифметическая взвешенная. Например, студент подсчитал сколько в его зачетке троек, четверок и пятерок и хочет найти средний балл. Предположим у него 5 троек, 20 четверок и 15 пятерок. В данном случае 10, 20 и 15 будут являться весами, то есть тройка, четверка и пятерка вносят неодинаковый вклад в среднюю величину и этот вклад тем больше, чем больше вес. Для расчета средней арифметической в R используем следующий код: # вводим исходные данные об оценках и их количестве # оценки сохраняем в переменной score, а количество в переменной quantity score <-c(3,4,5) quantity <-c(5,20,15) # рассчитываем средний балл, как среднюю арифметическую взвешенную weighted.mean(score,quantity) [1] 4.25 По результатам расчетов средний балл студента составил 4,25. Стоит заметить, что, по большому счету, разница между простой и взвешенной не столь принципиальна, ведь простая — это частный случай взвешенной величины, когда все веса равны 1, а любую взвешенную можно расписать как простую. Средняя гармоническая ![]() Средняя гармоническая — это еще один вид средних величин. Самый типичный простор использования средней гармонической — это задача о нахождении средней скорости движения. Например, автомобиль туда ехал со скоростью 40 км/ч, а обратно — 80 км/ч (расстояние было одинаковым). Найти среднюю скорость движения. Ответ 60 км/ч — неверный. Для расчета используем среднюю гармоническую, в R это можно сделать так: # вводим исходные данные о скоростях туда и обратно velo<-c(60,80) # рассчитываем среднюю скорость как среднюю гармоническую простую harmonic.mean(velo) [1] 68.57143 Замечание: для того, чтобы использовать функцию harmonic.mean необходимо установить и загрузить пакет psych. Теперь немного изменим условия этой задачи: со скоростью 40 км/ч автомобиль ехал 100 км, а со скоростью 80 км/ч — 300 км. В этом случае нам необходимо использовать среднюю гармоническую взвешенную. К сожалению, мы не нашли готовой функции для расчета средней гармонической взвешенной, поэтому расчеты придется усложнить: # вводим исходные данные о пройденном пути и скоростях distance <-c(100,300) velo <-c(40,80) sum(distance)/(sum(distance/velo)) [1] 64 На самом деле, очень часто выбор вида средней для расчетеов определяется не тем, среднее значение чего вы хотите считать, а тем, какие у вас исходные данные. Например, если вы хотите найти среднюю урожайность и у вас есть данные по площадям и урожайностям, то вы будете использовать среднюю арифметическую взвешенную, а если у вас имеются данные по валовым сборам и урожайностям, то расчет вы будете осуществлять по формуле средней гармонической взвешенной. Средняя геометрическая простая ![]() Последней средней, которую мы сегодня рассмотрим будет средняя геометрическая простая. Она используется тогда, когда надо определить средний темп роста или прироста. Предположим, что в первом году темп роста цен был 1,12, а во втором — 1,20. Определим средний темп роста цен за 2 года: # вводим исходные данные о темпах роста temp <-c(1.12,1.20) # рассчитываем средний темп как среднюю геометрическую простую geometric.mean(temp) [1] 1.159310 Средний темп роста составил 1,159. Замечание: для того, чтобы использовать функцию geometric.mean необходимо установить и загрузить пакет psych. Мода Кроме рассмотренных средних величин, существуют так называемые структурные средние — мода и медиана. Мода — это значение, которое чаще других встречается в совокупности. Например, есть несколько значений: 1,2,2,6,8,11,16. Модой будет 2, так как в данной выборке две двойки. В R для нахождения моды можно использовать функции, связанные с сортировкой, но можно использовать и готовую функцию, правда для этого необходимо подключить пакет rattle: # вводим исходные данные x <-c(1,2,2,6,8,11,16) # рассчитываем моду modalvalue(x) [1] 2 Медиана Медиана — это значение, которое делит совокупность на две равные части. Например в ряду 1,2,2,6,8,11,16 медианой будет 6, стоящая посередине (сперва, конечно, ряд нужно упорядочить по возрастанию), так как есть 3 значения меньше 6 и 3 значения больше 6. Если в выборке четное число значений, то медианой будет среднее арифметическое двух центральных, например, в ряду 1,2,2,6,8,11,16,20 медиана равна (6+8)/2 = 7, так как есть 4 значения меньше 7 и 4 — больше. Для расчета медианы в R используется функция median: # вводим исходные данные a <-c(1,2,2,6,8,11,16) b <-c(1,2,2,6,8,11,16,20) # рассчитываем медиану для переменной а median(a) [1] 6 # рассчитываем медиану для переменной b median(b) [1] 7 Квартили, квинтили и децили Кроме медианы существуют еще квартили (делят ряд на 4 равные части), квинтили (на 5 частей), децили (на 10 частей) и процентили (на 100 частей), которые все вместе называются квантилями. В R для расчета квантилей можно использовать команду quantile. # вводим исходные данные a <-c(1,2,2,6,8,11,16) quantile(a) 0% 25% 50% 75% 100% 1.0 2.0 6.0 9.5 16.0 Если вас интересуют, например, квинтили, то можно использовать такой код: # вводим исходные данные a <-c(1,2,2,6,8,11,16) quantile(a,c(0.2,0.4,0.6,0.8)) 20% 40% 60% 80% 2.0 3.6 7.2 10.4 А если вам очень хочется узнать что-то про 3 и 7 децили, тогда # вводим исходные данные a <-c(1,2,2,6,8,11,16) quantile(a,c(0.3,0.7)) 30% 70% 2.0 8.6 Стоит отметить, что средняя величина характеризует совокупность достаточно однобоко, она ничего не говорит нам о вариации в совокупности! Есть известная фраза: если сесть на раскаленную плиту и засунуть голову в холодильник, то в среднем вам будет очень комфортно! Например, возьмем две пары чисел: (24,26) и (1, 49). Для каждой пары среднее арифметическое равно 25, но посмотрите на вариацию! Сигма, дисперсия и коэффициент вариации В результате для описания степени вариации приходится использовать показатели, отличные от рассмотренных ранее, вот основные из них: 1) дисперсия — это средний квадрат отклонений вариантов от их средней величины: # вводим исходные данные x <-c(1,2,2,6,8,11,16) var(x) [1] 30.61905 2) сигма (среднее квадратическое отклонение, стандартное отклонение) — тоже характеризует степень вариации внутри совокупности, это квадратный корень из дисперсии: # вводим исходные данные x <-c(1,2,2,6,8,11,16) sd(x) [1] 5.533448 3) коэффициент вариации — это относительное стандартное отношение, то есть сигма деленная на среднее значение ряда: # вводим исходные данные x <-c(1,2,2,6,8,11,16) v <-sd(x)/mean(x)*100 v [1] 84.20464 Коэффициент вариации равен 84%, значит вариация очень сильная, совокупность — разнородная. Замечание: по приведенным формулам рассчитываются сигма и дисперсия для выборок, то есть это аналог функции СТАНДОТКЛОН в Excel, для расчета сигмы и дисперсии в генеральной совокупности в Excel используется функция СТАНДОТКЛОНП. В R такой функции мы пока не нашли, да она не так и нужна — с помощью выборочной дисперсию рассчитать генеральную не просто, а очень просто — надо выборочную умножить на (n-1)/n. Описательная статистика Если вы не хотите рассчитывать все показатели по отдельности, то вы можете использовать команду, которая рассчитывает целый набор показателей, называемый описательной статистикой: # вводим исходные данные a <-c(1,2,2,6,8,11,16) summary(a) Min. 1st Qu. Median Mean 3rd Qu. Max. 1.000 2.000 6.000 6.571 9.500 16.000 В этом случае мы получили данные о минимальном значении, 1 и 3 квартилях, медиане, среднем и максимальном значении. Конечно, в этой статье мы не сумели рассмотреть все показатели, применяемые в вариационном анализе, но и цели такой не ставили. Мы хотели показать вам, как можно использовать R для несложных статистических расчетов, уметь производить которые должны и те, кто занимаются визуализацией данных. Продолжение следует. Автор статьи и иллюстраций: Алексей Золотарев ![]() r, децили, квартили, медиана, мода, средняя арифметическая, средняя гармоническая, средняя геометрическая, статистика
|
![]() ![]()
Категория «Путешествия»
Взлеты Топ 5
Падения Топ 5
![]()
Популярные за сутки
|
Загрузка...

BlogRider.ru не имеет отношения к публикуемым в записях блогов материалам. Все записи
взяты из открытых общедоступных источников и являются собственностью их авторов.
взяты из открытых общедоступных источников и являются собственностью их авторов.