Какой рейтинг вас больше интересует?
|
Главная /
Каталог блоговCтраница блогера Эсъюдс.ком/Записи в блоге |
RStudio: новая интегрированная среда разработки для R
2011-03-10 06:43:13 (читать в оригинале)RStudio это новая интегрированная среда разработки (англ. Integrated Development Environment – IDE) для R – языка программирования для статистической обработки данных и построения различных видов визуализации данных. RStudio сочетает интуитивный пользовательский интерфейс с мощной консолью R, позволяя таким образом выжать из инструмента максимум возможностей. RStudio бесплатен, предназначен для пользователей Mac, Windows и Linux, позволяет использовать читать далее
Processing и музыка – визуализация данных по музыкальным композициям возможна
2011-03-09 06:26:15 (читать в оригинале)Визуализация данных открывает перед внимательными и вдумчивыми зрителями прекрасный мир цифр, погружает в водоворот многочисленных столбцов данных, ловко отраженных и наглядно представленных графиками и диаграммами. Но возможна ли визуализация данных по музыкальным композициям? Есть ли здесь на что посмотреть и над чем задуматься? Оказывается есть, в отличии от тех «визуализаций», которые показывают Winamp, Windows Media читать далее
Расчет средних величин и показателей вариации при помощи R
2011-02-07 06:30:13 (читать в оригинале)Мы продолжаем знакомить наших читателей с замечательным средством для проведения статистических вычислений и визуализации данных – R. А именно, разговор пойдет о средних величинах. Существует в принципе одна средняя величина – степенная, которая может рассчитываться как простая или взвешенная. Но некоторые частные случаи средней степенной получили собственные названия. В этой статье мы расскажем вам как с читать далее
Расчет средних величин и показателей вариации при помощи R
2011-02-02 12:19:08 (читать в оригинале)Мы продолжаем знакомить наших читателей с замечательным средством для проведения статистических вычислений и визуализации данных — R. А именно, разговор пойдет о средних величинах. Существует в принципе одна средняя величина — степенная, которая может рассчитываться как простая или взвешенная. Но некоторые частные случаи средней степенной получили собственные названия. В этой статье мы расскажем вам как с помощью R рассчитывать различные варианты средних величин и показатели вариации.
Средняя арифметическая
Наиболее известной является средняя арифметическая величина, как ее считать почти все знают, поэтому часто используют неправильно. Среднюю арифметическюю простую можно использовать, как правило, только в том случае, если ваши данные — это несгруппированные абсолютные величины. Например вы хотите рассчитать средний рост пяти человек, для этого вы должны найти их суммарный рост и разделить на 5. Другими словами, если вы замените рост каждого на средний, то суммарный рост не изменится. То что не должно меняться называет определяющим показателем, в данном случае — это суммарный рост. Рассчитаем средний рост в R, использовав следующий код:
# вводим исходные данные о росте пяти человек и сохраняем их в переменной rost
rost <-c(175,178,182,176,183)
# рассчитываем среднее значение по формуле средней арифметической простой
mean(rost)
[1] 178.8/pre
Средний рост пяти человек составил 178,8 см.
Средняя арифметическая взвешенная
Если же данные сгруппированы или являются величинами относительными, то для расчета используется средняя арифметическая взвешенная. Например, студент подсчитал сколько в его зачетке троек, четверок и пятерок и хочет найти средний балл. Предположим у него 5 троек, 20 четверок и 15 пятерок. В данном случае 10, 20 и 15 будут являться весами, то есть тройка, четверка и пятерка вносят неодинаковый вклад в среднюю величину и этот вклад тем больше, чем больше вес. Для расчета средней арифметической в R используем следующий код:
# вводим исходные данные об оценках и их количестве
# оценки сохраняем в переменной score, а количество в переменной quantity
score <-c(3,4,5)
quantity <-c(5,20,15)
# рассчитываем средний балл, как среднюю арифметическую взвешенную
weighted.mean(score,quantity)
[1] 4.25
По результатам расчетов средний балл студента составил 4,25.
Стоит заметить, что, по большому счету, разница между простой и взвешенной не столь принципиальна, ведь простая — это частный случай взвешенной величины, когда все веса равны 1, а любую взвешенную можно расписать как простую.
Средняя гармоническая
Средняя гармоническая — это еще один вид средних величин. Самый типичный простор использования средней гармонической — это задача о нахождении средней скорости движения. Например, автомобиль туда ехал со скоростью 40 км/ч, а обратно — 80 км/ч (расстояние было одинаковым). Найти среднюю скорость движения. Ответ 60 км/ч — неверный. Для расчета используем среднюю гармоническую, в R это можно сделать так:
# вводим исходные данные о скоростях туда и обратно
velo<-c(60,80)
# рассчитываем среднюю скорость как среднюю гармоническую простую
harmonic.mean(velo)
[1] 68.57143
Замечание: для того, чтобы использовать функцию harmonic.mean необходимо установить и загрузить пакет psych.
Теперь немного изменим условия этой задачи: со скоростью 40 км/ч автомобиль ехал 100 км, а со скоростью 80 км/ч — 300 км. В этом случае нам необходимо использовать среднюю гармоническую взвешенную. К сожалению, мы не нашли готовой функции для расчета средней гармонической взвешенной, поэтому расчеты придется усложнить:
# вводим исходные данные о пройденном пути и скоростях
distance <-c(100,300)
velo <-c(40,80)
sum(distance)/(sum(distance/velo))
[1] 64
На самом деле, очень часто выбор вида средней для расчетеов определяется не тем, среднее значение чего вы хотите считать, а тем, какие у вас исходные данные. Например, если вы хотите найти среднюю урожайность и у вас есть данные по площадям и урожайностям, то вы будете использовать среднюю арифметическую взвешенную, а если у вас имеются данные по валовым сборам и урожайностям, то расчет вы будете осуществлять по формуле средней гармонической взвешенной.
Средняя геометрическая простая
Последней средней, которую мы сегодня рассмотрим будет средняя геометрическая простая. Она используется тогда, когда надо определить средний темп роста или прироста. Предположим, что в первом году темп роста цен был 1,12, а во втором — 1,20. Определим средний темп роста цен за 2 года:
# вводим исходные данные о темпах роста
temp <-c(1.12,1.20)
# рассчитываем средний темп как среднюю геометрическую простую
geometric.mean(temp)
[1] 1.159310
Средний темп роста составил 1,159.
Замечание: для того, чтобы использовать функцию geometric.mean необходимо установить и загрузить пакет psych.
Мода
Кроме рассмотренных средних величин, существуют так называемые структурные средние — мода и медиана. Мода — это значение, которое чаще других встречается в совокупности. Например, есть несколько значений: 1,2,2,6,8,11,16. Модой будет 2, так как в данной выборке две двойки. В R для нахождения моды можно использовать функции, связанные с сортировкой, но можно использовать и готовую функцию, правда для этого необходимо подключить пакет rattle:
# вводим исходные данные
x <-c(1,2,2,6,8,11,16)
# рассчитываем моду
modalvalue(x)
[1] 2
Медиана
Медиана — это значение, которое делит совокупность на две равные части. Например в ряду 1,2,2,6,8,11,16 медианой будет 6, стоящая посередине (сперва, конечно, ряд нужно упорядочить по возрастанию), так как есть 3 значения меньше 6 и 3 значения больше 6. Если в выборке четное число значений, то медианой будет среднее арифметическое двух центральных, например, в ряду 1,2,2,6,8,11,16,20 медиана равна (6+8)/2 = 7, так как есть 4 значения меньше 7 и 4 — больше. Для расчета медианы в R используется функция median:
# вводим исходные данные
a <-c(1,2,2,6,8,11,16)
b <-c(1,2,2,6,8,11,16,20)
# рассчитываем медиану для переменной а
median(a)
[1] 6
# рассчитываем медиану для переменной b
median(b)
[1] 7
Квартили, квинтили и децили
Кроме медианы существуют еще квартили (делят ряд на 4 равные части), квинтили (на 5 частей), децили (на 10 частей) и процентили (на 100 частей), которые все вместе называются квантилями. В R для расчета квантилей можно использовать команду quantile.
# вводим исходные данные
a <-c(1,2,2,6,8,11,16)
quantile(a)
0% 25% 50% 75% 100%
1.0 2.0 6.0 9.5 16.0
Если вас интересуют, например, квинтили, то можно использовать такой код:
# вводим исходные данные
a <-c(1,2,2,6,8,11,16)
quantile(a,c(0.2,0.4,0.6,0.8))
20% 40% 60% 80%
2.0 3.6 7.2 10.4
А если вам очень хочется узнать что-то про 3 и 7 децили, тогда
# вводим исходные данные
a <-c(1,2,2,6,8,11,16)
quantile(a,c(0.3,0.7))
30% 70%
2.0 8.6
Стоит отметить, что средняя величина характеризует совокупность достаточно однобоко, она ничего не говорит нам о вариации в совокупности! Есть известная фраза: если сесть на раскаленную плиту и засунуть голову в холодильник, то в среднем вам будет очень комфортно! Например, возьмем две пары чисел: (24,26) и (1, 49). Для каждой пары среднее арифметическое равно 25, но посмотрите на вариацию!
Сигма, дисперсия и коэффициент вариации
В результате для описания степени вариации приходится использовать
показатели, отличные от рассмотренных ранее, вот основные из них:
1) дисперсия — это средний квадрат отклонений вариантов от их средней величины:
# вводим исходные данные
x <-c(1,2,2,6,8,11,16)
var(x)
[1] 30.61905
2) сигма (среднее квадратическое отклонение, стандартное отклонение) — тоже характеризует степень вариации внутри совокупности, это квадратный корень из дисперсии:
# вводим исходные данные
x <-c(1,2,2,6,8,11,16)
sd(x)
[1] 5.533448
3) коэффициент вариации — это относительное стандартное отношение, то есть сигма деленная на среднее значение ряда:
# вводим исходные данные
x <-c(1,2,2,6,8,11,16)
v <-sd(x)/mean(x)*100
v
[1] 84.20464
Коэффициент вариации равен 84%, значит вариация очень сильная, совокупность — разнородная.
Замечание: по приведенным формулам рассчитываются сигма и дисперсия для выборок, то есть это аналог функции СТАНДОТКЛОН в Excel, для расчета сигмы и дисперсии в генеральной совокупности в Excel используется функция СТАНДОТКЛОНП. В R такой функции мы пока не нашли, да она не так и нужна — с помощью выборочной дисперсию рассчитать генеральную не просто, а очень просто — надо выборочную умножить на (n-1)/n.
Описательная статистика
Если вы не хотите рассчитывать все показатели по отдельности, то вы можете использовать команду, которая рассчитывает целый набор показателей, называемый описательной статистикой:
# вводим исходные данные
a <-c(1,2,2,6,8,11,16)
summary(a)
Min. 1st Qu. Median Mean 3rd Qu. Max.
1.000 2.000 6.000 6.571 9.500 16.000
В этом случае мы получили данные о минимальном значении, 1 и 3 квартилях, медиане, среднем и максимальном значении.
Конечно, в этой статье мы не сумели рассмотреть все показатели, применяемые в вариационном анализе, но и цели такой не ставили. Мы хотели показать вам, как можно использовать R для несложных статистических расчетов, уметь производить которые должны и те, кто занимаются визуализацией данных. Продолжение следует.
Автор статьи и иллюстраций: Алексей Золотарев
r, децили, квартили, медиана, мода, средняя арифметическая, средняя гармоническая, средняя геометрическая, статистика
Anki: анализ и визуализация данных по образовательному процессу
2011-02-02 06:53:30 (читать в оригинале)Как и многие другие явления нашей жизни, процесс образования также можно охарактеризовать цифрами и представить в виде визуализации данных. Одной из образовательных программ, позволяющих не только учить, но и наблюдать результаты образовательного процесса, является Anki. Пока вы запоминаете материалы с виртуальных карт очередной колоды, Anki собирает данные по работе с учебными картами и строит прогнозы, читать далее
Категория «Фотографы»
Взлеты Топ 5
+192 |
206 |
МАЛЕНЬКАЯ_ПОНИ |
+153 |
213 |
Little Showroom |
+153 |
207 |
Velimira |
+152 |
209 |
Свадебный фотограф Петербург, Тайланд, Куба, острова |
+149 |
208 |
ROMAHA.SU |
Падения Топ 5
-1 |
74 |
Фотоблог на ТеМу... |
-1 |
25 |
White trash beautiful. |
-1 |
5 |
Blue_cat |
-1 |
18 |
Журнал Интервальщика |
-2 |
28 |
MODRA_NEST |
Популярные за сутки
Загрузка...
BlogRider.ru не имеет отношения к публикуемым в записях блогов материалам. Все записи
взяты из открытых общедоступных источников и являются собственностью их авторов.
взяты из открытых общедоступных источников и являются собственностью их авторов.