Сегодня 29 ноября, пятница ГлавнаяНовостиО проектеЛичный кабинетПомощьКонтакты Сделать стартовойКарта сайтаНаписать администрации
Поиск по сайту
 
Ваше мнение
Какой рейтинг вас больше интересует?
 
 
 
 
 
Проголосовало: 7276
Кнопка
BlogRider.ru - Каталог блогов Рунета
получить код
Эсъюдс.ком
Эсъюдс.ком
Голосов: 1
Адрес блога: http://asjudc.com
Добавлен: 2009-12-08 18:51:36
 

RStudio: новая интегрированная среда разработки для R

2011-03-10 06:43:13 (читать в оригинале)

RStudio это новая интегрированная среда разработки (англ. Integrated Development Environment – IDE) для R – языка программирования для статистической обработки данных и построения различных видов визуализации данных. RStudio сочетает интуитивный пользовательский интерфейс с мощной консолью R, позволяя таким образом выжать из инструмента максимум возможностей. RStudio бесплатен, предназначен для пользователей Mac, Windows и Linux, позволяет использовать читать далее »

Processing и музыка – визуализация данных по музыкальным композициям возможна

2011-03-09 06:26:15 (читать в оригинале)

Визуализация данных открывает перед внимательными и вдумчивыми зрителями прекрасный мир цифр, погружает в водоворот многочисленных столбцов данных, ловко отраженных и наглядно представленных графиками и диаграммами. Но возможна ли визуализация данных по музыкальным композициям? Есть ли здесь на что посмотреть и над чем задуматься? Оказывается есть, в отличии от тех «визуализаций», которые показывают Winamp, Windows Media читать далее »

Расчет средних величин и показателей вариации при помощи R

2011-02-07 06:30:13 (читать в оригинале)

Мы продолжаем знакомить наших читателей с замечательным средством для проведения статистических вычислений и визуализации данных – R. А именно, разговор пойдет о средних величинах. Существует в принципе одна средняя величина – степенная, которая может рассчитываться как простая или взвешенная. Но некоторые частные случаи средней степенной получили собственные названия. В этой статье мы расскажем вам как с читать далее »

Расчет средних величин и показателей вариации при помощи R

2011-02-02 12:19:08 (читать в оригинале)

Расчет средних величин и показателей вариации при помощи R
Мы продолжаем знакомить наших читателей с замечательным средством для проведения статистических вычислений и визуализации данных — R. А именно, разговор пойдет о средних величинах. Существует в принципе одна средняя величина — степенная, которая может рассчитываться как простая или взвешенная. Но некоторые частные случаи средней степенной получили собственные названия. В этой статье мы расскажем вам как с помощью R рассчитывать различные варианты средних величин и показатели вариации.

Средняя арифметическая

Расчет средних величин и показателей вариации при помощи R

Наиболее известной является средняя арифметическая величина, как ее считать почти все знают, поэтому часто используют неправильно. Среднюю арифметическюю простую можно использовать, как правило, только в том случае, если ваши данные — это несгруппированные абсолютные величины. Например вы хотите рассчитать средний рост пяти человек, для этого вы должны найти их суммарный рост и разделить на 5. Другими словами, если вы замените рост каждого на средний, то суммарный рост не изменится. То что не должно меняться называет определяющим показателем, в данном случае — это суммарный рост. Рассчитаем средний рост в R, использовав следующий код:

# вводим исходные данные о росте пяти человек и сохраняем их в переменной rost
rost <-c(175,178,182,176,183)
# рассчитываем среднее значение по формуле средней арифметической простой
mean(rost)
[1] 178.8/pre
Средний рост пяти человек составил 178,8 см.

Средняя арифметическая взвешенная

Расчет средних величин и показателей вариации при помощи R

Если же данные сгруппированы или являются величинами относительными, то для расчета используется средняя арифметическая взвешенная. Например, студент подсчитал сколько в его зачетке троек, четверок и пятерок и хочет найти средний балл. Предположим у него 5 троек, 20 четверок и 15 пятерок. В данном случае 10, 20 и 15 будут являться весами, то есть тройка, четверка и пятерка вносят неодинаковый вклад в среднюю величину и этот вклад тем больше, чем больше вес. Для расчета средней арифметической в R используем следующий код:

# вводим исходные данные об оценках и их количестве
# оценки сохраняем в переменной score, а количество в переменной quantity
score <-c(3,4,5)
quantity <-c(5,20,15)

# рассчитываем средний балл, как среднюю арифметическую взвешенную
weighted.mean(score,quantity)
[1] 4.25

По результатам расчетов средний балл студента составил 4,25.
Стоит заметить, что, по большому счету, разница между простой и взвешенной не столь принципиальна, ведь простая — это частный случай взвешенной величины, когда все веса равны 1, а любую взвешенную можно расписать как простую.

Средняя гармоническая

Расчет средних величин и показателей вариации при помощи R

Средняя гармоническая — это еще один вид средних величин. Самый типичный простор использования средней гармонической — это задача о нахождении средней скорости движения. Например, автомобиль туда ехал со скоростью 40 км/ч, а обратно — 80 км/ч (расстояние было одинаковым). Найти среднюю скорость движения. Ответ 60 км/ч — неверный. Для расчета используем среднюю гармоническую, в R это можно сделать так:

# вводим исходные данные о скоростях туда и обратно
velo<-c(60,80)
# рассчитываем среднюю скорость как среднюю гармоническую простую
harmonic.mean(velo)
[1] 68.57143

Замечание: для того, чтобы использовать функцию harmonic.mean необходимо установить и загрузить пакет psych.

Теперь немного изменим условия этой задачи: со скоростью 40 км/ч автомобиль ехал 100 км, а со скоростью 80 км/ч — 300 км. В этом случае нам необходимо использовать среднюю гармоническую взвешенную. К сожалению, мы не нашли готовой функции для расчета средней гармонической взвешенной, поэтому расчеты придется усложнить:

# вводим исходные данные о пройденном пути и скоростях
distance <-c(100,300)
velo <-c(40,80)
sum(distance)/(sum(distance/velo))

[1] 64

На самом деле, очень часто выбор вида средней для расчетеов определяется не тем, среднее значение чего вы хотите считать, а тем, какие у вас исходные данные. Например, если вы хотите найти среднюю урожайность и у вас есть данные по площадям и урожайностям, то вы будете использовать среднюю арифметическую взвешенную, а если у вас имеются данные по валовым сборам и урожайностям, то расчет вы будете осуществлять по формуле средней гармонической взвешенной.

Средняя геометрическая простая

Расчет средних величин и показателей вариации при помощи R

Последней средней, которую мы сегодня рассмотрим будет средняя геометрическая простая. Она используется тогда, когда надо определить средний темп роста или прироста. Предположим, что в первом году темп роста цен был 1,12, а во втором — 1,20. Определим средний темп роста цен за 2 года:

# вводим исходные данные о темпах роста
temp <-c(1.12,1.20)
# рассчитываем средний темп как среднюю геометрическую простую
geometric.mean(temp)
[1] 1.159310

Средний темп роста составил 1,159.

Замечание: для того, чтобы использовать функцию geometric.mean необходимо установить и загрузить пакет psych.

Мода

Кроме рассмотренных средних величин, существуют так называемые структурные средние — мода и медиана. Мода — это значение, которое чаще других встречается в совокупности. Например, есть несколько значений: 1,2,2,6,8,11,16. Модой будет 2, так как в данной выборке две двойки. В R для нахождения моды можно использовать функции, связанные с сортировкой, но можно использовать и готовую функцию, правда для этого необходимо подключить пакет rattle:

# вводим исходные данные
x <-c(1,2,2,6,8,11,16)
# рассчитываем моду
modalvalue(x)
[1] 2

Медиана

Медиана — это значение, которое делит совокупность на две равные части. Например в ряду 1,2,2,6,8,11,16 медианой будет 6, стоящая посередине (сперва, конечно, ряд нужно упорядочить по возрастанию), так как есть 3 значения меньше 6 и 3 значения больше 6. Если в выборке четное число значений, то медианой будет среднее арифметическое двух центральных, например, в ряду 1,2,2,6,8,11,16,20 медиана равна (6+8)/2 = 7, так как есть 4 значения меньше 7 и 4 — больше. Для расчета медианы в R используется функция median:

# вводим исходные данные
a <-c(1,2,2,6,8,11,16)
b <-c(1,2,2,6,8,11,16,20)


# рассчитываем медиану для переменной а
median(a)
[1] 6

# рассчитываем медиану для переменной b
median(b)
[1] 7

Квартили, квинтили и децили

Кроме медианы существуют еще квартили (делят ряд на 4 равные части), квинтили (на 5 частей), децили (на 10 частей) и процентили (на 100 частей), которые все вместе называются квантилями. В R для расчета квантилей можно использовать команду quantile.

# вводим исходные данные
a <-c(1,2,2,6,8,11,16)
quantile(a)
0%  25%  50%  75% 100%
1.0   2.0    6.0    9.5    16.0

Если вас интересуют, например, квинтили, то можно использовать такой код:

# вводим исходные данные
a <-c(1,2,2,6,8,11,16)
quantile(a,c(0.2,0.4,0.6,0.8))

20%  40%  60%  80%
2.0    3.6   7.2    10.4

А если вам очень хочется узнать что-то про 3 и 7 децили, тогда
# вводим исходные данные
a <-c(1,2,2,6,8,11,16)
quantile(a,c(0.3,0.7))

30% 70%
2.0   8.6

Стоит отметить, что средняя величина характеризует совокупность достаточно однобоко, она ничего не говорит нам о вариации в совокупности! Есть известная фраза: если сесть на раскаленную плиту и засунуть голову в холодильник, то в среднем вам будет очень комфортно! Например, возьмем две пары чисел: (24,26) и (1, 49). Для каждой пары среднее арифметическое равно 25, но посмотрите на вариацию!

Сигма, дисперсия и коэффициент вариации

В результате для описания степени вариации приходится использовать
показатели, отличные от рассмотренных ранее, вот основные из них:

1) дисперсия — это средний квадрат отклонений вариантов от их средней величины:

# вводим исходные данные
x <-c(1,2,2,6,8,11,16)
var(x)

[1] 30.61905

2) сигма (среднее квадратическое отклонение, стандартное отклонение) — тоже характеризует степень вариации внутри совокупности, это квадратный корень из дисперсии:

# вводим исходные данные
x <-c(1,2,2,6,8,11,16)
sd(x)

[1] 5.533448

3) коэффициент вариации — это относительное стандартное отношение, то есть сигма деленная на среднее значение ряда:

# вводим исходные данные
x <-c(1,2,2,6,8,11,16)
v <-sd(x)/mean(x)*100
v

[1] 84.20464

Коэффициент вариации равен 84%, значит вариация очень сильная, совокупность — разнородная.

Замечание: по приведенным формулам рассчитываются сигма и дисперсия для выборок, то есть это аналог функции СТАНДОТКЛОН в Excel, для расчета сигмы и дисперсии в генеральной совокупности в Excel используется функция СТАНДОТКЛОНП. В R такой функции мы пока не нашли, да она не так и нужна — с помощью выборочной дисперсию рассчитать генеральную не просто, а очень просто — надо выборочную умножить на (n-1)/n.

Описательная статистика

Если вы не хотите рассчитывать все показатели по отдельности, то вы можете использовать команду, которая рассчитывает целый набор показателей, называемый описательной статистикой:

# вводим исходные данные
a <-c(1,2,2,6,8,11,16)
summary(a)

Min. 1st Qu.  Median    Mean 3rd Qu.    Max.
1.000   2.000   6.000   6.571   9.500  16.000

В этом случае мы получили данные о минимальном значении, 1 и 3 квартилях, медиане, среднем и максимальном значении.

Конечно, в этой статье мы не сумели рассмотреть все показатели, применяемые в вариационном анализе, но и цели такой не ставили. Мы хотели показать вам, как можно использовать R для несложных статистических расчетов, уметь производить которые должны и те, кто занимаются визуализацией данных. Продолжение следует.

Автор статьи и иллюстраций: Алексей Золотарев http://vizualdata.ru/pictures/twitter.png
r, децили, квартили, медиана, мода, средняя арифметическая, средняя гармоническая, средняя геометрическая, статистика


Anki: анализ и визуализация данных по образовательному процессу

2011-02-02 06:53:30 (читать в оригинале)

Как и многие другие явления нашей жизни, процесс образования также можно охарактеризовать цифрами и представить в виде визуализации данных. Одной из образовательных программ, позволяющих не только учить, но и наблюдать результаты образовательного процесса, является Anki. Пока вы запоминаете материалы с виртуальных карт очередной колоды, Anki собирает данные по работе с учебными картами и строит прогнозы, читать далее »


Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 ... 

 


Самый-самый блог
Блогер Рыбалка
Рыбалка
по среднему баллу (5.00) в категории «Спорт»


Загрузка...Загрузка...
BlogRider.ru не имеет отношения к публикуемым в записях блогов материалам. Все записи
взяты из открытых общедоступных источников и являются собственностью их авторов.