![]() ![]() ![]()
Какой рейтинг вас больше интересует?
|
Главная /
Каталог блоговCтраница блогера R: Анализ и визуализация данных/Записи в блоге |
![]() |
R: Анализ и визуализация данных
Голосов: 0 Адрес блога: http://r-analytics.blogspot.com/ Добавлен: 2011-06-16 23:33:25 |
Как изучать R?
2011-05-08 21:37:00 (читать в оригинале)На сайте R-сообщества Insider-R, сотрудник компании Revolution Analytics Джозеф Рикерт (Joseph Ricker) поделился своим видением того, как стоит изучать язык статистических вычислений R (подробнее см. здесь). Джозеф считает, что процесс изучения R можно разделить на следующие пять стадий:
- Поверхностное понимание культуры R-сообщества и программной среды, в которой функционирует и разрабатывается язык R. Знакомство с имеющимися вспомогательными ресурсами. Инсталляция R на компьютере пользователя и выполнение первых тестовых скриптов.
- Считывание данных из csv-файлов и уверенное использование R-функций для выполнения привычного пользователю статистического анализа.
- Использование базовых структур языка R для написания простых программ. Написание собственных функций. Ознакомление со структурами данных, с которыми может работать R. Ознакомление с более сложными возможностями языка. Работа с базами данных, веб-страницами и внешними источниками данных.
- Написание сложных программ на языке R. Самостоятельная разработка и глубокое понимание структуры объектов S3- и S4-класса.
- Разработка профессиональных программ на языке R. Самостоятельное создание дополнительных модулей-библиотек для R.
Стадия 1, как считает Джозеф, может быть пройдена менее чем за день, особенно при наличии хорошего вводного учебника. Преодоление стадий 2 и 3 потребует регулярной работы с R. Большинство рядовых пользователей R остановятся за стадии 3, т.к. полученных к этому времени знаний им будет вполне достаточно для выполнения рутинных статистических задач.
Начинать изучение R рекомендуется с ознакомления с содержанием таких сайтов, как Inside-R, CRAN (хранилище R-библиотек) и Сrantastic. Для удобной работы стоит инсталлировать какую-либо из имеющихся интегрированных сред разработки (IDE) для R с графическим пользовательским интерфейсом. Отличным вариантом является использование IDE от компании Revolution Analytics, однако ее бесплатная версия доступна лишь для сотрудников академических учреждений. Другим хорошим вариантом является бесплатная RStudio.
Основные образовательные ресурсы для изучения R можно разделить на три группы:
- Книги, статьи, презентации, и другие подобные материалы
- Блоги
- Специальные курсы по R
Книги
Большинство книг по R выпускаются тремя основными издетальствами - Springer, Cambridge University Press и Chapman & Hall / CRC (см., например, почти исчерпывающий список книг здесь). Так, Springer издает целую серию (Use-R) отличных и относительно недорогих по стоимости вводных пособий. Дж. Рикерт советует несколько литературных источников, на которые стоит обратить особое внимание в ходе изучения R:
- Dalgaard P (2004) Introductory Statistics with R: книга особенно хороша для тех, кто приступает к изучению не только языка R, но и статистики в целом
- Fox J (2010) An R and S-Plus Companion to Applied Regression: книга о регрессионных моделях; написана на том же доступном уровне, что и предыдущая
- J Maindonald, JW Braun (2010) Data Analysis and Graphics Using R: An Example-based Approach: несколько более сложно написанная книга, которая, тем не менее, дает широкий обзор статистических методов, реализуемых при помощи R, и имеет множество примеров
- Gelman A, Hill J (2006) Data Analysis Using Regression and Multilevel / Hierarchical Models: книга о регрессионном анализе, включая модели со смешанными эффектами
- Venables VN, Ripley BD (2010) Modern Applied Statistics with S (Statistics and Computing): книга, которая должна быть настольной у каждого аналитика, профессионально использующего R
- Spector P (2008) Data Manipulation with R: краткое, но очень полезное введение в структуры данных R и основные команды, используемые для управления данными
- Adler J (2010) R in a Nutshell: вводное пособие по R
- Teetor P (2011) R Cookbook: как следует из названия, это - сборник "R-рецептов"; полезная и очень практичная книга
- Muenshen RA (2008) R for SAS and SPSS Users: эта книга достойна стать настольной для пользователей, хорошо владеющих SAS и/или SPPS, и желающих перети на работу с R
- Chamber J (2010) Software for Data Analysis: Programming with R (Statistics and Computing): книга рассматривает технические особенности языка R и будет полезна для профессиональных программистов
К сожалению, на русском языке на данный момент не опубликовано ни одной полноценной книги по R. Полезными вводными пособиями могут оказаться серия статей в журнале Linux Format (pdf-файлы статей можно скачать здесь), а также методические рекомендации к лабораторным работам по курсу "Машинное обучение", который предподают на Факультете вычислительной математики и кибернетики Нижегородского университета.
Блоги
Помимо книг и сопровождающих их веб-сайтов, отличным источником интересных и полезных примеров R-кода являются блоги. Дж. Рикерт рекомендует обратить особое внимание на блог Дэвида Смита (David Smith, сотрудник Revolution Analytics), а также на Quick R, R-Bloggers и блог Роба Хиндмана (Rob Hyndman).
Русскоязычные блоги о R на данный момент весьма немногочисленны. Тем не менее, в сообщениях имеющихся блогов также можно найти много полезной информации, особенно здесь:
Если Вам позволяют финансовые возможности, Вы можете пройти специальные курсы по R, вроде тех, что предлагают на сайте statistics.com, и получить официальный сертификат. Обучение, как недтрудно догадаться, происходит на английском языке. Насколько мне известно, подобных курсов на русском языке пока не существует.
Русскоязычные блоги о R на данный момент весьма немногочисленны. Тем не менее, в сообщениях имеющихся блогов также можно найти много полезной информации, особенно здесь:
- Сообщество r-statistics в Live Journal (куратор - Александр Виноградов)
- Блог Ришата Габидуллина (Voliadis place)
- Блог Андрея Четверикова (http://chetvericov.ru/tag/r/)
- Блог "R по-русски"
Если Вам позволяют финансовые возможности, Вы можете пройти специальные курсы по R, вроде тех, что предлагают на сайте statistics.com, и получить официальный сертификат. Обучение, как недтрудно догадаться, происходит на английском языке. Насколько мне известно, подобных курсов на русском языке пока не существует.
Тэги: analytic, bloggers, cran, crantastic, format, inside, linux, quick, revolution, rstudio, statistic, use
Постоянная ссылка
Вышла новая версия интегрированной среды разработки для R - Revolution R Enterprise
2011-05-05 01:35:00 (читать в оригинале)Компания Revolution Analytics выпустила новую версию своей IDE (intergrated develompent environment, интегрированная среда разработки) для R - Revolution R Enterprise 4.3. Данная версия включает обновленную версию самой системы R (2.12.2) в совокупности с рядом библиотек высокопроизводительных функций и дополнительными опциями для анализа больших объемов данных и разработки веб-приложений, а также графический пользовательский интерфейс для программирования на языке R и многое другое. Основные новшества перечислены ниже:
- Новый предиктивный алгоритм для работы с "большими данными": кластеризация по методу K-средних
- Импорт данных из файлов SPSS в высокопроизводительные файлы формата XDF
- Эффективные методы сортировки данных, сохраненных в формате XDF
- Улучшенная производительность при импортировании файлов форматов ASCII и SAS
- Возможность расчета ковариационных и корреляционных матриц для "больших данных", сохраненных в формате XDF
- Поддержка значений дат в файлах XDF формата
- Улучшенная функциональность Revolution R Productivity Environment (RPE)
- Обновление движка R до версии 2.12.2
- Единый инсталлятор для 32- and 64-битных версий Windows
(По материалам сайта Revolution Analytics)
Издание Computerworld пишет о R
2011-04-26 02:13:00 (читать в оригинале)Недавно на сайте известного издания Computerworld была опубликована статья, в которой обсуждаются более 20 свободно распространяемых программных средств, предназначенных для анализа и визуализации данных. В списке программ, относящихся к категории "Статистический анализ", R занимает почетное первое место. Привожу ниже свой перевод той части статьи, которая посвящена R.
Что умеет делать: R - это статистическая платформа общего назначения (авторы называют ее "программной средой"), которая управляется через командную строку. Вам необходимо рассчитать средние значения, медианы, стандартные отклонения, корреляции? Согласно официальному сайту проекта, R позволяет реализовывать это и многое другое, включая "линейные и обобщенные линейные модели, нелинейные регрессионные модели, анализ временных рядов, классические параметрические и непараметрические тесты, кластерный анализ и методы сглаживания". Кроме того, при помощи R результаты анализа можно обобщать в виде всевозможных графиков и диаграмм. Для этой программы с открытым исходным кодом существуют многочисленные дополнительные библиотеки-модули, которые значительно расширяют ее функциональность. Пользователям, которые предпочитают графический пользовательский интерфейс, Питер Альдхоус (Peter Aldhous), глава отделения журнала New Scientist в Сан-Франциско, рекомендует RExcel - библиотеку, позволяющую работать с движком R через Excel.
Отличительные особенности: R обладает огромной функциональностью, включая большой набор опций для визуализации данных, а также для количественного и пространственного анализа.
Недостатки: Тот факт, что R управляется через командную строку, означает, что пользователям придется затратить время на изучение соответствующих команд, и не все пользователи будут чувствовать себя одинаково комфортно, работая только с текстовым интерфейсом. Кроме того, П. Альдхоус утверждает, что пользователи, работающие с большими объемами данных, могут столкнуться с нехваткой оперативной памяти (для таких случаев существуют коммерческие решения, например от компании Revolution Analytics).
Необходимый уровень пользователя: от промежуточного до экспертного. Неотъемлемыми требованиями являются уверенная работа с программой посредством командной строки, а также знание статистики.
На каких платформах работает: Linux, Mac OS X, Unix, Windows XP и выше.
Узнай больше: R for Statistics: First Steps (PDF) от Питера Альдхоуса, Hands-on R, a step-by-step tutorial (PDF) от Джейкоба Фентона (Jacob Fenton), а также An Introduction to R от основателей проекта R. В блоге R Statistics blog можно найти много примеров визуализации данных при помощи R.
О чем этот блог?
2011-04-19 19:00:00 (читать в оригинале)Начнем с того, что собой представляет R. Как сказано на сайте этого проекта, R - это язык программирования и одновременно полноценная программная среда для выполнения статистических вычислений и построения графических объектов. R является программным обеспечением с открытым исходным кодом и свободно распространяется по лицензии GNU.
По сути, R является бесплатной реализацией другого объектно-ориентированного языка программирования - S, который был разработан Джоном Чамберсом и коллегами в Bell Laboratories и распространяется на комерческой основе (подробнее об истории создания R можно почитать здесь). Между этими двумя языками существует ряд существенных различий, однако в большинстве случаев код, написанный на S, без изменений может быть успешно исполнен в среде R.
Сегодня R является безусловным лидером среди свободно распространяемых систем статистического анализа, о чем говорит, например, то факт, что в 2010 году система R стала победителем ежегодного конкурса открытых программных продуктов Bossie Awards в нескольких номинациях. R используют аналитики таких крупных компаний, как Google, Bank of America, Pfizer, Merck, Shell и др. (подробнее см. здесь). Ведущие университеты мира и исследовательские центры используют R для преподавания статистики и выполнения научных работ. Чем же так хороша эта система? Можно привести несколько преимуществ:
Добро пожаловать!
По сути, R является бесплатной реализацией другого объектно-ориентированного языка программирования - S, который был разработан Джоном Чамберсом и коллегами в Bell Laboratories и распространяется на комерческой основе (подробнее об истории создания R можно почитать здесь). Между этими двумя языками существует ряд существенных различий, однако в большинстве случаев код, написанный на S, без изменений может быть успешно исполнен в среде R.
Сегодня R является безусловным лидером среди свободно распространяемых систем статистического анализа, о чем говорит, например, то факт, что в 2010 году система R стала победителем ежегодного конкурса открытых программных продуктов Bossie Awards в нескольких номинациях. R используют аналитики таких крупных компаний, как Google, Bank of America, Pfizer, Merck, Shell и др. (подробнее см. здесь). Ведущие университеты мира и исследовательские центры используют R для преподавания статистики и выполнения научных работ. Чем же так хороша эта система? Можно привести несколько преимуществ:
- В отличие от коммерческих статистических программ, стоимость лицензии на которые может составлять несколько тысяч долларов, R распространяется совершенно бесплатно (для получения дистрибутива программы, перейдите на сайт проекта R).
- Язык R создан статистиками (Росс Ихака и Роберт Джентельмен, университет Окленда, Новая Зеландия), и поэтому обладает рядом очень удобных возможностей для выполнения статистического анализа.
- Язык R предоставляет пользователю практически неограниченные возможности для визуализации данных (с примерами R-графики можно познакомиться здесь).
- Энтузиастами со всего мира написано более 2000 дополнительных библиотек для R, которые существенно расширяют базовые возможности системы. Как и саму программу, эти библиотеки можно свободно скачать с сайта проекта R, или с сайтов авторов соответствующих библиотек. Очень сложно представить какой-либо класс статистических методов, которые еще не были бы реализованы сегодня в виде расширений для R.
- Поскольку R является любимым языком профессиональных статистиков, все последние достижения статистической науки очень быстро становятся доступными для пользователей R во всем мире в виде дополнительных библиотек. Ни одна коммерческая система статистического анализа так быстро сегодня не развивается.
- У R есть многочисленная армия пользователей, которые сообщают авторам дополнительных библиотек и самой системы R об обнаруженных ошибках. Все ошибки оперативно исправляются.
- Весьма объемна документация по R. Кроме того, существует активно действующий международный форум пользователей R, где любой может попросить о помощи в возникшей проблеме.
- В R используется инерфейс командной строки, что поначалу сильно обескураживает пользователей, привыкших нажимать кнопки в программах с графическим интерфейсом. Для R создано несколько графических интерфейсов, однако их функциональные возможности достаточно ограничены.
- R - язык програмирования. Как и любой другой язык, его нужно учить. В случае с R скорость обучения поначалу бывает низка, однако со временем пользователь проникается "красотой" и эффективностью этого языка, и дела начинаютя идти быстрее.
- Документация по R часто носит весьма технический характер, что не позволяет пользователю быстро получить ответ на интересующий вопрос. Это проблема отчасти сегодня решается существованием многочисленных форумов и блогов, где помощь можно получить очень быстро.
- Сообщество r-statistics в Live Journal (куратор - Александр Виноградов)
- Блог Ришата Габидуллина (Voliadis place)
- Блог Андрея Четверикова (http://chetvericov.ru/tag/r/)
- Учебник по R от Донбас-СоцПроект
- Группа R Вконтакте (http://vkontakte.ru/club8142131)
- Блог "R по-русски"
- Сайт "Введение в R-систему статистического анализа"
- Вики-учебник по R на русском языке
- Раздел сайта "Визуализация данных", посвященный R
- Серия статей по R в журнале "Linux Format"
- Подборка материалов по R А. Б. Шипунова
- Материалы к лабораторным работам по машинному обучению c применением R
- Примеры анализа данных на языке R
Добро пожаловать!


Категория «Мобильная техника»
Взлеты Топ 5
![]() | ||
+283 |
307 |
Все для людей |
+253 |
275 |
Мобильные Люди - Луганск |
+250 |
268 |
Gatekeeper |
+227 |
238 |
zwerjok |
+225 |
237 |
Накукрыскин |
Падения Топ 5
![]() | ||
-1 |
10 |
Pc-blog: Компьютерные новости, игры, железо, безопасность, SEO |
-5 |
4 |
38gadgets.ru |
-6 |
62 |
Gadjetov.Net |
-7 |
2 |
Вебпланета news |
-7 |
33 |
Трудовые будни программиста |

Популярные за сутки
Загрузка...

BlogRider.ru не имеет отношения к публикуемым в записях блогов материалам. Все записи
взяты из открытых общедоступных источников и являются собственностью их авторов.
взяты из открытых общедоступных источников и являются собственностью их авторов.