На сайте R-сообщества Insider-R, сотрудник компании Revolution ...
На сайте R-сообщества Insider-R, сотрудник компании Revolution Analytics Джозеф Рикерт (Joseph Ricker) поделился своим видением того, как стоит изучать язык статистических вычислений R (подробнее см. здесь). Джозеф считает, что процесс изучения R можно разделить на следующие пять стадий:
- Поверхностное понимание культуры R-сообщества и программной среды, в которой функционирует и разрабатывается язык R. Знакомство с имеющимися вспомогательными ресурсами. Инсталляция R на компьютере пользователя и выполнение первых тестовых скриптов.
- Считывание данных из csv-файлов и уверенное использование R-функций для выполнения привычного пользователю статистического анализа.
- Использование базовых структур языка R для написания простых программ. Написание собственных функций. Ознакомление со структурами данных, с которыми может работать R. Ознакомление с более сложными возможностями языка. Работа с базами данных, веб-страницами и внешними источниками данных.
- Написание сложных программ на языке R. Самостоятельная разработка и глубокое понимание структуры объектов S3- и S4-класса.
- Разработка профессиональных программ на языке R. Самостоятельное создание дополнительных модулей-библиотек для R.
Стадия 1, как считает Джозеф, может быть пройдена менее чем за день, особенно при наличии хорошего вводного учебника. Преодоление стадий 2 и 3 потребует регулярной работы с R. Большинство рядовых пользователей R остановятся за стадии 3, т.к. полученных к этому времени знаний им будет вполне достаточно для выполнения рутинных статистических задач.
Начинать изучение R рекомендуется с ознакомления с содержанием таких сайтов, как Inside-R, CRAN (хранилище R-библиотек) и Сrantastic. Для удобной работы стоит инсталлировать какую-либо из имеющихся интегрированных сред разработки (IDE) для R с графическим пользовательским интерфейсом. Отличным вариантом является использование IDE от компании Revolution Analytics, однако ее бесплатная версия доступна лишь для сотрудников академических учреждений. Другим хорошим вариантом является бесплатная RStudio.
Основные образовательные ресурсы для изучения R можно разделить на три группы:
- Книги, статьи, презентации, и другие подобные материалы
- Блоги
- Специальные курсы по R
Книги
Большинство книг по R выпускаются тремя основными издетальствами - Springer, Cambridge University Press и Chapman & Hall / CRC (см., например, почти исчерпывающий список книг здесь). Так, Springer издает целую серию (Use-R) отличных и относительно недорогих по стоимости вводных пособий. Дж. Рикерт советует несколько литературных источников, на которые стоит обратить особое внимание в ходе изучения R:
- Dalgaard P (2004) Introductory Statistics with R: книга особенно хороша для тех, кто приступает к изучению не только языка R, но и статистики в целом
- Fox J (2010) An R and S-Plus Companion to Applied Regression: книга о регрессионных моделях; написана на том же доступном уровне, что и предыдущая
- J Maindonald, JW Braun (2010) Data Analysis and Graphics Using R: An Example-based Approach: несколько более сложно написанная книга, которая, тем не менее, дает широкий обзор статистических методов, реализуемых при помощи R, и имеет множество примеров
- Gelman A, Hill J (2006) Data Analysis Using Regression and Multilevel / Hierarchical Models: книга о регрессионном анализе, включая модели со смешанными эффектами
- Venables VN, Ripley BD (2010) Modern Applied Statistics with S (Statistics and Computing): книга, которая должна быть настольной у каждого аналитика, профессионально использующего R
- Spector P (2008) Data Manipulation with R: краткое, но очень полезное введение в структуры данных R и основные команды, используемые для управления данными
- Adler J (2010) R in a Nutshell: вводное пособие по R
- Teetor P (2011) R Cookbook: как следует из названия, это - сборник "R-рецептов"; полезная и очень практичная книга
- Muenshen RA (2008) R for SAS and SPSS Users: эта книга достойна стать настольной для пользователей, хорошо владеющих SAS и/или SPPS, и желающих перети на работу с R
- Chamber J (2010) Software for Data Analysis: Programming with R (Statistics and Computing): книга рассматривает технические особенности языка R и будет полезна для профессиональных программистов
К сожалению, на русском языке на данный момент не опубликовано ни одной полноценной книги по R. Полезными вводными пособиями могут оказаться серия статей в журнале Linux Format (pdf-файлы статей можно скачать здесь), а также методические рекомендации к лабораторным работам по курсу "Машинное обучение", который предподают на Факультете вычислительной математики и кибернетики Нижегородского университета.
Блоги
Помимо книг и сопровождающих их веб-сайтов, отличным источником интересных и полезных примеров R-кода являются блоги. Дж. Рикерт рекомендует обратить особое внимание на блог Дэвида Смита (David Smith, сотрудник Revolution Analytics), а также на Quick R, R-Bloggers и блог Роба Хиндмана (Rob Hyndman).
Русскоязычные блоги о R на данный момент весьма немногочисленны. Тем не менее, в сообщениях имеющихся блогов также можно найти много полезной информации, особенно здесь:
- Сообщество r-statistics в Live Journal (куратор - Александр Виноградов)
- Блог Ришата Габидуллина (Voliadis place)
- Блог Андрея Четверикова (http://chetvericov.ru/tag/r/)
- Блог "R по-русски"
Специальные курсы по RЕсли Вам позволяют финансовые возможности, Вы можете пройти специальные курсы по R, вроде тех, что предлагают на сайте statistics.com, и получить официальный сертификат. Обучение, как недтрудно догадаться, происходит на английском языке. Насколько мне известно, подобных курсов на русском языке пока не существует.