В Калифорнийском университете в Беркли разработали фреймворк Spark для распределённых вычислений в ...
В Калифорнийском университете в Беркли разработали фреймворк Spark для распределённых вычислений в кластерах. На некоторых задачах он превосходит Hadoop в 10-30 раз, сохраняя при этом масштабируемость и надёжность MapReduce.
Увеличение производительности до 30х возможно на специфических задачах, в которых идёт постоянное обращение к одному и тому же набору данных. Например, это интерактивный дата-майнинг и итерационные алгоритмы, которые активно используются, например, в системах машинного обучения. Собственно, для этих двух задач проект и создавался. Но Spark превосходит Hadoop не только в системах машинного обучения, но и в традиционных приложениях по обработке данных.
Читать дальше →
Итак, для сегодня (по Хабаровскому времени) я отвыступался на Дальневосточном интернет форуме ( http ...
Итак, для сегодня (по Хабаровскому времени) я отвыступался на Дальневосточном интернет форуме ( http://www.dvif.org ), а вчера выступал в ТОГУ. Оба дня я говорил про открытые данные и то к чему они нужны и к чему они приводят. Говорил про конкурсы на их основе и отдельно говорил о проекте «Государственные люди». Начну с выступления в ТОГУ. Тема была «Открытые данные», а сама лекция проходила в здании Тихоокеанского государственного университета. Слушали меня их студенты, как...(read more)

Возможно, кто-то из Вас уже ранее слышал этот термин «журналистика данных» или « ...
Возможно, кто-то из Вас уже ранее слышал этот термин «журналистика данных» или « data driven journalism «. Если нет, то всячески рекомендую начать со статьи Евгении Шевниной в Mediapedia, заметку в блоге NewMediaLine – 10 фактов о журналистике данных , а также статью в блоге Сергея Рачинского – Журналистика баз данных: Модный тренд или будущее профессии? Итак. Что же такое журналистика данных? Журналистика данных – это совмещение журналистом роли переводчика...(read more)

Известные всем McKinsey выпустили отчет об использовании и возможностях использования больших данных ...
Известные всем McKinsey выпустили отчет об использовании и возможностях использования больших данных в США и мире. Прочитать его можно по ссылке http://www.mckinsey.com/mgi/publications/big_data/pdfs/MGI_big_data_full_report.pdf Там широко охвачены 5 тем: - здравоохранение (США) - госуправление (Евросоюз) - розничная торговля (США) - производство (весь мир) - данные о личном местонахождении (весь мир). Лично я отчет рекомендую почитать поскольку он из тех документов где доступным языком доносятся...(read more)

Примеры того как организации и граждане мониторят госзакупки/госрасходы/госконтракты в мире: Частные ...
Примеры того как организации и граждане мониторят госзакупки/госрасходы/госконтракты в мире: Частные и некоммерческие проекты: AidData ( http://aiddata.org ) – собирают базу по всем расходам международных организаций и государств на поддержку и развитие других стран. Предоставляют все собранные данные в виде огромной базы с возможностью доступа через API, возможностью скачать все данные. Ранее этот проект существовал в виде базы PLAID, также доступной у них на сайте. У проект сильная методология...(read more)
