Архив за день: 06.02.2018

Большие данные и облачные вычисления: тенденции и вызовы

В настоящее время большие данные являются одной из наиболее важных новых технологий. Большие данные используются как концепция, которая ссылается на неспособность традиционных архитектур данных эффективно обрабатывать новые наборы данных. Основные характеристики больших данных — объем, скорость, разнообразие и достоверность делают управление данными и аналитику сложными для традиционных хранилищ данных. Важно объединить большие данные и аналитику. Большие данные — это термин, используемый для описания недавнего взрыва различных типов данных из разрозненных источников. Аналитика посвящена анализу данных для получения интересных и актуальных тенденций и шаблонов, которые могут использоваться для информирования о решениях, оптимизации процессов и даже привлечения новых бизнес-моделей. Облачные вычисления, по-видимому, являются идеальным средством для размещения больших рабочих нагрузок данных. Однако работа над большими данными в облаке создает свою собственную задачу примирения двух противоречивых принципов проектирования. Облачные вычисления основаны на концепциях консолидации и объединения ресурсов, но большие системы данных (такие как Hadoop) построены на принципе отсутствия общего, где каждый узел является независимым и самодостаточным. Интеграция больших данных с облачными вычислительными технологиями, предприятиями и учебными заведениями может улучшить их управление в будущем. Возможность хранить большие объемы данных в разных формах и обрабатывать все это на очень больших скоростях приведет к тому, что данные будут способствовать быстрому развитию бизнеса и институтов образования. Тем не менее, существует большая проблема, связанная с вопросами конфиденциальности и безопасности при переходе на облако, что является основными причинами того, почему предприятия и учебные заведения не спешат перемещаться в облако. В данной статье представлены характеристики, тенденции и проблемы, связанные с большими данными. Также, обсуждаются преимущества и риски, которые могут возникнуть из-за интеграции между большими данными и облачными вычислениями.

Большие данные — это методология анализа данных, предоставляемая новым поколением технологий и архитектуры, которые поддерживают высокоскоростной сбор данных, хранение и анализ. Источники данных выходят за рамки традиционной корпоративной базы данных, включая электронную почту, вывод мобильных устройств, данные с датчиков и выход в социальные сети. Большие данные не ограничиваются структурированными записями базы данных, но включают неструктурированные данные — данные, не имеющие стандартного форматирования. Для больших данных требуется огромное количество пространства для хранения. В то время как стоимость хранения продолжала снижаться, ресурсы, необходимые для использования больших данных, могут по-прежнему создавать финансовые трудности для предприятий малого и среднего бизнеса. Типичная большая инфраструктура хранения и анализа данных будет основана на кластерном сетевом хранилище (NAS). Для кластерной инфраструктуры NAS требуется конфигурация нескольких NAS-модулей с каждым NAS-модулем, состоящим из нескольких устройств хранения, подключенных к NAS-устройству. Серия NAS-устройств соединена между собой, чтобы обеспечить массовое совместное использование и поиск данных.

Облачные вычисления — чрезвычайно успешная парадигма ориентированных на обслуживание вычислений, и революционизировала то, как вычислительная инфраструктура абстрагируется и используется. Три наиболее популярные облачные парадигмы включают: инфраструктуру как услугу (IaaS), платформу как услугу (PaaS) и программное обеспечение как услугу (SaaS). Однако эта концепция также может быть расширена до базы данных как службы или хранилища в качестве службы. Эластичность, платный подход, низкие авансовые инвестиции, низкое время выхода на рынок и передача рисков — вот некоторые из основных возможностей, которые делают облачные вычисления универсальной парадигмой для развертывания новых приложений, которые экономически не осуществимы для инфраструктуры традиционных предприятий. Масштабируемые системы управления базами данных, как для интенсивных нагрузок приложений, так и для систем поддержки принятия решений — являются, таким образом, важной частью облачной инфраструктуры. Масштабируемое и распределенное управление данными стало видением сообщества исследователей баз данных более трех десятилетий. Много исследований было сфокусировано на разработке масштабируемых систем как для интенсивных рабочих нагрузок, так и для рабочих нагрузок для активного анализа. Первоначальные проекты включают распределенные базы данных для интенсивных рабочих нагрузок с обновлением и параллельные системы баз данных для аналитических рабочие нагрузки. Параллельные базы данных выходили за рамки прототипных систем в крупные коммерческие системы, но распределенные системы баз данных были не очень успешными и никогда не были коммерциализированы — были использованы различные специальные подходы к масштабированию. Изменения в схемах доступа к данным приложений и необходимость масштабирования до тысяч машин привели к рождению нового класса систем, упомянутых в качестве Key-Value, которые в настоящее время широко используются различными предприятиями. В области анализа данных парадигма MapReduce и ее реализация с открытым исходным кодом Hadoop также получили широкое распространение как в промышленности, так и в академических кругах. Решения также были предложены для улучшения систем на основе Hadoop с точки зрения удобства и производительности.

С другой стороны, хранилища данных использовались для управления большим объемом данных. Хранилища и решения, построенные вокруг них, не могут обеспечить разумное время отклика при обработке расширяющихся объемов данных. Можно проводить аналитику на большом объеме один раз в сутки или выполнять транзакции с небольшими объемами данных за считанные секунды. В соответствии с новыми требованиями необходимо обеспечить режим реального времени или
почти в режиме реального времени для получения огромного количества данных.
Основные характеристики больших данных — объем, скорость, разнообразие и достоверность — делают управление данными и аналитику сложными для традиционных хранилищ данных. Большие данные могут быть определены как данные, превышающие возможности обработки обычных систем баз данных. Это означает, что количество данных слишком велико и / или значения данных изменяются слишком быстро, и / или оно не соответствует правилам традиционные системы управления базами данных (например, согласованность). Требуются новые знания в области управления данными и системного управления, которые понимают, как моделировать данные и готовить их для анализа, и достаточно глубоко понимать проблему для выполнения аналитики. Поскольку данные массивны и / или быстро меняются, нам требуется сравнительно много ресурсов ЦП и памяти, которые предоставляются распределенными процессорами и хранилищем в облачных настройках. Хранилище данных с использованием облачных вычислений является жизнеспособным вариантом для предприятий малого и среднего бизнеса с учетом использования аналитических методов Big Data. Облачные вычисления — это доступ сети по требованию к вычислительным ресурсам, которые часто предоставляются внешним субъектом и требуют небольшого управленческого усилия со стороны бизнеса. Для облачных вычислений существует ряд архитектур и моделей развертывания, и эти архитектуры и модели могут использоваться с другими технологиями и подходами к разработке. Владельцы малого и среднего бизнеса, которые не могут позволить себе использовать кластерную технологию NAS, могут рассмотреть ряд моделей облачных вычислений для удовлетворения их больших потребностей в данных. Владельцам малого и среднего бизнеса необходимо учитывать правильные облачные вычисления, чтобы оставаться конкурентоспособными и прибыльными.

To full article:
10.3991/ijim.v11i2.6561