14.12.2020
111

Что такое Google BigQuery и почему им стоит пользоваться

Большой объем данных требует широких возможностей для их хранения и обработки. Одним из наиболее полезных и востребованных сервисов в данной сфере является Google BigQuery. Что это за инструмент, какие его возможности и преимущества, с какими платформами его можно интегрировать?

Google BigQuery – что это?

BigQuery – это облачный сервис Google, предназначенный для работы с Big Data, запущен в 2011 году. Он предлагает онлайн-хранилище данных, позволяя надежно хранить и быстро обрабатывать большие массивы информации без необходимости задействовать для этих целей отдельный сервер.

Google BigQuery представляет собой PaaS-сервис («платформа как услуга»), который поддерживает большинство функций СУБД. Он входит в состав Google Cloud Platform, где есть еще несколько десятков приложений для анализа, хранения и вычисления данных.  

По сути, BigQuery является облачной БД с неограниченным хранилищем и высокой скоростью обработки больших массивов данных. Он имеет обширный функционал, его пользователи могут оперативно загружать масштабный объем данных, хранить их в виде двумерных таблиц, обращаться к ним используя SQL-запросы, а также сохранять и выгружать их результаты.

Кроме того, возможности Google BigQuery можно расширить при помощи ряда сторонних инструментов. Например, интегрировав его с Google Таблицы, Microsoft Excel, QlikView, BIME Analytics, а также Microsoft Power BI.

Основные функции и возможности Google Big Query

  • Управление данными – сервис позволяет создавать и удалять таблицы и пользовательские функции, а также импортировать данные в форматах JSON, Avro, Parquet или CSV. Чтобы использовать данные в Big Query, их нужно загрузить в сервис Google Storage, а уже оттуда провести импорт данных через API. Также поддерживается прямой импорт и стриминг данных из Google Analytics.
  • Запросы – запросы в Google BigQuery создаются через стандартный диалект SQL, а результат возвращается в JSON-формате. Стандартный размер ответа составляет 128 Мб, но также он может быть и больше (предел неограничен) при выставлении соответствующих настроек. 
  • Контроль доступа – пользователи сервиса могут предоставлять сторонним лицам публичный или ограниченный доступ к своим данным.
  • Машинное обучение – сервис дает возможность создавать и запускать ML-модели при помощи SQL-запросов.
  • Интеграции – сервис можно использовать в качестве скрипта Google Apps Scripts или же созданного на любом другом языке, совместимом с REST API.

Онлайн-сервис Google BigQuery поддерживает практически все основные функции СУБД, включая структурированное хранение данных, представления и табличные выражения, а также оконные функции. Среди инструментов сервиса имеются функции для работы с датами и строками, а еще для агрегирования данных.

Преимущества Google BigQuery

Облачная база данных Google BigQuery является более удобным и перспективным решением, по сравнению с традиционными СУБД. К числу ее основных преимуществ относятся:

  • Скорость. Сервис использует диалект Standart SQL, обеспечивающий высокую скорость загрузки и обработки Big Data. При желании пользователь может переключиться на диалект Legacy SQL.
  • Функциональность. Диалект Standart SQL, используемый в BigQuery, позволяет удобно работать с повторяющимися/вложенными полями, поддерживает языки DML и DDL, при помощи которых можно изменять табличные данные. 
  • Доступность. Стоимость использования Google BigQuery зависит от объема загруженных в него данных и составляет 5$ за 1 Тб, что гораздо дешевле аренды сервера. После регистрации пользователь получает $300 кредитных средств, действующих в течение 1 года. Таким образом, в течение первого года можно пользоваться сервисом абсолютно бесплатно.
  • Простота и удобство. Чтобы полноценно пользоваться BigQuery, нужно знать основы SQL и уметь загружать данные в этот сервис. В остальном пользователю не требуется самостоятельно настраивать и администрировать базу данных, что является очень важным отличием этого онлайн-сервиса от классических СУБД.

Интеграции Google BigQuery

Онлайн-БД Google BigQuery можно интегрировать с рядом сторонних сервисов для расширения ее функционала. Например, довольно востребованными являются связки BigQuery с различными электронными таблицами, а также платформой Microsoft Power BI. В этом разделе статьи мы кратко расскажем о наиболее популярных из них.

Электронные таблицы

Проще всего интегрировать с BigQuery сервис Google Таблицы – при помощи удобного коннектора от OWOX. Однако в Google Таблицы можно загружать данные только на рабочий лист, а объем одного документа ограничен 2 млн ячеек. Чуть сложнее проходит интеграция BigQuery и Excel, так как их коннектор требует ежемесячно обновлять ключ доступа. Также он позволяет загружать данные только в рабочий лист, а не в модель данных, из-за чего и здесь есть ограничения по объему информации.

Что касается интеграции облачной БД с сервисом QlikView, то для нее нужно создать аккаунт Google Client ID. При этом пользователи получат здесь обширный набор инструментов для визуализации данных. Кроме того, есть возможность для интеграции с Google BigQuery с сервисами BIME и Tableau: каждый из них обеспечивает достойную функциональность и имеет удобный коннектор.

Microsoft Power BI

Microsoft Power BI – это мощный профессиональный сервис для визуализации данных, интеграция с которым значительно увеличивает возможности Google BigQuery. Интегрировать их можно при помощи стандартного коннектора «из коробки», однако его возможности весьма ограничены. Лучше использовать для этих целей бесплатный драйвер Simba Drivers, который также подходит для связки BigQuery с электронными таблицами. Кроме того, подключить Microsoft Power BI можно при помощи R-коннектора, предварительно установив среду разработки RStudio.

Выводы

Итак, Google BigQuery – это мощная, удобная, функциональная и доступная по цене облачная база данных. С ее помощью можно загружать и всячески обрабатывать объемные массивы информации без необходимости аренды и администрирования сервера. Она поддерживает большинство ключевых опций современных СУБД, а также легко интегрируется со сторонними платформами для расширения ее функционала.

***

Хотите достигать целей в бизнесе, карьере и жизни быстрее и качественнее? Делайте это с Apix-Drive — инструментом, который удалит из вашей жизни 95% рутины в рабочих процессах, и освободит дополнительное время для реализации ваших целей. Без лишних слов - зарегистрируйтесь и  проверить эффективность Apix-Drive прямо сейчас!