Целью проекта GDELT, поддерживаемого подразделением Google Ideas, является создание открытого, обновляемого в режиме реального времени каталога мировых новостей и предоставление доступа к этому каталогу для всех желающих. Архив проекта GDELT находится в ряду крупнейших открытых баз данных, посвященных мировому сообществу. Сложность, высокие темпы роста объема данных и аналитическая нагрузка ставят уникальные задачи в плане представления и доступности данных. Разнообразие пользователей и областей применения GDELT приводит к большому разнообразию шаблонов доступа: запросы могут обрабатывать множество столбцов в одном анализе, в результате чего использование традиционной индексированной базы данных становится неэффективным.
В результате постоянного увеличения массива тем и эмоций, вносимых каждой статьей, фреймворк GDELT должен обладать возможностью эффективно хранить и обеспечивать доступ к миллионам измерений на строку. Кроме того, все большее количество запросов направлено на анализ структур на макроуровне, для чего требуется обработка всего архива в целом. Таким образом, учитывая, что для обслуживания даже обычных запросов может потребоваться обработка терабайтов данных с помощью сложных алгоритмов, становится очевидной необходимость применения внутренней обработки (in-database execution).
Являясь открытым проектом, GDELT стремится обеспечить постоянный свободный доступ к своим данным для всех желающих. Однако, принимая во внимание внушительный объем и специфику данных, реализовать это не так просто. К счастью, существует платформа Google BigQuery, которая существенно облегчает для пользователей доступ к данным GDELT. В этой статье мы рассмотрим совместное использование GDELT и BigQuery для анализа мировых новостей в режиме реального времени.
Что такое проект GDELT?
. ПРОДОЛЖЕНИЕ В результате постоянного увеличения массива тем и эмоций, вносимых каждой статьей, фреймворк GDELT должен обладать возможностью эффективно хранить и обеспечивать доступ к миллионам измерений на строку. Кроме того, все большее количество запросов направлено на анализ структур на макроуровне, для чего требуется обработка всего архива в целом. Таким образом, учитывая, что для обслуживания даже обычных запросов может потребоваться обработка терабайтов данных с помощью сложных алгоритмов, становится очевидной необходимость применения внутренней обработки (in-database execution).
Являясь открытым проектом, GDELT стремится обеспечить постоянный свободный доступ к своим данным для всех желающих. Однако, принимая во внимание внушительный объем и специфику данных, реализовать это не так просто. К счастью, существует платформа Google BigQuery, которая существенно облегчает для пользователей доступ к данным GDELT. В этой статье мы рассмотрим совместное использование GDELT и BigQuery для анализа мировых новостей в режиме реального времени.
Что такое проект GDELT?