imhotype (imhotype) wrote,
imhotype
imhotype

Category:

Калев Литару и Фелипе Хоффа "О новом проекте Google и анализе мировых новостей"



Целью проекта GDELT, поддерживаемого подразделением Google Ideas, является создание открытого, обновляемого в режиме реального времени каталога мировых новостей и предоставление доступа к этому каталогу для всех желающих. Архив проекта GDELT находится в ряду крупнейших открытых баз данных, посвященных мировому сообществу. Сложность, высокие темпы роста объема данных и аналитическая нагрузка ставят уникальные задачи в плане представления и доступности данных. Разнообразие пользователей и областей применения GDELT приводит к большому разнообразию шаблонов доступа: запросы могут обрабатывать множество столбцов в одном анализе, в результате чего использование традиционной индексированной базы данных становится неэффективным.
В результате постоянного увеличения массива тем и эмоций, вносимых каждой статьей, фреймворк GDELT должен обладать возможностью эффективно хранить и обеспечивать доступ к миллионам измерений на строку. Кроме того, все большее количество запросов направлено на анализ структур на макроуровне, для чего требуется обработка всего архива в целом. Таким образом, учитывая, что для обслуживания даже обычных запросов может потребоваться обработка терабайтов данных с помощью сложных алгоритмов, становится очевидной необходимость применения внутренней обработки (in-database execution).
Являясь открытым проектом, GDELT стремится обеспечить постоянный свободный доступ к своим данным для всех желающих. Однако, принимая во внимание внушительный объем и специфику данных, реализовать это не так просто. К счастью, существует платформа Google BigQuery, которая существенно облегчает для пользователей доступ к данным GDELT. В этой статье мы рассмотрим совместное использование GDELT и BigQuery для анализа мировых новостей в режиме реального времени.

Что такое проект GDELT?
. ПРОДОЛЖЕНИЕ
Tags: SociУМ, brainstorming, sein kampf-ii
Subscribe

  • Post a new comment

    Error

    Comments allowed for friends only

    Anonymous comments are disabled in this journal

    default userpic

    Your reply will be screened

  • 0 comments