Журналистика данных для начинающих: где искать и как извлекать данные

Журналистикой данных заниматься непросто, если данных у вас нет. Нет данных – нет и истории. О том, как и где искать данные и как их извлекать, рассказал на хакатоне в РИА Новости Иван Бегтин, директор некоммерческого партнерства «Информационная культура». Вот короткий обзор.

Когда журналисты начинают работать с открытыми данными, у них есть три варианта:

  1. Есть данные, но нет понимания, что с ними делать;
  2. Есть идея для истории, но нет данных, чтобы ее доказать;
  3. Нет ни данных, ни идеи, но сдавать все надо завтра.

В идеальном случае у вас есть четкое понимание того, о чем вы хотите рассказать, и все необходимые данные, а также время для работы с ними и технологии. Это означает, что вы умеете программировать или общаться с программистами на их языке.

Полную запись выступления Ивана Бегтина можно посмотреть здесь:

Как запустить проект с большими данными

При работе с большими массивами данных готовиться нужно заранее. Важны следующие моменты:

  1. Данные: нужно знать, где из искать и что с ними делать.
  2. Понимание основных API (application programming interfaces) и доступ к различным наборам данных, которые смогут увидеть важные взаимосвязи,
  3. Скрейпинг: извлечение данных с сайтов при отсутствии доступа к структурированным данным.
  4. Основные инструменты для обработки данных.

Excel, кстати, вам очень пригодится. Это базовый инструмент любого аналитика, работающего с данными.

Как можно работать с данными:

  1. Берете существующую базу данных.
  2. Используете API, которые другие создали до вас.
  3. Создаете собственные API под конкретные задачи. Так работают известные издания, такие как The Guardian и New York Times. Это важный шаг при освоении журналистики данных, но надо понимать, что на него могут уйти недели и месяцы работы.

Ищем наборы данных

Поиск подходящего набора данных, содержащего достоверные и удобные для обработки цифры, может быть гораздо сложнее, чем кажется.

Где можно искать наборы данных:

  1. Спросите других:
    • Quora.com
    • Stack Overflow
    • Рассылка Open Knowledge Foundation и группы в Facebook
  2. Каталоги:
    • Thedatahub.org
    • Hubofdata.ru
    • Datacatalogs.org

Базы данных в интернете:

  1. Международные базы данных:
    • The Data Hub
    • Data.worldbank.org позволяет сравнивать параметры развития нескольких стран.
    • Data.un.org
  2. Национальные базы данных:
    • Hubofdata.ru
    • Data.gov (США)
    • Data.gov.uk (Великобритания)

Скрейпинг (Web/ screen scraping) позволяет извлекать неструктурированные данные со страниц, из документов и файлов и переводить и в базы данных. Вот в этой книге подробно изложены различные варианты извлечения данных при помощи скрейпинга, начиная от простых плагинов для браузера и заканчивая написанием собственного кода (книга на английском).

Wikipedia как полезный источник данных

Невероятно, но факт: Википедия позволяет экспортировать данные в машиночитаемом формате. Можно использовать следующие ресурсы:

  1. http://ru.wikipedia.org/w/api.php
  2. Wikidata.orgFreebase.com, этот сервис принадлежит компании Google
  3. Dbpedia.org – один из наиболее гибких сервисов, но непрост в использовании для новичков.

Инструменты для извлечения данных:

  1. Программирование: Python, lxml, Beautiful Soup или любой другой язык программирования.
  2. Scraperwiki, Abbyy PDFTransformer и Abbyy Finereader.

 

Источник: onmedia.dw