Журналистикой данных заниматься непросто, если данных у вас нет. Нет данных – нет и истории. О том, как и где искать данные и как их извлекать, рассказал на хакатоне в РИА Новости Иван Бегтин, директор некоммерческого партнерства «Информационная культура». Вот короткий обзор.
Когда журналисты начинают работать с открытыми данными, у них есть три варианта:
В идеальном случае у вас есть четкое понимание того, о чем вы хотите рассказать, и все необходимые данные, а также время для работы с ними и технологии. Это означает, что вы умеете программировать или общаться с программистами на их языке.
Полную запись выступления Ивана Бегтина можно посмотреть здесь:
Как запустить проект с большими данными
При работе с большими массивами данных готовиться нужно заранее. Важны следующие моменты:
Excel, кстати, вам очень пригодится. Это базовый инструмент любого аналитика, работающего с данными.
Как можно работать с данными:
Ищем наборы данных
Поиск подходящего набора данных, содержащего достоверные и удобные для обработки цифры, может быть гораздо сложнее, чем кажется.
Где можно искать наборы данных:
Базы данных в интернете:
Скрейпинг (Web/ screen scraping) позволяет извлекать неструктурированные данные со страниц, из документов и файлов и переводить и в базы данных. Вот в этой книге подробно изложены различные варианты извлечения данных при помощи скрейпинга, начиная от простых плагинов для браузера и заканчивая написанием собственного кода (книга на английском).
Wikipedia как полезный источник данных
Невероятно, но факт: Википедия позволяет экспортировать данные в машиночитаемом формате. Можно использовать следующие ресурсы:
Инструменты для извлечения данных:
Источник: onmedia.dw