Высшая школа экономики, Москва, 2013 www.hse.ru Радченко Ирина Алексеевна кандидат технических наук, доцент http://about.me/Irina.Radchenko http://iRadche.ru http://DataDrivenJournalism.ru Школа открытых данных 30 ноября 2013 года Обработка данных для построения цифровой истории в журналистике данных
46
Embed
Обработка данных для построения цифровой истории в журналистике данных
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Высшая школа экономики, Москва, 2013
www.hse.ru
Радченко Ирина Алексеевнакандидат технических наук, доцентhttp://about.me/Irina.Radchenkohttp://iRadche.ruhttp://DataDrivenJournalism.ru
Школа открытых данных
30 ноября 2013 года
Обработка данных для построения цифровой истории в журналистике данных
Журналистика данных – это добыча, описание, курирование и публикация данных в общественных интересах.
(Джонатан Стрей – Jonathan Stray, профессиональный журналист и специалист в области информатики)
Журналистика данных – это зонтичный термин, который охватывает многое, включая в себя все новый и новый набор инструментов, техник и подходов к рассказыванию историй, описанию событий, созданию сюжетов. (Арон Пилхофер – Aron Pilhofer , New York Times)
The New York Times. Раздел со связанными открытыми данных
Вручную (или в «полуавтоматизированном виде») при помощи техник, описанных на информационных ресурсах, посвященных журналистике данных, и в книгах по журналистике данных*
Варианты работы с открытыми данными
При помощи методов и средств анализа данных (Data Analysis)
* cм. список полезных ссылок в конце презентации
Цель анализа данных
Предоставить данные в таком виде, чтобы на их основе можно было бы принимать решение.
Слишком много информации
Помехи и неприятности
Недостаточно информации
Слишком много переменных, измеренных различными способами
Неправильно измеренные переменные
Решение
Сконструировать цифровую историю
Выявить зависимости между переменными
Найти всю недостающую информацию
Привести данные к единому виду
Этапы анализа данных
Постановка задачи
Определение идеального набора данных
Определение данных, к которым есть доступ
Получение данных
Очистка данных
Исследовательский анализ данных
Моделирование
Интерпретация полученного результата
Проверка результата
Описание результата, построение цифровой истории
Создание воспроизводимого программного кода
На основе источника: https://class.coursera.org/dataanalysis-002/class/index
Сформулировать вопрос, на который можно дать ответ при помощи данных
Постановка задачи
ПримерФормулировка задачи (вопроса):Можно автоматически определять спам в емейлах?
На основе каких данных можно определять этот спам?- провайдер, адрес, откуда идет рассылка спама- имеется ли в письме вложение- в какое время пришло письмо
Состав идеального набора данных может зависеть от разных целей анализа данных
Определение идеального набора данных
1. Описательная характеристика.2. Исследовательская характеристика.3. Характеристика, полученная путем выведения
в зависимости от различных типов анализа.
ПримерМожно ли использовать количественные характеристики для определения спама?
Определение идеального набора данных
1. Характеристика, описывающая людей.2. Та или иная выборка.3. Тестовые данные.
Необходимо найти данные, к которым можно получить доступ
Определение данных, к которым есть доступ
1. Найти открытые данные в интернете.2. Купить данные.3. Удостовериться в возможности использования этих
данных.4. Сгенерировать данные самостоятельно.
Определение данных, к которым есть доступ
ПримерДанные Гугла закрыты. К ним нет доступа.Нужен альтернативный путь – поиск данных в интернете.
6. Simon Rogers. Facts are sacred. http://www.amazon.com/Facts-are-Sacred-Guardian-Shorts-ebook/dp/B006PI9PQG
7. The Data Journalism Handbook. http://www.amazon.com/Data-Journalism-Handbook-Jonathan-Gray-ebook/dp/B008KSAPG8/
Полезные ссылки
8. Nathan Yau. Visualize This: The FlowingData Guide to Design, Visualization, and Statistics. http://www.amazon.com/Visualize-This-FlowingData-Visualization-Statistics-ebook/dp/B005CCT19M/
9. Nate Silver. The Signal and the Noise: The Art and Science of Prediction. http://www.amazon.com/The-Signal-Noise-Science-Prediction-ebook/dp/B0097JYVAU/
11.David Folkenflik. Page One: Inside The New York Times and the Future of Journalism (Participant Media Guide). http://www.amazon.com/Page-One-Inside-Journalism-Participant-ebook/dp/B004Z2NQEQ/
Полезные ссылки
12.Mark S. Luckie. The Digital Journalist's Handbook. http://www.amazon.com/Digital-Journalists-Handbook-Mark-Luckie-ebook/dp/B005PZ6N2O/
13.Timothy C. Urdan. Statistics in Plain English. http://www.amazon.com/Statistics-Plain-English-Third-Timothy-ebook/dp/B004RM9VSY/
14.Charles Wheelan. Naked Statistics: Stripping the Dread from the Data. http://www.amazon.com/Naked-Statistics-Stripping-Dread-Data-ebook/dp/B007Q6XLF2/
15.Philipp K. Janert . Data Analysis with Open Source Tools. http://www.amazon.com/Data-Analysis-Open-Source-Tools-ebook/dp/B004FGMTYA/
16.Ruben Verborgh, Max De Wilde. Using OpenRefine. http://www.amazon.com/Using-OpenRefine-Ruben-Verborgh-ebook/dp/B00F3VNPN0/