Top Banner
Открытые и большие данные на практике Иван Бегтин Директор НП “Информационная культура”
27

Opendata practice for Global Editors Hackathon

Jun 20, 2015

Download

Technology

Ivan Begtin

Open Data practice in Russia
Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Page 1: Opendata practice for Global Editors Hackathon

Открытые  и  большие  данные  на  практике  

Иван  Бегтин  Директор  НП  “Информационная  культура”      

     

Page 2: Opendata practice for Global Editors Hackathon

Типовые  ситуации  в  data-­‐журналистике  

Page 3: Opendata practice for Global Editors Hackathon

Есть  данные  -­‐  нет  идеи  

Page 4: Opendata practice for Global Editors Hackathon

Есть  идея  –  нет  данных  

Page 5: Opendata practice for Global Editors Hackathon

Нет  ни  данных,  ни  идеи,  но  сделать  надо  завтра!  

Page 6: Opendata practice for Global Editors Hackathon

Идеальная  ситуация  

Это  когда  есть:  ü  Идея  ü  Данные  ü  Время  ü  +  Технологии    

Page 7: Opendata practice for Global Editors Hackathon

Что  делать?  

Page 8: Opendata practice for Global Editors Hackathon

Готовимся  заранее:  Данные  

•  Большие  данные:  знаем  где  искать,  знаем  что  делать  

•  Ключевые  онлайн  API  и  наборы  данных  •  Screen  Scraping  •  Основные  инструменты  очистки  данных    

Page 9: Opendata practice for Global Editors Hackathon

Как  быстро  найти  данные?  

•  Спросить:  •  Quora.com  •  StackOverclow  -­‐  http://opendata.stackexchange.com/  •  Рассылки  OKF,  группы  в  Facebook  и  тд.  

•  Каталоги  •  The  Data  hub  –  http://thedatahub.org    •  Хаб  открытых  данных  –  http://hubofdata.ru    •  Data  Catalogs  –  http://datacatalogs.org/    

Page 10: Opendata practice for Global Editors Hackathon

Wikipedia  

Page 11: Opendata practice for Global Editors Hackathon

Wikipedia  

•  Wikipedia:  •  API  -­‐  http://en.wikipedia.org/w/api.php    •  Дампы  –  http://download.wikimedia.org  •  DBPedia  –  http://dbpedia.org  •  Wikidata  –  http://wikidata.org    •  FreeBase  -­‐  http://www.freebase.com/  

 

Page 12: Opendata practice for Global Editors Hackathon

Основные  базы  данных  онлайн  

•  Международные:  •  The  Data  Hub  –  http://thedatahub.org  •  Всемирный  банк  –  http://data.worldbank.org  •  ООН  –  http://data.un.org  

•  Национальные  •  Хаб  открытых  данных  –  http://hubofdata.ru    •  США  –  http://data.gov  •  UK  –  http://data.gov.uk      

Page 13: Opendata practice for Global Editors Hackathon

Основные  способы  работы  с  большими  данными  •  Выкачивать  целиком  под  задачу  •  Найти  и  использовать  чужое  API  •  Сделать  своё  API    

Page 14: Opendata practice for Global Editors Hackathon

Web  /  Screen  scraping  

Page 15: Opendata practice for Global Editors Hackathon

Что  такое  Web/Screen/Data  Scraping?  

•  не  ждем  данных  –  собираем  их  сами  •  извлекаем  их  из  веб-­‐страниц,  файлов  и  печатных  документов  •  переводим  неструктуриованное  в  базы  данных  

 

Page 16: Opendata practice for Global Editors Hackathon

Инструменты  

•  Программирование  •  Python  +  lxml  or  BeautifulSoup  +  база  данных  •  Или  …любой  другой  язык  программирования  

•  Платформы:  •  ScraperWiki.com  –  тоже  Python,  но  проще  

•  Abbyy  PDFTransformer  +  Finereader  

 

Page 17: Opendata practice for Global Editors Hackathon

Технологии  

Page 18: Opendata practice for Global Editors Hackathon

Технологии  

•  Открытый  код  •  Инструменты  визуализации  •  Обработка  данных  

 

Page 19: Opendata practice for Global Editors Hackathon

Government.github.com  

Page 20: Opendata practice for Global Editors Hackathon

Selection.datavizualisation.ch  

Page 21: Opendata practice for Global Editors Hackathon

Developers.google.com  

Page 22: Opendata practice for Global Editors Hackathon

Tech.yandex.ru  

Page 23: Opendata practice for Global Editors Hackathon

Пример:  Российская  общественная  

инициатива  

Page 24: Opendata practice for Global Editors Hackathon

Сайт  РОИ  

Page 25: Opendata practice for Global Editors Hackathon

Как  действовать  

•  Собрать  идеи  •  Написать  scraper  и  посмотреть  данные  •  Посмотреть  что  сделали  другие:  •  WeThePeople  –  http://petitions.whitehouse.gov  •  E-­‐Petitions  http://petitions.direct.gov.uk    

 

Page 26: Opendata practice for Global Editors Hackathon

Что  есть?  

•  Анализ  данных  РОИ  и  аналогичных  проектов  –  http://habrahabr.ru/company/infoculture/  

•  Код  на  Python  -­‐  https://github.com/ivbeg/apiroi  •  Дамп  базы  -­‐  http://hubofdata.ru/dataset/roi-­‐dump    

 

Page 27: Opendata practice for Global Editors Hackathon

Вопросы?  

Иван  Бегтин  Email:  [email protected]  Сайт:  http://ivan.begtin.name    Facebook:  facebook.com/ibegtin  twitter.:  ibegtin