http://codefor.tokyo/
e-Stat政府統計の総合窓口
http://www.e-stat.go.jp/SG1/estat/eStatTopPortal.do
data.go.jpデータカタログサイト
http://www.data.go.jp/
e-Gove-Gov | 白書、年次報告書等
http://www.e-gov.go.jp/link/white_papers.html
e-Gove-Gov | 統計調査結果
http://www.e-gov.go.jp/link/statistics.html
統計関係リンク集都道府県のページ
http://www.e-stat.go.jp/SG1/estat/statisticsLinkView.do?method=%E9%83%BD%E9%81%93%E5%BA%9C%E7%9C%8C%E3%81%AE%E3%83%9A%E3%83%BC%E3%82%B8
東京都の統計
http://www.toukei.metro.tokyo.jp/
扱い方のポイント
ExcelやPDFで公開されているファイルの作り方は、印刷やディスプレイ表示をした際に人が認識しやすい書式で作られている。 !一方データとして扱う場合には不要な書式、不要な情報が多く含まれている。これを取り除く必要がある。
行政の提供する統計データファイルはShift JISであることが多い。
1.文字コード
ExcelやAdobe Illustrator日本語版ではShift JISという文字コードを採用している。
Shift JISは日本語のみの文字コードで、現在はUTF-8という多様な言語体系を含んだ文字コードが標準的に使用されている。
扱い方のポイント
ウェブで使用するファイル、様々なアプリで使用するファイルはUTF-8へ変換する必要がある。
MultiTextConverter
1.文字コード扱い方のポイント
http://www.rk-k.com/software/mtc
nkfhttp://dev.classmethod.jp/tool/exchange-file-encode-by-nkf/
mihttp://www.mimikaki.net/
※Excelで作業する前提です。
2.不揃いな書式を揃える
実データの表記とExcelが適用する表記法を切り分ける。 →Excelが適用する表記法をリセットし、実データの表記のみが表示されるようにする。
扱い方のポイント
Mac: 「書式」→「セル」 Windows: リボンメニュー「ホーム」「表示形式」タブで標準(特定の形式を指定しない)を選ぶ。
テキストエディタ → Excel という移動
4.アプリ間のデータ移動扱い方のポイント
CSV/TSVファイル「ファイルを開く」
機能で開く
エディタからExcelへ コピー&ペースト
1 2a
2b
csv, tsv…OK
csv…NG, tsv…OK
UTF-8…文字化けする
UTF-8…文字化けしない
Excel → テキストエディタ という移動
4.アプリ間のデータ移動扱い方のポイント
ExcelファイルCSV/TSVで保存したものを「ファイルを開く」機能で開く
Excelからエディタへ コピー&ペースト
1 2a
2b
•コラムごとのデータ形式の変換
•データ形式が間違っているものを検出(数値のコラムに文字列がある、など)
•データの重複を探し出す
•表記揺れの解消
•エラー値の検出と処理
•空白の検出と処理 •使うアプリやプログラム言語に合わせた書式への変更
5.データのクレンジング扱い方のポイント
http://openrefine.org/
5.データのクレンジング扱い方のポイント
https://github.com/DataVisualizationJapan/OpenRefine/tree/localization-to-ja
日本語版を 配布しています
※Javaのインストールが必要です
地図で何を表現するか?
http://www.slideshare.net/yuichy/csis-map-140514