日本の OpenStreetMap データからデータソースを抜き出してみた
みんなはどんなソースから OpenStreetMap のデータ投入を行っているのか気になったので試してみました。
もっといいやり方もあるかもしれませんが、とりあえず今回はこんなので。
使った OpenStreetMap のデータは7月1日あたりのもので、実行環境は debian 7.8 です。
データのダウンロード
OpenStreetMap Data Extracts からOSMファイルを取ってきます。
Asia → Japan → japan-latest.osm.bz2 をダウンロードして展開します。
$ wget http://download.geofabrik.de/asia/japan-latest.osm.bz2 $ bunzip2 japan-latest.osm.bz2
sourceタグの抜出し
grep と sed で source タグの値を取り出しました。
sed 一回でやろうと思えばできそうな…
$ grep "<tag k=\"source\" v=" ./japan-latest.osm |\ sed s/"\t\t.*v=\""/""/ |\ sed s/"\"\/>"/""/ > sources.txt
次に重複する値を排除します。
$ cat sources.txt | sort | uniq > source_uniq.txt
結果は Bitbucket にも置きました。
電話番号が入ってたり、メモ風のがあったり、バリエーションが多いですね。