日本の OpenStreetMap データからデータソースを抜き出してみた

みんなはどんなソースから OpenStreetMap のデータ投入を行っているのか気になったので試してみました。

もっといいやり方もあるかもしれませんが、とりあえず今回はこんなので。
使った OpenStreetMap のデータは7月1日あたりのもので、実行環境は debian 7.8 です。

データのダウンロード

OpenStreetMap Data Extracts からOSMファイルを取ってきます。
Asia → Japan → japan-latest.osm.bz2 をダウンロードして展開します。

$ wget http://download.geofabrik.de/asia/japan-latest.osm.bz2
$ bunzip2 japan-latest.osm.bz2

grep と sed で source タグの値を取り出しました。
sed 一回でやろうと思えばできそうな…

$ grep "<tag k=\"source\" v=" ./japan-latest.osm |\
 sed s/"\t\t.*v=\""/""/ |\
 sed s/"\"\/>"/""/ > sources.txt

次に重複する値を排除します。

$ cat sources.txt | sort | uniq > source_uniq.txt

結果は Bitbucket にも置きました。
電話番号が入ってたり、メモ風のがあったり、バリエーションが多いですね。