大まかな判定をする為の、47都道府県と地方名などの正規表現です。
# 47都道府県
'(北海道|青森|岩手|宮城|秋田|山形|福島|茨城|栃木|群馬|埼玉|千葉|東京|神奈川|新潟|富山|石川|福井|山梨|長野|岐阜|静岡|愛知|三重|滋賀|[^東]京都|大阪|兵庫|奈良|和歌山|鳥取|島根|岡山|広島|山口|徳島|香川|愛媛|高知|福岡|佐賀|長崎|熊本|大分|宮崎|鹿児島|沖縄)'
# 地方名 (八地方区分+その他)
'(北海道|東北|[北南]?関東|中部|近畿|中国|四国|九州|本州|[北甲]?信越|北陸|東海|関西|琉球|[北東西]日本|北国|日本海側|太平洋側)'
# ※離島の名称は含んでいません。
Python 3 での利用を想定していますが、その他の言語などでも、マルチバイト文字に対応している正規表現ライブラリであれば利用可能です (たぶん)。
長所
- 「県」や「地方」が付かなくても判定可能。
短所
- 「中国」や「大分」など、他と判別不能な表現がいくつか有る。
- 「県」や「地方」を付ける場合と比べて、誤検出が増える。
用途
多数の文字列から、都道府県名や地方名が含まれている可能性がある部分を大まかに抽出するときなど。
まあまあ使えますが、短所で挙げたような語句を多く含む文字列の場合は、ほとんど役に立たないかも。😅
コメントを投稿