Признаком значимости тега является конечно не вхождение в топ-N, наличие определенной семантики (описания на вики) и его частотность относительно опечаток.
Вот давайте посмотрим как устроен тег building=*
Всего в базе есть 400 миллионов вхождений ключа building, и принимает он 12,643 различных значений. 12 тысяч тегов – это сопоставимо с числом слов в языке.
В первом, самом грубом приближении можно обрабатывать все значения building=* единообразно, например для того чтобы отрисовывать дома полигонами на карте.
Дальше пользователи начнут жаловаться, что повылезали не-здания, building=no и building=entrance. Их придется исключить.
Если вы захотите сделать какую-то классификацию зданий, например чтобы их отрисовывать разным цветом, или втыкать разные 3D-модели для разных тегов, как это делают некоторые 3D-рендеры (X-Europe так делает), то придется посмотреть какие теги популярные, и где заканчиваются кодифицированные теги и начинаются опечатки.
Львиную долю занимает building=yes – 81%
Уже четвертый тег building= garage – меньше процента.
39-й тег building=semi пробивает психологическую границу 0.01%. Можно ли отбросить хвост тут? нет, это только начало кодифицированных и используемых тегов.
building=cathedral, две с половиной тысячи вхождений, это уже 0.001% одна тысяча вхождений. это как не странно, тоже популярный тег.
Полезные теги, которые могут быть использованы, продолжаются и дальше, где-то до топ-250.
Дальше начинают доминировать опечатки и издержки гуманитарного мапинга, типа такого. По хорошему этот хвост надо чистить, но это почему-то вообще никого не беспокоит.
Вывод из всего этого: частотность тегов сама по себе не очень важна. Если что-то встречается в 10 случаях из миллиона, его стоит поддержать. Может это что-то такое, что придает этому месту уникальность. Это как словами в языке. Сколько слов нужно выучить, чтобы понимать иностранный язык. тысячу, десять тысяч, сто-тысяч, миллион? при этом чем слов больше, тем их относительная частота меньше. Если понятие, стоящее за словом, входит в круг твоих интересов, то хорошо бы его знать.
P.S.
С highway=* ситуация получше, всего 954 разных значения.