Итак.
Если тебе что-нибудь надо, сделай это сам (ц)
И я продолжаю изобретать свой ТагИнфо
Отличная мысль, но как говорилось выше, я пошел дальше - начал искать объекты, на которых много названий на разных языках. Предположительно, это важные объекты и в них не должно быть ошибок.
Из выборки были затем удалены сами имена и википедия: ^name|alt_name|int_name|old_name|wikipedia
Затем из выборки были удалены теги, значения которых являются числовыми, они мне неинтересны
Удалены теги с менее чем 3 вхождениями, равно как и ключи, уж очень много мусорных или ошибочных (с моей точки зрения)
Вот выборка с 3+ языками на метке:
place (284617)
= village (142810)
= locality (59632)
= hamlet (47668)
= town (17516)
= city (4175)
= suburb (3796)
= region (2138)
= county (1911)
= island (1214)
= state (1060)
= isolated_dwelling (1014)
= neighbourhood (876)
= country (224)
= farm (172)
= islet (114)
= quarter (93)
= sea (77)
= yes (23)
= province (14)
= allotments (12)
= municipality (9)
= subdistrict (9)
= peninsula (8)
= continent (7)
= archipelago (7)
= district (6)
= ocean (5)
= islands (4)
= bay (3)
На удивление, очень даже нормальная статистика, которой я верю. И это именно те теги, которые я искал и то, что я ожидал увидеть. Семпл: https://a.safe.moe/VJzmf.txt
Если увеличивать количество языков, то выборка меняется, космодромы и вулканы исчезают уже на 10 (космодром вообще один - Байконыр, так что из выборки удален), но с другой стороны, такая “топовая выборка” тоже интересна
place (1880)
= city (812)
= town (335)
= state (302)
= country (223)
= sea (59)
= village (58)
= locality (26)
= suburb (19)
= island (11)
= region (10)
= county (8)
= continent (7)
= ocean (5)
= hamlet (3)
is_in:continent (911)
= Europe (329)
= Asia (269)
= Africa (128)
= South America (71)
= North America (68)
= Oceania (22)
= Central America (14)
= Australia (9)
is_in:country (829)
= Japan (62)
= China (50)
= Germany (44)
= Italy (37)
= Spain (34)
= France (28)
= Russian Federation (26)
= България (25)
= USA (24)
= Brazil (23)
= Україна (22)
= Republic of Korea (17)
= Brasil (16)
= Belgium (15)
= Poland (11)
= United Kingdom (11)
= Lithuania (11)
= Canada (11)
= România (10)
= Danmark (10)
= Chile (9)
= Czech Republic (9)
= Россия (9)
= Austria (9)
= Switzerland (8)
= Iran (8)
= The Netherlands (8)
= South Africa (7)
= India (7)
= Greece (7)
= Australia (7)
= Algeria (6)
= United States (6)
= Georgia (6)
= Ukraine (5)
= Egypt (5)
= Bolivia (5)
= Slovenia (4)
= LV (4)
= Saudi Arabia (4)
= Cyprus (4)
= Russia (4)
= Colombia (4)
= Argentina (3)
= Mauritius (3)
= Croatia (3)
= Abkhazia (3)
= Vietnam (3)
= Uzbekistan (3)
= North Korea (3)
= Syria (3)
= Hungary (3)
= Pakistan (3)
= Syria سوريا (3)
= Norway (3)
= Afghanistan (3)
= Denmark (3)
Если кому-то интересно, то можно посмотреть семпл https://a.safe.moe/nfC1s.txt - отлично видны особенности маппинга в разных странах
Если кому интересны выборки по разному количеству языков, то сделал до 30: https://a.safe.moe/YItYl.zip
Сразу говорю, что датасет у меня старый, на новую версию планеты у меня нет места. Впрочем, похоже это никому и не нужно. Как пользоваться ТегИнфо, я так и не понял, равно как и его выборками.