Hace aproximadamente dos semanas identifiqué una importación masiva de Instituciones Educativas (amenity=school) que abarca 24.434 nodos distribuidos en 11 changesets:
Tras una revisión exhaustiva de varias horas, he detectado errores sistemáticos y de gran magnitud que comprometen seriamente la calidad y utilidad de estos datos para OpenStreetMap.
En mi opinión, la base de la confianza y el valor de OpenStreetMap reside en la responsabilidad individual de cada mapeador. Cada vez que añadimos un dato asumimos el compromiso de que sea verdadero, correcto y verificable. Esto implica un mínimo de calidad en la confirmación de la precisión geográfica (¿está en el lugar correcto?), la veracidad de la información (¿el nombre y los atributos son los reales?) y el uso adecuado de las etiquetas (¿estoy usando key=value correctos según las convenciones de la comunidad?). Un dato erróneo no es solo inútil, es un detrimento activo para la integridad de una base de datos y la experiencia de los demás usuarios.
Ante la envergadura y la baja calidad de los datos, surgen interrogantes fundamentales sobre el proceso que se llevó acabo en esta importación:
- Existe alguna documentación o discusión previa sobre esta importación en los canales de la comunidad de OSM Colombia?
- Fue notificada la comunidad colombiana de OSM sobre esta importación masiva antes de su ejecución, de acuerdo con las Directrices de Importación de OSM?
- Se discutió y aplicó una metodología que incluyera:
- La verificación y validación de los datos y sus fuentes?
- Una evaluación de las características de los datos iniciales y la selección apropiada de key=value para representarlos en OSM?
- Una verificación de los datos finales después de su transformación a elementos OSM y antes de su carga a la base de datos OSM?
Los errores identificados son consistentes en todos los changesets revisados y difieren drásticamente de las directrices de la Guía para mapear sitios educativos en Colombia. Resulta particularmente preocupante que la mapeadora involucrada es coautora de dicha guía, lo que sugiere un desconocimiento u omisión de las propias convenciones de la comunidad.
Los errores más comunes incluyen:
- Nombres y valores en mayúscula sostenida.
- Nombres con abreviaciones no estandarizadas.
- Selección erronea de la característica SEDE como nombre (name=SEDE…) de la institución educativa.
- Selección erronea de la característica OTRA-SIGLA como nombre (name=OTRA-SIGLA…) de la institución educativa.
- Errores de ubicación geográfica: instituciones educativas ubicadas en sitios donde no existe ninguna edificación cercana, en medio de la nada o aún más grave, sobre cuerpos de agua como el mar.
- Identificación y Etiquetado incorrecto: identificación errada para jardines infantiles mapeados como
amenity=school
, a pesar de que la guía de mapeo de sitios educativos para Colombia recomienda explícitamenteamenity=kindergarten
para estos establecimientos. A su vez el uso deamenity=college
para identificar instituciones educativas que dictan niveles de básica primaria. - Valores incorrectos para ciertas claves, como
operator:type=NO OFICIAL
que no se ajusta a los estándares OSM. - Uso incorrecto de addr:city=* en varias decenas de nodos, ejemplo:
addr:city=ZONA BANANERA
- Problemas de codificación UTF-8 o mojibake.
- Uso de key inusuales como
operator_t
que posteriormente fueron corregidas por otro mapeador a su forma correctaoperator:type
Mi principal preocupación radica en la nula utilidad de estos datos. Fueron agregados sin ningún control de calidad o verificación mínima, lo que resulta en información errónea, mal ubicada y mal etiquetada.
¿Qué valor tiene para OpenStreetMap un volumen tan grande de datos (24.434 nodos) con serias falencias de todo orden (key=value, nombres, ubicación real y características)?
¿Quién podría usar estos datos erróneos de manera productiva?
Mi opinión es que, dada la baja calidad, estos datos no tienen ningún valor para OpenStreetMap. No existe una regla que valide esta importación por un “porcentaje aceptable de calidad”, para que la importación sea útil, el 100% de los datos deben tener un mínimo de calidad aceptable (datos verdaderos, correctos y verificables), datos incorrectos son simplemente basura cartográfica que degrada el mapa.
También quiero añadir que esta situación se agrava al observar patrones similares en otros changesets de la misma mapeadora, donde se han añadido miles de elementos de diferentes tipos con errores de ubicación y/o etiquetado, y sin discusión o información previa.
Por último, quisiera saber:
- Que medidas deben tomarse con estos changesets?
Y considerando el patrón de contribuciones del autor de estos CS y el volumen de datos, como se debería proceder?
- Hacer los debidos comentarios en los CS señalando los errores encontrados?
- Es apropiado notificar al Data Working Group (DWG) para que evalúe la situación y tome las medidas correspondientes?
- O simplemente hacernos los de la vista gorda y permitir datos inutiles en OSM?
Debido a la naturaleza de mi trabajo, siempre he considerado a las instituciones educativas rurales referentes para la ubicación de determinadas poblaciones, las instituciones educativas son un elemento importante de nuestra geografía que deben ser abordadas y mapeadas según las directrices de la Guía para mapear sitios educativos, de lo contrario ¿que sentido tiene el tiempo y esfuerzo dedicado por numerosos colaboradores de OpenStreetMap a redactar y mantener estas guías?