Ich habe oft versucht ChatGPT für Urlaubs- und Freizeitplanung genutzt, weil dies der nächste logische Schritt nach diversen Suchanfragen zu sein schien. ChatGPT schlägt dabei sogar oft vor, ein Tagesprogramm oder eine Tour oder eine entsprechende Karte zu erstellen. Dabei fällt leider meist auf, dass ChatGPT keine wirklich räumliche Orientierung hat, und meist Touren halluziniert, die so gar nicht machbar sind oder nicht der Beschreibung entsprechen. ChatGPT sagt selber, er hat keine Routing-Engine und kann daher Lage und Wegezeiten nur sehr grob abschätzen. Oft schlägt ChatGPT vor, Karten zu erstellen, wobei das Ergebnis dann auch in der Regel schlecht ist. Das beste, was man erwarten kann ist, dass ChatGPT ein paar Marker auf die Karte setzt, die aber meist nicht an der richtigen Stelle sind. Will man eine brauchbare Karte haben, kann einem ChatGPT sinnvollerweise nur dabei helfen, Overpass Abfragen zu generieren, sowie python-Skripte die Geodaten manipulieren zu erstellen. Ohne tiefe kentnisse kommt man da meist nicht weit. Was ich gerne hätte, wäre eine Ki der man z.B. sagen kann: Ich hätte gerne eine Karte von Nationalpark Eifel mit den Wildnisstrail und der Grenze zwischen AVV und VRS oder so. Können das vielleicht andere Kis?
Der Artikel ist leider so wenig ergiebig wie die Boulevardartikel, die darüber berichteten, dass Menschen im Vertrauen auf ihr Navi in einen Fluss gefahren sind, oder zu einer Stadt am anderen Ende von Europa die genau so heißt wie die, wo sie hin wollten. Es steht ja außer Frage, dass man Ki nicht unhinterfragt trauen sollte, was aber auch für klassische Suchergebnisse oder Ratschläge von natürlichen Personen gilt. Für mich ist die spannende Frage, warum Ki hier so viel schlechter wird, sobald räumliche Dimensionen ins Spiel kommen. Auf Fragen wie ”Welche Stände kann ich von Köln gut mit dem Zug erreichen” oder “Was kann ich mit meinem 8-Jährigen Sohn an einem verregneten Nachmittag in Saarbrücken machen“, liefert Ki schon erstaunlich gute Ergebnisse, die ansonsten nur mit sehr vielen Suchanfragen oder Insiderwissen zu beantworten wäre. Da relativiert sich auch schnell der Energieverbrauch. Ich finde das auch etwas heuchlerisch mit dem Energieverbrauch. Ich mache seit Jahren z.B. nur noch Urlaub in der Region und meist mit der Bahn und könnte da sicherlich viele hunderttausend, wenn nicht Millionen Ki Anfragen stellen für die Energie, die andere im Jahr für Flugreisen benötigen, aber sich dann über den Energieverbrauch von Ki aufregen.
Aber um zurück zum Thema zu kommen: Ich denke, ein Problem ist, das Ki versucht, solche Informationen nur aus Textren zu extrahieren und keine Routinganfragen stellen, oder direkt auf Karteninhalte zugreifen kann. Aber das ist nur eine Vermutung, da hätte ich mir mehr Erkenntnisse erhofft.
Google hat seine Gemini-Modelle vor Kurzem um ein “geospatiales Grounding” erweitert. Intern nutzt Google dafür “Google Maps”. Damit werden räumlich bezogene Abfragen recht gut beantwortet. Am besten wir probieren das mal aus.
PS: Deine primäre Anforderung “erzeuge mir eine Karte von” überfordert aktuell jedes KI-(Sprach-)Modell.
Wobei Gemini immerhin sagt, dass es das generell nicht kann, das finde ich schon mal sehr gut. ChatGPT schlägt das sogar vor, scheitert dann aber daran.
Erster Versuch war recht ernüchternd. Ich wollte Ausflugsziele, die mit dem ÖPNV erreichbar sind. Antwort war dann eine unsinnige Bushaltestellen als Zielempfehlung. Die lag zwar grob im selben Stadtteil, aber es hätte sehr viel nähere gegeben.
Bezüglich des “Groundings mit geospatialen Daten” gibt es natürlich auch Alternativen zu Gemini und Google Maps. Zum Beispiel indem wir unsere eigenen OSM-Daten für das Grounding nehmen. Die großen KI-Modelle erlauben ein sogenanntes Function-Calling.
Das funktioniert (im Prinzip) so:
Bekanntmachung eines Funktionssets gegenüber dem KI-Modell.
Anfrage an das KI-Modell.
Das KI-Modell erkennt, dass ein Function-Call sinnvoll ist und teilt dies dem Client mit.
Der Client führt den Function-Call aus und liefert das Ergebnis an das KI-Modell.
Das KI-Modell berücksichtigt das Ergebnis in seiner Antwort.
Praktisch könnte das zum Beispiel so aussehen:
Das KI-Modell generiert aufgrund unserer Anfrage eine Overpass-Abfrage.
Der Client des Benutzer führt auf seinem Rechner die Overpass-Abfrage aus.
Das KI-Modell integriert das Overpass-Ergebnis in seine Antwort.
PS: Overpass steht hier nur beispielhaft. Das könnte natürlich auch eine öffentliche OSM-PostgreSQL-Datenbank sein.