2 Geschäfte in einem Haus: Da kann eigentlich nur ein Duplikat entstehen, wenn zufällig beide gleiche Objekttypen sind.
Ich erstelle beim Import eine Spalte, welche mit “key:value” gefüllt wird, z.B. “shop:greengrocer”. Diese Spalte wird in die Doublettenerkennung mit reingenommen. Das ist sicherlich noch verbesserungswürdig bzw. fehlen da noch ein paar keys. Im Moment benutze ich folgende keys:
amenity, leisure, shop, office, tourism, craft, power, man_made, sport, emergency, healthcare, building
Alle anderen Objekte mit addr-Tags werden als reine Adressen behandelt, sprich in der Objekttyp-Spalte steht “address-node”.
Alles, was gleiche Hausnummer, Straße, (wenn vorhanden City) und Objekttyp aufweist und innerhalb 1000 Meter ist, ist Duplikat. Das funktioniert recht gut, denke ich. Wo es offensichtlich nicht stimmt, bitte die 2 Adressen mitteilen, mit Link auf OSM.
Bei zu vielen false-positive-Doubletten muß ich testen, ob ich eventuell vorhandene Namen in den Objekttyp-Vergleich mit reinnehme. Das kosten halt Laufzeit, heute wurde die Auswertung erst um ~ 07:38 fertig. Ganz am Anfang um 04:00 
@Lübeck: Die Daten werden täglich neu ausgewertet. Basis sind die Extrakte der Geofabrik, welche OSM-Daten bis ca. 21:00:22:00 beinhalten. Die Verteilung der Extrakte auf die Download-Server ist zwischen 00:00 - 02:00 beendet und stehen dann dort zur Verfügung. Ich hole die um 02:00 ab, die Verarbeitung ist dann bis 06:00 - 07:30 fertig.
@all: Sorry, ich mußte heute morgen feststellen, dass ich gestern nicht alle Sourcen in mein git committet hatte, daher war das GUI bis eben auf dem Stand von gestern. Duplikate-Popup und Statistik sind jetzt ok.