Ich habe eine DB mit etwa 400T Personen je Zeitraum, welche immer eine Zuordnung zu einem oder mehreren Zeiträumen haben. Normalerweise ist es gar nicht so einfach Personen anzulegen oder gar doppelt anzulegen, da die Personen aus anderen Systemen übermittelt werden. Ausnahmen sind z.B.: Migranten oder Einwanderer. Da Sachbearbeiter nicht immer ganz so korrekt oder motiviert vorgehen, kommt es trotzdem vor, das Personen doppelt in einem Zeitraum angelegt werden. In dem System soll nun nach solchen Klonen gesucht werden. Natürlich sollen mögliche Schreibfehler mit in den Vergleich einbezogen werden. Merkmale sind: Name, Geburtsname, Vorname, Geburtsdatum. Ich habe versucht die Angaben nach Ähnlichkeit zu gewichten und benutze dazu die Levenshtein-Distanz. Mit dem Resultat bin ich soweit zufrieden. Das Problem ist, dass ich hier ein Kreuzprodukt benötige und Jeden mit Allem vergleichen muss. Das dauert natürlich sehr lange. Ich komme in einer Oracle Exadata auf über 40 Minuten. Ich suche nach einer schnelleren Möglichkeit, am Besten ohne Kreuzprodukt. Wie kann man da herangehen? Ich bin dabei nicht auf die DB beschränkt, die Technologie ist dabei erst mal zweitrangig.