# 2 Tabellen aus 2 Datenbanken miteinander vergleichen



## terdit (11. Okt 2012)

Hallo zusammen,

ich habe folgendes Problem:

Ich muss die Tabelle A1 aus Datenbank A, mit der Tabelle B1 aus der Datenbank B vergleichen.
Als Ergebnis möchte ich eine Datei haben die anzeigt, 

Einträge die in beiden Tabellen sind, aber unterschiedliche Werte haben
Einträge dir nur in A1 vorhanden sind
Einträge die nur in B1 vorhanden sind

Das Problem ist, dass eine Eintrag aus der Tabelle auch schon mal ca. 5 MB groß sein kann.

Die Frage ist nun: Wie löse ich das Problem am effizientesten?

Gruß Dennis


----------



## stone71 (12. Okt 2012)

Also die Beschreibung finde ich nicht ganz ausreichend! Zuerst einmal benötigt Du aus meiner Sicht viel Speicher oder möglicherweise auch eine temporäre Tabelle auf eine der beiden Datenbanken. 
Des Weiteren stellen sich mir einige Fragen:
Sind die Tabellen absolut identisch in ihrem Aufbau?
Haben sie also den gleichen primären Schlüssel?
Wenn dies gklärt ist, dann kann man schon einmal davon ausgehen, ob man das gleiche Objekt ganz einfach verwenden kann.

Als ersten Ansatz würde ich mir ein Objekt in Java bauen, welches die Informationen enthält, die gleich sein sollen, damit definiert ist, wann ein Datensatz dem Datensatz der anderen Tabellen entspricht. Dies würde ich in der equals Methode der Objektklasse auch so definieren. 
Verarbeitungsschritte:
1. Wenn ich jetzt an die Verarbeitung gehe, dann sollte man die eine Tabelle einlesen und als Liste dieser Objekte anlegen.
(Hier vielleicht noch ein boolean für Tabelle1 und Tabelle2 anlegen.)
2. Danach eine Datenbankabfrage und holen der Sätze der 2.Tabelle
3. Jetzt die Datensätze prüfen, ob diese schon in der Liste sind, dann nur noch den boolean setzen, ansonsten den jeweiligen Datensatz der Tabelle hinzufügen.

Zum Schluss besitzt man eine Liste, wo alle vorkommenden Datensätze der beiden Tabellen vorhanden sind. Über die Werte in den beiden boolean kann man dann noch feststellen, in welcher der beiden Tabellen der DS existiert!

Wenn Du hier noch Fragen oder dies genauer gemacht oder besprochen haben möchtest, dann kannst Du Dich noch einmal melden.


----------



## mla.rue (12. Okt 2012)

das kannst auch direkt in der Datenbank machen, ohne Java, und nimmst Java dann nur um die Ergebnisse aufzufangen


----------



## stone71 (12. Okt 2012)

Wie schon einmal auch in anderen Eintragungen formuliert: "Viele Wege führen nach Rom!"
Allerdings gebe ich zu bedenken, dass es hier auf die Aufgabenstellung ankam und da denke ich, sollte man sich überlegen, welche Vorgehensweise man wählt!? Augenblicklich kann man davon ausgehen, dass es sich um zwei Tabellen in zwei unterschiedlichen Datenbanken handelt und diese möglicherweise auch noch auf zwei unterschiedlichen Servern existieren, wo auch ein key nich unbedingt identisch ist und es um den Vergleich von Inhalten geht...
Wenn ich mir so überlege, dann gibt es hier immer auch die Alternative dies in einem plsql umzusetzen, aber dies wird auch kompliziert und da ich mich hier in einem Java-Forum befinde, beschreibe ich zuerst einmal die Java-Lösung. Die Gesamtheit müsste ich sowieso in Objekte lesen, dementsprechend bin ich mir noch nicht sicher, was effizienter ist?

Ich gebe Dir also recht, es würde auch direkt über die Datenbanken gehen, aber ...


----------



## terdit (12. Okt 2012)

Schon mal danke für eure Antworten.

Zu den Tabellen:
Sie sind beide exakt gleich aufgebaut. Ich hab mich oben übrigens vertan. Es handelt sich nicht um den Primary Key, sondern um ein normales Feld, welches sich aber als Index eignet. 
Beide Tabellen liegen auf unterschiedlichen Servern.
Es geht darum den Datenbestand von Datenbank A (Testsystem) mit dem in der Datenbank B (Produktion) abzugleichen und festzustellen wo Änderungen gemacht wurden bzw. ob Einträge von A nach B nicht übernommen wurden.

Meine bisherige Idee wäre:
-Hole aus Tabelle A und B jeweils das Index Feld und speichere es in je einer Liste
-Vergleiche beide Listen und:
--Datensätze die nur in einer Liste sind, will ich dann schon in eine Datei schreiben mit dem Hinweis woher sie kommen

Ziel soll eine Liste sein mit Indexen die in beiden Tabellen vorkommen.

Mit dieser Liste hole ich mir dann aus der Datenbank die zugehörigen Daten und vergleiche beide wieder. 
Gleiche Datensätze lösche ich aus der Liste, ungleiche möchte ich auch in eine Datei schreiben

Ich hoffe das wurde jetzt etwas klarer 

Wie kann ich denn sowas direkt in der Datenbank machen? Ich bin ja auf zwei verschiedenen Servern...

Gruß Dennis


----------



## stone71 (12. Okt 2012)

So jetzt versuche ich noch einmal die Schritte weiterzugeben, die ich mir vorstellen würde.
Aus meiner Sicht brauchst Du nur eine Liste, in der Du Objekte speicherst. 
Objekt:
- key
- boolean tabelle1
- boolean tabelle2

1. Du füllst jetzt eine Liste Deiner Objekte mit dem select auf Tabelle1 und setzt dabei den boolean tabelle1 auf true
2. jetzt ein select auf tabelle2 und beim lesen der Daten vergleichst Du mit Deiner Liste, ist ein key vorhanden, dann setze boolean tabelle2 auf true. Ist der Datensatz nicht vorhanden, dann lege in Deiner Liste ein neues Objekt an mit dem key und boolean tabelle 2 auf true.

In diesem Moment kannst Du die Daten weiterverarbeiten. Hier stellt sich jetzt noch die Frage, ob Du die Daten immer auf beiden Systemen gleich halten möchtest und welche der Server master und welche Slave ist.

Genauer kann man den Regelbaum nur aufstellen, wenn alle Infos vorliegen.

Bei der Lösung in der Datenbank kommt es darauf an welche Möglichkeiten über die Datenbank gegeben werden.


----------



## OSBI_Fan (14. Okt 2012)

Hallo terdit,

Die Antwort hängt von mehreren Faktoren ab:


Verwendetes Datenbanksystem
Mengengerüst im Verhältnis zum verfügbaren Speicher (RAM)
Verfügbare Indizes
Aktualität der Statistiken
Hardware (Geschwindigkeit und Anzahl der Prozessoren, RAM Durchsatz, Festplatten Durchsatz)
*Die Inhalte (Zeilen) von zwei Tabellen vergleichen - SQL*

Beispiel: Hier zwei Tabellen in verschiedenen Datenbanken:


```
SELECT * FROM
(
 SELECT 'DB_ENTWICKLUNG' DB_NAME, d.* FROM
 (
  SELECT * FROM FOO.BAR         MINUS
  SELECT * FROM FOO.BAR@DB_PRODUKTION
 ) d
 union
 SELECT 'DB_PRODUKTION' DB_NAME, d.* FROM
 (
 SELECT * FROM FOO.BAR@DB_PRODUKTION  MINUS
 SELECT * FROM FOO.BAR           
 ) d
)
;
```

MINUS
Listet die Werte aus der ersten Tabelle abzüglich der Werte die auch in der zweiten Tabelle sind.

SELECT feldname FROM FOO
MINUS
SELECT feldname FROM BAR;

Oft will man alle Spalten auswählen und (eine) bestimmte als erstes sehen. Entweder werden dann alle Spalten angegeben, oder es wird weiterhin * verwendet und man listet eine der vorhanden Spalten erneut auf. Damit das funktioniert, muss man der Tabelle von der man selektiert einen Alias mitgeben und der doppelten Spalte einen neuen Namen.

Grüße,

OSBI_Fan

OSBI = Open Source Business Intelligence


----------

