Hi,
ich suche nach einer Möglichkeit, große CSV-Dateien (bis zu 10MB, 40k Zeilen) schnell vergleichen zu können und Unterschiede in html/CSV auszugeben.
Bisher habe ich zwei Möglichkeiten implementiert, die mir aber nicht gefallen und bei WinMerge sind die Zeilen auch nicht nebeneinander.
Daher dachte ich mir, ein Preprocessing vorzunehmen, indem ich Zeile 1 aus Datei 1 nehme und diese Zeile mit jeder Zeile aus Datei 2 mit der Leven-Distanz vergleiche.
Das beste Resultat kommt in eine neue Liste an Platz 1 und so weiter.
Aber alleine dafür braucht mein Programm dann schon gut 3-5 Minuten (obwohl ich die Zeilen überspringe, die es in die neue Liste geschafft haben).
Der Vorteil wäre natürlich, dass die Zeilen angepasst und in sich geordnet sind, ich brauche also nur noch die Nachbarn zu vergleichen.
Habt ihr vielleicht eine Idee, wie ich das "Aneinanderlegen" beschleunigen könnte?
So macht das Testen nämlich wirklich keinen Spaß und ist zeitraubend :/
Freue mich über Vorschläge
PS: Google Diff dauert noch länger, weswegen ich von der API nicht gerade sehr begeistert bin..
ich suche nach einer Möglichkeit, große CSV-Dateien (bis zu 10MB, 40k Zeilen) schnell vergleichen zu können und Unterschiede in html/CSV auszugeben.
Bisher habe ich zwei Möglichkeiten implementiert, die mir aber nicht gefallen und bei WinMerge sind die Zeilen auch nicht nebeneinander.
Daher dachte ich mir, ein Preprocessing vorzunehmen, indem ich Zeile 1 aus Datei 1 nehme und diese Zeile mit jeder Zeile aus Datei 2 mit der Leven-Distanz vergleiche.
Das beste Resultat kommt in eine neue Liste an Platz 1 und so weiter.
Aber alleine dafür braucht mein Programm dann schon gut 3-5 Minuten (obwohl ich die Zeilen überspringe, die es in die neue Liste geschafft haben).
Der Vorteil wäre natürlich, dass die Zeilen angepasst und in sich geordnet sind, ich brauche also nur noch die Nachbarn zu vergleichen.
Habt ihr vielleicht eine Idee, wie ich das "Aneinanderlegen" beschleunigen könnte?
So macht das Testen nämlich wirklich keinen Spaß und ist zeitraubend :/
Freue mich über Vorschläge
PS: Google Diff dauert noch länger, weswegen ich von der API nicht gerade sehr begeistert bin..