Hallo,
ich habe ein Programm geschrieben, das Heise-Newsmeldungen aus einer DB einliest und in Vektoren umwandelt.
Bei knapp 9.000 Dokumenten funktioniert das auch noch (aber nur mittels -Xmx1024m).
Wenn ich ca. 17.000 Meldungen einlesen will, bekomme ich immer den oben beschriebenen Fehler. Kann ich das irgendwie umgehen? Ich brauch die gebildeten Vektoren zum anschließenden Clustering (d. h. Gruppieren) der Dokumente.
Deswegen kann ich die Vektoren auch nicht in der Datenbank speichern, denn dann wäre das Programm viel zu langsam.
Was kann ich tun?
ich habe ein Programm geschrieben, das Heise-Newsmeldungen aus einer DB einliest und in Vektoren umwandelt.
Bei knapp 9.000 Dokumenten funktioniert das auch noch (aber nur mittels -Xmx1024m).
Wenn ich ca. 17.000 Meldungen einlesen will, bekomme ich immer den oben beschriebenen Fehler. Kann ich das irgendwie umgehen? Ich brauch die gebildeten Vektoren zum anschließenden Clustering (d. h. Gruppieren) der Dokumente.
Deswegen kann ich die Vektoren auch nicht in der Datenbank speichern, denn dann wäre das Programm viel zu langsam.
Was kann ich tun?