ok kurze zusammenfassung:
geht um meine bachelorarbeit:
content based image retrieval query by example, trainingsmenge entspricht derzeitigen 700 bildern, in jedem bild werden durch verschiedene algorithmen (sift, colorsift, surf) "spezielle punkte" in bildern entdeckt (ca 200-300 pixel im bild) die durch die algorithmen in 128 bzw 64 dimensionalen vektoren beschrieben werden. so komme ich auf 3,3 Mio Vektoren z.b. bei dem algo colorsift.
in dem sinne anschliessend clustern mit
k-Means-Algorithmus ? Wikipedia
wers nicht kennt, ich will diese ganzen vektoren in bereiche aufteilen, kann mir aussuchen wieviele bereiche, z.b. 500. zufällig werden am anfang dann 500 von diesen 3,3 Mio Vektoren ausgewählt(->Centroiden). nun werden von allen 3,3 Mio Vektoren die distanzen zu jedem Centroid berechnet (manhatten R^1 distanz). der centroid der den kürzesten abstand zu dem vektor hat, dem wird der vektor zugeteilt. irgendwann sind nun diese 3,3 Mio vektoren verteilt auf die centroiden, anschliessend wird pro bereich der mittelwertvektor berechnet und anschliessend abgeglichen mit dem (noch) derzeitigen centroiden des bereichs. für den fall dass es in einem oder mehreren bereichen dazu kommt (und dass ist so gut wie immer der fall) dass der errechnete mittelwertvektor nicht mit dem centroiden des bereichs übereinstimmt, wird der mittelwertvektor zum neuen centroiden, die ganzen bereiche werden aufgelöst, und die rechnung beginnt von neuem, also wieder 3,3 Mio Vektoren mit den nun neuen "centroiden" die vorher die mittelwertvektoren waren - also erneut distanznen berechnen - ist fast ne endlosschleife. irgendwann (nach 30 Stunden bei der datenmenge)
entsprechen die mittelwertvektoren in allen bereichen auf den centroiden in den bereichen und der algo ist abgeschlossen.
ich arbeite mit threads, hab nen quadcore, alle kerne laufen auf höchsttouren, hab den algo sogar schon so angepasst dass wenn weniger als 15 % der bereiche nur verändert wurden dass der algo "fertig ist" usw - und dennoch: 30 Std sind viel wenn man bedenkt dass es vllt mit der graka deutlichst schneller geht!
P.S.: hab seite 2 nicht gesehn, JohannisderKaeufer hats auf den punkt gebracht.