# Apache Solr doc & pdf Upload



## Moinsn (22. Aug 2011)

Moinsn,

ich habe mir Solr + beiliegendes Example aufgesetzt und möchte es jetzt doc und pdf Dateien füttern deren Inhalt dann zur Volltestsuche zur Verfügung stehen soll. Leider check ich nich ganz welcher der einfachste Weg ist dies zu Bewerkstelligen. Kann mir jmd. n link zu nem guten Tut geben oder selber kurz Erklären wie das geht.

DANKE


----------



## planetenkiller (22. Aug 2011)

Sieh dir mal folgende Solr-Wiki Seite an: ExtractingRequestHandler - Solr Wiki


----------



## Moinsn (23. Aug 2011)

Hab ich schon ...
Die machen das mit curl.
Kenn mich damit nur leider nicht die bohne aus.
Hab mir Curl gezogen und die Eingabe so gemacht wie's im Tutorial steht.
bekomme da leider immer "Connection Time-Out". 
Dachte es gäbe evtl ne schönere Möglichkeit.

Ich hab allgemein noch nicht richtig gecheckt wie Solr funzt.
Kann ich da einfach alle Beispiel- xml- Dokumente löschen und das Beispiel mit meinen doc und pdf Dateien füllen oder sollte ich eine eigene start.jar an den start bringen?
Gibts nicht irgend ein schönes StepByStep Tutorial am besten auf Deutsch.
Würde gerne richtig raffen wie dat funzt.

Nur ist alles was ich im Netz finde nicht sooo Hilfreich da meist davon ausgegangen wird dass man schon mit der Materie vertraut ist.

DANKE


----------



## Niki (23. Aug 2011)

wie solr mit pdf's funktioniert weiss ich nicht, ich habs jedoch schon mal für normale volltextsuche verwendet.

funktionieren tut es so:
solr ist eine normale web-anwendung und somit rennt die kommunikation immer über http. der index wird mittels xml-datei über http-post bekannt gegeben. du musst natürlich die einzelnen felder im solr-index bekannt geben. also welche felder gespeichert werden sollen (diese werden bei einem request zurück gegeben) und welche felder als index dienen sollen (diese dienen ausschließlich zum suchen und werden nicht ins ergebnis genommen). die abfrage an solr erfolgt über http-get und die url dient als such-query. da sind eigentlich keine grenzen gesetzt. soweit ich mich erinnern kann hab ich auch nur die solr doku zur verfügung gehabt und mit der hab ich eigentlich alles geschafft.


----------



## Moinsn (23. Aug 2011)

Den upload vom xml Dateien bekomme ich mittlerweile auch über die post.jar hin. Nur kann ich leider keine pdf uploaden. Is ja eigendl. auch klar, da er ja die Binärdaten nicht in sein vorgegebenes Schema aufnehmen kann. Nur hab ich vor Tagen irgendwo gelesen dass das wohl irgendwie gehen muss. Kann sein das ich eine Art Extension in Solr integrieren muss damit die pdf Dateien vorher geparst werden. Evtl. Apache Tika oder sowas. Nur kann ich mir auch dann noch nicht vorstellen wie die Volltextsuche in pdf und doc funktionieren soll da die Infos die diese pdf und doc Dateien beinhalten ja immer noch nicht in das Schema passen.


----------



## Moinsn (24. Aug 2011)

Mittlerweile glaube ich zu wissen wie es Funzt.
Ich muss wie hier beschrieben einen requestHandler für RichDocumente in die solrconfig.xml hinzufügen.
UpdateRichDocuments - Solr Wiki

Dies geht über eine Patch Datei mit der ich leider nichts anzufangen weiß. 
Kann mir jmd erklären wie ich den Patch ausführen kann?
Mein TortoiseSVN bietet zwar "Apply Patch" aber nach wählen des Ordners die die solrconfig.xml beinhaltet wird sie links rot gelistet. Ich denke das liegt daran dass es keine Tortoise Kopie ist.
Kenn mich nicht damit aus :bahnhof:


----------



## Moinsn (7. Sep 2011)

So,
nun geht endl. der PDF Upload.
Und eigendl. hätte ich gar nicht so viel rum basteln müssen sondern einfach nur 
via curl die richtigen Querys absenden.
Bei pdf wärs zB 

```
curl "http://localhost:8983/solr/update/extract?literal.id=doc1&uprefix=attr_&fmap.content=attr_content&commit=true" -F "myfile=@tutorial.pdf"
```
Nur bekomme ich beim Versuch mit der gleichen Query eine doc zu Uploaden folgenden Error:





Und damit kann ich leider  nichts anfangen.


----------



## Gelöschtes Mitglied 5909 (7. Sep 2011)

sieht so aus als müsstest du die apache poi lib noch mit in den classpath packen


----------



## Moinsn (8. Sep 2011)

Jup's ...     das wird's sein.
nur check ich's grad trotzdem nicht so recht.
Ich hab mir jetzt das 70mb fette Apache POI bin Pack gezogen.
Wie bekomme ich das denn jetzt in mein bestehenden Solr rein?
Muss ich einfach nur die Daten aus dem Ordner lib mit in den lib Ordner meines Solr packen,
oder müssen noch Handler in der solrconfig.xml dafür freigeschaltet werden?

Sag mir bitte nicht dass ich die libs in eclipse importieren muss und das gesammte Solr neu builden muss.
Sorry das ich mich so dämlich anstelle. Kenn mich mit dem ganzen ServerGebastel nicht die Bohne aus.
War bisher nur im Java- NichtschwimmerBecken unterwegs wie's scheint.   

DANKE


----------

