Apache Solr doc & pdf Upload

Moinsn

Mitglied
Moinsn,

ich habe mir Solr + beiliegendes Example aufgesetzt und möchte es jetzt doc und pdf Dateien füttern deren Inhalt dann zur Volltestsuche zur Verfügung stehen soll. Leider check ich nich ganz welcher der einfachste Weg ist dies zu Bewerkstelligen. Kann mir jmd. n link zu nem guten Tut geben oder selber kurz Erklären wie das geht.

DANKE
 

Moinsn

Mitglied
Hab ich schon ...
Die machen das mit curl.
Kenn mich damit nur leider nicht die bohne aus.
Hab mir Curl gezogen und die Eingabe so gemacht wie's im Tutorial steht.
bekomme da leider immer "Connection Time-Out".
Dachte es gäbe evtl ne schönere Möglichkeit.

Ich hab allgemein noch nicht richtig gecheckt wie Solr funzt.
Kann ich da einfach alle Beispiel- xml- Dokumente löschen und das Beispiel mit meinen doc und pdf Dateien füllen oder sollte ich eine eigene start.jar an den start bringen?
Gibts nicht irgend ein schönes StepByStep Tutorial am besten auf Deutsch.
Würde gerne richtig raffen wie dat funzt.

Nur ist alles was ich im Netz finde nicht sooo Hilfreich da meist davon ausgegangen wird dass man schon mit der Materie vertraut ist.

DANKE
 

Niki

Top Contributor
wie solr mit pdf's funktioniert weiss ich nicht, ich habs jedoch schon mal für normale volltextsuche verwendet.

funktionieren tut es so:
solr ist eine normale web-anwendung und somit rennt die kommunikation immer über http. der index wird mittels xml-datei über http-post bekannt gegeben. du musst natürlich die einzelnen felder im solr-index bekannt geben. also welche felder gespeichert werden sollen (diese werden bei einem request zurück gegeben) und welche felder als index dienen sollen (diese dienen ausschließlich zum suchen und werden nicht ins ergebnis genommen). die abfrage an solr erfolgt über http-get und die url dient als such-query. da sind eigentlich keine grenzen gesetzt. soweit ich mich erinnern kann hab ich auch nur die solr doku zur verfügung gehabt und mit der hab ich eigentlich alles geschafft.
 

Moinsn

Mitglied
Den upload vom xml Dateien bekomme ich mittlerweile auch über die post.jar hin. Nur kann ich leider keine pdf uploaden. Is ja eigendl. auch klar, da er ja die Binärdaten nicht in sein vorgegebenes Schema aufnehmen kann. Nur hab ich vor Tagen irgendwo gelesen dass das wohl irgendwie gehen muss. Kann sein das ich eine Art Extension in Solr integrieren muss damit die pdf Dateien vorher geparst werden. Evtl. Apache Tika oder sowas. Nur kann ich mir auch dann noch nicht vorstellen wie die Volltextsuche in pdf und doc funktionieren soll da die Infos die diese pdf und doc Dateien beinhalten ja immer noch nicht in das Schema passen.
 

Moinsn

Mitglied
Mittlerweile glaube ich zu wissen wie es Funzt.
Ich muss wie hier beschrieben einen requestHandler für RichDocumente in die solrconfig.xml hinzufügen.
UpdateRichDocuments - Solr Wiki

Dies geht über eine Patch Datei mit der ich leider nichts anzufangen weiß.
Kann mir jmd erklären wie ich den Patch ausführen kann?
Mein TortoiseSVN bietet zwar "Apply Patch" aber nach wählen des Ordners die die solrconfig.xml beinhaltet wird sie links rot gelistet. Ich denke das liegt daran dass es keine Tortoise Kopie ist.
Kenn mich nicht damit aus :bahnhof:
 

Moinsn

Mitglied
So,
nun geht endl. der PDF Upload.
Und eigendl. hätte ich gar nicht so viel rum basteln müssen sondern einfach nur
via curl die richtigen Querys absenden.
Bei pdf wärs zB
Code:
curl "http://localhost:8983/solr/update/extract?literal.id=doc1&uprefix=attr_&fmap.content=attr_content&commit=true" -F "myfile=@tutorial.pdf"
Nur bekomme ich beim Versuch mit der gleichen Query eine doc zu Uploaden folgenden Error:



Und damit kann ich leider nichts anfangen.
 
G

Gelöschtes Mitglied 5909

Gast
sieht so aus als müsstest du die apache poi lib noch mit in den classpath packen
 

Moinsn

Mitglied
Jup's ... das wird's sein.
nur check ich's grad trotzdem nicht so recht.
Ich hab mir jetzt das 70mb fette Apache POI bin Pack gezogen.
Wie bekomme ich das denn jetzt in mein bestehenden Solr rein?
Muss ich einfach nur die Daten aus dem Ordner lib mit in den lib Ordner meines Solr packen,
oder müssen noch Handler in der solrconfig.xml dafür freigeschaltet werden?

Sag mir bitte nicht dass ich die libs in eclipse importieren muss und das gesammte Solr neu builden muss.
Sorry das ich mich so dämlich anstelle. Kenn mich mit dem ganzen ServerGebastel nicht die Bohne aus.
War bisher nur im Java- NichtschwimmerBecken unterwegs wie's scheint. :(

DANKE
 
Ähnliche Java Themen
  Titel Forum Antworten Datum
D HTTP Apache-HttpClient/UNAVAILABLE (java 1.4) Netzwerkprogrammierung 18
Nuiton FTP Apache Commons: FTPClient und Sicherheit Netzwerkprogrammierung 9
N FTP FTP Client invalid IPv6 address (Apache Commons Net API) Netzwerkprogrammierung 6
G apache httpClient Problem. Netzwerkprogrammierung 5
D Apache Mina Serial: Error Netzwerkprogrammierung 2
M Apache HTTPClient Server log ausgeben ?! Netzwerkprogrammierung 3
N HTTP Apache 4.2.1 HttpClient 302 nach Login und auf den weiteren Seiten. Netzwerkprogrammierung 5
R Apache HttpClient File Download? Netzwerkprogrammierung 3
0 Apache Commons File Object bekommen Netzwerkprogrammierung 4
W HTTP Apache HttpComponents und GZIP Netzwerkprogrammierung 2
F Apache commons net SFTPClient Netzwerkprogrammierung 5
D Apache CXF, JAX-WS Problem bei Arrays - einfacher Server Netzwerkprogrammierung 2
M need org.apache.commons.httpclient.* Netzwerkprogrammierung 8
C apache commons net ftp bei upload unvollständig Netzwerkprogrammierung 3
R HTTP Apache HTTP Client: Request mit angehängter Datei Netzwerkprogrammierung 2
R Apache Mina - Hilfestellung Netzwerkprogrammierung 32
D Apache Mina und GWT Servlet Netzwerkprogrammierung 4
N SFTP apache keine Verbindungaufbau möglich Netzwerkprogrammierung 6
K Login via apache httpclient Netzwerkprogrammierung 4
dayaftereh Fragen zu Apache Mina? Netzwerkprogrammierung 5
T HTTP Apache Commons HttpClient Bibliothek Netzwerkprogrammierung 2
Kr0e Apache Mina -> await() Netzwerkprogrammierung 30
B Tomcat Apache Server Netzwerkprogrammierung 6
lordcarlos HTTP Apache HttpClient, post und login. Netzwerkprogrammierung 2
J org.apache.http.auth.NTCredentials Netzwerkprogrammierung 2
A org.apache.commons http client in Netbeans einbinden Netzwerkprogrammierung 3
T Apache HttpClient & Default Headers Netzwerkprogrammierung 9
T apache HTTPClient einloggen Netzwerkprogrammierung 2
Kr0e Apache Mina Problem Netzwerkprogrammierung 2
G apache von außen zugänglich machen Netzwerkprogrammierung 5
1 Upload problem! org.apache.commons.net.ftp Netzwerkprogrammierung 3
Q HTTPS mit Apache HttpClient Netzwerkprogrammierung 4
S Google Search Webservice mit Apache Axis realisieren? Netzwerkprogrammierung 2
I Apache http-client: Problem beim Proxyaufruf Netzwerkprogrammierung 2
S Applet und JWS auf Apache-Axis (SOAP) Netzwerkprogrammierung 8
C HTTPS mit Apache HTTPClient Netzwerkprogrammierung 1
M org.apache.commons.httpclient.HttpClient Netzwerkprogrammierung 3
J Antwort eines Soaprequests parsen mittels org.apache.soap Netzwerkprogrammierung 2
B Via Java Datei zu PHP-Script auf Apache hochladen Netzwerkprogrammierung 4
A http request per socket an apache server Netzwerkprogrammierung 5
J FTP Upload über Proxy funktioniert nicht Netzwerkprogrammierung 1
D CSV File Upload Netzwerkprogrammierung 5
P nanoHttp upload.html page lädt nicht Netzwerkprogrammierung 4
M HTTP File Upload mit Prozessbar Funktioniert nicht. Netzwerkprogrammierung 8
5 File Upload/ ClassNotFoundException Netzwerkprogrammierung 9
B FTPS Upload Netzwerkprogrammierung 3
M Google Image Upload Netzwerkprogrammierung 12
C HTTP Mediawiki Upload Netzwerkprogrammierung 9
D FTP Pfadangabe für ftp-upload funktioniert nicht Netzwerkprogrammierung 5
R HTTP HttpURLConnection Large File Upload Netzwerkprogrammierung 1
E Applet zum Datei-Upload Netzwerkprogrammierung 3
P Bilder: FTP-Upload funktioniert nicht richtig Netzwerkprogrammierung 2
W HTTP-Upload Netzwerkprogrammierung 2
K Datei-Upload per FTP Netzwerkprogrammierung 2
E Upload großer Dateien? Netzwerkprogrammierung 5
E upload progress bei einem http file post Netzwerkprogrammierung 5
eskimo328 progress bar mit upload speed Netzwerkprogrammierung 19
J Java Programm für Upload von Dateien per HTTP Netzwerkprogrammierung 7
L file upload / download über http Netzwerkprogrammierung 5
J File upload mit ftp Netzwerkprogrammierung 4

Ähnliche Java Themen


Oben