UriHandler/RessourceHandler

Status
Nicht offen für weitere Antworten.

noisebreath

Bekanntes Mitglied
Hi

kennt jemand ne Uri- oder "Resource"-Handler class. Die eine Resource über die Uri oder sonstwie erkennt? So dass man praktisch alle wenigstens gängigen formate eines z.B. Files erkennen kann.

lg
faraz
 
M

maki

Gast
Nochmal langsam, was brauchst du genau?

URI oder URL sind nicht was du suchst?
 

noisebreath

Bekanntes Mitglied
ich krieg eine Uri rein und will dann das automatisch erkannt wird was die Source für ein format hat, egal ob da jetzt das schema file oder http oder sonstwas am anfang steht. es geht mir um die source. bei vielen könnt ich das ja einfach so machen, dass ich immer die Endung nehme und damit arbeite aber oft grad im netz gibt es ja auch keine endung bei der Uri.
Verständlich?
 
B

bygones

Gast
ich krieg eine Uri rein und will dann das automatisch erkannt wird was die Source für ein format hat, egal ob da jetzt das schema file oder http oder sonstwas am anfang steht. es geht mir um die source. bei vielen könnt ich das ja einfach so machen, dass ich immer die Endung nehme und damit arbeite aber oft grad im netz gibt es ja auch keine endung bei der Uri.
Verständlich?
nicht sicher...

wie Endung bei einer URI ? meinst du URL ?

das zb ist eine URI 0131495054 (in diesem Fall fuer Buecher)... ist dann Buch = source ?

d.h. wenn du 0131495054 bekommst willst du wissen dass es ein Buch ist ?

das wird nur schwer moeglich sein afaik, da man immer die Metainformation braucht aus welcher Domain die URI kommt...

oder missverstehe ich hier was komplett ?
 

noisebreath

Bekanntes Mitglied
oki also das szenario sieht wie folgt aus:

ich will aus Dokumente verschiedenen Formats informationen Extrahieren. Die können sowohl beim benutzer lokal liegen als auch remote ausm netz geholt werden.

verschiedene Uris, die z.B. benutzt werden:

file://C:/temp/Science.html
file://C:/temp/science.xml
file://C:/temp/science.txt
file://C:/temp/science.pdf
...
Science Fiction ? Wikipedia
Science
<![CDATA[The Science Show]]>
http://www.ciencianet.com/science.txt
http://www.ed.gov/parents/academic/help/science/science.pdf
...

Wenn er jetzt eine der oben genannten Beispiel Uris reinkriegt, will ich das die klasse erkennt, um was für eine Resource es sich handelt, damit ich gegebenfalls z.b. sagen kann:

wenn es ein xml file ist ruf einen xml parser auf
wenn es ein html file ist ruf einen html parser auf
wenn es ein txt ist ruf einen einfachen textparser auf

was natürlich super wäre, wäre wenn der handler auch bereitstellt dass man resourcen convertiert wie zb html2text etc.

nun verständlich?

lg
 
B

bygones

Gast
falls nix gibt waers ja nur n simples Enum...

ansonsten redest du von URLs im speziellen, nicht von URIs im allgemeinen ! URL != URI
 

noisebreath

Bekanntes Mitglied
Vielleicht hilft dir ja MimetypesFileTypeMap.

hm.. schein ich irgendwie nicht richtig anzuwenden (?!)

Code:
		MimetypesFileTypeMap a = new MimetypesFileTypeMap();
		File b = new File("C:/temp/asdf.txt");
		URI uri = new URI("file://C:/temp/aa.pdf");
		URI uri2 = new URI("http://www.abc.net.au/rn/podcast/feeds/science.xml");
		System.out.println(a.getContentType(b));
		System.out.println(a.getContentType(uri.toString()));
		System.out.println(a.getContentType(uri2.toString()));

Ausgabe:

text/plain
application/octet-stream
application/octet-stream


ich hab aber auf der seite (MIME-Type File Reference) gelesen das dies gilt:
application/octet-stream bin
application/octet-stream class
application/octet-stream dms
application/octet-stream exe
application/octet-stream lha
application/octet-stream lzh


komisch dass er das also 2 mal ausgibt bei einem xml und bei einem pdf...

und so wie ich das sehe macht er auch keine unterscheidung zwischen xml und text z.b. was zum parsen ja n ganz schönen unterschied macht nach meinem verständnis
 
Zuletzt bearbeitet:
Status
Nicht offen für weitere Antworten.

Neue Themen


Oben