oki also das szenario sieht wie folgt aus:
ich will aus Dokumente verschiedenen Formats informationen Extrahieren. Die können sowohl beim benutzer lokal liegen als auch remote ausm netz geholt werden.
verschiedene Uris, die z.B. benutzt werden:
file://C:/temp/Science.html
file://C:/temp/science.xml
file://C:/temp/science.txt
file://C:/temp/science.pdf
...
Science Fiction ? Wikipedia
Science
<![CDATA[The Science Show]]>
http://www.ciencianet.com/science.txt
http://www.ed.gov/parents/academic/help/science/science.pdf
...
Wenn er jetzt eine der oben genannten Beispiel Uris reinkriegt, will ich das die klasse erkennt, um was für eine Resource es sich handelt, damit ich gegebenfalls z.b. sagen kann:
wenn es ein xml file ist ruf einen xml parser auf
wenn es ein html file ist ruf einen html parser auf
wenn es ein txt ist ruf einen einfachen textparser auf
was natürlich super wäre, wäre wenn der handler auch bereitstellt dass man resourcen convertiert wie zb html2text etc.
nun verständlich?
lg