# dynamische webseiten aus datei



## rambozola (15. Feb 2006)

hi leute,

welche möglichkeiten habe ich mit java (denke zB mit jsp) word-dateien(doc), pdfs u powerpoints in eine html-seite dynamisch einzubinden?
die html-seite bekommt 3 frames u die quelldatei soll im infoframe erscheinen.

ich habe noch nichts mit jsp gemacht...gibt es leichtere möglichkeiten oder frameworks(zB php) oder gar gute eclipseplugins?

vielen danl für eure antworten.


----------



## rambozola (15. Feb 2006)

hat keiner ne idee?  :roll:


----------



## Gumble (15. Feb 2006)

googel doch mal nach 'java pdf convert' oder Aehnlichem. Es gibt sicher genug Bibliotheken, die das koennen. Das ist aber keine jsp-Sache an fuer sich, also auch kein 'Enterprise Java' Angelegenheit.
Zur Implementierung schlag ich dir ein HttpServlet vor, dessen doGet-Methode du ueberschreiben koenntest. Darin einfach das ausgeben, was Dir der Konverter liefert.


----------



## rambozola (16. Feb 2006)

kann jemand diesen post in die richtige java-kategorie im forum verschieben?

hat jemand erfahrungen mit iText? wie gut wandelt das pdfs in html um?

macht es sinn die pdf´s,doc´s, usw. in xml umzuwandeln u in der datenbank zu speichern u daraus dann dynamisch die html-seiten zu generieren?


----------



## KSG9|sebastian (16. Feb 2006)

imho macht es gar keinen sinn den Inhalt einer Seite aus Word- oder PDF-Dateien zu ziehen. 
PDFs oder DOCs (eigentlich gar keine WordDokumente) kann man als Anhang an einen Artikel o.ä. anhängen, aber um Informationen draus zu ziehen - nein!


----------



## rambozola (16. Feb 2006)

@KSG9|sebastian: wenn mitarbeiter die keine html-kenntnisse haben ihre projekte im intranet hochladen wollen u auf der intranetseite anzeigen dann macht es schon sinn aus ner word-datei oder pdf ne webseite zu generieren...


----------



## Gumble (16. Feb 2006)

rambozola hat gesagt.:
			
		

> kann jemand diesen post in die richtige java-kategorie im forum verschieben?
> 
> hat jemand erfahrungen mit iText? wie gut wandelt das pdfs in html um?
> 
> macht es sinn die pdf´s,doc´s, usw. in xml umzuwandeln u in der datenbank zu speichern u daraus dann dynamisch die html-seiten zu generieren?



Ich denke, pauschal kann man das schwer sagen. Formatierung und Layout nach html zu portieren, stell ich mir schwierig vor - z.B. wie verhaelt sich es bei dynamischer Seitenbreite? Test einfach mal ein paar dieser 'projekt'-Dokumente ob die tauglich sind. Aber zusaetzlich wuerde ich noch eine pdf-Downloadoption anbieten.


----------



## rambozola (16. Feb 2006)

@Gumble: ja die downloadoption ist ne gute idee. allerdings führt kein weg drumherum die üblichen dateitypen als html-seite zu generieren.
ist eben die frage wie gut das mit den wenigen freien java-biblios funktioniert. 
bei meinen recherchen bin ich eben auf dieses iText für pdf2html-generierung gestossen.
für worddatei2html gibt es das jakarta poi..da steht aber bei word-dateien das es noch absolut in den kinderschuhen steckt...
im schlimmsten fall müssten eben alle dokumente die im intranet angezeigt werden sollen in pdf vorher umgewandelt werden. das impliziert natürlich eine reibungslose und vollständige umwandlungsmöglichkeit von pdf in html.

ich bin neuling was jsp u servlets betrifft. solcherlei handwerkszeug müsste ich - wenn ich darf- verwenden.
empfehlt ihr mir mich in jsp u servlets einzuarbeiten oder gar ein framework wie struts zu verwenden?

habt ihr weitere empfehlungen?


----------



## Gumble (16. Feb 2006)

rambozola hat gesagt.:
			
		

> @Gumble: ja die downloadoption ist ne gute idee. allerdings führt kein weg drumherum die üblichen dateitypen als html-seite zu generieren.
> ist eben die frage wie gut das mit den wenigen freien java-biblios funktioniert.
> bei meinen recherchen bin ich eben auf dieses iText für pdf2html-generierung gestossen.
> für worddatei2html gibt es das jakarta poi..da steht aber bei word-dateien das es noch absolut in den kinderschuhen steckt...
> ...


Hab diese Converter bisher nie getestet, aber ich vermute eine lange Laufzeit. Deshalb solltest Du viele Verschiedene vorher testen. Die Frage ist naemlich zunaechst, ob Du wirklich jedesmal das html generieren moechtest (d.h. pro http-request) oder einfach einmal das html beim (pdf) FileUpload generierst. Sind nicht aktuelle Worddokumente nicht XML-artig? Dann sollte es doch viele passende und brauchbare XSLT-Transformatoren geben...

Zum Thema Frameworks kann ich nicht viel sagen, da ich gerade auch dabei bin mich durchzuwurschteln. Nur einen Tipp: unterschaetz das Thema nicht! Ich dachte anfangs Weboberflaechenprogrammierung kann doch nicht so schwer sein wenn das unzaehlige 'php-kiddies' auch schaffen...  :roll:


----------



## rambozola (16. Feb 2006)

@Gumble: keine bange ich unterschätze das nicht   
ausser java & xml-kenntnissen bringe ich nichts mit.. d.h. html, jsp,usw muss ich mir erst aneignen  :###


----------



## Gumble (16. Feb 2006)

rambozola hat gesagt.:
			
		

> @Gumble: keine bange ich unterschätze das nicht
> ausser java & xml-kenntnissen bringe ich nichts mit.. d.h. html, jsp,usw muss ich mir erst aneignen  :###


hihi, geht/ging mir genauso  :?  Ist aber nur ne lausige Studentenstelle  :bae: 
Guck mal hier rein http://www.java-forum.org/de/viewtopic.php?t=23699&sid=681013fcee930cd99700dacb621f9760 - in meinem letzten Posting hab ich Links von JEE Projekttemplates/Startprojekte reingestellt. Vielleicht ganz brauchbar - ist aber nicht einfach. Ich werds nicht verwenden weil ich nicht Spring nehmen moechte (mache nur JSF und bisschen JSTL)...


----------



## KSG9|sebastian (17. Feb 2006)

Ehhhhmm....

selbst wenn du es schaffst ein Word/PDF-Dokument sinnvoll umzuwandeln (was bei pdf schwierig wird, bei word *urghhh*) dann hast du mit Sicherheit ewige Laufzeiten, wenn du den ganzen Aufwand bei jedem Request machen willst.

Deshalb folgende Vorschläge:

1. Inhalte in ne DB spidern

Lass auf dem Server nen Cronjob laufen, welcher alle x (10)min überprüft, ob neue Dokumente vorhanden sind. Wenn ja dann die Inhalte in ne Datenbank spidern und das Dokument als gespidert markieren

Bei nem Request werden nur noch die Inhalte aus ner Datenbank angezeigt.

2. Finger weg von PDF u. DOC 

Gib den Mitarbeitern nen gescheiten (Rich Text) Editor mit dem sie ihre Projekte erstellen können (z.B. www.pintexx.com -> pinEdit)

3. Schau in den OpenOffice-Sourcen mal nach dem Exportfilter von word -> html und benutz den, dann hast du den ganzen Streß nicht mehr mit dem parsen.


----------

