Hier wäre dann die Frage, was der Sinn hinter allem ist:
- die "wissenschaftliche" Erforschung - da kann man dann gerne herum spielen und mit entsprechender Recherche versuchen, in die Thematik hinein zu kommen. Und hier kann es dann helfen, sich mit vorhandenen Libraries und Produkten auseinander zu setzen.
- die Erstellung eines Produktes. Hier würde ich generell schauen, was er schon alles gibt und unter welchen Bedingungen diese nutzbar sind. Das ist meist deutlich besser, als selbst irgendetwas halbherzig zu implementieren. Das mag zwar "irgendwie funktionieren", aber Benutzer werden immer zu den Produkten greifen, die gut funktionieren. Und sorry - wie will man gegen Google, Apple und Microsoft antreten? Als einzelne Person? Ohne Ahnung von der Materie? Sorry, aber das wird hoffentlich niemand wirklich vorhaben.
Und egal, was man vorhat. Es gibt im Netz sehr viele Dinge diesbezüglich:
a) Sphinx-4 ist Open Source und scheint ein großes Projekt zu sein. Unter Anderem gibt es da auch Wissenschaftliche Artikel, was es sehr interessant machen könnte wenn man in ersterem unterwegs ist. (z.B.
http://dl.acm.org/citation.cfm?id=1698193 - kostet aber Geld)
b) Java Speech API ist auch recht interessant. Da steckt wohl auch die TU Darmstadt mit hinter / drin und ist JSR 113.
c) Ich habe jetzt nicht im Detail recherchiert, was Google, Apple und Microsoft so anbieten. Aber evtl. bieten die auch Zugriff / Libraries für Ihre Spracherkennung an. Bei Apple erwarte ich sowas ehrlich gesagt weniger, aber bei Google und erst Recht bei Microsoft würde mich das nicht wundern. (Gerade Microsoft ist ja sehr auf einem Open Source Trip und Microsoft ist hier in der Rolle des Newscommers, der irgendwie dringend aufholen muss. Und Microsoft war bisher immer sehr Entwickler-freundlich. Aber eine Java API wird eher fehlen, so dass man hier ggf. (so es Libraries gibt) noch per JNI nachlegen müsste.
Also Recherchen könnten sich hier sehr lohnen.