# [Suche] sinnvolle BadWord-Liste



## oldshoe (26. Feb 2010)

Hallo,
ich suche eine übersichtliche Liste mit deutschen BadWords, welche speziell antisemitische Wörter aber auch Begriffe wie "Kinderschänder" blacklisted sozusagen. Halt nichts womit Personen aufgrund zweideutiger Kontexte in Verbindung gebracht werden wollen. Schimpfwörter wie "Ar***loch" kommen in meinem Anwendungsfall eigentlich nicht vor. Vielleicht gibts es irgendwo kategorisierte BadWord-Listen? 

Ich habe bisschen gegoogelt und z.B. Hyperhero Schimpfwort - Liste mit ca. 7830 Schimpfwoertern gefunden. Aber das würde einfach zuviel filtern, da auch Wörter wie "Abfall" dabei sind.

Weiß da jemand mehr?:rtfm:


----------



## Atze (26. Feb 2010)

kenne sowas nicht, aber wenn deine liste so "speziell" ist, wirds wohl schwierig eine zu finden, die genau deinen ansprüchen zusagt. vielleicht selber schreiben


----------



## Marco13 (26. Feb 2010)

Solange man "sinnvoll" nicht näher definiert, wird das schwierig. Oder um's mal so zu sagen: "'Bitches' are just female dogs"....


----------



## Atze (26. Feb 2010)

and cocks are male chicken


----------



## Landei (26. Feb 2010)

Der Spamfilter unseres amerikanischen Mutterkonzerns hat mal hartnäckig die Stadt Ludwigslust und ähnliches geblockt...


----------



## faetzminator (27. Feb 2010)

Am Besten im Programm eine Funktion implementieren, mit welcher ein Wort einfach blacklisted werden kann. Z.B. durch Rechtsklick aufs Wort -> [Kontextmenu] -> add to blacklist.


----------



## agentone (5. Mrz 2010)

Ich würde auch nach der Anzahl solcher Wörter gehen.
Oder z.B. eine Priorität festlegen:
-mehrdeutige Wörter wie "Schwanz" mit geringer Priorität
-eindeutige Wörter wie "Bitch" mit hoher Priorität
Dann summierst du die Prioritäten und schaust, ob die Summe über einem Maximal-Wert liegt.


----------



## Landei (6. Mrz 2010)

Hier ist meine Badwort-Liste:
- Wanne
- Dusche
- Spiegel
- Klo
- Zahnbürste
- Zahnpasta
- Handtuch


----------



## ice-breaker (6. Mrz 2010)

Das Problem ist doch einfach, dass viele Wort in verschiedenem Kontext andere Bedeutungen haben. Deswegen lassen sich keine sinnvollen BadWord-Listen definieren.

Ich würde eher soweit gehen und ein TextSegment als gut oder böse (so wie SpamFilter) definieren, denn wenn jemand einen anderen Beleidigen will, werden da bestimmt mehrere BadWords vorhanden sein oder die Semantik wird es zeigen:


> Du verdammter *** ich *** dich !!!! *** ***[...]



also ich würde eher in Richtung Textanalyse gehen, gut, eine ganze Ecke schwerer aber lohnender. So eine Filtersoftware lässt sich bestimmt auch gut verkaufen 
Ansonsten es primitiv mit einem Bayes-Filter umsetzen, der kann dann auch schön mitlernen, wenn man böse Nachrichten findet oder false-positives.

_Anmerkung: Es gibt keine vom Autor implizit gedachten Lückenfüller für dieses Zitat, aber ich vermute mal das der Großteil an Beleidigungen linguistisch so aufgebaut sein wird._


----------

