Filterung nach schlechten Inhalten im Web

C

COLLAB

Gast
Hallo,

nachdem ich eine Applikation entwickelt habe, die den Geschmack eines Nutzers einer Set-Top-Box "berechnen" kann und seinen Geschmack treffen kann, möchte ich so eine ähnliches Programm bauen:

Es geht darum, gute Internetseiten von bösen Internetseiten zu unterscheiden. D.h. man hat eine Liste von URLs und das Programm muss dann entscheiden, ob die Website gut ist oder böse ist und gesperrt werden sollte!

Zunächst: wie lautet da der Fachausdruck, sodass ich mal bei Google dannach suchen kann? Ich habe bereits vergeblich gesucht ...
Außerdem: Habt Ihr irgendwelche Tipps/Anmerkungen etc?

Sicherlich sollte/kann man hier mathematisch vorgehen, z.B. durch Begriffsgewichtung und somit zum Erhalt einer Gesamtbewertung ...

Gruß,
Gast
 

0x7F800000

Top Contributor
Es geht darum, gute Internetseiten von bösen Internetseiten zu unterscheiden. D.h. man hat eine Liste von URLs und das Programm muss dann entscheiden, ob die Website gut ist oder böse ist und gesperrt werden sollte!
Ein Programm mit einem ausgeprägten Sinn für Gut und Böse, mit einer fetten Ethik-Engine und frei wählbaren Philosophie-Filtern? ;)
Zunächst: wie lautet da der Fachausdruck, sodass ich mal bei Google dannach suchen kann? Ich habe bereits vergeblich gesucht ...
ich denk mal, "search engine", "algorithms","ranking","PageRank" wären keine allzu schlechten stichworte für den Anfang? Es gibt sogar dicke Bücher dazu: Google's Pagerank and Beyond: The Science of Search Engine Rankings: Amazon.de: Amy N. Langville, Carl D. Meyer: Englische Bücher (gelesen hab ich's nicht)
Außerdem: Habt Ihr irgendwelche Tipps/Anmerkungen etc?
Vielleicht wär's nicht schlecht google einzusetzen, bevor man sich an den entwurf eigener suchmachinen wagt? ;)
 
C

COLLAB

Gast
Bitte nicht falsch verstehen! Es geht mir nicht darum, eine "Suchmaschiene" zu schreiben! Ich habe eine URL und prüfe, ob die zugehörige Seite "böse" ist.

"Böse" bedeutet, dass sie nicht angemessene Inhalte enthält, z.B. Pronografie (es wird (k)ein Spaß, solche Seiten zum testen zu suchen ....). Aber das Programm sollte dann doch differenzieren zwischen z.B. einem Wikipediaartikel über biologische Merkmale des Menschen und einer "komerziellen" Seite halt. Also nicht ich schreib das Wort "s**" in die Blacklist und alle diese Worte sind gesperrt. Das wäre zu platt!

Gruß!
 
G

Gast2

Gast
Bitte nicht falsch verstehen! Es geht mir nicht darum, eine "Suchmaschiene" zu schreiben! Ich habe eine URL und prüfe, ob die zugehörige Seite "böse" ist.

"Böse" bedeutet, dass sie nicht angemessene Inhalte enthält, z.B. Pronografie (es wird (k)ein Spaß, solche Seiten zum testen zu suchen ....). Aber das Programm sollte dann doch differenzieren zwischen z.B. einem Wikipediaartikel über biologische Merkmale des Menschen und einer "komerziellen" Seite halt. Also nicht ich schreib das Wort "s**" in die Blacklist und alle diese Worte sind gesperrt. Das wäre zu platt!

Gruß!

Da begibst du dich auf eine wage Reise in die Tiefen den semantischen web ;)

Musst halt eine Reihe von Merkmalen aussuchen, die Seite laden, die Merkmale auswerten und dann gucken ob das ok ist oder nicht.

z.B.
1) Metadaten (z.B. Schlagworte) die schon angegeben sind auswerten
2) URL filtern nach gewissen Schlagworten und Kombinationen
3) Heuristik über textuellen Pagecontent: Vorkommen von Worten aus einem definierten Dictionary Blacklist
Für jedes Wort rechne +1, evtl wenn es ein gaaaaaanz schlimmes wort ist rechne +2 oder +3
Da sind wir dann aber auch bei der Sache mit der Semantik - Ist Schwanz und ein Riemen das Gleiche/Selbe? Wenn jemand schreibt "Da wurde aber XYZ vergewaltigt!" meint er damit eine Person oder evtl z.B. eine Framework das falsch eingesetzt wird?
4) Heuristik über Bilder? Da wird es schon sehr aufwändig. Da kannst du als erstes versuchen das ALT attribut auszuwerten - das wird dich in 90% der Fälle nicht weiterbringen wenn es überhaupt gesetzt ist, als zweites den Dateinahmen analysieren. Sonst darfst du anfangen Bildanalyse Algorithmen zu implementieren mit denen du primäre und sekundäre Geschlechtsorgane, Blut, Gewaltdarstellungen etc. identifizieren kannst ;)
5) Über Flahs und embedded Viedoes wollen wir mal nichts weiter sagen...

Am ende deinen Zahlenwert ansehn und entscheiden ob er über oder unter einem einstellbaren threshold liegt.

Also im Endeffekt bleibt dir nicht viel mehr übrig als Google und konsorten auch machen - von daher - siehe Links oben ;)
 
Zuletzt bearbeitet von einem Moderator:

0x7F800000

Top Contributor
"Böse" bedeutet, dass sie nicht angemessene Inhalte enthält, z.B. Pronografie
Willst du das Surfen irgendwie "kindgerechter" gestalten, oder was? Naja, auf der Client-Seite kann man da imho grundsäzlich kaum etwas ausrichten. Da sind die Kinder meiner meinung nach wesentlich leichter zu programmieren, als Computer: den kann man auch in Worten erklären, was da im Internet los ist... Naja, zumindest mit >12 Jährigen wird's wohl irgendwie gehen, wenn man da aber 6-jährige auf der riesigen Müllhalde-Internet spielen lässt, dann könnt' ich mir gut vorstellen, dass sie dadurch einen Totalschaden kriegen :autsch:
(es wird (k)ein Spaß, solche Seiten zum testen zu suchen ....)
was'n, geht die Produktivität runter, wenn man mit solchen Inhalten arbeitet? :lol:
Bitte nicht falsch verstehen! Es geht mir nicht darum, eine "Suchmaschiene" zu schreiben! Ich habe eine URL und prüfe, ob die zugehörige Seite "böse" ist.
naja, wo ist der große unterschied?... Es ist doch ein gutes Kriterium: wenn man weiß, dass eine Seite von 50 Pornoseiten verlinkt wird, und selbst auch massenweise Links auf andere bereits bekannte Pornoseiten enthält, dann ist es wahrscheinlich nicht die Webpräsenz eines Instituts für Astrophysik. Also, da scheint's mir schon eine gute idee zu sein, "Linkpopularität" auszuwerten, wie die Suchmaschinen das auch tun.
Aber das Programm sollte dann doch differenzieren zwischen z.B. einem Wikipediaartikel über biologische Merkmale des Menschen und einer "komerziellen" Seite halt. Also nicht ich schreib das Wort "s**" in die Blacklist und alle diese Worte sind gesperrt. Das wäre zu platt!
Naja, einen sachlichen Text und irgendeinen pornographischen Kram kann man wahrscheinlich schon recht gut auseinanderhalten: auf Seiten mit fraglichen Inhalten findet man zB. keine wissenschaftlichen Fachbegriffe, und in der Wikipedia findet man keinen vulgären Jargon.

Zudem kann man einfach die Anzahl der <image> und <object> - tags zusammenzählen: da bekommt man doch schon einen eindruck, ob es auf der Seite haupsächlich um text & information oder um *hust* "bildchen" geht.

fassy hat gesagt.:
Sonst darfst du anfangen Bildanalyse Algorithmen zu implementieren mit denen du primäre und sekundäre Geschlechtsorgane, Blut, Gewaltdarstellungen etc. identifizieren kannst
stark blurren & auflösung auf 20x30 runterschrauben, die "hautfarbenen"-Quadrate zusammenzählen? :bahnhof:

Wie soll man aber "Gewaltdarstellungen" filtern... ???:L
Bei alten Ego-shootern könnte man vielleicht alle waffen einscannen, die größtenteils immer auf derselben Position auf dem Bildschirm bleiben. Alte Counterstrike-Videos könnte man so vielleicht ganz gut erkennen. Aber bei neuen geht sowas gar nicht mehr...
Und ob in einem Video die Leute tanzen oder sich umarmen oder sich Prügeln oder friedlich boxen: ne, das kriegt man sicher nicht mit irgendeiner software hin, das kann man vergessen, zumindest bis die KI da ist, aber dann werden die Kinder eh überflüssig^^
 
Zuletzt bearbeitet:

guni

Bekanntes Mitglied
Hi,

ich schließe mich mal der Diskussion an, weil ich das Thema interessant finde.

@0x7F800000:
was willst du denn mit diesem Programm erreichen?
wen willst du schützen? Kinder?
Wie willst du das Ganze dann technisch einbinden?
Ich sag mal so: wenn einer bewusst auf solche Seiten will, dann kommt er meiner Meinung auch hin.
Und ein Programm zu schreiben, dass uns Menschen zum Guten hin erzieht? Hmm ...

Aber weil du fragst unter welchem Fachausdruck du googeln kannst; da hätte ich einen etwas unkonventionellen Vorschlag für dich: Such doch mal nach "Christian Content Filter". Seriöse Christen setzen sich glaub ich schon länger mit solchen Themen auseinander - und sind sicher auch bereit, da programmiertechnische Tipps zu geben ;-)

lg, guni
 

guni

Bekanntes Mitglied
Muss ich das jetzt ausführen und mit dem aktuellen Kontext in Verbindung bringen, oder ist der Sarkasmus auch so schon giftig genug?

Oh. Ja. Verstehe. Für mich ist das, was aktuell in den Medien präsentiert wird so weit weg von "seriösen Christen" dass ich da beim Schreiben nicht mal irgendwie eine gedankliche Assoziation hergestellt habe.
Aus meiner Sicht würden solche Fälle nicht passieren, wenn kat. Priester heiraten würden, so, wie es die Bibel für einen Verantwortungsträger in einem Gemeindeamt meinem Verständnis nach auch nahelegt!

Wie auch immer. Wie geht es dir mit deinem Java-Problem?!
 

Empire Phoenix

Top Contributor
Ich würde ja lieber nur die (bekannten)schlimmsten Seiten filtern und dem Rest des Verständnisses des Kindes lassen, sowie es nicht unter einem gewissen alter länger alleine surfen lassen.
(Mal ehrlich dann soll es lieber cs1.6 zocken als auf 4chan zu treffen XD (und nein das soll kein Flamewar werden , aber ich deke man kann verstehen was ich meine)

Bilder könnteste versuchen durch die google (Bildersuche) filter zu filtern die sind da wahrschenlich besser als alles was du selber hinbekommen wirst.
 

0x7F800000

Top Contributor
Aus meiner Sicht würden solche Fälle nicht passieren, wenn kat. Priester heiraten würden
Wenn diese Lebensart nicht mehr als Ausrede für die eigene Unfähigkeit eine Partnerin zu finden dienen kann, wozu ist es dann überhaupt noch gut? Wobei... In USA dürfen auch schwule Priester heiraten, trotzdem sind da irgendwie >70% christen oder so ähnlich^^
=> Ich verstehe diese Dynamik nicht. Ist mir ehrlich gesagt auch egal. Katholische Priester sind inzwischen größtenteils harmlos, und im vergleich zu manchen anderen Gruppierungen sogar beinahe sympathisch. Sollen sie doch machen was sie wollen: solang sie die USA nicht zu einem Gottesstaat erklären, stören die mich nicht.
Wie auch immer. Wie geht es dir mit deinem Java-Problem?!
Zum zweiten Mal jetzt: ich hab gar kein Problem, ich bin nicht COLLAB.
 
Zuletzt bearbeitet:

JanHH

Top Contributor
Find das gerade sehr merkwürdig..

a) es hat nichts mit java zu tun, schon gar nicht mit "java-Anfängerfragen"
b) jemand, der sowas in einem Forum für "java-Anfängerfrage" fragt, ist sich offenbar der Komplexität seines vorhabens nicht Ansatzweise bewusst. Denke daher, von vorneherein zum Scheitern verurteilt.
 
Ähnliche Java Themen
  Titel Forum Antworten Datum
M Variablen Werte nach setzen, bei Abfrage wieder alter Wert Java Basics - Anfänger-Themen 11
D Map<String, Integer> sortieren und der reinfolge nach die Glieder abfragen Java Basics - Anfänger-Themen 3
S nach Import von jars (PLC4x) in Eclipse kann nicht mehr compiliert werden Java Basics - Anfänger-Themen 9
S Java: Wie sortiere ich eine ArrayList benutzerdefinierter Objekte nach einem bestimmten Attribut? Java Basics - Anfänger-Themen 2
M Queue-Datenstruktur: nach dem Elementen entfernen, das Ergebnis ist immer noch nicht optimal. Java Basics - Anfänger-Themen 3
N Hey Leute und zwar versuche ich gerade ein 2D Spiel zu Programmieren aber die Figur will sich nicht nach links oder rechts bewegen :( Java Basics - Anfänger-Themen 12
H Liste nach String-Länge sortieren Java Basics - Anfänger-Themen 1
I Bild richtig speichern / Hochkant im File Explorer, nach Upload vertikal Java Basics - Anfänger-Themen 9
D Wie kann man in Java nach Arrays auf Duplikate prüfen Java Basics - Anfänger-Themen 12
C Probleme mit Byte konvertieren nach int Java Basics - Anfänger-Themen 10
T sortierung der eingabe nach größe Java Basics - Anfänger-Themen 5
G Bei dynamischer Arrayliste nach jeder Auswahl Zahl entfernen Java Basics - Anfänger-Themen 3
ptcho Werte/Position nach dem Funktionsaufruf tauschen? Java Basics - Anfänger-Themen 1
K Warum wird mir hier nach dem ersten Durchlauf zwei mal "welchen Datentyp wollen sie übergeben?" ausgegeben ? Java Basics - Anfänger-Themen 1
H Cast von Float nach String klappt nicht Java Basics - Anfänger-Themen 12
W LocalDate toString und nach Split falsch "erkannt"? Java Basics - Anfänger-Themen 8
B Array nach Elementwerten sortieren? Java Basics - Anfänger-Themen 1
S Größte Zahl nach Eingabe der Zahl 0 ausgeben Java Basics - Anfänger-Themen 6
I Java Mail Timeout erst nach rund 5 Minuten? Java Basics - Anfänger-Themen 9
FireHorses Einen Command erst nach einer Chateingabe aktivieren Java Basics - Anfänger-Themen 1
izoards Sortier Algorithmus für Bounding Box Elememte Links nach Rechts und von Oben nach Unten Java Basics - Anfänger-Themen 33
Jambolo Karten sortieren nach Rang und Farbe Java Basics - Anfänger-Themen 5
Lion.King Subtraktion nach Eingabe im Terminal Java Basics - Anfänger-Themen 7
D Programmieren nach UML Java Basics - Anfänger-Themen 2
rosima26 Java nach letzter Ziffer sortieren Java Basics - Anfänger-Themen 19
H Kompliziertes Sortieren einer ArrayList mit Objekten(Sortieren nach X und Y) Java Basics - Anfänger-Themen 11
H Erste Schritte Nach einer Zahl n soll n Mal der String untereinander ausgegeben werden Java Basics - Anfänger-Themen 3
volcanos List & ArrayList nach Familiennamen abfragen Java Basics - Anfänger-Themen 57
sserio Wie kann man nach einer Klasse fragen? Java Basics - Anfänger-Themen 12
S Java Client-je nach Heap Size Größe startet Applikation oder nicht Java Basics - Anfänger-Themen 4
A String split funktioniert nicht, wenn mehr als 1 Ziffer vor dem Zeichen steht nach dem er trennen soll? Java Basics - Anfänger-Themen 4
F Suche nach betreuender Person für eine Jahresarbeit der 12. Klasse. Java Basics - Anfänger-Themen 6
F nach Methode Programm nicht beenden Java Basics - Anfänger-Themen 9
E Umlaute und Sonderzeichen werden nach der Build Project nicht richtig angezeigt Java Basics - Anfänger-Themen 2
M Bei nach oben scrollen soll Seite aktualisiert werden (Userscript mit Javascript) Java Basics - Anfänger-Themen 10
K log4j nach log4j2 überführen Java Basics - Anfänger-Themen 0
javapingu Jeglichen Inhalt einer Textdatei nach Zeile n löschen Java Basics - Anfänger-Themen 8
J Nach dem Exportieren funktioniert mein Programm nicht mehr Java Basics - Anfänger-Themen 8
P Datei einlesen, nach Begriff filtern und in Datei ausgeben. Problem Standardausgabe über Konsole Java Basics - Anfänger-Themen 19
B Array nach Wert prüfen rekursiv Java Basics - Anfänger-Themen 5
CptK For-Schleife in Thread nach jedem Durchlauf pausieren Java Basics - Anfänger-Themen 35
D Primzahlen Rechner nach Eratostenes von Kyrene Algorithmus Java Basics - Anfänger-Themen 2
rafi072001 Sortieren einer HashMap nach Values Java Basics - Anfänger-Themen 2
L Zahlungen nach Monat filtern Java Basics - Anfänger-Themen 2
J Jtable Eingabe nach Klick ausserhalb der Tabelle übernehmen Java Basics - Anfänger-Themen 6
I String nach Wort suchen Java Basics - Anfänger-Themen 6
C ArrayList sortieren nach bestimmten Buchstaben in den Wörtern Java Basics - Anfänger-Themen 13
javaluke Erste Schritte Array nach Datentyp sortieren Java Basics - Anfänger-Themen 16
D Methoden nach einer bestimmten Reihenfolge ausführen. Java Basics - Anfänger-Themen 20
idontknow707 Matrix nach z.B. Variable durchsuchen Java Basics - Anfänger-Themen 4
O 2D-Array nach einer Spalte sortieren Java Basics - Anfänger-Themen 22
I Liste gruppieren nach Monat? Java Basics - Anfänger-Themen 5
P Ein Objekt nach einem String durchsuchen? Java Basics - Anfänger-Themen 7
M Nach einer erstmaligen Eingabe, eine zweite Eingabe nur noch gegen bestätigung möglich Java Basics - Anfänger-Themen 2
D Input/Output fehlerhafter Algorithmus zum Ersetzen von Array-Werten nach logischem Schema Java Basics - Anfänger-Themen 1
C Meldung einer Klasse nach "oben" Java Basics - Anfänger-Themen 6
B Nach eingefügtem Code erkennt Compiler keine Instanzvar und meldet SyntaxError Java Basics - Anfänger-Themen 2
newcomerJava Nach doppelter Zahl eine Ausgabe Java Basics - Anfänger-Themen 10
M Anzahl Schleifendurchgänge nach x Sekunden anzeigen Java Basics - Anfänger-Themen 2
C Lotto 3, 4, 5, 6 Richtige nach x Ziehungen ermittelt.. Java Basics - Anfänger-Themen 7
G Primzahlen von Rekursiv nach Iterativ Java Basics - Anfänger-Themen 6
F JMenuItem Kann nicht nach einem String benannt werden... Java Basics - Anfänger-Themen 11
R JDK installieren Durcheinander nach installation von SE 14.02 Java Basics - Anfänger-Themen 6
P Sortieren von Listen nach Attributen Java Basics - Anfänger-Themen 3
B DateTimeFormatter nach LocalDateTime, wenn dd.MM.yyyy oder dd.MM.yyyy mm:hh Java Basics - Anfänger-Themen 5
1 main-Methode erweitern, Nachfrage nach wiedeholung Java Basics - Anfänger-Themen 2
G unklares Verhalten nach Instanzierung neuer Klasse Java Basics - Anfänger-Themen 3
S Wohin kommt das „abstract“? Vor oder nach „public“/ „private“ /... Java Basics - Anfänger-Themen 3
S Datenbank Befehl nach Login Java Basics - Anfänger-Themen 5
N Operatoren Schreibtischtest der Reihen-Suche nach Aufschluss in die Basics Java Basics - Anfänger-Themen 1
B Umstieg von C# nach Java Java Basics - Anfänger-Themen 18
Ellachen55 Wie nach häufigste Werte im Array suchen? Java Basics - Anfänger-Themen 2
M Untersuchen ob ein Graph nach entfernen einer Kante immer noch zusammenhängend ist Java Basics - Anfänger-Themen 70
N Wörter und Zahlen nach speziellen Wörtern ausgeben Java Basics - Anfänger-Themen 11
M Werte ändern sich nicht mehr nach Reset Java Basics - Anfänger-Themen 14
B Nach dem kompilieren werden Bilder nicht mehr gefunden Java Basics - Anfänger-Themen 10
X Nach einem Bruch testen ob es eine ganze Zahl ist Java Basics - Anfänger-Themen 6
B String nach erstem Leerzeichen trennen Java Basics - Anfänger-Themen 7
N Speichern von Werten in Variablen nach Schließen des Programms Java Basics - Anfänger-Themen 3
G String wird nach Einlesen aus Datei nicht erkannt Java Basics - Anfänger-Themen 3
CptK Best Practice Algorithmus nach jedem Schritt zum Visualisieren pausieren Java Basics - Anfänger-Themen 3
O zwei Arrays nach Werten durchsuchen und zusammenfügen Java Basics - Anfänger-Themen 3
M Double Wert nach n abschneiden ohne zu runden Java Basics - Anfänger-Themen 1
C Erste Schritte Bilder nach Export anzeigen Java Basics - Anfänger-Themen 0
F Input/Output Files von A nach B kopieren Java Basics - Anfänger-Themen 11
B InputStream (PDF) nach Image (PNG / JPG) konvertieren? Java Basics - Anfänger-Themen 2
O ADT Graph nach größe Abfragen Java Basics - Anfänger-Themen 42
O compareTo nach mehreren Kriterien Java Basics - Anfänger-Themen 13
R Benutzereingaben als Array abspeichern nach Programmstart Java Basics - Anfänger-Themen 5
S Pane nach speziellen Child Objekten durchsuchen Java Basics - Anfänger-Themen 3
V Neue Ausgabe von toString nach Methodenaufruf Java Basics - Anfänger-Themen 9
L Arrayliste von hinten nach vorne ausgeben Java Basics - Anfänger-Themen 10
F Array nach Objektattribut durchsuchen Java Basics - Anfänger-Themen 6
M Rationale Zahl erkennen - Kurze Frage zum Restwert nach Division Java Basics - Anfänger-Themen 3
O String von vorne nach hinten an einem Zeichen Java Basics - Anfänger-Themen 10
Hanschyo Quicksort sortiert von groß nach klein Java Basics - Anfänger-Themen 3
S suche nach varible POSITION ... fuer das pixel-maennchen Java Basics - Anfänger-Themen 4
A Einträge aus Tupeln nach Regeln in Liste speichern Java Basics - Anfänger-Themen 8
B String nach HTML formatieren Java Basics - Anfänger-Themen 9
Zrebna Compiler-Fehler Java-Compiler wird nach 'javac' keyword-Eingabe nicht gestartet (Erste Übung) Java Basics - Anfänger-Themen 18

Ähnliche Java Themen

Neue Themen


Oben