Musterlösung synonym

Präzision/Rückruf nach Muster. Ein Punktdiagramm mit Genauigkeit vs. Rückruf für alle generierten Muster. Jeder Punkt auf diesem entspricht einem Muster, das aus dem Testsatz generiert wird, und seinem Rückruf und seiner Genauigkeit, wenn er als einzige Variable für einen Klassifier verwendet wird. Wir kommen zu dem Schluss, dass bei Domänen mit einer großen Menge an spezifischem Vokabular die meisten der von uns untersuchten Ressourcen schlechter abschneiden als die automatische Methode, die wir hier entwickelt haben. Auch angesichts des Aufwands, der für den manuellen Bau einer Ressource erforderlich ist, kann sich die automatische Thesauruskonstruktion in vielen Situationen als nützlicher erweisen, entweder um den Bau zu unterstützen oder den manuellen Aufbau zu ersetzen. Noch wichtiger ist, dass wir gezeigt haben, dass wir leicht automatisch Muster finden können, und wir benötigen dafür keine Vorkenntnisse der Grammatik der Sprache. Obwohl die Muster, die wir erzeugten, von selbst schwach waren, haben wir gezeigt, dass wir durch die statistische Kombination ein viel stärkeres Ergebnis erzielen können. Wir haben auch gezeigt, dass wir nicht viele Synsets kennen müssen, um einen genauen Klassifier zu entwickeln; dies impliziert vor allem, dass diese Methode schnell auf einer anderen Sprache verwendet werden kann.

Wir haben unsere Methode nur auf einer begrenzten Domain getestet, aber wir glauben, dass sie wahrscheinlich gut auf andere Domains verallgemeinern würde. Unsere neuartige Synsetgruppierungsmethode wandelte das Ergebnis nicht nur in etwas Anwendbareres um, sondern verbesserte auch die Ergebnisse sowohl für eine strenge Definition von Synonymen als auch für eine entspanntere Definition. Wir haben entschieden, dass die beste Lösung darin besteht, zunächst eine große Anzahl von Mustern mit dem Trainingssatz zu generieren. Für jedes mögliche Begriffspaar generieren wir einen Feature-Vektor, der die Häufigkeit des Abgleichens dieses Begriffspaares mit jedem der generierten Muster darstellt. Dieser Feature-Vektor wird dann klassifiziert, und die hintere Wahrscheinlichkeit wird in unserem Synset-Bildungsalgorithmus verwendet, der unten beschrieben wird. Einer der Nachteile der meisten dieser Ansätze ist, dass sie nur binäre Klassifizierung geben, anstatt Synonymsätze auszuteilen. Für die praktische Anwendung dieses Problems ist eine einfache Liste von Synonymen aus mehreren Gründen viel wünschenswerter, erstens sind die Ergebnisse viel einfacher und einfacher zu speichern und zu arbeiten, da Sie nur die Gruppen anstelle der Synonymbeziehung zwischen den einzelnen Paaren auflisten müssen. Auch das Ergebnis ist selbstkonsistent, so dass wir kein Ergebnis erhalten, dass X gleichbedeutend mit Y ist, was gleichbedeutend mit Z ist, aber nicht, dass X gleichbedeutend mit Z ist.

Dies kann zu Problemen in Anwendungen führen, in denen nur ein einzelner Begriff verwendet wird, um das Synset darzustellen, z. B. eine Methode, die auf der Verwendung einer Ontologie basiert, kann einen Hauptbegriff für das Synset erfordern. In Ibekwe-Sanjuan & Sanjuan [13] wurde ein Versuch untersucht, das Ergebnis eines Begriffs Ähnlichkeitsklassifikums durch Graphenclustering zu verbessern[13], aber ihre Methode beruhte nicht auf Wahrscheinlichkeiten und die vorgeschlagene Clustering-Methode würde zu fragwürdigen Verhaltensweisen wie der Gruppierung eines Synsets führen, wenn die überwiegende Mehrheit der Verbindungen nicht auf Synonyme hindeuten, daher muss der Klassifikumer eine sehr hohe Genauigkeit haben. Unsere Arbeit steht in engem Zusammenhang mit der Arbeit in Snow et al [10] zur automatischen Entdeckung von Hypernymen. Um diese Muster zu finden, haben wir uns entschieden, ein System zu entwickeln, das auf Soderlands WHISK-System [14] basiert, da es regulären Ausdrucksabgleich verwendet und daher keine Vorkenntnisse in der Syntax der Sprache erfordert. Dort begannen sie mit einem Basismuster, das nur aus “*”s und Slots bestand, und wuchsen das Muster, indem sie jedes dieser “*”s durch ein Wort aus ihrem Korpus ersetzten. Sie versuchen dann, eine Reihe von Mustern zu finden, die die Gesamtleistung maximieren.

Comments Posted in Uncategorized