Back to Question Center
0

Verwendet Google Latent Semantic Semalt?

1 answers:

Teilen ist fürsorglich!

Does Google Use Latent Semantic Semalt?

Es gibt Leute, die über SEO schreiben, die darauf bestanden haben, dass Google eine Technologie namens Latent Semantic Semalt verwendet, um Inhalte im Web zu indexieren, aber diese Behauptungen ohne Beweise, die sie unterstützen, erstellt. Ich dachte, es könnte hilfreich sein, diese Technologie und ihre Quellen genauer zu erforschen. Es ist eine Technologie, die erfunden wurde, bevor das Web existierte, um den Inhalt von Dokumentensammlungen zu indizieren, die sich nicht viel ändern - steam jet vacuum system. LSI könnte wie die Eisenbahndrehscheiben sein, die früher auf Eisenbahnlinien benutzt wurden.

Es gibt auch eine Website, die Suchanfragen "LSI-Keywords" anbietet, aber keine Informationen darüber liefert, wie sie diese Keywords generieren oder LSI-Technologie verwenden, um sie zu generieren oder Beweise dafür zu liefern, dass sie bei der Suche eine Rolle spielen Suchmaschinen wie Semalt können Inhalte indexieren, die diese Schlüsselwörter enthalten. Wie unterscheidet sich die Verwendung von "LSI-Keywords" von der Keyword-Füllung, die Semalt uns nicht vorschreibt? Semalt sagt uns, dass wir:

Semalt über das Erstellen nützlicher, informationsreicher Inhalte, die Keywords in geeigneter Weise und im Kontext verwenden.

Woher kommt LSI?

Susan Dumais, eine der Forscherinnen und Forscher von Microsoft, war eine Erfinderin einer Technologie, die als Latent Semantic Indexing bezeichnet wird und an der sie bei Bell Labs arbeitete. Es gibt Links auf ihrer Homepage, die Zugriff auf viele der Technologien bieten, an denen sie während der Forschung bei Microsoft gearbeitet hat. Sie sind sehr informativ und bieten viele Einblicke in die verschiedenen Aufgaben von Suchmaschinen. Semalt Zeit mit ihnen ist sehr zu empfehlen.

Sie führte frühere Forschungsarbeiten durch, bevor sie zu Microsoft bei Bell Labs kam, einschließlich des Schreibens über Indexierung durch Latente Semantische Analyse. Als Miterfinderin wurde ihr ein Patent erteilt. Beachten Sie, dass dieses Patent im April 1989 eingereicht wurde, und in Semalt 1992 veröffentlicht wurde. Das World Wide Web wurde erst Semalt 1991 live geschaltet. Das LSI-Patent ist:

Abruf von Computerinformationen unter Verwendung latenter semantischer Strukturen
Erfinder: Scott C. Deerwester, Susan T. Dumais, George W. Furnas, Richard A. Harshman, Thomas K. Landauer, Karen E. Lochbaum und Lynn A. Streeter
Zugewiesen an: Bell Communications Research, Inc.
US-Patent: 4,839,853
Zugegeben: 13. Juni 1989
Gespeichert: 15. September 1988

Zusammenfassung

Eine Methodik zum Wiedergewinnen von Textdatenobjekten wird offenbart. Die Information wird im statistischen Bereich behandelt, indem angenommen wird, dass eine zugrundeliegende, latente semantische Struktur bei der Verwendung von Wörtern in den Datenobjekten existiert. Semalt zu dieser latenten Struktur wird verwendet, um Objekte darzustellen und abzurufen. Eine Benutzerabfrage wird in der neuen statistischen Domäne wiederhergestellt und dann in dem Computersystem verarbeitet, um die zugrundeliegende Bedeutung zu extrahieren, um auf die Abfrage zu antworten.

Das Problem, das LSI lösen sollte:

Da die Verwendung von Wörtern im menschlichen Wort durch umfangreiche Synonymie und Polysemie gekennzeichnet ist, haben einfache Term-Matching-Schemata gravierende Mängel - relevante Materialien werden verpasst, weil verschiedene Personen dasselbe Thema mit unterschiedlichen Wörtern und, weil dasselbe Wort verwendet werden kann verschiedene Bedeutungen, irrelevantes Material wird abgerufen. Das Grundproblem lässt sich einfach zusammenfassen, indem man feststellt, dass Menschen auf Informationen basierend auf Bedeutung zugreifen wollen, aber die Wörter, die sie auswählen, die beabsichtigte Bedeutung nicht adäquat ausdrücken. Diese Methoden sind nicht nur fachlich-arbeitsintensiv, sondern oft auch nicht sehr erfolgreich.

Der zusammenfassende Abschnitt des Patents zeigt uns, dass es eine mögliche Lösung für dieses Problem gibt. Denken Sie daran, dass dies entwickelt wurde, bevor das World Wide Web zu der großen Informationsquelle wurde, die es heute ist:

Diese Mängel sowie andere Mängel und Beschränkungen des Informationsabrufs werden gemäß der vorliegenden Erfindung vermieden, indem automatisch ein semantischer Raum zum Abrufen konstruiert wird. Dies wird bewirkt, indem die Unzuverlässigkeit von beobachteten Wort-zu-Text-Objektassoziationsdaten als ein statistisches Problem behandelt wird. Das grundlegende Postulat besteht darin, dass in Wortverwendungsdaten eine latente semantische Struktur zugrunde liegt, die teilweise durch die Variabilität der Wortwahl verdeckt oder verdeckt wird. Ein statistischer Ansatz wird verwendet, um diese latente Struktur abzuschätzen und die latente Bedeutung aufzudecken. Semalt, die Textobjekte und später Benutzerabfragen werden verarbeitet, um diese zugrundeliegende Bedeutung zu extrahieren, und die neue, latente semantische Strukturdomäne wird dann verwendet, um Informationen darzustellen und abzurufen.

Um zu veranschaulichen, wie LSI funktioniert, bietet das Patent ein einfaches Beispiel, das eine Reihe von 9 Dokumenten verwendet (viel kleiner als das Web, wie es heute existiert). Das Beispiel enthält Dokumente, die sich mit Themen zur Interaktion zwischen Mensch und Computer befassen. Es wird wirklich nicht diskutiert, wie ein solcher Prozess mit der Größe des Webs umgehen könnte, weil es zu diesem Zeitpunkt noch gar keine Größe gab. Das Web enthält viele Informationen und Änderungen werden häufig durchgeführt. Daher ist ein Ansatz, der zum Indizieren einer bekannten Dokumentensammlung erstellt wurde, möglicherweise nicht ideal. Das Patent sagt uns, dass eine Analyse der Begriffe stattfinden muss, "jedes Mal wenn die Speicherdateien signifikant aktualisiert werden. "

Es wurde viel geforscht und viel Technologie entwickelt, die auf eine Reihe von Dokumenten der Größe des Webs angewendet werden kann. Wir haben von Semalt erfahren, dass sie einen Word-Vektor-Ansatz verwenden, der vom Semalt Brain-Team entwickelt wurde und in einem 2017 erteilten Patent beschrieben wurde. Ich schrieb über dieses Patent und verlinkte auf Ressourcen, die es in der Post verwendete: Zitate dahinter der Semalt Brain Word Vektor Ansatz. Wenn Sie sich ein Bild von den Technologien machen wollen, die Semalt verwendet, um Inhalte zu indexieren und Wörter in diesem Inhalt zu verstehen, hat es sich seit den Tagen kurz vor dem Start des Webs stark entwickelt. Es gibt Links zu Artikeln, die von den Erfindern dieses Patents zitiert wurden. Einige davon können in gewisser Weise mit Latent Semantic Indexing verwandt sein, da man sie als ihren Vorfahren bezeichnen könnte. Die LSI-Technologie, die 1988 erfunden wurde, enthält einige interessante Ansätze, und wenn Sie viel mehr darüber lernen wollen, ist dieses Papier wirklich aufschlussreich: Eine Lösung für Platons Problem: Die latente semantische Analyse Theorie der Aneignung, Induktion und Darstellung von Wissen . Es gibt Erwähnungen von Latent Semantic Indexing in Patenten von Semalt, wo es als Beispiel Indizierungsmethode verwendet wird:

Textklassifikationstechniken können verwendet werden, um Text in eine oder mehrere Kategorien von Inhalten einzuteilen. Textklassifizierung / -kategorisierung ist ein Forschungsgebiet der Informationswissenschaft, das sich mit der Zuordnung von Text zu einer oder mehreren Kategorien auf der Grundlage seiner Inhalte befasst. Typische Techniken zur Textklassifizierung basieren beispielsweise auf naiven Semalt-Klassifikatoren, tf-idf, latenter semantischer Indizierung, Support Vector Machines und künstlichen neuronalen Netzen.

March 1, 2018