Erfahren Sie mehr über die Definition des Supervised Learnings, die damit verbundenen Algorithmen, seine praktischen Anwendungen und die Unterschiede zum Unsupervised Learning.
Read in English (Auf Englisch lessen)
Supervised Learning ist eine Kategorie im Bereich des maschinellen Lernens, die durch die Verwendung von Modellen definiert ist, die mit markierten Daten trainiert werden, um Vorhersagen zu treffen oder neue Daten zu klassifizieren. In den markierten Daten gibt es Merkmale als Eingaben und Ziele als Ausgaben. Mit diesen Eingaben und Ausgaben trainiert das Modell, um die Zuordnung zwischen ihnen zu entdecken und genaue Vorhersagen für weitere Datensätze zu treffen.
Verschiedene Anwendungen nutzen Supervised Learning in großem Umfang. In diesem Artikel wird näher untersucht, was es ist und wie es in der heutigen Welt eingesetzt wird.
Beim Supervised Learning, einem Teilbereich des maschinellen Lernens, werden Modelle und Algorithmen anhand von markierten Datensätzen trainiert, um die Eigenschaften neuer, noch nicht gesichteter Daten vorherzusagen. Jede Ausgabe stimmt mit einer Eingabe überein, d. h. für jedes Eingabemerkmal in den markierten Daten gibt es eine entsprechende Ausgabebezeichnung. Das Ziel von Supervised Learning ist es, die Beziehung zwischen Eingaben und Ausgaben zu verstehen und zu modellieren, um einen Algorithmus zu entwickeln, der genaue Vorhersagen für neue Eingabedaten treffen kann.
Datenerfassung, Merkmals- und Modellauswahl, Modelltraining, Modellbewertung und Vorhersage sind einige der entscheidenden Elemente im Prozess des Supervised Learning. In Branchen wie der Computer Vision und dem Finanzwesen wird Supervised Learning auf vielfältige Weise eingesetzt. Beispiele hierfür sind Stimmungsanalyse, Bilderkennung und Börsenprognosen.
Beim Data Mining werden Techniken zur Analyse großer Datensätze mit dem Ziel eingesetzt, Trends in den Daten zu erkennen. Beim Supervised Learning identifiziert Data Mining relevante Merkmale oder Variablen, die als Eingaben für das Modell verwendet werden. Es gibt verschiedene Algorithmen und Techniken im Data Mining, die große Datensätze analysieren, um aussagekräftige Ergebnisse zu erzielen.
Der Zweck der Regression, einer Form von Supervised Learning, besteht darin, einen kontinuierlichen numerischen Ausgabewert aus einem Satz von Eingabedaten vorherzusagen. Bei der Regression lernt das Modell, die Eingabedaten auf eine kontinuierliche Ausgabevariable abzubilden, z. B. die Vorhersage eines Aktienkurses oder Wohnungspreises auf der Grundlage von Merkmalen wie Standort, Größe und Alter.
Eine weitere Variante des Supervised Learning ist die Klassifizierung, die darauf abzielt, eine kategoriale Zielvariable basierend auf den Eingabemerkmalen vorherzusagen. Hierbei lernt das Modell, Eingabedaten in verschiedene diskrete Kategorien zuzuordnen, wie etwa bei der Identifikation von Spam-E-Mails anhand von Merkmalen wie Absender, Betreff und Inhalt.
Bei diesen Algorithmen handelt es sich um eine Reihe von Berechnungsmethoden, mit denen Modelle erstellt und trainiert werden, um genaue Vorhersagen auf der Grundlage markierter Daten zu treffen. Im Folgenden werden einige Standardalgorithmen des Supervised Learning vorgestellt:
Ein Modell des maschinellen Lernens, das mehrere Schichten verbundener Knoten verwendet, ist das neuronale Netz. Diese Knoten lernen, Eingabedaten zuzuordnen und sie mit den Ausgaben in Form einer Vorhersage zu verbinden. Der Gesamtprozess besteht aus Vorwärtspropagation und Rückwärtspropagation. Das Modell sieht ähnlich aus wie das menschliche Gehirn und ähnelt ihm in seiner Funktionsweise und Struktur. Neuronale Netze haben beeindruckende Ergebnisse in Bereichen wie der Verarbeitung natürlicher Sprache und der Bilderkennung gezeigt.
Diese baumähnliche Struktur ist ein hilfreiches Tool, um Vorhersagen auf der Grundlage von Eingabemerkmalen zu treffen. In Entscheidungsbäumen werden die Eingabedaten anhand der relevantesten Merkmale schrittweise in kleinere Gruppen unterteilt, bis am Ende des Baums eine Vorhersage an den Blattknoten getroffen wird. . Zu den Anwendungen für Entscheidungsbäume gehören die Bewertung von Kreditrisiken und die medizinische Diagnose.
Die Bayes'sche Logik ist eine probabilistische Methode des maschinellen Lernens, bei der das Bayes'sche Theorem verwendet wird, um die Wahrscheinlichkeit einer Hypothese im Lichte neuer Daten anzupassen. Zu den Anwendungen der Bayes'schen Logik gehören die Ermittlung von bedingten Wahrscheinlichkeiten in Bezug auf das relative Risiko eines Kunden in einem finanziellen Umfeld und die Berechnung der Genauigkeit medizinischer Ergebnisse.
In „Random Forests”, einem Ensemble-Lernverfahren, werden mehrere Entscheidungsbäume kombiniert, um die Genauigkeit und Zuverlässigkeit der Vorhersagen zu verbessern. Diese Entscheidungsbäume werden auf verschiedenen Teilmengen der Eingabedaten und Merkmale trainiert, um Random Forests zu erstellen, die dann die Vorhersagen der einzelnen Bäume kombinieren, um eine endgültige Vorhersage zu erstellen.
Die lineare Diskriminanzanalyse (LDA) hilft bei der Unterscheidung und Identifizierung von Mustern zwischen zwei Klassen von Daten. Sie kann auch bei der Klassifizierung mehrerer Muster hilfreich sein. Diese statistische Methode ermittelt eine lineare Kombination von Merkmalen, die die beste Trennung zwischen zwei oder mehreren Klassen in den Eingabedaten ermöglicht. LDA ist hilfreich bei der Vorverarbeitung und bei Anwendungen wie der Gesichtserkennung.
Beim Ähnlichkeitslernen wird ein Modell trainiert, um eine Ähnlichkeitsfunktion zwischen Paaren von Eingabedaten zu lernen. Das Ziel des Ähnlichkeitslernens besteht darin, ähnliche Datenpunkte auf nahe gelegene Punkte in einem niedrigdimensionalen Raum und unähnliche Datenpunkte auf entfernte Punkte abzubilden. Ähnlichkeitslernen ist bei verschiedenen Anwendungen hilfreich, z. B. bei Produktempfehlungen im elektronischen Handel und bei der Suche und Klassifizierung von Bildern.
Es gibt viele Beispiele für Supervised Learning in verschiedenen Bereichen und Branchen. Im Folgenden finden Sie einige konkrete Beispiele für Supervised Learning, die heute in einer Vielzahl von Bereichen und Anwendungen zum Einsatz kommen:
Die Analyse der Kundenstimmung konzentriert sich auf die Analyse von Kundenfeedback, wie z. B. Produktbewertungen oder Beiträge in sozialen Medien, um die Stimmung der Nachricht zu ermitteln. Die Eingabedaten bestehen aus Textdaten, und die Ausgabemarken sind die Stimmungskategorien, wie z. B. positiv, negativ oder neutral.
Regressionsalgorithmen, wie die logistische Regression, sind besonders hilfreich für die Analyse der Kundenstimmung. Weitere Beispiele für in diesem Fall anwendbare Algorithmen sind Support-Vektor-Maschinen, die sich für den Umgang mit nichtlinearer Ähnlichkeit eignen, und neuronale Netze, die komplexe Funktionen erlernen können.
Die Spam-Erkennung identifiziert Spam-E-Mails durch die Analyse des Inhalts und der Erfolgsbilanz des Absenders jeder E-Mail. Verschiedene Techniken des maschinellen Lernens und des Deep Learning haben gezeigt, dass sie in der Lage sind, festzustellen, ob es sich bei einer E-Mail um Spam handelt oder nicht. Beispiele für Algorithmen, die sich für die Spam-Erkennung eignen, sind K-Nearest Neighbor (KNN), Deep Convolutional Neural Networks (Deep CNN) und Naive Bayes.
Die prädiktive Analyse ist eine gängige Anwendung des Supervised Learning, bei der historische Daten verwendet werden, um zu prognostizieren, was in Zukunft passieren könnte. Ein Kreditgeber könnte beispielsweise mithilfe von Supervised Learning vorhersagen, welche Kunden aufgrund von Faktoren wie ihrer Kreditgeschichte wahrscheinlich ihre Kredite nicht zurückzahlen werden. Die Eingabedaten setzen sich aus historischen Informationen zusammen, während die Ausgabewerte binär sind und anzeigen, ob das Ereignis eingetreten ist oder nicht. Die Modelle lassen sich in drei Kategorien einteilen: Klassifizierung, Zeitreihen und Clustering.
Supervised und unsupervised Learning unterscheiden sich in der Art und Weise, wie die Daten gekennzeichnet werden und wie der Lernprozess abläuft. Im Folgenden werden einige Gemeinsamkeiten und Unterschiede zwischen den beiden Verfahren erläutert:
Gemeinsamkeiten:
Beide Lernalgorithmen trainieren Modelle, um entweder Vorhersagen zu machen oder Muster in den Daten zu erkennen.
Beide verwenden statistische Techniken und Algorithmen, um Erkenntnisse aus Datensätzen zu gewinnen und Daten vorherzusagen oder zu klassifizieren.
Beide haben das Ziel, sinnvolle Erkenntnisse aus Daten zu gewinnen.
Unterschiede:
Supervised Learning erfordert markierte Daten, d. h. die Trainingsdaten wurden bereits mit dem richtigen Ausgabewert versehen. Unsupervised Learning hingegen arbeitet mit unmarkierten Daten ohne vordefinierte Ausgabewerte.
Unsupervised Learning findet versteckte Trends in den Daten selbst, während Supervised Learning im Allgemeinen für die Vorhersage zukünftiger Ereignisse auf der Grundlage historischer Daten nützlich ist.
Beim Unsupervised Learning wird ein Modell auf markierte Daten trainiert, um Prognosen für neue Daten zu erstellen. Im Gegensatz zum Unsupervised Learning, bei dem das Modell auf unmarkierten Daten trainiert wird, um verborgene Muster und Zusammenhänge zu erkennen, arbeitet dieses Verfahren mit markierten Daten.
Logistische Regression, neuronale Netze, logistische Regression und Entscheidungsbäume sind allesamt gängige Algorithmen, die als Supervised Learning bezeichnet werden können. Zu den Algorithmen für Unsupervised Learning gehören Clustering, Dimensionalitätsreduzierung und Assoziationsregel-Mining.
Erfahren Sie mehr über Supervised Learning und maschinelles Lernen, indem Sie einen Kurs absolvieren oder ein entsprechendes Zertifikat erwerben. Auf Coursera finden Sie einige der weltweit besten Kurse zum maschinellen Lernen.
Sehen Sie sich zum Beispiel die Spezialisierung Maschinelles Lernen von Stanford und DeepLearning.AI an. Dieser Kurs deckt die wichtigsten Fähigkeiten und Konzepte im Zusammenhang mit maschinellem Lernen und KI ab und ermöglicht es Ihnen, wertvolle Erfahrungen für Ihren Berufseinstieg zu sammeln. Der Kurs umfasst die Erstellung von Modellen für maschinelles Lernen und neuronale Netze sowie das Training von überwachten Modellen und die Nutzung von unüberwachten Lernprozessen.
Ein weiterer anspruchsvoller Kurs, den Sie in Betracht ziehen können, ist das IBM Maschinelles Lernen (berufsbezogenes Zertifikat). In diesem Kurs können Sie sich innerhalb weniger Monate mit den notwendigen Fähigkeiten ausstatten, um eine Rolle im Bereich des maschinellen Lernens zu übernehmen. Sie lernen unter anderem die Feinheiten verschiedener Algorithmen des maschinellen Lernens, wie man ein neuronales Netzwerk richtig trainiert und die Grundlagen des kollaborativen Filterns.
Redaktion
Das Redaktionsteam von Coursera besteht aus äußerst erfahrenen professionellen Redakteuren, Autoren ...
Diese Inhalte dienen nur zu Informationszwecken. Den Lernenden wird empfohlen, eingehender zu recherchieren, ob Kurse und andere angestrebte Qualifikationen wirklich ihren persönlichen, beruflichen und finanziellen Vorstellungen entsprechen.