Maschinelles Lernen und Data Mining

Ertel, Wolfgang

doi:10.1007/978-3-658-32075-1_8

Wolfgang Ertel⁵

Part of the book series: Computational Intelligence ((CI))

32k Accesses

Zusammenfassung

Maschinelles Lernen dominiert heute Forschung und Anwendungen in der KI. Wir stellen in diesem Einführungskapitel einige einfache aber wichtige Lernalgorithmen zusammen mit wichtigen Begriffen und Methoden vor.

This is a preview of subscription content, log in via an institution to check access.

Access this chapter

Log in via an institution

Subscribe and save

Springer+ Basic

EUR 32.99 /Month

Get 10 units per month
Download Article/Chapter or Ebook
1 Unit = 1 Article or 1 Chapter
Cancel anytime

Subscribe now

Buy Now

Chapter: GBP 19.95; Price includes VAT (United Kingdom)

eBook: GBP 21.99; Price includes VAT (United Kingdom)

Softcover Book: GBP 27.99; Price includes VAT (United Kingdom)

Tax calculation will be finalised at checkout

Purchases are for personal use only

Institutional subscriptions

Notes

1.
Python ist eine moderne Skriptsprache mit sehr übersichtlicher Syntax, mächtigen Datentypen und umfangreicher Standardbibliothek, die sich für diesen Zweck anbietet.
2.
Der hochgestellte Index p für die Nummer eines Datenvektors wird hier und im Folgenden in Klammer gesetzt um Verwechslung mit der p-ten Potenz zu vermeiden.
3.
Vorsicht! Dies ist kein Konvergenzbeweis für die Perzeptron Lernregel. Es zeigt nur, dass das Perzeptron konvergiert, wenn die Trainingsdatenmenge aus einem einzigen Beispiel besteht.
4.
In diesem Beispiel und im Folgenden werden immer dann Dezimalpunkte statt Kommata verwendet, wenn Verwechslungsgefahr mit den Kommata zur Trennung der Vektorkomponenten besteht.
5.
Die Funktionale und bestimmen, ähnlich wie \(\min \) und \(\max \), Minimum oder Maximum einer Menge oder Funktion. Sie liefern aber nicht den Wert des Minimums oder Maximums, sondern die Stelle, an der dieses auftritt, also das Argument und nicht den Funktionswert des Minimums oder Maximums.
6.
Der Hamming-Abstand zweier Bit-Vektoren ist die Anzahl unterschiedlicher Bits der beiden Vektoren.
7.
Um das Beispiel einfach und anschaulich zu halten, wurde der Merkmalsvektor \({\boldsymbol{x}}\) bewusst eindimensional gehalten.
8.
Die Dreitagesneuschneesumme ist zwar eines der wichtigsten Merkmale zur Bestimmung der Gefahrenstufe. In der Praxis werden aber noch andere Attribute verwendet [Bra01]. Das hier verwendete Beispiel ist vereinfacht. Auch kann hier die Gefahrenstufe beliebige Werte zwischen eins und fünf annehmen im Gegensatz zur Praxis mit ganzzahligen Werten.
9.
Die Konfusionsmatrix ist der Spezialfall einer Kontingenztabelle mit zwei Merkmalen.
10.
In (7.9) wird zur Definition der Entropie der natürliche Logarithmus verwendet. Da hier und auch bei der MaxEnt-Methode nur Entropien verglichen werden, spielt dieser Unterschied keine Rolle (siehe Aufgabe 8.14).
11.
Besser wäre es allerdings, beim Pruning den Fehler auf den Testdaten zu verwenden. Zumindest dann, wenn die Zahl der Trainingsdaten ausreicht, um eine separate Testmenge zu rechtfertigen.
12.
Eine Skalierung der Merkmale ist für viele Verfahren des maschinellen Lernens notwendig oder vorteilhaft.
13.
Die Initialisierung der Clustermittelpunkte auf beliebige Punkte, die keine Datenpunkte sind, kann zu leeren Clustern führen.
14.
Der Nearest Neighbour-Algorithmus ist nicht zu verwechseln mit der Nearest Neighbour-Methode zur Klassifikation aus Abschn. 8.3.
15.
Ein minimal aufspannender Baum ist ein zyklenfreier ungerichteter Graph mit minimaler Summe der Kantenlängen.

Literatur

Rich, E.: Artificial Intelligence. McGraw-Hill, 1983
Google Scholar
Riedmiller, M. ; Gabel, T. ; Hafner, R. ; Lange, S. ; Lauer, M.: Die Brainstormers: Entwurfsprinzipien lernfähiger autonomer Roboter. In: Informatik-Spektrum 29 (2006), Nr. 3, S. 175–190
Google Scholar
Pedregosa, F. ; Varoquaux, G. ; Gramfort, A. u. a.: Scikit-learn: Machine Learning in Python. In: Journal of Machine Learning Research 12 (2011), S. 2825–2830. – https://scikit-learn.org
Mitchell, T.: Machine Learning. McGraw Hill, 1997. – www-2.cs.cmu.edu/~tom/mlbook.html
Rosenblatt, F.: The perceptron : a probabilistic model for information storage and organization in the brain. In: Psychological Reviews 65 (1958), S. 386–408. – Wiederabdruck in [AR88], S. 92–114
Google Scholar
Minsky, M. ; Papert, S.: Perceptrons. MIT Press, Cambridge, MA, 1969
Google Scholar
Schaal, S. ; Atkeson, C.G.: Robot juggling: implementation of memory-based learning. In: IEEE Control Systems Magazine 14 (1994), Nr. 1, S. 57–71
Google Scholar
Schneider, M. ; Ertel, W.: Robot Learning by Demonstration with Local Gaussian Process Regression. In: Proceedings of the IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS’10), 2010
Google Scholar
Brabec, B.: Computergestützte regionale Lawinenprognose, ETH Zürich, Diss., 2001
Google Scholar
Cleveland, W.S.: Robust Locally Weighted Regression and Smoothing Scatterplots. In: Journal of the American Statistical Association 74 (1979), Nr. 368, S. 829–836
Google Scholar
Richter, M.: Fallbasiertes Schließen. In: [GRS03], Kapitel 11, S. 407–430
Google Scholar
Quinlan, J. R.: C4.5: Programs for Machine Learning. Morgan Kaufmann Publishers, 1993. – Download C4.5: www.rulequest.com/Personal, C5.0: www.rulequest.com
Breiman, L. ; Friedman, J. ; Olshen, R. A. ; Stone, C. J.: Classification and regression trees. Wadsworth, 1984
Google Scholar
Shannon, C.E. ; Weaver, W.: Mathematische Grundlagen der Informationstheorie. Oldenbourg Verlag, 1976
Google Scholar
Ertel, W. ; Schramm, M.: Combining Data and Knowledge by MaxEnt-Optimization of Probability Distributions. In: PKDD’99 (3rd European Conference on Principles and Practice of Knowledge Discovery in Databases) Bd. 1704. Prague : Springer Verlag, 1999 (LNCS), S. 323–328
Google Scholar
Schramm, M. ; Ertel, W.: Reasoning with Probabilities and Maximum Entropy: The System PIT and its Application in LEXMED. In: al, K. I. (Hrsg.): Operations Research Proceeedings (SOR’99), Springer Verlag, 2000, S. 274–280
Google Scholar
Ertel, W.: Advanced Mathematics for Engineers. Vorlesungsskript Hochschule Ravensburg-Weingarten: http://www.hs-weingarten.de/~ertel/vorlesungen/mae/matheng-skript.pdf, 2015
Jensen, F. V.: Bayesian networks and decision graphs. Springer-Verlag, 2001
Google Scholar
Melancon, G. ; Dutour, I. ; Bousque-Melou, G.: Random Generation of Dags for Graph Drawing/Dutch Research Center for Mathematical and Computer Science (CWI). 2000 (INS-R0005). – Forschungsbericht
Google Scholar
Duda, R.O. ; Hart, P.E. ; Stork, D.G.: Pattern Classification. Wiley, 2001
Google Scholar
Rousseeuw, P. J.: Silhouettes: a Graphical Aid to the Interpretation and Validation of Cluster Analysis. In: Computational and Applied Mathematics 20 (1987), S. 53–65
Google Scholar
Jordan, Michael I. (Hrsg.): Learning in graphical models. Cambridge, MA, USA : MIT Press, 1999
Google Scholar
Hastie, T. ; Tibshirani, R. ; Friedman, J.: The Elements of Statistical Learning: Data Mining, Inference, and Prediction. 3rd. Springer, Berlin, 2009. – Online version: http://www-stat.stanford.edu/~tibs/ElemStatLearn/
Schwartz, A.: SpamAssassin. O’Reilly, 2004. – Spamassassin-Homepage: http://spamassassin.apache.org
Turing, A.M.: Computing Machinery and Intelligence. In: Mind 59 (1950), S. 433–460. – Deutsche Übersetzung mit dem Titel Kann eine Maschine denken in [ZW94]
Google Scholar
Zdziarski, J.: Ending Spam. No Starch Press, 2005
Google Scholar
Tax, D.M.J.: One-class classification, Delft University of Technology, Diss., 2001
Google Scholar
Breunig, M. ; Kriegel, H.P. ; Ng, R. ; Sander, J.: LOF: identifying density-based local outliers. In: ACM sigmod record 29 (2000), Nr. 2, S. 93–104
Google Scholar
Schneider, M. ; Ertel, W. ; Palm, G.: Expected Similarity Estimation for Large-Scale Batch and Streaming Anomaly Detection. In: Machine Learning (2016). – accepted
Google Scholar
Barros, R. C. ; Jaskowiak, P. A. ; Cerri, R. ; Carvalho, A. C.: A framework for bottom-up induction of oblique decision trees. In: Neurocomputing 135 (2014), S. 3–12
Google Scholar
Witten, I. ; Frank, E.: Data Mining. Hanser Verlag München, 2001. – Von den Autoren in Java entwickelte DataMining Programmbibliothek WEKA: (www.cs.waikato.ac.nz/~ml/weka)
Rasmussen, C.E. ; Williams, C.K.I.: Gaussian Processes for Machine Learning. Mit Press, 2006. – Online version: http://www.gaussianprocess.org/gpml/chapters/
Bishop, C.M.: Pattern recognition and machine learning. Springer New York:, 2006
Google Scholar
Goodfellow, I. ; Bengio, Y. ; Courville, A.: Deep Learning. MIT Press, 2016. – http://www.deeplearningbook.org
Flach, Peter: Machine Learning: The Art and Science of Algorithms that Make Sense of Data. Cambridge University Press, 2012
Google Scholar
D.J. Newman, C.L. B. S. Hettich H. S. Hettich ; Merz, C.J.: UCI Repository of machine learning databases. http://archive.ics.uci.edu/ml, 1998

Download references

Author information

Authors and Affiliations

Institut für Künstliche Intelligenz, Hochschule Ravensburg-Weingarten, Weingarten, Deutschland
Wolfgang Ertel

Authors

Wolfgang Ertel
View author publications
You can also search for this author in PubMed Google Scholar

Corresponding author

Correspondence to Wolfgang Ertel .

Rights and permissions

Reprints and permissions

Copyright information

About this chapter

Cite this chapter

Ertel, W. (2021). Maschinelles Lernen und Data Mining. In: Grundkurs Künstliche Intelligenz. Computational Intelligence. Springer Vieweg, Wiesbaden. https://doi.org/10.1007/978-3-658-32075-1_8

Download citation

DOI: https://doi.org/10.1007/978-3-658-32075-1_8
Published: 24 September 2021
Publisher Name: Springer Vieweg, Wiesbaden
Print ISBN: 978-3-658-32074-4
Online ISBN: 978-3-658-32075-1
eBook Packages: Computer Science and Engineering (German Language)

Publish with us

Policies and ethics