Choosing An Optimal K in K-Means Clustering

Identifier : | Catalog : URI Entry : http://traglor.cu.edu.tr/objects/objectFile/qO7TZaso-12102015-24.pdf |
|
|
Title : | K-Ortalamalar Kümelemesinde Optimum K Değeri Seçilmesi
Choosing An Optimal K in K-Means Clustering
|
|
|
Language : | Turkish
|
|
|
Descriptions : | Kümeleme analizi, veri yapıları ve örüntüler gibi anlamlı bilginin keşfedilmesini sağladığından veri madenciliğinde en yaygın kullanılan analizlerinden biri olmuştur. Kümeleme analizi için geliştirilmiş yüzlerce algoritma mevcut olmasına karşın her durumda en iyi denilebilecek bir algoritma söz konusu değildir. Uygun bir kümeleme algoritmasının seçimi, veri büyüklüğü ve boyutu ile kümelerin şekli ve dağılışı yanında kümelemenin amacına da bağlı olmakla birlikte büyük verilerin analizinde bölümleyici kümeleme algoritmalarının tercih edildiği görülmektedir. Sert ve bölümleyici bir algoritma olan K-ortalamalar ise yarım asırdan beri hızı ve basitliği nedeniyle belki de en popüler olanlar arasında yer almaktadır. Diğer bölümleyici kümeleme algoritmaları gibi K-ortalamalar algoritması da başlangıçta bir k değerinin yani küme sayısının girilmesini gerektirmektedir. Kümelemenin sonucunu doğrudan etkileyen optimal bir k değeri seçimi için birçok yöntem mevcuttur. Alan bilgisi ve veri yapısı üzerinde belli bir tecrübeye dayanarak yapılan k seçimi sübjektiftir. Diğer yandan kümeleme analizi sonrası belirlenen geçerlilik indislerinin performanslarında veri yapısına göre duyarlılıklar söz konusu olmaktadır. Bu nedenle hala daha güvenilir ve hızlı k değeri verebilecek yöntemlere ihtiyaç duyulmaktadır. Bu çalışmada, k’nın optimal seçiminde kullanılmak üzere Pham ve ark. (2005) tarafından önerilen f(K) fonksiyonu tanıtılmış ve çeşitli yapay veri setleri üzerinde test edilmiştir. Ayrıca kümeleme analizinde optimal k değeri seçiminde kullanılmak üzere yöntemin bir uygulaması olarak R ortamı için geliştirilen "kselection" paketi kullanılarak yöntemin performansı ortaya konulmuştur. Yapılan analizlerde f(K) fonksiyonun kümeleme geçerliliği değerlendirmesinde kullanılan iç indekslerden daha başarılı sonuçlar verdiği saptanmıştır.
Cluster analysis has been one of the widely applied data mining techniques because of its usefulness in discovering the meaningful information such as the structures and patterns in datasets. Although there are hundreds of the methods in clustering arena, there is no any best algorithm that fits to all cases. Over a half century, K-means as the basic hard partitioning algorithm has probably been the most popular because of its lower execution time and simplicity to implement in big data analysis. As needed for the other partitioning algorithms, K-means algorithm requires inputting a k value, the number of clusters before starting to cluster analysis. There are several methods to determine an optimal k value, directly affecting the results of partitioning datasets. Among them, the subjective methods depend on user’s domain knowledge and experiences on the underlying datasets. On the other hand, clustering validity indices used after clustering may be sensitive to data structures, and thus they are based on trial-and-error process. Therefore robust, fast and automated methods are still needed for determination of k in K-means clustering. In this paper, for optimal choice of k, the f(K) function proposed by Pham et al. (2005) was explained and tested on the artificially generated datasets. In addition, the performance of the function was revealed for employing with K-means clustering by running the “kselection”, a package developed to implement the method in R environment. According to the results, it was obtained that f(K) function is more successful than the internal indices which are used in clustering validation.
|
|
|
Keywords : | data mining
kümeleme analizi
clustering analysis
k-ortalamalar kümelemesi
k-means clustering
objektif k seçimi
objective selection of k
|
|
|
Coverage : | World |
|
|
Structure : | Atomic |
|
|
Aggregation Level : | Level 1 |
|
|
Version : | Ekim 2015
|
|
|
Status : | Final |
|
|
Contribute : | Role : Author Date : 2015-10-12 name :
Zeynel Cebeci
e-mail : cebeciz@gmail.com
organization : Çukurova University, Faculty of Agrirculture, Div. of Biometry & Genetics, 01330 Adana, Turkey
name :
Figen Yıldız
e-mail : yildizf@cu.edu.tr
organization : Çukurova University, Faculty of Agrirculture, Div. of Biometry & Genetics, 01330 Adana, Turkey
name :
G. Tamer Kayaalp
e-mail : tkayaalp@cu.edu.tr
organization : Çukurova University, Faculty of Agrirculture, Div. of Biometry & Genetics, 01330 Adana, Turkey
|
|
|
Identifier : | Catalog : URI Entry : http://traglor.cu.edu.tr/common/object_xml.aspx?id=1947 |
|
|
Contribute : | Role : Initiator Date : 2015-10-12 name :
Zeynel Cebeci
e-mail : cebeciz@gmail.com
organization : Çukurova Üniversitesi Ziraat Fakültesi Biyometri ve Genetik Anabilim Dalı
|
|
|
Metadata Schema : | TrAgLor LOM AP |
|
|
Language : | Turkish |
Interactivity Type : | Expositive |
|
|
Learning Resource Type : | Proceedings
|
|
|
Interactivity Level : | Low |
|
|
Semantic Density : | Very High |
|
|
Intended End User Role : | Other |
|
|
Context : | University Postgraduate |
|
|
Typical Age Range : | 18Ü
|
|
|
Difficulty Level : | Difficult |
|
|
Duration : | Year : 0 Month : 0 Day : 2 Hour : 6 Minutes : 0 |
|
|
Description : |
|
|
|
Kind : | IsPartOf |
|
|
Resource : | Catalog : URI Entry :
|
|
|
Description : | Cebeci, Z., Yıldız, F., Kayaalp, G.T. (2015) “K-Ortalamalar Kümelemesinde Optimum K Değeri Seçilmesi”, 2. Ulusal Yönetim
Bilişim Sistemleri Kongresi, 8-10 Ekim 2015, Erzurum. Bildiriler Kitabı (Ed: Ü. Özen ve ark.), s. 231-242. Orka Ofset
Matbaacılık, Erzurum, ISBN:978-975-442-738-7.
Cebeci, Z., Yıldız, F., Kayaalp, G.T. (2015) “Choosing an Optimal K in K-means Clustering”, 2nd National Congress on Management Information Systems, 8-10 Oct 2015, Erzurum, Turkey. Proceedings (Ed: Ü. Özen et al.), pp. 231-242. Orka Printing, Erzurum, ISBN:978-975-442-738-7.
|
|
|
Entity : | name :
e-mail :
organization :
|
|
|
Date : | |
|
|
Description : | |
|
|
Purpose : | Discipline |
|
|
Source : | AGRICOLA
|
|
|
Entry : | Mathematics and Statistics Computer and Library Sciences
|
|
|
Description : |
|
|
|
Keywords : | cluster analysis
data mining
|
|
|