(डेटा खनन; डेटा मायनिंग; माहिती खनन). याला डेटाबेसमधील ज्ञान-शोध असेही म्हणतात. संगणकविज्ञानातील मोठ्या प्रमाणात असणाऱ्या माहितीतील महत्त्वाची, संरचित आकृतीबंध विदा तयार करणे आणि त्यांमध्ये संबंध जोडणे अशी ही प्रक्रिया आहे. विदा खनन सांख्यिकी व कृत्रिम बुद्धिमत्ता यांतील साधनांची डेटाबेस व्यवस्थापनासोबत जोडणी करते, त्यामुळे माहितीचे मोठ्या प्रमाणातील अंकीय संग्रहाचे विश्लेषण होते. माहितीच्या या विश्लेषणाला डेटा सेट (विदा संच; Data set) असे म्हणतात. विदा खनन हे प्रामुख्याने व्यवसायात (विमा, बँकिंग, किरकोळ खरेदी-विक्री), विज्ञान संशोधन (खगोलशास्त्र, वैद्यकीय) आणि शासकीय सुरक्षा (गुन्हेगार व आतंकवादी यांना शोधण्यासाठी) यात मोठ्या प्रमाणात वापरण्यात येते.
माहिती उद्योगात प्रचंड प्रमाणात विदा उपलब्ध असते. जोपर्यंत ती उपयुक्त माहितीमध्ये रूपांतरित होत नाही, तोपर्यंत ही माहिती वापरली जात नाही. या प्रचंड प्रमाणातील माहितीचे विश्लेषण करणे आणि त्यातील उपयुक्त माहिती काढणे आवश्यक असते. उपयुक्त माहिती काढणे ही केवळ प्रक्रिया करणे आवश्यक नाही; तर विदा खननमध्ये विदा प्रक्रिया, विदा संकलन, विदा रूपांतरण, विदा खनन, आकृतीबंधाचे मूल्यमापन आणि विदा प्रस्तुती यांसारख्या इतर प्रक्रियांचा समावेश आहे. एकदा या सर्व प्रक्रिया संपल्या की, या माहितीचा वापर फसवणूक तपासणी, बाजार विश्लेषण, निर्मिती नियंत्रण, विज्ञान समन्वेषण इत्यादी सारख्या बऱ्याच अनुप्रयोगांमध्ये वापरू शकतो.
विदा खननाचे मूळ आणि प्रारंभिक अनुप्रयोग : संगणकाची साठवण क्षमता वाढल्याने 1980 च्या दशकात अनेक कंपन्यांनी अधिक व्यावहारिक विदा संग्रहित करण्यास सुरुवात केली. परिणामी नोंदणी संग्रह, यालाच विदा-वखार (डेटा वेअरहाउस; Data Warehouse) म्हणतात, पारंपरिक सांख्यिकीय पध्दतीने विश्लेषित करण्याइतपत मोठे होते. कृत्रिम बुद्धिमत्ता (आर्टिफिशियल इंटेलिजन्स, AI) क्षेत्रातील अलीकडील प्रगती-जसे की तज्ञ प्रणाली, अनुवांशिक रीती, मशिन लर्निंग आणि न्यूरल नेटवर्कमधील शोध-ज्ञानाच्या शोधासाठी कशाप्रकारे स्वीकारली जाऊ शकते याचा विचार करण्यासाठी अनेक संगणक विज्ञान परिषदा आणि कार्यशाळा आयोजित केल्या गेल्या. या प्रक्रियेमुळे 1995 मध्ये मॉन्ट्रियल येथे ज्ञान-शोध आणि विदा-खननवरील पहिल्यांदा आंतरराष्ट्रीय परिषद आयोजित करण्यात आली आणि 1997 मध्ये विदा-खनन आणि ज्ञान-शोध यावर शोध-प्रत्रिका प्रकाशित करण्यात आली. याच काळात अनेक प्रारंभिक विदा खनन कंपन्या तयार झाल्या आणि त्यांनी त्यांची उत्पादने सादर केली गेली.
विदा खननच्या सुरुवातीच्या यशस्वी अनुप्रयोगांपैकी विपणन संशोधनानंतर पतपत्र (क्रेडिट कार्ड) फसणूक शोध होता. ग्राहकाच्या खरेदीच्या वर्तनाचा अभ्यास करून, एक सामान्य नमुना सहसा तयार होतो; या नमुन्या व्यतिरिक्त बाहेर केलेल्या खरेदी, नंतरच्या तपासासाठी किंवा व्यवहार नाकारण्यासाठी तारांकित केल्या जाऊ शकतात. तथापि, सामान्य वर्तनाची विस्तृत विविधता हे आव्हानात्मक बनवते. सामान्य आणि फसव्या वर्तनातील कोणताही फरक प्रत्येकासाठी किंवा सर्व काळासाठी कार्य करत नाही. प्रत्येक व्यक्तीने काही खरेदी करण्याची शक्यता असते, जी त्याने आधी केलेल्या प्रकारांपेक्षा वेगळी असते, त्यामुळे एखाद्या व्यक्तीसाठी जे सामान्य आहे, त्यावर अवलंबून राहिल्याने अनेक खोटे गजर मिळण्याची शक्यता असते. विश्वासार्हता सुधारण्याचा एक दृष्टीकोन प्रथम अशा व्यक्तींना संघटीत करणे आहे ज्यांच्याकडे समान खरेदी पद्धती आहेत, कारण गट प्रतिकृती किरकोळ विसंगतींसाठी कमी संवेदनशील असतात. उदा., वारंवार व्यावसायिक प्रवासी गटामध्ये कदाचित एक नमुना असेल, ज्यामध्ये विविध ठिकाणी अभूतपूर्व खरेदी समाविष्ट असेल, परंतु या गटाच्या सदस्यांना इतर व्यवहारांसाठी तारांकित केले जाऊ शकते, उदा., स्कंदपुस्तिका (कॅटलॉग) खरेदी, जे त्या गटाच्या नियमांमध्ये बसत नाहीत.
प्रतिकृतीकरण आणि विदा खनन उपागम : संपूर्ण विदा खनन प्रक्रियेमध्ये प्रकल्पाची उद्दिष्टे समजून घेण्यापासून आणि अंतिम विश्लेषणाच्या आधारे प्रक्रियेतील बदलांची अंमलबजावणी करण्यासाठी कोणती विदा उपलब्ध आहे, यात अनेक पायऱ्यांचा समावेश असतो. प्रतिकृती-शिक्षण प्रक्रिया, प्रतिकृती मूल्यमापन आणि प्रतिकृतीचा वापर या तीन प्रमुख संगणकीय पायऱ्या आहेत. विदेच्या वर्गीकरणासह हा विभाग सर्वात स्पष्ट असतो. प्रतिकृती-शिक्षण जेव्हा घडते तेव्हा विदेवर एक रीती (अल्गॉरिदम) लागू केली जाते, त्याला वर्गीकरण करणे किंवा विदेतून तयार करण्यात आलेले रीती तयार करण्यासाठी गट (किंवा वर्ग) विशेष ओळखली जातात. वर्गीकरणानंतर स्वतंत्र मूल्यमापन संचासह चाचणी केली जाते, ज्यामध्ये ज्ञात गुणधर्मांसह विदा असते. प्रतिकृतीचे वर्गीकरण लक्ष्य गुणधर्मासाठी ज्ञात वर्गाशी किती प्रमाणात सहमत आहे, ते प्रतिकृतीची अपेक्षित अचूकता निर्धारित करण्यासाठी वापरले जाऊ शकते. प्रतिकृती पुरेसे अचूक असल्यास, ते विदेचे वर्गीकरण करण्यासाठी वापरले जाऊ शकते.
विदा खननाचे अनेक प्रकार आहेत, सामान्यत: ज्ञात माहितीच्या प्रकाराने आणि विदा खनन प्रतिकृतीमधून शोधलेल्या ज्ञानाच्या प्रकारानुसार विभागले गेले आहे. अंदाजित प्रतिकृती, वर्णनात्मक प्रतिकृती, आकृतिबंध खनन, असंगत शोध इ. त्यांचे प्रकार आहेत.
विदा खननाचे प्रमुख वैशिष्ट्ये : एखाद्या चालू मुद्द्याचा कल आणि वर्तन यांच्या विश्लेषणावर आधारित स्वयंचलित नमुन्यांचा अंदाज घेणे शक्य आहे. संभाव्य परिणामांवर आधारित अंदाज व निर्णय घेणे आणि एककेंद्रित माहिती निर्माण करणे हे प्रमुख वैशिष्ट्य आहे. विश्लेषणासाठी विदा खनन मोठ्या विदा संचावर आणि डेटाबेसेसवर केंद्रित करते.
विदा खनन करण्याची प्रक्रिया : १. डेटाबेस आकार : अधिक शक्तिशाली विदा खनन प्रक्रियेची प्रणाली तयार करण्यासाठी विदेवर प्रक्रिया करणे आणि त्याची देखरेख करणे आवश्यक आहे. २. प्रश्न जटिलता : अधिक जटिल प्रश्नांची चौकशी किंवा प्रक्रिया करण्यासाठी आणि प्रश्नांची जितकी संख्या अधिक, तितके अधिक शक्तिशाली प्रणाली आवश्यक असते.
विदा खननाचे उपयोग : १. विदा खनन तंत्र हे गणित, संक्रांतिविज्ञान (सायबरनेटिक्स – प्राणी आणि यंत्रामध्ये नियंत्रण करणे याचा अभ्यास), जननशास्त्र आणि विपणन यांसह अनेक संशोधन प्रकल्पांमध्ये उपयुक्त आहे. २. विदा खननाच्या साह्याने एक किरकोळ विक्रेता, ग्राहकाने खरेदी केलेल्या नोंदींच्या आधारे जाहिराती पाठवून व्यवस्थापन करू शकतो. किरकोळ विक्रेता ग्राहकांनी दिलेल्या टिप्पण्या किंवा वॉरंटी कार्ड्स या माहितीचे विदा खनन करून त्याआधारे विशिष्ट ग्राहकांना अपील करण्यासाठी, उत्पादने आणि जाहिराती देखील विकसित करू शकतो.
संदर्भ :
- https://economictimes.indiatimes.com/definition/data-mining
- https://www.tutorialspoint.com/data_mining/dm_overview.htm
समीक्षक : अक्षय व्यंकटराव क्षीरसागर