तंत्रज्ञानाच्या भाषेत मोठ्या प्रमाणावरील माहितीच्या संचाला बिग डेटा (बृहत विदा) असे म्हणतात. ‘बिग डेटा’ ही संकल्पना १९९०च्या मध्यात डो माशी यांनी मांडली, तेव्हा ते अमेरिकेतील सिलिकॉन ग्राफिक्स इन्कॉर्पोरेशन या संस्थेत मुख्य शास्त्रज्ञ म्हणून कार्यरत होते. आकारामान, गती आणि विविधता यावर बृहत विदा साधारणत: अवलंबून असते. माहितीचा संच किती मोठ्या आकारात आहे, यावर त्यांची आकारमानता; किती तत्परतेने माहितीची निर्मिती आणि विश्लेषण करण्यात येते यावर त्याची गती आणि माहितीत असणारी विविधता, उदा., साधा मजकूर, दृक-श्राव्य फिती आणि इतर यांमुळे विदेत असणारे वैविध्य यांवर विदेची महत्ता अवलंबून असते.
बृहत विदा हा शब्द तयार झाल्यापासून, विदेचे जगभरातील प्रमाण झपाट्याने वाढले आहे. १९९९ मध्ये जगभरात अंदाजे १.५ एक्झाबाइट्स (१ एक्झाबाइट = १ अब्ज गिगाबाइट) विदा तयार करण्यात आली; २०२० मध्ये ही संख्या अंदाजे ६४ झिटाबाइट (१ झिटाबाइट = १००० एक्झाबाइट) पर्यंत वाढली.
बृहत विदेचा वापर २०२०मध्ये जवळजवळ प्रत्येक उद्योगक्षेत्रात वाढला आहे. मनोरंजन कंपन्या, विशेषत: प्रवाहित असणाऱ्या कंपन्या, ग्राहकांनी वापर केलेल्या विदेचा वापर एखाद्या ग्राहकाला कोणते गाणे किंवा व्हिडिओ पुढे पाहायचे आहे हे निर्धारित करण्यासाठी किंवा कंपन्यांनी कोणत्या प्रकारचे चित्रपट किंवा टेलिव्हिजन मालिका तयार करावी हे निर्धारित करण्यासाठी वापरतात. फसवणूक किंवा क्रेडिट जोखीम असलेल्या व्यक्तींना सूचित करणारे नमुने शोधण्यासाठी बँका बृहत विदेवर अवलंबून आहेत. उत्पादक उत्पादन प्रक्रियेतील दोष शोधण्यासाठी आणि उपकरणांच्या देखभालीसाठी बृहत विदेचा वापर करतात.
बृहत विदेचे विश्लेषण करण्यासाठी नवीन साधने विकसित केली गेली आहेत. अशा माहितीचा संच सहसा NoSQL डेटाबेसमध्ये साठविलेले असतात. पारंपरिक डेटाबेस सारणीस्वरूपात अर्थात पंक्ती व स्तंभांसह संरचित असतात आणि संगणकीय भाषा SQL ही रिलेशनल डेटाबेसेस लक्षात घेऊन तयार केलेली असते. तथापि, अत्यंत मोठ्या माहितीच्या संचातील विदा जी असंरचित असते (म्हणजे मजकूर, व्हिडिओ किंवा ऑडिओ यांसारख्या गुणात्मक असणे) यांना NoSQL असे म्हटले जाते, कारण अशा माहितीसह कार्य करण्यासाठी SQL हे सर्वोत्तम साधन असू शकत नाही. बृहत विदेसह काम करण्यासाठी ॲपॅक सॉफ्टवेअर फाउंडेशनचे (Apache Software Foundation) हॅडूप (Hadoop) आणि स्पार्क (Spark) हे काही सर्वात लोकप्रिय साधने आहेत.
बृहत विदेसोबत काम करताना काही आव्हाने असतात. मोठ्या प्रमाणात विदा संचयित करण्यासाठी उपकरणांमध्ये महत्त्वपूर्ण गुंतवणूक आवश्यक असते. विदा केंद्र नावाच्या विशिष्ट इमारतींचा वापर विदा साठविण्यासाठी गुगल, ॲमेझॉन आणि मायक्रोसॉफ्ट सारख्या कंपन्या करतात आणि सर्वात मोठ्या विदा केंद्रांना इमारती थंड ठेवण्यासाठी दरवर्षी अब्जावधी लिटर पाण्याची आवश्यकता असते. विदा विश्लेषणाची मूलभूत समस्या ही विदा अचूक आणि पूर्ण असल्याची खात्री करणे ही आहे, कारण विदेचे प्रमाण वाढते तस तसे ती अधिक कठीण होते. विदा सुरक्षितता अत्यंत महत्त्वाची असते, विशेषत: जेव्हा विदेमध्ये व्यक्ती आणि त्यांच्या सवयींबद्दल संवेदनशील माहिती असते.
कळीचे शब्द : #संगणक #मशीन #डेटा #माहिती #संरचित #असंरचित
संदर्भ :
- https://www.sas.com/en_in/insights/big-data/what-is-big-data.html
- https://www.ibm.com/analytics/hadoop/big-data-analytics
- https://www.oracle.com/in/big-data/what-is-big-data/
समीक्षक : अक्षय क्षीरसागर