शोध संकेतस्थळाद्वारे दिलेल्या शब्दावरून इच्छित संकेतस्थळावर किंवा त्यामधील एखाद्या पानावर जाणे हे मजकूर-मंथन या विद्याशाखेमुळे शक्य होते.

संख्या विश्लेषणात संख्यात्मक माहितीचा अभ्यास केला जातो तर मजकूर-मंथनात भाषेच्या रूपातील माहितीचा अभ्यास केला जातो. एका वेळी एका अथवा अनेक मजकुरांवरून अशा माहितीचे अर्थपूर्ण व उपयोग करता येईल अशा निष्कर्षांत रूपांतर करणे म्हणजे मजकूर-मंथन होय. असे मजकूर अनेक व्यक्तींनी मुक्तपणे लिहिलेले असल्याने त्यात बांधेसूदपणा नसतो. शाळेतील मुलांनी दिलेली ‘व्यक्ती कोण ते लिहा’ या प्रश्नाची उत्तरे ही संरचित (Structured) आधारसामग्री आहे; तर त्यांनी लिहिलेले निबंध ही असंरचित (Unstructured) आधारसामग्री आहे.

ज्याप्रमाणे ताक घुसळून लोणी काढले जाते त्याच प्रमाणे मजकूर घुसळून उपयुक्त माहिती काढावी लागते. मजकूर-मंथनात कृत्रिम बुद्धिमत्तेच्या तंत्रज्ञानातील वेगवेगळ्या तंत्राचा वापर करून स्वयंचलित पद्धतीने असलेल्या मजकुरांचे उपयुक्त माहितीमध्ये रूपांतर केले जाते. ही सतत चालणारी, स्वतःच्या स्वतः शिकत जाणारी प्रक्रिया आहे. मजकूर-मंथन हे तंत्रज्ञान म्हणून नवीन वाटत असले तरी ही संकल्पना जुनीच आहे. फेल्डमन यांनी सर्वप्रथम मजकूर-मंथन (text mining) हा शब्द वापरला होता. उद्योगधंद्यासाठी रोज खूप मोठ्या प्रमाणात लिखित मजकूर तयार होतो. यामध्ये ई-पत्र, सामाजिक प्रसारमाध्यमातील लिखाण, वस्तू, व्यक्ती, प्रसंग यांचे अवलोकन/मूल्यमापन, तसेच त्यांच्या त्रुटी किंवा उपयोगिता दाखवणारे लिखाण यांचा समावेश असतो. या सर्व मजकुरातून उपयुक्त माहिती काढणे हे मजकूर-मंथनाचे काम आहे. मजकूर मंथनामध्ये मजकुराची रूपरेषा शोधणे हे महत्त्वाचे असते.

मजकुरांतून माहितीची प्राप्ती (Information Retrieval) : या क्रियेत प्रश्नाचे उत्तर असणारे संभाव्य लेख/मजकूर शोधणे अपेक्षित असून, प्रश्नाचे उत्तर शोधणे हे अपेक्षित नसते. हे काम साध्य करण्यासाठी संख्याशास्त्रातील वेगवेगळी प्रतिमाने व पद्धती अवलंबल्या जातात. लेखांतील सूचक शब्द (keywords) व प्रश्नातील शब्द यांच्या संबंधातून विचारलेल्या प्रश्नाचे उत्तर त्या लेखात असण्याची संभाव्यता मोजली जाते. संभाव्यतेनुसार लेखांना प्राधान्यक्रम दिले जातात. जास्त प्राधान्यक्रमांपासून ते कमी प्राधान्यक्रमांपर्यंत लेखांची मांडणी केली जाते. लेखातील माहिती शोधणे ही जुनी विद्याशाखा असून महाजालातील शोध संकेतस्थळ तयार करण्यासाठी तिचा वापर कुशलतेने व फार मोठ्या प्रमाणात केला गेला आहे. त्यामुळे या क्षेत्रात नवनवीन संशोधनांची भर पडत गेली आहे.

संकेतस्थळांवर शोधलेल्या वस्तू किंवा शब्द यावरून, त्यांच्याशी संबंधित असणाऱ्या वस्तूची जाहिरात वेगवेगळ्या संकेतस्थळांवर दिसावयास लागते. अशा पद्धतीने विक्री आणि विपणनामध्ये या तंत्राचा वापर केला जातो.

माहिती अर्क (Information Extraction) : यामध्ये लेखातील असंरचित माहितीचे संरचित माहितीमध्ये रूपांतर केले जाते.

‘सत्या नाडेला फेब्रुवारी २०१४ मध्ये मायक्रोसॉफ्टचे मुख्याधिकारी झाले.’ या वाक्यामध्ये कोण ? केव्हा ? कोणत्या कंपनीचे ? कोणत्या हुद्यावर? या प्रश्नाची उत्तरे आहेत. ही माहिती संरचित माहिती स्वरूपात साठवून ठेवणे म्हणजेच माहिती अर्क होय.

माहितीचा अर्क काढताना अनेक गोष्टींचा विचार करावा लागतो. त्यातील काही महत्त्वाच्या गोष्टी –

  1. साचा भरण (Template filling) : यामध्ये लेखातील माहितीवरून दिलेल्या साच्यातील प्रश्न (उदा., ‘कोण’, ‘कुठे’, ‘केव्हा’) हे संगणकाद्वारे भरले जातात. यामुळे विविध लेखातील माहितीचे अवलोकन एकत्र करता येते. लेखातील महत्त्वाच्या घटना कमीत कमी शब्दांत व संगणकाला सहजपणे हाताळता येणाऱ्या माध्यमात जतन केल्या जातात.
  2. विशेष नामाचा शोध (Named entity recognition) : दिलेल्या लेखामध्ये विविध व्यक्ती, स्थळ, काळ, वेळ, संस्था यांची नावे असतात. “पुणे हवामान खात्याने दिलेल्या माहितीनुसार पुणे शहरात उद्या (२२ जुलै) पावसाची शक्यता आहे.” या वाक्यामध्ये “२२ जुलै”, “पुणे हवामान खाते” व ”पुणे” ही विशेष नामे आली आहेत. “पुणे” चा उल्लेख “पुणे हवामान खाते” यात झाला असला तरी “पुणे हवामान खाते” ही एक संस्था आहे. ही सर्व माहिती संगणकाने समजून घेऊन लेखातील विशेष नामाचा शोध घ्यावयाचा असतो. लेखातील विशेष नामाचा शोध घेणे व शोधलेल्या नामांना व्यक्ती, स्थळ, काळ, वेळ, संस्था किंवा इतर अशा विभागांत विभागणे ही दोन महत्त्वाची कामे असतात.
  3. परस्परसंबंधाची निश्चिती (Relationship extraction) : विशेषनामांचा एकमेकांमधील संबंध शोधणे हे माहिती अर्कातील महत्त्वाचे कार्य आहे. परस्परसंबंधाच्या शोधामुळे दोन लेखांतील संबंध जोडता येतो. आद्याक्षरे, टोपण नाव व व्यक्तीचे खरे नाव यातील संबंध लक्षात आल्यामुळे लेख कोणाबद्दल आहे हे संगणकाला समजू शकते.

‘१९५९ मध्ये पु.ल. देशपांडे भारतातील पहिले दूरचित्रवाणी कार्यक्रम निर्माते झाले. दिल्ली दूरदर्शन सुरू झाले त्या वेळचा पहिला कार्यक्रम पुलंनी निर्मिला होता.’ यामध्ये पुलं हे पु.ल. देशपांडे यांचे टोपण नाव आहे. तसेच ते दिल्ली दूरदर्शन येथे कामाला होते हा शोध संगणकाने लावणे गरजेचे आणि अपेक्षित असते.

वर चर्चा केलेली व मंथनातली इतर तंत्रे संगणकाला समजावून सांगण्यासाठी प्रशिक्षण आधारसामग्रीद्वारे संख्याशास्त्रातील विविध पद्धती वापरल्या जातात. अर्धप्रशिक्षण आणि अप्रशिक्षण आधारसामग्री यांचा वापर केला जातो.

प्रशिक्षण आधारसामग्री – दिलेल्या मजकुरांचे तज्ज्ञांकडून आधारसामग्रीमध्ये रूपांतर केले जाते, त्यास प्रशिक्षण आधारसामग्री असे म्हणतात. वाक्यातील प्रत्येक शब्दाला तज्ज्ञांकडून विविध पदचिन्हे दिले जातात. ही पदचिन्हे क्रमांक, अक्षरे किंवा प्रातिनिधिक शब्दसमूह असतात. अशी पदचिन्हे, त्या भाषेच्या व्याकरणात असलेली पदचिन्हे (नाम, विशेषण, क्रियापद इत्यादी) असणे आवश्यक नाही.

उदा. “डॉ. कलाम युवकांना प्रेरणा देणारे व्यक्तिमत्त्व होते.”

1) डॉ. कलाम – विशेष नाम; 2) युवकांना- युवक + ांना – पुं. नाम + प्रत्यय; 3) प्रेरणा – स्त्री. नाम; 4) देणारे – क्रिया; 5) व्यक्तिमत्त्व – न. नाम; 6) होते – क्रिया; 7) . – पूर्णविराम

याचबरोबर या वाक्यासाठी कोण – ‘डॉ. कलाम’; कुणाचे –‘ युवक’; क्रिया – ‘प्रेरणा देणारे’ असे साचा-भरण करावे लागते. सदर काम खर्चिक व वेळखाऊ आहे.

प्रतिमाने :

पर्यवेक्षित प्रतिमाने (supervised model) : यामध्ये प्रशिक्षण आधारसामग्रीतील प्रत्येक शब्दाला तज्ज्ञांकडून पदचिन्हे दिलेली असतात. त्या आधारे प्रतिमाने वापरून, नवीन मजकुरांतील प्रत्येक शब्दाला (संभाव्य ) पदचिन्हे दिली जातात. प्रशिक्षण आधारसामग्री पूर्ण असल्यामुळे याला पर्यवेक्षित प्रतिमान म्हणतात. यासाठी खूप मोठ्या प्रमाणात प्रशिक्षण आधारसामग्री लागते. त्यामुळे व्यावहारिकदृष्ट्या अशा प्रतिमानांचा वापर बऱ्याचदा शक्य होत नाही.

अर्धपर्यवेक्षित प्रतिमाने (Semi supervised model) : यामध्ये प्रशिक्षण आधारसामग्रीतील प्रत्येक शब्दाला तज्ज्ञांकडून पदचिन्हे दिलेली नसतात. प्रतिमाने, पदचिन्हे नसलेल्या शब्दाला, सगळ्यात जास्त संभाव्य असलेले पदचिन्ह देऊन, पूर्ण प्रशिक्षित आधारसामग्री तयार केली जाते. पूर्ण प्रशिक्षित आधारसामग्रीच्या द्वारे प्रतिमानांचे प्रशिक्षण केले जाते. यासाठी मध्यम प्रमाणात प्रशिक्षण आधारसामग्री लागते. प्रतिमानांना शिकण्यासाठी फार कमी कालावधी लागतो. प्रशिक्षणानंतर लगेचच अशी प्रतिमाने कार्यान्वित करता येतात.

अपर्यवेक्षित प्रतिमाने (Unsupervised model) : यामध्ये प्रशिक्षण आधारसामग्रीतील फार कमी शब्दांना तज्ज्ञांकडून पदचिन्हे दिलेली असतात. अशा पदचिन्हे असणाऱ्या शब्दांची परत परत नमुना निवड करून (Bootstrapping), प्रशिक्षित शब्दांची आधारसामग्री फुगवली जाते. याद्वारे प्रतिमानांना प्रशिक्षण दिले जाते. प्रशिक्षित प्रतिमा

नांच्या आधारसामग्रीतल्या पदचिन्हे नसलेल्या शब्दाला सर्वात जास्त संभाव्य पदचिन्ह दिले जाते. ही आधारसामग्री परत प्रशिक्षणांसाठी वापरली जाते. या प्रतिमानांना फार कमी प्रमाणात प्रशिक्षण आधारसामग्री लागते. अशा प्रतिमानांसाठी प्रशिक्षण कालावधी मोठा असतो.

प्रच्छन्न मार्कोव्ह प्रतिमान (Hidden Markov Model), समूह विश्लेषण (cluster analysis), मुख्य घटक विश्लेषण (PCA), चेतातंतू जाळे प्रतिमान (Neural Networks Model) अशा वेगवेगळ्या प्रतिमानांचा वापर मजकूर मंथनासाठी केला जातो.

दैनंदिन जीवनात मजकूर मंथनाचा अनेक ठिकाणी उपयोग होतो.

शोध संकेतस्थळे : महाजालातील शोध संकेतस्थळे, महाजालावरील विविध संकेतस्थळातील मजकूर, सूचक शब्द यांचे विश्लेषण करून शोधकर्त्याने मागितलेल्या शब्दाशी सर्वात जवळचा संबंध असणारे संकेतस्थळ मजकूर मंथनाच्या आधारे दाखवले जाते.

ई-पत्र : मजकूर मंथनाच्या आधारे ई-पत्राचे वर्गीकरण करणे, ई-पत्राचा प्राधान्यक्रम ठरवणे हे सहज शक्य आहे. एखाद्या वस्तूचे अवलोकन/मूल्यमापन करण्याऱ्या ई-पत्रामधून सर्वात जास्त आवडणारे/न आवडणारे वैशिष्ट्य शोधणे संगणकाला मजकूर-मंथनामुळे शक्य झाले आहे.

वैयक्तिक माहितीचे संकलन : एखाद्या व्यक्तीची माहिती वेगवेगळ्या संकेतस्थळांवर उपलब्ध असते. अशा माहितीचे विश्लेषण करून एखाद्या व्यक्तीची माहिती जसे की नाव, आडनाव, फोन नंबर, ईमेल, पत्ता इ. सहज एकत्र करता येऊ शकतात. त्या व्यक्तीचे इतर व्यक्तींबरोबर असणारे नाते, त्याच्या आवडीचे विषय, त्याची मते यांची माहिती मजकूर-मंथनाच्या साहाय्याने काढता येते. परंतु अशा माहितीचा दुरुपयोग टाळण्यासाठी व वैयक्तिक माहितीचे संरक्षण करण्यासाठी विविध देशांनी कायदे केले आहेत, जसे की सामान्य माहिती संरक्षण अधिनियम (General Data Protection Regulation).

वैयक्तिक / व्यक्तिगत कल तपासणे व बदलणे : विविध माध्यमांवरील लिखाण, पुढे पाठविलेले संदेश इत्यादी प्रकारच्या मजकुरातील संवेदनाचे विश्लेषण (Sentiment analysis) केल्यास त्या व्यक्तीचा कल समजतो. सामाजिक माध्यमावरील लिखाण (त्यातील सूचक शब्द) याचा त्याच व्यक्तीवर कसा परिणाम झाला, हे संख्याशास्त्रीय कसोटीने तपासले जाते. एखाद्या क्षेत्राच्या दृष्टीने सदर बदल बहुसंख्य लोकांवर सकारात्मक असेल तर तेच सूचक शब्द परत परत वापरून समाजाचे मत त्या क्षेत्रासाठी अनुकूल करून घेतले जाते. अशा प्रकारचा अभ्यास करून सेवा पुरवणारे अनेक उद्योगसमूह कार्यरत आहेत.

या शिवाय मजकूर मंथनाचे अनेक उपयोग आहेत उदाहरणार्थ, उद्योगधंद्यातील विपणन आणि विक्री वाढवणे, मजकुरातील भावनांचे विश्लेषण, सामाजिक आणि राष्ट्रीय सुरक्षिततेच्या दृष्टीने सामाजिक प्रसारमाध्यमातून प्रसारित होणारे लिखाण तपासण्यासाठी इ.

मजकूर-मंथन ही संख्याशास्त्र, संगणकशास्त्र नि भाषाशास्त्र या सर्वांची आवश्यकता असणारी शाखा आहे. बृहत् आधारसामग्री (Big data) व कृत्रिम बुद्धिमत्तेतील वेगवेगळ्या तंत्राच्या वापरामुळे सध्या ही शाखा झपाट्याने विकसित होत आहे. इंग्रजी आणि इतर भाषांतल्या मजकूर-मंथनात भरपूर संशोधन झाले असले तरी तुलनेने भारतीय भाषांमध्ये त्या प्रमाणात संशोधन झालेले नाही.

संदर्भ :

  • Feldman, Ronen, and Ido Dagan, Knowledge Discovery in Textual Databases (KDT).” KDD. Vol. 95. 1995.
  • Salton, Gerard, Anita Wong, and Chung-Shu Yang, A vector space model for automatic indexing. Communications of the ACM 18.11 (1975) : 613-620.

समीक्षक : शैलजा देशमुख