शब्दभेद विश्लेषण (पार्टस ऑफ स्पीच टॅगींग): शब्दांच्या जाती, त्यातील व्याकरणाचा प्रकार, वाक्यातील त्याचा संदर्भ, अर्थ, त्याच्यालगतचे इतर शब्द, अंक इत्यादी गोष्टींवर आधारित शब्दांचे विश्लेषण. नाम, सर्वनाम, विशेषण, क्रियापद,क्रियाविशेषण, शब्दयोगी अव्यय, उभयान्वयी अव्यय, केवलप्रयोगी अव्यय इत्यादी प्रकार लक्षात घेऊन हे विश्लेषण केले जाते. प्रस्तुत विश्लेषण हे हस्तलिखित तसेच स्वयंचलित उपयोजन साधनांद्वारे केले जाते, त्यात प्रामुख्याने नियमावली आणि स्टोकॉस्टीक या प्रचलित पद्धती आहेत. संगणकीय भाषाविज्ञानामध्ये शब्दभेद विश्लेषण ही भाषाभ्यासासाठी उपयुक़्त ठरते.
शब्दभेद विश्लेषणाचे उदाहरण खालीलप्रमाणे
राम | आणि | श्याम | शाळेत | जातात. |
नाम | उभायान्वयी अव्यय | नाम | नाम | क्रियापद |
शब्दभेदांसाठी वापरल्या जाणाऱ्या संज्ञांची उदाहरणे खालीलप्रमाणे.(ह्या संज्ञा जो तो त्याच्या पद्धतीने आणि सोयीनुसार विकसित करतो)
मराठी शब्दांचे वर्गीकरण खालीलप्रमाणे
संज्ञा | शब्दभेद | उदाहरण | |
N | नाम | व्यक्ती, वस्तु, स्थान,पदार्थ, जागा | राम, पुणे, संघ, केळे, पाणी |
PRN | सर्वनाम | प्रश्नावाचक, निश्चयवाचक, अनिश्चयवाचक, सबंधवाचक, प्रश्नवाचक | मी, ते, कोणी,जो, |
ADJ | विशेषण | गुणवाचक, संख्यावाचक, परिमाणवाचक, संकेतवाचक | लहान, सात, चांगला, ते |
V | क्रियापद | सकर्मक, अकर्मक, संयुक्त | पाहणे, रडणे, बसणे(वाचत बसला) |
ADV | क्रियाविशेषण | स्थानवाचक, कालवाचक, परिणामवाचक, रीतिवाचक | जेंव्हा, आज, जास्त, अचानक |
LC | शब्दयोगी अव्यय | अर्थबोध होण्यासाठी नामाला व सर्वनामाला जोडून येणारा शब्द -आत, जवळ, पुढे | रमासाठी, बागेत, शाळेजवळ, घरापुढे |
CC | उभयान्वयी अव्यय | एकापेक्षा जास्त वाक्य जोडणारा शब्द | आणि, पण, किंवा, परंतु |
EC | केवलप्रयोगी अव्यय | भाव अभिव्यक्त केले जाणारे शब्द | वाह!, अरे! |
शब्दभेद विश्लेषणाचे संशोधन हे शब्दसंच भाषाशास्त्राशी निगडीत आहे. त्यातील काही ऐतिहासिक शब्दसंच खालीलप्रमाणे आहेत.
- द ब्राऊन कॉर्पस : हा शब्दसंच हेन्री कुकेरा आणि डब्लू नेलसन फ्रान्सिस यांनी १९६० च्या दशकात ब्राऊन विद्यापीठात विकसित केला. हा इंग्रजी शब्दसंच संगणकाच्या साह्याने विश्लेषण करणारा शब्दसंच होता. ह्या शब्दसंचामध्ये साधारणतः १,००,००० शब्दांचा समावेश होता.
- हिडन मारकोव मॉडेल्स : युरोपमधील संशोधकांनी १९८० च्या दशकात शब्दांमधील संदिग्धता दूर करण्यासाठी हे प्रारूप तयार केले. या मॉडेलचा उपयोग ब्रिटीश इंग्रजीचा शब्दसंच लॅनकॅस्टर ओस्लो बर्गेनमधील शब्दांमधील संदिग्धता दूर करण्यासाठी करण्यात आला.
- डायनॅमिक प्रोग्रामिंग मॉडेल्स : स्टीव्हन दीरोझ आणि केन चर्च यांनी १९८७ साली हे मॉडेल विकसित केले.
ई ब्रील टॅगर हा एका विशिष्ट स्वरूपाचा पहिला व मोठ्या प्रमाणात वापरला गेलेला इंग्लिश शब्दभेद विश्लेषक असून त्यात नियमावली पद्धतीच्या अल्गोरीदमचा वापर केला गेला आहे.स्टँडफर्ड विद्यापीठाने शब्दभेद करणारे उपयोजन साधन ‘जावा’ या संगणकीय भाषेचा वापर करून विकसित केले आहे याचा परवाना जनरल पब्लिक लायसन्स अंतर्गत येतो.
शब्दभेद विश्लेषणाच्या प्रचलित पद्धती/प्रारूपे
- नियमावलीवर आधारित
- शक्यतांवर आधारित पद्धत (Stochastic)
- गतिमान प्रारूप पद्धत (Dynamic Programming )
- देखरेखेखाली काम करणारा शब्दभेद विश्लेषक (supervised tagger)
- देखरेखेशिवाय विश्लेषण करणारा शब्दभेद विश्लेषक (unsupervised tagger)
- परिवर्तनावर आधारित चित्रकला (Transformation based Painting)
- आकडेवारीवर आधारित
- हिडन मारकोव प्रारूप
- व्हिजिबल मारकोव प्रारूप
शब्दभेद विश्लेषण करताना येणाऱ्या अडचणी
अ. द्विअर्थी, अनेकार्थी तसेच संदिग्घ शब्दांचे विश्लेषण करताना अडचणी येतात.
उदा. १.नदीचे पात्र मोठे आहे.२.ती या पदासाठी पात्र नाही.३.जेवणानंतर पात्र धुवून ठेवावे.
ब. एकाच शब्दाला एकापेक्षा अनेक संज्ञा लागू पडत असतील तर संदिग्धता निर्माण होते.
उदा. : वरील उदाहरणांमध्ये ‘पात्र ’ हा शब्द ‘नाम ’ तसेच ‘विशेषण’ म्हणून वापरला गेला आहे.
त्रुटी : शब्दभेद विश्लेषण पद्धतीमध्ये काही प्रमाणात त्रुटी आढळतात.कमी शब्दभेद संचामध्ये जास्त अचूकता मिळते तसेच जास्त प्रमाणात शब्दभेद संचामध्ये कमी अचूकता मिळते.
संदर्भ : अलेक्झांडर, क्लार्क; क्रिस, फॉक्स आणि शालोन, द हँडबुक ऑफ कॉम्पुटेशनल लिंव्गिस्टिक्स एँड नॅचरल लँग्वेज प्रोसेसिंग,लॅप्पीन, २०१०.