მორფოლოგიური ანალიზატორი – მასწავლებლის „თანაშემწე“

რამდენ დროს ვხარჯავთ მასწავლებლები მექანიკური, მორფოლოგიური და ორთოგრაფიული შეცდომების გასწორებაზე?

ბევრს.

ხშირ შემთხვევაში, ჩვენ მოვნიშნავთ ხოლმე არასწორ ფორმას, ვუთითებთ მართებულ ვარიანტს ან შეცდომის ტიპს რვეულის არშიაზე და ვთხოვთ მოსწავლეს, დაიმახსოვროს სწორი დაწერილობა.

ონლაინ დაშორებული სწავლების დროს შეცდომების ავტომატური „გამსწორებელი“ შეუცვლელი დამხმარე იქნებოდა ჩემთვის. ახლა ეს შესაძლებელია და აკრეფილი ტექსტის მორფოლოგიური და ორთოგრაფიული შეცდომების წითლად მონიშვნა რამდენიმე წამის ამბავია.

ქართულ ვებსივრცეში უკვე გვაქვს საიტი „მცდარ-ბეჭდილ-მძებნი“  , რომელიც საშუალებას გვაძლევს სრულიად უფასოდ შევამოწმოთ ნაბეჭდი ტექსტი. კერძოდ,  ბეჭდვისას გაპარული ე.წ. „კორექტურა“, არასწორად დართული პირის ნიშნები, კუმშვა-კვეცისას დაშვებული შეცდომები და სხვა მორფოლოგიური ტიპის „მცდარი ბეჭდილები“.

მცდარ-ბეჭდილ-მძებნი ტექსტში არსებული შეცდომების მორფოლოგიური შემმოწმებელია. ვებსაიტზე  (www.spellchecker.ge)  სპეციალურ განყოფილებაში ჩასმულ ტექსტში გაწითლდება მორფოლოგიურად ან ორთოგრაფიულად მცდარი ფორმები. მათზე დაწკაპუნების შემთხვევაში კი სისტემა შემოგთავაზებთ ჩასანაცვლებელი სიტყვების სიას.

მცდარ-ბეჭდილ-მძებნის შემქმნელი მონაცემთა მეცნიერი, ვახტანგ ელერდაშვილია. ის გერმანიაში ცხოვრობს და მუშაობს. სამსახურისგან თავისუფალ დროს ბოლო რამდენიმე წელია, მორფოლოგიური ანალიზატორის შექმნას უთმობს. მასთან საუბრისას  გამოიკვეთა  ბიოგრაფიულად ისეთი გარდამტეხი და საინტერესო დეტალები, რომ მისი გამოცდილების გაზიარება ჩვენი ინტერნეტგაზეთის მკითხველისთვისაც მნიშვნელოვნად მივიჩნიე.

პირველ რიგში, დარწმუნებული ვარ, მასწავლებლებისთვის სასარგებლო იქნება ტექსტების „გამსწორებელი“ თანაშემწე. მოსწავლეებისთვის კი იმის გაგება იქნება ნიშანდობლივი, თუ როგორ შეიძლება ბავშვობისდროინდელი გატაცება პროფესიად იქცეს, რატომ შეიძლება ადამიანი მთელ თავისუფალ დროს მისთვის მნიშვნელოვანი საქმის კეთებას უსასყიდლოდ უთმობდეს და როგორ შეიძლება სოციუმისთვის მნიშვნელოვანი პროექტის თანამონაწილეებად მთელი საზოგადოება გაიხადო.

ბავშვობა, კროსვორდი და პროფესია

ბნელ და უშუქო 90-იანი წლებში ისე ვერთობოდით, როგორც შეგვეძლო. გასართობიც ბევრი არაფერი იყო. მამასთან ერთად ამ პერიოდში კროსვორდების შედგენამ მომავალი მეცნიერის პროფესია განსაზღვრა.

„ლინგვისტიკა დიდი ხანია, რაც მაინტერესებს, ჯერ კიდევ 90-იანი წლებიდან, როცა კროსვორდებს ვადგენდი. ამისთვის ლექსიკონებს ვამუშავებდი და სიტყვებს ვუკირკიტებდი… ამ საქმიანობამ იმდენად გამიტაცა, პროფესიულ არჩევანზეც კი იმოქმედა. ვისწავლე პროგრამირება, შორეულ 2000-იანებში ქართულ ენაზე კროსვორდის შესადგენი პროგრამა დავწერე, პროგრამისტი გავხდი, შემდეგ ავსტრიაში ვსწავლობდი კომპიუტერულ მეცნიერებას და საბოლოოდ მონაცემთა მეცნიერებაზე შევჩერდი. როცა გადავწყვიტე, ენის კომპიუტერული დამუშავების მეთოდოლოგია შემექმნა, ეს გამოცდილება ძალიან გამომადგა“.

იდეა, როგორც „გვერდითი მოვლენა“

მონაცემთა სფეროში მუშაობის პროცესში მეცნიერი ვახტანგ ელერდაშვილი გენეტიკოსებს ეხმარებოდა თავიანთი მონაცემების დამუშავებაში. მონაცემთა მეცნიერება ქმნის ალგორითმებს, რომლებიც მეგამონაცემებს ( დიდი რაოდენობით მონაცემების) ამუშავებენ. კანონზომიერებების აღმოჩენა, ანალიზი და ინტერპტეტირება სკრუპულოზული, საინტერესო საქმეა. მუშაობის პროცესში მეცნიერი დააკვირდა, რომ რაც გენეტიკაში გენებია, ის ლინგვისტიკაში სიტყვებია, რაც გენეტიკაში გენომია, ის ლინგვისტიკაში გრამატიკული ცხრილებია, ენაც ისევე განიცდის „მუტაციას“, როგორც ორგანიზმი და ისიც „მემკვიდრეობით გადმოგვეცემა“ და…ევრიკა! ბუნებრივი ენის დამუშავების მეთოდოლოგიაში პირველი ნაბიჯები გადაიდგა.

„ამ ეტაპზე გაჩნდა დიდი დაბრკოლება – ქართულ ენაზე არ იყო ხელმისაწვდომი ტექსტები, რათა კორპუსი შემექმნა. დავიწყე ტექსტების შეგროვება. ორი წელიწადი ვაგროვებდი ტექსტებს. 3500 წიგნი, ფეისბუქის გვერდები, ფორუმების პოსტები, ერთ მილიონამდე „ნიუსი“ სააგენტოებიდან – ეს ყველაფერი გროვდებოდა ჩემს საცავში. სადაც კი რამეს მივწვდი, ყველაფერი გადმოვქაჩე და 24 გიგაბაიტიანი კორპუსი შევაგროვე. მილიარდ ორმოცდაშვიდი მილიონი სიტყვა დამიგროვდა“.

დაბრკოლებების გადალახვა, გამოწვევებისა და სირთულეების დაძლევა ნებისმიერი წამოწყების წარმატებით დასრულების საწინდარია. საჭირო გახდა ასეთი შრომით დაგროვებული სიტყვების მარაგის შეჯერება და ვალიდაცია, რისთვისაც მეცნიერმა ქართული ეროვნული კორპუსი გამოიყენა (ქართული ენის ეროვნული კორპუსი აერთიანებს ქართული ენის როგორც წერილობით, ისე ზეპირმეტყველების ნიმუშებს).

„ეროვნულმა კორპუსმა აჩვენა, რომ დაახლოებით 3 მილიონი მორფოლოგიურად ვალიდური სიტყვაა, სწორად ეს 3 მილიონი სიტყვა დაედო საფუძვლად ქართული ენის კომპიუტერულ მოდელს, რომელიც შევქმენი. ამ ეტაპზე ეს მოდელი 93 500 არაზმნური სიტყვის ფორმებს და 7500 ზმნის ფუძის ფორმებს შეიცავს. ყველა ფორმა რომ დავაჯამოთ, რისი გენერაციას მოდელს შეუძლია რამდენიმე ასეულ მილიონ ფორმას მივიღებთ. ეს წარმოუდგენელი რიცხვია. მაგალითად სიტყვა “მეცნიერს” ქართულში 1000-მდე ფორმის წარმოება შეუძლია, აქამდე ამისი წარმოდგენაც კი არ შემეძლო“.

მართლაც საოცარი წარმოსადგენია. აქამდე, თითქოს, ყველამ ვიცოდით, რომ ქართული სიტყვათწარმოება, ზმნური ფორმების წარმოება უამრავ ახალ ფორმას ბადებს, მაგრამ ასე თვალსაჩინოდ, კომპიუტერულად დათვლილი ზუსტი რაოდენობა მაინც რაოდენ შთამბეჭდავია. ერთი სიტყვისგან ნაწარმოები ასობით ფორმის თვალნათივ ხილვა გასაოცარი რამაა.

ღია, გამჭვირვალე, საზოგადოებრივი

ვიკიპედიის მსგავსად, საიტის ნებისმიერ მომხარებელს შეუძლია მონაწილეობა მიიღოს მის დახვეწასა და შევსებაში. ანალიზატორის მარაგის შევსება ყოველდღიურად ხდება და ვახტანგის განცხადებით, მოსალოდნელზე დიდიც კია საზოგადოების ინტერესი და ჩართულობა.

„თავიდან გვქონდა მოლოდინი, რომ მხოლოდ ახლო მეგობრები შემოუერთდებოდნენ წამოწყებას და დაგვეხმარებოდნენ შევსებასა და გაუმჯობესებაში, შევქმენით ჯგუფი სოციალურ ქსელში და ჩვენთვისვე მოულოდნელად უამრავი ადამიანი ჩაერთო პროცესში. ენის სპეციალისტები, მასწავლებლები, ენათმეცნიერების ინსტიტუტის თანამშრომლები. ღია და გამჭვირვალე პროცესი ჩემთვის მნიშვნელოვანია და არანაკლებ ღირებულია ისიც, რომ თითოეულს შეუძლია წვლილის შეტანა საერთო საქმეში“.

აღსანიშნავია ისიც, რომ სოციალურ ქსელში შექმნილი ჯგუფი ფასდაუდებელ შრომას სწევს თანამედროვე სალიტერატურო ნორმების შემუშავების საქმეში.

რამდენი ფორმაა დაგროვებული, რაც სასწრაფოდ საჭიროებს გადაწყვეტას? რა ხდება იმ შემთხვევაში, თუ ორთოგრაფიული ლექსიკონები ერთმანეთს ეწინააღმდეგებიან და სხვადასხვა ფორმას მიიჩნევენ ნორმად? ნეოლოგიზმებიდან რომელი უნდა დარჩეს სალიტერატურო ენაში და რომელი უნდა უგულებელვყოთ? რა ნორმებია გადასახედი და შესაცვლელი ხალხური მეტყველებისა და გამოყენების სიხშირის გამოისობით? ეს და სხვა საკითხები აქტიურად მიმოიხილება და თუ აქამდე ეს ყველაფერი სპეციალისტთა ვიწრო წრისთვის იყო ხელმისაწვდომი ან სპეციალურ გამოცემებსა და ჟურნალებში იბეჭდებოდა, ახლა ნებისმიერი დაინტერესებული პირისთვისაა ხელმისაწვდომი.

საიტის შემქმნელი ირწმუნება, რომ ეს რესურსი მუდამ უფასო და ხელმისაწვდომი იქნება მსურველებისთვის. სამომავლოდ სემანტიკური და სინტაქსური შემოწმებაც გახდება შესაძლებელი. ასევე – ბარბარიზმის ჩასანაცვლებელი მოდელიც მუშავდება, რათა მხატვრულ ტექსტში ლეგიტიმურად გამოყენებული ბარბარიზმი კი არ გაწითლდეს, არამედ გალურჯდეს და იქვე სწორი შესატყვისიც მიეწოდოს მომხმარებელს.

მანამდე კი მოსწავლეებსა და მასწავლებლებს საპრეზენტაციო თემების, რეფერატების, საშინაო წერითი დავალებებისა და კომპიუტერში აკრეფილი ნებისმიერი მოცულობის სხვა ტექსტების მორფოლოგიურ-ორთოგრაფიულ „გამსწორებლად“  უფასო საიტი https://www.spellchecker.ge შეგვიძლია გამოვიყენოთ.

ვრცელი ინტერვიუ ვახტანგ ელერდაშვილთან გამოქვეყნდა ვებსაიტზე „მედიაჩეკერი“, რუბრიკა „ფილოლოგის სვეტი“

 

 

 

კომენტარები

comments