“ჩვენი გონება შედგება მრავალი პატარა “აზროვნების მანქანისგან”. თითოეული მათგანი ძალიან მარტივია, მაგრამ როდესაც ერთად მუშაობენ, ისინი ქმნიან ჩვენს რთულ აზროვნებას.”
“The Society of Mind” Marvin Minsky
მულტიმოდალური კომუნიკაცია
მარვინ მინსკი იყო ხელოვნური ინტელექტის პიონერი და მისი ნაშრომები მნიშვნელოვან გავლენას ახდენდა და დღესაც ახდენს AI-ს კვლევაზე. მისი იდეა “გონების საზოგადოების” შესახებ, რომელიც აღწერილია წიგნში “The Society of Mind” (1986), არის ერთ-ერთი მნიშვნელოვანი კონცეფცია AI-ს სფეროში. მინსკის თეორიის მიხედვით, ადამიანის ინტელექტი შედგება მრავალი მარტივი აგენტისგან, რომლებიც ერთად მუშაობენ. ეს იდეა პირდაპირ კავშირშია თანამედროვე AI სისტემებთან, განსაკუთრებით ნეირონული ქსელების არქიტექტურასთან.
„…ყოველი ადამიანის გონება შედგება მრავალი სააგენტოსგან/აგენტისგან. ისევე როგორც თქვენი სხეული, თქვენი ტვინის ჩათვლით, შედგება ორგანოების, უჯრედებისა და ქიმიური ნივთიერებებისგან, ასევე თქვენი გონებაც არის დიდი, კომპლექსური საზოგადოება. ჩვენ შეგვიძლია წარმოვიდგინოთ სხეული ან გონება როგორც ქვეყნების, ქალაქებისა და სოფლების დიდი იმპერია………. ეს სააგენტოები იყენებენ ისეთ განსხვავებულ ენებს თავიანთ შიგნით, რომ მათ თითქმის არ შეუძლიათ ერთმანეთთან კომუნიკაცია. თუმცა, თითოეულ მათგანს შეუძლია ისწავლოს სხვების გავლენა და ამგვარად გამოიყენოს ის უნარები, რომლებსაც სხვები ფლობენ. იმისათვის, რომ გავიგოთ ეს უზარმაზარი ‘გონების საზოგადოებები’ ჩვენ შიგნით, ჩვენ უნდა განვავითაროთ იდეები იმის შესახებ, თუ როგორ წარმოიქმნება მენტალური ფენომენი მარტივი სისტემების საზოგადოებებიდან. არც ერთ კულტურას, არც აღმოსავლეთს და არც დასავლეთს, არ მოვუმზადებივართ ამისთვის, რომელიც შესაძლოა ყველაზე რთული გამოწვევაა, რომელსაც მეცნიერება ოდესმე შეხვედრია.”[1]
მარვინ მინსკის ნააზრევში ყველაზე საინტერესოა ის, რომ ადამიანის გონების აგენტების ენა არის მულტიმოდალური და მათ თითქმის არ ესმით ერთმანეთის, თუმცა ერთიან პროცესში მონაწილეობენ. ამავე დროს, მინსკის მტკიცებით, შესაძლებელია, მათ ერთმანეთის ენა „ვასწავლოთ“ და მივცეთ ახალი შესაძლებლობები.
მარვინ მინსკის “გონების საზოგადოებების” იდეა და მისი შეხედულებები ცნობიერებაზე საინტერესო პერსპექტივას გვთავაზობს, რომელიც შეიძლება დავუკავშიროთ მულტიმოდალურ კომუნიკაციას და სხვადასხვა სენსორულ “ენას”(ეს თემები განხილული მაქვს სხვა სტატიებში: „როგორ წავიკითხოთ ერთი ლექსი სამ სემიოტიკურ ენაზე“[2] და „ენა, როგორც უნივერსალური მულტისემიოტიკური სისტემა“[3]).
მინსკის იდეა, რომ გონება შედგება მრავალი მცირე “აგენტისგან”, რომლებიც ერთად მუშაობენ, შეიძლება გავიაზროთ როგორც მულტიმოდალური აღქმისა და კომუნიკაციის მოდელი. თითოეული სენსორული მოდალობა (ვიზუალური, აუდიალური, კინესთეტური) შეიძლება წარმოვიდგინოთ როგორც ცალკეული “საზოგადოება” გონებაში, თავისი საკუთარი “აგენტებით” და “ენით”.
როდესაც მინსკი ამბობს, რომ შინაგან აგენტებს ერთმანეთის ენა არ ესმით, ეს შეიძლება ნიშნავდეს, რომ სხვადასხვა სენსორული სისტემა ინფორმაციას სხვადასხვა ფორმატში ამუშავებს. მაგალითად:
ვიზუალური სისტემა მუშაობს სურათებით, ფერებით, ფორმებით.
აუდიალური სისტემა – ბგერებით, ტონებით, რიტმებით.
კინესთეტური სისტემა – შეხების შეგრძნებებით, მოძრაობებით, პოზიციებით.
თუმცა, ეს ყველაფერი საბოლოოდ შეიძლება გამოიხატოს ვერბალურად, რაც მიუთითებს იმაზე, რომ არსებობს გარკვეული “მთარგმნელობითი” მექანიზმი გონებაში. ენა, როგორც ნიშანთა სისტემა, არის ერთგვარი „მთარგმნელი“.
მაგალითად, მიხაელ ჰალიდეის[4] სისტემურ-ფუნქციური ლინგვისტიკა განიხილავს ენას როგორც მრავალშრიან სემიოტიკურ სისტემას, რომელიც აერთიანებს სხვადასხვა რესურსს და ეს ყველაფერი ემსახურება მნიშვნელობის შექმნას.
ჯორჯ ლაკოფისა და მარკ ჯონსონის ნაშრომები[5] კონცეპტუალური მეტაფორის შესახებ გვიჩვენებს, თუ როგორ ეფუძნება ჩვენი აბსტრაქტული აზროვნება სხეულებრივ გამოცდილებას. ეს იდეა ეხმიანება მინსკის შეხედულებას, რომ გონება ვითარდებოდა პრაქტიკული პრობლემების გადასაჭრელად.
თანამედროვე ნეირომეცნიერება გვიჩვენებს, რომ ტვინი მართლაც ახდენს სხვადასხვა სენსორული ინფორმაციის ინტეგრაციას. ამის საუკეთესო მაგალითია მაკგურკის ეფექტი[6], რომელიც გვიჩვენებს, თუ როგორ ახდენს გავლენას ვიზუალური ინფორმაცია აუდიალურ აღქმაზე.
მოკლედ რომ ავხსნათ: როდესაც ადამიანი უყურებს ვიდეოს, სადაც პირის მოძრაობა არ შეესაბამება რეალურად გაჟღერებულ ბგერას, ტვინი ცდილობს ამ ინფორმაციის შეჯერებას. ხშირად, ვიზუალური ინფორმაცია (პირის მოძრაობა) გადაწონის აუდიო ინფორმაციას და ადამიანი “ესმის” ის, რასაც ხედავს და არა ის, რაც რეალურად ჟღერს. ეს ეფექტი აჩვენებს, რომ მეტყველების აღქმა არის მულტიმოდალური პროცესი, სადაც ტვინი აერთიანებს როგორც სმენით, ისე ვიზუალურ ინფორმაციას. მაკგურკის ეფექტი მნიშვნელოვანია ფსიქოლოგიის, ნეირომეცნიერებისა და მეტყველების აღქმის კვლევებში. იგი გვეხმარება გავიგოთ, როგორ ამუშავებს ტვინი კომპლექსურ სენსორულ ინფორმაციას.
ახლა გადავიდეთ ხელოვნურ ინტელექტზე და მულტიმოდალურ სწავლებაზე.
თანამედროვე AI სისტემები, როგორიცაა GPT-4[7], იყენებენ მულტიმოდალურ სწავლებას, რაც ნიშნავს, რომ ინფორმაცია შეიძლება დამუშავდეს და გენერირდეს სხვადასხვა მოდალობაში (ტექსტი, სურათები, ხმა). ეს შეიძლება დავაკავშიროთ მინსკის იდეას იმის შესახებ, რომ მომავლის მანქანები შეიძლება უფრო “თვითშემეცნებადნი” იყვნენ, ვიდრე ადამიანები.
მარვინ მინსკის „გონების საზოგადოების“ იდეა გვიჩვენებს, რომ ადამიანის გონება რთული სისტემაა, რომელიც შედგება მრავალი მარტივი კომპონენტისგან. ეს კონცეფცია ეხმიანება თანამედროვე მულტიმოდალურ კომუნიკაციას, სადაც სხვადასხვა სენსორული „ენები“ (ვიზუალური, აუდიო, კინესთეტური) ერთიანდებიან და ქმნიან სრულ, კოჰერენტულ გამოცდილებას. AI-ს განვითარებაში, მინსკის ხედვები მნიშვნელოვან როლს ასრულებს, განსაკუთრებით მულტიმოდალური პრომპტების გენერირებისას, რაც საშუალებას გვაძლევს, რომ სხვადასხვა მედიუმს სწორად გადავცეთ ინფორმაცია.
მულტიმოდალურობა AI ჩატბოტების კონტექსტში
ლექსიკა და გამოყენებული ტერმინოლოგია მნიშვნელოვნად იცვლება სხვადასხვა ტიპის პრომპტების შექმნისას, მაშინაც კი, როდესაც ერთი და იმავე მოვლენის ან თემის სხვადასხვა ფორმატში წარმოდგენა გვსურს. ეს განპირობებულია იმ “მედიუმის” სპეციფიკით, რომელიც ქმნის კონტენტს. მოდით, უფრო დეტალურად განვიხილოთ ეს საკითხი:
ვიზუალური პრომპტები:
ვიზუალური კონტენტის გენერირებისთვის პრომპტის შექმნისას მნიშვნელოვანია:
დეტალური აღწერა: მაგალითად, “მზიანი დღე ზღვის სანაპიროზე” – ამის ნაცვლად უმჯობესია: “მზიანი საღამო ტროპიკულ სანაპიროზე, ოქროსფერი ქვიშით და ლურჯი ზღვით, პალმის ხეები ჰორიზონტზე”.
კომპოზიციის მითითება: “წინა პლანზე პალმის ხე, შუაში – მზის ქვეშ მოციმციმე ზღვა, ფონზე – მთები”.
სტილის განსაზღვრა: “რეალისტური ფოტოგრაფიული სტილი” ან “იმპრესიონისტული მხატვრული სტილი”.
ფერების და განათების აღწერა: “თბილი ტონები, მზის ჩასვლის ნარინჯისფერი შუქი”.
რატომ? ვიზუალური დეტალები ეხმარება AI-ს შექმნას უფრო ზუსტი და სასურველი გამოსახულება.
გამოიყენება ვიზუალური აღწერის ტერმინები: “მკვეთრი”, “ბუნდოვანი”, “წინა პლანი”, “ფონი”, “კომპოზიცია”
ფერების და განათების ლექსიკა: “კონტრასტული”, “პასტელური”, “ჩრდილი”, “ბაცი”, “კაშკაშა”. ხელოვნების სტილების ტერმინები: “იმპრესიონისტული”, “აბსტრაქტული”, “ფოტორეალისტური”.
მაგალითად: “შექმენით იმპრესიონისტული სტილის ნახატი პარიზის ქუჩის სცენისა, წინა პლანზე კაფეს მაგიდებით და ფონზე – ეიფელის კოშკით, გამოიყენეთ თბილი ფერები და რბილი განათება.”
აუდიო პრომპტები
აუდიო კონტენტის გენერირებისთვის გასათვალისწინებელია: ხმის ტონი და ხასიათი: “მშვიდი, დამამშვიდებელი ხმა” ან “ენერგიული, ენთუზიაზმით სავსე ტონი”.
ტემპი და რიტმი: “ნელი, მედიტაციური ტემპი” ან “სწრაფი, დინამიკური რიტმი”.
ინსტრუმენტები ან ხმის ეფექტები: “აკუსტიკური გიტარა და ფლეიტა” ან “ელექტრონული სინთეზატორები ბასის ხაზით”.
ჟანრი ან სტილი: “კლასიკური სიმფონიური მუსიკა” ან “ელექტრონული ჩილაუტი”.
რატომ? ეს დეტალები განსაზღვრავს აუდიოს ემოციურ და სტილისტურ მახასიათებლებს.
გამოყენებული ლექსიკა: მუსიკალური ტერმინები: “ტემპი”, “რიტმი”, “მელოდია”, “ჰარმონია”, “აკორდი”.
ხმის თვისებების აღმწერი სიტყვები: “ხრინწიანი”, “სუფთა”, “მაღალი”, “დაბალი”, “ვიბრატო”.
აკუსტიკური ტერმინები: “რევერბერაცია”, “ექო”, “სტერეო”, “მონო”.
მაგალითი: “შექმენით 30-წამიანი აუდიო კლიპი პარიზის ქუჩის ატმოსფეროს გადმოსაცემად, ნელი ტემპის აკორდეონის მელოდიით, ფონზე ყავის ფინჯნების წკრიალის და გამვლელების ჩურჩულის ხმით.”
ვიდეო პრომპტები
ვიდეო კონტენტისთვის მნიშვნელოვანია:
სცენის აღწერა: “ურბანული ქუჩა წვიმიან ღამეში, ნეონის განათებით”.
მოძრაობა და დინამიკა: “კამერა ნელა მოძრაობს მარცხნიდან მარჯვნივ, აჩვენებს გამვლელებს ქოლგებით”.
ხანგრძლივობა და ტემპი: “30-წამიანი კლიპი, ნელი ტემპით”.
ვიზუალური ეფექტები: “გაბუნდოვნებული/გაბლარული ფონი, წინა პლანზე მკვეთრი ფოკუსით”.
აუდიო ელემენტები: “ფონური ხმაური წვიმის წვეთების და მანქანების ხმით”.
რატომ? ეს ელემენტები ქმნიან სრულ აუდიო-ვიზუალურ გამოცდილებას და ნარატიულ კონტექსტს.
ლექსიკა:
კინემატოგრაფიული ტერმინები: “კადრი”, “მონტაჟი”, “პანორამა”, “ზუმი”, “რაკურსი”.
მოძრაობის აღმწერი სიტყვები: “დინამიკური”, “სტატიკური”, “პლავნი”, “სწრაფი”.
მაგალითი: “შექმენით 1-წუთიანი ვიდეო კლიპი პარიზის ქუჩის ცხოვრებაზე, დაიწყეთ ფართო კადრით ეიფელის კოშკზე, შემდეგ გააკეთეთ ნელი პანორამა ქუჩის კაფეებზე, დაასრულეთ ახლო კადრით ესპრესოს ფინჯანზე. გამოიყენეთ თბილი ფერების ფილტრი.
ტექსტური პრომპტები
ტექსტური კონტენტის გენერირებისთვის გასათვალისწინებელია:
ტონი და სტილი: “პროფესიული, აკადემიური ტონი” ან “მეგობრული, საუბრის სტილი”.
სტრუქტურა: “5-პარაგრაფიანი ესე შესავლით, სამი მთავარი პუნქტით და დასკვნით”.
სამიზნე აუდიტორია: “ახსენით კვანტური ფიზიკის საფუძვლები 10 წლის ბავშვებისთვის”.
მიზანი: “დაარწმუნეთ მკითხველი გადავიდეს განახლებად ენერგიაზე”.
ეს ფაქტორები განსაზღვრავს ტექსტის ეფექტურობას და მიზანშეწონილობას კონკრეტული აუდიტორიისთვის.
ლექსიკა:
ლიტერატურული ტერმინები: “თხრობა”, “დიალოგი”, “აღწერა”, “მეტაფორა”, “პერსონაჟი”.
სტრუქტურული ელემენტები: “აბზაცი”, “თავი”, “შესავალი”, “დასკვნა”, “არგუმენტი”.
სტილისტური ტერმინები: “ფორმალური”, “პოეტური”, “ტექნიკური”.
მაგალითი: “დაწერეთ 500-სიტყვიანი ესე პარიზის ქუჩის ცხოვრებაზე. დაიწყეთ მოკლე, ატმოსფერული აღწერით, შემდეგ გადმოეცით პერსონაჟის გამოცდილება კაფეში ჯდომისას. გამოიყენეთ მგრძნობიარე, პოეტური ენა ქალაქის ატმოსფეროს გადმოსაცემად.”
როგორც ხედავთ, თითოეული მედიუმისთვის გამოიყენება სპეციფიკური ლექსიკა, რომელიც ასახავს ამ მედიუმის უნიკალურ მახასიათებლებს და შესაძლებლობებს. ეს საშუალებას გვაძლევს უფრო ზუსტად და ეფექტურად მივაწოდოთ ინსტრუქციები AI-ს, რათა მან შექმნას სასურველი კონტენტი კონკრეტული მედიუმისთვის.
ამასთან, მნიშვნელოვანია გვახსოვდეს, რომ ზოგჯერ სასარგებლოა სხვადასხვა მედიუმის ელემენტების კომბინირება ერთ პრომპტში, განსაკუთრებით მულტიმედიური პროექტებისთვის. მაგალითად, ვიდეო პრომპტში შეიძლება გამოვიყენოთ როგორც ვიზუალური, ისე აუდიო ტერმინოლოგია უფრო სრული და დეტალური შედეგის მისაღებად.
გამოყენებული ლიტერატურა:
Minsky, M. (1986). The Society of Mind. Simon & Schuster.
Halliday, M.A.K. (1978). Language as social semiotic: The social interpretation of language and meaning. Edward Arnold.
Lakoff, G., & Johnson, M. (1980). Metaphors We Live By. University of Chicago Press.
McGurk, H., & MacDonald, J. (1976). Hearing lips and seeing voices. Nature, 264(5588), 746-748.
OpenAI. (2023). GPT-4 Technical Report. arXiv preprint arXiv:2303.08774.
[1] https://www.jstor.org/stable/20708493?read-now=1&seq=3#page_scan_tab_contents
[2] https://mastsavlebeli.ge/?p=4218
[3] https://mastsavlebeli.ge/?p=4203
[4] Halliday, M.A.K. (1978). Language as social semiotic: The social interpretation of language and meaning. Edward Arnold.
[5] Lakoff, G., & Johnson, M. (1980). Metaphors We Live By. University of Chicago Press.
[6] McGurk, H., & MacDonald, J. (1976). Hearing lips and seeing voices. Nature, 264(5588), 746-748.
[7] OpenAI. (2023). GPT-4 Technical Report. arXiv preprint arXiv:2303.08774.