მთავარი წაღებები
- მკვლევარები აცხადებენ, რომ მათ შეუძლიათ ასწავლონ AI-ს ვიდეოების მარკირება ყურებით და მოსმენით.
- AI სისტემა სწავლობს მონაცემების წარმოდგენას ვიზუალურ და აუდიო მონაცემებს შორის გაზიარებული კონცეფციების აღსაბეჭდად.
-
ეს არის მცდელობის ნაწილი, ვასწავლოთ ხელოვნური ინტელექტის ცნებები იმის გაგება, რომ ადამიანებს არ უჭირთ სწავლა, მაგრამ კომპიუტერებს უჭირთ აღქმა.
ახალ ხელოვნური ინტელექტის სისტემას (AI) შეუძლია უყუროს და მოუსმინოს თქვენს ვიდეოებს და მიანიშნოს მოვლენები.
MIT-ის მკვლევარებმა შეიმუშავეს ტექნიკა, რომელიც ასწავლის ხელოვნურ ინტელექტს ვიდეოსა და აუდიოს შორის გაზიარებული მოქმედებების აღბეჭდვას.მაგალითად, მათ მეთოდს შეუძლია გაიგოს, რომ ვიდეოში ბავშვის ტირილის მოქმედება დაკავშირებულია ხმოვან კლიპში წარმოთქმულ სიტყვასთან „ტირილთან“. ეს არის მცდელობის ნაწილი, ასწავლოს ხელოვნური ინტელექტი, როგორ გაიგოს ცნებები, რომელთა სწავლა ადამიანებს არ უჭირთ, მაგრამ კომპიუტერებს უჭირთ აღქმა.
"გავრცელებული სწავლის პარადიგმა, ზედამხედველობის ქვეშ მყოფი სწავლება, კარგად მუშაობს, როდესაც თქვენ გაქვთ მონაცემთა ნაკრები, რომელიც კარგად არის აღწერილი და დასრულებული", - განუცხადა AI ექსპერტმა ფილ ვინდერმა Lifewire-ს ელ-ფოსტის ინტერვიუში. "სამწუხაროდ, მონაცემთა ნაკრები იშვიათად არის სრული, რადგან რეალურ სამყაროს აქვს ცუდი ჩვევა ახალი სიტუაციების წარმოჩენის."
ჭკვიანი AI
კომპიუტერებს უჭირთ ყოველდღიური სცენარების გარკვევა, რადგან მათ სჭირდებათ მონაცემების შეკუმშვა, ვიდრე ხმები და სურათები, როგორც ადამიანები. როდესაც მანქანა „ხედავს“ფოტოს, მან უნდა დაშიფროს ეს ფოტო მონაცემებში, რომელსაც შეუძლია გამოიყენოს ისეთი დავალების შესასრულებლად, როგორიცაა გამოსახულების კლასიფიკაცია. ხელოვნური ინტელექტი შეიძლება დაიტვირთოს, როდესაც შეყვანები მოდის მრავალ ფორმატში, როგორიცაა ვიდეო, აუდიო კლიპები და სურათები.
"აქ მთავარი გამოწვევაა, როგორ შეუძლია მანქანას ამ სხვადასხვა მოდალობის გათანაბრება? როგორც ადამიანებისთვის, ეს მარტივია ჩვენთვის", - თქვა ალექსანდრე ლიუმ, MIT-ის მკვლევარმა და ამ თემაზე ნაშრომის პირველმა ავტორმა. საინფორმაციო გამოშვება. "ჩვენ ვხედავთ მანქანას და შემდეგ გვესმის მანქანის ხმას, რომელიც მოძრაობს და ვიცით, რომ ეს იგივეა. მაგრამ მანქანური სწავლისთვის ეს არც ისე მარტივია."
Liu-ს გუნდმა შეიმუშავა AI ტექნიკა, რომელიც, მათი თქმით, სწავლობს მონაცემების წარმოდგენას ვიზუალურ და აუდიო მონაცემებს შორის გაზიარებული კონცეფციების აღსაბეჭდად. ამ ცოდნის გამოყენებით, მათ მანქანათმცოდნეობის მოდელს შეუძლია დაადგინოს, თუ სად ხდება კონკრეტული მოქმედება ვიდეოში და დაასახელოს იგი.
ახალი მოდელი იღებს ნედლეულ მონაცემებს, როგორიცაა ვიდეოები და მათი შესაბამისი ტექსტური წარწერები, და დაშიფვრავს მათ ვიდეოში ობიექტებზე და მოქმედებებზე ფუნქციების ან დაკვირვების ამოღებით. შემდეგ ის ასახავს მონაცემთა წერტილებს ქსელში, რომელიც ცნობილია როგორც ჩაშენებული სივრცე. მოდელი აგროვებს მსგავს მონაცემებს, როგორც ცალკეულ წერტილებს ქსელში; თითოეული ამ მონაცემთა წერტილი, ან ვექტორი, წარმოდგენილია ცალკეული სიტყვით.
მაგალითად, ადამიანის ჟონგლირების ვიდეო რგოლი შეიძლება იყოს გადატანილი ვექტორზე, სახელწოდებით "ჟონგლირება".
მკვლევარებმა შეიმუშავეს მოდელი ისე, რომ მას შეეძლო მხოლოდ 1000 სიტყვის გამოყენება ვექტორების მარკირებისთვის. მოდელს შეუძლია გადაწყვიტოს რომელი ქმედებები ან ცნებები უნდა დაშიფვროს ერთ ვექტორად, მაგრამ მას შეუძლია გამოიყენოს მხოლოდ 1000 ვექტორი. მოდელი ირჩევს სიტყვებს, რომლებიც, მისი აზრით, საუკეთესოდ წარმოადგენენ მონაცემებს.
"თუ არის ვიდეო ღორების შესახებ, მოდელმა შეიძლება მიაკუთვნოს სიტყვა "ღორი" 1000 ვექტორიდან ერთ-ერთს. შემდეგ, თუ მოდელი მოისმენს ვინმეს სიტყვას "ღორი" აუდიო კლიპში, მან მაინც უნდა გამოიყენოს იგივე ვექტორი ამის დაშიფვრის მიზნით,”- განმარტა ლიუმ.
თქვენი ვიდეოები, გაშიფრული
უკეთესი მარკირების სისტემები, როგორიცაა MIT-ის მიერ შემუშავებული, შეიძლება დაეხმაროს AI-ში მიკერძოების შემცირებას, განუცხადა Lifewire-ს ელ-ფოსტის ინტერვიუში მარიან ბესზედესმა, ბიომეტრიული ფირმის Innovatrics-ის კვლევისა და განვითარების ხელმძღვანელმა. ბესედესი ვარაუდობს, რომ მონაცემთა ინდუსტრიას შეუძლია AI სისტემების ნახვა წარმოების პროცესის პერსპექტივიდან.
სისტემები იღებენ ნედლეულ მონაცემებს, როგორც შეყვანის (ნედლეულის) სახით, წინასწარ ამუშავებენ მას, იღებენ მას, იღებენ გადაწყვეტილებებს ან პროგნოზებს და გამოაქვთ ანალიტიკას (მზა პროდუქცია), - თქვა ბესზედესმა. ჩვენ ვუწოდებთ ამ პროცესის ნაკადს „მონაცემთა ქარხანას“და სხვა წარმოების პროცესების მსგავსად, ის უნდა ექვემდებარებოდეს ხარისხის კონტროლს. მონაცემთა ინდუსტრიამ უნდა განიხილოს AI მიკერძოება, როგორც ხარისხის პრობლემა.
"მომხმარებლის თვალსაზრისით, არასწორი მარკირებული მონაცემები ართულებს, მაგალითად, კონკრეტული სურათების/ვიდეოების ონლაინ ძიებას", დასძინა ბესზედესმა. "სწორად განვითარებული ხელოვნური ინტელექტის საშუალებით, თქვენ შეგიძლიათ გააკეთოთ მარკირება ავტომატურად, ბევრად უფრო სწრაფად და ნეიტრალურად, ვიდრე ხელით მარკირებით."
მაგრამ MIT მოდელს მაინც აქვს გარკვეული შეზღუდვები. ერთი, მათი კვლევა ერთდროულად ორი წყაროს მონაცემებზე იყო ორიენტირებული, მაგრამ რეალურ სამყაროში ადამიანები ერთდროულად ხვდებიან ბევრ სახის ინფორმაციას, თქვა ლიუმ
"და ჩვენ ვიცით, რომ 1000 სიტყვა მუშაობს ამ ტიპის მონაცემთა ბაზაზე, მაგრამ არ ვიცით, შეიძლება თუ არა მისი განზოგადება რეალურ პრობლემაზე," დასძინა ლიუმ.
MIT-ის მკვლევარები ამბობენ, რომ მათი ახალი ტექნიკა ბევრ მსგავს მოდელს აღემატება. თუ ხელოვნური ინტელექტის მომზადება შესაძლებელია ვიდეოების გასაგებად, საბოლოოდ შეგიძლიათ გამოტოვოთ თქვენი მეგობრის შვებულების ვიდეოების ყურება და ამის ნაცვლად მიიღოთ კომპიუტერით გენერირებული ანგარიში.