მალე, შეიძლება არ იცოდეთ, რომ კომპიუტერთან საუბრობთ

Სარჩევი:

მალე, შეიძლება არ იცოდეთ, რომ კომპიუტერთან საუბრობთ
მალე, შეიძლება არ იცოდეთ, რომ კომპიუტერთან საუბრობთ
Anonim

მთავარი წაღებები

  • სწრაფად ახლოვდება დღე, როცა კომპიუტერით გენერირებული მეტყველება რეალურს ვერ გაარჩევთ.
  • Google-მა ახლახან წარმოადგინა LaMDA, მოდელი, რომელიც უფრო ბუნებრივი საუბრების საშუალებას იძლევა.
  • ადამიანის მსგავსი მეტყველების გამომუშავებას ასევე დიდი დამუშავების ძალა სჭირდება.
Image
Image

ამჟამად, ადვილია იმის თქმა, თუ როდის ესაუბრები კომპიუტერს, მაგრამ ეს შეიძლება მალე შეიცვალოს ხელოვნური ინტელექტის ბოლოდროინდელი მიღწევების წყალობით.

Google-მა ახლახან გამოაქვეყნა LaMDA, ექსპერიმენტული მოდელი, რომელიც კომპანიის მტკიცებით, შეუძლია გააძლიეროს მისი სასაუბრო ხელოვნური ინტელექტის ასისტენტების შესაძლებლობები და უფრო ბუნებრივი საუბრების შესაძლებლობა. LaMDA მიზნად ისახავს, საბოლოოდ, ნორმალურად ისაუბროს თითქმის ყველაფერზე რაიმე სახის წინასწარი ტრენინგის გარეშე.

ეს არის ხელოვნური ინტელექტის მზარდი პროექტებიდან ერთ-ერთი, რომელმაც შეიძლება გაგიკვირდეთ, ესაუბრებით თუ არა ადამიანს.

"ჩემი შეფასებით, მომდევნო 12 თვის განმავლობაში მომხმარებლები დაიწყებენ ამ ახალი, უფრო ემოციური ხმების გამოვლენას და შეჩვევას", - ჯეიმს კაპლანი, MeetKai-ს აღმასრულებელი დირექტორი, სასაუბრო ხელოვნური ინტელექტის ვირტუალური ხმოვანი ასისტენტი და ძიება. ძრავა, ნათქვამია ელექტრონული ფოსტის ინტერვიუში.

"როდესაც ეს მოხდება, დღევანდელი სინთეზირებული მეტყველება მომხმარებლებისთვის ისე ჟღერს, როგორც 2000-იანი წლების დასაწყისის მეტყველება ჩვენთვის დღეს."

ხმოვანი ასისტენტები პერსონაჟებით

Google-ის LaMDA აგებულია Transformer-ზე, ნერვული ქსელის არქიტექტურაზე, რომელიც გამოიგონა Google Research-მა. სხვა ენების მოდელებისგან განსხვავებით, Google-ის LaMDA ივარჯიშებდა რეალურ დიალოგზე.

ბუნებრივი ჟღერადობის ხელოვნური მეტყველების გამოწვევის ნაწილი არის საუბრების ღია ხასიათი, წერს Google-ის ელი კოლინზი ბლოგ პოსტში.

Image
Image

"ჩეთი მეგობართან სატელევიზიო შოუს შესახებ შეიძლება გადაიზარდოს დისკუსიაში იმ ქვეყნის შესახებ, სადაც გადაიღეს შოუ, სანამ გადაწყვეტთ დებატებს ამ ქვეყნის საუკეთესო რეგიონალური სამზარეულოს შესახებ," დასძინა მან.

რობოტების მეტყველებით საქმეები სწრაფად მიდის. ერიკ როზენბლუმმა, Tsingyuan Ventures-ის მმართველმა პარტნიორმა, რომელიც ინვესტიციას ახორციელებს სასაუბრო AI-ში, თქვა, რომ კომპიუტერული მეტყველების ზოგიერთი ყველაზე ფუნდამენტური პრობლემა პრაქტიკულად მოგვარებულია.

მაგალითად, მეტყველების გაგების სიზუსტე უკვე ძალიან მაღალია ისეთ სერვისებში, როგორიცაა Otter.ai პროგრამული უზრუნველყოფის ტრანსკრიფცია ან DeepScribe-ის მიერ აღებული სამედიცინო შენიშვნები.

"შემდეგი საზღვარი, თუმცა, ბევრად უფრო რთულია," დასძინა მან.

კონტექსტის გაგების შენარჩუნება, რაც არის პრობლემა, რომელიც სცილდება ბუნებრივი ენის დამუშავებას და თანაგრძნობას, როგორიცაა კომპიუტერები, რომლებიც ურთიერთობენ ადამიანებთან, უნდა გაიგონ იმედგაცრუება, ბრაზი, მოუთმენლობა და ა.შ.ორივე საკითხზე მიმდინარეობს მუშაობა, მაგრამ ორივე საკმაოდ შორს არის დამაკმაყოფილებისაგან.“

ნერვული ქსელები არის გასაღები

სიცოცხლის მსგავსი ხმების შესაქმნელად, კომპანიები იყენებენ ტექნოლოგიას, როგორიცაა ღრმა ნერვული ქსელები, მანქანური სწავლის ფორმა, რომელიც მონაცემებს ფენების საშუალებით კლასიფიცირებს, მეთ მულდუნი, ჩრდილოეთ ამერიკის პრეზიდენტი ReadSpeaker-ში, კომპანია, რომელიც ავითარებს ტექსტიდან მეტყველების პროგრამულ უზრუნველყოფას. განაცხადა ელექტრონული ფოსტის ინტერვიუში.

"ეს ფენები აუმჯობესებს სიგნალს და ახარისხებს მას უფრო რთულ კლასიფიკაციებად," დასძინა მან. "შედეგი არის სინთეზური მეტყველება, რომელიც უცნაურად ჟღერს ადამიანის მსგავსად."

შემუშავების პროცესში მყოფი კიდევ ერთი ტექნოლოგია არის Prosody Transfer, რომელიც გულისხმობს ერთი ტექსტიდან მეტყველების ხმის გაერთიანებას მეორის საუბრის სტილთან, თქვა მულდუნმა. ასევე არსებობს გადაცემის სწავლება, რომელიც ამცირებს სავარჯიშო მონაცემების რაოდენობას, რომელიც საჭიროა ახალი ნერვული ტექსტის მეტყველებამდე ხმის წარმოებისთვის.

კაპლანი ამბობდა, რომ ადამიანის მსგავსი მეტყველების გამომუშავებას ასევე სჭირდება უზარმაზარი გადამამუშავებელი ძალა. კომპანიები ავითარებენ ნერვული ამაჩქარებლის ჩიპებს, რომლებიც მორგებული მოდულებია, რომლებიც მუშაობენ ჩვეულებრივ პროცესორებთან ერთად.

"ამაში შემდეგი ეტაპი იქნება ამ ჩიპების დაყენება უფრო მცირე აპარატურაში, როგორც ამჟამად ეს უკვე კეთდება კამერებისთვის, როდესაც საჭიროა AI ხედვისთვის," დასძინა მან. "დიდი დრო არ იქნება, სანამ ამ ტიპის გამოთვლითი შესაძლებლობები ხელმისაწვდომი იქნება თავად ყურსასმენებში."

ხელოვნური ინტელექტის საფუძველზე მეტყველების განვითარების ერთ-ერთი გამოწვევა ის არის, რომ ყველა განსხვავებულად ლაპარაკობს, ამიტომ კომპიუტერებს უჭირთ ჩვენი გაგება.

"იფიქრეთ საქართველოს წინააღმდეგ ბოსტონის წინააღმდეგ ჩრდილოეთ დაკოტას აქცენტები და არის თუ არა ინგლისური თქვენი ძირითადი ენა", - თქვა მონიკა დემამ, რომელიც მუშაობს MDinc-ში ხმოვანი ძიების ანალიტიკაზე.”გლობალურად ფიქრი, ძვირია ამის გაკეთება გერმანიის, ჩინეთისა და ინდოეთის ყველა რეგიონისთვის, მაგრამ ეს არ ნიშნავს რომ ეს არ არის ან არ შეიძლება გაკეთდეს.”

გირჩევთ: