თქვენს კომპიუტერთან საუბრები შეიძლება უფრო რეალისტური გახდეს

Სარჩევი:

თქვენს კომპიუტერთან საუბრები შეიძლება უფრო რეალისტური გახდეს
თქვენს კომპიუტერთან საუბრები შეიძლება უფრო რეალისტური გახდეს
Anonim

მთავარი წაღებები

  • მეტა იყენებს AI-ს, რათა შექმნას პროგრამები, რომლებსაც შეუძლიათ ემოციების გამოხატვა მეტყველებაში.
  • კომპანიის AI გუნდმა განაცხადა, რომ მან მიაღწია წინსვლას ექსპრესიული ვოკალიზაციის მოდელირებაში, როგორიცაა სიცილი, ყვირილი, ტირილი და "სპონტანური ჩიტი" რეალურ დროში.
  • AI ასევე გამოიყენება მეტყველების ამოცნობის გასაუმჯობესებლად.
Image
Image

შეიძლება მალე შეგეძლოთ უფრო ბუნებრივი ჩატი აწარმოოთ თქვენს კომპიუტერთან, ხელოვნური ინტელექტის (AI) ძალის წყალობით.

Meta-მ თქვა, რომ მან მიაღწია მნიშვნელოვან პროგრესს მცდელობებში შექმნას უფრო რეალისტური AI-ით გენერირებული მეტყველების სისტემები. კომპანიის AI გუნდმა განაცხადა, რომ მან მიაღწია წინსვლას ექსპრესიული ვოკალიზაციების მოდელირების უნარში, როგორიცაა სიცილი, ყვირილი და ტირილი, გარდა „სპონტანური ჩიტ-ჩატის“რეალურ დროში.

"ნებისმიერ მოცემულ საუბარში ადამიანები ცვლიან არავერბალური სიგნალებით სავსე სიგნალებს, როგორიცაა ინტონაციები, ემოციური გამოხატვა, პაუზები, აქცენტები, რიტმები - ეს ყველაფერი მნიშვნელოვანია ადამიანთა ურთიერთქმედებისთვის", - წერს გუნდი ბოლო ბლოგ პოსტში.. „მაგრამ დღევანდელი ხელოვნური ინტელექტის სისტემები ვერ ახერხებენ ამ მდიდარი, ექსპრესიული სიგნალების დაფიქსირებას, რადგან ისინი სწავლობენ მხოლოდ წერილობითი ტექსტიდან, რომელიც აღწერს იმას, რასაც ჩვენ ვამბობთ, მაგრამ არა იმას, თუ როგორ ვამბობთ ამას.“

ჭკვიანური მეტყველება

ბლოგპოსტში Meta AI-ს გუნდმა განაცხადა, რომ ისინი მუშაობენ ტრადიციული ხელოვნური ინტელექტის სისტემების შეზღუდვების დასაძლევად, რომლებსაც არ შეუძლიათ მეტყველებაში არავერბალური სიგნალების გაგება, როგორიცაა ინტონაციები, ემოციური გამონათქვამები, პაუზები, აქცენტები და რიტმები..სისტემები შეჩერებულია, რადგან მათ შეუძლიათ მხოლოდ წერილობითი ტექსტის სწავლა.

მაგრამ მეტას ნამუშევარი განსხვავდება წინა მცდელობებისგან, რადგან მის AI მოდელებს შეუძლიათ გამოიყენონ ბუნებრივი ენის დამუშავების მოდელები სალაპარაკო ენის სრული ბუნების აღსაბეჭდად. მეტა-მკვლევარები ამბობენ, რომ ახალ მოდელებს შეუძლიათ ხელოვნური ინტელექტის სისტემებს საშუალება მისცენ, გადმოსცენ ის გრძნობა, რაც მათ სურთ, როგორიცაა მოწყენილობა ან ირონია.

"უახლოეს მომავალში, ჩვენ ყურადღებას გავამახვილებთ ტექსტის გარეშე ტექნიკის გამოყენებაზე სასარგებლო აპლიკაციების შესაქმნელად, რესურსზე ინტენსიური ტექსტური ეტიკეტების ან მეტყველების ავტომატური ამოცნობის სისტემების (ASR) მოთხოვნის გარეშე, როგორიცაა კითხვაზე პასუხის გაცემა (მაგ., "როგორ არის ამინდი?"), - წერს გუნდი ბლოგპოსტში. „ჩვენ გვჯერა, რომ მეტყველებაში პროსოდიას შეუძლია დაეხმაროს წინადადების უკეთ გაანალიზებას, რაც თავის მხრივ აადვილებს ჩანაფიქრის გაგებას და აუმჯობესებს კითხვაზე პასუხის შესრულებას.“

AI შესაძლებლობების გაგება

არა მხოლოდ კომპიუტერები უმჯობესდებიან მნიშვნელობის კომუნიკაციაში, არამედ ხელოვნური ინტელექტი ასევე გამოიყენება მეტყველების ამოცნობის გასაუმჯობესებლად.

კომპიუტერის მეცნიერები მუშაობენ კომპიუტერის მეტყველების ამოცნობაზე სულ მცირე 1952 წლიდან, როდესაც Bell Labs-ის სამმა მკვლევარმა შექმნეს სისტემა, რომელსაც შეეძლო ერთი ციფრული ციფრის ამოცნობა, თქვა AI Dynamics-ის ტექნოლოგიების მთავარმა ოფიცერმა რაიან მონსურატმა ელფოსტაში. Lifewire. 1990-იანი წლებისთვის მეტყველების ამოცნობის სისტემები კომერციულად ხელმისაწვდომი იყო, მაგრამ მაინც ჰქონდა შეცდომის მაჩვენებელი, რომელიც საკმარისად მაღალი იყო იმისათვის, რომ ხელი შეეშალა ძალიან სპეციფიკური აპლიკაციის დომენების გარეთ, როგორიცაა ჯანდაცვა.

"ახლა, როდესაც ღრმა სწავლის მოდელებმა საშუალება მისცეს ანსამბლის მოდელებს (მაგალითად, Microsoft-ის) მიაღწიონ ზეადამიანურ შესრულებას მეტყველების ამოცნობის დროს, ჩვენ გვაქვს ტექნოლოგია, რომ გავააქტიუროთ სპიკერისგან დამოუკიდებელი ვერბალური კომუნიკაცია კომპიუტერებთან მასშტაბური მასშტაბით", - თქვა მონსურატმა. "შემდეგი ეტაპი მოიცავს ღირებულების შემცირებას, რათა ყველას, ვინც იყენებს Siri-ს ან Google-ის AI ასისტენტს, ჰქონდეს წვდომა მეტყველების ამოცნობის ამ დონეზე."

Image
Image

AI სასარგებლოა მეტყველების ამოცნობისთვის, რადგან ის შეიძლება გაუმჯობესდეს დროთა განმავლობაში სწავლის გზით, განუცხადა არიელ უტნიკმა, AI ხმოვანი კომპანია Verbit.ai-ის შემოსავლების მთავარმა ოფიცერმა და გენერალურმა მენეჯერმა Lifewire-ს ელ.ფოსტის ინტერვიუში. მაგალითად, Verbit ამტკიცებს, რომ მისი შიდა AI ტექნოლოგია აღმოაჩენს და ფილტრავს ფონურ ხმაურს და ექოს და ტრანსკრიბს დინამიკებს, მიუხედავად აქცენტისა, რათა შექმნას დეტალური, პროფესიონალური ტრანსკრიპტები და სუბტიტრები ცოცხალი და ჩაწერილი ვიდეოდან და აუდიოდან.

მაგრამ Utnik-მა თქვა, რომ მეტყველების ამოცნობის თანამედროვე პლატფორმების უმეტესობა მხოლოდ 75-80%-ით არის ზუსტი.

"AI არასოდეს ჩაანაცვლებს ადამიანებს სრულად, რადგან გადამწერების, კორექტორებისა და რედაქტორების პირადი მიმოხილვა აუცილებელია მაღალი ხარისხის და უმაღლესი სიზუსტის საბოლოო ტრანსკრიპტის უზრუნველსაყოფად," დასძინა მან.

უკეთესი ხმის ამოცნობა ასევე შეიძლება გამოყენებულ იქნას ჰაკერების თავიდან ასაცილებლად, თქვა სანჯაი გუპტამ, ხმის ამოცნობის კომპანიის Mitek Systems-ის პროდუქტებისა და კორპორატიული განვითარების ვიცე-პრეზიდენტმა ელფოსტაში.კვლევებმა აჩვენა, რომ ორი წლის განმავლობაში, ყველა წარმატებული ანგარიშის აღების შეტევების 20 პროცენტი გამოიყენებს ხმის სინთეზურ გაძლიერებას, დასძინა მან.

"ეს ნიშნავს, რომ ღრმა ყალბი ტექნოლოგია უფრო დახვეწილი ხდება, ჩვენ ერთდროულად უნდა შევქმნათ მოწინავე უსაფრთხოება, რომელსაც შეუძლია ამ ტაქტიკებთან ბრძოლა სურათებისა და ვიდეოების ღრმა ყალბებთან ერთად", - თქვა გუპტამ. „ხმის გაყალბების წინააღმდეგ ბრძოლა მოითხოვს სიცოცხლისუნარიანობის გამოვლენის ტექნოლოგიას, რომელსაც შეუძლია განასხვავოს ცოცხალი ხმა და ხმის ჩაწერილი, სინთეტიკური ან კომპიუტერით გენერირებული ვერსია“.

შესწორება 2022-05-04: შეასწორა რაიან მონსურატის სახელის მართლწერა მე-9 პუნქტში.

გირჩევთ: