როგორ შეუძლია AI-ს კომპიუტერის მეტყველება უფრო ბუნებრივი გახადოს

Სარჩევი:

როგორ შეუძლია AI-ს კომპიუტერის მეტყველება უფრო ბუნებრივი გახადოს
როგორ შეუძლია AI-ს კომპიუტერის მეტყველება უფრო ბუნებრივი გახადოს
Anonim

მთავარი წაღებები

  • კომპანიები იბრძვიან იმისთვის, რომ იპოვონ გზები, რათა კომპიუტერით გენერირებული მეტყველება უფრო რეალისტურად ჟღერდეს.
  • NVIDIA-მ ცოტა ხნის წინ წარმოადგინა ხელსაწყოები, რომლებსაც შეუძლიათ ბუნებრივი მეტყველების ხმა აღბეჭდონ, რაც საშუალებას მოგცემთ ივარჯიშოთ AI საკუთარი ხმით.
  • ინტონაცია, ემოცია და მუსიკალურობა არის ის თვისებები, რაც კომპიუტერულ ხმებს ჯერ კიდევ აკლია, ამბობს ერთი ექსპერტი.
Image
Image

კომპიუტერის მიერ გენერირებული მეტყველება მალე შეიძლება უფრო ადამიანურად ჟღერდეს.

კომპიუტერის ნაწილების მწარმოებელმა NVIDIA-მ ახლახან წარმოადგინა ხელსაწყოები, რომლებსაც შეუძლიათ ბუნებრივი მეტყველების ხმების აღბეჭდვა, რაც საშუალებას მოგცემთ ივარჯიშოთ AI თქვენი ხმით.პროგრამას ასევე შეუძლია ერთი სპიკერის სიტყვების გადმოცემა სხვა ადამიანის ხმის გამოყენებით. ეს არის მზარდი ბიძგის ნაწილი, რათა კომპიუტერული მეტყველება უფრო რეალისტური გახდეს.

"მოწინავე ხმის AI ტექნოლოგია საშუალებას აძლევს მომხმარებლებს ისაუბრონ ბუნებრივად, აერთიანებს ბევრ შეკითხვას ერთ წინადადებაში და გამორიცხავს ორიგინალური შეკითხვის დეტალების მუდმივად გამეორების აუცილებლობას", - მაიკლ ზაგორსეკი, სიტყვის ამოცნობის კომპანიის SoundHound-ის მთავარი ოპერაციული ოფიცერი. განუცხადა Lifewire-ს ელექტრონული ფოსტის ინტერვიუში.

"მრავალჯერადი ენების დამატება, რომელიც ახლა ხელმისაწვდომია ხმოვანი ხელოვნური ინტელექტის უმეტეს პლატფორმებზე, ხდის ციფრულ ხმოვან ასისტენტებს ხელმისაწვდომს მეტ გეოგრაფიებსა და უფრო მეტ პოპულაციაში," დასძინა მან.

Robospeech Rising

Amazon-ის Alexa და Apple-ის Siri ბევრად უკეთესად ჟღერს, ვიდრე ათი წლის წინანდელი კომპიუტერის მეტყველება, მაგრამ ისინი მალე არ შეცდებიან ადამიანის ავთენტურ ხმებში.

იმისთვის, რომ ხელოვნური მეტყველება უფრო ბუნებრივად ჟღერდეს, NVIDIA-ს ტექსტის გადაცემის მკვლევარმა ჯგუფმა შეიმუშავა RAD-TTS მოდელი. სისტემა საშუალებას აძლევს ინდივიდებს ასწავლონ ტექსტის მეტყველების (TTS) მოდელი მათი ხმით, მათ შორის ტემპით, ტონალობის, ტემბრით და სხვა ფაქტორებით.

კომპანიამ გამოიყენა თავისი ახალი მოდელი უფრო სასაუბრო ხმოვანი თხრობის შესაქმნელად მე ვარ AI ვიდეო სერიისთვის.

ამ ინტერფეისით, ჩვენს ვიდეო პროდიუსერს შეეძლო ჩაეწერა საკუთარი თავი ვიდეოს სკრიპტის წაკითხვისას და შემდეგ გამოიყენოს ხელოვნური ინტელექტის მოდელი თავისი მეტყველების ქალის მთხრობელის ხმად გადასაყვანად. ამ საბაზისო თხრობის გამოყენებით, პროდიუსერს შეუძლია AI-ის მსგავსად მიმართოს. ხმის მსახიობი - ასწორებს სინთეზირებულ მეტყველებას კონკრეტულ სიტყვებზე ხაზგასმით და თხრობის ტემპის შეცვლაზე, რათა უკეთ გამოხატოს ვიდეოს ტონი“, - წერს NVIDIA თავის ვებსაიტზე.

უფრო რთული ვიდრე ჟღერს

კომპიუტერის მიერ გენერირებული მეტყველების ბუნებრივად ჟღერადობა რთული პრობლემაა, ამბობენ ექსპერტები.

"თქვენ უნდა ჩაწეროთ ვინმეს ხმის ასობით საათი, რომ შექმნათ მისი კომპიუტერული ვერსია", - განუცხადა ნაზიმ რაგიმოვმა, ტექსტის მეტყველების პროგრამული უზრუნველყოფის კომპანია Kukarella-ს აღმასრულებელმა დირექტორმა Lifewire-ში ელ. „და ჩანაწერი უნდა იყოს მაღალი ხარისხის, ჩაწერილი პროფესიონალურ სტუდიაში.რაც უფრო მეტი საათი იქნება დატვირთული და დამუშავებული ხარისხიანი მეტყველება, მით უკეთესი იქნება შედეგი."

ტექსტის მეტყველება შეიძლება გამოყენებულ იქნას თამაშებში, ვოკალური შეზღუდული შესაძლებლობის მქონე პირების დასახმარებლად ან მომხმარებლების დასახმარებლად ენებს შორის საკუთარი ხმით თარგმნაში.

ინტონაცია, ემოცია და მუსიკალურობა არის ის თვისებები, რაც კომპიუტერულ ხმებს ჯერ კიდევ აკლია, თქვა რაგიმოვმა.

თუ ხელოვნური ინტელექტი შეძლებს ამ დაკარგული ბმულების დამატებას, კომპიუტერის მიერ გენერირებული მეტყველება "განუსხვავებელი იქნება რეალური მსახიობების ხმებისგან", დასძინა მან. "ეს სამუშაო მიმდინარეობს. სხვა ხმებს შეეძლებათ კონკურენცია გაუწიონ რადიოს წამყვანებს. მალე ნახავთ ხმებს, რომლებსაც შეუძლიათ სიმღერა და აუდიოწიგნების კითხვა."

მეტყველების ტექნოლოგია სულ უფრო პოპულარული ხდება ბიზნესის ფართო სპექტრში.

"ავტოინდუსტრიამ ახლახან მიიღო ხმოვანი AI, როგორც გზა უსაფრთხო და დაკავშირებული მართვის გამოცდილების შესაქმნელად," თქვა ზაგორსეკმა.

"მას შემდეგ, ხმის ასისტენტები სულ უფრო ფართოდ გავრცელებული ხდება, რადგან ბრენდები ეძებენ გზებს, გააუმჯობესონ მომხმარებელთა გამოცდილება და დააკმაყოფილონ მოთხოვნა მათ პროდუქტებთან და სერვისებთან ურთიერთობის უფრო მარტივი, უსაფრთხო, უფრო მოსახერხებელი, ეფექტური და ჰიგიენური მეთოდების შესახებ."

როგორც წესი, ხმოვანი ხელოვნური ინტელექტი აკონვერტებს შეკითხვებს პასუხებად ორეტაპიანი პროცესით, რომელიც იწყება მეტყველების ტექსტში გადაწერით მეტყველების ავტომატური ამოცნობის (ASR) გამოყენებით და შემდეგ ამ ტექსტის მიწოდებით ბუნებრივი ენის გაგების (NLU) მოდელში.

Image
Image

SoundHound-ის მიდგომა აერთიანებს ამ ორ ნაბიჯს ერთ პროცესში, რათა თვალყური ადევნოთ მეტყველებას რეალურ დროში. კომპანია ამტკიცებს, რომ ეს ტექნიკა ხმოვან ასისტენტებს საშუალებას აძლევს გაიგონ მომხმარებლის მოთხოვნების მნიშვნელობა მანამ, სანამ ადამიანი საუბარს დაასრულებს.

მომავალი წინსვლა კომპიუტერულ მეტყველებაში, მათ შორის, დაკავშირების სხვადასხვა ვარიანტების ხელმისაწვდომობა ჩაშენებული (მხოლოდ ღრუბლოვანი კავშირი არ არის საჭირო) ჰიბრიდამდე (ჩაშენებული პლუს ღრუბელი) და მხოლოდ ღრუბელში მეტ არჩევანს მისცემს კომპანიებს ინდუსტრიებში. ღირებულების, კონფიდენციალურობისა და გადამამუშავებელი ენერგიის ხელმისაწვდომობის თვალსაზრისით,”- თქვა ზაგორესკმა.

NVIDIA-მ თქვა, რომ მისი ახალი AI მოდელები სცილდება ხმის გადაცემის მუშაობას.

"ტექსტის მეტყველება შეიძლება გამოყენებულ იქნას თამაშებში, ვოკალური შეზღუდული შესაძლებლობის მქონე პირთა დასახმარებლად ან მომხმარებლების დასახმარებლად ენებს შორის საკუთარი ხმით თარგმნაში", - წერს კომპანია. "მას შეუძლია ხელახლა შექმნას საკულტო მომღერლების შესრულება, რომელიც შეესაბამება არა მხოლოდ სიმღერის მელოდიას, არამედ ვოკალის მიღმა არსებულ ემოციურ გამოხატვას."

გირჩევთ: