მთავარი წაღებები
- DeepZen იყენებს AI (ხელოვნურ ინტელექტს) ტექსტიდან გასაოცრად რეალისტური აუდიოწიგნების შესაქმნელად.
- ტექნიკა იყენებს რეალურ ადამიანის ხმის მსახიობებს სამშენებლო ბლოკების უზრუნველსაყოფად.
- Amazon და Audible ამჟამად არ იღებენ კომპიუტერის მიერ გენერირებულ აუდიოწიგნებს.
DeepZen არის კომპანია, რომელიც ქმნის კომპიუტერულ ხმებს, რომლებიც გამოიყენება აუდიოწიგნებში, ადამიანის მსახიობების რეალურ ხმებზე დაყრდნობით. ხარისხი საშინელია - საკმარისად კარგია, რომ მოუსმინოთ საათობით.ხრიკი აქ არის AI (ხელოვნური ინტელექტი) კომპონენტი, რომელსაც შეუძლია ტექსტის წაკითხვა და სწორი ემოციური პასუხის დადგენა კონტექსტზე დაყრდნობით. შემდეგ ის ამ ემოციას აყენებს ხმაში.
ეს შთამბეჭდავი და ძალიან მოსახერხებელია. მაგრამ ნამდვილად გვინდა ჰომოგენიზებული აუდიოწიგნის გამოცდილება? და რაც შეეხება იმ ხმის მსახიობებს?
"ინდი გამომცემლის პერსპექტივიდან, ყველაფერი, რაც ამცირებს აუდიოწიგნების წარმოების ღირებულებას, ძალიან საინტერესოა," განუცხადა რიკ კარლაილმა, დამოუკიდებელი გამომცემლის Carlile Media-ს მფლობელმა Lifewire-ს ელექტრონული ფოსტით.
"მაგრამ ეს მიმზიდველობა ვარაუდობს, რომ პროდუქტი იქნება ისეთივე ხარისხის, როგორც ტრადიციული თხრობა. მე ვფიქრობ, რომ ჩვენ ჯერ არ ვართ ასი პროცენტით. არ გამიგოთ, DeepZen საოცრად კარგია. ეს არის უზარმაზარი მიღწევაა და მისი შემქმნელები იმსახურებენ უზარმაზარ ქებას და წარმატებას. მაგრამ ის ჯერ არ არის სრულყოფილი."
აუდიო "საკმარისად კარგი"
DeepZen-ის ხარისხის გასაგებად საუკეთესო გზა არის ნიმუშების მოსმენა.თქვენ რომ არ იცოდით, რომ ისინი კომპიუტერით გენერირებულია, შეიძლება არც კი გააცნობიეროთ. ცოტა ხნით მაინც არა. დავუშვათ, რომ DeepZen-ის ხელოვნური ინტელექტი იდეალურია და ის არასოდეს არასწორად ინტერპრეტირებს იმ ემოციურ ნოტებს, რომლებსაც ის უნდა ატყდეს.
მაშინაც, ადამიანს შეუძლია შესთავაზოს უფრო ნიუანსი და ხშირად უფრო გასაკვირი ინტერპრეტაციები. მსახიობმა შეიძლება მოულოდნელად შეცვალოს სიტყვები, რომლებსაც კომპიუტერი ვერც კი განიხილავს. სინამდვილეში, ხელოვნური ინტელექტის ინტერპრეტაცია ჯერ კიდევ არ არის ისეთი კარგი, როგორც პროფესიონალი ხმის მსახიობი.
"როგორც ვინც მუშაობს ფილმებზე და ბოლო დროს აუდიო თხრობის სამყაროში, მიუხედავად იმისა, რომ აღფრთოვანებული ვარ ხელოვნური ინტელექტით - მე ნამდვილად ვიცი, რომ არსებობს მნიშვნელობის ღრმა სიღრმეები, რომლებსაც მანქანა ვერ ინტერპრეტაციას ვერ ახერხებს," პროფესიონალური ხმა მსახიობმა პოლ კრამმა განუცხადა Lifewire-ს ელექტრონული ფოსტით.
"იქნება თუ არა უცნობი ავტორების მომრავლება, რომლებიც გამოიყენებენ მას? გარანტიას გაძლევთ, რომ იქნება, რადგან ის 'საკმაოდ კარგია'."
საკმარისად კარგი ყოფნა, კომფორტთან და ხარჯების დაზოგვასთან ერთად, შესაძლოა საკმარისი იყოს ინდი გამომცემლების სერვისამდე მიყვანისთვის.
აუდიოწიგნები შეიძლება ღირდეს $500-მდე აუდიოს დასრულებული საათის განმავლობაში (ცნობილთა ხმისთვის გაცილებით მეტი) და ეს არ მოიცავს მენეჯმენტისა და ადმინისტრაციის დროს ხარჯებს, - ამბობს კარლაილი. „ამ ღირებულების განახევრების შესაძლებლობა ხელნაწერის უბრალოდ ატვირთვით პროვაიდერში, როგორიცაა DeepZen, ძალიან მიმზიდველია.“
საუბრის პრობლემა
ეს ჯერ არ არის ისეთი მარტივი, როგორც თქვენი ხმის მსახიობების გათავისუფლება და ხელნაწერების ატვირთვა DeepZen-ში. ამჟამად არსებობს ერთი ბარიერი მარტივი აუდიოწიგნების ხელოვნური ინტელექტის გამოთქმისთვის და ის ამაზონიდან.
"ამჟამად, ACX, თვითგამომცემლის მარშრუტი Audible-სა და Amazon-ის აუდიოწიგნების გავრცელებამდე, არ მიიღებს აუდიო წიგნებს, რომლებიც ადამიანმა არ ჩაწერა", - ამბობს კარლაილი.
რატომ? ხარისხიანი. აქ არის FAQ ჩანაწერი ვებსაიტიდან:
"ტექსტით მეტყველება ან სხვა ავტომატიზირებული ჩანაწერები დაუშვებელია. აუდიო მსმენელები ირჩევენ აუდიო წიგნებს მასალის შესრულებისთვის, ისევე როგორც სიუჟეტი. ამ მოლოდინის დასაკმაყოფილებლად, თქვენი აუდიო წიგნი უნდა ჩაიწეროს ადამიანმა."
ეს ნიშნავს, რომ DeepZen-ის მიერ გენერირებული აუდიოწიგნები, სულ მცირე, ჯერჯერობით გამოსულია. ეს არის სუფთა სპეკულაცია, მაგრამ DeepZen საკმაოდ კარგი შენაძენად გამოიყურება ამაზონისთვის, რომელიც საშუალებას აძლევს მას გაყიდოს სერვისი და შეინახოს იგი მხოლოდ Audible წიგნებისთვის. და მაშინაც კი, თუ ეს არ მოხდება, თუ კომპიუტერის მიერ გენერირებული აუდიოწიგნების ხარისხი ისეთივე კარგია, როგორც ჩანს, არ არსებობს გამონაკლისი ამ წესიდან.
სიამოვნებით მოუსმენდით ამ გზით შექმნილ აუდიოწიგნებს? როდესაც ეს მოხდება, ადამიანების უმეტესობა არც კი იეჭვებს. ზოგიერთს შეიძლება ურჩევნია კომპიუტერის მიერ გენერირებული ხმების სრულყოფა, რადგან ისინი თავისუფლდებიან ვოკალური ტიკებისა და ჩვევებისგან, რომლებიც ზოგჯერ ყურადღების გადატანას იწვევს. ტექნოლოგია ასევე შესაფერისია ვიდეო თამაშებისთვის, სატელევიზიო და რადიო რეკლამებისთვის და ნებისმიერი სხვა სცენარისთვის, სადაც დაქირავებთ ხმის მსახიობს.
DeepZen-ის ტექნოლოგია ასევე შესანიშნავი გზაა წერილობითი სტატიებიდან ახალი ამბების პოდკასტების ავტომატურად შესაქმნელად, რაც შეიძლება მოსახერხებელი იყოს მგზავრობისთვის.
და რაც შეეხება იმ ხმის მსახიობებს? კარგი, იქნება მინიმუმ ერთი შესაძლებლობა: მათ შეუძლიათ წავიდნენ და იმუშაონ DeepZen-ში.