Το OpenAI χρειάζεται 15 δευτερόλεπτα ενός ηχητικού για να κλωνοποιήσει μια φωνή

Η OpenAI, η εταιρεία που υποστηρίζεται από τη Microsoft και βρίσκεται πίσω από το chatbot γενετικής AI, ChatGPT, αποκάλυψε πρόσφατα ότι η δική της τεχνολογία κλωνοποίησης φωνής απαιτεί μόλις 15 δευτερόλεπτα ηχητικού υλικού για την αναπαραγωγή της φωνής κάποιου.

Συγκεκριμένα, σύμφωνα με το DigitalTrends, με μια ανάρτηση στον ιστότοπό της, η OpenAI μοιράστηκε μια μικρής κλίμακας προεπισκόπηση ενός μοντέλου που ονομάζεται Voice Engine, το οποίο αναπτύσσει από τα τέλη του 2022.

Το Voice Engine λειτουργεί τροφοδοτώντας το με ένα ελάχιστο προφορικό υλικό διάρκειας μόλις 15 δευτερολέπτων. Ο χρήστης μπορεί στη συνέχεια να εισάγει κείμενο για να δημιουργήσει αυτό που η OpenAI περιγράφει ως «συναισθηματική και ρεαλιστική» ομιλία που «μοιάζει πολύ με τον αρχικό ομιλητή».

Η OpenAI επιμένει ότι υιοθετεί μια «προσεκτική και τεκμηριωμένη προσέγγιση πριν από μια ευρύτερη κυκλοφορία λόγω της πιθανότητας κατάχρησης της συνθετικής φωνής», προσθέτοντας ότι θέλει να «ξεκινήσει έναν διάλογο σχετικά με την υπεύθυνη ανάπτυξη των συνθετικών φωνών και τον τρόπο με τον οποίο η κοινωνία μπορεί να προσαρμοστεί σε αυτές τις νέες δυνατότητες».

Και πρόσθεσε: «Με βάση αυτές τις συζητήσεις και τα αποτελέσματα αυτών των δοκιμών μικρής κλίμακας, θα λάβουμε μια πιο τεκμηριωμένη απόφαση σχετικά με το αν και πώς θα αναπτύξουμε αυτή την τεχνολογία σε κλίμακα».

Μια από τις καταχρήσεις στις οποίες αναφέρεται το OpenAI είναι μια απάτη που κάποιοι εγκληματίες ήδη πραγματοποιούν χρησιμοποιώντας παρόμοια τεχνολογία που είναι δημόσια διαθέσιμη εδώ και αρκετό καιρό. Περιλαμβάνει την κλωνοποίηση μιας φωνής και στη συνέχεια την κλήση ενός φίλου ή συγγενή αυτού του ατόμου για να τον ξεγελάσει και να του παραδώσει μετρητά μέσω τραπεζικού εμβάσματος. Υπάρχουν επίσης φόβοι σχετικά με το πώς μπορεί να χρησιμοποιηθεί αυτή η τεχνολογία στις επερχόμενες προεδρικές εκλογές των ΗΠΑ, ένα ζήτημα που αναδείχθηκε από ένα πρόσφατο περιστατικό υψηλού προφίλ, κατά το οποίο ένα ρομποτικό τηλεφώνημα που χρησιμοποιούσε κλώνο της φωνής του προέδρου Τζο Μπάιντεν είπε στους ανθρώπους να μην ψηφίσουν στις προκριματικές εκλογές του Ιανουαρίου στο Νιου Χαμσάιρ.

Μια άλλη ανησυχία είναι το πώς η ραγδαία βελτίωση της τεχνολογίας θα επηρεάσει τα προς το ζην των ηθοποιών φωνής, οι οποίοι φοβούνται ότι θα τους ζητείται όλο και περισσότερο να υπογράψουν τα δικαιώματα της φωνής τους, ώστε η τεχνητή νοημοσύνη να μπορεί να χρησιμοποιηθεί για τη δημιουργία μιας συνθετικής εκδοχής, με την αποζημίωση για ένα τέτοιο συμβόλαιο να είναι πιθανότατα πολύ χαμηλότερη από ό,τι αν ο ηθοποιός καλούνταν να εκτελέσει τη δουλειά αυτοπροσώπως.

Εξετάζοντας πιο θετικές εφαρμογές της τεχνολογίας, το OpenAI προτείνει ότι θα μπορούσε να χρησιμοποιηθεί για την παροχή βοήθειας στην ανάγνωση από αναλφάβητους και παιδιά, χρησιμοποιώντας φυσικές, συναισθηματικές φωνές που «αντιπροσωπεύουν ένα ευρύτερο φάσμα ομιλητών από αυτό που είναι δυνατό με προκαθορισμένες φωνές», καθώς και για την άμεση μετάφραση βίντεο και podcasts, κάτι που δοκιμάζει ήδη το Spotify.

Θα μπορούσε επίσης να χρησιμοποιηθεί για να βοηθήσει ασθενείς που χάνουν σταδιακά τη φωνή τους λόγω ασθένειας να συνεχίσουν να επικοινωνούν χρησιμοποιώντας κάτι που ακούγεται σαν τη δική τους φωνή.

Το OpenAI έχει μερικά παραδείγματα του ήχου που παράγεται από την τεχνητή νοημοσύνη και του ήχου αναφοράς στον ιστότοπό του και είναι εκπληκτικά.