API semplice da utilizzare

HAQM Polly fornisce un'API che permette di integrare rapidamente la sintesi vocale in un'applicazione. È sufficiente inviare alla relativa API il testo da convertire in voce e HAQM Polly restituirà immediatamente all'applicazione un flusso audio da riprodurre direttamente o da memorizzare in formato audio standard, ad esempio MP3.

Velocità di campionamento Codice di esempio
"Hi. My name is Joanna." from boto3 import client
polly = client("polly", region_name="us-east-1")
response = polly.synthesize_speech(
        Text="Hi. My name is Joanna.",
        OutputFormat="mp3",
        VoiceId="Joanna")

Ampia selezione di voci e lingue

HAQM Polly include decine di voci realistiche e copre diverse lingue, in questo modo potrai selezionare la voce perfetta e distribuire le tue applicazioni vocali in molti paesi. Oltre alle voci Standard e di sintesi vocale neurale (NTTS, Neural Text-To-Speech), HAQM Polly offre voci in Forma lunga e voci generative che migliorano la qualità del discorso e sono più naturali e simili a quelle umane.

Danielle, Gregory, Ruth, Patryk, Alba e Raúl sono voci disponibili nella variante forma lunga.

Ruth, Matthew, Amy, Joanna, Danielle, Stephen, Olivia, Ayanda, Lucia, Lupe, Léa, Mía e Vicki, Bianca, Kajal, Pedro, Andrés, Sergio, Daniel e Rémi sono disponibili in una variante generativa.

Lingua o variante linguistica

Femmina

Maschio

 

 

 

Arabo-MSA

Zeina

 

Golfo Arabico

Hala (Neurale)

Zayd (Neurale)

Cantonese

Hiujin (Neurale)

 

Catalano

Arlet (Neurale)

 

Danese

Sofie (Neurale)

Mads

 

Naja

 

Olandese

Laura (Neurale)

Ruben

 

Lotte

 

Olandese (Fiammingo) - Belgio

Lisa (neurale)

 

Inglese (India)

Kajal (Neurale)

 

 

Raveena

 

 

Aditi

 

 

Kajal (generativa)

 

Inglese - Irlanda

Niamh (Neurale)

 

Inglese - Nuova Zelanda

Aria (neurale)

 

Inglese - Singapore

Jasmine (neurale)

 

Inglese - Sudafrica

Ayanda (generativa)

 

 

Ayanda

 

Inglese - Regno Unito

Amy (generativa)

Brian (Neurale)

 

Amy (Neurale)

Brian (Standard)

 

Amy (Standard)

Arthur (Neurale)

 

Emma (Neurale)

 

 

Emma (Standard)

 

Inglese — Stati Uniti

Ruth (generativa)

Patrick (Forma lunga)

 

Ruth (Forma lunga)

Gregory (Forma lunga)

 

Ruth (Neurale)

Gregory (Neurale)

 

Danielle (generativa)

Stephen (generativa)

 

Danielle (Forma lunga)

Stephen (Neurale)

 

Joanna (generativa)

Matthew (generativa)

 

Joanna (Neurale)

Matteo (Neurale)

 

Joanna (Standard)

Matthew (Standard)

 

Salli (Neurale)

Justin (Neurale)

 

Salli (Standard)

Justin (Standard)

 

Kendra (Neurale)

Joey (Neurale)

 

Kendra (Standard)

Joey (Standard)

 

Kimberly (Neurale)

 

 

Kimberly (Standard)

 

 

Ivy (Neurale)

 

 

Ivy (Standard)

 

Inglese - Galles

 

Geraint

Inglese - Australia

Olivia (generativa)

Russell

 

 

Olivia (neurale)

 

 

Nicole

 

Finlandese

Suvi (Neurale)

 

Francese - Belgio

Isabelle (Neurale)

 

Francese - Canada

Gabrielle (Neurale)

Liam (Neurale)

 

Chantal

 

Francese - Francia

Léa (Generativa)

Mathieu

 

Léa (neurale)

Rémi (generativa)

 

Léa (standard)

Rémi

 

Céline

 

Tedesco - Austria

Hannah (Neurale)

 

Tedesco - Germania

Vicki (generativa)

Daniel (generativa)

 

Vicki (neurale)

Daniel (Neurale)

 

Vicki (Standard)

Hans

 

Marlene

 

Hindi - India

Kajal (Neurale)

 

 

Aditi

 

Islandese

Dóra

Karl

Italiano

Bianca (Neurale)

Adriano

 

Bianca (Standard)

Giorgio

 

Bianca (generativa)

 

 

Carla

 

Giapponese

Kazuha (Neurale)

Takumi (Neurale)

 

Tomoko (Neurale)

Takumi (Standard)

 

Mizuki

 

Coreano

Seoyeon (neurale)

 

  Jihye (neurale)  

 

Seoyeon (standard)

 

Mandarino

Zhiyu (Neurale)

 

 

Zhiyu (Standard)

 

Norvegese

Ida (Neurale)

 

 

Liv

 

Polacco

Ola (Neurale)

Jacek

 

Ewa

Jan

 

Maja

 

Portoghese - Brasile

Vitória (Neurale)

Ricardo

 

Vitória (Standard)

Thiago

 

Camila (Neurale)

 

 

Camila (Standard)

 

Portoghese - Portogallo

Inês (Neurale)

Cristiano

 

Inês (Standard)

 

Rumeno

Carmen

 

Russo

Tatyana

Maxim

Spagnolo - Messico

Mia (generativa)

 

 

Mia (neurale)

Andrés

 

Mia (standard)

Andrés (generativa)

Spagnolo - Spagna

Alba (forma lunga)

Raúl (forma lunga)

 

Lucia (generativa)

Sergio

 

Lucia (neurale)

Enrique

 

Lucia (standard)

Sergio (generativa)

Spagnolo - Stati Uniti

Conchita

Pedro (generativa)

 

Lupe (generativa)

Pedro (Neurale)

 

Lupe (Neurale)

Miguel

 

Lupe (Standard)

 

 

Penélope

 

 Svedese

Astrid

 

 

Elin (Neurale)

 

 Turco

Filiz

 

 

Burcu (Neurale)

 

 Gallese

Gwyneth

 

 

 

 

Voce sincronizzata a funzionalità di visualizzazione

Con HAQM Polly, è semplice ottenere flussi di metadati aggiuntivi relativi alle informazioni sulla posizione di frasi, parole e suoni pronunciati specifici. Utilizzando questi metadati insieme al flusso audio di sintesi vocale, è possibile creare applicazioni con funzionalità di visualizzazione avanzate, ad esempio visi animati sincronizzati con il parlato o blocchi di parole evidenziati come nei karaoke.

Consulta la documentazione per ulteriori informazioni su come utilizzare i contrassegni vocali. 

Ottimizzazione del flusso audio

Con HAQM Polly, puoi trasmettere in streaming agli utenti tutte le informazioni che desideri tramite l'applicazione in tempo reale. Puoi anche scegliere tra diversi livelli frequenza di campionamento per ottimizzare la larghezza di banda utilizzata e la qualità audio. HAQM Polly supporta lo streaming di formati audio MP3, Vorbis e PCM raw.

Velocità di campionamento Dimensioni MP3  Dimensioni OGG
Dimensioni PCM
24,00 kHz Ascolta 19,31 KB 18,11 KB N/D
22,05 kHz Ascolta
19,33 KB 17,62 KB N/D
16,05 kHz Ascolta 16,22 KB 15,48 KB

100,68 KB

8,00 kHz Ascolta 13,26 KB 9,72 KB 50,34 KB

Regola lo stile di conversazione, la velocità, l'intonazione e il volume

HAQM Polly supporta lo Speech Synthesis Markup Language (SSML), un linguaggio di markup W3C standard basata su XML per la sintesi vocale, nonché i tag SSML che permettono di variare progressione, enfasi e intonazione. I tag SSML personalizzati di HAQM offrono opzioni uniche, come la possibilità di far parlare certe voci nello stile di conversazione Newscaster. Grazie a questo livello di flessibilità, è possibile creare voci estremamente verosimili in grado di attirare e mantenere l'attenzione degli utenti.

Per ulteriori informazioni, consulta la documentazione su HAQM Polly in relazione ai tag SSML.

Esempio SSML
Così è come parlo normalmente. (nessuno)
Posso anche parlare in stile Newscaster, come se stessi leggendo un articolo o annunciando una notizia flash. <speak><amazon:domain name="news">Posso anche parlare in stile Newscaster, come se stessi leggendo un articolo o annunciando una notizia flash.</amazon:domain></speak>
Posso parlare con una voce più acuta o posso parlare con una voce più bassa. <speak>I can speak in a <prosody pitch="high">higher pitched voice</prosody>, or I can speak <prosody pitch="low">in a lower pitched voice</prosody></speak>
Posso parlare molto lentamente o posso parlare molto velocemente. <speak>I can speak <prosody rate="x-slow">really slowly</prosody>, or  I can speak <prosody rate="x-fast">really fast</prosody></speak>
Posso anche parlare molto forte o posso parlare molto tranquillamente. <speak>Posso anche parlare <prosody volume="x-loud">molto forte</prosody> o posso parlare <prosody volume="x-soft">molto tranquillamente</prosody>. </speak>
Posso sussurrare. <speak>Ho un segreto da dirti, te lo sussurrerò.<amazon:effect name="whispered">'<prosody rate="x-slow"> <prosody volume="loud">Non sono una persona.</prosody></prosody></amazon:effect>Ci credi?</speak>

Stile di conversazione Newscaster

HAQM Polly può essere utilizzato per sintetizzare il discorso come se fosse annunciato da un giornalista in TV o alla radio. Questo può essere un ottimo modo per leggere articoli di notizie o fornire aggiornamenti di notizie flash. Lo stile Newscaster è attualmente disponibile per le voci Matthew e Joanna in inglese britannico (en-GB) e Lupe in spagnolo americano (es-US) utilizzando la modalità di sintesi vocale neurale (NTTS, Neural Text-To-Speech). Ascolta un esempio di audio in Inglese americano, Inglese britannico o Spagnolo americano.

Regolazione della durata

HAQM Polly permette di regolare automaticamente la velocità della voce generata in base all'intervallo di tempo massimo assegnato, tramite una funzione denominata prosodia temporizzata. Si tratta di una caratteristica utile in diversi casi d'uso, in particolare per la localizzazione.

Ad esempio, supponiamo di avere un video di training in inglese che desideriamo localizzare in tedesco. Poniamo che sia stato utilizzato HAQM Translate per tradurre il testo e Polly per dare voce alla traduzione. È essenziale che alla voce localizzata in tedesco corrispondano le stesse immagini dell'inglese nel video, perciò l'audio tedesco non può essere più lungo di quello inglese. Questa funzionalità facilita il processo di ridoppiaggio.

Supporto per piattaforme e linguaggi di programmazione

HAQM Polly supporta tutti i linguaggi di programmazione inclusi nel kit SDK AWS (Java, Node.js, .NET, PHP, Python, Ruby, Go e C++) e nel kit SDK AWS Mobile (iOS/Android). Polly offre inoltre un'API HTTP con cui implementare un proprio layer di accesso.

Sintesi vocale tramite API, console e riga di comando

È possibile accedere ad HAQM Polly tramite API (e diversi kit SDK specifici della lingua in uso), Console di gestione AWS e interfaccia a riga di comando (CLI) di AWS. HAQM Polly mette a disposizione il controllo di tutte le sue funzionalità, sia con la console sia con le API o con l'interfaccia a riga di comando.

Dizionari personalizzati

Con i dizionari personalizzati di HAQM Polly, puoi modificare la pronuncia di singole parole, ad esempio nomi prodotto, acronimi, prestiti da altre lingue e neologismi (ad esempio "ROTFL" oppure "C'est la vie" in lingue diverse dal francese). Per personalizzare queste pronunce, è sufficiente caricare un file XML con le voci lessicali. Ad esempio, per personalizzare la pronuncia di Nguyen puoi i fonemi corretti utilizzando il seguente file XML:

<lexeme>
            <grapheme>Nguyen</grapheme>
            <grapheme>nguyen</grapheme>
            <grapheme>NGUYEN</grapheme>
            <phoneme>"nu.jEn'</phoneme>
</lexeme>

Brand Voice

Brand Voice è un coinvolgimento personalizzato in cui lavori con il team di HAQM Polly per costruire una voce Text-to-Speech neurale (NTTS) ad uso esclusivo della tua organizzazione. Brand Voice ti consente di differenziare prodotti e applicazioni attraverso un'identità vocale unica in un'ampia gamma di casi d'uso, tra cui HAQM Connect e le integrazioni di Alexa Skills. Lavoriamo al tuo fianco nel corso dell'intero processo, per identificare la personalità, individuare un attore o un'attrice e registrare i loro discorsi e, infine, creare e formare un modello per la produzione della voce. La voce viene quindi resa disponibile al/i tuo/i ID dell'account AWS.

Ascolta la Brand Voice della National Australia Bank »

Ascolta la voce del marchio Bank of New Zealand »

Se sei interessato alla creazione di una Brand Voice attraverso Polly, contatta l'account manager di AWS o contattaci per ulteriori informazioni.

Integrazioni con il contact center

HAQM Connect

HAQM Polly è integrato in modo nativo con HAQM Connect, la soluzione di contact center basata sul cloud AWS, utilizzata per configurare e gestire un contact center per i clienti e garantire un coinvolgimento affidabile dei clienti su qualsiasi scala. Per ulteriori informazioni su come aggiungere al sistema di risposta vocale interattiva conversazionale, consulta come utilizzare le voci di Polly in HAQM Connect.

Genesys Cloud CX

Genesys Cloud CX è una soluzione di contact center cloud che unifica le esperienze dei clienti e degli agenti su più canali come telefono, SMS e chat. Puoi distribuire i tuoi bot vocali utilizzando una qualsiasi delle voci Polly esistenti. Per ulteriori informazioni, consulta la documentazione di Genesys Cloud.

HAQM Chime SDK

HAQM Chime SDK è costituito da una serie di componenti di comunicazione in tempo reale che gli sviluppatori possono utilizzare per aggiungere rapidamente chiamate audio, videochiamate e funzionalità di condivisione dello schermo alle proprie applicazioni Web, per dispositivi mobili o di telefonia. HAQM Chime SDK supporta l’integrazione nativa con HAQM Polly, semplificando ai builder la creazione di applicazioni che trasformano testo e dati numerici in un discorso realistico e riproducono automaticamente l'output a un chiamante.

AWS Contact Center Intelligence (CCI)

HAQM Polly è utilizzato da diversi partner AWS CCI, così puoi creare in modo ottimale agenti virtuali del servizio clienti self-service, bot informativi o bot applicativi. Tra i partner di HAQM Polly vi sono Genesys, Vonage e Accenture. Per maggiori informazioni sui partner, visita AWS CCI e la pagina dei partner AWS CCI.