Entenda os três modos de geração de voz disponíveis para seus assistentes de IA e quando usar cada um.
Os assistentes de IA no Gloena podem falar em três modos diferentes. Cada modo determinado como a fala do cliente é compreendida e como a resposta do assistente é gerada:
Escolher o modo certo pode melhorar o tempo de resposta, a naturalidade e a experiência geral da chamada.
1. Oleoduto
| Rótulo na interface | Pipeline | |
| Como funciona | Conversão de fala em texto → LLM → Conversão de texto em fala | |
| Latência | ~800 – 1500 ms (depende do idioma e do modelo) | |
| Mais Indicado para | Raciocínio complexo, prompts sonoros, respostas com múltiplas frases |
O modo Pipeline primeiro transcreve as palavras do cliente em texto, processa esse texto no modelo de linguagem e depois converte a resposta de volta em áudio. É uma abordagem consolidada que oferece máxima flexibilidade:
- Suporta todas as vozes da biblioteca (incluindo vozes clonadas personalizadas).
- Lida bem com respostas longas ou em formato de parágrafo.
- Permite que o LLM insira variáveis e faça referência ao contexto anterior de forma clara.
Quando Pipeline
- Você precisa de respostas ricas e com múltiplas frases (ex.: consultas de suporte, explicações detalhadas).
- O assistente precisa raciocinar sobre dados estruturados ou prompts complexos.
- Você prefere controle absoluto sobre a voz falada (clonada ou da marca).
2. Fala para Fala (Multimodal)
| Rótulo na interface | Speech-to-speech |
| Como funciona | Geração direta de fala para fala (sem texto intermediário) |
| Latência | ~300 – 600 ms (ultra baixa) |
| Mais Indicado para | Conversas naturais, respostas curtas e reativas |
O modo Speech-to-Speech ignora a transcrição separada e o TTS. Em vez disso, utiliza um modelo multimodal que ouve e fala diretamente, proporcionando um fluxo mais conversacional:
- Troca de turnos rápida – os clientes recebem respostas quase instantâneas.
- Gera prosódia mais expressiva de forma nativa (entonação, pausas, preenchimentos).
- Atualmente suporta um conjunto limitado de vozes, mas mais estão sendo adicionadas regularmente.
Quando escolher Speech-to-Speech
- A conversa precisa ser ágil (vendas, confirmações de reserva).
- Suas respostas geralmente são frases curtas ou confirmações rápidas.
- Você aceita as opções de voz fornecidas pelo sistema para interação mais rápida.
O modo Speech-to-Speech está evoluindo rapidamente. Se você precisar de uma clonada de voz personalizada com baixa latência, experimente o Dualplex.
3. Dualplex (Beta)
| Rótulo na interface | Dualplex |
| Como funciona | Multimodal STT + LLM (conversão de fala em fala) com saida ElevenLabs TTS |
| Latência | Baixa (varia conforme voz e modelo) |
| Mais Indicado para | Respostas rápidas e naturais com vozes de alta qualidade/marca (clonadas) |
O Dualplex combina a rapidez do modo Speech-to-Speech com as vozes premium e clonagem da ElevenLabs usada no Pipeline. O assistente utiliza o modelo multimodal para entender o cliente e planejar uma resposta, e depois renderiza a fala final pela ElevenLabs, garantindo saída consistente e de alta fidelidade.
- Troca de turnos quase instantânea, semelhante ao Speech-to-Speech.
- Acesso à biblioteca de vozes ElevenLabs, incluindo vozes clonadas personalizadas.
- Excelente para respostas curtas a média com prosódia expressiva.
- Recomendado como padrão para a maioria dos casos de uso atualmente; atualmente em Beta.
Quandod Dualplex
- Você quer respostas rápidas e naturais, mas precisa de uma voz de marca ou clonada.
- Você deseja uma entrega mais expressiva sem abrir a mão da escolha precisa da voz.
- Você está confortável usando um recurso novo que ainda está em Beta.
Mudando de modo
Você pode selecionar o modo para cada assistente em Assistente → Configurações → Motor de Voz . Teste os três modos para ver qual oferece o melhor equilíbrio entre velocidade e qualidade para seu caso de uso. O Dualplex atualmente está rotulado como Beta.
Dica profissional: Grave duas chamadas – uma em cada modo – e compare a latência percebida pelo cliente e o nível de engajamento para decidir qual se adapta melhor ao seu fluxo.
Modos de Assistentes
Entenda os três modos de geração de voz disponíveis para seus assistentes de IA e quando usar cada um.
Os assistentes de IA no Gloena podem falar em três modos diferentes. Cada modo determinado como a fala do cliente é compreendida e como a resposta do assistente é gerada:
Escolher o modo certo pode melhorar o tempo de resposta, a naturalidade e a experiência geral da chamada.
1. Oleoduto
| Rótulo na interface | Pipeline | |
| Como funciona | Conversão de fala em texto → LLM → Conversão de texto em fala | |
| Latência | ~800 – 1500 ms (depende do idioma e do modelo) | |
| Mais Indicado para | Raciocínio complexo, prompts sonoros, respostas com múltiplas frases |
O modo Pipeline primeiro transcreve as palavras do cliente em texto, processa esse texto no modelo de linguagem e depois converte a resposta de volta em áudio. É uma abordagem consolidada que oferece máxima flexibilidade:
- Suporta todas as vozes da biblioteca (incluindo vozes clonadas personalizadas).
- Lida bem com respostas longas ou em formato de parágrafo.
- Permite que o LLM insira variáveis e faça referência ao contexto anterior de forma clara.
Quando Pipeline
- Você precisa de respostas ricas e com múltiplas frases (ex.: consultas de suporte, explicações detalhadas).
- O assistente precisa raciocinar sobre dados estruturados ou prompts complexos.
- Você prefere controle absoluto sobre a voz falada (clonada ou da marca).
2. Fala para Fala (Multimodal)
| Rótulo na interface | Speech-to-speech |
| Como funciona | Geração direta de fala para fala (sem texto intermediário) |
| Latência | ~300 – 600 ms (ultra baixa) |
| Mais Indicado para | Conversas naturais, respostas curtas e reativas |
O modo Speech-to-Speech ignora a transcrição separada e o TTS. Em vez disso, utiliza um modelo multimodal que ouve e fala diretamente, proporcionando um fluxo mais conversacional:
- Troca de turnos rápida – os clientes recebem respostas quase instantâneas.
- Gera prosódia mais expressiva de forma nativa (entonação, pausas, preenchimentos).
- Atualmente suporta um conjunto limitado de vozes, mas mais estão sendo adicionadas regularmente.
Quando escolher Speech-to-Speech
- A conversa precisa ser ágil (vendas, confirmações de reserva).
- Suas respostas geralmente são frases curtas ou confirmações rápidas.
- Você aceita as opções de voz fornecidas pelo sistema para interação mais rápida.
O modo Speech-to-Speech está evoluindo rapidamente. Se você precisar de uma clonada de voz personalizada com baixa latência, experimente o Dualplex.
3. Dualplex (Beta)
| Rótulo na interface | Dualplex |
| Como funciona | Multimodal STT + LLM (conversão de fala em fala) com saida ElevenLabs TTS |
| Latência | Baixa (varia conforme voz e modelo) |
| Mais Indicado para | Respostas rápidas e naturais com vozes de alta qualidade/marca (clonadas) |
O Dualplex combina a rapidez do modo Speech-to-Speech com as vozes premium e clonagem da ElevenLabs usada no Pipeline. O assistente utiliza o modelo multimodal para entender o cliente e planejar uma resposta, e depois renderiza a fala final pela ElevenLabs, garantindo saída consistente e de alta fidelidade.
- Troca de turnos quase instantânea, semelhante ao Speech-to-Speech.
- Acesso à biblioteca de vozes ElevenLabs, incluindo vozes clonadas personalizadas.
- Excelente para respostas curtas a média com prosódia expressiva.
- Recomendado como padrão para a maioria dos casos de uso atualmente; atualmente em Beta.
Quandod Dualplex
- Você quer respostas rápidas e naturais, mas precisa de uma voz de marca ou clonada.
- Você deseja uma entrega mais expressiva sem abrir a mão da escolha precisa da voz.
- Você está confortável usando um recurso novo que ainda está em Beta.
Mudando de modo
Você pode selecionar o modo para cada assistente em Assistente → Configurações → Motor de Voz . Teste os três modos para ver qual oferece o melhor equilíbrio entre velocidade e qualidade para seu caso de uso. O Dualplex atualmente está rotulado como Beta.
Dica profissional: Grave duas chamadas – uma em cada modo – e compare a latência percebida pelo cliente e o nível de engajamento para decidir qual se adapta melhor ao seu fluxo.