Modos de Assistentes

Entenda os três modos de geração de voz disponíveis para seus assistentes de IA e quando usar cada um.

Os assistentes de IA no Gloena podem falar em três modos diferentes. Cada modo determinado como a fala do cliente é compreendida e como a resposta do assistente é gerada:

Escolher o modo certo pode melhorar o tempo de resposta, a naturalidade e a experiência geral da chamada.

1. Oleoduto


Rótulo na interface	Pipeline
Como funciona	Conversão de fala em texto → LLM → Conversão de texto em fala
Latência	~800 – 1500 ms (depende do idioma e do modelo)
Mais Indicado para	Raciocínio complexo, prompts sonoros, respostas com múltiplas frases

O modo Pipeline primeiro transcreve as palavras do cliente em texto, processa esse texto no modelo de linguagem e depois converte a resposta de volta em áudio. É uma abordagem consolidada que oferece máxima flexibilidade:

Suporta todas as vozes da biblioteca (incluindo vozes clonadas personalizadas).
Lida bem com respostas longas ou em formato de parágrafo.
Permite que o LLM insira variáveis e faça referência ao contexto anterior de forma clara.

Quando Pipeline

Você precisa de respostas ricas e com múltiplas frases (ex.: consultas de suporte, explicações detalhadas).
O assistente precisa raciocinar sobre dados estruturados ou prompts complexos.
Você prefere controle absoluto sobre a voz falada (clonada ou da marca).

2. Fala para Fala (Multimodal)


Rótulo na interface	Speech-to-speech
Como funciona	Geração direta de fala para fala (sem texto intermediário)
Latência	~300 – 600 ms (ultra baixa)
Mais Indicado para	Conversas naturais, respostas curtas e reativas

O modo Speech-to-Speech ignora a transcrição separada e o TTS. Em vez disso, utiliza um modelo multimodal que ouve e fala diretamente, proporcionando um fluxo mais conversacional:

Troca de turnos rápida – os clientes recebem respostas quase instantâneas.
Gera prosódia mais expressiva de forma nativa (entonação, pausas, preenchimentos).
Atualmente suporta um conjunto limitado de vozes, mas mais estão sendo adicionadas regularmente.

Quando escolher Speech-to-Speech

A conversa precisa ser ágil (vendas, confirmações de reserva).
Suas respostas geralmente são frases curtas ou confirmações rápidas.
Você aceita as opções de voz fornecidas pelo sistema para interação mais rápida.

O modo Speech-to-Speech está evoluindo rapidamente. Se você precisar de uma clonada de voz personalizada com baixa latência, experimente o Dualplex.

3. Dualplex (Beta)


Rótulo na interface	Dualplex
Como funciona	Multimodal STT + LLM (conversão de fala em fala) com saida ElevenLabs TTS
Latência	Baixa (varia conforme voz e modelo)
Mais Indicado para	Respostas rápidas e naturais com vozes de alta qualidade/marca (clonadas)

O Dualplex combina a rapidez do modo Speech-to-Speech com as vozes premium e clonagem da ElevenLabs usada no Pipeline. O assistente utiliza o modelo multimodal para entender o cliente e planejar uma resposta, e depois renderiza a fala final pela ElevenLabs, garantindo saída consistente e de alta fidelidade.

Troca de turnos quase instantânea, semelhante ao Speech-to-Speech.
Acesso à biblioteca de vozes ElevenLabs, incluindo vozes clonadas personalizadas.
Excelente para respostas curtas a média com prosódia expressiva.
Recomendado como padrão para a maioria dos casos de uso atualmente; atualmente em Beta.

Quandod Dualplex

Você quer respostas rápidas e naturais, mas precisa de uma voz de marca ou clonada.
Você deseja uma entrega mais expressiva sem abrir a mão da escolha precisa da voz.
Você está confortável usando um recurso novo que ainda está em Beta.

Mudando de modo
Você pode selecionar o modo para cada assistente em Assistente → Configurações → Motor de Voz . Teste os três modos para ver qual oferece o melhor equilíbrio entre velocidade e qualidade para seu caso de uso. O Dualplex atualmente está rotulado como Beta.

Dica profissional: Grave duas chamadas – uma em cada modo – e compare a latência percebida pelo cliente e o nível de engajamento para decidir qual se adapta melhor ao seu fluxo.

Modos de Assistentes

Entenda os três modos de geração de voz disponíveis para seus assistentes de IA e quando usar cada um.

Os assistentes de IA no Gloena podem falar em três modos diferentes. Cada modo determinado como a fala do cliente é compreendida e como a resposta do assistente é gerada:

Escolher o modo certo pode melhorar o tempo de resposta, a naturalidade e a experiência geral da chamada.

1. Oleoduto


Rótulo na interface	Pipeline
Como funciona	Conversão de fala em texto → LLM → Conversão de texto em fala
Latência	~800 – 1500 ms (depende do idioma e do modelo)
Mais Indicado para	Raciocínio complexo, prompts sonoros, respostas com múltiplas frases

Suporta todas as vozes da biblioteca (incluindo vozes clonadas personalizadas).
Lida bem com respostas longas ou em formato de parágrafo.
Permite que o LLM insira variáveis e faça referência ao contexto anterior de forma clara.

Quando Pipeline

Você precisa de respostas ricas e com múltiplas frases (ex.: consultas de suporte, explicações detalhadas).
O assistente precisa raciocinar sobre dados estruturados ou prompts complexos.
Você prefere controle absoluto sobre a voz falada (clonada ou da marca).

2. Fala para Fala (Multimodal)


Rótulo na interface	Speech-to-speech
Como funciona	Geração direta de fala para fala (sem texto intermediário)
Latência	~300 – 600 ms (ultra baixa)
Mais Indicado para	Conversas naturais, respostas curtas e reativas

O modo Speech-to-Speech ignora a transcrição separada e o TTS. Em vez disso, utiliza um modelo multimodal que ouve e fala diretamente, proporcionando um fluxo mais conversacional:

Troca de turnos rápida – os clientes recebem respostas quase instantâneas.
Gera prosódia mais expressiva de forma nativa (entonação, pausas, preenchimentos).
Atualmente suporta um conjunto limitado de vozes, mas mais estão sendo adicionadas regularmente.

Quando escolher Speech-to-Speech

A conversa precisa ser ágil (vendas, confirmações de reserva).
Suas respostas geralmente são frases curtas ou confirmações rápidas.
Você aceita as opções de voz fornecidas pelo sistema para interação mais rápida.

O modo Speech-to-Speech está evoluindo rapidamente. Se você precisar de uma clonada de voz personalizada com baixa latência, experimente o Dualplex.

3. Dualplex (Beta)


Rótulo na interface	Dualplex
Como funciona	Multimodal STT + LLM (conversão de fala em fala) com saida ElevenLabs TTS
Latência	Baixa (varia conforme voz e modelo)
Mais Indicado para	Respostas rápidas e naturais com vozes de alta qualidade/marca (clonadas)

Troca de turnos quase instantânea, semelhante ao Speech-to-Speech.
Acesso à biblioteca de vozes ElevenLabs, incluindo vozes clonadas personalizadas.
Excelente para respostas curtas a média com prosódia expressiva.
Recomendado como padrão para a maioria dos casos de uso atualmente; atualmente em Beta.

Quandod Dualplex

Você quer respostas rápidas e naturais, mas precisa de uma voz de marca ou clonada.
Você deseja uma entrega mais expressiva sem abrir a mão da escolha precisa da voz.
Você está confortável usando um recurso novo que ainda está em Beta.

Dica profissional: Grave duas chamadas – uma em cada modo – e compare a latência percebida pelo cliente e o nível de engajamento para decidir qual se adapta melhor ao seu fluxo.

Começar

Fundamentos

Guias

Modos de Assistentes

Junte-se a nós para criar algo extraordinário

Empresa

Sobre

Missão e Visão

Parcerias

Suporte

Central de Ajuda

Documentação

Contate o suporte

Links de navegação

Home

Serviços

Política Privacidade

Termos e Condições