OpenAI amplia o acesso ao modo de voz avançado

Atualizado: 16 de out.

Interface de um aplicativo em um smartphone com a opção 'Choose a voice' e o nome 'Vale' descrito como 'Bright and inquisitive' em uma tela sobre um fundo colorido em azul e rosa.

A OpenAI anunciou a expansão do modo de voz avançado do ChatGPT, agora disponível para um público maior. Esse novo recurso permite interações mais naturais com o modelo de IA, incluindo a capacidade de interpretar o tom emocional da voz e interromper respostas em andamento — funcionalidades ausentes nas versões anteriores.

O que há de novo?

O modo de voz avançado estreou em maio de 2023, junto com o lançamento do GPT-4, mas foi disponibilizado apenas em julho para um grupo seleto de usuários.

A OpenAI enfrentou desafios de segurança nessa fase inicial, chegando a retirar temporariamente o recurso após sua liberação para repórteres da Wired, que levantaram preocupações sobre privacidade.

Com as atualizações recentes, o modelo agora ajusta suas respostas de acordo com o tom de voz do usuário e pode ser interrompido verbalmente, sem necessidade de toques na tela. Essas melhorias tornam a interação com a IA mais fluida e dinâmica, proporcionando uma experiência semelhante à de conversar com um assistente pessoal.

O que os usuários têm dito?

Os testadores do modo de voz avançado o descreveram como um dos assistentes de voz mais rápidos e realistas disponíveis atualmente. Isso gerou certa frustração entre usuários que ainda não tinham acesso.

Agora, com a expansão, um número muito maior de pessoas poderá explorar o recurso e testar suas capacidades.

Além disso, o modo de voz avançado traz melhorias na pronúncia de idiomas além do inglês, oferecendo uma experiência mais inclusiva para usuários globais.

A personalização continua sendo uma característica marcante, permitindo que o ChatGPT memorize informações sobre o usuário para aprimorar interações futuras.

Novas vozes e recursos

Logotipo da OpenAI em branco sobre um fundo preto com linhas e pontos conectados, simulando uma rede digital.

A OpenAI lançou cinco novas vozes para o modo de voz: Arbor, Maple, Sol, Spruce e Vale. Essas vozes foram desenvolvidas a partir de gravações de atores profissionais de diversas regiões do mundo. Segundo a empresa, foram selecionados atores cujas vozes transmitem calor, acessibilidade e curiosidade, garantindo uma experiência agradável em interações prolongadas.

Essa mudança surgiu após críticas recebidas quando a voz feminina usada em demonstrações iniciais foi comparada à de Scarlett Johansson, atriz que dublou uma IA no filme Her. A OpenAI optou por remover essa voz e oferecer mais variedade com a nova seleção.

Quem tem acesso?

Atualmente, o modo de voz avançado está sendo disponibilizado para usuários Plus, que pagam US$ 20 por mês, e Team, que pagam US$ 30 por mês e têm um limite maior de mensagens. Em breve, o recurso será liberado para usuários dos planos Enterprise e Edu, embora a OpenAI ainda não tenha estabelecido um cronograma exato para a disponibilidade total.

Existem também restrições geográficas. O recurso ainda não está disponível na União Europeia, Reino Unido, Suíça, Islândia, Noruega ou Liechtenstein. Não há previsão de quando o modo de voz avançado será disponibilizado para usuários gratuitos.

Medidas de segurança

A OpenAI reforçou as medidas de segurança no lançamento do modo de voz. A empresa submeteu o recurso a uma análise rigorosa por especialistas externos, que dominam mais de 45 idiomas e representam 29 regiões geográficas.

Entre as principais preocupações estão a prevenção de geração de discurso violento, imitação de vozes sem consentimento e a proteção de conteúdo com direitos autorais.

Apesar dessas precauções, a natureza fechada dos modelos da OpenAI continua sendo um ponto de debate. Diferentemente dos modelos de código aberto, que são mais transparentes quanto aos dados de treinamento e funcionamento, os modelos fechados da OpenAI dificultam uma análise detalhada por pesquisadores independentes sobre questões de segurança, viés e possíveis danos.

A ampliação do modo de voz avançado do ChatGPT representa um avanço significativo na interação humano-IA. Com novos recursos e vozes, além de melhorias contínuas na usabilidade e segurança, o modo de voz promete transformar ainda mais a experiência do usuário com inteligência artificial.

Embora desafios persistam, como a disponibilidade geográfica limitada, a OpenAI está empenhada em tornar sua tecnologia acessível para mais pessoas ao redor do mundo.