09:00
Según noticias de IT House del 27 de julio, Microsoft lanzó recientemente un modelo de voz llamado NaturalSpeech2, que utiliza un diseño de "difusión potencial" y tiene un efecto sobresaliente a nivel de síntesis de voz de muestra cero. Solución de voz/canto de "clase". que puede brindar a los usuarios una experiencia de síntesis de voz diversa y de alta calidad. A diferencia de los sistemas tradicionales de voz a texto (TTS), NaturalSpeech2 de Microsoft utiliza "vectores continuos" en lugar de "tokens discretos" para representar el habla, lo que da como resultado fragmentos de voz más completos que no producen "lecturas de palo" "no sentimentales" (un discurso en una palabra)" fenómeno. Los resultados experimentales muestran que el habla generada por NaturalSpeech2 bajo la condición de muestra cero es casi consistente con la prosodia del mensaje de voz y el habla real, y la naturalidad (medida por CMOS) en los equipos de prueba LibriTTS y VCTK es indistinguible de la verdadero discurso

