ChatTTS es un modelo de texto a voz especialmente diseñado para escenarios de diálogo, un modelo de texto a voz multifuncional de alta calidad que funciona bien en diversas aplicaciones conversacionales. Admite la generación de habla en chino e inglés y, entrenado con aproximadamente 100,000 horas de datos en chino e inglés, es capaz de generar una calidad de habla comparable a la del diálogo humano. ChatTTS es particularmente adecuado para tareas de diálogo de asistentes de modelos de lenguaje a gran escala, así como para aplicaciones como la creación de introducciones de audio y video basadas en diálogos. Basado en tecnologías de procesamiento de lenguaje natural y síntesis de voz de código abierto, proporciona a los desarrolladores una herramienta poderosa y fácil de usar.
¿Por qué ChatTTS?
Haz que tu audio generado por IA suene como una persona real con entonaciones y pausas similares a las humanas.
Rompe la barrera del idioma con nuestro soporte de doble idioma para inglés y chino.
Confía en la eficiencia de ChatTTS, diseñado a partir de más de 40,000 horas de preentrenamiento.
Accede a un código fuente bien mantenido y actualizado regularmente en GitHub.
Comencemos a usar este repositorio localmente con uso básico, ejecutándose en Colab y ejecutándose en Huggingface & Modelscope. Convierte texto en voz humana conversacional natural.
Run your ChatTTS repository locally to achieve a magical text-to-speech experience.
Ten minutes of time, allow you to successfully run ChatTTS on Colab.
Step by step to deploy your ChatTTS Space on HuggingFace.
Navega al repositorio de código abierto, elige la carpeta apropiada y clona el repositorio remoto en tu máquina local usando comandos git. Alternativamente, puedes optar por descargarlo manualmente desde GitHub.
git clone https://github.com/2noise/ChatTTS.git
Ingresa a la carpeta donde descargaste los archivos en la terminal o línea de comandos, luego ejecuta el siguiente comando para descargar las dependencias.
pip install omegaconf -q
pip install vocos -q
pip install vector_quantize_pytorch -q
pip install nemo_text_processing -q
pip install WeTextProcessing -q
Importa el paquete y declara los módulos e instancias de Python que necesitamos.
import torch
from ChatTTS.core import Chat
from IPython.display import Audio
chat = ChatTTS.Chat()
chat.load_models()
Determina el texto para el cual necesitas generar habla, y guárdalo como 'texts'.
texts = ["YOUR_TEXT_TO_GENERATE_AUDIO",]
Generar el discurso.
wavs = chat.infer(texts, use_decoder=True)
Reproducir el Audio
Audio(wavs[0], rate=24_000, autoplay=True)
Preguntas Frecuentes para el repositorio de ChatTTS en GitHub, un modelo de generación de habla para diálogos diarios.
ChatTTS es un modelo de texto a voz diseñado específicamente para escenarios de diálogo como asistentes LLM. Admite tanto el inglés como el chino y está entrenado con más de 100,000 horas compuestas de chino e inglés. La versión de código abierto en HuggingFace es un modelo preentrenado de 40,000 horas.
Sí, ChatTTS es de uso gratuito. Puedes descargar los archivos del proyecto desde el repositorio de GitHub a tu máquina local. También hay otros desarrolladores que han creado versiones gratuitas disponibles en plataformas de código abierto conocidas como Github, HuggingFace y Modelscope.
Los pasos de instalación de ChatTTS se describen en la sección 'Cómo funciona'. Básicamente, puedes descargar directamente el proyecto de texto a voz en tu laptop desde el repositorio de Github y usarlo en Python. También puedes seguir las indicaciones en la página oficial de GitHub para descargar y usar ChatTTS.
El código fuente de ChatTTS se puede encontrar en su repositorio de GitHub en https://github.com/2noise/ChatTTS.
Para usar ChatTTS en su proyecto, puede importarlo y usar el método `chat.infer` para procesar su texto. Se pueden proporcionar ejemplos de uso más detallados en la documentación o archivos de ejemplo del repositorio.
Sí, las contribuciones al proyecto ChatTTS son bienvenidas en una variedad de formas, como discusiones de problemas, presentación de problemas en GitHub y solicitudes de extracción. También puede unirse al grupo de QQ: 808364215 para discutir.
Para consultas formales sobre el modelo y su hoja de ruta, puede contactar a los desarrolladores en [email protected]. También se fomenta la unión a su grupo de QQ o la presentación de problemas en GitHub para obtener soporte.
ChatTTS está optimizado para tareas de diálogo, capaz de sintetizar voz de manera natural y expresiva, y soporta múltiples hablantes. Ofrece un control granular sobre características prosódicas como la risa, las pausas y las interjecciones, superando a la mayoría de los modelos TTS de código abierto en términos de prosodia.
landing.faq.content.8.description
@2024 @ChatTTS.Site all rights reserved. We are not official website of ChatTTS.