SANTA CLARA, Calif.—GTC—12 de abril de 2021—El día de hoy, NVIDIA anunció la disponibilidad del framework NVIDIA Jarvis , que brinda a los desarrolladores modelos de deep learning y herramientas de software de última generación y previamente entrenadas para crear servicios interactivos de IA conversacional que son fácilmente adaptables a cada sector y dominio.

Con miles de millones de horas de llamadas telefónicas, reuniones web y streaming de contenido de video que se genera diariamente, los modelos NVIDIA Jarvis ofrecen reconocimiento automático de voz de alta precisión, así como la comprensión superhumana de idiomas, traducciones en tiempo real para varios idiomas y nuevas capacidades de texto a voz para crear agentes de IA conversacionales expresivos.

Al utilizar la aceleración de la GPU, el proceso integral de voz se puede ejecutar en menos de 100 milisegundos (escuchando, entendiendo y generando una respuesta más rápido que el parpadeo de un ojo humano) y se puede implementar en el cloud, en el data center o en el edge, escalando a millones de usuarios.

“La IA conversacional es, en muchos sentidos, la IA definitiva”, dijo Jensen Huang, fundador y CEO de NVIDIA. “Los avances en deep learning para el reconocimiento de voz, la comprensión del lenguaje y la síntesis de voz han permitido atractivos servicios en el cloud. NVIDIA Jarvis ofrece esta IA conversacional de última generación en el cloud para que los clientes alojen servicios de IA en cualquier lugar”.

NVIDIA Jarvis permitirá una nueva ola de aplicaciones basadas en idiomas que antes no eran posibles, a fin de mejorar las interacciones con humanos y máquinas. Abre la puerta a la creación de servicios tales como enfermeras digitales para ayudar a monitorear a los pacientes las 24 horas del día, lo que alivia la labor del al personal médico sobrecargado; asistentes en línea para comprender lo que buscan los consumidores y recomendar los mejores productos; y traducciones en tiempo real para mejorar la colaboración transfronteriza en el lugar de trabajo y permitir a los espectadores disfrutar del contenido en vivo en su propio idioma.

Jarvis se ha creado utilizando modelos entrenados para varios millones de horas de GPU en más de 1000 millones de páginas de texto, 60,000 horas de datos de voz y en diferentes idiomas, acentos, entornos y variantes para lograr una precisión de clase mundial. Por primera vez, los desarrolladores pueden usar NVIDIA TAO, un framework para entrenar, adaptar y optimizar estos modelos para cualquier tarea, cualquier industria y en cualquier sistema con facilidad.

Los desarrolladores pueden seleccionar un modelo previamente entrenado de Jarvis del catálogo NGC™ de NVIDIA, ajustarlo usando sus propios datos con NVIDIA Transfer Learning Toolkit, optimizarlo para lograr un rendimiento máximo y una latencia mínima en servicios de voz en tiempo real y, luego, implementar fácilmente el modelo con solo unas pocas líneas de código, lo que no requiere un conocimiento experto de IA.

Amplia Compatibilidad en la Industria

Desde que comenzó el programa de acceso anticipado de Jarvis en mayo pasado, miles de empresas han solicitado unirse. Entre los primeros usuarios se encuentra T-Mobile, el gigante de las telecomunicaciones de EE. UU., que busca aprovechar la IA para aumentar aún más sus productos de machine learning utilizando el procesamiento de idiomas naturales y así ofrecer información y recomendaciones en tiempo real.

“Con los servicios de NVIDIA Jarvis, optimizados con los datos de T-Mobile, estamos creando productos para ayudarnos a resolver los problemas de los clientes en tiempo real”, dijo Matthew Davis, vicepresidente de productos y tecnología de T-Mobile. “Después de evaluar varias soluciones de reconocimiento automático de voz, T-Mobile descubrió que Jarvis ofrece un modelo de calidad con una latencia extremadamente baja, lo que permite experiencias que a nuestros clientes les encantan”.

NVIDIA también se ha asociado con Mozilla Common Voice, una colección de datos de voz de código abierto para startups, investigadores y desarrolladores que permite entrenar aplicaciones, servicios y dispositivos habilitados para voz. Common Voice, el conjunto de datos de voz de dominio público multilingüe más grande del mundo, contiene más de 9,000 horas totales de datos de voz contribuidos en 60 idiomas diferentes. NVIDIA está utilizando Jarvis para desarrollar modelos previamente entrenados con el conjunto de datos y luego ofrecerlos a la comunidad de forma gratuita.

“Lanzamos Common Voice para enseñar a las máquinas cómo las personas reales hablan en sus idiomas, acentos y patrones de habla únicos”, dijo Mark Surman, director ejecutivo de Mozilla. “NVIDIA y Mozilla tienen una visión común de democratizar la tecnología de voz y garantizar que refleje la rica diversidad de personas y voces que componen Internet”.

Las herramientas de IA conversacional de NVIDIA han tenido más de 45,000 descargas. Se pueden combinar con tecnología de cientos de socios y son compatibles con las principales bibliotecas de software, lo que permite a los desarrolladores de todo el mundo crear aplicaciones de IA conversacionales innovadoras e intuitivas.

“Jarvis tiene una amplia selección de modelos previamente entrenados, lo que lo convierte en un verdadero proceso integral para la IA conversacional, desde el reconocimiento automático de voz, el procesamiento de idiomas naturales y el texto a voz”, dijo Harrison Kinsley, YouTuber y fundador de PythonProgramming.net. “Todos los modelos son sorprendentemente rápidos y están bien optimizados. Además, la API es fácil de usar para los desarrolladores con ejemplos que se aplican a muchas tareas de IA conversacional”.

Disponibilidad

Las funciones recientemente anunciadas se lanzarán en el segundo trimestre como parte del programa beta abierto de NVIDIA Jarvis en curso. Los desarrolladores pueden descargarlo hoy desde NGC con más información disponible aquí.

Ilustración: Fotograma