Skip to main content

Interacción por Voz

Aquí está el panorama completo de los servicios de interacción por voz alrededor del mundo.

1. Alexa

Alexa es el servicio de voz basado en la nube de Amazon disponible en decenas de millones de dispositivos de Amazon y fabricantes de dispositivos de terceros. Con Alexa, puedes construir experiencias de voz naturales que ofrecen a los clientes una forma más intuitiva de interactuar con la tecnología que usan todos los días. Nuestra colección de herramientas, APIs, soluciones de referencia y documentación facilita que cualquiera pueda construir con Alexa.

¿Qué Puedes Construir con Alexa?

  • Agregar Capacidades a Alexa: Agrega capacidades, o skills, a Alexa usando el Alexa Skills Kit (ASK), una colección de APIs de autoservicio, herramientas, documentación y ejemplos de código. Los skills hacen a Alexa más inteligente y permiten a los clientes hacer más con la voz. Construye experiencias naturales, con la voz primero, con nuestro conjunto de herramientas, y ayuda a redefinir la forma en que tus clientes interactúan con la tecnología.
  • Integrar Alexa en Tu Dispositivo: Integra Alexa directamente en tus productos con el Alexa Voice Service (AVS), llevando la conveniencia del control de voz manos libres a cualquier dispositivo conectado. A través de AVS, puedes agregar una nueva interfaz inteligente a tus productos y ofrecer a los clientes acceso a un número creciente de características de Alexa, integraciones de hogar inteligente y skills.
  • Conectar Dispositivos a Alexa: Conecta Alexa a tus dispositivos para entregar experiencias deliciosas e intuitivas a tus clientes. Agrega Alexa a tus dispositivos de hogar inteligente para habilitar el control por voz de tus cámaras inteligentes, luces, sistemas de entretenimiento y más. Y construye tus propios Alexa Gadgets o crea skills interactivos que funcionen con Alexa Gadgets como Echo Buttons.

Recursos para Desarrolladores

- Alexa Voice Service Get Started - avs-device-sdk

2. Google assistant

El SDK de Google Assistant te permite agregar detección de palabra clave, control por voz, comprensión de lenguaje natural y la inteligencia de Google a tus dispositivos. Tu dispositivo captura una expresión (una solicitud de audio hablada, como ¿Qué hay en mi calendario?), la envía al Google Assistant, y recibe una respuesta de audio hablada además del texto sin procesar de la expresión.

¿Qué puede hacer?

  • GESTIONAR TAREAS:Envía un texto, establece recordatorios, activa el ahorro de batería y busca correos electrónicos instantáneamente.
  • PLANIFICA TU DÍA:Verifica el estado de tu vuelo, haz una reserva para cenar, verifica cuándo comienza tu película y encuentra una parada de café en tu ruta.
  • DISFRUTA EL ENTRETENIMIENTO:Controla música en Google Play y YouTube Music. También puedes continuar donde lo dejaste en tus podcasts favoritos con tu Assistant en Google Home.
  • CREA RECUERDOS:Tu Assistant hace increíblemente simple encontrar tus fotos — y también tomarlas.
  • OBTÉN RESPUESTAS:Obtén respuestas en tiempo real incluyendo lo último sobre clima, tráfico, finanzas o deportes. Encuentra traducciones rápidamente mientras viajas.
  • CONTROLA TU HOGAR:Usa tu teléfono para controlar tus dispositivos de hogar inteligente. Ajusta la temperatura, iluminación y más, incluso cuando no estés en casa.

Recursos para Desarrolladores

3. Bing Speech

Bing Speech incluye conversión de audio a texto, comprensión de intenciones y conversión de texto de vuelta a voz para una capacidad de respuesta natural.

Reconocimiento de Voz Convierte audio hablado a texto. La API puede ser dirigida para activarse y reconocer audio proveniente del micrófono en tiempo real, reconocer audio proveniente de una fuente de audio diferente en tiempo real, o reconocer audio desde un archivo. En todos los casos, el streaming en tiempo real está disponible, por lo que mientras el audio está siendo enviado al servidor, los resultados de reconocimiento parciales también están siendo devueltos.

La API de Voz a Texto te permite construir aplicaciones inteligentes que se activan por voz. Para ver cómo funciona, selecciona tu idioma objetivo, luego haz clic en el micrófono y comienza a hablar. O simplemente haz clic en una de las frases de voz de muestra para ver cómo funciona el reconocimiento de voz. Cuando uses esta demostración, consientes en proporcionar tus datos de entrada de voz a Microsoft con fines de mejora del servicio.

Texto a Voz Convierte texto a audio hablado. Cuando las aplicaciones necesitan "hablar" de vuelta a sus usuarios, esta API puede ser usada para convertir texto que es generado por la aplicación en audio que puede ser reproducido al usuario.

La API de Texto a Voz te permite construir aplicaciones inteligentes que pueden hablar. Puedes probarla ahora, simplemente elige tu idioma objetivo, añade tus oraciones y luego haz clic en el botón de reproducir para ver cómo funciona la síntesis de voz. Cuando uses esta demostración, consientes en proporcionar tus datos de entrada de voz a Microsoft con fines de mejora del servicio.

Recurso para Desarrolladores

4. Baidu

Baidu Speech incluye STT, TTS, interacción de voz, activación sin conexión.

Recurso para Desarrolladores

- SDK - API

Lista de tutoriales de interacción de voz

Aquí está la lista de tutoriales de interacción de voz.

¡Gracias por elegir nuestros productos! Estamos aquí para brindarte diferentes tipos de soporte para asegurar que tu experiencia con nuestros productos sea lo más fluida posible. Ofrecemos varios canales de comunicación para atender diferentes preferencias y necesidades.

Loading Comments...