Skip to main content

IA de Voz para Retail Inteligente

Aprovecha la solución de IA de Voz para Retail Inteligente de Seeed para capturar y analizar conversaciones de clientes en la tienda. Nuestra tecnología de IA de borde permite el procesamiento de voz a texto en el dispositivo, transformando datos de voz en insights accionables sin depender de servicios en la nube. Mejora la experiencia del cliente, optimiza las operaciones de la tienda y obtén retroalimentación valiosa con nuestro análisis de voz impulsado por IA offline diseñado para entornos de retail.

IA de Voz para Retail Inteligente

IA de Voz para Retail Inteligente

Construye un pipeline de análisis de voz en tienda usando dispositivos de borde y SenseCraft Voice para capturar conversaciones en el sitio, ejecutar conversión de voz a texto en el dispositivo y convertir la voz del cliente en datos estructurados.

  • Conversión de Voz a Texto en el Dispositivo en el Borde

    SenseCraft Voice se ejecuta directamente en dispositivos de borde en la tienda para manejar la detección de actividad de voz y el reconocimiento de voz localmente. Todo el habla se procesa en el borde, reduciendo dramáticamente la dependencia de la conectividad en la nube para la generación de transcripciones en tiempo real.

  • Captura de Audio de Campo Lejano, Lista para Retail

    La solución está diseñada para la captura de audio de campo lejano en entornos de retail ruidosos. Con soporte para arreglos de micrófonos, formación de haces y supresión de ruido, se enfoca en conversaciones reales entre clientes y personal incluso con música de fondo y charla circundante.

  • Arquitectura de Borde con Privacidad Primero

    Debido a que el audio se transcribe localmente en dispositivos de borde y solo se envían texto más metadatos hacia arriba, los retailers pueden controlar mejor los riesgos de privacidad y cumplimiento, mientras mantienen bajos los costos de la nube y los requisitos de red.

  • De Conversaciones a Decisiones Basadas en Datos

    Las transcripciones generadas por SenseCraft Voice se convierten en datos estructurados y analizables. Los retailers pueden medir la calidad del servicio, identificar preguntas comunes y puntos de dolor, y mejorar continuamente guiones, políticas y la experiencia general de la tienda.

Introducción

En esta sección, te guiaremos a través de los pasos para configurar la solución de IA de Voz para Retail Inteligente usando el reRouter de Seeed y el arreglo de micrófonos reSpeaker XVF3800.

1. Requisitos de Hardware

Esta guía utiliza el reRouter de Seeed y el arreglo de micrófonos reSpeaker XVF3800 para demostrar cómo construir una solución de IA de Voz para Retail Inteligente.

reRouter (Computación de Borde)reSpeaker XVF3800 (Captura de Audio)
reRouter CM4reSpeaker XVF3800

Función: Unidad de Procesamiento

Especificaciones Técnicas:

  • RAM: 4GB (Requisito Mínimo)
  • Almacenamiento: 32GB eMMC
*Nota: El rendimiento por debajo de estas especificaciones no ha sido validado.

Función: Captura de Voz

Especificaciones Técnicas:

  • Modelo: Arreglo de 4 Micrófonos XVF3800
  • Características: Supresión de Ruido, AEC, Formación de Haces

Configuración de Hardware

product-rerouter-respeaker

1.1 Obtener Firmware del reRouter

Hay dos versiones del firmware OpenWrt disponibles para reRouter:
una para usuarios globales, y otra optimizada para usuarios en China Continental.

El firmware actual está basado en OpenWrt 24.10.3 (Build r28872).

Por favor consulta la guía de flasheo del reRouter para instrucciones detalladas sobre el procedimiento de flasheo.

Ten en cuenta que: debes usar el firmware proporcionado arriba, no el de la página de la guía.

1.2. Conexión de Hardware

Por favor conecta el reRouter de la siguiente manera:

  • Acceso a Internet: Conecta un cable Ethernet desde tu router/módem al puerto WAN.
  • Conexión del Host: Conéctate de forma inalámbrica al hotspot Wi-Fi llamado OpenWrt-XXXX o conecta tu computadora al puerto LAN vía Ethernet.
Conexiones de hardware del reRouter: el puerto LAN se conecta a tu computadora host para configuración; el puerto WAN se conecta a internet.
  • Puerto WAN: Se conecta a internet.
  • Puerto LAN: Se conecta a tu computadora host para configuración.

1.3. Configuración del reSpeaker XVF3800

Conecta el arreglo de micrófonos reSpeaker XVF3800 a tu dispositivo host vía USB para configurar.

  1. Clona el repositorio y navega a la carpeta de control:

Dependiendo de tu dispositivo, reemplaza <YOUR_HOST_DIR> con la carpeta que coincida con tu sistema (ej., linux_x86_64, rpi_64bit, mac_arm64, o jetson).

git clone https://github.com/respeaker/reSpeaker_XVF3800_USB_4MIC_ARRAY.git
cd reSpeaker_XVF3800_USB_4MIC_ARRAY/host_control/<YOUR_HOST_DIR>
  1. Ejecutar la secuencia de configuración:

Otorga permisos de ejecución y ejecuta los siguientes tres comandos para inicializar el dispositivo (usa sudo si es necesario en Linux):

chmod +x ./xvf_host

# 1. Clear existing configuration
sudo ./xvf_host clear_configuration 1

# 2. Enable specific audio manager setting
sudo ./xvf_host audio_mgr_op_r 8 0

# 3. Save configuration
sudo ./xvf_host save_configuration 1

2. Instalación de Software

2.1. Prerrequisitos

Antes de comenzar, asegúrate de que se cumplan las siguientes condiciones:

  • Acceso: Acceso root a tu dispositivo OpenWrt vía SSH (ej., ssh [email protected]).
  • Red: El dispositivo OpenWrt tiene una conexión estable a internet.
  • Audio: El reSpeaker XVF3800 está conectado al reRouter.

2.2 Accediendo al Dispositivo

Una vez que tu computadora esté conectada al reRouter (vía LAN o Wi-Fi), puedes acceder al sistema usando los siguientes valores predeterminados:

  • Acceso SSH:

Por defecto, no se establece contraseña para el usuario root.

Nota

También puedes usar la interfaz web de OpenWrt para configurar los ajustes de red, incluyendo conectar el reRouter a tu red Wi-Fi o Ethernet para acceso a internet.

  • Abre un navegador y visita: http://192.168.49.1
  • Usuario: root
  • Contraseña: (ninguna / vacía por defecto)

Si necesitas soporte para otros idiomas, como chino, puedes instalar el paquete luci-i18n-base-zh-cn a través de la interfaz web o SSH.

opkg update
opkg install luci-i18n-base-zh-cn
Importante

Antes de proceder con los pasos de instalación a continuación, por favor verifica que el reRouter pueda acceder a internet (por ejemplo, ejecuta ping google.com o ping openwrt.org en el terminal SSH).

2.3 Instalación Paso a Paso

Ejecuta los siguientes comandos secuencialmente después de establecer una conexión SSH a tu dispositivo OpenWrt.

Paso 1: Instalar Docker y Dependencias

Este paso instala el entorno de ejecución de contenedores y las herramientas necesarias, incluyendo la utilidad de suma de verificación SHA-256 para verificación de archivos.

# 1. Update the local package list
opkg update

# 2. Install Docker core components
# Note: On some systems, you might need to install these separately: dockerd, docker, containerd, runc
opkg install dockerd docker containerd runc

# 3. Install utility packages
opkg install wget-ssl unzip ca-certificates

# 4. Enable and start the Docker daemon service
/etc/init.d/dockerd enable
/etc/init.d/dockerd start

# Optional: verify downloaded files
# sha256sum <filename>
Paso 2.2: Preparar Directorios de Datos y Configuración

Crea los directorios de almacenamiento persistente requeridos por los contenedores SenseCraft y descarga el archivo de configuración predeterminado.

# 1. Create required application data directories
mkdir -p /data-iot/respeaker/recordings \
/data-iot/respeaker/models \
/data-iot/respeaker/voiceprints \
/data-iot/respeaker/logs

# 2. Navigate to the base directory
cd /data-iot/respeaker

# 3. Download the configuration file
wget -q -O config.yaml 'https://appstore.seeed-fleet.com/config.yaml'
Paso 2.3: Descargar y Extraer Modelos

Descargaremos el paquete de modelo ASR preentrenado directamente desde el servidor de Seeed Studio, verificaremos su integridad usando SHA-256, y lo extraeremos.

ArchivoURL
models.ziphttps://files.seeedstudio.com/wiki/solution/ai-sound/reRouter-firmware-backup/models.zip
Hash SHA-256 Esperado7b9e7606a2ddcad56f3f72a77b16eb2c60437ae4bfc3f1423bd33db177385c9d

Ejecuta los siguientes comandos en el host OpenWrt vía SSH:

# 1. Navigate to the base directory
cd /data-iot/respeaker

# 2. Define the Model URL
MODEL_URL="https://files.seeedstudio.com/wiki/solution/ai-sound/reRouter-firmware-backup/models.zip"

# 3. Download the large model package.
# -c allows the download to resume if interrupted.
wget -O models.zip -c "$MODEL_URL"
echo "Model package download completed. Check file size is approximately 500MB."

# 4. Verify the file integrity using SHA-256 Checksum
# The result MUST match the expected hash above.
sha256sum models.zip

# 5. Extract the model package into the 'models' directory
unzip -o models.zip

# 6. Clean up the temporary ZIP file
# rm -f models.zip

# 7. Verify the model files are present
ls -l /data-iot/respeaker/models/
Paso 2.4: Configurar Permisos del Dispositivo de Audio

El contenedor Voice Client requiere acceso privilegiado a los dispositivos de audio. Asegúrate de que los archivos del dispositivo tengan los permisos apropiados.

# 1. Check for audio devices
ls -l /dev/snd/

# 2. Set read/write permissions for all users on audio device nodes
chmod -R 666 /dev/snd/*
Paso 2.5: Desplegar Contenedores Docker

Define las variables de imagen y lanza los tres servicios requeridos: sensecraft-voice-client, sensecraft-asr-server, y watchtower.

# Define Image Variables
VOICE_CLIENT_IMAGE="sensecraft-missionpack.seeed.cn/respeaker/sensecraft-voice-client:v0.0.2"
ASR_SERVER_IMAGE="sensecraft-missionpack.seeed.cn/respeaker/sensecraft-asr-server:latest"
WATCHTOWER_IMAGE="sensecraft-missionpack.seeed.cn/respeaker/containrrr/watchtower:latest"

# 1. Pull Images
docker pull $VOICE_CLIENT_IMAGE
docker pull $ASR_SERVER_IMAGE
docker pull $WATCHTOWER_IMAGE

# 2. Stop and remove any containers with the same names
docker rm -f sensecraft-voice-client sensecraft-asr-server watchtower

# 3. Launch sensecraft-voice-client
docker run -d --name sensecraft-voice-client \
--restart=unless-stopped \
--privileged \
--device /dev/snd \
--network host \
--group-add audio \
--group-add video \
--cap-add SYS_ADMIN \
--cap-add SYS_RAWIO \
-e TZ=Asia/Shanghai \
-e AUDIO_CARD_ID=1 \
-e AUDIO_DEVICE_ID=0 \
-v /etc/wpa_supplicant:/etc/wpa_supplicant \
-v /etc/network:/etc/network \
-v /var/run/dbus:/var/run/dbus \
-v /dev:/dev \
-v /run/udev:/run/udev:ro \
-v /proc:/proc:ro \
-v /sys:/sys:ro \
-v /data-iot/respeaker/recordings:/app/recordings \
-v /data-iot/respeaker/voiceprints:/app/voiceprints \
-v /data-iot/respeaker/logs:/app/logs \
-e WIFI_INTERFACE=wlan0 \
-e WIFI_CONFIG_PATH=/etc/wpa_supplicant \
$VOICE_CLIENT_IMAGE

# 4. Launch sensecraft-asr-server (model server)
docker run -d --network host \
-v /data-iot/respeaker/models:/app/models \
-v /data-iot/respeaker/voiceprints:/app/data \
--restart=always \
--name=sensecraft-asr-server \
$ASR_SERVER_IMAGE

# 5. Launch watchtower (for continuous container monitoring and update)
docker run -d --name watchtower \
--restart always \
-v /var/run/docker.sock:/var/run/docker.sock \
$WATCHTOWER_IMAGE \
--cleanup -i 60 sensecraft-asr-server sensecraft-voice-client
3. Verificación

Verifica el estado final del despliegue.

# Check container status (All three should show Status: Up)
docker ps

# Check the voice client logs for successful initialization and audio device detection
docker logs sensecraft-voice-client

Si los registros indican un inicio exitoso sin errores críticos, los servicios SenseCraft se han desplegado exitosamente.


Se recomienda encarecidamente reiniciar el dispositivo para asegurar que todas las configuraciones, permisos y configuraciones de red estén completamente cargadas y reconocidas por el sistema.

reboot

Después del reinicio, puedes navegar a http://192.168.49.1:8090 para acceder a la interfaz Edge Client para transcripción ASR en tiempo real y configuración del dispositivo. Para uso detallado de la plataforma SenseCraft Voice, por favor consulta la sección Guía del Usuario a continuación.

SenseCraft Voice: Descripción General de la Plataforma Edge-to-Cloud

SenseCraft Voice es una plataforma de vanguardia diseñada para transformar datos de audio en bruto capturados en el borde (reRouter) en inteligencia empresarial accionable a través de análisis de IA potente y gestión centralizada.

La arquitectura única edge-cloud de la plataforma proporciona confiabilidad, velocidad y profundidad analítica sin precedentes para soluciones de monitoreo de audio de nivel empresarial.

CaracterísticaPropuesta de ValorVentajas Clave
Procesamiento Edge ResilienteGarantiza operación continua y baja latencia.El ASR de voz y reconocimiento se ejecutan localmente en el reRouter, asegurando respuesta en tiempo real y recolección de datos incluso durante interrupciones de red.
Personalización Profunda de IAAdapta la plataforma a necesidades empresariales específicas y terminología.Los administradores pueden definir Palabras Clave, Sinónimos y Prompts de IA personalizados para dirigir el análisis de IA y asegurar detección precisa de eventos específicos a su lenguaje empresarial.
Mapeo Granular de UbicaciónSimplifica la gestión de despliegue a gran escala.Soporta organización jerárquica de miles de dispositivos edge por Tienda, Ubicación y Nombre del Dispositivo, superando las confusas direcciones MAC para filtrado y reportes fáciles.
Paneles AccionablesProporciona información empresarial inmediata y seguimiento de rendimiento.El Panel Centralizado incluye Filtrado Multi-Tienda, Tasa de Dispositivos En Línea en tiempo real, y Análisis de Puntos Calientes de Palabras Clave para monitorear el estado operacional y eventos empresariales instantáneamente.

La solución SenseCraft Voice está construida sobre una arquitectura edge-cloud robusta, asegurando tanto el procesamiento local en tiempo real como la gestión centralizada. El servicio consta de dos componentes principales: el Cliente Edge que se ejecuta en el reRouter, y la Plataforma de Gestión Cloud/Servidor.

Guía del Usuario

Acceso al Cliente Edge (reRouter)

El Cliente Edge es esencial para la validación en tiempo real y la configuración local.

  • Acceso: Abre tu navegador web y navega a la dirección IP del reRouter en el puerto 8090: http://192.168.49.1:8090.
  • Función Principal: La interfaz proporciona transcripción ASR en tiempo real (para verificar la entrada de audio), controles para el Reconocimiento de Huella Vocal (identificación del hablante), y Configuración del Dispositivo (configuraciones de red, dirección del servidor upstream).
Nombre del Módulo Descripción Captura de Pantalla de la Interfaz
ASR de Voz

Descripción: Muestra el estado operativo actual del servicio local de Reconocimiento Automático de Voz (ASR).

Propósito: Proporciona transcripción en tiempo real del habla detectada, esencial para verificar la entrada de audio local y la precisión del reconocimiento.

Voice ASR Module Interface

Figura 1: Módulo ASR de Voz

Reconocimiento de Huella Vocal

Descripción: Gestiona y monitorea el sistema de Reconocimiento de Huella Vocal.

Propósito: Genera automáticamente huellas vocales únicas a partir de grabaciones de audio para permitir la diferenciación e identificación de hablantes.

Voiceprint Recognition Module Interface

Figura 2: Módulo de Reconocimiento de Huella Vocal

Estado y Configuración del Dispositivo

Descripción: Proporciona información detallada sobre el estado operativo del reRouter y permite cambios en parámetros principales.

Propósito: Permite actualizaciones de configuración como configuraciones de red (Wi-Fi) y cambiar la dirección del servidor upstream para comunicación en la nube.

Device Status and Configuration Module Interface

Figura 3: Estado y Configuración del Dispositivo

Plataforma de Gestión Cloud

La Plataforma Cloud está organizada en cinco áreas de navegación principales, ofreciendo potentes herramientas de análisis de datos y configuración del sistema.

1. Panel de Control: Información de un Vistazo

El Panel de Control es tu centro de comando operativo, proporcionando métricas agregadas y tendencias de rendimiento:

  • Filtrado de Tiendas: Cambia fácilmente las vistas seleccionando una o más tiendas, con todos los gráficos actualizándose instantáneamente.
  • Análisis: Monitorea Tendencias de Recolección Diaria (registros por hora) y Análisis de Puntos Calientes de Palabras Clave (mostrando qué palabras clave se activan frecuentemente y los Nombres de Dispositivos asociados).
Dashboard Main Page
Figura 4: Interfaz del Panel de Control

2. Gestión de Registros: Auditoría y Exportación de Datos

Este módulo proporciona la vista definitiva de todos los registros de voz recopilados.

  • Filtrado Avanzado: Usa Nombre del Dispositivo, Nombre de la Tienda, Nombre de la Ubicación, o Dirección MAC para recuperación precisa de datos. Las búsquedas se ejecutan solo después de hacer clic en el botón "Filter", dando a los usuarios control total.
  • Capacidad de Exportación: Selecciona y exporta datos filtrados en tres formatos para uso externo (elige uno a la vez): Markdown, Texto Plano (.txt), o Archivo de Audio Original.
  • Auditoría de Vista Dual: Cambia fácilmente entre Modo Conversación para revisar diálogos transcritos y Modo Línea de Tiempo para escuchar la reproducción de audio original. Este enfoque dual permite verificación rápida de la precisión de transcripción y una comprensión más profunda del contexto de la interacción.
  • Claridad: Todas las vistas de registros priorizan el Nombre del Dispositivo fácilmente identificable sobre la dirección MAC.
Record Management Interface
Figura 5: Interfaz de Gestión de Registros
sensecraft-voice-record
Figura 5.1: Modo Línea de Tiempo

3. Análisis AI: Procesamiento Histórico y Personalizado

Esta área maneja el envío de registros de voz para procesamiento avanzado por el motor de AI.

  • Sesiones Históricas: Revisa tus interacciones pasadas con el motor de análisis AI. La ventana de historial muestra conversaciones cronológicamente, y hacer clic en una sesión carga inmediatamente el hilo de conversación anterior para revisión.
  • Procesamiento: Envía registros filtrados para procesamiento AI basado en el AI Prompt actualmente seleccionado.
AI Analysis Interface
Figura 6: Interfaz de Análisis AI

4. Gestión de Tiendas: Jerarquía de Dispositivos y Ubicaciones

Esta área proporciona las herramientas necesarias para configurar y mantener la jerarquía organizacional de todos los dispositivos edge.

  • Vista Jerárquica: Gestiona fácilmente tiendas, sus ubicaciones específicas dentro de la tienda, y los dispositivos reRouter asociados.
  • Control Centralizado: Optimiza el despliegue y configuración de dispositivos agrupándolos lógicamente.
Store Management Interface
Figura 7: Interfaz de Gestión de Tiendas
Device Management Interface
Figura 8: Interfaz de Gestión de Dispositivos
Specific Location Management Interface
Figura 9: Interfaz de Gestión de Ubicaciones Específicas

5. Configuración Backend: Control del Sistema y Personalización

Esta sección permite a los administradores definir parámetros de todo el sistema para procesamiento AI y activación de eventos.

5.1. Configuración de Palabras Clave

Define palabras clave personalizadas y sinónimos para identificar eventos comerciales específicos en las grabaciones.

  • Personalización: Define Palabras Clave y sus Sinónimos para detección de eventos.
  • Visualización: Asigna un Color de Marcado para distinción visual en el Panel de Control.
  • Gestión: Soporta Agregar, Editar, Eliminar, y Eliminación en Lote.
Keywords Backend Management Interface
Figura 10: Interfaz de Configuración de Palabras Clave
5.3. Gestión de Usuarios

El módulo de Gestión de Usuarios controla el acceso a la plataforma y los permisos.

User Management Interface
Figura 12: Interfaz de Gestión de Usuarios
5.2. Configuración de AI Prompt

Crea y gestiona AI Prompts personalizados para dictar cómo la AI procesa los registros de voz seleccionados.

  • Control: Define Nombre, Etiquetas, y Contenido del prompt. Solo un prompt Habilitado está activo para uso a la vez.
  • Gestión: Soporta Agregar, Editar, Eliminar, y Eliminación en Lote.
AI Prompt Editing Interface
Figura 11: Interfaz de Configuración de AI Prompt
Loading Comments...