IA de Voz para Retail Inteligente
Aprovecha la solución de IA de Voz para Retail Inteligente de Seeed para capturar y analizar conversaciones de clientes en la tienda. Nuestra tecnología de IA de borde permite el procesamiento de voz a texto en el dispositivo, transformando datos de voz en insights accionables sin depender de servicios en la nube. Mejora la experiencia del cliente, optimiza las operaciones de la tienda y obtén retroalimentación valiosa con nuestro análisis de voz impulsado por IA offline diseñado para entornos de retail.
| IA de Voz para Retail Inteligente |
|---|
![]() |
IA de Voz para Retail Inteligente
Construye un pipeline de análisis de voz en tienda usando dispositivos de borde y SenseCraft Voice para capturar conversaciones en el sitio, ejecutar conversión de voz a texto en el dispositivo y convertir la voz del cliente en datos estructurados.
Conversión de Voz a Texto en el Dispositivo en el Borde
SenseCraft Voice se ejecuta directamente en dispositivos de borde en la tienda para manejar la detección de actividad de voz y el reconocimiento de voz localmente. Todo el habla se procesa en el borde, reduciendo dramáticamente la dependencia de la conectividad en la nube para la generación de transcripciones en tiempo real.
Captura de Audio de Campo Lejano, Lista para Retail
La solución está diseñada para la captura de audio de campo lejano en entornos de retail ruidosos. Con soporte para arreglos de micrófonos, formación de haces y supresión de ruido, se enfoca en conversaciones reales entre clientes y personal incluso con música de fondo y charla circundante.
Arquitectura de Borde con Privacidad Primero
Debido a que el audio se transcribe localmente en dispositivos de borde y solo se envían texto más metadatos hacia arriba, los retailers pueden controlar mejor los riesgos de privacidad y cumplimiento, mientras mantienen bajos los costos de la nube y los requisitos de red.
De Conversaciones a Decisiones Basadas en Datos
Las transcripciones generadas por SenseCraft Voice se convierten en datos estructurados y analizables. Los retailers pueden medir la calidad del servicio, identificar preguntas comunes y puntos de dolor, y mejorar continuamente guiones, políticas y la experiencia general de la tienda.
Introducción
En esta sección, te guiaremos a través de los pasos para configurar la solución de IA de Voz para Retail Inteligente usando el reRouter de Seeed y el arreglo de micrófonos reSpeaker XVF3800.
1. Requisitos de Hardware
Esta guía utiliza el reRouter de Seeed y el arreglo de micrófonos reSpeaker XVF3800 para demostrar cómo construir una solución de IA de Voz para Retail Inteligente.
| reRouter (Computación de Borde) | reSpeaker XVF3800 (Captura de Audio) |
|---|---|
![]() | ![]() |
Función: Unidad de Procesamiento
| Función: Captura de Voz
|
Configuración de Hardware

1.1 Obtener Firmware del reRouter
Hay dos versiones del firmware OpenWrt disponibles para reRouter:
una para usuarios globales, y otra optimizada para usuarios en China Continental.
El firmware actual está basado en OpenWrt 24.10.3 (Build r28872).
- Global
- China Continental
Por favor consulta la guía de flasheo del reRouter para instrucciones detalladas sobre el procedimiento de flasheo.
Ten en cuenta que: debes usar el firmware proporcionado arriba, no el de la página de la guía.
1.2. Conexión de Hardware
Por favor conecta el reRouter de la siguiente manera:
- Acceso a Internet: Conecta un cable Ethernet desde tu router/módem al puerto WAN.
- Conexión del Host: Conéctate de forma inalámbrica al hotspot Wi-Fi llamado
OpenWrt-XXXXo conecta tu computadora al puerto LAN vía Ethernet.

- Puerto WAN: Se conecta a internet.
- Puerto LAN: Se conecta a tu computadora host para configuración.
1.3. Configuración del reSpeaker XVF3800
Conecta el arreglo de micrófonos reSpeaker XVF3800 a tu dispositivo host vía USB para configurar.
- Linux/MacOS
- Windows
- Clona el repositorio y navega a la carpeta de control:
Dependiendo de tu dispositivo, reemplaza <YOUR_HOST_DIR> con la carpeta que coincida con tu sistema (ej., linux_x86_64, rpi_64bit, mac_arm64, o jetson).
git clone https://github.com/respeaker/reSpeaker_XVF3800_USB_4MIC_ARRAY.git
cd reSpeaker_XVF3800_USB_4MIC_ARRAY/host_control/<YOUR_HOST_DIR>
- Ejecutar la secuencia de configuración:
Otorga permisos de ejecución y ejecuta los siguientes tres comandos para inicializar el dispositivo (usa sudo si es necesario en Linux):
chmod +x ./xvf_host
# 1. Clear existing configuration
sudo ./xvf_host clear_configuration 1
# 2. Enable specific audio manager setting
sudo ./xvf_host audio_mgr_op_r 8 0
# 3. Save configuration
sudo ./xvf_host save_configuration 1
- Clonar el repositorio y navegar a la carpeta de control:
Abre el Símbolo del sistema (cmd) o PowerShell y ejecuta:
git clone https://github.com/respeaker/reSpeaker_XVF3800_USB_4MIC_ARRAY.git
cd reSpeaker_XVF3800_USB_4MIC_ARRAY\host_control\win32
- Ejecutar la secuencia de configuración:
Ejecuta los siguientes tres comandos para inicializar el dispositivo:
# 1. Clear existing configuration
.\xvf_host.exe clear_configuration 1
# 2. Enable specific audio manager setting
.\xvf_host.exe audio_mgr_op_r 8 0
# 3. Save configuration
.\xvf_host.exe save_configuration 1
2. Instalación de Software
2.1. Prerrequisitos
Antes de comenzar, asegúrate de que se cumplan las siguientes condiciones:
- Acceso: Acceso root a tu dispositivo OpenWrt vía SSH (ej.,
ssh [email protected]). - Red: El dispositivo OpenWrt tiene una conexión estable a internet.
- Audio: El reSpeaker XVF3800 está conectado al reRouter.
2.2 Accediendo al Dispositivo
Una vez que tu computadora esté conectada al reRouter (vía LAN o Wi-Fi), puedes acceder al sistema usando los siguientes valores predeterminados:
- Acceso SSH:
Por defecto, no se establece contraseña para el usuario root.
También puedes usar la interfaz web de OpenWrt para configurar los ajustes de red, incluyendo conectar el reRouter a tu red Wi-Fi o Ethernet para acceso a internet.
- Abre un navegador y visita: http://192.168.49.1
- Usuario: root
- Contraseña: (ninguna / vacía por defecto)
Si necesitas soporte para otros idiomas, como chino, puedes instalar el paquete luci-i18n-base-zh-cn a través de la interfaz web o SSH.
opkg update
opkg install luci-i18n-base-zh-cn
Antes de proceder con los pasos de instalación a continuación, por favor verifica que el reRouter pueda acceder a internet (por ejemplo, ejecuta ping google.com o ping openwrt.org en el terminal SSH).
2.3 Instalación Paso a Paso
Ejecuta los siguientes comandos secuencialmente después de establecer una conexión SSH a tu dispositivo OpenWrt.
Paso 1: Instalar Docker y Dependencias
Este paso instala el entorno de ejecución de contenedores y las herramientas necesarias, incluyendo la utilidad de suma de verificación SHA-256 para verificación de archivos.
- Global
- China Continental
# 1. Update the local package list
opkg update
# 2. Install Docker core components
# Note: On some systems, you might need to install these separately: dockerd, docker, containerd, runc
opkg install dockerd docker containerd runc
# 3. Install utility packages
opkg install wget-ssl unzip ca-certificates
# 4. Enable and start the Docker daemon service
/etc/init.d/dockerd enable
/etc/init.d/dockerd start
# Optional: verify downloaded files
# sha256sum <filename>
# For users in Mainland China, switch to Tsinghua University mirror for faster package downloads
sed -i 's_https\?://downloads.openwrt.org_https://mirrors.tuna.tsinghua.edu.cn/openwrt_' /etc/opkg/distfeeds.conf
# 1. Update the local package list
opkg update
# 2. Install Docker core components
# Note: On some systems, you might need to install these separately: dockerd, docker, containerd, runc
opkg install dockerd docker containerd runc
# 3. Install utility packages
opkg install wget-ssl unzip ca-certificates
# 4. Enable and start the Docker daemon service
/etc/init.d/dockerd enable
/etc/init.d/dockerd start
# Optional: verify downloaded files
# sha256sum <filename>
Paso 2.2: Preparar Directorios de Datos y Configuración
Crea los directorios de almacenamiento persistente requeridos por los contenedores SenseCraft y descarga el archivo de configuración predeterminado.
# 1. Create required application data directories
mkdir -p /data-iot/respeaker/recordings \
/data-iot/respeaker/models \
/data-iot/respeaker/voiceprints \
/data-iot/respeaker/logs
# 2. Navigate to the base directory
cd /data-iot/respeaker
# 3. Download the configuration file
wget -q -O config.yaml 'https://appstore.seeed-fleet.com/config.yaml'
Paso 2.3: Descargar y Extraer Modelos
Descargaremos el paquete de modelo ASR preentrenado directamente desde el servidor de Seeed Studio, verificaremos su integridad usando SHA-256, y lo extraeremos.
| Archivo | URL |
|---|---|
models.zip | https://files.seeedstudio.com/wiki/solution/ai-sound/reRouter-firmware-backup/models.zip |
| Hash SHA-256 Esperado | 7b9e7606a2ddcad56f3f72a77b16eb2c60437ae4bfc3f1423bd33db177385c9d |
Ejecuta los siguientes comandos en el host OpenWrt vía SSH:
# 1. Navigate to the base directory
cd /data-iot/respeaker
# 2. Define the Model URL
MODEL_URL="https://files.seeedstudio.com/wiki/solution/ai-sound/reRouter-firmware-backup/models.zip"
# 3. Download the large model package.
# -c allows the download to resume if interrupted.
wget -O models.zip -c "$MODEL_URL"
echo "Model package download completed. Check file size is approximately 500MB."
# 4. Verify the file integrity using SHA-256 Checksum
# The result MUST match the expected hash above.
sha256sum models.zip
# 5. Extract the model package into the 'models' directory
unzip -o models.zip
# 6. Clean up the temporary ZIP file
# rm -f models.zip
# 7. Verify the model files are present
ls -l /data-iot/respeaker/models/
Paso 2.4: Configurar Permisos del Dispositivo de Audio
El contenedor Voice Client requiere acceso privilegiado a los dispositivos de audio. Asegúrate de que los archivos del dispositivo tengan los permisos apropiados.
# 1. Check for audio devices
ls -l /dev/snd/
# 2. Set read/write permissions for all users on audio device nodes
chmod -R 666 /dev/snd/*
Paso 2.5: Desplegar Contenedores Docker
Define las variables de imagen y lanza los tres servicios requeridos: sensecraft-voice-client, sensecraft-asr-server, y watchtower.
# Define Image Variables
VOICE_CLIENT_IMAGE="sensecraft-missionpack.seeed.cn/respeaker/sensecraft-voice-client:v0.0.2"
ASR_SERVER_IMAGE="sensecraft-missionpack.seeed.cn/respeaker/sensecraft-asr-server:latest"
WATCHTOWER_IMAGE="sensecraft-missionpack.seeed.cn/respeaker/containrrr/watchtower:latest"
# 1. Pull Images
docker pull $VOICE_CLIENT_IMAGE
docker pull $ASR_SERVER_IMAGE
docker pull $WATCHTOWER_IMAGE
# 2. Stop and remove any containers with the same names
docker rm -f sensecraft-voice-client sensecraft-asr-server watchtower
# 3. Launch sensecraft-voice-client
docker run -d --name sensecraft-voice-client \
--restart=unless-stopped \
--privileged \
--device /dev/snd \
--network host \
--group-add audio \
--group-add video \
--cap-add SYS_ADMIN \
--cap-add SYS_RAWIO \
-e TZ=Asia/Shanghai \
-e AUDIO_CARD_ID=1 \
-e AUDIO_DEVICE_ID=0 \
-v /etc/wpa_supplicant:/etc/wpa_supplicant \
-v /etc/network:/etc/network \
-v /var/run/dbus:/var/run/dbus \
-v /dev:/dev \
-v /run/udev:/run/udev:ro \
-v /proc:/proc:ro \
-v /sys:/sys:ro \
-v /data-iot/respeaker/recordings:/app/recordings \
-v /data-iot/respeaker/voiceprints:/app/voiceprints \
-v /data-iot/respeaker/logs:/app/logs \
-e WIFI_INTERFACE=wlan0 \
-e WIFI_CONFIG_PATH=/etc/wpa_supplicant \
$VOICE_CLIENT_IMAGE
# 4. Launch sensecraft-asr-server (model server)
docker run -d --network host \
-v /data-iot/respeaker/models:/app/models \
-v /data-iot/respeaker/voiceprints:/app/data \
--restart=always \
--name=sensecraft-asr-server \
$ASR_SERVER_IMAGE
# 5. Launch watchtower (for continuous container monitoring and update)
docker run -d --name watchtower \
--restart always \
-v /var/run/docker.sock:/var/run/docker.sock \
$WATCHTOWER_IMAGE \
--cleanup -i 60 sensecraft-asr-server sensecraft-voice-client
3. Verificación
Verifica el estado final del despliegue.
# Check container status (All three should show Status: Up)
docker ps
# Check the voice client logs for successful initialization and audio device detection
docker logs sensecraft-voice-client
Si los registros indican un inicio exitoso sin errores críticos, los servicios SenseCraft se han desplegado exitosamente.
Se recomienda encarecidamente reiniciar el dispositivo para asegurar que todas las configuraciones, permisos y configuraciones de red estén completamente cargadas y reconocidas por el sistema.
reboot
Después del reinicio, puedes navegar a http://192.168.49.1:8090 para acceder a la interfaz Edge Client para transcripción ASR en tiempo real y configuración del dispositivo. Para uso detallado de la plataforma SenseCraft Voice, por favor consulta la sección Guía del Usuario a continuación.
SenseCraft Voice: Descripción General de la Plataforma Edge-to-Cloud
SenseCraft Voice es una plataforma de vanguardia diseñada para transformar datos de audio en bruto capturados en el borde (reRouter) en inteligencia empresarial accionable a través de análisis de IA potente y gestión centralizada.
La arquitectura única edge-cloud de la plataforma proporciona confiabilidad, velocidad y profundidad analítica sin precedentes para soluciones de monitoreo de audio de nivel empresarial.
| Característica | Propuesta de Valor | Ventajas Clave |
|---|---|---|
| Procesamiento Edge Resiliente | Garantiza operación continua y baja latencia. | El ASR de voz y reconocimiento se ejecutan localmente en el reRouter, asegurando respuesta en tiempo real y recolección de datos incluso durante interrupciones de red. |
| Personalización Profunda de IA | Adapta la plataforma a necesidades empresariales específicas y terminología. | Los administradores pueden definir Palabras Clave, Sinónimos y Prompts de IA personalizados para dirigir el análisis de IA y asegurar detección precisa de eventos específicos a su lenguaje empresarial. |
| Mapeo Granular de Ubicación | Simplifica la gestión de despliegue a gran escala. | Soporta organización jerárquica de miles de dispositivos edge por Tienda, Ubicación y Nombre del Dispositivo, superando las confusas direcciones MAC para filtrado y reportes fáciles. |
| Paneles Accionables | Proporciona información empresarial inmediata y seguimiento de rendimiento. | El Panel Centralizado incluye Filtrado Multi-Tienda, Tasa de Dispositivos En Línea en tiempo real, y Análisis de Puntos Calientes de Palabras Clave para monitorear el estado operacional y eventos empresariales instantáneamente. |
La solución SenseCraft Voice está construida sobre una arquitectura edge-cloud robusta, asegurando tanto el procesamiento local en tiempo real como la gestión centralizada. El servicio consta de dos componentes principales: el Cliente Edge que se ejecuta en el reRouter, y la Plataforma de Gestión Cloud/Servidor.
Guía del Usuario
Acceso al Cliente Edge (reRouter)
El Cliente Edge es esencial para la validación en tiempo real y la configuración local.
- Acceso: Abre tu navegador web y navega a la dirección IP del reRouter en el puerto 8090:
http://192.168.49.1:8090. - Función Principal: La interfaz proporciona transcripción ASR en tiempo real (para verificar la entrada de audio), controles para el Reconocimiento de Huella Vocal (identificación del hablante), y Configuración del Dispositivo (configuraciones de red, dirección del servidor upstream).
| Nombre del Módulo | Descripción | Captura de Pantalla de la Interfaz |
|---|---|---|
| ASR de Voz | Descripción: Muestra el estado operativo actual del servicio local de Reconocimiento Automático de Voz (ASR). Propósito: Proporciona transcripción en tiempo real del habla detectada, esencial para verificar la entrada de audio local y la precisión del reconocimiento. | Figura 1: Módulo ASR de Voz |
| Reconocimiento de Huella Vocal | Descripción: Gestiona y monitorea el sistema de Reconocimiento de Huella Vocal. Propósito: Genera automáticamente huellas vocales únicas a partir de grabaciones de audio para permitir la diferenciación e identificación de hablantes. | Figura 2: Módulo de Reconocimiento de Huella Vocal |
| Estado y Configuración del Dispositivo | Descripción: Proporciona información detallada sobre el estado operativo del reRouter y permite cambios en parámetros principales. Propósito: Permite actualizaciones de configuración como configuraciones de red (Wi-Fi) y cambiar la dirección del servidor upstream para comunicación en la nube. | Figura 3: Estado y Configuración del Dispositivo |
Plataforma de Gestión Cloud
La Plataforma Cloud está organizada en cinco áreas de navegación principales, ofreciendo potentes herramientas de análisis de datos y configuración del sistema.
1. Panel de Control: Información de un Vistazo
El Panel de Control es tu centro de comando operativo, proporcionando métricas agregadas y tendencias de rendimiento:
- Filtrado de Tiendas: Cambia fácilmente las vistas seleccionando una o más tiendas, con todos los gráficos actualizándose instantáneamente.
- Análisis: Monitorea Tendencias de Recolección Diaria (registros por hora) y Análisis de Puntos Calientes de Palabras Clave (mostrando qué palabras clave se activan frecuentemente y los Nombres de Dispositivos asociados).

2. Gestión de Registros: Auditoría y Exportación de Datos
Este módulo proporciona la vista definitiva de todos los registros de voz recopilados.
- Filtrado Avanzado: Usa Nombre del Dispositivo, Nombre de la Tienda, Nombre de la Ubicación, o Dirección MAC para recuperación precisa de datos. Las búsquedas se ejecutan solo después de hacer clic en el botón "Filter", dando a los usuarios control total.
- Capacidad de Exportación: Selecciona y exporta datos filtrados en tres formatos para uso externo (elige uno a la vez): Markdown, Texto Plano (.txt), o Archivo de Audio Original.
- Auditoría de Vista Dual: Cambia fácilmente entre Modo Conversación para revisar diálogos transcritos y Modo Línea de Tiempo para escuchar la reproducción de audio original. Este enfoque dual permite verificación rápida de la precisión de transcripción y una comprensión más profunda del contexto de la interacción.
- Claridad: Todas las vistas de registros priorizan el Nombre del Dispositivo fácilmente identificable sobre la dirección MAC.


3. Análisis AI: Procesamiento Histórico y Personalizado
Esta área maneja el envío de registros de voz para procesamiento avanzado por el motor de AI.
- Sesiones Históricas: Revisa tus interacciones pasadas con el motor de análisis AI. La ventana de historial muestra conversaciones cronológicamente, y hacer clic en una sesión carga inmediatamente el hilo de conversación anterior para revisión.
- Procesamiento: Envía registros filtrados para procesamiento AI basado en el AI Prompt actualmente seleccionado.

4. Gestión de Tiendas: Jerarquía de Dispositivos y Ubicaciones
Esta área proporciona las herramientas necesarias para configurar y mantener la jerarquía organizacional de todos los dispositivos edge.
- Vista Jerárquica: Gestiona fácilmente tiendas, sus ubicaciones específicas dentro de la tienda, y los dispositivos reRouter asociados.
- Control Centralizado: Optimiza el despliegue y configuración de dispositivos agrupándolos lógicamente.



5. Configuración Backend: Control del Sistema y Personalización
Esta sección permite a los administradores definir parámetros de todo el sistema para procesamiento AI y activación de eventos.
5.1. Configuración de Palabras Clave
Define palabras clave personalizadas y sinónimos para identificar eventos comerciales específicos en las grabaciones.
- Personalización: Define Palabras Clave y sus Sinónimos para detección de eventos.
- Visualización: Asigna un Color de Marcado para distinción visual en el Panel de Control.
- Gestión: Soporta Agregar, Editar, Eliminar, y Eliminación en Lote.

5.3. Gestión de Usuarios
El módulo de Gestión de Usuarios controla el acceso a la plataforma y los permisos.

5.2. Configuración de AI Prompt
Crea y gestiona AI Prompts personalizados para dictar cómo la AI procesa los registros de voz seleccionados.
- Control: Define Nombre, Etiquetas, y Contenido del prompt. Solo un prompt Habilitado está activo para uso a la vez.
- Gestión: Soporta Agregar, Editar, Eliminar, y Eliminación en Lote.



