Esta página fue traducida automáticamente. Si encuentra errores o tiene sugerencias, contáctenos.
Descripción general
El stream de video WebSocket del agente LAN incrusta los resultados de detección de IA directamente en el encabezado de encapsulación H.264. Cuando el pipeline de inferencia en la cámara produce una nueva detección, esta se inserta como un campo TLV en el siguiente frame de video saliente del mismo WebSocket — sin un canal de detección separado. Esta guía cubre:- El formato de encapsulación TLV y el esquema JSON dentro del campo
AI_DETECTIONS - La conexión al WebSocket H.264 por LAN en vivo y la lectura tanto de los frames binarios como del mensaje de texto de inicialización
- El dibujo de cuadros de detección sobre
RhombusRealtimePlayerusando un WebSocket paralelo solo de detección - Una referencia de parser desde cero para consumidores que no usan React
Si solo necesitas un reproductor, incrusta
RhombusRealtimePlayer — maneja la autenticación, la decodificación con WebCodecs y la negociación de resolución. Esta guía es para agregar una capa de superposición de detección encima, o para clientes que no usan el React SDK.Conexión al stream en tiempo real por LAN
Obtener la URL del WebSocket
Llama aPOST /api/camera/getMediaUris y lee:
lanLiveH264Uris(array de strings) — URLs de LAN, cuando el cliente y la cámara comparten una redwanLiveH264Uri(string) — URL de WAN, enrutada a través de Rhombus
/ws por /wsl en la ruta.
Autenticar
Ambos modos usan un token de sesión federada generado en tu backend mediantePOST /api/org/generateFederatedSessionToken. Nunca pongas tu API key en el código del navegador.
| Modo | Método de autenticación |
|---|---|
| WAN | Agrega ?x-auth-scheme=federated-token&x-auth-ft=<TOKEN> a la URL antes de abrir el WebSocket. |
| LAN | Establece una cookie RFT=<TOKEN> con alcance al dominio de la cámara antes de abrir el WebSocket. |
Qué envía el servidor
Inmediatamente después de la actualización del WebSocket y antes de cualquier frame binario, el servidor envía un único mensaje de texto que describe el stream:Encabezado de encapsulación (formato TLV)
Cada mensaje binario contiene una secuencia de TLVs. Cada TLV usa el mismo formato de cable:Tipos de TLV
| Type | Name | Value | Notas |
|---|---|---|---|
0x00 | SPS_PPS_IFRAME | H.264 NAL data | Keyframe (SPS/PPS/I-frame). Siempre es el último TLV del mensaje. |
0x01 | NON_IFRAME | H.264 NAL data | Frame delta (P/B). Siempre es el último TLV del mensaje. |
0x02 | TIMESTAMP | 8-byte uint64 BE | Hora del reloj de pared del servidor en milisegundos. |
0x03 | PTS_US | 8-byte uint64 BE | PTS de terceros en microsegundos. Opcional; se usa para el reordenamiento de B-frames. |
0x04 | AI_DETECTIONS | UTF-8 JSON string | Nuevas detecciones de IA. Presente solo cuando hay un nuevo resultado de inferencia disponible. No termina en null — usa el campo de longitud. |
Disposición de cable
0x00 o 0x01) es siempre la última entrada — el codificador del agente LAN inserta explícitamente los TLVs de metadatos antes de la entrada de frame. Un parser seguro deja de recorrer los TLVs en cuanto encuentra un tipo de datos de frame.
Análisis del encabezado de encapsulación
Recorre los campos TLV hasta que llegues al tipo0x00 o 0x01 (la entrada de datos de frame):
parseRhombusH264Binary.ts — la referencia canónica del lado del cliente.
Esquema JSON de detección
AI_DETECTIONS transporta un array JSON de objetos de detección. Todas las detecciones de una misma inferencia comparten el mismo ts.
Campos obligatorios
| Campo | Tipo | Unidades | Descripción |
|---|---|---|---|
t | int | enum | Tipo de detección. 0 Human, 1 Vehicle, 2 Face, 3 License Plate (LPR), 4 Pose, 5 CLIP Embedding |
c | int | permyriad (0–10000) | Confianza. Divide entre 100 para obtener el porcentaje. |
id | int | — | Id de objeto del rastreador. Estable entre frames para el mismo objeto rastreado. |
b | int[4] | permyriad | Cuadro delimitador [left, top, right, bottom] |
ts | int | ms epoch | Timestamp del frame que analizó el pipeline de IA. Úsalo para una alineación precisa por frame. |
uuid | string | RUUID | UUID del evento padre |
rs | float | segundos | Timestamp en segundos relativos dentro del evento |
Campos opcionales
| Campo | Tipo | Notas |
|---|---|---|
clr | object | Histograma de color. Las claves son nombres de color (p. ej. "red", "blue"); los valores son permyriad. |
tight_crop_xxyy | int[4] | Bbox ajustado dentro de la ventana de recorte de la detección: [x_min, x_max, y_min, y_max] (permyriad). Útil cuando el consumidor quiere un cuadro más ajustado que la ventana de detección con relleno. |
ec | int | Confianza del embedding (permyriad), presente cuando se calcula un embedding. |
et | string | Identificador del tipo de embedding. |
e | string | Vector de embedding (codificado como string; la longitud depende del tipo). |
il | string | Referencia de localizador de imagen para el recorte de la detección. |
Ejemplo
Análisis compatible hacia adelante. Las futuras versiones de firmware agregarán texto de LPR (
lp_chars, lp_confidence), esqueletos de pose (pose_permyriad_points — de 38 articulaciones, no el conjunto COCO de 17 articulaciones) y embeddings de reidentificación. Trata todos los campos no reconocidos como opcionales e ignora las claves desconocidas, para que tu cliente siga funcionando cuando esos campos lleguen.Dibujo de cuadros delimitadores en un canvas
Las coordenadas de los cuadros delimitadores son permyriad (0–10000) e independientes de la resolución. Conviértelas a píxeles usando las dimensiones del canvas:b: [1200, 3400, 4500, 8900], esto produce (x=153.6, y=244.8, w=422.4, h=396.0).
Comportamiento de temporización
- Las detecciones no están presentes en cada frame. El pipeline de IA analiza un subconjunto de frames (normalmente 2–10 fps). La mayoría de los frames no llevan un TLV
AI_DETECTIONS. det.tspuede preceder alTIMESTAMPdel frame portador hasta ~250 ms porque el pipeline de inferencia y el codificador se ejecutan de forma independiente — la nueva detección viaja en el frame que salga del codificador a continuación. Alinea las superposiciones segúndet.ts, no según elTIMESTAMPdel frame envolvente, especialmente para VOD o reproducción con búfer.- Persiste entre actualizaciones. Para mantener los cuadros visibles entre actualizaciones de detección, conserva el conjunto más reciente y sigue redibujándolo hasta que llegue un conjunto más nuevo o transcurra un TTL. Un TTL de 2 segundos es un valor predeterminado seguro.
Extender RhombusRealtimePlayer con renderizado de detecciones
El RhombusRealtimePlayer del React SDK no expone actualmente las detecciones de IA a la aplicación anfitriona. Hasta que lo haga, el patrón más sencillo es abrir un segundo WebSocket a la misma URL únicamente para leer AI_DETECTIONS, y dibujar el resultado en un <canvas> superpuesto sobre el reproductor.
detectionWsUrl en tu backend de la misma forma que lo hace el SDK: llama a getMediaUris, elige el wanLiveH264Uri o la entrada de LAN adecuada, luego agrega ?x-auth-scheme=federated-token&x-auth-ft=<TOKEN> (WAN) o establece la cookie RFT (LAN) antes de pasar la URL al navegador.
Referencia de parser desde cero
Para clientes que no usan React (una página web pura, Node, Electron), el mismo parser impulsa una superposición mínima. Decodificar el H.264 en sí requiere WebCodecs (navegador) o ffmpeg/libav (Node) y queda fuera del alcance, pero leer las detecciones del WebSocket solo necesita el parser anterior:Streams HTTP vs WebSocket
La variante de stream HTTPvideo/h264 elimina por completo el encabezado de encapsulación y entrega únicamente datos NAL H.264 sin procesar. Las detecciones viajan solo por el transporte WebSocket. Usa las URLs de WebSocket de getMediaUris (lanLiveH264Uris / wanLiveH264Uri) para cualquier flujo que necesite detecciones.
Solución de problemas
Los cuadros aparecen en la ubicación incorrecta Las coordenadas de bbox son permyriad (0–10000), no píxeles y no 0–1. Asegúrate de que el renderizador divida entre 10000 antes de multiplicar por las dimensiones del canvas. Los cuadros parecen retrasarse respecto al video Alinea segúndet.ts, no según el TIMESTAMP del frame portador. La detección viaja en el frame que salga del codificador a continuación, que puede ir hasta ~250 ms por detrás del frame analizado.
Los cuadros desaparecen durante unos cientos de milisegundos y luego reaparecen
El pipeline de IA produce resultados a 2–10 fps y las detecciones no viajan en cada frame de video. Conserva el conjunto de detección más reciente con un TTL (p. ej. 2 s) para que la superposición se mantenga estable entre actualizaciones.
El receptor solo recibe frames binarios; nunca ve el mensaje de inicialización
Confirma que tu manejador de WebSocket acepte frames de texto antes que los frames binarios. La inicialización es un único mensaje de texto que se envía una vez por conexión.
La autenticación por cookie en LAN falla localmente
La cookie RFT debe tener alcance al dominio de la cámara. Si tu app se sirve desde localhost y la cámara reside en un host de LAN diferente, el navegador no puede establecer la cookie — conéctate por WAN en su lugar, o usa un proxy a través de tu backend.
Próximos pasos
React SDK
Componentes
RhombusRealtimePlayer y RhombusBufferedPlayer listos para usar.Streaming de video
HLS, streams compartidos, miniaturas y captura de frames.