> ## Documentation Index > Fetch the complete documentation index at: https://api-docs.rhombus.community/llms.txt > Use this file to discover all available pages before exploring further. # Superposición de detección en tiempo real por LAN > Analiza los cuadros delimitadores de IA incrustados en el stream WebSocket H.264 por LAN y renderízalos sobre el video en vivo usando el React SDK de Rhombus o tu propio cliente. Esta página fue traducida automáticamente. Si encuentra errores o tiene sugerencias, [contáctenos](mailto:support@rhombus.com). ## Descripción general El stream de video WebSocket del agente LAN incrusta los resultados de detección de IA directamente en el encabezado de encapsulación H.264. Cuando el pipeline de inferencia en la cámara produce una nueva detección, esta se inserta como un campo TLV en el siguiente frame de video saliente del mismo WebSocket — sin un canal de detección separado. Esta guía cubre: * El formato de encapsulación TLV y el esquema JSON dentro del campo `AI_DETECTIONS` * La conexión al WebSocket H.264 por LAN en vivo y la lectura tanto de los frames binarios como del mensaje de texto de inicialización * El dibujo de cuadros de detección sobre [`RhombusRealtimePlayer`](/es/implementations/react-sdk) usando un WebSocket paralelo solo de detección * Una referencia de parser desde cero para consumidores que no usan React Si solo necesitas un reproductor, incrusta [`RhombusRealtimePlayer`](/es/implementations/react-sdk) — maneja la autenticación, la decodificación con WebCodecs y la negociación de resolución. Esta guía es para agregar una capa de superposición de detección encima, o para clientes que no usan el React SDK. ## Conexión al stream en tiempo real por LAN ### Obtener la URL del WebSocket Llama a `POST /api/camera/getMediaUris` y lee: * `lanLiveH264Uris` (array de strings) — URLs de LAN, cuando el cliente y la cámara comparten una red * `wanLiveH264Uri` (string) — URL de WAN, enrutada a través de Rhombus Para la variante de menor resolución, cambia `/ws` por `/wsl` en la ruta. ### Autenticar Ambos modos usan un token de sesión federada generado en tu backend mediante `POST /api/org/generateFederatedSessionToken`. Nunca pongas tu API key en el código del navegador. | Modo | Método de autenticación | | ---- | --------------------------------------------------------------------------------------------------- | | WAN | Agrega `?x-auth-scheme=federated-token&x-auth-ft=` a la URL antes de abrir el WebSocket. | | LAN | Establece una cookie `RFT=` con alcance al dominio de la cámara antes de abrir el WebSocket. | El ejemplo completo de backend para generar tokens (Express, FastAPI, Next.js) está en la [guía del React SDK](/es/implementations/react-sdk#configuración-del-backend) — reutilízalo. ## Qué envía el servidor Inmediatamente después de la actualización del WebSocket y antes de cualquier frame binario, el servidor envía un único mensaje de **texto** que describe el stream: ```json theme={null} {"action":"init","width":1920,"height":1080,"codec":"h264","framerate":15} ``` Lee las dimensiones si tu renderizador necesita la resolución de origen. Los cuadros delimitadores son independientes de la resolución (unidades permyriad), por lo que la mayoría de las superposiciones no lo necesitan. Después del mensaje de inicialización, cada mensaje posterior es un frame **binario** que contiene el encabezado de encapsulación codificado en TLV seguido de los datos NAL H.264 sin procesar. ## Encabezado de encapsulación (formato TLV) Cada mensaje binario contiene una secuencia de TLVs. Cada TLV usa el mismo formato de cable: ```text theme={null} [1 byte type] [3 bytes length, big-endian] [N bytes value] ``` ### Tipos de TLV | Type | Name | Value | Notas | | -----: | ---------------- | ----------------- | ---------------------------------------------------------------------------------------------------------------------------------------------- | | `0x00` | `SPS_PPS_IFRAME` | H.264 NAL data | Keyframe (SPS/PPS/I-frame). Siempre es el último TLV del mensaje. | | `0x01` | `NON_IFRAME` | H.264 NAL data | Frame delta (P/B). Siempre es el último TLV del mensaje. | | `0x02` | `TIMESTAMP` | 8-byte uint64 BE | Hora del reloj de pared del servidor en **milisegundos**. | | `0x03` | `PTS_US` | 8-byte uint64 BE | PTS de terceros en **microsegundos**. Opcional; se usa para el reordenamiento de B-frames. | | `0x04` | `AI_DETECTIONS` | UTF-8 JSON string | Nuevas detecciones de IA. Presente solo cuando hay un nuevo resultado de inferencia disponible. No termina en null — usa el campo de longitud. | ### Disposición de cable ```text theme={null} ┌──────────────────────────────────────────────────┐ │ TIMESTAMP (0x02): 4 + 8 = 12 bytes │ always present ├──────────────────────────────────────────────────┤ │ PTS_US (0x03): 4 + 8 = 12 bytes │ optional ├──────────────────────────────────────────────────┤ │ AI_DETECTIONS (0x04): 4 + N bytes │ only when a new │ │ detection is available ├──────────────────────────────────────────────────┤ │ frame-data (0x00 or 0x01): 4 + N bytes │ always last; │ │ value is raw H.264 └──────────────────────────────────────────────────┘ ``` El TLV de datos de frame (`0x00` o `0x01`) es **siempre la última entrada** — el codificador del agente LAN inserta explícitamente los TLVs de metadatos antes de la entrada de frame. Un parser seguro deja de recorrer los TLVs en cuanto encuentra un tipo de datos de frame. ## Análisis del encabezado de encapsulación Recorre los campos TLV hasta que llegues al tipo `0x00` o `0x01` (la entrada de datos de frame): ```typescript theme={null} type ParsedFrame = { timestampMs: number | null; ptsUs: number | null; detectionJson: string | null; isKeyframe: boolean; h264Data: Uint8Array; }; export function parseEncapHeader(buffer: ArrayBuffer): ParsedFrame { const view = new DataView(buffer); const bytes = new Uint8Array(buffer); let offset = 0; let timestampMs: number | null = null; let ptsUs: number | null = null; let detectionJson: string | null = null; while (offset + 4 <= buffer.byteLength) { const type = view.getUint8(offset); const len = (view.getUint8(offset + 1) << 16) | (view.getUint8(offset + 2) << 8) | view.getUint8(offset + 3); const valueStart = offset + 4; if (type === 0x00 || type === 0x01) { return { timestampMs, ptsUs, detectionJson, isKeyframe: type === 0x00, h264Data: bytes.subarray(valueStart, valueStart + len), }; } if (type === 0x02) { const hi = view.getUint32(valueStart); const lo = view.getUint32(valueStart + 4); timestampMs = hi * 0x100000000 + lo; } else if (type === 0x03) { const hi = view.getUint32(valueStart); const lo = view.getUint32(valueStart + 4); ptsUs = hi * 0x100000000 + lo; } else if (type === 0x04) { detectionJson = new TextDecoder().decode( bytes.subarray(valueStart, valueStart + len) ); } // Unknown types are skipped silently. offset = valueStart + len; } throw new Error("Encapsulation header missing frame-data TLV"); } ``` El React SDK de Rhombus usa un parser equivalente en [`parseRhombusH264Binary.ts`](https://github.com/RhombusSystems/rhombus-react-sdk/blob/main/src/stream/parseRhombusH264Binary.ts) — la referencia canónica del lado del cliente. ## Esquema JSON de detección `AI_DETECTIONS` transporta un array JSON de objetos de detección. Todas las detecciones de una misma inferencia comparten el mismo `ts`. ### Campos obligatorios | Campo | Tipo | Unidades | Descripción | | ------ | ------- | ------------------- | ---------------------------------------------------------------------------------------------------------- | | `t` | int | enum | Tipo de detección. `0` Human, `1` Vehicle, `2` Face, `3` License Plate (LPR), `4` Pose, `5` CLIP Embedding | | `c` | int | permyriad (0–10000) | Confianza. Divide entre 100 para obtener el porcentaje. | | `id` | int | — | Id de objeto del rastreador. Estable entre frames para el mismo objeto rastreado. | | `b` | int\[4] | permyriad | Cuadro delimitador `[left, top, right, bottom]` | | `ts` | int | ms epoch | Timestamp del frame que analizó el pipeline de IA. Úsalo para una alineación precisa por frame. | | `uuid` | string | RUUID | UUID del evento padre | | `rs` | float | segundos | Timestamp en segundos relativos dentro del evento | ### Campos opcionales | Campo | Tipo | Notas | | ----------------- | ------- | ----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- | | `clr` | object | Histograma de color. Las claves son nombres de color (p. ej. `"red"`, `"blue"`); los valores son permyriad. | | `tight_crop_xxyy` | int\[4] | Bbox ajustado dentro de la ventana de recorte de la detección: `[x_min, x_max, y_min, y_max]` (permyriad). Útil cuando el consumidor quiere un cuadro más ajustado que la ventana de detección con relleno. | | `ec` | int | Confianza del embedding (permyriad), presente cuando se calcula un embedding. | | `et` | string | Identificador del tipo de embedding. | | `e` | string | Vector de embedding (codificado como string; la longitud depende del tipo). | | `il` | string | Referencia de localizador de imagen para el recorte de la detección. | ### Ejemplo ```json theme={null} [ { "t": 0, "c": 8500, "id": 3, "b": [1200, 3400, 4500, 8900], "ts": 1715030400000, "uuid": "AAAAAAAAAAAAAAAAAAAAAA", "rs": 2.5, "clr": {"red": 4000, "blue": 6000}, "tight_crop_xxyy": [1500, 4200, 3700, 8500] } ] ``` **Análisis compatible hacia adelante.** Las futuras versiones de firmware agregarán texto de LPR (`lp_chars`, `lp_confidence`), esqueletos de pose (`pose_permyriad_points` — de 38 articulaciones, **no** el conjunto COCO de 17 articulaciones) y embeddings de reidentificación. Trata todos los campos no reconocidos como opcionales e ignora las claves desconocidas, para que tu cliente siga funcionando cuando esos campos lleguen. ## Dibujo de cuadros delimitadores en un canvas Las coordenadas de los cuadros delimitadores son permyriad (0–10000) e independientes de la resolución. Conviértelas a píxeles usando las dimensiones del canvas: ```javascript theme={null} const TYPE_COLORS = { 0: "#00ff00", // Human — green 1: "#0088ff", // Vehicle — blue 2: "#ff00ff", // Face — magenta 3: "#ffff00", // LPR — yellow 4: "#00ffff", // Pose — cyan 5: "#ff8800", // CLIP — orange }; const TYPE_LABELS = ["Human", "Vehicle", "Face", "LPR", "Pose", "CLIP"]; export function drawDetections(ctx, canvasWidth, canvasHeight, detections) { ctx.clearRect(0, 0, canvasWidth, canvasHeight); for (const det of detections) { const [left, top, right, bottom] = det.b; const x = (left / 10000) * canvasWidth; const y = (top / 10000) * canvasHeight; const w = ((right - left) / 10000) * canvasWidth; const h = ((bottom - top) / 10000) * canvasHeight; ctx.strokeStyle = TYPE_COLORS[det.t] ?? "#ffffff"; ctx.lineWidth = 2; ctx.strokeRect(x, y, w, h); const conf = Math.round(det.c / 100); const label = `${TYPE_LABELS[det.t] ?? "Unknown"} ${conf}% #${det.id}`; ctx.fillStyle = ctx.strokeStyle; ctx.font = "12px monospace"; ctx.fillText(label, x, Math.max(10, y - 4)); } } ``` Para un canvas de 1280×720 y `b: [1200, 3400, 4500, 8900]`, esto produce `(x=153.6, y=244.8, w=422.4, h=396.0)`. ## Comportamiento de temporización * **Las detecciones no están presentes en cada frame.** El pipeline de IA analiza un subconjunto de frames (normalmente 2–10 fps). La mayoría de los frames no llevan un TLV `AI_DETECTIONS`. * **`det.ts` puede preceder al `TIMESTAMP` del frame portador** hasta \~250 ms porque el pipeline de inferencia y el codificador se ejecutan de forma independiente — la nueva detección viaja en el frame que salga del codificador a continuación. **Alinea las superposiciones según `det.ts`, no según el `TIMESTAMP` del frame envolvente**, especialmente para VOD o reproducción con búfer. * **Persiste entre actualizaciones.** Para mantener los cuadros visibles entre actualizaciones de detección, conserva el conjunto más reciente y sigue redibujándolo hasta que llegue un conjunto más nuevo o transcurra un TTL. Un TTL de 2 segundos es un valor predeterminado seguro. ## Extender `RhombusRealtimePlayer` con renderizado de detecciones El `RhombusRealtimePlayer` del React SDK no expone actualmente las detecciones de IA a la aplicación anfitriona. Hasta que lo haga, el patrón más sencillo es abrir un **segundo WebSocket** a la misma URL únicamente para leer AI\_DETECTIONS, y dibujar el resultado en un `