Asistente de voz local con Home Assistant: Adiós Alexa, hola privacidad

Home Assistant Voice Preview Edition - Asistente de voz local privado
Home Assistant Voice Preview Edition

¿Sabías que cada vez que dices “Alexa” o “OK Google” tu voz viaja a servidores en Estados Unidos para ser procesada? En 2026, con Home Assistant y un hardware de menos de 60€, puedes tener un asistente de voz 100% local que nunca envía tus conversaciones a la nube.

En esta guía te explico cómo montar tu propio asistente de voz privado usando Home Assistant Voice Preview Edition, el hardware oficial de Nabu Casa, o alternativas DIY por menos de la mitad de precio.

¿Por qué decir adiós a Alexa y Google Assistant?

Los asistentes de voz tradicionales como Alexa funcionan enviando tus comandos de voz a servidores remotos para procesarlos. Esto plantea varios problemas:

  • Privacidad: Tus conversaciones se almacenan en servidores de terceros, con historial accesible desde apps y APIs.
  • Dependencia de internet: Si la conexión falla, tu casa deja de “escuchar”.
  • Latencia: El procesamiento remoto introduce retrasos de 1-3 segundos.
  • Coste oculto: Pagas con tus datos personales para entrenar modelos de IA.

Home Assistant ofrece una alternativa radical para una casa inteligente sin depender de la nube: procesamiento 100% local usando Assist, su asistente de voz integrado. Todo ocurre dentro de tu red, sin enviar un solo byte fuera.

Cómo funciona un asistente de voz local

Un pipeline de voz local consta de tres componentes que trabajan juntos:

1. Speech-to-Text (STT): De voz a texto

Home Assistant ofrece dos opciones locales:

  • Speech-to-Phrase: Modelo cerrado optimizado para comandos de domótica. Transcripción en menos de 1 segundo incluso en Raspberry Pi 4. Solo entiende comandos predefinidos (luces, persianas, climatización), no conversaciones abiertas.
  • Whisper: Modelo abierto de OpenAI que transcribe cualquier cosa. Requiere más potencia: 8 segundos en Pi 4, menos de 1 segundo en Intel NUC o similar. Ideal si quieres integrar con LLMs para conversaciones naturales.

2. Conversation Agent: Entendiendo la intención

Home Assistant procesa el texto transcrito y lo convierte en acciones concretas. Soporta más idiomas que Alexa o Google, incluyendo español, catalán y gallego con cobertura total.

3. Text-to-Speech (TTS): La respuesta hablada

Piper es el motor TTS desarrollado por el equipo de Home Assistant. Es una red neuronal local que genera voz natural en múltiples idiomas. En una Raspberry Pi 4 genera 1.6 segundos de audio por segundo de procesamiento. La calidad es comparable a asistentes comerciales, pero sin depender de servicios externos.

Opciones de hardware: Del oficial al DIY

Opción 1: Home Assistant Voice Preview Edition — La experiencia completa

El Home Assistant Voice PE es el hardware oficial diseñado por Nabu Casa. Es un dispositivo compacto con todo lo necesario:

  • Micrófono circular con 12 LEDs de estado
  • Detección de wake word “OK Nabu” local (microWakeWord)
  • Altavoz integrado para respuestas
  • Conexión WiFi y puerto USB-C para alimentación
  • Conexión inalámbrica con Home Assistant via ESPHome

Ventaja clave: Configuración plug-and-play. Enchufas, abres Home Assistant, y en 30 segundos el asistente está funcionando sin tocar archivos de configuración. El dispositivo se integra automáticamente vía el protocolo Wyoming.

Precio orientativo: ~59€ directo de Nabu Casa. A veces disponible en Amazon con algo de sobreprecio.

Ver detalles oficiales de Home Assistant Voice PE | Buscar en Amazon

Opción 2: ESP32-S3-BOX-3 — La alternativa con pantalla

El ESP32-S3-BOX-3 de Espressif es una placa de desarrollo con pantalla táctil LCD de 2.4″, micrófono y altavoz integrados. Es más versátil que el Voice PE porque puedes mostrar información visual además de respuestas de voz.

  • Pantalla 320×240 para mostrar estado de dispositivos
  • Detección de wake word local con microWakeWord
  • Compatible con ESPHome y Home Assistant
  • Precio: ~35-45€

La configuración requiere flashear firmware ESPHome, pero existen tutoriales oficiales paso a paso.

Ver ESP32-S3-BOX-3 en Amazon | Buscar en AliExpress

Opción 3: Atom Echo M5 — El minimalista de 13€

Si buscas la opción más económica, el M5Stack Atom Echo es un dispositivo del tamaño de un cubo de Rubik con micrófono y altavoz. No tiene wake word local, así que necesitas pulsar un botón antes de hablar, pero es perfecto como control remoto de voz portátil.

  • Dimensiones: 24 x 24 x 17 mm
  • Micrófono MEMS integrado
  • Altavoz pequeño pero funcional
  • Precio: ~10-15€

Ver Atom Echo en Amazon | Buscar en AliExpress

Guía de instalación paso a paso

Vamos a configurar un asistente de voz local completo usando el Voice PE como ejemplo. El proceso es similar para otros dispositivos.

Paso 1: Instalar los add-ons de voz

En Home Assistant OS, ve a Ajustes → Complementos → Tienda de complementos e instala:

  1. Speech-to-Phrase (recomendado para domótica) o Whisper (si tienes hardware potente y quieres flexibilidad total)
  2. Piper para text-to-speech

Inicia ambos complementos.

Paso 2: Configurar el pipeline de voz

Ve a Ajustes → Asistentes de voz → Añadir asistente:

  • Nombre: “Asistente Local” (o el que prefieras)
  • Idioma: Español
  • Agente de conversación: Home Assistant
  • Speech-to-text: Speech-to-Phrase (o Whisper)
  • Text-to-speech: Piper (selecciona voz española, ej. “es_ES-carlfm-x_low”)

Paso 3: Conectar el Voice PE

Conecta el Voice PE a corriente. Abre la app Home Assistant Companion en tu móvil y ve a Ajustes → Dispositivos y servicios. El Voice PE debería aparecer como descubierto automáticamente vía ESPHome. Selecciónalo y sigue el asistente de configuración.

Paso 4: Exponer dispositivos al asistente

Para que el asistente pueda controlar tus dispositivos, debes exponerlos:

  1. Ve a Ajustes → Asistentes de voz → Exponer
  2. Selecciona qué entidades quieres controlar por voz (luces, persianas, climatización, etc.)
  3. Asigna alias a tus dispositivos para facilitar los comandos (ej. “luz salón” en lugar de “light.salon_main”)

Paso 5: Probar el asistente

Di “OK Nabu, enciende la luz del salón”. Si todo está configurado correctamente, el Voice PE responderá con la confirmación vía Piper.

Frases que funcionan sin configuración adicional

Home Assistant incluye cientos de sentencias integradas en español:

  • “OK Nabu, enciende/apaga la luz del [habitación]
  • “OK Nabu, sube/baja las persianas del [habitación]
  • “OK Nabu, pon la calefacción a 22 grados
  • “OK Nabu, ¿qué temperatura hace en [habitación]?
  • “OK Nabu, activa la escena [nombre]

Comparativa: Asistente local vs Alexa/Google

CaracterísticaHome Assistant LocalAlexa/Google
Privacidad✅ 100% local, nada en la nube❌ Todo procesado externamente
Funciona sin internet✅ Sí❌ No
Coste de hardware13-59€30-100€ (Echo/Nest)
Latencia0.5-1s (Speech-to-Phrase)1-3s
Integración dispositivos✅ Cualquier dispositivo compatible HA⚠️ Solo certificados Works With Alexa/Home
Respuestas conversacionales⚠️ Básicas (o con LLM local)✅ Avanzadas (IA generativa)
Música/Streaming⚠️ Limitado✅ Nativo Spotify, etc.

BONUS: Inteligencia conversacional 100% local con Ollama

El pipeline de voz local que hemos configurado usa el conversation agent nativo de Home Assistant, que es excelente para ejecutar comandos directos pero limitado para conversaciones naturales. Si quieres que tu asistente mantenga diálogos fluidos, responda preguntas complejas o tenga “personalidad”, necesitas integrar un LLM (Large Language Model) local.

Ollama es la solución más sencilla: permite ejecutar modelos de IA como Llama 3, Mistral o Qwen directamente en tu hardware, sin enviar nada a la nube.

¿Qué necesitas?

  • Hardware: Mínimo 8GB RAM. Recomendado: Intel N100/N200, mini PC con GPU integrada Intel Xe, o mejor. Una GPU dedicada acelera mucho la respuesta, pero no es obligatoria.
  • Almacenamiento: Cada modelo ocupa 2-8GB. Los modelos cuantizados (Q4, Q5) son más pequeños y rápidos con mínima pérdida de calidad.
  • Red: Ollama debe ser accesible desde Home Assistant (misma red local).

Paso 1: Instalar Ollama

La forma más sencilla es usar Docker:

docker run -d -v ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama

O instálalo directamente en el sistema desde ollama.com/download.

Paso 2: Descargar un modelo

Modelos recomendados para domótica en español:

  • llama3.1:latest — Buen balance calidad/velocidad. ~4GB.
  • mistral:latest — Rápido y eficiente. ~4GB.
  • qwen2.5:7b — Excelente para español. ~4GB.
  • llama3.2:3b — Para hardware limitado. ~2GB.

Para descargar:

docker exec -it ollama ollama pull llama3.1

Paso 3: Integrar con Home Assistant

Desde Home Assistant:

  1. Ve a Ajustes → Dispositivos y servicios → Añadir integración
  2. Busca Ollama e instálala
  3. Configura:
    • URL: http://IP_DE_TU_SERVIDOR:11434
    • Modelo: llama3.1 (o el que hayas descargado)
    • Controlar Home Assistant: Opcional, permite al LLM ejecutar acciones (experimental)

Paso 4: Usar Ollama en tu pipeline de voz

Ve a Ajustes → Asistentes de voz → [Tu asistente] y cambia:

  • Agente de conversación: Selecciona Ollama en lugar de “Home Assistant”

Ahora cuando hables con tu Voice PE, el flujo será:

  1. Voice PE escucha “OK Nabu”
  2. Speech-to-Phrase transcribe tu voz localmente
  3. El texto se envía a Ollama (LLM local) para generar respuesta
  4. Piper lee la respuesta en voz alta

Consideraciones importantes

  • Latencia: Un LLM local añade 1-3 segundos de retraso dependiendo del hardware. En un N100 con llama3.1 es aceptable para uso diario.
  • Control de dispositivos: La función “Controlar Home Assistant” es experimental. Los modelos pequeños (7B o menos) a veces confunden comandos. Para control fiable, usa el conversation agent nativo de Home Assistant.
  • Contexto: Configura un “Context window size” de 4K-8K tokens en la integración. Casas grandes con muchos dispositivos necesitan más contexto.

Alternativa: Dos pipelines separados

Una estrategia inteligente es configurar dos asistentes:

  • Asistente “Control”: Usa el conversation agent nativo de Home Assistant para encender luces, persianas, etc. — rápido y 100% fiable.
  • Asistente “Chat”: Usa Ollama para preguntas, conversaciones, recomendaciones — más lento pero natural.

Así tienes lo mejor de ambos mundos: control instantáneo de tu casa y un interlocutor inteligente para cuando quieres charlar.

Limitaciones que debes conocer

Un asistente local no es un reemplazo 1:1 de Alexa o Google. Estas son las limitaciones principales:

  • Sin streaming de música: No puedes pedir “pon música de Spotify”. Para eso necesitas integraciones como Music Assistant o usar altavoces Bluetooth externos.
  • Respuestas menos conversacionales: Con Speech-to-Phrase, el asistente ejecuta comandos pero no mantiene conversaciones. Con Whisper + LLM local puedes mejorar esto, pero requiere más hardware.
  • Configuración inicial: Requiere más trabajo que sacar un Echo de la caja. Aunque el Voice PE reduce esto al mínimo.

Mi recomendación

Si privacidad y control local son prioridad para ti, el Home Assistant Voice Preview Edition es la mejor opción en 2026. Por ~59€ tienes un dispositivo diseñado específicamente para funcionar con Home Assistant, con wake word local y configuración plug-and-play.

Si buscas economía, el Atom Echo M5 (~13€) te permite probar la experiencia de voz local sin compromiso. Si te convence, puedes escalar a más dispositivos.

Para quienes buscan versatilidad visual, el ESP32-S3-BOX-3 (~40€) añade pantalla para mostrar información de sensores, clima o estado de la casa mientras interactúas por voz.

El asistente de voz local ya no es un proyecto de makers: es una alternativa real, funcional y privada para controlar tu casa inteligente.

Precios actualizados a febrero 2026. Pueden variar según disponibilidad. Este artículo contiene enlaces de afiliado — si compras a través de ellos, nos ayudas a mantener el blog sin coste adicional para ti.