Síguenos en: Seguimos con los monográficos dedicados a la IA y en este caso hablamos sobre cómo utilizarla en local y con modelos open source. ¿Qué tal la semana? Semana Nahuai Follow-up del episodio de la semana pasada. Le pasé a Claude la transcripción y le pregunté si había dicho algún dato incorrecto y el único que me rebatió fue el escaneo y destrucción de libros por parte de Anthropic. Pero una simple búsqueda web arroja decenas de enlaces sobre el proyecto Panama. ¡Ojo! Lectura recomendada, parcialmente relacionada. Implementando una restricción a contenido pasado personalizado en Restrict Content Pro. Última Meetup de WP Terrassa. Campus Connect en Lleida con charlas de Nilo, Ana y Celi. Además de un concurso de webs de los estudiantes. Tema de la semana: ¿Por qué correr LLMs en local? Privacidad: tus datos no salen de tu máquina Sin costes por token: sin APIs de pago ni límites de uso Modo offline: funciona sin conexión a internet Control total: elige el modelo, la cuantización y el contexto Descentralizar la tecnología y no contribuir al oligopolio de las big tech Herramientas principales LM Studio: interfaz gráfica, ideal para empezar, tiene chat integrado y servidor local. Ollama: orientado a terminal y desarrolladores, muy fácil de integrar con otras apps. Factores clave a entender Tamaño del modelo (parámetros) El número de parámetros (1B, 7B, 13B…) indica la "capacidad" del modelo Más parámetros = más calidad, pero más recursos necesarios Un modelo pequeño bien cuantizado puede superar a uno grande mal cuantizado Cuantización Proceso de reducir la precisión de los pesos del modelo para que ocupe menos memoria Q2/Q3: muy comprimido, baja calidad, pero cabe en casi cualquier máquina Q4_K_M: buena calidad con tamaño razonable Q6/Q8: casi calidad completa F16/F32: precisión completa Tipo de modelo Modelo denso: todos los parámetros se activan en cada inferencia. Es más predecible y estable, pero más exigente en recursos por parámetro. Mezcla de Expertos (MoE): solo se activan una fracción de los parámetros por token. Mucho más eficiente en velocidad y memoria. Velocidad de inferencia (tokens/s) Cuántos tokens genera el modelo por segundo En CPU suele ser lento (3–10 tok/s); con GPU dedicada puede ser 10x más rápido La RAM unificada de Apple Silicon es especialmente eficiente para esto Formatos de modelo GGUF: el formato estándar para correr modelos en local con llama.cpp (lo usan LM Studio y Ollama) MLX: formato optimizado por Apple para correr modelos directamente sobre Silicon, mejor rendimiento que GGUF en Mac. Ventana de contexto Cuántos tokens puede "recordar" el modelo en una conversación Contextos largos (32k, 128k) consumen más RAM aunque el modelo sea pequeño Reducir el contexto es una palanca útil si te quedas sin memoria Requerimientos de hardware Memoria RAM 8 GB: modelos de hasta 7B en Q4 (justo), mejor quedarse en 3B–4B para fluidez 16 GB: cómodo con modelos de 7B–8B en Q4-Q6, o 13B en Q3/Q4 32 GB: modelos de 13B–30B con buena cuantización, o 70B en Q2/Q3 64 GB+: modelos de 70B en Q4+ con buena velocidad En Apple Silicon la RAM unificada actúa como VRAM, lo que lo hace muy eficiente para inferencia local Código abierto vs. pesos abiertos Código abierto: se publican los pesos del modelo, el código y datos de entrenamiento. Pesos abiertos: solo se publican los pesos, puedes usar y modificar el modelo, pero no sabes exactamente cómo fue entrenado ni con qué datos. La mayoría de modelos llamados open source en realidad son open weight: puedes correrlos y afinarlos libremente, pero el proceso de entrenamiento sigue siendo una caja negra. Modelos de pesos abiertos recomendados (para programar) Local Qwen3.6 (Alibaba): familia orientada a coding agéntico con dos modelos locales: 27B denso (~17 GB en Q4) y el 35B-A3B MoE (más versátil y ligero 16 GB de RAM) Qwen3-Coder (Alibaba): rama específica para programar. 30B-A3B para hardware de consumo y el Qwen3-Coder-Next (MoE con solo 3B activos) diseñado para agentes de código. Gemma 4 (Google): familia con cuatro tamaños y dos arquitecturas. 26B A4B es MoE, y el 31B es denso para máximo rendimiento en local. La nube Kimi K2.6 (Moonshot AI): arquitectura Agent Swarm con 1T parámetros (32B activos), ideal para tareas agénticas complejas MiniMax 2.6: fuerte en razonamiento y contextos largos, buena relación calidad/tamaño GLM-5.1 (Zhipu AI): MoE de 744B parámetros, destacado en multilingüe y coding DeepSeek V4 referencia en razonamiento. Mistral Medium 3.5: modelo denso de 128B que unifica chat, razonamiento y coding en uno solo, el más accesible de los grandes para correr en local Viejunos y/o discontinuados Llama 4 (Meta): Modelo de pesos abiertos bastante popular al inicio. GPT-OSS (OpenAI): primer lanzamiento de pesos abiertos de OpenAI disponible en dos tamaños (20B y 120B). Modelos disponibles en HuggingFace y las apps. Agentes de código Herramientas que actúan de forma autónoma sobre tu código usando un modelo como motor. Claude Code (Anthropic): agente de terminal oficial de Anthropic. OpenCode: agente open source (MIT) orientado a terminal. Pi: agente minimalista y extensible de terminal. Usa menos tokens. Los tres exponen una API compatible con OpenAI, por lo que pueden conectarse a cualquier modelo local servido desde Ollama o LM Studio. Casos de uso prácticos en local Agents y automatizaciones: con frameworks como n8n Chat privado: alternativa a ChatGPT sin enviar datos Resumen de documentos: PDFs, notas, reuniones Asistente de código: con modelos como Qwen-Coder, Kimi 2.6, MiniMax 2.6 Integración con apps propias: via API local (Ollama / LM Studio exponen endpoint OpenAI-compatible) Novedades Chrome instala un LLM de 4GB sin pedir permiso al usuario: https://www.thatprivacyguy.com/blog/chrome-silent-nano-install Además de la falta de consentimiento, el impacto sería el equivalente a generar 6.000-60.000 toneladas de CO2 (emisiones de unos 1.300-13.000 coches). Claude Desktop instala silenciosamente un puente de Native Messaging en hasta siete navegadores basados en Chromium, sin consentimiento: https://www.thatprivacyguy.com/blog/anthropic-spyware La extensión Claude in Chrome tiene una vulnerabilidad que permite a otras extensiones “hackearla”: https://layerxsecurity.com/blog/a-flaw-in-claudes-browser-extension-allows-any-extension-to-hijack-it/ La colaboración en tiempo real no llegará a WordPress 7.0 finalmente: https://make.wordpress.org/core/2026/05/08/rtc-removed-from-7-0/ Tip de la semana Chats que usan modelos de código abierto: Le Chat — Mistral (desactivar opción de que entrene a modelos, si quieres que sea más privado) HuggingChat — Hugging Face Lumo — Proton Menciones DaTO nos comenta en iVox: “Coincido en vuestro análisis del estado actual de las IAs, gracias x el programa”. Elías nos deja un comentario de que "usamos IA por encima de nuestras posibilidades" (por no hablar de las implicaciones de privacidad o medioambientales). Y el enlace a un vídeo que explica como funcionan los LLMs. Tanto Nora como Weiko también le dan feedback sobre el tema a Nahuai. Que no descarta hacer una mesa redonda en un futuro.