Descubre cómo ejecutar modelos locales de LLM para mejorar la privacidad de datos y el control en tus proyectos de IA. Guía completa sobre inteligencia artificial.

La tecnología más potente es la que tú controlas, no la que te controla a ti. La IA local es la rebelión contra la idea de que la tecnología avanzada debe estar solo en manos de unos pocos gigantes.
Создано выпускниками Колумбийского университета в Сан-Франциско
"Instead of endless scrolling, I just hit play on BeFreed. It saves me so much time."
"I never knew where to start with nonfiction—BeFreed’s book lists turned into podcasts gave me a clear path."
"Perfect balance between learning and entertainment. Finished ‘Thinking, Fast and Slow’ on my commute this week."
"Crazy how much I learned while walking the dog. BeFreed = small habits → big gains."
"Reading used to feel like a chore. Now it’s just part of my lifestyle."
"Feels effortless compared to reading. I’ve finished 6 books this month already."
"BeFreed turned my guilty doomscrolling into something that feels productive and inspiring."
"BeFreed turned my commute into learning time. 20-min podcasts are perfect for finishing books I never had time for."
"BeFreed replaced my podcast queue. Imagine Spotify for books — that’s it. 🙌"
"It is great for me to learn something from the book without reading it."
"The themed book list podcasts help me connect ideas across authors—like a guided audio journey."
"Makes me feel smarter every time before going to work"
Создано выпускниками Колумбийского университета в Сан-Франциско

Lena: Oye, Miles, el otro día estaba hablando con un amigo que trabaja en una fintech y me decía que ya no mandan ni un solo contrato a la nube para que la IA los analice. Lo hacen todo en sus propias máquinas. Y yo me quedé pensando, ¿de verdad hoy en día cualquiera puede tener un modelo de lenguaje potente corriendo en su casa sin depender de internet ni de pagarle a nadie?
Miles: Pues fíjate que sí, y lo más loco es que ya no es cosa de científicos locos con granjas de servidores. Hoy, si tienes una computadora medianamente decente, en diez minutos puedes tener algo como Llama o Mistral funcionando. O sea, pasamos de necesitar una supercomputadora a que modelos como el nuevo Gemma 4, que salió hace apenas unos días, corran en un portátil con 8 o 16 gigas de RAM.
Lena: Pero a ver, Miles, que yo me entienda. Si lo corro en mi PC, ¿mis datos están seguros de verdad? Porque eso de la privacidad es lo que más me suena.
Miles: Tal cual, esa es la clave. Tus datos nunca salen de tu máquina. Y no solo eso, es que te ahorras una pasta en APIs. Mira, hay gente usando modelos como DeepSeek-Coder para revisar código o Qwen para chatear, y lo hacen todo offline. Pero claro, hay que saber elegir bien la herramienta, porque no es lo mismo usar Ollama, que es súper sencillo, que meterse en el lío de llama.cpp si buscas exprimir cada gota de tu GPU.
Lena: No me digas, o sea que depende mucho de los "hierros" que tengas en casa. Para entender bien por dónde empezar, hay que ver qué modelo le encaja a cada equipo.
Miles: Fíjate que eso que dices de los "hierros" es justo donde la mayoría de la gente se estrella al principio. Porque uno escucha que puede correr una IA en su casa y lo primero que hace es intentar bajarse el modelo más grande, el de 70 mil millones de parámetros, y claro, la computadora se queda ahí como diciendo "¿qué pretendes que haga con esto?".
Lena: Claro, es que uno quiere lo mejor, lo más potente. Pero, a ver, explícame esto bien, Miles, porque he leído que no todos los modelos caben en todas las máquinas. ¿Cuál es la regla de oro aquí?
Miles: Mira, hay un análisis muy bueno que dice que todo se resume en tres factores: la memoria que tengas, el procesador y qué motor de inferencia uses. Pero si queremos ser prácticos, la memoria es la reina. Si tienes entre 8 y 16 gigas de RAM, que es lo que tiene cualquier laptop de oficina hoy en día, estás limitada a los modelos pequeños, los que llaman de 7 mil millones de parámetros o 7B.
Lena: ¿Y esos modelos 7B sirven para algo o son de juguete?
Miles: ¡Qué va! Para nada son de juguete. O sea, lo que pasa es que estamos mal acostumbrados a la potencia bruta de la nube. Pero un modelo como Mistral 7B o el nuevo Llama 3.2 de 8B, si lo corres bien, te hace resúmenes, te clasifica correos y hasta te ayuda con código sencillo de maravilla. Lo que sí es que, si lo corres solo con el procesador, o sea con la CPU, va a ir lentito. Te genera a lo mejor dos o cinco palabras por segundo. Es como ver a alguien escribir a máquina pero con calma, ¿sabes?
Lena: Entiendo, como si estuviera pensando cada palabra. Pero si le metes una tarjeta gráfica, la cosa cambia, ¿no?
Miles: Totalmente. Una GPU de NVIDIA, por ejemplo, te puede acelerar la generación diez veces. Pasas de esa velocidad de tortuga a tener una conversación real, de 20 a 50 palabras por segundo. Es la diferencia entre decir "esto funciona si espero" y "esto es magia". He visto datos que dicen que una RTX 3060, que ya tiene unos años, te permite correr un Mistral 13B con una fluidez asombrosa. Pero claro, si ya te quieres ir a las ligas mayores, a esos modelos de 70B que mencionábamos, ahí ya necesitas 48 gigas de VRAM o más. Eso ya es territorio de gente que tiene dos tarjetas gráficas profesionales o una RTX 4090 muy potente.
Lena: O sea, que para el usuario común, el punto dulce está en esos modelos medianos de entre 7 y 14 mil millones de parámetros.
Miles: Exactamente. De hecho, hay una tabla de capacidades muy interesante que circula por ahí. Dice que si tienes una tarjeta de 8 gigas de VRAM, como una RTX 3070, puedes correr modelos de hasta 13B con una cuantización de 4 bits. Y ojo con esta palabra, "cuantización", porque es el truco del almendruco en todo esto.
Lena: Cuantización... suena a física cuántica, Miles. No me asustes.
Miles: No, no, para nada. Mira, es más simple de lo que parece. Imagínate que el modelo original es una foto en altísima resolución que pesa muchísimo. La cuantización es como pasar esa foto a un formato comprimido, como un JPEG. Pierdes un pelín de detalle, quizás un 5% de calidad en las respuestas, pero a cambio el modelo pesa la mitad y corre tres o cuatro veces más rápido. Es lo que permite que una IA que antes necesitaba un servidor ahora quepa en tu tarjeta gráfica de jugar a videojuegos.
Lena: Oye, pues tiene todo el sentido. O sea, que si no soy un purista de la precisión extrema, con la cuantización gano la posibilidad de usar modelos mucho mejores en mi equipo normal.
Miles: Tal cual. De hecho, en la práctica, casi nadie corre modelos en "precisión completa" en su casa. Sería un desperdicio de recursos. Casi todos usamos lo que llaman INT4 o Q4_K_M, que son formas de decir que el modelo está comprimido a 4 bits. Fijate que hay una consultora de código que lei por ahi que usa Llama 7B localmente para revisar código de sus programadores. Procesan cien peticiones al día con latencias de menos de cinco segundos. Y todo eso lo hacen sin gastar un céntimo en APIs y con la seguridad de que su código propietario no sale de su red.
Lena: Me encanta ese ejemplo porque baja el tema a la tierra. No es solo por "vicio" tecnológico, es que hay un beneficio real en velocidad y costes. Pero claro, para que esa consultora logre eso, habrán tenido que elegir bien la herramienta de software, ¿no? Porque he oído que hay varias.
Miles: Ahí es donde se pone buena la charla. Porque, a ver, si tú hoy quieres empezar, te vas a encontrar principalmente con dos nombres: Ollama y LM Studio. Y aunque los dos sirven para lo mismo, la experiencia es como comparar el día y la noche.
Lena: A ver, cuéntame. Yo soy más de interfaces bonitas, ya me conoces. Supongo que LM Studio me ganará por ahí.
Miles: Probablemente. Mira, LM Studio es como el "iPhone" de los modelos locales. Te lo descargas, tienes un buscador de modelos integrado que se conecta directamente a Hugging Face, que es como el GitHub de la IA, y con dos clics ya estás chateando. Te muestra en tiempo real cuánta memoria de tu tarjeta gráfica estás usando, te deja ajustar la temperatura de la respuesta con una barrita... O sea, la curva de aprendizaje es cero. Es ideal si lo que quieres es explorar, probar diez modelos distintos en una tarde y ver cuál te gusta más.
Lena: Me suena genial. ¿Y entonces por qué alguien usaría Ollama si parece más "árido"?
Miles: Porque Ollama es la potencia de la simplicidad técnica. Es una herramienta de línea de comandos, o sea, de escribir en la terminal. Pero lo que la hace increíble es que crea un servidor en tu máquina que es compatible con la API de OpenAI.
Lena: Espera, ¿eso qué significa en lenguaje humano?
Miles: Significa que si tú tienes una aplicación que ya usa ChatGPT, solo tienes que cambiar una línea de código para que apunte a tu propia computadora y ¡pum!, tu aplicación ya no necesita internet ni pagar tokens. Por eso a los desarrolladores les encanta. Es como tener un motor que puedes conectar a cualquier coche. Además, Ollama es súper ligero, se queda ahí en segundo plano y casi no consume nada hasta que le pides algo.
Lena: O sea, que si quiero "usar" la IA para chatear y probar, me voy a LM Studio. Pero si quiero "construir" algo o automatizar mi trabajo, Ollama es el camino.
Miles: Exacto. De hecho, hay una tercera vía para los más valientes, que es llama.cpp. Es la base sobre la que están construidos casi todos los demás. Es código puro en C++, súper optimizado. Si sabes usarlo, tienes el control total de cada bit. Pero claro, ahí ya no hay botoncitos ni interfaces bonitas; es para cuando buscas el rendimiento máximo absoluto en un servidor.
Lena: Oye, pero me dijiste antes algo de que Ollama corre en el puerto 11434... me suena a que eso permite conectar muchas cosas.
Miles: Sí, fijate que eso es lo que permite integraciones locas. Por ejemplo, hay una herramienta que se llama n8n, que sirve para automatizar flujos de trabajo. Tú puedes conectar n8n con Ollama y crear un bot que cada vez que te llegue un correo con una factura, la IA local la lea, extraiga los datos y los guarde en tu base de datos. Todo eso sin que la información salga de tu servidor. Es lo que están haciendo muchas fintech para cumplir con regulaciones estrictas de privacidad.
Lena: ¡Qué fuerte! O sea, que no es solo chatear, es crear empleados digitales privados. Y mencionaste que Ollama también funciona en Linux y macOS, ¿no?
Miles: Sí, y en Windows también. De hecho, en macOS con los chips de Apple, los M1, M2, M3... la cosa vuela. Porque esos procesadores tienen algo que llaman "memoria unificada". Básicamente, la tarjeta gráfica y el procesador comparten la misma memoria RAM. Así que si te compras un Mac con 64 gigas de RAM, puedes correr modelos enormes que en una PC normal necesitarían dos tarjetas gráficas carísimas. Es una ventaja competitiva brutal para los que usan Mac.
Lena: Nunca lo había pensado así, que la arquitectura del procesador fuera tan clave para la IA. Pero volviendo a la realidad de la mayoría, si yo tengo una PC con Windows y una tarjeta NVIDIA, ¿estoy bien encaminada?
Miles: Estás en la gloria. NVIDIA sigue siendo el estándar de oro gracias a algo llamado CUDA. Es como el lenguaje secreto que permite que la IA hable directamente con el hardware de la tarjeta. Aunque ojo, AMD está apretando fuerte con ROCm y el soporte en herramientas como Ollama ya es muy bueno. Incluso Intel, con sus tarjetas Arc, está empezando a aparecer en el mapa. La competencia es feroz y eso solo nos beneficia a nosotros, porque cada vez es más fácil y rápido.
Lena: Vale, ya tengo el software, ya entiendo mi hardware... ahora me meto en la tienda de modelos y me vuelvo loca. Hay miles. Llama, Mistral, Qwen, Gemma... ¿Cómo sé cuál me va a responder mejor si le pido, no sé, que me analice un contrato o que me escriba un cuento?
Miles: Esa es la pregunta del millón. Y la respuesta, como casi siempre en tecnología, es que depende de la tarea. Pero hay un mapa bastante claro hoy en día. Si buscas un todoterreno, algo que sepa un poco de todo y razone bien, Llama 3.2 de Meta es el baseline. Es como el estándar de la industria ahora mismo. Es muy equilibrado.
Lena: ¿Y si lo que más me importa es la velocidad? A veces solo quiero una respuesta rápida de una frase.
Miles: Entonces Mistral 7B es tu mejor amigo. Los franceses de Mistral AI hicieron un trabajo increíble con la eficiencia. Genera texto a una velocidad endiablada y para tareas sencillas como clasificar o resumir, es imbatible. De hecho, hay un modelo que se llama Mixtral, que usa una técnica llamada "Mixture of Experts".
Lena: ¿Mezcla de expertos? Suena a consejo de sabios.
Miles: Es exactamente eso. En lugar de ser un solo modelo gigante, son varios expertos pequeños trabajando juntos. Cuando le haces una pregunta, solo se activan los "expertos" que saben de ese tema. Así consigues la calidad de un modelo enorme pero con la velocidad de uno pequeño. Es una genialidad de la ingeniería que ahorra muchísima memoria.
Lena: Oye, ¿y qué hay de los modelos para programar? Porque mi amigo el de la fintech me decía que la IA les ayuda muchísimo con el código.
Miles: Ahí el rey ahora mismo es DeepSeek. Tienen modelos como el DeepSeek-Coder que están específicamente entrenados con miles de millones de líneas de código. Han salido benchmarks donde estos modelos le pisan los talones a GPT-4 en tareas de programación. Y lo mejor es que tienen versiones pequeñas que corren en cualquier lado. Si eres desarrollador y no estás usando un modelo local de DeepSeek para que te ayude a debuggear sin subir tu código a la nube, te estás perdiendo de mucho.
Lena: ¿Y los modelos de Google o Alibaba? Porque mencionaste a Gemma y Qwen.
Miles: Sí, fijate que Qwen, que es de Alibaba, es sorprendentemente bueno en razonamiento matemático y en temas multilingües. Si necesitas trabajar en varios idiomas o con lógica pura, Qwen 2.5 o el nuevo Qwen 3 son opciones muy sólidas. Y Gemma 2, de Google, es muy ligero y "limpio", por así decirlo. Google lo diseñó para que fuera fácil de integrar en dispositivos.
Lena: Me llama la atención que haya tanta variedad. Al final, parece que estamos viviendo una explosión de biodiversidad en la IA. Pero hay algo que me preocupa... si uso un modelo local, ¿no se quedará "tonto" rápido? O sea, ChatGPT se actualiza siempre, pero mi modelo local está ahí, congelado en el tiempo.
Miles: Es un punto muy válido. El conocimiento del modelo está limitado a su fecha de entrenamiento. No puede navegar por internet para decirte qué pasó esta mañana en las noticias. Pero, y aquí viene el gran "pero", para la mayoría de las tareas de trabajo —resumir un PDF que tú le das, analizar un balance contable, escribir un correo— no necesitas que sepa quién ganó el partido de ayer. Necesitas que sepa procesar lenguaje. Y para eso, un modelo de 2024 o 2025 sigue siendo increíblemente capaz hoy. Además, siempre puedes actualizarlo bajándote la versión más reciente en un comando de diez segundos.
Lena: Claro, no es que el modelo se degrade, es que simplemente no tiene acceso a datos frescos. Pero si yo le paso los datos, como en ese ejemplo del PDF, entonces ese problema desaparece.
Miles: Exactamente. Eso es lo que llaman RAG, Retrieval-Augmented Generation. Básicamente le das al modelo un libro abierto y le dices: "responde solo usando lo que dice aquí". Ahí el modelo no necesita saber nada del mundo exterior, solo tiene que ser bueno comprendiendo el texto que tiene delante. Y en eso, los modelos locales ya son tan buenos que la diferencia con los de pago es casi imperceptible para un humano.
Lena: Oye Miles, antes mencionaste la cuantización, pero me pregunto si hay más trucos bajo la manga. Porque si tengo una computadora que no es de la NASA, me gustaría saber cómo exprimirla al máximo para que la IA no se me quede colgada.
Miles: Uy, hay todo un mundo de optimizaciones "bajo el capó". Una de las más potentes ahora mismo es lo que llaman Flash Attention. Es una técnica matemática para que el modelo no tenga que releer todo el contexto cada vez que genera una palabra. Imagínate que estás leyendo un libro y, en lugar de volver a la página uno cada vez que pasas de hoja, tu cerebro guardara un resumen perfecto de lo anterior. Eso ahorra muchísima memoria de la tarjeta gráfica y acelera la generación un 20 o 30%.
Lena: ¿Y eso tengo que configurarlo yo o ya viene de serie?
Miles: En herramientas como Ollama ya viene activado casi siempre, pero en otras tienes que poner una variable de entorno. Por ejemplo, en Linux o Mac, pones `OLLAMA_FLASH_ATTENTION=1` y listo. Parece una tontería, pero en contextos largos, cuando le pasas un documento de 50 páginas, se nota muchísimo.
Lena: ¿Y qué pasa con la RAM del sistema? Si me quedo corta, ¿hay algún truco?
Miles: Hay algo que se llama mmap, o archivos mapeados en memoria. Básicamente, permite que el modelo se cargue de una forma más inteligente. En lugar de intentar meter todo el bloque de golpe en la RAM, va cargando lo que necesita. Esto ayuda mucho cuando tienes el modelo justo al límite de lo que aguanta tu memoria. Y otro truco genial es la cuantización del caché KV.
Lena: A ver, despacio... ¿caché de qué?
Miles: Caché KV. Imagínatelo como la "memoria a corto plazo" de la IA mientras está hablando contigo. Si la conversación es muy larga, esa memoria empieza a ocupar gigas y gigas de RAM. Pues ahora también podemos cuantizar esa memoria, pasarla de 16 bits a 8 o incluso 4 bits. Eso te permite tener conversaciones mucho más largas sin que la computadora explote. Ollama tiene una variable para esto también, `OLLAMA_KV_CACHE_TYPE=Q8_0`. Con eso, puedes triplicar el tamaño de la conversación que el modelo es capaz de recordar.
Lena: O sea, que al final es como tunear un coche. Tienes el motor base, que es el modelo, pero luego puedes ir tocando estas cositas para que rinda más.
Miles: Tal cual. Y fijate en un detalle que mucha gente olvida: la temperatura. No la de la habitación, sino el parámetro de "Temperature" del modelo. Si lo pones muy bajo, cerca de cero, el modelo es súper preciso y predecible. Ideal para código o análisis técnico. Si lo subes a 0.7 o 0.8, se vuelve más creativo y variado. A veces, si sientes que el modelo te responde siempre lo mismo o se pone repetitivo, jugar con la temperatura es la solución más simple antes de meterte en líos técnicos.
Lena: Qué curioso. O sea que incluso el comportamiento se puede optimizar según lo que necesites en ese momento. Me hace pensar en que, al final, correr esto en local nos da una libertad que las plataformas de pago nos quitan, porque ellas deciden esos parámetros por ti.
Miles: Exactamente. En ChatGPT no tienes ni idea de qué temperatura están usando o si están usando un modelo más pequeño para ahorrar costes. En local, tú eres el dueño de la infraestructura. Si quieres que el modelo use toda la potencia de tu GPU, se la das. Si quieres que sea súper creativo aunque tarde más, tú decides. Es esa soberanía tecnológica de la que hablábamos al principio.
Lena: Y hablando de soberanía, Miles... me pregunto cómo están usando esto las empresas aquí en Latinoamérica. Porque siempre hablamos de Silicon Valley, pero seguro que aquí también hay gente moviéndose.
Miles: Pues fíjate que hay ejemplos súper interesantes. Leí hace poco sobre una consultora de software que tenía un problema: sus clientes no querían que su código fuente saliera de sus servidores por temas de propiedad intelectual. Pero a la vez, los programadores querían usar IA para ser más rápidos.
Lena: El eterno dilema entre seguridad y productividad. ¿Cómo lo resolvieron?
Miles: Montaron un servidor local con Ollama y el modelo CodeLlama. Pusieron una tarjeta gráfica potente en la oficina y todos los programadores se conectaban a esa IP local. Resultado: revisión de código automática, sugerencias de funciones y todo con latencia de menos de cinco segundos. Y lo más importante: el cliente estaba tranquilo porque ni una línea de código viajó por internet.
Lena: Me imagino que el ahorro en facturas de OpenAI también debió ser importante.
Miles: ¡Brutal! Imagínate cientos de programadores haciendo miles de consultas al día. Al precio por token de los modelos potentes, eso son miles de dólares al mes. Con el modelo local, el coste es cero, más allá de la electricidad y la inversión inicial en la tarjeta gráfica. Pero hay más casos. Hay una fintech que procesa miles de contratos legales. Usan modelos locales para extraer datos específicos: fechas de vencimiento, nombres de las partes, cláusulas de rescisión...
Lena: ¿Y no se equivocan? Porque los contratos legales tienen su miga.
Miles: Ahí está el truco: usan modelos específicos para eso y una temperatura muy baja para que no se inventen nada. Lograron que el tiempo de procesamiento por contrato bajara de minutos a segundos. Y como trabajan con datos financieros súper sensibles, la privacidad no era opcional, era un requisito legal.
Lena: Oye, ¿y en el e-commerce? Porque ahí se genera muchísimo contenido.
Miles: Tal cual. Hay una tienda online que usa Mistral 7B para generar descripciones de productos. Tenían miles de productos sin descripción y hacerlo a mano era imposible. Configuraron el modelo en local, le pasaban las características técnicas y la IA generaba un texto amigable en tres segundos. Tuvieron que usar la cuantización INT4 para que el proceso fuera lo suficientemente rápido para su servidor, pero lo lograron.
Lena: Es increíble cómo una tecnología que parece tan compleja se traduce en ahorrar tiempo en tareas que son, seamos sinceros, bastante aburridas para un humano.
Miles: Exacto. Y fíjate que no todo es para grandes empresas. Conozco a un escritor que usa Llama 3 localmente para que le ayude a estructurar sus novelas. Dice que le gusta porque puede tener sesiones de "brainstorming" de horas sin preocuparse de si está gastando dinero o si alguien en una oficina de California está leyendo sus ideas antes de que se publiquen. Para él, la IA local es como un cuaderno de notas inteligente y privado.
Lena: Me encanta esa visión del "cuaderno inteligente". Al final, se trata de democratizar la herramienta. Pero Miles, no todo puede ser perfecto. Tiene que haber riesgos o errores típicos en los que caemos todos al empezar, ¿no?
Miles: ¡Buf! Errores hay para dar y regalar. El primero y más común es pensar que "más grande es siempre mejor". La gente se obsesiona con bajarse el modelo de 70B parámetros pensando que va a ser súper inteligente, pero luego resulta que en su computadora va a dos palabras por minuto.
Lena: O sea, que es mejor un modelo pequeño y rápido que uno grande que te hace perder la paciencia.
Miles: Totalmente. De hecho, un modelo de 7B bien configurado, con un buen "System Prompt" que le diga exactamente cómo actuar, a menudo da mejores resultados que uno de 70B que está mal guiado. Es como tener un Ferrari pero no saber meter las marchas. Otro error clásico es no vigilar la VRAM, la memoria de la tarjeta gráfica.
Lena: ¿Qué pasa si te pasas de memoria? ¿Se quema la tarjeta?
Miles: No, no se quema, por suerte. Pero el sistema se vuelve inestable o, lo más común, el modelo "desborda" a la RAM normal del sistema y la velocidad cae en picado. Es lo que llaman "context swapping". De repente, la IA que iba volando empieza a tartamudear. Por eso es vital usar herramientas como LM Studio o el comando `ollama ps` para ver cuánto estamos ocupando realmente.
Lena: ¿Y qué hay de la seguridad? Porque dijimos que es privado, pero ¿es 100% seguro?
Miles: Esa es una distinción importante. El modelo es privado porque los datos no salen de tu red, pero si tu computadora está infectada o alguien entra en tu red local, podría ver tus conversaciones. Y hay otro tema: la inyección de prompts. Si expones tu modelo local a internet para que otros lo usen, alguien podría enviarle comandos maliciosos para intentar que el modelo revele información de sesiones anteriores. Los modelos tienen memoria del entrenamiento, y aunque es raro, a veces pueden "escupir" datos que no deberían si se les presiona mucho.
Lena: O sea, que "local" no significa "blindado". Hay que seguir teniendo las precauciones básicas de seguridad informática.
Miles: Exacto. Y un error que veo mucho en desarrolladores es intentar usar Ollama para producción masiva sin ninguna capa de protección. Ollama es genial, pero no es un servidor web blindado. Si vas a permitir que mucha gente lo use a la vez, necesitas ponerle delante algo como Nginx para controlar el tráfico, poner contraseñas y limitar cuántas preguntas puede hacer cada uno. Si no, un solo usuario pesado te puede dejar la GPU frita y bloquear a todos los demás.
Lena: Me suena a que hay que ser consciente de que estamos gestionando un recurso físico, no una nube infinita. Nuestra tarjeta gráfica tiene un límite y hay que respetarlo.
Miles: Tal cual. Es como tener tu propio generador eléctrico en casa. Tienes luz gratis, sí, pero si conectas cinco aires acondicionados a la vez, vas a saltar los plomos. Con la IA local es igual: gestiona tus recursos con cabeza y te dará un servicio increíble.
Lena: Vale Miles, me has convencido. Quiero llegar hoy a casa y poner esto a funcionar. ¿Cuál es el "check-list" para no perderme? Porque entre tantas opciones, necesito un mapa claro.
Miles: Venga, vamos a hacerlo súper accionable. Paso uno: comprueba tu hardware. Si tienes Windows, pulsa Control+Shift+Esc, vete a Rendimiento y mira si tienes una GPU NVIDIA o AMD y cuánta memoria dedicada tiene. Si tienes Mac, mira si es un chip M1, M2 o superior. Eso te dirá qué modelos puedes bajar.
Lena: Vale, ya sé qué tengo. Paso dos.
Miles: Paso dos: elige tu herramienta. Si no quieres complicaciones y quieres ver botoncitos, bájate LM Studio de su web. Si eres más de trastear o quieres integrar la IA en otras apps, bájate Ollama. La instalación en ambos es "siguiente, siguiente, terminar". No tiene pérdida.
Lena: Fácil. ¿Y luego qué modelo me bajo para empezar?
Miles: Para empezar sin sustos, bájate Llama 3.2 de 3B u 8B parámetros. Es el que menos recursos consume y el que mejor "se porta" con los principiantes. En Ollama solo tienes que escribir `ollama run llama3.2` en la terminal. Él solo lo descarga y te abre el chat. En LM Studio, búscalo en la lupa de arriba y elige uno que ponga "Q4_K_M", que es la cuantización equilibrada que decíamos.
Lena: ¿Y si quiero que la IA sea experta en algo específico?
Miles: Ahí entra el paso cuatro: personalizar con un "Modelfile". Si usas Ollama, puedes crear un archivo de texto donde le digas: "Eres un experto en leyes de México" o "Eres un programador senior de Python". Le das unas instrucciones base y luego creas tu modelo personalizado con un comando simple. Así no tienes que explicarle quién es cada vez que abres el chat.
Lena: Me encanta. Y el último paso, imagino que es empezar a jugar, ¿no?
Miles: Exacto. Prueba a pasarle un texto largo y pídele un resumen. O pídele que te ayude a redactar un correo difícil para tu jefe. Fíjate en la velocidad, en cómo usa la memoria. Si ves que va lento, prueba un modelo más pequeño. Si ves que se inventa cosas, baja la temperatura. Es un proceso de aprendizaje. Y ojo, un consejo de oro: mantén los modelos actualizados. La comunidad saca mejoras casi cada semana. Un simple `ollama pull` de vez en cuando te asegura que tienes la versión más pulida.
Lena: Oye, parece mucho más accesible de lo que imaginaba. Al final es cuestión de perderle el miedo a la terminal o a instalar algo que no sea de una gran marca.
Miles: Totalmente. Y lo mejor es la sensación de cuando apagas el Wi-Fi de tu casa y ves que la IA sigue respondiéndote igual de bien. Ahí es cuando realmente entiendes lo que significa tener el poder del procesamiento de lenguaje en tu propia mano. No dependes de nadie, no le debes nada a nadie. Eres tú y tu máquina.
Lena: Miles, antes de terminar, hay algunas dudas que me rondan la cabeza y seguro que a los que nos escuchan también. Por ejemplo... ¿cuál es la diferencia real de calidad entre, no sé, Claude de Anthropic o el GPT-4 de pago y uno de estos modelos locales? ¿De verdad están tan cerca?
Miles: Es una pregunta muy honesta. A ver, siendo sinceros, si le pides a un modelo local de 8B que te resuelva un problema de lógica matemática súper complejo que requiere veinte pasos, probablemente se pierda o alucine más que Claude o GPT-4. Los modelos grandes de la nube siguen teniendo una "enciclopedia" interna más vasta y un razonamiento más sólido para cosas muy, muy difíciles.
Lena: Entonces, ¿para qué usar el local si el otro es "más listo"?
Miles: Porque para el 90% de las tareas diarias —resumir, redactar, clasificar, explicar conceptos—, la diferencia es inapreciable. Es como usar un tráiler para ir a comprar el pan. Sí, el tráiler tiene más potencia, pero con un coche normal vas sobrado y aparcas mejor. Además, los modelos locales son mucho mejores siguiendo formatos específicos. Si le dices a un Llama 3 local "respóndeme estrictamente en formato JSON", lo hace de maravilla porque está optimizado para eso.
Lena: Entiendo. ¿Y qué hay de la legalidad? Si uso Mistral o Llama para mi negocio, ¿no me va a venir una demanda de Meta o de los franceses?
Miles: Esa es la buena noticia. Casi todos estos modelos tienen licencias muy abiertas. Llama tiene su propia licencia que permite uso comercial gratuito hasta que tengas 700 millones de usuarios activos al mes. O sea, a menos que seas el próximo Facebook, estás cubierto. Mistral, Qwen y Gemma usan licencias como Apache 2.0, que básicamente te dan permiso para hacer lo que quieras, incluso vender productos basados en ellos. Pero bueno, como siempre decimos, si tu negocio va a depender de esto, una consulta rápida con un abogado nunca está de más, aunque en el 99% de los casos no hay problema.
Lena: Oye, ¿y se puede usar Ollama en un servidor de verdad? Me refiero a algo que no sea mi laptop, algo para que toda mi oficina lo use.
Miles: Sí, pero con cuidado. Ollama es genial para desarrollo, pero como te decía antes, no es un servidor "de producción" blindado. Si vas a montar algo serio, yo miraría vLLM o LocalAI. Son herramientas un poco más técnicas pero están diseñadas para manejar cientos de usuarios a la vez, gestionar mejor las colas de peticiones y aprovechar varias tarjetas gráficas al mismo tiempo. Es el siguiente paso lógico cuando pasas del experimento personal a la herramienta corporativa.
Lena: Me queda súper claro. Al final, es un camino que empieza por la curiosidad en tu propia casa y puede terminar transformando cómo trabaja toda una empresa.
Miles: Tal cual. Es recuperar el control. Durante años hemos aceptado que la tecnología más avanzada tiene que estar en manos de tres o cuatro gigantes. La IA local es la rebelión contra esa idea. Es decir: "esta capacidad es mía, corre en mi hardware y yo decido cómo se usa". Y eso, al final del día, es lo que hace que todo esto sea tan emocionante.
Lena: Bueno Miles, creo que ya podemos ir cerrando por hoy. Me voy con la cabeza llena de ideas y, sobre todo, con ganas de ver qué puede hacer mi vieja tarjeta gráfica con un modelo de estos.
Miles: Fíjate que al final, lo más importante no es cuántos teraflops tiene tu GPU o si el modelo tiene 8 o 70 mil millones de parámetros. Lo que realmente cambia las cosas es la posibilidad de experimentar sin miedo. Sin miedo a la factura, sin miedo a que tus datos se filtren y sin miedo a que la herramienta desaparezca o cambie de precio mañana.
Lena: Tienes razón. Es esa sensación de libertad. Y me hace pensar... si hoy ya podemos hacer todo esto en un portátil normal, ¿dónde estaremos en un par de años? Quizás la IA deje de ser ese ente lejano en la nube y pase a ser algo tan cotidiano y local como el corrector ortográfico o la calculadora.
Miles: Seguro que sí. De hecho, ya estamos viendo cómo los fabricantes de chips están metiendo "NPUs", unidades de procesamiento neuronal, directamente en los procesadores de los teléfonos y las laptops. La tendencia es clara: la IA se está mudando a vivir con nosotros. Y saber cómo manejarla, cómo elegir el modelo adecuado y cómo optimizarlo, va a ser una de las habilidades más valiosas de esta década.
Lena: Pues oye, muchísimas gracias por este rato, Miles. Ha sido un placer desmitificar todo esto contigo. Y a los que nos están escuchando, de verdad, anímense a probarlo. Bajen Ollama o LM Studio, descarguen un modelo pequeño y simplemente empiecen a preguntar. Es una puerta que, una vez que la abres, te cambia por completo la perspectiva de lo que es posible hacer con la tecnología que ya tienes en casa.
Miles: Eso es. No hace falta ser un experto, solo tener un poco de curiosidad. Al final del día, la tecnología más potente es la que tú controlas, no la que te controla a ti. La soberanía de tus datos y de tu creatividad empieza justo ahí, en ese pequeño servidor que corre en tu propia máquina. Merece la pena el esfuerzo de aprender a dominarlo.