BeFreed
    Categories>Technology>Modelos Locales de LLM: Guía y Ventajas de Ejecución Local

    Modelos Locales de LLM: Guía y Ventajas de Ejecución Local

    33 min
    |
    |
    8 avr. 2026
    TechnologyAIProductivity

    Descubre cómo ejecutar modelos locales de LLM para mejorar la privacidad de datos y el control en tus proyectos de IA. Guía completa sobre inteligencia artificial.

    Modelos Locales de LLM: Guía y Ventajas de Ejecución Local

    Meilleure citation de Modelos Locales de LLM: Guía y Ventajas de Ejecución Local

    “

    La tecnología más potente es la que tú controlas, no la que te controla a ti. La IA local es la rebelión contra la idea de que la tecnología avanzada debe estar solo en manos de unos pocos gigantes.

    ”

    Cette leçon audio a été créée par un membre de la communauté BeFreed

    Question posée

    Modelos locales de llm

    Voix des présentateurs
    Lenaplay
    Milesplay
    Style d'apprentissage
    Approfondi
    Sources de connaissances
    ChatGPT for Dummies
    What Is ChatGPT Doing ... and Why Does It Work?
    Artificial Intelligence and Generative AI for Beginners
    Artificial Intelligence and Machine Learning for Business
    Keras Reinforcement Learning Projects
    Python Cookbook

    Foire aux questions

    Découvrir plus

    LLM personalization and memory

    LLM personalization and memory

    PLAN D'APPRENTISSAGE

    LLM personalization and memory

    This learning plan is essential for AI engineers, ML practitioners, and developers who want to move beyond basic LLM usage to create truly intelligent, personalized applications. As businesses demand AI systems that understand context, remember user preferences, and adapt over time, the ability to implement memory systems and personalization techniques has become a critical competitive advantage in the AI space.

    2 h 37 m•4 Sections
    I want to learn the fundamentals of LLMs

    I want to learn the fundamentals of LLMs

    PLAN D'APPRENTISSAGE

    I want to learn the fundamentals of LLMs

    Large Language Models are revolutionizing how we interact with technology and information. This learning plan provides essential knowledge for developers, AI enthusiasts, and professionals who want to understand LLM capabilities, limitations, and future potential, enabling them to make informed decisions about implementing and working with this transformative technology.

    1 h 56 m•4 Sections
    Python programming for LLMs and evals

    Python programming for LLMs and evals

    PLAN D'APPRENTISSAGE

    Python programming for LLMs and evals

    As AI integration becomes standard, the ability to both build and critically evaluate models is a vital technical differentiator. This path is ideal for developers and data scientists looking to transition from general programming to specialized LLM engineering and rigorous model benchmarking.

    3 h 3 m•4 Sections
    LLM Cloud Deployment & Price Optimization

    LLM Cloud Deployment & Price Optimization

    PLAN D'APPRENTISSAGE

    LLM Cloud Deployment & Price Optimization

    As LLMs move from prototypes to production, managing infrastructure costs and scalability becomes a critical engineering challenge. This plan is essential for DevOps and ML engineers looking to master containerized deployments and cost-efficient system design.

    3 h 33 m•4 Sections
    Learn ML Basics 1767952269

    Learn ML Basics 1767952269

    PLAN D'APPRENTISSAGE

    Learn ML Basics 1767952269

    Machine learning is transforming every industry from healthcare to finance, making it one of the most valuable skills in today's tech landscape. This learning plan is ideal for aspiring data scientists, software engineers looking to transition into AI, and technical professionals who want to build intelligent systems that solve real-world problems.

    2 h•4 Sections
    Genio de la IA y empresario exitoso

    Genio de la IA y empresario exitoso

    PLAN D'APPRENTISSAGE

    Genio de la IA y empresario exitoso

    Este plan integra la maestría técnica en inteligencia artificial con la visión estratégica necesaria para fundar y escalar empresas. Es ideal para profesionales que buscan liderar la revolución tecnológica como CEOs y arquitectos de soluciones de IA.

    3 h 33 m•4 Sections
    Learn DL, ML, GenAI & FastAPI Backend

    Learn DL, ML, GenAI & FastAPI Backend

    PLAN D'APPRENTISSAGE

    Learn DL, ML, GenAI & FastAPI Backend

    As AI moves from research to production, the demand for engineers who can both build models and deploy them is skyrocketing. This plan is ideal for aspiring full-stack AI developers looking to bridge the gap between data science and scalable backend engineering.

    2 h 20 m•4 Sections
    Autoestima

    Autoestima

    PLAN D'APPRENTISSAGE

    Autoestima

    Este plan de aprendizaje es fundamental para quienes buscan superar la inseguridad y el autosabotaje. Es ideal para personas que desean mejorar su bienestar emocional y profesional mediante el desarrollo de una identidad sólida y límites interpersonales claros.

    4 h 4 m•5 Sections

    Cree par des anciens de Columbia University a San Francisco

    BeFreed rassemble une communauté mondiale de 1,000,000 esprits curieux
    Decouvrez comment BeFreed est discute sur le web

    "Instead of endless scrolling, I just hit play on BeFreed. It saves me so much time."

    @Moemenn
    platform
    star
    star
    star
    star
    star

    "I never knew where to start with nonfiction—BeFreed’s book lists turned into podcasts gave me a clear path."

    @Chloe, Solo founder, LA
    platform
    comments
    12
    likes
    117

    "Perfect balance between learning and entertainment. Finished ‘Thinking, Fast and Slow’ on my commute this week."

    @Raaaaaachelw
    platform
    star
    star
    star
    star
    star

    "Crazy how much I learned while walking the dog. BeFreed = small habits → big gains."

    @Matt, YC alum
    platform
    comments
    12
    likes
    108

    "Reading used to feel like a chore. Now it’s just part of my lifestyle."

    @Erin, Investment Banking Associate , NYC
    platform
    comments
    254
    likes
    17

    "Feels effortless compared to reading. I’ve finished 6 books this month already."

    @djmikemoore
    platform
    star
    star
    star
    star
    star

    "BeFreed turned my guilty doomscrolling into something that feels productive and inspiring."

    @Pitiful
    platform
    comments
    96
    likes
    4.5K

    "BeFreed turned my commute into learning time. 20-min podcasts are perfect for finishing books I never had time for."

    @SofiaP
    platform
    star
    star
    star
    star
    star

    "BeFreed replaced my podcast queue. Imagine Spotify for books — that’s it. 🙌"

    @Jaded_Falcon
    platform
    comments
    201
    thumbsUp
    16

    "It is great for me to learn something from the book without reading it."

    @OojasSalunke
    platform
    star
    star
    star
    star
    star

    "The themed book list podcasts help me connect ideas across authors—like a guided audio journey."

    @Leo, Law Student, UPenn
    platform
    comments
    37
    likes
    483

    "Makes me feel smarter every time before going to work"

    @Cashflowbubu
    platform
    star
    star
    star
    star
    star

    Cree par des anciens de Columbia University a San Francisco

    BeFreed rassemble une communauté mondiale de 1,000,000 esprits curieux
    Decouvrez comment BeFreed est discute sur le web

    "Instead of endless scrolling, I just hit play on BeFreed. It saves me so much time."

    @Moemenn
    platform
    star
    star
    star
    star
    star

    "I never knew where to start with nonfiction—BeFreed’s book lists turned into podcasts gave me a clear path."

    @Chloe, Solo founder, LA
    platform
    comments
    12
    likes
    117

    "Perfect balance between learning and entertainment. Finished ‘Thinking, Fast and Slow’ on my commute this week."

    @Raaaaaachelw
    platform
    star
    star
    star
    star
    star

    "Crazy how much I learned while walking the dog. BeFreed = small habits → big gains."

    @Matt, YC alum
    platform
    comments
    12
    likes
    108

    "Reading used to feel like a chore. Now it’s just part of my lifestyle."

    @Erin, Investment Banking Associate , NYC
    platform
    comments
    254
    likes
    17

    "Feels effortless compared to reading. I’ve finished 6 books this month already."

    @djmikemoore
    platform
    star
    star
    star
    star
    star

    "BeFreed turned my guilty doomscrolling into something that feels productive and inspiring."

    @Pitiful
    platform
    comments
    96
    likes
    4.5K

    "BeFreed turned my commute into learning time. 20-min podcasts are perfect for finishing books I never had time for."

    @SofiaP
    platform
    star
    star
    star
    star
    star

    "BeFreed replaced my podcast queue. Imagine Spotify for books — that’s it. 🙌"

    @Jaded_Falcon
    platform
    comments
    201
    thumbsUp
    16

    "It is great for me to learn something from the book without reading it."

    @OojasSalunke
    platform
    star
    star
    star
    star
    star

    "The themed book list podcasts help me connect ideas across authors—like a guided audio journey."

    @Leo, Law Student, UPenn
    platform
    comments
    37
    likes
    483

    "Makes me feel smarter every time before going to work"

    @Cashflowbubu
    platform
    star
    star
    star
    star
    star

    "Instead of endless scrolling, I just hit play on BeFreed. It saves me so much time."

    @Moemenn
    platform
    star
    star
    star
    star
    star

    "I never knew where to start with nonfiction—BeFreed’s book lists turned into podcasts gave me a clear path."

    @Chloe, Solo founder, LA
    platform
    comments
    12
    likes
    117

    "Perfect balance between learning and entertainment. Finished ‘Thinking, Fast and Slow’ on my commute this week."

    @Raaaaaachelw
    platform
    star
    star
    star
    star
    star

    "Crazy how much I learned while walking the dog. BeFreed = small habits → big gains."

    @Matt, YC alum
    platform
    comments
    12
    likes
    108

    "Reading used to feel like a chore. Now it’s just part of my lifestyle."

    @Erin, Investment Banking Associate , NYC
    platform
    comments
    254
    likes
    17

    "Feels effortless compared to reading. I’ve finished 6 books this month already."

    @djmikemoore
    platform
    star
    star
    star
    star
    star

    "BeFreed turned my guilty doomscrolling into something that feels productive and inspiring."

    @Pitiful
    platform
    comments
    96
    likes
    4.5K

    "BeFreed turned my commute into learning time. 20-min podcasts are perfect for finishing books I never had time for."

    @SofiaP
    platform
    star
    star
    star
    star
    star

    "BeFreed replaced my podcast queue. Imagine Spotify for books — that’s it. 🙌"

    @Jaded_Falcon
    platform
    comments
    201
    thumbsUp
    16

    "It is great for me to learn something from the book without reading it."

    @OojasSalunke
    platform
    star
    star
    star
    star
    star

    "The themed book list podcasts help me connect ideas across authors—like a guided audio journey."

    @Leo, Law Student, UPenn
    platform
    comments
    37
    likes
    483

    "Makes me feel smarter every time before going to work"

    @Cashflowbubu
    platform
    star
    star
    star
    star
    star

    "Instead of endless scrolling, I just hit play on BeFreed. It saves me so much time."

    @Moemenn
    platform
    star
    star
    star
    star
    star

    "I never knew where to start with nonfiction—BeFreed’s book lists turned into podcasts gave me a clear path."

    @Chloe, Solo founder, LA
    platform
    comments
    12
    likes
    117

    "Perfect balance between learning and entertainment. Finished ‘Thinking, Fast and Slow’ on my commute this week."

    @Raaaaaachelw
    platform
    star
    star
    star
    star
    star

    "Crazy how much I learned while walking the dog. BeFreed = small habits → big gains."

    @Matt, YC alum
    platform
    comments
    12
    likes
    108

    "Reading used to feel like a chore. Now it’s just part of my lifestyle."

    @Erin, Investment Banking Associate , NYC
    platform
    comments
    254
    likes
    17

    "Feels effortless compared to reading. I’ve finished 6 books this month already."

    @djmikemoore
    platform
    star
    star
    star
    star
    star

    "BeFreed turned my guilty doomscrolling into something that feels productive and inspiring."

    @Pitiful
    platform
    comments
    96
    likes
    4.5K

    "BeFreed turned my commute into learning time. 20-min podcasts are perfect for finishing books I never had time for."

    @SofiaP
    platform
    star
    star
    star
    star
    star

    "BeFreed replaced my podcast queue. Imagine Spotify for books — that’s it. 🙌"

    @Jaded_Falcon
    platform
    comments
    201
    thumbsUp
    16

    "It is great for me to learn something from the book without reading it."

    @OojasSalunke
    platform
    star
    star
    star
    star
    star

    "The themed book list podcasts help me connect ideas across authors—like a guided audio journey."

    @Leo, Law Student, UPenn
    platform
    comments
    37
    likes
    483

    "Makes me feel smarter every time before going to work"

    @Cashflowbubu
    platform
    star
    star
    star
    star
    star
    1.5K Ratings4.7
    Commencez votre parcours d'apprentissage, maintenant
    BeFreed App
    BeFreed

    Apprenez n'importe quoi, personnalise

    DiscordLinkedIn
    Resumes de livres en vedette
    Crucial ConversationsThe Perfect MarriageInto the WildNever Split the DifferenceAttachedGood to GreatSay Nothing
    Categories tendance
    Self HelpCommunication SkillRelationshipMindfulnessPhilosophyInspirationProductivity
    Listes de lecture de celebrites
    Elon MuskCharlie KirkBill GatesSteve JobsAndrew HubermanJoe RoganJordan Peterson
    Collection primee
    Pulitzer PrizeNational Book AwardGoodreads Choice AwardsNobel Prize in LiteratureNew York TimesCaldecott MedalNebula Award
    Sujets en vedette
    ManagementAmerican HistoryWarTradingStoicismAnxietySex
    Meilleurs livres par annee
    2025 Best Non Fiction Books2024 Best Non Fiction Books2023 Best Non Fiction Books
    Auteurs en vedette
    Chimamanda Ngozi AdichieGeorge OrwellO. J. SimpsonBarbara O'NeillWinston ChurchillCharlie Kirk
    BeFreed vs autres applications
    BeFreed vs. Other Book Summary AppsBeFreed vs. ElevenReaderBeFreed vs. ReadwiseBeFreed vs. Anki
    Outils d'apprentissage
    Knowledge VisualizerAI Podcast Generator
    Informations
    A propos de nousarrow
    Tarifsarrow
    FAQarrow
    Blogarrow
    Carrieresarrow
    Partenariatsarrow
    Programme Ambassadeurarrow
    Repertoirearrow
    BeFreed
    Try now
    © 2026 BeFreed
    Conditions d'utilisationPolitique de confidentialite
    BeFreed

    Apprenez n'importe quoi, personnalise

    DiscordLinkedIn
    Resumes de livres en vedette
    Crucial ConversationsThe Perfect MarriageInto the WildNever Split the DifferenceAttachedGood to GreatSay Nothing
    Categories tendance
    Self HelpCommunication SkillRelationshipMindfulnessPhilosophyInspirationProductivity
    Listes de lecture de celebrites
    Elon MuskCharlie KirkBill GatesSteve JobsAndrew HubermanJoe RoganJordan Peterson
    Collection primee
    Pulitzer PrizeNational Book AwardGoodreads Choice AwardsNobel Prize in LiteratureNew York TimesCaldecott MedalNebula Award
    Sujets en vedette
    ManagementAmerican HistoryWarTradingStoicismAnxietySex
    Meilleurs livres par annee
    2025 Best Non Fiction Books2024 Best Non Fiction Books2023 Best Non Fiction Books
    Outils d'apprentissage
    Knowledge VisualizerAI Podcast Generator
    Auteurs en vedette
    Chimamanda Ngozi AdichieGeorge OrwellO. J. SimpsonBarbara O'NeillWinston ChurchillCharlie Kirk
    BeFreed vs autres applications
    BeFreed vs. Other Book Summary AppsBeFreed vs. ElevenReaderBeFreed vs. ReadwiseBeFreed vs. Anki
    Informations
    A propos de nousarrow
    Tarifsarrow
    FAQarrow
    Blogarrow
    Carrieresarrow
    Partenariatsarrow
    Programme Ambassadeurarrow
    Repertoirearrow
    BeFreed
    Try now
    © 2026 BeFreed
    Conditions d'utilisationPolitique de confidentialite

    Points clés

    1

    Tu IA privada y sin internet

    0:00

    Lena: Oye, Miles, el otro día estaba hablando con un amigo que trabaja en una fintech y me decía que ya no mandan ni un solo contrato a la nube para que la IA los analice. Lo hacen todo en sus propias máquinas. Y yo me quedé pensando, ¿de verdad hoy en día cualquiera puede tener un modelo de lenguaje potente corriendo en su casa sin depender de internet ni de pagarle a nadie?

    0:22

    Miles: Pues fíjate que sí, y lo más loco es que ya no es cosa de científicos locos con granjas de servidores. Hoy, si tienes una computadora medianamente decente, en diez minutos puedes tener algo como Llama o Mistral funcionando. O sea, pasamos de necesitar una supercomputadora a que modelos como el nuevo Gemma 4, que salió hace apenas unos días, corran en un portátil con 8 o 16 gigas de RAM.

    0:46

    Lena: Pero a ver, Miles, que yo me entienda. Si lo corro en mi PC, ¿mis datos están seguros de verdad? Porque eso de la privacidad es lo que más me suena.

    0:55

    Miles: Tal cual, esa es la clave. Tus datos nunca salen de tu máquina. Y no solo eso, es que te ahorras una pasta en APIs. Mira, hay gente usando modelos como DeepSeek-Coder para revisar código o Qwen para chatear, y lo hacen todo offline. Pero claro, hay que saber elegir bien la herramienta, porque no es lo mismo usar Ollama, que es súper sencillo, que meterse en el lío de llama.cpp si buscas exprimir cada gota de tu GPU.

    1:22

    Lena: No me digas, o sea que depende mucho de los "hierros" que tengas en casa. Para entender bien por dónde empezar, hay que ver qué modelo le encaja a cada equipo.

    2

    El choque con la realidad del hardware

    1:32

    Miles: Fíjate que eso que dices de los "hierros" es justo donde la mayoría de la gente se estrella al principio. Porque uno escucha que puede correr una IA en su casa y lo primero que hace es intentar bajarse el modelo más grande, el de 70 mil millones de parámetros, y claro, la computadora se queda ahí como diciendo "¿qué pretendes que haga con esto?".

    1:53

    Lena: Claro, es que uno quiere lo mejor, lo más potente. Pero, a ver, explícame esto bien, Miles, porque he leído que no todos los modelos caben en todas las máquinas. ¿Cuál es la regla de oro aquí?

    2:05

    Miles: Mira, hay un análisis muy bueno que dice que todo se resume en tres factores: la memoria que tengas, el procesador y qué motor de inferencia uses. Pero si queremos ser prácticos, la memoria es la reina. Si tienes entre 8 y 16 gigas de RAM, que es lo que tiene cualquier laptop de oficina hoy en día, estás limitada a los modelos pequeños, los que llaman de 7 mil millones de parámetros o 7B.

    2:32

    Lena: ¿Y esos modelos 7B sirven para algo o son de juguete?

    2:36

    Miles: ¡Qué va! Para nada son de juguete. O sea, lo que pasa es que estamos mal acostumbrados a la potencia bruta de la nube. Pero un modelo como Mistral 7B o el nuevo Llama 3.2 de 8B, si lo corres bien, te hace resúmenes, te clasifica correos y hasta te ayuda con código sencillo de maravilla. Lo que sí es que, si lo corres solo con el procesador, o sea con la CPU, va a ir lentito. Te genera a lo mejor dos o cinco palabras por segundo. Es como ver a alguien escribir a máquina pero con calma, ¿sabes?

    3:08

    Lena: Entiendo, como si estuviera pensando cada palabra. Pero si le metes una tarjeta gráfica, la cosa cambia, ¿no?

    3:15

    Miles: Totalmente. Una GPU de NVIDIA, por ejemplo, te puede acelerar la generación diez veces. Pasas de esa velocidad de tortuga a tener una conversación real, de 20 a 50 palabras por segundo. Es la diferencia entre decir "esto funciona si espero" y "esto es magia". He visto datos que dicen que una RTX 3060, que ya tiene unos años, te permite correr un Mistral 13B con una fluidez asombrosa. Pero claro, si ya te quieres ir a las ligas mayores, a esos modelos de 70B que mencionábamos, ahí ya necesitas 48 gigas de VRAM o más. Eso ya es territorio de gente que tiene dos tarjetas gráficas profesionales o una RTX 4090 muy potente.

    4:01

    Lena: O sea, que para el usuario común, el punto dulce está en esos modelos medianos de entre 7 y 14 mil millones de parámetros.

    4:09

    Miles: Exactamente. De hecho, hay una tabla de capacidades muy interesante que circula por ahí. Dice que si tienes una tarjeta de 8 gigas de VRAM, como una RTX 3070, puedes correr modelos de hasta 13B con una cuantización de 4 bits. Y ojo con esta palabra, "cuantización", porque es el truco del almendruco en todo esto.

    4:31

    Lena: Cuantización... suena a física cuántica, Miles. No me asustes.

    4:36

    Miles: No, no, para nada. Mira, es más simple de lo que parece. Imagínate que el modelo original es una foto en altísima resolución que pesa muchísimo. La cuantización es como pasar esa foto a un formato comprimido, como un JPEG. Pierdes un pelín de detalle, quizás un 5% de calidad en las respuestas, pero a cambio el modelo pesa la mitad y corre tres o cuatro veces más rápido. Es lo que permite que una IA que antes necesitaba un servidor ahora quepa en tu tarjeta gráfica de jugar a videojuegos.

    5:09

    Lena: Oye, pues tiene todo el sentido. O sea, que si no soy un purista de la precisión extrema, con la cuantización gano la posibilidad de usar modelos mucho mejores en mi equipo normal.

    5:19

    Miles: Tal cual. De hecho, en la práctica, casi nadie corre modelos en "precisión completa" en su casa. Sería un desperdicio de recursos. Casi todos usamos lo que llaman INT4 o Q4_K_M, que son formas de decir que el modelo está comprimido a 4 bits. Fijate que hay una consultora de código que lei por ahi que usa Llama 7B localmente para revisar código de sus programadores. Procesan cien peticiones al día con latencias de menos de cinco segundos. Y todo eso lo hacen sin gastar un céntimo en APIs y con la seguridad de que su código propietario no sale de su red.

    5:59

    Lena: Me encanta ese ejemplo porque baja el tema a la tierra. No es solo por "vicio" tecnológico, es que hay un beneficio real en velocidad y costes. Pero claro, para que esa consultora logre eso, habrán tenido que elegir bien la herramienta de software, ¿no? Porque he oído que hay varias.

    3

    El dilema de las herramientas: ¿Ollama o LM Studio?

    6:16

    Miles: Ahí es donde se pone buena la charla. Porque, a ver, si tú hoy quieres empezar, te vas a encontrar principalmente con dos nombres: Ollama y LM Studio. Y aunque los dos sirven para lo mismo, la experiencia es como comparar el día y la noche.

    6:32

    Lena: A ver, cuéntame. Yo soy más de interfaces bonitas, ya me conoces. Supongo que LM Studio me ganará por ahí.

    6:38

    Miles: Probablemente. Mira, LM Studio es como el "iPhone" de los modelos locales. Te lo descargas, tienes un buscador de modelos integrado que se conecta directamente a Hugging Face, que es como el GitHub de la IA, y con dos clics ya estás chateando. Te muestra en tiempo real cuánta memoria de tu tarjeta gráfica estás usando, te deja ajustar la temperatura de la respuesta con una barrita... O sea, la curva de aprendizaje es cero. Es ideal si lo que quieres es explorar, probar diez modelos distintos en una tarde y ver cuál te gusta más.

    7:09

    Lena: Me suena genial. ¿Y entonces por qué alguien usaría Ollama si parece más "árido"?

    7:14

    Miles: Porque Ollama es la potencia de la simplicidad técnica. Es una herramienta de línea de comandos, o sea, de escribir en la terminal. Pero lo que la hace increíble es que crea un servidor en tu máquina que es compatible con la API de OpenAI.

    7:28

    Lena: Espera, ¿eso qué significa en lenguaje humano?

    7:31

    Miles: Significa que si tú tienes una aplicación que ya usa ChatGPT, solo tienes que cambiar una línea de código para que apunte a tu propia computadora y ¡pum!, tu aplicación ya no necesita internet ni pagar tokens. Por eso a los desarrolladores les encanta. Es como tener un motor que puedes conectar a cualquier coche. Además, Ollama es súper ligero, se queda ahí en segundo plano y casi no consume nada hasta que le pides algo.

    7:56

    Lena: O sea, que si quiero "usar" la IA para chatear y probar, me voy a LM Studio. Pero si quiero "construir" algo o automatizar mi trabajo, Ollama es el camino.

    8:06

    Miles: Exacto. De hecho, hay una tercera vía para los más valientes, que es llama.cpp. Es la base sobre la que están construidos casi todos los demás. Es código puro en C++, súper optimizado. Si sabes usarlo, tienes el control total de cada bit. Pero claro, ahí ya no hay botoncitos ni interfaces bonitas; es para cuando buscas el rendimiento máximo absoluto en un servidor.

    8:33

    Lena: Oye, pero me dijiste antes algo de que Ollama corre en el puerto 11434... me suena a que eso permite conectar muchas cosas.

    8:42

    Miles: Sí, fijate que eso es lo que permite integraciones locas. Por ejemplo, hay una herramienta que se llama n8n, que sirve para automatizar flujos de trabajo. Tú puedes conectar n8n con Ollama y crear un bot que cada vez que te llegue un correo con una factura, la IA local la lea, extraiga los datos y los guarde en tu base de datos. Todo eso sin que la información salga de tu servidor. Es lo que están haciendo muchas fintech para cumplir con regulaciones estrictas de privacidad.

    9:14

    Lena: ¡Qué fuerte! O sea, que no es solo chatear, es crear empleados digitales privados. Y mencionaste que Ollama también funciona en Linux y macOS, ¿no?

    9:24

    Miles: Sí, y en Windows también. De hecho, en macOS con los chips de Apple, los M1, M2, M3... la cosa vuela. Porque esos procesadores tienen algo que llaman "memoria unificada". Básicamente, la tarjeta gráfica y el procesador comparten la misma memoria RAM. Así que si te compras un Mac con 64 gigas de RAM, puedes correr modelos enormes que en una PC normal necesitarían dos tarjetas gráficas carísimas. Es una ventaja competitiva brutal para los que usan Mac.

    9:55

    Lena: Nunca lo había pensado así, que la arquitectura del procesador fuera tan clave para la IA. Pero volviendo a la realidad de la mayoría, si yo tengo una PC con Windows y una tarjeta NVIDIA, ¿estoy bien encaminada?

    10:07

    Miles: Estás en la gloria. NVIDIA sigue siendo el estándar de oro gracias a algo llamado CUDA. Es como el lenguaje secreto que permite que la IA hable directamente con el hardware de la tarjeta. Aunque ojo, AMD está apretando fuerte con ROCm y el soporte en herramientas como Ollama ya es muy bueno. Incluso Intel, con sus tarjetas Arc, está empezando a aparecer en el mapa. La competencia es feroz y eso solo nos beneficia a nosotros, porque cada vez es más fácil y rápido.

    4

    El arte de elegir el modelo perfecto

    10:37

    Lena: Vale, ya tengo el software, ya entiendo mi hardware... ahora me meto en la tienda de modelos y me vuelvo loca. Hay miles. Llama, Mistral, Qwen, Gemma... ¿Cómo sé cuál me va a responder mejor si le pido, no sé, que me analice un contrato o que me escriba un cuento?

    10:57

    Miles: Esa es la pregunta del millón. Y la respuesta, como casi siempre en tecnología, es que depende de la tarea. Pero hay un mapa bastante claro hoy en día. Si buscas un todoterreno, algo que sepa un poco de todo y razone bien, Llama 3.2 de Meta es el baseline. Es como el estándar de la industria ahora mismo. Es muy equilibrado.

    11:18

    Lena: ¿Y si lo que más me importa es la velocidad? A veces solo quiero una respuesta rápida de una frase.

    11:25

    Miles: Entonces Mistral 7B es tu mejor amigo. Los franceses de Mistral AI hicieron un trabajo increíble con la eficiencia. Genera texto a una velocidad endiablada y para tareas sencillas como clasificar o resumir, es imbatible. De hecho, hay un modelo que se llama Mixtral, que usa una técnica llamada "Mixture of Experts".

    11:45

    Lena: ¿Mezcla de expertos? Suena a consejo de sabios.

    11:48

    Miles: Es exactamente eso. En lugar de ser un solo modelo gigante, son varios expertos pequeños trabajando juntos. Cuando le haces una pregunta, solo se activan los "expertos" que saben de ese tema. Así consigues la calidad de un modelo enorme pero con la velocidad de uno pequeño. Es una genialidad de la ingeniería que ahorra muchísima memoria.

    12:09

    Lena: Oye, ¿y qué hay de los modelos para programar? Porque mi amigo el de la fintech me decía que la IA les ayuda muchísimo con el código.

    12:16

    Miles: Ahí el rey ahora mismo es DeepSeek. Tienen modelos como el DeepSeek-Coder que están específicamente entrenados con miles de millones de líneas de código. Han salido benchmarks donde estos modelos le pisan los talones a GPT-4 en tareas de programación. Y lo mejor es que tienen versiones pequeñas que corren en cualquier lado. Si eres desarrollador y no estás usando un modelo local de DeepSeek para que te ayude a debuggear sin subir tu código a la nube, te estás perdiendo de mucho.

    12:43

    Lena: ¿Y los modelos de Google o Alibaba? Porque mencionaste a Gemma y Qwen.

    12:48

    Miles: Sí, fijate que Qwen, que es de Alibaba, es sorprendentemente bueno en razonamiento matemático y en temas multilingües. Si necesitas trabajar en varios idiomas o con lógica pura, Qwen 2.5 o el nuevo Qwen 3 son opciones muy sólidas. Y Gemma 2, de Google, es muy ligero y "limpio", por así decirlo. Google lo diseñó para que fuera fácil de integrar en dispositivos.

    13:12

    Lena: Me llama la atención que haya tanta variedad. Al final, parece que estamos viviendo una explosión de biodiversidad en la IA. Pero hay algo que me preocupa... si uso un modelo local, ¿no se quedará "tonto" rápido? O sea, ChatGPT se actualiza siempre, pero mi modelo local está ahí, congelado en el tiempo.

    13:32

    Miles: Es un punto muy válido. El conocimiento del modelo está limitado a su fecha de entrenamiento. No puede navegar por internet para decirte qué pasó esta mañana en las noticias. Pero, y aquí viene el gran "pero", para la mayoría de las tareas de trabajo —resumir un PDF que tú le das, analizar un balance contable, escribir un correo— no necesitas que sepa quién ganó el partido de ayer. Necesitas que sepa procesar lenguaje. Y para eso, un modelo de 2024 o 2025 sigue siendo increíblemente capaz hoy. Además, siempre puedes actualizarlo bajándote la versión más reciente en un comando de diez segundos.

    14:11

    Lena: Claro, no es que el modelo se degrade, es que simplemente no tiene acceso a datos frescos. Pero si yo le paso los datos, como en ese ejemplo del PDF, entonces ese problema desaparece.

    4:09

    Miles: Exactamente. Eso es lo que llaman RAG, Retrieval-Augmented Generation. Básicamente le das al modelo un libro abierto y le dices: "responde solo usando lo que dice aquí". Ahí el modelo no necesita saber nada del mundo exterior, solo tiene que ser bueno comprendiendo el texto que tiene delante. Y en eso, los modelos locales ya son tan buenos que la diferencia con los de pago es casi imperceptible para un humano.

    5

    Optimizaciones: Cómo hacer que tu PC vuele

    14:51

    Lena: Oye Miles, antes mencionaste la cuantización, pero me pregunto si hay más trucos bajo la manga. Porque si tengo una computadora que no es de la NASA, me gustaría saber cómo exprimirla al máximo para que la IA no se me quede colgada.

    15:07

    Miles: Uy, hay todo un mundo de optimizaciones "bajo el capó". Una de las más potentes ahora mismo es lo que llaman Flash Attention. Es una técnica matemática para que el modelo no tenga que releer todo el contexto cada vez que genera una palabra. Imagínate que estás leyendo un libro y, en lugar de volver a la página uno cada vez que pasas de hoja, tu cerebro guardara un resumen perfecto de lo anterior. Eso ahorra muchísima memoria de la tarjeta gráfica y acelera la generación un 20 o 30%.

    15:40

    Lena: ¿Y eso tengo que configurarlo yo o ya viene de serie?

    15:44

    Miles: En herramientas como Ollama ya viene activado casi siempre, pero en otras tienes que poner una variable de entorno. Por ejemplo, en Linux o Mac, pones `OLLAMA_FLASH_ATTENTION=1` y listo. Parece una tontería, pero en contextos largos, cuando le pasas un documento de 50 páginas, se nota muchísimo.

    16:03

    Lena: ¿Y qué pasa con la RAM del sistema? Si me quedo corta, ¿hay algún truco?

    16:07

    Miles: Hay algo que se llama mmap, o archivos mapeados en memoria. Básicamente, permite que el modelo se cargue de una forma más inteligente. En lugar de intentar meter todo el bloque de golpe en la RAM, va cargando lo que necesita. Esto ayuda mucho cuando tienes el modelo justo al límite de lo que aguanta tu memoria. Y otro truco genial es la cuantización del caché KV.

    16:32

    Lena: A ver, despacio... ¿caché de qué?

    16:35

    Miles: Caché KV. Imagínatelo como la "memoria a corto plazo" de la IA mientras está hablando contigo. Si la conversación es muy larga, esa memoria empieza a ocupar gigas y gigas de RAM. Pues ahora también podemos cuantizar esa memoria, pasarla de 16 bits a 8 o incluso 4 bits. Eso te permite tener conversaciones mucho más largas sin que la computadora explote. Ollama tiene una variable para esto también, `OLLAMA_KV_CACHE_TYPE=Q8_0`. Con eso, puedes triplicar el tamaño de la conversación que el modelo es capaz de recordar.

    17:13

    Lena: O sea, que al final es como tunear un coche. Tienes el motor base, que es el modelo, pero luego puedes ir tocando estas cositas para que rinda más.

    5:19

    Miles: Tal cual. Y fijate en un detalle que mucha gente olvida: la temperatura. No la de la habitación, sino el parámetro de "Temperature" del modelo. Si lo pones muy bajo, cerca de cero, el modelo es súper preciso y predecible. Ideal para código o análisis técnico. Si lo subes a 0.7 o 0.8, se vuelve más creativo y variado. A veces, si sientes que el modelo te responde siempre lo mismo o se pone repetitivo, jugar con la temperatura es la solución más simple antes de meterte en líos técnicos.

    17:56

    Lena: Qué curioso. O sea que incluso el comportamiento se puede optimizar según lo que necesites en ese momento. Me hace pensar en que, al final, correr esto en local nos da una libertad que las plataformas de pago nos quitan, porque ellas deciden esos parámetros por ti.

    4:09

    Miles: Exactamente. En ChatGPT no tienes ni idea de qué temperatura están usando o si están usando un modelo más pequeño para ahorrar costes. En local, tú eres el dueño de la infraestructura. Si quieres que el modelo use toda la potencia de tu GPU, se la das. Si quieres que sea súper creativo aunque tarde más, tú decides. Es esa soberanía tecnológica de la que hablábamos al principio.

    18:37

    Lena: Y hablando de soberanía, Miles... me pregunto cómo están usando esto las empresas aquí en Latinoamérica. Porque siempre hablamos de Silicon Valley, pero seguro que aquí también hay gente moviéndose.

    6

    Casos de éxito en el mundo real

    18:49

    Miles: Pues fíjate que hay ejemplos súper interesantes. Leí hace poco sobre una consultora de software que tenía un problema: sus clientes no querían que su código fuente saliera de sus servidores por temas de propiedad intelectual. Pero a la vez, los programadores querían usar IA para ser más rápidos.

    19:08

    Lena: El eterno dilema entre seguridad y productividad. ¿Cómo lo resolvieron?

    19:12

    Miles: Montaron un servidor local con Ollama y el modelo CodeLlama. Pusieron una tarjeta gráfica potente en la oficina y todos los programadores se conectaban a esa IP local. Resultado: revisión de código automática, sugerencias de funciones y todo con latencia de menos de cinco segundos. Y lo más importante: el cliente estaba tranquilo porque ni una línea de código viajó por internet.

    19:36

    Lena: Me imagino que el ahorro en facturas de OpenAI también debió ser importante.

    19:41

    Miles: ¡Brutal! Imagínate cientos de programadores haciendo miles de consultas al día. Al precio por token de los modelos potentes, eso son miles de dólares al mes. Con el modelo local, el coste es cero, más allá de la electricidad y la inversión inicial en la tarjeta gráfica. Pero hay más casos. Hay una fintech que procesa miles de contratos legales. Usan modelos locales para extraer datos específicos: fechas de vencimiento, nombres de las partes, cláusulas de rescisión...

    20:12

    Lena: ¿Y no se equivocan? Porque los contratos legales tienen su miga.

    20:16

    Miles: Ahí está el truco: usan modelos específicos para eso y una temperatura muy baja para que no se inventen nada. Lograron que el tiempo de procesamiento por contrato bajara de minutos a segundos. Y como trabajan con datos financieros súper sensibles, la privacidad no era opcional, era un requisito legal.

    20:37

    Lena: Oye, ¿y en el e-commerce? Porque ahí se genera muchísimo contenido.

    5:19

    Miles: Tal cual. Hay una tienda online que usa Mistral 7B para generar descripciones de productos. Tenían miles de productos sin descripción y hacerlo a mano era imposible. Configuraron el modelo en local, le pasaban las características técnicas y la IA generaba un texto amigable en tres segundos. Tuvieron que usar la cuantización INT4 para que el proceso fuera lo suficientemente rápido para su servidor, pero lo lograron.

    21:08

    Lena: Es increíble cómo una tecnología que parece tan compleja se traduce en ahorrar tiempo en tareas que son, seamos sinceros, bastante aburridas para un humano.

    8:06

    Miles: Exacto. Y fíjate que no todo es para grandes empresas. Conozco a un escritor que usa Llama 3 localmente para que le ayude a estructurar sus novelas. Dice que le gusta porque puede tener sesiones de "brainstorming" de horas sin preocuparse de si está gastando dinero o si alguien en una oficina de California está leyendo sus ideas antes de que se publiquen. Para él, la IA local es como un cuaderno de notas inteligente y privado.

    21:45

    Lena: Me encanta esa visión del "cuaderno inteligente". Al final, se trata de democratizar la herramienta. Pero Miles, no todo puede ser perfecto. Tiene que haber riesgos o errores típicos en los que caemos todos al empezar, ¿no?

    7

    Evitando los errores de principiante

    22:00

    Miles: ¡Buf! Errores hay para dar y regalar. El primero y más común es pensar que "más grande es siempre mejor". La gente se obsesiona con bajarse el modelo de 70B parámetros pensando que va a ser súper inteligente, pero luego resulta que en su computadora va a dos palabras por minuto.

    22:20

    Lena: O sea, que es mejor un modelo pequeño y rápido que uno grande que te hace perder la paciencia.

    3:15

    Miles: Totalmente. De hecho, un modelo de 7B bien configurado, con un buen "System Prompt" que le diga exactamente cómo actuar, a menudo da mejores resultados que uno de 70B que está mal guiado. Es como tener un Ferrari pero no saber meter las marchas. Otro error clásico es no vigilar la VRAM, la memoria de la tarjeta gráfica.

    22:47

    Lena: ¿Qué pasa si te pasas de memoria? ¿Se quema la tarjeta?

    22:50

    Miles: No, no se quema, por suerte. Pero el sistema se vuelve inestable o, lo más común, el modelo "desborda" a la RAM normal del sistema y la velocidad cae en picado. Es lo que llaman "context swapping". De repente, la IA que iba volando empieza a tartamudear. Por eso es vital usar herramientas como LM Studio o el comando `ollama ps` para ver cuánto estamos ocupando realmente.

    23:15

    Lena: ¿Y qué hay de la seguridad? Porque dijimos que es privado, pero ¿es 100% seguro?

    23:21

    Miles: Esa es una distinción importante. El modelo es privado porque los datos no salen de tu red, pero si tu computadora está infectada o alguien entra en tu red local, podría ver tus conversaciones. Y hay otro tema: la inyección de prompts. Si expones tu modelo local a internet para que otros lo usen, alguien podría enviarle comandos maliciosos para intentar que el modelo revele información de sesiones anteriores. Los modelos tienen memoria del entrenamiento, y aunque es raro, a veces pueden "escupir" datos que no deberían si se les presiona mucho.

    23:54

    Lena: O sea, que "local" no significa "blindado". Hay que seguir teniendo las precauciones básicas de seguridad informática.

    8:06

    Miles: Exacto. Y un error que veo mucho en desarrolladores es intentar usar Ollama para producción masiva sin ninguna capa de protección. Ollama es genial, pero no es un servidor web blindado. Si vas a permitir que mucha gente lo use a la vez, necesitas ponerle delante algo como Nginx para controlar el tráfico, poner contraseñas y limitar cuántas preguntas puede hacer cada uno. Si no, un solo usuario pesado te puede dejar la GPU frita y bloquear a todos los demás.

    24:33

    Lena: Me suena a que hay que ser consciente de que estamos gestionando un recurso físico, no una nube infinita. Nuestra tarjeta gráfica tiene un límite y hay que respetarlo.

    5:19

    Miles: Tal cual. Es como tener tu propio generador eléctrico en casa. Tienes luz gratis, sí, pero si conectas cinco aires acondicionados a la vez, vas a saltar los plomos. Con la IA local es igual: gestiona tus recursos con cabeza y te dará un servicio increíble.

    8

    Guía paso a paso para tu primer modelo local

    25:02

    Lena: Vale Miles, me has convencido. Quiero llegar hoy a casa y poner esto a funcionar. ¿Cuál es el "check-list" para no perderme? Porque entre tantas opciones, necesito un mapa claro.

    25:12

    Miles: Venga, vamos a hacerlo súper accionable. Paso uno: comprueba tu hardware. Si tienes Windows, pulsa Control+Shift+Esc, vete a Rendimiento y mira si tienes una GPU NVIDIA o AMD y cuánta memoria dedicada tiene. Si tienes Mac, mira si es un chip M1, M2 o superior. Eso te dirá qué modelos puedes bajar.

    25:32

    Lena: Vale, ya sé qué tengo. Paso dos.

    25:35

    Miles: Paso dos: elige tu herramienta. Si no quieres complicaciones y quieres ver botoncitos, bájate LM Studio de su web. Si eres más de trastear o quieres integrar la IA en otras apps, bájate Ollama. La instalación en ambos es "siguiente, siguiente, terminar". No tiene pérdida.

    25:51

    Lena: Fácil. ¿Y luego qué modelo me bajo para empezar?

    25:54

    Miles: Para empezar sin sustos, bájate Llama 3.2 de 3B u 8B parámetros. Es el que menos recursos consume y el que mejor "se porta" con los principiantes. En Ollama solo tienes que escribir `ollama run llama3.2` en la terminal. Él solo lo descarga y te abre el chat. En LM Studio, búscalo en la lupa de arriba y elige uno que ponga "Q4_K_M", que es la cuantización equilibrada que decíamos.

    26:21

    Lena: ¿Y si quiero que la IA sea experta en algo específico?

    26:24

    Miles: Ahí entra el paso cuatro: personalizar con un "Modelfile". Si usas Ollama, puedes crear un archivo de texto donde le digas: "Eres un experto en leyes de México" o "Eres un programador senior de Python". Le das unas instrucciones base y luego creas tu modelo personalizado con un comando simple. Así no tienes que explicarle quién es cada vez que abres el chat.

    26:45

    Lena: Me encanta. Y el último paso, imagino que es empezar a jugar, ¿no?

    8:06

    Miles: Exacto. Prueba a pasarle un texto largo y pídele un resumen. O pídele que te ayude a redactar un correo difícil para tu jefe. Fíjate en la velocidad, en cómo usa la memoria. Si ves que va lento, prueba un modelo más pequeño. Si ves que se inventa cosas, baja la temperatura. Es un proceso de aprendizaje. Y ojo, un consejo de oro: mantén los modelos actualizados. La comunidad saca mejoras casi cada semana. Un simple `ollama pull` de vez en cuando te asegura que tienes la versión más pulida.

    27:22

    Lena: Oye, parece mucho más accesible de lo que imaginaba. Al final es cuestión de perderle el miedo a la terminal o a instalar algo que no sea de una gran marca.

    3:15

    Miles: Totalmente. Y lo mejor es la sensación de cuando apagas el Wi-Fi de tu casa y ves que la IA sigue respondiéndote igual de bien. Ahí es cuando realmente entiendes lo que significa tener el poder del procesamiento de lenguaje en tu propia mano. No dependes de nadie, no le debes nada a nadie. Eres tú y tu máquina.

    9

    Preguntas que todos nos hacemos

    27:50

    Lena: Miles, antes de terminar, hay algunas dudas que me rondan la cabeza y seguro que a los que nos escuchan también. Por ejemplo... ¿cuál es la diferencia real de calidad entre, no sé, Claude de Anthropic o el GPT-4 de pago y uno de estos modelos locales? ¿De verdad están tan cerca?

    28:11

    Miles: Es una pregunta muy honesta. A ver, siendo sinceros, si le pides a un modelo local de 8B que te resuelva un problema de lógica matemática súper complejo que requiere veinte pasos, probablemente se pierda o alucine más que Claude o GPT-4. Los modelos grandes de la nube siguen teniendo una "enciclopedia" interna más vasta y un razonamiento más sólido para cosas muy, muy difíciles.

    28:37

    Lena: Entonces, ¿para qué usar el local si el otro es "más listo"?

    28:40

    Miles: Porque para el 90% de las tareas diarias —resumir, redactar, clasificar, explicar conceptos—, la diferencia es inapreciable. Es como usar un tráiler para ir a comprar el pan. Sí, el tráiler tiene más potencia, pero con un coche normal vas sobrado y aparcas mejor. Además, los modelos locales son mucho mejores siguiendo formatos específicos. Si le dices a un Llama 3 local "respóndeme estrictamente en formato JSON", lo hace de maravilla porque está optimizado para eso.

    29:11

    Lena: Entiendo. ¿Y qué hay de la legalidad? Si uso Mistral o Llama para mi negocio, ¿no me va a venir una demanda de Meta o de los franceses?

    29:21

    Miles: Esa es la buena noticia. Casi todos estos modelos tienen licencias muy abiertas. Llama tiene su propia licencia que permite uso comercial gratuito hasta que tengas 700 millones de usuarios activos al mes. O sea, a menos que seas el próximo Facebook, estás cubierto. Mistral, Qwen y Gemma usan licencias como Apache 2.0, que básicamente te dan permiso para hacer lo que quieras, incluso vender productos basados en ellos. Pero bueno, como siempre decimos, si tu negocio va a depender de esto, una consulta rápida con un abogado nunca está de más, aunque en el 99% de los casos no hay problema.

    29:56

    Lena: Oye, ¿y se puede usar Ollama en un servidor de verdad? Me refiero a algo que no sea mi laptop, algo para que toda mi oficina lo use.

    30:04

    Miles: Sí, pero con cuidado. Ollama es genial para desarrollo, pero como te decía antes, no es un servidor "de producción" blindado. Si vas a montar algo serio, yo miraría vLLM o LocalAI. Son herramientas un poco más técnicas pero están diseñadas para manejar cientos de usuarios a la vez, gestionar mejor las colas de peticiones y aprovechar varias tarjetas gráficas al mismo tiempo. Es el siguiente paso lógico cuando pasas del experimento personal a la herramienta corporativa.

    30:32

    Lena: Me queda súper claro. Al final, es un camino que empieza por la curiosidad en tu propia casa y puede terminar transformando cómo trabaja toda una empresa.

    5:19

    Miles: Tal cual. Es recuperar el control. Durante años hemos aceptado que la tecnología más avanzada tiene que estar en manos de tres o cuatro gigantes. La IA local es la rebelión contra esa idea. Es decir: "esta capacidad es mía, corre en mi hardware y yo decido cómo se usa". Y eso, al final del día, es lo que hace que todo esto sea tan emocionante.

    10

    El futuro en tu escritorio

    31:10

    Lena: Bueno Miles, creo que ya podemos ir cerrando por hoy. Me voy con la cabeza llena de ideas y, sobre todo, con ganas de ver qué puede hacer mi vieja tarjeta gráfica con un modelo de estos.

    31:22

    Miles: Fíjate que al final, lo más importante no es cuántos teraflops tiene tu GPU o si el modelo tiene 8 o 70 mil millones de parámetros. Lo que realmente cambia las cosas es la posibilidad de experimentar sin miedo. Sin miedo a la factura, sin miedo a que tus datos se filtren y sin miedo a que la herramienta desaparezca o cambie de precio mañana.

    31:45

    Lena: Tienes razón. Es esa sensación de libertad. Y me hace pensar... si hoy ya podemos hacer todo esto en un portátil normal, ¿dónde estaremos en un par de años? Quizás la IA deje de ser ese ente lejano en la nube y pase a ser algo tan cotidiano y local como el corrector ortográfico o la calculadora.

    32:05

    Miles: Seguro que sí. De hecho, ya estamos viendo cómo los fabricantes de chips están metiendo "NPUs", unidades de procesamiento neuronal, directamente en los procesadores de los teléfonos y las laptops. La tendencia es clara: la IA se está mudando a vivir con nosotros. Y saber cómo manejarla, cómo elegir el modelo adecuado y cómo optimizarlo, va a ser una de las habilidades más valiosas de esta década.

    32:31

    Lena: Pues oye, muchísimas gracias por este rato, Miles. Ha sido un placer desmitificar todo esto contigo. Y a los que nos están escuchando, de verdad, anímense a probarlo. Bajen Ollama o LM Studio, descarguen un modelo pequeño y simplemente empiecen a preguntar. Es una puerta que, una vez que la abres, te cambia por completo la perspectiva de lo que es posible hacer con la tecnología que ya tienes en casa.

    32:58

    Miles: Eso es. No hace falta ser un experto, solo tener un poco de curiosidad. Al final del día, la tecnología más potente es la que tú controlas, no la que te controla a ti. La soberanía de tus datos y de tu creatividad empieza justo ahí, en ese pequeño servidor que corre en tu propia máquina. Merece la pena el esfuerzo de aprender a dominarlo.

    Dans le même genre

    podcast cover
    What Is ChatGPT Doing ... and Why Does It Work?How to Speak MachineArtificial Intelligence and Machine Learning for BusinessPrivacy Is Power
    25 sources
    Running local LLMs for total data privacy
    Stop sending sensitive data to remote servers. Learn how to run AI models on your own laptop to reclaim digital sovereignty and keep your prompts private.
    25 min
    podcast cover
    Keras Reinforcement Learning ProjectsPython CookbookWhat Is ChatGPT Doing ... and Why Does It Work?ChatGPT for Dummies
    27 sources
    Build an LLM from scratch on your laptop
    Building AI feels impossible without a supercomputer, but you only need eight building blocks. Learn how to train your own model in under ten minutes.
    31 min
    podcast cover
    ChatGPT for DummiesKeras Reinforcement Learning ProjectsMental ModelsArtificial Intelligence and Generative AI for Beginners
    25 sources
    Local AI for survival when the internet goes down
    When the cloud fails, can you still use AI? Learn how offline-first workflows and local models turn your laptop into a digital survival kit.
    17 min
    podcast cover
    Direct source: arxiv.org
    1 source
    LLM benchmarks are noisier than you think
    Leaderboards often ignore margins of error. Learn how to use power analysis to find out which AI models actually perform best.
    27 min
    podcast cover
    Profit First for ContractorsPower RelationshipsGetting NakedNegotiating the Nonnegotiable
    27 sources
    Cuando Los Clientes Controlan Tus Pagos
    Lena y Miles abordan una situación real: qué hacer cuando un cliente retiene pagos para controlar cómo manejas tu negocio. Aprende a establecer límites profesionales y conoce tus derechos legales como subcontratista.
    14 min
    podcast cover
    Artificial Intelligence and Generative AI for BeginnersWhat Is ChatGPT Doing ... and Why Does It Work?ChatGPT For DummiesPython Cookbook
    17 sources
    Under the Hood: The Life Cycle of LLMs
    Explore the evolution of Large Language Models from raw pre-training to human-aligned tools. This deep dive covers transformer architecture, fine-tuning, and the ethical governance required for production-ready AI.
    14 min
    book cover
    Privacy Is Power
    Carissa Véliz
    A wake-up call exposing how big tech erodes our privacy and autonomy, offering solutions to reclaim control of our data.
    9 min
    book cover
    Google Leaks
    Zach Vorhies and Kent Hecklively
    A whistleblower's shocking exposé of Google's alleged censorship practices and political manipulation following the 2016 U.S. presidential election.
    9 min