LocalAI 4.1.0: lokale AI op je eigen pc

LocalAI 4.1.0: meer controle,meer schaal,meer grip

LocalAI 4.1.0 is uit. En dit is geen kleine stap.Deze versie maakt LocalAI veel sterker voor gebruik in productie. Je kunt nu een cluster draaien, met slimme routing en autoscaling. Er zit ingebouwde auth in, met users en API keys.Ook kun je per gebruiker quota zetten. En er is meer: een model pipeline editor, media history, standalone agents en experimentele fine-tuning en quantization.

Als 4.0 de basis legde, dan is 4.1 het controlepaneel erbovenop.

Kijk even mee

Bij deze tool zit soms een korte demo. Dat kijkt vaak net wat fijner dan alleen droge tekst.

Grootste vernieuwingen

Distributed mode

LocalAI kan nu als cluster draaien. Requests worden gerouteerd naar nodes op basis van beschikbare VRAM, zodat de zwaarste vrije GPU het werk krijgt.

Wat erbij zit:

  • smart routing
  • node groups
  • drain en resume
  • min/max autoscaling
  • node reconciler
  • model transfer via S3 of peer-to-peer
  • cluster dashboard op de home page

Dit maakt het makkelijker om schaal en verdeling goed te regelen.

Users,auth en quota

LocalAI krijgt nu een complete multi-user laag.

Je kunt nu:

  • users maken en beheren in de React UI
  • OIDC/OAuth koppelen voor SSO
  • invite mode gebruiken
  • API keys per gebruiker beheren
  • als admin een user impersoneren
  • quota zetten per gebruiker
  • gebruik en statistieken per user bekijken

Voor teams, klaslokalen en gedeelde installs is dit een grote stap.

Fine-tuning en quantization

Er is nu experimentele fine-tuning met TRL. Daarmee kun je LoRA adapters trainen, exporteren naar GGUF en weer importeren in LocalAI. Er zit ook een ingebouwd evals framework bij.

Daarnaast is er een nieuwe quantization backend voor het maken van geoptimaliseerde modellen on-the-fly.

Pipeline editor

In de React UI zit nu een visuele model pipeline editor. Daarmee kun je pipelines opzetten zonder YAML te hoeven editen.

Standalone agents

Je kunt nu agents draaien vanuit de CLI met

local-ai agent run

.

Dat werkt met:

  • single-turn --prompt
  • pool-based config uit pool.json

Tool calls in agent mode streamen nu ook real-time.

Slimmere inferencing

LocalAI zet nu automatisch inferencing-defaults goed, op basis van Unsloth. Ook is er:

  • fallback parsing voor tools als native parsing faalt
  • min_p support
  • een gedeelde inferencing path met automatische retry bij fouten

UI verbeteringen

De React UI krijgt meer handige dingen:

  • per-model backend logs
  • searchable model/backend selector
  • structured error toasts met link naar traces
  • tracing instellingen weer terug in de UI
  • media history in Studio pages
  • model list refresh na delete
  • backend weergave in model config

Onder de motorkap

Ook hier is veel aangepast:

  • herhaalde logregels worden samengevoegd
  • Jetson/Tegra GPU detection
  • fix voor Intel SYCL waarbij mmap automatisch uitgaat
  • extra portability voor llama.cpp
  • HF_ENDPOINT wordt gebruikt voor HuggingFace URI’s
  • Transformers is bumped naar >5.0 met generieke model loading
  • betere 404’s voor ontbrekende modellen

Fixes

Er zijn ook gerichte fixes meegekomen, zoals:

  • encoding_format=base64 voor embeddings
  • kokoro TTS phonemization model wordt nu tijdens installatie gedownload
  • fix voor opus codec backend selectie in dev mode
  • exact tag matching in gallery filters
  • vaste loading van tracing settings uit runtime_settings.json
  • verbeteringen in downloads, model paths en open responses

Kort samengevat

LocalAI 4.1.0 maakt het platform duidelijk volwassener. Dit is een release met focus op productie, beheer en schaal. Cluster draaien, users beheren, quota afdwingen, modellen tunen en de UI slimmer maken: het zit er nu allemaal in.

LocalAI groeit hiermee van een handige AI-setup naar een stevig platform waar je meer grip op hebt.

Dit haakt er best mooi op in: LocalAI 4.1.3: lokale AI op je eigen pc.

Handige link

Als je zelf verder wilt testen, dan is LocalAI v4.1.0 een nette volgende stap.