LocalAI 4.1.2: lokale AI op je eigen pc

LocalAI v4.1.2: kleine fixes, een nieuwe snelheidsknop en frisse modelbestanden

LocalAI heeft versie v4.1.2 gekregen. Deze update zet drie dingen extra in het licht: een fout in logprobs is opgelost, chat probeert niet meer opnieuw te vragen als er al antwoordstukken kwamen, en er is nu ondersteuning voor speculative decoding-instellingen in llama.cpp.

Dit is geen mega grote sprong, maar wel zo’n update waar je thuis wat aan kunt hebben. Vooral als je localai gebruikt in je browser, op je laptop of op je eigen pc, kan dit net wat soepeler werken.

de officiële release staat hier: https://github.com/mudler/LocalAI/releases/tag/v4.1.2

3 dingen die opvallen

1. Een fout in logprobs is gefixt

De update zegt dat autoparser nu logprobs goed doorgeeft. Logprobs zijn simpele gezegd cijfers die iets zeggen over de kans van woorden die het model kiest. Voor jou voelt dat meestal pas beter als je tools gebruikt die op zulke scores leunen.

2. Chat gaat niet onnodig opnieuw proberen

Als de backend al chatdeltas of tooldeltas stuurde, dan gaat chat niet meer opnieuw proberen. Deltas zijn kleine stukjes antwoord die stap voor stap binnenkomen. Dat is fijn, want zo voorkom je dubbel werk en rare herhalingen.

3. llama.cpp krijgt speculative decoding-instellingen

Dit is de nieuwe functie in deze release. speculative decoding is een manier om sneller tekst te maken door slim vooruit te kijken. als je dit gebruikt, kan dat helpen bij vlotter typen en snellere reacties, maar je merkt vooral het effect als je het zelf test.

Waarom is dit handig?

LocalAI is voor mensen die lokaal met AI willen werken.Dus op een eigen machine, zonder dat alles naar een grote online dienst hoeft.Juist dan zijn kleine verbeteringen in stabiliteit en snelheid belangrijk.

Met deze versie krijg je:

  • minder kans op een fout in de manier waarop scores worden doorgegeven
  • minder rare retry-gedrag in chat
  • een extra knopje om sneller genereren te testen in llama.cpp
  • bijgewerkte modelbestanden en lijsten

Dat is geen vuurwerk, maar wel fijn onderhoud. Een bever knapt ook liever rustig een dam op dan dat alles ineens omvalt 🦫

Zo probeer je het zelf

Je hoeft geen groot plan te maken. Je kunt klein beginnen.

Stap 1: kijk welke versie je hebt

Open waar jij LocalAI draait en check de versie. Als je een webscherm, container of lokale setup hebt, zoek dan naar v4.1.2 of vergelijk het met je huidige versie.

Stap 2: test chat op een simpele vraag

Stel een korte vraag, zoals:

  • “Vat dit in 3 zinnen samen”
  • “Geef 5 ideeën voor een lunch”
  • “Schrijf een kort vriendelijk bericht”

Kijk of het antwoord netjes binnenkomt en niet onnodig opnieuw begint.

Stap 3: test een model dat llama.cpp gebruikt

Als je zo’n model hebt, probeer dan dezelfde vraag vóór en na de update. Let op:

  • voelt het sneller?
  • komt tekst vlotter binnen?
  • zie je minder hapering?

Stap 4: kijk naar je modelbestanden

In deze release is ook

index.yaml

bijgewerkt en zijn er Qwen3.5 modelbestanden toegevoegd. Als jij met die lijst werkt, kan het zijn dat je nu extra modelopties ziet.

Wat zie je op het scherm?

Dat hangt af van hoe jij LocalAI gebruikt, maar dit zijn de dingen waar je op kunt letten:

Wat je doetWat je kunt merken
een chatvraag sturenminder kans op opnieuw proberen na al binnengekomen antwoordstukjes
Een tool of streaming antwoord gebruikensoepelere doorloop van kleine stukken tekst
Een model met llama.cpp gebruikenje kunt speculative decoding-instellingen testen
De modelindex bekijkenbijgewerkte index en Qwen3.5 bestanden kunnen zichtbaar zijn

Zo’n tabel is handig als je snel wilt checken waar je moet kijken, zonder eerst een dikke handleiding te lezen.

kleine uitleg van de moeilijke woorden

Sommige woorden uit de release zijn best technisch.Kort en simpel:

  • logprobs: cijfers die laten zien hoe zeker het model is over gekozen woorden
  • chatdeltas: kleine stukjes chat-antwoord die tussendoor binnenkomen
  • tooldeltas: kleine stukjes data van een tool-actie die tussendoor binnenkomen
  • speculative decoding: een manier om sneller tekst te maken door vooruit te rekenen
  • llama.cpp: een onderdeel dat helpt om modellen lokaal te draaien

Je hoeft hier niet alles van te snappen om de update te gebruiken. Maar het helpt wel om te weten waarom iets sneller of netter kan voelen.

slim om even op te letten

Een paar simpele checks maken het testen makkelijker:

  • Gebruik eerst een korte vraag.
  • Test daarna pas een langere prompt.
  • Vergelijk oud en nieuw niet op één keer.
  • Kijk of jouw eigen setup wel echt llama.cpp gebruikt als je die nieuwe instelling wilt testen.
  • Ga niet meteen uit van snellere resultaten op elk apparaat; dat kan verschillen.

Deze update bevat ook updates van ggml-org/llama.cpp en leejet/stable-diffusion.cpp, plus een docs-update. Dat betekent dat er onder de motorkap weer wat is opgefrist.

Wanneer pak je deze update mee?

Deze versie is vooral handig als je:

  • LocalAI thuis gebruikt
  • met chat werkt en minder retry-gedrag wilt
  • llama.cpp gebruikt en de nieuwe decoding-instelling wilt proberen
  • graag een frisse modelindex en modelbestanden hebt

Als je setup nu al goed draait, hoef je niet in paniek te raken. Maar als je toch al bezig bent met testen, dan is v4.1.2 een nette versie om mee te nemen.

Dit haakt er best mooi op in: LocalAI 4.1.0: lokale AI op je eigen pc.

Handige link

Als je zelf verder wilt testen, dan is LocalAI v4.1.2 een nette volgende stap.

Bevers gedachte

Dit is zo’n release die niet schreeuwt, maar wel helpt. een kleine fout eruit, een netter chatpad, en een extra snelheidsoptie erbij. Dat soort werk maakt een tool vaak fijner in het dagelijks gebruik.

Als ik het in bevertaal mag zeggen: geen grote damverplaatsing, wel een slimme versteviging. En daar wordt je lokale setup meestal blij van.

Als je wilt, kan ik hierna ook meteen een kortere versie maken voor de voorpagina of een meta-omschrijving in dezelfde stijl.