Cloudflare maakt AI-modellen kleiner met Unweight

Cloudflare maakt AI-modellen kleiner met Unweight

Cloudflare heeft een nieuwe manier gemaakt om AI-modellen slimmer te laden en te draaien: Unweight. Daarmee worden modelgewichten kleiner zonder dat de uitkomst verandert. Voor wie AI gebruikt via Cloudflare kan dat zorgen voor minder GPU-geheugen,snellere inzet en lagere kosten.

Eerst even helder

Bij een groot taalmodel moet de GPU bij elke nieuwe token heel veel gewichten ophalen uit geheugen.Dat kost tijd. Cloudflare zegt dat dit op hun H100-GPU’s vaak de echte bottleneck is, niet het rekenen zelf.

Unweight pakt precies dat stukje aan. Het is een lossless compressiesysteem voor inferentie.Dat betekent: kleiner maken zonder dat het model andere antwoorden gaat geven.

Unweight

Wat is er aan de hand?

Cloudflare draait inferentie dicht bij veel internetgebruikers. Daar is GPU-geheugen duur en schaars. Eerder werkte het bedrijf al aan betere geheugenbenutting met Infire en aan minder koude starts met Omni. Nu gaat het om de modelgewichten zelf.

De insteek is simpel: minder bytes over de geheugenbus betekent minder vertraging. Unweight kan de modelvoetafdruk volgens Cloudflare met 15 tot 22% verkleinen. Voor Llama 3.1 8B noemt cloudflare ook ongeveer 3 GB VRAM-besparing.

Hoe doet Unweight dat?

Unweight gebruikt een slim stuk van de BF16-gewichten. Een BF16-waarde bestaat uit drie delen: teken, exponent en mantisse. De teken- en mantissewaarden lijken vooral willekeurig. De exponent is juist vaak herhaalbaar.

Cloudflare zegt dat vooral de 16 meest voorkomende exponenten bijna alle gewichten dekken. Daarom wordt alleen dat exponentdeel gecomprimeerd met Huffman-codering. De rest blijft staan zoals het is.

Dat is belangrijk, want dit is verliesloos.Het model blijft bit-exact hetzelfde werken.

Vier manieren om de gewichten te gebruiken

unweight heeft vier routes, afhankelijk van de taak en de batchgrootte:

  • volledige decode en daarna gewone matrixvermenigvuldiging
  • alleen exponenten decoderen
  • transcoderen naar een compacte 4-bit paletvorm
  • direct werken met paletdata zonder extra voorbewerking

Niet één route is altijd het snelst. Bij kleine batches wint vaak iets simpels. Bij grotere batches loont een slimmere route beter.

Wat verandert er echt?

Voor gewone gebruikers is dit niet een zichtbare interfacewijziging. Je krijgt geen nieuwe knop of instelling. Het draait vooral om minder vertraging achter de schermen.

Voor wie AI-diensten gebruikt of aanbiedt via Cloudflare, kan dit wel tellen. Minder GPU-geheugen per model betekent dat er meer modellen op één GPU passen. Dat kan helpen om modellen op meer plekken beschikbaar te maken.

Cloudflare noemt ook dat kleinere modelbundels bij distributie ongeveer 22% kleiner kunnen zijn. Dat maakt het versturen van modellen naar locaties sneller.

Goed nieuws en minder fijn nieuws

Goed nieuws:

  • minder GPU-geheugen nodig
  • lossless, dus geen verandering in de modeluitkomst
  • meer ruimte op dezelfde GPU
  • kleinere modelbundels voor verspreiding

Minder fijn nieuws:

  • dit kost nog steeds extra werk op de GPU
  • Cloudflare noemt een throughput-overhead van ongeveer 30 tot 40% in de huidige stand
  • de winst verschilt per batchgrootte en per laag
  • nog niet alle onderdelen van het model worden gecomprimeerd

Kort gezegd: het is slimmer, maar niet gratis.

voor wie is dit handig of lastig?

Dit is vooral interessant voor:

  • mensen die AI-modellen hosten
  • kleine teams die meer uit dure GPU’s willen halen
  • partijen die modellen naar veel locaties moeten sturen
  • gebruikers die sneller antwoord willen bij drukke inferentie

minder relevant is het voor mensen die alleen een AI-chat openen en verder niets met de techniek doen. Zij merken vooral indirect effect, als de dienst sneller of stabieler wordt.

Slimme tip voor sites en kleine teams

Als je AI gebruikt op een eigen site of in een klein product, let dan vooral op dit soort dingen:

Puntwaarom het telt
GPU-geheugenbepaalt hoeveel modellen tegelijk passen
batchgroottebeïnvloedt of zo’n slimme route echt loont
modelgroottegrotere modellen voelen dit sneller
latencyminder bytes kan snellere antwoorden geven
distributiekleinere bundles zijn fijner voor uitrollen

Het gaat dus niet alleen om “kleiner = beter”. Soms is een simpele route sneller. Cloudflare zegt daarom dat Unweight per modeldeel en per batch de beste keuze zoekt.

Kleine checklist

  • Gebruik je AI op een plek met dure GPU’s? Dan kan minder geheugen echt helpen.
  • Verstuur je modellen vaak naar andere locaties? Dan kan een kleinere bundle fijn zijn.
  • Heb je strakke latency-eisen? Kijk dan goed naar de echte snelheid, niet alleen naar de compressie.
  • Wil je geen ander modelgedrag? Dan is lossless belangrijker dan zware quantisatie.
  • Werk je met Cloudflare’s AI-aanpak? Dan is dit een duidelijke stap richting zuiniger draaien.

Nog even dit

Cloudflare zegt dat Unweight open source wordt en dat er ook een technische paper komt. Ze delen dus niet alleen het idee, maar ook de GPU-kernels. De officiële bron staat hier: https://blog.cloudflare.com/unweight-tensor-compression

Als je hierover door wilt lezen, pak dan ook even Cloudflare maakt Flagship om functies veilig aan en uit te zetten mee.

Meer lezen

De officiële uitleg of aankondiging staat ook op Unweight: how we compressed an LLM 22% without sacrificing quality.

Bevers gedachte

Dit is geen grote zichtbare update voor gewone bezoekers. Maar onder de motorkap is het wel slim werk. Minder geheugen, minder bytes, en toch hetzelfde antwoord: dat is precies het soort besparing waar kleine teams en grote platforms allebei iets aan hebben. 🦫