Cloudflare maakt AI-modellen kleiner met Unweight
Cloudflare heeft een nieuwe manier gemaakt om AI-modellen slimmer te laden en te draaien: Unweight. Daarmee worden modelgewichten kleiner zonder dat de uitkomst verandert. Voor wie AI gebruikt via Cloudflare kan dat zorgen voor minder GPU-geheugen,snellere inzet en lagere kosten.
Eerst even helder
Bij een groot taalmodel moet de GPU bij elke nieuwe token heel veel gewichten ophalen uit geheugen.Dat kost tijd. Cloudflare zegt dat dit op hun H100-GPU’s vaak de echte bottleneck is, niet het rekenen zelf.
Unweight pakt precies dat stukje aan. Het is een lossless compressiesysteem voor inferentie.Dat betekent: kleiner maken zonder dat het model andere antwoorden gaat geven.

Wat is er aan de hand?
Cloudflare draait inferentie dicht bij veel internetgebruikers. Daar is GPU-geheugen duur en schaars. Eerder werkte het bedrijf al aan betere geheugenbenutting met Infire en aan minder koude starts met Omni. Nu gaat het om de modelgewichten zelf.
De insteek is simpel: minder bytes over de geheugenbus betekent minder vertraging. Unweight kan de modelvoetafdruk volgens Cloudflare met 15 tot 22% verkleinen. Voor Llama 3.1 8B noemt cloudflare ook ongeveer 3 GB VRAM-besparing.
Hoe doet Unweight dat?
Unweight gebruikt een slim stuk van de BF16-gewichten. Een BF16-waarde bestaat uit drie delen: teken, exponent en mantisse. De teken- en mantissewaarden lijken vooral willekeurig. De exponent is juist vaak herhaalbaar.
Cloudflare zegt dat vooral de 16 meest voorkomende exponenten bijna alle gewichten dekken. Daarom wordt alleen dat exponentdeel gecomprimeerd met Huffman-codering. De rest blijft staan zoals het is.
Dat is belangrijk, want dit is verliesloos.Het model blijft bit-exact hetzelfde werken.
Vier manieren om de gewichten te gebruiken
unweight heeft vier routes, afhankelijk van de taak en de batchgrootte:
- volledige decode en daarna gewone matrixvermenigvuldiging
- alleen exponenten decoderen
- transcoderen naar een compacte 4-bit paletvorm
- direct werken met paletdata zonder extra voorbewerking
Niet één route is altijd het snelst. Bij kleine batches wint vaak iets simpels. Bij grotere batches loont een slimmere route beter.
Wat verandert er echt?
Voor gewone gebruikers is dit niet een zichtbare interfacewijziging. Je krijgt geen nieuwe knop of instelling. Het draait vooral om minder vertraging achter de schermen.
Voor wie AI-diensten gebruikt of aanbiedt via Cloudflare, kan dit wel tellen. Minder GPU-geheugen per model betekent dat er meer modellen op één GPU passen. Dat kan helpen om modellen op meer plekken beschikbaar te maken.
Cloudflare noemt ook dat kleinere modelbundels bij distributie ongeveer 22% kleiner kunnen zijn. Dat maakt het versturen van modellen naar locaties sneller.
Goed nieuws en minder fijn nieuws
Goed nieuws:
- minder GPU-geheugen nodig
- lossless, dus geen verandering in de modeluitkomst
- meer ruimte op dezelfde GPU
- kleinere modelbundels voor verspreiding
Minder fijn nieuws:
- dit kost nog steeds extra werk op de GPU
- Cloudflare noemt een throughput-overhead van ongeveer 30 tot 40% in de huidige stand
- de winst verschilt per batchgrootte en per laag
- nog niet alle onderdelen van het model worden gecomprimeerd
Kort gezegd: het is slimmer, maar niet gratis.
voor wie is dit handig of lastig?
Dit is vooral interessant voor:
- mensen die AI-modellen hosten
- kleine teams die meer uit dure GPU’s willen halen
- partijen die modellen naar veel locaties moeten sturen
- gebruikers die sneller antwoord willen bij drukke inferentie
minder relevant is het voor mensen die alleen een AI-chat openen en verder niets met de techniek doen. Zij merken vooral indirect effect, als de dienst sneller of stabieler wordt.
Slimme tip voor sites en kleine teams
Als je AI gebruikt op een eigen site of in een klein product, let dan vooral op dit soort dingen:
| Punt | waarom het telt |
|---|---|
| GPU-geheugen | bepaalt hoeveel modellen tegelijk passen |
| batchgrootte | beïnvloedt of zo’n slimme route echt loont |
| modelgrootte | grotere modellen voelen dit sneller |
| latency | minder bytes kan snellere antwoorden geven |
| distributie | kleinere bundles zijn fijner voor uitrollen |
Het gaat dus niet alleen om “kleiner = beter”. Soms is een simpele route sneller. Cloudflare zegt daarom dat Unweight per modeldeel en per batch de beste keuze zoekt.
Kleine checklist
- Gebruik je AI op een plek met dure GPU’s? Dan kan minder geheugen echt helpen.
- Verstuur je modellen vaak naar andere locaties? Dan kan een kleinere bundle fijn zijn.
- Heb je strakke latency-eisen? Kijk dan goed naar de echte snelheid, niet alleen naar de compressie.
- Wil je geen ander modelgedrag? Dan is lossless belangrijker dan zware quantisatie.
- Werk je met Cloudflare’s AI-aanpak? Dan is dit een duidelijke stap richting zuiniger draaien.
Nog even dit
Cloudflare zegt dat Unweight open source wordt en dat er ook een technische paper komt. Ze delen dus niet alleen het idee, maar ook de GPU-kernels. De officiële bron staat hier: https://blog.cloudflare.com/unweight-tensor-compression
Als je hierover door wilt lezen, pak dan ook even Cloudflare maakt Flagship om functies veilig aan en uit te zetten mee.
Meer lezen
De officiële uitleg of aankondiging staat ook op Unweight: how we compressed an LLM 22% without sacrificing quality.
Bevers gedachte
Dit is geen grote zichtbare update voor gewone bezoekers. Maar onder de motorkap is het wel slim werk. Minder geheugen, minder bytes, en toch hetzelfde antwoord: dat is precies het soort besparing waar kleine teams en grote platforms allebei iets aan hebben. 🦫
