- cross-posted to:
- hackernews@lemmy.bestiver.se
- cross-posted to:
- hackernews@lemmy.bestiver.se
I Anthropic’s nylancerede Claude Opus 4.8 model, kan man sætte dens thinking level til Hyper Ultra Kodyl Max (eller noget i den stil). Så kører den agenter i et workflow og vender tilbage med et mærkbart bedre resultat, end 4.7 kunne levere. Prøvede den i mit kodeprojekt (aikemi.eu) - jeg er både imponeret og brændt tør for tokens. 😶 Hvad er jeres erfaringer med 4.7 vs 4.8?


Jeg har virkelig prøvet at få lokale modeller til at fungere. Hvis jeg installere Gemma4 eller Qwen med Ollama opfører de sig som om de var modeller fra 2020. Er der noget jeg gør forkert? Jeg kunne ikke få Gemma eller Qwen til at forstå “List the contents of the current working directory”.
Hvilken variant bruger du? Noget, som er quantizised for hårdt? Selv med nogenlunde-OK-modeller som Gemma 4 eller Qwen 3.6 kan du få ringe resultater selv på simple forespørgsler, hvis du har for få VRAM (under ~16 GB) eller kører en for hårdt kvantiseret LLM variant. Bruger du standardindstillinger, eller har du pillet ved temperatur og alt det dér? (i 99% tilfælde kører jeg selv bare standard og rører ikke ved avancerede indstillinger, men måske det kan gøre noget for dig)
En god sweetspot model til et middelmådet grafikkort er vel en Q4/IQ4/Q3 GGUF-variant af https://huggingface.co/unsloth/Qwen3.6-35B-A3B-GGUF eller https://huggingface.co/unsloth/gemma-4-26B-A4B-it-GGUF fra Unsloth, der offloader til din CPU.
Jeg har ikke rørt indstillinger. Jeg brugte
ollama pull qwen3:14bmen jeg ved ikke hvor den hiver modeller fra eller hvordan de er quantized. Eller om de overhovedet er quantized, går det nu op for mig, og faktisk bare er en 14b model…Jeg har 16G VRAM og 48G RAM men lad os sige ~30G brugbart RAM Hvad vil du sige jeg skal bruge? Jeg har det fint med at lortet bliver offloaded og er langsomt. Hvad software stack bruger du?
Yatzi. Gå efter deres nyere MoE (Mixture of Experts) model - altså f.eks. “Qwen3.6-35B-A3B-GGUF”, som er på 35B paramentere, hvoraf kun 3B aktiveres.
Hmm… ja, du skal sikre dig, at de har den nødvendige adgang til dit drev. Kan ikke huske, hvad det hedder, men det er et tool, som man kan give visse modeller i visser miljøer, som jeg forstår det.
Tjah, hvis jeg var dig, ville jeg nok stadig prøve at få en GGUF model til at fungere, som ikke er meget større, end at dit grafikkort kan trække hovedparten af arbejdet.
Jeg har 16GB VRAM og 32GB gammel-langsom-RAM (DDRv4 tror jeg endda). Rodder for lidt med lokal LLM. Bruger mest VS Code med Claude Code. Men når jeg endelig prøver at få en lokal model til at arte sig, så er det med super-lette løsninger, som f.eks. Jan.ai, hvor det bare er til ren instruktionstekst. En overgang brugte vi lokal billedgenerering til på arbejde vha. ComfyUI, men nu bruger vi bare replicate som platform til proprietære online-modeller - ingen stats- eller virksomhedshemmeligheder dér.
Er ‘Vision’ noget jeg kan spare væk? Jeg skal kun bruge text input.Ja, åbenbart.