I Anthropic’s nylancerede Claude Opus 4.8 model, kan man sætte dens thinking level til Hyper Ultra Kodyl Max (eller noget i den stil). Så kører den agenter i et workflow og vender tilbage med et mærkbart bedre resultat, end 4.7 kunne levere. Prøvede den i mit kodeprojekt (aikemi.eu) - jeg er både imponeret og brændt tør for tokens. 😶 Hvad er jeres erfaringer med 4.7 vs 4.8?

  • drkt
    link
    fedilink
    arrow-up
    3
    ·
    13 days ago

    Jeg har virkelig prøvet at få lokale modeller til at fungere. Hvis jeg installere Gemma4 eller Qwen med Ollama opfører de sig som om de var modeller fra 2020. Er der noget jeg gør forkert? Jeg kunne ikke få Gemma eller Qwen til at forstå “List the contents of the current working directory”.

    • farsinuce@feddit.dkOP
      link
      fedilink
      arrow-up
      2
      ·
      edit-2
      13 days ago

      Hvilken variant bruger du? Noget, som er quantizised for hårdt? Selv med nogenlunde-OK-modeller som Gemma 4 eller Qwen 3.6 kan du få ringe resultater selv på simple forespørgsler, hvis du har for få VRAM (under ~16 GB) eller kører en for hårdt kvantiseret LLM variant. Bruger du standardindstillinger, eller har du pillet ved temperatur og alt det dér? (i 99% tilfælde kører jeg selv bare standard og rører ikke ved avancerede indstillinger, men måske det kan gøre noget for dig)

      En god sweetspot model til et middelmådet grafikkort er vel en Q4/IQ4/Q3 GGUF-variant af https://huggingface.co/unsloth/Qwen3.6-35B-A3B-GGUF eller https://huggingface.co/unsloth/gemma-4-26B-A4B-it-GGUF fra Unsloth, der offloader til din CPU.

      • drkt
        link
        fedilink
        arrow-up
        3
        ·
        13 days ago

        Jeg har ikke rørt indstillinger. Jeg brugte ollama pull qwen3:14b men jeg ved ikke hvor den hiver modeller fra eller hvordan de er quantized. Eller om de overhovedet er quantized, går det nu op for mig, og faktisk bare er en 14b model…

        Jeg har 16G VRAM og 48G RAM men lad os sige ~30G brugbart RAM Hvad vil du sige jeg skal bruge? Jeg har det fint med at lortet bliver offloaded og er langsomt. Hvad software stack bruger du?

        • farsinuce@feddit.dkOP
          link
          fedilink
          arrow-up
          2
          ·
          edit-2
          13 days ago

          går det nu op for mig, og faktisk bare er en 14b model…

          Yatzi. Gå efter deres nyere MoE (Mixture of Experts) model - altså f.eks. “Qwen3.6-35B-A3B-GGUF”, som er på 35B paramentere, hvoraf kun 3B aktiveres.

          Jeg kunne ikke få Gemma eller Qwen til at forstå “List the contents of the current working directory”.

          Hmm… ja, du skal sikre dig, at de har den nødvendige adgang til dit drev. Kan ikke huske, hvad det hedder, men det er et tool, som man kan give visse modeller i visser miljøer, som jeg forstår det.

          Jeg har det fint med at lortet bliver offloaded og er langsomt.

          Tjah, hvis jeg var dig, ville jeg nok stadig prøve at få en GGUF model til at fungere, som ikke er meget større, end at dit grafikkort kan trække hovedparten af arbejdet.

          Hvad software stack bruger du?

          Jeg har 16GB VRAM og 32GB gammel-langsom-RAM (DDRv4 tror jeg endda). Rodder for lidt med lokal LLM. Bruger mest VS Code med Claude Code. Men når jeg endelig prøver at få en lokal model til at arte sig, så er det med super-lette løsninger, som f.eks. Jan.ai, hvor det bare er til ren instruktionstekst. En overgang brugte vi lokal billedgenerering til på arbejde vha. ComfyUI, men nu bruger vi bare replicate som platform til proprietære online-modeller - ingen stats- eller virksomhedshemmeligheder dér.

          • drkt
            link
            fedilink
            arrow-up
            3
            ·
            edit-2
            13 days ago

            Er ‘Vision’ noget jeg kan spare væk? Jeg skal kun bruge text input.

            Ja, åbenbart.