2y ago

Groq - Inférences de LLM à 500tokens/secondes

Groq is fast, low cost inference.

Démo assez impressionnante qui montre la vitesse d'inférence de leur puces de calculs dedié.La démo est surchargé donc les messages sont dans une file d'attente, mais la vitesse est réelle.