Groq - Inférences de LLM à 500tokens/secondes
Groq - Inférences de LLM à 500tokens/secondes
groq.com
Groq is fast, low cost inference.

Démo assez impressionnante qui montre la vitesse d'inférence de leur puces de calculs dedié.La démo est surchargé donc les messages sont dans une file d'attente, mais la vitesse est réelle.