Große Sprachmodelle (LLMs) haben erhebliche Fortschritte bei der Textgenerierung, Problemlösung und der Befolgung von Anweisungen gemacht. Da Unternehmen LLMs verwenden, um hochmoderne Lösungen zu entwickeln, wird der Bedarf an skalierbaren, sicheren und effizienten Deployment-Plattformen immer wichtiger. Kubernetes ist zur bevorzugten Option für Skalierbarkeit, Flexibilität, Portabilität und Resilienz geworden.
In dieser Demo zeigen wir, wie Sie optimierte LLM-Inferenzcontainer auf Oracle Cloud Infrastructure Container Engine for Kubernetes (OKE) bereitstellen, einem verwalteten Kubernetes-Service, der Deployments und Vorgänge in großem Maßstab für Unternehmen vereinfacht. Mit dem Service können sie das benutzerdefinierte Modell und die benutzerdefinierten Datasets in ihrem eigenen Mandanten beibehalten, ohne sich auf eine Inferenz-API eines Drittanbieters zu verlassen.
Wir verwenden Text Generation Inference (TGI) als Inferenz-Framework, um die LLMs zur Verfügung zu stellen.