In den letzten Jahren drehte sich die Diskussion rund um KI vor allem um den Zugriff: die Bereitstellung von Modellen für die Teams, schnelles Experimentieren und Testen von Anwendungsfällen. Dieses Kapitel neigt sich nun dem Ende zu. Unternehmen stellen sich heute andere Fragen: Wer kontrolliert das Modell? Wo werden die Daten gespeichert? Was passiert bei einem Ausfall?
Stellen Sie sich ein Krankenhaus vor, das KI zur Diagnose einer Lungenentzündung anhand von Röntgenaufnahmen des Brustkorbs einsetzt. Ein Patient stellt sich mit Atemnot vor. Der Arzt lädt den Scan hoch und wartet, doch das System reagiert nicht – das Modell, auf das sich die Diagnose-App stützt, wird in der Public Cloud gehostet und ist vorübergehend nicht verfügbar.
Im Gesundheitswesen spielt eine solche Verzögerung eine Rolle. Dieses Szenario ist es wert, genauer betrachtet zu werden, denn es spricht einen Punkt an, der in Diskussionen über KI oft zu kurz kommt: Wo Ihr Modell ausgeführt wird, ist genauso wichtig wie die Frage, welches Modell Sie einsetzen.
Die Public Cloud hat KI für eine Vielzahl von Unternehmen zugänglich gemacht, wodurch ein echter Mehrwert entsteht. Gleichzeitig wird bei Anwendungen, bei denen die Verfügbarkeit nicht verhandelbar ist, die Einführung externer Abhängigkeiten zu einer wichtigen architektonischen Überlegung.
Eine Möglichkeit ist die Betrachtung anhand der Erwartungen an die Verfügbarkeit. Ein Service Level Agreement (SLA) mit 99,9 % Verfügbarkeit erlaubt immer noch fast neun Stunden Ausfallzeit pro Jahr. Für eine Verbraucher-App ist das eine Unannehmlichkeit. Im Falle eines radiologischen Systems in einem Krankenhaus, einer Handelsplattform, die Millionen von Transaktionen abwickelt, oder eines Tools für das Flugverkehrsmanagement können selbst kurze Unterbrechungen eine zusätzliche Planung erforderlich machen.
Wenn externe Dienste Teil des Stacks sind, werden einige Aspekte der Zuverlässigkeit zwischen den Anbietern geteilt. Da KI zunehmend in immer wichtigeren Bereichen des Unternehmens zum Einsatz kommt, ergänzen Teams sie oft durch zusätzliche Designaspekte, wie Ausweichstrategien und Flexibilität bei der Bereitstellung, um sie an ihre spezifischen Anforderungen anzupassen.
Im Gegensatz dazu können Sie, wenn Sie KI dort betreiben, wo Ihre Daten bereits gespeichert sind, die Umgebung wählen, die Ihren Anforderungen entspricht, und vor allem die Kontrolle über die Systemzuverlässigkeit behalten.
Mit dem Cloudera AI Inference Service können Modelle lokal, in einer Private Cloud oder in einer Hybrid-Umgebung bereitgestellt werden. Dank dieser Flexibilität können Teams die Inferenz an ihre Daten, Workloads und ihr Risikoprofil anpassen, ohne alles über eine einzige Architektur abwickeln zu müssen.
In der Praxis sieht das folgendermaßen aus:
Betriebskontinuität: Ihre Anwendungen laufen unabhängig von den Geschehnissen außerhalb Ihres Unternehmensnetzwerks weiter
Vorhersehbare Kosten: Abkehr von variabler Preisgestaltung (zum Beispiel pro Anruf) hin zu einer Berechnung, die Sie kontrollieren und planen können
Leistung in Echtzeit: Wie in unserer Radiologie-Demo gezeigt, wurde die Bildanalyse in weniger als einer Sekunde abgeschlossen, sodass Mediziner sofort Ergebnisse erhielten
Zusätzlich zu dieser Grundlage erhalten Teams standardmäßig Modellflexibilität. Ein sorgfältig zusammengestelltes Register von KI-Modellen – darunter Anbieter wie NVIDIA, Cohere und Mistral AI – erleichtert die Auswahl des richtigen Modells für jeden Anwendungsfall. Und da keine Anbieterbindung besteht, sind Sie nicht von der Roadmap eines einzelnen Anbieters abhängig und können KI-Modelle wechseln, sobald bessere Alternativen verfügbar sind.
Alles ist von Anfang an auf die Produktion ausgelegt. Automatische Skalierung fängt Nachfragespitzen ab, Hochverfügbarkeit beseitigt einzelne Fehlerquellen und Leistungsoptimierungen für Reaktionszeiten unter einer Sekunde sind direkt in die Bereitstellung integriert und werden nicht nachträglich hinzugefügt.
Governance ist durchgängig eingebettet. Ein KI-Gateway setzt Zugriffskontrolle und Richtlinien durch, bevor Anfragen ein Modell erreichen, während eine Überwachungsebene kontinuierliche Transparenz über Latenz, Durchsatz und Ressourcennutzung bietet.
Das Ergebnis ist ein System, bei dem die gesamte Inferenzpipeline unter Ihrer Kontrolle bleibt – von der Modellauswahl bis zur Produktionsausführung – und Ihnen gleichzeitig die Flexibilität bietet, KI dort einzusetzen, wo sie am besten funktioniert.
Für das Gesundheitswesen, Finanzdienstleistungen oder die nationale Sicherheit ist der Datenschutz eine gesetzliche Verpflichtung. Wenn Eingaben, Ausgaben und Prompts eines Modells zur Inferenz an einen externen Anbieter weitergeleitet werden, geht es nicht mehr nur um Latenzzeiten, sondern auch um die Einhaltung von Vorschriften und die Wahrung der Souveränität.
Überlegen Sie sich, was bei einem Inferenzaufruf tatsächlich übertragen wird. In der Radiologie könnte es sich dabei um einen Patientenscan handeln, der mit einer Patientenakte verknüpft ist. Im Finanzdienstleistungssektor könnte es sich um einen Transaktionsverlauf handeln, die zur Erkennung von Betrugsfällen genutzt wird. Im juristischen oder verteidigungspolitischen Kontext könnten es Dokumente sein, die von Natur aus sensibel sind. Jeder dieser Aufrufe stellt eine Datenübertragung dar und bei externen APIs überschreitet diese Übertragung eine Grenze, die Sie nicht vollständig kontrollieren können.
Wenn die Inferenz lokal oder in einer Private Cloud erfolgt, bleiben die Daten dort, wo sie hingehören, die proprietären Modelle bleiben vollständig im Besitz des Unternehmens und die Audit-Trails verbleiben intern. Dank der integrierten Observability erhalten Teams in Echtzeit Einblicke in Latenzen und Ressourcennutzung, ohne dass dabei ein externer Anbieter involviert ist. Dies ist sowohl für die Compliance-Berichterstattung als auch für das Verständnis des tatsächlichen Verhaltens Ihrer Modelle in der Produktion von Bedeutung.
KI sollte eine Bereicherung sein, die Ihre Systeme zuverlässiger macht, nicht eine neue Fehlerquelle. Im Gesundheitswesen werden die Auswirkungen besonders deutlich, doch die gleiche Logik gilt überall dort, wo die Folgen von Ausfallzeiten gravierend sind: Produktionslinien, Echtzeit-Finanzsysteme und Logistiknetzwerke. Um Ausfallzeiten zu minimieren und die Vorteile von KI zu nutzen, müssen Unternehmen gezielt Hybrid-Architekturen aufbauen, damit ihre wichtigsten Workloads auf einer Infrastruktur ausgeführt werden, die sie kontrollieren.
Neugierig, wie das in der Praxis aussieht?
Sehen Sie sich die vollständige Cloudera AI Inference-Demo an.
This may have been caused by one of the following: