Das Interesse der Unternehmen an generativer und agentischer KI hat in den letzten zwei Jahren dramatisch zugenommen. Unternehmen aus verschiedenen Branchen prüfen derzeit, wie KI-Agenten, intelligente Assistenten und Automatisierung die Produktivität steigern, Abläufe optimieren und aus den wachsenden Mengen an Unternehmensdaten wertvolle Erkenntnisse gewinnen können. Doch mit wachsendem Enthusiasmus nehmen auch Fragen zu Kosten, Sicherheit und betrieblicher Komplexität zu.
Eine Realität wird immer deutlicher: Nicht jeder KI-Workload erfordert Grafikprozessoren (GPUs) oder massive Foundation-Modelle. Tatsächlich lassen sich viele hochwertige Anwendungsfälle in Unternehmen effizient mit zentralen Verarbeitungseinheiten (CPUs) und kleineren, aufgabenorientierten Sprachmodellen realisieren, insbesondere wenn diese in der Nähe der Daten eingesetzt werden, denen sie dienen.
Immer mehr Unternehmen überprüfen ihre KI-Strategien mittlerweile unter diesem Gesichtspunkt. Anstatt Skalierung um jeden Preis anzustreben, stellen sie den Return on Intelligence in den Vordergrund: die Fähigkeit, KI-Lösungen sicher, wirtschaftlich und im großen Maßstab einzusetzen. Dieser Wandel prägt, wie Unternehmen über Infrastruktur, Datenarchitektur und Governance nachdenken, während KI von der Experimentierphase in den Produktionsbetrieb übergeht.
Studien der Enterprise Strategy Group (mittlerweile Teil von Omdia) zeigen, dass etwa 80 % der Unternehmen KI-Agenten als oberste oder hohe geschäftliche Priorität betrachten. Diese Lösungen versprechen konkrete Vorteile durch Automatisierung, schnellere Entscheidungsfindung sowie eine verbesserte Mitarbeiter- und Kundenerfahrung. Viele Unternehmen haben jedoch weiterhin mit den Kosten und dem Betriebsaufwand zu kämpfen, die mit GPU-zentrierten Bereitstellungen verbunden sind.
Die GPU-Infrastruktur kann erhebliche Kapitalausgaben, Stromverbrauch und Einschränkungen in der Lieferkette verursachen. Bei vielen echtzeitbasierten Inferenz- und wissensgesteuerten Workloads kann dieser Ansatz nicht den geschäftlichen Anforderungen entsprechen. Infolgedessen suchen Unternehmen zunehmend nach Alternativen, die die Rechenressourcen besser an die Anforderungen der Workloads anpassen.
Hier hat sich die CPU-basierte KI in Kombination mit kleineren Sprachmodellen als praktikable Option erwiesen. Anstatt auf möglichst umfangreiche Modelle zu setzen, nutzen Unternehmen die ihnen bereits zur Verfügung stehenden Ressourcen, um ihre Budgetprobleme beim Kauf oder der Nutzung von GPUs zu bewältigen. Hierbei geht es um die richtige Dimensionierung von KI-Architekturen, die Effizienz, Sicherheit und Skalierbarkeit in den Vordergrund stellen.
Kleine Sprachmodelle (SLMs) sind darauf ausgelegt, spezifische Aufgaben in Unternehmen zu erfüllen, wie z. B. Zusammenfassung, Beantwortung von Fragen, Inhaltsgenerierung und Codeunterstützung. SLMs enthalten typischerweise weit weniger Parameter als große Sprachmodelle und können daher effektiv auf modernen CPUs ausgeführt werden, während sie gleichzeitig eine hohe Leistung für gezielte Anwendungsfälle bieten.
Dieser Ansatz bietet mehrere Vorteile. CPU-basierte Inferenz reduziert die Infrastrukturkosten, senkt den Stromverbrauch und vereinfacht die Bereitstellung. Darüber hinaus ermöglicht sie Unternehmen, KI-Workloads in bestehenden Rechenzentren oder privaten Cloud-Umgebungen auszuführen und so Bedenken hinsichtlich Datensouveränität und Einhaltung gesetzlicher Bestimmungen auszuräumen.
In diesem Kontext hat Cloudera seine Private-KI-Strategie darauf ausgerichtet, Unternehmen die Möglichkeit zu geben, KI-Systeme vollständig in ihren eigenen kontrollierten Umgebungen einzusetzen und zu betreiben. Durch die Kombination einer Open-Data-Lakehouse-Architektur mit integrierter Governance und MLOps-Funktionen unterstützt Cloudera die KI-Entwicklung, die nah an Unternehmensdaten bleibt.
Die Effektivität von CPU-basierter KI hängt stark von der zugrunde liegenden Infrastruktur ab. Fortschritte bei modernen Prozessoren haben das Preis-Leistungs-Verhältnis für Analyse- und Inferenz-Workloads deutlich verbessert. AMD EPYC™-Prozessoren sind beispielsweise darauf ausgelegt, eine hohe Kerndichte, starke Speicherbandbreite und integrierte Sicherheitsfunktionen zu liefern, was sie gut für KI-Inferenz und datenintensive Workloads geeignet macht.
Bei der Bereitstellung auf Unternehmenssystemen von Dell Technologies können Unternehmen KI-Workloads zuverlässig skalieren und gleichzeitig validierte Architekturen nutzen, die für Daten- und KI-Plattformen optimiert sind. Diese Kombination ermöglicht es Unternehmen, ihre KI-Fähigkeiten zu modernisieren, ohne ihre gesamte Infrastrukturstruktur neu gestalten zu müssen.
Aus operativer Sicht ermöglicht dieses Modell Unternehmen, bestehende Investitionen weiter zu nutzen, Bereitstellungszeiten zu verkürzen und die Abhängigkeit von spezialisierter Hardware zu verringern. In diesen Szenarien liegt der Schwerpunkt nicht auf der Modellgröße, sondern auf Effizienz, Reaktionsfähigkeit und Vertrauen.
Viele der wertvollsten KI-Anwendungen von heute können effizient auf CPUs ausgeführt werden, ohne dass massive Modelle oder GPU-Beschleunigung erforderlich sind. Dies umfasst Folgendes:
Interne Wissensassistenten
Unternehmen speichern oft wichtiges Wissen in Dokumenten, E-Mails und Reports. Durch die Anwendung von SLMs auf diese Daten können Unternehmen den Zugriff auf interne Informationen in natürlicher Sprache ermöglichen, die Entscheidungsfindung verbessern und gleichzeitig sensible Daten lokal speichern.
Mitarbeiter- und Agenten-gestützte Chatbots
Teams aus Personalwesen, IT und Kundensupport werden häufig mit wiederkehrenden Fragen konfrontiert, die durch sichere, interne Chatbots automatisiert werden können. CPU-basierte KI ermöglicht jederzeit verfügbare Unterstützung, ohne eine externe Offenlegung von Daten zu verursachen.
Inhalts- und Dokumentationsgenerierung
Marketing-, Compliance- und Engineering-Teams generieren häufig wiederholende Inhalte. KI-gestützte Generierung und Zusammenfassung können Workflows beschleunigen und gleichzeitig Konsistenz und Richtlinienkonformität gewährleisten.
Unterstützung bei der Softwareentwicklung
SLM-gestützte Assistenten können Codeschnipsel, Tests und Dokumentationen innerhalb von Unternehmens-Firewalls generieren und so Entwicklungsteams dabei helfen, die Produktivität zu steigern, ohne geistiges Eigentum an öffentliche KI-Dienste zu senden.
Vorhersagende Analyse und Optimierung
In der Fertigung und im Betrieb analysieren CPU-basierte KI-Modelle Sensor- und Betriebsdaten, um Ausfälle vorherzusagen und die Leistung zu optimieren, wodurch Ausfallzeiten und Betriebskosten reduziert werden.
Trotz der weit verbreiteten Cloud-Nutzung verbleibt ein erheblicher Teil der Unternehmensdaten vor Ort. Laut einer Studie von Omdia speichern viele Unternehmen zwischen 26 % und 75 % ihrer Daten in lokalen oder privaten Umgebungen. Diese Datengravitation stellt Herausforderungen dar, wenn die KI-Verarbeitung die Verlagerung sensibler Informationen auf externe Plattformen erfordert.
Private-KI-Architekturen begegnen dieser Herausforderung, indem sie die KI zu den Daten bringen und nicht umgekehrt. Durch die Ausführung von KI-Workloads in bestehenden Umgebungen können Unternehmen die Latenzzeiten verringern, die Leistung verbessern und die Einhaltung von Vorschriften wie der DSGVO, HIPAA und branchenspezifischen Auflagen gewährleisten.
Der Ansatz von Cloudera integriert Datenakquise, Governance, Modellmanagement und Bereitstellung auf einer einzigen Plattform. In Kombination mit einer CPU-basierten Infrastruktur können Unternehmen effizienter von Pilotprojekten zur Produktions-KI übergehen.
Eines der größten Hindernisse für die Einführung von KI ist die Kluft zwischen dem Proof-of-Concept und der produktiven Umsetzung. CPU-basierte KI-Architekturen tragen dazu bei, diese Lücke zu schließen, indem sie die Kosten und die Komplexität des Betriebs senken.
Unternehmen, die diesen Ansatz verfolgen, berichten von verschiedenen Ergebnissen:
Diese Vorteile bekräftigen den wachsenden Konsens, dass der Erfolg von KI in Unternehmen ebenso sehr von Wirtschaftlichkeit und Governance wie von der Modellleistung abhängt.
Die nächste Phase der KI in Unternehmen wird nicht durch die größten Modelle oder die leistungsstärkste Hardware definiert werden. Stattdessen wird sie von Unternehmen geprägt sein, die KI sicher, wirtschaftlich und im großem Maßstab einsetzen können, wobei Architekturen verwendet werden, die auf die tatsächlichen Geschäftsanforderungen abgestimmt sind.
Durch die Kombination der Daten- und Governance-Plattform von Cloudera mit AMD EPYC-Prozessoren und der Infrastruktur von Dell Technologies steht Unternehmen ein praktikabler Weg zur Verfügung, um KI in ihren eigenen Umgebungen einzusetzen. Dieser Ansatz ermöglicht es Unternehmen, sich auf die Ergebnisse und nicht auf die Komplexität der Infrastruktur zu konzentrieren, und den KI-Wert dort zu erschließen, wo ihre Daten bereits vorhanden sind.
Da Unternehmen KI-Initiativen zunehmend von der Experimentierphase in die Produktion überführen, dürften praktische, CPU-basierte Private-KI-Architekturen eine immer wichtigere Rolle spielen.
Um mehr über die Realisierung kosteneffizienter KI-Lösungen mit Cloudera, AMD und Dell Technologies zu erfahren, laden Sie den Omdia Showcase Brief herunter.
This may have been caused by one of the following: