architektur eines serverlosen, ki-gesteuerten.

voraussetzungen

als ich mich daranmachte, ein modernes content-management-system (cms) für technik- und finanzartikel zu entwickeln, stieß ich schnell auf eine grundlegende architektonische herausforderung: wie bringt man die inhärente langsamkeit der ki-inferenz mit der nachfrage nach sofortigen seitenladevorgängen in einklang? die generierung mehrsprachiger finanzinhalte, wie morgendliche briefs oder branchen-spotlights, beinhaltet die orchestrierung von aufrufen an dienste wie die gemini-api für die entwurfserstellung, tavily für die web-recherche und unsere interne technische analyse (ta)-api für marktkenntnisse. dieser prozess ist zustandsbehaftet, ressourcenintensiv und kann leicht mehrere minuten dauern. doch für den endbenutzer fühlt sich alles, was weniger als einstellige millisekunden-seitenladevorgänge bedeutet, träge an. diese spannung zwischen dynamischer, rechenintensiver backend-verarbeitung und blitzschneller benutzererfahrung war das kernproblem, das ich lösen wollte.

in diesem artikel führe ich sie durch meinen ansatz zum aufbau eines solchen systems auf der google cloud platform (gcp). ich habe eine serverlose, modulare architektur entworfen, die ereignisgesteuerte muster nutzt, um langwierige ki-aufgaben von der inhaltsbereitstellung zu entkoppeln. wir werden die strategische nutzung von gcp-diensten für globales edge-routing, asynchrone ki-orchestrierung und unternehmenssicherheit untersuchen. mein ziel war es, ein system zu schaffen, das nicht nur effizient hochwertige, ki-gesteuerte finanzinhalte generiert, sondern diese auch weltweit den benutzern mit kompromissloser geschwindigkeit und zuverlässigkeit liefert.

um die konzepte, die ich besprechen werde, zu verstehen und möglicherweise in ihren eigenen projekten anzuwenden, benötigen sie:

ein google cloud platform (gcp)-konto mit aktivierter abrechnung. sie können sich für ein gcp free tier-konto anmelden, wenn sie keines haben.
die gcloud-cli installiert und konfiguriert. stellen sie sicher, dass sie bei ihrem gcp-projekt authentifiziert sind. installationsanweisungen finden sie in der gcp gcloud-cli-dokumentation.
terraform cli installiert (version 1.0.0+). anweisungen finden sie in der terraform-dokumentation.
python 3.12+ auf ihrem entwicklungsrechner installiert.
entsprechende iam-berechtigungen innerhalb ihres gcp-projekts zum erstellen und verwalten von diensten wie cloud run, pub/sub-themen, cloud storage-buckets und globalen externen application load balancers.

architektur & konzepte: entkopplung von ki und bereitstellung

der aufbau eines cms, das eine ausgeklügelte ki-inhaltsgenerierung effektiv mit einer statischen, latenzarmen bereitstellung verbindet, erfordert einen durchdachten architektonischen ansatz. meine designstrategie basierte auf der entkopplung der langwierigen ki-prozesse von der benutzerorientierten inhaltsbereitstellung unter verwendung eines serverlosen, ereignisgesteuerten musters auf gcp. so habe ich es strukturiert:

1. dynamische ki vs. statische bereitstellung: der kernkonflikt

der grundlegende konflikt, dem ich gegenüberstand, war die natur der inhaltsgenerierung im vergleich zum inhaltsverbrauch. die ki-gesteuerte artikelgenerierung umfasst eine komplexe abfolge von operationen: echtzeit-webrecherche, entwurfserstellung mit großen sprachmodellen, bilderstellung mit diffusionsmodellen und mehrsprachige übersetzung. dieser gesamte prozess ist von natur aus i/o-gebunden und cpu-intensiv und dauert oft mehrere minuten. mein design musste dieses „schwere heben“ vollständig von der endbenutzererfahrung trennen. leser erwarten, dass statische webseiten in einstelligen millisekunden geladen werden, die von einem nahegelegenen edge-standort bereitgestellt werden.

dies führte mich zur implementierung eines hybriden modells: dynamische generierung für autoren und redakteure und statische, am edge zwischengespeicherte bereitstellung für leser. die ki-pipeline ist asynchron und entkoppelt und schiebt fertiggestellte inhalte an eine schnelle bereitstellungsschicht. dies stellt sicher, dass die rechenintensive ki-arbeit niemals die benutzerorientierte latenz beeinträchtigt.

2. serverloses modulares design mit cloud run

meine wahl für die compute-schicht war google cloud run. ich fand es eine leistungsstarke, vollständig verwaltete serverlose plattform, die es mir ermöglichte, containerisierte anwendungen bereitzustellen, die automatisch von null auf tausende von instanzen skalieren. das bedeutete, dass ich nur für die genutzte rechenleistung bezahlte, was perfekt zu unseren finops-zielen passte. für mich liegt die schönheit von cloud run in seiner einfachheit, microservices bereitzustellen, ohne die zugrunde liegende infrastruktur verwalten zu müssen.

das cms selbst läuft als mehrere eigenständige cloud run-dienste, von denen jeder einen bestimmten teil des systems verwaltet:

backend (backend-svc-prod): ein fastapi rest api-dienst, der die kern-content-pipelines verarbeitet, webhooks aufnimmt und die asynchrone aufgabenausführung verwaltet. hier befindet sich die ki-orchestrierungslogik.
frontend (frontend-admin-svc-prod): eine nicegui-basierte verwaltungsoberfläche. dies ermöglicht meinem team, die ki-inhaltsgenerierung zu überwachen, zu überprüfen und manuell auszulösen, was uns eine feingranulare kontrolle über den redaktionellen prozess gibt.
dokumentationsserver (mcp-docs-svc-prod): ein model context protocol (mcp)-server. ich habe diesen erstellt, um die kontextabfrage für das backend bereitzustellen, im wesentlichen als retrieval augmented generation (rag)-dienst für unsere ki-modelle, der ihnen aktuelle, relevante marktinformationen zuführt.

durch die verpackung dieser komponenten als containerisierte microservices aus einem einzigen docker-image habe ich die konsistenz über umgebungen hinweg sichergestellt und unsere bereitstellungs-workflows erheblich vereinfacht.

3. orchestrierung der ki-generierungspipeline mit pub/sub

die größte technische herausforderung, der ich begegnete, war die verwaltung von ausführungs-timeouts. eine vollständige artikelgenerierungspipeline kann die typische synchrone anfrage-timeout eines webdienstes (z. b. cloud run hat ein maximales anfrage-timeout von 900 sekunden) leicht überschreiten. um dies zu umgehen, implementierte ich eine asynchrone, ereignisgesteuerte pipeline mithilfe von cloud scheduler und google cloud pub/sub.

dieses muster ermöglichte es mir, die arbeitslast in einen schnellen, synchronen trigger und eine entkoppelte, asynchrone verarbeitungsphase aufzuteilen. cloud scheduler fungiert als zeitgesteuerter trigger, der in vordefinierten intervallen eine authentifizierte anfrage an unser backend sendet. das backend initiiert schnell den content-erstellungsprozess, speichert seinen zustand und veröffentlicht dann eine nachricht an ein pub/sub-thema. dies ermöglicht es der ursprünglichen anfrage, schnell abgeschlossen zu werden, wodurch das frontend oder der scheduler entlastet wird.

pub/sub liefert diese nachricht dann zuverlässig an eine andere instanz unseres backend-dienstes (konfiguriert als push-abonnement), die die langwierigen aufgaben wie das abrufen von recherchedaten, das generieren von bildern und das übersetzen von inhalten übernimmt. dies löst nicht nur das timeout-problem, sondern bietet auch eine resiliente und skalierbare möglichkeit, unsere content-generierungsaufgaben zu verarbeiten.

4. globale edge-bereitstellung und zero-trust-sicherheit

für die öffentliche inhaltsbereitstellung werden die statischen html-, css- und bilddateien, die durch die ki-pipeline generiert werden, direkt in google cloud storage (gcs)-buckets geschrieben. ich habe einen global external application load balancer konfiguriert, um den öffentlichen traffic (/*) direkt an dieses gcs-backend weiterzuleiten. entscheidend ist, dass cloud cdn diesen inhalt global zwischenspeichert, wodurch eine latenz im einstelligen millisekundenbereich für endbenutzer gewährleistet wird, unabhängig von ihrem geografischen standort. dieses design entkoppelt die dynamische ki-verarbeitung vollständig von der inhaltsbereitstellung und erfüllt somit effektiv unsere anforderung an geringe latenz.

für den administrativen zugriff auf das cms habe ich ein zero-trust-modell mit identity-aware proxy (iap) implementiert. administrative endpunkte (z. b. admin.thecloudarchitect.io) teilen sich denselben load balancer, leiten den traffic jedoch an die cloud run serverless network endpoint groups (negs) weiter. bevor eine anfrage den cloud run-dienst erreicht, fängt iap sie ab, erzwingt die google-konto-authentifizierung und granulare iam-richtlinien. dies bietet eine robuste sicherheitsperimeter, die die angriffsfläche erheblich reduziert. um sensible zugangsdaten, wie api-schlüssel für gemini oder tavily, zu schützen, speichere ich sie sicher im secret manager und injiziere sie zur laufzeit in die cloud run-dienste, wodurch unsere sicherheitsposition weiter verbessert wird.

architektonische übersicht

flowchart td subgraph userinteraction ["user interaction"] enduser["end user"] adminuser["admin user"] end subgraph gcpinfrastructure ["gcp infrastructure"] glb["global external application load balancer"] cdn["cloud cdn"] gcs["cloud storage bucket"] iap["identity-aware proxy"] cloudrunbackend(cloud run backend service) cloudrunfrontend(cloud run frontend service) cloudscheduler["cloud scheduler"] pubsubtopic["cloud pub/sub topic"] pubsubsub(cloud pub/sub push subscription) firestore["firestore database"] secretmanager["secret manager"] end subgraph externalservices ["external ai/data services"] geminiapi(gemini api) tavilyapi(tavily api) imagenapi(imagen 3 api) internalta(internal ta api) end enduser -- https --> glb glb -- static content --> cdn cdn -- cache hit --> enduser cdn -- cache miss --> gcs gcs -- static html/css/images --> glb adminuser -- https --> glb glb -- admin traffic (auth required) --> iap iap -- authenticated --> cloudrunfrontend iap -- authenticated --> cloudrunbackend cloudscheduler -- oidc auth post --> cloudrunbackend cloudrunbackend -- publishes message --> pubsubtopic pubsubtopic -- push message --> pubsubsub pubsubsub -- oidc auth post --> cloudrunbackend cloudrunbackend -- reads/writes --> firestore cloudrunbackend -- accesses --> secretmanager cloudrunbackend -- calls --> geminiapi cloudrunbackend -- calls --> tavilyapi cloudrunbackend -- calls --> imagenapi cloudrunbackend -- calls --> internalta cloudrunfrontend -- interacts with --> cloudrunbackend classdef default fill:#f8fafc,stroke:#cbd5e1,stroke-width:1px,color:#0f172a classdef physical fill:#e2e8f0,stroke:#94a3b8,stroke-width:2px,color:#0f172a classdef network fill:#dbeafe,stroke:#60a5fa,stroke-width:2px,color:#1e3a8a classdef cloud fill:#ede9fe,stroke:#a78bfa,stroke-width:2px,color:#4c1d95 class enduser,adminuser default class glb,cdn network class gcs,iap,cloudrunbackend,cloudrunfrontend,cloudscheduler,pubsubtopic,pubsubsub,firestore,secretmanager cloud class geminiapi,tavilyapi,imagenapi,internalta physical

5. die ki-agentenpipeline: ein mehrstufiger workflow

ich habe das cms so aufgebaut, dass es ki nicht nur als einfachen api-aufruf, sondern als komplexen, mehrstufigen workflow behandelt, der komplett innerhalb des cloudrunbackend-dienstes orchestriert wird. dies ermöglichte es mir, die komplexe artikelgenerierung in überschaubare, beobachtbare schritte zu unterteilen:

datenaufnahme & fundierung: zunächst injiziere ich relevante marktdaten (z. b. top-gewinner/-verlierer, ochlv-daten) in das kontextfenster der eingabeaufforderung. diese daten stammen typischerweise von unserer internen ta-api oder einem speziellen marktdatendienst und liefern dem ki-modell aktuelle, präzise informationen, mit denen es arbeiten kann.
recherche (tavily): je nach artikeltyp habe ich das system so konfiguriert, dass es 1 bis 10 tavily api-aufrufe durchführt. bei einem „sector spotlight“ hilft dies beispielsweise, echtzeit-katalysatoren, übernachtnachrichten oder spezifische unternehmensmeldungen abzurufen, um sicherzustellen, dass die ki-modelle über die aktuellsten externen informationen verfügen.
verfasser (gemini 2.5 flash): ich verwende eine anfängliche prompt-vorlage (typischerweise jinja2-basiert), um gemini 2.5 flash anzuweisen, die rohe json-nutzlast des artikels zu verfassen. gemini 2.5 flash bietet ein hervorragendes gleichgewicht zwischen leistung und kosteneffizienz, was es ideal für die schnelle und kostengünstige generierung erster entwürfe macht.
redakteur (gemini 2.5 pro): sobald der entwurf fertig ist, überprüft ein stärkeres, leistungsfähigeres modell, gemini 2.5 pro, ihn. dieser kritische schritt prüft ton, genauigkeit, faktische konsistenz und die richtige formatierung. dieser multi-modell-ansatz ermöglicht es mir, die spezifischen stärken jedes modells zu nutzen und gleichzeitig die gesamtkosten zu optimieren.
visuelles (imagen 3): während des entwurfsprozesses generiert gemini 2.5 flash auch eigenständige, beschreibende prompts für visuelle elemente – typischerweise ein 16:9-hero-bild und ein 1:1-unterstützungsbild. diese prompts werden dann an imagen 3, googles fortschrittliches text-zu-bild-diffusionsmodell, weitergegeben, um hochwertige visuals für den artikel zu generieren.
übersetzung: schließlich wird der englische text an gemini (entweder flash oder pro, je nach erforderlichem qualität-kosten-kompromiss für die übersetzung) zur lokalisierung in zielsprachen wie deutsch (de), spanisch (es), französisch (fr), italienisch (it) und niederländisch (nl) zurückgegeben. diese übersetzten versionen sind ebenfalls teil des statischen inhalts, der über cloud cdn bereitgestellt wird.

6. finops: kosten und leistung ausbalancieren

der betrieb großer sprachmodelle und globaler cloud-infrastrukturen kann schnell kostspielig werden, wenn er nicht sorgfältig verwaltet wird. meine architektur verwendet strenge finops-kontrollen, um die effizienz aufrechtzuerhalten und sicherzustellen, dass wir den maximalen wert für unsere ausgaben erhalten.

6.1. stückkosten eines ki-artikels

durch sorgfältige auswahl der modelle und optimierung der api-aufrufe konnte ich die kosten pro artikel außergewöhnlich niedrig halten. die verwendung von gemini 2.5 flash für die massenentwurfserstellung und das prompt-engineering sowie die reservierung von gemini 2.5 pro nur für den kritischen redaktionellen durchgang wirken sich erheblich auf die gesamtkosten aus. hier ist eine aufschlüsselung basierend auf den aktuellen preisen (ungefähr 1 $ ≈ 0,92 €):

tavily (recherche): typischerweise ~0,02 € – 0,07 € (~0,02 $ – 0,08 $) pro artikel, abhängig von der anzahl der suchanfragen.
gemini (autor/redakteur/prompts/übersetzungen): ca. ~0,05 € (~0,055 $) für alle gemini-interaktionen.
imagen (2 bilder): die generierung von zwei hochauflösenden bildern kostet ~0,05 € – 0,07 € (~0,06 $ – 0,08 $).
gesamtkosten pro vollständig veröffentlichtem, mehrsprachigem artikel: ~0,13 € – 0,15 € (~0,14 $ – 0,16 $).

dies zeigt die leistungsfähigkeit einer fein abgestimmten ki-pipeline, um eine bemerkenswerte kosteneffizienz zu erzielen.

optimierung der ki-modellnutzung für kosteneffizienz

als ich anfing, generative ki zu integrieren, zog ich zunächst in betracht, für jeden schritt die leistungsstärksten modelle zu verwenden. ich erkannte jedoch schnell, dass ich durch die strategische auswahl von modellen basierend auf ihren aufgabenspezifischen stärken und kostenprofilen – wie die verwendung von gemini 2.5 flash für erste entwürfe und die reservierung von gemini 2.5 pro für die kritische bearbeitung – die pro-artikel-kosten drastisch senken konnte, ohne die qualität zu beeinträchtigen. dieser gestaffelte ansatz ermöglichte es mir, meine inhaltsgenerierung effizient zu skalieren und gleichzeitig unser budget im griff zu behalten. ich habe telemetrie hinzugefügt, um prompt-, ausgabe- und denk-tokens zu überwachen – ein budget für letztere festzulegen (vorsicht, denken ist standardmäßig aktiviert und verbraucht viel!)

6.2. scale-to-zero und kaltstart-mitigation

die fähigkeit von cloud run, im leerlauf auf null instanzen zu skalieren, ist ein enormer finops-gewinn, da die computekosten außerhalb der spitzenzeiten erheblich gesenkt werden. dies birgt jedoch das potenzial für kaltstarts (typischerweise 5-15 sekunden latenz) für benutzerorientierte dienste, insbesondere unser admin-frontend oder intraday-api-trigger. um dies zu mindern, ohne kontinuierliche kosten durch ständig aktive instanzen zu verursachen, habe ich einen dedizierten cloud scheduler „keep-warm“-job eingesetzt.

dieser job pingt sowohl das backend (/health?deep=true) als auch das frontend (/health) alle 14 minuten an, und zwar streng während der europäischen geschäftszeiten (06:00 – 22:00 cet). dies stellt sicher, dass während unserer betriebszeiten kritische dienste warm und reaktionsschnell sind, während sie nachts und an wochenenden weiterhin auf null skalieren können, wodurch die kosteneinsparungen maximiert werden.

fazit

der aufbau dieses serverlosen, ki-gesteuerten multi-domain-cms auf google cloud war eine übung darin, scheinbar widersprüchliche anforderungen in einklang zu bringen: die rechenintensität generativer ki gegenüber dem bedarf an einer benutzerorientierten latenz von unter einer sekunde. meine reise durch dieses projekt hat die leistungsfähigkeit einer modularen, ereignisgesteuerten architektur, insbesondere in kombination mit serverlosen angeboten wie cloud run und pub/sub, verstärkt.

durch die sorgfältige entkopplung der dynamischen ki-generierungspipeline von der statischen inhaltsbereitstellung habe ich sowohl robuste inhaltsgenerierungsfunktionen als auch eine weltweit leistungsfähige benutzererfahrung erzielt. die nutzung von cloud cdn für das edge-caching und die implementierung eines zero-trust-sicherheitsmodells mit iap und secret manager stellten sicher, dass das system nicht nur schnell, sondern auch sicher und zuverlässig ist. die finops-überlegungen, insbesondere die gestaffelte nutzung von ki-modellen und die strategische kaltstart-mitigation, erwiesen sich als entscheidend, um den gesamten betrieb wirtschaftlich rentabel zu machen.

wenn sie ki in ihre inhalts-workflows integrieren möchten, während sie gleichzeitig eine hohe leistung und strenge kostenkontrollen aufrechterhalten, empfehle ich ihnen, einen ähnlichen entkoppelten, serverlosen ansatz zu wählen. experimentieren sie mit verschiedenen ki-modellen für verschiedene phasen ihrer pipeline, um das optimale gleichgewicht zwischen qualität und kosten zu finden. ihr nächster umsetzbarer schritt könnte darin bestehen, einen einfachen ereignisgesteuerten inhaltsgenerierungs-workflow mit cloud run und pub/sub zu prototypen, beginnend mit einem einzigen ki-modell, um ein gefühl für die asynchrone orchestrierung zu bekommen.

architektur eines serverlosen, ki-gesteuerten multi-domain-cms auf google cloud

Mark