In diesem Dokument werden die Anforderungen für die Netzwerkkonfiguration von Dataproc Serverless for Spark beschrieben.
Anforderungen an Virtual Private Cloud-Unternetze
In diesem Dokument werden die Anforderungen an das Virtual Private Cloud-Netzwerk für Dataproc Serverless für Spark-Batcharbeitslasten und interaktive Sitzungen erläutert.
Privater Google-Zugriff
Dataproc Serverless-Batcharbeitslasten und interaktive Sitzungen werden nur auf VMs mit internen IP-Adressen und in einem regionalen Subnetz ausgeführt, in dem der private Google-Zugriff (PGA) automatisch im Sitzungssubnetz aktiviert ist.
Wenn Sie kein Subnetz angeben, wählt Dataproc Serverless das default
-Subnetz in der Region der Batcharbeitslast oder Sitzung als Subnetz für eine Batcharbeitslast oder Sitzung aus.
Wenn für Ihre Arbeitslast ein externer Netzwerk- oder Internetzugriff erforderlich ist, z. B. um Ressourcen wie ML-Modelle von PyTorch Hub oder Hugging Face herunterzuladen, können Sie Cloud NAT einrichten, um ausgehenden Traffic mit internen IP-Adressen in Ihrem VPC-Netzwerk zuzulassen.
Subnetzverbindung öffnen
Das VPC-Subnetz für die Region, die für die serverlose Dataproc-Batcharbeitslast oder die interaktive Sitzung ausgewählt wurde, muss die interne Subnetzkommunikation auf allen Ports zwischen VM-Instanzen zulassen.
Mit dem folgenden Google Cloud CLI-Befehl wird eine Netzwerk-Firewall mit einem Subnetz verbunden, das die internen Eingangskommunikationen zwischen VMs über alle Protokolle und Ports zulässt:
gcloud compute firewall-rules create allow-internal-ingress \ --network=NETWORK_NAME \ --source-ranges=SUBNET_RANGES \ --destination-ranges=SUBNET_RANGES \ --direction=ingress \ --action=allow \ --rules=all
Hinweise:
SUBNET_RANGES: Weitere Informationen finden Sie unter Interne eingehende Verbindungen zwischen VMs zulassen. Das VPC-Netzwerk
default
in einem Projekt mit der Firewallregeldefault-allow-internal
, die die eingehenden Verbindungen an allen Ports (tcp:0-65535
,udp:0-65535
undicmp protocols:ports
) zulässt, erfüllt die Anforderung an die offene Subnetzverbindung. Diese Regel erlaubt jedoch auch den Eintritt von jeder VM-Instanz im Netzwerk.
Dataproc Serverless und VPC-SC-Netzwerke
Mit VPC Service Controls können Netzwerkadministratoren einen Sicherheitsbereich für Ressourcen aus von Google verwalteten Diensten festlegen, um die Kommunikation mit und zwischen diesen Diensten zu steuern.
Beachten Sie die folgenden Strategien bei Verwendung von VPC-SC-Netzwerken mit Dataproc Serverless:
Erstellen Sie ein benutzerdefiniertes Container-Image, das Abhängigkeiten außerhalb des VPC-SC-Bereichs vorinstalliert, und reichen Sie eine Spark-Batch-Arbeitslast ein, die Ihr benutzerdefiniertes Container-Image verwendet.
Weitere Informationen finden Sie unter VPC Service Controls – Dataproc Serverless für Spark.