Netzwerkkonfiguration für Dataproc Serverless for Spark

In diesem Dokument werden die Anforderungen für die Netzwerkkonfiguration von Dataproc Serverless for Spark beschrieben.

Anforderungen an Virtual Private Cloud-Unternetze

In diesem Dokument werden die Anforderungen an das Virtual Private Cloud-Netzwerk für Dataproc Serverless für Spark-Batcharbeitslasten und interaktive Sitzungen erläutert.

Privater Google-Zugriff

Dataproc Serverless-Batcharbeitslasten und interaktive Sitzungen werden nur auf VMs mit internen IP-Adressen und in einem regionalen Subnetz ausgeführt, in dem der private Google-Zugriff (PGA) automatisch im Sitzungssubnetz aktiviert ist.

Wenn Sie kein Subnetz angeben, wählt Dataproc Serverless das default-Subnetz in der Region der Batcharbeitslast oder Sitzung als Subnetz für eine Batcharbeitslast oder Sitzung aus.

Wenn für Ihre Arbeitslast ein externer Netzwerk- oder Internetzugriff erforderlich ist, z. B. um Ressourcen wie ML-Modelle von PyTorch Hub oder Hugging Face herunterzuladen, können Sie Cloud NAT einrichten, um ausgehenden Traffic mit internen IP-Adressen in Ihrem VPC-Netzwerk zuzulassen.

Subnetzverbindung öffnen

Das VPC-Subnetz für die Region, die für die serverlose Dataproc-Batcharbeitslast oder die interaktive Sitzung ausgewählt wurde, muss die interne Subnetzkommunikation auf allen Ports zwischen VM-Instanzen zulassen.

Mit dem folgenden Google Cloud CLI-Befehl wird eine Netzwerk-Firewall mit einem Subnetz verbunden, das die internen Eingangskommunikationen zwischen VMs über alle Protokolle und Ports zulässt:

gcloud compute firewall-rules create allow-internal-ingress \
    --network=NETWORK_NAME \
    --source-ranges=SUBNET_RANGES \
    --destination-ranges=SUBNET_RANGES \
    --direction=ingress \
    --action=allow \
    --rules=all

Hinweise:

  • SUBNET_RANGES: Weitere Informationen finden Sie unter Interne eingehende Verbindungen zwischen VMs zulassen. Das VPC-Netzwerk default in einem Projekt mit der Firewallregel default-allow-internal, die die eingehenden Verbindungen an allen Ports (tcp:0-65535, udp:0-65535 und icmp protocols:ports) zulässt, erfüllt die Anforderung an die offene Subnetzverbindung. Diese Regel erlaubt jedoch auch den Eintritt von jeder VM-Instanz im Netzwerk.

Dataproc Serverless und VPC-SC-Netzwerke

Mit VPC Service Controls können Netzwerkadministratoren einen Sicherheitsbereich für Ressourcen aus von Google verwalteten Diensten festlegen, um die Kommunikation mit und zwischen diesen Diensten zu steuern.

Beachten Sie die folgenden Strategien bei Verwendung von VPC-SC-Netzwerken mit Dataproc Serverless:

Weitere Informationen finden Sie unter VPC Service Controls – Dataproc Serverless für Spark.