Pipelines erstellen
In diesem Dokument wird beschrieben, wie Sie Pipelines in BigQuery erstellen. Pipelines basieren auf Dataform.
Hinweise
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the BigQuery, Dataform, and Vertex AI APIs.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the BigQuery, Dataform, and Vertex AI APIs.
- Folgen Sie der Anleitung unter Code-Asset-Verwaltung aktivieren, um Versionen von Code-Assets wie Pipelines zu speichern, freizugeben und zu verwalten.
- Wenn Sie zum ersten Mal ein Code-Asset erstellen, legen Sie die Standardregion für die Speicherung von Code-Assets fest. Sie können die Region für ein Code-Asset nicht mehr ändern, nachdem es erstellt wurde.
Erforderliche Rollen für Pipelines
Bitten Sie Ihren Administrator, Ihnen die folgenden IAM-Rollen für das Projekt zuzuweisen, um die Berechtigungen zu erhalten, die Sie zum Erstellen von Pipelines benötigen:
-
So erstellen Sie Pipelines:
Code Creator (
roles/dataform.codeCreator
) -
So bearbeiten und führen Sie Pipelines aus:
Dataform-Bearbeiter (
roles/dataform.editor
)
Weitere Informationen zum Zuweisen von Rollen finden Sie unter Zugriff auf Projekte, Ordner und Organisationen verwalten.
Sie können die erforderlichen Berechtigungen auch über benutzerdefinierte Rollen oder andere vordefinierte Rollen erhalten.
Weitere Informationen zu Dataform IAM finden Sie unter Zugriff mit IAM steuern.
Erforderliche Rollen für Notebookoptionen
Bitten Sie Ihren Administrator, Ihnen die IAM-Rolle Notebook Runtime User (roles/aiplatform.notebookRuntimeUser
) für das Projekt zuzuweisen, um die Berechtigungen zu erhalten, die Sie zum Auswählen einer Laufzeitvorlage in den Notebookoptionen benötigen.
Weitere Informationen zum Zuweisen von Rollen finden Sie unter Zugriff auf Projekte, Ordner und Organisationen verwalten.
Sie können die erforderlichen Berechtigungen auch über benutzerdefinierte Rollen oder andere vordefinierte Rollen erhalten.
Wenn Sie diese Rolle nicht haben, können Sie die Standardspezifikation für die Notebook-Laufzeit auswählen.
Pipeline erstellen
So erstellen Sie eine Pipeline:
Rufen Sie die Seite BigQuery auf.
Klicken Sie in der Tableiste des Editorbereichs auf den
-Pfeil neben dem +-Zeichen und dann auf Pipeline.Optional: Wenn Sie die Pipeline umbenennen möchten, klicken Sie auf den Namen der Pipeline und geben Sie dann einen neuen Namen ein.
Klicken Sie auf Jetzt starten und dann auf den Tab Einstellungen.
Wählen Sie im Feld Dienstkonto ein Dataform-Dienstkonto aus.
Wählen Sie im Abschnitt Speicherort eine Verarbeitungsregion für die Pipeline aus.
- Wenn Sie eine bestimmte Region auswählen möchten, wählen Sie Region und dann im Menü Region eine Region aus.
- Wenn Sie einen multiregionalen Standort auswählen möchten, wählen Sie Mehrere Regionen und dann im Menü Mehrere Regionen einen Standort aus.
Die Region für die Pipelineverarbeitung muss nicht mit der Standardspeicherregion für Code-Assets übereinstimmen.
Notebookoptionen
Wenn Sie Ihrer Pipeline ein Notebook hinzufügen möchten, gehen Sie im Abschnitt Notebookoptionen so vor:
Akzeptieren Sie im Feld Laufzeitvorlage entweder die Standardlaufzeit für das Notebook oder suchen Sie nach einer vorhandenen Laufzeit und wählen Sie sie aus.
- Klicken Sie auf den nebenstehenden Pfeil, um die Spezifikationen für die Standardlaufzeit aufzurufen.
- Informationen zum Erstellen einer neuen Laufzeit finden Sie unter Laufzeitvorlage erstellen.
Klicken Sie im Feld Cloud Storage-Bucket auf Durchsuchen und wählen Sie einen Cloud Storage-Bucket zum Speichern der Ausgabe von Notebooks in Ihrer Pipeline aus oder erstellen Sie einen.
Folgen Sie der Anleitung unter Richtlinie auf Bucket-Ebene ein Hauptkonto hinzufügen, um Ihrem benutzerdefinierten Dataform-Dienstkonto ein Hauptkonto für den Cloud Storage-Bucket hinzuzufügen, den Sie zum Speichern der Ausgabe geplanter Pipelineausführungen verwenden möchten, und diesem Hauptkonto die Rolle „Storage-Administrator“ (
roles/storage.admin
) zuzuweisen.Dem ausgewählten benutzerdefinierten Dataform-Dienstkonto muss die IAM-Rolle „Storage Admin“ für den ausgewählten Bucket zugewiesen sein.
Pipelineaufgabe hinzufügen
So fügen Sie einer Pipeline eine Aufgabe hinzu:
Öffnen Sie in der Google Cloud Console die Seite BigQuery.
Maximieren Sie im Bereich Explorer Ihr Projekt und den Ordner Pipelines und wählen Sie dann eine Pipeline aus.
So fügen Sie ein Code-Asset wie eine SQL-Abfrage, ein Notebook oder eine Datenvorbereitung hinzu:
SQL-Abfrage
Klicken Sie auf Aufgabe hinzufügen und wählen Sie Abfrage aus. Sie können entweder eine neue Abfrage erstellen oder eine vorhandene importieren.
Optional: Wählen Sie im Bereich Abfrageaufgaben – Details im Menü Nach eine Aufgabe aus, die vor Ihrer Abfrage ausgeführt werden soll.
Ihre Anfrage hängt von der vorherigen Aufgabe ab.
Neue Abfrage erstellen
Klicken Sie auf das Dreipunkt-Menü
neben Abfrage bearbeiten und wählen Sie entweder Im Kontext oder In neuem Tab aus.Suchen Sie nach einer vorhandenen Abfrage.
Wählen Sie einen Abfragenamen aus und drücken Sie die Eingabetaste.
Klicken Sie auf Speichern.
Optional: Wenn Sie die Abfrage umbenennen möchten, klicken Sie im Pipeline-Bereich auf den Namen der Abfrage, dann auf Abfrage bearbeiten, auf den vorhandenen Namen der Abfrage oben auf dem Bildschirm und geben Sie einen neuen Namen ein.
Vorhandene Abfrage importieren
Klicken Sie auf das Dreipunkt-Menü
neben Abfrage bearbeiten und dann auf Kopie importieren.Suchen Sie nach einer vorhandenen Abfrage, die Sie importieren möchten, oder wählen Sie eine vorhandene Abfrage aus dem Suchbereich aus. Wenn Sie eine Abfrage importieren, bleibt das Original unverändert, da die Quelldatei der Abfrage in die Pipeline kopiert wird.
Klicken Sie auf Bearbeiten, um die importierte Abfrage zu öffnen.
Klicken Sie auf Speichern.
Notebook
Klicken Sie auf Aufgabe hinzufügen und wählen Sie Notizbuch aus. Sie können entweder ein neues Notizbuch erstellen oder ein vorhandenes importieren. Informationen zum Ändern der Einstellungen für Notebook-Laufzeitvorlagen finden Sie unter Notebookoptionen.
Optional: Wählen Sie im Bereich Notebook-Aufgabendetails im Menü Nach eine Aufgabe aus, die vor dem Notebook ausgeführt werden soll.
Ihr Notizbuch hängt von der vorherigen Aufgabe ab.
Neues Notizbuch erstellen
Klicken Sie auf das Dreipunkt-Menü
neben Notebook bearbeiten und wählen Sie entweder Im Kontext oder In neuem Tab aus.Suchen Sie nach einem vorhandenen Notizbuch.
Wählen Sie einen Notebooknamen aus und drücken Sie die Eingabetaste.
Klicken Sie auf Speichern.
Optional: Wenn Sie das Notebook umbenennen möchten, klicken Sie im Pipeline-Bereich auf den Namen des Notebooks, dann auf Notebook bearbeiten, auf den vorhandenen Namen des Notebooks oben auf dem Bildschirm und geben Sie einen neuen Namen ein.
Vorhandenes Notebook importieren
Klicken Sie auf das Dreipunkt-Menü
neben Notebook bearbeiten und dann auf Kopie importieren.Suchen Sie nach einem vorhandenen Notebook, das Sie importieren möchten, oder wählen Sie ein vorhandenes Notebook aus dem Suchbereich aus. Wenn Sie ein Notebook importieren, bleibt das Original unverändert, da die Quelldatei des Notebooks in die Pipeline kopiert wird.
Klicken Sie auf Bearbeiten, um das importierte Notebook zu öffnen.
Klicken Sie auf Speichern.
Datenvorbereitung
Klicken Sie auf Aufgabe hinzufügen und wählen Sie Datenvorbereitung aus. Sie können entweder eine neue Datenvorbereitung erstellen oder eine vorhandene importieren.
Optional: Wählen Sie im Bereich Details zur Datenvorbereitungsaufgabe im Menü Nach eine Aufgabe aus, die vor der Datenvorbereitung ausgeführt werden soll.
Die Datenvorbereitung hängt von der vorherigen Aufgabe ab.
Neue Datenvorbereitung erstellen
Klicken Sie neben Datenvorbereitung bearbeiten auf das Dreipunkt-Menü
und wählen Sie entweder Im Kontext oder In neuem Tab aus.Suchen Sie nach einer vorhandenen Datenvorbereitung.
Wählen Sie einen Namen für die Datenvorbereitung aus und drücken Sie die Eingabetaste.
Klicken Sie auf Speichern.
Optional: Wenn Sie die Datenvorbereitung umbenennen möchten, klicken Sie im Pipeline-Bereich auf den Namen der Datenvorbereitung, dann auf Datenvorbereitung bearbeiten, dann auf den Namen oben auf dem Bildschirm und geben Sie einen neuen Namen ein.
Vorhandene Datenvorbereitung importieren
Klicken Sie neben Datenvorbereitung bearbeiten auf das Drop-down-Menü
und dann auf Kopie importieren.Suchen Sie nach einer vorhandenen Datenvorbereitung, die Sie importieren möchten, oder wählen Sie eine vorhandene Datenvorbereitung aus dem Suchbereich aus. Wenn Sie eine Datenvorbereitung importieren, bleibt das Original unverändert, da die Quelldatei der Datenvorbereitung in die Pipeline kopiert wird.
Klicken Sie auf Bearbeiten, um die Datenvorbereitung für die importierten Daten zu öffnen.
Klicken Sie auf Speichern.
Pipelineaufgabe bearbeiten
So bearbeiten Sie eine Pipeline-Aufgabe:
Öffnen Sie in der Google Cloud Console die Seite BigQuery.
Maximieren Sie im Bereich Explorer Ihr Projekt und den Ordner Pipelines und wählen Sie dann eine Pipeline aus.
Klicken Sie auf die ausgewählte Aufgabe.
Wenn Sie die vorherige Aufgabe ändern möchten, wählen Sie im Menü Nach eine Aufgabe aus, die vor der Abfrage oder dem Notebook ausgeführt werden soll.
Klicken Sie auf Bearbeiten, um den Inhalt der ausgewählten Aufgabe zu bearbeiten.
Bearbeiten Sie auf dem geöffneten neuen Tab den Aufgabeninhalt und speichern Sie die Änderungen an der Aufgabe.
Pipelineaufgabe löschen
So löschen Sie eine Aufgabe aus einer Pipeline:
Öffnen Sie in der Google Cloud Console die Seite BigQuery.
Maximieren Sie im Bereich Explorer Ihr Projekt und den Ordner Pipelines und wählen Sie dann eine Pipeline aus.
Klicken Sie auf die ausgewählte Aufgabe.
Klicken Sie im Bereich Aufgabendetails auf das Symbol LöschenLöschen.
Pipeline teilen
So geben Sie eine Pipeline frei:
Öffnen Sie in der Google Cloud Console die Seite BigQuery.
Maximieren Sie im Bereich Explorer Ihr Projekt und den Ordner Pipelines und wählen Sie dann eine Pipeline aus.
Klicken Sie auf Teilen und wählen Sie dann Berechtigungen verwalten aus.
Klicken Sie auf Nutzer/Gruppe hinzufügen.
Geben Sie im Feld Neue Hauptkonten den Namen mindestens eines Nutzers oder einer Gruppe ein.
Wählen Sie unter Rollen zuweisen eine Rolle aus.
Klicken Sie auf Speichern.
Link zu einer Pipeline teilen
Öffnen Sie in der Google Cloud Console die Seite BigQuery.
Maximieren Sie im Bereich Explorer Ihr Projekt und den Ordner Pipelines und wählen Sie dann eine Pipeline aus.
Klicken Sie auf Teilen und wählen Sie dann Link teilen aus. Die URL für Ihre Pipeline wird in die Zwischenablage Ihres Computers kopiert.
Pipeline ausführen
So führen Sie die aktuelle Version einer Pipeline manuell aus:
Öffnen Sie in der Google Cloud Console die Seite BigQuery.
Maximieren Sie im Bereich Explorer Ihr Projekt und den Ordner Pipelines und wählen Sie dann eine Pipeline aus.
Klicken Sie auf Ausführen.
Optional: Wenn Sie die Ausführung prüfen möchten, rufen Sie die letzten manuellen Ausführungen auf.
Nächste Schritte
- Weitere Informationen zu BigQuery-Pipelines
- Weitere Informationen zum Verwalten von Pipelines
- Weitere Informationen zum Planen von Pipelines