6 způsobů, jak nahrát data do Google Cloud BigQuery

Objevte 6 účinných způsobů, jak přesunout data do BigQuery: od ručního nahrávání, přes Cloud Storage, DataFlow, Pub/Sub, Data Transfer Service až po API/SDK.

Karolina Everlingová
7. června 2024

Pokud jde o zkoumání nebo plné využití dat v BigQuery, prvním krokem je nahrání dat na platformu Google Cloud Platform (GCP). Existuje několik způsobů načítání dat, od ručního importu po automatickou integraci a od batch po streamové zpracování dat. V tomto článku se budeme zabývat 6 různými metodami nahrávání dat do BigQuery.

1. Ruční nahrávání dat

Nejjednodušší metodou je nahrávat do BigQuery přímo z webového rozhraní. Tato metoda je ideální pro rychlé testování nových datasetů nebo jednorázový import souborů. Mezi podporované formáty patří oblíbené formáty jako CSV, JSON, AVRO, Parquet a ORC. Pro malé objemy dat a případy, kdy není nutná pravidelná aktualizace, je ideální volbou právě ruční import.

Postup:

  1. Ve vybrané datasetu zvolte „Vytvořit tabulku“.
  2. Vyberte jednu z dostupných možností ručního importu dat.
  3. Tato operace vytvoří nativní tabulku BigQuery s vašimi daty.

Další podrobnosti naleznete v dokumentaci BigQuery batch loading documentation.

Create Table via manual upload

2. Google Cloud Storage (GCS)

Úložiště Google Cloud Storage (GCS) je ideální pro ukládání velkých datových souborů, které chcete pravidelně nahrávat do služby BigQuery. Mezi podporované formáty patří CSV, JSON, AVRO, Parquet a ORC. Pomocí GCS můžete automatizovat import logů z různých systémů nebo přenášet data z jiných cloudových služeb.

Příklad:

Za předpokladu, že máte kbelík GCS se souborem CSV, který chcete nahrát do BigQuery jako součást procesu ELT, postupujte podle následujících kroků:

Google Cloud Storage (GCS) file example
  1. Vytvořte tabulku v BigQuery.
  2. K načtení dat použijte například GCS URI:
LOAD DATA INTO `your-project-id.your_dataset.your_table`
FROM FILES (
  format = 'CSV',
  uris = ['gs://your-bucket-name/your-file.csv']);

3. DataFlow

Google Dataflow je plně spravovaná služba pro streamované a batchovo zpracování dat, která umožňuje vytvářet a spravovat datové pipeline s vysokou dostupností a nízkou latencí.

Google Dataflow

Dataflow je postaveno na platformě Apache Beam a nabízí jednotné programovací rozhraní, které podporuje různé zdroje dat a výpočetní zdroje, což usnadňuje vývoj, nasazení a monitorování složitých datových potrubí. Díky automatickému škálování a integraci s dalšími službami Google Cloud, jako jsou BigQuery, Cloud Storage a Pub/Sub, poskytuje Dataflow robustní a flexibilní řešení pro transformaci a analýzu dat v reálném čase.

Zjistěte více o Google Dataflow.

4. Pub/Sub

Google Cloud Pub/Sub je vynikající nástroj pro příjem dat v reálném čase. Umožňuje shromažďovat a distribuovat události z různých zdrojů a poté je přenášet do BigQuery. Pub/Sub je nativně podporován mnoha nástroji v GCP, například pro logování, a je dobře integrován do celého ekosystému GCP. Tato metoda je ideální pro aplikace řízené událostmi a jejich logování.

Google Cloud Pub/Sub is an excellent tool for real-time data ingestion

Postup:

  1. Vytvořte new subscriber pro existující téma Pub/Sub s typem nastaveným na BigQuery Writer.
  2. Proveďte nezbytné kroky pro přiřazení konkrétních rolí k účtu služby, vytvoření tabulky BigQuery a definování jejího schématu.

Nastavení krok za krokem naleznete v dokumentaci k integraci Pub/Sub to BigQuery.

5. BigQuery Data Transfer Service (DTS)

BigQuery Data Transfer Service (DTS) je nástroj pro plánované přenosy dat z různých zdrojů do BigQuery. DTS podporuje mnoho populárních konektorů, například Google Ads, Google Analytics, YouTube, Salesforce, Marketo, Facebook Ads, Stripe a další.

Postup:

  1. V nabídce vyberte možnost Data Transfer.
  2. Vytvořte přenos pomocí jednoho z více než 238 připravených datových konektorů.
Create BigQuery Data Transfer

Pro další informace navštivte BigQuery Data Transfer Service documentation.

6. API a SDK

Pokud máte specifické potřeby nebo chcete mít nad přenosy dat větší kontrolu, můžete použít rozhraní BigQuery Storage API nebo některou z podporovaných sad SDK, například pro Python, Javu, Node.js a další. Tento přístup vám umožní implementovat batch i streaming ingestion a poskytne vám plnou kontrolu nad tím, jak a jaká data se mají do BigQuery nahrávat nebo z něj číst.

Jakou metodu API zvolit? Pomůže vám tento rozhodovací strom:

BigQuery Storage API decision tree

Zdroje:

Závěr

BigQuery nabízí širokou škálu metod přijímání dat, od ručního nahrávání po automatické přenosy a od dávkového zpracování po zpracování v reálném čase. Výběr metody závisí na konkrétních potřebách vašeho projektu a technických požadavcích vašeho řešení.

Ať už si s daty jen hrajete, nebo potřebujete nasazení na enterprise-level úrovni, neváhejte se obrátit na bezplatnou konzultaci.

Veselé zkoumání dat!

— tým Revolt BI

Přečtěte si některý z našich dalších článků