Giter VIP home page Giter VIP logo

2022-05_synapse_shir_youtube's Introduction

Introducción a Self Hosted Integration Runtime con Synapse Analytics

Introducción

Paso 1: Crear una cuenta de Azure

Si no tienes acceso a una cuenta en Azure, tienes varias opciones gratuitas para empezar:

Paso 2: Crear el servicio de Synapse Analytics

  1. Crear el Resource Group: shir-test-rg
  2. Crear el recurso Azure Synapse Analytics: synapse-test-ws
    1. Managed Resourse Group: synapse-mngd-rg
    2. Datalake Gen2 Storage Account: datalake-test-st
    3. File system name: filesys-test-fs

Paso 3: Crear e instalar el entorno de ejecución (SHIR)

Una vez creado el recurso, puedes acceder al ambiente de trabajo haciendo click en el Workspace web URL. A partir de lo cual se procede a crear el SHIR:

  1. En el espacio de trabajo o Synapse Analytics workspace, en el menú izquierdo seguir la opción Manage > Integration runtimes. Hacer click en + New y seguir los pasos seleccionando la opción Azure, Self Hosted.
    1. Integration runtime: shir-test
  2. Descargar el instalador. Luego instalar y configurar el SHIR localmente.

Paso 4: Crear los Pipelines de prueba

A continuación vamos a crear tres pipelines, cada uno con sus particularidades. La actividad más básica de un pipeline es copiar datos al entorno de Synapse. La actividad de copia está definida por una fuente y un destino. La estructura es básicamente la siguiente:

  • Source data
    • Integration dataset
    • Linked Service
  • Sink dataset
    • Integration dataset
    • Linked Service

Pipeline 1. Pasar archivo Parquet local a Azure Blob Storage

  • Apache Parquet es un tipo de archivo columnar especialmente diseñado para almacenar y consultar datos de manera eficiente. Ver Apache Parquet.

  • Para subir archivos locales se requiere compartir en Windows la carpeta local que los contiene. De esta manera el SHIR podrá accederlos.

Creación del pipeline

  1. En el portal de Azure se crea un pipeline (Integrate > + Pipeline) y se añade la actividad Copy data (Activities > Move and Transform > Copy data) con la siguiente configuración:

Source (Fuente)

  1. Crear un nuevo Source dataset.
  2. Seleccionar File System en New Integration dataset y seleccionar el formato Parquet.
  3. Crear un linked service haciendo referencia el integration runtime shir-test y a la carpeta compartida.

Sink (Destino)

  1. Crear Sink dataset.
  2. Seleccionar Azure Blob Storage en Integration dataset y luego formato Parquet.

Ejecutar el pipeline

Ejecutar el pipeline en Add Trigger > Trigger Now.

Pipeline 2. Pasar una tabla de SQLite a Azure Table Storage

  • En este caso hacemos uso del conector Open Database Connectivity (ODBC) para copiar una tabla SQLite.

  • SQLite es una base de datos transaccional de código abierto, auto-contenida y serverless. Es la más usada del mundo, instalada en billones de dispositivos de todo tipo. Ver About SQLite

  • El destino de este pipeline será una tabla Azure Table Storage.

Configurar ODBC

  1. Instalar SQLite ODBC driver descargando y ejecutando el archivo sqliteodbc_w64.exe link.
  2. Configurar la base de datos en Windows, con ODBC Data Sources Administrator (64-bit)
  3. En System DSN, de nombre sqlite_chinook, que conecte el Data Source Name (DSN) al archivo (base de datos) ./data/chinook.db. El archivo fue descargado de SQLite Sample Database

Creación del pipeline

Se siguen los mismos pasos anteriores, con la siguiente configuración:

Source

  1. Crear Source dataset.
  2. Seleccionar ODBC en Integration dataset.
  3. Crear un linked service haciendo referencia al integration runtime shir-test.
  4. En Connection string: dsn=sqlite_chinook (Mismo nombre que el paso anterior)
  5. Authentication type: Anonymous

Crear una tabla Azure Table Storage

  1. Ir al Storage Account.
  2. Seleccionar Table Service > +Table
  3. Seleccionar un nombre para la tabla.

Sink

  1. Crear un nuevo Sink dataset.
  2. Seleccionar Azure Table Storage en Integration dataset.
  3. Crear un nuevo Linked Service and y seleccionar la tabla creada anteriormente.

Ejecutar el pipeline

Ejecutar el pipeline en Add Trigger > Trigger Now.

Pipeline 3. Pasar tabla Access local a Parquet en Azure Blob Storage

  • Usamos nuevamente el conector ODBC, esta vez para copiar una tabla de una base de datos Access.

  • Esta base de datos se usaba hace unos siete años para la capacitación de Power BI Analyzing-Visualizing-Data-PowerBI. Está disponible aquí: PowerBI AccessDB.zip

  • Este caso es muy similar al anterior.

Configurar ODBC

  • El driver de Access está disponible en Windows.
  • En ODBC Data Sources Administrato (64-bit), System DSN, crear power_bi_access. Conectando con la base de datos .accdb.

Creación del pipeline

Los pasos para la creación del pipeline son muy similares a lo realizado anteriormente.

Paso 4: Consultando archivos parquet con serverless SQL Pools

Hacer una consulta (query) a alguno de los archivos Parquet que fueron pasados a Synapse.

Paso 5: Conectar Power BI

Conectar Power BI con las tablas y archivos parquet creados en Azure.

Paso 6: Configurar github

Sincronizar los desarrollos realizados con github para control de versiones y CI/CD.

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.