Big Data Hadoop & Spark Developer – eLearning

Product type

Big Data Hadoop & Spark Developer – eLearning

Adding Value Consulting AB
Logo Adding Value Consulting AB
Provider rating: starstarstarstarstar 10 Adding Value Consulting AB has an average rating of 10 (out of 1 reviews)

Need more information? Get more details on the site of the provider.

Description

Big Data Hadoop och Spark-utvecklare - eLearning

Big Data Hadoop and Spark Developer Course är utformad för att ge dig en djupgående förståelse för Apache Spark-grundläggande och Hadoop-ramverket, vilket ger dig de färdigheter som behövs för att utmärka dig som Big Data Developer. Genom detta program kommer du att få praktisk kunskap om Hadoop-ekosystemet och dess integration med Spark, så att du kan bearbeta och analysera massiva datamängder på ett effektivt sätt. Lär dig hur de olika komponenterna i Hadoop, som HDFS och MapReduce, passar sömlöst in i bearbetningscykeln för stora datamängder och förbereder dig för framgång i dagens datadrivna värld.

VAD INGÅR?

  • Kurs och material är på…

Read the complete description

Frequently asked questions

There are no frequently asked questions yet. If you have any more questions or need help, contact our customer service.

Didn't find what you were looking for? See also: E-commerce, Artificial Intelligence, IT Security, Web Accessibility, and Digital Publishing & Editing.

Big Data Hadoop och Spark-utvecklare - eLearning

Big Data Hadoop and Spark Developer Course är utformad för att ge dig en djupgående förståelse för Apache Spark-grundläggande och Hadoop-ramverket, vilket ger dig de färdigheter som behövs för att utmärka dig som Big Data Developer. Genom detta program kommer du att få praktisk kunskap om Hadoop-ekosystemet och dess integration med Spark, så att du kan bearbeta och analysera massiva datamängder på ett effektivt sätt. Lär dig hur de olika komponenterna i Hadoop, som HDFS och MapReduce, passar sömlöst in i bearbetningscykeln för stora datamängder och förbereder dig för framgång i dagens datadrivna värld.

VAD INGÅR?

  • Kurs och material är på engelska
  • Mellanstadium för blivande dataingenjörer
  • 1 års tillgång till eLearning-plattformen för studier i egen takt 24/7
  • 11 timmar videoinnehåll
  • 50 timmars studietid rekommenderas
  • Simuleringstest, virtuellt labb och projekt i slutet av kursen
  • Ingen tentamen för kursen men studenten kommer att få certifiering för avslutad utbildning

KURSMÅL

  • Lära sig att navigera i Hadoop-ekosystemet och förstå hur man optimerar dess användning
  • Ingest data med hjälp av Sqoop, Flume och Kafka.
  • Implementera partitionering, bucketing och indexering i Hive
  • Arbeta med RDD i Apache Spark
  • Bearbeta strömmande data i realtid och utföra DataFrame-operationer i Spark med hjälp av SQL-frågor
  • Implementera användardefinierade funktioner (UDF) och användardefinierade attributfunktioner (UDAF) i Spark

Målgrupp

Idealisk för ett brett spektrum av yrkesverksamma och individer som vill främja sina karriärer inom big data analytics, data engineering och data science.

Förkunskaper: Det rekommenderas att du har kunskaper i Core Java och SQL

  • Yrkesverksamma inom analys
  • Seniora IT-proffs
  • Proffs inom testning och stordatorer
  • Yrkesverksamma inom datahantering
  • Experter inom Business Intelligence
  • Projektledare
  • Nyutexaminerade som vill börja en karriär inom analys av stora datamängder

Förkunskaper: Vi rekommenderar att du har kunskaper i Core Java och SQL

Kursens innehåll

Introduktion till Big Data och Hadoop

- Introduktion till Big Data och Hadoop

- Introduktion till Big Data

- Analys av stora datamängder

- Vad är Big Data?

- Fyra aspekter av Big Data

- Fallstudie Royal Bank of Scotland

- Utmaningar med traditionella system

- Distribuerade system

- Introduktion till Hadoop

- Komponenter i Hadoop-ekosystemet del ett

- Komponenter i Hadoops ekosystem Del två

- Komponenter i Hadoop-ekosystemet Del tre

- Kommersiella Hadoop-distributioner

- Demonstration: Genomgång av Simplilearn Cloudlab

- Viktiga saker att ta med sig

- Kunskapskontroll

Hadoop-arkitekturen Distribuerad lagring (HDFS) och YARN

- Hadoop Architecture Distributed Storage (HDFS) och YARN

- Vad är HDFS

- Behov av HDFS

- Vanligt filsystem vs HDFS

- Kännetecken för HDFS

- HDFS arkitektur och komponenter

- Implementeringar av kluster med hög tillgänglighet

- HDFS-komponent Filsystemets namnrymd

- Uppdelning av datablock

- Topologi för datareplikering

- HDFS-kommandoraden

- Demo: Vanliga HDFS-kommandon

- Övningsprojekt: HDFS kommandorad

- Introduktion till Yarn

- Användningsfall för Yarn

- Yarn och dess arkitektur

- Resurshanterare

- Hur resurshanteraren fungerar

- Applikation Master

- Hur Yarn kör en applikation

- Verktyg för Yarn-utvecklare

- Demonstration: Genomgång av kluster del ett

- Demonstration: Genomgång av Cluster del två

- Viktiga saker att ta med sig Kunskapskontroll

- Övningsprojekt: Hadoop-arkitektur, distribuerad lagring (HDFS) och Yarn

Datainmatning i Big Data-system och ETL

- Datainmatning i Big Data-system och ETL

- Översikt över datainmatning del ett

- Översikt över datainmatning del två

- Apache Sqoop

- Sqoop och dess användningsområden

- Sqoop-bearbetning

- Sqoop importprocess

- Sqoop-kontakter

- Demo: Importera och exportera data från MySQL till HDFS

- Övningsprojekt: Apache Sqoop

- Apache Flume

- Flume-modellen

- Skalbarhet i Flume

- Komponenter i Flumes arkitektur

- Konfigurera Flume-komponenter

- Demo: Inläsning av Twitter-data

- Apache Kafka Aggregering av användaraktivitet med hjälp av Kafka

- Kafkas datamodell

- Partitioner

- Apache Kafka-arkitektur

- Demo: Konfigurera Kafka-kluster

- Exempel på API på producentsidan

- API på konsumentsidan

- Exempel på API på konsumentsidan

- Kafka-anslutning

- Demo: Skapa ett exempel på en Kafka-datapipeline med hjälp av producent och konsument

- Viktiga saker att ta med sig

- Kontroll av kunskap

- Övningsprojekt: Inmatning av data i Big Data-system och ETL

Distribuerad bearbetning MapReduce Framework och Pig

- Distribuerad bearbetning Mapreduce Framework och Pig

- Distribuerad bearbetning i Mapreduce

- Exempel på ordräkning

- Kartans exekveringsfaser

- Distribuerad Map Execution i en miljö med två noder

- Mapreduce-jobb

- Hadoop Mapreduce-jobbets arbetsinteraktion

- Skapa en miljö för Mapreduce-utveckling

- Uppsättning av klasser

- Skapa ett nytt projekt

- Avancerad Mapreduce

- Datatyper i Hadoop

- Utmatningsformat i Mapreduce

- Använda distribuerad cache

- Sammanfogningar i MapReduce

- Replikerad sammanfogning

- Introduktion till Pig

- Komponenter i Pig

- Datamodell för Pig

- Interaktiva lägen för Pig

- Operationer för grisar

- Olika relationer som utförs av utvecklare

- Demonstration: Analysera webbloggdata med hjälp av Mapreduce

- Demonstration: Analysera försäljningsdata och lösa Kpis med hjälp av Pig Övningsprojekt: Apache Pig

- Demonstration: Ordräkning

- Viktiga saker att ta med sig

- Kontroll av kunskap

- Övningsprojekt: Distribuerad bearbetning - Mapreduce Framework och Pig

Apache Hive

- Apache Hive

- Hive SQL över Hadoop MapReduce

- Hive-arkitektur

- Gränssnitt för att köra Hive-frågor

- Körning av Beeline från kommandoraden

- Hive Metastore

- Hive DDL och DML

- Skapa ny tabell

- Datatyper Validering av data

- Typer av filformat

- Serialisering av data

- Hive-tabell och Avro-schema

- Partitionering av Hive-optimering Bucketing och provtagning

- Icke-partitionerad tabell

- Insättning av data

- Dynamisk partitionering i Hive

- Skopindelning

- Vad gör skopor?

- Hive Analytics UDF och UDAF

- Andra funktioner i Hive

- Demo: Realtidsanalys och datafiltrering

- Demonstration: Problem i den verkliga världen

- Demonstration: Datarepresentation och import med hjälp av Hive

- Viktiga saker att ta med sig

- Kunskapskontroll

- Övningsprojekt: Apache Hive

NoSQL-databaser HBase

- NoSQL-databaser HBase

- NoSQL-introduktion

- Demonstration: Tuning av Yarn

- Översikt över Hbase

- Hbase arkitektur

- Datamodell

- Anslutning till HBase

- Övningsprojekt: HBase-skal

- Viktiga saker att ta med sig

- Kunskapskontroll

- Övningsprojekt: NoSQL-databaser - HBase

Grunderna i funktionell programmering och Scala

- Grunderna i funktionell programmering och Scala

- Introduktion till Scala

- Demonstration: Installation av Scala

- Funktionell programmering

- Programmering med Scala

- Demo: Grundläggande bokstäver och aritmetisk programmering

- Demo: Logiska operatorer Logiska operatorer

- Typinferens Klasser Objekt och funktioner i Scala

- Demonstration: Funktioner för typinferens Anonym funktion och klass

- Samlingar

- Typer av samlingar

- Demonstration: Fem olika typer av samlingar

- Demo: Fem typer av samlingar Operationer på lista Scala REPL

- Demonstration: Funktioner i Scala REPL

- Viktiga saker att ta med sig

- Kontroll av kunskap

- Övningsprojekt: Apache Hive

Apache Spark nästa generations ramverk för stora data

- Apache Spark nästa generations ramverk för stora data

- Historik om Spark

- Begränsningar av Mapreduce i Hadoop

- Introduktion till Apache Spark

- Komponenter i Spark

- Tillämpning av bearbetning i minnet

- Hadoop-ekosystem vs Spark

- Fördelar med Spark

- Spark arkitektur

- Spark-kluster i den verkliga världen

- Demo: Kör ett Scala-program i Spark Shell

- Demonstration: Ställa in exekveringsmiljö i IDE

- Demonstration: Spark webbgränssnitt

- Viktiga saker att ta med sig

- Kunskapskontroll

- Övningsprojekt: Apache Spark nästa generations ramverk för stora datamängder

Spark Kärnbearbetning RDD

- Introduktion till Spark RDD

- RDD i Spark

- Skapa Spark RDD

- Para ihop RDD

- RDD-operationer

- Demo: Spark Transformation Detaljerad utforskning med hjälp av Scala-exempel

- Demo: Spark Action Detaljerad utforskning med hjälp av Scala

- Cachelagring och persistens

- Nivåer för lagring

- Lineage och DAG

- Behov av DAG

- Felsökning i Spark

- Partitionering i Spark

- Schemaläggning i Spark

- Blandning i Spark

- Sortera blanda Aggregera data med parade RDD

- Demo: Spark-applikation med data som skrivs tillbaka till HDFS och Spark UI

- Demonstration: Ändra parametrar för Spark-applikationen

- Demonstration: Hantering av olika filformat

- Demonstration: Spark RDD med verklig applikation

- Demonstration: Optimering av Spark-jobb

- Viktiga saker att ta med sig

- Kunskapskontroll

- Övningsprojekt: Spark Core-bearbetning av RDD

Spark SQL-bearbetning av dataramar

- Spark SQL-bearbetning av DataFrames

- Spark SQL introduktion

- Spark SQL-arkitektur

- Dataframes

- Demo: Hantering av olika dataformat

- Demo: Implementera olika dataframe-operationer

- Demonstration: UDF och UDAF

- Samverkan med RDD:er

- Demonstration: Bearbeta dataram med hjälp av SQL-fråga

- RDD vs Dataframe vs Dataset

- Övningsprojekt: Bearbetning av dataramar

- Viktiga saker att ta med sig

- Kunskapskontroll

- Övningsprojekt: Spark SQL - Bearbetning av dataframes

Spark MLib Modellering av BigData med Spark

- Spark Mlib Modellering av Big Data med Spark

- Data Scientist och Data Analysts roll i Big Data

- Analys i Spark

- Maskininlärning

- Övervakad inlärning

- Demo: Klassificering av linjär SVM

- Demo: Linjär regression med fallstudier från verkliga världen

- Oövervakad inlärning

- Demo: Oövervakad klustring K-means

- Förstärkt inlärning

- Semi-övervakad inlärning

- Översikt över Mlib

- Mlib rörledningar

- Viktiga saker att ta med sig

- Kunskapskontroll

- Övningsprojekt: Spark Mlib - Modellering av stora datamängder med Spark

Ramverk för strömbearbetning och Spark Streaming

- Översikt över strömning

- Realtidsbearbetning av stora datamängder

- Arkitekturer för databehandling

- Demonstration: Databehandling i realtid Spark Streaming

- Demonstration: Skriva Spark Streaming-applikation

- Introduktion till DStreams

- Transformationer på DStreams

- Designmönster för användning av Foreachrdd

- Operationer för tillstånd

- Windowing-operationer

- Sammanfoga operationer Sammanfoga ström-dataset

- Demonstration: Windowing av strömmande källor för databehandling i realtid

- Demonstration: Bearbetning av strömmande data från Twitter

- Strukturerad Spark-strömning-

- Användningsfall Banktransaktioner

- Arkitekturmodell för strukturerad strömning och dess komponenter

- Sänkor för utdata

- API:er för strukturerad strömning

- Konstruktion av kolumner i strukturerad strömning

- Fönsteroperationer på händelsetid

- Användningsfall

- Demo: Strömmande pipeline

- Övningsprojekt: Spark-strömning

- Viktiga saker att ta med sig

- Kontroll av kunskap

- Övningsprojekt: Ramverk för strömbearbetning och Spark Streaming

Spark GraphX

- Spark GraphX

- Introduktion till Graph

- GraphX i Spark

- GraphX-operatorer

- Join-operatorer

- GraphX parallella system

- Algoritmer i Spark

- Pregel API

- Användningsfall för GraphX

- Demo: GraphX vertex-predikat

- Demonstration: Algoritm för sidrankning

- Viktiga saker att ta med sig

- Kunskapskontroll

- Övningsprojekt: Spark GraphX Projektassistans

Adding Value Consulting AB (AVC)

Vi utbildar och certifierar dig inom projektledning, agile och IT.

Utbildningsformer:

  • Öppen, schemalagd utbildning
  • Onlinekurser & online certifiering
  • Företagsintern utbildning

Vi kan utbilda dig på svenska, engelska eller hollandska.

Våra kurser är mycket praktiska och du kan omedelbart tillämpa din nya kunskap i ditt arbete. We inspire to make a difference!

Vi hoppas att även utbilda dig!

There are no reviews yet.
    Share your review
    Do you have experience with this course? Submit your review and help other people make the right choice. As a thank you for your effort we will donate $1.- to Stichting Edukans.

    There are no frequently asked questions yet. If you have any more questions or need help, contact our customer service.