Big Data Hadoop & Spark Developer – eLearning
Big Data Hadoop och Spark-utvecklare - eLearning
Big Data Hadoop and Spark Developer Course är utformad för att ge dig en djupgående förståelse för Apache Spark-grundläggande och Hadoop-ramverket, vilket ger dig de färdigheter som behövs för att utmärka dig som Big Data Developer. Genom detta program kommer du att få praktisk kunskap om Hadoop-ekosystemet och dess integration med Spark, så att du kan bearbeta och analysera massiva datamängder på ett effektivt sätt. Lär dig hur de olika komponenterna i Hadoop, som HDFS och MapReduce, passar sömlöst in i bearbetningscykeln för stora datamängder och förbereder dig för framgång i dagens datadrivna värld.
VAD INGÅR?
- Kurs och material är på…
There are no frequently asked questions yet. If you have any more questions or need help, contact our customer service.
Big Data Hadoop och Spark-utvecklare - eLearning
Big Data Hadoop and Spark Developer Course är utformad för att ge dig en djupgående förståelse för Apache Spark-grundläggande och Hadoop-ramverket, vilket ger dig de färdigheter som behövs för att utmärka dig som Big Data Developer. Genom detta program kommer du att få praktisk kunskap om Hadoop-ekosystemet och dess integration med Spark, så att du kan bearbeta och analysera massiva datamängder på ett effektivt sätt. Lär dig hur de olika komponenterna i Hadoop, som HDFS och MapReduce, passar sömlöst in i bearbetningscykeln för stora datamängder och förbereder dig för framgång i dagens datadrivna värld.
VAD INGÅR?
- Kurs och material är på engelska
- Mellanstadium för blivande dataingenjörer
- 1 års tillgång till eLearning-plattformen för studier i egen takt 24/7
- 11 timmar videoinnehåll
- 50 timmars studietid rekommenderas
- Simuleringstest, virtuellt labb och projekt i slutet av kursen
- Ingen tentamen för kursen men studenten kommer att få certifiering för avslutad utbildning
KURSMÅL
- Lära sig att navigera i Hadoop-ekosystemet och förstå hur man optimerar dess användning
- Ingest data med hjälp av Sqoop, Flume och Kafka.
- Implementera partitionering, bucketing och indexering i Hive
- Arbeta med RDD i Apache Spark
- Bearbeta strömmande data i realtid och utföra DataFrame-operationer i Spark med hjälp av SQL-frågor
- Implementera användardefinierade funktioner (UDF) och användardefinierade attributfunktioner (UDAF) i Spark
Målgrupp
Idealisk för ett brett spektrum av yrkesverksamma och individer som vill främja sina karriärer inom big data analytics, data engineering och data science.
Förkunskaper: Det rekommenderas att du har kunskaper i Core Java och SQL
- Yrkesverksamma inom analys
- Seniora IT-proffs
- Proffs inom testning och stordatorer
- Yrkesverksamma inom datahantering
- Experter inom Business Intelligence
- Projektledare
- Nyutexaminerade som vill börja en karriär inom analys av stora datamängder
Förkunskaper: Vi rekommenderar att du har kunskaper i Core Java och SQL
Kursens innehåll
Introduktion till Big Data och Hadoop
- Introduktion till Big Data och Hadoop
- Introduktion till Big Data
- Analys av stora datamängder
- Vad är Big Data?
- Fyra aspekter av Big Data
- Fallstudie Royal Bank of Scotland
- Utmaningar med traditionella system
- Distribuerade system
- Introduktion till Hadoop
- Komponenter i Hadoop-ekosystemet del ett
- Komponenter i Hadoops ekosystem Del två
- Komponenter i Hadoop-ekosystemet Del tre
- Kommersiella Hadoop-distributioner
- Demonstration: Genomgång av Simplilearn Cloudlab
- Viktiga saker att ta med sig
- Kunskapskontroll
Hadoop-arkitekturen Distribuerad lagring (HDFS) och YARN
- Hadoop Architecture Distributed Storage (HDFS) och YARN
- Vad är HDFS
- Behov av HDFS
- Vanligt filsystem vs HDFS
- Kännetecken för HDFS
- HDFS arkitektur och komponenter
- Implementeringar av kluster med hög tillgänglighet
- HDFS-komponent Filsystemets namnrymd
- Uppdelning av datablock
- Topologi för datareplikering
- HDFS-kommandoraden
- Demo: Vanliga HDFS-kommandon
- Övningsprojekt: HDFS kommandorad
- Introduktion till Yarn
- Användningsfall för Yarn
- Yarn och dess arkitektur
- Resurshanterare
- Hur resurshanteraren fungerar
- Applikation Master
- Hur Yarn kör en applikation
- Verktyg för Yarn-utvecklare
- Demonstration: Genomgång av kluster del ett
- Demonstration: Genomgång av Cluster del två
- Viktiga saker att ta med sig Kunskapskontroll
- Övningsprojekt: Hadoop-arkitektur, distribuerad lagring (HDFS) och Yarn
Datainmatning i Big Data-system och ETL
- Datainmatning i Big Data-system och ETL
- Översikt över datainmatning del ett
- Översikt över datainmatning del två
- Apache Sqoop
- Sqoop och dess användningsområden
- Sqoop-bearbetning
- Sqoop importprocess
- Sqoop-kontakter
- Demo: Importera och exportera data från MySQL till HDFS
- Övningsprojekt: Apache Sqoop
- Apache Flume
- Flume-modellen
- Skalbarhet i Flume
- Komponenter i Flumes arkitektur
- Konfigurera Flume-komponenter
- Demo: Inläsning av Twitter-data
- Apache Kafka Aggregering av användaraktivitet med hjälp av Kafka
- Kafkas datamodell
- Partitioner
- Apache Kafka-arkitektur
- Demo: Konfigurera Kafka-kluster
- Exempel på API på producentsidan
- API på konsumentsidan
- Exempel på API på konsumentsidan
- Kafka-anslutning
- Demo: Skapa ett exempel på en Kafka-datapipeline med hjälp av producent och konsument
- Viktiga saker att ta med sig
- Kontroll av kunskap
- Övningsprojekt: Inmatning av data i Big Data-system och ETL
Distribuerad bearbetning MapReduce Framework och Pig
- Distribuerad bearbetning Mapreduce Framework och Pig
- Distribuerad bearbetning i Mapreduce
- Exempel på ordräkning
- Kartans exekveringsfaser
- Distribuerad Map Execution i en miljö med två noder
- Mapreduce-jobb
- Hadoop Mapreduce-jobbets arbetsinteraktion
- Skapa en miljö för Mapreduce-utveckling
- Uppsättning av klasser
- Skapa ett nytt projekt
- Avancerad Mapreduce
- Datatyper i Hadoop
- Utmatningsformat i Mapreduce
- Använda distribuerad cache
- Sammanfogningar i MapReduce
- Replikerad sammanfogning
- Introduktion till Pig
- Komponenter i Pig
- Datamodell för Pig
- Interaktiva lägen för Pig
- Operationer för grisar
- Olika relationer som utförs av utvecklare
- Demonstration: Analysera webbloggdata med hjälp av Mapreduce
- Demonstration: Analysera försäljningsdata och lösa Kpis med hjälp av Pig Övningsprojekt: Apache Pig
- Demonstration: Ordräkning
- Viktiga saker att ta med sig
- Kontroll av kunskap
- Övningsprojekt: Distribuerad bearbetning - Mapreduce Framework och Pig
Apache Hive
- Apache Hive
- Hive SQL över Hadoop MapReduce
- Hive-arkitektur
- Gränssnitt för att köra Hive-frågor
- Körning av Beeline från kommandoraden
- Hive Metastore
- Hive DDL och DML
- Skapa ny tabell
- Datatyper Validering av data
- Typer av filformat
- Serialisering av data
- Hive-tabell och Avro-schema
- Partitionering av Hive-optimering Bucketing och provtagning
- Icke-partitionerad tabell
- Insättning av data
- Dynamisk partitionering i Hive
- Skopindelning
- Vad gör skopor?
- Hive Analytics UDF och UDAF
- Andra funktioner i Hive
- Demo: Realtidsanalys och datafiltrering
- Demonstration: Problem i den verkliga världen
- Demonstration: Datarepresentation och import med hjälp av Hive
- Viktiga saker att ta med sig
- Kunskapskontroll
- Övningsprojekt: Apache Hive
NoSQL-databaser HBase
- NoSQL-databaser HBase
- NoSQL-introduktion
- Demonstration: Tuning av Yarn
- Översikt över Hbase
- Hbase arkitektur
- Datamodell
- Anslutning till HBase
- Övningsprojekt: HBase-skal
- Viktiga saker att ta med sig
- Kunskapskontroll
- Övningsprojekt: NoSQL-databaser - HBase
Grunderna i funktionell programmering och Scala
- Grunderna i funktionell programmering och Scala
- Introduktion till Scala
- Demonstration: Installation av Scala
- Funktionell programmering
- Programmering med Scala
- Demo: Grundläggande bokstäver och aritmetisk programmering
- Demo: Logiska operatorer Logiska operatorer
- Typinferens Klasser Objekt och funktioner i Scala
- Demonstration: Funktioner för typinferens Anonym funktion och klass
- Samlingar
- Typer av samlingar
- Demonstration: Fem olika typer av samlingar
- Demo: Fem typer av samlingar Operationer på lista Scala REPL
- Demonstration: Funktioner i Scala REPL
- Viktiga saker att ta med sig
- Kontroll av kunskap
- Övningsprojekt: Apache Hive
Apache Spark nästa generations ramverk för stora data
- Apache Spark nästa generations ramverk för stora data
- Historik om Spark
- Begränsningar av Mapreduce i Hadoop
- Introduktion till Apache Spark
- Komponenter i Spark
- Tillämpning av bearbetning i minnet
- Hadoop-ekosystem vs Spark
- Fördelar med Spark
- Spark arkitektur
- Spark-kluster i den verkliga världen
- Demo: Kör ett Scala-program i Spark Shell
- Demonstration: Ställa in exekveringsmiljö i IDE
- Demonstration: Spark webbgränssnitt
- Viktiga saker att ta med sig
- Kunskapskontroll
- Övningsprojekt: Apache Spark nästa generations ramverk för stora datamängder
Spark Kärnbearbetning RDD
- Introduktion till Spark RDD
- RDD i Spark
- Skapa Spark RDD
- Para ihop RDD
- RDD-operationer
- Demo: Spark Transformation Detaljerad utforskning med hjälp av Scala-exempel
- Demo: Spark Action Detaljerad utforskning med hjälp av Scala
- Cachelagring och persistens
- Nivåer för lagring
- Lineage och DAG
- Behov av DAG
- Felsökning i Spark
- Partitionering i Spark
- Schemaläggning i Spark
- Blandning i Spark
- Sortera blanda Aggregera data med parade RDD
- Demo: Spark-applikation med data som skrivs tillbaka till HDFS och Spark UI
- Demonstration: Ändra parametrar för Spark-applikationen
- Demonstration: Hantering av olika filformat
- Demonstration: Spark RDD med verklig applikation
- Demonstration: Optimering av Spark-jobb
- Viktiga saker att ta med sig
- Kunskapskontroll
- Övningsprojekt: Spark Core-bearbetning av RDD
Spark SQL-bearbetning av dataramar
- Spark SQL-bearbetning av DataFrames
- Spark SQL introduktion
- Spark SQL-arkitektur
- Dataframes
- Demo: Hantering av olika dataformat
- Demo: Implementera olika dataframe-operationer
- Demonstration: UDF och UDAF
- Samverkan med RDD:er
- Demonstration: Bearbeta dataram med hjälp av SQL-fråga
- RDD vs Dataframe vs Dataset
- Övningsprojekt: Bearbetning av dataramar
- Viktiga saker att ta med sig
- Kunskapskontroll
- Övningsprojekt: Spark SQL - Bearbetning av dataframes
Spark MLib Modellering av BigData med Spark
- Spark Mlib Modellering av Big Data med Spark
- Data Scientist och Data Analysts roll i Big Data
- Analys i Spark
- Maskininlärning
- Övervakad inlärning
- Demo: Klassificering av linjär SVM
- Demo: Linjär regression med fallstudier från verkliga världen
- Oövervakad inlärning
- Demo: Oövervakad klustring K-means
- Förstärkt inlärning
- Semi-övervakad inlärning
- Översikt över Mlib
- Mlib rörledningar
- Viktiga saker att ta med sig
- Kunskapskontroll
- Övningsprojekt: Spark Mlib - Modellering av stora datamängder med Spark
Ramverk för strömbearbetning och Spark Streaming
- Översikt över strömning
- Realtidsbearbetning av stora datamängder
- Arkitekturer för databehandling
- Demonstration: Databehandling i realtid Spark Streaming
- Demonstration: Skriva Spark Streaming-applikation
- Introduktion till DStreams
- Transformationer på DStreams
- Designmönster för användning av Foreachrdd
- Operationer för tillstånd
- Windowing-operationer
- Sammanfoga operationer Sammanfoga ström-dataset
- Demonstration: Windowing av strömmande källor för databehandling i realtid
- Demonstration: Bearbetning av strömmande data från Twitter
- Strukturerad Spark-strömning-
- Användningsfall Banktransaktioner
- Arkitekturmodell för strukturerad strömning och dess komponenter
- Sänkor för utdata
- API:er för strukturerad strömning
- Konstruktion av kolumner i strukturerad strömning
- Fönsteroperationer på händelsetid
- Användningsfall
- Demo: Strömmande pipeline
- Övningsprojekt: Spark-strömning
- Viktiga saker att ta med sig
- Kontroll av kunskap
- Övningsprojekt: Ramverk för strömbearbetning och Spark Streaming
Spark GraphX
- Spark GraphX
- Introduktion till Graph
- GraphX i Spark
- GraphX-operatorer
- Join-operatorer
- GraphX parallella system
- Algoritmer i Spark
- Pregel API
- Användningsfall för GraphX
- Demo: GraphX vertex-predikat
- Demonstration: Algoritm för sidrankning
- Viktiga saker att ta med sig
- Kunskapskontroll
- Övningsprojekt: Spark GraphX Projektassistans
Adding Value Consulting AB (AVC)
Vi utbildar och certifierar dig inom projektledning, agile och IT.
Utbildningsformer:
- Öppen, schemalagd utbildning
- Onlinekurser & online certifiering
- Företagsintern utbildning
Vi kan utbilda dig på svenska, engelska eller hollandska.
Våra kurser är mycket praktiska och du kan omedelbart tillämpa din nya kunskap i ditt arbete. We inspire to make a difference!
Vi hoppas att även utbilda dig!
There are no frequently asked questions yet. If you have any more questions or need help, contact our customer service.



