Big Data Hadoop and Spark Developer – e-Learning en/of online klassikaal

Product type

Big Data Hadoop and Spark Developer – e-Learning en/of online klassikaal

Adding Value Consulting (AVC)
Logo Adding Value Consulting (AVC)
Provider rating: starstarstarstarstar_half 9.4 Adding Value Consulting (AVC) has an average rating of 9.4 (out of 125 reviews)

Ready to work on your personal development? Book now!

Description

Big Data Hadoop and Spark Developer 

e-Learning en/of online klassikaal - uw keuze!

Leer hoe u grote hoeveelheden gegevens kunt analyseren

De wereld wordt steeds digitaler en het belang van big data en data-analyse zal de komende jaren alleen maar toenemen. Het kiezen van een carrière op het gebied van big data en analytics is misschien wel wat je zoekt om aan je carrièreverwachtingen te voldoen.

De Big Data Hadoop-training leert je de concepten van het Hadoop-framework, de vorming ervan in een clusteromgeving, en bereidt je voor op Cloudera's CCA175 Big Data-certificering die niet bij deze training is inbegrepen.

Wat is allemaal inbegrepen?

  • 12 maanden online toegang tot de Big data …

Read the complete description

Frequently asked questions

There are no frequently asked questions yet. If you have any more questions or need help, contact our customer service.

Didn't find what you were looking for? See also: Internet Security, E-commerce, Network Management, CompTIA A+ / Network+ / Security+, and IT Security.

Big Data Hadoop and Spark Developer 

e-Learning en/of online klassikaal - uw keuze!

Leer hoe u grote hoeveelheden gegevens kunt analyseren

De wereld wordt steeds digitaler en het belang van big data en data-analyse zal de komende jaren alleen maar toenemen. Het kiezen van een carrière op het gebied van big data en analytics is misschien wel wat je zoekt om aan je carrièreverwachtingen te voldoen.

De Big Data Hadoop-training leert je de concepten van het Hadoop-framework, de vorming ervan in een clusteromgeving, en bereidt je voor op Cloudera's CCA175 Big Data-certificering die niet bij deze training is inbegrepen.

Wat is allemaal inbegrepen?

  • 12 maanden online toegang tot de Big data hadoop en e-learning voor ontwikkelaars
  • Vijf praktische projecten om de geleerde vaardigheden te perfectioneren
  • Twee simulatie test-examens voor zelfevaluatie
  • 16 lessen
  • 74 uur gemengd leren
    - 22 uur e-Learning
    - 52 uur online-training onder leiding van een ervaren trainer
  • Vier op de industrie gebaseerde eindexamenprojecten
  • Interactief leren met geïntegreerde labs
  • Curriculum afgestemd op Cloudera CCA175 certificeringsexamen
  • Training over essentiële big data en Hadoop ecosysteem tools, en Apache Spark
  • Specifieke mentorsessies door een faculteit van experts uit de industrie
  • Gratis cursus inbegrepen - Apache Kafka
  • Gratis cursus inbegrepen - Core Java

Over de cursus

Met deze Big Data Hadoop-cursus leer je het big data-framework met Hadoop en Spark, inclusief HDFS, YARN en MapReduce. De cursus behandelt ook Pig, Hive en Impala voor het verwerken en analyseren van grote datasets die zijn opgeslagen in de HDFS en het gebruik van Sqoop en Flume voor data-opname.

Je krijgt realtime gegevensverwerking te zien met behulp van Spark, inclusief functioneel programmeren in Spark, het implementeren van Spark-applicaties, inzicht in parallelle verwerking in Spark en het gebruik van Spark RDD-optimalisatietechnieken. Je leert ook de verschillende interactieve algoritmen in Spark en gebruikt Spark SQL voor het maken, transformeren en opvragen van gegevensformulieren.

Ten slotte moet u real-life, branchegerichte projecten uitvoeren met CloudLab op het gebied van bankieren, telecommunicatie, sociale media, verzekeringen en e-commerce.

Er zijn geen voorwaarden voor deze cursus. Het is echter handig om enige kennis te hebben van Core Java en SQL. We bieden een gratis online cursus "Java essentials for Hadoop" in je eigen tempo aan als je je Core Java-vaardigheden wilt opfrissen.

Leerdoelen

Aan het einde van de cursus begrijpt u:

  • De verschillende componenten van het Hadoop-ecosysteem, zoals Hadoop 2.7, Yarn, MapReduce, Pig, Hive, Impala, HBase, Sqoop, Flume en Apache Spark
  • Hadoop Distributed File System (HDFS) en YARN-architectuur
  • MapReduce en zijn kenmerken en assimileer geavanceerde MapReduce-concepten
  • Verschillende soorten bestandsindelingen, Avro-schema, Avro met Hive en Sqoop en Schema-evolutie
  • Goot, gootarchitectuur, bronnen, gootputten, kanalen en gootconfiguraties
  • HBase, de architectuur en gegevensopslag, en leer het verschil tussen HBase en RDBMS
  • Veerkrachtige distributiedatasets (RDD) in detail
  • De algemene use-cases van Spark en verschillende interactieve algoritmen

U kunt ook:

  • Gegevens opnemen met Sqoop en Flume
  • Maak een database en tabellen in Hive en Impala, begrijp HBase en gebruik Hive en Impala voor partitionering
  • Praktische kennis opdoen van Pig en zijn componenten
  • Programmeer functioneel in Spark, en implementeer en bouw Spark-applicaties
  • Een diepgaand inzicht verwerven in parallelle verwerking in Spark en Spark RDD-optimalisatietechnieken
  • Dataframes maken, transformeren en opvragen met Spark SQL

De behandelde onderwerpen

De cursus behandelt de volgende onderwerpen:

  • Cursus Inleiding
  • Les 1 - Inleiding tot big data en het Hadoop-ecosysteem
  • Les 2 - HDFS en YARN
  • Les 3 - MapReduce en Sqoop
  • Les 4 - Basisprincipes van Hive en Impala
  • Les 5 - Werken met Hive en Impala
  • Les 6 - Soorten gegevensformaten
  • Les 7 - Geavanceerd Hive-concept en partitionering van gegevensbestanden
  • Les 8 - Apache Flume en HBase
  • Les 9 - PIG
  • Les 10 - Basisprincipes van Apache Spark
  • Les 11 - RDD's in Spark
  • Les 12 - Implementatie van Spark-applicaties
  • Les 13 - Spark parallelle verwerking
  • Les 14 - Spark RDD-optimalisatietechnieken
  • Les 15 - Spark-algoritme
  • Les 16 - Spark SQL
  • GRATIS CURSUS - Apache Kafka
  • GRATIS CURSUS - Core Java

Vier industrie gebaseerde eindexamenprojecten

De training omvat ook vijf real-life, branchegerichte projecten. Succesvolle evaluatie van een van de eerste twee onderstaande projecten maakt deel uit van de criteria om in aanmerking te komen voor certificering. We hebben ook drie extra projecten toegevoegd om te oefenen, om u te helpen bij het starten van uw Hadoop- en Spark-reis.

Project 1

Domein: Bankieren - een Portugese bankinstelling voerde een marketingcampagne om potentiële klanten te overtuigen om te investeren in een termijndeposito. Hun marketingcampagnes werden gevoerd via telefoongesprekken en sommige klanten werden meer dan eens benaderd. Het is jouw taak om de gegevens die tijdens de marketingcampagne zijn verzameld, te analyseren.

Project 2

Domein: Telecommunicatie - een aanbieder van mobiele telefonie heeft een nieuwe Open Network-campagne gelanceerd. Het bedrijf heeft gebruikers uitgenodigd om klachten in te dienen over de torens in hun omgeving als ze problemen ondervinden met hun mobiele netwerk. Het bedrijf heeft de dataset verzameld van gebruikers die een klacht hebben ingediend. Het vierde en vijfde veld van de dataset hebben een lengte- en breedtegraad van gebruikers, wat belangrijke informatie is voor het bedrijf. U moet deze lengte- en breedtegegevens vinden op basis van de beschikbare dataset en drie clusters van gebruikers maken met een k-gemiddeldenalgoritme.

Project 3

Domein: sociale media - als onderdeel van een rekruteringsoefening vroeg een groot bedrijf voor sociale media kandidaten om een ​​dataset van Stack Exchange te analyseren. U gaat de dataset gebruiken om tot bepaalde belangrijke inzichten te komen.

Project 4

Domein: website met filmgerelateerde informatie - IMDB is een online database met filmgerelateerde informatie. IMDB-gebruikers beoordelen films op een schaal van 1 tot 5 - waarbij 1 de slechtste en 5 de beste is - en beoordelingen geven. De dataset bevat ook aanvullende informatie, zoals het jaar van uitgave van de film. Je hebt de taak om de verzamelde gegevens te analyseren.

Project 5

Domein: Verzekering - een in de VS gevestigde verzekeringsmaatschappij heeft besloten een nieuw ziektekostenverzekeringsprogramma te lanceren dat gericht is op verschillende klanten. Om een ​​klant te helpen de markt beter te begrijpen, moet u een reeks gegevensanalyses uitvoeren met Hadoop.

Doelgroep

Carrièremogelijkheden op het gebied van big data nemen toe en Hadoop wordt snel een technologie die je moet kennen in de big data-architectuur. Big Data-training is geschikt voor IT-, datamanagement- en analyseprofessionals, waaronder:

  • Softwareontwikkelaars en architecten
  • Analytics-professionals
  • Senior IT-professionals
  • Test- en mainframeprofessionals
  • Professionals op het gebied van gegevensbeheer
  • Business intelligence-professionals
  • Projectmanagers
  • Aspirant datawetenschappers
  • Afgestudeerden
  • die carrière willen maken in big data-analyse

Examen/ Certificaat

Om een certificaat voor voltooiing van de cursus te behalen, moet u 85% van de cursus, één project en één simulatietest voltooien, met een minimumscore van 80%.

Certificatie Alignment:
Ons curriculum is afgestemd op het Cloudera CCA175 certificeringsexamen.

Uitgebreid overzicht van het programma:

Les 01 - Inleiding tot Big Data en Hadoop

  • Inleiding tot Big Data en Hadoop
  • Inleiding tot Big Data
  • Big Data-analyse
  • Wat is Big Data?
  • Vier aspecten van Big Data
  • Casestudie Royal Bank of Scotland
  • Uitdagingen van traditionele systemen
  • Gedistribueerde systemen
  • Inleiding tot Hadoop
  • Onderdelen van het Hadoop-ecosysteem, deel één
  • Onderdelen van het Hadoop-ecosysteem Deel twee
  • Onderdelen van het Hadoop-ecosysteem Deel drie
  • Commerciële Hadoop-distributies
  • Demo: Doorloop van Simplilearn Cloudlab
  • Belangrijkste resultaten
  • Kenniscontrole

Les 02 - Hadoop-architectuur Gedistribueerde opslag (HDFS) en YARN

  • Hadoop-architectuur Gedistribueerde opslag (HDFS) en YARN
  • Wat is HDFS
  • Noodzaak van HDFS
  • Gewoon bestandssysteem vs HDFS
  • Kenmerken van HDFS
  • HDFS-architectuur en componenten
  • Clusterimplementaties met hoge beschikbaarheid
  • HDFS Component Bestandssysteem Naamruimte
  • Opsplitsing van gegevensblokken
  • Topologie gegevensreplicatie
  • HDFS Commandolijn
  • Demo: Gemeenschappelijke HDFS-commando's
  • Praktijkproject: HDFS-opdrachtregel
  • Inleiding Yarn
  • Gebruik van Yarn
  • Yarn en zijn architectuur
  • Hulpbronbeheer
  • Hoe Resource Manager werkt
  • Applicatie Meester
  • Hoe Yarn een applicatie uitvoert
  • Hulpmiddelen voor ontwikkelaars van Yarn
  • Demo: Doorloop van Cluster Deel Een
  • Demo: Doorloop van Cluster Deel Twee
  • Belangrijkste te nemen punten
  • Kenniscontrole
  • Praktijkproject: Hadoop-architectuur, gedistribueerde opslag (HDFS) en Yarn

Les 03 - Gegevensinvoer in Big Data Systemen en ETL

  • Data-integratie in Big Data Systemen en ETL
  • Overzicht data-integratie deel één
  • Overzicht gegevensinvoer deel twee
  • Apache Sqoop
  • Sqoop en zijn toepassingen
  • Sqoop Verwerking
  • Sqoop importproces
  • Sqoop verbindingen
  • Demo: Gegevens importeren en exporteren van MySQL naar HDFS
  • Praktijkproject: Apache Sqoop
  • Apache Flume
  • Flume model
  • Schaalbaarheid in Flume
  • Componenten in de architectuur van Flume
  • Flume componenten configureren
  • Demo: Twitter-gegevens invoeren
  • Apache Kafka
  • Gebruikersactiviteit aggregeren met Kafka
  • Kafka gegevensmodel
  • Partities
  • Architectuur van Apache Kafka
  • Demo: Kafka Cluster opzetten
  • Producentzijde API Voorbeeld
  • API aan consumentenzijde
  • Voorbeeld API consumentenzijde
  • Kafka verbinden
  • Demo: Voorbeeld Kafka Data Pipeline maken met Producer en Consumer
  • Belangrijkste punten
  • Kenniscontrole
  • Praktijkproject: Gegevensinvoer in Big Data Systemen en ETL

Les 04 - Gedistribueerde verwerking MapReduce Raamwerk en Pig

  • Gedistribueerde verwerking in Mapreduce en Pig
  • Gedistribueerde verwerking in Mapreduce
  • Voorbeeld van woordentelling
  • Map Uitvoering Fasen
  • Mapuitvoering gedistribueerd met twee knooppunten
  • Mapreduce Banen
  • Hadoop Mapreduce Job Werk Interactie
  • Opzetten van de omgeving voor Mapreduce ontwikkeling
  • Verzameling klassen
  • Een nieuw project maken
  • Gevorderde Mapreduce
  • Gegevenstypen in Hadoop
  • Uitvoerformaten in Mapreduce
  • Gedistribueerde cache gebruiken
  • Verbindingen in Mapreduce
  • Gerepliceerde join
  • Inleiding tot Pig
  • Onderdelen van Pig
  • Pig gegevensmodel
  • Interactieve modi van Pig
  • Pig operaties
  • Diverse relaties uitgevoerd door ontwikkelaars
  • Demo: Analyse van webloggegevens met behulp van Mapreduce
  • Demo: Verkoopgegevens analyseren en Kpis oplossen met behulp van Pig
  • Praktijkproject: Apache Pig
  • Demo: Wordcount
  • Belangrijkste resultaten
  • Kenniscontrole
  • Praktijkproject: Gedistribueerde verwerking - Mapreduce Framework en Pig

Les 05 - Apache Hive

  • Apache Hive
  • Hive SQL over Hadoop Mapreduce
  • Hive architectuur
  • Interfaces om Hive-query's uit te voeren
  • Hive uitvoeren vanaf de opdrachtregel
  • Hive Metastore
  • Hive DDL en DML
  • Nieuwe tabel aanmaken
  • Datatypes
  • Validatie van gegevens
  • Bestandsformaat types
  • Serialisatie van gegevens
  • Hive-tabel en Avro-schema
  • Hive Optimalisatie Partitionering Bucketing en Sampling
  • Niet-gepartitioneerde tabel
  • Gegevens invoegen
  • Dynamisch partitioneren in Hive
  • Bucketing
  • Wat doen emmers?
  • Hive Analytics UDF en UDAF
  • Andere functies van Hive
  • Demo: Real-time analyse en gegevensfiltering
  • Demo: Probleem uit de praktijk
  • Demo: Gegevensrepresentatie en -import met behulp van Hive
  • Belangrijkste resultaten
  • Kenniscontrole
  • Praktijkproject: Apache Hive

Les 06 - NoSQL Databases HBase

  • NoSQL databases HBase
  • NoSQL Inleiding
  • Demo: Yarn Tuning
  • Hbase Overzicht
  • Hbase-architectuur
  • Gegevensmodel
  • Verbinden met HBase
  • Praktijk project: HBase Shell
  • Belangrijke Aanknopingspunten
  • Kennis Check
  • Praktijkproject: NoSQL Databases - HBase

Les 07 - Basisprincipes van functioneel programmeren en Scala

  • Grondbeginselen van functioneel programmeren en Scala
  • Inleiding tot Scala
  • Demo: Installatie van Scala
  • Functioneel programmeren
  • Programmeren met Scala
  • Demo: Basisletters en rekenkundige programmering
  • Demo: Logische operatoren
  • Type-inferentie Klassen Objecten en Functies in Scala
  • Demo: Functies voor type-inferentie Anonieme functie en klasse
  • Verzamelingen
  • Soorten verzamelingen
  • Demo: Vijf soorten verzamelingen
  • Demo: Bewerkingen op lijsten
  • Scala REPL
  • Demo: Kenmerken van Scala REPL
  • Belangrijkste te nemen punten
  • Kenniscontrole
  • Praktijkproject: Apache Hive

Les 08 - Apache Spark Volgende-generatie Big Data Framework

  • Apache Spark Next-Generation Big Data Framework
  • Geschiedenis van Spark
  • Beperkingen van Mapreduce in Hadoop
  • Inleiding tot Apache Spark
  • Onderdelen van Spark
  • Toepassing van in-memory processing
  • Hadoop-ecosysteem vs. Spark
  • Voordelen van Spark
  • Architectuur van Spark
  • Spark-cluster in de echte wereld
  • Demo: Scala-programma's uitvoeren in Spark Shell
  • Demo: Uitvoeringsomgeving instellen in IDE
  • Demo: Spark Web UI
  • Belangrijkste te nemen punten
  • Kenniscontrole
  • Praktijkproject: Apache Spark Next-Generation Big Data Framework

Les 09 - Spark Core Verwerking RDD

  • Inleiding tot Spark RDD
  • RDD in Spark
  • Spark RDD aanmaken
  • RDD koppelen
  • RDD bewerkingen
  • Demo: Spark transformatie gedetailleerde verkenning met behulp van Scala voorbeelden
  • Demo: Spark Action Gedetailleerde verkenning met behulp van Scala
  • Caching en persistentie
  • Opslagniveaus
  • Lineage en DAG
  • Noodzaak van DAG
  • Debuggen in Spark
  • Partitioneren in Spark
  • Planning in Spark
  • Shuffelen in Spark
  • Sorteer Shuffle
  • Gegevens samenvoegen met gekoppelde RDD
  • Demo: Spark-toepassing met gegevens teruggeschreven naar HDFS en Spark UI
  • Demo: Veranderen van Spark-toepassingsparameters
  • Demo: Omgaan met verschillende bestandsformaten
  • Demo: Spark RDD met echte toepassing
  • Demo: Optimaliseren van Spark Jobs
  • Belangrijkste resultaten
  • Kenniscontrole
  • Praktijkproject: Spark Core Verwerking RDD

Les 10 - Spark SQL Verwerking DataFrames

  • Spark SQL Verwerking DataFrames
  • Spark SQL Inleiding
  • Spark SQL architectuur
  • Dataframes
  • Demo: Omgaan met verschillende gegevensformaten
  • Demo: Diverse Dataframe-bewerkingen uitvoeren
  • Demo: UDF en UDAF
  • Samenwerken met RDD's
  • Demo: Dataframe verwerken met SQL Query
  • RDD vs Dataframe vs Dataset
  • Praktijkproject: Dataframes verwerken
  • Belangrijke Aanknopingspunten
  • Kennis Controle
  • Praktijk Project: Spark SQL - Verwerken van dataframes

Les 11 - Spark MLib Modelleren van BigData met Spark

  • Spark Mlib Modelleren van BigData met Spark
  • Rol van datawetenschapper en data-analist in Big Data
  • Analytics in Spark
  • Machinaal leren
  • Toezichthoudend leren
  • Demo: Classificatie van lineair SVM
  • Demo: Lineaire regressie met praktijkvoorbeelden
  • Leren zonder toezicht
  • Demo: Ongecontroleerd clusteren K-means
  • Versterking leren
  • Semi-supervised leren
  • Overzicht van Mlib
  • Mlib-pijplijnen
  • Belangrijkste resultaten
  • Kenniscontrole
  • Praktijkproject: Spark Mlib - Big data modelleren met Spark

Les 12 - Stream Processing Frameworks en Spark Streaming

  • Streaming Overzicht
  • Real-time verwerking van grote gegevens
  • Architecturen voor gegevensverwerking
  • Demo: Real-time gegevensverwerking
  • Spark-streaming
  • Demo: Spark Streaming toepassing schrijven
  • Inleiding tot DStreams
  • Transformaties op DStreams
  • Ontwerppatronen voor het gebruik van DStreams
  • Staat operaties
  • Windowing operaties
  • Join Operaties Stream-dataset Join
  • Demo: Windowing van real-time gegevensverwerking
  • Streaming bronnen
  • Demo: Verwerking van Twitter-streaminggegevens
  • Gestructureerde Spark-streaming
  • Use Case banktransacties
  • Gestructureerd streaming architectuurmodel en zijn componenten
  • Uitvoerputten
  • Gestructureerde Streaming API's
  • Constructie van kolommen in gestructureerde streaming
  • Windowed operaties op gebeurtenis-tijd
  • Gebruikscases
  • Demo: Streaming Pipeline
  • Praktijkproject: Spark Streaming
  • Belangrijke Aanknopingspunten
  • Kennis Check
  • Praktijk Project: Stream Processing Frameworks en Spark Streaming

Les 13 - Spark GraphX

  • Spark GraphX
  • Inleiding tot Graph
  • GraphX in Spark
  • GraphX operatoren
  • Join Operators
  • Parallel systeem GraphX
  • Algoritmen in Spark
  • Pregel API
  • Gebruik van GraphX
  • Demo: GraphX Vertex Predicate
  • Demo: Page Rank-algoritme
  • Belangrijkste resultaten
  • Kenniscontrole
  • Praktijkproject: Spark GraphX
  • Project hulp

Bekijk onze website (addingvalue .nl) voor ons volledige aanbod van trainingen; zoals: AgilePM; AgilePM; Agile Scrum; AgileSHIFT; AWS; Better Business Cases (BBC); Change Management; CISM, CISSP; COBIT, DevOps; ITIL4; IT4IT; IPMA; ISO/IEC 27001; LeanIT; Management of Portfolios (MoP); Management of Risk (M_o_R); Management of Value (MoV); MSP; Paxis; PMI-ACP; PMI-RMP; PRINCE2; P3O; SAFe; Lean Six Sigma; Software Testing ISTQB; TOGAF; VeriSM en nog veel meer!

Wij hopen u ook te certificeren!

There are no reviews yet.

Share your review

Do you have experience with this course? Submit your review and help other people make the right choice. As a thank you for your effort we will donate $1.- to Stichting Edukans.

There are no frequently asked questions yet. If you have any more questions or need help, contact our customer service.