Скачать Apache Spark 2 и 3 с использованием Python 3 (ранее CCA 175) - udemy (2022)

bart · 28 Янв 2022

Apache Spark 2 и 3 с использованием Python 3 (ранее CCA 175)
Apache Spark 2 and 3 using Python 3 (Formerly CCA 175)
udemy

В рамках этого курса вы изучите все ключевые навыки построения конвейеров обработки данных с использованием API-интерфейсов Spark SQL и Spark Data Frame с использованием Python в качестве языка программирования. Раньше этот курс был курсом CCA 175 Spark и Hadoop Developer для подготовки к сертификационному экзамену. По состоянию на 31.10.2021 экзамен закрыт, и мы переименовали его в Apache Spark 2 и 3 с использованием Python 3, поскольку он охватывает актуальные для отрасли темы, выходящие за рамки сертификации.

Об инженерии данных
Инжиниринг данных — это не что иное, как обработка данных в зависимости от наших последующих потребностей. Нам нужно построить различные конвейеры, такие как пакетные конвейеры, потоковые конвейеры и т. Д., Как часть инженерии данных. Все роли, связанные с обработкой данных, объединены в группу Data Engineering. Традиционно они известны как ETL Development, Data Warehouse Development и т. д. Apache Spark развивается как ведущая технология для управления проектированием данных в масштабе.

Я подготовил этот курс для всех, кто хотел бы перейти на роль Data Engineer, используя Pyspark (Python + Spark) . Я сам являюсь проверенным архитектором решений для проектирования данных с подтвержденным опытом разработки решений с использованием Apache Spark .

Давайте подробно рассмотрим, что вы будете изучать на этом курсе. Имейте в виду, что курс создан с множеством практических заданий, которые дадут вам достаточно практики с использованием правильных инструментов. Кроме того, есть множество заданий и упражнений, чтобы оценить себя.

Настройка кластера больших данных с одним узлом

Многие из вас хотели бы перейти на большие данные с традиционных технологий, таких как мейнфреймы, Oracle PL/SQL и т. д., но у вас может не быть доступа к кластерам больших данных. Для вас очень важно настроить среду в правильном порядке. Не беспокойтесь, если у вас нет кластера под рукой, мы поможем вам с поддержкой через Udemy Q&A.

Настройте экземпляр AWS Cloud9 на основе Ubuntu с правильной конфигурацией
Убедитесь, что Docker настроен
Настройте Jupyter Lab и другие ключевые компоненты
Настройка и проверка Hadoop, Hive, YARN и Spark

Краткий обзор Python
Этот курс требует приличного знания Python. Чтобы убедиться, что вы понимаете Spark с точки зрения инженерии данных, мы добавили модуль для быстрого ознакомления с Python. Если вы не знакомы с Python, то предлагаем вам пройти другой наш курс Data Engineering Essentials — Python, SQL и Spark .

Инжиниринг данных с использованием Spark SQL
Давайте углубимся в Spark SQL, чтобы понять, как его можно использовать для построения конвейеров обработки данных. Spark с SQL предоставит нам возможность использовать возможности Spark для распределенных вычислений в сочетании с простым в использовании и удобным для разработчиков синтаксисом в стиле SQL.

Начало работы со Spark SQL
Основные преобразования с использованием Spark SQL
Управление таблицами Spark Metastore — основные DDL и DML
Управление таблицами Spark Metastore Tables — DML и секционирование
Обзор функций Spark SQL
Оконные функции с использованием Spark SQL

Инжиниринг данных с использованием API-интерфейсов Spark Data Frame
API-интерфейсы Spark Data Frame — это альтернативный способ создания приложений Data Engineering в масштабе с использованием возможностей распределенных вычислений Spark. Специалисты по обработке и обработке данных, имеющие опыт разработки приложений, могут предпочесть API-интерфейсы Data Frame API Spark SQL для создания приложений Data Engineering.

Обзор обработки данных с использованием API Spark Data Frame
Обработка данных столбца с использованием API Spark Data Frame
Базовые преобразования с использованием API Spark Data Frame — фильтрация, агрегирование и сортировка
Присоединение к наборам данных с помощью API Spark Data Frame
Оконные функции с использованием API Spark Data Frame — агрегаты, ранжирование и аналитические функции
Базы данных и таблицы Spark Metastore

Жизненный цикл разработки и развертывания приложений Apache Spark

Как инженеры данных на основе Apache Spark, мы должны быть знакомы с жизненным циклом разработки и развертывания приложений. В рамках этого раздела вы изучите полный жизненный цикл разработки и жизненного цикла развертывания. Сюда входит, помимо прочего, обработка кода, экстернализация свойств, просмотр деталей Spark Jobs и многое другое.

Жизненный цикл разработки приложений Apache Spark
Жизненный цикл выполнения приложения Spark и пользовательский интерфейс Spark
Настройте прокси-сервер SSH для доступа к журналам приложений Spark.
Режимы развертывания приложений Spark
Передача файлов свойств приложения и внешних зависимостей

Все демонстрации даны на нашем современном кластере больших данных. Вы можете воспользоваться бесплатным доступом к лаборатории на один месяц, обратившись по адресу support@itversity.com с квитанцией Udemy.

Для кого этот курс:

Любой аспирант/профессионал в области ИТ, желающий изучить Data Engineering с помощью Apache Spark.
Разработчики Python, которые хотят изучить Spark, чтобы добавить ключевой навык, чтобы стать инженером данных

Требования

Базовые навыки программирования на любом языке программирования
Лаборатория самообслуживания (предоставляются инструкции) или лаборатория ITVersity за дополнительную плату для соответствующей среды.
Минимальный объем памяти, необходимый в зависимости от среды, которую вы используете с 64-разрядной операционной системой.
4 ГБ ОЗУ с доступом к соответствующим кластерам или 16 ГБ ОЗУ с виртуальными машинами, такими как Cloudera QuickStart VM.

Материал на английском языке

Продажник:

Для просмотра вы должны войти или зарегистрироваться.

Скачать:

Скрытое содержимое могут видеть только пользователь группы: PRO

Качать без ограничений Купить доступ к 1 теме

Скрытое содержимое для пользователей: Ferr

Скачать Apache Spark 2 и 3 с использованием Python 3 (ранее CCA 175) - udemy (2022)

bart

Похожие темы

Мы в соц. сетях

Зарегистрируйся прямо сейчас, и гарантировано получи подарок от команды EGround!

Открой доступ к материалам на форуме за 585 рублей!