• TopKursy - РЕДКИЕ Удаленные КУРСЫ!

    Эксклюзивные материалы, недоступные на других источниках.

    Откройте доступ к уникальным знаниям прямо сейчас!

    Подробнее

Скачать Apache Spark 2 и 3 с использованием Python 3 (ранее CCA 175) - udemy (2022)

bart

bart

PRO
Сообщения
44.548
Реакции
22.519
Apache Spark 2 и 3 с использованием Python 3 (ранее CCA 175)
Apache Spark 2 and 3 using Python 3 (Formerly CCA 175)
udemy

1643325903415.png


В рамках этого курса вы изучите все ключевые навыки построения конвейеров обработки данных с использованием API-интерфейсов Spark SQL и Spark Data Frame с использованием Python в качестве языка программирования. Раньше этот курс был курсом CCA 175 Spark и Hadoop Developer для подготовки к сертификационному экзамену. По состоянию на 31.10.2021 экзамен закрыт, и мы переименовали его в Apache Spark 2 и 3 с использованием Python 3, поскольку он охватывает актуальные для отрасли темы, выходящие за рамки сертификации.

Об инженерии данных
Инжиниринг данных — это не что иное, как обработка данных в зависимости от наших последующих потребностей. Нам нужно построить различные конвейеры, такие как пакетные конвейеры, потоковые конвейеры и т. Д., Как часть инженерии данных. Все роли, связанные с обработкой данных, объединены в группу Data Engineering. Традиционно они известны как ETL Development, Data Warehouse Development и т. д. Apache Spark развивается как ведущая технология для управления проектированием данных в масштабе.

Я подготовил этот курс для всех, кто хотел бы перейти на роль Data Engineer, используя Pyspark (Python + Spark) . Я сам являюсь проверенным архитектором решений для проектирования данных с подтвержденным опытом разработки решений с использованием Apache Spark .

Давайте подробно рассмотрим, что вы будете изучать на этом курсе. Имейте в виду, что курс создан с множеством практических заданий, которые дадут вам достаточно практики с использованием правильных инструментов. Кроме того, есть множество заданий и упражнений, чтобы оценить себя.

Настройка кластера больших данных с одним узлом

Многие из вас хотели бы перейти на большие данные с традиционных технологий, таких как мейнфреймы, Oracle PL/SQL и т. д., но у вас может не быть доступа к кластерам больших данных. Для вас очень важно настроить среду в правильном порядке. Не беспокойтесь, если у вас нет кластера под рукой, мы поможем вам с поддержкой через Udemy Q&A.
  • Настройте экземпляр AWS Cloud9 на основе Ubuntu с правильной конфигурацией
  • Убедитесь, что Docker настроен
  • Настройте Jupyter Lab и другие ключевые компоненты
  • Настройка и проверка Hadoop, Hive, YARN и Spark
Краткий обзор Python
Этот курс требует приличного знания Python. Чтобы убедиться, что вы понимаете Spark с точки зрения инженерии данных, мы добавили модуль для быстрого ознакомления с Python. Если вы не знакомы с Python, то предлагаем вам пройти другой наш курс Data Engineering Essentials — Python, SQL и Spark .

Инжиниринг данных с использованием Spark SQL
Давайте углубимся в Spark SQL, чтобы понять, как его можно использовать для построения конвейеров обработки данных. Spark с SQL предоставит нам возможность использовать возможности Spark для распределенных вычислений в сочетании с простым в использовании и удобным для разработчиков синтаксисом в стиле SQL.
  • Начало работы со Spark SQL
  • Основные преобразования с использованием Spark SQL
  • Управление таблицами Spark Metastore — основные DDL и DML
  • Управление таблицами Spark Metastore Tables — DML и секционирование
  • Обзор функций Spark SQL
  • Оконные функции с использованием Spark SQL
Инжиниринг данных с использованием API-интерфейсов Spark Data Frame
API-интерфейсы Spark Data Frame — это альтернативный способ создания приложений Data Engineering в масштабе с использованием возможностей распределенных вычислений Spark. Специалисты по обработке и обработке данных, имеющие опыт разработки приложений, могут предпочесть API-интерфейсы Data Frame API Spark SQL для создания приложений Data Engineering.
  • Обзор обработки данных с использованием API Spark Data Frame
  • Обработка данных столбца с использованием API Spark Data Frame
  • Базовые преобразования с использованием API Spark Data Frame — фильтрация, агрегирование и сортировка
  • Присоединение к наборам данных с помощью API Spark Data Frame
  • Оконные функции с использованием API Spark Data Frame — агрегаты, ранжирование и аналитические функции
  • Базы данных и таблицы Spark Metastore
Жизненный цикл разработки и развертывания приложений Apache Spark

Как инженеры данных на основе Apache Spark, мы должны быть знакомы с жизненным циклом разработки и развертывания приложений. В рамках этого раздела вы изучите полный жизненный цикл разработки и жизненного цикла развертывания. Сюда входит, помимо прочего, обработка кода, экстернализация свойств, просмотр деталей Spark Jobs и многое другое.
  • Жизненный цикл разработки приложений Apache Spark
  • Жизненный цикл выполнения приложения Spark и пользовательский интерфейс Spark
  • Настройте прокси-сервер SSH для доступа к журналам приложений Spark.
  • Режимы развертывания приложений Spark
  • Передача файлов свойств приложения и внешних зависимостей
Все демонстрации даны на нашем современном кластере больших данных. Вы можете воспользоваться бесплатным доступом к лаборатории на один месяц, обратившись по адресу support@itversity.com с квитанцией Udemy.

Для кого этот курс:
  • Любой аспирант/профессионал в области ИТ, желающий изучить Data Engineering с помощью Apache Spark.
  • Разработчики Python, которые хотят изучить Spark, чтобы добавить ключевой навык, чтобы стать инженером данных
Требования
  • Базовые навыки программирования на любом языке программирования
  • Лаборатория самообслуживания (предоставляются инструкции) или лаборатория ITVersity за дополнительную плату для соответствующей среды.
  • Минимальный объем памяти, необходимый в зависимости от среды, которую вы используете с 64-разрядной операционной системой.
  • 4 ГБ ОЗУ с доступом к соответствующим кластерам или 16 ГБ ОЗУ с виртуальными машинами, такими как Cloudera QuickStart VM.
Материал на английском языке



Продажник:

Скачать:
Скрытое содержимое могут видеть только пользователь группы: PRO

Качать без ограничений Купить доступ к 1 теме
Скрытое содержимое для пользователей: Ferr
 
Сверху Снизу