bart
PRO
- Сообщения
- 44.548
- Реакции
- 22.519
Apache Spark 2 и 3 с использованием Python 3 (ранее CCA 175)
Apache Spark 2 and 3 using Python 3 (Formerly CCA 175)
udemy
В рамках этого курса вы изучите все ключевые навыки построения конвейеров обработки данных с использованием API-интерфейсов Spark SQL и Spark Data Frame с использованием Python в качестве языка программирования. Раньше этот курс был курсом CCA 175 Spark и Hadoop Developer для подготовки к сертификационному экзамену. По состоянию на 31.10.2021 экзамен закрыт, и мы переименовали его в Apache Spark 2 и 3 с использованием Python 3, поскольку он охватывает актуальные для отрасли темы, выходящие за рамки сертификации.
Об инженерии данных
Инжиниринг данных — это не что иное, как обработка данных в зависимости от наших последующих потребностей. Нам нужно построить различные конвейеры, такие как пакетные конвейеры, потоковые конвейеры и т. Д., Как часть инженерии данных. Все роли, связанные с обработкой данных, объединены в группу Data Engineering. Традиционно они известны как ETL Development, Data Warehouse Development и т. д. Apache Spark развивается как ведущая технология для управления проектированием данных в масштабе.
Я подготовил этот курс для всех, кто хотел бы перейти на роль Data Engineer, используя Pyspark (Python + Spark) . Я сам являюсь проверенным архитектором решений для проектирования данных с подтвержденным опытом разработки решений с использованием Apache Spark .
Давайте подробно рассмотрим, что вы будете изучать на этом курсе. Имейте в виду, что курс создан с множеством практических заданий, которые дадут вам достаточно практики с использованием правильных инструментов. Кроме того, есть множество заданий и упражнений, чтобы оценить себя.
Настройка кластера больших данных с одним узлом
Многие из вас хотели бы перейти на большие данные с традиционных технологий, таких как мейнфреймы, Oracle PL/SQL и т. д., но у вас может не быть доступа к кластерам больших данных. Для вас очень важно настроить среду в правильном порядке. Не беспокойтесь, если у вас нет кластера под рукой, мы поможем вам с поддержкой через Udemy Q&A.
Этот курс требует приличного знания Python. Чтобы убедиться, что вы понимаете Spark с точки зрения инженерии данных, мы добавили модуль для быстрого ознакомления с Python. Если вы не знакомы с Python, то предлагаем вам пройти другой наш курс Data Engineering Essentials — Python, SQL и Spark .
Инжиниринг данных с использованием Spark SQL
Давайте углубимся в Spark SQL, чтобы понять, как его можно использовать для построения конвейеров обработки данных. Spark с SQL предоставит нам возможность использовать возможности Spark для распределенных вычислений в сочетании с простым в использовании и удобным для разработчиков синтаксисом в стиле SQL.
API-интерфейсы Spark Data Frame — это альтернативный способ создания приложений Data Engineering в масштабе с использованием возможностей распределенных вычислений Spark. Специалисты по обработке и обработке данных, имеющие опыт разработки приложений, могут предпочесть API-интерфейсы Data Frame API Spark SQL для создания приложений Data Engineering.
Как инженеры данных на основе Apache Spark, мы должны быть знакомы с жизненным циклом разработки и развертывания приложений. В рамках этого раздела вы изучите полный жизненный цикл разработки и жизненного цикла развертывания. Сюда входит, помимо прочего, обработка кода, экстернализация свойств, просмотр деталей Spark Jobs и многое другое.
Для кого этот курс:
Продажник:
Скачать:
Apache Spark 2 and 3 using Python 3 (Formerly CCA 175)
udemy
В рамках этого курса вы изучите все ключевые навыки построения конвейеров обработки данных с использованием API-интерфейсов Spark SQL и Spark Data Frame с использованием Python в качестве языка программирования. Раньше этот курс был курсом CCA 175 Spark и Hadoop Developer для подготовки к сертификационному экзамену. По состоянию на 31.10.2021 экзамен закрыт, и мы переименовали его в Apache Spark 2 и 3 с использованием Python 3, поскольку он охватывает актуальные для отрасли темы, выходящие за рамки сертификации.
Об инженерии данных
Инжиниринг данных — это не что иное, как обработка данных в зависимости от наших последующих потребностей. Нам нужно построить различные конвейеры, такие как пакетные конвейеры, потоковые конвейеры и т. Д., Как часть инженерии данных. Все роли, связанные с обработкой данных, объединены в группу Data Engineering. Традиционно они известны как ETL Development, Data Warehouse Development и т. д. Apache Spark развивается как ведущая технология для управления проектированием данных в масштабе.
Я подготовил этот курс для всех, кто хотел бы перейти на роль Data Engineer, используя Pyspark (Python + Spark) . Я сам являюсь проверенным архитектором решений для проектирования данных с подтвержденным опытом разработки решений с использованием Apache Spark .
Давайте подробно рассмотрим, что вы будете изучать на этом курсе. Имейте в виду, что курс создан с множеством практических заданий, которые дадут вам достаточно практики с использованием правильных инструментов. Кроме того, есть множество заданий и упражнений, чтобы оценить себя.
Настройка кластера больших данных с одним узлом
Многие из вас хотели бы перейти на большие данные с традиционных технологий, таких как мейнфреймы, Oracle PL/SQL и т. д., но у вас может не быть доступа к кластерам больших данных. Для вас очень важно настроить среду в правильном порядке. Не беспокойтесь, если у вас нет кластера под рукой, мы поможем вам с поддержкой через Udemy Q&A.
- Настройте экземпляр AWS Cloud9 на основе Ubuntu с правильной конфигурацией
- Убедитесь, что Docker настроен
- Настройте Jupyter Lab и другие ключевые компоненты
- Настройка и проверка Hadoop, Hive, YARN и Spark
Этот курс требует приличного знания Python. Чтобы убедиться, что вы понимаете Spark с точки зрения инженерии данных, мы добавили модуль для быстрого ознакомления с Python. Если вы не знакомы с Python, то предлагаем вам пройти другой наш курс Data Engineering Essentials — Python, SQL и Spark .
Инжиниринг данных с использованием Spark SQL
Давайте углубимся в Spark SQL, чтобы понять, как его можно использовать для построения конвейеров обработки данных. Spark с SQL предоставит нам возможность использовать возможности Spark для распределенных вычислений в сочетании с простым в использовании и удобным для разработчиков синтаксисом в стиле SQL.
- Начало работы со Spark SQL
- Основные преобразования с использованием Spark SQL
- Управление таблицами Spark Metastore — основные DDL и DML
- Управление таблицами Spark Metastore Tables — DML и секционирование
- Обзор функций Spark SQL
- Оконные функции с использованием Spark SQL
API-интерфейсы Spark Data Frame — это альтернативный способ создания приложений Data Engineering в масштабе с использованием возможностей распределенных вычислений Spark. Специалисты по обработке и обработке данных, имеющие опыт разработки приложений, могут предпочесть API-интерфейсы Data Frame API Spark SQL для создания приложений Data Engineering.
- Обзор обработки данных с использованием API Spark Data Frame
- Обработка данных столбца с использованием API Spark Data Frame
- Базовые преобразования с использованием API Spark Data Frame — фильтрация, агрегирование и сортировка
- Присоединение к наборам данных с помощью API Spark Data Frame
- Оконные функции с использованием API Spark Data Frame — агрегаты, ранжирование и аналитические функции
- Базы данных и таблицы Spark Metastore
Как инженеры данных на основе Apache Spark, мы должны быть знакомы с жизненным циклом разработки и развертывания приложений. В рамках этого раздела вы изучите полный жизненный цикл разработки и жизненного цикла развертывания. Сюда входит, помимо прочего, обработка кода, экстернализация свойств, просмотр деталей Spark Jobs и многое другое.
- Жизненный цикл разработки приложений Apache Spark
- Жизненный цикл выполнения приложения Spark и пользовательский интерфейс Spark
- Настройте прокси-сервер SSH для доступа к журналам приложений Spark.
- Режимы развертывания приложений Spark
- Передача файлов свойств приложения и внешних зависимостей
Для кого этот курс:
- Любой аспирант/профессионал в области ИТ, желающий изучить Data Engineering с помощью Apache Spark.
- Разработчики Python, которые хотят изучить Spark, чтобы добавить ключевой навык, чтобы стать инженером данных
- Базовые навыки программирования на любом языке программирования
- Лаборатория самообслуживания (предоставляются инструкции) или лаборатория ITVersity за дополнительную плату для соответствующей среды.
- Минимальный объем памяти, необходимый в зависимости от среды, которую вы используете с 64-разрядной операционной системой.
- 4 ГБ ОЗУ с доступом к соответствующим кластерам или 16 ГБ ОЗУ с виртуальными машинами, такими как Cloudera QuickStart VM.
Продажник:
Для просмотра вы должны войти или зарегистрироваться.
Скачать:
Скрытое содержимое могут видеть только пользователь группы: PRO
Качать без ограничений Купить доступ к 1 теме
Качать без ограничений Купить доступ к 1 теме
Скрытое содержимое для пользователей: Ferr