[Udemy] Практическое руководство по настройке кластера Hadoop и Spark с использованием CDH (2019)
Cloudera — один из ведущих поставщиков дистрибутивов, связанных с Hadoop и Spark. В рамках этого Практического руководства вы пошагово изучите процесс настройки Hadoop и Spark Cluster с помощью CDH.
Установка. Продемонстрируйте понимание процесса установки Cloudera Manager, CDH и проектов экосистемы.
- Настройте локальный репозиторий CDH
- Выполнение настройки на уровне ОС для установки Hadoop
- Установите сервер Cloudera Manager и агенты
- Установите CDH с помощью Cloudera Manager
- Добавить новый узел в существующий кластер
- Добавить сервис с помощью Cloudera Manager
Настройка — выполнение базовой и расширенной настройки, необходимой для эффективного администрирования кластера Hadoop.
- Настройка сервиса с помощью Cloudera Manager
- Создайте домашний каталог пользователя HDFS
- Настройка высокой доступности NameNode
- Настройка высокой доступности ResourceManager
- Настроить прокси для Hiveserver2/Impala
Управление — Поддерживайте и модифицируйте кластер для поддержки повседневных операций на предприятии.
- Перебалансировать кластер
- Настройте оповещение о чрезмерном заполнении диска
- Определение и установка сценария топологии стойки
- Установите новый тип библиотеки сжатия ввода-вывода в кластере
- Пересмотрите назначение ресурсов YARN на основе отзывов пользователей.
- Ввод/вывод узла
Безопасный — включите соответствующие службы и настройте кластер в соответствии с целями, определенными политикой безопасности; продемонстрировать знание основных методов обеспечения безопасности
- Настройка списков ACL HDFS
- Установите и настройте Сентри
- Настройте авторизацию и аутентификацию пользователей Hue
- Включить/настроить журнал и редактирование запросов
- Создание зашифрованных зон в HDFS
Тестирование — Сравните операционные показатели кластера, проверьте конфигурацию системы на работоспособность и эффективность.
- Выполнение команд файловой системы через HTTPFS
- Эффективно копировать данные внутри кластера/между кластерами
- Создание/восстановление моментального снимка каталога HDFS
- Получить/установить ACL для файла или структуры каталогов
- Сравните кластер (ввод-вывод, ЦП, сеть)
Устранение неполадок — продемонстрировать способность находить основную причину проблемы, оптимизировать неэффективное выполнение и разрешать сценарии конфликтов ресурсов.
- Устранение ошибок/предупреждений в Cloudera Manager
- Устранение проблем с производительностью/ошибок в работе кластера
- Определить причину сбоя приложения
- Настройте Fair Scheduler для устранения задержек приложений
Наш подход
- Вы начнете с создания виртуальной машины Cloudera QuickStart (если у вас есть ноутбук с 16 ГБ ОЗУ и четырехъядерным процессором). Это поможет вам освоиться с Cloudera Manager.
- Вы сможете зарегистрироваться в GCP и воспользоваться кредитом до 300 долларов США, пока действует предложение. Кредиты действительны до года.
- Затем вы поймете краткий обзор GCP и предоставления от 7 до 8 виртуальных машин с использованием шаблонов. Вы также подключите внешний жесткий диск для настройки HDFS позже.
- Как только серверы будут подготовлены, вы приступите к настройке Ansible для автоматизации серверов.
- Вы позаботитесь о локальном репозитории для Cloudera Manager и Cloudera Distribution of Hadoop с помощью пакетов.
- Затем вы настроите Cloudera Manager с пользовательской базой данных, а затем Cloudera Distribution of Hadoop с помощью мастера, который входит в состав Cloudera Manager.
- В рамках настройки Cloudera Distribution of Hadoop вы настроите HDFS, изучите команды HDFS, настроите YARN, настроите HDFS и высокую доступность YARN, узнаете о планировщиках, настроите Spark, перейдете к участкам, настроите Hive и Impala, настроите HBase и Kafka и т. д. .
Для кого этот курс:
- Системные администраторы, которые хотят понять экосистему больших данных и настроить кластеры
- Опытные администраторы больших данных, которые хотят научиться управлять настройкой кластеров Hadoop и Spark с помощью CDH.
- Профессионалы начального уровня, которые хотят изучить основы и настроить кластеры больших данных
Требования
- Базовые навыки работы с Linux
- 64-битный компьютер с оперативной памятью не менее 4 ГБ.
- Операционная система — Windows 10 или Mac или Linux Flavor
Материал на английском языке
Подробнее:
Step by step instructions to setup Hadoop and Spark Cluster using Cloudera Distribution of Hadoop (Formerly CCA 131)
Скачать: