Group: de-2019-11
Aleksei Starikov (Алексей Стариков)
sbt assembly
Написать распределенное приложение для чтения JSON-файлов.
Собрать статистику по криминогенной обстановке в разных районах Бостона.
Обучить модель определять эмоциональный окрас твита с помощью spark.ml.RandomForest.
Применить модель к потоку твитов в spark-streaming.
Вывести статистику по количеству "негативных" и "позитивных" твитов за последние 10 секунд скользящим окном.
Создать снепшот аналитической таблицы из операционного хранилища.
Создать витрину данных в Vertica.
Написть API для работы с Aerospike.
Практика с Hive на CDH.
Развернуть дистрибутив CDH.
Самостоятельно проделать манипуляции с Hive с приложенными скриптами.
В этом задании мы попробуем развернуть крупную демонстрационную систему от Confluent, и использовать ее для создания простого стриминг приложения и отчета
ml-stream-engine