ОРГАНІЗАЦІЯ ЗАХИСТУ ДАНИХ ПІД ЧАС ЇХ ОБРОБКИ У ДОДАТКУ APACHE SPARK

О. Р. Коваль; О. І. Гарасимчук

Коваль О. Р. (Koval O. R.) Кафедра інформаційно-вимірювальних технологій, Національний Університет «Львівська Політехніка»
Гарасимчук О. І. (Garasymchuk O. I.) Кафедра захисту інформації Національного університету «Львівська політехніка»

Анотація

Розглянуті проблеми, пов’язані з безпекою даних в Apache Spark. Праця зосереджена на таких ключових
аспектах, як управління доступом, захист конфіденційної інформації та запобігання атакам на рівні обробки
даних. Досліджено, що однією з головних загроз є витік даних через неправильну конфігурацію доступу до
кластерів або неавторизоване виконання завдань. Крім того, небезпеку становлять атаки на рівні серіалізації
даних, що можуть використовувати вразливості механізмів передачі даних між вузлами. Важливо також
враховувати можливі загрози, пов’язані з використанням сторонніх бібліотек, які можуть містити шкідливий код
або мати відомі вразливості. Врахування цих проблем допоможе користувачам Apache Spark підвищити рівень
безпеки своїх обчислювальних середовищ і мінімізувати ризики витоку даних. Захищені механізми
аутентифікації та авторизації, а також шифрування переданих даних дозволяють значно зменшити ймовірність
несанкціонованого доступу. Додатково, застосування політик безпеки на рівні конфігурації кластерів та ізоляції
середовищ виконання дозволяє уникнути впливу потенційно шкідливих процесів. Також важливо здійснювати
регулярний моніторинг та аудит активності в системі, що дозволяє своєчасно виявляти та реагувати на підозрілі
дії. На основі найпоширеніших проблем, з якими стикаються компанії та користувачі Apache Spark, було
проаналізовано основні загрози, що впливають на безпеку даних. У ході дослідження розглядалися такі відомі
вразливості, як CVE-2023-22946, CVE-2022-31777, CVE-2022-33891, CVE-2021-38296 та CVE-2020-9480. Кожна
з цих вразливостей могла призвести до витоку даних, несанкціонованого виконання коду або інших загроз для
цілісності та конфіденційності інформації. Аналіз показав, що як правило ключові проблеми пов’язані з
неправильним керуванням доступом, недостатньою перевіркою вхідних даних та вразливостями у механізмах
обробки запитів. З урахуванням цих загроз були розроблені рекомендації щодо їх усунення та мінімізації ризиків.
Використання актуальних механізмів аутентифікації та авторизації, регулярне оновлення програмного
забезпечення, а також ізоляція робочих середовищ дозволяють значно зменшити ймовірність експлуатації
відомих вразливостей. Крім того, моніторинг системних журналів і аналіз поведінки запитів допомагає виявляти
підозрілі дії та оперативно реагувати на потенційні атаки.
Ключові слова: Hadoop, Apache Spark, HDFS, RDD, Spàrk кластер. AES, TLS/SSL, безпека даних, логи,
аутентифікація, керування доступом.

Список використаних джерел
1. Дейнека О.Р., Гарасимчук О. І. Виклики та стратегії зберігання великих обсягів даних у сучасному світі
// Захист інформації. – 2024. – Т. 25, № 4. – С. 197–207. DOI: https://doi.org/10.18372/2410-7840.25.18225.
2. Deineka, O., Harasymchuk, O., Partyka, A., Obshta, A., Korshun, N. Designing Data Classification and Secure
Store Policy According to SOC 2 Type II // CEUR Workshop Proceedings, 2024, 3654, pp. 398–409.
3. Apache Spark Unified engine for large-scale data analytics. URL: http://spark.apache.org.
4. C. S. Karthikeya Sahith, S. Muppidi and S. Merugula, "Apache Spark Big data Analysis, Performance Tuning,
and Spark Application Optimization," 2023 International Conference on Evolutionary Algorithms and Soft Computing
Techniques (EASCT), Bengaluru, India, 2023, pp. 1-8, doi: 10.1109/EASCT59475.2023.10393086.
5. Y. Tian, Q. Shen, Z. Zhu, Y. Yang and Z. Wu, "Non-Authentication Based Checkpoint Fault-tolerant
Vulnerability in Spark Streaming," 2018 IEEE Symposium on Computers and Communications (ISCC), Natal, Brazil,
2018, pp. 00783-00786, doi: 10.1109/ISCC.2018.8538745.
6. S. Shah, Y. Amannejad and D. Krishnamurthy, "Diaspore: Diagnosing Performance Interference in Apache
Spark," in IEEE Access, vol. 9, pp. 103230-103243, 2021, doi: 10.1109/ACCESS.2021.3098426.
7. Spark Security. URL: https://downloads.apache.org/spark/docs/2.4.4/security.html.
8. Introduction to Transparent Data Encryption. URL: https://docs.oracle.com/en/database/oracle/oracledatabase/19/asoag/introduction-to-transparent-data-encryption.html.
9. Apache Ranger. URL:https://ranger.apache.org/.
10. Amazon GuardDuty. URL: https://aws.amazon.com/guardduty/.
11. What is data loss prevention (DLP). URL: https://www.kingston.com/en/blog/data-security/data-lossprevention-dlp.
12. Spark security. URL: https://docs.cloudera.com/runtime/7.3.1/configuring-spark/topics/spark-security.html.
13. Spark custom data sources and sinks for cybersecurity use cases. URL: https://medium.
com/@alexott_en/spark-custom-data-sources-and-sinks-for-cybersecurity-use-cases-9623abb94574.
14. Apache Spark Ecosystem – Complete Spark Components Guide. URL: https://data-flair.training/blogs/apachespark-ecosystem-components/.
15. Park, G., Heo, Y.S., Lee, K. et al. A parallel and accurate method for large-scale image segmentation on a
cloud environment. J Supercomput 78, 4330–4357 (2022). https://doi.org/10.1007/s11227-021-04027-5.
16. How Do You Secure Apache Spark? URL: https://granulate.io/blog/spark-security-top-vulnerabilities-6-waysto-secure-your-spark/.
17. Oktay, T., Sayar, A. (2017). Analyzing Big Security Logs in Cluster with Apache Spark. In: Angelov, P.,
Manolopoulos, Y., Iliadis, L., Roy, A., Vellasco, M. (eds) Advances in Big Data. INNS 2016. Advances in Intelligent
Systems and Computing, vol 529. Springer, Cham. https://doi.org/10.1007/978-3-319-47898-2_14.

ОРГАНІЗАЦІЯ ЗАХИСТУ ДАНИХ ПІД ЧАС ЇХ ОБРОБКИ У ДОДАТКУ APACHE SPARK

DOI: 10.31673/2409-7292.2025.014076

Анотація