Abstract:
Procesarea distribuită a datelor a devenit din ce în ce mai critică pe măsură ce volumele de date continuă să crească exponențial în domeniile științifice și comerciale. Această cercetare prezintă o analiză comparativă cuprinzătoare a trei librării proeminente: PySpark, Dask și sistemul emergent Polars. Cercetarea a utilizat o abordare mixtă a metodelor care combină analiza comparativă cantitativă cu evaluarea calitativă a experienței dezvoltatorilor, utilizând configurații hardware consecvente în clustere de calcul bazate pe cloud și cazuri de testare care încorporează atât seturi de date structurate, cât și nestructurate, variind de la 50 GB la 2 TB.