Langkah Pertama dengan PySpark: Instalasi, Setup, dan Contoh Dasar

Apache Spark adalah salah satu framework komputasi terdistribusi paling populer yang digunakan untuk mengolah big data. PySpark adalah API Python untuk Spark yang memungkinkan developer bekerja dengan Spark menggunakan bahasa Python. Artikel ini akan membahas cara instalasi, setup, dan contoh dasar penggunaan PySpark.

Di era big data, kecepatan dan efisiensi dalam mengolah data menjadi hal yang sangat penting. PySpark hadir untuk membantu developer dan data engineer dalam melakukan pemrosesan data terdistribusi dengan cara yang lebih sederhana menggunakan Python. Dengan PySpark, Anda dapat mengolah data dalam skala besar tanpa harus berurusan langsung dengan kompleksitas Java atau Scala.

Prasyarat

  • 🖥️ Python 3.x sudah terinstal.
  • 📦 PIP (Python Package Manager).
  • 💾 Java Development Kit (JDK) 8 atau lebih baru.

Instalasi PySpark

Anda dapat menginstal PySpark langsung melalui pip:

pip install pyspark

Setelah instalasi selesai, verifikasi dengan:

python -m pyspark --version

Setup PySpark di Python

Buat file Python, misalnya app.py, kemudian tuliskan kode berikut:

from pyspark.sql import SparkSession
Membuat SparkSession

spark = SparkSession.builder
.appName("PySpark Dasar")
.getOrCreate()

Cek Spark version

print("Versi Spark:", spark.version)

Stop session

spark.stop()

Jalankan dengan:

python app.py

Contoh Dasar PySpark

Berikut contoh sederhana membuat DataFrame dan melakukan operasi dasar:

from pyspark.sql import SparkSession

spark = SparkSession.builder.appName("Contoh DataFrame").getOrCreate()

Membuat DataFrame dari data Python

data = [("Andi", 25), ("Budi", 30), ("Citra", 28)]
columns = ["Nama", "Usia"]

df = spark.createDataFrame(data, columns)

Menampilkan DataFrame

df.show()

Operasi sederhana: filter usia > 26

df.filter(df["Usia"] > 26).show()

spark.stop()

Output Contoh

+-----+----+ | Nama|Usia| +-----+----+ | Andi| 25| | Budi| 30| |Citra| 28| +-----+----+

+-----+----+
| Nama|Usia|
+-----+----+
| Budi| 30|
|Citra| 28|
+-----+----+

Struktur Dasar PySpark

Komponen Fungsi
SparkSession Entry point untuk menggunakan PySpark.
DataFrame Struktur data tabular mirip dengan Pandas DataFrame.
RDD Struktur data terdistribusi untuk operasi tingkat rendah.

Kesimpulan

PySpark memudahkan developer Python untuk mengakses kekuatan Apache Spark dalam mengolah data berskala besar. Dengan instalasi yang sederhana dan API yang intuitif, PySpark menjadi pilihan tepat bagi data engineer maupun data scientist. Langkah selanjutnya, Anda bisa mempelajari SQL di PySpark, transformasi data yang lebih kompleks, dan integrasi dengan Hadoop atau sistem penyimpanan lain.

Belum ada Komentar untuk "Langkah Pertama dengan PySpark: Instalasi, Setup, dan Contoh Dasar"

Posting Komentar

Iklan Atas Artikel

Iklan Tengah Artikel 1

Iklan Tengah Artikel 2

Iklan Bawah Artikel