Getting started with Pandas

- November 22, 2023

Getting Started with Pandas

Apa itu Pandas?

Pandas adalah sebuah paket library pada python yang digunakan untuk mempermudah dalam mengolah dan menganalisa data-data terstruktur. Pandas merupakan paket penting yang wajib diketahui untuk seorang data engineer, data analyst dan data scientist jika ingin mengolah dan manganalisa data menggunakan python. Jika kamu telah terbiasa menggunakan SQL, maka tidak akan sulit untuk membiasakan diri menggunakan fungsi-fungsi pada Pandas.

Pandas memiliki format data yang sering digunakan, disebut DataFrame. Pandas DataFrame adalah struktur data 2 Dimensi. Data distrukturisasi seperti tabel yang berisi baris dan kolom, sehingga mudah untuk melakukan queri atau mengakses data tersebut. Baris merepresentasikan record dan kolom merepresentasikan field.

Fitur Utama:

DataFrame: Struktur data berlabel 2-dimensi.
Series: Array berlabel 1-dimensi.
Penanganan data yang hilang.
Pengelompokan dan agregasi data.
Penggabungan dan penggabungan dataset.
Fungsionalitas deret waktu.

Pandas Read CSV

# Tugas 1

# Gunakan fungsi read_csv untuk membaca food_info.csv yang telah disediakan ke dalam info_makanan

Code :

import pandas as pd

lokasi_file = "food_info.csv"

# Membaca file CSV dan menyimpannya ke dalam DataFrame

info_makanan = pd.read_csv(lokasi_file)

# Menampilkan beberapa baris pertama dari DataFrame

print(info_makanan.head())

Exploring The DataFrame

# Tugas 2

# Tampilkan 20 baris pertama pada info_makanan ke dalam dua_puluh_pertama

Code:

# Menampilkan 20 baris pertama dari DataFrame

dua_puluh_pertama = info_makanan.head(20)

# Menampilkan DataFrame dua_puluh_pertama

print(dua_puluh_pertama)

Series and Selecting Row

# Tugas 3

# Masukkan baris ke 100 info_makanan ke dalam baris_seratus

Code:

Penting untuk diingat bahwa indeks dalam pemrograman Python dimulai dari 0, sehingga baris ke-100 memiliki indeks 99. Setelah menjalankan kode ini, Anda akan memiliki data dari baris ke-100 dari DataFrame info_makanan yang disimpan dalam variabel baris_seratus.

# Mengambil baris ke-100 dari DataFrame dan menyimpannya dalam variabel baris_seratus

baris_seratus = info_makanan.iloc[99]

# Menampilkan baris_seratus

print(baris_seratus)

# Tugas 3

# Tampilkan 5 baris terakhir info_makanan pada lima_baris_terakhir

Code:

# Menampilkan 5 baris terakhir dari DataFrame dan menyimpannya dalam variabel lima_baris_terakhir

lima_baris_terakhir = info_makanan.tail(5)

# Menampilkan DataFrame lima_baris_terakhir

print(lima_baris_terakhir)

Selecting Individual Columns

# Tugas 4

# 1. Tampilkan "FA_Sat_(g)" pada lemak_jenuh

# 2 Tampilkan "Cholestrl_(mg)" pada kolesterol

Code:

# Menampilkan kolom "FA_Sat_(g)" pada lemak_jenuh

lemak_jenuh = info_makanan["FA_Sat_(g)"]

# Menampilkan kolom "Cholestrl_(mg)" pada kolesterol

kolesterol = info_makanan["Cholestrl_(mg)"]

# Menampilkan beberapa nilai pertama dari kolom lemak_jenuh

print("Lemak Jenuh:")

print(lemak_jenuh.head())

# Menampilkan beberapa nilai pertama dari kolom kolesterol

print("\nKolesterol:")

print(kolesterol.head())

Selecting Multiple Columns By Name

# Tugas 5

# 1. Masukkan 'Selenium_(µg)' dan 'Thiamin_(mg)'dalam selenium_thiamin

Jika menghadapi kesalahan KeyError, itu mungkin disebabkan oleh ketidaksesuaian antara nama kolom yang Anda pilih dan nama sebenarnya yang ada dalam DataFrame.

Sebelum menjalankan kode, pastikan bahwa nama kolom yang Anda pilih benar-benar ada dalam DataFrame. Berikut adalah cara untuk mengecek nama-nama kolom yang ada dalam DataFrame:

print(info_makanan.columns)

Code:

# Memilih kolom 'Selenium_(µg)' dan 'Thiamin_(mg)' dan menyimpannya dalam variabel selenium_thiamin

selenium_thiamin = info_makanan[['Selenium_(µg)', 'Thiamin_(mg)']]

# Menampilkan beberapa nilai pertama dari variabel selenium_thiamin

print(selenium_thiamin.head())

Cari Blog Ini

Satu Dua Tiga Empat Lima