Getting started with Pandas

 Getting Started with Pandas

Apa itu Pandas?

Pandas adalah sebuah paket library pada python yang digunakan untuk mempermudah dalam mengolah dan menganalisa data-data terstruktur. Pandas merupakan paket penting yang wajib diketahui untuk seorang data engineer, data analyst dan data scientist jika ingin mengolah dan manganalisa data menggunakan python. Jika kamu telah terbiasa menggunakan SQL, maka tidak akan sulit untuk membiasakan diri menggunakan fungsi-fungsi pada Pandas.

Pandas memiliki format data yang sering digunakan, disebut DataFrame. Pandas DataFrame adalah struktur data 2 Dimensi. Data distrukturisasi seperti tabel yang berisi baris dan kolom, sehingga mudah untuk melakukan queri atau mengakses data tersebut. Baris merepresentasikan record dan kolom merepresentasikan field.

Fitur Utama:
  1. DataFrame: Struktur data berlabel 2-dimensi.
  2. Series: Array berlabel 1-dimensi.
  3. Penanganan data yang hilang.
  4. Pengelompokan dan agregasi data.
  5. Penggabungan dan penggabungan dataset.
  6. Fungsionalitas deret waktu.

 

Pandas Read CSV

# Tugas 1
# Gunakan fungsi read_csv untuk membaca food_info.csv yang telah disediakan ke dalam info_makanan

Code :
import pandas as pd
lokasi_file = "food_info.csv"

# Membaca file CSV dan menyimpannya ke dalam DataFrame
info_makanan = pd.read_csv(lokasi_file)

# Menampilkan beberapa baris pertama dari DataFrame
print(info_makanan.head())



Exploring The DataFrame

# Tugas 2
# Tampilkan 20 baris pertama pada info_makanan ke dalam dua_puluh_pertama 

Code:
# Menampilkan 20 baris pertama dari DataFrame
dua_puluh_pertama = info_makanan.head(20)

# Menampilkan DataFrame dua_puluh_pertama
print(dua_puluh_pertama)



Series and Selecting Row

# Tugas 3

# Masukkan baris ke 100 info_makanan ke dalam baris_seratus

Code:
Penting untuk diingat bahwa indeks dalam pemrograman Python dimulai dari 0, sehingga baris ke-100 memiliki indeks 99. Setelah menjalankan kode ini, Anda akan memiliki data dari baris ke-100 dari DataFrame info_makanan yang disimpan dalam variabel baris_seratus.

# Mengambil baris ke-100 dari DataFrame dan menyimpannya dalam variabel baris_seratus
baris_seratus = info_makanan.iloc[99]

# Menampilkan baris_seratus
print(baris_seratus)



# Tugas 3

# Tampilkan 5 baris terakhir info_makanan pada lima_baris_terakhir

Code:
# Menampilkan 5 baris terakhir dari DataFrame dan menyimpannya dalam variabel lima_baris_terakhir
lima_baris_terakhir = info_makanan.tail(5)

# Menampilkan DataFrame lima_baris_terakhir
print(lima_baris_terakhir)



Selecting Individual Columns

# Tugas 4

# 1. Tampilkan "FA_Sat_(g)" pada lemak_jenuh
# 2  Tampilkan "Cholestrl_(mg)" pada kolesterol

Code:
# Menampilkan kolom "FA_Sat_(g)" pada lemak_jenuh
lemak_jenuh = info_makanan["FA_Sat_(g)"]

# Menampilkan kolom "Cholestrl_(mg)" pada kolesterol
kolesterol = info_makanan["Cholestrl_(mg)"]

# Menampilkan beberapa nilai pertama dari kolom lemak_jenuh
print("Lemak Jenuh:")
print(lemak_jenuh.head())

# Menampilkan beberapa nilai pertama dari kolom kolesterol
print("\nKolesterol:")
print(kolesterol.head())



Selecting Multiple Columns By Name

# Tugas 5

# 1. Masukkan  'Selenium_(µg)' dan 'Thiamin_(mg)'dalam selenium_thiamin

Jika menghadapi kesalahan KeyError, itu mungkin disebabkan oleh ketidaksesuaian antara nama kolom yang Anda pilih dan nama sebenarnya yang ada dalam DataFrame.

Sebelum menjalankan kode, pastikan bahwa nama kolom yang Anda pilih benar-benar ada dalam DataFrame. Berikut adalah cara untuk mengecek nama-nama kolom yang ada dalam DataFrame:

print(info_makanan.columns)

Code:
# Memilih kolom 'Selenium_(µg)' dan 'Thiamin_(mg)' dan menyimpannya dalam variabel selenium_thiamin
selenium_thiamin = info_makanan[['Selenium_(µg)', 'Thiamin_(mg)']]

# Menampilkan beberapa nilai pertama dari variabel selenium_thiamin
print(selenium_thiamin.head())





Komentar

Postingan populer dari blog ini

Getting Started with NumPy - Jupyter Notebook

MongoDB : Basis Data Dokumen Terkemuka

MongoDB dengan Python