[資料分析筆記] #3 Python 基本資料處理:重複資料刪除與合併

 

[EGG玩資料 D23-1 | DATA] Python 基本資料處理:重複資料刪除與合併


📂 基本資料 📂 

  • Topic: (D23) Python 基本資料處理:重複資料刪除與合併
  • Language: Jupyter Notebook (anaconda3) / Python
  • Coded by: EGG. Huang, 醬油蛋 🥚
  • Data retrieved from Kaggle: WineQuality (https://www.kaggle.com/hufe09/winequality

💻 PART-01 資料處理大綱 💻

  1. Import 模組
  2. Read csv / excel data
  3. 刪除重複, 優化資料
  4. 資料合併
  5. 資料輸出

Total 總共 5 個步驟, Code 內容包含註解

# 01: EGG import 模組

import pandas as pd 
import numpy as np 
import seaborn as sns #Seaborn是一種基於 matplotlib 的圖形 可視化 python libraty
import matplotlib as mpl
import matplotlib.pyplot as plt


# 02: EGG read csv data

# EGG 記得把 要 read 的檔案 放到同一個資料夾裡面
red_wine_data = pd.read_csv('winequality-red.csv', sep = ';') 
# 注意後面 , sep = ';' → 可以讓 csv 的資料 (用; 分開的) 看得懂下面的 print out
white_wine_data = pd.read_csv('winequality-white.csv', sep = ';')

# red_wine_data.info() #基本資料
# white_wine_data.info() #基本資料

print(red_wine_data)
# → total 1599 筆 data, 12 個變數


# 03: EGG 處理 data

# Ref: https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.duplicated.html

# 回 "duplicated"的傳布林值 → True =1
# 用.sum 把這些加起來就會知道有幾個重複
red_wine_data.duplicated().sum()
white_wine_data.duplicated().sum()

print ('red duplicate:', red_wine_data.duplicated().sum())
print ('white duplicate:', white_wine_data.duplicated().sum())

# 把 重複的刪掉 → drop
# Ref: https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.drop_duplicates.html
red_wine_data.drop_duplicates (inplace = True)
white_wine_data.drop_duplicates (inplace = True)

print(red_wine_data.info())
# → red wine 從 total 1599 筆 data, 12 個變數 => 變成 1359 筆 data

# 檢查有沒有空的值
# Ref: https://pandas.pydata.org/docs/reference/api/pandas.isnull.html

print('red null:', red_wine_data.isnull().sum().sum())
print('white null:', white_wine_data.isnull().sum().sum()) 
#第一個 sum 把 "每一列" null 的()布林值回傳值加起來, 第二個再把這些每個列的加總值產生的 series再加起來


# 04: EGG 資料合併

print(red_wine_data.info()) #1359筆
print(white_wine_data.info()) #3961筆

# 合併, 有很多種方法, 連集(Concat): 利用連集(Concat)上下相拼 (p.s.有時候會有索引重複的現象,請務必要修正)
wine_combination = pd.concat([red_wine_data, white_wine_data]).reset_index(drop=True) 
print(wine_combination)
# index 索引重複的做修正
# total = 1359 + 3961 = 5320, 12 變數


# 05: EGG 資料輸出

# 可以輸出成很多
# 輸出成 Excel
wine_combination.to_excel ('wine_combination.xlsx', sheet_name = 'combination')


--------------------------------------------------------------------------------------------------------------------------

|| 那些 MurMur

在重複性的那些,尤其那些認為 "無意義" ,對於自我毫無幫助的被指定的工作內容,總是容易陷入不耐煩的情緒中;不過,時間一樣流逝。因此,期待一丁點一丁點藉由優化,無論是用不一樣的工具或改變流程,讓自己可以去撿回時間,而那些 Dedication 會決定做這些事情的 Meaning.

StarCraft II: Hui, 從大一開始慢慢的習慣

--------------------------------------------------------------------------------------------------------------------------

最後,一樣的,受知於人者太多,感謝太多大家的分享,感謝寫得很清楚的官網,也附上自己簡陋的 👶👶👶 MarkHuangMD_Github 👾👾👾

大概就是這樣,先來繼續念書了,晚點再來整理。



Hi. I am the broken EGG. 我是,破掉的雞蛋。有一天,我把雞蛋放在桌上,然後,他就滾了下來,然後,ㄆㄚ,我轉頭一看,就長這樣了。

- By EGG - Huang.

.. 拼裝工作室 ... 💬Email: mata.assembled@gmail.com





0 Comments