[EGG玩資料 D23-1 | DATA] Python 基本資料處理:重複資料刪除與合併
📂 基本資料 📂
- Topic: (D23) Python 基本資料處理:重複資料刪除與合併
- Language: Jupyter Notebook (anaconda3) / Python
- Coded by: EGG. Huang, 醬油蛋 🥚
- Data retrieved from Kaggle: WineQuality (https://www.kaggle.com/hufe09/winequality
💻 PART-01 資料處理大綱 💻
- Import 模組
- Read csv / excel data
- 刪除重複, 優化資料
- 資料合併
- 資料輸出
Total 總共 5 個步驟, Code 內容包含註解
# 01: EGG import 模組
import pandas as pd import numpy as np import seaborn as sns #Seaborn是一種基於 matplotlib 的圖形 可視化 python libraty import matplotlib as mpl import matplotlib.pyplot as plt
# 02: EGG read csv data
# EGG 記得把 要 read 的檔案 放到同一個資料夾裡面 red_wine_data = pd.read_csv('winequality-red.csv', sep = ';') # 注意後面 , sep = ';' → 可以讓 csv 的資料 (用; 分開的) 看得懂下面的 print out white_wine_data = pd.read_csv('winequality-white.csv', sep = ';') # red_wine_data.info() #基本資料 # white_wine_data.info() #基本資料 print(red_wine_data) # → total 1599 筆 data, 12 個變數
# 03: EGG 處理 data
# Ref: https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.duplicated.html # 回 "duplicated"的傳布林值 → True =1 # 用.sum 把這些加起來就會知道有幾個重複 red_wine_data.duplicated().sum() white_wine_data.duplicated().sum() print ('red duplicate:', red_wine_data.duplicated().sum()) print ('white duplicate:', white_wine_data.duplicated().sum()) # 把 重複的刪掉 → drop # Ref: https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.drop_duplicates.html red_wine_data.drop_duplicates (inplace = True) white_wine_data.drop_duplicates (inplace = True) print(red_wine_data.info()) # → red wine 從 total 1599 筆 data, 12 個變數 => 變成 1359 筆 data # 檢查有沒有空的值 # Ref: https://pandas.pydata.org/docs/reference/api/pandas.isnull.html print('red null:', red_wine_data.isnull().sum().sum()) print('white null:', white_wine_data.isnull().sum().sum()) #第一個 sum 把 "每一列" null 的()布林值回傳值加起來, 第二個再把這些每個列的加總值產生的 series再加起來
# 04: EGG 資料合併
print(red_wine_data.info()) #1359筆 print(white_wine_data.info()) #3961筆 # 合併, 有很多種方法, 連集(Concat): 利用連集(Concat)上下相拼 (p.s.有時候會有索引重複的現象,請務必要修正) wine_combination = pd.concat([red_wine_data, white_wine_data]).reset_index(drop=True) print(wine_combination) # index 索引重複的做修正 # total = 1359 + 3961 = 5320, 12 變數
# 05: EGG 資料輸出
# 可以輸出成很多 # 輸出成 Excel wine_combination.to_excel ('wine_combination.xlsx', sheet_name = 'combination')
--------------------------------------------------------------------------------------------------------------------------
|| 那些 MurMur
在重複性的那些,尤其那些認為 "無意義" ,對於自我毫無幫助的被指定的工作內容,總是容易陷入不耐煩的情緒中;不過,時間一樣流逝。因此,期待一丁點一丁點藉由優化,無論是用不一樣的工具或改變流程,讓自己可以去撿回時間,而那些 Dedication 會決定做這些事情的 Meaning.
StarCraft II: Hui, 從大一開始慢慢的習慣 |
--------------------------------------------------------------------------------------------------------------------------
最後,一樣的,受知於人者太多,感謝太多大家的分享,感謝寫得很清楚的官網,也附上自己簡陋的 👶👶👶 MarkHuangMD_Github 👾👾👾
大概就是這樣,先來繼續念書了,晚點再來整理。
Hi. I am the broken EGG. 我是,破掉的雞蛋。有一天,我把雞蛋放在桌上,然後,他就滾了下來,然後,ㄆㄚ,我轉頭一看,就長這樣了。
- By EGG - Huang.
.. 拼裝工作室 ... 💬Email: mata.assembled@gmail.com
0 Comments