Python數據處理:pandas入門
1. pandas簡介
pandas是Python的一個強大數據處理庫,提供了高效的數據結構和數據分析工具。它特別適合用於處理表格數據。
2. 安裝pandas
可以使用pip來安裝pandas庫:
pip install pandas
3. 創建數據框
數據框是pandas中最重要的數據結構之一,可以通過字典或列表創建:
import pandas as pd
# 使用字典創建數據框
data = {
"姓名": ["小明", "小紅", "小藍"],
"年齡": [25, 30, 22],
"城市": ["台北", "高雄", "台中"]
}
df = pd.DataFrame(data)
print(df)
4. 數據框的基本操作
可以使用pandas提供的多種方法來操作數據框:
# 查看數據框的前幾行
print(df.head())
# 獲取數據框的描述性統計
print(df.describe())
# 選擇特定列
print(df["姓名"])
# 選擇特定行
print(df.iloc[0]) # 獲取第一行
5. 數據篩選
可以根據條件篩選數據:
# 篩選年齡大於25的行
filtered_df = df[df["年齡"] > 25]
print(filtered_df)
6. 數據匯入和匯出
pandas支持從CSV文件讀取數據和將數據寫入CSV文件:
# 從CSV文件讀取數據
df = pd.read_csv("data.csv")
# 將數據寫入CSV文件
df.to_csv("output.csv", index=False)
7. 練習題
-
創建一個數據框,包含學生的姓名、年齡和成績,並計算平均成績。
-
從CSV文件中讀取數據,並篩選出特定條件的行。
8. 常見錯誤和注意事項
- 確保數據格式正確,特別是在讀取CSV文件時。
- 注意數據框的索引,使用iloc和loc進行行列選擇。
- 在進行數據篩選時,確保條件正確。
9. 最佳實踐
- 保持數據框的結構清晰,使用有意義的列名。
- 在進行數據處理時,考慮使用鏈式操作以提高可讀性。
- 在處理大型數據集時,注意內存使用情況。