Các hàm thường dùng trong thư viện Pandas và cách sử dụng chúng
Bài viết này liệt kê các hàm quan trọng trong thư viện Pandas của Python và cung cấp hướng dẫn cách sử dụng chúng. Đây là một công cụ mạnh mẽ giúp xử lý và phân tích dữ liệu trong Python.
Pandas là một thư viện Python mạnh mẽ dùng để thao tác và phân tích dữ liệu. Nó cung cấp rất nhiều hàm hữu ích để thao tác với dữ liệu, từ việc tạo, truy vấn đến việc xử lý và chuyển đổi dữ liệu. Trong bài viết này, chúng ta sẽ liệt kê các hàm có sẵn trong Pandas và cách sử dụng chúng.
1. pd.read_csv()
Đọc dữ liệu từ tệp CSV vào DataFrame.
import pandas as pd
df = pd.read_csv('data.csv')
print(df.head())
2. pd.DataFrame()
Tạo một DataFrame từ dữ liệu.
data = {'Name': ['Alice', 'Bob', 'Charlie'], 'Age': [25, 30, 35]}
df = pd.DataFrame(data)
print(df)
3. df.head()
Xem 5 hàng đầu tiên trong DataFrame.
print(df.head())
4. df.tail()
Xem 5 hàng cuối cùng trong DataFrame.
print(df.tail())
5. df.info()
Xem thông tin tổng quan về DataFrame.
print(df.info())
6. df.describe()
Tóm tắt thống kê về DataFrame.
print(df.describe())
7. df.shape
Trả về số hàng và cột của DataFrame.
print(df.shape)
8. df.columns
Lấy danh sách các tên cột.
print(df.columns)
9. df.dtypes
Trả về kiểu dữ liệu của mỗi cột.
print(df.dtypes)
10. df['column_name']
Truy cập một cột của DataFrame.
print(df['Name'])
11. df.loc[]
Truy cập hàng theo nhãn (label-based).
print(df.loc[0])
12. df.iloc[]
Truy cập hàng theo chỉ số (index-based).
print(df.iloc[0])
13. df.drop()
Xóa hàng hoặc cột khỏi DataFrame.
df = df.drop('Age', axis=1)
print(df)
14. df.isnull()
Kiểm tra giá trị bị thiếu trong DataFrame.
print(df.isnull())
15. df.fillna()
Điền giá trị vào các giá trị bị thiếu.
df = df.fillna(0)
print(df)
16. df.sort_values()
Sắp xếp dữ liệu theo một hoặc nhiều cột.
df = df.sort_values('Age')
print(df)
17. df.groupby()
Nhóm dữ liệu theo một hoặc nhiều cột.
grouped = df.groupby('Age')
print(grouped.mean())
18. df.merge()
Nối hai DataFrame dựa trên một hoặc nhiều khóa.
df1 = pd.DataFrame({'ID': [1, 2], 'Name': ['Alice', 'Bob']})
df2 = pd.DataFrame({'ID': [1, 2], 'Age': [25, 30]})
merged = df1.merge(df2, on='ID')
print(merged)
19. df.apply()
Áp dụng một hàm cho mỗi hàng hoặc cột.
df['Age_plus_one'] = df['Age'].apply(lambda x: x + 1)
print(df)
20. df.to_csv()
Lưu DataFrame vào tệp CSV.
df.to_csv('output.csv', index=False)
Yêu cầu hệ thống:
- Python 3.6 hoặc cao hơn.
- Thư viện Pandas (cài đặt qua pip).
Cách cài đặt thư viện:
Để cài đặt thư viện Pandas, bạn chỉ cần sử dụng pip:
pip install pandas
Lời khuyên:
- Khi làm việc với dữ liệu lớn, bạn có thể sử dụng
df.memory_usage()
để xem lượng bộ nhớ mà DataFrame đang sử dụng. - Nên kiểm tra kỹ dữ liệu trước khi áp dụng các thao tác để tránh lỗi về dữ liệu không hợp lệ hoặc bị thiếu.