Hướng dẫn đọc nội dung file Excel bằng Python
Hướng dẫn chi tiết cách đọc nội dung từ file Excel (.xlsx, .xls) bằng Python, sử dụng thư viện openpyxl
và pandas
với các ví dụ minh họa cụ thể.
Trong bài viết này, chúng ta sẽ sử dụng thư viện Pandas và Openpyxl để đọc nội dung từ file Excel. Pandas là một thư viện mạnh mẽ cho việc xử lý dữ liệu, trong khi Openpyxl hỗ trợ đọc và ghi file Excel.
# Cách 1: Sử dụng thư viện openpyxl
# Bước 1: Cài đặt thư viện openpyxl
# Chạy lệnh sau trong terminal: pip install openpyxl
from openpyxl import load_workbook
# Đường dẫn đến file Excel
file_path = "example.xlsx"
# Load file Excel
workbook = load_workbook(filename=file_path)
sheet = workbook.active # Lấy sheet đầu tiên
# Duyệt qua từng hàng và cột để đọc dữ liệu
for row in sheet.iter_rows(values_only=True):
print(row)
# Cách 2: Sử dụng thư viện pandas
# Bước 1: Cài đặt thư viện pandas
# Chạy lệnh sau trong terminal: pip install pandas openpyxl
import pandas as pd
# Đọc file Excel
df = pd.read_excel(file_path)
# Hiển thị nội dung
print(df)
Giải thích chi tiết:
-
Cách 1: Sử dụng thư viện
openpyxl
:- Cài đặt thư viện: Chạy lệnh
pip install openpyxl
. - Sử dụng
load_workbook()
để tải file Excel và lấy sheet đang hoạt động đầu tiên. - Sử dụng
iter_rows(values_only=True)
để duyệt qua các hàng và lấy giá trị.
- Cài đặt thư viện: Chạy lệnh
-
Cách 2: Sử dụng thư viện
pandas
:- Cài đặt thư viện: Chạy lệnh
pip install pandas openpyxl
. pd.read_excel(file_path)
giúp tải toàn bộ nội dung của file Excel vào một DataFrame.- Bạn có thể hiển thị dữ liệu dưới dạng bảng bằng cách sử dụng
print(df)
.
- Cài đặt thư viện: Chạy lệnh
Phiên bản Python:
Mã trên tương thích với Python 3.6 trở lên cùng với các phiên bản mới nhất của thư viện openpyxl
và pandas
.
Lời khuyên:
- Đảm bảo rằng bạn đã cài đặt đúng phiên bản của các thư viện.
- Kiểm tra đường dẫn đến file Excel để tránh lỗi không tìm thấy file.
- Sử dụng môi trường ảo (virtual environment) để quản lý các thư viện Python dễ dàng hơn.