Python快乐学习：文件处理技巧（CSV、Excel、HTML）

小蓝

2024 年 01 月 24 日

104 次浏览

暂无评论

2313字数

Linux 技术杂烩

Python在数据处理方面的能力是广受赞誉的，尤其是在处理不同格式的文件，如CSV、Excel和HTML文件时。以下内容将提供关于如何使用Python处理这些文件类型的深入指南，内容专业且实用，以便于理解和应用。

1. CSV文件处理

CSV（逗号分隔值）文件是数据存储的一种简单格式，常用于存储表格数据。Python通过内置的 csv模块来处理CSV文件，使得读取、写入和处理这类文件变得简单。

读取CSV文件
要读取CSV文件，首先需要导入csv模块，然后使用 csv.reader对象。例如：

import csv

with open('example.csv', mode='r') as file:
    csv_reader = csv.reader(file)
    for row in csv_reader:
        print(row)

写入CSV文件
写入CSV文件同样简单。使用 csv.writer对象，可以将数据写入CSV文件：

import csv

with open('example.csv', mode='w', newline='') as file:
    csv_writer = csv.writer(file)
    csv_writer.writerow(['name', 'department', 'birthday month'])
    csv_writer.writerow(['John Smith', 'Accounting', 'November'])

2. Excel文件处理

Excel文件比CSV复杂，但Python的 openpyxl或 pandas库能够轻松处理Excel文件。

使用openpyxl
openpyxl是一个专门处理Excel文件（.xlsx）的库。它允许你读取、修改甚至创建新的Excel文件。

from openpyxl import load_workbook

workbook = load_workbook(filename='example.xlsx')
sheet = workbook.active
print(sheet['A1'].value)

使用pandas
pandas提供了一个非常方便的方法来读取Excel文件：

import pandas as pd

df = pd.read_excel('example.xlsx')
print(df)

3. HTML文件处理

处理HTML文件通常涉及网络数据的抓取和解析。Python的 BeautifulSoup库是一个强大的工具，可以解析HTML文件并从中提取所需的数据。

from bs4 import BeautifulSoup

with open('example.html', 'r') as html_file:
    soup = BeautifulSoup(html_file, 'html.parser')
    print(soup.prettify())

这段代码将打开并读取HTML文件，然后使用 BeautifulSoup进行解析。这样，你就可以轻松地提取出文件中的各个部分，比如特定的标签或类。