Python技巧：读取文件的特定开头和结尾部分数据

小蓝

2024 年 03 月 07 日

75 次浏览

暂无评论

2495字数

Linux 技术杂烩

在处理文件数据时，经常会遇到只需要读取文件的特定开头和结尾部分数据的情况。Python作为一门功能强大、易于上手的编程语言，提供了多种灵活的方法来实现这一需求。下面详细介绍几种常用的技巧和方法，以便于你高效地处理文件数据。

读取文件的开头部分数据

使用 `readline()`或 `readlines()`

如果文件不是特别大，可以使用 readlines()一次性读取所有行，然后通过切片操作获取开头的几行数据。对于需要读取的行数较少的情况，readline()在一个循环中使用也是一个不错的选择。

# 读取前N行
N = 5
with open('example.txt', 'r') as file:
    for i in range(N):
        print(file.readline().strip())

使用 `islice`从迭代器中切片

对于较大的文件，一次性读取可能会消耗大量内存。itertools.islice提供了一种高效的方法来迭代文件的前N行而不必一次加载整个文件。

from itertools import islice

N = 5
with open('example.txt', 'r') as file:
    head_lines = islice(file, N)
    for line in head_lines:
        print(line.strip())

读取文件的结尾部分数据

使用 `collections.deque`

collections.deque提供了一种方式来读取文件的最后N行，通过设置 maxlen参数，可以创建一个固定大小的队列，新的行会自动替换最老的行。

from collections import deque

N = 5
with open('example.txt', 'r') as file:
    last_lines = deque(file, maxlen=N)

for line in last_lines:
    print(line.strip())

倒序迭代文件

对于非常大的文件，如果使用上述方法仍然不够高效，可以考虑从文件的末尾开始倒序读取。这需要更复杂的逻辑来定位最后N行的起始位置。

def tail(file_name, N=5):
    with open(file_name, 'rb') as file:
        file.seek(0, 2)  # 移动到文件末尾
        file_size = file.tell()
        block_size = 1024
        blocks = -1
        data = b''
        while abs(blocks) * block_size < file_size:
            file.seek(block_size * blocks, 2)
            data = file.read(block_size) + data
            if data.count(b'\n') >= N + 1:
                break
            blocks -= 1
        return data.splitlines()[-N:]

for line in tail('example.txt'):
    print(line.decode('utf-8'))