Python如何逐行读取文件

在Python编程中，读取文件并逐行处理是常见的操作。本文将详细介绍在Python里逐行读取文件的多种方式，涵盖了适用于小文件和大文件的不同方法，还会结合具体代码示例，分析每种方法的优缺点，让你轻松掌握在不同场景下如何高效地读取文件。

一、引言：Python文件读取方法概览

Python为我们提供了多种读取文本文件并逐行处理的方式。在实际应用中，选择哪种方法要综合考虑文件大小以及所需语法的便捷性。比如处理小文件和大文件，适用的方法就不一样。接下来，我们就基于代码的简洁性、处理大文件的能力以及内存使用效率等方面，深入探讨不同的文件读取方法。对于超大文件，还会特别介绍一些优化内存使用的技巧，像使用生成器或内存映射文件等。

二、小文件读取方法

下面这些方法适合用于读取小文本文件，因为它们可以在一条语句中读取整个文件的内容。不过，对于大文件来说，这种方式可能不太合适，主要是会受到机器物理内存的限制。

（一）使用for循环读取

for循环是Python中最直接、高效的逐行读取文本文件的方法之一。来看下面这个例子：

try: # 使用open()函数以只读模式打开名为'data.txt'的文件，并指定编码为utf-8 with open('data.txt', 'r', encoding='utf-8') as file: # for循环遍历文件中的每一行，每次迭代时，当前行赋值给变量line for line in file: # 使用strip()方法去除行末的空白字符后打印 print(line.strip()) except FileNotFoundError: print("File not found.")

在这段代码里，open()函数负责打开文件，for循环按顺序读取文件的每一行。在处理文件时，如果文件有特定的编码格式，像UTF-8，就可以通过open()函数的encoding参数来指定。在使用line变量之前，别忘了用line.strip()去除行末的空白字符，这样可以避免一些潜在的问题。

（二）使用readlines()方法读取

readlines()方法能一次性读取文件的所有行，并将它们作为字符串列表返回。但要注意，这种方式会把整个文件读入内存，所以不太适合处理大文件。不过对于小文件，它能方便地对行列表进行各种操作，比如过滤、排序或修改数据。示例如下：

try: # 以只读模式打开'data.txt'文件 with open('data.txt', 'r', encoding='utf-8') as file: # 使用readlines()方法读取文件所有行，返回字符串列表 lines = file.readlines() # 遍历行列表 for line in lines: # 去除行末空白字符后打印 print(line.strip()) except FileNotFoundError: print("File not found.")

在这个例子中，首先用open()函数打开文件，接着调用readlines()方法获取文件的所有行，最后通过循环遍历列表，对每一行进行处理。

（三）使用列表推导式读取

列表推导式是Python中创建列表的一种简洁语法。我们也可以用它来逐行读取文件，并对每一行进行操作。不过，和前面两种方法相比，它并没有明显的优势，更多是满足一些人对语法简洁性的偏好。示例代码如下：

try: # 以只读模式打开'data.txt'文件，指定编码为utf-8 with open('data.txt', 'r', encoding='utf-8') as file: # 使用列表推导式读取文件每一行，并去除行末空白字符，生成列表 lines = [line.strip() for line in file] # 遍历生成的列表 for line in lines: # 打印每一行 print(line) except FileNotFoundError: print("File not found.")

这里，列表推导式[line.strip() for line in file]实现了读取文件每一行并去除行末空白字符，生成一个新的列表。之后再遍历这个列表进行后续操作。

三、大文件读取方法

处理大文件时，内存消耗是个关键问题。传统的将整个文件读入内存的方式，可能会导致性能下降和存储问题。为了解决这些挑战，Python提供了下面几种高效读取大文件的策略。

（一）使用readline()方法读取

readline()方法每次从文件对象中读取一行内容，并将其作为字符串返回，包括行末的换行符。通常，我们会结合while循环来遍历文件内容。只要读取到的line不是空字符串（表示文件结束），循环就会继续。
在内部，当我们打开一个文件时，会创建一个文件指针。调用readline()时，文件指针会移动到下一个换行符的位置，从文件开头到这个位置的文本会被读取并作为字符串返回。后续调用readline()会从上一次读取结束的位置继续读取。这使得readline()成为逐行读取大文件的合适方法，无需一次性将整个文件读入内存。示例代码如下：

try: # 以只读模式打开'data.txt'文件 with open('data.txt', 'r') as file: # 读取文件的第一行 line = file.readline() # 当line不为空时，继续循环 while line: # 去除行末空白字符后打印 print(line.strip()) # 读取下一行 line = file.readline() except FileNotFoundError: print("Error: File not found.") except IOError: print("Error: An I/O error occurred.")

在这段代码中，通过不断调用readline()方法，逐行读取文件内容并处理，避免了一次性加载整个大文件到内存。

（二）使用生成器函数读取

在Python里，生成器函数是一种特殊的函数，它生成值而不是返回单个值。当调用生成器函数，遇到yield关键字时，函数会暂停执行，返回当前值，并保存函数的状态。下次调用生成器时，它会从保存的状态继续执行，处理并生成下一个值。这种机制避免了一开始就将整个文件加载到内存。生成器函数中的yield关键字和优化的文件对象是避免加载整个文件到内存的关键。示例如下：

# 定义一个生成器函数，用于逐行读取文件 def read_lines(file_path): # 打开文件 with open(file_path, 'r') as file: # 遍历文件每一行 for line in file: # 去除行末空白字符后生成当前行 yield line.strip() try: # 使用生成器函数逐行读取文件并打印 for line in read_lines('data.txt'): print(line) except FileNotFoundError: print("Error: File not found.") except IOError: print("Error: An I/O error occurred.")

在这个示例中，read_lines()函数就是一个生成器函数，通过yield关键字逐行生成文件内容。在主程序中，通过循环遍历生成器，实现对文件的逐行处理。

（三）使用内存映射文件读取

内存映射文件允许我们将文件直接映射到程序的内存空间。这样，在程序中就可以把文件当作一个大的字节数组来处理。对于需要频繁或随机访问的大文件，这种方式非常实用。它比传统的文件I/O操作更高效，但别忘了在使用完后关闭内存映射文件，以释放系统资源。下面的示例展示了如何遍历内存映射文件，通过查找换行符来识别每一行的结束位置，提取并打印每一行内容。

import mmap # 以读写二进制模式打开文件 with open('large_file.txt', 'r+b') as file: # 创建内存映射文件对象 mapped_file = mmap.mmap(file.fileno(), 0) start = 0 while True: # 查找下一个换行符的位置 end = mapped_file.find(b'n', start) if end == -1: break # 提取当前行内容并解码为utf-8格式 line = mapped_file[start:end].decode('utf-8') print(line) # 更新起始位置，准备读取下一行 start = end + 1 # 关闭内存映射文件 mapped_file.close()

在这段代码中，首先导入mmap模块，然后使用open()函数以读写二进制模式打开文件，并创建内存映射文件对象。通过循环查找换行符，提取并处理每一行内容，最后关闭内存映射文件。