你可能不知道的4个Python Itertools过滤函数

这些特别有助于你想要仅仅遍历迭代器、检索序列中的元素并处理它们时——而不需要将它们存储在内存中。今天我们将学习如何使用以下四个itertools过滤函数：

filter
takewhile
dropwhile
islice

让我们开始吧！

开始之前：关于代码示例的说明

在本教程中：

我们将讨论的所有四个函数都返回迭代器。为清晰起见，我们将使用简单序列并使用list()来获取包含迭代器返回的所有元素的列表。但请避免这样做——除非必要——在处理长序列时。因为这样做会失去迭代器带来的内存节省。
对于简单的谓词函数，你也可以使用lambda。但为了更好的可读性，我们将定义常规函数并将其用作谓词。

1. filterfalse

如果你已经在Python中编程了一段时间，你可能已经使用过内置的filter函数，语法如下：

filter(pred,seq)
# pred: 谓词函数
# seq: 任何有效的Python可迭代对象

filter函数返回一个迭代器，该迭代器返回序列中谓词返回True的元素。

让我们看一个例子：

nums = list(range(1,11)) #[1, 2, 3, 4, 5, 6, 7, 8, 9, 10]

def is_even(n):
    return n % 2 == 0

这里，nums列表和is_even函数分别是序列和谓词。

要获取nums中的所有偶数，我们可以如下使用filter：

nums_even = filterfalse(is_even, nums)
print(list(nums_even))

Output >>> [2, 4, 6, 8, 10]

现在让我们了解filterfalse。我们将从itertools模块中导入filterfalse函数（以及我们将讨论的所有其他函数）。

顾名思义，filterfalse执行的操作与filter函数相反。它返回一个迭代器，该迭代器返回谓词返回False的元素。以下是使用filterfalse函数的语法：

from itertools import filterfalse
filterfalse(pred,seq)

函数is_even对nums中的所有奇数返回False。因此，通过filterfalse得到的nums_odd列表是nums中所有奇数的列表：

from itertools import filterfalse

nums_odd = filterfalse(is_even, nums)
print(list(nums_odd))

Output >>> [1, 3, 5, 7, 9]

2. takewhile

使用takewhile函数的语法是：

from itertools import takewhile
takewhile(pred,seq)

takewhile函数返回一个迭代器，该迭代器返回元素，直到谓词函数返回False。一旦谓词第一次返回False，它就停止返回元素。

对于一个长度为n的序列，如果seq[k]是谓词函数第一次返回False的元素，那么迭代器返回seq[0], seq[1],…, seq[k-1]。

考虑以下nums列表和谓词函数is_less_than_5。我们使用takewhile函数如下：

from itertools import takewhile

def is_less_than_5(n):
    return n < 5

nums = [1, 3, 5, 2, 4, 6]
filtered_nums_1 = takewhile(is_less_than_5, nums)
print(list(filtered_nums_1))

在这里，谓词is_less_than_5对数字5第一次返回False：

Output >>> [1, 3]

3. dropwhile

在功能上，dropwhile函数执行的操作与takewhile函数相反。

你可以这样使用dropwhile函数：

from itertools import dropwhile
dropwhile(pred,seq)

dropwhile函数返回一个迭代器，它会不断丢弃元素——只要谓词为True。这意味着，在谓词第一次返回False之前，迭代器不返回任何内容。一旦谓词返回False，迭代器返回序列中所有后续的元素。

对于一个长度为n的序列，如果seq[k]是谓词函数第一次返回False的元素，那么迭代器返回seq[k], seq[k+1],…, seq[n-1]。

让我们使用相同的序列和谓词：

from itertools import dropwhile

def is_less_than_5(n):
    return n < 5

nums = [1, 3, 5, 2, 4, 6]
filtered_nums_2 = dropwhile(is_less_than_5, nums)
print(list(filtered_nums_2))

因为谓词函数is_less_than_5对元素5第一次返回False，因此我们从5开始得到序列的所有元素：

Output >>> [5, 2, 4, 6]

4. islice

你可能已经熟悉了对Python的可迭代对象（如列表、元组和字符串）进行切片。切片语法为：iterable[start:stop:step]。

然而，这种切片方法有以下缺点：

在处理大型序列时，每个切片或子序列都是一个占用内存的副本。这可能效率不高。
由于步长可以为负值，使用开始、结束和步长值会影响可读性。

islice函数解决了上述限制：

它返回一个迭代器。
它不允许步长为负值。

你可以这样使用islice函数：

from itertools import islice
islice(seq,start,stop,step)

以下是使用islice函数的几种不同方式：

使用islice(seq, stop)返回一个迭代器，迭代器返回切片seq[0], seq[1],…, seq[stop - 1]。
如果指定开始和结束值：islice(seq, start, stop)，函数返回切片seq[start], seq[start + 1],…, seq[start + stop - 1]。
当你指定开始、结束和步长参数时，函数返回切片seq[start], seq[start + step], seq[start + 2*step],…, seq[start + k*step]。其中start + k*step < stop且start + (k+1)*step >= stop。

让我们用一个示例列表来更好地理解：

nums = list(range(10)) #[0,1, 2, 3, 4, 5, 6, 7, 8, 9]

现在让我们使用我们学到的语法来使用islice函数。

仅使用结束值

让我们仅指定结束索引：

from itertools import islice

# 仅结束
sliced_nums = islice(nums, 5)
print(list(sliced_nums))

以下是输出：

Output >>> [0, 1, 2, 3, 4]

使用开始和结束值

在这里，我们使用开始和结束值：

# 开始和结束
sliced_nums = islice(nums, 2, 7)
print(list(sliced_nums))

切片从索引2开始，延伸到但不包括索引7：

Output >>> [2, 3, 4, 5, 6]

使用开始、结束和步长值

当我们使用开始、结束和步长值时：

# 使用开始、结束和步长
sliced_nums = islice(nums, 2, 8, 2)
print(list(sliced_nums))

我们得到一个从索引2开始的切片，延伸到但不包括索引8，步长为2（返回每隔一个元素）。

Output >>> [2, 4, 6]

总结

希望本教程帮助您理解itertools过滤函数的基础知识。您已经看到了一些简单的例子来更好地理解这些函数的工作原理。

快速入门 uv：一个用于Web开发的高效Python包管理器

⚡ 开始使用 uv：一个快速的 Pyth

🚀 探索Python库：安装命令指南

Python库是提供预先编写代码以简化复

QPython+