这些特别有助于你想要仅仅遍历迭代器、检索序列中的元素并处理它们时——而不需要将它们存储在内存中。今天我们将学习如何使用以下四个itertools过滤函数:
- filter
- takewhile
- dropwhile
- islice
让我们开始吧!
开始之前:关于代码示例的说明
在本教程中:
- 我们将讨论的所有四个函数都返回迭代器。为清晰起见,我们将使用简单序列并使用
list()
来获取包含迭代器返回的所有元素的列表。但请避免这样做——除非必要——在处理长序列时。因为这样做会失去迭代器带来的内存节省。 - 对于简单的谓词函数,你也可以使用lambda。但为了更好的可读性,我们将定义常规函数并将其用作谓词。
1. filterfalse
如果你已经在Python中编程了一段时间,你可能已经使用过内置的filter
函数,语法如下:
filter(pred,seq)
# pred: 谓词函数
# seq: 任何有效的Python可迭代对象
filter
函数返回一个迭代器,该迭代器返回序列中谓词返回True
的元素。
让我们看一个例子:
nums = list(range(1,11)) #[1, 2, 3, 4, 5, 6, 7, 8, 9, 10]
def is_even(n):
return n % 2 == 0
这里,nums
列表和is_even
函数分别是序列和谓词。
要获取nums
中的所有偶数,我们可以如下使用filter
:
nums_even = filterfalse(is_even, nums)
print(list(nums_even))
Output >>> [2, 4, 6, 8, 10]
现在让我们了解filterfalse
。我们将从itertools模块中导入filterfalse
函数(以及我们将讨论的所有其他函数)。
顾名思义,filterfalse
执行的操作与filter
函数相反。它返回一个迭代器,该迭代器返回谓词返回False
的元素。以下是使用filterfalse
函数的语法:
from itertools import filterfalse
filterfalse(pred,seq)
函数is_even
对nums
中的所有奇数返回False
。因此,通过filterfalse
得到的nums_odd
列表是nums
中所有奇数的列表:
from itertools import filterfalse
nums_odd = filterfalse(is_even, nums)
print(list(nums_odd))
Output >>> [1, 3, 5, 7, 9]
2. takewhile
使用takewhile
函数的语法是:
from itertools import takewhile
takewhile(pred,seq)
takewhile
函数返回一个迭代器,该迭代器返回元素,直到谓词函数返回False
。一旦谓词第一次返回False
,它就停止返回元素。
对于一个长度为n的序列,如果seq[k]
是谓词函数第一次返回False
的元素,那么迭代器返回seq[0]
, seq[1]
,…, seq[k-1]
。
考虑以下nums
列表和谓词函数is_less_than_5
。我们使用takewhile
函数如下:
from itertools import takewhile
def is_less_than_5(n):
return n < 5
nums = [1, 3, 5, 2, 4, 6]
filtered_nums_1 = takewhile(is_less_than_5, nums)
print(list(filtered_nums_1))
在这里,谓词is_less_than_5
对数字5第一次返回False
:
Output >>> [1, 3]
3. dropwhile
在功能上,dropwhile
函数执行的操作与takewhile
函数相反。
你可以这样使用dropwhile
函数:
from itertools import dropwhile
dropwhile(pred,seq)
dropwhile
函数返回一个迭代器,它会不断丢弃元素——只要谓词为True
。这意味着,在谓词第一次返回False
之前,迭代器不返回任何内容。一旦谓词返回False
,迭代器返回序列中所有后续的元素。
对于一个长度为n的序列,如果seq[k]
是谓词函数第一次返回False
的元素,那么迭代器返回seq[k]
, seq[k+1]
,…, seq[n-1]
。
让我们使用相同的序列和谓词:
from itertools import dropwhile
def is_less_than_5(n):
return n < 5
nums = [1, 3, 5, 2, 4, 6]
filtered_nums_2 = dropwhile(is_less_than_5, nums)
print(list(filtered_nums_2))
因为谓词函数is_less_than_5
对元素5第一次返回False
,因此我们从5开始得到序列的所有元素:
Output >>> [5, 2, 4, 6]
4. islice
你可能已经熟悉了对Python的可迭代对象(如列表、元组和字符串)进行切片。切片语法为:iterable[start:stop:step]
。
然而,这种切片方法有以下缺点:
- 在处理大型序列时,每个切片或子序列都是一个占用内存的副本。这可能效率不高。
- 由于步长可以为负值,使用开始、结束和步长值会影响可读性。
islice
函数解决了上述限制:
- 它返回一个迭代器。
- 它不允许步长为负值。
你可以这样使用islice
函数:
from itertools import islice
islice(seq,start,stop,step)
以下是使用islice
函数的几种不同方式:
- 使用
islice(seq, stop)
返回一个迭代器,迭代器返回切片seq[0]
,seq[1]
,…,seq[stop - 1]
。 - 如果指定开始和结束值:
islice(seq, start, stop)
,函数返回切片seq[start]
,seq[start + 1]
,…,seq[start + stop - 1]
。 - 当你指定开始、结束和步长参数时,函数返回切片
seq[start]
,seq[start + step]
,seq[start + 2*step]
,…,seq[start + k*step]
。其中start + k*step
<stop
且start + (k+1)*step
>=stop
。
让我们用一个示例列表来更好地理解:
nums = list(range(10)) #[0,1, 2, 3, 4, 5, 6, 7, 8, 9]
现在让我们使用我们学到的语法来使用islice
函数。
仅使用结束值
让我们仅指定结束索引:
from itertools import islice
# 仅结束
sliced_nums = islice(nums, 5)
print(list(sliced_nums))
以下是输出:
Output >>> [0, 1, 2, 3, 4]
使用开始和结束值
在这里,我们使用开始和结束值:
# 开始和结束
sliced_nums = islice(nums, 2, 7)
print(list(sliced_nums))
切片从索引2开始,延伸到但不包括索引7:
Output >>> [2, 3, 4, 5, 6]
使用开始、结束和步长值
当我们使用开始、结束和步长值时:
# 使用开始、结束和步长
sliced_nums = islice(nums, 2, 8, 2)
print(list(sliced_nums))
我们得到一个从索引2开始的切片,延伸到但不包括索引8,步长为2(返回每隔一个元素)。
Output >>> [2, 4, 6]
总结
希望本教程帮助您理解itertools过滤函数的基础知识。您已经看到了一些简单的例子来更好地理解这些函数的工作原理。