你可能不知道的4个Python Itertools过滤函数

这些特别有助于你想要仅仅遍历迭代器、检索序列中的元素并处理它们时——而不需要将它们存储在内存中。今天我们将学习如何使用以下四个itertools过滤函数:

  • filter
  • takewhile
  • dropwhile
  • islice

让我们开始吧!

 

开始之前:关于代码示例的说明

 

在本教程中:

  • 我们将讨论的所有四个函数都返回迭代器。为清晰起见,我们将使用简单序列并使用list()来获取包含迭代器返回的所有元素的列表。但请避免这样做——除非必要——在处理长序列时。因为这样做会失去迭代器带来的内存节省。
  • 对于简单的谓词函数,你也可以使用lambda。但为了更好的可读性,我们将定义常规函数并将其用作谓词。

 

1. filterfalse

 

如果你已经在Python中编程了一段时间,你可能已经使用过内置的filter函数,语法如下:

filter(pred,seq)
# pred: 谓词函数
# seq: 任何有效的Python可迭代对象

 

filter函数返回一个迭代器,该迭代器返回序列中谓词返回True的元素。

让我们看一个例子:

nums = list(range(1,11)) #[1, 2, 3, 4, 5, 6, 7, 8, 9, 10]

def is_even(n):
    return n % 2 == 0

 

这里,nums列表和is_even函数分别是序列和谓词。

要获取nums中的所有偶数,我们可以如下使用filter

nums_even = filterfalse(is_even, nums)
print(list(nums_even))

 

Output >>> [2, 4, 6, 8, 10]

 

现在让我们了解filterfalse。我们将从itertools模块中导入filterfalse函数(以及我们将讨论的所有其他函数)。

顾名思义,filterfalse执行的操作与filter函数相反。它返回一个迭代器,该迭代器返回谓词返回False的元素。以下是使用filterfalse函数的语法:

from itertools import filterfalse
filterfalse(pred,seq)

 

函数is_evennums中的所有奇数返回False。因此,通过filterfalse得到的nums_odd列表是nums中所有奇数的列表:

from itertools import filterfalse

nums_odd = filterfalse(is_even, nums)
print(list(nums_odd)) 

 

Output >>> [1, 3, 5, 7, 9]

 

2. takewhile

 

使用takewhile函数的语法是:

from itertools import takewhile
takewhile(pred,seq)

 

takewhile函数返回一个迭代器,该迭代器返回元素,直到谓词函数返回False。一旦谓词第一次返回False,它就停止返回元素。

对于一个长度为n的序列,如果seq[k]是谓词函数第一次返回False的元素,那么迭代器返回seq[0], seq[1],…, seq[k-1]

考虑以下nums列表和谓词函数is_less_than_5。我们使用takewhile函数如下:

from itertools import takewhile

def is_less_than_5(n):
    return n < 5

nums = [1, 3, 5, 2, 4, 6]
filtered_nums_1 = takewhile(is_less_than_5, nums)
print(list(filtered_nums_1))  

在这里,谓词is_less_than_5对数字5第一次返回False

Output >>> [1, 3]

3. dropwhile

 

在功能上,dropwhile函数执行的操作与takewhile函数相反。

你可以这样使用dropwhile函数:

from itertools import dropwhile
dropwhile(pred,seq) 

 

dropwhile函数返回一个迭代器,它会不断丢弃元素——只要谓词为True。这意味着,在谓词第一次返回False之前,迭代器不返回任何内容。一旦谓词返回False,迭代器返回序列中所有后续的元素。

对于一个长度为n的序列,如果seq[k]是谓词函数第一次返回False的元素,那么迭代器返回seq[k], seq[k+1],…, seq[n-1]

让我们使用相同的序列和谓词:

from itertools import dropwhile

def is_less_than_5(n):
    return n < 5

nums = [1, 3, 5, 2, 4, 6]
filtered_nums_2 = dropwhile(is_less_than_5, nums)
print(list(filtered_nums_2)) 

因为谓词函数is_less_than_5对元素5第一次返回False,因此我们从5开始得到序列的所有元素:

Output >>> [5, 2, 4, 6]

4. islice

你可能已经熟悉了对Python的可迭代对象(如列表、元组和字符串)进行切片。切片语法为:iterable[start:stop:step]

然而,这种切片方法有以下缺点:

  • 在处理大型序列时,每个切片或子序列都是一个占用内存的副本。这可能效率不高。
  • 由于步长可以为负值,使用开始、结束和步长值会影响可读性。

islice函数解决了上述限制:

  • 它返回一个迭代器。
  • 它不允许步长为负值。

你可以这样使用islice函数:

from itertools import islice
islice(seq,start,stop,step) 

以下是使用islice函数的几种不同方式:

  • 使用islice(seq, stop)返回一个迭代器,迭代器返回切片seq[0], seq[1],…, seq[stop - 1]
  • 如果指定开始和结束值:islice(seq, start, stop),函数返回切片seq[start], seq[start + 1],…, seq[start + stop - 1]
  • 当你指定开始、结束和步长参数时,函数返回切片seq[start], seq[start + step], seq[start + 2*step],…, seq[start + k*step]。其中start + k*step < stopstart + (k+1)*step >= stop

让我们用一个示例列表来更好地理解:

nums = list(range(10)) #[0,1, 2, 3, 4, 5, 6, 7, 8, 9]

现在让我们使用我们学到的语法来使用islice函数。

仅使用结束值

让我们仅指定结束索引:

from itertools import islice

# 仅结束
sliced_nums = islice(nums, 5)
print(list(sliced_nums)) 

 

以下是输出:

Output >>> [0, 1, 2, 3, 4]

 

使用开始和结束值

 

在这里,我们使用开始和结束值:

# 开始和结束
sliced_nums = islice(nums, 2, 7)
print(list(sliced_nums))

 

切片从索引2开始,延伸到但不包括索引7:

Output >>> [2, 3, 4, 5, 6]

 

使用开始、结束和步长值

 

当我们使用开始、结束和步长值时:

# 使用开始、结束和步长
sliced_nums = islice(nums, 2, 8, 2)
print(list(sliced_nums))  

我们得到一个从索引2开始的切片,延伸到但不包括索引8,步长为2(返回每隔一个元素)。

Output >>> [2, 4, 6]

总结

希望本教程帮助您理解itertools过滤函数的基础知识。您已经看到了一些简单的例子来更好地理解这些函数的工作原理。

更多