Python|对列表中的相似子字符串进行分组

有时我们有一个应用程序，我们需要将公共前缀字符串分组为一个，以便可以根据分组进行进一步的处理。这种类型的分组在机器学习和 Web 开发的情况下很有用。让我们讨论一些可以做到这一点的方法。
方法#1：使用 lambda + itertools.groupby() + split()
以上三个功能的组合帮助我们完成了任务。 split 方法是关键，因为它定义了必须执行分组的分隔符。 groupby函数对元素进行分组。

Python3

# Python3 code to demonstrate
# group similar substrings
# using lambda + itertools.groupby() + split()
from itertools import groupby
 
# initializing list
test_list = ['geek_1', 'coder_2', 'geek_4', 'coder_3', 'pro_3']
 
# sort list
# essential for grouping
test_list.sort()
 
# printing the original list
print ("The original list is : " + str(test_list))
 
# using lambda + itertools.groupby() + split()
# group similar substrings
res = [list(i) for j, i in groupby(test_list,
                  lambda a: a.split('_')[0])]
 
# printing result
print ("The grouped list is : " + str(res))

Python3

# Python3 code to demonstrate
# group similar substrings
# using lambda + itertools.groupby() + partition()
from itertools import groupby
 
# initializing list
test_list = ['geek_1', 'coder_2', 'geek_4', 'coder_3', 'pro_3']
 
# sort list
# essential for grouping
test_list.sort()
 
# printing the original list
print ("The original list is : " + str(test_list))
 
# using lambda + itertools.groupby() + partition()
# group similar substrings
res = [list(i) for j, i in groupby(test_list,
              lambda a: a.partition('_')[0])]
 
# printing result
print ("The grouped list is : " + str(res))

输出：

原始列表是：['coder_2', 'coder_3', 'geek_1', 'geek_4', 'pro_3']
分组列表为：[['coder_2', 'coder_3'], ['geek_1', 'geek_4'], ['pro_3']]

方法#2：使用 lambda + itertools.groupby() + partition()
也可以用分区函数代替分割函数来执行类似的任务。这是执行此任务的更有效方式，因为它使用迭代器，因此在内部更快。

Python3

# Python3 code to demonstrate
# group similar substrings
# using lambda + itertools.groupby() + partition()
from itertools import groupby
 
# initializing list
test_list = ['geek_1', 'coder_2', 'geek_4', 'coder_3', 'pro_3']
 
# sort list
# essential for grouping
test_list.sort()
 
# printing the original list
print ("The original list is : " + str(test_list))
 
# using lambda + itertools.groupby() + partition()
# group similar substrings
res = [list(i) for j, i in groupby(test_list,
              lambda a: a.partition('_')[0])]
 
# printing result
print ("The grouped list is : " + str(res))

输出：

原始列表是：['coder_2', 'coder_3', 'geek_1', 'geek_4', 'pro_3']
分组列表为：[['coder_2', 'coder_3'], ['geek_1', 'geek_4'], ['pro_3']]