Python pandas DataFrame排序和去重操作

琲世

2024-03-25 帮助4人

前言

DataFrame 提供了sort_index()方法来进行索引的排序，主要考虑以下几个可选输入项：

使用方法：

	df = pd.DataFrame(data)
	df.sort_index(axis=0, ascending=False, inplace=True)

DataFrame 提供了sort_values()方法来进行值的排序，相比sort_index()方法，它多了一个by参数，其他参数与sort_index()方法：

by参数：接收字符串或者列表，来指定要排序的行或者列名
ascending参数：若by参数指示的为列表，此处也需要按照列表填写排序方向
ignore_index参数：指示是否重新生成行索引，默认为False表示不生成，此时会导致index乱序，设置为True表示重新按照0，1 ，2…生成index

使用方法：

	df = pd.DataFrame(data)
	df.sort_values(by=['age', 'gender'], ascending=[False, True], inplace=True, ignore_index=True)

Dataframe的去重使用的方法为drop_duplicates()，此方法可以快速的实现对全部数据、部分数据的去重操作。
主要包含以下几个参数：

subset参数：设置识别重复项的列名或列名序列，对某些列来识别重复项，默认情况下使用所有列，即识别完全相同的内容，若设置，则仅识别对应的列；
keep参数：可选值有first，last，False，默认为first，确定要保留哪些重复项
1. first：删除除第一次出现的重复项，即保留第一次出现的重复项
2. last：保留最后一次出现的重复项
3. False：删除所有重复项
inplace参数：表示是否返回副本，默认为False表示返回副本，设置为True表示在原数据上修改
ignore_index参数：指示是否重新生成行索引，默认为False表示不生成，此时会导致index乱序，设置为True表示重新按照0，1 ，2…生成index

使用方法：

	df = pd.DataFrame(data)
	df.drop_duplicates(subset=None, keep=‘first’, inplace=False, ignore_index=False)

这篇好文章是转载于：学新通技术网