博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
Python pandas 获取Excel重复记录
阅读量:4971 次
发布时间:2019-06-12

本文共 955 字,大约阅读时间需要 3 分钟。

pip install pandaspip install xlrd

大量记录的时候,用EXCEL排序处理比较费劲,EXCEL程序动不动就无响应了,用pands完美解决。

# We will use data structures and data analysis tools provided in Pandas libraryimport pandas as pd# Import retail sales data from an Excel Workbook into a data frame# path = '/Documents/analysis/python/examples/2015sales.xlsx'path = 'F:/python/an.xlsx'xlsx = pd.ExcelFile(path)df = pd.read_excel(xlsx, 'Sheet1')# Let's add a new boolean column to our dataframe that will identify a duplicated order line item (False=Not a duplicate; True=Duplicate)df['is_duplicated'] = df.duplicated(['ip'])# We can sum on a boolean column to get a count of duplicate order line items# df['is_duplicated'].sum()# Get the records of duplicated, If you need non-dup just use False insteaddf_dup = df.loc[df['is_duplicated'] == True]# Finally let's save our cleaned up data to a csv filedf_dup.to_csv('dup.csv', encoding='utf-8')

 ref:

 

转载于:https://www.cnblogs.com/v5captain/p/8361581.html

你可能感兴趣的文章
ABP学习入门系列(三) (领域层中的仓储Repository)
查看>>
iPhone-NSAssert使用
查看>>
35.大质数
查看>>
spring包说明
查看>>
从技术到管理:工作转型后角色定位
查看>>
linux快速查找文件
查看>>
【bzoj4008】 HNOI2015—亚瑟王
查看>>
lambda、map、reduce、filter函数讲解
查看>>
Apache下通过shell脚本提交网站404死链
查看>>
java ftp下载文件
查看>>
hint使用
查看>>
FLEX 通过url 得到网页内容 xml通信
查看>>
打包压缩
查看>>
PASCAL语言子集的词法、语法分析器之实现
查看>>
通用FTP Client模块设计与实现
查看>>
【javascript笔记】声明函数的三种方式
查看>>
嵌入式软件工程师C语言经典笔试2
查看>>
DPlot.v2.3.4.4 1CD DPlot适用于科学研究,工程技术的图表软件。用来显示2维,3维数据。...
查看>>
Django 中间件
查看>>
IFrame 框架的用法简介
查看>>