pbootcms网站模板|日韩1区2区|织梦模板||网站源码|日韩1区2区|jquery建站特效-html5模板网

pandas 數(shù)據(jù)框:基于列和時間范圍的重復

pandas dataframe: duplicates based on column and time range( pandas 數(shù)據(jù)框:基于列和時間范圍的重復)
本文介紹了 pandas 數(shù)據(jù)框:基于列和時間范圍的重復的處理方法,對大家解決問題具有一定的參考價值,需要的朋友們下面隨著小編來一起學習吧!

問題描述

我有一個(非常簡單的)熊貓數(shù)據(jù)框,看起來像這樣:

I have a (very simplyfied here) pandas dataframe which looks like this:

df

    datetime             user   type   msg
0  2012-11-11 15:41:08   u1     txt    hello world
1  2012-11-11 15:41:11   u2     txt    hello world
2  2012-11-21 17:00:08   u3     txt    hello world
3  2012-11-22 18:08:35   u4     txt      hello you
4  2012-11-22 18:08:37   u5     txt      hello you

我現(xiàn)在想做的是獲取所有時間戳在 3 秒內(nèi)的重復消息.期望的輸出是:

What I would like to do now is to get all the duplicate messages which have their timestamp within 3 seconds. The desired output would be:

   datetime              user   type   msg
0  2012-11-11 15:41:08   u1     txt    hello world
1  2012-11-11 15:41:11   u2     txt    hello world
3  2012-11-22 18:08:35   u4     txt      hello you
4  2012-11-22 18:08:37   u5     txt      hello you

沒有第三行,因為它的文本與第一行和第二行相同,但它的時間戳不是3秒以內(nèi).

without the third row, as its text is the same as in row one and two, but its timestamp is not within the range of 3 seconds.

我嘗試將列 datetime 和 msg 定義為 duplicate() 方法的參數(shù),但它返回一個空數(shù)據(jù)幀,因為時間戳不相同:

I tried to define the columns datetime and msg as parameters for the duplicate() method, but it returns an empty dataframe because the timestamps are not identical:

mask = df.duplicated(subset=['datetime', 'msg'], keep=False)

print(df[mask])
Empty DataFrame
Columns: [datetime, user, type, msg, MD5]
Index: []

有沒有一種方法可以為我的日期時間"參數(shù)定義一個范圍?為了說明,某事喜歡:

Is there a way where I can define a range for my "datetime" parameter? To illustrate, something like:

mask = df.duplicated(subset=['datetime_between_3_seconds', 'msg'], keep=False)

我們將一如既往地為您提供任何幫助.

Any help here would as always be very much appreciated.

推薦答案

這段代碼給出了預期的輸出

This Piece of code gives the expected output

df[(df.groupby(["msg"], as_index=False)["datetime"].diff().fillna(0).dt.seconds <= 3).reset_index(drop=True)]

我已對數(shù)據(jù)框的msg"列進行分組,然后選擇該數(shù)據(jù)框的日期時間"列并使用內(nèi)置函數(shù) 差異.Diff 函數(shù)查找該列的值之間的差異.用零填充 NaT 值并僅選擇那些值小于 3 秒的索引.

I have grouped on "msg" column of dataframe and then selected "datetime" column of that dataframe and used inbuilt function diff. Diff function finds the difference between values of that column. Filled the NaT values with zero and selected only those indexes which have values less than 3 seconds.

在使用上述代碼之前,請確保您的數(shù)據(jù)框按日期時間升序排序.

Before using above code make sure that your dataframe is sorted on datetime in ascending order.

這篇關(guān)于 pandas 數(shù)據(jù)框:基于列和時間范圍的重復的文章就介紹到這了,希望我們推薦的答案對大家有所幫助,也希望大家多多支持html5模板網(wǎng)!

【網(wǎng)站聲明】本站部分內(nèi)容來源于互聯(lián)網(wǎng),旨在幫助大家更快的解決問題,如果有圖片或者內(nèi)容侵犯了您的權(quán)益,請聯(lián)系我們刪除處理,感謝您的支持!

相關(guān)文檔推薦

How to draw a rectangle around a region of interest in python(如何在python中的感興趣區(qū)域周圍繪制一個矩形)
How can I detect and track people using OpenCV?(如何使用 OpenCV 檢測和跟蹤人員?)
How to apply threshold within multiple rectangular bounding boxes in an image?(如何在圖像的多個矩形邊界框中應(yīng)用閾值?)
How can I download a specific part of Coco Dataset?(如何下載 Coco Dataset 的特定部分?)
Detect image orientation angle based on text direction(根據(jù)文本方向檢測圖像方向角度)
Detect centre and angle of rectangles in an image using Opencv(使用 Opencv 檢測圖像中矩形的中心和角度)
主站蜘蛛池模板: 沈阳缠绕包装机厂家直销-沈阳海鹞托盘缠绕包装机价格 | 新能源汽车教学设备厂家报价[汽车教学设备运营18年]-恒信教具 | 日本细胞免疫疗法_肿瘤免疫治疗_NK细胞疗法 - 免疫密码 | 不锈钢搅拌罐_高速搅拌罐厂家-无锡市凡格德化工装备科技有限公司 | 旗帜网络笔记-免费领取《旗帜网络笔记》电子书 | 通风气楼_通风天窗_屋顶风机-山东美创通风设备有限公司 | 北京模型公司-军事模型-工业模型制作-北京百艺模型沙盘公司 | 江西自考网| 深圳希玛林顺潮眼科医院(官网)│深圳眼科医院│医保定点│香港希玛林顺潮眼科中心连锁品牌 | 自动检重秤-动态称重机-重量分选秤-苏州金钻称重设备系统开发有限公司 | 彭世修脚_修脚加盟_彭世修脚加盟_彭世足疗加盟_足疗加盟连锁_彭世修脚技术培训_彭世足疗 | 消泡剂_水处理消泡剂_切削液消泡剂_涂料消泡剂_有机硅消泡剂_广州中万新材料生产厂家 | 别墅图纸超市|别墅设计图纸|农村房屋设计图|农村自建房|别墅设计图纸及效果图大全 | 对辊破碎机_四辊破碎机_双齿辊破碎机_华盛铭重工 | 一体化污水处理设备,一体化污水设备厂家-宜兴市福源水处理设备有限公司 | 美的商用净水器_美的直饮机_一级代理经销商_Midea租赁价格-厂家反渗透滤芯-直饮水批发品牌售后 | 锡膏喷印机-全自动涂覆机厂家-全自动点胶机-视觉点胶机-深圳市博明智控科技有限公司 | 水平筛厂家-三轴椭圆水平振动筛-泥沙震动筛设备_山东奥凯诺矿机 包装设计公司,产品包装设计|包装制作,包装盒定制厂家-汇包装【官方网站】 | 真空泵厂家_真空泵机组_水环泵_旋片泵_罗茨泵_耐腐蚀防爆_中德制泵 | 工业用品一站式采购平台|南创工品汇-官网|广州南创 | 恒温恒湿箱(药品/保健品/食品/半导体/细菌)-兰贝石(北京)科技有限公司 | CXB船用变压器-JCZ系列制动器-HH101船用铜质开关-上海永上船舶电器厂 | 温州食堂承包 - 温州市尚膳餐饮管理有限公司| 体视显微镜_荧光生物显微镜_显微镜报价-微仪光电生命科学显微镜有限公司 | 中央空调维修、中央空调保养、螺杆压缩机维修-苏州东菱空调 | 长春网站建设,五合一网站设计制作,免费优化推广-长春网站建设 | 翅片管换热器「型号全」_厂家-淄博鑫科环保 | 安徽合肥项目申报咨询公司_安徽合肥高新企业项目申报_安徽省科技项目申报代理 | 铝板冲孔网,不锈钢冲孔网,圆孔冲孔网板,鳄鱼嘴-鱼眼防滑板,盾构走道板-江拓数控冲孔网厂-河北江拓丝网有限公司 | IHDW_TOSOKU_NEMICON_EHDW系列电子手轮,HC1系列电子手轮-上海莆林电子设备有限公司 | 实验室pH计|电导率仪|溶解氧测定仪|离子浓度计|多参数水质分析仪|pH电极-上海般特仪器有限公司 | IP检测-检测您的IP质量 | 万家财经_财经新闻_在线财经资讯网| 不锈钢闸阀_球阀_蝶阀_止回阀_调节阀_截止阀-可拉伐阀门(上海)有限公司 | 动库网动库商城-体育用品专卖店:羽毛球,乒乓球拍,网球,户外装备,运动鞋,运动包,运动服饰专卖店-正品运动品网上商城动库商城网 - 动库商城 | EPDM密封胶条-EPDM密封垫片-EPDM生产厂家 | 北京模型公司-工业模型-地产模型-施工模型-北京渝峰时代沙盘模型制作公司 | B2B网站_B2B免费发布信息网站_B2B企业贸易平台 - 企资网 | 北京开业庆典策划-年会活动策划公司-舞龙舞狮团大鼓表演-北京盛乾龙狮鼓乐礼仪庆典策划公司 | 带式压滤机_污泥压滤机_污泥脱水机_带式过滤机_带式压滤机厂家-河南恒磊环保设备有限公司 | 流量卡中心-流量卡套餐查询系统_移动电信联通流量卡套餐大全 |