暂无图片
上十亿条mysql数据,分成40个表,如何去重? 现在有十亿条数据,存储在mysql数据中,分成了49个表,每个表大概4000万条,采用每条数据去分别判断所有表效率太低太低了,有什么方法可以用最快方法去重,只保留一条数据。
我来答
分享
Garry
2021-09-01
上十亿条mysql数据,分成40个表,如何去重? 现在有十亿条数据,存储在mysql数据中,分成了49个表,每个表大概4000万条,采用每条数据去分别判断所有表效率太低太低了,有什么方法可以用最快方法去重,只保留一条数据。

上十亿条mysql数据,分成40个表,如何去重?
现在有十亿条数据,存储在mysql数据中,分成了49个表,每个表大概4000万条,采用每条数据去分别判断所有表效率太低太低了,有什么方法可以用最快方法去重,只保留一条数据。

我来答
添加附件
收藏
分享
问题补充
1条回答
默认
最新
Cui Hulong

1.这里应该有主键和唯一键的标识位字段:
要是有主键 ,唯一键把数据到导入到一张表,进行having 操作 即可。
2.要是没有唯一标识,只能一条一条对比。可以使用python pandas脚本进行匹配。

暂无图片 评论
暂无图片 有用 0
暂无图片
回答交流
提交
问题信息
请登录之后查看
邀请回答
暂无人订阅该标签,敬请期待~~
暂无图片墨值悬赏