❝开头还是介绍一下群,如果感兴趣PolarDB ,MongoDB ,MySQL ,PostgreSQL ,Redis, OceanBase, Sql Server等有问题,有需求都可以加群群内有各大数据库行业大咖,可以解决你的问题。加群请联系 liuaustin3 ,(共2800人左右 1 + 2 + 3 + 4 +5 + 6 + 7 + 8 +9)(1 2 3 4 5 6 7群均已爆满,开8群约300 9群 100+)
这是升级MongoDB从4.X到6.X的第四集了,这集我们需要聚焦到此次收益的点,在一个项目往后就需要开始讲故事,我们的工作的意义是什么,一个项目如果讲不出 3个故事,那你这个项目干的还真是意义不大。
今天我们就开始讲其中的一个故事,升级版本的意义,优势与差异,这些信息是要提供给开发部门的。
首先迁移中,优化的点
1 在操控MongoDB的中,一些如python ,java ,Node.js早期的驱动中使用了 op_insert协议,这个协议的缺点就是性能差。性能差的根本原因是格式较为冗余,效率底下。
之前MongoDB4.0是兼容这个方式插入数据的,而到了6.0则禁止了这个协议,而强制采用op_msg的方式来进行数据的插入,采用了更集中的BSON编码,减少了信息的大小,简化了协议的教书,同时还支持了事务的压缩等。
升级MongoDB 会强制淘汰这些老的数据驱动协议,倒逼开发升级程序的驱动也MONGODB进行交互,提高数据的操作中的性能。
相同的这里也强制针对 op_delete等操作的协议一并强制下架。
2 升级到 mongodb中的第二个有点 ,在之前的版本中无法利用多线程来对数据查询中的scan进行并行查询,而到了MongoDB 6.0我们可以采用更新的并行的方式来对MongoDB进行并行查询。同时对于聚合阶段的数据处理也可以进行并行操作。如 sort 等,对于更多的CPU,MongoDB可以进行有效的利用。
对于开发来说收益的地方在
1 高频 find() 查询带复杂过滤条件。 2 聚合管道中早期使用 project 过滤数据。
match 尽可能下推到存储引擎层,减少内存中处理的文档数量。例如,在分片集群中,$match 可在分片节点提前执行,仅返回匹配结果到协调节点。
索引辅助过滤:若管道中存在 project,MongoDB 会尝试利用索引直接过滤或投影字段,避免全文档读取。
$sort 内存与磁盘管理
增量排序优化:对已部分排序的数据(如通过索引有序返回的文档),$sort 阶段会复用已有顺序,减少内存占用和排序时间。
并行归并排序:对于大数据集,6.0 支持多线程归并排序,利用多核 CPU 加速排序过程。
3 聚合功能上的变化 --- 这里单独开一期说。
4 对于运维方面的优化的点
1 MongoDB 在初始化节点的时候,使用了文件拷贝初始化的模式,提高了新节点加入副本的速度。
5 聚合查询更新省略查询的步骤
在之前4.X要更新数据,必须先查出后,在进行更新,如在MongoDB 4.X撰写的语句如
db.products.find({ price: { $exists: true } }).forEach(function(doc) {
db.products.updateOne(
{ _id: doc._id },
{ $set: { priceWithTax: doc.price * 1.08 } }
);
});
可以直接改写为
// 6.0 更新时可以直接用聚合表达式
db.products.updateMany(
{ price: { $exists: true } },
[{ $set: { priceWithTax: { $multiply: ["$price", 1.08] } } }]
);
在数据删除的中deleteMany的条件表达也更加的丰富。在4.0时无法使用正则和聚合后的数据删除,必须先查询在删除,需要两步。所以在6.0删除数据条件变得更丰富了。
// 删除所有包含嵌套数组中任意元素匹配正则的文档
db.logs.deleteMany({
"metadata.tags": {
$regex: ^error_/, 匹配以 error_ 开头的标签
$options: "i"
},
"created_at": { $lt: ISODate("2022-01-01") }
});
// 结合聚合表达式删除(需 6.0+)
db.logs.deleteMany({
$expr: {
$and: [
{ $gte: ["$price", 1000] },
{ $in: ["$status", ["cancelled", "failed"]] }
]
}
});
同时6.0支持在语句中,添加注释,方便复杂的代码进行后期的读取。
// 查询价格大于 100 的商品,并添加注释
db.products.find(
{
price: { $gt: 100 }
},
{
$comment: "DEBUG: Find expensive products for sales report"
}
);
// 通过 explain 查看注释(输出中会显示 $comment)
db.products.find({ price: { $gt: 100 } }).explain("executionStats");
除此以外,MongoDB在6.0支持时序性的数据,如一些监控或者设备的数据可以写入到MongoDB中处理。如
db.createCollection("sensor_data", {
timeseries: {
timeField: "timestamp",
metaField: "metadata",
granularity: "seconds"
}
});
db.sensor_data.createIndex({ timestamp: 1 });
这条命令用于在 MongoDB 中创建一个名为 sensor_data 的时间序列集合。与普通集合不同,时间序列集合针对时间序列数据的存储和查询进行了优化
timeField: "timestamp": 指定文档中哪个字段用于表示时间戳。 metaField: "metadata": 指定文档中哪个字段用于存储与时间序列数据相关的元数据。 granularity: "seconds": 指定时间序列数据的时间粒度。这里设置为 "seconds"
最后我们还可以创建针对MONGODB 时序性的索引,提高处理的速度时间序列索引的优化: 对于时间序列集合,MongoDB 的索引机制会进行特殊优化,以便更高效地处理时间范围查询。当你查询特定时间段的数据时,这个索引能够帮助 MongoDB 快速定位到相关的数据块,而无需扫描整个集合。
db.sensor_data.find({
"metadata.sensor_id": "sensor_001",
timestamp: { $gte: ISODate("2023-01-01"), $lt: ISODate("2023-01-02") }
});
查询的时候 "metadata.sensor_id": "sensor_001": 这个条件用于筛选 metadata 文档中 sensor_id 字段值为 "sensor_001" 的数据。这表示我们只想查询来自特定传感器(ID 为 sensor_001)的数据。 timestamp: { lt: ISODate("2023-01-02") }: 这个条件用于筛选 timestamp 字段在指定时间范围内的数据。
利用 metadata 上的索引(如果存在): 虽然我们只在 timestamp 上创建了索引,但如果你的查询模式经常根据 metadata 中的字段进行筛选,你可能也会在 metadata.sensor_id 上创建索引 (db.sensor_data.createIndex({ "metadata.sensor_id": 1 }))。如果有这个索引,MongoDB 会首先利用它快速定位到与 "sensor_001" 相关的文档。
利用 timestamp 上的时间序列专用索引: 找到符合 sensor_id 条件的文档后,MongoDB 会利用 timestamp 字段上的时间序列索引,高效地筛选出落在 2023-01-01 到 2023-01-02 之间的数据。由于时间序列索引的特殊优化,这个时间范围查询会比在普通集合上进行范围查询更快。
实际上写到这里还有MongoDB6.0中的$setWindowsFields的功能也没有说,后面有机会写吧,到这里把升级的对于开发的好处和影响都说一说,有利于开发和架构推进MongoDB的升级项目。
置顶
和架构师沟通那种“一坨”的系统,推荐只能是OceanBase,Why ?MongoDB 大俗大雅,上来问分片真三俗 -- 4 分什么分
MongoDB 大俗大雅,高端知识讲“庸俗” --3 奇葩数据更新方法
MongoDB 大俗大雅,高端的知识讲“通俗” -- 2 嵌套和引用
MongoDB 大俗大雅,高端的知识讲“低俗” -- 1 什么叫多模
MongoDB 合作考试报销活动 贴附属,MongoDB基础知识速通
MongoDB 使用网上妙招,直接DOWN机---清理表碎片导致的灾祸 (送书活动结束)
MongoDB 2023年度纽约 MongoDB 年度大会话题 -- MongoDB 数据模式与建模
跟我学OceanBase4.0 --阅读白皮书 (OB分布式优化哪里了提高了速度)
跟我学OceanBase4.0 --阅读白皮书 (4.0优化的核心点是什么)
跟我学OceanBase4.0 --阅读白皮书 (0.5-4.0的架构与之前架构特点)
跟我学OceanBase4.0 --阅读白皮书 (旧的概念害死人呀,更新知识和理念)
“PostgreSQL” 高性能主从强一致读写分离,我行,你没戏!
POLARDB 添加字段 “卡” 住---这锅Polar不背
PolarDB 版本差异分析--外人不知道的秘密(谁是绵羊,谁是怪兽)
PolarDB 答题拿-- 飞刀总的书、同款卫衣、T恤,来自杭州的Package(活动结束了)
PolarDB for MySQL 三大核心之一POLARFS 今天扒开它--- 嘛是火
PostgreSQL 无服务 Neon and Aurora 新技术下的新经济模式 (翻译)
“PostgreSQL” 高性能主从强一致读写分离,我行,你没戏!
全世界都在“搞” PostgreSQL ,从Oracle 得到一个“馊主意”开始
PostgreSQL 加索引系统OOM 怨我了--- 不怨你怨谁
PostgreSQL “我怎么就连个数据库都不会建?” --- 你还真不会!
PostgreSQL 稳定性平台 PG中文社区大会--杭州来去匆匆
PostgreSQL 分组查询可以不进行全表扫描吗?速度提高上千倍?
POSTGRESQL --Austindatabaes 历年文章整理
PostgreSQL 查询语句开发写不好是必然,不是PG的锅
MySQL相关文章





