【笔记】数据库技术与机器学习深度融合的思考和实践

SeanC的田园 2022-08-27

1114

主讲人：王宏志

机器学习驱动的数据库技术

人难以了解数据全貌（big data era: increasing data size, complex data type, etc.）
可调式的内容增加 (more complex database system, e.g. lots of parameters that can be tuned)
固有的难解问题
模型操作效率高于数据（replace some data with models, especially when there are more data）

代价/工作负载预测（操作代价的预测、未来工作负载预测后可优化系统）
学习增强算法（视图选择/存储划分等为NP难问题，机器学习提供求解问题的新途径）
机器学习驱动的查询优化（查询优化是难的问题，特别是当查询很大的时候，性能受限/准确度下降）
机器学习驱动的索引推荐（同一组数据可能有多种索引可选，对workload的预测？数据类型/分布的掌握？）
机器学习驱动的存储选择（对于不同类型数据，即使是同一种模态，都可以有不同的存储选择模式, e.g. 行存储/列存储，图数据：native graph/k-v/relational）
学习索引 (将索引看成是一种预测)
...

基于强化学习的NOSQL数据库索引选择技术

目的：自适应NoSQL上的动态负载变化，实现自动化配置索引
效果：可以在短时间内自动高效地推荐出适合于当前工作负载变化的最佳索引
解决方案：结合强化学习的DQN和dueling network技术建立深度神经网络模型，提出一种以数据库为环境，以机器学习模型为代理的强化学习结构，通过这种方式逐步训练模型。

结果：开源测试基准YCSB上，在未训练过的工作负载上，本方法的吞吐量与B-Tree相比可提高3.25%，与Hash相比可提高3.19%，与LSM-Tree相比可提高20.15%，表明了深度强化学习方法在索引选择上的有效性。

基于卷积神经网络的索引推荐（General Model for Index Recommendation based on Convolutional Neural Networks）

目的：解决工作负载频繁变化情况下，DBA调整索引结构费时费力
效果：在文档数据库上的实验结果表明，基于卷及神经网络的索引推荐明显优于no-index和random-index
解决方案：将索引推荐问题转化为一个细粒度的多分类问题，输入是数据和工作负载，输出是索引类型。设计了分层抽样来减少数据的规模，将数据编码为向量，设计了多核卷积神经网络来更加细致地提取数据的特征
结果：使用两组同分布的数据集和工作负载对模型进行了测试，实验结果表明基于细粒度卷积神经网络的方法能够正确捕捉到数据的特征，高效推荐出索引。

基于Seq2Seq模型的SparQL查询预测

目的：实现高效、跨数据源可用的SPARQL查询预测
效果：利用序列模型进行查询预测，有效提高了查询的缓存命中率
解决方案：以信息完备性、还原性、泛化能力为原则，将三元组视为整体，查询视为一个序列，以位置信息表达三元组，对三元组使用等价类划分。使用seq2seq的模型进行序列预测，加入注意力机制对不同时刻的输入添加相应权重，使用集束搜索降低单个时间步预测出错造成的误差

结果：在USEWOD2016数据集上，研究了历史查询个数、训练数据量、注意力机制、集束搜索对预测性能的影响，最后发现在使用注意力机制的情况下，当历史查询个数取3个时预测性能最好，平均缓存百分比可以达到80%。

基于强化学习的RDF图数据分表存储方法（Efficient RDF Graph Storage based on Reinforcement Learning）

目的：进一步优化大规模RDF图数据的关系数据库存储性能
效果：智能体推荐的存储结构虽然牺牲了一部分空间代价，但是时间开销比现有的基于关系表存储系统大大缩短
解决方案：将强化学习的优化问题转换为马尔科夫决策过程（MDP），结合RDF数据的存储执行过程，定义了MDP的五元组（状态、动作、策略、立即奖励、累积奖励），提出了基于强化学习方法的存储方案。提出了一个将状态、动作特征化的方法，进行数据特征提取，使得不同的表存储状态能够转换为固定长度的向量，便于强化学习算法的处理。提出了基于优先级的查询重写策略，使得立即奖励的计算更加精准，同时也提高了在存储过程中的查询效率。

APRIL：基于强化学习的图自动管理 (An Automatic Graph Data Management System Based on Reinforcement Learning)

基于机器学习的文档自动管理

目的：实现文档数据的自动化管理，毫无经验的用户也可以高效管理数据
效果：首次提出了文档数据的自动管理系统，该系统可以自动高效地进行文档数据的管理
解决方案：设计基于机器学习的自动存储方案，实现存储结构的自动选择；设计了基于多核卷积神经网络的自动化索引选择方案
结果：系统非常用户友好地实现了自动化地解析json格式的文档以及工作负载，然后针对该数据集合工作负载推荐最佳的存储方案，继而在该存储方案的基础上给出高效的索引配置

基于系学习代价的存储结构自动选择系统

目的：解决对多引擎数据库下存储引擎的选择问题以及对工作负载的数据布局选择问题
效果：相较于现有技术，可以实现存储结构的充分使用，大大提高工作负载执行效率
解决方案：设计基准测试，对不同存储引擎收集性能数据，并针对不同存储引擎建立性能模型。提出层次聚类技术，判断一个表中不同列间的关联性，并得到列族推荐结果。使用先前得到的性能模型，计算当前负载在不同存储设计下的代价并进行推荐。
结果：经过四种工作负载（事务型、多事务少分析型、多分析少事务型、分析型）下的测试，我们发现同时推荐数据布局和存储引擎能获得最优的性能；并且数据分区上的工作负载越典型，则得到的存储结构性能越好。

Learned Sketches for Frequency Estimation

LAQP: Learning-based approximate query processing

智能数据库事务并发控制算法

目的：突破缓解悲观并发控制算法和乐观并发控制算法的性能瓶颈
效果：利用人工智能技术解决了高冲突型工作负载的并发控制，性能明显优于两种传统算法
解决方案：提出了事务聚类这一新概念以及高效的实现算法，便于有效快速地选择事务之间最佳的隔离方式。提出了基于聚类的并发控制算法，能有效缓解乐观和悲观两种并发控制算法的性能瓶颈。基于马尔科夫模型的事务工作集预测算法用于事务聚类，不同工作负载下预测准确率均在90%以上。