数据库与数据挖掘协会周刊第8期

时空实验室 2024-10-16

Academic Push

ImputeFormer: Low Rankness-Induced Transformers for Generalizable Spatiotemporal Imputation

链接：https://dl.acm.org/doi/pdf/10.1145/3637528.3671751

作者：Tong Nie, Guoyang Qing, Wei Ma, Yuewen Mei, Jian Sun.

简介：缺失数据是检测系统中的一个常见挑战，尤其是在高分辨率监控系统中。恶劣天气、能源供应和传感器服务时间等因素可能会对监控数据的质量产生不利影响。由于这些因素，数据的缺失率可能相当高。例如，在城市空气项目（Urban Air Project）中的空气质量测量数据，由于站点故障，大约有30%的记录是无效的。已经有大量研究贡献了数据驱动的方法，尤其是在时空数据领域。一般来说，缺失数据填充有两种范式。第一种使用低秩和低维度的分析模型利用假设结构的代数属性来填充缺失值。第二种范式使用基于深度学习的模型，通过学习数据生成过程，表现出改进的性能。随着近期深度填充模型从RNN和扩散模型向Transformer模型的转变，基于Transformer的架构由于其提供高效生成输出和高度表达能力的潜力而引起了极大的关注。然而，Transformer在一般数据填充任务中的有效性还需要进一步研究。深度学习模型，特别是Transformer，擅长学习数据特征，但缺乏数据生成的先验知识。随着对通用且适应性强的填充模型的需求增加，如跨领域数据集、不同的观测条件、高度稀疏的测量值和不同的输入模式，现有的高级解决方案（通常仅在简单设置的有限任务上进行评估）可能无法广泛适用。因此，有一种趋势是将这两种范式的优势结合起来，探索一种能够有效处理复杂填充场景的替代范式。为此，本文利用低秩结构先验知识来推广Transformer在通用时空填充任务中的应用。本文提出的Imputation Transformers（ImputeFormer）通过在时间维度上引入投影注意力和在空间维度上引入嵌入注意力，实现了等效的注意力分解。此外，本文还提出了一种傅里叶稀疏性损失来正则化解决方案的频谱。通过继承低秩模型和深度学习模型的优点，ImputeFormer在多个基准测试中取得了最先进的性能。本文将低秩归纳偏置引入Transformer的研究之一，从而实现了信号与噪声之间的平衡，用于通用的时空数据填充。

Contest Info

2024年全国大学生计算机系统能力大赛OceanBase数据库大赛即将结束报名，感兴趣的同学请踊跃报名，相关信息与报名入口请见以下网页。

相关信息：https://os.educg.net/#/index?TYPE=OB

Wiki

主键

在关系型数据库中，主键是用于唯一标识表中每一行记录的一个或多个字段的组合。主键具有以下特性：

1.唯一性：表中的每一行数据必须有唯一的主键值，不能重复，这保证了每一条记录的可区分性。

2.非空性：主键字段不能包含空值，确保每一条记录都能通过主键被唯一标识。

3.稳定性：主键的值应该尽量不变化，因为它用于记录的唯一标识。

主键可以是单一字段，也可以是多个字段的组合（称为复合主键）。在数据库设计中，主键的选择是至关重要的，因为它不仅影响数据的完整性，还影响索引和查询的效率。

主键在数据库中通常与外键一起使用，用于实现表与表之间的关系。在设计表时，数据库管理系统通常会自动为主键创建索引，以加快基于主键的查询速度。

Question

上期链接：数据库与数据挖掘协会周刊第7期

上期答案：A) 水平分区

数据库分区主要有两种类型：水平分区和垂直分区。

水平分区：是指将一张表的行（记录）分成多个部分，每一部分称为一个分区。水平分区适合数据量大的场景，可以通过将不同的记录分散到不同的分区来减少单个分区的负载。根据策略可以划分为：

基于范围分区：将数据按照范围（如日期、数字范围）进行分区。

基于列表分区：将数据按照预定义的列表值进行分区。

基于哈希分区：将数据根据哈希函数值进行分区，确保数据在分区中均匀分布。

轮转分区：按照固定规则将数据均匀地分散到不同的分区中。

垂直分区：是指将一张表的列分成多个部分，每个部分放入不同的分区中。这种方法常用于将经常访问的数据列与不常访问的数据列分开，以提高访问性能。根据策略可以划分为：

基于功能分区：根据业务功能将表分成多个区域，每个区域包含相应的列。

基于访问权限分区：根据用户的访问权限将表分成多个区域。

数据库与数据挖掘协会（DataBase & DataMining Association，简称DBDMA）一个致力于促进重庆大学数据库和数据挖掘领域发展的学生社团，我们的目标是让世界了解重大数据库，让重大数据库走向世界！

文字：DBDMA-尚游

编辑：DBDMA-王伟俨

校对：DBDMA-王伟俨

大数据数据库分区数据库主键数据挖掘数据库

文章转载自时空实验室，如果涉嫌侵权，请发送邮件至：contact@modb.pro进行举报，并提供相关证据，一经查实，墨天轮将立刻删除相关内容。

数据库与数据挖掘协会周刊第8期

Academic Push

Wiki

Question

评论