
第
46
卷
第
6A
期
2019
年
6
月
计 算 机 科 学
COMPUTER SCIENCE
Vol.46No.6A
June2019
陆叶杉
(
1992-
),
女
,
硕士生
,
工程师
,
主要研究方向为网络信息安全技术
,
EGmail
:
2797683890@
qq
.com
(
通信作者
).
系统数据迁移常见问题及案例分析
陆叶杉
(
广西大学计算机与电子信息学院
南宁
530001
)
摘
要
社会发展日趋进步
,
技术框架日新月异
,
日常系统以 新换旧 已 经成为 趋 势
,
新系统 代 替旧系 统 势必会 涉 及 到
新旧系统的数据对接问题
.
在某市某组织的系统建设中
,
项目需 要 将旧系 统 的所有 业 务数据 迁 移到新 系 统
.
由 于 新
旧系统使用的表空间
、
表结构及表字段都不一致
,
为了保证数据的一致性与完整性
、
迁移前后的数据没有漏误
、
不迁入
脏数据来影响新系统的运行
,
在项目中如何在新旧系统之间 进 行数据 迁 移成为 了 重要课 题
.
为了解 决 数据迁 移 的 问
题
,
文中设计了一套基于
ETL
工具的数据迁移流程
,
并通过组合和串联得到了完整的数据迁移流程线
,
从而实 现 了数
据迁移
,
完成了新旧系统的数据对接
.
文中阐述了以下几个数据在迁移中出现的问题及其解决方法
:
1
)
数据流 转 中出
现的常见错误及解决方法
;
2
)
数据类型不一致的数据迁移问题及解决方法
;
3
)
数据迁移目标数据库字段长度不 一致的
问题及解决方法
;
4
)
数据迁移完成后
,
原数据出现新变动将 如 何重新 调 整迁移 测 量的问 题 及解决 方 法
.
基 于 此
,
文 中
对数据迁移过程中出现的问题与解决这些问题的方法进行了简要的分析与总结
.
关键词
数据迁移
,
ETL
工具
,
SQL
语句
,
数据流转
中图法分类号
TP311
文献标识码
A
CommonIssuesandCaseAnal
y
sisofS
y
stem DataMi
g
ration
LU YeGshan
(
SchoolofCom
p
uterandElectronicInformation
,
Guan
g
xiUniversit
y
,
Nannin
g
530001
,
China
)
Abstract Withthedevelo
p
mentofsociet
y
andthera
p
idchan
g
eoftechnicalframework
,
ithasbecomeatrendforthe
dail
y
s
y
stemtore
p
lacetheolds
y
stemwiththenewone.There
p
lacementoftheolds
y
stemwiththenews
y
stemwillinG
evitabl
y
involvethedatadockin
g
betweentheolds
y
stemandthenews
y
stem.Inthes
y
stemconstructionofanor
g
anizaG
tioninacit
y
,
the
p
ro
j
ectneedstomi
g
rateallbusinessdataoftheolds
y
stemtothenews
y
stem.DuetotheinconsistenG
c
y
oftables
p
ace
,
tablestructureandtablefieldbetweentheoldandnews
y
stems
,
inordertoensuretheconsistenc
y
and
inte
g
rit
y
ofdata
,
ensurethatdatabeforeandaftermi
g
rationisnotmissin
g
,
andensurethatdirt
y
datadoesnotmi
g
rate
toaffecttheo
p
erationofthenews
y
stem
,
howtomi
g
ratedatabetweentheoldandnews
y
stemshasbecomeato
pp
riorG
it
y
inthe
p
ro
j
ect.Inordertosolvethe
p
roblemofdatami
g
ration
,
this
p
a
p
erdesi
g
nsadatami
g
ration
p
rocessbasedon
ETLtools
,
andobtainsacom
p
letedatami
g
ration
p
rocesslinethrou
g
hcombinationandseriesconnection
,
thusrealizin
g
datami
g
rationtocom
p
letedatadockin
g
betweenoldandnews
y
stems.This
p
a
p
erelaboratesthefollowin
gp
roblems
andsolutionsfordatami
g
ration
:
1
)
Commonerrorsandsolutionsindataflow.2
)
Datami
g
ration
p
roblemsandsolutions
withinconsistentdatat
yp
es.3
)
Inconsistentlen
g
thoffieldintar
g
etdatabaseofdatami
g
rationandsolutions.4
)
Howto
reGchan
g
etheori
g
inaldatawhendatami
g
rationiscom
p
letedProblemsandsolutionsofad
j
ustin
g
mi
g
ration measureG
ment.Basedonthis
,
this
p
a
p
ermakesabriefanal
y
sisandsummar
y
ofthe
p
roblemsinthe
p
rocessofdatami
g
rationand
thecountermeasurestosolvethese
p
roblems.
Ke
y
words Datami
g
ration
,
ETLtools
,
SQLstatement
,
Datatransfer
近年来
,
随着计算机行业的兴起
,
以及信息化时代计算机
的普及
,
现代生活中出现了许多方便人们工作生活的系统
,
计
算机软件的更新速度也发生着急剧变化
.
数据的产生方式 多
样
,
数据规模呈膨胀式发展
[
1
]
.
软件系统更新换代
,
基础 数据
不可 避 免地需 要 进行数 据 迁移
,
在数据 迁 移过程 中 为了确 保
系统 间 的数据 一 致
,
除了保 证 数据的 总 数一致 外 还需要 保 证
数据字段一致
、
日期格式一致
、
基本类型一致等
.
由于系 统 中
的数 据 是实时 变 更的
,
在进行 数 据迁移 时 必然会 遇 到因原 始
数据变化使得迁移后数据受到影响的问题
.
大多数的新旧系统都存在平台不同
、
数据源异构等问 题
,
当前 环 境下数 据 产生和 存 储方式 的 变化
,
加剧了 数 据不一 致
的程 度
[
2
]
,
为 了 解 决 系 统 中 的 数 据 问 题
,
ETL
应 运 而 生
.
ETL
是数 据 抽 取
、
转 换
、
装 载
(
Extract
,
Transform
,
Loadin
g
)
的英文简称
,
使用此种方法对分散的数据进行处理
,
是将原 操
作原数据迁移 到 新 数 据 库 中 时 必 不 可 少 的 操 作
.
ETL
的 抽
取可 看 作是数 据 的输入 过 程
,
其主要 用 于解决 数 据源异 构 问
题
.
数据加载是 一 个 数 据 的 输 出 过 程
[
3
]
.
ETL
的 数 据 处 理
效率的高低
、
转换质量的好坏
,
直接影响着数据的建设和数据
结果的有效性
[
4
]
.
通过 系 列 的 操 作 对 原 系 统 中 存 在 的 错 误
、
缺失
、
冗余数据进行监测后加以改正
,
再以目标数据的规则进
行合并
、
转换的操作
,
使得数据具有良好的正确性
、
完整 性
、
一
致性和可用性
[
5
]
.
ETL
在数据迁移中的主要流转过程如图
1
所示
.
评论