
陈品山(Peter Chen),中国台湾人,创立实体联系模型(ER模型),IEEE、AAAS以及 ACM 会士。 1968年陈品山于国立台湾大学毕业,之后赴美深造。 1970年获哈佛大学计算机科学和应用数学硕士学位, 1973年获哈佛大学计算机科学和应用数学博士学位。之后,他曾先后在麻省理工学院( 1974~ 1978, 1986~ 1987),加州大学洛杉矶分校( 1978~ 1984),哈佛大学(1990~ 1991)等学府从事教学和研究,从 1983年至今任路易斯安纳州立大学计算机科学系杰出讲座教授。此外,陈品山博士还曾在 IBM(6/1970-8/1970), Honeywell(6/1973-5/1974),Dec(6/1974-8/1974),以及其他政府机构从事研究和顾问。陈品山博士于 1976年 3月 ACM Transactions on Database Systems上发表了 “TheEntity-Relationship Model--Toward a Unified View of Data”一文。由于实体联系模型得到广泛的应用,这篇文章成为计算机科学 38篇被广泛引用的论文之一,而他也被誉为全世界最具计算机软件开发技术的 16位科学家之一。此外,他还曾荣获 IEEE Harry Goode奖(2003),ACM/AAAI Alan Newell 奖(2003),DAMA国际成就奖( 2000),以及 Stevens 软件方法创新奖(2001)。
本专访主要介绍了陈品山的成功之路,实体关系(ER)模型的起源及其在软件工程中的应用,ER数据库的应用需求以及更多精彩内容。
问:欢迎来到本期 ACM SIGMOD Record数据库领域杰出人物访谈。我是问,现在我们在圣迭戈,SIGMOD&PODS 2003的主会场。坐在我身边的这位是陈品山( Peter Chen),他是路易斯安那州立大学计算机科学系的 Murphy J. Foster教授。陈品山以提出实体关系模型著称。该模型已被广泛用于企业数据建模。在 1976年 TODS上,他发表的关于 ER模型论文已成为计算机科学引用率最高的文章之一,被大多数大学教授评为最有影响力的论文。此外,他还曾荣获 IEEE Harry Goode奖,ACM/AAAIAlan Newell奖,DAMA国际成就奖,以及 Stevens软件方法创新奖。目前他还是IEEE、AAAS以及 ACM会士。他在哈佛大学获得博士学位。欢迎陈品山的到来。
陈品山:谢谢!
问:众所周知,彼得,您是一位著名数据库专家,但是您的职业生涯与我以前采访的其他数据库专家有很大不同。您发现了一条不用写太多论文的成功之路!您是如何取得如此巨大的成功?换句话说,什么使得您那么出名,那么受人尊敬?
陈品山:正如你刚才提到的,出名有很多不同方式。或者你写了非常多的论文;或者你只写几篇论文,但是每篇都有很大影响力。但我认为关键在于你是否解决了一个真实的问题,一个人们非常关注的问题。非常幸运,我不只解决了一个这样的问题。
问:很多年轻人想要搞清楚什么才算是有研究价值的大问题,您能给他们提些建议吗?
陈品山:我认为大多数人看世界和看问题的角度是不同的。但有时由于一些外部影响,他们不能坚持自己的看法。因此,我建议这些年青学者一旦工作确定或者开始任职,他们就应该花更多精力到自己关注的问题上,走自己的路。不仅因为他们应该相信自己,还因为他们应该遵从他们的直觉和信仰。坚定你的信念,并为之奋斗不已。
问:为什么 ER模型一直那么受欢迎?
陈品山:我认为是因为很多人不知道怎么设计数据库和怎么组织数据, ER模型恰好为他们提供了一种很自然的组织信息方法。实体和关系的概念是现实世界中最基本的概念。在你看世界的时候,你看到了什么?在这个采访的房间中,我们看到一台摄影机,我们看到人,我们看到几张椅子,是不是?你坐在一张椅子上,我们一同面对一台摄影机。这就是你、我、椅子、摄像机之间的物理关系。同时,在这个特定的时间,我们都在同一个房间。这就是我们的时空关系。所以,实体和关系是一种自然的组织事物和信息的方式。
问:关于数据库研究,我们应该关注什么问题?
陈品山:将来图形数据库会代替现在的文本型数据库,该数据库无论是用户接口还是内在结构都是基于图形的。
问:您认为下一代自然的数据库图形接口会是什么样子?至今我还没有看到关于图形接口的正式设计准则。
陈品山:可能不需要用键盘输入文字,而是用个性化的图标作为输入。也就是说,你可以用一个图标代表一个人,不同的小图标代表不同的个体。这些就是图形接口;同样在底层,也以同样的方式表示数据。
问:让我们谈谈在 ER概念之下的概念。 ER图这个概念背后是什么语言概念?
陈品山: ER概念与英语以及其他自然语言的结构非常吻合。名词常常对应于 ER模型中的实体,动词对应于关系。另外,英语还有形容词和副词。形容词对应于 ER模型中实体的属性。副词对应于关系的属性。由此可见,它们之间存在一个非常紧密的一一对应关系。
问:ER模型与古埃及象形文也有关系吗?
陈品山:是的,这就是我在过去的几年中花了很多时间看古埃及文的原因。实际上,我大概已经看了 20本用古埃及文写的书。
问:哇 !
陈品山:我或许应该开一门古埃及语课程。实际上,埃及还发明了好几种类似于汉字的象形文字来表示现实世界。他们用不同的符号表示世界上不同的事物和事件,以及不同实体之间的关系。非常有趣的是古埃及语和汉语有许多概念十分相似。有些文字,像“太阳”和“水”,是完全相同的符号。相隔千里的人们,思考的方式竟完全相同,这一点非常有趣。与 ER模型相似,两种语言不仅有塑造真实世界的规则,还有合并规则。所以你可以合并两个概念成为一个新概念。
问:我听说有些中国方言是世界上最难学的语言,他们与 ER模型也有关系吗?
陈品山:就发音来说,汉语可能是最难学的语言之一。
问:那么书面语呢?
陈品山:我的意思是,当你看到文字时,你不知道如何发音。但是有一些简单的规则帮助人们记住 5万个单词,这与 ER模型十分吻合。例如,有一些关于如何合并多个事物以及多个不同类型概念的规则。这些规则经常被用于信息技术领域中,在汉语中也是普遍存在的。
问:将来有没有可能采用其他的语言概念来改进现在的概念建模技术?
陈品山:非常有可能。我一直都在研究这些可用的概念,因为我相信一种成功的信息建模技术必须与人类的思考方式十分吻合。语言概念已经用了这么多年,也许当中有一些概念可以借鉴。
问:关系模型直到现在都这么受欢迎。对于人们来说,表是一种很普遍存在的结构吗?这是不是关系数据库取得如此成功的原因?
陈品山:是的。表是一种很普遍存在的概念。在很多地方可以看到表,你会看到很多诸如电子表格的矩阵。
问:古埃及文也用表吗?有见过吗?
陈品山:至今还没有发现。但是我所说的表只是其中一种普遍存在的结构,并不是唯一的结构。关系模型为我们提供了一种特别的数据模型,但是我们也需要考虑一下其它形式。
问:其它形式是指到现在还一直在研究的面向对象模型或其他模型吗?
陈品山:面向对象模型是一种不同于表的数据结构形式。但是,我认为实际上 ER模型是在面向对象模型和关系模型之上的,因为 ER模型更面向概念。而面向对象模型和关系模型更面向实现。所以在这两种模型之间做选择,就相当于在两种不同的实现方式之间做选择。
问:现在在概念建模领域有哪些最主要的开放性问题?
陈品山:有很多很多问题。这就是我们每年都要开概念建模年会的原因。其中一个开放性问题就是寻找一种以最自然的方式表示信息或数据结构的方法。是二元的还是多元的?是有向关系还是无向关系?哪一种结构依赖于语言,哪一种结构依赖于语言学,哪一种结构依赖于文化?也许有一种结构对于讲英语的人们来说是自然的,但对于其他人并非如此。如果我们在外太空发现生命体,他们与我们的思考方式可能大不相同。
问:我确信非常有可能。以前有人提议在软件工程中使用 ER模型。现在已经开始使用了,还是仍处在研究阶段?
陈品山:有很多人已经开始在软件工程中使用 ER模型。结果发现,在实际应用开发的过程中,最常使用的两个图就是 ER图和数据流图。所以,在设计大型系统时,ER模型已经成为一种标准技术。
问:您对像 UML这样的新型建模语言有什么看法?
陈品山: UML模型在很多方面都表现不俗,但是它也有一定的局限性。优点是它能帮助实现 ER概念,使得面向对象的程序员将精力投入到概念建模本身的重点上。我个人认为 UML是一种语言,一种图约束。它可以帮助建立 ER概念模型,但是它不能代替 ER模型。认清楚这一点很重要,因为我认为 UML像其他高级语言(如 ALGOL、PL/1、FORTRAN等)一样。这些语言中每一种都有控制结构、数据结构、部署等概念。几乎每一种编程语言都有这些东西。同样,UML是一种以面向对象的方式实现核心 ER概念的语言,但是不论现在还是将来它都不会是实现 ER概念的唯一语言。简而言之, ER 概念是最基本的概念建模准则。几千年以来它一直伴随着我们,乃至几十年以后它还将伴随我们。
问:ER方法如何帮助 XML数据建模?
陈品山: XML基本上是一种树形结构语言。我想 XML社区了解社会需要更灵活的结构,所以他们致力于开发新的模型来满足这些需求。我曾经受 W3C XML schema工作组和 Xlink工作组的邀请,以受邀专家的身份与这些工作组做过交流。如 Xlink工作组,他们正在致力开发一种链接结构更加复杂的超链接。我们可以把一个超链接到更复杂结构的扩展看作关系概念从低级关系到高级关系的演变。这与操作系统中物理地址到逻辑地址的演变过程很相似。这也是从两点链接到多点链接的演变。
问:所以,这与从 M到 N超链接很相似,但又有新特性吧?
陈品山:完全正确。
问:在过去 25年中,ER会议对社会产生了哪些重大影响?
陈品山:首先,它为人们提供了一个交流和提出新想法的好场所。同时它还建立了一个新的研究领域。提供了一个让各种各样的人齐聚一堂的机会。参会者不仅仅是来自数据库领域的,还有来自其他领域(如信息管理系统、软件工程、人工智能以及信息检索领域)。有时,人们会讨论 ER模型在音乐制作和组织设计中的应用。所以, ER会议还提供了一个打破常规的途径。事实证明,ER会议还促使概念建模领域成为一个倍受瞩目的研究领域。
问:ER建模对系统交互有帮助吗?
陈品山:我们已经开发了非常多的系统,但是大多数系统之间不能交互。这有很多原因,最重要的原因是它们的数据结构互不兼容。我们今天所拥有的系统就像是相互孤立的小岛,而我们真正需要做的事是在小岛间建桥。为了这个目的,我们需要发现它们之间隐藏的实体关系结构。有时候这些结构被隐藏,有时是暗含其中。因此,多数情况需要数据挖掘技术发现实体间蕴含的关系。
问:如何把结构建模扩展为功能建模?
陈品山:首先确定结构,接着在这个结构上加入功能,也就是操作部分。在工业界,人们通常分开做这两件事。在一个组里完成数据和信息建模,在另一个组里完成功能建模。这些模型可能互不兼容,这些建模的人也是不同的。我想在将来这两类建模都会由同一组人用相同的技术完成。这样我们就可以有一个既考虑数据因素又考虑功能因素的模型。
问:结构设计师会使用像 ER这样的方法吗?
陈品山:他们现在就在使用。在设计结构时使用 ER或类 ER技术,在设计功能时则使用不同的技术。
问:在功能方面,人们现在使用什么类型的技术?
陈品山:现在人们使用数据流图、状态转移图或其他技术。我建议将来在 ER概念基础上增加一些东西使其成为统一的建模技术。到那时,我们会拥有一种可以同时完成结构建模和功能建模的技术。
问:好吧,那就叫实体关系功能模型。
陈品山:好,你已经有了名字。
问:好的,那您必须要写文章了!
陈品山:没问题。
问:我记得 20世纪 90年代施乐帕洛阿尔托研究中心曾经用过一个基于 ER模型的数据库管理系统。既然ER模型那么流行,那为什么ER数据库系统没有流行起来呢?
陈品山:首先要明白其中涉及到技术、政治、经济问题。主要原因是时机不对。过去人们有正确的技术思路,但是当时时机不对。在经济上,主要的问题是大量投资都集中在某些相对成熟的技术上。 25年前,在 IMS层次数据库技术上投入了大量的资金。你可能听说过 Ted Codd 博士说服 IBM高层实现关系技术是多么困难。他曾经对 IBM高层特别失望,言辞激烈。现在关系数据库系统技术成为主流技术,工业界对它的兴趣比起 25年前大太多。所以,由于外界的压力以及惰性,引入一种新的高端技术很困难。这也是面向对象数据库管理系统所面临的一部分问题。学术界讨论过很多有关数据库管理系统的问题,而商业界由于在关系技术投入很大对此毫无兴趣。但是,我认为时机在变; ER型数据库管理系统的时代就快到来。我想 10年后,你就会看到许多相关研究、原型系统甚至是商用系统。
问: ER数据库管理系统和对象关系数据库系统有什么不同?
陈品山:对象关系数据库系统只与对象相关。那么,什么是对象?只看“对象”这个词本身,它基本上是一个很抽象的概念;但是一旦它被实例化,它就是函数以及变量的一个封装。因为使用这个概念方式很特殊,所以有些函数难以理解。例如,在面向对象的系统中如何实现 2+2? 你需要发送一个 “+2”的消息。
问:这看起来有些难以理解,是不是?
陈品山:是的,很难懂。有些东西是不能用面向对象的方式很自然地表达出来。因此,会引起一些问题。从 25年前直到现在,我的观点一直都是要以一种自然的方式做事情。任何不自然的东西都很难实现以及被工业界和公众所接受。
问:所以,现在面向对象数据库仍不够自然?
陈品山:对,但是,我认为与对象关系数据库管理系统相比,面向对象数据库管理系统更加不自然。比起面向对象数据库,对象关系数据库更有市场价值。如果一个对象关系数据库能够避免不自然的特性,就没有什么可挑剔的了。
问:您认为 ER数据库将会在哪些应用领域中得到认可?
陈品山: ER数据库将会应用到那些高层与概念很吻合的应用领域。例如,假设我们要发现恐怖主义者。谁可能会是恐怖分子?你可能知道是否有人买了化肥;是否有人把钱转移到其他地方;这些都是复杂关系。为了给你提出的高级问题(如“谁是恐怖分子”)提供一些可能的答案,系统会提出一些问题。这类查询用 ER系统完成会非常自然。
问:为什们说这比用纯关系系统更容易?
陈品山:在纯关系系统中,连接关系不太明显。同时,数据是分散的,你不知道什么和什么相对应。有时你会对应错。假设你知道人名和船名,但是放到一起可能会建立错误的连接。在 ER系统中不存在这样的问题。你不会建立错误的连接。虽然我们有那么多信息,但没有时间关心是否存在不正确的关系。我们不能额外花时间去找到不正确的连接和不相关的数据类型。
问:刚才您对辨识恐怖分子的技术很感兴趣。那么您对美国政府的国家信息意识工程所引发的隐私问题有什么看法?
陈品山:安全和隐私存在一种平衡,我们会发现我们身处一个奇怪的世界。例如,我住在路易斯安那州,在那有许多全国都关注的问题,诸如连环杀手、连环狙击手等。
问:哇。我提议以后到新奥尔良举办 SIGMOD会议吧。
陈品山:好呀,将来我们会在那里举办的。在过去的一年里,在路易斯安那州巴吞鲁日市发生了许多大事件。以前美国有线电视网或者今日美国会说“路易斯安那州,巴吞鲁日”,现在他们会去掉州名。因为现在巴吞鲁日出了名。如果我们有监测集成大量数据的能力,我们就会很快找到连环杀人犯。但是事实上我们并没有这种能力,因此浪费警察大量的时间和精力,还使得许多人死于非命。据说几周前警察利用 DNA抓到一名嫌疑犯。以前我曾经提议过建立一个 DNA银行。但是,这是一个很敏感的政治问题,和你刚才所说的隐私和安全的问题直接相关。
所幸,我们不必使用任何引起争议的技术。因为,至今为止还没有开始全面推广这些合法可用的技术。例如,很多 911恐怖分子都有像违规驾驶之类的犯罪记录;其中一个罪犯在案发前两天曾被马里兰的警察拘留过。但是警察不知道他就是 CIA监控的对象,因此释放了他。另一个著名的 911恐怖分子阿塔( Atta)也曾在佛罗里达被拘留过,还被通缉了,但是警察并不知道这些。这些情况都不存在隐私问题;所有信息都是公开的。主要问题是这些数据之间没有关联,没有建立起它们之间的关系,也许对全局把握不足。这使我们更加意识到利用可获得的数据,将数据关联起来,以及利用现有技术进行推导的重要性。当然在做这些事的时候,我们应该遵从法律,我想这不会引发隐私问题。
问:假设您现在有充足的时间可以做另一项您没做过的研究,那么您想研究什么?
陈品山:我想做广义实体关系模型理论研究,使得它更加复杂,可以应用到更多的应用领域。数据和结构可能有多层,有不同的代数操作符。正如我们之前讨论过的,集成功能建模和数据建模对 ER模型而言会是一个不错的发展方向。我们不仅有数学部分还有图形接口,这对于模式设计师以及终端用户都会有很大帮助。
我还想将 ER模型概念扩展到其他领域。不仅仅是信息技术领域,还有
其他地方,像人际关系。你是如何管理你的人际关系的?在商界叫做客户关系管理。一旦人们开始关心并好好了解人与人之间的关系,那么他们会更好处理人际关系,他们会互相感激,他们之间的关系会更紧密。当你开始研究一个理论时,你会希望把这个理论应用到许多不同的领域当中。当你在不同的应用领域中做调查时,你会得到许多反馈,这对你改善你的理论结构以及其他事情会很有帮助。过去我一直从事 WebDB的研究。听说乔·赫勒斯坦(Joe Hellerstein)讨论过不同领域中结构挖掘的问题。这正是我想采用的方法,我想其他人也想这么做。云深不知处,只缘身在此山中。有时候跳出来看问题会更清晰,现在我们太关注数据处理了。看看其他领域,你可能会找
到一个可以用到概念建模的功能建模中的新的方法。这些就是我想做的。
问:作为一名计算机科学家,假设您可以改变一件发生在您身上的事,您想改变什么?
陈品山:没有!我不想改变任何事,因为我一直都非常幸运,非常幸福,上天赐予我很多好机会。有时我会想我真是太幸运了! 2000年我在盐湖城的 ER会议上见到了菲尔·伯恩斯坦(Phil Bernstein)。他说“发现 ER概念是一生一次的机遇”。我非常同意。我只是在正确时间,正确的地点,提出正确的想法。可能在将来也不会发生,只是在当时那个时刻碰巧发生了。对于我而言,这是非常幸运的,非常幸福的,给了我好多机会。所以我不想改变任何事。我非常感激上天赋予我的一切,我非常高兴能有机会为促进技术发展做出贡献。
问:非常感谢。
陈品山:谢谢。




