|
上海卫生局信息中心副主任谢维:云计算和健康云
5月25日消息,由中国电子信息产业发展研究院主办,中国经济和信息化杂志社承办的《智能交通与“医疗云”》现场会于今日在成都举行。上海市卫生局信息中心副主任谢维在大会做了重要致辞。以下是文字实录:
5月25日消息,由中国电子信息产业发展研究院主办,中国经济和信息化杂志社承办的《智能交通与“医疗云”》现场会于今日在成都举行。上海市卫生局信息中心副主任谢维在大会做了重要致辞。以下是文字实录: 谢维:感谢主办方邀请,也感谢主持人介绍。我介绍的题目是云计算和健康云,我起这个名字也花了很多脑筋,觉得也很困惑。因为主题是医疗,但是我们把这个作为一个事业来做,叫做医疗卫生服务业,更倾向于叫健康业,移动是一种手段,不管什么手段下,都要形成一个模式。在做这个PPT之前我也很纠结,第一稿的题目是健康云和BIG DATA,因为行业不太一样,大家对云的了解不太一致,我上去就把区域健康云讲得头头是道的话,大家对基础理念都不同的话,很难形成共识。所以想来想去要回头想一下。我讲的有两个理念。一个是云计算,一个是健康云。 首先什么是云计算,怎么做云计算,为什么用云计算。健康云同样的道理,为什么用云,怎么用云这几个框架。在介绍云计算的时候,我相信大家都听过这个词,非常热。今天很高兴听到一个,云计算的版块大涨,逆势而涨。不管怎么样,大家对云计算的理解不太一致,在讲这个之前,我有三个问题提给大家,希望我讲完之后,大家对这三个问题有很好的回答。第一个问题是虚拟化是云计算吗?第二个,终端应用是云计算吗?第三,云和云计算是一回事吗? 第一个,大量虚拟化的东西在说,好像给我的感觉是你做云计算不做虚拟化是瞎扯。第二,终端应用的云计算,医疗行业最常用的应用,信息化方案中,基层卫生信息化建设,我们底下老早就有云了,你看在社区卫生服务中心有一台服务器,我装一个端就能用吗?你搞来搞去搞什么啊。第三个,就是大家慢慢想的问题。我们还是回到整个主题来,什么是云计算。 我用一个概念来解释现在的现状。云计算出现的概念很早,今天上午陈主任,也是工信部的专家博士,他也是这个概念,我比较同意他的概念,整体来说还是从云里雾里到人云亦云。我自己都觉得很困惑,我自己搞云计算搞了三四年了,我自己也挺糊涂,非常需要大家来清晰梳理到底什么是云计算。讲云计算,首先要讲云计算的故事和历史,没有这段历史来看,大家很难理解突然云计算就冒了出来。这个故事是1997年,就是GOOGLE的两个创始人,这个概念是GOOGLE提出来的,之前都是网格计算、分布计算等等。他们读博士生二年级的时候,大家对网上检索顺序很是不满意,当时的方法是出去的词汇、累计数多就排在前面,比如奥运会,我写篇文章,一百个奥运会词,我的排名一定排在第一。这显然不符合需求的要求。他们俩当时和他的导师说,我现在想做一个东西,来实现对所有世界上的网站进行快速检索和排序,97年的英特网,虽然已经有了,但不是那么发达,他的老师说,算了吧,这个命题太大了,你先在斯坦福里面先做掉吧。他说肯定要花很多钱,要买庞大的网络教学社会,这两个穷学生说,我们不用,我们用一台普通的PC把这件事儿干成。一年后他们干成了这件事情斯坦福大学里面全部完成了。他们就问EMC的老板,进一步发展,把美国所有网页都接下来,进一步发展上市了,目前我们知道GOOGEL的主机数在几千万台。怎么理解这个概念?下面继续讲。讲到云,肯定要看一下这个图,我们叫做GOOGLE盒子。核心是什么?我用一千台普通的PC,代替一台大的机器,效率还要高。集装箱里面插一千片,一个集装箱一个集装箱堆叠起来。再回顾来说,云当时产生的主要原因是什么呢?主要是数据海量爆炸。要求我们大存储和大数据处置能力非常高的。所以要实现这个目的,我们传统的技术路线,如果大家是IT业内人士的话,一定要知道传统的技术路线是什么呢?一定说OK我要干一件事情,要部署我的环境,环境怎么建呢,要买台服务器,然后要网络交换设备,然后要买存储,一定是这样搭建,这是传统的概念。随着数据量增大,数据计算量增大,一台机器不够,买台小型机,小型机不够大型机。显然每一个社会人,对数据的要求,对计算的要求越来越多,这样的方式该怎么解决?我们不可能每个人都碰到大型机这样的东西,投资是非常贵的,并且运维成本非常贵。一定要用别的方式解决大存储、大计算。包括分布式计算、网格计算等等东西,这些路线无外乎都为了解决大存储、大计算。当时他们做的时候,是把他们互联互通起来,实现对数据存储以及大的计算的问题,云刚刚诞生的时候,总结的特点是什么,我来准确说云计算的特点是什么呢?就这几条,一要存得很多,第二要存储空间还能扩,第三我能算得很快。第四,我要便宜。第五,稳定性要好。这是最初的五个概念。 云计算进一步发展之后,现在目前的特点就是这五个特点,第一是大规模,它的数据节点一定是大。第二是可伸缩,什么是可伸缩呢?今天可以装五百个,明天可以装一千个,后天变成六百个。第三个是高容错,坏几台机器不要紧。当年搭小平台的时候,平均每天坏七台,在机器坏的时候,数据不丢,算法成立,还能进行大计算。第四是高冗余,数据要保障安全,通胀是靠灾备中心完成。第五是高稳定,数据不会几个机器坏了,几个磁盘坏了导致丢失问题,还有就是系统要有很高的稳定性来运行它。实际上我还写的第六天,今天不想讲,有很多大厂商也是我们的朋友。还有就是一定要便宜,不便宜不是云。 我稍微总结一下目前对云的定义和云计算的定义来说,有好几个方向来看,第一是用户效益角度看,什么是云?我拿到一个数据的存储服务和计算服务,就像取水、电一样,很方便。谁都能拿下来,这样用户效益角度来诠释到底云是什么东西。第二是从技术角度来阐述到底什么是云计算,我们从两个体系,一个是基础,一个是系统。云计算发明出来以后,基本上确定了它的几个核心要素,第一个来说,我们叫分布式存储,第二个来说,我们叫分布式计算,第三个来说我们就是集群。从GOOGLE发展历史来说,提了三个很关键的词,大家研究云计算,不看四篇论文肯定不懂云计算。不管怎么说,技术上面来说,无外乎有些技术,都是围绕云计算诞生的技术,这些技术几十年前就有,并不是现在发明了新技术,云计算不是这个东西,轮回情况又发生了。第三个从商业模式来阐述,什么是云计算,就是按需收费,存了多少数据,流量是多少。第四是从管理运营角度阐述,服务模式上改变。怎么样交付这个东西,怎么样使用这个软件。我简单总结四点,大家可以总结更多更多。云计算是非常大的颠覆,颠覆了传统的技术角度,也颠覆了服务模式。所以我们要紧跟云计算步伐。 准确来说,云计算是经过商业包装的名词。当初定义的名字叫超大规模的、可扩展的、低成本的但是高可靠性的服务器集群系统。GOOGLE市场总监觉得这个词没办法看,所以发明了云计算这个词。 什么是云计算,狭义理解就是把一堆廉价的PC捆绑在一起,统一管理,使用起来如同一台超级大型机一样。我再解释一下,云计算从技术角度来说,50年前或者七八十年前就有一个派别分出来,现在所谓的PC机,或者服务器,基本上都是图灵机,图灵的算法是按顺序来排序的算法,其实在当年还有一个非常著名的算法,是专门做并行计算用的。但是没有人去研究这个事情。几十年后的今天,大家发现一定要做并行计算,分布计算。它实现了分布式集群,超大规模的集群实现。说到这里,我再给大家举个例子,现在很多系统都是靠一台庞大的主机带起来,然后靠一个关系型数据库服务,我们知道业界甲骨文数据库是优秀的数据库,可以做集群。但是它非常贵。你如果增加五台小机绑定在一起,它的效率和你的投入完全成反比。所以主机型服务模式存在很大的问题,带得动那么大的数据吗?带得动那么多的计算吗?为此才诞生云计算。云早晚要变成主机服务,永远这种轮回还会出现。 下面点了一下,IOE面临的挑战,IBM、甲骨文、EMC。但是并不妨碍我们在做一些云的探索。IOE为什么面临巨大挑战,就是因为云集散本质可以用廉价PC搭起来,这种情况下,我的大存储还要买吗?我的小机、大机还要买吗?我的关系型数据库还要买吗?一定面临巨大挑战。但是这些公司非常了不起,他们快速转型。 我们知道云计算有IAAS、PAAS、SAAS几个概念的解释。我个人理解,叫做云和云计算两个层面。云是干什么?说白了,云计算是要在云上面的计算。云是搭建、部署、使用、运维的。这些都是建云。第二个我们要搞计算,云计算最适合的场景是大数据量的处理。特别我个人感觉,云计算不太适合在事务性的业务处置,格式化程度、规范化程度相对要低一些,效率要低一些。大数据处理是最大的特点,你的数据量不达到几个T以上,上云计算,我个人觉得意义不大。现在IT成本降得很快,关系型数据库比较买得起的。用传统的方式还是可以的。换一种方式说,一个东西都有它适合的地方。所以什么时候选择云是非常重要的事情。比如我在信息中心工作,并不参与集成工作,但是对我的主要工作是什么呢?就是规划,第二就是技术选型,到底帮助政府做这件事情的时候,什么样的技术是靠谱的,就是这么一个意思。 我再进一步解释一下,从各个角度看云的产生。我个人是这么理解的,云是信息资源的重组新方式。过去我们有服务器、存储一套,过去是死的,永远都是规律的。比如申报发改委课题的时候,发改委项目的时候,第一句话就是你的并发多少等等,现在在云计算中这些值很难算。我们说主机无外乎是CPU、内存、硬盘这些东西组成的,还有一些IO的东西,我们怎么样重组它,实现它的最高效益,我们现在把一台主机,32核的合在一起,它是一种重组方式,按CPU充足的,然后内存再合起来,虚拟化干什么事情?我能把CPU拆掉,你想要多少,给你多少。这是虚拟化干的好处。进一步来说,数据的重组,过去的数据存在庞大的数据库中,现在这些数据是不是存在一个点上?是不是存在一千个点上效率更高、更可靠呢?一种方式是我重组成一台台小的机子,然后把这些节点连起来,每一台小的机,全套都有,内存、CPU都有。还有一种方式,我干脆不要那么麻烦,买廉价PC,把它重组在一起,多种重组方式造成无限的变化。 总的来说,云计算是重新诠释了解构和重构的老话题。现在我们已经形成固有规律,主机加存储、加应用的模式。主机是IO、内存、CPU组成的,信息系统在一个点上提供中间服务的,我现在放在一百台上,这是从另外一个角度看它,在云计算中,当前主要的技术热点,我写了一些东西,我们知道做大规模的云计算,不说别的,虚拟化是另外的含义,非常了不起的事情。也就是说和大家应用有关的,从应用角度来说,主要有这几个核心的技术,第一个是NO—SQL数据库,就是不完全是SQL数据库。有很重要一个表。第二个叫MAP—Reduce框架。每个点上算完了结果要回来啊,然后合成一个。所以怎么样实行天然的并行计算,就是靠这个框架来的。第三个是DFS,就是分布式文件系统,文件要存在一千个点、一万个点上,而不是存在大存储上,大存储上还是有存储的好处。第四个,就是Search engine。基本上简单介绍了云的东西,我再简单归纳一下,什么是云,什么是云计算,它是怎么来的,将来朝哪里去。 第二,为什么要用云,我觉得永远是需求驱动。不是国外都在搞云计算,我们一定跟进,管它懂不懂,我们一定要上。这是根据需求来的。首先是社会需求增加,首先信息服务成为巨大的产业,今天上午听了很多报告,赛迪的报告非常好,我记得是十万亿这么高的服务价值,所以我们需要一个社会需求在增加。第二,我们信息时代的特征,我们大网络,包括宽带网络,工信部的领导也说,特别是互联网的出现,有大量的数据出现。第三个是行业发展需求,对我来说是卫生行业,卫生行业中,比如业务管理、决策、咨询行政一系列的要求,都要求你必须具有海量数据,具有广泛计算才能了解。比如老百姓都在想什么,这是舆情系统。一系列系统都是大数据,放传统的数据库中是算不下来的。比如现在业界来说,DB和甲骨文是两大好的数据库,在没有很好索引的情况下,你要检索出大量数据。你们上百度、上GOOGLE的时候,它出来的速度有多快,600毫秒。用传统的方式,如果不用庞大计算集群做的话,你永远做不到这个数字,一定要在20秒以上,20秒是很多人忍受不下来的。将来的信息爆炸是一定存在的,这么大的信息、这么大的情况下,一定要存好它,是指存取服务,存进去能找回来,当然了我们还是希望低成本、易维护。 在这种情况下,各大厂商也跟进很厉害,比如IBM、甲骨文去年发布了NO—SQL数据库。现在亚马逊搞得非常好他们商业模式逐渐成熟。 还有阿里云、盛大云已经出来了,这主要是主机服务。阿里巴巴我们知道是全世界最大的B2B,阿里巴巴是B2B的,C2C的,它是最大的网站。你想它每天交易量有多少,有多少数据要存,所以阿里巴巴和淘宝当初和LE是签过协议的,特别是甲骨文,每年据说是三年内几千万级付进去,买一个全县。这样的话运维非常贵。第二来说,阿里巴巴养了大概50个管理员吧,非常花钱。但是阿里巴巴准备开始去LE,准备用最便宜的东西搭,数据库用开源的。其他的都走到NO—SQL数据库上去,全面要去LE,那是一件大的事情,全世界都是一件了不起的大事情。 最后一个事情来说,怎么做云计算,核心想一句话,我的云、我做主,换言之,大家要清楚自己干什么,千万不要人云亦云,那就花钱见效不大。第一个,如果大家有机遇,还是要深入理解云和云计算,到底是怎么回事。第二是需求驱动,到底我要干什么,建好这个云之后,谁会得利,投入产出是否合理。我有没有能力规划一个云,建设指导运维这个云,这些基础要保证。你可以说我请一个了不起的团队帮我做云计算或云,但是做完这个之后,谁来用。云的商业模式到底怎么走法,我要建一个云,特别私有云,谁用就不说了,我有没有把这一堆说得清楚。如果没有一支技术队伍,很难。表面说这个已经云了,容易贻笑大方。第三个事情叫因地制宜,技术选型非常重要,干什么事情一定要搞清楚什么技术放上去最好,什么技术放上去可能不理想。我个人认为庞大的系统中,一定是混搭的,根据需求走。我比较倾向于生产性交易性系统,云可能能满足。大家要注意,当前云计算不是成熟,大家上去是不断探索,我们装了一台40个虚机的云天天都在调参数,不是说这个东西多难建,不是说云技术一定要比传统技术高明,我第一次学习云技术,比传统技术学得快。云就是云,是两老技术路线。并不是说云不能独立学。这还是需要逐步完善的事情。GOOGLE也是天天改良,亚马逊也是天天改良。我在单位里主要负责投资,比较关心,害怕让领导吃药。最后一点,一定要有包容心,因为太多的效率型的了。一个远程的端,它叫云吗?从传统技术来说,一定不是云,可以转化为云服务,是服务的方式推出的,可以叫云吗?也可以叫云。这种情况下大家要有包容心,要充分认识到别人到底想干什么,是不是我投资完了以后,确实取得这个效益,管它是什么,都是好的。要有包容心是做很多细节的时候,正因为市场不成熟,商业不成熟,有可能失败。第三个,一些大厂商聚集了很多优秀工程师在工作。 整体来说希望有这几个步骤,一定要充分的论证和规划。第二要明确目标,第三是现实存在的需求,不是说将来会怎么样,搭个云将来怎么怎么样。将来这个事情比较讨厌,所以大家一定要认识清楚。但是并不是说不能尝试。再下来尽量采用成熟技术,关键要人才和队伍是非常重要,你没有人才队伍,规划也好、运作也好,一切问题都出问题。所以只敢说是尝试性做一把,真正要做成一个大家离不开的服务,一定需要大量的投入,所以谨慎是第一的,不反对有大投入,这个云一定要大投入,但是谨慎是可以的。我可能比较小家子气。再下来,我们一定要有事前、事中、事后,做出来这个东西在云的架构上,真正产生效率。从用户角度来说,我根本不关心你用什么技术,我只关心我的效率好不好,比如查询一个网站,一秒钟出来。 前面我就把整个云的基本的想法和框架讲了一下,也有很多东西很多同志有不同意见,也欢迎大家批评指正。 下面讲一下健康云。这个事情比较难讲,因为信息化是国家鼎立推动的事情。从国家卫生部角度来说,推出一个重大的工程,叫3521工程,3是三级平台,5是公共卫生、医疗保障、药品、公共服务、综合管理。2是两大核心数据库,电子病历、电子档案。1是高宽带网络。3521工程,希望实现信息化整体面貌。这里要阐述的健康云,在这个情况下,给大家谈一下我个人心得。在上海的经验来说,卫生信息化它的应用体系主要分成三大类,一个叫点的应用,一个叫线的应用,一个叫面的应用。点就是在机构内部它的各类生产系统,互联互通也好,没有联通也好,自己维护自己的整个业务和管理需求,这样的系统最常见是医院信息系统,好的医院信息系统几十套是很正常的,中间有小的联动。但是总体来说,不出医院围墙。第二是线的系统,从管理机构直穿到底的,从中央到底下的县,这样一个系统很多,比如工商税务。我们一直说防止孤岛,避免烟囱,但是我们还是要造孤岛、还是要造烟囱。面的系统是什么呢?我们着力打造实现点线互联,点点相连,线线互通的系统。横向到边、纵向到底的系统。实现面的东西,是区域信息化为核心的,这个主意比较烂,在这个问题解决不好的时候,矛盾就环节掉。 回过来回到健康云上,为什么做健康云,首先我认为是恰逢其时的云,卫生信息化的趋势和特点是什么,首先是区域化,第二是系统之间进行整合,数据之间进行整合。第三是要形成跨部门、跨机构、跨专业的协同服务。第四来说,它有海量数据。我举个简单例子,比如说上海市,比不上四川省,门诊量是两个亿。再下来说,业务的逻辑复杂多点,业务逻辑总不稳定系统就很难造,综合这些情况,怎么来解决它,这是国家发的健康档案的图,给大家看看,底下都是独立的系统,最后形成一个庞大的数据库,进行协同服务和交换服务,就是这么一个过程。 我们整个基础方案中,应用云有什么好处?第一,应对卫生服务海量数据和大并发的需求。第二,我们系统架构可发展可伸缩能力。现在可以满足满足民生为主,领导要求很多,你肯定架构要适应性强。再下来来说,提高各类应用系统满足更光满的服务的需求。第四是应用数据结构变化的适应性需求。最后,处理卫生服务大量数据非结构化问题。云在区域卫生信息化特别适合,云落地卫生特别靠谱,其他行业不太了解。 紧跟来说,我们怎么样做健康云,第一句话是由共享做起,首先是数据共享,我说一个本源性问题供大家思考参考。不管现在是不是在信息时代,哪怕在鸡毛信时代,我们信息是怎么传递的,或者传递的本源性是什么。我个人思考是这样,我们依托交换信息,达到信息共享,并且实现用信息共享进行协作做一件事,所以核心就是交换是手段,共享协同是目标,这是信息出现网络时代最大的特征,我个人感觉。我觉得现在目前首先是共享。第二来说是协同,要做到共享协同,不交换是不行的,在共享和协同上面,我更倾向于先走共享,因为协同牵扯到管理、业务,一系列问题。首先大家看到数据,然后再干什么活。包括转换医学,还有个叫上下文的感知,有点像物联网的那个比较时髦。要做好健康云,我建议实施步骤是这样,首先是总体规划,分布实施,统一认识、做好试点,全面云方案和路线要结合。第四来说,做好这几个重大层面,我们叫做POS层,第二是平台层要做好,第三是综合应用层做好。 这里面还是给大家讲一点实例,我们怎么来开展云计算,在卫生体系具体阐述一下。我们知道云框架建设之后,它天然具备并行处理能力,第二大计算能力,第三是大数据存储能力,我们充分利用好这三大能力。首先来说要做好这件事情,这一轮健康档案工程,特别是存储这个事情,大数据、大并发、大计算,刚好来做它。首先把数据采来,采来的数据整合好之后,形成一个一个人ID的健康档案,这个健康档案所有人都能看到,就是干这个事。从云的角度来说,五个层面做好,第一是基础硬件层,数据采集层、数据管理层、数据服务层。我们整个把系统分成这几个,我们也用了操作系统、集群监控,因为是试验、因为是科研,所以还是有点复杂,我们做了N台虚拟机,两台管理机,准备再做买普通PC,实现普通PC和廉价虚拟机混搭成混合云,在上面实现云的监控和管理,后面监控管理软件是非常非常难的,HP、思科,卖这个软件都是上百万,非常贵,我们也靠优秀工程师做一套软件,做到管理级的,是非常不容易的。上面要实现快速切换、无缝扩容这些都要做到。在上面来说,下来数据怎么分布,怎么算这些问题重点是几个,第一是分布无线系统。第二是个是NO—SQL的数据库。第三个是分布式框架。将来还能实现图象识别,这是算法问题。为什么加一个SQL适配器呢,主要是考虑现在SQL工程师太多了,云工程师太多了,必须把底层的东西分配成SQL适配器,后台自动变成NO—SQL存储的函数。目前大概能做到5%,它的SQL语句要做到很不容易的。在这里面来说,重点是实现几个,第一个是分布节点形成,第二是分布节点互联,第三是虚拟化和资源池化。虚拟化可能是错误的认识,但是我觉得是有道理的认识,我个人认为虚拟化是手段,它的目的是实现资源池化,我们说信息有很多资源,有CPU资源、有内存资源,有缓存资源,还有存储资源,包括网络的,端口的很多资源。这些资源池化是目的,不管是小机上,还是PC上,还是服务器上。一定要有办法把它池化掉,像一个池子一样。所以虚拟化更倾向于一种手段,这里面包括CPU、内存、网络存储这些东西,实现信息资源池化,不是硬件层、网络层、操作系统层我们更希望将来数据要池化。数据采集层、数据库结口、适配器、爬虫。数据服务层上要做很多工作,这是最难的。目前我们的水平是八亿B数据,五百个并发,前台一秒钟看到。顺便说一下,上海正在做信息化工程,每天数据是750万笔,年底前到1200万笔。所以不靠云,我们觉得走不下去了。我阐述的就是这些,如果大家有问题,可以再问。谢谢大家。
责编:罗信
微信扫一扫实时了解行业动态
微信扫一扫分享本文给好友
著作权声明:kaiyun体育官方人口 文章著作权分属kaiyun体育官方人口 、网友和合作伙伴,部分非原创文章作者信息可能有所缺失,如需补充或修改请与我们联系,工作人员会在1个工作日内配合处理。
|
最新专题
推荐圈子
|
|