|
从搜索引擎看商业智能BI的现状
商业智能已经在实现着三个转变:从数据驱动转向业务驱动、从关注技术转向关注应用、从关注工具转向关注工具产生的绩效。
商业智能已经在实现着三个转变:从数据驱动转向业务驱动、从关注技术转向关注应用、从关注工具转向关注工具产生的绩效。而搜索引擎本质上是业务驱动和关注应用的(实时的用户需求响应),因此本人认为商业智能和搜索引擎二者有探讨的空间。这或许有助于理解技术的分分合合,或能为完善二者提供些参考。 1、搜索引擎本质是(商业)智能的一种体现。 企业或集团的历年数据累积甚为庞大,但信息过量,难以消化,且信息形式不一致,难以统一处理。“要学会抛弃信息”,人们开始考虑:“如何才能不被信息淹没,而是从中及时利用数据资产找到需要的信息、发现有用的知识、辅助自己分析和决策以提高信息利用率?”商业智能应运而生。 网上信息浩如烟海,网络资源飞速狂增。如何才能不被信息淹没,而是从中及时利用网上数据找到需要的信息?搜索引擎应用得风生水起。 可见,搜索引擎和(商业)智能都在解决同样问题,都是需要自主地或交互地执行各种拟人任务,都是与人的思维、决策、问题求解和学习等有关活动的自动化,是拟人思维(智能)的体现。 2、搜索引擎和商业智能的工作原理一致 我们先看看搜索引擎的工作原理。搜索引擎有抓取网页、处理网页、提供检索服务三个主要环节。首先是抓取网页。端到端的搜索引擎都有自己的网页抓取程序(spider)。Spider以超链接为顺序,连续地抓取网页。被抓取的网页被称之为网页快照。其次处理网页。搜索引擎抓到网页后,还要做大量的预处理工作,才能提供检索服务。其中,最重要的就是提取关键词,建立索引文件。其他还包括去除重复网页、分析超链接、计算网页的重要度。 准备工作完成后,即是浏览者所见到的搜索引擎界面,即第三提供检索服务 。用户输入关键词进行搜索,搜索引擎从索引数据库中找到匹配该关键词的网页;为了用户便于判断,除了网页标题和URL外,还会提供一段来自网页的摘要以及其他信息。 再看看组成:搜索引擎的组成部分一般由搜索器、索引器、检索器和用户接口四个部分。搜索器的功能是在互联网中漫游,发现和搜集信息,主要是讲spider;索引器功能是理解搜索器所搜索到的信息,从中抽取出索引项,用于表示文档以及生成文档库的索引表;第三个是检索器,其功能是根据用户的查询在索引库中快速检索文档,进行相关度评价,对将要输出的结果排序,并能按用户的查询需求合理反馈信息;第四用户接口,作用是接纳用户查询、显示查询结果、提供个性化查询项。 这四个组成部分,搜索器是收集数据,索引器是处理数据,检索器和用户接口是数据展示。检索器是数据展示的提取过程,用户接口是个性化展示用户的数据需求。 收集数据的方法一般有人工录入、机器抓取、人工录入机器抓取同步。人工维护数据的搜索引擎分类目录由人工整理维护,如Yahoo、新浪分类目录搜索,机器抓取自建网页数据库,搜索结果直接从自身的数据库中调用,Google和百度就属于此类。现在人工整理维护和机器抓取都在融合之中。 数据获取方面,需求满足第一,效率第二。机器抓取体现了高效率,高稳定,低成本,但原创性和信息的编辑性不够,人工录入如果做到高质量原创性、较低成本则更能体现信息对于用户需求的满足,效率则是排在第二位。比如走群众路线的通通网,以产权私有为基础,发动大量的学生录入经学生自己编辑过、且符合学生群体特征的原创性信息(通通网那里是“线路”),成本非常低,但更能满足学生群体的搜索需求。 我们知道,商业智能(BI)的主要工作原理在“数据抽取、数据加工存储、数据分析和数据展现”这四个环节体现,这是一个完整的端到端的商业智能解决方案。每个环节都有不同的工具或厂家,但是整合基本完成,当前数据库环节的厂家已将其它环节的厂家收购得差不多了。搜索引擎抓取网页过程和数据抽取ETL过程一样,实质是获取数据。处理网页实际是对获取数据的清洗和整理,这是数据加工存储,是数据仓库内容。提供检索服务实际上是数据分析和数据展现。 可见搜索引擎和商业智能的工作原理一致。基于商业智能的四个环节中各有强者的认识,在“抓取网页、处理网页、提供检索服务”三个环节上不同的搜索引擎也是各有千秋。如Lycos搜索引擎即是关注提供检索服务,它只租用其他搜索引擎的数据库,并按自定的格式排列搜索结果。 3、商业智能在三方面需要借鉴搜索引擎 1)搜索引擎获取结果的方式极为简单,值得借鉴 商业智能应用主体的泛化,使得BI融入日常业务运作,这需要极为简单的操作方式和低成本传播方式。而搜索引擎的简易操作性可以实现这个目的。从使用者的角度看,搜索引擎提供一个包含搜索框的页面,在搜索框输入词语,通过浏览器提交给搜索引擎后,搜索引擎就会返回跟用户输入的内容相关的信息列表。操使用非常简单。操作型BI日益壮大,BI将在单位的基层、中层中得到应用,也就是流程型BI(或操作型BI)将得到重视和推广。这种流程型BI的“下里巴人形象”将实现“一般员工也需要用BI,也能用BI,也必须用BI”,从而使BI最大化地用起来 。可见此时的用户已经包括非技术/分析专业的业务/管理人员。商业智能产品提供的查询、定制、分析模式对非技术/分析专业的人员来说仍然 显得过于复杂,无法支持他们快速、低成本的获取想要的结果。当前商业智能在语义层方面已经有了较大提升,语义层功能已经比较方便了业务用户对数据的操纵。但在理解自然语言方面,例如让系统能正确理解人类的自然语言输入的信息,并能正确答复(或响应)输入的信息,搜索引擎相对做得更好。 2)完善和提升实时理解分析能力 商业智能在if-what-how模式基础上,补充what-how模式,实现实时智能。不少商业智能解决方案,特别是应筹学的建模应用,一般都是先假设问题,并对此建模、构造数据及应用体系,针对特定领域,采用特定的分析方法,返回特定的结果。而采用搜索引擎技术则可以通过“数据+语义+分析方法+结果编排+呈现”的方式,具有数据范围广、分析结果动态的特点,能实现实时智能。当前部分商业智能产品中可以方便的加入各种类型的数据源,并在类似Google的搜索框中输入关键字(比如:“12月份 销售收入 销售费用”),系统将返回合理组织的图文并茂的结果。数据—趋势图形”的交互式联动也引起了许多用户的兴趣。 3)增强对非结构化数据的处理能力 非结构化数据对于业务处理日益重要。支持一个决策的信息不仅仅限于来自数据仓库、ODS层的结构化信息,往往还包含大量的非结构化信息,比如文档、邮件、媒体文件等。搜索引擎在处理图片、视频、音乐等非结构信息方面有着较强的能力。
责编:王立新
微信扫一扫实时了解行业动态
微信扫一扫分享本文给好友
著作权声明:kaiyun体育官方人口 文章著作权分属kaiyun体育官方人口 、网友和合作伙伴,部分非原创文章作者信息可能有所缺失,如需补充或修改请与我们联系,工作人员会在1个工作日内配合处理。
|
热门博文
|
|