BI+搜索=?

作者:姜玲
2007/6/20 14:41:48
本文关键字: 案例交流

作者:Qing 2007-4-5

有一种趋势预测,说BI跟搜索将会结合。关于这个话题,ttnn中曾有所讨论,大家也赞同融合搜索是BI的趋势之一。

以前并没有细想他们之间的联系,他们之间共同点似乎是在一堆乱七八糟的东西里面筛选出有价值的东西。BI号称从数据提取信息,再从信息提取知识。而搜索号称是从垃圾数据里面提取金子。特别后者在对非结构化信息的处理上面,肯定是目前BI的技术不能解决的。将两者结合成为未来的BI趋势之一,恐怕得从更高的层面来分析了。

是否是趋势并不只是看用户的需求,厂商的宣传介入力度同样有很大影响。我想这里头google的力量不容小觑吧。所以,也不用费脑子去想他是否真的是趋势,反正在最近几年里面,很多厂商愿意将两者绑在一起说事。

上个礼拜,《网络世界》要针对这个话题采访我。开始我以为是因为自己跟他们熟络,找不到人才找我的。但毕竟对这个话题没有好好考虑,便上网搜了一把。发现一个问题,国内关于搜索和BI结合的文章还真的不多,可见这个趋势至少在国内是还没见动静的。搜索出来的链接不少,但大多是重复的,转过来转过去。转的较多的主要有两篇相关的文章。一篇叫做《当搜索遇到商业智能BI搜索有何不同?》,看内容,恐怕是从国外网站翻译过来的一篇。另一篇是讲google跟BI的,内容一样,名字却很多种。比如《Google已经悄悄部署世界上最大数据仓库》、《BI高攀Google》、《当Google爱上BI》...打开一看,发现文字很熟悉,看了一半,发现原来这篇是我自己写的。这才明白,恐怕记者是先接到了这个选题,也如我这般上网搜索,却发现主要这两篇文章。另一篇找不到主,于是便找到了我。

我一直对这个BI+搜索不是非常感冒,文章中很明显表露。不过我是个悲观主义者。从两者的技术逻辑看,他们两个融合并不值得大说特说。但从当今的热点和市场宣传出发,将他们渲染成为一个大趋势,发现到也是情理之中的。

BI跟搜索比,显然在热度和成熟度方面还不太够。因此,《BI高攀Google》这个名字真的道出这个潜台词。在BI没有产生新概念的时候,需要引入新的东西,这时候,搜索技术就是个非常好的选择。这不,cognos、sas、bo纷纷跟google走到一起。而《当google爱上BI》这个标题表达了不同的含义,这意思是说当今的搜索技术需要寻求BI技术的帮助。我认为第一个标题恐怕更加合适,这是目前BI厂商积极推进的另外一个新概念而已。

搜索有专业的核心技术,有简洁的应用模式(至少是被证明了的)——一个搜索框就OK了,可以说搜索是技术型的。BI是应用型的,更多是整合之类的事情,跟人打交道比较多,但至今BI的应用模式仍然不够简洁。报表恐怕是最简洁的,但体现的价值有限。其他的诸如OLAP、数据挖掘,大家并不容易明白怎么跟自己的业务结合起来应用。DW、OLAP、DM的概念已经毫无新意,BPM、MDM、Operational BI也叫嚣好几年了,需要新概念刺激。也许真的是就是搜索技术。从另一方面分析,BI的核心技术在什么地方,在数据整合,在数据分析上面。将搜索技术融入其中的一个考虑是将将非结构化数据管理起来,这是BI的一个野心,却有可能偷鸡不成蚀把米——反倒丢了自己管理结构化数据的地位,那就划不来了。

将搜索技术融入BI,我想最值得借鉴的就是前者的应用模式。当什么时候BI的应用能够像提供一个搜索框那样简单的界面,屏蔽后台那些报表、OLAP、挖掘之类的技术,那应该就是BI全面爆发的时候。

作者:frankwansunny 2007-4-6

我觉得搜索和BI还是有很大不同的,搜索是从数据中找到用户想要的数据,BI是从数据中找到用户想要的知识或信息。用户对BI的期望更高,也自然会有希望越大失望越大的现象。

作者:Qing 2007-4-6
从跟其他人交流中,发现对"BI+搜索"理解有不同。最早开始讨论此问题的时候,曾经提出过,搜索只是充当了ETL里面"E"的角色。通常我们说的ETL,是从异构数据源抽取数据,然后经过T、L装到数据仓库里面。那是结构化数据,而加入搜索,扩展了对非结构化数据的抽取。比如将竞争对手的信息从web上抓取过来,塞到数据仓库里面,可以作一些竞争情报监控和预测之类的应用。

之所以首先蹦出这个想法,恐怕是因为几年前,有一家公司曾经上门演示他们的产品(代理国外的),目标就是作竞争分析的。然后用那种等高线图来标识出竞争对手活动的重点区域,以及曝光率之类的。当时,这家公司说这个产品用到了文本挖掘的技术。但现在,主要的搜索引擎都提供对新闻的搜索,可以"订阅"关键字,将相关的链接文字内容发到你的邮箱,google、百度都可以。当然,离上面产品的应用还差一截,如果再进一步将哪些链接文字转换成记录形式,就差不多了。

这是BI和搜索在数据层面的合作。另外,还有很多人谈的BI+搜索是指在应用层面的合作。

后者要解决的问题是:现在企业里面的报表、分析报告、仪表盘太多了,当信息泛滥的时候,需要搜索。

想象一下,一个经理上班了。这时候进来一位销售,说要加薪,不然不干了。这位经理看他还比较顺眼,说考虑考虑。然后打开电脑,想查一下这位员工的销售记录,但不知道哪份报表有这个信息。于是,进入搜索界面,有一个框框,让他填写。他输入了销售的名字和要查的东东,比如"东方不败+销售量"。出来一堆结果,分别链接到不同报表或报告去,比如"销售量趋势"、"月度考核报告"、"员工绩效"、"葵花宝典"...

经理点开"葵花宝典",发现里面的东方不败不是自己的员工,关闭宝典。再点开"月度考核报告",这是份ppt,其中包含了每位销售在近两年的销售业绩情况。发现东方不败的业绩在一年前还算优异,但从半年前,开始滑坡,在整个公司的业绩排名总是在最后五名里面。其实经理对他的印象还是停留在一年前他表现优异的时候呢。寻思了一下,讲东方不败叫了进来,说,

"不败啊,这个...我们公司现在面临很大的市场压力啊,大家最近表现的都很不错,我是非常之感激。所以一直也在积极地为大家争取奖金和加薪,这一点,你要对我有充分的信任。但是..."

"但是,我们会主要对表现突出的同志进行奖励,从你最近半年的表现来看,还得加紧啊。我相信以你的实力,是一定能够超过其他人的....."

东方不败说,"我晕......"。

这个例子是利用搜索技术,将泛滥的分析结论整合起来,如果再神奇一点,当经理点击搜索的时候,不是返回指向其他报表的链接,而是直接返回一张图表,显示了东方不败的销售量趋势,那才牛逼呢。这种BI+搜索,其实是一种对元数据的搜索。不过,在我们目前很多BI应用里面,元数据的管理还嫩了点,你搜不出啥玩意儿出来。我记得BO在一两年前的某个版本中有类似的功能,名字叫做Intelligence Question,大意也就是输入一个问题,帮你搜索相关的报表。但在最近我问在BO工作的老高,他说这个东东似乎已经歇菜了。似乎BO现在正在跟google谈在搜索方面的合作呢。为什么歇了不好说,但有一个原因可能是——有点太超前。

因此,可以将BI+搜索分成两种,一种是搜索之上的BI,是将非结构化数据纳入分析范围,提升应用范围的。一种是BI之上的搜索,是改变用户应用模式的。

另附:
在TDWI找了关于文本分析的一些产品资源,其中有上面提到的BO的那块,应该叫做Intelligent Question。

80-20 Discovery
80-20 Software Pty. Ltd. ttp://www.80-20.com/
通过自然语言分析、基于概念的分群以及神经网络技术,处理关键字和概念查询

BusinessObjects Intelligent Question
Business Objects SA http://www.businessobjects.com/
工作流驱动的系统,让非技术人员输入自然语言查询

ClearForest
ClearForest Corp. http://www.clearforest.com/
对大型文本使用语义/统计技术识别关联的数据并打标签,生成丰富标签的XML文本

Content Extractor
Pervasive Software Inc. http://www.pervasive.com/
从文本创建结构化数据;自动创建抽取规则。之前是Data Junction产品

DB/TextWorks
Inmagic Inc. http://www.inmagic.com/
融合数据库管理和文本提取系统,提供关键字搜索、报表和XML发布

Documentum Content Intelligence Services
EMC Corp. http://www.emc.com/
自动化的元数据标签、分类、关联定义,为非结构化数据增加关联性;提供预构建的分类库

EchoMail Business Intelligence
EchoMail Inc. http://www.echomail.com/
使用模式识别、自然语言分析、神经网络来进行email分析,分类并监控收到和发出的email

Endeca Navigation Engine
Endeca Technologies Inc. http://www.endeca.com/
使用元关系索引("meta-relational indexing")来整合、组织、浏览及查询非结构化数据

Enterprise Text Extraction Solution
Attensity Corp.
将非结构化数据转成结构化的,关系型数据,并与其他结构化数据结合,产生可行动的决策信息

FAST ESP
Fast Search & Transfer (FAST)
基于结构化和非结构化数据,提供 面向企业搜索和分析应用平台

FindEngine
Hapax Information Systems AB
获专利的自然语言引擎,包括文本分析、查询管理和索引等部件

IDOL
AutonomyCorp.
对文本和其他非结构化数据进行访问、分类、分析的企业平台

InFact
Insightful Corp.
文本分析、搜索以及分类的解决方案,基于计算语言学的准专利技术

Intellexer
EffectiveSoft
提供Windows、Linux下的文本分析SDK,为定制搜索引擎、知识管理开发应用

Intelligent Miner for Text
IBMCorporation
非结构化数据的挖掘工具,提供搜索和分析,特征聚类,分类,汇总和特征提取

Interwoven MetaTagger
Interwoven Inc.
一种自动化工具,使用元数据来提高非结构化内容的关联性、搜索精度,达到自助服务让分析变得简单

Inxight MetaText Server
Inxight Software Inc.
识别内容和文本的上下文环境,抽取出"元文本"metatext,并索引

IxReveal
Intelligenxia Inc.
从非结构化文本(.doc,pdf,email等)检查关系、异常,跟关系型数据进行整合,提供非结构化数据分析

LexiQuest Mine
SPSS Inc.
文本挖掘和计算语言学技术,SPSS买下的LexiQuest一部分

metaMarker
Languistics
机器学习,自然语言分析技术,挖掘email、语音文本,支持客户服务和email监控

MindServer
Recommind Inc.
语言无关的实体抽取平台,处理对非结构化数据的提取和分类

Mohomine
Kofax Image Products Inc.
模式识别软件,具有语言无关性,支持BI、CRM和HR。

Oracle Text
Oracle Corporation
之前叫做interMedia Text,使用SQL来索引、搜索并分析Oracle数据库,文件系统以及Web上的文本。

ProIndex
Cadesa LLC
让开发者将全文检索功能融合到应用程序里面去,例如对布尔、通配符、短语、近义词等处理。

Readware Information Processor
Management Information Technologies Inc.
识别200以上种数据格式,查询工具可以支持对主题、实体的分析和索引

RetrievalWare
Convera Corp.
知识发现工具,提供语义概念、模式、是非搜索,有特定行业解决方案

Rosette Linguistics Platform
Basis Technology Corp.
可以对数10种亚洲、欧洲和中东预演进行分析、索引和搜索

SemioDiscovery
Entrieva Inc.
基于分类技术对非结构化内容生成主题结构,提供预警、可视化和集成的搜索

Speed Index Server
Speed of Mind
统计熵搜索生成查询语言到关系排名的映射(Qing:啥意思,比较深奥,看原文Statistical entropy searches generate query language mappings for relevance ranking )

Stratify Discovery System
Stratify Inc.
Flagship product 将非结构化文本信息组织、分类并表现成定制的主题结构

TEMIS Text Intelligence
TEMIS
五种产品套件,使用数据算法、语言学算法将文本结构化,分类并分析

Teragram Suite
Teragram Corp.
包括模式匹配、语言学搜索/提取,概念提取、索引、分类管理等技术

TeraText Database System
SAIC
SAIC 单元提供数据管理系统,存储、操作、分析海量文本数据

Texis
Thunderstone Software
文本挖掘、全文自然预演提取引擎,集成入SQL关系数据库,提供模糊逻辑、实时agent搜索

Text Miner
SAS Institute Inc.
SAS数据挖掘工具种的文本挖掘部分,提供单独的文本挖掘API

TextAnalyst
Megaputer
语义网络种支持文本分析的语言学和神经网络技术

TextPipe Pro
Business Objects SA
非结构化数据处理和分析,包括文本、HTML、二进制文件,提供抽取、模式和大小写匹配

VisualText
Text Analysis International Inc.
构建文本分析器、自然语言分析和信息抽取系统的开发环境IDE,混合语法、模式、关键字和统计学

WebFountain
IBM Corporation
IBM Research technology 搜集、分析、存储文本;自然语言分析、统计、概率和模式识别

WebQL
QL2 Software Inc.
Web、文本挖掘引擎,对非结构化的互联网和内部网数据源进行分析,提供成熟的并行引擎和开发环境

WebSphere Content Discovery Server
IBM Corporation
对非结构化数据的多语种自然语言搜索浏览工具,支持电子商务、自主服务、呼叫中心、企业门户、分析。前身为iPhrase

WizDoc
WizSoft Inc.
关键字和自然语言分析引擎

WordStat
Provalis Research http://www.provalisresearch.com/
Provalis SimStat和CodeMiner数据挖掘工具的文本挖掘,内容分析插件

作者:Lilechina 2007-4-6

这个帖子非常有启发性。
搜索之上的BI,是将非结构化数据纳入分析范围,主要面对网络上的外部数据。但是由于非结构化的问题,可能在应用上会遇到障碍。
BI之上的搜索,是改变用户应用模式,我相信在未来,这一点能够大大改善用户对BI成果的使用感知,省得他们每天对着一堆报表发懵!当然,前提条件是他们也要能够理解"搜索"的工作方式。很可惜,至少我们项目的客户,如果现在把搜索的概念灌输给他,会更糟,嗬嗬!

责编:姜玲
vsharing 微信扫一扫实时了解行业动态
portalart 微信扫一扫分享本文给好友
著作权声明:kaiyun体育官方人口 文章著作权分属kaiyun体育官方人口 、网友和合作伙伴,部分非原创文章作者信息可能有所缺失,如需补充或修改请与我们联系,工作人员会在1个工作日内配合处理。
畅享
首页
返回
顶部
×
畅享IT
    信息化规划
    IT总包
    供应商选型
    IT监理
    开发维护外包
    评估维权
客服电话
400-698-9918
Baidu
map