歪脖分析抛砖

作者:姜玲
2007/4/3 18:35:15
本文关键字: ttnn 2006年04期

刘庆
20060326

前两天阿龙跟我说,最近对歪脖分析比较感兴趣,有所心得。想讨论一下,可他扭扭捏捏不象话,非得让我抛出一块砖出来。

关于歪脖,我没有多少水要倒,但没吃过猪肉总算看过猪跑,所以就从俺们人的角度看看猪是怎么跑的,从几个侧面看看歪脖分析的几种应用。

在去年年底的时候,狗狗收购了一家专业的歪脖分析公司,自己也申请了个帐号,却没有网站可以用这个服务。但这个服务的界面略知一二,可以分析网站的流量,访问者从各个地方来的统计结果。这可以用作广告效用分析吧。

除此之外,很久以前很多门户网站也提出一种概念,叫做"个性化"内容定制,可以根据访问者的爱好,自动地推荐新闻给你。那时还很简单,会在你在填个人资料的时候填诸如喜好什么运动、什么书籍之类的东西。估计很多人都不填写这个吧。因此出现了歪脖点击流分析,通过分析用户点击了哪些链接而判断其喜好,喜欢看社会新闻的,喜欢看篮球新闻的,喜欢看美女图的,这才是真的喜好。据此进行网站内容推荐。

如果要实现这种个性化内容推荐,必然要对网站的内容进行分类、标签,哪些是新闻、哪些是技术等等。

还有一种歪脖分析,这几天在这里也讨论的,就是文本挖掘,从网页的文字中(所谓非结构化数据)发现信息。这玩意儿可以用于竞争对手情报收集,以及广告推荐。前者,曾经提到赛迪网代理过此类产品,另外还有一个网站提供类似的服务,忘了叫什么名字。但那种服务和狗狗现在的新闻定制很相似,指定关键字,可以定期将新闻网站上相关信息发送给你。但狗狗显然将这门技术归入他们的"搜索"技术中。另外,你看鸡妹儿右侧的广告条,跟邮件内容相关性非常大,这样的广告显然要比那种打开一个网页,蹦出一堆不相干的广告要清爽很多。

现在在网络行业,使用数据仓库、数据挖掘的情况也越来越多了,知道的,新浪、汤姆、一贝都或多或少开发此类项目。而且网络行业的数据不比电信行业小,而显然,其对成本、投资回报的要求肯定是要比电信的高。因此,网络行业的数据仓库系统必然要用成熟的架构。

只是,正因为其数据量大,所以投资也少不了。现在有多少网站可以预算可以投资在这上面呢,恐怕还不多,目前暂时还是小打小闹。毕竟不能像电信行业那样,扔出一千万,打了水漂一声不响也就算了。

关于歪脖分析,能喷的就是这么多了,请阿龙继续。

Innovate
20060324

这很很多因素相关,首先互联网商业要成熟,利润高,厂家有钱去投资,其次互联网商业模式日渐成熟,竞争加大,建立数据仓库去分析成为必然。

我知道一个猎头帮ebay招数据仓库经理,要求7年以上DW经验,能有英语流利和美国团队交流,2年管理经验,年薪60万,可以说明领先互联网商业公司对数据仓库的重视程度。

Sunforward
20060324

昨日在电话中和庆聊天,问他:先生可曾为歪脖分析写点东西吗?庆说:没有。
于是正告他说,先生还是写点吧,Bi的同仁们很爱读先生的文章!
没想到,今天就看到一篇分量十足的好文。实在是感谢和欣喜。

先说说分析的困惑:
1.针对内容分析时,目标和种类太多。一条带有XXX的新闻就可能带来平时一倍的浏览量,很难将此归类和复用。

2.分析用户习惯和偏好时只能通过路径分析结合内容分析,用户访问的路径离散性很大,内容变化也多。

3.分析业务使用时,路径太多入口和出口也没有统计值。由于服务的无状态性,时长很难准确统计,页面访问的频率也是和入口和导航相关,变化极大。

4.用户识别困难,这个目前在无线互联网方面还好一点,有手机号码作唯一标识,但以后一定会扩展到IP,问题就多了。

5.业务收入和订购关系的不足,没有类似三户模型的计费模型,简单的计次和包月算费用,这样订购用户,订购关系,计次用户,定购关系都混在一起了-造成统计指标的定义混淆。

6.ETL的难度很大,如果一个门户还好,多门户结合的Web站会产生不同种类的不规范日志数据,这些日志的关联、提取、和过滤非常复杂。举个例子,一个访问者在一个小时内访问了35个页面,形成的日志就是一大堆,静态的、动态的、跳转的、弹出的、经过鉴权和通过书签Cookie不一而足。日访问量过百万的网站比比皆是,你要分析用户使用细节保留ODS数据?

说了这么多,感悟是:web的BI分析和本身承载平台结合的非常紧密,原来以数据驱动的DW设计理念已经不再适合了,现在是要分析就要自己想办法产生分析的数据,而且Web服务的设计方法上要适合统计分析的分类原则,,这是不是就违背了以运营为中心的原则呢?

丁西宁
20060326

分析的很详细!但有一点地方有些不同的看法说了这么多,感悟是:web的BI分析和本身承载平台结合的非常紧密,原来以数据驱动的DW设计理念已经不再适合了,现在是要分析就要自己想办法产生分析的数据,而且Web服务的设计方法上要适合统计分析的分类原则,,这是不是就违背了以运营为中心的原则呢?

不清楚你说的数据驱动的DW设计理念已经不再适合了是指的什么意思。DW设计是有以元数据驱动为中心的说法,但这个是从技术的角度出发的。DW中最关键的业务模型的建立,还是以业务和需求为中心的。不知楼主分析的Web的BI设计方法和我们传统的BI设计方法有不同,这不同具体指哪些方面?

Sunforward
20060327

问得好,这是所有问题的核心。

DW设计是以源数据驱动的还是元数据?这两个想法都有意义,反映在设计和实现上。但最早的理解是DW项目是以数据源为主,业务需求为辅双驱动的,他们的结合就是DW层设计的基础。在BI项目的建设初期用户基本没有想法和具体需求,基本上靠乙方忽悠。乙方处于实现的考虑更多的还是从源数据的种类,数量,获取整理难易来做出发点,在应用层搞些花枝招展的主题来点缀。说BI项目不实用,根源不知道是否在此...
跑题了,还是砍歪脖。

下面那段话白一点就是:我们要分析的源数据没有,需要自行产生。Web数据来源主要是日志(用户操作行为源数据),搜索关键字,订购记录,对于无线业务还有流量统计,内容等。

用户的业务使用行为即访问日志是非常不全的,如果要知道用户从哪里链接过来的,网关鉴权情况、跳转到外部哪里去等一些复杂操作信息需要通过跳转头和一些附加网页脚本手段来往日志里增加记录。所以这就是说网站分析很多数据自己要创造和记录。这样也带来了问题,加这些统计脚本和统计点的东西会大大影响访问速度,对于无线业务更是影响业务体验。

这个仅仅是针对单独网站的考虑,有很多大型网站采用类似分布门户的方法运营,各自栏目都是单独一套服务的,那么把一个用户的操作关联在全部内容和页面上也需要很多额外的处理才能得到数据,所以这就是我目前遇到最大的问题。

原来BI的思路是盲人摸象,全部摸一遍各部件就知道象是啥样了,然后想办法让象更Happy。

现在WebBi是看见象啥样了,就是不知道各部件的尺寸和质感,还是要想办法让象更Happy。
不知道比喻是否恰当,也不知道能否说出自己的感觉...

刘庆
20060327

西宁说得"DW设计是有以元数据驱动为中心"是从哪里看来的,不理解这句话是什么意思。

所谓驱动,就是推动的力量吧,但很少有因为元数据而作数据仓库的例子啊。

因此,我非常怀疑此处的"元"应为"源",也就是阿龙提到的。说"源数据驱动"(建议此处在交流时使用"数据源",避免在发音上和"元数据"有所冲突),其实以前很多项目确实是如此的,很多人曾批判过。说应该是业务驱动。

这两者的区别,阿龙用盲人摸象来比喻,此处也给个比喻,但以数据分析为例:
俩人,一人说,"哎,我有一堆日志,你给我分析一下。"

另一人说,"嗨,我们本月的用户访问量下降了不少,你给分析一下啥原因。"

前者是数据源驱动,而后者是业务驱动。

在业务目标不明确的情况下,以数据源驱动分析也是自然的事情。

刘庆
20060327

看阿龙的这段分析,其实已经将问题描述地很清楚,想必内心已经有如何解决之道了吧。

这些实在是比较具体的困惑,谈谈我的想法,当然在此之前,还有个重要问题需要问一下——"分析的目的是什么?"

如果是无明确的分析,那就对涉及的所有对象进行概念化罗,每种概念就形成了分析目标,下面一步就是对其进行分类。

首先是概念化过程,内容、访问路径、页面、用户、日志,这些概念的确切定义是什么,然后再对他们进行分类,譬如内容可以分成新闻、文章、评论、图片等几类,当然还可以细分,或者是给他们打标签,打上诸如"XXX","美女"等。用户路径,应该就是用户点击链接的先后次序吧?是否可以也是粗略地将之分成几种大类呢?例如"先首页在详细型的",或是"先科技再社会型"。用户?是指访问者还是网站的成员?

这些是标准的概念,跟数据无关,然后再结合数据。不同网站的日志可能用不同的标识来标识这些概念,例如可能是用IP来标识用户,或者用用户名来标识。也有的可能根本找不到相应的概念,例如一般的日志中,可能并不考虑"内容",只有"页面"的概念。

但不管怎样,总得作一些这样的概念转换。当然,这仅仅是我一个外行者看这个事情,还请阿龙深入说说看。

责编:姜玲
vsharing 微信扫一扫实时了解行业动态
portalart 微信扫一扫分享本文给好友
著作权声明:kaiyun体育官方人口 文章著作权分属kaiyun体育官方人口 、网友和合作伙伴,部分非原创文章作者信息可能有所缺失,如需补充或修改请与我们联系,工作人员会在1个工作日内配合处理。
畅享
首页
返回
顶部
×
畅享IT
    信息化规划
    IT总包
    供应商选型
    IT监理
    开发维护外包
    评估维权
客服电话
400-698-9918
Baidu
map