存档

文章标签 ‘数据分析’

对不起,我们就是不支持firefox【人人都是产品经理:9037】

2009年8月13日

某个产品页面的访客,最近一段时间使用各种浏览器的比例,如下图:第一名ie,99.08%(其中6.0又占75%);第二名firefox,0.48%……

大家可以猜猜这是一个什么样的产品,面向的是什么样的用户。

=================  最后我要披露一些坏人的行径  ================
昨天和同事去K歌,我不是伤还没好要拄拐么,于是大家很照顾我,一开始就给我点了《水手》+《星星点灯》,完了,就把麦抢过去不给我唱了……

VN:F [1.2.0_562]
Rating: 4.6/5 (7 votes cast)

产品设计体会(6025)博客省流量的6个土办法

2009年5月6日

最近还有新鲜劲,每隔几天会去看一下虚拟主机的后台(directadmin),从3月到4月上旬,发现iamsujie.com的流量逐步爬升。我买的服务每个月有15G流量,而4月开始每天都要用7~800M,眼见着这样会在420号左右超过流量限制,于是决定折腾一下,在park同学的帮助下研究了webalizer的日志分析报告以及详细日志。

通过查看webalizer的报告,发现页面“http://iamsujie.com/feed/”的流量占比达到90%,于是重点优化这里。终于,作为菜鸟的我成功搞定这个问题,如图,红色图形为4月每天的流量,从1415号开始明显降低,而其他的各种访问量数据并没有明显变化,简单说说这次自学到的几个blog省流量的土办法:

Ø 最最重要是杀掉恶意流量。我们发现feed页面除了流量以外,其他的访问数据并没有达到90%,于是进一步看明细,发现其中两个IP的请求异常,查ip,都是四川绵阳电信的,在不停的刷feed页面,而且是通过腾讯浏览器,反正是非人类的行为。开始我还有些担心是不是哪个RSS服务器在请求,但朋友说不是,于是就把那个IP段禁掉了(网站根目录下有个.htaccess文件,是apachefolder specific的配置文件,在里面加一段代码)。杀掉传说中的“采集网站”、“盗链”等等,这是效果最明显的。

Ø 充分借用其他服务的流量。非文字内容,如图片尽量引用站外的链接(比如我的图片用picasa,不过我发现图质不佳,但懒得换了),视频、音频、flash更是。当然如果你财大气粗,觉得自己的机器更稳定、更快、更爽云云,那放在自己手里当然最好。

Ø 减少feed输出的文章数量。wordpress里“设置阅读—Feed同步最新”多少篇那里设置。我这次把200篇改30篇,而现在全站文章实际总数约160篇,所以这个改动可以把feed页面的大小一下子降到20%以下。对于“30”的考虑,我觉得可以让新订阅用户基本铺满一屏,不会显得我这里文章很少,另外30篇的写作时间最少也有2个月左右了,再修改的可能比较少。这个改动的最大坏处是新订阅用户看不到老文章,不过可以通过“相关文章”等方法补偿,同学们可以自己权衡。

Ø 采用feedskyfeed服务。这样对feed请求的流量就可以甩给feedsky了,我从4月末开始使用,流量倒不是关键因素,我主要是看中了它对feed的统计功能,以及对多种阅读器的快捷支持。

Ø feed输出摘要(不推荐)。这样可以节省很多流量,但要慎用,对高端的订阅用户不友好,他们可能也会对你不友好,:)

Ø 减小blog首页的大小。任何一个博客,都有大量用户的入口是首页,而这中间又有很多直接离开的,所以减小首页是个节省流量的好办法,而且这部分是省在低质量用户身上的,更爽。具体方法有减少首页文章数(我把10改成了5)、文章用摘要、减少侧边栏控件等等,利弊也请自行权衡。

上面说到的点点,都是一个菜鸟的实战所得,在用户体验基本无损失的情况下让流量降了一个数量级。究其实质是分析日志,找出占用流量最大的因素(比如订阅用户与直接网站用户到底哪个多),思考相应的对策去解决。上面这些做法只是解决方案而已,千万别照做了。

最后提一个题外话,做上面这个事情的过程中,我发现各种订阅服务,对于feed 的缓存策略各有不同,这也是影响流量很关键的因素,但没有更多信息,没法深入研究。

VN:F [1.2.0_562]
Rating: 4.7/5 (3 votes cast)

产品设计体会(6024)一个产品经理小站的访客分析

2009年4月12日

我们应该不放过任何机会培养自己对数据的兴趣和敏感性,1月开了一个产品经理的小站iamsujie.com3月的数据看上去可以玩玩了,这些数据也可以从一个侧面描述国内产品经理(特别是互联网、软件行业)及其相关职业的人群特征

暂时只用了Google Analytics,所以数据没有包括只躲在阅读器里偷窥的用户。我粗略的和一个朋友做的娱乐网站的数据比较过,整体感觉iamsujie.com的用户还是比较高端、小众的,和主题“产品经理、产品设计、用户体验……”有关。

访客周期性非常明显工作日访客多,周末少,日访问数的典型比例大约是2.51,详细可以看这里。当然这和工作日的推广有一定的关系,好在2月后两周做过无推广的对照,确实是这样,主要原因是小站主题和工作有关,与国内互联网主流的“娱乐用户”不同。(24小时分布特点不明显,没有想象中的大量夜猫子,略)

访客地图覆盖,中国访客占了97.39%,排第二的US也不到1%,所以暂时不用考虑国外访客了。对于国内的地域分布,可以明显的看出各地相关行业、职位发展的情况,找工作、要挖人、想创业的同学可以参考下图

  • 传说中的IT/互联网四极确实存在:北京、广/深、上海、杭州(因为自己公司在杭州,有不少同事访客,所以流量排在上海之前了),占据了70%强。
  • 北京的绝对霸主地位无可撼动。
  • 潜力城市浮出水面,都是挺大的城市:武汉、南京、长沙、成都……

访客忠诚度,新访者(52.73%)与回访者,基本各半。回访者质量稍高,虽然回访多是好事,但是新源头匮乏,很难想到还有哪些拉客的途径可以产生爆发式增长,“业内人士”真的只有这么多了?下图是访问次数图,可以看到,1月下旬建站到现在,访问10次以上的用户有1000+,可以简单的看做比较忠实的用户。

其他几个数据:人均页面数2.69,跳出率53.85%(即只访问1页面的),网站停留时间556,都比较稳定了,还算满意。再上一个访问时长的图,在网站停留超过1min的,确实有兴趣的访客大约有1/3

访客浏览器情况,可以看到firefoxchrome一共占据了1/3,显著的超过国内整体网民,而ie的版本细分,6的占有率也没有整体那么高。


访客屏幕分辨率1024×768仍然第一,但我没法区分其中用台式机(主要是17CRT)和普屏笔记本的比例,从很有特点的第二位分辨率1280×800(典型的宽屏笔记本分辨率)中可以推测,笔记本的比例应该高于多数网站,而我们有理由相信,使用笔记本的用户是相对高端的。第三位1280×1024是典型的17LCD分辨率,是比较常见的办公电脑。再往后是19~22寸宽屏LCD,和一位设计师交流过,他的网站1440×9001680×1050比例明显偏高,正好可以解释为设计师多用宽屏。排第六的是14寸高分屏的笔记本,排第七的分辨率好奇怪,有这么多人在用?……

各种来源的访客比例如下图,搜索引擎过来的还太少,而推介网站来的最多,访客数超过100的依次如下:


这当然和我主推的方向互为因果,各个来源的质量没有特别差的,倒是排在第14白鸦的blog,来了48位访客,质量超高:平均访问6.15页面,停留1224秒。

嗯,很有意思,有没有同学也自爆一下,哈哈。

VN:F [1.2.0_562]
Rating: 4.9/5 (16 votes cast)

产品设计体会(1013)日志分析的商业价值

2009年3月18日

最近和不少人聊到数据分析的话题,所以举个小例子,证明一下数据分析确实是能转化为商业价值的。整体的思路是:在对产品足够熟悉的基础上,先做出方向性的假设,再提取相应的数据并分析,得到一些现象,最好是之前没发现的现象,然后尝试解释,接下来做用户调研修正解释,最终指导产品发展方向。

2008年底的时候,对手头一个产品的用户数据做过一些分析(因为是企业用户,所以下文中“用户”与“公司”其实是一个概念),发现了一条很销魂的曲线,由于更详细的数据不便公布,所以仅就一点为例谈谈。我们的目标是希望产品的用户能更活跃,活跃的一个指标就是更多的登录,所以方向选定,尝试分析登录日志。

直接上图,图中的横轴是把所有付费用户的第一次登录日期对其(表征“开始使用”),查看他们在此之后6个月的活跃情况;纵轴是这几千家公司的总体活跃情况(可以简单的理解成纵轴数值越高,用户登录越多),可以看到,活跃公司的比例变化明显分为4期,特别是14个月之间出现了先下降再上升到现象,于是我们先尝试着解释:

该产品是通过经销商销售的,在卖出去之后,经销商也会登录产品帮助用户做一些辅助工作,所以产品的登录行为有经销商登录和用户登录两部分,虽然在技术上无法区分,但两种行为确实各有特点。

第一阶段:1个月,活跃度考察的是1个月内用户的登录多少,所以30天内活跃度不断上升达到峰值,约60%。这段时间内,经销商登录较多,帮助用户初始化。

第二阶段:13个月,活跃公司比例缓慢下降到约40%,其间包含两部分,经销商行为和用户行为:

Ø 经销商行为只有一个作用:衰减,这个衰减绝对比图中的更陡峭;

Ø 用户行为有两方面:衰减与增加,而增加是大于衰减的,从第三阶段可以看出;

第三阶段:34个月,活跃公司比例逐渐上升到60%,这是因为到3个月之后,几乎再没有经销商行为了,完全是用户登录,并且经过34个月的使用,用户已经通过产品带来实际价值,所以使用的更多;

第四阶段:4个月以后,稳定在60%弱一点,进入动态平衡期。

接下来我们为了验证上述观点,做了一些电话调研,试图区分出经销商登录和用户登录,果然让我们发现,两种人的主流行为是通过不同入口登录的,经销商通常从A入口登录,因为他们要做的辅助操作从这里做方便,而用户通常从B入口登录,因为日常操作更多在这里。

由上述分析,可以分离出经销商和用户两种登录行为造成的曲线,按理说应该分开画出两张图的,可惜时间太久,我看了一会日志分析的代码发现搞不定,暂时作罢,等有机会拿最新的数据再看一次,它们的叠加就是上图,手绘的凑合看看。

好,问题来了,分析着玩儿的么?商业价值呢?有两点。

一方面,我们会考核经销商手下用户的活跃度,目的当然是为了让他们更多的服务用户,指导用户使用以促进活跃,但有的经销商会耍小聪明,通过自己登录来忽悠我们。原来我们很苦恼,现在似乎可以通过登录行为的分析,对这种情况做一个粗糙的判断,如果有些用户登录的增加是A入口为主,再关联这些用户的经销商分析,就能够找出作弊的经销商,以示惩戒。

另一方面,这次分析告诉我们,对我们有实际意义的是用户从B入口的登录,所以产品的优化重点应该放在B入口,另一个数据也证明了上面的推论:有某种登录行为的群体,在出现该行为后几个月的活跃度情况,如下表。基本上只要出现过“B入口登录”,之后用户的活跃度就会很高,是真正的用户登录,事实上,这次数据分析指导了产品改进,后来,我们对B入口登录的引导做了很多事情,比如降低门槛,运营推广,在宣传手册、光盘上重点说明等等,起到了不错的效果。

出现某种登录行为的群体

1月后

2月后

3月后

A入口一周内登录>=2

68.7%

56.8%

58.1%

A入口两周内登录>=8

92.0%

81.8%

78.1%

B入口一周内登录>=2

95.4%

91.2%

87.1%

B入口两周内登录>=8

99.6%

96.4%

94.4%

本文中的数据是用Matlab做的分析,这是个巧合,正好上学的时候一直拿它做数据挖掘。常有这种体会,之前学过的东西,当时不知道有什么用,多年以后说不定什么地方还真的用上了,很爽

VN:F [1.2.0_562]
Rating: 3.9/5 (14 votes cast)

产品设计体会(1002)初探数据分析

2009年1月17日

只要你做的是一个大用户量的产品,互联网的产品往往都有这个特点,那么我们能听到都只能是少部分用户的声音,他们是否代表大多数用户是无从判断的。虽然绝大多数情况下的经验证明,只要在用户的选择上没犯什么低级失误,他们是具有代表性(接受这种假设是一种性价比很高的廉价解决方案),而还有一招就是让数据来说话,看看用户到底是怎么做的,所谓according to the data是最难被驳倒的。

其实原来读研的时候,我做的就是统计分析、数据挖掘相关的课题,但工作以来,深深的体会到,实际的生产和科研是有很大不同的。科学研究很注重“性价比”的性,只要结果好,往往不在乎投入,因为科研的结果不是为了应用(相对而言),而是为了证明实力,同理,很多公司的高端产品也是为了证明实力,并不是为了挣钱或者市场占有率。

而实际生产环境更注重综合的性价比了,所以我们不再需要用独立分量去分析每次运营、每个功能改进所带来的流量变化,不再需要用人工神经网络预测产品将来的用户数,甚至给出A>B结论的时候也不需要做显著性检验,一切的一切需要的只是一种sense,一种对数据的敏感,最商业的敏感。

要意识到,用户怎么说怎么做是不同的,其实用户的语言不如行为更能反应出他的真实需求,比如用户说在搜索客户的时候应该加一个按交易额搜索,也许只是他某次特殊的需要使然,但我们通过用户行为的数据分析可以发现,这个功能上了之后只有1/10000的人用,这就是我们被用户的说法骗了,但数据永远不会骗我们。

问题在于,手头经常是有枪没子弹的状况,其实数据分析的方法很多,但很多时候苦于拿不到数据,这是我们需要考虑的,在产品设计的时候就要把用户数据提取的需求加进去,这也是一类非功能需求,这样才能做到产品的可持续发展。

VN:F [1.2.0_562]
Rating: 4.4/5 (7 votes cast)