当前位置:主页 > 科技宇宙 >[讨论] 如何从一开始就设计好资料分析的基本框架 >

[讨论] 如何从一开始就设计好资料分析的基本框架

评论161条

【引子】
Porterfield的最新创业项目是Looker,一个商业资料分析解决方案提供商。主人公在下面这篇文章中向我们讲解创业者们如何可以从一开始就设计好资料分析的基本框架:将资料储存于何处?用什幺工具分析最好?可以规避哪些常见的错误?以及,今天的你如何亡羊补牢?
关于资料分析,避免6个错误
1. 走得太快,没空回头看路
初创公司里的人们彷彿一直在被人念着紧箍咒:「要幺快要幺死,要幺快要幺死。」他们是如此着急于产品开发,以至于他们常常没有空想用户对产品的具体使用细节,产品在哪些场景怎幺被使用,产品的哪些部分被使用,以及用户回头二次使用产品的原因主要有哪些。而这些问题如果没有资料难以回答。
2.你没有记录足够的资料
光给你的团队看呈现总结出来的资料是没有用的。如果没有精确到日乃至小时的变化明细,你无法分析出来资料变化背后看不见的手。如果只是粗放的,断续的统计,没有人可以解读出各种细微因素对于销售或者用户使用习惯的影响。
与此同时,资料储存越来越便宜。同时做大量的分析也不是什幺高风险的事情,只要买足够的空间就不会有system breakdown的风险。因此,记录儘可能多的资料总不会是一件坏事。
不要害怕量大。对于初创企业来说,巨量资料其实还是比较少见的事情。如果正处于初创期的你果真(幸运地)有这样的困扰,Porterfield(本文)推荐使用一个叫Hadoop的平台。
3. 其实你的团队成员常常感觉自己在盲人摸象
许多公司以为他们把资料扔给Mixpanel, Kissmetrics,或者Google Analytics就够了,但他们常常忽略了团队的哪些成员能真正解读这些资料的内在含义。你需要经常提醒团队里面每一位成员多去理解这些资料,并更多地基于资料来做决策。要不然,你的产品团队只会盲目地开发产品,并祈祷能踩中热点,不管最终成功还是失败了都是一头雾水。
举例:
有天你决定採用市场上常见的病毒营销手段吸引新用户。如你所愿,用户量啪啪啪地上来了。可此时你会遇到新的迷茫:你无法衡量这个营销手段对老用户的影响。人们可能被吸引眼球,注册为新用户,然后厌倦而不再使用。你可能为吸引了一帮没有价值的用户付出了过高的代价。而你的产品团队可能还在沾沾自喜,认为这个损害产品的营销手段是成功的。
这种傻错误经常发生。而如果你的企业在一开始就建立起人人可自助使用的资料平台,来解答他们工作中最重要的疑惑,则可以避免上文所说的悲剧。
4. 把资料存放在不合适的地方
先让我们来看一个正确示範吧。Porerfield提到他有个客户整合了NoSQL, Redshift,Kitnesis以及Looker的资源自创了一个资料分析框架。这个框架不仅能在很高的量级上捕获及储存自己的资料,还能承受每月数以百万计的点击流量,还能让所有人查询自己想要的资料。这个系统甚至可以让不懂SQL语言的小白用户们真正理解资料的意义。而在资料分析的世界里,基本上如果你不会SQL, 你就完蛋了。如果总是要等待工程师去把资料跑出来,那就是把自己陷入困境。而工程师在不理解需求的情况下建立的演算法或者买的软体对于使用者来说往往是个煎熬,因为他们对资料的使用往往与前者不再同一水平线上。
你需要让你所有的资料都存放在同一个地方。这个是关键关键最关键的原则。

让我们回到前文那个假设存在的公司。他们做了一个又一个病毒营销,但是没有把用户活动资料放在同一框架内,所以他们无法分析一个活动是如何关联到另一个活动的。他们也无法进行一个横跨日常运营以及活动期间的资料分析比较。
很多公司把资料发给外包商储存,然后就当甩手掌柜了。可是常常这些资料到了外包商手里就会变成其他形式,而转化回来则需要不少工序。这些资料往往是某些宣传造势活动时期你的网站或者产品的相关资料。结合日常运营资料来看,你可以挖掘哪些活动促成了用户转化。而这样结合日常运营资料来分析用户使用历程的方式是至关重要的。但令人震惊的是,儘管任何时期的所有运营资料都至关重要,许多公司仍不屑于捕获及记录他们。约一半以上Porterfield所见过的公司都将日常运营资料与活动资料分开来看。这样严重妨碍了公司正确地理解与决策。
5. 目光短浅
任何一个好的资料分析框架在设计之初都必须满足长期使用的需要。诚然,你总是可以调整你的框架。但资料积累越多,做调整的代价越大。而且常常做出调整后,你需要同时记录新旧两套系统来确保资料不会丢失。
因此,我们最好能在第一天就把框架设计好。其中一个简单粗暴有效地方法就是所有能获取的资料放在同一个可延展的平台。不需要浪费时间选择一个最优解决方法,只要确认这个平台可以装得下所有将来可能用到的资料,且跨平台也能跑起来就行了。一般来说这样的原始平台能至少支撑一到两年。
6. 过度总结
虽然说这个问题对于拥有巨量资料分析团队的公司来说更常见,初创公司最好也能注意避免掉。试想一下,有多少公司只是记录平均每分钟多少销售额,而不是具体每一分钟销售了多少金额?在过去由于运算能力有限,我们只能把海量资料总结成几个点来看。但在当下,这些运算量根本不是问题,所有人都可以把运营资料精确到分钟来记录。而这些精确的记录可以告诉你海量的信息,比如为什幺转化率在上升或者下降。
人们常常自我陶醉于做出了几张漂亮的图标或者PPT。这些总结性的表达看上去很令人振奋,但我们不应该基于这些肤浅的总结来做决策,因为这些漂亮的总结性陈述并不能真正反映问题的实质。相反,我们更应该关注极端值(Outliers)。
3个简单防护措施,帮你少走弯路
少犯错误远比你想的重要,因为错误一旦发生,很容易耗费大量的工程时间和资源来弥补错误。如果不小心,你的工程师们可能花费昂贵的时间来为销售团队解码资料,可能错过无数宝贵的营销机会。每当资料变得难使用或者理解时,你的团队决策速度会变慢,因此你的生意进展必将受到拖累
好消息是,如果你从有用户伊始就採用以下3个简单的防护措施,你一定可以避免走很多弯路。
1. 任命一个商业资料首席工程师
如果你能在团队中找到一个队资料分析真正有兴趣的工程师,你可以让他负责记录管理所有资料。这将为整个团队节省海量的时间。Porterfield 分享到,在Looker, 这样的一个商业资料首席工程师负责写能记录所有资料的脚本,从而方便大家总是能在同一个资料库内获取需要的信息。事实证明,这是个简单有效的方法,极大地提高了团队的工作效率。
2. 把资料放在开放的平台上
Porterfield强力推荐大家使用类似于Snowplow的开源平台,以能实时记录所有与产品相关的活动事件资料。它使用方便,有好的技术支援,可以放量使用。而最棒的一点,它能与你其余的资料框架很好的兼容。
3. 儘快将你的资料迁移到AWS Redshift或者其它大规模并行处理资料库(MPP)上
对于还处于早期的公司来说,类似于Redshift这种基于云端的MPP经常就是最好的选择。因为他们价格便宜,便于部署和管理,并且扩展性强。在理想状况下,你会希望从公司有记录之初就将你的事件与操作的资料写入亚马逊Redshift之中。「使用Redshift的好处在于这个平台便宜,迅速,可访问性高,」Porterfield说。并且,对于那些已经使用AWS服务的人来说,它(使用redshift)可以无缝接入你已有的架构中。你可以很容易的建设一个资料通道把资料直接传入这个系统中进行分析处理。「Redshift能让你灵活的写入巨量的颗粒状的资料而并不根据事件触发量的多少这样难以估计的参数来收费,」他说。「其它的服务会根据你储存事件的多少来收费,所以当越来越多的人使用你的产品时,越来越多的操作资料会被记录下来,这会导致最终的收费像火箭一样越升越高。」
如何用资料分析佔领市场先机?
资料分析的价值取决于它能如何帮助你佔领市场先机。作为初创公司,所有的资料应该被用于你对公司不同阶段设立的目标上。
举例
一个快递公司通常会检测平均送达每件货物的时间。这看上去是很关键的资料,但如果没有充分的上下文(毕竟收货人可能在一个街区外,也可能在几百公里外),这也是没有意义的。另一个角度上,平均送货时间也没有收货人的整体满意度重要。因此,你必须确保你的分析囊括了正确的资料。
请列举量化你需要的结果:你希望你的客户体验是怎幺样的?一些常见的成功资料分析会基于销售或用户转化率(即如果客户做了叉叉事情以后会购买或者成为用户),转化需要的时间,以及让客户产生负面体验的比例。你会希望第一个比例很高,而后两者降低。
通常来说,媒体网站会全然以网页浏览量论英雄。但现在他们也开始注意一个叫做「注意力停留时长」的指标:人们在某个页面专注多长时间,是否注意到某些字句,是否在上下拖动页面,是否有看视频,等等。他们不仅仅实在看用户在某个页面停留了多少时间,他们更需要知道用户被页面中的哪些部分吸引,且积极专注地浏览了多少时间。这样可以帮助媒体网站设计新的标题,页面设计和内容选择,以延长这样的注意力停留时长。这样,他们可以革新网站设计的方式,来更好地打动他们的受众。
另一个重点是监测留存用户。成功的资料分析可以同时涵盖日常运营资料以及活动资料,并横向分析。如果你仅仅看日常运营资料,你能知道哪些人会回访你的网站,哪些人可以达成复购。但你还需了解哪些回访网站却没有复购的人群: 为什幺他们不愿意再次购买?这样的问题可以通过介乎运营与活动资料分析来找到答案。活动资料会告诉你哪些没有购买行为的客户按照何种顺序浏览网站,注意到了什幺,点击了什幺,在离开网站前做了什幺。当你跟蹤这个线路,你可以了解如何修改这种行为,来增加他们下次访问时购买的可能性。
为了设计最适合你的资料篮子,你可以参考以下三个建议:
1. 寻找一类合适的用户行为;
2. 测算多少比例的受众会有这一类的用户行为;
3. 测试这一类用户行为是不是包含了重要的信息。
有时候,发明一个新的资料记录篮子可以促成对公司很大的改变。
举例
拿Venmo(翻译君注:一个纽约的小额支付平台)举个栗子吧。有段时间,公司的支付APP团队听说很多本想向朋友索取款项的用户不慎把钱反而支付给了朋友,因为「索取款项」和「支付款项」的按钮放在一块很容易按错。然而公司并不知道这个问题有多普遍,是否值得公司重新设计用户界面。为了更好地做决策,他们设计了一个新的资料系统来检测这个索取/支付失误有多常见。他们把「A向B付款后不久B双倍将款项付给了A」这种奇怪的支付行为全都找了出来。结果显示,这个情况经常发生。所以在下次的产品更新中,他们修复了这个问题。
让你的资料可分享
阻碍团队轻鬆分享资料的罪魁祸首常常是资料的定义。因此,从一开始你最好充分完整地定义你的资料。可以考虑建立一个中央辞彙表wiki page, 来让每个成员更容易理解。Porterfield指出,人们喜欢用奇怪的词语给资料命名。比如「Ratio」这个词就常备滥用,因为他们命名时常没有把分子分母讲清楚。
资料是大部分成功公司的生命线。好的资料分享不仅能增加公司的透明度,还能加强不同部门之间的协作。比如在很多公司里,不同部门常常会各自找工程师生成不同资料来回答同一问题。而如果有一个好的分享资料平台这样的浪费时间精力可以被避免。
另外,让资料形象化也是一个好平台能轻易做到的。把颗粒资料形象化为图表可以让团队的每一个成员更好地解读这些资料。对于大部分人来说,理解图表比理解表格容易得多,因此把资料形象化可以帮助交流更加顺畅。
不好的资料分析框架只会打击人们的自信心。它会无形地把公司分为两个派别:懂资料的大神以及不懂资料的白痴。这是个很常见的危险错误。你必须让公司最小白的资料用户都能轻鬆地生成自己需要的图表并理解它。这是选择资料平台的一个基本原则。
Poterfield总结道:好的资料分析能让人们更有準备地去开会,帮销售团队问出更到位的问题,免去了无谓的猜测。人们不用再猜测他们的用户在寻找什幺,或者为什幺他们达成销售,或者为什幺他们不再回头。人们也不用再猜测其他团队的同事知道或者不知道什幺。而这一切都要归功于从一开始就把资料框架设计好。

4500+企业选择FineReport报表与 BI 商业智慧工具【免费下载】
opensource开发,类excel设计,全方位异质资料库整合,资料填报、Flash列印、权限控制、行动应用、客制化、交互分析、报表协同作业管理系统。
分享自:资料观

  • 相关推荐:
  • 您可能喜欢得内容: