用户行为分析有哪些比较好的公司?
企业在选择用户行为分析工具时,大都不清楚如何选择适合自己业务的用户行为分析工具。笔者自己公司之前网站分析用百度统计APP分析用友盟,公司是做电商行业的,最近公司提出要精细化运营,用数据驱动业务增长,因此在10月份分别考察了国内做得比较出色的几家公司:数极客(阿里系)、神策数据(百度系)和GrowingIO(linkedIn系)三家公司的用户行为分析产品。
我在选型过程中将各家公司的功能和服务对比文档进行整理,从团队背景和产品定位、数据接入方式、定量分析功能、定性分析功能、二次开发与数据应用、服务项目等六个主要方面深入对比数极客、神策、GrowingIO三大用户行为分析平台,希望能对有用户行为分析需求的企业在选择分析平台时有所帮助。
分享一篇比较全面的文章:国内主流新一代用户行为分析系统选型过程分享,请自己百度搜索。
什么是用户行为分析?怎么做用户行为分析?
一、什么是用户行为分析?
用户行为可以用5W2H来总结:
Who(谁)、What(做了什么行为)、When(什么时间)、Where(在哪里)、Why(目的是什么)、How(通过什么方式),How much (用了多长时间、花了多少钱)。
用户行为分析就是通过对这些数据进行统计、分析,从中发现用户使用产品的规律,并将这些规律与网站的营销策略、产品功能、运营策略相结合,发现营销、产品和运营中可能存在的问题,解决这些问题就能优化用户体验、实现更精细和精准的运营与营销,让产品获得更好的增长。
二、为什么需要用户行为分析?
在PC互联网时代,网民的年增长率达到50%,随便建个网站就能得到大量流量; 在移动互联网早期,APP也经历了一波流量红利,获取一个客户的成本不到1元; 而近几年随着流量增长的红利消退,竞争越来越激烈,每个领域均有成百上千的同行竞争,获客成本也飙升到难以承受的水平,业务增长越来越慢甚至倒退。
图:互联网行业竞争越来越激烈
在如此高成本、高竞争的环境下,如果企业内部不能利用数据分析做好精细化运营,将产生巨大的资源浪费,势必会让企业的运营成本高涨,缺乏竞争力。 对于互联网平台来说,传统的数据分析主要针对结果类的数据进行分析,而缺乏对产生结果的用户行为过程的分析,因此数据分析的价值相对较局限,这也是为什么近几年很多企业感觉做了充分的数据分析,但却没有太大效果的原因。
通过对用户行为的5W2H进行分析可以掌握用户从哪里来,进行了哪些操作,为什么流失,从哪里流失等等。从而提升提升用户体验,平台的转化率,用精细化运营使企业获得业务增长。
三、如何采集用户行为数据?
用户行为分析如此重要,为什么互联网公司中能做好用户行为分析的凤毛麟角?主要是原因是数据采集不全面和分析模型不完善。
1.如何高效采集用户行为数据
传统的数据分析因为数据精细度不够和分析模型不完善等原因,导致分析过于粗放,分析结果的应用价值低。而我们要想做好分析,首先必须要有丰富的数据,因此要从数据采集说起,传统的用户行为数据采集方法比较低效,例如:我们获取用户的某个行为数据时,需要在相应的按钮、链接、或页面等加入监测代码,才能知道有多少人点击了这个按钮,点击了这个页面。这种方式被称为“埋点”,埋点需要耗费大量的人力,精力,过程繁琐,导致人力物力投入成本过高。
在移动互联网时代,埋点成了更痛苦的一件工作,因为每次埋点后都需要发布到应用商店,苹果应用商店的审核周期又是硬伤,这使得数据获取的时效性更加大打折扣。由于数据分析是业务发展中极其重要的一个环节,即便人力物力成本过高,这项工作仍然无法省掉。
因此,我们也看到国内外有一些优秀的用户行为分析工具,实现了无埋点采集的功能,例如:国外有Mixpanel,国内的数极客在WEB、H5、Android、iOS四端都可以无埋点采集数据。通过无埋点的采集,可以极大的增强数据的完善性和及时性。
2.如何精准采集用户行为数据
有些核心业务数据,我们希望确保100%准确,因此还可以通过后端埋点的方式作为补充,这样既可以体验到无埋点带来的高效便捷,又能保障核心业务数据的精准性。数极客在数据采集方面支持无埋点、前端埋点、后端埋点以及数极客BI导入数据这四种方式的数据整合。
四、如何做好用户行为分析?
首先要明确业务目标,深刻理解业务流程,根据目标,找出需要监测的关键数据节点,做好基础的数据的收集和整理工作,有了足够的数据,还要有科学的模型,才能更有效的支持分析结果。
上一代的用户行为分析工具(更确切的说法应该是:网站统计或APP统计),主要功能还是局限于浏览行为的分析,而没有针对用户的深度交互行为进行分析,因此分析价值相对有限,目前大部份互联网从业人员对用户行为分析的印象还停留在这个阶段。
我认为要做好用户行为分析,应该掌握以下的分析模型:
1.用户行为全程追踪,支持AARRR模型
500 Startups 投资人Dave McClure提出了一套分析不同阶段用户获取的“海盗指标”这套分析模型,在硅谷得到了广泛应用。
AARRR是Acquisition、Activation、Retention、Revenue、Refer这个五个单词的缩写,分别对应用户生命周期中的5个重要环节,首先要基于用户的完整生命周期来做用户行为分析。
1).获取用户
在营销推广中,什么渠道带来的流量最高,渠道的ROI如何?不同广告内容的转化率如何,都是在这一步进行分析的数据。
来源渠道是获客的第一步,通过系统自动识别和自定义渠道相结合,分析每一个来源渠道的留存、转化效果。网站的访问来源,App 的下载渠道,以及各搜索引擎的搜索关键词,通过数据分析平台都可以很方便的进行统计和分析,利用UTM推广参数的多维分析、通过推广渠道、活动名称、展示媒介、广告内容、关键词和着陆页进行交叉分析,可以甄别优质渠道和劣质渠道,精细化追踪,提高渠道 ROI。
通过渠道质量模型,制定相应的获客推广策略:
图:渠道质量模型
以上图形中的所示渠道为示例,渠道质量也会动态的变化。 第一象限,渠道质量又高流量又大,应该继续保持渠道的投放策略和投放力度; 第二象限 渠道的质量比较高但流量比较小。应该加大渠道的投放,并持续关注渠道质量变化; 第三象限 这个象限里渠道质量又差,带来流量又小,应该谨慎调整逐步优化掉这个渠道; 第四象限 渠道质量比较差,但是流量较大,应该分析渠道数据做更精准的投放,提高渠道质量。
2).激活用户
激活用户是实现商业目标最关键的第一步,如果每天有大量用户来使用你的产品,但没有用户和你建立强联系,你就无法进行后续的运营行为。
3).用户留存
如今一款产品要获得成功的关键因素不是病毒性机制或大笔营销资金,而是用户留存率。开发出吸引用户回头的产品至关重要。 Facebook平台存在“40 – 20 – 10”留存法则。数字表示的是日留存率、周留存率和月留存率,如果你想让产品的DAU超过100万,那么日留存率应该大于40%,周留存率和月留存率分别大于20%和10%。
留存是 AARRR 模型中重要的环节之一,只有做好了留存,才能保障新用户在注册后不会白白流失。这就好像一个不断漏水的篮子,如果不去修补底下的裂缝,而只顾着往里倒水,是很难获得持续的增长的。
4).获取收入
实现收入是每个平台生存的根本,因此找到适合自己的商业模式至关重要。根据不同的业务模式,获取收入的方式也不同:媒体类平台依靠广告变现,游戏类依靠用户付费,电商类通过收取佣金或卖家付费的方式等,而在企业服务领域LTV: CAC大于3,才能有效良性增长。
5).病毒传播
通过模型前四个阶段的优化分析,从不稳定用户、活跃用户再到最终的忠实用户,将获客做最大的留存和转化,培养为企业的忠实用户,通过社交口碑传播可以给企业带来高效的收益。
在获客成本高昂的今天,社交传播可以为企业带来更优质的用户群,更低的获客成本。
2.转化分析模型
转化率是持续经营的核心,因此我也用较大篇幅来详细解读。转化分析常用的工具是转化漏斗,简称漏斗(funnel)。新用户在注册流程中不断流失,最终形成一个类似漏斗的形状。用户行为数据分析的过程中,我们不仅看最终的转化率,也关心转化的每一步的转化率。
1).如何科学的构建漏斗
以往我们会通过产品和运营的经验去构建漏斗,但这个漏斗是否具有代表性,优化这个漏斗对于整体转化率的提升有多大作用,心里没有底气,这时我们可以通过用户流向分析去了解用户的主流路径。
图:用户流向分析
用户流向分析,非常直观,但需要分析人员有一定的经验和判断能力。为了解决这个问题,数极客研发了智能路径分析功能,只需要选择转化目标后,一键就能分析出用户转化的主流路径。将创建漏斗的效率缩短到了几秒钟。
图:智能转化分析
2).漏斗对比分析法
转化分析仅用普通的漏斗是不够的,需要分析影响转化的细节因素,能否进行细分和对比分析非常关键。例如:转化漏斗按用户来源渠道对比,可以掌握不同渠道的转化差异用于优化渠道; 而按用户设备对比,则可以了解不同设备的用户的转化差异(例如:一款价格较高的产品,从下单到支付转化率,使用iphone的用户比android的用户明显要高)。
图:漏斗对比分析
3).漏斗与用户流向结合分析法
一般的转化漏斗只有主干流程,而没有每个步骤流入流出的详细信息,当我们在分析用户注册转化时,如果能知道没有转化到下一步的用户去了哪,我们就能更有效的规划好用户的转化路径。例如下图中的转化路径,没有进入第二步的用户,有88%是直接离开了,而还有10%的用户是注册用户选择直接登录,只有2%的用户绕过了落地页去网站首页了; 而没有从第二步转化至第三步的用户100%都离开了。这是比较典型的封闭式落地页,因此只需要优化第三步的转化率即可提升整体转化率。
4).微转化行为分析法
很多行为分析产品只能分析到功能层级和事件层级的转化,但在用户交互细节分析方面存在严重的缺失, 比如:在上图的漏斗中我们分析出最后一步是影响转化的关键,但最后一步是注册表单,因此对于填写表单的细节行为分析就至关重要, 这种行为我们称为微转化。
例如:填写表单所花费的时长,填写但没有提交表单的用户在填哪个字段时流失,表单字段空白率等表单填写行为。
图:表单填写转化漏斗
图:表单填写时长
通过上述表单填写的微转化分析,用户从开始填写到注册成功转化率达85%,而流量到填写只有8%,可以得出影响转化的最大泄漏点就是填写率,那么如何提高填写率就是我们提升注册转化的核心。有效的内容和精准的渠道是影响填写的核心因素,渠道因素我们在获客分析中已经讲过,这就引出我们微转化分析的第4种工具:用户注意力分析。
5).用户注意力分析法
用户在页面上的点击、浏览、在页面元素上的停留时长、滚动屏幕等用户与页面内容的交互行为,这些都代表用户对产品要展示的信息的关注程度,是否能吸引用户的眼球。
业务数据可以可视化,那么行为数据如何可视化呢? 数极客把上述行为转化成了分屏触达率热图、链接点击图、页面点击图、浏览热图、注意力热图这5种热图,通过5种热图的交叉分析,可以有效的分析出用户最关注的内容。
图:注意力热图
只有能掌握微转化的交互行为分析,才能更有效的提高转化率。而一切不能有效提高平台转化率的分析工具都在浪费企业的人力和时间资源,这也是众多企业没有从用户行为分析中获益的根本原因。
3.精细化运营模型
以前做运营只能针对全体用户,如果要针对部分目标客户做精准运营行为。
图:用户分群画像
例如:当我们希望对某个地区使用iphone的注册但三天不活跃或未形成交易转化的用户进行精准营销时,需要运营人员、产品人员、技术人员 全体配合去调取数据、制定运营规则,其中涉及到大量人力和时间投入。而新一代的用户行为分析可以采用用户分群、用户画像、自定义用户活跃和留存行为,精准的定位用户,从而实现精细化运营。
图:创建用户分群
4.定性分析模型
用户体验是企业的头等大事,在产品设计、用户研究、研发、运营、营销、客户服务等众多环节,都需要掌握用户的真实体验过程。但如何优化用户体验向来是内部争议较多,主要原因还是难以具体和形象的描述。通过行为分析分现异常用户行为时,能否重现用户使用你的产品时的具体场景,这对于优化产品的体验至关重要。
以前我在淘宝时,用户体验部门会通过邀请用户到公司进行访谈,做可用性实验的方式来进行体验优化,但这种方式需要化费比较多的时间和费用投入,样本不一定具有代表性。为了解决这个难题,数极客研发了用户行为录屏工具,无需邀请用户到公司实地录制节省成本,直观高效的以视频形式还原用户的真实操作,使得企业各岗位均能掌握用户体验一手信息,帮助产品研发提高用户体验。
图:用户行为录屏播放界面
总结:通过AAARRR模型分析用户生命周期全程; 通过转化率分析模型 提高产品转化率; 通过精细化运营 提高运营有效性; 通过定性分析方法 优化用户体验; 如果以上4方面都做好了,就一定可以通过用户行为分析实现业务增长。
五、用户行为分析的未来方向是什么?
有很多人问我,为什么已经有几家做用户行为分析的公司了,你还要创办数极客? 我认为数据分析的目标是应用分析结果优化经营效率,而国内外主要的分析工具,还只停留在分析层面,对于如何高效的应用还有很大的空间。因此数极客除了要在分析层面做得更专业和更有效,还要在应用层面实现新的突破。数据分析结果反映的问题主要是两类:运营(含营销)和产品。所以需要针对这两类问题提供针对性的解决方案。
1.运营的自动化
我们前面讲了,通过用户行为分析系统可以实现精细化运营,但具体应用还需要人工制定运营和营销策略,通过产品、研发开发才能应用,而且当策略改变时,需要重新开发相应的工具,这也占用了很多时间,影响运营与营销效率。数极客研发了会员营销系统和自动化运营工具,运营与营销人员直接设置规则,系统根据规则自动将精准的活动信息推送给符合条件的用户,直接提高运营人员工作效率,运营人员可以将工作重心转移到策划而不是浪费太量时间在重复执行,自动化运营可为企业节约大量运营成本。
图:创建自动化运营规则
2.产品、运营(营销)方面的科学决策
用户行为数据分析,往往是在行为发生之后进行分析,而产品、运营都是通过经验,拍脑袋进行决策,一旦决策失误就会造成难以挽回的结果。因此如果能在产品、运营方案上线前,通过用户分流A/B测试进行小范围验证,选择其中最优的方案发布,这样就可以大大提高决策的科学性。
Google每年通过运行数万次A/B测试优化产品、运营,为公司带来了100亿美元的收益。
A/B测试的方法非常有效,但国内互联网公司应用不普遍,主要和应用A/B测试的复杂性有关,
数极客拥有完整的A/B测试工具,业务人员可以在网站和APP上自助使用可视化试验编辑工具,创建并运行试验,通过自动解读测试报告,使得A/B测试门槛大大降低。
图:网站端可视化编辑试验工具
3.分析的自动化
用户行为分析有一定专业性,不仅需要掌握不同的分析方法,还要熟悉业务,结合业务才能给出有价值的分析结果。 如果能像360安全卫士一样,只需要加载SDK,就能自动诊断和分析,并给出解决方案,这是数据分析的未来方向,数极客在这方面也有积极的尝试,并有了初步成果,目前拥有数据自动预警、自动报表等功能。
用户行为分析是一门科学,善于获取数据、分析数据、应用数据,是每个人做好工作的基本功,每家企业都应该加强对用户行为分析大数据的应用,从数据中找出规律,用数据驱动企业增长。
数极客是国内新一代用户行为分析平台,是增长黑客必备的大数据分析工具,支持APP数据分析和网站分析,独创了6大转化率分析模型,是用户行为分析领域首家应用定量分析与定性分析方法的数据分析产品,并且基于用户行为分析系统,提供了会员营销系统和A/B测试工具两大数据智能应用解决方案,使得企业可以快速的实现数据驱动增长。
本文由数极客CEO谢荣生原创,欢迎转载,转载请保留全文和作者信息。
用户行为分析系统建立所需步骤和所需软件
Web日志挖掘分析的方法
日志文件的格式及其包含的信息
①2006-10-17 00:00:00②202.200.44.43 ③218.77.130.24 80 ④GET ⑤/favicon.ico
⑥Mozilla/5.0+(Windows;+U;+Windows+NT+5.1;+zh-CN;+rv:1.8.0.3)+Gecko/20060426
+Firefox/1.5.0.3。
①访问时间;②用户IP地址;③访问的URL,端口;④请求方法(“GET”、“POST”等);
⑤访问模式;⑥agent,即用户使用的操作系统类型和浏览器软件。
一、日志的简单分析
1、注意那些被频繁访问的资源
2、注意那些你网站上不存在资源的请求。常见的扫描式攻击还包括传递恶意参数等:
3、观察搜索引擎蜘蛛的来访情况
4、观察访客行为
应敌之策:
1、封杀某个IP
2、封杀某个浏览器类型(Agent)
3、封杀某个来源(Referer)
4、防盗链
5、文件重命名
作用:
1.对访问时间进行统计,可以得到服务器在某些时间段的访问情况。
2.对IP进行统计,可以得到用户的分布情况。
3.对请求URL的统计,可以得到网站页面关注情况。
4.对错误请求的统计,可以更正有问题的页面。
二、Web挖掘
根据所挖掘的Web 数据的类型,可以将Web 数据挖掘分为以下三类:Web 内容挖掘(Web Content Mining)、Web 结构挖掘(Web Structure Mining)、Web 使用挖掘(Web Usage Mining)(也称为Web日志挖掘)。
①Web内容挖掘。Web内容挖掘是指从文档的内容中提取知识。Web内容挖掘又分为文本挖掘和多媒体挖掘。目前多媒体数据的挖掘研究还处于探索阶段,Web文本挖掘已经有了比较实用的功能。Web文本挖掘可以对Web上大量文档集合的内容进行总结、分类、聚类、关联分析,以及利用Web文档进行趋势预测等。Web文档中的标记,例如Title和Heading等蕴含了额外的信息,可以利用这些信息来加强Web文本挖掘的作用。
②Web结构挖掘。Web结构挖掘是从Web的组织结构和链接关系中推导知识。它不仅仅局限于文档之间的超链接结构,还包括文档内部的结构。文档中的URL目录路径的结构等。Web结构挖掘能够利用网页间的超链接信息对搜索引擎的检索结果进行相关度排序,寻找个人主页和相似网页,提高Web搜索蜘蛛在网上的爬行效率,沿着超链接优先爬行。Web结构挖掘还可以用于对Web页进行分类、预测用户的Web链接使用及Web链接属性的可视化。对各个商业搜索引擎索引用的页数量进行统计分析等。
③Web使用记录挖掘。Web使用记录挖掘是指从Web的使用记录中提取感兴趣的模式,目前Web使用记录挖掘方面的研究较多,WWW中的每个服务器都保留了访问日志,记录了关于用户访问和交互的信息,可以通过分析和研究Web日志记录中的规律,来识别网站的潜在用户;可以用基于扩展有向树模型来识别用户浏览序列模式,从而进行Web日志挖掘;可以根据用户访问的Web记录挖掘用户的兴趣关联规则,存放在兴趣关联知识库中,作为对用户行为进行预测的依据,从而为用户预取一些Web页面,加快用户获取页面的速度,分析这些数据还可以帮助理解用户的行为,从而改进站点的结构,或为用户提供个性化的服务。
通过对Web服务器日志中大量的用户访问记录深入分析,发现用户的访问模式和兴趣爱好等有趣、新颖、潜在有用的以及可理解的未知信息和知识,用于分析站点的使用情况,从而辅助管理和支持决策。当前,web日志挖掘主要被用于个性化服务与定制、改进系统性能和结构、站点修改、商业智能以及web特征描述等诸多领域。
三、Web日志挖掘的方法
(一)首先,进行数据的预处理。
从学习者的访问日志中得到的原始日志记录并不适于挖掘,必须进行适当的处理才能进行挖掘。因此,需要通过日志清理,去除无用的记录;对于某些记录,我们还需要通过站点结构信息,把URL路径补充成完整的访问序列;然后划分学习者,并把学习者的会话划分成多个事务。
(二)其次,进行模式发现
一旦学习者会话和事务识别完成,就可以采用下面的技术进行模式发现。模式发现, 是对预处理后的数据用数据挖掘算法来分析数据。分有统计、分类、聚类、关等多种方法。
① 路径分析。它可以被用于判定在一个站点中最频繁访问的路径,还有一些其它的有关路径的信息通过路径分析可以得出。路径分析可以用来确定网站上的频繁访问路径, 从而调整和优化网站结构, 使得用户访问所需网页更加简单快捷, 还可以根据用户典型的浏览模式用于智能推荐和有针对性的电子商务活动。例如:70% 的学习者在访问/ E-Business /M2时,是从/EB开始,经过/ E-Business /SimpleDescription,/ E-Business /M1;65%的学习者在浏览4个或更少的页面内容后就离开了。利用这些信息就可以改进站点的设计结构。
② 关联规则。 使用关联规则发现方法,可以从Web的访问事务中找到的相关性。关联规则是寻找在同一个事件中出现的不同项的相关性,用数学模型来描述关联规则发现的问题:x=y的蕴含式,其中x,y为属性——值对集(或称为项目集),且X∩Y空集。在数据库中若S%的包含属性——值对集X的事务也包含属性——值集Y,则关联规则X=Y的置信度为C%。
③ 序列模式。在时间戳有序的事务集中,序列模式的发现就是指那些如“一些项跟随另一个项”这样的内部事务模式。它能发现数据库中如“在某一段时间内,客户购买商品A,接着会购买商品B,尔后又购买商品C,即序列A→B→C出现的频率高”之类的信息。序列模式描述的问题是:在给定的交易序列数据库中,每个序列按照交易的时间排列的一组交易集,挖掘序列函数作用是返回该数据库中高频率出现有序列。
④ 分类分析。发现分类规则可以给出识别一个特殊群体的公共属性的描述,这种描述可以用于分类学习者。分类包括的挖掘技术将找出定义了一个项或事件是否属于数据中某特定子集或类的规则。该类技术是最广泛应用于各类业务问题的一类挖掘技术。分类算法最知名的是决策树方法,此外还有神经元网络、Bayesian分类等。例如:在/ E-Business /M4学习过的学习者中有40%是20左右的女大学生。
⑤聚类分析。可以从Web访问信息数据中聚类出具有相似特性的学习者。在Web事务日志中,聚类学习者信息或数据项能够便于开发和设计未来的教学模式和学习群体。聚类是将数据集划分为多个类,使得在同一类中的数据之间有较高的相似度,而在不同类中的数据差别尽可能大。在聚类技术中,没有预先定义好的类别和训练样本存在,所有记录都根据彼此相似程度来加以归类。主要算法有k—means、DBSCAN等。聚类分析是把具有相似特征的用户或数据项归类,在网站管理中通过聚类具有相似浏览行为的用户。基于模糊理论的Web页面聚类算法与客户群体聚类算法的模糊聚类定义相同,客户访问情况可用URL(Uj)表示。有Suj={(Ci,fSuj(Ci))|Ci∈C},其中fSuj(Ci)→[0,1]是客户Ci和URL(Uj)间的关联度:式中m为客户的数量,hits(Ci)表示客户Ci访问URL(Uj)的次数。利用Suj和模糊理论中的相似度度量Sfij定义建立模糊相似矩阵,再根据相似类[Xi]R的定义构造相似类,合并相似类中的公共元素得到的等价类即为相关Web页面。
⑥统计。统计方法是从Web 站点中抽取知识的最常用方法, 它通过分析会话文件, 对浏览时间、浏览路径等进行频度、平均值等统计分析。虽然缺乏深度, 但仍可用于改进网站结构, 增强系统安全性, 提高网站访问的效率等。
⑦协同过滤。协同过滤技术采用最近邻技术,利用客户的历史、喜好信息计算用户之间的距离,目标客户对特点商品的喜好程度由最近邻居对商品的评价的加权平均值来计算。
(三)最后,进行模式分析。
模式分析。基于以上的所有过程,对原始数据进行进一步分析,找出用户的浏览模式规律,即用户的兴趣爱好及习惯,并使其可视化,为网页的规划及网站建设的决策提供具体理论依据。其主要方法有:采用SQL查询语句进行分析;将数据导入多维数据立方体中,用OLAP工具进行分析并给出可视化的结果输出。(分类模式挖掘、聚类模式挖掘、时间序列模式挖掘、序列模式挖掘、关联规则等)
四、关联规则
(一)关联规则
顾名思义,关联规则(association rule)挖掘技术用于于发现数据库中属性之间的有趣联系。一般使用支持度(support)和置信度(confidence)两个参数来描述关联规则的属性。
1.支持度。规则 在数据库 中的支持度 是交易集中同时包含 , 的事务数与所有事务数之比,记为 。支持度描述了 , 这两个项集在所有事务中同时出现的概率。
2.置信度。规则 在事务集中的置信度(confidence)是指同时包含 , 的事务数与包含 的事务数之比,它用来衡量关联规则的可信程度。记为
规则 A Þ C:支持度= support({A}È{C}) = 50%,置信度= support({A}È{C})/support({A}) = 66.6%
(二)Apriori方法简介
Apriori算法最先是由Agrawal等人于1993年提出的,它的基本思想是:首先找出所有具有超出最小支持度的支持度项集,用频繁的(k—1)-项集生成候选的频繁k-项集;其次利用大项集产生所需的规则;任何频繁项集的所有子集一定是频繁项集是其核心。
Apriori算法需要两个步骤:第一个是生成条目集;第二个是使用生成的条目集创建一组关联规则。当我们把最小置信度设为85%,通过关联规则的形成以及对应置信度的计算,我们可以从中得到以下有用的信息:
1.置信度大于最小置信度时:我们可以这样认为,用户群体在浏览相关网页时,所呈列的链接之间是有很大关联的,他们是用户群的共同爱好,通过网页布局的调整,从某种意义上,可以带来更高的点击率及潜在客户;
2.置信度小于最小置信度时:我们可以这样认为,用户群体对所呈列链接之间没太多的关联,亦或关联规则中的链接在争夺用户。
五、网站中Web日志挖掘内容
(1)网站的概要统计。网站的概要统计包括分析覆盖的时间、总的页面数、访问数、会话数、惟一访问者、以及平均访问、最高访问、上周访问、昨日访问等结果集。
(2)内容访问分析。内容访问分析包括最多及最少被访问的页面、最多访问路径、最多访问的新闻、最高访问的时间等。
(3)客户信息分析。客户信息分析包括访问者的来源省份统计、访问者使用的浏览器及操作系统分析、访问来自的页面或者网站、来自的IP地址以及访问者使用的搜索引擎。
(4)访问者活动周期行为分析。访问者活动周期行为分析包括一周7天的访问行为、一天24小时的访问行为、每周的最多的访问日、每天的最多访问时段等。
(5)主要访问错误分析。主要访问错误分析包括服务端错误、页面找不到错误等。
(6)网站栏目分析。网站栏目分析包括定制的频道和栏目设定,统计出各个栏目的访问情况,并进行分析。
(7)商务网站扩展分析。商务网站扩展分析是专门针对专题或多媒体文件或下载等内容的访问分析。
(8)有4个方向可以选择:①对用户点击行为的追踪,click stream研究;②对网页之间的关联规则的研究;③对网站中各个频道的浏览模式的研究;④根据用户浏览行为,对用户进行聚类,细分研究;(如果你能够结合现有的互联网产品和应用提出一些自己的建议和意见,那就更有价值了。)
(9)发现用户访问模式。通过分析和探究Web日志记录中的规律,可以识别电子商务的潜在客户,提高对最终用户的服务质量,并改进Web服务器系统的性能。
(10)反竞争情报活动。反竞争情报是企业竞争情报活动的重要组成部分。
六、相关软件及算法
(一)相关软件:
1.数据挖掘的专用软件wake。
2.用OLAP工具
3.已经有部分公司开发出了商用的网站用户访问分析系统,如WebTrends公司的CommerceTrends 3.0,它能够让电子商务网站更好地理解其网站访问者的行为,帮助网站采取一些行动来将这些访问者变为顾客。CommerceTrends主要由3部分组成:Report Generation Server、Campain Analyzer和Webhouse Builder。
4.Accrue公司的Accrue Insight,它是一个综合性的Web分析工具,它能够对网站的运行状况有个深入、细致和准确的分析,通过分析顾客的行为模式,帮助网站采取措施来提高顾客对于网站的忠诚度,从而建立长期的顾客关系。
(二)相关算法:
1.运用各种算法进行数据挖掘:GSP算法, Prefixspana算法,
2.关联规则分析:Apriori、FP-growth算法等。
3.Apriori算法及其变种算法
4.基于数据库投影的序列模式生长技术(database project based sequential pattern growth)
5. Wake算法、MLC++等
6. PageRank算法和HITS算法利用Web页面间的超链接信息计算“权威型”(Authorities)网页和“目录型”(Hubs)网页的权值。Web结构挖掘通常需要整个Web的全局数据,因此在个性化搜索引擎或主题搜索引擎研究领域得到了广泛的应用。
7.参考检索引擎的挖掘算法,比如Apache的lucene等。
网站用户行为统计分析系统有哪些?开源的、收费的都告知一下
付费的用行为分析自建系统像growingio,诸葛io,神策这些都可以。3家相比诸葛io只能做一些简单的数据分析,growingio最大的特色是无需埋点,可以回溯任何数据,其他的搜需要埋点后才能收集数据,神策听过没用过
什么是用户行为分析?
要回答以上问题,我们需要关注用户在咱们产品上的各种行为,并对用户行为进行统计和分析。以上述第一个问题为例,需要关注的行为包括:点击功能入口、进入新功能页面、点击目标按钮等。如果对行为进行统计,则会得到如下指标
如果对行为进行分析,你可能会提出如下问题:
以上是围绕用户行为分析的一个小案例,这个案例展现了我们做行为分析需要经历的 3 个步骤:
参考神策分析,使用“事件模型( Event 模型)”来描述用户的各种行为,事件模型包括事件( Event )和用户( User )两个核心实体。
为什么这两个实体结合在一起就可以清晰地描述清楚用户行为?
实际上,我们在描述用户行为时,往往只需要描述清楚几个要点,即可将整个行为描述清楚,要点包括:是谁、什么时间、什么地点、以什么方式、干了什么。而事件( Event )和用户( User )这两个实体结合在一起就可以达到这一目的
一个完整的事件( Event ),包含如下的几个关键因素:
Who:即参与这个事件的用户是谁。
When:即这个事件发生的实际时间。
Where:即事件发生的地点。
How:即用户从事这个事件的方式。这个概念就比较广了,包括用户使用的设备、使用的浏览器、使用的 App 版本、操作系统版本、进入的渠道、跳转过来时的 referer 等,目前,神策分析预置了如下字段用来描述这类信息,使用者也可以根据自己的需要来增加相应的自定义字段。
What:以字段的方式记录用户所做的事件的具体内容。不同的事件需要记录的信息不同,下面给出一些典型的例子:
对于一个“购买”类型的事件,则可能需要记录的字段有:商品名称、商品类型、购买数量、购买金额、 付款方式等;
对于一个“搜索”类型的事件,则可能需要记录的字段有:搜索关键词、搜索类型等;
对于一个“点击”类型的事件,则可能需要记录的字段有:点击 URL、点击 title、点击位置等;
对于一个“用户注册”类型的事件,则可能需要记录的字段有:注册渠道、注册邀请码等;
对于一个“用户投诉”类型的事件,则可能需要记录的字段有:投诉内容、投诉对象、投诉渠道、投诉方式等;
对于一个“申请退货”类型的事件,则可能需要记录的字段有:退货金额、退货原因、退货方式等。
描述事件的任意一个字段,都是一个事件属性。应该采集哪些事件,以及每个事件采集哪些事件属性,完全取决于产品形态以及分析需求。
每个 User 实体对应一个真实的用户,每个用户有各种属性,常见的属性例如:年龄、性别,和业务相关的属性则可能有:会员等级、当前积分、好友数等等。这些描述用户的字段,就是用户属性。
关于用户行为分析系统和用户行为分析技术的介绍到此就结束了,不知道你从中找到你需要的信息了吗 ?如果你还想了解更多这方面的信息,记得收藏关注本站。