企业网站内容分析的方法和步骤
TB最近在各个关键产品与购物流程中陆续加入了用户反馈入口(图1),也开设了各种官方论坛收集用户意见和建议,因此会收集到大量纯文本数据。如何对这些数据进行分析、从而指导产品改进?本文将讲述,将内容分析(content analysis)应用于网络文本数据(如,用户反馈)处理的理论基础与实际应用。包括:内容分析法简述;企业中应用内容分析的步骤与技巧。
图1:淘宝的用户反馈入口
PART1 理论基础:内容分析法简述
内容分析,是指利用明晰的编码规则,将大量文本信息转化为定量数据,并归于若干类别以分析信息特征的方法)。内容分析有三个特点:
1)客观性。内容分析不受主观偏见影响,有标准化的研究过程,研究员对结果持开放态度;
2)系统。内容分析过程(取样、分析、编码等)有统一、标准的规则和程序;
3)定性与定量结合。内容分析通过定性研究找出能反映内容本质的特征,又将文本转化为定量的数据,分析结果可用频次、百分比,或相关系数等来表示。
这种研究无需直接接触研究对象,在传播学、情报学、教育学等社会学科有广泛应用,但目的有所差别。鉴于本文所述的应用类型,更倾向从情报学的观点去定义内容分析的目的:通过分析内容了解本质性的事实和趋势,并揭示隐性问题。换句话说,在用户反馈分析中应用内容分析法,目的在于对反馈信息进行系统的归纳分类,整理问题点并评估其严重性,从而有针对地实施改进。
内容分析的基本流程如图2所示。科研中,还有训练编码员(5、6环节间)、测量编码员之间可信度(6、7环节间)的步骤。在企业环境中由于受到时间等调研成本制约,可选择性执行这两步。具体每一步的实施将在PART2中通过实例详述。
图2:内容分析流程图
PART2 实践应用:步骤与技巧
如前所述,在企业的用户研究中利用内容分析处理文本型用户反馈数据,最终目的在于,通过科学有效地总结归纳问题来促进改进。因此应用文本分析的步骤和技巧有以下特点:
2)抽样的时间点,会根据产品/项目的特点而定,如有无重大改进等;
3)分类以及后续数据分析维度的建立,是研究员与产品经理等项目组关键成员共同完成的;
现按照前文所述的分析流程,以旺铺升级后一周内的用户反馈分析为例,介绍内容分析在企业用户研究中的实践步骤。
【第一步 对分析的目标和范围做出准确定义】分析目标:收集、归纳用户体验问题及用户看法
分析范围:
- 主题领域——以某产品,或某流程的用户反馈为范围
- 时间段——如,改版后一周内、新上线一周后……等。值得注意的是,在产品大事件(如发布、改版)时间段,收集到的问题会较多,用户反馈两极化明显。在系统大事件(down机等)时间段,反馈的问题会较集中,用户反馈多为抱怨。
呈现在用户研究报告中,也就是一句简短陈述,如:旺铺升级后一周内的用户反馈总结
【第二步 决定抽样样本】
包括决定以下三方面
1)内容源:选择从什么地方(帮派?问卷?…等)抽样
2)时间:选择在分析时间段的哪几天(全段?隔天?隔周?)抽样
3)内容:对内容进行随机或等距抽样
这意味着研究员要对产品周期有充分的了解和认识。在本例中,我们的抽样样本是,旺铺升级后一周内(7天)用户通过旺铺装修页面“提意见”入口(图3)提交的所有数据。
——>
图3:旺铺用户反馈收集入口
【第三步 确定分析单位】
分析单位是内容分析中的最小元素,要对此给出明确清晰的操作性定义。在本例中,分析单位就是一名用户所陈述的一条意见。值得注意的是,并非以一次提交的数据为单位,因为一名用户一次性可能提交若干条意见,需要把意见拆开,每条为一个分析单位。如图4所示,“删除模块删完不能添加”、“发布完又回到装修页面”分别是一个分析单位。
图4:分析单位举例
【第四步 建立分类】
分类是内容分析的关键步骤,决定了后续的定量分析的有效性。类别是内容分析的基本单位,每个分析单位都能且只能归入某类别中。在学术研究中,往往依据研究理论或参考过往研究结果来分类。在企业用研中,则要对产品有充分了解,并与产品经理合作制定分类框架。因为这便于分配问题解决负责人。
穷尽、互斥是分类的两大原则。分类应涵盖可能的问题范围,但由于事前无法全面预知内容,最好设立“其它”类以满足穷尽性。若有≥10%的分析单位被归入“其它”,则分类不当。类与类之间是不重合的,若有一个分析单位可归入两个或以上类别,则分类不当,或分析单位不准。
分多少类为合适?类别太多会导致某些类的分析单位少而失去统计意义;类别太少,不同性质的分析单位归入同一类,可能会掩盖显著性差异。考虑到将分类合并比将分类拆分容易,建议宁多勿少。在无从下手的情况下,可试检验50-100条分析单位。
在本例中的分类如图5——
图5:旺铺用户反馈的分类与说明
该分类倾向于以问题解决方(如系统问题由开发人员解决、功能需求由产品经理解决、交互问题由设计师解决)为基础维度,便于推动改进。对于页面、功能有限的产品/流程,也可按照页面或功能分类。对于本例,也有针对功能、页面进行分类,主要体现在二级编码中,详情见下。
【第五步 制作编码表 试验性编码】
制作编码表是在大分类的基础上进行细化,以更好地聚焦问题。在这一步,要尽可能细致全面,才能保证有效的数据分析。对每个编码的含义要有所说明,尤其在编码者不止一人的情况下。在本例中,对功能需求这一大分类的部分编码如图6,其原则是尽可能涵盖所有功能。而对于系统问题、交互体验问题,子编码又是应内容特点、以另外的维度设定的。
图6:编码表示例
在编码表制作好后,抽取50-100条分析单位(如100条反馈)进行试编码(coding),以检验是否够细够全。当然了,在实际实施编码(第六步)过 程中可能发现编码不够用的情况。此时只能新增编码,并对该分类下的所有分析单位重新编码。所幸的是——也是内容分析的优点之一——即使发现问题,能在不影响数据本身准确性和完好性的情况下弥补错误。不像问卷调研或现场实验,一旦实施,有错误也无法弥补,只能抛弃数据。
【第六步 收集数据 实施编码】
收集数据就是按照之前所定义好的范围与抽样标准提取数据。通常将数据导入到EXCEL中进行处理。在本例中,每条用户意见(即最小分析单位)对应一行(图7)。
图7:原始数据示例
然后便可开始对每个分析单位进行编码,是纯人工的过程。目前也有一些文本分析软件可辅助,但这些基于分词技术的软件智能程度不足,且实施聚类分析对样本量有要求(至少上万条),更适合用于海量文本数据的分类。
编码过程可借助EXCEL的文本筛选功能。比如笔者用得较多的是“包含XX关键词” 的筛选方式(图8),能有效提高编码效率。在过程中要把无意义的分析单位(如在本例中,会有用户在反馈中打自己店铺的广告)给清理掉。
图8:文本筛选功能示例
初步编码结果如下图所示,接着便可进入分析、报告阶段。
图9:编码结果示例
【第七步 分析 报告结果】
分析包括两部分。定量部分使用描述性统计,计算各分类中条目、各个码类的频数、百分比。如果还能结合到其他变量,如用户的星级等,可进行更复杂的交叉分析、卡方检验、t检验、方差分析等。定性部分,是对某子编码下的所有条目进行梳理,总结出问题点。
要注意的是,频数、百分比不是衡量严重程度的唯一指标。比如我们发现大量系统问题这一分类的用户意见,但基本上说的只是发布失败和速度慢两点。 功能需求这一分类下的意见总数相对较少,但问题有10余种。因此,定性与定量分析的结合,才能反映各分类对整体体验(满意或不满意)的贡献度大小,以及问题聚焦/分散程度。示例如下:
图10:反馈总结示例
进一步的分析还包括对表象所隐含的问题的推断。例如笔者发现图11所示的问题。
图11:深层分析示例
在企业中,内容分析报告的输出形式更灵活,关键在于有效传达问题,推动问题的解决。尤其用户反馈的内容本身比用户研究员的分析归纳更具冲击力,更易引起同理心。
在本例中,笔者的输出物包括:
- 原始数据EXCEL表,按分类将问题分别放在不同sheet里(图11)。在每一张sheet里,可通过筛选功能,看具体某个方面的用户反馈原话。要注意的是,此时会把编码重新转化为文字描述便于理解。
图12:EXCEL 输出物示例
- 用户反馈总结ppt,将各分类中的问题汇总罗列,用于向项目组宣讲,并探讨解决方案。陈述问题时,可引用典型的用户原话。比如有10个人反映同一问题,可选取问题表达最清晰或感情色彩最浓烈者的原话。
小结
本文介绍了内容分析,以及内容分析在企业用户研究中应用的步骤与技巧。内容分析的优点有:1)相比实验法、问卷法等,较为节省人力物力;2)内容可被重复分析,可靠性较大;3)无需直接接触研究对象;4)操作过程若产生问题,错误易被弥补。它的缺点在于:1)人为因素(如如何分类、编码)会极大影响结果;2)编码工作需时较长、单调。