本研究是由苏文文在黑龙江大学信息管理学院完成的硕士研究生学位论文,导师为李傲霜,论文完成于2020年3月28日。论文题目为《基于文本挖掘技术的健身APP持续使用行为影响因素研究》,该研究属于信息管理与图书情报领域,探讨了在移动互联网背景下如何通过文本挖掘技术分析用户对健身类APP的持续使用行为的影响因素。
随着移动互联网的飞速发展,健身APP用户规模迅速扩大。工信部2019年数据显示,中国移动互联网月活跃用户已达11.38亿,健身类APP因其能帮助用户实现健康管理和运动记录等功能,获得了快速发展。然而,尽管用户注册量高,如何提升用户的持续使用意愿(continuous usage intention)成为关键问题。以往关于健身APP的研究多集中在功能设计或用户体验上,而对用户持续使用行为的研究较少,且多数采用问卷调查或理论模型推演,具有一定的主观性。因此,本研究创新性地采用文本挖掘技术(text mining),从用户真实评论中客观提取影响因素,为健身APP的优化提供数据支持。
本研究的目标包括:
1. 通过文本挖掘技术分析健身APP用户评论,提取影响持续使用行为的关键因素;
2. 基于提取的因素构建健身APP持续使用意愿的影响因素模型;
3. 通过实证分析验证模型的可靠性,并提出改进建议以提升用户粘性。
研究依托的主要理论包括期望确认理论(Expectation Confirmation Model, ECM)、信息系统成功理论(Information System Success Model, ISSM)和技术接受模型(Technology Acceptance Model, TAM)。
研究分为文本挖掘和实证验证两个主要部分。
研究从苹果应用商店(App Store)和安卓市场爬取用户对主流健身APP(如Keep、马甲线、悦跑圈等)的评论数据。爬虫工具使用Python编写。由于评论文本包含大量噪音(如口语化表达、无关符号等),研究对原始数据进行了预处理,包括:
- 分词处理:采用jieba分词工具;
- 去除停用词(如“的”“了”等无实际意义的词);
- 标准化处理:统一缩略词和网络用语(如“灰常”转为“非常”)。
研究采用TF-IDF(Term Frequency-Inverse Document Frequency)算法计算词语权重,提取评论中的高权重特征词。TF-IDF通过统计词语在单个文档中的频率(TF)和其在所有文档中的稀缺性(IDF)来评估词语的重要性,公式为:
[ TF-IDF = TF \times \log\left(\frac{N}{DF}\right) ]
其中,( N )为文档总数,( DF )为包含某词语的文档数。
随后,研究采用Word2Vec将特征词转换为向量形式,并通过Canopy+K-means算法对特征词聚类。K-means是一种无监督学习算法,通过计算向量距离将数据划分为K个类别。最终,影响因素被归纳为7大类,涵盖两大维度:用户感知(如“易用性”“趣味性”)和APP质量(如“功能完善性”“稳定性”)。
基于聚类结果,研究构建了健身APP持续使用意愿的影响因素模型,主要变量包括:
- 用户感知:包括感知有用性(Perceived Usefulness)、感知易用性(Perceived Ease of Use)和感知趣味性;
- APP质量:包括功能完备性、信息质量和系统性能(如加载速度);
- 满意度和持续使用意愿作为因变量。
研究提出以下假设:
- H1:用户感知正向影响满意度;
- H2:APP质量正向影响满意度;
- H3:满意度正向影响持续使用意愿。
通过问卷调查收集数据,共回收有效问卷XXX份(文中未明确样本量)。使用SPSS 25.0进行统计分析,包括:
- 信效度检验:Cronbach’s α值均高于0.7,表明量表可信;
- 相关性分析:验证变量间的显著关系;
- 回归分析:支持H1-H3,显示满意度的中介作用显著。
研究得出以下结论:
- 健身APP需优先优化核心功能(如运动记录准确性),同时提升社交互动性;
- 文本挖掘技术可有效补充传统问卷调查的不足,为产品改进提供客观依据。