分享自:

基于文本挖掘技术的健身app持续使用行为影响因素研究

期刊:黑龙江大学硕士学位论文

本研究是由苏文文在黑龙江大学信息管理学院完成的硕士研究生学位论文,导师为李傲霜,论文完成于2020年3月28日。论文题目为《基于文本挖掘技术的健身APP持续使用行为影响因素研究》,该研究属于信息管理与图书情报领域,探讨了在移动互联网背景下如何通过文本挖掘技术分析用户对健身类APP的持续使用行为的影响因素。

学术背景与研究目的

随着移动互联网的飞速发展,健身APP用户规模迅速扩大。工信部2019年数据显示,中国移动互联网月活跃用户已达11.38亿,健身类APP因其能帮助用户实现健康管理和运动记录等功能,获得了快速发展。然而,尽管用户注册量高,如何提升用户的持续使用意愿(continuous usage intention)成为关键问题。以往关于健身APP的研究多集中在功能设计或用户体验上,而对用户持续使用行为的研究较少,且多数采用问卷调查或理论模型推演,具有一定的主观性。因此,本研究创新性地采用文本挖掘技术(text mining),从用户真实评论中客观提取影响因素,为健身APP的优化提供数据支持。

本研究的目标包括:
1. 通过文本挖掘技术分析健身APP用户评论,提取影响持续使用行为的关键因素;
2. 基于提取的因素构建健身APP持续使用意愿的影响因素模型;
3. 通过实证分析验证模型的可靠性,并提出改进建议以提升用户粘性。

研究依托的主要理论包括期望确认理论(Expectation Confirmation Model, ECM)、信息系统成功理论(Information System Success Model, ISSM)和技术接受模型(Technology Acceptance Model, TAM)。

研究流程与方法

研究分为文本挖掘和实证验证两个主要部分。

1. 数据采集与预处理

研究从苹果应用商店(App Store)和安卓市场爬取用户对主流健身APP(如Keep、马甲线、悦跑圈等)的评论数据。爬虫工具使用Python编写。由于评论文本包含大量噪音(如口语化表达、无关符号等),研究对原始数据进行了预处理,包括:
- 分词处理:采用jieba分词工具;
- 去除停用词(如“的”“了”等无实际意义的词);
- 标准化处理:统一缩略词和网络用语(如“灰常”转为“非常”)。

2. 文本特征提取与聚类

研究采用TF-IDF(Term Frequency-Inverse Document Frequency)算法计算词语权重,提取评论中的高权重特征词。TF-IDF通过统计词语在单个文档中的频率(TF)和其在所有文档中的稀缺性(IDF)来评估词语的重要性,公式为:
[ TF-IDF = TF \times \log\left(\frac{N}{DF}\right) ]
其中,( N )为文档总数,( DF )为包含某词语的文档数。

随后,研究采用Word2Vec将特征词转换为向量形式,并通过Canopy+K-means算法对特征词聚类。K-means是一种无监督学习算法,通过计算向量距离将数据划分为K个类别。最终,影响因素被归纳为7大类,涵盖两大维度:用户感知(如“易用性”“趣味性”)和APP质量(如“功能完善性”“稳定性”)。

3. 模型构建与假设提出

基于聚类结果,研究构建了健身APP持续使用意愿的影响因素模型,主要变量包括:
- 用户感知:包括感知有用性(Perceived Usefulness)、感知易用性(Perceived Ease of Use)和感知趣味性;
- APP质量:包括功能完备性、信息质量和系统性能(如加载速度);
- 满意度持续使用意愿作为因变量。

研究提出以下假设:
- H1:用户感知正向影响满意度;
- H2:APP质量正向影响满意度;
- H3:满意度正向影响持续使用意愿。

4. 实证验证

通过问卷调查收集数据,共回收有效问卷XXX份(文中未明确样本量)。使用SPSS 25.0进行统计分析,包括:
- 信效度检验:Cronbach’s α值均高于0.7,表明量表可信;
- 相关性分析:验证变量间的显著关系;
- 回归分析:支持H1-H3,显示满意度的中介作用显著。

主要结果与结论

  1. 文本挖掘结果:评论聚类显示,用户最关注的因素包括“课程多样性”“社交功能”“界面设计”“稳定性”等。
  2. 模型验证结果:回归分析表明,APP质量(β=0.32, p<0.01)和用户感知(β=0.41, p<0.001)均显著影响满意度,进而推动持续使用意愿(β=0.58, p<0.001)。

研究得出以下结论:
- 健身APP需优先优化核心功能(如运动记录准确性),同时提升社交互动性;
- 文本挖掘技术可有效补充传统问卷调查的不足,为产品改进提供客观依据。

研究价值与创新点

  1. 理论价值
    • 将文本挖掘技术引入健身APP持续使用行为研究,拓展了信息系统领域的分析方法;
    • 整合ECM、ISSM和TAM模型,增强了模型解释力。
  2. 实践价值
    • 为开发者提供具体优化方向(如增强社区互动);
    • 帮助用户降低选择成本。
  3. 创新性
    • 首次从真实评论中挖掘影响因素,避免主观偏差;
    • 提出的Canopy+K-means聚类方法可迁移至其他APP分析场景。

局限性及未来方向

  1. 数据仅覆盖主流健身APP,未来可纳入小众产品;
  2. 未考虑用户个体差异(如运动习惯)。建议后续结合用户画像进一步细化研究。
上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com