基于自然语言处理“七一”重要讲话学习的文本聚类分析

发布时间: 信息来源:


吴祥佑 张焕

  2021年是中国共产党百年华诞,中共中央总书记习近平在庆祝中国共产党成立100周年大会上发表了重要讲话(以下简称“七一”重要讲话)。“七一”重要讲话公布后,迅速引起全国上下广大党员、干部和群众的热烈反响,掀起了学习宣传贯彻热潮。用自然语言处理技术研究全国青年、青年党员干部在学习领会“七一”重要讲话精神的心得体会,将为观察我国青年的思想认识、精神面貌提供新的视角。

  一、语料来源

  习近平总书记在庆祝中国共产党成立100周年大会上发表“七一”重要讲话(原文链接:https://tougao.12371.cn)之后,共产党员网先锋文汇专栏专门设立了讲话的学习栏目。从2021年7月1日到2021年9月22日共发表了244篇来自基层青年党员的党课学习心得体会,文章内容丰富且生动,是关于青年干部和青年党员精神风貌及理论修养最好的原材料、最宝贵的数据源。

  二、“七一”重要讲话精神学习心得统计分析

  在省际区域分布方面,244篇被收集的基层青年党员学习心得体会只有1篇来自国企,即中铁十六局集团四公司陈玉荣于2021年9月7日发表的文章《当好新时代国有企业“守心人”》,其余的243篇全部来源于全国各个省、市、自治区,具体排名中排行前十的分别为四川、山东、安徽、贵州、江苏、辽宁、重庆等,其中前7名的发表数量分别为:四川59篇、山东32篇、安徽28篇、贵州15篇、江苏14篇、辽宁13篇以及重庆11篇,所占比例较大。

  这244篇心得体会来自26人。四川省宜宾市长宁县古河镇人民政府的邓丽娜排名第1;其次是余天付、王晓勇等7人篇数相同;耿可文、董政东等18人篇数相同。与此同时,上述心得作者均和发布的主体一致,即发布者与作者本人完全相同,这说明有的基层青年党员上传的积极性比较高,并且文本的输出数量也是可观的。

  共产党员网上的心得体会多由青年干部或青年党员撰写,数据进一步勾勒出本次研究语料的多方面特征。从作者身份与标题表达来看,共产党员网刊发的这些心得体会以青年干部、青年党员的作品为主。在这244篇心得体会语料中,有61篇的标题直接包含“青年”“青春”“年轻”等相关词语;相较于其他群体,年轻作者更偏爱在标题中运用@符号,以此唤起特定读者群体的关注。这类带有@符号的标题在全部语料中共有44篇。

  从上传发表的时间维度分析,244篇心得体会中不少是青年党员、青年干部的真情实感流露,其中9篇发表于傍晚6点之后。这一细节表明,这9篇心得的撰写与发布大概率是作者自发自愿的行为,而非被动完成的任务。从发表月份的分布态势来看,7月仅发表65篇心得,8月与9月合计发表179篇。这一数量变化清晰地反映出,随着学习的逐步推进,大家对“七一”重要讲话精神的理解愈发深入,学习的普及范围也更为广泛。

  区域分布方面则呈现出明显的不均衡性:西部地区发表115篇,东部地区发表91篇,东北地区发表21篇,而中部地区仅发表16篇,四者数量差距较为显著。从作者所在单位的级别来看,乡镇部门发表数量最多,达109篇;县及县以上机构发表103篇;街道办事处发表20篇;乡村发表5篇;公司发表4篇;普通中小学校发表2篇。由此不难看出,乡镇级党政机关是“七一”重要讲话精神学习心得体会的主要发表主体。

  从作者工作单位的性质看,142篇心得体会作者来自政府及其高度关联的部门(比如普通中小学校),98篇作者来自组织部门(包括党委办、党委政研室、机关工委、党校等),还有4篇是直接来自工商企业;在青年干部、青年党员中,选调生身份较特殊,本次语料中有12篇作者为选调生的作者,侧面反映出了选调生具有良好的理论水平。

  在244篇“七一”重要讲话精神学习心得体会中,“人民”出现的频次最高,有2136次,比居于第二位的“我们”多出了1178次,比居于第三位的“中国共产党”多出了1242次。由此可知,在青年党员、青年干部认真学习“七一”重要讲话精神的时候,“人民”都是放在第一位考虑的,体现出青年党员、青年干部坚决拥护和贯彻执行中国共产党的“全心全意为人民服务”的根本宗旨。同时还可以看出,“青年”共出现了434次,“青春”共出现了394次,这也符合本文语料的特点。

  三、文本聚类分析

  本研究采用层次聚类法对244篇“七一”重要讲话精神学习心得体会开展聚类分析,具体流程借助Python相关库实现。鉴于基于传统的肘部法则无法为精准找出最适宜的聚类数提供足够信息,本文参考相关文献引入变体肘部法则进行分析。当聚类数量超过4后,肘部法则线进入到逐步下降区。所以会判断这个值是集群的最佳数目。这与上文利用传统肘部法则观测出大体数据结果一样,所以得出结论:“七一”重要讲话精神学习心得共244篇归为四类。

  四、各类学习心得的特征分析

  (一)各类心得体会的主题词团

  四类心得体会的内容主要包括以下几点:第一类体会主要聚焦建党百年系列庆典活动,阐释青年党员干部要从更接地气、履职尽责办实事方面提升为民服务本领,增强为人民服务意识;第二类体会以责任担当为主题,强调对祖国和人民的担当,着重体现为国为民服务的宗旨意识;第三类体会集中讨论精神的赓续传承,立足坚守为民服务的精神内核;第四类体会聚焦于新时代青年干部,主要是讲述怎样凝聚青春力量、青春之光,推动自身的成长进步,更好地参与到为民服务实践中去。

  (二)各类心得体会的主题提取

  将所有精炼知识图谱再次精炼,归纳出四大类心得体会核心要义。第一类讲的是中国共产党必须时刻保持共产党的本色;第二类是面向广大青年,希望他们能发扬优秀传统、保持奋进之智;第三类是以智慧为根本守护来之不易的伟大盛世;第四类是要求青少年坚定传承、永远保持伟大建党精神。综上所述,这四类心得体会都是紧扣“七一”重要讲话精神这一主线,在遵循一致性的同时注重突出重点、找准方向,通过对体会和心得进行聚类分析,可以有效帮助我们了解青年党员和青年干部在学习“七一”重要讲话时如何深刻理解讲话精神背后的深刻含义。

  (三)浏览与点赞数的方差分析

  鉴于标题中是否包含@符号、作者所在省份这两个变量均对心得体会的浏览次数存在显著影响,有必要进一步探究二者对浏览次数的联合作用机制。不同省份与不同区域的“七一”重要讲话学习心得体会,在点赞数上呈现出明显的差异性。这一结果折射出,部分省份对于在共产党员网上发表学习心得这项工作的重视程度更高,同时也更倾向于组织公众参与相关文章的阅读与点赞互动。与此同时,同一区域内的省份往往会表现出相近或相似的群体性点赞行为,这也是造成不同区域之间心得体会点赞数产生显著差距的重要原因。而从其他分类变量的方差分析结果来看,这些因素并未对心得体会的点赞数产生显著影响,由此可见,它们并非左右点赞数高低的关键要素。

  五、结论与启示

  用Python文本量化分析方法对共产党员网先锋文汇专栏“七一”重要讲话学习心得共244篇开展文本聚类分析发现:244篇学习心得可以归纳为四大类,每一大类有较为集中的话题;几大类的划分差别比较大,能比较清楚地看出不同人群学习讲话精神重点的不同侧重点。

  对于这四种类型的心得体会来说,有各自不同的关注重点。第一类关注的是建党百年的重大意义,重点是围绕面向第二个百年奋斗目标新征程,在做好新的赶考路上更大力度践行全心全意为人民服务的根本宗旨进行思考感悟;第二类是保持始终如一“赶考”的清醒、坚定,以实际行动持续推进为中国人民谋幸福、为中华民族谋复兴的初心使命;第三类立足于“立党为公”,着重阐述坚持并传承好为人民服务的初心精神;第四类是围绕着青年党员、青年干部这两支队伍的力量源泉问题来论述,在新时代、新征程中要充分发挥和汇聚青春正能量,挺身而出、冲锋在前。

  【吴祥佑系闽江学院新华都商学院教授;张焕系闽江学院新华都商学院学生;本文系2023-2024年福建省社会科学基金马工程重大项目“基于文本互信息的习近平总书记在福建工作期间的重要理念与重大实践研究”(项目编号:FJ2024MGCZ001);2024年度课程思政专项资助重点项目“《计量经济学》课程-基于文本量化的党的二十届三中全会历史传承、教学融入与时代脉动研究”(项目编号:YJJD202402B)的阶段性成果】