8W+文本数据,全景式展现中国教育发展情况
2020-08-18 11:47:59来源:阅读:-
8W+文本数据,全景式展现中国教育发展情况

来源:兴富同学

本文约5800字,建议阅读8分钟。

本文介绍了通过文本数据分析,全方面展示了中国教育发展的情况。

前面使用爬虫的方法动态获取了教育资讯,完成之后就会很自然就会想,能不能把所有的文本都获取下来,进行一个全面的文本分析,一方面能够将自己目前学过的文本分析方法系统的整理一遍,并且学一些新的方法,另一方面作为一个教育学的博士,搞这种文本分析对自己也会有一定的启发,调剂一下枯燥的读文献的生活。

这篇文章的分析对象是教育部官网上的文本数据,选择教育部官网的原因是信息具有权威性,并且代表国家的政策方向,能够在一定程度上提高分析过程和分析结果的可信度。

本文的分析目的主要有3点:

1)分析发文时间规律和特定时间段内容演进情况;

2)通过城市提及次数分析我国教育分布的地域特点;

3)分析文本内容,把握文本词频分布、主题分布,对特定主题进行分析。

本文使用到的主要分析方法和工具包括:

  • Python 3.7.4:编程语言
  • Pandas:数据格式,数据处理
  • jieba:分词、关键词提取
  • datamap、Excel三维地图:Excel插件和自带功能,进行地图可视化分析
  • Excel:文本数据、分析结果存储
  • Gensim:词向量构建,LDA模型等

1 数据来源

本文通过网络爬虫,以“教育”为检索词,获取教育部官网的文本数据。去掉无效链接和空网页,截止2020年8月7日,得到教育部官网信息、资讯84089篇,内容主要涉及国家发布的重大教育法规、工作简报、统计数据、执行公告、政策、决定和其他教育部公开信息,以及教育部和地方教育部门发布的教育相关政策、文件,各高校、各级各类学校相关的新闻,较为重要的教育时事新闻,以及其他教育部较为关注的热点新闻。所有信息均为网站公开信息,网络爬虫为最简单的requests爬虫。

8W+文本数据,全景式展现中国教育发展情况

所有教育部的文本信息共计1.036亿字,下文统称为教育部文本数据。这些数据反映21世纪互联网兴起、政府信息逐步上网以来,中国教育的大体发展方向和演进规律,反映国家、教育部和地方教育部门的政策纲领、政策方向、施政方式和施政成效,并揭示在某一特定历史时期我国的教育转向和发展趋势。本文将从时间分析、城市分析和内容分析三个维度,对21世纪以来我国的教育发展情况与规律进行一个较为全面的分析。

2 时间分析

经过清洗数据,提取信息发布的时间,可以看到这一部分数据最早上网的信息可以追溯到1981年,是当时发布的《中华人民共和国学位条例暂行实施办法》,当时还只有10个学科门类,还没有管理学、军事学和艺术学,充满历史感。

8W+文本数据,全景式展现中国教育发展情况

分析历年的信息发布数量可以看到,教育信息发布在网上的数量呈现整体逐年上升的趋势,特别是2007年后上升幅度陡然增大,也反映在这个时间点,我国步入网络时代的速度陡然加速。此外,2000年、2008年、2012年、2017年和2019年相较于相邻年份的文本数量而言较大,分析这些时间节点也许能够对我国的教育发展加深了解。

8W+文本数据,全景式展现中国教育发展情况

将上述信息发布的时间趋势按照各年份的季度重新统计,得到下图。能够发现1999Q3(1999年第三季度,下同)、2000Q1、2000Q2、2008Q2、2011Q2、2012Q2、2016Q2、2017Q2、2017Q4、2019Q2这些季度的教育信息量与邻近季度相比更为更大,将这些季度的教育部文本筛选出来,观察关键词。

8W+文本数据,全景式展现中国教育发展情况

抽取这些季度的关键词,发现了一些有意思的现象。“创新”一词在2012年才成为关键词,在一定程度说明在2010年前后中国教育、特别是高等教育发展思路有一点转变,从规模扩张转变为质量提升。2017年前后,思政教育开始提高到一个较为重要的位置。

8W+文本数据,全景式展现中国教育发展情况

通过季度信息发布趋势也可以发现,信息发布具有一定的规律性。为了探索这种规律性,将历年各月的发文总量(不包含2020年)汇总,得到下图。能够发现3-7月、9-12月是信息发布最集中的两个时间段,与学生在学的春季学期、秋季学期相对应,暑假、寒假的信息发布量较少。

8W+文本数据,全景式展现中国教育发展情况

3 城市分析

在教育部文本数据中,城市提及次数是一个重要的指标,能够直接反映我国教育的热点区域。城市提及次数越多,特定区域的城市群的城市提及次数越多,代表这个城市和这片区域较受国家和教育部关注,能够反映这个城市和这片区域的教育资源、特别是优质教育资源(包括重点中小学、“双一流”高校等)的聚集程度,教育经费的充足程度,教育理念、教育方针、教学手段和教学方式的先进程度等。

本文所指城市为中国直辖市、地级市、香港、澳门,以及台湾的9个市,一共308个城市。将文本中城市提及次数进行提取、加总,得到城市提及情况数据。平均提及次数为841.1次,而提及次数的中位数为205次,标准差为3552.7,说明各个城市受教育部重视程度较为悬殊。

8W+文本数据,全景式展现中国教育发展情况

北京作为教育政策的制定地和发出地,教育资源聚集,是提及次数最多的城市,其提及次数(52596次)是第二位上海(25957次)的一倍。第30名的济南(1355次)与最高的北京(52596次)相差40倍。提及次数前30位的城市基本为我国教育规模庞大、教育资源聚集的城市。在提及次数后30位的城市中,以台湾的城市为主,另外,广东5个,广西3个,黑龙江3个,还有四川、江西、内蒙古、辽宁、甘肃的城市,除广西外,似乎都不是我印象中教育落后的省份。将结果呈现在地图上,得到下图。

8W+文本数据,全景式展现中国教育发展情况

通过对图片分析,得到一个直观的感受,发现被提及次数基本上与该地区的教育资源聚集程度、教育规模、高校规模等呈现正相关,可以认为图中圆圈的半径越大,该地区教育实力越强。另外,从图中能够看出,京津冀地区、长三角地区、珠三角地区、东北地区,以及重庆、成都、武汉、西安、兰州等地方教育资源较为聚集,我国在东北、华北、华东、华中、华南、西北、西南均有相应的教育中心城市。

对各个区域的教育聚集情况进行分析。京津冀地区教育中心城市为北京、天津,长三角地区为上海、杭州、南京,珠三角地区为广州、深圳、香港。其中长三角地区教育聚集程度较为均衡,而京津冀地区、珠三角地区则较为悬殊。

8W+文本数据,全景式展现中国教育发展情况

除三大城市群外,中国其他地域也呈现教育聚集在少数城市的情况,东北地区为哈尔滨、长春、沈阳和大连,华北地区为郑州、石家庄、济南和青岛,华中地区为武汉、合肥、长沙和南昌,西南地区为重庆、成都, 西北地区为西安、兰州,另外还包括厦门和福州。相较于三大城市群而言,教育聚集程度更为悬殊。

8W+文本数据,全景式展现中国教育发展情况

两个城市同时出现在1个教育文本里,称为城市共现。分析城市之间的共现关系,能够在一定程度上揭示城市间的联系情况、合作情况和协同发展情况等。将城市共现次数大于1000次的呈现如下表,可以发现北京和上海共同出现的次数不出意料的是最多的,另外共现次数前12名中北京涉及6次,达到50%,是当之无愧的教育中心。

8W+文本数据,全景式展现中国教育发展情况

为了更加直观,选取共现次数大于100(437个/5619个)的城市筛选出来,将城市共现呈现在地图上,如下图。

8W+文本数据,全景式展现中国教育发展情况

能够发现北京作为中国教育中心与各地域均有较为广泛的联系和合作,长三角区域次之。值得注意的是,东北地区与珠三角地区联系和合作也较为显著,联想到哈工大(深圳)校区的高考录取分数线已经高于哈尔滨本部,哈工大深圳校区的设立激发了哈工大的办学活力,可以想见东北地区与珠三角地区的合作,既能够让办学底蕴深厚的东北地区重焕青春,又能满足珠三角地区特别是深圳对于优质教育资源的需求,能够充分的各取所需、互利共赢,是非常符合时代需求的。

提及次数最低的30个城市中,有3个位于广西。出于对家乡的关注,我提取了广西各地级市的提及次数。

8W+文本数据,全景式展现中国教育发展情况

排在首位的是南宁(851次),提及次数仅略超全国平均水平,提及次数排在第二、第三的柳州和桂林与南宁一道,汇聚了全区大部分优质的基础教育、高等教育资源。全区地级市提及次数平均值为250.8次,中位数为178.5次,标准差为234.4。

8W+文本数据,全景式展现中国教育发展情况

区内教育差距相对不怎么悬殊,但是平均数和中位数都不及全国平均水平。教育整体偏弱,加深了我对家乡教育较为落后的印象。教育资源聚集在南宁、柳州和桂林,头部效应明显。

4 内容分析

4.1 词频分析

使用jieba分词,对所有文本数据进行分词,在去除非中文字符、去除停用词、去除单字词后,得到29.8万个词,提取词频前100的词,得到下表。

8W+文本数据,全景式展现中国教育发展情况

能够发现教育、学校、工作、学生、发展、教师是教育部关注的热词。另外,“高校”排在“义务教育”、“中小学”和“职业教育”之前,说明在国家层面高等教育的地位相较于基础教育、职业教育而言优先级较高,从某个侧面印证了“高等教育越来越走向社会中心”这句话。

8W+文本数据,全景式展现中国教育发展情况

从词频表来看,学生和教师位于教育的中心地位,招生、教学、课程建设、思想教育、管理、实践、质量保障与评估、创业、就业等体现了教育活动的完整周期。开展教育工作,并使教育工作符合实际,有改革、创新、建立和完善体制机制等方式。

关键词是内容文本内容的提炼,提取关键词,呈现关键词词频前100的关键词如下表。

8W+文本数据,全景式展现中国教育发展情况

关键词词频排在前列的词是教育、工作、学校、学生、发展、建设、教师,另外教育活动开展的流程等方面也与词频的呈现结果一致,还补充了交流、资助等关键词,能够印证上文使用词频分析的结果。同样将关键词词频表画成词云图,如下图。

8W+文本数据,全景式展现中国教育发展情况

4.2 主题分析

概率主题模型(Statistical Topic Models)是从文本文档中提取潜在语义信息的方法,能够在词袋模型的基础上,提取文本的主题,并按照人为设定的类目数量对主题进行聚类,其中隐狄利克雷分配模型(Latent Dirichlet Allocation,下称LDA)。首先在jieba分词结果的基础上使用dictionary.doc2bow生成词袋模型,将主题数设为10个,然后使用LDA进行主题分析,结果如下。

8W+文本数据,全景式展现中国教育发展情况

由于使用的是无监督算法,主题需要手动辨析。添加上主题的关键词,能够更加清晰的看到主题分布的情况。

8W+文本数据,全景式展现中国教育发展情况

经过整理可以发现,教育部文本涉及到的10个主题分别为:高等教育、教育国际化、教学开展、学生发展、高考、教师发展、教育管理、研究生教育、思政教育,并呈现了相应主题的关键词。下面简单归纳一下每个主题。

高等教育。中国高等教育的发展不同于其他的国家的发展路径,要以国家需求和社会需要为导向,改进教育教学方法,以人才培养为核心,重视学生学习能力提高,加强课程体系建设,保障高等教育质量。

教育国际化。留学、国际交流、国际会议等是教育国际化的主要方式,并且需要重视外国语的学习和汉语的推广,“走出去”和“请进来”相结合。

教学开展。要重视学生的健康和学生(特别是青少年和大学生)成长过程中面临的问题,在开展教学活动时,除智力教育外,还要重视学生的美育、德育、劳动教育、实践教育等。

高考。高考是每个人的人生大事,教育部的文本体现的是招录的严格和规范。

教师发展。教师的终身发展需要关注,继续教育以培训为主,主要特别关注和保障中小学教师、农村教师、职业教育特别是中等职业教育教师的教师发展状况。

教育管理。教育管理贯彻教育活动开展的全过程,从教育部的视角看,管理活动主要包括督导、评估、检查、规章制度建设等方面。

研究生教育。研究生教育主要基于高校而开展,是科技发展、技术创新的动力源泉,关键词包括了“企业”、“职业”、“工程”,显示了研究生教育要面向社会发展需求、行业发展需要和工程实际,产教融合是当今发展的趋势。

义务教育。“两基”是基本实施九年义务教育和基本扫除青壮年文盲的简称,也是21世纪初期普及义务教育的目标。在这个过程中,在国家层面,工作的重点是农村、经济困难的地区和家庭,主要方式是资金拨付。

思政教育。思政教育十分关键,是回答好“培养什么人,为谁培养人,如何培养人”的主要方式,是坚持和发展中国特色社会主义的基础性工程。

4.3 关联词分析

关联词分析可以理解为,“当我们在谈论xx时,我们在谈论什么”。例如现在我正在写工程教育、课程体系建设等方面的文献综述,我对教育部如何论述这两个方面的内容十分感兴趣。关联词分析的思路是在词袋模型的基础上构造Word2vec(词嵌入),用不同特征描述一个词,在此基础上比较各个词特征的相似度,按照相似度大小进行排序,进而发现关联词。关联词分析原理不同于LDA,但能够在把握整体主题的基础上,对特定主题的能够继续抽取和细化。通过分析,在教育部文本数据中,得到“工程教育”、“新工科”、“课程体系建设”的关联词。

8W+文本数据,全景式展现中国教育发展情况

发现还真是那么回事,工程教育涉及到的工程教育认证、实质等效、新工科、国际化、卓越计划等都有提到,工程教育发展两个热点方向——人工智能、医工融合也有提到。在“新工科”结合了“新农科”、“新文科”、“新医科”,并且“升级版”三个字显示了:“新工科”是“卓越计划”的升级版。课程体系建设涉及到了:教学改革、专业建设、教材、培养模式、课程模块化等方面的内容,很有启发性。关联词分析真是个好东西,以后写综述没思路就来跑跑模型,找找灵感。

出于好奇,输入了“人才培养”、“科学研究”和“社会服务”3个关键词,看看教育部文本对于大学的3个基本职能,都在关注什么。

8W+文本数据,全景式展现中国教育发展情况

在人才培养方面,突出了两个当前的热点,一个是创新培养方式,另一个是培养创新型、复合型、国际化人才,强调培养学生的创新能力,工程教育和师范教育也与人才培养有关,确实是让人意外和惊喜。

在科学研究方面,第一个关联词是“社会服务”,表征在国家层面,科学研究要以社会需求为导向,同时还包括学科建设、教育研究、学术教育、学术活动、科研成果、科研项目、技术开发等与科研息息相关的内容。

在社会服务方面,有两个重点,一个是科研相关的内容,另一个是要注重发挥学校的主体作用,为政府提供咨政服务、为社会提供社会效益。

5 一些思考

现在被称为大数据时代,文本数据的规模也在不断扩大。18世纪时候科研工作者很少,论文数量不多,科研人员可以把当时所有的论文都看完。20世纪论文数量激增,为了提高科研效率,科研论文开始要求撰写摘要。而时间发展到现在,文献浩如烟海,要想全面了解某个领域,一是要看这个领域大家的文章和著作,把握主干和精髓;二是把这个领域所有的文本找出来,用文本分析的方法让机器来做精华提取的工作。

我想第二点也是本文的意义所在。在写作和编程的过程中,我能够直观的看到信息化时代的提速。我能够直观的看到教育聚集情况,而教育资源的聚集在几个地域,肯定也形成了不一样的学术氛围、学术文化和学术土壤,在做研究的时候可以多一个思考的角度,以后找工作的时候也能够多一个比较的维度。我能够直观的看到文本的关键词及其分布,并且对特定主题找到一些思考的角度,对关键词之间也建立一些思维上的联系。并且较为系统的整理和运用了当前我会的文本获取、处理和分析方法,但是也并不全面,例如ATM模型、文本分类模型等方法没有用上,有点遗憾。

好了,梳理一遍写作本文的意义和不足,其实是为我花的那些时间的一个交代,想到下学期和下下学期的博资考和开题,现在一天不看文献简直充满罪恶感。整个文本分析过程从6月初就开始酝酿了,但是拖到上周才完成爬虫,拖到今天才完成这次分析,而且也花费了不少时间,治疗拖延症、提高效率要提上日程了……

编辑:王菁

校对:林亦霖

—完—


推荐阅读:至诚金融网
网站首页 | 关于我们 | 联系我们 | XML地图 | 版权声明 | 网站地图TXT
邢台大邢网 -邢台最权威的企业资讯门户网站之一
免责声明:邢台大邢网所有文字、图片、视频、音频等资料均来自互联网,不代表本站赞同其观点,本站亦不为其版权负责。相关作品的原创性、文中陈述文字以及内容数据庞杂本站无法一一核实,如果您发现本网站上有侵犯您的合法权益的内容,请联系我们,本网站将立即予以删除!
Copyright © 2012-2019 http://www.xtolw.com, All rights reserved.