Coursera如何对内容进行分类的?

Coursera如何对内容进行分类的?

Coursera是世界上最大的在线教育平台,由吴恩达在2012年建立,现在Coursera的课程已经涵盖众多领域。但是随着内容的增多,如何对每类课程进行分类成了一个挑战。无疑,为用户提供有用的建议成为平台发展的关键要素。

Coursera上的课程种类众多,从摄影到概率图模型,再到穆斯林世界的宪法抗争。多样化的课程对于分类也造成了挑战。几年前,业内人士对课程类别进行了全面检查,并实施了一个新的分类系统,称之为域和子域。本文介绍了如何定义和实现该新系统。





之前的课程分类


Coursera最初的分类方案可以追溯到2012年,并且受到当时内容的深入影响。例如,其中有五类计算机科学子域,但只有一个类别适用于所有人。这些类别也是手动任意分类的,这样就会导致冗余(例如,《食物和营养》几乎是《健康和社会》的子集)和界限模糊(例如,《信息,技术和设计》)。

至关重要的是,原始分类方案无法将对学习者的需求与课程内容有效匹配起来。例如,“医学”类别吸引了两个不同的学习群体——因为它包含两组不同的课程。第一个是吸引医疗保健从业者的课程(例如,临床肾移植或传染病的防护)。第二个是关于公共卫生问题的课程,这些课程吸引了非医学从业者。

随着目录扩展到数千个课程,我们需要一个原则性的组织技术,需要帮助学习者找到最佳内容的类别。这转换为以下标准:

1.简单(尽可能少的类别)

2.最小冗余(尽可能互斥)


t-SNE


我们采用数据驱动的方法,而不是手工重新编码或复制传统的大学院系。

我们尝试着将课程分组,以便对该组中的一门课程感兴趣的人,比如弹吉他,也可能对该组中的其他课程感兴趣,比如歌曲创作或爵士乐即兴创作。 被称为t分布随机邻域嵌入(t-SNE)的算法满足该要求。

t-SNE确定了课程的安排,使得共享通用学习者的课程很接近,而不共享通用学习者的课程相距甚远。例如,复杂分析和伽罗瓦理论是紧密相连的,因为许多学习者同时兼顾两者,而考虑到马匹和广义相对论则相距甚远,因为这两门课程并不共有许多学习者。

我们在2015年的课程中使用了t-SNE算法来生成如下所示的散点图输出。每个点代表一个单一的课程。然后,通过聚类(由着色表示)将这些课程分组。



图1 2015年,由cluster做出的t-SNE可视化课程。



Coursera内容的大致结构


图2 课程的大致领域


看一下图1和图2,我们首先看到的是课程以全球一致的方式组织起来:人文学科、社会科学和商业课程位于右上角,而自然科学、工程学和计算科学的课程分布在左下半部分。

深入挖掘更细微的层次会发现其他细微差别:

· 商业和金融课程在右侧聚集在一起

· 关于自然科学(物理、化学和生物学)的课程在左侧

· 计算科学课程(数学、数学和统计学)位于底层

· 社会科学和人文科学课程名列前茅



图3 自然科学类和人文社科类课程的总体分布


图4 半图中国的课程的子结构。


进一步剖析这些大区域,我们看到即使在每个分组中,课程也是按逻辑排列的。例如,自然历史课程的范围大致从生物科学到物理科学。同样,人文科学和社会科学的课程大致从音乐到视觉艺术、人文科学和社会科学,然后是实际的商业。

即使在个别课程的层面上,t-SNE也能捕捉到课程的跨学科性质。例如,商业法课程属于商业与法律之间的界限,社会科学定量方法课程属于数学与社会科学之间。


图5 跨学科课程大致位于正确的集群之间。


回到以前被归类为“医学”的课程,我们现在有三个子类别。首先是针对医疗专业人员的相对脱节的课程集群(例如,《埃博拉病毒:医疗保健专业人员的基本知识》,参考链接:https://www.coursera.org/learn/ebola-essentials-for-health-professionals)。其次是一系列关于医疗保健政策的课程(例如,《公共卫生系统思考》,参考链接:https://www.coursera.org/learn/systems-thinking)。最后,我们有一个关于基础生物学的集群(例如,《遗传学与进化论》,参考链接:https://www.coursera.org/learn/genetics-evolution)。

结果值得注意,因为没有强有力的理由说t-SNE应按主题安排课程。我们没有提供课程描述或成绩单,只是学习者的入学行为。我们将课程的可聚合性归因于这样一个事实,即学习者更有可能对特定学科领域的多门课程感兴趣,而不是受到教学方式或教学方式、提供课程的机构等非主题因素的影响。

也就是说,这个假设并不适用于整个目录。例如,在非英语内容中,教学语言更多是注册的驱动因素而不是主题领域。相应地,法语或俄语课程更有可能与用相应语言教授的其他课程分组,而不是与同一主题的其他课程分组。

经过一些清理后,我们梳理出了36个课程分类,包含在9大课程体系中。在今天的Coursera平台上,我们将原始集群称为“子域”和更大的集群“域”。我们在2015年夏天推出了新的域和子域系统。在过去三年中,它已成为Coursera内容的组成部分,这种方法能够让我们对课程进行分类,并为平台上的每个学习者推荐个性化的课程。