AI视觉在教育场景中的创新应用

标签：场景 AI 接受度课件学生视觉课堂我们

AI视觉在教育场景中的创新应用_人工智能

正文字数：4312 阅读时长：7 分钟

本次LiveVideoStackCon 2020线下北京峰会我们邀请到了360AI影像事业部总经理张焰老师来做分享，他会为我们带来目前AI视觉在教育中的创新应用，包括课堂专注度、课堂接受度、疲劳提醒、姿态纠正等在线教育场景解决方案。

文 / 张焰

整理 / LiveVideoStack

公司介绍

AI视觉在教育场景中的创新应用_人脸识别_02

大家好，首先介绍一下我们的公司，我们属于360集团内部孵化的创新业务线，专注于AI视觉算法的研发和应用。我们围绕着人、物、场景三个方向为智能手机、泛文娱、IOT领域提供一些专业的算法支持和行业解决方案。

我们的核心能力包括智能多摄、单帧/多帧画质，这类算法在手机客户中应用较多；人像美化，包括AR特效等会运用到泛文娱的领域；场景识别涉及人、物、环境等多样化的场景识别能力，另外包括一些视频分析的能力，在IOT领域也有广泛应用。

本次我的分享主题是360AI视觉在在线教育中的创新算法和应用。

我们为什么在做教育

当然很多人会说，家长愿意为孩子花钱，做教育更容易挣到钱。但更重要的是因为疫情的爆发，使得在线教育得到了前所未有的发展机遇。在一两个月内，政府部门就将线下的教学场景搬到了线上，完成了大迁移，但在这个大跃进中也暴露了很多问题。

2.1 在线教育行业痛点

AI视觉在教育场景中的创新应用_编程语言_03

在线教育仍有很多痛点亟待解决。

第一点是学生自觉性差。K12教育是典型的督导式教学，以前的督导压力都在老师身上，面对面在线下督导学生，而现在督导的压力都转移给了家长，家长确实是操碎了心。

第二点是教学效果难以评估。意思就是这个学生有没有认真听，有没有听懂，是没有量化指标的。

第三点是课堂互动性差。因为技术的不完善及各种主客观限制，线上课堂很难完整地模拟线下课堂场景，缺乏双向互动的环境。

第四点是教学效率低。包括从教师端到学生端的适应和学习成本，还有空间限制带来的管教效率。

以上四个问题总结而言就是缺少了教育质量监督评价体系，而我们要做的事情就是弥补和改善这个体系的缺失。

未来的思考AI视觉能为在线做什么？

我们针对以上问题提出了对应的解决方案，分别是：代替督学方案、量化监测方案、智能互动方案、智能教辅工具。

3.1 代替督学方案

3.1.1 疲劳提醒

AI视觉在教育场景中的创新应用_人脸识别_05

也许有些人在之前已经听过或用过这项技术，现如今的检测准确率较早前已经有很大改进。我们的疲劳提醒有三个维度，包括“打哈欠”、“瞌睡”和“趴着”，“打哈欠”和“瞌睡”这两个维度在汽车驾驶中早有应用，针对教育场景我们单独研发了“趴着”的监测。“趴着”这个维度如何检测准确是比较有难度的，有些人可能会想到可以用人体骨骼关键点，这个方法针对全身还是比较准的，但针对半身，尤其是趴着时只有一个头甚至是头发的时候，骨骼关键点无法起作用了，这里就需要用到更复杂的检测手段和技术。

3.1.2 姿态纠正

AI视觉在教育场景中的创新应用_人工智能_06

姿态纠正这个功能大家可能在教育平板或教育台灯中体验过，用得也比较广泛。坐姿不良需要用到人的骨骼关节点和深度学习的技术，它有很多类别，包括上述提到过的趴着、卧倒、倾斜甚至是葛优躺，都可以认为是姿态不正。距离提醒这一块主要是用于护眼健康，可以实时检测到人脸到屏幕的距离。

3.1.3 学生姿态实时监测系统

AI视觉在教育场景中的创新应用_编程语言_07

这个姿态监测系统分为两个方面：人脸姿态、人体姿态。人体姿态在上面提到过，我们是基于人体骨骼关键点配合深度图像，从而精准地判断出各类人体姿态。这项技术以前都是2D图像信息，而我们创造性加入了3D深度信息，来辅助人体姿态识别。深度图像同时还可以用来测距。那这个深度图像从哪里来呢？这就要和硬件相结合，像现在很多教育平板都加入了双摄，前置结构光，前置TOF。

3.2 量化检测

课堂专注度、课堂接受度是家长非常关注的。课堂专注度表示学生是否认真在听，课堂接受度表示学生是否听懂。之前我们的客户曾提过这个问题，家长没有课堂表现报告，不知道学生上课状态及学习效果到底怎么样。所以为了解决这个痛点，我们提出了课堂效果量化检测的方案。

3.2.1 普通专注度检测

AI视觉在教育场景中的创新应用_大数据_08

大家可以看一下这是以往的普通专注度检测图示，这里只有一个2D图像信息，检测准确度存在较大误差；其次它的监测指标单一，只有一些零散的指标次数，无法精确地回溯学情。

3.2.2 360AI课堂专注度

AI视觉在教育场景中的创新应用_大数据_09

上图是我们3D深度检测+学情回溯追踪的专注度监测解决方案。可以看到我们加入了3D的人脸检测信息，可以更精准地估计出姿态和视线方向。同时辅助事件触发机制，判断状态的同时会保存当前事件的触发时刻、事件截图、状态持续时长等，这样可以非常精确地有针对性地进行学情分析和回溯。

3.2.3 课堂接受度

AI视觉在教育场景中的创新应用_机器学习_10

课堂接受度是从上图五个维度进行综合分析，这里的维度可以分为两个方向，包括正向指标和负向指标。从课堂接受度而言，正向的评价有举手、微笑、点头，代表学生参与度比较高，表示他（她）听懂了。负向的评价是疑惑、摇头，这说明接受度不太高。

3.2.4 表情识别流程图

AI视觉在教育场景中的创新应用_大数据_11

刚刚说到了疑惑的表情，老师的责任就是传道受业解惑，如果老师都不知道学生有没有疑惑，他（她）怎么去解惑？所以首先我们要把疑惑检测出来，在学术界，只有七类表情，没有疑惑，所以我们专门为教育增加了疑惑的表情。我们加入了大量疑惑的数据，通过结合人脸识别技术和人脸关键点技术辅助检测，可以比较精准的判断出疑惑的表情。

3.3 智能互动（AI沉浸式课件、多向智能互动）

我们的智能互动方案主要介绍两个技术，分别是AI沉浸式课件和多向智能互动技术。

3.3.1 传统课件

AI视觉在教育场景中的创新应用_大数据_12

上图是传统课件的录播和直播课场景，录播课一般都会像上图左边所示搭一个录播室，后面有绿幕，有补光灯。这对环境条件要求很高，要有场地，要有设备，很不方便。上图右边是比较常见直播课界面，只有一个老师的头像和投放的课件，这两个东西是分屏展示的，也就是说老师和课件之间没有任何互动。

3.3.2 AI沉浸式课件

AI视觉在教育场景中的创新应用_机器学习_13

上图是我们研发的AI沉浸式课件，把老师的头像与课件内容融合在一起，可以通过手势控制课件的播放，比如说下一页、上一页、暂停等，有很直观的互动效果。老师和课件完全融合在一起，不受场地限制，不需要专用设备，只需要一个摄像头就可以了。

3.3.3 网课互动限制

AI视觉在教育场景中的创新应用_机器学习_14

上图是现在比较主流的网络教学直播界面，主要是以老师单向输出为主，学生被动接受，学生和老师之间仅能通过文字互动。

3.3.4 多向智能互动

我们希望通过一些技术手段，改变这种单一的互动模式，让网课更生动、更有趣。

手势识别

AI视觉在教育场景中的创新应用_人脸识别_15

像我们动画里展示的是老师点赞的特效，学生端可以实时收到显眼的反馈。那学生举手老师知不知道呢？这也是可以识别的，比如说学生举手后快速把头像换成第一位，把头像放大，老师可以快速知道是哪个学生举手了，这项功能可以模拟复现线下教学场景。

表情识别

AI视觉在教育场景中的创新应用_编程语言_16

再比如表情识别，检测到学生出现疑惑情绪，系统就会把她highlight出来，老师就知道哪个学生没有听懂。这是非常有价值的，现在在线教育并没有做到这一点。

人脸特效

AI视觉在教育场景中的创新应用_人工智能_17

还有一些增加趣味性的人脸特效，一些可爱的动效可以抓住低领学生的注意力和兴趣点。

3.4 智能工具（超清拍题，智能补光，人脸考勤）

超清拍题与智能补光是我们首发的技术。

3.4.1 超清拍题——拍照模糊问题

AI视觉在教育场景中的创新应用_人工智能_18

在线教育除了直播授课，还有课后作业场景，学生会遇到拍课件、拍题的问题。大部分学生的手都很小，如果用学习平板很容易拿不稳，拍题就拍虚了。当然也有人会说，我可以用光学防抖，但大家都知道光学防抖的每一个器件要增加3-4美金成本。只有买的是真正的旗舰手机，才会有光学防抖。所以我们提出了纯软的光学防抖方案，一次性解决上图所示各种拍照模糊问题，比如失焦，曝光拖影，抖动，噪点，暗光等。

3.4.2 超清拍照——一个方案解决所有拍摄模糊问题

AI视觉在教育场景中的创新应用_人脸识别_19

这个方案是我第一次公开讲，有些手机客户已经接入了我们的方案。流程也很简单，输入有两种方式，传感器输入和三帧图像，再进行传感器融合，位置估计，运动向量估计，根据位置信息进行防抖去模糊处理。输入的三帧照片进行对齐，降噪等一系列处理，最后进行动态范围提升和图像增强。图像增强包括对比度增强锐化，整体是一个比较复杂的流程，这里我们简化给大家展示。

3.4.3 客户案例——录音笔HD Shot

AI视觉在教育场景中的创新应用_大数据_20