我看见的世界 李飞飞自传
[美] 李飞飞
赵灿 译
出版时间:2024年4月
出版社:中信出版社
核心人物简介
- 李飞飞:本书主人公,人工智能领域科学家,斯坦福大学教授,致力于计算机视觉、人工智能等研究,创建了 ImageNet 等重要项目,推动了人工智能技术的发展,对行业产生深远影响,积极关注人工智能伦理问题,努力让技术造福人类。
- 李飞飞的父母:给予李飞飞支持与关爱,父亲充满好奇心,母亲重视教育且鼓励她追求科学梦想,他们的经历和态度影响着李飞飞的成长与职业选择。
- 萨贝拉先生(Bob):李飞飞在高中时的数学老师,知识渊博,教学认真,为李飞飞提供学业指导和精神支持,帮助她适应美国生活,对她的成长起到重要作用,其科幻爱好者的身份也影响了李飞飞对科学的兴趣。
- 彼得罗・佩罗纳(Pietro Perona):李飞飞在加州理工学院的导师,在电气工程和认知科学领域有深入研究,指导李飞飞进行视觉研究,鼓励她跨学科探索,对她的学术发展影响深远。
- 克里斯托夫・科赫(Christof Koch):李飞飞在加州理工学院的导师,计算神经科学家,与彼得罗・佩罗纳共同指导李飞飞,在研究视觉和大脑认知方面给予她重要启发,其哲学思考引导李飞飞深入探索科学问题。
- 邓嘉:李飞飞在普林斯顿大学和斯坦福大学的学生及合作者,在 ImageNet 项目中发挥关键作用,与李飞飞共同应对诸多挑战,展现出卓越的工程天赋和研究能力。
- 西尔维奥:李飞飞的丈夫,同样从事科研工作,在 3D 感知算法开发领域颇有建树,给予李飞飞情感支持,两人在学术和生活中相互理解、共同成长。
- 阿尼・米尔斯坦(Arnie Milstein):斯坦福大学医学院教授,医疗领域专家,与李飞飞合作开展医疗服务环境智能研究,致力于改善医院医疗服务,在合作中为李飞飞提供医疗专业知识和实践经验指导。
李飞飞在人工智能领域取得了众多具有深远影响力的研究成果:
Caltech 101 数据集
- 背景与目标:在研究生阶段,李飞飞意识到视觉研究中数据的重要性以及当时数据集的局限性。为了推动计算机视觉领域的发展,她和导师彼得罗・佩罗纳决定创建一个更大规模、更多样化的图像数据集,以帮助算法更好地理解和识别各种物体。
- 构建过程与挑战:构建 Caltech 101 数据集是一项艰巨的任务。李飞飞带领团队手动查询图像搜索引擎,精心挑选合适的图片,并进行裁剪和调整尺寸,以确保数据集的一致性。同时,他们还组织了一个由三到四名本科生组成的标签团队,对图片进行标注分类。在这个过程中,他们面临诸多挑战,如数据筛选的主观性、标注的准确性以及数据量的不足等问题。例如,最初依靠人工操作,速度慢且效率低,后来通过邓嘉编写自动化程序,实现了图片下载的自动化,提高了数据收集速度。但同时,他们也遭遇了搜索引擎限制请求数量等问题,经过不断努力和调整,才逐步克服困难。
- 成果与意义:Caltech 101 数据集最终包含了超过 9000 个图像,分布在 100 个类别中,成为当时为机器学习配置的较大规模的图像集合之一。该数据集为后续的研究提供了重要的基础,使得研究人员能够在更丰富的数据上训练算法,从而推动了图像识别技术的发展。它的出现为计算机视觉领域的研究提供了新的工具和资源,激发了更多关于图像分类、物体识别等方面的研究,促进了该领域的进步。
ImageNet 数据集与挑战赛
- 灵感来源与目标设想:李飞飞在与克里斯蒂安・费尔鲍姆的交流中,了解到 WordNet 项目后,受到启发,设想创建一个类似的、规模更大且基于图像的数据集,即 ImageNet。她希望通过这个数据集,让算法能够接触到更广泛、更真实的视觉世界,从而提高其对各种物体的识别能力,推动计算机视觉领域向更接近人类视觉智能的方向发展。
- 构建过程中的困难与解决方案:构建 ImageNet 面临着前所未有的挑战。首先是数据量的巨大,需要从海量的图像中筛选出合适的图片,并进行准确标注。为了解决这个问题,李飞飞和邓嘉最初招募本科生进行手动下载和标注,但速度远远达不到预期。后来,他们利用邓嘉编写的自动化程序,实现了大规模的图片下载,但又遇到了被谷歌封禁等问题。在标注环节,由于工作量巨大,标注员的速度成为瓶颈。他们尝试了多种方法,如优化标注流程、使用快捷方式和定制工具等,但效果有限。直到引入亚马逊土耳其机器人(Amazon Mechanical Turk)的众包模式,才成功解决了标注速度和成本的问题,实现了数据集的快速扩充和完善。
- 挑战赛的组织与影响:ImageNet 数据集完成后,李飞飞组织了 ImageNet 大型视觉识别挑战赛(ILSVRC)。首届比赛吸引了 150 份报名表,共有 11 个团队提交了 35 个参赛作品。挑战赛的举办为计算机视觉领域提供了一个统一的测试平台,促使研究人员不断改进算法,以在 ImageNet 数据集上取得更好的成绩。通过比赛,推动了计算机视觉技术的快速发展,吸引了全球众多研究团队的参与,促进了学术交流与合作,使得图像识别准确率不断提高,为人工智能在图像领域的应用奠定了坚实基础,也让 ImageNet 成为计算机视觉领域的重要基准数据集,对整个行业的发展产生了深远的推动作用。
环境智能在医疗领域的应用研究
- 研究起因与合作契机:母亲的一次生病经历,让李飞飞开始思考人工智能如何帮助他人,尤其是在医疗领域的应用。在与医疗领域专家阿尼・米尔斯坦的交流中,她了解到医疗保健中存在的诸多问题,如医疗差错、护理人员工作负担重以及患者安全隐患等,这些问题促使他们决定开展合作,探索人工智能在医疗服务中的应用潜力。
- 研究内容与技术挑战:他们的研究主要聚焦于利用环境智能技术改善医疗服务。例如,通过部署智能传感器,对医院内的各种场景进行监测,如追踪护理人员的手部卫生情况、监测患者的身体活动等,以提高医疗质量和安全性。然而,研究过程中面临诸多技术挑战。首先,准确识别特定类型的动作,如正确洗手的步骤,对算法的准确性要求极高,这需要克服复杂的环境干扰、动作的多样性和细微性