首页 > 其他分享 >数智读书笔记系列004 我看见的世界 李飞飞自传

数智读书笔记系列004 我看见的世界 李飞飞自传

时间:2024-12-14 08:59:14浏览次数:5  
标签:李飞飞 读书笔记 数智 人工智能 ImageNet 视觉 数据 标注

我看见的世界 李飞飞自传

[美] 李飞飞

赵灿 译

出版时间:2024年4月 

出版社:中信出版社

核心人物简介

  • 李飞飞:本书主人公,人工智能领域科学家,斯坦福大学教授,致力于计算机视觉、人工智能等研究,创建了 ImageNet 等重要项目,推动了人工智能技术的发展,对行业产生深远影响,积极关注人工智能伦理问题,努力让技术造福人类。
  • 李飞飞的父母:给予李飞飞支持与关爱,父亲充满好奇心,母亲重视教育且鼓励她追求科学梦想,他们的经历和态度影响着李飞飞的成长与职业选择。
  • 萨贝拉先生(Bob):李飞飞在高中时的数学老师,知识渊博,教学认真,为李飞飞提供学业指导和精神支持,帮助她适应美国生活,对她的成长起到重要作用,其科幻爱好者的身份也影响了李飞飞对科学的兴趣。
  • 彼得罗・佩罗纳(Pietro Perona):李飞飞在加州理工学院的导师,在电气工程和认知科学领域有深入研究,指导李飞飞进行视觉研究,鼓励她跨学科探索,对她的学术发展影响深远。
  • 克里斯托夫・科赫(Christof Koch):李飞飞在加州理工学院的导师,计算神经科学家,与彼得罗・佩罗纳共同指导李飞飞,在研究视觉和大脑认知方面给予她重要启发,其哲学思考引导李飞飞深入探索科学问题。
  • 邓嘉:李飞飞在普林斯顿大学和斯坦福大学的学生及合作者,在 ImageNet 项目中发挥关键作用,与李飞飞共同应对诸多挑战,展现出卓越的工程天赋和研究能力。
  • 西尔维奥:李飞飞的丈夫,同样从事科研工作,在 3D 感知算法开发领域颇有建树,给予李飞飞情感支持,两人在学术和生活中相互理解、共同成长。
  • 阿尼・米尔斯坦(Arnie Milstein):斯坦福大学医学院教授,医疗领域专家,与李飞飞合作开展医疗服务环境智能研究,致力于改善医院医疗服务,在合作中为李飞飞提供医疗专业知识和实践经验指导。

李飞飞在人工智能领域取得了众多具有深远影响力的研究成果:

Caltech 101 数据集

  • 背景与目标:在研究生阶段,李飞飞意识到视觉研究中数据的重要性以及当时数据集的局限性。为了推动计算机视觉领域的发展,她和导师彼得罗・佩罗纳决定创建一个更大规模、更多样化的图像数据集,以帮助算法更好地理解和识别各种物体。
  • 构建过程与挑战:构建 Caltech 101 数据集是一项艰巨的任务。李飞飞带领团队手动查询图像搜索引擎,精心挑选合适的图片,并进行裁剪和调整尺寸,以确保数据集的一致性。同时,他们还组织了一个由三到四名本科生组成的标签团队,对图片进行标注分类。在这个过程中,他们面临诸多挑战,如数据筛选的主观性、标注的准确性以及数据量的不足等问题。例如,最初依靠人工操作,速度慢且效率低,后来通过邓嘉编写自动化程序,实现了图片下载的自动化,提高了数据收集速度。但同时,他们也遭遇了搜索引擎限制请求数量等问题,经过不断努力和调整,才逐步克服困难。
  • 成果与意义:Caltech 101 数据集最终包含了超过 9000 个图像,分布在 100 个类别中,成为当时为机器学习配置的较大规模的图像集合之一。该数据集为后续的研究提供了重要的基础,使得研究人员能够在更丰富的数据上训练算法,从而推动了图像识别技术的发展。它的出现为计算机视觉领域的研究提供了新的工具和资源,激发了更多关于图像分类、物体识别等方面的研究,促进了该领域的进步。

ImageNet 数据集与挑战赛

  • 灵感来源与目标设想:李飞飞在与克里斯蒂安・费尔鲍姆的交流中,了解到 WordNet 项目后,受到启发,设想创建一个类似的、规模更大且基于图像的数据集,即 ImageNet。她希望通过这个数据集,让算法能够接触到更广泛、更真实的视觉世界,从而提高其对各种物体的识别能力,推动计算机视觉领域向更接近人类视觉智能的方向发展。
  • 构建过程中的困难与解决方案:构建 ImageNet 面临着前所未有的挑战。首先是数据量的巨大,需要从海量的图像中筛选出合适的图片,并进行准确标注。为了解决这个问题,李飞飞和邓嘉最初招募本科生进行手动下载和标注,但速度远远达不到预期。后来,他们利用邓嘉编写的自动化程序,实现了大规模的图片下载,但又遇到了被谷歌封禁等问题。在标注环节,由于工作量巨大,标注员的速度成为瓶颈。他们尝试了多种方法,如优化标注流程、使用快捷方式和定制工具等,但效果有限。直到引入亚马逊土耳其机器人(Amazon Mechanical Turk)的众包模式,才成功解决了标注速度和成本的问题,实现了数据集的快速扩充和完善。
  • 挑战赛的组织与影响:ImageNet 数据集完成后,李飞飞组织了 ImageNet 大型视觉识别挑战赛(ILSVRC)。首届比赛吸引了 150 份报名表,共有 11 个团队提交了 35 个参赛作品。挑战赛的举办为计算机视觉领域提供了一个统一的测试平台,促使研究人员不断改进算法,以在 ImageNet 数据集上取得更好的成绩。通过比赛,推动了计算机视觉技术的快速发展,吸引了全球众多研究团队的参与,促进了学术交流与合作,使得图像识别准确率不断提高,为人工智能在图像领域的应用奠定了坚实基础,也让 ImageNet 成为计算机视觉领域的重要基准数据集,对整个行业的发展产生了深远的推动作用。

环境智能在医疗领域的应用研究

  • 研究起因与合作契机:母亲的一次生病经历,让李飞飞开始思考人工智能如何帮助他人,尤其是在医疗领域的应用。在与医疗领域专家阿尼・米尔斯坦的交流中,她了解到医疗保健中存在的诸多问题,如医疗差错、护理人员工作负担重以及患者安全隐患等,这些问题促使他们决定开展合作,探索人工智能在医疗服务中的应用潜力。
  • 研究内容与技术挑战:他们的研究主要聚焦于利用环境智能技术改善医疗服务。例如,通过部署智能传感器,对医院内的各种场景进行监测,如追踪护理人员的手部卫生情况、监测患者的身体活动等,以提高医疗质量和安全性。然而,研究过程中面临诸多技术挑战。首先,准确识别特定类型的动作,如正确洗手的步骤,对算法的准确性要求极高,这需要克服复杂的环境干扰、动作的多样性和细微性

标签:李飞飞,读书笔记,数智,人工智能,ImageNet,视觉,数据,标注
From: https://blog.csdn.net/kkiron/article/details/144464030

相关文章

  • 2024153读书笔记|《春烂漫:新平摄影作品选》——跳绳酷似人生路,起落平常,进退平常,莫惧征
    2024153读书笔记|《春烂漫:新平摄影作品选》——跳绳酷似人生路,起落平常,进退平常,莫惧征途万里长《春烂漫:新平摄影作品选》作者新平,2019.12.25年读完的小书,当时就觉得挺不错,今天2024.12.10再次读依然喜欢。诗词配摄影图片的一本书,主要是春天的百花开,桃花梨花牡丹玉兰油......
  • 2024149读书笔记|Hans的阿狸五部曲——成长的路上分离在所难免
    2024149读书笔记|Hans的阿狸五部曲——成长的路上分离在所难免1.《阿狸和小小云》2.《阿狸和小玉》3.《阿狸·呓语》4.《阿狸和弯月亮》5.《阿狸永远站》1.《阿狸和小小云》阿狸遇到了小小云☁️,它们一起陪伴彼此,早餐午餐晚餐,一起洗澡做伴儿,一起度过春夏秋冬,很......
  • 读书笔记《学习之道》第一章
    《学习之道》第一章读后,我深感触动。原来,作者的成长经历也充满了坎坷,尽管在成长过程中遇到了很多不理想的老师与不合适的环境,但她凭借坚持和努力,最终达到了令人瞩目的成就,并获得了深厚的智慧。这让我意识到,无论是谁,只要找到适合自己的学习方法并付诸努力,都有可能成为自己心目中的......
  • 专访「AI 教母」李飞飞:世界是三维的,我们需要尊重这一事实
    在人工智能(AI)领域,斯坦福大学教授李飞飞被称为“AI教母”。她在深度学习革命中发挥了重要作用,多年来一直致力于创建ImageNet数据集和竞赛,该数据集和竞赛要求人工智能系统识别1000个类别的物体和动物。2012年,一个名为AlexNet的神经网络在ImageNet竞赛中获得了冠军,......
  • 读书笔记~管理修炼
      二三十年来,士大夫习于优容苟安,揄修袂而养姁步,倡为一种不白不黑、不痛不痒之风,见有慷慨感激以鸣不平者,则相与议其后,以为是不更事,轻浅而好自见。国藩昔厕六曹,目击此等风味,盖已痛恨次骨。   话虽长,意思却简单——油腻的结构化。   曾国藩年轻时在六部历练(昔厕六......
  • 中电金信携手中远海科,共启贸易金融数智新篇章
    在数智化转型成为驱动经济社会高质量发展的新引擎背景下,“数智方案”栏目聚焦金融等国计民生重点行业场景,依托中电金信“源启筑基+咨询引领+应用重构”的产品及服务体系,输出市场洞察和行业解决方案、应用案例,旨在全面推动行业IT架构升级、数智化转型。  近年来,全球化进程的加......
  • 全链路解析如何构建数据资产管理框架及落地实践丨袋鼠云“数智基建+数智应用”赋能分
    为了帮助企业更好的进行数字化转型升级,袋鼠云精心策划了一系列以“数字基建+数智应用”为核心的赋能分享活动,本系列直播共有四期,每期聚焦于不同的关键议题,深入分析企业数字化转型中的挑战与应对策略。我们期待通过这些直播活动,与业界同仁共同探讨数字化转型中的难点,并寻找切实可行......
  • 世界模型爆发!Meta FAIR 的 Yann LeCun 团队继 World Labs(李飞飞)、谷歌 DeepMind后加入
    论文地址项目地址Abstract导航是具有视觉运动能力的智能体的基本技能。我们介绍了导航世界模型(NWM),一个可控的视频生成模型,预测未来的视觉观察的基础上,过去的观察和导航行动。为了捕捉复杂的环境动态,NWM采用了条件扩散Transformer(CDiT),在人类和机器人代理的各种自我中......
  • 火山引擎数据飞轮最新活动:结合大模型能力,探索金融行业数智化落地新可能
    12月7日,火山引擎数据飞轮泛金融行业沙龙在苏州举办,超20家互联网金融、消费金融企业科技负责人齐聚探讨新环境下,“数据飞轮”模式能够为行业带来哪些新的探索和机会。 数据飞轮是火山引擎在2023年推出的企业数智化升级新模式,它强调企业内部需要通过充分的数据消费,即使用数据,来......
  • 以数据驱动增长,火山引擎数智平台“数据找人”为双 12 营销提效
    “双12”即将来临,众多商家最为关心的,莫过于如何借助对数据的充分利用实现降本增效,在竞争激烈的大环境中快人一步,为了达成这个目标,商家往往需要耗费人力、物力以及时间对海量数据进行寻找与分析。 那么,是否可以在数智化工具的帮助下,自动获取所需数据,将“人找数据”转化为“数据......