首页 > 其他分享 >Meta AR 眼镜团队前负责人加入 OpenAI;visionOS 2.2 Beta 引入超宽屏投屏模式丨 RTE 开发者日报

Meta AR 眼镜团队前负责人加入 OpenAI;visionOS 2.2 Beta 引入超宽屏投屏模式丨 RTE 开发者日报

时间:2024-11-06 13:08:58浏览次数:3  
标签:RTE AI 眼镜 超宽 投屏 Meta 苹果 开发者

 

 

 

开发者朋友们大家好:

 

这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement)领域内「有话题的 新闻 」、「有态度的 观点 」、「有意思的数据」、「有思考的 文章 」、「有看点的 会议 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

 

本期编辑:@SSN,@鲍勃

01有话题的新闻

1、visionOS 2.2 Beta 引入超宽屏投屏模式

 

 

 

近日,苹果在其 Vision Pro 头显的 visionOS 2.2 Beta 最新系统版本中推出了 Mac 投屏的宽屏及超宽屏模式。然而,这些新模式需要搭载最新的 macOS 15.2 Beta 系统,无法在 macOS 15.1 上运行。

 

据悉,Vision Pro 头显自推出以来,就具备将物理 Mac 屏幕替换为巨大虚拟显示屏的功能。用户只需看向 MacBook 并点击浮动虚拟按钮,或在台式 Mac 上使用控制中心,即可轻松连接。

 

该系统能够迅速在头显与 Mac 之间建立直接的无线连接,无需依赖 Wi-Fi 网络,带来了高质量、低延迟的体验。

 

此前,Mac 虚拟显示仅限于 16:9 的宽屏模式。但随着 visionOS 2.2 的推出,用户现在可以选择宽屏、超宽屏甚至全景沉浸的超宽显示模式。所有三种模式下,Mac 虚拟显示屏都呈现出轻微的弧度,提供更具包围感的观看体验。

 

苹果表示,超宽的 Mac 虚拟显示屏具有 8K 的水平分辨率,相当于将两个 4K 显示器并排放置,这得益于眼动追踪技术的支持。

 

此外,visionOS 2.2 还优化了音频路由功能,现在 Mac 的音频可以直接传输到 Vision Pro 播放。这一改进使得用户在享受巨大虚拟显示屏的同时,也能获得更加沉浸式的音频体验。

 

与 Meta 和微软等竞争对手的 PC 显示扩展方式相比,苹果的宽屏与超宽屏模式提供了不同的体验。Meta Quest 及其 Immersed 和 Virtual Desktop 等第三方应用上,用户可以虚拟添加多个侧边显示器,但这些虚拟显示器与物理显示器之间通常保留间隙。

 

相较而言,而苹果则通过单一扩展显示屏覆盖整个宽屏区域,无需任何显示间隙,实现了一体化的视觉体验。(@新浪 VR)

 

2、超快速文本转语音模型 Lightning:超低延迟, 100 毫秒生成 10 秒音频

 

 

 

近日,总部位于美国加州旧金山的 AI 初创公司 smallest.ai 推出了其新产品 Lightning,一款能够在 100 毫秒内生成长达 10 秒音频的文本转语音(TTS)模型。此项技术的进步,使得全球开发者能够构建高仿真度的语音机器人应用,且延迟时间极短,降低了实施成本,提高了应用的可及性。

 

Lightning 目前支持英语和印地语的多种口音,团队还计划迅速添加更多语言,以满足市场需求。这款模型的定价为每分钟仅需 0.02 美元(约 1.6 印度卢比),为语音机器人开发者提供了一种极具成本效益的解决方案,应用的运行成本可控制在每分钟 1 卢比以下,大幅降低了语音机器人构建的费用,同时扩大了市场的可达性。

 

与传统的 TTS 模型依赖流媒体和网络套接字,增加服务器负担和复杂的可扩展性不同,Lightning 通过简单的 REST API 设计,使音频在大约 100 毫秒内交付,避免了持续流媒体带来的服务器压力。这种快速的处理能力和成本效率,使其在语音机器人行业中成为一个显著的替代选择。

 

smallest.ai 由印度理工学院古瓦哈提校友 Sudarshan Kamath 和 Akshat Mandloi 创立。Kamath 表示,smallest.ai 的低价策略得益于他们对数据质量和模型效率的关注。「我们的模型比竞争对手如 ElevenLabs 的小得多,但我们通过高度精炼的数据实现了高质量的语音输出。」 他解释道。

 

早期获得 Lightning 使用权的语音机器人开发者报告称,他们的运营成本降低了 8 倍,同时音频质量得到了提升。除了实时的语音机器人应用,Lightning 还可以用于制作有声书和社交媒体内容的配音,如 Instagram 和 YouTube 等平台。非开发者也可以通过 Waves Speech 平台访问 Lightning,体验包括声音克隆和口音转换等功能,这些功能目前处于测试阶段。(@AIbase 基地)

 

3、Meta 公司 AR 眼镜团队前负责人宣布加入 OpenAI

 

11 月 5 日消息,Meta 前增强现实眼镜项目负责人凯特琳・卡利诺夫斯基(Caitlin Kalinowski)周一在 LinkedIn 上宣布,她将加入 OpenAI,领导机器人和消费硬件部门。

 

卡利诺夫斯基是一位资深的硬件主管,自 2022 年 3 月起领导 Meta 的 AR 眼镜团队。她监督了 Orion 的开发,这是一款增强现实眼镜原型,Meta 此前在年度 Connect 大会上展示了这款产品。卡利诺夫斯基还领导了 Meta 虚拟现实头显的硬件团队近九年。在此之前,她曾在苹果工作,设计 MacBook 的硬件。

 

「我很高兴分享,我将加入 OpenAI 领导机器人和消费硬件部门,」卡利诺夫斯基在她的帖子中说,「在我的新角色中,我将最初专注于 OpenAI 的机器人工作和合作伙伴关系,以帮助将 AI 引入物理世界并为人类解锁其潜力。」(@极客公园)

 

4、腾讯开源最大 MoE 大语言模型

 

11 月 5 日消息,腾讯宣布开源 MoE 大语言模型混元 Large、腾讯混元 3D 生成模型 Hunyuan3D-1.0 正式开源,并全面披露腾讯混元的全系列多尺寸模型、C 端应用、B 端应用版图

 

腾讯称混元 Large 是业界参数规模最大、效果最好的开源 MoE 大语言模型,采用 7T 训练 tokens,总参数量 389B,激活参数量 52B,上下文长度高达 256K,技术报告也同步发布。混元-Large 包括三款模型:Hunyuan-A52B-Pretrain,Hunyuan-A52B-Instruct 和 Hunyuan-A52B-FP8。

 

与有相似激活参数量的业界开源模型 Llama3.1-405B、Mixtral-8x22B 等相比,在多学科综合评测集、中英文 NLP 任务、代码、数学等 9 大维度,混元 Large 都实现领先。(@极客公园)

 

5、消息称苹果已进军智能眼镜市场,启动代号 Atlas 项目

 

据知情人士透露,苹果上周悄然启动了一项名为 Atlas 的内部研究项目,该项目主要聚焦于智能眼镜的开发。

 

为了深入了解员工对于智能眼镜的看法,苹果上周还特意收集了相关反馈,并通过电子邮件向部分选定员工确认了这一产品研究方向。

 

据了解,苹果在计划推出新品类产品时,通常会组建秘密小组,并倾向于收集内部员工的反馈,以保持项目的保密性。这一做法再次印证了苹果有意推进开发自有智能眼镜的传闻,而此次 Atlas 项目正是由苹果硬件工程部门的产品系统质量团队所领导。

 

今年 2 月,苹果发布的 Vision Pro 头显因其高达 3499 美元的售价和笨重的外观,被市场认为难以成为主流产品。然而,苹果并未放弃在这一领域的探索,多年来一直在寻求制造一款更轻便、可全天佩戴的 AR 设备,甚至期望其能够取代 iPhone。然而,由于技术上的诸多挑战,苹果在这一项目上的进展并不顺利。与此同时,Meta 通过更精简的公式取得了成功。

 

面对 Meta 的成功,苹果也在调整策略,寻求创造类似的产品。据推测,苹果可能会借鉴其已经广受欢迎的 AirPods 耳机的成功经验,制造一款智能眼镜。这款眼镜预计将拥有更长的电池寿命、先进的传感器和改进的音频技术,以满足用户对便携性和实用性的需求。

 

尽管苹果方面尚未就此事发表评论,但种种迹象表明,苹果对于智能眼镜市场的兴趣浓厚,并正在积极投入研发资源。未来,随着 Atlas 项目的深入进行,我们或许能够见证苹果在智能眼镜领域的创新与突破。(@新浪 VR)

02有态度的观点

1、吴恩达对谈斯坦福计算机系主任:生成式 AI 可赋能编程,但基础编程知识及编程思维仍值得学习与培养

 

Andrew Ng(吴恩达)与斯坦福大学工程学院的计算机科学系主任 Mehran Sahami 在一次演讲访谈中谈到了对生成式 AI 对编程和软件开发职业的影响、计算机科学教育的重要性,以及领域知识在 AI 应用中的关键作用。

 

他们认为,生成式 AI 正在加速软件开发的速度,一方面帮助有经验的开发者提高效率,另一方面也让没有太多编程经验的人能够快速进入软件工程领域。这种技术使得编写复杂程序变得更加可行,从而吸引了更多人参与软件工程。因此,整个领域的速度在加快,开发出的软件也越来越多。

 

此外,他们强调了计算机科学教育的必要性。尽管生成式 AI 能够帮助生成代码,但基础的计算机科学技能仍然至关重要。学生需要理解编程的基本概念、算法和数据结构,以便能够评估和优化生成的代码。教育应注重培养学生的计算思维,即如何系统地分解问题并解决问题,而不仅仅是教授编程语言的语法。

 

计算机科学推动的快速节奏正在给许多其他行业带来压力。生成式 AI 让团队能更快地完成任务,也可能会改变许多行业的工作模式。AI 作为一种新技术,能够提高生产力,但如何利用这些生产力的提升仍然是人类的决策。AI 的应用与特定领域的知识相结合,能够创造出更具价值的应用。(@ Z potentials)

 

写在最后:

 

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

 

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。

 

 

素材来源官方媒体/网络新闻

标签:RTE,AI,眼镜,超宽,投屏,Meta,苹果,开发者
From: https://www.cnblogs.com/Agora/p/18529762

相关文章

  • Spring-Converter类型转换器
    Converter在Spring3中引入了一个Converter接口,它支持从一个Object转为另一个Object。除了Converter接口之外,实现ConverterFactory接口和GenericConverter接口也可以实现我们自己的类型转换逻辑。Converter接口Converter<S,T>接口定义了从类型S转换为类型T的转换器。packa......
  • Go 语言中遇到 _func not exported by package_ 错误,应该如何处理?
    在使用Go语言进行开发时,开发者常常会遇到许多错误提示,其中“funcnotexportedbypackage”是一个常见的错误。这种错误通常出现在尝试调用一个未导出的函数时,导致编译失败。理解这一错误的根本原因并能够解决它,对于提高开发效率非常重要。我们需要理解Go语言中“导出”和“......
  • 推荐一款图像批量转换软件:ReaConverter Pro
    ReaConverterPro是一款图像批量转换软件,旨在帮助您轻松转换图像文件以及执行其他操作(例如调整大小)的应用程序。一个优雅而强大的实用程序,可帮助您批量编辑图像,然后将它们转换为多种其他格式,例如PNG、JPG、TIF或BMP。您可以使用基于资源管理器的布局来定位和访问图片。支......
  • HAL_UART_RxCpltCallback与HAL_UARTEx_RxEventCallback使用场景
    1.HAL_UART_RxCpltCallback()是在接收到启动时设置的字节数(启动接收时需要设置接收数据长度)后的回调。适用于标准的接收模式,比如使用HAL_UART_Receive_IT或HAL_UART_Receive_DMA启动的接收。在处理完接收数据后,还需要重新启动接收(要在回调函数中调用HAL_UART_Receive_IT或HAL_......
  • AI赛道盈利模式揭秘——以AIStarter为例【AI数字人、大模型、工作流...】
    随着人工智能技术的飞速发展,越来越多的企业涌入这一赛道,试图在激烈的市场竞争中占据一席之地。作为其中的一员,AIStarter凭借其独特的商业模式和技术创新,成功地在市场上站稳了脚跟。本文将深入探讨AIStarter的盈利模式,揭示其成功的秘密。AIStarter概述AIStarter是一家专注于提......
  • 从零开始学AIStarter:创作者模式全攻略【AI工作流、数字人、大模型、对话、设计...】
    在数字化时代,项目管理工具成为了提高工作效率、促进团队协作不可或缺的一部分。对于创作者来说,选择一个既能满足个性化需求又能提供高效管理支持的平台尤为重要。AIStarter项目管理平台正是这样一款专为创意人士设计的强大工具,它不仅提供了丰富的功能来帮助用户更好地组织工作......
  • 新手必看!AIStarter能帮你做什么?【AI绘画、设计、对话、工作流、编程...】
    在当今这个技术飞速发展的时代,人工智能(AI)已经成为了推动各行各业创新的关键力量。为了帮助更多的人能够轻松地利用AI技术解决实际问题,AIStarter应运而生。作为一款面向开发者的强大工具,AIStarter不仅简化了AI模型的构建过程,还提供了丰富的资源和支持,让不论是初学者还是有经验......
  • Prometheus Exporter的底层原理涉及到几个关键组件和步骤,主要包括Collector、Exporter
    PrometheusExporter的底层原理涉及到几个关键组件和步骤,主要包括Collector、Exporter以及PrometheusServer。以下是这些组件的工作原理和它们如何协同工作的详细解释:1.**Collector(收集器)**:  -Collector负责从目标应用程序或系统收集指标,并将其转化为Prometheus可识别......
  • 在这里游玩和创造,见证实时互动和 AI 的融合爆发丨年末场 RTE Open Day@RTE2024 回顾
       RTE2024第十届实时互联网大会上周末在北京圆满结束了,不知道大家体验交流得如何?可能是因为本来入秋的北京悄然升温,又或者是那两天的观众都很热情,25-26号的活动现场特别像是一场夏天的聚会。 RTEOpenDay马不停蹄来到了第五期,今年已经有三四十个“实时互动+”的项......