首页 > 其他分享 >「AI Infra 软件开源不是一个选项,而是必然」丨云边端架构和 AI Infra专场回顾@RTE2024

「AI Infra 软件开源不是一个选项,而是必然」丨云边端架构和 AI Infra专场回顾@RTE2024

时间:2024-11-15 23:08:32浏览次数:1  
标签:RTE2024 TEN AI Infra Framework 开源 开发者 Yuan

 

 

在人工智能和开源技术蓬勃发展的当下,AI Infra 项目正经历着日新月异的变革。从跨平台运行时到云边端 AI 基础设施,再到多模态知识助手,创新浪潮席卷而来。这些进步不仅显著提升了技术指标,也为实时音视频处理、边缘计算、大模型应用等场景开辟了新的可能性。

 

在 RTE 2024 大会上,LLamaIndex 研究员郑钦月、TEN Framework 创始人 halajohn、亚马逊云科技资深开发者布道师郑予彬、声网后端媒体中心负责人曹类、WasmEdge 维护者 Michael Yuan 等行业专家分享了各自的见解和研究成果。

 

RTE 开发者社区主理人、小樱桃科技 CTO 杜金房主持了主题分享和圆桌讨论环节。

 

 

郑钦月:构建多模态知识助手,高效应用 RAG 框架

 

 

 

LLamaIndex 研究员郑钦月指出,尽管大语言模型能力不断提升,但在实际应用中仍面临着幻觉、时效性和专业性不足等问题。为解决这些问题,RAG(检索增强生成)技术应运而生,通过外接数据来最大化大模型的能力。然而,简单的 RAG 框架仍存在局限性,无法有效处理复杂任务和多模态数据。

 

一个理想的知识助手应具备以下特质:

 

1、高质量的多模态 RAG 框架, 能处理文本、图像、音视频等多种数据类型。2、强大的任务处理能力, 不仅能回答问题,还能生成报告、制作 PPT、分析数据等。3、具备行动能力, 能够提供下一步行动建议。

 

LLamaIndex 提供了一系列工具和框架来实现这一愿景:

 

1、LLamaParse: 一个文档解析工具,能最大限度保留文档的图表和布局信息。2、LLamaCloud: 一个 Production-ready 的 RAG 平台,支持简单的数据输入和问答。3、Agentic RAG: 包括有约束和无约束两种操作流程,允许多个 AI 代理协作完成复杂任务。4、LLamaIndex Workflow: 一个事件驱动的工作流框架,用于定义和执行复杂的 AI 任务。

 

 

 

halajohn:基于 TEN Framework 的云边端 AI 基础设施与 AI Agent 应用

 

 

TEN Framework Creator halajohn 提出了目前基于云端的语音交互 AI 应用面临的三大挑战:高昂的云端计算成本、用户数据隐私泄露的风险,以及难以适应不同用户负载的架构扩展性问题。

 

面对这些挑战,halajohn 提出了他们的解决方案:TEN Framework,一个「云边端互融、跨设备、跨环境的 AI 基础设施」。

 

他强调了 TEN Framework 的 模块化设计理念 ,允许开发者创建可在各种平台上运行的 Extension 模块。为了方便开发者快速构建应用,「站在巨人的肩膀上」,TEN Framework 支持所有主流编程语言(C++、Python、Golang、JavaScript 等),并推出了 TEN Cloud Store,方便开发者分享和使用现成的模块,如同提供一把便捷的「铲子」,让开发者专注于挖掘应用场景的「金矿」。

 

TEN Framework 将不同语言编写的模块组合在同一服务中运行,优化实时音视频应用的性能,并避免微服务架构带来的性能瓶颈和跨设备难题,实现成本控制和性能保障。

 

他还介绍了正在开发的 Graph Designer, 一个可视化工具 ,旨在简化模块的组合、调试和流程管理,并计划引入 动态调试功能 ,方便开发者快速定位问题。

 

此外,他还提到通过 优化云边端传输 ,将语音交互的响应速度提升至毫秒级,并将成功率提升到 97%-98%。

 

目前,TEN Framework 已经开源,并期待社区的共同参与和贡献。

 

 

 

 

 

郑予彬:生成式人工智能赋能云上开发全流程

 

 

 

来自亚马逊云科技开发者体验团队的郑予彬分享聚焦于在生成式 AI 蓬勃发展的当下,云平台如何为个人和组织提供强有力的支持,以及如何通过一系列工具提升开发者体验,最终将创新落地转化为生产力。

 

郑予彬指出,2024 年开发者和组织对云平台的需求已经从单纯的算力转向更便捷的平台和多样化的工具。为此,云平台需要在三个层面提供支持:

 

1、底层 LLM 部署方面,云平台需要提供优秀的工具和标准化策略, 简化 LLM 部署流程。2、平台层面上,需要支持企业利用自身数据定制 LLM,将基础模型转化为 专用模型。3、最后,生成式 AI Agent 需要将模型与前端服务和应用快速连接,将 LLM 调用 融入生产流程。

 

Amazon Bedrock 平台预置了近十种 LLM,并提供便捷的工具帮助企业定制模型,同时兼顾安全合规。他还特别提到,他们团队更名为 「开发者体验团队」 ,正是因为开发者体验对企业创新能力至关重要。

 

 

曹类:十亿级月活分钟数背后的声网媒体中心架构演进之路

 

 

声网后端媒体中心负责人曹类分享了他在声网七年间,见证公司 从高速增长到追求极致平衡过程中 ,媒体中心架构的演进历程。

 

从早期的 SDK 到 Restful API,再到如今的云端应用,媒体中心的业务流程经历了多次迭代升级。然而,高速增长也带来了新的挑战:组合业务种类繁多、单一产品功能激增、成本居高不下、业务交付周期长,以及可用性问题频发。

 

为了解决这些问题,曹类和他的团队制定了针对性的解决方案。通过构建统一可用性系统、整合音视频能力、搭建统一编排引擎、优化资源调度和计量模型等一系列举措,他们成功地实现了降本增效,同时显著提升了系统效率和可用性。

 

「过去两年,我们的业务用量增长了 39%,而单位成本却降低了 56%,等价 L4 故障数降低了 50%。」

 

然而,曹类也深刻地认识到,架构演进是一个持续的过程,他将其比作对抗熵增,如同人的成长一样。早期低熵状态下,系统野蛮生长;中期需要积极对抗熵增,保持系统的有序性;后期则需要在可控范围内管理熵增。

 

 

Michael Yuan:在端侧部署多模态大模型的实践与思考

 

 

Michael Yuan,WasmEdge 维护者和 Second State 创始人分享了如何在边缘侧部署多模态大模型,来处理音视频数据。Yuan 开篇展示了一个将 YouTube 英文视频翻译成中文的项目。尽管看似简单,这项任务实际上融合了多个复杂步骤和技术。

 

Yuan 指出 Python 在大模型部署中的局限性。 虽然 Python 在模型训练阶段被广泛采用,但在推理阶段,尤其是在需要高性能和复杂业务逻辑的场景下,Python 往往会成为性能瓶颈。在云边缘计算环境中,Python 的性能问题尤为突出。Python 在实时交互场景中会导致明显的延迟,并非毫秒级,而是秒级。

 

Yuan 提出使用 Rust 和 WebAssembly 来解决这一难题。WebAssembly 可以作为 硬件和应用程序之间的新抽象层, 类似于曾经的 Java 虚拟机,但以 Rust 作为主要开发语言。这种方法可以有效解决跨平台部署、安全性和性能等关键问题。

 

 

圆桌讨论:开源 AI 项目的设计哲学和成长方法论

 

 

主题是 「开源 AI 项目的设计哲学和成长方法论」 的圆桌讨论由 FreeSWITCH 的核心维护者杜金房主持,参与讨论的嘉宾有 WasmEdge 维护者 Michael Yuan、TEN Framework 的 halajohn 以及开源社联合创始人林旅强。

 

halajohn 首先分享了 TEN Framework 的设计理念:帮助开发者快速构建 AI 场景和应用,并强调其 「集百家之长」 的设计哲学有助于快速达成目标。

 

Michael Yuan 介绍了 WasmEdge,一个跨平台、轻量级、高性能的 AI 运行时。他指出 WasmEdge 的核心目标是实现 「模型与应用一体化」 ,将模型嵌入应用中,并在用户可控的设备上以轻量级运行时运行。

 

林旅强则从开源社区的角度阐述了 开源基金会的重要作用。 他认为,基金会能够有效地管理和发展开发者捐赠的项目,并构建繁荣的生态系统。他强调,项目长期发展需要基金会化和公司化,以确保其可持续性和高效决策。

 

谈及 AI Infra 和开源的关系,Michael Yuan 说,如果基础软件不开源,几乎不可能得到机会。不开源意味着无法让大家试用,这会让人对基础软件的可靠性产生怀疑。在今天,做基础软件的人几乎没有不开源的选择—— 开源不是一个选项,而是必然。

 

 

 

在个人成长经验分享环节,三位嘉宾也提供了宝贵的建议。Michael Yuan 强调了 为开源项目贡献代码的重要性, 认为这是伴随终身的宝贵财富。halajohn 提出了三点建议: 保持追根究底的精神、勇于尝试、运用费曼学习法。 林旅强则以《鸟哥的 Linux 私房菜》为例,说明了 把握时代需求、持续输出 的重要性。

 

这场圆桌讨论不仅涵盖了开源 AI 项目的技术层面,更深入探讨了个人成长和社区建设。正如林旅强总结道:「紧跟时代需求,持续输出,创造人人需要的产品,无论是书籍、TEN 框架还是 WasmEdge,只要能够帮助他人,社区就会给予回报,这对于项目发展和个人成长都至关重要。」

 

 

 

标签:RTE2024,TEN,AI,Infra,Framework,开源,开发者,Yuan
From: https://www.cnblogs.com/Agora/p/18548849

相关文章

  • GOAT‘S AI早鸟报Part4
    欢迎后台......
  • 11月ChatGPT商业运营网站程序源码,支持Midjourney绘画,GPT语音对话+DALL-E3文生图+suno-
    11月ChatGPT商业运营网站程序源码,支持Midjourney绘画,GPT语音对话+DALL-E3文生图+suno-ai音乐生成+TTS语音对话+支持GPTs文章目录11月ChatGPT商业运营网站程序源码,支持Midjourney绘画,GPT语音对话+DALL-E3文生图+suno-ai音乐生成+TTS语音对话+支持GPTs前言一、文档总结二......
  • 校园AI语音识别霸凌监控系统
    校园AI语音识别霸凌监控系统通过音频识别技术,校园AI语音识别霸凌监控系统针对校园内监控难以覆盖的区域,如厕所、宿舍、天台等,进行全天候的音频监控。系统通过识别特定的关键词,如“救命”、“老师救我”等,来监测可能发生的霸凌事件。系统采用YOLOv5AI音频算法,该算法能够对音频流进......
  • 校园AI防霸凌报警系统
    校园AI防霸凌报警系统利用先进的AI音频分析技术,校园AI防霸凌报警系统能够在没有摄像头的隐私区域,如厕所和宿舍,实时监测异常声音。系统的核心是YOLOv5算法,它能够准确识别出求救声、谩骂声等异常声音,从而触发报警机制。智能防欺凌终端是系统的前线设备,安装在校园的隐私盲区。当识别......
  • 生产环境中AI调用的优化:AI网关高价值应用实践
    随着越来越多的组织将生成式AI引入生产环境,他们面临的挑战已经超出了初步实施的范畴。如果管理不当,扩展性限制、安全漏洞和性能瓶颈可能会阻碍AI应用的推广。实际问题如用户数据的安全性、固定容量限制、成本管理和延迟优化等,需要创新的解决方案。本文我们深入探讨了一些独特的应......
  • 【AI声音克隆整合包及教程】第二代GPT-SoVITS V2:技术、应用与伦理思考
    一、引言在当今科技迅速发展的时代,声音克隆技术成为人工智能领域的一个备受瞩目的分支。GPT-SoVITSV2作为一种声音克隆工具,正逐渐进入人们的视野,它在多个领域展现出巨大的潜力,同时也引发了一系列值得深入探讨的问题。本文旨在介绍GPT-SoVITSV2的技术原理、应用领域及其带来......
  • AI时代下,哪些工作是无法替代的?你需要了解的三大核心领域
    文章目录前言一、创造性的工作:AI的边界在哪里?二、情感劳动:AI无法触及的人类温度三、复杂决策与战略规划:AI的局限性未来不可或缺的两大技能总结前言随着人工智能(AI)技术的飞速发展,许多行业和职业正面临前所未有的变革。自动化和AI系统的普及显然将重塑大量......
  • 防火墙形态之详解(Detailed Explanation of Firewall Form)
     ......
  • 细数 AI 领域的 28 位顶级科学家
    人工智能(AI)作为一门交叉学科,吸收了计算机科学、数学、心理学、认知科学等多个领域的知识。其发展离不开许多思想家的贡献。本文将从莱布尼茨到杨立昆,逐一介绍28位对AI领域产生深远影响的科学家(名单来自《AI群星闪耀时》一书)。1.莱布尼茨(GottfriedWilhelmLeibniz)莱布尼茨......
  • 【一键整合包及教程】AI照片数字人工具EchoMimic技术解析
    在数字化时代,人工智能(AI)正以前所未有的速度改变着我们的生活。EchoMimic,作为蚂蚁集团旗下支付宝推出的开源项目,不仅为数字人技术的发展掀开了新的一页,更为娱乐、教育、虚拟现实、在线会议等多个领域带来了全新的可能性。EchoMimic技术概述EchoMimic是一款基于音频驱动的肖像......