首页 > 其他分享 >这份 AI 通讯就是你所需要的 #11

这份 AI 通讯就是你所需要的 #11

时间:2022-09-07 09:56:29浏览次数:113  
标签:11 偏差 通讯 AI 模型 图像 扩散 我们

这份 AI 通讯就是你所需要的 #11

本周在人工智能领域发生了什么

稳定扩散 再次引起了我们的注意,但更准确地说是“稳定传播计划”在多大程度上影响了新的研究和推进该领域。拥有如此强大的开源模型真是太酷了。我们在图像生成领域的大多数朋友目前都在昼夜不停地玩和实现它的各种版本。其中我们发现非常有趣和有希望的是一篇名为“ 一个图像值得一个词 。”

“一个图像值得一个词”允许您使用您自己的对象图像,只需很少的训练时间(约 2 小时)就可以个性化预训练的文本到图像模型的结果,例如稳定扩散。它从 3 到 5 张图像中学习概念并将其表述为他们所说的“伪词”,然后您可以在您的即时生成中使用它。它非常酷,并且具有令人惊叹的改变游戏规则的产品的巨大潜力,而且这只是一项新的研究,这要归功于更多的稳定扩散,甚至更多。我们正生活在图像生成行业激动人心的日子里,我们将与 Towards AI 团队一起为您密切关注它!

最新消息

  1. DALL·E: Outpainting 介绍
    OpenAI 刚刚向 DALLE 引入了外绘! Outpainting 可以扩展原始图像,以任何宽高比创建大型图像(请参阅本新闻稿迭代的封面图像)。它考虑了图像现有的视觉元素以保持原始图像的上下文,并且可以以文本为条件来添加特定元素。
  2. 到 2023 年将在 Twitter 上关注的前 22 位 AI 影响者
    我们不确定我们的联合创始人兼社区负责人 Louis Bouchard 是如何出现在 Bytescout 上这篇“到 2023 年将追随的前 22 位 AI 影响者”文章中的!我们认识这份名单上的大多数人,我们非常感激和兴奋路易斯是其中的一员。检查一下,并关注那里的其他了不起的人!
  3. 你们都听说过并尝试过稳定扩散,但它是什么?
    DALLE、Imagen 或 Midjourney 等所有最近的超级强大的图像模型有什么共同点?除了高昂的计算成本、巨大的训练时间和共享炒作之外,它们都基于相同的机制:扩散。扩散模型最近在大多数图像任务中取得了最先进的结果,包括使用 DALLE 的文本到图像,但也包括许多其他与图像生成相关的任务,如图像修复、样式转换或图像超分辨率。但什么是扩散,它是如何工作的?在文章中了解更多信息。

本周最有趣的论文

  1. 使用扩散模型从描边和草图生成自适应逼真的图像
    “一个统一的框架,支持对基于扩散模型的草图和笔画的图像合成进行三维控制 [用户可以使用该模型] 不仅决定输入笔画和草图的忠实程度,还决定真实程度。”
  2. 自然会话语音的轮流预测
    虽然流式语音助手系统已在许多应用程序中使用,但它仅对单向讨论和基本的问答非自然交互功能强大。如您所知,如果您停下来思考或不小心重复单词,效果会很差。他们提出了一个建立在端到端 (E2E) 语音识别器之上的轮流预测器,以帮助进行流畅、“真实”的讨论。
  3. 木兰:音乐音频和自然语言的联合嵌入
    MULAN:“新一代声学模型的首次尝试,将音乐音频直接链接到不受约束的自然语言音乐描述。” “人类听众更喜欢经过 MSG 后处理的贝司和鼓的源估计。”

喜欢这些报纸和新闻摘要吗? 在您的收件箱中获取每日回顾

准备面试数据科学或机器学习? Checkout Towards AI 的面试准备平台 五彩纸屑人工智能

一起学习 AI 社区部分!

本周模因!

Way too strong! Meme shared by 迪姆基里亚科斯#2286.

来自 Discord 的精选社区帖子

Learn AI Together 成员之一, 馄饨#7085 ,发表了他们的第一份独立研究和预印本!恭喜 Arav,我们很高兴看到下一个出版物(我有见解,还有更多即将发布!) 阅读 Arav 的出版物 .

如果您确实有一些出版物已经或即将出版,请与我们分享 在服务器上

本周人工智能投票!

加入关于 Discord 的讨论。

TAI 策展部分

本周文章

模型复杂度与偏差方差困境之间的数学关系 大多数数据科学爱好者都会同意,“偏差-方差困境”受到分析瘫痪的困扰,因为关于偏差-方差的概念、其分解、推导以及与模型复杂性的联系有大量文献。作者展示了为什么尽管我们尽了最大努力,但简单模型显示出显着的偏差,而复杂模型显示出最小的偏差。

如果您有兴趣在 Towards AI 上为我们写作,请在此处注册,如果您的博客符合我们的编辑政策和标准,我们会将您的博客发布到我们的网络。 https://contribute.towardsai.net/

劳伦对法学硕士未来的道德看法

我想写一篇来自 MIT Technology Review 的精彩文章,它强调了大型语言模型的许多伦理观点以及我们与它们的未来。通过提出问题, GPT-3 “了解”我什么? , 作者 Melissa Heikkilä 将个人镜头带入了一个巨大的现象。从她自己的信息开始并扩展到其他人,她检查了法学硕士给出的准确和不准确的回答(被称为“幻觉”)之间的惊人不协调。

有必要探索这些信息无处不在的未来,因为我们拥有的所有模型都不会很快消失,而且还会有更多。增加的尺寸和能力自然会增加脆弱性。虽然我们在执行隐私标准方面有非常不同的概念和方式(例如 这个关于 Meta 的大故事 ),降低风险将要求我们继续创新,以保护隐私。许多人支持所有公共信息都是公平的游戏的想法,不再会因为处理大规模的隐私问题而削减它。

我很高兴看到这种保护的未来将我们带向何方,以及我们如何选择取得进展的方向。个人、地区或文化差异会影响我们对隐私的理解以及应如何保护它的方式。我鼓励你检查一下你自己的样子!

工作邀请

高级机器学习工程师@安全安全 (偏僻的)

研究科学家 — 语音识别 @ Abridge (偏僻的)

计算机视觉科学家@感知人工智能 (加利福尼亚州圣克拉拉)

研究科学家 — 机器学习 @ DeepMind (伦敦,英国)

高级数据科学家 @ EvolutionIQ (偏僻的)

高级 ML 工程师 — Semantic Search @ Algolia (混合遥控器)

有兴趣在这里分享工作机会吗?联系赞助商@towardsai.net 或在我们的 #discord上的招聘频道

如果您正在准备下一次机器学习面试,请不要犹豫,查看我们领先的面试准备平台, 五彩纸屑

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明

本文链接:https://www.qanswer.top/22340/46170709

标签:11,偏差,通讯,AI,模型,图像,扩散,我们
From: https://www.cnblogs.com/amboke/p/16664232.html

相关文章