首页 > 其他分享 >文生图大模型

文生图大模型

时间:2024-11-07 15:42:28浏览次数:3  
标签:文生 Dall 模型 response 测试 图像 格沃兹 image 图大

简介

Dall-E 由 OpenAI 发布,是一种基于深度学习的生成模型,它是一种改进的 GPT 模型,专门用于图像生成。Dall-E 可以根据文本描述生成与之相符合的原创性、真实的图像。

Dall-E 通过一个拥有 120 亿参数的 Transformer 模型来理解自然语言的输入,并生成相应的图片。这些图片不仅限于现实中已存在的图像,还包括虚拟的、现实中不存在的图像。

Dall-E 发展

Dall-E 和 Dall-E 2

Dall-E 最早发布于 2021 年 1 月 5 日由 OpenAI 发布,它具备生成逼真图像的能力。一年后的 2022 年 4 月 OpenAI 宣布了新版本的 DALL-E 2,这一版本具备更为强大的功能,并且在分辨率方便也提高了 4 倍。以下是 Dall-E 所具备的扩展的功能:

  • 图像生成。
  • 扩展图像。
  • 修改已有图像。
  • 根据已有的图像生成新的图像。

Dall-E 2 的局限性

尽管 Dall-E 2 的功能已经非常强大,然而开发者也公开提出了它的局限性,对于图像的属性,Dall-E 2 是没有一个很准确的判断的,并且细节方面还有很多的欠缺。

并且基于安全考虑,Dall-E 2 是不会生成包含暴力、政治等敏感图片的。

Dall-E 3 的增强

相比较 Dall-E 2 的图像生成,Dall-E 3 对图像的增强有以下几个方面:

  • 提示优化:详细的提示会带来更为准确的图片结果。
  • 清晰度:可选择standard标准与HD高清两种。
  • 多尺寸:接受三种尺寸(1024px x 1024px、1792px x 1024px 和 1024px x 1792px)。
  • 多风格:natural 自然和 vivid 生动两种。

应用场景

  • 定制化图像生成
  • 虚拟设定和游戏开发
  • 产品设计和广告营销
  • 自然语言处理和计算机视觉研究

实战示例

OpenAI 提供了三种 API 调用的方式,如下所示:

  • Dall-E 3 和 Dall-E 2:根据文本提示从头开始创建图像。
  • Dall-E 2:根据新的文本,替换预先存在的图像的某些区域。
  • Dall-E 2:根据图像生成图像的变体。

生成图像

前提:已安装 openai 库

保存图片需要提前下载 requests 库:pip install requests

# 实例化 openai 的对象
client = OpenAI(base_url="xxx",api_key="xxxx")
def generate_image_path():
    # 生成图片路径
    return os.path.join("img_" + datetime.datetime.now().strftime("%Y%m%d%H%M%S") + ".png")
def test_image_normal():
    # 文生图,指定模型,给出提示语和大小限制
    response = client.images.generate(
        model="dall-e-3",
        prompt="一只猫在窗户边睡觉",
        size="1024x1024",
    )
    # 得到生成的图片链接
    image_url = response.data[0].url
    print(image_url)
    # 下载并保存图像
    image_response = requests.get(image_url)
    with open(generate_image_path(), 'wb') as f:
        f.write(image_response.content)

增加图像生成的条件


def test_image_style():
    # 文生图
    response = client.images.generate(
        model="dall-e-3",
        prompt="一只猫在窗户边睡觉",
        size="1024x1024",
        style="natural",
        quality="standard",
        n=1
    )
    image_url = response.data[0].url
    print(image_url)

生成多个图像

def test_image_num():
    response = client.images.generate(
        model="dall-e-2",
        prompt="一只猫在窗户边睡觉",
        n=3
    )
    for i, image in enumerate(response.data):
        image_response = requests.get(image.url)
        with open(generate_image_path(), 'wb') as f:
            f.write(image_response.content)
        print(f"生成的第{i}张图片地址是:{image.url}")

修改图像

下载 img1.png 下载 img2.png

def test_change_image():
    # 将图1根据提示在图2的标记上进行修改
    response = client.images.edit(
        model="dall-e-2",
        image=open("img1.png", "rb"),
        mask=open('img2.png', 'rb'),
        prompt="A sunlit indoor lounge area with a pool containing a flamingo",
        n=1,
        size="256x256"
    )
    # 生成的图像路径
    image_url = response.data[0].url
    # 存储图片
    image_response = requests.get(image_url)
    with open(generate_image_path(), 'wb') as f:
        f.write(image_response.content)

生成变体图像

下载ori_img.png


def test_variation_image():
    response = client.images.create_variation(
        model="dall-e-2",
        # 给出原图像
        image=open("ori_img.png", "rb"),
        n=1,
        size="1024x1024",
    )
    # 获取生成的图片路径
    image_url = response.data[0].url
    # 保存图片
    image_response = requests.get(image_url)
    with open(generate_image_path(), 'wb') as f:
        f.write(image_response.content)

总结

  • 了解 Dall-E 的功能。
  • 了解 Dall-E 的用法。

【霍格沃兹测试开发】7天软件测试快速入门带你从零基础/转行/小白/就业/测试用例设计实战

【霍格沃兹测试开发】最新版!Web 自动化测试从入门到精通/ 电子商务产品实战/Selenium (上集)

【霍格沃兹测试开发】最新版!Web 自动化测试从入门到精通/ 电子商务产品实战/Selenium (下集)

【霍格沃兹测试开发】明星讲师精心打造最新Python 教程软件测试开发从业者必学(上集)

【霍格沃兹测试开发】明星讲师精心打造最新Python 教程软件测试开发从业者必学(下集)

【霍格沃兹测试开发】精品课合集/ 自动化测试/ 性能测试/ 精准测试/ 测试左移/ 测试右移/ 人工智能测试

【霍格沃兹测试开发】腾讯/ 百度/ 阿里/ 字节测试专家技术沙龙分享合集/ 精准化测试/ 流量回放/Diff

【霍格沃兹测试开发】Pytest 用例结构/ 编写规范 / 免费分享

【霍格沃兹测试开发】JMeter 实时性能监控平台/ 数据分析展示系统Grafana/Docker 安装

【霍格沃兹测试开发】接口自动化测试的场景有哪些?为什么要做接口自动化测试?如何一键生成测试报告?

【霍格沃兹测试开发】面试技巧指导/ 测试开发能力评级/1V1 模拟面试实战/ 冲刺年薪百万!

【霍格沃兹测试开发】腾讯软件测试能力评级标准/ 要评级表格的联系我

【霍格沃兹测试开发】Pytest 与Allure2 一键生成测试报告/ 测试用例断言/ 数据驱动/ 参数化

【霍格沃兹测试开发】App 功能测试实战快速入门/adb 常用命令/adb 压力测试

【霍格沃兹测试开发】阿里/ 百度/ 腾讯/ 滴滴/ 字节/ 一线大厂面试真题讲解,卷完拿高薪Offer !

【霍格沃兹测试开发】App自动化测试零基础快速入门/Appium/自动化用例录制/参数配置

【霍格沃兹测试开发】如何用Postman 做接口测试,从入门到实战/ 接口抓包(最新最全教程)

标签:文生,Dall,模型,response,测试,图像,格沃兹,image,图大
From: https://www.cnblogs.com/hogwarts/p/18532437

相关文章

  • 大模型-大模型训练框架-07
    目录1.训练框架概述2.重点Deepspeed框架介绍3.DeepSpeed框架实践4.debug5.扩展1.训练框架概述100亿10^1010B参数量是模型具备涌现能力的基本门槛如何充分的利用显卡的能力充分的使用显存分布式训练框架对比MegatronandDeepSpeed是目前主流的训练加速框架训......
  • 惊呆!大模型工程师均薪达39607元/月,现在入还来得及吗?
    前言一年前的11月30日,在ChatGPT发布的夜里,一位软件创业者感叹:「过去20年白干了,我感觉全部都可以丢掉。」在2023年阿里云峰会上,阿里巴巴集团CEO张勇表示“AI时代,所有的产品都值得用大模型重新做一遍”。大模型的风刮了一年多,历经了百模大战、Llama3.2开源、GPTs发布等......
  • 关于离散概率模型的一些介绍
    离散概率模型是概率论中的一类重要模型,专门用于描述随机变量取离散值的情况。这类模型在许多领域都有广泛的应用,比如统计学、机器学习、数据挖掘等。在这篇文章中就将介绍离散概率模型有关的东西,具体包括:马尔科夫链、部件与系统的可靠性建模以及线性回归等内容。一、马尔科夫......
  • 1.0 RK3588上运行AI模型
    瑞星微是需要RKNN模型的,我们安装他的工具rknn-toolkit2,下面会将如何生成模型文件.1.模型转换当前系统是Ubuntu20.04使用python虚拟环境软件 Minicondasudoaptupdatesudoaptinstallwgetwgethttps://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64......
  • stable diffusion 大模型
    本节内容,给大家带来的是stablediffusion的基础模型课程。基础模型,我们有时候也称之为大模型。在之前的课程中,我们已经多次探讨过大模型,并且也见识过一些大模型绘制图片的独特风格,相信大家对stablediffusion大模型已经有了一定的了解。使用不同的大模型,绘制的图片风格,内容,精细......
  • 超详细解读:《中国人工智能大模型技术白皮书》,看完你算是学完了半个大模型!
    近期,中国人工智能协会发布了《中国人工智能大模型技术白皮书》,系统梳理了大模型技术演进,深入探讨关键技术要素,并剖析当前挑战及未来展望。我为大家做了简要总结,并附上原文供深入阅读。目录第1章大模型技术概述...................................51.1大模型技术的......
  • 程序员为什么要转行做大模型?中年危机?职场发展?升职加薪?
    最近研究了一下大模型相关的内容,决定从互联网的推荐算法转行做大模型推理工程化相关的工作。所以简单说说我在这个决定中的思考过程。1.推荐算法岗的现状我本来是一个在大厂做推荐算法的工程师。收入在行业里面算是中游水平,就这么一直干着似乎也没什么问题。但是互......
  • 王慧文回归带队美团探索 AI 应用;对话音频开源模型 Hertz-dev:120 毫秒超低延迟丨 RTE
       开发者朋友们大家好: 这里是「RTE开发者日报」,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享RTE(Real-TimeEngagement)领域内「有话题的新闻」、「有态度的观点」、「有意思的数据」、「有思考的文章」、「有看点的会议」,但内容仅代表编......
  • java后端工程师转行AI大模型岗,工作、自我提升两不误!
    随着技术的不断进步,人工智能(AI)已经成为当今科技领域最热门的话题之一。许多开发者开始考虑从传统的软件开发领域,如Java,转向人工智能领域,今天小编和大家一起来探讨Java开发者是否可以转型到人工智能,转型的优势,薪资对比,以及转型所需的知识和学习路线等。01Java开发者能否转......
  • 制作并量化GGUF模型上传到HuggingFace和ModelScope
    llama.cpp是Ollama、LMStudio和其他很多热门项目的底层实现,也是GPUStack所支持的推理引擎之一,它提供了GGUF模型文件格式。GGUF(GeneralGaussianU-NetFormat)是一种用于存储模型以进行推理的文件格式,旨在针对推理进行优化,可以快速加载和运行模型。llama.cpp还支持量......