AIGC测试生成结果评估工具-BLEU

时间：2025-01-09 16:54:34浏览次数：1

标签：BLEU bleu 测试参考 AIGC gram 译文分数

一、准备数据

候选译文：这是需要评估的机器翻译或文本摘要结果。
参考译文：这是人工翻译或撰写的标准答案，用于与候选译文进行对比。通常，会有多个参考译文以提供更全面的评估。

二、安装BLEU评估工具

BLEU评估工具通常作为自然语言处理库（如NLTK、Moses等）的一部分提供。以下是通过NLTK库安装BLEU评估工具的示例：

bash复制代码

pip install nltk

在Python脚本中导入NLTK库中的BLEU评估模块：

python复制代码

from nltk.translate.bleu_score import sentence_bleu, SmoothingFunction

三、计算BLEU分数

加载数据：将候选译文和参考译文加载到Python变量中。
计算BLEU分数：使用NLTK提供的sentence_bleu函数计算BLEU分数。该函数接受候选译文、参考译文列表和一个可选的平滑函数作为参数。平滑函数用于处理n-gram匹配数为0的情况，以避免除以零的错误。

以下是一个计算BLEU分数的示例：

python复制代码

	# 候选译文
	candidate = ['this', 'is', 'a', 'test']

	# 参考译文列表
	references = [['this', 'is', 'a', 'test'], ['this', 'is', 'test']]

	# 使用默认的平滑函数（方法1）
	bleu_score = sentence_bleu(references, candidate)

	# 或者，使用自定义的平滑函数（方法2）
	smoothing_function = SmoothingFunction().method1 # 或 method2, method3, method4 等
	bleu_score_smoothed = sentence_bleu(references, candidate, smoothing_function=smoothing_function)

	print(f'BLEU Score: {bleu_score}') # 或 print(f'Smoothed BLEU Score: {bleu_score_smoothed}')

四、解释BLEU分数

BLEU分数的范围在0到1之间，分数越高表示候选译文与参考译文越相似。需要注意的是，BLEU分数只考虑了n-gram的匹配程度，而没有考虑语法、语义等方面的信息。因此，BLEU分数高并不一定意味着译文完全正确或流畅。

五、注意事项

参考译文的选择：参考译文的质量和数量对BLEU分数有很大影响。因此，在选择参考译文时，应确保其准确性和多样性。
n-gram的选择：BLEU分数通常考虑不同长度的n-gram（如1-gram、2-gram等）。在实际应用中，可以根据需要选择合适的n-gram长度。
平滑函数的使用：为了避免除以零的错误，通常需要使用平滑函数来处理n-gram匹配数为0的情况。NLTK提供了多种平滑函数供选择。

标签：BLEU,bleu,测试,参考,AIGC,gram,译文,分数
From： https://www.cnblogs.com/bidesen/p/18662468

《软件测试技术》习题参考答案2
......
AIGC如何进行测试
一、测试前的准备数据收集与准备：根据AIGC系统的类型（如文本生成、图像生成、音频生成等），准备相应的测试数据集。数据集应包含各种领域和风格的内容，以测试系统的多样性和质量。定义测试标准：根据AIGC系统的目标和要求，设定具体的测试标准。这些标准可能包括语法和拼写错误......
中电金信：大咖论道｜从远程银行看AIGC（下篇）
导语在数字化转型的浪潮中，随着金融科技的飞速发展，远程银行已成为金融服务领域不可或缺的一部分，而AIGC（人工智能生成内容）技术的融入更是为远程银行的发展注入了新的动能。本文中，中电金信研究院副院长、总架构师陈书华结合多年来在远程银行领域的工作经验和深厚积累，系统性地探讨了远......
AIGC提示词
AIGC的Prompt（提示词）指的是用户向AI系统提供的简短指令或信息，用于引导AI生成符合期望的内容。以下是对AIGC的Prompt的详细解释：一、定义与作用定义：Prompt在AIGC中通常表现为一段文本输入，它可以是问题、指令、引子或其他形式的文本。作用：设置上下文，让AI模型理解用户的意图，并生成......
AIGC技术原理
AIGC，即人工智能生成内容（ArtificialIntelligenceGeneratedContent），是一种利用人工智能技术自动创建文本、图像、音频和视频等内容的技术。其工作原理主要基于机器学习和深度学习算法，尤其是深度学习与生成对抗网络（GAN）的前沿技术。以下是AIGC工作原理的详细解释：一、技术基础AIGC......
【AIGC-ChatGPT进阶提示词指令】职场老油条的生存智慧：化解办公室困境的艺术
引言在现代职场中，每个人都可能遇到各种挑战和困境。从项目管理的突发变更，到薪资谈判的微妙博弈，再到功劳归属的争议，这些都考验着职场人的智慧和情商。本文将通过实际案例，深入剖析职场常见困境的应对之道，助你在职场中游刃有余。最近比较忙，可能更新不及时，这两天忙完就恢复......
【AIGC-ChatGPT进阶提示词指令】解析职场人群的心理密码
今天逛某瓣，发现有人分享了一个【人生四季照片】，挺有意思的，然后就结合咱们的工作，想着能不能把【职业也进行四季的具象化】，所以就有了这篇文章。引言在当代职场中，每个专业领域都如同一个独特的小宇宙，塑造着从业者特定的思维方式、行为模式和情感体验。本文将深入剖析金融投......
【AIGC-ChatGPT进阶提示词指令】AI美食助手的设计与实现：Lisp风格系统提示词分析
引言在人工智能助手的应用领域中，美食烹饪是一个既专业又贴近生活的方向。本文将详细分析一个基于Lisp风格编写的美食助手系统提示词，探讨其结构设计、功能实现以及实际应用效果。提出你的菜系，为你分析，并生成图片卡片提示词在最下方效果图系统架构设计核心角色定......
一个测试Leader的工作案例
一位同学给我留言说，刚入职一家做Saa产品的公司担任测试Leader一职，测试团队就十来人，流程规范不严谨，日常工作以功能+接口测试为主，性能测试在给客户交付时才有少量实践。公司的项目以交付ToB为主，自研产品为辅，目前团队交付压力大，上级领导又非技术出身，但对他提了几点工作要求：落地......
debian10测试
https://help.aliyun.com/zh/ecs/user-guide/change-debian-9-or-10-repository-addresses?spm=a2c4g.11186623.0.0.52c44bccrP9uFq......