首页 > 其他分享 >千万级中文公开免费聊天语料数据分享

千万级中文公开免费聊天语料数据分享

时间:2023-06-23 13:08:56浏览次数:47  
标签:-- com py 千万级 聊天 chat corpus 语料


千万级中文公开免费聊天语料数据分享_Tensorflow

    分享一个包含千万级聊天语料的资源。地址:https://github.com/codemayq/chaotbot_corpus_Chinese

    该库是对目前市面上已有的开源中文聊天语料的搜集和系统化整理工作

    该库搜集了包含

        · chatterbot

        · 豆瓣多轮

        · PTT八卦语料

        · 青云语料

        · 电视剧对白语料

        · 贴吧论坛回帖语料

        · 微博语料

        · 小黄鸡语料

    共8个公开闲聊常用语料和短信,白鹭时代问答等语料。

    并对8个常见语料的数据进行了统一化规整和处理,达到直接可以粗略使用的目的。

    使用该项目,即可对所有的聊天语料进行一次性的处理和统一下载,不需要到处自己去搜集下载和分别处理各种不同的格式。

     

    注意

    以下所有语料都已经统一下载好,存在 https://pan.baidu.com/s/1szmNZQrwh9y994uO8DFL_A 提取码:f2ex 中。给出的语料原链接是为了说明该语料的原始出处是在哪里

    环境

    python3

    处理过程

    将各个来源的语料按照其原格式进行提取,提取后进行繁体字转换,然后统一变成一轮一轮的对话。

    数据来源及说明

千万级中文公开免费聊天语料数据分享_音视频_02

千万级中文公开免费聊天语料数据分享_音视频_03

    使用方法

    下载语料 https://pan.baidu.com/s/1szmNZQrwh9y994uO8DFL_A 提取码:f2ex

    将解压后的raw_chat_corpus文件夹放到当前目录下 目录结构为

        raw_chat_corpus

        -- language

        -- process_pipelines

        -- raw_chat_corpus

        ---- chatterbot-1k

        ---- douban-multiturn-100w

        ---- ....

        -- main.py

        -- ...

    执行命令即可

        python main.py

    或者

        python3 main.py

    生成结果

    每个来源的语料分别生成一个独立的*.tsv文件,都放在新生成的clean_chat_corpus文件夹下。

    生成结果格式为 tsv格式,每行是一个样本,先是query,再是answer

        query \t answer

    结果的使用

    这个就根据每个人不同的情况自主使用即可。


标签:--,com,py,千万级,聊天,chat,corpus,语料
From: https://blog.51cto.com/u_13046751/6537793

相关文章

  • 不登录微信,微信的聊天记录加密的图片还能恢复吗
    1-6大家是否有需要在不登录微信的情况下查看微信的图片呢?我是一个网管,和很多人交流后发现不少人都有这个需求。但是微信中收发的图片保存为加密的DAT文件,无法直接查看。因此这里介绍一个小工具,名为《天才小网管DAT转JPG》。它可以在不登录微信的情况下将微信的聊天中收到的加密DAT......
  • 使用AI聊天模型写作和编码心得
    原文合集地址如下,有需要的朋友可以关注本文地址合集地址给大家推荐一个国内暂时免费使用AI聊天模型的网站:ChatAnywhere有需要的朋友可以点击试用一下。写文档要点详细描述要干的事情说清楚你的需求,例如:可以使用序号列出所有需求,让AI模型来梳理逻辑对描述不清楚的带你让模型进一步解......
  • 使用AI聊天模型写作和编码心得
    原文合集地址如下,有需要的朋友可以关注本文地址合集地址给大家推荐一个国内暂时免费使用AI聊天模型的网站:ChatAnywhere有需要的朋友可以点击试用一下。写文档要点详细描述要干的事情说清楚你的需求,例如:可以使用序号列出所有需求,让AI模型来梳理逻辑对描述不清楚的带你让......
  • 基于Android聊天取证APP设计与实现
    本文通过对市场上的大多数用户量比较大的手机APP是使用的调查,并对调查结果做出需求分析后,确定了基于安卓客户端社交应用聊天APP的取证功能设计方案。实现了在手机端可以对用户的聊天数据进行提取保存,以备在手机应用清楚聊天数据后,需要聊天数据取证的问题。本设计的框架为Android......
  • chatgpt3.5聊天的地址
    欢迎使用chatgpt3.5,免费免国际网络且不会以任何形式收费,只需帮忙增加小程序访客(想开通流量主...)https://www.chatgpt.xcc2djh.asia  想要教程自己搭建的话,可以手把手教,也免费,但需要帮忙推广一下微信小程序。 ......
  • ChatGPT:免费在线聊天网页版,探索智能人机交互的便捷新方式!
    当今,机器智能相当流行。而在线人工智能聊天系统的兴起大大改变了我们与计算机互动的方式。本文将介绍一款名为ChatGPT的在线免费智能聊天网页版,让你体验智能对话的便利性。ChatGPT是一种基于GPT技术的人工智能聊天系统。这项技术在自然语言处理领域中最为先进,具有几近人类表......
  • 第三节:ChatGPT聊天框用途(PPT/思维导图/写代码/文案/面试等等)
    一. 制作PPT       二.思维导图       三.         !作       者:Yaopengfei(姚鹏飞)博客地址:http://www.cnblogs.com/yaopengfei/声     明1:如有错误,欢迎讨论,请勿谩骂^_^。声     明2:......
  • 【人工智能】国产开源大模型聊天 AquilaChat 快速开始上手实战&效果评测
    【人工智能】国产开源大模型聊天AquilaChat快速开始上手实战&效果评测文章目录【人工智能】国产开源大模型聊天AquilaChat快速开始上手实战&效果评测禅与计算机程序设计艺术:评测结论——AquilaChat在写作水平上跟ChatGLM-6B差不多,但是AquilaChat多编程语言写代码能力还是......
  • 第1课 基于ChatGPT的端到端语音聊天机器人项目实战
    第1课基于ChatGPT的端到端语音聊天机器人项目实战1.1ChatGPTAPI后台开发实战本节主要是跟大家分享一个端到端的基于模型驱动的对话机器人,会有前端和后端,也会有一些具体模型的调用,读者需具有Python语言编程的基础,这是前置性的条件,有了这个基础,理论上讲本节所有的内容,读者都可以......
  • ChatGPT语音聊天机器人项目测试
     企业级ChatGPT开发入门实战第1课基于ChatGPT的端到端语音聊天机器人项目实战ChatGPT语音聊天机器人项目测试接下来,我们讲解一个具体的案例,让大家感受一下前端、后端和模型层,首先启动一下后端系统,执行命令如下:(chatgpt_env)(base)gavinnlp@Jialins-MacBook-Pro-2backend% u......