首页 > 其他分享 >中英文关键词抽取

中英文关键词抽取

时间:2024-09-06 10:03:29浏览次数:3  
标签:抽取 中英文 关键词 list input extract KeywordExtract

中英文关键词抽取

欢迎使用中英文关键词抽取工具,本工具支持多种关键词抽取算法,帮助用户从文本中快速提取重要信息。下图展示了我们所支持的关键词抽取算法:

介绍

本工具提供多种关键词抽取算法,满足不同需求。支持的算法如下:

  • TF-IDF:通过词频和逆文档频率来衡量词汇的重要性。
  • TextRank:基于图算法的无监督关键词抽取方法。
  • KeyBERT:结合BERT模型的关键词抽取技术,能捕捉语义相关性。
  • Word2Vec:利用词向量表示来进行关键词提取。
  • LDA:一种基于主题模型的关键词抽取方法。

 

使用方法

1、TF-IDF

from keyword_extract import KeywordExtract

input_list = [
    "自然语言处理是人工智能领域中的一个重要方向。它研究人与计算机之间如何使用自然语言进行有效沟通。"
]
key_extract = KeywordExtract(type="TF-IDF")
# 基于TF-IDF进行关键词的抽取
print(key_extract.infer(input_list))

2、TextRank

from keyword_extract import KeywordExtract
   
input_list = ["自然语言处理是人工智能领域中的一个重要方向。它研究人与计算机之间如何使用自然语言进行有效沟通。"]
key_extract = KeywordExtract(type="TextRank")
# 基于TextRank进行关键词的抽取
print(key_extract.infer(input_list))

3、KeyBERT

from keyword_extract import KeywordExtract
  
input_list = ["自然语言处理是人工智能领域中的一个重要方向。它研究人与计算机之间如何使用自然语言进行有效沟通。"]
key_extract = KeywordExtract(type="KeyBERT")
# 基于KeyBERT进行关键词的抽取
print(key_extract.infer(input_list))

4、Word2Vec

from keyword_extract import KeywordExtract

input_list = ["自然语言处理是人工智能领域中的一个重要方向。它研究人与计算机之间如何使用自然语言进行有效沟通。"]
key_extract = KeywordExtract(type="Word2Vec")
# 基于Word2Vec进行关键词的抽取
print(key_extract.infer(input_list))

5、LDA

from keyword_extract.lda_model.lda import LDA
 
input_list = ["自然语言处理是人工智能领域中的一个重要方向。它研究人与计算机之间如何使用自然语言进行有效沟通。"]
lda_model = LDA(type="LDA")
# 基于LDA 进行关键词的抽取,topic_num是主题的个数
print(lda_model.infer(input_list, topic_num=3))

 

本项目地址:https://github.com/TW-NLP/KeywordExtract

欢迎使用和交流,大家可以在问题单中提出自己认为好的关键词抽取算法,我们会进行复现和集成。

 

标签:抽取,中英文,关键词,list,input,extract,KeywordExtract
From: https://www.cnblogs.com/TW-NLP/p/18399704

相关文章

  • 如何利用 API 中的用户行为数据进行商品搜索关键词优化?
    以下是一些根据API返回值优化商品搜索关键词的步骤:分析返回数据中的搜索流量分布:查看API提供的关于不同关键词搜索频次的数据。对于搜索频次高且与商品相关的关键词,重点考虑将其纳入或优化到商品关键词中。例如,如果API显示“智能手表”这个关键词在一周内有1000次......
  • 二开PHP泛目录生成源码 可生成新闻页面和关键词页面——码山侠
    PS本资源提供给大家学习及参考研究借鉴美工之用,请勿用于商业和非法用途,无任何技术支持!下载i5i.net泛目录可以用来提升网站收录和排名合理运用目录可以达到快速出词和出权重的效果程序小基本的服务器都带的得动 打开i5i.net——码山侠推荐二开为广告位丶增加页面跳转......
  • ”言出法随“最懂你的AI绘画工具,无需关键词、一键整合包教程
    2024年,AI绘画技术已经日新月异,但仍有不少工具依赖于关键词描述,无论是Midjourney还是StableDiffusion,都需要用户提供详细的关键词描述。尽管聪明的用户可以借助大语言模型(如GPT-4)自动生成关键词,但这仍旧不是最直观的方式。今天,我们要介绍的是Omost——一个真正理解你的AI绘画......
  • “言出法随”最懂你的AI绘画工具,只需简单描述,无需复杂繁琐关键词、一键整合包教程
    2024年,AI绘画技术已经日新月异,但仍有不少工具依赖于关键词描述,无论是Midjourney还是StableDiffusion,都需要用户提供详细的关键词描述。尽管聪明的用户可以借助大语言模型(如GPT-4)自动生成关键词,但这仍旧不是最直观的方式。今天,我们要介绍的是Omost——一个真正理解你的AI绘画工具......
  • 网页可读内容抽取 API 数据接口
    网页可读内容抽取API数据接口智能提取文章关键元素信息,智能抽取,多种元素信息。1.产品功能智能提取网页可阅读内容;提供网页可阅读内容的HTML代码;支持传递网页HTML或网页URL参数;支持多种元素信息抽取,包括文章标题、作者、文字方向、语言、内容、内容(不包含HTML标......
  • 利用Temu关键词搜索商品api接口数据说明
    Temu跨境电商是一个由拼多多公司开发并运营的跨境电商平台,以其独特的理念、丰富的商品种类和便捷的购物体验赢得了消费者的青睐。随着国际业务的不断拓展和市场环境的变化,Temu竞争力不断提升,为全球消费者提供了更多优质、实惠的商品和服务。通常情况下,以下是大致的步骤和一个简单的......
  • 2001-2023年上市公司数字化转型年报词频统计(吴非、赵宸宇、甄红线等300+个关键词)
    2001-2023年上市公司数字化转型年报词频统计(吴非、赵宸宇、甄红线)1、时间:2001-2023年2、来源:上市公司年报3、参考文献:企业数字化转型与资本市场表现——来自股票流动性的经验证据(吴非)数字化转型如何影响企业全要素生产率(赵宸宇)知识产权行政保护与企业数字化转型(甄红线)4、......
  • [20240824]利用gdb抽取kglnaobj内容.txt
    [20240824]利用gdb抽取kglnaobj内容.txt--//上午测试跟踪librarycachelocklibrarycachepin使用gdb,利用handleaddreess+0x1c8偏移可以取出kglnaobj内容.--//灵光一现,是否可以直接通过gdb抽取kglnaobj内容,新的gdb版本支持管道操作,在测试环境尝试一下.--//千万不要在生产系......
  • 【Stable Diffusion】关键词详解篇
    前言【StableDiffusion】关键词详解篇这里分享给大家一份Adobe大神整理的《AIGC全家桶学习笔记》,相信大家会对AIGC有着更深入、更系统的理解。有需要的朋友,可以点击下方免费领取!AIGC所有方向的学习路线思维导图这里为大家提供了总的路线图。它的用处就在于,你可......
  • 易优CMS网站likearticle 功能:通过前3个TAG标签或前3个关键词,检索整站文档标题中含有t
    likearticle相关文档[基础用法]名称:likearticle功能:通过前3个TAG标签或前3个关键词,检索整站文档标题中含有tag标签或者关键词的相关文档,进行关联。在没有tag标签情况下,就以前3个关键词检索文档标题进行关联。这个标签随着数据量的增加可能会比较影响检索性能。    (温馨......