本书介绍
从新闻和演讲到社交媒体上的非正式聊天,自然语言是最丰富、利用最少的数据来源之一。它不仅源源不断地供给,总是在环境中变化和适应;它还包含传统数据源无法传达的信息。解锁自然语言的关键是通过文本分析的创造性应用。本书展示了数据科学家用应用机器学习模型构建语言感知产品的方法。
你将使用Python学习健壮、可重复和可扩展的文本分析技术,包括上下文和语言特征工程、矢量化、分类、主题建模、实体解析、图形分析和视觉展示。到这本书的最后,你将拥有解决任何数量的复杂现实问题的实用方法。本书将:
将文本预处理并矢量化为高维特征表示
执行文档分类和主题建模
通过视觉诊断引导模型选择过程
提取关键短语、命名实体和图形结构来推理文本中的数据
构建一个对话框架来支持聊天机器人和语言驱动的交互
学会使用Spark大规模处理能力,以及神经网络强大复杂建模能力
本书目录
内容截图