本篇,带你简略了解如何使用keras.textvectorization来处理词袋模型(tfidf)计算
1、替换:如果发现以下内容实现存在障碍,请替换方法:适用sklearn来计算tf-idf,sklearn里也有包装比较好的各类如tfidfVectorize等模块方法,通过fit-transform来实现
2、keras.textvectorization的区别及优点:
2.1--------
更与神经网络建模搭边儿,意思这坨东西(可以形成类似于sklearn里的pipeline的流程的一个step)可以放在keras的模型如sequencial等自行包装
2.2--------
也意味着它计算出的东西是tensorflow家族的张量
2.3--------
既然张量,那么存在gpu加速计算的契机
3、建模场景下的思维梳理
3.1、说明:3.2会描述在完整一套建模demo里,它整个一坨应该放在哪里
3.2:步骤:
3.2.1、假设你有一份data,并作必要清理加工
3.2.2、你的data中有一列,比如叫news,data['new'] 这一列选定为计算tfidf的目标文本列
3.2.3、将data['news'] 变换到 data['news_keras_style'],这一步的意思是,你需要将数据变换一定程度,以符合喂入keras.text_vectorization前的样子(具体什么样子?别急,之后说)
3.2.4、此时,配置好keras.t
标签:--------,keras,3.2,textvectorization,idf,news,data From: https://blog.csdn.net/TommyDATA/article/details/142098691