首页 > 其他分享 >码农日常

码农日常

时间:2023-10-06 17:31:52浏览次数:25  
标签:代码 predictions library 日常 文本 data 码农 加载

以下是一个更为复杂的R语言代码示例,展示了数据处理、文本挖掘和机器学习等方面的复杂操作:

# 加载必要的库
library(tm)
library(dplyr)
library(caret)

# 读取文本数据
data <- readLines("text_data.txt", warn = FALSE)
data <- gsub("[^[:alnum:]///' ]", "", data)

# 创建语料库
corpus <- Corpus(VectorSource(data))
corpus <- tm_map(corpus, tolower)
corpus <- tm_map(corpus, removePunctuation)
corpus <- tm_map(corpus, removeNumbers)
corpus <- tm_map(corpus, removeWords, stopwords("english"))
corpus <- tm_map(corpus, stripWhitespace)

# 创建文档-词频矩阵
dtm <- DocumentTermMatrix(corpus)
dtm <- as.matrix(dtm)

# 拆分训练集和测试集
set.seed(123)
train_indices <- createDataPartition(1:length(data), p = 0.7, list = FALSE)
train_data <- dtm[train_indices, ]
test_data <- dtm[-train_indices, ]
train_labels <- factor(rep(c("pos", "neg"), each = length(train_indices) / 2))

# 使用交叉验证训练模型
ctrl <- trainControl(method = "cv", number = 5, classProbs = TRUE)
model <- train(train_data, train_labels, method = "svmRadial", trControl = ctrl)

# 预测并评估模型
predictions <- model %>% predict(test_data)
confusionMatrix(predictions, train_labels)

# 输出预测结果
output <- data[-train_indices]
output <- data.frame(output, predictions)
write.csv(output, "predictions.csv", row.names = FALSE)

这段代码加载了需要使用的库,读取了存储在"text_data.txt"文件中的文本数据,并对其进行了预处理,包括转换为小写、去除标点符号、数字、停用词以及空白字符。然后,创建了文档-词频矩阵,将文本数据转换为数值特征。接下来,将数据拆分为训练集和测试集,并为训练集准备标签。使用交叉验证的方法训练了一个支持向量机模型,并对测试集进行预测和评估。最后,将预测结果输出到"predictions.csv"文件中。这段代码展示了在R语言中进行文本挖掘和机器学习任务的复杂操作。

标签:代码,predictions,library,日常,文本,data,码农,加载
From: https://blog.51cto.com/u_16004326/7726268

相关文章

  • 【日常收支账本】【Day03】通过ElementTree+XPath实现对XML文件的读写
    一、项目地址https://github.com/LinFeng-BingYi/DailyAccountBook二、新增1.解析xml文件1.1功能详述解析所设计的xml文件格式,并将所得数据存入变量。点击查看xml格式<DailyAccountBook><balance><fund><value>5000.00</value>......
  • git日常操作汇总
    1、如果本地已经有代码,现在想用git管理,操作步骤如下:1、进入项目根目录下,执行gitinit2、添加所有文件gitadd.3、提交gitcommit-m'init'4、关联到远程仓库,git上先创建一个项目,然后再关联gitremoteaddoriginhttps://gitee.com/xxx/hr.git5、gitpush-uorigin......
  • 日常记录--day10--2023-9月26日--周二
    日程:今天只有上午有课,7点起床,吃了个早饭去上课,早上第一节数据结构,学习了队列,还讲了相关应用。中午午休一个小时,下午起来干了点别的,完善了之前的代码,晚上7-9点听了下代码随想路,学了会javaweb。学了什么:可恶的Javaweb,复习了数据结构。PS:不想学习,想要成为月饼盒;......
  • 日常记录--day11--2023-9月27日--周三
    日程:今天只有上午有节英语课,睡过头了,9点20才起床,怕赶不上就没有吃早饭。中午小睡半个小时,下午没课,起来学习了一下Javaweb,预习了数据结构,锻炼了一下,晚上7-9点继续javaweb。学了什么:可恶的Javaweb,继续学习Javaweb。PS:不想学习,想要成为餐巾纸;......
  • 日常记录
    日常记录汉字正则判断isChinese(str){constreg=/^(?:[\u3400-\u4DB5\u4E00-\u9FEA\uFA0E\uFA0F\uFA11\uFA13\uFA14\uFA1F\uFA21\uFA23\uFA24\uFA27-\uFA29]|[\uD840-\uD868\uD86A-\uD86C\uD86F-\uD872\uD874-\uD879][\uDC00-\uDFFF]|\uD869[\uDC0......
  • 日常记录--day9--2023-9月25日--周一
    日程:今天满课,累死了,早上7点起床,吃早饭,去工程实训课,今天上的是机器人实训,造了个小车。下午Java,学了类和对象,晚上7-8点复习了一下,之后进行经典力扣。学了什么:Java让人头疼,来了道力扣题,还要继续加油,继续学习Javaweb。PS:不想学习,想要成为鼠标垫......
  • mysql5.7的一些日常操作
    查看库MySQL[mysql]>showdatabases;+--------------------+|Database|+--------------------+|information_schema||auditlog||mysql||nacos_config||performance_schema||sys|+---------......
  • 日常遇到的问题
     过滤器是受Spring管理的 可以直接注入 拦截器不行 需要给他在外层的配置给他注入进去Bean ......
  • 日常学习中常用的网站
    以下皆为个人学习中了解到的较为好用的一些网站噢1.设计网站:http://hao.shejidaren.com2.计算机相关网站:对于我的经历来说,官方提供的文档和一些教学视频搭配起来学的是比较快的。当然,最重要的就是多敲代码。-菜鸟教学:https://www.runoob.com/-W3school:https://www.w3s......
  • 过来Android码农提醒,不要有面试就去,可能会白跑一趟
    前言亲身经历!!面试失败总结(它失败,我也不想要的那种)正值毕业季,毕业生开始走向求职之路,大量求职者随之而来。再加上现在正值金九银十招聘的火热阶段。找工作的都知道,工作成功的最后一步是面试,所以很多求职者都选择有面试就去,这是不可取的。就拿本人最近的面试来说,通勤一个小时,明明之前......