我的第一个 BigQuery ML 模型
○ 大查询 是一个高度可扩展、无服务器、多云的数据仓库工具。反过来, BigQuery 机器学习 (BQML) 是一项功能,可让您使用标准 SQL 查询在 BigQuery 中构建和运行机器学习模型。借助 BQML,机器学习允许 SQL 专业人员使用现有的 SQL 技能和工具构建模型。所以在这篇文章中,我将以一种简化的方式记录我在这个工具中获得我的第一个机器学习模型的过程。
首先,让我们来看看数据。由于这是我第一次使用该工具,我选择使用我已经知道的数据,“ 泰坦尼克号——灾难中的机器学习 ”,来自 Kaggle,数据已经从源头进行训练和测试分离。
资料来源:https://www.kaggle.com/competitions/titanic/overview
我下载了 CSV 文件并通过当前代码将它们导入 BigQuery 表 在这个存储库中 来自我的 GitHub。
**从** 谷歌云 **进口** 大查询
**进口** 操作系统
auth_file **=** ''
操作系统 **.** 环境[“GOOGLE_APPLICATION_CREDENTIALS”] **=** auth_file
客户 **=** 大查询 **.** 客户()
table_id **=** ''
文件路径 **=** ''
作业配置 **=** 大查询 **.** 加载作业配置(
源格式 **=** 大查询 **.** 源格式 **.** CSV,skip_leading_rows **=** 1、自动检测 **=真** ,
write_disposition **=** 大查询 **.** 写处置 **.** WRITE_TRUNCATE)
**和** 打开(文件路径,“rb”) **作为** 源文件:
工作 **=** 客户 **.** load_table_from_file(source_file, table_id, job_config **=** 作业配置) --将身份验证文件路径添加到 auth_file 变量中。 -- 在 table_id 变量中包含要填充的 BigQuery 表 ID。 --在file_path变量中包含要加载的文件的路径。
使用 BigQuery 中可用的两个表“train”和“test”,我执行了以下步骤:
**模型创建。
** 我使用 CREATE MODEL 方法运行了以下脚本。
创建模型`dataset.titanic.model1`
选项(model_type='logistic_reg')如 选择
类,
如果 Sex = 'male' 然后 1 else 0 end Sex,
演员(年龄为整数)年龄,
同胞,
尊重,
票价,
登船,
幸存标签 FROM `project_id.dataset.train`
结果,在数据集中生成了一个新元素,如下图所示。
**模型评估。
** 为了评估模型,我使用了以下脚本,使用 EVALUATE 方法。
选择 * 从 ML.EVALUATE(模型`project_id.titanic.model1`),(
选择
类,
如果 Sex = 'male' 然后 1 else 0 end Sex,
演员(年龄为整数)年龄,
同胞,
尊重,
票价,
登船
FROM `project_id.titanic.test`
)
有了这个,我得到了以下结果:
精度 0,70313
召回 0,68182
准确度 0,78947
f1_score 0,69231
log_loss 0,45522
roc_auc 0.82867
**使用模型进行预测。
** 为了使用模型进行预测,我使用了以下脚本,使用 PREDICT 方法。
选择
预测标签
从 ML.PREDICT(模型`analises-de-dados.titanic.model1`,( 选择
类,
如果 Sex = 'male' 然后 1 else 0 end Sex,
演员(年龄为整数)年龄,
同胞,
尊重,
票价,
登船
FROM `analises-de-dados.titanic.test`
))
请注意,在预测中使用了测试数据。此外,我将获得的结果保存在 csv 文件中,以启用 Kaggle 中的“提交”。
永远向前。
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明
本文链接:https://www.qanswer.top/14354/24020501
标签:ML,模型,titanic,BigQuery,Sex,file,id From: https://www.cnblogs.com/amboke/p/16656692.html