首页 > 其他分享 >我的第一个 BigQuery ML 模型

我的第一个 BigQuery ML 模型

时间:2022-09-05 01:34:12浏览次数:89  
标签:ML 模型 titanic BigQuery Sex file id

我的第一个 BigQuery ML 模型

大查询 是一个高度可扩展、无服务器、多云的数据仓库工具。反过来, BigQuery 机器学习 (BQML) 是一项功能,可让您使用标准 SQL 查询在 BigQuery 中构建和运行机器学习模型。借助 BQML,机器学习允许 SQL 专业人员使用现有的 SQL 技能和工具构建模型。所以在这篇文章中,我将以一种简化的方式记录我在这个工具中获得我的第一个机器学习模型的过程。

首先,让我们来看看数据。由于这是我第一次使用该工具,我选择使用我已经知道的数据,“ 泰坦尼克号——灾难中的机器学习 ”,来自 Kaggle,数据已经从源头进行训练和测试分离。

Fonte: https://www.kaggle.com/competitions/titanic/overview

资料来源:https://www.kaggle.com/competitions/titanic/overview

我下载了 CSV 文件并通过当前代码将它们导入 BigQuery 表 在这个存储库中 来自我的 GitHub。

**从** 谷歌云 **进口** 大查询  
 **进口** 操作系统  
  
 auth_file **=** ''  
 操作系统 **.** 环境[“GOOGLE_APPLICATION_CREDENTIALS”] **=** auth_file  
  
 客户 **=** 大查询 **.** 客户()  
  
 table_id **=** ''  
 文件路径 **=** ''  
  
 作业配置 **=** 大查询 **.** 加载作业配置(  
 源格式 **=** 大查询 **.** 源格式 **.** CSV,skip_leading_rows **=** 1、自动检测 **=真** ,  
 write_disposition **=** 大查询 **.** 写处置 **.** WRITE_TRUNCATE)  
  
 **和** 打开(文件路径,“rb”) **作为** 源文件:  
 工作 **=** 客户 **.** load_table_from_file(source_file, table_id, job_config **=** 作业配置) --将身份验证文件路径添加到 auth_file 变量中。 -- 在 table_id 变量中包含要填充的 BigQuery 表 ID。 --在file_path变量中包含要加载的文件的路径。

使用 BigQuery 中可用的两个表“train”和“test”,我执行了以下步骤:

**模型创建。
** 我使用 CREATE MODEL 方法运行了以下脚本。

 创建模型`dataset.titanic.model1`  
 选项(model_type='logistic_reg')如 选择  
 类,  
 如果 Sex = 'male' 然后 1 else 0 end Sex,  
 演员(年龄为整数)年龄,  
 同胞,  
 尊重,  
 票价,  
 登船,  
 幸存标签 FROM `project_id.dataset.train`

结果,在数据集中生成了一个新元素,如下图所示。

**模型评估。
** 为了评估模型,我使用了以下脚本,使用 EVALUATE 方法。

 选择 * 从 ML.EVALUATE(模型`project_id.titanic.model1`),(  
 选择  
 类,  
 如果 Sex = 'male' 然后 1 else 0 end Sex,  
 演员(年龄为整数)年龄,  
 同胞,  
 尊重,  
 票价,  
 登船  
 FROM `project_id.titanic.test`  
 )

有了这个,我得到了以下结果:
精度 0,70313
召回 0,68182
准确度 0,78947
f1_score 0,69231
log_loss 0,45522
roc_auc 0.82867

**使用模型进行预测。
** 为了使用模型进行预测,我使用了以下脚本,使用 PREDICT 方法。

 选择  
 预测标签  
 从 ML.PREDICT(模型`analises-de-dados.titanic.model1`,( 选择  
 类,  
 如果 Sex = 'male' 然后 1 else 0 end Sex,  
 演员(年龄为整数)年龄,  
 同胞,  
 尊重,  
 票价,  
 登船  
 FROM `analises-de-dados.titanic.test`  
 ))

请注意,在预测中使用了测试数据。此外,我将获得的结果保存在 csv 文件中,以启用 Kaggle 中的“提交”。

永远向前。

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明

本文链接:https://www.qanswer.top/14354/24020501

标签:ML,模型,titanic,BigQuery,Sex,file,id
From: https://www.cnblogs.com/amboke/p/16656692.html

相关文章

  • 世界模型、薛定谔猫和神经网络之间有什么联系?
    世界模型、薛定谔猫和神经网络之间有什么联系?资源几个世纪以来,好奇的头脑一直在试图破解我们周围世界的结构。大多数人都会同意,任何科学分支都遵循相同的目标——试图......
  • MLops:我最喜欢的数据科学项目的 Github 项目模板
    MLops:我最喜欢的数据科学项目的Github项目模板source:unsplash.com-@yancyminTLDR:在这个故事中,我将分享一个git项目结构,我经常将其用作数据科学项目的起点,并......
  • IO模型
    参考:1.看一遍就理解:IO模型详解一、BIO(阻塞IO)缺点:性能低。二、NIO(非阻塞IO)优点:相对BIO性能提升。缺点:频繁的轮询,会消耗CPU资源。三、多路复用IO模型同步......
  • HTML、CSS 和 JavaScript 格式的 3D 玻璃天气图标
    HTML、CSS和JavaScript格式的3D玻璃天气图标3D玻璃天气图标免费下载****在HTML、CSS和JavaScript中HTML:<divclass="weatherweather--sun"><divclass......
  • QML
    QML是一种脚本语言。qtquick是QML语言的库,暂且可以这么理解。QML用来声明UI元素,并可以做逻辑处理,可以理解为html+javascript,比如在窗体上放置一个按钮:importQtQuic......
  • c# 框架系列 ———— EFCore 模型篇 [一]
    前言简单介绍一下EfCore的模型篇正文内容来源:配置模型配置模型的方式,一种是fluentapi还一种是属性的方式。publicclassBlog{ publicintBlogId{get;set;......
  • X-CTF(REVERSE高级) reverse_html
    查壳需要CHM解包器(CHMUnpacker),解压出三个文件 doc.hhc和doc1.htm没发现什么,doc.html发现了一段powershell代码,JavaScript中点击触发,结合标题CheckforWindowsupdate......
  • 强化学习-Double DQN(两个DQN模型)
    对于之前提到的DQN模型,损失函数使用的Q(state)=reward+Q(nextState)maxQ(state)由训练网络生成,Q(nextState)max由目标网络生成这种损失函数会存在问题,即当Q(nex......
  • 如何使用 ABAP 代码解析 XML 文件
    正如本教程的开篇介绍文章SAPOData开发教程-从入门到提高(包含SEGW,RAP和CDP)所提到的,SAPOData服务开发,从实现技术上来说,可以分为三大类。因此本教程也分为三大......
  • JS根据id将光标定位到html的元素中
    1定位到input元素中varelement=document.getElementById(ys_id);//ys_id为传入的html元素的idelement.focus();ViewCode2 定位到div元素中window.location......