Spark SQL 提供了一种基于结构化数据处理的高级 API,它允许使用 SQL 或 DataFrame API 进行数据查询和分析。以下是 Spark SQL 中常用的语句:
创建表格:
使用 CREATE TABLE 语句创建表格,可以基于现有数据源或手动定义模式。
示例:CREATE TABLE tableName (col1 INT, col2 STRING, col3 DOUBLE) USING CSV OPTIONS (path 'path/to/data', header 'true')
加载数据:
使用 LOAD DATA 或 INSERT INTO 语句加载数据到已存在的表格中。
示例:LOAD DATA INPATH 'path/to/data' INTO TABLE tableName
查询数据:
使用 SELECT 语句查询表格中的数据。
示例:SELECT * FROM tableName WHERE col1 > 10
插入数据:
使用 INSERT INTO 语句将数据插入到表格中。
示例:INSERT INTO tableName VALUES (1, 'value', 3.14)
更新数据:
使用 UPDATE 语句更新表格中的数据。
示例:UPDATE tableName SET col1 = 10 WHERE col2 = 'value'
删除数据:
使用 DELETE FROM 语句删除表格中的数据。
示例:DELETE FROM tableName WHERE col1 = 10
创建视图:
使用 CREATE VIEW 语句创建视图,以便在查询中使用。
示例:CREATE VIEW viewName AS SELECT col1, col2 FROM tableName WHERE col3 > 5
使用内置函数:
Spark SQL 提供了许多内置函数,如数学函数、字符串函数、日期函数等,可以在查询中使用。
示例:SELECT AVG(col1), CONCAT(col2, ' ', col3), DATE_FORMAT(col4, 'yyyy-MM-dd') FROM tableName
使用聚合函数:
使用聚合函数如 COUNT、SUM、AVG、MAX、MIN 等进行数据聚合。
示例:SELECT COUNT(*), SUM(col1), AVG(col2) FROM tableName GROUP BY col3
条件语句:
可以在查询中使用条件语句如 CASE WHEN、IF 等。
示例:SELECT col1, CASE WHEN col2 > 10 THEN 'High' ELSE 'Low' END AS category FROM tableName
这些是 Spark SQL 中的一些常用语句和操作,可以用来进行数据处理、查询和分析。通过结合这些语句和操作,可以完成对结构化数据的多种处理和分析任务