• 2024-09-28pandas数据框常用操作
    pandas官方文档:https://pandas.pydata.org/docs/reference/DataFrame官方文档:https://pandas.pydata.org/docs/reference/frame.html添加新列:https://www.geeksforgeeks.org/adding-new-column-to-existing-dataframe-in-pandas/创建构造函数:https://pandas.pydata.org/d
  • 2024-08-20F.array
    F.array()是PySpark中的一个函数,用于将多个列组合成一个数组类型的列。F通常是pyspark.sql.functions模块的简写方式,便于调用。语法  pyspark.sql.functions.array(*cols)参数  *cols:需要组合成数组的多个列。这些列可以是直接传入的列名(字符串)或使用F.col("colu
  • 2024-07-24【YashanDB知识库】filter or改写问题
    问题现象当filter中出现or的时候,会导致filter无法走索引或者走hashjoin,就需要进行改写,例如:createtabletest_tab1(col1int,col2int,col3int);createtabletest_tab2(col4int,col5int,col6int);beginforiin1..10000loopinsertintotest_tab1values(i
  • 2024-07-12MySQL入门学习-深入索引.全值匹配
        在MySQL中,索引的全值匹配是指在查询中使用索引列的所有部分进行精确匹配。当查询条件中的列值与索引中的值完全匹配时,MySQL可以使用索引来快速定位和检索数据,从而提高查询性能。    以下是关于全值匹配的一些详细信息:一、概念:  -全值匹配是指在查
  • 2024-07-05Mysql
    显示数据库1showdatabases;创建数据库12CREATE DATABASE 数据库名称 DEFAULT CHARSETutf8 COLLATE utf8_general_ci;CREATE DATABASE 数据库名称 DEFAULT CHARACTER SET gbk COLLATE gbk_chinese_ci;删除数据库
  • 2024-06-116/11
    SparkSQL的所有语句 SparkSQL提供了一种基于结构化数据处理的高级API,它允许使用SQL或DataFrameAPI进行数据查询和分析。以下是SparkSQL中常用的语句:创建表格:使用CREATETABLE语句创建表格,可以基于现有数据源或手动定义模式。示例:CREATETABLEtableName(col
  • 2024-06-01Spark SQL的所有语句
     SparkSQL提供了一种基于结构化数据处理的高级API,它允许使用SQL或DataFrameAPI进行数据查询和分析。以下是SparkSQL中常用的语句:创建表格:使用CREATETABLE语句创建表格,可以基于现有数据源或手动定义模式。示例:CREATETABLEtableName(col1INT,col2STRING,
  • 2024-05-27mssql分区表创建
    使用分区表提高并发能力和查询处理性能(需命中分区)CREATEPARTITIONFUNCTIONRangePF1(INT)ASRANGELEFTFORVALUES(10,100,1000);SELECT$PARTITION.RangePF1(1000);CREATEPARTITIONSCHEMERangePS1ASPARTITIONRangePF1ALLTO('PRIMARY');CREATETABLEd
  • 2024-05-02力扣-304. 二维区域和检索
    1.题目题目地址(304.二维区域和检索-矩阵不可变-力扣(LeetCode))https://leetcode.cn/problems/range-sum-query-2d-immutable/题目描述给定一个二维矩阵matrix,以下类型的多个请求:计算其子矩形范围内元素的总和,该子矩阵的左上角为(row1, col1),右下角为(row2, co
  • 2024-04-24Pandas 2.2 中文官方教程和指南(三)
    原文:pandas.pydata.org/docs/如何操作文本数据原文:pandas.pydata.org/docs/getting_started/intro_tutorials/10_text_data.html将所有名称字符改为小写。In[4]:titanic["Name"].str.lower()Out[4]:0braund,mr.owenharris1
  • 2024-04-18Hive - [08] 数据仓库物理模型设计
     分区分区是将表的数据按照某个列的值进行划分和存储的一种方式。通过分区,可以将数据按照特定的维度进行组织,提高查询效率和数据管理的灵活性。 一、分区的优势提高查询性能:通过分区,可以将数据按照特定的列值进行划分,使得查询只需要扫描特定分区的数据,减少了全表扫描的
  • 2024-04-15mysql交换两列数据
    mysql交换两列数据某ai上居然给出了下面这个语句,这语句是错误的,会把两列换成一样的数据UPDATEt_aSETcol1=col2,col2=col1;下面的语句是可行的updatet_aasa,t_basbseta.col1=b.col2,a.col2=b.col1wherea.id=b.id;下面是使用临时变
  • 2024-04-08MOGDB/openGauss索引推荐及虚拟索引
    MOGDB/openGauss索引推荐及虚拟索引索引推荐在ORACLE的优化中,可能大家有接触过SQLTuningAdvisor(SQL调优顾问,STA),类似的MOGDB/openGauss的索引推荐(Index-advisor)功能也可以对你的查询进行分析,并提出合理的创建索引的建议。ORACLE的STA输出是以一种意见或者建议的
  • 2024-03-14openGauss与postgresql日常使用差异
    openGauss与postgresql日常使用差异密码加密postgresql默认密码加密方式是md5。openGauss默认密码加密方式是sha256。使用navicate、pgadmin3等客户端开发工具访问og,需要修改加密方式。如果在本地用用户名密码登陆数据库没问题。但是用其他工具连接数据
  • 2024-03-14PostgreSQL与openGauss之分区性能
    PostgreSQL与openGauss之分区性能概述PostgreSQL与openGauss分区表定义差异,请参考https://www.modb.pro/db/41393。openGauss1.1.0开始支持hash/list分区,hash分区表最多支持64个分区,否则会报:ERROR:Un-supportfeatureDETAIL:Thepartition’slengthshouldbe
  • 2024-03-14openGauss分区使用样例
    openGauss分区使用样例概述openGauss1.1.0版本开始,分区方式分为三种,分别是RANGE、HASH和LIST,官方文档中对于分区表的使用样例比较少,这里对各种分区使用方式做一下整理,方便以后快速调整使用。范围分区VALUESLESSTHAN语法格式分区策略的分区键最多支持4列分区键支持
  • 2023-12-18pandas基础
    pandas基础df:任意的PandasDataFrame对象s:任意的PandasSeries对象读写文件读取文件#读入文件filename=""url=""json_string=""pd.read_csv(filename); #从CSV文件导入数据pd.read_table(filename); #从限定分隔符的文本文件导入数据pd.read_ex
  • 2023-12-12动态SQL——A表的数据作为B表的字段
    需求: A表:idcol id:主键 col:存放col的code值(1,2,3,4...) B表:idcol1col2col3col4... id:主键 col1:存放的col1的内容... col2:存放的col2的内容... col3:存放的col3的内容... col4:存放的col4的内容...希望查询相同id里的col1,col2,col3的值,如果这个col在A表中
  • 2023-12-10FAILED: ParseException line 1:65 cannot recognize input near 'row' 'formatted' &
    hive报FAILED:ParseExceptionline1:65cannotrecognizeinputnear'row''formatted''delimited'intablerowformatspecification错误语句:insertoverwritelocaldirectory'/home/ljpbd/datas/student'rowformatteddel
  • 2023-10-23农业全要素生产率的计算(使用HiveQL分析)
    需求:工作中需要计算农业全要素生产率数据,需要利用HiveQL进行数据仓库提取,然后进行转换式计算,最后需要进行要素生产效率分析,用于后续的深度数据挖掘。解决:CREATETABLEIFNOTEXISTSmytable( col1STRING, col2INT, col3DOUBLE)ROWFORMATDELIMITEDFIELDSTERMIN
  • 2023-10-17在SQL Server中,如何从SELECT更新?
    内容来自DOC[https://q.houxu6.top/?s=在SQLServer中,如何从SELECT更新?](https://q.houxu6.top/?s=在SQLServer中,如何从SELECT更新?)在SQLServer中,可以使用INSERT..SELECT语句向表中插入行:INSERTINTOTable(col1,col2,col3)SELECTcol1,col2,col3FROMother_
  • 2023-09-27五分钟搞定幂等本质
    幂等概念幂等性原本是数学上的概念,即使公式:f(f(x))=f(x)能够成立的数学性质。用在编程领域,则意为对同一个系统,使用同样的条件,一次请求和重复的多次请求对系统资源的影响是一致的。幂等性是系统服务对外一种承诺,承诺只要调用接口成功,外部多次调用对系统的影响是一致的。声明为幂等
  • 2023-09-27一文搞定Pandas核心概念之DataFrame
     DataFrame概述DataFrame是一个表格型的数据结构,它含有一组有序的列,每列可以是不同的值类型(数值、字符串、布尔型值)。DataFrame既有行索引也有列索引,它可以被看做由Series组成的字典(共同用一个索引)。如下图所示:整个表格是DataFrame,每一列就是一个Series。关于Series可以参考文
  • 2023-09-14Python应用实战——盘点一个Python面试编程题(附代码)
    大家好,我是皮皮。一、前言前几天在Python奥特曼交流群【。。】问了一个Python面试题的问题,一起来看看吧,图片代码分享版本在这个文章,盘点一个Python面试编程题(Python应用实战)(文末赠书),在里边也可以拿到原始的需求数据。这里应粉丝的要求,分享一个代码版本,手残党福利来了!二、实现
  • 2023-09-143、组合索引
    复合索引的优点和注意事项概念:单一索引是指索引列为一列的情况,即新建索引的语句只实施在一列上;用户可以在多个列上建立索引,这种索引叫做复合索引(组合索引);复合索引在数据库操作期间所需的开销更小,可以代替多个单一索引;同时有两个概念叫做窄索引和宽索引,窄索