首页 > 其他分享 >大数据——合并表

大数据——合并表

时间:2024-03-25 23:13:18浏览次数:25  
标签:engine df 合并 read pd 数据 merged

import pandas as pd
from sqlalchemy import create_engine

# 从数据库中读取已经合并的数据到 DataFrame 中,假设这里的数据已经合并并写入到了名为 resulttable 的表中
engine = create_engine('mysql+pymysql://root:wwsa20030207@localhost/python_bigdata')
result_df = pd.read_sql('SELECT * FROM resulttable', con=engine)

# 读取三个原始表的数据
province1_df = pd.read_excel('cg_2015年第1_2_3期.xlsx')
province2_df = pd.read_excel('cg_天津科技成果.xlsx')
province3_df = pd.read_excel('科技成果.xlsx')

# 合并三个表,并处理字段不一致的情况
merged_df = pd.concat([result_df, province1_df, province2_df, province3_df], ignore_index=True)

# 在合并后的数据中处理相似的字段合并
merged_df['序号'] = merged_df['序号'].fillna(merged_df['ID'])
# 你可以在这里根据具体的字段情况进行处理,例如对相似字段进行合并等操作

# 执行数据清洗和维度字段追加操作(见下文)

# 最后将合并后的数据写入 MySQL 数据库
merged_df.to_sql('merged_result_table', con=engine, if_exists='replace', index=False)

# 关闭连接
engine.dispose()

 

标签:engine,df,合并,read,pd,数据,merged
From: https://www.cnblogs.com/lin513/p/18095620

相关文章

  • 大数据——调用百度地图接口进行规范
    importurllib.request,urllib.parse,urllib.errorimportjsonimporthashlibimportnumpyasnpimportpandasaspdMyAK=''MySK=''lat=0.0lng=0.0#处理得到urldefget_url(name):#GET请求http://api.map.baidu.com/geocoding/v3/?add......
  • 大数据——增加行政区编码列
    importpandasaspdfromsqlalchemyimportcreate_engine#从数据库中读取结果表数据到DataFrame中engine=create_engine('mysql+pymysql://root:wwsa20030207@localhost/python_bigdata')result_df=pd.read_sql('SELECT*FROMresult_with_dimension',c......
  • 大数据——数据下钻到省市县
    importurllib.request,urllib.parse,urllib.errorimportjsonimporthashlibimportnumpyasnpimportpandasaspdMyAK=''MySK=''lat=0.0lng=0.0#处理得到urldefget_url(name):#GET请求http://api.map.baidu.com/geocoding/v3/?add......
  • 大数据——补充关键词
    importpandasaspdimportnltkfromnltk.tokenizeimportword_tokenizefromnltk.corpusimportstopwordsfromnltk.stemimportPorterStemmerfromnltk.probabilityimportFreqDist#下载停用词列表(如果未下载的话)nltk.download('stopwords')df=pd.read_csv(&......
  • 代码随想录第20天| 654.最大二叉树 617.合并二叉树
     654.最大二叉树654.最大二叉树-力扣(LeetCode)代码随想录(programmercarl.com)又是构造二叉树,又有很多坑!|LeetCode:654.最大二叉树_哔哩哔哩_bilibili给定一个不重复的整数数组 nums 。 最大二叉树 可以用下面的算法从 nums 递归地构建:创建一个根节点,其值为 ......
  • 力扣刷题之21.合并两个有序链表
    仅做学习笔记之用。题目:将两个升序链表合并为一个新的 升序 链表并返回。新链表是通过拼接给定的两个链表的所有节点组成的。 示例1:输入:l1=[1,2,4],l2=[1,3,4]输出:[1,1,2,3,4,4]示例2:输入:l1=[],l2=[]输出:[]示例3:输入:l1=[],l2=[0]输出:[0]......
  • 数据库 char 与 varchar 的区别
     数据库内的char和varchar都是用于存储字符串数据类型的。两者主要区别是存储方式和存储情况:1)固定长度和可变长度char是固定长度的数据字符串类型,需指存储的字符长度;不论存储的字符长度是否达到了这个长度,都会占据指定存储的字符空间;例:定义一个char为10,......
  • 生信小白菜之GEO芯片数据分析流程--附画图代码
    title:“GEOdataanalysis”author:“yuluyang”date:“2024-03-22”生信技能树数据挖掘课程笔记~小洁老师授课主要内容:数据分组的内容关键词的分组和多分组比较idmap报错的原因及解决方法基因组的注释流程数据的行列互换及方差数值画图示例代码示例数据libr......
  • HashMap---数据结构
    目录一、基本数据结构二、树化与退化三、索引计算四、put方法和扩容五、并发问题六、key的设计一、基本数据结构        在jdk1.7版本的时候,hashmap结构主要是使用数组+链表的格式,而在jdk1.8版本中,hashmap的数据结构增加了一种“红黑树”的结构,即数组+(......
  • 静态数据成员的应用
    classStudent{//1.数据成员privateStringname;privateStringsex;publicstaticStringschool="岳麓书院";//公布静态数据成员//2.省略构造方法;//3.省略setter和getter方法;//4.功能方法publicvoiddisplay(){......