首页 > 编程语言 >stata PYTHON 文书筛选

stata PYTHON 文书筛选

时间:2023-10-15 19:44:24浏览次数:43  
标签:index file PYTHON dizhi df stata 筛选 local ##

cap:mkdir 1012a
cd D:\te\pan\2018年裁判文书数据_马克数据网
fs *.csv
local shu=4
foreach file in `r(files)'{
    local shu=`shu'+1
    import delimited "`file'", clear 
    cap:keep 案件名称 所属地区 案件类型 案件类型编码 审理程序 裁判日期 案由 全文
    if _rc{
        foreach var of varlist _all{
    local cx=`var'[1]
    rename `var' `cx'
}
    }
    keep if 审理程序=="一审"
    save d:\te\xa`shu',replace
}
foreach var of varlist _all{
    local cx=`var'[1]
    rename `var' `cx'
}
    gen sheng=""
    local k=_N
    forvalues i=1/`k'{
        local cc=所属地区[`i']
        preserve
        local bz=0
        local cv=""
        use sheng1,clear
        local k3=_N
        forvalues iii=1/`k3'{
            local k33=sheng[`iii']
            if regexm("`cc'","`k33'"){
                disp "`cc'"
                local cv="`k33'"
                local bz=1
                continue,break
            }

    }
    restore
    replace sheng="`cv' in `i'
}
save d:\te\xx`shu',replace
}


save 1012a\a1,replace


forvalues iv=1/4{
    use d:\te\pan\a`iv',clear

//     if `bz'==0{
//         use 1001\quanguoshengshi,clear
//     local k1=_N
//     forvalues ii=1/`k1'{
//         local k11=shi[`ii']
//         local k22=xian[`ii']
//        
//         disp "`cc'"
//         if regexm("`cc'","`k11'"){
//             local cv="`k11'"
//             continue,break
//         }
//         if regexm("`ccc'","`k11'"){
//             local cv="`k11'"
//             continue,break
//         }
//         if "`cv'"==""{
//             if regexm("`cc'","`k22'"){
//             local cv="`k11'"
//             continue,break
//         }
//         }
//         if "`cv'"==""{
//             if regexm("`ccc'","`k22'"){
//             local cv="`k11'"
//             continue,break
//         }
//         }
//     }
//     }
    
    restore
    replace shi="`cv'" in `i'
    disp `i'
}
save d:\te\pan\a`iv'x,replace
}
import pandas as pd
import dask.dataframe as dd
import os,glob,sys
directory=os.getcwd()
files=glob.glob(directory+"/*")
index=-1
au=0
for file in files:
    if ".csv" in file and "ta" in file:
        au=au+1
        df = pd.read_csv(file)
        df["sheng"]=""
        df["shi"]=""
        df1 = pd.read_stata('shengx.dta')
        ab=1
        index=-1
        for dizhi in df["全文"]:
            index=index+1
        #for index,row in df.iterrows():
##            dizhi=str(row["所属地区"])
##            dizhia=str(row["全文"])
            #print(dizhi,dizhia)
            dizhi=str(dizhi)
            for shi1 in df1["sheng"]:
            #for index1,row1 in df1.iterrows():
##                
##                shi=row1["xian"]
##                shi1=row1["shi"]
                
                if shi1 in dizhi:
                    print(file,shi1)
                    ab=ab+1
                    
                    df.loc[index,"sheng"]=shi1
                    break
        df.to_csv("ua"+str(au)+"x.csv")

            
import pandas as pd
import dask.dataframe as dd
import os,glob,sys
directory=os.getcwd()
files=glob.glob(directory+"/*")
index=-1
au=0
for file in files:
    if ".csv" in file:
        au=au+1
        df = pd.read_csv(file)
        df["sheng"]=""
        df["shi"]=""
        df1 = pd.read_stata('shengw.dta')
        ab=1
        index=-1
        for dizhi in df["所属地区"]:
            index=index+1
        #for index,row in df.iterrows():
##            dizhi=str(row["所属地区"])
##            dizhia=str(row["全文"])
            #print(dizhi,dizhia)
            dizhi=str(dizhi)
            for sheng,shi1 in zip(df1["sheng"],df1["shi"]):
            #for index1,row1 in df1.iterrows():
##                
##                shi=row1["xian"]
##                shi1=row1["shi"]
                
                if shi1 in dizhi:
                    print(file,shi1)
                    ab=ab+1
                    
                    df.loc[index,"sheng"]=shi1
                    break
        df.to_csv("ta"+str(au)+"x.csv")

            

 

标签:index,file,PYTHON,dizhi,df,stata,筛选,local,##
From: https://www.cnblogs.com/xkdn/p/17766052.html

相关文章

  • 车辆车型识别系统python+TensorFlow+Django网页界面+算法模型
    一、介绍车辆车型识别系统。本系统使用Python作为主要开发编程语言,通过TensorFlow搭建算法模型网络对收集到的多种车辆车型图片数据集进行训练,最后得到一个识别精度较高的模型文件。并基于该模型搭建Django框架的WEB网页端可视化操作界面。实现用户上传一张车辆车型图片识别其名......
  • 同花顺期货通使用python写指标demo1
    期货通支持python本来是个好事情。奈何同花顺公司做产品不讲究,未经测试就发布了,全是bug。API接口也不完善,取数据的接口不支持取【持仓量】!玩期货不提供持仓量接口,那就只能是个玩具,不具有实用价值。怎么说呢?还是希望同花顺期货通能把python功能搞完善。 ......
  • python2
    二进制0b 0B八进制0o 0O十六进制0x OX 数值类型不可变数据类型整数类型 int浮点类型  float复数  .real  .imag字符串类型 type()用于查看数据类型round(x,3)......
  • 《Python计算机视觉编程》高清高质量电子书PDF
    下载:https://pan.quark.cn/s/3c386f89afec......
  • python学习——回归模型
    从本篇开始记录一下我在研究生阶段的学习作业之成人死亡率预测(回归模型)1实验介绍1.1实验背景成年人死亡率指的是每一千人中15岁至60岁死亡的概率(数学期望)。这里我们给出了世界卫生组织(WHO)下属的全球卫生观察站(GHO)数据存储库跟踪的所有国家健康状况以及许多其他相关因素。要......
  • Python滑动窗口算法:滑动窗口算法(4 by 4 sliding window price)
    我知道滑动窗口算法的时间复杂度是o(N),但是可变大小的滑动窗口算法的时间复杂度是多少。对于e-数组=[1,2,3,4,5,6]当滑动窗口的大小为=1时窗口-[1],[2],[3],[4],[5],[6]当滑动窗口的大小为=2时窗口-[1,2],[2,3],[3,4],[4,5],[5,6]当滑动窗口的大小为=3时窗口-[1,2,3],[2......
  • Python - 字典2
    Python-访问字典项您可以通过在方括号内引用其键名来访问字典的项:示例,获取"model"键的值:thisdict={"brand":"Ford","model":"Mustang","year":1964}x=thisdict["model"]还有一种叫做get()的方法,它将给您相同的结果:示例,获取......
  • python开发
          ......
  • 自动批量将阿里云盘资源发布成WordPress文章带截图Python脚本(含正文 付费信息 下载地
    自动批量将阿里云盘资源发布成WordPress文章带截图Python脚本(含正文付费信息下载地址SEO等自动设置)自动批量将阿里云盘资源发布成WordPress文章带截图Python脚本(含正文付费信息下载地址SEO等自动设置)源码下载自动上传图片至WordPress站点,使用RestFulAPI批量发布文章,文章含......
  • python的一些模块
    1.sys模块sys是python自带模块.sys模块常见函数1$python2Python2.7.6(default,Oct262016,20:30:19)3[GCC4.8.4]onlinux24Type"help","copyright","credits"or"license"formoreinformation.5>>>import......