首页 > 其他分享 >pandas读取txt---按行输入按行输出

pandas读取txt---按行输入按行输出

时间:2024-02-22 09:00:57浏览次数:29  
标签:data --- 按行 file import txt ie schema

 1.pandas读取txt---按行输入按行输出

import pandas as pd
# 我们的需求是 取出所有的姓名
# test1的内容
'''
id name score
1  张三 100
2  李四 99
3  王五 98
'''
test1 = pd.read_table("test1.txt") # 这个是带有标题的文件
names = test1["name"] # 根据标题来取值
print(names)
'''
张三
李四
王五
'''

# test2的内容
'''
4  Allen 100
5  Bob 99
6  Candy 98
'''
test2 = pd.read_table("test2.txt", header=None) # 这个是没有标题的文件
names = test2[1] # 根据index来取值 
print(names)
'''
Allen
Bob
Candy
'''

 

import pandas as pd
from paddlenlp import Taskflow
import json

path="nlp测试体育类文本.txt"
def get_textLine(path):
    string_list = []
    file_data = pd.read_table(path,encoding="UTF-8")
    for index, elem in file_data.iterrows():
        string_list.append(elem[0])
    return string_list

# print(get_textLine(path))

data_input=get_textLine(path)


schema = ['时间', '赛手', '赛事名称']
# ie.set_schema(schema)
# ie('2月8日上午北京冬奥会自由式滑雪女子大跳台决赛中中国选手谷爱凌以188.25分获得金牌!')
# few_ie = Taskflow('information_extraction', schema=schema, task_path='./checkpoint/model_best')
few_ie = Taskflow('information_extraction', schema=schema)
# results=few_ie(['2月8日上午北京冬奥会自由式滑雪女子大跳台决赛中中国选手谷爱凌以188.25分获得金牌.',
#         '2022年8月9日上午跳高决赛中国选手李大水以100分获得金牌'])


results=few_ie(data_input)
test = pd.DataFrame(data=results)
test.to_csv('excel2txt.txt', sep='\t', index=False,header=False,index=False)
print("数据已导出")

2.with open的方式

import pandas as pd
from paddlenlp import Taskflow
import json


 def openreadtxt(file_name):
     data = []
     file = open(file_name,'r',encoding='UTF-8')  #打开文件
     file_data = file.readlines() #读取所有行
     for row in file_data:
         data.append(row) #将每行数据插入data中     
     return data
data_input=openreadtxt("nlp测试体育类文本.txt")

schema = ['时间', '赛手', '赛事名称']
# ie.set_schema(schema)
# ie('2月8日上午北京冬奥会自由式滑雪女子大跳台决赛中中国选手谷爱凌以188.25分获得金牌!')
# few_ie = Taskflow('information_extraction', schema=schema, task_path='./checkpoint/model_best')
few_ie = Taskflow('information_extraction', schema=schema)



results=few_ie(data_input)
 with open("test.txt", "w+") as f:    #a :   写入文件,若文件不存在则会先创建再写入,但不会覆盖原文件,而是追加在文件末尾
     for result in results:
         line = json.dumps(result, ensure_ascii=False)  #对中文默认使用的ascii编码.想输出真正的中文需要指定ensure_ascii=False
         f.write(line + "\n")


print("数据已导出")

标签:data,---,按行,file,import,txt,ie,schema
From: https://www.cnblogs.com/kn-zheng/p/18026581

相关文章

  • 分析kube-apiserver单次创建namespace耗时
    日志输出#业务日志I022022:12:39.14936440965multi_config_multi_clientset.go:63]begintowaitcachesyncI022022:12:39.25046140965multi_config_multi_clientset.go:67]waitcachesyncendI022022:12:39.25644040965multi_config_multi_clientset.go:......
  • P5344 【XR-1】逛森林 题解
    题目链接:逛森林很早就想写写倍增优化建图,尤其是这题,奈何之前知识点没点够,本题线段树优化建图要优一些,不再赘述,没注意\(m\)是\(1e6\),挂了\(n\)多发才发现。后续再详细讲解倍增优化建图,这里简述本题做法。倍增优化建图其实和线段树优化建图恰不多的思想,为倍增求\(LCA\)的每......
  • 2024-02-21 闲话
    下午打算简化一下研究toolkengpt代码,让ChatGPT解释了一遍发现toolkengpt没有真正调用工具,实在是颠覆认知了。差点就想说词语接龙实现不了agi了。后来看随机向量的一些性质感觉看了也没用,也可能是感觉对他那些多元积分进行感性理解比读符号表达式方便一百倍,第一开始......
  • C++ STL 容器-string类型
    C++STL第一部分-容器STL的介绍C++的STL分为六大部分容器分为String容器例子1std::stringstr1,str2,str3,str4;str1.assign("abcd");//给str1赋值abcdstr2.assign("abcd",3);//获取abcd中的3个,从0到2str3.assign(str1);//获取str1//注意str3()和str3.a......
  • MySQL-15.存储过程和函数
    C-15.存储过程和函数MySQL从5.0版本开始支持存储过程和函数。存储过程和函数能够将复杂的SQL逻辑封装在一起,应用程序无须关注存储过程和函数内部复杂的SQL逻辑,而只需要简单地调用存储过程和函数即可。1.存储过程概述1.1理解含义:存储过程的英文是StoredProcedure。它的思想......
  • ssts-hospital-web-master项目实战记录六:项目迁移方案大纲(html -> vue)
    记录时间:2024-02-21(一)公共资源部分Inc/cssInc/flashInc/imagesInc/jsInc/voice(二)页面部分1.主页及其组成(1)index.html->App.vue(2)MainPage*.html->views/main-page*MainPage1.html->views/main-page1MainPage2.html->views/main-page2MainPage3.html->......
  • 闭包-保证你看看明明白白
    闭包闭包官方的解释:闭包(closure)是一个函数以及其捆绑的周边环境状态(词法环境)的引用的组合。也就是说:闭包让开发者可以从内部函数访问外部函数的作用域。在JavaScript中,闭包会随着函数的创建而被同时创建。上面这3句话是mdn的解释。太复杂了。笨笨的我理解不了。我的理解:闭......
  • Day-6
    字符串难点:理解算法过程二分+哈希可以$O(nlogn)$完成Manacher和exKMPManacherP5446R是S的一个前缀R[1,i]的后缀的最大回文半径为r一次翻折:i+r==n成立多次翻折:目标串合法且目标串是一个回文串题解2exKMP\(z[i]\)表示\(S\)和\(S......
  • Day-5
    DP背包多重背包单调队列???P4141退背包由暴力到优化每删一个,做一次背包$n^2m$前后缀F(i,j)前i件,G(i,j)第i-n件$nm^2$退掉i物品$f(i,j)=\sum{f(i-1,x)}$$f(j)-=f(j-w_i)$拓展:去掉i,求max分治背包目的:除i......
  • Day-4
    模拟赛S+N---【玄英计划】---2月18日---模拟测#2【补题】-比赛-梦熊联盟T115分:状压,50分:$O(n^2)$$O(n^2)$的check:赛时代码正解:贪心根据鸽巢原理:$a_1,a_2,a_3$至少会有两项是同一个等差数列的前两项$O(n)$T2第二种路径:$u_i\gev_......