首页 > 其他分享 >pytorch调试时CUDA报错,如何精确定位

pytorch调试时CUDA报错,如何精确定位

时间:2024-05-15 20:19:05浏览次数:15  
标签:语句 python pytorch 报错 CUDA 精确定位

由于pytorch的python语句执行和CUDA后端实际上是异步执行的,所以当CUDA runtime报错时,并不一定能正确地反映在python抛出的错误语句中,因此,可以添加一个环境变量来实现:

CUDA_LAUNCH_BLOCKING=1

这里再补充一些关于cuda和pytorch异步执行的知识,当你写了一句torch.mm(X, Y)时,实际上的操作仅仅是将乘法操作加入计算列表中就返回了,CUDA此时可能还在计算上一条,这时python可以进行下一步工作,直到要读取结果时,才会阻塞等待计算结束。所以当CUDA报错时,可能python在执行别的语句,就会抛出错误的堆栈。

标签:语句,python,pytorch,报错,CUDA,精确定位
From: https://www.cnblogs.com/wangbingbing/p/18194629

相关文章

  • TypeError报错处理
    哈喽,大家好,我是木头左!一、Python中的TypeError简介这个错误通常表示在方法调用时,参数类型不正确,或者在对字符串进行格式化操作时,提供的变量与预期不符。二、错误的源头:字符串格式化的奥秘字符串格式化是Python中一个非常实用的功能,它允许根据一定的格式将变量插入到字符串中......
  • Spring Boot项目,LocalDateTime参数在不同传参方式下的报错
    背景很基础的问题,只是项目中有遇到,简单记录一下两个类似的请求,一个为GET请求,普通传参方式,一个为POST请求,JSON传参,用@RequestBody接受,两者的传参是同一个对象,其中有个参数updateTime,类型为LocalDateTimeGET请求正常,POST请求会报400原因很基础的问题GET请求的参数通常通过URL......
  • 记录一下tomcat报错日志分析(去重分类)
    #!/usr/bin/envpython#coding=utf-8importosfolder_path='E:\\Desktop'output_file='E:\\Desktop\\bsvc_error.log'defmerge_files(folder_path,output_file):withopen(output_file,'w',encoding='utf-8&#......
  • docker启动java容器报错unable to allocate file descriptor table - out of memory
    问题:启动java进程报错{"log":"libraryinitializationfailed-unabletoallocatefiledescriptortable-outofmemory","stream":"stderr","time":"2024-05-15T06:27:14.681052443Z"}原因:LimitNOFILE=infinity......
  • Nginx配置https(证书)报错
    一、nginx配置问题nginx配置https的时候报错: nginx:[emerg]unknowndirective35+GAN"ssl"in/usr/local/nginx/conf/nginx.conf:28或者 nginx:[emerg]the"ssl"parameterrequiresngx_http_ssl_modulein/usr/loca....出现这个问题的时候可以检查一下是不是没有......
  • ROS学习日记:(报错)terminate called after throwing an instance of 'rclcpp::excepti
    论坛里的一个老哥给出答案https://discourse.ros.org/t/how-to-shutdown-and-reinitialize-a-publisher-node-in-ros-2/4090就是我在初始化环境前先初始化了节点autonode=std::make_shared<Static_tf_broadcaster>(argv);rclcpp::init(argc,argv);rclcpp::spin(nod......
  • root用户登陆ssh报错 /bin/bash: Permission denied
    CentOS7.5 ssh服务升级后,sshd服务状态正常,root用户登陆成功Xshell7(Build0157)Copyright(c)2020NetSarangComputer,Inc.Allrightsreserved.Type`help'tolearnhowtouseXshellprompt.[C:\~]$Connectingto127.0.0.1:XXXXX...Connectionestablished......
  • 关于npm install报错问题
    npminstall安装报错时,可能的原因有很多,以下是一些常见的解决方法:请记住,解决npm安装问题通常需要具体问题具体分析。根据错误消息和上下文信息,可能需要采用不同的方法来解决问题。清除npm缓存:有时候,npm的缓存可能会导致安装失败。你可以尝试运行npmcacheclean--force命令来......
  • 打开symlink类型的文件报错:无法遵循符号链接,因为其类型已禁用
     参考:https://blog.csdn.net/KEVERSO/article/details/84780368在英文系统中对应的是“Thesymboliclinkcannotbefollowedbecauseitstypeisdisabled.”简单的解决方案是,运行以下命令:FSUtilBehaviorSetSymlinkEvaluationL2L:1R2R:1L2R:1R2L:1Windows把文件......
  • 【转】[IDEA] 启动报错 Internal error. Please refer to...
    转自:https://blog.csdn.net/liyh722/article/details/136699609 问题原因:java.net.BindException:地址已在使用中:也就是idea启动时需要占用一些端口,但是已经被其它打开的软件占用了。IDE正在本地主机上启动服务器,它将尝试在6942和6991之间的第一个可用端口上进行绑定,如果IDE......