llamafactory大模型微调单卡转多卡出现SignalException: Process 3232810 got signal: 1错误
问题分析:nohup后台不灵光,如果非正常exit终端的话,会将Signal信号送给进程,最终导致全部中止。我是用的llamafactory微调,我的大模型微调之前使用的单卡,切换到双卡并行训练后,首先出现报错。这个问题解决后命令启动后正常运行,但一个小时内总是会出现,中断错误。是退出终端不马上关,使用exit退出;这样就算断开连接,命令也会继续运行。本人尝试第一种方法,问题解决。解决方案查看我的
·
错误内容如下:
我是用的llamafactory微调,我的大模型微调之前使用的单卡,切换到双卡并行训练后,首先出现报错llamafactory单卡转多卡出现ModuleNotFoundError: No module named ‘llamafactory‘问题解决方案查看我的博客
这个问题解决后命令启动后正常运行,但一个小时内总是会出现,中断错误
torch.distributed.elastic.multiprocessing.api.SignalException: Process 3232810 got signal: 1
问题分析:nohup后台不灵光,如果非正常exit终端的话,会将Signal信号送给进程,最终导致全部中止。
解决方案:
-
是退出终端不马上关,使用exit退出;
-
看试试这个指令。
$ nohup bash train.sh > train.log 2>&1 & $ disown这样就算断开连接,命令也会继续运行。
本人尝试第一种方法,问题解决
更多推荐

所有评论(0)