错误内容如下:
我是用的llamafactory微调,我的大模型微调之前使用的单卡,切换到双卡并行训练后,首先出现报错
llamafactory单卡转多卡出现ModuleNotFoundError: No module named ‘llamafactory‘问题解决方案查看我的博客
这个问题解决后命令启动后正常运行,但一个小时内总是会出现,中断错误
torch.distributed.elastic.multiprocessing.api.SignalException: Process 3232810 got signal: 1
在这里插入图片描述
问题分析:nohup后台不灵光,如果非正常exit终端的话,会将Signal信号送给进程,最终导致全部中止。

解决方案:

  1. 是退出终端不马上关,使用exit退出;

  2. 看试试这个指令。

    $ nohup bash train.sh > train.log 2>&1 &
    $ disown
    

    这样就算断开连接,命令也会继续运行。

本人尝试第一种方法,问题解决

Logo

Agent 垂直技术社区,欢迎活跃、内容共建。

更多推荐