============================= test session starts ==============================
platform linux -- Python 3.9.21, pytest-6.2.5, py-1.11.0, pluggy-0.13.1
rootdir: /home/jenkins/mindspore/testcases/testcases/tests/st/networks/llm_parallel_feature/deepseekv3, configfile: ../../../../../../../../sault/virtual_test/virtualenv_002/sault/config/pytest.ini
plugins: forked-1.6.0, hydra-core-1.3.2, xdist-1.32.0, anyio-4.9.0
collected 1 item

test_deepseekv3_pretrain.py enable lazy inline in pp
/home/jenkins/.local/lib/python3.9/site-packages/numpy/core/getlimits.py:549: UserWarning: The value of the smallest subnormal for <class 'numpy.float64'> type is zero.
  setattr(self, word, getattr(machar, word).flat[0])
/home/jenkins/.local/lib/python3.9/site-packages/numpy/core/getlimits.py:89: UserWarning: The value of the smallest subnormal for <class 'numpy.float64'> type is zero.
  return self._float_to_str(self.smallest_subnormal)
/home/jenkins/.local/lib/python3.9/site-packages/numpy/core/getlimits.py:549: UserWarning: The value of the smallest subnormal for <class 'numpy.float32'> type is zero.
  setattr(self, word, getattr(machar, word).flat[0])
/home/jenkins/.local/lib/python3.9/site-packages/numpy/core/getlimits.py:89: UserWarning: The value of the smallest subnormal for <class 'numpy.float32'> type is zero.
  return self._float_to_str(self.smallest_subnormal)
Start worker process with rank id:0, log file:/home/jenkins/mindspore/testcases/testcases/tests/st/networks/llm_parallel_feature/deepseekv3/deepseekv3_cell_dp2mp2ep2pp2mb4gas1bs1_deredundency_8p_gmm/worker_0.log. Environment variable [RANK_ID=0] is exported.
[WARNING] ME(896887:281472945614528,MainProcess):2025-07-15-10:13:03.638.394 [mindspore/parallel/cluster/process_entity/_utils.py:62] Launch process with command: taskset -c 144-167 python /home/jenkins/mindspore/testcases/testcases/tests/st/networks/llm_parallel_feature/deepseekv3/../mindformers/run_mindformer.py --config /home/jenkins/mindspore/testcases/testcases/tests/st/networks/llm_parallel_feature/deepseekv3/deepseekv3_cell_dp2mp2ep2pp2mb4gas1bs1_deredundency_8p_gmm/pretrain_deepseek3.yaml --register_path /home/jenkins/mindspore/testcases/testcases/tests/st/networks/llm_parallel_feature/deepseekv3/../mindformers/research/deepseek3/
Start worker process with rank id:1, log file:/home/jenkins/mindspore/testcases/testcases/tests/st/networks/llm_parallel_feature/deepseekv3/deepseekv3_cell_dp2mp2ep2pp2mb4gas1bs1_deredundency_8p_gmm/worker_1.log. Environment variable [RANK_ID=1] is exported.
[WARNING] ME(896887:281472945614528,MainProcess):2025-07-15-10:13:03.696.961 [mindspore/parallel/cluster/process_entity/_utils.py:62] Launch process with command: taskset -c 24-47 python /home/jenkins/mindspore/testcases/testcases/tests/st/networks/llm_parallel_feature/deepseekv3/../mindformers/run_mindformer.py --config /home/jenkins/mindspore/testcases/testcases/tests/st/networks/llm_parallel_feature/deepseekv3/deepseekv3_cell_dp2mp2ep2pp2mb4gas1bs1_deredundency_8p_gmm/pretrain_deepseek3.yaml --register_path /home/jenkins/mindspore/testcases/testcases/tests/st/networks/llm_parallel_feature/deepseekv3/../mindformers/research/deepseek3/
Start worker process with rank id:2, log file:/home/jenkins/mindspore/testcases/testcases/tests/st/networks/llm_parallel_feature/deepseekv3/deepseekv3_cell_dp2mp2ep2pp2mb4gas1bs1_deredundency_8p_gmm/worker_2.log. Environment variable [RANK_ID=2] is exported.
[WARNING] ME(896887:281472945614528,MainProcess):2025-07-15-10:13:03.788.890 [mindspore/parallel/cluster/process_entity/_utils.py:62] Launch process with command: taskset -c 96-119 python /home/jenkins/mindspore/testcases/testcases/tests/st/networks/llm_parallel_feature/deepseekv3/../mindformers/run_mindformer.py --config /home/jenkins/mindspore/testcases/testcases/tests/st/networks/llm_parallel_feature/deepseekv3/deepseekv3_cell_dp2mp2ep2pp2mb4gas1bs1_deredundency_8p_gmm/pretrain_deepseek3.yaml --register_path /home/jenkins/mindspore/testcases/testcases/tests/st/networks/llm_parallel_feature/deepseekv3/../mindformers/research/deepseek3/
Start worker process with rank id:3, log file:/home/jenkins/mindspore/testcases/testcases/tests/st/networks/llm_parallel_feature/deepseekv3/deepseekv3_cell_dp2mp2ep2pp2mb4gas1bs1_deredundency_8p_gmm/worker_3.log. Environment variable [RANK_ID=3] is exported.
[WARNING] ME(896887:281472945614528,MainProcess):2025-07-15-10:13:03.851.265 [mindspore/parallel/cluster/process_entity/_utils.py:62] Launch process with command: taskset -c 72-95 python /home/jenkins/mindspore/testcases/testcases/tests/st/networks/llm_parallel_feature/deepseekv3/../mindformers/run_mindformer.py --config /home/jenkins/mindspore/testcases/testcases/tests/st/networks/llm_parallel_feature/deepseekv3/deepseekv3_cell_dp2mp2ep2pp2mb4gas1bs1_deredundency_8p_gmm/pretrain_deepseek3.yaml --register_path /home/jenkins/mindspore/testcases/testcases/tests/st/networks/llm_parallel_feature/deepseekv3/../mindformers/research/deepseek3/
Start worker process with rank id:4, log file:/home/jenkins/mindspore/testcases/testcases/tests/st/networks/llm_parallel_feature/deepseekv3/deepseekv3_cell_dp2mp2ep2pp2mb4gas1bs1_deredundency_8p_gmm/worker_4.log. Environment variable [RANK_ID=4] is exported.
[WARNING] ME(896887:281472945614528,MainProcess):2025-07-15-10:13:03.915.291 [mindspore/parallel/cluster/process_entity/_utils.py:62] Launch process with command: taskset -c 0-23 python /home/jenkins/mindspore/testcases/testcases/tests/st/networks/llm_parallel_feature/deepseekv3/../mindformers/run_mindformer.py --config /home/jenkins/mindspore/testcases/testcases/tests/st/networks/llm_parallel_feature/deepseekv3/deepseekv3_cell_dp2mp2ep2pp2mb4gas1bs1_deredundency_8p_gmm/pretrain_deepseek3.yaml --register_path /home/jenkins/mindspore/testcases/testcases/tests/st/networks/llm_parallel_feature/deepseekv3/../mindformers/research/deepseek3/
Start worker process with rank id:5, log file:/home/jenkins/mindspore/testcases/testcases/tests/st/networks/llm_parallel_feature/deepseekv3/deepseekv3_cell_dp2mp2ep2pp2mb4gas1bs1_deredundency_8p_gmm/worker_5.log. Environment variable [RANK_ID=5] is exported.
[WARNING] ME(896887:281472945614528,MainProcess):2025-07-15-10:13:04.228.73 [mindspore/parallel/cluster/process_entity/_utils.py:62] Launch process with command: taskset -c 120-143 python /home/jenkins/mindspore/testcases/testcases/tests/st/networks/llm_parallel_feature/deepseekv3/../mindformers/run_mindformer.py --config /home/jenkins/mindspore/testcases/testcases/tests/st/networks/llm_parallel_feature/deepseekv3/deepseekv3_cell_dp2mp2ep2pp2mb4gas1bs1_deredundency_8p_gmm/pretrain_deepseek3.yaml --register_path /home/jenkins/mindspore/testcases/testcases/tests/st/networks/llm_parallel_feature/deepseekv3/../mindformers/research/deepseek3/
Start worker process with rank id:6, log file:/home/jenkins/mindspore/testcases/testcases/tests/st/networks/llm_parallel_feature/deepseekv3/deepseekv3_cell_dp2mp2ep2pp2mb4gas1bs1_deredundency_8p_gmm/worker_6.log. Environment variable [RANK_ID=6] is exported.
[WARNING] ME(896887:281472945614528,MainProcess):2025-07-15-10:13:04.130.013 [mindspore/parallel/cluster/process_entity/_utils.py:62] Launch process with command: taskset -c 48-71 python /home/jenkins/mindspore/testcases/testcases/tests/st/networks/llm_parallel_feature/deepseekv3/../mindformers/run_mindformer.py --config /home/jenkins/mindspore/testcases/testcases/tests/st/networks/llm_parallel_feature/deepseekv3/deepseekv3_cell_dp2mp2ep2pp2mb4gas1bs1_deredundency_8p_gmm/pretrain_deepseek3.yaml --register_path /home/jenkins/mindspore/testcases/testcases/tests/st/networks/llm_parallel_feature/deepseekv3/../mindformers/research/deepseek3/
Start worker process with rank id:7, log file:/home/jenkins/mindspore/testcases/testcases/tests/st/networks/llm_parallel_feature/deepseekv3/deepseekv3_cell_dp2mp2ep2pp2mb4gas1bs1_deredundency_8p_gmm/worker_7.log. Environment variable [RANK_ID=7] is exported.
[WARNING] ME(896887:281472945614528,MainProcess):2025-07-15-10:13:04.237.532 [mindspore/parallel/cluster/process_entity/_utils.py:62] Launch process with command: taskset -c 168-191 python /home/jenkins/mindspore/testcases/testcases/tests/st/networks/llm_parallel_feature/deepseekv3/../mindformers/run_mindformer.py --config /home/jenkins/mindspore/testcases/testcases/tests/st/networks/llm_parallel_feature/deepseekv3/deepseekv3_cell_dp2mp2ep2pp2mb4gas1bs1_deredundency_8p_gmm/pretrain_deepseek3.yaml --register_path /home/jenkins/mindspore/testcases/testcases/tests/st/networks/llm_parallel_feature/deepseekv3/../mindformers/research/deepseek3/
[WARNING] ME(896887:281472945614528,MainProcess):2025-07-15-10:13:04.342.415 [mindspore/parallel/cluster/process_entity/_api.py:267] Distributed job is spawned. Waiting all processes to exit...
/home/jenkins/.local/lib/python3.9/site-packages/numpy/core/getlimits.py:549: UserWarning: The value of the smallest subnormal for <class 'numpy.float64'> type is zero.
  setattr(self, word, getattr(machar, word).flat[0])
/home/jenkins/.local/lib/python3.9/site-packages/numpy/core/getlimits.py:89: UserWarning: The value of the smallest subnormal for <class 'numpy.float64'> type is zero.
  return self._float_to_str(self.smallest_subnormal)
/home/jenkins/.local/lib/python3.9/site-packages/numpy/core/getlimits.py:549: UserWarning: The value of the smallest subnormal for <class 'numpy.float32'> type is zero.
  setattr(self, word, getattr(machar, word).flat[0])
/home/jenkins/.local/lib/python3.9/site-packages/numpy/core/getlimits.py:89: UserWarning: The value of the smallest subnormal for <class 'numpy.float32'> type is zero.
  return self._float_to_str(self.smallest_subnormal)
/home/jenkins/.local/lib/python3.9/site-packages/numpy/core/getlimits.py:549: UserWarning: The value of the smallest subnormal for <class 'numpy.float64'> type is zero.
  setattr(self, word, getattr(machar, word).flat[0])
/home/jenkins/.local/lib/python3.9/site-packages/numpy/core/getlimits.py:89: UserWarning: The value of the smallest subnormal for <class 'numpy.float64'> type is zero.
  return self._float_to_str(self.smallest_subnormal)
/home/jenkins/.local/lib/python3.9/site-packages/numpy/core/getlimits.py:549: UserWarning: The value of the smallest subnormal for <class 'numpy.float32'> type is zero.
  setattr(self, word, getattr(machar, word).flat[0])
/home/jenkins/.local/lib/python3.9/site-packages/numpy/core/getlimits.py:89: UserWarning: The value of the smallest subnormal for <class 'numpy.float32'> type is zero.
  return self._float_to_str(self.smallest_subnormal)
/home/jenkins/.local/lib/python3.9/site-packages/numpy/core/getlimits.py:549: UserWarning: The value of the smallest subnormal for <class 'numpy.float64'> type is zero.
  setattr(self, word, getattr(machar, word).flat[0])
/home/jenkins/.local/lib/python3.9/site-packages/numpy/core/getlimits.py:89: UserWarning: The value of the smallest subnormal for <class 'numpy.float64'> type is zero.
  return self._float_to_str(self.smallest_subnormal)
/home/jenkins/.local/lib/python3.9/site-packages/numpy/core/getlimits.py:549: UserWarning: The value of the smallest subnormal for <class 'numpy.float32'> type is zero.
  setattr(self, word, getattr(machar, word).flat[0])
/home/jenkins/.local/lib/python3.9/site-packages/numpy/core/getlimits.py:89: UserWarning: The value of the smallest subnormal for <class 'numpy.float32'> type is zero.
  return self._float_to_str(self.smallest_subnormal)
/home/jenkins/.local/lib/python3.9/site-packages/numpy/core/getlimits.py:549: UserWarning: The value of the smallest subnormal for <class 'numpy.float64'> type is zero.
  setattr(self, word, getattr(machar, word).flat[0])
/home/jenkins/.local/lib/python3.9/site-packages/numpy/core/getlimits.py:89: UserWarning: The value of the smallest subnormal for <class 'numpy.float64'> type is zero.
  return self._float_to_str(self.smallest_subnormal)
/home/jenkins/.local/lib/python3.9/site-packages/numpy/core/getlimits.py:549: UserWarning: The value of the smallest subnormal for <class 'numpy.float32'> type is zero.
  setattr(self, word, getattr(machar, word).flat[0])
/home/jenkins/.local/lib/python3.9/site-packages/numpy/core/getlimits.py:89: UserWarning: The value of the smallest subnormal for <class 'numpy.float32'> type is zero.
  return self._float_to_str(self.smallest_subnormal)
/home/jenkins/.local/lib/python3.9/site-packages/numpy/core/getlimits.py:549: UserWarning: The value of the smallest subnormal for <class 'numpy.float64'> type is zero.
  setattr(self, word, getattr(machar, word).flat[0])
/home/jenkins/.local/lib/python3.9/site-packages/numpy/core/getlimits.py:89: UserWarning: The value of the smallest subnormal for <class 'numpy.float64'> type is zero.
  return self._float_to_str(self.smallest_subnormal)
/home/jenkins/.local/lib/python3.9/site-packages/numpy/core/getlimits.py:549: UserWarning: The value of the smallest subnormal for <class 'numpy.float32'> type is zero.
  setattr(self, word, getattr(machar, word).flat[0])
/home/jenkins/.local/lib/python3.9/site-packages/numpy/core/getlimits.py:89: UserWarning: The value of the smallest subnormal for <class 'numpy.float32'> type is zero.
  return self._float_to_str(self.smallest_subnormal)
/home/jenkins/.local/lib/python3.9/site-packages/numpy/core/getlimits.py:549: UserWarning: The value of the smallest subnormal for <class 'numpy.float64'> type is zero.
  setattr(self, word, getattr(machar, word).flat[0])
/home/jenkins/.local/lib/python3.9/site-packages/numpy/core/getlimits.py:89: UserWarning: The value of the smallest subnormal for <class 'numpy.float64'> type is zero.
  return self._float_to_str(self.smallest_subnormal)
/home/jenkins/.local/lib/python3.9/site-packages/numpy/core/getlimits.py:549: UserWarning: The value of the smallest subnormal for <class 'numpy.float32'> type is zero.
  setattr(self, word, getattr(machar, word).flat[0])
/home/jenkins/.local/lib/python3.9/site-packages/numpy/core/getlimits.py:89: UserWarning: The value of the smallest subnormal for <class 'numpy.float32'> type is zero.
  return self._float_to_str(self.smallest_subnormal)
/home/jenkins/.local/lib/python3.9/site-packages/numpy/core/getlimits.py:549: UserWarning: The value of the smallest subnormal for <class 'numpy.float64'> type is zero.
  setattr(self, word, getattr(machar, word).flat[0])
/home/jenkins/.local/lib/python3.9/site-packages/numpy/core/getlimits.py:89: UserWarning: The value of the smallest subnormal for <class 'numpy.float64'> type is zero.
  return self._float_to_str(self.smallest_subnormal)
/home/jenkins/.local/lib/python3.9/site-packages/numpy/core/getlimits.py:549: UserWarning: The value of the smallest subnormal for <class 'numpy.float32'> type is zero.
  setattr(self, word, getattr(machar, word).flat[0])
/home/jenkins/.local/lib/python3.9/site-packages/numpy/core/getlimits.py:89: UserWarning: The value of the smallest subnormal for <class 'numpy.float32'> type is zero.
  return self._float_to_str(self.smallest_subnormal)
/home/jenkins/.local/lib/python3.9/site-packages/numpy/core/getlimits.py:549: UserWarning: The value of the smallest subnormal for <class 'numpy.float64'> type is zero.
  setattr(self, word, getattr(machar, word).flat[0])
/home/jenkins/.local/lib/python3.9/site-packages/numpy/core/getlimits.py:89: UserWarning: The value of the smallest subnormal for <class 'numpy.float64'> type is zero.
  return self._float_to_str(self.smallest_subnormal)
/home/jenkins/.local/lib/python3.9/site-packages/numpy/core/getlimits.py:549: UserWarning: The value of the smallest subnormal for <class 'numpy.float32'> type is zero.
  setattr(self, word, getattr(machar, word).flat[0])
/home/jenkins/.local/lib/python3.9/site-packages/numpy/core/getlimits.py:89: UserWarning: The value of the smallest subnormal for <class 'numpy.float32'> type is zero.
  return self._float_to_str(self.smallest_subnormal)
2025-07-15 10:13:13,030 - mindformers./output/log[mindformers/tools/register/template.py:84] - WARNING - The input config swap_config is empty.
2025-07-15 10:13:13,031 - mindformers./output/log[mindformers/tools/register/template.py:84] - WARNING - The input config monitor_config is empty.
2025-07-15 10:13:13,031 - mindformers./output/log[mindformers/tools/register/template.py:683] - WARNING - Some configs in yaml are useless for train: ['auto_tune', 'autotune_per_step', 'eval_callbacks', 'filepath_prefix', 'processor', 'remove_redundancy', 'resume_by_last_timestamp_ckpt']
2025-07-15 10:13:13,032 - mindformers./output/log[mindformers/tools/utils.py:166] - INFO - set output path to '/home/jenkins/mindspore/testcases/testcases/tests/st/networks/llm_parallel_feature/deepseekv3/output'
[WARNING] ME(897248:281472980217536,MainProcess):2025-07-15-10:13:13.570.86 [mindspore/context.py:1412] For 'context.set_context', the parameter 'device_target' will be deprecated and removed in a future version. Please use the api mindspore.set_device() instead.
[WARNING] ME(897248:281472980217536,MainProcess):2025-07-15-10:13:13.579.94 [mindspore/context.py:1412] For 'context.set_context', the parameter 'max_device_memory' will be deprecated and removed in a future version. Please use the api mindspore.runtime.set_memory() instead.
[WARNING] ME(897248:281472980217536,MainProcess):2025-07-15-10:13:13.585.30 [mindspore/context.py:1412] For 'context.set_context', the parameter 'max_call_depth' will be deprecated and removed in a future version. Please use the api mindspore.set_recursion_limit() instead.
[WARNING] ME(897248:281472980217536,MainProcess):2025-07-15-10:13:13.586.59 [mindspore/context.py:1412] For 'context.set_context', the parameter 'ascend_config' will be deprecated and removed in a future version. Please use the api mindspore.device_context.ascend.op_precision.precision_mode(),
                                                       mindspore.device_context.ascend.op_precision.op_precision_mode(),
                                                       mindspore.device_context.ascend.op_precision.matmul_allow_hf32(),
                                                       mindspore.device_context.ascend.op_precision.conv_allow_hf32(),
                                                       mindspore.device_context.ascend.op_tuning.op_compile() instead.
[WARNING] ME(897248:281472980217536,MainProcess):2025-07-15-10:13:13.590.37 [mindspore/context.py:921] For 'context.set_context', 'matmul_grad_comm_overlap' parameter is deprecated, and will be removed in the next version, Please use 'grad_matmul_communication_overlap' instead.
[WARNING] ME(897248:281472980217536,MainProcess):2025-07-15-10:13:13.591.79 [mindspore/context.py:1412] For 'context.set_context', the parameter 'memory_optimize_level' will be deprecated and removed in a future version. Please use the api mindspore.runtime.set_memory() instead.
[WARNING] ME(897248:281472980217536,MainProcess):2025-07-15-10:13:13.592.81 [mindspore/context.py:1412] For 'context.set_context', the parameter 'save_graphs' will be deprecated and removed in a future version. Please use the env MS_DEV_SAVE_GRAPHS instead.
[WARNING] ME(897248:281472980217536,MainProcess):2025-07-15-10:13:13.594.08 [mindspore/context.py:1412] For 'context.set_context', the parameter 'save_graphs_path' will be deprecated and removed in a future version. Please use the env MS_DEV_SAVE_GRAPHS_PATH instead.
[WARNING] ME(897248:281472980217536,MainProcess):2025-07-15-10:13:13.598.21 [mindspore/context.py:1412] For 'context.set_context', the parameter 'deterministic' will be deprecated and removed in a future version. Please use the api mindspore.set_deterministic() instead.
[WARNING] ME(897248:281472980217536,MainProcess):2025-07-15-10:13:13.600.82 [mindspore/context.py:1412] For 'context.set_context', the parameter 'mempool_block_size' will be deprecated and removed in a future version. Please use the api mindspore.runtime.set_memory() instead.
[WARNING] DISTRIBUTED(897248,ffff88ffeec0,python):2025-07-15-10:13:13.062.554 [mindspore/ccsrc/distributed/rpc/tcp/tcp_comm.cc:485] Connect] Connection 21 source: 127.0.0.1:36454, destination: 127.0.0.1:7123
[WARNING] DISTRIBUTED(897248,ffff88ffeec0,python):2025-07-15-10:13:13.062.641 [mindspore/ccsrc/distributed/rpc/tcp/tcp_client.cc:76] Connect] Failed to connect to the tcp server : 127.0.0.1:7123, retry to reconnect(1/1)...
2025-07-15 10:13:13,199 - mindformers./output/log[mindformers/tools/register/template.py:84] - WARNING - The input config swap_config is empty.
2025-07-15 10:13:13,200 - mindformers./output/log[mindformers/tools/register/template.py:84] - WARNING - The input config monitor_config is empty.
2025-07-15 10:13:13,200 - mindformers./output/log[mindformers/tools/register/template.py:683] - WARNING - Some configs in yaml are useless for train: ['auto_tune', 'autotune_per_step', 'eval_callbacks', 'filepath_prefix', 'processor', 'remove_redundancy', 'resume_by_last_timestamp_ckpt']
2025-07-15 10:13:13,201 - mindformers./output/log[mindformers/tools/utils.py:166] - INFO - set output path to '/home/jenkins/mindspore/testcases/testcases/tests/st/networks/llm_parallel_feature/deepseekv3/output'
2025-07-15 10:13:13,205 - mindformers./output/log[mindformers/tools/register/template.py:84] - WARNING - The input config swap_config is empty.
2025-07-15 10:13:13,206 - mindformers./output/log[mindformers/tools/register/template.py:84] - WARNING - The input config monitor_config is empty.
2025-07-15 10:13:13,206 - mindformers./output/log[mindformers/tools/register/template.py:683] - WARNING - Some configs in yaml are useless for train: ['auto_tune', 'autotune_per_step', 'eval_callbacks', 'filepath_prefix', 'processor', 'remove_redundancy', 'resume_by_last_timestamp_ckpt']
2025-07-15 10:13:13,207 - mindformers./output/log[mindformers/tools/utils.py:166] - INFO - set output path to '/home/jenkins/mindspore/testcases/testcases/tests/st/networks/llm_parallel_feature/deepseekv3/output'
2025-07-15 10:13:13,209 - mindformers./output/log[mindformers/tools/register/template.py:84] - WARNING - The input config swap_config is empty.
2025-07-15 10:13:13,210 - mindformers./output/log[mindformers/tools/register/template.py:84] - WARNING - The input config monitor_config is empty.
2025-07-15 10:13:13,210 - mindformers./output/log[mindformers/tools/register/template.py:683] - WARNING - Some configs in yaml are useless for train: ['auto_tune', 'autotune_per_step', 'eval_callbacks', 'filepath_prefix', 'processor', 'remove_redundancy', 'resume_by_last_timestamp_ckpt']
2025-07-15 10:13:13,210 - mindformers./output/log[mindformers/tools/utils.py:166] - INFO - set output path to '/home/jenkins/mindspore/testcases/testcases/tests/st/networks/llm_parallel_feature/deepseekv3/output'
2025-07-15 10:13:13,214 - mindformers./output/log[mindformers/tools/register/template.py:84] - WARNING - The input config swap_config is empty.
2025-07-15 10:13:13,215 - mindformers./output/log[mindformers/tools/register/template.py:84] - WARNING - The input config monitor_config is empty.
2025-07-15 10:13:13,215 - mindformers./output/log[mindformers/tools/register/template.py:683] - WARNING - Some configs in yaml are useless for train: ['auto_tune', 'autotune_per_step', 'eval_callbacks', 'filepath_prefix', 'processor', 'remove_redundancy', 'resume_by_last_timestamp_ckpt']
2025-07-15 10:13:13,216 - mindformers./output/log[mindformers/tools/utils.py:166] - INFO - set output path to '/home/jenkins/mindspore/testcases/testcases/tests/st/networks/llm_parallel_feature/deepseekv3/output'
2025-07-15 10:13:13,217 - mindformers./output/log[mindformers/tools/register/template.py:84] - WARNING - The input config swap_config is empty.
2025-07-15 10:13:13,217 - mindformers./output/log[mindformers/tools/register/template.py:84] - WARNING - The input config swap_config is empty.
[WARNING] ME(897230:281473766584000,MainProcess):2025-07-15-10:13:13.217.787 [mindspore/context.py:1412] For 'context.set_context', the parameter 'device_target' will be deprecated and removed in a future version. Please use the api mindspore.set_device() instead.
2025-07-15 10:13:13,218 - mindformers./output/log[mindformers/tools/register/template.py:84] - WARNING - The input config monitor_config is empty.
2025-07-15 10:13:13,218 - mindformers./output/log[mindformers/tools/register/template.py:683] - WARNING - Some configs in yaml are useless for train: ['auto_tune', 'autotune_per_step', 'eval_callbacks', 'filepath_prefix', 'processor', 'remove_redundancy', 'resume_by_last_timestamp_ckpt']
2025-07-15 10:13:13,218 - mindformers./output/log[mindformers/tools/register/template.py:84] - WARNING - The input config monitor_config is empty.
2025-07-15 10:13:13,218 - mindformers./output/log[mindformers/tools/register/template.py:683] - WARNING - Some configs in yaml are useless for train: ['auto_tune', 'autotune_per_step', 'eval_callbacks', 'filepath_prefix', 'processor', 'remove_redundancy', 'resume_by_last_timestamp_ckpt']
[WARNING] ME(897230:281473766584000,MainProcess):2025-07-15-10:13:13.218.522 [mindspore/context.py:1412] For 'context.set_context', the parameter 'max_device_memory' will be deprecated and removed in a future version. Please use the api mindspore.runtime.set_memory() instead.
2025-07-15 10:13:13,218 - mindformers./output/log[mindformers/tools/utils.py:166] - INFO - set output path to '/home/jenkins/mindspore/testcases/testcases/tests/st/networks/llm_parallel_feature/deepseekv3/output'
[WARNING] ME(897230:281473766584000,MainProcess):2025-07-15-10:13:13.218.916 [mindspore/context.py:1412] For 'context.set_context', the parameter 'max_call_depth' will be deprecated and removed in a future version. Please use the api mindspore.set_recursion_limit() instead.
[WARNING] ME(897230:281473766584000,MainProcess):2025-07-15-10:13:13.219.030 [mindspore/context.py:1412] For 'context.set_context', the parameter 'ascend_config' will be deprecated and removed in a future version. Please use the api mindspore.device_context.ascend.op_precision.precision_mode(),
                                                       mindspore.device_context.ascend.op_precision.op_precision_mode(),
                                                       mindspore.device_context.ascend.op_precision.matmul_allow_hf32(),
                                                       mindspore.device_context.ascend.op_precision.conv_allow_hf32(),
                                                       mindspore.device_context.ascend.op_tuning.op_compile() instead.
2025-07-15 10:13:13,219 - mindformers./output/log[mindformers/tools/utils.py:166] - INFO - set output path to '/home/jenkins/mindspore/testcases/testcases/tests/st/networks/llm_parallel_feature/deepseekv3/output'
[WARNING] ME(897230:281473766584000,MainProcess):2025-07-15-10:13:13.219.324 [mindspore/context.py:921] For 'context.set_context', 'matmul_grad_comm_overlap' parameter is deprecated, and will be removed in the next version, Please use 'grad_matmul_communication_overlap' instead.
[WARNING] ME(897230:281473766584000,MainProcess):2025-07-15-10:13:13.219.456 [mindspore/context.py:1412] For 'context.set_context', the parameter 'memory_optimize_level' will be deprecated and removed in a future version. Please use the api mindspore.runtime.set_memory() instead.
[WARNING] ME(897230:281473766584000,MainProcess):2025-07-15-10:13:13.219.551 [mindspore/context.py:1412] For 'context.set_context', the parameter 'save_graphs' will be deprecated and removed in a future version. Please use the env MS_DEV_SAVE_GRAPHS instead.
[WARNING] ME(897230:281473766584000,MainProcess):2025-07-15-10:13:13.219.663 [mindspore/context.py:1412] For 'context.set_context', the parameter 'save_graphs_path' will be deprecated and removed in a future version. Please use the env MS_DEV_SAVE_GRAPHS_PATH instead.
[WARNING] ME(897230:281473766584000,MainProcess):2025-07-15-10:13:13.219.842 [mindspore/context.py:1412] For 'context.set_context', the parameter 'deterministic' will be deprecated and removed in a future version. Please use the api mindspore.set_deterministic() instead.
[WARNING] ME(897230:281473766584000,MainProcess):2025-07-15-10:13:13.220.044 [mindspore/context.py:1412] For 'context.set_context', the parameter 'mempool_block_size' will be deprecated and removed in a future version. Please use the api mindspore.runtime.set_memory() instead.
2025-07-15 10:13:13,220 - mindformers./output/log[mindformers/tools/register/template.py:84] - WARNING - The input config swap_config is empty.
2025-07-15 10:13:13,221 - mindformers./output/log[mindformers/tools/register/template.py:84] - WARNING - The input config monitor_config is empty.
2025-07-15 10:13:13,221 - mindformers./output/log[mindformers/tools/register/template.py:683] - WARNING - Some configs in yaml are useless for train: ['auto_tune', 'autotune_per_step', 'eval_callbacks', 'filepath_prefix', 'processor', 'remove_redundancy', 'resume_by_last_timestamp_ckpt']
[WARNING] DISTRIBUTED(897230,ffffb7deeec0,python):2025-07-15-10:13:13.221.909 [mindspore/ccsrc/distributed/rpc/tcp/tcp_comm.cc:485] Connect] Connection 21 source: 127.0.0.1:36460, destination: 127.0.0.1:7123
[WARNING] DISTRIBUTED(897230,ffffb7deeec0,python):2025-07-15-10:13:13.221.982 [mindspore/ccsrc/distributed/rpc/tcp/tcp_client.cc:76] Connect] Failed to connect to the tcp server : 127.0.0.1:7123, retry to reconnect(1/1)...
2025-07-15 10:13:13,222 - mindformers./output/log[mindformers/tools/utils.py:166] - INFO - set output path to '/home/jenkins/mindspore/testcases/testcases/tests/st/networks/llm_parallel_feature/deepseekv3/output'
[WARNING] ME(897226:281473558900416,MainProcess):2025-07-15-10:13:13.223.967 [mindspore/context.py:1412] For 'context.set_context', the parameter 'device_target' will be deprecated and removed in a future version. Please use the api mindspore.set_device() instead.
[WARNING] ME(897226:281473558900416,MainProcess):2025-07-15-10:13:13.224.725 [mindspore/context.py:1412] For 'context.set_context', the parameter 'max_device_memory' will be deprecated and removed in a future version. Please use the api mindspore.runtime.set_memory() instead.
[WARNING] ME(897226:281473558900416,MainProcess):2025-07-15-10:13:13.225.137 [mindspore/context.py:1412] For 'context.set_context', the parameter 'max_call_depth' will be deprecated and removed in a future version. Please use the api mindspore.set_recursion_limit() instead.
[WARNING] ME(897226:281473558900416,MainProcess):2025-07-15-10:13:13.225.252 [mindspore/context.py:1412] For 'context.set_context', the parameter 'ascend_config' will be deprecated and removed in a future version. Please use the api mindspore.device_context.ascend.op_precision.precision_mode(),
                                                       mindspore.device_context.ascend.op_precision.op_precision_mode(),
                                                       mindspore.device_context.ascend.op_precision.matmul_allow_hf32(),
                                                       mindspore.device_context.ascend.op_precision.conv_allow_hf32(),
                                                       mindspore.device_context.ascend.op_tuning.op_compile() instead.
[WARNING] ME(897226:281473558900416,MainProcess):2025-07-15-10:13:13.225.561 [mindspore/context.py:921] For 'context.set_context', 'matmul_grad_comm_overlap' parameter is deprecated, and will be removed in the next version, Please use 'grad_matmul_communication_overlap' instead.
[WARNING] ME(897226:281473558900416,MainProcess):2025-07-15-10:13:13.225.694 [mindspore/context.py:1412] For 'context.set_context', the parameter 'memory_optimize_level' will be deprecated and removed in a future version. Please use the api mindspore.runtime.set_memory() instead.
[WARNING] ME(897226:281473558900416,MainProcess):2025-07-15-10:13:13.225.792 [mindspore/context.py:1412] For 'context.set_context', the parameter 'save_graphs' will be deprecated and removed in a future version. Please use the env MS_DEV_SAVE_GRAPHS instead.
[WARNING] ME(897226:281473558900416,MainProcess):2025-07-15-10:13:13.225.907 [mindspore/context.py:1412] For 'context.set_context', the parameter 'save_graphs_path' will be deprecated and removed in a future version. Please use the env MS_DEV_SAVE_GRAPHS_PATH instead.
[WARNING] ME(897226:281473558900416,MainProcess):2025-07-15-10:13:13.226.081 [mindspore/context.py:1412] For 'context.set_context', the parameter 'deterministic' will be deprecated and removed in a future version. Please use the api mindspore.set_deterministic() instead.
[WARNING] ME(897226:281473558900416,MainProcess):2025-07-15-10:13:13.226.280 [mindspore/context.py:1412] For 'context.set_context', the parameter 'mempool_block_size' will be deprecated and removed in a future version. Please use the api mindspore.runtime.set_memory() instead.
[WARNING] DISTRIBUTED(897226,ffffab7deec0,python):2025-07-15-10:13:13.228.023 [mindspore/ccsrc/distributed/rpc/tcp/tcp_comm.cc:485] Connect] Connection 21 source: 127.0.0.1:36462, destination: 127.0.0.1:7123
[WARNING] DISTRIBUTED(897226,ffffab7deec0,python):2025-07-15-10:13:13.228.095 [mindspore/ccsrc/distributed/rpc/tcp/tcp_client.cc:76] Connect] Failed to connect to the tcp server : 127.0.0.1:7123, retry to reconnect(1/1)...
[WARNING] ME(897218:281473019276992,MainProcess):2025-07-15-10:13:13.228.750 [mindspore/context.py:1412] For 'context.set_context', the parameter 'device_target' will be deprecated and removed in a future version. Please use the api mindspore.set_device() instead.
[WARNING] ME(897218:281473019276992,MainProcess):2025-07-15-10:13:13.229.485 [mindspore/context.py:1412] For 'context.set_context', the parameter 'max_device_memory' will be deprecated and removed in a future version. Please use the api mindspore.runtime.set_memory() instead.
[WARNING] ME(897218:281473019276992,MainProcess):2025-07-15-10:13:13.229.902 [mindspore/context.py:1412] For 'context.set_context', the parameter 'max_call_depth' will be deprecated and removed in a future version. Please use the api mindspore.set_recursion_limit() instead.
[WARNING] ME(897218:281473019276992,MainProcess):2025-07-15-10:13:13.230.018 [mindspore/context.py:1412] For 'context.set_context', the parameter 'ascend_config' will be deprecated and removed in a future version. Please use the api mindspore.device_context.ascend.op_precision.precision_mode(),
                                                       mindspore.device_context.ascend.op_precision.op_precision_mode(),
                                                       mindspore.device_context.ascend.op_precision.matmul_allow_hf32(),
                                                       mindspore.device_context.ascend.op_precision.conv_allow_hf32(),
                                                       mindspore.device_context.ascend.op_tuning.op_compile() instead.
[WARNING] ME(897218:281473019276992,MainProcess):2025-07-15-10:13:13.230.323 [mindspore/context.py:921] For 'context.set_context', 'matmul_grad_comm_overlap' parameter is deprecated, and will be removed in the next version, Please use 'grad_matmul_communication_overlap' instead.
[WARNING] ME(897218:281473019276992,MainProcess):2025-07-15-10:13:13.230.469 [mindspore/context.py:1412] For 'context.set_context', the parameter 'memory_optimize_level' will be deprecated and removed in a future version. Please use the api mindspore.runtime.set_memory() instead.
[WARNING] ME(897218:281473019276992,MainProcess):2025-07-15-10:13:13.230.571 [mindspore/context.py:1412] For 'context.set_context', the parameter 'save_graphs' will be deprecated and removed in a future version. Please use the env MS_DEV_SAVE_GRAPHS instead.
[WARNING] ME(897218:281473019276992,MainProcess):2025-07-15-10:13:13.230.685 [mindspore/context.py:1412] For 'context.set_context', the parameter 'save_graphs_path' will be deprecated and removed in a future version. Please use the env MS_DEV_SAVE_GRAPHS_PATH instead.
[WARNING] ME(897218:281473019276992,MainProcess):2025-07-15-10:13:13.230.866 [mindspore/context.py:1412] For 'context.set_context', the parameter 'deterministic' will be deprecated and removed in a future version. Please use the api mindspore.set_deterministic() instead.
[WARNING] ME(897218:281473019276992,MainProcess):2025-07-15-10:13:13.231.076 [mindspore/context.py:1412] For 'context.set_context', the parameter 'mempool_block_size' will be deprecated and removed in a future version. Please use the api mindspore.runtime.set_memory() instead.
[WARNING] DISTRIBUTED(897218,ffff8b53eec0,python):2025-07-15-10:13:13.232.970 [mindspore/ccsrc/distributed/rpc/tcp/tcp_comm.cc:485] Connect] Connection 21 source: 127.0.0.1:36478, destination: 127.0.0.1:7123
[WARNING] DISTRIBUTED(897218,ffff8b53eec0,python):2025-07-15-10:13:13.233.041 [mindspore/ccsrc/distributed/rpc/tcp/tcp_client.cc:76] Connect] Failed to connect to the tcp server : 127.0.0.1:7123, retry to reconnect(1/1)...
[WARNING] ME(897234:281473481830080,MainProcess):2025-07-15-10:13:13.233.377 [mindspore/context.py:1412] For 'context.set_context', the parameter 'device_target' will be deprecated and removed in a future version. Please use the api mindspore.set_device() instead.
[WARNING] ME(897234:281473481830080,MainProcess):2025-07-15-10:13:13.234.128 [mindspore/context.py:1412] For 'context.set_context', the parameter 'max_device_memory' will be deprecated and removed in a future version. Please use the api mindspore.runtime.set_memory() instead.
[WARNING] ME(897234:281473481830080,MainProcess):2025-07-15-10:13:13.234.564 [mindspore/context.py:1412] For 'context.set_context', the parameter 'max_call_depth' will be deprecated and removed in a future version. Please use the api mindspore.set_recursion_limit() instead.
[WARNING] ME(897234:281473481830080,MainProcess):2025-07-15-10:13:13.234.679 [mindspore/context.py:1412] For 'context.set_context', the parameter 'ascend_config' will be deprecated and removed in a future version. Please use the api mindspore.device_context.ascend.op_precision.precision_mode(),
                                                       mindspore.device_context.ascend.op_precision.op_precision_mode(),
                                                       mindspore.device_context.ascend.op_precision.matmul_allow_hf32(),
                                                       mindspore.device_context.ascend.op_precision.conv_allow_hf32(),
                                                       mindspore.device_context.ascend.op_tuning.op_compile() instead.
[WARNING] ME(897234:281473481830080,MainProcess):2025-07-15-10:13:13.234.981 [mindspore/context.py:921] For 'context.set_context', 'matmul_grad_comm_overlap' parameter is deprecated, and will be removed in the next version, Please use 'grad_matmul_communication_overlap' instead.
[WARNING] ME(897234:281473481830080,MainProcess):2025-07-15-10:13:13.235.111 [mindspore/context.py:1412] For 'context.set_context', the parameter 'memory_optimize_level' will be deprecated and removed in a future version. Please use the api mindspore.runtime.set_memory() instead.
[WARNING] ME(897234:281473481830080,MainProcess):2025-07-15-10:13:13.235.203 [mindspore/context.py:1412] For 'context.set_context', the parameter 'save_graphs' will be deprecated and removed in a future version. Please use the env MS_DEV_SAVE_GRAPHS instead.
[WARNING] ME(897234:281473481830080,MainProcess):2025-07-15-10:13:13.235.312 [mindspore/context.py:1412] For 'context.set_context', the parameter 'save_graphs_path' will be deprecated and removed in a future version. Please use the env MS_DEV_SAVE_GRAPHS_PATH instead.
[WARNING] ME(897234:281473481830080,MainProcess):2025-07-15-10:13:13.235.488 [mindspore/context.py:1412] For 'context.set_context', the parameter 'deterministic' will be deprecated and removed in a future version. Please use the api mindspore.set_deterministic() instead.
[WARNING] ME(897234:281473481830080,MainProcess):2025-07-15-10:13:13.235.704 [mindspore/context.py:1412] For 'context.set_context', the parameter 'mempool_block_size' will be deprecated and removed in a future version. Please use the api mindspore.runtime.set_memory() instead.
[WARNING] ME(897238:281473655107264,MainProcess):2025-07-15-10:13:13.236.148 [mindspore/context.py:1412] For 'context.set_context', the parameter 'device_target' will be deprecated and removed in a future version. Please use the api mindspore.set_device() instead.
[WARNING] ME(897214:281472966454976,MainProcess):2025-07-15-10:13:13.236.351 [mindspore/context.py:1412] For 'context.set_context', the parameter 'device_target' will be deprecated and removed in a future version. Please use the api mindspore.set_device() instead.
[WARNING] ME(897238:281473655107264,MainProcess):2025-07-15-10:13:13.236.909 [mindspore/context.py:1412] For 'context.set_context', the parameter 'max_device_memory' will be deprecated and removed in a future version. Please use the api mindspore.runtime.set_memory() instead.
[WARNING] ME(897214:281472966454976,MainProcess):2025-07-15-10:13:13.237.121 [mindspore/context.py:1412] For 'context.set_context', the parameter 'max_device_memory' will be deprecated and removed in a future version. Please use the api mindspore.runtime.set_memory() instead.
[WARNING] ME(897238:281473655107264,MainProcess):2025-07-15-10:13:13.237.326 [mindspore/context.py:1412] For 'context.set_context', the parameter 'max_call_depth' will be deprecated and removed in a future version. Please use the api mindspore.set_recursion_limit() instead.
[WARNING] ME(897238:281473655107264,MainProcess):2025-07-15-10:13:13.237.443 [mindspore/context.py:1412] For 'context.set_context', the parameter 'ascend_config' will be deprecated and removed in a future version. Please use the api mindspore.device_context.ascend.op_precision.precision_mode(),
                                                       mindspore.device_context.ascend.op_precision.op_precision_mode(),
                                                       mindspore.device_context.ascend.op_precision.matmul_allow_hf32(),
                                                       mindspore.device_context.ascend.op_precision.conv_allow_hf32(),
                                                       mindspore.device_context.ascend.op_tuning.op_compile() instead.
[WARNING] ME(897214:281472966454976,MainProcess):2025-07-15-10:13:13.237.541 [mindspore/context.py:1412] For 'context.set_context', the parameter 'max_call_depth' will be deprecated and removed in a future version. Please use the api mindspore.set_recursion_limit() instead.
[WARNING] DISTRIBUTED(897234,ffffa6e5eec0,python):2025-07-15-10:13:13.237.673 [mindspore/ccsrc/distributed/rpc/tcp/tcp_comm.cc:485] Connect] Connection 21 source: 127.0.0.1:36488, destination: 127.0.0.1:7123
[WARNING] ME(897214:281472966454976,MainProcess):2025-07-15-10:13:13.237.663 [mindspore/context.py:1412] For 'context.set_context', the parameter 'ascend_config' will be deprecated and removed in a future version. Please use the api mindspore.device_context.ascend.op_precision.precision_mode(),
                                                       mindspore.device_context.ascend.op_precision.op_precision_mode(),
                                                       mindspore.device_context.ascend.op_precision.matmul_allow_hf32(),
                                                       mindspore.device_context.ascend.op_precision.conv_allow_hf32(),
                                                       mindspore.device_context.ascend.op_tuning.op_compile() instead.
[WARNING] DISTRIBUTED(897234,ffffa6e5eec0,python):2025-07-15-10:13:13.237.741 [mindspore/ccsrc/distributed/rpc/tcp/tcp_client.cc:76] Connect] Failed to connect to the tcp server : 127.0.0.1:7123, retry to reconnect(1/1)...
[WARNING] ME(897238:281473655107264,MainProcess):2025-07-15-10:13:13.237.750 [mindspore/context.py:921] For 'context.set_context', 'matmul_grad_comm_overlap' parameter is deprecated, and will be removed in the next version, Please use 'grad_matmul_communication_overlap' instead.
[WARNING] ME(897238:281473655107264,MainProcess):2025-07-15-10:13:13.237.885 [mindspore/context.py:1412] For 'context.set_context', the parameter 'memory_optimize_level' will be deprecated and removed in a future version. Please use the api mindspore.runtime.set_memory() instead.
[WARNING] ME(897238:281473655107264,MainProcess):2025-07-15-10:13:13.237.984 [mindspore/context.py:1412] For 'context.set_context', the parameter 'save_graphs' will be deprecated and removed in a future version. Please use the env MS_DEV_SAVE_GRAPHS instead.
[WARNING] ME(897214:281472966454976,MainProcess):2025-07-15-10:13:13.237.983 [mindspore/context.py:921] For 'context.set_context', 'matmul_grad_comm_overlap' parameter is deprecated, and will be removed in the next version, Please use 'grad_matmul_communication_overlap' instead.
[WARNING] ME(897238:281473655107264,MainProcess):2025-07-15-10:13:13.238.099 [mindspore/context.py:1412] For 'context.set_context', the parameter 'save_graphs_path' will be deprecated and removed in a future version. Please use the env MS_DEV_SAVE_GRAPHS_PATH instead.
[WARNING] ME(897214:281472966454976,MainProcess):2025-07-15-10:13:13.238.123 [mindspore/context.py:1412] For 'context.set_context', the parameter 'memory_optimize_level' will be deprecated and removed in a future version. Please use the api mindspore.runtime.set_memory() instead.
[WARNING] ME(897214:281472966454976,MainProcess):2025-07-15-10:13:13.238.223 [mindspore/context.py:1412] For 'context.set_context', the parameter 'save_graphs' will be deprecated and removed in a future version. Please use the env MS_DEV_SAVE_GRAPHS instead.
[WARNING] ME(897238:281473655107264,MainProcess):2025-07-15-10:13:13.238.283 [mindspore/context.py:1412] For 'context.set_context', the parameter 'deterministic' will be deprecated and removed in a future version. Please use the api mindspore.set_deterministic() instead.
[WARNING] ME(897214:281472966454976,MainProcess):2025-07-15-10:13:13.238.338 [mindspore/context.py:1412] For 'context.set_context', the parameter 'save_graphs_path' will be deprecated and removed in a future version. Please use the env MS_DEV_SAVE_GRAPHS_PATH instead.
[WARNING] ME(897238:281473655107264,MainProcess):2025-07-15-10:13:13.238.498 [mindspore/context.py:1412] For 'context.set_context', the parameter 'mempool_block_size' will be deprecated and removed in a future version. Please use the api mindspore.runtime.set_memory() instead.
[WARNING] ME(897214:281472966454976,MainProcess):2025-07-15-10:13:13.238.533 [mindspore/context.py:1412] For 'context.set_context', the parameter 'deterministic' will be deprecated and removed in a future version. Please use the api mindspore.set_deterministic() instead.
[WARNING] ME(897214:281472966454976,MainProcess):2025-07-15-10:13:13.238.761 [mindspore/context.py:1412] For 'context.set_context', the parameter 'mempool_block_size' will be deprecated and removed in a future version. Please use the api mindspore.runtime.set_memory() instead.
[WARNING] ME(897222:281472895020736,MainProcess):2025-07-15-10:13:13.239.189 [mindspore/context.py:1412] For 'context.set_context', the parameter 'device_target' will be deprecated and removed in a future version. Please use the api mindspore.set_device() instead.
[WARNING] ME(897222:281472895020736,MainProcess):2025-07-15-10:13:13.239.927 [mindspore/context.py:1412] For 'context.set_context', the parameter 'max_device_memory' will be deprecated and removed in a future version. Please use the api mindspore.runtime.set_memory() instead.
[WARNING] ME(897222:281472895020736,MainProcess):2025-07-15-10:13:13.240.339 [mindspore/context.py:1412] For 'context.set_context', the parameter 'max_call_depth' will be deprecated and removed in a future version. Please use the api mindspore.set_recursion_limit() instead.
[WARNING] DISTRIBUTED(897238,ffffb139eec0,python):2025-07-15-10:13:13.240.408 [mindspore/ccsrc/distributed/rpc/tcp/tcp_comm.cc:485] Connect] Connection 21 source: 127.0.0.1:36502, destination: 127.0.0.1:7123
[WARNING] DISTRIBUTED(897238,ffffb139eec0,python):2025-07-15-10:13:13.240.479 [mindspore/ccsrc/distributed/rpc/tcp/tcp_client.cc:76] Connect] Failed to connect to the tcp server : 127.0.0.1:7123, retry to reconnect(1/1)...
[WARNING] ME(897222:281472895020736,MainProcess):2025-07-15-10:13:13.240.448 [mindspore/context.py:1412] For 'context.set_context', the parameter 'ascend_config' will be deprecated and removed in a future version. Please use the api mindspore.device_context.ascend.op_precision.precision_mode(),
                                                       mindspore.device_context.ascend.op_precision.op_precision_mode(),
                                                       mindspore.device_context.ascend.op_precision.matmul_allow_hf32(),
                                                       mindspore.device_context.ascend.op_precision.conv_allow_hf32(),
                                                       mindspore.device_context.ascend.op_tuning.op_compile() instead.
[WARNING] ME(897222:281472895020736,MainProcess):2025-07-15-10:13:13.240.754 [mindspore/context.py:921] For 'context.set_context', 'matmul_grad_comm_overlap' parameter is deprecated, and will be removed in the next version, Please use 'grad_matmul_communication_overlap' instead.
[WARNING] DISTRIBUTED(897214,ffff882deec0,python):2025-07-15-10:13:13.240.815 [mindspore/ccsrc/distributed/rpc/tcp/tcp_comm.cc:485] Connect] Connection 21 source: 127.0.0.1:36510, destination: 127.0.0.1:7123
[WARNING] DISTRIBUTED(897214,ffff882deec0,python):2025-07-15-10:13:13.240.891 [mindspore/ccsrc/distributed/rpc/tcp/tcp_client.cc:76] Connect] Failed to connect to the tcp server : 127.0.0.1:7123, retry to reconnect(1/1)...
[WARNING] ME(897222:281472895020736,MainProcess):2025-07-15-10:13:13.240.887 [mindspore/context.py:1412] For 'context.set_context', the parameter 'memory_optimize_level' will be deprecated and removed in a future version. Please use the api mindspore.runtime.set_memory() instead.
[WARNING] ME(897222:281472895020736,MainProcess):2025-07-15-10:13:13.240.981 [mindspore/context.py:1412] For 'context.set_context', the parameter 'save_graphs' will be deprecated and removed in a future version. Please use the env MS_DEV_SAVE_GRAPHS instead.
[WARNING] ME(897222:281472895020736,MainProcess):2025-07-15-10:13:13.241.092 [mindspore/context.py:1412] For 'context.set_context', the parameter 'save_graphs_path' will be deprecated and removed in a future version. Please use the env MS_DEV_SAVE_GRAPHS_PATH instead.
[WARNING] ME(897222:281472895020736,MainProcess):2025-07-15-10:13:13.241.260 [mindspore/context.py:1412] For 'context.set_context', the parameter 'deterministic' will be deprecated and removed in a future version. Please use the api mindspore.set_deterministic() instead.
[WARNING] ME(897222:281472895020736,MainProcess):2025-07-15-10:13:13.241.468 [mindspore/context.py:1412] For 'context.set_context', the parameter 'mempool_block_size' will be deprecated and removed in a future version. Please use the api mindspore.runtime.set_memory() instead.
[WARNING] DISTRIBUTED(897222,ffff83ebeec0,python):2025-07-15-10:13:13.243.396 [mindspore/ccsrc/distributed/rpc/tcp/tcp_comm.cc:485] Connect] Connection 21 source: 127.0.0.1:36524, destination: 127.0.0.1:7123
[WARNING] DISTRIBUTED(897222,ffff83ebeec0,python):2025-07-15-10:13:13.243.465 [mindspore/ccsrc/distributed/rpc/tcp/tcp_client.cc:76] Connect] Failed to connect to the tcp server : 127.0.0.1:7123, retry to reconnect(1/1)...
[WARNING] DISTRIBUTED(897248,ffff88ffeec0,python):2025-07-15-10:13:13.562.770 [mindspore/ccsrc/distributed/cluster/topology/compute_graph_node.cc:173] Register] Failed to connect to the meta server node url: 127.0.0.1:7123
[WARNING] DISTRIBUTED(897248,ffff88ffeec0,python):2025-07-15-10:13:13.562.821 [mindspore/ccsrc/distributed/cluster/topology/compute_graph_node.cc:363] ReconnectWithTimeoutWindow] Failed to register and try to reconnect to the meta server.
[WARNING] DISTRIBUTED(897230,ffffb7deeec0,python):2025-07-15-10:13:13.722.087 [mindspore/ccsrc/distributed/cluster/topology/compute_graph_node.cc:173] Register] Failed to connect to the meta server node url: 127.0.0.1:7123
[WARNING] DISTRIBUTED(897230,ffffb7deeec0,python):2025-07-15-10:13:13.722.129 [mindspore/ccsrc/distributed/cluster/topology/compute_graph_node.cc:363] ReconnectWithTimeoutWindow] Failed to register and try to reconnect to the meta server.
[WARNING] DISTRIBUTED(897226,ffffab7deec0,python):2025-07-15-10:13:13.728.201 [mindspore/ccsrc/distributed/cluster/topology/compute_graph_node.cc:173] Register] Failed to connect to the meta server node url: 127.0.0.1:7123
[WARNING] DISTRIBUTED(897226,ffffab7deec0,python):2025-07-15-10:13:13.728.242 [mindspore/ccsrc/distributed/cluster/topology/compute_graph_node.cc:363] ReconnectWithTimeoutWindow] Failed to register and try to reconnect to the meta server.
[WARNING] DISTRIBUTED(897218,ffff8b53eec0,python):2025-07-15-10:13:13.733.148 [mindspore/ccsrc/distributed/cluster/topology/compute_graph_node.cc:173] Register] Failed to connect to the meta server node url: 127.0.0.1:7123
[WARNING] DISTRIBUTED(897218,ffff8b53eec0,python):2025-07-15-10:13:13.733.185 [mindspore/ccsrc/distributed/cluster/topology/compute_graph_node.cc:363] ReconnectWithTimeoutWindow] Failed to register and try to reconnect to the meta server.
[WARNING] DISTRIBUTED(897234,ffffa6e5eec0,python):2025-07-15-10:13:13.737.851 [mindspore/ccsrc/distributed/cluster/topology/compute_graph_node.cc:173] Register] Failed to connect to the meta server node url: 127.0.0.1:7123
[WARNING] DISTRIBUTED(897234,ffffa6e5eec0,python):2025-07-15-10:13:13.737.889 [mindspore/ccsrc/distributed/cluster/topology/compute_graph_node.cc:363] ReconnectWithTimeoutWindow] Failed to register and try to reconnect to the meta server.
[WARNING] DISTRIBUTED(897238,ffffb139eec0,python):2025-07-15-10:13:13.740.585 [mindspore/ccsrc/distributed/cluster/topology/compute_graph_node.cc:173] Register] Failed to connect to the meta server node url: 127.0.0.1:7123
[WARNING] DISTRIBUTED(897238,ffffb139eec0,python):2025-07-15-10:13:13.740.623 [mindspore/ccsrc/distributed/cluster/topology/compute_graph_node.cc:363] ReconnectWithTimeoutWindow] Failed to register and try to reconnect to the meta server.
[WARNING] DISTRIBUTED(897214,ffff882deec0,python):2025-07-15-10:13:13.741.002 [mindspore/ccsrc/distributed/cluster/topology/compute_graph_node.cc:173] Register] Failed to connect to the meta server node url: 127.0.0.1:7123
[WARNING] DISTRIBUTED(897214,ffff882deec0,python):2025-07-15-10:13:13.741.044 [mindspore/ccsrc/distributed/cluster/topology/compute_graph_node.cc:363] ReconnectWithTimeoutWindow] Failed to register and try to reconnect to the meta server.
[WARNING] DISTRIBUTED(897222,ffff83ebeec0,python):2025-07-15-10:13:13.743.570 [mindspore/ccsrc/distributed/cluster/topology/compute_graph_node.cc:173] Register] Failed to connect to the meta server node url: 127.0.0.1:7123
[WARNING] DISTRIBUTED(897222,ffff83ebeec0,python):2025-07-15-10:13:13.743.605 [mindspore/ccsrc/distributed/cluster/topology/compute_graph_node.cc:363] ReconnectWithTimeoutWindow] Failed to register and try to reconnect to the meta server.
[WARNING] DISTRIBUTED(897248,ffff88ffeec0,python):2025-07-15-10:13:14.063.189 [mindspore/ccsrc/distributed/rpc/tcp/tcp_comm.cc:485] Connect] Connection 22 source: 127.0.0.1:36540, destination: 127.0.0.1:7123
[WARNING] DISTRIBUTED(897248,ffff88ffeec0,python):2025-07-15-10:13:14.063.240 [mindspore/ccsrc/distributed/rpc/tcp/tcp_comm.cc:494] Connect] Waiting for the state of the connection to 127.0.0.1:7123 to be connected...Retry number: 1
[WARNING] DISTRIBUTED(897248,ffff0465efa0,python):2025-07-15-10:13:14.063.238 [mindspore/ccsrc/distributed/rpc/tcp/tcp_comm.cc:79] ConnectedEventHandler] Connection from 127.0.0.1:36540 to 127.0.0.1:7123 is successfully created. System errno: Success
[WARNING] DISTRIBUTED(897230,ffffb7deeec0,python):2025-07-15-10:13:14.222.406 [mindspore/ccsrc/distributed/rpc/tcp/tcp_comm.cc:485] Connect] Connection 22 source: 127.0.0.1:36542, destination: 127.0.0.1:7123
[WARNING] DISTRIBUTED(897230,ffffb7deeec0,python):2025-07-15-10:13:14.222.464 [mindspore/ccsrc/distributed/rpc/tcp/tcp_comm.cc:494] Connect] Waiting for the state of the connection to 127.0.0.1:7123 to be connected...Retry number: 1
[WARNING] DISTRIBUTED(897230,ffff333cefa0,python):2025-07-15-10:13:14.222.487 [mindspore/ccsrc/distributed/rpc/tcp/tcp_comm.cc:79] ConnectedEventHandler] Connection from 127.0.0.1:36542 to 127.0.0.1:7123 is successfully created. System errno: Success
[WARNING] DISTRIBUTED(897226,ffffab7deec0,python):2025-07-15-10:13:14.228.460 [mindspore/ccsrc/distributed/rpc/tcp/tcp_comm.cc:485] Connect] Connection 22 source: 127.0.0.1:36548, destination: 127.0.0.1:7123
[WARNING] DISTRIBUTED(897226,ffff26ddefa0,python):2025-07-15-10:13:14.228.489 [mindspore/ccsrc/distributed/rpc/tcp/tcp_comm.cc:79] ConnectedEventHandler] Connection from 127.0.0.1:36548 to 127.0.0.1:7123 is successfully created. System errno: Success
[WARNING] DISTRIBUTED(897226,ffffab7deec0,python):2025-07-15-10:13:14.228.501 [mindspore/ccsrc/distributed/rpc/tcp/tcp_comm.cc:494] Connect] Waiting for the state of the connection to 127.0.0.1:7123 to be connected...Retry number: 1
[WARNING] DISTRIBUTED(897218,ffff8b53eec0,python):2025-07-15-10:13:14.233.450 [mindspore/ccsrc/distributed/rpc/tcp/tcp_comm.cc:485] Connect] Connection 22 source: 127.0.0.1:36552, destination: 127.0.0.1:7123
[WARNING] DISTRIBUTED(897218,ffff8b53eec0,python):2025-07-15-10:13:14.233.498 [mindspore/ccsrc/distributed/rpc/tcp/tcp_comm.cc:494] Connect] Waiting for the state of the connection to 127.0.0.1:7123 to be connected...Retry number: 1
[WARNING] DISTRIBUTED(897218,ffff06b0efa0,python):2025-07-15-10:13:14.233.505 [mindspore/ccsrc/distributed/rpc/tcp/tcp_comm.cc:79] ConnectedEventHandler] Connection from 127.0.0.1:36552 to 127.0.0.1:7123 is successfully created. System errno: Success
[WARNING] DISTRIBUTED(897234,ffffa6e5eec0,python):2025-07-15-10:13:14.238.340 [mindspore/ccsrc/distributed/rpc/tcp/tcp_comm.cc:485] Connect] Connection 22 source: 127.0.0.1:36558, destination: 127.0.0.1:7123
[WARNING] DISTRIBUTED(897234,ffff2246efa0,python):2025-07-15-10:13:14.238.344 [mindspore/ccsrc/distributed/rpc/tcp/tcp_comm.cc:79] ConnectedEventHandler] Connection from 127.0.0.1:36558 to 127.0.0.1:7123 is successfully created. System errno: Success
[WARNING] DISTRIBUTED(897234,ffffa6e5eec0,python):2025-07-15-10:13:14.238.419 [mindspore/ccsrc/distributed/rpc/tcp/tcp_comm.cc:494] Connect] Waiting for the state of the connection to 127.0.0.1:7123 to be connected...Retry number: 1
[WARNING] DISTRIBUTED(897238,ffffb139eec0,python):2025-07-15-10:13:14.240.845 [mindspore/ccsrc/distributed/rpc/tcp/tcp_comm.cc:485] Connect] Connection 22 source: 127.0.0.1:36566, destination: 127.0.0.1:7123
[WARNING] DISTRIBUTED(897238,ffff2c97efa0,python):2025-07-15-10:13:14.240.874 [mindspore/ccsrc/distributed/rpc/tcp/tcp_comm.cc:79] ConnectedEventHandler] Connection from 127.0.0.1:36566 to 127.0.0.1:7123 is successfully created. System errno: Success
[WARNING] DISTRIBUTED(897238,ffffb139eec0,python):2025-07-15-10:13:14.240.886 [mindspore/ccsrc/distributed/rpc/tcp/tcp_comm.cc:494] Connect] Waiting for the state of the connection to 127.0.0.1:7123 to be connected...Retry number: 1
[WARNING] DISTRIBUTED(897214,ffff882deec0,python):2025-07-15-10:13:14.241.376 [mindspore/ccsrc/distributed/rpc/tcp/tcp_comm.cc:485] Connect] Connection 22 source: 127.0.0.1:36582, destination: 127.0.0.1:7123
[WARNING] DISTRIBUTED(897214,ffff038befa0,python):2025-07-15-10:13:14.241.418 [mindspore/ccsrc/distributed/rpc/tcp/tcp_comm.cc:79] ConnectedEventHandler] Connection from 127.0.0.1:36582 to 127.0.0.1:7123 is successfully created. System errno: Success
[WARNING] DISTRIBUTED(897214,ffff882deec0,python):2025-07-15-10:13:14.241.426 [mindspore/ccsrc/distributed/rpc/tcp/tcp_comm.cc:494] Connect] Waiting for the state of the connection to 127.0.0.1:7123 to be connected...Retry number: 1
[WARNING] DISTRIBUTED(897222,ffff83ebeec0,python):2025-07-15-10:13:14.243.867 [mindspore/ccsrc/distributed/rpc/tcp/tcp_comm.cc:485] Connect] Connection 22 source: 127.0.0.1:36598, destination: 127.0.0.1:7123
[WARNING] DISTRIBUTED(897222,ffff83ebeec0,python):2025-07-15-10:13:14.243.903 [mindspore/ccsrc/distributed/rpc/tcp/tcp_comm.cc:494] Connect] Waiting for the state of the connection to 127.0.0.1:7123 to be connected...Retry number: 1
[WARNING] DISTRIBUTED(897222,fffeff4cefa0,python):2025-07-15-10:13:14.243.920 [mindspore/ccsrc/distributed/rpc/tcp/tcp_comm.cc:79] ConnectedEventHandler] Connection from 127.0.0.1:36598 to 127.0.0.1:7123 is successfully created. System errno: Success
[WARNING] DISTRIBUTED(897248,ffff88ffeec0,python):2025-07-15-10:13:14.563.455 [mindspore/ccsrc/distributed/rpc/tcp/tcp_comm.cc:485] Connect] Connection 23 source: 127.0.0.1:36600, destination: 127.0.0.1:7123
[WARNING] DISTRIBUTED(897248,ffff88ffeec0,python):2025-07-15-10:13:14.563.495 [mindspore/ccsrc/distributed/rpc/tcp/tcp_comm.cc:494] Connect] Waiting for the state of the connection to 127.0.0.1:7123 to be connected...Retry number: 2
[WARNING] DISTRIBUTED(897248,ffff0363efa0,python):2025-07-15-10:13:14.563.512 [mindspore/ccsrc/distributed/rpc/tcp/tcp_comm.cc:79] ConnectedEventHandler] Connection from 127.0.0.1:36600 to 127.0.0.1:7123 is successfully created. System errno: Success
[WARNING] DISTRIBUTED(897230,ffffb7deeec0,python):2025-07-15-10:13:14.722.747 [mindspore/ccsrc/distributed/rpc/tcp/tcp_comm.cc:485] Connect] Connection 23 source: 127.0.0.1:36614, destination: 127.0.0.1:7123
[WARNING] DISTRIBUTED(897230,ffff323aefa0,python):2025-07-15-10:13:14.722.772 [mindspore/ccsrc/distributed/rpc/tcp/tcp_comm.cc:79] ConnectedEventHandler] Connection from 127.0.0.1:36614 to 127.0.0.1:7123 is successfully created. System errno: Success
[WARNING] DISTRIBUTED(897230,ffffb7deeec0,python):2025-07-15-10:13:14.722.792 [mindspore/ccsrc/distributed/rpc/tcp/tcp_comm.cc:494] Connect] Waiting for the state of the connection to 127.0.0.1:7123 to be connected...Retry number: 2
[WARNING] DISTRIBUTED(897226,ffffab7deec0,python):2025-07-15-10:13:14.728.704 [mindspore/ccsrc/distributed/rpc/tcp/tcp_comm.cc:485] Connect] Connection 23 source: 127.0.0.1:36626, destination: 127.0.0.1:7123
[WARNING] DISTRIBUTED(897226,ffff25dbefa0,python):2025-07-15-10:13:14.728.735 [mindspore/ccsrc/distributed/rpc/tcp/tcp_comm.cc:79] ConnectedEventHandler] Connection from 127.0.0.1:36626 to 127.0.0.1:7123 is successfully created. System errno: Success
[WARNING] DISTRIBUTED(897226,ffffab7deec0,python):2025-07-15-10:13:14.728.741 [mindspore/ccsrc/distributed/rpc/tcp/tcp_comm.cc:494] Connect] Waiting for the state of the connection to 127.0.0.1:7123 to be connected...Retry number: 2
[WARNING] DISTRIBUTED(897218,ffff8b53eec0,python):2025-07-15-10:13:14.733.717 [mindspore/ccsrc/distributed/rpc/tcp/tcp_comm.cc:485] Connect] Connection 23 source: 127.0.0.1:36634, destination: 127.0.0.1:7123
[WARNING] DISTRIBUTED(897218,ffff8b53eec0,python):2025-07-15-10:13:14.733.771 [mindspore/ccsrc/distributed/rpc/tcp/tcp_comm.cc:494] Connect] Waiting for the state of the connection to 127.0.0.1:7123 to be connected...Retry number: 2
[WARNING] DISTRIBUTED(897218,ffff05aeefa0,python):2025-07-15-10:13:14.733.774 [mindspore/ccsrc/distributed/rpc/tcp/tcp_comm.cc:79] ConnectedEventHandler] Connection from 127.0.0.1:36634 to 127.0.0.1:7123 is successfully created. System errno: Success
[WARNING] DISTRIBUTED(897234,ffffa6e5eec0,python):2025-07-15-10:13:14.738.669 [mindspore/ccsrc/distributed/rpc/tcp/tcp_comm.cc:485] Connect] Connection 23 source: 127.0.0.1:36642, destination: 127.0.0.1:7123
[WARNING] DISTRIBUTED(897234,ffffa6e5eec0,python):2025-07-15-10:13:14.738.708 [mindspore/ccsrc/distributed/rpc/tcp/tcp_comm.cc:494] Connect] Waiting for the state of the connection to 127.0.0.1:7123 to be connected...Retry number: 2
[WARNING] DISTRIBUTED(897234,ffff2144efa0,python):2025-07-15-10:13:14.738.736 [mindspore/ccsrc/distributed/rpc/tcp/tcp_comm.cc:79] ConnectedEventHandler] Connection from 127.0.0.1:36642 to 127.0.0.1:7123 is successfully created. System errno: Success
[WARNING] DISTRIBUTED(897238,ffffb139eec0,python):2025-07-15-10:13:14.741.093 [mindspore/ccsrc/distributed/rpc/tcp/tcp_comm.cc:485] Connect] Connection 23 source: 127.0.0.1:36658, destination: 127.0.0.1:7123
[WARNING] DISTRIBUTED(897238,ffffb139eec0,python):2025-07-15-10:13:14.741.132 [mindspore/ccsrc/distributed/rpc/tcp/tcp_comm.cc:494] Connect] Waiting for the state of the connection to 127.0.0.1:7123 to be connected...Retry number: 2
[WARNING] DISTRIBUTED(897238,ffff277eefa0,python):2025-07-15-10:13:14.741.126 [mindspore/ccsrc/distributed/rpc/tcp/tcp_comm.cc:79] ConnectedEventHandler] Connection from 127.0.0.1:36658 to 127.0.0.1:7123 is successfully created. System errno: Success
[WARNING] DISTRIBUTED(897214,ffff882deec0,python):2025-07-15-10:13:14.741.665 [mindspore/ccsrc/distributed/rpc/tcp/tcp_comm.cc:485] Connect] Connection 23 source: 127.0.0.1:36672, destination: 127.0.0.1:7123
[WARNING] DISTRIBUTED(897214,ffff882deec0,python):2025-07-15-10:13:14.741.704 [mindspore/ccsrc/distributed/rpc/tcp/tcp_comm.cc:494] Connect] Waiting for the state of the connection to 127.0.0.1:7123 to be connected...Retry number: 2
[WARNING] DISTRIBUTED(897214,ffff0289efa0,python):2025-07-15-10:13:14.741.705 [mindspore/ccsrc/distributed/rpc/tcp/tcp_comm.cc:79] ConnectedEventHandler] Connection from 127.0.0.1:36672 to 127.0.0.1:7123 is successfully created. System errno: Success
[WARNING] DISTRIBUTED(897222,ffff83ebeec0,python):2025-07-15-10:13:14.744.105 [mindspore/ccsrc/distributed/rpc/tcp/tcp_comm.cc:485] Connect] Connection 23 source: 127.0.0.1:36680, destination: 127.0.0.1:7123
[WARNING] DISTRIBUTED(897222,ffff83ebeec0,python):2025-07-15-10:13:14.744.140 [mindspore/ccsrc/distributed/rpc/tcp/tcp_comm.cc:494] Connect] Waiting for the state of the connection to 127.0.0.1:7123 to be connected...Retry number: 2
[WARNING] DISTRIBUTED(897222,fffefe4aefa0,python):2025-07-15-10:13:14.744.148 [mindspore/ccsrc/distributed/rpc/tcp/tcp_comm.cc:79] ConnectedEventHandler] Connection from 127.0.0.1:36680 to 127.0.0.1:7123 is successfully created. System errno: Success
[WARNING] DISTRIBUTED(897248,ffff88ffeec0,python):2025-07-15-10:13:15.064.115 [mindspore/ccsrc/distributed/cluster/cluster_context.cc:246] BuildCluster] Topology build timed out., retry(1/14400).
[WARNING] DISTRIBUTED(897230,ffffb7deeec0,python):2025-07-15-10:13:15.223.289 [mindspore/ccsrc/distributed/cluster/cluster_context.cc:246] BuildCluster] Topology build timed out., retry(1/14400).
[WARNING] DISTRIBUTED(897226,ffffab7deec0,python):2025-07-15-10:13:15.229.184 [mindspore/ccsrc/distributed/cluster/cluster_context.cc:246] BuildCluster] Topology build timed out., retry(1/14400).
[WARNING] DISTRIBUTED(897218,ffff8b53eec0,python):2025-07-15-10:13:15.234.224 [mindspore/ccsrc/distributed/cluster/cluster_context.cc:246] BuildCluster] Topology build timed out., retry(1/14400).
[WARNING] DISTRIBUTED(897234,ffffa6e5eec0,python):2025-07-15-10:13:15.239.292 [mindspore/ccsrc/distributed/cluster/cluster_context.cc:246] BuildCluster] Topology build timed out., retry(1/14400).
[WARNING] DISTRIBUTED(897238,ffffb139eec0,python):2025-07-15-10:13:15.241.589 [mindspore/ccsrc/distributed/cluster/cluster_context.cc:246] BuildCluster] Topology build timed out., retry(1/14400).
[WARNING] DISTRIBUTED(897214,ffff882deec0,python):2025-07-15-10:13:15.242.173 [mindspore/ccsrc/distributed/cluster/cluster_context.cc:246] BuildCluster] Topology build timed out., retry(1/14400).
[WARNING] DISTRIBUTED(897222,ffff83ebeec0,python):2025-07-15-10:13:15.244.668 [mindspore/ccsrc/distributed/cluster/cluster_context.cc:246] BuildCluster] Topology build timed out., retry(1/14400).
[WARNING] DISTRIBUTED(897248,ffff88ffeec0,python):2025-07-15-10:13:15.564.220 [mindspore/ccsrc/distributed/cluster/cluster_context.cc:246] BuildCluster] Topology build timed out., retry(2/14400).
[WARNING] DISTRIBUTED(897230,ffffb7deeec0,python):2025-07-15-10:13:15.723.404 [mindspore/ccsrc/distributed/cluster/cluster_context.cc:246] BuildCluster] Topology build timed out., retry(2/14400).
[WARNING] DISTRIBUTED(897226,ffffab7deec0,python):2025-07-15-10:13:15.729.291 [mindspore/ccsrc/distributed/cluster/cluster_context.cc:246] BuildCluster] Topology build timed out., retry(2/14400).
[WARNING] DISTRIBUTED(897218,ffff8b53eec0,python):2025-07-15-10:13:15.734.339 [mindspore/ccsrc/distributed/cluster/cluster_context.cc:246] BuildCluster] Topology build timed out., retry(2/14400).
[WARNING] DISTRIBUTED(897234,ffffa6e5eec0,python):2025-07-15-10:13:15.739.464 [mindspore/ccsrc/distributed/cluster/cluster_context.cc:246] BuildCluster] Topology build timed out., retry(2/14400).
[WARNING] DISTRIBUTED(897238,ffffb139eec0,python):2025-07-15-10:13:15.741.698 [mindspore/ccsrc/distributed/cluster/cluster_context.cc:246] BuildCluster] Topology build timed out., retry(2/14400).
[WARNING] DISTRIBUTED(897214,ffff882deec0,python):2025-07-15-10:13:15.742.300 [mindspore/ccsrc/distributed/cluster/cluster_context.cc:246] BuildCluster] Topology build timed out., retry(2/14400).
[MS_DEV_RUNTIME_CONF]Runtime config:  memory_statistics:True
[WARNING] DISTRIBUTED(897222,ffff83ebeec0,python):2025-07-15-10:13:15.744.844 [mindspore/ccsrc/distributed/cluster/cluster_context.cc:249] BuildCluster] Cluster is successfully initialized.
[WARNING] DISTRIBUTED(897222,ffff83ebeec0,python):2025-07-15-10:13:15.744.881 [mindspore/ccsrc/distributed/cluster/cluster_context.cc:355] PostProcess] This node 2 rank id: 2
[MS_RUNTIME_PROF]The jit_level is: O1, and enable kernelbykernel executor.
[MS_RUNTIME_PROF]Device MOC Size:62420M, Device free MOC Size:62091M, Reserved MOC size for Other Components(HCCL/rts/etc.):7124M, Recommend Reserved MOC size for Other Components:3880M, User define MindSpore MOC Size:54G, MindSpore Used MOC Size:55296M.
[MS_DEV_RUNTIME_CONF]Runtime config:  memory_statistics:True
[WARNING] DISTRIBUTED(897248,ffff88ffeec0,python):2025-07-15-10:13:16.064.456 [mindspore/ccsrc/distributed/cluster/cluster_context.cc:249] BuildCluster] Cluster is successfully initialized.
[WARNING] DISTRIBUTED(897248,ffff88ffeec0,python):2025-07-15-10:13:16.064.505 [mindspore/ccsrc/distributed/cluster/cluster_context.cc:355] PostProcess] This node 7 rank id: 7
[MS_RUNTIME_PROF]The jit_level is: O1, and enable kernelbykernel executor.
[MS_DEV_RUNTIME_CONF]Runtime config:  memory_statistics:True
[WARNING] DISTRIBUTED(897230,ffffb7deeec0,python):2025-07-15-10:13:16.223.597 [mindspore/ccsrc/distributed/cluster/cluster_context.cc:249] BuildCluster] Cluster is successfully initialized.
[WARNING] DISTRIBUTED(897230,ffffb7deeec0,python):2025-07-15-10:13:16.223.642 [mindspore/ccsrc/distributed/cluster/cluster_context.cc:355] PostProcess] This node 4 rank id: 4
[MS_RUNTIME_PROF]The jit_level is: O1, and enable kernelbykernel executor.
[MS_DEV_RUNTIME_CONF]Runtime config:  memory_statistics:True
[WARNING] DISTRIBUTED(897226,ffffab7deec0,python):2025-07-15-10:13:16.229.464 [mindspore/ccsrc/distributed/cluster/cluster_context.cc:249] BuildCluster] Cluster is successfully initialized.
[WARNING] DISTRIBUTED(897226,ffffab7deec0,python):2025-07-15-10:13:16.229.498 [mindspore/ccsrc/distributed/cluster/cluster_context.cc:355] PostProcess] This node 3 rank id: 3
[MS_RUNTIME_PROF]The jit_level is: O1, and enable kernelbykernel executor.
[MS_DEV_RUNTIME_CONF]Runtime config:  memory_statistics:True
[WARNING] DISTRIBUTED(897218,ffff8b53eec0,python):2025-07-15-10:13:16.234.532 [mindspore/ccsrc/distributed/cluster/cluster_context.cc:249] BuildCluster] Cluster is successfully initialized.
[WARNING] DISTRIBUTED(897218,ffff8b53eec0,python):2025-07-15-10:13:16.234.576 [mindspore/ccsrc/distributed/cluster/cluster_context.cc:355] PostProcess] This node 1 rank id: 1
[MS_RUNTIME_PROF]The jit_level is: O1, and enable kernelbykernel executor.
[MS_DEV_RUNTIME_CONF]Runtime config:  memory_statistics:True
[WARNING] DISTRIBUTED(897234,ffffa6e5eec0,python):2025-07-15-10:13:16.239.690 [mindspore/ccsrc/distributed/cluster/cluster_context.cc:249] BuildCluster] Cluster is successfully initialized.
[WARNING] DISTRIBUTED(897234,ffffa6e5eec0,python):2025-07-15-10:13:16.239.735 [mindspore/ccsrc/distributed/cluster/cluster_context.cc:355] PostProcess] This node 5 rank id: 5
[MS_RUNTIME_PROF]The jit_level is: O1, and enable kernelbykernel executor.
[MS_DEV_RUNTIME_CONF]Runtime config:  memory_statistics:True
[WARNING] DISTRIBUTED(897238,ffffb139eec0,python):2025-07-15-10:13:16.241.867 [mindspore/ccsrc/distributed/cluster/cluster_context.cc:249] BuildCluster] Cluster is successfully initialized.
[WARNING] DISTRIBUTED(897238,ffffb139eec0,python):2025-07-15-10:13:16.241.907 [mindspore/ccsrc/distributed/cluster/cluster_context.cc:355] PostProcess] This node 6 rank id: 6
[MS_DEV_RUNTIME_CONF]Runtime config:  memory_statistics:True
[WARNING] DISTRIBUTED(897214,ffff882deec0,python):2025-07-15-10:13:16.242.517 [mindspore/ccsrc/distributed/cluster/cluster_context.cc:249] BuildCluster] Cluster is successfully initialized.
[WARNING] DISTRIBUTED(897214,ffff882deec0,python):2025-07-15-10:13:16.242.563 [mindspore/ccsrc/distributed/cluster/cluster_context.cc:355] PostProcess] This node 0 rank id: 0
[MS_RUNTIME_PROF]The jit_level is: O1, and enable kernelbykernel executor.
[MS_RUNTIME_PROF]The jit_level is: O1, and enable kernelbykernel executor.
[MS_RUNTIME_PROF]Device MOC Size:62420M, Device free MOC Size:62091M, Reserved MOC size for Other Components(HCCL/rts/etc.):7124M, Recommend Reserved MOC size for Other Components:3880M, User define MindSpore MOC Size:54G, MindSpore Used MOC Size:55296M.
[MS_RUNTIME_PROF]Device MOC Size:62420M, Device free MOC Size:62091M, Reserved MOC size for Other Components(HCCL/rts/etc.):7124M, Recommend Reserved MOC size for Other Components:3880M, User define MindSpore MOC Size:54G, MindSpore Used MOC Size:55296M.
[MS_RUNTIME_PROF]Device MOC Size:62420M, Device free MOC Size:62090M, Reserved MOC size for Other Components(HCCL/rts/etc.):7124M, Recommend Reserved MOC size for Other Components:3880M, User define MindSpore MOC Size:54G, MindSpore Used MOC Size:55296M.
[MS_RUNTIME_PROF]Device MOC Size:62420M, Device free MOC Size:62091M, Reserved MOC size for Other Components(HCCL/rts/etc.):7124M, Recommend Reserved MOC size for Other Components:3880M, User define MindSpore MOC Size:54G, MindSpore Used MOC Size:55296M.
[MS_RUNTIME_PROF]Device MOC Size:62420M, Device free MOC Size:62090M, Reserved MOC size for Other Components(HCCL/rts/etc.):7124M, Recommend Reserved MOC size for Other Components:3880M, User define MindSpore MOC Size:54G, MindSpore Used MOC Size:55296M.
[MS_RUNTIME_PROF]Device MOC Size:62420M, Device free MOC Size:62091M, Reserved MOC size for Other Components(HCCL/rts/etc.):7124M, Recommend Reserved MOC size for Other Components:3880M, User define MindSpore MOC Size:54G, MindSpore Used MOC Size:55296M.
[WARNING] GRAPH_KERNEL(897222,ffff83ebeec0,python):2025-07-15-10:13:17.494.349 [mindspore/ccsrc/backend/common/graph_kernel/graph_kernel_flags.cc:116] ParseFlags] For 'context.set_context', the flag 'None' in the parameter 'graph_kernel_flags' is invalid. Valid flag format is "--key=value", flags are separated by spaces(e.g. "--key1=value1 --key2=value2"). bool flag's value can be implicit, the "--key" means "--key=true".
graph_kernel_flags = "None"
[WARNING] DISTRIBUTED(897222,ffff83ebeec0,python):2025-07-15-10:13:17.497.681 [mindspore/ccsrc/distributed/collective/collective_manager.cc:341] CreateCommunicationGroup] Start to create communication group: hccl_world_group [const vector]{0, 1, 2, 3, 4, 5, 6, 7}, async: 1, submit_now: 1
[WARNING] DISTRIBUTED(897222,ffff83ebeec0,python):2025-07-15-10:13:17.497.894 [mindspore/ccsrc/distributed/collective/collective_manager.cc:393] CreateCommunicationGroup] This group's communicator is async created hccl_world_group
[WARNING] DEVICE(897222,fffea6efefa0,python):2025-07-15-10:13:17.498.100 [mindspore/ccsrc/plugin/res_manager/ascend/collective/ascend_communication_group.cc:254] SetGlobalCommInfo] Start to SetGlobalCommInfo for hccl_world_group, master_ip:2130706433, master_port:7123, node_rank:2130706433, total_rank_size:8, local_rank_size8
[WARNING] HCCL_ADPT(897222,fffea6efefa0,python):2025-07-15-10:13:17.498.178 [mindspore/ccsrc/utils/dlopen_macro.h:165] DlsymAscend] Dynamically load symbol HcclSetGlobalCommInfo failed, result = /home/jenkins/anaconda3/envs/ci39/lib/python3.9/site-packages/mindspore/communication/../lib/plugin/ascend/libhccl_plugin.so: undefined symbol: HcclSetGlobalCommInfo
[WARNING] HCCL_ADPT(897222,fffea6efefa0,python):2025-07-15-10:13:17.498.211 [mindspore/ccsrc/plugin/res_manager/ascend/hccl_adapter/hccl_adapter.cc:635] HcclSetGlobalCommInfo] Func HcclSetGlobalCommInfo is not supported in CANN package.
[WARNING] DEVICE(897222,fffea6efefa0,python):2025-07-15-10:13:17.498.240 [mindspore/ccsrc/plugin/res_manager/ascend/collective/ascend_communication_group.cc:265] SetGlobalCommInfo] End to SetGlobalCommInfo for hccl_world_group
[WARNING] DEVICE(897222,fffea6efefa0,python):2025-07-15-10:13:17.498.785 [mindspore/ccsrc/plugin/device/cpu/hal/hardware/ms_collective_comm_lib.cc:251] QueryUniqueID] Retry to lookup the unique id for group hccl_world_group from the meta server node...Retry time: 399/400, sleep 1
2025-07-15 10:13:17,499 - mindformers./output/log[mindformers/tools/utils.py:181] - INFO - set strategy path to './output/strategy/ckpt_strategy_rank_2.ckpt'
2025-07-15 10:13:17,526 - mindformers./output/log[mindformers/tools/register/template.py:84] - WARNING - The input config swap_config is empty.
2025-07-15 10:13:17,526 - mindformers./output/log[mindformers/tools/register/template.py:84] - WARNING - The input config metric is empty.
2025-07-15 10:13:17,526 - mindformers./output/log[mindformers/tools/register/template.py:84] - WARNING - The input config monitor_config is empty.
2025-07-15 10:13:17,527 - mindformers./output/log[mindformers/tools/register/template.py:683] - WARNING - Some configs in yaml are useless for train: ['auto_tune', 'autotune_per_step', 'eval_callbacks', 'eval_dataset', 'eval_dataset_task', 'filepath_prefix', 'processor']
2025-07-15 10:13:17,527 - mindformers./output/log[mindformers/trainer/trainer.py:1008] - INFO - Load configs in /home/jenkins/mindspore/testcases/testcases/tests/st/networks/llm_parallel_feature/mindformers/configs/general/run_general_task.yaml to build trainer.
2025-07-15 10:13:17,527 - mindformers./output/log[mindformers/trainer/trainer.py:1044] - INFO - ..........Init Config..........
2025-07-15 10:13:17,527 - mindformers./output/log[mindformers/core/parallel_config.py:41] - INFO - initial moe_config from dict: {'expert_num': 4, 'capacity_factor': 1.5, 'aux_loss_factor': 0.05, 'num_experts_chosen': 2, 'expert_group_size': 2, 'group_wise_a2a': False, 'comp_comm_parallel': False, 'comp_comm_parallel_degree': 2, 'save_token_distribution': False, 'cur_layer': 0, 'enable_cold_hot_expert': False, 'update_step': 10000, 'hot_expert_num': 0, 'cold_token_percent': 1.0, 'moe_module_name': '', 'routing_policy': 'TopkRouterV2', 'norm_topk_prob': False, 'enable_sdrop': False, 'use_fused_ops_topkrouter': True, 'router_dense_type': 'float32', 'shared_expert_num': 1, 'use_shared_expert_gating': False, 'max_router_load': 131072, 'topk_method': 'greedy', 'topk_group': 3, 'n_group': 8, 'first_k_dense_replace': 1, 'moe_intermediate_size': 512, 'routed_scaling_factor': 2.5, 'aux_loss_types': ['expert'], 'aux_loss_factors': [0.0001], 'z_loss_factor': 0.0, 'balance_via_topk_bias': True, 'topk_bias_update_rate': 0.0001, 'use_allgather_dispatcher': False, 'moe_shared_expert_overlap': False, 'expert_model_parallel': 1, 'use_gating_sigmoid': True, 'enable_deredundency': True, 'npu_nums_per_device': 2, 'use_gmm': True, 'enable_gmm_safe_tokens': True, 'use_fused_ops_permute': True, 'callback_moe_droprate': False}
2025-07-15 10:13:17,528 - mindformers./output/log[mindformers/core/parallel_config.py:48] - INFO - initial swap_config from dict: {'swap': False, 'layer_swap': None, 'op_swap': None, 'default_prefetch': 1}
2025-07-15 10:13:17,528 - mindformers./output/log[mindformers/core/parallel_config.py:55] - INFO - initial recompute_config from dict: {'recompute': True, 'select_recompute': False, 'parallel_optimizer_comm_recompute': True, 'select_comm_recompute': False, 'mp_comm_recompute': True, 'recompute_slice_activation': True, 'select_recompute_exclude': False, 'select_comm_recompute_exclude': False}
2025-07-15 10:13:17,528 - mindformers./output/log[mindformers/core/parallel_config.py:61] - INFO - initial parallel_config from dict: {'data_parallel': 2, 'model_parallel': 2, 'context_parallel': 1, 'expert_parallel': 2, 'pipeline_stage': 2, 'micro_batch_num': 2, 'seq_split_num': 1, 'use_seq_parallel': True, 'optimizer_shard': None, 'gradient_aggregation_group': 4, 'vocab_emb_dp': True, 'context_parallel_algo': 'colossalai_cp', 'ulysses_degree_in_cp': 1, 'mem_coeff': 0.1}
2025-07-15 10:13:17,528 - mindformers./output/log[mindformers/core/parallel_config.py:63] - INFO - pipeline_stage = 2 > 1, vocab_emd_dp will be reset to False.
2025-07-15 10:13:17,529 - mindformers./output/log[mindformers/tools/utils.py:166] - INFO - set output path to '/home/jenkins/mindspore/testcases/testcases/tests/st/networks/llm_parallel_feature/deepseekv3/output'
2025-07-15 10:13:17,529 - mindformers./output/log[mindformers/tools/utils.py:181] - INFO - set strategy path to './output/strategy/ckpt_strategy_rank_2.ckpt'
2025-07-15 10:13:17,666 - mindformers./output/log[mindformers/trainer/base_trainer.py:107] - INFO - host_name: ascend213, host_ip: 121.37.54.128
2025-07-15 10:13:17,666 - mindformers./output/log[mindformers/trainer/base_trainer.py:113] - INFO - Now Running Task is: text_generation, Model is: deepseekV3
2025-07-15 10:13:17,666 - mindformers./output/log[mindformers/trainer/base_trainer.py:143] - WARNING - Input model name is not in the supported list or unspecified.
2025-07-15 10:13:17,667 - mindformers./output/log[mindformers/trainer/base_trainer.py:144] - WARNING - See the list of supported task and model name: ['codellama_34b', 'common', 'deepseek1_5_7b', 'deepseek_33b', 'glm3_6b', 'glm4_9b', 'gpt2', 'gpt2_13b', 'gpt2_52b', 'gpt2_lora', 'gpt2_xl', 'gpt2_xl_lora', 'internlm_7b', 'internlm_7b_lora', 'llama2_13b', 'llama2_70b', 'llama2_7b', 'llama2_7b_lora', 'llama_7b_slora', 'yi_34b', 'yi_6b']
2025-07-15 10:13:17,667 - mindformers./output/log[mindformers/trainer/base_trainer.py:145] - WARNING - The default model config: /home/jenkins/mindspore/testcases/testcases/tests/st/networks/llm_parallel_feature/mindformers/configs/gpt2/run_gpt2.yaml will now be used for the text_generation task 
2025-07-15 10:13:17,667 - mindformers./output/log[mindformers/trainer/trainer.py:1117] - INFO - ..........Init Model..........
2025-07-15 10:13:17,668 - mindformers./output/log[mindformers/trainer/trainer.py:323] - INFO - ==========Trainer Init Success!==========
2025-07-15 10:13:17,668 - mindformers./output/log[mindformers/trainer/trainer.py:406] - WARNING - sink_size will not be able to set in a future release. Modifying sink_size may cause functional issues when resuming training from a checkpoint.
2025-07-15 10:13:17,668 - mindformers./output/log[mindformers/trainer/trainer.py:1117] - INFO - ..........Init Model..........
2025-07-15 10:13:17,669 - mindformers./output/log[mindformers/trainer/base_trainer.py:204] - INFO - Pipeline parallel was opened: pipeline_stages = 2, full batch is True, gradient_accumulation_steps will not take effect in pipeline parallel, global batch size will be changed: global_batch_size = batch_size * data_parallel * micro_batch_num * micro_batch_interleave_num = 4 = 1 * 2 * 2 * 1).
2025-07-15 10:13:17,669 - mindformers./output/log[mindformers/trainer/base_trainer.py:338] - WARNING - When using the pipeline parallel mode, the MFPipelineWithLossScaleCell class is used by default.
2025-07-15 10:13:17,669 - mindformers./output/log[mindformers/trainer/base_trainer.py:346] - INFO - PipelineWrapper under evaluate or predict mode will not take effect.
2025-07-15 10:13:17,669 - mindformers./output/log[mindformers/trainer/base_trainer.py:920] - INFO - .........Build Dataset For Train..........
2025-07-15 10:13:17,669 - mindformers./output/log[mindformers/trainer/base_trainer.py:464] - INFO - .........Build Dataset From Config..........
2025-07-15 10:13:17,670 - mindformers./output/log[mindformers/dataset/causal_language_model_dataset.py:302] - INFO - Now Create Causal Language Model Dataset.
2025-07-15 10:13:17,670 - mindformers./output/log[mindformers/dataset/base_dataset.py:83] - INFO - Now dataset_strategy is full_batch, shard_id: None, num_shards: None
2025-07-15 10:13:17,678 - mindformers./output/log[mindformers/trainer/base_trainer.py:924] - INFO - Create train dataset finish, dataset size:15
2025-07-15 10:13:17,679 - mindformers./output/log[mindformers/trainer/utils.py:176] - INFO - Will be Training epochs:1, sink_size:1
2025-07-15 10:13:17,679 - mindformers./output/log[mindformers/trainer/utils.py:178] - INFO - Create training dataset finish, dataset size:15
2025-07-15 10:13:17,679 - mindformers./output/log[mindformers/trainer/base_trainer.py:971] - INFO - .........Build Net For Train..........
2025-07-15 10:13:17,679 - mindformers./output/log[mindformers/trainer/base_trainer.py:498] - INFO - .........Build Network From Config..........
[WARNING] GRAPH_KERNEL(897248,ffff88ffeec0,python):2025-07-15-10:13:17.795.812 [mindspore/ccsrc/backend/common/graph_kernel/graph_kernel_flags.cc:116] ParseFlags] For 'context.set_context', the flag 'None' in the parameter 'graph_kernel_flags' is invalid. Valid flag format is "--key=value", flags are separated by spaces(e.g. "--key1=value1 --key2=value2"). bool flag's value can be implicit, the "--key" means "--key=true".
graph_kernel_flags = "None"
[WARNING] DISTRIBUTED(897248,ffff88ffeec0,python):2025-07-15-10:13:17.799.410 [mindspore/ccsrc/distributed/collective/collective_manager.cc:341] CreateCommunicationGroup] Start to create communication group: hccl_world_group [const vector]{0, 1, 2, 3, 4, 5, 6, 7}, async: 1, submit_now: 1
[WARNING] DISTRIBUTED(897248,ffff88ffeec0,python):2025-07-15-10:13:17.799.632 [mindspore/ccsrc/distributed/collective/collective_manager.cc:393] CreateCommunicationGroup] This group's communicator is async created hccl_world_group
[WARNING] DEVICE(897248,fffe67ffefa0,python):2025-07-15-10:13:17.799.926 [mindspore/ccsrc/plugin/res_manager/ascend/collective/ascend_communication_group.cc:254] SetGlobalCommInfo] Start to SetGlobalCommInfo for hccl_world_group, master_ip:2130706433, master_port:7123, node_rank:2130706433, total_rank_size:8, local_rank_size8
[WARNING] HCCL_ADPT(897248,fffe67ffefa0,python):2025-07-15-10:13:17.800.022 [mindspore/ccsrc/utils/dlopen_macro.h:165] DlsymAscend] Dynamically load symbol HcclSetGlobalCommInfo failed, result = /home/jenkins/anaconda3/envs/ci39/lib/python3.9/site-packages/mindspore/communication/../lib/plugin/ascend/libhccl_plugin.so: undefined symbol: HcclSetGlobalCommInfo
[WARNING] HCCL_ADPT(897248,fffe67ffefa0,python):2025-07-15-10:13:17.800.061 [mindspore/ccsrc/plugin/res_manager/ascend/hccl_adapter/hccl_adapter.cc:635] HcclSetGlobalCommInfo] Func HcclSetGlobalCommInfo is not supported in CANN package.
[WARNING] DEVICE(897248,fffe67ffefa0,python):2025-07-15-10:13:17.800.092 [mindspore/ccsrc/plugin/res_manager/ascend/collective/ascend_communication_group.cc:265] SetGlobalCommInfo] End to SetGlobalCommInfo for hccl_world_group
[WARNING] DEVICE(897248,fffe67ffefa0,python):2025-07-15-10:13:17.800.608 [mindspore/ccsrc/plugin/device/cpu/hal/hardware/ms_collective_comm_lib.cc:251] QueryUniqueID] Retry to lookup the unique id for group hccl_world_group from the meta server node...Retry time: 399/400, sleep 2
2025-07-15 10:13:17,801 - mindformers./output/log[mindformers/tools/utils.py:181] - INFO - set strategy path to './output/strategy/ckpt_strategy_rank_7.ckpt'
2025-07-15 10:13:17,828 - mindformers./output/log[mindformers/tools/register/template.py:84] - WARNING - The input config swap_config is empty.
2025-07-15 10:13:17,828 - mindformers./output/log[mindformers/tools/register/template.py:84] - WARNING - The input config metric is empty.
2025-07-15 10:13:17,828 - mindformers./output/log[mindformers/tools/register/template.py:84] - WARNING - The input config monitor_config is empty.
2025-07-15 10:13:17,828 - mindformers./output/log[mindformers/tools/register/template.py:683] - WARNING - Some configs in yaml are useless for train: ['auto_tune', 'autotune_per_step', 'eval_callbacks', 'eval_dataset', 'eval_dataset_task', 'filepath_prefix', 'processor']
2025-07-15 10:13:17,829 - mindformers./output/log[mindformers/trainer/trainer.py:1008] - INFO - Load configs in /home/jenkins/mindspore/testcases/testcases/tests/st/networks/llm_parallel_feature/mindformers/configs/general/run_general_task.yaml to build trainer.
2025-07-15 10:13:17,829 - mindformers./output/log[mindformers/trainer/trainer.py:1044] - INFO - ..........Init Config..........
2025-07-15 10:13:17,829 - mindformers./output/log[mindformers/core/parallel_config.py:41] - INFO - initial moe_config from dict: {'expert_num': 4, 'capacity_factor': 1.5, 'aux_loss_factor': 0.05, 'num_experts_chosen': 2, 'expert_group_size': 2, 'group_wise_a2a': False, 'comp_comm_parallel': False, 'comp_comm_parallel_degree': 2, 'save_token_distribution': False, 'cur_layer': 0, 'enable_cold_hot_expert': False, 'update_step': 10000, 'hot_expert_num': 0, 'cold_token_percent': 1.0, 'moe_module_name': '', 'routing_policy': 'TopkRouterV2', 'norm_topk_prob': False, 'enable_sdrop': False, 'use_fused_ops_topkrouter': True, 'router_dense_type': 'float32', 'shared_expert_num': 1, 'use_shared_expert_gating': False, 'max_router_load': 131072, 'topk_method': 'greedy', 'topk_group': 3, 'n_group': 8, 'first_k_dense_replace': 1, 'moe_intermediate_size': 512, 'routed_scaling_factor': 2.5, 'aux_loss_types': ['expert'], 'aux_loss_factors': [0.0001], 'z_loss_factor': 0.0, 'balance_via_topk_bias': True, 'topk_bias_update_rate': 0.0001, 'use_allgather_dispatcher': False, 'moe_shared_expert_overlap': False, 'expert_model_parallel': 1, 'use_gating_sigmoid': True, 'enable_deredundency': True, 'npu_nums_per_device': 2, 'use_gmm': True, 'enable_gmm_safe_tokens': True, 'use_fused_ops_permute': True, 'callback_moe_droprate': False}
2025-07-15 10:13:17,829 - mindformers./output/log[mindformers/core/parallel_config.py:48] - INFO - initial swap_config from dict: {'swap': False, 'layer_swap': None, 'op_swap': None, 'default_prefetch': 1}
2025-07-15 10:13:17,830 - mindformers./output/log[mindformers/core/parallel_config.py:55] - INFO - initial recompute_config from dict: {'recompute': True, 'select_recompute': False, 'parallel_optimizer_comm_recompute': True, 'select_comm_recompute': False, 'mp_comm_recompute': True, 'recompute_slice_activation': True, 'select_recompute_exclude': False, 'select_comm_recompute_exclude': False}
2025-07-15 10:13:17,830 - mindformers./output/log[mindformers/core/parallel_config.py:61] - INFO - initial parallel_config from dict: {'data_parallel': 2, 'model_parallel': 2, 'context_parallel': 1, 'expert_parallel': 2, 'pipeline_stage': 2, 'micro_batch_num': 2, 'seq_split_num': 1, 'use_seq_parallel': True, 'optimizer_shard': None, 'gradient_aggregation_group': 4, 'vocab_emb_dp': True, 'context_parallel_algo': 'colossalai_cp', 'ulysses_degree_in_cp': 1, 'mem_coeff': 0.1}
2025-07-15 10:13:17,830 - mindformers./output/log[mindformers/core/parallel_config.py:63] - INFO - pipeline_stage = 2 > 1, vocab_emd_dp will be reset to False.
2025-07-15 10:13:17,831 - mindformers./output/log[mindformers/tools/utils.py:166] - INFO - set output path to '/home/jenkins/mindspore/testcases/testcases/tests/st/networks/llm_parallel_feature/deepseekv3/output'
2025-07-15 10:13:17,831 - mindformers./output/log[mindformers/tools/utils.py:181] - INFO - set strategy path to './output/strategy/ckpt_strategy_rank_7.ckpt'
2025-07-15 10:13:17,946 - mindformers./output/log[mindformers/version_control.py:140] - INFO - The Lazy Inline compilation acceleration feature is turned on.
2025-07-15 10:13:17,952 - mindformers./output/log[mindformers/research/deepseek3/deepseek2_model.py:1216] - INFO - Enable flash attention.
2025-07-15 10:13:17,962 - mindformers./output/log[mindformers/trainer/base_trainer.py:107] - INFO - host_name: ascend213, host_ip: 121.37.54.128
2025-07-15 10:13:17,962 - mindformers./output/log[mindformers/trainer/base_trainer.py:113] - INFO - Now Running Task is: text_generation, Model is: deepseekV3
2025-07-15 10:13:17,963 - mindformers./output/log[mindformers/trainer/base_trainer.py:143] - WARNING - Input model name is not in the supported list or unspecified.
2025-07-15 10:13:17,963 - mindformers./output/log[mindformers/trainer/base_trainer.py:144] - WARNING - See the list of supported task and model name: ['codellama_34b', 'common', 'deepseek1_5_7b', 'deepseek_33b', 'glm3_6b', 'glm4_9b', 'gpt2', 'gpt2_13b', 'gpt2_52b', 'gpt2_lora', 'gpt2_xl', 'gpt2_xl_lora', 'internlm_7b', 'internlm_7b_lora', 'llama2_13b', 'llama2_70b', 'llama2_7b', 'llama2_7b_lora', 'llama_7b_slora', 'yi_34b', 'yi_6b']
2025-07-15 10:13:17,964 - mindformers./output/log[mindformers/trainer/base_trainer.py:145] - WARNING - The default model config: /home/jenkins/mindspore/testcases/testcases/tests/st/networks/llm_parallel_feature/mindformers/configs/gpt2/run_gpt2.yaml will now be used for the text_generation task 
2025-07-15 10:13:17,964 - mindformers./output/log[mindformers/trainer/trainer.py:1117] - INFO - ..........Init Model..........
2025-07-15 10:13:17,964 - mindformers./output/log[mindformers/trainer/trainer.py:323] - INFO - ==========Trainer Init Success!==========
2025-07-15 10:13:17,965 - mindformers./output/log[mindformers/trainer/trainer.py:406] - WARNING - sink_size will not be able to set in a future release. Modifying sink_size may cause functional issues when resuming training from a checkpoint.
2025-07-15 10:13:17,965 - mindformers./output/log[mindformers/trainer/trainer.py:1117] - INFO - ..........Init Model..........
2025-07-15 10:13:17,965 - mindformers./output/log[mindformers/trainer/base_trainer.py:204] - INFO - Pipeline parallel was opened: pipeline_stages = 2, full batch is True, gradient_accumulation_steps will not take effect in pipeline parallel, global batch size will be changed: global_batch_size = batch_size * data_parallel * micro_batch_num * micro_batch_interleave_num = 4 = 1 * 2 * 2 * 1).
2025-07-15 10:13:17,965 - mindformers./output/log[mindformers/trainer/base_trainer.py:338] - WARNING - When using the pipeline parallel mode, the MFPipelineWithLossScaleCell class is used by default.
2025-07-15 10:13:17,966 - mindformers./output/log[mindformers/trainer/base_trainer.py:346] - INFO - PipelineWrapper under evaluate or predict mode will not take effect.
2025-07-15 10:13:17,966 - mindformers./output/log[mindformers/trainer/base_trainer.py:920] - INFO - .........Build Dataset For Train..........
2025-07-15 10:13:17,966 - mindformers./output/log[mindformers/trainer/base_trainer.py:464] - INFO - .........Build Dataset From Config..........
2025-07-15 10:13:17,966 - mindformers./output/log[mindformers/dataset/causal_language_model_dataset.py:302] - INFO - Now Create Causal Language Model Dataset.
2025-07-15 10:13:17,967 - mindformers./output/log[mindformers/dataset/base_dataset.py:83] - INFO - Now dataset_strategy is full_batch, shard_id: None, num_shards: None
2025-07-15 10:13:17,974 - mindformers./output/log[mindformers/trainer/base_trainer.py:924] - INFO - Create train dataset finish, dataset size:15
2025-07-15 10:13:17,975 - mindformers./output/log[mindformers/trainer/utils.py:176] - INFO - Will be Training epochs:1, sink_size:1
2025-07-15 10:13:17,975 - mindformers./output/log[mindformers/trainer/utils.py:178] - INFO - Create training dataset finish, dataset size:15
2025-07-15 10:13:17,975 - mindformers./output/log[mindformers/trainer/base_trainer.py:971] - INFO - .........Build Net For Train..........
2025-07-15 10:13:17,975 - mindformers./output/log[mindformers/trainer/base_trainer.py:498] - INFO - .........Build Network From Config..........
[WARNING] GRAPH_KERNEL(897214,ffff882deec0,python):2025-07-15-10:13:17.986.093 [mindspore/ccsrc/backend/common/graph_kernel/graph_kernel_flags.cc:116] ParseFlags] For 'context.set_context', the flag 'None' in the parameter 'graph_kernel_flags' is invalid. Valid flag format is "--key=value", flags are separated by spaces(e.g. "--key1=value1 --key2=value2"). bool flag's value can be implicit, the "--key" means "--key=true".
graph_kernel_flags = "None"
[WARNING] DISTRIBUTED(897214,ffff882deec0,python):2025-07-15-10:13:17.989.694 [mindspore/ccsrc/distributed/collective/collective_manager.cc:341] CreateCommunicationGroup] Start to create communication group: hccl_world_group [const vector]{0, 1, 2, 3, 4, 5, 6, 7}, async: 1, submit_now: 1
[WARNING] DISTRIBUTED(897214,ffff882deec0,python):2025-07-15-10:13:17.989.915 [mindspore/ccsrc/distributed/collective/collective_manager.cc:393] CreateCommunicationGroup] This group's communicator is async created hccl_world_group
[WARNING] DEVICE(897214,fffeab14efa0,python):2025-07-15-10:13:17.990.165 [mindspore/ccsrc/plugin/res_manager/ascend/collective/ascend_communication_group.cc:254] SetGlobalCommInfo] Start to SetGlobalCommInfo for hccl_world_group, master_ip:2130706433, master_port:7123, node_rank:2130706433, total_rank_size:8, local_rank_size8
[WARNING] HCCL_ADPT(897214,fffeab14efa0,python):2025-07-15-10:13:17.990.261 [mindspore/ccsrc/utils/dlopen_macro.h:165] DlsymAscend] Dynamically load symbol HcclSetGlobalCommInfo failed, result = /home/jenkins/anaconda3/envs/ci39/lib/python3.9/site-packages/mindspore/communication/../lib/plugin/ascend/libhccl_plugin.so: undefined symbol: HcclSetGlobalCommInfo
[WARNING] HCCL_ADPT(897214,fffeab14efa0,python):2025-07-15-10:13:17.990.299 [mindspore/ccsrc/plugin/res_manager/ascend/hccl_adapter/hccl_adapter.cc:635] HcclSetGlobalCommInfo] Func HcclSetGlobalCommInfo is not supported in CANN package.
[WARNING] DEVICE(897214,fffeab14efa0,python):2025-07-15-10:13:17.990.329 [mindspore/ccsrc/plugin/res_manager/ascend/collective/ascend_communication_group.cc:265] SetGlobalCommInfo] End to SetGlobalCommInfo for hccl_world_group
2025-07-15 10:13:17,991 - mindformers./output/log[mindformers/tools/utils.py:181] - INFO - set strategy path to './output/strategy/ckpt_strategy_rank_0.ckpt'
[WARNING] GRAPH_KERNEL(897230,ffffb7deeec0,python):2025-07-15-10:13:17.996.654 [mindspore/ccsrc/backend/common/graph_kernel/graph_kernel_flags.cc:116] ParseFlags] For 'context.set_context', the flag 'None' in the parameter 'graph_kernel_flags' is invalid. Valid flag format is "--key=value", flags are separated by spaces(e.g. "--key1=value1 --key2=value2"). bool flag's value can be implicit, the "--key" means "--key=true".
graph_kernel_flags = "None"
[WARNING] DISTRIBUTED(897214,fffeab14efa0,python):2025-07-15-10:13:17.998.230 [mindspore/ccsrc/distributed/collective/collective_manager.cc:1021] CreateDeviceCommunicator] Begin initialize communication group on the device side: hccl_world_group
[WARNING] DEVICE(897214,fffea910efa0,python):2025-07-15-10:13:17.998.554 [mindspore/ccsrc/plugin/res_manager/ascend/collective/ascend_communication_group.cc:169] InitByRootInfoConfig] Start to initialize communicator by HcclCommInitRootInfoConfig for hccl_world_group, hcclBufferSize is 200 MB, hcclDeterministic is 1
[WARNING] DISTRIBUTED(897222,fffea6efefa0,python):2025-07-15-10:13:17.999.421 [mindspore/ccsrc/distributed/collective/collective_manager.cc:1021] CreateDeviceCommunicator] Begin initialize communication group on the device side: hccl_world_group
[WARNING] DEVICE(897222,fffea4eddfa0,python):2025-07-15-10:13:17.999.877 [mindspore/ccsrc/plugin/res_manager/ascend/collective/ascend_communication_group.cc:169] InitByRootInfoConfig] Start to initialize communicator by HcclCommInitRootInfoConfig for hccl_world_group, hcclBufferSize is 200 MB, hcclDeterministic is 1
[WARNING] DISTRIBUTED(897230,ffffb7deeec0,python):2025-07-15-10:13:18.000.320 [mindspore/ccsrc/distributed/collective/collective_manager.cc:341] CreateCommunicationGroup] Start to create communication group: hccl_world_group [const vector]{0, 1, 2, 3, 4, 5, 6, 7}, async: 1, submit_now: 1
[WARNING] DISTRIBUTED(897230,ffffb7deeec0,python):2025-07-15-10:13:18.000.548 [mindspore/ccsrc/distributed/collective/collective_manager.cc:393] CreateCommunicationGroup] This group's communicator is async created hccl_world_group
[WARNING] DEVICE(897230,fffedaefefa0,python):2025-07-15-10:13:18.000.797 [mindspore/ccsrc/plugin/res_manager/ascend/collective/ascend_communication_group.cc:254] SetGlobalCommInfo] Start to SetGlobalCommInfo for hccl_world_group, master_ip:2130706433, master_port:7123, node_rank:2130706433, total_rank_size:8, local_rank_size8
[WARNING] HCCL_ADPT(897230,fffedaefefa0,python):2025-07-15-10:13:18.000.893 [mindspore/ccsrc/utils/dlopen_macro.h:165] DlsymAscend] Dynamically load symbol HcclSetGlobalCommInfo failed, result = /home/jenkins/anaconda3/envs/ci39/lib/python3.9/site-packages/mindspore/communication/../lib/plugin/ascend/libhccl_plugin.so: undefined symbol: HcclSetGlobalCommInfo
[WARNING] HCCL_ADPT(897230,fffedaefefa0,python):2025-07-15-10:13:18.000.931 [mindspore/ccsrc/plugin/res_manager/ascend/hccl_adapter/hccl_adapter.cc:635] HcclSetGlobalCommInfo] Func HcclSetGlobalCommInfo is not supported in CANN package.
[WARNING] DEVICE(897230,fffedaefefa0,python):2025-07-15-10:13:18.000.963 [mindspore/ccsrc/plugin/res_manager/ascend/collective/ascend_communication_group.cc:265] SetGlobalCommInfo] End to SetGlobalCommInfo for hccl_world_group
[WARNING] DISTRIBUTED(897230,fffedaefefa0,python):2025-07-15-10:13:18.001.402 [mindspore/ccsrc/distributed/collective/collective_manager.cc:1021] CreateDeviceCommunicator] Begin initialize communication group on the device side: hccl_world_group
[WARNING] DEVICE(897230,fffeda6eefa0,python):2025-07-15-10:13:18.001.743 [mindspore/ccsrc/plugin/res_manager/ascend/collective/ascend_communication_group.cc:169] InitByRootInfoConfig] Start to initialize communicator by HcclCommInitRootInfoConfig for hccl_world_group, hcclBufferSize is 200 MB, hcclDeterministic is 1
2025-07-15 10:13:18,001 - mindformers./output/log[mindformers/tools/utils.py:181] - INFO - set strategy path to './output/strategy/ckpt_strategy_rank_4.ckpt'
2025-07-15 10:13:18,018 - mindformers./output/log[mindformers/tools/register/template.py:84] - WARNING - The input config swap_config is empty.
2025-07-15 10:13:18,018 - mindformers./output/log[mindformers/tools/register/template.py:84] - WARNING - The input config metric is empty.
2025-07-15 10:13:18,019 - mindformers./output/log[mindformers/tools/register/template.py:84] - WARNING - The input config monitor_config is empty.
2025-07-15 10:13:18,019 - mindformers./output/log[mindformers/tools/register/template.py:683] - WARNING - Some configs in yaml are useless for train: ['auto_tune', 'autotune_per_step', 'eval_callbacks', 'eval_dataset', 'eval_dataset_task', 'filepath_prefix', 'processor']
2025-07-15 10:13:18,019 - mindformers./output/log[mindformers/trainer/trainer.py:1008] - INFO - Load configs in /home/jenkins/mindspore/testcases/testcases/tests/st/networks/llm_parallel_feature/mindformers/configs/general/run_general_task.yaml to build trainer.
2025-07-15 10:13:18,019 - mindformers./output/log[mindformers/trainer/trainer.py:1044] - INFO - ..........Init Config..........
2025-07-15 10:13:18,019 - mindformers./output/log[mindformers/core/parallel_config.py:41] - INFO - initial moe_config from dict: {'expert_num': 4, 'capacity_factor': 1.5, 'aux_loss_factor': 0.05, 'num_experts_chosen': 2, 'expert_group_size': 2, 'group_wise_a2a': False, 'comp_comm_parallel': False, 'comp_comm_parallel_degree': 2, 'save_token_distribution': False, 'cur_layer': 0, 'enable_cold_hot_expert': False, 'update_step': 10000, 'hot_expert_num': 0, 'cold_token_percent': 1.0, 'moe_module_name': '', 'routing_policy': 'TopkRouterV2', 'norm_topk_prob': False, 'enable_sdrop': False, 'use_fused_ops_topkrouter': True, 'router_dense_type': 'float32', 'shared_expert_num': 1, 'use_shared_expert_gating': False, 'max_router_load': 131072, 'topk_method': 'greedy', 'topk_group': 3, 'n_group': 8, 'first_k_dense_replace': 1, 'moe_intermediate_size': 512, 'routed_scaling_factor': 2.5, 'aux_loss_types': ['expert'], 'aux_loss_factors': [0.0001], 'z_loss_factor': 0.0, 'balance_via_topk_bias': True, 'topk_bias_update_rate': 0.0001, 'use_allgather_dispatcher': False, 'moe_shared_expert_overlap': False, 'expert_model_parallel': 1, 'use_gating_sigmoid': True, 'enable_deredundency': True, 'npu_nums_per_device': 2, 'use_gmm': True, 'enable_gmm_safe_tokens': True, 'use_fused_ops_permute': True, 'callback_moe_droprate': False}
2025-07-15 10:13:18,020 - mindformers./output/log[mindformers/core/parallel_config.py:48] - INFO - initial swap_config from dict: {'swap': False, 'layer_swap': None, 'op_swap': None, 'default_prefetch': 1}
2025-07-15 10:13:18,020 - mindformers./output/log[mindformers/core/parallel_config.py:55] - INFO - initial recompute_config from dict: {'recompute': True, 'select_recompute': False, 'parallel_optimizer_comm_recompute': True, 'select_comm_recompute': False, 'mp_comm_recompute': True, 'recompute_slice_activation': True, 'select_recompute_exclude': False, 'select_comm_recompute_exclude': False}
2025-07-15 10:13:18,020 - mindformers./output/log[mindformers/core/parallel_config.py:61] - INFO - initial parallel_config from dict: {'data_parallel': 2, 'model_parallel': 2, 'context_parallel': 1, 'expert_parallel': 2, 'pipeline_stage': 2, 'micro_batch_num': 2, 'seq_split_num': 1, 'use_seq_parallel': True, 'optimizer_shard': None, 'gradient_aggregation_group': 4, 'vocab_emb_dp': True, 'context_parallel_algo': 'colossalai_cp', 'ulysses_degree_in_cp': 1, 'mem_coeff': 0.1}
2025-07-15 10:13:18,021 - mindformers./output/log[mindformers/core/parallel_config.py:63] - INFO - pipeline_stage = 2 > 1, vocab_emd_dp will be reset to False.
2025-07-15 10:13:18,021 - mindformers./output/log[mindformers/tools/utils.py:166] - INFO - set output path to '/home/jenkins/mindspore/testcases/testcases/tests/st/networks/llm_parallel_feature/deepseekv3/output'
2025-07-15 10:13:18,022 - mindformers./output/log[mindformers/tools/utils.py:181] - INFO - set strategy path to './output/strategy/ckpt_strategy_rank_0.ckpt'
[WARNING] GRAPH_KERNEL(897238,ffffb139eec0,python):2025-07-15-10:13:18.022.546 [mindspore/ccsrc/backend/common/graph_kernel/graph_kernel_flags.cc:116] ParseFlags] For 'context.set_context', the flag 'None' in the parameter 'graph_kernel_flags' is invalid. Valid flag format is "--key=value", flags are separated by spaces(e.g. "--key1=value1 --key2=value2"). bool flag's value can be implicit, the "--key" means "--key=true".
graph_kernel_flags = "None"
[WARNING] GRAPH_KERNEL(897226,ffffab7deec0,python):2025-07-15-10:13:18.022.946 [mindspore/ccsrc/backend/common/graph_kernel/graph_kernel_flags.cc:116] ParseFlags] For 'context.set_context', the flag 'None' in the parameter 'graph_kernel_flags' is invalid. Valid flag format is "--key=value", flags are separated by spaces(e.g. "--key1=value1 --key2=value2"). bool flag's value can be implicit, the "--key" means "--key=true".
graph_kernel_flags = "None"
[WARNING] GRAPH_KERNEL(897234,ffffa6e5eec0,python):2025-07-15-10:13:18.025.541 [mindspore/ccsrc/backend/common/graph_kernel/graph_kernel_flags.cc:116] ParseFlags] For 'context.set_context', the flag 'None' in the parameter 'graph_kernel_flags' is invalid. Valid flag format is "--key=value", flags are separated by spaces(e.g. "--key1=value1 --key2=value2"). bool flag's value can be implicit, the "--key" means "--key=true".
graph_kernel_flags = "None"
[WARNING] DISTRIBUTED(897238,ffffb139eec0,python):2025-07-15-10:13:18.026.198 [mindspore/ccsrc/distributed/collective/collective_manager.cc:341] CreateCommunicationGroup] Start to create communication group: hccl_world_group [const vector]{0, 1, 2, 3, 4, 5, 6, 7}, async: 1, submit_now: 1
[WARNING] DISTRIBUTED(897226,ffffab7deec0,python):2025-07-15-10:13:18.026.234 [mindspore/ccsrc/distributed/collective/collective_manager.cc:341] CreateCommunicationGroup] Start to create communication group: hccl_world_group [const vector]{0, 1, 2, 3, 4, 5, 6, 7}, async: 1, submit_now: 1
[WARNING] DISTRIBUTED(897238,ffffb139eec0,python):2025-07-15-10:13:18.026.406 [mindspore/ccsrc/distributed/collective/collective_manager.cc:393] CreateCommunicationGroup] This group's communicator is async created hccl_world_group
[WARNING] DISTRIBUTED(897226,ffffab7deec0,python):2025-07-15-10:13:18.026.441 [mindspore/ccsrc/distributed/collective/collective_manager.cc:393] CreateCommunicationGroup] This group's communicator is async created hccl_world_group
[WARNING] DEVICE(897238,fffed4baefa0,python):2025-07-15-10:13:18.026.668 [mindspore/ccsrc/plugin/res_manager/ascend/collective/ascend_communication_group.cc:254] SetGlobalCommInfo] Start to SetGlobalCommInfo for hccl_world_group, master_ip:2130706433, master_port:7123, node_rank:2130706433, total_rank_size:8, local_rank_size8
[WARNING] DEVICE(897226,fffece95efa0,python):2025-07-15-10:13:18.026.680 [mindspore/ccsrc/plugin/res_manager/ascend/collective/ascend_communication_group.cc:254] SetGlobalCommInfo] Start to SetGlobalCommInfo for hccl_world_group, master_ip:2130706433, master_port:7123, node_rank:2130706433, total_rank_size:8, local_rank_size8
[WARNING] HCCL_ADPT(897238,fffed4baefa0,python):2025-07-15-10:13:18.026.776 [mindspore/ccsrc/utils/dlopen_macro.h:165] DlsymAscend] Dynamically load symbol HcclSetGlobalCommInfo failed, result = /home/jenkins/anaconda3/envs/ci39/lib/python3.9/site-packages/mindspore/communication/../lib/plugin/ascend/libhccl_plugin.so: undefined symbol: HcclSetGlobalCommInfo
[WARNING] HCCL_ADPT(897226,fffece95efa0,python):2025-07-15-10:13:18.026.785 [mindspore/ccsrc/utils/dlopen_macro.h:165] DlsymAscend] Dynamically load symbol HcclSetGlobalCommInfo failed, result = /home/jenkins/anaconda3/envs/ci39/lib/python3.9/site-packages/mindspore/communication/../lib/plugin/ascend/libhccl_plugin.so: undefined symbol: HcclSetGlobalCommInfo
[WARNING] HCCL_ADPT(897226,fffece95efa0,python):2025-07-15-10:13:18.026.822 [mindspore/ccsrc/plugin/res_manager/ascend/hccl_adapter/hccl_adapter.cc:635] HcclSetGlobalCommInfo] Func HcclSetGlobalCommInfo is not supported in CANN package.
[WARNING] HCCL_ADPT(897238,fffed4baefa0,python):2025-07-15-10:13:18.026.815 [mindspore/ccsrc/plugin/res_manager/ascend/hccl_adapter/hccl_adapter.cc:635] HcclSetGlobalCommInfo] Func HcclSetGlobalCommInfo is not supported in CANN package.
[WARNING] DEVICE(897226,fffece95efa0,python):2025-07-15-10:13:18.026.853 [mindspore/ccsrc/plugin/res_manager/ascend/collective/ascend_communication_group.cc:265] SetGlobalCommInfo] End to SetGlobalCommInfo for hccl_world_group
[WARNING] DEVICE(897238,fffed4baefa0,python):2025-07-15-10:13:18.026.848 [mindspore/ccsrc/plugin/res_manager/ascend/collective/ascend_communication_group.cc:265] SetGlobalCommInfo] End to SetGlobalCommInfo for hccl_world_group
[WARNING] DISTRIBUTED(897226,fffece95efa0,python):2025-07-15-10:13:18.027.309 [mindspore/ccsrc/distributed/collective/collective_manager.cc:1021] CreateDeviceCommunicator] Begin initialize communication group on the device side: hccl_world_group
[WARNING] DISTRIBUTED(897238,fffed4baefa0,python):2025-07-15-10:13:18.027.380 [mindspore/ccsrc/distributed/collective/collective_manager.cc:1021] CreateDeviceCommunicator] Begin initialize communication group on the device side: hccl_world_group
[WARNING] DEVICE(897226,fffece14efa0,python):2025-07-15-10:13:18.027.619 [mindspore/ccsrc/plugin/res_manager/ascend/collective/ascend_communication_group.cc:169] InitByRootInfoConfig] Start to initialize communicator by HcclCommInitRootInfoConfig for hccl_world_group, hcclBufferSize is 200 MB, hcclDeterministic is 1
[WARNING] DEVICE(897238,fffe87ffefa0,python):2025-07-15-10:13:18.027.818 [mindspore/ccsrc/plugin/res_manager/ascend/collective/ascend_communication_group.cc:169] InitByRootInfoConfig] Start to initialize communicator by HcclCommInitRootInfoConfig for hccl_world_group, hcclBufferSize is 200 MB, hcclDeterministic is 1
2025-07-15 10:13:18,027 - mindformers./output/log[mindformers/tools/utils.py:181] - INFO - set strategy path to './output/strategy/ckpt_strategy_rank_3.ckpt'
2025-07-15 10:13:18,028 - mindformers./output/log[mindformers/tools/utils.py:181] - INFO - set strategy path to './output/strategy/ckpt_strategy_rank_6.ckpt'
2025-07-15 10:13:18,028 - mindformers./output/log[mindformers/tools/register/template.py:84] - WARNING - The input config swap_config is empty.
2025-07-15 10:13:18,028 - mindformers./output/log[mindformers/tools/register/template.py:84] - WARNING - The input config metric is empty.
[WARNING] DISTRIBUTED(897234,ffffa6e5eec0,python):2025-07-15-10:13:18.029.165 [mindspore/ccsrc/distributed/collective/collective_manager.cc:341] CreateCommunicationGroup] Start to create communication group: hccl_world_group [const vector]{0, 1, 2, 3, 4, 5, 6, 7}, async: 1, submit_now: 1
2025-07-15 10:13:18,029 - mindformers./output/log[mindformers/tools/register/template.py:84] - WARNING - The input config monitor_config is empty.
[WARNING] DISTRIBUTED(897234,ffffa6e5eec0,python):2025-07-15-10:13:18.029.390 [mindspore/ccsrc/distributed/collective/collective_manager.cc:393] CreateCommunicationGroup] This group's communicator is async created hccl_world_group
2025-07-15 10:13:18,029 - mindformers./output/log[mindformers/tools/register/template.py:683] - WARNING - Some configs in yaml are useless for train: ['auto_tune', 'autotune_per_step', 'eval_callbacks', 'eval_dataset', 'eval_dataset_task', 'filepath_prefix', 'processor']
[WARNING] DEVICE(897234,fffeca2eefa0,python):2025-07-15-10:13:18.029.629 [mindspore/ccsrc/plugin/res_manager/ascend/collective/ascend_communication_group.cc:254] SetGlobalCommInfo] Start to SetGlobalCommInfo for hccl_world_group, master_ip:2130706433, master_port:7123, node_rank:2130706433, total_rank_size:8, local_rank_size8
2025-07-15 10:13:18,029 - mindformers./output/log[mindformers/trainer/trainer.py:1008] - INFO - Load configs in /home/jenkins/mindspore/testcases/testcases/tests/st/networks/llm_parallel_feature/mindformers/configs/general/run_general_task.yaml to build trainer.
[WARNING] HCCL_ADPT(897234,fffeca2eefa0,python):2025-07-15-10:13:18.029.728 [mindspore/ccsrc/utils/dlopen_macro.h:165] DlsymAscend] Dynamically load symbol HcclSetGlobalCommInfo failed, result = /home/jenkins/anaconda3/envs/ci39/lib/python3.9/site-packages/mindspore/communication/../lib/plugin/ascend/libhccl_plugin.so: undefined symbol: HcclSetGlobalCommInfo
[WARNING] HCCL_ADPT(897234,fffeca2eefa0,python):2025-07-15-10:13:18.029.763 [mindspore/ccsrc/plugin/res_manager/ascend/hccl_adapter/hccl_adapter.cc:635] HcclSetGlobalCommInfo] Func HcclSetGlobalCommInfo is not supported in CANN package.
[WARNING] DEVICE(897234,fffeca2eefa0,python):2025-07-15-10:13:18.029.792 [mindspore/ccsrc/plugin/res_manager/ascend/collective/ascend_communication_group.cc:265] SetGlobalCommInfo] End to SetGlobalCommInfo for hccl_world_group
2025-07-15 10:13:18,029 - mindformers./output/log[mindformers/trainer/trainer.py:1044] - INFO - ..........Init Config..........
2025-07-15 10:13:18,029 - mindformers./output/log[mindformers/core/parallel_config.py:41] - INFO - initial moe_config from dict: {'expert_num': 4, 'capacity_factor': 1.5, 'aux_loss_factor': 0.05, 'num_experts_chosen': 2, 'expert_group_size': 2, 'group_wise_a2a': False, 'comp_comm_parallel': False, 'comp_comm_parallel_degree': 2, 'save_token_distribution': False, 'cur_layer': 0, 'enable_cold_hot_expert': False, 'update_step': 10000, 'hot_expert_num': 0, 'cold_token_percent': 1.0, 'moe_module_name': '', 'routing_policy': 'TopkRouterV2', 'norm_topk_prob': False, 'enable_sdrop': False, 'use_fused_ops_topkrouter': True, 'router_dense_type': 'float32', 'shared_expert_num': 1, 'use_shared_expert_gating': False, 'max_router_load': 131072, 'topk_method': 'greedy', 'topk_group': 3, 'n_group': 8, 'first_k_dense_replace': 1, 'moe_intermediate_size': 512, 'routed_scaling_factor': 2.5, 'aux_loss_types': ['expert'], 'aux_loss_factors': [0.0001], 'z_loss_factor': 0.0, 'balance_via_topk_bias': True, 'topk_bias_update_rate': 0.0001, 'use_allgather_dispatcher': False, 'moe_shared_expert_overlap': False, 'expert_model_parallel': 1, 'use_gating_sigmoid': True, 'enable_deredundency': True, 'npu_nums_per_device': 2, 'use_gmm': True, 'enable_gmm_safe_tokens': True, 'use_fused_ops_permute': True, 'callback_moe_droprate': False}
[WARNING] DISTRIBUTED(897234,fffeca2eefa0,python):2025-07-15-10:13:18.030.232 [mindspore/ccsrc/distributed/collective/collective_manager.cc:1021] CreateDeviceCommunicator] Begin initialize communication group on the device side: hccl_world_group
2025-07-15 10:13:18,030 - mindformers./output/log[mindformers/core/parallel_config.py:48] - INFO - initial swap_config from dict: {'swap': False, 'layer_swap': None, 'op_swap': None, 'default_prefetch': 1}
[WARNING] DEVICE(897234,fffec9adefa0,python):2025-07-15-10:13:18.030.552 [mindspore/ccsrc/plugin/res_manager/ascend/collective/ascend_communication_group.cc:169] InitByRootInfoConfig] Start to initialize communicator by HcclCommInitRootInfoConfig for hccl_world_group, hcclBufferSize is 200 MB, hcclDeterministic is 1
2025-07-15 10:13:18,030 - mindformers./output/log[mindformers/core/parallel_config.py:55] - INFO - initial recompute_config from dict: {'recompute': True, 'select_recompute': False, 'parallel_optimizer_comm_recompute': True, 'select_comm_recompute': False, 'mp_comm_recompute': True, 'recompute_slice_activation': True, 'select_recompute_exclude': False, 'select_comm_recompute_exclude': False}
2025-07-15 10:13:18,030 - mindformers./output/log[mindformers/core/parallel_config.py:61] - INFO - initial parallel_config from dict: {'data_parallel': 2, 'model_parallel': 2, 'context_parallel': 1, 'expert_parallel': 2, 'pipeline_stage': 2, 'micro_batch_num': 2, 'seq_split_num': 1, 'use_seq_parallel': True, 'optimizer_shard': None, 'gradient_aggregation_group': 4, 'vocab_emb_dp': True, 'context_parallel_algo': 'colossalai_cp', 'ulysses_degree_in_cp': 1, 'mem_coeff': 0.1}
2025-07-15 10:13:18,030 - mindformers./output/log[mindformers/tools/utils.py:181] - INFO - set strategy path to './output/strategy/ckpt_strategy_rank_5.ckpt'
2025-07-15 10:13:18,031 - mindformers./output/log[mindformers/core/parallel_config.py:63] - INFO - pipeline_stage = 2 > 1, vocab_emd_dp will be reset to False.
2025-07-15 10:13:18,031 - mindformers./output/log[mindformers/tools/utils.py:166] - INFO - set output path to '/home/jenkins/mindspore/testcases/testcases/tests/st/networks/llm_parallel_feature/deepseekv3/output'
2025-07-15 10:13:18,032 - mindformers./output/log[mindformers/tools/utils.py:181] - INFO - set strategy path to './output/strategy/ckpt_strategy_rank_4.ckpt'
2025-07-15 10:13:18,054 - mindformers./output/log[mindformers/tools/register/template.py:84] - WARNING - The input config swap_config is empty.
2025-07-15 10:13:18,055 - mindformers./output/log[mindformers/tools/register/template.py:84] - WARNING - The input config metric is empty.
2025-07-15 10:13:18,055 - mindformers./output/log[mindformers/tools/register/template.py:84] - WARNING - The input config monitor_config is empty.
2025-07-15 10:13:18,055 - mindformers./output/log[mindformers/tools/register/template.py:683] - WARNING - Some configs in yaml are useless for train: ['auto_tune', 'autotune_per_step', 'eval_callbacks', 'eval_dataset', 'eval_dataset_task', 'filepath_prefix', 'processor']
2025-07-15 10:13:18,055 - mindformers./output/log[mindformers/tools/register/template.py:84] - WARNING - The input config swap_config is empty.
2025-07-15 10:13:18,055 - mindformers./output/log[mindformers/trainer/trainer.py:1008] - INFO - Load configs in /home/jenkins/mindspore/testcases/testcases/tests/st/networks/llm_parallel_feature/mindformers/configs/general/run_general_task.yaml to build trainer.
2025-07-15 10:13:18,056 - mindformers./output/log[mindformers/trainer/trainer.py:1044] - INFO - ..........Init Config..........
2025-07-15 10:13:18,056 - mindformers./output/log[mindformers/tools/register/template.py:84] - WARNING - The input config metric is empty.
2025-07-15 10:13:18,056 - mindformers./output/log[mindformers/core/parallel_config.py:41] - INFO - initial moe_config from dict: {'expert_num': 4, 'capacity_factor': 1.5, 'aux_loss_factor': 0.05, 'num_experts_chosen': 2, 'expert_group_size': 2, 'group_wise_a2a': False, 'comp_comm_parallel': False, 'comp_comm_parallel_degree': 2, 'save_token_distribution': False, 'cur_layer': 0, 'enable_cold_hot_expert': False, 'update_step': 10000, 'hot_expert_num': 0, 'cold_token_percent': 1.0, 'moe_module_name': '', 'routing_policy': 'TopkRouterV2', 'norm_topk_prob': False, 'enable_sdrop': False, 'use_fused_ops_topkrouter': True, 'router_dense_type': 'float32', 'shared_expert_num': 1, 'use_shared_expert_gating': False, 'max_router_load': 131072, 'topk_method': 'greedy', 'topk_group': 3, 'n_group': 8, 'first_k_dense_replace': 1, 'moe_intermediate_size': 512, 'routed_scaling_factor': 2.5, 'aux_loss_types': ['expert'], 'aux_loss_factors': [0.0001], 'z_loss_factor': 0.0, 'balance_via_topk_bias': True, 'topk_bias_update_rate': 0.0001, 'use_allgather_dispatcher': False, 'moe_shared_expert_overlap': False, 'expert_model_parallel': 1, 'use_gating_sigmoid': True, 'enable_deredundency': True, 'npu_nums_per_device': 2, 'use_gmm': True, 'enable_gmm_safe_tokens': True, 'use_fused_ops_permute': True, 'callback_moe_droprate': False}
2025-07-15 10:13:18,056 - mindformers./output/log[mindformers/tools/register/template.py:84] - WARNING - The input config monitor_config is empty.
2025-07-15 10:13:18,056 - mindformers./output/log[mindformers/tools/register/template.py:683] - WARNING - Some configs in yaml are useless for train: ['auto_tune', 'autotune_per_step', 'eval_callbacks', 'eval_dataset', 'eval_dataset_task', 'filepath_prefix', 'processor']
2025-07-15 10:13:18,056 - mindformers./output/log[mindformers/core/parallel_config.py:48] - INFO - initial swap_config from dict: {'swap': False, 'layer_swap': None, 'op_swap': None, 'default_prefetch': 1}
2025-07-15 10:13:18,056 - mindformers./output/log[mindformers/core/parallel_config.py:55] - INFO - initial recompute_config from dict: {'recompute': True, 'select_recompute': False, 'parallel_optimizer_comm_recompute': True, 'select_comm_recompute': False, 'mp_comm_recompute': True, 'recompute_slice_activation': True, 'select_recompute_exclude': False, 'select_comm_recompute_exclude': False}
2025-07-15 10:13:18,056 - mindformers./output/log[mindformers/trainer/trainer.py:1008] - INFO - Load configs in /home/jenkins/mindspore/testcases/testcases/tests/st/networks/llm_parallel_feature/mindformers/configs/general/run_general_task.yaml to build trainer.
2025-07-15 10:13:18,057 - mindformers./output/log[mindformers/trainer/trainer.py:1044] - INFO - ..........Init Config..........
2025-07-15 10:13:18,057 - mindformers./output/log[mindformers/core/parallel_config.py:61] - INFO - initial parallel_config from dict: {'data_parallel': 2, 'model_parallel': 2, 'context_parallel': 1, 'expert_parallel': 2, 'pipeline_stage': 2, 'micro_batch_num': 2, 'seq_split_num': 1, 'use_seq_parallel': True, 'optimizer_shard': None, 'gradient_aggregation_group': 4, 'vocab_emb_dp': True, 'context_parallel_algo': 'colossalai_cp', 'ulysses_degree_in_cp': 1, 'mem_coeff': 0.1}
2025-07-15 10:13:18,057 - mindformers./output/log[mindformers/core/parallel_config.py:41] - INFO - initial moe_config from dict: {'expert_num': 4, 'capacity_factor': 1.5, 'aux_loss_factor': 0.05, 'num_experts_chosen': 2, 'expert_group_size': 2, 'group_wise_a2a': False, 'comp_comm_parallel': False, 'comp_comm_parallel_degree': 2, 'save_token_distribution': False, 'cur_layer': 0, 'enable_cold_hot_expert': False, 'update_step': 10000, 'hot_expert_num': 0, 'cold_token_percent': 1.0, 'moe_module_name': '', 'routing_policy': 'TopkRouterV2', 'norm_topk_prob': False, 'enable_sdrop': False, 'use_fused_ops_topkrouter': True, 'router_dense_type': 'float32', 'shared_expert_num': 1, 'use_shared_expert_gating': False, 'max_router_load': 131072, 'topk_method': 'greedy', 'topk_group': 3, 'n_group': 8, 'first_k_dense_replace': 1, 'moe_intermediate_size': 512, 'routed_scaling_factor': 2.5, 'aux_loss_types': ['expert'], 'aux_loss_factors': [0.0001], 'z_loss_factor': 0.0, 'balance_via_topk_bias': True, 'topk_bias_update_rate': 0.0001, 'use_allgather_dispatcher': False, 'moe_shared_expert_overlap': False, 'expert_model_parallel': 1, 'use_gating_sigmoid': True, 'enable_deredundency': True, 'npu_nums_per_device': 2, 'use_gmm': True, 'enable_gmm_safe_tokens': True, 'use_fused_ops_permute': True, 'callback_moe_droprate': False}
2025-07-15 10:13:18,057 - mindformers./output/log[mindformers/core/parallel_config.py:63] - INFO - pipeline_stage = 2 > 1, vocab_emd_dp will be reset to False.
2025-07-15 10:13:18,057 - mindformers./output/log[mindformers/core/parallel_config.py:48] - INFO - initial swap_config from dict: {'swap': False, 'layer_swap': None, 'op_swap': None, 'default_prefetch': 1}
2025-07-15 10:13:18,058 - mindformers./output/log[mindformers/core/parallel_config.py:55] - INFO - initial recompute_config from dict: {'recompute': True, 'select_recompute': False, 'parallel_optimizer_comm_recompute': True, 'select_comm_recompute': False, 'mp_comm_recompute': True, 'recompute_slice_activation': True, 'select_recompute_exclude': False, 'select_comm_recompute_exclude': False}
2025-07-15 10:13:18,058 - mindformers./output/log[mindformers/tools/register/template.py:84] - WARNING - The input config swap_config is empty.
2025-07-15 10:13:18,058 - mindformers./output/log[mindformers/tools/utils.py:166] - INFO - set output path to '/home/jenkins/mindspore/testcases/testcases/tests/st/networks/llm_parallel_feature/deepseekv3/output'
2025-07-15 10:13:18,058 - mindformers./output/log[mindformers/core/parallel_config.py:61] - INFO - initial parallel_config from dict: {'data_parallel': 2, 'model_parallel': 2, 'context_parallel': 1, 'expert_parallel': 2, 'pipeline_stage': 2, 'micro_batch_num': 2, 'seq_split_num': 1, 'use_seq_parallel': True, 'optimizer_shard': None, 'gradient_aggregation_group': 4, 'vocab_emb_dp': True, 'context_parallel_algo': 'colossalai_cp', 'ulysses_degree_in_cp': 1, 'mem_coeff': 0.1}
2025-07-15 10:13:18,058 - mindformers./output/log[mindformers/tools/utils.py:181] - INFO - set strategy path to './output/strategy/ckpt_strategy_rank_3.ckpt'
2025-07-15 10:13:18,058 - mindformers./output/log[mindformers/core/parallel_config.py:63] - INFO - pipeline_stage = 2 > 1, vocab_emd_dp will be reset to False.
2025-07-15 10:13:18,059 - mindformers./output/log[mindformers/tools/utils.py:166] - INFO - set output path to '/home/jenkins/mindspore/testcases/testcases/tests/st/networks/llm_parallel_feature/deepseekv3/output'
2025-07-15 10:13:18,059 - mindformers./output/log[mindformers/tools/utils.py:181] - INFO - set strategy path to './output/strategy/ckpt_strategy_rank_6.ckpt'
2025-07-15 10:13:18,061 - mindformers./output/log[mindformers/tools/register/template.py:84] - WARNING - The input config metric is empty.
2025-07-15 10:13:18,062 - mindformers./output/log[mindformers/tools/register/template.py:84] - WARNING - The input config monitor_config is empty.
2025-07-15 10:13:18,062 - mindformers./output/log[mindformers/tools/register/template.py:683] - WARNING - Some configs in yaml are useless for train: ['auto_tune', 'autotune_per_step', 'eval_callbacks', 'eval_dataset', 'eval_dataset_task', 'filepath_prefix', 'processor']
2025-07-15 10:13:18,062 - mindformers./output/log[mindformers/trainer/trainer.py:1008] - INFO - Load configs in /home/jenkins/mindspore/testcases/testcases/tests/st/networks/llm_parallel_feature/mindformers/configs/general/run_general_task.yaml to build trainer.
2025-07-15 10:13:18,063 - mindformers./output/log[mindformers/trainer/trainer.py:1044] - INFO - ..........Init Config..........
2025-07-15 10:13:18,063 - mindformers./output/log[mindformers/core/parallel_config.py:41] - INFO - initial moe_config from dict: {'expert_num': 4, 'capacity_factor': 1.5, 'aux_loss_factor': 0.05, 'num_experts_chosen': 2, 'expert_group_size': 2, 'group_wise_a2a': False, 'comp_comm_parallel': False, 'comp_comm_parallel_degree': 2, 'save_token_distribution': False, 'cur_layer': 0, 'enable_cold_hot_expert': False, 'update_step': 10000, 'hot_expert_num': 0, 'cold_token_percent': 1.0, 'moe_module_name': '', 'routing_policy': 'TopkRouterV2', 'norm_topk_prob': False, 'enable_sdrop': False, 'use_fused_ops_topkrouter': True, 'router_dense_type': 'float32', 'shared_expert_num': 1, 'use_shared_expert_gating': False, 'max_router_load': 131072, 'topk_method': 'greedy', 'topk_group': 3, 'n_group': 8, 'first_k_dense_replace': 1, 'moe_intermediate_size': 512, 'routed_scaling_factor': 2.5, 'aux_loss_types': ['expert'], 'aux_loss_factors': [0.0001], 'z_loss_factor': 0.0, 'balance_via_topk_bias': True, 'topk_bias_update_rate': 0.0001, 'use_allgather_dispatcher': False, 'moe_shared_expert_overlap': False, 'expert_model_parallel': 1, 'use_gating_sigmoid': True, 'enable_deredundency': True, 'npu_nums_per_device': 2, 'use_gmm': True, 'enable_gmm_safe_tokens': True, 'use_fused_ops_permute': True, 'callback_moe_droprate': False}
2025-07-15 10:13:18,063 - mindformers./output/log[mindformers/core/parallel_config.py:48] - INFO - initial swap_config from dict: {'swap': False, 'layer_swap': None, 'op_swap': None, 'default_prefetch': 1}
2025-07-15 10:13:18,064 - mindformers./output/log[mindformers/core/parallel_config.py:55] - INFO - initial recompute_config from dict: {'recompute': True, 'select_recompute': False, 'parallel_optimizer_comm_recompute': True, 'select_comm_recompute': False, 'mp_comm_recompute': True, 'recompute_slice_activation': True, 'select_recompute_exclude': False, 'select_comm_recompute_exclude': False}
2025-07-15 10:13:18,064 - mindformers./output/log[mindformers/core/parallel_config.py:61] - INFO - initial parallel_config from dict: {'data_parallel': 2, 'model_parallel': 2, 'context_parallel': 1, 'expert_parallel': 2, 'pipeline_stage': 2, 'micro_batch_num': 2, 'seq_split_num': 1, 'use_seq_parallel': True, 'optimizer_shard': None, 'gradient_aggregation_group': 4, 'vocab_emb_dp': True, 'context_parallel_algo': 'colossalai_cp', 'ulysses_degree_in_cp': 1, 'mem_coeff': 0.1}
2025-07-15 10:13:18,064 - mindformers./output/log[mindformers/core/parallel_config.py:63] - INFO - pipeline_stage = 2 > 1, vocab_emd_dp will be reset to False.
2025-07-15 10:13:18,065 - mindformers./output/log[mindformers/tools/utils.py:166] - INFO - set output path to '/home/jenkins/mindspore/testcases/testcases/tests/st/networks/llm_parallel_feature/deepseekv3/output'
2025-07-15 10:13:18,065 - mindformers./output/log[mindformers/tools/utils.py:181] - INFO - set strategy path to './output/strategy/ckpt_strategy_rank_5.ckpt'
2025-07-15 10:13:18,133 - mindformers./output/log[mindformers/models/utils.py:190] - INFO - num_layers per stage: [[1, 1], [1, 1]]
2025-07-15 10:13:18,133 - mindformers./output/log[mindformers/models/utils.py:191] - INFO - Accumulated num_layers per stage: [[1, 2], [3, 4]]
2025-07-15 10:13:18,133 - mindformers./output/log[mindformers/models/utils.py:193] - INFO - Pipeline id list with start_stage: [0, 1, 0, 1]
2025-07-15 10:13:18,134 - mindformers./output/log[mindformers/models/utils.py:194] - INFO - Interleave id list: [0, 0, 1, 1]
2025-07-15 10:13:18,134 - mindformers./output/log[mindformers/models/utils.py:212] - INFO - Formative layer_recompute: [[1, 1], [1, 1]]
2025-07-15 10:13:18,134 - mindformers./output/log[mindformers/models/utils.py:214] - INFO - The configuration of select_recompute_exclude and select_comm_recompute_exclude have the highest priority.
2025-07-15 10:13:18,134 - mindformers./output/log[mindformers/models/utils.py:220] - INFO - Formative select_recompute: {'feed_forward\\.mul': [[0, 0], [0, 0]], 'feed_forward\\.w1\\.activation\\.silu': [[0, 0], [0, 0]]}
2025-07-15 10:13:18,134 - mindformers./output/log[mindformers/models/utils.py:221] - INFO - Formative select_comm_recompute: {'.*\\.norm': [[0, 0], [0, 0]]}
2025-07-15 10:13:18,135 - mindformers./output/log[mindformers/models/utils.py:222] - INFO - Formative select_recompute_exclude: {}
2025-07-15 10:13:18,135 - mindformers./output/log[mindformers/models/utils.py:223] - INFO - Formative select_comm_recompute_exclude: {}
2025-07-15 10:13:18,154 - mindformers./output/log[mindformers/research/deepseek3/deepseek2_model.py:1042] - WARNING - first_k_dense_replace is provided in MoEConfig, a normal dense FFN will be used in this block.
2025-07-15 10:13:18,162 - mindformers./output/log[mindformers/models/utils.py:423] - INFO - Set full recompute at layer 0
2025-07-15 10:13:18,164 - mindformers./output/log[mindformers/trainer/base_trainer.py:107] - INFO - host_name: ascend213, host_ip: 121.37.54.128
2025-07-15 10:13:18,164 - mindformers./output/log[mindformers/trainer/base_trainer.py:113] - INFO - Now Running Task is: text_generation, Model is: deepseekV3
2025-07-15 10:13:18,165 - mindformers./output/log[mindformers/trainer/base_trainer.py:143] - WARNING - Input model name is not in the supported list or unspecified.
2025-07-15 10:13:18,165 - mindformers./output/log[mindformers/trainer/base_trainer.py:144] - WARNING - See the list of supported task and model name: ['codellama_34b', 'common', 'deepseek1_5_7b', 'deepseek_33b', 'glm3_6b', 'glm4_9b', 'gpt2', 'gpt2_13b', 'gpt2_52b', 'gpt2_lora', 'gpt2_xl', 'gpt2_xl_lora', 'internlm_7b', 'internlm_7b_lora', 'llama2_13b', 'llama2_70b', 'llama2_7b', 'llama2_7b_lora', 'llama_7b_slora', 'yi_34b', 'yi_6b']
2025-07-15 10:13:18,165 - mindformers./output/log[mindformers/trainer/base_trainer.py:145] - WARNING - The default model config: /home/jenkins/mindspore/testcases/testcases/tests/st/networks/llm_parallel_feature/mindformers/configs/gpt2/run_gpt2.yaml will now be used for the text_generation task 
2025-07-15 10:13:18,166 - mindformers./output/log[mindformers/trainer/trainer.py:1117] - INFO - ..........Init Model..........
2025-07-15 10:13:18,166 - mindformers./output/log[mindformers/trainer/trainer.py:323] - INFO - ==========Trainer Init Success!==========
2025-07-15 10:13:18,166 - mindformers./output/log[mindformers/trainer/trainer.py:406] - WARNING - sink_size will not be able to set in a future release. Modifying sink_size may cause functional issues when resuming training from a checkpoint.
2025-07-15 10:13:18,167 - mindformers./output/log[mindformers/trainer/trainer.py:1117] - INFO - ..........Init Model..........
2025-07-15 10:13:18,167 - mindformers./output/log[mindformers/trainer/base_trainer.py:204] - INFO - Pipeline parallel was opened: pipeline_stages = 2, full batch is True, gradient_accumulation_steps will not take effect in pipeline parallel, global batch size will be changed: global_batch_size = batch_size * data_parallel * micro_batch_num * micro_batch_interleave_num = 4 = 1 * 2 * 2 * 1).
2025-07-15 10:13:18,167 - mindformers./output/log[mindformers/trainer/base_trainer.py:338] - WARNING - When using the pipeline parallel mode, the MFPipelineWithLossScaleCell class is used by default.
2025-07-15 10:13:18,168 - mindformers./output/log[mindformers/trainer/base_trainer.py:346] - INFO - PipelineWrapper under evaluate or predict mode will not take effect.
2025-07-15 10:13:18,168 - mindformers./output/log[mindformers/trainer/base_trainer.py:920] - INFO - .........Build Dataset For Train..........
2025-07-15 10:13:18,168 - mindformers./output/log[mindformers/trainer/base_trainer.py:464] - INFO - .........Build Dataset From Config..........
2025-07-15 10:13:18,168 - mindformers./output/log[mindformers/dataset/causal_language_model_dataset.py:302] - INFO - Now Create Causal Language Model Dataset.
2025-07-15 10:13:18,169 - mindformers./output/log[mindformers/dataset/base_dataset.py:83] - INFO - Now dataset_strategy is full_batch, shard_id: None, num_shards: None
2025-07-15 10:13:18,170 - mindformers./output/log[mindformers/trainer/base_trainer.py:107] - INFO - host_name: ascend213, host_ip: 121.37.54.128
2025-07-15 10:13:18,171 - mindformers./output/log[mindformers/trainer/base_trainer.py:113] - INFO - Now Running Task is: text_generation, Model is: deepseekV3
2025-07-15 10:13:18,171 - mindformers./output/log[mindformers/trainer/base_trainer.py:143] - WARNING - Input model name is not in the supported list or unspecified.
2025-07-15 10:13:18,171 - mindformers./output/log[mindformers/trainer/base_trainer.py:144] - WARNING - See the list of supported task and model name: ['codellama_34b', 'common', 'deepseek1_5_7b', 'deepseek_33b', 'glm3_6b', 'glm4_9b', 'gpt2', 'gpt2_13b', 'gpt2_52b', 'gpt2_lora', 'gpt2_xl', 'gpt2_xl_lora', 'internlm_7b', 'internlm_7b_lora', 'llama2_13b', 'llama2_70b', 'llama2_7b', 'llama2_7b_lora', 'llama_7b_slora', 'yi_34b', 'yi_6b']
2025-07-15 10:13:18,172 - mindformers./output/log[mindformers/trainer/base_trainer.py:145] - WARNING - The default model config: /home/jenkins/mindspore/testcases/testcases/tests/st/networks/llm_parallel_feature/mindformers/configs/gpt2/run_gpt2.yaml will now be used for the text_generation task 
2025-07-15 10:13:18,172 - mindformers./output/log[mindformers/trainer/trainer.py:1117] - INFO - ..........Init Model..........
2025-07-15 10:13:18,172 - mindformers./output/log[mindformers/trainer/trainer.py:323] - INFO - ==========Trainer Init Success!==========
2025-07-15 10:13:18,172 - mindformers./output/log[mindformers/trainer/trainer.py:406] - WARNING - sink_size will not be able to set in a future release. Modifying sink_size may cause functional issues when resuming training from a checkpoint.
2025-07-15 10:13:18,173 - mindformers./output/log[mindformers/trainer/trainer.py:1117] - INFO - ..........Init Model..........
2025-07-15 10:13:18,173 - mindformers./output/log[mindformers/trainer/base_trainer.py:204] - INFO - Pipeline parallel was opened: pipeline_stages = 2, full batch is True, gradient_accumulation_steps will not take effect in pipeline parallel, global batch size will be changed: global_batch_size = batch_size * data_parallel * micro_batch_num * micro_batch_interleave_num = 4 = 1 * 2 * 2 * 1).
2025-07-15 10:13:18,173 - mindformers./output/log[mindformers/trainer/base_trainer.py:338] - WARNING - When using the pipeline parallel mode, the MFPipelineWithLossScaleCell class is used by default.
2025-07-15 10:13:18,173 - mindformers./output/log[mindformers/trainer/base_trainer.py:346] - INFO - PipelineWrapper under evaluate or predict mode will not take effect.
2025-07-15 10:13:18,174 - mindformers./output/log[mindformers/trainer/base_trainer.py:920] - INFO - .........Build Dataset For Train..........
2025-07-15 10:13:18,174 - mindformers./output/log[mindformers/trainer/base_trainer.py:464] - INFO - .........Build Dataset From Config..........
2025-07-15 10:13:18,174 - mindformers./output/log[mindformers/dataset/causal_language_model_dataset.py:302] - INFO - Now Create Causal Language Model Dataset.
2025-07-15 10:13:18,175 - mindformers./output/log[mindformers/dataset/base_dataset.py:83] - INFO - Now dataset_strategy is full_batch, shard_id: None, num_shards: None
2025-07-15 10:13:18,176 - mindformers./output/log[mindformers/trainer/base_trainer.py:924] - INFO - Create train dataset finish, dataset size:15
2025-07-15 10:13:18,177 - mindformers./output/log[mindformers/trainer/utils.py:176] - INFO - Will be Training epochs:1, sink_size:1
2025-07-15 10:13:18,177 - mindformers./output/log[mindformers/trainer/utils.py:178] - INFO - Create training dataset finish, dataset size:15
2025-07-15 10:13:18,177 - mindformers./output/log[mindformers/trainer/base_trainer.py:971] - INFO - .........Build Net For Train..........
2025-07-15 10:13:18,178 - mindformers./output/log[mindformers/trainer/base_trainer.py:498] - INFO - .........Build Network From Config..........
2025-07-15 10:13:18,177 - mindformers./output/log[mindformers/trainer/base_trainer.py:107] - INFO - host_name: ascend213, host_ip: 121.37.54.128
2025-07-15 10:13:18,178 - mindformers./output/log[mindformers/trainer/base_trainer.py:113] - INFO - Now Running Task is: text_generation, Model is: deepseekV3
2025-07-15 10:13:18,178 - mindformers./output/log[mindformers/trainer/base_trainer.py:143] - WARNING - Input model name is not in the supported list or unspecified.
2025-07-15 10:13:18,178 - mindformers./output/log[mindformers/trainer/base_trainer.py:144] - WARNING - See the list of supported task and model name: ['codellama_34b', 'common', 'deepseek1_5_7b', 'deepseek_33b', 'glm3_6b', 'glm4_9b', 'gpt2', 'gpt2_13b', 'gpt2_52b', 'gpt2_lora', 'gpt2_xl', 'gpt2_xl_lora', 'internlm_7b', 'internlm_7b_lora', 'llama2_13b', 'llama2_70b', 'llama2_7b', 'llama2_7b_lora', 'llama_7b_slora', 'yi_34b', 'yi_6b']
2025-07-15 10:13:18,179 - mindformers./output/log[mindformers/trainer/base_trainer.py:145] - WARNING - The default model config: /home/jenkins/mindspore/testcases/testcases/tests/st/networks/llm_parallel_feature/mindformers/configs/gpt2/run_gpt2.yaml will now be used for the text_generation task 
2025-07-15 10:13:18,179 - mindformers./output/log[mindformers/trainer/trainer.py:1117] - INFO - ..........Init Model..........
2025-07-15 10:13:18,180 - mindformers./output/log[mindformers/trainer/trainer.py:323] - INFO - ==========Trainer Init Success!==========
2025-07-15 10:13:18,180 - mindformers./output/log[mindformers/trainer/trainer.py:406] - WARNING - sink_size will not be able to set in a future release. Modifying sink_size may cause functional issues when resuming training from a checkpoint.
2025-07-15 10:13:18,180 - mindformers./output/log[mindformers/trainer/trainer.py:1117] - INFO - ..........Init Model..........
2025-07-15 10:13:18,180 - mindformers./output/log[mindformers/research/deepseek3/deepseek2_model.py:1072] - INFO - MoE config is provided, use MoE FFN with shared ffn
2025-07-15 10:13:18,181 - mindformers./output/log[mindformers/trainer/base_trainer.py:204] - INFO - Pipeline parallel was opened: pipeline_stages = 2, full batch is True, gradient_accumulation_steps will not take effect in pipeline parallel, global batch size will be changed: global_batch_size = batch_size * data_parallel * micro_batch_num * micro_batch_interleave_num = 4 = 1 * 2 * 2 * 1).
2025-07-15 10:13:18,181 - mindformers./output/log[mindformers/trainer/base_trainer.py:338] - WARNING - When using the pipeline parallel mode, the MFPipelineWithLossScaleCell class is used by default.
2025-07-15 10:13:18,181 - mindformers./output/log[mindformers/trainer/base_trainer.py:346] - INFO - PipelineWrapper under evaluate or predict mode will not take effect.
2025-07-15 10:13:18,181 - mindformers./output/log[mindformers/trainer/base_trainer.py:920] - INFO - .........Build Dataset For Train..........
2025-07-15 10:13:18,181 - mindformers./output/log[mindformers/trainer/base_trainer.py:464] - INFO - .........Build Dataset From Config..........
2025-07-15 10:13:18,182 - mindformers./output/log[mindformers/dataset/causal_language_model_dataset.py:302] - INFO - Now Create Causal Language Model Dataset.
2025-07-15 10:13:18,182 - mindformers./output/log[mindformers/trainer/base_trainer.py:924] - INFO - Create train dataset finish, dataset size:15
2025-07-15 10:13:18,182 - mindformers./output/log[mindformers/trainer/utils.py:176] - INFO - Will be Training epochs:1, sink_size:1
2025-07-15 10:13:18,182 - mindformers./output/log[mindformers/trainer/utils.py:178] - INFO - Create training dataset finish, dataset size:15
2025-07-15 10:13:18,183 - mindformers./output/log[mindformers/dataset/base_dataset.py:83] - INFO - Now dataset_strategy is full_batch, shard_id: None, num_shards: None
2025-07-15 10:13:18,183 - mindformers./output/log[mindformers/trainer/base_trainer.py:971] - INFO - .........Build Net For Train..........
2025-07-15 10:13:18,183 - mindformers./output/log[mindformers/trainer/base_trainer.py:498] - INFO - .........Build Network From Config..........
[WARNING] DISTRIBUTED(897222,ffff83ebeec0,python):2025-07-15-10:13:18.188.605 [mindspore/ccsrc/distributed/collective/collective_manager.cc:341] CreateCommunicationGroup] Start to create communication group: c22c60349630d688cef20a3fd708ad87 [const vector]{2, 3}, async: 0, submit_now: 1
2025-07-15 10:13:18,189 - mindformers./output/log[mindformers/trainer/base_trainer.py:924] - INFO - Create train dataset finish, dataset size:15
2025-07-15 10:13:18,189 - mindformers./output/log[mindformers/trainer/utils.py:176] - INFO - Will be Training epochs:1, sink_size:1
2025-07-15 10:13:18,190 - mindformers./output/log[mindformers/trainer/utils.py:178] - INFO - Create training dataset finish, dataset size:15
2025-07-15 10:13:18,190 - mindformers./output/log[mindformers/trainer/base_trainer.py:971] - INFO - .........Build Net For Train..........
2025-07-15 10:13:18,190 - mindformers./output/log[mindformers/trainer/base_trainer.py:498] - INFO - .........Build Network From Config..........
2025-07-15 10:13:18,194 - mindformers./output/log[mindformers/trainer/base_trainer.py:107] - INFO - host_name: ascend213, host_ip: 121.37.54.128
2025-07-15 10:13:18,195 - mindformers./output/log[mindformers/trainer/base_trainer.py:113] - INFO - Now Running Task is: text_generation, Model is: deepseekV3
2025-07-15 10:13:18,195 - mindformers./output/log[mindformers/trainer/base_trainer.py:143] - WARNING - Input model name is not in the supported list or unspecified.
2025-07-15 10:13:18,195 - mindformers./output/log[mindformers/trainer/base_trainer.py:144] - WARNING - See the list of supported task and model name: ['codellama_34b', 'common', 'deepseek1_5_7b', 'deepseek_33b', 'glm3_6b', 'glm4_9b', 'gpt2', 'gpt2_13b', 'gpt2_52b', 'gpt2_lora', 'gpt2_xl', 'gpt2_xl_lora', 'internlm_7b', 'internlm_7b_lora', 'llama2_13b', 'llama2_70b', 'llama2_7b', 'llama2_7b_lora', 'llama_7b_slora', 'yi_34b', 'yi_6b']
2025-07-15 10:13:18,196 - mindformers./output/log[mindformers/trainer/base_trainer.py:145] - WARNING - The default model config: /home/jenkins/mindspore/testcases/testcases/tests/st/networks/llm_parallel_feature/mindformers/configs/gpt2/run_gpt2.yaml will now be used for the text_generation task 
2025-07-15 10:13:18,196 - mindformers./output/log[mindformers/trainer/trainer.py:1117] - INFO - ..........Init Model..........
2025-07-15 10:13:18,197 - mindformers./output/log[mindformers/trainer/trainer.py:323] - INFO - ==========Trainer Init Success!==========
2025-07-15 10:13:18,197 - mindformers./output/log[mindformers/trainer/trainer.py:406] - WARNING - sink_size will not be able to set in a future release. Modifying sink_size may cause functional issues when resuming training from a checkpoint.
2025-07-15 10:13:18,197 - mindformers./output/log[mindformers/trainer/trainer.py:1117] - INFO - ..........Init Model..........
2025-07-15 10:13:18,198 - mindformers./output/log[mindformers/trainer/base_trainer.py:204] - INFO - Pipeline parallel was opened: pipeline_stages = 2, full batch is True, gradient_accumulation_steps will not take effect in pipeline parallel, global batch size will be changed: global_batch_size = batch_size * data_parallel * micro_batch_num * micro_batch_interleave_num = 4 = 1 * 2 * 2 * 1).
2025-07-15 10:13:18,198 - mindformers./output/log[mindformers/trainer/base_trainer.py:338] - WARNING - When using the pipeline parallel mode, the MFPipelineWithLossScaleCell class is used by default.
2025-07-15 10:13:18,198 - mindformers./output/log[mindformers/trainer/base_trainer.py:346] - INFO - PipelineWrapper under evaluate or predict mode will not take effect.
2025-07-15 10:13:18,198 - mindformers./output/log[mindformers/trainer/base_trainer.py:920] - INFO - .........Build Dataset For Train..........
2025-07-15 10:13:18,198 - mindformers./output/log[mindformers/trainer/base_trainer.py:464] - INFO - .........Build Dataset From Config..........
2025-07-15 10:13:18,199 - mindformers./output/log[mindformers/dataset/causal_language_model_dataset.py:302] - INFO - Now Create Causal Language Model Dataset.
2025-07-15 10:13:18,200 - mindformers./output/log[mindformers/dataset/base_dataset.py:83] - INFO - Now dataset_strategy is full_batch, shard_id: None, num_shards: None
2025-07-15 10:13:18,207 - mindformers./output/log[mindformers/trainer/base_trainer.py:924] - INFO - Create train dataset finish, dataset size:15
2025-07-15 10:13:18,207 - mindformers./output/log[mindformers/trainer/utils.py:176] - INFO - Will be Training epochs:1, sink_size:1
2025-07-15 10:13:18,207 - mindformers./output/log[mindformers/trainer/utils.py:178] - INFO - Create training dataset finish, dataset size:15
2025-07-15 10:13:18,208 - mindformers./output/log[mindformers/trainer/base_trainer.py:971] - INFO - .........Build Net For Train..........
2025-07-15 10:13:18,208 - mindformers./output/log[mindformers/trainer/base_trainer.py:498] - INFO - .........Build Network From Config..........
2025-07-15 10:13:18,213 - mindformers./output/log[mindformers/trainer/base_trainer.py:107] - INFO - host_name: ascend213, host_ip: 121.37.54.128
2025-07-15 10:13:18,214 - mindformers./output/log[mindformers/trainer/base_trainer.py:113] - INFO - Now Running Task is: text_generation, Model is: deepseekV3
2025-07-15 10:13:18,214 - mindformers./output/log[mindformers/trainer/base_trainer.py:143] - WARNING - Input model name is not in the supported list or unspecified.
2025-07-15 10:13:18,214 - mindformers./output/log[mindformers/trainer/base_trainer.py:144] - WARNING - See the list of supported task and model name: ['codellama_34b', 'common', 'deepseek1_5_7b', 'deepseek_33b', 'glm3_6b', 'glm4_9b', 'gpt2', 'gpt2_13b', 'gpt2_52b', 'gpt2_lora', 'gpt2_xl', 'gpt2_xl_lora', 'internlm_7b', 'internlm_7b_lora', 'llama2_13b', 'llama2_70b', 'llama2_7b', 'llama2_7b_lora', 'llama_7b_slora', 'yi_34b', 'yi_6b']
2025-07-15 10:13:18,215 - mindformers./output/log[mindformers/trainer/base_trainer.py:145] - WARNING - The default model config: /home/jenkins/mindspore/testcases/testcases/tests/st/networks/llm_parallel_feature/mindformers/configs/gpt2/run_gpt2.yaml will now be used for the text_generation task 
2025-07-15 10:13:18,215 - mindformers./output/log[mindformers/trainer/trainer.py:1117] - INFO - ..........Init Model..........
2025-07-15 10:13:18,215 - mindformers./output/log[mindformers/trainer/trainer.py:323] - INFO - ==========Trainer Init Success!==========
2025-07-15 10:13:18,216 - mindformers./output/log[mindformers/trainer/trainer.py:406] - WARNING - sink_size will not be able to set in a future release. Modifying sink_size may cause functional issues when resuming training from a checkpoint.
2025-07-15 10:13:18,216 - mindformers./output/log[mindformers/trainer/trainer.py:1117] - INFO - ..........Init Model..........
2025-07-15 10:13:18,216 - mindformers./output/log[mindformers/trainer/base_trainer.py:204] - INFO - Pipeline parallel was opened: pipeline_stages = 2, full batch is True, gradient_accumulation_steps will not take effect in pipeline parallel, global batch size will be changed: global_batch_size = batch_size * data_parallel * micro_batch_num * micro_batch_interleave_num = 4 = 1 * 2 * 2 * 1).
2025-07-15 10:13:18,217 - mindformers./output/log[mindformers/trainer/base_trainer.py:338] - WARNING - When using the pipeline parallel mode, the MFPipelineWithLossScaleCell class is used by default.
2025-07-15 10:13:18,217 - mindformers./output/log[mindformers/trainer/base_trainer.py:346] - INFO - PipelineWrapper under evaluate or predict mode will not take effect.
2025-07-15 10:13:18,217 - mindformers./output/log[mindformers/trainer/base_trainer.py:920] - INFO - .........Build Dataset For Train..........
2025-07-15 10:13:18,217 - mindformers./output/log[mindformers/trainer/base_trainer.py:464] - INFO - .........Build Dataset From Config..........
2025-07-15 10:13:18,217 - mindformers./output/log[mindformers/dataset/causal_language_model_dataset.py:302] - INFO - Now Create Causal Language Model Dataset.
2025-07-15 10:13:18,218 - mindformers./output/log[mindformers/dataset/base_dataset.py:83] - INFO - Now dataset_strategy is full_batch, shard_id: None, num_shards: None
2025-07-15 10:13:18,225 - mindformers./output/log[mindformers/trainer/base_trainer.py:924] - INFO - Create train dataset finish, dataset size:15
2025-07-15 10:13:18,226 - mindformers./output/log[mindformers/trainer/utils.py:176] - INFO - Will be Training epochs:1, sink_size:1
2025-07-15 10:13:18,226 - mindformers./output/log[mindformers/trainer/utils.py:178] - INFO - Create training dataset finish, dataset size:15
2025-07-15 10:13:18,226 - mindformers./output/log[mindformers/trainer/base_trainer.py:971] - INFO - .........Build Net For Train..........
2025-07-15 10:13:18,226 - mindformers./output/log[mindformers/trainer/base_trainer.py:498] - INFO - .........Build Network From Config..........
2025-07-15 10:13:18,233 - mindformers./output/log[mindformers/version_control.py:140] - INFO - The Lazy Inline compilation acceleration feature is turned on.
2025-07-15 10:13:18,234 - mindformers./output/log[mindformers/version_control.py:140] - INFO - The Lazy Inline compilation acceleration feature is turned on.
2025-07-15 10:13:18,238 - mindformers./output/log[mindformers/research/deepseek3/deepseek2_model.py:1216] - INFO - Enable flash attention.
2025-07-15 10:13:18,239 - mindformers./output/log[mindformers/research/deepseek3/deepseek2_model.py:1216] - INFO - Enable flash attention.
2025-07-15 10:13:18,243 - mindformers./output/log[mindformers/version_control.py:140] - INFO - The Lazy Inline compilation acceleration feature is turned on.
2025-07-15 10:13:18,249 - mindformers./output/log[mindformers/research/deepseek3/deepseek2_model.py:1216] - INFO - Enable flash attention.
2025-07-15 10:13:18,262 - mindformers./output/log[mindformers/version_control.py:140] - INFO - The Lazy Inline compilation acceleration feature is turned on.
2025-07-15 10:13:18,268 - mindformers./output/log[mindformers/research/deepseek3/deepseek2_model.py:1216] - INFO - Enable flash attention.
2025-07-15 10:13:18,279 - mindformers./output/log[mindformers/version_control.py:140] - INFO - The Lazy Inline compilation acceleration feature is turned on.
2025-07-15 10:13:18,284 - mindformers./output/log[mindformers/research/deepseek3/deepseek2_model.py:1216] - INFO - Enable flash attention.
[WARNING] DISTRIBUTED(897248,fffe67ffefa0,python):2025-07-15-10:13:18.301.229 [mindspore/ccsrc/distributed/collective/collective_manager.cc:1021] CreateDeviceCommunicator] Begin initialize communication group on the device side: hccl_world_group
[WARNING] DEVICE(897248,fffe65fddfa0,python):2025-07-15-10:13:18.301.745 [mindspore/ccsrc/plugin/res_manager/ascend/collective/ascend_communication_group.cc:169] InitByRootInfoConfig] Start to initialize communicator by HcclCommInitRootInfoConfig for hccl_world_group, hcclBufferSize is 200 MB, hcclDeterministic is 1
2025-07-15 10:13:18,308 - mindformers./output/log[mindformers/version_control.py:140] - INFO - The Lazy Inline compilation acceleration feature is turned on.
2025-07-15 10:13:18,313 - mindformers./output/log[mindformers/research/deepseek3/deepseek2_model.py:1216] - INFO - Enable flash attention.
2025-07-15 10:13:18,416 - mindformers./output/log[mindformers/models/utils.py:190] - INFO - num_layers per stage: [[1, 1], [1, 1]]
2025-07-15 10:13:18,417 - mindformers./output/log[mindformers/models/utils.py:191] - INFO - Accumulated num_layers per stage: [[1, 2], [3, 4]]
2025-07-15 10:13:18,417 - mindformers./output/log[mindformers/models/utils.py:193] - INFO - Pipeline id list with start_stage: [0, 1, 0, 1]
2025-07-15 10:13:18,417 - mindformers./output/log[mindformers/models/utils.py:194] - INFO - Interleave id list: [0, 0, 1, 1]
2025-07-15 10:13:18,417 - mindformers./output/log[mindformers/models/utils.py:212] - INFO - Formative layer_recompute: [[1, 1], [1, 1]]
2025-07-15 10:13:18,417 - mindformers./output/log[mindformers/models/utils.py:214] - INFO - The configuration of select_recompute_exclude and select_comm_recompute_exclude have the highest priority.
2025-07-15 10:13:18,417 - mindformers./output/log[mindformers/models/utils.py:220] - INFO - Formative select_recompute: {'feed_forward\\.mul': [[0, 0], [0, 0]], 'feed_forward\\.w1\\.activation\\.silu': [[0, 0], [0, 0]]}
2025-07-15 10:13:18,418 - mindformers./output/log[mindformers/models/utils.py:221] - INFO - Formative select_comm_recompute: {'.*\\.norm': [[0, 0], [0, 0]]}
2025-07-15 10:13:18,418 - mindformers./output/log[mindformers/models/utils.py:222] - INFO - Formative select_recompute_exclude: {}
2025-07-15 10:13:18,418 - mindformers./output/log[mindformers/models/utils.py:223] - INFO - Formative select_comm_recompute_exclude: {}
2025-07-15 10:13:18,419 - mindformers./output/log[mindformers/models/utils.py:190] - INFO - num_layers per stage: [[1, 1], [1, 1]]
2025-07-15 10:13:18,419 - mindformers./output/log[mindformers/models/utils.py:191] - INFO - Accumulated num_layers per stage: [[1, 2], [3, 4]]
2025-07-15 10:13:18,420 - mindformers./output/log[mindformers/models/utils.py:193] - INFO - Pipeline id list with start_stage: [0, 1, 0, 1]
2025-07-15 10:13:18,420 - mindformers./output/log[mindformers/models/utils.py:194] - INFO - Interleave id list: [0, 0, 1, 1]
2025-07-15 10:13:18,420 - mindformers./output/log[mindformers/models/utils.py:212] - INFO - Formative layer_recompute: [[1, 1], [1, 1]]
2025-07-15 10:13:18,420 - mindformers./output/log[mindformers/models/utils.py:214] - INFO - The configuration of select_recompute_exclude and select_comm_recompute_exclude have the highest priority.
2025-07-15 10:13:18,420 - mindformers./output/log[mindformers/models/utils.py:220] - INFO - Formative select_recompute: {'feed_forward\\.mul': [[0, 0], [0, 0]], 'feed_forward\\.w1\\.activation\\.silu': [[0, 0], [0, 0]]}
2025-07-15 10:13:18,420 - mindformers./output/log[mindformers/models/utils.py:221] - INFO - Formative select_comm_recompute: {'.*\\.norm': [[0, 0], [0, 0]]}
2025-07-15 10:13:18,421 - mindformers./output/log[mindformers/models/utils.py:222] - INFO - Formative select_recompute_exclude: {}
2025-07-15 10:13:18,421 - mindformers./output/log[mindformers/models/utils.py:223] - INFO - Formative select_comm_recompute_exclude: {}
2025-07-15 10:13:18,427 - mindformers./output/log[mindformers/models/utils.py:190] - INFO - num_layers per stage: [[1, 1], [1, 1]]
2025-07-15 10:13:18,427 - mindformers./output/log[mindformers/models/utils.py:191] - INFO - Accumulated num_layers per stage: [[1, 2], [3, 4]]
2025-07-15 10:13:18,428 - mindformers./output/log[mindformers/models/utils.py:193] - INFO - Pipeline id list with start_stage: [0, 1, 0, 1]
2025-07-15 10:13:18,428 - mindformers./output/log[mindformers/models/utils.py:194] - INFO - Interleave id list: [0, 0, 1, 1]
2025-07-15 10:13:18,428 - mindformers./output/log[mindformers/models/utils.py:212] - INFO - Formative layer_recompute: [[1, 1], [1, 1]]
2025-07-15 10:13:18,428 - mindformers./output/log[mindformers/models/utils.py:214] - INFO - The configuration of select_recompute_exclude and select_comm_recompute_exclude have the highest priority.
2025-07-15 10:13:18,428 - mindformers./output/log[mindformers/models/utils.py:220] - INFO - Formative select_recompute: {'feed_forward\\.mul': [[0, 0], [0, 0]], 'feed_forward\\.w1\\.activation\\.silu': [[0, 0], [0, 0]]}
2025-07-15 10:13:18,429 - mindformers./output/log[mindformers/models/utils.py:221] - INFO - Formative select_comm_recompute: {'.*\\.norm': [[0, 0], [0, 0]]}
2025-07-15 10:13:18,429 - mindformers./output/log[mindformers/models/utils.py:222] - INFO - Formative select_recompute_exclude: {}
2025-07-15 10:13:18,429 - mindformers./output/log[mindformers/models/utils.py:223] - INFO - Formative select_comm_recompute_exclude: {}
2025-07-15 10:13:18,437 - mindformers./output/log[mindformers/research/deepseek3/deepseek2_model.py:1042] - WARNING - first_k_dense_replace is provided in MoEConfig, a normal dense FFN will be used in this block.
2025-07-15 10:13:18,441 - mindformers./output/log[mindformers/research/deepseek3/deepseek2_model.py:1042] - WARNING - first_k_dense_replace is provided in MoEConfig, a normal dense FFN will be used in this block.
2025-07-15 10:13:18,444 - mindformers./output/log[mindformers/models/utils.py:423] - INFO - Set full recompute at layer 0
2025-07-15 10:13:18,445 - mindformers./output/log[mindformers/models/utils.py:190] - INFO - num_layers per stage: [[1, 1], [1, 1]]
2025-07-15 10:13:18,445 - mindformers./output/log[mindformers/models/utils.py:191] - INFO - Accumulated num_layers per stage: [[1, 2], [3, 4]]
2025-07-15 10:13:18,446 - mindformers./output/log[mindformers/models/utils.py:193] - INFO - Pipeline id list with start_stage: [0, 1, 0, 1]
2025-07-15 10:13:18,446 - mindformers./output/log[mindformers/models/utils.py:194] - INFO - Interleave id list: [0, 0, 1, 1]
2025-07-15 10:13:18,446 - mindformers./output/log[mindformers/models/utils.py:212] - INFO - Formative layer_recompute: [[1, 1], [1, 1]]
2025-07-15 10:13:18,446 - mindformers./output/log[mindformers/models/utils.py:214] - INFO - The configuration of select_recompute_exclude and select_comm_recompute_exclude have the highest priority.
2025-07-15 10:13:18,446 - mindformers./output/log[mindformers/models/utils.py:220] - INFO - Formative select_recompute: {'feed_forward\\.mul': [[0, 0], [0, 0]], 'feed_forward\\.w1\\.activation\\.silu': [[0, 0], [0, 0]]}
2025-07-15 10:13:18,447 - mindformers./output/log[mindformers/models/utils.py:221] - INFO - Formative select_comm_recompute: {'.*\\.norm': [[0, 0], [0, 0]]}
2025-07-15 10:13:18,447 - mindformers./output/log[mindformers/models/utils.py:222] - INFO - Formative select_recompute_exclude: {}
2025-07-15 10:13:18,447 - mindformers./output/log[mindformers/models/utils.py:223] - INFO - Formative select_comm_recompute_exclude: {}
2025-07-15 10:13:18,448 - mindformers./output/log[mindformers/research/deepseek3/deepseek2_model.py:1042] - WARNING - first_k_dense_replace is provided in MoEConfig, a normal dense FFN will be used in this block.
2025-07-15 10:13:18,449 - mindformers./output/log[mindformers/models/utils.py:423] - INFO - Set full recompute at layer 0
2025-07-15 10:13:18,456 - mindformers./output/log[mindformers/models/utils.py:423] - INFO - Set full recompute at layer 0
2025-07-15 10:13:18,461 - mindformers./output/log[mindformers/models/utils.py:190] - INFO - num_layers per stage: [[1, 1], [1, 1]]
2025-07-15 10:13:18,462 - mindformers./output/log[mindformers/models/utils.py:191] - INFO - Accumulated num_layers per stage: [[1, 2], [3, 4]]
2025-07-15 10:13:18,462 - mindformers./output/log[mindformers/models/utils.py:193] - INFO - Pipeline id list with start_stage: [0, 1, 0, 1]
2025-07-15 10:13:18,462 - mindformers./output/log[mindformers/models/utils.py:194] - INFO - Interleave id list: [0, 0, 1, 1]
2025-07-15 10:13:18,462 - mindformers./output/log[mindformers/models/utils.py:212] - INFO - Formative layer_recompute: [[1, 1], [1, 1]]
2025-07-15 10:13:18,462 - mindformers./output/log[mindformers/research/deepseek3/deepseek2_model.py:1072] - INFO - MoE config is provided, use MoE FFN with shared ffn
2025-07-15 10:13:18,463 - mindformers./output/log[mindformers/models/utils.py:214] - INFO - The configuration of select_recompute_exclude and select_comm_recompute_exclude have the highest priority.
2025-07-15 10:13:18,463 - mindformers./output/log[mindformers/models/utils.py:220] - INFO - Formative select_recompute: {'feed_forward\\.mul': [[0, 0], [0, 0]], 'feed_forward\\.w1\\.activation\\.silu': [[0, 0], [0, 0]]}
2025-07-15 10:13:18,463 - mindformers./output/log[mindformers/models/utils.py:221] - INFO - Formative select_comm_recompute: {'.*\\.norm': [[0, 0], [0, 0]]}
2025-07-15 10:13:18,463 - mindformers./output/log[mindformers/models/utils.py:222] - INFO - Formative select_recompute_exclude: {}
2025-07-15 10:13:18,463 - mindformers./output/log[mindformers/models/utils.py:223] - INFO - Formative select_comm_recompute_exclude: {}
2025-07-15 10:13:18,467 - mindformers./output/log[mindformers/research/deepseek3/deepseek2_model.py:1042] - WARNING - first_k_dense_replace is provided in MoEConfig, a normal dense FFN will be used in this block.
[WARNING] DISTRIBUTED(897230,ffffb7deeec0,python):2025-07-15-10:13:18.468.939 [mindspore/ccsrc/distributed/collective/collective_manager.cc:341] CreateCommunicationGroup] Start to create communication group: 5270c475a57ca8f687fafaee7ef53c7f [const vector]{4, 5}, async: 0, submit_now: 1
2025-07-15 10:13:18,469 - mindformers./output/log[mindformers/research/deepseek3/deepseek2_model.py:1072] - INFO - MoE config is provided, use MoE FFN with shared ffn
2025-07-15 10:13:18,475 - mindformers./output/log[mindformers/models/utils.py:423] - INFO - Set full recompute at layer 0
[WARNING] DISTRIBUTED(897214,ffff882deec0,python):2025-07-15-10:13:18.475.978 [mindspore/ccsrc/distributed/collective/collective_manager.cc:341] CreateCommunicationGroup] Start to create communication group: c2eb282156233b5d827219971c8b04c2 [const vector]{0, 1}, async: 0, submit_now: 1
2025-07-15 10:13:18,476 - mindformers./output/log[mindformers/research/deepseek3/deepseek2_model.py:1072] - INFO - MoE config is provided, use MoE FFN with shared ffn
[WARNING] DISTRIBUTED(897226,ffffab7deec0,python):2025-07-15-10:13:18.482.228 [mindspore/ccsrc/distributed/collective/collective_manager.cc:341] CreateCommunicationGroup] Start to create communication group: c22c60349630d688cef20a3fd708ad87 [const vector]{2, 3}, async: 0, submit_now: 1
2025-07-15 10:13:18,483 - mindformers./output/log[mindformers/research/deepseek3/deepseek2_model.py:1042] - WARNING - first_k_dense_replace is provided in MoEConfig, a normal dense FFN will be used in this block.
2025-07-15 10:13:18,485 - mindformers./output/log[mindformers/models/utils.py:190] - INFO - num_layers per stage: [[1, 1], [1, 1]]
2025-07-15 10:13:18,486 - mindformers./output/log[mindformers/models/utils.py:191] - INFO - Accumulated num_layers per stage: [[1, 2], [3, 4]]
2025-07-15 10:13:18,486 - mindformers./output/log[mindformers/models/utils.py:193] - INFO - Pipeline id list with start_stage: [0, 1, 0, 1]
2025-07-15 10:13:18,486 - mindformers./output/log[mindformers/models/utils.py:194] - INFO - Interleave id list: [0, 0, 1, 1]
2025-07-15 10:13:18,486 - mindformers./output/log[mindformers/models/utils.py:212] - INFO - Formative layer_recompute: [[1, 1], [1, 1]]
2025-07-15 10:13:18,487 - mindformers./output/log[mindformers/models/utils.py:214] - INFO - The configuration of select_recompute_exclude and select_comm_recompute_exclude have the highest priority.
2025-07-15 10:13:18,487 - mindformers./output/log[mindformers/models/utils.py:220] - INFO - Formative select_recompute: {'feed_forward\\.mul': [[0, 0], [0, 0]], 'feed_forward\\.w1\\.activation\\.silu': [[0, 0], [0, 0]]}
2025-07-15 10:13:18,487 - mindformers./output/log[mindformers/models/utils.py:221] - INFO - Formative select_comm_recompute: {'.*\\.norm': [[0, 0], [0, 0]]}
2025-07-15 10:13:18,487 - mindformers./output/log[mindformers/models/utils.py:222] - INFO - Formative select_recompute_exclude: {}
2025-07-15 10:13:18,487 - mindformers./output/log[mindformers/models/utils.py:223] - INFO - Formative select_comm_recompute_exclude: {}
2025-07-15 10:13:18,491 - mindformers./output/log[mindformers/models/utils.py:423] - INFO - Set full recompute at layer 0
2025-07-15 10:13:18,493 - mindformers./output/log[mindformers/research/deepseek3/deepseek2_model.py:1072] - INFO - MoE config is provided, use MoE FFN with shared ffn
[WARNING] DISTRIBUTED(897238,ffffb139eec0,python):2025-07-15-10:13:18.500.079 [mindspore/ccsrc/distributed/collective/collective_manager.cc:341] CreateCommunicationGroup] Start to create communication group: c0a3056327cfa3486f48201b4f88a5fa [const vector]{6, 7}, async: 0, submit_now: 1
2025-07-15 10:13:18,507 - mindformers./output/log[mindformers/research/deepseek3/deepseek2_model.py:1042] - WARNING - first_k_dense_replace is provided in MoEConfig, a normal dense FFN will be used in this block.
2025-07-15 10:13:18,510 - mindformers./output/log[mindformers/research/deepseek3/deepseek2_model.py:1072] - INFO - MoE config is provided, use MoE FFN with shared ffn
2025-07-15 10:13:18,515 - mindformers./output/log[mindformers/models/utils.py:423] - INFO - Set full recompute at layer 0
[WARNING] DISTRIBUTED(897234,ffffa6e5eec0,python):2025-07-15-10:13:18.516.636 [mindspore/ccsrc/distributed/collective/collective_manager.cc:341] CreateCommunicationGroup] Start to create communication group: 5270c475a57ca8f687fafaee7ef53c7f [const vector]{4, 5}, async: 0, submit_now: 1
2025-07-15 10:13:18,534 - mindformers./output/log[mindformers/research/deepseek3/deepseek2_model.py:1072] - INFO - MoE config is provided, use MoE FFN with shared ffn
[WARNING] DISTRIBUTED(897248,ffff88ffeec0,python):2025-07-15-10:13:18.540.166 [mindspore/ccsrc/distributed/collective/collective_manager.cc:341] CreateCommunicationGroup] Start to create communication group: c0a3056327cfa3486f48201b4f88a5fa [const vector]{6, 7}, async: 0, submit_now: 1
2025-07-15 10:15:58,701 - mindformers./output/log[mindformers/core/context/parallel.py:88] - ERROR - Notice: if you are trying to run with a single device, please set use_parallel=False. If not, please check the error message above.
2025-07-15 10:15:58,702 - mindformers./output/log[mindformers/tools/cloud_adapter/cloud_monitor.py:43] - ERROR - Traceback (most recent call last):
  File "/home/jenkins/mindspore/testcases/testcases/tests/st/networks/llm_parallel_feature/mindformers/mindformers/tools/cloud_adapter/cloud_monitor.py", line 34, in wrapper
    result = run_func(*args, **kwargs)
  File "/home/jenkins/mindspore/testcases/testcases/tests/st/networks/llm_parallel_feature/deepseekv3/../mindformers/run_mindformer.py", line 68, in main
    build_context(config)
  File "/home/jenkins/mindspore/testcases/testcases/tests/st/networks/llm_parallel_feature/mindformers/mindformers/core/context/build_context.py", line 464, in build_context
    ctx = Context(mf_config)
  File "/home/jenkins/mindspore/testcases/testcases/tests/st/networks/llm_parallel_feature/mindformers/mindformers/core/context/build_context.py", line 71, in __init__
    self.parallel_opr.init_communication()
  File "/home/jenkins/mindspore/testcases/testcases/tests/st/networks/llm_parallel_feature/mindformers/mindformers/core/context/parallel.py", line 86, in init_communication
    init()
  File "/home/jenkins/anaconda3/envs/ci39/lib/python3.9/site-packages/mindspore/communication/management.py", line 203, in init
    init_hccl()
RuntimeError: Call aclrtSetDevice failed, ret[507033]. Got device count[8] and device id[1], please check if device id is valid.

----------------------------------------------------
- C++ Call Stack: (For framework developers)
----------------------------------------------------
mindspore/ccsrc/plugin/res_manager/ascend/hal_manager/ascend_hal_manager.cc:67 InitDevice


Traceback (most recent call last):
  File "/home/jenkins/mindspore/testcases/testcases/tests/st/networks/llm_parallel_feature/deepseekv3/../mindformers/run_mindformer.py", line 336, in <module>
    main(config_)
  File "/home/jenkins/mindspore/testcases/testcases/tests/st/networks/llm_parallel_feature/mindformers/mindformers/tools/cloud_adapter/cloud_monitor.py", line 44, in wrapper
    raise exc
  File "/home/jenkins/mindspore/testcases/testcases/tests/st/networks/llm_parallel_feature/mindformers/mindformers/tools/cloud_adapter/cloud_monitor.py", line 34, in wrapper
    result = run_func(*args, **kwargs)
  File "/home/jenkins/mindspore/testcases/testcases/tests/st/networks/llm_parallel_feature/deepseekv3/../mindformers/run_mindformer.py", line 68, in main
    build_context(config)
  File "/home/jenkins/mindspore/testcases/testcases/tests/st/networks/llm_parallel_feature/mindformers/mindformers/core/context/build_context.py", line 464, in build_context
    ctx = Context(mf_config)
  File "/home/jenkins/mindspore/testcases/testcases/tests/st/networks/llm_parallel_feature/mindformers/mindformers/core/context/build_context.py", line 71, in __init__
    self.parallel_opr.init_communication()
  File "/home/jenkins/mindspore/testcases/testcases/tests/st/networks/llm_parallel_feature/mindformers/mindformers/core/context/parallel.py", line 86, in init_communication
    init()
  File "/home/jenkins/anaconda3/envs/ci39/lib/python3.9/site-packages/mindspore/communication/management.py", line 203, in init
    init_hccl()
RuntimeError: Call aclrtSetDevice failed, ret[507033]. Got device count[8] and device id[1], please check if device id is valid.

----------------------------------------------------
- C++ Call Stack: (For framework developers)
----------------------------------------------------
mindspore/ccsrc/plugin/res_manager/ascend/hal_manager/ascend_hal_manager.cc:67 InitDevice

[WARNING] DEVICE(897218,ffff8b53eec0,python):2025-07-15-10:15:58.787.678 [mindspore/ccsrc/plugin/device/ascend/hal/hardware/ascend_device_res_manager.cc:350] SyncAllStreams] The ascend_res_manager_ is nullptr in scenarios where it is not actually executed
[ERROR] ME(896887:281472945614528,MainProcess):2025-07-15-10:16:00.697.920 [mindspore/parallel/cluster/process_entity/_api.py:363] Worker process 897218 exit with exception. Error code: 1.
[WARNING] ME(896887:281472945614528,MainProcess):2025-07-15-10:16:00.698.215 [mindspore/parallel/cluster/process_entity/_api.py:369] There's worker exits with exception, kill all other workers.
[ERROR] ME(896887:281472945614528,MainProcess):2025-07-15-10:16:32.277.978 [mindspore/parallel/cluster/process_entity/_api.py:382] Scheduler process 897212 exit with exception.
[ERROR] ME(896887:281472945614528,MainProcess):2025-07-15-10:16:32.279.404 [mindspore/parallel/cluster/process_entity/_api.py:603] Time out nodes are ['1']
/home/jenkins/mindspore/testcases/testcases/tests/st/networks/llm_parallel_feature/deepseekv3/deepseekv3_cell_dp2mp2ep2pp2mb4gas1bs1_deredundency_8p_gmm/worker_1.log-38-[WARNING] DISTRIBUTED(897218,ffff8b53eec0,python):2025-07-15-10:13:15.734.339 [mindspore/ccsrc/distributed/cluster/cluster_context.cc:246] BuildCluster] Topology build timed out., retry(2/14400).
/home/jenkins/mindspore/testcases/testcases/tests/st/networks/llm_parallel_feature/deepseekv3/deepseekv3_cell_dp2mp2ep2pp2mb4gas1bs1_deredundency_8p_gmm/worker_1.log-39-[MS_DEV_RUNTIME_CONF]Runtime config:  memory_statistics:True
/home/jenkins/mindspore/testcases/testcases/tests/st/networks/llm_parallel_feature/deepseekv3/deepseekv3_cell_dp2mp2ep2pp2mb4gas1bs1_deredundency_8p_gmm/worker_1.log-40-[WARNING] DISTRIBUTED(897218,ffff8b53eec0,python):2025-07-15-10:13:16.234.532 [mindspore/ccsrc/distributed/cluster/cluster_context.cc:249] BuildCluster] Cluster is successfully initialized.
/home/jenkins/mindspore/testcases/testcases/tests/st/networks/llm_parallel_feature/deepseekv3/deepseekv3_cell_dp2mp2ep2pp2mb4gas1bs1_deredundency_8p_gmm/worker_1.log-41-[WARNING] DISTRIBUTED(897218,ffff8b53eec0,python):2025-07-15-10:13:16.234.576 [mindspore/ccsrc/distributed/cluster/cluster_context.cc:355] PostProcess] This node 1 rank id: 1
/home/jenkins/mindspore/testcases/testcases/tests/st/networks/llm_parallel_feature/deepseekv3/deepseekv3_cell_dp2mp2ep2pp2mb4gas1bs1_deredundency_8p_gmm/worker_1.log-42-[MS_RUNTIME_PROF]The jit_level is: O1, and enable kernelbykernel executor.
/home/jenkins/mindspore/testcases/testcases/tests/st/networks/llm_parallel_feature/deepseekv3/deepseekv3_cell_dp2mp2ep2pp2mb4gas1bs1_deredundency_8p_gmm/worker_1.log:43:2025-07-15 10:15:58,701 - mindformers./output/log[mindformers/core/context/parallel.py:88] - ERROR - Notice: if you are trying to run with a single device, please set use_parallel=False. If not, please check the error message above.
/home/jenkins/mindspore/testcases/testcases/tests/st/networks/llm_parallel_feature/deepseekv3/deepseekv3_cell_dp2mp2ep2pp2mb4gas1bs1_deredundency_8p_gmm/worker_1.log:44:2025-07-15 10:15:58,702 - mindformers./output/log[mindformers/tools/cloud_adapter/cloud_monitor.py:43] - ERROR - Traceback (most recent call last):
/home/jenkins/mindspore/testcases/testcases/tests/st/networks/llm_parallel_feature/deepseekv3/deepseekv3_cell_dp2mp2ep2pp2mb4gas1bs1_deredundency_8p_gmm/worker_1.log-45-  File "/home/jenkins/mindspore/testcases/testcases/tests/st/networks/llm_parallel_feature/mindformers/mindformers/tools/cloud_adapter/cloud_monitor.py", line 34, in wrapper
/home/jenkins/mindspore/testcases/testcases/tests/st/networks/llm_parallel_feature/deepseekv3/deepseekv3_cell_dp2mp2ep2pp2mb4gas1bs1_deredundency_8p_gmm/worker_1.log-46-    result = run_func(*args, **kwargs)
/home/jenkins/mindspore/testcases/testcases/tests/st/networks/llm_parallel_feature/deepseekv3/deepseekv3_cell_dp2mp2ep2pp2mb4gas1bs1_deredundency_8p_gmm/worker_1.log-47-  File "/home/jenkins/mindspore/testcases/testcases/tests/st/networks/llm_parallel_feature/deepseekv3/../mindformers/run_mindformer.py", line 68, in main
/home/jenkins/mindspore/testcases/testcases/tests/st/networks/llm_parallel_feature/deepseekv3/deepseekv3_cell_dp2mp2ep2pp2mb4gas1bs1_deredundency_8p_gmm/worker_1.log-48-    build_context(config)
/home/jenkins/mindspore/testcases/testcases/tests/st/networks/llm_parallel_feature/deepseekv3/deepseekv3_cell_dp2mp2ep2pp2mb4gas1bs1_deredundency_8p_gmm/worker_1.log-49-  File "/home/jenkins/mindspore/testcases/testcases/tests/st/networks/llm_parallel_feature/mindformers/mindformers/core/context/build_context.py", line 464, in build_context
--
/home/jenkins/mindspore/testcases/testcases/tests/st/networks/llm_parallel_feature/deepseekv3/deepseekv3_cell_dp2mp2ep2pp2mb4gas1bs1_deredundency_8p_gmm/worker_1.log-52-    self.parallel_opr.init_communication()
/home/jenkins/mindspore/testcases/testcases/tests/st/networks/llm_parallel_feature/deepseekv3/deepseekv3_cell_dp2mp2ep2pp2mb4gas1bs1_deredundency_8p_gmm/worker_1.log-53-  File "/home/jenkins/mindspore/testcases/testcases/tests/st/networks/llm_parallel_feature/mindformers/mindformers/core/context/parallel.py", line 86, in init_communication
/home/jenkins/mindspore/testcases/testcases/tests/st/networks/llm_parallel_feature/deepseekv3/deepseekv3_cell_dp2mp2ep2pp2mb4gas1bs1_deredundency_8p_gmm/worker_1.log-54-    init()
/home/jenkins/mindspore/testcases/testcases/tests/st/networks/llm_parallel_feature/deepseekv3/deepseekv3_cell_dp2mp2ep2pp2mb4gas1bs1_deredundency_8p_gmm/worker_1.log-55-  File "/home/jenkins/anaconda3/envs/ci39/lib/python3.9/site-packages/mindspore/communication/management.py", line 203, in init
/home/jenkins/mindspore/testcases/testcases/tests/st/networks/llm_parallel_feature/deepseekv3/deepseekv3_cell_dp2mp2ep2pp2mb4gas1bs1_deredundency_8p_gmm/worker_1.log-56-    init_hccl()
/home/jenkins/mindspore/testcases/testcases/tests/st/networks/llm_parallel_feature/deepseekv3/deepseekv3_cell_dp2mp2ep2pp2mb4gas1bs1_deredundency_8p_gmm/worker_1.log:57:RuntimeError: Call aclrtSetDevice failed, ret[507033]. Got device count[8] and device id[1], please check if device id is valid.
/home/jenkins/mindspore/testcases/testcases/tests/st/networks/llm_parallel_feature/deepseekv3/deepseekv3_cell_dp2mp2ep2pp2mb4gas1bs1_deredundency_8p_gmm/worker_1.log-58-
/home/jenkins/mindspore/testcases/testcases/tests/st/networks/llm_parallel_feature/deepseekv3/deepseekv3_cell_dp2mp2ep2pp2mb4gas1bs1_deredundency_8p_gmm/worker_1.log-59-----------------------------------------------------
/home/jenkins/mindspore/testcases/testcases/tests/st/networks/llm_parallel_feature/deepseekv3/deepseekv3_cell_dp2mp2ep2pp2mb4gas1bs1_deredundency_8p_gmm/worker_1.log-60-- C++ Call Stack: (For framework developers)
/home/jenkins/mindspore/testcases/testcases/tests/st/networks/llm_parallel_feature/deepseekv3/deepseekv3_cell_dp2mp2ep2pp2mb4gas1bs1_deredundency_8p_gmm/worker_1.log-61-----------------------------------------------------
/home/jenkins/mindspore/testcases/testcases/tests/st/networks/llm_parallel_feature/deepseekv3/deepseekv3_cell_dp2mp2ep2pp2mb4gas1bs1_deredundency_8p_gmm/worker_1.log-62-mindspore/ccsrc/plugin/res_manager/ascend/hal_manager/ascend_hal_manager.cc:67 InitDevice
/home/jenkins/mindspore/testcases/testcases/tests/st/networks/llm_parallel_feature/deepseekv3/deepseekv3_cell_dp2mp2ep2pp2mb4gas1bs1_deredundency_8p_gmm/worker_1.log-63-
/home/jenkins/mindspore/testcases/testcases/tests/st/networks/llm_parallel_feature/deepseekv3/deepseekv3_cell_dp2mp2ep2pp2mb4gas1bs1_deredundency_8p_gmm/worker_1.log-64-
/home/jenkins/mindspore/testcases/testcases/tests/st/networks/llm_parallel_feature/deepseekv3/deepseekv3_cell_dp2mp2ep2pp2mb4gas1bs1_deredundency_8p_gmm/worker_1.log:65:Traceback (most recent call last):
/home/jenkins/mindspore/testcases/testcases/tests/st/networks/llm_parallel_feature/deepseekv3/deepseekv3_cell_dp2mp2ep2pp2mb4gas1bs1_deredundency_8p_gmm/worker_1.log-66-  File "/home/jenkins/mindspore/testcases/testcases/tests/st/networks/llm_parallel_feature/deepseekv3/../mindformers/run_mindformer.py", line 336, in <module>
/home/jenkins/mindspore/testcases/testcases/tests/st/networks/llm_parallel_feature/deepseekv3/deepseekv3_cell_dp2mp2ep2pp2mb4gas1bs1_deredundency_8p_gmm/worker_1.log-67-    main(config_)
/home/jenkins/mindspore/testcases/testcases/tests/st/networks/llm_parallel_feature/deepseekv3/deepseekv3_cell_dp2mp2ep2pp2mb4gas1bs1_deredundency_8p_gmm/worker_1.log-68-  File "/home/jenkins/mindspore/testcases/testcases/tests/st/networks/llm_parallel_feature/mindformers/mindformers/tools/cloud_adapter/cloud_monitor.py", line 44, in wrapper
/home/jenkins/mindspore/testcases/testcases/tests/st/networks/llm_parallel_feature/deepseekv3/deepseekv3_cell_dp2mp2ep2pp2mb4gas1bs1_deredundency_8p_gmm/worker_1.log-69-    raise exc
/home/jenkins/mindspore/testcases/testcases/tests/st/networks/llm_parallel_feature/deepseekv3/deepseekv3_cell_dp2mp2ep2pp2mb4gas1bs1_deredundency_8p_gmm/worker_1.log-70-  File "/home/jenkins/mindspore/testcases/testcases/tests/st/networks/llm_parallel_feature/mindformers/mindformers/tools/cloud_adapter/cloud_monitor.py", line 34, in wrapper
--
/home/jenkins/mindspore/testcases/testcases/tests/st/networks/llm_parallel_feature/deepseekv3/deepseekv3_cell_dp2mp2ep2pp2mb4gas1bs1_deredundency_8p_gmm/worker_1.log-77-    self.parallel_opr.init_communication()
/home/jenkins/mindspore/testcases/testcases/tests/st/networks/llm_parallel_feature/deepseekv3/deepseekv3_cell_dp2mp2ep2pp2mb4gas1bs1_deredundency_8p_gmm/worker_1.log-78-  File "/home/jenkins/mindspore/testcases/testcases/tests/st/networks/llm_parallel_feature/mindformers/mindformers/core/context/parallel.py", line 86, in init_communication
/home/jenkins/mindspore/testcases/testcases/tests/st/networks/llm_parallel_feature/deepseekv3/deepseekv3_cell_dp2mp2ep2pp2mb4gas1bs1_deredundency_8p_gmm/worker_1.log-79-    init()
/home/jenkins/mindspore/testcases/testcases/tests/st/networks/llm_parallel_feature/deepseekv3/deepseekv3_cell_dp2mp2ep2pp2mb4gas1bs1_deredundency_8p_gmm/worker_1.log-80-  File "/home/jenkins/anaconda3/envs/ci39/lib/python3.9/site-packages/mindspore/communication/management.py", line 203, in init
/home/jenkins/mindspore/testcases/testcases/tests/st/networks/llm_parallel_feature/deepseekv3/deepseekv3_cell_dp2mp2ep2pp2mb4gas1bs1_deredundency_8p_gmm/worker_1.log-81-    init_hccl()
/home/jenkins/mindspore/testcases/testcases/tests/st/networks/llm_parallel_feature/deepseekv3/deepseekv3_cell_dp2mp2ep2pp2mb4gas1bs1_deredundency_8p_gmm/worker_1.log:82:RuntimeError: Call aclrtSetDevice failed, ret[507033]. Got device count[8] and device id[1], please check if device id is valid.
/home/jenkins/mindspore/testcases/testcases/tests/st/networks/llm_parallel_feature/deepseekv3/deepseekv3_cell_dp2mp2ep2pp2mb4gas1bs1_deredundency_8p_gmm/worker_1.log-83-
/home/jenkins/mindspore/testcases/testcases/tests/st/networks/llm_parallel_feature/deepseekv3/deepseekv3_cell_dp2mp2ep2pp2mb4gas1bs1_deredundency_8p_gmm/worker_1.log-84-----------------------------------------------------
/home/jenkins/mindspore/testcases/testcases/tests/st/networks/llm_parallel_feature/deepseekv3/deepseekv3_cell_dp2mp2ep2pp2mb4gas1bs1_deredundency_8p_gmm/worker_1.log-85-- C++ Call Stack: (For framework developers)
/home/jenkins/mindspore/testcases/testcases/tests/st/networks/llm_parallel_feature/deepseekv3/deepseekv3_cell_dp2mp2ep2pp2mb4gas1bs1_deredundency_8p_gmm/worker_1.log-86-----------------------------------------------------
/home/jenkins/mindspore/testcases/testcases/tests/st/networks/llm_parallel_feature/deepseekv3/deepseekv3_cell_dp2mp2ep2pp2mb4gas1bs1_deredundency_8p_gmm/worker_1.log-87-mindspore/ccsrc/plugin/res_manager/ascend/hal_manager/ascend_hal_manager.cc:67 InitDevice
--
/home/jenkins/mindspore/testcases/testcases/tests/st/networks/llm_parallel_feature/deepseekv3/deepseekv3_cell_dp2mp2ep2pp2mb4gas1bs1_deredundency_8p_gmm/scheduler.log-118-[WARNING] DISTRIBUTED(897212,ffff844aeec0,python):2025-07-15-10:16:15.255.122 [mindspore/ccsrc/distributed/cluster/cluster_context.cc:154] Finalize] This log means the cluster is successfully created. Retry to finalize the node and exit cluster...
/home/jenkins/mindspore/testcases/testcases/tests/st/networks/llm_parallel_feature/deepseekv3/deepseekv3_cell_dp2mp2ep2pp2mb4gas1bs1_deredundency_8p_gmm/scheduler.log-119-[WARNING] DISTRIBUTED(897212,ffff844aeec0,python):2025-07-15-10:16:20.255.292 [mindspore/ccsrc/distributed/cluster/topology/meta_server_node.cc:98] Finalize] The meta server node can not be finalized because there are still 8 alive nodes.
/home/jenkins/mindspore/testcases/testcases/tests/st/networks/llm_parallel_feature/deepseekv3/deepseekv3_cell_dp2mp2ep2pp2mb4gas1bs1_deredundency_8p_gmm/scheduler.log-120-[WARNING] DISTRIBUTED(897212,ffff844aeec0,python):2025-07-15-10:16:20.255.386 [mindspore/ccsrc/distributed/cluster/cluster_context.cc:154] Finalize] This log means the cluster is successfully created. Retry to finalize the node and exit cluster...
/home/jenkins/mindspore/testcases/testcases/tests/st/networks/llm_parallel_feature/deepseekv3/deepseekv3_cell_dp2mp2ep2pp2mb4gas1bs1_deredundency_8p_gmm/scheduler.log-121-[WARNING] DISTRIBUTED(897212,ffff844aeec0,python):2025-07-15-10:16:25.255.533 [mindspore/ccsrc/distributed/cluster/topology/meta_server_node.cc:98] Finalize] The meta server node can not be finalized because there are still 8 alive nodes.
/home/jenkins/mindspore/testcases/testcases/tests/st/networks/llm_parallel_feature/deepseekv3/deepseekv3_cell_dp2mp2ep2pp2mb4gas1bs1_deredundency_8p_gmm/scheduler.log-122-[WARNING] DISTRIBUTED(897212,ffff844aeec0,python):2025-07-15-10:16:25.255.606 [mindspore/ccsrc/distributed/cluster/cluster_context.cc:154] Finalize] This log means the cluster is successfully created. Retry to finalize the node and exit cluster...
/home/jenkins/mindspore/testcases/testcases/tests/st/networks/llm_parallel_feature/deepseekv3/deepseekv3_cell_dp2mp2ep2pp2mb4gas1bs1_deredundency_8p_gmm/scheduler.log:123:[ERROR] DISTRIBUTED(897212,fffefeaeefa0,python):2025-07-15-10:16:29.270.136 [mindspore/ccsrc/distributed/cluster/topology/meta_server_node.cc:511] UpdateTopoState] The node: 1 is timed out. It may exit with exception, please check this node's log.
/home/jenkins/mindspore/testcases/testcases/tests/st/networks/llm_parallel_feature/deepseekv3/deepseekv3_cell_dp2mp2ep2pp2mb4gas1bs1_deredundency_8p_gmm/scheduler.log:124:[ERROR] DISTRIBUTED(897212,ffff844aeec0,python):2025-07-15-10:16:30.255.746 [mindspore/ccsrc/distributed/cluster/topology/meta_server_node.cc:103] Finalize] There are 1 abnormal compute graph nodes.
/home/jenkins/mindspore/testcases/testcases/tests/st/networks/llm_parallel_feature/deepseekv3/deepseekv3_cell_dp2mp2ep2pp2mb4gas1bs1_deredundency_8p_gmm/scheduler.log:125:2025-07-15 10:16:30,256 - mindformers./output/log[mindformers/core/context/parallel.py:88] - ERROR - Notice: if you are trying to run with a single device, please set use_parallel=False. If not, please check the error message above.
/home/jenkins/mindspore/testcases/testcases/tests/st/networks/llm_parallel_feature/deepseekv3/deepseekv3_cell_dp2mp2ep2pp2mb4gas1bs1_deredundency_8p_gmm/scheduler.log:126:2025-07-15 10:16:30,257 - mindformers./output/log[mindformers/tools/cloud_adapter/cloud_monitor.py:43] - ERROR - Traceback (most recent call last):
/home/jenkins/mindspore/testcases/testcases/tests/st/networks/llm_parallel_feature/deepseekv3/deepseekv3_cell_dp2mp2ep2pp2mb4gas1bs1_deredundency_8p_gmm/scheduler.log-127-  File "/home/jenkins/mindspore/testcases/testcases/tests/st/networks/llm_parallel_feature/mindformers/mindformers/tools/cloud_adapter/cloud_monitor.py", line 34, in wrapper
/home/jenkins/mindspore/testcases/testcases/tests/st/networks/llm_parallel_feature/deepseekv3/deepseekv3_cell_dp2mp2ep2pp2mb4gas1bs1_deredundency_8p_gmm/scheduler.log-128-    result = run_func(*args, **kwargs)
/home/jenkins/mindspore/testcases/testcases/tests/st/networks/llm_parallel_feature/deepseekv3/deepseekv3_cell_dp2mp2ep2pp2mb4gas1bs1_deredundency_8p_gmm/scheduler.log-129-  File "/home/jenkins/mindspore/testcases/testcases/tests/st/networks/llm_parallel_feature/deepseekv3/../mindformers/run_mindformer.py", line 68, in main
/home/jenkins/mindspore/testcases/testcases/tests/st/networks/llm_parallel_feature/deepseekv3/deepseekv3_cell_dp2mp2ep2pp2mb4gas1bs1_deredundency_8p_gmm/scheduler.log-130-    build_context(config)
/home/jenkins/mindspore/testcases/testcases/tests/st/networks/llm_parallel_feature/deepseekv3/deepseekv3_cell_dp2mp2ep2pp2mb4gas1bs1_deredundency_8p_gmm/scheduler.log-131-  File "/home/jenkins/mindspore/testcases/testcases/tests/st/networks/llm_parallel_feature/mindformers/mindformers/core/context/build_context.py", line 464, in build_context
--
/home/jenkins/mindspore/testcases/testcases/tests/st/networks/llm_parallel_feature/deepseekv3/deepseekv3_cell_dp2mp2ep2pp2mb4gas1bs1_deredundency_8p_gmm/scheduler.log-134-    self.parallel_opr.init_communication()
/home/jenkins/mindspore/testcases/testcases/tests/st/networks/llm_parallel_feature/deepseekv3/deepseekv3_cell_dp2mp2ep2pp2mb4gas1bs1_deredundency_8p_gmm/scheduler.log-135-  File "/home/jenkins/mindspore/testcases/testcases/tests/st/networks/llm_parallel_feature/mindformers/mindformers/core/context/parallel.py", line 86, in init_communication
/home/jenkins/mindspore/testcases/testcases/tests/st/networks/llm_parallel_feature/deepseekv3/deepseekv3_cell_dp2mp2ep2pp2mb4gas1bs1_deredundency_8p_gmm/scheduler.log-136-    init()
/home/jenkins/mindspore/testcases/testcases/tests/st/networks/llm_parallel_feature/deepseekv3/deepseekv3_cell_dp2mp2ep2pp2mb4gas1bs1_deredundency_8p_gmm/scheduler.log-137-  File "/home/jenkins/anaconda3/envs/ci39/lib/python3.9/site-packages/mindspore/communication/management.py", line 213, in init
/home/jenkins/mindspore/testcases/testcases/tests/st/networks/llm_parallel_feature/deepseekv3/deepseekv3_cell_dp2mp2ep2pp2mb4gas1bs1_deredundency_8p_gmm/scheduler.log-138-    init_cluster()
/home/jenkins/mindspore/testcases/testcases/tests/st/networks/llm_parallel_feature/deepseekv3/deepseekv3_cell_dp2mp2ep2pp2mb4gas1bs1_deredundency_8p_gmm/scheduler.log:139:RuntimeError: The total number of timed out node is 1. Timed out node list is: [const vector]{1}, worker 1 is the first one timed out, please check its log.
/home/jenkins/mindspore/testcases/testcases/tests/st/networks/llm_parallel_feature/deepseekv3/deepseekv3_cell_dp2mp2ep2pp2mb4gas1bs1_deredundency_8p_gmm/scheduler.log-140-
/home/jenkins/mindspore/testcases/testcases/tests/st/networks/llm_parallel_feature/deepseekv3/deepseekv3_cell_dp2mp2ep2pp2mb4gas1bs1_deredundency_8p_gmm/scheduler.log-141-----------------------------------------------------
/home/jenkins/mindspore/testcases/testcases/tests/st/networks/llm_parallel_feature/deepseekv3/deepseekv3_cell_dp2mp2ep2pp2mb4gas1bs1_deredundency_8p_gmm/scheduler.log-142-- C++ Call Stack: (For framework developers)
/home/jenkins/mindspore/testcases/testcases/tests/st/networks/llm_parallel_feature/deepseekv3/deepseekv3_cell_dp2mp2ep2pp2mb4gas1bs1_deredundency_8p_gmm/scheduler.log-143-----------------------------------------------------
/home/jenkins/mindspore/testcases/testcases/tests/st/networks/llm_parallel_feature/deepseekv3/deepseekv3_cell_dp2mp2ep2pp2mb4gas1bs1_deredundency_8p_gmm/scheduler.log-144-mindspore/ccsrc/distributed/cluster/topology/meta_server_node.cc:517 UpdateTopoState
/home/jenkins/mindspore/testcases/testcases/tests/st/networks/llm_parallel_feature/deepseekv3/deepseekv3_cell_dp2mp2ep2pp2mb4gas1bs1_deredundency_8p_gmm/scheduler.log-145-
/home/jenkins/mindspore/testcases/testcases/tests/st/networks/llm_parallel_feature/deepseekv3/deepseekv3_cell_dp2mp2ep2pp2mb4gas1bs1_deredundency_8p_gmm/scheduler.log-146-
/home/jenkins/mindspore/testcases/testcases/tests/st/networks/llm_parallel_feature/deepseekv3/deepseekv3_cell_dp2mp2ep2pp2mb4gas1bs1_deredundency_8p_gmm/scheduler.log:147:Traceback (most recent call last):
/home/jenkins/mindspore/testcases/testcases/tests/st/networks/llm_parallel_feature/deepseekv3/deepseekv3_cell_dp2mp2ep2pp2mb4gas1bs1_deredundency_8p_gmm/scheduler.log-148-  File "/home/jenkins/mindspore/testcases/testcases/tests/st/networks/llm_parallel_feature/deepseekv3/../mindformers/run_mindformer.py", line 336, in <module>
/home/jenkins/mindspore/testcases/testcases/tests/st/networks/llm_parallel_feature/deepseekv3/deepseekv3_cell_dp2mp2ep2pp2mb4gas1bs1_deredundency_8p_gmm/scheduler.log-149-    main(config_)
/home/jenkins/mindspore/testcases/testcases/tests/st/networks/llm_parallel_feature/deepseekv3/deepseekv3_cell_dp2mp2ep2pp2mb4gas1bs1_deredundency_8p_gmm/scheduler.log-150-  File "/home/jenkins/mindspore/testcases/testcases/tests/st/networks/llm_parallel_feature/mindformers/mindformers/tools/cloud_adapter/cloud_monitor.py", line 44, in wrapper
/home/jenkins/mindspore/testcases/testcases/tests/st/networks/llm_parallel_feature/deepseekv3/deepseekv3_cell_dp2mp2ep2pp2mb4gas1bs1_deredundency_8p_gmm/scheduler.log-151-    raise exc
/home/jenkins/mindspore/testcases/testcases/tests/st/networks/llm_parallel_feature/deepseekv3/deepseekv3_cell_dp2mp2ep2pp2mb4gas1bs1_deredundency_8p_gmm/scheduler.log-152-  File "/home/jenkins/mindspore/testcases/testcases/tests/st/networks/llm_parallel_feature/mindformers/mindformers/tools/cloud_adapter/cloud_monitor.py", line 34, in wrapper
--
/home/jenkins/mindspore/testcases/testcases/tests/st/networks/llm_parallel_feature/deepseekv3/deepseekv3_cell_dp2mp2ep2pp2mb4gas1bs1_deredundency_8p_gmm/scheduler.log-159-    self.parallel_opr.init_communication()
/home/jenkins/mindspore/testcases/testcases/tests/st/networks/llm_parallel_feature/deepseekv3/deepseekv3_cell_dp2mp2ep2pp2mb4gas1bs1_deredundency_8p_gmm/scheduler.log-160-  File "/home/jenkins/mindspore/testcases/testcases/tests/st/networks/llm_parallel_feature/mindformers/mindformers/core/context/parallel.py", line 86, in init_communication
/home/jenkins/mindspore/testcases/testcases/tests/st/networks/llm_parallel_feature/deepseekv3/deepseekv3_cell_dp2mp2ep2pp2mb4gas1bs1_deredundency_8p_gmm/scheduler.log-161-    init()
/home/jenkins/mindspore/testcases/testcases/tests/st/networks/llm_parallel_feature/deepseekv3/deepseekv3_cell_dp2mp2ep2pp2mb4gas1bs1_deredundency_8p_gmm/scheduler.log-162-  File "/home/jenkins/anaconda3/envs/ci39/lib/python3.9/site-packages/mindspore/communication/management.py", line 213, in init
/home/jenkins/mindspore/testcases/testcases/tests/st/networks/llm_parallel_feature/deepseekv3/deepseekv3_cell_dp2mp2ep2pp2mb4gas1bs1_deredundency_8p_gmm/scheduler.log-163-    init_cluster()
/home/jenkins/mindspore/testcases/testcases/tests/st/networks/llm_parallel_feature/deepseekv3/deepseekv3_cell_dp2mp2ep2pp2mb4gas1bs1_deredundency_8p_gmm/scheduler.log:164:RuntimeError: The total number of timed out node is 1. Timed out node list is: [const vector]{1}, worker 1 is the first one timed out, please check its log.
/home/jenkins/mindspore/testcases/testcases/tests/st/networks/llm_parallel_feature/deepseekv3/deepseekv3_cell_dp2mp2ep2pp2mb4gas1bs1_deredundency_8p_gmm/scheduler.log-165-
/home/jenkins/mindspore/testcases/testcases/tests/st/networks/llm_parallel_feature/deepseekv3/deepseekv3_cell_dp2mp2ep2pp2mb4gas1bs1_deredundency_8p_gmm/scheduler.log-166-----------------------------------------------------
/home/jenkins/mindspore/testcases/testcases/tests/st/networks/llm_parallel_feature/deepseekv3/deepseekv3_cell_dp2mp2ep2pp2mb4gas1bs1_deredundency_8p_gmm/scheduler.log-167-- C++ Call Stack: (For framework developers)
/home/jenkins/mindspore/testcases/testcases/tests/st/networks/llm_parallel_feature/deepseekv3/deepseekv3_cell_dp2mp2ep2pp2mb4gas1bs1_deredundency_8p_gmm/scheduler.log-168-----------------------------------------------------
/home/jenkins/mindspore/testcases/testcases/tests/st/networks/llm_parallel_feature/deepseekv3/deepseekv3_cell_dp2mp2ep2pp2mb4gas1bs1_deredundency_8p_gmm/scheduler.log-169-mindspore/ccsrc/distributed/cluster/topology/meta_server_node.cc:517 UpdateTopoState
Traceback (most recent call last):
  File "/home/jenkins/anaconda3/envs/ci39/bin/msrun", line 8, in <module>
    sys.exit(main())
  File "/home/jenkins/anaconda3/envs/ci39/lib/python3.9/site-packages/mindspore/parallel/cluster/run.py", line 191, in main
    run(args)
  File "/home/jenkins/anaconda3/envs/ci39/lib/python3.9/site-packages/mindspore/parallel/cluster/run.py", line 185, in run
    process_manager.run()
  File "/home/jenkins/anaconda3/envs/ci39/lib/python3.9/site-packages/mindspore/parallel/cluster/process_entity/_api.py", line 268, in run
    self.join_processes()
  File "/home/jenkins/anaconda3/envs/ci39/lib/python3.9/site-packages/mindspore/parallel/cluster/process_entity/_api.py", line 387, in join_processes
    raise RuntimeError("Distributed job exited with exception. Please check logs in "
RuntimeError: Distributed job exited with exception. Please check logs in directory: /home/jenkins/mindspore/testcases/testcases/tests/st/networks/llm_parallel_feature/deepseekv3/deepseekv3_cell_dp2mp2ep2pp2mb4gas1bs1_deredundency_8p_gmm/.
[MS_DEV_RUNTIME_CONF]Runtime config:  memory_statistics:True
F

=================================== FAILURES ===================================
_______ test_deepseekv3_cell_dp2mp2ep2pp2mb4gas1bs1_deredundency_8p_gmm ________

    @arg_mark(plat_marks=['platform_ascend910b'], level_mark='level0', card_mark='allcards', essential_mark='essential')
    def test_deepseekv3_cell_dp2mp2ep2pp2mb4gas1bs1_deredundency_8p_gmm():
        """
        Feature: test deepseekv3 cell dp2mp2ep4pp2mb4gas1bs1 8p gmm
        Description: test deepseekv3 cell dp2mp2ep4pp2mb4gas1bs1 8p gmm
        Expectation: st pass
        """
        case_name = "deepseekv3_cell_dp2mp2ep2pp2mb4gas1bs1_deredundency_8p_gmm"
        sh_path = os.path.split(os.path.realpath(__file__))[0]
    
        parallel_speed_up_json = {'matmul_grad_comm_overlap': True,
                                  "pp_1f1b_overlap": "MorphAllGather,MorphReduceScatter"}
    
        deepseek_config = DeepseekConfig(parallel_speed_up_json=parallel_speed_up_json,
                                         num_samples=60,
                                         use_gmm=True,
                                         enable_deredundency=True,
                                         npu_nums_per_device=2)
    
        file_path = prepare_deepseekv3_testcase_env(case_name, deepseek_config)
    
        device_num = 8
        master_port = 7123
        hccl_if_base_port = 63334
    
        # set env for training
        env_cmd = 'export MS_DEV_GRAPH_KERNEL_FLAGS="--enable_pass=grouped_matmul_assignadd_fusion";'
        env_cmd += 'export MS_DEV_RUNTIME_CONF="memory_statistics:True";'
        env_cmd += 'export MS_MEMORY_STATISTIC=1'
    
        os.system(f"{env_cmd}; bash {sh_path}/run_llm.sh {device_num} \
        {file_path} {case_name} {master_port} {hccl_if_base_port} pp")
    
        # check train over
        check_pair = {"Training Over": 1}
        real_log_path = log_path_preprocess(case_name, device_num)
        for log_path in real_log_path:
>           check_log(log_path, check_pair)

test_deepseekv3_pretrain.py:118: 
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ 

file_path = './deepseekv3_cell_dp2mp2ep2pp2mb4gas1bs1_deredundency_8p_gmm/worker_0.log'
check_pairs = {'Training Over': 1}

    def check_log(file_path, check_pairs=None):
        # check the number of key in check_pairs in log file is equal to the value
        log_error_count = subprocess.check_output(
            ["grep -rE '%s' %s | wc -l" % ("ERROR|Traceback", file_path)],
            shell=True)
        log_cnt = str(log_error_count, 'utf-8').strip()
        if log_cnt != "0":
            os.system(f"cat {file_path}")
        assert log_cnt == "0", f"Error found in {file_path}"
        if check_pairs is not None:
            for key_word, value in check_pairs.items():
                log_output = subprocess.check_output(
                    ["grep -r '%s' %s | wc -l" % (key_word, file_path)],
                    shell=True)
                log_cnt = str(log_output, 'utf-8').strip()
>               assert log_cnt == str(value), (f"Failed to find {key_word} in {file_path} or content is not correct."
                                               f"Expected occurrences: {value}, but got {log_cnt}")
E               AssertionError: Failed to find Training Over in ./deepseekv3_cell_dp2mp2ep2pp2mb4gas1bs1_deredundency_8p_gmm/worker_0.log or content is not correct.Expected occurrences: 1, but got 0

../utils.py:160: AssertionError
=========================== short test summary info ============================
FAILED test_deepseekv3_pretrain.py::test_deepseekv3_cell_dp2mp2ep2pp2mb4gas1bs1_deredundency_8p_gmm
======================== 1 failed in 226.58s (0:03:46) =========================