fix: load fused moe

JamesBrianD · JamesBrianD · commit 788ebc4303c7 · 2025-12-11T13:48:46.000+08:00
diff --git a/python/sgl_jax/srt/layers/fused_moe.py b/python/sgl_jax/srt/layers/fused_moe.py
@@ -182,8 +182,64 @@ def __call__(self, hidden_states: jax.Array, router_logits: jax.Array) -> jax.Ar
         Returns:
             MoE layer output, same shape as hidden_states
         """
+
+        # Debug: Print weights using callback to ensure execution
+        def print_w1_stats(w1):
+            print(f"[FusedEPMoE Layer {self.layer_id}] w1 shape: {w1.shape}, dtype: {w1.dtype}")
+            print(f"[FusedEPMoE Layer {self.layer_id}] w1 full:\n{w1}")
+
+        def print_w2_stats(w2):
+            print(f"[FusedEPMoE Layer {self.layer_id}] w2 shape: {w2.shape}, dtype: {w2.dtype}")
+            print(f"[FusedEPMoE Layer {self.layer_id}] w2 full:\n{w2}")
+
+        def print_w1_gate_stats(w1_gate):
+            print(
+                f"[FusedEPMoE Layer {self.layer_id}] w1_gate shape: {w1_gate.shape}, dtype: {w1_gate.dtype}"
+            )
+            print(f"[FusedEPMoE Layer {self.layer_id}] w1_gate full:\n{w1_gate}")
+
+        def print_w1_up_stats(w1_up):
+            print(
+                f"[FusedEPMoE Layer {self.layer_id}] w1_up shape: {w1_up.shape}, dtype: {w1_up.dtype}"
+            )
+            print(f"[FusedEPMoE Layer {self.layer_id}] w1_up full:\n{w1_up}")
+
+        # jax.debug.callback(print_w1_stats, self.w1.value)
+        # jax.debug.callback(print_w2_stats, self.w2.value)
+
+        # Debug: Print w1 gate_proj and up_proj separately (E, 2, H, I)
+        # w1_gate = self.w1.value[:, 0, :, :]  # gate_proj weights
+        # w1_up = self.w1.value[:, 1, :, :]  # up_proj weights
+
+        # jax.debug.callback(print_w1_gate_stats, w1_gate)
+        # jax.debug.callback(print_w1_up_stats, w1_up)
+
         assert hidden_states.ndim == 2
 
+        # Debug: Input before resharding
+        def print_input_tokens(tokens):
+            print(
+                f"[FusedEPMoE Layer {self.layer_id}] Input tokens shape: {tokens.shape}, dtype: {tokens.dtype}"
+            )
+            print(f"[FusedEPMoE Layer {self.layer_id}] Input tokens full:\n{tokens}")
+
+        # jax.debug.callback(print_input_tokens, hidden_states)
+
+        hidden_states = jax.sharding.reshard(hidden_states, P("tensor", None))
+        router_logits = jax.sharding.reshard(router_logits, P("tensor", None))
+
+        # Debug: Input after resharding
+        def print_router_logits(logits):
+            print(
+                f"[FusedEPMoE Layer {self.layer_id}] Calling fused_ep_moe kernel with top_k={self.num_experts_per_tok}, renormalize={self.renormalize_topk_logits}"
+            )
+            print(
+                f"[FusedEPMoE Layer {self.layer_id}] Router logits shape: {logits.shape}, dtype: {logits.dtype}"
+            )
+            print(f"[FusedEPMoE Layer {self.layer_id}] Router logits full:\n{logits}")
+
+        # jax.debug.callback(print_router_logits, router_logits)
+
         output = fused_ep_moe(
             mesh=self.mesh,
             tokens=hidden_states,
@@ -212,4 +268,14 @@ def __call__(self, hidden_states: jax.Array, router_logits: jax.Array) -> jax.Ar
             # tp_axis_name="data",
         )
 
-        return output
+        final_output = jax.sharding.reshard(output, P(None))
+
+        def print_final_output(out):
+            print(
+                f"[FusedEPMoE Layer {self.layer_id}] Final output shape: {out.shape}, dtype: {out.dtype}"
+            )
+            print(f"[FusedEPMoE Layer {self.layer_id}] Final output full:\n{out}")
+
+        # jax.debug.callback(print_final_output, final_output)
+
+        return final_output
diff --git a/python/sgl_jax/srt/layers/moe.py b/python/sgl_jax/srt/layers/moe.py
@@ -258,6 +258,23 @@ def _detect_device_capabilities(self):
             return False, "cpu"
 
     def __call__(self, hidden_states, topk_weights, topk_ids) -> jax.Array:
+        # Debug: Print weights for EPMoE using callback
+        def print_wi_0_stats(wi_0):
+            print(f"[EPMoE Layer {self.layer_id}] wi_0 shape: {wi_0.shape}, dtype: {wi_0.dtype}")
+            print(f"[EPMoE Layer {self.layer_id}] wi_0 full:\n{wi_0}")
+
+        def print_wi_1_stats(wi_1):
+            print(f"[EPMoE Layer {self.layer_id}] wi_1 shape: {wi_1.shape}, dtype: {wi_1.dtype}")
+            print(f"[EPMoE Layer {self.layer_id}] wi_1 full:\n{wi_1}")
+
+        def print_wo_stats(wo):
+            print(f"[EPMoE Layer {self.layer_id}] wo shape: {wo.shape}, dtype: {wo.dtype}")
+            print(f"[EPMoE Layer {self.layer_id}] wo full:\n{wo}")
+
+        jax.debug.callback(print_wi_0_stats, self.wi_0.value)
+        jax.debug.callback(print_wi_1_stats, self.wi_1.value)
+        jax.debug.callback(print_wo_stats, self.wo.value)
+
         with jax.sharding.use_abstract_mesh(self.updated_mesh):
             hidden_states_reshard = jax.sharding.reshard(hidden_states, P(None))
             topk_weights_reshard = jax.sharding.reshard(topk_weights, P(None))
diff --git a/python/sgl_jax/srt/models/qwen3_moe.py b/python/sgl_jax/srt/models/qwen3_moe.py
@@ -262,12 +262,59 @@ def __call__(
         hidden_states = self.post_attention_layernorm(hidden_states)
 
         if self.is_moe_layer:
+            # Debug: MLP input using callback
+            def print_mlp_input(hs):
+                print(f"[Layer {self.layer_id}] MLP Input shape: {hs.shape}, dtype: {hs.dtype}")
+                print(f"[Layer {self.layer_id}] MLP Input full:\n{hs}")
+
+            # jax.debug.callback(print_mlp_input, hidden_states)
+
             router_logits = self.moe_gate(hidden_states)
+
+            def print_router_logits_fn(logits):
+                print(
+                    f"[Layer {self.layer_id}] Router Logits shape: {logits.shape}, dtype: {logits.dtype}"
+                )
+                print(f"[Layer {self.layer_id}] Router Logits full:\n{logits}")
+
+            # jax.debug.callback(print_router_logits_fn, router_logits)
+
             if self.use_fused:
+                print(f"[Layer {self.layer_id}] Using FUSED MoE backend")
                 hidden_states = self.mlp(hidden_states, router_logits)
+
+                def print_fused_output(out):
+                    print(
+                        f"[Layer {self.layer_id}] Fused MoE Output shape: {out.shape}, dtype: {out.dtype}"
+                    )
+                    print(f"[Layer {self.layer_id}] Fused MoE Output full:\n{out}")
+
+                # jax.debug.callback(print_fused_output, hidden_states)
             else:
+                print(f"[Layer {self.layer_id}] Using EPMoE backend")
                 topk_weights, topk_ids = self.topk(router_logits)
+
+                def print_topk(weights, ids):
+                    print(
+                        f"[Layer {self.layer_id}] TopK weights shape: {weights.shape}, dtype: {weights.dtype}"
+                    )
+                    print(f"[Layer {self.layer_id}] TopK weights full:\n{weights}")
+                    print(
+                        f"[Layer {self.layer_id}] TopK ids shape: {ids.shape}, dtype: {ids.dtype}"
+                    )
+                    print(f"[Layer {self.layer_id}] TopK ids full:\n{ids}")
+
+                # jax.debug.callback(print_topk, topk_weights, topk_ids)
+
                 hidden_states = self.mlp(hidden_states, topk_weights, topk_ids)
+
+                def print_epmoe_output(out):
+                    print(
+                        f"[Layer {self.layer_id}] EPMoE Output shape: {out.shape}, dtype: {out.dtype}"
+                    )
+                    print(f"[Layer {self.layer_id}] EPMoE Output full:\n{out}")
+
+                # jax.debug.callback(print_epmoe_output, hidden_states)
         else:
             hidden_states = self.mlp(hidden_states)
 
@@ -510,37 +557,28 @@ def _create_moe_layer_mappings(self, layer_idx: int, is_mlp_layer: bool) -> dict
                 # Fused MoE Mapping
                 # w1: fused gate_proj(w1) + up_proj(w3) -> (num_experts, 2, hidden, intermediate)
                 # w2: down_proj(w2) -> (num_experts, intermediate, hidden)
-
-                # 1. Fused w1 (gate + up)
-                target_path_w1 = [f"{target_prefix}.mlp.w1"]
-                # Add source keys for gate_proj and up_proj
-                for name in ["gate_proj", "up_proj"]:
-                    target_path_w1.extend(
-                        [f"{prefix}.mlp.experts.{i}.{name}.weight" for i in range(num_experts)]
-                    )
-
+                w1_expert_keys = []
+                for expert_type in ["gate_proj", "up_proj"]:
+                    w1_expert_keys = w1_expert_keys + [
+                        f"{prefix}.mlp.experts.{i}.{expert_type}.weight" for i in range(num_experts)
+                    ]
                 mappings[f"__MOE_EXPERTS__{prefix}.mlp.w1"] = WeightMapping(
-                    target_path=target_path_w1,
+                    target_path=[f"{target_prefix}.mlp.w1"] + w1_expert_keys,
                     sharding=("tensor", None, None, None),  # (E, 2, H, I)
                     transpose=True,
-                    concat_axis=0,
                     fuse_moe_weights=True,
                     fuse_gate_up=("gate_proj", "up_proj"),
                 )
-
-                # 2. w2 (down)
-                target_path_w2 = [f"{target_prefix}.mlp.w2"]
-                target_path_w2.extend(
-                    [f"{prefix}.mlp.experts.{i}.down_proj.weight" for i in range(num_experts)]
-                )
-
+                w2_expert_keys = [
+                    f"{prefix}.mlp.experts.{i}.down_proj.weight" for i in range(num_experts)
+                ]
                 mappings[f"__MOE_EXPERTS__{prefix}.mlp.w2"] = WeightMapping(
-                    target_path=target_path_w2,
+                    target_path=[f"{target_prefix}.mlp.w2"] + w2_expert_keys,
                     sharding=("tensor", None, None),  # (E, I, H)
                     transpose=True,
-                    concat_axis=-1,
                 )
             else:
+                # EPMoE mapping - always use expert sharding
                 for expert_type in ["gate_proj", "up_proj", "down_proj"]:
                     target_name = {
                         "gate_proj": "wi_0",
@@ -553,9 +591,9 @@ def _create_moe_layer_mappings(self, layer_idx: int, is_mlp_layer: bool) -> dict
                     ]
 
                     if expert_type == "down_proj":
-                        sharding = ("tensor", None, None)
+                        sharding = ("expert", "tensor", None)
                     else:
-                        sharding = ("tensor", None, None)
+                        sharding = ("expert", None, "tensor")
 
                     mappings[f"__MOE_EXPERTS__{prefix}.mlp.{target_name}"] = WeightMapping(
                         target_path=[f"{target_prefix}.mlp.{target_name}"] + expert_keys,
@@ -598,8 +636,6 @@ def __call__(
         logits_metadata: LogitsMetadata,
     ):
         hidden_states, layers_kv_fused = self.model(forward_batch, token_to_kv_pool)
-        hidden_states = jax.sharding.reshard(hidden_states, jax.sharding.PartitionSpec(None, None))
-
         if not getattr(self.config, "tie_word_embeddings", False):
             output = self.logits_processor(hidden_states, self.lm_head, logits_metadata)
         else:
diff --git a/python/sgl_jax/srt/utils/weight_utils.py b/python/sgl_jax/srt/utils/weight_utils.py