Series comparison

-[PULL 00/56] tcg patch queue
+[PULL 00/53] tcg patch queue
-The following changes since commit c52d69e7dbaaed0ffdef8125e79218672c30161d:
+The following changes since commit d530697ca20e19f7a626f4c1c8b26fccd0dc4470:
-  Merge remote-tracking branch 'remotes/cschoenebeck/tags/pull-9p-20211027' into staging (2021-10-27 11:45:18 -0700)
+  Merge tag 'pull-testing-updates-100523-1' of https://gitlab.com/stsquad/qemu into staging (2023-05-10 16:43:01 +0100)
 are available in the Git repository at:
-  https://gitlab.com/rth7680/qemu.git tags/pull-tcg-20211027
+  https://gitlab.com/rth7680/qemu.git tags/pull-tcg-20230511
-for you to fetch changes up to 820c025f0dcacf2f3c12735b1f162893fbfa7bc6:
+for you to fetch changes up to b2d4d6616c22325dff802e0a35092167f2dc2268:
-  tcg/optimize: Propagate sign info for shifting (2021-10-27 17:11:23 -0700)
+  target/loongarch: Do not include tcg-ldst.h (2023-05-11 06:06:04 +0100)
 ----------------------------------------------------------------
-Improvements to qemu/int128
+target/m68k: Fix gen_load_fp regression
-Fixes for 128/64 division.
+accel/tcg: Ensure fairness with icount
-Cleanup tcg/optimize.c
+disas: Move disas.c into the target-independent source sets
-Optimize redundant sign extensions
+tcg: Use common routines for calling slow path helpers
 tcg/*: Cleanups to qemu_ld/st constraints
 tcg: Remove TARGET_ALIGNED_ONLY
 accel/tcg: Reorg system mode load/store helpers
 ----------------------------------------------------------------
-Frédéric Pétrot (1):
+Jamie Iles (2):
-      qemu/int128: Add int128_{not,xor}
+      cpu: expose qemu_cpu_list_lock for lock-guard use
       accel/tcg/tcg-accel-ops-rr: ensure fairness with icount
-Luis Pires (4):
+Richard Henderson (49):
-      host-utils: move checks out of divu128/divs128
+      target/m68k: Fix gen_load_fp for OS_LONG
-      host-utils: move udiv_qrnnd() to host-utils
+      accel/tcg: Fix atomic_mmu_lookup for reads
-      host-utils: add 128-bit quotient support to divu128/divs128
+      disas: Fix tabs and braces in disas.c
-      host-utils: add unit tests for divu128/divs128
+      disas: Move disas.c to disas/
       disas: Remove target_ulong from the interface
       disas: Remove target-specific headers
       tcg/i386: Introduce prepare_host_addr
       tcg/i386: Use indexed addressing for softmmu fast path
       tcg/aarch64: Introduce prepare_host_addr
       tcg/arm: Introduce prepare_host_addr
       tcg/loongarch64: Introduce prepare_host_addr
       tcg/mips: Introduce prepare_host_addr
       tcg/ppc: Introduce prepare_host_addr
       tcg/riscv: Introduce prepare_host_addr
       tcg/s390x: Introduce prepare_host_addr
       tcg: Add routines for calling slow-path helpers
       tcg/i386: Convert tcg_out_qemu_ld_slow_path
       tcg/i386: Convert tcg_out_qemu_st_slow_path
       tcg/aarch64: Convert tcg_out_qemu_{ld,st}_slow_path
       tcg/arm: Convert tcg_out_qemu_{ld,st}_slow_path
       tcg/loongarch64: Convert tcg_out_qemu_{ld,st}_slow_path
       tcg/mips: Convert tcg_out_qemu_{ld,st}_slow_path
       tcg/ppc: Convert tcg_out_qemu_{ld,st}_slow_path
       tcg/riscv: Convert tcg_out_qemu_{ld,st}_slow_path
       tcg/s390x: Convert tcg_out_qemu_{ld,st}_slow_path
       tcg/loongarch64: Simplify constraints on qemu_ld/st
       tcg/mips: Remove MO_BSWAP handling
       tcg/mips: Reorg tlb load within prepare_host_addr
       tcg/mips: Simplify constraints on qemu_ld/st
       tcg/ppc: Reorg tcg_out_tlb_read
       tcg/ppc: Adjust constraints on qemu_ld/st
       tcg/ppc: Remove unused constraints A, B, C, D
       tcg/ppc: Remove unused constraint J
       tcg/riscv: Simplify constraints on qemu_ld/st
       tcg/s390x: Use ALGFR in constructing softmmu host address
       tcg/s390x: Simplify constraints on qemu_ld/st
       target/mips: Add MO_ALIGN to gen_llwp, gen_scwp
       target/mips: Add missing default_tcg_memop_mask
       target/mips: Use MO_ALIGN instead of 0
       target/mips: Remove TARGET_ALIGNED_ONLY
       target/nios2: Remove TARGET_ALIGNED_ONLY
       target/sh4: Use MO_ALIGN where required
       target/sh4: Remove TARGET_ALIGNED_ONLY
       tcg: Remove TARGET_ALIGNED_ONLY
       accel/tcg: Add cpu_in_serial_context
       accel/tcg: Introduce tlb_read_idx
       accel/tcg: Reorg system mode load helpers
       accel/tcg: Reorg system mode store helpers
       target/loongarch: Do not include tcg-ldst.h
-Richard Henderson (51):
+Thomas Huth (2):
-      tcg/optimize: Rename "mask" to "z_mask"
+      disas: Move softmmu specific code to separate file
-      tcg/optimize: Split out OptContext
+      disas: Move disas.c into the target-independent source set
       tcg/optimize: Remove do_default label
       tcg/optimize: Change tcg_opt_gen_{mov,movi} interface
       tcg/optimize: Move prev_mb into OptContext
       tcg/optimize: Split out init_arguments
       tcg/optimize: Split out copy_propagate
       tcg/optimize: Split out fold_call
       tcg/optimize: Drop nb_oargs, nb_iargs locals
       tcg/optimize: Change fail return for do_constant_folding_cond*
       tcg/optimize: Return true from tcg_opt_gen_{mov,movi}
       tcg/optimize: Split out finish_folding
       tcg/optimize: Use a boolean to avoid a mass of continues
       tcg/optimize: Split out fold_mb, fold_qemu_{ld,st}
       tcg/optimize: Split out fold_const{1,2}
       tcg/optimize: Split out fold_setcond2
       tcg/optimize: Split out fold_brcond2
       tcg/optimize: Split out fold_brcond
       tcg/optimize: Split out fold_setcond
       tcg/optimize: Split out fold_mulu2_i32
       tcg/optimize: Split out fold_addsub2_i32
       tcg/optimize: Split out fold_movcond
       tcg/optimize: Split out fold_extract2
       tcg/optimize: Split out fold_extract, fold_sextract
       tcg/optimize: Split out fold_deposit
       tcg/optimize: Split out fold_count_zeros
       tcg/optimize: Split out fold_bswap
       tcg/optimize: Split out fold_dup, fold_dup2
       tcg/optimize: Split out fold_mov
       tcg/optimize: Split out fold_xx_to_i
       tcg/optimize: Split out fold_xx_to_x
       tcg/optimize: Split out fold_xi_to_i
       tcg/optimize: Add type to OptContext
       tcg/optimize: Split out fold_to_not
       tcg/optimize: Split out fold_sub_to_neg
       tcg/optimize: Split out fold_xi_to_x
       tcg/optimize: Split out fold_ix_to_i
       tcg/optimize: Split out fold_masks
       tcg/optimize: Expand fold_mulu2_i32 to all 4-arg multiplies
       tcg/optimize: Expand fold_addsub2_i32 to 64-bit ops
       tcg/optimize: Sink commutative operand swapping into fold functions
       tcg/optimize: Stop forcing z_mask to "garbage" for 32-bit values
       tcg/optimize: Use fold_xx_to_i for orc
       tcg/optimize: Use fold_xi_to_x for mul
       tcg/optimize: Use fold_xi_to_x for div
       tcg/optimize: Use fold_xx_to_i for rem
       tcg/optimize: Optimize sign extensions
       tcg/optimize: Propagate sign info for logical operations
       tcg/optimize: Propagate sign info for setcond
       tcg/optimize: Propagate sign info for bit counting
       tcg/optimize: Propagate sign info for shifting
- include/fpu/softfloat-macros.h |   82 --
+ configs/targets/mips-linux-user.mak       |    1 -
- include/hw/clock.h             |    5 +-
+ configs/targets/mips-softmmu.mak          |    1 -
- include/qemu/host-utils.h      |  121 +-
+ configs/targets/mips64-linux-user.mak     |    1 -
- include/qemu/int128.h          |   20 +
+ configs/targets/mips64-softmmu.mak        |    1 -
- target/ppc/int_helper.c        |   23 +-
+ configs/targets/mips64el-linux-user.mak   |    1 -
- tcg/optimize.c                 | 2644 ++++++++++++++++++++++++----------------
+ configs/targets/mips64el-softmmu.mak      |    1 -
- tests/unit/test-div128.c       |  197 +++
+ configs/targets/mipsel-linux-user.mak     |    1 -
- util/host-utils.c              |  147 ++-
+ configs/targets/mipsel-softmmu.mak        |    1 -
- tests/unit/meson.build         |    1 +
+ configs/targets/mipsn32-linux-user.mak    |    1 -
-files changed, 2053 insertions(+), 1187 deletions(-)
+ configs/targets/mipsn32el-linux-user.mak  |    1 -
- create mode 100644 tests/unit/test-div128.c
+ configs/targets/nios2-softmmu.mak         |    1 -
+ configs/targets/sh4-linux-user.mak        |    1 -
  configs/targets/sh4-softmmu.mak           |    1 -
  configs/targets/sh4eb-linux-user.mak      |    1 -
  configs/targets/sh4eb-softmmu.mak         |    1 -
  meson.build                               |    3 -
  accel/tcg/internal.h                      |    9 +
  accel/tcg/tcg-accel-ops-icount.h          |    3 +-
  disas/disas-internal.h                    |   21 +
  include/disas/disas.h                     |   23 +-
  include/exec/cpu-common.h                 |    1 +
  include/exec/cpu-defs.h                   |    7 +-
  include/exec/cpu_ldst.h                   |   26 +-
  include/exec/memop.h                      |   13 +-
  include/exec/poison.h                     |    1 -
  tcg/loongarch64/tcg-target-con-set.h      |    2 -
  tcg/loongarch64/tcg-target-con-str.h      |    1 -
  tcg/mips/tcg-target-con-set.h             |   13 +-
  tcg/mips/tcg-target-con-str.h             |    2 -
  tcg/mips/tcg-target.h                     |    4 +-
  tcg/ppc/tcg-target-con-set.h              |   11 +-
  tcg/ppc/tcg-target-con-str.h              |    7 -
  tcg/riscv/tcg-target-con-set.h            |    2 -
  tcg/riscv/tcg-target-con-str.h            |    1 -
  tcg/s390x/tcg-target-con-set.h            |    2 -
  tcg/s390x/tcg-target-con-str.h            |    1 -
  accel/tcg/cpu-exec-common.c               |    3 +
  accel/tcg/cputlb.c                        | 1113 ++++++++++++++++-------------
  accel/tcg/tb-maint.c                      |    2 +-
  accel/tcg/tcg-accel-ops-icount.c          |   21 +-
  accel/tcg/tcg-accel-ops-rr.c              |   37 +-
  bsd-user/elfload.c                        |    5 +-
  cpus-common.c                             |    2 +-
  disas/disas-mon.c                         |   65 ++
  disas.c => disas/disas.c                  |  109 +--
  linux-user/elfload.c                      |   18 +-
  migration/dirtyrate.c                     |   26 +-
  replay/replay.c                           |    3 +-
  target/loongarch/csr_helper.c             |    1 -
  target/loongarch/iocsr_helper.c           |    1 -
  target/m68k/translate.c                   |    1 +
  target/mips/tcg/mxu_translate.c           |    3 +-
  target/nios2/translate.c                  |   10 +
  target/sh4/translate.c                    |  102 ++-
  tcg/tcg.c                                 |  480 ++++++++++++-
  trace/control-target.c                    |    9 +-
  target/mips/tcg/micromips_translate.c.inc |   24 +-
  target/mips/tcg/mips16e_translate.c.inc   |   18 +-
  target/mips/tcg/nanomips_translate.c.inc  |   32 +-
  tcg/aarch64/tcg-target.c.inc              |  347 ++++-----
  tcg/arm/tcg-target.c.inc                  |  455 +++++-------
  tcg/i386/tcg-target.c.inc                 |  453 +++++-------
  tcg/loongarch64/tcg-target.c.inc          |  313 +++-----
  tcg/mips/tcg-target.c.inc                 |  870 +++++++---------------
  tcg/ppc/tcg-target.c.inc                  |  512 ++++++-------
  tcg/riscv/tcg-target.c.inc                |  304 ++++----
  tcg/s390x/tcg-target.c.inc                |  314 ++++----
  disas/meson.build                         |    6 +-
 files changed, 2788 insertions(+), 3039 deletions(-)
  create mode 100644 disas/disas-internal.h
  create mode 100644 disas/disas-mon.c
  rename disas.c => disas/disas.c (79%)

-[PULL 51/56] tcg/optimize: Use fold_xx_to_i for rem
+[PULL 01/53] target/m68k: Fix gen_load_fp for OS_LONG
-Recognize the constant function for remainder.
+Case was accidentally dropped in b7a94da9550b.
-Suggested-by: Luis Pires <luis.pires@eldorado.org.br>
+Tested-by: Laurent Vivier <laurent@vivier.eu>
-Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
+Reviewed-by: Laurent Vivier <laurent@vivier.eu>
 Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- tcg/optimize.c | 6 +++++-
+ target/m68k/translate.c | 1 +
-file changed, 5 insertions(+), 1 deletion(-)
+file changed, 1 insertion(+)
-diff --git a/tcg/optimize.c b/tcg/optimize.c
+diff --git a/target/m68k/translate.c b/target/m68k/translate.c
 index XXXXXXX..XXXXXXX 100644
---- a/tcg/optimize.c
+--- a/target/m68k/translate.c
-+++ b/tcg/optimize.c
++++ b/target/m68k/translate.c
-@@ -XXX,XX +XXX,XX @@ static bool fold_qemu_st(OptContext *ctx, TCGOp *op)
+@@ -XXX,XX +XXX,XX @@ static void gen_load_fp(DisasContext *s, int opsize, TCGv addr, TCGv_ptr fp,
+     switch (opsize) {
- static bool fold_remainder(OptContext *ctx, TCGOp *op)
+     case OS_BYTE:
- {
+     case OS_WORD:
--    return fold_const2(ctx, op);
++    case OS_LONG:
-+    if (fold_const2(ctx, op) ||
+         tcg_gen_qemu_ld_tl(tmp, addr, index, opsize | MO_SIGN | MO_TE);
-+        fold_xx_to_i(ctx, op, 0)) {
+         gen_helper_exts32(cpu_env, fp, tmp);
-+        return true;
+         break;
 +    }
 +    return false;
  }
  static bool fold_setcond(OptContext *ctx, TCGOp *op)
 --
-.25.1
+.34.1

-[PULL 50/56] tcg/optimize: Use fold_xi_to_x for div
+[PULL 02/53] accel/tcg: Fix atomic_mmu_lookup for reads
-Recognize the identity function for division.
+A copy-paste bug had us looking at the victim cache for writes.
-Suggested-by: Luis Pires <luis.pires@eldorado.org.br>
+Cc: qemu-stable@nongnu.org
-Reviewed-by: Luis Pires <luis.pires@eldorado.org.br>
+Reported-by: Peter Maydell <peter.maydell@linaro.org>
 Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
+Fixes: 08dff435e2 ("tcg: Probe the proper permissions for atomic ops")
+Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
+Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
+Message-Id: <20230505204049.352469-1-richard.henderson@linaro.org>
 ---
- tcg/optimize.c | 6 +++++-
+ accel/tcg/cputlb.c | 2 +-
-file changed, 5 insertions(+), 1 deletion(-)
+file changed, 1 insertion(+), 1 deletion(-)
-diff --git a/tcg/optimize.c b/tcg/optimize.c
+diff --git a/accel/tcg/cputlb.c b/accel/tcg/cputlb.c
 index XXXXXXX..XXXXXXX 100644
---- a/tcg/optimize.c
+--- a/accel/tcg/cputlb.c
-+++ b/tcg/optimize.c
++++ b/accel/tcg/cputlb.c
-@@ -XXX,XX +XXX,XX @@ static bool fold_deposit(OptContext *ctx, TCGOp *op)
+@@ -XXX,XX +XXX,XX @@ static void *atomic_mmu_lookup(CPUArchState *env, target_ulong addr,
+     } else /* if (prot & PAGE_READ) */ {
- static bool fold_divide(OptContext *ctx, TCGOp *op)
+         tlb_addr = tlbe->addr_read;
- {
+         if (!tlb_hit(tlb_addr, addr)) {
--    return fold_const2(ctx, op);
+-            if (!VICTIM_TLB_HIT(addr_write, addr)) {
-+    if (fold_const2(ctx, op) ||
++            if (!VICTIM_TLB_HIT(addr_read, addr)) {
-+        fold_xi_to_x(ctx, op, 1)) {
+                 tlb_fill(env_cpu(env), addr, size,
-+        return true;
+                          MMU_DATA_LOAD, mmu_idx, retaddr);
-+    }
+                 index = tlb_index(env, mmu_idx, addr);
 +    return false;
  }
  static bool fold_dup(OptContext *ctx, TCGOp *op)
 --
-.25.1
+.34.1

-[PULL 22/56] tcg/optimize: Split out fold_brcond2
+[PULL 03/53] disas: Fix tabs and braces in disas.c
-Reduce some code duplication by folding the NE and EQ cases.
+Fix these before moving the file, for checkpatch.pl.
-Reviewed-by: Luis Pires <luis.pires@eldorado.org.br>
+Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
+Message-Id: <20230510170812.663149-1-richard.henderson@linaro.org>
 ---
- tcg/optimize.c | 159 +++++++++++++++++++++++++------------------------
+ disas.c | 11 ++++++-----
-file changed, 81 insertions(+), 78 deletions(-)
+file changed, 6 insertions(+), 5 deletions(-)
-diff --git a/tcg/optimize.c b/tcg/optimize.c
+diff --git a/disas.c b/disas.c
 index XXXXXXX..XXXXXXX 100644
---- a/tcg/optimize.c
+--- a/disas.c
-+++ b/tcg/optimize.c
++++ b/disas.c
-@@ -XXX,XX +XXX,XX @@ static bool fold_andc(OptContext *ctx, TCGOp *op)
+@@ -XXX,XX +XXX,XX @@ void target_disas(FILE *out, CPUState *cpu, target_ulong code,
-     return fold_const2(ctx, op);
+     }
- }
+     for (pc = code; size > 0; pc += count, size -= count) {
-+static bool fold_brcond2(OptContext *ctx, TCGOp *op)
+-    fprintf(out, "0x" TARGET_FMT_lx ":  ", pc);
-+{
+-    count = s.info.print_insn(pc, &s.info);
-+    TCGCond cond = op->args[4];
+-    fprintf(out, "\n");
-+    int i = do_constant_folding_cond2(&op->args[0], &op->args[2], cond);
+-    if (count < 0)
-+    TCGArg label = op->args[5];
+-        break;
-+    int inv = 0;
++        fprintf(out, "0x" TARGET_FMT_lx ":  ", pc);
-+
++        count = s.info.print_insn(pc, &s.info);
-+    if (i >= 0) {
++        fprintf(out, "\n");
-+        goto do_brcond_const;
++        if (count < 0) {
 +    }
 +
 +    switch (cond) {
 +    case TCG_COND_LT:
 +    case TCG_COND_GE:
 +        /*
 +         * Simplify LT/GE comparisons vs zero to a single compare
 +         * vs the high word of the input.
 +         */
 +        if (arg_is_const(op->args[2]) && arg_info(op->args[2])->val == 0 &&
 +            arg_is_const(op->args[3]) && arg_info(op->args[3])->val == 0) {
 +            goto do_brcond_high;
 +        }
 +        break;
 +
 +    case TCG_COND_NE:
 +        inv = 1;
 +        QEMU_FALLTHROUGH;
 +    case TCG_COND_EQ:
 +        /*
 +         * Simplify EQ/NE comparisons where one of the pairs
 +         * can be simplified.
 +         */
 +        i = do_constant_folding_cond(INDEX_op_brcond_i32, op->args[0],
 +                                     op->args[2], cond);
 +        switch (i ^ inv) {
 +        case 0:
 +            goto do_brcond_const;
 +        case 1:
 +            goto do_brcond_high;
 +        }
 +
 +        i = do_constant_folding_cond(INDEX_op_brcond_i32, op->args[1],
 +                                     op->args[3], cond);
 +        switch (i ^ inv) {
 +        case 0:
 +            goto do_brcond_const;
 +        case 1:
 +            op->opc = INDEX_op_brcond_i32;
 +            op->args[1] = op->args[2];
 +            op->args[2] = cond;
 +            op->args[3] = label;
 +            break;
 +        }
-+        break;
+         if (size < count) {
-+
+             fprintf(out,
-+    default:
+                     "Disassembler disagrees with translator over instruction "
 +        break;
 +
 +    do_brcond_high:
 +        op->opc = INDEX_op_brcond_i32;
 +        op->args[0] = op->args[1];
 +        op->args[1] = op->args[3];
 +        op->args[2] = cond;
 +        op->args[3] = label;
 +        break;
 +
 +    do_brcond_const:
 +        if (i == 0) {
 +            tcg_op_remove(ctx->tcg, op);
 +            return true;
 +        }
 +        op->opc = INDEX_op_br;
 +        op->args[0] = label;
 +        break;
 +    }
 +    return false;
 +}
 +
  static bool fold_call(OptContext *ctx, TCGOp *op)
  {
      TCGContext *s = ctx->tcg;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
              }
              break;
 -        case INDEX_op_brcond2_i32:
 -            i = do_constant_folding_cond2(&op->args[0], &op->args[2],
 -                                          op->args[4]);
 -            if (i == 0) {
 -            do_brcond_false:
 -                tcg_op_remove(s, op);
 -                continue;
 -            }
 -            if (i > 0) {
 -            do_brcond_true:
 -                op->opc = opc = INDEX_op_br;
 -                op->args[0] = op->args[5];
 -                break;
 -            }
 -            if ((op->args[4] == TCG_COND_LT || op->args[4] == TCG_COND_GE)
 -                 && arg_is_const(op->args[2])
 -                 && arg_info(op->args[2])->val == 0
 -                 && arg_is_const(op->args[3])
 -                 && arg_info(op->args[3])->val == 0) {
 -                /* Simplify LT/GE comparisons vs zero to a single compare
 -                   vs the high word of the input.  */
 -            do_brcond_high:
 -                op->opc = opc = INDEX_op_brcond_i32;
 -                op->args[0] = op->args[1];
 -                op->args[1] = op->args[3];
 -                op->args[2] = op->args[4];
 -                op->args[3] = op->args[5];
 -                break;
 -            }
 -            if (op->args[4] == TCG_COND_EQ) {
 -                /* Simplify EQ comparisons where one of the pairs
 -                   can be simplified.  */
 -                i = do_constant_folding_cond(INDEX_op_brcond_i32,
 -                                             op->args[0], op->args[2],
 -                                             TCG_COND_EQ);
 -                if (i == 0) {
 -                    goto do_brcond_false;
 -                } else if (i > 0) {
 -                    goto do_brcond_high;
 -                }
 -                i = do_constant_folding_cond(INDEX_op_brcond_i32,
 -                                             op->args[1], op->args[3],
 -                                             TCG_COND_EQ);
 -                if (i == 0) {
 -                    goto do_brcond_false;
 -                } else if (i < 0) {
 -                    break;
 -                }
 -            do_brcond_low:
 -                memset(&ctx.temps_used, 0, sizeof(ctx.temps_used));
 -                op->opc = INDEX_op_brcond_i32;
 -                op->args[1] = op->args[2];
 -                op->args[2] = op->args[4];
 -                op->args[3] = op->args[5];
 -                break;
 -            }
 -            if (op->args[4] == TCG_COND_NE) {
 -                /* Simplify NE comparisons where one of the pairs
 -                   can be simplified.  */
 -                i = do_constant_folding_cond(INDEX_op_brcond_i32,
 -                                             op->args[0], op->args[2],
 -                                             TCG_COND_NE);
 -                if (i == 0) {
 -                    goto do_brcond_high;
 -                } else if (i > 0) {
 -                    goto do_brcond_true;
 -                }
 -                i = do_constant_folding_cond(INDEX_op_brcond_i32,
 -                                             op->args[1], op->args[3],
 -                                             TCG_COND_NE);
 -                if (i == 0) {
 -                    goto do_brcond_low;
 -                } else if (i > 0) {
 -                    goto do_brcond_true;
 -                }
 -            }
 -            break;
 -
          default:
              break;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
          CASE_OP_32_64_VEC(andc):
              done = fold_andc(&ctx, op);
              break;
 +        case INDEX_op_brcond2_i32:
 +            done = fold_brcond2(&ctx, op);
 +            break;
          CASE_OP_32_64(ctpop):
              done = fold_ctpop(&ctx, op);
              break;
 --
-.25.1
+.34.1

-[PULL 49/56] tcg/optimize: Use fold_xi_to_x for mul
+[PULL 04/53] disas: Move disas.c to disas/
-Recognize the identity function for low-part multiply.
+Reviewed-by: Thomas Huth <thuth@redhat.com>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 Message-Id: <20230503072331.1747057-80-richard.henderson@linaro.org>
 ---
  meson.build              | 3 ---
  disas.c => disas/disas.c | 0
  disas/meson.build        | 4 +++-
 files changed, 3 insertions(+), 4 deletions(-)
  rename disas.c => disas/disas.c (100%)
-Suggested-by: Luis Pires <luis.pires@eldorado.org.br>
+diff --git a/meson.build b/meson.build
 Reviewed-by: Luis Pires <luis.pires@eldorado.org.br>
 Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
  tcg/optimize.c | 3 ++-
 file changed, 2 insertions(+), 1 deletion(-)
 diff --git a/tcg/optimize.c b/tcg/optimize.c
 index XXXXXXX..XXXXXXX 100644
---- a/tcg/optimize.c
+--- a/meson.build
-+++ b/tcg/optimize.c
++++ b/meson.build
-@@ -XXX,XX +XXX,XX @@ static bool fold_movcond(OptContext *ctx, TCGOp *op)
+@@ -XXX,XX +XXX,XX @@ specific_ss.add(files('cpu.c'))
- static bool fold_mul(OptContext *ctx, TCGOp *op)
- {
+ subdir('softmmu')
-     if (fold_const2(ctx, op) ||
--        fold_xi_to_i(ctx, op, 0)) {
+-common_ss.add(capstone)
-+        fold_xi_to_i(ctx, op, 0) ||
+-specific_ss.add(files('disas.c'), capstone)
-+        fold_xi_to_x(ctx, op, 1)) {
+-
-         return true;
+ # Work around a gcc bug/misfeature wherein constant propagation looks
-     }
+ # through an alias:
-     return false;
+ #   https://gcc.gnu.org/bugzilla/show_bug.cgi?id=99696
 diff --git a/disas.c b/disas/disas.c
 similarity index 100%
 rename from disas.c
 rename to disas/disas.c
 diff --git a/disas/meson.build b/disas/meson.build
 index XXXXXXX..XXXXXXX 100644
 --- a/disas/meson.build
 +++ b/disas/meson.build
@@ -XXX,XX +XXX,XX @@ common_ss.add(when: 'CONFIG_RISCV_DIS', if_true: files('riscv.c'))
  common_ss.add(when: 'CONFIG_SH4_DIS', if_true: files('sh4.c'))
  common_ss.add(when: 'CONFIG_SPARC_DIS', if_true: files('sparc.c'))
  common_ss.add(when: 'CONFIG_XTENSA_DIS', if_true: files('xtensa.c'))
 -common_ss.add(when: capstone, if_true: files('capstone.c'))
 +common_ss.add(when: capstone, if_true: [files('capstone.c'), capstone])
 +
 +specific_ss.add(files('disas.c'), capstone)
 --
-.25.1
+.34.1

-[PULL 07/56] tcg/optimize: Split out OptContext
+[PULL 05/53] disas: Remove target_ulong from the interface
-Provide what will become a larger context for splitting
+Use uint64_t for the pc, and size_t for the size.
 the very large tcg_optimize function.
-Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
+Reviewed-by: Thomas Huth <thuth@redhat.com>
 Reviewed-by: Luis Pires <luis.pires@eldorado.org.br>
 Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
+Message-Id: <20230503072331.1747057-81-richard.henderson@linaro.org>
 ---
- tcg/optimize.c | 77 ++++++++++++++++++++++++++------------------------
+ include/disas/disas.h | 17 ++++++-----------
-file changed, 40 insertions(+), 37 deletions(-)
+ bsd-user/elfload.c    |  5 +++--
  disas/disas.c         | 19 +++++++++----------
  linux-user/elfload.c  |  5 +++--
 files changed, 21 insertions(+), 25 deletions(-)
-diff --git a/tcg/optimize.c b/tcg/optimize.c
+diff --git a/include/disas/disas.h b/include/disas/disas.h
 index XXXXXXX..XXXXXXX 100644
---- a/tcg/optimize.c
+--- a/include/disas/disas.h
-+++ b/tcg/optimize.c
++++ b/include/disas/disas.h
-@@ -XXX,XX +XXX,XX @@ typedef struct TempOptInfo {
+@@ -XXX,XX +XXX,XX @@
-     uint64_t z_mask;  /* mask bit is 0 if and only if value bit is 0 */
+ #include "cpu.h"
- } TempOptInfo;
+ /* Disassemble this for me please... (debugging). */
-+typedef struct OptContext {
+-void disas(FILE *out, const void *code, unsigned long size);
-+    TCGTempSet temps_used;
+-void target_disas(FILE *out, CPUState *cpu, target_ulong code,
-+} OptContext;
+-                  target_ulong size);
 +void disas(FILE *out, const void *code, size_t size);
 +void target_disas(FILE *out, CPUState *cpu, uint64_t code, size_t size);
 -void monitor_disas(Monitor *mon, CPUState *cpu,
 -                   target_ulong pc, int nb_insn, int is_physical);
 +void monitor_disas(Monitor *mon, CPUState *cpu, uint64_t pc,
 +                   int nb_insn, bool is_physical);
  char *plugin_disas(CPUState *cpu, uint64_t addr, size_t size);
  /* Look up symbol for debugging purpose.  Returns "" if unknown. */
 -const char *lookup_symbol(target_ulong orig_addr);
 +const char *lookup_symbol(uint64_t orig_addr);
  #endif
  struct syminfo;
  struct elf32_sym;
  struct elf64_sym;
 -#if defined(CONFIG_USER_ONLY)
 -typedef const char *(*lookup_symbol_t)(struct syminfo *s, target_ulong orig_addr);
 -#else
 -typedef const char *(*lookup_symbol_t)(struct syminfo *s, hwaddr orig_addr);
 -#endif
 +typedef const char *(*lookup_symbol_t)(struct syminfo *s, uint64_t orig_addr);
  struct syminfo {
      lookup_symbol_t lookup_symbol;
 diff --git a/bsd-user/elfload.c b/bsd-user/elfload.c
 index XXXXXXX..XXXXXXX 100644
 --- a/bsd-user/elfload.c
 +++ b/bsd-user/elfload.c
@@ -XXX,XX +XXX,XX @@ static abi_ulong load_elf_interp(struct elfhdr *interp_elf_ex,
  static int symfind(const void *s0, const void *s1)
  {
 -    target_ulong addr = *(target_ulong *)s0;
 +    __typeof(sym->st_value) addr = *(uint64_t *)s0;
      struct elf_sym *sym = (struct elf_sym *)s1;
      int result = 0;
 +
- static inline TempOptInfo *ts_info(TCGTemp *ts)
+     if (addr < sym->st_value) {
          result = -1;
      } else if (addr >= sym->st_value + sym->st_size) {
@@ -XXX,XX +XXX,XX @@ static int symfind(const void *s0, const void *s1)
      return result;
  }
 -static const char *lookup_symbolxx(struct syminfo *s, target_ulong orig_addr)
 +static const char *lookup_symbolxx(struct syminfo *s, uint64_t orig_addr)
  {
-     return ts->state_ptr;
+ #if ELF_CLASS == ELFCLASS32
-@@ -XXX,XX +XXX,XX @@ static void reset_temp(TCGArg arg)
+     struct elf_sym *syms = s->disas_symtab.elf32;
 diff --git a/disas/disas.c b/disas/disas.c
 index XXXXXXX..XXXXXXX 100644
 --- a/disas/disas.c
 +++ b/disas/disas.c
@@ -XXX,XX +XXX,XX @@ static void initialize_debug_host(CPUDebug *s)
  }
- /* Initialize and activate a temporary.  */
+ /* Disassemble this for me please... (debugging).  */
--static void init_ts_info(TCGTempSet *temps_used, TCGTemp *ts)
+-void target_disas(FILE *out, CPUState *cpu, target_ulong code,
-+static void init_ts_info(OptContext *ctx, TCGTemp *ts)
+-                  target_ulong size)
 +void target_disas(FILE *out, CPUState *cpu, uint64_t code, size_t size)
  {
-     size_t idx = temp_idx(ts);
+-    target_ulong pc;
-     TempOptInfo *ti;
++    uint64_t pc;
+     int count;
--    if (test_bit(idx, temps_used->l)) {
+     CPUDebug s;
-+    if (test_bit(idx, ctx->temps_used.l)) {
@@ -XXX,XX +XXX,XX @@ void target_disas(FILE *out, CPUState *cpu, target_ulong code,
      }
      for (pc = code; size > 0; pc += count, size -= count) {
 -        fprintf(out, "0x" TARGET_FMT_lx ":  ", pc);
 +        fprintf(out, "0x%08" PRIx64 ":  ", pc);
          count = s.info.print_insn(pc, &s.info);
          fprintf(out, "\n");
          if (count < 0) {
@@ -XXX,XX +XXX,XX @@ char *plugin_disas(CPUState *cpu, uint64_t addr, size_t size)
  }
  /* Disassemble this for me please... (debugging). */
 -void disas(FILE *out, const void *code, unsigned long size)
 +void disas(FILE *out, const void *code, size_t size)
  {
      uintptr_t pc;
      int count;
@@ -XXX,XX +XXX,XX @@ void disas(FILE *out, const void *code, unsigned long size)
  }
  /* Look up symbol for debugging purpose.  Returns "" if unknown. */
 -const char *lookup_symbol(target_ulong orig_addr)
 +const char *lookup_symbol(uint64_t orig_addr)
  {
      const char *symbol = "";
      struct syminfo *s;
@@ -XXX,XX +XXX,XX @@ physical_read_memory(bfd_vma memaddr, bfd_byte *myaddr, int length,
  }
  /* Disassembler for the monitor.  */
 -void monitor_disas(Monitor *mon, CPUState *cpu,
 -                   target_ulong pc, int nb_insn, int is_physical)
 +void monitor_disas(Monitor *mon, CPUState *cpu, uint64_t pc,
 +                   int nb_insn, bool is_physical)
  {
      int count, i;
      CPUDebug s;
@@ -XXX,XX +XXX,XX @@ void monitor_disas(Monitor *mon, CPUState *cpu,
      }
      if (!s.info.print_insn) {
 -        monitor_printf(mon, "0x" TARGET_FMT_lx
 +        monitor_printf(mon, "0x%08" PRIx64
                         ": Asm output not supported on this arch\n", pc);
          return;
      }
--    set_bit(idx, temps_used->l);
-+    set_bit(idx, ctx->temps_used.l);
+     for (i = 0; i < nb_insn; i++) {
+-        g_string_append_printf(ds, "0x" TARGET_FMT_lx ":  ", pc);
-     ti = ts->state_ptr;
++        g_string_append_printf(ds, "0x%08" PRIx64 ":  ", pc);
-     if (ti == NULL) {
+         count = s.info.print_insn(pc, &s.info);
-@@ -XXX,XX +XXX,XX @@ static void init_ts_info(TCGTempSet *temps_used, TCGTemp *ts)
+         g_string_append_c(ds, '\n');
-     }
+         if (count < 0) {
 diff --git a/linux-user/elfload.c b/linux-user/elfload.c
 index XXXXXXX..XXXXXXX 100644
 --- a/linux-user/elfload.c
 +++ b/linux-user/elfload.c
@@ -XXX,XX +XXX,XX @@ static void load_elf_interp(const char *filename, struct image_info *info,
  static int symfind(const void *s0, const void *s1)
  {
 -    target_ulong addr = *(target_ulong *)s0;
      struct elf_sym *sym = (struct elf_sym *)s1;
 +    __typeof(sym->st_value) addr = *(uint64_t *)s0;
      int result = 0;
 +
      if (addr < sym->st_value) {
          result = -1;
      } else if (addr >= sym->st_value + sym->st_size) {
@@ -XXX,XX +XXX,XX @@ static int symfind(const void *s0, const void *s1)
      return result;
  }
--static void init_arg_info(TCGTempSet *temps_used, TCGArg arg)
+-static const char *lookup_symbolxx(struct syminfo *s, target_ulong orig_addr)
-+static void init_arg_info(OptContext *ctx, TCGArg arg)
++static const char *lookup_symbolxx(struct syminfo *s, uint64_t orig_addr)
  {
--    init_ts_info(temps_used, arg_temp(arg));
+ #if ELF_CLASS == ELFCLASS32
-+    init_ts_info(ctx, arg_temp(arg));
+     struct elf_sym *syms = s->disas_symtab.elf32;
  }
  static TCGTemp *find_better_copy(TCGContext *s, TCGTemp *ts)
@@ -XXX,XX +XXX,XX @@ static void tcg_opt_gen_mov(TCGContext *s, TCGOp *op, TCGArg dst, TCGArg src)
      }
  }
 -static void tcg_opt_gen_movi(TCGContext *s, TCGTempSet *temps_used,
 +static void tcg_opt_gen_movi(TCGContext *s, OptContext *ctx,
                               TCGOp *op, TCGArg dst, uint64_t val)
  {
      const TCGOpDef *def = &tcg_op_defs[op->opc];
@@ -XXX,XX +XXX,XX @@ static void tcg_opt_gen_movi(TCGContext *s, TCGTempSet *temps_used,
      /* Convert movi to mov with constant temp. */
      tv = tcg_constant_internal(type, val);
 -    init_ts_info(temps_used, tv);
 +    init_ts_info(ctx, tv);
      tcg_opt_gen_mov(s, op, dst, temp_arg(tv));
  }
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
  {
      int nb_temps, nb_globals, i;
      TCGOp *op, *op_next, *prev_mb = NULL;
 -    TCGTempSet temps_used;
 +    OptContext ctx = {};
      /* Array VALS has an element for each temp.
         If this temp holds a constant then its value is kept in VALS' element.
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
      nb_temps = s->nb_temps;
      nb_globals = s->nb_globals;
 -    memset(&temps_used, 0, sizeof(temps_used));
      for (i = 0; i < nb_temps; ++i) {
          s->temps[i].state_ptr = NULL;
      }
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
              for (i = 0; i < nb_oargs + nb_iargs; i++) {
                  TCGTemp *ts = arg_temp(op->args[i]);
                  if (ts) {
 -                    init_ts_info(&temps_used, ts);
 +                    init_ts_info(&ctx, ts);
                  }
              }
          } else {
              nb_oargs = def->nb_oargs;
              nb_iargs = def->nb_iargs;
              for (i = 0; i < nb_oargs + nb_iargs; i++) {
 -                init_arg_info(&temps_used, op->args[i]);
 +                init_arg_info(&ctx, op->args[i]);
              }
          }
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
          CASE_OP_32_64(rotr):
              if (arg_is_const(op->args[1])
                  && arg_info(op->args[1])->val == 0) {
 -                tcg_opt_gen_movi(s, &temps_used, op, op->args[0], 0);
 +                tcg_opt_gen_movi(s, &ctx, op, op->args[0], 0);
                  continue;
              }
              break;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
          if (partmask == 0) {
              tcg_debug_assert(nb_oargs == 1);
 -            tcg_opt_gen_movi(s, &temps_used, op, op->args[0], 0);
 +            tcg_opt_gen_movi(s, &ctx, op, op->args[0], 0);
              continue;
          }
          if (affected == 0) {
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
          CASE_OP_32_64(mulsh):
              if (arg_is_const(op->args[2])
                  && arg_info(op->args[2])->val == 0) {
 -                tcg_opt_gen_movi(s, &temps_used, op, op->args[0], 0);
 +                tcg_opt_gen_movi(s, &ctx, op, op->args[0], 0);
                  continue;
              }
              break;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
          CASE_OP_32_64_VEC(sub):
          CASE_OP_32_64_VEC(xor):
              if (args_are_copies(op->args[1], op->args[2])) {
 -                tcg_opt_gen_movi(s, &temps_used, op, op->args[0], 0);
 +                tcg_opt_gen_movi(s, &ctx, op, op->args[0], 0);
                  continue;
              }
              break;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
              if (arg_is_const(op->args[1])) {
                  tmp = arg_info(op->args[1])->val;
                  tmp = dup_const(TCGOP_VECE(op), tmp);
 -                tcg_opt_gen_movi(s, &temps_used, op, op->args[0], tmp);
 +                tcg_opt_gen_movi(s, &ctx, op, op->args[0], tmp);
                  break;
              }
              goto do_default;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
          case INDEX_op_dup2_vec:
              assert(TCG_TARGET_REG_BITS == 32);
              if (arg_is_const(op->args[1]) && arg_is_const(op->args[2])) {
 -                tcg_opt_gen_movi(s, &temps_used, op, op->args[0],
 +                tcg_opt_gen_movi(s, &ctx, op, op->args[0],
                                   deposit64(arg_info(op->args[1])->val, 32, 32,
                                             arg_info(op->args[2])->val));
                  break;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
          case INDEX_op_extrh_i64_i32:
              if (arg_is_const(op->args[1])) {
                  tmp = do_constant_folding(opc, arg_info(op->args[1])->val, 0);
 -                tcg_opt_gen_movi(s, &temps_used, op, op->args[0], tmp);
 +                tcg_opt_gen_movi(s, &ctx, op, op->args[0], tmp);
                  break;
              }
              goto do_default;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
              if (arg_is_const(op->args[1])) {
                  tmp = do_constant_folding(opc, arg_info(op->args[1])->val,
                                            op->args[2]);
 -                tcg_opt_gen_movi(s, &temps_used, op, op->args[0], tmp);
 +                tcg_opt_gen_movi(s, &ctx, op, op->args[0], tmp);
                  break;
              }
              goto do_default;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
              if (arg_is_const(op->args[1]) && arg_is_const(op->args[2])) {
                  tmp = do_constant_folding(opc, arg_info(op->args[1])->val,
                                            arg_info(op->args[2])->val);
 -                tcg_opt_gen_movi(s, &temps_used, op, op->args[0], tmp);
 +                tcg_opt_gen_movi(s, &ctx, op, op->args[0], tmp);
                  break;
              }
              goto do_default;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
                  TCGArg v = arg_info(op->args[1])->val;
                  if (v != 0) {
                      tmp = do_constant_folding(opc, v, 0);
 -                    tcg_opt_gen_movi(s, &temps_used, op, op->args[0], tmp);
 +                    tcg_opt_gen_movi(s, &ctx, op, op->args[0], tmp);
                  } else {
                      tcg_opt_gen_mov(s, op, op->args[0], op->args[2]);
                  }
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
                  tmp = deposit64(arg_info(op->args[1])->val,
                                  op->args[3], op->args[4],
                                  arg_info(op->args[2])->val);
 -                tcg_opt_gen_movi(s, &temps_used, op, op->args[0], tmp);
 +                tcg_opt_gen_movi(s, &ctx, op, op->args[0], tmp);
                  break;
              }
              goto do_default;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
              if (arg_is_const(op->args[1])) {
                  tmp = extract64(arg_info(op->args[1])->val,
                                  op->args[2], op->args[3]);
 -                tcg_opt_gen_movi(s, &temps_used, op, op->args[0], tmp);
 +                tcg_opt_gen_movi(s, &ctx, op, op->args[0], tmp);
                  break;
              }
              goto do_default;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
              if (arg_is_const(op->args[1])) {
                  tmp = sextract64(arg_info(op->args[1])->val,
                                   op->args[2], op->args[3]);
 -                tcg_opt_gen_movi(s, &temps_used, op, op->args[0], tmp);
 +                tcg_opt_gen_movi(s, &ctx, op, op->args[0], tmp);
                  break;
              }
              goto do_default;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
                      tmp = (int32_t)(((uint32_t)v1 >> shr) |
                                      ((uint32_t)v2 << (32 - shr)));
                  }
 -                tcg_opt_gen_movi(s, &temps_used, op, op->args[0], tmp);
 +                tcg_opt_gen_movi(s, &ctx, op, op->args[0], tmp);
                  break;
              }
              goto do_default;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
              tmp = do_constant_folding_cond(opc, op->args[1],
                                             op->args[2], op->args[3]);
              if (tmp != 2) {
 -                tcg_opt_gen_movi(s, &temps_used, op, op->args[0], tmp);
 +                tcg_opt_gen_movi(s, &ctx, op, op->args[0], tmp);
                  break;
              }
              goto do_default;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
                                             op->args[1], op->args[2]);
              if (tmp != 2) {
                  if (tmp) {
 -                    memset(&temps_used, 0, sizeof(temps_used));
 +                    memset(&ctx.temps_used, 0, sizeof(ctx.temps_used));
                      op->opc = INDEX_op_br;
                      op->args[0] = op->args[3];
                  } else {
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
                  rl = op->args[0];
                  rh = op->args[1];
 -                tcg_opt_gen_movi(s, &temps_used, op, rl, (int32_t)a);
 -                tcg_opt_gen_movi(s, &temps_used, op2, rh, (int32_t)(a >> 32));
 +                tcg_opt_gen_movi(s, &ctx, op, rl, (int32_t)a);
 +                tcg_opt_gen_movi(s, &ctx, op2, rh, (int32_t)(a >> 32));
                  break;
              }
              goto do_default;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
                  rl = op->args[0];
                  rh = op->args[1];
 -                tcg_opt_gen_movi(s, &temps_used, op, rl, (int32_t)r);
 -                tcg_opt_gen_movi(s, &temps_used, op2, rh, (int32_t)(r >> 32));
 +                tcg_opt_gen_movi(s, &ctx, op, rl, (int32_t)r);
 +                tcg_opt_gen_movi(s, &ctx, op2, rh, (int32_t)(r >> 32));
                  break;
              }
              goto do_default;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
              if (tmp != 2) {
                  if (tmp) {
              do_brcond_true:
 -                    memset(&temps_used, 0, sizeof(temps_used));
 +                    memset(&ctx.temps_used, 0, sizeof(ctx.temps_used));
                      op->opc = INDEX_op_br;
                      op->args[0] = op->args[5];
                  } else {
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
                  /* Simplify LT/GE comparisons vs zero to a single compare
                     vs the high word of the input.  */
              do_brcond_high:
 -                memset(&temps_used, 0, sizeof(temps_used));
 +                memset(&ctx.temps_used, 0, sizeof(ctx.temps_used));
                  op->opc = INDEX_op_brcond_i32;
                  op->args[0] = op->args[1];
                  op->args[1] = op->args[3];
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
                      goto do_default;
                  }
              do_brcond_low:
 -                memset(&temps_used, 0, sizeof(temps_used));
 +                memset(&ctx.temps_used, 0, sizeof(ctx.temps_used));
                  op->opc = INDEX_op_brcond_i32;
                  op->args[1] = op->args[2];
                  op->args[2] = op->args[4];
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
                                              op->args[5]);
              if (tmp != 2) {
              do_setcond_const:
 -                tcg_opt_gen_movi(s, &temps_used, op, op->args[0], tmp);
 +                tcg_opt_gen_movi(s, &ctx, op, op->args[0], tmp);
              } else if ((op->args[5] == TCG_COND_LT
                          || op->args[5] == TCG_COND_GE)
                         && arg_is_const(op->args[3])
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
              if (!(tcg_call_flags(op)
                    & (TCG_CALL_NO_READ_GLOBALS | TCG_CALL_NO_WRITE_GLOBALS))) {
                  for (i = 0; i < nb_globals; i++) {
 -                    if (test_bit(i, temps_used.l)) {
 +                    if (test_bit(i, ctx.temps_used.l)) {
                          reset_ts(&s->temps[i]);
                      }
                  }
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
                 block, otherwise we only trash the output args.  "z_mask" is
                 the non-zero bits mask for the first output arg.  */
              if (def->flags & TCG_OPF_BB_END) {
 -                memset(&temps_used, 0, sizeof(temps_used));
 +                memset(&ctx.temps_used, 0, sizeof(ctx.temps_used));
              } else {
          do_reset_output:
                  for (i = 0; i < nb_oargs; i++) {
 --
-.25.1
+.34.1

-[PULL 46/56] tcg/optimize: Sink commutative operand swapping into fold functions
+[PULL 06/53] disas: Remove target-specific headers
-Most of these are handled by creating a fold_const2_commutative
+Reviewed-by: Thomas Huth <thuth@redhat.com>
-to handle all of the binary operators.  The rest were already
+Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
-handled on a case-by-case basis in the switch, and have their
+Message-Id: <20230503072331.1747057-83-richard.henderson@linaro.org>
-own fold function in which to place the call.
+---
  include/disas/disas.h | 6 ------
  disas/disas.c         | 3 ++-
 files changed, 2 insertions(+), 7 deletions(-)
-We now have only one major switch on TCGOpcode.
+diff --git a/include/disas/disas.h b/include/disas/disas.h
 Introduce NO_DEST and a block comment for swap_commutative in
 order to make the handling of brcond and movcond opcodes cleaner.
 Reviewed-by: Luis Pires <luis.pires@eldorado.org.br>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
  tcg/optimize.c | 142 ++++++++++++++++++++++++-------------------------
 file changed, 70 insertions(+), 72 deletions(-)
 diff --git a/tcg/optimize.c b/tcg/optimize.c
 index XXXXXXX..XXXXXXX 100644
---- a/tcg/optimize.c
+--- a/include/disas/disas.h
-+++ b/tcg/optimize.c
++++ b/include/disas/disas.h
-@@ -XXX,XX +XXX,XX @@ static int do_constant_folding_cond2(TCGArg *p1, TCGArg *p2, TCGCond c)
+@@ -XXX,XX +XXX,XX @@
-     return -1;
+ #ifndef QEMU_DISAS_H
- }
+ #define QEMU_DISAS_H
-+/**
+-#include "exec/hwaddr.h"
 + * swap_commutative:
 + * @dest: TCGArg of the destination argument, or NO_DEST.
 + * @p1: first paired argument
 + * @p2: second paired argument
 + *
 + * If *@p1 is a constant and *@p2 is not, swap.
 + * If *@p2 matches @dest, swap.
 + * Return true if a swap was performed.
 + */
 +
 +#define NO_DEST  temp_arg(NULL)
 +
  static bool swap_commutative(TCGArg dest, TCGArg *p1, TCGArg *p2)
  {
      TCGArg a1 = *p1, a2 = *p2;
@@ -XXX,XX +XXX,XX @@ static bool fold_const2(OptContext *ctx, TCGOp *op)
      return false;
  }
 +static bool fold_const2_commutative(OptContext *ctx, TCGOp *op)
 +{
 +    swap_commutative(op->args[0], &op->args[1], &op->args[2]);
 +    return fold_const2(ctx, op);
 +}
 +
  static bool fold_masks(OptContext *ctx, TCGOp *op)
  {
      uint64_t a_mask = ctx->a_mask;
@@ -XXX,XX +XXX,XX @@ static bool fold_xx_to_x(OptContext *ctx, TCGOp *op)
  static bool fold_add(OptContext *ctx, TCGOp *op)
  {
 -    if (fold_const2(ctx, op) ||
 +    if (fold_const2_commutative(ctx, op) ||
          fold_xi_to_x(ctx, op, 0)) {
          return true;
      }
@@ -XXX,XX +XXX,XX @@ static bool fold_addsub2(OptContext *ctx, TCGOp *op, bool add)
  static bool fold_add2(OptContext *ctx, TCGOp *op)
  {
 +    /* Note that the high and low parts may be independently swapped. */
 +    swap_commutative(op->args[0], &op->args[2], &op->args[4]);
 +    swap_commutative(op->args[1], &op->args[3], &op->args[5]);
 +
      return fold_addsub2(ctx, op, true);
  }
@@ -XXX,XX +XXX,XX @@ static bool fold_and(OptContext *ctx, TCGOp *op)
  {
      uint64_t z1, z2;
 -    if (fold_const2(ctx, op) ||
 +    if (fold_const2_commutative(ctx, op) ||
          fold_xi_to_i(ctx, op, 0) ||
          fold_xi_to_x(ctx, op, -1) ||
          fold_xx_to_x(ctx, op)) {
@@ -XXX,XX +XXX,XX @@ static bool fold_andc(OptContext *ctx, TCGOp *op)
  static bool fold_brcond(OptContext *ctx, TCGOp *op)
  {
      TCGCond cond = op->args[2];
 -    int i = do_constant_folding_cond(ctx->type, op->args[0], op->args[1], cond);
 +    int i;
 +    if (swap_commutative(NO_DEST, &op->args[0], &op->args[1])) {
 +        op->args[2] = cond = tcg_swap_cond(cond);
 +    }
 +
 +    i = do_constant_folding_cond(ctx->type, op->args[0], op->args[1], cond);
      if (i == 0) {
          tcg_op_remove(ctx->tcg, op);
          return true;
@@ -XXX,XX +XXX,XX @@ static bool fold_brcond(OptContext *ctx, TCGOp *op)
  static bool fold_brcond2(OptContext *ctx, TCGOp *op)
  {
      TCGCond cond = op->args[4];
 -    int i = do_constant_folding_cond2(&op->args[0], &op->args[2], cond);
      TCGArg label = op->args[5];
 -    int inv = 0;
 +    int i, inv = 0;
 +    if (swap_commutative2(&op->args[0], &op->args[2])) {
 +        op->args[4] = cond = tcg_swap_cond(cond);
 +    }
 +
 +    i = do_constant_folding_cond2(&op->args[0], &op->args[2], cond);
      if (i >= 0) {
          goto do_brcond_const;
      }
@@ -XXX,XX +XXX,XX @@ static bool fold_dup2(OptContext *ctx, TCGOp *op)
  static bool fold_eqv(OptContext *ctx, TCGOp *op)
  {
 -    if (fold_const2(ctx, op) ||
 +    if (fold_const2_commutative(ctx, op) ||
          fold_xi_to_x(ctx, op, -1) ||
          fold_xi_to_not(ctx, op, 0)) {
          return true;
@@ -XXX,XX +XXX,XX @@ static bool fold_mov(OptContext *ctx, TCGOp *op)
  static bool fold_movcond(OptContext *ctx, TCGOp *op)
  {
      TCGCond cond = op->args[5];
 -    int i = do_constant_folding_cond(ctx->type, op->args[1], op->args[2], cond);
 +    int i;
 +    if (swap_commutative(NO_DEST, &op->args[1], &op->args[2])) {
 +        op->args[5] = cond = tcg_swap_cond(cond);
 +    }
 +    /*
 +     * Canonicalize the "false" input reg to match the destination reg so
 +     * that the tcg backend can implement a "move if true" operation.
 +     */
 +    if (swap_commutative(op->args[0], &op->args[4], &op->args[3])) {
 +        op->args[5] = cond = tcg_invert_cond(cond);
 +    }
 +
 +    i = do_constant_folding_cond(ctx->type, op->args[1], op->args[2], cond);
      if (i >= 0) {
          return tcg_opt_gen_mov(ctx, op, op->args[0], op->args[4 - i]);
      }
@@ -XXX,XX +XXX,XX @@ static bool fold_mul(OptContext *ctx, TCGOp *op)
  static bool fold_mul_highpart(OptContext *ctx, TCGOp *op)
  {
 -    if (fold_const2(ctx, op) ||
 +    if (fold_const2_commutative(ctx, op) ||
          fold_xi_to_i(ctx, op, 0)) {
          return true;
      }
@@ -XXX,XX +XXX,XX @@ static bool fold_mul_highpart(OptContext *ctx, TCGOp *op)
  static bool fold_multiply2(OptContext *ctx, TCGOp *op)
  {
 +    swap_commutative(op->args[0], &op->args[2], &op->args[3]);
 +
      if (arg_is_const(op->args[2]) && arg_is_const(op->args[3])) {
          uint64_t a = arg_info(op->args[2])->val;
          uint64_t b = arg_info(op->args[3])->val;
@@ -XXX,XX +XXX,XX @@ static bool fold_multiply2(OptContext *ctx, TCGOp *op)
  static bool fold_nand(OptContext *ctx, TCGOp *op)
  {
 -    if (fold_const2(ctx, op) ||
 +    if (fold_const2_commutative(ctx, op) ||
          fold_xi_to_not(ctx, op, -1)) {
          return true;
      }
@@ -XXX,XX +XXX,XX @@ static bool fold_neg(OptContext *ctx, TCGOp *op)
  static bool fold_nor(OptContext *ctx, TCGOp *op)
  {
 -    if (fold_const2(ctx, op) ||
 +    if (fold_const2_commutative(ctx, op) ||
          fold_xi_to_not(ctx, op, 0)) {
          return true;
      }
@@ -XXX,XX +XXX,XX @@ static bool fold_not(OptContext *ctx, TCGOp *op)
  static bool fold_or(OptContext *ctx, TCGOp *op)
  {
 -    if (fold_const2(ctx, op) ||
 +    if (fold_const2_commutative(ctx, op) ||
          fold_xi_to_x(ctx, op, 0) ||
          fold_xx_to_x(ctx, op)) {
          return true;
@@ -XXX,XX +XXX,XX @@ static bool fold_remainder(OptContext *ctx, TCGOp *op)
  static bool fold_setcond(OptContext *ctx, TCGOp *op)
  {
      TCGCond cond = op->args[3];
 -    int i = do_constant_folding_cond(ctx->type, op->args[1], op->args[2], cond);
 +    int i;
 +    if (swap_commutative(op->args[0], &op->args[1], &op->args[2])) {
 +        op->args[3] = cond = tcg_swap_cond(cond);
 +    }
 +
 +    i = do_constant_folding_cond(ctx->type, op->args[1], op->args[2], cond);
      if (i >= 0) {
          return tcg_opt_gen_movi(ctx, op, op->args[0], i);
      }
@@ -XXX,XX +XXX,XX @@ static bool fold_setcond(OptContext *ctx, TCGOp *op)
  static bool fold_setcond2(OptContext *ctx, TCGOp *op)
  {
      TCGCond cond = op->args[5];
 -    int i = do_constant_folding_cond2(&op->args[1], &op->args[3], cond);
 -    int inv = 0;
 +    int i, inv = 0;
 +    if (swap_commutative2(&op->args[1], &op->args[3])) {
 +        op->args[5] = cond = tcg_swap_cond(cond);
 +    }
 +
 +    i = do_constant_folding_cond2(&op->args[1], &op->args[3], cond);
      if (i >= 0) {
          goto do_setcond_const;
      }
@@ -XXX,XX +XXX,XX @@ static bool fold_tcg_ld(OptContext *ctx, TCGOp *op)
  static bool fold_xor(OptContext *ctx, TCGOp *op)
  {
 -    if (fold_const2(ctx, op) ||
 +    if (fold_const2_commutative(ctx, op) ||
          fold_xx_to_i(ctx, op, 0) ||
          fold_xi_to_x(ctx, op, 0) ||
          fold_xi_to_not(ctx, op, -1)) {
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
              ctx.type = TCG_TYPE_I32;
          }
 -        /* For commutative operations make constant second argument */
 -        switch (opc) {
 -        CASE_OP_32_64_VEC(add):
 -        CASE_OP_32_64_VEC(mul):
 -        CASE_OP_32_64_VEC(and):
 -        CASE_OP_32_64_VEC(or):
 -        CASE_OP_32_64_VEC(xor):
 -        CASE_OP_32_64(eqv):
 -        CASE_OP_32_64(nand):
 -        CASE_OP_32_64(nor):
 -        CASE_OP_32_64(muluh):
 -        CASE_OP_32_64(mulsh):
 -            swap_commutative(op->args[0], &op->args[1], &op->args[2]);
 -            break;
 -        CASE_OP_32_64(brcond):
 -            if (swap_commutative(-1, &op->args[0], &op->args[1])) {
 -                op->args[2] = tcg_swap_cond(op->args[2]);
 -            }
 -            break;
 -        CASE_OP_32_64(setcond):
 -            if (swap_commutative(op->args[0], &op->args[1], &op->args[2])) {
 -                op->args[3] = tcg_swap_cond(op->args[3]);
 -            }
 -            break;
 -        CASE_OP_32_64(movcond):
 -            if (swap_commutative(-1, &op->args[1], &op->args[2])) {
 -                op->args[5] = tcg_swap_cond(op->args[5]);
 -            }
 -            /* For movcond, we canonicalize the "false" input reg to match
 -               the destination reg so that the tcg backend can implement
 -               a "move if true" operation.  */
 -            if (swap_commutative(op->args[0], &op->args[4], &op->args[3])) {
 -                op->args[5] = tcg_invert_cond(op->args[5]);
 -            }
 -            break;
 -        CASE_OP_32_64(add2):
 -            swap_commutative(op->args[0], &op->args[2], &op->args[4]);
 -            swap_commutative(op->args[1], &op->args[3], &op->args[5]);
 -            break;
 -        CASE_OP_32_64(mulu2):
 -        CASE_OP_32_64(muls2):
 -            swap_commutative(op->args[0], &op->args[2], &op->args[3]);
 -            break;
 -        case INDEX_op_brcond2_i32:
 -            if (swap_commutative2(&op->args[0], &op->args[2])) {
 -                op->args[4] = tcg_swap_cond(op->args[4]);
 -            }
 -            break;
 -        case INDEX_op_setcond2_i32:
 -            if (swap_commutative2(&op->args[1], &op->args[3])) {
 -                op->args[5] = tcg_swap_cond(op->args[5]);
 -            }
 -            break;
 -        default:
 -            break;
 -        }
 -
-         /* Assume all bits affected, and no bits known zero. */
+-#ifdef NEED_CPU_H
-         ctx.a_mask = -1;
+-#include "cpu.h"
-         ctx.z_mask = -1;
+-
  /* Disassemble this for me please... (debugging). */
  void disas(FILE *out, const void *code, size_t size);
  void target_disas(FILE *out, CPUState *cpu, uint64_t code, size_t size);
@@ -XXX,XX +XXX,XX @@ char *plugin_disas(CPUState *cpu, uint64_t addr, size_t size);
  /* Look up symbol for debugging purpose.  Returns "" if unknown. */
  const char *lookup_symbol(uint64_t orig_addr);
 -#endif
  struct syminfo;
  struct elf32_sym;
 diff --git a/disas/disas.c b/disas/disas.c
 index XXXXXXX..XXXXXXX 100644
 --- a/disas/disas.c
 +++ b/disas/disas.c
@@ -XXX,XX +XXX,XX @@
  #include "disas/dis-asm.h"
  #include "elf.h"
  #include "qemu/qemu-print.h"
 -
  #include "disas/disas.h"
  #include "disas/capstone.h"
 +#include "hw/core/cpu.h"
 +#include "exec/memory.h"
  typedef struct CPUDebug {
      struct disassemble_info info;
 --
-.25.1
+.34.1

-[PULL 05/56] host-utils: add unit tests for divu128/divs128
+[PULL 07/53] disas: Move softmmu specific code to separate file
-From: Luis Pires <luis.pires@eldorado.org.br>
+From: Thomas Huth <thuth@redhat.com>
-Signed-off-by: Luis Pires <luis.pires@eldorado.org.br>
+We'd like to move disas.c into the common code source set, where
-Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
+CONFIG_USER_ONLY is not available anymore. So we have to move
-Message-Id: <20211025191154.350831-5-luis.pires@eldorado.org.br>
+the related code into a separate file instead.
 Signed-off-by: Thomas Huth <thuth@redhat.com>
 Message-Id: <20230508133745.109463-2-thuth@redhat.com>
 [rth: Type change done in a separate patch]
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- tests/unit/test-div128.c | 197 +++++++++++++++++++++++++++++++++++++++
+ disas/disas-internal.h | 21 ++++++++++++
- tests/unit/meson.build   |   1 +
+ disas/disas-mon.c      | 65 ++++++++++++++++++++++++++++++++++++
-files changed, 198 insertions(+)
+ disas/disas.c          | 76 ++++--------------------------------------
- create mode 100644 tests/unit/test-div128.c
+ disas/meson.build      |  1 +
 files changed, 93 insertions(+), 70 deletions(-)
  create mode 100644 disas/disas-internal.h
  create mode 100644 disas/disas-mon.c
-diff --git a/tests/unit/test-div128.c b/tests/unit/test-div128.c
+diff --git a/disas/disas-internal.h b/disas/disas-internal.h
 new file mode 100644
 index XXXXXXX..XXXXXXX
 --- /dev/null
-+++ b/tests/unit/test-div128.c
++++ b/disas/disas-internal.h
 @@ -XXX,XX +XXX,XX @@
 +/*
-+ * Test 128-bit division functions
++ * Definitions used internally in the disassembly code
 + *
-+ * Copyright (c) 2021 Instituto de Pesquisas Eldorado (eldorado.org.br)
++ * SPDX-License-Identifier: GPL-2.0-or-later
 + */
 +
 +#ifndef DISAS_INTERNAL_H
 +#define DISAS_INTERNAL_H
 +
 +#include "disas/dis-asm.h"
 +
 +typedef struct CPUDebug {
 +    struct disassemble_info info;
 +    CPUState *cpu;
 +} CPUDebug;
 +
 +void disas_initialize_debug_target(CPUDebug *s, CPUState *cpu);
 +int disas_gstring_printf(FILE *stream, const char *fmt, ...)
 +    G_GNUC_PRINTF(2, 3);
 +
 +#endif
 diff --git a/disas/disas-mon.c b/disas/disas-mon.c
 new file mode 100644
 index XXXXXXX..XXXXXXX
 --- /dev/null
 +++ b/disas/disas-mon.c
@@ -XXX,XX +XXX,XX @@
 +/*
 + * Functions related to disassembly from the monitor
 + *
-+ * This library is free software; you can redistribute it and/or
++ * SPDX-License-Identifier: GPL-2.0-or-later
 + * modify it under the terms of the GNU Lesser General Public
 + * License as published by the Free Software Foundation; either
 + * version 2.1 of the License, or (at your option) any later version.
 + *
 + * This library is distributed in the hope that it will be useful,
 + * but WITHOUT ANY WARRANTY; without even the implied warranty of
 + * MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU
 + * Lesser General Public License for more details.
 + *
 + * You should have received a copy of the GNU Lesser General Public
 + * License along with this library; if not, see <http://www.gnu.org/licenses/>.
 + */
 +
 +#include "qemu/osdep.h"
-+#include "qemu/host-utils.h"
++#include "disas-internal.h"
-+
++#include "disas/disas.h"
-+typedef struct {
++#include "exec/memory.h"
-+    uint64_t high;
++#include "hw/core/cpu.h"
-+    uint64_t low;
++#include "monitor/monitor.h"
-+    uint64_t rhigh;
++
-+    uint64_t rlow;
++static int
-+    uint64_t divisor;
++physical_read_memory(bfd_vma memaddr, bfd_byte *myaddr, int length,
-+    uint64_t remainder;
++                     struct disassemble_info *info)
 +} test_data_unsigned;
 +
 +typedef struct {
 +    int64_t high;
 +    uint64_t low;
 +    int64_t rhigh;
 +    uint64_t rlow;
 +    int64_t divisor;
 +    int64_t remainder;
 +} test_data_signed;
 +
 +static const test_data_unsigned test_table_unsigned[] = {
 +    /* Dividend fits in 64 bits */
 +    { 0x0000000000000000ULL, 0x0000000000000000ULL,
 +      0x0000000000000000ULL, 0x0000000000000000ULL,
 +      0x0000000000000001ULL, 0x0000000000000000ULL},
 +    { 0x0000000000000000ULL, 0x0000000000000001ULL,
 +      0x0000000000000000ULL, 0x0000000000000001ULL,
 +      0x0000000000000001ULL, 0x0000000000000000ULL},
 +    { 0x0000000000000000ULL, 0x0000000000000003ULL,
 +      0x0000000000000000ULL, 0x0000000000000001ULL,
 +      0x0000000000000002ULL, 0x0000000000000001ULL},
 +    { 0x0000000000000000ULL, 0x8000000000000000ULL,
 +      0x0000000000000000ULL, 0x8000000000000000ULL,
 +      0x0000000000000001ULL, 0x0000000000000000ULL},
 +    { 0x0000000000000000ULL, 0xa000000000000000ULL,
 +      0x0000000000000000ULL, 0x0000000000000002ULL,
 +      0x4000000000000000ULL, 0x2000000000000000ULL},
 +    { 0x0000000000000000ULL, 0x8000000000000000ULL,
 +      0x0000000000000000ULL, 0x0000000000000001ULL,
 +      0x8000000000000000ULL, 0x0000000000000000ULL},
 +
 +    /* Dividend > 64 bits, with MSB 0 */
 +    { 0x123456789abcdefeULL, 0xefedcba987654321ULL,
 +      0x123456789abcdefeULL, 0xefedcba987654321ULL,
 +      0x0000000000000001ULL, 0x0000000000000000ULL},
 +    { 0x123456789abcdefeULL, 0xefedcba987654321ULL,
 +      0x0000000000000001ULL, 0x000000000000000dULL,
 +      0x123456789abcdefeULL, 0x03456789abcdf03bULL},
 +    { 0x123456789abcdefeULL, 0xefedcba987654321ULL,
 +      0x0123456789abcdefULL, 0xeefedcba98765432ULL,
 +      0x0000000000000010ULL, 0x0000000000000001ULL},
 +
 +    /* Dividend > 64 bits, with MSB 1 */
 +    { 0xfeeddccbbaa99887ULL, 0x766554433221100fULL,
 +      0xfeeddccbbaa99887ULL, 0x766554433221100fULL,
 +      0x0000000000000001ULL, 0x0000000000000000ULL},
 +    { 0xfeeddccbbaa99887ULL, 0x766554433221100fULL,
 +      0x0000000000000001ULL, 0x0000000000000000ULL,
 +      0xfeeddccbbaa99887ULL, 0x766554433221100fULL},
 +    { 0xfeeddccbbaa99887ULL, 0x766554433221100fULL,
 +      0x0feeddccbbaa9988ULL, 0x7766554433221100ULL,
 +      0x0000000000000010ULL, 0x000000000000000fULL},
 +    { 0xfeeddccbbaa99887ULL, 0x766554433221100fULL,
 +      0x000000000000000eULL, 0x00f0f0f0f0f0f35aULL,
 +      0x123456789abcdefeULL, 0x0f8922bc55ef90c3ULL},
 +
 +    /**
 +     * Divisor == 64 bits, with MSB 1
 +     * and high 64 bits of dividend >= divisor
 +     * (for testing normalization)
 +     */
 +    { 0xfeeddccbbaa99887ULL, 0x766554433221100fULL,
 +      0x0000000000000001ULL, 0x0000000000000000ULL,
 +      0xfeeddccbbaa99887ULL, 0x766554433221100fULL},
 +    { 0xfeeddccbbaa99887ULL, 0x766554433221100fULL,
 +      0x0000000000000001ULL, 0xfddbb9977553310aULL,
 +      0x8000000000000001ULL, 0x78899aabbccddf05ULL},
 +
 +    /* Dividend > 64 bits, divisor almost as big */
 +    { 0x0000000000000001ULL, 0x23456789abcdef01ULL,
 +      0x0000000000000000ULL, 0x000000000000000fULL,
 +      0x123456789abcdefeULL, 0x123456789abcde1fULL},
 +};
 +
 +static const test_data_signed test_table_signed[] = {
 +    /* Positive dividend, positive/negative divisors */
 +    { 0x0000000000000000LL, 0x0000000000bc614eULL,
 +      0x0000000000000000LL, 0x0000000000bc614eULL,
 +      0x0000000000000001LL, 0x0000000000000000LL},
 +    { 0x0000000000000000LL, 0x0000000000bc614eULL,
 +      0xffffffffffffffffLL, 0xffffffffff439eb2ULL,
 +      0xffffffffffffffffLL, 0x0000000000000000LL},
 +    { 0x0000000000000000LL, 0x0000000000bc614eULL,
 +      0x0000000000000000LL, 0x00000000005e30a7ULL,
 +      0x0000000000000002LL, 0x0000000000000000LL},
 +    { 0x0000000000000000LL, 0x0000000000bc614eULL,
 +      0xffffffffffffffffLL, 0xffffffffffa1cf59ULL,
 +      0xfffffffffffffffeLL, 0x0000000000000000LL},
 +    { 0x0000000000000000LL, 0x0000000000bc614eULL,
 +      0x0000000000000000LL, 0x0000000000178c29ULL,
 +      0x0000000000000008LL, 0x0000000000000006LL},
 +    { 0x0000000000000000LL, 0x0000000000bc614eULL,
 +      0xffffffffffffffffLL, 0xffffffffffe873d7ULL,
 +      0xfffffffffffffff8LL, 0x0000000000000006LL},
 +    { 0x0000000000000000LL, 0x0000000000bc614eULL,
 +      0x0000000000000000LL, 0x000000000000550dULL,
 +      0x0000000000000237LL, 0x0000000000000183LL},
 +    { 0x0000000000000000LL, 0x0000000000bc614eULL,
 +      0xffffffffffffffffLL, 0xffffffffffffaaf3ULL,
 +      0xfffffffffffffdc9LL, 0x0000000000000183LL},
 +
 +    /* Negative dividend, positive/negative divisors */
 +    { 0xffffffffffffffffLL, 0xffffffffff439eb2ULL,
 +      0xffffffffffffffffLL, 0xffffffffff439eb2ULL,
 +      0x0000000000000001LL, 0x0000000000000000LL},
 +    { 0xffffffffffffffffLL, 0xffffffffff439eb2ULL,
 +      0x0000000000000000LL, 0x0000000000bc614eULL,
 +      0xffffffffffffffffLL, 0x0000000000000000LL},
 +    { 0xffffffffffffffffLL, 0xffffffffff439eb2ULL,
 +      0xffffffffffffffffLL, 0xffffffffffa1cf59ULL,
 +      0x0000000000000002LL, 0x0000000000000000LL},
 +    { 0xffffffffffffffffLL, 0xffffffffff439eb2ULL,
 +      0x0000000000000000LL, 0x00000000005e30a7ULL,
 +      0xfffffffffffffffeLL, 0x0000000000000000LL},
 +    { 0xffffffffffffffffLL, 0xffffffffff439eb2ULL,
 +      0xffffffffffffffffLL, 0xffffffffffe873d7ULL,
 +      0x0000000000000008LL, 0xfffffffffffffffaLL},
 +    { 0xffffffffffffffffLL, 0xffffffffff439eb2ULL,
 +      0x0000000000000000LL, 0x0000000000178c29ULL,
 +      0xfffffffffffffff8LL, 0xfffffffffffffffaLL},
 +    { 0xffffffffffffffffLL, 0xffffffffff439eb2ULL,
 +      0xffffffffffffffffLL, 0xffffffffffffaaf3ULL,
 +      0x0000000000000237LL, 0xfffffffffffffe7dLL},
 +    { 0xffffffffffffffffLL, 0xffffffffff439eb2ULL,
 +      0x0000000000000000LL, 0x000000000000550dULL,
 +      0xfffffffffffffdc9LL, 0xfffffffffffffe7dLL},
 +};
 +
 +static void test_divu128(void)
 +{
-+    int i;
++    CPUDebug *s = container_of(info, CPUDebug, info);
-+    uint64_t rem;
++    MemTxResult res;
-+    test_data_unsigned tmp;
++
-+
++    res = address_space_read(s->cpu->as, memaddr, MEMTXATTRS_UNSPECIFIED,
-+    for (i = 0; i < ARRAY_SIZE(test_table_unsigned); ++i) {
++                             myaddr, length);
-+        tmp = test_table_unsigned[i];
++    return res == MEMTX_OK ? 0 : EIO;
 +
 +        rem = divu128(&tmp.low, &tmp.high, tmp.divisor);
 +        g_assert_cmpuint(tmp.low, ==, tmp.rlow);
 +        g_assert_cmpuint(tmp.high, ==, tmp.rhigh);
 +        g_assert_cmpuint(rem, ==, tmp.remainder);
 +    }
 +}
 +
-+static void test_divs128(void)
++/* Disassembler for the monitor.  */
 +void monitor_disas(Monitor *mon, CPUState *cpu, uint64_t pc,
 +                   int nb_insn, bool is_physical)
 +{
-+    int i;
++    int count, i;
-+    int64_t rem;
++    CPUDebug s;
-+    test_data_signed tmp;
++    g_autoptr(GString) ds = g_string_new("");
 +
-+    for (i = 0; i < ARRAY_SIZE(test_table_signed); ++i) {
++    disas_initialize_debug_target(&s, cpu);
-+        tmp = test_table_signed[i];
++    s.info.fprintf_func = disas_gstring_printf;
-+
++    s.info.stream = (FILE *)ds;  /* abuse this slot */
-+        rem = divs128(&tmp.low, &tmp.high, tmp.divisor);
++
-+        g_assert_cmpuint(tmp.low, ==, tmp.rlow);
++    if (is_physical) {
-+        g_assert_cmpuint(tmp.high, ==, tmp.rhigh);
++        s.info.read_memory_func = physical_read_memory;
-+        g_assert_cmpuint(rem, ==, tmp.remainder);
++    }
-+    }
++    s.info.buffer_vma = pc;
 +
 +    if (s.info.cap_arch >= 0 && cap_disas_monitor(&s.info, pc, nb_insn)) {
 +        monitor_puts(mon, ds->str);
 +        return;
 +    }
 +
 +    if (!s.info.print_insn) {
 +        monitor_printf(mon, "0x%08" PRIx64
 +                       ": Asm output not supported on this arch\n", pc);
 +        return;
 +    }
 +
 +    for (i = 0; i < nb_insn; i++) {
 +        g_string_append_printf(ds, "0x%08" PRIx64 ":  ", pc);
 +        count = s.info.print_insn(pc, &s.info);
 +        g_string_append_c(ds, '\n');
 +        if (count < 0) {
 +            break;
 +        }
 +        pc += count;
 +    }
 +
 +    monitor_puts(mon, ds->str);
 +}
-+
+diff --git a/disas/disas.c b/disas/disas.c
 +int main(int argc, char **argv)
 +{
 +    g_test_init(&argc, &argv, NULL);
 +    g_test_add_func("/host-utils/test_divu128", test_divu128);
 +    g_test_add_func("/host-utils/test_divs128", test_divs128);
 +    return g_test_run();
 +}
 diff --git a/tests/unit/meson.build b/tests/unit/meson.build
 index XXXXXXX..XXXXXXX 100644
---- a/tests/unit/meson.build
+--- a/disas/disas.c
-+++ b/tests/unit/meson.build
++++ b/disas/disas.c
-@@ -XXX,XX +XXX,XX @@ tests = {
+@@ -XXX,XX +XXX,XX @@
-   # all code tested by test-x86-cpuid is inside topology.h
+ /* General "disassemble this chunk" code.  Used for debugging. */
-   'test-x86-cpuid': [],
+ #include "qemu/osdep.h"
-   'test-cutils': [],
+-#include "disas/dis-asm.h"
-+  'test-div128': [],
++#include "disas/disas-internal.h"
-   'test-shift128': [],
+ #include "elf.h"
-   'test-mul64': [],
+ #include "qemu/qemu-print.h"
-   # all code tested by test-int128 is inside int128.h
+ #include "disas/disas.h"
@@ -XXX,XX +XXX,XX @@
  #include "hw/core/cpu.h"
  #include "exec/memory.h"
 -typedef struct CPUDebug {
 -    struct disassemble_info info;
 -    CPUState *cpu;
 -} CPUDebug;
 -
  /* Filled in by elfload.c.  Simplistic, but will do for now. */
  struct syminfo *syminfos = NULL;
@@ -XXX,XX +XXX,XX @@ static void initialize_debug(CPUDebug *s)
      s->info.symbol_at_address_func = symbol_at_address;
  }
 -static void initialize_debug_target(CPUDebug *s, CPUState *cpu)
 +void disas_initialize_debug_target(CPUDebug *s, CPUState *cpu)
  {
      initialize_debug(s);
@@ -XXX,XX +XXX,XX @@ void target_disas(FILE *out, CPUState *cpu, uint64_t code, size_t size)
      int count;
      CPUDebug s;
 -    initialize_debug_target(&s, cpu);
 +    disas_initialize_debug_target(&s, cpu);
      s.info.fprintf_func = fprintf;
      s.info.stream = out;
      s.info.buffer_vma = code;
@@ -XXX,XX +XXX,XX @@ void target_disas(FILE *out, CPUState *cpu, uint64_t code, size_t size)
      }
  }
 -static int G_GNUC_PRINTF(2, 3)
 -gstring_printf(FILE *stream, const char *fmt, ...)
 +int disas_gstring_printf(FILE *stream, const char *fmt, ...)
  {
      /* We abuse the FILE parameter to pass a GString. */
      GString *s = (GString *)stream;
@@ -XXX,XX +XXX,XX @@ char *plugin_disas(CPUState *cpu, uint64_t addr, size_t size)
      CPUDebug s;
      GString *ds = g_string_new(NULL);
 -    initialize_debug_target(&s, cpu);
 -    s.info.fprintf_func = gstring_printf;
 +    disas_initialize_debug_target(&s, cpu);
 +    s.info.fprintf_func = disas_gstring_printf;
      s.info.stream = (FILE *)ds;  /* abuse this slot */
      s.info.buffer_vma = addr;
      s.info.buffer_length = size;
@@ -XXX,XX +XXX,XX @@ const char *lookup_symbol(uint64_t orig_addr)
      return symbol;
  }
 -
 -#if !defined(CONFIG_USER_ONLY)
 -
 -#include "monitor/monitor.h"
 -
 -static int
 -physical_read_memory(bfd_vma memaddr, bfd_byte *myaddr, int length,
 -                     struct disassemble_info *info)
 -{
 -    CPUDebug *s = container_of(info, CPUDebug, info);
 -    MemTxResult res;
 -
 -    res = address_space_read(s->cpu->as, memaddr, MEMTXATTRS_UNSPECIFIED,
 -                             myaddr, length);
 -    return res == MEMTX_OK ? 0 : EIO;
 -}
 -
 -/* Disassembler for the monitor.  */
 -void monitor_disas(Monitor *mon, CPUState *cpu, uint64_t pc,
 -                   int nb_insn, bool is_physical)
 -{
 -    int count, i;
 -    CPUDebug s;
 -    g_autoptr(GString) ds = g_string_new("");
 -
 -    initialize_debug_target(&s, cpu);
 -    s.info.fprintf_func = gstring_printf;
 -    s.info.stream = (FILE *)ds;  /* abuse this slot */
 -
 -    if (is_physical) {
 -        s.info.read_memory_func = physical_read_memory;
 -    }
 -    s.info.buffer_vma = pc;
 -
 -    if (s.info.cap_arch >= 0 && cap_disas_monitor(&s.info, pc, nb_insn)) {
 -        monitor_puts(mon, ds->str);
 -        return;
 -    }
 -
 -    if (!s.info.print_insn) {
 -        monitor_printf(mon, "0x%08" PRIx64
 -                       ": Asm output not supported on this arch\n", pc);
 -        return;
 -    }
 -
 -    for (i = 0; i < nb_insn; i++) {
 -        g_string_append_printf(ds, "0x%08" PRIx64 ":  ", pc);
 -        count = s.info.print_insn(pc, &s.info);
 -        g_string_append_c(ds, '\n');
 -        if (count < 0) {
 -            break;
 -        }
 -        pc += count;
 -    }
 -
 -    monitor_puts(mon, ds->str);
 -}
 -#endif
 diff --git a/disas/meson.build b/disas/meson.build
 index XXXXXXX..XXXXXXX 100644
 --- a/disas/meson.build
 +++ b/disas/meson.build
@@ -XXX,XX +XXX,XX @@ common_ss.add(when: 'CONFIG_SPARC_DIS', if_true: files('sparc.c'))
  common_ss.add(when: 'CONFIG_XTENSA_DIS', if_true: files('xtensa.c'))
  common_ss.add(when: capstone, if_true: [files('capstone.c'), capstone])
 +softmmu_ss.add(files('disas-mon.c'))
  specific_ss.add(files('disas.c'), capstone)
 --
-.25.1
+.34.1

-[PULL 44/56] tcg/optimize: Expand fold_mulu2_i32 to all 4-arg multiplies
+[PULL 08/53] disas: Move disas.c into the target-independent source set
-Rename to fold_multiply2, and handle muls2_i32, mulu2_i64,
+From: Thomas Huth <thuth@redhat.com>
 and muls2_i64.
-Reviewed-by: Luis Pires <luis.pires@eldorado.org.br>
+By using target_words_bigendian() instead of an ifdef,
-Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
+we can build this code once.
 Signed-off-by: Thomas Huth <thuth@redhat.com>
 Message-Id: <20230508133745.109463-3-thuth@redhat.com>
 [rth: Type change done in a separate patch]
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- tcg/optimize.c | 44 +++++++++++++++++++++++++++++++++++---------
+ disas/disas.c     | 10 +++++-----
-file changed, 35 insertions(+), 9 deletions(-)
+ disas/meson.build |  3 ++-
 files changed, 7 insertions(+), 6 deletions(-)
-diff --git a/tcg/optimize.c b/tcg/optimize.c
+diff --git a/disas/disas.c b/disas/disas.c
 index XXXXXXX..XXXXXXX 100644
---- a/tcg/optimize.c
+--- a/disas/disas.c
-+++ b/tcg/optimize.c
++++ b/disas/disas.c
-@@ -XXX,XX +XXX,XX @@ static bool fold_mul_highpart(OptContext *ctx, TCGOp *op)
+@@ -XXX,XX +XXX,XX @@ void disas_initialize_debug_target(CPUDebug *s, CPUState *cpu)
-     return false;
+     s->cpu = cpu;
- }
+     s->info.read_memory_func = target_read_memory;
+     s->info.print_address_func = print_address;
--static bool fold_mulu2_i32(OptContext *ctx, TCGOp *op)
+-#if TARGET_BIG_ENDIAN
-+static bool fold_multiply2(OptContext *ctx, TCGOp *op)
+-    s->info.endian = BFD_ENDIAN_BIG;
- {
+-#else
-     if (arg_is_const(op->args[2]) && arg_is_const(op->args[3])) {
+-    s->info.endian = BFD_ENDIAN_LITTLE;
--        uint32_t a = arg_info(op->args[2])->val;
+-#endif
--        uint32_t b = arg_info(op->args[3])->val;
++    if (target_words_bigendian()) {
--        uint64_t r = (uint64_t)a * b;
++        s->info.endian = BFD_ENDIAN_BIG;
-+        uint64_t a = arg_info(op->args[2])->val;
++    } else {
-+        uint64_t b = arg_info(op->args[3])->val;
++        s->info.endian =  BFD_ENDIAN_LITTLE;
-+        uint64_t h, l;
++    }
-         TCGArg rl, rh;
--        TCGOp *op2 = tcg_op_insert_before(ctx->tcg, op, INDEX_op_mov_i32);
+     CPUClass *cc = CPU_GET_CLASS(cpu);
-+        TCGOp *op2;
+     if (cc->disas_set_info) {
-+
+diff --git a/disas/meson.build b/disas/meson.build
-+        switch (op->opc) {
+index XXXXXXX..XXXXXXX 100644
-+        case INDEX_op_mulu2_i32:
+--- a/disas/meson.build
-+            l = (uint64_t)(uint32_t)a * (uint32_t)b;
++++ b/disas/meson.build
-+            h = (int32_t)(l >> 32);
+@@ -XXX,XX +XXX,XX @@ common_ss.add(when: 'CONFIG_SH4_DIS', if_true: files('sh4.c'))
-+            l = (int32_t)l;
+ common_ss.add(when: 'CONFIG_SPARC_DIS', if_true: files('sparc.c'))
-+            break;
+ common_ss.add(when: 'CONFIG_XTENSA_DIS', if_true: files('xtensa.c'))
-+        case INDEX_op_muls2_i32:
+ common_ss.add(when: capstone, if_true: [files('capstone.c'), capstone])
-+            l = (int64_t)(int32_t)a * (int32_t)b;
++common_ss.add(files('disas.c'))
-+            h = l >> 32;
-+            l = (int32_t)l;
+ softmmu_ss.add(files('disas-mon.c'))
-+            break;
+-specific_ss.add(files('disas.c'), capstone)
-+        case INDEX_op_mulu2_i64:
++specific_ss.add(capstone)
 +            mulu64(&l, &h, a, b);
 +            break;
 +        case INDEX_op_muls2_i64:
 +            muls64(&l, &h, a, b);
 +            break;
 +        default:
 +            g_assert_not_reached();
 +        }
          rl = op->args[0];
          rh = op->args[1];
 -        tcg_opt_gen_movi(ctx, op, rl, (int32_t)r);
 -        tcg_opt_gen_movi(ctx, op2, rh, (int32_t)(r >> 32));
 +
 +        /* The proper opcode is supplied by tcg_opt_gen_mov. */
 +        op2 = tcg_op_insert_before(ctx->tcg, op, 0);
 +
 +        tcg_opt_gen_movi(ctx, op, rl, l);
 +        tcg_opt_gen_movi(ctx, op2, rh, h);
          return true;
      }
      return false;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
          CASE_OP_32_64(muluh):
              done = fold_mul_highpart(&ctx, op);
              break;
 -        case INDEX_op_mulu2_i32:
 -            done = fold_mulu2_i32(&ctx, op);
 +        CASE_OP_32_64(muls2):
 +        CASE_OP_32_64(mulu2):
 +            done = fold_multiply2(&ctx, op);
              break;
          CASE_OP_32_64(nand):
              done = fold_nand(&ctx, op);
 --
-.25.1
+.34.1

-[PULL 45/56] tcg/optimize: Expand fold_addsub2_i32 to 64-bit ops
+[PULL 09/53] cpu: expose qemu_cpu_list_lock for lock-guard use
-Rename to fold_addsub2.
+From: Jamie Iles <quic_jiles@quicinc.com>
 Use Int128 to implement the wider operation.
-Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
+Expose qemu_cpu_list_lock globally so that we can use
-Reviewed-by: Luis Pires <luis.pires@eldorado.org.br>
+WITH_QEMU_LOCK_GUARD and QEMU_LOCK_GUARD to simplify a few code paths
-Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
+now and in future.
 Signed-off-by: Jamie Iles <quic_jiles@quicinc.com>
 Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
 Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
 Message-Id: <20230427020925.51003-2-quic_jiles@quicinc.com>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- tcg/optimize.c | 65 ++++++++++++++++++++++++++++++++++----------------
+ include/exec/cpu-common.h |  1 +
-file changed, 44 insertions(+), 21 deletions(-)
+ cpus-common.c             |  2 +-
  linux-user/elfload.c      | 13 +++++++------
  migration/dirtyrate.c     | 26 +++++++++++++-------------
  trace/control-target.c    |  9 ++++-----
 files changed, 26 insertions(+), 25 deletions(-)
-diff --git a/tcg/optimize.c b/tcg/optimize.c
+diff --git a/include/exec/cpu-common.h b/include/exec/cpu-common.h
 index XXXXXXX..XXXXXXX 100644
---- a/tcg/optimize.c
+--- a/include/exec/cpu-common.h
-+++ b/tcg/optimize.c
++++ b/include/exec/cpu-common.h
@@ -XXX,XX +XXX,XX @@ extern intptr_t qemu_host_page_mask;
  #define REAL_HOST_PAGE_ALIGN(addr) ROUND_UP((addr), qemu_real_host_page_size())
  /* The CPU list lock nests outside page_(un)lock or mmap_(un)lock */
 +extern QemuMutex qemu_cpu_list_lock;
  void qemu_init_cpu_list(void);
  void cpu_list_lock(void);
  void cpu_list_unlock(void);
 diff --git a/cpus-common.c b/cpus-common.c
 index XXXXXXX..XXXXXXX 100644
 --- a/cpus-common.c
 +++ b/cpus-common.c
@@ -XXX,XX +XXX,XX @@
  #include "qemu/lockable.h"
  #include "trace/trace-root.h"
 -static QemuMutex qemu_cpu_list_lock;
 +QemuMutex qemu_cpu_list_lock;
  static QemuCond exclusive_cond;
  static QemuCond exclusive_resume;
  static QemuCond qemu_work_cond;
 diff --git a/linux-user/elfload.c b/linux-user/elfload.c
 index XXXXXXX..XXXXXXX 100644
 --- a/linux-user/elfload.c
 +++ b/linux-user/elfload.c
@@ -XXX,XX +XXX,XX @@
  #include "qemu/guest-random.h"
  #include "qemu/units.h"
  #include "qemu/selfmap.h"
 +#include "qemu/lockable.h"
  #include "qapi/error.h"
  #include "qemu/error-report.h"
  #include "target_signal.h"
@@ -XXX,XX +XXX,XX @@ static int fill_note_info(struct elf_note_info *info,
          info->notes_size += note_size(&info->notes[i]);
      /* read and fill status of all threads */
 -    cpu_list_lock();
 -    CPU_FOREACH(cpu) {
 -        if (cpu == thread_cpu) {
 -            continue;
 +    WITH_QEMU_LOCK_GUARD(&qemu_cpu_list_lock) {
 +        CPU_FOREACH(cpu) {
 +            if (cpu == thread_cpu) {
 +                continue;
 +            }
 +            fill_thread_info(info, cpu->env_ptr);
          }
 -        fill_thread_info(info, cpu->env_ptr);
      }
 -    cpu_list_unlock();
      return (0);
  }
 diff --git a/migration/dirtyrate.c b/migration/dirtyrate.c
 index XXXXXXX..XXXXXXX 100644
 --- a/migration/dirtyrate.c
 +++ b/migration/dirtyrate.c
@@ -XXX,XX +XXX,XX @@ int64_t vcpu_calculate_dirtyrate(int64_t calc_time_ms,
  retry:
      init_time_ms = qemu_clock_get_ms(QEMU_CLOCK_REALTIME);
 -    cpu_list_lock();
 -    gen_id = cpu_list_generation_id_get();
 -    records = vcpu_dirty_stat_alloc(stat);
 -    vcpu_dirty_stat_collect(stat, records, true);
 -    cpu_list_unlock();
 +    WITH_QEMU_LOCK_GUARD(&qemu_cpu_list_lock) {
 +        gen_id = cpu_list_generation_id_get();
 +        records = vcpu_dirty_stat_alloc(stat);
 +        vcpu_dirty_stat_collect(stat, records, true);
 +    }
      duration = dirty_stat_wait(calc_time_ms, init_time_ms);
      global_dirty_log_sync(flag, one_shot);
 -    cpu_list_lock();
 -    if (gen_id != cpu_list_generation_id_get()) {
 -        g_free(records);
 -        g_free(stat->rates);
 -        cpu_list_unlock();
 -        goto retry;
 +    WITH_QEMU_LOCK_GUARD(&qemu_cpu_list_lock) {
 +        if (gen_id != cpu_list_generation_id_get()) {
 +            g_free(records);
 +            g_free(stat->rates);
 +            cpu_list_unlock();
 +            goto retry;
 +        }
 +        vcpu_dirty_stat_collect(stat, records, false);
      }
 -    vcpu_dirty_stat_collect(stat, records, false);
 -    cpu_list_unlock();
      for (i = 0; i < stat->nvcpu; i++) {
          dirtyrate = do_calculate_dirtyrate(records[i], duration);
 diff --git a/trace/control-target.c b/trace/control-target.c
 index XXXXXXX..XXXXXXX 100644
 --- a/trace/control-target.c
 +++ b/trace/control-target.c
 @@ -XXX,XX +XXX,XX @@
   */
  #include "qemu/osdep.h"
-+#include "qemu/int128.h"
++#include "qemu/lockable.h"
- #include "tcg/tcg-op.h"
+ #include "cpu.h"
- #include "tcg-internal.h"
+ #include "trace/trace-root.h"
+ #include "trace/control.h"
-@@ -XXX,XX +XXX,XX @@ static bool fold_add(OptContext *ctx, TCGOp *op)
+@@ -XXX,XX +XXX,XX @@ static bool adding_first_cpu1(void)
-     return false;
  static bool adding_first_cpu(void)
  {
 -    bool res;
 -    cpu_list_lock();
 -    res = adding_first_cpu1();
 -    cpu_list_unlock();
 -    return res;
 +    QEMU_LOCK_GUARD(&qemu_cpu_list_lock);
 +
 +    return adding_first_cpu1();
  }
--static bool fold_addsub2_i32(OptContext *ctx, TCGOp *op, bool add)
+ void trace_init_vcpu(CPUState *vcpu)
 +static bool fold_addsub2(OptContext *ctx, TCGOp *op, bool add)
  {
      if (arg_is_const(op->args[2]) && arg_is_const(op->args[3]) &&
          arg_is_const(op->args[4]) && arg_is_const(op->args[5])) {
 -        uint32_t al = arg_info(op->args[2])->val;
 -        uint32_t ah = arg_info(op->args[3])->val;
 -        uint32_t bl = arg_info(op->args[4])->val;
 -        uint32_t bh = arg_info(op->args[5])->val;
 -        uint64_t a = ((uint64_t)ah << 32) | al;
 -        uint64_t b = ((uint64_t)bh << 32) | bl;
 +        uint64_t al = arg_info(op->args[2])->val;
 +        uint64_t ah = arg_info(op->args[3])->val;
 +        uint64_t bl = arg_info(op->args[4])->val;
 +        uint64_t bh = arg_info(op->args[5])->val;
          TCGArg rl, rh;
 -        TCGOp *op2 = tcg_op_insert_before(ctx->tcg, op, INDEX_op_mov_i32);
 +        TCGOp *op2;
 -        if (add) {
 -            a += b;
 +        if (ctx->type == TCG_TYPE_I32) {
 +            uint64_t a = deposit64(al, 32, 32, ah);
 +            uint64_t b = deposit64(bl, 32, 32, bh);
 +
 +            if (add) {
 +                a += b;
 +            } else {
 +                a -= b;
 +            }
 +
 +            al = sextract64(a, 0, 32);
 +            ah = sextract64(a, 32, 32);
          } else {
 -            a -= b;
 +            Int128 a = int128_make128(al, ah);
 +            Int128 b = int128_make128(bl, bh);
 +
 +            if (add) {
 +                a = int128_add(a, b);
 +            } else {
 +                a = int128_sub(a, b);
 +            }
 +
 +            al = int128_getlo(a);
 +            ah = int128_gethi(a);
          }
          rl = op->args[0];
          rh = op->args[1];
 -        tcg_opt_gen_movi(ctx, op, rl, (int32_t)a);
 -        tcg_opt_gen_movi(ctx, op2, rh, (int32_t)(a >> 32));
 +
 +        /* The proper opcode is supplied by tcg_opt_gen_mov. */
 +        op2 = tcg_op_insert_before(ctx->tcg, op, 0);
 +
 +        tcg_opt_gen_movi(ctx, op, rl, al);
 +        tcg_opt_gen_movi(ctx, op2, rh, ah);
          return true;
      }
      return false;
  }
 -static bool fold_add2_i32(OptContext *ctx, TCGOp *op)
 +static bool fold_add2(OptContext *ctx, TCGOp *op)
  {
 -    return fold_addsub2_i32(ctx, op, true);
 +    return fold_addsub2(ctx, op, true);
  }
  static bool fold_and(OptContext *ctx, TCGOp *op)
@@ -XXX,XX +XXX,XX @@ static bool fold_sub(OptContext *ctx, TCGOp *op)
      return false;
  }
 -static bool fold_sub2_i32(OptContext *ctx, TCGOp *op)
 +static bool fold_sub2(OptContext *ctx, TCGOp *op)
  {
 -    return fold_addsub2_i32(ctx, op, false);
 +    return fold_addsub2(ctx, op, false);
  }
  static bool fold_tcg_ld(OptContext *ctx, TCGOp *op)
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
          CASE_OP_32_64_VEC(add):
              done = fold_add(&ctx, op);
              break;
 -        case INDEX_op_add2_i32:
 -            done = fold_add2_i32(&ctx, op);
 +        CASE_OP_32_64(add2):
 +            done = fold_add2(&ctx, op);
              break;
          CASE_OP_32_64_VEC(and):
              done = fold_and(&ctx, op);
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
          CASE_OP_32_64_VEC(sub):
              done = fold_sub(&ctx, op);
              break;
 -        case INDEX_op_sub2_i32:
 -            done = fold_sub2_i32(&ctx, op);
 +        CASE_OP_32_64(sub2):
 +            done = fold_sub2(&ctx, op);
              break;
          CASE_OP_32_64_VEC(xor):
              done = fold_xor(&ctx, op);
 --
-.25.1
+.34.1

-[PULL 01/56] qemu/int128: Add int128_{not,xor}
+[PULL 10/53] accel/tcg/tcg-accel-ops-rr: ensure fairness with icount
-From: Frédéric Pétrot <frederic.petrot@univ-grenoble-alpes.fr>
+From: Jamie Iles <quic_jiles@quicinc.com>
-Addition of not and xor on 128-bit integers.
+The round-robin scheduler will iterate over the CPU list with an
+assigned budget until the next timer expiry and may exit early because
-Signed-off-by: Frédéric Pétrot <frederic.petrot@univ-grenoble-alpes.fr>
+of a TB exit.  This is fine under normal operation but with icount
-Co-authored-by: Fabien Portas <fabien.portas@grenoble-inp.org>
+enabled and SMP it is possible for a CPU to be starved of run time and
-Message-Id: <20211025122818.168890-3-frederic.petrot@univ-grenoble-alpes.fr>
+the system live-locks.
-[rth: Split out logical operations.]
 For example, booting a riscv64 platform with '-icount
 shift=0,align=off,sleep=on -smp 2' we observe a livelock once the kernel
 has timers enabled and starts performing TLB shootdowns.  In this case
 we have CPU 0 in M-mode with interrupts disabled sending an IPI to CPU
 .  As we enter the TCG loop, we assign the icount budget to next timer
 interrupt to CPU 0 and begin executing where the guest is sat in a busy
 loop exhausting all of the budget before we try to execute CPU 1 which
 is the target of the IPI but CPU 1 is left with no budget with which to
 execute and the process repeats.
 We try here to add some fairness by splitting the budget across all of
 the CPUs on the thread fairly before entering each one.  The CPU count
 is cached on CPU list generation ID to avoid iterating the list on each
 loop iteration.  With this change it is possible to boot an SMP rv64
 guest with icount enabled and no hangs.
 Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
 Tested-by: Peter Maydell <peter.maydell@linaro.org>
 Signed-off-by: Jamie Iles <quic_jiles@quicinc.com>
 Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
+Message-Id: <20230427020925.51003-3-quic_jiles@quicinc.com>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- include/qemu/int128.h | 20 ++++++++++++++++++++
+ accel/tcg/tcg-accel-ops-icount.h |  3 ++-
-file changed, 20 insertions(+)
+ accel/tcg/tcg-accel-ops-icount.c | 21 ++++++++++++++----
+ accel/tcg/tcg-accel-ops-rr.c     | 37 +++++++++++++++++++++++++++++++-
-diff --git a/include/qemu/int128.h b/include/qemu/int128.h
+ replay/replay.c                  |  3 +--
-index XXXXXXX..XXXXXXX 100644
+files changed, 56 insertions(+), 8 deletions(-)
---- a/include/qemu/int128.h
-+++ b/include/qemu/int128.h
+diff --git a/accel/tcg/tcg-accel-ops-icount.h b/accel/tcg/tcg-accel-ops-icount.h
-@@ -XXX,XX +XXX,XX @@ static inline Int128 int128_exts64(int64_t a)
+index XXXXXXX..XXXXXXX 100644
-     return a;
+--- a/accel/tcg/tcg-accel-ops-icount.h
 +++ b/accel/tcg/tcg-accel-ops-icount.h
@@ -XXX,XX +XXX,XX @@
  #define TCG_ACCEL_OPS_ICOUNT_H
  void icount_handle_deadline(void);
 -void icount_prepare_for_run(CPUState *cpu);
 +void icount_prepare_for_run(CPUState *cpu, int64_t cpu_budget);
 +int64_t icount_percpu_budget(int cpu_count);
  void icount_process_data(CPUState *cpu);
  void icount_handle_interrupt(CPUState *cpu, int mask);
 diff --git a/accel/tcg/tcg-accel-ops-icount.c b/accel/tcg/tcg-accel-ops-icount.c
 index XXXXXXX..XXXXXXX 100644
 --- a/accel/tcg/tcg-accel-ops-icount.c
 +++ b/accel/tcg/tcg-accel-ops-icount.c
@@ -XXX,XX +XXX,XX @@ void icount_handle_deadline(void)
      }
  }
-+static inline Int128 int128_not(Int128 a)
+-void icount_prepare_for_run(CPUState *cpu)
 +/* Distribute the budget evenly across all CPUs */
 +int64_t icount_percpu_budget(int cpu_count)
 +{
-+    return ~a;
++    int64_t limit = icount_get_limit();
 +    int64_t timeslice = limit / cpu_count;
 +
 +    if (timeslice == 0) {
 +        timeslice = limit;
 +    }
 +
 +    return timeslice;
 +}
 +
- static inline Int128 int128_and(Int128 a, Int128 b)
++void icount_prepare_for_run(CPUState *cpu, int64_t cpu_budget)
  {
-     return a & b;
+     int insns_left;
-@@ -XXX,XX +XXX,XX @@ static inline Int128 int128_or(Int128 a, Int128 b)
-     return a | b;
+@@ -XXX,XX +XXX,XX @@ void icount_prepare_for_run(CPUState *cpu)
      g_assert(cpu_neg(cpu)->icount_decr.u16.low == 0);
      g_assert(cpu->icount_extra == 0);
 -    cpu->icount_budget = icount_get_limit();
 +    replay_mutex_lock();
 +
 +    cpu->icount_budget = MIN(icount_get_limit(), cpu_budget);
      insns_left = MIN(0xffff, cpu->icount_budget);
      cpu_neg(cpu)->icount_decr.u16.low = insns_left;
      cpu->icount_extra = cpu->icount_budget - insns_left;
 -    replay_mutex_lock();
 -
      if (cpu->icount_budget == 0) {
          /*
           * We're called without the iothread lock, so must take it while
 diff --git a/accel/tcg/tcg-accel-ops-rr.c b/accel/tcg/tcg-accel-ops-rr.c
 index XXXXXXX..XXXXXXX 100644
 --- a/accel/tcg/tcg-accel-ops-rr.c
 +++ b/accel/tcg/tcg-accel-ops-rr.c
@@ -XXX,XX +XXX,XX @@
   */
  #include "qemu/osdep.h"
 +#include "qemu/lockable.h"
  #include "sysemu/tcg.h"
  #include "sysemu/replay.h"
  #include "sysemu/cpu-timers.h"
@@ -XXX,XX +XXX,XX @@ static void rr_force_rcu(Notifier *notify, void *data)
      rr_kick_next_cpu();
  }
-+static inline Int128 int128_xor(Int128 a, Int128 b)
++/*
 + * Calculate the number of CPUs that we will process in a single iteration of
 + * the main CPU thread loop so that we can fairly distribute the instruction
 + * count across CPUs.
 + *
 + * The CPU count is cached based on the CPU list generation ID to avoid
 + * iterating the list every time.
 + */
 +static int rr_cpu_count(void)
 +{
-+    return a ^ b;
++    static unsigned int last_gen_id = ~0;
 +    static int cpu_count;
 +    CPUState *cpu;
 +
 +    QEMU_LOCK_GUARD(&qemu_cpu_list_lock);
 +
 +    if (cpu_list_generation_id_get() != last_gen_id) {
 +        cpu_count = 0;
 +        CPU_FOREACH(cpu) {
 +            ++cpu_count;
 +        }
 +        last_gen_id = cpu_list_generation_id_get();
 +    }
 +
 +    return cpu_count;
 +}
 +
- static inline Int128 int128_rshift(Int128 a, int n)
+ /*
   * In the single-threaded case each vCPU is simulated in turn. If
   * there is more than a single vCPU we create a simple timer to kick
@@ -XXX,XX +XXX,XX @@ static void *rr_cpu_thread_fn(void *arg)
      cpu->exit_request = 1;
      while (1) {
 +        /* Only used for icount_enabled() */
 +        int64_t cpu_budget = 0;
 +
          qemu_mutex_unlock_iothread();
          replay_mutex_lock();
          qemu_mutex_lock_iothread();
          if (icount_enabled()) {
 +            int cpu_count = rr_cpu_count();
 +
              /* Account partial waits to QEMU_CLOCK_VIRTUAL.  */
              icount_account_warp_timer();
              /*
@@ -XXX,XX +XXX,XX @@ static void *rr_cpu_thread_fn(void *arg)
               * waking up the I/O thread and waiting for completion.
               */
              icount_handle_deadline();
 +
 +            cpu_budget = icount_percpu_budget(cpu_count);
          }
          replay_mutex_unlock();
@@ -XXX,XX +XXX,XX @@ static void *rr_cpu_thread_fn(void *arg)
                  qemu_mutex_unlock_iothread();
                  if (icount_enabled()) {
 -                    icount_prepare_for_run(cpu);
 +                    icount_prepare_for_run(cpu, cpu_budget);
                  }
                  r = tcg_cpus_exec(cpu);
                  if (icount_enabled()) {
 diff --git a/replay/replay.c b/replay/replay.c
 index XXXXXXX..XXXXXXX 100644
 --- a/replay/replay.c
 +++ b/replay/replay.c
@@ -XXX,XX +XXX,XX @@ uint64_t replay_get_current_icount(void)
  int replay_get_instructions(void)
  {
-     return a >> n;
+     int res = 0;
-@@ -XXX,XX +XXX,XX @@ static inline Int128 int128_exts64(int64_t a)
+-    replay_mutex_lock();
-     return int128_make128(a, (a < 0) ? -1 : 0);
++    g_assert(replay_mutex_locked());
      if (replay_next_event_is(EVENT_INSTRUCTION)) {
          res = replay_state.instruction_count;
          if (replay_break_icount != -1LL) {
@@ -XXX,XX +XXX,XX @@ int replay_get_instructions(void)
              }
          }
      }
 -    replay_mutex_unlock();
      return res;
  }
-+static inline Int128 int128_not(Int128 a)
-+{
-+    return int128_make128(~a.lo, ~a.hi);
-+}
-+
- static inline Int128 int128_and(Int128 a, Int128 b)
- {
-     return int128_make128(a.lo & b.lo, a.hi & b.hi);
-@@ -XXX,XX +XXX,XX @@ static inline Int128 int128_or(Int128 a, Int128 b)
-     return int128_make128(a.lo | b.lo, a.hi | b.hi);
- }
-+static inline Int128 int128_xor(Int128 a, Int128 b)
-+{
-+    return int128_make128(a.lo ^ b.lo, a.hi ^ b.hi);
-+}
-+
- static inline Int128 int128_rshift(Int128 a, int n)
- {
-     int64_t h;
 --
-.25.1
+.34.1

-[PULL 03/56] host-utils: move udiv_qrnnd() to host-utils
+[PULL 11/53] tcg/i386: Introduce prepare_host_addr
-From: Luis Pires <luis.pires@eldorado.org.br>
+Merge tcg_out_tlb_load, add_qemu_ldst_label,
 tcg_out_test_alignment, and some code that lived in both
 tcg_out_qemu_ld and tcg_out_qemu_st into one function
 that returns HostAddress and TCGLabelQemuLdst structures.
-Move udiv_qrnnd() from include/fpu/softfloat-macros.h to host-utils,
+Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
 so it can be reused by divu128().
 Signed-off-by: Luis Pires <luis.pires@eldorado.org.br>
 Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
 Message-Id: <20211025191154.350831-3-luis.pires@eldorado.org.br>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- include/fpu/softfloat-macros.h | 82 ----------------------------------
+ tcg/i386/tcg-target.c.inc | 346 ++++++++++++++++----------------------
- include/qemu/host-utils.h      | 81 +++++++++++++++++++++++++++++++++
+file changed, 145 insertions(+), 201 deletions(-)
 files changed, 81 insertions(+), 82 deletions(-)
-diff --git a/include/fpu/softfloat-macros.h b/include/fpu/softfloat-macros.h
+diff --git a/tcg/i386/tcg-target.c.inc b/tcg/i386/tcg-target.c.inc
 index XXXXXXX..XXXXXXX 100644
---- a/include/fpu/softfloat-macros.h
+--- a/tcg/i386/tcg-target.c.inc
-+++ b/include/fpu/softfloat-macros.h
++++ b/tcg/i386/tcg-target.c.inc
-@@ -XXX,XX +XXX,XX @@
+@@ -XXX,XX +XXX,XX @@ static void * const qemu_st_helpers[(MO_SIZE | MO_BSWAP) + 1] = {
-  * so some portions are provided under:
+     [MO_BEUQ] = helper_be_stq_mmu,
-  *  the SoftFloat-2a license
+ };
-  *  the BSD license
-- *  GPL-v2-or-later
+-/* Perform the TLB load and compare.
-  *
+-
-  * Any future contributions to this file after December 1st 2014 will be
+-   Inputs:
-  * taken to be licensed under the Softfloat-2a license unless specifically
+-   ADDRLO and ADDRHI contain the low and high part of the address.
-@@ -XXX,XX +XXX,XX @@ this code that are retained.
+-
-  * THE POSSIBILITY OF SUCH DAMAGE.
+-   MEM_INDEX and S_BITS are the memory context and log2 size of the load.
-  */
+-
+-   WHICH is the offset into the CPUTLBEntry structure of the slot to read.
--/* Portions of this work are licensed under the terms of the GNU GPL,
+-   This should be offsetof addr_read or addr_write.
-- * version 2 or later. See the COPYING file in the top-level directory.
+-
-- */
+-   Outputs:
--
+-   LABEL_PTRS is filled with 1 (32-bit addresses) or 2 (64-bit addresses)
- #ifndef FPU_SOFTFLOAT_MACROS_H
+-   positions of the displacements of forward jumps to the TLB miss case.
- #define FPU_SOFTFLOAT_MACROS_H
+-
+-   Second argument register is loaded with the low part of the address.
-@@ -XXX,XX +XXX,XX @@ static inline uint64_t estimateDiv128To64(uint64_t a0, uint64_t a1, uint64_t b)
+-   In the TLB hit case, it has been adjusted as indicated by the TLB
+-   and so is a host address.  In the TLB miss case, it continues to
- }
+-   hold a guest address.
+-
--/* From the GNU Multi Precision Library - longlong.h __udiv_qrnnd
+-   First argument register is clobbered.  */
-- * (https://gmplib.org/repo/gmp/file/tip/longlong.h)
+-
-- *
+-static inline void tcg_out_tlb_load(TCGContext *s, TCGReg addrlo, TCGReg addrhi,
-- * Licensed under the GPLv2/LGPLv3
+-                                    int mem_index, MemOp opc,
-- */
+-                                    tcg_insn_unit **label_ptr, int which)
 -static inline uint64_t udiv_qrnnd(uint64_t *r, uint64_t n1,
 -                                  uint64_t n0, uint64_t d)
 -{
--#if defined(__x86_64__)
+-    TCGType ttype = TCG_TYPE_I32;
--    uint64_t q;
+-    TCGType tlbtype = TCG_TYPE_I32;
--    asm("divq %4" : "=a"(q), "=d"(*r) : "0"(n0), "1"(n1), "rm"(d));
+-    int trexw = 0, hrexw = 0, tlbrexw = 0;
--    return q;
+-    unsigned a_bits = get_alignment_bits(opc);
--#elif defined(__s390x__) && !defined(__clang__)
+-    unsigned s_bits = opc & MO_SIZE;
--    /* Need to use a TImode type to get an even register pair for DLGR.  */
+-    unsigned a_mask = (1 << a_bits) - 1;
--    unsigned __int128 n = (unsigned __int128)n1 << 64 | n0;
+-    unsigned s_mask = (1 << s_bits) - 1;
--    asm("dlgr %0, %1" : "+r"(n) : "r"(d));
+-    target_ulong tlb_mask;
--    *r = n >> 64;
+-
--    return n;
+-    if (TCG_TARGET_REG_BITS == 64) {
--#elif defined(_ARCH_PPC64) && defined(_ARCH_PWR7)
+-        if (TARGET_LONG_BITS == 64) {
--    /* From Power ISA 2.06, programming note for divdeu.  */
+-            ttype = TCG_TYPE_I64;
--    uint64_t q1, q2, Q, r1, r2, R;
+-            trexw = P_REXW;
--    asm("divdeu %0,%2,%4; divdu %1,%3,%4"
+-        }
--        : "=&r"(q1), "=r"(q2)
+-        if (TCG_TYPE_PTR == TCG_TYPE_I64) {
--        : "r"(n1), "r"(n0), "r"(d));
+-            hrexw = P_REXW;
--    r1 = -(q1 * d);         /* low part of (n1<<64) - (q1 * d) */
+-            if (TARGET_PAGE_BITS + CPU_TLB_DYN_MAX_BITS > 32) {
--    r2 = n0 - (q2 * d);
+-                tlbtype = TCG_TYPE_I64;
--    Q = q1 + q2;
+-                tlbrexw = P_REXW;
 -    R = r1 + r2;
 -    if (R >= d || R < r2) { /* overflow implies R > d */
 -        Q += 1;
 -        R -= d;
 -    }
 -    *r = R;
 -    return Q;
 -#else
 -    uint64_t d0, d1, q0, q1, r1, r0, m;
 -
 -    d0 = (uint32_t)d;
 -    d1 = d >> 32;
 -
 -    r1 = n1 % d1;
 -    q1 = n1 / d1;
 -    m = q1 * d0;
 -    r1 = (r1 << 32) | (n0 >> 32);
 -    if (r1 < m) {
 -        q1 -= 1;
 -        r1 += d;
 -        if (r1 >= d) {
 -            if (r1 < m) {
 -                q1 -= 1;
 -                r1 += d;
 -            }
 -        }
 -    }
--    r1 -= m;
+-
--
+-    tcg_out_mov(s, tlbtype, TCG_REG_L0, addrlo);
--    r0 = r1 % d1;
+-    tcg_out_shifti(s, SHIFT_SHR + tlbrexw, TCG_REG_L0,
--    q0 = r1 / d1;
+-                   TARGET_PAGE_BITS - CPU_TLB_ENTRY_BITS);
--    m = q0 * d0;
+-
--    r0 = (r0 << 32) | (uint32_t)n0;
+-    tcg_out_modrm_offset(s, OPC_AND_GvEv + trexw, TCG_REG_L0, TCG_AREG0,
--    if (r0 < m) {
+-                         TLB_MASK_TABLE_OFS(mem_index) +
--        q0 -= 1;
+-                         offsetof(CPUTLBDescFast, mask));
--        r0 += d;
+-
--        if (r0 >= d) {
+-    tcg_out_modrm_offset(s, OPC_ADD_GvEv + hrexw, TCG_REG_L0, TCG_AREG0,
--            if (r0 < m) {
+-                         TLB_MASK_TABLE_OFS(mem_index) +
--                q0 -= 1;
+-                         offsetof(CPUTLBDescFast, table));
--                r0 += d;
+-
--            }
+-    /* If the required alignment is at least as large as the access, simply
--        }
+-       copy the address and mask.  For lesser alignments, check that we don't
 -       cross pages for the complete access.  */
 -    if (a_bits >= s_bits) {
 -        tcg_out_mov(s, ttype, TCG_REG_L1, addrlo);
 -    } else {
 -        tcg_out_modrm_offset(s, OPC_LEA + trexw, TCG_REG_L1,
 -                             addrlo, s_mask - a_mask);
 -    }
--    r0 -= m;
+-    tlb_mask = (target_ulong)TARGET_PAGE_MASK | a_mask;
--
+-    tgen_arithi(s, ARITH_AND + trexw, TCG_REG_L1, tlb_mask, 0);
--    *r = r0;
+-
--    return (q1 << 32) | q0;
+-    /* cmp 0(TCG_REG_L0), TCG_REG_L1 */
--#endif
+-    tcg_out_modrm_offset(s, OPC_CMP_GvEv + trexw,
 -                         TCG_REG_L1, TCG_REG_L0, which);
 -
 -    /* Prepare for both the fast path add of the tlb addend, and the slow
 -       path function argument setup.  */
 -    tcg_out_mov(s, ttype, TCG_REG_L1, addrlo);
 -
 -    /* jne slow_path */
 -    tcg_out_opc(s, OPC_JCC_long + JCC_JNE, 0, 0, 0);
 -    label_ptr[0] = s->code_ptr;
 -    s->code_ptr += 4;
 -
 -    if (TARGET_LONG_BITS > TCG_TARGET_REG_BITS) {
 -        /* cmp 4(TCG_REG_L0), addrhi */
 -        tcg_out_modrm_offset(s, OPC_CMP_GvEv, addrhi, TCG_REG_L0, which + 4);
 -
 -        /* jne slow_path */
 -        tcg_out_opc(s, OPC_JCC_long + JCC_JNE, 0, 0, 0);
 -        label_ptr[1] = s->code_ptr;
 -        s->code_ptr += 4;
 -    }
 -
 -    /* TLB Hit.  */
 -
 -    /* add addend(TCG_REG_L0), TCG_REG_L1 */
 -    tcg_out_modrm_offset(s, OPC_ADD_GvEv + hrexw, TCG_REG_L1, TCG_REG_L0,
 -                         offsetof(CPUTLBEntry, addend));
 -}
 -
- /*----------------------------------------------------------------------------
+-/*
- | Returns an approximation to the square root of the 32-bit significand given
+- * Record the context of a call to the out of line helper code for the slow path
- | by `a'.  Considered as an integer, `a' must be at least 2^31.  If bit 0 of
+- * for a load or store, so that we can later generate the correct helper code
-diff --git a/include/qemu/host-utils.h b/include/qemu/host-utils.h
+- */
-index XXXXXXX..XXXXXXX 100644
+-static void add_qemu_ldst_label(TCGContext *s, bool is_ld,
---- a/include/qemu/host-utils.h
+-                                TCGType type, MemOpIdx oi,
-+++ b/include/qemu/host-utils.h
+-                                TCGReg datalo, TCGReg datahi,
-@@ -XXX,XX +XXX,XX @@
+-                                TCGReg addrlo, TCGReg addrhi,
-  * THE SOFTWARE.
+-                                tcg_insn_unit *raddr,
 -                                tcg_insn_unit **label_ptr)
 -{
 -    TCGLabelQemuLdst *label = new_ldst_label(s);
 -
 -    label->is_ld = is_ld;
 -    label->oi = oi;
 -    label->type = type;
 -    label->datalo_reg = datalo;
 -    label->datahi_reg = datahi;
 -    label->addrlo_reg = addrlo;
 -    label->addrhi_reg = addrhi;
 -    label->raddr = tcg_splitwx_to_rx(raddr);
 -    label->label_ptr[0] = label_ptr[0];
 -    if (TARGET_LONG_BITS > TCG_TARGET_REG_BITS) {
 -        label->label_ptr[1] = label_ptr[1];
 -    }
 -}
 -
  /*
   * Generate code for the slow path for a load at the end of block
   */
+@@ -XXX,XX +XXX,XX @@ static bool tcg_out_qemu_st_slow_path(TCGContext *s, TCGLabelQemuLdst *l)
-+/* Portions of this work are licensed under the terms of the GNU GPL,
+     return true;
-+ * version 2 or later. See the COPYING file in the top-level directory.
+ }
  #else
 -
 -static void tcg_out_test_alignment(TCGContext *s, bool is_ld, TCGReg addrlo,
 -                                   TCGReg addrhi, unsigned a_bits)
 -{
 -    unsigned a_mask = (1 << a_bits) - 1;
 -    TCGLabelQemuLdst *label;
 -
 -    tcg_out_testi(s, addrlo, a_mask);
 -    /* jne slow_path */
 -    tcg_out_opc(s, OPC_JCC_long + JCC_JNE, 0, 0, 0);
 -
 -    label = new_ldst_label(s);
 -    label->is_ld = is_ld;
 -    label->addrlo_reg = addrlo;
 -    label->addrhi_reg = addrhi;
 -    label->raddr = tcg_splitwx_to_rx(s->code_ptr + 4);
 -    label->label_ptr[0] = s->code_ptr;
 -
 -    s->code_ptr += 4;
 -}
 -
  static bool tcg_out_fail_alignment(TCGContext *s, TCGLabelQemuLdst *l)
  {
      /* resolve label address */
@@ -XXX,XX +XXX,XX @@ static inline int setup_guest_base_seg(void)
  #endif /* setup_guest_base_seg */
  #endif /* SOFTMMU */
 +/*
 + * For softmmu, perform the TLB load and compare.
 + * For useronly, perform any required alignment tests.
 + * In both cases, return a TCGLabelQemuLdst structure if the slow path
 + * is required and fill in @h with the host address for the fast path.
 + */
-+
++static TCGLabelQemuLdst *prepare_host_addr(TCGContext *s, HostAddress *h,
- #ifndef HOST_UTILS_H
++                                           TCGReg addrlo, TCGReg addrhi,
- #define HOST_UTILS_H
++                                           MemOpIdx oi, bool is_ld)
@@ -XXX,XX +XXX,XX @@ void urshift(uint64_t *plow, uint64_t *phigh, int32_t shift);
   */
  void ulshift(uint64_t *plow, uint64_t *phigh, int32_t shift, bool *overflow);
 +/* From the GNU Multi Precision Library - longlong.h __udiv_qrnnd
 + * (https://gmplib.org/repo/gmp/file/tip/longlong.h)
 + *
 + * Licensed under the GPLv2/LGPLv3
 + */
 +static inline uint64_t udiv_qrnnd(uint64_t *r, uint64_t n1,
 +                                  uint64_t n0, uint64_t d)
 +{
-+#if defined(__x86_64__)
++    TCGLabelQemuLdst *ldst = NULL;
-+    uint64_t q;
++    MemOp opc = get_memop(oi);
-+    asm("divq %4" : "=a"(q), "=d"(*r) : "0"(n0), "1"(n1), "rm"(d));
++    unsigned a_bits = get_alignment_bits(opc);
-+    return q;
++    unsigned a_mask = (1 << a_bits) - 1;
-+#elif defined(__s390x__) && !defined(__clang__)
++
-+    /* Need to use a TImode type to get an even register pair for DLGR.  */
++#ifdef CONFIG_SOFTMMU
-+    unsigned __int128 n = (unsigned __int128)n1 << 64 | n0;
++    int cmp_ofs = is_ld ? offsetof(CPUTLBEntry, addr_read)
-+    asm("dlgr %0, %1" : "+r"(n) : "r"(d));
++                        : offsetof(CPUTLBEntry, addr_write);
-+    *r = n >> 64;
++    TCGType ttype = TCG_TYPE_I32;
-+    return n;
++    TCGType tlbtype = TCG_TYPE_I32;
-+#elif defined(_ARCH_PPC64) && defined(_ARCH_PWR7)
++    int trexw = 0, hrexw = 0, tlbrexw = 0;
-+    /* From Power ISA 2.06, programming note for divdeu.  */
++    unsigned mem_index = get_mmuidx(oi);
-+    uint64_t q1, q2, Q, r1, r2, R;
++    unsigned s_bits = opc & MO_SIZE;
-+    asm("divdeu %0,%2,%4; divdu %1,%3,%4"
++    unsigned s_mask = (1 << s_bits) - 1;
-+        : "=&r"(q1), "=r"(q2)
++    target_ulong tlb_mask;
-+        : "r"(n1), "r"(n0), "r"(d));
++
-+    r1 = -(q1 * d);         /* low part of (n1<<64) - (q1 * d) */
++    ldst = new_ldst_label(s);
-+    r2 = n0 - (q2 * d);
++    ldst->is_ld = is_ld;
-+    Q = q1 + q2;
++    ldst->oi = oi;
-+    R = r1 + r2;
++    ldst->addrlo_reg = addrlo;
-+    if (R >= d || R < r2) { /* overflow implies R > d */
++    ldst->addrhi_reg = addrhi;
-+        Q += 1;
++
-+        R -= d;
++    if (TCG_TARGET_REG_BITS == 64) {
-+    }
++        if (TARGET_LONG_BITS == 64) {
-+    *r = R;
++            ttype = TCG_TYPE_I64;
-+    return Q;
++            trexw = P_REXW;
-+#else
++        }
-+    uint64_t d0, d1, q0, q1, r1, r0, m;
++        if (TCG_TYPE_PTR == TCG_TYPE_I64) {
-+
++            hrexw = P_REXW;
-+    d0 = (uint32_t)d;
++            if (TARGET_PAGE_BITS + CPU_TLB_DYN_MAX_BITS > 32) {
-+    d1 = d >> 32;
++                tlbtype = TCG_TYPE_I64;
-+
++                tlbrexw = P_REXW;
 +    r1 = n1 % d1;
 +    q1 = n1 / d1;
 +    m = q1 * d0;
 +    r1 = (r1 << 32) | (n0 >> 32);
 +    if (r1 < m) {
 +        q1 -= 1;
 +        r1 += d;
 +        if (r1 >= d) {
 +            if (r1 < m) {
 +                q1 -= 1;
 +                r1 += d;
 +            }
 +        }
 +    }
-+    r1 -= m;
++
-+
++    tcg_out_mov(s, tlbtype, TCG_REG_L0, addrlo);
-+    r0 = r1 % d1;
++    tcg_out_shifti(s, SHIFT_SHR + tlbrexw, TCG_REG_L0,
-+    q0 = r1 / d1;
++                   TARGET_PAGE_BITS - CPU_TLB_ENTRY_BITS);
-+    m = q0 * d0;
++
-+    r0 = (r0 << 32) | (uint32_t)n0;
++    tcg_out_modrm_offset(s, OPC_AND_GvEv + trexw, TCG_REG_L0, TCG_AREG0,
-+    if (r0 < m) {
++                         TLB_MASK_TABLE_OFS(mem_index) +
-+        q0 -= 1;
++                         offsetof(CPUTLBDescFast, mask));
-+        r0 += d;
++
-+        if (r0 >= d) {
++    tcg_out_modrm_offset(s, OPC_ADD_GvEv + hrexw, TCG_REG_L0, TCG_AREG0,
-+            if (r0 < m) {
++                         TLB_MASK_TABLE_OFS(mem_index) +
-+                q0 -= 1;
++                         offsetof(CPUTLBDescFast, table));
-+                r0 += d;
++
-+            }
++    /*
-+        }
++     * If the required alignment is at least as large as the access, simply
 +     * copy the address and mask.  For lesser alignments, check that we don't
 +     * cross pages for the complete access.
 +     */
 +    if (a_bits >= s_bits) {
 +        tcg_out_mov(s, ttype, TCG_REG_L1, addrlo);
 +    } else {
 +        tcg_out_modrm_offset(s, OPC_LEA + trexw, TCG_REG_L1,
 +                             addrlo, s_mask - a_mask);
 +    }
-+    r0 -= m;
++    tlb_mask = (target_ulong)TARGET_PAGE_MASK | a_mask;
-+
++    tgen_arithi(s, ARITH_AND + trexw, TCG_REG_L1, tlb_mask, 0);
-+    *r = r0;
++
-+    return (q1 << 32) | q0;
++    /* cmp 0(TCG_REG_L0), TCG_REG_L1 */
 +    tcg_out_modrm_offset(s, OPC_CMP_GvEv + trexw,
 +                         TCG_REG_L1, TCG_REG_L0, cmp_ofs);
 +
 +    /*
 +     * Prepare for both the fast path add of the tlb addend, and the slow
 +     * path function argument setup.
 +     */
 +    *h = (HostAddress) {
 +        .base = TCG_REG_L1,
 +        .index = -1
 +    };
 +    tcg_out_mov(s, ttype, h->base, addrlo);
 +
 +    /* jne slow_path */
 +    tcg_out_opc(s, OPC_JCC_long + JCC_JNE, 0, 0, 0);
 +    ldst->label_ptr[0] = s->code_ptr;
 +    s->code_ptr += 4;
 +
 +    if (TARGET_LONG_BITS > TCG_TARGET_REG_BITS) {
 +        /* cmp 4(TCG_REG_L0), addrhi */
 +        tcg_out_modrm_offset(s, OPC_CMP_GvEv, addrhi, TCG_REG_L0, cmp_ofs + 4);
 +
 +        /* jne slow_path */
 +        tcg_out_opc(s, OPC_JCC_long + JCC_JNE, 0, 0, 0);
 +        ldst->label_ptr[1] = s->code_ptr;
 +        s->code_ptr += 4;
 +    }
 +
 +    /* TLB Hit.  */
 +
 +    /* add addend(TCG_REG_L0), TCG_REG_L1 */
 +    tcg_out_modrm_offset(s, OPC_ADD_GvEv + hrexw, h->base, TCG_REG_L0,
 +                         offsetof(CPUTLBEntry, addend));
 +#else
 +    if (a_bits) {
 +        ldst = new_ldst_label(s);
 +
 +        ldst->is_ld = is_ld;
 +        ldst->oi = oi;
 +        ldst->addrlo_reg = addrlo;
 +        ldst->addrhi_reg = addrhi;
 +
 +        tcg_out_testi(s, addrlo, a_mask);
 +        /* jne slow_path */
 +        tcg_out_opc(s, OPC_JCC_long + JCC_JNE, 0, 0, 0);
 +        ldst->label_ptr[0] = s->code_ptr;
 +        s->code_ptr += 4;
 +    }
 +
 +    *h = x86_guest_base;
 +    h->base = addrlo;
 +#endif
++
++    return ldst;
 +}
 +
- #endif
+ static void tcg_out_qemu_ld_direct(TCGContext *s, TCGReg datalo, TCGReg datahi,
                                     HostAddress h, TCGType type, MemOp memop)
  {
@@ -XXX,XX +XXX,XX @@ static void tcg_out_qemu_ld(TCGContext *s, TCGReg datalo, TCGReg datahi,
                              TCGReg addrlo, TCGReg addrhi,
                              MemOpIdx oi, TCGType data_type)
  {
 -    MemOp opc = get_memop(oi);
 +    TCGLabelQemuLdst *ldst;
      HostAddress h;
 -#if defined(CONFIG_SOFTMMU)
 -    tcg_insn_unit *label_ptr[2];
 +    ldst = prepare_host_addr(s, &h, addrlo, addrhi, oi, true);
 +    tcg_out_qemu_ld_direct(s, datalo, datahi, h, data_type, get_memop(oi));
 -    tcg_out_tlb_load(s, addrlo, addrhi, get_mmuidx(oi), opc,
 -                     label_ptr, offsetof(CPUTLBEntry, addr_read));
 -
 -    /* TLB Hit.  */
 -    h.base = TCG_REG_L1;
 -    h.index = -1;
 -    h.ofs = 0;
 -    h.seg = 0;
 -    tcg_out_qemu_ld_direct(s, datalo, datahi, h, data_type, opc);
 -
 -    /* Record the current context of a load into ldst label */
 -    add_qemu_ldst_label(s, true, data_type, oi, datalo, datahi,
 -                        addrlo, addrhi, s->code_ptr, label_ptr);
 -#else
 -    unsigned a_bits = get_alignment_bits(opc);
 -    if (a_bits) {
 -        tcg_out_test_alignment(s, true, addrlo, addrhi, a_bits);
 +    if (ldst) {
 +        ldst->type = data_type;
 +        ldst->datalo_reg = datalo;
 +        ldst->datahi_reg = datahi;
 +        ldst->raddr = tcg_splitwx_to_rx(s->code_ptr);
      }
 -
 -    h = x86_guest_base;
 -    h.base = addrlo;
 -    tcg_out_qemu_ld_direct(s, datalo, datahi, h, data_type, opc);
 -#endif
  }
  static void tcg_out_qemu_st_direct(TCGContext *s, TCGReg datalo, TCGReg datahi,
@@ -XXX,XX +XXX,XX @@ static void tcg_out_qemu_st(TCGContext *s, TCGReg datalo, TCGReg datahi,
                              TCGReg addrlo, TCGReg addrhi,
                              MemOpIdx oi, TCGType data_type)
  {
 -    MemOp opc = get_memop(oi);
 +    TCGLabelQemuLdst *ldst;
      HostAddress h;
 -#if defined(CONFIG_SOFTMMU)
 -    tcg_insn_unit *label_ptr[2];
 +    ldst = prepare_host_addr(s, &h, addrlo, addrhi, oi, false);
 +    tcg_out_qemu_st_direct(s, datalo, datahi, h, get_memop(oi));
 -    tcg_out_tlb_load(s, addrlo, addrhi, get_mmuidx(oi), opc,
 -                     label_ptr, offsetof(CPUTLBEntry, addr_write));
 -
 -    /* TLB Hit.  */
 -    h.base = TCG_REG_L1;
 -    h.index = -1;
 -    h.ofs = 0;
 -    h.seg = 0;
 -    tcg_out_qemu_st_direct(s, datalo, datahi, h, opc);
 -
 -    /* Record the current context of a store into ldst label */
 -    add_qemu_ldst_label(s, false, data_type, oi, datalo, datahi,
 -                        addrlo, addrhi, s->code_ptr, label_ptr);
 -#else
 -    unsigned a_bits = get_alignment_bits(opc);
 -    if (a_bits) {
 -        tcg_out_test_alignment(s, false, addrlo, addrhi, a_bits);
 +    if (ldst) {
 +        ldst->type = data_type;
 +        ldst->datalo_reg = datalo;
 +        ldst->datahi_reg = datahi;
 +        ldst->raddr = tcg_splitwx_to_rx(s->code_ptr);
      }
 -
 -    h = x86_guest_base;
 -    h.base = addrlo;
 -
 -    tcg_out_qemu_st_direct(s, datalo, datahi, h, opc);
 -#endif
  }
  static void tcg_out_exit_tb(TCGContext *s, uintptr_t a0)
 --
-.25.1
+.34.1

-[PULL 53/56] tcg/optimize: Propagate sign info for logical operations
+[PULL 12/53] tcg/i386: Use indexed addressing for softmmu fast path
-Sign repetitions are perforce all identical, whether they are 1 or 0.
+Since tcg_out_{ld,st}_helper_args, the slow path no longer requires
-Bitwise operations preserve the relative quantity of the repetitions.
+the address argument to be set up by the tlb load sequence.  Use a
 plain load for the addend and indexed addressing with the original
 input address register.
 Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
-Reviewed-by: Luis Pires <luis.pires@eldorado.org.br>
-Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- tcg/optimize.c | 29 +++++++++++++++++++++++++++++
+ tcg/i386/tcg-target.c.inc | 25 ++++++++++---------------
-file changed, 29 insertions(+)
+file changed, 10 insertions(+), 15 deletions(-)
-diff --git a/tcg/optimize.c b/tcg/optimize.c
+diff --git a/tcg/i386/tcg-target.c.inc b/tcg/i386/tcg-target.c.inc
 index XXXXXXX..XXXXXXX 100644
---- a/tcg/optimize.c
+--- a/tcg/i386/tcg-target.c.inc
-+++ b/tcg/optimize.c
++++ b/tcg/i386/tcg-target.c.inc
-@@ -XXX,XX +XXX,XX @@ static bool fold_and(OptContext *ctx, TCGOp *op)
+@@ -XXX,XX +XXX,XX @@ static bool tcg_out_qemu_ld_slow_path(TCGContext *s, TCGLabelQemuLdst *l)
-     z2 = arg_info(op->args[2])->z_mask;
+         tcg_out_sti(s, TCG_TYPE_PTR, (uintptr_t)l->raddr, TCG_REG_ESP, ofs);
-     ctx->z_mask = z1 & z2;
+     } else {
+         tcg_out_mov(s, TCG_TYPE_PTR, tcg_target_call_iarg_regs[0], TCG_AREG0);
-+    /*
+-        /* The second argument is already loaded with addrlo.  */
-+     * Sign repetitions are perforce all identical, whether they are 1 or 0.
++        tcg_out_mov(s, TCG_TYPE_TL, tcg_target_call_iarg_regs[1],
-+     * Bitwise operations preserve the relative quantity of the repetitions.
++                    l->addrlo_reg);
-+     */
+         tcg_out_movi(s, TCG_TYPE_I32, tcg_target_call_iarg_regs[2], oi);
-+    ctx->s_mask = arg_info(op->args[1])->s_mask
+         tcg_out_movi(s, TCG_TYPE_PTR, tcg_target_call_iarg_regs[3],
-+                & arg_info(op->args[2])->s_mask;
+                      (uintptr_t)l->raddr);
-+
+@@ -XXX,XX +XXX,XX @@ static bool tcg_out_qemu_st_slow_path(TCGContext *s, TCGLabelQemuLdst *l)
-     /*
+         tcg_out_st(s, TCG_TYPE_PTR, retaddr, TCG_REG_ESP, ofs);
-      * Known-zeros does not imply known-ones.  Therefore unless
+     } else {
-      * arg2 is constant, we can't infer affected bits from it.
+         tcg_out_mov(s, TCG_TYPE_PTR, tcg_target_call_iarg_regs[0], TCG_AREG0);
-@@ -XXX,XX +XXX,XX @@ static bool fold_andc(OptContext *ctx, TCGOp *op)
+-        /* The second argument is already loaded with addrlo.  */
 +        tcg_out_mov(s, TCG_TYPE_TL, tcg_target_call_iarg_regs[1],
 +                    l->addrlo_reg);
          tcg_out_mov(s, (s_bits == MO_64 ? TCG_TYPE_I64 : TCG_TYPE_I32),
                      tcg_target_call_iarg_regs[2], l->datalo_reg);
          tcg_out_movi(s, TCG_TYPE_I32, tcg_target_call_iarg_regs[3], oi);
@@ -XXX,XX +XXX,XX @@ static TCGLabelQemuLdst *prepare_host_addr(TCGContext *s, HostAddress *h,
      tcg_out_modrm_offset(s, OPC_CMP_GvEv + trexw,
                           TCG_REG_L1, TCG_REG_L0, cmp_ofs);
 -    /*
 -     * Prepare for both the fast path add of the tlb addend, and the slow
 -     * path function argument setup.
 -     */
 -    *h = (HostAddress) {
 -        .base = TCG_REG_L1,
 -        .index = -1
 -    };
 -    tcg_out_mov(s, ttype, h->base, addrlo);
 -
      /* jne slow_path */
      tcg_out_opc(s, OPC_JCC_long + JCC_JNE, 0, 0, 0);
      ldst->label_ptr[0] = s->code_ptr;
@@ -XXX,XX +XXX,XX @@ static TCGLabelQemuLdst *prepare_host_addr(TCGContext *s, HostAddress *h,
      }
-     ctx->z_mask = z1;
+     /* TLB Hit.  */
-+    ctx->s_mask = arg_info(op->args[1])->s_mask
++    tcg_out_ld(s, TCG_TYPE_PTR, TCG_REG_L0, TCG_REG_L0,
-+                & arg_info(op->args[2])->s_mask;
++               offsetof(CPUTLBEntry, addend));
-     return fold_masks(ctx, op);
- }
+-    /* add addend(TCG_REG_L0), TCG_REG_L1 */
+-    tcg_out_modrm_offset(s, OPC_ADD_GvEv + hrexw, h->base, TCG_REG_L0,
-@@ -XXX,XX +XXX,XX @@ static bool fold_eqv(OptContext *ctx, TCGOp *op)
+-                         offsetof(CPUTLBEntry, addend));
-         fold_xi_to_not(ctx, op, 0)) {
++    *h = (HostAddress) {
-         return true;
++        .base = addrlo,
-     }
++        .index = TCG_REG_L0,
-+
++    };
-+    ctx->s_mask = arg_info(op->args[1])->s_mask
+ #else
-+                & arg_info(op->args[2])->s_mask;
+     if (a_bits) {
-     return false;
+         ldst = new_ldst_label(s);
  }
@@ -XXX,XX +XXX,XX @@ static bool fold_movcond(OptContext *ctx, TCGOp *op)
      ctx->z_mask = arg_info(op->args[3])->z_mask
                  | arg_info(op->args[4])->z_mask;
 +    ctx->s_mask = arg_info(op->args[3])->s_mask
 +                & arg_info(op->args[4])->s_mask;
      if (arg_is_const(op->args[3]) && arg_is_const(op->args[4])) {
          uint64_t tv = arg_info(op->args[3])->val;
@@ -XXX,XX +XXX,XX @@ static bool fold_nand(OptContext *ctx, TCGOp *op)
          fold_xi_to_not(ctx, op, -1)) {
          return true;
      }
 +
 +    ctx->s_mask = arg_info(op->args[1])->s_mask
 +                & arg_info(op->args[2])->s_mask;
      return false;
  }
@@ -XXX,XX +XXX,XX @@ static bool fold_nor(OptContext *ctx, TCGOp *op)
          fold_xi_to_not(ctx, op, 0)) {
          return true;
      }
 +
 +    ctx->s_mask = arg_info(op->args[1])->s_mask
 +                & arg_info(op->args[2])->s_mask;
      return false;
  }
@@ -XXX,XX +XXX,XX @@ static bool fold_not(OptContext *ctx, TCGOp *op)
          return true;
      }
 +    ctx->s_mask = arg_info(op->args[1])->s_mask;
 +
      /* Because of fold_to_not, we want to always return true, via finish. */
      finish_folding(ctx, op);
      return true;
@@ -XXX,XX +XXX,XX @@ static bool fold_or(OptContext *ctx, TCGOp *op)
      ctx->z_mask = arg_info(op->args[1])->z_mask
                  | arg_info(op->args[2])->z_mask;
 +    ctx->s_mask = arg_info(op->args[1])->s_mask
 +                & arg_info(op->args[2])->s_mask;
      return fold_masks(ctx, op);
  }
@@ -XXX,XX +XXX,XX @@ static bool fold_orc(OptContext *ctx, TCGOp *op)
          fold_ix_to_not(ctx, op, 0)) {
          return true;
      }
 +
 +    ctx->s_mask = arg_info(op->args[1])->s_mask
 +                & arg_info(op->args[2])->s_mask;
      return false;
  }
@@ -XXX,XX +XXX,XX @@ static bool fold_xor(OptContext *ctx, TCGOp *op)
      ctx->z_mask = arg_info(op->args[1])->z_mask
                  | arg_info(op->args[2])->z_mask;
 +    ctx->s_mask = arg_info(op->args[1])->s_mask
 +                & arg_info(op->args[2])->s_mask;
      return fold_masks(ctx, op);
  }
 --
-.25.1
+.34.1

-[PULL 39/56] tcg/optimize: Split out fold_to_not
+[PULL 13/53] tcg/aarch64: Introduce prepare_host_addr
-Split out the conditional conversion from a more complex logical
+Merge tcg_out_tlb_load, add_qemu_ldst_label, tcg_out_test_alignment,
-operation to a simple NOT.  Create a couple more helpers to make
+and some code that lived in both tcg_out_qemu_ld and tcg_out_qemu_st
-this easy for the outer-most logical operations.
+into one function that returns HostAddress and TCGLabelQemuLdst structures.
-Reviewed-by: Luis Pires <luis.pires@eldorado.org.br>
+Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- tcg/optimize.c | 158 +++++++++++++++++++++++++++----------------------
+ tcg/aarch64/tcg-target.c.inc | 313 +++++++++++++++--------------------
-file changed, 86 insertions(+), 72 deletions(-)
+file changed, 133 insertions(+), 180 deletions(-)
-diff --git a/tcg/optimize.c b/tcg/optimize.c
+diff --git a/tcg/aarch64/tcg-target.c.inc b/tcg/aarch64/tcg-target.c.inc
 index XXXXXXX..XXXXXXX 100644
---- a/tcg/optimize.c
+--- a/tcg/aarch64/tcg-target.c.inc
-+++ b/tcg/optimize.c
++++ b/tcg/aarch64/tcg-target.c.inc
-@@ -XXX,XX +XXX,XX @@ static bool fold_const2(OptContext *ctx, TCGOp *op)
+@@ -XXX,XX +XXX,XX @@ static bool tcg_out_qemu_st_slow_path(TCGContext *s, TCGLabelQemuLdst *lb)
-     return false;
+     tcg_out_goto(s, lb->raddr);
      return true;
  }
+-
+-static void add_qemu_ldst_label(TCGContext *s, bool is_ld, MemOpIdx oi,
+-                                TCGType ext, TCGReg data_reg, TCGReg addr_reg,
+-                                tcg_insn_unit *raddr, tcg_insn_unit *label_ptr)
+-{
+-    TCGLabelQemuLdst *label = new_ldst_label(s);
+-
+-    label->is_ld = is_ld;
+-    label->oi = oi;
+-    label->type = ext;
+-    label->datalo_reg = data_reg;
+-    label->addrlo_reg = addr_reg;
+-    label->raddr = tcg_splitwx_to_rx(raddr);
+-    label->label_ptr[0] = label_ptr;
+-}
+-
+-/* We expect to use a 7-bit scaled negative offset from ENV.  */
+-QEMU_BUILD_BUG_ON(TLB_MASK_TABLE_OFS(0) > 0);
+-QEMU_BUILD_BUG_ON(TLB_MASK_TABLE_OFS(0) < -512);
+-
+-/* These offsets are built into the LDP below.  */
+-QEMU_BUILD_BUG_ON(offsetof(CPUTLBDescFast, mask) != 0);
+-QEMU_BUILD_BUG_ON(offsetof(CPUTLBDescFast, table) != 8);
+-
+-/* Load and compare a TLB entry, emitting the conditional jump to the
+-   slow path for the failure case, which will be patched later when finalizing
+-   the slow path. Generated code returns the host addend in X1,
+-   clobbers X0,X2,X3,TMP. */
+-static void tcg_out_tlb_read(TCGContext *s, TCGReg addr_reg, MemOp opc,
+-                             tcg_insn_unit **label_ptr, int mem_index,
+-                             bool is_read)
+-{
+-    unsigned a_bits = get_alignment_bits(opc);
+-    unsigned s_bits = opc & MO_SIZE;
+-    unsigned a_mask = (1u << a_bits) - 1;
+-    unsigned s_mask = (1u << s_bits) - 1;
+-    TCGReg x3;
+-    TCGType mask_type;
+-    uint64_t compare_mask;
+-
+-    mask_type = (TARGET_PAGE_BITS + CPU_TLB_DYN_MAX_BITS > 32
+-                 ? TCG_TYPE_I64 : TCG_TYPE_I32);
+-
+-    /* Load env_tlb(env)->f[mmu_idx].{mask,table} into {x0,x1}.  */
+-    tcg_out_insn(s, 3314, LDP, TCG_REG_X0, TCG_REG_X1, TCG_AREG0,
+-                 TLB_MASK_TABLE_OFS(mem_index), 1, 0);
+-
+-    /* Extract the TLB index from the address into X0.  */
+-    tcg_out_insn(s, 3502S, AND_LSR, mask_type == TCG_TYPE_I64,
+-                 TCG_REG_X0, TCG_REG_X0, addr_reg,
+-                 TARGET_PAGE_BITS - CPU_TLB_ENTRY_BITS);
+-
+-    /* Add the tlb_table pointer, creating the CPUTLBEntry address into X1.  */
+-    tcg_out_insn(s, 3502, ADD, 1, TCG_REG_X1, TCG_REG_X1, TCG_REG_X0);
+-
+-    /* Load the tlb comparator into X0, and the fast path addend into X1.  */
+-    tcg_out_ld(s, TCG_TYPE_TL, TCG_REG_X0, TCG_REG_X1, is_read
+-               ? offsetof(CPUTLBEntry, addr_read)
+-               : offsetof(CPUTLBEntry, addr_write));
+-    tcg_out_ld(s, TCG_TYPE_PTR, TCG_REG_X1, TCG_REG_X1,
+-               offsetof(CPUTLBEntry, addend));
+-
+-    /* For aligned accesses, we check the first byte and include the alignment
+-       bits within the address.  For unaligned access, we check that we don't
+-       cross pages using the address of the last byte of the access.  */
+-    if (a_bits >= s_bits) {
+-        x3 = addr_reg;
+-    } else {
+-        tcg_out_insn(s, 3401, ADDI, TARGET_LONG_BITS == 64,
+-                     TCG_REG_X3, addr_reg, s_mask - a_mask);
+-        x3 = TCG_REG_X3;
+-    }
+-    compare_mask = (uint64_t)TARGET_PAGE_MASK | a_mask;
+-
+-    /* Store the page mask part of the address into X3.  */
+-    tcg_out_logicali(s, I3404_ANDI, TARGET_LONG_BITS == 64,
+-                     TCG_REG_X3, x3, compare_mask);
+-
+-    /* Perform the address comparison. */
+-    tcg_out_cmp(s, TARGET_LONG_BITS == 64, TCG_REG_X0, TCG_REG_X3, 0);
+-
+-    /* If not equal, we jump to the slow path. */
+-    *label_ptr = s->code_ptr;
+-    tcg_out_insn(s, 3202, B_C, TCG_COND_NE, 0);
+-}
+-
+ #else
+-static void tcg_out_test_alignment(TCGContext *s, bool is_ld, TCGReg addr_reg,
+-                                   unsigned a_bits)
+-{
+-    unsigned a_mask = (1 << a_bits) - 1;
+-    TCGLabelQemuLdst *label = new_ldst_label(s);
+-
+-    label->is_ld = is_ld;
+-    label->addrlo_reg = addr_reg;
+-
+-    /* tst addr, #mask */
+-    tcg_out_logicali(s, I3404_ANDSI, 0, TCG_REG_XZR, addr_reg, a_mask);
+-
+-    label->label_ptr[0] = s->code_ptr;
+-
+-    /* b.ne slow_path */
+-    tcg_out_insn(s, 3202, B_C, TCG_COND_NE, 0);
+-
+-    label->raddr = tcg_splitwx_to_rx(s->code_ptr);
+-}
+-
+ static bool tcg_out_fail_alignment(TCGContext *s, TCGLabelQemuLdst *l)
+ {
+     if (!reloc_pc19(l->label_ptr[0], tcg_splitwx_to_rx(s->code_ptr))) {
+@@ -XXX,XX +XXX,XX @@ static bool tcg_out_qemu_st_slow_path(TCGContext *s, TCGLabelQemuLdst *l)
+ }
+ #endif /* CONFIG_SOFTMMU */
 +/*
-+ * Convert @op to NOT, if NOT is supported by the host.
++ * For softmmu, perform the TLB load and compare.
-+ * Return true f the conversion is successful, which will still
++ * For useronly, perform any required alignment tests.
-+ * indicate that the processing is complete.
++ * In both cases, return a TCGLabelQemuLdst structure if the slow path
 + * is required and fill in @h with the host address for the fast path.
 + */
-+static bool fold_not(OptContext *ctx, TCGOp *op);
++static TCGLabelQemuLdst *prepare_host_addr(TCGContext *s, HostAddress *h,
-+static bool fold_to_not(OptContext *ctx, TCGOp *op, int idx)
++                                           TCGReg addr_reg, MemOpIdx oi,
 +                                           bool is_ld)
 +{
-+    TCGOpcode not_op;
++    TCGType addr_type = TARGET_LONG_BITS == 64 ? TCG_TYPE_I64 : TCG_TYPE_I32;
-+    bool have_not;
++    TCGLabelQemuLdst *ldst = NULL;
-+
++    MemOp opc = get_memop(oi);
-+    switch (ctx->type) {
++    unsigned a_bits = get_alignment_bits(opc);
-+    case TCG_TYPE_I32:
++    unsigned a_mask = (1u << a_bits) - 1;
-+        not_op = INDEX_op_not_i32;
++
-+        have_not = TCG_TARGET_HAS_not_i32;
++#ifdef CONFIG_SOFTMMU
-+        break;
++    unsigned s_bits = opc & MO_SIZE;
-+    case TCG_TYPE_I64:
++    unsigned s_mask = (1u << s_bits) - 1;
-+        not_op = INDEX_op_not_i64;
++    unsigned mem_index = get_mmuidx(oi);
-+        have_not = TCG_TARGET_HAS_not_i64;
++    TCGReg x3;
-+        break;
++    TCGType mask_type;
-+    case TCG_TYPE_V64:
++    uint64_t compare_mask;
-+    case TCG_TYPE_V128:
++
-+    case TCG_TYPE_V256:
++    ldst = new_ldst_label(s);
-+        not_op = INDEX_op_not_vec;
++    ldst->is_ld = is_ld;
-+        have_not = TCG_TARGET_HAS_not_vec;
++    ldst->oi = oi;
-+        break;
++    ldst->addrlo_reg = addr_reg;
-+    default:
++
-+        g_assert_not_reached();
++    mask_type = (TARGET_PAGE_BITS + CPU_TLB_DYN_MAX_BITS > 32
 +                 ? TCG_TYPE_I64 : TCG_TYPE_I32);
 +
 +    /* Load env_tlb(env)->f[mmu_idx].{mask,table} into {x0,x1}.  */
 +    QEMU_BUILD_BUG_ON(TLB_MASK_TABLE_OFS(0) > 0);
 +    QEMU_BUILD_BUG_ON(TLB_MASK_TABLE_OFS(0) < -512);
 +    QEMU_BUILD_BUG_ON(offsetof(CPUTLBDescFast, mask) != 0);
 +    QEMU_BUILD_BUG_ON(offsetof(CPUTLBDescFast, table) != 8);
 +    tcg_out_insn(s, 3314, LDP, TCG_REG_X0, TCG_REG_X1, TCG_AREG0,
 +                 TLB_MASK_TABLE_OFS(mem_index), 1, 0);
 +
 +    /* Extract the TLB index from the address into X0.  */
 +    tcg_out_insn(s, 3502S, AND_LSR, mask_type == TCG_TYPE_I64,
 +                 TCG_REG_X0, TCG_REG_X0, addr_reg,
 +                 TARGET_PAGE_BITS - CPU_TLB_ENTRY_BITS);
 +
 +    /* Add the tlb_table pointer, creating the CPUTLBEntry address into X1.  */
 +    tcg_out_insn(s, 3502, ADD, 1, TCG_REG_X1, TCG_REG_X1, TCG_REG_X0);
 +
 +    /* Load the tlb comparator into X0, and the fast path addend into X1.  */
 +    tcg_out_ld(s, TCG_TYPE_TL, TCG_REG_X0, TCG_REG_X1,
 +               is_ld ? offsetof(CPUTLBEntry, addr_read)
 +                     : offsetof(CPUTLBEntry, addr_write));
 +    tcg_out_ld(s, TCG_TYPE_PTR, TCG_REG_X1, TCG_REG_X1,
 +               offsetof(CPUTLBEntry, addend));
 +
 +    /*
 +     * For aligned accesses, we check the first byte and include the alignment
 +     * bits within the address.  For unaligned access, we check that we don't
 +     * cross pages using the address of the last byte of the access.
 +     */
 +    if (a_bits >= s_bits) {
 +        x3 = addr_reg;
 +    } else {
 +        tcg_out_insn(s, 3401, ADDI, TARGET_LONG_BITS == 64,
 +                     TCG_REG_X3, addr_reg, s_mask - a_mask);
 +        x3 = TCG_REG_X3;
 +    }
-+    if (have_not) {
++    compare_mask = (uint64_t)TARGET_PAGE_MASK | a_mask;
-+        op->opc = not_op;
++
-+        op->args[1] = op->args[idx];
++    /* Store the page mask part of the address into X3.  */
-+        return fold_not(ctx, op);
++    tcg_out_logicali(s, I3404_ANDI, TARGET_LONG_BITS == 64,
 +                     TCG_REG_X3, x3, compare_mask);
 +
 +    /* Perform the address comparison. */
 +    tcg_out_cmp(s, TARGET_LONG_BITS == 64, TCG_REG_X0, TCG_REG_X3, 0);
 +
 +    /* If not equal, we jump to the slow path. */
 +    ldst->label_ptr[0] = s->code_ptr;
 +    tcg_out_insn(s, 3202, B_C, TCG_COND_NE, 0);
 +
 +    *h = (HostAddress){
 +        .base = TCG_REG_X1,
 +        .index = addr_reg,
 +        .index_ext = addr_type
 +    };
 +#else
 +    if (a_mask) {
 +        ldst = new_ldst_label(s);
 +
 +        ldst->is_ld = is_ld;
 +        ldst->oi = oi;
 +        ldst->addrlo_reg = addr_reg;
 +
 +        /* tst addr, #mask */
 +        tcg_out_logicali(s, I3404_ANDSI, 0, TCG_REG_XZR, addr_reg, a_mask);
 +
 +        /* b.ne slow_path */
 +        ldst->label_ptr[0] = s->code_ptr;
 +        tcg_out_insn(s, 3202, B_C, TCG_COND_NE, 0);
 +    }
-+    return false;
++
 +    if (USE_GUEST_BASE) {
 +        *h = (HostAddress){
 +            .base = TCG_REG_GUEST_BASE,
 +            .index = addr_reg,
 +            .index_ext = addr_type
 +        };
 +    } else {
 +        *h = (HostAddress){
 +            .base = addr_reg,
 +            .index = TCG_REG_XZR,
 +            .index_ext = TCG_TYPE_I64
 +        };
 +    }
 +#endif
 +
 +    return ldst;
 +}
 +
-+/* If the binary operation has first argument @i, fold to NOT. */
+ static void tcg_out_qemu_ld_direct(TCGContext *s, MemOp memop, TCGType ext,
-+static bool fold_ix_to_not(OptContext *ctx, TCGOp *op, uint64_t i)
+                                    TCGReg data_r, HostAddress h)
 +{
 +    if (arg_is_const(op->args[1]) && arg_info(op->args[1])->val == i) {
 +        return fold_to_not(ctx, op, 2);
 +    }
 +    return false;
 +}
 +
  /* If the binary operation has second argument @i, fold to @i. */
  static bool fold_xi_to_i(OptContext *ctx, TCGOp *op, uint64_t i)
  {
-@@ -XXX,XX +XXX,XX @@ static bool fold_xi_to_i(OptContext *ctx, TCGOp *op, uint64_t i)
+@@ -XXX,XX +XXX,XX @@ static void tcg_out_qemu_st_direct(TCGContext *s, MemOp memop,
-     return false;
+ static void tcg_out_qemu_ld(TCGContext *s, TCGReg data_reg, TCGReg addr_reg,
                              MemOpIdx oi, TCGType data_type)
  {
 -    MemOp memop = get_memop(oi);
 -    TCGType addr_type = TARGET_LONG_BITS == 64 ? TCG_TYPE_I64 : TCG_TYPE_I32;
 +    TCGLabelQemuLdst *ldst;
      HostAddress h;
 -    /* Byte swapping is left to middle-end expansion. */
 -    tcg_debug_assert((memop & MO_BSWAP) == 0);
 +    ldst = prepare_host_addr(s, &h, addr_reg, oi, true);
 +    tcg_out_qemu_ld_direct(s, get_memop(oi), data_type, data_reg, h);
 -#ifdef CONFIG_SOFTMMU
 -    tcg_insn_unit *label_ptr;
 -
 -    tcg_out_tlb_read(s, addr_reg, memop, &label_ptr, get_mmuidx(oi), 1);
 -
 -    h = (HostAddress){
 -        .base = TCG_REG_X1,
 -        .index = addr_reg,
 -        .index_ext = addr_type
 -    };
 -    tcg_out_qemu_ld_direct(s, memop, data_type, data_reg, h);
 -
 -    add_qemu_ldst_label(s, true, oi, data_type, data_reg, addr_reg,
 -                        s->code_ptr, label_ptr);
 -#else /* !CONFIG_SOFTMMU */
 -    unsigned a_bits = get_alignment_bits(memop);
 -    if (a_bits) {
 -        tcg_out_test_alignment(s, true, addr_reg, a_bits);
 +    if (ldst) {
 +        ldst->type = data_type;
 +        ldst->datalo_reg = data_reg;
 +        ldst->raddr = tcg_splitwx_to_rx(s->code_ptr);
      }
 -    if (USE_GUEST_BASE) {
 -        h = (HostAddress){
 -            .base = TCG_REG_GUEST_BASE,
 -            .index = addr_reg,
 -            .index_ext = addr_type
 -        };
 -    } else {
 -        h = (HostAddress){
 -            .base = addr_reg,
 -            .index = TCG_REG_XZR,
 -            .index_ext = TCG_TYPE_I64
 -        };
 -    }
 -    tcg_out_qemu_ld_direct(s, memop, data_type, data_reg, h);
 -#endif /* CONFIG_SOFTMMU */
  }
-+/* If the binary operation has second argument @i, fold to NOT. */
+ static void tcg_out_qemu_st(TCGContext *s, TCGReg data_reg, TCGReg addr_reg,
-+static bool fold_xi_to_not(OptContext *ctx, TCGOp *op, uint64_t i)
+                             MemOpIdx oi, TCGType data_type)
 +{
 +    if (arg_is_const(op->args[2]) && arg_info(op->args[2])->val == i) {
 +        return fold_to_not(ctx, op, 1);
 +    }
 +    return false;
 +}
 +
  /* If the binary operation has both arguments equal, fold to @i. */
  static bool fold_xx_to_i(OptContext *ctx, TCGOp *op, uint64_t i)
  {
-@@ -XXX,XX +XXX,XX @@ static bool fold_and(OptContext *ctx, TCGOp *op)
+-    MemOp memop = get_memop(oi);
- static bool fold_andc(OptContext *ctx, TCGOp *op)
+-    TCGType addr_type = TARGET_LONG_BITS == 64 ? TCG_TYPE_I64 : TCG_TYPE_I32;
- {
++    TCGLabelQemuLdst *ldst;
-     if (fold_const2(ctx, op) ||
+     HostAddress h;
--        fold_xx_to_i(ctx, op, 0)) {
-+        fold_xx_to_i(ctx, op, 0) ||
+-    /* Byte swapping is left to middle-end expansion. */
-+        fold_ix_to_not(ctx, op, -1)) {
+-    tcg_debug_assert((memop & MO_BSWAP) == 0);
-         return true;
++    ldst = prepare_host_addr(s, &h, addr_reg, oi, false);
 +    tcg_out_qemu_st_direct(s, get_memop(oi), data_reg, h);
 -#ifdef CONFIG_SOFTMMU
 -    tcg_insn_unit *label_ptr;
 -
 -    tcg_out_tlb_read(s, addr_reg, memop, &label_ptr, get_mmuidx(oi), 0);
 -
 -    h = (HostAddress){
 -        .base = TCG_REG_X1,
 -        .index = addr_reg,
 -        .index_ext = addr_type
 -    };
 -    tcg_out_qemu_st_direct(s, memop, data_reg, h);
 -
 -    add_qemu_ldst_label(s, false, oi, data_type, data_reg, addr_reg,
 -                        s->code_ptr, label_ptr);
 -#else /* !CONFIG_SOFTMMU */
 -    unsigned a_bits = get_alignment_bits(memop);
 -    if (a_bits) {
 -        tcg_out_test_alignment(s, false, addr_reg, a_bits);
 +    if (ldst) {
 +        ldst->type = data_type;
 +        ldst->datalo_reg = data_reg;
 +        ldst->raddr = tcg_splitwx_to_rx(s->code_ptr);
      }
-     return false;
+-    if (USE_GUEST_BASE) {
-@@ -XXX,XX +XXX,XX @@ static bool fold_dup2(OptContext *ctx, TCGOp *op)
+-        h = (HostAddress){
+-            .base = TCG_REG_GUEST_BASE,
- static bool fold_eqv(OptContext *ctx, TCGOp *op)
+-            .index = addr_reg,
- {
+-            .index_ext = addr_type
--    return fold_const2(ctx, op);
+-        };
-+    if (fold_const2(ctx, op) ||
+-    } else {
-+        fold_xi_to_not(ctx, op, 0)) {
+-        h = (HostAddress){
-+        return true;
+-            .base = addr_reg,
-+    }
+-            .index = TCG_REG_XZR,
-+    return false;
+-            .index_ext = TCG_TYPE_I64
 -        };
 -    }
 -    tcg_out_qemu_st_direct(s, memop, data_reg, h);
 -#endif /* CONFIG_SOFTMMU */
  }
- static bool fold_extract(OptContext *ctx, TCGOp *op)
+ static const tcg_insn_unit *tb_ret_addr;
@@ -XXX,XX +XXX,XX @@ static bool fold_mulu2_i32(OptContext *ctx, TCGOp *op)
  static bool fold_nand(OptContext *ctx, TCGOp *op)
  {
 -    return fold_const2(ctx, op);
 +    if (fold_const2(ctx, op) ||
 +        fold_xi_to_not(ctx, op, -1)) {
 +        return true;
 +    }
 +    return false;
  }
  static bool fold_neg(OptContext *ctx, TCGOp *op)
@@ -XXX,XX +XXX,XX @@ static bool fold_neg(OptContext *ctx, TCGOp *op)
  static bool fold_nor(OptContext *ctx, TCGOp *op)
  {
 -    return fold_const2(ctx, op);
 +    if (fold_const2(ctx, op) ||
 +        fold_xi_to_not(ctx, op, 0)) {
 +        return true;
 +    }
 +    return false;
  }
  static bool fold_not(OptContext *ctx, TCGOp *op)
  {
 -    return fold_const1(ctx, op);
 +    if (fold_const1(ctx, op)) {
 +        return true;
 +    }
 +
 +    /* Because of fold_to_not, we want to always return true, via finish. */
 +    finish_folding(ctx, op);
 +    return true;
  }
  static bool fold_or(OptContext *ctx, TCGOp *op)
@@ -XXX,XX +XXX,XX @@ static bool fold_or(OptContext *ctx, TCGOp *op)
  static bool fold_orc(OptContext *ctx, TCGOp *op)
  {
 -    return fold_const2(ctx, op);
 +    if (fold_const2(ctx, op) ||
 +        fold_ix_to_not(ctx, op, 0)) {
 +        return true;
 +    }
 +    return false;
  }
  static bool fold_qemu_ld(OptContext *ctx, TCGOp *op)
@@ -XXX,XX +XXX,XX @@ static bool fold_sub2_i32(OptContext *ctx, TCGOp *op)
  static bool fold_xor(OptContext *ctx, TCGOp *op)
  {
      if (fold_const2(ctx, op) ||
 -        fold_xx_to_i(ctx, op, 0)) {
 +        fold_xx_to_i(ctx, op, 0) ||
 +        fold_xi_to_not(ctx, op, -1)) {
          return true;
      }
      return false;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
                  }
              }
              break;
 -        CASE_OP_32_64_VEC(xor):
 -        CASE_OP_32_64(nand):
 -            if (!arg_is_const(op->args[1])
 -                && arg_is_const(op->args[2])
 -                && arg_info(op->args[2])->val == -1) {
 -                i = 1;
 -                goto try_not;
 -            }
 -            break;
 -        CASE_OP_32_64(nor):
 -            if (!arg_is_const(op->args[1])
 -                && arg_is_const(op->args[2])
 -                && arg_info(op->args[2])->val == 0) {
 -                i = 1;
 -                goto try_not;
 -            }
 -            break;
 -        CASE_OP_32_64_VEC(andc):
 -            if (!arg_is_const(op->args[2])
 -                && arg_is_const(op->args[1])
 -                && arg_info(op->args[1])->val == -1) {
 -                i = 2;
 -                goto try_not;
 -            }
 -            break;
 -        CASE_OP_32_64_VEC(orc):
 -        CASE_OP_32_64(eqv):
 -            if (!arg_is_const(op->args[2])
 -                && arg_is_const(op->args[1])
 -                && arg_info(op->args[1])->val == 0) {
 -                i = 2;
 -                goto try_not;
 -            }
 -            break;
 -        try_not:
 -            {
 -                TCGOpcode not_op;
 -                bool have_not;
 -
 -                switch (ctx.type) {
 -                case TCG_TYPE_I32:
 -                    not_op = INDEX_op_not_i32;
 -                    have_not = TCG_TARGET_HAS_not_i32;
 -                    break;
 -                case TCG_TYPE_I64:
 -                    not_op = INDEX_op_not_i64;
 -                    have_not = TCG_TARGET_HAS_not_i64;
 -                    break;
 -                case TCG_TYPE_V64:
 -                case TCG_TYPE_V128:
 -                case TCG_TYPE_V256:
 -                    not_op = INDEX_op_not_vec;
 -                    have_not = TCG_TARGET_HAS_not_vec;
 -                    break;
 -                default:
 -                    g_assert_not_reached();
 -                }
 -                if (!have_not) {
 -                    break;
 -                }
 -                op->opc = not_op;
 -                reset_temp(op->args[0]);
 -                op->args[1] = op->args[i];
 -                continue;
 -            }
          default:
              break;
          }
 --
-.25.1
+.34.1

-[PULL 20/56] tcg/optimize: Split out fold_const{1,2}
+[PULL 14/53] tcg/arm: Introduce prepare_host_addr
-Split out a whole bunch of placeholder functions, which are
+Merge tcg_out_tlb_load, add_qemu_ldst_label, and some code that lived
-currently identical.  That won't last as more code gets moved.
+in both tcg_out_qemu_ld and tcg_out_qemu_st into one function that
+returns HostAddress and TCGLabelQemuLdst structures.
 Use CASE_32_64_VEC for some logical operators that previously
 missed the addition of vectors.
 Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
-Reviewed-by: Luis Pires <luis.pires@eldorado.org.br>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- tcg/optimize.c | 271 +++++++++++++++++++++++++++++++++++++++----------
+ tcg/arm/tcg-target.c.inc | 351 ++++++++++++++++++---------------------
-file changed, 219 insertions(+), 52 deletions(-)
+file changed, 159 insertions(+), 192 deletions(-)
-diff --git a/tcg/optimize.c b/tcg/optimize.c
+diff --git a/tcg/arm/tcg-target.c.inc b/tcg/arm/tcg-target.c.inc
 index XXXXXXX..XXXXXXX 100644
---- a/tcg/optimize.c
+--- a/tcg/arm/tcg-target.c.inc
-+++ b/tcg/optimize.c
++++ b/tcg/arm/tcg-target.c.inc
-@@ -XXX,XX +XXX,XX @@ static void finish_folding(OptContext *ctx, TCGOp *op)
+@@ -XXX,XX +XXX,XX @@ static TCGReg tcg_out_arg_reg64(TCGContext *s, TCGReg argreg,
      }
  }
-+/*
+-#define TLB_SHIFT    (CPU_TLB_ENTRY_BITS + CPU_TLB_BITS)
-+ * The fold_* functions return true when processing is complete,
+-
-+ * usually by folding the operation to a constant or to a copy,
+-/* We expect to use an 9-bit sign-magnitude negative offset from ENV.  */
-+ * and calling tcg_opt_gen_{mov,movi}.  They may do other things,
+-QEMU_BUILD_BUG_ON(TLB_MASK_TABLE_OFS(0) > 0);
-+ * like collect information about the value produced, for use in
+-QEMU_BUILD_BUG_ON(TLB_MASK_TABLE_OFS(0) < -256);
-+ * optimizing a subsequent operation.
+-
-+ *
+-/* These offsets are built into the LDRD below.  */
-+ * These first fold_* functions are all helpers, used by other
+-QEMU_BUILD_BUG_ON(offsetof(CPUTLBDescFast, mask) != 0);
-+ * folders for more specific operations.
+-QEMU_BUILD_BUG_ON(offsetof(CPUTLBDescFast, table) != 4);
-+ */
+-
-+
+-/* Load and compare a TLB entry, leaving the flags set.  Returns the register
-+static bool fold_const1(OptContext *ctx, TCGOp *op)
+-   containing the addend of the tlb entry.  Clobbers R0, R1, R2, TMP.  */
-+{
+-
-+    if (arg_is_const(op->args[1])) {
+-static TCGReg tcg_out_tlb_read(TCGContext *s, TCGReg addrlo, TCGReg addrhi,
-+        uint64_t t;
+-                               MemOp opc, int mem_index, bool is_load)
-+
+-{
-+        t = arg_info(op->args[1])->val;
+-    int cmp_off = (is_load ? offsetof(CPUTLBEntry, addr_read)
-+        t = do_constant_folding(op->opc, t, 0);
+-                   : offsetof(CPUTLBEntry, addr_write));
-+        return tcg_opt_gen_movi(ctx, op, op->args[0], t);
+-    int fast_off = TLB_MASK_TABLE_OFS(mem_index);
-+    }
+-    unsigned s_mask = (1 << (opc & MO_SIZE)) - 1;
-+    return false;
+-    unsigned a_mask = (1 << get_alignment_bits(opc)) - 1;
-+}
+-    TCGReg t_addr;
-+
+-
-+static bool fold_const2(OptContext *ctx, TCGOp *op)
+-    /* Load env_tlb(env)->f[mmu_idx].{mask,table} into {r0,r1}.  */
-+{
+-    tcg_out_ldrd_8(s, COND_AL, TCG_REG_R0, TCG_AREG0, fast_off);
-+    if (arg_is_const(op->args[1]) && arg_is_const(op->args[2])) {
+-
-+        uint64_t t1 = arg_info(op->args[1])->val;
+-    /* Extract the tlb index from the address into R0.  */
-+        uint64_t t2 = arg_info(op->args[2])->val;
+-    tcg_out_dat_reg(s, COND_AL, ARITH_AND, TCG_REG_R0, TCG_REG_R0, addrlo,
-+
+-                    SHIFT_IMM_LSR(TARGET_PAGE_BITS - CPU_TLB_ENTRY_BITS));
-+        t1 = do_constant_folding(op->opc, t1, t2);
+-
-+        return tcg_opt_gen_movi(ctx, op, op->args[0], t1);
+-    /*
-+    }
+-     * Add the tlb_table pointer, creating the CPUTLBEntry address in R1.
-+    return false;
+-     * Load the tlb comparator into R2/R3 and the fast path addend into R1.
-+}
+-     */
-+
+-    if (cmp_off == 0) {
-+/*
+-        if (TARGET_LONG_BITS == 64) {
-+ * These outermost fold_<op> functions are sorted alphabetically.
+-            tcg_out_ldrd_rwb(s, COND_AL, TCG_REG_R2, TCG_REG_R1, TCG_REG_R0);
-+ */
+-        } else {
-+
+-            tcg_out_ld32_rwb(s, COND_AL, TCG_REG_R2, TCG_REG_R1, TCG_REG_R0);
-+static bool fold_add(OptContext *ctx, TCGOp *op)
+-        }
-+{
+-    } else {
-+    return fold_const2(ctx, op);
+-        tcg_out_dat_reg(s, COND_AL, ARITH_ADD,
-+}
+-                        TCG_REG_R1, TCG_REG_R1, TCG_REG_R0, 0);
-+
+-        if (TARGET_LONG_BITS == 64) {
-+static bool fold_and(OptContext *ctx, TCGOp *op)
+-            tcg_out_ldrd_8(s, COND_AL, TCG_REG_R2, TCG_REG_R1, cmp_off);
-+{
+-        } else {
-+    return fold_const2(ctx, op);
+-            tcg_out_ld32_12(s, COND_AL, TCG_REG_R2, TCG_REG_R1, cmp_off);
-+}
+-        }
-+
+-    }
-+static bool fold_andc(OptContext *ctx, TCGOp *op)
+-
-+{
+-    /* Load the tlb addend.  */
-+    return fold_const2(ctx, op);
+-    tcg_out_ld32_12(s, COND_AL, TCG_REG_R1, TCG_REG_R1,
-+}
+-                    offsetof(CPUTLBEntry, addend));
-+
+-
- static bool fold_call(OptContext *ctx, TCGOp *op)
+-    /*
 -     * Check alignment, check comparators.
 -     * Do this in 2-4 insns.  Use MOVW for v7, if possible,
 -     * to reduce the number of sequential conditional instructions.
 -     * Almost all guests have at least 4k pages, which means that we need
 -     * to clear at least 9 bits even for an 8-byte memory, which means it
 -     * isn't worth checking for an immediate operand for BIC.
 -     *
 -     * For unaligned accesses, test the page of the last unit of alignment.
 -     * This leaves the least significant alignment bits unchanged, and of
 -     * course must be zero.
 -     */
 -    t_addr = addrlo;
 -    if (a_mask < s_mask) {
 -        t_addr = TCG_REG_R0;
 -        tcg_out_dat_imm(s, COND_AL, ARITH_ADD, t_addr,
 -                        addrlo, s_mask - a_mask);
 -    }
 -    if (use_armv7_instructions && TARGET_PAGE_BITS <= 16) {
 -        tcg_out_movi32(s, COND_AL, TCG_REG_TMP, ~(TARGET_PAGE_MASK | a_mask));
 -        tcg_out_dat_reg(s, COND_AL, ARITH_BIC, TCG_REG_TMP,
 -                        t_addr, TCG_REG_TMP, 0);
 -        tcg_out_dat_reg(s, COND_AL, ARITH_CMP, 0, TCG_REG_R2, TCG_REG_TMP, 0);
 -    } else {
 -        if (a_mask) {
 -            tcg_debug_assert(a_mask <= 0xff);
 -            tcg_out_dat_imm(s, COND_AL, ARITH_TST, 0, addrlo, a_mask);
 -        }
 -        tcg_out_dat_reg(s, COND_AL, ARITH_MOV, TCG_REG_TMP, 0, t_addr,
 -                        SHIFT_IMM_LSR(TARGET_PAGE_BITS));
 -        tcg_out_dat_reg(s, (a_mask ? COND_EQ : COND_AL), ARITH_CMP,
 -                        0, TCG_REG_R2, TCG_REG_TMP,
 -                        SHIFT_IMM_LSL(TARGET_PAGE_BITS));
 -    }
 -
 -    if (TARGET_LONG_BITS == 64) {
 -        tcg_out_dat_reg(s, COND_EQ, ARITH_CMP, 0, TCG_REG_R3, addrhi, 0);
 -    }
 -
 -    return TCG_REG_R1;
 -}
 -
 -/* Record the context of a call to the out of line helper code for the slow
 -   path for a load or store, so that we can later generate the correct
 -   helper code.  */
 -static void add_qemu_ldst_label(TCGContext *s, bool is_ld,
 -                                MemOpIdx oi, TCGType type,
 -                                TCGReg datalo, TCGReg datahi,
 -                                TCGReg addrlo, TCGReg addrhi,
 -                                tcg_insn_unit *raddr,
 -                                tcg_insn_unit *label_ptr)
 -{
 -    TCGLabelQemuLdst *label = new_ldst_label(s);
 -
 -    label->is_ld = is_ld;
 -    label->oi = oi;
 -    label->type = type;
 -    label->datalo_reg = datalo;
 -    label->datahi_reg = datahi;
 -    label->addrlo_reg = addrlo;
 -    label->addrhi_reg = addrhi;
 -    label->raddr = tcg_splitwx_to_rx(raddr);
 -    label->label_ptr[0] = label_ptr;
 -}
 -
  static bool tcg_out_qemu_ld_slow_path(TCGContext *s, TCGLabelQemuLdst *lb)
  {
-     TCGContext *s = ctx->tcg;
+     TCGReg argreg;
-@@ -XXX,XX +XXX,XX @@ static bool fold_call(OptContext *ctx, TCGOp *op)
+@@ -XXX,XX +XXX,XX @@ static bool tcg_out_qemu_st_slow_path(TCGContext *s, TCGLabelQemuLdst *lb)
      return true;
  }
+ #else
-+static bool fold_ctpop(OptContext *ctx, TCGOp *op)
+-
 -static void tcg_out_test_alignment(TCGContext *s, bool is_ld, TCGReg addrlo,
 -                                   TCGReg addrhi, unsigned a_bits)
 -{
 -    unsigned a_mask = (1 << a_bits) - 1;
 -    TCGLabelQemuLdst *label = new_ldst_label(s);
 -
 -    label->is_ld = is_ld;
 -    label->addrlo_reg = addrlo;
 -    label->addrhi_reg = addrhi;
 -
 -    /* We are expecting a_bits to max out at 7, and can easily support 8. */
 -    tcg_debug_assert(a_mask <= 0xff);
 -    /* tst addr, #mask */
 -    tcg_out_dat_imm(s, COND_AL, ARITH_TST, 0, addrlo, a_mask);
 -
 -    /* blne slow_path */
 -    label->label_ptr[0] = s->code_ptr;
 -    tcg_out_bl_imm(s, COND_NE, 0);
 -
 -    label->raddr = tcg_splitwx_to_rx(s->code_ptr);
 -}
 -
  static bool tcg_out_fail_alignment(TCGContext *s, TCGLabelQemuLdst *l)
  {
      if (!reloc_pc24(l->label_ptr[0], tcg_splitwx_to_rx(s->code_ptr))) {
@@ -XXX,XX +XXX,XX @@ static bool tcg_out_qemu_st_slow_path(TCGContext *s, TCGLabelQemuLdst *l)
  }
  #endif /* SOFTMMU */
 +static TCGLabelQemuLdst *prepare_host_addr(TCGContext *s, HostAddress *h,
 +                                           TCGReg addrlo, TCGReg addrhi,
 +                                           MemOpIdx oi, bool is_ld)
 +{
-+    return fold_const1(ctx, op);
++    TCGLabelQemuLdst *ldst = NULL;
 +    MemOp opc = get_memop(oi);
 +    MemOp a_bits = get_alignment_bits(opc);
 +    unsigned a_mask = (1 << a_bits) - 1;
 +
 +#ifdef CONFIG_SOFTMMU
 +    int mem_index = get_mmuidx(oi);
 +    int cmp_off = is_ld ? offsetof(CPUTLBEntry, addr_read)
 +                        : offsetof(CPUTLBEntry, addr_write);
 +    int fast_off = TLB_MASK_TABLE_OFS(mem_index);
 +    unsigned s_mask = (1 << (opc & MO_SIZE)) - 1;
 +    TCGReg t_addr;
 +
 +    ldst = new_ldst_label(s);
 +    ldst->is_ld = is_ld;
 +    ldst->oi = oi;
 +    ldst->addrlo_reg = addrlo;
 +    ldst->addrhi_reg = addrhi;
 +
 +    /* Load env_tlb(env)->f[mmu_idx].{mask,table} into {r0,r1}.  */
 +    QEMU_BUILD_BUG_ON(TLB_MASK_TABLE_OFS(0) > 0);
 +    QEMU_BUILD_BUG_ON(TLB_MASK_TABLE_OFS(0) < -256);
 +    QEMU_BUILD_BUG_ON(offsetof(CPUTLBDescFast, mask) != 0);
 +    QEMU_BUILD_BUG_ON(offsetof(CPUTLBDescFast, table) != 4);
 +    tcg_out_ldrd_8(s, COND_AL, TCG_REG_R0, TCG_AREG0, fast_off);
 +
 +    /* Extract the tlb index from the address into R0.  */
 +    tcg_out_dat_reg(s, COND_AL, ARITH_AND, TCG_REG_R0, TCG_REG_R0, addrlo,
 +                    SHIFT_IMM_LSR(TARGET_PAGE_BITS - CPU_TLB_ENTRY_BITS));
 +
 +    /*
 +     * Add the tlb_table pointer, creating the CPUTLBEntry address in R1.
 +     * Load the tlb comparator into R2/R3 and the fast path addend into R1.
 +     */
 +    if (cmp_off == 0) {
 +        if (TARGET_LONG_BITS == 64) {
 +            tcg_out_ldrd_rwb(s, COND_AL, TCG_REG_R2, TCG_REG_R1, TCG_REG_R0);
 +        } else {
 +            tcg_out_ld32_rwb(s, COND_AL, TCG_REG_R2, TCG_REG_R1, TCG_REG_R0);
 +        }
 +    } else {
 +        tcg_out_dat_reg(s, COND_AL, ARITH_ADD,
 +                        TCG_REG_R1, TCG_REG_R1, TCG_REG_R0, 0);
 +        if (TARGET_LONG_BITS == 64) {
 +            tcg_out_ldrd_8(s, COND_AL, TCG_REG_R2, TCG_REG_R1, cmp_off);
 +        } else {
 +            tcg_out_ld32_12(s, COND_AL, TCG_REG_R2, TCG_REG_R1, cmp_off);
 +        }
 +    }
 +
 +    /* Load the tlb addend.  */
 +    tcg_out_ld32_12(s, COND_AL, TCG_REG_R1, TCG_REG_R1,
 +                    offsetof(CPUTLBEntry, addend));
 +
 +    /*
 +     * Check alignment, check comparators.
 +     * Do this in 2-4 insns.  Use MOVW for v7, if possible,
 +     * to reduce the number of sequential conditional instructions.
 +     * Almost all guests have at least 4k pages, which means that we need
 +     * to clear at least 9 bits even for an 8-byte memory, which means it
 +     * isn't worth checking for an immediate operand for BIC.
 +     *
 +     * For unaligned accesses, test the page of the last unit of alignment.
 +     * This leaves the least significant alignment bits unchanged, and of
 +     * course must be zero.
 +     */
 +    t_addr = addrlo;
 +    if (a_mask < s_mask) {
 +        t_addr = TCG_REG_R0;
 +        tcg_out_dat_imm(s, COND_AL, ARITH_ADD, t_addr,
 +                        addrlo, s_mask - a_mask);
 +    }
 +    if (use_armv7_instructions && TARGET_PAGE_BITS <= 16) {
 +        tcg_out_movi32(s, COND_AL, TCG_REG_TMP, ~(TARGET_PAGE_MASK | a_mask));
 +        tcg_out_dat_reg(s, COND_AL, ARITH_BIC, TCG_REG_TMP,
 +                        t_addr, TCG_REG_TMP, 0);
 +        tcg_out_dat_reg(s, COND_AL, ARITH_CMP, 0, TCG_REG_R2, TCG_REG_TMP, 0);
 +    } else {
 +        if (a_mask) {
 +            tcg_debug_assert(a_mask <= 0xff);
 +            tcg_out_dat_imm(s, COND_AL, ARITH_TST, 0, addrlo, a_mask);
 +        }
 +        tcg_out_dat_reg(s, COND_AL, ARITH_MOV, TCG_REG_TMP, 0, t_addr,
 +                        SHIFT_IMM_LSR(TARGET_PAGE_BITS));
 +        tcg_out_dat_reg(s, (a_mask ? COND_EQ : COND_AL), ARITH_CMP,
 +                        0, TCG_REG_R2, TCG_REG_TMP,
 +                        SHIFT_IMM_LSL(TARGET_PAGE_BITS));
 +    }
 +
 +    if (TARGET_LONG_BITS == 64) {
 +        tcg_out_dat_reg(s, COND_EQ, ARITH_CMP, 0, TCG_REG_R3, addrhi, 0);
 +    }
 +
 +    *h = (HostAddress){
 +        .cond = COND_AL,
 +        .base = addrlo,
 +        .index = TCG_REG_R1,
 +        .index_scratch = true,
 +    };
 +#else
 +    if (a_mask) {
 +        ldst = new_ldst_label(s);
 +        ldst->is_ld = is_ld;
 +        ldst->oi = oi;
 +        ldst->addrlo_reg = addrlo;
 +        ldst->addrhi_reg = addrhi;
 +
 +        /* We are expecting a_bits to max out at 7 */
 +        tcg_debug_assert(a_mask <= 0xff);
 +        /* tst addr, #mask */
 +        tcg_out_dat_imm(s, COND_AL, ARITH_TST, 0, addrlo, a_mask);
 +    }
 +
 +    *h = (HostAddress){
 +        .cond = COND_AL,
 +        .base = addrlo,
 +        .index = guest_base ? TCG_REG_GUEST_BASE : -1,
 +        .index_scratch = false,
 +    };
 +#endif
 +
 +    return ldst;
 +}
 +
-+static bool fold_divide(OptContext *ctx, TCGOp *op)
+ static void tcg_out_qemu_ld_direct(TCGContext *s, MemOp opc, TCGReg datalo,
-+{
+                                    TCGReg datahi, HostAddress h)
 +    return fold_const2(ctx, op);
 +}
 +
 +static bool fold_eqv(OptContext *ctx, TCGOp *op)
 +{
 +    return fold_const2(ctx, op);
 +}
 +
 +static bool fold_exts(OptContext *ctx, TCGOp *op)
 +{
 +    return fold_const1(ctx, op);
 +}
 +
 +static bool fold_extu(OptContext *ctx, TCGOp *op)
 +{
 +    return fold_const1(ctx, op);
 +}
 +
  static bool fold_mb(OptContext *ctx, TCGOp *op)
  {
-     /* Eliminate duplicate and redundant fence instructions.  */
+@@ -XXX,XX +XXX,XX @@ static void tcg_out_qemu_ld(TCGContext *s, TCGReg datalo, TCGReg datahi,
-@@ -XXX,XX +XXX,XX @@ static bool fold_mb(OptContext *ctx, TCGOp *op)
+                             MemOpIdx oi, TCGType data_type)
-     return true;
+ {
      MemOp opc = get_memop(oi);
 +    TCGLabelQemuLdst *ldst;
      HostAddress h;
 -#ifdef CONFIG_SOFTMMU
 -    h.cond = COND_AL;
 -    h.base = addrlo;
 -    h.index_scratch = true;
 -    h.index = tcg_out_tlb_read(s, addrlo, addrhi, opc, get_mmuidx(oi), 1);
 +    ldst = prepare_host_addr(s, &h, addrlo, addrhi, oi, true);
 +    if (ldst) {
 +        ldst->type = data_type;
 +        ldst->datalo_reg = datalo;
 +        ldst->datahi_reg = datahi;
 -    /*
 -     * This a conditional BL only to load a pointer within this opcode into
 -     * LR for the slow path.  We will not be using the value for a tail call.
 -     */
 -    tcg_insn_unit *label_ptr = s->code_ptr;
 -    tcg_out_bl_imm(s, COND_NE, 0);
 +        /*
 +         * This a conditional BL only to load a pointer within this
 +         * opcode into LR for the slow path.  We will not be using
 +         * the value for a tail call.
 +         */
 +        ldst->label_ptr[0] = s->code_ptr;
 +        tcg_out_bl_imm(s, COND_NE, 0);
 -    tcg_out_qemu_ld_direct(s, opc, datalo, datahi, h);
 -
 -    add_qemu_ldst_label(s, true, oi, data_type, datalo, datahi,
 -                        addrlo, addrhi, s->code_ptr, label_ptr);
 -#else
 -    unsigned a_bits = get_alignment_bits(opc);
 -    if (a_bits) {
 -        tcg_out_test_alignment(s, true, addrlo, addrhi, a_bits);
 +        tcg_out_qemu_ld_direct(s, opc, datalo, datahi, h);
 +        ldst->raddr = tcg_splitwx_to_rx(s->code_ptr);
 +    } else {
 +        tcg_out_qemu_ld_direct(s, opc, datalo, datahi, h);
      }
 -
 -    h.cond = COND_AL;
 -    h.base = addrlo;
 -    h.index = guest_base ? TCG_REG_GUEST_BASE : -1;
 -    h.index_scratch = false;
 -    tcg_out_qemu_ld_direct(s, opc, datalo, datahi, h);
 -#endif
  }
-+static bool fold_mul(OptContext *ctx, TCGOp *op)
+ static void tcg_out_qemu_st_direct(TCGContext *s, MemOp opc, TCGReg datalo,
-+{
+@@ -XXX,XX +XXX,XX @@ static void tcg_out_qemu_st(TCGContext *s, TCGReg datalo, TCGReg datahi,
-+    return fold_const2(ctx, op);
+                             MemOpIdx oi, TCGType data_type)
 +}
 +
 +static bool fold_mul_highpart(OptContext *ctx, TCGOp *op)
 +{
 +    return fold_const2(ctx, op);
 +}
 +
 +static bool fold_nand(OptContext *ctx, TCGOp *op)
 +{
 +    return fold_const2(ctx, op);
 +}
 +
 +static bool fold_neg(OptContext *ctx, TCGOp *op)
 +{
 +    return fold_const1(ctx, op);
 +}
 +
 +static bool fold_nor(OptContext *ctx, TCGOp *op)
 +{
 +    return fold_const2(ctx, op);
 +}
 +
 +static bool fold_not(OptContext *ctx, TCGOp *op)
 +{
 +    return fold_const1(ctx, op);
 +}
 +
 +static bool fold_or(OptContext *ctx, TCGOp *op)
 +{
 +    return fold_const2(ctx, op);
 +}
 +
 +static bool fold_orc(OptContext *ctx, TCGOp *op)
 +{
 +    return fold_const2(ctx, op);
 +}
 +
  static bool fold_qemu_ld(OptContext *ctx, TCGOp *op)
  {
-     /* Opcodes that touch guest memory stop the mb optimization.  */
+     MemOp opc = get_memop(oi);
-@@ -XXX,XX +XXX,XX @@ static bool fold_qemu_st(OptContext *ctx, TCGOp *op)
++    TCGLabelQemuLdst *ldst;
-     return false;
+     HostAddress h;
 -#ifdef CONFIG_SOFTMMU
 -    h.cond = COND_EQ;
 -    h.base = addrlo;
 -    h.index_scratch = true;
 -    h.index = tcg_out_tlb_read(s, addrlo, addrhi, opc, get_mmuidx(oi), 0);
 -    tcg_out_qemu_st_direct(s, opc, datalo, datahi, h);
 +    ldst = prepare_host_addr(s, &h, addrlo, addrhi, oi, false);
 +    if (ldst) {
 +        ldst->type = data_type;
 +        ldst->datalo_reg = datalo;
 +        ldst->datahi_reg = datahi;
 -    /* The conditional call must come last, as we're going to return here.  */
 -    tcg_insn_unit *label_ptr = s->code_ptr;
 -    tcg_out_bl_imm(s, COND_NE, 0);
 -
 -    add_qemu_ldst_label(s, false, oi, data_type, datalo, datahi,
 -                        addrlo, addrhi, s->code_ptr, label_ptr);
 -#else
 -    unsigned a_bits = get_alignment_bits(opc);
 -
 -    h.cond = COND_AL;
 -    if (a_bits) {
 -        tcg_out_test_alignment(s, false, addrlo, addrhi, a_bits);
          h.cond = COND_EQ;
 -    }
 +        tcg_out_qemu_st_direct(s, opc, datalo, datahi, h);
 -    h.base = addrlo;
 -    h.index = guest_base ? TCG_REG_GUEST_BASE : -1;
 -    h.index_scratch = false;
 -    tcg_out_qemu_st_direct(s, opc, datalo, datahi, h);
 -#endif
 +        /* The conditional call is last, as we're going to return here. */
 +        ldst->label_ptr[0] = s->code_ptr;
 +        tcg_out_bl_imm(s, COND_NE, 0);
 +        ldst->raddr = tcg_splitwx_to_rx(s->code_ptr);
 +    } else {
 +        tcg_out_qemu_st_direct(s, opc, datalo, datahi, h);
 +    }
  }
-+static bool fold_remainder(OptContext *ctx, TCGOp *op)
+ static void tcg_out_epilogue(TCGContext *s);
 +{
 +    return fold_const2(ctx, op);
 +}
 +
 +static bool fold_shift(OptContext *ctx, TCGOp *op)
 +{
 +    return fold_const2(ctx, op);
 +}
 +
 +static bool fold_sub(OptContext *ctx, TCGOp *op)
 +{
 +    return fold_const2(ctx, op);
 +}
 +
 +static bool fold_xor(OptContext *ctx, TCGOp *op)
 +{
 +    return fold_const2(ctx, op);
 +}
 +
  /* Propagate constants and copies, fold constant expressions. */
  void tcg_optimize(TCGContext *s)
  {
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
              }
              break;
 -        CASE_OP_32_64(not):
 -        CASE_OP_32_64(neg):
 -        CASE_OP_32_64(ext8s):
 -        CASE_OP_32_64(ext8u):
 -        CASE_OP_32_64(ext16s):
 -        CASE_OP_32_64(ext16u):
 -        CASE_OP_32_64(ctpop):
 -        case INDEX_op_ext32s_i64:
 -        case INDEX_op_ext32u_i64:
 -        case INDEX_op_ext_i32_i64:
 -        case INDEX_op_extu_i32_i64:
 -        case INDEX_op_extrl_i64_i32:
 -        case INDEX_op_extrh_i64_i32:
 -            if (arg_is_const(op->args[1])) {
 -                tmp = do_constant_folding(opc, arg_info(op->args[1])->val, 0);
 -                tcg_opt_gen_movi(&ctx, op, op->args[0], tmp);
 -                continue;
 -            }
 -            break;
 -
          CASE_OP_32_64(bswap16):
          CASE_OP_32_64(bswap32):
          case INDEX_op_bswap64_i64:
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
              }
              break;
 -        CASE_OP_32_64(add):
 -        CASE_OP_32_64(sub):
 -        CASE_OP_32_64(mul):
 -        CASE_OP_32_64(or):
 -        CASE_OP_32_64(and):
 -        CASE_OP_32_64(xor):
 -        CASE_OP_32_64(shl):
 -        CASE_OP_32_64(shr):
 -        CASE_OP_32_64(sar):
 -        CASE_OP_32_64(rotl):
 -        CASE_OP_32_64(rotr):
 -        CASE_OP_32_64(andc):
 -        CASE_OP_32_64(orc):
 -        CASE_OP_32_64(eqv):
 -        CASE_OP_32_64(nand):
 -        CASE_OP_32_64(nor):
 -        CASE_OP_32_64(muluh):
 -        CASE_OP_32_64(mulsh):
 -        CASE_OP_32_64(div):
 -        CASE_OP_32_64(divu):
 -        CASE_OP_32_64(rem):
 -        CASE_OP_32_64(remu):
 -            if (arg_is_const(op->args[1]) && arg_is_const(op->args[2])) {
 -                tmp = do_constant_folding(opc, arg_info(op->args[1])->val,
 -                                          arg_info(op->args[2])->val);
 -                tcg_opt_gen_movi(&ctx, op, op->args[0], tmp);
 -                continue;
 -            }
 -            break;
 -
          CASE_OP_32_64(clz):
          CASE_OP_32_64(ctz):
              if (arg_is_const(op->args[1])) {
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
              }
              break;
 +        default:
 +            break;
 +
 +        /* ---------------------------------------------------------- */
 +        /* Sorted alphabetically by opcode as much as possible. */
 +
 +        CASE_OP_32_64_VEC(add):
 +            done = fold_add(&ctx, op);
 +            break;
 +        CASE_OP_32_64_VEC(and):
 +            done = fold_and(&ctx, op);
 +            break;
 +        CASE_OP_32_64_VEC(andc):
 +            done = fold_andc(&ctx, op);
 +            break;
 +        CASE_OP_32_64(ctpop):
 +            done = fold_ctpop(&ctx, op);
 +            break;
 +        CASE_OP_32_64(div):
 +        CASE_OP_32_64(divu):
 +            done = fold_divide(&ctx, op);
 +            break;
 +        CASE_OP_32_64(eqv):
 +            done = fold_eqv(&ctx, op);
 +            break;
 +        CASE_OP_32_64(ext8s):
 +        CASE_OP_32_64(ext16s):
 +        case INDEX_op_ext32s_i64:
 +        case INDEX_op_ext_i32_i64:
 +            done = fold_exts(&ctx, op);
 +            break;
 +        CASE_OP_32_64(ext8u):
 +        CASE_OP_32_64(ext16u):
 +        case INDEX_op_ext32u_i64:
 +        case INDEX_op_extu_i32_i64:
 +        case INDEX_op_extrl_i64_i32:
 +        case INDEX_op_extrh_i64_i32:
 +            done = fold_extu(&ctx, op);
 +            break;
          case INDEX_op_mb:
              done = fold_mb(&ctx, op);
              break;
 +        CASE_OP_32_64(mul):
 +            done = fold_mul(&ctx, op);
 +            break;
 +        CASE_OP_32_64(mulsh):
 +        CASE_OP_32_64(muluh):
 +            done = fold_mul_highpart(&ctx, op);
 +            break;
 +        CASE_OP_32_64(nand):
 +            done = fold_nand(&ctx, op);
 +            break;
 +        CASE_OP_32_64(neg):
 +            done = fold_neg(&ctx, op);
 +            break;
 +        CASE_OP_32_64(nor):
 +            done = fold_nor(&ctx, op);
 +            break;
 +        CASE_OP_32_64_VEC(not):
 +            done = fold_not(&ctx, op);
 +            break;
 +        CASE_OP_32_64_VEC(or):
 +            done = fold_or(&ctx, op);
 +            break;
 +        CASE_OP_32_64_VEC(orc):
 +            done = fold_orc(&ctx, op);
 +            break;
          case INDEX_op_qemu_ld_i32:
          case INDEX_op_qemu_ld_i64:
              done = fold_qemu_ld(&ctx, op);
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
          case INDEX_op_qemu_st_i64:
              done = fold_qemu_st(&ctx, op);
              break;
 -
 -        default:
 +        CASE_OP_32_64(rem):
 +        CASE_OP_32_64(remu):
 +            done = fold_remainder(&ctx, op);
 +            break;
 +        CASE_OP_32_64(rotl):
 +        CASE_OP_32_64(rotr):
 +        CASE_OP_32_64(sar):
 +        CASE_OP_32_64(shl):
 +        CASE_OP_32_64(shr):
 +            done = fold_shift(&ctx, op);
 +            break;
 +        CASE_OP_32_64_VEC(sub):
 +            done = fold_sub(&ctx, op);
 +            break;
 +        CASE_OP_32_64_VEC(xor):
 +            done = fold_xor(&ctx, op);
              break;
          }
 --
-.25.1
+.34.1

-[PULL 37/56] tcg/optimize: Split out fold_xi_to_i
+[PULL 15/53] tcg/loongarch64: Introduce prepare_host_addr
-Pull the "op r, a, 0 => movi r, 0" optimization into a function,
+Merge tcg_out_tlb_load, add_qemu_ldst_label, tcg_out_test_alignment,
-and use it in the outer opcode fold functions.
+tcg_out_zext_addr_if_32_bit, and some code that lived in both
 tcg_out_qemu_ld and tcg_out_qemu_st into one function that returns
 HostAddress and TCGLabelQemuLdst structures.
-Reviewed-by: Luis Pires <luis.pires@eldorado.org.br>
+Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
 Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- tcg/optimize.c | 38 ++++++++++++++++++++------------------
+ tcg/loongarch64/tcg-target.c.inc | 255 +++++++++++++------------------
-file changed, 20 insertions(+), 18 deletions(-)
+file changed, 105 insertions(+), 150 deletions(-)
-diff --git a/tcg/optimize.c b/tcg/optimize.c
+diff --git a/tcg/loongarch64/tcg-target.c.inc b/tcg/loongarch64/tcg-target.c.inc
 index XXXXXXX..XXXXXXX 100644
---- a/tcg/optimize.c
+--- a/tcg/loongarch64/tcg-target.c.inc
-+++ b/tcg/optimize.c
++++ b/tcg/loongarch64/tcg-target.c.inc
-@@ -XXX,XX +XXX,XX @@ static bool fold_const2(OptContext *ctx, TCGOp *op)
+@@ -XXX,XX +XXX,XX @@ static void * const qemu_st_helpers[4] = {
-     return false;
+     [MO_64] = helper_le_stq_mmu,
  };
 -/* We expect to use a 12-bit negative offset from ENV.  */
 -QEMU_BUILD_BUG_ON(TLB_MASK_TABLE_OFS(0) > 0);
 -QEMU_BUILD_BUG_ON(TLB_MASK_TABLE_OFS(0) < -(1 << 11));
 -
  static bool tcg_out_goto(TCGContext *s, const tcg_insn_unit *target)
  {
      tcg_out_opc_b(s, 0);
      return reloc_br_sd10k16(s->code_ptr - 1, target);
  }
-+/* If the binary operation has second argument @i, fold to @i. */
+-/*
-+static bool fold_xi_to_i(OptContext *ctx, TCGOp *op, uint64_t i)
+- * Emits common code for TLB addend lookup, that eventually loads the
 - * addend in TCG_REG_TMP2.
 - */
 -static void tcg_out_tlb_load(TCGContext *s, TCGReg addrl, MemOpIdx oi,
 -                             tcg_insn_unit **label_ptr, bool is_load)
 -{
 -    MemOp opc = get_memop(oi);
 -    unsigned s_bits = opc & MO_SIZE;
 -    unsigned a_bits = get_alignment_bits(opc);
 -    tcg_target_long compare_mask;
 -    int mem_index = get_mmuidx(oi);
 -    int fast_ofs = TLB_MASK_TABLE_OFS(mem_index);
 -    int mask_ofs = fast_ofs + offsetof(CPUTLBDescFast, mask);
 -    int table_ofs = fast_ofs + offsetof(CPUTLBDescFast, table);
 -
 -    tcg_out_ld(s, TCG_TYPE_PTR, TCG_REG_TMP0, TCG_AREG0, mask_ofs);
 -    tcg_out_ld(s, TCG_TYPE_PTR, TCG_REG_TMP1, TCG_AREG0, table_ofs);
 -
 -    tcg_out_opc_srli_d(s, TCG_REG_TMP2, addrl,
 -                    TARGET_PAGE_BITS - CPU_TLB_ENTRY_BITS);
 -    tcg_out_opc_and(s, TCG_REG_TMP2, TCG_REG_TMP2, TCG_REG_TMP0);
 -    tcg_out_opc_add_d(s, TCG_REG_TMP2, TCG_REG_TMP2, TCG_REG_TMP1);
 -
 -    /* Load the tlb comparator and the addend.  */
 -    tcg_out_ld(s, TCG_TYPE_TL, TCG_REG_TMP0, TCG_REG_TMP2,
 -               is_load ? offsetof(CPUTLBEntry, addr_read)
 -               : offsetof(CPUTLBEntry, addr_write));
 -    tcg_out_ld(s, TCG_TYPE_PTR, TCG_REG_TMP2, TCG_REG_TMP2,
 -               offsetof(CPUTLBEntry, addend));
 -
 -    /* We don't support unaligned accesses.  */
 -    if (a_bits < s_bits) {
 -        a_bits = s_bits;
 -    }
 -    /* Clear the non-page, non-alignment bits from the address.  */
 -    compare_mask = (tcg_target_long)TARGET_PAGE_MASK | ((1 << a_bits) - 1);
 -    tcg_out_movi(s, TCG_TYPE_TL, TCG_REG_TMP1, compare_mask);
 -    tcg_out_opc_and(s, TCG_REG_TMP1, TCG_REG_TMP1, addrl);
 -
 -    /* Compare masked address with the TLB entry.  */
 -    label_ptr[0] = s->code_ptr;
 -    tcg_out_opc_bne(s, TCG_REG_TMP0, TCG_REG_TMP1, 0);
 -
 -    /* TLB Hit - addend in TCG_REG_TMP2, ready for use.  */
 -}
 -
 -static void add_qemu_ldst_label(TCGContext *s, int is_ld, MemOpIdx oi,
 -                                TCGType type,
 -                                TCGReg datalo, TCGReg addrlo,
 -                                void *raddr, tcg_insn_unit **label_ptr)
 -{
 -    TCGLabelQemuLdst *label = new_ldst_label(s);
 -
 -    label->is_ld = is_ld;
 -    label->oi = oi;
 -    label->type = type;
 -    label->datalo_reg = datalo;
 -    label->datahi_reg = 0; /* unused */
 -    label->addrlo_reg = addrlo;
 -    label->addrhi_reg = 0; /* unused */
 -    label->raddr = tcg_splitwx_to_rx(raddr);
 -    label->label_ptr[0] = label_ptr[0];
 -}
 -
  static bool tcg_out_qemu_ld_slow_path(TCGContext *s, TCGLabelQemuLdst *l)
  {
      MemOpIdx oi = l->oi;
@@ -XXX,XX +XXX,XX @@ static bool tcg_out_qemu_st_slow_path(TCGContext *s, TCGLabelQemuLdst *l)
      return tcg_out_goto(s, l->raddr);
  }
  #else
 -
 -/*
 - * Alignment helpers for user-mode emulation
 - */
 -
 -static void tcg_out_test_alignment(TCGContext *s, bool is_ld, TCGReg addr_reg,
 -                                   unsigned a_bits)
 -{
 -    TCGLabelQemuLdst *l = new_ldst_label(s);
 -
 -    l->is_ld = is_ld;
 -    l->addrlo_reg = addr_reg;
 -
 -    /*
 -     * Without micro-architecture details, we don't know which of bstrpick or
 -     * andi is faster, so use bstrpick as it's not constrained by imm field
 -     * width. (Not to say alignments >= 2^12 are going to happen any time
 -     * soon, though)
 -     */
 -    tcg_out_opc_bstrpick_d(s, TCG_REG_TMP1, addr_reg, 0, a_bits - 1);
 -
 -    l->label_ptr[0] = s->code_ptr;
 -    tcg_out_opc_bne(s, TCG_REG_TMP1, TCG_REG_ZERO, 0);
 -
 -    l->raddr = tcg_splitwx_to_rx(s->code_ptr);
 -}
 -
  static bool tcg_out_fail_alignment(TCGContext *s, TCGLabelQemuLdst *l)
  {
      /* resolve label address */
@@ -XXX,XX +XXX,XX @@ static bool tcg_out_qemu_st_slow_path(TCGContext *s, TCGLabelQemuLdst *l)
  #endif /* CONFIG_SOFTMMU */
 -/*
 - * `ext32u` the address register into the temp register given,
 - * if target is 32-bit, no-op otherwise.
 - *
 - * Returns the address register ready for use with TLB addend.
 - */
 -static TCGReg tcg_out_zext_addr_if_32_bit(TCGContext *s,
 -                                          TCGReg addr, TCGReg tmp)
 -{
 -    if (TARGET_LONG_BITS == 32) {
 -        tcg_out_ext32u(s, tmp, addr);
 -        return tmp;
 -    }
 -    return addr;
 -}
 -
  typedef struct {
      TCGReg base;
      TCGReg index;
  } HostAddress;
 +/*
 + * For softmmu, perform the TLB load and compare.
 + * For useronly, perform any required alignment tests.
 + * In both cases, return a TCGLabelQemuLdst structure if the slow path
 + * is required and fill in @h with the host address for the fast path.
 + */
 +static TCGLabelQemuLdst *prepare_host_addr(TCGContext *s, HostAddress *h,
 +                                           TCGReg addr_reg, MemOpIdx oi,
 +                                           bool is_ld)
 +{
-+    if (arg_is_const(op->args[2]) && arg_info(op->args[2])->val == i) {
++    TCGLabelQemuLdst *ldst = NULL;
-+        return tcg_opt_gen_movi(ctx, op, op->args[0], i);
++    MemOp opc = get_memop(oi);
 +    unsigned a_bits = get_alignment_bits(opc);
 +
 +#ifdef CONFIG_SOFTMMU
 +    unsigned s_bits = opc & MO_SIZE;
 +    int mem_index = get_mmuidx(oi);
 +    int fast_ofs = TLB_MASK_TABLE_OFS(mem_index);
 +    int mask_ofs = fast_ofs + offsetof(CPUTLBDescFast, mask);
 +    int table_ofs = fast_ofs + offsetof(CPUTLBDescFast, table);
 +    tcg_target_long compare_mask;
 +
 +    ldst = new_ldst_label(s);
 +    ldst->is_ld = is_ld;
 +    ldst->oi = oi;
 +    ldst->addrlo_reg = addr_reg;
 +
 +    QEMU_BUILD_BUG_ON(TLB_MASK_TABLE_OFS(0) > 0);
 +    QEMU_BUILD_BUG_ON(TLB_MASK_TABLE_OFS(0) < -(1 << 11));
 +    tcg_out_ld(s, TCG_TYPE_PTR, TCG_REG_TMP0, TCG_AREG0, mask_ofs);
 +    tcg_out_ld(s, TCG_TYPE_PTR, TCG_REG_TMP1, TCG_AREG0, table_ofs);
 +
 +    tcg_out_opc_srli_d(s, TCG_REG_TMP2, addr_reg,
 +                    TARGET_PAGE_BITS - CPU_TLB_ENTRY_BITS);
 +    tcg_out_opc_and(s, TCG_REG_TMP2, TCG_REG_TMP2, TCG_REG_TMP0);
 +    tcg_out_opc_add_d(s, TCG_REG_TMP2, TCG_REG_TMP2, TCG_REG_TMP1);
 +
 +    /* Load the tlb comparator and the addend.  */
 +    tcg_out_ld(s, TCG_TYPE_TL, TCG_REG_TMP0, TCG_REG_TMP2,
 +               is_ld ? offsetof(CPUTLBEntry, addr_read)
 +                     : offsetof(CPUTLBEntry, addr_write));
 +    tcg_out_ld(s, TCG_TYPE_PTR, TCG_REG_TMP2, TCG_REG_TMP2,
 +               offsetof(CPUTLBEntry, addend));
 +
 +    /* We don't support unaligned accesses.  */
 +    if (a_bits < s_bits) {
 +        a_bits = s_bits;
 +    }
-+    return false;
++    /* Clear the non-page, non-alignment bits from the address.  */
 +    compare_mask = (tcg_target_long)TARGET_PAGE_MASK | ((1 << a_bits) - 1);
 +    tcg_out_movi(s, TCG_TYPE_TL, TCG_REG_TMP1, compare_mask);
 +    tcg_out_opc_and(s, TCG_REG_TMP1, TCG_REG_TMP1, addr_reg);
 +
 +    /* Compare masked address with the TLB entry.  */
 +    ldst->label_ptr[0] = s->code_ptr;
 +    tcg_out_opc_bne(s, TCG_REG_TMP0, TCG_REG_TMP1, 0);
 +
 +    h->index = TCG_REG_TMP2;
 +#else
 +    if (a_bits) {
 +        ldst = new_ldst_label(s);
 +
 +        ldst->is_ld = is_ld;
 +        ldst->oi = oi;
 +        ldst->addrlo_reg = addr_reg;
 +
 +        /*
 +         * Without micro-architecture details, we don't know which of
 +         * bstrpick or andi is faster, so use bstrpick as it's not
 +         * constrained by imm field width. Not to say alignments >= 2^12
 +         * are going to happen any time soon.
 +         */
 +        tcg_out_opc_bstrpick_d(s, TCG_REG_TMP1, addr_reg, 0, a_bits - 1);
 +
 +        ldst->label_ptr[0] = s->code_ptr;
 +        tcg_out_opc_bne(s, TCG_REG_TMP1, TCG_REG_ZERO, 0);
 +    }
 +
 +    h->index = USE_GUEST_BASE ? TCG_GUEST_BASE_REG : TCG_REG_ZERO;
 +#endif
 +
 +    if (TARGET_LONG_BITS == 32) {
 +        h->base = TCG_REG_TMP0;
 +        tcg_out_ext32u(s, h->base, addr_reg);
 +    } else {
 +        h->base = addr_reg;
 +    }
 +
 +    return ldst;
 +}
 +
- /* If the binary operation has both arguments equal, fold to @i. */
+ static void tcg_out_qemu_ld_indexed(TCGContext *s, MemOp opc, TCGType type,
- static bool fold_xx_to_i(OptContext *ctx, TCGOp *op, uint64_t i)
+                                     TCGReg rd, HostAddress h)
  {
-@@ -XXX,XX +XXX,XX @@ static bool fold_add2_i32(OptContext *ctx, TCGOp *op)
+@@ -XXX,XX +XXX,XX @@ static void tcg_out_qemu_ld_indexed(TCGContext *s, MemOp opc, TCGType type,
- static bool fold_and(OptContext *ctx, TCGOp *op)
+ static void tcg_out_qemu_ld(TCGContext *s, TCGReg data_reg, TCGReg addr_reg,
- {
+                             MemOpIdx oi, TCGType data_type)
-     if (fold_const2(ctx, op) ||
+ {
-+        fold_xi_to_i(ctx, op, 0) ||
+-    MemOp opc = get_memop(oi);
-         fold_xx_to_x(ctx, op)) {
++    TCGLabelQemuLdst *ldst;
-         return true;
+     HostAddress h;
 -#ifdef CONFIG_SOFTMMU
 -    tcg_insn_unit *label_ptr[1];
 +    ldst = prepare_host_addr(s, &h, addr_reg, oi, true);
 +    tcg_out_qemu_ld_indexed(s, get_memop(oi), data_type, data_reg, h);
 -    tcg_out_tlb_load(s, addr_reg, oi, label_ptr, 1);
 -    h.index = TCG_REG_TMP2;
 -#else
 -    unsigned a_bits = get_alignment_bits(opc);
 -    if (a_bits) {
 -        tcg_out_test_alignment(s, true, addr_reg, a_bits);
 +    if (ldst) {
 +        ldst->type = data_type;
 +        ldst->datalo_reg = data_reg;
 +        ldst->raddr = tcg_splitwx_to_rx(s->code_ptr);
      }
-@@ -XXX,XX +XXX,XX @@ static bool fold_movcond(OptContext *ctx, TCGOp *op)
+-    h.index = USE_GUEST_BASE ? TCG_GUEST_BASE_REG : TCG_REG_ZERO;
+-#endif
- static bool fold_mul(OptContext *ctx, TCGOp *op)
+-
- {
+-    h.base = tcg_out_zext_addr_if_32_bit(s, addr_reg, TCG_REG_TMP0);
--    return fold_const2(ctx, op);
+-    tcg_out_qemu_ld_indexed(s, opc, data_type, data_reg, h);
-+    if (fold_const2(ctx, op) ||
+-
-+        fold_xi_to_i(ctx, op, 0)) {
+-#ifdef CONFIG_SOFTMMU
-+        return true;
+-    add_qemu_ldst_label(s, true, oi, data_type, data_reg, addr_reg,
-+    }
+-                        s->code_ptr, label_ptr);
-+    return false;
+-#endif
  }
- static bool fold_mul_highpart(OptContext *ctx, TCGOp *op)
+ static void tcg_out_qemu_st_indexed(TCGContext *s, MemOp opc,
- {
+@@ -XXX,XX +XXX,XX @@ static void tcg_out_qemu_st_indexed(TCGContext *s, MemOp opc,
--    return fold_const2(ctx, op);
+ static void tcg_out_qemu_st(TCGContext *s, TCGReg data_reg, TCGReg addr_reg,
-+    if (fold_const2(ctx, op) ||
+                             MemOpIdx oi, TCGType data_type)
-+        fold_xi_to_i(ctx, op, 0)) {
+ {
-+        return true;
+-    MemOp opc = get_memop(oi);
-+    }
++    TCGLabelQemuLdst *ldst;
-+    return false;
+     HostAddress h;
 -#ifdef CONFIG_SOFTMMU
 -    tcg_insn_unit *label_ptr[1];
 +    ldst = prepare_host_addr(s, &h, addr_reg, oi, false);
 +    tcg_out_qemu_st_indexed(s, get_memop(oi), data_reg, h);
 -    tcg_out_tlb_load(s, addr_reg, oi, label_ptr, 0);
 -    h.index = TCG_REG_TMP2;
 -#else
 -    unsigned a_bits = get_alignment_bits(opc);
 -    if (a_bits) {
 -        tcg_out_test_alignment(s, false, addr_reg, a_bits);
 +    if (ldst) {
 +        ldst->type = data_type;
 +        ldst->datalo_reg = data_reg;
 +        ldst->raddr = tcg_splitwx_to_rx(s->code_ptr);
      }
 -    h.index = USE_GUEST_BASE ? TCG_GUEST_BASE_REG : TCG_REG_ZERO;
 -#endif
 -
 -    h.base = tcg_out_zext_addr_if_32_bit(s, addr_reg, TCG_REG_TMP0);
 -    tcg_out_qemu_st_indexed(s, opc, data_reg, h);
 -
 -#ifdef CONFIG_SOFTMMU
 -    add_qemu_ldst_label(s, false, oi, data_type, data_reg, addr_reg,
 -                        s->code_ptr, label_ptr);
 -#endif
  }
- static bool fold_mulu2_i32(OptContext *ctx, TCGOp *op)
+ /*
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
              continue;
          }
 -        /* Simplify expression for "op r, a, 0 => movi r, 0" cases */
 -        switch (opc) {
 -        CASE_OP_32_64_VEC(and):
 -        CASE_OP_32_64_VEC(mul):
 -        CASE_OP_32_64(muluh):
 -        CASE_OP_32_64(mulsh):
 -            if (arg_is_const(op->args[2])
 -                && arg_info(op->args[2])->val == 0) {
 -                tcg_opt_gen_movi(&ctx, op, op->args[0], 0);
 -                continue;
 -            }
 -            break;
 -        default:
 -            break;
 -        }
 -
          /*
           * Process each opcode.
           * Sorted alphabetically by opcode as much as possible.
 --
-.25.1
+.34.1

-[PULL 41/56] tcg/optimize: Split out fold_xi_to_x
+[PULL 16/53] tcg/mips: Introduce prepare_host_addr
-Pull the "op r, a, i => mov r, a" optimization into a function,
+Merge tcg_out_tlb_load, add_qemu_ldst_label, tcg_out_test_alignment,
-and use them in the outer-most logical operations.
+and some code that lived in both tcg_out_qemu_ld and tcg_out_qemu_st
 into one function that returns HostAddress and TCGLabelQemuLdst structures.
-Reviewed-by: Luis Pires <luis.pires@eldorado.org.br>
+Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- tcg/optimize.c | 61 +++++++++++++++++++++-----------------------------
+ tcg/mips/tcg-target.c.inc | 404 ++++++++++++++++----------------------
-file changed, 26 insertions(+), 35 deletions(-)
+file changed, 172 insertions(+), 232 deletions(-)
-diff --git a/tcg/optimize.c b/tcg/optimize.c
+diff --git a/tcg/mips/tcg-target.c.inc b/tcg/mips/tcg-target.c.inc
 index XXXXXXX..XXXXXXX 100644
---- a/tcg/optimize.c
+--- a/tcg/mips/tcg-target.c.inc
-+++ b/tcg/optimize.c
++++ b/tcg/mips/tcg-target.c.inc
-@@ -XXX,XX +XXX,XX @@ static bool fold_xi_to_i(OptContext *ctx, TCGOp *op, uint64_t i)
+@@ -XXX,XX +XXX,XX @@ static int tcg_out_call_iarg_reg2(TCGContext *s, int i, TCGReg al, TCGReg ah)
-     return false;
+     return i;
  }
-+/* If the binary operation has second argument @i, fold to identity. */
+-/* We expect to use a 16-bit negative offset from ENV.  */
-+static bool fold_xi_to_x(OptContext *ctx, TCGOp *op, uint64_t i)
+-QEMU_BUILD_BUG_ON(TLB_MASK_TABLE_OFS(0) > 0);
 -QEMU_BUILD_BUG_ON(TLB_MASK_TABLE_OFS(0) < -32768);
 -
 -/*
 - * Perform the tlb comparison operation.
 - * The complete host address is placed in BASE.
 - * Clobbers TMP0, TMP1, TMP2, TMP3.
 - */
 -static void tcg_out_tlb_load(TCGContext *s, TCGReg base, TCGReg addrl,
 -                             TCGReg addrh, MemOpIdx oi,
 -                             tcg_insn_unit *label_ptr[2], bool is_load)
 -{
 -    MemOp opc = get_memop(oi);
 -    unsigned a_bits = get_alignment_bits(opc);
 -    unsigned s_bits = opc & MO_SIZE;
 -    unsigned a_mask = (1 << a_bits) - 1;
 -    unsigned s_mask = (1 << s_bits) - 1;
 -    int mem_index = get_mmuidx(oi);
 -    int fast_off = TLB_MASK_TABLE_OFS(mem_index);
 -    int mask_off = fast_off + offsetof(CPUTLBDescFast, mask);
 -    int table_off = fast_off + offsetof(CPUTLBDescFast, table);
 -    int add_off = offsetof(CPUTLBEntry, addend);
 -    int cmp_off = (is_load ? offsetof(CPUTLBEntry, addr_read)
 -                   : offsetof(CPUTLBEntry, addr_write));
 -    target_ulong tlb_mask;
 -
 -    /* Load tlb_mask[mmu_idx] and tlb_table[mmu_idx].  */
 -    tcg_out_ld(s, TCG_TYPE_PTR, TCG_TMP0, TCG_AREG0, mask_off);
 -    tcg_out_ld(s, TCG_TYPE_PTR, TCG_TMP1, TCG_AREG0, table_off);
 -
 -    /* Extract the TLB index from the address into TMP3.  */
 -    tcg_out_opc_sa(s, ALIAS_TSRL, TCG_TMP3, addrl,
 -                   TARGET_PAGE_BITS - CPU_TLB_ENTRY_BITS);
 -    tcg_out_opc_reg(s, OPC_AND, TCG_TMP3, TCG_TMP3, TCG_TMP0);
 -
 -    /* Add the tlb_table pointer, creating the CPUTLBEntry address in TMP3.  */
 -    tcg_out_opc_reg(s, ALIAS_PADD, TCG_TMP3, TCG_TMP3, TCG_TMP1);
 -
 -    /* Load the (low-half) tlb comparator.  */
 -    if (TCG_TARGET_REG_BITS < TARGET_LONG_BITS) {
 -        tcg_out_ldst(s, OPC_LW, TCG_TMP0, TCG_TMP3, cmp_off + LO_OFF);
 -    } else {
 -        tcg_out_ldst(s, (TARGET_LONG_BITS == 64 ? OPC_LD
 -                         : TCG_TARGET_REG_BITS == 64 ? OPC_LWU : OPC_LW),
 -                     TCG_TMP0, TCG_TMP3, cmp_off);
 -    }
 -
 -    /* Zero extend a 32-bit guest address for a 64-bit host. */
 -    if (TCG_TARGET_REG_BITS > TARGET_LONG_BITS) {
 -        tcg_out_ext32u(s, base, addrl);
 -        addrl = base;
 -    }
 -
 -    /*
 -     * Mask the page bits, keeping the alignment bits to compare against.
 -     * For unaligned accesses, compare against the end of the access to
 -     * verify that it does not cross a page boundary.
 -     */
 -    tlb_mask = (target_ulong)TARGET_PAGE_MASK | a_mask;
 -    tcg_out_movi(s, TCG_TYPE_I32, TCG_TMP1, tlb_mask);
 -    if (a_mask >= s_mask) {
 -        tcg_out_opc_reg(s, OPC_AND, TCG_TMP1, TCG_TMP1, addrl);
 -    } else {
 -        tcg_out_opc_imm(s, ALIAS_PADDI, TCG_TMP2, addrl, s_mask - a_mask);
 -        tcg_out_opc_reg(s, OPC_AND, TCG_TMP1, TCG_TMP1, TCG_TMP2);
 -    }
 -
 -    if (TCG_TARGET_REG_BITS >= TARGET_LONG_BITS) {
 -        /* Load the tlb addend for the fast path.  */
 -        tcg_out_ld(s, TCG_TYPE_PTR, TCG_TMP2, TCG_TMP3, add_off);
 -    }
 -
 -    label_ptr[0] = s->code_ptr;
 -    tcg_out_opc_br(s, OPC_BNE, TCG_TMP1, TCG_TMP0);
 -
 -    /* Load and test the high half tlb comparator.  */
 -    if (TCG_TARGET_REG_BITS < TARGET_LONG_BITS) {
 -        /* delay slot */
 -        tcg_out_ldst(s, OPC_LW, TCG_TMP0, TCG_TMP3, cmp_off + HI_OFF);
 -
 -        /* Load the tlb addend for the fast path.  */
 -        tcg_out_ld(s, TCG_TYPE_PTR, TCG_TMP2, TCG_TMP3, add_off);
 -
 -        label_ptr[1] = s->code_ptr;
 -        tcg_out_opc_br(s, OPC_BNE, addrh, TCG_TMP0);
 -    }
 -
 -    /* delay slot */
 -    tcg_out_opc_reg(s, ALIAS_PADD, base, TCG_TMP2, addrl);
 -}
 -
 -static void add_qemu_ldst_label(TCGContext *s, int is_ld, MemOpIdx oi,
 -                                TCGType ext,
 -                                TCGReg datalo, TCGReg datahi,
 -                                TCGReg addrlo, TCGReg addrhi,
 -                                void *raddr, tcg_insn_unit *label_ptr[2])
 -{
 -    TCGLabelQemuLdst *label = new_ldst_label(s);
 -
 -    label->is_ld = is_ld;
 -    label->oi = oi;
 -    label->type = ext;
 -    label->datalo_reg = datalo;
 -    label->datahi_reg = datahi;
 -    label->addrlo_reg = addrlo;
 -    label->addrhi_reg = addrhi;
 -    label->raddr = tcg_splitwx_to_rx(raddr);
 -    label->label_ptr[0] = label_ptr[0];
 -    if (TCG_TARGET_REG_BITS < TARGET_LONG_BITS) {
 -        label->label_ptr[1] = label_ptr[1];
 -    }
 -}
 -
  static bool tcg_out_qemu_ld_slow_path(TCGContext *s, TCGLabelQemuLdst *l)
  {
      const tcg_insn_unit *tgt_rx = tcg_splitwx_to_rx(s->code_ptr);
@@ -XXX,XX +XXX,XX @@ static bool tcg_out_qemu_st_slow_path(TCGContext *s, TCGLabelQemuLdst *l)
  }
  #else
 -
 -static void tcg_out_test_alignment(TCGContext *s, bool is_ld, TCGReg addrlo,
 -                                   TCGReg addrhi, unsigned a_bits)
 -{
 -    unsigned a_mask = (1 << a_bits) - 1;
 -    TCGLabelQemuLdst *l = new_ldst_label(s);
 -
 -    l->is_ld = is_ld;
 -    l->addrlo_reg = addrlo;
 -    l->addrhi_reg = addrhi;
 -
 -    /* We are expecting a_bits to max out at 7, much lower than ANDI. */
 -    tcg_debug_assert(a_bits < 16);
 -    tcg_out_opc_imm(s, OPC_ANDI, TCG_TMP0, addrlo, a_mask);
 -
 -    l->label_ptr[0] = s->code_ptr;
 -    if (use_mips32r6_instructions) {
 -        tcg_out_opc_br(s, OPC_BNEZALC_R6, TCG_REG_ZERO, TCG_TMP0);
 -    } else {
 -        tcg_out_opc_br(s, OPC_BNEL, TCG_TMP0, TCG_REG_ZERO);
 -        tcg_out_nop(s);
 -    }
 -
 -    l->raddr = tcg_splitwx_to_rx(s->code_ptr);
 -}
 -
  static bool tcg_out_fail_alignment(TCGContext *s, TCGLabelQemuLdst *l)
  {
      void *target;
@@ -XXX,XX +XXX,XX @@ static bool tcg_out_qemu_st_slow_path(TCGContext *s, TCGLabelQemuLdst *l)
  }
  #endif /* SOFTMMU */
 +typedef struct {
 +    TCGReg base;
 +    MemOp align;
 +} HostAddress;
 +
 +/*
 + * For softmmu, perform the TLB load and compare.
 + * For useronly, perform any required alignment tests.
 + * In both cases, return a TCGLabelQemuLdst structure if the slow path
 + * is required and fill in @h with the host address for the fast path.
 + */
 +static TCGLabelQemuLdst *prepare_host_addr(TCGContext *s, HostAddress *h,
 +                                           TCGReg addrlo, TCGReg addrhi,
 +                                           MemOpIdx oi, bool is_ld)
 +{
-+    if (arg_is_const(op->args[2]) && arg_info(op->args[2])->val == i) {
++    TCGLabelQemuLdst *ldst = NULL;
-+        return tcg_opt_gen_mov(ctx, op, op->args[0], op->args[1]);
++    MemOp opc = get_memop(oi);
-+    }
++    unsigned a_bits = get_alignment_bits(opc);
-+    return false;
++    unsigned s_bits = opc & MO_SIZE;
 +    unsigned a_mask = (1 << a_bits) - 1;
 +    TCGReg base;
 +
 +#ifdef CONFIG_SOFTMMU
 +    unsigned s_mask = (1 << s_bits) - 1;
 +    int mem_index = get_mmuidx(oi);
 +    int fast_off = TLB_MASK_TABLE_OFS(mem_index);
 +    int mask_off = fast_off + offsetof(CPUTLBDescFast, mask);
 +    int table_off = fast_off + offsetof(CPUTLBDescFast, table);
 +    int add_off = offsetof(CPUTLBEntry, addend);
 +    int cmp_off = is_ld ? offsetof(CPUTLBEntry, addr_read)
 +                        : offsetof(CPUTLBEntry, addr_write);
 +    target_ulong tlb_mask;
 +
 +    ldst = new_ldst_label(s);
 +    ldst->is_ld = is_ld;
 +    ldst->oi = oi;
 +    ldst->addrlo_reg = addrlo;
 +    ldst->addrhi_reg = addrhi;
 +    base = TCG_REG_A0;
 +
 +    /* Load tlb_mask[mmu_idx] and tlb_table[mmu_idx].  */
 +    QEMU_BUILD_BUG_ON(TLB_MASK_TABLE_OFS(0) > 0);
 +    QEMU_BUILD_BUG_ON(TLB_MASK_TABLE_OFS(0) < -32768);
 +    tcg_out_ld(s, TCG_TYPE_PTR, TCG_TMP0, TCG_AREG0, mask_off);
 +    tcg_out_ld(s, TCG_TYPE_PTR, TCG_TMP1, TCG_AREG0, table_off);
 +
 +    /* Extract the TLB index from the address into TMP3.  */
 +    tcg_out_opc_sa(s, ALIAS_TSRL, TCG_TMP3, addrlo,
 +                   TARGET_PAGE_BITS - CPU_TLB_ENTRY_BITS);
 +    tcg_out_opc_reg(s, OPC_AND, TCG_TMP3, TCG_TMP3, TCG_TMP0);
 +
 +    /* Add the tlb_table pointer, creating the CPUTLBEntry address in TMP3.  */
 +    tcg_out_opc_reg(s, ALIAS_PADD, TCG_TMP3, TCG_TMP3, TCG_TMP1);
 +
 +    /* Load the (low-half) tlb comparator.  */
 +    if (TCG_TARGET_REG_BITS < TARGET_LONG_BITS) {
 +        tcg_out_ldst(s, OPC_LW, TCG_TMP0, TCG_TMP3, cmp_off + LO_OFF);
 +    } else {
 +        tcg_out_ldst(s, (TARGET_LONG_BITS == 64 ? OPC_LD
 +                         : TCG_TARGET_REG_BITS == 64 ? OPC_LWU : OPC_LW),
 +                     TCG_TMP0, TCG_TMP3, cmp_off);
 +    }
 +
 +    /* Zero extend a 32-bit guest address for a 64-bit host. */
 +    if (TCG_TARGET_REG_BITS > TARGET_LONG_BITS) {
 +        tcg_out_ext32u(s, base, addrlo);
 +        addrlo = base;
 +    }
 +
 +    /*
 +     * Mask the page bits, keeping the alignment bits to compare against.
 +     * For unaligned accesses, compare against the end of the access to
 +     * verify that it does not cross a page boundary.
 +     */
 +    tlb_mask = (target_ulong)TARGET_PAGE_MASK | a_mask;
 +    tcg_out_movi(s, TCG_TYPE_I32, TCG_TMP1, tlb_mask);
 +    if (a_mask >= s_mask) {
 +        tcg_out_opc_reg(s, OPC_AND, TCG_TMP1, TCG_TMP1, addrlo);
 +    } else {
 +        tcg_out_opc_imm(s, ALIAS_PADDI, TCG_TMP2, addrlo, s_mask - a_mask);
 +        tcg_out_opc_reg(s, OPC_AND, TCG_TMP1, TCG_TMP1, TCG_TMP2);
 +    }
 +
 +    if (TCG_TARGET_REG_BITS >= TARGET_LONG_BITS) {
 +        /* Load the tlb addend for the fast path.  */
 +        tcg_out_ld(s, TCG_TYPE_PTR, TCG_TMP2, TCG_TMP3, add_off);
 +    }
 +
 +    ldst->label_ptr[0] = s->code_ptr;
 +    tcg_out_opc_br(s, OPC_BNE, TCG_TMP1, TCG_TMP0);
 +
 +    /* Load and test the high half tlb comparator.  */
 +    if (TCG_TARGET_REG_BITS < TARGET_LONG_BITS) {
 +        /* delay slot */
 +        tcg_out_ldst(s, OPC_LW, TCG_TMP0, TCG_TMP3, cmp_off + HI_OFF);
 +
 +        /* Load the tlb addend for the fast path.  */
 +        tcg_out_ld(s, TCG_TYPE_PTR, TCG_TMP2, TCG_TMP3, add_off);
 +
 +        ldst->label_ptr[1] = s->code_ptr;
 +        tcg_out_opc_br(s, OPC_BNE, addrhi, TCG_TMP0);
 +    }
 +
 +    /* delay slot */
 +    tcg_out_opc_reg(s, ALIAS_PADD, base, TCG_TMP2, addrlo);
 +#else
 +    if (a_mask && (use_mips32r6_instructions || a_bits != s_bits)) {
 +        ldst = new_ldst_label(s);
 +
 +        ldst->is_ld = is_ld;
 +        ldst->oi = oi;
 +        ldst->addrlo_reg = addrlo;
 +        ldst->addrhi_reg = addrhi;
 +
 +        /* We are expecting a_bits to max out at 7, much lower than ANDI. */
 +        tcg_debug_assert(a_bits < 16);
 +        tcg_out_opc_imm(s, OPC_ANDI, TCG_TMP0, addrlo, a_mask);
 +
 +        ldst->label_ptr[0] = s->code_ptr;
 +        if (use_mips32r6_instructions) {
 +            tcg_out_opc_br(s, OPC_BNEZALC_R6, TCG_REG_ZERO, TCG_TMP0);
 +        } else {
 +            tcg_out_opc_br(s, OPC_BNEL, TCG_TMP0, TCG_REG_ZERO);
 +            tcg_out_nop(s);
 +        }
 +    }
 +
 +    base = addrlo;
 +    if (TCG_TARGET_REG_BITS > TARGET_LONG_BITS) {
 +        tcg_out_ext32u(s, TCG_REG_A0, base);
 +        base = TCG_REG_A0;
 +    }
 +    if (guest_base) {
 +        if (guest_base == (int16_t)guest_base) {
 +            tcg_out_opc_imm(s, ALIAS_PADDI, TCG_REG_A0, base, guest_base);
 +        } else {
 +            tcg_out_opc_reg(s, ALIAS_PADD, TCG_REG_A0, base,
 +                            TCG_GUEST_BASE_REG);
 +        }
 +        base = TCG_REG_A0;
 +    }
 +#endif
 +
 +    h->base = base;
 +    h->align = a_bits;
 +    return ldst;
 +}
 +
- /* If the binary operation has second argument @i, fold to NOT. */
+ static void tcg_out_qemu_ld_direct(TCGContext *s, TCGReg lo, TCGReg hi,
- static bool fold_xi_to_not(OptContext *ctx, TCGOp *op, uint64_t i)
+                                    TCGReg base, MemOp opc, TCGType type)
  {
-@@ -XXX,XX +XXX,XX @@ static bool fold_xx_to_x(OptContext *ctx, TCGOp *op)
+@@ -XXX,XX +XXX,XX @@ static void tcg_out_qemu_ld(TCGContext *s, TCGReg datalo, TCGReg datahi,
+                             MemOpIdx oi, TCGType data_type)
  static bool fold_add(OptContext *ctx, TCGOp *op)
  {
--    return fold_const2(ctx, op);
+     MemOp opc = get_memop(oi);
-+    if (fold_const2(ctx, op) ||
+-    unsigned a_bits = get_alignment_bits(opc);
-+        fold_xi_to_x(ctx, op, 0)) {
+-    unsigned s_bits = opc & MO_SIZE;
-+        return true;
+-    TCGReg base;
-+    }
++    TCGLabelQemuLdst *ldst;
-+    return false;
++    HostAddress h;
 -    /*
 -     * R6 removes the left/right instructions but requires the
 -     * system to support misaligned memory accesses.
 -     */
 -#if defined(CONFIG_SOFTMMU)
 -    tcg_insn_unit *label_ptr[2];
 +    ldst = prepare_host_addr(s, &h, addrlo, addrhi, oi, true);
 -    base = TCG_REG_A0;
 -    tcg_out_tlb_load(s, base, addrlo, addrhi, oi, label_ptr, 1);
 -    if (use_mips32r6_instructions || a_bits >= s_bits) {
 -        tcg_out_qemu_ld_direct(s, datalo, datahi, base, opc, data_type);
 +    if (use_mips32r6_instructions || h.align >= (opc & MO_SIZE)) {
 +        tcg_out_qemu_ld_direct(s, datalo, datahi, h.base, opc, data_type);
      } else {
 -        tcg_out_qemu_ld_unalign(s, datalo, datahi, base, opc, data_type);
 +        tcg_out_qemu_ld_unalign(s, datalo, datahi, h.base, opc, data_type);
      }
 -    add_qemu_ldst_label(s, true, oi, data_type, datalo, datahi,
 -                        addrlo, addrhi, s->code_ptr, label_ptr);
 -#else
 -    base = addrlo;
 -    if (TCG_TARGET_REG_BITS > TARGET_LONG_BITS) {
 -        tcg_out_ext32u(s, TCG_REG_A0, base);
 -        base = TCG_REG_A0;
 +
 +    if (ldst) {
 +        ldst->type = data_type;
 +        ldst->datalo_reg = datalo;
 +        ldst->datahi_reg = datahi;
 +        ldst->raddr = tcg_splitwx_to_rx(s->code_ptr);
      }
 -    if (guest_base) {
 -        if (guest_base == (int16_t)guest_base) {
 -            tcg_out_opc_imm(s, ALIAS_PADDI, TCG_REG_A0, base, guest_base);
 -        } else {
 -            tcg_out_opc_reg(s, ALIAS_PADD, TCG_REG_A0, base,
 -                            TCG_GUEST_BASE_REG);
 -        }
 -        base = TCG_REG_A0;
 -    }
 -    if (use_mips32r6_instructions) {
 -        if (a_bits) {
 -            tcg_out_test_alignment(s, true, addrlo, addrhi, a_bits);
 -        }
 -        tcg_out_qemu_ld_direct(s, datalo, datahi, base, opc, data_type);
 -    } else {
 -        if (a_bits && a_bits != s_bits) {
 -            tcg_out_test_alignment(s, true, addrlo, addrhi, a_bits);
 -        }
 -        if (a_bits >= s_bits) {
 -            tcg_out_qemu_ld_direct(s, datalo, datahi, base, opc, data_type);
 -        } else {
 -            tcg_out_qemu_ld_unalign(s, datalo, datahi, base, opc, data_type);
 -        }
 -    }
 -#endif
  }
- static bool fold_addsub2_i32(OptContext *ctx, TCGOp *op, bool add)
+ static void tcg_out_qemu_st_direct(TCGContext *s, TCGReg lo, TCGReg hi,
-@@ -XXX,XX +XXX,XX @@ static bool fold_and(OptContext *ctx, TCGOp *op)
+@@ -XXX,XX +XXX,XX @@ static void tcg_out_qemu_st(TCGContext *s, TCGReg datalo, TCGReg datahi,
                              MemOpIdx oi, TCGType data_type)
  {
-     if (fold_const2(ctx, op) ||
+     MemOp opc = get_memop(oi);
-         fold_xi_to_i(ctx, op, 0) ||
+-    unsigned a_bits = get_alignment_bits(opc);
-+        fold_xi_to_x(ctx, op, -1) ||
+-    unsigned s_bits = opc & MO_SIZE;
-         fold_xx_to_x(ctx, op)) {
+-    TCGReg base;
-         return true;
++    TCGLabelQemuLdst *ldst;
 +    HostAddress h;
 -    /*
 -     * R6 removes the left/right instructions but requires the
 -     * system to support misaligned memory accesses.
 -     */
 -#if defined(CONFIG_SOFTMMU)
 -    tcg_insn_unit *label_ptr[2];
 +    ldst = prepare_host_addr(s, &h, addrlo, addrhi, oi, false);
 -    base = TCG_REG_A0;
 -    tcg_out_tlb_load(s, base, addrlo, addrhi, oi, label_ptr, 0);
 -    if (use_mips32r6_instructions || a_bits >= s_bits) {
 -        tcg_out_qemu_st_direct(s, datalo, datahi, base, opc);
 +    if (use_mips32r6_instructions || h.align >= (opc & MO_SIZE)) {
 +        tcg_out_qemu_st_direct(s, datalo, datahi, h.base, opc);
      } else {
 -        tcg_out_qemu_st_unalign(s, datalo, datahi, base, opc);
 +        tcg_out_qemu_st_unalign(s, datalo, datahi, h.base, opc);
      }
-@@ -XXX,XX +XXX,XX @@ static bool fold_andc(OptContext *ctx, TCGOp *op)
+-    add_qemu_ldst_label(s, false, oi, data_type, datalo, datahi,
- {
+-                        addrlo, addrhi, s->code_ptr, label_ptr);
-     if (fold_const2(ctx, op) ||
+-#else
-         fold_xx_to_i(ctx, op, 0) ||
+-    base = addrlo;
-+        fold_xi_to_x(ctx, op, 0) ||
+-    if (TCG_TARGET_REG_BITS > TARGET_LONG_BITS) {
-         fold_ix_to_not(ctx, op, -1)) {
+-        tcg_out_ext32u(s, TCG_REG_A0, base);
-         return true;
+-        base = TCG_REG_A0;
 +
 +    if (ldst) {
 +        ldst->type = data_type;
 +        ldst->datalo_reg = datalo;
 +        ldst->datahi_reg = datahi;
 +        ldst->raddr = tcg_splitwx_to_rx(s->code_ptr);
      }
-@@ -XXX,XX +XXX,XX @@ static bool fold_dup2(OptContext *ctx, TCGOp *op)
+-    if (guest_base) {
- static bool fold_eqv(OptContext *ctx, TCGOp *op)
+-        if (guest_base == (int16_t)guest_base) {
- {
+-            tcg_out_opc_imm(s, ALIAS_PADDI, TCG_REG_A0, base, guest_base);
-     if (fold_const2(ctx, op) ||
+-        } else {
-+        fold_xi_to_x(ctx, op, -1) ||
+-            tcg_out_opc_reg(s, ALIAS_PADD, TCG_REG_A0, base,
-         fold_xi_to_not(ctx, op, 0)) {
+-                            TCG_GUEST_BASE_REG);
-         return true;
+-        }
-     }
+-        base = TCG_REG_A0;
-@@ -XXX,XX +XXX,XX @@ static bool fold_not(OptContext *ctx, TCGOp *op)
+-    }
- static bool fold_or(OptContext *ctx, TCGOp *op)
+-    if (use_mips32r6_instructions) {
- {
+-        if (a_bits) {
-     if (fold_const2(ctx, op) ||
+-            tcg_out_test_alignment(s, true, addrlo, addrhi, a_bits);
-+        fold_xi_to_x(ctx, op, 0) ||
+-        }
-         fold_xx_to_x(ctx, op)) {
+-        tcg_out_qemu_st_direct(s, datalo, datahi, base, opc);
-         return true;
+-    } else {
-     }
+-        if (a_bits && a_bits != s_bits) {
-@@ -XXX,XX +XXX,XX @@ static bool fold_or(OptContext *ctx, TCGOp *op)
+-            tcg_out_test_alignment(s, true, addrlo, addrhi, a_bits);
- static bool fold_orc(OptContext *ctx, TCGOp *op)
+-        }
- {
+-        if (a_bits >= s_bits) {
-     if (fold_const2(ctx, op) ||
+-            tcg_out_qemu_st_direct(s, datalo, datahi, base, opc);
-+        fold_xi_to_x(ctx, op, -1) ||
+-        } else {
-         fold_ix_to_not(ctx, op, 0)) {
+-            tcg_out_qemu_st_unalign(s, datalo, datahi, base, opc);
-         return true;
+-        }
-     }
+-    }
-@@ -XXX,XX +XXX,XX @@ static bool fold_sextract(OptContext *ctx, TCGOp *op)
+-#endif
  static bool fold_shift(OptContext *ctx, TCGOp *op)
  {
 -    return fold_const2(ctx, op);
 +    if (fold_const2(ctx, op) ||
 +        fold_xi_to_x(ctx, op, 0)) {
 +        return true;
 +    }
 +    return false;
  }
- static bool fold_sub_to_neg(OptContext *ctx, TCGOp *op)
+ static void tcg_out_mb(TCGContext *s, TCGArg a0)
@@ -XXX,XX +XXX,XX @@ static bool fold_sub(OptContext *ctx, TCGOp *op)
  {
      if (fold_const2(ctx, op) ||
          fold_xx_to_i(ctx, op, 0) ||
 +        fold_xi_to_x(ctx, op, 0) ||
          fold_sub_to_neg(ctx, op)) {
          return true;
      }
@@ -XXX,XX +XXX,XX @@ static bool fold_xor(OptContext *ctx, TCGOp *op)
  {
      if (fold_const2(ctx, op) ||
          fold_xx_to_i(ctx, op, 0) ||
 +        fold_xi_to_x(ctx, op, 0) ||
          fold_xi_to_not(ctx, op, -1)) {
          return true;
      }
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
              break;
          }
 -        /* Simplify expression for "op r, a, const => mov r, a" cases */
 -        switch (opc) {
 -        CASE_OP_32_64_VEC(add):
 -        CASE_OP_32_64_VEC(sub):
 -        CASE_OP_32_64_VEC(or):
 -        CASE_OP_32_64_VEC(xor):
 -        CASE_OP_32_64_VEC(andc):
 -        CASE_OP_32_64(shl):
 -        CASE_OP_32_64(shr):
 -        CASE_OP_32_64(sar):
 -        CASE_OP_32_64(rotl):
 -        CASE_OP_32_64(rotr):
 -            if (!arg_is_const(op->args[1])
 -                && arg_is_const(op->args[2])
 -                && arg_info(op->args[2])->val == 0) {
 -                tcg_opt_gen_mov(&ctx, op, op->args[0], op->args[1]);
 -                continue;
 -            }
 -            break;
 -        CASE_OP_32_64_VEC(and):
 -        CASE_OP_32_64_VEC(orc):
 -        CASE_OP_32_64(eqv):
 -            if (!arg_is_const(op->args[1])
 -                && arg_is_const(op->args[2])
 -                && arg_info(op->args[2])->val == -1) {
 -                tcg_opt_gen_mov(&ctx, op, op->args[0], op->args[1]);
 -                continue;
 -            }
 -            break;
 -        default:
 -            break;
 -        }
 -
          /* Simplify using known-zero bits. Currently only ops with a single
             output argument is supported. */
          z_mask = -1;
 --
-.25.1
+.34.1

-[PULL 56/56] tcg/optimize: Propagate sign info for shifting
+[PULL 17/53] tcg/ppc: Introduce prepare_host_addr
-For constant shifts, we can simply shift the s_mask.
+Merge tcg_out_tlb_load, add_qemu_ldst_label, tcg_out_test_alignment,
+and some code that lived in both tcg_out_qemu_ld and tcg_out_qemu_st
-For variable shifts, we know that sar does not reduce
+into one function that returns HostAddress and TCGLabelQemuLdst structures.
 the s_mask, which helps for sequences like
     ext32s_i64  t, in
     sar_i64     t, t, v
     ext32s_i64  out, t
 allowing the final extend to be eliminated.
 Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
-Reviewed-by: Luis Pires <luis.pires@eldorado.org.br>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- tcg/optimize.c | 50 +++++++++++++++++++++++++++++++++++++++++++++++---
+ tcg/ppc/tcg-target.c.inc | 381 ++++++++++++++++++---------------------
-file changed, 47 insertions(+), 3 deletions(-)
+file changed, 172 insertions(+), 209 deletions(-)
-diff --git a/tcg/optimize.c b/tcg/optimize.c
+diff --git a/tcg/ppc/tcg-target.c.inc b/tcg/ppc/tcg-target.c.inc
 index XXXXXXX..XXXXXXX 100644
---- a/tcg/optimize.c
+--- a/tcg/ppc/tcg-target.c.inc
-+++ b/tcg/optimize.c
++++ b/tcg/ppc/tcg-target.c.inc
-@@ -XXX,XX +XXX,XX @@ static uint64_t smask_from_zmask(uint64_t zmask)
+@@ -XXX,XX +XXX,XX @@ static void * const qemu_st_helpers[(MO_SIZE | MO_BSWAP) + 1] = {
-     return ~(~0ull >> rep);
+     [MO_BEUQ] = helper_be_stq_mmu,
  };
 -/* We expect to use a 16-bit negative offset from ENV.  */
 -QEMU_BUILD_BUG_ON(TLB_MASK_TABLE_OFS(0) > 0);
 -QEMU_BUILD_BUG_ON(TLB_MASK_TABLE_OFS(0) < -32768);
 -
 -/* Perform the TLB load and compare.  Places the result of the comparison
 -   in CR7, loads the addend of the TLB into R3, and returns the register
 -   containing the guest address (zero-extended into R4).  Clobbers R0 and R2. */
 -
 -static TCGReg tcg_out_tlb_read(TCGContext *s, MemOp opc,
 -                               TCGReg addrlo, TCGReg addrhi,
 -                               int mem_index, bool is_read)
 -{
 -    int cmp_off
 -        = (is_read
 -           ? offsetof(CPUTLBEntry, addr_read)
 -           : offsetof(CPUTLBEntry, addr_write));
 -    int fast_off = TLB_MASK_TABLE_OFS(mem_index);
 -    int mask_off = fast_off + offsetof(CPUTLBDescFast, mask);
 -    int table_off = fast_off + offsetof(CPUTLBDescFast, table);
 -    unsigned s_bits = opc & MO_SIZE;
 -    unsigned a_bits = get_alignment_bits(opc);
 -
 -    /* Load tlb_mask[mmu_idx] and tlb_table[mmu_idx].  */
 -    tcg_out_ld(s, TCG_TYPE_PTR, TCG_REG_R3, TCG_AREG0, mask_off);
 -    tcg_out_ld(s, TCG_TYPE_PTR, TCG_REG_R4, TCG_AREG0, table_off);
 -
 -    /* Extract the page index, shifted into place for tlb index.  */
 -    if (TCG_TARGET_REG_BITS == 32) {
 -        tcg_out_shri32(s, TCG_REG_TMP1, addrlo,
 -                       TARGET_PAGE_BITS - CPU_TLB_ENTRY_BITS);
 -    } else {
 -        tcg_out_shri64(s, TCG_REG_TMP1, addrlo,
 -                       TARGET_PAGE_BITS - CPU_TLB_ENTRY_BITS);
 -    }
 -    tcg_out32(s, AND | SAB(TCG_REG_R3, TCG_REG_R3, TCG_REG_TMP1));
 -
 -    /* Load the TLB comparator.  */
 -    if (cmp_off == 0 && TCG_TARGET_REG_BITS >= TARGET_LONG_BITS) {
 -        uint32_t lxu = (TCG_TARGET_REG_BITS == 32 || TARGET_LONG_BITS == 32
 -                        ? LWZUX : LDUX);
 -        tcg_out32(s, lxu | TAB(TCG_REG_TMP1, TCG_REG_R3, TCG_REG_R4));
 -    } else {
 -        tcg_out32(s, ADD | TAB(TCG_REG_R3, TCG_REG_R3, TCG_REG_R4));
 -        if (TCG_TARGET_REG_BITS < TARGET_LONG_BITS) {
 -            tcg_out_ld(s, TCG_TYPE_I32, TCG_REG_TMP1, TCG_REG_R3, cmp_off + 4);
 -            tcg_out_ld(s, TCG_TYPE_I32, TCG_REG_R4, TCG_REG_R3, cmp_off);
 -        } else {
 -            tcg_out_ld(s, TCG_TYPE_TL, TCG_REG_TMP1, TCG_REG_R3, cmp_off);
 -        }
 -    }
 -
 -    /* Load the TLB addend for use on the fast path.  Do this asap
 -       to minimize any load use delay.  */
 -    tcg_out_ld(s, TCG_TYPE_PTR, TCG_REG_R3, TCG_REG_R3,
 -               offsetof(CPUTLBEntry, addend));
 -
 -    /* Clear the non-page, non-alignment bits from the address */
 -    if (TCG_TARGET_REG_BITS == 32) {
 -        /* We don't support unaligned accesses on 32-bits.
 -         * Preserve the bottom bits and thus trigger a comparison
 -         * failure on unaligned accesses.
 -         */
 -        if (a_bits < s_bits) {
 -            a_bits = s_bits;
 -        }
 -        tcg_out_rlw(s, RLWINM, TCG_REG_R0, addrlo, 0,
 -                    (32 - a_bits) & 31, 31 - TARGET_PAGE_BITS);
 -    } else {
 -        TCGReg t = addrlo;
 -
 -        /* If the access is unaligned, we need to make sure we fail if we
 -         * cross a page boundary.  The trick is to add the access size-1
 -         * to the address before masking the low bits.  That will make the
 -         * address overflow to the next page if we cross a page boundary,
 -         * which will then force a mismatch of the TLB compare.
 -         */
 -        if (a_bits < s_bits) {
 -            unsigned a_mask = (1 << a_bits) - 1;
 -            unsigned s_mask = (1 << s_bits) - 1;
 -            tcg_out32(s, ADDI | TAI(TCG_REG_R0, t, s_mask - a_mask));
 -            t = TCG_REG_R0;
 -        }
 -
 -        /* Mask the address for the requested alignment.  */
 -        if (TARGET_LONG_BITS == 32) {
 -            tcg_out_rlw(s, RLWINM, TCG_REG_R0, t, 0,
 -                        (32 - a_bits) & 31, 31 - TARGET_PAGE_BITS);
 -            /* Zero-extend the address for use in the final address.  */
 -            tcg_out_ext32u(s, TCG_REG_R4, addrlo);
 -            addrlo = TCG_REG_R4;
 -        } else if (a_bits == 0) {
 -            tcg_out_rld(s, RLDICR, TCG_REG_R0, t, 0, 63 - TARGET_PAGE_BITS);
 -        } else {
 -            tcg_out_rld(s, RLDICL, TCG_REG_R0, t,
 -                        64 - TARGET_PAGE_BITS, TARGET_PAGE_BITS - a_bits);
 -            tcg_out_rld(s, RLDICL, TCG_REG_R0, TCG_REG_R0, TARGET_PAGE_BITS, 0);
 -        }
 -    }
 -
 -    if (TCG_TARGET_REG_BITS < TARGET_LONG_BITS) {
 -        tcg_out_cmp(s, TCG_COND_EQ, TCG_REG_R0, TCG_REG_TMP1,
 -                    0, 7, TCG_TYPE_I32);
 -        tcg_out_cmp(s, TCG_COND_EQ, addrhi, TCG_REG_R4, 0, 6, TCG_TYPE_I32);
 -        tcg_out32(s, CRAND | BT(7, CR_EQ) | BA(6, CR_EQ) | BB(7, CR_EQ));
 -    } else {
 -        tcg_out_cmp(s, TCG_COND_EQ, TCG_REG_R0, TCG_REG_TMP1,
 -                    0, 7, TCG_TYPE_TL);
 -    }
 -
 -    return addrlo;
 -}
 -
 -/* Record the context of a call to the out of line helper code for the slow
 -   path for a load or store, so that we can later generate the correct
 -   helper code.  */
 -static void add_qemu_ldst_label(TCGContext *s, bool is_ld,
 -                                TCGType type, MemOpIdx oi,
 -                                TCGReg datalo_reg, TCGReg datahi_reg,
 -                                TCGReg addrlo_reg, TCGReg addrhi_reg,
 -                                tcg_insn_unit *raddr, tcg_insn_unit *lptr)
 -{
 -    TCGLabelQemuLdst *label = new_ldst_label(s);
 -
 -    label->is_ld = is_ld;
 -    label->type = type;
 -    label->oi = oi;
 -    label->datalo_reg = datalo_reg;
 -    label->datahi_reg = datahi_reg;
 -    label->addrlo_reg = addrlo_reg;
 -    label->addrhi_reg = addrhi_reg;
 -    label->raddr = tcg_splitwx_to_rx(raddr);
 -    label->label_ptr[0] = lptr;
 -}
 -
  static bool tcg_out_qemu_ld_slow_path(TCGContext *s, TCGLabelQemuLdst *lb)
  {
      MemOpIdx oi = lb->oi;
@@ -XXX,XX +XXX,XX @@ static bool tcg_out_qemu_st_slow_path(TCGContext *s, TCGLabelQemuLdst *lb)
      return true;
  }
+ #else
+-
+-static void tcg_out_test_alignment(TCGContext *s, bool is_ld, TCGReg addrlo,
+-                                   TCGReg addrhi, unsigned a_bits)
+-{
+-    unsigned a_mask = (1 << a_bits) - 1;
+-    TCGLabelQemuLdst *label = new_ldst_label(s);
+-
+-    label->is_ld = is_ld;
+-    label->addrlo_reg = addrlo;
+-    label->addrhi_reg = addrhi;
+-
+-    /* We are expecting a_bits to max out at 7, much lower than ANDI. */
+-    tcg_debug_assert(a_bits < 16);
+-    tcg_out32(s, ANDI | SAI(addrlo, TCG_REG_R0, a_mask));
+-
+-    label->label_ptr[0] = s->code_ptr;
+-    tcg_out32(s, BC | BI(0, CR_EQ) | BO_COND_FALSE | LK);
+-
+-    label->raddr = tcg_splitwx_to_rx(s->code_ptr);
+-}
+-
+ static bool tcg_out_fail_alignment(TCGContext *s, TCGLabelQemuLdst *l)
+ {
+     if (!reloc_pc14(l->label_ptr[0], tcg_splitwx_to_rx(s->code_ptr))) {
+@@ -XXX,XX +XXX,XX @@ typedef struct {
+     TCGReg index;
+ } HostAddress;
 +/*
-+ * Recreate a properly left-aligned smask after manipulation.
++ * For softmmu, perform the TLB load and compare.
-+ * Some bit-shuffling, particularly shifts and rotates, may
++ * For useronly, perform any required alignment tests.
-+ * retain sign bits on the left, but may scatter disconnected
++ * In both cases, return a TCGLabelQemuLdst structure if the slow path
-+ * sign bits on the right.  Retain only what remains to the left.
++ * is required and fill in @h with the host address for the fast path.
 + */
-+static uint64_t smask_from_smask(int64_t smask)
++static TCGLabelQemuLdst *prepare_host_addr(TCGContext *s, HostAddress *h,
 +                                           TCGReg addrlo, TCGReg addrhi,
 +                                           MemOpIdx oi, bool is_ld)
 +{
-+    /* Only the 1 bits are significant for smask */
++    TCGLabelQemuLdst *ldst = NULL;
-+    return smask_from_zmask(~smask);
++    MemOp opc = get_memop(oi);
 +    unsigned a_bits = get_alignment_bits(opc);
 +
 +#ifdef CONFIG_SOFTMMU
 +    int mem_index = get_mmuidx(oi);
 +    int cmp_off = is_ld ? offsetof(CPUTLBEntry, addr_read)
 +                        : offsetof(CPUTLBEntry, addr_write);
 +    int fast_off = TLB_MASK_TABLE_OFS(mem_index);
 +    int mask_off = fast_off + offsetof(CPUTLBDescFast, mask);
 +    int table_off = fast_off + offsetof(CPUTLBDescFast, table);
 +    unsigned s_bits = opc & MO_SIZE;
 +
 +    ldst = new_ldst_label(s);
 +    ldst->is_ld = is_ld;
 +    ldst->oi = oi;
 +    ldst->addrlo_reg = addrlo;
 +    ldst->addrhi_reg = addrhi;
 +
 +    /* Load tlb_mask[mmu_idx] and tlb_table[mmu_idx].  */
 +    QEMU_BUILD_BUG_ON(TLB_MASK_TABLE_OFS(0) > 0);
 +    QEMU_BUILD_BUG_ON(TLB_MASK_TABLE_OFS(0) < -32768);
 +    tcg_out_ld(s, TCG_TYPE_PTR, TCG_REG_R3, TCG_AREG0, mask_off);
 +    tcg_out_ld(s, TCG_TYPE_PTR, TCG_REG_R4, TCG_AREG0, table_off);
 +
 +    /* Extract the page index, shifted into place for tlb index.  */
 +    if (TCG_TARGET_REG_BITS == 32) {
 +        tcg_out_shri32(s, TCG_REG_TMP1, addrlo,
 +                       TARGET_PAGE_BITS - CPU_TLB_ENTRY_BITS);
 +    } else {
 +        tcg_out_shri64(s, TCG_REG_TMP1, addrlo,
 +                       TARGET_PAGE_BITS - CPU_TLB_ENTRY_BITS);
 +    }
 +    tcg_out32(s, AND | SAB(TCG_REG_R3, TCG_REG_R3, TCG_REG_TMP1));
 +
 +    /* Load the TLB comparator.  */
 +    if (cmp_off == 0 && TCG_TARGET_REG_BITS >= TARGET_LONG_BITS) {
 +        uint32_t lxu = (TCG_TARGET_REG_BITS == 32 || TARGET_LONG_BITS == 32
 +                        ? LWZUX : LDUX);
 +        tcg_out32(s, lxu | TAB(TCG_REG_TMP1, TCG_REG_R3, TCG_REG_R4));
 +    } else {
 +        tcg_out32(s, ADD | TAB(TCG_REG_R3, TCG_REG_R3, TCG_REG_R4));
 +        if (TCG_TARGET_REG_BITS < TARGET_LONG_BITS) {
 +            tcg_out_ld(s, TCG_TYPE_I32, TCG_REG_TMP1, TCG_REG_R3, cmp_off + 4);
 +            tcg_out_ld(s, TCG_TYPE_I32, TCG_REG_R4, TCG_REG_R3, cmp_off);
 +        } else {
 +            tcg_out_ld(s, TCG_TYPE_TL, TCG_REG_TMP1, TCG_REG_R3, cmp_off);
 +        }
 +    }
 +
 +    /*
 +     * Load the TLB addend for use on the fast path.
 +     * Do this asap to minimize any load use delay.
 +     */
 +    h->base = TCG_REG_R3;
 +    tcg_out_ld(s, TCG_TYPE_PTR, h->base, TCG_REG_R3,
 +               offsetof(CPUTLBEntry, addend));
 +
 +    /* Clear the non-page, non-alignment bits from the address */
 +    if (TCG_TARGET_REG_BITS == 32) {
 +        /*
 +         * We don't support unaligned accesses on 32-bits.
 +         * Preserve the bottom bits and thus trigger a comparison
 +         * failure on unaligned accesses.
 +         */
 +        if (a_bits < s_bits) {
 +            a_bits = s_bits;
 +        }
 +        tcg_out_rlw(s, RLWINM, TCG_REG_R0, addrlo, 0,
 +                    (32 - a_bits) & 31, 31 - TARGET_PAGE_BITS);
 +    } else {
 +        TCGReg t = addrlo;
 +
 +        /*
 +         * If the access is unaligned, we need to make sure we fail if we
 +         * cross a page boundary.  The trick is to add the access size-1
 +         * to the address before masking the low bits.  That will make the
 +         * address overflow to the next page if we cross a page boundary,
 +         * which will then force a mismatch of the TLB compare.
 +         */
 +        if (a_bits < s_bits) {
 +            unsigned a_mask = (1 << a_bits) - 1;
 +            unsigned s_mask = (1 << s_bits) - 1;
 +            tcg_out32(s, ADDI | TAI(TCG_REG_R0, t, s_mask - a_mask));
 +            t = TCG_REG_R0;
 +        }
 +
 +        /* Mask the address for the requested alignment.  */
 +        if (TARGET_LONG_BITS == 32) {
 +            tcg_out_rlw(s, RLWINM, TCG_REG_R0, t, 0,
 +                        (32 - a_bits) & 31, 31 - TARGET_PAGE_BITS);
 +            /* Zero-extend the address for use in the final address.  */
 +            tcg_out_ext32u(s, TCG_REG_R4, addrlo);
 +            addrlo = TCG_REG_R4;
 +        } else if (a_bits == 0) {
 +            tcg_out_rld(s, RLDICR, TCG_REG_R0, t, 0, 63 - TARGET_PAGE_BITS);
 +        } else {
 +            tcg_out_rld(s, RLDICL, TCG_REG_R0, t,
 +                        64 - TARGET_PAGE_BITS, TARGET_PAGE_BITS - a_bits);
 +            tcg_out_rld(s, RLDICL, TCG_REG_R0, TCG_REG_R0, TARGET_PAGE_BITS, 0);
 +        }
 +    }
 +    h->index = addrlo;
 +
 +    if (TCG_TARGET_REG_BITS < TARGET_LONG_BITS) {
 +        tcg_out_cmp(s, TCG_COND_EQ, TCG_REG_R0, TCG_REG_TMP1,
 +                    0, 7, TCG_TYPE_I32);
 +        tcg_out_cmp(s, TCG_COND_EQ, addrhi, TCG_REG_R4, 0, 6, TCG_TYPE_I32);
 +        tcg_out32(s, CRAND | BT(7, CR_EQ) | BA(6, CR_EQ) | BB(7, CR_EQ));
 +    } else {
 +        tcg_out_cmp(s, TCG_COND_EQ, TCG_REG_R0, TCG_REG_TMP1,
 +                    0, 7, TCG_TYPE_TL);
 +    }
 +
 +    /* Load a pointer into the current opcode w/conditional branch-link. */
 +    ldst->label_ptr[0] = s->code_ptr;
 +    tcg_out32(s, BC | BI(7, CR_EQ) | BO_COND_FALSE | LK);
 +#else
 +    if (a_bits) {
 +        ldst = new_ldst_label(s);
 +        ldst->is_ld = is_ld;
 +        ldst->oi = oi;
 +        ldst->addrlo_reg = addrlo;
 +        ldst->addrhi_reg = addrhi;
 +
 +        /* We are expecting a_bits to max out at 7, much lower than ANDI. */
 +        tcg_debug_assert(a_bits < 16);
 +        tcg_out32(s, ANDI | SAI(addrlo, TCG_REG_R0, (1 << a_bits) - 1));
 +
 +        ldst->label_ptr[0] = s->code_ptr;
 +        tcg_out32(s, BC | BI(0, CR_EQ) | BO_COND_FALSE | LK);
 +    }
 +
 +    h->base = guest_base ? TCG_GUEST_BASE_REG : 0;
 +    h->index = addrlo;
 +    if (TCG_TARGET_REG_BITS > TARGET_LONG_BITS) {
 +        tcg_out_ext32u(s, TCG_REG_TMP1, addrlo);
 +        h->index = TCG_REG_TMP1;
 +    }
 +#endif
 +
 +    return ldst;
 +}
 +
- static inline TempOptInfo *ts_info(TCGTemp *ts)
+ static void tcg_out_qemu_ld(TCGContext *s, TCGReg datalo, TCGReg datahi,
                              TCGReg addrlo, TCGReg addrhi,
                              MemOpIdx oi, TCGType data_type)
  {
-     return ts->state_ptr;
+     MemOp opc = get_memop(oi);
-@@ -XXX,XX +XXX,XX @@ static bool fold_sextract(OptContext *ctx, TCGOp *op)
+-    MemOp s_bits = opc & MO_SIZE;
++    TCGLabelQemuLdst *ldst;
- static bool fold_shift(OptContext *ctx, TCGOp *op)
+     HostAddress h;
 -#ifdef CONFIG_SOFTMMU
 -    tcg_insn_unit *label_ptr;
 +    ldst = prepare_host_addr(s, &h, addrlo, addrhi, oi, true);
 -    h.index = tcg_out_tlb_read(s, opc, addrlo, addrhi, get_mmuidx(oi), true);
 -    h.base = TCG_REG_R3;
 -
 -    /* Load a pointer into the current opcode w/conditional branch-link. */
 -    label_ptr = s->code_ptr;
 -    tcg_out32(s, BC | BI(7, CR_EQ) | BO_COND_FALSE | LK);
 -#else  /* !CONFIG_SOFTMMU */
 -    unsigned a_bits = get_alignment_bits(opc);
 -    if (a_bits) {
 -        tcg_out_test_alignment(s, true, addrlo, addrhi, a_bits);
 -    }
 -    h.base = guest_base ? TCG_GUEST_BASE_REG : 0;
 -    h.index = addrlo;
 -    if (TCG_TARGET_REG_BITS > TARGET_LONG_BITS) {
 -        tcg_out_ext32u(s, TCG_REG_TMP1, addrlo);
 -        h.index = TCG_REG_TMP1;
 -    }
 -#endif
 -
 -    if (TCG_TARGET_REG_BITS == 32 && s_bits == MO_64) {
 +    if (TCG_TARGET_REG_BITS == 32 && (opc & MO_SIZE) == MO_64) {
          if (opc & MO_BSWAP) {
              tcg_out32(s, ADDI | TAI(TCG_REG_R0, h.index, 4));
              tcg_out32(s, LWBRX | TAB(datalo, h.base, h.index));
@@ -XXX,XX +XXX,XX @@ static void tcg_out_qemu_ld(TCGContext *s, TCGReg datalo, TCGReg datahi,
          }
      }
 -#ifdef CONFIG_SOFTMMU
 -    add_qemu_ldst_label(s, true, data_type, oi, datalo, datahi,
 -                        addrlo, addrhi, s->code_ptr, label_ptr);
 -#endif
 +    if (ldst) {
 +        ldst->type = data_type;
 +        ldst->datalo_reg = datalo;
 +        ldst->datahi_reg = datahi;
 +        ldst->raddr = tcg_splitwx_to_rx(s->code_ptr);
 +    }
  }
  static void tcg_out_qemu_st(TCGContext *s, TCGReg datalo, TCGReg datahi,
@@ -XXX,XX +XXX,XX @@ static void tcg_out_qemu_st(TCGContext *s, TCGReg datalo, TCGReg datahi,
                              MemOpIdx oi, TCGType data_type)
  {
-+    uint64_t s_mask, z_mask, sign;
+     MemOp opc = get_memop(oi);
-+
+-    MemOp s_bits = opc & MO_SIZE;
-     if (fold_const2(ctx, op) ||
++    TCGLabelQemuLdst *ldst;
-         fold_ix_to_i(ctx, op, 0) ||
+     HostAddress h;
-         fold_xi_to_x(ctx, op, 0)) {
-         return true;
+-#ifdef CONFIG_SOFTMMU
 -    tcg_insn_unit *label_ptr;
 +    ldst = prepare_host_addr(s, &h, addrlo, addrhi, oi, false);
 -    h.index = tcg_out_tlb_read(s, opc, addrlo, addrhi, get_mmuidx(oi), false);
 -    h.base = TCG_REG_R3;
 -
 -    /* Load a pointer into the current opcode w/conditional branch-link. */
 -    label_ptr = s->code_ptr;
 -    tcg_out32(s, BC | BI(7, CR_EQ) | BO_COND_FALSE | LK);
 -#else  /* !CONFIG_SOFTMMU */
 -    unsigned a_bits = get_alignment_bits(opc);
 -    if (a_bits) {
 -        tcg_out_test_alignment(s, false, addrlo, addrhi, a_bits);
 -    }
 -    h.base = guest_base ? TCG_GUEST_BASE_REG : 0;
 -    h.index = addrlo;
 -    if (TCG_TARGET_REG_BITS > TARGET_LONG_BITS) {
 -        tcg_out_ext32u(s, TCG_REG_TMP1, addrlo);
 -        h.index = TCG_REG_TMP1;
 -    }
 -#endif
 -
 -    if (TCG_TARGET_REG_BITS == 32 && s_bits == MO_64) {
 +    if (TCG_TARGET_REG_BITS == 32 && (opc & MO_SIZE) == MO_64) {
          if (opc & MO_BSWAP) {
              tcg_out32(s, ADDI | TAI(TCG_REG_R0, h.index, 4));
              tcg_out32(s, STWBRX | SAB(datalo, h.base, h.index));
@@ -XXX,XX +XXX,XX @@ static void tcg_out_qemu_st(TCGContext *s, TCGReg datalo, TCGReg datahi,
          }
      }
-+    s_mask = arg_info(op->args[1])->s_mask;
+-#ifdef CONFIG_SOFTMMU
-+    z_mask = arg_info(op->args[1])->z_mask;
+-    add_qemu_ldst_label(s, false, data_type, oi, datalo, datahi,
-+
+-                        addrlo, addrhi, s->code_ptr, label_ptr);
-     if (arg_is_const(op->args[2])) {
+-#endif
--        ctx->z_mask = do_constant_folding(op->opc, ctx->type,
++    if (ldst) {
--                                          arg_info(op->args[1])->z_mask,
++        ldst->type = data_type;
--                                          arg_info(op->args[2])->val);
++        ldst->datalo_reg = datalo;
-+        int sh = arg_info(op->args[2])->val;
++        ldst->datahi_reg = datahi;
-+
++        ldst->raddr = tcg_splitwx_to_rx(s->code_ptr);
-+        ctx->z_mask = do_constant_folding(op->opc, ctx->type, z_mask, sh);
++    }
 +
 +        s_mask = do_constant_folding(op->opc, ctx->type, s_mask, sh);
 +        ctx->s_mask = smask_from_smask(s_mask);
 +
          return fold_masks(ctx, op);
      }
 +
 +    switch (op->opc) {
 +    CASE_OP_32_64(sar):
 +        /*
 +         * Arithmetic right shift will not reduce the number of
 +         * input sign repetitions.
 +         */
 +        ctx->s_mask = s_mask;
 +        break;
 +    CASE_OP_32_64(shr):
 +        /*
 +         * If the sign bit is known zero, then logical right shift
 +         * will not reduced the number of input sign repetitions.
 +         */
 +        sign = (s_mask & -s_mask) >> 1;
 +        if (!(z_mask & sign)) {
 +            ctx->s_mask = s_mask;
 +        }
 +        break;
 +    default:
 +        break;
 +    }
 +
      return false;
  }
+ static void tcg_out_nop_fill(tcg_insn_unit *p, int count)
 --
-.25.1
+.34.1

-[PULL 34/56] tcg/optimize: Split out fold_mov
+[PULL 18/53] tcg/riscv: Introduce prepare_host_addr
-This is the final entry in the main switch that was in a
+Merge tcg_out_tlb_load, add_qemu_ldst_label, tcg_out_test_alignment,
-different form.  After this, we have the option to convert
+and some code that lived in both tcg_out_qemu_ld and tcg_out_qemu_st
-the switch into a function dispatch table.
+into one function that returns TCGReg and TCGLabelQemuLdst.
-Reviewed-by: Luis Pires <luis.pires@eldorado.org.br>
+Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
 Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- tcg/optimize.c | 27 ++++++++++++++-------------
+ tcg/riscv/tcg-target.c.inc | 253 +++++++++++++++++--------------------
-file changed, 14 insertions(+), 13 deletions(-)
+file changed, 114 insertions(+), 139 deletions(-)
-diff --git a/tcg/optimize.c b/tcg/optimize.c
+diff --git a/tcg/riscv/tcg-target.c.inc b/tcg/riscv/tcg-target.c.inc
 index XXXXXXX..XXXXXXX 100644
---- a/tcg/optimize.c
+--- a/tcg/riscv/tcg-target.c.inc
-+++ b/tcg/optimize.c
++++ b/tcg/riscv/tcg-target.c.inc
-@@ -XXX,XX +XXX,XX @@ static bool fold_mb(OptContext *ctx, TCGOp *op)
+@@ -XXX,XX +XXX,XX @@ static void * const qemu_st_helpers[MO_SIZE + 1] = {
  #endif
  };
 -/* We expect to use a 12-bit negative offset from ENV.  */
 -QEMU_BUILD_BUG_ON(TLB_MASK_TABLE_OFS(0) > 0);
 -QEMU_BUILD_BUG_ON(TLB_MASK_TABLE_OFS(0) < -(1 << 11));
 -
  static void tcg_out_goto(TCGContext *s, const tcg_insn_unit *target)
  {
      tcg_out_opc_jump(s, OPC_JAL, TCG_REG_ZERO, 0);
@@ -XXX,XX +XXX,XX @@ static void tcg_out_goto(TCGContext *s, const tcg_insn_unit *target)
      tcg_debug_assert(ok);
  }
 -static TCGReg tcg_out_tlb_load(TCGContext *s, TCGReg addr, MemOpIdx oi,
 -                               tcg_insn_unit **label_ptr, bool is_load)
 -{
 -    MemOp opc = get_memop(oi);
 -    unsigned s_bits = opc & MO_SIZE;
 -    unsigned a_bits = get_alignment_bits(opc);
 -    tcg_target_long compare_mask;
 -    int mem_index = get_mmuidx(oi);
 -    int fast_ofs = TLB_MASK_TABLE_OFS(mem_index);
 -    int mask_ofs = fast_ofs + offsetof(CPUTLBDescFast, mask);
 -    int table_ofs = fast_ofs + offsetof(CPUTLBDescFast, table);
 -    TCGReg mask_base = TCG_AREG0, table_base = TCG_AREG0;
 -
 -    tcg_out_ld(s, TCG_TYPE_PTR, TCG_REG_TMP0, mask_base, mask_ofs);
 -    tcg_out_ld(s, TCG_TYPE_PTR, TCG_REG_TMP1, table_base, table_ofs);
 -
 -    tcg_out_opc_imm(s, OPC_SRLI, TCG_REG_TMP2, addr,
 -                    TARGET_PAGE_BITS - CPU_TLB_ENTRY_BITS);
 -    tcg_out_opc_reg(s, OPC_AND, TCG_REG_TMP2, TCG_REG_TMP2, TCG_REG_TMP0);
 -    tcg_out_opc_reg(s, OPC_ADD, TCG_REG_TMP2, TCG_REG_TMP2, TCG_REG_TMP1);
 -
 -    /* Load the tlb comparator and the addend.  */
 -    tcg_out_ld(s, TCG_TYPE_TL, TCG_REG_TMP0, TCG_REG_TMP2,
 -               is_load ? offsetof(CPUTLBEntry, addr_read)
 -               : offsetof(CPUTLBEntry, addr_write));
 -    tcg_out_ld(s, TCG_TYPE_PTR, TCG_REG_TMP2, TCG_REG_TMP2,
 -               offsetof(CPUTLBEntry, addend));
 -
 -    /* We don't support unaligned accesses. */
 -    if (a_bits < s_bits) {
 -        a_bits = s_bits;
 -    }
 -    /* Clear the non-page, non-alignment bits from the address.  */
 -    compare_mask = (tcg_target_long)TARGET_PAGE_MASK | ((1 << a_bits) - 1);
 -    if (compare_mask == sextreg(compare_mask, 0, 12)) {
 -        tcg_out_opc_imm(s, OPC_ANDI, TCG_REG_TMP1, addr, compare_mask);
 -    } else {
 -        tcg_out_movi(s, TCG_TYPE_TL, TCG_REG_TMP1, compare_mask);
 -        tcg_out_opc_reg(s, OPC_AND, TCG_REG_TMP1, TCG_REG_TMP1, addr);
 -    }
 -
 -    /* Compare masked address with the TLB entry. */
 -    label_ptr[0] = s->code_ptr;
 -    tcg_out_opc_branch(s, OPC_BNE, TCG_REG_TMP0, TCG_REG_TMP1, 0);
 -
 -    /* TLB Hit - translate address using addend.  */
 -    if (TARGET_LONG_BITS == 32) {
 -        tcg_out_ext32u(s, TCG_REG_TMP0, addr);
 -        addr = TCG_REG_TMP0;
 -    }
 -    tcg_out_opc_reg(s, OPC_ADD, TCG_REG_TMP0, TCG_REG_TMP2, addr);
 -    return TCG_REG_TMP0;
 -}
 -
 -static void add_qemu_ldst_label(TCGContext *s, int is_ld, MemOpIdx oi,
 -                                TCGType data_type, TCGReg data_reg,
 -                                TCGReg addr_reg, void *raddr,
 -                                tcg_insn_unit **label_ptr)
 -{
 -    TCGLabelQemuLdst *label = new_ldst_label(s);
 -
 -    label->is_ld = is_ld;
 -    label->oi = oi;
 -    label->type = data_type;
 -    label->datalo_reg = data_reg;
 -    label->addrlo_reg = addr_reg;
 -    label->raddr = tcg_splitwx_to_rx(raddr);
 -    label->label_ptr[0] = label_ptr[0];
 -}
 -
  static bool tcg_out_qemu_ld_slow_path(TCGContext *s, TCGLabelQemuLdst *l)
  {
      MemOpIdx oi = l->oi;
@@ -XXX,XX +XXX,XX @@ static bool tcg_out_qemu_st_slow_path(TCGContext *s, TCGLabelQemuLdst *l)
      return true;
  }
+ #else
-+static bool fold_mov(OptContext *ctx, TCGOp *op)
+-
 -static void tcg_out_test_alignment(TCGContext *s, bool is_ld, TCGReg addr_reg,
 -                                   unsigned a_bits)
 -{
 -    unsigned a_mask = (1 << a_bits) - 1;
 -    TCGLabelQemuLdst *l = new_ldst_label(s);
 -
 -    l->is_ld = is_ld;
 -    l->addrlo_reg = addr_reg;
 -
 -    /* We are expecting a_bits to max out at 7, so we can always use andi. */
 -    tcg_debug_assert(a_bits < 12);
 -    tcg_out_opc_imm(s, OPC_ANDI, TCG_REG_TMP1, addr_reg, a_mask);
 -
 -    l->label_ptr[0] = s->code_ptr;
 -    tcg_out_opc_branch(s, OPC_BNE, TCG_REG_TMP1, TCG_REG_ZERO, 0);
 -
 -    l->raddr = tcg_splitwx_to_rx(s->code_ptr);
 -}
 -
  static bool tcg_out_fail_alignment(TCGContext *s, TCGLabelQemuLdst *l)
  {
      /* resolve label address */
@@ -XXX,XX +XXX,XX @@ static bool tcg_out_qemu_st_slow_path(TCGContext *s, TCGLabelQemuLdst *l)
  {
      return tcg_out_fail_alignment(s, l);
  }
 -
  #endif /* CONFIG_SOFTMMU */
 +/*
 + * For softmmu, perform the TLB load and compare.
 + * For useronly, perform any required alignment tests.
 + * In both cases, return a TCGLabelQemuLdst structure if the slow path
 + * is required and fill in @h with the host address for the fast path.
 + */
 +static TCGLabelQemuLdst *prepare_host_addr(TCGContext *s, TCGReg *pbase,
 +                                           TCGReg addr_reg, MemOpIdx oi,
 +                                           bool is_ld)
 +{
-+    return tcg_opt_gen_mov(ctx, op, op->args[0], op->args[1]);
++    TCGLabelQemuLdst *ldst = NULL;
 +    MemOp opc = get_memop(oi);
 +    unsigned a_bits = get_alignment_bits(opc);
 +    unsigned a_mask = (1u << a_bits) - 1;
 +
 +#ifdef CONFIG_SOFTMMU
 +    unsigned s_bits = opc & MO_SIZE;
 +    int mem_index = get_mmuidx(oi);
 +    int fast_ofs = TLB_MASK_TABLE_OFS(mem_index);
 +    int mask_ofs = fast_ofs + offsetof(CPUTLBDescFast, mask);
 +    int table_ofs = fast_ofs + offsetof(CPUTLBDescFast, table);
 +    TCGReg mask_base = TCG_AREG0, table_base = TCG_AREG0;
 +    tcg_target_long compare_mask;
 +
 +    ldst = new_ldst_label(s);
 +    ldst->is_ld = is_ld;
 +    ldst->oi = oi;
 +    ldst->addrlo_reg = addr_reg;
 +
 +    QEMU_BUILD_BUG_ON(TLB_MASK_TABLE_OFS(0) > 0);
 +    QEMU_BUILD_BUG_ON(TLB_MASK_TABLE_OFS(0) < -(1 << 11));
 +    tcg_out_ld(s, TCG_TYPE_PTR, TCG_REG_TMP0, mask_base, mask_ofs);
 +    tcg_out_ld(s, TCG_TYPE_PTR, TCG_REG_TMP1, table_base, table_ofs);
 +
 +    tcg_out_opc_imm(s, OPC_SRLI, TCG_REG_TMP2, addr_reg,
 +                    TARGET_PAGE_BITS - CPU_TLB_ENTRY_BITS);
 +    tcg_out_opc_reg(s, OPC_AND, TCG_REG_TMP2, TCG_REG_TMP2, TCG_REG_TMP0);
 +    tcg_out_opc_reg(s, OPC_ADD, TCG_REG_TMP2, TCG_REG_TMP2, TCG_REG_TMP1);
 +
 +    /* Load the tlb comparator and the addend.  */
 +    tcg_out_ld(s, TCG_TYPE_TL, TCG_REG_TMP0, TCG_REG_TMP2,
 +               is_ld ? offsetof(CPUTLBEntry, addr_read)
 +                     : offsetof(CPUTLBEntry, addr_write));
 +    tcg_out_ld(s, TCG_TYPE_PTR, TCG_REG_TMP2, TCG_REG_TMP2,
 +               offsetof(CPUTLBEntry, addend));
 +
 +    /* We don't support unaligned accesses. */
 +    if (a_bits < s_bits) {
 +        a_bits = s_bits;
 +    }
 +    /* Clear the non-page, non-alignment bits from the address.  */
 +    compare_mask = (tcg_target_long)TARGET_PAGE_MASK | a_mask;
 +    if (compare_mask == sextreg(compare_mask, 0, 12)) {
 +        tcg_out_opc_imm(s, OPC_ANDI, TCG_REG_TMP1, addr_reg, compare_mask);
 +    } else {
 +        tcg_out_movi(s, TCG_TYPE_TL, TCG_REG_TMP1, compare_mask);
 +        tcg_out_opc_reg(s, OPC_AND, TCG_REG_TMP1, TCG_REG_TMP1, addr_reg);
 +    }
 +
 +    /* Compare masked address with the TLB entry. */
 +    ldst->label_ptr[0] = s->code_ptr;
 +    tcg_out_opc_branch(s, OPC_BNE, TCG_REG_TMP0, TCG_REG_TMP1, 0);
 +
 +    /* TLB Hit - translate address using addend.  */
 +    if (TARGET_LONG_BITS == 32) {
 +        tcg_out_ext32u(s, TCG_REG_TMP0, addr_reg);
 +        addr_reg = TCG_REG_TMP0;
 +    }
 +    tcg_out_opc_reg(s, OPC_ADD, TCG_REG_TMP0, TCG_REG_TMP2, addr_reg);
 +    *pbase = TCG_REG_TMP0;
 +#else
 +    if (a_mask) {
 +        ldst = new_ldst_label(s);
 +        ldst->is_ld = is_ld;
 +        ldst->oi = oi;
 +        ldst->addrlo_reg = addr_reg;
 +
 +        /* We are expecting a_bits max 7, so we can always use andi. */
 +        tcg_debug_assert(a_bits < 12);
 +        tcg_out_opc_imm(s, OPC_ANDI, TCG_REG_TMP1, addr_reg, a_mask);
 +
 +        ldst->label_ptr[0] = s->code_ptr;
 +        tcg_out_opc_branch(s, OPC_BNE, TCG_REG_TMP1, TCG_REG_ZERO, 0);
 +    }
 +
 +    TCGReg base = addr_reg;
 +    if (TARGET_LONG_BITS == 32) {
 +        tcg_out_ext32u(s, TCG_REG_TMP0, base);
 +        base = TCG_REG_TMP0;
 +    }
 +    if (guest_base != 0) {
 +        tcg_out_opc_reg(s, OPC_ADD, TCG_REG_TMP0, TCG_GUEST_BASE_REG, base);
 +        base = TCG_REG_TMP0;
 +    }
 +    *pbase = base;
 +#endif
 +
 +    return ldst;
 +}
 +
- static bool fold_movcond(OptContext *ctx, TCGOp *op)
+ static void tcg_out_qemu_ld_direct(TCGContext *s, TCGReg val,
- {
+                                    TCGReg base, MemOp opc, TCGType type)
-     TCGOpcode opc = op->opc;
+ {
-@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
+@@ -XXX,XX +XXX,XX @@ static void tcg_out_qemu_ld_direct(TCGContext *s, TCGReg val,
-             break;
+ static void tcg_out_qemu_ld(TCGContext *s, TCGReg data_reg, TCGReg addr_reg,
-         }
+                             MemOpIdx oi, TCGType data_type)
+ {
--        /* Propagate constants through copy operations and do constant
+-    MemOp opc = get_memop(oi);
--           folding.  Constants will be substituted to arguments by register
++    TCGLabelQemuLdst *ldst;
--           allocator where needed and possible.  Also detect copies. */
+     TCGReg base;
-+        /*
-+         * Process each opcode.
+-#if defined(CONFIG_SOFTMMU)
-+         * Sorted alphabetically by opcode as much as possible.
+-    tcg_insn_unit *label_ptr[1];
-+         */
++    ldst = prepare_host_addr(s, &base, addr_reg, oi, true);
-         switch (opc) {
++    tcg_out_qemu_ld_direct(s, data_reg, base, get_memop(oi), data_type);
--        CASE_OP_32_64_VEC(mov):
--            done = tcg_opt_gen_mov(&ctx, op, op->args[0], op->args[1]);
+-    base = tcg_out_tlb_load(s, addr_reg, oi, label_ptr, 1);
--            break;
+-    tcg_out_qemu_ld_direct(s, data_reg, base, opc, data_type);
--
+-    add_qemu_ldst_label(s, true, oi, data_type, data_reg, addr_reg,
--        default:
+-                        s->code_ptr, label_ptr);
--            break;
+-#else
--
+-    unsigned a_bits = get_alignment_bits(opc);
--        /* ---------------------------------------------------------- */
+-    if (a_bits) {
--        /* Sorted alphabetically by opcode as much as possible. */
+-        tcg_out_test_alignment(s, true, addr_reg, a_bits);
--
++    if (ldst) {
-         CASE_OP_32_64_VEC(add):
++        ldst->type = data_type;
-             done = fold_add(&ctx, op);
++        ldst->datalo_reg = data_reg;
-             break;
++        ldst->raddr = tcg_splitwx_to_rx(s->code_ptr);
-@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
+     }
-         case INDEX_op_mb:
+-    base = addr_reg;
-             done = fold_mb(&ctx, op);
+-    if (TARGET_LONG_BITS == 32) {
-             break;
+-        tcg_out_ext32u(s, TCG_REG_TMP0, base);
-+        CASE_OP_32_64_VEC(mov):
+-        base = TCG_REG_TMP0;
-+            done = fold_mov(&ctx, op);
+-    }
-+            break;
+-    if (guest_base != 0) {
-         CASE_OP_32_64(movcond):
+-        tcg_out_opc_reg(s, OPC_ADD, TCG_REG_TMP0, TCG_GUEST_BASE_REG, base);
-             done = fold_movcond(&ctx, op);
+-        base = TCG_REG_TMP0;
-             break;
+-    }
-@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
+-    tcg_out_qemu_ld_direct(s, data_reg, base, opc, data_type);
-         CASE_OP_32_64_VEC(xor):
+-#endif
-             done = fold_xor(&ctx, op);
+ }
-             break;
-+        default:
+ static void tcg_out_qemu_st_direct(TCGContext *s, TCGReg val,
-+            break;
+@@ -XXX,XX +XXX,XX @@ static void tcg_out_qemu_st_direct(TCGContext *s, TCGReg val,
-         }
+ static void tcg_out_qemu_st(TCGContext *s, TCGReg data_reg, TCGReg addr_reg,
+                             MemOpIdx oi, TCGType data_type)
-         if (!done) {
+ {
 -    MemOp opc = get_memop(oi);
 +    TCGLabelQemuLdst *ldst;
      TCGReg base;
 -#if defined(CONFIG_SOFTMMU)
 -    tcg_insn_unit *label_ptr[1];
 +    ldst = prepare_host_addr(s, &base, addr_reg, oi, false);
 +    tcg_out_qemu_st_direct(s, data_reg, base, get_memop(oi));
 -    base = tcg_out_tlb_load(s, addr_reg, oi, label_ptr, 0);
 -    tcg_out_qemu_st_direct(s, data_reg, base, opc);
 -    add_qemu_ldst_label(s, false, oi, data_type, data_reg, addr_reg,
 -                        s->code_ptr, label_ptr);
 -#else
 -    unsigned a_bits = get_alignment_bits(opc);
 -    if (a_bits) {
 -        tcg_out_test_alignment(s, false, addr_reg, a_bits);
 +    if (ldst) {
 +        ldst->type = data_type;
 +        ldst->datalo_reg = data_reg;
 +        ldst->raddr = tcg_splitwx_to_rx(s->code_ptr);
      }
 -    base = addr_reg;
 -    if (TARGET_LONG_BITS == 32) {
 -        tcg_out_ext32u(s, TCG_REG_TMP0, base);
 -        base = TCG_REG_TMP0;
 -    }
 -    if (guest_base != 0) {
 -        tcg_out_opc_reg(s, OPC_ADD, TCG_REG_TMP0, TCG_GUEST_BASE_REG, base);
 -        base = TCG_REG_TMP0;
 -    }
 -    tcg_out_qemu_st_direct(s, data_reg, base, opc);
 -#endif
  }
  static const tcg_insn_unit *tb_ret_addr;
 --
-.25.1
+.34.1

-[PULL 31/56] tcg/optimize: Split out fold_count_zeros
+[PULL 19/53] tcg/s390x: Introduce prepare_host_addr
-Reviewed-by: Luis Pires <luis.pires@eldorado.org.br>
+Merge tcg_out_tlb_load, add_qemu_ldst_label, tcg_out_test_alignment,
-Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
+tcg_prepare_user_ldst, and some code that lived in both tcg_out_qemu_ld
 and tcg_out_qemu_st into one function that returns HostAddress and
 TCGLabelQemuLdst structures.
 Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- tcg/optimize.c | 32 ++++++++++++++++++--------------
+ tcg/s390x/tcg-target.c.inc | 263 ++++++++++++++++---------------------
-file changed, 18 insertions(+), 14 deletions(-)
+file changed, 113 insertions(+), 150 deletions(-)
-diff --git a/tcg/optimize.c b/tcg/optimize.c
+diff --git a/tcg/s390x/tcg-target.c.inc b/tcg/s390x/tcg-target.c.inc
 index XXXXXXX..XXXXXXX 100644
---- a/tcg/optimize.c
+--- a/tcg/s390x/tcg-target.c.inc
-+++ b/tcg/optimize.c
++++ b/tcg/s390x/tcg-target.c.inc
-@@ -XXX,XX +XXX,XX @@ static bool fold_call(OptContext *ctx, TCGOp *op)
+@@ -XXX,XX +XXX,XX @@ static void tcg_out_qemu_st_direct(TCGContext *s, MemOp opc, TCGReg data,
  }
  #if defined(CONFIG_SOFTMMU)
 -/* We're expecting to use a 20-bit negative offset on the tlb memory ops.  */
 -QEMU_BUILD_BUG_ON(TLB_MASK_TABLE_OFS(0) > 0);
 -QEMU_BUILD_BUG_ON(TLB_MASK_TABLE_OFS(0) < -(1 << 19));
 -
 -/* Load and compare a TLB entry, leaving the flags set.  Loads the TLB
 -   addend into R2.  Returns a register with the santitized guest address.  */
 -static TCGReg tcg_out_tlb_read(TCGContext *s, TCGReg addr_reg, MemOp opc,
 -                               int mem_index, bool is_ld)
 -{
 -    unsigned s_bits = opc & MO_SIZE;
 -    unsigned a_bits = get_alignment_bits(opc);
 -    unsigned s_mask = (1 << s_bits) - 1;
 -    unsigned a_mask = (1 << a_bits) - 1;
 -    int fast_off = TLB_MASK_TABLE_OFS(mem_index);
 -    int mask_off = fast_off + offsetof(CPUTLBDescFast, mask);
 -    int table_off = fast_off + offsetof(CPUTLBDescFast, table);
 -    int ofs, a_off;
 -    uint64_t tlb_mask;
 -
 -    tcg_out_sh64(s, RSY_SRLG, TCG_REG_R2, addr_reg, TCG_REG_NONE,
 -                 TARGET_PAGE_BITS - CPU_TLB_ENTRY_BITS);
 -    tcg_out_insn(s, RXY, NG, TCG_REG_R2, TCG_AREG0, TCG_REG_NONE, mask_off);
 -    tcg_out_insn(s, RXY, AG, TCG_REG_R2, TCG_AREG0, TCG_REG_NONE, table_off);
 -
 -    /* For aligned accesses, we check the first byte and include the alignment
 -       bits within the address.  For unaligned access, we check that we don't
 -       cross pages using the address of the last byte of the access.  */
 -    a_off = (a_bits >= s_bits ? 0 : s_mask - a_mask);
 -    tlb_mask = (uint64_t)TARGET_PAGE_MASK | a_mask;
 -    if (a_off == 0) {
 -        tgen_andi_risbg(s, TCG_REG_R3, addr_reg, tlb_mask);
 -    } else {
 -        tcg_out_insn(s, RX, LA, TCG_REG_R3, addr_reg, TCG_REG_NONE, a_off);
 -        tgen_andi(s, TCG_TYPE_TL, TCG_REG_R3, tlb_mask);
 -    }
 -
 -    if (is_ld) {
 -        ofs = offsetof(CPUTLBEntry, addr_read);
 -    } else {
 -        ofs = offsetof(CPUTLBEntry, addr_write);
 -    }
 -    if (TARGET_LONG_BITS == 32) {
 -        tcg_out_insn(s, RX, C, TCG_REG_R3, TCG_REG_R2, TCG_REG_NONE, ofs);
 -    } else {
 -        tcg_out_insn(s, RXY, CG, TCG_REG_R3, TCG_REG_R2, TCG_REG_NONE, ofs);
 -    }
 -
 -    tcg_out_insn(s, RXY, LG, TCG_REG_R2, TCG_REG_R2, TCG_REG_NONE,
 -                 offsetof(CPUTLBEntry, addend));
 -
 -    if (TARGET_LONG_BITS == 32) {
 -        tcg_out_ext32u(s, TCG_REG_R3, addr_reg);
 -        return TCG_REG_R3;
 -    }
 -    return addr_reg;
 -}
 -
 -static void add_qemu_ldst_label(TCGContext *s, bool is_ld, MemOpIdx oi,
 -                                TCGType type, TCGReg data, TCGReg addr,
 -                                tcg_insn_unit *raddr, tcg_insn_unit *label_ptr)
 -{
 -    TCGLabelQemuLdst *label = new_ldst_label(s);
 -
 -    label->is_ld = is_ld;
 -    label->oi = oi;
 -    label->type = type;
 -    label->datalo_reg = data;
 -    label->addrlo_reg = addr;
 -    label->raddr = tcg_splitwx_to_rx(raddr);
 -    label->label_ptr[0] = label_ptr;
 -}
 -
  static bool tcg_out_qemu_ld_slow_path(TCGContext *s, TCGLabelQemuLdst *lb)
  {
      TCGReg addr_reg = lb->addrlo_reg;
@@ -XXX,XX +XXX,XX @@ static bool tcg_out_qemu_st_slow_path(TCGContext *s, TCGLabelQemuLdst *lb)
      return true;
  }
+ #else
-+static bool fold_count_zeros(OptContext *ctx, TCGOp *op)
+-static void tcg_out_test_alignment(TCGContext *s, bool is_ld,
-+{
+-                                   TCGReg addrlo, unsigned a_bits)
-+    if (arg_is_const(op->args[1])) {
+-{
-+        uint64_t t = arg_info(op->args[1])->val;
+-    unsigned a_mask = (1 << a_bits) - 1;
-+
+-    TCGLabelQemuLdst *l = new_ldst_label(s);
-+        if (t != 0) {
+-
-+            t = do_constant_folding(op->opc, t, 0);
+-    l->is_ld = is_ld;
-+            return tcg_opt_gen_movi(ctx, op, op->args[0], t);
+-    l->addrlo_reg = addrlo;
-+        }
+-
-+        return tcg_opt_gen_mov(ctx, op, op->args[0], op->args[2]);
+-    /* We are expecting a_bits to max out at 7, much lower than TMLL. */
-+    }
+-    tcg_debug_assert(a_bits < 16);
-+    return false;
+-    tcg_out_insn(s, RI, TMLL, addrlo, a_mask);
-+}
+-
-+
+-    tcg_out16(s, RI_BRC | (7 << 4)); /* CC in {1,2,3} */
- static bool fold_ctpop(OptContext *ctx, TCGOp *op)
+-    l->label_ptr[0] = s->code_ptr;
- {
+-    s->code_ptr += 1;
-     return fold_const1(ctx, op);
+-
-@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
+-    l->raddr = tcg_splitwx_to_rx(s->code_ptr);
-             }
+-}
-             break;
+-
+ static bool tcg_out_fail_alignment(TCGContext *s, TCGLabelQemuLdst *l)
--        CASE_OP_32_64(clz):
+ {
--        CASE_OP_32_64(ctz):
+     if (!patch_reloc(l->label_ptr[0], R_390_PC16DBL,
--            if (arg_is_const(op->args[1])) {
+@@ -XXX,XX +XXX,XX @@ static bool tcg_out_qemu_st_slow_path(TCGContext *s, TCGLabelQemuLdst *l)
--                TCGArg v = arg_info(op->args[1])->val;
+ {
--                if (v != 0) {
+     return tcg_out_fail_alignment(s, l);
--                    tmp = do_constant_folding(opc, v, 0);
+ }
--                    tcg_opt_gen_movi(&ctx, op, op->args[0], tmp);
++#endif /* CONFIG_SOFTMMU */
--                } else {
--                    tcg_opt_gen_mov(&ctx, op, op->args[0], op->args[2]);
+-static HostAddress tcg_prepare_user_ldst(TCGContext *s, TCGReg addr_reg)
--                }
++/*
--                continue;
++ * For softmmu, perform the TLB load and compare.
--            }
++ * For useronly, perform any required alignment tests.
--            break;
++ * In both cases, return a TCGLabelQemuLdst structure if the slow path
--
++ * is required and fill in @h with the host address for the fast path.
-         default:
++ */
-             break;
++static TCGLabelQemuLdst *prepare_host_addr(TCGContext *s, HostAddress *h,
++                                           TCGReg addr_reg, MemOpIdx oi,
-@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
++                                           bool is_ld)
-         case INDEX_op_brcond2_i32:
+ {
-             done = fold_brcond2(&ctx, op);
+-    TCGReg index;
-             break;
+-    int disp;
-+        CASE_OP_32_64(clz):
++    TCGLabelQemuLdst *ldst = NULL;
-+        CASE_OP_32_64(ctz):
++    MemOp opc = get_memop(oi);
-+            done = fold_count_zeros(&ctx, op);
++    unsigned a_bits = get_alignment_bits(opc);
-+            break;
++    unsigned a_mask = (1u << a_bits) - 1;
-         CASE_OP_32_64(ctpop):
-             done = fold_ctpop(&ctx, op);
++#ifdef CONFIG_SOFTMMU
-             break;
++    unsigned s_bits = opc & MO_SIZE;
 +    unsigned s_mask = (1 << s_bits) - 1;
 +    int mem_index = get_mmuidx(oi);
 +    int fast_off = TLB_MASK_TABLE_OFS(mem_index);
 +    int mask_off = fast_off + offsetof(CPUTLBDescFast, mask);
 +    int table_off = fast_off + offsetof(CPUTLBDescFast, table);
 +    int ofs, a_off;
 +    uint64_t tlb_mask;
 +
 +    ldst = new_ldst_label(s);
 +    ldst->is_ld = is_ld;
 +    ldst->oi = oi;
 +    ldst->addrlo_reg = addr_reg;
 +
 +    tcg_out_sh64(s, RSY_SRLG, TCG_REG_R2, addr_reg, TCG_REG_NONE,
 +                 TARGET_PAGE_BITS - CPU_TLB_ENTRY_BITS);
 +
 +    QEMU_BUILD_BUG_ON(TLB_MASK_TABLE_OFS(0) > 0);
 +    QEMU_BUILD_BUG_ON(TLB_MASK_TABLE_OFS(0) < -(1 << 19));
 +    tcg_out_insn(s, RXY, NG, TCG_REG_R2, TCG_AREG0, TCG_REG_NONE, mask_off);
 +    tcg_out_insn(s, RXY, AG, TCG_REG_R2, TCG_AREG0, TCG_REG_NONE, table_off);
 +
 +    /*
 +     * For aligned accesses, we check the first byte and include the alignment
 +     * bits within the address.  For unaligned access, we check that we don't
 +     * cross pages using the address of the last byte of the access.
 +     */
 +    a_off = (a_bits >= s_bits ? 0 : s_mask - a_mask);
 +    tlb_mask = (uint64_t)TARGET_PAGE_MASK | a_mask;
 +    if (a_off == 0) {
 +        tgen_andi_risbg(s, TCG_REG_R3, addr_reg, tlb_mask);
 +    } else {
 +        tcg_out_insn(s, RX, LA, TCG_REG_R3, addr_reg, TCG_REG_NONE, a_off);
 +        tgen_andi(s, TCG_TYPE_TL, TCG_REG_R3, tlb_mask);
 +    }
 +
 +    if (is_ld) {
 +        ofs = offsetof(CPUTLBEntry, addr_read);
 +    } else {
 +        ofs = offsetof(CPUTLBEntry, addr_write);
 +    }
 +    if (TARGET_LONG_BITS == 32) {
 +        tcg_out_insn(s, RX, C, TCG_REG_R3, TCG_REG_R2, TCG_REG_NONE, ofs);
 +    } else {
 +        tcg_out_insn(s, RXY, CG, TCG_REG_R3, TCG_REG_R2, TCG_REG_NONE, ofs);
 +    }
 +
 +    tcg_out16(s, RI_BRC | (S390_CC_NE << 4));
 +    ldst->label_ptr[0] = s->code_ptr++;
 +
 +    h->index = TCG_REG_R2;
 +    tcg_out_insn(s, RXY, LG, h->index, TCG_REG_R2, TCG_REG_NONE,
 +                 offsetof(CPUTLBEntry, addend));
 +
 +    h->base = addr_reg;
 +    if (TARGET_LONG_BITS == 32) {
 +        tcg_out_ext32u(s, TCG_REG_R3, addr_reg);
 +        h->base = TCG_REG_R3;
 +    }
 +    h->disp = 0;
 +#else
 +    if (a_mask) {
 +        ldst = new_ldst_label(s);
 +        ldst->is_ld = is_ld;
 +        ldst->oi = oi;
 +        ldst->addrlo_reg = addr_reg;
 +
 +        /* We are expecting a_bits to max out at 7, much lower than TMLL. */
 +        tcg_debug_assert(a_bits < 16);
 +        tcg_out_insn(s, RI, TMLL, addr_reg, a_mask);
 +
 +        tcg_out16(s, RI_BRC | (7 << 4)); /* CC in {1,2,3} */
 +        ldst->label_ptr[0] = s->code_ptr++;
 +    }
 +
 +    h->base = addr_reg;
      if (TARGET_LONG_BITS == 32) {
          tcg_out_ext32u(s, TCG_TMP0, addr_reg);
 -        addr_reg = TCG_TMP0;
 +        h->base = TCG_TMP0;
      }
      if (guest_base < 0x80000) {
 -        index = TCG_REG_NONE;
 -        disp = guest_base;
 +        h->index = TCG_REG_NONE;
 +        h->disp = guest_base;
      } else {
 -        index = TCG_GUEST_BASE_REG;
 -        disp = 0;
 +        h->index = TCG_GUEST_BASE_REG;
 +        h->disp = 0;
      }
 -    return (HostAddress){ .base = addr_reg, .index = index, .disp = disp };
 +#endif
 +
 +    return ldst;
  }
 -#endif /* CONFIG_SOFTMMU */
  static void tcg_out_qemu_ld(TCGContext* s, TCGReg data_reg, TCGReg addr_reg,
                              MemOpIdx oi, TCGType data_type)
  {
 -    MemOp opc = get_memop(oi);
 +    TCGLabelQemuLdst *ldst;
      HostAddress h;
 -#ifdef CONFIG_SOFTMMU
 -    unsigned mem_index = get_mmuidx(oi);
 -    tcg_insn_unit *label_ptr;
 +    ldst = prepare_host_addr(s, &h, addr_reg, oi, true);
 +    tcg_out_qemu_ld_direct(s, get_memop(oi), data_reg, h);
 -    h.base = tcg_out_tlb_read(s, addr_reg, opc, mem_index, 1);
 -    h.index = TCG_REG_R2;
 -    h.disp = 0;
 -
 -    tcg_out16(s, RI_BRC | (S390_CC_NE << 4));
 -    label_ptr = s->code_ptr;
 -    s->code_ptr += 1;
 -
 -    tcg_out_qemu_ld_direct(s, opc, data_reg, h);
 -
 -    add_qemu_ldst_label(s, true, oi, data_type, data_reg, addr_reg,
 -                        s->code_ptr, label_ptr);
 -#else
 -    unsigned a_bits = get_alignment_bits(opc);
 -
 -    if (a_bits) {
 -        tcg_out_test_alignment(s, true, addr_reg, a_bits);
 +    if (ldst) {
 +        ldst->type = data_type;
 +        ldst->datalo_reg = data_reg;
 +        ldst->raddr = tcg_splitwx_to_rx(s->code_ptr);
      }
 -    h = tcg_prepare_user_ldst(s, addr_reg);
 -    tcg_out_qemu_ld_direct(s, opc, data_reg, h);
 -#endif
  }
  static void tcg_out_qemu_st(TCGContext* s, TCGReg data_reg, TCGReg addr_reg,
                              MemOpIdx oi, TCGType data_type)
  {
 -    MemOp opc = get_memop(oi);
 +    TCGLabelQemuLdst *ldst;
      HostAddress h;
 -#ifdef CONFIG_SOFTMMU
 -    unsigned mem_index = get_mmuidx(oi);
 -    tcg_insn_unit *label_ptr;
 +    ldst = prepare_host_addr(s, &h, addr_reg, oi, false);
 +    tcg_out_qemu_st_direct(s, get_memop(oi), data_reg, h);
 -    h.base = tcg_out_tlb_read(s, addr_reg, opc, mem_index, 0);
 -    h.index = TCG_REG_R2;
 -    h.disp = 0;
 -
 -    tcg_out16(s, RI_BRC | (S390_CC_NE << 4));
 -    label_ptr = s->code_ptr;
 -    s->code_ptr += 1;
 -
 -    tcg_out_qemu_st_direct(s, opc, data_reg, h);
 -
 -    add_qemu_ldst_label(s, false, oi, data_type, data_reg, addr_reg,
 -                        s->code_ptr, label_ptr);
 -#else
 -    unsigned a_bits = get_alignment_bits(opc);
 -
 -    if (a_bits) {
 -        tcg_out_test_alignment(s, false, addr_reg, a_bits);
 +    if (ldst) {
 +        ldst->type = data_type;
 +        ldst->datalo_reg = data_reg;
 +        ldst->raddr = tcg_splitwx_to_rx(s->code_ptr);
      }
 -    h = tcg_prepare_user_ldst(s, addr_reg);
 -    tcg_out_qemu_st_direct(s, opc, data_reg, h);
 -#endif
  }
  static void tcg_out_exit_tb(TCGContext *s, uintptr_t a0)
 --
-.25.1
+.34.1

-[PULL 43/56] tcg/optimize: Split out fold_masks
+[PULL 20/53] tcg: Add routines for calling slow-path helpers
-Move all of the known-zero optimizations into the per-opcode
+Add tcg_out_ld_helper_args, tcg_out_ld_helper_ret,
-functions.  Use fold_masks when there is a possibility of the
+and tcg_out_st_helper_args.  These and their subroutines
-result being determined, and simply set ctx->z_mask otherwise.
+use the existing knowledge of the host function call abi
 to load the function call arguments and return results.
 These will be used to simplify the backends in turn.
 Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
-Reviewed-by: Luis Pires <luis.pires@eldorado.org.br>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- tcg/optimize.c | 545 ++++++++++++++++++++++++++-----------------------
+ tcg/tcg.c | 475 +++++++++++++++++++++++++++++++++++++++++++++++++++++-
-file changed, 294 insertions(+), 251 deletions(-)
+file changed, 471 insertions(+), 4 deletions(-)
-diff --git a/tcg/optimize.c b/tcg/optimize.c
+diff --git a/tcg/tcg.c b/tcg/tcg.c
 index XXXXXXX..XXXXXXX 100644
---- a/tcg/optimize.c
+--- a/tcg/tcg.c
-+++ b/tcg/optimize.c
++++ b/tcg/tcg.c
-@@ -XXX,XX +XXX,XX @@ typedef struct OptContext {
+@@ -XXX,XX +XXX,XX @@ static bool tcg_target_const_match(int64_t val, TCGType type, int ct);
-     TCGTempSet temps_used;
+ static int tcg_out_ldst_finalize(TCGContext *s);
+ #endif
-     /* In flight values from optimization. */
--    uint64_t z_mask;
++typedef struct TCGLdstHelperParam {
-+    uint64_t a_mask;  /* mask bit is 0 iff value identical to first input */
++    TCGReg (*ra_gen)(TCGContext *s, const TCGLabelQemuLdst *l, int arg_reg);
-+    uint64_t z_mask;  /* mask bit is 0 iff value bit is 0 */
++    unsigned ntmp;
-     TCGType type;
++    int tmp[3];
- } OptContext;
++} TCGLdstHelperParam;
++
-@@ -XXX,XX +XXX,XX @@ static bool fold_const2(OptContext *ctx, TCGOp *op)
++static void tcg_out_ld_helper_args(TCGContext *s, const TCGLabelQemuLdst *l,
-     return false;
++                                   const TCGLdstHelperParam *p)
 +    __attribute__((unused));
 +static void tcg_out_ld_helper_ret(TCGContext *s, const TCGLabelQemuLdst *l,
 +                                  bool load_sign, const TCGLdstHelperParam *p)
 +    __attribute__((unused));
 +static void tcg_out_st_helper_args(TCGContext *s, const TCGLabelQemuLdst *l,
 +                                   const TCGLdstHelperParam *p)
 +    __attribute__((unused));
 +
  TCGContext tcg_init_ctx;
  __thread TCGContext *tcg_ctx;
@@ -XXX,XX +XXX,XX @@ void tcg_raise_tb_overflow(TCGContext *s)
      siglongjmp(s->jmp_trans, -2);
  }
-+static bool fold_masks(OptContext *ctx, TCGOp *op)
++/*
-+{
++ * Used by tcg_out_movext{1,2} to hold the arguments for tcg_out_movext.
-+    uint64_t a_mask = ctx->a_mask;
++ * By the time we arrive at tcg_out_movext1, @dst is always a TCGReg.
-+    uint64_t z_mask = ctx->z_mask;
++ *
 + * However, tcg_out_helper_load_slots reuses this field to hold an
 + * argument slot number (which may designate a argument register or an
 + * argument stack slot), converting to TCGReg once all arguments that
 + * are destined for the stack are processed.
 + */
  typedef struct TCGMovExtend {
 -    TCGReg dst;
 +    unsigned dst;
      TCGReg src;
      TCGType dst_type;
      TCGType src_type;
@@ -XXX,XX +XXX,XX @@ static void tcg_out_movext1(TCGContext *s, const TCGMovExtend *i)
   * between the sources and destinations.
   */
 -static void __attribute__((unused))
 -tcg_out_movext2(TCGContext *s, const TCGMovExtend *i1,
 -                const TCGMovExtend *i2, int scratch)
 +static void tcg_out_movext2(TCGContext *s, const TCGMovExtend *i1,
 +                            const TCGMovExtend *i2, int scratch)
  {
      TCGReg src1 = i1->src;
      TCGReg src2 = i2->src;
@@ -XXX,XX +XXX,XX @@ static TCGHelperInfo all_helpers[] = {
  };
  static GHashTable *helper_table;
 +/*
 + * Create TCGHelperInfo structures for "tcg/tcg-ldst.h" functions,
 + * akin to what "exec/helper-tcg.h" does with DEF_HELPER_FLAGS_N.
 + * We only use these for layout in tcg_out_ld_helper_ret and
 + * tcg_out_st_helper_args, and share them between several of
 + * the helpers, with the end result that it's easier to build manually.
 + */
 +
 +#if TCG_TARGET_REG_BITS == 32
 +# define dh_typecode_ttl  dh_typecode_i32
 +#else
 +# define dh_typecode_ttl  dh_typecode_i64
 +#endif
 +
 +static TCGHelperInfo info_helper_ld32_mmu = {
 +    .flags = TCG_CALL_NO_WG,
 +    .typemask = dh_typemask(ttl, 0)  /* return tcg_target_ulong */
 +              | dh_typemask(env, 1)
 +              | dh_typemask(tl, 2)   /* target_ulong addr */
 +              | dh_typemask(i32, 3)  /* unsigned oi */
 +              | dh_typemask(ptr, 4)  /* uintptr_t ra */
 +};
 +
 +static TCGHelperInfo info_helper_ld64_mmu = {
 +    .flags = TCG_CALL_NO_WG,
 +    .typemask = dh_typemask(i64, 0)  /* return uint64_t */
 +              | dh_typemask(env, 1)
 +              | dh_typemask(tl, 2)   /* target_ulong addr */
 +              | dh_typemask(i32, 3)  /* unsigned oi */
 +              | dh_typemask(ptr, 4)  /* uintptr_t ra */
 +};
 +
 +static TCGHelperInfo info_helper_st32_mmu = {
 +    .flags = TCG_CALL_NO_WG,
 +    .typemask = dh_typemask(void, 0)
 +              | dh_typemask(env, 1)
 +              | dh_typemask(tl, 2)   /* target_ulong addr */
 +              | dh_typemask(i32, 3)  /* uint32_t data */
 +              | dh_typemask(i32, 4)  /* unsigned oi */
 +              | dh_typemask(ptr, 5)  /* uintptr_t ra */
 +};
 +
 +static TCGHelperInfo info_helper_st64_mmu = {
 +    .flags = TCG_CALL_NO_WG,
 +    .typemask = dh_typemask(void, 0)
 +              | dh_typemask(env, 1)
 +              | dh_typemask(tl, 2)   /* target_ulong addr */
 +              | dh_typemask(i64, 3)  /* uint64_t data */
 +              | dh_typemask(i32, 4)  /* unsigned oi */
 +              | dh_typemask(ptr, 5)  /* uintptr_t ra */
 +};
 +
  #ifdef CONFIG_TCG_INTERPRETER
  static ffi_type *typecode_to_ffi(int argmask)
  {
@@ -XXX,XX +XXX,XX @@ static void tcg_context_init(unsigned max_cpus)
                              (gpointer)&all_helpers[i]);
      }
 +    init_call_layout(&info_helper_ld32_mmu);
 +    init_call_layout(&info_helper_ld64_mmu);
 +    init_call_layout(&info_helper_st32_mmu);
 +    init_call_layout(&info_helper_st64_mmu);
 +
  #ifdef CONFIG_TCG_INTERPRETER
      init_ffi_layouts();
  #endif
@@ -XXX,XX +XXX,XX @@ static void tcg_reg_alloc_call(TCGContext *s, TCGOp *op)
      }
  }
 +/*
 + * Similarly for qemu_ld/st slow path helpers.
 + * We must re-implement tcg_gen_callN and tcg_reg_alloc_call simultaneously,
 + * using only the provided backend tcg_out_* functions.
 + */
 +
 +static int tcg_out_helper_stk_ofs(TCGType type, unsigned slot)
 +{
 +    int ofs = arg_slot_stk_ofs(slot);
 +
 +    /*
-+     * 32-bit ops generate 32-bit results.  For the result is zero test
++     * Each stack slot is TCG_TARGET_LONG_BITS.  If the host does not
-+     * below, we can ignore high bits, but for further optimizations we
++     * require extension to uint64_t, adjust the address for uint32_t.
 +     * need to record that the high bits contain garbage.
 +     */
-+    if (ctx->type == TCG_TYPE_I32) {
++    if (HOST_BIG_ENDIAN &&
-+        ctx->z_mask |= MAKE_64BIT_MASK(32, 32);
++        TCG_TARGET_REG_BITS == 64 &&
-+        a_mask &= MAKE_64BIT_MASK(0, 32);
++        type == TCG_TYPE_I32) {
-+        z_mask &= MAKE_64BIT_MASK(0, 32);
++        ofs += 4;
 +    }
-+
++    return ofs;
-+    if (z_mask == 0) {
++}
-+        return tcg_opt_gen_movi(ctx, op, op->args[0], 0);
++
-+    }
++static void tcg_out_helper_load_regs(TCGContext *s,
-+    if (a_mask == 0) {
++                                     unsigned nmov, TCGMovExtend *mov,
-+        return tcg_opt_gen_mov(ctx, op, op->args[0], op->args[1]);
++                                     unsigned ntmp, const int *tmp)
-+    }
++{
-+    return false;
++    switch (nmov) {
-+}
++    default:
-+
++        /* The backend must have provided enough temps for the worst case. */
- /*
++        tcg_debug_assert(ntmp + 1 >= nmov);
-  * Convert @op to NOT, if NOT is supported by the host.
++
-  * Return true f the conversion is successful, which will still
++        for (unsigned i = nmov - 1; i >= 2; --i) {
-@@ -XXX,XX +XXX,XX @@ static bool fold_add2_i32(OptContext *ctx, TCGOp *op)
++            TCGReg dst = mov[i].dst;
++
- static bool fold_and(OptContext *ctx, TCGOp *op)
++            for (unsigned j = 0; j < i; ++j) {
- {
++                if (dst == mov[j].src) {
-+    uint64_t z1, z2;
++                    /*
-+
++                     * Conflict.
-     if (fold_const2(ctx, op) ||
++                     * Copy the source to a temporary, recurse for the
-         fold_xi_to_i(ctx, op, 0) ||
++                     * remaining moves, perform the extension from our
-         fold_xi_to_x(ctx, op, -1) ||
++                     * scratch on the way out.
-         fold_xx_to_x(ctx, op)) {
++                     */
-         return true;
++                    TCGReg scratch = tmp[--ntmp];
-     }
++                    tcg_out_mov(s, mov[i].src_type, scratch, mov[i].src);
--    return false;
++                    mov[i].src = scratch;
 +
-+    z1 = arg_info(op->args[1])->z_mask;
++                    tcg_out_helper_load_regs(s, i, mov, ntmp, tmp);
-+    z2 = arg_info(op->args[2])->z_mask;
++                    tcg_out_movext1(s, &mov[i]);
-+    ctx->z_mask = z1 & z2;
++                    return;
 +                }
 +            }
 +
 +            /* No conflicts: perform this move and continue. */
 +            tcg_out_movext1(s, &mov[i]);
 +        }
 +        /* fall through for the final two moves */
 +
 +    case 2:
 +        tcg_out_movext2(s, mov, mov + 1, ntmp ? tmp[0] : -1);
 +        return;
 +    case 1:
 +        tcg_out_movext1(s, mov);
 +        return;
 +    case 0:
 +        g_assert_not_reached();
 +    }
 +}
 +
 +static void tcg_out_helper_load_slots(TCGContext *s,
 +                                      unsigned nmov, TCGMovExtend *mov,
 +                                      const TCGLdstHelperParam *parm)
 +{
 +    unsigned i;
 +
 +    /*
-+     * Known-zeros does not imply known-ones.  Therefore unless
++     * Start from the end, storing to the stack first.
-+     * arg2 is constant, we can't infer affected bits from it.
++     * This frees those registers, so we need not consider overlap.
 +     */
-+    if (arg_is_const(op->args[2])) {
++    for (i = nmov; i-- > 0; ) {
-+        ctx->a_mask = z1 & ~z2;
++        unsigned slot = mov[i].dst;
-+    }
++
-+
++        if (arg_slot_reg_p(slot)) {
-+    return fold_masks(ctx, op);
++            goto found_reg;
- }
++        }
++
- static bool fold_andc(OptContext *ctx, TCGOp *op)
++        TCGReg src = mov[i].src;
- {
++        TCGType dst_type = mov[i].dst_type;
-+    uint64_t z1;
++        MemOp dst_mo = dst_type == TCG_TYPE_I32 ? MO_32 : MO_64;
 +
-     if (fold_const2(ctx, op) ||
++        /* The argument is going onto the stack; extend into scratch. */
-         fold_xx_to_i(ctx, op, 0) ||
++        if ((mov[i].src_ext & MO_SIZE) != dst_mo) {
-         fold_xi_to_x(ctx, op, 0) ||
++            tcg_debug_assert(parm->ntmp != 0);
-         fold_ix_to_not(ctx, op, -1)) {
++            mov[i].dst = src = parm->tmp[0];
-         return true;
++            tcg_out_movext1(s, &mov[i]);
-     }
++        }
--    return false;
++
-+
++        tcg_out_st(s, dst_type, src, TCG_REG_CALL_STACK,
-+    z1 = arg_info(op->args[1])->z_mask;
++                   tcg_out_helper_stk_ofs(dst_type, slot));
-+
++    }
 +    return;
 +
 + found_reg:
 +    /*
-+     * Known-zeros does not imply known-ones.  Therefore unless
++     * The remaining arguments are in registers.
-+     * arg2 is constant, we can't infer anything from it.
++     * Convert slot numbers to argument registers.
 +     */
-+    if (arg_is_const(op->args[2])) {
++    nmov = i + 1;
-+        uint64_t z2 = ~arg_info(op->args[2])->z_mask;
++    for (i = 0; i < nmov; ++i) {
-+        ctx->a_mask = z1 & ~z2;
++        mov[i].dst = tcg_target_call_iarg_regs[mov[i].dst];
-+        z1 &= z2;
++    }
-+    }
++    tcg_out_helper_load_regs(s, nmov, mov, parm->ntmp, parm->tmp);
-+    ctx->z_mask = z1;
++}
 +
-+    return fold_masks(ctx, op);
++static void tcg_out_helper_load_imm(TCGContext *s, unsigned slot,
- }
++                                    TCGType type, tcg_target_long imm,
++                                    const TCGLdstHelperParam *parm)
- static bool fold_brcond(OptContext *ctx, TCGOp *op)
++{
-@@ -XXX,XX +XXX,XX @@ static bool fold_brcond2(OptContext *ctx, TCGOp *op)
++    if (arg_slot_reg_p(slot)) {
++        tcg_out_movi(s, type, tcg_target_call_iarg_regs[slot], imm);
- static bool fold_bswap(OptContext *ctx, TCGOp *op)
++    } else {
- {
++        int ofs = tcg_out_helper_stk_ofs(type, slot);
-+    uint64_t z_mask, sign;
++        if (!tcg_out_sti(s, type, imm, TCG_REG_CALL_STACK, ofs)) {
-+
++            tcg_debug_assert(parm->ntmp != 0);
-     if (arg_is_const(op->args[1])) {
++            tcg_out_movi(s, type, parm->tmp[0], imm);
-         uint64_t t = arg_info(op->args[1])->val;
++            tcg_out_st(s, type, parm->tmp[0], TCG_REG_CALL_STACK, ofs);
++        }
-         t = do_constant_folding(op->opc, ctx->type, t, op->args[2]);
++    }
-         return tcg_opt_gen_movi(ctx, op, op->args[0], t);
++}
-     }
++
--    return false;
++static void tcg_out_helper_load_common_args(TCGContext *s,
-+
++                                            const TCGLabelQemuLdst *ldst,
-+    z_mask = arg_info(op->args[1])->z_mask;
++                                            const TCGLdstHelperParam *parm,
-+    switch (op->opc) {
++                                            const TCGHelperInfo *info,
-+    case INDEX_op_bswap16_i32:
++                                            unsigned next_arg)
-+    case INDEX_op_bswap16_i64:
++{
-+        z_mask = bswap16(z_mask);
++    TCGMovExtend ptr_mov = {
-+        sign = INT16_MIN;
++        .dst_type = TCG_TYPE_PTR,
 +        .src_type = TCG_TYPE_PTR,
 +        .src_ext = sizeof(void *) == 4 ? MO_32 : MO_64
 +    };
 +    const TCGCallArgumentLoc *loc = &info->in[0];
 +    TCGType type;
 +    unsigned slot;
 +    tcg_target_ulong imm;
 +
 +    /*
 +     * Handle env, which is always first.
 +     */
 +    ptr_mov.dst = loc->arg_slot;
 +    ptr_mov.src = TCG_AREG0;
 +    tcg_out_helper_load_slots(s, 1, &ptr_mov, parm);
 +
 +    /*
 +     * Handle oi.
 +     */
 +    imm = ldst->oi;
 +    loc = &info->in[next_arg];
 +    type = TCG_TYPE_I32;
 +    switch (loc->kind) {
 +    case TCG_CALL_ARG_NORMAL:
 +        break;
-+    case INDEX_op_bswap32_i32:
++    case TCG_CALL_ARG_EXTEND_U:
-+    case INDEX_op_bswap32_i64:
++    case TCG_CALL_ARG_EXTEND_S:
-+        z_mask = bswap32(z_mask);
++        /* No extension required for MemOpIdx. */
-+        sign = INT32_MIN;
++        tcg_debug_assert(imm <= INT32_MAX);
-+        break;
++        type = TCG_TYPE_REG;
 +    case INDEX_op_bswap64_i64:
 +        z_mask = bswap64(z_mask);
 +        sign = INT64_MIN;
 +        break;
 +    default:
 +        g_assert_not_reached();
 +    }
-+
++    tcg_out_helper_load_imm(s, loc->arg_slot, type, imm, parm);
-+    switch (op->args[2] & (TCG_BSWAP_OZ | TCG_BSWAP_OS)) {
++    next_arg++;
-+    case TCG_BSWAP_OZ:
++
 +    /*
 +     * Handle ra.
 +     */
 +    loc = &info->in[next_arg];
 +    slot = loc->arg_slot;
 +    if (parm->ra_gen) {
 +        int arg_reg = -1;
 +        TCGReg ra_reg;
 +
 +        if (arg_slot_reg_p(slot)) {
 +            arg_reg = tcg_target_call_iarg_regs[slot];
 +        }
 +        ra_reg = parm->ra_gen(s, ldst, arg_reg);
 +
 +        ptr_mov.dst = slot;
 +        ptr_mov.src = ra_reg;
 +        tcg_out_helper_load_slots(s, 1, &ptr_mov, parm);
 +    } else {
 +        imm = (uintptr_t)ldst->raddr;
 +        tcg_out_helper_load_imm(s, slot, TCG_TYPE_PTR, imm, parm);
 +    }
 +}
 +
 +static unsigned tcg_out_helper_add_mov(TCGMovExtend *mov,
 +                                       const TCGCallArgumentLoc *loc,
 +                                       TCGType dst_type, TCGType src_type,
 +                                       TCGReg lo, TCGReg hi)
 +{
 +    if (dst_type <= TCG_TYPE_REG) {
 +        MemOp src_ext;
 +
 +        switch (loc->kind) {
 +        case TCG_CALL_ARG_NORMAL:
 +            src_ext = src_type == TCG_TYPE_I32 ? MO_32 : MO_64;
 +            break;
 +        case TCG_CALL_ARG_EXTEND_U:
 +            dst_type = TCG_TYPE_REG;
 +            src_ext = MO_UL;
 +            break;
 +        case TCG_CALL_ARG_EXTEND_S:
 +            dst_type = TCG_TYPE_REG;
 +            src_ext = MO_SL;
 +            break;
 +        default:
 +            g_assert_not_reached();
 +        }
 +
 +        mov[0].dst = loc->arg_slot;
 +        mov[0].dst_type = dst_type;
 +        mov[0].src = lo;
 +        mov[0].src_type = src_type;
 +        mov[0].src_ext = src_ext;
 +        return 1;
 +    }
 +
 +    assert(TCG_TARGET_REG_BITS == 32);
 +
 +    mov[0].dst = loc[HOST_BIG_ENDIAN].arg_slot;
 +    mov[0].src = lo;
 +    mov[0].dst_type = TCG_TYPE_I32;
 +    mov[0].src_type = TCG_TYPE_I32;
 +    mov[0].src_ext = MO_32;
 +
 +    mov[1].dst = loc[!HOST_BIG_ENDIAN].arg_slot;
 +    mov[1].src = hi;
 +    mov[1].dst_type = TCG_TYPE_I32;
 +    mov[1].src_type = TCG_TYPE_I32;
 +    mov[1].src_ext = MO_32;
 +
 +    return 2;
 +}
 +
 +static void tcg_out_ld_helper_args(TCGContext *s, const TCGLabelQemuLdst *ldst,
 +                                   const TCGLdstHelperParam *parm)
 +{
 +    const TCGHelperInfo *info;
 +    const TCGCallArgumentLoc *loc;
 +    TCGMovExtend mov[2];
 +    unsigned next_arg, nmov;
 +    MemOp mop = get_memop(ldst->oi);
 +
 +    switch (mop & MO_SIZE) {
 +    case MO_8:
 +    case MO_16:
 +    case MO_32:
 +        info = &info_helper_ld32_mmu;
 +        break;
-+    case TCG_BSWAP_OS:
++    case MO_64:
-+        /* If the sign bit may be 1, force all the bits above to 1. */
++        info = &info_helper_ld64_mmu;
 +        if (z_mask & sign) {
 +            z_mask |= sign;
 +        }
 +        break;
 +    default:
 +        /* The high bits are undefined: force all bits above the sign to 1. */
 +        z_mask |= sign << 1;
 +        break;
 +    }
 +    ctx->z_mask = z_mask;
 +
 +    return fold_masks(ctx, op);
  }
  static bool fold_call(OptContext *ctx, TCGOp *op)
@@ -XXX,XX +XXX,XX @@ static bool fold_call(OptContext *ctx, TCGOp *op)
  static bool fold_count_zeros(OptContext *ctx, TCGOp *op)
  {
 +    uint64_t z_mask;
 +
      if (arg_is_const(op->args[1])) {
          uint64_t t = arg_info(op->args[1])->val;
@@ -XXX,XX +XXX,XX @@ static bool fold_count_zeros(OptContext *ctx, TCGOp *op)
          }
          return tcg_opt_gen_mov(ctx, op, op->args[0], op->args[2]);
      }
 +
 +    switch (ctx->type) {
 +    case TCG_TYPE_I32:
 +        z_mask = 31;
 +        break;
 +    case TCG_TYPE_I64:
 +        z_mask = 63;
 +        break;
 +    default:
 +        g_assert_not_reached();
 +    }
-+    ctx->z_mask = arg_info(op->args[2])->z_mask | z_mask;
++
-+
++    /* Defer env argument. */
-     return false;
++    next_arg = 1;
- }
++
++    loc = &info->in[next_arg];
- static bool fold_ctpop(OptContext *ctx, TCGOp *op)
++    nmov = tcg_out_helper_add_mov(mov, loc, TCG_TYPE_TL, TCG_TYPE_TL,
- {
++                                  ldst->addrlo_reg, ldst->addrhi_reg);
--    return fold_const1(ctx, op);
++    next_arg += nmov;
-+    if (fold_const1(ctx, op)) {
++
-+        return true;
++    tcg_out_helper_load_slots(s, nmov, mov, parm);
-+    }
++
-+
++    /* No special attention for 32 and 64-bit return values. */
-+    switch (ctx->type) {
++    tcg_debug_assert(info->out_kind == TCG_CALL_RET_NORMAL);
-+    case TCG_TYPE_I32:
++
-+        ctx->z_mask = 32 | 31;
++    tcg_out_helper_load_common_args(s, ldst, parm, info, next_arg);
 +}
 +
 +static void tcg_out_ld_helper_ret(TCGContext *s, const TCGLabelQemuLdst *ldst,
 +                                  bool load_sign,
 +                                  const TCGLdstHelperParam *parm)
 +{
 +    TCGMovExtend mov[2];
 +
 +    if (ldst->type <= TCG_TYPE_REG) {
 +        MemOp mop = get_memop(ldst->oi);
 +
 +        mov[0].dst = ldst->datalo_reg;
 +        mov[0].src = tcg_target_call_oarg_reg(TCG_CALL_RET_NORMAL, 0);
 +        mov[0].dst_type = ldst->type;
 +        mov[0].src_type = TCG_TYPE_REG;
 +
 +        /*
 +         * If load_sign, then we allowed the helper to perform the
 +         * appropriate sign extension to tcg_target_ulong, and all
 +         * we need now is a plain move.
 +         *
 +         * If they do not, then we expect the relevant extension
 +         * instruction to be no more expensive than a move, and
 +         * we thus save the icache etc by only using one of two
 +         * helper functions.
 +         */
 +        if (load_sign || !(mop & MO_SIGN)) {
 +            if (TCG_TARGET_REG_BITS == 32 || ldst->type == TCG_TYPE_I32) {
 +                mov[0].src_ext = MO_32;
 +            } else {
 +                mov[0].src_ext = MO_64;
 +            }
 +        } else {
 +            mov[0].src_ext = mop & MO_SSIZE;
 +        }
 +        tcg_out_movext1(s, mov);
 +    } else {
 +        assert(TCG_TARGET_REG_BITS == 32);
 +
 +        mov[0].dst = ldst->datalo_reg;
 +        mov[0].src =
 +            tcg_target_call_oarg_reg(TCG_CALL_RET_NORMAL, HOST_BIG_ENDIAN);
 +        mov[0].dst_type = TCG_TYPE_I32;
 +        mov[0].src_type = TCG_TYPE_I32;
 +        mov[0].src_ext = MO_32;
 +
 +        mov[1].dst = ldst->datahi_reg;
 +        mov[1].src =
 +            tcg_target_call_oarg_reg(TCG_CALL_RET_NORMAL, !HOST_BIG_ENDIAN);
 +        mov[1].dst_type = TCG_TYPE_REG;
 +        mov[1].src_type = TCG_TYPE_REG;
 +        mov[1].src_ext = MO_32;
 +
 +        tcg_out_movext2(s, mov, mov + 1, parm->ntmp ? parm->tmp[0] : -1);
 +    }
 +}
 +
 +static void tcg_out_st_helper_args(TCGContext *s, const TCGLabelQemuLdst *ldst,
 +                                   const TCGLdstHelperParam *parm)
 +{
 +    const TCGHelperInfo *info;
 +    const TCGCallArgumentLoc *loc;
 +    TCGMovExtend mov[4];
 +    TCGType data_type;
 +    unsigned next_arg, nmov, n;
 +    MemOp mop = get_memop(ldst->oi);
 +
 +    switch (mop & MO_SIZE) {
 +    case MO_8:
 +    case MO_16:
 +    case MO_32:
 +        info = &info_helper_st32_mmu;
 +        data_type = TCG_TYPE_I32;
 +        break;
-+    case TCG_TYPE_I64:
++    case MO_64:
-+        ctx->z_mask = 64 | 63;
++        info = &info_helper_st64_mmu;
 +        data_type = TCG_TYPE_I64;
 +        break;
 +    default:
 +        g_assert_not_reached();
 +    }
-+    return false;
++
- }
++    /* Defer env argument. */
++    next_arg = 1;
- static bool fold_deposit(OptContext *ctx, TCGOp *op)
++    nmov = 0;
-@@ -XXX,XX +XXX,XX @@ static bool fold_deposit(OptContext *ctx, TCGOp *op)
++
-         t1 = deposit64(t1, op->args[3], op->args[4], t2);
++    /* Handle addr argument. */
-         return tcg_opt_gen_movi(ctx, op, op->args[0], t1);
++    loc = &info->in[next_arg];
-     }
++    n = tcg_out_helper_add_mov(mov, loc, TCG_TYPE_TL, TCG_TYPE_TL,
-+
++                               ldst->addrlo_reg, ldst->addrhi_reg);
-+    ctx->z_mask = deposit64(arg_info(op->args[1])->z_mask,
++    next_arg += n;
-+                            op->args[3], op->args[4],
++    nmov += n;
-+                            arg_info(op->args[2])->z_mask);
++
-     return false;
++    /* Handle data argument. */
- }
++    loc = &info->in[next_arg];
++    n = tcg_out_helper_add_mov(mov + nmov, loc, data_type, ldst->type,
-@@ -XXX,XX +XXX,XX @@ static bool fold_eqv(OptContext *ctx, TCGOp *op)
++                               ldst->datalo_reg, ldst->datahi_reg);
++    next_arg += n;
- static bool fold_extract(OptContext *ctx, TCGOp *op)
++    nmov += n;
- {
++    tcg_debug_assert(nmov <= ARRAY_SIZE(mov));
-+    uint64_t z_mask_old, z_mask;
++
-+
++    tcg_out_helper_load_slots(s, nmov, mov, parm);
-     if (arg_is_const(op->args[1])) {
++    tcg_out_helper_load_common_args(s, ldst, parm, info, next_arg);
-         uint64_t t;
++}
++
-@@ -XXX,XX +XXX,XX @@ static bool fold_extract(OptContext *ctx, TCGOp *op)
+ #ifdef CONFIG_PROFILER
-         t = extract64(t, op->args[2], op->args[3]);
-         return tcg_opt_gen_movi(ctx, op, op->args[0], t);
+ /* avoid copy/paste errors */
      }
 -    return false;
 +
 +    z_mask_old = arg_info(op->args[1])->z_mask;
 +    z_mask = extract64(z_mask_old, op->args[2], op->args[3]);
 +    if (op->args[2] == 0) {
 +        ctx->a_mask = z_mask_old ^ z_mask;
 +    }
 +    ctx->z_mask = z_mask;
 +
 +    return fold_masks(ctx, op);
  }
  static bool fold_extract2(OptContext *ctx, TCGOp *op)
@@ -XXX,XX +XXX,XX @@ static bool fold_extract2(OptContext *ctx, TCGOp *op)
  static bool fold_exts(OptContext *ctx, TCGOp *op)
  {
 -    return fold_const1(ctx, op);
 +    uint64_t z_mask_old, z_mask, sign;
 +    bool type_change = false;
 +
 +    if (fold_const1(ctx, op)) {
 +        return true;
 +    }
 +
 +    z_mask_old = z_mask = arg_info(op->args[1])->z_mask;
 +
 +    switch (op->opc) {
 +    CASE_OP_32_64(ext8s):
 +        sign = INT8_MIN;
 +        z_mask = (uint8_t)z_mask;
 +        break;
 +    CASE_OP_32_64(ext16s):
 +        sign = INT16_MIN;
 +        z_mask = (uint16_t)z_mask;
 +        break;
 +    case INDEX_op_ext_i32_i64:
 +        type_change = true;
 +        QEMU_FALLTHROUGH;
 +    case INDEX_op_ext32s_i64:
 +        sign = INT32_MIN;
 +        z_mask = (uint32_t)z_mask;
 +        break;
 +    default:
 +        g_assert_not_reached();
 +    }
 +
 +    if (z_mask & sign) {
 +        z_mask |= sign;
 +    } else if (!type_change) {
 +        ctx->a_mask = z_mask_old ^ z_mask;
 +    }
 +    ctx->z_mask = z_mask;
 +
 +    return fold_masks(ctx, op);
  }
  static bool fold_extu(OptContext *ctx, TCGOp *op)
  {
 -    return fold_const1(ctx, op);
 +    uint64_t z_mask_old, z_mask;
 +    bool type_change = false;
 +
 +    if (fold_const1(ctx, op)) {
 +        return true;
 +    }
 +
 +    z_mask_old = z_mask = arg_info(op->args[1])->z_mask;
 +
 +    switch (op->opc) {
 +    CASE_OP_32_64(ext8u):
 +        z_mask = (uint8_t)z_mask;
 +        break;
 +    CASE_OP_32_64(ext16u):
 +        z_mask = (uint16_t)z_mask;
 +        break;
 +    case INDEX_op_extrl_i64_i32:
 +    case INDEX_op_extu_i32_i64:
 +        type_change = true;
 +        QEMU_FALLTHROUGH;
 +    case INDEX_op_ext32u_i64:
 +        z_mask = (uint32_t)z_mask;
 +        break;
 +    case INDEX_op_extrh_i64_i32:
 +        type_change = true;
 +        z_mask >>= 32;
 +        break;
 +    default:
 +        g_assert_not_reached();
 +    }
 +
 +    ctx->z_mask = z_mask;
 +    if (!type_change) {
 +        ctx->a_mask = z_mask_old ^ z_mask;
 +    }
 +    return fold_masks(ctx, op);
  }
  static bool fold_mb(OptContext *ctx, TCGOp *op)
@@ -XXX,XX +XXX,XX @@ static bool fold_movcond(OptContext *ctx, TCGOp *op)
          return tcg_opt_gen_mov(ctx, op, op->args[0], op->args[4 - i]);
      }
 +    ctx->z_mask = arg_info(op->args[3])->z_mask
 +                | arg_info(op->args[4])->z_mask;
 +
      if (arg_is_const(op->args[3]) && arg_is_const(op->args[4])) {
          uint64_t tv = arg_info(op->args[3])->val;
          uint64_t fv = arg_info(op->args[4])->val;
@@ -XXX,XX +XXX,XX @@ static bool fold_nand(OptContext *ctx, TCGOp *op)
  static bool fold_neg(OptContext *ctx, TCGOp *op)
  {
 +    uint64_t z_mask;
 +
      if (fold_const1(ctx, op)) {
          return true;
      }
 +
 +    /* Set to 1 all bits to the left of the rightmost.  */
 +    z_mask = arg_info(op->args[1])->z_mask;
 +    ctx->z_mask = -(z_mask & -z_mask);
 +
      /*
       * Because of fold_sub_to_neg, we want to always return true,
       * via finish_folding.
@@ -XXX,XX +XXX,XX @@ static bool fold_or(OptContext *ctx, TCGOp *op)
          fold_xx_to_x(ctx, op)) {
          return true;
      }
 -    return false;
 +
 +    ctx->z_mask = arg_info(op->args[1])->z_mask
 +                | arg_info(op->args[2])->z_mask;
 +    return fold_masks(ctx, op);
  }
  static bool fold_orc(OptContext *ctx, TCGOp *op)
@@ -XXX,XX +XXX,XX @@ static bool fold_orc(OptContext *ctx, TCGOp *op)
  static bool fold_qemu_ld(OptContext *ctx, TCGOp *op)
  {
 +    const TCGOpDef *def = &tcg_op_defs[op->opc];
 +    MemOpIdx oi = op->args[def->nb_oargs + def->nb_iargs];
 +    MemOp mop = get_memop(oi);
 +    int width = 8 * memop_size(mop);
 +
 +    if (!(mop & MO_SIGN) && width < 64) {
 +        ctx->z_mask = MAKE_64BIT_MASK(0, width);
 +    }
 +
      /* Opcodes that touch guest memory stop the mb optimization.  */
      ctx->prev_mb = NULL;
      return false;
@@ -XXX,XX +XXX,XX @@ static bool fold_setcond(OptContext *ctx, TCGOp *op)
      if (i >= 0) {
          return tcg_opt_gen_movi(ctx, op, op->args[0], i);
      }
 +
 +    ctx->z_mask = 1;
      return false;
  }
@@ -XXX,XX +XXX,XX @@ static bool fold_setcond2(OptContext *ctx, TCGOp *op)
          op->opc = INDEX_op_setcond_i32;
          break;
      }
 +
 +    ctx->z_mask = 1;
      return false;
   do_setcond_const:
@@ -XXX,XX +XXX,XX @@ static bool fold_setcond2(OptContext *ctx, TCGOp *op)
  static bool fold_sextract(OptContext *ctx, TCGOp *op)
  {
 +    int64_t z_mask_old, z_mask;
 +
      if (arg_is_const(op->args[1])) {
          uint64_t t;
@@ -XXX,XX +XXX,XX @@ static bool fold_sextract(OptContext *ctx, TCGOp *op)
          t = sextract64(t, op->args[2], op->args[3]);
          return tcg_opt_gen_movi(ctx, op, op->args[0], t);
      }
 -    return false;
 +
 +    z_mask_old = arg_info(op->args[1])->z_mask;
 +    z_mask = sextract64(z_mask_old, op->args[2], op->args[3]);
 +    if (op->args[2] == 0 && z_mask >= 0) {
 +        ctx->a_mask = z_mask_old ^ z_mask;
 +    }
 +    ctx->z_mask = z_mask;
 +
 +    return fold_masks(ctx, op);
  }
  static bool fold_shift(OptContext *ctx, TCGOp *op)
@@ -XXX,XX +XXX,XX @@ static bool fold_shift(OptContext *ctx, TCGOp *op)
          fold_xi_to_x(ctx, op, 0)) {
          return true;
      }
 +
 +    if (arg_is_const(op->args[2])) {
 +        ctx->z_mask = do_constant_folding(op->opc, ctx->type,
 +                                          arg_info(op->args[1])->z_mask,
 +                                          arg_info(op->args[2])->val);
 +        return fold_masks(ctx, op);
 +    }
      return false;
  }
@@ -XXX,XX +XXX,XX @@ static bool fold_sub2_i32(OptContext *ctx, TCGOp *op)
      return fold_addsub2_i32(ctx, op, false);
  }
 +static bool fold_tcg_ld(OptContext *ctx, TCGOp *op)
 +{
 +    /* We can't do any folding with a load, but we can record bits. */
 +    switch (op->opc) {
 +    CASE_OP_32_64(ld8u):
 +        ctx->z_mask = MAKE_64BIT_MASK(0, 8);
 +        break;
 +    CASE_OP_32_64(ld16u):
 +        ctx->z_mask = MAKE_64BIT_MASK(0, 16);
 +        break;
 +    case INDEX_op_ld32u_i64:
 +        ctx->z_mask = MAKE_64BIT_MASK(0, 32);
 +        break;
 +    default:
 +        g_assert_not_reached();
 +    }
 +    return false;
 +}
 +
  static bool fold_xor(OptContext *ctx, TCGOp *op)
  {
      if (fold_const2(ctx, op) ||
@@ -XXX,XX +XXX,XX @@ static bool fold_xor(OptContext *ctx, TCGOp *op)
          fold_xi_to_not(ctx, op, -1)) {
          return true;
      }
 -    return false;
 +
 +    ctx->z_mask = arg_info(op->args[1])->z_mask
 +                | arg_info(op->args[2])->z_mask;
 +    return fold_masks(ctx, op);
  }
  /* Propagate constants and copies, fold constant expressions. */
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
      }
      QTAILQ_FOREACH_SAFE(op, &s->ops, link, op_next) {
 -        uint64_t z_mask, partmask, affected, tmp;
          TCGOpcode opc = op->opc;
          const TCGOpDef *def;
          bool done = false;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
              break;
          }
 -        /* Simplify using known-zero bits. Currently only ops with a single
 -           output argument is supported. */
 -        z_mask = -1;
 -        affected = -1;
 -        switch (opc) {
 -        CASE_OP_32_64(ext8s):
 -            if ((arg_info(op->args[1])->z_mask & 0x80) != 0) {
 -                break;
 -            }
 -            QEMU_FALLTHROUGH;
 -        CASE_OP_32_64(ext8u):
 -            z_mask = 0xff;
 -            goto and_const;
 -        CASE_OP_32_64(ext16s):
 -            if ((arg_info(op->args[1])->z_mask & 0x8000) != 0) {
 -                break;
 -            }
 -            QEMU_FALLTHROUGH;
 -        CASE_OP_32_64(ext16u):
 -            z_mask = 0xffff;
 -            goto and_const;
 -        case INDEX_op_ext32s_i64:
 -            if ((arg_info(op->args[1])->z_mask & 0x80000000) != 0) {
 -                break;
 -            }
 -            QEMU_FALLTHROUGH;
 -        case INDEX_op_ext32u_i64:
 -            z_mask = 0xffffffffU;
 -            goto and_const;
 -
 -        CASE_OP_32_64(and):
 -            z_mask = arg_info(op->args[2])->z_mask;
 -            if (arg_is_const(op->args[2])) {
 -        and_const:
 -                affected = arg_info(op->args[1])->z_mask & ~z_mask;
 -            }
 -            z_mask = arg_info(op->args[1])->z_mask & z_mask;
 -            break;
 -
 -        case INDEX_op_ext_i32_i64:
 -            if ((arg_info(op->args[1])->z_mask & 0x80000000) != 0) {
 -                break;
 -            }
 -            QEMU_FALLTHROUGH;
 -        case INDEX_op_extu_i32_i64:
 -            /* We do not compute affected as it is a size changing op.  */
 -            z_mask = (uint32_t)arg_info(op->args[1])->z_mask;
 -            break;
 -
 -        CASE_OP_32_64(andc):
 -            /* Known-zeros does not imply known-ones.  Therefore unless
 -               op->args[2] is constant, we can't infer anything from it.  */
 -            if (arg_is_const(op->args[2])) {
 -                z_mask = ~arg_info(op->args[2])->z_mask;
 -                goto and_const;
 -            }
 -            /* But we certainly know nothing outside args[1] may be set. */
 -            z_mask = arg_info(op->args[1])->z_mask;
 -            break;
 -
 -        case INDEX_op_sar_i32:
 -            if (arg_is_const(op->args[2])) {
 -                tmp = arg_info(op->args[2])->val & 31;
 -                z_mask = (int32_t)arg_info(op->args[1])->z_mask >> tmp;
 -            }
 -            break;
 -        case INDEX_op_sar_i64:
 -            if (arg_is_const(op->args[2])) {
 -                tmp = arg_info(op->args[2])->val & 63;
 -                z_mask = (int64_t)arg_info(op->args[1])->z_mask >> tmp;
 -            }
 -            break;
 -
 -        case INDEX_op_shr_i32:
 -            if (arg_is_const(op->args[2])) {
 -                tmp = arg_info(op->args[2])->val & 31;
 -                z_mask = (uint32_t)arg_info(op->args[1])->z_mask >> tmp;
 -            }
 -            break;
 -        case INDEX_op_shr_i64:
 -            if (arg_is_const(op->args[2])) {
 -                tmp = arg_info(op->args[2])->val & 63;
 -                z_mask = (uint64_t)arg_info(op->args[1])->z_mask >> tmp;
 -            }
 -            break;
 -
 -        case INDEX_op_extrl_i64_i32:
 -            z_mask = (uint32_t)arg_info(op->args[1])->z_mask;
 -            break;
 -        case INDEX_op_extrh_i64_i32:
 -            z_mask = (uint64_t)arg_info(op->args[1])->z_mask >> 32;
 -            break;
 -
 -        CASE_OP_32_64(shl):
 -            if (arg_is_const(op->args[2])) {
 -                tmp = arg_info(op->args[2])->val & (TCG_TARGET_REG_BITS - 1);
 -                z_mask = arg_info(op->args[1])->z_mask << tmp;
 -            }
 -            break;
 -
 -        CASE_OP_32_64(neg):
 -            /* Set to 1 all bits to the left of the rightmost.  */
 -            z_mask = -(arg_info(op->args[1])->z_mask
 -                       & -arg_info(op->args[1])->z_mask);
 -            break;
 -
 -        CASE_OP_32_64(deposit):
 -            z_mask = deposit64(arg_info(op->args[1])->z_mask,
 -                               op->args[3], op->args[4],
 -                               arg_info(op->args[2])->z_mask);
 -            break;
 -
 -        CASE_OP_32_64(extract):
 -            z_mask = extract64(arg_info(op->args[1])->z_mask,
 -                               op->args[2], op->args[3]);
 -            if (op->args[2] == 0) {
 -                affected = arg_info(op->args[1])->z_mask & ~z_mask;
 -            }
 -            break;
 -        CASE_OP_32_64(sextract):
 -            z_mask = sextract64(arg_info(op->args[1])->z_mask,
 -                                op->args[2], op->args[3]);
 -            if (op->args[2] == 0 && (tcg_target_long)z_mask >= 0) {
 -                affected = arg_info(op->args[1])->z_mask & ~z_mask;
 -            }
 -            break;
 -
 -        CASE_OP_32_64(or):
 -        CASE_OP_32_64(xor):
 -            z_mask = arg_info(op->args[1])->z_mask
 -                   | arg_info(op->args[2])->z_mask;
 -            break;
 -
 -        case INDEX_op_clz_i32:
 -        case INDEX_op_ctz_i32:
 -            z_mask = arg_info(op->args[2])->z_mask | 31;
 -            break;
 -
 -        case INDEX_op_clz_i64:
 -        case INDEX_op_ctz_i64:
 -            z_mask = arg_info(op->args[2])->z_mask | 63;
 -            break;
 -
 -        case INDEX_op_ctpop_i32:
 -            z_mask = 32 | 31;
 -            break;
 -        case INDEX_op_ctpop_i64:
 -            z_mask = 64 | 63;
 -            break;
 -
 -        CASE_OP_32_64(setcond):
 -        case INDEX_op_setcond2_i32:
 -            z_mask = 1;
 -            break;
 -
 -        CASE_OP_32_64(movcond):
 -            z_mask = arg_info(op->args[3])->z_mask
 -                   | arg_info(op->args[4])->z_mask;
 -            break;
 -
 -        CASE_OP_32_64(ld8u):
 -            z_mask = 0xff;
 -            break;
 -        CASE_OP_32_64(ld16u):
 -            z_mask = 0xffff;
 -            break;
 -        case INDEX_op_ld32u_i64:
 -            z_mask = 0xffffffffu;
 -            break;
 -
 -        CASE_OP_32_64(qemu_ld):
 -            {
 -                MemOpIdx oi = op->args[def->nb_oargs + def->nb_iargs];
 -                MemOp mop = get_memop(oi);
 -                if (!(mop & MO_SIGN)) {
 -                    z_mask = (2ULL << ((8 << (mop & MO_SIZE)) - 1)) - 1;
 -                }
 -            }
 -            break;
 -
 -        CASE_OP_32_64(bswap16):
 -            z_mask = arg_info(op->args[1])->z_mask;
 -            if (z_mask <= 0xffff) {
 -                op->args[2] |= TCG_BSWAP_IZ;
 -            }
 -            z_mask = bswap16(z_mask);
 -            switch (op->args[2] & (TCG_BSWAP_OZ | TCG_BSWAP_OS)) {
 -            case TCG_BSWAP_OZ:
 -                break;
 -            case TCG_BSWAP_OS:
 -                z_mask = (int16_t)z_mask;
 -                break;
 -            default: /* undefined high bits */
 -                z_mask |= MAKE_64BIT_MASK(16, 48);
 -                break;
 -            }
 -            break;
 -
 -        case INDEX_op_bswap32_i64:
 -            z_mask = arg_info(op->args[1])->z_mask;
 -            if (z_mask <= 0xffffffffu) {
 -                op->args[2] |= TCG_BSWAP_IZ;
 -            }
 -            z_mask = bswap32(z_mask);
 -            switch (op->args[2] & (TCG_BSWAP_OZ | TCG_BSWAP_OS)) {
 -            case TCG_BSWAP_OZ:
 -                break;
 -            case TCG_BSWAP_OS:
 -                z_mask = (int32_t)z_mask;
 -                break;
 -            default: /* undefined high bits */
 -                z_mask |= MAKE_64BIT_MASK(32, 32);
 -                break;
 -            }
 -            break;
 -
 -        default:
 -            break;
 -        }
 -
 -        /* 32-bit ops generate 32-bit results.  For the result is zero test
 -           below, we can ignore high bits, but for further optimizations we
 -           need to record that the high bits contain garbage.  */
 -        partmask = z_mask;
 -        if (ctx.type == TCG_TYPE_I32) {
 -            z_mask |= ~(tcg_target_ulong)0xffffffffu;
 -            partmask &= 0xffffffffu;
 -            affected &= 0xffffffffu;
 -        }
 -        ctx.z_mask = z_mask;
 -
 -        if (partmask == 0) {
 -            tcg_opt_gen_movi(&ctx, op, op->args[0], 0);
 -            continue;
 -        }
 -        if (affected == 0) {
 -            tcg_opt_gen_mov(&ctx, op, op->args[0], op->args[1]);
 -            continue;
 -        }
 +        /* Assume all bits affected, and no bits known zero. */
 +        ctx.a_mask = -1;
 +        ctx.z_mask = -1;
          /*
           * Process each opcode.
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
          case INDEX_op_extrh_i64_i32:
              done = fold_extu(&ctx, op);
              break;
 +        CASE_OP_32_64(ld8u):
 +        CASE_OP_32_64(ld16u):
 +        case INDEX_op_ld32u_i64:
 +            done = fold_tcg_ld(&ctx, op);
 +            break;
          case INDEX_op_mb:
              done = fold_mb(&ctx, op);
              break;
 --
-.25.1
+.34.1

-[PULL 35/56] tcg/optimize: Split out fold_xx_to_i
+[PULL 21/53] tcg/i386: Convert tcg_out_qemu_ld_slow_path
-Pull the "op r, a, a => movi r, 0" optimization into a function,
+Use tcg_out_ld_helper_args and tcg_out_ld_helper_ret.
 and use it in the outer opcode fold functions.
-Reviewed-by: Luis Pires <luis.pires@eldorado.org.br>
+Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
 Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- tcg/optimize.c | 41 ++++++++++++++++++++++++-----------------
+ tcg/i386/tcg-target.c.inc | 71 +++++++++++++++------------------------
-file changed, 24 insertions(+), 17 deletions(-)
+file changed, 28 insertions(+), 43 deletions(-)
-diff --git a/tcg/optimize.c b/tcg/optimize.c
+diff --git a/tcg/i386/tcg-target.c.inc b/tcg/i386/tcg-target.c.inc
 index XXXXXXX..XXXXXXX 100644
---- a/tcg/optimize.c
+--- a/tcg/i386/tcg-target.c.inc
-+++ b/tcg/optimize.c
++++ b/tcg/i386/tcg-target.c.inc
-@@ -XXX,XX +XXX,XX @@ static bool fold_const2(OptContext *ctx, TCGOp *op)
+@@ -XXX,XX +XXX,XX @@ static void * const qemu_st_helpers[(MO_SIZE | MO_BSWAP) + 1] = {
-     return false;
+     [MO_BEUQ] = helper_be_stq_mmu,
- }
+ };
-+/* If the binary operation has both arguments equal, fold to @i. */
++/*
-+static bool fold_xx_to_i(OptContext *ctx, TCGOp *op, uint64_t i)
++ * Because i686 has no register parameters and because x86_64 has xchg
 + * to handle addr/data register overlap, we have placed all input arguments
 + * before we need might need a scratch reg.
 + *
 + * Even then, a scratch is only needed for l->raddr.  Rather than expose
 + * a general-purpose scratch when we don't actually know it's available,
 + * use the ra_gen hook to load into RAX if needed.
 + */
 +#if TCG_TARGET_REG_BITS == 64
 +static TCGReg ldst_ra_gen(TCGContext *s, const TCGLabelQemuLdst *l, int arg)
 +{
-+    if (args_are_copies(op->args[1], op->args[2])) {
++    if (arg < 0) {
-+        return tcg_opt_gen_movi(ctx, op, op->args[0], i);
++        arg = TCG_REG_RAX;
 +    }
-+    return false;
++    tcg_out_movi(s, TCG_TYPE_PTR, arg, (uintptr_t)l->raddr);
 +    return arg;
 +}
++static const TCGLdstHelperParam ldst_helper_param = {
++    .ra_gen = ldst_ra_gen
++};
++#else
++static const TCGLdstHelperParam ldst_helper_param = { };
++#endif
 +
  /*
-  * These outermost fold_<op> functions are sorted alphabetically.
+  * Generate code for the slow path for a load at the end of block
   */
-@@ -XXX,XX +XXX,XX @@ static bool fold_and(OptContext *ctx, TCGOp *op)
+ static bool tcg_out_qemu_ld_slow_path(TCGContext *s, TCGLabelQemuLdst *l)
  static bool fold_andc(OptContext *ctx, TCGOp *op)
  {
--    return fold_const2(ctx, op);
+-    MemOpIdx oi = l->oi;
-+    if (fold_const2(ctx, op) ||
+-    MemOp opc = get_memop(oi);
-+        fold_xx_to_i(ctx, op, 0)) {
++    MemOp opc = get_memop(l->oi);
-+        return true;
+     tcg_insn_unit **label_ptr = &l->label_ptr[0];
-+    }
-+    return false;
+     /* resolve label address */
- }
+@@ -XXX,XX +XXX,XX @@ static bool tcg_out_qemu_ld_slow_path(TCGContext *s, TCGLabelQemuLdst *l)
+         tcg_patch32(label_ptr[1], s->code_ptr - label_ptr[1] - 4);
- static bool fold_brcond(OptContext *ctx, TCGOp *op)
+     }
-@@ -XXX,XX +XXX,XX @@ static bool fold_shift(OptContext *ctx, TCGOp *op)
+-    if (TCG_TARGET_REG_BITS == 32) {
- static bool fold_sub(OptContext *ctx, TCGOp *op)
+-        int ofs = 0;
- {
+-
--    return fold_const2(ctx, op);
+-        tcg_out_st(s, TCG_TYPE_PTR, TCG_AREG0, TCG_REG_ESP, ofs);
-+    if (fold_const2(ctx, op) ||
+-        ofs += 4;
-+        fold_xx_to_i(ctx, op, 0)) {
+-
-+        return true;
+-        tcg_out_st(s, TCG_TYPE_I32, l->addrlo_reg, TCG_REG_ESP, ofs);
-+    }
+-        ofs += 4;
-+    return false;
+-
- }
+-        if (TARGET_LONG_BITS == 64) {
+-            tcg_out_st(s, TCG_TYPE_I32, l->addrhi_reg, TCG_REG_ESP, ofs);
- static bool fold_sub2_i32(OptContext *ctx, TCGOp *op)
+-            ofs += 4;
@@ -XXX,XX +XXX,XX @@ static bool fold_sub2_i32(OptContext *ctx, TCGOp *op)
  static bool fold_xor(OptContext *ctx, TCGOp *op)
  {
 -    return fold_const2(ctx, op);
 +    if (fold_const2(ctx, op) ||
 +        fold_xx_to_i(ctx, op, 0)) {
 +        return true;
 +    }
 +    return false;
  }
  /* Propagate constants and copies, fold constant expressions. */
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
              break;
          }
 -        /* Simplify expression for "op r, a, a => movi r, 0" cases */
 -        switch (opc) {
 -        CASE_OP_32_64_VEC(andc):
 -        CASE_OP_32_64_VEC(sub):
 -        CASE_OP_32_64_VEC(xor):
 -            if (args_are_copies(op->args[1], op->args[2])) {
 -                tcg_opt_gen_movi(&ctx, op, op->args[0], 0);
 -                continue;
 -            }
 -            break;
 -        default:
 -            break;
 -        }
 -
-         /*
+-        tcg_out_sti(s, TCG_TYPE_I32, oi, TCG_REG_ESP, ofs);
-          * Process each opcode.
+-        ofs += 4;
-          * Sorted alphabetically by opcode as much as possible.
+-
 -        tcg_out_sti(s, TCG_TYPE_PTR, (uintptr_t)l->raddr, TCG_REG_ESP, ofs);
 -    } else {
 -        tcg_out_mov(s, TCG_TYPE_PTR, tcg_target_call_iarg_regs[0], TCG_AREG0);
 -        tcg_out_mov(s, TCG_TYPE_TL, tcg_target_call_iarg_regs[1],
 -                    l->addrlo_reg);
 -        tcg_out_movi(s, TCG_TYPE_I32, tcg_target_call_iarg_regs[2], oi);
 -        tcg_out_movi(s, TCG_TYPE_PTR, tcg_target_call_iarg_regs[3],
 -                     (uintptr_t)l->raddr);
 -    }
 -
 +    tcg_out_ld_helper_args(s, l, &ldst_helper_param);
      tcg_out_branch(s, 1, qemu_ld_helpers[opc & (MO_BSWAP | MO_SIZE)]);
 +    tcg_out_ld_helper_ret(s, l, false, &ldst_helper_param);
 -    if (TCG_TARGET_REG_BITS == 32 && (opc & MO_SIZE) == MO_64) {
 -        TCGMovExtend ext[2] = {
 -            { .dst = l->datalo_reg, .dst_type = TCG_TYPE_I32,
 -              .src = TCG_REG_EAX, .src_type = TCG_TYPE_I32, .src_ext = MO_UL },
 -            { .dst = l->datahi_reg, .dst_type = TCG_TYPE_I32,
 -              .src = TCG_REG_EDX, .src_type = TCG_TYPE_I32, .src_ext = MO_UL },
 -        };
 -        tcg_out_movext2(s, &ext[0], &ext[1], -1);
 -    } else {
 -        tcg_out_movext(s, l->type, l->datalo_reg,
 -                       TCG_TYPE_REG, opc & MO_SSIZE, TCG_REG_EAX);
 -    }
 -
 -    /* Jump to the code corresponding to next IR of qemu_st */
      tcg_out_jmp(s, l->raddr);
      return true;
  }
 --
-.25.1
+.34.1

-[PULL 38/56] tcg/optimize: Add type to OptContext
+[PULL 22/53] tcg/i386: Convert tcg_out_qemu_st_slow_path
-Compute the type of the operation early.
+Use tcg_out_st_helper_args.  This eliminates the use of a tail call to
 the store helper.  This may or may not be an improvement, depending on
 the call/return branch prediction of the host microarchitecture.
-There are at least 4 places that used a def->flags ladder
+Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
 to determine the type of the operation being optimized.
 There were two places that assumed !TCG_OPF_64BIT means
 TCG_TYPE_I32, and so could potentially compute incorrect
 results for vector operations.
 Reviewed-by: Luis Pires <luis.pires@eldorado.org.br>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- tcg/optimize.c | 149 +++++++++++++++++++++++++++++--------------------
+ tcg/i386/tcg-target.c.inc | 57 +++------------------------------------
-file changed, 89 insertions(+), 60 deletions(-)
+file changed, 4 insertions(+), 53 deletions(-)
-diff --git a/tcg/optimize.c b/tcg/optimize.c
+diff --git a/tcg/i386/tcg-target.c.inc b/tcg/i386/tcg-target.c.inc
 index XXXXXXX..XXXXXXX 100644
---- a/tcg/optimize.c
+--- a/tcg/i386/tcg-target.c.inc
-+++ b/tcg/optimize.c
++++ b/tcg/i386/tcg-target.c.inc
-@@ -XXX,XX +XXX,XX @@ typedef struct OptContext {
+@@ -XXX,XX +XXX,XX @@ static bool tcg_out_qemu_ld_slow_path(TCGContext *s, TCGLabelQemuLdst *l)
+  */
-     /* In flight values from optimization. */
+ static bool tcg_out_qemu_st_slow_path(TCGContext *s, TCGLabelQemuLdst *l)
      uint64_t z_mask;
 +    TCGType type;
  } OptContext;
  static inline TempOptInfo *ts_info(TCGTemp *ts)
@@ -XXX,XX +XXX,XX @@ static bool tcg_opt_gen_mov(OptContext *ctx, TCGOp *op, TCGArg dst, TCGArg src)
  {
-     TCGTemp *dst_ts = arg_temp(dst);
+-    MemOpIdx oi = l->oi;
-     TCGTemp *src_ts = arg_temp(src);
+-    MemOp opc = get_memop(oi);
--    const TCGOpDef *def;
+-    MemOp s_bits = opc & MO_SIZE;
-     TempOptInfo *di;
++    MemOp opc = get_memop(l->oi);
-     TempOptInfo *si;
+     tcg_insn_unit **label_ptr = &l->label_ptr[0];
-     uint64_t z_mask;
+-    TCGReg retaddr;
-@@ -XXX,XX +XXX,XX @@ static bool tcg_opt_gen_mov(OptContext *ctx, TCGOp *op, TCGArg dst, TCGArg src)
-     reset_ts(dst_ts);
+     /* resolve label address */
-     di = ts_info(dst_ts);
+     tcg_patch32(label_ptr[0], s->code_ptr - label_ptr[0] - 4);
-     si = ts_info(src_ts);
+@@ -XXX,XX +XXX,XX @@ static bool tcg_out_qemu_st_slow_path(TCGContext *s, TCGLabelQemuLdst *l)
--    def = &tcg_op_defs[op->opc];
+         tcg_patch32(label_ptr[1], s->code_ptr - label_ptr[1] - 4);
--    if (def->flags & TCG_OPF_VECTOR) {
+     }
--        new_op = INDEX_op_mov_vec;
--    } else if (def->flags & TCG_OPF_64BIT) {
+-    if (TCG_TARGET_REG_BITS == 32) {
--        new_op = INDEX_op_mov_i64;
+-        int ofs = 0;
 +    tcg_out_st_helper_args(s, l, &ldst_helper_param);
 +    tcg_out_branch(s, 1, qemu_st_helpers[opc & (MO_BSWAP | MO_SIZE)]);
 -        tcg_out_st(s, TCG_TYPE_PTR, TCG_AREG0, TCG_REG_ESP, ofs);
 -        ofs += 4;
 -
 -        tcg_out_st(s, TCG_TYPE_I32, l->addrlo_reg, TCG_REG_ESP, ofs);
 -        ofs += 4;
 -
 -        if (TARGET_LONG_BITS == 64) {
 -            tcg_out_st(s, TCG_TYPE_I32, l->addrhi_reg, TCG_REG_ESP, ofs);
 -            ofs += 4;
 -        }
 -
 -        tcg_out_st(s, TCG_TYPE_I32, l->datalo_reg, TCG_REG_ESP, ofs);
 -        ofs += 4;
 -
 -        if (s_bits == MO_64) {
 -            tcg_out_st(s, TCG_TYPE_I32, l->datahi_reg, TCG_REG_ESP, ofs);
 -            ofs += 4;
 -        }
 -
 -        tcg_out_sti(s, TCG_TYPE_I32, oi, TCG_REG_ESP, ofs);
 -        ofs += 4;
 -
 -        retaddr = TCG_REG_EAX;
 -        tcg_out_movi(s, TCG_TYPE_PTR, retaddr, (uintptr_t)l->raddr);
 -        tcg_out_st(s, TCG_TYPE_PTR, retaddr, TCG_REG_ESP, ofs);
 -    } else {
-+
+-        tcg_out_mov(s, TCG_TYPE_PTR, tcg_target_call_iarg_regs[0], TCG_AREG0);
-+    switch (ctx->type) {
+-        tcg_out_mov(s, TCG_TYPE_TL, tcg_target_call_iarg_regs[1],
-+    case TCG_TYPE_I32:
+-                    l->addrlo_reg);
-         new_op = INDEX_op_mov_i32;
+-        tcg_out_mov(s, (s_bits == MO_64 ? TCG_TYPE_I64 : TCG_TYPE_I32),
-+        break;
+-                    tcg_target_call_iarg_regs[2], l->datalo_reg);
-+    case TCG_TYPE_I64:
+-        tcg_out_movi(s, TCG_TYPE_I32, tcg_target_call_iarg_regs[3], oi);
 +        new_op = INDEX_op_mov_i64;
 +        break;
 +    case TCG_TYPE_V64:
 +    case TCG_TYPE_V128:
 +    case TCG_TYPE_V256:
 +        /* TCGOP_VECL and TCGOP_VECE remain unchanged.  */
 +        new_op = INDEX_op_mov_vec;
 +        break;
 +    default:
 +        g_assert_not_reached();
      }
      op->opc = new_op;
 -    /* TCGOP_VECL and TCGOP_VECE remain unchanged.  */
      op->args[0] = dst;
      op->args[1] = src;
@@ -XXX,XX +XXX,XX @@ static bool tcg_opt_gen_mov(OptContext *ctx, TCGOp *op, TCGArg dst, TCGArg src)
  static bool tcg_opt_gen_movi(OptContext *ctx, TCGOp *op,
                               TCGArg dst, uint64_t val)
  {
 -    const TCGOpDef *def = &tcg_op_defs[op->opc];
 -    TCGType type;
 -    TCGTemp *tv;
 -
--    if (def->flags & TCG_OPF_VECTOR) {
+-        if (ARRAY_SIZE(tcg_target_call_iarg_regs) > 4) {
--        type = TCGOP_VECL(op) + TCG_TYPE_V64;
+-            retaddr = tcg_target_call_iarg_regs[4];
--    } else if (def->flags & TCG_OPF_64BIT) {
+-            tcg_out_movi(s, TCG_TYPE_PTR, retaddr, (uintptr_t)l->raddr);
--        type = TCG_TYPE_I64;
+-        } else {
--    } else {
+-            retaddr = TCG_REG_RAX;
--        type = TCG_TYPE_I32;
+-            tcg_out_movi(s, TCG_TYPE_PTR, retaddr, (uintptr_t)l->raddr);
 -            tcg_out_st(s, TCG_TYPE_PTR, retaddr, TCG_REG_ESP,
 -                       TCG_TARGET_CALL_STACK_OFFSET);
 -        }
 -    }
 -
-     /* Convert movi to mov with constant temp. */
+-    /* "Tail call" to the helper, with the return address back inline.  */
--    tv = tcg_constant_internal(type, val);
+-    tcg_out_push(s, retaddr);
-+    TCGTemp *tv = tcg_constant_internal(ctx->type, val);
+-    tcg_out_jmp(s, qemu_st_helpers[opc & (MO_BSWAP | MO_SIZE)]);
-+
++    tcg_out_jmp(s, l->raddr);
-     init_ts_info(ctx, tv);
+     return true;
      return tcg_opt_gen_mov(ctx, op, dst, temp_arg(tv));
  }
-@@ -XXX,XX +XXX,XX @@ static uint64_t do_constant_folding_2(TCGOpcode op, uint64_t x, uint64_t y)
+ #else
      }
  }
 -static uint64_t do_constant_folding(TCGOpcode op, uint64_t x, uint64_t y)
 +static uint64_t do_constant_folding(TCGOpcode op, TCGType type,
 +                                    uint64_t x, uint64_t y)
  {
 -    const TCGOpDef *def = &tcg_op_defs[op];
      uint64_t res = do_constant_folding_2(op, x, y);
 -    if (!(def->flags & TCG_OPF_64BIT)) {
 +    if (type == TCG_TYPE_I32) {
          res = (int32_t)res;
      }
      return res;
@@ -XXX,XX +XXX,XX @@ static bool do_constant_folding_cond_eq(TCGCond c)
   * Return -1 if the condition can't be simplified,
   * and the result of the condition (0 or 1) if it can.
   */
 -static int do_constant_folding_cond(TCGOpcode op, TCGArg x,
 +static int do_constant_folding_cond(TCGType type, TCGArg x,
                                      TCGArg y, TCGCond c)
  {
      uint64_t xv = arg_info(x)->val;
      uint64_t yv = arg_info(y)->val;
      if (arg_is_const(x) && arg_is_const(y)) {
 -        const TCGOpDef *def = &tcg_op_defs[op];
 -        tcg_debug_assert(!(def->flags & TCG_OPF_VECTOR));
 -        if (def->flags & TCG_OPF_64BIT) {
 -            return do_constant_folding_cond_64(xv, yv, c);
 -        } else {
 +        switch (type) {
 +        case TCG_TYPE_I32:
              return do_constant_folding_cond_32(xv, yv, c);
 +        case TCG_TYPE_I64:
 +            return do_constant_folding_cond_64(xv, yv, c);
 +        default:
 +            /* Only scalar comparisons are optimizable */
 +            return -1;
          }
      } else if (args_are_copies(x, y)) {
          return do_constant_folding_cond_eq(c);
@@ -XXX,XX +XXX,XX @@ static bool fold_const1(OptContext *ctx, TCGOp *op)
          uint64_t t;
          t = arg_info(op->args[1])->val;
 -        t = do_constant_folding(op->opc, t, 0);
 +        t = do_constant_folding(op->opc, ctx->type, t, 0);
          return tcg_opt_gen_movi(ctx, op, op->args[0], t);
      }
      return false;
@@ -XXX,XX +XXX,XX @@ static bool fold_const2(OptContext *ctx, TCGOp *op)
          uint64_t t1 = arg_info(op->args[1])->val;
          uint64_t t2 = arg_info(op->args[2])->val;
 -        t1 = do_constant_folding(op->opc, t1, t2);
 +        t1 = do_constant_folding(op->opc, ctx->type, t1, t2);
          return tcg_opt_gen_movi(ctx, op, op->args[0], t1);
      }
      return false;
@@ -XXX,XX +XXX,XX @@ static bool fold_andc(OptContext *ctx, TCGOp *op)
  static bool fold_brcond(OptContext *ctx, TCGOp *op)
  {
      TCGCond cond = op->args[2];
 -    int i = do_constant_folding_cond(op->opc, op->args[0], op->args[1], cond);
 +    int i = do_constant_folding_cond(ctx->type, op->args[0], op->args[1], cond);
      if (i == 0) {
          tcg_op_remove(ctx->tcg, op);
@@ -XXX,XX +XXX,XX @@ static bool fold_brcond2(OptContext *ctx, TCGOp *op)
           * Simplify EQ/NE comparisons where one of the pairs
           * can be simplified.
           */
 -        i = do_constant_folding_cond(INDEX_op_brcond_i32, op->args[0],
 +        i = do_constant_folding_cond(TCG_TYPE_I32, op->args[0],
                                       op->args[2], cond);
          switch (i ^ inv) {
          case 0:
@@ -XXX,XX +XXX,XX @@ static bool fold_brcond2(OptContext *ctx, TCGOp *op)
              goto do_brcond_high;
          }
 -        i = do_constant_folding_cond(INDEX_op_brcond_i32, op->args[1],
 +        i = do_constant_folding_cond(TCG_TYPE_I32, op->args[1],
                                       op->args[3], cond);
          switch (i ^ inv) {
          case 0:
@@ -XXX,XX +XXX,XX @@ static bool fold_bswap(OptContext *ctx, TCGOp *op)
      if (arg_is_const(op->args[1])) {
          uint64_t t = arg_info(op->args[1])->val;
 -        t = do_constant_folding(op->opc, t, op->args[2]);
 +        t = do_constant_folding(op->opc, ctx->type, t, op->args[2]);
          return tcg_opt_gen_movi(ctx, op, op->args[0], t);
      }
      return false;
@@ -XXX,XX +XXX,XX @@ static bool fold_count_zeros(OptContext *ctx, TCGOp *op)
          uint64_t t = arg_info(op->args[1])->val;
          if (t != 0) {
 -            t = do_constant_folding(op->opc, t, 0);
 +            t = do_constant_folding(op->opc, ctx->type, t, 0);
              return tcg_opt_gen_movi(ctx, op, op->args[0], t);
          }
          return tcg_opt_gen_mov(ctx, op, op->args[0], op->args[2]);
@@ -XXX,XX +XXX,XX @@ static bool fold_mov(OptContext *ctx, TCGOp *op)
  static bool fold_movcond(OptContext *ctx, TCGOp *op)
  {
 -    TCGOpcode opc = op->opc;
      TCGCond cond = op->args[5];
 -    int i = do_constant_folding_cond(opc, op->args[1], op->args[2], cond);
 +    int i = do_constant_folding_cond(ctx->type, op->args[1], op->args[2], cond);
      if (i >= 0) {
          return tcg_opt_gen_mov(ctx, op, op->args[0], op->args[4 - i]);
@@ -XXX,XX +XXX,XX @@ static bool fold_movcond(OptContext *ctx, TCGOp *op)
      if (arg_is_const(op->args[3]) && arg_is_const(op->args[4])) {
          uint64_t tv = arg_info(op->args[3])->val;
          uint64_t fv = arg_info(op->args[4])->val;
 +        TCGOpcode opc;
 -        opc = (opc == INDEX_op_movcond_i32
 -               ? INDEX_op_setcond_i32 : INDEX_op_setcond_i64);
 +        switch (ctx->type) {
 +        case TCG_TYPE_I32:
 +            opc = INDEX_op_setcond_i32;
 +            break;
 +        case TCG_TYPE_I64:
 +            opc = INDEX_op_setcond_i64;
 +            break;
 +        default:
 +            g_assert_not_reached();
 +        }
          if (tv == 1 && fv == 0) {
              op->opc = opc;
@@ -XXX,XX +XXX,XX @@ static bool fold_remainder(OptContext *ctx, TCGOp *op)
  static bool fold_setcond(OptContext *ctx, TCGOp *op)
  {
      TCGCond cond = op->args[3];
 -    int i = do_constant_folding_cond(op->opc, op->args[1], op->args[2], cond);
 +    int i = do_constant_folding_cond(ctx->type, op->args[1], op->args[2], cond);
      if (i >= 0) {
          return tcg_opt_gen_movi(ctx, op, op->args[0], i);
@@ -XXX,XX +XXX,XX @@ static bool fold_setcond2(OptContext *ctx, TCGOp *op)
           * Simplify EQ/NE comparisons where one of the pairs
           * can be simplified.
           */
 -        i = do_constant_folding_cond(INDEX_op_setcond_i32, op->args[1],
 +        i = do_constant_folding_cond(TCG_TYPE_I32, op->args[1],
                                       op->args[3], cond);
          switch (i ^ inv) {
          case 0:
@@ -XXX,XX +XXX,XX @@ static bool fold_setcond2(OptContext *ctx, TCGOp *op)
              goto do_setcond_high;
          }
 -        i = do_constant_folding_cond(INDEX_op_setcond_i32, op->args[2],
 +        i = do_constant_folding_cond(TCG_TYPE_I32, op->args[2],
                                       op->args[4], cond);
          switch (i ^ inv) {
          case 0:
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
          init_arguments(&ctx, op, def->nb_oargs + def->nb_iargs);
          copy_propagate(&ctx, op, def->nb_oargs, def->nb_iargs);
 +        /* Pre-compute the type of the operation. */
 +        if (def->flags & TCG_OPF_VECTOR) {
 +            ctx.type = TCG_TYPE_V64 + TCGOP_VECL(op);
 +        } else if (def->flags & TCG_OPF_64BIT) {
 +            ctx.type = TCG_TYPE_I64;
 +        } else {
 +            ctx.type = TCG_TYPE_I32;
 +        }
 +
          /* For commutative operations make constant second argument */
          switch (opc) {
          CASE_OP_32_64_VEC(add):
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
                      /* Proceed with possible constant folding. */
                      break;
                  }
 -                if (opc == INDEX_op_sub_i32) {
 +                switch (ctx.type) {
 +                case TCG_TYPE_I32:
                      neg_op = INDEX_op_neg_i32;
                      have_neg = TCG_TARGET_HAS_neg_i32;
 -                } else if (opc == INDEX_op_sub_i64) {
 +                    break;
 +                case TCG_TYPE_I64:
                      neg_op = INDEX_op_neg_i64;
                      have_neg = TCG_TARGET_HAS_neg_i64;
 -                } else if (TCG_TARGET_HAS_neg_vec) {
 -                    TCGType type = TCGOP_VECL(op) + TCG_TYPE_V64;
 -                    unsigned vece = TCGOP_VECE(op);
 -                    neg_op = INDEX_op_neg_vec;
 -                    have_neg = tcg_can_emit_vec_op(neg_op, type, vece) > 0;
 -                } else {
                      break;
 +                case TCG_TYPE_V64:
 +                case TCG_TYPE_V128:
 +                case TCG_TYPE_V256:
 +                    neg_op = INDEX_op_neg_vec;
 +                    have_neg = tcg_can_emit_vec_op(neg_op, ctx.type,
 +                                                   TCGOP_VECE(op)) > 0;
 +                    break;
 +                default:
 +                    g_assert_not_reached();
                  }
                  if (!have_neg) {
                      break;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
                  TCGOpcode not_op;
                  bool have_not;
 -                if (def->flags & TCG_OPF_VECTOR) {
 -                    not_op = INDEX_op_not_vec;
 -                    have_not = TCG_TARGET_HAS_not_vec;
 -                } else if (def->flags & TCG_OPF_64BIT) {
 -                    not_op = INDEX_op_not_i64;
 -                    have_not = TCG_TARGET_HAS_not_i64;
 -                } else {
 +                switch (ctx.type) {
 +                case TCG_TYPE_I32:
                      not_op = INDEX_op_not_i32;
                      have_not = TCG_TARGET_HAS_not_i32;
 +                    break;
 +                case TCG_TYPE_I64:
 +                    not_op = INDEX_op_not_i64;
 +                    have_not = TCG_TARGET_HAS_not_i64;
 +                    break;
 +                case TCG_TYPE_V64:
 +                case TCG_TYPE_V128:
 +                case TCG_TYPE_V256:
 +                    not_op = INDEX_op_not_vec;
 +                    have_not = TCG_TARGET_HAS_not_vec;
 +                    break;
 +                default:
 +                    g_assert_not_reached();
                  }
                  if (!have_not) {
                      break;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
             below, we can ignore high bits, but for further optimizations we
             need to record that the high bits contain garbage.  */
          partmask = z_mask;
 -        if (!(def->flags & TCG_OPF_64BIT)) {
 +        if (ctx.type == TCG_TYPE_I32) {
              z_mask |= ~(tcg_target_ulong)0xffffffffu;
              partmask &= 0xffffffffu;
              affected &= 0xffffffffu;
 --
-.25.1
+.34.1

-[PULL 13/56] tcg/optimize: Split out fold_call
+[PULL 23/53] tcg/aarch64: Convert tcg_out_qemu_{ld,st}_slow_path
-Calls are special in that they have a variable number
+Use tcg_out_ld_helper_args, tcg_out_ld_helper_ret,
-of arguments, and need to be able to clobber globals.
+and tcg_out_st_helper_args.
 Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
-Reviewed-by: Luis Pires <luis.pires@eldorado.org.br>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- tcg/optimize.c | 63 ++++++++++++++++++++++++++++++++------------------
+ tcg/aarch64/tcg-target.c.inc | 40 +++++++++++++++---------------------
-file changed, 41 insertions(+), 22 deletions(-)
+file changed, 16 insertions(+), 24 deletions(-)
-diff --git a/tcg/optimize.c b/tcg/optimize.c
+diff --git a/tcg/aarch64/tcg-target.c.inc b/tcg/aarch64/tcg-target.c.inc
 index XXXXXXX..XXXXXXX 100644
---- a/tcg/optimize.c
+--- a/tcg/aarch64/tcg-target.c.inc
-+++ b/tcg/optimize.c
++++ b/tcg/aarch64/tcg-target.c.inc
-@@ -XXX,XX +XXX,XX @@ static void copy_propagate(OptContext *ctx, TCGOp *op,
+@@ -XXX,XX +XXX,XX @@ static void tcg_out_cltz(TCGContext *s, TCGType ext, TCGReg d,
      }
  }
-+static bool fold_call(OptContext *ctx, TCGOp *op)
+-static void tcg_out_adr(TCGContext *s, TCGReg rd, const void *target)
 -{
 -    ptrdiff_t offset = tcg_pcrel_diff(s, target);
 -    tcg_debug_assert(offset == sextract64(offset, 0, 21));
 -    tcg_out_insn(s, 3406, ADR, rd, offset);
 -}
 -
  typedef struct {
      TCGReg base;
      TCGReg index;
@@ -XXX,XX +XXX,XX @@ static void * const qemu_st_helpers[MO_SIZE + 1] = {
  #endif
  };
 +static const TCGLdstHelperParam ldst_helper_param = {
 +    .ntmp = 1, .tmp = { TCG_REG_TMP }
 +};
 +
  static bool tcg_out_qemu_ld_slow_path(TCGContext *s, TCGLabelQemuLdst *lb)
  {
 -    MemOpIdx oi = lb->oi;
 -    MemOp opc = get_memop(oi);
 +    MemOp opc = get_memop(lb->oi);
      if (!reloc_pc19(lb->label_ptr[0], tcg_splitwx_to_rx(s->code_ptr))) {
          return false;
      }
 -    tcg_out_mov(s, TCG_TYPE_PTR, TCG_REG_X0, TCG_AREG0);
 -    tcg_out_mov(s, TARGET_LONG_BITS == 64, TCG_REG_X1, lb->addrlo_reg);
 -    tcg_out_movi(s, TCG_TYPE_I32, TCG_REG_X2, oi);
 -    tcg_out_adr(s, TCG_REG_X3, lb->raddr);
 +    tcg_out_ld_helper_args(s, lb, &ldst_helper_param);
      tcg_out_call_int(s, qemu_ld_helpers[opc & MO_SIZE]);
 -
 -    tcg_out_movext(s, lb->type, lb->datalo_reg,
 -                   TCG_TYPE_REG, opc & MO_SSIZE, TCG_REG_X0);
 +    tcg_out_ld_helper_ret(s, lb, false, &ldst_helper_param);
      tcg_out_goto(s, lb->raddr);
      return true;
  }
  static bool tcg_out_qemu_st_slow_path(TCGContext *s, TCGLabelQemuLdst *lb)
  {
 -    MemOpIdx oi = lb->oi;
 -    MemOp opc = get_memop(oi);
 -    MemOp size = opc & MO_SIZE;
 +    MemOp opc = get_memop(lb->oi);
      if (!reloc_pc19(lb->label_ptr[0], tcg_splitwx_to_rx(s->code_ptr))) {
          return false;
      }
 -    tcg_out_mov(s, TCG_TYPE_PTR, TCG_REG_X0, TCG_AREG0);
 -    tcg_out_mov(s, TARGET_LONG_BITS == 64, TCG_REG_X1, lb->addrlo_reg);
 -    tcg_out_mov(s, size == MO_64, TCG_REG_X2, lb->datalo_reg);
 -    tcg_out_movi(s, TCG_TYPE_I32, TCG_REG_X3, oi);
 -    tcg_out_adr(s, TCG_REG_X4, lb->raddr);
 +    tcg_out_st_helper_args(s, lb, &ldst_helper_param);
      tcg_out_call_int(s, qemu_st_helpers[opc & MO_SIZE]);
      tcg_out_goto(s, lb->raddr);
      return true;
  }
  #else
 +static void tcg_out_adr(TCGContext *s, TCGReg rd, const void *target)
 +{
-+    TCGContext *s = ctx->tcg;
++    ptrdiff_t offset = tcg_pcrel_diff(s, target);
-+    int nb_oargs = TCGOP_CALLO(op);
++    tcg_debug_assert(offset == sextract64(offset, 0, 21));
-+    int nb_iargs = TCGOP_CALLI(op);
++    tcg_out_insn(s, 3406, ADR, rd, offset);
 +    int flags, i;
 +
 +    init_arguments(ctx, op, nb_oargs + nb_iargs);
 +    copy_propagate(ctx, op, nb_oargs, nb_iargs);
 +
 +    /* If the function reads or writes globals, reset temp data. */
 +    flags = tcg_call_flags(op);
 +    if (!(flags & (TCG_CALL_NO_READ_GLOBALS | TCG_CALL_NO_WRITE_GLOBALS))) {
 +        int nb_globals = s->nb_globals;
 +
 +        for (i = 0; i < nb_globals; i++) {
 +            if (test_bit(i, ctx->temps_used.l)) {
 +                reset_ts(&ctx->tcg->temps[i]);
 +            }
 +        }
 +    }
 +
 +    /* Reset temp data for outputs. */
 +    for (i = 0; i < nb_oargs; i++) {
 +        reset_temp(op->args[i]);
 +    }
 +
 +    /* Stop optimizing MB across calls. */
 +    ctx->prev_mb = NULL;
 +    return true;
 +}
 +
- /* Propagate constants and copies, fold constant expressions. */
+ static bool tcg_out_fail_alignment(TCGContext *s, TCGLabelQemuLdst *l)
  void tcg_optimize(TCGContext *s)
  {
--    int nb_temps, nb_globals, i;
+     if (!reloc_pc19(l->label_ptr[0], tcg_splitwx_to_rx(s->code_ptr))) {
 +    int nb_temps, i;
      TCGOp *op, *op_next;
      OptContext ctx = { .tcg = s };
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
         available through the doubly linked circular list. */
      nb_temps = s->nb_temps;
 -    nb_globals = s->nb_globals;
 -
      for (i = 0; i < nb_temps; ++i) {
          s->temps[i].state_ptr = NULL;
      }
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
          uint64_t z_mask, partmask, affected, tmp;
          int nb_oargs, nb_iargs;
          TCGOpcode opc = op->opc;
 -        const TCGOpDef *def = &tcg_op_defs[opc];
 +        const TCGOpDef *def;
 -        /* Count the arguments, and initialize the temps that are
 -           going to be used */
 +        /* Calls are special. */
          if (opc == INDEX_op_call) {
 -            nb_oargs = TCGOP_CALLO(op);
 -            nb_iargs = TCGOP_CALLI(op);
 -        } else {
 -            nb_oargs = def->nb_oargs;
 -            nb_iargs = def->nb_iargs;
 +            fold_call(&ctx, op);
 +            continue;
          }
 +
 +        def = &tcg_op_defs[opc];
 +        nb_oargs = def->nb_oargs;
 +        nb_iargs = def->nb_iargs;
          init_arguments(&ctx, op, nb_oargs + nb_iargs);
          copy_propagate(&ctx, op, nb_oargs, nb_iargs);
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
          if (def->flags & TCG_OPF_BB_END) {
              memset(&ctx.temps_used, 0, sizeof(ctx.temps_used));
          } else {
 -            if (opc == INDEX_op_call &&
 -                !(tcg_call_flags(op)
 -                  & (TCG_CALL_NO_READ_GLOBALS | TCG_CALL_NO_WRITE_GLOBALS))) {
 -                for (i = 0; i < nb_globals; i++) {
 -                    if (test_bit(i, ctx.temps_used.l)) {
 -                        reset_ts(&s->temps[i]);
 -                    }
 -                }
 -            }
 -
              for (i = 0; i < nb_oargs; i++) {
                  reset_temp(op->args[i]);
                  /* Save the corresponding known-zero bits mask for the
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
              case INDEX_op_qemu_st_i32:
              case INDEX_op_qemu_st8_i32:
              case INDEX_op_qemu_st_i64:
 -            case INDEX_op_call:
                  /* Opcodes that touch guest memory stop the optimization.  */
                  ctx.prev_mb = NULL;
                  break;
 --
-.25.1
+.34.1

-[PULL 54/56] tcg/optimize: Propagate sign info for setcond
+[PULL 24/53] tcg/arm: Convert tcg_out_qemu_{ld,st}_slow_path
-The result is either 0 or 1, which means that we have
+Use tcg_out_ld_helper_args, tcg_out_ld_helper_ret,
-a 2 bit signed result, and thus 62 bits of sign.
+and tcg_out_st_helper_args.  This allows our local
-For clarity, use the smask_from_zmask function.
+tcg_out_arg_* infrastructure to be removed.
 Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
-Reviewed-by: Luis Pires <luis.pires@eldorado.org.br>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- tcg/optimize.c | 2 ++
+ tcg/arm/tcg-target.c.inc | 140 +++++----------------------------------
-file changed, 2 insertions(+)
+file changed, 18 insertions(+), 122 deletions(-)
-diff --git a/tcg/optimize.c b/tcg/optimize.c
+diff --git a/tcg/arm/tcg-target.c.inc b/tcg/arm/tcg-target.c.inc
 index XXXXXXX..XXXXXXX 100644
---- a/tcg/optimize.c
+--- a/tcg/arm/tcg-target.c.inc
-+++ b/tcg/optimize.c
++++ b/tcg/arm/tcg-target.c.inc
-@@ -XXX,XX +XXX,XX @@ static bool fold_setcond(OptContext *ctx, TCGOp *op)
+@@ -XXX,XX +XXX,XX @@ tcg_out_ldrd_rwb(TCGContext *s, ARMCond cond, TCGReg rt, TCGReg rn, TCGReg rm)
      tcg_out_memop_r(s, cond, INSN_LDRD_REG, rt, rn, rm, 1, 1, 1);
  }
 -static void tcg_out_strd_8(TCGContext *s, ARMCond cond, TCGReg rt,
 -                           TCGReg rn, int imm8)
 +static void __attribute__((unused))
 +tcg_out_strd_8(TCGContext *s, ARMCond cond, TCGReg rt, TCGReg rn, int imm8)
  {
      tcg_out_memop_8(s, cond, INSN_STRD_IMM, rt, rn, imm8, 1, 0);
  }
@@ -XXX,XX +XXX,XX @@ static void tcg_out_ext8u(TCGContext *s, TCGReg rd, TCGReg rn)
      tcg_out_dat_imm(s, COND_AL, ARITH_AND, rd, rn, 0xff);
  }
 -static void __attribute__((unused))
 -tcg_out_ext8u_cond(TCGContext *s, ARMCond cond, TCGReg rd, TCGReg rn)
 -{
 -    tcg_out_dat_imm(s, cond, ARITH_AND, rd, rn, 0xff);
 -}
 -
  static void tcg_out_ext16s(TCGContext *s, TCGType t, TCGReg rd, TCGReg rn)
  {
      /* sxth */
      tcg_out32(s, 0x06bf0070 | (COND_AL << 28) | (rd << 12) | rn);
  }
 -static void tcg_out_ext16u_cond(TCGContext *s, ARMCond cond,
 -                                TCGReg rd, TCGReg rn)
 -{
 -    /* uxth */
 -    tcg_out32(s, 0x06ff0070 | (cond << 28) | (rd << 12) | rn);
 -}
 -
  static void tcg_out_ext16u(TCGContext *s, TCGReg rd, TCGReg rn)
  {
 -    tcg_out_ext16u_cond(s, COND_AL, rd, rn);
 +    /* uxth */
 +    tcg_out32(s, 0x06ff0070 | (COND_AL << 28) | (rd << 12) | rn);
  }
  static void tcg_out_ext32s(TCGContext *s, TCGReg rd, TCGReg rn)
@@ -XXX,XX +XXX,XX @@ static void * const qemu_st_helpers[MO_SIZE + 1] = {
  #endif
  };
 -/* Helper routines for marshalling helper function arguments into
 - * the correct registers and stack.
 - * argreg is where we want to put this argument, arg is the argument itself.
 - * Return value is the updated argreg ready for the next call.
 - * Note that argreg 0..3 is real registers, 4+ on stack.
 - *
 - * We provide routines for arguments which are: immediate, 32 bit
 - * value in register, 16 and 8 bit values in register (which must be zero
 - * extended before use) and 64 bit value in a lo:hi register pair.
 - */
 -#define DEFINE_TCG_OUT_ARG(NAME, ARGTYPE, MOV_ARG, EXT_ARG)                \
 -static TCGReg NAME(TCGContext *s, TCGReg argreg, ARGTYPE arg)              \
 -{                                                                          \
 -    if (argreg < 4) {                                                      \
 -        MOV_ARG(s, COND_AL, argreg, arg);                                  \
 -    } else {                                                               \
 -        int ofs = (argreg - 4) * 4;                                        \
 -        EXT_ARG;                                                           \
 -        tcg_debug_assert(ofs + 4 <= TCG_STATIC_CALL_ARGS_SIZE);            \
 -        tcg_out_st32_12(s, COND_AL, arg, TCG_REG_CALL_STACK, ofs);         \
 -    }                                                                      \
 -    return argreg + 1;                                                     \
 -}
 -
 -DEFINE_TCG_OUT_ARG(tcg_out_arg_imm32, uint32_t, tcg_out_movi32,
 -    (tcg_out_movi32(s, COND_AL, TCG_REG_TMP, arg), arg = TCG_REG_TMP))
 -DEFINE_TCG_OUT_ARG(tcg_out_arg_reg8, TCGReg, tcg_out_ext8u_cond,
 -    (tcg_out_ext8u_cond(s, COND_AL, TCG_REG_TMP, arg), arg = TCG_REG_TMP))
 -DEFINE_TCG_OUT_ARG(tcg_out_arg_reg16, TCGReg, tcg_out_ext16u_cond,
 -    (tcg_out_ext16u_cond(s, COND_AL, TCG_REG_TMP, arg), arg = TCG_REG_TMP))
 -DEFINE_TCG_OUT_ARG(tcg_out_arg_reg32, TCGReg, tcg_out_mov_reg, )
 -
 -static TCGReg tcg_out_arg_reg64(TCGContext *s, TCGReg argreg,
 -                                TCGReg arglo, TCGReg arghi)
 +static TCGReg ldst_ra_gen(TCGContext *s, const TCGLabelQemuLdst *l, int arg)
  {
 -    /* 64 bit arguments must go in even/odd register pairs
 -     * and in 8-aligned stack slots.
 -     */
 -    if (argreg & 1) {
 -        argreg++;
 -    }
 -    if (argreg >= 4 && (arglo & 1) == 0 && arghi == arglo + 1) {
 -        tcg_out_strd_8(s, COND_AL, arglo,
 -                       TCG_REG_CALL_STACK, (argreg - 4) * 4);
 -        return argreg + 2;
 -    } else {
 -        argreg = tcg_out_arg_reg32(s, argreg, arglo);
 -        argreg = tcg_out_arg_reg32(s, argreg, arghi);
 -        return argreg;
 -    }
 +    /* We arrive at the slow path via "BLNE", so R14 contains l->raddr. */
 +    return TCG_REG_R14;
  }
 +static const TCGLdstHelperParam ldst_helper_param = {
 +    .ra_gen = ldst_ra_gen,
 +    .ntmp = 1,
 +    .tmp = { TCG_REG_TMP },
 +};
 +
  static bool tcg_out_qemu_ld_slow_path(TCGContext *s, TCGLabelQemuLdst *lb)
  {
 -    TCGReg argreg;
 -    MemOpIdx oi = lb->oi;
 -    MemOp opc = get_memop(oi);
 +    MemOp opc = get_memop(lb->oi);
      if (!reloc_pc24(lb->label_ptr[0], tcg_splitwx_to_rx(s->code_ptr))) {
          return false;
      }
-     ctx->z_mask = 1;
+-    argreg = tcg_out_arg_reg32(s, TCG_REG_R0, TCG_AREG0);
-+    ctx->s_mask = smask_from_zmask(1);
+-    if (TARGET_LONG_BITS == 64) {
-     return false;
+-        argreg = tcg_out_arg_reg64(s, argreg, lb->addrlo_reg, lb->addrhi_reg);
- }
+-    } else {
+-        argreg = tcg_out_arg_reg32(s, argreg, lb->addrlo_reg);
-@@ -XXX,XX +XXX,XX @@ static bool fold_setcond2(OptContext *ctx, TCGOp *op)
+-    }
 -    argreg = tcg_out_arg_imm32(s, argreg, oi);
 -    argreg = tcg_out_arg_reg32(s, argreg, TCG_REG_R14);
 -
 -    /* Use the canonical unsigned helpers and minimize icache usage. */
 +    tcg_out_ld_helper_args(s, lb, &ldst_helper_param);
      tcg_out_call_int(s, qemu_ld_helpers[opc & MO_SIZE]);
 -
 -    if ((opc & MO_SIZE) == MO_64) {
 -        TCGMovExtend ext[2] = {
 -            { .dst = lb->datalo_reg, .dst_type = TCG_TYPE_I32,
 -              .src = TCG_REG_R0, .src_type = TCG_TYPE_I32, .src_ext = MO_UL },
 -            { .dst = lb->datahi_reg, .dst_type = TCG_TYPE_I32,
 -              .src = TCG_REG_R1, .src_type = TCG_TYPE_I32, .src_ext = MO_UL },
 -        };
 -        tcg_out_movext2(s, &ext[0], &ext[1], TCG_REG_TMP);
 -    } else {
 -        tcg_out_movext(s, TCG_TYPE_I32, lb->datalo_reg,
 -                       TCG_TYPE_I32, opc & MO_SSIZE, TCG_REG_R0);
 -    }
 +    tcg_out_ld_helper_ret(s, lb, false, &ldst_helper_param);
      tcg_out_goto(s, COND_AL, lb->raddr);
      return true;
@@ -XXX,XX +XXX,XX @@ static bool tcg_out_qemu_ld_slow_path(TCGContext *s, TCGLabelQemuLdst *lb)
  static bool tcg_out_qemu_st_slow_path(TCGContext *s, TCGLabelQemuLdst *lb)
  {
 -    TCGReg argreg, datalo, datahi;
 -    MemOpIdx oi = lb->oi;
 -    MemOp opc = get_memop(oi);
 +    MemOp opc = get_memop(lb->oi);
      if (!reloc_pc24(lb->label_ptr[0], tcg_splitwx_to_rx(s->code_ptr))) {
          return false;
      }
-     ctx->z_mask = 1;
+-    argreg = TCG_REG_R0;
-+    ctx->s_mask = smask_from_zmask(1);
+-    argreg = tcg_out_arg_reg32(s, argreg, TCG_AREG0);
-     return false;
+-    if (TARGET_LONG_BITS == 64) {
+-        argreg = tcg_out_arg_reg64(s, argreg, lb->addrlo_reg, lb->addrhi_reg);
-  do_setcond_const:
+-    } else {
 -        argreg = tcg_out_arg_reg32(s, argreg, lb->addrlo_reg);
 -    }
 -
 -    datalo = lb->datalo_reg;
 -    datahi = lb->datahi_reg;
 -    switch (opc & MO_SIZE) {
 -    case MO_8:
 -        argreg = tcg_out_arg_reg8(s, argreg, datalo);
 -        break;
 -    case MO_16:
 -        argreg = tcg_out_arg_reg16(s, argreg, datalo);
 -        break;
 -    case MO_32:
 -    default:
 -        argreg = tcg_out_arg_reg32(s, argreg, datalo);
 -        break;
 -    case MO_64:
 -        argreg = tcg_out_arg_reg64(s, argreg, datalo, datahi);
 -        break;
 -    }
 -
 -    argreg = tcg_out_arg_imm32(s, argreg, oi);
 -    argreg = tcg_out_arg_reg32(s, argreg, TCG_REG_R14);
 +    tcg_out_st_helper_args(s, lb, &ldst_helper_param);
      /* Tail-call to the helper, which will return to the fast path.  */
      tcg_out_goto(s, COND_AL, qemu_st_helpers[opc & MO_SIZE]);
 --
-.25.1
+.34.1

-[PULL 29/56] tcg/optimize: Split out fold_extract, fold_sextract
+[PULL 25/53] tcg/loongarch64: Convert tcg_out_qemu_{ld,st}_slow_path
-Reviewed-by: Luis Pires <luis.pires@eldorado.org.br>
+Use tcg_out_ld_helper_args, tcg_out_ld_helper_ret,
-Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
+and tcg_out_st_helper_args.
 Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- tcg/optimize.c | 48 ++++++++++++++++++++++++++++++------------------
+ tcg/loongarch64/tcg-target.c.inc | 37 ++++++++++----------------------
-file changed, 30 insertions(+), 18 deletions(-)
+file changed, 11 insertions(+), 26 deletions(-)
-diff --git a/tcg/optimize.c b/tcg/optimize.c
+diff --git a/tcg/loongarch64/tcg-target.c.inc b/tcg/loongarch64/tcg-target.c.inc
 index XXXXXXX..XXXXXXX 100644
---- a/tcg/optimize.c
+--- a/tcg/loongarch64/tcg-target.c.inc
-+++ b/tcg/optimize.c
++++ b/tcg/loongarch64/tcg-target.c.inc
-@@ -XXX,XX +XXX,XX @@ static bool fold_eqv(OptContext *ctx, TCGOp *op)
+@@ -XXX,XX +XXX,XX @@ static bool tcg_out_goto(TCGContext *s, const tcg_insn_unit *target)
-     return fold_const2(ctx, op);
+     return reloc_br_sd10k16(s->code_ptr - 1, target);
  }
-+static bool fold_extract(OptContext *ctx, TCGOp *op)
++static const TCGLdstHelperParam ldst_helper_param = {
-+{
++    .ntmp = 1, .tmp = { TCG_REG_TMP0 }
-+    if (arg_is_const(op->args[1])) {
++};
 +        uint64_t t;
 +
-+        t = arg_info(op->args[1])->val;
+ static bool tcg_out_qemu_ld_slow_path(TCGContext *s, TCGLabelQemuLdst *l)
 +        t = extract64(t, op->args[2], op->args[3]);
 +        return tcg_opt_gen_movi(ctx, op, op->args[0], t);
 +    }
 +    return false;
 +}
 +
  static bool fold_extract2(OptContext *ctx, TCGOp *op)
  {
-     if (arg_is_const(op->args[1]) && arg_is_const(op->args[2])) {
+-    MemOpIdx oi = l->oi;
-@@ -XXX,XX +XXX,XX @@ static bool fold_setcond2(OptContext *ctx, TCGOp *op)
+-    MemOp opc = get_memop(oi);
-     return tcg_opt_gen_movi(ctx, op, op->args[0], i);
+-    MemOp size = opc & MO_SIZE;
 +    MemOp opc = get_memop(l->oi);
      /* resolve label address */
      if (!reloc_br_sk16(l->label_ptr[0], tcg_splitwx_to_rx(s->code_ptr))) {
          return false;
      }
 -    /* call load helper */
 -    tcg_out_mov(s, TCG_TYPE_PTR, TCG_REG_A0, TCG_AREG0);
 -    tcg_out_mov(s, TCG_TYPE_PTR, TCG_REG_A1, l->addrlo_reg);
 -    tcg_out_movi(s, TCG_TYPE_PTR, TCG_REG_A2, oi);
 -    tcg_out_movi(s, TCG_TYPE_PTR, TCG_REG_A3, (tcg_target_long)l->raddr);
 -
 -    tcg_out_call_int(s, qemu_ld_helpers[size], false);
 -
 -    tcg_out_movext(s, l->type, l->datalo_reg,
 -                   TCG_TYPE_REG, opc & MO_SSIZE, TCG_REG_A0);
 +    tcg_out_ld_helper_args(s, l, &ldst_helper_param);
 +    tcg_out_call_int(s, qemu_ld_helpers[opc & MO_SIZE], false);
 +    tcg_out_ld_helper_ret(s, l, false, &ldst_helper_param);
      return tcg_out_goto(s, l->raddr);
  }
-+static bool fold_sextract(OptContext *ctx, TCGOp *op)
+ static bool tcg_out_qemu_st_slow_path(TCGContext *s, TCGLabelQemuLdst *l)
 +{
 +    if (arg_is_const(op->args[1])) {
 +        uint64_t t;
 +
 +        t = arg_info(op->args[1])->val;
 +        t = sextract64(t, op->args[2], op->args[3]);
 +        return tcg_opt_gen_movi(ctx, op, op->args[0], t);
 +    }
 +    return false;
 +}
 +
  static bool fold_shift(OptContext *ctx, TCGOp *op)
  {
-     return fold_const2(ctx, op);
+-    MemOpIdx oi = l->oi;
-@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
+-    MemOp opc = get_memop(oi);
-             }
+-    MemOp size = opc & MO_SIZE;
-             break;
++    MemOp opc = get_memop(l->oi);
--        CASE_OP_32_64(extract):
+     /* resolve label address */
--            if (arg_is_const(op->args[1])) {
+     if (!reloc_br_sk16(l->label_ptr[0], tcg_splitwx_to_rx(s->code_ptr))) {
--                tmp = extract64(arg_info(op->args[1])->val,
+         return false;
--                                op->args[2], op->args[3]);
+     }
--                tcg_opt_gen_movi(&ctx, op, op->args[0], tmp);
--                continue;
+-    /* call store helper */
--            }
+-    tcg_out_mov(s, TCG_TYPE_PTR, TCG_REG_A0, TCG_AREG0);
--            break;
+-    tcg_out_mov(s, TCG_TYPE_PTR, TCG_REG_A1, l->addrlo_reg);
 -    tcg_out_movext(s, size == MO_64 ? TCG_TYPE_I32 : TCG_TYPE_I32, TCG_REG_A2,
 -                   l->type, size, l->datalo_reg);
 -    tcg_out_movi(s, TCG_TYPE_PTR, TCG_REG_A3, oi);
 -    tcg_out_movi(s, TCG_TYPE_PTR, TCG_REG_A4, (tcg_target_long)l->raddr);
 -
--        CASE_OP_32_64(sextract):
+-    tcg_out_call_int(s, qemu_st_helpers[size], false);
 -            if (arg_is_const(op->args[1])) {
 -                tmp = sextract64(arg_info(op->args[1])->val,
 -                                 op->args[2], op->args[3]);
 -                tcg_opt_gen_movi(&ctx, op, op->args[0], tmp);
 -                continue;
 -            }
 -            break;
 -
-         default:
++    tcg_out_st_helper_args(s, l, &ldst_helper_param);
-             break;
++    tcg_out_call_int(s, qemu_st_helpers[opc & MO_SIZE], false);
+     return tcg_out_goto(s, l->raddr);
-@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
+ }
-         CASE_OP_32_64(eqv):
+ #else
              done = fold_eqv(&ctx, op);
              break;
 +        CASE_OP_32_64(extract):
 +            done = fold_extract(&ctx, op);
 +            break;
          CASE_OP_32_64(extract2):
              done = fold_extract2(&ctx, op);
              break;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
          case INDEX_op_setcond2_i32:
              done = fold_setcond2(&ctx, op);
              break;
 +        CASE_OP_32_64(sextract):
 +            done = fold_sextract(&ctx, op);
 +            break;
          CASE_OP_32_64_VEC(sub):
              done = fold_sub(&ctx, op);
              break;
 --
-.25.1
+.34.1

-[PULL 40/56] tcg/optimize: Split out fold_sub_to_neg
+[PULL 26/53] tcg/mips: Convert tcg_out_qemu_{ld,st}_slow_path
-Even though there is only one user, place this more complex
+Use tcg_out_ld_helper_args, tcg_out_ld_helper_ret,
-conversion into its own helper.
+and tcg_out_st_helper_args.  This allows our local
+tcg_out_arg_* infrastructure to be removed.
-Reviewed-by: Luis Pires <luis.pires@eldorado.org.br>
 We are no longer filling the call or return branch
 delay slots, nor are we tail-calling for the store,
 but this seems a small price to pay.
 Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- tcg/optimize.c | 89 ++++++++++++++++++++++++++------------------------
+ tcg/mips/tcg-target.c.inc | 154 ++++++--------------------------------
-file changed, 47 insertions(+), 42 deletions(-)
+file changed, 22 insertions(+), 132 deletions(-)
-diff --git a/tcg/optimize.c b/tcg/optimize.c
+diff --git a/tcg/mips/tcg-target.c.inc b/tcg/mips/tcg-target.c.inc
 index XXXXXXX..XXXXXXX 100644
---- a/tcg/optimize.c
+--- a/tcg/mips/tcg-target.c.inc
-+++ b/tcg/optimize.c
++++ b/tcg/mips/tcg-target.c.inc
-@@ -XXX,XX +XXX,XX @@ static bool fold_nand(OptContext *ctx, TCGOp *op)
+@@ -XXX,XX +XXX,XX @@ static void * const qemu_st_helpers[(MO_SIZE | MO_BSWAP) + 1] = {
+     [MO_BEUQ] = helper_be_stq_mmu,
- static bool fold_neg(OptContext *ctx, TCGOp *op)
+ };
 -/* Helper routines for marshalling helper function arguments into
 - * the correct registers and stack.
 - * I is where we want to put this argument, and is updated and returned
 - * for the next call. ARG is the argument itself.
 - *
 - * We provide routines for arguments which are: immediate, 32 bit
 - * value in register, 16 and 8 bit values in register (which must be zero
 - * extended before use) and 64 bit value in a lo:hi register pair.
 - */
 -
 -static int tcg_out_call_iarg_reg(TCGContext *s, int i, TCGReg arg)
 -{
 -    if (i < ARRAY_SIZE(tcg_target_call_iarg_regs)) {
 -        tcg_out_mov(s, TCG_TYPE_REG, tcg_target_call_iarg_regs[i], arg);
 -    } else {
 -        /* For N32 and N64, the initial offset is different.  But there
 -           we also have 8 argument register so we don't run out here.  */
 -        tcg_debug_assert(TCG_TARGET_REG_BITS == 32);
 -        tcg_out_st(s, TCG_TYPE_REG, arg, TCG_REG_SP, 4 * i);
 -    }
 -    return i + 1;
 -}
 -
 -static int tcg_out_call_iarg_reg8(TCGContext *s, int i, TCGReg arg)
 -{
 -    TCGReg tmp = TCG_TMP0;
 -    if (i < ARRAY_SIZE(tcg_target_call_iarg_regs)) {
 -        tmp = tcg_target_call_iarg_regs[i];
 -    }
 -    tcg_out_ext8u(s, tmp, arg);
 -    return tcg_out_call_iarg_reg(s, i, tmp);
 -}
 -
 -static int tcg_out_call_iarg_reg16(TCGContext *s, int i, TCGReg arg)
 -{
 -    TCGReg tmp = TCG_TMP0;
 -    if (i < ARRAY_SIZE(tcg_target_call_iarg_regs)) {
 -        tmp = tcg_target_call_iarg_regs[i];
 -    }
 -    tcg_out_opc_imm(s, OPC_ANDI, tmp, arg, 0xffff);
 -    return tcg_out_call_iarg_reg(s, i, tmp);
 -}
 -
 -static int tcg_out_call_iarg_imm(TCGContext *s, int i, TCGArg arg)
 -{
 -    TCGReg tmp = TCG_TMP0;
 -    if (arg == 0) {
 -        tmp = TCG_REG_ZERO;
 -    } else {
 -        if (i < ARRAY_SIZE(tcg_target_call_iarg_regs)) {
 -            tmp = tcg_target_call_iarg_regs[i];
 -        }
 -        tcg_out_movi(s, TCG_TYPE_REG, tmp, arg);
 -    }
 -    return tcg_out_call_iarg_reg(s, i, tmp);
 -}
 -
 -static int tcg_out_call_iarg_reg2(TCGContext *s, int i, TCGReg al, TCGReg ah)
 -{
 -    tcg_debug_assert(TCG_TARGET_REG_BITS == 32);
 -    i = (i + 1) & ~1;
 -    i = tcg_out_call_iarg_reg(s, i, (MIPS_BE ? ah : al));
 -    i = tcg_out_call_iarg_reg(s, i, (MIPS_BE ? al : ah));
 -    return i;
 -}
 +/* We have four temps, we might as well expose three of them. */
 +static const TCGLdstHelperParam ldst_helper_param = {
 +    .ntmp = 3, .tmp = { TCG_TMP0, TCG_TMP1, TCG_TMP2 }
 +};
  static bool tcg_out_qemu_ld_slow_path(TCGContext *s, TCGLabelQemuLdst *l)
  {
--    return fold_const1(ctx, op);
+     const tcg_insn_unit *tgt_rx = tcg_splitwx_to_rx(s->code_ptr);
-+    if (fold_const1(ctx, op)) {
+-    MemOpIdx oi = l->oi;
-+        return true;
+-    MemOp opc = get_memop(oi);
-+    }
+-    TCGReg v0;
-+    /*
+-    int i;
-+     * Because of fold_sub_to_neg, we want to always return true,
++    MemOp opc = get_memop(l->oi);
-+     * via finish_folding.
-+     */
+     /* resolve label address */
-+    finish_folding(ctx, op);
+     if (!reloc_pc16(l->label_ptr[0], tgt_rx)
-+    return true;
+@@ -XXX,XX +XXX,XX @@ static bool tcg_out_qemu_ld_slow_path(TCGContext *s, TCGLabelQemuLdst *l)
          return false;
      }
 -    i = 1;
 -    if (TCG_TARGET_REG_BITS < TARGET_LONG_BITS) {
 -        i = tcg_out_call_iarg_reg2(s, i, l->addrlo_reg, l->addrhi_reg);
 -    } else {
 -        i = tcg_out_call_iarg_reg(s, i, l->addrlo_reg);
 -    }
 -    i = tcg_out_call_iarg_imm(s, i, oi);
 -    i = tcg_out_call_iarg_imm(s, i, (intptr_t)l->raddr);
 +    tcg_out_ld_helper_args(s, l, &ldst_helper_param);
 +
      tcg_out_call_int(s, qemu_ld_helpers[opc & (MO_BSWAP | MO_SSIZE)], false);
      /* delay slot */
 -    tcg_out_mov(s, TCG_TYPE_PTR, tcg_target_call_iarg_regs[0], TCG_AREG0);
 +    tcg_out_nop(s);
 -    v0 = l->datalo_reg;
 -    if (TCG_TARGET_REG_BITS == 32 && (opc & MO_SIZE) == MO_64) {
 -        /* We eliminated V0 from the possible output registers, so it
 -           cannot be clobbered here.  So we must move V1 first.  */
 -        if (MIPS_BE) {
 -            tcg_out_mov(s, TCG_TYPE_I32, v0, TCG_REG_V1);
 -            v0 = l->datahi_reg;
 -        } else {
 -            tcg_out_mov(s, TCG_TYPE_I32, l->datahi_reg, TCG_REG_V1);
 -        }
 -    }
 +    tcg_out_ld_helper_ret(s, l, true, &ldst_helper_param);
      tcg_out_opc_br(s, OPC_BEQ, TCG_REG_ZERO, TCG_REG_ZERO);
      if (!reloc_pc16(s->code_ptr - 1, l->raddr)) {
@@ -XXX,XX +XXX,XX @@ static bool tcg_out_qemu_ld_slow_path(TCGContext *s, TCGLabelQemuLdst *l)
      }
      /* delay slot */
 -    if (TCG_TARGET_REG_BITS == 64 && l->type == TCG_TYPE_I32) {
 -        /* we always sign-extend 32-bit loads */
 -        tcg_out_ext32s(s, v0, TCG_REG_V0);
 -    } else {
 -        tcg_out_opc_reg(s, OPC_OR, v0, TCG_REG_V0, TCG_REG_ZERO);
 -    }
 +    tcg_out_nop(s);
      return true;
  }
- static bool fold_nor(OptContext *ctx, TCGOp *op)
+ static bool tcg_out_qemu_st_slow_path(TCGContext *s, TCGLabelQemuLdst *l)
-@@ -XXX,XX +XXX,XX @@ static bool fold_shift(OptContext *ctx, TCGOp *op)
+ {
-     return fold_const2(ctx, op);
+     const tcg_insn_unit *tgt_rx = tcg_splitwx_to_rx(s->code_ptr);
- }
+-    MemOpIdx oi = l->oi;
+-    MemOp opc = get_memop(oi);
-+static bool fold_sub_to_neg(OptContext *ctx, TCGOp *op)
+-    MemOp s_bits = opc & MO_SIZE;
-+{
+-    int i;
-+    TCGOpcode neg_op;
++    MemOp opc = get_memop(l->oi);
-+    bool have_neg;
      /* resolve label address */
      if (!reloc_pc16(l->label_ptr[0], tgt_rx)
@@ -XXX,XX +XXX,XX @@ static bool tcg_out_qemu_st_slow_path(TCGContext *s, TCGLabelQemuLdst *l)
          return false;
      }
 -    i = 1;
 -    if (TCG_TARGET_REG_BITS < TARGET_LONG_BITS) {
 -        i = tcg_out_call_iarg_reg2(s, i, l->addrlo_reg, l->addrhi_reg);
 -    } else {
 -        i = tcg_out_call_iarg_reg(s, i, l->addrlo_reg);
 -    }
 -    switch (s_bits) {
 -    case MO_8:
 -        i = tcg_out_call_iarg_reg8(s, i, l->datalo_reg);
 -        break;
 -    case MO_16:
 -        i = tcg_out_call_iarg_reg16(s, i, l->datalo_reg);
 -        break;
 -    case MO_32:
 -        i = tcg_out_call_iarg_reg(s, i, l->datalo_reg);
 -        break;
 -    case MO_64:
 -        if (TCG_TARGET_REG_BITS == 32) {
 -            i = tcg_out_call_iarg_reg2(s, i, l->datalo_reg, l->datahi_reg);
 -        } else {
 -            i = tcg_out_call_iarg_reg(s, i, l->datalo_reg);
 -        }
 -        break;
 -    default:
 -        g_assert_not_reached();
 -    }
 -    i = tcg_out_call_iarg_imm(s, i, oi);
 +    tcg_out_st_helper_args(s, l, &ldst_helper_param);
 -    /* Tail call to the store helper.  Thus force the return address
 -       computation to take place in the return address register.  */
 -    tcg_out_movi(s, TCG_TYPE_PTR, TCG_REG_RA, (intptr_t)l->raddr);
 -    i = tcg_out_call_iarg_reg(s, i, TCG_REG_RA);
 -    tcg_out_call_int(s, qemu_st_helpers[opc & (MO_BSWAP | MO_SIZE)], true);
 +    tcg_out_call_int(s, qemu_st_helpers[opc & (MO_BSWAP | MO_SIZE)], false);
      /* delay slot */
 -    tcg_out_mov(s, TCG_TYPE_PTR, tcg_target_call_iarg_regs[0], TCG_AREG0);
 +    tcg_out_nop(s);
 +
-+    if (!arg_is_const(op->args[1]) || arg_info(op->args[1])->val != 0) {
++    tcg_out_opc_br(s, OPC_BEQ, TCG_REG_ZERO, TCG_REG_ZERO);
 +    if (!reloc_pc16(s->code_ptr - 1, l->raddr)) {
 +        return false;
 +    }
 +
-+    switch (ctx->type) {
++    /* delay slot */
-+    case TCG_TYPE_I32:
++    tcg_out_nop(s);
-+        neg_op = INDEX_op_neg_i32;
+     return true;
-+        have_neg = TCG_TARGET_HAS_neg_i32;
+ }
-+        break;
 +    case TCG_TYPE_I64:
 +        neg_op = INDEX_op_neg_i64;
 +        have_neg = TCG_TARGET_HAS_neg_i64;
 +        break;
 +    case TCG_TYPE_V64:
 +    case TCG_TYPE_V128:
 +    case TCG_TYPE_V256:
 +        neg_op = INDEX_op_neg_vec;
 +        have_neg = (TCG_TARGET_HAS_neg_vec &&
 +                    tcg_can_emit_vec_op(neg_op, ctx->type, TCGOP_VECE(op)) > 0);
 +        break;
 +    default:
 +        g_assert_not_reached();
 +    }
 +    if (have_neg) {
 +        op->opc = neg_op;
 +        op->args[1] = op->args[2];
 +        return fold_neg(ctx, op);
 +    }
 +    return false;
 +}
 +
  static bool fold_sub(OptContext *ctx, TCGOp *op)
  {
      if (fold_const2(ctx, op) ||
 -        fold_xx_to_i(ctx, op, 0)) {
 +        fold_xx_to_i(ctx, op, 0) ||
 +        fold_sub_to_neg(ctx, op)) {
          return true;
      }
      return false;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
                  continue;
              }
              break;
 -        CASE_OP_32_64_VEC(sub):
 -            {
 -                TCGOpcode neg_op;
 -                bool have_neg;
 -
 -                if (arg_is_const(op->args[2])) {
 -                    /* Proceed with possible constant folding. */
 -                    break;
 -                }
 -                switch (ctx.type) {
 -                case TCG_TYPE_I32:
 -                    neg_op = INDEX_op_neg_i32;
 -                    have_neg = TCG_TARGET_HAS_neg_i32;
 -                    break;
 -                case TCG_TYPE_I64:
 -                    neg_op = INDEX_op_neg_i64;
 -                    have_neg = TCG_TARGET_HAS_neg_i64;
 -                    break;
 -                case TCG_TYPE_V64:
 -                case TCG_TYPE_V128:
 -                case TCG_TYPE_V256:
 -                    neg_op = INDEX_op_neg_vec;
 -                    have_neg = tcg_can_emit_vec_op(neg_op, ctx.type,
 -                                                   TCGOP_VECE(op)) > 0;
 -                    break;
 -                default:
 -                    g_assert_not_reached();
 -                }
 -                if (!have_neg) {
 -                    break;
 -                }
 -                if (arg_is_const(op->args[1])
 -                    && arg_info(op->args[1])->val == 0) {
 -                    op->opc = neg_op;
 -                    reset_temp(op->args[0]);
 -                    op->args[1] = op->args[2];
 -                    continue;
 -                }
 -            }
 -            break;
          default:
              break;
          }
 --
-.25.1
+.34.1

-[PULL 21/56] tcg/optimize: Split out fold_setcond2
+[PULL 27/53] tcg/ppc: Convert tcg_out_qemu_{ld,st}_slow_path
-Reduce some code duplication by folding the NE and EQ cases.
+Use tcg_out_ld_helper_args, tcg_out_ld_helper_ret,
 and tcg_out_st_helper_args.
 Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
-Reviewed-by: Luis Pires <luis.pires@eldorado.org.br>
+Reviewed-by: Daniel Henrique Barboza <danielhb413@gmail.com>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- tcg/optimize.c | 145 ++++++++++++++++++++++++-------------------------
+ tcg/ppc/tcg-target.c.inc | 88 ++++++++++++----------------------------
-file changed, 72 insertions(+), 73 deletions(-)
+file changed, 26 insertions(+), 62 deletions(-)
-diff --git a/tcg/optimize.c b/tcg/optimize.c
+diff --git a/tcg/ppc/tcg-target.c.inc b/tcg/ppc/tcg-target.c.inc
 index XXXXXXX..XXXXXXX 100644
---- a/tcg/optimize.c
+--- a/tcg/ppc/tcg-target.c.inc
-+++ b/tcg/optimize.c
++++ b/tcg/ppc/tcg-target.c.inc
-@@ -XXX,XX +XXX,XX @@ static bool fold_remainder(OptContext *ctx, TCGOp *op)
+@@ -XXX,XX +XXX,XX @@ static void * const qemu_st_helpers[(MO_SIZE | MO_BSWAP) + 1] = {
-     return fold_const2(ctx, op);
+     [MO_BEUQ] = helper_be_stq_mmu,
- }
+ };
-+static bool fold_setcond2(OptContext *ctx, TCGOp *op)
++static TCGReg ldst_ra_gen(TCGContext *s, const TCGLabelQemuLdst *l, int arg)
 +{
-+    TCGCond cond = op->args[5];
++    if (arg < 0) {
-+    int i = do_constant_folding_cond2(&op->args[1], &op->args[3], cond);
++        arg = TCG_REG_TMP1;
 +    int inv = 0;
 +
 +    if (i >= 0) {
 +        goto do_setcond_const;
 +    }
-+
++    tcg_out32(s, MFSPR | RT(arg) | LR);
-+    switch (cond) {
++    return arg;
 +    case TCG_COND_LT:
 +    case TCG_COND_GE:
 +        /*
 +         * Simplify LT/GE comparisons vs zero to a single compare
 +         * vs the high word of the input.
 +         */
 +        if (arg_is_const(op->args[3]) && arg_info(op->args[3])->val == 0 &&
 +            arg_is_const(op->args[4]) && arg_info(op->args[4])->val == 0) {
 +            goto do_setcond_high;
 +        }
 +        break;
 +
 +    case TCG_COND_NE:
 +        inv = 1;
 +        QEMU_FALLTHROUGH;
 +    case TCG_COND_EQ:
 +        /*
 +         * Simplify EQ/NE comparisons where one of the pairs
 +         * can be simplified.
 +         */
 +        i = do_constant_folding_cond(INDEX_op_setcond_i32, op->args[1],
 +                                     op->args[3], cond);
 +        switch (i ^ inv) {
 +        case 0:
 +            goto do_setcond_const;
 +        case 1:
 +            goto do_setcond_high;
 +        }
 +
 +        i = do_constant_folding_cond(INDEX_op_setcond_i32, op->args[2],
 +                                     op->args[4], cond);
 +        switch (i ^ inv) {
 +        case 0:
 +            goto do_setcond_const;
 +        case 1:
 +            op->args[2] = op->args[3];
 +            op->args[3] = cond;
 +            op->opc = INDEX_op_setcond_i32;
 +            break;
 +        }
 +        break;
 +
 +    default:
 +        break;
 +
 +    do_setcond_high:
 +        op->args[1] = op->args[2];
 +        op->args[2] = op->args[4];
 +        op->args[3] = cond;
 +        op->opc = INDEX_op_setcond_i32;
 +        break;
 +    }
 +    return false;
 +
 + do_setcond_const:
 +    return tcg_opt_gen_movi(ctx, op, op->args[0], i);
 +}
 +
- static bool fold_shift(OptContext *ctx, TCGOp *op)
++/*
 + * For the purposes of ppc32 sorting 4 input registers into 4 argument
 + * registers, there is an outside chance we would require 3 temps.
 + * Because of constraints, no inputs are in r3, and env will not be
 + * placed into r3 until after the sorting is done, and is thus free.
 + */
 +static const TCGLdstHelperParam ldst_helper_param = {
 +    .ra_gen = ldst_ra_gen,
 +    .ntmp = 3,
 +    .tmp = { TCG_REG_TMP1, TCG_REG_R0, TCG_REG_R3 }
 +};
 +
  static bool tcg_out_qemu_ld_slow_path(TCGContext *s, TCGLabelQemuLdst *lb)
  {
-     return fold_const2(ctx, op);
+-    MemOpIdx oi = lb->oi;
-@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
+-    MemOp opc = get_memop(oi);
-             }
+-    TCGReg hi, lo, arg = TCG_REG_R3;
-             break;
++    MemOp opc = get_memop(lb->oi);
--        case INDEX_op_setcond2_i32:
+     if (!reloc_pc14(lb->label_ptr[0], tcg_splitwx_to_rx(s->code_ptr))) {
--            i = do_constant_folding_cond2(&op->args[1], &op->args[3],
+         return false;
--                                          op->args[5]);
+     }
--            if (i >= 0) {
--            do_setcond_const:
+-    tcg_out_mov(s, TCG_TYPE_PTR, arg++, TCG_AREG0);
 -                tcg_opt_gen_movi(&ctx, op, op->args[0], i);
 -                continue;
 -            }
 -            if ((op->args[5] == TCG_COND_LT || op->args[5] == TCG_COND_GE)
 -                 && arg_is_const(op->args[3])
 -                 && arg_info(op->args[3])->val == 0
 -                 && arg_is_const(op->args[4])
 -                 && arg_info(op->args[4])->val == 0) {
 -                /* Simplify LT/GE comparisons vs zero to a single compare
 -                   vs the high word of the input.  */
 -            do_setcond_high:
 -                reset_temp(op->args[0]);
 -                arg_info(op->args[0])->z_mask = 1;
 -                op->opc = INDEX_op_setcond_i32;
 -                op->args[1] = op->args[2];
 -                op->args[2] = op->args[4];
 -                op->args[3] = op->args[5];
 -                break;
 -            }
 -            if (op->args[5] == TCG_COND_EQ) {
 -                /* Simplify EQ comparisons where one of the pairs
 -                   can be simplified.  */
 -                i = do_constant_folding_cond(INDEX_op_setcond_i32,
 -                                             op->args[1], op->args[3],
 -                                             TCG_COND_EQ);
 -                if (i == 0) {
 -                    goto do_setcond_const;
 -                } else if (i > 0) {
 -                    goto do_setcond_high;
 -                }
 -                i = do_constant_folding_cond(INDEX_op_setcond_i32,
 -                                             op->args[2], op->args[4],
 -                                             TCG_COND_EQ);
 -                if (i == 0) {
 -                    goto do_setcond_high;
 -                } else if (i < 0) {
 -                    break;
 -                }
 -            do_setcond_low:
 -                reset_temp(op->args[0]);
 -                arg_info(op->args[0])->z_mask = 1;
 -                op->opc = INDEX_op_setcond_i32;
 -                op->args[2] = op->args[3];
 -                op->args[3] = op->args[5];
 -                break;
 -            }
 -            if (op->args[5] == TCG_COND_NE) {
 -                /* Simplify NE comparisons where one of the pairs
 -                   can be simplified.  */
 -                i = do_constant_folding_cond(INDEX_op_setcond_i32,
 -                                             op->args[1], op->args[3],
 -                                             TCG_COND_NE);
 -                if (i == 0) {
 -                    goto do_setcond_high;
 -                } else if (i > 0) {
 -                    goto do_setcond_const;
 -                }
 -                i = do_constant_folding_cond(INDEX_op_setcond_i32,
 -                                             op->args[2], op->args[4],
 -                                             TCG_COND_NE);
 -                if (i == 0) {
 -                    goto do_setcond_low;
 -                } else if (i > 0) {
 -                    goto do_setcond_const;
 -                }
 -            }
 -            break;
 -
-         default:
+-    lo = lb->addrlo_reg;
-             break;
+-    hi = lb->addrhi_reg;
+-    if (TCG_TARGET_REG_BITS < TARGET_LONG_BITS) {
-@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
+-        arg |= (TCG_TARGET_CALL_ARG_I64 == TCG_CALL_ARG_EVEN);
-         CASE_OP_32_64(shr):
+-        tcg_out_mov(s, TCG_TYPE_I32, arg++, hi);
-             done = fold_shift(&ctx, op);
+-        tcg_out_mov(s, TCG_TYPE_I32, arg++, lo);
-             break;
+-    } else {
-+        case INDEX_op_setcond2_i32:
+-        /* If the address needed to be zero-extended, we'll have already
-+            done = fold_setcond2(&ctx, op);
+-           placed it in R4.  The only remaining case is 64-bit guest.  */
-+            break;
+-        tcg_out_mov(s, TCG_TYPE_TL, arg++, lo);
-         CASE_OP_32_64_VEC(sub):
+-    }
-             done = fold_sub(&ctx, op);
+-
-             break;
+-    tcg_out_movi(s, TCG_TYPE_I32, arg++, oi);
 -    tcg_out32(s, MFSPR | RT(arg) | LR);
 -
 +    tcg_out_ld_helper_args(s, lb, &ldst_helper_param);
      tcg_out_call_int(s, LK, qemu_ld_helpers[opc & (MO_BSWAP | MO_SIZE)]);
 -
 -    lo = lb->datalo_reg;
 -    hi = lb->datahi_reg;
 -    if (TCG_TARGET_REG_BITS == 32 && (opc & MO_SIZE) == MO_64) {
 -        tcg_out_mov(s, TCG_TYPE_I32, lo, TCG_REG_R4);
 -        tcg_out_mov(s, TCG_TYPE_I32, hi, TCG_REG_R3);
 -    } else {
 -        tcg_out_movext(s, lb->type, lo,
 -                       TCG_TYPE_REG, opc & MO_SSIZE, TCG_REG_R3);
 -    }
 +    tcg_out_ld_helper_ret(s, lb, false, &ldst_helper_param);
      tcg_out_b(s, 0, lb->raddr);
      return true;
@@ -XXX,XX +XXX,XX @@ static bool tcg_out_qemu_ld_slow_path(TCGContext *s, TCGLabelQemuLdst *lb)
  static bool tcg_out_qemu_st_slow_path(TCGContext *s, TCGLabelQemuLdst *lb)
  {
 -    MemOpIdx oi = lb->oi;
 -    MemOp opc = get_memop(oi);
 -    MemOp s_bits = opc & MO_SIZE;
 -    TCGReg hi, lo, arg = TCG_REG_R3;
 +    MemOp opc = get_memop(lb->oi);
      if (!reloc_pc14(lb->label_ptr[0], tcg_splitwx_to_rx(s->code_ptr))) {
          return false;
      }
 -    tcg_out_mov(s, TCG_TYPE_PTR, arg++, TCG_AREG0);
 -
 -    lo = lb->addrlo_reg;
 -    hi = lb->addrhi_reg;
 -    if (TCG_TARGET_REG_BITS < TARGET_LONG_BITS) {
 -        arg |= (TCG_TARGET_CALL_ARG_I64 == TCG_CALL_ARG_EVEN);
 -        tcg_out_mov(s, TCG_TYPE_I32, arg++, hi);
 -        tcg_out_mov(s, TCG_TYPE_I32, arg++, lo);
 -    } else {
 -        /* If the address needed to be zero-extended, we'll have already
 -           placed it in R4.  The only remaining case is 64-bit guest.  */
 -        tcg_out_mov(s, TCG_TYPE_TL, arg++, lo);
 -    }
 -
 -    lo = lb->datalo_reg;
 -    hi = lb->datahi_reg;
 -    if (TCG_TARGET_REG_BITS == 32 && s_bits == MO_64) {
 -        arg |= (TCG_TARGET_CALL_ARG_I64 == TCG_CALL_ARG_EVEN);
 -        tcg_out_mov(s, TCG_TYPE_I32, arg++, hi);
 -        tcg_out_mov(s, TCG_TYPE_I32, arg++, lo);
 -    } else {
 -        tcg_out_movext(s, s_bits == MO_64 ? TCG_TYPE_I64 : TCG_TYPE_I32,
 -                       arg++, lb->type, s_bits, lo);
 -    }
 -
 -    tcg_out_movi(s, TCG_TYPE_I32, arg++, oi);
 -    tcg_out32(s, MFSPR | RT(arg) | LR);
 -
 +    tcg_out_st_helper_args(s, lb, &ldst_helper_param);
      tcg_out_call_int(s, LK, qemu_st_helpers[opc & (MO_BSWAP | MO_SIZE)]);
      tcg_out_b(s, 0, lb->raddr);
 --
-.25.1
+.34.1

-[PULL 16/56] tcg/optimize: Return true from tcg_opt_gen_{mov,movi}
+[PULL 28/53] tcg/riscv: Convert tcg_out_qemu_{ld,st}_slow_path
-This will allow callers to tail call to these functions
+Use tcg_out_ld_helper_args, tcg_out_ld_helper_ret,
-and return true indicating processing complete.
+and tcg_out_st_helper_args.
 Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
-Reviewed-by: Luis Pires <luis.pires@eldorado.org.br>
+Reviewed-by: Daniel Henrique Barboza <dbarboza@ventanamicro.com>
 Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- tcg/optimize.c | 9 +++++----
+ tcg/riscv/tcg-target.c.inc | 37 ++++++++++---------------------------
-file changed, 5 insertions(+), 4 deletions(-)
+file changed, 10 insertions(+), 27 deletions(-)
-diff --git a/tcg/optimize.c b/tcg/optimize.c
+diff --git a/tcg/riscv/tcg-target.c.inc b/tcg/riscv/tcg-target.c.inc
 index XXXXXXX..XXXXXXX 100644
---- a/tcg/optimize.c
+--- a/tcg/riscv/tcg-target.c.inc
-+++ b/tcg/optimize.c
++++ b/tcg/riscv/tcg-target.c.inc
-@@ -XXX,XX +XXX,XX @@ static bool args_are_copies(TCGArg arg1, TCGArg arg2)
+@@ -XXX,XX +XXX,XX @@ static void tcg_out_goto(TCGContext *s, const tcg_insn_unit *target)
-     return ts_are_copies(arg_temp(arg1), arg_temp(arg2));
+     tcg_debug_assert(ok);
  }
--static void tcg_opt_gen_mov(OptContext *ctx, TCGOp *op, TCGArg dst, TCGArg src)
++/* We have three temps, we might as well expose them. */
-+static bool tcg_opt_gen_mov(OptContext *ctx, TCGOp *op, TCGArg dst, TCGArg src)
++static const TCGLdstHelperParam ldst_helper_param = {
 +    .ntmp = 3, .tmp = { TCG_REG_TMP0, TCG_REG_TMP1, TCG_REG_TMP2 }
 +};
 +
  static bool tcg_out_qemu_ld_slow_path(TCGContext *s, TCGLabelQemuLdst *l)
  {
-     TCGTemp *dst_ts = arg_temp(dst);
+-    MemOpIdx oi = l->oi;
-     TCGTemp *src_ts = arg_temp(src);
+-    MemOp opc = get_memop(oi);
-@@ -XXX,XX +XXX,XX @@ static void tcg_opt_gen_mov(OptContext *ctx, TCGOp *op, TCGArg dst, TCGArg src)
+-    TCGReg a0 = tcg_target_call_iarg_regs[0];
+-    TCGReg a1 = tcg_target_call_iarg_regs[1];
-     if (ts_are_copies(dst_ts, src_ts)) {
+-    TCGReg a2 = tcg_target_call_iarg_regs[2];
-         tcg_op_remove(ctx->tcg, op);
+-    TCGReg a3 = tcg_target_call_iarg_regs[3];
--        return;
++    MemOp opc = get_memop(l->oi);
-+        return true;
      /* resolve label address */
      if (!reloc_sbimm12(l->label_ptr[0], tcg_splitwx_to_rx(s->code_ptr))) {
@@ -XXX,XX +XXX,XX @@ static bool tcg_out_qemu_ld_slow_path(TCGContext *s, TCGLabelQemuLdst *l)
      }
-     reset_ts(dst_ts);
+     /* call load helper */
-@@ -XXX,XX +XXX,XX @@ static void tcg_opt_gen_mov(OptContext *ctx, TCGOp *op, TCGArg dst, TCGArg src)
+-    tcg_out_mov(s, TCG_TYPE_PTR, a0, TCG_AREG0);
-         di->is_const = si->is_const;
+-    tcg_out_mov(s, TCG_TYPE_PTR, a1, l->addrlo_reg);
-         di->val = si->val;
+-    tcg_out_movi(s, TCG_TYPE_PTR, a2, oi);
 -    tcg_out_movi(s, TCG_TYPE_PTR, a3, (tcg_target_long)l->raddr);
 -
 +    tcg_out_ld_helper_args(s, l, &ldst_helper_param);
      tcg_out_call_int(s, qemu_ld_helpers[opc & MO_SSIZE], false);
 -    tcg_out_mov(s, (opc & MO_SIZE) == MO_64, l->datalo_reg, a0);
 +    tcg_out_ld_helper_ret(s, l, true, &ldst_helper_param);
      tcg_out_goto(s, l->raddr);
      return true;
@@ -XXX,XX +XXX,XX @@ static bool tcg_out_qemu_ld_slow_path(TCGContext *s, TCGLabelQemuLdst *l)
  static bool tcg_out_qemu_st_slow_path(TCGContext *s, TCGLabelQemuLdst *l)
  {
 -    MemOpIdx oi = l->oi;
 -    MemOp opc = get_memop(oi);
 -    MemOp s_bits = opc & MO_SIZE;
 -    TCGReg a0 = tcg_target_call_iarg_regs[0];
 -    TCGReg a1 = tcg_target_call_iarg_regs[1];
 -    TCGReg a2 = tcg_target_call_iarg_regs[2];
 -    TCGReg a3 = tcg_target_call_iarg_regs[3];
 -    TCGReg a4 = tcg_target_call_iarg_regs[4];
 +    MemOp opc = get_memop(l->oi);
      /* resolve label address */
      if (!reloc_sbimm12(l->label_ptr[0], tcg_splitwx_to_rx(s->code_ptr))) {
@@ -XXX,XX +XXX,XX @@ static bool tcg_out_qemu_st_slow_path(TCGContext *s, TCGLabelQemuLdst *l)
      }
-+    return true;
- }
+     /* call store helper */
+-    tcg_out_mov(s, TCG_TYPE_PTR, a0, TCG_AREG0);
--static void tcg_opt_gen_movi(OptContext *ctx, TCGOp *op,
+-    tcg_out_mov(s, TCG_TYPE_PTR, a1, l->addrlo_reg);
-+static bool tcg_opt_gen_movi(OptContext *ctx, TCGOp *op,
+-    tcg_out_movext(s, s_bits == MO_64 ? TCG_TYPE_I64 : TCG_TYPE_I32, a2,
-                              TCGArg dst, uint64_t val)
+-                   l->type, s_bits, l->datalo_reg);
- {
+-    tcg_out_movi(s, TCG_TYPE_PTR, a3, oi);
-     const TCGOpDef *def = &tcg_op_defs[op->opc];
+-    tcg_out_movi(s, TCG_TYPE_PTR, a4, (tcg_target_long)l->raddr);
-@@ -XXX,XX +XXX,XX @@ static void tcg_opt_gen_movi(OptContext *ctx, TCGOp *op,
+-
-     /* Convert movi to mov with constant temp. */
++    tcg_out_st_helper_args(s, l, &ldst_helper_param);
-     tv = tcg_constant_internal(type, val);
+     tcg_out_call_int(s, qemu_st_helpers[opc & MO_SIZE], false);
-     init_ts_info(ctx, tv);
--    tcg_opt_gen_mov(ctx, op, dst, temp_arg(tv));
+     tcg_out_goto(s, l->raddr);
 +    return tcg_opt_gen_mov(ctx, op, dst, temp_arg(tv));
  }
  static uint64_t do_constant_folding_2(TCGOpcode op, uint64_t x, uint64_t y)
 --
-.25.1
+.34.1

-[PULL 09/56] tcg/optimize: Change tcg_opt_gen_{mov,movi} interface
+[PULL 29/53] tcg/s390x: Convert tcg_out_qemu_{ld,st}_slow_path
-Adjust the interface to take the OptContext parameter instead
+Use tcg_out_ld_helper_args, tcg_out_ld_helper_ret,
-of TCGContext or both.
+and tcg_out_st_helper_args.
 Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
-Reviewed-by: Luis Pires <luis.pires@eldorado.org.br>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- tcg/optimize.c | 67 +++++++++++++++++++++++++-------------------------
+ tcg/s390x/tcg-target.c.inc | 35 ++++++++++-------------------------
-file changed, 34 insertions(+), 33 deletions(-)
+file changed, 10 insertions(+), 25 deletions(-)
-diff --git a/tcg/optimize.c b/tcg/optimize.c
+diff --git a/tcg/s390x/tcg-target.c.inc b/tcg/s390x/tcg-target.c.inc
 index XXXXXXX..XXXXXXX 100644
---- a/tcg/optimize.c
+--- a/tcg/s390x/tcg-target.c.inc
-+++ b/tcg/optimize.c
++++ b/tcg/s390x/tcg-target.c.inc
-@@ -XXX,XX +XXX,XX @@ typedef struct TempOptInfo {
+@@ -XXX,XX +XXX,XX @@ static void tcg_out_qemu_st_direct(TCGContext *s, MemOp opc, TCGReg data,
  } TempOptInfo;
  typedef struct OptContext {
 +    TCGContext *tcg;
      TCGTempSet temps_used;
  } OptContext;
@@ -XXX,XX +XXX,XX @@ static bool args_are_copies(TCGArg arg1, TCGArg arg2)
      return ts_are_copies(arg_temp(arg1), arg_temp(arg2));
  }
--static void tcg_opt_gen_mov(TCGContext *s, TCGOp *op, TCGArg dst, TCGArg src)
+ #if defined(CONFIG_SOFTMMU)
-+static void tcg_opt_gen_mov(OptContext *ctx, TCGOp *op, TCGArg dst, TCGArg src)
++static const TCGLdstHelperParam ldst_helper_param = {
 +    .ntmp = 1, .tmp = { TCG_TMP0 }
 +};
 +
  static bool tcg_out_qemu_ld_slow_path(TCGContext *s, TCGLabelQemuLdst *lb)
  {
-     TCGTemp *dst_ts = arg_temp(dst);
+-    TCGReg addr_reg = lb->addrlo_reg;
-     TCGTemp *src_ts = arg_temp(src);
+-    TCGReg data_reg = lb->datalo_reg;
-@@ -XXX,XX +XXX,XX @@ static void tcg_opt_gen_mov(TCGContext *s, TCGOp *op, TCGArg dst, TCGArg src)
+-    MemOpIdx oi = lb->oi;
-     TCGOpcode new_op;
+-    MemOp opc = get_memop(oi);
++    MemOp opc = get_memop(lb->oi);
-     if (ts_are_copies(dst_ts, src_ts)) {
--        tcg_op_remove(s, op);
+     if (!patch_reloc(lb->label_ptr[0], R_390_PC16DBL,
-+        tcg_op_remove(ctx->tcg, op);
+                      (intptr_t)tcg_splitwx_to_rx(s->code_ptr), 2)) {
-         return;
+         return false;
      }
-@@ -XXX,XX +XXX,XX @@ static void tcg_opt_gen_mov(TCGContext *s, TCGOp *op, TCGArg dst, TCGArg src)
+-    tcg_out_mov(s, TCG_TYPE_PTR, TCG_REG_R2, TCG_AREG0);
 -    if (TARGET_LONG_BITS == 64) {
 -        tcg_out_mov(s, TCG_TYPE_I64, TCG_REG_R3, addr_reg);
 -    }
 -    tcg_out_movi(s, TCG_TYPE_I32, TCG_REG_R4, oi);
 -    tcg_out_movi(s, TCG_TYPE_PTR, TCG_REG_R5, (uintptr_t)lb->raddr);
 -    tcg_out_call_int(s, qemu_ld_helpers[opc & (MO_BSWAP | MO_SSIZE)]);
 -    tcg_out_mov(s, TCG_TYPE_I64, data_reg, TCG_REG_R2);
 +    tcg_out_ld_helper_args(s, lb, &ldst_helper_param);
 +    tcg_out_call_int(s, qemu_ld_helpers[opc & (MO_BSWAP | MO_SIZE)]);
 +    tcg_out_ld_helper_ret(s, lb, false, &ldst_helper_param);
      tgen_gotoi(s, S390_CC_ALWAYS, lb->raddr);
      return true;
@@ -XXX,XX +XXX,XX @@ static bool tcg_out_qemu_ld_slow_path(TCGContext *s, TCGLabelQemuLdst *lb)
  static bool tcg_out_qemu_st_slow_path(TCGContext *s, TCGLabelQemuLdst *lb)
  {
 -    TCGReg addr_reg = lb->addrlo_reg;
 -    TCGReg data_reg = lb->datalo_reg;
 -    MemOpIdx oi = lb->oi;
 -    MemOp opc = get_memop(oi);
 -    MemOp size = opc & MO_SIZE;
 +    MemOp opc = get_memop(lb->oi);
      if (!patch_reloc(lb->label_ptr[0], R_390_PC16DBL,
                       (intptr_t)tcg_splitwx_to_rx(s->code_ptr), 2)) {
          return false;
      }
- }
+-    tcg_out_mov(s, TCG_TYPE_PTR, TCG_REG_R2, TCG_AREG0);
--static void tcg_opt_gen_movi(TCGContext *s, OptContext *ctx,
+-    if (TARGET_LONG_BITS == 64) {
--                             TCGOp *op, TCGArg dst, uint64_t val)
+-        tcg_out_mov(s, TCG_TYPE_I64, TCG_REG_R3, addr_reg);
-+static void tcg_opt_gen_movi(OptContext *ctx, TCGOp *op,
+-    }
-+                             TCGArg dst, uint64_t val)
+-    tcg_out_movext(s, size == MO_64 ? TCG_TYPE_I64 : TCG_TYPE_I32,
- {
+-                   TCG_REG_R4, lb->type, size, data_reg);
-     const TCGOpDef *def = &tcg_op_defs[op->opc];
+-    tcg_out_movi(s, TCG_TYPE_I32, TCG_REG_R5, oi);
-     TCGType type;
+-    tcg_out_movi(s, TCG_TYPE_PTR, TCG_REG_R6, (uintptr_t)lb->raddr);
-@@ -XXX,XX +XXX,XX @@ static void tcg_opt_gen_movi(TCGContext *s, OptContext *ctx,
++    tcg_out_st_helper_args(s, lb, &ldst_helper_param);
-     /* Convert movi to mov with constant temp. */
+     tcg_out_call_int(s, qemu_st_helpers[opc & (MO_BSWAP | MO_SIZE)]);
-     tv = tcg_constant_internal(type, val);
-     init_ts_info(ctx, tv);
+     tgen_gotoi(s, S390_CC_ALWAYS, lb->raddr);
 -    tcg_opt_gen_mov(s, op, dst, temp_arg(tv));
 +    tcg_opt_gen_mov(ctx, op, dst, temp_arg(tv));
  }
  static uint64_t do_constant_folding_2(TCGOpcode op, uint64_t x, uint64_t y)
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
  {
      int nb_temps, nb_globals, i;
      TCGOp *op, *op_next, *prev_mb = NULL;
 -    OptContext ctx = {};
 +    OptContext ctx = { .tcg = s };
      /* Array VALS has an element for each temp.
         If this temp holds a constant then its value is kept in VALS' element.
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
          CASE_OP_32_64(rotr):
              if (arg_is_const(op->args[1])
                  && arg_info(op->args[1])->val == 0) {
 -                tcg_opt_gen_movi(s, &ctx, op, op->args[0], 0);
 +                tcg_opt_gen_movi(&ctx, op, op->args[0], 0);
                  continue;
              }
              break;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
              if (!arg_is_const(op->args[1])
                  && arg_is_const(op->args[2])
                  && arg_info(op->args[2])->val == 0) {
 -                tcg_opt_gen_mov(s, op, op->args[0], op->args[1]);
 +                tcg_opt_gen_mov(&ctx, op, op->args[0], op->args[1]);
                  continue;
              }
              break;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
              if (!arg_is_const(op->args[1])
                  && arg_is_const(op->args[2])
                  && arg_info(op->args[2])->val == -1) {
 -                tcg_opt_gen_mov(s, op, op->args[0], op->args[1]);
 +                tcg_opt_gen_mov(&ctx, op, op->args[0], op->args[1]);
                  continue;
              }
              break;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
          if (partmask == 0) {
              tcg_debug_assert(nb_oargs == 1);
 -            tcg_opt_gen_movi(s, &ctx, op, op->args[0], 0);
 +            tcg_opt_gen_movi(&ctx, op, op->args[0], 0);
              continue;
          }
          if (affected == 0) {
              tcg_debug_assert(nb_oargs == 1);
 -            tcg_opt_gen_mov(s, op, op->args[0], op->args[1]);
 +            tcg_opt_gen_mov(&ctx, op, op->args[0], op->args[1]);
              continue;
          }
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
          CASE_OP_32_64(mulsh):
              if (arg_is_const(op->args[2])
                  && arg_info(op->args[2])->val == 0) {
 -                tcg_opt_gen_movi(s, &ctx, op, op->args[0], 0);
 +                tcg_opt_gen_movi(&ctx, op, op->args[0], 0);
                  continue;
              }
              break;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
          CASE_OP_32_64_VEC(or):
          CASE_OP_32_64_VEC(and):
              if (args_are_copies(op->args[1], op->args[2])) {
 -                tcg_opt_gen_mov(s, op, op->args[0], op->args[1]);
 +                tcg_opt_gen_mov(&ctx, op, op->args[0], op->args[1]);
                  continue;
              }
              break;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
          CASE_OP_32_64_VEC(sub):
          CASE_OP_32_64_VEC(xor):
              if (args_are_copies(op->args[1], op->args[2])) {
 -                tcg_opt_gen_movi(s, &ctx, op, op->args[0], 0);
 +                tcg_opt_gen_movi(&ctx, op, op->args[0], 0);
                  continue;
              }
              break;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
             allocator where needed and possible.  Also detect copies. */
          switch (opc) {
          CASE_OP_32_64_VEC(mov):
 -            tcg_opt_gen_mov(s, op, op->args[0], op->args[1]);
 +            tcg_opt_gen_mov(&ctx, op, op->args[0], op->args[1]);
              continue;
          case INDEX_op_dup_vec:
              if (arg_is_const(op->args[1])) {
                  tmp = arg_info(op->args[1])->val;
                  tmp = dup_const(TCGOP_VECE(op), tmp);
 -                tcg_opt_gen_movi(s, &ctx, op, op->args[0], tmp);
 +                tcg_opt_gen_movi(&ctx, op, op->args[0], tmp);
                  continue;
              }
              break;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
          case INDEX_op_dup2_vec:
              assert(TCG_TARGET_REG_BITS == 32);
              if (arg_is_const(op->args[1]) && arg_is_const(op->args[2])) {
 -                tcg_opt_gen_movi(s, &ctx, op, op->args[0],
 +                tcg_opt_gen_movi(&ctx, op, op->args[0],
                                   deposit64(arg_info(op->args[1])->val, 32, 32,
                                             arg_info(op->args[2])->val));
                  continue;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
          case INDEX_op_extrh_i64_i32:
              if (arg_is_const(op->args[1])) {
                  tmp = do_constant_folding(opc, arg_info(op->args[1])->val, 0);
 -                tcg_opt_gen_movi(s, &ctx, op, op->args[0], tmp);
 +                tcg_opt_gen_movi(&ctx, op, op->args[0], tmp);
                  continue;
              }
              break;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
              if (arg_is_const(op->args[1])) {
                  tmp = do_constant_folding(opc, arg_info(op->args[1])->val,
                                            op->args[2]);
 -                tcg_opt_gen_movi(s, &ctx, op, op->args[0], tmp);
 +                tcg_opt_gen_movi(&ctx, op, op->args[0], tmp);
                  continue;
              }
              break;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
              if (arg_is_const(op->args[1]) && arg_is_const(op->args[2])) {
                  tmp = do_constant_folding(opc, arg_info(op->args[1])->val,
                                            arg_info(op->args[2])->val);
 -                tcg_opt_gen_movi(s, &ctx, op, op->args[0], tmp);
 +                tcg_opt_gen_movi(&ctx, op, op->args[0], tmp);
                  continue;
              }
              break;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
                  TCGArg v = arg_info(op->args[1])->val;
                  if (v != 0) {
                      tmp = do_constant_folding(opc, v, 0);
 -                    tcg_opt_gen_movi(s, &ctx, op, op->args[0], tmp);
 +                    tcg_opt_gen_movi(&ctx, op, op->args[0], tmp);
                  } else {
 -                    tcg_opt_gen_mov(s, op, op->args[0], op->args[2]);
 +                    tcg_opt_gen_mov(&ctx, op, op->args[0], op->args[2]);
                  }
                  continue;
              }
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
                  tmp = deposit64(arg_info(op->args[1])->val,
                                  op->args[3], op->args[4],
                                  arg_info(op->args[2])->val);
 -                tcg_opt_gen_movi(s, &ctx, op, op->args[0], tmp);
 +                tcg_opt_gen_movi(&ctx, op, op->args[0], tmp);
                  continue;
              }
              break;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
              if (arg_is_const(op->args[1])) {
                  tmp = extract64(arg_info(op->args[1])->val,
                                  op->args[2], op->args[3]);
 -                tcg_opt_gen_movi(s, &ctx, op, op->args[0], tmp);
 +                tcg_opt_gen_movi(&ctx, op, op->args[0], tmp);
                  continue;
              }
              break;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
              if (arg_is_const(op->args[1])) {
                  tmp = sextract64(arg_info(op->args[1])->val,
                                   op->args[2], op->args[3]);
 -                tcg_opt_gen_movi(s, &ctx, op, op->args[0], tmp);
 +                tcg_opt_gen_movi(&ctx, op, op->args[0], tmp);
                  continue;
              }
              break;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
                      tmp = (int32_t)(((uint32_t)v1 >> shr) |
                                      ((uint32_t)v2 << (32 - shr)));
                  }
 -                tcg_opt_gen_movi(s, &ctx, op, op->args[0], tmp);
 +                tcg_opt_gen_movi(&ctx, op, op->args[0], tmp);
                  continue;
              }
              break;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
              tmp = do_constant_folding_cond(opc, op->args[1],
                                             op->args[2], op->args[3]);
              if (tmp != 2) {
 -                tcg_opt_gen_movi(s, &ctx, op, op->args[0], tmp);
 +                tcg_opt_gen_movi(&ctx, op, op->args[0], tmp);
                  continue;
              }
              break;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
              tmp = do_constant_folding_cond(opc, op->args[1],
                                             op->args[2], op->args[5]);
              if (tmp != 2) {
 -                tcg_opt_gen_mov(s, op, op->args[0], op->args[4-tmp]);
 +                tcg_opt_gen_mov(&ctx, op, op->args[0], op->args[4-tmp]);
                  continue;
              }
              if (arg_is_const(op->args[3]) && arg_is_const(op->args[4])) {
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
                  rl = op->args[0];
                  rh = op->args[1];
 -                tcg_opt_gen_movi(s, &ctx, op, rl, (int32_t)a);
 -                tcg_opt_gen_movi(s, &ctx, op2, rh, (int32_t)(a >> 32));
 +                tcg_opt_gen_movi(&ctx, op, rl, (int32_t)a);
 +                tcg_opt_gen_movi(&ctx, op2, rh, (int32_t)(a >> 32));
                  continue;
              }
              break;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
                  rl = op->args[0];
                  rh = op->args[1];
 -                tcg_opt_gen_movi(s, &ctx, op, rl, (int32_t)r);
 -                tcg_opt_gen_movi(s, &ctx, op2, rh, (int32_t)(r >> 32));
 +                tcg_opt_gen_movi(&ctx, op, rl, (int32_t)r);
 +                tcg_opt_gen_movi(&ctx, op2, rh, (int32_t)(r >> 32));
                  continue;
              }
              break;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
                                              op->args[5]);
              if (tmp != 2) {
              do_setcond_const:
 -                tcg_opt_gen_movi(s, &ctx, op, op->args[0], tmp);
 +                tcg_opt_gen_movi(&ctx, op, op->args[0], tmp);
                  continue;
              }
              if ((op->args[5] == TCG_COND_LT || op->args[5] == TCG_COND_GE)
 --
-.25.1
+.34.1

-[PULL 48/56] tcg/optimize: Use fold_xx_to_i for orc
+[PULL 30/53] tcg/loongarch64: Simplify constraints on qemu_ld/st
-Recognize the constant function for or-complement.
+The softmmu tlb uses TCG_REG_TMP[0-2], not any of the normally available
 registers.  Now that we handle overlap betwen inputs and helper arguments,
 we can allow any allocatable reg.
 Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
-Reviewed-by: Luis Pires <luis.pires@eldorado.org.br>
-Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- tcg/optimize.c | 1 +
+ tcg/loongarch64/tcg-target-con-set.h |  2 --
-file changed, 1 insertion(+)
+ tcg/loongarch64/tcg-target-con-str.h |  1 -
  tcg/loongarch64/tcg-target.c.inc     | 23 ++++-------------------
 files changed, 4 insertions(+), 22 deletions(-)
-diff --git a/tcg/optimize.c b/tcg/optimize.c
+diff --git a/tcg/loongarch64/tcg-target-con-set.h b/tcg/loongarch64/tcg-target-con-set.h
 index XXXXXXX..XXXXXXX 100644
---- a/tcg/optimize.c
+--- a/tcg/loongarch64/tcg-target-con-set.h
-+++ b/tcg/optimize.c
++++ b/tcg/loongarch64/tcg-target-con-set.h
-@@ -XXX,XX +XXX,XX @@ static bool fold_or(OptContext *ctx, TCGOp *op)
+@@ -XXX,XX +XXX,XX @@
- static bool fold_orc(OptContext *ctx, TCGOp *op)
+ C_O0_I1(r)
  C_O0_I2(rZ, r)
  C_O0_I2(rZ, rZ)
 -C_O0_I2(LZ, L)
  C_O1_I1(r, r)
 -C_O1_I1(r, L)
  C_O1_I2(r, r, rC)
  C_O1_I2(r, r, ri)
  C_O1_I2(r, r, rI)
 diff --git a/tcg/loongarch64/tcg-target-con-str.h b/tcg/loongarch64/tcg-target-con-str.h
 index XXXXXXX..XXXXXXX 100644
 --- a/tcg/loongarch64/tcg-target-con-str.h
 +++ b/tcg/loongarch64/tcg-target-con-str.h
@@ -XXX,XX +XXX,XX @@
   * REGS(letter, register_mask)
   */
  REGS('r', ALL_GENERAL_REGS)
 -REGS('L', ALL_GENERAL_REGS & ~SOFTMMU_RESERVE_REGS)
  /*
   * Define constraint letters for constants:
 diff --git a/tcg/loongarch64/tcg-target.c.inc b/tcg/loongarch64/tcg-target.c.inc
 index XXXXXXX..XXXXXXX 100644
 --- a/tcg/loongarch64/tcg-target.c.inc
 +++ b/tcg/loongarch64/tcg-target.c.inc
@@ -XXX,XX +XXX,XX @@ static TCGReg tcg_target_call_oarg_reg(TCGCallReturnKind kind, int slot)
  #define TCG_CT_CONST_C12   0x1000
  #define TCG_CT_CONST_WSZ   0x2000
 -#define ALL_GENERAL_REGS      MAKE_64BIT_MASK(0, 32)
 -/*
 - * For softmmu, we need to avoid conflicts with the first 5
 - * argument registers to call the helper.  Some of these are
 - * also used for the tlb lookup.
 - */
 -#ifdef CONFIG_SOFTMMU
 -#define SOFTMMU_RESERVE_REGS  MAKE_64BIT_MASK(TCG_REG_A0, 5)
 -#else
 -#define SOFTMMU_RESERVE_REGS  0
 -#endif
 -
 +#define ALL_GENERAL_REGS   MAKE_64BIT_MASK(0, 32)
  static inline tcg_target_long sextreg(tcg_target_long val, int pos, int len)
  {
-     if (fold_const2(ctx, op) ||
+@@ -XXX,XX +XXX,XX @@ static TCGConstraintSetIndex tcg_target_op_def(TCGOpcode op)
-+        fold_xx_to_i(ctx, op, -1) ||
+     case INDEX_op_st32_i64:
-         fold_xi_to_x(ctx, op, -1) ||
+     case INDEX_op_st_i32:
-         fold_ix_to_not(ctx, op, 0)) {
+     case INDEX_op_st_i64:
-         return true;
++    case INDEX_op_qemu_st_i32:
 +    case INDEX_op_qemu_st_i64:
          return C_O0_I2(rZ, r);
      case INDEX_op_brcond_i32:
      case INDEX_op_brcond_i64:
          return C_O0_I2(rZ, rZ);
 -    case INDEX_op_qemu_st_i32:
 -    case INDEX_op_qemu_st_i64:
 -        return C_O0_I2(LZ, L);
 -
      case INDEX_op_ext8s_i32:
      case INDEX_op_ext8s_i64:
      case INDEX_op_ext8u_i32:
@@ -XXX,XX +XXX,XX @@ static TCGConstraintSetIndex tcg_target_op_def(TCGOpcode op)
      case INDEX_op_ld32u_i64:
      case INDEX_op_ld_i32:
      case INDEX_op_ld_i64:
 -        return C_O1_I1(r, r);
 -
      case INDEX_op_qemu_ld_i32:
      case INDEX_op_qemu_ld_i64:
 -        return C_O1_I1(r, L);
 +        return C_O1_I1(r, r);
      case INDEX_op_andc_i32:
      case INDEX_op_andc_i64:
 --
-.25.1
+.34.1

-[PULL 42/56] tcg/optimize: Split out fold_ix_to_i
+[PULL 31/53] tcg/mips: Remove MO_BSWAP handling
-Pull the "op r, 0, b => movi r, 0" optimization into a function,
+While performing the load in the delay slot of the call to the common
-and use it in fold_shift.
+bswap helper function is cute, it is not worth the added complexity.
-Reviewed-by: Luis Pires <luis.pires@eldorado.org.br>
+Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
 Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- tcg/optimize.c | 28 ++++++++++------------------
+ tcg/mips/tcg-target.h     |   4 +-
-file changed, 10 insertions(+), 18 deletions(-)
+ tcg/mips/tcg-target.c.inc | 284 ++++++--------------------------------
 files changed, 48 insertions(+), 240 deletions(-)
-diff --git a/tcg/optimize.c b/tcg/optimize.c
+diff --git a/tcg/mips/tcg-target.h b/tcg/mips/tcg-target.h
 index XXXXXXX..XXXXXXX 100644
---- a/tcg/optimize.c
+--- a/tcg/mips/tcg-target.h
-+++ b/tcg/optimize.c
++++ b/tcg/mips/tcg-target.h
-@@ -XXX,XX +XXX,XX @@ static bool fold_to_not(OptContext *ctx, TCGOp *op, int idx)
+@@ -XXX,XX +XXX,XX @@ extern bool use_mips32r2_instructions;
-     return false;
+ #define TCG_TARGET_HAS_ext16u_i64       0 /* andi rt, rs, 0xffff */
  #endif
 -#define TCG_TARGET_DEFAULT_MO (0)
 -#define TCG_TARGET_HAS_MEMORY_BSWAP     1
 +#define TCG_TARGET_DEFAULT_MO           0
 +#define TCG_TARGET_HAS_MEMORY_BSWAP     0
  #define TCG_TARGET_NEED_LDST_LABELS
 diff --git a/tcg/mips/tcg-target.c.inc b/tcg/mips/tcg-target.c.inc
 index XXXXXXX..XXXXXXX 100644
 --- a/tcg/mips/tcg-target.c.inc
 +++ b/tcg/mips/tcg-target.c.inc
@@ -XXX,XX +XXX,XX @@ static void tcg_out_call(TCGContext *s, const tcg_insn_unit *arg,
  }
-+/* If the binary operation has first argument @i, fold to @i. */
+ #if defined(CONFIG_SOFTMMU)
-+static bool fold_ix_to_i(OptContext *ctx, TCGOp *op, uint64_t i)
+-static void * const qemu_ld_helpers[(MO_SSIZE | MO_BSWAP) + 1] = {
-+{
++static void * const qemu_ld_helpers[MO_SSIZE + 1] = {
-+    if (arg_is_const(op->args[1]) && arg_info(op->args[1])->val == i) {
+     [MO_UB]   = helper_ret_ldub_mmu,
-+        return tcg_opt_gen_movi(ctx, op, op->args[0], i);
+     [MO_SB]   = helper_ret_ldsb_mmu,
-+    }
+-    [MO_LEUW] = helper_le_lduw_mmu,
-+    return false;
+-    [MO_LESW] = helper_le_ldsw_mmu,
-+}
+-    [MO_LEUL] = helper_le_ldul_mmu,
-+
+-    [MO_LEUQ] = helper_le_ldq_mmu,
- /* If the binary operation has first argument @i, fold to NOT. */
+-    [MO_BEUW] = helper_be_lduw_mmu,
- static bool fold_ix_to_not(OptContext *ctx, TCGOp *op, uint64_t i)
+-    [MO_BESW] = helper_be_ldsw_mmu,
 -    [MO_BEUL] = helper_be_ldul_mmu,
 -    [MO_BEUQ] = helper_be_ldq_mmu,
 -#if TCG_TARGET_REG_BITS == 64
 -    [MO_LESL] = helper_le_ldsl_mmu,
 -    [MO_BESL] = helper_be_ldsl_mmu,
 +#if HOST_BIG_ENDIAN
 +    [MO_UW] = helper_be_lduw_mmu,
 +    [MO_SW] = helper_be_ldsw_mmu,
 +    [MO_UL] = helper_be_ldul_mmu,
 +    [MO_SL] = helper_be_ldsl_mmu,
 +    [MO_UQ] = helper_be_ldq_mmu,
 +#else
 +    [MO_UW] = helper_le_lduw_mmu,
 +    [MO_SW] = helper_le_ldsw_mmu,
 +    [MO_UL] = helper_le_ldul_mmu,
 +    [MO_UQ] = helper_le_ldq_mmu,
 +    [MO_SL] = helper_le_ldsl_mmu,
  #endif
  };
 -static void * const qemu_st_helpers[(MO_SIZE | MO_BSWAP) + 1] = {
 +static void * const qemu_st_helpers[MO_SIZE + 1] = {
      [MO_UB]   = helper_ret_stb_mmu,
 -    [MO_LEUW] = helper_le_stw_mmu,
 -    [MO_LEUL] = helper_le_stl_mmu,
 -    [MO_LEUQ] = helper_le_stq_mmu,
 -    [MO_BEUW] = helper_be_stw_mmu,
 -    [MO_BEUL] = helper_be_stl_mmu,
 -    [MO_BEUQ] = helper_be_stq_mmu,
 +#if HOST_BIG_ENDIAN
 +    [MO_UW] = helper_be_stw_mmu,
 +    [MO_UL] = helper_be_stl_mmu,
 +    [MO_UQ] = helper_be_stq_mmu,
 +#else
 +    [MO_UW] = helper_le_stw_mmu,
 +    [MO_UL] = helper_le_stl_mmu,
 +    [MO_UQ] = helper_le_stq_mmu,
 +#endif
  };
  /* We have four temps, we might as well expose three of them. */
@@ -XXX,XX +XXX,XX @@ static bool tcg_out_qemu_ld_slow_path(TCGContext *s, TCGLabelQemuLdst *l)
      tcg_out_ld_helper_args(s, l, &ldst_helper_param);
 -    tcg_out_call_int(s, qemu_ld_helpers[opc & (MO_BSWAP | MO_SSIZE)], false);
 +    tcg_out_call_int(s, qemu_ld_helpers[opc & MO_SSIZE], false);
      /* delay slot */
      tcg_out_nop(s);
@@ -XXX,XX +XXX,XX @@ static bool tcg_out_qemu_st_slow_path(TCGContext *s, TCGLabelQemuLdst *l)
      tcg_out_st_helper_args(s, l, &ldst_helper_param);
 -    tcg_out_call_int(s, qemu_st_helpers[opc & (MO_BSWAP | MO_SIZE)], false);
 +    tcg_out_call_int(s, qemu_st_helpers[opc & MO_SIZE], false);
      /* delay slot */
      tcg_out_nop(s);
@@ -XXX,XX +XXX,XX @@ static TCGLabelQemuLdst *prepare_host_addr(TCGContext *s, HostAddress *h,
  static void tcg_out_qemu_ld_direct(TCGContext *s, TCGReg lo, TCGReg hi,
                                     TCGReg base, MemOp opc, TCGType type)
  {
-@@ -XXX,XX +XXX,XX @@ static bool fold_sextract(OptContext *ctx, TCGOp *op)
+-    switch (opc & (MO_SSIZE | MO_BSWAP)) {
- static bool fold_shift(OptContext *ctx, TCGOp *op)
++    switch (opc & MO_SSIZE) {
- {
+     case MO_UB:
-     if (fold_const2(ctx, op) ||
+         tcg_out_opc_imm(s, OPC_LBU, lo, base, 0);
-+        fold_ix_to_i(ctx, op, 0) ||
+         break;
-         fold_xi_to_x(ctx, op, 0)) {
+     case MO_SB:
-         return true;
+         tcg_out_opc_imm(s, OPC_LB, lo, base, 0);
-     }
+         break;
-@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
+-    case MO_UW | MO_BSWAP:
-             break;
+-        tcg_out_opc_imm(s, OPC_LHU, TCG_TMP1, base, 0);
-         }
+-        tcg_out_bswap16(s, lo, TCG_TMP1, TCG_BSWAP_IZ | TCG_BSWAP_OZ);
+-        break;
--        /* Simplify expressions for "shift/rot r, 0, a => movi r, 0",
+     case MO_UW:
--           and "sub r, 0, a => neg r, a" case.  */
+         tcg_out_opc_imm(s, OPC_LHU, lo, base, 0);
--        switch (opc) {
+         break;
--        CASE_OP_32_64(shl):
+-    case MO_SW | MO_BSWAP:
--        CASE_OP_32_64(shr):
+-        tcg_out_opc_imm(s, OPC_LHU, TCG_TMP1, base, 0);
--        CASE_OP_32_64(sar):
+-        tcg_out_bswap16(s, lo, TCG_TMP1, TCG_BSWAP_IZ | TCG_BSWAP_OS);
--        CASE_OP_32_64(rotl):
+-        break;
--        CASE_OP_32_64(rotr):
+     case MO_SW:
--            if (arg_is_const(op->args[1])
+         tcg_out_opc_imm(s, OPC_LH, lo, base, 0);
--                && arg_info(op->args[1])->val == 0) {
+         break;
--                tcg_opt_gen_movi(&ctx, op, op->args[0], 0);
+-    case MO_UL | MO_BSWAP:
--                continue;
+-        if (TCG_TARGET_REG_BITS == 64 && type == TCG_TYPE_I64) {
 -            if (use_mips32r2_instructions) {
 -                tcg_out_opc_imm(s, OPC_LWU, lo, base, 0);
 -                tcg_out_bswap32(s, lo, lo, TCG_BSWAP_IZ | TCG_BSWAP_OZ);
 -            } else {
 -                tcg_out_bswap_subr(s, bswap32u_addr);
 -                /* delay slot */
 -                tcg_out_opc_imm(s, OPC_LWU, TCG_TMP0, base, 0);
 -                tcg_out_mov(s, TCG_TYPE_I64, lo, TCG_TMP3);
 -            }
 -            break;
--        default:
+-        }
 -        /* FALLTHRU */
 -    case MO_SL | MO_BSWAP:
 -        if (use_mips32r2_instructions) {
 -            tcg_out_opc_imm(s, OPC_LW, lo, base, 0);
 -            tcg_out_bswap32(s, lo, lo, 0);
 -        } else {
 -            tcg_out_bswap_subr(s, bswap32_addr);
 -            /* delay slot */
 -            tcg_out_opc_imm(s, OPC_LW, TCG_TMP0, base, 0);
 -            tcg_out_mov(s, TCG_TYPE_I32, lo, TCG_TMP3);
 -        }
 -        break;
      case MO_UL:
          if (TCG_TARGET_REG_BITS == 64 && type == TCG_TYPE_I64) {
              tcg_out_opc_imm(s, OPC_LWU, lo, base, 0);
@@ -XXX,XX +XXX,XX @@ static void tcg_out_qemu_ld_direct(TCGContext *s, TCGReg lo, TCGReg hi,
      case MO_SL:
          tcg_out_opc_imm(s, OPC_LW, lo, base, 0);
          break;
 -    case MO_UQ | MO_BSWAP:
 -        if (TCG_TARGET_REG_BITS == 64) {
 -            if (use_mips32r2_instructions) {
 -                tcg_out_opc_imm(s, OPC_LD, lo, base, 0);
 -                tcg_out_bswap64(s, lo, lo);
 -            } else {
 -                tcg_out_bswap_subr(s, bswap64_addr);
 -                /* delay slot */
 -                tcg_out_opc_imm(s, OPC_LD, TCG_TMP0, base, 0);
 -                tcg_out_mov(s, TCG_TYPE_I64, lo, TCG_TMP3);
 -            }
 -        } else if (use_mips32r2_instructions) {
 -            tcg_out_opc_imm(s, OPC_LW, TCG_TMP0, base, 0);
 -            tcg_out_opc_imm(s, OPC_LW, TCG_TMP1, base, 4);
 -            tcg_out_opc_reg(s, OPC_WSBH, TCG_TMP0, 0, TCG_TMP0);
 -            tcg_out_opc_reg(s, OPC_WSBH, TCG_TMP1, 0, TCG_TMP1);
 -            tcg_out_opc_sa(s, OPC_ROTR, MIPS_BE ? lo : hi, TCG_TMP0, 16);
 -            tcg_out_opc_sa(s, OPC_ROTR, MIPS_BE ? hi : lo, TCG_TMP1, 16);
 -        } else {
 -            tcg_out_bswap_subr(s, bswap32_addr);
 -            /* delay slot */
 -            tcg_out_opc_imm(s, OPC_LW, TCG_TMP0, base, 0);
 -            tcg_out_opc_imm(s, OPC_LW, TCG_TMP0, base, 4);
 -            tcg_out_bswap_subr(s, bswap32_addr);
 -            /* delay slot */
 -            tcg_out_mov(s, TCG_TYPE_I32, MIPS_BE ? lo : hi, TCG_TMP3);
 -            tcg_out_mov(s, TCG_TYPE_I32, MIPS_BE ? hi : lo, TCG_TMP3);
 -        }
 -        break;
      case MO_UQ:
          /* Prefer to load from offset 0 first, but allow for overlap.  */
          if (TCG_TARGET_REG_BITS == 64) {
@@ -XXX,XX +XXX,XX @@ static void tcg_out_qemu_ld_unalign(TCGContext *s, TCGReg lo, TCGReg hi,
      const MIPSInsn lw2 = MIPS_BE ? OPC_LWR : OPC_LWL;
      const MIPSInsn ld1 = MIPS_BE ? OPC_LDL : OPC_LDR;
      const MIPSInsn ld2 = MIPS_BE ? OPC_LDR : OPC_LDL;
 +    bool sgn = opc & MO_SIGN;
 -    bool sgn = (opc & MO_SIGN);
 -
 -    switch (opc & (MO_SSIZE | MO_BSWAP)) {
 -    case MO_SW | MO_BE:
 -    case MO_UW | MO_BE:
 -        tcg_out_opc_imm(s, sgn ? OPC_LB : OPC_LBU, TCG_TMP0, base, 0);
 -        tcg_out_opc_imm(s, OPC_LBU, lo, base, 1);
 -        if (use_mips32r2_instructions) {
 -            tcg_out_opc_bf(s, OPC_INS, lo, TCG_TMP0, 31, 8);
 -        } else {
 -            tcg_out_opc_sa(s, OPC_SLL, TCG_TMP0, TCG_TMP0, 8);
 -            tcg_out_opc_reg(s, OPC_OR, lo, TCG_TMP0, TCG_TMP1);
 -        }
 -        break;
 -
 -    case MO_SW | MO_LE:
 -    case MO_UW | MO_LE:
 -        if (use_mips32r2_instructions && lo != base) {
 +    switch (opc & MO_SIZE) {
 +    case MO_16:
 +        if (HOST_BIG_ENDIAN) {
 +            tcg_out_opc_imm(s, sgn ? OPC_LB : OPC_LBU, TCG_TMP0, base, 0);
 +            tcg_out_opc_imm(s, OPC_LBU, lo, base, 1);
 +            if (use_mips32r2_instructions) {
 +                tcg_out_opc_bf(s, OPC_INS, lo, TCG_TMP0, 31, 8);
 +            } else {
 +                tcg_out_opc_sa(s, OPC_SLL, TCG_TMP0, TCG_TMP0, 8);
 +                tcg_out_opc_reg(s, OPC_OR, lo, lo, TCG_TMP0);
 +            }
 +        } else if (use_mips32r2_instructions && lo != base) {
              tcg_out_opc_imm(s, OPC_LBU, lo, base, 0);
              tcg_out_opc_imm(s, sgn ? OPC_LB : OPC_LBU, TCG_TMP0, base, 1);
              tcg_out_opc_bf(s, OPC_INS, lo, TCG_TMP0, 31, 8);
@@ -XXX,XX +XXX,XX @@ static void tcg_out_qemu_ld_unalign(TCGContext *s, TCGReg lo, TCGReg hi,
          }
          break;
 -    case MO_SL:
 -    case MO_UL:
 +    case MO_32:
          tcg_out_opc_imm(s, lw1, lo, base, 0);
          tcg_out_opc_imm(s, lw2, lo, base, 3);
          if (TCG_TARGET_REG_BITS == 64 && type == TCG_TYPE_I64 && !sgn) {
@@ -XXX,XX +XXX,XX @@ static void tcg_out_qemu_ld_unalign(TCGContext *s, TCGReg lo, TCGReg hi,
          }
          break;
 -    case MO_UL | MO_BSWAP:
 -    case MO_SL | MO_BSWAP:
 -        if (use_mips32r2_instructions) {
 -            tcg_out_opc_imm(s, lw1, lo, base, 0);
 -            tcg_out_opc_imm(s, lw2, lo, base, 3);
 -            tcg_out_bswap32(s, lo, lo,
 -                            TCG_TARGET_REG_BITS == 64 && type == TCG_TYPE_I64
 -                            ? (sgn ? TCG_BSWAP_OS : TCG_BSWAP_OZ) : 0);
 -        } else {
 -            const tcg_insn_unit *subr =
 -                (TCG_TARGET_REG_BITS == 64 && type == TCG_TYPE_I64 && !sgn
 -                 ? bswap32u_addr : bswap32_addr);
 -
 -            tcg_out_opc_imm(s, lw1, TCG_TMP0, base, 0);
 -            tcg_out_bswap_subr(s, subr);
 -            /* delay slot */
 -            tcg_out_opc_imm(s, lw2, TCG_TMP0, base, 3);
 -            tcg_out_mov(s, type, lo, TCG_TMP3);
 -        }
 -        break;
 -
 -    case MO_UQ:
 +    case MO_64:
          if (TCG_TARGET_REG_BITS == 64) {
              tcg_out_opc_imm(s, ld1, lo, base, 0);
              tcg_out_opc_imm(s, ld2, lo, base, 7);
@@ -XXX,XX +XXX,XX @@ static void tcg_out_qemu_ld_unalign(TCGContext *s, TCGReg lo, TCGReg hi,
          }
          break;
 -    case MO_UQ | MO_BSWAP:
 -        if (TCG_TARGET_REG_BITS == 64) {
 -            if (use_mips32r2_instructions) {
 -                tcg_out_opc_imm(s, ld1, lo, base, 0);
 -                tcg_out_opc_imm(s, ld2, lo, base, 7);
 -                tcg_out_bswap64(s, lo, lo);
 -            } else {
 -                tcg_out_opc_imm(s, ld1, TCG_TMP0, base, 0);
 -                tcg_out_bswap_subr(s, bswap64_addr);
 -                /* delay slot */
 -                tcg_out_opc_imm(s, ld2, TCG_TMP0, base, 7);
 -                tcg_out_mov(s, TCG_TYPE_I64, lo, TCG_TMP3);
 -            }
 -        } else if (use_mips32r2_instructions) {
 -            tcg_out_opc_imm(s, lw1, TCG_TMP0, base, 0 + 0);
 -            tcg_out_opc_imm(s, lw2, TCG_TMP0, base, 0 + 3);
 -            tcg_out_opc_imm(s, lw1, TCG_TMP1, base, 4 + 0);
 -            tcg_out_opc_imm(s, lw2, TCG_TMP1, base, 4 + 3);
 -            tcg_out_opc_reg(s, OPC_WSBH, TCG_TMP0, 0, TCG_TMP0);
 -            tcg_out_opc_reg(s, OPC_WSBH, TCG_TMP1, 0, TCG_TMP1);
 -            tcg_out_opc_sa(s, OPC_ROTR, MIPS_BE ? lo : hi, TCG_TMP0, 16);
 -            tcg_out_opc_sa(s, OPC_ROTR, MIPS_BE ? hi : lo, TCG_TMP1, 16);
 -        } else {
 -            tcg_out_opc_imm(s, lw1, TCG_TMP0, base, 0 + 0);
 -            tcg_out_bswap_subr(s, bswap32_addr);
 -            /* delay slot */
 -            tcg_out_opc_imm(s, lw2, TCG_TMP0, base, 0 + 3);
 -            tcg_out_opc_imm(s, lw1, TCG_TMP0, base, 4 + 0);
 -            tcg_out_mov(s, TCG_TYPE_I32, MIPS_BE ? lo : hi, TCG_TMP3);
 -            tcg_out_bswap_subr(s, bswap32_addr);
 -            /* delay slot */
 -            tcg_out_opc_imm(s, lw2, TCG_TMP0, base, 4 + 3);
 -            tcg_out_mov(s, TCG_TYPE_I32, MIPS_BE ? hi : lo, TCG_TMP3);
 -        }
 -        break;
 -
      default:
          g_assert_not_reached();
      }
@@ -XXX,XX +XXX,XX @@ static void tcg_out_qemu_ld(TCGContext *s, TCGReg datalo, TCGReg datahi,
  static void tcg_out_qemu_st_direct(TCGContext *s, TCGReg lo, TCGReg hi,
                                     TCGReg base, MemOp opc)
  {
 -    /* Don't clutter the code below with checks to avoid bswapping ZERO.  */
 -    if ((lo | hi) == 0) {
 -        opc &= ~MO_BSWAP;
 -    }
 -
 -    switch (opc & (MO_SIZE | MO_BSWAP)) {
 +    switch (opc & MO_SIZE) {
      case MO_8:
          tcg_out_opc_imm(s, OPC_SB, lo, base, 0);
          break;
 -
 -    case MO_16 | MO_BSWAP:
 -        tcg_out_bswap16(s, TCG_TMP1, lo, 0);
 -        lo = TCG_TMP1;
 -        /* FALLTHRU */
      case MO_16:
          tcg_out_opc_imm(s, OPC_SH, lo, base, 0);
          break;
 -
 -    case MO_32 | MO_BSWAP:
 -        tcg_out_bswap32(s, TCG_TMP3, lo, 0);
 -        lo = TCG_TMP3;
 -        /* FALLTHRU */
      case MO_32:
          tcg_out_opc_imm(s, OPC_SW, lo, base, 0);
          break;
 -
 -    case MO_64 | MO_BSWAP:
 -        if (TCG_TARGET_REG_BITS == 64) {
 -            tcg_out_bswap64(s, TCG_TMP3, lo);
 -            tcg_out_opc_imm(s, OPC_SD, TCG_TMP3, base, 0);
 -        } else if (use_mips32r2_instructions) {
 -            tcg_out_opc_reg(s, OPC_WSBH, TCG_TMP0, 0, MIPS_BE ? lo : hi);
 -            tcg_out_opc_reg(s, OPC_WSBH, TCG_TMP1, 0, MIPS_BE ? hi : lo);
 -            tcg_out_opc_sa(s, OPC_ROTR, TCG_TMP0, TCG_TMP0, 16);
 -            tcg_out_opc_sa(s, OPC_ROTR, TCG_TMP1, TCG_TMP1, 16);
 -            tcg_out_opc_imm(s, OPC_SW, TCG_TMP0, base, 0);
 -            tcg_out_opc_imm(s, OPC_SW, TCG_TMP1, base, 4);
 -        } else {
 -            tcg_out_bswap32(s, TCG_TMP3, MIPS_BE ? lo : hi, 0);
 -            tcg_out_opc_imm(s, OPC_SW, TCG_TMP3, base, 0);
 -            tcg_out_bswap32(s, TCG_TMP3, MIPS_BE ? hi : lo, 0);
 -            tcg_out_opc_imm(s, OPC_SW, TCG_TMP3, base, 4);
 -        }
 -        break;
      case MO_64:
          if (TCG_TARGET_REG_BITS == 64) {
              tcg_out_opc_imm(s, OPC_SD, lo, base, 0);
@@ -XXX,XX +XXX,XX @@ static void tcg_out_qemu_st_direct(TCGContext *s, TCGReg lo, TCGReg hi,
              tcg_out_opc_imm(s, OPC_SW, MIPS_BE ? lo : hi, base, 4);
          }
          break;
 -
      default:
          g_assert_not_reached();
      }
@@ -XXX,XX +XXX,XX @@ static void tcg_out_qemu_st_unalign(TCGContext *s, TCGReg lo, TCGReg hi,
      const MIPSInsn sd1 = MIPS_BE ? OPC_SDL : OPC_SDR;
      const MIPSInsn sd2 = MIPS_BE ? OPC_SDR : OPC_SDL;
 -    /* Don't clutter the code below with checks to avoid bswapping ZERO.  */
 -    if ((lo | hi) == 0) {
 -        opc &= ~MO_BSWAP;
 -    }
 -
 -    switch (opc & (MO_SIZE | MO_BSWAP)) {
 -    case MO_16 | MO_BE:
 +    switch (opc & MO_SIZE) {
 +    case MO_16:
          tcg_out_opc_sa(s, OPC_SRL, TCG_TMP0, lo, 8);
 -        tcg_out_opc_imm(s, OPC_SB, TCG_TMP0, base, 0);
 -        tcg_out_opc_imm(s, OPC_SB, lo, base, 1);
 +        tcg_out_opc_imm(s, OPC_SB, HOST_BIG_ENDIAN ? TCG_TMP0 : lo, base, 0);
 +        tcg_out_opc_imm(s, OPC_SB, HOST_BIG_ENDIAN ? lo : TCG_TMP0, base, 1);
          break;
 -    case MO_16 | MO_LE:
 -        tcg_out_opc_sa(s, OPC_SRL, TCG_TMP0, lo, 8);
 -        tcg_out_opc_imm(s, OPC_SB, lo, base, 0);
 -        tcg_out_opc_imm(s, OPC_SB, TCG_TMP0, base, 1);
 -        break;
 -
 -    case MO_32 | MO_BSWAP:
 -        tcg_out_bswap32(s, TCG_TMP3, lo, 0);
 -        lo = TCG_TMP3;
 -        /* fall through */
      case MO_32:
          tcg_out_opc_imm(s, sw1, lo, base, 0);
          tcg_out_opc_imm(s, sw2, lo, base, 3);
          break;
 -    case MO_64 | MO_BSWAP:
 -        if (TCG_TARGET_REG_BITS == 64) {
 -            tcg_out_bswap64(s, TCG_TMP3, lo);
 -            lo = TCG_TMP3;
 -        } else if (use_mips32r2_instructions) {
 -            tcg_out_opc_reg(s, OPC_WSBH, TCG_TMP0, 0, MIPS_BE ? hi : lo);
 -            tcg_out_opc_reg(s, OPC_WSBH, TCG_TMP1, 0, MIPS_BE ? lo : hi);
 -            tcg_out_opc_sa(s, OPC_ROTR, TCG_TMP0, TCG_TMP0, 16);
 -            tcg_out_opc_sa(s, OPC_ROTR, TCG_TMP1, TCG_TMP1, 16);
 -            hi = MIPS_BE ? TCG_TMP0 : TCG_TMP1;
 -            lo = MIPS_BE ? TCG_TMP1 : TCG_TMP0;
 -        } else {
 -            tcg_out_bswap32(s, TCG_TMP3, MIPS_BE ? lo : hi, 0);
 -            tcg_out_opc_imm(s, sw1, TCG_TMP3, base, 0 + 0);
 -            tcg_out_opc_imm(s, sw2, TCG_TMP3, base, 0 + 3);
 -            tcg_out_bswap32(s, TCG_TMP3, MIPS_BE ? hi : lo, 0);
 -            tcg_out_opc_imm(s, sw1, TCG_TMP3, base, 4 + 0);
 -            tcg_out_opc_imm(s, sw2, TCG_TMP3, base, 4 + 3);
 -            break;
 -        }
--
+-        /* fall through */
-         /* Simplify using known-zero bits. Currently only ops with a single
+     case MO_64:
-            output argument is supported. */
+         if (TCG_TARGET_REG_BITS == 64) {
-         z_mask = -1;
+             tcg_out_opc_imm(s, sd1, lo, base, 0);
 --
-.25.1
+.34.1

-[PULL 47/56] tcg/optimize: Stop forcing z_mask to "garbage" for 32-bit values
+[PULL 32/53] tcg/mips: Reorg tlb load within prepare_host_addr
-This "garbage" setting pre-dates the addition of the type
+Compare the address vs the tlb entry with sign-extended values.
-changing opcodes INDEX_op_ext_i32_i64, INDEX_op_extu_i32_i64,
+This simplifies the page+alignment mask constant, and the
-and INDEX_op_extr{l,h}_i64_i32.
+generation of the last byte address for the misaligned test.
-So now we have a definitive points at which to adjust z_mask
+Move the tlb addend load up, and the zero-extension down.
-to eliminate such bits from the 32-bit operands.
 This frees up a register, which allows us use TMP3 as the returned base
 address register instead of A0, which we were using as a 5th temporary.
 Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
-Reviewed-by: Luis Pires <luis.pires@eldorado.org.br>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- tcg/optimize.c | 35 ++++++++++++++++-------------------
+ tcg/mips/tcg-target.c.inc | 38 ++++++++++++++++++--------------------
-file changed, 16 insertions(+), 19 deletions(-)
+file changed, 18 insertions(+), 20 deletions(-)
-diff --git a/tcg/optimize.c b/tcg/optimize.c
+diff --git a/tcg/mips/tcg-target.c.inc b/tcg/mips/tcg-target.c.inc
 index XXXXXXX..XXXXXXX 100644
---- a/tcg/optimize.c
+--- a/tcg/mips/tcg-target.c.inc
-+++ b/tcg/optimize.c
++++ b/tcg/mips/tcg-target.c.inc
-@@ -XXX,XX +XXX,XX @@ static void init_ts_info(OptContext *ctx, TCGTemp *ts)
+@@ -XXX,XX +XXX,XX @@ typedef enum {
-         ti->is_const = true;
+     ALIAS_PADDI    = sizeof(void *) == 4 ? OPC_ADDIU : OPC_DADDIU,
-         ti->val = ts->val;
+     ALIAS_TSRL     = TARGET_LONG_BITS == 32 || TCG_TARGET_REG_BITS == 32
-         ti->z_mask = ts->val;
+                      ? OPC_SRL : OPC_DSRL,
--        if (TCG_TARGET_REG_BITS > 32 && ts->type == TCG_TYPE_I32) {
++    ALIAS_TADDI    = TARGET_LONG_BITS == 32 || TCG_TARGET_REG_BITS == 32
--            /* High bits of a 32-bit quantity are garbage.  */
++                     ? OPC_ADDIU : OPC_DADDIU,
--            ti->z_mask |= ~0xffffffffull;
+ } MIPSInsn;
--        }
  /*
@@ -XXX,XX +XXX,XX @@ static TCGLabelQemuLdst *prepare_host_addr(TCGContext *s, HostAddress *h,
      int add_off = offsetof(CPUTLBEntry, addend);
      int cmp_off = is_ld ? offsetof(CPUTLBEntry, addr_read)
                          : offsetof(CPUTLBEntry, addr_write);
 -    target_ulong tlb_mask;
      ldst = new_ldst_label(s);
      ldst->is_ld = is_ld;
      ldst->oi = oi;
      ldst->addrlo_reg = addrlo;
      ldst->addrhi_reg = addrhi;
 -    base = TCG_REG_A0;
      /* Load tlb_mask[mmu_idx] and tlb_table[mmu_idx].  */
      QEMU_BUILD_BUG_ON(TLB_MASK_TABLE_OFS(0) > 0);
@@ -XXX,XX +XXX,XX @@ static TCGLabelQemuLdst *prepare_host_addr(TCGContext *s, HostAddress *h,
      if (TCG_TARGET_REG_BITS < TARGET_LONG_BITS) {
          tcg_out_ldst(s, OPC_LW, TCG_TMP0, TCG_TMP3, cmp_off + LO_OFF);
      } else {
-         ti->is_const = false;
+-        tcg_out_ldst(s, (TARGET_LONG_BITS == 64 ? OPC_LD
-         ti->z_mask = -1;
+-                         : TCG_TARGET_REG_BITS == 64 ? OPC_LWU : OPC_LW),
-@@ -XXX,XX +XXX,XX @@ static bool tcg_opt_gen_mov(OptContext *ctx, TCGOp *op, TCGArg dst, TCGArg src)
+-                     TCG_TMP0, TCG_TMP3, cmp_off);
-     TCGTemp *src_ts = arg_temp(src);
++        tcg_out_ld(s, TCG_TYPE_TL, TCG_TMP0, TCG_TMP3, cmp_off);
-     TempOptInfo *di;
+     }
-     TempOptInfo *si;
--    uint64_t z_mask;
+-    /* Zero extend a 32-bit guest address for a 64-bit host. */
-     TCGOpcode new_op;
+-    if (TCG_TARGET_REG_BITS > TARGET_LONG_BITS) {
+-        tcg_out_ext32u(s, base, addrlo);
-     if (ts_are_copies(dst_ts, src_ts)) {
+-        addrlo = base;
-@@ -XXX,XX +XXX,XX @@ static bool tcg_opt_gen_mov(OptContext *ctx, TCGOp *op, TCGArg dst, TCGArg src)
++    if (TCG_TARGET_REG_BITS >= TARGET_LONG_BITS) {
-     op->args[0] = dst;
++        /* Load the tlb addend for the fast path.  */
-     op->args[1] = src;
++        tcg_out_ld(s, TCG_TYPE_PTR, TCG_TMP3, TCG_TMP3, add_off);
+     }
 -    z_mask = si->z_mask;
 -    if (TCG_TARGET_REG_BITS > 32 && new_op == INDEX_op_mov_i32) {
 -        /* High bits of the destination are now garbage.  */
 -        z_mask |= ~0xffffffffull;
 -    }
 -    di->z_mask = z_mask;
 +    di->z_mask = si->z_mask;
      if (src_ts->type == dst_ts->type) {
          TempOptInfo *ni = ts_info(si->next_copy);
@@ -XXX,XX +XXX,XX @@ static bool tcg_opt_gen_mov(OptContext *ctx, TCGOp *op, TCGArg dst, TCGArg src)
  static bool tcg_opt_gen_movi(OptContext *ctx, TCGOp *op,
                               TCGArg dst, uint64_t val)
  {
 -    /* Convert movi to mov with constant temp. */
 -    TCGTemp *tv = tcg_constant_internal(ctx->type, val);
 +    TCGTemp *tv;
 +    if (ctx->type == TCG_TYPE_I32) {
 +        val = (int32_t)val;
 +    }
 +
 +    /* Convert movi to mov with constant temp. */
 +    tv = tcg_constant_internal(ctx->type, val);
      init_ts_info(ctx, tv);
      return tcg_opt_gen_mov(ctx, op, dst, temp_arg(tv));
  }
@@ -XXX,XX +XXX,XX @@ static bool fold_masks(OptContext *ctx, TCGOp *op)
      uint64_t z_mask = ctx->z_mask;
      /*
--     * 32-bit ops generate 32-bit results.  For the result is zero test
+@@ -XXX,XX +XXX,XX @@ static TCGLabelQemuLdst *prepare_host_addr(TCGContext *s, HostAddress *h,
--     * below, we can ignore high bits, but for further optimizations we
+      * For unaligned accesses, compare against the end of the access to
--     * need to record that the high bits contain garbage.
+      * verify that it does not cross a page boundary.
 +     * 32-bit ops generate 32-bit results, which for the purpose of
 +     * simplifying tcg are sign-extended.  Certainly that's how we
 +     * represent our constants elsewhere.  Note that the bits will
 +     * be reset properly for a 64-bit value when encountering the
 +     * type changing opcodes.
       */
-     if (ctx->type == TCG_TYPE_I32) {
+-    tlb_mask = (target_ulong)TARGET_PAGE_MASK | a_mask;
--        ctx->z_mask |= MAKE_64BIT_MASK(32, 32);
+-    tcg_out_movi(s, TCG_TYPE_I32, TCG_TMP1, tlb_mask);
--        a_mask &= MAKE_64BIT_MASK(0, 32);
+-    if (a_mask >= s_mask) {
--        z_mask &= MAKE_64BIT_MASK(0, 32);
+-        tcg_out_opc_reg(s, OPC_AND, TCG_TMP1, TCG_TMP1, addrlo);
-+        a_mask = (int32_t)a_mask;
+-    } else {
-+        z_mask = (int32_t)z_mask;
+-        tcg_out_opc_imm(s, ALIAS_PADDI, TCG_TMP2, addrlo, s_mask - a_mask);
-+        ctx->z_mask = z_mask;
++    tcg_out_movi(s, TCG_TYPE_TL, TCG_TMP1, TARGET_PAGE_MASK | a_mask);
 +    if (a_mask < s_mask) {
 +        tcg_out_opc_imm(s, ALIAS_TADDI, TCG_TMP2, addrlo, s_mask - a_mask);
          tcg_out_opc_reg(s, OPC_AND, TCG_TMP1, TCG_TMP1, TCG_TMP2);
 +    } else {
 +        tcg_out_opc_reg(s, OPC_AND, TCG_TMP1, TCG_TMP1, addrlo);
      }
-     if (z_mask == 0) {
+-    if (TCG_TARGET_REG_BITS >= TARGET_LONG_BITS) {
 -        /* Load the tlb addend for the fast path.  */
 -        tcg_out_ld(s, TCG_TYPE_PTR, TCG_TMP2, TCG_TMP3, add_off);
 +    /* Zero extend a 32-bit guest address for a 64-bit host. */
 +    if (TCG_TARGET_REG_BITS > TARGET_LONG_BITS) {
 +        tcg_out_ext32u(s, TCG_TMP2, addrlo);
 +        addrlo = TCG_TMP2;
      }
      ldst->label_ptr[0] = s->code_ptr;
@@ -XXX,XX +XXX,XX @@ static TCGLabelQemuLdst *prepare_host_addr(TCGContext *s, HostAddress *h,
          tcg_out_ldst(s, OPC_LW, TCG_TMP0, TCG_TMP3, cmp_off + HI_OFF);
          /* Load the tlb addend for the fast path.  */
 -        tcg_out_ld(s, TCG_TYPE_PTR, TCG_TMP2, TCG_TMP3, add_off);
 +        tcg_out_ld(s, TCG_TYPE_PTR, TCG_TMP3, TCG_TMP3, add_off);
          ldst->label_ptr[1] = s->code_ptr;
          tcg_out_opc_br(s, OPC_BNE, addrhi, TCG_TMP0);
      }
      /* delay slot */
 -    tcg_out_opc_reg(s, ALIAS_PADD, base, TCG_TMP2, addrlo);
 +    base = TCG_TMP3;
 +    tcg_out_opc_reg(s, ALIAS_PADD, base, TCG_TMP3, addrlo);
  #else
      if (a_mask && (use_mips32r6_instructions || a_bits != s_bits)) {
          ldst = new_ldst_label(s);
 --
-.25.1
+.34.1

-[PULL 10/56] tcg/optimize: Move prev_mb into OptContext
+[PULL 33/53] tcg/mips: Simplify constraints on qemu_ld/st
-This will expose the variable to subroutines that
+The softmmu tlb uses TCG_REG_TMP[0-3], not any of the normally available
-will be broken out of tcg_optimize.
+registers.  Now that we handle overlap betwen inputs and helper arguments,
 and have eliminated use of A0, we can allow any allocatable reg.
 Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
-Reviewed-by: Luis Pires <luis.pires@eldorado.org.br>
-Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- tcg/optimize.c | 11 ++++++-----
+ tcg/mips/tcg-target-con-set.h | 13 +++++--------
-file changed, 6 insertions(+), 5 deletions(-)
+ tcg/mips/tcg-target-con-str.h |  2 --
  tcg/mips/tcg-target.c.inc     | 30 ++++++++----------------------
 files changed, 13 insertions(+), 32 deletions(-)
-diff --git a/tcg/optimize.c b/tcg/optimize.c
+diff --git a/tcg/mips/tcg-target-con-set.h b/tcg/mips/tcg-target-con-set.h
 index XXXXXXX..XXXXXXX 100644
---- a/tcg/optimize.c
+--- a/tcg/mips/tcg-target-con-set.h
-+++ b/tcg/optimize.c
++++ b/tcg/mips/tcg-target-con-set.h
-@@ -XXX,XX +XXX,XX @@ typedef struct TempOptInfo {
+@@ -XXX,XX +XXX,XX @@
+ C_O0_I1(r)
- typedef struct OptContext {
+ C_O0_I2(rZ, r)
-     TCGContext *tcg;
+ C_O0_I2(rZ, rZ)
-+    TCGOp *prev_mb;
+-C_O0_I2(SZ, S)
-     TCGTempSet temps_used;
+-C_O0_I3(SZ, S, S)
- } OptContext;
+-C_O0_I3(SZ, SZ, S)
++C_O0_I3(rZ, r, r)
-@@ -XXX,XX +XXX,XX @@ static bool swap_commutative2(TCGArg *p1, TCGArg *p2)
++C_O0_I3(rZ, rZ, r)
- void tcg_optimize(TCGContext *s)
+ C_O0_I4(rZ, rZ, rZ, rZ)
 -C_O0_I4(SZ, SZ, S, S)
 -C_O1_I1(r, L)
 +C_O0_I4(rZ, rZ, r, r)
  C_O1_I1(r, r)
  C_O1_I2(r, 0, rZ)
 -C_O1_I2(r, L, L)
 +C_O1_I2(r, r, r)
  C_O1_I2(r, r, ri)
  C_O1_I2(r, r, rI)
  C_O1_I2(r, r, rIK)
@@ -XXX,XX +XXX,XX @@ C_O1_I2(r, rZ, rN)
  C_O1_I2(r, rZ, rZ)
  C_O1_I4(r, rZ, rZ, rZ, 0)
  C_O1_I4(r, rZ, rZ, rZ, rZ)
 -C_O2_I1(r, r, L)
 -C_O2_I2(r, r, L, L)
 +C_O2_I1(r, r, r)
  C_O2_I2(r, r, r, r)
  C_O2_I4(r, r, rZ, rZ, rN, rN)
 diff --git a/tcg/mips/tcg-target-con-str.h b/tcg/mips/tcg-target-con-str.h
 index XXXXXXX..XXXXXXX 100644
 --- a/tcg/mips/tcg-target-con-str.h
 +++ b/tcg/mips/tcg-target-con-str.h
@@ -XXX,XX +XXX,XX @@
   * REGS(letter, register_mask)
   */
  REGS('r', ALL_GENERAL_REGS)
 -REGS('L', ALL_QLOAD_REGS)
 -REGS('S', ALL_QSTORE_REGS)
  /*
   * Define constraint letters for constants:
 diff --git a/tcg/mips/tcg-target.c.inc b/tcg/mips/tcg-target.c.inc
 index XXXXXXX..XXXXXXX 100644
 --- a/tcg/mips/tcg-target.c.inc
 +++ b/tcg/mips/tcg-target.c.inc
@@ -XXX,XX +XXX,XX @@ static bool patch_reloc(tcg_insn_unit *code_ptr, int type,
  #define TCG_CT_CONST_WSZ  0x2000   /* word size */
  #define ALL_GENERAL_REGS  0xffffffffu
 -#define NOA0_REGS         (ALL_GENERAL_REGS & ~(1 << TCG_REG_A0))
 -
 -#ifdef CONFIG_SOFTMMU
 -#define ALL_QLOAD_REGS \
 -    (NOA0_REGS & ~((TCG_TARGET_REG_BITS < TARGET_LONG_BITS) << TCG_REG_A2))
 -#define ALL_QSTORE_REGS \
 -    (NOA0_REGS & ~(TCG_TARGET_REG_BITS < TARGET_LONG_BITS   \
 -                   ? (1 << TCG_REG_A2) | (1 << TCG_REG_A3)  \
 -                   : (1 << TCG_REG_A1)))
 -#else
 -#define ALL_QLOAD_REGS   NOA0_REGS
 -#define ALL_QSTORE_REGS  NOA0_REGS
 -#endif
 -
  static bool is_p2m1(tcg_target_long val)
  {
-     int nb_temps, nb_globals, i;
+@@ -XXX,XX +XXX,XX @@ static TCGConstraintSetIndex tcg_target_op_def(TCGOpcode op)
--    TCGOp *op, *op_next, *prev_mb = NULL;
-+    TCGOp *op, *op_next;
+     case INDEX_op_qemu_ld_i32:
-     OptContext ctx = { .tcg = s };
+         return (TCG_TARGET_REG_BITS == 64 || TARGET_LONG_BITS == 32
+-                ? C_O1_I1(r, L) : C_O1_I2(r, L, L));
-     /* Array VALS has an element for each temp.
++                ? C_O1_I1(r, r) : C_O1_I2(r, r, r));
-@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
+     case INDEX_op_qemu_st_i32:
-         }
+         return (TCG_TARGET_REG_BITS == 64 || TARGET_LONG_BITS == 32
+-                ? C_O0_I2(SZ, S) : C_O0_I3(SZ, S, S));
-         /* Eliminate duplicate and redundant fence instructions.  */
++                ? C_O0_I2(rZ, r) : C_O0_I3(rZ, r, r));
--        if (prev_mb) {
+     case INDEX_op_qemu_ld_i64:
-+        if (ctx.prev_mb) {
+-        return (TCG_TARGET_REG_BITS == 64 ? C_O1_I1(r, L)
-             switch (opc) {
+-                : TARGET_LONG_BITS == 32 ? C_O2_I1(r, r, L)
-             case INDEX_op_mb:
+-                : C_O2_I2(r, r, L, L));
-                 /* Merge two barriers of the same type into one,
++        return (TCG_TARGET_REG_BITS == 64 ? C_O1_I1(r, r)
-@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
++                : TARGET_LONG_BITS == 32 ? C_O2_I1(r, r, r)
-                  * barrier.  This is stricter than specified but for
++                : C_O2_I2(r, r, r, r));
-                  * the purposes of TCG is better than not optimizing.
+     case INDEX_op_qemu_st_i64:
-                  */
+-        return (TCG_TARGET_REG_BITS == 64 ? C_O0_I2(SZ, S)
--                prev_mb->args[0] |= op->args[0];
+-                : TARGET_LONG_BITS == 32 ? C_O0_I3(SZ, SZ, S)
-+                ctx.prev_mb->args[0] |= op->args[0];
+-                : C_O0_I4(SZ, SZ, S, S));
-                 tcg_op_remove(s, op);
++        return (TCG_TARGET_REG_BITS == 64 ? C_O0_I2(rZ, r)
-                 break;
++                : TARGET_LONG_BITS == 32 ? C_O0_I3(rZ, rZ, r)
++                : C_O0_I4(rZ, rZ, r, r));
-@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
-             case INDEX_op_qemu_st_i64:
+     default:
-             case INDEX_op_call:
+         g_assert_not_reached();
                  /* Opcodes that touch guest memory stop the optimization.  */
 -                prev_mb = NULL;
 +                ctx.prev_mb = NULL;
                  break;
              }
          } else if (opc == INDEX_op_mb) {
 -            prev_mb = op;
 +            ctx.prev_mb = op;
          }
      }
  }
 --
-.25.1
+.34.1

-[PULL 52/56] tcg/optimize: Optimize sign extensions
+[PULL 34/53] tcg/ppc: Reorg tcg_out_tlb_read
-Certain targets, like riscv, produce signed 32-bit results.
+Allocate TCG_REG_TMP2.  Use R0, TMP1, TMP2 instead of any of
-This can lead to lots of redundant extensions as values are
+the normally allocated registers for the tlb load.
 manipulated.
 Begin by tracking only the obvious sign-extensions, and
 converting them to simple copies when possible.
 Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
-Reviewed-by: Luis Pires <luis.pires@eldorado.org.br>
+Reviewed-by: Daniel Henrique Barboza <danielhb413@gmail.com>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- tcg/optimize.c | 123 ++++++++++++++++++++++++++++++++++++++++---------
+ tcg/ppc/tcg-target.c.inc | 78 ++++++++++++++++++++++++----------------
-file changed, 102 insertions(+), 21 deletions(-)
+file changed, 47 insertions(+), 31 deletions(-)
-diff --git a/tcg/optimize.c b/tcg/optimize.c
+diff --git a/tcg/ppc/tcg-target.c.inc b/tcg/ppc/tcg-target.c.inc
 index XXXXXXX..XXXXXXX 100644
---- a/tcg/optimize.c
+--- a/tcg/ppc/tcg-target.c.inc
-+++ b/tcg/optimize.c
++++ b/tcg/ppc/tcg-target.c.inc
-@@ -XXX,XX +XXX,XX @@ typedef struct TempOptInfo {
+@@ -XXX,XX +XXX,XX @@
-     TCGTemp *next_copy;
+ #else
-     uint64_t val;
+ # define TCG_REG_TMP1   TCG_REG_R12
-     uint64_t z_mask;  /* mask bit is 0 if and only if value bit is 0 */
+ #endif
-+    uint64_t s_mask;  /* a left-aligned mask of clrsb(value) bits. */
++#define TCG_REG_TMP2    TCG_REG_R11
- } TempOptInfo;
+ #define TCG_VEC_TMP1    TCG_REG_V0
- typedef struct OptContext {
+ #define TCG_VEC_TMP2    TCG_REG_V1
-@@ -XXX,XX +XXX,XX @@ typedef struct OptContext {
+@@ -XXX,XX +XXX,XX @@ static TCGReg ldst_ra_gen(TCGContext *s, const TCGLabelQemuLdst *l, int arg)
-     /* In flight values from optimization. */
+ /*
-     uint64_t a_mask;  /* mask bit is 0 iff value identical to first input */
+  * For the purposes of ppc32 sorting 4 input registers into 4 argument
-     uint64_t z_mask;  /* mask bit is 0 iff value bit is 0 */
+  * registers, there is an outside chance we would require 3 temps.
-+    uint64_t s_mask;  /* mask of clrsb(value) bits */
+- * Because of constraints, no inputs are in r3, and env will not be
-     TCGType type;
+- * placed into r3 until after the sorting is done, and is thus free.
- } OptContext;
+  */
+ static const TCGLdstHelperParam ldst_helper_param = {
-+/* Calculate the smask for a specific value. */
+     .ra_gen = ldst_ra_gen,
-+static uint64_t smask_from_value(uint64_t value)
+     .ntmp = 3,
-+{
+-    .tmp = { TCG_REG_TMP1, TCG_REG_R0, TCG_REG_R3 }
-+    int rep = clrsb64(value);
++    .tmp = { TCG_REG_TMP1, TCG_REG_TMP2, TCG_REG_R0 }
-+    return ~(~0ull >> rep);
+ };
-+}
-+
+ static bool tcg_out_qemu_ld_slow_path(TCGContext *s, TCGLabelQemuLdst *lb)
-+/*
+@@ -XXX,XX +XXX,XX @@ static TCGLabelQemuLdst *prepare_host_addr(TCGContext *s, HostAddress *h,
-+ * Calculate the smask for a given set of known-zeros.
+     /* Load tlb_mask[mmu_idx] and tlb_table[mmu_idx].  */
-+ * If there are lots of zeros on the left, we can consider the remainder
+     QEMU_BUILD_BUG_ON(TLB_MASK_TABLE_OFS(0) > 0);
-+ * an unsigned field, and thus the corresponding signed field is one bit
+     QEMU_BUILD_BUG_ON(TLB_MASK_TABLE_OFS(0) < -32768);
-+ * larger.
+-    tcg_out_ld(s, TCG_TYPE_PTR, TCG_REG_R3, TCG_AREG0, mask_off);
-+ */
+-    tcg_out_ld(s, TCG_TYPE_PTR, TCG_REG_R4, TCG_AREG0, table_off);
-+static uint64_t smask_from_zmask(uint64_t zmask)
++    tcg_out_ld(s, TCG_TYPE_PTR, TCG_REG_TMP1, TCG_AREG0, mask_off);
-+{
++    tcg_out_ld(s, TCG_TYPE_PTR, TCG_REG_TMP2, TCG_AREG0, table_off);
-+    /*
-+     * Only the 0 bits are significant for zmask, thus the msb itself
+     /* Extract the page index, shifted into place for tlb index.  */
-+     * must be zero, else we have no sign information.
+     if (TCG_TARGET_REG_BITS == 32) {
-+     */
+-        tcg_out_shri32(s, TCG_REG_TMP1, addrlo,
-+    int rep = clz64(zmask);
++        tcg_out_shri32(s, TCG_REG_R0, addrlo,
-+    if (rep == 0) {
+                        TARGET_PAGE_BITS - CPU_TLB_ENTRY_BITS);
 +        return 0;
 +    }
 +    rep -= 1;
 +    return ~(~0ull >> rep);
 +}
 +
  static inline TempOptInfo *ts_info(TCGTemp *ts)
  {
      return ts->state_ptr;
@@ -XXX,XX +XXX,XX @@ static void reset_ts(TCGTemp *ts)
      ti->prev_copy = ts;
      ti->is_const = false;
      ti->z_mask = -1;
 +    ti->s_mask = 0;
  }
  static void reset_temp(TCGArg arg)
@@ -XXX,XX +XXX,XX @@ static void init_ts_info(OptContext *ctx, TCGTemp *ts)
          ti->is_const = true;
          ti->val = ts->val;
          ti->z_mask = ts->val;
 +        ti->s_mask = smask_from_value(ts->val);
      } else {
-         ti->is_const = false;
+-        tcg_out_shri64(s, TCG_REG_TMP1, addrlo,
-         ti->z_mask = -1;
++        tcg_out_shri64(s, TCG_REG_R0, addrlo,
-+        ti->s_mask = 0;
+                        TARGET_PAGE_BITS - CPU_TLB_ENTRY_BITS);
      }
- }
+-    tcg_out32(s, AND | SAB(TCG_REG_R3, TCG_REG_R3, TCG_REG_TMP1));
++    tcg_out32(s, AND | SAB(TCG_REG_TMP1, TCG_REG_TMP1, TCG_REG_R0));
-@@ -XXX,XX +XXX,XX @@ static bool tcg_opt_gen_mov(OptContext *ctx, TCGOp *op, TCGArg dst, TCGArg src)
-     op->args[1] = src;
+-    /* Load the TLB comparator.  */
++    /* Load the (low part) TLB comparator into TMP2.  */
-     di->z_mask = si->z_mask;
+     if (cmp_off == 0 && TCG_TARGET_REG_BITS >= TARGET_LONG_BITS) {
-+    di->s_mask = si->s_mask;
+         uint32_t lxu = (TCG_TARGET_REG_BITS == 32 || TARGET_LONG_BITS == 32
+                         ? LWZUX : LDUX);
-     if (src_ts->type == dst_ts->type) {
+-        tcg_out32(s, lxu | TAB(TCG_REG_TMP1, TCG_REG_R3, TCG_REG_R4));
-         TempOptInfo *ni = ts_info(si->next_copy);
++        tcg_out32(s, lxu | TAB(TCG_REG_TMP2, TCG_REG_TMP1, TCG_REG_TMP2));
-@@ -XXX,XX +XXX,XX @@ static void finish_folding(OptContext *ctx, TCGOp *op)
+     } else {
+-        tcg_out32(s, ADD | TAB(TCG_REG_R3, TCG_REG_R3, TCG_REG_R4));
-     nb_oargs = def->nb_oargs;
++        tcg_out32(s, ADD | TAB(TCG_REG_TMP1, TCG_REG_TMP1, TCG_REG_TMP2));
-     for (i = 0; i < nb_oargs; i++) {
+         if (TCG_TARGET_REG_BITS < TARGET_LONG_BITS) {
--        reset_temp(op->args[i]);
+-            tcg_out_ld(s, TCG_TYPE_I32, TCG_REG_TMP1, TCG_REG_R3, cmp_off + 4);
-+        TCGTemp *ts = arg_temp(op->args[i]);
+-            tcg_out_ld(s, TCG_TYPE_I32, TCG_REG_R4, TCG_REG_R3, cmp_off);
-+        reset_ts(ts);
++            tcg_out_ld(s, TCG_TYPE_I32, TCG_REG_TMP2,
-         /*
++                       TCG_REG_TMP1, cmp_off + 4 * HOST_BIG_ENDIAN);
--         * Save the corresponding known-zero bits mask for the
+         } else {
-+         * Save the corresponding known-zero/sign bits mask for the
+-            tcg_out_ld(s, TCG_TYPE_TL, TCG_REG_TMP1, TCG_REG_R3, cmp_off);
-          * first output argument (only one supported so far).
++            tcg_out_ld(s, TCG_TYPE_TL, TCG_REG_TMP2, TCG_REG_TMP1, cmp_off);
           */
          if (i == 0) {
 -            arg_info(op->args[i])->z_mask = ctx->z_mask;
 +            ts_info(ts)->z_mask = ctx->z_mask;
 +            ts_info(ts)->s_mask = ctx->s_mask;
          }
      }
- }
-@@ -XXX,XX +XXX,XX @@ static bool fold_masks(OptContext *ctx, TCGOp *op)
+@@ -XXX,XX +XXX,XX @@ static TCGLabelQemuLdst *prepare_host_addr(TCGContext *s, HostAddress *h,
- {
+      * Load the TLB addend for use on the fast path.
-     uint64_t a_mask = ctx->a_mask;
+      * Do this asap to minimize any load use delay.
-     uint64_t z_mask = ctx->z_mask;
+      */
-+    uint64_t s_mask = ctx->s_mask;
+-    h->base = TCG_REG_R3;
+-    tcg_out_ld(s, TCG_TYPE_PTR, h->base, TCG_REG_R3,
-     /*
+-               offsetof(CPUTLBEntry, addend));
-      * 32-bit ops generate 32-bit results, which for the purpose of
++    if (TCG_TARGET_REG_BITS >= TARGET_LONG_BITS) {
-@@ -XXX,XX +XXX,XX @@ static bool fold_masks(OptContext *ctx, TCGOp *op)
++        tcg_out_ld(s, TCG_TYPE_PTR, TCG_REG_TMP1, TCG_REG_TMP1,
-     if (ctx->type == TCG_TYPE_I32) {
++                   offsetof(CPUTLBEntry, addend));
-         a_mask = (int32_t)a_mask;
++    }
-         z_mask = (int32_t)z_mask;
-+        s_mask |= MAKE_64BIT_MASK(32, 32);
+-    /* Clear the non-page, non-alignment bits from the address */
-         ctx->z_mask = z_mask;
++    /* Clear the non-page, non-alignment bits from the address in R0. */
-+        ctx->s_mask = s_mask;
+     if (TCG_TARGET_REG_BITS == 32) {
          /*
           * We don't support unaligned accesses on 32-bits.
@@ -XXX,XX +XXX,XX @@ static TCGLabelQemuLdst *prepare_host_addr(TCGContext *s, HostAddress *h,
          if (TARGET_LONG_BITS == 32) {
              tcg_out_rlw(s, RLWINM, TCG_REG_R0, t, 0,
                          (32 - a_bits) & 31, 31 - TARGET_PAGE_BITS);
 -            /* Zero-extend the address for use in the final address.  */
 -            tcg_out_ext32u(s, TCG_REG_R4, addrlo);
 -            addrlo = TCG_REG_R4;
          } else if (a_bits == 0) {
              tcg_out_rld(s, RLDICR, TCG_REG_R0, t, 0, 63 - TARGET_PAGE_BITS);
          } else {
@@ -XXX,XX +XXX,XX @@ static TCGLabelQemuLdst *prepare_host_addr(TCGContext *s, HostAddress *h,
              tcg_out_rld(s, RLDICL, TCG_REG_R0, TCG_REG_R0, TARGET_PAGE_BITS, 0);
          }
      }
+-    h->index = addrlo;
-     if (z_mask == 0) {
-@@ -XXX,XX +XXX,XX @@ static bool fold_brcond2(OptContext *ctx, TCGOp *op)
+     if (TCG_TARGET_REG_BITS < TARGET_LONG_BITS) {
+-        tcg_out_cmp(s, TCG_COND_EQ, TCG_REG_R0, TCG_REG_TMP1,
- static bool fold_bswap(OptContext *ctx, TCGOp *op)
++        /* Low part comparison into cr7. */
- {
++        tcg_out_cmp(s, TCG_COND_EQ, TCG_REG_R0, TCG_REG_TMP2,
--    uint64_t z_mask, sign;
+, 7, TCG_TYPE_I32);
-+    uint64_t z_mask, s_mask, sign;
+-        tcg_out_cmp(s, TCG_COND_EQ, addrhi, TCG_REG_R4, 0, 6, TCG_TYPE_I32);
++
-     if (arg_is_const(op->args[1])) {
++        /* Load the high part TLB comparator into TMP2.  */
-         uint64_t t = arg_info(op->args[1])->val;
++        tcg_out_ld(s, TCG_TYPE_I32, TCG_REG_TMP2, TCG_REG_TMP1,
-@@ -XXX,XX +XXX,XX @@ static bool fold_bswap(OptContext *ctx, TCGOp *op)
++                   cmp_off + 4 * !HOST_BIG_ENDIAN);
 +
 +        /* Load addend, deferred for this case. */
 +        tcg_out_ld(s, TCG_TYPE_PTR, TCG_REG_TMP1, TCG_REG_TMP1,
 +                   offsetof(CPUTLBEntry, addend));
 +
 +        /* High part comparison into cr6. */
 +        tcg_out_cmp(s, TCG_COND_EQ, addrhi, TCG_REG_TMP2, 0, 6, TCG_TYPE_I32);
 +
 +        /* Combine comparisons into cr7. */
          tcg_out32(s, CRAND | BT(7, CR_EQ) | BA(6, CR_EQ) | BB(7, CR_EQ));
      } else {
 -        tcg_out_cmp(s, TCG_COND_EQ, TCG_REG_R0, TCG_REG_TMP1,
 +        /* Full comparison into cr7. */
 +        tcg_out_cmp(s, TCG_COND_EQ, TCG_REG_R0, TCG_REG_TMP2,
 , 7, TCG_TYPE_TL);
      }
-     z_mask = arg_info(op->args[1])->z_mask;
+     /* Load a pointer into the current opcode w/conditional branch-link. */
      ldst->label_ptr[0] = s->code_ptr;
      tcg_out32(s, BC | BI(7, CR_EQ) | BO_COND_FALSE | LK);
 +
-     switch (op->opc) {
++    h->base = TCG_REG_TMP1;
-     case INDEX_op_bswap16_i32:
+ #else
-     case INDEX_op_bswap16_i64:
+     if (a_bits) {
-@@ -XXX,XX +XXX,XX @@ static bool fold_bswap(OptContext *ctx, TCGOp *op)
+         ldst = new_ldst_label(s);
-     default:
+@@ -XXX,XX +XXX,XX @@ static TCGLabelQemuLdst *prepare_host_addr(TCGContext *s, HostAddress *h,
          g_assert_not_reached();
      }
-+    s_mask = smask_from_zmask(z_mask);
+     h->base = guest_base ? TCG_GUEST_BASE_REG : 0;
-     switch (op->args[2] & (TCG_BSWAP_OZ | TCG_BSWAP_OS)) {
+-    h->index = addrlo;
-     case TCG_BSWAP_OZ:
+-    if (TCG_TARGET_REG_BITS > TARGET_LONG_BITS) {
-@@ -XXX,XX +XXX,XX @@ static bool fold_bswap(OptContext *ctx, TCGOp *op)
+-        tcg_out_ext32u(s, TCG_REG_TMP1, addrlo);
-         /* If the sign bit may be 1, force all the bits above to 1. */
+-        h->index = TCG_REG_TMP1;
          if (z_mask & sign) {
              z_mask |= sign;
 +            s_mask = sign << 1;
          }
          break;
      default:
          /* The high bits are undefined: force all bits above the sign to 1. */
          z_mask |= sign << 1;
 +        s_mask = 0;
          break;
      }
      ctx->z_mask = z_mask;
 +    ctx->s_mask = s_mask;
      return fold_masks(ctx, op);
  }
@@ -XXX,XX +XXX,XX @@ static bool fold_eqv(OptContext *ctx, TCGOp *op)
  static bool fold_extract(OptContext *ctx, TCGOp *op)
  {
      uint64_t z_mask_old, z_mask;
 +    int pos = op->args[2];
 +    int len = op->args[3];
      if (arg_is_const(op->args[1])) {
          uint64_t t;
          t = arg_info(op->args[1])->val;
 -        t = extract64(t, op->args[2], op->args[3]);
 +        t = extract64(t, pos, len);
          return tcg_opt_gen_movi(ctx, op, op->args[0], t);
      }
      z_mask_old = arg_info(op->args[1])->z_mask;
 -    z_mask = extract64(z_mask_old, op->args[2], op->args[3]);
 -    if (op->args[2] == 0) {
 +    z_mask = extract64(z_mask_old, pos, len);
 +    if (pos == 0) {
          ctx->a_mask = z_mask_old ^ z_mask;
      }
      ctx->z_mask = z_mask;
 +    ctx->s_mask = smask_from_zmask(z_mask);
      return fold_masks(ctx, op);
  }
@@ -XXX,XX +XXX,XX @@ static bool fold_extract2(OptContext *ctx, TCGOp *op)
  static bool fold_exts(OptContext *ctx, TCGOp *op)
  {
 -    uint64_t z_mask_old, z_mask, sign;
 +    uint64_t s_mask_old, s_mask, z_mask, sign;
      bool type_change = false;
      if (fold_const1(ctx, op)) {
          return true;
      }
 -    z_mask_old = z_mask = arg_info(op->args[1])->z_mask;
 +    z_mask = arg_info(op->args[1])->z_mask;
 +    s_mask = arg_info(op->args[1])->s_mask;
 +    s_mask_old = s_mask;
      switch (op->opc) {
      CASE_OP_32_64(ext8s):
@@ -XXX,XX +XXX,XX @@ static bool fold_exts(OptContext *ctx, TCGOp *op)
      if (z_mask & sign) {
          z_mask |= sign;
 -    } else if (!type_change) {
 -        ctx->a_mask = z_mask_old ^ z_mask;
      }
 +    s_mask |= sign << 1;
 +
      ctx->z_mask = z_mask;
 +    ctx->s_mask = s_mask;
 +    if (!type_change) {
 +        ctx->a_mask = s_mask & ~s_mask_old;
 +    }
      return fold_masks(ctx, op);
  }
@@ -XXX,XX +XXX,XX @@ static bool fold_extu(OptContext *ctx, TCGOp *op)
      }
      ctx->z_mask = z_mask;
 +    ctx->s_mask = smask_from_zmask(z_mask);
      if (!type_change) {
          ctx->a_mask = z_mask_old ^ z_mask;
      }
@@ -XXX,XX +XXX,XX @@ static bool fold_qemu_ld(OptContext *ctx, TCGOp *op)
      MemOp mop = get_memop(oi);
      int width = 8 * memop_size(mop);
 -    if (!(mop & MO_SIGN) && width < 64) {
 -        ctx->z_mask = MAKE_64BIT_MASK(0, width);
 +    if (width < 64) {
 +        ctx->s_mask = MAKE_64BIT_MASK(width, 64 - width);
 +        if (!(mop & MO_SIGN)) {
 +            ctx->z_mask = MAKE_64BIT_MASK(0, width);
 +            ctx->s_mask <<= 1;
 +        }
      }
      /* Opcodes that touch guest memory stop the mb optimization.  */
@@ -XXX,XX +XXX,XX @@ static bool fold_setcond2(OptContext *ctx, TCGOp *op)
  static bool fold_sextract(OptContext *ctx, TCGOp *op)
  {
 -    int64_t z_mask_old, z_mask;
 +    uint64_t z_mask, s_mask, s_mask_old;
 +    int pos = op->args[2];
 +    int len = op->args[3];
      if (arg_is_const(op->args[1])) {
          uint64_t t;
          t = arg_info(op->args[1])->val;
 -        t = sextract64(t, op->args[2], op->args[3]);
 +        t = sextract64(t, pos, len);
          return tcg_opt_gen_movi(ctx, op, op->args[0], t);
      }
 -    z_mask_old = arg_info(op->args[1])->z_mask;
 -    z_mask = sextract64(z_mask_old, op->args[2], op->args[3]);
 -    if (op->args[2] == 0 && z_mask >= 0) {
 -        ctx->a_mask = z_mask_old ^ z_mask;
 -    }
-+    z_mask = arg_info(op->args[1])->z_mask;
+ #endif
-+    z_mask = sextract64(z_mask, pos, len);
-     ctx->z_mask = z_mask;
++    if (TCG_TARGET_REG_BITS > TARGET_LONG_BITS) {
++        /* Zero-extend the guest address for use in the host address. */
-+    s_mask_old = arg_info(op->args[1])->s_mask;
++        tcg_out_ext32u(s, TCG_REG_R0, addrlo);
-+    s_mask = sextract64(s_mask_old, pos, len);
++        h->index = TCG_REG_R0;
-+    s_mask |= MAKE_64BIT_MASK(len, 64 - len);
++    } else {
-+    ctx->s_mask = s_mask;
++        h->index = addrlo;
 +
 +    if (pos == 0) {
 +        ctx->a_mask = s_mask & ~s_mask_old;
 +    }
 +
-     return fold_masks(ctx, op);
+     return ldst;
  }
-@@ -XXX,XX +XXX,XX @@ static bool fold_tcg_ld(OptContext *ctx, TCGOp *op)
+@@ -XXX,XX +XXX,XX @@ static void tcg_target_init(TCGContext *s)
- {
+ #if defined(_CALL_SYSV) || TCG_TARGET_REG_BITS == 64
-     /* We can't do any folding with a load, but we can record bits. */
+     tcg_regset_set_reg(s->reserved_regs, TCG_REG_R13); /* thread pointer */
-     switch (op->opc) {
+ #endif
-+    CASE_OP_32_64(ld8s):
+-    tcg_regset_set_reg(s->reserved_regs, TCG_REG_TMP1); /* mem temp */
-+        ctx->s_mask = MAKE_64BIT_MASK(8, 56);
++    tcg_regset_set_reg(s->reserved_regs, TCG_REG_TMP1);
-+        break;
++    tcg_regset_set_reg(s->reserved_regs, TCG_REG_TMP2);
-     CASE_OP_32_64(ld8u):
+     tcg_regset_set_reg(s->reserved_regs, TCG_VEC_TMP1);
-         ctx->z_mask = MAKE_64BIT_MASK(0, 8);
+     tcg_regset_set_reg(s->reserved_regs, TCG_VEC_TMP2);
-+        ctx->s_mask = MAKE_64BIT_MASK(9, 55);
+     if (USE_REG_TB) {
 +        break;
 +    CASE_OP_32_64(ld16s):
 +        ctx->s_mask = MAKE_64BIT_MASK(16, 48);
          break;
      CASE_OP_32_64(ld16u):
          ctx->z_mask = MAKE_64BIT_MASK(0, 16);
 +        ctx->s_mask = MAKE_64BIT_MASK(17, 47);
 +        break;
 +    case INDEX_op_ld32s_i64:
 +        ctx->s_mask = MAKE_64BIT_MASK(32, 32);
          break;
      case INDEX_op_ld32u_i64:
          ctx->z_mask = MAKE_64BIT_MASK(0, 32);
 +        ctx->s_mask = MAKE_64BIT_MASK(33, 31);
          break;
      default:
          g_assert_not_reached();
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
              ctx.type = TCG_TYPE_I32;
          }
 -        /* Assume all bits affected, and no bits known zero. */
 +        /* Assume all bits affected, no bits known zero, no sign reps. */
          ctx.a_mask = -1;
          ctx.z_mask = -1;
 +        ctx.s_mask = 0;
          /*
           * Process each opcode.
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
          case INDEX_op_extrh_i64_i32:
              done = fold_extu(&ctx, op);
              break;
 +        CASE_OP_32_64(ld8s):
          CASE_OP_32_64(ld8u):
 +        CASE_OP_32_64(ld16s):
          CASE_OP_32_64(ld16u):
 +        case INDEX_op_ld32s_i64:
          case INDEX_op_ld32u_i64:
              done = fold_tcg_ld(&ctx, op);
              break;
 --
-.25.1
+.34.1

-[PULL 08/56] tcg/optimize: Remove do_default label
+[PULL 35/53] tcg/ppc: Adjust constraints on qemu_ld/st
-Break the final cleanup clause out of the main switch
+The softmmu tlb uses TCG_REG_{TMP1,TMP2,R0}, not any of the normally
-statement.  When fully folding an opcode to mov/movi,
+available registers.  Now that we handle overlap betwen inputs and
-use "continue" to process the next opcode, else break
+helper arguments, we can allow any allocatable reg.
 to fall into the final cleanup.
 Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
-Reviewed-by: Luis Pires <luis.pires@eldorado.org.br>
+Reviewed-by: Daniel Henrique Barboza <danielhb413@gmail.com>
 Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- tcg/optimize.c | 190 ++++++++++++++++++++++++-------------------------
+ tcg/ppc/tcg-target-con-set.h | 11 ++++-------
-file changed, 94 insertions(+), 96 deletions(-)
+ tcg/ppc/tcg-target-con-str.h |  2 --
  tcg/ppc/tcg-target.c.inc     | 32 ++++++++++----------------------
 files changed, 14 insertions(+), 31 deletions(-)
-diff --git a/tcg/optimize.c b/tcg/optimize.c
+diff --git a/tcg/ppc/tcg-target-con-set.h b/tcg/ppc/tcg-target-con-set.h
 index XXXXXXX..XXXXXXX 100644
---- a/tcg/optimize.c
+--- a/tcg/ppc/tcg-target-con-set.h
-+++ b/tcg/optimize.c
++++ b/tcg/ppc/tcg-target-con-set.h
-@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
+@@ -XXX,XX +XXX,XX @@
-         switch (opc) {
+ C_O0_I1(r)
-         CASE_OP_32_64_VEC(mov):
+ C_O0_I2(r, r)
-             tcg_opt_gen_mov(s, op, op->args[0], op->args[1]);
+ C_O0_I2(r, ri)
--            break;
+-C_O0_I2(S, S)
-+            continue;
+ C_O0_I2(v, r)
+-C_O0_I3(S, S, S)
-         case INDEX_op_dup_vec:
++C_O0_I3(r, r, r)
-             if (arg_is_const(op->args[1])) {
+ C_O0_I4(r, r, ri, ri)
-                 tmp = arg_info(op->args[1])->val;
+-C_O0_I4(S, S, S, S)
-                 tmp = dup_const(TCGOP_VECE(op), tmp);
+-C_O1_I1(r, L)
-                 tcg_opt_gen_movi(s, &ctx, op, op->args[0], tmp);
++C_O0_I4(r, r, r, r)
--                break;
+ C_O1_I1(r, r)
-+                continue;
+ C_O1_I1(v, r)
-             }
+ C_O1_I1(v, v)
--            goto do_default;
+ C_O1_I1(v, vr)
-+            break;
+ C_O1_I2(r, 0, rZ)
+-C_O1_I2(r, L, L)
-         case INDEX_op_dup2_vec:
+ C_O1_I2(r, rI, ri)
-             assert(TCG_TARGET_REG_BITS == 32);
+ C_O1_I2(r, rI, rT)
-@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
+ C_O1_I2(r, r, r)
-                 tcg_opt_gen_movi(s, &ctx, op, op->args[0],
+@@ -XXX,XX +XXX,XX @@ C_O1_I2(v, v, v)
-                                  deposit64(arg_info(op->args[1])->val, 32, 32,
+ C_O1_I3(v, v, v, v)
-                                            arg_info(op->args[2])->val));
+ C_O1_I4(r, r, ri, rZ, rZ)
--                break;
+ C_O1_I4(r, r, r, ri, ri)
-+                continue;
+-C_O2_I1(L, L, L)
-             } else if (args_are_copies(op->args[1], op->args[2])) {
+-C_O2_I2(L, L, L, L)
-                 op->opc = INDEX_op_dup_vec;
++C_O2_I1(r, r, r)
-                 TCGOP_VECE(op) = MO_32;
++C_O2_I2(r, r, r, r)
-                 nb_iargs = 1;
+ C_O2_I4(r, r, rI, rZM, r, r)
-             }
+ C_O2_I4(r, r, r, r, rI, rZM)
--            goto do_default;
+diff --git a/tcg/ppc/tcg-target-con-str.h b/tcg/ppc/tcg-target-con-str.h
-+            break;
+index XXXXXXX..XXXXXXX 100644
+--- a/tcg/ppc/tcg-target-con-str.h
-         CASE_OP_32_64(not):
++++ b/tcg/ppc/tcg-target-con-str.h
-         CASE_OP_32_64(neg):
+@@ -XXX,XX +XXX,XX @@ REGS('A', 1u << TCG_REG_R3)
-@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
+ REGS('B', 1u << TCG_REG_R4)
-             if (arg_is_const(op->args[1])) {
+ REGS('C', 1u << TCG_REG_R5)
-                 tmp = do_constant_folding(opc, arg_info(op->args[1])->val, 0);
+ REGS('D', 1u << TCG_REG_R6)
-                 tcg_opt_gen_movi(s, &ctx, op, op->args[0], tmp);
+-REGS('L', ALL_QLOAD_REGS)
--                break;
+-REGS('S', ALL_QSTORE_REGS)
-+                continue;
-             }
+ /*
--            goto do_default;
+  * Define constraint letters for constants:
-+            break;
+diff --git a/tcg/ppc/tcg-target.c.inc b/tcg/ppc/tcg-target.c.inc
+index XXXXXXX..XXXXXXX 100644
-         CASE_OP_32_64(bswap16):
+--- a/tcg/ppc/tcg-target.c.inc
-         CASE_OP_32_64(bswap32):
++++ b/tcg/ppc/tcg-target.c.inc
-@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
+@@ -XXX,XX +XXX,XX @@
-                 tmp = do_constant_folding(opc, arg_info(op->args[1])->val,
+ #define ALL_GENERAL_REGS  0xffffffffu
-                                           op->args[2]);
+ #define ALL_VECTOR_REGS   0xffffffff00000000ull
-                 tcg_opt_gen_movi(s, &ctx, op, op->args[0], tmp);
--                break;
+-#ifdef CONFIG_SOFTMMU
-+                continue;
+-#define ALL_QLOAD_REGS \
-             }
+-    (ALL_GENERAL_REGS & \
--            goto do_default;
+-     ~((1 << TCG_REG_R3) | (1 << TCG_REG_R4) | (1 << TCG_REG_R5)))
-+            break;
+-#define ALL_QSTORE_REGS \
+-    (ALL_GENERAL_REGS & ~((1 << TCG_REG_R3) | (1 << TCG_REG_R4) | \
-         CASE_OP_32_64(add):
+-                          (1 << TCG_REG_R5) | (1 << TCG_REG_R6)))
-         CASE_OP_32_64(sub):
+-#else
-@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
+-#define ALL_QLOAD_REGS  (ALL_GENERAL_REGS & ~(1 << TCG_REG_R3))
-                 tmp = do_constant_folding(opc, arg_info(op->args[1])->val,
+-#define ALL_QSTORE_REGS ALL_QLOAD_REGS
-                                           arg_info(op->args[2])->val);
+-#endif
-                 tcg_opt_gen_movi(s, &ctx, op, op->args[0], tmp);
+-
--                break;
+ TCGPowerISA have_isa;
-+                continue;
+ static bool have_isel;
-             }
+ bool have_altivec;
--            goto do_default;
+@@ -XXX,XX +XXX,XX @@ static TCGConstraintSetIndex tcg_target_op_def(TCGOpcode op)
-+            break;
+     case INDEX_op_qemu_ld_i32:
-         CASE_OP_32_64(clz):
+         return (TCG_TARGET_REG_BITS == 64 || TARGET_LONG_BITS == 32
-         CASE_OP_32_64(ctz):
+-                ? C_O1_I1(r, L)
-@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
+-                : C_O1_I2(r, L, L));
-                 } else {
++                ? C_O1_I1(r, r)
-                     tcg_opt_gen_mov(s, op, op->args[0], op->args[2]);
++                : C_O1_I2(r, r, r));
-                 }
--                break;
+     case INDEX_op_qemu_st_i32:
-+                continue;
+         return (TCG_TARGET_REG_BITS == 64 || TARGET_LONG_BITS == 32
-             }
+-                ? C_O0_I2(S, S)
--            goto do_default;
+-                : C_O0_I3(S, S, S));
-+            break;
++                ? C_O0_I2(r, r)
++                : C_O0_I3(r, r, r));
-         CASE_OP_32_64(deposit):
-             if (arg_is_const(op->args[1]) && arg_is_const(op->args[2])) {
+     case INDEX_op_qemu_ld_i64:
-@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
+-        return (TCG_TARGET_REG_BITS == 64 ? C_O1_I1(r, L)
-                                 op->args[3], op->args[4],
+-                : TARGET_LONG_BITS == 32 ? C_O2_I1(L, L, L)
-                                 arg_info(op->args[2])->val);
+-                : C_O2_I2(L, L, L, L));
-                 tcg_opt_gen_movi(s, &ctx, op, op->args[0], tmp);
++        return (TCG_TARGET_REG_BITS == 64 ? C_O1_I1(r, r)
--                break;
++                : TARGET_LONG_BITS == 32 ? C_O2_I1(r, r, r)
-+                continue;
++                : C_O2_I2(r, r, r, r));
-             }
--            goto do_default;
+     case INDEX_op_qemu_st_i64:
-+            break;
+-        return (TCG_TARGET_REG_BITS == 64 ? C_O0_I2(S, S)
+-                : TARGET_LONG_BITS == 32 ? C_O0_I3(S, S, S)
-         CASE_OP_32_64(extract):
+-                : C_O0_I4(S, S, S, S));
-             if (arg_is_const(op->args[1])) {
++        return (TCG_TARGET_REG_BITS == 64 ? C_O0_I2(r, r)
-                 tmp = extract64(arg_info(op->args[1])->val,
++                : TARGET_LONG_BITS == 32 ? C_O0_I3(r, r, r)
-                                 op->args[2], op->args[3]);
++                : C_O0_I4(r, r, r, r));
-                 tcg_opt_gen_movi(s, &ctx, op, op->args[0], tmp);
--                break;
+     case INDEX_op_add_vec:
-+                continue;
+     case INDEX_op_sub_vec:
              }
 -            goto do_default;
 +            break;
          CASE_OP_32_64(sextract):
              if (arg_is_const(op->args[1])) {
                  tmp = sextract64(arg_info(op->args[1])->val,
                                   op->args[2], op->args[3]);
                  tcg_opt_gen_movi(s, &ctx, op, op->args[0], tmp);
 -                break;
 +                continue;
              }
 -            goto do_default;
 +            break;
          CASE_OP_32_64(extract2):
              if (arg_is_const(op->args[1]) && arg_is_const(op->args[2])) {
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
                                      ((uint32_t)v2 << (32 - shr)));
                  }
                  tcg_opt_gen_movi(s, &ctx, op, op->args[0], tmp);
 -                break;
 +                continue;
              }
 -            goto do_default;
 +            break;
          CASE_OP_32_64(setcond):
              tmp = do_constant_folding_cond(opc, op->args[1],
                                             op->args[2], op->args[3]);
              if (tmp != 2) {
                  tcg_opt_gen_movi(s, &ctx, op, op->args[0], tmp);
 -                break;
 +                continue;
              }
 -            goto do_default;
 +            break;
          CASE_OP_32_64(brcond):
              tmp = do_constant_folding_cond(opc, op->args[0],
                                             op->args[1], op->args[2]);
 -            if (tmp != 2) {
 -                if (tmp) {
 -                    memset(&ctx.temps_used, 0, sizeof(ctx.temps_used));
 -                    op->opc = INDEX_op_br;
 -                    op->args[0] = op->args[3];
 -                } else {
 -                    tcg_op_remove(s, op);
 -                }
 +            switch (tmp) {
 +            case 0:
 +                tcg_op_remove(s, op);
 +                continue;
 +            case 1:
 +                memset(&ctx.temps_used, 0, sizeof(ctx.temps_used));
 +                op->opc = opc = INDEX_op_br;
 +                op->args[0] = op->args[3];
                  break;
              }
 -            goto do_default;
 +            break;
          CASE_OP_32_64(movcond):
              tmp = do_constant_folding_cond(opc, op->args[1],
                                             op->args[2], op->args[5]);
              if (tmp != 2) {
                  tcg_opt_gen_mov(s, op, op->args[0], op->args[4-tmp]);
 -                break;
 +                continue;
              }
              if (arg_is_const(op->args[3]) && arg_is_const(op->args[4])) {
                  uint64_t tv = arg_info(op->args[3])->val;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
                  if (fv == 1 && tv == 0) {
                      cond = tcg_invert_cond(cond);
                  } else if (!(tv == 1 && fv == 0)) {
 -                    goto do_default;
 +                    break;
                  }
                  op->args[3] = cond;
                  op->opc = opc = (opc == INDEX_op_movcond_i32
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
                                   : INDEX_op_setcond_i64);
                  nb_iargs = 2;
              }
 -            goto do_default;
 +            break;
          case INDEX_op_add2_i32:
          case INDEX_op_sub2_i32:
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
                  rh = op->args[1];
                  tcg_opt_gen_movi(s, &ctx, op, rl, (int32_t)a);
                  tcg_opt_gen_movi(s, &ctx, op2, rh, (int32_t)(a >> 32));
 -                break;
 +                continue;
              }
 -            goto do_default;
 +            break;
          case INDEX_op_mulu2_i32:
              if (arg_is_const(op->args[2]) && arg_is_const(op->args[3])) {
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
                  rh = op->args[1];
                  tcg_opt_gen_movi(s, &ctx, op, rl, (int32_t)r);
                  tcg_opt_gen_movi(s, &ctx, op2, rh, (int32_t)(r >> 32));
 -                break;
 +                continue;
              }
 -            goto do_default;
 +            break;
          case INDEX_op_brcond2_i32:
              tmp = do_constant_folding_cond2(&op->args[0], &op->args[2],
                                              op->args[4]);
 -            if (tmp != 2) {
 -                if (tmp) {
 -            do_brcond_true:
 -                    memset(&ctx.temps_used, 0, sizeof(ctx.temps_used));
 -                    op->opc = INDEX_op_br;
 -                    op->args[0] = op->args[5];
 -                } else {
 +            if (tmp == 0) {
              do_brcond_false:
 -                    tcg_op_remove(s, op);
 -                }
 -            } else if ((op->args[4] == TCG_COND_LT
 -                        || op->args[4] == TCG_COND_GE)
 -                       && arg_is_const(op->args[2])
 -                       && arg_info(op->args[2])->val == 0
 -                       && arg_is_const(op->args[3])
 -                       && arg_info(op->args[3])->val == 0) {
 +                tcg_op_remove(s, op);
 +                continue;
 +            }
 +            if (tmp == 1) {
 +            do_brcond_true:
 +                op->opc = opc = INDEX_op_br;
 +                op->args[0] = op->args[5];
 +                break;
 +            }
 +            if ((op->args[4] == TCG_COND_LT || op->args[4] == TCG_COND_GE)
 +                 && arg_is_const(op->args[2])
 +                 && arg_info(op->args[2])->val == 0
 +                 && arg_is_const(op->args[3])
 +                 && arg_info(op->args[3])->val == 0) {
                  /* Simplify LT/GE comparisons vs zero to a single compare
                     vs the high word of the input.  */
              do_brcond_high:
 -                memset(&ctx.temps_used, 0, sizeof(ctx.temps_used));
 -                op->opc = INDEX_op_brcond_i32;
 +                op->opc = opc = INDEX_op_brcond_i32;
                  op->args[0] = op->args[1];
                  op->args[1] = op->args[3];
                  op->args[2] = op->args[4];
                  op->args[3] = op->args[5];
 -            } else if (op->args[4] == TCG_COND_EQ) {
 +                break;
 +            }
 +            if (op->args[4] == TCG_COND_EQ) {
                  /* Simplify EQ comparisons where one of the pairs
                     can be simplified.  */
                  tmp = do_constant_folding_cond(INDEX_op_brcond_i32,
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
                  if (tmp == 0) {
                      goto do_brcond_false;
                  } else if (tmp != 1) {
 -                    goto do_default;
 +                    break;
                  }
              do_brcond_low:
                  memset(&ctx.temps_used, 0, sizeof(ctx.temps_used));
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
                  op->args[1] = op->args[2];
                  op->args[2] = op->args[4];
                  op->args[3] = op->args[5];
 -            } else if (op->args[4] == TCG_COND_NE) {
 +                break;
 +            }
 +            if (op->args[4] == TCG_COND_NE) {
                  /* Simplify NE comparisons where one of the pairs
                     can be simplified.  */
                  tmp = do_constant_folding_cond(INDEX_op_brcond_i32,
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
                  } else if (tmp == 1) {
                      goto do_brcond_true;
                  }
 -                goto do_default;
 -            } else {
 -                goto do_default;
              }
              break;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
              if (tmp != 2) {
              do_setcond_const:
                  tcg_opt_gen_movi(s, &ctx, op, op->args[0], tmp);
 -            } else if ((op->args[5] == TCG_COND_LT
 -                        || op->args[5] == TCG_COND_GE)
 -                       && arg_is_const(op->args[3])
 -                       && arg_info(op->args[3])->val == 0
 -                       && arg_is_const(op->args[4])
 -                       && arg_info(op->args[4])->val == 0) {
 +                continue;
 +            }
 +            if ((op->args[5] == TCG_COND_LT || op->args[5] == TCG_COND_GE)
 +                 && arg_is_const(op->args[3])
 +                 && arg_info(op->args[3])->val == 0
 +                 && arg_is_const(op->args[4])
 +                 && arg_info(op->args[4])->val == 0) {
                  /* Simplify LT/GE comparisons vs zero to a single compare
                     vs the high word of the input.  */
              do_setcond_high:
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
                  op->args[1] = op->args[2];
                  op->args[2] = op->args[4];
                  op->args[3] = op->args[5];
 -            } else if (op->args[5] == TCG_COND_EQ) {
 +                break;
 +            }
 +            if (op->args[5] == TCG_COND_EQ) {
                  /* Simplify EQ comparisons where one of the pairs
                     can be simplified.  */
                  tmp = do_constant_folding_cond(INDEX_op_setcond_i32,
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
                  if (tmp == 0) {
                      goto do_setcond_high;
                  } else if (tmp != 1) {
 -                    goto do_default;
 +                    break;
                  }
              do_setcond_low:
                  reset_temp(op->args[0]);
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
                  op->opc = INDEX_op_setcond_i32;
                  op->args[2] = op->args[3];
                  op->args[3] = op->args[5];
 -            } else if (op->args[5] == TCG_COND_NE) {
 +                break;
 +            }
 +            if (op->args[5] == TCG_COND_NE) {
                  /* Simplify NE comparisons where one of the pairs
                     can be simplified.  */
                  tmp = do_constant_folding_cond(INDEX_op_setcond_i32,
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
                  } else if (tmp == 1) {
                      goto do_setcond_const;
                  }
 -                goto do_default;
 -            } else {
 -                goto do_default;
              }
              break;
 -        case INDEX_op_call:
 -            if (!(tcg_call_flags(op)
 +        default:
 +            break;
 +        }
 +
 +        /* Some of the folding above can change opc. */
 +        opc = op->opc;
 +        def = &tcg_op_defs[opc];
 +        if (def->flags & TCG_OPF_BB_END) {
 +            memset(&ctx.temps_used, 0, sizeof(ctx.temps_used));
 +        } else {
 +            if (opc == INDEX_op_call &&
 +                !(tcg_call_flags(op)
                    & (TCG_CALL_NO_READ_GLOBALS | TCG_CALL_NO_WRITE_GLOBALS))) {
                  for (i = 0; i < nb_globals; i++) {
                      if (test_bit(i, ctx.temps_used.l)) {
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
                      }
                  }
              }
 -            goto do_reset_output;
 -        default:
 -        do_default:
 -            /* Default case: we know nothing about operation (or were unable
 -               to compute the operation result) so no propagation is done.
 -               We trash everything if the operation is the end of a basic
 -               block, otherwise we only trash the output args.  "z_mask" is
 -               the non-zero bits mask for the first output arg.  */
 -            if (def->flags & TCG_OPF_BB_END) {
 -                memset(&ctx.temps_used, 0, sizeof(ctx.temps_used));
 -            } else {
 -        do_reset_output:
 -                for (i = 0; i < nb_oargs; i++) {
 -                    reset_temp(op->args[i]);
 -                    /* Save the corresponding known-zero bits mask for the
 -                       first output argument (only one supported so far). */
 -                    if (i == 0) {
 -                        arg_info(op->args[i])->z_mask = z_mask;
 -                    }
 +            for (i = 0; i < nb_oargs; i++) {
 +                reset_temp(op->args[i]);
 +                /* Save the corresponding known-zero bits mask for the
 +                   first output argument (only one supported so far). */
 +                if (i == 0) {
 +                    arg_info(op->args[i])->z_mask = z_mask;
                  }
              }
 -            break;
          }
          /* Eliminate duplicate and redundant fence instructions.  */
 --
-.25.1
+.34.1

-[PULL 04/56] host-utils: add 128-bit quotient support to divu128/divs128
+[PULL 36/53] tcg/ppc: Remove unused constraints A, B, C, D
-From: Luis Pires <luis.pires@eldorado.org.br>
+These constraints have not been used for quite some time.
-These will be used to implement new decimal floating point
+Fixes: 77b73de67632 ("Use rem/div[u]_i32 drop div[u]2_i32")
-instructions from Power ISA 3.1.
+Reviewed-by: Daniel Henrique Barboza <danielhb413@gmail.com>
+Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
-The remainder is now returned directly by divu128/divs128,
+Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
 freeing up phigh to receive the high 64 bits of the quotient.
 Signed-off-by: Luis Pires <luis.pires@eldorado.org.br>
 Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
 Message-Id: <20211025191154.350831-4-luis.pires@eldorado.org.br>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- include/hw/clock.h        |   6 +-
+ tcg/ppc/tcg-target-con-str.h | 4 ----
- include/qemu/host-utils.h |  20 ++++--
+file changed, 4 deletions(-)
  target/ppc/int_helper.c   |   9 +--
  util/host-utils.c         | 133 +++++++++++++++++++++++++-------------
 files changed, 108 insertions(+), 60 deletions(-)
-diff --git a/include/hw/clock.h b/include/hw/clock.h
+diff --git a/tcg/ppc/tcg-target-con-str.h b/tcg/ppc/tcg-target-con-str.h
 index XXXXXXX..XXXXXXX 100644
---- a/include/hw/clock.h
+--- a/tcg/ppc/tcg-target-con-str.h
-+++ b/include/hw/clock.h
++++ b/tcg/ppc/tcg-target-con-str.h
-@@ -XXX,XX +XXX,XX @@ static inline uint64_t clock_ns_to_ticks(const Clock *clk, uint64_t ns)
+@@ -XXX,XX +XXX,XX @@
-     if (clk->period == 0) {
+  */
-         return 0;
+ REGS('r', ALL_GENERAL_REGS)
-     }
+ REGS('v', ALL_VECTOR_REGS)
--    /*
+-REGS('A', 1u << TCG_REG_R3)
--     * BUG: when CONFIG_INT128 is not defined, the current implementation of
+-REGS('B', 1u << TCG_REG_R4)
--     * divu128 does not return a valid truncated quotient, so the result will
+-REGS('C', 1u << TCG_REG_R5)
--     * be wrong.
+-REGS('D', 1u << TCG_REG_R6)
 -     */
 +
      divu128(&lo, &hi, clk->period);
      return lo;
  }
 diff --git a/include/qemu/host-utils.h b/include/qemu/host-utils.h
 index XXXXXXX..XXXXXXX 100644
 --- a/include/qemu/host-utils.h
 +++ b/include/qemu/host-utils.h
@@ -XXX,XX +XXX,XX @@ static inline uint64_t muldiv64(uint64_t a, uint32_t b, uint32_t c)
      return (__int128_t)a * b / c;
  }
 -static inline void divu128(uint64_t *plow, uint64_t *phigh, uint64_t divisor)
 +static inline uint64_t divu128(uint64_t *plow, uint64_t *phigh,
 +                               uint64_t divisor)
  {
      __uint128_t dividend = ((__uint128_t)*phigh << 64) | *plow;
      __uint128_t result = dividend / divisor;
 +
      *plow = result;
 -    *phigh = dividend % divisor;
 +    *phigh = result >> 64;
 +    return dividend % divisor;
  }
 -static inline void divs128(int64_t *plow, int64_t *phigh, int64_t divisor)
 +static inline int64_t divs128(uint64_t *plow, int64_t *phigh,
 +                              int64_t divisor)
  {
 -    __int128_t dividend = ((__int128_t)*phigh << 64) | (uint64_t)*plow;
 +    __int128_t dividend = ((__int128_t)*phigh << 64) | *plow;
      __int128_t result = dividend / divisor;
 +
      *plow = result;
 -    *phigh = dividend % divisor;
 +    *phigh = result >> 64;
 +    return dividend % divisor;
  }
  #else
  void muls64(uint64_t *plow, uint64_t *phigh, int64_t a, int64_t b);
  void mulu64(uint64_t *plow, uint64_t *phigh, uint64_t a, uint64_t b);
 -void divu128(uint64_t *plow, uint64_t *phigh, uint64_t divisor);
 -void divs128(int64_t *plow, int64_t *phigh, int64_t divisor);
 +uint64_t divu128(uint64_t *plow, uint64_t *phigh, uint64_t divisor);
 +int64_t divs128(uint64_t *plow, int64_t *phigh, int64_t divisor);
  static inline uint64_t muldiv64(uint64_t a, uint32_t b, uint32_t c)
  {
 diff --git a/target/ppc/int_helper.c b/target/ppc/int_helper.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/ppc/int_helper.c
 +++ b/target/ppc/int_helper.c
@@ -XXX,XX +XXX,XX @@ uint64_t helper_divdeu(CPUPPCState *env, uint64_t ra, uint64_t rb, uint32_t oe)
  uint64_t helper_divde(CPUPPCState *env, uint64_t rau, uint64_t rbu, uint32_t oe)
  {
 -    int64_t rt = 0;
 +    uint64_t rt = 0;
      int64_t ra = (int64_t)rau;
      int64_t rb = (int64_t)rbu;
      int overflow = 0;
@@ -XXX,XX +XXX,XX @@ uint32_t helper_bcdcfsq(ppc_avr_t *r, ppc_avr_t *b, uint32_t ps)
      int cr;
      uint64_t lo_value;
      uint64_t hi_value;
 +    uint64_t rem;
      ppc_avr_t ret = { .u64 = { 0, 0 } };
      if (b->VsrSD(0) < 0) {
@@ -XXX,XX +XXX,XX @@ uint32_t helper_bcdcfsq(ppc_avr_t *r, ppc_avr_t *b, uint32_t ps)
           * In that case, we leave r unchanged.
           */
      } else {
 -        divu128(&lo_value, &hi_value, 1000000000000000ULL);
 +        rem = divu128(&lo_value, &hi_value, 1000000000000000ULL);
 -        for (i = 1; i < 16; hi_value /= 10, i++) {
 -            bcd_put_digit(&ret, hi_value % 10, i);
 +        for (i = 1; i < 16; rem /= 10, i++) {
 +            bcd_put_digit(&ret, rem % 10, i);
          }
          for (; i < 32; lo_value /= 10, i++) {
 diff --git a/util/host-utils.c b/util/host-utils.c
 index XXXXXXX..XXXXXXX 100644
 --- a/util/host-utils.c
 +++ b/util/host-utils.c
@@ -XXX,XX +XXX,XX @@ void muls64 (uint64_t *plow, uint64_t *phigh, int64_t a, int64_t b)
  }
  /*
-- * Unsigned 128-by-64 division. Returns quotient via plow and
+  * Define constraint letters for constants:
 - * remainder via phigh.
 - * The result must fit in 64 bits (plow) - otherwise, the result
 - * is undefined.
 - * This function will cause a division by zero if passed a zero divisor.
 + * Unsigned 128-by-64 division.
 + * Returns the remainder.
 + * Returns quotient via plow and phigh.
 + * Also returns the remainder via the function return value.
   */
 -void divu128(uint64_t *plow, uint64_t *phigh, uint64_t divisor)
 +uint64_t divu128(uint64_t *plow, uint64_t *phigh, uint64_t divisor)
  {
      uint64_t dhi = *phigh;
      uint64_t dlo = *plow;
 -    unsigned i;
 -    uint64_t carry = 0;
 +    uint64_t rem, dhighest;
 +    int sh;
      if (divisor == 0 || dhi == 0) {
          *plow  = dlo / divisor;
 -        *phigh = dlo % divisor;
 +        *phigh = 0;
 +        return dlo % divisor;
      } else {
 +        sh = clz64(divisor);
 -        for (i = 0; i < 64; i++) {
 -            carry = dhi >> 63;
 -            dhi = (dhi << 1) | (dlo >> 63);
 -            if (carry || (dhi >= divisor)) {
 -                dhi -= divisor;
 -                carry = 1;
 -            } else {
 -                carry = 0;
 +        if (dhi < divisor) {
 +            if (sh != 0) {
 +                /* normalize the divisor, shifting the dividend accordingly */
 +                divisor <<= sh;
 +                dhi = (dhi << sh) | (dlo >> (64 - sh));
 +                dlo <<= sh;
              }
 -            dlo = (dlo << 1) | carry;
 +
 +            *phigh = 0;
 +            *plow = udiv_qrnnd(&rem, dhi, dlo, divisor);
 +        } else {
 +            if (sh != 0) {
 +                /* normalize the divisor, shifting the dividend accordingly */
 +                divisor <<= sh;
 +                dhighest = dhi >> (64 - sh);
 +                dhi = (dhi << sh) | (dlo >> (64 - sh));
 +                dlo <<= sh;
 +
 +                *phigh = udiv_qrnnd(&dhi, dhighest, dhi, divisor);
 +            } else {
 +                /**
 +                 * dhi >= divisor
 +                 * Since the MSB of divisor is set (sh == 0),
 +                 * (dhi - divisor) < divisor
 +                 *
 +                 * Thus, the high part of the quotient is 1, and we can
 +                 * calculate the low part with a single call to udiv_qrnnd
 +                 * after subtracting divisor from dhi
 +                 */
 +                dhi -= divisor;
 +                *phigh = 1;
 +            }
 +
 +            *plow = udiv_qrnnd(&rem, dhi, dlo, divisor);
          }
 -        *plow = dlo;
 -        *phigh = dhi;
 +        /*
 +         * since the dividend/divisor might have been normalized,
 +         * the remainder might also have to be shifted back
 +         */
 +        return rem >> sh;
      }
  }
  /*
 - * Signed 128-by-64 division. Returns quotient via plow and
 - * remainder via phigh.
 - * The result must fit in 64 bits (plow) - otherwise, the result
 - * is undefined.
 - * This function will cause a division by zero if passed a zero divisor.
 + * Signed 128-by-64 division.
 + * Returns quotient via plow and phigh.
 + * Also returns the remainder via the function return value.
   */
 -void divs128(int64_t *plow, int64_t *phigh, int64_t divisor)
 +int64_t divs128(uint64_t *plow, int64_t *phigh, int64_t divisor)
  {
 -    int sgn_dvdnd = *phigh < 0;
 -    int sgn_divsr = divisor < 0;
 +    bool neg_quotient = false, neg_remainder = false;
 +    uint64_t unsig_hi = *phigh, unsig_lo = *plow;
 +    uint64_t rem;
 -    if (sgn_dvdnd) {
 -        *plow = ~(*plow);
 -        *phigh = ~(*phigh);
 -        if (*plow == (int64_t)-1) {
 +    if (*phigh < 0) {
 +        neg_quotient = !neg_quotient;
 +        neg_remainder = !neg_remainder;
 +
 +        if (unsig_lo == 0) {
 +            unsig_hi = -unsig_hi;
 +        } else {
 +            unsig_hi = ~unsig_hi;
 +            unsig_lo = -unsig_lo;
 +        }
 +    }
 +
 +    if (divisor < 0) {
 +        neg_quotient = !neg_quotient;
 +
 +        divisor = -divisor;
 +    }
 +
 +    rem = divu128(&unsig_lo, &unsig_hi, (uint64_t)divisor);
 +
 +    if (neg_quotient) {
 +        if (unsig_lo == 0) {
 +            *phigh = -unsig_hi;
              *plow = 0;
 -            (*phigh)++;
 -         } else {
 -            (*plow)++;
 -         }
 +        } else {
 +            *phigh = ~unsig_hi;
 +            *plow = -unsig_lo;
 +        }
 +    } else {
 +        *phigh = unsig_hi;
 +        *plow = unsig_lo;
      }
 -    if (sgn_divsr) {
 -        divisor = 0 - divisor;
 -    }
 -
 -    divu128((uint64_t *)plow, (uint64_t *)phigh, (uint64_t)divisor);
 -
 -    if (sgn_dvdnd  ^ sgn_divsr) {
 -        *plow = 0 - *plow;
 +    if (neg_remainder) {
 +        return -rem;
 +    } else {
 +        return rem;
      }
  }
  #endif
 --
-.25.1
+.34.1

-[PULL 33/56] tcg/optimize: Split out fold_dup, fold_dup2
+[PULL 37/53] tcg/ppc: Remove unused constraint J
-Reviewed-by: Luis Pires <luis.pires@eldorado.org.br>
+Never used since its introduction.
-Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
 Fixes: 3d582c6179c ("tcg-ppc64: Rearrange integer constant constraints")
 Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- tcg/optimize.c | 53 +++++++++++++++++++++++++++++---------------------
+ tcg/ppc/tcg-target-con-str.h | 1 -
-file changed, 31 insertions(+), 22 deletions(-)
+ tcg/ppc/tcg-target.c.inc     | 3 ---
 files changed, 4 deletions(-)
-diff --git a/tcg/optimize.c b/tcg/optimize.c
+diff --git a/tcg/ppc/tcg-target-con-str.h b/tcg/ppc/tcg-target-con-str.h
 index XXXXXXX..XXXXXXX 100644
---- a/tcg/optimize.c
+--- a/tcg/ppc/tcg-target-con-str.h
-+++ b/tcg/optimize.c
++++ b/tcg/ppc/tcg-target-con-str.h
-@@ -XXX,XX +XXX,XX @@ static bool fold_divide(OptContext *ctx, TCGOp *op)
+@@ -XXX,XX +XXX,XX @@ REGS('v', ALL_VECTOR_REGS)
-     return fold_const2(ctx, op);
+  * CONST(letter, TCG_CT_CONST_* bit set)
- }
+  */
+ CONST('I', TCG_CT_CONST_S16)
-+static bool fold_dup(OptContext *ctx, TCGOp *op)
+-CONST('J', TCG_CT_CONST_U16)
-+{
+ CONST('M', TCG_CT_CONST_MONE)
-+    if (arg_is_const(op->args[1])) {
+ CONST('T', TCG_CT_CONST_S32)
-+        uint64_t t = arg_info(op->args[1])->val;
+ CONST('U', TCG_CT_CONST_U32)
-+        t = dup_const(TCGOP_VECE(op), t);
+diff --git a/tcg/ppc/tcg-target.c.inc b/tcg/ppc/tcg-target.c.inc
-+        return tcg_opt_gen_movi(ctx, op, op->args[0], t);
+index XXXXXXX..XXXXXXX 100644
-+    }
+--- a/tcg/ppc/tcg-target.c.inc
-+    return false;
++++ b/tcg/ppc/tcg-target.c.inc
-+}
+@@ -XXX,XX +XXX,XX @@
-+
+ #define SZR  (TCG_TARGET_REG_BITS / 8)
-+static bool fold_dup2(OptContext *ctx, TCGOp *op)
-+{
+ #define TCG_CT_CONST_S16  0x100
-+    if (arg_is_const(op->args[1]) && arg_is_const(op->args[2])) {
+-#define TCG_CT_CONST_U16  0x200
-+        uint64_t t = deposit64(arg_info(op->args[1])->val, 32, 32,
+ #define TCG_CT_CONST_S32  0x400
-+                               arg_info(op->args[2])->val);
+ #define TCG_CT_CONST_U32  0x800
-+        return tcg_opt_gen_movi(ctx, op, op->args[0], t);
+ #define TCG_CT_CONST_ZERO 0x1000
-+    }
+@@ -XXX,XX +XXX,XX @@ static bool tcg_target_const_match(int64_t val, TCGType type, int ct)
-+
-+    if (args_are_copies(op->args[1], op->args[2])) {
+     if ((ct & TCG_CT_CONST_S16) && val == (int16_t)val) {
-+        op->opc = INDEX_op_dup_vec;
+         return 1;
-+        TCGOP_VECE(op) = MO_32;
+-    } else if ((ct & TCG_CT_CONST_U16) && val == (uint16_t)val) {
-+    }
+-        return 1;
-+    return false;
+     } else if ((ct & TCG_CT_CONST_S32) && val == (int32_t)val) {
-+}
+         return 1;
-+
+     } else if ((ct & TCG_CT_CONST_U32) && val == (uint32_t)val) {
  static bool fold_eqv(OptContext *ctx, TCGOp *op)
  {
      return fold_const2(ctx, op);
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
              done = tcg_opt_gen_mov(&ctx, op, op->args[0], op->args[1]);
              break;
 -        case INDEX_op_dup_vec:
 -            if (arg_is_const(op->args[1])) {
 -                tmp = arg_info(op->args[1])->val;
 -                tmp = dup_const(TCGOP_VECE(op), tmp);
 -                tcg_opt_gen_movi(&ctx, op, op->args[0], tmp);
 -                continue;
 -            }
 -            break;
 -
 -        case INDEX_op_dup2_vec:
 -            assert(TCG_TARGET_REG_BITS == 32);
 -            if (arg_is_const(op->args[1]) && arg_is_const(op->args[2])) {
 -                tcg_opt_gen_movi(&ctx, op, op->args[0],
 -                                 deposit64(arg_info(op->args[1])->val, 32, 32,
 -                                           arg_info(op->args[2])->val));
 -                continue;
 -            } else if (args_are_copies(op->args[1], op->args[2])) {
 -                op->opc = INDEX_op_dup_vec;
 -                TCGOP_VECE(op) = MO_32;
 -            }
 -            break;
 -
          default:
              break;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
          CASE_OP_32_64(divu):
              done = fold_divide(&ctx, op);
              break;
 +        case INDEX_op_dup_vec:
 +            done = fold_dup(&ctx, op);
 +            break;
 +        case INDEX_op_dup2_vec:
 +            done = fold_dup2(&ctx, op);
 +            break;
          CASE_OP_32_64(eqv):
              done = fold_eqv(&ctx, op);
              break;
 --
-.25.1
+.34.1

-[PULL 55/56] tcg/optimize: Propagate sign info for bit counting
+[PULL 38/53] tcg/riscv: Simplify constraints on qemu_ld/st
-The results are generally 6 bit unsigned values, though
+The softmmu tlb uses TCG_REG_TMP[0-2], not any of the normally available
-the count leading and trailing bits may produce any value
+registers.  Now that we handle overlap betwen inputs and helper arguments,
-for a zero input.
+we can allow any allocatable reg.
 Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
-Reviewed-by: Luis Pires <luis.pires@eldorado.org.br>
+Reviewed-by: Daniel Henrique Barboza <dbarboza@ventanamicro.com>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- tcg/optimize.c | 3 ++-
+ tcg/riscv/tcg-target-con-set.h |  2 --
-file changed, 2 insertions(+), 1 deletion(-)
+ tcg/riscv/tcg-target-con-str.h |  1 -
  tcg/riscv/tcg-target.c.inc     | 16 +++-------------
 files changed, 3 insertions(+), 16 deletions(-)
-diff --git a/tcg/optimize.c b/tcg/optimize.c
+diff --git a/tcg/riscv/tcg-target-con-set.h b/tcg/riscv/tcg-target-con-set.h
 index XXXXXXX..XXXXXXX 100644
---- a/tcg/optimize.c
+--- a/tcg/riscv/tcg-target-con-set.h
-+++ b/tcg/optimize.c
++++ b/tcg/riscv/tcg-target-con-set.h
-@@ -XXX,XX +XXX,XX @@ static bool fold_count_zeros(OptContext *ctx, TCGOp *op)
+@@ -XXX,XX +XXX,XX @@
-         g_assert_not_reached();
+  * tcg-target-con-str.h; the constraint combination is inclusive or.
-     }
+  */
-     ctx->z_mask = arg_info(op->args[2])->z_mask | z_mask;
+ C_O0_I1(r)
--
+-C_O0_I2(LZ, L)
-+    ctx->s_mask = smask_from_zmask(ctx->z_mask);
+ C_O0_I2(rZ, r)
-     return false;
+ C_O0_I2(rZ, rZ)
- }
+-C_O1_I1(r, L)
+ C_O1_I1(r, r)
-@@ -XXX,XX +XXX,XX @@ static bool fold_ctpop(OptContext *ctx, TCGOp *op)
+ C_O1_I2(r, r, ri)
  C_O1_I2(r, r, rI)
 diff --git a/tcg/riscv/tcg-target-con-str.h b/tcg/riscv/tcg-target-con-str.h
 index XXXXXXX..XXXXXXX 100644
 --- a/tcg/riscv/tcg-target-con-str.h
 +++ b/tcg/riscv/tcg-target-con-str.h
@@ -XXX,XX +XXX,XX @@
   * REGS(letter, register_mask)
   */
  REGS('r', ALL_GENERAL_REGS)
 -REGS('L', ALL_GENERAL_REGS & ~SOFTMMU_RESERVE_REGS)
  /*
   * Define constraint letters for constants:
 diff --git a/tcg/riscv/tcg-target.c.inc b/tcg/riscv/tcg-target.c.inc
 index XXXXXXX..XXXXXXX 100644
 --- a/tcg/riscv/tcg-target.c.inc
 +++ b/tcg/riscv/tcg-target.c.inc
@@ -XXX,XX +XXX,XX @@ static TCGReg tcg_target_call_oarg_reg(TCGCallReturnKind kind, int slot)
  #define TCG_CT_CONST_N12   0x400
  #define TCG_CT_CONST_M12   0x800
 -#define ALL_GENERAL_REGS      MAKE_64BIT_MASK(0, 32)
 -/*
 - * For softmmu, we need to avoid conflicts with the first 5
 - * argument registers to call the helper.  Some of these are
 - * also used for the tlb lookup.
 - */
 -#ifdef CONFIG_SOFTMMU
 -#define SOFTMMU_RESERVE_REGS  MAKE_64BIT_MASK(TCG_REG_A0, 5)
 -#else
 -#define SOFTMMU_RESERVE_REGS  0
 -#endif
 +#define ALL_GENERAL_REGS   MAKE_64BIT_MASK(0, 32)
  #define sextreg  sextract64
@@ -XXX,XX +XXX,XX @@ static TCGConstraintSetIndex tcg_target_op_def(TCGOpcode op)
      case INDEX_op_qemu_ld_i32:
      case INDEX_op_qemu_ld_i64:
 -        return C_O1_I1(r, L);
 +        return C_O1_I1(r, r);
      case INDEX_op_qemu_st_i32:
      case INDEX_op_qemu_st_i64:
 -        return C_O0_I2(LZ, L);
 +        return C_O0_I2(rZ, r);
      default:
          g_assert_not_reached();
-     }
-+    ctx->s_mask = smask_from_zmask(ctx->z_mask);
-     return false;
- }
 --
-.25.1
+.34.1

-[PULL 14/56] tcg/optimize: Drop nb_oargs, nb_iargs locals
+[PULL 39/53] tcg/s390x: Use ALGFR in constructing softmmu host address
-Rather than try to keep these up-to-date across folding,
+Rather than zero-extend the guest address into a register,
-re-read nb_oargs at the end, after re-reading the opcode.
+use an add instruction which zero-extends the second input.
 A couple of asserts need dropping, but that will take care
 of itself as we split the function further.
 Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
-Reviewed-by: Luis Pires <luis.pires@eldorado.org.br>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- tcg/optimize.c | 14 ++++----------
+ tcg/s390x/tcg-target.c.inc | 8 +++++---
-file changed, 4 insertions(+), 10 deletions(-)
+file changed, 5 insertions(+), 3 deletions(-)
-diff --git a/tcg/optimize.c b/tcg/optimize.c
+diff --git a/tcg/s390x/tcg-target.c.inc b/tcg/s390x/tcg-target.c.inc
 index XXXXXXX..XXXXXXX 100644
---- a/tcg/optimize.c
+--- a/tcg/s390x/tcg-target.c.inc
-+++ b/tcg/optimize.c
++++ b/tcg/s390x/tcg-target.c.inc
-@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
+@@ -XXX,XX +XXX,XX @@ typedef enum S390Opcode {
+     RRE_ALGR    = 0xb90a,
-     QTAILQ_FOREACH_SAFE(op, &s->ops, link, op_next) {
+     RRE_ALCR    = 0xb998,
-         uint64_t z_mask, partmask, affected, tmp;
+     RRE_ALCGR   = 0xb988,
--        int nb_oargs, nb_iargs;
++    RRE_ALGFR   = 0xb91a,
-         TCGOpcode opc = op->opc;
+     RRE_CGR     = 0xb920,
-         const TCGOpDef *def;
+     RRE_CLGR    = 0xb921,
+     RRE_DLGR    = 0xb987,
-@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
+@@ -XXX,XX +XXX,XX @@ static TCGLabelQemuLdst *prepare_host_addr(TCGContext *s, HostAddress *h,
-         }
+     tcg_out_insn(s, RXY, LG, h->index, TCG_REG_R2, TCG_REG_NONE,
+                  offsetof(CPUTLBEntry, addend));
-         def = &tcg_op_defs[opc];
--        nb_oargs = def->nb_oargs;
+-    h->base = addr_reg;
--        nb_iargs = def->nb_iargs;
+     if (TARGET_LONG_BITS == 32) {
--        init_arguments(&ctx, op, nb_oargs + nb_iargs);
+-        tcg_out_ext32u(s, TCG_REG_R3, addr_reg);
--        copy_propagate(&ctx, op, nb_oargs, nb_iargs);
+-        h->base = TCG_REG_R3;
-+        init_arguments(&ctx, op, def->nb_oargs + def->nb_iargs);
++        tcg_out_insn(s, RRE, ALGFR, h->index, addr_reg);
-+        copy_propagate(&ctx, op, def->nb_oargs, def->nb_iargs);
++        h->base = TCG_REG_NONE;
++    } else {
-         /* For commutative operations make constant second argument */
++        h->base = addr_reg;
-         switch (opc) {
+     }
-@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
+     h->disp = 0;
+ #else
          CASE_OP_32_64(qemu_ld):
              {
 -                MemOpIdx oi = op->args[nb_oargs + nb_iargs];
 +                MemOpIdx oi = op->args[def->nb_oargs + def->nb_iargs];
                  MemOp mop = get_memop(oi);
                  if (!(mop & MO_SIGN)) {
                      z_mask = (2ULL << ((8 << (mop & MO_SIZE)) - 1)) - 1;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
          }
          if (partmask == 0) {
 -            tcg_debug_assert(nb_oargs == 1);
              tcg_opt_gen_movi(&ctx, op, op->args[0], 0);
              continue;
          }
          if (affected == 0) {
 -            tcg_debug_assert(nb_oargs == 1);
              tcg_opt_gen_mov(&ctx, op, op->args[0], op->args[1]);
              continue;
          }
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
              } else if (args_are_copies(op->args[1], op->args[2])) {
                  op->opc = INDEX_op_dup_vec;
                  TCGOP_VECE(op) = MO_32;
 -                nb_iargs = 1;
              }
              break;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
                  op->opc = opc = (opc == INDEX_op_movcond_i32
                                   ? INDEX_op_setcond_i32
                                   : INDEX_op_setcond_i64);
 -                nb_iargs = 2;
              }
              break;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
          if (def->flags & TCG_OPF_BB_END) {
              memset(&ctx.temps_used, 0, sizeof(ctx.temps_used));
          } else {
 +            int nb_oargs = def->nb_oargs;
              for (i = 0; i < nb_oargs; i++) {
                  reset_temp(op->args[i]);
                  /* Save the corresponding known-zero bits mask for the
 --
-.25.1
+.34.1

-[PULL 06/56] tcg/optimize: Rename "mask" to "z_mask"
+[PULL 40/53] tcg/s390x: Simplify constraints on qemu_ld/st
-Prepare for tracking different masks by renaming this one.
+Adjust the softmmu tlb to use R0+R1, not any of the normally available
 registers.  Since we handle overlap betwen inputs and helper arguments,
 we can allow any allocatable reg.
 Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
-Reviewed-by: Luis Pires <luis.pires@eldorado.org.br>
-Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- tcg/optimize.c | 142 +++++++++++++++++++++++++------------------------
+ tcg/s390x/tcg-target-con-set.h |  2 --
-file changed, 72 insertions(+), 70 deletions(-)
+ tcg/s390x/tcg-target-con-str.h |  1 -
  tcg/s390x/tcg-target.c.inc     | 36 ++++++++++++----------------------
 files changed, 12 insertions(+), 27 deletions(-)
-diff --git a/tcg/optimize.c b/tcg/optimize.c
+diff --git a/tcg/s390x/tcg-target-con-set.h b/tcg/s390x/tcg-target-con-set.h
 index XXXXXXX..XXXXXXX 100644
---- a/tcg/optimize.c
+--- a/tcg/s390x/tcg-target-con-set.h
-+++ b/tcg/optimize.c
++++ b/tcg/s390x/tcg-target-con-set.h
-@@ -XXX,XX +XXX,XX @@ typedef struct TempOptInfo {
+@@ -XXX,XX +XXX,XX @@
-     TCGTemp *prev_copy;
+  * tcg-target-con-str.h; the constraint combination is inclusive or.
-     TCGTemp *next_copy;
+  */
-     uint64_t val;
+ C_O0_I1(r)
--    uint64_t mask;
+-C_O0_I2(L, L)
-+    uint64_t z_mask;  /* mask bit is 0 if and only if value bit is 0 */
+ C_O0_I2(r, r)
- } TempOptInfo;
+ C_O0_I2(r, ri)
+ C_O0_I2(r, rA)
- static inline TempOptInfo *ts_info(TCGTemp *ts)
+ C_O0_I2(v, r)
-@@ -XXX,XX +XXX,XX @@ static void reset_ts(TCGTemp *ts)
+-C_O1_I1(r, L)
-     ti->next_copy = ts;
+ C_O1_I1(r, r)
-     ti->prev_copy = ts;
+ C_O1_I1(v, r)
-     ti->is_const = false;
+ C_O1_I1(v, v)
--    ti->mask = -1;
+diff --git a/tcg/s390x/tcg-target-con-str.h b/tcg/s390x/tcg-target-con-str.h
-+    ti->z_mask = -1;
+index XXXXXXX..XXXXXXX 100644
- }
+--- a/tcg/s390x/tcg-target-con-str.h
++++ b/tcg/s390x/tcg-target-con-str.h
- static void reset_temp(TCGArg arg)
+@@ -XXX,XX +XXX,XX @@
-@@ -XXX,XX +XXX,XX @@ static void init_ts_info(TCGTempSet *temps_used, TCGTemp *ts)
+  * REGS(letter, register_mask)
-     if (ts->kind == TEMP_CONST) {
+  */
-         ti->is_const = true;
+ REGS('r', ALL_GENERAL_REGS)
-         ti->val = ts->val;
+-REGS('L', ALL_GENERAL_REGS & ~SOFTMMU_RESERVE_REGS)
--        ti->mask = ts->val;
+ REGS('v', ALL_VECTOR_REGS)
-+        ti->z_mask = ts->val;
+ REGS('o', 0xaaaa) /* odd numbered general regs */
-         if (TCG_TARGET_REG_BITS > 32 && ts->type == TCG_TYPE_I32) {
-             /* High bits of a 32-bit quantity are garbage.  */
+diff --git a/tcg/s390x/tcg-target.c.inc b/tcg/s390x/tcg-target.c.inc
--            ti->mask |= ~0xffffffffull;
+index XXXXXXX..XXXXXXX 100644
-+            ti->z_mask |= ~0xffffffffull;
+--- a/tcg/s390x/tcg-target.c.inc
-         }
++++ b/tcg/s390x/tcg-target.c.inc
@@ -XXX,XX +XXX,XX @@
  #define ALL_GENERAL_REGS     MAKE_64BIT_MASK(0, 16)
  #define ALL_VECTOR_REGS      MAKE_64BIT_MASK(32, 32)
 -/*
 - * For softmmu, we need to avoid conflicts with the first 3
 - * argument registers to perform the tlb lookup, and to call
 - * the helper function.
 - */
 -#ifdef CONFIG_SOFTMMU
 -#define SOFTMMU_RESERVE_REGS MAKE_64BIT_MASK(TCG_REG_R2, 3)
 -#else
 -#define SOFTMMU_RESERVE_REGS 0
 -#endif
 -
 -
  /* Several places within the instruction set 0 means "no register"
     rather than TCG_REG_R0.  */
  #define TCG_REG_NONE    0
@@ -XXX,XX +XXX,XX @@ static TCGLabelQemuLdst *prepare_host_addr(TCGContext *s, HostAddress *h,
      ldst->oi = oi;
      ldst->addrlo_reg = addr_reg;
 -    tcg_out_sh64(s, RSY_SRLG, TCG_REG_R2, addr_reg, TCG_REG_NONE,
 +    tcg_out_sh64(s, RSY_SRLG, TCG_TMP0, addr_reg, TCG_REG_NONE,
                   TARGET_PAGE_BITS - CPU_TLB_ENTRY_BITS);
      QEMU_BUILD_BUG_ON(TLB_MASK_TABLE_OFS(0) > 0);
      QEMU_BUILD_BUG_ON(TLB_MASK_TABLE_OFS(0) < -(1 << 19));
 -    tcg_out_insn(s, RXY, NG, TCG_REG_R2, TCG_AREG0, TCG_REG_NONE, mask_off);
 -    tcg_out_insn(s, RXY, AG, TCG_REG_R2, TCG_AREG0, TCG_REG_NONE, table_off);
 +    tcg_out_insn(s, RXY, NG, TCG_TMP0, TCG_AREG0, TCG_REG_NONE, mask_off);
 +    tcg_out_insn(s, RXY, AG, TCG_TMP0, TCG_AREG0, TCG_REG_NONE, table_off);
      /*
       * For aligned accesses, we check the first byte and include the alignment
@@ -XXX,XX +XXX,XX @@ static TCGLabelQemuLdst *prepare_host_addr(TCGContext *s, HostAddress *h,
      a_off = (a_bits >= s_bits ? 0 : s_mask - a_mask);
      tlb_mask = (uint64_t)TARGET_PAGE_MASK | a_mask;
      if (a_off == 0) {
 -        tgen_andi_risbg(s, TCG_REG_R3, addr_reg, tlb_mask);
 +        tgen_andi_risbg(s, TCG_REG_R0, addr_reg, tlb_mask);
      } else {
-         ti->is_const = false;
+-        tcg_out_insn(s, RX, LA, TCG_REG_R3, addr_reg, TCG_REG_NONE, a_off);
--        ti->mask = -1;
+-        tgen_andi(s, TCG_TYPE_TL, TCG_REG_R3, tlb_mask);
-+        ti->z_mask = -1;
++        tcg_out_insn(s, RX, LA, TCG_REG_R0, addr_reg, TCG_REG_NONE, a_off);
 +        tgen_andi(s, TCG_TYPE_TL, TCG_REG_R0, tlb_mask);
      }
- }
+     if (is_ld) {
-@@ -XXX,XX +XXX,XX @@ static void tcg_opt_gen_mov(TCGContext *s, TCGOp *op, TCGArg dst, TCGArg src)
+@@ -XXX,XX +XXX,XX @@ static TCGLabelQemuLdst *prepare_host_addr(TCGContext *s, HostAddress *h,
-     const TCGOpDef *def;
+         ofs = offsetof(CPUTLBEntry, addr_write);
      TempOptInfo *di;
      TempOptInfo *si;
 -    uint64_t mask;
 +    uint64_t z_mask;
      TCGOpcode new_op;
      if (ts_are_copies(dst_ts, src_ts)) {
@@ -XXX,XX +XXX,XX @@ static void tcg_opt_gen_mov(TCGContext *s, TCGOp *op, TCGArg dst, TCGArg src)
      op->args[0] = dst;
      op->args[1] = src;
 -    mask = si->mask;
 +    z_mask = si->z_mask;
      if (TCG_TARGET_REG_BITS > 32 && new_op == INDEX_op_mov_i32) {
          /* High bits of the destination are now garbage.  */
 -        mask |= ~0xffffffffull;
 +        z_mask |= ~0xffffffffull;
      }
--    di->mask = mask;
+     if (TARGET_LONG_BITS == 32) {
-+    di->z_mask = z_mask;
+-        tcg_out_insn(s, RX, C, TCG_REG_R3, TCG_REG_R2, TCG_REG_NONE, ofs);
++        tcg_out_insn(s, RX, C, TCG_REG_R0, TCG_TMP0, TCG_REG_NONE, ofs);
-     if (src_ts->type == dst_ts->type) {
+     } else {
-         TempOptInfo *ni = ts_info(si->next_copy);
+-        tcg_out_insn(s, RXY, CG, TCG_REG_R3, TCG_REG_R2, TCG_REG_NONE, ofs);
-@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
++        tcg_out_insn(s, RXY, CG, TCG_REG_R0, TCG_TMP0, TCG_REG_NONE, ofs);
      }
-     QTAILQ_FOREACH_SAFE(op, &s->ops, link, op_next) {
+     tcg_out16(s, RI_BRC | (S390_CC_NE << 4));
--        uint64_t mask, partmask, affected, tmp;
+     ldst->label_ptr[0] = s->code_ptr++;
-+        uint64_t z_mask, partmask, affected, tmp;
-         int nb_oargs, nb_iargs;
+-    h->index = TCG_REG_R2;
-         TCGOpcode opc = op->opc;
+-    tcg_out_insn(s, RXY, LG, h->index, TCG_REG_R2, TCG_REG_NONE,
-         const TCGOpDef *def = &tcg_op_defs[opc];
++    h->index = TCG_TMP0;
-@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
++    tcg_out_insn(s, RXY, LG, h->index, TCG_TMP0, TCG_REG_NONE,
+                  offsetof(CPUTLBEntry, addend));
-         /* Simplify using known-zero bits. Currently only ops with a single
-            output argument is supported. */
+     if (TARGET_LONG_BITS == 32) {
--        mask = -1;
+@@ -XXX,XX +XXX,XX @@ static TCGConstraintSetIndex tcg_target_op_def(TCGOpcode op)
-+        z_mask = -1;
-         affected = -1;
+     case INDEX_op_qemu_ld_i32:
-         switch (opc) {
+     case INDEX_op_qemu_ld_i64:
-         CASE_OP_32_64(ext8s):
+-        return C_O1_I1(r, L);
--            if ((arg_info(op->args[1])->mask & 0x80) != 0) {
++        return C_O1_I1(r, r);
-+            if ((arg_info(op->args[1])->z_mask & 0x80) != 0) {
+     case INDEX_op_qemu_st_i64:
-                 break;
+     case INDEX_op_qemu_st_i32:
-             }
+-        return C_O0_I2(L, L);
-             QEMU_FALLTHROUGH;
++        return C_O0_I2(r, r);
-         CASE_OP_32_64(ext8u):
--            mask = 0xff;
+     case INDEX_op_deposit_i32:
-+            z_mask = 0xff;
+     case INDEX_op_deposit_i64:
              goto and_const;
          CASE_OP_32_64(ext16s):
 -            if ((arg_info(op->args[1])->mask & 0x8000) != 0) {
 +            if ((arg_info(op->args[1])->z_mask & 0x8000) != 0) {
                  break;
              }
              QEMU_FALLTHROUGH;
          CASE_OP_32_64(ext16u):
 -            mask = 0xffff;
 +            z_mask = 0xffff;
              goto and_const;
          case INDEX_op_ext32s_i64:
 -            if ((arg_info(op->args[1])->mask & 0x80000000) != 0) {
 +            if ((arg_info(op->args[1])->z_mask & 0x80000000) != 0) {
                  break;
              }
              QEMU_FALLTHROUGH;
          case INDEX_op_ext32u_i64:
 -            mask = 0xffffffffU;
 +            z_mask = 0xffffffffU;
              goto and_const;
          CASE_OP_32_64(and):
 -            mask = arg_info(op->args[2])->mask;
 +            z_mask = arg_info(op->args[2])->z_mask;
              if (arg_is_const(op->args[2])) {
          and_const:
 -                affected = arg_info(op->args[1])->mask & ~mask;
 +                affected = arg_info(op->args[1])->z_mask & ~z_mask;
              }
 -            mask = arg_info(op->args[1])->mask & mask;
 +            z_mask = arg_info(op->args[1])->z_mask & z_mask;
              break;
          case INDEX_op_ext_i32_i64:
 -            if ((arg_info(op->args[1])->mask & 0x80000000) != 0) {
 +            if ((arg_info(op->args[1])->z_mask & 0x80000000) != 0) {
                  break;
              }
              QEMU_FALLTHROUGH;
          case INDEX_op_extu_i32_i64:
              /* We do not compute affected as it is a size changing op.  */
 -            mask = (uint32_t)arg_info(op->args[1])->mask;
 +            z_mask = (uint32_t)arg_info(op->args[1])->z_mask;
              break;
          CASE_OP_32_64(andc):
              /* Known-zeros does not imply known-ones.  Therefore unless
                 op->args[2] is constant, we can't infer anything from it.  */
              if (arg_is_const(op->args[2])) {
 -                mask = ~arg_info(op->args[2])->mask;
 +                z_mask = ~arg_info(op->args[2])->z_mask;
                  goto and_const;
              }
              /* But we certainly know nothing outside args[1] may be set. */
 -            mask = arg_info(op->args[1])->mask;
 +            z_mask = arg_info(op->args[1])->z_mask;
              break;
          case INDEX_op_sar_i32:
              if (arg_is_const(op->args[2])) {
                  tmp = arg_info(op->args[2])->val & 31;
 -                mask = (int32_t)arg_info(op->args[1])->mask >> tmp;
 +                z_mask = (int32_t)arg_info(op->args[1])->z_mask >> tmp;
              }
              break;
          case INDEX_op_sar_i64:
              if (arg_is_const(op->args[2])) {
                  tmp = arg_info(op->args[2])->val & 63;
 -                mask = (int64_t)arg_info(op->args[1])->mask >> tmp;
 +                z_mask = (int64_t)arg_info(op->args[1])->z_mask >> tmp;
              }
              break;
          case INDEX_op_shr_i32:
              if (arg_is_const(op->args[2])) {
                  tmp = arg_info(op->args[2])->val & 31;
 -                mask = (uint32_t)arg_info(op->args[1])->mask >> tmp;
 +                z_mask = (uint32_t)arg_info(op->args[1])->z_mask >> tmp;
              }
              break;
          case INDEX_op_shr_i64:
              if (arg_is_const(op->args[2])) {
                  tmp = arg_info(op->args[2])->val & 63;
 -                mask = (uint64_t)arg_info(op->args[1])->mask >> tmp;
 +                z_mask = (uint64_t)arg_info(op->args[1])->z_mask >> tmp;
              }
              break;
          case INDEX_op_extrl_i64_i32:
 -            mask = (uint32_t)arg_info(op->args[1])->mask;
 +            z_mask = (uint32_t)arg_info(op->args[1])->z_mask;
              break;
          case INDEX_op_extrh_i64_i32:
 -            mask = (uint64_t)arg_info(op->args[1])->mask >> 32;
 +            z_mask = (uint64_t)arg_info(op->args[1])->z_mask >> 32;
              break;
          CASE_OP_32_64(shl):
              if (arg_is_const(op->args[2])) {
                  tmp = arg_info(op->args[2])->val & (TCG_TARGET_REG_BITS - 1);
 -                mask = arg_info(op->args[1])->mask << tmp;
 +                z_mask = arg_info(op->args[1])->z_mask << tmp;
              }
              break;
          CASE_OP_32_64(neg):
              /* Set to 1 all bits to the left of the rightmost.  */
 -            mask = -(arg_info(op->args[1])->mask
 -                     & -arg_info(op->args[1])->mask);
 +            z_mask = -(arg_info(op->args[1])->z_mask
 +                       & -arg_info(op->args[1])->z_mask);
              break;
          CASE_OP_32_64(deposit):
 -            mask = deposit64(arg_info(op->args[1])->mask,
 -                             op->args[3], op->args[4],
 -                             arg_info(op->args[2])->mask);
 +            z_mask = deposit64(arg_info(op->args[1])->z_mask,
 +                               op->args[3], op->args[4],
 +                               arg_info(op->args[2])->z_mask);
              break;
          CASE_OP_32_64(extract):
 -            mask = extract64(arg_info(op->args[1])->mask,
 -                             op->args[2], op->args[3]);
 +            z_mask = extract64(arg_info(op->args[1])->z_mask,
 +                               op->args[2], op->args[3]);
              if (op->args[2] == 0) {
 -                affected = arg_info(op->args[1])->mask & ~mask;
 +                affected = arg_info(op->args[1])->z_mask & ~z_mask;
              }
              break;
          CASE_OP_32_64(sextract):
 -            mask = sextract64(arg_info(op->args[1])->mask,
 -                              op->args[2], op->args[3]);
 -            if (op->args[2] == 0 && (tcg_target_long)mask >= 0) {
 -                affected = arg_info(op->args[1])->mask & ~mask;
 +            z_mask = sextract64(arg_info(op->args[1])->z_mask,
 +                                op->args[2], op->args[3]);
 +            if (op->args[2] == 0 && (tcg_target_long)z_mask >= 0) {
 +                affected = arg_info(op->args[1])->z_mask & ~z_mask;
              }
              break;
          CASE_OP_32_64(or):
          CASE_OP_32_64(xor):
 -            mask = arg_info(op->args[1])->mask | arg_info(op->args[2])->mask;
 +            z_mask = arg_info(op->args[1])->z_mask
 +                   | arg_info(op->args[2])->z_mask;
              break;
          case INDEX_op_clz_i32:
          case INDEX_op_ctz_i32:
 -            mask = arg_info(op->args[2])->mask | 31;
 +            z_mask = arg_info(op->args[2])->z_mask | 31;
              break;
          case INDEX_op_clz_i64:
          case INDEX_op_ctz_i64:
 -            mask = arg_info(op->args[2])->mask | 63;
 +            z_mask = arg_info(op->args[2])->z_mask | 63;
              break;
          case INDEX_op_ctpop_i32:
 -            mask = 32 | 31;
 +            z_mask = 32 | 31;
              break;
          case INDEX_op_ctpop_i64:
 -            mask = 64 | 63;
 +            z_mask = 64 | 63;
              break;
          CASE_OP_32_64(setcond):
          case INDEX_op_setcond2_i32:
 -            mask = 1;
 +            z_mask = 1;
              break;
          CASE_OP_32_64(movcond):
 -            mask = arg_info(op->args[3])->mask | arg_info(op->args[4])->mask;
 +            z_mask = arg_info(op->args[3])->z_mask
 +                   | arg_info(op->args[4])->z_mask;
              break;
          CASE_OP_32_64(ld8u):
 -            mask = 0xff;
 +            z_mask = 0xff;
              break;
          CASE_OP_32_64(ld16u):
 -            mask = 0xffff;
 +            z_mask = 0xffff;
              break;
          case INDEX_op_ld32u_i64:
 -            mask = 0xffffffffu;
 +            z_mask = 0xffffffffu;
              break;
          CASE_OP_32_64(qemu_ld):
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
                  MemOpIdx oi = op->args[nb_oargs + nb_iargs];
                  MemOp mop = get_memop(oi);
                  if (!(mop & MO_SIGN)) {
 -                    mask = (2ULL << ((8 << (mop & MO_SIZE)) - 1)) - 1;
 +                    z_mask = (2ULL << ((8 << (mop & MO_SIZE)) - 1)) - 1;
                  }
              }
              break;
          CASE_OP_32_64(bswap16):
 -            mask = arg_info(op->args[1])->mask;
 -            if (mask <= 0xffff) {
 +            z_mask = arg_info(op->args[1])->z_mask;
 +            if (z_mask <= 0xffff) {
                  op->args[2] |= TCG_BSWAP_IZ;
              }
 -            mask = bswap16(mask);
 +            z_mask = bswap16(z_mask);
              switch (op->args[2] & (TCG_BSWAP_OZ | TCG_BSWAP_OS)) {
              case TCG_BSWAP_OZ:
                  break;
              case TCG_BSWAP_OS:
 -                mask = (int16_t)mask;
 +                z_mask = (int16_t)z_mask;
                  break;
              default: /* undefined high bits */
 -                mask |= MAKE_64BIT_MASK(16, 48);
 +                z_mask |= MAKE_64BIT_MASK(16, 48);
                  break;
              }
              break;
          case INDEX_op_bswap32_i64:
 -            mask = arg_info(op->args[1])->mask;
 -            if (mask <= 0xffffffffu) {
 +            z_mask = arg_info(op->args[1])->z_mask;
 +            if (z_mask <= 0xffffffffu) {
                  op->args[2] |= TCG_BSWAP_IZ;
              }
 -            mask = bswap32(mask);
 +            z_mask = bswap32(z_mask);
              switch (op->args[2] & (TCG_BSWAP_OZ | TCG_BSWAP_OS)) {
              case TCG_BSWAP_OZ:
                  break;
              case TCG_BSWAP_OS:
 -                mask = (int32_t)mask;
 +                z_mask = (int32_t)z_mask;
                  break;
              default: /* undefined high bits */
 -                mask |= MAKE_64BIT_MASK(32, 32);
 +                z_mask |= MAKE_64BIT_MASK(32, 32);
                  break;
              }
              break;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
          /* 32-bit ops generate 32-bit results.  For the result is zero test
             below, we can ignore high bits, but for further optimizations we
             need to record that the high bits contain garbage.  */
 -        partmask = mask;
 +        partmask = z_mask;
          if (!(def->flags & TCG_OPF_64BIT)) {
 -            mask |= ~(tcg_target_ulong)0xffffffffu;
 +            z_mask |= ~(tcg_target_ulong)0xffffffffu;
              partmask &= 0xffffffffu;
              affected &= 0xffffffffu;
          }
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
                     vs the high word of the input.  */
              do_setcond_high:
                  reset_temp(op->args[0]);
 -                arg_info(op->args[0])->mask = 1;
 +                arg_info(op->args[0])->z_mask = 1;
                  op->opc = INDEX_op_setcond_i32;
                  op->args[1] = op->args[2];
                  op->args[2] = op->args[4];
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
                  }
              do_setcond_low:
                  reset_temp(op->args[0]);
 -                arg_info(op->args[0])->mask = 1;
 +                arg_info(op->args[0])->z_mask = 1;
                  op->opc = INDEX_op_setcond_i32;
                  op->args[2] = op->args[3];
                  op->args[3] = op->args[5];
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
              /* Default case: we know nothing about operation (or were unable
                 to compute the operation result) so no propagation is done.
                 We trash everything if the operation is the end of a basic
 -               block, otherwise we only trash the output args.  "mask" is
 +               block, otherwise we only trash the output args.  "z_mask" is
                 the non-zero bits mask for the first output arg.  */
              if (def->flags & TCG_OPF_BB_END) {
                  memset(&temps_used, 0, sizeof(temps_used));
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
                      /* Save the corresponding known-zero bits mask for the
                         first output argument (only one supported so far). */
                      if (i == 0) {
 -                        arg_info(op->args[i])->mask = mask;
 +                        arg_info(op->args[i])->z_mask = z_mask;
                      }
                  }
              }
 --
-.25.1
+.34.1

-[PULL 32/56] tcg/optimize: Split out fold_bswap
+[PULL 41/53] target/mips: Add MO_ALIGN to gen_llwp, gen_scwp
-Reviewed-by: Luis Pires <luis.pires@eldorado.org.br>
+These are atomic operations, so mark as requiring alignment.
-Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- tcg/optimize.c | 27 ++++++++++++++++-----------
+ target/mips/tcg/nanomips_translate.c.inc | 5 +++--
-file changed, 16 insertions(+), 11 deletions(-)
+file changed, 3 insertions(+), 2 deletions(-)
-diff --git a/tcg/optimize.c b/tcg/optimize.c
+diff --git a/target/mips/tcg/nanomips_translate.c.inc b/target/mips/tcg/nanomips_translate.c.inc
 index XXXXXXX..XXXXXXX 100644
---- a/tcg/optimize.c
+--- a/target/mips/tcg/nanomips_translate.c.inc
-+++ b/tcg/optimize.c
++++ b/target/mips/tcg/nanomips_translate.c.inc
-@@ -XXX,XX +XXX,XX @@ static bool fold_brcond2(OptContext *ctx, TCGOp *op)
+@@ -XXX,XX +XXX,XX @@ static void gen_llwp(DisasContext *ctx, uint32_t base, int16_t offset,
-     return false;
+     TCGv tmp2 = tcg_temp_new();
- }
+     gen_base_offset_addr(ctx, taddr, base, offset);
-+static bool fold_bswap(OptContext *ctx, TCGOp *op)
+-    tcg_gen_qemu_ld_i64(tval, taddr, ctx->mem_idx, MO_TEUQ);
-+{
++    tcg_gen_qemu_ld_i64(tval, taddr, ctx->mem_idx, MO_TEUQ | MO_ALIGN);
-+    if (arg_is_const(op->args[1])) {
+     if (cpu_is_bigendian(ctx)) {
-+        uint64_t t = arg_info(op->args[1])->val;
+         tcg_gen_extr_i64_tl(tmp2, tmp1, tval);
-+
+     } else {
-+        t = do_constant_folding(op->opc, t, op->args[2]);
+@@ -XXX,XX +XXX,XX @@ static void gen_scwp(DisasContext *ctx, uint32_t base, int16_t offset,
-+        return tcg_opt_gen_movi(ctx, op, op->args[0], t);
-+    }
+     tcg_gen_ld_i64(llval, cpu_env, offsetof(CPUMIPSState, llval_wp));
-+    return false;
+     tcg_gen_atomic_cmpxchg_i64(val, taddr, llval, tval,
-+}
+-                               eva ? MIPS_HFLAG_UM : ctx->mem_idx, MO_64);
-+
++                               eva ? MIPS_HFLAG_UM : ctx->mem_idx,
- static bool fold_call(OptContext *ctx, TCGOp *op)
++                               MO_64 | MO_ALIGN);
- {
+     if (reg1 != 0) {
-     TCGContext *s = ctx->tcg;
+         tcg_gen_movi_tl(cpu_gpr[reg1], 1);
-@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
+     }
              }
              break;
 -        CASE_OP_32_64(bswap16):
 -        CASE_OP_32_64(bswap32):
 -        case INDEX_op_bswap64_i64:
 -            if (arg_is_const(op->args[1])) {
 -                tmp = do_constant_folding(opc, arg_info(op->args[1])->val,
 -                                          op->args[2]);
 -                tcg_opt_gen_movi(&ctx, op, op->args[0], tmp);
 -                continue;
 -            }
 -            break;
 -
          default:
              break;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
          case INDEX_op_brcond2_i32:
              done = fold_brcond2(&ctx, op);
              break;
 +        CASE_OP_32_64(bswap16):
 +        CASE_OP_32_64(bswap32):
 +        case INDEX_op_bswap64_i64:
 +            done = fold_bswap(&ctx, op);
 +            break;
          CASE_OP_32_64(clz):
          CASE_OP_32_64(ctz):
              done = fold_count_zeros(&ctx, op);
 --
-.25.1
+.34.1

-[PULL 02/56] host-utils: move checks out of divu128/divs128
+[PULL 42/53] target/mips: Add missing default_tcg_memop_mask
-From: Luis Pires <luis.pires@eldorado.org.br>
+Memory operations that are not already aligned, or otherwise
 marked up, require addition of ctx->default_tcg_memop_mask.
-In preparation for changing the divu128/divs128 implementations
-to allow for quotients larger than 64 bits, move the div-by-zero
-and overflow checks to the callers.
-Signed-off-by: Luis Pires <luis.pires@eldorado.org.br>
-Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
-Message-Id: <20211025191154.350831-2-luis.pires@eldorado.org.br>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- include/hw/clock.h        |  5 +++--
+ target/mips/tcg/mxu_translate.c           |  3 ++-
- include/qemu/host-utils.h | 34 ++++++++++++---------------------
+ target/mips/tcg/micromips_translate.c.inc | 24 ++++++++++++++--------
- target/ppc/int_helper.c   | 14 +++++++++-----
+ target/mips/tcg/mips16e_translate.c.inc   | 18 ++++++++++------
- util/host-utils.c         | 40 ++++++++++++++++++---------------------
+ target/mips/tcg/nanomips_translate.c.inc  | 25 +++++++++++------------
-files changed, 42 insertions(+), 51 deletions(-)
+files changed, 42 insertions(+), 28 deletions(-)
-diff --git a/include/hw/clock.h b/include/hw/clock.h
+diff --git a/target/mips/tcg/mxu_translate.c b/target/mips/tcg/mxu_translate.c
 index XXXXXXX..XXXXXXX 100644
---- a/include/hw/clock.h
+--- a/target/mips/tcg/mxu_translate.c
-+++ b/include/hw/clock.h
++++ b/target/mips/tcg/mxu_translate.c
-@@ -XXX,XX +XXX,XX @@ static inline uint64_t clock_ns_to_ticks(const Clock *clk, uint64_t ns)
+@@ -XXX,XX +XXX,XX @@ static void gen_mxu_s32ldd_s32lddr(DisasContext *ctx)
-         return 0;
+         tcg_gen_ori_tl(t1, t1, 0xFFFFF000);
      }
-     /*
+     tcg_gen_add_tl(t1, t0, t1);
--     * Ignore divu128() return value as we've caught div-by-zero and don't
+-    tcg_gen_qemu_ld_tl(t1, t1, ctx->mem_idx, MO_TESL ^ (sel * MO_BSWAP));
--     * need different behaviour for overflow.
++    tcg_gen_qemu_ld_tl(t1, t1, ctx->mem_idx, (MO_TESL ^ (sel * MO_BSWAP)) |
-+     * BUG: when CONFIG_INT128 is not defined, the current implementation of
++                       ctx->default_tcg_memop_mask);
-+     * divu128 does not return a valid truncated quotient, so the result will
-+     * be wrong.
+     gen_store_mxu_gpr(t1, XRa);
       */
      divu128(&lo, &hi, clk->period);
      return lo;
 diff --git a/include/qemu/host-utils.h b/include/qemu/host-utils.h
 index XXXXXXX..XXXXXXX 100644
 --- a/include/qemu/host-utils.h
 +++ b/include/qemu/host-utils.h
@@ -XXX,XX +XXX,XX @@ static inline uint64_t muldiv64(uint64_t a, uint32_t b, uint32_t c)
      return (__int128_t)a * b / c;
  }
+diff --git a/target/mips/tcg/micromips_translate.c.inc b/target/mips/tcg/micromips_translate.c.inc
--static inline int divu128(uint64_t *plow, uint64_t *phigh, uint64_t divisor)
+index XXXXXXX..XXXXXXX 100644
-+static inline void divu128(uint64_t *plow, uint64_t *phigh, uint64_t divisor)
+--- a/target/mips/tcg/micromips_translate.c.inc
- {
++++ b/target/mips/tcg/micromips_translate.c.inc
--    if (divisor == 0) {
+@@ -XXX,XX +XXX,XX @@ static void gen_ldst_pair(DisasContext *ctx, uint32_t opc, int rd,
--        return 1;
+             gen_reserved_instruction(ctx);
--    } else {
+             return;
--        __uint128_t dividend = ((__uint128_t)*phigh << 64) | *plow;
+         }
--        __uint128_t result = dividend / divisor;
+-        tcg_gen_qemu_ld_tl(t1, t0, ctx->mem_idx, MO_TESL);
--        *plow = result;
++        tcg_gen_qemu_ld_tl(t1, t0, ctx->mem_idx, MO_TESL |
--        *phigh = dividend % divisor;
++                           ctx->default_tcg_memop_mask);
--        return result > UINT64_MAX;
+         gen_store_gpr(t1, rd);
--    }
+         tcg_gen_movi_tl(t1, 4);
-+    __uint128_t dividend = ((__uint128_t)*phigh << 64) | *plow;
+         gen_op_addr_add(ctx, t0, t0, t1);
-+    __uint128_t result = dividend / divisor;
+-        tcg_gen_qemu_ld_tl(t1, t0, ctx->mem_idx, MO_TESL);
-+    *plow = result;
++        tcg_gen_qemu_ld_tl(t1, t0, ctx->mem_idx, MO_TESL |
-+    *phigh = dividend % divisor;
++                           ctx->default_tcg_memop_mask);
- }
+         gen_store_gpr(t1, rd + 1);
+         break;
--static inline int divs128(int64_t *plow, int64_t *phigh, int64_t divisor)
+     case SWP:
-+static inline void divs128(int64_t *plow, int64_t *phigh, int64_t divisor)
+         gen_load_gpr(t1, rd);
- {
+-        tcg_gen_qemu_st_tl(t1, t0, ctx->mem_idx, MO_TEUL);
--    if (divisor == 0) {
++        tcg_gen_qemu_st_tl(t1, t0, ctx->mem_idx, MO_TEUL |
--        return 1;
++                           ctx->default_tcg_memop_mask);
--    } else {
+         tcg_gen_movi_tl(t1, 4);
--        __int128_t dividend = ((__int128_t)*phigh << 64) | (uint64_t)*plow;
+         gen_op_addr_add(ctx, t0, t0, t1);
--        __int128_t result = dividend / divisor;
+         gen_load_gpr(t1, rd + 1);
--        *plow = result;
+-        tcg_gen_qemu_st_tl(t1, t0, ctx->mem_idx, MO_TEUL);
--        *phigh = dividend % divisor;
++        tcg_gen_qemu_st_tl(t1, t0, ctx->mem_idx, MO_TEUL |
--        return result != *plow;
++                           ctx->default_tcg_memop_mask);
--    }
+         break;
-+    __int128_t dividend = ((__int128_t)*phigh << 64) | (uint64_t)*plow;
+ #ifdef TARGET_MIPS64
-+    __int128_t result = dividend / divisor;
+     case LDP:
-+    *plow = result;
+@@ -XXX,XX +XXX,XX @@ static void gen_ldst_pair(DisasContext *ctx, uint32_t opc, int rd,
-+    *phigh = dividend % divisor;
+             gen_reserved_instruction(ctx);
- }
+             return;
- #else
+         }
- void muls64(uint64_t *plow, uint64_t *phigh, int64_t a, int64_t b);
+-        tcg_gen_qemu_ld_tl(t1, t0, ctx->mem_idx, MO_TEUQ);
- void mulu64(uint64_t *plow, uint64_t *phigh, uint64_t a, uint64_t b);
++        tcg_gen_qemu_ld_tl(t1, t0, ctx->mem_idx, MO_TEUQ |
--int divu128(uint64_t *plow, uint64_t *phigh, uint64_t divisor);
++                           ctx->default_tcg_memop_mask);
--int divs128(int64_t *plow, int64_t *phigh, int64_t divisor);
+         gen_store_gpr(t1, rd);
-+void divu128(uint64_t *plow, uint64_t *phigh, uint64_t divisor);
+         tcg_gen_movi_tl(t1, 8);
-+void divs128(int64_t *plow, int64_t *phigh, int64_t divisor);
+         gen_op_addr_add(ctx, t0, t0, t1);
+-        tcg_gen_qemu_ld_tl(t1, t0, ctx->mem_idx, MO_TEUQ);
- static inline uint64_t muldiv64(uint64_t a, uint32_t b, uint32_t c)
++        tcg_gen_qemu_ld_tl(t1, t0, ctx->mem_idx, MO_TEUQ |
- {
++                           ctx->default_tcg_memop_mask);
-diff --git a/target/ppc/int_helper.c b/target/ppc/int_helper.c
+         gen_store_gpr(t1, rd + 1);
-index XXXXXXX..XXXXXXX 100644
+         break;
---- a/target/ppc/int_helper.c
+     case SDP:
-+++ b/target/ppc/int_helper.c
+         gen_load_gpr(t1, rd);
-@@ -XXX,XX +XXX,XX @@ uint64_t helper_divdeu(CPUPPCState *env, uint64_t ra, uint64_t rb, uint32_t oe)
+-        tcg_gen_qemu_st_tl(t1, t0, ctx->mem_idx, MO_TEUQ);
-     uint64_t rt = 0;
++        tcg_gen_qemu_st_tl(t1, t0, ctx->mem_idx, MO_TEUQ |
-     int overflow = 0;
++                           ctx->default_tcg_memop_mask);
+         tcg_gen_movi_tl(t1, 8);
--    overflow = divu128(&rt, &ra, rb);
+         gen_op_addr_add(ctx, t0, t0, t1);
--
+         gen_load_gpr(t1, rd + 1);
--    if (unlikely(overflow)) {
+-        tcg_gen_qemu_st_tl(t1, t0, ctx->mem_idx, MO_TEUQ);
-+    if (unlikely(rb == 0 || ra >= rb)) {
++        tcg_gen_qemu_st_tl(t1, t0, ctx->mem_idx, MO_TEUQ |
-+        overflow = 1;
++                           ctx->default_tcg_memop_mask);
-         rt = 0; /* Undefined */
+         break;
-+    } else {
+ #endif
 +        divu128(&rt, &ra, rb);
      }
+diff --git a/target/mips/tcg/mips16e_translate.c.inc b/target/mips/tcg/mips16e_translate.c.inc
-     if (oe) {
+index XXXXXXX..XXXXXXX 100644
-@@ -XXX,XX +XXX,XX @@ uint64_t helper_divde(CPUPPCState *env, uint64_t rau, uint64_t rbu, uint32_t oe)
+--- a/target/mips/tcg/mips16e_translate.c.inc
-     int64_t rt = 0;
++++ b/target/mips/tcg/mips16e_translate.c.inc
-     int64_t ra = (int64_t)rau;
+@@ -XXX,XX +XXX,XX @@ static void gen_mips16_save(DisasContext *ctx,
-     int64_t rb = (int64_t)rbu;
+     case 4:
--    int overflow = divs128(&rt, &ra, rb);
+         gen_base_offset_addr(ctx, t0, 29, 12);
-+    int overflow = 0;
+         gen_load_gpr(t1, 7);
+-        tcg_gen_qemu_st_tl(t1, t0, ctx->mem_idx, MO_TEUL);
--    if (unlikely(overflow)) {
++        tcg_gen_qemu_st_tl(t1, t0, ctx->mem_idx, MO_TEUL |
-+    if (unlikely(rb == 0 || uabs64(ra) >= uabs64(rb))) {
++                           ctx->default_tcg_memop_mask);
-+        overflow = 1;
+         /* Fall through */
-         rt = 0; /* Undefined */
+     case 3:
-+    } else {
+         gen_base_offset_addr(ctx, t0, 29, 8);
-+        divs128(&rt, &ra, rb);
+         gen_load_gpr(t1, 6);
 -        tcg_gen_qemu_st_tl(t1, t0, ctx->mem_idx, MO_TEUL);
 +        tcg_gen_qemu_st_tl(t1, t0, ctx->mem_idx, MO_TEUL |
 +                           ctx->default_tcg_memop_mask);
          /* Fall through */
      case 2:
          gen_base_offset_addr(ctx, t0, 29, 4);
          gen_load_gpr(t1, 5);
 -        tcg_gen_qemu_st_tl(t1, t0, ctx->mem_idx, MO_TEUL);
 +        tcg_gen_qemu_st_tl(t1, t0, ctx->mem_idx, MO_TEUL |
 +                           ctx->default_tcg_memop_mask);
          /* Fall through */
      case 1:
          gen_base_offset_addr(ctx, t0, 29, 0);
          gen_load_gpr(t1, 4);
 -        tcg_gen_qemu_st_tl(t1, t0, ctx->mem_idx, MO_TEUL);
 +        tcg_gen_qemu_st_tl(t1, t0, ctx->mem_idx, MO_TEUL |
 +                           ctx->default_tcg_memop_mask);
      }
-     if (oe) {
+     gen_load_gpr(t0, 29);
-diff --git a/util/host-utils.c b/util/host-utils.c
+@@ -XXX,XX +XXX,XX @@ static void gen_mips16_save(DisasContext *ctx,
-index XXXXXXX..XXXXXXX 100644
+         tcg_gen_movi_tl(t2, -4);                                 \
---- a/util/host-utils.c
+         gen_op_addr_add(ctx, t0, t0, t2);                        \
-+++ b/util/host-utils.c
+         gen_load_gpr(t1, reg);                                   \
-@@ -XXX,XX +XXX,XX @@ void muls64 (uint64_t *plow, uint64_t *phigh, int64_t a, int64_t b)
+-        tcg_gen_qemu_st_tl(t1, t0, ctx->mem_idx, MO_TEUL); \
-     *phigh = rh;
++        tcg_gen_qemu_st_tl(t1, t0, ctx->mem_idx, MO_TEUL |       \
- }
++                           ctx->default_tcg_memop_mask);         \
+     } while (0)
--/* Unsigned 128x64 division.  Returns 1 if overflow (divide by zero or */
--/* quotient exceeds 64 bits).  Otherwise returns quotient via plow and */
+     if (do_ra) {
--/* remainder via phigh. */
+@@ -XXX,XX +XXX,XX @@ static void gen_mips16_restore(DisasContext *ctx,
--int divu128(uint64_t *plow, uint64_t *phigh, uint64_t divisor)
+ #define DECR_AND_LOAD(reg) do {                            \
-+/*
+         tcg_gen_movi_tl(t2, -4);                           \
-+ * Unsigned 128-by-64 division. Returns quotient via plow and
+         gen_op_addr_add(ctx, t0, t0, t2);                  \
-+ * remainder via phigh.
+-        tcg_gen_qemu_ld_tl(t1, t0, ctx->mem_idx, MO_TESL); \
-+ * The result must fit in 64 bits (plow) - otherwise, the result
++        tcg_gen_qemu_ld_tl(t1, t0, ctx->mem_idx, MO_TESL | \
-+ * is undefined.
++                           ctx->default_tcg_memop_mask);   \
-+ * This function will cause a division by zero if passed a zero divisor.
+         gen_store_gpr(t1, reg);                            \
-+ */
+     } while (0)
-+void divu128(uint64_t *plow, uint64_t *phigh, uint64_t divisor)
- {
+diff --git a/target/mips/tcg/nanomips_translate.c.inc b/target/mips/tcg/nanomips_translate.c.inc
-     uint64_t dhi = *phigh;
+index XXXXXXX..XXXXXXX 100644
-     uint64_t dlo = *plow;
+--- a/target/mips/tcg/nanomips_translate.c.inc
-     unsigned i;
++++ b/target/mips/tcg/nanomips_translate.c.inc
-     uint64_t carry = 0;
+@@ -XXX,XX +XXX,XX @@ static void gen_p_lsx(DisasContext *ctx, int rd, int rs, int rt)
--    if (divisor == 0) {
+     switch (extract32(ctx->opcode, 7, 4)) {
--        return 1;
+     case NM_LBX:
--    } else if (dhi == 0) {
+-        tcg_gen_qemu_ld_tl(t0, t0, ctx->mem_idx,
-+    if (divisor == 0 || dhi == 0) {
+-                           MO_SB);
-         *plow  = dlo / divisor;
++        tcg_gen_qemu_ld_tl(t0, t0, ctx->mem_idx, MO_SB);
-         *phigh = dlo % divisor;
+         gen_store_gpr(t0, rd);
--        return 0;
+         break;
--    } else if (dhi >= divisor) {
+     case NM_LHX:
--        return 1;
+     /*case NM_LHXS:*/
-     } else {
+         tcg_gen_qemu_ld_tl(t0, t0, ctx->mem_idx,
+-                           MO_TESW);
-         for (i = 0; i < 64; i++) {
++                           MO_TESW | ctx->default_tcg_memop_mask);
-@@ -XXX,XX +XXX,XX @@ int divu128(uint64_t *plow, uint64_t *phigh, uint64_t divisor)
+         gen_store_gpr(t0, rd);
+         break;
-         *plow = dlo;
+     case NM_LWX:
-         *phigh = dhi;
+     /*case NM_LWXS:*/
--        return 0;
+         tcg_gen_qemu_ld_tl(t0, t0, ctx->mem_idx,
-     }
+-                           MO_TESL);
- }
++                           MO_TESL | ctx->default_tcg_memop_mask);
+         gen_store_gpr(t0, rd);
--int divs128(int64_t *plow, int64_t *phigh, int64_t divisor)
+         break;
-+/*
+     case NM_LBUX:
-+ * Signed 128-by-64 division. Returns quotient via plow and
+-        tcg_gen_qemu_ld_tl(t0, t0, ctx->mem_idx,
-+ * remainder via phigh.
+-                           MO_UB);
-+ * The result must fit in 64 bits (plow) - otherwise, the result
++        tcg_gen_qemu_ld_tl(t0, t0, ctx->mem_idx, MO_UB);
-+ * is undefined.
+         gen_store_gpr(t0, rd);
-+ * This function will cause a division by zero if passed a zero divisor.
+         break;
-+ */
+     case NM_LHUX:
-+void divs128(int64_t *plow, int64_t *phigh, int64_t divisor)
+     /*case NM_LHUXS:*/
- {
+         tcg_gen_qemu_ld_tl(t0, t0, ctx->mem_idx,
-     int sgn_dvdnd = *phigh < 0;
+-                           MO_TEUW);
-     int sgn_divsr = divisor < 0;
++                           MO_TEUW | ctx->default_tcg_memop_mask);
--    int overflow = 0;
+         gen_store_gpr(t0, rd);
+         break;
-     if (sgn_dvdnd) {
+     case NM_SBX:
-         *plow = ~(*plow);
+         check_nms(ctx);
-@@ -XXX,XX +XXX,XX @@ int divs128(int64_t *plow, int64_t *phigh, int64_t divisor)
+         gen_load_gpr(t1, rd);
-         divisor = 0 - divisor;
+-        tcg_gen_qemu_st_tl(t1, t0, ctx->mem_idx,
-     }
+-                           MO_8);
++        tcg_gen_qemu_st_tl(t1, t0, ctx->mem_idx, MO_8);
--    overflow = divu128((uint64_t *)plow, (uint64_t *)phigh, (uint64_t)divisor);
+         break;
-+    divu128((uint64_t *)plow, (uint64_t *)phigh, (uint64_t)divisor);
+     case NM_SHX:
+     /*case NM_SHXS:*/
-     if (sgn_dvdnd  ^ sgn_divsr) {
+         check_nms(ctx);
-         *plow = 0 - *plow;
+         gen_load_gpr(t1, rd);
-     }
+         tcg_gen_qemu_st_tl(t1, t0, ctx->mem_idx,
--
+-                           MO_TEUW);
--    if (!overflow) {
++                           MO_TEUW | ctx->default_tcg_memop_mask);
--        if ((*plow < 0) ^ (sgn_dvdnd ^ sgn_divsr)) {
+         break;
--            overflow = 1;
+     case NM_SWX:
--        }
+     /*case NM_SWXS:*/
--    }
+         check_nms(ctx);
--
+         gen_load_gpr(t1, rd);
--    return overflow;
+         tcg_gen_qemu_st_tl(t1, t0, ctx->mem_idx,
- }
+-                           MO_TEUL);
- #endif
++                           MO_TEUL | ctx->default_tcg_memop_mask);
+         break;
      case NM_LWC1X:
      /*case NM_LWC1XS:*/
@@ -XXX,XX +XXX,XX @@ static int decode_nanomips_32_48_opc(CPUMIPSState *env, DisasContext *ctx)
                                                  addr_off);
                      tcg_gen_movi_tl(t0, addr);
 -                    tcg_gen_qemu_ld_tl(cpu_gpr[rt], t0, ctx->mem_idx, MO_TESL);
 +                    tcg_gen_qemu_ld_tl(cpu_gpr[rt], t0, ctx->mem_idx,
 +                                       MO_TESL | ctx->default_tcg_memop_mask);
                  }
                  break;
              case NM_SWPC48:
@@ -XXX,XX +XXX,XX @@ static int decode_nanomips_32_48_opc(CPUMIPSState *env, DisasContext *ctx)
                      tcg_gen_movi_tl(t0, addr);
                      gen_load_gpr(t1, rt);
 -                    tcg_gen_qemu_st_tl(t1, t0, ctx->mem_idx, MO_TEUL);
 +                    tcg_gen_qemu_st_tl(t1, t0, ctx->mem_idx,
 +                                       MO_TEUL | ctx->default_tcg_memop_mask);
                  }
                  break;
              default:
 --
-.25.1
+.34.1

-[PULL 30/56] tcg/optimize: Split out fold_deposit
+[PULL 43/53] target/mips: Use MO_ALIGN instead of 0
-Reviewed-by: Luis Pires <luis.pires@eldorado.org.br>
+The opposite of MO_UNALN is MO_ALIGN.
-Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
 Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- tcg/optimize.c | 25 +++++++++++++++----------
+ target/mips/tcg/nanomips_translate.c.inc | 2 +-
-file changed, 15 insertions(+), 10 deletions(-)
+file changed, 1 insertion(+), 1 deletion(-)
-diff --git a/tcg/optimize.c b/tcg/optimize.c
+diff --git a/target/mips/tcg/nanomips_translate.c.inc b/target/mips/tcg/nanomips_translate.c.inc
 index XXXXXXX..XXXXXXX 100644
---- a/tcg/optimize.c
+--- a/target/mips/tcg/nanomips_translate.c.inc
-+++ b/tcg/optimize.c
++++ b/target/mips/tcg/nanomips_translate.c.inc
-@@ -XXX,XX +XXX,XX @@ static bool fold_ctpop(OptContext *ctx, TCGOp *op)
+@@ -XXX,XX +XXX,XX @@ static int decode_nanomips_32_48_opc(CPUMIPSState *env, DisasContext *ctx)
-     return fold_const1(ctx, op);
+                     TCGv va = tcg_temp_new();
- }
+                     TCGv t1 = tcg_temp_new();
+                     MemOp memop = (extract32(ctx->opcode, 8, 3)) ==
-+static bool fold_deposit(OptContext *ctx, TCGOp *op)
+-                                      NM_P_LS_UAWM ? MO_UNALN : 0;
-+{
++                                      NM_P_LS_UAWM ? MO_UNALN : MO_ALIGN;
-+    if (arg_is_const(op->args[1]) && arg_is_const(op->args[2])) {
-+        uint64_t t1 = arg_info(op->args[1])->val;
+                     count = (count == 0) ? 8 : count;
-+        uint64_t t2 = arg_info(op->args[2])->val;
+                     while (counter != count) {
 +
 +        t1 = deposit64(t1, op->args[3], op->args[4], t2);
 +        return tcg_opt_gen_movi(ctx, op, op->args[0], t1);
 +    }
 +    return false;
 +}
 +
  static bool fold_divide(OptContext *ctx, TCGOp *op)
  {
      return fold_const2(ctx, op);
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
              }
              break;
 -        CASE_OP_32_64(deposit):
 -            if (arg_is_const(op->args[1]) && arg_is_const(op->args[2])) {
 -                tmp = deposit64(arg_info(op->args[1])->val,
 -                                op->args[3], op->args[4],
 -                                arg_info(op->args[2])->val);
 -                tcg_opt_gen_movi(&ctx, op, op->args[0], tmp);
 -                continue;
 -            }
 -            break;
 -
          default:
              break;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
          CASE_OP_32_64(ctpop):
              done = fold_ctpop(&ctx, op);
              break;
 +        CASE_OP_32_64(deposit):
 +            done = fold_deposit(&ctx, op);
 +            break;
          CASE_OP_32_64(div):
          CASE_OP_32_64(divu):
              done = fold_divide(&ctx, op);
 --
-.25.1
+.34.1

-[PULL 28/56] tcg/optimize: Split out fold_extract2
+[PULL 44/53] target/mips: Remove TARGET_ALIGNED_ONLY
-Reviewed-by: Luis Pires <luis.pires@eldorado.org.br>
-Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- tcg/optimize.c | 39 ++++++++++++++++++++++-----------------
+ configs/targets/mips-linux-user.mak      | 1 -
-file changed, 22 insertions(+), 17 deletions(-)
+ configs/targets/mips-softmmu.mak         | 1 -
  configs/targets/mips64-linux-user.mak    | 1 -
  configs/targets/mips64-softmmu.mak       | 1 -
  configs/targets/mips64el-linux-user.mak  | 1 -
  configs/targets/mips64el-softmmu.mak     | 1 -
  configs/targets/mipsel-linux-user.mak    | 1 -
  configs/targets/mipsel-softmmu.mak       | 1 -
  configs/targets/mipsn32-linux-user.mak   | 1 -
  configs/targets/mipsn32el-linux-user.mak | 1 -
 files changed, 10 deletions(-)
-diff --git a/tcg/optimize.c b/tcg/optimize.c
+diff --git a/configs/targets/mips-linux-user.mak b/configs/targets/mips-linux-user.mak
 index XXXXXXX..XXXXXXX 100644
---- a/tcg/optimize.c
+--- a/configs/targets/mips-linux-user.mak
-+++ b/tcg/optimize.c
++++ b/configs/targets/mips-linux-user.mak
-@@ -XXX,XX +XXX,XX @@ static bool fold_eqv(OptContext *ctx, TCGOp *op)
+@@ -XXX,XX +XXX,XX @@ TARGET_ARCH=mips
-     return fold_const2(ctx, op);
+ TARGET_ABI_MIPSO32=y
- }
+ TARGET_SYSTBL_ABI=o32
+ TARGET_SYSTBL=syscall_o32.tbl
-+static bool fold_extract2(OptContext *ctx, TCGOp *op)
+-TARGET_ALIGNED_ONLY=y
-+{
+ TARGET_BIG_ENDIAN=y
-+    if (arg_is_const(op->args[1]) && arg_is_const(op->args[2])) {
+diff --git a/configs/targets/mips-softmmu.mak b/configs/targets/mips-softmmu.mak
-+        uint64_t v1 = arg_info(op->args[1])->val;
+index XXXXXXX..XXXXXXX 100644
-+        uint64_t v2 = arg_info(op->args[2])->val;
+--- a/configs/targets/mips-softmmu.mak
-+        int shr = op->args[3];
++++ b/configs/targets/mips-softmmu.mak
-+
+@@ -XXX,XX +XXX,XX @@
-+        if (op->opc == INDEX_op_extract2_i64) {
+ TARGET_ARCH=mips
-+            v1 >>= shr;
+-TARGET_ALIGNED_ONLY=y
-+            v2 <<= 64 - shr;
+ TARGET_BIG_ENDIAN=y
-+        } else {
+ TARGET_SUPPORTS_MTTCG=y
-+            v1 = (uint32_t)v1 >> shr;
+diff --git a/configs/targets/mips64-linux-user.mak b/configs/targets/mips64-linux-user.mak
-+            v2 = (int32_t)v2 << (32 - shr);
+index XXXXXXX..XXXXXXX 100644
-+        }
+--- a/configs/targets/mips64-linux-user.mak
-+        return tcg_opt_gen_movi(ctx, op, op->args[0], v1 | v2);
++++ b/configs/targets/mips64-linux-user.mak
-+    }
+@@ -XXX,XX +XXX,XX @@ TARGET_ABI_MIPSN64=y
-+    return false;
+ TARGET_BASE_ARCH=mips
-+}
+ TARGET_SYSTBL_ABI=n64
-+
+ TARGET_SYSTBL=syscall_n64.tbl
- static bool fold_exts(OptContext *ctx, TCGOp *op)
+-TARGET_ALIGNED_ONLY=y
- {
+ TARGET_BIG_ENDIAN=y
-     return fold_const1(ctx, op);
+diff --git a/configs/targets/mips64-softmmu.mak b/configs/targets/mips64-softmmu.mak
-@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
+index XXXXXXX..XXXXXXX 100644
-             }
+--- a/configs/targets/mips64-softmmu.mak
-             break;
++++ b/configs/targets/mips64-softmmu.mak
+@@ -XXX,XX +XXX,XX @@
--        CASE_OP_32_64(extract2):
+ TARGET_ARCH=mips64
--            if (arg_is_const(op->args[1]) && arg_is_const(op->args[2])) {
+ TARGET_BASE_ARCH=mips
--                uint64_t v1 = arg_info(op->args[1])->val;
+-TARGET_ALIGNED_ONLY=y
--                uint64_t v2 = arg_info(op->args[2])->val;
+ TARGET_BIG_ENDIAN=y
--                int shr = op->args[3];
+diff --git a/configs/targets/mips64el-linux-user.mak b/configs/targets/mips64el-linux-user.mak
--
+index XXXXXXX..XXXXXXX 100644
--                if (opc == INDEX_op_extract2_i64) {
+--- a/configs/targets/mips64el-linux-user.mak
--                    tmp = (v1 >> shr) | (v2 << (64 - shr));
++++ b/configs/targets/mips64el-linux-user.mak
--                } else {
+@@ -XXX,XX +XXX,XX @@ TARGET_ABI_MIPSN64=y
--                    tmp = (int32_t)(((uint32_t)v1 >> shr) |
+ TARGET_BASE_ARCH=mips
--                                    ((uint32_t)v2 << (32 - shr)));
+ TARGET_SYSTBL_ABI=n64
--                }
+ TARGET_SYSTBL=syscall_n64.tbl
--                tcg_opt_gen_movi(&ctx, op, op->args[0], tmp);
+-TARGET_ALIGNED_ONLY=y
--                continue;
+diff --git a/configs/targets/mips64el-softmmu.mak b/configs/targets/mips64el-softmmu.mak
--            }
+index XXXXXXX..XXXXXXX 100644
--            break;
+--- a/configs/targets/mips64el-softmmu.mak
--
++++ b/configs/targets/mips64el-softmmu.mak
-         default:
+@@ -XXX,XX +XXX,XX @@
-             break;
+ TARGET_ARCH=mips64
+ TARGET_BASE_ARCH=mips
-@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
+-TARGET_ALIGNED_ONLY=y
-         CASE_OP_32_64(eqv):
+ TARGET_NEED_FDT=y
-             done = fold_eqv(&ctx, op);
+diff --git a/configs/targets/mipsel-linux-user.mak b/configs/targets/mipsel-linux-user.mak
-             break;
+index XXXXXXX..XXXXXXX 100644
-+        CASE_OP_32_64(extract2):
+--- a/configs/targets/mipsel-linux-user.mak
-+            done = fold_extract2(&ctx, op);
++++ b/configs/targets/mipsel-linux-user.mak
-+            break;
+@@ -XXX,XX +XXX,XX @@ TARGET_ARCH=mips
-         CASE_OP_32_64(ext8s):
+ TARGET_ABI_MIPSO32=y
-         CASE_OP_32_64(ext16s):
+ TARGET_SYSTBL_ABI=o32
-         case INDEX_op_ext32s_i64:
+ TARGET_SYSTBL=syscall_o32.tbl
 -TARGET_ALIGNED_ONLY=y
 diff --git a/configs/targets/mipsel-softmmu.mak b/configs/targets/mipsel-softmmu.mak
 index XXXXXXX..XXXXXXX 100644
 --- a/configs/targets/mipsel-softmmu.mak
 +++ b/configs/targets/mipsel-softmmu.mak
@@ -XXX,XX +XXX,XX @@
  TARGET_ARCH=mips
 -TARGET_ALIGNED_ONLY=y
  TARGET_SUPPORTS_MTTCG=y
 diff --git a/configs/targets/mipsn32-linux-user.mak b/configs/targets/mipsn32-linux-user.mak
 index XXXXXXX..XXXXXXX 100644
 --- a/configs/targets/mipsn32-linux-user.mak
 +++ b/configs/targets/mipsn32-linux-user.mak
@@ -XXX,XX +XXX,XX @@ TARGET_ABI32=y
  TARGET_BASE_ARCH=mips
  TARGET_SYSTBL_ABI=n32
  TARGET_SYSTBL=syscall_n32.tbl
 -TARGET_ALIGNED_ONLY=y
  TARGET_BIG_ENDIAN=y
 diff --git a/configs/targets/mipsn32el-linux-user.mak b/configs/targets/mipsn32el-linux-user.mak
 index XXXXXXX..XXXXXXX 100644
 --- a/configs/targets/mipsn32el-linux-user.mak
 +++ b/configs/targets/mipsn32el-linux-user.mak
@@ -XXX,XX +XXX,XX @@ TARGET_ABI32=y
  TARGET_BASE_ARCH=mips
  TARGET_SYSTBL_ABI=n32
  TARGET_SYSTBL=syscall_n32.tbl
 -TARGET_ALIGNED_ONLY=y
 --
-.25.1
+.34.1

-[PULL 26/56] tcg/optimize: Split out fold_addsub2_i32
+[PULL 45/53] target/nios2: Remove TARGET_ALIGNED_ONLY
-Add two additional helpers, fold_add2_i32 and fold_sub2_i32
+In gen_ldx/gen_stx, the only two locations for memory operations,
-which will not be simple wrappers forever.
+mark the operation as either aligned (softmmu) or unaligned
 (user-only, as if emulated by the kernel).
-Reviewed-by: Luis Pires <luis.pires@eldorado.org.br>
+Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
 Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- tcg/optimize.c | 70 +++++++++++++++++++++++++++++++-------------------
+ configs/targets/nios2-softmmu.mak |  1 -
-file changed, 44 insertions(+), 26 deletions(-)
+ target/nios2/translate.c          | 10 ++++++++++
 files changed, 10 insertions(+), 1 deletion(-)
-diff --git a/tcg/optimize.c b/tcg/optimize.c
+diff --git a/configs/targets/nios2-softmmu.mak b/configs/targets/nios2-softmmu.mak
 index XXXXXXX..XXXXXXX 100644
---- a/tcg/optimize.c
+--- a/configs/targets/nios2-softmmu.mak
-+++ b/tcg/optimize.c
++++ b/configs/targets/nios2-softmmu.mak
-@@ -XXX,XX +XXX,XX @@ static bool fold_add(OptContext *ctx, TCGOp *op)
+@@ -XXX,XX +XXX,XX @@
-     return fold_const2(ctx, op);
+ TARGET_ARCH=nios2
 -TARGET_ALIGNED_ONLY=y
  TARGET_NEED_FDT=y
 diff --git a/target/nios2/translate.c b/target/nios2/translate.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/nios2/translate.c
 +++ b/target/nios2/translate.c
@@ -XXX,XX +XXX,XX @@ static void gen_ldx(DisasContext *dc, uint32_t code, uint32_t flags)
      TCGv data = dest_gpr(dc, instr.b);
      tcg_gen_addi_tl(addr, load_gpr(dc, instr.a), instr.imm16.s);
 +#ifdef CONFIG_USER_ONLY
 +    flags |= MO_UNALN;
 +#else
 +    flags |= MO_ALIGN;
 +#endif
      tcg_gen_qemu_ld_tl(data, addr, dc->mem_idx, flags);
  }
-+static bool fold_addsub2_i32(OptContext *ctx, TCGOp *op, bool add)
+@@ -XXX,XX +XXX,XX @@ static void gen_stx(DisasContext *dc, uint32_t code, uint32_t flags)
-+{
-+    if (arg_is_const(op->args[2]) && arg_is_const(op->args[3]) &&
+     TCGv addr = tcg_temp_new();
-+        arg_is_const(op->args[4]) && arg_is_const(op->args[5])) {
+     tcg_gen_addi_tl(addr, load_gpr(dc, instr.a), instr.imm16.s);
-+        uint32_t al = arg_info(op->args[2])->val;
++#ifdef CONFIG_USER_ONLY
-+        uint32_t ah = arg_info(op->args[3])->val;
++    flags |= MO_UNALN;
-+        uint32_t bl = arg_info(op->args[4])->val;
++#else
-+        uint32_t bh = arg_info(op->args[5])->val;
++    flags |= MO_ALIGN;
-+        uint64_t a = ((uint64_t)ah << 32) | al;
++#endif
-+        uint64_t b = ((uint64_t)bh << 32) | bl;
+     tcg_gen_qemu_st_tl(val, addr, dc->mem_idx, flags);
 +        TCGArg rl, rh;
 +        TCGOp *op2 = tcg_op_insert_before(ctx->tcg, op, INDEX_op_mov_i32);
 +
 +        if (add) {
 +            a += b;
 +        } else {
 +            a -= b;
 +        }
 +
 +        rl = op->args[0];
 +        rh = op->args[1];
 +        tcg_opt_gen_movi(ctx, op, rl, (int32_t)a);
 +        tcg_opt_gen_movi(ctx, op2, rh, (int32_t)(a >> 32));
 +        return true;
 +    }
 +    return false;
 +}
 +
 +static bool fold_add2_i32(OptContext *ctx, TCGOp *op)
 +{
 +    return fold_addsub2_i32(ctx, op, true);
 +}
 +
  static bool fold_and(OptContext *ctx, TCGOp *op)
  {
      return fold_const2(ctx, op);
@@ -XXX,XX +XXX,XX @@ static bool fold_sub(OptContext *ctx, TCGOp *op)
      return fold_const2(ctx, op);
  }
-+static bool fold_sub2_i32(OptContext *ctx, TCGOp *op)
-+{
-+    return fold_addsub2_i32(ctx, op, false);
-+}
-+
- static bool fold_xor(OptContext *ctx, TCGOp *op)
- {
-     return fold_const2(ctx, op);
-@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
-             }
-             break;
--        case INDEX_op_add2_i32:
--        case INDEX_op_sub2_i32:
--            if (arg_is_const(op->args[2]) && arg_is_const(op->args[3])
--                && arg_is_const(op->args[4]) && arg_is_const(op->args[5])) {
--                uint32_t al = arg_info(op->args[2])->val;
--                uint32_t ah = arg_info(op->args[3])->val;
--                uint32_t bl = arg_info(op->args[4])->val;
--                uint32_t bh = arg_info(op->args[5])->val;
--                uint64_t a = ((uint64_t)ah << 32) | al;
--                uint64_t b = ((uint64_t)bh << 32) | bl;
--                TCGArg rl, rh;
--                TCGOp *op2 = tcg_op_insert_before(s, op, INDEX_op_mov_i32);
--
--                if (opc == INDEX_op_add2_i32) {
--                    a += b;
--                } else {
--                    a -= b;
--                }
--
--                rl = op->args[0];
--                rh = op->args[1];
--                tcg_opt_gen_movi(&ctx, op, rl, (int32_t)a);
--                tcg_opt_gen_movi(&ctx, op2, rh, (int32_t)(a >> 32));
--                continue;
--            }
--            break;
-         default:
-             break;
-@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
-         CASE_OP_32_64_VEC(add):
-             done = fold_add(&ctx, op);
-             break;
-+        case INDEX_op_add2_i32:
-+            done = fold_add2_i32(&ctx, op);
-+            break;
-         CASE_OP_32_64_VEC(and):
-             done = fold_and(&ctx, op);
-             break;
-@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
-         CASE_OP_32_64_VEC(sub):
-             done = fold_sub(&ctx, op);
-             break;
-+        case INDEX_op_sub2_i32:
-+            done = fold_sub2_i32(&ctx, op);
-+            break;
-         CASE_OP_32_64_VEC(xor):
-             done = fold_xor(&ctx, op);
-             break;
 --
-.25.1
+.34.1

-[PULL 27/56] tcg/optimize: Split out fold_movcond
+[PULL 46/53] target/sh4: Use MO_ALIGN where required
-Reviewed-by: Luis Pires <luis.pires@eldorado.org.br>
+Mark all memory operations that are not already marked with UNALIGN.
-Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
 Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- tcg/optimize.c | 56 ++++++++++++++++++++++++++++----------------------
+ target/sh4/translate.c | 102 ++++++++++++++++++++++++++---------------
-file changed, 31 insertions(+), 25 deletions(-)
+file changed, 66 insertions(+), 36 deletions(-)
-diff --git a/tcg/optimize.c b/tcg/optimize.c
+diff --git a/target/sh4/translate.c b/target/sh4/translate.c
 index XXXXXXX..XXXXXXX 100644
---- a/tcg/optimize.c
+--- a/target/sh4/translate.c
-+++ b/tcg/optimize.c
++++ b/target/sh4/translate.c
-@@ -XXX,XX +XXX,XX @@ static bool fold_mb(OptContext *ctx, TCGOp *op)
+@@ -XXX,XX +XXX,XX @@ static void _decode_opc(DisasContext * ctx)
-     return true;
+     case 0x9000:        /* mov.w @(disp,PC),Rn */
- }
+     {
+             TCGv addr = tcg_constant_i32(ctx->base.pc_next + 4 + B7_0 * 2);
-+static bool fold_movcond(OptContext *ctx, TCGOp *op)
+-            tcg_gen_qemu_ld_i32(REG(B11_8), addr, ctx->memidx, MO_TESW);
-+{
++            tcg_gen_qemu_ld_i32(REG(B11_8), addr, ctx->memidx,
-+    TCGOpcode opc = op->opc;
++                                MO_TESW | MO_ALIGN);
-+    TCGCond cond = op->args[5];
+     }
-+    int i = do_constant_folding_cond(opc, op->args[1], op->args[2], cond);
+     return;
-+
+     case 0xd000:        /* mov.l @(disp,PC),Rn */
-+    if (i >= 0) {
+     {
-+        return tcg_opt_gen_mov(ctx, op, op->args[0], op->args[4 - i]);
+             TCGv addr = tcg_constant_i32((ctx->base.pc_next + 4 + B7_0 * 4) & ~3);
-+    }
+-            tcg_gen_qemu_ld_i32(REG(B11_8), addr, ctx->memidx, MO_TESL);
-+
++            tcg_gen_qemu_ld_i32(REG(B11_8), addr, ctx->memidx,
-+    if (arg_is_const(op->args[3]) && arg_is_const(op->args[4])) {
++                                MO_TESL | MO_ALIGN);
-+        uint64_t tv = arg_info(op->args[3])->val;
+     }
-+        uint64_t fv = arg_info(op->args[4])->val;
+     return;
-+
+     case 0x7000:        /* add #imm,Rn */
-+        opc = (opc == INDEX_op_movcond_i32
+@@ -XXX,XX +XXX,XX @@ static void _decode_opc(DisasContext * ctx)
-+               ? INDEX_op_setcond_i32 : INDEX_op_setcond_i64);
+     {
-+
+         TCGv arg0, arg1;
-+        if (tv == 1 && fv == 0) {
+         arg0 = tcg_temp_new();
-+            op->opc = opc;
+-            tcg_gen_qemu_ld_i32(arg0, REG(B7_4), ctx->memidx, MO_TESL);
-+            op->args[3] = cond;
++            tcg_gen_qemu_ld_i32(arg0, REG(B7_4), ctx->memidx,
-+        } else if (fv == 1 && tv == 0) {
++                                MO_TESL | MO_ALIGN);
-+            op->opc = opc;
+         arg1 = tcg_temp_new();
-+            op->args[3] = tcg_invert_cond(cond);
+-            tcg_gen_qemu_ld_i32(arg1, REG(B11_8), ctx->memidx, MO_TESL);
-+        }
++            tcg_gen_qemu_ld_i32(arg1, REG(B11_8), ctx->memidx,
-+    }
++                                MO_TESL | MO_ALIGN);
-+    return false;
+             gen_helper_macl(cpu_env, arg0, arg1);
-+}
+         tcg_gen_addi_i32(REG(B7_4), REG(B7_4), 4);
-+
+         tcg_gen_addi_i32(REG(B11_8), REG(B11_8), 4);
- static bool fold_mul(OptContext *ctx, TCGOp *op)
+@@ -XXX,XX +XXX,XX @@ static void _decode_opc(DisasContext * ctx)
- {
+     {
-     return fold_const2(ctx, op);
+         TCGv arg0, arg1;
-@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
+         arg0 = tcg_temp_new();
 -            tcg_gen_qemu_ld_i32(arg0, REG(B7_4), ctx->memidx, MO_TESL);
 +            tcg_gen_qemu_ld_i32(arg0, REG(B7_4), ctx->memidx,
 +                                MO_TESL | MO_ALIGN);
          arg1 = tcg_temp_new();
 -            tcg_gen_qemu_ld_i32(arg1, REG(B11_8), ctx->memidx, MO_TESL);
 +            tcg_gen_qemu_ld_i32(arg1, REG(B11_8), ctx->memidx,
 +                                MO_TESL | MO_ALIGN);
              gen_helper_macw(cpu_env, arg0, arg1);
          tcg_gen_addi_i32(REG(B11_8), REG(B11_8), 2);
          tcg_gen_addi_i32(REG(B7_4), REG(B7_4), 2);
@@ -XXX,XX +XXX,XX @@ static void _decode_opc(DisasContext * ctx)
          if (ctx->tbflags & FPSCR_SZ) {
              TCGv_i64 fp = tcg_temp_new_i64();
              gen_load_fpr64(ctx, fp, XHACK(B7_4));
 -            tcg_gen_qemu_st_i64(fp, REG(B11_8), ctx->memidx, MO_TEUQ);
 +            tcg_gen_qemu_st_i64(fp, REG(B11_8), ctx->memidx,
 +                                MO_TEUQ | MO_ALIGN);
      } else {
 -            tcg_gen_qemu_st_i32(FREG(B7_4), REG(B11_8), ctx->memidx, MO_TEUL);
 +            tcg_gen_qemu_st_i32(FREG(B7_4), REG(B11_8), ctx->memidx,
 +                                MO_TEUL | MO_ALIGN);
      }
      return;
      case 0xf008: /* fmov @Rm,{F,D,X}Rn - FPSCR: Nothing */
      CHECK_FPU_ENABLED
          if (ctx->tbflags & FPSCR_SZ) {
              TCGv_i64 fp = tcg_temp_new_i64();
 -            tcg_gen_qemu_ld_i64(fp, REG(B7_4), ctx->memidx, MO_TEUQ);
 +            tcg_gen_qemu_ld_i64(fp, REG(B7_4), ctx->memidx,
 +                                MO_TEUQ | MO_ALIGN);
              gen_store_fpr64(ctx, fp, XHACK(B11_8));
      } else {
 -            tcg_gen_qemu_ld_i32(FREG(B11_8), REG(B7_4), ctx->memidx, MO_TEUL);
 +            tcg_gen_qemu_ld_i32(FREG(B11_8), REG(B7_4), ctx->memidx,
 +                                MO_TEUL | MO_ALIGN);
      }
      return;
      case 0xf009: /* fmov @Rm+,{F,D,X}Rn - FPSCR: Nothing */
      CHECK_FPU_ENABLED
          if (ctx->tbflags & FPSCR_SZ) {
              TCGv_i64 fp = tcg_temp_new_i64();
 -            tcg_gen_qemu_ld_i64(fp, REG(B7_4), ctx->memidx, MO_TEUQ);
 +            tcg_gen_qemu_ld_i64(fp, REG(B7_4), ctx->memidx,
 +                                MO_TEUQ | MO_ALIGN);
              gen_store_fpr64(ctx, fp, XHACK(B11_8));
              tcg_gen_addi_i32(REG(B7_4), REG(B7_4), 8);
      } else {
 -            tcg_gen_qemu_ld_i32(FREG(B11_8), REG(B7_4), ctx->memidx, MO_TEUL);
 +            tcg_gen_qemu_ld_i32(FREG(B11_8), REG(B7_4), ctx->memidx,
 +                                MO_TEUL | MO_ALIGN);
          tcg_gen_addi_i32(REG(B7_4), REG(B7_4), 4);
      }
      return;
@@ -XXX,XX +XXX,XX @@ static void _decode_opc(DisasContext * ctx)
                  TCGv_i64 fp = tcg_temp_new_i64();
                  gen_load_fpr64(ctx, fp, XHACK(B7_4));
                  tcg_gen_subi_i32(addr, REG(B11_8), 8);
 -                tcg_gen_qemu_st_i64(fp, addr, ctx->memidx, MO_TEUQ);
 +                tcg_gen_qemu_st_i64(fp, addr, ctx->memidx,
 +                                    MO_TEUQ | MO_ALIGN);
              } else {
                  tcg_gen_subi_i32(addr, REG(B11_8), 4);
 -                tcg_gen_qemu_st_i32(FREG(B7_4), addr, ctx->memidx, MO_TEUL);
 +                tcg_gen_qemu_st_i32(FREG(B7_4), addr, ctx->memidx,
 +                                    MO_TEUL | MO_ALIGN);
              }
-             break;
+             tcg_gen_mov_i32(REG(B11_8), addr);
+         }
--        CASE_OP_32_64(movcond):
+@@ -XXX,XX +XXX,XX @@ static void _decode_opc(DisasContext * ctx)
--            i = do_constant_folding_cond(opc, op->args[1],
+         tcg_gen_add_i32(addr, REG(B7_4), REG(0));
--                                         op->args[2], op->args[5]);
+             if (ctx->tbflags & FPSCR_SZ) {
--            if (i >= 0) {
+                 TCGv_i64 fp = tcg_temp_new_i64();
--                tcg_opt_gen_mov(&ctx, op, op->args[0], op->args[4 - i]);
+-                tcg_gen_qemu_ld_i64(fp, addr, ctx->memidx, MO_TEUQ);
--                continue;
++                tcg_gen_qemu_ld_i64(fp, addr, ctx->memidx,
--            }
++                                    MO_TEUQ | MO_ALIGN);
--            if (arg_is_const(op->args[3]) && arg_is_const(op->args[4])) {
+                 gen_store_fpr64(ctx, fp, XHACK(B11_8));
--                uint64_t tv = arg_info(op->args[3])->val;
+         } else {
--                uint64_t fv = arg_info(op->args[4])->val;
+-                tcg_gen_qemu_ld_i32(FREG(B11_8), addr, ctx->memidx, MO_TEUL);
--                TCGCond cond = op->args[5];
++                tcg_gen_qemu_ld_i32(FREG(B11_8), addr, ctx->memidx,
--
++                                    MO_TEUL | MO_ALIGN);
--                if (fv == 1 && tv == 0) {
+         }
--                    cond = tcg_invert_cond(cond);
+     }
--                } else if (!(tv == 1 && fv == 0)) {
+     return;
--                    break;
+@@ -XXX,XX +XXX,XX @@ static void _decode_opc(DisasContext * ctx)
--                }
+             if (ctx->tbflags & FPSCR_SZ) {
--                op->args[3] = cond;
+                 TCGv_i64 fp = tcg_temp_new_i64();
--                op->opc = opc = (opc == INDEX_op_movcond_i32
+                 gen_load_fpr64(ctx, fp, XHACK(B7_4));
--                                 ? INDEX_op_setcond_i32
+-                tcg_gen_qemu_st_i64(fp, addr, ctx->memidx, MO_TEUQ);
--                                 : INDEX_op_setcond_i64);
++                tcg_gen_qemu_st_i64(fp, addr, ctx->memidx,
--            }
++                                    MO_TEUQ | MO_ALIGN);
--            break;
+         } else {
--
+-                tcg_gen_qemu_st_i32(FREG(B7_4), addr, ctx->memidx, MO_TEUL);
--
++                tcg_gen_qemu_st_i32(FREG(B7_4), addr, ctx->memidx,
-         default:
++                                    MO_TEUL | MO_ALIGN);
-             break;
+         }
+     }
-@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
+     return;
-         case INDEX_op_mb:
+@@ -XXX,XX +XXX,XX @@ static void _decode_opc(DisasContext * ctx)
-             done = fold_mb(&ctx, op);
+     {
-             break;
+         TCGv addr = tcg_temp_new();
-+        CASE_OP_32_64(movcond):
+         tcg_gen_addi_i32(addr, cpu_gbr, B7_0 * 2);
-+            done = fold_movcond(&ctx, op);
+-            tcg_gen_qemu_ld_i32(REG(0), addr, ctx->memidx, MO_TESW);
-+            break;
++            tcg_gen_qemu_ld_i32(REG(0), addr, ctx->memidx, MO_TESW | MO_ALIGN);
-         CASE_OP_32_64(mul):
+     }
-             done = fold_mul(&ctx, op);
+     return;
-             break;
+     case 0xc600:        /* mov.l @(disp,GBR),R0 */
      {
          TCGv addr = tcg_temp_new();
          tcg_gen_addi_i32(addr, cpu_gbr, B7_0 * 4);
 -            tcg_gen_qemu_ld_i32(REG(0), addr, ctx->memidx, MO_TESL);
 +            tcg_gen_qemu_ld_i32(REG(0), addr, ctx->memidx, MO_TESL | MO_ALIGN);
      }
      return;
      case 0xc000:        /* mov.b R0,@(disp,GBR) */
@@ -XXX,XX +XXX,XX @@ static void _decode_opc(DisasContext * ctx)
      {
          TCGv addr = tcg_temp_new();
          tcg_gen_addi_i32(addr, cpu_gbr, B7_0 * 2);
 -            tcg_gen_qemu_st_i32(REG(0), addr, ctx->memidx, MO_TEUW);
 +            tcg_gen_qemu_st_i32(REG(0), addr, ctx->memidx, MO_TEUW | MO_ALIGN);
      }
      return;
      case 0xc200:        /* mov.l R0,@(disp,GBR) */
      {
          TCGv addr = tcg_temp_new();
          tcg_gen_addi_i32(addr, cpu_gbr, B7_0 * 4);
 -            tcg_gen_qemu_st_i32(REG(0), addr, ctx->memidx, MO_TEUL);
 +            tcg_gen_qemu_st_i32(REG(0), addr, ctx->memidx, MO_TEUL | MO_ALIGN);
      }
      return;
      case 0x8000:        /* mov.b R0,@(disp,Rn) */
@@ -XXX,XX +XXX,XX @@ static void _decode_opc(DisasContext * ctx)
      return;
      case 0x4087:        /* ldc.l @Rm+,Rn_BANK */
      CHECK_PRIVILEGED
 -        tcg_gen_qemu_ld_i32(ALTREG(B6_4), REG(B11_8), ctx->memidx, MO_TESL);
 +        tcg_gen_qemu_ld_i32(ALTREG(B6_4), REG(B11_8), ctx->memidx,
 +                            MO_TESL | MO_ALIGN);
      tcg_gen_addi_i32(REG(B11_8), REG(B11_8), 4);
      return;
      case 0x0082:        /* stc Rm_BANK,Rn */
@@ -XXX,XX +XXX,XX @@ static void _decode_opc(DisasContext * ctx)
      {
          TCGv addr = tcg_temp_new();
          tcg_gen_subi_i32(addr, REG(B11_8), 4);
 -            tcg_gen_qemu_st_i32(ALTREG(B6_4), addr, ctx->memidx, MO_TEUL);
 +            tcg_gen_qemu_st_i32(ALTREG(B6_4), addr, ctx->memidx,
 +                                MO_TEUL | MO_ALIGN);
          tcg_gen_mov_i32(REG(B11_8), addr);
      }
      return;
@@ -XXX,XX +XXX,XX @@ static void _decode_opc(DisasContext * ctx)
      CHECK_PRIVILEGED
      {
          TCGv val = tcg_temp_new();
 -            tcg_gen_qemu_ld_i32(val, REG(B11_8), ctx->memidx, MO_TESL);
 +            tcg_gen_qemu_ld_i32(val, REG(B11_8), ctx->memidx,
 +                                MO_TESL | MO_ALIGN);
              tcg_gen_andi_i32(val, val, 0x700083f3);
              gen_write_sr(val);
          tcg_gen_addi_i32(REG(B11_8), REG(B11_8), 4);
@@ -XXX,XX +XXX,XX @@ static void _decode_opc(DisasContext * ctx)
              TCGv val = tcg_temp_new();
          tcg_gen_subi_i32(addr, REG(B11_8), 4);
              gen_read_sr(val);
 -            tcg_gen_qemu_st_i32(val, addr, ctx->memidx, MO_TEUL);
 +            tcg_gen_qemu_st_i32(val, addr, ctx->memidx, MO_TEUL | MO_ALIGN);
          tcg_gen_mov_i32(REG(B11_8), addr);
      }
      return;
@@ -XXX,XX +XXX,XX @@ static void _decode_opc(DisasContext * ctx)
      return;                            \
    case ldpnum:                            \
      prechk                                \
 -    tcg_gen_qemu_ld_i32(cpu_##reg, REG(B11_8), ctx->memidx, MO_TESL); \
 +    tcg_gen_qemu_ld_i32(cpu_##reg, REG(B11_8), ctx->memidx,     \
 +                        MO_TESL | MO_ALIGN);                    \
      tcg_gen_addi_i32(REG(B11_8), REG(B11_8), 4);        \
      return;
  #define ST(reg,stnum,stpnum,prechk)        \
@@ -XXX,XX +XXX,XX @@ static void _decode_opc(DisasContext * ctx)
      {                                \
      TCGv addr = tcg_temp_new();                \
      tcg_gen_subi_i32(addr, REG(B11_8), 4);            \
 -        tcg_gen_qemu_st_i32(cpu_##reg, addr, ctx->memidx, MO_TEUL); \
 +        tcg_gen_qemu_st_i32(cpu_##reg, addr, ctx->memidx,       \
 +                            MO_TEUL | MO_ALIGN);                \
      tcg_gen_mov_i32(REG(B11_8), addr);            \
      }                                \
      return;
@@ -XXX,XX +XXX,XX @@ static void _decode_opc(DisasContext * ctx)
      CHECK_FPU_ENABLED
      {
          TCGv addr = tcg_temp_new();
 -            tcg_gen_qemu_ld_i32(addr, REG(B11_8), ctx->memidx, MO_TESL);
 +            tcg_gen_qemu_ld_i32(addr, REG(B11_8), ctx->memidx,
 +                                MO_TESL | MO_ALIGN);
          tcg_gen_addi_i32(REG(B11_8), REG(B11_8), 4);
              gen_helper_ld_fpscr(cpu_env, addr);
              ctx->base.is_jmp = DISAS_STOP;
@@ -XXX,XX +XXX,XX @@ static void _decode_opc(DisasContext * ctx)
          tcg_gen_andi_i32(val, cpu_fpscr, 0x003fffff);
          addr = tcg_temp_new();
          tcg_gen_subi_i32(addr, REG(B11_8), 4);
 -            tcg_gen_qemu_st_i32(val, addr, ctx->memidx, MO_TEUL);
 +            tcg_gen_qemu_st_i32(val, addr, ctx->memidx, MO_TEUL | MO_ALIGN);
          tcg_gen_mov_i32(REG(B11_8), addr);
      }
      return;
      case 0x00c3:        /* movca.l R0,@Rm */
          {
              TCGv val = tcg_temp_new();
 -            tcg_gen_qemu_ld_i32(val, REG(B11_8), ctx->memidx, MO_TEUL);
 +            tcg_gen_qemu_ld_i32(val, REG(B11_8), ctx->memidx,
 +                                MO_TEUL | MO_ALIGN);
              gen_helper_movcal(cpu_env, REG(B11_8), val);
 -            tcg_gen_qemu_st_i32(REG(0), REG(B11_8), ctx->memidx, MO_TEUL);
 +            tcg_gen_qemu_st_i32(REG(0), REG(B11_8), ctx->memidx,
 +                                MO_TEUL | MO_ALIGN);
          }
          ctx->has_movcal = 1;
      return;
@@ -XXX,XX +XXX,XX @@ static void _decode_opc(DisasContext * ctx)
                                     cpu_lock_addr, fail);
                  tmp = tcg_temp_new();
                  tcg_gen_atomic_cmpxchg_i32(tmp, REG(B11_8), cpu_lock_value,
 -                                           REG(0), ctx->memidx, MO_TEUL);
 +                                           REG(0), ctx->memidx,
 +                                           MO_TEUL | MO_ALIGN);
                  tcg_gen_setcond_i32(TCG_COND_EQ, cpu_sr_t, tmp, cpu_lock_value);
              } else {
                  tcg_gen_brcondi_i32(TCG_COND_EQ, cpu_lock_addr, -1, fail);
 -                tcg_gen_qemu_st_i32(REG(0), REG(B11_8), ctx->memidx, MO_TEUL);
 +                tcg_gen_qemu_st_i32(REG(0), REG(B11_8), ctx->memidx,
 +                                    MO_TEUL | MO_ALIGN);
                  tcg_gen_movi_i32(cpu_sr_t, 1);
              }
              tcg_gen_br(done);
@@ -XXX,XX +XXX,XX @@ static void _decode_opc(DisasContext * ctx)
          if ((tb_cflags(ctx->base.tb) & CF_PARALLEL)) {
              TCGv tmp = tcg_temp_new();
              tcg_gen_mov_i32(tmp, REG(B11_8));
 -            tcg_gen_qemu_ld_i32(REG(0), REG(B11_8), ctx->memidx, MO_TESL);
 +            tcg_gen_qemu_ld_i32(REG(0), REG(B11_8), ctx->memidx,
 +                                MO_TESL | MO_ALIGN);
              tcg_gen_mov_i32(cpu_lock_value, REG(0));
              tcg_gen_mov_i32(cpu_lock_addr, tmp);
          } else {
 -            tcg_gen_qemu_ld_i32(REG(0), REG(B11_8), ctx->memidx, MO_TESL);
 +            tcg_gen_qemu_ld_i32(REG(0), REG(B11_8), ctx->memidx,
 +                                MO_TESL | MO_ALIGN);
              tcg_gen_movi_i32(cpu_lock_addr, 0);
          }
          return;
 --
-.25.1
+.34.1

-[PULL 25/56] tcg/optimize: Split out fold_mulu2_i32
+[PULL 47/53] target/sh4: Remove TARGET_ALIGNED_ONLY
-Reviewed-by: Luis Pires <luis.pires@eldorado.org.br>
+Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
 Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- tcg/optimize.c | 37 +++++++++++++++++++++----------------
+ configs/targets/sh4-linux-user.mak   | 1 -
-file changed, 21 insertions(+), 16 deletions(-)
+ configs/targets/sh4-softmmu.mak      | 1 -
  configs/targets/sh4eb-linux-user.mak | 1 -
  configs/targets/sh4eb-softmmu.mak    | 1 -
 files changed, 4 deletions(-)
-diff --git a/tcg/optimize.c b/tcg/optimize.c
+diff --git a/configs/targets/sh4-linux-user.mak b/configs/targets/sh4-linux-user.mak
 index XXXXXXX..XXXXXXX 100644
---- a/tcg/optimize.c
+--- a/configs/targets/sh4-linux-user.mak
-+++ b/tcg/optimize.c
++++ b/configs/targets/sh4-linux-user.mak
-@@ -XXX,XX +XXX,XX @@ static bool fold_mul_highpart(OptContext *ctx, TCGOp *op)
+@@ -XXX,XX +XXX,XX @@
-     return fold_const2(ctx, op);
+ TARGET_ARCH=sh4
- }
+ TARGET_SYSTBL_ABI=common
+ TARGET_SYSTBL=syscall.tbl
-+static bool fold_mulu2_i32(OptContext *ctx, TCGOp *op)
+-TARGET_ALIGNED_ONLY=y
-+{
+ TARGET_HAS_BFLT=y
-+    if (arg_is_const(op->args[2]) && arg_is_const(op->args[3])) {
+diff --git a/configs/targets/sh4-softmmu.mak b/configs/targets/sh4-softmmu.mak
-+        uint32_t a = arg_info(op->args[2])->val;
+index XXXXXXX..XXXXXXX 100644
-+        uint32_t b = arg_info(op->args[3])->val;
+--- a/configs/targets/sh4-softmmu.mak
-+        uint64_t r = (uint64_t)a * b;
++++ b/configs/targets/sh4-softmmu.mak
-+        TCGArg rl, rh;
+@@ -1,2 +1 @@
-+        TCGOp *op2 = tcg_op_insert_before(ctx->tcg, op, INDEX_op_mov_i32);
+ TARGET_ARCH=sh4
-+
+-TARGET_ALIGNED_ONLY=y
-+        rl = op->args[0];
+diff --git a/configs/targets/sh4eb-linux-user.mak b/configs/targets/sh4eb-linux-user.mak
-+        rh = op->args[1];
+index XXXXXXX..XXXXXXX 100644
-+        tcg_opt_gen_movi(ctx, op, rl, (int32_t)r);
+--- a/configs/targets/sh4eb-linux-user.mak
-+        tcg_opt_gen_movi(ctx, op2, rh, (int32_t)(r >> 32));
++++ b/configs/targets/sh4eb-linux-user.mak
-+        return true;
+@@ -XXX,XX +XXX,XX @@
-+    }
+ TARGET_ARCH=sh4
-+    return false;
+ TARGET_SYSTBL_ABI=common
-+}
+ TARGET_SYSTBL=syscall.tbl
-+
+-TARGET_ALIGNED_ONLY=y
- static bool fold_nand(OptContext *ctx, TCGOp *op)
+ TARGET_BIG_ENDIAN=y
- {
+ TARGET_HAS_BFLT=y
-     return fold_const2(ctx, op);
+diff --git a/configs/targets/sh4eb-softmmu.mak b/configs/targets/sh4eb-softmmu.mak
-@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
+index XXXXXXX..XXXXXXX 100644
-             }
+--- a/configs/targets/sh4eb-softmmu.mak
-             break;
++++ b/configs/targets/sh4eb-softmmu.mak
+@@ -XXX,XX +XXX,XX @@
--        case INDEX_op_mulu2_i32:
+ TARGET_ARCH=sh4
--            if (arg_is_const(op->args[2]) && arg_is_const(op->args[3])) {
+-TARGET_ALIGNED_ONLY=y
--                uint32_t a = arg_info(op->args[2])->val;
+ TARGET_BIG_ENDIAN=y
 -                uint32_t b = arg_info(op->args[3])->val;
 -                uint64_t r = (uint64_t)a * b;
 -                TCGArg rl, rh;
 -                TCGOp *op2 = tcg_op_insert_before(s, op, INDEX_op_mov_i32);
 -
 -                rl = op->args[0];
 -                rh = op->args[1];
 -                tcg_opt_gen_movi(&ctx, op, rl, (int32_t)r);
 -                tcg_opt_gen_movi(&ctx, op2, rh, (int32_t)(r >> 32));
 -                continue;
 -            }
 -            break;
 -
          default:
              break;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
          CASE_OP_32_64(muluh):
              done = fold_mul_highpart(&ctx, op);
              break;
 +        case INDEX_op_mulu2_i32:
 +            done = fold_mulu2_i32(&ctx, op);
 +            break;
          CASE_OP_32_64(nand):
              done = fold_nand(&ctx, op);
              break;
 --
-.25.1
+.34.1

-[PULL 24/56] tcg/optimize: Split out fold_setcond
+[PULL 48/53] tcg: Remove TARGET_ALIGNED_ONLY
-Reviewed-by: Luis Pires <luis.pires@eldorado.org.br>
+All uses have now been expunged.
-Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
 Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- tcg/optimize.c | 23 ++++++++++++++---------
+ include/exec/memop.h  | 13 ++-----------
-file changed, 14 insertions(+), 9 deletions(-)
+ include/exec/poison.h |  1 -
  tcg/tcg.c             |  5 -----
 files changed, 2 insertions(+), 17 deletions(-)
-diff --git a/tcg/optimize.c b/tcg/optimize.c
+diff --git a/include/exec/memop.h b/include/exec/memop.h
 index XXXXXXX..XXXXXXX 100644
---- a/tcg/optimize.c
+--- a/include/exec/memop.h
-+++ b/tcg/optimize.c
++++ b/include/exec/memop.h
-@@ -XXX,XX +XXX,XX @@ static bool fold_remainder(OptContext *ctx, TCGOp *op)
+@@ -XXX,XX +XXX,XX @@ typedef enum MemOp {
-     return fold_const2(ctx, op);
+      * MO_UNALN accesses are never checked for alignment.
- }
+      * MO_ALIGN accesses will result in a call to the CPU's
+      * do_unaligned_access hook if the guest address is not aligned.
-+static bool fold_setcond(OptContext *ctx, TCGOp *op)
+-     * The default depends on whether the target CPU defines
-+{
+-     * TARGET_ALIGNED_ONLY.
-+    TCGCond cond = op->args[3];
+      *
-+    int i = do_constant_folding_cond(op->opc, op->args[1], op->args[2], cond);
+      * Some architectures (e.g. ARMv8) need the address which is aligned
-+
+      * to a size more than the size of the memory access.
-+    if (i >= 0) {
+@@ -XXX,XX +XXX,XX @@ typedef enum MemOp {
-+        return tcg_opt_gen_movi(ctx, op, op->args[0], i);
+      */
-+    }
+     MO_ASHIFT = 5,
-+    return false;
+     MO_AMASK = 0x7 << MO_ASHIFT,
-+}
+-#ifdef NEED_CPU_H
-+
+-#ifdef TARGET_ALIGNED_ONLY
- static bool fold_setcond2(OptContext *ctx, TCGOp *op)
+-    MO_ALIGN = 0,
- {
+-    MO_UNALN = MO_AMASK,
-     TCGCond cond = op->args[5];
+-#else
-@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
+-    MO_ALIGN = MO_AMASK,
-             }
+-    MO_UNALN = 0,
-             break;
+-#endif
+-#endif
--        CASE_OP_32_64(setcond):
++    MO_UNALN    = 0,
--            i = do_constant_folding_cond(opc, op->args[1],
+     MO_ALIGN_2  = 1 << MO_ASHIFT,
--                                         op->args[2], op->args[3]);
+     MO_ALIGN_4  = 2 << MO_ASHIFT,
--            if (i >= 0) {
+     MO_ALIGN_8  = 3 << MO_ASHIFT,
--                tcg_opt_gen_movi(&ctx, op, op->args[0], i);
+     MO_ALIGN_16 = 4 << MO_ASHIFT,
--                continue;
+     MO_ALIGN_32 = 5 << MO_ASHIFT,
--            }
+     MO_ALIGN_64 = 6 << MO_ASHIFT,
--            break;
++    MO_ALIGN    = MO_AMASK,
--
-         CASE_OP_32_64(movcond):
+     /* Combinations of the above, for ease of use.  */
-             i = do_constant_folding_cond(opc, op->args[1],
+     MO_UB    = MO_8,
-                                          op->args[2], op->args[5]);
+diff --git a/include/exec/poison.h b/include/exec/poison.h
-@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
+index XXXXXXX..XXXXXXX 100644
-         CASE_OP_32_64(shr):
+--- a/include/exec/poison.h
-             done = fold_shift(&ctx, op);
++++ b/include/exec/poison.h
-             break;
+@@ -XXX,XX +XXX,XX @@
-+        CASE_OP_32_64(setcond):
+ #pragma GCC poison TARGET_TRICORE
-+            done = fold_setcond(&ctx, op);
+ #pragma GCC poison TARGET_XTENSA
-+            break;
-         case INDEX_op_setcond2_i32:
+-#pragma GCC poison TARGET_ALIGNED_ONLY
-             done = fold_setcond2(&ctx, op);
+ #pragma GCC poison TARGET_HAS_BFLT
-             break;
+ #pragma GCC poison TARGET_NAME
  #pragma GCC poison TARGET_SUPPORTS_MTTCG
 diff --git a/tcg/tcg.c b/tcg/tcg.c
 index XXXXXXX..XXXXXXX 100644
 --- a/tcg/tcg.c
 +++ b/tcg/tcg.c
@@ -XXX,XX +XXX,XX @@ static const char * const ldst_name[] =
  };
  static const char * const alignment_name[(MO_AMASK >> MO_ASHIFT) + 1] = {
 -#ifdef TARGET_ALIGNED_ONLY
      [MO_UNALN >> MO_ASHIFT]    = "un+",
 -    [MO_ALIGN >> MO_ASHIFT]    = "",
 -#else
 -    [MO_UNALN >> MO_ASHIFT]    = "",
      [MO_ALIGN >> MO_ASHIFT]    = "al+",
 -#endif
      [MO_ALIGN_2 >> MO_ASHIFT]  = "al2+",
      [MO_ALIGN_4 >> MO_ASHIFT]  = "al4+",
      [MO_ALIGN_8 >> MO_ASHIFT]  = "al8+",
 --
-.25.1
+.34.1

-[PULL 12/56] tcg/optimize: Split out copy_propagate
+[PULL 49/53] accel/tcg: Add cpu_in_serial_context
-Continue splitting tcg_optimize.
+Like cpu_in_exclusive_context, but also true if
 there is no other cpu against which we could race.
 Use it in tb_flush as a direct replacement.
 Use it in cpu_loop_exit_atomic to ensure that there
 is no loop against cpu_exec_step_atomic.
 Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
-Reviewed-by: Luis Pires <luis.pires@eldorado.org.br>
+Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
-Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
+Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- tcg/optimize.c | 22 ++++++++++++++--------
+ accel/tcg/internal.h        | 9 +++++++++
-file changed, 14 insertions(+), 8 deletions(-)
+ accel/tcg/cpu-exec-common.c | 3 +++
  accel/tcg/tb-maint.c        | 2 +-
 files changed, 13 insertions(+), 1 deletion(-)
-diff --git a/tcg/optimize.c b/tcg/optimize.c
+diff --git a/accel/tcg/internal.h b/accel/tcg/internal.h
 index XXXXXXX..XXXXXXX 100644
---- a/tcg/optimize.c
+--- a/accel/tcg/internal.h
-+++ b/tcg/optimize.c
++++ b/accel/tcg/internal.h
-@@ -XXX,XX +XXX,XX @@ static void init_arguments(OptContext *ctx, TCGOp *op, int nb_args)
+@@ -XXX,XX +XXX,XX @@ static inline target_ulong log_pc(CPUState *cpu, const TranslationBlock *tb)
      }
  }
-+static void copy_propagate(OptContext *ctx, TCGOp *op,
++/*
-+                           int nb_oargs, int nb_iargs)
++ * Return true if CS is not running in parallel with other cpus, either
 + * because there are no other cpus or we are within an exclusive context.
 + */
 +static inline bool cpu_in_serial_context(CPUState *cs)
 +{
-+    TCGContext *s = ctx->tcg;
++    return !(cs->tcg_cflags & CF_PARALLEL) || cpu_in_exclusive_context(cs);
 +
 +    for (int i = nb_oargs; i < nb_oargs + nb_iargs; i++) {
 +        TCGTemp *ts = arg_temp(op->args[i]);
 +        if (ts && ts_is_copy(ts)) {
 +            op->args[i] = temp_arg(find_better_copy(s, ts));
 +        }
 +    }
 +}
 +
- /* Propagate constants and copies, fold constant expressions. */
+ extern int64_t max_delay;
- void tcg_optimize(TCGContext *s)
+ extern int64_t max_advance;
 diff --git a/accel/tcg/cpu-exec-common.c b/accel/tcg/cpu-exec-common.c
 index XXXXXXX..XXXXXXX 100644
 --- a/accel/tcg/cpu-exec-common.c
 +++ b/accel/tcg/cpu-exec-common.c
@@ -XXX,XX +XXX,XX @@
  #include "sysemu/tcg.h"
  #include "exec/exec-all.h"
  #include "qemu/plugin.h"
 +#include "internal.h"
  bool tcg_allowed;
@@ -XXX,XX +XXX,XX @@ void cpu_loop_exit_restore(CPUState *cpu, uintptr_t pc)
  void cpu_loop_exit_atomic(CPUState *cpu, uintptr_t pc)
  {
-@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
++    /* Prevent looping if already executing in a serial context. */
-             nb_iargs = def->nb_iargs;
++    g_assert(!cpu_in_serial_context(cpu));
-         }
+     cpu->exception_index = EXCP_ATOMIC;
-         init_arguments(&ctx, op, nb_oargs + nb_iargs);
+     cpu_loop_exit_restore(cpu, pc);
--
+ }
--        /* Do copy propagation */
+diff --git a/accel/tcg/tb-maint.c b/accel/tcg/tb-maint.c
--        for (i = nb_oargs; i < nb_oargs + nb_iargs; i++) {
+index XXXXXXX..XXXXXXX 100644
--            TCGTemp *ts = arg_temp(op->args[i]);
+--- a/accel/tcg/tb-maint.c
--            if (ts && ts_is_copy(ts)) {
++++ b/accel/tcg/tb-maint.c
--                op->args[i] = temp_arg(find_better_copy(s, ts));
+@@ -XXX,XX +XXX,XX @@ void tb_flush(CPUState *cpu)
--            }
+     if (tcg_enabled()) {
--        }
+         unsigned tb_flush_count = qatomic_read(&tb_ctx.tb_flush_count);
-+        copy_propagate(&ctx, op, nb_oargs, nb_iargs);
+-        if (cpu_in_exclusive_context(cpu)) {
-         /* For commutative operations make constant second argument */
++        if (cpu_in_serial_context(cpu)) {
-         switch (opc) {
+             do_tb_flush(cpu, RUN_ON_CPU_HOST_INT(tb_flush_count));
          } else {
              async_safe_run_on_cpu(cpu, do_tb_flush,
 --
-.25.1
+.34.1

-[PULL 11/56] tcg/optimize: Split out init_arguments
+[PULL 50/53] accel/tcg: Introduce tlb_read_idx
-There was no real reason for calls to have separate code here.
+Instead of playing with offsetof in various places, use
-Unify init for calls vs non-calls using the call path, which
+MMUAccessType to index an array.  This is easily defined
-handles TCG_CALL_DUMMY_ARG.
+instead of the previous dummy padding array in the union.
 Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
-Reviewed-by: Luis Pires <luis.pires@eldorado.org.br>
+Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
-Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
+Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- tcg/optimize.c | 25 +++++++++++--------------
+ include/exec/cpu-defs.h |   7 ++-
-file changed, 11 insertions(+), 14 deletions(-)
+ include/exec/cpu_ldst.h |  26 ++++++++--
  accel/tcg/cputlb.c      | 104 +++++++++++++---------------------------
 files changed, 59 insertions(+), 78 deletions(-)
-diff --git a/tcg/optimize.c b/tcg/optimize.c
+diff --git a/include/exec/cpu-defs.h b/include/exec/cpu-defs.h
 index XXXXXXX..XXXXXXX 100644
---- a/tcg/optimize.c
+--- a/include/exec/cpu-defs.h
-+++ b/tcg/optimize.c
++++ b/include/exec/cpu-defs.h
-@@ -XXX,XX +XXX,XX @@ static void init_ts_info(OptContext *ctx, TCGTemp *ts)
+@@ -XXX,XX +XXX,XX @@ typedef struct CPUTLBEntry {
                 use the corresponding iotlb value.  */
              uintptr_t addend;
          };
 -        /* padding to get a power of two size */
 -        uint8_t dummy[1 << CPU_TLB_ENTRY_BITS];
 +        /*
 +         * Padding to get a power of two size, as well as index
 +         * access to addr_{read,write,code}.
 +         */
 +        target_ulong addr_idx[(1 << CPU_TLB_ENTRY_BITS) / TARGET_LONG_SIZE];
      };
  } CPUTLBEntry;
 diff --git a/include/exec/cpu_ldst.h b/include/exec/cpu_ldst.h
 index XXXXXXX..XXXXXXX 100644
 --- a/include/exec/cpu_ldst.h
 +++ b/include/exec/cpu_ldst.h
@@ -XXX,XX +XXX,XX @@ static inline void clear_helper_retaddr(void)
  /* Needed for TCG_OVERSIZED_GUEST */
  #include "tcg/tcg.h"
 +static inline target_ulong tlb_read_idx(const CPUTLBEntry *entry,
 +                                        MMUAccessType access_type)
 +{
 +    /* Do not rearrange the CPUTLBEntry structure members. */
 +    QEMU_BUILD_BUG_ON(offsetof(CPUTLBEntry, addr_read) !=
 +                      MMU_DATA_LOAD * TARGET_LONG_SIZE);
 +    QEMU_BUILD_BUG_ON(offsetof(CPUTLBEntry, addr_write) !=
 +                      MMU_DATA_STORE * TARGET_LONG_SIZE);
 +    QEMU_BUILD_BUG_ON(offsetof(CPUTLBEntry, addr_code) !=
 +                      MMU_INST_FETCH * TARGET_LONG_SIZE);
 +
 +    const target_ulong *ptr = &entry->addr_idx[access_type];
 +#if TCG_OVERSIZED_GUEST
 +    return *ptr;
 +#else
 +    /* ofs might correspond to .addr_write, so use qatomic_read */
 +    return qatomic_read(ptr);
 +#endif
 +}
 +
  static inline target_ulong tlb_addr_write(const CPUTLBEntry *entry)
  {
 -#if TCG_OVERSIZED_GUEST
 -    return entry->addr_write;
 -#else
 -    return qatomic_read(&entry->addr_write);
 -#endif
 +    return tlb_read_idx(entry, MMU_DATA_STORE);
  }
  /* Find the TLB index corresponding to the mmu_idx + address pair.  */
 diff --git a/accel/tcg/cputlb.c b/accel/tcg/cputlb.c
 index XXXXXXX..XXXXXXX 100644
 --- a/accel/tcg/cputlb.c
 +++ b/accel/tcg/cputlb.c
@@ -XXX,XX +XXX,XX @@ static void io_writex(CPUArchState *env, CPUTLBEntryFull *full,
      }
  }
--static void init_arg_info(OptContext *ctx, TCGArg arg)
+-static inline target_ulong tlb_read_ofs(CPUTLBEntry *entry, size_t ofs)
 -{
--    init_ts_info(ctx, arg_temp(arg));
+-#if TCG_OVERSIZED_GUEST
 -    return *(target_ulong *)((uintptr_t)entry + ofs);
 -#else
 -    /* ofs might correspond to .addr_write, so use qatomic_read */
 -    return qatomic_read((target_ulong *)((uintptr_t)entry + ofs));
 -#endif
 -}
 -
- static TCGTemp *find_better_copy(TCGContext *s, TCGTemp *ts)
+ /* Return true if ADDR is present in the victim tlb, and has been copied
- {
+    back to the main tlb.  */
-     TCGTemp *i, *g, *l;
+ static bool victim_tlb_hit(CPUArchState *env, size_t mmu_idx, size_t index,
-@@ -XXX,XX +XXX,XX @@ static bool swap_commutative2(TCGArg *p1, TCGArg *p2)
+-                           size_t elt_ofs, target_ulong page)
 +                           MMUAccessType access_type, target_ulong page)
  {
      size_t vidx;
      assert_cpu_is_self(env_cpu(env));
      for (vidx = 0; vidx < CPU_VTLB_SIZE; ++vidx) {
          CPUTLBEntry *vtlb = &env_tlb(env)->d[mmu_idx].vtable[vidx];
 -        target_ulong cmp;
 -
 -        /* elt_ofs might correspond to .addr_write, so use qatomic_read */
 -#if TCG_OVERSIZED_GUEST
 -        cmp = *(target_ulong *)((uintptr_t)vtlb + elt_ofs);
 -#else
 -        cmp = qatomic_read((target_ulong *)((uintptr_t)vtlb + elt_ofs));
 -#endif
 +        target_ulong cmp = tlb_read_idx(vtlb, access_type);
          if (cmp == page) {
              /* Found entry in victim tlb, swap tlb and iotlb.  */
@@ -XXX,XX +XXX,XX @@ static bool victim_tlb_hit(CPUArchState *env, size_t mmu_idx, size_t index,
      return false;
  }
-+static void init_arguments(OptContext *ctx, TCGOp *op, int nb_args)
+-/* Macro to call the above, with local variables from the use context.  */
-+{
+-#define VICTIM_TLB_HIT(TY, ADDR) \
-+    for (int i = 0; i < nb_args; i++) {
+-  victim_tlb_hit(env, mmu_idx, index, offsetof(CPUTLBEntry, TY), \
-+        TCGTemp *ts = arg_temp(op->args[i]);
+-                 (ADDR) & TARGET_PAGE_MASK)
-+        if (ts) {
+-
-+            init_ts_info(ctx, ts);
+ static void notdirty_write(CPUState *cpu, vaddr mem_vaddr, unsigned size,
-+        }
+                            CPUTLBEntryFull *full, uintptr_t retaddr)
-+    }
+ {
-+}
+@@ -XXX,XX +XXX,XX @@ static int probe_access_internal(CPUArchState *env, target_ulong addr,
-+
+ {
- /* Propagate constants and copies, fold constant expressions. */
+     uintptr_t index = tlb_index(env, mmu_idx, addr);
- void tcg_optimize(TCGContext *s)
+     CPUTLBEntry *entry = tlb_entry(env, mmu_idx, addr);
- {
+-    target_ulong tlb_addr, page_addr;
-@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
+-    size_t elt_ofs;
-         if (opc == INDEX_op_call) {
+-    int flags;
-             nb_oargs = TCGOP_CALLO(op);
++    target_ulong tlb_addr = tlb_read_idx(entry, access_type);
-             nb_iargs = TCGOP_CALLI(op);
++    target_ulong page_addr = addr & TARGET_PAGE_MASK;
--            for (i = 0; i < nb_oargs + nb_iargs; i++) {
++    int flags = TLB_FLAGS_MASK;
--                TCGTemp *ts = arg_temp(op->args[i]);
--                if (ts) {
+-    switch (access_type) {
--                    init_ts_info(&ctx, ts);
+-    case MMU_DATA_LOAD:
--                }
+-        elt_ofs = offsetof(CPUTLBEntry, addr_read);
--            }
+-        break;
-         } else {
+-    case MMU_DATA_STORE:
-             nb_oargs = def->nb_oargs;
+-        elt_ofs = offsetof(CPUTLBEntry, addr_write);
-             nb_iargs = def->nb_iargs;
+-        break;
--            for (i = 0; i < nb_oargs + nb_iargs; i++) {
+-    case MMU_INST_FETCH:
--                init_arg_info(&ctx, op->args[i]);
+-        elt_ofs = offsetof(CPUTLBEntry, addr_code);
--            }
+-        break;
 -    default:
 -        g_assert_not_reached();
 -    }
 -    tlb_addr = tlb_read_ofs(entry, elt_ofs);
 -
 -    flags = TLB_FLAGS_MASK;
 -    page_addr = addr & TARGET_PAGE_MASK;
      if (!tlb_hit_page(tlb_addr, page_addr)) {
 -        if (!victim_tlb_hit(env, mmu_idx, index, elt_ofs, page_addr)) {
 +        if (!victim_tlb_hit(env, mmu_idx, index, access_type, page_addr)) {
              CPUState *cs = env_cpu(env);
              if (!cs->cc->tcg_ops->tlb_fill(cs, addr, fault_size, access_type,
@@ -XXX,XX +XXX,XX @@ static int probe_access_internal(CPUArchState *env, target_ulong addr,
               */
              flags &= ~TLB_INVALID_MASK;
          }
-+        init_arguments(&ctx, op, nb_oargs + nb_iargs);
+-        tlb_addr = tlb_read_ofs(entry, elt_ofs);
++        tlb_addr = tlb_read_idx(entry, access_type);
-         /* Do copy propagation */
+     }
-         for (i = nb_oargs; i < nb_oargs + nb_iargs; i++) {
+     flags &= tlb_addr;
@@ -XXX,XX +XXX,XX @@ static void *atomic_mmu_lookup(CPUArchState *env, target_ulong addr,
      if (prot & PAGE_WRITE) {
          tlb_addr = tlb_addr_write(tlbe);
          if (!tlb_hit(tlb_addr, addr)) {
 -            if (!VICTIM_TLB_HIT(addr_write, addr)) {
 +            if (!victim_tlb_hit(env, mmu_idx, index, MMU_DATA_STORE,
 +                                addr & TARGET_PAGE_MASK)) {
                  tlb_fill(env_cpu(env), addr, size,
                           MMU_DATA_STORE, mmu_idx, retaddr);
                  index = tlb_index(env, mmu_idx, addr);
@@ -XXX,XX +XXX,XX @@ static void *atomic_mmu_lookup(CPUArchState *env, target_ulong addr,
      } else /* if (prot & PAGE_READ) */ {
          tlb_addr = tlbe->addr_read;
          if (!tlb_hit(tlb_addr, addr)) {
 -            if (!VICTIM_TLB_HIT(addr_read, addr)) {
 +            if (!victim_tlb_hit(env, mmu_idx, index, MMU_DATA_LOAD,
 +                                addr & TARGET_PAGE_MASK)) {
                  tlb_fill(env_cpu(env), addr, size,
                           MMU_DATA_LOAD, mmu_idx, retaddr);
                  index = tlb_index(env, mmu_idx, addr);
@@ -XXX,XX +XXX,XX @@ load_memop(const void *haddr, MemOp op)
  static inline uint64_t QEMU_ALWAYS_INLINE
  load_helper(CPUArchState *env, target_ulong addr, MemOpIdx oi,
 -            uintptr_t retaddr, MemOp op, bool code_read,
 +            uintptr_t retaddr, MemOp op, MMUAccessType access_type,
              FullLoadHelper *full_load)
  {
 -    const size_t tlb_off = code_read ?
 -        offsetof(CPUTLBEntry, addr_code) : offsetof(CPUTLBEntry, addr_read);
 -    const MMUAccessType access_type =
 -        code_read ? MMU_INST_FETCH : MMU_DATA_LOAD;
      const unsigned a_bits = get_alignment_bits(get_memop(oi));
      const size_t size = memop_size(op);
      uintptr_t mmu_idx = get_mmuidx(oi);
@@ -XXX,XX +XXX,XX @@ load_helper(CPUArchState *env, target_ulong addr, MemOpIdx oi,
      index = tlb_index(env, mmu_idx, addr);
      entry = tlb_entry(env, mmu_idx, addr);
 -    tlb_addr = code_read ? entry->addr_code : entry->addr_read;
 +    tlb_addr = tlb_read_idx(entry, access_type);
      /* If the TLB entry is for a different page, reload and try again.  */
      if (!tlb_hit(tlb_addr, addr)) {
 -        if (!victim_tlb_hit(env, mmu_idx, index, tlb_off,
 +        if (!victim_tlb_hit(env, mmu_idx, index, access_type,
                              addr & TARGET_PAGE_MASK)) {
              tlb_fill(env_cpu(env), addr, size,
                       access_type, mmu_idx, retaddr);
              index = tlb_index(env, mmu_idx, addr);
              entry = tlb_entry(env, mmu_idx, addr);
          }
 -        tlb_addr = code_read ? entry->addr_code : entry->addr_read;
 +        tlb_addr = tlb_read_idx(entry, access_type);
          tlb_addr &= ~TLB_INVALID_MASK;
      }
@@ -XXX,XX +XXX,XX @@ static uint64_t full_ldub_mmu(CPUArchState *env, target_ulong addr,
                                MemOpIdx oi, uintptr_t retaddr)
  {
      validate_memop(oi, MO_UB);
 -    return load_helper(env, addr, oi, retaddr, MO_UB, false, full_ldub_mmu);
 +    return load_helper(env, addr, oi, retaddr, MO_UB, MMU_DATA_LOAD,
 +                       full_ldub_mmu);
  }
  tcg_target_ulong helper_ret_ldub_mmu(CPUArchState *env, target_ulong addr,
@@ -XXX,XX +XXX,XX @@ static uint64_t full_le_lduw_mmu(CPUArchState *env, target_ulong addr,
                                   MemOpIdx oi, uintptr_t retaddr)
  {
      validate_memop(oi, MO_LEUW);
 -    return load_helper(env, addr, oi, retaddr, MO_LEUW, false,
 +    return load_helper(env, addr, oi, retaddr, MO_LEUW, MMU_DATA_LOAD,
                         full_le_lduw_mmu);
  }
@@ -XXX,XX +XXX,XX @@ static uint64_t full_be_lduw_mmu(CPUArchState *env, target_ulong addr,
                                   MemOpIdx oi, uintptr_t retaddr)
  {
      validate_memop(oi, MO_BEUW);
 -    return load_helper(env, addr, oi, retaddr, MO_BEUW, false,
 +    return load_helper(env, addr, oi, retaddr, MO_BEUW, MMU_DATA_LOAD,
                         full_be_lduw_mmu);
  }
@@ -XXX,XX +XXX,XX @@ static uint64_t full_le_ldul_mmu(CPUArchState *env, target_ulong addr,
                                   MemOpIdx oi, uintptr_t retaddr)
  {
      validate_memop(oi, MO_LEUL);
 -    return load_helper(env, addr, oi, retaddr, MO_LEUL, false,
 +    return load_helper(env, addr, oi, retaddr, MO_LEUL, MMU_DATA_LOAD,
                         full_le_ldul_mmu);
  }
@@ -XXX,XX +XXX,XX @@ static uint64_t full_be_ldul_mmu(CPUArchState *env, target_ulong addr,
                                   MemOpIdx oi, uintptr_t retaddr)
  {
      validate_memop(oi, MO_BEUL);
 -    return load_helper(env, addr, oi, retaddr, MO_BEUL, false,
 +    return load_helper(env, addr, oi, retaddr, MO_BEUL, MMU_DATA_LOAD,
                         full_be_ldul_mmu);
  }
@@ -XXX,XX +XXX,XX @@ uint64_t helper_le_ldq_mmu(CPUArchState *env, target_ulong addr,
                             MemOpIdx oi, uintptr_t retaddr)
  {
      validate_memop(oi, MO_LEUQ);
 -    return load_helper(env, addr, oi, retaddr, MO_LEUQ, false,
 +    return load_helper(env, addr, oi, retaddr, MO_LEUQ, MMU_DATA_LOAD,
                         helper_le_ldq_mmu);
  }
@@ -XXX,XX +XXX,XX @@ uint64_t helper_be_ldq_mmu(CPUArchState *env, target_ulong addr,
                             MemOpIdx oi, uintptr_t retaddr)
  {
      validate_memop(oi, MO_BEUQ);
 -    return load_helper(env, addr, oi, retaddr, MO_BEUQ, false,
 +    return load_helper(env, addr, oi, retaddr, MO_BEUQ, MMU_DATA_LOAD,
                         helper_be_ldq_mmu);
  }
@@ -XXX,XX +XXX,XX @@ store_helper_unaligned(CPUArchState *env, target_ulong addr, uint64_t val,
                         uintptr_t retaddr, size_t size, uintptr_t mmu_idx,
                         bool big_endian)
  {
 -    const size_t tlb_off = offsetof(CPUTLBEntry, addr_write);
      uintptr_t index, index2;
      CPUTLBEntry *entry, *entry2;
      target_ulong page1, page2, tlb_addr, tlb_addr2;
@@ -XXX,XX +XXX,XX @@ store_helper_unaligned(CPUArchState *env, target_ulong addr, uint64_t val,
      tlb_addr2 = tlb_addr_write(entry2);
      if (page1 != page2 && !tlb_hit_page(tlb_addr2, page2)) {
 -        if (!victim_tlb_hit(env, mmu_idx, index2, tlb_off, page2)) {
 +        if (!victim_tlb_hit(env, mmu_idx, index2, MMU_DATA_STORE, page2)) {
              tlb_fill(env_cpu(env), page2, size2, MMU_DATA_STORE,
                       mmu_idx, retaddr);
              index2 = tlb_index(env, mmu_idx, page2);
@@ -XXX,XX +XXX,XX @@ static inline void QEMU_ALWAYS_INLINE
  store_helper(CPUArchState *env, target_ulong addr, uint64_t val,
               MemOpIdx oi, uintptr_t retaddr, MemOp op)
  {
 -    const size_t tlb_off = offsetof(CPUTLBEntry, addr_write);
      const unsigned a_bits = get_alignment_bits(get_memop(oi));
      const size_t size = memop_size(op);
      uintptr_t mmu_idx = get_mmuidx(oi);
@@ -XXX,XX +XXX,XX @@ store_helper(CPUArchState *env, target_ulong addr, uint64_t val,
      /* If the TLB entry is for a different page, reload and try again.  */
      if (!tlb_hit(tlb_addr, addr)) {
 -        if (!victim_tlb_hit(env, mmu_idx, index, tlb_off,
 +        if (!victim_tlb_hit(env, mmu_idx, index, MMU_DATA_STORE,
              addr & TARGET_PAGE_MASK)) {
              tlb_fill(env_cpu(env), addr, size, MMU_DATA_STORE,
                       mmu_idx, retaddr);
@@ -XXX,XX +XXX,XX @@ void cpu_st16_le_mmu(CPUArchState *env, abi_ptr addr, Int128 val,
  static uint64_t full_ldub_code(CPUArchState *env, target_ulong addr,
                                 MemOpIdx oi, uintptr_t retaddr)
  {
 -    return load_helper(env, addr, oi, retaddr, MO_8, true, full_ldub_code);
 +    return load_helper(env, addr, oi, retaddr, MO_8,
 +                       MMU_INST_FETCH, full_ldub_code);
  }
  uint32_t cpu_ldub_code(CPUArchState *env, abi_ptr addr)
@@ -XXX,XX +XXX,XX @@ uint32_t cpu_ldub_code(CPUArchState *env, abi_ptr addr)
  static uint64_t full_lduw_code(CPUArchState *env, target_ulong addr,
                                 MemOpIdx oi, uintptr_t retaddr)
  {
 -    return load_helper(env, addr, oi, retaddr, MO_TEUW, true, full_lduw_code);
 +    return load_helper(env, addr, oi, retaddr, MO_TEUW,
 +                       MMU_INST_FETCH, full_lduw_code);
  }
  uint32_t cpu_lduw_code(CPUArchState *env, abi_ptr addr)
@@ -XXX,XX +XXX,XX @@ uint32_t cpu_lduw_code(CPUArchState *env, abi_ptr addr)
  static uint64_t full_ldl_code(CPUArchState *env, target_ulong addr,
                                MemOpIdx oi, uintptr_t retaddr)
  {
 -    return load_helper(env, addr, oi, retaddr, MO_TEUL, true, full_ldl_code);
 +    return load_helper(env, addr, oi, retaddr, MO_TEUL,
 +                       MMU_INST_FETCH, full_ldl_code);
  }
  uint32_t cpu_ldl_code(CPUArchState *env, abi_ptr addr)
@@ -XXX,XX +XXX,XX @@ uint32_t cpu_ldl_code(CPUArchState *env, abi_ptr addr)
  static uint64_t full_ldq_code(CPUArchState *env, target_ulong addr,
                                MemOpIdx oi, uintptr_t retaddr)
  {
 -    return load_helper(env, addr, oi, retaddr, MO_TEUQ, true, full_ldq_code);
 +    return load_helper(env, addr, oi, retaddr, MO_TEUQ,
 +                       MMU_INST_FETCH, full_ldq_code);
  }
  uint64_t cpu_ldq_code(CPUArchState *env, abi_ptr addr)
 --
-.25.1
+.34.1

-[PULL 15/56] tcg/optimize: Change fail return for do_constant_folding_cond*
+Deleted patch
-Return -1 instead of 2 for failure, so that we can
-use comparisons against 0 for all cases.
-Reviewed-by: Luis Pires <luis.pires@eldorado.org.br>
-Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
-Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
----
- tcg/optimize.c | 145 +++++++++++++++++++++++++------------------------
-file changed, 74 insertions(+), 71 deletions(-)
-diff --git a/tcg/optimize.c b/tcg/optimize.c
-index XXXXXXX..XXXXXXX 100644
---- a/tcg/optimize.c
-+++ b/tcg/optimize.c
-@@ -XXX,XX +XXX,XX @@ static bool do_constant_folding_cond_eq(TCGCond c)
-     }
- }
--/* Return 2 if the condition can't be simplified, and the result
--   of the condition (0 or 1) if it can */
--static TCGArg do_constant_folding_cond(TCGOpcode op, TCGArg x,
--                                       TCGArg y, TCGCond c)
-+/*
-+ * Return -1 if the condition can't be simplified,
-+ * and the result of the condition (0 or 1) if it can.
-+ */
-+static int do_constant_folding_cond(TCGOpcode op, TCGArg x,
-+                                    TCGArg y, TCGCond c)
- {
-     uint64_t xv = arg_info(x)->val;
-     uint64_t yv = arg_info(y)->val;
-@@ -XXX,XX +XXX,XX @@ static TCGArg do_constant_folding_cond(TCGOpcode op, TCGArg x,
-         case TCG_COND_GEU:
-             return 1;
-         default:
--            return 2;
-+            return -1;
-         }
-     }
--    return 2;
-+    return -1;
- }
--/* Return 2 if the condition can't be simplified, and the result
--   of the condition (0 or 1) if it can */
--static TCGArg do_constant_folding_cond2(TCGArg *p1, TCGArg *p2, TCGCond c)
-+/*
-+ * Return -1 if the condition can't be simplified,
-+ * and the result of the condition (0 or 1) if it can.
-+ */
-+static int do_constant_folding_cond2(TCGArg *p1, TCGArg *p2, TCGCond c)
- {
-     TCGArg al = p1[0], ah = p1[1];
-     TCGArg bl = p2[0], bh = p2[1];
-@@ -XXX,XX +XXX,XX @@ static TCGArg do_constant_folding_cond2(TCGArg *p1, TCGArg *p2, TCGCond c)
-     if (args_are_copies(al, bl) && args_are_copies(ah, bh)) {
-         return do_constant_folding_cond_eq(c);
-     }
--    return 2;
-+    return -1;
- }
- static bool swap_commutative(TCGArg dest, TCGArg *p1, TCGArg *p2)
-@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
-             break;
-         CASE_OP_32_64(setcond):
--            tmp = do_constant_folding_cond(opc, op->args[1],
--                                           op->args[2], op->args[3]);
--            if (tmp != 2) {
--                tcg_opt_gen_movi(&ctx, op, op->args[0], tmp);
-+            i = do_constant_folding_cond(opc, op->args[1],
-+                                         op->args[2], op->args[3]);
-+            if (i >= 0) {
-+                tcg_opt_gen_movi(&ctx, op, op->args[0], i);
-                 continue;
-             }
-             break;
-         CASE_OP_32_64(brcond):
--            tmp = do_constant_folding_cond(opc, op->args[0],
--                                           op->args[1], op->args[2]);
--            switch (tmp) {
--            case 0:
-+            i = do_constant_folding_cond(opc, op->args[0],
-+                                         op->args[1], op->args[2]);
-+            if (i == 0) {
-                 tcg_op_remove(s, op);
-                 continue;
--            case 1:
-+            } else if (i > 0) {
-                 memset(&ctx.temps_used, 0, sizeof(ctx.temps_used));
-                 op->opc = opc = INDEX_op_br;
-                 op->args[0] = op->args[3];
-@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
-             break;
-         CASE_OP_32_64(movcond):
--            tmp = do_constant_folding_cond(opc, op->args[1],
--                                           op->args[2], op->args[5]);
--            if (tmp != 2) {
--                tcg_opt_gen_mov(&ctx, op, op->args[0], op->args[4-tmp]);
-+            i = do_constant_folding_cond(opc, op->args[1],
-+                                         op->args[2], op->args[5]);
-+            if (i >= 0) {
-+                tcg_opt_gen_mov(&ctx, op, op->args[0], op->args[4 - i]);
-                 continue;
-             }
-             if (arg_is_const(op->args[3]) && arg_is_const(op->args[4])) {
-@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
-             break;
-         case INDEX_op_brcond2_i32:
--            tmp = do_constant_folding_cond2(&op->args[0], &op->args[2],
--                                            op->args[4]);
--            if (tmp == 0) {
-+            i = do_constant_folding_cond2(&op->args[0], &op->args[2],
-+                                          op->args[4]);
-+            if (i == 0) {
-             do_brcond_false:
-                 tcg_op_remove(s, op);
-                 continue;
-             }
--            if (tmp == 1) {
-+            if (i > 0) {
-             do_brcond_true:
-                 op->opc = opc = INDEX_op_br;
-                 op->args[0] = op->args[5];
-@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
-             if (op->args[4] == TCG_COND_EQ) {
-                 /* Simplify EQ comparisons where one of the pairs
-                    can be simplified.  */
--                tmp = do_constant_folding_cond(INDEX_op_brcond_i32,
--                                               op->args[0], op->args[2],
--                                               TCG_COND_EQ);
--                if (tmp == 0) {
-+                i = do_constant_folding_cond(INDEX_op_brcond_i32,
-+                                             op->args[0], op->args[2],
-+                                             TCG_COND_EQ);
-+                if (i == 0) {
-                     goto do_brcond_false;
--                } else if (tmp == 1) {
-+                } else if (i > 0) {
-                     goto do_brcond_high;
-                 }
--                tmp = do_constant_folding_cond(INDEX_op_brcond_i32,
--                                               op->args[1], op->args[3],
--                                               TCG_COND_EQ);
--                if (tmp == 0) {
-+                i = do_constant_folding_cond(INDEX_op_brcond_i32,
-+                                             op->args[1], op->args[3],
-+                                             TCG_COND_EQ);
-+                if (i == 0) {
-                     goto do_brcond_false;
--                } else if (tmp != 1) {
-+                } else if (i < 0) {
-                     break;
-                 }
-             do_brcond_low:
-@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
-             if (op->args[4] == TCG_COND_NE) {
-                 /* Simplify NE comparisons where one of the pairs
-                    can be simplified.  */
--                tmp = do_constant_folding_cond(INDEX_op_brcond_i32,
--                                               op->args[0], op->args[2],
--                                               TCG_COND_NE);
--                if (tmp == 0) {
-+                i = do_constant_folding_cond(INDEX_op_brcond_i32,
-+                                             op->args[0], op->args[2],
-+                                             TCG_COND_NE);
-+                if (i == 0) {
-                     goto do_brcond_high;
--                } else if (tmp == 1) {
-+                } else if (i > 0) {
-                     goto do_brcond_true;
-                 }
--                tmp = do_constant_folding_cond(INDEX_op_brcond_i32,
--                                               op->args[1], op->args[3],
--                                               TCG_COND_NE);
--                if (tmp == 0) {
-+                i = do_constant_folding_cond(INDEX_op_brcond_i32,
-+                                             op->args[1], op->args[3],
-+                                             TCG_COND_NE);
-+                if (i == 0) {
-                     goto do_brcond_low;
--                } else if (tmp == 1) {
-+                } else if (i > 0) {
-                     goto do_brcond_true;
-                 }
-             }
-             break;
-         case INDEX_op_setcond2_i32:
--            tmp = do_constant_folding_cond2(&op->args[1], &op->args[3],
--                                            op->args[5]);
--            if (tmp != 2) {
-+            i = do_constant_folding_cond2(&op->args[1], &op->args[3],
-+                                          op->args[5]);
-+            if (i >= 0) {
-             do_setcond_const:
--                tcg_opt_gen_movi(&ctx, op, op->args[0], tmp);
-+                tcg_opt_gen_movi(&ctx, op, op->args[0], i);
-                 continue;
-             }
-             if ((op->args[5] == TCG_COND_LT || op->args[5] == TCG_COND_GE)
-@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
-             if (op->args[5] == TCG_COND_EQ) {
-                 /* Simplify EQ comparisons where one of the pairs
-                    can be simplified.  */
--                tmp = do_constant_folding_cond(INDEX_op_setcond_i32,
--                                               op->args[1], op->args[3],
--                                               TCG_COND_EQ);
--                if (tmp == 0) {
-+                i = do_constant_folding_cond(INDEX_op_setcond_i32,
-+                                             op->args[1], op->args[3],
-+                                             TCG_COND_EQ);
-+                if (i == 0) {
-                     goto do_setcond_const;
--                } else if (tmp == 1) {
-+                } else if (i > 0) {
-                     goto do_setcond_high;
-                 }
--                tmp = do_constant_folding_cond(INDEX_op_setcond_i32,
--                                               op->args[2], op->args[4],
--                                               TCG_COND_EQ);
--                if (tmp == 0) {
-+                i = do_constant_folding_cond(INDEX_op_setcond_i32,
-+                                             op->args[2], op->args[4],
-+                                             TCG_COND_EQ);
-+                if (i == 0) {
-                     goto do_setcond_high;
--                } else if (tmp != 1) {
-+                } else if (i < 0) {
-                     break;
-                 }
-             do_setcond_low:
-@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
-             if (op->args[5] == TCG_COND_NE) {
-                 /* Simplify NE comparisons where one of the pairs
-                    can be simplified.  */
--                tmp = do_constant_folding_cond(INDEX_op_setcond_i32,
--                                               op->args[1], op->args[3],
--                                               TCG_COND_NE);
--                if (tmp == 0) {
-+                i = do_constant_folding_cond(INDEX_op_setcond_i32,
-+                                             op->args[1], op->args[3],
-+                                             TCG_COND_NE);
-+                if (i == 0) {
-                     goto do_setcond_high;
--                } else if (tmp == 1) {
-+                } else if (i > 0) {
-                     goto do_setcond_const;
-                 }
--                tmp = do_constant_folding_cond(INDEX_op_setcond_i32,
--                                               op->args[2], op->args[4],
--                                               TCG_COND_NE);
--                if (tmp == 0) {
-+                i = do_constant_folding_cond(INDEX_op_setcond_i32,
-+                                             op->args[2], op->args[4],
-+                                             TCG_COND_NE);
-+                if (i == 0) {
-                     goto do_setcond_low;
--                } else if (tmp == 1) {
-+                } else if (i > 0) {
-                     goto do_setcond_const;
-                 }
-             }
---
-.25.1

-[PULL 36/56] tcg/optimize: Split out fold_xx_to_x
+[PULL 51/53] accel/tcg: Reorg system mode load helpers
-Pull the "op r, a, a => mov r, a" optimization into a function,
+Instead of trying to unify all operations on uint64_t, pull out
-and use it in the outer opcode fold functions.
+mmu_lookup() to perform the basic tlb hit and resolution.
 Create individual functions to handle access by size.
-Reviewed-by: Luis Pires <luis.pires@eldorado.org.br>
+Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
-Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
+Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- tcg/optimize.c | 39 ++++++++++++++++++++++++---------------
+ accel/tcg/cputlb.c | 645 +++++++++++++++++++++++++++++----------------
-file changed, 24 insertions(+), 15 deletions(-)
+file changed, 424 insertions(+), 221 deletions(-)
-diff --git a/tcg/optimize.c b/tcg/optimize.c
+diff --git a/accel/tcg/cputlb.c b/accel/tcg/cputlb.c
 index XXXXXXX..XXXXXXX 100644
---- a/tcg/optimize.c
+--- a/accel/tcg/cputlb.c
-+++ b/tcg/optimize.c
++++ b/accel/tcg/cputlb.c
-@@ -XXX,XX +XXX,XX @@ static bool fold_xx_to_i(OptContext *ctx, TCGOp *op, uint64_t i)
+@@ -XXX,XX +XXX,XX @@ bool tlb_plugin_lookup(CPUState *cpu, target_ulong addr, int mmu_idx,
-     return false;
- }
+ #endif
-+/* If the binary operation has both arguments equal, fold to identity. */
++/*
-+static bool fold_xx_to_x(OptContext *ctx, TCGOp *op)
++ * Probe for a load/store operation.
-+{
++ * Return the host address and into @flags.
-+    if (args_are_copies(op->args[1], op->args[2])) {
++ */
-+        return tcg_opt_gen_mov(ctx, op, op->args[0], op->args[1]);
++
-+    }
++typedef struct MMULookupPageData {
-+    return false;
++    CPUTLBEntryFull *full;
 +    void *haddr;
 +    target_ulong addr;
 +    int flags;
 +    int size;
 +} MMULookupPageData;
 +
 +typedef struct MMULookupLocals {
 +    MMULookupPageData page[2];
 +    MemOp memop;
 +    int mmu_idx;
 +} MMULookupLocals;
 +
 +/**
 + * mmu_lookup1: translate one page
 + * @env: cpu context
 + * @data: lookup parameters
 + * @mmu_idx: virtual address context
 + * @access_type: load/store/code
 + * @ra: return address into tcg generated code, or 0
 + *
 + * Resolve the translation for the one page at @data.addr, filling in
 + * the rest of @data with the results.  If the translation fails,
 + * tlb_fill will longjmp out.  Return true if the softmmu tlb for
 + * @mmu_idx may have resized.
 + */
 +static bool mmu_lookup1(CPUArchState *env, MMULookupPageData *data,
 +                        int mmu_idx, MMUAccessType access_type, uintptr_t ra)
 +{
 +    target_ulong addr = data->addr;
 +    uintptr_t index = tlb_index(env, mmu_idx, addr);
 +    CPUTLBEntry *entry = tlb_entry(env, mmu_idx, addr);
 +    target_ulong tlb_addr = tlb_read_idx(entry, access_type);
 +    bool maybe_resized = false;
 +
 +    /* If the TLB entry is for a different page, reload and try again.  */
 +    if (!tlb_hit(tlb_addr, addr)) {
 +        if (!victim_tlb_hit(env, mmu_idx, index, access_type,
 +                            addr & TARGET_PAGE_MASK)) {
 +            tlb_fill(env_cpu(env), addr, data->size, access_type, mmu_idx, ra);
 +            maybe_resized = true;
 +            index = tlb_index(env, mmu_idx, addr);
 +            entry = tlb_entry(env, mmu_idx, addr);
 +        }
 +        tlb_addr = tlb_read_idx(entry, access_type) & ~TLB_INVALID_MASK;
 +    }
 +
 +    data->flags = tlb_addr & TLB_FLAGS_MASK;
 +    data->full = &env_tlb(env)->d[mmu_idx].fulltlb[index];
 +    /* Compute haddr speculatively; depending on flags it might be invalid. */
 +    data->haddr = (void *)((uintptr_t)addr + entry->addend);
 +
 +    return maybe_resized;
 +}
 +
 +/**
 + * mmu_watch_or_dirty
 + * @env: cpu context
 + * @data: lookup parameters
 + * @access_type: load/store/code
 + * @ra: return address into tcg generated code, or 0
 + *
 + * Trigger watchpoints for @data.addr:@data.size;
 + * record writes to protected clean pages.
 + */
 +static void mmu_watch_or_dirty(CPUArchState *env, MMULookupPageData *data,
 +                               MMUAccessType access_type, uintptr_t ra)
 +{
 +    CPUTLBEntryFull *full = data->full;
 +    target_ulong addr = data->addr;
 +    int flags = data->flags;
 +    int size = data->size;
 +
 +    /* On watchpoint hit, this will longjmp out.  */
 +    if (flags & TLB_WATCHPOINT) {
 +        int wp = access_type == MMU_DATA_STORE ? BP_MEM_WRITE : BP_MEM_READ;
 +        cpu_check_watchpoint(env_cpu(env), addr, size, full->attrs, wp, ra);
 +        flags &= ~TLB_WATCHPOINT;
 +    }
 +
 +    /* Note that notdirty is only set for writes. */
 +    if (flags & TLB_NOTDIRTY) {
 +        notdirty_write(env_cpu(env), addr, size, full, ra);
 +        flags &= ~TLB_NOTDIRTY;
 +    }
 +    data->flags = flags;
 +}
 +
 +/**
 + * mmu_lookup: translate page(s)
 + * @env: cpu context
 + * @addr: virtual address
 + * @oi: combined mmu_idx and MemOp
 + * @ra: return address into tcg generated code, or 0
 + * @access_type: load/store/code
 + * @l: output result
 + *
 + * Resolve the translation for the page(s) beginning at @addr, for MemOp.size
 + * bytes.  Return true if the lookup crosses a page boundary.
 + */
 +static bool mmu_lookup(CPUArchState *env, target_ulong addr, MemOpIdx oi,
 +                       uintptr_t ra, MMUAccessType type, MMULookupLocals *l)
 +{
 +    unsigned a_bits;
 +    bool crosspage;
 +    int flags;
 +
 +    l->memop = get_memop(oi);
 +    l->mmu_idx = get_mmuidx(oi);
 +
 +    tcg_debug_assert(l->mmu_idx < NB_MMU_MODES);
 +
 +    /* Handle CPU specific unaligned behaviour */
 +    a_bits = get_alignment_bits(l->memop);
 +    if (addr & ((1 << a_bits) - 1)) {
 +        cpu_unaligned_access(env_cpu(env), addr, type, l->mmu_idx, ra);
 +    }
 +
 +    l->page[0].addr = addr;
 +    l->page[0].size = memop_size(l->memop);
 +    l->page[1].addr = (addr + l->page[0].size - 1) & TARGET_PAGE_MASK;
 +    l->page[1].size = 0;
 +    crosspage = (addr ^ l->page[1].addr) & TARGET_PAGE_MASK;
 +
 +    if (likely(!crosspage)) {
 +        mmu_lookup1(env, &l->page[0], l->mmu_idx, type, ra);
 +
 +        flags = l->page[0].flags;
 +        if (unlikely(flags & (TLB_WATCHPOINT | TLB_NOTDIRTY))) {
 +            mmu_watch_or_dirty(env, &l->page[0], type, ra);
 +        }
 +        if (unlikely(flags & TLB_BSWAP)) {
 +            l->memop ^= MO_BSWAP;
 +        }
 +    } else {
 +        /* Finish compute of page crossing. */
 +        int size0 = l->page[1].addr - addr;
 +        l->page[1].size = l->page[0].size - size0;
 +        l->page[0].size = size0;
 +
 +        /*
 +         * Lookup both pages, recognizing exceptions from either.  If the
 +         * second lookup potentially resized, refresh first CPUTLBEntryFull.
 +         */
 +        mmu_lookup1(env, &l->page[0], l->mmu_idx, type, ra);
 +        if (mmu_lookup1(env, &l->page[1], l->mmu_idx, type, ra)) {
 +            uintptr_t index = tlb_index(env, l->mmu_idx, addr);
 +            l->page[0].full = &env_tlb(env)->d[l->mmu_idx].fulltlb[index];
 +        }
 +
 +        flags = l->page[0].flags | l->page[1].flags;
 +        if (unlikely(flags & (TLB_WATCHPOINT | TLB_NOTDIRTY))) {
 +            mmu_watch_or_dirty(env, &l->page[0], type, ra);
 +            mmu_watch_or_dirty(env, &l->page[1], type, ra);
 +        }
 +
 +        /*
 +         * Since target/sparc is the only user of TLB_BSWAP, and all
 +         * Sparc accesses are aligned, any treatment across two pages
 +         * would be arbitrary.  Refuse it until there's a use.
 +         */
 +        tcg_debug_assert((flags & TLB_BSWAP) == 0);
 +    }
 +
 +    return crosspage;
 +}
 +
  /*
-  * These outermost fold_<op> functions are sorted alphabetically.
+  * Probe for an atomic operation.  Do not allow unaligned operations,
   * or io operations to proceed.  Return the host address.
@@ -XXX,XX +XXX,XX @@ load_memop(const void *haddr, MemOp op)
      }
  }
 -static inline uint64_t QEMU_ALWAYS_INLINE
 -load_helper(CPUArchState *env, target_ulong addr, MemOpIdx oi,
 -            uintptr_t retaddr, MemOp op, MMUAccessType access_type,
 -            FullLoadHelper *full_load)
 -{
 -    const unsigned a_bits = get_alignment_bits(get_memop(oi));
 -    const size_t size = memop_size(op);
 -    uintptr_t mmu_idx = get_mmuidx(oi);
 -    uintptr_t index;
 -    CPUTLBEntry *entry;
 -    target_ulong tlb_addr;
 -    void *haddr;
 -    uint64_t res;
 -
 -    tcg_debug_assert(mmu_idx < NB_MMU_MODES);
 -
 -    /* Handle CPU specific unaligned behaviour */
 -    if (addr & ((1 << a_bits) - 1)) {
 -        cpu_unaligned_access(env_cpu(env), addr, access_type,
 -                             mmu_idx, retaddr);
 -    }
 -
 -    index = tlb_index(env, mmu_idx, addr);
 -    entry = tlb_entry(env, mmu_idx, addr);
 -    tlb_addr = tlb_read_idx(entry, access_type);
 -
 -    /* If the TLB entry is for a different page, reload and try again.  */
 -    if (!tlb_hit(tlb_addr, addr)) {
 -        if (!victim_tlb_hit(env, mmu_idx, index, access_type,
 -                            addr & TARGET_PAGE_MASK)) {
 -            tlb_fill(env_cpu(env), addr, size,
 -                     access_type, mmu_idx, retaddr);
 -            index = tlb_index(env, mmu_idx, addr);
 -            entry = tlb_entry(env, mmu_idx, addr);
 -        }
 -        tlb_addr = tlb_read_idx(entry, access_type);
 -        tlb_addr &= ~TLB_INVALID_MASK;
 -    }
 -
 -    /* Handle anything that isn't just a straight memory access.  */
 -    if (unlikely(tlb_addr & ~TARGET_PAGE_MASK)) {
 -        CPUTLBEntryFull *full;
 -        bool need_swap;
 -
 -        /* For anything that is unaligned, recurse through full_load.  */
 -        if ((addr & (size - 1)) != 0) {
 -            goto do_unaligned_access;
 -        }
 -
 -        full = &env_tlb(env)->d[mmu_idx].fulltlb[index];
 -
 -        /* Handle watchpoints.  */
 -        if (unlikely(tlb_addr & TLB_WATCHPOINT)) {
 -            /* On watchpoint hit, this will longjmp out.  */
 -            cpu_check_watchpoint(env_cpu(env), addr, size,
 -                                 full->attrs, BP_MEM_READ, retaddr);
 -        }
 -
 -        need_swap = size > 1 && (tlb_addr & TLB_BSWAP);
 -
 -        /* Handle I/O access.  */
 -        if (likely(tlb_addr & TLB_MMIO)) {
 -            return io_readx(env, full, mmu_idx, addr, retaddr,
 -                            access_type, op ^ (need_swap * MO_BSWAP));
 -        }
 -
 -        haddr = (void *)((uintptr_t)addr + entry->addend);
 -
 -        /*
 -         * Keep these two load_memop separate to ensure that the compiler
 -         * is able to fold the entire function to a single instruction.
 -         * There is a build-time assert inside to remind you of this.  ;-)
 -         */
 -        if (unlikely(need_swap)) {
 -            return load_memop(haddr, op ^ MO_BSWAP);
 -        }
 -        return load_memop(haddr, op);
 -    }
 -
 -    /* Handle slow unaligned access (it spans two pages or IO).  */
 -    if (size > 1
 -        && unlikely((addr & ~TARGET_PAGE_MASK) + size - 1
 -                    >= TARGET_PAGE_SIZE)) {
 -        target_ulong addr1, addr2;
 -        uint64_t r1, r2;
 -        unsigned shift;
 -    do_unaligned_access:
 -        addr1 = addr & ~((target_ulong)size - 1);
 -        addr2 = addr1 + size;
 -        r1 = full_load(env, addr1, oi, retaddr);
 -        r2 = full_load(env, addr2, oi, retaddr);
 -        shift = (addr & (size - 1)) * 8;
 -
 -        if (memop_big_endian(op)) {
 -            /* Big-endian combine.  */
 -            res = (r1 << shift) | (r2 >> ((size * 8) - shift));
 -        } else {
 -            /* Little-endian combine.  */
 -            res = (r1 >> shift) | (r2 << ((size * 8) - shift));
 -        }
 -        return res & MAKE_64BIT_MASK(0, size * 8);
 -    }
 -
 -    haddr = (void *)((uintptr_t)addr + entry->addend);
 -    return load_memop(haddr, op);
 -}
 -
  /*
   * For the benefit of TCG generated code, we want to avoid the
   * complication of ABI-specific return type promotion and always
@@ -XXX,XX +XXX,XX @@ load_helper(CPUArchState *env, target_ulong addr, MemOpIdx oi,
   * We don't bother with this widened value for SOFTMMU_CODE_ACCESS.
   */
 -static uint64_t full_ldub_mmu(CPUArchState *env, target_ulong addr,
 -                              MemOpIdx oi, uintptr_t retaddr)
 +/**
 + * do_ld_mmio_beN:
 + * @env: cpu context
 + * @p: translation parameters
 + * @ret_be: accumulated data
 + * @mmu_idx: virtual address context
 + * @ra: return address into tcg generated code, or 0
 + *
-+ * The ordering of the transformations should be:
++ * Load @p->size bytes from @p->addr, which is memory-mapped i/o.
-+ *   1) those that produce a constant
++ * The bytes are concatenated in big-endian order with @ret_be.
-+ *   2) those that produce a copy
++ */
-+ *   3) those that produce information about the result value.
++static uint64_t do_ld_mmio_beN(CPUArchState *env, MMULookupPageData *p,
 +                               uint64_t ret_be, int mmu_idx,
 +                               MMUAccessType type, uintptr_t ra)
  {
 -    validate_memop(oi, MO_UB);
 -    return load_helper(env, addr, oi, retaddr, MO_UB, MMU_DATA_LOAD,
 -                       full_ldub_mmu);
 +    CPUTLBEntryFull *full = p->full;
 +    target_ulong addr = p->addr;
 +    int i, size = p->size;
 +
 +    QEMU_IOTHREAD_LOCK_GUARD();
 +    for (i = 0; i < size; i++) {
 +        uint8_t x = io_readx(env, full, mmu_idx, addr + i, ra, type, MO_UB);
 +        ret_be = (ret_be << 8) | x;
 +    }
 +    return ret_be;
 +}
 +
 +/**
 + * do_ld_bytes_beN
 + * @p: translation parameters
 + * @ret_be: accumulated data
 + *
 + * Load @p->size bytes from @p->haddr, which is RAM.
 + * The bytes to concatenated in big-endian order with @ret_be.
 + */
 +static uint64_t do_ld_bytes_beN(MMULookupPageData *p, uint64_t ret_be)
 +{
 +    uint8_t *haddr = p->haddr;
 +    int i, size = p->size;
 +
 +    for (i = 0; i < size; i++) {
 +        ret_be = (ret_be << 8) | haddr[i];
 +    }
 +    return ret_be;
 +}
 +
 +/*
 + * Wrapper for the above.
 + */
 +static uint64_t do_ld_beN(CPUArchState *env, MMULookupPageData *p,
 +                          uint64_t ret_be, int mmu_idx,
 +                          MMUAccessType type, uintptr_t ra)
 +{
 +    if (unlikely(p->flags & TLB_MMIO)) {
 +        return do_ld_mmio_beN(env, p, ret_be, mmu_idx, type, ra);
 +    } else {
 +        return do_ld_bytes_beN(p, ret_be);
 +    }
 +}
 +
 +static uint8_t do_ld_1(CPUArchState *env, MMULookupPageData *p, int mmu_idx,
 +                       MMUAccessType type, uintptr_t ra)
 +{
 +    if (unlikely(p->flags & TLB_MMIO)) {
 +        return io_readx(env, p->full, mmu_idx, p->addr, ra, type, MO_UB);
 +    } else {
 +        return *(uint8_t *)p->haddr;
 +    }
 +}
 +
 +static uint16_t do_ld_2(CPUArchState *env, MMULookupPageData *p, int mmu_idx,
 +                        MMUAccessType type, MemOp memop, uintptr_t ra)
 +{
 +    uint64_t ret;
 +
 +    if (unlikely(p->flags & TLB_MMIO)) {
 +        return io_readx(env, p->full, mmu_idx, p->addr, ra, type, memop);
 +    }
 +
 +    /* Perform the load host endian, then swap if necessary. */
 +    ret = load_memop(p->haddr, MO_UW);
 +    if (memop & MO_BSWAP) {
 +        ret = bswap16(ret);
 +    }
 +    return ret;
 +}
 +
 +static uint32_t do_ld_4(CPUArchState *env, MMULookupPageData *p, int mmu_idx,
 +                        MMUAccessType type, MemOp memop, uintptr_t ra)
 +{
 +    uint32_t ret;
 +
 +    if (unlikely(p->flags & TLB_MMIO)) {
 +        return io_readx(env, p->full, mmu_idx, p->addr, ra, type, memop);
 +    }
 +
 +    /* Perform the load host endian. */
 +    ret = load_memop(p->haddr, MO_UL);
 +    if (memop & MO_BSWAP) {
 +        ret = bswap32(ret);
 +    }
 +    return ret;
 +}
 +
 +static uint64_t do_ld_8(CPUArchState *env, MMULookupPageData *p, int mmu_idx,
 +                        MMUAccessType type, MemOp memop, uintptr_t ra)
 +{
 +    uint64_t ret;
 +
 +    if (unlikely(p->flags & TLB_MMIO)) {
 +        return io_readx(env, p->full, mmu_idx, p->addr, ra, type, memop);
 +    }
 +
 +    /* Perform the load host endian. */
 +    ret = load_memop(p->haddr, MO_UQ);
 +    if (memop & MO_BSWAP) {
 +        ret = bswap64(ret);
 +    }
 +    return ret;
 +}
 +
 +static uint8_t do_ld1_mmu(CPUArchState *env, target_ulong addr, MemOpIdx oi,
 +                          uintptr_t ra, MMUAccessType access_type)
 +{
 +    MMULookupLocals l;
 +    bool crosspage;
 +
 +    crosspage = mmu_lookup(env, addr, oi, ra, access_type, &l);
 +    tcg_debug_assert(!crosspage);
 +
 +    return do_ld_1(env, &l.page[0], l.mmu_idx, access_type, ra);
  }
  tcg_target_ulong helper_ret_ldub_mmu(CPUArchState *env, target_ulong addr,
                                       MemOpIdx oi, uintptr_t retaddr)
  {
 -    return full_ldub_mmu(env, addr, oi, retaddr);
 +    validate_memop(oi, MO_UB);
 +    return do_ld1_mmu(env, addr, oi, retaddr, MMU_DATA_LOAD);
  }
 -static uint64_t full_le_lduw_mmu(CPUArchState *env, target_ulong addr,
 -                                 MemOpIdx oi, uintptr_t retaddr)
 +static uint16_t do_ld2_mmu(CPUArchState *env, target_ulong addr, MemOpIdx oi,
 +                           uintptr_t ra, MMUAccessType access_type)
  {
 -    validate_memop(oi, MO_LEUW);
 -    return load_helper(env, addr, oi, retaddr, MO_LEUW, MMU_DATA_LOAD,
 -                       full_le_lduw_mmu);
 +    MMULookupLocals l;
 +    bool crosspage;
 +    uint16_t ret;
 +    uint8_t a, b;
 +
 +    crosspage = mmu_lookup(env, addr, oi, ra, access_type, &l);
 +    if (likely(!crosspage)) {
 +        return do_ld_2(env, &l.page[0], l.mmu_idx, access_type, l.memop, ra);
 +    }
 +
 +    a = do_ld_1(env, &l.page[0], l.mmu_idx, access_type, ra);
 +    b = do_ld_1(env, &l.page[1], l.mmu_idx, access_type, ra);
 +
 +    if ((l.memop & MO_BSWAP) == MO_LE) {
 +        ret = a | (b << 8);
 +    } else {
 +        ret = b | (a << 8);
 +    }
 +    return ret;
  }
  tcg_target_ulong helper_le_lduw_mmu(CPUArchState *env, target_ulong addr,
                                      MemOpIdx oi, uintptr_t retaddr)
  {
 -    return full_le_lduw_mmu(env, addr, oi, retaddr);
 -}
 -
 -static uint64_t full_be_lduw_mmu(CPUArchState *env, target_ulong addr,
 -                                 MemOpIdx oi, uintptr_t retaddr)
 -{
 -    validate_memop(oi, MO_BEUW);
 -    return load_helper(env, addr, oi, retaddr, MO_BEUW, MMU_DATA_LOAD,
 -                       full_be_lduw_mmu);
 +    validate_memop(oi, MO_LEUW);
 +    return do_ld2_mmu(env, addr, oi, retaddr, MMU_DATA_LOAD);
  }
  tcg_target_ulong helper_be_lduw_mmu(CPUArchState *env, target_ulong addr,
                                      MemOpIdx oi, uintptr_t retaddr)
  {
 -    return full_be_lduw_mmu(env, addr, oi, retaddr);
 +    validate_memop(oi, MO_BEUW);
 +    return do_ld2_mmu(env, addr, oi, retaddr, MMU_DATA_LOAD);
  }
 -static uint64_t full_le_ldul_mmu(CPUArchState *env, target_ulong addr,
 -                                 MemOpIdx oi, uintptr_t retaddr)
 +static uint32_t do_ld4_mmu(CPUArchState *env, target_ulong addr, MemOpIdx oi,
 +                           uintptr_t ra, MMUAccessType access_type)
  {
 -    validate_memop(oi, MO_LEUL);
 -    return load_helper(env, addr, oi, retaddr, MO_LEUL, MMU_DATA_LOAD,
 -                       full_le_ldul_mmu);
 +    MMULookupLocals l;
 +    bool crosspage;
 +    uint32_t ret;
 +
 +    crosspage = mmu_lookup(env, addr, oi, ra, access_type, &l);
 +    if (likely(!crosspage)) {
 +        return do_ld_4(env, &l.page[0], l.mmu_idx, access_type, l.memop, ra);
 +    }
 +
 +    ret = do_ld_beN(env, &l.page[0], 0, l.mmu_idx, access_type, ra);
 +    ret = do_ld_beN(env, &l.page[1], ret, l.mmu_idx, access_type, ra);
 +    if ((l.memop & MO_BSWAP) == MO_LE) {
 +        ret = bswap32(ret);
 +    }
 +    return ret;
  }
  tcg_target_ulong helper_le_ldul_mmu(CPUArchState *env, target_ulong addr,
                                      MemOpIdx oi, uintptr_t retaddr)
  {
 -    return full_le_ldul_mmu(env, addr, oi, retaddr);
 -}
 -
 -static uint64_t full_be_ldul_mmu(CPUArchState *env, target_ulong addr,
 -                                 MemOpIdx oi, uintptr_t retaddr)
 -{
 -    validate_memop(oi, MO_BEUL);
 -    return load_helper(env, addr, oi, retaddr, MO_BEUL, MMU_DATA_LOAD,
 -                       full_be_ldul_mmu);
 +    validate_memop(oi, MO_LEUL);
 +    return do_ld4_mmu(env, addr, oi, retaddr, MMU_DATA_LOAD);
  }
  tcg_target_ulong helper_be_ldul_mmu(CPUArchState *env, target_ulong addr,
                                      MemOpIdx oi, uintptr_t retaddr)
  {
 -    return full_be_ldul_mmu(env, addr, oi, retaddr);
 +    validate_memop(oi, MO_BEUL);
 +    return do_ld4_mmu(env, addr, oi, retaddr, MMU_DATA_LOAD);
 +}
 +
 +static uint64_t do_ld8_mmu(CPUArchState *env, target_ulong addr, MemOpIdx oi,
 +                           uintptr_t ra, MMUAccessType access_type)
 +{
 +    MMULookupLocals l;
 +    bool crosspage;
 +    uint64_t ret;
 +
 +    crosspage = mmu_lookup(env, addr, oi, ra, access_type, &l);
 +    if (likely(!crosspage)) {
 +        return do_ld_8(env, &l.page[0], l.mmu_idx, access_type, l.memop, ra);
 +    }
 +
 +    ret = do_ld_beN(env, &l.page[0], 0, l.mmu_idx, access_type, ra);
 +    ret = do_ld_beN(env, &l.page[1], ret, l.mmu_idx, access_type, ra);
 +    if ((l.memop & MO_BSWAP) == MO_LE) {
 +        ret = bswap64(ret);
 +    }
 +    return ret;
  }
  uint64_t helper_le_ldq_mmu(CPUArchState *env, target_ulong addr,
                             MemOpIdx oi, uintptr_t retaddr)
  {
      validate_memop(oi, MO_LEUQ);
 -    return load_helper(env, addr, oi, retaddr, MO_LEUQ, MMU_DATA_LOAD,
 -                       helper_le_ldq_mmu);
 +    return do_ld8_mmu(env, addr, oi, retaddr, MMU_DATA_LOAD);
  }
  uint64_t helper_be_ldq_mmu(CPUArchState *env, target_ulong addr,
                             MemOpIdx oi, uintptr_t retaddr)
  {
      validate_memop(oi, MO_BEUQ);
 -    return load_helper(env, addr, oi, retaddr, MO_BEUQ, MMU_DATA_LOAD,
 -                       helper_be_ldq_mmu);
 +    return do_ld8_mmu(env, addr, oi, retaddr, MMU_DATA_LOAD);
  }
  /*
@@ -XXX,XX +XXX,XX @@ tcg_target_ulong helper_be_ldsl_mmu(CPUArchState *env, target_ulong addr,
   * Load helpers for cpu_ldst.h.
   */
- static bool fold_add(OptContext *ctx, TCGOp *op)
+-static inline uint64_t cpu_load_helper(CPUArchState *env, abi_ptr addr,
-@@ -XXX,XX +XXX,XX @@ static bool fold_add2_i32(OptContext *ctx, TCGOp *op)
+-                                       MemOpIdx oi, uintptr_t retaddr,
+-                                       FullLoadHelper *full_load)
- static bool fold_and(OptContext *ctx, TCGOp *op)
++static void plugin_load_cb(CPUArchState *env, abi_ptr addr, MemOpIdx oi)
  {
--    return fold_const2(ctx, op);
+-    uint64_t ret;
-+    if (fold_const2(ctx, op) ||
+-
-+        fold_xx_to_x(ctx, op)) {
+-    ret = full_load(env, addr, oi, retaddr);
-+        return true;
+     qemu_plugin_vcpu_mem_cb(env_cpu(env), addr, oi, QEMU_PLUGIN_MEM_R);
-+    }
+-    return ret;
-+    return false;
+ }
- }
+ uint8_t cpu_ldb_mmu(CPUArchState *env, abi_ptr addr, MemOpIdx oi, uintptr_t ra)
- static bool fold_andc(OptContext *ctx, TCGOp *op)
+ {
-@@ -XXX,XX +XXX,XX @@ static bool fold_not(OptContext *ctx, TCGOp *op)
+-    return cpu_load_helper(env, addr, oi, ra, full_ldub_mmu);
++    uint8_t ret;
- static bool fold_or(OptContext *ctx, TCGOp *op)
++
- {
++    validate_memop(oi, MO_UB);
--    return fold_const2(ctx, op);
++    ret = do_ld1_mmu(env, addr, oi, ra, MMU_DATA_LOAD);
-+    if (fold_const2(ctx, op) ||
++    plugin_load_cb(env, addr, oi);
-+        fold_xx_to_x(ctx, op)) {
++    return ret;
-+        return true;
+ }
-+    }
-+    return false;
+ uint16_t cpu_ldw_be_mmu(CPUArchState *env, abi_ptr addr,
- }
+                         MemOpIdx oi, uintptr_t ra)
+ {
- static bool fold_orc(OptContext *ctx, TCGOp *op)
+-    return cpu_load_helper(env, addr, oi, ra, full_be_lduw_mmu);
-@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
++    uint16_t ret;
-             break;
++
-         }
++    validate_memop(oi, MO_BEUW);
++    ret = do_ld2_mmu(env, addr, oi, ra, MMU_DATA_LOAD);
--        /* Simplify expression for "op r, a, a => mov r, a" cases */
++    plugin_load_cb(env, addr, oi);
--        switch (opc) {
++    return ret;
--        CASE_OP_32_64_VEC(or):
+ }
--        CASE_OP_32_64_VEC(and):
--            if (args_are_copies(op->args[1], op->args[2])) {
+ uint32_t cpu_ldl_be_mmu(CPUArchState *env, abi_ptr addr,
--                tcg_opt_gen_mov(&ctx, op, op->args[0], op->args[1]);
+                         MemOpIdx oi, uintptr_t ra)
--                continue;
+ {
--            }
+-    return cpu_load_helper(env, addr, oi, ra, full_be_ldul_mmu);
--            break;
++    uint32_t ret;
--        default:
++
--            break;
++    validate_memop(oi, MO_BEUL);
--        }
++    ret = do_ld4_mmu(env, addr, oi, ra, MMU_DATA_LOAD);
--
++    plugin_load_cb(env, addr, oi);
-         /*
++    return ret;
-          * Process each opcode.
+ }
-          * Sorted alphabetically by opcode as much as possible.
  uint64_t cpu_ldq_be_mmu(CPUArchState *env, abi_ptr addr,
                          MemOpIdx oi, uintptr_t ra)
  {
 -    return cpu_load_helper(env, addr, oi, ra, helper_be_ldq_mmu);
 +    uint64_t ret;
 +
 +    validate_memop(oi, MO_BEUQ);
 +    ret = do_ld8_mmu(env, addr, oi, ra, MMU_DATA_LOAD);
 +    plugin_load_cb(env, addr, oi);
 +    return ret;
  }
  uint16_t cpu_ldw_le_mmu(CPUArchState *env, abi_ptr addr,
                          MemOpIdx oi, uintptr_t ra)
  {
 -    return cpu_load_helper(env, addr, oi, ra, full_le_lduw_mmu);
 +    uint16_t ret;
 +
 +    validate_memop(oi, MO_LEUW);
 +    ret = do_ld2_mmu(env, addr, oi, ra, MMU_DATA_LOAD);
 +    plugin_load_cb(env, addr, oi);
 +    return ret;
  }
  uint32_t cpu_ldl_le_mmu(CPUArchState *env, abi_ptr addr,
                          MemOpIdx oi, uintptr_t ra)
  {
 -    return cpu_load_helper(env, addr, oi, ra, full_le_ldul_mmu);
 +    uint32_t ret;
 +
 +    validate_memop(oi, MO_LEUL);
 +    ret = do_ld4_mmu(env, addr, oi, ra, MMU_DATA_LOAD);
 +    plugin_load_cb(env, addr, oi);
 +    return ret;
  }
  uint64_t cpu_ldq_le_mmu(CPUArchState *env, abi_ptr addr,
                          MemOpIdx oi, uintptr_t ra)
  {
 -    return cpu_load_helper(env, addr, oi, ra, helper_le_ldq_mmu);
 +    uint64_t ret;
 +
 +    validate_memop(oi, MO_LEUQ);
 +    ret = do_ld8_mmu(env, addr, oi, ra, MMU_DATA_LOAD);
 +    plugin_load_cb(env, addr, oi);
 +    return ret;
  }
  Int128 cpu_ld16_be_mmu(CPUArchState *env, abi_ptr addr,
@@ -XXX,XX +XXX,XX @@ void cpu_st16_le_mmu(CPUArchState *env, abi_ptr addr, Int128 val,
  /* Code access functions.  */
 -static uint64_t full_ldub_code(CPUArchState *env, target_ulong addr,
 -                               MemOpIdx oi, uintptr_t retaddr)
 -{
 -    return load_helper(env, addr, oi, retaddr, MO_8,
 -                       MMU_INST_FETCH, full_ldub_code);
 -}
 -
  uint32_t cpu_ldub_code(CPUArchState *env, abi_ptr addr)
  {
      MemOpIdx oi = make_memop_idx(MO_UB, cpu_mmu_index(env, true));
 -    return full_ldub_code(env, addr, oi, 0);
 -}
 -
 -static uint64_t full_lduw_code(CPUArchState *env, target_ulong addr,
 -                               MemOpIdx oi, uintptr_t retaddr)
 -{
 -    return load_helper(env, addr, oi, retaddr, MO_TEUW,
 -                       MMU_INST_FETCH, full_lduw_code);
 +    return do_ld1_mmu(env, addr, oi, 0, MMU_INST_FETCH);
  }
  uint32_t cpu_lduw_code(CPUArchState *env, abi_ptr addr)
  {
      MemOpIdx oi = make_memop_idx(MO_TEUW, cpu_mmu_index(env, true));
 -    return full_lduw_code(env, addr, oi, 0);
 -}
 -
 -static uint64_t full_ldl_code(CPUArchState *env, target_ulong addr,
 -                              MemOpIdx oi, uintptr_t retaddr)
 -{
 -    return load_helper(env, addr, oi, retaddr, MO_TEUL,
 -                       MMU_INST_FETCH, full_ldl_code);
 +    return do_ld2_mmu(env, addr, oi, 0, MMU_INST_FETCH);
  }
  uint32_t cpu_ldl_code(CPUArchState *env, abi_ptr addr)
  {
      MemOpIdx oi = make_memop_idx(MO_TEUL, cpu_mmu_index(env, true));
 -    return full_ldl_code(env, addr, oi, 0);
 -}
 -
 -static uint64_t full_ldq_code(CPUArchState *env, target_ulong addr,
 -                              MemOpIdx oi, uintptr_t retaddr)
 -{
 -    return load_helper(env, addr, oi, retaddr, MO_TEUQ,
 -                       MMU_INST_FETCH, full_ldq_code);
 +    return do_ld4_mmu(env, addr, oi, 0, MMU_INST_FETCH);
  }
  uint64_t cpu_ldq_code(CPUArchState *env, abi_ptr addr)
  {
      MemOpIdx oi = make_memop_idx(MO_TEUQ, cpu_mmu_index(env, true));
 -    return full_ldq_code(env, addr, oi, 0);
 +    return do_ld8_mmu(env, addr, oi, 0, MMU_INST_FETCH);
  }
  uint8_t cpu_ldb_code_mmu(CPUArchState *env, abi_ptr addr,
                           MemOpIdx oi, uintptr_t retaddr)
  {
 -    return full_ldub_code(env, addr, oi, retaddr);
 +    return do_ld1_mmu(env, addr, oi, retaddr, MMU_INST_FETCH);
  }
  uint16_t cpu_ldw_code_mmu(CPUArchState *env, abi_ptr addr,
                            MemOpIdx oi, uintptr_t retaddr)
  {
 -    MemOp mop = get_memop(oi);
 -    int idx = get_mmuidx(oi);
 -    uint16_t ret;
 -
 -    ret = full_lduw_code(env, addr, make_memop_idx(MO_TEUW, idx), retaddr);
 -    if ((mop & MO_BSWAP) != MO_TE) {
 -        ret = bswap16(ret);
 -    }
 -    return ret;
 +    return do_ld2_mmu(env, addr, oi, retaddr, MMU_INST_FETCH);
  }
  uint32_t cpu_ldl_code_mmu(CPUArchState *env, abi_ptr addr,
                            MemOpIdx oi, uintptr_t retaddr)
  {
 -    MemOp mop = get_memop(oi);
 -    int idx = get_mmuidx(oi);
 -    uint32_t ret;
 -
 -    ret = full_ldl_code(env, addr, make_memop_idx(MO_TEUL, idx), retaddr);
 -    if ((mop & MO_BSWAP) != MO_TE) {
 -        ret = bswap32(ret);
 -    }
 -    return ret;
 +    return do_ld4_mmu(env, addr, oi, retaddr, MMU_INST_FETCH);
  }
  uint64_t cpu_ldq_code_mmu(CPUArchState *env, abi_ptr addr,
                            MemOpIdx oi, uintptr_t retaddr)
  {
 -    MemOp mop = get_memop(oi);
 -    int idx = get_mmuidx(oi);
 -    uint64_t ret;
 -
 -    ret = full_ldq_code(env, addr, make_memop_idx(MO_TEUQ, idx), retaddr);
 -    if ((mop & MO_BSWAP) != MO_TE) {
 -        ret = bswap64(ret);
 -    }
 -    return ret;
 +    return do_ld8_mmu(env, addr, oi, retaddr, MMU_INST_FETCH);
  }
 --
-.25.1
+.34.1

-[PULL 17/56] tcg/optimize: Split out finish_folding
+[PULL 52/53] accel/tcg: Reorg system mode store helpers
-Copy z_mask into OptContext, for writeback to the
+Instead of trying to unify all operations on uint64_t, use
-first output within the new function.
+mmu_lookup() to perform the basic tlb hit and resolution.
 Create individual functions to handle access by size.
-Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
+Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
 Reviewed-by: Luis Pires <luis.pires@eldorado.org.br>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- tcg/optimize.c | 49 +++++++++++++++++++++++++++++++++----------------
+ accel/tcg/cputlb.c | 408 +++++++++++++++++++++------------------------
-file changed, 33 insertions(+), 16 deletions(-)
+file changed, 193 insertions(+), 215 deletions(-)
-diff --git a/tcg/optimize.c b/tcg/optimize.c
+diff --git a/accel/tcg/cputlb.c b/accel/tcg/cputlb.c
 index XXXXXXX..XXXXXXX 100644
---- a/tcg/optimize.c
+--- a/accel/tcg/cputlb.c
-+++ b/tcg/optimize.c
++++ b/accel/tcg/cputlb.c
-@@ -XXX,XX +XXX,XX @@ typedef struct OptContext {
+@@ -XXX,XX +XXX,XX @@ store_memop(void *haddr, uint64_t val, MemOp op)
      TCGContext *tcg;
      TCGOp *prev_mb;
      TCGTempSet temps_used;
 +
 +    /* In flight values from optimization. */
 +    uint64_t z_mask;
  } OptContext;
  static inline TempOptInfo *ts_info(TCGTemp *ts)
@@ -XXX,XX +XXX,XX @@ static void copy_propagate(OptContext *ctx, TCGOp *op,
      }
  }
-+static void finish_folding(OptContext *ctx, TCGOp *op)
+-static void full_stb_mmu(CPUArchState *env, target_ulong addr, uint64_t val,
 -                         MemOpIdx oi, uintptr_t retaddr);
 -
 -static void __attribute__((noinline))
 -store_helper_unaligned(CPUArchState *env, target_ulong addr, uint64_t val,
 -                       uintptr_t retaddr, size_t size, uintptr_t mmu_idx,
 -                       bool big_endian)
 +/**
 + * do_st_mmio_leN:
 + * @env: cpu context
 + * @p: translation parameters
 + * @val_le: data to store
 + * @mmu_idx: virtual address context
 + * @ra: return address into tcg generated code, or 0
 + *
 + * Store @p->size bytes at @p->addr, which is memory-mapped i/o.
 + * The bytes to store are extracted in little-endian order from @val_le;
 + * return the bytes of @val_le beyond @p->size that have not been stored.
 + */
 +static uint64_t do_st_mmio_leN(CPUArchState *env, MMULookupPageData *p,
 +                               uint64_t val_le, int mmu_idx, uintptr_t ra)
  {
 -    uintptr_t index, index2;
 -    CPUTLBEntry *entry, *entry2;
 -    target_ulong page1, page2, tlb_addr, tlb_addr2;
 -    MemOpIdx oi;
 -    size_t size2;
 -    int i;
 +    CPUTLBEntryFull *full = p->full;
 +    target_ulong addr = p->addr;
 +    int i, size = p->size;
 -    /*
 -     * Ensure the second page is in the TLB.  Note that the first page
 -     * is already guaranteed to be filled, and that the second page
 -     * cannot evict the first.  An exception to this rule is PAGE_WRITE_INV
 -     * handling: the first page could have evicted itself.
 -     */
 -    page1 = addr & TARGET_PAGE_MASK;
 -    page2 = (addr + size) & TARGET_PAGE_MASK;
 -    size2 = (addr + size) & ~TARGET_PAGE_MASK;
 -    index2 = tlb_index(env, mmu_idx, page2);
 -    entry2 = tlb_entry(env, mmu_idx, page2);
 -
 -    tlb_addr2 = tlb_addr_write(entry2);
 -    if (page1 != page2 && !tlb_hit_page(tlb_addr2, page2)) {
 -        if (!victim_tlb_hit(env, mmu_idx, index2, MMU_DATA_STORE, page2)) {
 -            tlb_fill(env_cpu(env), page2, size2, MMU_DATA_STORE,
 -                     mmu_idx, retaddr);
 -            index2 = tlb_index(env, mmu_idx, page2);
 -            entry2 = tlb_entry(env, mmu_idx, page2);
 -        }
 -        tlb_addr2 = tlb_addr_write(entry2);
 +    QEMU_IOTHREAD_LOCK_GUARD();
 +    for (i = 0; i < size; i++, val_le >>= 8) {
 +        io_writex(env, full, mmu_idx, val_le, addr + i, ra, MO_UB);
      }
 +    return val_le;
 +}
 -    index = tlb_index(env, mmu_idx, addr);
 -    entry = tlb_entry(env, mmu_idx, addr);
 -    tlb_addr = tlb_addr_write(entry);
 +/**
 + * do_st_bytes_leN:
 + * @p: translation parameters
 + * @val_le: data to store
 + *
 + * Store @p->size bytes at @p->haddr, which is RAM.
 + * The bytes to store are extracted in little-endian order from @val_le;
 + * return the bytes of @val_le beyond @p->size that have not been stored.
 + */
 +static uint64_t do_st_bytes_leN(MMULookupPageData *p, uint64_t val_le)
 +{
-+    const TCGOpDef *def = &tcg_op_defs[op->opc];
++    uint8_t *haddr = p->haddr;
-+    int i, nb_oargs;
++    int i, size = p->size;
-+
-+    /*
+-    /*
-+     * For an opcode that ends a BB, reset all temp data.
+-     * Handle watchpoints.  Since this may trap, all checks
-+     * We do no cross-BB optimization.
+-     * must happen before any store.
-+     */
+-     */
-+    if (def->flags & TCG_OPF_BB_END) {
+-    if (unlikely(tlb_addr & TLB_WATCHPOINT)) {
-+        memset(&ctx->temps_used, 0, sizeof(ctx->temps_used));
+-        cpu_check_watchpoint(env_cpu(env), addr, size - size2,
-+        ctx->prev_mb = NULL;
+-                             env_tlb(env)->d[mmu_idx].fulltlb[index].attrs,
 -                             BP_MEM_WRITE, retaddr);
 -    }
 -    if (unlikely(tlb_addr2 & TLB_WATCHPOINT)) {
 -        cpu_check_watchpoint(env_cpu(env), page2, size2,
 -                             env_tlb(env)->d[mmu_idx].fulltlb[index2].attrs,
 -                             BP_MEM_WRITE, retaddr);
 +    for (i = 0; i < size; i++, val_le >>= 8) {
 +        haddr[i] = val_le;
      }
 +    return val_le;
 +}
 -    /*
 -     * XXX: not efficient, but simple.
 -     * This loop must go in the forward direction to avoid issues
 -     * with self-modifying code in Windows 64-bit.
 -     */
 -    oi = make_memop_idx(MO_UB, mmu_idx);
 -    if (big_endian) {
 -        for (i = 0; i < size; ++i) {
 -            /* Big-endian extract.  */
 -            uint8_t val8 = val >> (((size - 1) * 8) - (i * 8));
 -            full_stb_mmu(env, addr + i, val8, oi, retaddr);
 -        }
 +/*
 + * Wrapper for the above.
 + */
 +static uint64_t do_st_leN(CPUArchState *env, MMULookupPageData *p,
 +                          uint64_t val_le, int mmu_idx, uintptr_t ra)
 +{
 +    if (unlikely(p->flags & TLB_MMIO)) {
 +        return do_st_mmio_leN(env, p, val_le, mmu_idx, ra);
 +    } else if (unlikely(p->flags & TLB_DISCARD_WRITE)) {
 +        return val_le >> (p->size * 8);
      } else {
 -        for (i = 0; i < size; ++i) {
 -            /* Little-endian extract.  */
 -            uint8_t val8 = val >> (i * 8);
 -            full_stb_mmu(env, addr + i, val8, oi, retaddr);
 -        }
 +        return do_st_bytes_leN(p, val_le);
      }
  }
 -static inline void QEMU_ALWAYS_INLINE
 -store_helper(CPUArchState *env, target_ulong addr, uint64_t val,
 -             MemOpIdx oi, uintptr_t retaddr, MemOp op)
 +static void do_st_1(CPUArchState *env, MMULookupPageData *p, uint8_t val,
 +                    int mmu_idx, uintptr_t ra)
  {
 -    const unsigned a_bits = get_alignment_bits(get_memop(oi));
 -    const size_t size = memop_size(op);
 -    uintptr_t mmu_idx = get_mmuidx(oi);
 -    uintptr_t index;
 -    CPUTLBEntry *entry;
 -    target_ulong tlb_addr;
 -    void *haddr;
 -
 -    tcg_debug_assert(mmu_idx < NB_MMU_MODES);
 -
 -    /* Handle CPU specific unaligned behaviour */
 -    if (addr & ((1 << a_bits) - 1)) {
 -        cpu_unaligned_access(env_cpu(env), addr, MMU_DATA_STORE,
 -                             mmu_idx, retaddr);
 +    if (unlikely(p->flags & TLB_MMIO)) {
 +        io_writex(env, p->full, mmu_idx, val, p->addr, ra, MO_UB);
 +    } else if (unlikely(p->flags & TLB_DISCARD_WRITE)) {
 +        /* nothing */
 +    } else {
 +        *(uint8_t *)p->haddr = val;
      }
 -
 -    index = tlb_index(env, mmu_idx, addr);
 -    entry = tlb_entry(env, mmu_idx, addr);
 -    tlb_addr = tlb_addr_write(entry);
 -
 -    /* If the TLB entry is for a different page, reload and try again.  */
 -    if (!tlb_hit(tlb_addr, addr)) {
 -        if (!victim_tlb_hit(env, mmu_idx, index, MMU_DATA_STORE,
 -            addr & TARGET_PAGE_MASK)) {
 -            tlb_fill(env_cpu(env), addr, size, MMU_DATA_STORE,
 -                     mmu_idx, retaddr);
 -            index = tlb_index(env, mmu_idx, addr);
 -            entry = tlb_entry(env, mmu_idx, addr);
 -        }
 -        tlb_addr = tlb_addr_write(entry) & ~TLB_INVALID_MASK;
 -    }
 -
 -    /* Handle anything that isn't just a straight memory access.  */
 -    if (unlikely(tlb_addr & ~TARGET_PAGE_MASK)) {
 -        CPUTLBEntryFull *full;
 -        bool need_swap;
 -
 -        /* For anything that is unaligned, recurse through byte stores.  */
 -        if ((addr & (size - 1)) != 0) {
 -            goto do_unaligned_access;
 -        }
 -
 -        full = &env_tlb(env)->d[mmu_idx].fulltlb[index];
 -
 -        /* Handle watchpoints.  */
 -        if (unlikely(tlb_addr & TLB_WATCHPOINT)) {
 -            /* On watchpoint hit, this will longjmp out.  */
 -            cpu_check_watchpoint(env_cpu(env), addr, size,
 -                                 full->attrs, BP_MEM_WRITE, retaddr);
 -        }
 -
 -        need_swap = size > 1 && (tlb_addr & TLB_BSWAP);
 -
 -        /* Handle I/O access.  */
 -        if (tlb_addr & TLB_MMIO) {
 -            io_writex(env, full, mmu_idx, val, addr, retaddr,
 -                      op ^ (need_swap * MO_BSWAP));
 -            return;
 -        }
 -
 -        /* Ignore writes to ROM.  */
 -        if (unlikely(tlb_addr & TLB_DISCARD_WRITE)) {
 -            return;
 -        }
 -
 -        /* Handle clean RAM pages.  */
 -        if (tlb_addr & TLB_NOTDIRTY) {
 -            notdirty_write(env_cpu(env), addr, size, full, retaddr);
 -        }
 -
 -        haddr = (void *)((uintptr_t)addr + entry->addend);
 -
 -        /*
 -         * Keep these two store_memop separate to ensure that the compiler
 -         * is able to fold the entire function to a single instruction.
 -         * There is a build-time assert inside to remind you of this.  ;-)
 -         */
 -        if (unlikely(need_swap)) {
 -            store_memop(haddr, val, op ^ MO_BSWAP);
 -        } else {
 -            store_memop(haddr, val, op);
 -        }
 -        return;
 -    }
 -
 -    /* Handle slow unaligned access (it spans two pages or IO).  */
 -    if (size > 1
 -        && unlikely((addr & ~TARGET_PAGE_MASK) + size - 1
 -                     >= TARGET_PAGE_SIZE)) {
 -    do_unaligned_access:
 -        store_helper_unaligned(env, addr, val, retaddr, size,
 -                               mmu_idx, memop_big_endian(op));
 -        return;
 -    }
 -
 -    haddr = (void *)((uintptr_t)addr + entry->addend);
 -    store_memop(haddr, val, op);
  }
 -static void __attribute__((noinline))
 -full_stb_mmu(CPUArchState *env, target_ulong addr, uint64_t val,
 -             MemOpIdx oi, uintptr_t retaddr)
 +static void do_st_2(CPUArchState *env, MMULookupPageData *p, uint16_t val,
 +                    int mmu_idx, MemOp memop, uintptr_t ra)
  {
 -    validate_memop(oi, MO_UB);
 -    store_helper(env, addr, val, oi, retaddr, MO_UB);
 +    if (unlikely(p->flags & TLB_MMIO)) {
 +        io_writex(env, p->full, mmu_idx, val, p->addr, ra, memop);
 +    } else if (unlikely(p->flags & TLB_DISCARD_WRITE)) {
 +        /* nothing */
 +    } else {
 +        /* Swap to host endian if necessary, then store. */
 +        if (memop & MO_BSWAP) {
 +            val = bswap16(val);
 +        }
 +        store_memop(p->haddr, val, MO_UW);
 +    }
 +}
 +
 +static void do_st_4(CPUArchState *env, MMULookupPageData *p, uint32_t val,
 +                    int mmu_idx, MemOp memop, uintptr_t ra)
 +{
 +    if (unlikely(p->flags & TLB_MMIO)) {
 +        io_writex(env, p->full, mmu_idx, val, p->addr, ra, memop);
 +    } else if (unlikely(p->flags & TLB_DISCARD_WRITE)) {
 +        /* nothing */
 +    } else {
 +        /* Swap to host endian if necessary, then store. */
 +        if (memop & MO_BSWAP) {
 +            val = bswap32(val);
 +        }
 +        store_memop(p->haddr, val, MO_UL);
 +    }
 +}
 +
 +static void do_st_8(CPUArchState *env, MMULookupPageData *p, uint64_t val,
 +                    int mmu_idx, MemOp memop, uintptr_t ra)
 +{
 +    if (unlikely(p->flags & TLB_MMIO)) {
 +        io_writex(env, p->full, mmu_idx, val, p->addr, ra, memop);
 +    } else if (unlikely(p->flags & TLB_DISCARD_WRITE)) {
 +        /* nothing */
 +    } else {
 +        /* Swap to host endian if necessary, then store. */
 +        if (memop & MO_BSWAP) {
 +            val = bswap64(val);
 +        }
 +        store_memop(p->haddr, val, MO_UQ);
 +    }
  }
  void helper_ret_stb_mmu(CPUArchState *env, target_ulong addr, uint32_t val,
 -                        MemOpIdx oi, uintptr_t retaddr)
 +                        MemOpIdx oi, uintptr_t ra)
  {
 -    full_stb_mmu(env, addr, val, oi, retaddr);
 +    MMULookupLocals l;
 +    bool crosspage;
 +
 +    validate_memop(oi, MO_UB);
 +    crosspage = mmu_lookup(env, addr, oi, ra, MMU_DATA_STORE, &l);
 +    tcg_debug_assert(!crosspage);
 +
 +    do_st_1(env, &l.page[0], val, l.mmu_idx, ra);
  }
 -static void full_le_stw_mmu(CPUArchState *env, target_ulong addr, uint64_t val,
 -                            MemOpIdx oi, uintptr_t retaddr)
 +static void do_st2_mmu(CPUArchState *env, target_ulong addr, uint16_t val,
 +                       MemOpIdx oi, uintptr_t ra)
  {
 -    validate_memop(oi, MO_LEUW);
 -    store_helper(env, addr, val, oi, retaddr, MO_LEUW);
 +    MMULookupLocals l;
 +    bool crosspage;
 +    uint8_t a, b;
 +
 +    crosspage = mmu_lookup(env, addr, oi, ra, MMU_DATA_STORE, &l);
 +    if (likely(!crosspage)) {
 +        do_st_2(env, &l.page[0], val, l.mmu_idx, l.memop, ra);
 +        return;
 +    }
 +
-+    nb_oargs = def->nb_oargs;
++    if ((l.memop & MO_BSWAP) == MO_LE) {
-+    for (i = 0; i < nb_oargs; i++) {
++        a = val, b = val >> 8;
-+        reset_temp(op->args[i]);
++    } else {
-+        /*
++        b = val, a = val >> 8;
-+         * Save the corresponding known-zero bits mask for the
++    }
-+         * first output argument (only one supported so far).
++    do_st_1(env, &l.page[0], a, l.mmu_idx, ra);
-+         */
++    do_st_1(env, &l.page[1], b, l.mmu_idx, ra);
-+        if (i == 0) {
+ }
-+            arg_info(op->args[i])->z_mask = ctx->z_mask;
-+        }
+ void helper_le_stw_mmu(CPUArchState *env, target_ulong addr, uint32_t val,
-+    }
+                        MemOpIdx oi, uintptr_t retaddr)
  {
 -    full_le_stw_mmu(env, addr, val, oi, retaddr);
 -}
 -
 -static void full_be_stw_mmu(CPUArchState *env, target_ulong addr, uint64_t val,
 -                            MemOpIdx oi, uintptr_t retaddr)
 -{
 -    validate_memop(oi, MO_BEUW);
 -    store_helper(env, addr, val, oi, retaddr, MO_BEUW);
 +    validate_memop(oi, MO_LEUW);
 +    do_st2_mmu(env, addr, val, oi, retaddr);
  }
  void helper_be_stw_mmu(CPUArchState *env, target_ulong addr, uint32_t val,
                         MemOpIdx oi, uintptr_t retaddr)
  {
 -    full_be_stw_mmu(env, addr, val, oi, retaddr);
 +    validate_memop(oi, MO_BEUW);
 +    do_st2_mmu(env, addr, val, oi, retaddr);
  }
 -static void full_le_stl_mmu(CPUArchState *env, target_ulong addr, uint64_t val,
 -                            MemOpIdx oi, uintptr_t retaddr)
 +static void do_st4_mmu(CPUArchState *env, target_ulong addr, uint32_t val,
 +                       MemOpIdx oi, uintptr_t ra)
  {
 -    validate_memop(oi, MO_LEUL);
 -    store_helper(env, addr, val, oi, retaddr, MO_LEUL);
 +    MMULookupLocals l;
 +    bool crosspage;
 +
 +    crosspage = mmu_lookup(env, addr, oi, ra, MMU_DATA_STORE, &l);
 +    if (likely(!crosspage)) {
 +        do_st_4(env, &l.page[0], val, l.mmu_idx, l.memop, ra);
 +        return;
 +    }
 +
 +    /* Swap to little endian for simplicity, then store by bytes. */
 +    if ((l.memop & MO_BSWAP) != MO_LE) {
 +        val = bswap32(val);
 +    }
 +    val = do_st_leN(env, &l.page[0], val, l.mmu_idx, ra);
 +    (void) do_st_leN(env, &l.page[1], val, l.mmu_idx, ra);
  }
  void helper_le_stl_mmu(CPUArchState *env, target_ulong addr, uint32_t val,
                         MemOpIdx oi, uintptr_t retaddr)
  {
 -    full_le_stl_mmu(env, addr, val, oi, retaddr);
 -}
 -
 -static void full_be_stl_mmu(CPUArchState *env, target_ulong addr, uint64_t val,
 -                            MemOpIdx oi, uintptr_t retaddr)
 -{
 -    validate_memop(oi, MO_BEUL);
 -    store_helper(env, addr, val, oi, retaddr, MO_BEUL);
 +    validate_memop(oi, MO_LEUL);
 +    do_st4_mmu(env, addr, val, oi, retaddr);
  }
  void helper_be_stl_mmu(CPUArchState *env, target_ulong addr, uint32_t val,
                         MemOpIdx oi, uintptr_t retaddr)
  {
 -    full_be_stl_mmu(env, addr, val, oi, retaddr);
 +    validate_memop(oi, MO_BEUL);
 +    do_st4_mmu(env, addr, val, oi, retaddr);
 +}
 +
- static bool fold_call(OptContext *ctx, TCGOp *op)
++static void do_st8_mmu(CPUArchState *env, target_ulong addr, uint64_t val,
- {
++                       MemOpIdx oi, uintptr_t ra)
-     TCGContext *s = ctx->tcg;
++{
-@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
++    MMULookupLocals l;
-             partmask &= 0xffffffffu;
++    bool crosspage;
-             affected &= 0xffffffffu;
++
-         }
++    crosspage = mmu_lookup(env, addr, oi, ra, MMU_DATA_STORE, &l);
-+        ctx.z_mask = z_mask;
++    if (likely(!crosspage)) {
++        do_st_8(env, &l.page[0], val, l.mmu_idx, l.memop, ra);
-         if (partmask == 0) {
++        return;
-             tcg_opt_gen_movi(&ctx, op, op->args[0], 0);
++    }
-@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
++
-             break;
++    /* Swap to little endian for simplicity, then store by bytes. */
-         }
++    if ((l.memop & MO_BSWAP) != MO_LE) {
++        val = bswap64(val);
--        /* Some of the folding above can change opc. */
++    }
--        opc = op->opc;
++    val = do_st_leN(env, &l.page[0], val, l.mmu_idx, ra);
--        def = &tcg_op_defs[opc];
++    (void) do_st_leN(env, &l.page[1], val, l.mmu_idx, ra);
--        if (def->flags & TCG_OPF_BB_END) {
+ }
--            memset(&ctx.temps_used, 0, sizeof(ctx.temps_used));
--        } else {
+ void helper_le_stq_mmu(CPUArchState *env, target_ulong addr, uint64_t val,
--            int nb_oargs = def->nb_oargs;
+                        MemOpIdx oi, uintptr_t retaddr)
--            for (i = 0; i < nb_oargs; i++) {
+ {
--                reset_temp(op->args[i]);
+     validate_memop(oi, MO_LEUQ);
--                /* Save the corresponding known-zero bits mask for the
+-    store_helper(env, addr, val, oi, retaddr, MO_LEUQ);
--                   first output argument (only one supported so far). */
++    do_st8_mmu(env, addr, val, oi, retaddr);
--                if (i == 0) {
+ }
--                    arg_info(op->args[i])->z_mask = z_mask;
--                }
+ void helper_be_stq_mmu(CPUArchState *env, target_ulong addr, uint64_t val,
--            }
+                        MemOpIdx oi, uintptr_t retaddr)
--        }
+ {
-+        finish_folding(&ctx, op);
+     validate_memop(oi, MO_BEUQ);
+-    store_helper(env, addr, val, oi, retaddr, MO_BEUQ);
-         /* Eliminate duplicate and redundant fence instructions.  */
++    do_st8_mmu(env, addr, val, oi, retaddr);
-         if (ctx.prev_mb) {
+ }
  /*
   * Store Helpers for cpu_ldst.h
   */
 -typedef void FullStoreHelper(CPUArchState *env, target_ulong addr,
 -                             uint64_t val, MemOpIdx oi, uintptr_t retaddr);
 -
 -static inline void cpu_store_helper(CPUArchState *env, target_ulong addr,
 -                                    uint64_t val, MemOpIdx oi, uintptr_t ra,
 -                                    FullStoreHelper *full_store)
 +static void plugin_store_cb(CPUArchState *env, abi_ptr addr, MemOpIdx oi)
  {
 -    full_store(env, addr, val, oi, ra);
      qemu_plugin_vcpu_mem_cb(env_cpu(env), addr, oi, QEMU_PLUGIN_MEM_W);
  }
  void cpu_stb_mmu(CPUArchState *env, target_ulong addr, uint8_t val,
                   MemOpIdx oi, uintptr_t retaddr)
  {
 -    cpu_store_helper(env, addr, val, oi, retaddr, full_stb_mmu);
 +    helper_ret_stb_mmu(env, addr, val, oi, retaddr);
 +    plugin_store_cb(env, addr, oi);
  }
  void cpu_stw_be_mmu(CPUArchState *env, target_ulong addr, uint16_t val,
                      MemOpIdx oi, uintptr_t retaddr)
  {
 -    cpu_store_helper(env, addr, val, oi, retaddr, full_be_stw_mmu);
 +    helper_be_stw_mmu(env, addr, val, oi, retaddr);
 +    plugin_store_cb(env, addr, oi);
  }
  void cpu_stl_be_mmu(CPUArchState *env, target_ulong addr, uint32_t val,
                      MemOpIdx oi, uintptr_t retaddr)
  {
 -    cpu_store_helper(env, addr, val, oi, retaddr, full_be_stl_mmu);
 +    helper_be_stl_mmu(env, addr, val, oi, retaddr);
 +    plugin_store_cb(env, addr, oi);
  }
  void cpu_stq_be_mmu(CPUArchState *env, target_ulong addr, uint64_t val,
                      MemOpIdx oi, uintptr_t retaddr)
  {
 -    cpu_store_helper(env, addr, val, oi, retaddr, helper_be_stq_mmu);
 +    helper_be_stq_mmu(env, addr, val, oi, retaddr);
 +    plugin_store_cb(env, addr, oi);
  }
  void cpu_stw_le_mmu(CPUArchState *env, target_ulong addr, uint16_t val,
                      MemOpIdx oi, uintptr_t retaddr)
  {
 -    cpu_store_helper(env, addr, val, oi, retaddr, full_le_stw_mmu);
 +    helper_le_stw_mmu(env, addr, val, oi, retaddr);
 +    plugin_store_cb(env, addr, oi);
  }
  void cpu_stl_le_mmu(CPUArchState *env, target_ulong addr, uint32_t val,
                      MemOpIdx oi, uintptr_t retaddr)
  {
 -    cpu_store_helper(env, addr, val, oi, retaddr, full_le_stl_mmu);
 +    helper_le_stl_mmu(env, addr, val, oi, retaddr);
 +    plugin_store_cb(env, addr, oi);
  }
  void cpu_stq_le_mmu(CPUArchState *env, target_ulong addr, uint64_t val,
                      MemOpIdx oi, uintptr_t retaddr)
  {
 -    cpu_store_helper(env, addr, val, oi, retaddr, helper_le_stq_mmu);
 +    helper_le_stq_mmu(env, addr, val, oi, retaddr);
 +    plugin_store_cb(env, addr, oi);
  }
  void cpu_st16_be_mmu(CPUArchState *env, abi_ptr addr, Int128 val,
 --
-.25.1
+.34.1

-[PULL 18/56] tcg/optimize: Use a boolean to avoid a mass of continues
+Deleted patch
-Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
-Reviewed-by: Luis Pires <luis.pires@eldorado.org.br>
-Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
-Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
----
- tcg/optimize.c | 9 ++++++---
-file changed, 6 insertions(+), 3 deletions(-)
-diff --git a/tcg/optimize.c b/tcg/optimize.c
-index XXXXXXX..XXXXXXX 100644
---- a/tcg/optimize.c
-+++ b/tcg/optimize.c
-@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
-         uint64_t z_mask, partmask, affected, tmp;
-         TCGOpcode opc = op->opc;
-         const TCGOpDef *def;
-+        bool done = false;
-         /* Calls are special. */
-         if (opc == INDEX_op_call) {
-@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
-            allocator where needed and possible.  Also detect copies. */
-         switch (opc) {
-         CASE_OP_32_64_VEC(mov):
--            tcg_opt_gen_mov(&ctx, op, op->args[0], op->args[1]);
--            continue;
-+            done = tcg_opt_gen_mov(&ctx, op, op->args[0], op->args[1]);
-+            break;
-         case INDEX_op_dup_vec:
-             if (arg_is_const(op->args[1])) {
-@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
-             break;
-         }
--        finish_folding(&ctx, op);
-+        if (!done) {
-+            finish_folding(&ctx, op);
-+        }
-         /* Eliminate duplicate and redundant fence instructions.  */
-         if (ctx.prev_mb) {
---
-.25.1

-[PULL 19/56] tcg/optimize: Split out fold_mb, fold_qemu_{ld,st}
+Deleted patch
-This puts the separate mb optimization into the same framework
-as the others.  While fold_qemu_{ld,st} are currently identical,
-that won't last as more code gets moved.
-Reviewed-by: Luis Pires <luis.pires@eldorado.org.br>
-Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
-Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
----
- tcg/optimize.c | 89 +++++++++++++++++++++++++++++---------------------
-file changed, 51 insertions(+), 38 deletions(-)
-diff --git a/tcg/optimize.c b/tcg/optimize.c
-index XXXXXXX..XXXXXXX 100644
---- a/tcg/optimize.c
-+++ b/tcg/optimize.c
-@@ -XXX,XX +XXX,XX @@ static bool fold_call(OptContext *ctx, TCGOp *op)
-     return true;
- }
-+static bool fold_mb(OptContext *ctx, TCGOp *op)
-+{
-+    /* Eliminate duplicate and redundant fence instructions.  */
-+    if (ctx->prev_mb) {
-+        /*
-+         * Merge two barriers of the same type into one,
-+         * or a weaker barrier into a stronger one,
-+         * or two weaker barriers into a stronger one.
-+         *   mb X; mb Y => mb X|Y
-+         *   mb; strl => mb; st
-+         *   ldaq; mb => ld; mb
-+         *   ldaq; strl => ld; mb; st
-+         * Other combinations are also merged into a strong
-+         * barrier.  This is stricter than specified but for
-+         * the purposes of TCG is better than not optimizing.
-+         */
-+        ctx->prev_mb->args[0] |= op->args[0];
-+        tcg_op_remove(ctx->tcg, op);
-+    } else {
-+        ctx->prev_mb = op;
-+    }
-+    return true;
-+}
-+
-+static bool fold_qemu_ld(OptContext *ctx, TCGOp *op)
-+{
-+    /* Opcodes that touch guest memory stop the mb optimization.  */
-+    ctx->prev_mb = NULL;
-+    return false;
-+}
-+
-+static bool fold_qemu_st(OptContext *ctx, TCGOp *op)
-+{
-+    /* Opcodes that touch guest memory stop the mb optimization.  */
-+    ctx->prev_mb = NULL;
-+    return false;
-+}
-+
- /* Propagate constants and copies, fold constant expressions. */
- void tcg_optimize(TCGContext *s)
- {
-@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
-             }
-             break;
-+        case INDEX_op_mb:
-+            done = fold_mb(&ctx, op);
-+            break;
-+        case INDEX_op_qemu_ld_i32:
-+        case INDEX_op_qemu_ld_i64:
-+            done = fold_qemu_ld(&ctx, op);
-+            break;
-+        case INDEX_op_qemu_st_i32:
-+        case INDEX_op_qemu_st8_i32:
-+        case INDEX_op_qemu_st_i64:
-+            done = fold_qemu_st(&ctx, op);
-+            break;
-+
-         default:
-             break;
-         }
-@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
-         if (!done) {
-             finish_folding(&ctx, op);
-         }
--
--        /* Eliminate duplicate and redundant fence instructions.  */
--        if (ctx.prev_mb) {
--            switch (opc) {
--            case INDEX_op_mb:
--                /* Merge two barriers of the same type into one,
--                 * or a weaker barrier into a stronger one,
--                 * or two weaker barriers into a stronger one.
--                 *   mb X; mb Y => mb X|Y
--                 *   mb; strl => mb; st
--                 *   ldaq; mb => ld; mb
--                 *   ldaq; strl => ld; mb; st
--                 * Other combinations are also merged into a strong
--                 * barrier.  This is stricter than specified but for
--                 * the purposes of TCG is better than not optimizing.
--                 */
--                ctx.prev_mb->args[0] |= op->args[0];
--                tcg_op_remove(s, op);
--                break;
--
--            default:
--                /* Opcodes that end the block stop the optimization.  */
--                if ((def->flags & TCG_OPF_BB_END) == 0) {
--                    break;
--                }
--                /* fallthru */
--            case INDEX_op_qemu_ld_i32:
--            case INDEX_op_qemu_ld_i64:
--            case INDEX_op_qemu_st_i32:
--            case INDEX_op_qemu_st8_i32:
--            case INDEX_op_qemu_st_i64:
--                /* Opcodes that touch guest memory stop the optimization.  */
--                ctx.prev_mb = NULL;
--                break;
--            }
--        } else if (opc == INDEX_op_mb) {
--            ctx.prev_mb = op;
--        }
-     }
- }
---
-.25.1

-[PULL 23/56] tcg/optimize: Split out fold_brcond
+[PULL 53/53] target/loongarch: Do not include tcg-ldst.h
-Reviewed-by: Luis Pires <luis.pires@eldorado.org.br>
+This header is supposed to be private to tcg and in fact
-Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
+does not need to be included here at all.
 Reviewed-by: Song Gao <gaosong@loongson.cn>
 Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- tcg/optimize.c | 33 +++++++++++++++++++--------------
+ target/loongarch/csr_helper.c   | 1 -
-file changed, 19 insertions(+), 14 deletions(-)
+ target/loongarch/iocsr_helper.c | 1 -
 files changed, 2 deletions(-)
-diff --git a/tcg/optimize.c b/tcg/optimize.c
+diff --git a/target/loongarch/csr_helper.c b/target/loongarch/csr_helper.c
 index XXXXXXX..XXXXXXX 100644
---- a/tcg/optimize.c
+--- a/target/loongarch/csr_helper.c
-+++ b/tcg/optimize.c
++++ b/target/loongarch/csr_helper.c
-@@ -XXX,XX +XXX,XX @@ static bool fold_andc(OptContext *ctx, TCGOp *op)
+@@ -XXX,XX +XXX,XX @@
-     return fold_const2(ctx, op);
+ #include "exec/cpu_ldst.h"
- }
+ #include "hw/irq.h"
+ #include "cpu-csr.h"
-+static bool fold_brcond(OptContext *ctx, TCGOp *op)
+-#include "tcg/tcg-ldst.h"
-+{
-+    TCGCond cond = op->args[2];
+ target_ulong helper_csrrd_pgd(CPULoongArchState *env)
 +    int i = do_constant_folding_cond(op->opc, op->args[0], op->args[1], cond);
 +
 +    if (i == 0) {
 +        tcg_op_remove(ctx->tcg, op);
 +        return true;
 +    }
 +    if (i > 0) {
 +        op->opc = INDEX_op_br;
 +        op->args[0] = op->args[3];
 +    }
 +    return false;
 +}
 +
  static bool fold_brcond2(OptContext *ctx, TCGOp *op)
  {
-     TCGCond cond = op->args[4];
+diff --git a/target/loongarch/iocsr_helper.c b/target/loongarch/iocsr_helper.c
-@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
+index XXXXXXX..XXXXXXX 100644
-             }
+--- a/target/loongarch/iocsr_helper.c
-             break;
++++ b/target/loongarch/iocsr_helper.c
+@@ -XXX,XX +XXX,XX @@
--        CASE_OP_32_64(brcond):
+ #include "exec/helper-proto.h"
--            i = do_constant_folding_cond(opc, op->args[0],
+ #include "exec/exec-all.h"
--                                         op->args[1], op->args[2]);
+ #include "exec/cpu_ldst.h"
--            if (i == 0) {
+-#include "tcg/tcg-ldst.h"
--                tcg_op_remove(s, op);
--                continue;
+ #define GET_MEMTXATTRS(cas) \
--            } else if (i > 0) {
+         ((MemTxAttrs){.requester_id = env_cpu(cas)->cpu_index})
 -                memset(&ctx.temps_used, 0, sizeof(ctx.temps_used));
 -                op->opc = opc = INDEX_op_br;
 -                op->args[0] = op->args[3];
 -                break;
 -            }
 -            break;
 -
          CASE_OP_32_64(movcond):
              i = do_constant_folding_cond(opc, op->args[1],
                                           op->args[2], op->args[5]);
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
          CASE_OP_32_64_VEC(andc):
              done = fold_andc(&ctx, op);
              break;
 +        CASE_OP_32_64(brcond):
 +            done = fold_brcond(&ctx, op);
 +            break;
          case INDEX_op_brcond2_i32:
              done = fold_brcond2(&ctx, op);
              break;
 --
-.25.1
+.34.1

The following changes since commit c52d69e7dbaaed0ffdef8125e79218672c30161d:

Merge remote-tracking branch 'remotes/cschoenebeck/tags/pull-9p-20211027' into staging (2021-10-27 11:45:18 -0700)

are available in the Git repository at:

https://gitlab.com/rth7680/qemu.git tags/pull-tcg-20211027

for you to fetch changes up to 820c025f0dcacf2f3c12735b1f162893fbfa7bc6:

tcg/optimize: Propagate sign info for shifting (2021-10-27 17:11:23 -0700)

----------------------------------------------------------------
Improvements to qemu/int128
Fixes for 128/64 division.
Cleanup tcg/optimize.c
Optimize redundant sign extensions

----------------------------------------------------------------
Frédéric Pétrot (1):
      qemu/int128: Add int128_{not,xor}

Luis Pires (4):
      host-utils: move checks out of divu128/divs128
      host-utils: move udiv_qrnnd() to host-utils
      host-utils: add 128-bit quotient support to divu128/divs128
      host-utils: add unit tests for divu128/divs128

Richard Henderson (51):
      tcg/optimize: Rename "mask" to "z_mask"
      tcg/optimize: Split out OptContext
      tcg/optimize: Remove do_default label
      tcg/optimize: Change tcg_opt_gen_{mov,movi} interface
      tcg/optimize: Move prev_mb into OptContext
      tcg/optimize: Split out init_arguments
      tcg/optimize: Split out copy_propagate
      tcg/optimize: Split out fold_call
      tcg/optimize: Drop nb_oargs, nb_iargs locals
      tcg/optimize: Change fail return for do_constant_folding_cond*
      tcg/optimize: Return true from tcg_opt_gen_{mov,movi}
      tcg/optimize: Split out finish_folding
      tcg/optimize: Use a boolean to avoid a mass of continues
      tcg/optimize: Split out fold_mb, fold_qemu_{ld,st}
      tcg/optimize: Split out fold_const{1,2}
      tcg/optimize: Split out fold_setcond2
      tcg/optimize: Split out fold_brcond2
      tcg/optimize: Split out fold_brcond
      tcg/optimize: Split out fold_setcond
      tcg/optimize: Split out fold_mulu2_i32
      tcg/optimize: Split out fold_addsub2_i32
      tcg/optimize: Split out fold_movcond
      tcg/optimize: Split out fold_extract2
      tcg/optimize: Split out fold_extract, fold_sextract
      tcg/optimize: Split out fold_deposit
      tcg/optimize: Split out fold_count_zeros
      tcg/optimize: Split out fold_bswap
      tcg/optimize: Split out fold_dup, fold_dup2
      tcg/optimize: Split out fold_mov
      tcg/optimize: Split out fold_xx_to_i
      tcg/optimize: Split out fold_xx_to_x
      tcg/optimize: Split out fold_xi_to_i
      tcg/optimize: Add type to OptContext
      tcg/optimize: Split out fold_to_not
      tcg/optimize: Split out fold_sub_to_neg
      tcg/optimize: Split out fold_xi_to_x
      tcg/optimize: Split out fold_ix_to_i
      tcg/optimize: Split out fold_masks
      tcg/optimize: Expand fold_mulu2_i32 to all 4-arg multiplies
      tcg/optimize: Expand fold_addsub2_i32 to 64-bit ops
      tcg/optimize: Sink commutative operand swapping into fold functions
      tcg/optimize: Stop forcing z_mask to "garbage" for 32-bit values
      tcg/optimize: Use fold_xx_to_i for orc
      tcg/optimize: Use fold_xi_to_x for mul
      tcg/optimize: Use fold_xi_to_x for div
      tcg/optimize: Use fold_xx_to_i for rem
      tcg/optimize: Optimize sign extensions
      tcg/optimize: Propagate sign info for logical operations
      tcg/optimize: Propagate sign info for setcond
      tcg/optimize: Propagate sign info for bit counting
      tcg/optimize: Propagate sign info for shifting

From: Frédéric Pétrot <frederic.petrot@univ-grenoble-alpes.fr>

Addition of not and xor on 128-bit integers.

Signed-off-by: Frédéric Pétrot <frederic.petrot@univ-grenoble-alpes.fr>
Co-authored-by: Fabien Portas <fabien.portas@grenoble-inp.org>
Message-Id: <20211025122818.168890-3-frederic.petrot@univ-grenoble-alpes.fr>
[rth: Split out logical operations.]
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 include/qemu/int128.h | 20 ++++++++++++++++++++
 1 file changed, 20 insertions(+)

diff --git a/include/qemu/int128.h b/include/qemu/int128.h
index XXXXXXX..XXXXXXX 100644
--- a/include/qemu/int128.h
+++ b/include/qemu/int128.h
@@ -XXX,XX +XXX,XX @@ static inline Int128 int128_exts64(int64_t a)
     return a;
 }
 
+static inline Int128 int128_not(Int128 a)
+{
+    return ~a;
+}
+
 static inline Int128 int128_and(Int128 a, Int128 b)
 {
     return a & b;
@@ -XXX,XX +XXX,XX @@ static inline Int128 int128_or(Int128 a, Int128 b)
     return a | b;
 }
 
+static inline Int128 int128_xor(Int128 a, Int128 b)
+{
+    return a ^ b;
+}
+
 static inline Int128 int128_rshift(Int128 a, int n)
 {
     return a >> n;
@@ -XXX,XX +XXX,XX @@ static inline Int128 int128_exts64(int64_t a)
     return int128_make128(a, (a < 0) ? -1 : 0);
 }
 
+static inline Int128 int128_not(Int128 a)
+{
+    return int128_make128(~a.lo, ~a.hi);
+}
+
 static inline Int128 int128_and(Int128 a, Int128 b)
 {
     return int128_make128(a.lo & b.lo, a.hi & b.hi);
@@ -XXX,XX +XXX,XX @@ static inline Int128 int128_or(Int128 a, Int128 b)
     return int128_make128(a.lo | b.lo, a.hi | b.hi);
 }
 
+static inline Int128 int128_xor(Int128 a, Int128 b)
+{
+    return int128_make128(a.lo ^ b.lo, a.hi ^ b.hi);
+}
+
 static inline Int128 int128_rshift(Int128 a, int n)
 {
     int64_t h;
-- 
2.25.1

From: Luis Pires <luis.pires@eldorado.org.br>

In preparation for changing the divu128/divs128 implementations
to allow for quotients larger than 64 bits, move the div-by-zero
and overflow checks to the callers.

Signed-off-by: Luis Pires <luis.pires@eldorado.org.br>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-Id: <20211025191154.350831-2-luis.pires@eldorado.org.br>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 include/hw/clock.h        |  5 +++--
 include/qemu/host-utils.h | 34 ++++++++++++---------------------
 target/ppc/int_helper.c   | 14 +++++++++-----
 util/host-utils.c         | 40 ++++++++++++++++++---------------------
 4 files changed, 42 insertions(+), 51 deletions(-)

diff --git a/include/hw/clock.h b/include/hw/clock.h
index XXXXXXX..XXXXXXX 100644
--- a/include/hw/clock.h
+++ b/include/hw/clock.h
@@ -XXX,XX +XXX,XX @@ static inline uint64_t clock_ns_to_ticks(const Clock *clk, uint64_t ns)
         return 0;
     }
     /*
-     * Ignore divu128() return value as we've caught div-by-zero and don't
-     * need different behaviour for overflow.
+     * BUG: when CONFIG_INT128 is not defined, the current implementation of
+     * divu128 does not return a valid truncated quotient, so the result will
+     * be wrong.
      */
     divu128(&lo, &hi, clk->period);
     return lo;
diff --git a/include/qemu/host-utils.h b/include/qemu/host-utils.h
index XXXXXXX..XXXXXXX 100644
--- a/include/qemu/host-utils.h
+++ b/include/qemu/host-utils.h
@@ -XXX,XX +XXX,XX @@ static inline uint64_t muldiv64(uint64_t a, uint32_t b, uint32_t c)
     return (__int128_t)a * b / c;
 }
 
-static inline int divu128(uint64_t *plow, uint64_t *phigh, uint64_t divisor)
+static inline void divu128(uint64_t *plow, uint64_t *phigh, uint64_t divisor)
 {
-    if (divisor == 0) {
-        return 1;
-    } else {
-        __uint128_t dividend = ((__uint128_t)*phigh << 64) | *plow;
-        __uint128_t result = dividend / divisor;
-        *plow = result;
-        *phigh = dividend % divisor;
-        return result > UINT64_MAX;
-    }
+    __uint128_t dividend = ((__uint128_t)*phigh << 64) | *plow;
+    __uint128_t result = dividend / divisor;
+    *plow = result;
+    *phigh = dividend % divisor;
 }
 
-static inline int divs128(int64_t *plow, int64_t *phigh, int64_t divisor)
+static inline void divs128(int64_t *plow, int64_t *phigh, int64_t divisor)
 {
-    if (divisor == 0) {
-        return 1;
-    } else {
-        __int128_t dividend = ((__int128_t)*phigh << 64) | (uint64_t)*plow;
-        __int128_t result = dividend / divisor;
-        *plow = result;
-        *phigh = dividend % divisor;
-        return result != *plow;
-    }
+    __int128_t dividend = ((__int128_t)*phigh << 64) | (uint64_t)*plow;
+    __int128_t result = dividend / divisor;
+    *plow = result;
+    *phigh = dividend % divisor;
 }
 #else
 void muls64(uint64_t *plow, uint64_t *phigh, int64_t a, int64_t b);
 void mulu64(uint64_t *plow, uint64_t *phigh, uint64_t a, uint64_t b);
-int divu128(uint64_t *plow, uint64_t *phigh, uint64_t divisor);
-int divs128(int64_t *plow, int64_t *phigh, int64_t divisor);
+void divu128(uint64_t *plow, uint64_t *phigh, uint64_t divisor);
+void divs128(int64_t *plow, int64_t *phigh, int64_t divisor);
 
 static inline uint64_t muldiv64(uint64_t a, uint32_t b, uint32_t c)
 {
diff --git a/target/ppc/int_helper.c b/target/ppc/int_helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/ppc/int_helper.c
+++ b/target/ppc/int_helper.c
@@ -XXX,XX +XXX,XX @@ uint64_t helper_divdeu(CPUPPCState *env, uint64_t ra, uint64_t rb, uint32_t oe)
     uint64_t rt = 0;
     int overflow = 0;
 
-    overflow = divu128(&rt, &ra, rb);
-
-    if (unlikely(overflow)) {
+    if (unlikely(rb == 0 || ra >= rb)) {
+        overflow = 1;
         rt = 0; /* Undefined */
+    } else {
+        divu128(&rt, &ra, rb);
     }
 
     if (oe) {
@@ -XXX,XX +XXX,XX @@ uint64_t helper_divde(CPUPPCState *env, uint64_t rau, uint64_t rbu, uint32_t oe)
     int64_t rt = 0;
     int64_t ra = (int64_t)rau;
     int64_t rb = (int64_t)rbu;
-    int overflow = divs128(&rt, &ra, rb);
+    int overflow = 0;
 
-    if (unlikely(overflow)) {
+    if (unlikely(rb == 0 || uabs64(ra) >= uabs64(rb))) {
+        overflow = 1;
         rt = 0; /* Undefined */
+    } else {
+        divs128(&rt, &ra, rb);
     }
 
     if (oe) {
diff --git a/util/host-utils.c b/util/host-utils.c
index XXXXXXX..XXXXXXX 100644
--- a/util/host-utils.c
+++ b/util/host-utils.c
@@ -XXX,XX +XXX,XX @@ void muls64 (uint64_t *plow, uint64_t *phigh, int64_t a, int64_t b)
     *phigh = rh;
 }
 
-/* Unsigned 128x64 division.  Returns 1 if overflow (divide by zero or */
-/* quotient exceeds 64 bits).  Otherwise returns quotient via plow and */
-/* remainder via phigh. */
-int divu128(uint64_t *plow, uint64_t *phigh, uint64_t divisor)
+/*
+ * Unsigned 128-by-64 division. Returns quotient via plow and
+ * remainder via phigh.
+ * The result must fit in 64 bits (plow) - otherwise, the result
+ * is undefined.
+ * This function will cause a division by zero if passed a zero divisor.
+ */
+void divu128(uint64_t *plow, uint64_t *phigh, uint64_t divisor)
 {
     uint64_t dhi = *phigh;
     uint64_t dlo = *plow;
     unsigned i;
     uint64_t carry = 0;
 
-    if (divisor == 0) {
-        return 1;
-    } else if (dhi == 0) {
+    if (divisor == 0 || dhi == 0) {
         *plow  = dlo / divisor;
         *phigh = dlo % divisor;
-        return 0;
-    } else if (dhi >= divisor) {
-        return 1;
     } else {
 
         for (i = 0; i < 64; i++) {
@@ -XXX,XX +XXX,XX @@ int divu128(uint64_t *plow, uint64_t *phigh, uint64_t divisor)
 
         *plow = dlo;
         *phigh = dhi;
-        return 0;
     }
 }
 
-int divs128(int64_t *plow, int64_t *phigh, int64_t divisor)
+/*
+ * Signed 128-by-64 division. Returns quotient via plow and
+ * remainder via phigh.
+ * The result must fit in 64 bits (plow) - otherwise, the result
+ * is undefined.
+ * This function will cause a division by zero if passed a zero divisor.
+ */
+void divs128(int64_t *plow, int64_t *phigh, int64_t divisor)
 {
     int sgn_dvdnd = *phigh < 0;
     int sgn_divsr = divisor < 0;
-    int overflow = 0;
 
     if (sgn_dvdnd) {
         *plow = ~(*plow);
@@ -XXX,XX +XXX,XX @@ int divs128(int64_t *plow, int64_t *phigh, int64_t divisor)
         divisor = 0 - divisor;
     }
 
-    overflow = divu128((uint64_t *)plow, (uint64_t *)phigh, (uint64_t)divisor);
+    divu128((uint64_t *)plow, (uint64_t *)phigh, (uint64_t)divisor);
 
     if (sgn_dvdnd  ^ sgn_divsr) {
         *plow = 0 - *plow;
     }
-
-    if (!overflow) {
-        if ((*plow < 0) ^ (sgn_dvdnd ^ sgn_divsr)) {
-            overflow = 1;
-        }
-    }
-
-    return overflow;
 }
 #endif
 
-- 
2.25.1

From: Luis Pires <luis.pires@eldorado.org.br>

Move udiv_qrnnd() from include/fpu/softfloat-macros.h to host-utils,
so it can be reused by divu128().

Signed-off-by: Luis Pires <luis.pires@eldorado.org.br>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-Id: <20211025191154.350831-3-luis.pires@eldorado.org.br>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 include/fpu/softfloat-macros.h | 82 ----------------------------------
 include/qemu/host-utils.h      | 81 +++++++++++++++++++++++++++++++++
 2 files changed, 81 insertions(+), 82 deletions(-)

diff --git a/include/fpu/softfloat-macros.h b/include/fpu/softfloat-macros.h
index XXXXXXX..XXXXXXX 100644
--- a/include/fpu/softfloat-macros.h
+++ b/include/fpu/softfloat-macros.h
@@ -XXX,XX +XXX,XX @@
  * so some portions are provided under:
  *  the SoftFloat-2a license
  *  the BSD license
- *  GPL-v2-or-later
  *
  * Any future contributions to this file after December 1st 2014 will be
  * taken to be licensed under the Softfloat-2a license unless specifically
@@ -XXX,XX +XXX,XX @@ this code that are retained.
  * THE POSSIBILITY OF SUCH DAMAGE.
  */
 
-/* Portions of this work are licensed under the terms of the GNU GPL,
- * version 2 or later. See the COPYING file in the top-level directory.
- */
-
 #ifndef FPU_SOFTFLOAT_MACROS_H
 #define FPU_SOFTFLOAT_MACROS_H
 
@@ -XXX,XX +XXX,XX @@ static inline uint64_t estimateDiv128To64(uint64_t a0, uint64_t a1, uint64_t b)
 
 }
 
-/* From the GNU Multi Precision Library - longlong.h __udiv_qrnnd
- * (https://gmplib.org/repo/gmp/file/tip/longlong.h)
- *
- * Licensed under the GPLv2/LGPLv3
- */
-static inline uint64_t udiv_qrnnd(uint64_t *r, uint64_t n1,
-                                  uint64_t n0, uint64_t d)
-{
-#if defined(__x86_64__)
-    uint64_t q;
-    asm("divq %4" : "=a"(q), "=d"(*r) : "0"(n0), "1"(n1), "rm"(d));
-    return q;
-#elif defined(__s390x__) && !defined(__clang__)
-    /* Need to use a TImode type to get an even register pair for DLGR.  */
-    unsigned __int128 n = (unsigned __int128)n1 << 64 | n0;
-    asm("dlgr %0, %1" : "+r"(n) : "r"(d));
-    *r = n >> 64;
-    return n;
-#elif defined(_ARCH_PPC64) && defined(_ARCH_PWR7)
-    /* From Power ISA 2.06, programming note for divdeu.  */
-    uint64_t q1, q2, Q, r1, r2, R;
-    asm("divdeu %0,%2,%4; divdu %1,%3,%4"
-        : "=&r"(q1), "=r"(q2)
-        : "r"(n1), "r"(n0), "r"(d));
-    r1 = -(q1 * d);         /* low part of (n1<<64) - (q1 * d) */
-    r2 = n0 - (q2 * d);
-    Q = q1 + q2;
-    R = r1 + r2;
-    if (R >= d || R < r2) { /* overflow implies R > d */
-        Q += 1;
-        R -= d;
-    }
-    *r = R;
-    return Q;
-#else
-    uint64_t d0, d1, q0, q1, r1, r0, m;
-
-    d0 = (uint32_t)d;
-    d1 = d >> 32;
-
-    r1 = n1 % d1;
-    q1 = n1 / d1;
-    m = q1 * d0;
-    r1 = (r1 << 32) | (n0 >> 32);
-    if (r1 < m) {
-        q1 -= 1;
-        r1 += d;
-        if (r1 >= d) {
-            if (r1 < m) {
-                q1 -= 1;
-                r1 += d;
-            }
-        }
-    }
-    r1 -= m;
-
-    r0 = r1 % d1;
-    q0 = r1 / d1;
-    m = q0 * d0;
-    r0 = (r0 << 32) | (uint32_t)n0;
-    if (r0 < m) {
-        q0 -= 1;
-        r0 += d;
-        if (r0 >= d) {
-            if (r0 < m) {
-                q0 -= 1;
-                r0 += d;
-            }
-        }
-    }
-    r0 -= m;
-
-    *r = r0;
-    return (q1 << 32) | q0;
-#endif
-}
-
 /*----------------------------------------------------------------------------
 | Returns an approximation to the square root of the 32-bit significand given
 | by `a'.  Considered as an integer, `a' must be at least 2^31.  If bit 0 of
diff --git a/include/qemu/host-utils.h b/include/qemu/host-utils.h
index XXXXXXX..XXXXXXX 100644
--- a/include/qemu/host-utils.h
+++ b/include/qemu/host-utils.h
@@ -XXX,XX +XXX,XX @@
  * THE SOFTWARE.
  */
 
+/* Portions of this work are licensed under the terms of the GNU GPL,
+ * version 2 or later. See the COPYING file in the top-level directory.
+ */
+
 #ifndef HOST_UTILS_H
 #define HOST_UTILS_H
 
@@ -XXX,XX +XXX,XX @@ void urshift(uint64_t *plow, uint64_t *phigh, int32_t shift);
  */
 void ulshift(uint64_t *plow, uint64_t *phigh, int32_t shift, bool *overflow);
 
+/* From the GNU Multi Precision Library - longlong.h __udiv_qrnnd
+ * (https://gmplib.org/repo/gmp/file/tip/longlong.h)
+ *
+ * Licensed under the GPLv2/LGPLv3
+ */
+static inline uint64_t udiv_qrnnd(uint64_t *r, uint64_t n1,
+                                  uint64_t n0, uint64_t d)
+{
+#if defined(__x86_64__)
+    uint64_t q;
+    asm("divq %4" : "=a"(q), "=d"(*r) : "0"(n0), "1"(n1), "rm"(d));
+    return q;
+#elif defined(__s390x__) && !defined(__clang__)
+    /* Need to use a TImode type to get an even register pair for DLGR.  */
+    unsigned __int128 n = (unsigned __int128)n1 << 64 | n0;
+    asm("dlgr %0, %1" : "+r"(n) : "r"(d));
+    *r = n >> 64;
+    return n;
+#elif defined(_ARCH_PPC64) && defined(_ARCH_PWR7)
+    /* From Power ISA 2.06, programming note for divdeu.  */
+    uint64_t q1, q2, Q, r1, r2, R;
+    asm("divdeu %0,%2,%4; divdu %1,%3,%4"
+        : "=&r"(q1), "=r"(q2)
+        : "r"(n1), "r"(n0), "r"(d));
+    r1 = -(q1 * d);         /* low part of (n1<<64) - (q1 * d) */
+    r2 = n0 - (q2 * d);
+    Q = q1 + q2;
+    R = r1 + r2;
+    if (R >= d || R < r2) { /* overflow implies R > d */
+        Q += 1;
+        R -= d;
+    }
+    *r = R;
+    return Q;
+#else
+    uint64_t d0, d1, q0, q1, r1, r0, m;
+
+    d0 = (uint32_t)d;
+    d1 = d >> 32;
+
+    r1 = n1 % d1;
+    q1 = n1 / d1;
+    m = q1 * d0;
+    r1 = (r1 << 32) | (n0 >> 32);
+    if (r1 < m) {
+        q1 -= 1;
+        r1 += d;
+        if (r1 >= d) {
+            if (r1 < m) {
+                q1 -= 1;
+                r1 += d;
+            }
+        }
+    }
+    r1 -= m;
+
+    r0 = r1 % d1;
+    q0 = r1 / d1;
+    m = q0 * d0;
+    r0 = (r0 << 32) | (uint32_t)n0;
+    if (r0 < m) {
+        q0 -= 1;
+        r0 += d;
+        if (r0 >= d) {
+            if (r0 < m) {
+                q0 -= 1;
+                r0 += d;
+            }
+        }
+    }
+    r0 -= m;
+
+    *r = r0;
+    return (q1 << 32) | q0;
+#endif
+}
+
 #endif
-- 
2.25.1

From: Luis Pires <luis.pires@eldorado.org.br>

These will be used to implement new decimal floating point
instructions from Power ISA 3.1.

The remainder is now returned directly by divu128/divs128,
freeing up phigh to receive the high 64 bits of the quotient.

Signed-off-by: Luis Pires <luis.pires@eldorado.org.br>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-Id: <20211025191154.350831-4-luis.pires@eldorado.org.br>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 include/hw/clock.h        |   6 +-
 include/qemu/host-utils.h |  20 ++++--
 target/ppc/int_helper.c   |   9 +--
 util/host-utils.c         | 133 +++++++++++++++++++++++++-------------
 4 files changed, 108 insertions(+), 60 deletions(-)

diff --git a/include/hw/clock.h b/include/hw/clock.h
index XXXXXXX..XXXXXXX 100644
--- a/include/hw/clock.h
+++ b/include/hw/clock.h
@@ -XXX,XX +XXX,XX @@ static inline uint64_t clock_ns_to_ticks(const Clock *clk, uint64_t ns)
     if (clk->period == 0) {
         return 0;
     }
-    /*
-     * BUG: when CONFIG_INT128 is not defined, the current implementation of
-     * divu128 does not return a valid truncated quotient, so the result will
-     * be wrong.
-     */
+
     divu128(&lo, &hi, clk->period);
     return lo;
 }
diff --git a/include/qemu/host-utils.h b/include/qemu/host-utils.h
index XXXXXXX..XXXXXXX 100644
--- a/include/qemu/host-utils.h
+++ b/include/qemu/host-utils.h
@@ -XXX,XX +XXX,XX @@ static inline uint64_t muldiv64(uint64_t a, uint32_t b, uint32_t c)
     return (__int128_t)a * b / c;
 }
 
-static inline void divu128(uint64_t *plow, uint64_t *phigh, uint64_t divisor)
+static inline uint64_t divu128(uint64_t *plow, uint64_t *phigh,
+                               uint64_t divisor)
 {
     __uint128_t dividend = ((__uint128_t)*phigh << 64) | *plow;
     __uint128_t result = dividend / divisor;
+
     *plow = result;
-    *phigh = dividend % divisor;
+    *phigh = result >> 64;
+    return dividend % divisor;
 }
 
-static inline void divs128(int64_t *plow, int64_t *phigh, int64_t divisor)
+static inline int64_t divs128(uint64_t *plow, int64_t *phigh,
+                              int64_t divisor)
 {
-    __int128_t dividend = ((__int128_t)*phigh << 64) | (uint64_t)*plow;
+    __int128_t dividend = ((__int128_t)*phigh << 64) | *plow;
     __int128_t result = dividend / divisor;
+
     *plow = result;
-    *phigh = dividend % divisor;
+    *phigh = result >> 64;
+    return dividend % divisor;
 }
 #else
 void muls64(uint64_t *plow, uint64_t *phigh, int64_t a, int64_t b);
 void mulu64(uint64_t *plow, uint64_t *phigh, uint64_t a, uint64_t b);
-void divu128(uint64_t *plow, uint64_t *phigh, uint64_t divisor);
-void divs128(int64_t *plow, int64_t *phigh, int64_t divisor);
+uint64_t divu128(uint64_t *plow, uint64_t *phigh, uint64_t divisor);
+int64_t divs128(uint64_t *plow, int64_t *phigh, int64_t divisor);
 
 static inline uint64_t muldiv64(uint64_t a, uint32_t b, uint32_t c)
 {
diff --git a/target/ppc/int_helper.c b/target/ppc/int_helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/ppc/int_helper.c
+++ b/target/ppc/int_helper.c
@@ -XXX,XX +XXX,XX @@ uint64_t helper_divdeu(CPUPPCState *env, uint64_t ra, uint64_t rb, uint32_t oe)
 
 uint64_t helper_divde(CPUPPCState *env, uint64_t rau, uint64_t rbu, uint32_t oe)
 {
-    int64_t rt = 0;
+    uint64_t rt = 0;
     int64_t ra = (int64_t)rau;
     int64_t rb = (int64_t)rbu;
     int overflow = 0;
@@ -XXX,XX +XXX,XX @@ uint32_t helper_bcdcfsq(ppc_avr_t *r, ppc_avr_t *b, uint32_t ps)
     int cr;
     uint64_t lo_value;
     uint64_t hi_value;
+    uint64_t rem;
     ppc_avr_t ret = { .u64 = { 0, 0 } };
 
     if (b->VsrSD(0) < 0) {
@@ -XXX,XX +XXX,XX @@ uint32_t helper_bcdcfsq(ppc_avr_t *r, ppc_avr_t *b, uint32_t ps)
          * In that case, we leave r unchanged.
          */
     } else {
-        divu128(&lo_value, &hi_value, 1000000000000000ULL);
+        rem = divu128(&lo_value, &hi_value, 1000000000000000ULL);
 
-        for (i = 1; i < 16; hi_value /= 10, i++) {
-            bcd_put_digit(&ret, hi_value % 10, i);
+        for (i = 1; i < 16; rem /= 10, i++) {
+            bcd_put_digit(&ret, rem % 10, i);
         }
 
         for (; i < 32; lo_value /= 10, i++) {
diff --git a/util/host-utils.c b/util/host-utils.c
index XXXXXXX..XXXXXXX 100644
--- a/util/host-utils.c
+++ b/util/host-utils.c
@@ -XXX,XX +XXX,XX @@ void muls64 (uint64_t *plow, uint64_t *phigh, int64_t a, int64_t b)
 }
 
 /*
- * Unsigned 128-by-64 division. Returns quotient via plow and
- * remainder via phigh.
- * The result must fit in 64 bits (plow) - otherwise, the result
- * is undefined.
- * This function will cause a division by zero if passed a zero divisor.
+ * Unsigned 128-by-64 division.
+ * Returns the remainder.
+ * Returns quotient via plow and phigh.
+ * Also returns the remainder via the function return value.
  */
-void divu128(uint64_t *plow, uint64_t *phigh, uint64_t divisor)
+uint64_t divu128(uint64_t *plow, uint64_t *phigh, uint64_t divisor)
 {
     uint64_t dhi = *phigh;
     uint64_t dlo = *plow;
-    unsigned i;
-    uint64_t carry = 0;
+    uint64_t rem, dhighest;
+    int sh;
 
     if (divisor == 0 || dhi == 0) {
         *plow  = dlo / divisor;
-        *phigh = dlo % divisor;
+        *phigh = 0;
+        return dlo % divisor;
     } else {
+        sh = clz64(divisor);
 
-        for (i = 0; i < 64; i++) {
-            carry = dhi >> 63;
-            dhi = (dhi << 1) | (dlo >> 63);
-            if (carry || (dhi >= divisor)) {
-                dhi -= divisor;
-                carry = 1;
-            } else {
-                carry = 0;
+        if (dhi < divisor) {
+            if (sh != 0) {
+                /* normalize the divisor, shifting the dividend accordingly */
+                divisor <<= sh;
+                dhi = (dhi << sh) | (dlo >> (64 - sh));
+                dlo <<= sh;
             }
-            dlo = (dlo << 1) | carry;
+
+            *phigh = 0;
+            *plow = udiv_qrnnd(&rem, dhi, dlo, divisor);
+        } else {
+            if (sh != 0) {
+                /* normalize the divisor, shifting the dividend accordingly */
+                divisor <<= sh;
+                dhighest = dhi >> (64 - sh);
+                dhi = (dhi << sh) | (dlo >> (64 - sh));
+                dlo <<= sh;
+
+                *phigh = udiv_qrnnd(&dhi, dhighest, dhi, divisor);
+            } else {
+                /**
+                 * dhi >= divisor
+                 * Since the MSB of divisor is set (sh == 0),
+                 * (dhi - divisor) < divisor
+                 *
+                 * Thus, the high part of the quotient is 1, and we can
+                 * calculate the low part with a single call to udiv_qrnnd
+                 * after subtracting divisor from dhi
+                 */
+                dhi -= divisor;
+                *phigh = 1;
+            }
+
+            *plow = udiv_qrnnd(&rem, dhi, dlo, divisor);
         }
 
-        *plow = dlo;
-        *phigh = dhi;
+        /*
+         * since the dividend/divisor might have been normalized,
+         * the remainder might also have to be shifted back
+         */
+        return rem >> sh;
     }
 }
 
 /*
- * Signed 128-by-64 division. Returns quotient via plow and
- * remainder via phigh.
- * The result must fit in 64 bits (plow) - otherwise, the result
- * is undefined.
- * This function will cause a division by zero if passed a zero divisor.
+ * Signed 128-by-64 division.
+ * Returns quotient via plow and phigh.
+ * Also returns the remainder via the function return value.
  */
-void divs128(int64_t *plow, int64_t *phigh, int64_t divisor)
+int64_t divs128(uint64_t *plow, int64_t *phigh, int64_t divisor)
 {
-    int sgn_dvdnd = *phigh < 0;
-    int sgn_divsr = divisor < 0;
+    bool neg_quotient = false, neg_remainder = false;
+    uint64_t unsig_hi = *phigh, unsig_lo = *plow;
+    uint64_t rem;
 
-    if (sgn_dvdnd) {
-        *plow = ~(*plow);
-        *phigh = ~(*phigh);
-        if (*plow == (int64_t)-1) {
+    if (*phigh < 0) {
+        neg_quotient = !neg_quotient;
+        neg_remainder = !neg_remainder;
+
+        if (unsig_lo == 0) {
+            unsig_hi = -unsig_hi;
+        } else {
+            unsig_hi = ~unsig_hi;
+            unsig_lo = -unsig_lo;
+        }
+    }
+
+    if (divisor < 0) {
+        neg_quotient = !neg_quotient;
+
+        divisor = -divisor;
+    }
+
+    rem = divu128(&unsig_lo, &unsig_hi, (uint64_t)divisor);
+
+    if (neg_quotient) {
+        if (unsig_lo == 0) {
+            *phigh = -unsig_hi;
             *plow = 0;
-            (*phigh)++;
-         } else {
-            (*plow)++;
-         }
+        } else {
+            *phigh = ~unsig_hi;
+            *plow = -unsig_lo;
+        }
+    } else {
+        *phigh = unsig_hi;
+        *plow = unsig_lo;
     }
 
-    if (sgn_divsr) {
-        divisor = 0 - divisor;
-    }
-
-    divu128((uint64_t *)plow, (uint64_t *)phigh, (uint64_t)divisor);
-
-    if (sgn_dvdnd  ^ sgn_divsr) {
-        *plow = 0 - *plow;
+    if (neg_remainder) {
+        return -rem;
+    } else {
+        return rem;
     }
 }
 #endif
-- 
2.25.1

From: Luis Pires <luis.pires@eldorado.org.br>

Signed-off-by: Luis Pires <luis.pires@eldorado.org.br>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-Id: <20211025191154.350831-5-luis.pires@eldorado.org.br>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tests/unit/test-div128.c | 197 +++++++++++++++++++++++++++++++++++++++
 tests/unit/meson.build   |   1 +
 2 files changed, 198 insertions(+)
 create mode 100644 tests/unit/test-div128.c

diff --git a/tests/unit/test-div128.c b/tests/unit/test-div128.c
new file mode 100644
index XXXXXXX..XXXXXXX
--- /dev/null
+++ b/tests/unit/test-div128.c
@@ -XXX,XX +XXX,XX @@
+/*
+ * Test 128-bit division functions
+ *
+ * Copyright (c) 2021 Instituto de Pesquisas Eldorado (eldorado.org.br)
+ *
+ * This library is free software; you can redistribute it and/or
+ * modify it under the terms of the GNU Lesser General Public
+ * License as published by the Free Software Foundation; either
+ * version 2.1 of the License, or (at your option) any later version.
+ *
+ * This library is distributed in the hope that it will be useful,
+ * but WITHOUT ANY WARRANTY; without even the implied warranty of
+ * MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU
+ * Lesser General Public License for more details.
+ *
+ * You should have received a copy of the GNU Lesser General Public
+ * License along with this library; if not, see <http://www.gnu.org/licenses/>.
+ */
+
+#include "qemu/osdep.h"
+#include "qemu/host-utils.h"
+
+typedef struct {
+    uint64_t high;
+    uint64_t low;
+    uint64_t rhigh;
+    uint64_t rlow;
+    uint64_t divisor;
+    uint64_t remainder;
+} test_data_unsigned;
+
+typedef struct {
+    int64_t high;
+    uint64_t low;
+    int64_t rhigh;
+    uint64_t rlow;
+    int64_t divisor;
+    int64_t remainder;
+} test_data_signed;
+
+static const test_data_unsigned test_table_unsigned[] = {
+    /* Dividend fits in 64 bits */
+    { 0x0000000000000000ULL, 0x0000000000000000ULL,
+      0x0000000000000000ULL, 0x0000000000000000ULL,
+      0x0000000000000001ULL, 0x0000000000000000ULL},
+    { 0x0000000000000000ULL, 0x0000000000000001ULL,
+      0x0000000000000000ULL, 0x0000000000000001ULL,
+      0x0000000000000001ULL, 0x0000000000000000ULL},
+    { 0x0000000000000000ULL, 0x0000000000000003ULL,
+      0x0000000000000000ULL, 0x0000000000000001ULL,
+      0x0000000000000002ULL, 0x0000000000000001ULL},
+    { 0x0000000000000000ULL, 0x8000000000000000ULL,
+      0x0000000000000000ULL, 0x8000000000000000ULL,
+      0x0000000000000001ULL, 0x0000000000000000ULL},
+    { 0x0000000000000000ULL, 0xa000000000000000ULL,
+      0x0000000000000000ULL, 0x0000000000000002ULL,
+      0x4000000000000000ULL, 0x2000000000000000ULL},
+    { 0x0000000000000000ULL, 0x8000000000000000ULL,
+      0x0000000000000000ULL, 0x0000000000000001ULL,
+      0x8000000000000000ULL, 0x0000000000000000ULL},
+
+    /* Dividend > 64 bits, with MSB 0 */
+    { 0x123456789abcdefeULL, 0xefedcba987654321ULL,
+      0x123456789abcdefeULL, 0xefedcba987654321ULL,
+      0x0000000000000001ULL, 0x0000000000000000ULL},
+    { 0x123456789abcdefeULL, 0xefedcba987654321ULL,
+      0x0000000000000001ULL, 0x000000000000000dULL,
+      0x123456789abcdefeULL, 0x03456789abcdf03bULL},
+    { 0x123456789abcdefeULL, 0xefedcba987654321ULL,
+      0x0123456789abcdefULL, 0xeefedcba98765432ULL,
+      0x0000000000000010ULL, 0x0000000000000001ULL},
+
+    /* Dividend > 64 bits, with MSB 1 */
+    { 0xfeeddccbbaa99887ULL, 0x766554433221100fULL,
+      0xfeeddccbbaa99887ULL, 0x766554433221100fULL,
+      0x0000000000000001ULL, 0x0000000000000000ULL},
+    { 0xfeeddccbbaa99887ULL, 0x766554433221100fULL,
+      0x0000000000000001ULL, 0x0000000000000000ULL,
+      0xfeeddccbbaa99887ULL, 0x766554433221100fULL},
+    { 0xfeeddccbbaa99887ULL, 0x766554433221100fULL,
+      0x0feeddccbbaa9988ULL, 0x7766554433221100ULL,
+      0x0000000000000010ULL, 0x000000000000000fULL},
+    { 0xfeeddccbbaa99887ULL, 0x766554433221100fULL,
+      0x000000000000000eULL, 0x00f0f0f0f0f0f35aULL,
+      0x123456789abcdefeULL, 0x0f8922bc55ef90c3ULL},
+
+    /**
+     * Divisor == 64 bits, with MSB 1
+     * and high 64 bits of dividend >= divisor
+     * (for testing normalization)
+     */
+    { 0xfeeddccbbaa99887ULL, 0x766554433221100fULL,
+      0x0000000000000001ULL, 0x0000000000000000ULL,
+      0xfeeddccbbaa99887ULL, 0x766554433221100fULL},
+    { 0xfeeddccbbaa99887ULL, 0x766554433221100fULL,
+      0x0000000000000001ULL, 0xfddbb9977553310aULL,
+      0x8000000000000001ULL, 0x78899aabbccddf05ULL},
+
+    /* Dividend > 64 bits, divisor almost as big */
+    { 0x0000000000000001ULL, 0x23456789abcdef01ULL,
+      0x0000000000000000ULL, 0x000000000000000fULL,
+      0x123456789abcdefeULL, 0x123456789abcde1fULL},
+};
+
+static const test_data_signed test_table_signed[] = {
+    /* Positive dividend, positive/negative divisors */
+    { 0x0000000000000000LL, 0x0000000000bc614eULL,
+      0x0000000000000000LL, 0x0000000000bc614eULL,
+      0x0000000000000001LL, 0x0000000000000000LL},
+    { 0x0000000000000000LL, 0x0000000000bc614eULL,
+      0xffffffffffffffffLL, 0xffffffffff439eb2ULL,
+      0xffffffffffffffffLL, 0x0000000000000000LL},
+    { 0x0000000000000000LL, 0x0000000000bc614eULL,
+      0x0000000000000000LL, 0x00000000005e30a7ULL,
+      0x0000000000000002LL, 0x0000000000000000LL},
+    { 0x0000000000000000LL, 0x0000000000bc614eULL,
+      0xffffffffffffffffLL, 0xffffffffffa1cf59ULL,
+      0xfffffffffffffffeLL, 0x0000000000000000LL},
+    { 0x0000000000000000LL, 0x0000000000bc614eULL,
+      0x0000000000000000LL, 0x0000000000178c29ULL,
+      0x0000000000000008LL, 0x0000000000000006LL},
+    { 0x0000000000000000LL, 0x0000000000bc614eULL,
+      0xffffffffffffffffLL, 0xffffffffffe873d7ULL,
+      0xfffffffffffffff8LL, 0x0000000000000006LL},
+    { 0x0000000000000000LL, 0x0000000000bc614eULL,
+      0x0000000000000000LL, 0x000000000000550dULL,
+      0x0000000000000237LL, 0x0000000000000183LL},
+    { 0x0000000000000000LL, 0x0000000000bc614eULL,
+      0xffffffffffffffffLL, 0xffffffffffffaaf3ULL,
+      0xfffffffffffffdc9LL, 0x0000000000000183LL},
+
+    /* Negative dividend, positive/negative divisors */
+    { 0xffffffffffffffffLL, 0xffffffffff439eb2ULL,
+      0xffffffffffffffffLL, 0xffffffffff439eb2ULL,
+      0x0000000000000001LL, 0x0000000000000000LL},
+    { 0xffffffffffffffffLL, 0xffffffffff439eb2ULL,
+      0x0000000000000000LL, 0x0000000000bc614eULL,
+      0xffffffffffffffffLL, 0x0000000000000000LL},
+    { 0xffffffffffffffffLL, 0xffffffffff439eb2ULL,
+      0xffffffffffffffffLL, 0xffffffffffa1cf59ULL,
+      0x0000000000000002LL, 0x0000000000000000LL},
+    { 0xffffffffffffffffLL, 0xffffffffff439eb2ULL,
+      0x0000000000000000LL, 0x00000000005e30a7ULL,
+      0xfffffffffffffffeLL, 0x0000000000000000LL},
+    { 0xffffffffffffffffLL, 0xffffffffff439eb2ULL,
+      0xffffffffffffffffLL, 0xffffffffffe873d7ULL,
+      0x0000000000000008LL, 0xfffffffffffffffaLL},
+    { 0xffffffffffffffffLL, 0xffffffffff439eb2ULL,
+      0x0000000000000000LL, 0x0000000000178c29ULL,
+      0xfffffffffffffff8LL, 0xfffffffffffffffaLL},
+    { 0xffffffffffffffffLL, 0xffffffffff439eb2ULL,
+      0xffffffffffffffffLL, 0xffffffffffffaaf3ULL,
+      0x0000000000000237LL, 0xfffffffffffffe7dLL},
+    { 0xffffffffffffffffLL, 0xffffffffff439eb2ULL,
+      0x0000000000000000LL, 0x000000000000550dULL,
+      0xfffffffffffffdc9LL, 0xfffffffffffffe7dLL},
+};
+
+static void test_divu128(void)
+{
+    int i;
+    uint64_t rem;
+    test_data_unsigned tmp;
+
+    for (i = 0; i < ARRAY_SIZE(test_table_unsigned); ++i) {
+        tmp = test_table_unsigned[i];
+
+        rem = divu128(&tmp.low, &tmp.high, tmp.divisor);
+        g_assert_cmpuint(tmp.low, ==, tmp.rlow);
+        g_assert_cmpuint(tmp.high, ==, tmp.rhigh);
+        g_assert_cmpuint(rem, ==, tmp.remainder);
+    }
+}
+
+static void test_divs128(void)
+{
+    int i;
+    int64_t rem;
+    test_data_signed tmp;
+
+    for (i = 0; i < ARRAY_SIZE(test_table_signed); ++i) {
+        tmp = test_table_signed[i];
+
+        rem = divs128(&tmp.low, &tmp.high, tmp.divisor);
+        g_assert_cmpuint(tmp.low, ==, tmp.rlow);
+        g_assert_cmpuint(tmp.high, ==, tmp.rhigh);
+        g_assert_cmpuint(rem, ==, tmp.remainder);
+    }
+}
+
+int main(int argc, char **argv)
+{
+    g_test_init(&argc, &argv, NULL);
+    g_test_add_func("/host-utils/test_divu128", test_divu128);
+    g_test_add_func("/host-utils/test_divs128", test_divs128);
+    return g_test_run();
+}
diff --git a/tests/unit/meson.build b/tests/unit/meson.build
index XXXXXXX..XXXXXXX 100644
--- a/tests/unit/meson.build
+++ b/tests/unit/meson.build
@@ -XXX,XX +XXX,XX @@ tests = {
   # all code tested by test-x86-cpuid is inside topology.h
   'test-x86-cpuid': [],
   'test-cutils': [],
+  'test-div128': [],
   'test-shift128': [],
   'test-mul64': [],
   # all code tested by test-int128 is inside int128.h
-- 
2.25.1

Prepare for tracking different masks by renaming this one.

Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
Reviewed-by: Luis Pires <luis.pires@eldorado.org.br>
Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/optimize.c | 142 +++++++++++++++++++++++++------------------------
 1 file changed, 72 insertions(+), 70 deletions(-)

diff --git a/tcg/optimize.c b/tcg/optimize.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/optimize.c
+++ b/tcg/optimize.c
@@ -XXX,XX +XXX,XX @@ typedef struct TempOptInfo {
     TCGTemp *prev_copy;
     TCGTemp *next_copy;
     uint64_t val;
-    uint64_t mask;
+    uint64_t z_mask;  /* mask bit is 0 if and only if value bit is 0 */
 } TempOptInfo;
 
 static inline TempOptInfo *ts_info(TCGTemp *ts)
@@ -XXX,XX +XXX,XX @@ static void reset_ts(TCGTemp *ts)
     ti->next_copy = ts;
     ti->prev_copy = ts;
     ti->is_const = false;
-    ti->mask = -1;
+    ti->z_mask = -1;
 }
 
 static void reset_temp(TCGArg arg)
@@ -XXX,XX +XXX,XX @@ static void init_ts_info(TCGTempSet *temps_used, TCGTemp *ts)
     if (ts->kind == TEMP_CONST) {
         ti->is_const = true;
         ti->val = ts->val;
-        ti->mask = ts->val;
+        ti->z_mask = ts->val;
         if (TCG_TARGET_REG_BITS > 32 && ts->type == TCG_TYPE_I32) {
             /* High bits of a 32-bit quantity are garbage.  */
-            ti->mask |= ~0xffffffffull;
+            ti->z_mask |= ~0xffffffffull;
         }
     } else {
         ti->is_const = false;
-        ti->mask = -1;
+        ti->z_mask = -1;
     }
 }
 
@@ -XXX,XX +XXX,XX @@ static void tcg_opt_gen_mov(TCGContext *s, TCGOp *op, TCGArg dst, TCGArg src)
     const TCGOpDef *def;
     TempOptInfo *di;
     TempOptInfo *si;
-    uint64_t mask;
+    uint64_t z_mask;
     TCGOpcode new_op;
 
     if (ts_are_copies(dst_ts, src_ts)) {
@@ -XXX,XX +XXX,XX @@ static void tcg_opt_gen_mov(TCGContext *s, TCGOp *op, TCGArg dst, TCGArg src)
     op->args[0] = dst;
     op->args[1] = src;
 
-    mask = si->mask;
+    z_mask = si->z_mask;
     if (TCG_TARGET_REG_BITS > 32 && new_op == INDEX_op_mov_i32) {
         /* High bits of the destination are now garbage.  */
-        mask |= ~0xffffffffull;
+        z_mask |= ~0xffffffffull;
     }
-    di->mask = mask;
+    di->z_mask = z_mask;
 
     if (src_ts->type == dst_ts->type) {
         TempOptInfo *ni = ts_info(si->next_copy);
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
     }
 
     QTAILQ_FOREACH_SAFE(op, &s->ops, link, op_next) {
-        uint64_t mask, partmask, affected, tmp;
+        uint64_t z_mask, partmask, affected, tmp;
         int nb_oargs, nb_iargs;
         TCGOpcode opc = op->opc;
         const TCGOpDef *def = &tcg_op_defs[opc];
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
 
         /* Simplify using known-zero bits. Currently only ops with a single
            output argument is supported. */
-        mask = -1;
+        z_mask = -1;
         affected = -1;
         switch (opc) {
         CASE_OP_32_64(ext8s):
-            if ((arg_info(op->args[1])->mask & 0x80) != 0) {
+            if ((arg_info(op->args[1])->z_mask & 0x80) != 0) {
                 break;
             }
             QEMU_FALLTHROUGH;
         CASE_OP_32_64(ext8u):
-            mask = 0xff;
+            z_mask = 0xff;
             goto and_const;
         CASE_OP_32_64(ext16s):
-            if ((arg_info(op->args[1])->mask & 0x8000) != 0) {
+            if ((arg_info(op->args[1])->z_mask & 0x8000) != 0) {
                 break;
             }
             QEMU_FALLTHROUGH;
         CASE_OP_32_64(ext16u):
-            mask = 0xffff;
+            z_mask = 0xffff;
             goto and_const;
         case INDEX_op_ext32s_i64:
-            if ((arg_info(op->args[1])->mask & 0x80000000) != 0) {
+            if ((arg_info(op->args[1])->z_mask & 0x80000000) != 0) {
                 break;
             }
             QEMU_FALLTHROUGH;
         case INDEX_op_ext32u_i64:
-            mask = 0xffffffffU;
+            z_mask = 0xffffffffU;
             goto and_const;
 
         CASE_OP_32_64(and):
-            mask = arg_info(op->args[2])->mask;
+            z_mask = arg_info(op->args[2])->z_mask;
             if (arg_is_const(op->args[2])) {
         and_const:
-                affected = arg_info(op->args[1])->mask & ~mask;
+                affected = arg_info(op->args[1])->z_mask & ~z_mask;
             }
-            mask = arg_info(op->args[1])->mask & mask;
+            z_mask = arg_info(op->args[1])->z_mask & z_mask;
             break;
 
         case INDEX_op_ext_i32_i64:
-            if ((arg_info(op->args[1])->mask & 0x80000000) != 0) {
+            if ((arg_info(op->args[1])->z_mask & 0x80000000) != 0) {
                 break;
             }
             QEMU_FALLTHROUGH;
         case INDEX_op_extu_i32_i64:
             /* We do not compute affected as it is a size changing op.  */
-            mask = (uint32_t)arg_info(op->args[1])->mask;
+            z_mask = (uint32_t)arg_info(op->args[1])->z_mask;
             break;
 
         CASE_OP_32_64(andc):
             /* Known-zeros does not imply known-ones.  Therefore unless
                op->args[2] is constant, we can't infer anything from it.  */
             if (arg_is_const(op->args[2])) {
-                mask = ~arg_info(op->args[2])->mask;
+                z_mask = ~arg_info(op->args[2])->z_mask;
                 goto and_const;
             }
             /* But we certainly know nothing outside args[1] may be set. */
-            mask = arg_info(op->args[1])->mask;
+            z_mask = arg_info(op->args[1])->z_mask;
             break;
 
         case INDEX_op_sar_i32:
             if (arg_is_const(op->args[2])) {
                 tmp = arg_info(op->args[2])->val & 31;
-                mask = (int32_t)arg_info(op->args[1])->mask >> tmp;
+                z_mask = (int32_t)arg_info(op->args[1])->z_mask >> tmp;
             }
             break;
         case INDEX_op_sar_i64:
             if (arg_is_const(op->args[2])) {
                 tmp = arg_info(op->args[2])->val & 63;
-                mask = (int64_t)arg_info(op->args[1])->mask >> tmp;
+                z_mask = (int64_t)arg_info(op->args[1])->z_mask >> tmp;
             }
             break;
 
         case INDEX_op_shr_i32:
             if (arg_is_const(op->args[2])) {
                 tmp = arg_info(op->args[2])->val & 31;
-                mask = (uint32_t)arg_info(op->args[1])->mask >> tmp;
+                z_mask = (uint32_t)arg_info(op->args[1])->z_mask >> tmp;
             }
             break;
         case INDEX_op_shr_i64:
             if (arg_is_const(op->args[2])) {
                 tmp = arg_info(op->args[2])->val & 63;
-                mask = (uint64_t)arg_info(op->args[1])->mask >> tmp;
+                z_mask = (uint64_t)arg_info(op->args[1])->z_mask >> tmp;
             }
             break;
 
         case INDEX_op_extrl_i64_i32:
-            mask = (uint32_t)arg_info(op->args[1])->mask;
+            z_mask = (uint32_t)arg_info(op->args[1])->z_mask;
             break;
         case INDEX_op_extrh_i64_i32:
-            mask = (uint64_t)arg_info(op->args[1])->mask >> 32;
+            z_mask = (uint64_t)arg_info(op->args[1])->z_mask >> 32;
             break;
 
         CASE_OP_32_64(shl):
             if (arg_is_const(op->args[2])) {
                 tmp = arg_info(op->args[2])->val & (TCG_TARGET_REG_BITS - 1);
-                mask = arg_info(op->args[1])->mask << tmp;
+                z_mask = arg_info(op->args[1])->z_mask << tmp;
             }
             break;
 
         CASE_OP_32_64(neg):
             /* Set to 1 all bits to the left of the rightmost.  */
-            mask = -(arg_info(op->args[1])->mask
-                     & -arg_info(op->args[1])->mask);
+            z_mask = -(arg_info(op->args[1])->z_mask
+                       & -arg_info(op->args[1])->z_mask);
             break;
 
         CASE_OP_32_64(deposit):
-            mask = deposit64(arg_info(op->args[1])->mask,
-                             op->args[3], op->args[4],
-                             arg_info(op->args[2])->mask);
+            z_mask = deposit64(arg_info(op->args[1])->z_mask,
+                               op->args[3], op->args[4],
+                               arg_info(op->args[2])->z_mask);
             break;
 
         CASE_OP_32_64(extract):
-            mask = extract64(arg_info(op->args[1])->mask,
-                             op->args[2], op->args[3]);
+            z_mask = extract64(arg_info(op->args[1])->z_mask,
+                               op->args[2], op->args[3]);
             if (op->args[2] == 0) {
-                affected = arg_info(op->args[1])->mask & ~mask;
+                affected = arg_info(op->args[1])->z_mask & ~z_mask;
             }
             break;
         CASE_OP_32_64(sextract):
-            mask = sextract64(arg_info(op->args[1])->mask,
-                              op->args[2], op->args[3]);
-            if (op->args[2] == 0 && (tcg_target_long)mask >= 0) {
-                affected = arg_info(op->args[1])->mask & ~mask;
+            z_mask = sextract64(arg_info(op->args[1])->z_mask,
+                                op->args[2], op->args[3]);
+            if (op->args[2] == 0 && (tcg_target_long)z_mask >= 0) {
+                affected = arg_info(op->args[1])->z_mask & ~z_mask;
             }
             break;
 
         CASE_OP_32_64(or):
         CASE_OP_32_64(xor):
-            mask = arg_info(op->args[1])->mask | arg_info(op->args[2])->mask;
+            z_mask = arg_info(op->args[1])->z_mask
+                   | arg_info(op->args[2])->z_mask;
             break;
 
         case INDEX_op_clz_i32:
         case INDEX_op_ctz_i32:
-            mask = arg_info(op->args[2])->mask | 31;
+            z_mask = arg_info(op->args[2])->z_mask | 31;
             break;
 
         case INDEX_op_clz_i64:
         case INDEX_op_ctz_i64:
-            mask = arg_info(op->args[2])->mask | 63;
+            z_mask = arg_info(op->args[2])->z_mask | 63;
             break;
 
         case INDEX_op_ctpop_i32:
-            mask = 32 | 31;
+            z_mask = 32 | 31;
             break;
         case INDEX_op_ctpop_i64:
-            mask = 64 | 63;
+            z_mask = 64 | 63;
             break;
 
         CASE_OP_32_64(setcond):
         case INDEX_op_setcond2_i32:
-            mask = 1;
+            z_mask = 1;
             break;
 
         CASE_OP_32_64(movcond):
-            mask = arg_info(op->args[3])->mask | arg_info(op->args[4])->mask;
+            z_mask = arg_info(op->args[3])->z_mask
+                   | arg_info(op->args[4])->z_mask;
             break;
 
         CASE_OP_32_64(ld8u):
-            mask = 0xff;
+            z_mask = 0xff;
             break;
         CASE_OP_32_64(ld16u):
-            mask = 0xffff;
+            z_mask = 0xffff;
             break;
         case INDEX_op_ld32u_i64:
-            mask = 0xffffffffu;
+            z_mask = 0xffffffffu;
             break;
 
         CASE_OP_32_64(qemu_ld):
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
                 MemOpIdx oi = op->args[nb_oargs + nb_iargs];
                 MemOp mop = get_memop(oi);
                 if (!(mop & MO_SIGN)) {
-                    mask = (2ULL << ((8 << (mop & MO_SIZE)) - 1)) - 1;
+                    z_mask = (2ULL << ((8 << (mop & MO_SIZE)) - 1)) - 1;
                 }
             }
             break;
 
         CASE_OP_32_64(bswap16):
-            mask = arg_info(op->args[1])->mask;
-            if (mask <= 0xffff) {
+            z_mask = arg_info(op->args[1])->z_mask;
+            if (z_mask <= 0xffff) {
                 op->args[2] |= TCG_BSWAP_IZ;
             }
-            mask = bswap16(mask);
+            z_mask = bswap16(z_mask);
             switch (op->args[2] & (TCG_BSWAP_OZ | TCG_BSWAP_OS)) {
             case TCG_BSWAP_OZ:
                 break;
             case TCG_BSWAP_OS:
-                mask = (int16_t)mask;
+                z_mask = (int16_t)z_mask;
                 break;
             default: /* undefined high bits */
-                mask |= MAKE_64BIT_MASK(16, 48);
+                z_mask |= MAKE_64BIT_MASK(16, 48);
                 break;
             }
             break;
 
         case INDEX_op_bswap32_i64:
-            mask = arg_info(op->args[1])->mask;
-            if (mask <= 0xffffffffu) {
+            z_mask = arg_info(op->args[1])->z_mask;
+            if (z_mask <= 0xffffffffu) {
                 op->args[2] |= TCG_BSWAP_IZ;
             }
-            mask = bswap32(mask);
+            z_mask = bswap32(z_mask);
             switch (op->args[2] & (TCG_BSWAP_OZ | TCG_BSWAP_OS)) {
             case TCG_BSWAP_OZ:
                 break;
             case TCG_BSWAP_OS:
-                mask = (int32_t)mask;
+                z_mask = (int32_t)z_mask;
                 break;
             default: /* undefined high bits */
-                mask |= MAKE_64BIT_MASK(32, 32);
+                z_mask |= MAKE_64BIT_MASK(32, 32);
                 break;
             }
             break;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
         /* 32-bit ops generate 32-bit results.  For the result is zero test
            below, we can ignore high bits, but for further optimizations we
            need to record that the high bits contain garbage.  */
-        partmask = mask;
+        partmask = z_mask;
         if (!(def->flags & TCG_OPF_64BIT)) {
-            mask |= ~(tcg_target_ulong)0xffffffffu;
+            z_mask |= ~(tcg_target_ulong)0xffffffffu;
             partmask &= 0xffffffffu;
             affected &= 0xffffffffu;
         }
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
                    vs the high word of the input.  */
             do_setcond_high:
                 reset_temp(op->args[0]);
-                arg_info(op->args[0])->mask = 1;
+                arg_info(op->args[0])->z_mask = 1;
                 op->opc = INDEX_op_setcond_i32;
                 op->args[1] = op->args[2];
                 op->args[2] = op->args[4];
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
                 }
             do_setcond_low:
                 reset_temp(op->args[0]);
-                arg_info(op->args[0])->mask = 1;
+                arg_info(op->args[0])->z_mask = 1;
                 op->opc = INDEX_op_setcond_i32;
                 op->args[2] = op->args[3];
                 op->args[3] = op->args[5];
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
             /* Default case: we know nothing about operation (or were unable
                to compute the operation result) so no propagation is done.
                We trash everything if the operation is the end of a basic
-               block, otherwise we only trash the output args.  "mask" is
+               block, otherwise we only trash the output args.  "z_mask" is
                the non-zero bits mask for the first output arg.  */
             if (def->flags & TCG_OPF_BB_END) {
                 memset(&temps_used, 0, sizeof(temps_used));
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
                     /* Save the corresponding known-zero bits mask for the
                        first output argument (only one supported so far). */
                     if (i == 0) {
-                        arg_info(op->args[i])->mask = mask;
+                        arg_info(op->args[i])->z_mask = z_mask;
                     }
                 }
             }
-- 
2.25.1

Provide what will become a larger context for splitting
the very large tcg_optimize function.

Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
Reviewed-by: Luis Pires <luis.pires@eldorado.org.br>
Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/optimize.c | 77 ++++++++++++++++++++++++++------------------------
 1 file changed, 40 insertions(+), 37 deletions(-)

diff --git a/tcg/optimize.c b/tcg/optimize.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/optimize.c
+++ b/tcg/optimize.c
@@ -XXX,XX +XXX,XX @@ typedef struct TempOptInfo {
     uint64_t z_mask;  /* mask bit is 0 if and only if value bit is 0 */
 } TempOptInfo;
 
+typedef struct OptContext {
+    TCGTempSet temps_used;
+} OptContext;
+
 static inline TempOptInfo *ts_info(TCGTemp *ts)
 {
     return ts->state_ptr;
@@ -XXX,XX +XXX,XX @@ static void reset_temp(TCGArg arg)
 }
 
 /* Initialize and activate a temporary.  */
-static void init_ts_info(TCGTempSet *temps_used, TCGTemp *ts)
+static void init_ts_info(OptContext *ctx, TCGTemp *ts)
 {
     size_t idx = temp_idx(ts);
     TempOptInfo *ti;
 
-    if (test_bit(idx, temps_used->l)) {
+    if (test_bit(idx, ctx->temps_used.l)) {
         return;
     }
-    set_bit(idx, temps_used->l);
+    set_bit(idx, ctx->temps_used.l);
 
     ti = ts->state_ptr;
     if (ti == NULL) {
@@ -XXX,XX +XXX,XX @@ static void init_ts_info(TCGTempSet *temps_used, TCGTemp *ts)
     }
 }
 
-static void init_arg_info(TCGTempSet *temps_used, TCGArg arg)
+static void init_arg_info(OptContext *ctx, TCGArg arg)
 {
-    init_ts_info(temps_used, arg_temp(arg));
+    init_ts_info(ctx, arg_temp(arg));
 }
 
 static TCGTemp *find_better_copy(TCGContext *s, TCGTemp *ts)
@@ -XXX,XX +XXX,XX @@ static void tcg_opt_gen_mov(TCGContext *s, TCGOp *op, TCGArg dst, TCGArg src)
     }
 }
 
-static void tcg_opt_gen_movi(TCGContext *s, TCGTempSet *temps_used,
+static void tcg_opt_gen_movi(TCGContext *s, OptContext *ctx,
                              TCGOp *op, TCGArg dst, uint64_t val)
 {
     const TCGOpDef *def = &tcg_op_defs[op->opc];
@@ -XXX,XX +XXX,XX @@ static void tcg_opt_gen_movi(TCGContext *s, TCGTempSet *temps_used,
 
     /* Convert movi to mov with constant temp. */
     tv = tcg_constant_internal(type, val);
-    init_ts_info(temps_used, tv);
+    init_ts_info(ctx, tv);
     tcg_opt_gen_mov(s, op, dst, temp_arg(tv));
 }
 
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
 {
     int nb_temps, nb_globals, i;
     TCGOp *op, *op_next, *prev_mb = NULL;
-    TCGTempSet temps_used;
+    OptContext ctx = {};
 
     /* Array VALS has an element for each temp.
        If this temp holds a constant then its value is kept in VALS' element.
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
     nb_temps = s->nb_temps;
     nb_globals = s->nb_globals;
 
-    memset(&temps_used, 0, sizeof(temps_used));
     for (i = 0; i < nb_temps; ++i) {
         s->temps[i].state_ptr = NULL;
     }
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
             for (i = 0; i < nb_oargs + nb_iargs; i++) {
                 TCGTemp *ts = arg_temp(op->args[i]);
                 if (ts) {
-                    init_ts_info(&temps_used, ts);
+                    init_ts_info(&ctx, ts);
                 }
             }
         } else {
             nb_oargs = def->nb_oargs;
             nb_iargs = def->nb_iargs;
             for (i = 0; i < nb_oargs + nb_iargs; i++) {
-                init_arg_info(&temps_used, op->args[i]);
+                init_arg_info(&ctx, op->args[i]);
             }
         }
 
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
         CASE_OP_32_64(rotr):
             if (arg_is_const(op->args[1])
                 && arg_info(op->args[1])->val == 0) {
-                tcg_opt_gen_movi(s, &temps_used, op, op->args[0], 0);
+                tcg_opt_gen_movi(s, &ctx, op, op->args[0], 0);
                 continue;
             }
             break;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
 
         if (partmask == 0) {
             tcg_debug_assert(nb_oargs == 1);
-            tcg_opt_gen_movi(s, &temps_used, op, op->args[0], 0);
+            tcg_opt_gen_movi(s, &ctx, op, op->args[0], 0);
             continue;
         }
         if (affected == 0) {
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
         CASE_OP_32_64(mulsh):
             if (arg_is_const(op->args[2])
                 && arg_info(op->args[2])->val == 0) {
-                tcg_opt_gen_movi(s, &temps_used, op, op->args[0], 0);
+                tcg_opt_gen_movi(s, &ctx, op, op->args[0], 0);
                 continue;
             }
             break;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
         CASE_OP_32_64_VEC(sub):
         CASE_OP_32_64_VEC(xor):
             if (args_are_copies(op->args[1], op->args[2])) {
-                tcg_opt_gen_movi(s, &temps_used, op, op->args[0], 0);
+                tcg_opt_gen_movi(s, &ctx, op, op->args[0], 0);
                 continue;
             }
             break;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
             if (arg_is_const(op->args[1])) {
                 tmp = arg_info(op->args[1])->val;
                 tmp = dup_const(TCGOP_VECE(op), tmp);
-                tcg_opt_gen_movi(s, &temps_used, op, op->args[0], tmp);
+                tcg_opt_gen_movi(s, &ctx, op, op->args[0], tmp);
                 break;
             }
             goto do_default;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
         case INDEX_op_dup2_vec:
             assert(TCG_TARGET_REG_BITS == 32);
             if (arg_is_const(op->args[1]) && arg_is_const(op->args[2])) {
-                tcg_opt_gen_movi(s, &temps_used, op, op->args[0],
+                tcg_opt_gen_movi(s, &ctx, op, op->args[0],
                                  deposit64(arg_info(op->args[1])->val, 32, 32,
                                            arg_info(op->args[2])->val));
                 break;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
         case INDEX_op_extrh_i64_i32:
             if (arg_is_const(op->args[1])) {
                 tmp = do_constant_folding(opc, arg_info(op->args[1])->val, 0);
-                tcg_opt_gen_movi(s, &temps_used, op, op->args[0], tmp);
+                tcg_opt_gen_movi(s, &ctx, op, op->args[0], tmp);
                 break;
             }
             goto do_default;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
             if (arg_is_const(op->args[1])) {
                 tmp = do_constant_folding(opc, arg_info(op->args[1])->val,
                                           op->args[2]);
-                tcg_opt_gen_movi(s, &temps_used, op, op->args[0], tmp);
+                tcg_opt_gen_movi(s, &ctx, op, op->args[0], tmp);
                 break;
             }
             goto do_default;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
             if (arg_is_const(op->args[1]) && arg_is_const(op->args[2])) {
                 tmp = do_constant_folding(opc, arg_info(op->args[1])->val,
                                           arg_info(op->args[2])->val);
-                tcg_opt_gen_movi(s, &temps_used, op, op->args[0], tmp);
+                tcg_opt_gen_movi(s, &ctx, op, op->args[0], tmp);
                 break;
             }
             goto do_default;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
                 TCGArg v = arg_info(op->args[1])->val;
                 if (v != 0) {
                     tmp = do_constant_folding(opc, v, 0);
-                    tcg_opt_gen_movi(s, &temps_used, op, op->args[0], tmp);
+                    tcg_opt_gen_movi(s, &ctx, op, op->args[0], tmp);
                 } else {
                     tcg_opt_gen_mov(s, op, op->args[0], op->args[2]);
                 }
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
                 tmp = deposit64(arg_info(op->args[1])->val,
                                 op->args[3], op->args[4],
                                 arg_info(op->args[2])->val);
-                tcg_opt_gen_movi(s, &temps_used, op, op->args[0], tmp);
+                tcg_opt_gen_movi(s, &ctx, op, op->args[0], tmp);
                 break;
             }
             goto do_default;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
             if (arg_is_const(op->args[1])) {
                 tmp = extract64(arg_info(op->args[1])->val,
                                 op->args[2], op->args[3]);
-                tcg_opt_gen_movi(s, &temps_used, op, op->args[0], tmp);
+                tcg_opt_gen_movi(s, &ctx, op, op->args[0], tmp);
                 break;
             }
             goto do_default;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
             if (arg_is_const(op->args[1])) {
                 tmp = sextract64(arg_info(op->args[1])->val,
                                  op->args[2], op->args[3]);
-                tcg_opt_gen_movi(s, &temps_used, op, op->args[0], tmp);
+                tcg_opt_gen_movi(s, &ctx, op, op->args[0], tmp);
                 break;
             }
             goto do_default;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
                     tmp = (int32_t)(((uint32_t)v1 >> shr) |
                                     ((uint32_t)v2 << (32 - shr)));
                 }
-                tcg_opt_gen_movi(s, &temps_used, op, op->args[0], tmp);
+                tcg_opt_gen_movi(s, &ctx, op, op->args[0], tmp);
                 break;
             }
             goto do_default;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
             tmp = do_constant_folding_cond(opc, op->args[1],
                                            op->args[2], op->args[3]);
             if (tmp != 2) {
-                tcg_opt_gen_movi(s, &temps_used, op, op->args[0], tmp);
+                tcg_opt_gen_movi(s, &ctx, op, op->args[0], tmp);
                 break;
             }
             goto do_default;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
                                            op->args[1], op->args[2]);
             if (tmp != 2) {
                 if (tmp) {
-                    memset(&temps_used, 0, sizeof(temps_used));
+                    memset(&ctx.temps_used, 0, sizeof(ctx.temps_used));
                     op->opc = INDEX_op_br;
                     op->args[0] = op->args[3];
                 } else {
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
 
                 rl = op->args[0];
                 rh = op->args[1];
-                tcg_opt_gen_movi(s, &temps_used, op, rl, (int32_t)a);
-                tcg_opt_gen_movi(s, &temps_used, op2, rh, (int32_t)(a >> 32));
+                tcg_opt_gen_movi(s, &ctx, op, rl, (int32_t)a);
+                tcg_opt_gen_movi(s, &ctx, op2, rh, (int32_t)(a >> 32));
                 break;
             }
             goto do_default;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
 
                 rl = op->args[0];
                 rh = op->args[1];
-                tcg_opt_gen_movi(s, &temps_used, op, rl, (int32_t)r);
-                tcg_opt_gen_movi(s, &temps_used, op2, rh, (int32_t)(r >> 32));
+                tcg_opt_gen_movi(s, &ctx, op, rl, (int32_t)r);
+                tcg_opt_gen_movi(s, &ctx, op2, rh, (int32_t)(r >> 32));
                 break;
             }
             goto do_default;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
             if (tmp != 2) {
                 if (tmp) {
             do_brcond_true:
-                    memset(&temps_used, 0, sizeof(temps_used));
+                    memset(&ctx.temps_used, 0, sizeof(ctx.temps_used));
                     op->opc = INDEX_op_br;
                     op->args[0] = op->args[5];
                 } else {
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
                 /* Simplify LT/GE comparisons vs zero to a single compare
                    vs the high word of the input.  */
             do_brcond_high:
-                memset(&temps_used, 0, sizeof(temps_used));
+                memset(&ctx.temps_used, 0, sizeof(ctx.temps_used));
                 op->opc = INDEX_op_brcond_i32;
                 op->args[0] = op->args[1];
                 op->args[1] = op->args[3];
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
                     goto do_default;
                 }
             do_brcond_low:
-                memset(&temps_used, 0, sizeof(temps_used));
+                memset(&ctx.temps_used, 0, sizeof(ctx.temps_used));
                 op->opc = INDEX_op_brcond_i32;
                 op->args[1] = op->args[2];
                 op->args[2] = op->args[4];
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
                                             op->args[5]);
             if (tmp != 2) {
             do_setcond_const:
-                tcg_opt_gen_movi(s, &temps_used, op, op->args[0], tmp);
+                tcg_opt_gen_movi(s, &ctx, op, op->args[0], tmp);
             } else if ((op->args[5] == TCG_COND_LT
                         || op->args[5] == TCG_COND_GE)
                        && arg_is_const(op->args[3])
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
             if (!(tcg_call_flags(op)
                   & (TCG_CALL_NO_READ_GLOBALS | TCG_CALL_NO_WRITE_GLOBALS))) {
                 for (i = 0; i < nb_globals; i++) {
-                    if (test_bit(i, temps_used.l)) {
+                    if (test_bit(i, ctx.temps_used.l)) {
                         reset_ts(&s->temps[i]);
                     }
                 }
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
                block, otherwise we only trash the output args.  "z_mask" is
                the non-zero bits mask for the first output arg.  */
             if (def->flags & TCG_OPF_BB_END) {
-                memset(&temps_used, 0, sizeof(temps_used));
+                memset(&ctx.temps_used, 0, sizeof(ctx.temps_used));
             } else {
         do_reset_output:
                 for (i = 0; i < nb_oargs; i++) {
-- 
2.25.1

Break the final cleanup clause out of the main switch
statement.  When fully folding an opcode to mov/movi,
use "continue" to process the next opcode, else break
to fall into the final cleanup.

Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
Reviewed-by: Luis Pires <luis.pires@eldorado.org.br>
Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/optimize.c | 190 ++++++++++++++++++++++++-------------------------
 1 file changed, 94 insertions(+), 96 deletions(-)

diff --git a/tcg/optimize.c b/tcg/optimize.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/optimize.c
+++ b/tcg/optimize.c
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
         switch (opc) {
         CASE_OP_32_64_VEC(mov):
             tcg_opt_gen_mov(s, op, op->args[0], op->args[1]);
-            break;
+            continue;
 
         case INDEX_op_dup_vec:
             if (arg_is_const(op->args[1])) {
                 tmp = arg_info(op->args[1])->val;
                 tmp = dup_const(TCGOP_VECE(op), tmp);
                 tcg_opt_gen_movi(s, &ctx, op, op->args[0], tmp);
-                break;
+                continue;
             }
-            goto do_default;
+            break;
 
         case INDEX_op_dup2_vec:
             assert(TCG_TARGET_REG_BITS == 32);
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
                 tcg_opt_gen_movi(s, &ctx, op, op->args[0],
                                  deposit64(arg_info(op->args[1])->val, 32, 32,
                                            arg_info(op->args[2])->val));
-                break;
+                continue;
             } else if (args_are_copies(op->args[1], op->args[2])) {
                 op->opc = INDEX_op_dup_vec;
                 TCGOP_VECE(op) = MO_32;
                 nb_iargs = 1;
             }
-            goto do_default;
+            break;
 
         CASE_OP_32_64(not):
         CASE_OP_32_64(neg):
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
             if (arg_is_const(op->args[1])) {
                 tmp = do_constant_folding(opc, arg_info(op->args[1])->val, 0);
                 tcg_opt_gen_movi(s, &ctx, op, op->args[0], tmp);
-                break;
+                continue;
             }
-            goto do_default;
+            break;
 
         CASE_OP_32_64(bswap16):
         CASE_OP_32_64(bswap32):
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
                 tmp = do_constant_folding(opc, arg_info(op->args[1])->val,
                                           op->args[2]);
                 tcg_opt_gen_movi(s, &ctx, op, op->args[0], tmp);
-                break;
+                continue;
             }
-            goto do_default;
+            break;
 
         CASE_OP_32_64(add):
         CASE_OP_32_64(sub):
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
                 tmp = do_constant_folding(opc, arg_info(op->args[1])->val,
                                           arg_info(op->args[2])->val);
                 tcg_opt_gen_movi(s, &ctx, op, op->args[0], tmp);
-                break;
+                continue;
             }
-            goto do_default;
+            break;
 
         CASE_OP_32_64(clz):
         CASE_OP_32_64(ctz):
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
                 } else {
                     tcg_opt_gen_mov(s, op, op->args[0], op->args[2]);
                 }
-                break;
+                continue;
             }
-            goto do_default;
+            break;
 
         CASE_OP_32_64(deposit):
             if (arg_is_const(op->args[1]) && arg_is_const(op->args[2])) {
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
                                 op->args[3], op->args[4],
                                 arg_info(op->args[2])->val);
                 tcg_opt_gen_movi(s, &ctx, op, op->args[0], tmp);
-                break;
+                continue;
             }
-            goto do_default;
+            break;
 
         CASE_OP_32_64(extract):
             if (arg_is_const(op->args[1])) {
                 tmp = extract64(arg_info(op->args[1])->val,
                                 op->args[2], op->args[3]);
                 tcg_opt_gen_movi(s, &ctx, op, op->args[0], tmp);
-                break;
+                continue;
             }
-            goto do_default;
+            break;
 
         CASE_OP_32_64(sextract):
             if (arg_is_const(op->args[1])) {
                 tmp = sextract64(arg_info(op->args[1])->val,
                                  op->args[2], op->args[3]);
                 tcg_opt_gen_movi(s, &ctx, op, op->args[0], tmp);
-                break;
+                continue;
             }
-            goto do_default;
+            break;
 
         CASE_OP_32_64(extract2):
             if (arg_is_const(op->args[1]) && arg_is_const(op->args[2])) {
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
                                     ((uint32_t)v2 << (32 - shr)));
                 }
                 tcg_opt_gen_movi(s, &ctx, op, op->args[0], tmp);
-                break;
+                continue;
             }
-            goto do_default;
+            break;
 
         CASE_OP_32_64(setcond):
             tmp = do_constant_folding_cond(opc, op->args[1],
                                            op->args[2], op->args[3]);
             if (tmp != 2) {
                 tcg_opt_gen_movi(s, &ctx, op, op->args[0], tmp);
-                break;
+                continue;
             }
-            goto do_default;
+            break;
 
         CASE_OP_32_64(brcond):
             tmp = do_constant_folding_cond(opc, op->args[0],
                                            op->args[1], op->args[2]);
-            if (tmp != 2) {
-                if (tmp) {
-                    memset(&ctx.temps_used, 0, sizeof(ctx.temps_used));
-                    op->opc = INDEX_op_br;
-                    op->args[0] = op->args[3];
-                } else {
-                    tcg_op_remove(s, op);
-                }
+            switch (tmp) {
+            case 0:
+                tcg_op_remove(s, op);
+                continue;
+            case 1:
+                memset(&ctx.temps_used, 0, sizeof(ctx.temps_used));
+                op->opc = opc = INDEX_op_br;
+                op->args[0] = op->args[3];
                 break;
             }
-            goto do_default;
+            break;
 
         CASE_OP_32_64(movcond):
             tmp = do_constant_folding_cond(opc, op->args[1],
                                            op->args[2], op->args[5]);
             if (tmp != 2) {
                 tcg_opt_gen_mov(s, op, op->args[0], op->args[4-tmp]);
-                break;
+                continue;
             }
             if (arg_is_const(op->args[3]) && arg_is_const(op->args[4])) {
                 uint64_t tv = arg_info(op->args[3])->val;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
                 if (fv == 1 && tv == 0) {
                     cond = tcg_invert_cond(cond);
                 } else if (!(tv == 1 && fv == 0)) {
-                    goto do_default;
+                    break;
                 }
                 op->args[3] = cond;
                 op->opc = opc = (opc == INDEX_op_movcond_i32
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
                                  : INDEX_op_setcond_i64);
                 nb_iargs = 2;
             }
-            goto do_default;
+            break;
 
         case INDEX_op_add2_i32:
         case INDEX_op_sub2_i32:
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
                 rh = op->args[1];
                 tcg_opt_gen_movi(s, &ctx, op, rl, (int32_t)a);
                 tcg_opt_gen_movi(s, &ctx, op2, rh, (int32_t)(a >> 32));
-                break;
+                continue;
             }
-            goto do_default;
+            break;
 
         case INDEX_op_mulu2_i32:
             if (arg_is_const(op->args[2]) && arg_is_const(op->args[3])) {
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
                 rh = op->args[1];
                 tcg_opt_gen_movi(s, &ctx, op, rl, (int32_t)r);
                 tcg_opt_gen_movi(s, &ctx, op2, rh, (int32_t)(r >> 32));
-                break;
+                continue;
             }
-            goto do_default;
+            break;
 
         case INDEX_op_brcond2_i32:
             tmp = do_constant_folding_cond2(&op->args[0], &op->args[2],
                                             op->args[4]);
-            if (tmp != 2) {
-                if (tmp) {
-            do_brcond_true:
-                    memset(&ctx.temps_used, 0, sizeof(ctx.temps_used));
-                    op->opc = INDEX_op_br;
-                    op->args[0] = op->args[5];
-                } else {
+            if (tmp == 0) {
             do_brcond_false:
-                    tcg_op_remove(s, op);
-                }
-            } else if ((op->args[4] == TCG_COND_LT
-                        || op->args[4] == TCG_COND_GE)
-                       && arg_is_const(op->args[2])
-                       && arg_info(op->args[2])->val == 0
-                       && arg_is_const(op->args[3])
-                       && arg_info(op->args[3])->val == 0) {
+                tcg_op_remove(s, op);
+                continue;
+            }
+            if (tmp == 1) {
+            do_brcond_true:
+                op->opc = opc = INDEX_op_br;
+                op->args[0] = op->args[5];
+                break;
+            }
+            if ((op->args[4] == TCG_COND_LT || op->args[4] == TCG_COND_GE)
+                 && arg_is_const(op->args[2])
+                 && arg_info(op->args[2])->val == 0
+                 && arg_is_const(op->args[3])
+                 && arg_info(op->args[3])->val == 0) {
                 /* Simplify LT/GE comparisons vs zero to a single compare
                    vs the high word of the input.  */
             do_brcond_high:
-                memset(&ctx.temps_used, 0, sizeof(ctx.temps_used));
-                op->opc = INDEX_op_brcond_i32;
+                op->opc = opc = INDEX_op_brcond_i32;
                 op->args[0] = op->args[1];
                 op->args[1] = op->args[3];
                 op->args[2] = op->args[4];
                 op->args[3] = op->args[5];
-            } else if (op->args[4] == TCG_COND_EQ) {
+                break;
+            }
+            if (op->args[4] == TCG_COND_EQ) {
                 /* Simplify EQ comparisons where one of the pairs
                    can be simplified.  */
                 tmp = do_constant_folding_cond(INDEX_op_brcond_i32,
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
                 if (tmp == 0) {
                     goto do_brcond_false;
                 } else if (tmp != 1) {
-                    goto do_default;
+                    break;
                 }
             do_brcond_low:
                 memset(&ctx.temps_used, 0, sizeof(ctx.temps_used));
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
                 op->args[1] = op->args[2];
                 op->args[2] = op->args[4];
                 op->args[3] = op->args[5];
-            } else if (op->args[4] == TCG_COND_NE) {
+                break;
+            }
+            if (op->args[4] == TCG_COND_NE) {
                 /* Simplify NE comparisons where one of the pairs
                    can be simplified.  */
                 tmp = do_constant_folding_cond(INDEX_op_brcond_i32,
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
                 } else if (tmp == 1) {
                     goto do_brcond_true;
                 }
-                goto do_default;
-            } else {
-                goto do_default;
             }
             break;
 
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
             if (tmp != 2) {
             do_setcond_const:
                 tcg_opt_gen_movi(s, &ctx, op, op->args[0], tmp);
-            } else if ((op->args[5] == TCG_COND_LT
-                        || op->args[5] == TCG_COND_GE)
-                       && arg_is_const(op->args[3])
-                       && arg_info(op->args[3])->val == 0
-                       && arg_is_const(op->args[4])
-                       && arg_info(op->args[4])->val == 0) {
+                continue;
+            }
+            if ((op->args[5] == TCG_COND_LT || op->args[5] == TCG_COND_GE)
+                 && arg_is_const(op->args[3])
+                 && arg_info(op->args[3])->val == 0
+                 && arg_is_const(op->args[4])
+                 && arg_info(op->args[4])->val == 0) {
                 /* Simplify LT/GE comparisons vs zero to a single compare
                    vs the high word of the input.  */
             do_setcond_high:
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
                 op->args[1] = op->args[2];
                 op->args[2] = op->args[4];
                 op->args[3] = op->args[5];
-            } else if (op->args[5] == TCG_COND_EQ) {
+                break;
+            }
+            if (op->args[5] == TCG_COND_EQ) {
                 /* Simplify EQ comparisons where one of the pairs
                    can be simplified.  */
                 tmp = do_constant_folding_cond(INDEX_op_setcond_i32,
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
                 if (tmp == 0) {
                     goto do_setcond_high;
                 } else if (tmp != 1) {
-                    goto do_default;
+                    break;
                 }
             do_setcond_low:
                 reset_temp(op->args[0]);
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
                 op->opc = INDEX_op_setcond_i32;
                 op->args[2] = op->args[3];
                 op->args[3] = op->args[5];
-            } else if (op->args[5] == TCG_COND_NE) {
+                break;
+            }
+            if (op->args[5] == TCG_COND_NE) {
                 /* Simplify NE comparisons where one of the pairs
                    can be simplified.  */
                 tmp = do_constant_folding_cond(INDEX_op_setcond_i32,
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
                 } else if (tmp == 1) {
                     goto do_setcond_const;
                 }
-                goto do_default;
-            } else {
-                goto do_default;
             }
             break;
 
-        case INDEX_op_call:
-            if (!(tcg_call_flags(op)
+        default:
+            break;
+        }
+
+        /* Some of the folding above can change opc. */
+        opc = op->opc;
+        def = &tcg_op_defs[opc];
+        if (def->flags & TCG_OPF_BB_END) {
+            memset(&ctx.temps_used, 0, sizeof(ctx.temps_used));
+        } else {
+            if (opc == INDEX_op_call &&
+                !(tcg_call_flags(op)
                   & (TCG_CALL_NO_READ_GLOBALS | TCG_CALL_NO_WRITE_GLOBALS))) {
                 for (i = 0; i < nb_globals; i++) {
                     if (test_bit(i, ctx.temps_used.l)) {
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
                     }
                 }
             }
-            goto do_reset_output;
 
-        default:
-        do_default:
-            /* Default case: we know nothing about operation (or were unable
-               to compute the operation result) so no propagation is done.
-               We trash everything if the operation is the end of a basic
-               block, otherwise we only trash the output args.  "z_mask" is
-               the non-zero bits mask for the first output arg.  */
-            if (def->flags & TCG_OPF_BB_END) {
-                memset(&ctx.temps_used, 0, sizeof(ctx.temps_used));
-            } else {
-        do_reset_output:
-                for (i = 0; i < nb_oargs; i++) {
-                    reset_temp(op->args[i]);
-                    /* Save the corresponding known-zero bits mask for the
-                       first output argument (only one supported so far). */
-                    if (i == 0) {
-                        arg_info(op->args[i])->z_mask = z_mask;
-                    }
+            for (i = 0; i < nb_oargs; i++) {
+                reset_temp(op->args[i]);
+                /* Save the corresponding known-zero bits mask for the
+                   first output argument (only one supported so far). */
+                if (i == 0) {
+                    arg_info(op->args[i])->z_mask = z_mask;
                 }
             }
-            break;
         }
 
         /* Eliminate duplicate and redundant fence instructions.  */
-- 
2.25.1

Adjust the interface to take the OptContext parameter instead
of TCGContext or both.

Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
Reviewed-by: Luis Pires <luis.pires@eldorado.org.br>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/optimize.c | 67 +++++++++++++++++++++++++-------------------------
 1 file changed, 34 insertions(+), 33 deletions(-)

diff --git a/tcg/optimize.c b/tcg/optimize.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/optimize.c
+++ b/tcg/optimize.c
@@ -XXX,XX +XXX,XX @@ typedef struct TempOptInfo {
 } TempOptInfo;
 
 typedef struct OptContext {
+    TCGContext *tcg;
     TCGTempSet temps_used;
 } OptContext;
 
@@ -XXX,XX +XXX,XX @@ static bool args_are_copies(TCGArg arg1, TCGArg arg2)
     return ts_are_copies(arg_temp(arg1), arg_temp(arg2));
 }
 
-static void tcg_opt_gen_mov(TCGContext *s, TCGOp *op, TCGArg dst, TCGArg src)
+static void tcg_opt_gen_mov(OptContext *ctx, TCGOp *op, TCGArg dst, TCGArg src)
 {
     TCGTemp *dst_ts = arg_temp(dst);
     TCGTemp *src_ts = arg_temp(src);
@@ -XXX,XX +XXX,XX @@ static void tcg_opt_gen_mov(TCGContext *s, TCGOp *op, TCGArg dst, TCGArg src)
     TCGOpcode new_op;
 
     if (ts_are_copies(dst_ts, src_ts)) {
-        tcg_op_remove(s, op);
+        tcg_op_remove(ctx->tcg, op);
         return;
     }
 
@@ -XXX,XX +XXX,XX @@ static void tcg_opt_gen_mov(TCGContext *s, TCGOp *op, TCGArg dst, TCGArg src)
     }
 }
 
-static void tcg_opt_gen_movi(TCGContext *s, OptContext *ctx,
-                             TCGOp *op, TCGArg dst, uint64_t val)
+static void tcg_opt_gen_movi(OptContext *ctx, TCGOp *op,
+                             TCGArg dst, uint64_t val)
 {
     const TCGOpDef *def = &tcg_op_defs[op->opc];
     TCGType type;
@@ -XXX,XX +XXX,XX @@ static void tcg_opt_gen_movi(TCGContext *s, OptContext *ctx,
     /* Convert movi to mov with constant temp. */
     tv = tcg_constant_internal(type, val);
     init_ts_info(ctx, tv);
-    tcg_opt_gen_mov(s, op, dst, temp_arg(tv));
+    tcg_opt_gen_mov(ctx, op, dst, temp_arg(tv));
 }
 
 static uint64_t do_constant_folding_2(TCGOpcode op, uint64_t x, uint64_t y)
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
 {
     int nb_temps, nb_globals, i;
     TCGOp *op, *op_next, *prev_mb = NULL;
-    OptContext ctx = {};
+    OptContext ctx = { .tcg = s };
 
     /* Array VALS has an element for each temp.
        If this temp holds a constant then its value is kept in VALS' element.
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
         CASE_OP_32_64(rotr):
             if (arg_is_const(op->args[1])
                 && arg_info(op->args[1])->val == 0) {
-                tcg_opt_gen_movi(s, &ctx, op, op->args[0], 0);
+                tcg_opt_gen_movi(&ctx, op, op->args[0], 0);
                 continue;
             }
             break;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
             if (!arg_is_const(op->args[1])
                 && arg_is_const(op->args[2])
                 && arg_info(op->args[2])->val == 0) {
-                tcg_opt_gen_mov(s, op, op->args[0], op->args[1]);
+                tcg_opt_gen_mov(&ctx, op, op->args[0], op->args[1]);
                 continue;
             }
             break;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
             if (!arg_is_const(op->args[1])
                 && arg_is_const(op->args[2])
                 && arg_info(op->args[2])->val == -1) {
-                tcg_opt_gen_mov(s, op, op->args[0], op->args[1]);
+                tcg_opt_gen_mov(&ctx, op, op->args[0], op->args[1]);
                 continue;
             }
             break;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
 
         if (partmask == 0) {
             tcg_debug_assert(nb_oargs == 1);
-            tcg_opt_gen_movi(s, &ctx, op, op->args[0], 0);
+            tcg_opt_gen_movi(&ctx, op, op->args[0], 0);
             continue;
         }
         if (affected == 0) {
             tcg_debug_assert(nb_oargs == 1);
-            tcg_opt_gen_mov(s, op, op->args[0], op->args[1]);
+            tcg_opt_gen_mov(&ctx, op, op->args[0], op->args[1]);
             continue;
         }
 
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
         CASE_OP_32_64(mulsh):
             if (arg_is_const(op->args[2])
                 && arg_info(op->args[2])->val == 0) {
-                tcg_opt_gen_movi(s, &ctx, op, op->args[0], 0);
+                tcg_opt_gen_movi(&ctx, op, op->args[0], 0);
                 continue;
             }
             break;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
         CASE_OP_32_64_VEC(or):
         CASE_OP_32_64_VEC(and):
             if (args_are_copies(op->args[1], op->args[2])) {
-                tcg_opt_gen_mov(s, op, op->args[0], op->args[1]);
+                tcg_opt_gen_mov(&ctx, op, op->args[0], op->args[1]);
                 continue;
             }
             break;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
         CASE_OP_32_64_VEC(sub):
         CASE_OP_32_64_VEC(xor):
             if (args_are_copies(op->args[1], op->args[2])) {
-                tcg_opt_gen_movi(s, &ctx, op, op->args[0], 0);
+                tcg_opt_gen_movi(&ctx, op, op->args[0], 0);
                 continue;
             }
             break;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
            allocator where needed and possible.  Also detect copies. */
         switch (opc) {
         CASE_OP_32_64_VEC(mov):
-            tcg_opt_gen_mov(s, op, op->args[0], op->args[1]);
+            tcg_opt_gen_mov(&ctx, op, op->args[0], op->args[1]);
             continue;
 
         case INDEX_op_dup_vec:
             if (arg_is_const(op->args[1])) {
                 tmp = arg_info(op->args[1])->val;
                 tmp = dup_const(TCGOP_VECE(op), tmp);
-                tcg_opt_gen_movi(s, &ctx, op, op->args[0], tmp);
+                tcg_opt_gen_movi(&ctx, op, op->args[0], tmp);
                 continue;
             }
             break;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
         case INDEX_op_dup2_vec:
             assert(TCG_TARGET_REG_BITS == 32);
             if (arg_is_const(op->args[1]) && arg_is_const(op->args[2])) {
-                tcg_opt_gen_movi(s, &ctx, op, op->args[0],
+                tcg_opt_gen_movi(&ctx, op, op->args[0],
                                  deposit64(arg_info(op->args[1])->val, 32, 32,
                                            arg_info(op->args[2])->val));
                 continue;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
         case INDEX_op_extrh_i64_i32:
             if (arg_is_const(op->args[1])) {
                 tmp = do_constant_folding(opc, arg_info(op->args[1])->val, 0);
-                tcg_opt_gen_movi(s, &ctx, op, op->args[0], tmp);
+                tcg_opt_gen_movi(&ctx, op, op->args[0], tmp);
                 continue;
             }
             break;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
             if (arg_is_const(op->args[1])) {
                 tmp = do_constant_folding(opc, arg_info(op->args[1])->val,
                                           op->args[2]);
-                tcg_opt_gen_movi(s, &ctx, op, op->args[0], tmp);
+                tcg_opt_gen_movi(&ctx, op, op->args[0], tmp);
                 continue;
             }
             break;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
             if (arg_is_const(op->args[1]) && arg_is_const(op->args[2])) {
                 tmp = do_constant_folding(opc, arg_info(op->args[1])->val,
                                           arg_info(op->args[2])->val);
-                tcg_opt_gen_movi(s, &ctx, op, op->args[0], tmp);
+                tcg_opt_gen_movi(&ctx, op, op->args[0], tmp);
                 continue;
             }
             break;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
                 TCGArg v = arg_info(op->args[1])->val;
                 if (v != 0) {
                     tmp = do_constant_folding(opc, v, 0);
-                    tcg_opt_gen_movi(s, &ctx, op, op->args[0], tmp);
+                    tcg_opt_gen_movi(&ctx, op, op->args[0], tmp);
                 } else {
-                    tcg_opt_gen_mov(s, op, op->args[0], op->args[2]);
+                    tcg_opt_gen_mov(&ctx, op, op->args[0], op->args[2]);
                 }
                 continue;
             }
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
                 tmp = deposit64(arg_info(op->args[1])->val,
                                 op->args[3], op->args[4],
                                 arg_info(op->args[2])->val);
-                tcg_opt_gen_movi(s, &ctx, op, op->args[0], tmp);
+                tcg_opt_gen_movi(&ctx, op, op->args[0], tmp);
                 continue;
             }
             break;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
             if (arg_is_const(op->args[1])) {
                 tmp = extract64(arg_info(op->args[1])->val,
                                 op->args[2], op->args[3]);
-                tcg_opt_gen_movi(s, &ctx, op, op->args[0], tmp);
+                tcg_opt_gen_movi(&ctx, op, op->args[0], tmp);
                 continue;
             }
             break;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
             if (arg_is_const(op->args[1])) {
                 tmp = sextract64(arg_info(op->args[1])->val,
                                  op->args[2], op->args[3]);
-                tcg_opt_gen_movi(s, &ctx, op, op->args[0], tmp);
+                tcg_opt_gen_movi(&ctx, op, op->args[0], tmp);
                 continue;
             }
             break;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
                     tmp = (int32_t)(((uint32_t)v1 >> shr) |
                                     ((uint32_t)v2 << (32 - shr)));
                 }
-                tcg_opt_gen_movi(s, &ctx, op, op->args[0], tmp);
+                tcg_opt_gen_movi(&ctx, op, op->args[0], tmp);
                 continue;
             }
             break;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
             tmp = do_constant_folding_cond(opc, op->args[1],
                                            op->args[2], op->args[3]);
             if (tmp != 2) {
-                tcg_opt_gen_movi(s, &ctx, op, op->args[0], tmp);
+                tcg_opt_gen_movi(&ctx, op, op->args[0], tmp);
                 continue;
             }
             break;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
             tmp = do_constant_folding_cond(opc, op->args[1],
                                            op->args[2], op->args[5]);
             if (tmp != 2) {
-                tcg_opt_gen_mov(s, op, op->args[0], op->args[4-tmp]);
+                tcg_opt_gen_mov(&ctx, op, op->args[0], op->args[4-tmp]);
                 continue;
             }
             if (arg_is_const(op->args[3]) && arg_is_const(op->args[4])) {
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
 
                 rl = op->args[0];
                 rh = op->args[1];
-                tcg_opt_gen_movi(s, &ctx, op, rl, (int32_t)a);
-                tcg_opt_gen_movi(s, &ctx, op2, rh, (int32_t)(a >> 32));
+                tcg_opt_gen_movi(&ctx, op, rl, (int32_t)a);
+                tcg_opt_gen_movi(&ctx, op2, rh, (int32_t)(a >> 32));
                 continue;
             }
             break;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
 
                 rl = op->args[0];
                 rh = op->args[1];
-                tcg_opt_gen_movi(s, &ctx, op, rl, (int32_t)r);
-                tcg_opt_gen_movi(s, &ctx, op2, rh, (int32_t)(r >> 32));
+                tcg_opt_gen_movi(&ctx, op, rl, (int32_t)r);
+                tcg_opt_gen_movi(&ctx, op2, rh, (int32_t)(r >> 32));
                 continue;
             }
             break;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
                                             op->args[5]);
             if (tmp != 2) {
             do_setcond_const:
-                tcg_opt_gen_movi(s, &ctx, op, op->args[0], tmp);
+                tcg_opt_gen_movi(&ctx, op, op->args[0], tmp);
                 continue;
             }
             if ((op->args[5] == TCG_COND_LT || op->args[5] == TCG_COND_GE)
-- 
2.25.1

This will expose the variable to subroutines that
will be broken out of tcg_optimize.

Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
Reviewed-by: Luis Pires <luis.pires@eldorado.org.br>
Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/optimize.c | 11 ++++++-----
 1 file changed, 6 insertions(+), 5 deletions(-)

diff --git a/tcg/optimize.c b/tcg/optimize.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/optimize.c
+++ b/tcg/optimize.c
@@ -XXX,XX +XXX,XX @@ typedef struct TempOptInfo {
 
 typedef struct OptContext {
     TCGContext *tcg;
+    TCGOp *prev_mb;
     TCGTempSet temps_used;
 } OptContext;
 
@@ -XXX,XX +XXX,XX @@ static bool swap_commutative2(TCGArg *p1, TCGArg *p2)
 void tcg_optimize(TCGContext *s)
 {
     int nb_temps, nb_globals, i;
-    TCGOp *op, *op_next, *prev_mb = NULL;
+    TCGOp *op, *op_next;
     OptContext ctx = { .tcg = s };
 
     /* Array VALS has an element for each temp.
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
         }
 
         /* Eliminate duplicate and redundant fence instructions.  */
-        if (prev_mb) {
+        if (ctx.prev_mb) {
             switch (opc) {
             case INDEX_op_mb:
                 /* Merge two barriers of the same type into one,
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
                  * barrier.  This is stricter than specified but for
                  * the purposes of TCG is better than not optimizing.
                  */
-                prev_mb->args[0] |= op->args[0];
+                ctx.prev_mb->args[0] |= op->args[0];
                 tcg_op_remove(s, op);
                 break;
 
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
             case INDEX_op_qemu_st_i64:
             case INDEX_op_call:
                 /* Opcodes that touch guest memory stop the optimization.  */
-                prev_mb = NULL;
+                ctx.prev_mb = NULL;
                 break;
             }
         } else if (opc == INDEX_op_mb) {
-            prev_mb = op;
+            ctx.prev_mb = op;
         }
     }
 }
-- 
2.25.1

There was no real reason for calls to have separate code here.
Unify init for calls vs non-calls using the call path, which
handles TCG_CALL_DUMMY_ARG.

Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
Reviewed-by: Luis Pires <luis.pires@eldorado.org.br>
Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/optimize.c | 25 +++++++++++--------------
 1 file changed, 11 insertions(+), 14 deletions(-)

diff --git a/tcg/optimize.c b/tcg/optimize.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/optimize.c
+++ b/tcg/optimize.c
@@ -XXX,XX +XXX,XX @@ static void init_ts_info(OptContext *ctx, TCGTemp *ts)
     }
 }
 
-static void init_arg_info(OptContext *ctx, TCGArg arg)
-{
-    init_ts_info(ctx, arg_temp(arg));
-}
-
 static TCGTemp *find_better_copy(TCGContext *s, TCGTemp *ts)
 {
     TCGTemp *i, *g, *l;
@@ -XXX,XX +XXX,XX @@ static bool swap_commutative2(TCGArg *p1, TCGArg *p2)
     return false;
 }
 
+static void init_arguments(OptContext *ctx, TCGOp *op, int nb_args)
+{
+    for (int i = 0; i < nb_args; i++) {
+        TCGTemp *ts = arg_temp(op->args[i]);
+        if (ts) {
+            init_ts_info(ctx, ts);
+        }
+    }
+}
+
 /* Propagate constants and copies, fold constant expressions. */
 void tcg_optimize(TCGContext *s)
 {
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
         if (opc == INDEX_op_call) {
             nb_oargs = TCGOP_CALLO(op);
             nb_iargs = TCGOP_CALLI(op);
-            for (i = 0; i < nb_oargs + nb_iargs; i++) {
-                TCGTemp *ts = arg_temp(op->args[i]);
-                if (ts) {
-                    init_ts_info(&ctx, ts);
-                }
-            }
         } else {
             nb_oargs = def->nb_oargs;
             nb_iargs = def->nb_iargs;
-            for (i = 0; i < nb_oargs + nb_iargs; i++) {
-                init_arg_info(&ctx, op->args[i]);
-            }
         }
+        init_arguments(&ctx, op, nb_oargs + nb_iargs);
 
         /* Do copy propagation */
         for (i = nb_oargs; i < nb_oargs + nb_iargs; i++) {
-- 
2.25.1

Continue splitting tcg_optimize.

Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
Reviewed-by: Luis Pires <luis.pires@eldorado.org.br>
Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/optimize.c | 22 ++++++++++++++--------
 1 file changed, 14 insertions(+), 8 deletions(-)

diff --git a/tcg/optimize.c b/tcg/optimize.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/optimize.c
+++ b/tcg/optimize.c
@@ -XXX,XX +XXX,XX @@ static void init_arguments(OptContext *ctx, TCGOp *op, int nb_args)
     }
 }
 
+static void copy_propagate(OptContext *ctx, TCGOp *op,
+                           int nb_oargs, int nb_iargs)
+{
+    TCGContext *s = ctx->tcg;
+
+    for (int i = nb_oargs; i < nb_oargs + nb_iargs; i++) {
+        TCGTemp *ts = arg_temp(op->args[i]);
+        if (ts && ts_is_copy(ts)) {
+            op->args[i] = temp_arg(find_better_copy(s, ts));
+        }
+    }
+}
+
 /* Propagate constants and copies, fold constant expressions. */
 void tcg_optimize(TCGContext *s)
 {
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
             nb_iargs = def->nb_iargs;
         }
         init_arguments(&ctx, op, nb_oargs + nb_iargs);
-
-        /* Do copy propagation */
-        for (i = nb_oargs; i < nb_oargs + nb_iargs; i++) {
-            TCGTemp *ts = arg_temp(op->args[i]);
-            if (ts && ts_is_copy(ts)) {
-                op->args[i] = temp_arg(find_better_copy(s, ts));
-            }
-        }
+        copy_propagate(&ctx, op, nb_oargs, nb_iargs);
 
         /* For commutative operations make constant second argument */
         switch (opc) {
-- 
2.25.1

Calls are special in that they have a variable number
of arguments, and need to be able to clobber globals.

Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
Reviewed-by: Luis Pires <luis.pires@eldorado.org.br>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/optimize.c | 63 ++++++++++++++++++++++++++++++++------------------
 1 file changed, 41 insertions(+), 22 deletions(-)

diff --git a/tcg/optimize.c b/tcg/optimize.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/optimize.c
+++ b/tcg/optimize.c
@@ -XXX,XX +XXX,XX @@ static void copy_propagate(OptContext *ctx, TCGOp *op,
     }
 }
 
+static bool fold_call(OptContext *ctx, TCGOp *op)
+{
+    TCGContext *s = ctx->tcg;
+    int nb_oargs = TCGOP_CALLO(op);
+    int nb_iargs = TCGOP_CALLI(op);
+    int flags, i;
+
+    init_arguments(ctx, op, nb_oargs + nb_iargs);
+    copy_propagate(ctx, op, nb_oargs, nb_iargs);
+
+    /* If the function reads or writes globals, reset temp data. */
+    flags = tcg_call_flags(op);
+    if (!(flags & (TCG_CALL_NO_READ_GLOBALS | TCG_CALL_NO_WRITE_GLOBALS))) {
+        int nb_globals = s->nb_globals;
+
+        for (i = 0; i < nb_globals; i++) {
+            if (test_bit(i, ctx->temps_used.l)) {
+                reset_ts(&ctx->tcg->temps[i]);
+            }
+        }
+    }
+
+    /* Reset temp data for outputs. */
+    for (i = 0; i < nb_oargs; i++) {
+        reset_temp(op->args[i]);
+    }
+
+    /* Stop optimizing MB across calls. */
+    ctx->prev_mb = NULL;
+    return true;
+}
+
 /* Propagate constants and copies, fold constant expressions. */
 void tcg_optimize(TCGContext *s)
 {
-    int nb_temps, nb_globals, i;
+    int nb_temps, i;
     TCGOp *op, *op_next;
     OptContext ctx = { .tcg = s };
 
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
        available through the doubly linked circular list. */
 
     nb_temps = s->nb_temps;
-    nb_globals = s->nb_globals;
-
     for (i = 0; i < nb_temps; ++i) {
         s->temps[i].state_ptr = NULL;
     }
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
         uint64_t z_mask, partmask, affected, tmp;
         int nb_oargs, nb_iargs;
         TCGOpcode opc = op->opc;
-        const TCGOpDef *def = &tcg_op_defs[opc];
+        const TCGOpDef *def;
 
-        /* Count the arguments, and initialize the temps that are
-           going to be used */
+        /* Calls are special. */
         if (opc == INDEX_op_call) {
-            nb_oargs = TCGOP_CALLO(op);
-            nb_iargs = TCGOP_CALLI(op);
-        } else {
-            nb_oargs = def->nb_oargs;
-            nb_iargs = def->nb_iargs;
+            fold_call(&ctx, op);
+            continue;
         }
+
+        def = &tcg_op_defs[opc];
+        nb_oargs = def->nb_oargs;
+        nb_iargs = def->nb_iargs;
         init_arguments(&ctx, op, nb_oargs + nb_iargs);
         copy_propagate(&ctx, op, nb_oargs, nb_iargs);
 
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
         if (def->flags & TCG_OPF_BB_END) {
             memset(&ctx.temps_used, 0, sizeof(ctx.temps_used));
         } else {
-            if (opc == INDEX_op_call &&
-                !(tcg_call_flags(op)
-                  & (TCG_CALL_NO_READ_GLOBALS | TCG_CALL_NO_WRITE_GLOBALS))) {
-                for (i = 0; i < nb_globals; i++) {
-                    if (test_bit(i, ctx.temps_used.l)) {
-                        reset_ts(&s->temps[i]);
-                    }
-                }
-            }
-
             for (i = 0; i < nb_oargs; i++) {
                 reset_temp(op->args[i]);
                 /* Save the corresponding known-zero bits mask for the
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
             case INDEX_op_qemu_st_i32:
             case INDEX_op_qemu_st8_i32:
             case INDEX_op_qemu_st_i64:
-            case INDEX_op_call:
                 /* Opcodes that touch guest memory stop the optimization.  */
                 ctx.prev_mb = NULL;
                 break;
-- 
2.25.1

Rather than try to keep these up-to-date across folding,
re-read nb_oargs at the end, after re-reading the opcode.

A couple of asserts need dropping, but that will take care
of itself as we split the function further.

Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
Reviewed-by: Luis Pires <luis.pires@eldorado.org.br>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/optimize.c | 14 ++++----------
 1 file changed, 4 insertions(+), 10 deletions(-)

diff --git a/tcg/optimize.c b/tcg/optimize.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/optimize.c
+++ b/tcg/optimize.c
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
 
     QTAILQ_FOREACH_SAFE(op, &s->ops, link, op_next) {
         uint64_t z_mask, partmask, affected, tmp;
-        int nb_oargs, nb_iargs;
         TCGOpcode opc = op->opc;
         const TCGOpDef *def;
 
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
         }
 
         def = &tcg_op_defs[opc];
-        nb_oargs = def->nb_oargs;
-        nb_iargs = def->nb_iargs;
-        init_arguments(&ctx, op, nb_oargs + nb_iargs);
-        copy_propagate(&ctx, op, nb_oargs, nb_iargs);
+        init_arguments(&ctx, op, def->nb_oargs + def->nb_iargs);
+        copy_propagate(&ctx, op, def->nb_oargs, def->nb_iargs);
 
         /* For commutative operations make constant second argument */
         switch (opc) {
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
 
         CASE_OP_32_64(qemu_ld):
             {
-                MemOpIdx oi = op->args[nb_oargs + nb_iargs];
+                MemOpIdx oi = op->args[def->nb_oargs + def->nb_iargs];
                 MemOp mop = get_memop(oi);
                 if (!(mop & MO_SIGN)) {
                     z_mask = (2ULL << ((8 << (mop & MO_SIZE)) - 1)) - 1;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
         }
 
         if (partmask == 0) {
-            tcg_debug_assert(nb_oargs == 1);
             tcg_opt_gen_movi(&ctx, op, op->args[0], 0);
             continue;
         }
         if (affected == 0) {
-            tcg_debug_assert(nb_oargs == 1);
             tcg_opt_gen_mov(&ctx, op, op->args[0], op->args[1]);
             continue;
         }
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
             } else if (args_are_copies(op->args[1], op->args[2])) {
                 op->opc = INDEX_op_dup_vec;
                 TCGOP_VECE(op) = MO_32;
-                nb_iargs = 1;
             }
             break;
 
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
                 op->opc = opc = (opc == INDEX_op_movcond_i32
                                  ? INDEX_op_setcond_i32
                                  : INDEX_op_setcond_i64);
-                nb_iargs = 2;
             }
             break;
 
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
         if (def->flags & TCG_OPF_BB_END) {
             memset(&ctx.temps_used, 0, sizeof(ctx.temps_used));
         } else {
+            int nb_oargs = def->nb_oargs;
             for (i = 0; i < nb_oargs; i++) {
                 reset_temp(op->args[i]);
                 /* Save the corresponding known-zero bits mask for the
-- 
2.25.1

Return -1 instead of 2 for failure, so that we can
use comparisons against 0 for all cases.

Reviewed-by: Luis Pires <luis.pires@eldorado.org.br>
Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/optimize.c | 145 +++++++++++++++++++++++++------------------------
 1 file changed, 74 insertions(+), 71 deletions(-)

diff --git a/tcg/optimize.c b/tcg/optimize.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/optimize.c
+++ b/tcg/optimize.c
@@ -XXX,XX +XXX,XX @@ static bool do_constant_folding_cond_eq(TCGCond c)
     }
 }
 
-/* Return 2 if the condition can't be simplified, and the result
-   of the condition (0 or 1) if it can */
-static TCGArg do_constant_folding_cond(TCGOpcode op, TCGArg x,
-                                       TCGArg y, TCGCond c)
+/*
+ * Return -1 if the condition can't be simplified,
+ * and the result of the condition (0 or 1) if it can.
+ */
+static int do_constant_folding_cond(TCGOpcode op, TCGArg x,
+                                    TCGArg y, TCGCond c)
 {
     uint64_t xv = arg_info(x)->val;
     uint64_t yv = arg_info(y)->val;
@@ -XXX,XX +XXX,XX @@ static TCGArg do_constant_folding_cond(TCGOpcode op, TCGArg x,
         case TCG_COND_GEU:
             return 1;
         default:
-            return 2;
+            return -1;
         }
     }
-    return 2;
+    return -1;
 }
 
-/* Return 2 if the condition can't be simplified, and the result
-   of the condition (0 or 1) if it can */
-static TCGArg do_constant_folding_cond2(TCGArg *p1, TCGArg *p2, TCGCond c)
+/*
+ * Return -1 if the condition can't be simplified,
+ * and the result of the condition (0 or 1) if it can.
+ */
+static int do_constant_folding_cond2(TCGArg *p1, TCGArg *p2, TCGCond c)
 {
     TCGArg al = p1[0], ah = p1[1];
     TCGArg bl = p2[0], bh = p2[1];
@@ -XXX,XX +XXX,XX @@ static TCGArg do_constant_folding_cond2(TCGArg *p1, TCGArg *p2, TCGCond c)
     if (args_are_copies(al, bl) && args_are_copies(ah, bh)) {
         return do_constant_folding_cond_eq(c);
     }
-    return 2;
+    return -1;
 }
 
 static bool swap_commutative(TCGArg dest, TCGArg *p1, TCGArg *p2)
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
             break;
 
         CASE_OP_32_64(setcond):
-            tmp = do_constant_folding_cond(opc, op->args[1],
-                                           op->args[2], op->args[3]);
-            if (tmp != 2) {
-                tcg_opt_gen_movi(&ctx, op, op->args[0], tmp);
+            i = do_constant_folding_cond(opc, op->args[1],
+                                         op->args[2], op->args[3]);
+            if (i >= 0) {
+                tcg_opt_gen_movi(&ctx, op, op->args[0], i);
                 continue;
             }
             break;
 
         CASE_OP_32_64(brcond):
-            tmp = do_constant_folding_cond(opc, op->args[0],
-                                           op->args[1], op->args[2]);
-            switch (tmp) {
-            case 0:
+            i = do_constant_folding_cond(opc, op->args[0],
+                                         op->args[1], op->args[2]);
+            if (i == 0) {
                 tcg_op_remove(s, op);
                 continue;
-            case 1:
+            } else if (i > 0) {
                 memset(&ctx.temps_used, 0, sizeof(ctx.temps_used));
                 op->opc = opc = INDEX_op_br;
                 op->args[0] = op->args[3];
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
             break;
 
         CASE_OP_32_64(movcond):
-            tmp = do_constant_folding_cond(opc, op->args[1],
-                                           op->args[2], op->args[5]);
-            if (tmp != 2) {
-                tcg_opt_gen_mov(&ctx, op, op->args[0], op->args[4-tmp]);
+            i = do_constant_folding_cond(opc, op->args[1],
+                                         op->args[2], op->args[5]);
+            if (i >= 0) {
+                tcg_opt_gen_mov(&ctx, op, op->args[0], op->args[4 - i]);
                 continue;
             }
             if (arg_is_const(op->args[3]) && arg_is_const(op->args[4])) {
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
             break;
 
         case INDEX_op_brcond2_i32:
-            tmp = do_constant_folding_cond2(&op->args[0], &op->args[2],
-                                            op->args[4]);
-            if (tmp == 0) {
+            i = do_constant_folding_cond2(&op->args[0], &op->args[2],
+                                          op->args[4]);
+            if (i == 0) {
             do_brcond_false:
                 tcg_op_remove(s, op);
                 continue;
             }
-            if (tmp == 1) {
+            if (i > 0) {
             do_brcond_true:
                 op->opc = opc = INDEX_op_br;
                 op->args[0] = op->args[5];
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
             if (op->args[4] == TCG_COND_EQ) {
                 /* Simplify EQ comparisons where one of the pairs
                    can be simplified.  */
-                tmp = do_constant_folding_cond(INDEX_op_brcond_i32,
-                                               op->args[0], op->args[2],
-                                               TCG_COND_EQ);
-                if (tmp == 0) {
+                i = do_constant_folding_cond(INDEX_op_brcond_i32,
+                                             op->args[0], op->args[2],
+                                             TCG_COND_EQ);
+                if (i == 0) {
                     goto do_brcond_false;
-                } else if (tmp == 1) {
+                } else if (i > 0) {
                     goto do_brcond_high;
                 }
-                tmp = do_constant_folding_cond(INDEX_op_brcond_i32,
-                                               op->args[1], op->args[3],
-                                               TCG_COND_EQ);
-                if (tmp == 0) {
+                i = do_constant_folding_cond(INDEX_op_brcond_i32,
+                                             op->args[1], op->args[3],
+                                             TCG_COND_EQ);
+                if (i == 0) {
                     goto do_brcond_false;
-                } else if (tmp != 1) {
+                } else if (i < 0) {
                     break;
                 }
             do_brcond_low:
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
             if (op->args[4] == TCG_COND_NE) {
                 /* Simplify NE comparisons where one of the pairs
                    can be simplified.  */
-                tmp = do_constant_folding_cond(INDEX_op_brcond_i32,
-                                               op->args[0], op->args[2],
-                                               TCG_COND_NE);
-                if (tmp == 0) {
+                i = do_constant_folding_cond(INDEX_op_brcond_i32,
+                                             op->args[0], op->args[2],
+                                             TCG_COND_NE);
+                if (i == 0) {
                     goto do_brcond_high;
-                } else if (tmp == 1) {
+                } else if (i > 0) {
                     goto do_brcond_true;
                 }
-                tmp = do_constant_folding_cond(INDEX_op_brcond_i32,
-                                               op->args[1], op->args[3],
-                                               TCG_COND_NE);
-                if (tmp == 0) {
+                i = do_constant_folding_cond(INDEX_op_brcond_i32,
+                                             op->args[1], op->args[3],
+                                             TCG_COND_NE);
+                if (i == 0) {
                     goto do_brcond_low;
-                } else if (tmp == 1) {
+                } else if (i > 0) {
                     goto do_brcond_true;
                 }
             }
             break;
 
         case INDEX_op_setcond2_i32:
-            tmp = do_constant_folding_cond2(&op->args[1], &op->args[3],
-                                            op->args[5]);
-            if (tmp != 2) {
+            i = do_constant_folding_cond2(&op->args[1], &op->args[3],
+                                          op->args[5]);
+            if (i >= 0) {
             do_setcond_const:
-                tcg_opt_gen_movi(&ctx, op, op->args[0], tmp);
+                tcg_opt_gen_movi(&ctx, op, op->args[0], i);
                 continue;
             }
             if ((op->args[5] == TCG_COND_LT || op->args[5] == TCG_COND_GE)
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
             if (op->args[5] == TCG_COND_EQ) {
                 /* Simplify EQ comparisons where one of the pairs
                    can be simplified.  */
-                tmp = do_constant_folding_cond(INDEX_op_setcond_i32,
-                                               op->args[1], op->args[3],
-                                               TCG_COND_EQ);
-                if (tmp == 0) {
+                i = do_constant_folding_cond(INDEX_op_setcond_i32,
+                                             op->args[1], op->args[3],
+                                             TCG_COND_EQ);
+                if (i == 0) {
                     goto do_setcond_const;
-                } else if (tmp == 1) {
+                } else if (i > 0) {
                     goto do_setcond_high;
                 }
-                tmp = do_constant_folding_cond(INDEX_op_setcond_i32,
-                                               op->args[2], op->args[4],
-                                               TCG_COND_EQ);
-                if (tmp == 0) {
+                i = do_constant_folding_cond(INDEX_op_setcond_i32,
+                                             op->args[2], op->args[4],
+                                             TCG_COND_EQ);
+                if (i == 0) {
                     goto do_setcond_high;
-                } else if (tmp != 1) {
+                } else if (i < 0) {
                     break;
                 }
             do_setcond_low:
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
             if (op->args[5] == TCG_COND_NE) {
                 /* Simplify NE comparisons where one of the pairs
                    can be simplified.  */
-                tmp = do_constant_folding_cond(INDEX_op_setcond_i32,
-                                               op->args[1], op->args[3],
-                                               TCG_COND_NE);
-                if (tmp == 0) {
+                i = do_constant_folding_cond(INDEX_op_setcond_i32,
+                                             op->args[1], op->args[3],
+                                             TCG_COND_NE);
+                if (i == 0) {
                     goto do_setcond_high;
-                } else if (tmp == 1) {
+                } else if (i > 0) {
                     goto do_setcond_const;
                 }
-                tmp = do_constant_folding_cond(INDEX_op_setcond_i32,
-                                               op->args[2], op->args[4],
-                                               TCG_COND_NE);
-                if (tmp == 0) {
+                i = do_constant_folding_cond(INDEX_op_setcond_i32,
+                                             op->args[2], op->args[4],
+                                             TCG_COND_NE);
+                if (i == 0) {
                     goto do_setcond_low;
-                } else if (tmp == 1) {
+                } else if (i > 0) {
                     goto do_setcond_const;
                 }
             }
-- 
2.25.1

This will allow callers to tail call to these functions
and return true indicating processing complete.

Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
Reviewed-by: Luis Pires <luis.pires@eldorado.org.br>
Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/optimize.c | 9 +++++----
 1 file changed, 5 insertions(+), 4 deletions(-)

diff --git a/tcg/optimize.c b/tcg/optimize.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/optimize.c
+++ b/tcg/optimize.c
@@ -XXX,XX +XXX,XX @@ static bool args_are_copies(TCGArg arg1, TCGArg arg2)
     return ts_are_copies(arg_temp(arg1), arg_temp(arg2));
 }
 
-static void tcg_opt_gen_mov(OptContext *ctx, TCGOp *op, TCGArg dst, TCGArg src)
+static bool tcg_opt_gen_mov(OptContext *ctx, TCGOp *op, TCGArg dst, TCGArg src)
 {
     TCGTemp *dst_ts = arg_temp(dst);
     TCGTemp *src_ts = arg_temp(src);
@@ -XXX,XX +XXX,XX @@ static void tcg_opt_gen_mov(OptContext *ctx, TCGOp *op, TCGArg dst, TCGArg src)
 
     if (ts_are_copies(dst_ts, src_ts)) {
         tcg_op_remove(ctx->tcg, op);
-        return;
+        return true;
     }
 
     reset_ts(dst_ts);
@@ -XXX,XX +XXX,XX @@ static void tcg_opt_gen_mov(OptContext *ctx, TCGOp *op, TCGArg dst, TCGArg src)
         di->is_const = si->is_const;
         di->val = si->val;
     }
+    return true;
 }
 
-static void tcg_opt_gen_movi(OptContext *ctx, TCGOp *op,
+static bool tcg_opt_gen_movi(OptContext *ctx, TCGOp *op,
                              TCGArg dst, uint64_t val)
 {
     const TCGOpDef *def = &tcg_op_defs[op->opc];
@@ -XXX,XX +XXX,XX @@ static void tcg_opt_gen_movi(OptContext *ctx, TCGOp *op,
     /* Convert movi to mov with constant temp. */
     tv = tcg_constant_internal(type, val);
     init_ts_info(ctx, tv);
-    tcg_opt_gen_mov(ctx, op, dst, temp_arg(tv));
+    return tcg_opt_gen_mov(ctx, op, dst, temp_arg(tv));
 }
 
 static uint64_t do_constant_folding_2(TCGOpcode op, uint64_t x, uint64_t y)
-- 
2.25.1

Copy z_mask into OptContext, for writeback to the
first output within the new function.

Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
Reviewed-by: Luis Pires <luis.pires@eldorado.org.br>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/optimize.c | 49 +++++++++++++++++++++++++++++++++----------------
 1 file changed, 33 insertions(+), 16 deletions(-)

diff --git a/tcg/optimize.c b/tcg/optimize.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/optimize.c
+++ b/tcg/optimize.c
@@ -XXX,XX +XXX,XX @@ typedef struct OptContext {
     TCGContext *tcg;
     TCGOp *prev_mb;
     TCGTempSet temps_used;
+
+    /* In flight values from optimization. */
+    uint64_t z_mask;
 } OptContext;
 
 static inline TempOptInfo *ts_info(TCGTemp *ts)
@@ -XXX,XX +XXX,XX @@ static void copy_propagate(OptContext *ctx, TCGOp *op,
     }
 }
 
+static void finish_folding(OptContext *ctx, TCGOp *op)
+{
+    const TCGOpDef *def = &tcg_op_defs[op->opc];
+    int i, nb_oargs;
+
+    /*
+     * For an opcode that ends a BB, reset all temp data.
+     * We do no cross-BB optimization.
+     */
+    if (def->flags & TCG_OPF_BB_END) {
+        memset(&ctx->temps_used, 0, sizeof(ctx->temps_used));
+        ctx->prev_mb = NULL;
+        return;
+    }
+
+    nb_oargs = def->nb_oargs;
+    for (i = 0; i < nb_oargs; i++) {
+        reset_temp(op->args[i]);
+        /*
+         * Save the corresponding known-zero bits mask for the
+         * first output argument (only one supported so far).
+         */
+        if (i == 0) {
+            arg_info(op->args[i])->z_mask = ctx->z_mask;
+        }
+    }
+}
+
 static bool fold_call(OptContext *ctx, TCGOp *op)
 {
     TCGContext *s = ctx->tcg;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
             partmask &= 0xffffffffu;
             affected &= 0xffffffffu;
         }
+        ctx.z_mask = z_mask;
 
         if (partmask == 0) {
             tcg_opt_gen_movi(&ctx, op, op->args[0], 0);
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
             break;
         }
 
-        /* Some of the folding above can change opc. */
-        opc = op->opc;
-        def = &tcg_op_defs[opc];
-        if (def->flags & TCG_OPF_BB_END) {
-            memset(&ctx.temps_used, 0, sizeof(ctx.temps_used));
-        } else {
-            int nb_oargs = def->nb_oargs;
-            for (i = 0; i < nb_oargs; i++) {
-                reset_temp(op->args[i]);
-                /* Save the corresponding known-zero bits mask for the
-                   first output argument (only one supported so far). */
-                if (i == 0) {
-                    arg_info(op->args[i])->z_mask = z_mask;
-                }
-            }
-        }
+        finish_folding(&ctx, op);
 
         /* Eliminate duplicate and redundant fence instructions.  */
         if (ctx.prev_mb) {
-- 
2.25.1

Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
Reviewed-by: Luis Pires <luis.pires@eldorado.org.br>
Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/optimize.c | 9 ++++++---
 1 file changed, 6 insertions(+), 3 deletions(-)

diff --git a/tcg/optimize.c b/tcg/optimize.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/optimize.c
+++ b/tcg/optimize.c
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
         uint64_t z_mask, partmask, affected, tmp;
         TCGOpcode opc = op->opc;
         const TCGOpDef *def;
+        bool done = false;
 
         /* Calls are special. */
         if (opc == INDEX_op_call) {
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
            allocator where needed and possible.  Also detect copies. */
         switch (opc) {
         CASE_OP_32_64_VEC(mov):
-            tcg_opt_gen_mov(&ctx, op, op->args[0], op->args[1]);
-            continue;
+            done = tcg_opt_gen_mov(&ctx, op, op->args[0], op->args[1]);
+            break;
 
         case INDEX_op_dup_vec:
             if (arg_is_const(op->args[1])) {
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
             break;
         }
 
-        finish_folding(&ctx, op);
+        if (!done) {
+            finish_folding(&ctx, op);
+        }
 
         /* Eliminate duplicate and redundant fence instructions.  */
         if (ctx.prev_mb) {
-- 
2.25.1

This puts the separate mb optimization into the same framework
as the others.  While fold_qemu_{ld,st} are currently identical,
that won't last as more code gets moved.

Reviewed-by: Luis Pires <luis.pires@eldorado.org.br>
Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/optimize.c | 89 +++++++++++++++++++++++++++++---------------------
 1 file changed, 51 insertions(+), 38 deletions(-)

diff --git a/tcg/optimize.c b/tcg/optimize.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/optimize.c
+++ b/tcg/optimize.c
@@ -XXX,XX +XXX,XX @@ static bool fold_call(OptContext *ctx, TCGOp *op)
     return true;
 }
 
+static bool fold_mb(OptContext *ctx, TCGOp *op)
+{
+    /* Eliminate duplicate and redundant fence instructions.  */
+    if (ctx->prev_mb) {
+        /*
+         * Merge two barriers of the same type into one,
+         * or a weaker barrier into a stronger one,
+         * or two weaker barriers into a stronger one.
+         *   mb X; mb Y => mb X|Y
+         *   mb; strl => mb; st
+         *   ldaq; mb => ld; mb
+         *   ldaq; strl => ld; mb; st
+         * Other combinations are also merged into a strong
+         * barrier.  This is stricter than specified but for
+         * the purposes of TCG is better than not optimizing.
+         */
+        ctx->prev_mb->args[0] |= op->args[0];
+        tcg_op_remove(ctx->tcg, op);
+    } else {
+        ctx->prev_mb = op;
+    }
+    return true;
+}
+
+static bool fold_qemu_ld(OptContext *ctx, TCGOp *op)
+{
+    /* Opcodes that touch guest memory stop the mb optimization.  */
+    ctx->prev_mb = NULL;
+    return false;
+}
+
+static bool fold_qemu_st(OptContext *ctx, TCGOp *op)
+{
+    /* Opcodes that touch guest memory stop the mb optimization.  */
+    ctx->prev_mb = NULL;
+    return false;
+}
+
 /* Propagate constants and copies, fold constant expressions. */
 void tcg_optimize(TCGContext *s)
 {
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
             }
             break;
 
+        case INDEX_op_mb:
+            done = fold_mb(&ctx, op);
+            break;
+        case INDEX_op_qemu_ld_i32:
+        case INDEX_op_qemu_ld_i64:
+            done = fold_qemu_ld(&ctx, op);
+            break;
+        case INDEX_op_qemu_st_i32:
+        case INDEX_op_qemu_st8_i32:
+        case INDEX_op_qemu_st_i64:
+            done = fold_qemu_st(&ctx, op);
+            break;
+
         default:
             break;
         }
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
         if (!done) {
             finish_folding(&ctx, op);
         }
-
-        /* Eliminate duplicate and redundant fence instructions.  */
-        if (ctx.prev_mb) {
-            switch (opc) {
-            case INDEX_op_mb:
-                /* Merge two barriers of the same type into one,
-                 * or a weaker barrier into a stronger one,
-                 * or two weaker barriers into a stronger one.
-                 *   mb X; mb Y => mb X|Y
-                 *   mb; strl => mb; st
-                 *   ldaq; mb => ld; mb
-                 *   ldaq; strl => ld; mb; st
-                 * Other combinations are also merged into a strong
-                 * barrier.  This is stricter than specified but for
-                 * the purposes of TCG is better than not optimizing.
-                 */
-                ctx.prev_mb->args[0] |= op->args[0];
-                tcg_op_remove(s, op);
-                break;
-
-            default:
-                /* Opcodes that end the block stop the optimization.  */
-                if ((def->flags & TCG_OPF_BB_END) == 0) {
-                    break;
-                }
-                /* fallthru */
-            case INDEX_op_qemu_ld_i32:
-            case INDEX_op_qemu_ld_i64:
-            case INDEX_op_qemu_st_i32:
-            case INDEX_op_qemu_st8_i32:
-            case INDEX_op_qemu_st_i64:
-                /* Opcodes that touch guest memory stop the optimization.  */
-                ctx.prev_mb = NULL;
-                break;
-            }
-        } else if (opc == INDEX_op_mb) {
-            ctx.prev_mb = op;
-        }
     }
 }
-- 
2.25.1

Split out a whole bunch of placeholder functions, which are
currently identical.  That won't last as more code gets moved.

Use CASE_32_64_VEC for some logical operators that previously
missed the addition of vectors.

Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
Reviewed-by: Luis Pires <luis.pires@eldorado.org.br>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/optimize.c | 271 +++++++++++++++++++++++++++++++++++++++----------
 1 file changed, 219 insertions(+), 52 deletions(-)

diff --git a/tcg/optimize.c b/tcg/optimize.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/optimize.c
+++ b/tcg/optimize.c
@@ -XXX,XX +XXX,XX @@ static void finish_folding(OptContext *ctx, TCGOp *op)
     }
 }
 
+/*
+ * The fold_* functions return true when processing is complete,
+ * usually by folding the operation to a constant or to a copy,
+ * and calling tcg_opt_gen_{mov,movi}.  They may do other things,
+ * like collect information about the value produced, for use in
+ * optimizing a subsequent operation.
+ *
+ * These first fold_* functions are all helpers, used by other
+ * folders for more specific operations.
+ */
+
+static bool fold_const1(OptContext *ctx, TCGOp *op)
+{
+    if (arg_is_const(op->args[1])) {
+        uint64_t t;
+
+        t = arg_info(op->args[1])->val;
+        t = do_constant_folding(op->opc, t, 0);
+        return tcg_opt_gen_movi(ctx, op, op->args[0], t);
+    }
+    return false;
+}
+
+static bool fold_const2(OptContext *ctx, TCGOp *op)
+{
+    if (arg_is_const(op->args[1]) && arg_is_const(op->args[2])) {
+        uint64_t t1 = arg_info(op->args[1])->val;
+        uint64_t t2 = arg_info(op->args[2])->val;
+
+        t1 = do_constant_folding(op->opc, t1, t2);
+        return tcg_opt_gen_movi(ctx, op, op->args[0], t1);
+    }
+    return false;
+}
+
+/*
+ * These outermost fold_<op> functions are sorted alphabetically.
+ */
+
+static bool fold_add(OptContext *ctx, TCGOp *op)
+{
+    return fold_const2(ctx, op);
+}
+
+static bool fold_and(OptContext *ctx, TCGOp *op)
+{
+    return fold_const2(ctx, op);
+}
+
+static bool fold_andc(OptContext *ctx, TCGOp *op)
+{
+    return fold_const2(ctx, op);
+}
+
 static bool fold_call(OptContext *ctx, TCGOp *op)
 {
     TCGContext *s = ctx->tcg;
@@ -XXX,XX +XXX,XX @@ static bool fold_call(OptContext *ctx, TCGOp *op)
     return true;
 }
 
+static bool fold_ctpop(OptContext *ctx, TCGOp *op)
+{
+    return fold_const1(ctx, op);
+}
+
+static bool fold_divide(OptContext *ctx, TCGOp *op)
+{
+    return fold_const2(ctx, op);
+}
+
+static bool fold_eqv(OptContext *ctx, TCGOp *op)
+{
+    return fold_const2(ctx, op);
+}
+
+static bool fold_exts(OptContext *ctx, TCGOp *op)
+{
+    return fold_const1(ctx, op);
+}
+
+static bool fold_extu(OptContext *ctx, TCGOp *op)
+{
+    return fold_const1(ctx, op);
+}
+
 static bool fold_mb(OptContext *ctx, TCGOp *op)
 {
     /* Eliminate duplicate and redundant fence instructions.  */
@@ -XXX,XX +XXX,XX @@ static bool fold_mb(OptContext *ctx, TCGOp *op)
     return true;
 }
 
+static bool fold_mul(OptContext *ctx, TCGOp *op)
+{
+    return fold_const2(ctx, op);
+}
+
+static bool fold_mul_highpart(OptContext *ctx, TCGOp *op)
+{
+    return fold_const2(ctx, op);
+}
+
+static bool fold_nand(OptContext *ctx, TCGOp *op)
+{
+    return fold_const2(ctx, op);
+}
+
+static bool fold_neg(OptContext *ctx, TCGOp *op)
+{
+    return fold_const1(ctx, op);
+}
+
+static bool fold_nor(OptContext *ctx, TCGOp *op)
+{
+    return fold_const2(ctx, op);
+}
+
+static bool fold_not(OptContext *ctx, TCGOp *op)
+{
+    return fold_const1(ctx, op);
+}
+
+static bool fold_or(OptContext *ctx, TCGOp *op)
+{
+    return fold_const2(ctx, op);
+}
+
+static bool fold_orc(OptContext *ctx, TCGOp *op)
+{
+    return fold_const2(ctx, op);
+}
+
 static bool fold_qemu_ld(OptContext *ctx, TCGOp *op)
 {
     /* Opcodes that touch guest memory stop the mb optimization.  */
@@ -XXX,XX +XXX,XX @@ static bool fold_qemu_st(OptContext *ctx, TCGOp *op)
     return false;
 }
 
+static bool fold_remainder(OptContext *ctx, TCGOp *op)
+{
+    return fold_const2(ctx, op);
+}
+
+static bool fold_shift(OptContext *ctx, TCGOp *op)
+{
+    return fold_const2(ctx, op);
+}
+
+static bool fold_sub(OptContext *ctx, TCGOp *op)
+{
+    return fold_const2(ctx, op);
+}
+
+static bool fold_xor(OptContext *ctx, TCGOp *op)
+{
+    return fold_const2(ctx, op);
+}
+
 /* Propagate constants and copies, fold constant expressions. */
 void tcg_optimize(TCGContext *s)
 {
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
             }
             break;
 
-        CASE_OP_32_64(not):
-        CASE_OP_32_64(neg):
-        CASE_OP_32_64(ext8s):
-        CASE_OP_32_64(ext8u):
-        CASE_OP_32_64(ext16s):
-        CASE_OP_32_64(ext16u):
-        CASE_OP_32_64(ctpop):
-        case INDEX_op_ext32s_i64:
-        case INDEX_op_ext32u_i64:
-        case INDEX_op_ext_i32_i64:
-        case INDEX_op_extu_i32_i64:
-        case INDEX_op_extrl_i64_i32:
-        case INDEX_op_extrh_i64_i32:
-            if (arg_is_const(op->args[1])) {
-                tmp = do_constant_folding(opc, arg_info(op->args[1])->val, 0);
-                tcg_opt_gen_movi(&ctx, op, op->args[0], tmp);
-                continue;
-            }
-            break;
-
         CASE_OP_32_64(bswap16):
         CASE_OP_32_64(bswap32):
         case INDEX_op_bswap64_i64:
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
             }
             break;
 
-        CASE_OP_32_64(add):
-        CASE_OP_32_64(sub):
-        CASE_OP_32_64(mul):
-        CASE_OP_32_64(or):
-        CASE_OP_32_64(and):
-        CASE_OP_32_64(xor):
-        CASE_OP_32_64(shl):
-        CASE_OP_32_64(shr):
-        CASE_OP_32_64(sar):
-        CASE_OP_32_64(rotl):
-        CASE_OP_32_64(rotr):
-        CASE_OP_32_64(andc):
-        CASE_OP_32_64(orc):
-        CASE_OP_32_64(eqv):
-        CASE_OP_32_64(nand):
-        CASE_OP_32_64(nor):
-        CASE_OP_32_64(muluh):
-        CASE_OP_32_64(mulsh):
-        CASE_OP_32_64(div):
-        CASE_OP_32_64(divu):
-        CASE_OP_32_64(rem):
-        CASE_OP_32_64(remu):
-            if (arg_is_const(op->args[1]) && arg_is_const(op->args[2])) {
-                tmp = do_constant_folding(opc, arg_info(op->args[1])->val,
-                                          arg_info(op->args[2])->val);
-                tcg_opt_gen_movi(&ctx, op, op->args[0], tmp);
-                continue;
-            }
-            break;
-
         CASE_OP_32_64(clz):
         CASE_OP_32_64(ctz):
             if (arg_is_const(op->args[1])) {
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
             }
             break;
 
+        default:
+            break;
+
+        /* ---------------------------------------------------------- */
+        /* Sorted alphabetically by opcode as much as possible. */
+
+        CASE_OP_32_64_VEC(add):
+            done = fold_add(&ctx, op);
+            break;
+        CASE_OP_32_64_VEC(and):
+            done = fold_and(&ctx, op);
+            break;
+        CASE_OP_32_64_VEC(andc):
+            done = fold_andc(&ctx, op);
+            break;
+        CASE_OP_32_64(ctpop):
+            done = fold_ctpop(&ctx, op);
+            break;
+        CASE_OP_32_64(div):
+        CASE_OP_32_64(divu):
+            done = fold_divide(&ctx, op);
+            break;
+        CASE_OP_32_64(eqv):
+            done = fold_eqv(&ctx, op);
+            break;
+        CASE_OP_32_64(ext8s):
+        CASE_OP_32_64(ext16s):
+        case INDEX_op_ext32s_i64:
+        case INDEX_op_ext_i32_i64:
+            done = fold_exts(&ctx, op);
+            break;
+        CASE_OP_32_64(ext8u):
+        CASE_OP_32_64(ext16u):
+        case INDEX_op_ext32u_i64:
+        case INDEX_op_extu_i32_i64:
+        case INDEX_op_extrl_i64_i32:
+        case INDEX_op_extrh_i64_i32:
+            done = fold_extu(&ctx, op);
+            break;
         case INDEX_op_mb:
             done = fold_mb(&ctx, op);
             break;
+        CASE_OP_32_64(mul):
+            done = fold_mul(&ctx, op);
+            break;
+        CASE_OP_32_64(mulsh):
+        CASE_OP_32_64(muluh):
+            done = fold_mul_highpart(&ctx, op);
+            break;
+        CASE_OP_32_64(nand):
+            done = fold_nand(&ctx, op);
+            break;
+        CASE_OP_32_64(neg):
+            done = fold_neg(&ctx, op);
+            break;
+        CASE_OP_32_64(nor):
+            done = fold_nor(&ctx, op);
+            break;
+        CASE_OP_32_64_VEC(not):
+            done = fold_not(&ctx, op);
+            break;
+        CASE_OP_32_64_VEC(or):
+            done = fold_or(&ctx, op);
+            break;
+        CASE_OP_32_64_VEC(orc):
+            done = fold_orc(&ctx, op);
+            break;
         case INDEX_op_qemu_ld_i32:
         case INDEX_op_qemu_ld_i64:
             done = fold_qemu_ld(&ctx, op);
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
         case INDEX_op_qemu_st_i64:
             done = fold_qemu_st(&ctx, op);
             break;
-
-        default:
+        CASE_OP_32_64(rem):
+        CASE_OP_32_64(remu):
+            done = fold_remainder(&ctx, op);
+            break;
+        CASE_OP_32_64(rotl):
+        CASE_OP_32_64(rotr):
+        CASE_OP_32_64(sar):
+        CASE_OP_32_64(shl):
+        CASE_OP_32_64(shr):
+            done = fold_shift(&ctx, op);
+            break;
+        CASE_OP_32_64_VEC(sub):
+            done = fold_sub(&ctx, op);
+            break;
+        CASE_OP_32_64_VEC(xor):
+            done = fold_xor(&ctx, op);
             break;
         }
 
-- 
2.25.1

Reduce some code duplication by folding the NE and EQ cases.

Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
Reviewed-by: Luis Pires <luis.pires@eldorado.org.br>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/optimize.c | 145 ++++++++++++++++++++++++-------------------------
 1 file changed, 72 insertions(+), 73 deletions(-)

diff --git a/tcg/optimize.c b/tcg/optimize.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/optimize.c
+++ b/tcg/optimize.c
@@ -XXX,XX +XXX,XX @@ static bool fold_remainder(OptContext *ctx, TCGOp *op)
     return fold_const2(ctx, op);
 }
 
+static bool fold_setcond2(OptContext *ctx, TCGOp *op)
+{
+    TCGCond cond = op->args[5];
+    int i = do_constant_folding_cond2(&op->args[1], &op->args[3], cond);
+    int inv = 0;
+
+    if (i >= 0) {
+        goto do_setcond_const;
+    }
+
+    switch (cond) {
+    case TCG_COND_LT:
+    case TCG_COND_GE:
+        /*
+         * Simplify LT/GE comparisons vs zero to a single compare
+         * vs the high word of the input.
+         */
+        if (arg_is_const(op->args[3]) && arg_info(op->args[3])->val == 0 &&
+            arg_is_const(op->args[4]) && arg_info(op->args[4])->val == 0) {
+            goto do_setcond_high;
+        }
+        break;
+
+    case TCG_COND_NE:
+        inv = 1;
+        QEMU_FALLTHROUGH;
+    case TCG_COND_EQ:
+        /*
+         * Simplify EQ/NE comparisons where one of the pairs
+         * can be simplified.
+         */
+        i = do_constant_folding_cond(INDEX_op_setcond_i32, op->args[1],
+                                     op->args[3], cond);
+        switch (i ^ inv) {
+        case 0:
+            goto do_setcond_const;
+        case 1:
+            goto do_setcond_high;
+        }
+
+        i = do_constant_folding_cond(INDEX_op_setcond_i32, op->args[2],
+                                     op->args[4], cond);
+        switch (i ^ inv) {
+        case 0:
+            goto do_setcond_const;
+        case 1:
+            op->args[2] = op->args[3];
+            op->args[3] = cond;
+            op->opc = INDEX_op_setcond_i32;
+            break;
+        }
+        break;
+
+    default:
+        break;
+
+    do_setcond_high:
+        op->args[1] = op->args[2];
+        op->args[2] = op->args[4];
+        op->args[3] = cond;
+        op->opc = INDEX_op_setcond_i32;
+        break;
+    }
+    return false;
+
+ do_setcond_const:
+    return tcg_opt_gen_movi(ctx, op, op->args[0], i);
+}
+
 static bool fold_shift(OptContext *ctx, TCGOp *op)
 {
     return fold_const2(ctx, op);
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
             }
             break;
 
-        case INDEX_op_setcond2_i32:
-            i = do_constant_folding_cond2(&op->args[1], &op->args[3],
-                                          op->args[5]);
-            if (i >= 0) {
-            do_setcond_const:
-                tcg_opt_gen_movi(&ctx, op, op->args[0], i);
-                continue;
-            }
-            if ((op->args[5] == TCG_COND_LT || op->args[5] == TCG_COND_GE)
-                 && arg_is_const(op->args[3])
-                 && arg_info(op->args[3])->val == 0
-                 && arg_is_const(op->args[4])
-                 && arg_info(op->args[4])->val == 0) {
-                /* Simplify LT/GE comparisons vs zero to a single compare
-                   vs the high word of the input.  */
-            do_setcond_high:
-                reset_temp(op->args[0]);
-                arg_info(op->args[0])->z_mask = 1;
-                op->opc = INDEX_op_setcond_i32;
-                op->args[1] = op->args[2];
-                op->args[2] = op->args[4];
-                op->args[3] = op->args[5];
-                break;
-            }
-            if (op->args[5] == TCG_COND_EQ) {
-                /* Simplify EQ comparisons where one of the pairs
-                   can be simplified.  */
-                i = do_constant_folding_cond(INDEX_op_setcond_i32,
-                                             op->args[1], op->args[3],
-                                             TCG_COND_EQ);
-                if (i == 0) {
-                    goto do_setcond_const;
-                } else if (i > 0) {
-                    goto do_setcond_high;
-                }
-                i = do_constant_folding_cond(INDEX_op_setcond_i32,
-                                             op->args[2], op->args[4],
-                                             TCG_COND_EQ);
-                if (i == 0) {
-                    goto do_setcond_high;
-                } else if (i < 0) {
-                    break;
-                }
-            do_setcond_low:
-                reset_temp(op->args[0]);
-                arg_info(op->args[0])->z_mask = 1;
-                op->opc = INDEX_op_setcond_i32;
-                op->args[2] = op->args[3];
-                op->args[3] = op->args[5];
-                break;
-            }
-            if (op->args[5] == TCG_COND_NE) {
-                /* Simplify NE comparisons where one of the pairs
-                   can be simplified.  */
-                i = do_constant_folding_cond(INDEX_op_setcond_i32,
-                                             op->args[1], op->args[3],
-                                             TCG_COND_NE);
-                if (i == 0) {
-                    goto do_setcond_high;
-                } else if (i > 0) {
-                    goto do_setcond_const;
-                }
-                i = do_constant_folding_cond(INDEX_op_setcond_i32,
-                                             op->args[2], op->args[4],
-                                             TCG_COND_NE);
-                if (i == 0) {
-                    goto do_setcond_low;
-                } else if (i > 0) {
-                    goto do_setcond_const;
-                }
-            }
-            break;
-
         default:
             break;
 
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
         CASE_OP_32_64(shr):
             done = fold_shift(&ctx, op);
             break;
+        case INDEX_op_setcond2_i32:
+            done = fold_setcond2(&ctx, op);
+            break;
         CASE_OP_32_64_VEC(sub):
             done = fold_sub(&ctx, op);
             break;
-- 
2.25.1

Reduce some code duplication by folding the NE and EQ cases.

Reviewed-by: Luis Pires <luis.pires@eldorado.org.br>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/optimize.c | 159 +++++++++++++++++++++++++------------------------
 1 file changed, 81 insertions(+), 78 deletions(-)

diff --git a/tcg/optimize.c b/tcg/optimize.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/optimize.c
+++ b/tcg/optimize.c
@@ -XXX,XX +XXX,XX @@ static bool fold_andc(OptContext *ctx, TCGOp *op)
     return fold_const2(ctx, op);
 }
 
+static bool fold_brcond2(OptContext *ctx, TCGOp *op)
+{
+    TCGCond cond = op->args[4];
+    int i = do_constant_folding_cond2(&op->args[0], &op->args[2], cond);
+    TCGArg label = op->args[5];
+    int inv = 0;
+
+    if (i >= 0) {
+        goto do_brcond_const;
+    }
+
+    switch (cond) {
+    case TCG_COND_LT:
+    case TCG_COND_GE:
+        /*
+         * Simplify LT/GE comparisons vs zero to a single compare
+         * vs the high word of the input.
+         */
+        if (arg_is_const(op->args[2]) && arg_info(op->args[2])->val == 0 &&
+            arg_is_const(op->args[3]) && arg_info(op->args[3])->val == 0) {
+            goto do_brcond_high;
+        }
+        break;
+
+    case TCG_COND_NE:
+        inv = 1;
+        QEMU_FALLTHROUGH;
+    case TCG_COND_EQ:
+        /*
+         * Simplify EQ/NE comparisons where one of the pairs
+         * can be simplified.
+         */
+        i = do_constant_folding_cond(INDEX_op_brcond_i32, op->args[0],
+                                     op->args[2], cond);
+        switch (i ^ inv) {
+        case 0:
+            goto do_brcond_const;
+        case 1:
+            goto do_brcond_high;
+        }
+
+        i = do_constant_folding_cond(INDEX_op_brcond_i32, op->args[1],
+                                     op->args[3], cond);
+        switch (i ^ inv) {
+        case 0:
+            goto do_brcond_const;
+        case 1:
+            op->opc = INDEX_op_brcond_i32;
+            op->args[1] = op->args[2];
+            op->args[2] = cond;
+            op->args[3] = label;
+            break;
+        }
+        break;
+
+    default:
+        break;
+
+    do_brcond_high:
+        op->opc = INDEX_op_brcond_i32;
+        op->args[0] = op->args[1];
+        op->args[1] = op->args[3];
+        op->args[2] = cond;
+        op->args[3] = label;
+        break;
+
+    do_brcond_const:
+        if (i == 0) {
+            tcg_op_remove(ctx->tcg, op);
+            return true;
+        }
+        op->opc = INDEX_op_br;
+        op->args[0] = label;
+        break;
+    }
+    return false;
+}
+
 static bool fold_call(OptContext *ctx, TCGOp *op)
 {
     TCGContext *s = ctx->tcg;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
             }
             break;
 
-        case INDEX_op_brcond2_i32:
-            i = do_constant_folding_cond2(&op->args[0], &op->args[2],
-                                          op->args[4]);
-            if (i == 0) {
-            do_brcond_false:
-                tcg_op_remove(s, op);
-                continue;
-            }
-            if (i > 0) {
-            do_brcond_true:
-                op->opc = opc = INDEX_op_br;
-                op->args[0] = op->args[5];
-                break;
-            }
-            if ((op->args[4] == TCG_COND_LT || op->args[4] == TCG_COND_GE)
-                 && arg_is_const(op->args[2])
-                 && arg_info(op->args[2])->val == 0
-                 && arg_is_const(op->args[3])
-                 && arg_info(op->args[3])->val == 0) {
-                /* Simplify LT/GE comparisons vs zero to a single compare
-                   vs the high word of the input.  */
-            do_brcond_high:
-                op->opc = opc = INDEX_op_brcond_i32;
-                op->args[0] = op->args[1];
-                op->args[1] = op->args[3];
-                op->args[2] = op->args[4];
-                op->args[3] = op->args[5];
-                break;
-            }
-            if (op->args[4] == TCG_COND_EQ) {
-                /* Simplify EQ comparisons where one of the pairs
-                   can be simplified.  */
-                i = do_constant_folding_cond(INDEX_op_brcond_i32,
-                                             op->args[0], op->args[2],
-                                             TCG_COND_EQ);
-                if (i == 0) {
-                    goto do_brcond_false;
-                } else if (i > 0) {
-                    goto do_brcond_high;
-                }
-                i = do_constant_folding_cond(INDEX_op_brcond_i32,
-                                             op->args[1], op->args[3],
-                                             TCG_COND_EQ);
-                if (i == 0) {
-                    goto do_brcond_false;
-                } else if (i < 0) {
-                    break;
-                }
-            do_brcond_low:
-                memset(&ctx.temps_used, 0, sizeof(ctx.temps_used));
-                op->opc = INDEX_op_brcond_i32;
-                op->args[1] = op->args[2];
-                op->args[2] = op->args[4];
-                op->args[3] = op->args[5];
-                break;
-            }
-            if (op->args[4] == TCG_COND_NE) {
-                /* Simplify NE comparisons where one of the pairs
-                   can be simplified.  */
-                i = do_constant_folding_cond(INDEX_op_brcond_i32,
-                                             op->args[0], op->args[2],
-                                             TCG_COND_NE);
-                if (i == 0) {
-                    goto do_brcond_high;
-                } else if (i > 0) {
-                    goto do_brcond_true;
-                }
-                i = do_constant_folding_cond(INDEX_op_brcond_i32,
-                                             op->args[1], op->args[3],
-                                             TCG_COND_NE);
-                if (i == 0) {
-                    goto do_brcond_low;
-                } else if (i > 0) {
-                    goto do_brcond_true;
-                }
-            }
-            break;
-
         default:
             break;
 
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
         CASE_OP_32_64_VEC(andc):
             done = fold_andc(&ctx, op);
             break;
+        case INDEX_op_brcond2_i32:
+            done = fold_brcond2(&ctx, op);
+            break;
         CASE_OP_32_64(ctpop):
             done = fold_ctpop(&ctx, op);
             break;
-- 
2.25.1

Reviewed-by: Luis Pires <luis.pires@eldorado.org.br>
Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/optimize.c | 33 +++++++++++++++++++--------------
 1 file changed, 19 insertions(+), 14 deletions(-)

Reviewed-by: Luis Pires <luis.pires@eldorado.org.br>
Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/optimize.c | 23 ++++++++++++++---------
 1 file changed, 14 insertions(+), 9 deletions(-)

Reviewed-by: Luis Pires <luis.pires@eldorado.org.br>
Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/optimize.c | 37 +++++++++++++++++++++----------------
 1 file changed, 21 insertions(+), 16 deletions(-)

diff --git a/tcg/optimize.c b/tcg/optimize.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/optimize.c
+++ b/tcg/optimize.c
@@ -XXX,XX +XXX,XX @@ static bool fold_mul_highpart(OptContext *ctx, TCGOp *op)
     return fold_const2(ctx, op);
 }
 
+static bool fold_mulu2_i32(OptContext *ctx, TCGOp *op)
+{
+    if (arg_is_const(op->args[2]) && arg_is_const(op->args[3])) {
+        uint32_t a = arg_info(op->args[2])->val;
+        uint32_t b = arg_info(op->args[3])->val;
+        uint64_t r = (uint64_t)a * b;
+        TCGArg rl, rh;
+        TCGOp *op2 = tcg_op_insert_before(ctx->tcg, op, INDEX_op_mov_i32);
+
+        rl = op->args[0];
+        rh = op->args[1];
+        tcg_opt_gen_movi(ctx, op, rl, (int32_t)r);
+        tcg_opt_gen_movi(ctx, op2, rh, (int32_t)(r >> 32));
+        return true;
+    }
+    return false;
+}
+
 static bool fold_nand(OptContext *ctx, TCGOp *op)
 {
     return fold_const2(ctx, op);
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
             }
             break;
 
-        case INDEX_op_mulu2_i32:
-            if (arg_is_const(op->args[2]) && arg_is_const(op->args[3])) {
-                uint32_t a = arg_info(op->args[2])->val;
-                uint32_t b = arg_info(op->args[3])->val;
-                uint64_t r = (uint64_t)a * b;
-                TCGArg rl, rh;
-                TCGOp *op2 = tcg_op_insert_before(s, op, INDEX_op_mov_i32);
-
-                rl = op->args[0];
-                rh = op->args[1];
-                tcg_opt_gen_movi(&ctx, op, rl, (int32_t)r);
-                tcg_opt_gen_movi(&ctx, op2, rh, (int32_t)(r >> 32));
-                continue;
-            }
-            break;
-
         default:
             break;
 
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
         CASE_OP_32_64(muluh):
             done = fold_mul_highpart(&ctx, op);
             break;
+        case INDEX_op_mulu2_i32:
+            done = fold_mulu2_i32(&ctx, op);
+            break;
         CASE_OP_32_64(nand):
             done = fold_nand(&ctx, op);
             break;
-- 
2.25.1

Add two additional helpers, fold_add2_i32 and fold_sub2_i32
which will not be simple wrappers forever.

Reviewed-by: Luis Pires <luis.pires@eldorado.org.br>
Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/optimize.c | 70 +++++++++++++++++++++++++++++++-------------------
 1 file changed, 44 insertions(+), 26 deletions(-)

diff --git a/tcg/optimize.c b/tcg/optimize.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/optimize.c
+++ b/tcg/optimize.c
@@ -XXX,XX +XXX,XX @@ static bool fold_add(OptContext *ctx, TCGOp *op)
     return fold_const2(ctx, op);
 }
 
+static bool fold_addsub2_i32(OptContext *ctx, TCGOp *op, bool add)
+{
+    if (arg_is_const(op->args[2]) && arg_is_const(op->args[3]) &&
+        arg_is_const(op->args[4]) && arg_is_const(op->args[5])) {
+        uint32_t al = arg_info(op->args[2])->val;
+        uint32_t ah = arg_info(op->args[3])->val;
+        uint32_t bl = arg_info(op->args[4])->val;
+        uint32_t bh = arg_info(op->args[5])->val;
+        uint64_t a = ((uint64_t)ah << 32) | al;
+        uint64_t b = ((uint64_t)bh << 32) | bl;
+        TCGArg rl, rh;
+        TCGOp *op2 = tcg_op_insert_before(ctx->tcg, op, INDEX_op_mov_i32);
+
+        if (add) {
+            a += b;
+        } else {
+            a -= b;
+        }
+
+        rl = op->args[0];
+        rh = op->args[1];
+        tcg_opt_gen_movi(ctx, op, rl, (int32_t)a);
+        tcg_opt_gen_movi(ctx, op2, rh, (int32_t)(a >> 32));
+        return true;
+    }
+    return false;
+}
+
+static bool fold_add2_i32(OptContext *ctx, TCGOp *op)
+{
+    return fold_addsub2_i32(ctx, op, true);
+}
+
 static bool fold_and(OptContext *ctx, TCGOp *op)
 {
     return fold_const2(ctx, op);
@@ -XXX,XX +XXX,XX @@ static bool fold_sub(OptContext *ctx, TCGOp *op)
     return fold_const2(ctx, op);
 }
 
+static bool fold_sub2_i32(OptContext *ctx, TCGOp *op)
+{
+    return fold_addsub2_i32(ctx, op, false);
+}
+
 static bool fold_xor(OptContext *ctx, TCGOp *op)
 {
     return fold_const2(ctx, op);
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
             }
             break;
 
-        case INDEX_op_add2_i32:
-        case INDEX_op_sub2_i32:
-            if (arg_is_const(op->args[2]) && arg_is_const(op->args[3])
-                && arg_is_const(op->args[4]) && arg_is_const(op->args[5])) {
-                uint32_t al = arg_info(op->args[2])->val;
-                uint32_t ah = arg_info(op->args[3])->val;
-                uint32_t bl = arg_info(op->args[4])->val;
-                uint32_t bh = arg_info(op->args[5])->val;
-                uint64_t a = ((uint64_t)ah << 32) | al;
-                uint64_t b = ((uint64_t)bh << 32) | bl;
-                TCGArg rl, rh;
-                TCGOp *op2 = tcg_op_insert_before(s, op, INDEX_op_mov_i32);
-
-                if (opc == INDEX_op_add2_i32) {
-                    a += b;
-                } else {
-                    a -= b;
-                }
-
-                rl = op->args[0];
-                rh = op->args[1];
-                tcg_opt_gen_movi(&ctx, op, rl, (int32_t)a);
-                tcg_opt_gen_movi(&ctx, op2, rh, (int32_t)(a >> 32));
-                continue;
-            }
-            break;
 
         default:
             break;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
         CASE_OP_32_64_VEC(add):
             done = fold_add(&ctx, op);
             break;
+        case INDEX_op_add2_i32:
+            done = fold_add2_i32(&ctx, op);
+            break;
         CASE_OP_32_64_VEC(and):
             done = fold_and(&ctx, op);
             break;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
         CASE_OP_32_64_VEC(sub):
             done = fold_sub(&ctx, op);
             break;
+        case INDEX_op_sub2_i32:
+            done = fold_sub2_i32(&ctx, op);
+            break;
         CASE_OP_32_64_VEC(xor):
             done = fold_xor(&ctx, op);
             break;
-- 
2.25.1

Reviewed-by: Luis Pires <luis.pires@eldorado.org.br>
Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/optimize.c | 56 ++++++++++++++++++++++++++++----------------------
 1 file changed, 31 insertions(+), 25 deletions(-)

diff --git a/tcg/optimize.c b/tcg/optimize.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/optimize.c
+++ b/tcg/optimize.c
@@ -XXX,XX +XXX,XX @@ static bool fold_mb(OptContext *ctx, TCGOp *op)
     return true;
 }
 
+static bool fold_movcond(OptContext *ctx, TCGOp *op)
+{
+    TCGOpcode opc = op->opc;
+    TCGCond cond = op->args[5];
+    int i = do_constant_folding_cond(opc, op->args[1], op->args[2], cond);
+
+    if (i >= 0) {
+        return tcg_opt_gen_mov(ctx, op, op->args[0], op->args[4 - i]);
+    }
+
+    if (arg_is_const(op->args[3]) && arg_is_const(op->args[4])) {
+        uint64_t tv = arg_info(op->args[3])->val;
+        uint64_t fv = arg_info(op->args[4])->val;
+
+        opc = (opc == INDEX_op_movcond_i32
+               ? INDEX_op_setcond_i32 : INDEX_op_setcond_i64);
+
+        if (tv == 1 && fv == 0) {
+            op->opc = opc;
+            op->args[3] = cond;
+        } else if (fv == 1 && tv == 0) {
+            op->opc = opc;
+            op->args[3] = tcg_invert_cond(cond);
+        }
+    }
+    return false;
+}
+
 static bool fold_mul(OptContext *ctx, TCGOp *op)
 {
     return fold_const2(ctx, op);
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
             }
             break;
 
-        CASE_OP_32_64(movcond):
-            i = do_constant_folding_cond(opc, op->args[1],
-                                         op->args[2], op->args[5]);
-            if (i >= 0) {
-                tcg_opt_gen_mov(&ctx, op, op->args[0], op->args[4 - i]);
-                continue;
-            }
-            if (arg_is_const(op->args[3]) && arg_is_const(op->args[4])) {
-                uint64_t tv = arg_info(op->args[3])->val;
-                uint64_t fv = arg_info(op->args[4])->val;
-                TCGCond cond = op->args[5];
-
-                if (fv == 1 && tv == 0) {
-                    cond = tcg_invert_cond(cond);
-                } else if (!(tv == 1 && fv == 0)) {
-                    break;
-                }
-                op->args[3] = cond;
-                op->opc = opc = (opc == INDEX_op_movcond_i32
-                                 ? INDEX_op_setcond_i32
-                                 : INDEX_op_setcond_i64);
-            }
-            break;
-
-
         default:
             break;
 
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
         case INDEX_op_mb:
             done = fold_mb(&ctx, op);
             break;
+        CASE_OP_32_64(movcond):
+            done = fold_movcond(&ctx, op);
+            break;
         CASE_OP_32_64(mul):
             done = fold_mul(&ctx, op);
             break;
-- 
2.25.1

Reviewed-by: Luis Pires <luis.pires@eldorado.org.br>
Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/optimize.c | 39 ++++++++++++++++++++++-----------------
 1 file changed, 22 insertions(+), 17 deletions(-)

diff --git a/tcg/optimize.c b/tcg/optimize.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/optimize.c
+++ b/tcg/optimize.c
@@ -XXX,XX +XXX,XX @@ static bool fold_eqv(OptContext *ctx, TCGOp *op)
     return fold_const2(ctx, op);
 }
 
+static bool fold_extract2(OptContext *ctx, TCGOp *op)
+{
+    if (arg_is_const(op->args[1]) && arg_is_const(op->args[2])) {
+        uint64_t v1 = arg_info(op->args[1])->val;
+        uint64_t v2 = arg_info(op->args[2])->val;
+        int shr = op->args[3];
+
+        if (op->opc == INDEX_op_extract2_i64) {
+            v1 >>= shr;
+            v2 <<= 64 - shr;
+        } else {
+            v1 = (uint32_t)v1 >> shr;
+            v2 = (int32_t)v2 << (32 - shr);
+        }
+        return tcg_opt_gen_movi(ctx, op, op->args[0], v1 | v2);
+    }
+    return false;
+}
+
 static bool fold_exts(OptContext *ctx, TCGOp *op)
 {
     return fold_const1(ctx, op);
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
             }
             break;
 
-        CASE_OP_32_64(extract2):
-            if (arg_is_const(op->args[1]) && arg_is_const(op->args[2])) {
-                uint64_t v1 = arg_info(op->args[1])->val;
-                uint64_t v2 = arg_info(op->args[2])->val;
-                int shr = op->args[3];
-
-                if (opc == INDEX_op_extract2_i64) {
-                    tmp = (v1 >> shr) | (v2 << (64 - shr));
-                } else {
-                    tmp = (int32_t)(((uint32_t)v1 >> shr) |
-                                    ((uint32_t)v2 << (32 - shr)));
-                }
-                tcg_opt_gen_movi(&ctx, op, op->args[0], tmp);
-                continue;
-            }
-            break;
-
         default:
             break;
 
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
         CASE_OP_32_64(eqv):
             done = fold_eqv(&ctx, op);
             break;
+        CASE_OP_32_64(extract2):
+            done = fold_extract2(&ctx, op);
+            break;
         CASE_OP_32_64(ext8s):
         CASE_OP_32_64(ext16s):
         case INDEX_op_ext32s_i64:
-- 
2.25.1

Reviewed-by: Luis Pires <luis.pires@eldorado.org.br>
Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/optimize.c | 48 ++++++++++++++++++++++++++++++------------------
 1 file changed, 30 insertions(+), 18 deletions(-)

diff --git a/tcg/optimize.c b/tcg/optimize.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/optimize.c
+++ b/tcg/optimize.c
@@ -XXX,XX +XXX,XX @@ static bool fold_eqv(OptContext *ctx, TCGOp *op)
     return fold_const2(ctx, op);
 }
 
+static bool fold_extract(OptContext *ctx, TCGOp *op)
+{
+    if (arg_is_const(op->args[1])) {
+        uint64_t t;
+
+        t = arg_info(op->args[1])->val;
+        t = extract64(t, op->args[2], op->args[3]);
+        return tcg_opt_gen_movi(ctx, op, op->args[0], t);
+    }
+    return false;
+}
+
 static bool fold_extract2(OptContext *ctx, TCGOp *op)
 {
     if (arg_is_const(op->args[1]) && arg_is_const(op->args[2])) {
@@ -XXX,XX +XXX,XX @@ static bool fold_setcond2(OptContext *ctx, TCGOp *op)
     return tcg_opt_gen_movi(ctx, op, op->args[0], i);
 }
 
+static bool fold_sextract(OptContext *ctx, TCGOp *op)
+{
+    if (arg_is_const(op->args[1])) {
+        uint64_t t;
+
+        t = arg_info(op->args[1])->val;
+        t = sextract64(t, op->args[2], op->args[3]);
+        return tcg_opt_gen_movi(ctx, op, op->args[0], t);
+    }
+    return false;
+}
+
 static bool fold_shift(OptContext *ctx, TCGOp *op)
 {
     return fold_const2(ctx, op);
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
             }
             break;
 
-        CASE_OP_32_64(extract):
-            if (arg_is_const(op->args[1])) {
-                tmp = extract64(arg_info(op->args[1])->val,
-                                op->args[2], op->args[3]);
-                tcg_opt_gen_movi(&ctx, op, op->args[0], tmp);
-                continue;
-            }
-            break;
-
-        CASE_OP_32_64(sextract):
-            if (arg_is_const(op->args[1])) {
-                tmp = sextract64(arg_info(op->args[1])->val,
-                                 op->args[2], op->args[3]);
-                tcg_opt_gen_movi(&ctx, op, op->args[0], tmp);
-                continue;
-            }
-            break;
-
         default:
             break;
 
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
         CASE_OP_32_64(eqv):
             done = fold_eqv(&ctx, op);
             break;
+        CASE_OP_32_64(extract):
+            done = fold_extract(&ctx, op);
+            break;
         CASE_OP_32_64(extract2):
             done = fold_extract2(&ctx, op);
             break;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
         case INDEX_op_setcond2_i32:
             done = fold_setcond2(&ctx, op);
             break;
+        CASE_OP_32_64(sextract):
+            done = fold_sextract(&ctx, op);
+            break;
         CASE_OP_32_64_VEC(sub):
             done = fold_sub(&ctx, op);
             break;
-- 
2.25.1

Reviewed-by: Luis Pires <luis.pires@eldorado.org.br>
Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/optimize.c | 25 +++++++++++++++----------
 1 file changed, 15 insertions(+), 10 deletions(-)

diff --git a/tcg/optimize.c b/tcg/optimize.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/optimize.c
+++ b/tcg/optimize.c
@@ -XXX,XX +XXX,XX @@ static bool fold_ctpop(OptContext *ctx, TCGOp *op)
     return fold_const1(ctx, op);
 }
 
+static bool fold_deposit(OptContext *ctx, TCGOp *op)
+{
+    if (arg_is_const(op->args[1]) && arg_is_const(op->args[2])) {
+        uint64_t t1 = arg_info(op->args[1])->val;
+        uint64_t t2 = arg_info(op->args[2])->val;
+
+        t1 = deposit64(t1, op->args[3], op->args[4], t2);
+        return tcg_opt_gen_movi(ctx, op, op->args[0], t1);
+    }
+    return false;
+}
+
 static bool fold_divide(OptContext *ctx, TCGOp *op)
 {
     return fold_const2(ctx, op);
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
             }
             break;
 
-        CASE_OP_32_64(deposit):
-            if (arg_is_const(op->args[1]) && arg_is_const(op->args[2])) {
-                tmp = deposit64(arg_info(op->args[1])->val,
-                                op->args[3], op->args[4],
-                                arg_info(op->args[2])->val);
-                tcg_opt_gen_movi(&ctx, op, op->args[0], tmp);
-                continue;
-            }
-            break;
-
         default:
             break;
 
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
         CASE_OP_32_64(ctpop):
             done = fold_ctpop(&ctx, op);
             break;
+        CASE_OP_32_64(deposit):
+            done = fold_deposit(&ctx, op);
+            break;
         CASE_OP_32_64(div):
         CASE_OP_32_64(divu):
             done = fold_divide(&ctx, op);
-- 
2.25.1

Reviewed-by: Luis Pires <luis.pires@eldorado.org.br>
Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/optimize.c | 32 ++++++++++++++++++--------------
 1 file changed, 18 insertions(+), 14 deletions(-)

Reviewed-by: Luis Pires <luis.pires@eldorado.org.br>
Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/optimize.c | 27 ++++++++++++++++-----------
 1 file changed, 16 insertions(+), 11 deletions(-)

diff --git a/tcg/optimize.c b/tcg/optimize.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/optimize.c
+++ b/tcg/optimize.c
@@ -XXX,XX +XXX,XX @@ static bool fold_brcond2(OptContext *ctx, TCGOp *op)
     return false;
 }
 
+static bool fold_bswap(OptContext *ctx, TCGOp *op)
+{
+    if (arg_is_const(op->args[1])) {
+        uint64_t t = arg_info(op->args[1])->val;
+
+        t = do_constant_folding(op->opc, t, op->args[2]);
+        return tcg_opt_gen_movi(ctx, op, op->args[0], t);
+    }
+    return false;
+}
+
 static bool fold_call(OptContext *ctx, TCGOp *op)
 {
     TCGContext *s = ctx->tcg;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
             }
             break;
 
-        CASE_OP_32_64(bswap16):
-        CASE_OP_32_64(bswap32):
-        case INDEX_op_bswap64_i64:
-            if (arg_is_const(op->args[1])) {
-                tmp = do_constant_folding(opc, arg_info(op->args[1])->val,
-                                          op->args[2]);
-                tcg_opt_gen_movi(&ctx, op, op->args[0], tmp);
-                continue;
-            }
-            break;
-
         default:
             break;
 
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
         case INDEX_op_brcond2_i32:
             done = fold_brcond2(&ctx, op);
             break;
+        CASE_OP_32_64(bswap16):
+        CASE_OP_32_64(bswap32):
+        case INDEX_op_bswap64_i64:
+            done = fold_bswap(&ctx, op);
+            break;
         CASE_OP_32_64(clz):
         CASE_OP_32_64(ctz):
             done = fold_count_zeros(&ctx, op);
-- 
2.25.1

Reviewed-by: Luis Pires <luis.pires@eldorado.org.br>
Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/optimize.c | 53 +++++++++++++++++++++++++++++---------------------
 1 file changed, 31 insertions(+), 22 deletions(-)

diff --git a/tcg/optimize.c b/tcg/optimize.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/optimize.c
+++ b/tcg/optimize.c
@@ -XXX,XX +XXX,XX @@ static bool fold_divide(OptContext *ctx, TCGOp *op)
     return fold_const2(ctx, op);
 }
 
+static bool fold_dup(OptContext *ctx, TCGOp *op)
+{
+    if (arg_is_const(op->args[1])) {
+        uint64_t t = arg_info(op->args[1])->val;
+        t = dup_const(TCGOP_VECE(op), t);
+        return tcg_opt_gen_movi(ctx, op, op->args[0], t);
+    }
+    return false;
+}
+
+static bool fold_dup2(OptContext *ctx, TCGOp *op)
+{
+    if (arg_is_const(op->args[1]) && arg_is_const(op->args[2])) {
+        uint64_t t = deposit64(arg_info(op->args[1])->val, 32, 32,
+                               arg_info(op->args[2])->val);
+        return tcg_opt_gen_movi(ctx, op, op->args[0], t);
+    }
+
+    if (args_are_copies(op->args[1], op->args[2])) {
+        op->opc = INDEX_op_dup_vec;
+        TCGOP_VECE(op) = MO_32;
+    }
+    return false;
+}
+
 static bool fold_eqv(OptContext *ctx, TCGOp *op)
 {
     return fold_const2(ctx, op);
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
             done = tcg_opt_gen_mov(&ctx, op, op->args[0], op->args[1]);
             break;
 
-        case INDEX_op_dup_vec:
-            if (arg_is_const(op->args[1])) {
-                tmp = arg_info(op->args[1])->val;
-                tmp = dup_const(TCGOP_VECE(op), tmp);
-                tcg_opt_gen_movi(&ctx, op, op->args[0], tmp);
-                continue;
-            }
-            break;
-
-        case INDEX_op_dup2_vec:
-            assert(TCG_TARGET_REG_BITS == 32);
-            if (arg_is_const(op->args[1]) && arg_is_const(op->args[2])) {
-                tcg_opt_gen_movi(&ctx, op, op->args[0],
-                                 deposit64(arg_info(op->args[1])->val, 32, 32,
-                                           arg_info(op->args[2])->val));
-                continue;
-            } else if (args_are_copies(op->args[1], op->args[2])) {
-                op->opc = INDEX_op_dup_vec;
-                TCGOP_VECE(op) = MO_32;
-            }
-            break;
-
         default:
             break;
 
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
         CASE_OP_32_64(divu):
             done = fold_divide(&ctx, op);
             break;
+        case INDEX_op_dup_vec:
+            done = fold_dup(&ctx, op);
+            break;
+        case INDEX_op_dup2_vec:
+            done = fold_dup2(&ctx, op);
+            break;
         CASE_OP_32_64(eqv):
             done = fold_eqv(&ctx, op);
             break;
-- 
2.25.1

This is the final entry in the main switch that was in a
different form.  After this, we have the option to convert
the switch into a function dispatch table.

Reviewed-by: Luis Pires <luis.pires@eldorado.org.br>
Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/optimize.c | 27 ++++++++++++++-------------
 1 file changed, 14 insertions(+), 13 deletions(-)

diff --git a/tcg/optimize.c b/tcg/optimize.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/optimize.c
+++ b/tcg/optimize.c
@@ -XXX,XX +XXX,XX @@ static bool fold_mb(OptContext *ctx, TCGOp *op)
     return true;
 }
 
+static bool fold_mov(OptContext *ctx, TCGOp *op)
+{
+    return tcg_opt_gen_mov(ctx, op, op->args[0], op->args[1]);
+}
+
 static bool fold_movcond(OptContext *ctx, TCGOp *op)
 {
     TCGOpcode opc = op->opc;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
             break;
         }
 
-        /* Propagate constants through copy operations and do constant
-           folding.  Constants will be substituted to arguments by register
-           allocator where needed and possible.  Also detect copies. */
+        /*
+         * Process each opcode.
+         * Sorted alphabetically by opcode as much as possible.
+         */
         switch (opc) {
-        CASE_OP_32_64_VEC(mov):
-            done = tcg_opt_gen_mov(&ctx, op, op->args[0], op->args[1]);
-            break;
-
-        default:
-            break;
-
-        /* ---------------------------------------------------------- */
-        /* Sorted alphabetically by opcode as much as possible. */
-
         CASE_OP_32_64_VEC(add):
             done = fold_add(&ctx, op);
             break;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
         case INDEX_op_mb:
             done = fold_mb(&ctx, op);
             break;
+        CASE_OP_32_64_VEC(mov):
+            done = fold_mov(&ctx, op);
+            break;
         CASE_OP_32_64(movcond):
             done = fold_movcond(&ctx, op);
             break;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
         CASE_OP_32_64_VEC(xor):
             done = fold_xor(&ctx, op);
             break;
+        default:
+            break;
         }
 
         if (!done) {
-- 
2.25.1

Pull the "op r, a, a => movi r, 0" optimization into a function,
and use it in the outer opcode fold functions.

Reviewed-by: Luis Pires <luis.pires@eldorado.org.br>
Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/optimize.c | 41 ++++++++++++++++++++++++-----------------
 1 file changed, 24 insertions(+), 17 deletions(-)

diff --git a/tcg/optimize.c b/tcg/optimize.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/optimize.c
+++ b/tcg/optimize.c
@@ -XXX,XX +XXX,XX @@ static bool fold_const2(OptContext *ctx, TCGOp *op)
     return false;
 }
 
+/* If the binary operation has both arguments equal, fold to @i. */
+static bool fold_xx_to_i(OptContext *ctx, TCGOp *op, uint64_t i)
+{
+    if (args_are_copies(op->args[1], op->args[2])) {
+        return tcg_opt_gen_movi(ctx, op, op->args[0], i);
+    }
+    return false;
+}
+
 /*
  * These outermost fold_<op> functions are sorted alphabetically.
  */
@@ -XXX,XX +XXX,XX @@ static bool fold_and(OptContext *ctx, TCGOp *op)
 
 static bool fold_andc(OptContext *ctx, TCGOp *op)
 {
-    return fold_const2(ctx, op);
+    if (fold_const2(ctx, op) ||
+        fold_xx_to_i(ctx, op, 0)) {
+        return true;
+    }
+    return false;
 }
 
 static bool fold_brcond(OptContext *ctx, TCGOp *op)
@@ -XXX,XX +XXX,XX @@ static bool fold_shift(OptContext *ctx, TCGOp *op)
 
 static bool fold_sub(OptContext *ctx, TCGOp *op)
 {
-    return fold_const2(ctx, op);
+    if (fold_const2(ctx, op) ||
+        fold_xx_to_i(ctx, op, 0)) {
+        return true;
+    }
+    return false;
 }
 
 static bool fold_sub2_i32(OptContext *ctx, TCGOp *op)
@@ -XXX,XX +XXX,XX @@ static bool fold_sub2_i32(OptContext *ctx, TCGOp *op)
 
 static bool fold_xor(OptContext *ctx, TCGOp *op)
 {
-    return fold_const2(ctx, op);
+    if (fold_const2(ctx, op) ||
+        fold_xx_to_i(ctx, op, 0)) {
+        return true;
+    }
+    return false;
 }
 
 /* Propagate constants and copies, fold constant expressions. */
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
             break;
         }
 
-        /* Simplify expression for "op r, a, a => movi r, 0" cases */
-        switch (opc) {
-        CASE_OP_32_64_VEC(andc):
-        CASE_OP_32_64_VEC(sub):
-        CASE_OP_32_64_VEC(xor):
-            if (args_are_copies(op->args[1], op->args[2])) {
-                tcg_opt_gen_movi(&ctx, op, op->args[0], 0);
-                continue;
-            }
-            break;
-        default:
-            break;
-        }
-
         /*
          * Process each opcode.
          * Sorted alphabetically by opcode as much as possible.
-- 
2.25.1

Pull the "op r, a, a => mov r, a" optimization into a function,
and use it in the outer opcode fold functions.

Reviewed-by: Luis Pires <luis.pires@eldorado.org.br>
Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/optimize.c | 39 ++++++++++++++++++++++++---------------
 1 file changed, 24 insertions(+), 15 deletions(-)

diff --git a/tcg/optimize.c b/tcg/optimize.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/optimize.c
+++ b/tcg/optimize.c
@@ -XXX,XX +XXX,XX @@ static bool fold_xx_to_i(OptContext *ctx, TCGOp *op, uint64_t i)
     return false;
 }
 
+/* If the binary operation has both arguments equal, fold to identity. */
+static bool fold_xx_to_x(OptContext *ctx, TCGOp *op)
+{
+    if (args_are_copies(op->args[1], op->args[2])) {
+        return tcg_opt_gen_mov(ctx, op, op->args[0], op->args[1]);
+    }
+    return false;
+}
+
 /*
  * These outermost fold_<op> functions are sorted alphabetically.
+ *
+ * The ordering of the transformations should be:
+ *   1) those that produce a constant
+ *   2) those that produce a copy
+ *   3) those that produce information about the result value.
  */
 
 static bool fold_add(OptContext *ctx, TCGOp *op)
@@ -XXX,XX +XXX,XX @@ static bool fold_add2_i32(OptContext *ctx, TCGOp *op)
 
 static bool fold_and(OptContext *ctx, TCGOp *op)
 {
-    return fold_const2(ctx, op);
+    if (fold_const2(ctx, op) ||
+        fold_xx_to_x(ctx, op)) {
+        return true;
+    }
+    return false;
 }
 
 static bool fold_andc(OptContext *ctx, TCGOp *op)
@@ -XXX,XX +XXX,XX @@ static bool fold_not(OptContext *ctx, TCGOp *op)
 
 static bool fold_or(OptContext *ctx, TCGOp *op)
 {
-    return fold_const2(ctx, op);
+    if (fold_const2(ctx, op) ||
+        fold_xx_to_x(ctx, op)) {
+        return true;
+    }
+    return false;
 }
 
 static bool fold_orc(OptContext *ctx, TCGOp *op)
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
             break;
         }
 
-        /* Simplify expression for "op r, a, a => mov r, a" cases */
-        switch (opc) {
-        CASE_OP_32_64_VEC(or):
-        CASE_OP_32_64_VEC(and):
-            if (args_are_copies(op->args[1], op->args[2])) {
-                tcg_opt_gen_mov(&ctx, op, op->args[0], op->args[1]);
-                continue;
-            }
-            break;
-        default:
-            break;
-        }
-
         /*
          * Process each opcode.
          * Sorted alphabetically by opcode as much as possible.
-- 
2.25.1

Pull the "op r, a, 0 => movi r, 0" optimization into a function,
and use it in the outer opcode fold functions.

Reviewed-by: Luis Pires <luis.pires@eldorado.org.br>
Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/optimize.c | 38 ++++++++++++++++++++------------------
 1 file changed, 20 insertions(+), 18 deletions(-)

diff --git a/tcg/optimize.c b/tcg/optimize.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/optimize.c
+++ b/tcg/optimize.c
@@ -XXX,XX +XXX,XX @@ static bool fold_const2(OptContext *ctx, TCGOp *op)
     return false;
 }
 
+/* If the binary operation has second argument @i, fold to @i. */
+static bool fold_xi_to_i(OptContext *ctx, TCGOp *op, uint64_t i)
+{
+    if (arg_is_const(op->args[2]) && arg_info(op->args[2])->val == i) {
+        return tcg_opt_gen_movi(ctx, op, op->args[0], i);
+    }
+    return false;
+}
+
 /* If the binary operation has both arguments equal, fold to @i. */
 static bool fold_xx_to_i(OptContext *ctx, TCGOp *op, uint64_t i)
 {
@@ -XXX,XX +XXX,XX @@ static bool fold_add2_i32(OptContext *ctx, TCGOp *op)
 static bool fold_and(OptContext *ctx, TCGOp *op)
 {
     if (fold_const2(ctx, op) ||
+        fold_xi_to_i(ctx, op, 0) ||
         fold_xx_to_x(ctx, op)) {
         return true;
     }
@@ -XXX,XX +XXX,XX @@ static bool fold_movcond(OptContext *ctx, TCGOp *op)
 
 static bool fold_mul(OptContext *ctx, TCGOp *op)
 {
-    return fold_const2(ctx, op);
+    if (fold_const2(ctx, op) ||
+        fold_xi_to_i(ctx, op, 0)) {
+        return true;
+    }
+    return false;
 }
 
 static bool fold_mul_highpart(OptContext *ctx, TCGOp *op)
 {
-    return fold_const2(ctx, op);
+    if (fold_const2(ctx, op) ||
+        fold_xi_to_i(ctx, op, 0)) {
+        return true;
+    }
+    return false;
 }
 
 static bool fold_mulu2_i32(OptContext *ctx, TCGOp *op)
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
             continue;
         }
 
-        /* Simplify expression for "op r, a, 0 => movi r, 0" cases */
-        switch (opc) {
-        CASE_OP_32_64_VEC(and):
-        CASE_OP_32_64_VEC(mul):
-        CASE_OP_32_64(muluh):
-        CASE_OP_32_64(mulsh):
-            if (arg_is_const(op->args[2])
-                && arg_info(op->args[2])->val == 0) {
-                tcg_opt_gen_movi(&ctx, op, op->args[0], 0);
-                continue;
-            }
-            break;
-        default:
-            break;
-        }
-
         /*
          * Process each opcode.
          * Sorted alphabetically by opcode as much as possible.
-- 
2.25.1

Compute the type of the operation early.

There are at least 4 places that used a def->flags ladder
to determine the type of the operation being optimized.

There were two places that assumed !TCG_OPF_64BIT means
TCG_TYPE_I32, and so could potentially compute incorrect
results for vector operations.

Reviewed-by: Luis Pires <luis.pires@eldorado.org.br>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/optimize.c | 149 +++++++++++++++++++++++++++++--------------------
 1 file changed, 89 insertions(+), 60 deletions(-)

diff --git a/tcg/optimize.c b/tcg/optimize.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/optimize.c
+++ b/tcg/optimize.c
@@ -XXX,XX +XXX,XX @@ typedef struct OptContext {
 
     /* In flight values from optimization. */
     uint64_t z_mask;
+    TCGType type;
 } OptContext;
 
 static inline TempOptInfo *ts_info(TCGTemp *ts)
@@ -XXX,XX +XXX,XX @@ static bool tcg_opt_gen_mov(OptContext *ctx, TCGOp *op, TCGArg dst, TCGArg src)
 {
     TCGTemp *dst_ts = arg_temp(dst);
     TCGTemp *src_ts = arg_temp(src);
-    const TCGOpDef *def;
     TempOptInfo *di;
     TempOptInfo *si;
     uint64_t z_mask;
@@ -XXX,XX +XXX,XX @@ static bool tcg_opt_gen_mov(OptContext *ctx, TCGOp *op, TCGArg dst, TCGArg src)
     reset_ts(dst_ts);
     di = ts_info(dst_ts);
     si = ts_info(src_ts);
-    def = &tcg_op_defs[op->opc];
-    if (def->flags & TCG_OPF_VECTOR) {
-        new_op = INDEX_op_mov_vec;
-    } else if (def->flags & TCG_OPF_64BIT) {
-        new_op = INDEX_op_mov_i64;
-    } else {
+
+    switch (ctx->type) {
+    case TCG_TYPE_I32:
         new_op = INDEX_op_mov_i32;
+        break;
+    case TCG_TYPE_I64:
+        new_op = INDEX_op_mov_i64;
+        break;
+    case TCG_TYPE_V64:
+    case TCG_TYPE_V128:
+    case TCG_TYPE_V256:
+        /* TCGOP_VECL and TCGOP_VECE remain unchanged.  */
+        new_op = INDEX_op_mov_vec;
+        break;
+    default:
+        g_assert_not_reached();
     }
     op->opc = new_op;
-    /* TCGOP_VECL and TCGOP_VECE remain unchanged.  */
     op->args[0] = dst;
     op->args[1] = src;
 
@@ -XXX,XX +XXX,XX @@ static bool tcg_opt_gen_mov(OptContext *ctx, TCGOp *op, TCGArg dst, TCGArg src)
 static bool tcg_opt_gen_movi(OptContext *ctx, TCGOp *op,
                              TCGArg dst, uint64_t val)
 {
-    const TCGOpDef *def = &tcg_op_defs[op->opc];
-    TCGType type;
-    TCGTemp *tv;
-
-    if (def->flags & TCG_OPF_VECTOR) {
-        type = TCGOP_VECL(op) + TCG_TYPE_V64;
-    } else if (def->flags & TCG_OPF_64BIT) {
-        type = TCG_TYPE_I64;
-    } else {
-        type = TCG_TYPE_I32;
-    }
-
     /* Convert movi to mov with constant temp. */
-    tv = tcg_constant_internal(type, val);
+    TCGTemp *tv = tcg_constant_internal(ctx->type, val);
+
     init_ts_info(ctx, tv);
     return tcg_opt_gen_mov(ctx, op, dst, temp_arg(tv));
 }
@@ -XXX,XX +XXX,XX @@ static uint64_t do_constant_folding_2(TCGOpcode op, uint64_t x, uint64_t y)
     }
 }
 
-static uint64_t do_constant_folding(TCGOpcode op, uint64_t x, uint64_t y)
+static uint64_t do_constant_folding(TCGOpcode op, TCGType type,
+                                    uint64_t x, uint64_t y)
 {
-    const TCGOpDef *def = &tcg_op_defs[op];
     uint64_t res = do_constant_folding_2(op, x, y);
-    if (!(def->flags & TCG_OPF_64BIT)) {
+    if (type == TCG_TYPE_I32) {
         res = (int32_t)res;
     }
     return res;
@@ -XXX,XX +XXX,XX @@ static bool do_constant_folding_cond_eq(TCGCond c)
  * Return -1 if the condition can't be simplified,
  * and the result of the condition (0 or 1) if it can.
  */
-static int do_constant_folding_cond(TCGOpcode op, TCGArg x,
+static int do_constant_folding_cond(TCGType type, TCGArg x,
                                     TCGArg y, TCGCond c)
 {
     uint64_t xv = arg_info(x)->val;
     uint64_t yv = arg_info(y)->val;
 
     if (arg_is_const(x) && arg_is_const(y)) {
-        const TCGOpDef *def = &tcg_op_defs[op];
-        tcg_debug_assert(!(def->flags & TCG_OPF_VECTOR));
-        if (def->flags & TCG_OPF_64BIT) {
-            return do_constant_folding_cond_64(xv, yv, c);
-        } else {
+        switch (type) {
+        case TCG_TYPE_I32:
             return do_constant_folding_cond_32(xv, yv, c);
+        case TCG_TYPE_I64:
+            return do_constant_folding_cond_64(xv, yv, c);
+        default:
+            /* Only scalar comparisons are optimizable */
+            return -1;
         }
     } else if (args_are_copies(x, y)) {
         return do_constant_folding_cond_eq(c);
@@ -XXX,XX +XXX,XX @@ static bool fold_const1(OptContext *ctx, TCGOp *op)
         uint64_t t;
 
         t = arg_info(op->args[1])->val;
-        t = do_constant_folding(op->opc, t, 0);
+        t = do_constant_folding(op->opc, ctx->type, t, 0);
         return tcg_opt_gen_movi(ctx, op, op->args[0], t);
     }
     return false;
@@ -XXX,XX +XXX,XX @@ static bool fold_const2(OptContext *ctx, TCGOp *op)
         uint64_t t1 = arg_info(op->args[1])->val;
         uint64_t t2 = arg_info(op->args[2])->val;
 
-        t1 = do_constant_folding(op->opc, t1, t2);
+        t1 = do_constant_folding(op->opc, ctx->type, t1, t2);
         return tcg_opt_gen_movi(ctx, op, op->args[0], t1);
     }
     return false;
@@ -XXX,XX +XXX,XX @@ static bool fold_andc(OptContext *ctx, TCGOp *op)
 static bool fold_brcond(OptContext *ctx, TCGOp *op)
 {
     TCGCond cond = op->args[2];
-    int i = do_constant_folding_cond(op->opc, op->args[0], op->args[1], cond);
+    int i = do_constant_folding_cond(ctx->type, op->args[0], op->args[1], cond);
 
     if (i == 0) {
         tcg_op_remove(ctx->tcg, op);
@@ -XXX,XX +XXX,XX @@ static bool fold_brcond2(OptContext *ctx, TCGOp *op)
          * Simplify EQ/NE comparisons where one of the pairs
          * can be simplified.
          */
-        i = do_constant_folding_cond(INDEX_op_brcond_i32, op->args[0],
+        i = do_constant_folding_cond(TCG_TYPE_I32, op->args[0],
                                      op->args[2], cond);
         switch (i ^ inv) {
         case 0:
@@ -XXX,XX +XXX,XX @@ static bool fold_brcond2(OptContext *ctx, TCGOp *op)
             goto do_brcond_high;
         }
 
-        i = do_constant_folding_cond(INDEX_op_brcond_i32, op->args[1],
+        i = do_constant_folding_cond(TCG_TYPE_I32, op->args[1],
                                      op->args[3], cond);
         switch (i ^ inv) {
         case 0:
@@ -XXX,XX +XXX,XX @@ static bool fold_bswap(OptContext *ctx, TCGOp *op)
     if (arg_is_const(op->args[1])) {
         uint64_t t = arg_info(op->args[1])->val;
 
-        t = do_constant_folding(op->opc, t, op->args[2]);
+        t = do_constant_folding(op->opc, ctx->type, t, op->args[2]);
         return tcg_opt_gen_movi(ctx, op, op->args[0], t);
     }
     return false;
@@ -XXX,XX +XXX,XX @@ static bool fold_count_zeros(OptContext *ctx, TCGOp *op)
         uint64_t t = arg_info(op->args[1])->val;
 
         if (t != 0) {
-            t = do_constant_folding(op->opc, t, 0);
+            t = do_constant_folding(op->opc, ctx->type, t, 0);
             return tcg_opt_gen_movi(ctx, op, op->args[0], t);
         }
         return tcg_opt_gen_mov(ctx, op, op->args[0], op->args[2]);
@@ -XXX,XX +XXX,XX @@ static bool fold_mov(OptContext *ctx, TCGOp *op)
 
 static bool fold_movcond(OptContext *ctx, TCGOp *op)
 {
-    TCGOpcode opc = op->opc;
     TCGCond cond = op->args[5];
-    int i = do_constant_folding_cond(opc, op->args[1], op->args[2], cond);
+    int i = do_constant_folding_cond(ctx->type, op->args[1], op->args[2], cond);
 
     if (i >= 0) {
         return tcg_opt_gen_mov(ctx, op, op->args[0], op->args[4 - i]);
@@ -XXX,XX +XXX,XX @@ static bool fold_movcond(OptContext *ctx, TCGOp *op)
     if (arg_is_const(op->args[3]) && arg_is_const(op->args[4])) {
         uint64_t tv = arg_info(op->args[3])->val;
         uint64_t fv = arg_info(op->args[4])->val;
+        TCGOpcode opc;
 
-        opc = (opc == INDEX_op_movcond_i32
-               ? INDEX_op_setcond_i32 : INDEX_op_setcond_i64);
+        switch (ctx->type) {
+        case TCG_TYPE_I32:
+            opc = INDEX_op_setcond_i32;
+            break;
+        case TCG_TYPE_I64:
+            opc = INDEX_op_setcond_i64;
+            break;
+        default:
+            g_assert_not_reached();
+        }
 
         if (tv == 1 && fv == 0) {
             op->opc = opc;
@@ -XXX,XX +XXX,XX @@ static bool fold_remainder(OptContext *ctx, TCGOp *op)
 static bool fold_setcond(OptContext *ctx, TCGOp *op)
 {
     TCGCond cond = op->args[3];
-    int i = do_constant_folding_cond(op->opc, op->args[1], op->args[2], cond);
+    int i = do_constant_folding_cond(ctx->type, op->args[1], op->args[2], cond);
 
     if (i >= 0) {
         return tcg_opt_gen_movi(ctx, op, op->args[0], i);
@@ -XXX,XX +XXX,XX @@ static bool fold_setcond2(OptContext *ctx, TCGOp *op)
          * Simplify EQ/NE comparisons where one of the pairs
          * can be simplified.
          */
-        i = do_constant_folding_cond(INDEX_op_setcond_i32, op->args[1],
+        i = do_constant_folding_cond(TCG_TYPE_I32, op->args[1],
                                      op->args[3], cond);
         switch (i ^ inv) {
         case 0:
@@ -XXX,XX +XXX,XX @@ static bool fold_setcond2(OptContext *ctx, TCGOp *op)
             goto do_setcond_high;
         }
 
-        i = do_constant_folding_cond(INDEX_op_setcond_i32, op->args[2],
+        i = do_constant_folding_cond(TCG_TYPE_I32, op->args[2],
                                      op->args[4], cond);
         switch (i ^ inv) {
         case 0:
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
         init_arguments(&ctx, op, def->nb_oargs + def->nb_iargs);
         copy_propagate(&ctx, op, def->nb_oargs, def->nb_iargs);
 
+        /* Pre-compute the type of the operation. */
+        if (def->flags & TCG_OPF_VECTOR) {
+            ctx.type = TCG_TYPE_V64 + TCGOP_VECL(op);
+        } else if (def->flags & TCG_OPF_64BIT) {
+            ctx.type = TCG_TYPE_I64;
+        } else {
+            ctx.type = TCG_TYPE_I32;
+        }
+
         /* For commutative operations make constant second argument */
         switch (opc) {
         CASE_OP_32_64_VEC(add):
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
                     /* Proceed with possible constant folding. */
                     break;
                 }
-                if (opc == INDEX_op_sub_i32) {
+                switch (ctx.type) {
+                case TCG_TYPE_I32:
                     neg_op = INDEX_op_neg_i32;
                     have_neg = TCG_TARGET_HAS_neg_i32;
-                } else if (opc == INDEX_op_sub_i64) {
+                    break;
+                case TCG_TYPE_I64:
                     neg_op = INDEX_op_neg_i64;
                     have_neg = TCG_TARGET_HAS_neg_i64;
-                } else if (TCG_TARGET_HAS_neg_vec) {
-                    TCGType type = TCGOP_VECL(op) + TCG_TYPE_V64;
-                    unsigned vece = TCGOP_VECE(op);
-                    neg_op = INDEX_op_neg_vec;
-                    have_neg = tcg_can_emit_vec_op(neg_op, type, vece) > 0;
-                } else {
                     break;
+                case TCG_TYPE_V64:
+                case TCG_TYPE_V128:
+                case TCG_TYPE_V256:
+                    neg_op = INDEX_op_neg_vec;
+                    have_neg = tcg_can_emit_vec_op(neg_op, ctx.type,
+                                                   TCGOP_VECE(op)) > 0;
+                    break;
+                default:
+                    g_assert_not_reached();
                 }
                 if (!have_neg) {
                     break;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
                 TCGOpcode not_op;
                 bool have_not;
 
-                if (def->flags & TCG_OPF_VECTOR) {
-                    not_op = INDEX_op_not_vec;
-                    have_not = TCG_TARGET_HAS_not_vec;
-                } else if (def->flags & TCG_OPF_64BIT) {
-                    not_op = INDEX_op_not_i64;
-                    have_not = TCG_TARGET_HAS_not_i64;
-                } else {
+                switch (ctx.type) {
+                case TCG_TYPE_I32:
                     not_op = INDEX_op_not_i32;
                     have_not = TCG_TARGET_HAS_not_i32;
+                    break;
+                case TCG_TYPE_I64:
+                    not_op = INDEX_op_not_i64;
+                    have_not = TCG_TARGET_HAS_not_i64;
+                    break;
+                case TCG_TYPE_V64:
+                case TCG_TYPE_V128:
+                case TCG_TYPE_V256:
+                    not_op = INDEX_op_not_vec;
+                    have_not = TCG_TARGET_HAS_not_vec;
+                    break;
+                default:
+                    g_assert_not_reached();
                 }
                 if (!have_not) {
                     break;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
            below, we can ignore high bits, but for further optimizations we
            need to record that the high bits contain garbage.  */
         partmask = z_mask;
-        if (!(def->flags & TCG_OPF_64BIT)) {
+        if (ctx.type == TCG_TYPE_I32) {
             z_mask |= ~(tcg_target_ulong)0xffffffffu;
             partmask &= 0xffffffffu;
             affected &= 0xffffffffu;
-- 
2.25.1

Split out the conditional conversion from a more complex logical
operation to a simple NOT.  Create a couple more helpers to make
this easy for the outer-most logical operations.

Reviewed-by: Luis Pires <luis.pires@eldorado.org.br>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/optimize.c | 158 +++++++++++++++++++++++++++----------------------
 1 file changed, 86 insertions(+), 72 deletions(-)

diff --git a/tcg/optimize.c b/tcg/optimize.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/optimize.c
+++ b/tcg/optimize.c
@@ -XXX,XX +XXX,XX @@ static bool fold_const2(OptContext *ctx, TCGOp *op)
     return false;
 }
 
+/*
+ * Convert @op to NOT, if NOT is supported by the host.
+ * Return true f the conversion is successful, which will still
+ * indicate that the processing is complete.
+ */
+static bool fold_not(OptContext *ctx, TCGOp *op);
+static bool fold_to_not(OptContext *ctx, TCGOp *op, int idx)
+{
+    TCGOpcode not_op;
+    bool have_not;
+
+    switch (ctx->type) {
+    case TCG_TYPE_I32:
+        not_op = INDEX_op_not_i32;
+        have_not = TCG_TARGET_HAS_not_i32;
+        break;
+    case TCG_TYPE_I64:
+        not_op = INDEX_op_not_i64;
+        have_not = TCG_TARGET_HAS_not_i64;
+        break;
+    case TCG_TYPE_V64:
+    case TCG_TYPE_V128:
+    case TCG_TYPE_V256:
+        not_op = INDEX_op_not_vec;
+        have_not = TCG_TARGET_HAS_not_vec;
+        break;
+    default:
+        g_assert_not_reached();
+    }
+    if (have_not) {
+        op->opc = not_op;
+        op->args[1] = op->args[idx];
+        return fold_not(ctx, op);
+    }
+    return false;
+}
+
+/* If the binary operation has first argument @i, fold to NOT. */
+static bool fold_ix_to_not(OptContext *ctx, TCGOp *op, uint64_t i)
+{
+    if (arg_is_const(op->args[1]) && arg_info(op->args[1])->val == i) {
+        return fold_to_not(ctx, op, 2);
+    }
+    return false;
+}
+
 /* If the binary operation has second argument @i, fold to @i. */
 static bool fold_xi_to_i(OptContext *ctx, TCGOp *op, uint64_t i)
 {
@@ -XXX,XX +XXX,XX @@ static bool fold_xi_to_i(OptContext *ctx, TCGOp *op, uint64_t i)
     return false;
 }
 
+/* If the binary operation has second argument @i, fold to NOT. */
+static bool fold_xi_to_not(OptContext *ctx, TCGOp *op, uint64_t i)
+{
+    if (arg_is_const(op->args[2]) && arg_info(op->args[2])->val == i) {
+        return fold_to_not(ctx, op, 1);
+    }
+    return false;
+}
+
 /* If the binary operation has both arguments equal, fold to @i. */
 static bool fold_xx_to_i(OptContext *ctx, TCGOp *op, uint64_t i)
 {
@@ -XXX,XX +XXX,XX @@ static bool fold_and(OptContext *ctx, TCGOp *op)
 static bool fold_andc(OptContext *ctx, TCGOp *op)
 {
     if (fold_const2(ctx, op) ||
-        fold_xx_to_i(ctx, op, 0)) {
+        fold_xx_to_i(ctx, op, 0) ||
+        fold_ix_to_not(ctx, op, -1)) {
         return true;
     }
     return false;
@@ -XXX,XX +XXX,XX @@ static bool fold_dup2(OptContext *ctx, TCGOp *op)
 
 static bool fold_eqv(OptContext *ctx, TCGOp *op)
 {
-    return fold_const2(ctx, op);
+    if (fold_const2(ctx, op) ||
+        fold_xi_to_not(ctx, op, 0)) {
+        return true;
+    }
+    return false;
 }
 
 static bool fold_extract(OptContext *ctx, TCGOp *op)
@@ -XXX,XX +XXX,XX @@ static bool fold_mulu2_i32(OptContext *ctx, TCGOp *op)
 
 static bool fold_nand(OptContext *ctx, TCGOp *op)
 {
-    return fold_const2(ctx, op);
+    if (fold_const2(ctx, op) ||
+        fold_xi_to_not(ctx, op, -1)) {
+        return true;
+    }
+    return false;
 }
 
 static bool fold_neg(OptContext *ctx, TCGOp *op)
@@ -XXX,XX +XXX,XX @@ static bool fold_neg(OptContext *ctx, TCGOp *op)
 
 static bool fold_nor(OptContext *ctx, TCGOp *op)
 {
-    return fold_const2(ctx, op);
+    if (fold_const2(ctx, op) ||
+        fold_xi_to_not(ctx, op, 0)) {
+        return true;
+    }
+    return false;
 }
 
 static bool fold_not(OptContext *ctx, TCGOp *op)
 {
-    return fold_const1(ctx, op);
+    if (fold_const1(ctx, op)) {
+        return true;
+    }
+
+    /* Because of fold_to_not, we want to always return true, via finish. */
+    finish_folding(ctx, op);
+    return true;
 }
 
 static bool fold_or(OptContext *ctx, TCGOp *op)
@@ -XXX,XX +XXX,XX @@ static bool fold_or(OptContext *ctx, TCGOp *op)
 
 static bool fold_orc(OptContext *ctx, TCGOp *op)
 {
-    return fold_const2(ctx, op);
+    if (fold_const2(ctx, op) ||
+        fold_ix_to_not(ctx, op, 0)) {
+        return true;
+    }
+    return false;
 }
 
 static bool fold_qemu_ld(OptContext *ctx, TCGOp *op)
@@ -XXX,XX +XXX,XX @@ static bool fold_sub2_i32(OptContext *ctx, TCGOp *op)
 static bool fold_xor(OptContext *ctx, TCGOp *op)
 {
     if (fold_const2(ctx, op) ||
-        fold_xx_to_i(ctx, op, 0)) {
+        fold_xx_to_i(ctx, op, 0) ||
+        fold_xi_to_not(ctx, op, -1)) {
         return true;
     }
     return false;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
                 }
             }
             break;
-        CASE_OP_32_64_VEC(xor):
-        CASE_OP_32_64(nand):
-            if (!arg_is_const(op->args[1])
-                && arg_is_const(op->args[2])
-                && arg_info(op->args[2])->val == -1) {
-                i = 1;
-                goto try_not;
-            }
-            break;
-        CASE_OP_32_64(nor):
-            if (!arg_is_const(op->args[1])
-                && arg_is_const(op->args[2])
-                && arg_info(op->args[2])->val == 0) {
-                i = 1;
-                goto try_not;
-            }
-            break;
-        CASE_OP_32_64_VEC(andc):
-            if (!arg_is_const(op->args[2])
-                && arg_is_const(op->args[1])
-                && arg_info(op->args[1])->val == -1) {
-                i = 2;
-                goto try_not;
-            }
-            break;
-        CASE_OP_32_64_VEC(orc):
-        CASE_OP_32_64(eqv):
-            if (!arg_is_const(op->args[2])
-                && arg_is_const(op->args[1])
-                && arg_info(op->args[1])->val == 0) {
-                i = 2;
-                goto try_not;
-            }
-            break;
-        try_not:
-            {
-                TCGOpcode not_op;
-                bool have_not;
-
-                switch (ctx.type) {
-                case TCG_TYPE_I32:
-                    not_op = INDEX_op_not_i32;
-                    have_not = TCG_TARGET_HAS_not_i32;
-                    break;
-                case TCG_TYPE_I64:
-                    not_op = INDEX_op_not_i64;
-                    have_not = TCG_TARGET_HAS_not_i64;
-                    break;
-                case TCG_TYPE_V64:
-                case TCG_TYPE_V128:
-                case TCG_TYPE_V256:
-                    not_op = INDEX_op_not_vec;
-                    have_not = TCG_TARGET_HAS_not_vec;
-                    break;
-                default:
-                    g_assert_not_reached();
-                }
-                if (!have_not) {
-                    break;
-                }
-                op->opc = not_op;
-                reset_temp(op->args[0]);
-                op->args[1] = op->args[i];
-                continue;
-            }
         default:
             break;
         }
-- 
2.25.1

Even though there is only one user, place this more complex
conversion into its own helper.

Reviewed-by: Luis Pires <luis.pires@eldorado.org.br>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/optimize.c | 89 ++++++++++++++++++++++++++------------------------
 1 file changed, 47 insertions(+), 42 deletions(-)

diff --git a/tcg/optimize.c b/tcg/optimize.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/optimize.c
+++ b/tcg/optimize.c
@@ -XXX,XX +XXX,XX @@ static bool fold_nand(OptContext *ctx, TCGOp *op)
 
 static bool fold_neg(OptContext *ctx, TCGOp *op)
 {
-    return fold_const1(ctx, op);
+    if (fold_const1(ctx, op)) {
+        return true;
+    }
+    /*
+     * Because of fold_sub_to_neg, we want to always return true,
+     * via finish_folding.
+     */
+    finish_folding(ctx, op);
+    return true;
 }
 
 static bool fold_nor(OptContext *ctx, TCGOp *op)
@@ -XXX,XX +XXX,XX @@ static bool fold_shift(OptContext *ctx, TCGOp *op)
     return fold_const2(ctx, op);
 }
 
+static bool fold_sub_to_neg(OptContext *ctx, TCGOp *op)
+{
+    TCGOpcode neg_op;
+    bool have_neg;
+
+    if (!arg_is_const(op->args[1]) || arg_info(op->args[1])->val != 0) {
+        return false;
+    }
+
+    switch (ctx->type) {
+    case TCG_TYPE_I32:
+        neg_op = INDEX_op_neg_i32;
+        have_neg = TCG_TARGET_HAS_neg_i32;
+        break;
+    case TCG_TYPE_I64:
+        neg_op = INDEX_op_neg_i64;
+        have_neg = TCG_TARGET_HAS_neg_i64;
+        break;
+    case TCG_TYPE_V64:
+    case TCG_TYPE_V128:
+    case TCG_TYPE_V256:
+        neg_op = INDEX_op_neg_vec;
+        have_neg = (TCG_TARGET_HAS_neg_vec &&
+                    tcg_can_emit_vec_op(neg_op, ctx->type, TCGOP_VECE(op)) > 0);
+        break;
+    default:
+        g_assert_not_reached();
+    }
+    if (have_neg) {
+        op->opc = neg_op;
+        op->args[1] = op->args[2];
+        return fold_neg(ctx, op);
+    }
+    return false;
+}
+
 static bool fold_sub(OptContext *ctx, TCGOp *op)
 {
     if (fold_const2(ctx, op) ||
-        fold_xx_to_i(ctx, op, 0)) {
+        fold_xx_to_i(ctx, op, 0) ||
+        fold_sub_to_neg(ctx, op)) {
         return true;
     }
     return false;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
                 continue;
             }
             break;
-        CASE_OP_32_64_VEC(sub):
-            {
-                TCGOpcode neg_op;
-                bool have_neg;
-
-                if (arg_is_const(op->args[2])) {
-                    /* Proceed with possible constant folding. */
-                    break;
-                }
-                switch (ctx.type) {
-                case TCG_TYPE_I32:
-                    neg_op = INDEX_op_neg_i32;
-                    have_neg = TCG_TARGET_HAS_neg_i32;
-                    break;
-                case TCG_TYPE_I64:
-                    neg_op = INDEX_op_neg_i64;
-                    have_neg = TCG_TARGET_HAS_neg_i64;
-                    break;
-                case TCG_TYPE_V64:
-                case TCG_TYPE_V128:
-                case TCG_TYPE_V256:
-                    neg_op = INDEX_op_neg_vec;
-                    have_neg = tcg_can_emit_vec_op(neg_op, ctx.type,
-                                                   TCGOP_VECE(op)) > 0;
-                    break;
-                default:
-                    g_assert_not_reached();
-                }
-                if (!have_neg) {
-                    break;
-                }
-                if (arg_is_const(op->args[1])
-                    && arg_info(op->args[1])->val == 0) {
-                    op->opc = neg_op;
-                    reset_temp(op->args[0]);
-                    op->args[1] = op->args[2];
-                    continue;
-                }
-            }
-            break;
         default:
             break;
         }
-- 
2.25.1

Pull the "op r, a, i => mov r, a" optimization into a function,
and use them in the outer-most logical operations.

Reviewed-by: Luis Pires <luis.pires@eldorado.org.br>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/optimize.c | 61 +++++++++++++++++++++-----------------------------
 1 file changed, 26 insertions(+), 35 deletions(-)

diff --git a/tcg/optimize.c b/tcg/optimize.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/optimize.c
+++ b/tcg/optimize.c
@@ -XXX,XX +XXX,XX @@ static bool fold_xi_to_i(OptContext *ctx, TCGOp *op, uint64_t i)
     return false;
 }
 
+/* If the binary operation has second argument @i, fold to identity. */
+static bool fold_xi_to_x(OptContext *ctx, TCGOp *op, uint64_t i)
+{
+    if (arg_is_const(op->args[2]) && arg_info(op->args[2])->val == i) {
+        return tcg_opt_gen_mov(ctx, op, op->args[0], op->args[1]);
+    }
+    return false;
+}
+
 /* If the binary operation has second argument @i, fold to NOT. */
 static bool fold_xi_to_not(OptContext *ctx, TCGOp *op, uint64_t i)
 {
@@ -XXX,XX +XXX,XX @@ static bool fold_xx_to_x(OptContext *ctx, TCGOp *op)
 
 static bool fold_add(OptContext *ctx, TCGOp *op)
 {
-    return fold_const2(ctx, op);
+    if (fold_const2(ctx, op) ||
+        fold_xi_to_x(ctx, op, 0)) {
+        return true;
+    }
+    return false;
 }
 
 static bool fold_addsub2_i32(OptContext *ctx, TCGOp *op, bool add)
@@ -XXX,XX +XXX,XX @@ static bool fold_and(OptContext *ctx, TCGOp *op)
 {
     if (fold_const2(ctx, op) ||
         fold_xi_to_i(ctx, op, 0) ||
+        fold_xi_to_x(ctx, op, -1) ||
         fold_xx_to_x(ctx, op)) {
         return true;
     }
@@ -XXX,XX +XXX,XX @@ static bool fold_andc(OptContext *ctx, TCGOp *op)
 {
     if (fold_const2(ctx, op) ||
         fold_xx_to_i(ctx, op, 0) ||
+        fold_xi_to_x(ctx, op, 0) ||
         fold_ix_to_not(ctx, op, -1)) {
         return true;
     }
@@ -XXX,XX +XXX,XX @@ static bool fold_dup2(OptContext *ctx, TCGOp *op)
 static bool fold_eqv(OptContext *ctx, TCGOp *op)
 {
     if (fold_const2(ctx, op) ||
+        fold_xi_to_x(ctx, op, -1) ||
         fold_xi_to_not(ctx, op, 0)) {
         return true;
     }
@@ -XXX,XX +XXX,XX @@ static bool fold_not(OptContext *ctx, TCGOp *op)
 static bool fold_or(OptContext *ctx, TCGOp *op)
 {
     if (fold_const2(ctx, op) ||
+        fold_xi_to_x(ctx, op, 0) ||
         fold_xx_to_x(ctx, op)) {
         return true;
     }
@@ -XXX,XX +XXX,XX @@ static bool fold_or(OptContext *ctx, TCGOp *op)
 static bool fold_orc(OptContext *ctx, TCGOp *op)
 {
     if (fold_const2(ctx, op) ||
+        fold_xi_to_x(ctx, op, -1) ||
         fold_ix_to_not(ctx, op, 0)) {
         return true;
     }
@@ -XXX,XX +XXX,XX @@ static bool fold_sextract(OptContext *ctx, TCGOp *op)
 
 static bool fold_shift(OptContext *ctx, TCGOp *op)
 {
-    return fold_const2(ctx, op);
+    if (fold_const2(ctx, op) ||
+        fold_xi_to_x(ctx, op, 0)) {
+        return true;
+    }
+    return false;
 }
 
 static bool fold_sub_to_neg(OptContext *ctx, TCGOp *op)
@@ -XXX,XX +XXX,XX @@ static bool fold_sub(OptContext *ctx, TCGOp *op)
 {
     if (fold_const2(ctx, op) ||
         fold_xx_to_i(ctx, op, 0) ||
+        fold_xi_to_x(ctx, op, 0) ||
         fold_sub_to_neg(ctx, op)) {
         return true;
     }
@@ -XXX,XX +XXX,XX @@ static bool fold_xor(OptContext *ctx, TCGOp *op)
 {
     if (fold_const2(ctx, op) ||
         fold_xx_to_i(ctx, op, 0) ||
+        fold_xi_to_x(ctx, op, 0) ||
         fold_xi_to_not(ctx, op, -1)) {
         return true;
     }
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
             break;
         }
 
-        /* Simplify expression for "op r, a, const => mov r, a" cases */
-        switch (opc) {
-        CASE_OP_32_64_VEC(add):
-        CASE_OP_32_64_VEC(sub):
-        CASE_OP_32_64_VEC(or):
-        CASE_OP_32_64_VEC(xor):
-        CASE_OP_32_64_VEC(andc):
-        CASE_OP_32_64(shl):
-        CASE_OP_32_64(shr):
-        CASE_OP_32_64(sar):
-        CASE_OP_32_64(rotl):
-        CASE_OP_32_64(rotr):
-            if (!arg_is_const(op->args[1])
-                && arg_is_const(op->args[2])
-                && arg_info(op->args[2])->val == 0) {
-                tcg_opt_gen_mov(&ctx, op, op->args[0], op->args[1]);
-                continue;
-            }
-            break;
-        CASE_OP_32_64_VEC(and):
-        CASE_OP_32_64_VEC(orc):
-        CASE_OP_32_64(eqv):
-            if (!arg_is_const(op->args[1])
-                && arg_is_const(op->args[2])
-                && arg_info(op->args[2])->val == -1) {
-                tcg_opt_gen_mov(&ctx, op, op->args[0], op->args[1]);
-                continue;
-            }
-            break;
-        default:
-            break;
-        }
-
         /* Simplify using known-zero bits. Currently only ops with a single
            output argument is supported. */
         z_mask = -1;
-- 
2.25.1

Pull the "op r, 0, b => movi r, 0" optimization into a function,
and use it in fold_shift.

Reviewed-by: Luis Pires <luis.pires@eldorado.org.br>
Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/optimize.c | 28 ++++++++++------------------
 1 file changed, 10 insertions(+), 18 deletions(-)

diff --git a/tcg/optimize.c b/tcg/optimize.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/optimize.c
+++ b/tcg/optimize.c
@@ -XXX,XX +XXX,XX @@ static bool fold_to_not(OptContext *ctx, TCGOp *op, int idx)
     return false;
 }
 
+/* If the binary operation has first argument @i, fold to @i. */
+static bool fold_ix_to_i(OptContext *ctx, TCGOp *op, uint64_t i)
+{
+    if (arg_is_const(op->args[1]) && arg_info(op->args[1])->val == i) {
+        return tcg_opt_gen_movi(ctx, op, op->args[0], i);
+    }
+    return false;
+}
+
 /* If the binary operation has first argument @i, fold to NOT. */
 static bool fold_ix_to_not(OptContext *ctx, TCGOp *op, uint64_t i)
 {
@@ -XXX,XX +XXX,XX @@ static bool fold_sextract(OptContext *ctx, TCGOp *op)
 static bool fold_shift(OptContext *ctx, TCGOp *op)
 {
     if (fold_const2(ctx, op) ||
+        fold_ix_to_i(ctx, op, 0) ||
         fold_xi_to_x(ctx, op, 0)) {
         return true;
     }
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
             break;
         }
 
-        /* Simplify expressions for "shift/rot r, 0, a => movi r, 0",
-           and "sub r, 0, a => neg r, a" case.  */
-        switch (opc) {
-        CASE_OP_32_64(shl):
-        CASE_OP_32_64(shr):
-        CASE_OP_32_64(sar):
-        CASE_OP_32_64(rotl):
-        CASE_OP_32_64(rotr):
-            if (arg_is_const(op->args[1])
-                && arg_info(op->args[1])->val == 0) {
-                tcg_opt_gen_movi(&ctx, op, op->args[0], 0);
-                continue;
-            }
-            break;
-        default:
-            break;
-        }
-
         /* Simplify using known-zero bits. Currently only ops with a single
            output argument is supported. */
         z_mask = -1;
-- 
2.25.1

Move all of the known-zero optimizations into the per-opcode
functions.  Use fold_masks when there is a possibility of the
result being determined, and simply set ctx->z_mask otherwise.

Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
Reviewed-by: Luis Pires <luis.pires@eldorado.org.br>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/optimize.c | 545 ++++++++++++++++++++++++++-----------------------
 1 file changed, 294 insertions(+), 251 deletions(-)

diff --git a/tcg/optimize.c b/tcg/optimize.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/optimize.c
+++ b/tcg/optimize.c
@@ -XXX,XX +XXX,XX @@ typedef struct OptContext {
     TCGTempSet temps_used;
 
     /* In flight values from optimization. */
-    uint64_t z_mask;
+    uint64_t a_mask;  /* mask bit is 0 iff value identical to first input */
+    uint64_t z_mask;  /* mask bit is 0 iff value bit is 0 */
     TCGType type;
 } OptContext;
 
@@ -XXX,XX +XXX,XX @@ static bool fold_const2(OptContext *ctx, TCGOp *op)
     return false;
 }
 
+static bool fold_masks(OptContext *ctx, TCGOp *op)
+{
+    uint64_t a_mask = ctx->a_mask;
+    uint64_t z_mask = ctx->z_mask;
+
+    /*
+     * 32-bit ops generate 32-bit results.  For the result is zero test
+     * below, we can ignore high bits, but for further optimizations we
+     * need to record that the high bits contain garbage.
+     */
+    if (ctx->type == TCG_TYPE_I32) {
+        ctx->z_mask |= MAKE_64BIT_MASK(32, 32);
+        a_mask &= MAKE_64BIT_MASK(0, 32);
+        z_mask &= MAKE_64BIT_MASK(0, 32);
+    }
+
+    if (z_mask == 0) {
+        return tcg_opt_gen_movi(ctx, op, op->args[0], 0);
+    }
+    if (a_mask == 0) {
+        return tcg_opt_gen_mov(ctx, op, op->args[0], op->args[1]);
+    }
+    return false;
+}
+
 /*
  * Convert @op to NOT, if NOT is supported by the host.
  * Return true f the conversion is successful, which will still
@@ -XXX,XX +XXX,XX @@ static bool fold_add2_i32(OptContext *ctx, TCGOp *op)
 
 static bool fold_and(OptContext *ctx, TCGOp *op)
 {
+    uint64_t z1, z2;
+
     if (fold_const2(ctx, op) ||
         fold_xi_to_i(ctx, op, 0) ||
         fold_xi_to_x(ctx, op, -1) ||
         fold_xx_to_x(ctx, op)) {
         return true;
     }
-    return false;
+
+    z1 = arg_info(op->args[1])->z_mask;
+    z2 = arg_info(op->args[2])->z_mask;
+    ctx->z_mask = z1 & z2;
+
+    /*
+     * Known-zeros does not imply known-ones.  Therefore unless
+     * arg2 is constant, we can't infer affected bits from it.
+     */
+    if (arg_is_const(op->args[2])) {
+        ctx->a_mask = z1 & ~z2;
+    }
+
+    return fold_masks(ctx, op);
 }
 
 static bool fold_andc(OptContext *ctx, TCGOp *op)
 {
+    uint64_t z1;
+
     if (fold_const2(ctx, op) ||
         fold_xx_to_i(ctx, op, 0) ||
         fold_xi_to_x(ctx, op, 0) ||
         fold_ix_to_not(ctx, op, -1)) {
         return true;
     }
-    return false;
+
+    z1 = arg_info(op->args[1])->z_mask;
+
+    /*
+     * Known-zeros does not imply known-ones.  Therefore unless
+     * arg2 is constant, we can't infer anything from it.
+     */
+    if (arg_is_const(op->args[2])) {
+        uint64_t z2 = ~arg_info(op->args[2])->z_mask;
+        ctx->a_mask = z1 & ~z2;
+        z1 &= z2;
+    }
+    ctx->z_mask = z1;
+
+    return fold_masks(ctx, op);
 }
 
 static bool fold_brcond(OptContext *ctx, TCGOp *op)
@@ -XXX,XX +XXX,XX @@ static bool fold_brcond2(OptContext *ctx, TCGOp *op)
 
 static bool fold_bswap(OptContext *ctx, TCGOp *op)
 {
+    uint64_t z_mask, sign;
+
     if (arg_is_const(op->args[1])) {
         uint64_t t = arg_info(op->args[1])->val;
 
         t = do_constant_folding(op->opc, ctx->type, t, op->args[2]);
         return tcg_opt_gen_movi(ctx, op, op->args[0], t);
     }
-    return false;
+
+    z_mask = arg_info(op->args[1])->z_mask;
+    switch (op->opc) {
+    case INDEX_op_bswap16_i32:
+    case INDEX_op_bswap16_i64:
+        z_mask = bswap16(z_mask);
+        sign = INT16_MIN;
+        break;
+    case INDEX_op_bswap32_i32:
+    case INDEX_op_bswap32_i64:
+        z_mask = bswap32(z_mask);
+        sign = INT32_MIN;
+        break;
+    case INDEX_op_bswap64_i64:
+        z_mask = bswap64(z_mask);
+        sign = INT64_MIN;
+        break;
+    default:
+        g_assert_not_reached();
+    }
+
+    switch (op->args[2] & (TCG_BSWAP_OZ | TCG_BSWAP_OS)) {
+    case TCG_BSWAP_OZ:
+        break;
+    case TCG_BSWAP_OS:
+        /* If the sign bit may be 1, force all the bits above to 1. */
+        if (z_mask & sign) {
+            z_mask |= sign;
+        }
+        break;
+    default:
+        /* The high bits are undefined: force all bits above the sign to 1. */
+        z_mask |= sign << 1;
+        break;
+    }
+    ctx->z_mask = z_mask;
+
+    return fold_masks(ctx, op);
 }
 
 static bool fold_call(OptContext *ctx, TCGOp *op)
@@ -XXX,XX +XXX,XX @@ static bool fold_call(OptContext *ctx, TCGOp *op)
 
 static bool fold_count_zeros(OptContext *ctx, TCGOp *op)
 {
+    uint64_t z_mask;
+
     if (arg_is_const(op->args[1])) {
         uint64_t t = arg_info(op->args[1])->val;
 
@@ -XXX,XX +XXX,XX @@ static bool fold_count_zeros(OptContext *ctx, TCGOp *op)
         }
         return tcg_opt_gen_mov(ctx, op, op->args[0], op->args[2]);
     }
+
+    switch (ctx->type) {
+    case TCG_TYPE_I32:
+        z_mask = 31;
+        break;
+    case TCG_TYPE_I64:
+        z_mask = 63;
+        break;
+    default:
+        g_assert_not_reached();
+    }
+    ctx->z_mask = arg_info(op->args[2])->z_mask | z_mask;
+
     return false;
 }
 
 static bool fold_ctpop(OptContext *ctx, TCGOp *op)
 {
-    return fold_const1(ctx, op);
+    if (fold_const1(ctx, op)) {
+        return true;
+    }
+
+    switch (ctx->type) {
+    case TCG_TYPE_I32:
+        ctx->z_mask = 32 | 31;
+        break;
+    case TCG_TYPE_I64:
+        ctx->z_mask = 64 | 63;
+        break;
+    default:
+        g_assert_not_reached();
+    }
+    return false;
 }
 
 static bool fold_deposit(OptContext *ctx, TCGOp *op)
@@ -XXX,XX +XXX,XX @@ static bool fold_deposit(OptContext *ctx, TCGOp *op)
         t1 = deposit64(t1, op->args[3], op->args[4], t2);
         return tcg_opt_gen_movi(ctx, op, op->args[0], t1);
     }
+
+    ctx->z_mask = deposit64(arg_info(op->args[1])->z_mask,
+                            op->args[3], op->args[4],
+                            arg_info(op->args[2])->z_mask);
     return false;
 }
 
@@ -XXX,XX +XXX,XX @@ static bool fold_eqv(OptContext *ctx, TCGOp *op)
 
 static bool fold_extract(OptContext *ctx, TCGOp *op)
 {
+    uint64_t z_mask_old, z_mask;
+
     if (arg_is_const(op->args[1])) {
         uint64_t t;
 
@@ -XXX,XX +XXX,XX @@ static bool fold_extract(OptContext *ctx, TCGOp *op)
         t = extract64(t, op->args[2], op->args[3]);
         return tcg_opt_gen_movi(ctx, op, op->args[0], t);
     }
-    return false;
+
+    z_mask_old = arg_info(op->args[1])->z_mask;
+    z_mask = extract64(z_mask_old, op->args[2], op->args[3]);
+    if (op->args[2] == 0) {
+        ctx->a_mask = z_mask_old ^ z_mask;
+    }
+    ctx->z_mask = z_mask;
+
+    return fold_masks(ctx, op);
 }
 
 static bool fold_extract2(OptContext *ctx, TCGOp *op)
@@ -XXX,XX +XXX,XX @@ static bool fold_extract2(OptContext *ctx, TCGOp *op)
 
 static bool fold_exts(OptContext *ctx, TCGOp *op)
 {
-    return fold_const1(ctx, op);
+    uint64_t z_mask_old, z_mask, sign;
+    bool type_change = false;
+
+    if (fold_const1(ctx, op)) {
+        return true;
+    }
+
+    z_mask_old = z_mask = arg_info(op->args[1])->z_mask;
+
+    switch (op->opc) {
+    CASE_OP_32_64(ext8s):
+        sign = INT8_MIN;
+        z_mask = (uint8_t)z_mask;
+        break;
+    CASE_OP_32_64(ext16s):
+        sign = INT16_MIN;
+        z_mask = (uint16_t)z_mask;
+        break;
+    case INDEX_op_ext_i32_i64:
+        type_change = true;
+        QEMU_FALLTHROUGH;
+    case INDEX_op_ext32s_i64:
+        sign = INT32_MIN;
+        z_mask = (uint32_t)z_mask;
+        break;
+    default:
+        g_assert_not_reached();
+    }
+
+    if (z_mask & sign) {
+        z_mask |= sign;
+    } else if (!type_change) {
+        ctx->a_mask = z_mask_old ^ z_mask;
+    }
+    ctx->z_mask = z_mask;
+
+    return fold_masks(ctx, op);
 }
 
 static bool fold_extu(OptContext *ctx, TCGOp *op)
 {
-    return fold_const1(ctx, op);
+    uint64_t z_mask_old, z_mask;
+    bool type_change = false;
+
+    if (fold_const1(ctx, op)) {
+        return true;
+    }
+
+    z_mask_old = z_mask = arg_info(op->args[1])->z_mask;
+
+    switch (op->opc) {
+    CASE_OP_32_64(ext8u):
+        z_mask = (uint8_t)z_mask;
+        break;
+    CASE_OP_32_64(ext16u):
+        z_mask = (uint16_t)z_mask;
+        break;
+    case INDEX_op_extrl_i64_i32:
+    case INDEX_op_extu_i32_i64:
+        type_change = true;
+        QEMU_FALLTHROUGH;
+    case INDEX_op_ext32u_i64:
+        z_mask = (uint32_t)z_mask;
+        break;
+    case INDEX_op_extrh_i64_i32:
+        type_change = true;
+        z_mask >>= 32;
+        break;
+    default:
+        g_assert_not_reached();
+    }
+
+    ctx->z_mask = z_mask;
+    if (!type_change) {
+        ctx->a_mask = z_mask_old ^ z_mask;
+    }
+    return fold_masks(ctx, op);
 }
 
 static bool fold_mb(OptContext *ctx, TCGOp *op)
@@ -XXX,XX +XXX,XX @@ static bool fold_movcond(OptContext *ctx, TCGOp *op)
         return tcg_opt_gen_mov(ctx, op, op->args[0], op->args[4 - i]);
     }
 
+    ctx->z_mask = arg_info(op->args[3])->z_mask
+                | arg_info(op->args[4])->z_mask;
+
     if (arg_is_const(op->args[3]) && arg_is_const(op->args[4])) {
         uint64_t tv = arg_info(op->args[3])->val;
         uint64_t fv = arg_info(op->args[4])->val;
@@ -XXX,XX +XXX,XX @@ static bool fold_nand(OptContext *ctx, TCGOp *op)
 
 static bool fold_neg(OptContext *ctx, TCGOp *op)
 {
+    uint64_t z_mask;
+
     if (fold_const1(ctx, op)) {
         return true;
     }
+
+    /* Set to 1 all bits to the left of the rightmost.  */
+    z_mask = arg_info(op->args[1])->z_mask;
+    ctx->z_mask = -(z_mask & -z_mask);
+
     /*
      * Because of fold_sub_to_neg, we want to always return true,
      * via finish_folding.
@@ -XXX,XX +XXX,XX @@ static bool fold_or(OptContext *ctx, TCGOp *op)
         fold_xx_to_x(ctx, op)) {
         return true;
     }
-    return false;
+
+    ctx->z_mask = arg_info(op->args[1])->z_mask
+                | arg_info(op->args[2])->z_mask;
+    return fold_masks(ctx, op);
 }
 
 static bool fold_orc(OptContext *ctx, TCGOp *op)
@@ -XXX,XX +XXX,XX @@ static bool fold_orc(OptContext *ctx, TCGOp *op)
 
 static bool fold_qemu_ld(OptContext *ctx, TCGOp *op)
 {
+    const TCGOpDef *def = &tcg_op_defs[op->opc];
+    MemOpIdx oi = op->args[def->nb_oargs + def->nb_iargs];
+    MemOp mop = get_memop(oi);
+    int width = 8 * memop_size(mop);
+
+    if (!(mop & MO_SIGN) && width < 64) {
+        ctx->z_mask = MAKE_64BIT_MASK(0, width);
+    }
+
     /* Opcodes that touch guest memory stop the mb optimization.  */
     ctx->prev_mb = NULL;
     return false;
@@ -XXX,XX +XXX,XX @@ static bool fold_setcond(OptContext *ctx, TCGOp *op)
     if (i >= 0) {
         return tcg_opt_gen_movi(ctx, op, op->args[0], i);
     }
+
+    ctx->z_mask = 1;
     return false;
 }
 
@@ -XXX,XX +XXX,XX @@ static bool fold_setcond2(OptContext *ctx, TCGOp *op)
         op->opc = INDEX_op_setcond_i32;
         break;
     }
+
+    ctx->z_mask = 1;
     return false;
 
  do_setcond_const:
@@ -XXX,XX +XXX,XX @@ static bool fold_setcond2(OptContext *ctx, TCGOp *op)
 
 static bool fold_sextract(OptContext *ctx, TCGOp *op)
 {
+    int64_t z_mask_old, z_mask;
+
     if (arg_is_const(op->args[1])) {
         uint64_t t;
 
@@ -XXX,XX +XXX,XX @@ static bool fold_sextract(OptContext *ctx, TCGOp *op)
         t = sextract64(t, op->args[2], op->args[3]);
         return tcg_opt_gen_movi(ctx, op, op->args[0], t);
     }
-    return false;
+
+    z_mask_old = arg_info(op->args[1])->z_mask;
+    z_mask = sextract64(z_mask_old, op->args[2], op->args[3]);
+    if (op->args[2] == 0 && z_mask >= 0) {
+        ctx->a_mask = z_mask_old ^ z_mask;
+    }
+    ctx->z_mask = z_mask;
+
+    return fold_masks(ctx, op);
 }
 
 static bool fold_shift(OptContext *ctx, TCGOp *op)
@@ -XXX,XX +XXX,XX @@ static bool fold_shift(OptContext *ctx, TCGOp *op)
         fold_xi_to_x(ctx, op, 0)) {
         return true;
     }
+
+    if (arg_is_const(op->args[2])) {
+        ctx->z_mask = do_constant_folding(op->opc, ctx->type,
+                                          arg_info(op->args[1])->z_mask,
+                                          arg_info(op->args[2])->val);
+        return fold_masks(ctx, op);
+    }
     return false;
 }
 
@@ -XXX,XX +XXX,XX @@ static bool fold_sub2_i32(OptContext *ctx, TCGOp *op)
     return fold_addsub2_i32(ctx, op, false);
 }
 
+static bool fold_tcg_ld(OptContext *ctx, TCGOp *op)
+{
+    /* We can't do any folding with a load, but we can record bits. */
+    switch (op->opc) {
+    CASE_OP_32_64(ld8u):
+        ctx->z_mask = MAKE_64BIT_MASK(0, 8);
+        break;
+    CASE_OP_32_64(ld16u):
+        ctx->z_mask = MAKE_64BIT_MASK(0, 16);
+        break;
+    case INDEX_op_ld32u_i64:
+        ctx->z_mask = MAKE_64BIT_MASK(0, 32);
+        break;
+    default:
+        g_assert_not_reached();
+    }
+    return false;
+}
+
 static bool fold_xor(OptContext *ctx, TCGOp *op)
 {
     if (fold_const2(ctx, op) ||
@@ -XXX,XX +XXX,XX @@ static bool fold_xor(OptContext *ctx, TCGOp *op)
         fold_xi_to_not(ctx, op, -1)) {
         return true;
     }
-    return false;
+
+    ctx->z_mask = arg_info(op->args[1])->z_mask
+                | arg_info(op->args[2])->z_mask;
+    return fold_masks(ctx, op);
 }
 
 /* Propagate constants and copies, fold constant expressions. */
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
     }
 
     QTAILQ_FOREACH_SAFE(op, &s->ops, link, op_next) {
-        uint64_t z_mask, partmask, affected, tmp;
         TCGOpcode opc = op->opc;
         const TCGOpDef *def;
         bool done = false;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
             break;
         }
 
-        /* Simplify using known-zero bits. Currently only ops with a single
-           output argument is supported. */
-        z_mask = -1;
-        affected = -1;
-        switch (opc) {
-        CASE_OP_32_64(ext8s):
-            if ((arg_info(op->args[1])->z_mask & 0x80) != 0) {
-                break;
-            }
-            QEMU_FALLTHROUGH;
-        CASE_OP_32_64(ext8u):
-            z_mask = 0xff;
-            goto and_const;
-        CASE_OP_32_64(ext16s):
-            if ((arg_info(op->args[1])->z_mask & 0x8000) != 0) {
-                break;
-            }
-            QEMU_FALLTHROUGH;
-        CASE_OP_32_64(ext16u):
-            z_mask = 0xffff;
-            goto and_const;
-        case INDEX_op_ext32s_i64:
-            if ((arg_info(op->args[1])->z_mask & 0x80000000) != 0) {
-                break;
-            }
-            QEMU_FALLTHROUGH;
-        case INDEX_op_ext32u_i64:
-            z_mask = 0xffffffffU;
-            goto and_const;
-
-        CASE_OP_32_64(and):
-            z_mask = arg_info(op->args[2])->z_mask;
-            if (arg_is_const(op->args[2])) {
-        and_const:
-                affected = arg_info(op->args[1])->z_mask & ~z_mask;
-            }
-            z_mask = arg_info(op->args[1])->z_mask & z_mask;
-            break;
-
-        case INDEX_op_ext_i32_i64:
-            if ((arg_info(op->args[1])->z_mask & 0x80000000) != 0) {
-                break;
-            }
-            QEMU_FALLTHROUGH;
-        case INDEX_op_extu_i32_i64:
-            /* We do not compute affected as it is a size changing op.  */
-            z_mask = (uint32_t)arg_info(op->args[1])->z_mask;
-            break;
-
-        CASE_OP_32_64(andc):
-            /* Known-zeros does not imply known-ones.  Therefore unless
-               op->args[2] is constant, we can't infer anything from it.  */
-            if (arg_is_const(op->args[2])) {
-                z_mask = ~arg_info(op->args[2])->z_mask;
-                goto and_const;
-            }
-            /* But we certainly know nothing outside args[1] may be set. */
-            z_mask = arg_info(op->args[1])->z_mask;
-            break;
-
-        case INDEX_op_sar_i32:
-            if (arg_is_const(op->args[2])) {
-                tmp = arg_info(op->args[2])->val & 31;
-                z_mask = (int32_t)arg_info(op->args[1])->z_mask >> tmp;
-            }
-            break;
-        case INDEX_op_sar_i64:
-            if (arg_is_const(op->args[2])) {
-                tmp = arg_info(op->args[2])->val & 63;
-                z_mask = (int64_t)arg_info(op->args[1])->z_mask >> tmp;
-            }
-            break;
-
-        case INDEX_op_shr_i32:
-            if (arg_is_const(op->args[2])) {
-                tmp = arg_info(op->args[2])->val & 31;
-                z_mask = (uint32_t)arg_info(op->args[1])->z_mask >> tmp;
-            }
-            break;
-        case INDEX_op_shr_i64:
-            if (arg_is_const(op->args[2])) {
-                tmp = arg_info(op->args[2])->val & 63;
-                z_mask = (uint64_t)arg_info(op->args[1])->z_mask >> tmp;
-            }
-            break;
-
-        case INDEX_op_extrl_i64_i32:
-            z_mask = (uint32_t)arg_info(op->args[1])->z_mask;
-            break;
-        case INDEX_op_extrh_i64_i32:
-            z_mask = (uint64_t)arg_info(op->args[1])->z_mask >> 32;
-            break;
-
-        CASE_OP_32_64(shl):
-            if (arg_is_const(op->args[2])) {
-                tmp = arg_info(op->args[2])->val & (TCG_TARGET_REG_BITS - 1);
-                z_mask = arg_info(op->args[1])->z_mask << tmp;
-            }
-            break;
-
-        CASE_OP_32_64(neg):
-            /* Set to 1 all bits to the left of the rightmost.  */
-            z_mask = -(arg_info(op->args[1])->z_mask
-                       & -arg_info(op->args[1])->z_mask);
-            break;
-
-        CASE_OP_32_64(deposit):
-            z_mask = deposit64(arg_info(op->args[1])->z_mask,
-                               op->args[3], op->args[4],
-                               arg_info(op->args[2])->z_mask);
-            break;
-
-        CASE_OP_32_64(extract):
-            z_mask = extract64(arg_info(op->args[1])->z_mask,
-                               op->args[2], op->args[3]);
-            if (op->args[2] == 0) {
-                affected = arg_info(op->args[1])->z_mask & ~z_mask;
-            }
-            break;
-        CASE_OP_32_64(sextract):
-            z_mask = sextract64(arg_info(op->args[1])->z_mask,
-                                op->args[2], op->args[3]);
-            if (op->args[2] == 0 && (tcg_target_long)z_mask >= 0) {
-                affected = arg_info(op->args[1])->z_mask & ~z_mask;
-            }
-            break;
-
-        CASE_OP_32_64(or):
-        CASE_OP_32_64(xor):
-            z_mask = arg_info(op->args[1])->z_mask
-                   | arg_info(op->args[2])->z_mask;
-            break;
-
-        case INDEX_op_clz_i32:
-        case INDEX_op_ctz_i32:
-            z_mask = arg_info(op->args[2])->z_mask | 31;
-            break;
-
-        case INDEX_op_clz_i64:
-        case INDEX_op_ctz_i64:
-            z_mask = arg_info(op->args[2])->z_mask | 63;
-            break;
-
-        case INDEX_op_ctpop_i32:
-            z_mask = 32 | 31;
-            break;
-        case INDEX_op_ctpop_i64:
-            z_mask = 64 | 63;
-            break;
-
-        CASE_OP_32_64(setcond):
-        case INDEX_op_setcond2_i32:
-            z_mask = 1;
-            break;
-
-        CASE_OP_32_64(movcond):
-            z_mask = arg_info(op->args[3])->z_mask
-                   | arg_info(op->args[4])->z_mask;
-            break;
-
-        CASE_OP_32_64(ld8u):
-            z_mask = 0xff;
-            break;
-        CASE_OP_32_64(ld16u):
-            z_mask = 0xffff;
-            break;
-        case INDEX_op_ld32u_i64:
-            z_mask = 0xffffffffu;
-            break;
-
-        CASE_OP_32_64(qemu_ld):
-            {
-                MemOpIdx oi = op->args[def->nb_oargs + def->nb_iargs];
-                MemOp mop = get_memop(oi);
-                if (!(mop & MO_SIGN)) {
-                    z_mask = (2ULL << ((8 << (mop & MO_SIZE)) - 1)) - 1;
-                }
-            }
-            break;
-
-        CASE_OP_32_64(bswap16):
-            z_mask = arg_info(op->args[1])->z_mask;
-            if (z_mask <= 0xffff) {
-                op->args[2] |= TCG_BSWAP_IZ;
-            }
-            z_mask = bswap16(z_mask);
-            switch (op->args[2] & (TCG_BSWAP_OZ | TCG_BSWAP_OS)) {
-            case TCG_BSWAP_OZ:
-                break;
-            case TCG_BSWAP_OS:
-                z_mask = (int16_t)z_mask;
-                break;
-            default: /* undefined high bits */
-                z_mask |= MAKE_64BIT_MASK(16, 48);
-                break;
-            }
-            break;
-
-        case INDEX_op_bswap32_i64:
-            z_mask = arg_info(op->args[1])->z_mask;
-            if (z_mask <= 0xffffffffu) {
-                op->args[2] |= TCG_BSWAP_IZ;
-            }
-            z_mask = bswap32(z_mask);
-            switch (op->args[2] & (TCG_BSWAP_OZ | TCG_BSWAP_OS)) {
-            case TCG_BSWAP_OZ:
-                break;
-            case TCG_BSWAP_OS:
-                z_mask = (int32_t)z_mask;
-                break;
-            default: /* undefined high bits */
-                z_mask |= MAKE_64BIT_MASK(32, 32);
-                break;
-            }
-            break;
-
-        default:
-            break;
-        }
-
-        /* 32-bit ops generate 32-bit results.  For the result is zero test
-           below, we can ignore high bits, but for further optimizations we
-           need to record that the high bits contain garbage.  */
-        partmask = z_mask;
-        if (ctx.type == TCG_TYPE_I32) {
-            z_mask |= ~(tcg_target_ulong)0xffffffffu;
-            partmask &= 0xffffffffu;
-            affected &= 0xffffffffu;
-        }
-        ctx.z_mask = z_mask;
-
-        if (partmask == 0) {
-            tcg_opt_gen_movi(&ctx, op, op->args[0], 0);
-            continue;
-        }
-        if (affected == 0) {
-            tcg_opt_gen_mov(&ctx, op, op->args[0], op->args[1]);
-            continue;
-        }
+        /* Assume all bits affected, and no bits known zero. */
+        ctx.a_mask = -1;
+        ctx.z_mask = -1;
 
         /*
          * Process each opcode.
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
         case INDEX_op_extrh_i64_i32:
             done = fold_extu(&ctx, op);
             break;
+        CASE_OP_32_64(ld8u):
+        CASE_OP_32_64(ld16u):
+        case INDEX_op_ld32u_i64:
+            done = fold_tcg_ld(&ctx, op);
+            break;
         case INDEX_op_mb:
             done = fold_mb(&ctx, op);
             break;
-- 
2.25.1

Rename to fold_multiply2, and handle muls2_i32, mulu2_i64,
and muls2_i64.

Reviewed-by: Luis Pires <luis.pires@eldorado.org.br>
Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/optimize.c | 44 +++++++++++++++++++++++++++++++++++---------
 1 file changed, 35 insertions(+), 9 deletions(-)

diff --git a/tcg/optimize.c b/tcg/optimize.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/optimize.c
+++ b/tcg/optimize.c
@@ -XXX,XX +XXX,XX @@ static bool fold_mul_highpart(OptContext *ctx, TCGOp *op)
     return false;
 }
 
-static bool fold_mulu2_i32(OptContext *ctx, TCGOp *op)
+static bool fold_multiply2(OptContext *ctx, TCGOp *op)
 {
     if (arg_is_const(op->args[2]) && arg_is_const(op->args[3])) {
-        uint32_t a = arg_info(op->args[2])->val;
-        uint32_t b = arg_info(op->args[3])->val;
-        uint64_t r = (uint64_t)a * b;
+        uint64_t a = arg_info(op->args[2])->val;
+        uint64_t b = arg_info(op->args[3])->val;
+        uint64_t h, l;
         TCGArg rl, rh;
-        TCGOp *op2 = tcg_op_insert_before(ctx->tcg, op, INDEX_op_mov_i32);
+        TCGOp *op2;
+
+        switch (op->opc) {
+        case INDEX_op_mulu2_i32:
+            l = (uint64_t)(uint32_t)a * (uint32_t)b;
+            h = (int32_t)(l >> 32);
+            l = (int32_t)l;
+            break;
+        case INDEX_op_muls2_i32:
+            l = (int64_t)(int32_t)a * (int32_t)b;
+            h = l >> 32;
+            l = (int32_t)l;
+            break;
+        case INDEX_op_mulu2_i64:
+            mulu64(&l, &h, a, b);
+            break;
+        case INDEX_op_muls2_i64:
+            muls64(&l, &h, a, b);
+            break;
+        default:
+            g_assert_not_reached();
+        }
 
         rl = op->args[0];
         rh = op->args[1];
-        tcg_opt_gen_movi(ctx, op, rl, (int32_t)r);
-        tcg_opt_gen_movi(ctx, op2, rh, (int32_t)(r >> 32));
+
+        /* The proper opcode is supplied by tcg_opt_gen_mov. */
+        op2 = tcg_op_insert_before(ctx->tcg, op, 0);
+
+        tcg_opt_gen_movi(ctx, op, rl, l);
+        tcg_opt_gen_movi(ctx, op2, rh, h);
         return true;
     }
     return false;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
         CASE_OP_32_64(muluh):
             done = fold_mul_highpart(&ctx, op);
             break;
-        case INDEX_op_mulu2_i32:
-            done = fold_mulu2_i32(&ctx, op);
+        CASE_OP_32_64(muls2):
+        CASE_OP_32_64(mulu2):
+            done = fold_multiply2(&ctx, op);
             break;
         CASE_OP_32_64(nand):
             done = fold_nand(&ctx, op);
-- 
2.25.1

Rename to fold_addsub2.
Use Int128 to implement the wider operation.

Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
Reviewed-by: Luis Pires <luis.pires@eldorado.org.br>
Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/optimize.c | 65 ++++++++++++++++++++++++++++++++++----------------
 1 file changed, 44 insertions(+), 21 deletions(-)

diff --git a/tcg/optimize.c b/tcg/optimize.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/optimize.c
+++ b/tcg/optimize.c
@@ -XXX,XX +XXX,XX @@
  */
 
 #include "qemu/osdep.h"
+#include "qemu/int128.h"
 #include "tcg/tcg-op.h"
 #include "tcg-internal.h"
 
@@ -XXX,XX +XXX,XX @@ static bool fold_add(OptContext *ctx, TCGOp *op)
     return false;
 }
 
-static bool fold_addsub2_i32(OptContext *ctx, TCGOp *op, bool add)
+static bool fold_addsub2(OptContext *ctx, TCGOp *op, bool add)
 {
     if (arg_is_const(op->args[2]) && arg_is_const(op->args[3]) &&
         arg_is_const(op->args[4]) && arg_is_const(op->args[5])) {
-        uint32_t al = arg_info(op->args[2])->val;
-        uint32_t ah = arg_info(op->args[3])->val;
-        uint32_t bl = arg_info(op->args[4])->val;
-        uint32_t bh = arg_info(op->args[5])->val;
-        uint64_t a = ((uint64_t)ah << 32) | al;
-        uint64_t b = ((uint64_t)bh << 32) | bl;
+        uint64_t al = arg_info(op->args[2])->val;
+        uint64_t ah = arg_info(op->args[3])->val;
+        uint64_t bl = arg_info(op->args[4])->val;
+        uint64_t bh = arg_info(op->args[5])->val;
         TCGArg rl, rh;
-        TCGOp *op2 = tcg_op_insert_before(ctx->tcg, op, INDEX_op_mov_i32);
+        TCGOp *op2;
 
-        if (add) {
-            a += b;
+        if (ctx->type == TCG_TYPE_I32) {
+            uint64_t a = deposit64(al, 32, 32, ah);
+            uint64_t b = deposit64(bl, 32, 32, bh);
+
+            if (add) {
+                a += b;
+            } else {
+                a -= b;
+            }
+
+            al = sextract64(a, 0, 32);
+            ah = sextract64(a, 32, 32);
         } else {
-            a -= b;
+            Int128 a = int128_make128(al, ah);
+            Int128 b = int128_make128(bl, bh);
+
+            if (add) {
+                a = int128_add(a, b);
+            } else {
+                a = int128_sub(a, b);
+            }
+
+            al = int128_getlo(a);
+            ah = int128_gethi(a);
         }
 
         rl = op->args[0];
         rh = op->args[1];
-        tcg_opt_gen_movi(ctx, op, rl, (int32_t)a);
-        tcg_opt_gen_movi(ctx, op2, rh, (int32_t)(a >> 32));
+
+        /* The proper opcode is supplied by tcg_opt_gen_mov. */
+        op2 = tcg_op_insert_before(ctx->tcg, op, 0);
+
+        tcg_opt_gen_movi(ctx, op, rl, al);
+        tcg_opt_gen_movi(ctx, op2, rh, ah);
         return true;
     }
     return false;
 }
 
-static bool fold_add2_i32(OptContext *ctx, TCGOp *op)
+static bool fold_add2(OptContext *ctx, TCGOp *op)
 {
-    return fold_addsub2_i32(ctx, op, true);
+    return fold_addsub2(ctx, op, true);
 }
 
 static bool fold_and(OptContext *ctx, TCGOp *op)
@@ -XXX,XX +XXX,XX @@ static bool fold_sub(OptContext *ctx, TCGOp *op)
     return false;
 }
 
-static bool fold_sub2_i32(OptContext *ctx, TCGOp *op)
+static bool fold_sub2(OptContext *ctx, TCGOp *op)
 {
-    return fold_addsub2_i32(ctx, op, false);
+    return fold_addsub2(ctx, op, false);
 }
 
 static bool fold_tcg_ld(OptContext *ctx, TCGOp *op)
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
         CASE_OP_32_64_VEC(add):
             done = fold_add(&ctx, op);
             break;
-        case INDEX_op_add2_i32:
-            done = fold_add2_i32(&ctx, op);
+        CASE_OP_32_64(add2):
+            done = fold_add2(&ctx, op);
             break;
         CASE_OP_32_64_VEC(and):
             done = fold_and(&ctx, op);
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
         CASE_OP_32_64_VEC(sub):
             done = fold_sub(&ctx, op);
             break;
-        case INDEX_op_sub2_i32:
-            done = fold_sub2_i32(&ctx, op);
+        CASE_OP_32_64(sub2):
+            done = fold_sub2(&ctx, op);
             break;
         CASE_OP_32_64_VEC(xor):
             done = fold_xor(&ctx, op);
-- 
2.25.1

Most of these are handled by creating a fold_const2_commutative
to handle all of the binary operators.  The rest were already
handled on a case-by-case basis in the switch, and have their
own fold function in which to place the call.

We now have only one major switch on TCGOpcode.

Introduce NO_DEST and a block comment for swap_commutative in
order to make the handling of brcond and movcond opcodes cleaner.

Reviewed-by: Luis Pires <luis.pires@eldorado.org.br>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/optimize.c | 142 ++++++++++++++++++++++++-------------------------
 1 file changed, 70 insertions(+), 72 deletions(-)

diff --git a/tcg/optimize.c b/tcg/optimize.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/optimize.c
+++ b/tcg/optimize.c
@@ -XXX,XX +XXX,XX @@ static int do_constant_folding_cond2(TCGArg *p1, TCGArg *p2, TCGCond c)
     return -1;
 }
 
+/**
+ * swap_commutative:
+ * @dest: TCGArg of the destination argument, or NO_DEST.
+ * @p1: first paired argument
+ * @p2: second paired argument
+ *
+ * If *@p1 is a constant and *@p2 is not, swap.
+ * If *@p2 matches @dest, swap.
+ * Return true if a swap was performed.
+ */
+
+#define NO_DEST  temp_arg(NULL)
+
 static bool swap_commutative(TCGArg dest, TCGArg *p1, TCGArg *p2)
 {
     TCGArg a1 = *p1, a2 = *p2;
@@ -XXX,XX +XXX,XX @@ static bool fold_const2(OptContext *ctx, TCGOp *op)
     return false;
 }
 
+static bool fold_const2_commutative(OptContext *ctx, TCGOp *op)
+{
+    swap_commutative(op->args[0], &op->args[1], &op->args[2]);
+    return fold_const2(ctx, op);
+}
+
 static bool fold_masks(OptContext *ctx, TCGOp *op)
 {
     uint64_t a_mask = ctx->a_mask;
@@ -XXX,XX +XXX,XX @@ static bool fold_xx_to_x(OptContext *ctx, TCGOp *op)
 
 static bool fold_add(OptContext *ctx, TCGOp *op)
 {
-    if (fold_const2(ctx, op) ||
+    if (fold_const2_commutative(ctx, op) ||
         fold_xi_to_x(ctx, op, 0)) {
         return true;
     }
@@ -XXX,XX +XXX,XX @@ static bool fold_addsub2(OptContext *ctx, TCGOp *op, bool add)
 
 static bool fold_add2(OptContext *ctx, TCGOp *op)
 {
+    /* Note that the high and low parts may be independently swapped. */
+    swap_commutative(op->args[0], &op->args[2], &op->args[4]);
+    swap_commutative(op->args[1], &op->args[3], &op->args[5]);
+
     return fold_addsub2(ctx, op, true);
 }
 
@@ -XXX,XX +XXX,XX @@ static bool fold_and(OptContext *ctx, TCGOp *op)
 {
     uint64_t z1, z2;
 
-    if (fold_const2(ctx, op) ||
+    if (fold_const2_commutative(ctx, op) ||
         fold_xi_to_i(ctx, op, 0) ||
         fold_xi_to_x(ctx, op, -1) ||
         fold_xx_to_x(ctx, op)) {
@@ -XXX,XX +XXX,XX @@ static bool fold_andc(OptContext *ctx, TCGOp *op)
 static bool fold_brcond(OptContext *ctx, TCGOp *op)
 {
     TCGCond cond = op->args[2];
-    int i = do_constant_folding_cond(ctx->type, op->args[0], op->args[1], cond);
+    int i;
 
+    if (swap_commutative(NO_DEST, &op->args[0], &op->args[1])) {
+        op->args[2] = cond = tcg_swap_cond(cond);
+    }
+
+    i = do_constant_folding_cond(ctx->type, op->args[0], op->args[1], cond);
     if (i == 0) {
         tcg_op_remove(ctx->tcg, op);
         return true;
@@ -XXX,XX +XXX,XX @@ static bool fold_brcond(OptContext *ctx, TCGOp *op)
 static bool fold_brcond2(OptContext *ctx, TCGOp *op)
 {
     TCGCond cond = op->args[4];
-    int i = do_constant_folding_cond2(&op->args[0], &op->args[2], cond);
     TCGArg label = op->args[5];
-    int inv = 0;
+    int i, inv = 0;
 
+    if (swap_commutative2(&op->args[0], &op->args[2])) {
+        op->args[4] = cond = tcg_swap_cond(cond);
+    }
+
+    i = do_constant_folding_cond2(&op->args[0], &op->args[2], cond);
     if (i >= 0) {
         goto do_brcond_const;
     }
@@ -XXX,XX +XXX,XX @@ static bool fold_dup2(OptContext *ctx, TCGOp *op)
 
 static bool fold_eqv(OptContext *ctx, TCGOp *op)
 {
-    if (fold_const2(ctx, op) ||
+    if (fold_const2_commutative(ctx, op) ||
         fold_xi_to_x(ctx, op, -1) ||
         fold_xi_to_not(ctx, op, 0)) {
         return true;
@@ -XXX,XX +XXX,XX @@ static bool fold_mov(OptContext *ctx, TCGOp *op)
 static bool fold_movcond(OptContext *ctx, TCGOp *op)
 {
     TCGCond cond = op->args[5];
-    int i = do_constant_folding_cond(ctx->type, op->args[1], op->args[2], cond);
+    int i;
 
+    if (swap_commutative(NO_DEST, &op->args[1], &op->args[2])) {
+        op->args[5] = cond = tcg_swap_cond(cond);
+    }
+    /*
+     * Canonicalize the "false" input reg to match the destination reg so
+     * that the tcg backend can implement a "move if true" operation.
+     */
+    if (swap_commutative(op->args[0], &op->args[4], &op->args[3])) {
+        op->args[5] = cond = tcg_invert_cond(cond);
+    }
+
+    i = do_constant_folding_cond(ctx->type, op->args[1], op->args[2], cond);
     if (i >= 0) {
         return tcg_opt_gen_mov(ctx, op, op->args[0], op->args[4 - i]);
     }
@@ -XXX,XX +XXX,XX @@ static bool fold_mul(OptContext *ctx, TCGOp *op)
 
 static bool fold_mul_highpart(OptContext *ctx, TCGOp *op)
 {
-    if (fold_const2(ctx, op) ||
+    if (fold_const2_commutative(ctx, op) ||
         fold_xi_to_i(ctx, op, 0)) {
         return true;
     }
@@ -XXX,XX +XXX,XX @@ static bool fold_mul_highpart(OptContext *ctx, TCGOp *op)
 
 static bool fold_multiply2(OptContext *ctx, TCGOp *op)
 {
+    swap_commutative(op->args[0], &op->args[2], &op->args[3]);
+
     if (arg_is_const(op->args[2]) && arg_is_const(op->args[3])) {
         uint64_t a = arg_info(op->args[2])->val;
         uint64_t b = arg_info(op->args[3])->val;
@@ -XXX,XX +XXX,XX @@ static bool fold_multiply2(OptContext *ctx, TCGOp *op)
 
 static bool fold_nand(OptContext *ctx, TCGOp *op)
 {
-    if (fold_const2(ctx, op) ||
+    if (fold_const2_commutative(ctx, op) ||
         fold_xi_to_not(ctx, op, -1)) {
         return true;
     }
@@ -XXX,XX +XXX,XX @@ static bool fold_neg(OptContext *ctx, TCGOp *op)
 
 static bool fold_nor(OptContext *ctx, TCGOp *op)
 {
-    if (fold_const2(ctx, op) ||
+    if (fold_const2_commutative(ctx, op) ||
         fold_xi_to_not(ctx, op, 0)) {
         return true;
     }
@@ -XXX,XX +XXX,XX @@ static bool fold_not(OptContext *ctx, TCGOp *op)
 
 static bool fold_or(OptContext *ctx, TCGOp *op)
 {
-    if (fold_const2(ctx, op) ||
+    if (fold_const2_commutative(ctx, op) ||
         fold_xi_to_x(ctx, op, 0) ||
         fold_xx_to_x(ctx, op)) {
         return true;
@@ -XXX,XX +XXX,XX @@ static bool fold_remainder(OptContext *ctx, TCGOp *op)
 static bool fold_setcond(OptContext *ctx, TCGOp *op)
 {
     TCGCond cond = op->args[3];
-    int i = do_constant_folding_cond(ctx->type, op->args[1], op->args[2], cond);
+    int i;
 
+    if (swap_commutative(op->args[0], &op->args[1], &op->args[2])) {
+        op->args[3] = cond = tcg_swap_cond(cond);
+    }
+
+    i = do_constant_folding_cond(ctx->type, op->args[1], op->args[2], cond);
     if (i >= 0) {
         return tcg_opt_gen_movi(ctx, op, op->args[0], i);
     }
@@ -XXX,XX +XXX,XX @@ static bool fold_setcond(OptContext *ctx, TCGOp *op)
 static bool fold_setcond2(OptContext *ctx, TCGOp *op)
 {
     TCGCond cond = op->args[5];
-    int i = do_constant_folding_cond2(&op->args[1], &op->args[3], cond);
-    int inv = 0;
+    int i, inv = 0;
 
+    if (swap_commutative2(&op->args[1], &op->args[3])) {
+        op->args[5] = cond = tcg_swap_cond(cond);
+    }
+
+    i = do_constant_folding_cond2(&op->args[1], &op->args[3], cond);
     if (i >= 0) {
         goto do_setcond_const;
     }
@@ -XXX,XX +XXX,XX @@ static bool fold_tcg_ld(OptContext *ctx, TCGOp *op)
 
 static bool fold_xor(OptContext *ctx, TCGOp *op)
 {
-    if (fold_const2(ctx, op) ||
+    if (fold_const2_commutative(ctx, op) ||
         fold_xx_to_i(ctx, op, 0) ||
         fold_xi_to_x(ctx, op, 0) ||
         fold_xi_to_not(ctx, op, -1)) {
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
             ctx.type = TCG_TYPE_I32;
         }
 
-        /* For commutative operations make constant second argument */
-        switch (opc) {
-        CASE_OP_32_64_VEC(add):
-        CASE_OP_32_64_VEC(mul):
-        CASE_OP_32_64_VEC(and):
-        CASE_OP_32_64_VEC(or):
-        CASE_OP_32_64_VEC(xor):
-        CASE_OP_32_64(eqv):
-        CASE_OP_32_64(nand):
-        CASE_OP_32_64(nor):
-        CASE_OP_32_64(muluh):
-        CASE_OP_32_64(mulsh):
-            swap_commutative(op->args[0], &op->args[1], &op->args[2]);
-            break;
-        CASE_OP_32_64(brcond):
-            if (swap_commutative(-1, &op->args[0], &op->args[1])) {
-                op->args[2] = tcg_swap_cond(op->args[2]);
-            }
-            break;
-        CASE_OP_32_64(setcond):
-            if (swap_commutative(op->args[0], &op->args[1], &op->args[2])) {
-                op->args[3] = tcg_swap_cond(op->args[3]);
-            }
-            break;
-        CASE_OP_32_64(movcond):
-            if (swap_commutative(-1, &op->args[1], &op->args[2])) {
-                op->args[5] = tcg_swap_cond(op->args[5]);
-            }
-            /* For movcond, we canonicalize the "false" input reg to match
-               the destination reg so that the tcg backend can implement
-               a "move if true" operation.  */
-            if (swap_commutative(op->args[0], &op->args[4], &op->args[3])) {
-                op->args[5] = tcg_invert_cond(op->args[5]);
-            }
-            break;
-        CASE_OP_32_64(add2):
-            swap_commutative(op->args[0], &op->args[2], &op->args[4]);
-            swap_commutative(op->args[1], &op->args[3], &op->args[5]);
-            break;
-        CASE_OP_32_64(mulu2):
-        CASE_OP_32_64(muls2):
-            swap_commutative(op->args[0], &op->args[2], &op->args[3]);
-            break;
-        case INDEX_op_brcond2_i32:
-            if (swap_commutative2(&op->args[0], &op->args[2])) {
-                op->args[4] = tcg_swap_cond(op->args[4]);
-            }
-            break;
-        case INDEX_op_setcond2_i32:
-            if (swap_commutative2(&op->args[1], &op->args[3])) {
-                op->args[5] = tcg_swap_cond(op->args[5]);
-            }
-            break;
-        default:
-            break;
-        }
-
         /* Assume all bits affected, and no bits known zero. */
         ctx.a_mask = -1;
         ctx.z_mask = -1;
-- 
2.25.1

This "garbage" setting pre-dates the addition of the type
changing opcodes INDEX_op_ext_i32_i64, INDEX_op_extu_i32_i64,
and INDEX_op_extr{l,h}_i64_i32.

So now we have a definitive points at which to adjust z_mask
to eliminate such bits from the 32-bit operands.

Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
Reviewed-by: Luis Pires <luis.pires@eldorado.org.br>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/optimize.c | 35 ++++++++++++++++-------------------
 1 file changed, 16 insertions(+), 19 deletions(-)

diff --git a/tcg/optimize.c b/tcg/optimize.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/optimize.c
+++ b/tcg/optimize.c
@@ -XXX,XX +XXX,XX @@ static void init_ts_info(OptContext *ctx, TCGTemp *ts)
         ti->is_const = true;
         ti->val = ts->val;
         ti->z_mask = ts->val;
-        if (TCG_TARGET_REG_BITS > 32 && ts->type == TCG_TYPE_I32) {
-            /* High bits of a 32-bit quantity are garbage.  */
-            ti->z_mask |= ~0xffffffffull;
-        }
     } else {
         ti->is_const = false;
         ti->z_mask = -1;
@@ -XXX,XX +XXX,XX @@ static bool tcg_opt_gen_mov(OptContext *ctx, TCGOp *op, TCGArg dst, TCGArg src)
     TCGTemp *src_ts = arg_temp(src);
     TempOptInfo *di;
     TempOptInfo *si;
-    uint64_t z_mask;
     TCGOpcode new_op;
 
     if (ts_are_copies(dst_ts, src_ts)) {
@@ -XXX,XX +XXX,XX @@ static bool tcg_opt_gen_mov(OptContext *ctx, TCGOp *op, TCGArg dst, TCGArg src)
     op->args[0] = dst;
     op->args[1] = src;
 
-    z_mask = si->z_mask;
-    if (TCG_TARGET_REG_BITS > 32 && new_op == INDEX_op_mov_i32) {
-        /* High bits of the destination are now garbage.  */
-        z_mask |= ~0xffffffffull;
-    }
-    di->z_mask = z_mask;
+    di->z_mask = si->z_mask;
 
     if (src_ts->type == dst_ts->type) {
         TempOptInfo *ni = ts_info(si->next_copy);
@@ -XXX,XX +XXX,XX @@ static bool tcg_opt_gen_mov(OptContext *ctx, TCGOp *op, TCGArg dst, TCGArg src)
 static bool tcg_opt_gen_movi(OptContext *ctx, TCGOp *op,
                              TCGArg dst, uint64_t val)
 {
-    /* Convert movi to mov with constant temp. */
-    TCGTemp *tv = tcg_constant_internal(ctx->type, val);
+    TCGTemp *tv;
 
+    if (ctx->type == TCG_TYPE_I32) {
+        val = (int32_t)val;
+    }
+
+    /* Convert movi to mov with constant temp. */
+    tv = tcg_constant_internal(ctx->type, val);
     init_ts_info(ctx, tv);
     return tcg_opt_gen_mov(ctx, op, dst, temp_arg(tv));
 }
@@ -XXX,XX +XXX,XX @@ static bool fold_masks(OptContext *ctx, TCGOp *op)
     uint64_t z_mask = ctx->z_mask;
 
     /*
-     * 32-bit ops generate 32-bit results.  For the result is zero test
-     * below, we can ignore high bits, but for further optimizations we
-     * need to record that the high bits contain garbage.
+     * 32-bit ops generate 32-bit results, which for the purpose of
+     * simplifying tcg are sign-extended.  Certainly that's how we
+     * represent our constants elsewhere.  Note that the bits will
+     * be reset properly for a 64-bit value when encountering the
+     * type changing opcodes.
      */
     if (ctx->type == TCG_TYPE_I32) {
-        ctx->z_mask |= MAKE_64BIT_MASK(32, 32);
-        a_mask &= MAKE_64BIT_MASK(0, 32);
-        z_mask &= MAKE_64BIT_MASK(0, 32);
+        a_mask = (int32_t)a_mask;
+        z_mask = (int32_t)z_mask;
+        ctx->z_mask = z_mask;
     }
 
     if (z_mask == 0) {
-- 
2.25.1

Certain targets, like riscv, produce signed 32-bit results.
This can lead to lots of redundant extensions as values are
manipulated.

Begin by tracking only the obvious sign-extensions, and
converting them to simple copies when possible.

Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
Reviewed-by: Luis Pires <luis.pires@eldorado.org.br>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/optimize.c | 123 ++++++++++++++++++++++++++++++++++++++++---------
 1 file changed, 102 insertions(+), 21 deletions(-)

diff --git a/tcg/optimize.c b/tcg/optimize.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/optimize.c
+++ b/tcg/optimize.c
@@ -XXX,XX +XXX,XX @@ typedef struct TempOptInfo {
     TCGTemp *next_copy;
     uint64_t val;
     uint64_t z_mask;  /* mask bit is 0 if and only if value bit is 0 */
+    uint64_t s_mask;  /* a left-aligned mask of clrsb(value) bits. */
 } TempOptInfo;
 
 typedef struct OptContext {
@@ -XXX,XX +XXX,XX @@ typedef struct OptContext {
     /* In flight values from optimization. */
     uint64_t a_mask;  /* mask bit is 0 iff value identical to first input */
     uint64_t z_mask;  /* mask bit is 0 iff value bit is 0 */
+    uint64_t s_mask;  /* mask of clrsb(value) bits */
     TCGType type;
 } OptContext;
 
+/* Calculate the smask for a specific value. */
+static uint64_t smask_from_value(uint64_t value)
+{
+    int rep = clrsb64(value);
+    return ~(~0ull >> rep);
+}
+
+/*
+ * Calculate the smask for a given set of known-zeros.
+ * If there are lots of zeros on the left, we can consider the remainder
+ * an unsigned field, and thus the corresponding signed field is one bit
+ * larger.
+ */
+static uint64_t smask_from_zmask(uint64_t zmask)
+{
+    /*
+     * Only the 0 bits are significant for zmask, thus the msb itself
+     * must be zero, else we have no sign information.
+     */
+    int rep = clz64(zmask);
+    if (rep == 0) {
+        return 0;
+    }
+    rep -= 1;
+    return ~(~0ull >> rep);
+}
+
 static inline TempOptInfo *ts_info(TCGTemp *ts)
 {
     return ts->state_ptr;
@@ -XXX,XX +XXX,XX @@ static void reset_ts(TCGTemp *ts)
     ti->prev_copy = ts;
     ti->is_const = false;
     ti->z_mask = -1;
+    ti->s_mask = 0;
 }
 
 static void reset_temp(TCGArg arg)
@@ -XXX,XX +XXX,XX @@ static void init_ts_info(OptContext *ctx, TCGTemp *ts)
         ti->is_const = true;
         ti->val = ts->val;
         ti->z_mask = ts->val;
+        ti->s_mask = smask_from_value(ts->val);
     } else {
         ti->is_const = false;
         ti->z_mask = -1;
+        ti->s_mask = 0;
     }
 }
 
@@ -XXX,XX +XXX,XX @@ static bool tcg_opt_gen_mov(OptContext *ctx, TCGOp *op, TCGArg dst, TCGArg src)
     op->args[1] = src;
 
     di->z_mask = si->z_mask;
+    di->s_mask = si->s_mask;
 
     if (src_ts->type == dst_ts->type) {
         TempOptInfo *ni = ts_info(si->next_copy);
@@ -XXX,XX +XXX,XX @@ static void finish_folding(OptContext *ctx, TCGOp *op)
 
     nb_oargs = def->nb_oargs;
     for (i = 0; i < nb_oargs; i++) {
-        reset_temp(op->args[i]);
+        TCGTemp *ts = arg_temp(op->args[i]);
+        reset_ts(ts);
         /*
-         * Save the corresponding known-zero bits mask for the
+         * Save the corresponding known-zero/sign bits mask for the
          * first output argument (only one supported so far).
          */
         if (i == 0) {
-            arg_info(op->args[i])->z_mask = ctx->z_mask;
+            ts_info(ts)->z_mask = ctx->z_mask;
+            ts_info(ts)->s_mask = ctx->s_mask;
         }
     }
 }
@@ -XXX,XX +XXX,XX @@ static bool fold_masks(OptContext *ctx, TCGOp *op)
 {
     uint64_t a_mask = ctx->a_mask;
     uint64_t z_mask = ctx->z_mask;
+    uint64_t s_mask = ctx->s_mask;
 
     /*
      * 32-bit ops generate 32-bit results, which for the purpose of
@@ -XXX,XX +XXX,XX @@ static bool fold_masks(OptContext *ctx, TCGOp *op)
     if (ctx->type == TCG_TYPE_I32) {
         a_mask = (int32_t)a_mask;
         z_mask = (int32_t)z_mask;
+        s_mask |= MAKE_64BIT_MASK(32, 32);
         ctx->z_mask = z_mask;
+        ctx->s_mask = s_mask;
     }
 
     if (z_mask == 0) {
@@ -XXX,XX +XXX,XX @@ static bool fold_brcond2(OptContext *ctx, TCGOp *op)
 
 static bool fold_bswap(OptContext *ctx, TCGOp *op)
 {
-    uint64_t z_mask, sign;
+    uint64_t z_mask, s_mask, sign;
 
     if (arg_is_const(op->args[1])) {
         uint64_t t = arg_info(op->args[1])->val;
@@ -XXX,XX +XXX,XX @@ static bool fold_bswap(OptContext *ctx, TCGOp *op)
     }
 
     z_mask = arg_info(op->args[1])->z_mask;
+
     switch (op->opc) {
     case INDEX_op_bswap16_i32:
     case INDEX_op_bswap16_i64:
@@ -XXX,XX +XXX,XX @@ static bool fold_bswap(OptContext *ctx, TCGOp *op)
     default:
         g_assert_not_reached();
     }
+    s_mask = smask_from_zmask(z_mask);
 
     switch (op->args[2] & (TCG_BSWAP_OZ | TCG_BSWAP_OS)) {
     case TCG_BSWAP_OZ:
@@ -XXX,XX +XXX,XX @@ static bool fold_bswap(OptContext *ctx, TCGOp *op)
         /* If the sign bit may be 1, force all the bits above to 1. */
         if (z_mask & sign) {
             z_mask |= sign;
+            s_mask = sign << 1;
         }
         break;
     default:
         /* The high bits are undefined: force all bits above the sign to 1. */
         z_mask |= sign << 1;
+        s_mask = 0;
         break;
     }
     ctx->z_mask = z_mask;
+    ctx->s_mask = s_mask;
 
     return fold_masks(ctx, op);
 }
@@ -XXX,XX +XXX,XX @@ static bool fold_eqv(OptContext *ctx, TCGOp *op)
 static bool fold_extract(OptContext *ctx, TCGOp *op)
 {
     uint64_t z_mask_old, z_mask;
+    int pos = op->args[2];
+    int len = op->args[3];
 
     if (arg_is_const(op->args[1])) {
         uint64_t t;
 
         t = arg_info(op->args[1])->val;
-        t = extract64(t, op->args[2], op->args[3]);
+        t = extract64(t, pos, len);
         return tcg_opt_gen_movi(ctx, op, op->args[0], t);
     }
 
     z_mask_old = arg_info(op->args[1])->z_mask;
-    z_mask = extract64(z_mask_old, op->args[2], op->args[3]);
-    if (op->args[2] == 0) {
+    z_mask = extract64(z_mask_old, pos, len);
+    if (pos == 0) {
         ctx->a_mask = z_mask_old ^ z_mask;
     }
     ctx->z_mask = z_mask;
+    ctx->s_mask = smask_from_zmask(z_mask);
 
     return fold_masks(ctx, op);
 }
@@ -XXX,XX +XXX,XX @@ static bool fold_extract2(OptContext *ctx, TCGOp *op)
 
 static bool fold_exts(OptContext *ctx, TCGOp *op)
 {
-    uint64_t z_mask_old, z_mask, sign;
+    uint64_t s_mask_old, s_mask, z_mask, sign;
     bool type_change = false;
 
     if (fold_const1(ctx, op)) {
         return true;
     }
 
-    z_mask_old = z_mask = arg_info(op->args[1])->z_mask;
+    z_mask = arg_info(op->args[1])->z_mask;
+    s_mask = arg_info(op->args[1])->s_mask;
+    s_mask_old = s_mask;
 
     switch (op->opc) {
     CASE_OP_32_64(ext8s):
@@ -XXX,XX +XXX,XX @@ static bool fold_exts(OptContext *ctx, TCGOp *op)
 
     if (z_mask & sign) {
         z_mask |= sign;
-    } else if (!type_change) {
-        ctx->a_mask = z_mask_old ^ z_mask;
     }
+    s_mask |= sign << 1;
+
     ctx->z_mask = z_mask;
+    ctx->s_mask = s_mask;
+    if (!type_change) {
+        ctx->a_mask = s_mask & ~s_mask_old;
+    }
 
     return fold_masks(ctx, op);
 }
@@ -XXX,XX +XXX,XX @@ static bool fold_extu(OptContext *ctx, TCGOp *op)
     }
 
     ctx->z_mask = z_mask;
+    ctx->s_mask = smask_from_zmask(z_mask);
     if (!type_change) {
         ctx->a_mask = z_mask_old ^ z_mask;
     }
@@ -XXX,XX +XXX,XX @@ static bool fold_qemu_ld(OptContext *ctx, TCGOp *op)
     MemOp mop = get_memop(oi);
     int width = 8 * memop_size(mop);
 
-    if (!(mop & MO_SIGN) && width < 64) {
-        ctx->z_mask = MAKE_64BIT_MASK(0, width);
+    if (width < 64) {
+        ctx->s_mask = MAKE_64BIT_MASK(width, 64 - width);
+        if (!(mop & MO_SIGN)) {
+            ctx->z_mask = MAKE_64BIT_MASK(0, width);
+            ctx->s_mask <<= 1;
+        }
     }
 
     /* Opcodes that touch guest memory stop the mb optimization.  */
@@ -XXX,XX +XXX,XX @@ static bool fold_setcond2(OptContext *ctx, TCGOp *op)
 
 static bool fold_sextract(OptContext *ctx, TCGOp *op)
 {
-    int64_t z_mask_old, z_mask;
+    uint64_t z_mask, s_mask, s_mask_old;
+    int pos = op->args[2];
+    int len = op->args[3];
 
     if (arg_is_const(op->args[1])) {
         uint64_t t;
 
         t = arg_info(op->args[1])->val;
-        t = sextract64(t, op->args[2], op->args[3]);
+        t = sextract64(t, pos, len);
         return tcg_opt_gen_movi(ctx, op, op->args[0], t);
     }
 
-    z_mask_old = arg_info(op->args[1])->z_mask;
-    z_mask = sextract64(z_mask_old, op->args[2], op->args[3]);
-    if (op->args[2] == 0 && z_mask >= 0) {
-        ctx->a_mask = z_mask_old ^ z_mask;
-    }
+    z_mask = arg_info(op->args[1])->z_mask;
+    z_mask = sextract64(z_mask, pos, len);
     ctx->z_mask = z_mask;
 
+    s_mask_old = arg_info(op->args[1])->s_mask;
+    s_mask = sextract64(s_mask_old, pos, len);
+    s_mask |= MAKE_64BIT_MASK(len, 64 - len);
+    ctx->s_mask = s_mask;
+
+    if (pos == 0) {
+        ctx->a_mask = s_mask & ~s_mask_old;
+    }
+
     return fold_masks(ctx, op);
 }
 
@@ -XXX,XX +XXX,XX @@ static bool fold_tcg_ld(OptContext *ctx, TCGOp *op)
 {
     /* We can't do any folding with a load, but we can record bits. */
     switch (op->opc) {
+    CASE_OP_32_64(ld8s):
+        ctx->s_mask = MAKE_64BIT_MASK(8, 56);
+        break;
     CASE_OP_32_64(ld8u):
         ctx->z_mask = MAKE_64BIT_MASK(0, 8);
+        ctx->s_mask = MAKE_64BIT_MASK(9, 55);
+        break;
+    CASE_OP_32_64(ld16s):
+        ctx->s_mask = MAKE_64BIT_MASK(16, 48);
         break;
     CASE_OP_32_64(ld16u):
         ctx->z_mask = MAKE_64BIT_MASK(0, 16);
+        ctx->s_mask = MAKE_64BIT_MASK(17, 47);
+        break;
+    case INDEX_op_ld32s_i64:
+        ctx->s_mask = MAKE_64BIT_MASK(32, 32);
         break;
     case INDEX_op_ld32u_i64:
         ctx->z_mask = MAKE_64BIT_MASK(0, 32);
+        ctx->s_mask = MAKE_64BIT_MASK(33, 31);
         break;
     default:
         g_assert_not_reached();
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
             ctx.type = TCG_TYPE_I32;
         }
 
-        /* Assume all bits affected, and no bits known zero. */
+        /* Assume all bits affected, no bits known zero, no sign reps. */
         ctx.a_mask = -1;
         ctx.z_mask = -1;
+        ctx.s_mask = 0;
 
         /*
          * Process each opcode.
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
         case INDEX_op_extrh_i64_i32:
             done = fold_extu(&ctx, op);
             break;
+        CASE_OP_32_64(ld8s):
         CASE_OP_32_64(ld8u):
+        CASE_OP_32_64(ld16s):
         CASE_OP_32_64(ld16u):
+        case INDEX_op_ld32s_i64:
         case INDEX_op_ld32u_i64:
             done = fold_tcg_ld(&ctx, op);
             break;
-- 
2.25.1

Sign repetitions are perforce all identical, whether they are 1 or 0.
Bitwise operations preserve the relative quantity of the repetitions.

Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
Reviewed-by: Luis Pires <luis.pires@eldorado.org.br>
Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/optimize.c | 29 +++++++++++++++++++++++++++++
 1 file changed, 29 insertions(+)

diff --git a/tcg/optimize.c b/tcg/optimize.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/optimize.c
+++ b/tcg/optimize.c
@@ -XXX,XX +XXX,XX @@ static bool fold_and(OptContext *ctx, TCGOp *op)
     z2 = arg_info(op->args[2])->z_mask;
     ctx->z_mask = z1 & z2;
 
+    /*
+     * Sign repetitions are perforce all identical, whether they are 1 or 0.
+     * Bitwise operations preserve the relative quantity of the repetitions.
+     */
+    ctx->s_mask = arg_info(op->args[1])->s_mask
+                & arg_info(op->args[2])->s_mask;
+
     /*
      * Known-zeros does not imply known-ones.  Therefore unless
      * arg2 is constant, we can't infer affected bits from it.
@@ -XXX,XX +XXX,XX @@ static bool fold_andc(OptContext *ctx, TCGOp *op)
     }
     ctx->z_mask = z1;
 
+    ctx->s_mask = arg_info(op->args[1])->s_mask
+                & arg_info(op->args[2])->s_mask;
     return fold_masks(ctx, op);
 }
 
@@ -XXX,XX +XXX,XX @@ static bool fold_eqv(OptContext *ctx, TCGOp *op)
         fold_xi_to_not(ctx, op, 0)) {
         return true;
     }
+
+    ctx->s_mask = arg_info(op->args[1])->s_mask
+                & arg_info(op->args[2])->s_mask;
     return false;
 }
 
@@ -XXX,XX +XXX,XX @@ static bool fold_movcond(OptContext *ctx, TCGOp *op)
 
     ctx->z_mask = arg_info(op->args[3])->z_mask
                 | arg_info(op->args[4])->z_mask;
+    ctx->s_mask = arg_info(op->args[3])->s_mask
+                & arg_info(op->args[4])->s_mask;
 
     if (arg_is_const(op->args[3]) && arg_is_const(op->args[4])) {
         uint64_t tv = arg_info(op->args[3])->val;
@@ -XXX,XX +XXX,XX @@ static bool fold_nand(OptContext *ctx, TCGOp *op)
         fold_xi_to_not(ctx, op, -1)) {
         return true;
     }
+
+    ctx->s_mask = arg_info(op->args[1])->s_mask
+                & arg_info(op->args[2])->s_mask;
     return false;
 }
 
@@ -XXX,XX +XXX,XX @@ static bool fold_nor(OptContext *ctx, TCGOp *op)
         fold_xi_to_not(ctx, op, 0)) {
         return true;
     }
+
+    ctx->s_mask = arg_info(op->args[1])->s_mask
+                & arg_info(op->args[2])->s_mask;
     return false;
 }
 
@@ -XXX,XX +XXX,XX @@ static bool fold_not(OptContext *ctx, TCGOp *op)
         return true;
     }
 
+    ctx->s_mask = arg_info(op->args[1])->s_mask;
+
     /* Because of fold_to_not, we want to always return true, via finish. */
     finish_folding(ctx, op);
     return true;
@@ -XXX,XX +XXX,XX @@ static bool fold_or(OptContext *ctx, TCGOp *op)
 
     ctx->z_mask = arg_info(op->args[1])->z_mask
                 | arg_info(op->args[2])->z_mask;
+    ctx->s_mask = arg_info(op->args[1])->s_mask
+                & arg_info(op->args[2])->s_mask;
     return fold_masks(ctx, op);
 }
 
@@ -XXX,XX +XXX,XX @@ static bool fold_orc(OptContext *ctx, TCGOp *op)
         fold_ix_to_not(ctx, op, 0)) {
         return true;
     }
+
+    ctx->s_mask = arg_info(op->args[1])->s_mask
+                & arg_info(op->args[2])->s_mask;
     return false;
 }
 
@@ -XXX,XX +XXX,XX @@ static bool fold_xor(OptContext *ctx, TCGOp *op)
 
     ctx->z_mask = arg_info(op->args[1])->z_mask
                 | arg_info(op->args[2])->z_mask;
+    ctx->s_mask = arg_info(op->args[1])->s_mask
+                & arg_info(op->args[2])->s_mask;
     return fold_masks(ctx, op);
 }
 
-- 
2.25.1

For constant shifts, we can simply shift the s_mask.

For variable shifts, we know that sar does not reduce
the s_mask, which helps for sequences like

ext32s_i64  t, in
    sar_i64     t, t, v
    ext32s_i64  out, t

allowing the final extend to be eliminated.

Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
Reviewed-by: Luis Pires <luis.pires@eldorado.org.br>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/optimize.c | 50 +++++++++++++++++++++++++++++++++++++++++++++++---
 1 file changed, 47 insertions(+), 3 deletions(-)

diff --git a/tcg/optimize.c b/tcg/optimize.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/optimize.c
+++ b/tcg/optimize.c
@@ -XXX,XX +XXX,XX @@ static uint64_t smask_from_zmask(uint64_t zmask)
     return ~(~0ull >> rep);
 }
 
+/*
+ * Recreate a properly left-aligned smask after manipulation.
+ * Some bit-shuffling, particularly shifts and rotates, may
+ * retain sign bits on the left, but may scatter disconnected
+ * sign bits on the right.  Retain only what remains to the left.
+ */
+static uint64_t smask_from_smask(int64_t smask)
+{
+    /* Only the 1 bits are significant for smask */
+    return smask_from_zmask(~smask);
+}
+
 static inline TempOptInfo *ts_info(TCGTemp *ts)
 {
     return ts->state_ptr;
@@ -XXX,XX +XXX,XX @@ static bool fold_sextract(OptContext *ctx, TCGOp *op)
 
 static bool fold_shift(OptContext *ctx, TCGOp *op)
 {
+    uint64_t s_mask, z_mask, sign;
+
     if (fold_const2(ctx, op) ||
         fold_ix_to_i(ctx, op, 0) ||
         fold_xi_to_x(ctx, op, 0)) {
         return true;
     }
 
+    s_mask = arg_info(op->args[1])->s_mask;
+    z_mask = arg_info(op->args[1])->z_mask;
+
     if (arg_is_const(op->args[2])) {
-        ctx->z_mask = do_constant_folding(op->opc, ctx->type,
-                                          arg_info(op->args[1])->z_mask,
-                                          arg_info(op->args[2])->val);
+        int sh = arg_info(op->args[2])->val;
+
+        ctx->z_mask = do_constant_folding(op->opc, ctx->type, z_mask, sh);
+
+        s_mask = do_constant_folding(op->opc, ctx->type, s_mask, sh);
+        ctx->s_mask = smask_from_smask(s_mask);
+
         return fold_masks(ctx, op);
     }
+
+    switch (op->opc) {
+    CASE_OP_32_64(sar):
+        /*
+         * Arithmetic right shift will not reduce the number of
+         * input sign repetitions.
+         */
+        ctx->s_mask = s_mask;
+        break;
+    CASE_OP_32_64(shr):
+        /*
+         * If the sign bit is known zero, then logical right shift
+         * will not reduced the number of input sign repetitions.
+         */
+        sign = (s_mask & -s_mask) >> 1;
+        if (!(z_mask & sign)) {
+            ctx->s_mask = s_mask;
+        }
+        break;
+    default:
+        break;
+    }
+
     return false;
 }
 
-- 
2.25.1

The following changes since commit d530697ca20e19f7a626f4c1c8b26fccd0dc4470:

Merge tag 'pull-testing-updates-100523-1' of https://gitlab.com/stsquad/qemu into staging (2023-05-10 16:43:01 +0100)

are available in the Git repository at:

https://gitlab.com/rth7680/qemu.git tags/pull-tcg-20230511

for you to fetch changes up to b2d4d6616c22325dff802e0a35092167f2dc2268:

target/loongarch: Do not include tcg-ldst.h (2023-05-11 06:06:04 +0100)

----------------------------------------------------------------
target/m68k: Fix gen_load_fp regression
accel/tcg: Ensure fairness with icount
disas: Move disas.c into the target-independent source sets
tcg: Use common routines for calling slow path helpers
tcg/*: Cleanups to qemu_ld/st constraints
tcg: Remove TARGET_ALIGNED_ONLY
accel/tcg: Reorg system mode load/store helpers

----------------------------------------------------------------
Jamie Iles (2):
      cpu: expose qemu_cpu_list_lock for lock-guard use
      accel/tcg/tcg-accel-ops-rr: ensure fairness with icount

Richard Henderson (49):
      target/m68k: Fix gen_load_fp for OS_LONG
      accel/tcg: Fix atomic_mmu_lookup for reads
      disas: Fix tabs and braces in disas.c
      disas: Move disas.c to disas/
      disas: Remove target_ulong from the interface
      disas: Remove target-specific headers
      tcg/i386: Introduce prepare_host_addr
      tcg/i386: Use indexed addressing for softmmu fast path
      tcg/aarch64: Introduce prepare_host_addr
      tcg/arm: Introduce prepare_host_addr
      tcg/loongarch64: Introduce prepare_host_addr
      tcg/mips: Introduce prepare_host_addr
      tcg/ppc: Introduce prepare_host_addr
      tcg/riscv: Introduce prepare_host_addr
      tcg/s390x: Introduce prepare_host_addr
      tcg: Add routines for calling slow-path helpers
      tcg/i386: Convert tcg_out_qemu_ld_slow_path
      tcg/i386: Convert tcg_out_qemu_st_slow_path
      tcg/aarch64: Convert tcg_out_qemu_{ld,st}_slow_path
      tcg/arm: Convert tcg_out_qemu_{ld,st}_slow_path
      tcg/loongarch64: Convert tcg_out_qemu_{ld,st}_slow_path
      tcg/mips: Convert tcg_out_qemu_{ld,st}_slow_path
      tcg/ppc: Convert tcg_out_qemu_{ld,st}_slow_path
      tcg/riscv: Convert tcg_out_qemu_{ld,st}_slow_path
      tcg/s390x: Convert tcg_out_qemu_{ld,st}_slow_path
      tcg/loongarch64: Simplify constraints on qemu_ld/st
      tcg/mips: Remove MO_BSWAP handling
      tcg/mips: Reorg tlb load within prepare_host_addr
      tcg/mips: Simplify constraints on qemu_ld/st
      tcg/ppc: Reorg tcg_out_tlb_read
      tcg/ppc: Adjust constraints on qemu_ld/st
      tcg/ppc: Remove unused constraints A, B, C, D
      tcg/ppc: Remove unused constraint J
      tcg/riscv: Simplify constraints on qemu_ld/st
      tcg/s390x: Use ALGFR in constructing softmmu host address
      tcg/s390x: Simplify constraints on qemu_ld/st
      target/mips: Add MO_ALIGN to gen_llwp, gen_scwp
      target/mips: Add missing default_tcg_memop_mask
      target/mips: Use MO_ALIGN instead of 0
      target/mips: Remove TARGET_ALIGNED_ONLY
      target/nios2: Remove TARGET_ALIGNED_ONLY
      target/sh4: Use MO_ALIGN where required
      target/sh4: Remove TARGET_ALIGNED_ONLY
      tcg: Remove TARGET_ALIGNED_ONLY
      accel/tcg: Add cpu_in_serial_context
      accel/tcg: Introduce tlb_read_idx
      accel/tcg: Reorg system mode load helpers
      accel/tcg: Reorg system mode store helpers
      target/loongarch: Do not include tcg-ldst.h

Thomas Huth (2):
      disas: Move softmmu specific code to separate file
      disas: Move disas.c into the target-independent source set

A copy-paste bug had us looking at the victim cache for writes.

Cc: qemu-stable@nongnu.org
Reported-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Fixes: 08dff435e2 ("tcg: Probe the proper permissions for atomic ops")
Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Message-Id: <20230505204049.352469-1-richard.henderson@linaro.org>
---
 accel/tcg/cputlb.c | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/accel/tcg/cputlb.c b/accel/tcg/cputlb.c
index XXXXXXX..XXXXXXX 100644
--- a/accel/tcg/cputlb.c
+++ b/accel/tcg/cputlb.c
@@ -XXX,XX +XXX,XX @@ static void *atomic_mmu_lookup(CPUArchState *env, target_ulong addr,
     } else /* if (prot & PAGE_READ) */ {
         tlb_addr = tlbe->addr_read;
         if (!tlb_hit(tlb_addr, addr)) {
-            if (!VICTIM_TLB_HIT(addr_write, addr)) {
+            if (!VICTIM_TLB_HIT(addr_read, addr)) {
                 tlb_fill(env_cpu(env), addr, size,
                          MMU_DATA_LOAD, mmu_idx, retaddr);
                 index = tlb_index(env, mmu_idx, addr);
-- 
2.34.1

Fix these before moving the file, for checkpatch.pl.

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-Id: <20230510170812.663149-1-richard.henderson@linaro.org>
---
 disas.c | 11 ++++++-----
 1 file changed, 6 insertions(+), 5 deletions(-)

diff --git a/disas.c b/disas.c
index XXXXXXX..XXXXXXX 100644
--- a/disas.c
+++ b/disas.c
@@ -XXX,XX +XXX,XX @@ void target_disas(FILE *out, CPUState *cpu, target_ulong code,
     }
 
     for (pc = code; size > 0; pc += count, size -= count) {
-	fprintf(out, "0x" TARGET_FMT_lx ":  ", pc);
-	count = s.info.print_insn(pc, &s.info);
-	fprintf(out, "\n");
-	if (count < 0)
-	    break;
+        fprintf(out, "0x" TARGET_FMT_lx ":  ", pc);
+        count = s.info.print_insn(pc, &s.info);
+        fprintf(out, "\n");
+        if (count < 0) {
+            break;
+        }
         if (size < count) {
             fprintf(out,
                     "Disassembler disagrees with translator over instruction "
-- 
2.34.1

Reviewed-by: Thomas Huth <thuth@redhat.com>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-Id: <20230503072331.1747057-80-richard.henderson@linaro.org>
---
 meson.build              | 3 ---
 disas.c => disas/disas.c | 0
 disas/meson.build        | 4 +++-
 3 files changed, 3 insertions(+), 4 deletions(-)
 rename disas.c => disas/disas.c (100%)

diff --git a/meson.build b/meson.build
index XXXXXXX..XXXXXXX 100644
--- a/meson.build
+++ b/meson.build
@@ -XXX,XX +XXX,XX @@ specific_ss.add(files('cpu.c'))
 
 subdir('softmmu')
 
-common_ss.add(capstone)
-specific_ss.add(files('disas.c'), capstone)
-
 # Work around a gcc bug/misfeature wherein constant propagation looks
 # through an alias:
 #   https://gcc.gnu.org/bugzilla/show_bug.cgi?id=99696
diff --git a/disas.c b/disas/disas.c
similarity index 100%
rename from disas.c
rename to disas/disas.c
diff --git a/disas/meson.build b/disas/meson.build
index XXXXXXX..XXXXXXX 100644
--- a/disas/meson.build
+++ b/disas/meson.build
@@ -XXX,XX +XXX,XX @@ common_ss.add(when: 'CONFIG_RISCV_DIS', if_true: files('riscv.c'))
 common_ss.add(when: 'CONFIG_SH4_DIS', if_true: files('sh4.c'))
 common_ss.add(when: 'CONFIG_SPARC_DIS', if_true: files('sparc.c'))
 common_ss.add(when: 'CONFIG_XTENSA_DIS', if_true: files('xtensa.c'))
-common_ss.add(when: capstone, if_true: files('capstone.c'))
+common_ss.add(when: capstone, if_true: [files('capstone.c'), capstone])
+
+specific_ss.add(files('disas.c'), capstone)
-- 
2.34.1

Use uint64_t for the pc, and size_t for the size.

Reviewed-by: Thomas Huth <thuth@redhat.com>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-Id: <20230503072331.1747057-81-richard.henderson@linaro.org>
---
 include/disas/disas.h | 17 ++++++-----------
 bsd-user/elfload.c    |  5 +++--
 disas/disas.c         | 19 +++++++++----------
 linux-user/elfload.c  |  5 +++--
 4 files changed, 21 insertions(+), 25 deletions(-)

diff --git a/include/disas/disas.h b/include/disas/disas.h
index XXXXXXX..XXXXXXX 100644
--- a/include/disas/disas.h
+++ b/include/disas/disas.h
@@ -XXX,XX +XXX,XX @@
 #include "cpu.h"
 
 /* Disassemble this for me please... (debugging). */
-void disas(FILE *out, const void *code, unsigned long size);
-void target_disas(FILE *out, CPUState *cpu, target_ulong code,
-                  target_ulong size);
+void disas(FILE *out, const void *code, size_t size);
+void target_disas(FILE *out, CPUState *cpu, uint64_t code, size_t size);
 
-void monitor_disas(Monitor *mon, CPUState *cpu,
-                   target_ulong pc, int nb_insn, int is_physical);
+void monitor_disas(Monitor *mon, CPUState *cpu, uint64_t pc,
+                   int nb_insn, bool is_physical);
 
 char *plugin_disas(CPUState *cpu, uint64_t addr, size_t size);
 
 /* Look up symbol for debugging purpose.  Returns "" if unknown. */
-const char *lookup_symbol(target_ulong orig_addr);
+const char *lookup_symbol(uint64_t orig_addr);
 #endif
 
 struct syminfo;
 struct elf32_sym;
 struct elf64_sym;
 
-#if defined(CONFIG_USER_ONLY)
-typedef const char *(*lookup_symbol_t)(struct syminfo *s, target_ulong orig_addr);
-#else
-typedef const char *(*lookup_symbol_t)(struct syminfo *s, hwaddr orig_addr);
-#endif
+typedef const char *(*lookup_symbol_t)(struct syminfo *s, uint64_t orig_addr);
 
 struct syminfo {
     lookup_symbol_t lookup_symbol;
diff --git a/bsd-user/elfload.c b/bsd-user/elfload.c
index XXXXXXX..XXXXXXX 100644
--- a/bsd-user/elfload.c
+++ b/bsd-user/elfload.c
@@ -XXX,XX +XXX,XX @@ static abi_ulong load_elf_interp(struct elfhdr *interp_elf_ex,
 
 static int symfind(const void *s0, const void *s1)
 {
-    target_ulong addr = *(target_ulong *)s0;
+    __typeof(sym->st_value) addr = *(uint64_t *)s0;
     struct elf_sym *sym = (struct elf_sym *)s1;
     int result = 0;
+
     if (addr < sym->st_value) {
         result = -1;
     } else if (addr >= sym->st_value + sym->st_size) {
@@ -XXX,XX +XXX,XX @@ static int symfind(const void *s0, const void *s1)
     return result;
 }
 
-static const char *lookup_symbolxx(struct syminfo *s, target_ulong orig_addr)
+static const char *lookup_symbolxx(struct syminfo *s, uint64_t orig_addr)
 {
 #if ELF_CLASS == ELFCLASS32
     struct elf_sym *syms = s->disas_symtab.elf32;
diff --git a/disas/disas.c b/disas/disas.c
index XXXXXXX..XXXXXXX 100644
--- a/disas/disas.c
+++ b/disas/disas.c
@@ -XXX,XX +XXX,XX @@ static void initialize_debug_host(CPUDebug *s)
 }
 
 /* Disassemble this for me please... (debugging).  */
-void target_disas(FILE *out, CPUState *cpu, target_ulong code,
-                  target_ulong size)
+void target_disas(FILE *out, CPUState *cpu, uint64_t code, size_t size)
 {
-    target_ulong pc;
+    uint64_t pc;
     int count;
     CPUDebug s;
 
@@ -XXX,XX +XXX,XX @@ void target_disas(FILE *out, CPUState *cpu, target_ulong code,
     }
 
     for (pc = code; size > 0; pc += count, size -= count) {
-        fprintf(out, "0x" TARGET_FMT_lx ":  ", pc);
+        fprintf(out, "0x%08" PRIx64 ":  ", pc);
         count = s.info.print_insn(pc, &s.info);
         fprintf(out, "\n");
         if (count < 0) {
@@ -XXX,XX +XXX,XX @@ char *plugin_disas(CPUState *cpu, uint64_t addr, size_t size)
 }
 
 /* Disassemble this for me please... (debugging). */
-void disas(FILE *out, const void *code, unsigned long size)
+void disas(FILE *out, const void *code, size_t size)
 {
     uintptr_t pc;
     int count;
@@ -XXX,XX +XXX,XX @@ void disas(FILE *out, const void *code, unsigned long size)
 }
 
 /* Look up symbol for debugging purpose.  Returns "" if unknown. */
-const char *lookup_symbol(target_ulong orig_addr)
+const char *lookup_symbol(uint64_t orig_addr)
 {
     const char *symbol = "";
     struct syminfo *s;
@@ -XXX,XX +XXX,XX @@ physical_read_memory(bfd_vma memaddr, bfd_byte *myaddr, int length,
 }
 
 /* Disassembler for the monitor.  */
-void monitor_disas(Monitor *mon, CPUState *cpu,
-                   target_ulong pc, int nb_insn, int is_physical)
+void monitor_disas(Monitor *mon, CPUState *cpu, uint64_t pc,
+                   int nb_insn, bool is_physical)
 {
     int count, i;
     CPUDebug s;
@@ -XXX,XX +XXX,XX @@ void monitor_disas(Monitor *mon, CPUState *cpu,
     }
 
     if (!s.info.print_insn) {
-        monitor_printf(mon, "0x" TARGET_FMT_lx
+        monitor_printf(mon, "0x%08" PRIx64
                        ": Asm output not supported on this arch\n", pc);
         return;
     }
 
     for (i = 0; i < nb_insn; i++) {
-        g_string_append_printf(ds, "0x" TARGET_FMT_lx ":  ", pc);
+        g_string_append_printf(ds, "0x%08" PRIx64 ":  ", pc);
         count = s.info.print_insn(pc, &s.info);
         g_string_append_c(ds, '\n');
         if (count < 0) {
diff --git a/linux-user/elfload.c b/linux-user/elfload.c
index XXXXXXX..XXXXXXX 100644
--- a/linux-user/elfload.c
+++ b/linux-user/elfload.c
@@ -XXX,XX +XXX,XX @@ static void load_elf_interp(const char *filename, struct image_info *info,
 
 static int symfind(const void *s0, const void *s1)
 {
-    target_ulong addr = *(target_ulong *)s0;
     struct elf_sym *sym = (struct elf_sym *)s1;
+    __typeof(sym->st_value) addr = *(uint64_t *)s0;
     int result = 0;
+
     if (addr < sym->st_value) {
         result = -1;
     } else if (addr >= sym->st_value + sym->st_size) {
@@ -XXX,XX +XXX,XX @@ static int symfind(const void *s0, const void *s1)
     return result;
 }
 
-static const char *lookup_symbolxx(struct syminfo *s, target_ulong orig_addr)
+static const char *lookup_symbolxx(struct syminfo *s, uint64_t orig_addr)
 {
 #if ELF_CLASS == ELFCLASS32
     struct elf_sym *syms = s->disas_symtab.elf32;
-- 
2.34.1

Reviewed-by: Thomas Huth <thuth@redhat.com>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-Id: <20230503072331.1747057-83-richard.henderson@linaro.org>
---
 include/disas/disas.h | 6 ------
 disas/disas.c         | 3 ++-
 2 files changed, 2 insertions(+), 7 deletions(-)

diff --git a/include/disas/disas.h b/include/disas/disas.h
index XXXXXXX..XXXXXXX 100644
--- a/include/disas/disas.h
+++ b/include/disas/disas.h
@@ -XXX,XX +XXX,XX @@
 #ifndef QEMU_DISAS_H
 #define QEMU_DISAS_H
 
-#include "exec/hwaddr.h"
-
-#ifdef NEED_CPU_H
-#include "cpu.h"
-
 /* Disassemble this for me please... (debugging). */
 void disas(FILE *out, const void *code, size_t size);
 void target_disas(FILE *out, CPUState *cpu, uint64_t code, size_t size);
@@ -XXX,XX +XXX,XX @@ char *plugin_disas(CPUState *cpu, uint64_t addr, size_t size);
 
 /* Look up symbol for debugging purpose.  Returns "" if unknown. */
 const char *lookup_symbol(uint64_t orig_addr);
-#endif
 
 struct syminfo;
 struct elf32_sym;
diff --git a/disas/disas.c b/disas/disas.c
index XXXXXXX..XXXXXXX 100644
--- a/disas/disas.c
+++ b/disas/disas.c
@@ -XXX,XX +XXX,XX @@
 #include "disas/dis-asm.h"
 #include "elf.h"
 #include "qemu/qemu-print.h"
-
 #include "disas/disas.h"
 #include "disas/capstone.h"
+#include "hw/core/cpu.h"
+#include "exec/memory.h"
 
 typedef struct CPUDebug {
     struct disassemble_info info;
-- 
2.34.1

From: Thomas Huth <thuth@redhat.com>

We'd like to move disas.c into the common code source set, where
CONFIG_USER_ONLY is not available anymore. So we have to move
the related code into a separate file instead.

Signed-off-by: Thomas Huth <thuth@redhat.com>
Message-Id: <20230508133745.109463-2-thuth@redhat.com>
[rth: Type change done in a separate patch]
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 disas/disas-internal.h | 21 ++++++++++++
 disas/disas-mon.c      | 65 ++++++++++++++++++++++++++++++++++++
 disas/disas.c          | 76 ++++--------------------------------------
 disas/meson.build      |  1 +
 4 files changed, 93 insertions(+), 70 deletions(-)
 create mode 100644 disas/disas-internal.h
 create mode 100644 disas/disas-mon.c

diff --git a/disas/disas-internal.h b/disas/disas-internal.h
new file mode 100644
index XXXXXXX..XXXXXXX
--- /dev/null
+++ b/disas/disas-internal.h
@@ -XXX,XX +XXX,XX @@
+/*
+ * Definitions used internally in the disassembly code
+ *
+ * SPDX-License-Identifier: GPL-2.0-or-later
+ */
+
+#ifndef DISAS_INTERNAL_H
+#define DISAS_INTERNAL_H
+
+#include "disas/dis-asm.h"
+
+typedef struct CPUDebug {
+    struct disassemble_info info;
+    CPUState *cpu;
+} CPUDebug;
+
+void disas_initialize_debug_target(CPUDebug *s, CPUState *cpu);
+int disas_gstring_printf(FILE *stream, const char *fmt, ...)
+    G_GNUC_PRINTF(2, 3);
+
+#endif
diff --git a/disas/disas-mon.c b/disas/disas-mon.c
new file mode 100644
index XXXXXXX..XXXXXXX
--- /dev/null
+++ b/disas/disas-mon.c
@@ -XXX,XX +XXX,XX @@
+/*
+ * Functions related to disassembly from the monitor
+ *
+ * SPDX-License-Identifier: GPL-2.0-or-later
+ */
+
+#include "qemu/osdep.h"
+#include "disas-internal.h"
+#include "disas/disas.h"
+#include "exec/memory.h"
+#include "hw/core/cpu.h"
+#include "monitor/monitor.h"
+
+static int
+physical_read_memory(bfd_vma memaddr, bfd_byte *myaddr, int length,
+                     struct disassemble_info *info)
+{
+    CPUDebug *s = container_of(info, CPUDebug, info);
+    MemTxResult res;
+
+    res = address_space_read(s->cpu->as, memaddr, MEMTXATTRS_UNSPECIFIED,
+                             myaddr, length);
+    return res == MEMTX_OK ? 0 : EIO;
+}
+
+/* Disassembler for the monitor.  */
+void monitor_disas(Monitor *mon, CPUState *cpu, uint64_t pc,
+                   int nb_insn, bool is_physical)
+{
+    int count, i;
+    CPUDebug s;
+    g_autoptr(GString) ds = g_string_new("");
+
+    disas_initialize_debug_target(&s, cpu);
+    s.info.fprintf_func = disas_gstring_printf;
+    s.info.stream = (FILE *)ds;  /* abuse this slot */
+
+    if (is_physical) {
+        s.info.read_memory_func = physical_read_memory;
+    }
+    s.info.buffer_vma = pc;
+
+    if (s.info.cap_arch >= 0 && cap_disas_monitor(&s.info, pc, nb_insn)) {
+        monitor_puts(mon, ds->str);
+        return;
+    }
+
+    if (!s.info.print_insn) {
+        monitor_printf(mon, "0x%08" PRIx64
+                       ": Asm output not supported on this arch\n", pc);
+        return;
+    }
+
+    for (i = 0; i < nb_insn; i++) {
+        g_string_append_printf(ds, "0x%08" PRIx64 ":  ", pc);
+        count = s.info.print_insn(pc, &s.info);
+        g_string_append_c(ds, '\n');
+        if (count < 0) {
+            break;
+        }
+        pc += count;
+    }
+
+    monitor_puts(mon, ds->str);
+}
diff --git a/disas/disas.c b/disas/disas.c
index XXXXXXX..XXXXXXX 100644
--- a/disas/disas.c
+++ b/disas/disas.c
@@ -XXX,XX +XXX,XX @@
 /* General "disassemble this chunk" code.  Used for debugging. */
 #include "qemu/osdep.h"
-#include "disas/dis-asm.h"
+#include "disas/disas-internal.h"
 #include "elf.h"
 #include "qemu/qemu-print.h"
 #include "disas/disas.h"
@@ -XXX,XX +XXX,XX @@
 #include "hw/core/cpu.h"
 #include "exec/memory.h"
 
-typedef struct CPUDebug {
-    struct disassemble_info info;
-    CPUState *cpu;
-} CPUDebug;
-
 /* Filled in by elfload.c.  Simplistic, but will do for now. */
 struct syminfo *syminfos = NULL;
 
@@ -XXX,XX +XXX,XX @@ static void initialize_debug(CPUDebug *s)
     s->info.symbol_at_address_func = symbol_at_address;
 }
 
-static void initialize_debug_target(CPUDebug *s, CPUState *cpu)
+void disas_initialize_debug_target(CPUDebug *s, CPUState *cpu)
 {
     initialize_debug(s);
 
@@ -XXX,XX +XXX,XX @@ void target_disas(FILE *out, CPUState *cpu, uint64_t code, size_t size)
     int count;
     CPUDebug s;
 
-    initialize_debug_target(&s, cpu);
+    disas_initialize_debug_target(&s, cpu);
     s.info.fprintf_func = fprintf;
     s.info.stream = out;
     s.info.buffer_vma = code;
@@ -XXX,XX +XXX,XX @@ void target_disas(FILE *out, CPUState *cpu, uint64_t code, size_t size)
     }
 }
 
-static int G_GNUC_PRINTF(2, 3)
-gstring_printf(FILE *stream, const char *fmt, ...)
+int disas_gstring_printf(FILE *stream, const char *fmt, ...)
 {
     /* We abuse the FILE parameter to pass a GString. */
     GString *s = (GString *)stream;
@@ -XXX,XX +XXX,XX @@ char *plugin_disas(CPUState *cpu, uint64_t addr, size_t size)
     CPUDebug s;
     GString *ds = g_string_new(NULL);
 
-    initialize_debug_target(&s, cpu);
-    s.info.fprintf_func = gstring_printf;
+    disas_initialize_debug_target(&s, cpu);
+    s.info.fprintf_func = disas_gstring_printf;
     s.info.stream = (FILE *)ds;  /* abuse this slot */
     s.info.buffer_vma = addr;
     s.info.buffer_length = size;
@@ -XXX,XX +XXX,XX @@ const char *lookup_symbol(uint64_t orig_addr)
 
     return symbol;
 }
-
-#if !defined(CONFIG_USER_ONLY)
-
-#include "monitor/monitor.h"
-
-static int
-physical_read_memory(bfd_vma memaddr, bfd_byte *myaddr, int length,
-                     struct disassemble_info *info)
-{
-    CPUDebug *s = container_of(info, CPUDebug, info);
-    MemTxResult res;
-
-    res = address_space_read(s->cpu->as, memaddr, MEMTXATTRS_UNSPECIFIED,
-                             myaddr, length);
-    return res == MEMTX_OK ? 0 : EIO;
-}
-
-/* Disassembler for the monitor.  */
-void monitor_disas(Monitor *mon, CPUState *cpu, uint64_t pc,
-                   int nb_insn, bool is_physical)
-{
-    int count, i;
-    CPUDebug s;
-    g_autoptr(GString) ds = g_string_new("");
-
-    initialize_debug_target(&s, cpu);
-    s.info.fprintf_func = gstring_printf;
-    s.info.stream = (FILE *)ds;  /* abuse this slot */
-
-    if (is_physical) {
-        s.info.read_memory_func = physical_read_memory;
-    }
-    s.info.buffer_vma = pc;
-
-    if (s.info.cap_arch >= 0 && cap_disas_monitor(&s.info, pc, nb_insn)) {
-        monitor_puts(mon, ds->str);
-        return;
-    }
-
-    if (!s.info.print_insn) {
-        monitor_printf(mon, "0x%08" PRIx64
-                       ": Asm output not supported on this arch\n", pc);
-        return;
-    }
-
-    for (i = 0; i < nb_insn; i++) {
-        g_string_append_printf(ds, "0x%08" PRIx64 ":  ", pc);
-        count = s.info.print_insn(pc, &s.info);
-        g_string_append_c(ds, '\n');
-        if (count < 0) {
-            break;
-        }
-        pc += count;
-    }
-
-    monitor_puts(mon, ds->str);
-}
-#endif
diff --git a/disas/meson.build b/disas/meson.build
index XXXXXXX..XXXXXXX 100644
--- a/disas/meson.build
+++ b/disas/meson.build
@@ -XXX,XX +XXX,XX @@ common_ss.add(when: 'CONFIG_SPARC_DIS', if_true: files('sparc.c'))
 common_ss.add(when: 'CONFIG_XTENSA_DIS', if_true: files('xtensa.c'))
 common_ss.add(when: capstone, if_true: [files('capstone.c'), capstone])
 
+softmmu_ss.add(files('disas-mon.c'))
 specific_ss.add(files('disas.c'), capstone)
-- 
2.34.1

From: Thomas Huth <thuth@redhat.com>

By using target_words_bigendian() instead of an ifdef,
we can build this code once.

Signed-off-by: Thomas Huth <thuth@redhat.com>
Message-Id: <20230508133745.109463-3-thuth@redhat.com>
[rth: Type change done in a separate patch]
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 disas/disas.c     | 10 +++++-----
 disas/meson.build |  3 ++-
 2 files changed, 7 insertions(+), 6 deletions(-)

diff --git a/disas/disas.c b/disas/disas.c
index XXXXXXX..XXXXXXX 100644
--- a/disas/disas.c
+++ b/disas/disas.c
@@ -XXX,XX +XXX,XX @@ void disas_initialize_debug_target(CPUDebug *s, CPUState *cpu)
     s->cpu = cpu;
     s->info.read_memory_func = target_read_memory;
     s->info.print_address_func = print_address;
-#if TARGET_BIG_ENDIAN
-    s->info.endian = BFD_ENDIAN_BIG;
-#else
-    s->info.endian = BFD_ENDIAN_LITTLE;
-#endif
+    if (target_words_bigendian()) {
+        s->info.endian = BFD_ENDIAN_BIG;
+    } else {
+        s->info.endian =  BFD_ENDIAN_LITTLE;
+    }
 
     CPUClass *cc = CPU_GET_CLASS(cpu);
     if (cc->disas_set_info) {
diff --git a/disas/meson.build b/disas/meson.build
index XXXXXXX..XXXXXXX 100644
--- a/disas/meson.build
+++ b/disas/meson.build
@@ -XXX,XX +XXX,XX @@ common_ss.add(when: 'CONFIG_SH4_DIS', if_true: files('sh4.c'))
 common_ss.add(when: 'CONFIG_SPARC_DIS', if_true: files('sparc.c'))
 common_ss.add(when: 'CONFIG_XTENSA_DIS', if_true: files('xtensa.c'))
 common_ss.add(when: capstone, if_true: [files('capstone.c'), capstone])
+common_ss.add(files('disas.c'))
 
 softmmu_ss.add(files('disas-mon.c'))
-specific_ss.add(files('disas.c'), capstone)
+specific_ss.add(capstone)
-- 
2.34.1

From: Jamie Iles <quic_jiles@quicinc.com>

Expose qemu_cpu_list_lock globally so that we can use
WITH_QEMU_LOCK_GUARD and QEMU_LOCK_GUARD to simplify a few code paths
now and in future.

Signed-off-by: Jamie Iles <quic_jiles@quicinc.com>
Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-Id: <20230427020925.51003-2-quic_jiles@quicinc.com>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 include/exec/cpu-common.h |  1 +
 cpus-common.c             |  2 +-
 linux-user/elfload.c      | 13 +++++++------
 migration/dirtyrate.c     | 26 +++++++++++++-------------
 trace/control-target.c    |  9 ++++-----
 5 files changed, 26 insertions(+), 25 deletions(-)

diff --git a/include/exec/cpu-common.h b/include/exec/cpu-common.h
index XXXXXXX..XXXXXXX 100644
--- a/include/exec/cpu-common.h
+++ b/include/exec/cpu-common.h
@@ -XXX,XX +XXX,XX @@ extern intptr_t qemu_host_page_mask;
 #define REAL_HOST_PAGE_ALIGN(addr) ROUND_UP((addr), qemu_real_host_page_size())
 
 /* The CPU list lock nests outside page_(un)lock or mmap_(un)lock */
+extern QemuMutex qemu_cpu_list_lock;
 void qemu_init_cpu_list(void);
 void cpu_list_lock(void);
 void cpu_list_unlock(void);
diff --git a/cpus-common.c b/cpus-common.c
index XXXXXXX..XXXXXXX 100644
--- a/cpus-common.c
+++ b/cpus-common.c
@@ -XXX,XX +XXX,XX @@
 #include "qemu/lockable.h"
 #include "trace/trace-root.h"
 
-static QemuMutex qemu_cpu_list_lock;
+QemuMutex qemu_cpu_list_lock;
 static QemuCond exclusive_cond;
 static QemuCond exclusive_resume;
 static QemuCond qemu_work_cond;
diff --git a/linux-user/elfload.c b/linux-user/elfload.c
index XXXXXXX..XXXXXXX 100644
--- a/linux-user/elfload.c
+++ b/linux-user/elfload.c
@@ -XXX,XX +XXX,XX @@
 #include "qemu/guest-random.h"
 #include "qemu/units.h"
 #include "qemu/selfmap.h"
+#include "qemu/lockable.h"
 #include "qapi/error.h"
 #include "qemu/error-report.h"
 #include "target_signal.h"
@@ -XXX,XX +XXX,XX @@ static int fill_note_info(struct elf_note_info *info,
         info->notes_size += note_size(&info->notes[i]);
 
     /* read and fill status of all threads */
-    cpu_list_lock();
-    CPU_FOREACH(cpu) {
-        if (cpu == thread_cpu) {
-            continue;
+    WITH_QEMU_LOCK_GUARD(&qemu_cpu_list_lock) {
+        CPU_FOREACH(cpu) {
+            if (cpu == thread_cpu) {
+                continue;
+            }
+            fill_thread_info(info, cpu->env_ptr);
         }
-        fill_thread_info(info, cpu->env_ptr);
     }
-    cpu_list_unlock();
 
     return (0);
 }
diff --git a/migration/dirtyrate.c b/migration/dirtyrate.c
index XXXXXXX..XXXXXXX 100644
--- a/migration/dirtyrate.c
+++ b/migration/dirtyrate.c
@@ -XXX,XX +XXX,XX @@ int64_t vcpu_calculate_dirtyrate(int64_t calc_time_ms,
 retry:
     init_time_ms = qemu_clock_get_ms(QEMU_CLOCK_REALTIME);
 
-    cpu_list_lock();
-    gen_id = cpu_list_generation_id_get();
-    records = vcpu_dirty_stat_alloc(stat);
-    vcpu_dirty_stat_collect(stat, records, true);
-    cpu_list_unlock();
+    WITH_QEMU_LOCK_GUARD(&qemu_cpu_list_lock) {
+        gen_id = cpu_list_generation_id_get();
+        records = vcpu_dirty_stat_alloc(stat);
+        vcpu_dirty_stat_collect(stat, records, true);
+    }
 
     duration = dirty_stat_wait(calc_time_ms, init_time_ms);
 
     global_dirty_log_sync(flag, one_shot);
 
-    cpu_list_lock();
-    if (gen_id != cpu_list_generation_id_get()) {
-        g_free(records);
-        g_free(stat->rates);
-        cpu_list_unlock();
-        goto retry;
+    WITH_QEMU_LOCK_GUARD(&qemu_cpu_list_lock) {
+        if (gen_id != cpu_list_generation_id_get()) {
+            g_free(records);
+            g_free(stat->rates);
+            cpu_list_unlock();
+            goto retry;
+        }
+        vcpu_dirty_stat_collect(stat, records, false);
     }
-    vcpu_dirty_stat_collect(stat, records, false);
-    cpu_list_unlock();
 
     for (i = 0; i < stat->nvcpu; i++) {
         dirtyrate = do_calculate_dirtyrate(records[i], duration);
diff --git a/trace/control-target.c b/trace/control-target.c
index XXXXXXX..XXXXXXX 100644
--- a/trace/control-target.c
+++ b/trace/control-target.c
@@ -XXX,XX +XXX,XX @@
  */
 
 #include "qemu/osdep.h"
+#include "qemu/lockable.h"
 #include "cpu.h"
 #include "trace/trace-root.h"
 #include "trace/control.h"
@@ -XXX,XX +XXX,XX @@ static bool adding_first_cpu1(void)
 
 static bool adding_first_cpu(void)
 {
-    bool res;
-    cpu_list_lock();
-    res = adding_first_cpu1();
-    cpu_list_unlock();
-    return res;
+    QEMU_LOCK_GUARD(&qemu_cpu_list_lock);
+
+    return adding_first_cpu1();
 }
 
 void trace_init_vcpu(CPUState *vcpu)
-- 
2.34.1

From: Jamie Iles <quic_jiles@quicinc.com>

The round-robin scheduler will iterate over the CPU list with an
assigned budget until the next timer expiry and may exit early because
of a TB exit.  This is fine under normal operation but with icount
enabled and SMP it is possible for a CPU to be starved of run time and
the system live-locks.

For example, booting a riscv64 platform with '-icount
shift=0,align=off,sleep=on -smp 2' we observe a livelock once the kernel
has timers enabled and starts performing TLB shootdowns.  In this case
we have CPU 0 in M-mode with interrupts disabled sending an IPI to CPU
1.  As we enter the TCG loop, we assign the icount budget to next timer
interrupt to CPU 0 and begin executing where the guest is sat in a busy
loop exhausting all of the budget before we try to execute CPU 1 which
is the target of the IPI but CPU 1 is left with no budget with which to
execute and the process repeats.

We try here to add some fairness by splitting the budget across all of
the CPUs on the thread fairly before entering each one.  The CPU count
is cached on CPU list generation ID to avoid iterating the list on each
loop iteration.  With this change it is possible to boot an SMP rv64
guest with icount enabled and no hangs.

Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
Tested-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Jamie Iles <quic_jiles@quicinc.com>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-Id: <20230427020925.51003-3-quic_jiles@quicinc.com>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 accel/tcg/tcg-accel-ops-icount.h |  3 ++-
 accel/tcg/tcg-accel-ops-icount.c | 21 ++++++++++++++----
 accel/tcg/tcg-accel-ops-rr.c     | 37 +++++++++++++++++++++++++++++++-
 replay/replay.c                  |  3 +--
 4 files changed, 56 insertions(+), 8 deletions(-)

diff --git a/accel/tcg/tcg-accel-ops-icount.h b/accel/tcg/tcg-accel-ops-icount.h
index XXXXXXX..XXXXXXX 100644
--- a/accel/tcg/tcg-accel-ops-icount.h
+++ b/accel/tcg/tcg-accel-ops-icount.h
@@ -XXX,XX +XXX,XX @@
 #define TCG_ACCEL_OPS_ICOUNT_H
 
 void icount_handle_deadline(void);
-void icount_prepare_for_run(CPUState *cpu);
+void icount_prepare_for_run(CPUState *cpu, int64_t cpu_budget);
+int64_t icount_percpu_budget(int cpu_count);
 void icount_process_data(CPUState *cpu);
 
 void icount_handle_interrupt(CPUState *cpu, int mask);
diff --git a/accel/tcg/tcg-accel-ops-icount.c b/accel/tcg/tcg-accel-ops-icount.c
index XXXXXXX..XXXXXXX 100644
--- a/accel/tcg/tcg-accel-ops-icount.c
+++ b/accel/tcg/tcg-accel-ops-icount.c
@@ -XXX,XX +XXX,XX @@ void icount_handle_deadline(void)
     }
 }
 
-void icount_prepare_for_run(CPUState *cpu)
+/* Distribute the budget evenly across all CPUs */
+int64_t icount_percpu_budget(int cpu_count)
+{
+    int64_t limit = icount_get_limit();
+    int64_t timeslice = limit / cpu_count;
+
+    if (timeslice == 0) {
+        timeslice = limit;
+    }
+
+    return timeslice;
+}
+
+void icount_prepare_for_run(CPUState *cpu, int64_t cpu_budget)
 {
     int insns_left;
 
@@ -XXX,XX +XXX,XX @@ void icount_prepare_for_run(CPUState *cpu)
     g_assert(cpu_neg(cpu)->icount_decr.u16.low == 0);
     g_assert(cpu->icount_extra == 0);
 
-    cpu->icount_budget = icount_get_limit();
+    replay_mutex_lock();
+
+    cpu->icount_budget = MIN(icount_get_limit(), cpu_budget);
     insns_left = MIN(0xffff, cpu->icount_budget);
     cpu_neg(cpu)->icount_decr.u16.low = insns_left;
     cpu->icount_extra = cpu->icount_budget - insns_left;
 
-    replay_mutex_lock();
-
     if (cpu->icount_budget == 0) {
         /*
          * We're called without the iothread lock, so must take it while
diff --git a/accel/tcg/tcg-accel-ops-rr.c b/accel/tcg/tcg-accel-ops-rr.c
index XXXXXXX..XXXXXXX 100644
--- a/accel/tcg/tcg-accel-ops-rr.c
+++ b/accel/tcg/tcg-accel-ops-rr.c
@@ -XXX,XX +XXX,XX @@
  */
 
 #include "qemu/osdep.h"
+#include "qemu/lockable.h"
 #include "sysemu/tcg.h"
 #include "sysemu/replay.h"
 #include "sysemu/cpu-timers.h"
@@ -XXX,XX +XXX,XX @@ static void rr_force_rcu(Notifier *notify, void *data)
     rr_kick_next_cpu();
 }
 
+/*
+ * Calculate the number of CPUs that we will process in a single iteration of
+ * the main CPU thread loop so that we can fairly distribute the instruction
+ * count across CPUs.
+ *
+ * The CPU count is cached based on the CPU list generation ID to avoid
+ * iterating the list every time.
+ */
+static int rr_cpu_count(void)
+{
+    static unsigned int last_gen_id = ~0;
+    static int cpu_count;
+    CPUState *cpu;
+
+    QEMU_LOCK_GUARD(&qemu_cpu_list_lock);
+
+    if (cpu_list_generation_id_get() != last_gen_id) {
+        cpu_count = 0;
+        CPU_FOREACH(cpu) {
+            ++cpu_count;
+        }
+        last_gen_id = cpu_list_generation_id_get();
+    }
+
+    return cpu_count;
+}
+
 /*
  * In the single-threaded case each vCPU is simulated in turn. If
  * there is more than a single vCPU we create a simple timer to kick
@@ -XXX,XX +XXX,XX @@ static void *rr_cpu_thread_fn(void *arg)
     cpu->exit_request = 1;
 
     while (1) {
+        /* Only used for icount_enabled() */
+        int64_t cpu_budget = 0;
+
         qemu_mutex_unlock_iothread();
         replay_mutex_lock();
         qemu_mutex_lock_iothread();
 
         if (icount_enabled()) {
+            int cpu_count = rr_cpu_count();
+
             /* Account partial waits to QEMU_CLOCK_VIRTUAL.  */
             icount_account_warp_timer();
             /*
@@ -XXX,XX +XXX,XX @@ static void *rr_cpu_thread_fn(void *arg)
              * waking up the I/O thread and waiting for completion.
              */
             icount_handle_deadline();
+
+            cpu_budget = icount_percpu_budget(cpu_count);
         }
 
         replay_mutex_unlock();
@@ -XXX,XX +XXX,XX @@ static void *rr_cpu_thread_fn(void *arg)
 
                 qemu_mutex_unlock_iothread();
                 if (icount_enabled()) {
-                    icount_prepare_for_run(cpu);
+                    icount_prepare_for_run(cpu, cpu_budget);
                 }
                 r = tcg_cpus_exec(cpu);
                 if (icount_enabled()) {
diff --git a/replay/replay.c b/replay/replay.c
index XXXXXXX..XXXXXXX 100644
--- a/replay/replay.c
+++ b/replay/replay.c
@@ -XXX,XX +XXX,XX @@ uint64_t replay_get_current_icount(void)
 int replay_get_instructions(void)
 {
     int res = 0;
-    replay_mutex_lock();
+    g_assert(replay_mutex_locked());
     if (replay_next_event_is(EVENT_INSTRUCTION)) {
         res = replay_state.instruction_count;
         if (replay_break_icount != -1LL) {
@@ -XXX,XX +XXX,XX @@ int replay_get_instructions(void)
             }
         }
     }
-    replay_mutex_unlock();
     return res;
 }
 
-- 
2.34.1

Merge tcg_out_tlb_load, add_qemu_ldst_label,
tcg_out_test_alignment, and some code that lived in both
tcg_out_qemu_ld and tcg_out_qemu_st into one function
that returns HostAddress and TCGLabelQemuLdst structures.

Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/i386/tcg-target.c.inc | 346 ++++++++++++++++----------------------
 1 file changed, 145 insertions(+), 201 deletions(-)

diff --git a/tcg/i386/tcg-target.c.inc b/tcg/i386/tcg-target.c.inc
index XXXXXXX..XXXXXXX 100644
--- a/tcg/i386/tcg-target.c.inc
+++ b/tcg/i386/tcg-target.c.inc
@@ -XXX,XX +XXX,XX @@ static void * const qemu_st_helpers[(MO_SIZE | MO_BSWAP) + 1] = {
     [MO_BEUQ] = helper_be_stq_mmu,
 };
 
-/* Perform the TLB load and compare.
-
-   Inputs:
-   ADDRLO and ADDRHI contain the low and high part of the address.
-
-   MEM_INDEX and S_BITS are the memory context and log2 size of the load.
-
-   WHICH is the offset into the CPUTLBEntry structure of the slot to read.
-   This should be offsetof addr_read or addr_write.
-
-   Outputs:
-   LABEL_PTRS is filled with 1 (32-bit addresses) or 2 (64-bit addresses)
-   positions of the displacements of forward jumps to the TLB miss case.
-
-   Second argument register is loaded with the low part of the address.
-   In the TLB hit case, it has been adjusted as indicated by the TLB
-   and so is a host address.  In the TLB miss case, it continues to
-   hold a guest address.
-
-   First argument register is clobbered.  */
-
-static inline void tcg_out_tlb_load(TCGContext *s, TCGReg addrlo, TCGReg addrhi,
-                                    int mem_index, MemOp opc,
-                                    tcg_insn_unit **label_ptr, int which)
-{
-    TCGType ttype = TCG_TYPE_I32;
-    TCGType tlbtype = TCG_TYPE_I32;
-    int trexw = 0, hrexw = 0, tlbrexw = 0;
-    unsigned a_bits = get_alignment_bits(opc);
-    unsigned s_bits = opc & MO_SIZE;
-    unsigned a_mask = (1 << a_bits) - 1;
-    unsigned s_mask = (1 << s_bits) - 1;
-    target_ulong tlb_mask;
-
-    if (TCG_TARGET_REG_BITS == 64) {
-        if (TARGET_LONG_BITS == 64) {
-            ttype = TCG_TYPE_I64;
-            trexw = P_REXW;
-        }
-        if (TCG_TYPE_PTR == TCG_TYPE_I64) {
-            hrexw = P_REXW;
-            if (TARGET_PAGE_BITS + CPU_TLB_DYN_MAX_BITS > 32) {
-                tlbtype = TCG_TYPE_I64;
-                tlbrexw = P_REXW;
-            }
-        }
-    }
-
-    tcg_out_mov(s, tlbtype, TCG_REG_L0, addrlo);
-    tcg_out_shifti(s, SHIFT_SHR + tlbrexw, TCG_REG_L0,
-                   TARGET_PAGE_BITS - CPU_TLB_ENTRY_BITS);
-
-    tcg_out_modrm_offset(s, OPC_AND_GvEv + trexw, TCG_REG_L0, TCG_AREG0,
-                         TLB_MASK_TABLE_OFS(mem_index) +
-                         offsetof(CPUTLBDescFast, mask));
-
-    tcg_out_modrm_offset(s, OPC_ADD_GvEv + hrexw, TCG_REG_L0, TCG_AREG0,
-                         TLB_MASK_TABLE_OFS(mem_index) +
-                         offsetof(CPUTLBDescFast, table));
-
-    /* If the required alignment is at least as large as the access, simply
-       copy the address and mask.  For lesser alignments, check that we don't
-       cross pages for the complete access.  */
-    if (a_bits >= s_bits) {
-        tcg_out_mov(s, ttype, TCG_REG_L1, addrlo);
-    } else {
-        tcg_out_modrm_offset(s, OPC_LEA + trexw, TCG_REG_L1,
-                             addrlo, s_mask - a_mask);
-    }
-    tlb_mask = (target_ulong)TARGET_PAGE_MASK | a_mask;
-    tgen_arithi(s, ARITH_AND + trexw, TCG_REG_L1, tlb_mask, 0);
-
-    /* cmp 0(TCG_REG_L0), TCG_REG_L1 */
-    tcg_out_modrm_offset(s, OPC_CMP_GvEv + trexw,
-                         TCG_REG_L1, TCG_REG_L0, which);
-
-    /* Prepare for both the fast path add of the tlb addend, and the slow
-       path function argument setup.  */
-    tcg_out_mov(s, ttype, TCG_REG_L1, addrlo);
-
-    /* jne slow_path */
-    tcg_out_opc(s, OPC_JCC_long + JCC_JNE, 0, 0, 0);
-    label_ptr[0] = s->code_ptr;
-    s->code_ptr += 4;
-
-    if (TARGET_LONG_BITS > TCG_TARGET_REG_BITS) {
-        /* cmp 4(TCG_REG_L0), addrhi */
-        tcg_out_modrm_offset(s, OPC_CMP_GvEv, addrhi, TCG_REG_L0, which + 4);
-
-        /* jne slow_path */
-        tcg_out_opc(s, OPC_JCC_long + JCC_JNE, 0, 0, 0);
-        label_ptr[1] = s->code_ptr;
-        s->code_ptr += 4;
-    }
-
-    /* TLB Hit.  */
-
-    /* add addend(TCG_REG_L0), TCG_REG_L1 */
-    tcg_out_modrm_offset(s, OPC_ADD_GvEv + hrexw, TCG_REG_L1, TCG_REG_L0,
-                         offsetof(CPUTLBEntry, addend));
-}
-
-/*
- * Record the context of a call to the out of line helper code for the slow path
- * for a load or store, so that we can later generate the correct helper code
- */
-static void add_qemu_ldst_label(TCGContext *s, bool is_ld,
-                                TCGType type, MemOpIdx oi,
-                                TCGReg datalo, TCGReg datahi,
-                                TCGReg addrlo, TCGReg addrhi,
-                                tcg_insn_unit *raddr,
-                                tcg_insn_unit **label_ptr)
-{
-    TCGLabelQemuLdst *label = new_ldst_label(s);
-
-    label->is_ld = is_ld;
-    label->oi = oi;
-    label->type = type;
-    label->datalo_reg = datalo;
-    label->datahi_reg = datahi;
-    label->addrlo_reg = addrlo;
-    label->addrhi_reg = addrhi;
-    label->raddr = tcg_splitwx_to_rx(raddr);
-    label->label_ptr[0] = label_ptr[0];
-    if (TARGET_LONG_BITS > TCG_TARGET_REG_BITS) {
-        label->label_ptr[1] = label_ptr[1];
-    }
-}
-
 /*
  * Generate code for the slow path for a load at the end of block
  */
@@ -XXX,XX +XXX,XX @@ static bool tcg_out_qemu_st_slow_path(TCGContext *s, TCGLabelQemuLdst *l)
     return true;
 }
 #else
-
-static void tcg_out_test_alignment(TCGContext *s, bool is_ld, TCGReg addrlo,
-                                   TCGReg addrhi, unsigned a_bits)
-{
-    unsigned a_mask = (1 << a_bits) - 1;
-    TCGLabelQemuLdst *label;
-
-    tcg_out_testi(s, addrlo, a_mask);
-    /* jne slow_path */
-    tcg_out_opc(s, OPC_JCC_long + JCC_JNE, 0, 0, 0);
-
-    label = new_ldst_label(s);
-    label->is_ld = is_ld;
-    label->addrlo_reg = addrlo;
-    label->addrhi_reg = addrhi;
-    label->raddr = tcg_splitwx_to_rx(s->code_ptr + 4);
-    label->label_ptr[0] = s->code_ptr;
-
-    s->code_ptr += 4;
-}
-
 static bool tcg_out_fail_alignment(TCGContext *s, TCGLabelQemuLdst *l)
 {
     /* resolve label address */
@@ -XXX,XX +XXX,XX @@ static inline int setup_guest_base_seg(void)
 #endif /* setup_guest_base_seg */
 #endif /* SOFTMMU */
 
+/*
+ * For softmmu, perform the TLB load and compare.
+ * For useronly, perform any required alignment tests.
+ * In both cases, return a TCGLabelQemuLdst structure if the slow path
+ * is required and fill in @h with the host address for the fast path.
+ */
+static TCGLabelQemuLdst *prepare_host_addr(TCGContext *s, HostAddress *h,
+                                           TCGReg addrlo, TCGReg addrhi,
+                                           MemOpIdx oi, bool is_ld)
+{
+    TCGLabelQemuLdst *ldst = NULL;
+    MemOp opc = get_memop(oi);
+    unsigned a_bits = get_alignment_bits(opc);
+    unsigned a_mask = (1 << a_bits) - 1;
+
+#ifdef CONFIG_SOFTMMU
+    int cmp_ofs = is_ld ? offsetof(CPUTLBEntry, addr_read)
+                        : offsetof(CPUTLBEntry, addr_write);
+    TCGType ttype = TCG_TYPE_I32;
+    TCGType tlbtype = TCG_TYPE_I32;
+    int trexw = 0, hrexw = 0, tlbrexw = 0;
+    unsigned mem_index = get_mmuidx(oi);
+    unsigned s_bits = opc & MO_SIZE;
+    unsigned s_mask = (1 << s_bits) - 1;
+    target_ulong tlb_mask;
+
+    ldst = new_ldst_label(s);
+    ldst->is_ld = is_ld;
+    ldst->oi = oi;
+    ldst->addrlo_reg = addrlo;
+    ldst->addrhi_reg = addrhi;
+
+    if (TCG_TARGET_REG_BITS == 64) {
+        if (TARGET_LONG_BITS == 64) {
+            ttype = TCG_TYPE_I64;
+            trexw = P_REXW;
+        }
+        if (TCG_TYPE_PTR == TCG_TYPE_I64) {
+            hrexw = P_REXW;
+            if (TARGET_PAGE_BITS + CPU_TLB_DYN_MAX_BITS > 32) {
+                tlbtype = TCG_TYPE_I64;
+                tlbrexw = P_REXW;
+            }
+        }
+    }
+
+    tcg_out_mov(s, tlbtype, TCG_REG_L0, addrlo);
+    tcg_out_shifti(s, SHIFT_SHR + tlbrexw, TCG_REG_L0,
+                   TARGET_PAGE_BITS - CPU_TLB_ENTRY_BITS);
+
+    tcg_out_modrm_offset(s, OPC_AND_GvEv + trexw, TCG_REG_L0, TCG_AREG0,
+                         TLB_MASK_TABLE_OFS(mem_index) +
+                         offsetof(CPUTLBDescFast, mask));
+
+    tcg_out_modrm_offset(s, OPC_ADD_GvEv + hrexw, TCG_REG_L0, TCG_AREG0,
+                         TLB_MASK_TABLE_OFS(mem_index) +
+                         offsetof(CPUTLBDescFast, table));
+
+    /*
+     * If the required alignment is at least as large as the access, simply
+     * copy the address and mask.  For lesser alignments, check that we don't
+     * cross pages for the complete access.
+     */
+    if (a_bits >= s_bits) {
+        tcg_out_mov(s, ttype, TCG_REG_L1, addrlo);
+    } else {
+        tcg_out_modrm_offset(s, OPC_LEA + trexw, TCG_REG_L1,
+                             addrlo, s_mask - a_mask);
+    }
+    tlb_mask = (target_ulong)TARGET_PAGE_MASK | a_mask;
+    tgen_arithi(s, ARITH_AND + trexw, TCG_REG_L1, tlb_mask, 0);
+
+    /* cmp 0(TCG_REG_L0), TCG_REG_L1 */
+    tcg_out_modrm_offset(s, OPC_CMP_GvEv + trexw,
+                         TCG_REG_L1, TCG_REG_L0, cmp_ofs);
+
+    /*
+     * Prepare for both the fast path add of the tlb addend, and the slow
+     * path function argument setup.
+     */
+    *h = (HostAddress) {
+        .base = TCG_REG_L1,
+        .index = -1
+    };
+    tcg_out_mov(s, ttype, h->base, addrlo);
+
+    /* jne slow_path */
+    tcg_out_opc(s, OPC_JCC_long + JCC_JNE, 0, 0, 0);
+    ldst->label_ptr[0] = s->code_ptr;
+    s->code_ptr += 4;
+
+    if (TARGET_LONG_BITS > TCG_TARGET_REG_BITS) {
+        /* cmp 4(TCG_REG_L0), addrhi */
+        tcg_out_modrm_offset(s, OPC_CMP_GvEv, addrhi, TCG_REG_L0, cmp_ofs + 4);
+
+        /* jne slow_path */
+        tcg_out_opc(s, OPC_JCC_long + JCC_JNE, 0, 0, 0);
+        ldst->label_ptr[1] = s->code_ptr;
+        s->code_ptr += 4;
+    }
+
+    /* TLB Hit.  */
+
+    /* add addend(TCG_REG_L0), TCG_REG_L1 */
+    tcg_out_modrm_offset(s, OPC_ADD_GvEv + hrexw, h->base, TCG_REG_L0,
+                         offsetof(CPUTLBEntry, addend));
+#else
+    if (a_bits) {
+        ldst = new_ldst_label(s);
+
+        ldst->is_ld = is_ld;
+        ldst->oi = oi;
+        ldst->addrlo_reg = addrlo;
+        ldst->addrhi_reg = addrhi;
+
+        tcg_out_testi(s, addrlo, a_mask);
+        /* jne slow_path */
+        tcg_out_opc(s, OPC_JCC_long + JCC_JNE, 0, 0, 0);
+        ldst->label_ptr[0] = s->code_ptr;
+        s->code_ptr += 4;
+    }
+
+    *h = x86_guest_base;
+    h->base = addrlo;
+#endif
+
+    return ldst;
+}
+
 static void tcg_out_qemu_ld_direct(TCGContext *s, TCGReg datalo, TCGReg datahi,
                                    HostAddress h, TCGType type, MemOp memop)
 {
@@ -XXX,XX +XXX,XX @@ static void tcg_out_qemu_ld(TCGContext *s, TCGReg datalo, TCGReg datahi,
                             TCGReg addrlo, TCGReg addrhi,
                             MemOpIdx oi, TCGType data_type)
 {
-    MemOp opc = get_memop(oi);
+    TCGLabelQemuLdst *ldst;
     HostAddress h;
 
-#if defined(CONFIG_SOFTMMU)
-    tcg_insn_unit *label_ptr[2];
+    ldst = prepare_host_addr(s, &h, addrlo, addrhi, oi, true);
+    tcg_out_qemu_ld_direct(s, datalo, datahi, h, data_type, get_memop(oi));
 
-    tcg_out_tlb_load(s, addrlo, addrhi, get_mmuidx(oi), opc,
-                     label_ptr, offsetof(CPUTLBEntry, addr_read));
-
-    /* TLB Hit.  */
-    h.base = TCG_REG_L1;
-    h.index = -1;
-    h.ofs = 0;
-    h.seg = 0;
-    tcg_out_qemu_ld_direct(s, datalo, datahi, h, data_type, opc);
-
-    /* Record the current context of a load into ldst label */
-    add_qemu_ldst_label(s, true, data_type, oi, datalo, datahi,
-                        addrlo, addrhi, s->code_ptr, label_ptr);
-#else
-    unsigned a_bits = get_alignment_bits(opc);
-    if (a_bits) {
-        tcg_out_test_alignment(s, true, addrlo, addrhi, a_bits);
+    if (ldst) {
+        ldst->type = data_type;
+        ldst->datalo_reg = datalo;
+        ldst->datahi_reg = datahi;
+        ldst->raddr = tcg_splitwx_to_rx(s->code_ptr);
     }
-
-    h = x86_guest_base;
-    h.base = addrlo;
-    tcg_out_qemu_ld_direct(s, datalo, datahi, h, data_type, opc);
-#endif
 }
 
 static void tcg_out_qemu_st_direct(TCGContext *s, TCGReg datalo, TCGReg datahi,
@@ -XXX,XX +XXX,XX @@ static void tcg_out_qemu_st(TCGContext *s, TCGReg datalo, TCGReg datahi,
                             TCGReg addrlo, TCGReg addrhi,
                             MemOpIdx oi, TCGType data_type)
 {
-    MemOp opc = get_memop(oi);
+    TCGLabelQemuLdst *ldst;
     HostAddress h;
 
-#if defined(CONFIG_SOFTMMU)
-    tcg_insn_unit *label_ptr[2];
+    ldst = prepare_host_addr(s, &h, addrlo, addrhi, oi, false);
+    tcg_out_qemu_st_direct(s, datalo, datahi, h, get_memop(oi));
 
-    tcg_out_tlb_load(s, addrlo, addrhi, get_mmuidx(oi), opc,
-                     label_ptr, offsetof(CPUTLBEntry, addr_write));
-
-    /* TLB Hit.  */
-    h.base = TCG_REG_L1;
-    h.index = -1;
-    h.ofs = 0;
-    h.seg = 0;
-    tcg_out_qemu_st_direct(s, datalo, datahi, h, opc);
-
-    /* Record the current context of a store into ldst label */
-    add_qemu_ldst_label(s, false, data_type, oi, datalo, datahi,
-                        addrlo, addrhi, s->code_ptr, label_ptr);
-#else
-    unsigned a_bits = get_alignment_bits(opc);
-    if (a_bits) {
-        tcg_out_test_alignment(s, false, addrlo, addrhi, a_bits);
+    if (ldst) {
+        ldst->type = data_type;
+        ldst->datalo_reg = datalo;
+        ldst->datahi_reg = datahi;
+        ldst->raddr = tcg_splitwx_to_rx(s->code_ptr);
     }
-
-    h = x86_guest_base;
-    h.base = addrlo;
-
-    tcg_out_qemu_st_direct(s, datalo, datahi, h, opc);
-#endif
 }
 
 static void tcg_out_exit_tb(TCGContext *s, uintptr_t a0)
-- 
2.34.1

Since tcg_out_{ld,st}_helper_args, the slow path no longer requires
the address argument to be set up by the tlb load sequence.  Use a
plain load for the addend and indexed addressing with the original
input address register.

Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/i386/tcg-target.c.inc | 25 ++++++++++---------------
 1 file changed, 10 insertions(+), 15 deletions(-)

diff --git a/tcg/i386/tcg-target.c.inc b/tcg/i386/tcg-target.c.inc
index XXXXXXX..XXXXXXX 100644
--- a/tcg/i386/tcg-target.c.inc
+++ b/tcg/i386/tcg-target.c.inc
@@ -XXX,XX +XXX,XX @@ static bool tcg_out_qemu_ld_slow_path(TCGContext *s, TCGLabelQemuLdst *l)
         tcg_out_sti(s, TCG_TYPE_PTR, (uintptr_t)l->raddr, TCG_REG_ESP, ofs);
     } else {
         tcg_out_mov(s, TCG_TYPE_PTR, tcg_target_call_iarg_regs[0], TCG_AREG0);
-        /* The second argument is already loaded with addrlo.  */
+        tcg_out_mov(s, TCG_TYPE_TL, tcg_target_call_iarg_regs[1],
+                    l->addrlo_reg);
         tcg_out_movi(s, TCG_TYPE_I32, tcg_target_call_iarg_regs[2], oi);
         tcg_out_movi(s, TCG_TYPE_PTR, tcg_target_call_iarg_regs[3],
                      (uintptr_t)l->raddr);
@@ -XXX,XX +XXX,XX @@ static bool tcg_out_qemu_st_slow_path(TCGContext *s, TCGLabelQemuLdst *l)
         tcg_out_st(s, TCG_TYPE_PTR, retaddr, TCG_REG_ESP, ofs);
     } else {
         tcg_out_mov(s, TCG_TYPE_PTR, tcg_target_call_iarg_regs[0], TCG_AREG0);
-        /* The second argument is already loaded with addrlo.  */
+        tcg_out_mov(s, TCG_TYPE_TL, tcg_target_call_iarg_regs[1],
+                    l->addrlo_reg);
         tcg_out_mov(s, (s_bits == MO_64 ? TCG_TYPE_I64 : TCG_TYPE_I32),
                     tcg_target_call_iarg_regs[2], l->datalo_reg);
         tcg_out_movi(s, TCG_TYPE_I32, tcg_target_call_iarg_regs[3], oi);
@@ -XXX,XX +XXX,XX @@ static TCGLabelQemuLdst *prepare_host_addr(TCGContext *s, HostAddress *h,
     tcg_out_modrm_offset(s, OPC_CMP_GvEv + trexw,
                          TCG_REG_L1, TCG_REG_L0, cmp_ofs);
 
-    /*
-     * Prepare for both the fast path add of the tlb addend, and the slow
-     * path function argument setup.
-     */
-    *h = (HostAddress) {
-        .base = TCG_REG_L1,
-        .index = -1
-    };
-    tcg_out_mov(s, ttype, h->base, addrlo);
-
     /* jne slow_path */
     tcg_out_opc(s, OPC_JCC_long + JCC_JNE, 0, 0, 0);
     ldst->label_ptr[0] = s->code_ptr;
@@ -XXX,XX +XXX,XX @@ static TCGLabelQemuLdst *prepare_host_addr(TCGContext *s, HostAddress *h,
     }
 
     /* TLB Hit.  */
+    tcg_out_ld(s, TCG_TYPE_PTR, TCG_REG_L0, TCG_REG_L0,
+               offsetof(CPUTLBEntry, addend));
 
-    /* add addend(TCG_REG_L0), TCG_REG_L1 */
-    tcg_out_modrm_offset(s, OPC_ADD_GvEv + hrexw, h->base, TCG_REG_L0,
-                         offsetof(CPUTLBEntry, addend));
+    *h = (HostAddress) {
+        .base = addrlo,
+        .index = TCG_REG_L0,
+    };
 #else
     if (a_bits) {
         ldst = new_ldst_label(s);
-- 
2.34.1

Merge tcg_out_tlb_load, add_qemu_ldst_label, tcg_out_test_alignment,
and some code that lived in both tcg_out_qemu_ld and tcg_out_qemu_st
into one function that returns HostAddress and TCGLabelQemuLdst structures.

Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/aarch64/tcg-target.c.inc | 313 +++++++++++++++--------------------
 1 file changed, 133 insertions(+), 180 deletions(-)

diff --git a/tcg/aarch64/tcg-target.c.inc b/tcg/aarch64/tcg-target.c.inc
index XXXXXXX..XXXXXXX 100644
--- a/tcg/aarch64/tcg-target.c.inc
+++ b/tcg/aarch64/tcg-target.c.inc
@@ -XXX,XX +XXX,XX @@ static bool tcg_out_qemu_st_slow_path(TCGContext *s, TCGLabelQemuLdst *lb)
     tcg_out_goto(s, lb->raddr);
     return true;
 }
-
-static void add_qemu_ldst_label(TCGContext *s, bool is_ld, MemOpIdx oi,
-                                TCGType ext, TCGReg data_reg, TCGReg addr_reg,
-                                tcg_insn_unit *raddr, tcg_insn_unit *label_ptr)
-{
-    TCGLabelQemuLdst *label = new_ldst_label(s);
-
-    label->is_ld = is_ld;
-    label->oi = oi;
-    label->type = ext;
-    label->datalo_reg = data_reg;
-    label->addrlo_reg = addr_reg;
-    label->raddr = tcg_splitwx_to_rx(raddr);
-    label->label_ptr[0] = label_ptr;
-}
-
-/* We expect to use a 7-bit scaled negative offset from ENV.  */
-QEMU_BUILD_BUG_ON(TLB_MASK_TABLE_OFS(0) > 0);
-QEMU_BUILD_BUG_ON(TLB_MASK_TABLE_OFS(0) < -512);
-
-/* These offsets are built into the LDP below.  */
-QEMU_BUILD_BUG_ON(offsetof(CPUTLBDescFast, mask) != 0);
-QEMU_BUILD_BUG_ON(offsetof(CPUTLBDescFast, table) != 8);
-
-/* Load and compare a TLB entry, emitting the conditional jump to the
-   slow path for the failure case, which will be patched later when finalizing
-   the slow path. Generated code returns the host addend in X1,
-   clobbers X0,X2,X3,TMP. */
-static void tcg_out_tlb_read(TCGContext *s, TCGReg addr_reg, MemOp opc,
-                             tcg_insn_unit **label_ptr, int mem_index,
-                             bool is_read)
-{
-    unsigned a_bits = get_alignment_bits(opc);
-    unsigned s_bits = opc & MO_SIZE;
-    unsigned a_mask = (1u << a_bits) - 1;
-    unsigned s_mask = (1u << s_bits) - 1;
-    TCGReg x3;
-    TCGType mask_type;
-    uint64_t compare_mask;
-
-    mask_type = (TARGET_PAGE_BITS + CPU_TLB_DYN_MAX_BITS > 32
-                 ? TCG_TYPE_I64 : TCG_TYPE_I32);
-
-    /* Load env_tlb(env)->f[mmu_idx].{mask,table} into {x0,x1}.  */
-    tcg_out_insn(s, 3314, LDP, TCG_REG_X0, TCG_REG_X1, TCG_AREG0,
-                 TLB_MASK_TABLE_OFS(mem_index), 1, 0);
-
-    /* Extract the TLB index from the address into X0.  */
-    tcg_out_insn(s, 3502S, AND_LSR, mask_type == TCG_TYPE_I64,
-                 TCG_REG_X0, TCG_REG_X0, addr_reg,
-                 TARGET_PAGE_BITS - CPU_TLB_ENTRY_BITS);
-
-    /* Add the tlb_table pointer, creating the CPUTLBEntry address into X1.  */
-    tcg_out_insn(s, 3502, ADD, 1, TCG_REG_X1, TCG_REG_X1, TCG_REG_X0);
-
-    /* Load the tlb comparator into X0, and the fast path addend into X1.  */
-    tcg_out_ld(s, TCG_TYPE_TL, TCG_REG_X0, TCG_REG_X1, is_read
-               ? offsetof(CPUTLBEntry, addr_read)
-               : offsetof(CPUTLBEntry, addr_write));
-    tcg_out_ld(s, TCG_TYPE_PTR, TCG_REG_X1, TCG_REG_X1,
-               offsetof(CPUTLBEntry, addend));
-
-    /* For aligned accesses, we check the first byte and include the alignment
-       bits within the address.  For unaligned access, we check that we don't
-       cross pages using the address of the last byte of the access.  */
-    if (a_bits >= s_bits) {
-        x3 = addr_reg;
-    } else {
-        tcg_out_insn(s, 3401, ADDI, TARGET_LONG_BITS == 64,
-                     TCG_REG_X3, addr_reg, s_mask - a_mask);
-        x3 = TCG_REG_X3;
-    }
-    compare_mask = (uint64_t)TARGET_PAGE_MASK | a_mask;
-
-    /* Store the page mask part of the address into X3.  */
-    tcg_out_logicali(s, I3404_ANDI, TARGET_LONG_BITS == 64,
-                     TCG_REG_X3, x3, compare_mask);
-
-    /* Perform the address comparison. */
-    tcg_out_cmp(s, TARGET_LONG_BITS == 64, TCG_REG_X0, TCG_REG_X3, 0);
-
-    /* If not equal, we jump to the slow path. */
-    *label_ptr = s->code_ptr;
-    tcg_out_insn(s, 3202, B_C, TCG_COND_NE, 0);
-}
-
 #else
-static void tcg_out_test_alignment(TCGContext *s, bool is_ld, TCGReg addr_reg,
-                                   unsigned a_bits)
-{
-    unsigned a_mask = (1 << a_bits) - 1;
-    TCGLabelQemuLdst *label = new_ldst_label(s);
-
-    label->is_ld = is_ld;
-    label->addrlo_reg = addr_reg;
-
-    /* tst addr, #mask */
-    tcg_out_logicali(s, I3404_ANDSI, 0, TCG_REG_XZR, addr_reg, a_mask);
-
-    label->label_ptr[0] = s->code_ptr;
-
-    /* b.ne slow_path */
-    tcg_out_insn(s, 3202, B_C, TCG_COND_NE, 0);
-
-    label->raddr = tcg_splitwx_to_rx(s->code_ptr);
-}
-
 static bool tcg_out_fail_alignment(TCGContext *s, TCGLabelQemuLdst *l)
 {
     if (!reloc_pc19(l->label_ptr[0], tcg_splitwx_to_rx(s->code_ptr))) {
@@ -XXX,XX +XXX,XX @@ static bool tcg_out_qemu_st_slow_path(TCGContext *s, TCGLabelQemuLdst *l)
 }
 #endif /* CONFIG_SOFTMMU */
 
+/*
+ * For softmmu, perform the TLB load and compare.
+ * For useronly, perform any required alignment tests.
+ * In both cases, return a TCGLabelQemuLdst structure if the slow path
+ * is required and fill in @h with the host address for the fast path.
+ */
+static TCGLabelQemuLdst *prepare_host_addr(TCGContext *s, HostAddress *h,
+                                           TCGReg addr_reg, MemOpIdx oi,
+                                           bool is_ld)
+{
+    TCGType addr_type = TARGET_LONG_BITS == 64 ? TCG_TYPE_I64 : TCG_TYPE_I32;
+    TCGLabelQemuLdst *ldst = NULL;
+    MemOp opc = get_memop(oi);
+    unsigned a_bits = get_alignment_bits(opc);
+    unsigned a_mask = (1u << a_bits) - 1;
+
+#ifdef CONFIG_SOFTMMU
+    unsigned s_bits = opc & MO_SIZE;
+    unsigned s_mask = (1u << s_bits) - 1;
+    unsigned mem_index = get_mmuidx(oi);
+    TCGReg x3;
+    TCGType mask_type;
+    uint64_t compare_mask;
+
+    ldst = new_ldst_label(s);
+    ldst->is_ld = is_ld;
+    ldst->oi = oi;
+    ldst->addrlo_reg = addr_reg;
+
+    mask_type = (TARGET_PAGE_BITS + CPU_TLB_DYN_MAX_BITS > 32
+                 ? TCG_TYPE_I64 : TCG_TYPE_I32);
+
+    /* Load env_tlb(env)->f[mmu_idx].{mask,table} into {x0,x1}.  */
+    QEMU_BUILD_BUG_ON(TLB_MASK_TABLE_OFS(0) > 0);
+    QEMU_BUILD_BUG_ON(TLB_MASK_TABLE_OFS(0) < -512);
+    QEMU_BUILD_BUG_ON(offsetof(CPUTLBDescFast, mask) != 0);
+    QEMU_BUILD_BUG_ON(offsetof(CPUTLBDescFast, table) != 8);
+    tcg_out_insn(s, 3314, LDP, TCG_REG_X0, TCG_REG_X1, TCG_AREG0,
+                 TLB_MASK_TABLE_OFS(mem_index), 1, 0);
+
+    /* Extract the TLB index from the address into X0.  */
+    tcg_out_insn(s, 3502S, AND_LSR, mask_type == TCG_TYPE_I64,
+                 TCG_REG_X0, TCG_REG_X0, addr_reg,
+                 TARGET_PAGE_BITS - CPU_TLB_ENTRY_BITS);
+
+    /* Add the tlb_table pointer, creating the CPUTLBEntry address into X1.  */
+    tcg_out_insn(s, 3502, ADD, 1, TCG_REG_X1, TCG_REG_X1, TCG_REG_X0);
+
+    /* Load the tlb comparator into X0, and the fast path addend into X1.  */
+    tcg_out_ld(s, TCG_TYPE_TL, TCG_REG_X0, TCG_REG_X1,
+               is_ld ? offsetof(CPUTLBEntry, addr_read)
+                     : offsetof(CPUTLBEntry, addr_write));
+    tcg_out_ld(s, TCG_TYPE_PTR, TCG_REG_X1, TCG_REG_X1,
+               offsetof(CPUTLBEntry, addend));
+
+    /*
+     * For aligned accesses, we check the first byte and include the alignment
+     * bits within the address.  For unaligned access, we check that we don't
+     * cross pages using the address of the last byte of the access.
+     */
+    if (a_bits >= s_bits) {
+        x3 = addr_reg;
+    } else {
+        tcg_out_insn(s, 3401, ADDI, TARGET_LONG_BITS == 64,
+                     TCG_REG_X3, addr_reg, s_mask - a_mask);
+        x3 = TCG_REG_X3;
+    }
+    compare_mask = (uint64_t)TARGET_PAGE_MASK | a_mask;
+
+    /* Store the page mask part of the address into X3.  */
+    tcg_out_logicali(s, I3404_ANDI, TARGET_LONG_BITS == 64,
+                     TCG_REG_X3, x3, compare_mask);
+
+    /* Perform the address comparison. */
+    tcg_out_cmp(s, TARGET_LONG_BITS == 64, TCG_REG_X0, TCG_REG_X3, 0);
+
+    /* If not equal, we jump to the slow path. */
+    ldst->label_ptr[0] = s->code_ptr;
+    tcg_out_insn(s, 3202, B_C, TCG_COND_NE, 0);
+
+    *h = (HostAddress){
+        .base = TCG_REG_X1,
+        .index = addr_reg,
+        .index_ext = addr_type
+    };
+#else
+    if (a_mask) {
+        ldst = new_ldst_label(s);
+
+        ldst->is_ld = is_ld;
+        ldst->oi = oi;
+        ldst->addrlo_reg = addr_reg;
+
+        /* tst addr, #mask */
+        tcg_out_logicali(s, I3404_ANDSI, 0, TCG_REG_XZR, addr_reg, a_mask);
+
+        /* b.ne slow_path */
+        ldst->label_ptr[0] = s->code_ptr;
+        tcg_out_insn(s, 3202, B_C, TCG_COND_NE, 0);
+    }
+
+    if (USE_GUEST_BASE) {
+        *h = (HostAddress){
+            .base = TCG_REG_GUEST_BASE,
+            .index = addr_reg,
+            .index_ext = addr_type
+        };
+    } else {
+        *h = (HostAddress){
+            .base = addr_reg,
+            .index = TCG_REG_XZR,
+            .index_ext = TCG_TYPE_I64
+        };
+    }
+#endif
+
+    return ldst;
+}
+
 static void tcg_out_qemu_ld_direct(TCGContext *s, MemOp memop, TCGType ext,
                                    TCGReg data_r, HostAddress h)
 {
@@ -XXX,XX +XXX,XX @@ static void tcg_out_qemu_st_direct(TCGContext *s, MemOp memop,
 static void tcg_out_qemu_ld(TCGContext *s, TCGReg data_reg, TCGReg addr_reg,
                             MemOpIdx oi, TCGType data_type)
 {
-    MemOp memop = get_memop(oi);
-    TCGType addr_type = TARGET_LONG_BITS == 64 ? TCG_TYPE_I64 : TCG_TYPE_I32;
+    TCGLabelQemuLdst *ldst;
     HostAddress h;
 
-    /* Byte swapping is left to middle-end expansion. */
-    tcg_debug_assert((memop & MO_BSWAP) == 0);
+    ldst = prepare_host_addr(s, &h, addr_reg, oi, true);
+    tcg_out_qemu_ld_direct(s, get_memop(oi), data_type, data_reg, h);
 
-#ifdef CONFIG_SOFTMMU
-    tcg_insn_unit *label_ptr;
-
-    tcg_out_tlb_read(s, addr_reg, memop, &label_ptr, get_mmuidx(oi), 1);
-
-    h = (HostAddress){
-        .base = TCG_REG_X1,
-        .index = addr_reg,
-        .index_ext = addr_type
-    };
-    tcg_out_qemu_ld_direct(s, memop, data_type, data_reg, h);
-
-    add_qemu_ldst_label(s, true, oi, data_type, data_reg, addr_reg,
-                        s->code_ptr, label_ptr);
-#else /* !CONFIG_SOFTMMU */
-    unsigned a_bits = get_alignment_bits(memop);
-    if (a_bits) {
-        tcg_out_test_alignment(s, true, addr_reg, a_bits);
+    if (ldst) {
+        ldst->type = data_type;
+        ldst->datalo_reg = data_reg;
+        ldst->raddr = tcg_splitwx_to_rx(s->code_ptr);
     }
-    if (USE_GUEST_BASE) {
-        h = (HostAddress){
-            .base = TCG_REG_GUEST_BASE,
-            .index = addr_reg,
-            .index_ext = addr_type
-        };
-    } else {
-        h = (HostAddress){
-            .base = addr_reg,
-            .index = TCG_REG_XZR,
-            .index_ext = TCG_TYPE_I64
-        };
-    }
-    tcg_out_qemu_ld_direct(s, memop, data_type, data_reg, h);
-#endif /* CONFIG_SOFTMMU */
 }
 
 static void tcg_out_qemu_st(TCGContext *s, TCGReg data_reg, TCGReg addr_reg,
                             MemOpIdx oi, TCGType data_type)
 {
-    MemOp memop = get_memop(oi);
-    TCGType addr_type = TARGET_LONG_BITS == 64 ? TCG_TYPE_I64 : TCG_TYPE_I32;
+    TCGLabelQemuLdst *ldst;
     HostAddress h;
 
-    /* Byte swapping is left to middle-end expansion. */
-    tcg_debug_assert((memop & MO_BSWAP) == 0);
+    ldst = prepare_host_addr(s, &h, addr_reg, oi, false);
+    tcg_out_qemu_st_direct(s, get_memop(oi), data_reg, h);
 
-#ifdef CONFIG_SOFTMMU
-    tcg_insn_unit *label_ptr;
-
-    tcg_out_tlb_read(s, addr_reg, memop, &label_ptr, get_mmuidx(oi), 0);
-
-    h = (HostAddress){
-        .base = TCG_REG_X1,
-        .index = addr_reg,
-        .index_ext = addr_type
-    };
-    tcg_out_qemu_st_direct(s, memop, data_reg, h);
-
-    add_qemu_ldst_label(s, false, oi, data_type, data_reg, addr_reg,
-                        s->code_ptr, label_ptr);
-#else /* !CONFIG_SOFTMMU */
-    unsigned a_bits = get_alignment_bits(memop);
-    if (a_bits) {
-        tcg_out_test_alignment(s, false, addr_reg, a_bits);
+    if (ldst) {
+        ldst->type = data_type;
+        ldst->datalo_reg = data_reg;
+        ldst->raddr = tcg_splitwx_to_rx(s->code_ptr);
     }
-    if (USE_GUEST_BASE) {
-        h = (HostAddress){
-            .base = TCG_REG_GUEST_BASE,
-            .index = addr_reg,
-            .index_ext = addr_type
-        };
-    } else {
-        h = (HostAddress){
-            .base = addr_reg,
-            .index = TCG_REG_XZR,
-            .index_ext = TCG_TYPE_I64
-        };
-    }
-    tcg_out_qemu_st_direct(s, memop, data_reg, h);
-#endif /* CONFIG_SOFTMMU */
 }
 
 static const tcg_insn_unit *tb_ret_addr;
-- 
2.34.1

Merge tcg_out_tlb_load, add_qemu_ldst_label, and some code that lived
in both tcg_out_qemu_ld and tcg_out_qemu_st into one function that
returns HostAddress and TCGLabelQemuLdst structures.

Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/arm/tcg-target.c.inc | 351 ++++++++++++++++++---------------------
 1 file changed, 159 insertions(+), 192 deletions(-)

diff --git a/tcg/arm/tcg-target.c.inc b/tcg/arm/tcg-target.c.inc
index XXXXXXX..XXXXXXX 100644
--- a/tcg/arm/tcg-target.c.inc
+++ b/tcg/arm/tcg-target.c.inc
@@ -XXX,XX +XXX,XX @@ static TCGReg tcg_out_arg_reg64(TCGContext *s, TCGReg argreg,
     }
 }
 
-#define TLB_SHIFT	(CPU_TLB_ENTRY_BITS + CPU_TLB_BITS)
-
-/* We expect to use an 9-bit sign-magnitude negative offset from ENV.  */
-QEMU_BUILD_BUG_ON(TLB_MASK_TABLE_OFS(0) > 0);
-QEMU_BUILD_BUG_ON(TLB_MASK_TABLE_OFS(0) < -256);
-
-/* These offsets are built into the LDRD below.  */
-QEMU_BUILD_BUG_ON(offsetof(CPUTLBDescFast, mask) != 0);
-QEMU_BUILD_BUG_ON(offsetof(CPUTLBDescFast, table) != 4);
-
-/* Load and compare a TLB entry, leaving the flags set.  Returns the register
-   containing the addend of the tlb entry.  Clobbers R0, R1, R2, TMP.  */
-
-static TCGReg tcg_out_tlb_read(TCGContext *s, TCGReg addrlo, TCGReg addrhi,
-                               MemOp opc, int mem_index, bool is_load)
-{
-    int cmp_off = (is_load ? offsetof(CPUTLBEntry, addr_read)
-                   : offsetof(CPUTLBEntry, addr_write));
-    int fast_off = TLB_MASK_TABLE_OFS(mem_index);
-    unsigned s_mask = (1 << (opc & MO_SIZE)) - 1;
-    unsigned a_mask = (1 << get_alignment_bits(opc)) - 1;
-    TCGReg t_addr;
-
-    /* Load env_tlb(env)->f[mmu_idx].{mask,table} into {r0,r1}.  */
-    tcg_out_ldrd_8(s, COND_AL, TCG_REG_R0, TCG_AREG0, fast_off);
-
-    /* Extract the tlb index from the address into R0.  */
-    tcg_out_dat_reg(s, COND_AL, ARITH_AND, TCG_REG_R0, TCG_REG_R0, addrlo,
-                    SHIFT_IMM_LSR(TARGET_PAGE_BITS - CPU_TLB_ENTRY_BITS));
-
-    /*
-     * Add the tlb_table pointer, creating the CPUTLBEntry address in R1.
-     * Load the tlb comparator into R2/R3 and the fast path addend into R1.
-     */
-    if (cmp_off == 0) {
-        if (TARGET_LONG_BITS == 64) {
-            tcg_out_ldrd_rwb(s, COND_AL, TCG_REG_R2, TCG_REG_R1, TCG_REG_R0);
-        } else {
-            tcg_out_ld32_rwb(s, COND_AL, TCG_REG_R2, TCG_REG_R1, TCG_REG_R0);
-        }
-    } else {
-        tcg_out_dat_reg(s, COND_AL, ARITH_ADD,
-                        TCG_REG_R1, TCG_REG_R1, TCG_REG_R0, 0);
-        if (TARGET_LONG_BITS == 64) {
-            tcg_out_ldrd_8(s, COND_AL, TCG_REG_R2, TCG_REG_R1, cmp_off);
-        } else {
-            tcg_out_ld32_12(s, COND_AL, TCG_REG_R2, TCG_REG_R1, cmp_off);
-        }
-    }
-
-    /* Load the tlb addend.  */
-    tcg_out_ld32_12(s, COND_AL, TCG_REG_R1, TCG_REG_R1,
-                    offsetof(CPUTLBEntry, addend));
-
-    /*
-     * Check alignment, check comparators.
-     * Do this in 2-4 insns.  Use MOVW for v7, if possible,
-     * to reduce the number of sequential conditional instructions.
-     * Almost all guests have at least 4k pages, which means that we need
-     * to clear at least 9 bits even for an 8-byte memory, which means it
-     * isn't worth checking for an immediate operand for BIC.
-     *
-     * For unaligned accesses, test the page of the last unit of alignment.
-     * This leaves the least significant alignment bits unchanged, and of
-     * course must be zero.
-     */
-    t_addr = addrlo;
-    if (a_mask < s_mask) {
-        t_addr = TCG_REG_R0;
-        tcg_out_dat_imm(s, COND_AL, ARITH_ADD, t_addr,
-                        addrlo, s_mask - a_mask);
-    }
-    if (use_armv7_instructions && TARGET_PAGE_BITS <= 16) {
-        tcg_out_movi32(s, COND_AL, TCG_REG_TMP, ~(TARGET_PAGE_MASK | a_mask));
-        tcg_out_dat_reg(s, COND_AL, ARITH_BIC, TCG_REG_TMP,
-                        t_addr, TCG_REG_TMP, 0);
-        tcg_out_dat_reg(s, COND_AL, ARITH_CMP, 0, TCG_REG_R2, TCG_REG_TMP, 0);
-    } else {
-        if (a_mask) {
-            tcg_debug_assert(a_mask <= 0xff);
-            tcg_out_dat_imm(s, COND_AL, ARITH_TST, 0, addrlo, a_mask);
-        }
-        tcg_out_dat_reg(s, COND_AL, ARITH_MOV, TCG_REG_TMP, 0, t_addr,
-                        SHIFT_IMM_LSR(TARGET_PAGE_BITS));
-        tcg_out_dat_reg(s, (a_mask ? COND_EQ : COND_AL), ARITH_CMP,
-                        0, TCG_REG_R2, TCG_REG_TMP,
-                        SHIFT_IMM_LSL(TARGET_PAGE_BITS));
-    }
-
-    if (TARGET_LONG_BITS == 64) {
-        tcg_out_dat_reg(s, COND_EQ, ARITH_CMP, 0, TCG_REG_R3, addrhi, 0);
-    }
-
-    return TCG_REG_R1;
-}
-
-/* Record the context of a call to the out of line helper code for the slow
-   path for a load or store, so that we can later generate the correct
-   helper code.  */
-static void add_qemu_ldst_label(TCGContext *s, bool is_ld,
-                                MemOpIdx oi, TCGType type,
-                                TCGReg datalo, TCGReg datahi,
-                                TCGReg addrlo, TCGReg addrhi,
-                                tcg_insn_unit *raddr,
-                                tcg_insn_unit *label_ptr)
-{
-    TCGLabelQemuLdst *label = new_ldst_label(s);
-
-    label->is_ld = is_ld;
-    label->oi = oi;
-    label->type = type;
-    label->datalo_reg = datalo;
-    label->datahi_reg = datahi;
-    label->addrlo_reg = addrlo;
-    label->addrhi_reg = addrhi;
-    label->raddr = tcg_splitwx_to_rx(raddr);
-    label->label_ptr[0] = label_ptr;
-}
-
 static bool tcg_out_qemu_ld_slow_path(TCGContext *s, TCGLabelQemuLdst *lb)
 {
     TCGReg argreg;
@@ -XXX,XX +XXX,XX @@ static bool tcg_out_qemu_st_slow_path(TCGContext *s, TCGLabelQemuLdst *lb)
     return true;
 }
 #else
-
-static void tcg_out_test_alignment(TCGContext *s, bool is_ld, TCGReg addrlo,
-                                   TCGReg addrhi, unsigned a_bits)
-{
-    unsigned a_mask = (1 << a_bits) - 1;
-    TCGLabelQemuLdst *label = new_ldst_label(s);
-
-    label->is_ld = is_ld;
-    label->addrlo_reg = addrlo;
-    label->addrhi_reg = addrhi;
-
-    /* We are expecting a_bits to max out at 7, and can easily support 8. */
-    tcg_debug_assert(a_mask <= 0xff);
-    /* tst addr, #mask */
-    tcg_out_dat_imm(s, COND_AL, ARITH_TST, 0, addrlo, a_mask);
-
-    /* blne slow_path */
-    label->label_ptr[0] = s->code_ptr;
-    tcg_out_bl_imm(s, COND_NE, 0);
-
-    label->raddr = tcg_splitwx_to_rx(s->code_ptr);
-}
-
 static bool tcg_out_fail_alignment(TCGContext *s, TCGLabelQemuLdst *l)
 {
     if (!reloc_pc24(l->label_ptr[0], tcg_splitwx_to_rx(s->code_ptr))) {
@@ -XXX,XX +XXX,XX @@ static bool tcg_out_qemu_st_slow_path(TCGContext *s, TCGLabelQemuLdst *l)
 }
 #endif /* SOFTMMU */
 
+static TCGLabelQemuLdst *prepare_host_addr(TCGContext *s, HostAddress *h,
+                                           TCGReg addrlo, TCGReg addrhi,
+                                           MemOpIdx oi, bool is_ld)
+{
+    TCGLabelQemuLdst *ldst = NULL;
+    MemOp opc = get_memop(oi);
+    MemOp a_bits = get_alignment_bits(opc);
+    unsigned a_mask = (1 << a_bits) - 1;
+
+#ifdef CONFIG_SOFTMMU
+    int mem_index = get_mmuidx(oi);
+    int cmp_off = is_ld ? offsetof(CPUTLBEntry, addr_read)
+                        : offsetof(CPUTLBEntry, addr_write);
+    int fast_off = TLB_MASK_TABLE_OFS(mem_index);
+    unsigned s_mask = (1 << (opc & MO_SIZE)) - 1;
+    TCGReg t_addr;
+
+    ldst = new_ldst_label(s);
+    ldst->is_ld = is_ld;
+    ldst->oi = oi;
+    ldst->addrlo_reg = addrlo;
+    ldst->addrhi_reg = addrhi;
+
+    /* Load env_tlb(env)->f[mmu_idx].{mask,table} into {r0,r1}.  */
+    QEMU_BUILD_BUG_ON(TLB_MASK_TABLE_OFS(0) > 0);
+    QEMU_BUILD_BUG_ON(TLB_MASK_TABLE_OFS(0) < -256);
+    QEMU_BUILD_BUG_ON(offsetof(CPUTLBDescFast, mask) != 0);
+    QEMU_BUILD_BUG_ON(offsetof(CPUTLBDescFast, table) != 4);
+    tcg_out_ldrd_8(s, COND_AL, TCG_REG_R0, TCG_AREG0, fast_off);
+
+    /* Extract the tlb index from the address into R0.  */
+    tcg_out_dat_reg(s, COND_AL, ARITH_AND, TCG_REG_R0, TCG_REG_R0, addrlo,
+                    SHIFT_IMM_LSR(TARGET_PAGE_BITS - CPU_TLB_ENTRY_BITS));
+
+    /*
+     * Add the tlb_table pointer, creating the CPUTLBEntry address in R1.
+     * Load the tlb comparator into R2/R3 and the fast path addend into R1.
+     */
+    if (cmp_off == 0) {
+        if (TARGET_LONG_BITS == 64) {
+            tcg_out_ldrd_rwb(s, COND_AL, TCG_REG_R2, TCG_REG_R1, TCG_REG_R0);
+        } else {
+            tcg_out_ld32_rwb(s, COND_AL, TCG_REG_R2, TCG_REG_R1, TCG_REG_R0);
+        }
+    } else {
+        tcg_out_dat_reg(s, COND_AL, ARITH_ADD,
+                        TCG_REG_R1, TCG_REG_R1, TCG_REG_R0, 0);
+        if (TARGET_LONG_BITS == 64) {
+            tcg_out_ldrd_8(s, COND_AL, TCG_REG_R2, TCG_REG_R1, cmp_off);
+        } else {
+            tcg_out_ld32_12(s, COND_AL, TCG_REG_R2, TCG_REG_R1, cmp_off);
+        }
+    }
+
+    /* Load the tlb addend.  */
+    tcg_out_ld32_12(s, COND_AL, TCG_REG_R1, TCG_REG_R1,
+                    offsetof(CPUTLBEntry, addend));
+
+    /*
+     * Check alignment, check comparators.
+     * Do this in 2-4 insns.  Use MOVW for v7, if possible,
+     * to reduce the number of sequential conditional instructions.
+     * Almost all guests have at least 4k pages, which means that we need
+     * to clear at least 9 bits even for an 8-byte memory, which means it
+     * isn't worth checking for an immediate operand for BIC.
+     *
+     * For unaligned accesses, test the page of the last unit of alignment.
+     * This leaves the least significant alignment bits unchanged, and of
+     * course must be zero.
+     */
+    t_addr = addrlo;
+    if (a_mask < s_mask) {
+        t_addr = TCG_REG_R0;
+        tcg_out_dat_imm(s, COND_AL, ARITH_ADD, t_addr,
+                        addrlo, s_mask - a_mask);
+    }
+    if (use_armv7_instructions && TARGET_PAGE_BITS <= 16) {
+        tcg_out_movi32(s, COND_AL, TCG_REG_TMP, ~(TARGET_PAGE_MASK | a_mask));
+        tcg_out_dat_reg(s, COND_AL, ARITH_BIC, TCG_REG_TMP,
+                        t_addr, TCG_REG_TMP, 0);
+        tcg_out_dat_reg(s, COND_AL, ARITH_CMP, 0, TCG_REG_R2, TCG_REG_TMP, 0);
+    } else {
+        if (a_mask) {
+            tcg_debug_assert(a_mask <= 0xff);
+            tcg_out_dat_imm(s, COND_AL, ARITH_TST, 0, addrlo, a_mask);
+        }
+        tcg_out_dat_reg(s, COND_AL, ARITH_MOV, TCG_REG_TMP, 0, t_addr,
+                        SHIFT_IMM_LSR(TARGET_PAGE_BITS));
+        tcg_out_dat_reg(s, (a_mask ? COND_EQ : COND_AL), ARITH_CMP,
+                        0, TCG_REG_R2, TCG_REG_TMP,
+                        SHIFT_IMM_LSL(TARGET_PAGE_BITS));
+    }
+
+    if (TARGET_LONG_BITS == 64) {
+        tcg_out_dat_reg(s, COND_EQ, ARITH_CMP, 0, TCG_REG_R3, addrhi, 0);
+    }
+
+    *h = (HostAddress){
+        .cond = COND_AL,
+        .base = addrlo,
+        .index = TCG_REG_R1,
+        .index_scratch = true,
+    };
+#else
+    if (a_mask) {
+        ldst = new_ldst_label(s);
+        ldst->is_ld = is_ld;
+        ldst->oi = oi;
+        ldst->addrlo_reg = addrlo;
+        ldst->addrhi_reg = addrhi;
+
+        /* We are expecting a_bits to max out at 7 */
+        tcg_debug_assert(a_mask <= 0xff);
+        /* tst addr, #mask */
+        tcg_out_dat_imm(s, COND_AL, ARITH_TST, 0, addrlo, a_mask);
+    }
+
+    *h = (HostAddress){
+        .cond = COND_AL,
+        .base = addrlo,
+        .index = guest_base ? TCG_REG_GUEST_BASE : -1,
+        .index_scratch = false,
+    };
+#endif
+
+    return ldst;
+}
+
 static void tcg_out_qemu_ld_direct(TCGContext *s, MemOp opc, TCGReg datalo,
                                    TCGReg datahi, HostAddress h)
 {
@@ -XXX,XX +XXX,XX @@ static void tcg_out_qemu_ld(TCGContext *s, TCGReg datalo, TCGReg datahi,
                             MemOpIdx oi, TCGType data_type)
 {
     MemOp opc = get_memop(oi);
+    TCGLabelQemuLdst *ldst;
     HostAddress h;
 
-#ifdef CONFIG_SOFTMMU
-    h.cond = COND_AL;
-    h.base = addrlo;
-    h.index_scratch = true;
-    h.index = tcg_out_tlb_read(s, addrlo, addrhi, opc, get_mmuidx(oi), 1);
+    ldst = prepare_host_addr(s, &h, addrlo, addrhi, oi, true);
+    if (ldst) {
+        ldst->type = data_type;
+        ldst->datalo_reg = datalo;
+        ldst->datahi_reg = datahi;
 
-    /*
-     * This a conditional BL only to load a pointer within this opcode into
-     * LR for the slow path.  We will not be using the value for a tail call.
-     */
-    tcg_insn_unit *label_ptr = s->code_ptr;
-    tcg_out_bl_imm(s, COND_NE, 0);
+        /*
+         * This a conditional BL only to load a pointer within this
+         * opcode into LR for the slow path.  We will not be using
+         * the value for a tail call.
+         */
+        ldst->label_ptr[0] = s->code_ptr;
+        tcg_out_bl_imm(s, COND_NE, 0);
 
-    tcg_out_qemu_ld_direct(s, opc, datalo, datahi, h);
-
-    add_qemu_ldst_label(s, true, oi, data_type, datalo, datahi,
-                        addrlo, addrhi, s->code_ptr, label_ptr);
-#else
-    unsigned a_bits = get_alignment_bits(opc);
-    if (a_bits) {
-        tcg_out_test_alignment(s, true, addrlo, addrhi, a_bits);
+        tcg_out_qemu_ld_direct(s, opc, datalo, datahi, h);
+        ldst->raddr = tcg_splitwx_to_rx(s->code_ptr);
+    } else {
+        tcg_out_qemu_ld_direct(s, opc, datalo, datahi, h);
     }
-
-    h.cond = COND_AL;
-    h.base = addrlo;
-    h.index = guest_base ? TCG_REG_GUEST_BASE : -1;
-    h.index_scratch = false;
-    tcg_out_qemu_ld_direct(s, opc, datalo, datahi, h);
-#endif
 }
 
 static void tcg_out_qemu_st_direct(TCGContext *s, MemOp opc, TCGReg datalo,
@@ -XXX,XX +XXX,XX @@ static void tcg_out_qemu_st(TCGContext *s, TCGReg datalo, TCGReg datahi,
                             MemOpIdx oi, TCGType data_type)
 {
     MemOp opc = get_memop(oi);
+    TCGLabelQemuLdst *ldst;
     HostAddress h;
 
-#ifdef CONFIG_SOFTMMU
-    h.cond = COND_EQ;
-    h.base = addrlo;
-    h.index_scratch = true;
-    h.index = tcg_out_tlb_read(s, addrlo, addrhi, opc, get_mmuidx(oi), 0);
-    tcg_out_qemu_st_direct(s, opc, datalo, datahi, h);
+    ldst = prepare_host_addr(s, &h, addrlo, addrhi, oi, false);
+    if (ldst) {
+        ldst->type = data_type;
+        ldst->datalo_reg = datalo;
+        ldst->datahi_reg = datahi;
 
-    /* The conditional call must come last, as we're going to return here.  */
-    tcg_insn_unit *label_ptr = s->code_ptr;
-    tcg_out_bl_imm(s, COND_NE, 0);
-
-    add_qemu_ldst_label(s, false, oi, data_type, datalo, datahi,
-                        addrlo, addrhi, s->code_ptr, label_ptr);
-#else
-    unsigned a_bits = get_alignment_bits(opc);
-
-    h.cond = COND_AL;
-    if (a_bits) {
-        tcg_out_test_alignment(s, false, addrlo, addrhi, a_bits);
         h.cond = COND_EQ;
-    }
+        tcg_out_qemu_st_direct(s, opc, datalo, datahi, h);
 
-    h.base = addrlo;
-    h.index = guest_base ? TCG_REG_GUEST_BASE : -1;
-    h.index_scratch = false;
-    tcg_out_qemu_st_direct(s, opc, datalo, datahi, h);
-#endif
+        /* The conditional call is last, as we're going to return here. */
+        ldst->label_ptr[0] = s->code_ptr;
+        tcg_out_bl_imm(s, COND_NE, 0);
+        ldst->raddr = tcg_splitwx_to_rx(s->code_ptr);
+    } else {
+        tcg_out_qemu_st_direct(s, opc, datalo, datahi, h);
+    }
 }
 
 static void tcg_out_epilogue(TCGContext *s);
-- 
2.34.1

Merge tcg_out_tlb_load, add_qemu_ldst_label, tcg_out_test_alignment,
tcg_out_zext_addr_if_32_bit, and some code that lived in both
tcg_out_qemu_ld and tcg_out_qemu_st into one function that returns
HostAddress and TCGLabelQemuLdst structures.

Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/loongarch64/tcg-target.c.inc | 255 +++++++++++++------------------
 1 file changed, 105 insertions(+), 150 deletions(-)

diff --git a/tcg/loongarch64/tcg-target.c.inc b/tcg/loongarch64/tcg-target.c.inc
index XXXXXXX..XXXXXXX 100644
--- a/tcg/loongarch64/tcg-target.c.inc
+++ b/tcg/loongarch64/tcg-target.c.inc
@@ -XXX,XX +XXX,XX @@ static void * const qemu_st_helpers[4] = {
     [MO_64] = helper_le_stq_mmu,
 };
 
-/* We expect to use a 12-bit negative offset from ENV.  */
-QEMU_BUILD_BUG_ON(TLB_MASK_TABLE_OFS(0) > 0);
-QEMU_BUILD_BUG_ON(TLB_MASK_TABLE_OFS(0) < -(1 << 11));
-
 static bool tcg_out_goto(TCGContext *s, const tcg_insn_unit *target)
 {
     tcg_out_opc_b(s, 0);
     return reloc_br_sd10k16(s->code_ptr - 1, target);
 }
 
-/*
- * Emits common code for TLB addend lookup, that eventually loads the
- * addend in TCG_REG_TMP2.
- */
-static void tcg_out_tlb_load(TCGContext *s, TCGReg addrl, MemOpIdx oi,
-                             tcg_insn_unit **label_ptr, bool is_load)
-{
-    MemOp opc = get_memop(oi);
-    unsigned s_bits = opc & MO_SIZE;
-    unsigned a_bits = get_alignment_bits(opc);
-    tcg_target_long compare_mask;
-    int mem_index = get_mmuidx(oi);
-    int fast_ofs = TLB_MASK_TABLE_OFS(mem_index);
-    int mask_ofs = fast_ofs + offsetof(CPUTLBDescFast, mask);
-    int table_ofs = fast_ofs + offsetof(CPUTLBDescFast, table);
-
-    tcg_out_ld(s, TCG_TYPE_PTR, TCG_REG_TMP0, TCG_AREG0, mask_ofs);
-    tcg_out_ld(s, TCG_TYPE_PTR, TCG_REG_TMP1, TCG_AREG0, table_ofs);
-
-    tcg_out_opc_srli_d(s, TCG_REG_TMP2, addrl,
-                    TARGET_PAGE_BITS - CPU_TLB_ENTRY_BITS);
-    tcg_out_opc_and(s, TCG_REG_TMP2, TCG_REG_TMP2, TCG_REG_TMP0);
-    tcg_out_opc_add_d(s, TCG_REG_TMP2, TCG_REG_TMP2, TCG_REG_TMP1);
-
-    /* Load the tlb comparator and the addend.  */
-    tcg_out_ld(s, TCG_TYPE_TL, TCG_REG_TMP0, TCG_REG_TMP2,
-               is_load ? offsetof(CPUTLBEntry, addr_read)
-               : offsetof(CPUTLBEntry, addr_write));
-    tcg_out_ld(s, TCG_TYPE_PTR, TCG_REG_TMP2, TCG_REG_TMP2,
-               offsetof(CPUTLBEntry, addend));
-
-    /* We don't support unaligned accesses.  */
-    if (a_bits < s_bits) {
-        a_bits = s_bits;
-    }
-    /* Clear the non-page, non-alignment bits from the address.  */
-    compare_mask = (tcg_target_long)TARGET_PAGE_MASK | ((1 << a_bits) - 1);
-    tcg_out_movi(s, TCG_TYPE_TL, TCG_REG_TMP1, compare_mask);
-    tcg_out_opc_and(s, TCG_REG_TMP1, TCG_REG_TMP1, addrl);
-
-    /* Compare masked address with the TLB entry.  */
-    label_ptr[0] = s->code_ptr;
-    tcg_out_opc_bne(s, TCG_REG_TMP0, TCG_REG_TMP1, 0);
-
-    /* TLB Hit - addend in TCG_REG_TMP2, ready for use.  */
-}
-
-static void add_qemu_ldst_label(TCGContext *s, int is_ld, MemOpIdx oi,
-                                TCGType type,
-                                TCGReg datalo, TCGReg addrlo,
-                                void *raddr, tcg_insn_unit **label_ptr)
-{
-    TCGLabelQemuLdst *label = new_ldst_label(s);
-
-    label->is_ld = is_ld;
-    label->oi = oi;
-    label->type = type;
-    label->datalo_reg = datalo;
-    label->datahi_reg = 0; /* unused */
-    label->addrlo_reg = addrlo;
-    label->addrhi_reg = 0; /* unused */
-    label->raddr = tcg_splitwx_to_rx(raddr);
-    label->label_ptr[0] = label_ptr[0];
-}
-
 static bool tcg_out_qemu_ld_slow_path(TCGContext *s, TCGLabelQemuLdst *l)
 {
     MemOpIdx oi = l->oi;
@@ -XXX,XX +XXX,XX @@ static bool tcg_out_qemu_st_slow_path(TCGContext *s, TCGLabelQemuLdst *l)
     return tcg_out_goto(s, l->raddr);
 }
 #else
-
-/*
- * Alignment helpers for user-mode emulation
- */
-
-static void tcg_out_test_alignment(TCGContext *s, bool is_ld, TCGReg addr_reg,
-                                   unsigned a_bits)
-{
-    TCGLabelQemuLdst *l = new_ldst_label(s);
-
-    l->is_ld = is_ld;
-    l->addrlo_reg = addr_reg;
-
-    /*
-     * Without micro-architecture details, we don't know which of bstrpick or
-     * andi is faster, so use bstrpick as it's not constrained by imm field
-     * width. (Not to say alignments >= 2^12 are going to happen any time
-     * soon, though)
-     */
-    tcg_out_opc_bstrpick_d(s, TCG_REG_TMP1, addr_reg, 0, a_bits - 1);
-
-    l->label_ptr[0] = s->code_ptr;
-    tcg_out_opc_bne(s, TCG_REG_TMP1, TCG_REG_ZERO, 0);
-
-    l->raddr = tcg_splitwx_to_rx(s->code_ptr);
-}
-
 static bool tcg_out_fail_alignment(TCGContext *s, TCGLabelQemuLdst *l)
 {
     /* resolve label address */
@@ -XXX,XX +XXX,XX @@ static bool tcg_out_qemu_st_slow_path(TCGContext *s, TCGLabelQemuLdst *l)
 
 #endif /* CONFIG_SOFTMMU */
 
-/*
- * `ext32u` the address register into the temp register given,
- * if target is 32-bit, no-op otherwise.
- *
- * Returns the address register ready for use with TLB addend.
- */
-static TCGReg tcg_out_zext_addr_if_32_bit(TCGContext *s,
-                                          TCGReg addr, TCGReg tmp)
-{
-    if (TARGET_LONG_BITS == 32) {
-        tcg_out_ext32u(s, tmp, addr);
-        return tmp;
-    }
-    return addr;
-}
-
 typedef struct {
     TCGReg base;
     TCGReg index;
 } HostAddress;
 
+/*
+ * For softmmu, perform the TLB load and compare.
+ * For useronly, perform any required alignment tests.
+ * In both cases, return a TCGLabelQemuLdst structure if the slow path
+ * is required and fill in @h with the host address for the fast path.
+ */
+static TCGLabelQemuLdst *prepare_host_addr(TCGContext *s, HostAddress *h,
+                                           TCGReg addr_reg, MemOpIdx oi,
+                                           bool is_ld)
+{
+    TCGLabelQemuLdst *ldst = NULL;
+    MemOp opc = get_memop(oi);
+    unsigned a_bits = get_alignment_bits(opc);
+
+#ifdef CONFIG_SOFTMMU
+    unsigned s_bits = opc & MO_SIZE;
+    int mem_index = get_mmuidx(oi);
+    int fast_ofs = TLB_MASK_TABLE_OFS(mem_index);
+    int mask_ofs = fast_ofs + offsetof(CPUTLBDescFast, mask);
+    int table_ofs = fast_ofs + offsetof(CPUTLBDescFast, table);
+    tcg_target_long compare_mask;
+
+    ldst = new_ldst_label(s);
+    ldst->is_ld = is_ld;
+    ldst->oi = oi;
+    ldst->addrlo_reg = addr_reg;
+
+    QEMU_BUILD_BUG_ON(TLB_MASK_TABLE_OFS(0) > 0);
+    QEMU_BUILD_BUG_ON(TLB_MASK_TABLE_OFS(0) < -(1 << 11));
+    tcg_out_ld(s, TCG_TYPE_PTR, TCG_REG_TMP0, TCG_AREG0, mask_ofs);
+    tcg_out_ld(s, TCG_TYPE_PTR, TCG_REG_TMP1, TCG_AREG0, table_ofs);
+
+    tcg_out_opc_srli_d(s, TCG_REG_TMP2, addr_reg,
+                    TARGET_PAGE_BITS - CPU_TLB_ENTRY_BITS);
+    tcg_out_opc_and(s, TCG_REG_TMP2, TCG_REG_TMP2, TCG_REG_TMP0);
+    tcg_out_opc_add_d(s, TCG_REG_TMP2, TCG_REG_TMP2, TCG_REG_TMP1);
+
+    /* Load the tlb comparator and the addend.  */
+    tcg_out_ld(s, TCG_TYPE_TL, TCG_REG_TMP0, TCG_REG_TMP2,
+               is_ld ? offsetof(CPUTLBEntry, addr_read)
+                     : offsetof(CPUTLBEntry, addr_write));
+    tcg_out_ld(s, TCG_TYPE_PTR, TCG_REG_TMP2, TCG_REG_TMP2,
+               offsetof(CPUTLBEntry, addend));
+
+    /* We don't support unaligned accesses.  */
+    if (a_bits < s_bits) {
+        a_bits = s_bits;
+    }
+    /* Clear the non-page, non-alignment bits from the address.  */
+    compare_mask = (tcg_target_long)TARGET_PAGE_MASK | ((1 << a_bits) - 1);
+    tcg_out_movi(s, TCG_TYPE_TL, TCG_REG_TMP1, compare_mask);
+    tcg_out_opc_and(s, TCG_REG_TMP1, TCG_REG_TMP1, addr_reg);
+
+    /* Compare masked address with the TLB entry.  */
+    ldst->label_ptr[0] = s->code_ptr;
+    tcg_out_opc_bne(s, TCG_REG_TMP0, TCG_REG_TMP1, 0);
+
+    h->index = TCG_REG_TMP2;
+#else
+    if (a_bits) {
+        ldst = new_ldst_label(s);
+
+        ldst->is_ld = is_ld;
+        ldst->oi = oi;
+        ldst->addrlo_reg = addr_reg;
+
+        /*
+         * Without micro-architecture details, we don't know which of
+         * bstrpick or andi is faster, so use bstrpick as it's not
+         * constrained by imm field width. Not to say alignments >= 2^12
+         * are going to happen any time soon.
+         */
+        tcg_out_opc_bstrpick_d(s, TCG_REG_TMP1, addr_reg, 0, a_bits - 1);
+
+        ldst->label_ptr[0] = s->code_ptr;
+        tcg_out_opc_bne(s, TCG_REG_TMP1, TCG_REG_ZERO, 0);
+    }
+
+    h->index = USE_GUEST_BASE ? TCG_GUEST_BASE_REG : TCG_REG_ZERO;
+#endif
+
+    if (TARGET_LONG_BITS == 32) {
+        h->base = TCG_REG_TMP0;
+        tcg_out_ext32u(s, h->base, addr_reg);
+    } else {
+        h->base = addr_reg;
+    }
+
+    return ldst;
+}
+
 static void tcg_out_qemu_ld_indexed(TCGContext *s, MemOp opc, TCGType type,
                                     TCGReg rd, HostAddress h)
 {
@@ -XXX,XX +XXX,XX @@ static void tcg_out_qemu_ld_indexed(TCGContext *s, MemOp opc, TCGType type,
 static void tcg_out_qemu_ld(TCGContext *s, TCGReg data_reg, TCGReg addr_reg,
                             MemOpIdx oi, TCGType data_type)
 {
-    MemOp opc = get_memop(oi);
+    TCGLabelQemuLdst *ldst;
     HostAddress h;
 
-#ifdef CONFIG_SOFTMMU
-    tcg_insn_unit *label_ptr[1];
+    ldst = prepare_host_addr(s, &h, addr_reg, oi, true);
+    tcg_out_qemu_ld_indexed(s, get_memop(oi), data_type, data_reg, h);
 
-    tcg_out_tlb_load(s, addr_reg, oi, label_ptr, 1);
-    h.index = TCG_REG_TMP2;
-#else
-    unsigned a_bits = get_alignment_bits(opc);
-    if (a_bits) {
-        tcg_out_test_alignment(s, true, addr_reg, a_bits);
+    if (ldst) {
+        ldst->type = data_type;
+        ldst->datalo_reg = data_reg;
+        ldst->raddr = tcg_splitwx_to_rx(s->code_ptr);
     }
-    h.index = USE_GUEST_BASE ? TCG_GUEST_BASE_REG : TCG_REG_ZERO;
-#endif
-
-    h.base = tcg_out_zext_addr_if_32_bit(s, addr_reg, TCG_REG_TMP0);
-    tcg_out_qemu_ld_indexed(s, opc, data_type, data_reg, h);
-
-#ifdef CONFIG_SOFTMMU
-    add_qemu_ldst_label(s, true, oi, data_type, data_reg, addr_reg,
-                        s->code_ptr, label_ptr);
-#endif
 }
 
 static void tcg_out_qemu_st_indexed(TCGContext *s, MemOp opc,
@@ -XXX,XX +XXX,XX @@ static void tcg_out_qemu_st_indexed(TCGContext *s, MemOp opc,
 static void tcg_out_qemu_st(TCGContext *s, TCGReg data_reg, TCGReg addr_reg,
                             MemOpIdx oi, TCGType data_type)
 {
-    MemOp opc = get_memop(oi);
+    TCGLabelQemuLdst *ldst;
     HostAddress h;
 
-#ifdef CONFIG_SOFTMMU
-    tcg_insn_unit *label_ptr[1];
+    ldst = prepare_host_addr(s, &h, addr_reg, oi, false);
+    tcg_out_qemu_st_indexed(s, get_memop(oi), data_reg, h);
 
-    tcg_out_tlb_load(s, addr_reg, oi, label_ptr, 0);
-    h.index = TCG_REG_TMP2;
-#else
-    unsigned a_bits = get_alignment_bits(opc);
-    if (a_bits) {
-        tcg_out_test_alignment(s, false, addr_reg, a_bits);
+    if (ldst) {
+        ldst->type = data_type;
+        ldst->datalo_reg = data_reg;
+        ldst->raddr = tcg_splitwx_to_rx(s->code_ptr);
     }
-    h.index = USE_GUEST_BASE ? TCG_GUEST_BASE_REG : TCG_REG_ZERO;
-#endif
-
-    h.base = tcg_out_zext_addr_if_32_bit(s, addr_reg, TCG_REG_TMP0);
-    tcg_out_qemu_st_indexed(s, opc, data_reg, h);
-
-#ifdef CONFIG_SOFTMMU
-    add_qemu_ldst_label(s, false, oi, data_type, data_reg, addr_reg,
-                        s->code_ptr, label_ptr);
-#endif
 }
 
 /*
-- 
2.34.1

Merge tcg_out_tlb_load, add_qemu_ldst_label, tcg_out_test_alignment,
and some code that lived in both tcg_out_qemu_ld and tcg_out_qemu_st
into one function that returns HostAddress and TCGLabelQemuLdst structures.

Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/mips/tcg-target.c.inc | 404 ++++++++++++++++----------------------
 1 file changed, 172 insertions(+), 232 deletions(-)

diff --git a/tcg/mips/tcg-target.c.inc b/tcg/mips/tcg-target.c.inc
index XXXXXXX..XXXXXXX 100644
--- a/tcg/mips/tcg-target.c.inc
+++ b/tcg/mips/tcg-target.c.inc
@@ -XXX,XX +XXX,XX @@ static int tcg_out_call_iarg_reg2(TCGContext *s, int i, TCGReg al, TCGReg ah)
     return i;
 }
 
-/* We expect to use a 16-bit negative offset from ENV.  */
-QEMU_BUILD_BUG_ON(TLB_MASK_TABLE_OFS(0) > 0);
-QEMU_BUILD_BUG_ON(TLB_MASK_TABLE_OFS(0) < -32768);
-
-/*
- * Perform the tlb comparison operation.
- * The complete host address is placed in BASE.
- * Clobbers TMP0, TMP1, TMP2, TMP3.
- */
-static void tcg_out_tlb_load(TCGContext *s, TCGReg base, TCGReg addrl,
-                             TCGReg addrh, MemOpIdx oi,
-                             tcg_insn_unit *label_ptr[2], bool is_load)
-{
-    MemOp opc = get_memop(oi);
-    unsigned a_bits = get_alignment_bits(opc);
-    unsigned s_bits = opc & MO_SIZE;
-    unsigned a_mask = (1 << a_bits) - 1;
-    unsigned s_mask = (1 << s_bits) - 1;
-    int mem_index = get_mmuidx(oi);
-    int fast_off = TLB_MASK_TABLE_OFS(mem_index);
-    int mask_off = fast_off + offsetof(CPUTLBDescFast, mask);
-    int table_off = fast_off + offsetof(CPUTLBDescFast, table);
-    int add_off = offsetof(CPUTLBEntry, addend);
-    int cmp_off = (is_load ? offsetof(CPUTLBEntry, addr_read)
-                   : offsetof(CPUTLBEntry, addr_write));
-    target_ulong tlb_mask;
-
-    /* Load tlb_mask[mmu_idx] and tlb_table[mmu_idx].  */
-    tcg_out_ld(s, TCG_TYPE_PTR, TCG_TMP0, TCG_AREG0, mask_off);
-    tcg_out_ld(s, TCG_TYPE_PTR, TCG_TMP1, TCG_AREG0, table_off);
-
-    /* Extract the TLB index from the address into TMP3.  */
-    tcg_out_opc_sa(s, ALIAS_TSRL, TCG_TMP3, addrl,
-                   TARGET_PAGE_BITS - CPU_TLB_ENTRY_BITS);
-    tcg_out_opc_reg(s, OPC_AND, TCG_TMP3, TCG_TMP3, TCG_TMP0);
-
-    /* Add the tlb_table pointer, creating the CPUTLBEntry address in TMP3.  */
-    tcg_out_opc_reg(s, ALIAS_PADD, TCG_TMP3, TCG_TMP3, TCG_TMP1);
-
-    /* Load the (low-half) tlb comparator.  */
-    if (TCG_TARGET_REG_BITS < TARGET_LONG_BITS) {
-        tcg_out_ldst(s, OPC_LW, TCG_TMP0, TCG_TMP3, cmp_off + LO_OFF);
-    } else {
-        tcg_out_ldst(s, (TARGET_LONG_BITS == 64 ? OPC_LD
-                         : TCG_TARGET_REG_BITS == 64 ? OPC_LWU : OPC_LW),
-                     TCG_TMP0, TCG_TMP3, cmp_off);
-    }
-
-    /* Zero extend a 32-bit guest address for a 64-bit host. */
-    if (TCG_TARGET_REG_BITS > TARGET_LONG_BITS) {
-        tcg_out_ext32u(s, base, addrl);
-        addrl = base;
-    }
-
-    /*
-     * Mask the page bits, keeping the alignment bits to compare against.
-     * For unaligned accesses, compare against the end of the access to
-     * verify that it does not cross a page boundary.
-     */
-    tlb_mask = (target_ulong)TARGET_PAGE_MASK | a_mask;
-    tcg_out_movi(s, TCG_TYPE_I32, TCG_TMP1, tlb_mask);
-    if (a_mask >= s_mask) {
-        tcg_out_opc_reg(s, OPC_AND, TCG_TMP1, TCG_TMP1, addrl);
-    } else {
-        tcg_out_opc_imm(s, ALIAS_PADDI, TCG_TMP2, addrl, s_mask - a_mask);
-        tcg_out_opc_reg(s, OPC_AND, TCG_TMP1, TCG_TMP1, TCG_TMP2);
-    }
-
-    if (TCG_TARGET_REG_BITS >= TARGET_LONG_BITS) {
-        /* Load the tlb addend for the fast path.  */
-        tcg_out_ld(s, TCG_TYPE_PTR, TCG_TMP2, TCG_TMP3, add_off);
-    }
-
-    label_ptr[0] = s->code_ptr;
-    tcg_out_opc_br(s, OPC_BNE, TCG_TMP1, TCG_TMP0);
-
-    /* Load and test the high half tlb comparator.  */
-    if (TCG_TARGET_REG_BITS < TARGET_LONG_BITS) {
-        /* delay slot */
-        tcg_out_ldst(s, OPC_LW, TCG_TMP0, TCG_TMP3, cmp_off + HI_OFF);
-
-        /* Load the tlb addend for the fast path.  */
-        tcg_out_ld(s, TCG_TYPE_PTR, TCG_TMP2, TCG_TMP3, add_off);
-
-        label_ptr[1] = s->code_ptr;
-        tcg_out_opc_br(s, OPC_BNE, addrh, TCG_TMP0);
-    }
-
-    /* delay slot */
-    tcg_out_opc_reg(s, ALIAS_PADD, base, TCG_TMP2, addrl);
-}
-
-static void add_qemu_ldst_label(TCGContext *s, int is_ld, MemOpIdx oi,
-                                TCGType ext,
-                                TCGReg datalo, TCGReg datahi,
-                                TCGReg addrlo, TCGReg addrhi,
-                                void *raddr, tcg_insn_unit *label_ptr[2])
-{
-    TCGLabelQemuLdst *label = new_ldst_label(s);
-
-    label->is_ld = is_ld;
-    label->oi = oi;
-    label->type = ext;
-    label->datalo_reg = datalo;
-    label->datahi_reg = datahi;
-    label->addrlo_reg = addrlo;
-    label->addrhi_reg = addrhi;
-    label->raddr = tcg_splitwx_to_rx(raddr);
-    label->label_ptr[0] = label_ptr[0];
-    if (TCG_TARGET_REG_BITS < TARGET_LONG_BITS) {
-        label->label_ptr[1] = label_ptr[1];
-    }
-}
-
 static bool tcg_out_qemu_ld_slow_path(TCGContext *s, TCGLabelQemuLdst *l)
 {
     const tcg_insn_unit *tgt_rx = tcg_splitwx_to_rx(s->code_ptr);
@@ -XXX,XX +XXX,XX @@ static bool tcg_out_qemu_st_slow_path(TCGContext *s, TCGLabelQemuLdst *l)
 }
 
 #else
-
-static void tcg_out_test_alignment(TCGContext *s, bool is_ld, TCGReg addrlo,
-                                   TCGReg addrhi, unsigned a_bits)
-{
-    unsigned a_mask = (1 << a_bits) - 1;
-    TCGLabelQemuLdst *l = new_ldst_label(s);
-
-    l->is_ld = is_ld;
-    l->addrlo_reg = addrlo;
-    l->addrhi_reg = addrhi;
-
-    /* We are expecting a_bits to max out at 7, much lower than ANDI. */
-    tcg_debug_assert(a_bits < 16);
-    tcg_out_opc_imm(s, OPC_ANDI, TCG_TMP0, addrlo, a_mask);
-
-    l->label_ptr[0] = s->code_ptr;
-    if (use_mips32r6_instructions) {
-        tcg_out_opc_br(s, OPC_BNEZALC_R6, TCG_REG_ZERO, TCG_TMP0);
-    } else {
-        tcg_out_opc_br(s, OPC_BNEL, TCG_TMP0, TCG_REG_ZERO);
-        tcg_out_nop(s);
-    }
-
-    l->raddr = tcg_splitwx_to_rx(s->code_ptr);
-}
-
 static bool tcg_out_fail_alignment(TCGContext *s, TCGLabelQemuLdst *l)
 {
     void *target;
@@ -XXX,XX +XXX,XX @@ static bool tcg_out_qemu_st_slow_path(TCGContext *s, TCGLabelQemuLdst *l)
 }
 #endif /* SOFTMMU */
 
+typedef struct {
+    TCGReg base;
+    MemOp align;
+} HostAddress;
+
+/*
+ * For softmmu, perform the TLB load and compare.
+ * For useronly, perform any required alignment tests.
+ * In both cases, return a TCGLabelQemuLdst structure if the slow path
+ * is required and fill in @h with the host address for the fast path.
+ */
+static TCGLabelQemuLdst *prepare_host_addr(TCGContext *s, HostAddress *h,
+                                           TCGReg addrlo, TCGReg addrhi,
+                                           MemOpIdx oi, bool is_ld)
+{
+    TCGLabelQemuLdst *ldst = NULL;
+    MemOp opc = get_memop(oi);
+    unsigned a_bits = get_alignment_bits(opc);
+    unsigned s_bits = opc & MO_SIZE;
+    unsigned a_mask = (1 << a_bits) - 1;
+    TCGReg base;
+
+#ifdef CONFIG_SOFTMMU
+    unsigned s_mask = (1 << s_bits) - 1;
+    int mem_index = get_mmuidx(oi);
+    int fast_off = TLB_MASK_TABLE_OFS(mem_index);
+    int mask_off = fast_off + offsetof(CPUTLBDescFast, mask);
+    int table_off = fast_off + offsetof(CPUTLBDescFast, table);
+    int add_off = offsetof(CPUTLBEntry, addend);
+    int cmp_off = is_ld ? offsetof(CPUTLBEntry, addr_read)
+                        : offsetof(CPUTLBEntry, addr_write);
+    target_ulong tlb_mask;
+
+    ldst = new_ldst_label(s);
+    ldst->is_ld = is_ld;
+    ldst->oi = oi;
+    ldst->addrlo_reg = addrlo;
+    ldst->addrhi_reg = addrhi;
+    base = TCG_REG_A0;
+
+    /* Load tlb_mask[mmu_idx] and tlb_table[mmu_idx].  */
+    QEMU_BUILD_BUG_ON(TLB_MASK_TABLE_OFS(0) > 0);
+    QEMU_BUILD_BUG_ON(TLB_MASK_TABLE_OFS(0) < -32768);
+    tcg_out_ld(s, TCG_TYPE_PTR, TCG_TMP0, TCG_AREG0, mask_off);
+    tcg_out_ld(s, TCG_TYPE_PTR, TCG_TMP1, TCG_AREG0, table_off);
+
+    /* Extract the TLB index from the address into TMP3.  */
+    tcg_out_opc_sa(s, ALIAS_TSRL, TCG_TMP3, addrlo,
+                   TARGET_PAGE_BITS - CPU_TLB_ENTRY_BITS);
+    tcg_out_opc_reg(s, OPC_AND, TCG_TMP3, TCG_TMP3, TCG_TMP0);
+
+    /* Add the tlb_table pointer, creating the CPUTLBEntry address in TMP3.  */
+    tcg_out_opc_reg(s, ALIAS_PADD, TCG_TMP3, TCG_TMP3, TCG_TMP1);
+
+    /* Load the (low-half) tlb comparator.  */
+    if (TCG_TARGET_REG_BITS < TARGET_LONG_BITS) {
+        tcg_out_ldst(s, OPC_LW, TCG_TMP0, TCG_TMP3, cmp_off + LO_OFF);
+    } else {
+        tcg_out_ldst(s, (TARGET_LONG_BITS == 64 ? OPC_LD
+                         : TCG_TARGET_REG_BITS == 64 ? OPC_LWU : OPC_LW),
+                     TCG_TMP0, TCG_TMP3, cmp_off);
+    }
+
+    /* Zero extend a 32-bit guest address for a 64-bit host. */
+    if (TCG_TARGET_REG_BITS > TARGET_LONG_BITS) {
+        tcg_out_ext32u(s, base, addrlo);
+        addrlo = base;
+    }
+
+    /*
+     * Mask the page bits, keeping the alignment bits to compare against.
+     * For unaligned accesses, compare against the end of the access to
+     * verify that it does not cross a page boundary.
+     */
+    tlb_mask = (target_ulong)TARGET_PAGE_MASK | a_mask;
+    tcg_out_movi(s, TCG_TYPE_I32, TCG_TMP1, tlb_mask);
+    if (a_mask >= s_mask) {
+        tcg_out_opc_reg(s, OPC_AND, TCG_TMP1, TCG_TMP1, addrlo);
+    } else {
+        tcg_out_opc_imm(s, ALIAS_PADDI, TCG_TMP2, addrlo, s_mask - a_mask);
+        tcg_out_opc_reg(s, OPC_AND, TCG_TMP1, TCG_TMP1, TCG_TMP2);
+    }
+
+    if (TCG_TARGET_REG_BITS >= TARGET_LONG_BITS) {
+        /* Load the tlb addend for the fast path.  */
+        tcg_out_ld(s, TCG_TYPE_PTR, TCG_TMP2, TCG_TMP3, add_off);
+    }
+
+    ldst->label_ptr[0] = s->code_ptr;
+    tcg_out_opc_br(s, OPC_BNE, TCG_TMP1, TCG_TMP0);
+
+    /* Load and test the high half tlb comparator.  */
+    if (TCG_TARGET_REG_BITS < TARGET_LONG_BITS) {
+        /* delay slot */
+        tcg_out_ldst(s, OPC_LW, TCG_TMP0, TCG_TMP3, cmp_off + HI_OFF);
+
+        /* Load the tlb addend for the fast path.  */
+        tcg_out_ld(s, TCG_TYPE_PTR, TCG_TMP2, TCG_TMP3, add_off);
+
+        ldst->label_ptr[1] = s->code_ptr;
+        tcg_out_opc_br(s, OPC_BNE, addrhi, TCG_TMP0);
+    }
+
+    /* delay slot */
+    tcg_out_opc_reg(s, ALIAS_PADD, base, TCG_TMP2, addrlo);
+#else
+    if (a_mask && (use_mips32r6_instructions || a_bits != s_bits)) {
+        ldst = new_ldst_label(s);
+
+        ldst->is_ld = is_ld;
+        ldst->oi = oi;
+        ldst->addrlo_reg = addrlo;
+        ldst->addrhi_reg = addrhi;
+
+        /* We are expecting a_bits to max out at 7, much lower than ANDI. */
+        tcg_debug_assert(a_bits < 16);
+        tcg_out_opc_imm(s, OPC_ANDI, TCG_TMP0, addrlo, a_mask);
+
+        ldst->label_ptr[0] = s->code_ptr;
+        if (use_mips32r6_instructions) {
+            tcg_out_opc_br(s, OPC_BNEZALC_R6, TCG_REG_ZERO, TCG_TMP0);
+        } else {
+            tcg_out_opc_br(s, OPC_BNEL, TCG_TMP0, TCG_REG_ZERO);
+            tcg_out_nop(s);
+        }
+    }
+
+    base = addrlo;
+    if (TCG_TARGET_REG_BITS > TARGET_LONG_BITS) {
+        tcg_out_ext32u(s, TCG_REG_A0, base);
+        base = TCG_REG_A0;
+    }
+    if (guest_base) {
+        if (guest_base == (int16_t)guest_base) {
+            tcg_out_opc_imm(s, ALIAS_PADDI, TCG_REG_A0, base, guest_base);
+        } else {
+            tcg_out_opc_reg(s, ALIAS_PADD, TCG_REG_A0, base,
+                            TCG_GUEST_BASE_REG);
+        }
+        base = TCG_REG_A0;
+    }
+#endif
+
+    h->base = base;
+    h->align = a_bits;
+    return ldst;
+}
+
 static void tcg_out_qemu_ld_direct(TCGContext *s, TCGReg lo, TCGReg hi,
                                    TCGReg base, MemOp opc, TCGType type)
 {
@@ -XXX,XX +XXX,XX @@ static void tcg_out_qemu_ld(TCGContext *s, TCGReg datalo, TCGReg datahi,
                             MemOpIdx oi, TCGType data_type)
 {
     MemOp opc = get_memop(oi);
-    unsigned a_bits = get_alignment_bits(opc);
-    unsigned s_bits = opc & MO_SIZE;
-    TCGReg base;
+    TCGLabelQemuLdst *ldst;
+    HostAddress h;
 
-    /*
-     * R6 removes the left/right instructions but requires the
-     * system to support misaligned memory accesses.
-     */
-#if defined(CONFIG_SOFTMMU)
-    tcg_insn_unit *label_ptr[2];
+    ldst = prepare_host_addr(s, &h, addrlo, addrhi, oi, true);
 
-    base = TCG_REG_A0;
-    tcg_out_tlb_load(s, base, addrlo, addrhi, oi, label_ptr, 1);
-    if (use_mips32r6_instructions || a_bits >= s_bits) {
-        tcg_out_qemu_ld_direct(s, datalo, datahi, base, opc, data_type);
+    if (use_mips32r6_instructions || h.align >= (opc & MO_SIZE)) {
+        tcg_out_qemu_ld_direct(s, datalo, datahi, h.base, opc, data_type);
     } else {
-        tcg_out_qemu_ld_unalign(s, datalo, datahi, base, opc, data_type);
+        tcg_out_qemu_ld_unalign(s, datalo, datahi, h.base, opc, data_type);
     }
-    add_qemu_ldst_label(s, true, oi, data_type, datalo, datahi,
-                        addrlo, addrhi, s->code_ptr, label_ptr);
-#else
-    base = addrlo;
-    if (TCG_TARGET_REG_BITS > TARGET_LONG_BITS) {
-        tcg_out_ext32u(s, TCG_REG_A0, base);
-        base = TCG_REG_A0;
+
+    if (ldst) {
+        ldst->type = data_type;
+        ldst->datalo_reg = datalo;
+        ldst->datahi_reg = datahi;
+        ldst->raddr = tcg_splitwx_to_rx(s->code_ptr);
     }
-    if (guest_base) {
-        if (guest_base == (int16_t)guest_base) {
-            tcg_out_opc_imm(s, ALIAS_PADDI, TCG_REG_A0, base, guest_base);
-        } else {
-            tcg_out_opc_reg(s, ALIAS_PADD, TCG_REG_A0, base,
-                            TCG_GUEST_BASE_REG);
-        }
-        base = TCG_REG_A0;
-    }
-    if (use_mips32r6_instructions) {
-        if (a_bits) {
-            tcg_out_test_alignment(s, true, addrlo, addrhi, a_bits);
-        }
-        tcg_out_qemu_ld_direct(s, datalo, datahi, base, opc, data_type);
-    } else {
-        if (a_bits && a_bits != s_bits) {
-            tcg_out_test_alignment(s, true, addrlo, addrhi, a_bits);
-        }
-        if (a_bits >= s_bits) {
-            tcg_out_qemu_ld_direct(s, datalo, datahi, base, opc, data_type);
-        } else {
-            tcg_out_qemu_ld_unalign(s, datalo, datahi, base, opc, data_type);
-        }
-    }
-#endif
 }
 
 static void tcg_out_qemu_st_direct(TCGContext *s, TCGReg lo, TCGReg hi,
@@ -XXX,XX +XXX,XX @@ static void tcg_out_qemu_st(TCGContext *s, TCGReg datalo, TCGReg datahi,
                             MemOpIdx oi, TCGType data_type)
 {
     MemOp opc = get_memop(oi);
-    unsigned a_bits = get_alignment_bits(opc);
-    unsigned s_bits = opc & MO_SIZE;
-    TCGReg base;
+    TCGLabelQemuLdst *ldst;
+    HostAddress h;
 
-    /*
-     * R6 removes the left/right instructions but requires the
-     * system to support misaligned memory accesses.
-     */
-#if defined(CONFIG_SOFTMMU)
-    tcg_insn_unit *label_ptr[2];
+    ldst = prepare_host_addr(s, &h, addrlo, addrhi, oi, false);
 
-    base = TCG_REG_A0;
-    tcg_out_tlb_load(s, base, addrlo, addrhi, oi, label_ptr, 0);
-    if (use_mips32r6_instructions || a_bits >= s_bits) {
-        tcg_out_qemu_st_direct(s, datalo, datahi, base, opc);
+    if (use_mips32r6_instructions || h.align >= (opc & MO_SIZE)) {
+        tcg_out_qemu_st_direct(s, datalo, datahi, h.base, opc);
     } else {
-        tcg_out_qemu_st_unalign(s, datalo, datahi, base, opc);
+        tcg_out_qemu_st_unalign(s, datalo, datahi, h.base, opc);
     }
-    add_qemu_ldst_label(s, false, oi, data_type, datalo, datahi,
-                        addrlo, addrhi, s->code_ptr, label_ptr);
-#else
-    base = addrlo;
-    if (TCG_TARGET_REG_BITS > TARGET_LONG_BITS) {
-        tcg_out_ext32u(s, TCG_REG_A0, base);
-        base = TCG_REG_A0;
+
+    if (ldst) {
+        ldst->type = data_type;
+        ldst->datalo_reg = datalo;
+        ldst->datahi_reg = datahi;
+        ldst->raddr = tcg_splitwx_to_rx(s->code_ptr);
     }
-    if (guest_base) {
-        if (guest_base == (int16_t)guest_base) {
-            tcg_out_opc_imm(s, ALIAS_PADDI, TCG_REG_A0, base, guest_base);
-        } else {
-            tcg_out_opc_reg(s, ALIAS_PADD, TCG_REG_A0, base,
-                            TCG_GUEST_BASE_REG);
-        }
-        base = TCG_REG_A0;
-    }
-    if (use_mips32r6_instructions) {
-        if (a_bits) {
-            tcg_out_test_alignment(s, true, addrlo, addrhi, a_bits);
-        }
-        tcg_out_qemu_st_direct(s, datalo, datahi, base, opc);
-    } else {
-        if (a_bits && a_bits != s_bits) {
-            tcg_out_test_alignment(s, true, addrlo, addrhi, a_bits);
-        }
-        if (a_bits >= s_bits) {
-            tcg_out_qemu_st_direct(s, datalo, datahi, base, opc);
-        } else {
-            tcg_out_qemu_st_unalign(s, datalo, datahi, base, opc);
-        }
-    }
-#endif
 }
 
 static void tcg_out_mb(TCGContext *s, TCGArg a0)
-- 
2.34.1

Merge tcg_out_tlb_load, add_qemu_ldst_label, tcg_out_test_alignment,
and some code that lived in both tcg_out_qemu_ld and tcg_out_qemu_st
into one function that returns HostAddress and TCGLabelQemuLdst structures.

Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/ppc/tcg-target.c.inc | 381 ++++++++++++++++++---------------------
 1 file changed, 172 insertions(+), 209 deletions(-)

diff --git a/tcg/ppc/tcg-target.c.inc b/tcg/ppc/tcg-target.c.inc
index XXXXXXX..XXXXXXX 100644
--- a/tcg/ppc/tcg-target.c.inc
+++ b/tcg/ppc/tcg-target.c.inc
@@ -XXX,XX +XXX,XX @@ static void * const qemu_st_helpers[(MO_SIZE | MO_BSWAP) + 1] = {
     [MO_BEUQ] = helper_be_stq_mmu,
 };
 
-/* We expect to use a 16-bit negative offset from ENV.  */
-QEMU_BUILD_BUG_ON(TLB_MASK_TABLE_OFS(0) > 0);
-QEMU_BUILD_BUG_ON(TLB_MASK_TABLE_OFS(0) < -32768);
-
-/* Perform the TLB load and compare.  Places the result of the comparison
-   in CR7, loads the addend of the TLB into R3, and returns the register
-   containing the guest address (zero-extended into R4).  Clobbers R0 and R2. */
-
-static TCGReg tcg_out_tlb_read(TCGContext *s, MemOp opc,
-                               TCGReg addrlo, TCGReg addrhi,
-                               int mem_index, bool is_read)
-{
-    int cmp_off
-        = (is_read
-           ? offsetof(CPUTLBEntry, addr_read)
-           : offsetof(CPUTLBEntry, addr_write));
-    int fast_off = TLB_MASK_TABLE_OFS(mem_index);
-    int mask_off = fast_off + offsetof(CPUTLBDescFast, mask);
-    int table_off = fast_off + offsetof(CPUTLBDescFast, table);
-    unsigned s_bits = opc & MO_SIZE;
-    unsigned a_bits = get_alignment_bits(opc);
-
-    /* Load tlb_mask[mmu_idx] and tlb_table[mmu_idx].  */
-    tcg_out_ld(s, TCG_TYPE_PTR, TCG_REG_R3, TCG_AREG0, mask_off);
-    tcg_out_ld(s, TCG_TYPE_PTR, TCG_REG_R4, TCG_AREG0, table_off);
-
-    /* Extract the page index, shifted into place for tlb index.  */
-    if (TCG_TARGET_REG_BITS == 32) {
-        tcg_out_shri32(s, TCG_REG_TMP1, addrlo,
-                       TARGET_PAGE_BITS - CPU_TLB_ENTRY_BITS);
-    } else {
-        tcg_out_shri64(s, TCG_REG_TMP1, addrlo,
-                       TARGET_PAGE_BITS - CPU_TLB_ENTRY_BITS);
-    }
-    tcg_out32(s, AND | SAB(TCG_REG_R3, TCG_REG_R3, TCG_REG_TMP1));
-
-    /* Load the TLB comparator.  */
-    if (cmp_off == 0 && TCG_TARGET_REG_BITS >= TARGET_LONG_BITS) {
-        uint32_t lxu = (TCG_TARGET_REG_BITS == 32 || TARGET_LONG_BITS == 32
-                        ? LWZUX : LDUX);
-        tcg_out32(s, lxu | TAB(TCG_REG_TMP1, TCG_REG_R3, TCG_REG_R4));
-    } else {
-        tcg_out32(s, ADD | TAB(TCG_REG_R3, TCG_REG_R3, TCG_REG_R4));
-        if (TCG_TARGET_REG_BITS < TARGET_LONG_BITS) {
-            tcg_out_ld(s, TCG_TYPE_I32, TCG_REG_TMP1, TCG_REG_R3, cmp_off + 4);
-            tcg_out_ld(s, TCG_TYPE_I32, TCG_REG_R4, TCG_REG_R3, cmp_off);
-        } else {
-            tcg_out_ld(s, TCG_TYPE_TL, TCG_REG_TMP1, TCG_REG_R3, cmp_off);
-        }
-    }
-
-    /* Load the TLB addend for use on the fast path.  Do this asap
-       to minimize any load use delay.  */
-    tcg_out_ld(s, TCG_TYPE_PTR, TCG_REG_R3, TCG_REG_R3,
-               offsetof(CPUTLBEntry, addend));
-
-    /* Clear the non-page, non-alignment bits from the address */
-    if (TCG_TARGET_REG_BITS == 32) {
-        /* We don't support unaligned accesses on 32-bits.
-         * Preserve the bottom bits and thus trigger a comparison
-         * failure on unaligned accesses.
-         */
-        if (a_bits < s_bits) {
-            a_bits = s_bits;
-        }
-        tcg_out_rlw(s, RLWINM, TCG_REG_R0, addrlo, 0,
-                    (32 - a_bits) & 31, 31 - TARGET_PAGE_BITS);
-    } else {
-        TCGReg t = addrlo;
-
-        /* If the access is unaligned, we need to make sure we fail if we
-         * cross a page boundary.  The trick is to add the access size-1
-         * to the address before masking the low bits.  That will make the
-         * address overflow to the next page if we cross a page boundary,
-         * which will then force a mismatch of the TLB compare.
-         */
-        if (a_bits < s_bits) {
-            unsigned a_mask = (1 << a_bits) - 1;
-            unsigned s_mask = (1 << s_bits) - 1;
-            tcg_out32(s, ADDI | TAI(TCG_REG_R0, t, s_mask - a_mask));
-            t = TCG_REG_R0;
-        }
-
-        /* Mask the address for the requested alignment.  */
-        if (TARGET_LONG_BITS == 32) {
-            tcg_out_rlw(s, RLWINM, TCG_REG_R0, t, 0,
-                        (32 - a_bits) & 31, 31 - TARGET_PAGE_BITS);
-            /* Zero-extend the address for use in the final address.  */
-            tcg_out_ext32u(s, TCG_REG_R4, addrlo);
-            addrlo = TCG_REG_R4;
-        } else if (a_bits == 0) {
-            tcg_out_rld(s, RLDICR, TCG_REG_R0, t, 0, 63 - TARGET_PAGE_BITS);
-        } else {
-            tcg_out_rld(s, RLDICL, TCG_REG_R0, t,
-                        64 - TARGET_PAGE_BITS, TARGET_PAGE_BITS - a_bits);
-            tcg_out_rld(s, RLDICL, TCG_REG_R0, TCG_REG_R0, TARGET_PAGE_BITS, 0);
-        }
-    }
-
-    if (TCG_TARGET_REG_BITS < TARGET_LONG_BITS) {
-        tcg_out_cmp(s, TCG_COND_EQ, TCG_REG_R0, TCG_REG_TMP1,
-                    0, 7, TCG_TYPE_I32);
-        tcg_out_cmp(s, TCG_COND_EQ, addrhi, TCG_REG_R4, 0, 6, TCG_TYPE_I32);
-        tcg_out32(s, CRAND | BT(7, CR_EQ) | BA(6, CR_EQ) | BB(7, CR_EQ));
-    } else {
-        tcg_out_cmp(s, TCG_COND_EQ, TCG_REG_R0, TCG_REG_TMP1,
-                    0, 7, TCG_TYPE_TL);
-    }
-
-    return addrlo;
-}
-
-/* Record the context of a call to the out of line helper code for the slow
-   path for a load or store, so that we can later generate the correct
-   helper code.  */
-static void add_qemu_ldst_label(TCGContext *s, bool is_ld,
-                                TCGType type, MemOpIdx oi,
-                                TCGReg datalo_reg, TCGReg datahi_reg,
-                                TCGReg addrlo_reg, TCGReg addrhi_reg,
-                                tcg_insn_unit *raddr, tcg_insn_unit *lptr)
-{
-    TCGLabelQemuLdst *label = new_ldst_label(s);
-
-    label->is_ld = is_ld;
-    label->type = type;
-    label->oi = oi;
-    label->datalo_reg = datalo_reg;
-    label->datahi_reg = datahi_reg;
-    label->addrlo_reg = addrlo_reg;
-    label->addrhi_reg = addrhi_reg;
-    label->raddr = tcg_splitwx_to_rx(raddr);
-    label->label_ptr[0] = lptr;
-}
-
 static bool tcg_out_qemu_ld_slow_path(TCGContext *s, TCGLabelQemuLdst *lb)
 {
     MemOpIdx oi = lb->oi;
@@ -XXX,XX +XXX,XX @@ static bool tcg_out_qemu_st_slow_path(TCGContext *s, TCGLabelQemuLdst *lb)
     return true;
 }
 #else
-
-static void tcg_out_test_alignment(TCGContext *s, bool is_ld, TCGReg addrlo,
-                                   TCGReg addrhi, unsigned a_bits)
-{
-    unsigned a_mask = (1 << a_bits) - 1;
-    TCGLabelQemuLdst *label = new_ldst_label(s);
-
-    label->is_ld = is_ld;
-    label->addrlo_reg = addrlo;
-    label->addrhi_reg = addrhi;
-
-    /* We are expecting a_bits to max out at 7, much lower than ANDI. */
-    tcg_debug_assert(a_bits < 16);
-    tcg_out32(s, ANDI | SAI(addrlo, TCG_REG_R0, a_mask));
-
-    label->label_ptr[0] = s->code_ptr;
-    tcg_out32(s, BC | BI(0, CR_EQ) | BO_COND_FALSE | LK);
-
-    label->raddr = tcg_splitwx_to_rx(s->code_ptr);
-}
-
 static bool tcg_out_fail_alignment(TCGContext *s, TCGLabelQemuLdst *l)
 {
     if (!reloc_pc14(l->label_ptr[0], tcg_splitwx_to_rx(s->code_ptr))) {
@@ -XXX,XX +XXX,XX @@ typedef struct {
     TCGReg index;
 } HostAddress;
 
+/*
+ * For softmmu, perform the TLB load and compare.
+ * For useronly, perform any required alignment tests.
+ * In both cases, return a TCGLabelQemuLdst structure if the slow path
+ * is required and fill in @h with the host address for the fast path.
+ */
+static TCGLabelQemuLdst *prepare_host_addr(TCGContext *s, HostAddress *h,
+                                           TCGReg addrlo, TCGReg addrhi,
+                                           MemOpIdx oi, bool is_ld)
+{
+    TCGLabelQemuLdst *ldst = NULL;
+    MemOp opc = get_memop(oi);
+    unsigned a_bits = get_alignment_bits(opc);
+
+#ifdef CONFIG_SOFTMMU
+    int mem_index = get_mmuidx(oi);
+    int cmp_off = is_ld ? offsetof(CPUTLBEntry, addr_read)
+                        : offsetof(CPUTLBEntry, addr_write);
+    int fast_off = TLB_MASK_TABLE_OFS(mem_index);
+    int mask_off = fast_off + offsetof(CPUTLBDescFast, mask);
+    int table_off = fast_off + offsetof(CPUTLBDescFast, table);
+    unsigned s_bits = opc & MO_SIZE;
+
+    ldst = new_ldst_label(s);
+    ldst->is_ld = is_ld;
+    ldst->oi = oi;
+    ldst->addrlo_reg = addrlo;
+    ldst->addrhi_reg = addrhi;
+
+    /* Load tlb_mask[mmu_idx] and tlb_table[mmu_idx].  */
+    QEMU_BUILD_BUG_ON(TLB_MASK_TABLE_OFS(0) > 0);
+    QEMU_BUILD_BUG_ON(TLB_MASK_TABLE_OFS(0) < -32768);
+    tcg_out_ld(s, TCG_TYPE_PTR, TCG_REG_R3, TCG_AREG0, mask_off);
+    tcg_out_ld(s, TCG_TYPE_PTR, TCG_REG_R4, TCG_AREG0, table_off);
+
+    /* Extract the page index, shifted into place for tlb index.  */
+    if (TCG_TARGET_REG_BITS == 32) {
+        tcg_out_shri32(s, TCG_REG_TMP1, addrlo,
+                       TARGET_PAGE_BITS - CPU_TLB_ENTRY_BITS);
+    } else {
+        tcg_out_shri64(s, TCG_REG_TMP1, addrlo,
+                       TARGET_PAGE_BITS - CPU_TLB_ENTRY_BITS);
+    }
+    tcg_out32(s, AND | SAB(TCG_REG_R3, TCG_REG_R3, TCG_REG_TMP1));
+
+    /* Load the TLB comparator.  */
+    if (cmp_off == 0 && TCG_TARGET_REG_BITS >= TARGET_LONG_BITS) {
+        uint32_t lxu = (TCG_TARGET_REG_BITS == 32 || TARGET_LONG_BITS == 32
+                        ? LWZUX : LDUX);
+        tcg_out32(s, lxu | TAB(TCG_REG_TMP1, TCG_REG_R3, TCG_REG_R4));
+    } else {
+        tcg_out32(s, ADD | TAB(TCG_REG_R3, TCG_REG_R3, TCG_REG_R4));
+        if (TCG_TARGET_REG_BITS < TARGET_LONG_BITS) {
+            tcg_out_ld(s, TCG_TYPE_I32, TCG_REG_TMP1, TCG_REG_R3, cmp_off + 4);
+            tcg_out_ld(s, TCG_TYPE_I32, TCG_REG_R4, TCG_REG_R3, cmp_off);
+        } else {
+            tcg_out_ld(s, TCG_TYPE_TL, TCG_REG_TMP1, TCG_REG_R3, cmp_off);
+        }
+    }
+
+    /*
+     * Load the TLB addend for use on the fast path.
+     * Do this asap to minimize any load use delay.
+     */
+    h->base = TCG_REG_R3;
+    tcg_out_ld(s, TCG_TYPE_PTR, h->base, TCG_REG_R3,
+               offsetof(CPUTLBEntry, addend));
+
+    /* Clear the non-page, non-alignment bits from the address */
+    if (TCG_TARGET_REG_BITS == 32) {
+        /*
+         * We don't support unaligned accesses on 32-bits.
+         * Preserve the bottom bits and thus trigger a comparison
+         * failure on unaligned accesses.
+         */
+        if (a_bits < s_bits) {
+            a_bits = s_bits;
+        }
+        tcg_out_rlw(s, RLWINM, TCG_REG_R0, addrlo, 0,
+                    (32 - a_bits) & 31, 31 - TARGET_PAGE_BITS);
+    } else {
+        TCGReg t = addrlo;
+
+        /*
+         * If the access is unaligned, we need to make sure we fail if we
+         * cross a page boundary.  The trick is to add the access size-1
+         * to the address before masking the low bits.  That will make the
+         * address overflow to the next page if we cross a page boundary,
+         * which will then force a mismatch of the TLB compare.
+         */
+        if (a_bits < s_bits) {
+            unsigned a_mask = (1 << a_bits) - 1;
+            unsigned s_mask = (1 << s_bits) - 1;
+            tcg_out32(s, ADDI | TAI(TCG_REG_R0, t, s_mask - a_mask));
+            t = TCG_REG_R0;
+        }
+
+        /* Mask the address for the requested alignment.  */
+        if (TARGET_LONG_BITS == 32) {
+            tcg_out_rlw(s, RLWINM, TCG_REG_R0, t, 0,
+                        (32 - a_bits) & 31, 31 - TARGET_PAGE_BITS);
+            /* Zero-extend the address for use in the final address.  */
+            tcg_out_ext32u(s, TCG_REG_R4, addrlo);
+            addrlo = TCG_REG_R4;
+        } else if (a_bits == 0) {
+            tcg_out_rld(s, RLDICR, TCG_REG_R0, t, 0, 63 - TARGET_PAGE_BITS);
+        } else {
+            tcg_out_rld(s, RLDICL, TCG_REG_R0, t,
+                        64 - TARGET_PAGE_BITS, TARGET_PAGE_BITS - a_bits);
+            tcg_out_rld(s, RLDICL, TCG_REG_R0, TCG_REG_R0, TARGET_PAGE_BITS, 0);
+        }
+    }
+    h->index = addrlo;
+
+    if (TCG_TARGET_REG_BITS < TARGET_LONG_BITS) {
+        tcg_out_cmp(s, TCG_COND_EQ, TCG_REG_R0, TCG_REG_TMP1,
+                    0, 7, TCG_TYPE_I32);
+        tcg_out_cmp(s, TCG_COND_EQ, addrhi, TCG_REG_R4, 0, 6, TCG_TYPE_I32);
+        tcg_out32(s, CRAND | BT(7, CR_EQ) | BA(6, CR_EQ) | BB(7, CR_EQ));
+    } else {
+        tcg_out_cmp(s, TCG_COND_EQ, TCG_REG_R0, TCG_REG_TMP1,
+                    0, 7, TCG_TYPE_TL);
+    }
+
+    /* Load a pointer into the current opcode w/conditional branch-link. */
+    ldst->label_ptr[0] = s->code_ptr;
+    tcg_out32(s, BC | BI(7, CR_EQ) | BO_COND_FALSE | LK);
+#else
+    if (a_bits) {
+        ldst = new_ldst_label(s);
+        ldst->is_ld = is_ld;
+        ldst->oi = oi;
+        ldst->addrlo_reg = addrlo;
+        ldst->addrhi_reg = addrhi;
+
+        /* We are expecting a_bits to max out at 7, much lower than ANDI. */
+        tcg_debug_assert(a_bits < 16);
+        tcg_out32(s, ANDI | SAI(addrlo, TCG_REG_R0, (1 << a_bits) - 1));
+
+        ldst->label_ptr[0] = s->code_ptr;
+        tcg_out32(s, BC | BI(0, CR_EQ) | BO_COND_FALSE | LK);
+    }
+
+    h->base = guest_base ? TCG_GUEST_BASE_REG : 0;
+    h->index = addrlo;
+    if (TCG_TARGET_REG_BITS > TARGET_LONG_BITS) {
+        tcg_out_ext32u(s, TCG_REG_TMP1, addrlo);
+        h->index = TCG_REG_TMP1;
+    }
+#endif
+
+    return ldst;
+}
+
 static void tcg_out_qemu_ld(TCGContext *s, TCGReg datalo, TCGReg datahi,
                             TCGReg addrlo, TCGReg addrhi,
                             MemOpIdx oi, TCGType data_type)
 {
     MemOp opc = get_memop(oi);
-    MemOp s_bits = opc & MO_SIZE;
+    TCGLabelQemuLdst *ldst;
     HostAddress h;
 
-#ifdef CONFIG_SOFTMMU
-    tcg_insn_unit *label_ptr;
+    ldst = prepare_host_addr(s, &h, addrlo, addrhi, oi, true);
 
-    h.index = tcg_out_tlb_read(s, opc, addrlo, addrhi, get_mmuidx(oi), true);
-    h.base = TCG_REG_R3;
-
-    /* Load a pointer into the current opcode w/conditional branch-link. */
-    label_ptr = s->code_ptr;
-    tcg_out32(s, BC | BI(7, CR_EQ) | BO_COND_FALSE | LK);
-#else  /* !CONFIG_SOFTMMU */
-    unsigned a_bits = get_alignment_bits(opc);
-    if (a_bits) {
-        tcg_out_test_alignment(s, true, addrlo, addrhi, a_bits);
-    }
-    h.base = guest_base ? TCG_GUEST_BASE_REG : 0;
-    h.index = addrlo;
-    if (TCG_TARGET_REG_BITS > TARGET_LONG_BITS) {
-        tcg_out_ext32u(s, TCG_REG_TMP1, addrlo);
-        h.index = TCG_REG_TMP1;
-    }
-#endif
-
-    if (TCG_TARGET_REG_BITS == 32 && s_bits == MO_64) {
+    if (TCG_TARGET_REG_BITS == 32 && (opc & MO_SIZE) == MO_64) {
         if (opc & MO_BSWAP) {
             tcg_out32(s, ADDI | TAI(TCG_REG_R0, h.index, 4));
             tcg_out32(s, LWBRX | TAB(datalo, h.base, h.index));
@@ -XXX,XX +XXX,XX @@ static void tcg_out_qemu_ld(TCGContext *s, TCGReg datalo, TCGReg datahi,
         }
     }
 
-#ifdef CONFIG_SOFTMMU
-    add_qemu_ldst_label(s, true, data_type, oi, datalo, datahi,
-                        addrlo, addrhi, s->code_ptr, label_ptr);
-#endif
+    if (ldst) {
+        ldst->type = data_type;
+        ldst->datalo_reg = datalo;
+        ldst->datahi_reg = datahi;
+        ldst->raddr = tcg_splitwx_to_rx(s->code_ptr);
+    }
 }
 
 static void tcg_out_qemu_st(TCGContext *s, TCGReg datalo, TCGReg datahi,
@@ -XXX,XX +XXX,XX @@ static void tcg_out_qemu_st(TCGContext *s, TCGReg datalo, TCGReg datahi,
                             MemOpIdx oi, TCGType data_type)
 {
     MemOp opc = get_memop(oi);
-    MemOp s_bits = opc & MO_SIZE;
+    TCGLabelQemuLdst *ldst;
     HostAddress h;
 
-#ifdef CONFIG_SOFTMMU
-    tcg_insn_unit *label_ptr;
+    ldst = prepare_host_addr(s, &h, addrlo, addrhi, oi, false);
 
-    h.index = tcg_out_tlb_read(s, opc, addrlo, addrhi, get_mmuidx(oi), false);
-    h.base = TCG_REG_R3;
-
-    /* Load a pointer into the current opcode w/conditional branch-link. */
-    label_ptr = s->code_ptr;
-    tcg_out32(s, BC | BI(7, CR_EQ) | BO_COND_FALSE | LK);
-#else  /* !CONFIG_SOFTMMU */
-    unsigned a_bits = get_alignment_bits(opc);
-    if (a_bits) {
-        tcg_out_test_alignment(s, false, addrlo, addrhi, a_bits);
-    }
-    h.base = guest_base ? TCG_GUEST_BASE_REG : 0;
-    h.index = addrlo;
-    if (TCG_TARGET_REG_BITS > TARGET_LONG_BITS) {
-        tcg_out_ext32u(s, TCG_REG_TMP1, addrlo);
-        h.index = TCG_REG_TMP1;
-    }
-#endif
-
-    if (TCG_TARGET_REG_BITS == 32 && s_bits == MO_64) {
+    if (TCG_TARGET_REG_BITS == 32 && (opc & MO_SIZE) == MO_64) {
         if (opc & MO_BSWAP) {
             tcg_out32(s, ADDI | TAI(TCG_REG_R0, h.index, 4));
             tcg_out32(s, STWBRX | SAB(datalo, h.base, h.index));
@@ -XXX,XX +XXX,XX @@ static void tcg_out_qemu_st(TCGContext *s, TCGReg datalo, TCGReg datahi,
         }
     }
 
-#ifdef CONFIG_SOFTMMU
-    add_qemu_ldst_label(s, false, data_type, oi, datalo, datahi,
-                        addrlo, addrhi, s->code_ptr, label_ptr);
-#endif
+    if (ldst) {
+        ldst->type = data_type;
+        ldst->datalo_reg = datalo;
+        ldst->datahi_reg = datahi;
+        ldst->raddr = tcg_splitwx_to_rx(s->code_ptr);
+    }
 }
 
 static void tcg_out_nop_fill(tcg_insn_unit *p, int count)
-- 
2.34.1

Merge tcg_out_tlb_load, add_qemu_ldst_label, tcg_out_test_alignment,
and some code that lived in both tcg_out_qemu_ld and tcg_out_qemu_st
into one function that returns TCGReg and TCGLabelQemuLdst.

Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/riscv/tcg-target.c.inc | 253 +++++++++++++++++--------------------
 1 file changed, 114 insertions(+), 139 deletions(-)

diff --git a/tcg/riscv/tcg-target.c.inc b/tcg/riscv/tcg-target.c.inc
index XXXXXXX..XXXXXXX 100644
--- a/tcg/riscv/tcg-target.c.inc
+++ b/tcg/riscv/tcg-target.c.inc
@@ -XXX,XX +XXX,XX @@ static void * const qemu_st_helpers[MO_SIZE + 1] = {
 #endif
 };
 
-/* We expect to use a 12-bit negative offset from ENV.  */
-QEMU_BUILD_BUG_ON(TLB_MASK_TABLE_OFS(0) > 0);
-QEMU_BUILD_BUG_ON(TLB_MASK_TABLE_OFS(0) < -(1 << 11));
-
 static void tcg_out_goto(TCGContext *s, const tcg_insn_unit *target)
 {
     tcg_out_opc_jump(s, OPC_JAL, TCG_REG_ZERO, 0);
@@ -XXX,XX +XXX,XX @@ static void tcg_out_goto(TCGContext *s, const tcg_insn_unit *target)
     tcg_debug_assert(ok);
 }
 
-static TCGReg tcg_out_tlb_load(TCGContext *s, TCGReg addr, MemOpIdx oi,
-                               tcg_insn_unit **label_ptr, bool is_load)
-{
-    MemOp opc = get_memop(oi);
-    unsigned s_bits = opc & MO_SIZE;
-    unsigned a_bits = get_alignment_bits(opc);
-    tcg_target_long compare_mask;
-    int mem_index = get_mmuidx(oi);
-    int fast_ofs = TLB_MASK_TABLE_OFS(mem_index);
-    int mask_ofs = fast_ofs + offsetof(CPUTLBDescFast, mask);
-    int table_ofs = fast_ofs + offsetof(CPUTLBDescFast, table);
-    TCGReg mask_base = TCG_AREG0, table_base = TCG_AREG0;
-
-    tcg_out_ld(s, TCG_TYPE_PTR, TCG_REG_TMP0, mask_base, mask_ofs);
-    tcg_out_ld(s, TCG_TYPE_PTR, TCG_REG_TMP1, table_base, table_ofs);
-
-    tcg_out_opc_imm(s, OPC_SRLI, TCG_REG_TMP2, addr,
-                    TARGET_PAGE_BITS - CPU_TLB_ENTRY_BITS);
-    tcg_out_opc_reg(s, OPC_AND, TCG_REG_TMP2, TCG_REG_TMP2, TCG_REG_TMP0);
-    tcg_out_opc_reg(s, OPC_ADD, TCG_REG_TMP2, TCG_REG_TMP2, TCG_REG_TMP1);
-
-    /* Load the tlb comparator and the addend.  */
-    tcg_out_ld(s, TCG_TYPE_TL, TCG_REG_TMP0, TCG_REG_TMP2,
-               is_load ? offsetof(CPUTLBEntry, addr_read)
-               : offsetof(CPUTLBEntry, addr_write));
-    tcg_out_ld(s, TCG_TYPE_PTR, TCG_REG_TMP2, TCG_REG_TMP2,
-               offsetof(CPUTLBEntry, addend));
-
-    /* We don't support unaligned accesses. */
-    if (a_bits < s_bits) {
-        a_bits = s_bits;
-    }
-    /* Clear the non-page, non-alignment bits from the address.  */
-    compare_mask = (tcg_target_long)TARGET_PAGE_MASK | ((1 << a_bits) - 1);
-    if (compare_mask == sextreg(compare_mask, 0, 12)) {
-        tcg_out_opc_imm(s, OPC_ANDI, TCG_REG_TMP1, addr, compare_mask);
-    } else {
-        tcg_out_movi(s, TCG_TYPE_TL, TCG_REG_TMP1, compare_mask);
-        tcg_out_opc_reg(s, OPC_AND, TCG_REG_TMP1, TCG_REG_TMP1, addr);
-    }
-
-    /* Compare masked address with the TLB entry. */
-    label_ptr[0] = s->code_ptr;
-    tcg_out_opc_branch(s, OPC_BNE, TCG_REG_TMP0, TCG_REG_TMP1, 0);
-
-    /* TLB Hit - translate address using addend.  */
-    if (TARGET_LONG_BITS == 32) {
-        tcg_out_ext32u(s, TCG_REG_TMP0, addr);
-        addr = TCG_REG_TMP0;
-    }
-    tcg_out_opc_reg(s, OPC_ADD, TCG_REG_TMP0, TCG_REG_TMP2, addr);
-    return TCG_REG_TMP0;
-}
-
-static void add_qemu_ldst_label(TCGContext *s, int is_ld, MemOpIdx oi,
-                                TCGType data_type, TCGReg data_reg,
-                                TCGReg addr_reg, void *raddr,
-                                tcg_insn_unit **label_ptr)
-{
-    TCGLabelQemuLdst *label = new_ldst_label(s);
-
-    label->is_ld = is_ld;
-    label->oi = oi;
-    label->type = data_type;
-    label->datalo_reg = data_reg;
-    label->addrlo_reg = addr_reg;
-    label->raddr = tcg_splitwx_to_rx(raddr);
-    label->label_ptr[0] = label_ptr[0];
-}
-
 static bool tcg_out_qemu_ld_slow_path(TCGContext *s, TCGLabelQemuLdst *l)
 {
     MemOpIdx oi = l->oi;
@@ -XXX,XX +XXX,XX @@ static bool tcg_out_qemu_st_slow_path(TCGContext *s, TCGLabelQemuLdst *l)
     return true;
 }
 #else
-
-static void tcg_out_test_alignment(TCGContext *s, bool is_ld, TCGReg addr_reg,
-                                   unsigned a_bits)
-{
-    unsigned a_mask = (1 << a_bits) - 1;
-    TCGLabelQemuLdst *l = new_ldst_label(s);
-
-    l->is_ld = is_ld;
-    l->addrlo_reg = addr_reg;
-
-    /* We are expecting a_bits to max out at 7, so we can always use andi. */
-    tcg_debug_assert(a_bits < 12);
-    tcg_out_opc_imm(s, OPC_ANDI, TCG_REG_TMP1, addr_reg, a_mask);
-
-    l->label_ptr[0] = s->code_ptr;
-    tcg_out_opc_branch(s, OPC_BNE, TCG_REG_TMP1, TCG_REG_ZERO, 0);
-
-    l->raddr = tcg_splitwx_to_rx(s->code_ptr);
-}
-
 static bool tcg_out_fail_alignment(TCGContext *s, TCGLabelQemuLdst *l)
 {
     /* resolve label address */
@@ -XXX,XX +XXX,XX @@ static bool tcg_out_qemu_st_slow_path(TCGContext *s, TCGLabelQemuLdst *l)
 {
     return tcg_out_fail_alignment(s, l);
 }
-
 #endif /* CONFIG_SOFTMMU */
 
+/*
+ * For softmmu, perform the TLB load and compare.
+ * For useronly, perform any required alignment tests.
+ * In both cases, return a TCGLabelQemuLdst structure if the slow path
+ * is required and fill in @h with the host address for the fast path.
+ */
+static TCGLabelQemuLdst *prepare_host_addr(TCGContext *s, TCGReg *pbase,
+                                           TCGReg addr_reg, MemOpIdx oi,
+                                           bool is_ld)
+{
+    TCGLabelQemuLdst *ldst = NULL;
+    MemOp opc = get_memop(oi);
+    unsigned a_bits = get_alignment_bits(opc);
+    unsigned a_mask = (1u << a_bits) - 1;
+
+#ifdef CONFIG_SOFTMMU
+    unsigned s_bits = opc & MO_SIZE;
+    int mem_index = get_mmuidx(oi);
+    int fast_ofs = TLB_MASK_TABLE_OFS(mem_index);
+    int mask_ofs = fast_ofs + offsetof(CPUTLBDescFast, mask);
+    int table_ofs = fast_ofs + offsetof(CPUTLBDescFast, table);
+    TCGReg mask_base = TCG_AREG0, table_base = TCG_AREG0;
+    tcg_target_long compare_mask;
+
+    ldst = new_ldst_label(s);
+    ldst->is_ld = is_ld;
+    ldst->oi = oi;
+    ldst->addrlo_reg = addr_reg;
+
+    QEMU_BUILD_BUG_ON(TLB_MASK_TABLE_OFS(0) > 0);
+    QEMU_BUILD_BUG_ON(TLB_MASK_TABLE_OFS(0) < -(1 << 11));
+    tcg_out_ld(s, TCG_TYPE_PTR, TCG_REG_TMP0, mask_base, mask_ofs);
+    tcg_out_ld(s, TCG_TYPE_PTR, TCG_REG_TMP1, table_base, table_ofs);
+
+    tcg_out_opc_imm(s, OPC_SRLI, TCG_REG_TMP2, addr_reg,
+                    TARGET_PAGE_BITS - CPU_TLB_ENTRY_BITS);
+    tcg_out_opc_reg(s, OPC_AND, TCG_REG_TMP2, TCG_REG_TMP2, TCG_REG_TMP0);
+    tcg_out_opc_reg(s, OPC_ADD, TCG_REG_TMP2, TCG_REG_TMP2, TCG_REG_TMP1);
+
+    /* Load the tlb comparator and the addend.  */
+    tcg_out_ld(s, TCG_TYPE_TL, TCG_REG_TMP0, TCG_REG_TMP2,
+               is_ld ? offsetof(CPUTLBEntry, addr_read)
+                     : offsetof(CPUTLBEntry, addr_write));
+    tcg_out_ld(s, TCG_TYPE_PTR, TCG_REG_TMP2, TCG_REG_TMP2,
+               offsetof(CPUTLBEntry, addend));
+
+    /* We don't support unaligned accesses. */
+    if (a_bits < s_bits) {
+        a_bits = s_bits;
+    }
+    /* Clear the non-page, non-alignment bits from the address.  */
+    compare_mask = (tcg_target_long)TARGET_PAGE_MASK | a_mask;
+    if (compare_mask == sextreg(compare_mask, 0, 12)) {
+        tcg_out_opc_imm(s, OPC_ANDI, TCG_REG_TMP1, addr_reg, compare_mask);
+    } else {
+        tcg_out_movi(s, TCG_TYPE_TL, TCG_REG_TMP1, compare_mask);
+        tcg_out_opc_reg(s, OPC_AND, TCG_REG_TMP1, TCG_REG_TMP1, addr_reg);
+    }
+
+    /* Compare masked address with the TLB entry. */
+    ldst->label_ptr[0] = s->code_ptr;
+    tcg_out_opc_branch(s, OPC_BNE, TCG_REG_TMP0, TCG_REG_TMP1, 0);
+
+    /* TLB Hit - translate address using addend.  */
+    if (TARGET_LONG_BITS == 32) {
+        tcg_out_ext32u(s, TCG_REG_TMP0, addr_reg);
+        addr_reg = TCG_REG_TMP0;
+    }
+    tcg_out_opc_reg(s, OPC_ADD, TCG_REG_TMP0, TCG_REG_TMP2, addr_reg);
+    *pbase = TCG_REG_TMP0;
+#else
+    if (a_mask) {
+        ldst = new_ldst_label(s);
+        ldst->is_ld = is_ld;
+        ldst->oi = oi;
+        ldst->addrlo_reg = addr_reg;
+
+        /* We are expecting a_bits max 7, so we can always use andi. */
+        tcg_debug_assert(a_bits < 12);
+        tcg_out_opc_imm(s, OPC_ANDI, TCG_REG_TMP1, addr_reg, a_mask);
+
+        ldst->label_ptr[0] = s->code_ptr;
+        tcg_out_opc_branch(s, OPC_BNE, TCG_REG_TMP1, TCG_REG_ZERO, 0);
+    }
+
+    TCGReg base = addr_reg;
+    if (TARGET_LONG_BITS == 32) {
+        tcg_out_ext32u(s, TCG_REG_TMP0, base);
+        base = TCG_REG_TMP0;
+    }
+    if (guest_base != 0) {
+        tcg_out_opc_reg(s, OPC_ADD, TCG_REG_TMP0, TCG_GUEST_BASE_REG, base);
+        base = TCG_REG_TMP0;
+    }
+    *pbase = base;
+#endif
+
+    return ldst;
+}
+
 static void tcg_out_qemu_ld_direct(TCGContext *s, TCGReg val,
                                    TCGReg base, MemOp opc, TCGType type)
 {
@@ -XXX,XX +XXX,XX @@ static void tcg_out_qemu_ld_direct(TCGContext *s, TCGReg val,
 static void tcg_out_qemu_ld(TCGContext *s, TCGReg data_reg, TCGReg addr_reg,
                             MemOpIdx oi, TCGType data_type)
 {
-    MemOp opc = get_memop(oi);
+    TCGLabelQemuLdst *ldst;
     TCGReg base;
 
-#if defined(CONFIG_SOFTMMU)
-    tcg_insn_unit *label_ptr[1];
+    ldst = prepare_host_addr(s, &base, addr_reg, oi, true);
+    tcg_out_qemu_ld_direct(s, data_reg, base, get_memop(oi), data_type);
 
-    base = tcg_out_tlb_load(s, addr_reg, oi, label_ptr, 1);
-    tcg_out_qemu_ld_direct(s, data_reg, base, opc, data_type);
-    add_qemu_ldst_label(s, true, oi, data_type, data_reg, addr_reg,
-                        s->code_ptr, label_ptr);
-#else
-    unsigned a_bits = get_alignment_bits(opc);
-    if (a_bits) {
-        tcg_out_test_alignment(s, true, addr_reg, a_bits);
+    if (ldst) {
+        ldst->type = data_type;
+        ldst->datalo_reg = data_reg;
+        ldst->raddr = tcg_splitwx_to_rx(s->code_ptr);
     }
-    base = addr_reg;
-    if (TARGET_LONG_BITS == 32) {
-        tcg_out_ext32u(s, TCG_REG_TMP0, base);
-        base = TCG_REG_TMP0;
-    }
-    if (guest_base != 0) {
-        tcg_out_opc_reg(s, OPC_ADD, TCG_REG_TMP0, TCG_GUEST_BASE_REG, base);
-        base = TCG_REG_TMP0;
-    }
-    tcg_out_qemu_ld_direct(s, data_reg, base, opc, data_type);
-#endif
 }
 
 static void tcg_out_qemu_st_direct(TCGContext *s, TCGReg val,
@@ -XXX,XX +XXX,XX @@ static void tcg_out_qemu_st_direct(TCGContext *s, TCGReg val,
 static void tcg_out_qemu_st(TCGContext *s, TCGReg data_reg, TCGReg addr_reg,
                             MemOpIdx oi, TCGType data_type)
 {
-    MemOp opc = get_memop(oi);
+    TCGLabelQemuLdst *ldst;
     TCGReg base;
 
-#if defined(CONFIG_SOFTMMU)
-    tcg_insn_unit *label_ptr[1];
+    ldst = prepare_host_addr(s, &base, addr_reg, oi, false);
+    tcg_out_qemu_st_direct(s, data_reg, base, get_memop(oi));
 
-    base = tcg_out_tlb_load(s, addr_reg, oi, label_ptr, 0);
-    tcg_out_qemu_st_direct(s, data_reg, base, opc);
-    add_qemu_ldst_label(s, false, oi, data_type, data_reg, addr_reg,
-                        s->code_ptr, label_ptr);
-#else
-    unsigned a_bits = get_alignment_bits(opc);
-    if (a_bits) {
-        tcg_out_test_alignment(s, false, addr_reg, a_bits);
+    if (ldst) {
+        ldst->type = data_type;
+        ldst->datalo_reg = data_reg;
+        ldst->raddr = tcg_splitwx_to_rx(s->code_ptr);
     }
-    base = addr_reg;
-    if (TARGET_LONG_BITS == 32) {
-        tcg_out_ext32u(s, TCG_REG_TMP0, base);
-        base = TCG_REG_TMP0;
-    }
-    if (guest_base != 0) {
-        tcg_out_opc_reg(s, OPC_ADD, TCG_REG_TMP0, TCG_GUEST_BASE_REG, base);
-        base = TCG_REG_TMP0;
-    }
-    tcg_out_qemu_st_direct(s, data_reg, base, opc);
-#endif
 }
 
 static const tcg_insn_unit *tb_ret_addr;
-- 
2.34.1

Merge tcg_out_tlb_load, add_qemu_ldst_label, tcg_out_test_alignment,
tcg_prepare_user_ldst, and some code that lived in both tcg_out_qemu_ld
and tcg_out_qemu_st into one function that returns HostAddress and
TCGLabelQemuLdst structures.

Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/s390x/tcg-target.c.inc | 263 ++++++++++++++++---------------------
 1 file changed, 113 insertions(+), 150 deletions(-)

diff --git a/tcg/s390x/tcg-target.c.inc b/tcg/s390x/tcg-target.c.inc
index XXXXXXX..XXXXXXX 100644
--- a/tcg/s390x/tcg-target.c.inc
+++ b/tcg/s390x/tcg-target.c.inc
@@ -XXX,XX +XXX,XX @@ static void tcg_out_qemu_st_direct(TCGContext *s, MemOp opc, TCGReg data,
 }
 
 #if defined(CONFIG_SOFTMMU)
-/* We're expecting to use a 20-bit negative offset on the tlb memory ops.  */
-QEMU_BUILD_BUG_ON(TLB_MASK_TABLE_OFS(0) > 0);
-QEMU_BUILD_BUG_ON(TLB_MASK_TABLE_OFS(0) < -(1 << 19));
-
-/* Load and compare a TLB entry, leaving the flags set.  Loads the TLB
-   addend into R2.  Returns a register with the santitized guest address.  */
-static TCGReg tcg_out_tlb_read(TCGContext *s, TCGReg addr_reg, MemOp opc,
-                               int mem_index, bool is_ld)
-{
-    unsigned s_bits = opc & MO_SIZE;
-    unsigned a_bits = get_alignment_bits(opc);
-    unsigned s_mask = (1 << s_bits) - 1;
-    unsigned a_mask = (1 << a_bits) - 1;
-    int fast_off = TLB_MASK_TABLE_OFS(mem_index);
-    int mask_off = fast_off + offsetof(CPUTLBDescFast, mask);
-    int table_off = fast_off + offsetof(CPUTLBDescFast, table);
-    int ofs, a_off;
-    uint64_t tlb_mask;
-
-    tcg_out_sh64(s, RSY_SRLG, TCG_REG_R2, addr_reg, TCG_REG_NONE,
-                 TARGET_PAGE_BITS - CPU_TLB_ENTRY_BITS);
-    tcg_out_insn(s, RXY, NG, TCG_REG_R2, TCG_AREG0, TCG_REG_NONE, mask_off);
-    tcg_out_insn(s, RXY, AG, TCG_REG_R2, TCG_AREG0, TCG_REG_NONE, table_off);
-
-    /* For aligned accesses, we check the first byte and include the alignment
-       bits within the address.  For unaligned access, we check that we don't
-       cross pages using the address of the last byte of the access.  */
-    a_off = (a_bits >= s_bits ? 0 : s_mask - a_mask);
-    tlb_mask = (uint64_t)TARGET_PAGE_MASK | a_mask;
-    if (a_off == 0) {
-        tgen_andi_risbg(s, TCG_REG_R3, addr_reg, tlb_mask);
-    } else {
-        tcg_out_insn(s, RX, LA, TCG_REG_R3, addr_reg, TCG_REG_NONE, a_off);
-        tgen_andi(s, TCG_TYPE_TL, TCG_REG_R3, tlb_mask);
-    }
-
-    if (is_ld) {
-        ofs = offsetof(CPUTLBEntry, addr_read);
-    } else {
-        ofs = offsetof(CPUTLBEntry, addr_write);
-    }
-    if (TARGET_LONG_BITS == 32) {
-        tcg_out_insn(s, RX, C, TCG_REG_R3, TCG_REG_R2, TCG_REG_NONE, ofs);
-    } else {
-        tcg_out_insn(s, RXY, CG, TCG_REG_R3, TCG_REG_R2, TCG_REG_NONE, ofs);
-    }
-
-    tcg_out_insn(s, RXY, LG, TCG_REG_R2, TCG_REG_R2, TCG_REG_NONE,
-                 offsetof(CPUTLBEntry, addend));
-
-    if (TARGET_LONG_BITS == 32) {
-        tcg_out_ext32u(s, TCG_REG_R3, addr_reg);
-        return TCG_REG_R3;
-    }
-    return addr_reg;
-}
-
-static void add_qemu_ldst_label(TCGContext *s, bool is_ld, MemOpIdx oi,
-                                TCGType type, TCGReg data, TCGReg addr,
-                                tcg_insn_unit *raddr, tcg_insn_unit *label_ptr)
-{
-    TCGLabelQemuLdst *label = new_ldst_label(s);
-
-    label->is_ld = is_ld;
-    label->oi = oi;
-    label->type = type;
-    label->datalo_reg = data;
-    label->addrlo_reg = addr;
-    label->raddr = tcg_splitwx_to_rx(raddr);
-    label->label_ptr[0] = label_ptr;
-}
-
 static bool tcg_out_qemu_ld_slow_path(TCGContext *s, TCGLabelQemuLdst *lb)
 {
     TCGReg addr_reg = lb->addrlo_reg;
@@ -XXX,XX +XXX,XX @@ static bool tcg_out_qemu_st_slow_path(TCGContext *s, TCGLabelQemuLdst *lb)
     return true;
 }
 #else
-static void tcg_out_test_alignment(TCGContext *s, bool is_ld,
-                                   TCGReg addrlo, unsigned a_bits)
-{
-    unsigned a_mask = (1 << a_bits) - 1;
-    TCGLabelQemuLdst *l = new_ldst_label(s);
-
-    l->is_ld = is_ld;
-    l->addrlo_reg = addrlo;
-
-    /* We are expecting a_bits to max out at 7, much lower than TMLL. */
-    tcg_debug_assert(a_bits < 16);
-    tcg_out_insn(s, RI, TMLL, addrlo, a_mask);
-
-    tcg_out16(s, RI_BRC | (7 << 4)); /* CC in {1,2,3} */
-    l->label_ptr[0] = s->code_ptr;
-    s->code_ptr += 1;
-
-    l->raddr = tcg_splitwx_to_rx(s->code_ptr);
-}
-
 static bool tcg_out_fail_alignment(TCGContext *s, TCGLabelQemuLdst *l)
 {
     if (!patch_reloc(l->label_ptr[0], R_390_PC16DBL,
@@ -XXX,XX +XXX,XX @@ static bool tcg_out_qemu_st_slow_path(TCGContext *s, TCGLabelQemuLdst *l)
 {
     return tcg_out_fail_alignment(s, l);
 }
+#endif /* CONFIG_SOFTMMU */
 
-static HostAddress tcg_prepare_user_ldst(TCGContext *s, TCGReg addr_reg)
+/*
+ * For softmmu, perform the TLB load and compare.
+ * For useronly, perform any required alignment tests.
+ * In both cases, return a TCGLabelQemuLdst structure if the slow path
+ * is required and fill in @h with the host address for the fast path.
+ */
+static TCGLabelQemuLdst *prepare_host_addr(TCGContext *s, HostAddress *h,
+                                           TCGReg addr_reg, MemOpIdx oi,
+                                           bool is_ld)
 {
-    TCGReg index;
-    int disp;
+    TCGLabelQemuLdst *ldst = NULL;
+    MemOp opc = get_memop(oi);
+    unsigned a_bits = get_alignment_bits(opc);
+    unsigned a_mask = (1u << a_bits) - 1;
 
+#ifdef CONFIG_SOFTMMU
+    unsigned s_bits = opc & MO_SIZE;
+    unsigned s_mask = (1 << s_bits) - 1;
+    int mem_index = get_mmuidx(oi);
+    int fast_off = TLB_MASK_TABLE_OFS(mem_index);
+    int mask_off = fast_off + offsetof(CPUTLBDescFast, mask);
+    int table_off = fast_off + offsetof(CPUTLBDescFast, table);
+    int ofs, a_off;
+    uint64_t tlb_mask;
+
+    ldst = new_ldst_label(s);
+    ldst->is_ld = is_ld;
+    ldst->oi = oi;
+    ldst->addrlo_reg = addr_reg;
+
+    tcg_out_sh64(s, RSY_SRLG, TCG_REG_R2, addr_reg, TCG_REG_NONE,
+                 TARGET_PAGE_BITS - CPU_TLB_ENTRY_BITS);
+
+    QEMU_BUILD_BUG_ON(TLB_MASK_TABLE_OFS(0) > 0);
+    QEMU_BUILD_BUG_ON(TLB_MASK_TABLE_OFS(0) < -(1 << 19));
+    tcg_out_insn(s, RXY, NG, TCG_REG_R2, TCG_AREG0, TCG_REG_NONE, mask_off);
+    tcg_out_insn(s, RXY, AG, TCG_REG_R2, TCG_AREG0, TCG_REG_NONE, table_off);
+
+    /*
+     * For aligned accesses, we check the first byte and include the alignment
+     * bits within the address.  For unaligned access, we check that we don't
+     * cross pages using the address of the last byte of the access.
+     */
+    a_off = (a_bits >= s_bits ? 0 : s_mask - a_mask);
+    tlb_mask = (uint64_t)TARGET_PAGE_MASK | a_mask;
+    if (a_off == 0) {
+        tgen_andi_risbg(s, TCG_REG_R3, addr_reg, tlb_mask);
+    } else {
+        tcg_out_insn(s, RX, LA, TCG_REG_R3, addr_reg, TCG_REG_NONE, a_off);
+        tgen_andi(s, TCG_TYPE_TL, TCG_REG_R3, tlb_mask);
+    }
+
+    if (is_ld) {
+        ofs = offsetof(CPUTLBEntry, addr_read);
+    } else {
+        ofs = offsetof(CPUTLBEntry, addr_write);
+    }
+    if (TARGET_LONG_BITS == 32) {
+        tcg_out_insn(s, RX, C, TCG_REG_R3, TCG_REG_R2, TCG_REG_NONE, ofs);
+    } else {
+        tcg_out_insn(s, RXY, CG, TCG_REG_R3, TCG_REG_R2, TCG_REG_NONE, ofs);
+    }
+
+    tcg_out16(s, RI_BRC | (S390_CC_NE << 4));
+    ldst->label_ptr[0] = s->code_ptr++;
+
+    h->index = TCG_REG_R2;
+    tcg_out_insn(s, RXY, LG, h->index, TCG_REG_R2, TCG_REG_NONE,
+                 offsetof(CPUTLBEntry, addend));
+
+    h->base = addr_reg;
+    if (TARGET_LONG_BITS == 32) {
+        tcg_out_ext32u(s, TCG_REG_R3, addr_reg);
+        h->base = TCG_REG_R3;
+    }
+    h->disp = 0;
+#else
+    if (a_mask) {
+        ldst = new_ldst_label(s);
+        ldst->is_ld = is_ld;
+        ldst->oi = oi;
+        ldst->addrlo_reg = addr_reg;
+
+        /* We are expecting a_bits to max out at 7, much lower than TMLL. */
+        tcg_debug_assert(a_bits < 16);
+        tcg_out_insn(s, RI, TMLL, addr_reg, a_mask);
+
+        tcg_out16(s, RI_BRC | (7 << 4)); /* CC in {1,2,3} */
+        ldst->label_ptr[0] = s->code_ptr++;
+    }
+
+    h->base = addr_reg;
     if (TARGET_LONG_BITS == 32) {
         tcg_out_ext32u(s, TCG_TMP0, addr_reg);
-        addr_reg = TCG_TMP0;
+        h->base = TCG_TMP0;
     }
     if (guest_base < 0x80000) {
-        index = TCG_REG_NONE;
-        disp = guest_base;
+        h->index = TCG_REG_NONE;
+        h->disp = guest_base;
     } else {
-        index = TCG_GUEST_BASE_REG;
-        disp = 0;
+        h->index = TCG_GUEST_BASE_REG;
+        h->disp = 0;
     }
-    return (HostAddress){ .base = addr_reg, .index = index, .disp = disp };
+#endif
+
+    return ldst;
 }
-#endif /* CONFIG_SOFTMMU */
 
 static void tcg_out_qemu_ld(TCGContext* s, TCGReg data_reg, TCGReg addr_reg,
                             MemOpIdx oi, TCGType data_type)
 {
-    MemOp opc = get_memop(oi);
+    TCGLabelQemuLdst *ldst;
     HostAddress h;
 
-#ifdef CONFIG_SOFTMMU
-    unsigned mem_index = get_mmuidx(oi);
-    tcg_insn_unit *label_ptr;
+    ldst = prepare_host_addr(s, &h, addr_reg, oi, true);
+    tcg_out_qemu_ld_direct(s, get_memop(oi), data_reg, h);
 
-    h.base = tcg_out_tlb_read(s, addr_reg, opc, mem_index, 1);
-    h.index = TCG_REG_R2;
-    h.disp = 0;
-
-    tcg_out16(s, RI_BRC | (S390_CC_NE << 4));
-    label_ptr = s->code_ptr;
-    s->code_ptr += 1;
-
-    tcg_out_qemu_ld_direct(s, opc, data_reg, h);
-
-    add_qemu_ldst_label(s, true, oi, data_type, data_reg, addr_reg,
-                        s->code_ptr, label_ptr);
-#else
-    unsigned a_bits = get_alignment_bits(opc);
-
-    if (a_bits) {
-        tcg_out_test_alignment(s, true, addr_reg, a_bits);
+    if (ldst) {
+        ldst->type = data_type;
+        ldst->datalo_reg = data_reg;
+        ldst->raddr = tcg_splitwx_to_rx(s->code_ptr);
     }
-    h = tcg_prepare_user_ldst(s, addr_reg);
-    tcg_out_qemu_ld_direct(s, opc, data_reg, h);
-#endif
 }
 
 static void tcg_out_qemu_st(TCGContext* s, TCGReg data_reg, TCGReg addr_reg,
                             MemOpIdx oi, TCGType data_type)
 {
-    MemOp opc = get_memop(oi);
+    TCGLabelQemuLdst *ldst;
     HostAddress h;
 
-#ifdef CONFIG_SOFTMMU
-    unsigned mem_index = get_mmuidx(oi);
-    tcg_insn_unit *label_ptr;
+    ldst = prepare_host_addr(s, &h, addr_reg, oi, false);
+    tcg_out_qemu_st_direct(s, get_memop(oi), data_reg, h);
 
-    h.base = tcg_out_tlb_read(s, addr_reg, opc, mem_index, 0);
-    h.index = TCG_REG_R2;
-    h.disp = 0;
-
-    tcg_out16(s, RI_BRC | (S390_CC_NE << 4));
-    label_ptr = s->code_ptr;
-    s->code_ptr += 1;
-
-    tcg_out_qemu_st_direct(s, opc, data_reg, h);
-
-    add_qemu_ldst_label(s, false, oi, data_type, data_reg, addr_reg,
-                        s->code_ptr, label_ptr);
-#else
-    unsigned a_bits = get_alignment_bits(opc);
-
-    if (a_bits) {
-        tcg_out_test_alignment(s, false, addr_reg, a_bits);
+    if (ldst) {
+        ldst->type = data_type;
+        ldst->datalo_reg = data_reg;
+        ldst->raddr = tcg_splitwx_to_rx(s->code_ptr);
     }
-    h = tcg_prepare_user_ldst(s, addr_reg);
-    tcg_out_qemu_st_direct(s, opc, data_reg, h);
-#endif
 }
 
 static void tcg_out_exit_tb(TCGContext *s, uintptr_t a0)
-- 
2.34.1

Add tcg_out_ld_helper_args, tcg_out_ld_helper_ret,
and tcg_out_st_helper_args.  These and their subroutines
use the existing knowledge of the host function call abi
to load the function call arguments and return results.

These will be used to simplify the backends in turn.

Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/tcg.c | 475 +++++++++++++++++++++++++++++++++++++++++++++++++++++-
 1 file changed, 471 insertions(+), 4 deletions(-)

diff --git a/tcg/tcg.c b/tcg/tcg.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/tcg.c
+++ b/tcg/tcg.c
@@ -XXX,XX +XXX,XX @@ static bool tcg_target_const_match(int64_t val, TCGType type, int ct);
 static int tcg_out_ldst_finalize(TCGContext *s);
 #endif
 
+typedef struct TCGLdstHelperParam {
+    TCGReg (*ra_gen)(TCGContext *s, const TCGLabelQemuLdst *l, int arg_reg);
+    unsigned ntmp;
+    int tmp[3];
+} TCGLdstHelperParam;
+
+static void tcg_out_ld_helper_args(TCGContext *s, const TCGLabelQemuLdst *l,
+                                   const TCGLdstHelperParam *p)
+    __attribute__((unused));
+static void tcg_out_ld_helper_ret(TCGContext *s, const TCGLabelQemuLdst *l,
+                                  bool load_sign, const TCGLdstHelperParam *p)
+    __attribute__((unused));
+static void tcg_out_st_helper_args(TCGContext *s, const TCGLabelQemuLdst *l,
+                                   const TCGLdstHelperParam *p)
+    __attribute__((unused));
+
 TCGContext tcg_init_ctx;
 __thread TCGContext *tcg_ctx;
 
@@ -XXX,XX +XXX,XX @@ void tcg_raise_tb_overflow(TCGContext *s)
     siglongjmp(s->jmp_trans, -2);
 }
 
+/*
+ * Used by tcg_out_movext{1,2} to hold the arguments for tcg_out_movext.
+ * By the time we arrive at tcg_out_movext1, @dst is always a TCGReg.
+ *
+ * However, tcg_out_helper_load_slots reuses this field to hold an
+ * argument slot number (which may designate a argument register or an
+ * argument stack slot), converting to TCGReg once all arguments that
+ * are destined for the stack are processed.
+ */
 typedef struct TCGMovExtend {
-    TCGReg dst;
+    unsigned dst;
     TCGReg src;
     TCGType dst_type;
     TCGType src_type;
@@ -XXX,XX +XXX,XX @@ static void tcg_out_movext1(TCGContext *s, const TCGMovExtend *i)
  * between the sources and destinations.
  */
 
-static void __attribute__((unused))
-tcg_out_movext2(TCGContext *s, const TCGMovExtend *i1,
-                const TCGMovExtend *i2, int scratch)
+static void tcg_out_movext2(TCGContext *s, const TCGMovExtend *i1,
+                            const TCGMovExtend *i2, int scratch)
 {
     TCGReg src1 = i1->src;
     TCGReg src2 = i2->src;
@@ -XXX,XX +XXX,XX @@ static TCGHelperInfo all_helpers[] = {
 };
 static GHashTable *helper_table;
 
+/*
+ * Create TCGHelperInfo structures for "tcg/tcg-ldst.h" functions,
+ * akin to what "exec/helper-tcg.h" does with DEF_HELPER_FLAGS_N.
+ * We only use these for layout in tcg_out_ld_helper_ret and
+ * tcg_out_st_helper_args, and share them between several of
+ * the helpers, with the end result that it's easier to build manually.
+ */
+
+#if TCG_TARGET_REG_BITS == 32
+# define dh_typecode_ttl  dh_typecode_i32
+#else
+# define dh_typecode_ttl  dh_typecode_i64
+#endif
+
+static TCGHelperInfo info_helper_ld32_mmu = {
+    .flags = TCG_CALL_NO_WG,
+    .typemask = dh_typemask(ttl, 0)  /* return tcg_target_ulong */
+              | dh_typemask(env, 1)
+              | dh_typemask(tl, 2)   /* target_ulong addr */
+              | dh_typemask(i32, 3)  /* unsigned oi */
+              | dh_typemask(ptr, 4)  /* uintptr_t ra */
+};
+
+static TCGHelperInfo info_helper_ld64_mmu = {
+    .flags = TCG_CALL_NO_WG,
+    .typemask = dh_typemask(i64, 0)  /* return uint64_t */
+              | dh_typemask(env, 1)
+              | dh_typemask(tl, 2)   /* target_ulong addr */
+              | dh_typemask(i32, 3)  /* unsigned oi */
+              | dh_typemask(ptr, 4)  /* uintptr_t ra */
+};
+
+static TCGHelperInfo info_helper_st32_mmu = {
+    .flags = TCG_CALL_NO_WG,
+    .typemask = dh_typemask(void, 0)
+              | dh_typemask(env, 1)
+              | dh_typemask(tl, 2)   /* target_ulong addr */
+              | dh_typemask(i32, 3)  /* uint32_t data */
+              | dh_typemask(i32, 4)  /* unsigned oi */
+              | dh_typemask(ptr, 5)  /* uintptr_t ra */
+};
+
+static TCGHelperInfo info_helper_st64_mmu = {
+    .flags = TCG_CALL_NO_WG,
+    .typemask = dh_typemask(void, 0)
+              | dh_typemask(env, 1)
+              | dh_typemask(tl, 2)   /* target_ulong addr */
+              | dh_typemask(i64, 3)  /* uint64_t data */
+              | dh_typemask(i32, 4)  /* unsigned oi */
+              | dh_typemask(ptr, 5)  /* uintptr_t ra */
+};
+
 #ifdef CONFIG_TCG_INTERPRETER
 static ffi_type *typecode_to_ffi(int argmask)
 {
@@ -XXX,XX +XXX,XX @@ static void tcg_context_init(unsigned max_cpus)
                             (gpointer)&all_helpers[i]);
     }
 
+    init_call_layout(&info_helper_ld32_mmu);
+    init_call_layout(&info_helper_ld64_mmu);
+    init_call_layout(&info_helper_st32_mmu);
+    init_call_layout(&info_helper_st64_mmu);
+
 #ifdef CONFIG_TCG_INTERPRETER
     init_ffi_layouts();
 #endif
@@ -XXX,XX +XXX,XX @@ static void tcg_reg_alloc_call(TCGContext *s, TCGOp *op)
     }
 }
 
+/*
+ * Similarly for qemu_ld/st slow path helpers.
+ * We must re-implement tcg_gen_callN and tcg_reg_alloc_call simultaneously,
+ * using only the provided backend tcg_out_* functions.
+ */
+
+static int tcg_out_helper_stk_ofs(TCGType type, unsigned slot)
+{
+    int ofs = arg_slot_stk_ofs(slot);
+
+    /*
+     * Each stack slot is TCG_TARGET_LONG_BITS.  If the host does not
+     * require extension to uint64_t, adjust the address for uint32_t.
+     */
+    if (HOST_BIG_ENDIAN &&
+        TCG_TARGET_REG_BITS == 64 &&
+        type == TCG_TYPE_I32) {
+        ofs += 4;
+    }
+    return ofs;
+}
+
+static void tcg_out_helper_load_regs(TCGContext *s,
+                                     unsigned nmov, TCGMovExtend *mov,
+                                     unsigned ntmp, const int *tmp)
+{
+    switch (nmov) {
+    default:
+        /* The backend must have provided enough temps for the worst case. */
+        tcg_debug_assert(ntmp + 1 >= nmov);
+
+        for (unsigned i = nmov - 1; i >= 2; --i) {
+            TCGReg dst = mov[i].dst;
+
+            for (unsigned j = 0; j < i; ++j) {
+                if (dst == mov[j].src) {
+                    /*
+                     * Conflict.
+                     * Copy the source to a temporary, recurse for the
+                     * remaining moves, perform the extension from our
+                     * scratch on the way out.
+                     */
+                    TCGReg scratch = tmp[--ntmp];
+                    tcg_out_mov(s, mov[i].src_type, scratch, mov[i].src);
+                    mov[i].src = scratch;
+
+                    tcg_out_helper_load_regs(s, i, mov, ntmp, tmp);
+                    tcg_out_movext1(s, &mov[i]);
+                    return;
+                }
+            }
+
+            /* No conflicts: perform this move and continue. */
+            tcg_out_movext1(s, &mov[i]);
+        }
+        /* fall through for the final two moves */
+
+    case 2:
+        tcg_out_movext2(s, mov, mov + 1, ntmp ? tmp[0] : -1);
+        return;
+    case 1:
+        tcg_out_movext1(s, mov);
+        return;
+    case 0:
+        g_assert_not_reached();
+    }
+}
+
+static void tcg_out_helper_load_slots(TCGContext *s,
+                                      unsigned nmov, TCGMovExtend *mov,
+                                      const TCGLdstHelperParam *parm)
+{
+    unsigned i;
+
+    /*
+     * Start from the end, storing to the stack first.
+     * This frees those registers, so we need not consider overlap.
+     */
+    for (i = nmov; i-- > 0; ) {
+        unsigned slot = mov[i].dst;
+
+        if (arg_slot_reg_p(slot)) {
+            goto found_reg;
+        }
+
+        TCGReg src = mov[i].src;
+        TCGType dst_type = mov[i].dst_type;
+        MemOp dst_mo = dst_type == TCG_TYPE_I32 ? MO_32 : MO_64;
+
+        /* The argument is going onto the stack; extend into scratch. */
+        if ((mov[i].src_ext & MO_SIZE) != dst_mo) {
+            tcg_debug_assert(parm->ntmp != 0);
+            mov[i].dst = src = parm->tmp[0];
+            tcg_out_movext1(s, &mov[i]);
+        }
+
+        tcg_out_st(s, dst_type, src, TCG_REG_CALL_STACK,
+                   tcg_out_helper_stk_ofs(dst_type, slot));
+    }
+    return;
+
+ found_reg:
+    /*
+     * The remaining arguments are in registers.
+     * Convert slot numbers to argument registers.
+     */
+    nmov = i + 1;
+    for (i = 0; i < nmov; ++i) {
+        mov[i].dst = tcg_target_call_iarg_regs[mov[i].dst];
+    }
+    tcg_out_helper_load_regs(s, nmov, mov, parm->ntmp, parm->tmp);
+}
+
+static void tcg_out_helper_load_imm(TCGContext *s, unsigned slot,
+                                    TCGType type, tcg_target_long imm,
+                                    const TCGLdstHelperParam *parm)
+{
+    if (arg_slot_reg_p(slot)) {
+        tcg_out_movi(s, type, tcg_target_call_iarg_regs[slot], imm);
+    } else {
+        int ofs = tcg_out_helper_stk_ofs(type, slot);
+        if (!tcg_out_sti(s, type, imm, TCG_REG_CALL_STACK, ofs)) {
+            tcg_debug_assert(parm->ntmp != 0);
+            tcg_out_movi(s, type, parm->tmp[0], imm);
+            tcg_out_st(s, type, parm->tmp[0], TCG_REG_CALL_STACK, ofs);
+        }
+    }
+}
+
+static void tcg_out_helper_load_common_args(TCGContext *s,
+                                            const TCGLabelQemuLdst *ldst,
+                                            const TCGLdstHelperParam *parm,
+                                            const TCGHelperInfo *info,
+                                            unsigned next_arg)
+{
+    TCGMovExtend ptr_mov = {
+        .dst_type = TCG_TYPE_PTR,
+        .src_type = TCG_TYPE_PTR,
+        .src_ext = sizeof(void *) == 4 ? MO_32 : MO_64
+    };
+    const TCGCallArgumentLoc *loc = &info->in[0];
+    TCGType type;
+    unsigned slot;
+    tcg_target_ulong imm;
+
+    /*
+     * Handle env, which is always first.
+     */
+    ptr_mov.dst = loc->arg_slot;
+    ptr_mov.src = TCG_AREG0;
+    tcg_out_helper_load_slots(s, 1, &ptr_mov, parm);
+
+    /*
+     * Handle oi.
+     */
+    imm = ldst->oi;
+    loc = &info->in[next_arg];
+    type = TCG_TYPE_I32;
+    switch (loc->kind) {
+    case TCG_CALL_ARG_NORMAL:
+        break;
+    case TCG_CALL_ARG_EXTEND_U:
+    case TCG_CALL_ARG_EXTEND_S:
+        /* No extension required for MemOpIdx. */
+        tcg_debug_assert(imm <= INT32_MAX);
+        type = TCG_TYPE_REG;
+        break;
+    default:
+        g_assert_not_reached();
+    }
+    tcg_out_helper_load_imm(s, loc->arg_slot, type, imm, parm);
+    next_arg++;
+
+    /*
+     * Handle ra.
+     */
+    loc = &info->in[next_arg];
+    slot = loc->arg_slot;
+    if (parm->ra_gen) {
+        int arg_reg = -1;
+        TCGReg ra_reg;
+
+        if (arg_slot_reg_p(slot)) {
+            arg_reg = tcg_target_call_iarg_regs[slot];
+        }
+        ra_reg = parm->ra_gen(s, ldst, arg_reg);
+
+        ptr_mov.dst = slot;
+        ptr_mov.src = ra_reg;
+        tcg_out_helper_load_slots(s, 1, &ptr_mov, parm);
+    } else {
+        imm = (uintptr_t)ldst->raddr;
+        tcg_out_helper_load_imm(s, slot, TCG_TYPE_PTR, imm, parm);
+    }
+}
+
+static unsigned tcg_out_helper_add_mov(TCGMovExtend *mov,
+                                       const TCGCallArgumentLoc *loc,
+                                       TCGType dst_type, TCGType src_type,
+                                       TCGReg lo, TCGReg hi)
+{
+    if (dst_type <= TCG_TYPE_REG) {
+        MemOp src_ext;
+
+        switch (loc->kind) {
+        case TCG_CALL_ARG_NORMAL:
+            src_ext = src_type == TCG_TYPE_I32 ? MO_32 : MO_64;
+            break;
+        case TCG_CALL_ARG_EXTEND_U:
+            dst_type = TCG_TYPE_REG;
+            src_ext = MO_UL;
+            break;
+        case TCG_CALL_ARG_EXTEND_S:
+            dst_type = TCG_TYPE_REG;
+            src_ext = MO_SL;
+            break;
+        default:
+            g_assert_not_reached();
+        }
+
+        mov[0].dst = loc->arg_slot;
+        mov[0].dst_type = dst_type;
+        mov[0].src = lo;
+        mov[0].src_type = src_type;
+        mov[0].src_ext = src_ext;
+        return 1;
+    }
+
+    assert(TCG_TARGET_REG_BITS == 32);
+
+    mov[0].dst = loc[HOST_BIG_ENDIAN].arg_slot;
+    mov[0].src = lo;
+    mov[0].dst_type = TCG_TYPE_I32;
+    mov[0].src_type = TCG_TYPE_I32;
+    mov[0].src_ext = MO_32;
+
+    mov[1].dst = loc[!HOST_BIG_ENDIAN].arg_slot;
+    mov[1].src = hi;
+    mov[1].dst_type = TCG_TYPE_I32;
+    mov[1].src_type = TCG_TYPE_I32;
+    mov[1].src_ext = MO_32;
+
+    return 2;
+}
+
+static void tcg_out_ld_helper_args(TCGContext *s, const TCGLabelQemuLdst *ldst,
+                                   const TCGLdstHelperParam *parm)
+{
+    const TCGHelperInfo *info;
+    const TCGCallArgumentLoc *loc;
+    TCGMovExtend mov[2];
+    unsigned next_arg, nmov;
+    MemOp mop = get_memop(ldst->oi);
+
+    switch (mop & MO_SIZE) {
+    case MO_8:
+    case MO_16:
+    case MO_32:
+        info = &info_helper_ld32_mmu;
+        break;
+    case MO_64:
+        info = &info_helper_ld64_mmu;
+        break;
+    default:
+        g_assert_not_reached();
+    }
+
+    /* Defer env argument. */
+    next_arg = 1;
+
+    loc = &info->in[next_arg];
+    nmov = tcg_out_helper_add_mov(mov, loc, TCG_TYPE_TL, TCG_TYPE_TL,
+                                  ldst->addrlo_reg, ldst->addrhi_reg);
+    next_arg += nmov;
+
+    tcg_out_helper_load_slots(s, nmov, mov, parm);
+
+    /* No special attention for 32 and 64-bit return values. */
+    tcg_debug_assert(info->out_kind == TCG_CALL_RET_NORMAL);
+
+    tcg_out_helper_load_common_args(s, ldst, parm, info, next_arg);
+}
+
+static void tcg_out_ld_helper_ret(TCGContext *s, const TCGLabelQemuLdst *ldst,
+                                  bool load_sign,
+                                  const TCGLdstHelperParam *parm)
+{
+    TCGMovExtend mov[2];
+
+    if (ldst->type <= TCG_TYPE_REG) {
+        MemOp mop = get_memop(ldst->oi);
+
+        mov[0].dst = ldst->datalo_reg;
+        mov[0].src = tcg_target_call_oarg_reg(TCG_CALL_RET_NORMAL, 0);
+        mov[0].dst_type = ldst->type;
+        mov[0].src_type = TCG_TYPE_REG;
+
+        /*
+         * If load_sign, then we allowed the helper to perform the
+         * appropriate sign extension to tcg_target_ulong, and all
+         * we need now is a plain move.
+         *
+         * If they do not, then we expect the relevant extension
+         * instruction to be no more expensive than a move, and
+         * we thus save the icache etc by only using one of two
+         * helper functions.
+         */
+        if (load_sign || !(mop & MO_SIGN)) {
+            if (TCG_TARGET_REG_BITS == 32 || ldst->type == TCG_TYPE_I32) {
+                mov[0].src_ext = MO_32;
+            } else {
+                mov[0].src_ext = MO_64;
+            }
+        } else {
+            mov[0].src_ext = mop & MO_SSIZE;
+        }
+        tcg_out_movext1(s, mov);
+    } else {
+        assert(TCG_TARGET_REG_BITS == 32);
+
+        mov[0].dst = ldst->datalo_reg;
+        mov[0].src =
+            tcg_target_call_oarg_reg(TCG_CALL_RET_NORMAL, HOST_BIG_ENDIAN);
+        mov[0].dst_type = TCG_TYPE_I32;
+        mov[0].src_type = TCG_TYPE_I32;
+        mov[0].src_ext = MO_32;
+
+        mov[1].dst = ldst->datahi_reg;
+        mov[1].src =
+            tcg_target_call_oarg_reg(TCG_CALL_RET_NORMAL, !HOST_BIG_ENDIAN);
+        mov[1].dst_type = TCG_TYPE_REG;
+        mov[1].src_type = TCG_TYPE_REG;
+        mov[1].src_ext = MO_32;
+
+        tcg_out_movext2(s, mov, mov + 1, parm->ntmp ? parm->tmp[0] : -1);
+    }
+}
+
+static void tcg_out_st_helper_args(TCGContext *s, const TCGLabelQemuLdst *ldst,
+                                   const TCGLdstHelperParam *parm)
+{
+    const TCGHelperInfo *info;
+    const TCGCallArgumentLoc *loc;
+    TCGMovExtend mov[4];
+    TCGType data_type;
+    unsigned next_arg, nmov, n;
+    MemOp mop = get_memop(ldst->oi);
+
+    switch (mop & MO_SIZE) {
+    case MO_8:
+    case MO_16:
+    case MO_32:
+        info = &info_helper_st32_mmu;
+        data_type = TCG_TYPE_I32;
+        break;
+    case MO_64:
+        info = &info_helper_st64_mmu;
+        data_type = TCG_TYPE_I64;
+        break;
+    default:
+        g_assert_not_reached();
+    }
+
+    /* Defer env argument. */
+    next_arg = 1;
+    nmov = 0;
+
+    /* Handle addr argument. */
+    loc = &info->in[next_arg];
+    n = tcg_out_helper_add_mov(mov, loc, TCG_TYPE_TL, TCG_TYPE_TL,
+                               ldst->addrlo_reg, ldst->addrhi_reg);
+    next_arg += n;
+    nmov += n;
+
+    /* Handle data argument. */
+    loc = &info->in[next_arg];
+    n = tcg_out_helper_add_mov(mov + nmov, loc, data_type, ldst->type,
+                               ldst->datalo_reg, ldst->datahi_reg);
+    next_arg += n;
+    nmov += n;
+    tcg_debug_assert(nmov <= ARRAY_SIZE(mov));
+
+    tcg_out_helper_load_slots(s, nmov, mov, parm);
+    tcg_out_helper_load_common_args(s, ldst, parm, info, next_arg);
+}
+
 #ifdef CONFIG_PROFILER
 
 /* avoid copy/paste errors */
-- 
2.34.1

Use tcg_out_ld_helper_args and tcg_out_ld_helper_ret.

Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/i386/tcg-target.c.inc | 71 +++++++++++++++------------------------
 1 file changed, 28 insertions(+), 43 deletions(-)

Use tcg_out_st_helper_args.  This eliminates the use of a tail call to
the store helper.  This may or may not be an improvement, depending on
the call/return branch prediction of the host microarchitecture.

Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/i386/tcg-target.c.inc | 57 +++------------------------------------
 1 file changed, 4 insertions(+), 53 deletions(-)

diff --git a/tcg/i386/tcg-target.c.inc b/tcg/i386/tcg-target.c.inc
index XXXXXXX..XXXXXXX 100644
--- a/tcg/i386/tcg-target.c.inc
+++ b/tcg/i386/tcg-target.c.inc
@@ -XXX,XX +XXX,XX @@ static bool tcg_out_qemu_ld_slow_path(TCGContext *s, TCGLabelQemuLdst *l)
  */
 static bool tcg_out_qemu_st_slow_path(TCGContext *s, TCGLabelQemuLdst *l)
 {
-    MemOpIdx oi = l->oi;
-    MemOp opc = get_memop(oi);
-    MemOp s_bits = opc & MO_SIZE;
+    MemOp opc = get_memop(l->oi);
     tcg_insn_unit **label_ptr = &l->label_ptr[0];
-    TCGReg retaddr;
 
     /* resolve label address */
     tcg_patch32(label_ptr[0], s->code_ptr - label_ptr[0] - 4);
@@ -XXX,XX +XXX,XX @@ static bool tcg_out_qemu_st_slow_path(TCGContext *s, TCGLabelQemuLdst *l)
         tcg_patch32(label_ptr[1], s->code_ptr - label_ptr[1] - 4);
     }
 
-    if (TCG_TARGET_REG_BITS == 32) {
-        int ofs = 0;
+    tcg_out_st_helper_args(s, l, &ldst_helper_param);
+    tcg_out_branch(s, 1, qemu_st_helpers[opc & (MO_BSWAP | MO_SIZE)]);
 
-        tcg_out_st(s, TCG_TYPE_PTR, TCG_AREG0, TCG_REG_ESP, ofs);
-        ofs += 4;
-
-        tcg_out_st(s, TCG_TYPE_I32, l->addrlo_reg, TCG_REG_ESP, ofs);
-        ofs += 4;
-
-        if (TARGET_LONG_BITS == 64) {
-            tcg_out_st(s, TCG_TYPE_I32, l->addrhi_reg, TCG_REG_ESP, ofs);
-            ofs += 4;
-        }
-
-        tcg_out_st(s, TCG_TYPE_I32, l->datalo_reg, TCG_REG_ESP, ofs);
-        ofs += 4;
-
-        if (s_bits == MO_64) {
-            tcg_out_st(s, TCG_TYPE_I32, l->datahi_reg, TCG_REG_ESP, ofs);
-            ofs += 4;
-        }
-
-        tcg_out_sti(s, TCG_TYPE_I32, oi, TCG_REG_ESP, ofs);
-        ofs += 4;
-
-        retaddr = TCG_REG_EAX;
-        tcg_out_movi(s, TCG_TYPE_PTR, retaddr, (uintptr_t)l->raddr);
-        tcg_out_st(s, TCG_TYPE_PTR, retaddr, TCG_REG_ESP, ofs);
-    } else {
-        tcg_out_mov(s, TCG_TYPE_PTR, tcg_target_call_iarg_regs[0], TCG_AREG0);
-        tcg_out_mov(s, TCG_TYPE_TL, tcg_target_call_iarg_regs[1],
-                    l->addrlo_reg);
-        tcg_out_mov(s, (s_bits == MO_64 ? TCG_TYPE_I64 : TCG_TYPE_I32),
-                    tcg_target_call_iarg_regs[2], l->datalo_reg);
-        tcg_out_movi(s, TCG_TYPE_I32, tcg_target_call_iarg_regs[3], oi);
-
-        if (ARRAY_SIZE(tcg_target_call_iarg_regs) > 4) {
-            retaddr = tcg_target_call_iarg_regs[4];
-            tcg_out_movi(s, TCG_TYPE_PTR, retaddr, (uintptr_t)l->raddr);
-        } else {
-            retaddr = TCG_REG_RAX;
-            tcg_out_movi(s, TCG_TYPE_PTR, retaddr, (uintptr_t)l->raddr);
-            tcg_out_st(s, TCG_TYPE_PTR, retaddr, TCG_REG_ESP,
-                       TCG_TARGET_CALL_STACK_OFFSET);
-        }
-    }
-
-    /* "Tail call" to the helper, with the return address back inline.  */
-    tcg_out_push(s, retaddr);
-    tcg_out_jmp(s, qemu_st_helpers[opc & (MO_BSWAP | MO_SIZE)]);
+    tcg_out_jmp(s, l->raddr);
     return true;
 }
 #else
-- 
2.34.1

Use tcg_out_ld_helper_args, tcg_out_ld_helper_ret,
and tcg_out_st_helper_args.

Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/aarch64/tcg-target.c.inc | 40 +++++++++++++++---------------------
 1 file changed, 16 insertions(+), 24 deletions(-)

diff --git a/tcg/aarch64/tcg-target.c.inc b/tcg/aarch64/tcg-target.c.inc
index XXXXXXX..XXXXXXX 100644
--- a/tcg/aarch64/tcg-target.c.inc
+++ b/tcg/aarch64/tcg-target.c.inc
@@ -XXX,XX +XXX,XX @@ static void tcg_out_cltz(TCGContext *s, TCGType ext, TCGReg d,
     }
 }
 
-static void tcg_out_adr(TCGContext *s, TCGReg rd, const void *target)
-{
-    ptrdiff_t offset = tcg_pcrel_diff(s, target);
-    tcg_debug_assert(offset == sextract64(offset, 0, 21));
-    tcg_out_insn(s, 3406, ADR, rd, offset);
-}
-
 typedef struct {
     TCGReg base;
     TCGReg index;
@@ -XXX,XX +XXX,XX @@ static void * const qemu_st_helpers[MO_SIZE + 1] = {
 #endif
 };
 
+static const TCGLdstHelperParam ldst_helper_param = {
+    .ntmp = 1, .tmp = { TCG_REG_TMP }
+};
+
 static bool tcg_out_qemu_ld_slow_path(TCGContext *s, TCGLabelQemuLdst *lb)
 {
-    MemOpIdx oi = lb->oi;
-    MemOp opc = get_memop(oi);
+    MemOp opc = get_memop(lb->oi);
 
     if (!reloc_pc19(lb->label_ptr[0], tcg_splitwx_to_rx(s->code_ptr))) {
         return false;
     }
 
-    tcg_out_mov(s, TCG_TYPE_PTR, TCG_REG_X0, TCG_AREG0);
-    tcg_out_mov(s, TARGET_LONG_BITS == 64, TCG_REG_X1, lb->addrlo_reg);
-    tcg_out_movi(s, TCG_TYPE_I32, TCG_REG_X2, oi);
-    tcg_out_adr(s, TCG_REG_X3, lb->raddr);
+    tcg_out_ld_helper_args(s, lb, &ldst_helper_param);
     tcg_out_call_int(s, qemu_ld_helpers[opc & MO_SIZE]);
-
-    tcg_out_movext(s, lb->type, lb->datalo_reg,
-                   TCG_TYPE_REG, opc & MO_SSIZE, TCG_REG_X0);
+    tcg_out_ld_helper_ret(s, lb, false, &ldst_helper_param);
     tcg_out_goto(s, lb->raddr);
     return true;
 }
 
 static bool tcg_out_qemu_st_slow_path(TCGContext *s, TCGLabelQemuLdst *lb)
 {
-    MemOpIdx oi = lb->oi;
-    MemOp opc = get_memop(oi);
-    MemOp size = opc & MO_SIZE;
+    MemOp opc = get_memop(lb->oi);
 
     if (!reloc_pc19(lb->label_ptr[0], tcg_splitwx_to_rx(s->code_ptr))) {
         return false;
     }
 
-    tcg_out_mov(s, TCG_TYPE_PTR, TCG_REG_X0, TCG_AREG0);
-    tcg_out_mov(s, TARGET_LONG_BITS == 64, TCG_REG_X1, lb->addrlo_reg);
-    tcg_out_mov(s, size == MO_64, TCG_REG_X2, lb->datalo_reg);
-    tcg_out_movi(s, TCG_TYPE_I32, TCG_REG_X3, oi);
-    tcg_out_adr(s, TCG_REG_X4, lb->raddr);
+    tcg_out_st_helper_args(s, lb, &ldst_helper_param);
     tcg_out_call_int(s, qemu_st_helpers[opc & MO_SIZE]);
     tcg_out_goto(s, lb->raddr);
     return true;
 }
 #else
+static void tcg_out_adr(TCGContext *s, TCGReg rd, const void *target)
+{
+    ptrdiff_t offset = tcg_pcrel_diff(s, target);
+    tcg_debug_assert(offset == sextract64(offset, 0, 21));
+    tcg_out_insn(s, 3406, ADR, rd, offset);
+}
+
 static bool tcg_out_fail_alignment(TCGContext *s, TCGLabelQemuLdst *l)
 {
     if (!reloc_pc19(l->label_ptr[0], tcg_splitwx_to_rx(s->code_ptr))) {
-- 
2.34.1

Use tcg_out_ld_helper_args, tcg_out_ld_helper_ret,
and tcg_out_st_helper_args.  This allows our local
tcg_out_arg_* infrastructure to be removed.

Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/arm/tcg-target.c.inc | 140 +++++----------------------------------
 1 file changed, 18 insertions(+), 122 deletions(-)

diff --git a/tcg/arm/tcg-target.c.inc b/tcg/arm/tcg-target.c.inc
index XXXXXXX..XXXXXXX 100644
--- a/tcg/arm/tcg-target.c.inc
+++ b/tcg/arm/tcg-target.c.inc
@@ -XXX,XX +XXX,XX @@ tcg_out_ldrd_rwb(TCGContext *s, ARMCond cond, TCGReg rt, TCGReg rn, TCGReg rm)
     tcg_out_memop_r(s, cond, INSN_LDRD_REG, rt, rn, rm, 1, 1, 1);
 }
 
-static void tcg_out_strd_8(TCGContext *s, ARMCond cond, TCGReg rt,
-                           TCGReg rn, int imm8)
+static void __attribute__((unused))
+tcg_out_strd_8(TCGContext *s, ARMCond cond, TCGReg rt, TCGReg rn, int imm8)
 {
     tcg_out_memop_8(s, cond, INSN_STRD_IMM, rt, rn, imm8, 1, 0);
 }
@@ -XXX,XX +XXX,XX @@ static void tcg_out_ext8u(TCGContext *s, TCGReg rd, TCGReg rn)
     tcg_out_dat_imm(s, COND_AL, ARITH_AND, rd, rn, 0xff);
 }
 
-static void __attribute__((unused))
-tcg_out_ext8u_cond(TCGContext *s, ARMCond cond, TCGReg rd, TCGReg rn)
-{
-    tcg_out_dat_imm(s, cond, ARITH_AND, rd, rn, 0xff);
-}
-
 static void tcg_out_ext16s(TCGContext *s, TCGType t, TCGReg rd, TCGReg rn)
 {
     /* sxth */
     tcg_out32(s, 0x06bf0070 | (COND_AL << 28) | (rd << 12) | rn);
 }
 
-static void tcg_out_ext16u_cond(TCGContext *s, ARMCond cond,
-                                TCGReg rd, TCGReg rn)
-{
-    /* uxth */
-    tcg_out32(s, 0x06ff0070 | (cond << 28) | (rd << 12) | rn);
-}
-
 static void tcg_out_ext16u(TCGContext *s, TCGReg rd, TCGReg rn)
 {
-    tcg_out_ext16u_cond(s, COND_AL, rd, rn);
+    /* uxth */
+    tcg_out32(s, 0x06ff0070 | (COND_AL << 28) | (rd << 12) | rn);
 }
 
 static void tcg_out_ext32s(TCGContext *s, TCGReg rd, TCGReg rn)
@@ -XXX,XX +XXX,XX @@ static void * const qemu_st_helpers[MO_SIZE + 1] = {
 #endif
 };
 
-/* Helper routines for marshalling helper function arguments into
- * the correct registers and stack.
- * argreg is where we want to put this argument, arg is the argument itself.
- * Return value is the updated argreg ready for the next call.
- * Note that argreg 0..3 is real registers, 4+ on stack.
- *
- * We provide routines for arguments which are: immediate, 32 bit
- * value in register, 16 and 8 bit values in register (which must be zero
- * extended before use) and 64 bit value in a lo:hi register pair.
- */
-#define DEFINE_TCG_OUT_ARG(NAME, ARGTYPE, MOV_ARG, EXT_ARG)                \
-static TCGReg NAME(TCGContext *s, TCGReg argreg, ARGTYPE arg)              \
-{                                                                          \
-    if (argreg < 4) {                                                      \
-        MOV_ARG(s, COND_AL, argreg, arg);                                  \
-    } else {                                                               \
-        int ofs = (argreg - 4) * 4;                                        \
-        EXT_ARG;                                                           \
-        tcg_debug_assert(ofs + 4 <= TCG_STATIC_CALL_ARGS_SIZE);            \
-        tcg_out_st32_12(s, COND_AL, arg, TCG_REG_CALL_STACK, ofs);         \
-    }                                                                      \
-    return argreg + 1;                                                     \
-}
-
-DEFINE_TCG_OUT_ARG(tcg_out_arg_imm32, uint32_t, tcg_out_movi32,
-    (tcg_out_movi32(s, COND_AL, TCG_REG_TMP, arg), arg = TCG_REG_TMP))
-DEFINE_TCG_OUT_ARG(tcg_out_arg_reg8, TCGReg, tcg_out_ext8u_cond,
-    (tcg_out_ext8u_cond(s, COND_AL, TCG_REG_TMP, arg), arg = TCG_REG_TMP))
-DEFINE_TCG_OUT_ARG(tcg_out_arg_reg16, TCGReg, tcg_out_ext16u_cond,
-    (tcg_out_ext16u_cond(s, COND_AL, TCG_REG_TMP, arg), arg = TCG_REG_TMP))
-DEFINE_TCG_OUT_ARG(tcg_out_arg_reg32, TCGReg, tcg_out_mov_reg, )
-
-static TCGReg tcg_out_arg_reg64(TCGContext *s, TCGReg argreg,
-                                TCGReg arglo, TCGReg arghi)
+static TCGReg ldst_ra_gen(TCGContext *s, const TCGLabelQemuLdst *l, int arg)
 {
-    /* 64 bit arguments must go in even/odd register pairs
-     * and in 8-aligned stack slots.
-     */
-    if (argreg & 1) {
-        argreg++;
-    }
-    if (argreg >= 4 && (arglo & 1) == 0 && arghi == arglo + 1) {
-        tcg_out_strd_8(s, COND_AL, arglo,
-                       TCG_REG_CALL_STACK, (argreg - 4) * 4);
-        return argreg + 2;
-    } else {
-        argreg = tcg_out_arg_reg32(s, argreg, arglo);
-        argreg = tcg_out_arg_reg32(s, argreg, arghi);
-        return argreg;
-    }
+    /* We arrive at the slow path via "BLNE", so R14 contains l->raddr. */
+    return TCG_REG_R14;
 }
 
+static const TCGLdstHelperParam ldst_helper_param = {
+    .ra_gen = ldst_ra_gen,
+    .ntmp = 1,
+    .tmp = { TCG_REG_TMP },
+};
+
 static bool tcg_out_qemu_ld_slow_path(TCGContext *s, TCGLabelQemuLdst *lb)
 {
-    TCGReg argreg;
-    MemOpIdx oi = lb->oi;
-    MemOp opc = get_memop(oi);
+    MemOp opc = get_memop(lb->oi);
 
     if (!reloc_pc24(lb->label_ptr[0], tcg_splitwx_to_rx(s->code_ptr))) {
         return false;
     }
 
-    argreg = tcg_out_arg_reg32(s, TCG_REG_R0, TCG_AREG0);
-    if (TARGET_LONG_BITS == 64) {
-        argreg = tcg_out_arg_reg64(s, argreg, lb->addrlo_reg, lb->addrhi_reg);
-    } else {
-        argreg = tcg_out_arg_reg32(s, argreg, lb->addrlo_reg);
-    }
-    argreg = tcg_out_arg_imm32(s, argreg, oi);
-    argreg = tcg_out_arg_reg32(s, argreg, TCG_REG_R14);
-
-    /* Use the canonical unsigned helpers and minimize icache usage. */
+    tcg_out_ld_helper_args(s, lb, &ldst_helper_param);
     tcg_out_call_int(s, qemu_ld_helpers[opc & MO_SIZE]);
-
-    if ((opc & MO_SIZE) == MO_64) {
-        TCGMovExtend ext[2] = {
-            { .dst = lb->datalo_reg, .dst_type = TCG_TYPE_I32,
-              .src = TCG_REG_R0, .src_type = TCG_TYPE_I32, .src_ext = MO_UL },
-            { .dst = lb->datahi_reg, .dst_type = TCG_TYPE_I32,
-              .src = TCG_REG_R1, .src_type = TCG_TYPE_I32, .src_ext = MO_UL },
-        };
-        tcg_out_movext2(s, &ext[0], &ext[1], TCG_REG_TMP);
-    } else {
-        tcg_out_movext(s, TCG_TYPE_I32, lb->datalo_reg,
-                       TCG_TYPE_I32, opc & MO_SSIZE, TCG_REG_R0);
-    }
+    tcg_out_ld_helper_ret(s, lb, false, &ldst_helper_param);
 
     tcg_out_goto(s, COND_AL, lb->raddr);
     return true;
@@ -XXX,XX +XXX,XX @@ static bool tcg_out_qemu_ld_slow_path(TCGContext *s, TCGLabelQemuLdst *lb)
 
 static bool tcg_out_qemu_st_slow_path(TCGContext *s, TCGLabelQemuLdst *lb)
 {
-    TCGReg argreg, datalo, datahi;
-    MemOpIdx oi = lb->oi;
-    MemOp opc = get_memop(oi);
+    MemOp opc = get_memop(lb->oi);
 
     if (!reloc_pc24(lb->label_ptr[0], tcg_splitwx_to_rx(s->code_ptr))) {
         return false;
     }
 
-    argreg = TCG_REG_R0;
-    argreg = tcg_out_arg_reg32(s, argreg, TCG_AREG0);
-    if (TARGET_LONG_BITS == 64) {
-        argreg = tcg_out_arg_reg64(s, argreg, lb->addrlo_reg, lb->addrhi_reg);
-    } else {
-        argreg = tcg_out_arg_reg32(s, argreg, lb->addrlo_reg);
-    }
-
-    datalo = lb->datalo_reg;
-    datahi = lb->datahi_reg;
-    switch (opc & MO_SIZE) {
-    case MO_8:
-        argreg = tcg_out_arg_reg8(s, argreg, datalo);
-        break;
-    case MO_16:
-        argreg = tcg_out_arg_reg16(s, argreg, datalo);
-        break;
-    case MO_32:
-    default:
-        argreg = tcg_out_arg_reg32(s, argreg, datalo);
-        break;
-    case MO_64:
-        argreg = tcg_out_arg_reg64(s, argreg, datalo, datahi);
-        break;
-    }
-
-    argreg = tcg_out_arg_imm32(s, argreg, oi);
-    argreg = tcg_out_arg_reg32(s, argreg, TCG_REG_R14);
+    tcg_out_st_helper_args(s, lb, &ldst_helper_param);
 
     /* Tail-call to the helper, which will return to the fast path.  */
     tcg_out_goto(s, COND_AL, qemu_st_helpers[opc & MO_SIZE]);
-- 
2.34.1

Use tcg_out_ld_helper_args, tcg_out_ld_helper_ret,
and tcg_out_st_helper_args.

Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/loongarch64/tcg-target.c.inc | 37 ++++++++++----------------------
 1 file changed, 11 insertions(+), 26 deletions(-)

diff --git a/tcg/loongarch64/tcg-target.c.inc b/tcg/loongarch64/tcg-target.c.inc
index XXXXXXX..XXXXXXX 100644
--- a/tcg/loongarch64/tcg-target.c.inc
+++ b/tcg/loongarch64/tcg-target.c.inc
@@ -XXX,XX +XXX,XX @@ static bool tcg_out_goto(TCGContext *s, const tcg_insn_unit *target)
     return reloc_br_sd10k16(s->code_ptr - 1, target);
 }
 
+static const TCGLdstHelperParam ldst_helper_param = {
+    .ntmp = 1, .tmp = { TCG_REG_TMP0 }
+};
+
 static bool tcg_out_qemu_ld_slow_path(TCGContext *s, TCGLabelQemuLdst *l)
 {
-    MemOpIdx oi = l->oi;
-    MemOp opc = get_memop(oi);
-    MemOp size = opc & MO_SIZE;
+    MemOp opc = get_memop(l->oi);
 
     /* resolve label address */
     if (!reloc_br_sk16(l->label_ptr[0], tcg_splitwx_to_rx(s->code_ptr))) {
         return false;
     }
 
-    /* call load helper */
-    tcg_out_mov(s, TCG_TYPE_PTR, TCG_REG_A0, TCG_AREG0);
-    tcg_out_mov(s, TCG_TYPE_PTR, TCG_REG_A1, l->addrlo_reg);
-    tcg_out_movi(s, TCG_TYPE_PTR, TCG_REG_A2, oi);
-    tcg_out_movi(s, TCG_TYPE_PTR, TCG_REG_A3, (tcg_target_long)l->raddr);
-
-    tcg_out_call_int(s, qemu_ld_helpers[size], false);
-
-    tcg_out_movext(s, l->type, l->datalo_reg,
-                   TCG_TYPE_REG, opc & MO_SSIZE, TCG_REG_A0);
+    tcg_out_ld_helper_args(s, l, &ldst_helper_param);
+    tcg_out_call_int(s, qemu_ld_helpers[opc & MO_SIZE], false);
+    tcg_out_ld_helper_ret(s, l, false, &ldst_helper_param);
     return tcg_out_goto(s, l->raddr);
 }
 
 static bool tcg_out_qemu_st_slow_path(TCGContext *s, TCGLabelQemuLdst *l)
 {
-    MemOpIdx oi = l->oi;
-    MemOp opc = get_memop(oi);
-    MemOp size = opc & MO_SIZE;
+    MemOp opc = get_memop(l->oi);
 
     /* resolve label address */
     if (!reloc_br_sk16(l->label_ptr[0], tcg_splitwx_to_rx(s->code_ptr))) {
         return false;
     }
 
-    /* call store helper */
-    tcg_out_mov(s, TCG_TYPE_PTR, TCG_REG_A0, TCG_AREG0);
-    tcg_out_mov(s, TCG_TYPE_PTR, TCG_REG_A1, l->addrlo_reg);
-    tcg_out_movext(s, size == MO_64 ? TCG_TYPE_I32 : TCG_TYPE_I32, TCG_REG_A2,
-                   l->type, size, l->datalo_reg);
-    tcg_out_movi(s, TCG_TYPE_PTR, TCG_REG_A3, oi);
-    tcg_out_movi(s, TCG_TYPE_PTR, TCG_REG_A4, (tcg_target_long)l->raddr);
-
-    tcg_out_call_int(s, qemu_st_helpers[size], false);
-
+    tcg_out_st_helper_args(s, l, &ldst_helper_param);
+    tcg_out_call_int(s, qemu_st_helpers[opc & MO_SIZE], false);
     return tcg_out_goto(s, l->raddr);
 }
 #else
-- 
2.34.1

Use tcg_out_ld_helper_args, tcg_out_ld_helper_ret,
and tcg_out_st_helper_args.  This allows our local
tcg_out_arg_* infrastructure to be removed.

We are no longer filling the call or return branch
delay slots, nor are we tail-calling for the store,
but this seems a small price to pay.

Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/mips/tcg-target.c.inc | 154 ++++++--------------------------------
 1 file changed, 22 insertions(+), 132 deletions(-)

diff --git a/tcg/mips/tcg-target.c.inc b/tcg/mips/tcg-target.c.inc
index XXXXXXX..XXXXXXX 100644
--- a/tcg/mips/tcg-target.c.inc
+++ b/tcg/mips/tcg-target.c.inc
@@ -XXX,XX +XXX,XX @@ static void * const qemu_st_helpers[(MO_SIZE | MO_BSWAP) + 1] = {
     [MO_BEUQ] = helper_be_stq_mmu,
 };
 
-/* Helper routines for marshalling helper function arguments into
- * the correct registers and stack.
- * I is where we want to put this argument, and is updated and returned
- * for the next call. ARG is the argument itself.
- *
- * We provide routines for arguments which are: immediate, 32 bit
- * value in register, 16 and 8 bit values in register (which must be zero
- * extended before use) and 64 bit value in a lo:hi register pair.
- */
-
-static int tcg_out_call_iarg_reg(TCGContext *s, int i, TCGReg arg)
-{
-    if (i < ARRAY_SIZE(tcg_target_call_iarg_regs)) {
-        tcg_out_mov(s, TCG_TYPE_REG, tcg_target_call_iarg_regs[i], arg);
-    } else {
-        /* For N32 and N64, the initial offset is different.  But there
-           we also have 8 argument register so we don't run out here.  */
-        tcg_debug_assert(TCG_TARGET_REG_BITS == 32);
-        tcg_out_st(s, TCG_TYPE_REG, arg, TCG_REG_SP, 4 * i);
-    }
-    return i + 1;
-}
-
-static int tcg_out_call_iarg_reg8(TCGContext *s, int i, TCGReg arg)
-{
-    TCGReg tmp = TCG_TMP0;
-    if (i < ARRAY_SIZE(tcg_target_call_iarg_regs)) {
-        tmp = tcg_target_call_iarg_regs[i];
-    }
-    tcg_out_ext8u(s, tmp, arg);
-    return tcg_out_call_iarg_reg(s, i, tmp);
-}
-
-static int tcg_out_call_iarg_reg16(TCGContext *s, int i, TCGReg arg)
-{
-    TCGReg tmp = TCG_TMP0;
-    if (i < ARRAY_SIZE(tcg_target_call_iarg_regs)) {
-        tmp = tcg_target_call_iarg_regs[i];
-    }
-    tcg_out_opc_imm(s, OPC_ANDI, tmp, arg, 0xffff);
-    return tcg_out_call_iarg_reg(s, i, tmp);
-}
-
-static int tcg_out_call_iarg_imm(TCGContext *s, int i, TCGArg arg)
-{
-    TCGReg tmp = TCG_TMP0;
-    if (arg == 0) {
-        tmp = TCG_REG_ZERO;
-    } else {
-        if (i < ARRAY_SIZE(tcg_target_call_iarg_regs)) {
-            tmp = tcg_target_call_iarg_regs[i];
-        }
-        tcg_out_movi(s, TCG_TYPE_REG, tmp, arg);
-    }
-    return tcg_out_call_iarg_reg(s, i, tmp);
-}
-
-static int tcg_out_call_iarg_reg2(TCGContext *s, int i, TCGReg al, TCGReg ah)
-{
-    tcg_debug_assert(TCG_TARGET_REG_BITS == 32);
-    i = (i + 1) & ~1;
-    i = tcg_out_call_iarg_reg(s, i, (MIPS_BE ? ah : al));
-    i = tcg_out_call_iarg_reg(s, i, (MIPS_BE ? al : ah));
-    return i;
-}
+/* We have four temps, we might as well expose three of them. */
+static const TCGLdstHelperParam ldst_helper_param = {
+    .ntmp = 3, .tmp = { TCG_TMP0, TCG_TMP1, TCG_TMP2 }
+};
 
 static bool tcg_out_qemu_ld_slow_path(TCGContext *s, TCGLabelQemuLdst *l)
 {
     const tcg_insn_unit *tgt_rx = tcg_splitwx_to_rx(s->code_ptr);
-    MemOpIdx oi = l->oi;
-    MemOp opc = get_memop(oi);
-    TCGReg v0;
-    int i;
+    MemOp opc = get_memop(l->oi);
 
     /* resolve label address */
     if (!reloc_pc16(l->label_ptr[0], tgt_rx)
@@ -XXX,XX +XXX,XX @@ static bool tcg_out_qemu_ld_slow_path(TCGContext *s, TCGLabelQemuLdst *l)
         return false;
     }
 
-    i = 1;
-    if (TCG_TARGET_REG_BITS < TARGET_LONG_BITS) {
-        i = tcg_out_call_iarg_reg2(s, i, l->addrlo_reg, l->addrhi_reg);
-    } else {
-        i = tcg_out_call_iarg_reg(s, i, l->addrlo_reg);
-    }
-    i = tcg_out_call_iarg_imm(s, i, oi);
-    i = tcg_out_call_iarg_imm(s, i, (intptr_t)l->raddr);
+    tcg_out_ld_helper_args(s, l, &ldst_helper_param);
+
     tcg_out_call_int(s, qemu_ld_helpers[opc & (MO_BSWAP | MO_SSIZE)], false);
     /* delay slot */
-    tcg_out_mov(s, TCG_TYPE_PTR, tcg_target_call_iarg_regs[0], TCG_AREG0);
+    tcg_out_nop(s);
 
-    v0 = l->datalo_reg;
-    if (TCG_TARGET_REG_BITS == 32 && (opc & MO_SIZE) == MO_64) {
-        /* We eliminated V0 from the possible output registers, so it
-           cannot be clobbered here.  So we must move V1 first.  */
-        if (MIPS_BE) {
-            tcg_out_mov(s, TCG_TYPE_I32, v0, TCG_REG_V1);
-            v0 = l->datahi_reg;
-        } else {
-            tcg_out_mov(s, TCG_TYPE_I32, l->datahi_reg, TCG_REG_V1);
-        }
-    }
+    tcg_out_ld_helper_ret(s, l, true, &ldst_helper_param);
 
     tcg_out_opc_br(s, OPC_BEQ, TCG_REG_ZERO, TCG_REG_ZERO);
     if (!reloc_pc16(s->code_ptr - 1, l->raddr)) {
@@ -XXX,XX +XXX,XX @@ static bool tcg_out_qemu_ld_slow_path(TCGContext *s, TCGLabelQemuLdst *l)
     }
 
     /* delay slot */
-    if (TCG_TARGET_REG_BITS == 64 && l->type == TCG_TYPE_I32) {
-        /* we always sign-extend 32-bit loads */
-        tcg_out_ext32s(s, v0, TCG_REG_V0);
-    } else {
-        tcg_out_opc_reg(s, OPC_OR, v0, TCG_REG_V0, TCG_REG_ZERO);
-    }
+    tcg_out_nop(s);
     return true;
 }
 
 static bool tcg_out_qemu_st_slow_path(TCGContext *s, TCGLabelQemuLdst *l)
 {
     const tcg_insn_unit *tgt_rx = tcg_splitwx_to_rx(s->code_ptr);
-    MemOpIdx oi = l->oi;
-    MemOp opc = get_memop(oi);
-    MemOp s_bits = opc & MO_SIZE;
-    int i;
+    MemOp opc = get_memop(l->oi);
 
     /* resolve label address */
     if (!reloc_pc16(l->label_ptr[0], tgt_rx)
@@ -XXX,XX +XXX,XX @@ static bool tcg_out_qemu_st_slow_path(TCGContext *s, TCGLabelQemuLdst *l)
         return false;
     }
 
-    i = 1;
-    if (TCG_TARGET_REG_BITS < TARGET_LONG_BITS) {
-        i = tcg_out_call_iarg_reg2(s, i, l->addrlo_reg, l->addrhi_reg);
-    } else {
-        i = tcg_out_call_iarg_reg(s, i, l->addrlo_reg);
-    }
-    switch (s_bits) {
-    case MO_8:
-        i = tcg_out_call_iarg_reg8(s, i, l->datalo_reg);
-        break;
-    case MO_16:
-        i = tcg_out_call_iarg_reg16(s, i, l->datalo_reg);
-        break;
-    case MO_32:
-        i = tcg_out_call_iarg_reg(s, i, l->datalo_reg);
-        break;
-    case MO_64:
-        if (TCG_TARGET_REG_BITS == 32) {
-            i = tcg_out_call_iarg_reg2(s, i, l->datalo_reg, l->datahi_reg);
-        } else {
-            i = tcg_out_call_iarg_reg(s, i, l->datalo_reg);
-        }
-        break;
-    default:
-        g_assert_not_reached();
-    }
-    i = tcg_out_call_iarg_imm(s, i, oi);
+    tcg_out_st_helper_args(s, l, &ldst_helper_param);
 
-    /* Tail call to the store helper.  Thus force the return address
-       computation to take place in the return address register.  */
-    tcg_out_movi(s, TCG_TYPE_PTR, TCG_REG_RA, (intptr_t)l->raddr);
-    i = tcg_out_call_iarg_reg(s, i, TCG_REG_RA);
-    tcg_out_call_int(s, qemu_st_helpers[opc & (MO_BSWAP | MO_SIZE)], true);
+    tcg_out_call_int(s, qemu_st_helpers[opc & (MO_BSWAP | MO_SIZE)], false);
     /* delay slot */
-    tcg_out_mov(s, TCG_TYPE_PTR, tcg_target_call_iarg_regs[0], TCG_AREG0);
+    tcg_out_nop(s);
+
+    tcg_out_opc_br(s, OPC_BEQ, TCG_REG_ZERO, TCG_REG_ZERO);
+    if (!reloc_pc16(s->code_ptr - 1, l->raddr)) {
+        return false;
+    }
+
+    /* delay slot */
+    tcg_out_nop(s);
     return true;
 }
 
-- 
2.34.1

Use tcg_out_ld_helper_args, tcg_out_ld_helper_ret,
and tcg_out_st_helper_args.

Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
Reviewed-by: Daniel Henrique Barboza <danielhb413@gmail.com>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/ppc/tcg-target.c.inc | 88 ++++++++++++----------------------------
 1 file changed, 26 insertions(+), 62 deletions(-)

Use tcg_out_ld_helper_args, tcg_out_ld_helper_ret,
and tcg_out_st_helper_args.

Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
Reviewed-by: Daniel Henrique Barboza <dbarboza@ventanamicro.com>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/riscv/tcg-target.c.inc | 37 ++++++++++---------------------------
 1 file changed, 10 insertions(+), 27 deletions(-)

diff --git a/tcg/riscv/tcg-target.c.inc b/tcg/riscv/tcg-target.c.inc
index XXXXXXX..XXXXXXX 100644
--- a/tcg/riscv/tcg-target.c.inc
+++ b/tcg/riscv/tcg-target.c.inc
@@ -XXX,XX +XXX,XX @@ static void tcg_out_goto(TCGContext *s, const tcg_insn_unit *target)
     tcg_debug_assert(ok);
 }
 
+/* We have three temps, we might as well expose them. */
+static const TCGLdstHelperParam ldst_helper_param = {
+    .ntmp = 3, .tmp = { TCG_REG_TMP0, TCG_REG_TMP1, TCG_REG_TMP2 }
+};
+
 static bool tcg_out_qemu_ld_slow_path(TCGContext *s, TCGLabelQemuLdst *l)
 {
-    MemOpIdx oi = l->oi;
-    MemOp opc = get_memop(oi);
-    TCGReg a0 = tcg_target_call_iarg_regs[0];
-    TCGReg a1 = tcg_target_call_iarg_regs[1];
-    TCGReg a2 = tcg_target_call_iarg_regs[2];
-    TCGReg a3 = tcg_target_call_iarg_regs[3];
+    MemOp opc = get_memop(l->oi);
 
     /* resolve label address */
     if (!reloc_sbimm12(l->label_ptr[0], tcg_splitwx_to_rx(s->code_ptr))) {
@@ -XXX,XX +XXX,XX @@ static bool tcg_out_qemu_ld_slow_path(TCGContext *s, TCGLabelQemuLdst *l)
     }
 
     /* call load helper */
-    tcg_out_mov(s, TCG_TYPE_PTR, a0, TCG_AREG0);
-    tcg_out_mov(s, TCG_TYPE_PTR, a1, l->addrlo_reg);
-    tcg_out_movi(s, TCG_TYPE_PTR, a2, oi);
-    tcg_out_movi(s, TCG_TYPE_PTR, a3, (tcg_target_long)l->raddr);
-
+    tcg_out_ld_helper_args(s, l, &ldst_helper_param);
     tcg_out_call_int(s, qemu_ld_helpers[opc & MO_SSIZE], false);
-    tcg_out_mov(s, (opc & MO_SIZE) == MO_64, l->datalo_reg, a0);
+    tcg_out_ld_helper_ret(s, l, true, &ldst_helper_param);
 
     tcg_out_goto(s, l->raddr);
     return true;
@@ -XXX,XX +XXX,XX @@ static bool tcg_out_qemu_ld_slow_path(TCGContext *s, TCGLabelQemuLdst *l)
 
 static bool tcg_out_qemu_st_slow_path(TCGContext *s, TCGLabelQemuLdst *l)
 {
-    MemOpIdx oi = l->oi;
-    MemOp opc = get_memop(oi);
-    MemOp s_bits = opc & MO_SIZE;
-    TCGReg a0 = tcg_target_call_iarg_regs[0];
-    TCGReg a1 = tcg_target_call_iarg_regs[1];
-    TCGReg a2 = tcg_target_call_iarg_regs[2];
-    TCGReg a3 = tcg_target_call_iarg_regs[3];
-    TCGReg a4 = tcg_target_call_iarg_regs[4];
+    MemOp opc = get_memop(l->oi);
 
     /* resolve label address */
     if (!reloc_sbimm12(l->label_ptr[0], tcg_splitwx_to_rx(s->code_ptr))) {
@@ -XXX,XX +XXX,XX @@ static bool tcg_out_qemu_st_slow_path(TCGContext *s, TCGLabelQemuLdst *l)
     }
 
     /* call store helper */
-    tcg_out_mov(s, TCG_TYPE_PTR, a0, TCG_AREG0);
-    tcg_out_mov(s, TCG_TYPE_PTR, a1, l->addrlo_reg);
-    tcg_out_movext(s, s_bits == MO_64 ? TCG_TYPE_I64 : TCG_TYPE_I32, a2,
-                   l->type, s_bits, l->datalo_reg);
-    tcg_out_movi(s, TCG_TYPE_PTR, a3, oi);
-    tcg_out_movi(s, TCG_TYPE_PTR, a4, (tcg_target_long)l->raddr);
-
+    tcg_out_st_helper_args(s, l, &ldst_helper_param);
     tcg_out_call_int(s, qemu_st_helpers[opc & MO_SIZE], false);
 
     tcg_out_goto(s, l->raddr);
-- 
2.34.1

Use tcg_out_ld_helper_args, tcg_out_ld_helper_ret,
and tcg_out_st_helper_args.

Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/s390x/tcg-target.c.inc | 35 ++++++++++-------------------------
 1 file changed, 10 insertions(+), 25 deletions(-)

The softmmu tlb uses TCG_REG_TMP[0-2], not any of the normally available
registers.  Now that we handle overlap betwen inputs and helper arguments,
we can allow any allocatable reg.

Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/loongarch64/tcg-target-con-set.h |  2 --
 tcg/loongarch64/tcg-target-con-str.h |  1 -
 tcg/loongarch64/tcg-target.c.inc     | 23 ++++-------------------
 3 files changed, 4 insertions(+), 22 deletions(-)

diff --git a/tcg/loongarch64/tcg-target-con-set.h b/tcg/loongarch64/tcg-target-con-set.h
index XXXXXXX..XXXXXXX 100644
--- a/tcg/loongarch64/tcg-target-con-set.h
+++ b/tcg/loongarch64/tcg-target-con-set.h
@@ -XXX,XX +XXX,XX @@
 C_O0_I1(r)
 C_O0_I2(rZ, r)
 C_O0_I2(rZ, rZ)
-C_O0_I2(LZ, L)
 C_O1_I1(r, r)
-C_O1_I1(r, L)
 C_O1_I2(r, r, rC)
 C_O1_I2(r, r, ri)
 C_O1_I2(r, r, rI)
diff --git a/tcg/loongarch64/tcg-target-con-str.h b/tcg/loongarch64/tcg-target-con-str.h
index XXXXXXX..XXXXXXX 100644
--- a/tcg/loongarch64/tcg-target-con-str.h
+++ b/tcg/loongarch64/tcg-target-con-str.h
@@ -XXX,XX +XXX,XX @@
  * REGS(letter, register_mask)
  */
 REGS('r', ALL_GENERAL_REGS)
-REGS('L', ALL_GENERAL_REGS & ~SOFTMMU_RESERVE_REGS)
 
 /*
  * Define constraint letters for constants:
diff --git a/tcg/loongarch64/tcg-target.c.inc b/tcg/loongarch64/tcg-target.c.inc
index XXXXXXX..XXXXXXX 100644
--- a/tcg/loongarch64/tcg-target.c.inc
+++ b/tcg/loongarch64/tcg-target.c.inc
@@ -XXX,XX +XXX,XX @@ static TCGReg tcg_target_call_oarg_reg(TCGCallReturnKind kind, int slot)
 #define TCG_CT_CONST_C12   0x1000
 #define TCG_CT_CONST_WSZ   0x2000
 
-#define ALL_GENERAL_REGS      MAKE_64BIT_MASK(0, 32)
-/*
- * For softmmu, we need to avoid conflicts with the first 5
- * argument registers to call the helper.  Some of these are
- * also used for the tlb lookup.
- */
-#ifdef CONFIG_SOFTMMU
-#define SOFTMMU_RESERVE_REGS  MAKE_64BIT_MASK(TCG_REG_A0, 5)
-#else
-#define SOFTMMU_RESERVE_REGS  0
-#endif
-
+#define ALL_GENERAL_REGS   MAKE_64BIT_MASK(0, 32)
 
 static inline tcg_target_long sextreg(tcg_target_long val, int pos, int len)
 {
@@ -XXX,XX +XXX,XX @@ static TCGConstraintSetIndex tcg_target_op_def(TCGOpcode op)
     case INDEX_op_st32_i64:
     case INDEX_op_st_i32:
     case INDEX_op_st_i64:
+    case INDEX_op_qemu_st_i32:
+    case INDEX_op_qemu_st_i64:
         return C_O0_I2(rZ, r);
 
     case INDEX_op_brcond_i32:
     case INDEX_op_brcond_i64:
         return C_O0_I2(rZ, rZ);
 
-    case INDEX_op_qemu_st_i32:
-    case INDEX_op_qemu_st_i64:
-        return C_O0_I2(LZ, L);
-
     case INDEX_op_ext8s_i32:
     case INDEX_op_ext8s_i64:
     case INDEX_op_ext8u_i32:
@@ -XXX,XX +XXX,XX @@ static TCGConstraintSetIndex tcg_target_op_def(TCGOpcode op)
     case INDEX_op_ld32u_i64:
     case INDEX_op_ld_i32:
     case INDEX_op_ld_i64:
-        return C_O1_I1(r, r);
-
     case INDEX_op_qemu_ld_i32:
     case INDEX_op_qemu_ld_i64:
-        return C_O1_I1(r, L);
+        return C_O1_I1(r, r);
 
     case INDEX_op_andc_i32:
     case INDEX_op_andc_i64:
-- 
2.34.1

While performing the load in the delay slot of the call to the common
bswap helper function is cute, it is not worth the added complexity.

Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/mips/tcg-target.h     |   4 +-
 tcg/mips/tcg-target.c.inc | 284 ++++++--------------------------------
 2 files changed, 48 insertions(+), 240 deletions(-)

diff --git a/tcg/mips/tcg-target.h b/tcg/mips/tcg-target.h
index XXXXXXX..XXXXXXX 100644
--- a/tcg/mips/tcg-target.h
+++ b/tcg/mips/tcg-target.h
@@ -XXX,XX +XXX,XX @@ extern bool use_mips32r2_instructions;
 #define TCG_TARGET_HAS_ext16u_i64       0 /* andi rt, rs, 0xffff */
 #endif
 
-#define TCG_TARGET_DEFAULT_MO (0)
-#define TCG_TARGET_HAS_MEMORY_BSWAP     1
+#define TCG_TARGET_DEFAULT_MO           0
+#define TCG_TARGET_HAS_MEMORY_BSWAP     0
 
 #define TCG_TARGET_NEED_LDST_LABELS
 
diff --git a/tcg/mips/tcg-target.c.inc b/tcg/mips/tcg-target.c.inc
index XXXXXXX..XXXXXXX 100644
--- a/tcg/mips/tcg-target.c.inc
+++ b/tcg/mips/tcg-target.c.inc
@@ -XXX,XX +XXX,XX @@ static void tcg_out_call(TCGContext *s, const tcg_insn_unit *arg,
 }
 
 #if defined(CONFIG_SOFTMMU)
-static void * const qemu_ld_helpers[(MO_SSIZE | MO_BSWAP) + 1] = {
+static void * const qemu_ld_helpers[MO_SSIZE + 1] = {
     [MO_UB]   = helper_ret_ldub_mmu,
     [MO_SB]   = helper_ret_ldsb_mmu,
-    [MO_LEUW] = helper_le_lduw_mmu,
-    [MO_LESW] = helper_le_ldsw_mmu,
-    [MO_LEUL] = helper_le_ldul_mmu,
-    [MO_LEUQ] = helper_le_ldq_mmu,
-    [MO_BEUW] = helper_be_lduw_mmu,
-    [MO_BESW] = helper_be_ldsw_mmu,
-    [MO_BEUL] = helper_be_ldul_mmu,
-    [MO_BEUQ] = helper_be_ldq_mmu,
-#if TCG_TARGET_REG_BITS == 64
-    [MO_LESL] = helper_le_ldsl_mmu,
-    [MO_BESL] = helper_be_ldsl_mmu,
+#if HOST_BIG_ENDIAN
+    [MO_UW] = helper_be_lduw_mmu,
+    [MO_SW] = helper_be_ldsw_mmu,
+    [MO_UL] = helper_be_ldul_mmu,
+    [MO_SL] = helper_be_ldsl_mmu,
+    [MO_UQ] = helper_be_ldq_mmu,
+#else
+    [MO_UW] = helper_le_lduw_mmu,
+    [MO_SW] = helper_le_ldsw_mmu,
+    [MO_UL] = helper_le_ldul_mmu,
+    [MO_UQ] = helper_le_ldq_mmu,
+    [MO_SL] = helper_le_ldsl_mmu,
 #endif
 };
 
-static void * const qemu_st_helpers[(MO_SIZE | MO_BSWAP) + 1] = {
+static void * const qemu_st_helpers[MO_SIZE + 1] = {
     [MO_UB]   = helper_ret_stb_mmu,
-    [MO_LEUW] = helper_le_stw_mmu,
-    [MO_LEUL] = helper_le_stl_mmu,
-    [MO_LEUQ] = helper_le_stq_mmu,
-    [MO_BEUW] = helper_be_stw_mmu,
-    [MO_BEUL] = helper_be_stl_mmu,
-    [MO_BEUQ] = helper_be_stq_mmu,
+#if HOST_BIG_ENDIAN
+    [MO_UW] = helper_be_stw_mmu,
+    [MO_UL] = helper_be_stl_mmu,
+    [MO_UQ] = helper_be_stq_mmu,
+#else
+    [MO_UW] = helper_le_stw_mmu,
+    [MO_UL] = helper_le_stl_mmu,
+    [MO_UQ] = helper_le_stq_mmu,
+#endif
 };
 
 /* We have four temps, we might as well expose three of them. */
@@ -XXX,XX +XXX,XX @@ static bool tcg_out_qemu_ld_slow_path(TCGContext *s, TCGLabelQemuLdst *l)
 
     tcg_out_ld_helper_args(s, l, &ldst_helper_param);
 
-    tcg_out_call_int(s, qemu_ld_helpers[opc & (MO_BSWAP | MO_SSIZE)], false);
+    tcg_out_call_int(s, qemu_ld_helpers[opc & MO_SSIZE], false);
     /* delay slot */
     tcg_out_nop(s);
 
@@ -XXX,XX +XXX,XX @@ static bool tcg_out_qemu_st_slow_path(TCGContext *s, TCGLabelQemuLdst *l)
 
     tcg_out_st_helper_args(s, l, &ldst_helper_param);
 
-    tcg_out_call_int(s, qemu_st_helpers[opc & (MO_BSWAP | MO_SIZE)], false);
+    tcg_out_call_int(s, qemu_st_helpers[opc & MO_SIZE], false);
     /* delay slot */
     tcg_out_nop(s);
 
@@ -XXX,XX +XXX,XX @@ static TCGLabelQemuLdst *prepare_host_addr(TCGContext *s, HostAddress *h,
 static void tcg_out_qemu_ld_direct(TCGContext *s, TCGReg lo, TCGReg hi,
                                    TCGReg base, MemOp opc, TCGType type)
 {
-    switch (opc & (MO_SSIZE | MO_BSWAP)) {
+    switch (opc & MO_SSIZE) {
     case MO_UB:
         tcg_out_opc_imm(s, OPC_LBU, lo, base, 0);
         break;
     case MO_SB:
         tcg_out_opc_imm(s, OPC_LB, lo, base, 0);
         break;
-    case MO_UW | MO_BSWAP:
-        tcg_out_opc_imm(s, OPC_LHU, TCG_TMP1, base, 0);
-        tcg_out_bswap16(s, lo, TCG_TMP1, TCG_BSWAP_IZ | TCG_BSWAP_OZ);
-        break;
     case MO_UW:
         tcg_out_opc_imm(s, OPC_LHU, lo, base, 0);
         break;
-    case MO_SW | MO_BSWAP:
-        tcg_out_opc_imm(s, OPC_LHU, TCG_TMP1, base, 0);
-        tcg_out_bswap16(s, lo, TCG_TMP1, TCG_BSWAP_IZ | TCG_BSWAP_OS);
-        break;
     case MO_SW:
         tcg_out_opc_imm(s, OPC_LH, lo, base, 0);
         break;
-    case MO_UL | MO_BSWAP:
-        if (TCG_TARGET_REG_BITS == 64 && type == TCG_TYPE_I64) {
-            if (use_mips32r2_instructions) {
-                tcg_out_opc_imm(s, OPC_LWU, lo, base, 0);
-                tcg_out_bswap32(s, lo, lo, TCG_BSWAP_IZ | TCG_BSWAP_OZ);
-            } else {
-                tcg_out_bswap_subr(s, bswap32u_addr);
-                /* delay slot */
-                tcg_out_opc_imm(s, OPC_LWU, TCG_TMP0, base, 0);
-                tcg_out_mov(s, TCG_TYPE_I64, lo, TCG_TMP3);
-            }
-            break;
-        }
-        /* FALLTHRU */
-    case MO_SL | MO_BSWAP:
-        if (use_mips32r2_instructions) {
-            tcg_out_opc_imm(s, OPC_LW, lo, base, 0);
-            tcg_out_bswap32(s, lo, lo, 0);
-        } else {
-            tcg_out_bswap_subr(s, bswap32_addr);
-            /* delay slot */
-            tcg_out_opc_imm(s, OPC_LW, TCG_TMP0, base, 0);
-            tcg_out_mov(s, TCG_TYPE_I32, lo, TCG_TMP3);
-        }
-        break;
     case MO_UL:
         if (TCG_TARGET_REG_BITS == 64 && type == TCG_TYPE_I64) {
             tcg_out_opc_imm(s, OPC_LWU, lo, base, 0);
@@ -XXX,XX +XXX,XX @@ static void tcg_out_qemu_ld_direct(TCGContext *s, TCGReg lo, TCGReg hi,
     case MO_SL:
         tcg_out_opc_imm(s, OPC_LW, lo, base, 0);
         break;
-    case MO_UQ | MO_BSWAP:
-        if (TCG_TARGET_REG_BITS == 64) {
-            if (use_mips32r2_instructions) {
-                tcg_out_opc_imm(s, OPC_LD, lo, base, 0);
-                tcg_out_bswap64(s, lo, lo);
-            } else {
-                tcg_out_bswap_subr(s, bswap64_addr);
-                /* delay slot */
-                tcg_out_opc_imm(s, OPC_LD, TCG_TMP0, base, 0);
-                tcg_out_mov(s, TCG_TYPE_I64, lo, TCG_TMP3);
-            }
-        } else if (use_mips32r2_instructions) {
-            tcg_out_opc_imm(s, OPC_LW, TCG_TMP0, base, 0);
-            tcg_out_opc_imm(s, OPC_LW, TCG_TMP1, base, 4);
-            tcg_out_opc_reg(s, OPC_WSBH, TCG_TMP0, 0, TCG_TMP0);
-            tcg_out_opc_reg(s, OPC_WSBH, TCG_TMP1, 0, TCG_TMP1);
-            tcg_out_opc_sa(s, OPC_ROTR, MIPS_BE ? lo : hi, TCG_TMP0, 16);
-            tcg_out_opc_sa(s, OPC_ROTR, MIPS_BE ? hi : lo, TCG_TMP1, 16);
-        } else {
-            tcg_out_bswap_subr(s, bswap32_addr);
-            /* delay slot */
-            tcg_out_opc_imm(s, OPC_LW, TCG_TMP0, base, 0);
-            tcg_out_opc_imm(s, OPC_LW, TCG_TMP0, base, 4);
-            tcg_out_bswap_subr(s, bswap32_addr);
-            /* delay slot */
-            tcg_out_mov(s, TCG_TYPE_I32, MIPS_BE ? lo : hi, TCG_TMP3);
-            tcg_out_mov(s, TCG_TYPE_I32, MIPS_BE ? hi : lo, TCG_TMP3);
-        }
-        break;
     case MO_UQ:
         /* Prefer to load from offset 0 first, but allow for overlap.  */
         if (TCG_TARGET_REG_BITS == 64) {
@@ -XXX,XX +XXX,XX @@ static void tcg_out_qemu_ld_unalign(TCGContext *s, TCGReg lo, TCGReg hi,
     const MIPSInsn lw2 = MIPS_BE ? OPC_LWR : OPC_LWL;
     const MIPSInsn ld1 = MIPS_BE ? OPC_LDL : OPC_LDR;
     const MIPSInsn ld2 = MIPS_BE ? OPC_LDR : OPC_LDL;
+    bool sgn = opc & MO_SIGN;
 
-    bool sgn = (opc & MO_SIGN);
-
-    switch (opc & (MO_SSIZE | MO_BSWAP)) {
-    case MO_SW | MO_BE:
-    case MO_UW | MO_BE:
-        tcg_out_opc_imm(s, sgn ? OPC_LB : OPC_LBU, TCG_TMP0, base, 0);
-        tcg_out_opc_imm(s, OPC_LBU, lo, base, 1);
-        if (use_mips32r2_instructions) {
-            tcg_out_opc_bf(s, OPC_INS, lo, TCG_TMP0, 31, 8);
-        } else {
-            tcg_out_opc_sa(s, OPC_SLL, TCG_TMP0, TCG_TMP0, 8);
-            tcg_out_opc_reg(s, OPC_OR, lo, TCG_TMP0, TCG_TMP1);
-        }
-        break;
-
-    case MO_SW | MO_LE:
-    case MO_UW | MO_LE:
-        if (use_mips32r2_instructions && lo != base) {
+    switch (opc & MO_SIZE) {
+    case MO_16:
+        if (HOST_BIG_ENDIAN) {
+            tcg_out_opc_imm(s, sgn ? OPC_LB : OPC_LBU, TCG_TMP0, base, 0);
+            tcg_out_opc_imm(s, OPC_LBU, lo, base, 1);
+            if (use_mips32r2_instructions) {
+                tcg_out_opc_bf(s, OPC_INS, lo, TCG_TMP0, 31, 8);
+            } else {
+                tcg_out_opc_sa(s, OPC_SLL, TCG_TMP0, TCG_TMP0, 8);
+                tcg_out_opc_reg(s, OPC_OR, lo, lo, TCG_TMP0);
+            }
+        } else if (use_mips32r2_instructions && lo != base) {
             tcg_out_opc_imm(s, OPC_LBU, lo, base, 0);
             tcg_out_opc_imm(s, sgn ? OPC_LB : OPC_LBU, TCG_TMP0, base, 1);
             tcg_out_opc_bf(s, OPC_INS, lo, TCG_TMP0, 31, 8);
@@ -XXX,XX +XXX,XX @@ static void tcg_out_qemu_ld_unalign(TCGContext *s, TCGReg lo, TCGReg hi,
         }
         break;
 
-    case MO_SL:
-    case MO_UL:
+    case MO_32:
         tcg_out_opc_imm(s, lw1, lo, base, 0);
         tcg_out_opc_imm(s, lw2, lo, base, 3);
         if (TCG_TARGET_REG_BITS == 64 && type == TCG_TYPE_I64 && !sgn) {
@@ -XXX,XX +XXX,XX @@ static void tcg_out_qemu_ld_unalign(TCGContext *s, TCGReg lo, TCGReg hi,
         }
         break;
 
-    case MO_UL | MO_BSWAP:
-    case MO_SL | MO_BSWAP:
-        if (use_mips32r2_instructions) {
-            tcg_out_opc_imm(s, lw1, lo, base, 0);
-            tcg_out_opc_imm(s, lw2, lo, base, 3);
-            tcg_out_bswap32(s, lo, lo,
-                            TCG_TARGET_REG_BITS == 64 && type == TCG_TYPE_I64
-                            ? (sgn ? TCG_BSWAP_OS : TCG_BSWAP_OZ) : 0);
-        } else {
-            const tcg_insn_unit *subr =
-                (TCG_TARGET_REG_BITS == 64 && type == TCG_TYPE_I64 && !sgn
-                 ? bswap32u_addr : bswap32_addr);
-
-            tcg_out_opc_imm(s, lw1, TCG_TMP0, base, 0);
-            tcg_out_bswap_subr(s, subr);
-            /* delay slot */
-            tcg_out_opc_imm(s, lw2, TCG_TMP0, base, 3);
-            tcg_out_mov(s, type, lo, TCG_TMP3);
-        }
-        break;
-
-    case MO_UQ:
+    case MO_64:
         if (TCG_TARGET_REG_BITS == 64) {
             tcg_out_opc_imm(s, ld1, lo, base, 0);
             tcg_out_opc_imm(s, ld2, lo, base, 7);
@@ -XXX,XX +XXX,XX @@ static void tcg_out_qemu_ld_unalign(TCGContext *s, TCGReg lo, TCGReg hi,
         }
         break;
 
-    case MO_UQ | MO_BSWAP:
-        if (TCG_TARGET_REG_BITS == 64) {
-            if (use_mips32r2_instructions) {
-                tcg_out_opc_imm(s, ld1, lo, base, 0);
-                tcg_out_opc_imm(s, ld2, lo, base, 7);
-                tcg_out_bswap64(s, lo, lo);
-            } else {
-                tcg_out_opc_imm(s, ld1, TCG_TMP0, base, 0);
-                tcg_out_bswap_subr(s, bswap64_addr);
-                /* delay slot */
-                tcg_out_opc_imm(s, ld2, TCG_TMP0, base, 7);
-                tcg_out_mov(s, TCG_TYPE_I64, lo, TCG_TMP3);
-            }
-        } else if (use_mips32r2_instructions) {
-            tcg_out_opc_imm(s, lw1, TCG_TMP0, base, 0 + 0);
-            tcg_out_opc_imm(s, lw2, TCG_TMP0, base, 0 + 3);
-            tcg_out_opc_imm(s, lw1, TCG_TMP1, base, 4 + 0);
-            tcg_out_opc_imm(s, lw2, TCG_TMP1, base, 4 + 3);
-            tcg_out_opc_reg(s, OPC_WSBH, TCG_TMP0, 0, TCG_TMP0);
-            tcg_out_opc_reg(s, OPC_WSBH, TCG_TMP1, 0, TCG_TMP1);
-            tcg_out_opc_sa(s, OPC_ROTR, MIPS_BE ? lo : hi, TCG_TMP0, 16);
-            tcg_out_opc_sa(s, OPC_ROTR, MIPS_BE ? hi : lo, TCG_TMP1, 16);
-        } else {
-            tcg_out_opc_imm(s, lw1, TCG_TMP0, base, 0 + 0);
-            tcg_out_bswap_subr(s, bswap32_addr);
-            /* delay slot */
-            tcg_out_opc_imm(s, lw2, TCG_TMP0, base, 0 + 3);
-            tcg_out_opc_imm(s, lw1, TCG_TMP0, base, 4 + 0);
-            tcg_out_mov(s, TCG_TYPE_I32, MIPS_BE ? lo : hi, TCG_TMP3);
-            tcg_out_bswap_subr(s, bswap32_addr);
-            /* delay slot */
-            tcg_out_opc_imm(s, lw2, TCG_TMP0, base, 4 + 3);
-            tcg_out_mov(s, TCG_TYPE_I32, MIPS_BE ? hi : lo, TCG_TMP3);
-        }
-        break;
-
     default:
         g_assert_not_reached();
     }
@@ -XXX,XX +XXX,XX @@ static void tcg_out_qemu_ld(TCGContext *s, TCGReg datalo, TCGReg datahi,
 static void tcg_out_qemu_st_direct(TCGContext *s, TCGReg lo, TCGReg hi,
                                    TCGReg base, MemOp opc)
 {
-    /* Don't clutter the code below with checks to avoid bswapping ZERO.  */
-    if ((lo | hi) == 0) {
-        opc &= ~MO_BSWAP;
-    }
-
-    switch (opc & (MO_SIZE | MO_BSWAP)) {
+    switch (opc & MO_SIZE) {
     case MO_8:
         tcg_out_opc_imm(s, OPC_SB, lo, base, 0);
         break;
-
-    case MO_16 | MO_BSWAP:
-        tcg_out_bswap16(s, TCG_TMP1, lo, 0);
-        lo = TCG_TMP1;
-        /* FALLTHRU */
     case MO_16:
         tcg_out_opc_imm(s, OPC_SH, lo, base, 0);
         break;
-
-    case MO_32 | MO_BSWAP:
-        tcg_out_bswap32(s, TCG_TMP3, lo, 0);
-        lo = TCG_TMP3;
-        /* FALLTHRU */
     case MO_32:
         tcg_out_opc_imm(s, OPC_SW, lo, base, 0);
         break;
-
-    case MO_64 | MO_BSWAP:
-        if (TCG_TARGET_REG_BITS == 64) {
-            tcg_out_bswap64(s, TCG_TMP3, lo);
-            tcg_out_opc_imm(s, OPC_SD, TCG_TMP3, base, 0);
-        } else if (use_mips32r2_instructions) {
-            tcg_out_opc_reg(s, OPC_WSBH, TCG_TMP0, 0, MIPS_BE ? lo : hi);
-            tcg_out_opc_reg(s, OPC_WSBH, TCG_TMP1, 0, MIPS_BE ? hi : lo);
-            tcg_out_opc_sa(s, OPC_ROTR, TCG_TMP0, TCG_TMP0, 16);
-            tcg_out_opc_sa(s, OPC_ROTR, TCG_TMP1, TCG_TMP1, 16);
-            tcg_out_opc_imm(s, OPC_SW, TCG_TMP0, base, 0);
-            tcg_out_opc_imm(s, OPC_SW, TCG_TMP1, base, 4);
-        } else {
-            tcg_out_bswap32(s, TCG_TMP3, MIPS_BE ? lo : hi, 0);
-            tcg_out_opc_imm(s, OPC_SW, TCG_TMP3, base, 0);
-            tcg_out_bswap32(s, TCG_TMP3, MIPS_BE ? hi : lo, 0);
-            tcg_out_opc_imm(s, OPC_SW, TCG_TMP3, base, 4);
-        }
-        break;
     case MO_64:
         if (TCG_TARGET_REG_BITS == 64) {
             tcg_out_opc_imm(s, OPC_SD, lo, base, 0);
@@ -XXX,XX +XXX,XX @@ static void tcg_out_qemu_st_direct(TCGContext *s, TCGReg lo, TCGReg hi,
             tcg_out_opc_imm(s, OPC_SW, MIPS_BE ? lo : hi, base, 4);
         }
         break;
-
     default:
         g_assert_not_reached();
     }
@@ -XXX,XX +XXX,XX @@ static void tcg_out_qemu_st_unalign(TCGContext *s, TCGReg lo, TCGReg hi,
     const MIPSInsn sd1 = MIPS_BE ? OPC_SDL : OPC_SDR;
     const MIPSInsn sd2 = MIPS_BE ? OPC_SDR : OPC_SDL;
 
-    /* Don't clutter the code below with checks to avoid bswapping ZERO.  */
-    if ((lo | hi) == 0) {
-        opc &= ~MO_BSWAP;
-    }
-
-    switch (opc & (MO_SIZE | MO_BSWAP)) {
-    case MO_16 | MO_BE:
+    switch (opc & MO_SIZE) {
+    case MO_16:
         tcg_out_opc_sa(s, OPC_SRL, TCG_TMP0, lo, 8);
-        tcg_out_opc_imm(s, OPC_SB, TCG_TMP0, base, 0);
-        tcg_out_opc_imm(s, OPC_SB, lo, base, 1);
+        tcg_out_opc_imm(s, OPC_SB, HOST_BIG_ENDIAN ? TCG_TMP0 : lo, base, 0);
+        tcg_out_opc_imm(s, OPC_SB, HOST_BIG_ENDIAN ? lo : TCG_TMP0, base, 1);
         break;
 
-    case MO_16 | MO_LE:
-        tcg_out_opc_sa(s, OPC_SRL, TCG_TMP0, lo, 8);
-        tcg_out_opc_imm(s, OPC_SB, lo, base, 0);
-        tcg_out_opc_imm(s, OPC_SB, TCG_TMP0, base, 1);
-        break;
-
-    case MO_32 | MO_BSWAP:
-        tcg_out_bswap32(s, TCG_TMP3, lo, 0);
-        lo = TCG_TMP3;
-        /* fall through */
     case MO_32:
         tcg_out_opc_imm(s, sw1, lo, base, 0);
         tcg_out_opc_imm(s, sw2, lo, base, 3);
         break;
 
-    case MO_64 | MO_BSWAP:
-        if (TCG_TARGET_REG_BITS == 64) {
-            tcg_out_bswap64(s, TCG_TMP3, lo);
-            lo = TCG_TMP3;
-        } else if (use_mips32r2_instructions) {
-            tcg_out_opc_reg(s, OPC_WSBH, TCG_TMP0, 0, MIPS_BE ? hi : lo);
-            tcg_out_opc_reg(s, OPC_WSBH, TCG_TMP1, 0, MIPS_BE ? lo : hi);
-            tcg_out_opc_sa(s, OPC_ROTR, TCG_TMP0, TCG_TMP0, 16);
-            tcg_out_opc_sa(s, OPC_ROTR, TCG_TMP1, TCG_TMP1, 16);
-            hi = MIPS_BE ? TCG_TMP0 : TCG_TMP1;
-            lo = MIPS_BE ? TCG_TMP1 : TCG_TMP0;
-        } else {
-            tcg_out_bswap32(s, TCG_TMP3, MIPS_BE ? lo : hi, 0);
-            tcg_out_opc_imm(s, sw1, TCG_TMP3, base, 0 + 0);
-            tcg_out_opc_imm(s, sw2, TCG_TMP3, base, 0 + 3);
-            tcg_out_bswap32(s, TCG_TMP3, MIPS_BE ? hi : lo, 0);
-            tcg_out_opc_imm(s, sw1, TCG_TMP3, base, 4 + 0);
-            tcg_out_opc_imm(s, sw2, TCG_TMP3, base, 4 + 3);
-            break;
-        }
-        /* fall through */
     case MO_64:
         if (TCG_TARGET_REG_BITS == 64) {
             tcg_out_opc_imm(s, sd1, lo, base, 0);
-- 
2.34.1

Compare the address vs the tlb entry with sign-extended values.
This simplifies the page+alignment mask constant, and the
generation of the last byte address for the misaligned test.

Move the tlb addend load up, and the zero-extension down.

This frees up a register, which allows us use TMP3 as the returned base
address register instead of A0, which we were using as a 5th temporary.

Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/mips/tcg-target.c.inc | 38 ++++++++++++++++++--------------------
 1 file changed, 18 insertions(+), 20 deletions(-)

diff --git a/tcg/mips/tcg-target.c.inc b/tcg/mips/tcg-target.c.inc
index XXXXXXX..XXXXXXX 100644
--- a/tcg/mips/tcg-target.c.inc
+++ b/tcg/mips/tcg-target.c.inc
@@ -XXX,XX +XXX,XX @@ typedef enum {
     ALIAS_PADDI    = sizeof(void *) == 4 ? OPC_ADDIU : OPC_DADDIU,
     ALIAS_TSRL     = TARGET_LONG_BITS == 32 || TCG_TARGET_REG_BITS == 32
                      ? OPC_SRL : OPC_DSRL,
+    ALIAS_TADDI    = TARGET_LONG_BITS == 32 || TCG_TARGET_REG_BITS == 32
+                     ? OPC_ADDIU : OPC_DADDIU,
 } MIPSInsn;
 
 /*
@@ -XXX,XX +XXX,XX @@ static TCGLabelQemuLdst *prepare_host_addr(TCGContext *s, HostAddress *h,
     int add_off = offsetof(CPUTLBEntry, addend);
     int cmp_off = is_ld ? offsetof(CPUTLBEntry, addr_read)
                         : offsetof(CPUTLBEntry, addr_write);
-    target_ulong tlb_mask;
 
     ldst = new_ldst_label(s);
     ldst->is_ld = is_ld;
     ldst->oi = oi;
     ldst->addrlo_reg = addrlo;
     ldst->addrhi_reg = addrhi;
-    base = TCG_REG_A0;
 
     /* Load tlb_mask[mmu_idx] and tlb_table[mmu_idx].  */
     QEMU_BUILD_BUG_ON(TLB_MASK_TABLE_OFS(0) > 0);
@@ -XXX,XX +XXX,XX @@ static TCGLabelQemuLdst *prepare_host_addr(TCGContext *s, HostAddress *h,
     if (TCG_TARGET_REG_BITS < TARGET_LONG_BITS) {
         tcg_out_ldst(s, OPC_LW, TCG_TMP0, TCG_TMP3, cmp_off + LO_OFF);
     } else {
-        tcg_out_ldst(s, (TARGET_LONG_BITS == 64 ? OPC_LD
-                         : TCG_TARGET_REG_BITS == 64 ? OPC_LWU : OPC_LW),
-                     TCG_TMP0, TCG_TMP3, cmp_off);
+        tcg_out_ld(s, TCG_TYPE_TL, TCG_TMP0, TCG_TMP3, cmp_off);
     }
 
-    /* Zero extend a 32-bit guest address for a 64-bit host. */
-    if (TCG_TARGET_REG_BITS > TARGET_LONG_BITS) {
-        tcg_out_ext32u(s, base, addrlo);
-        addrlo = base;
+    if (TCG_TARGET_REG_BITS >= TARGET_LONG_BITS) {
+        /* Load the tlb addend for the fast path.  */
+        tcg_out_ld(s, TCG_TYPE_PTR, TCG_TMP3, TCG_TMP3, add_off);
     }
 
     /*
@@ -XXX,XX +XXX,XX @@ static TCGLabelQemuLdst *prepare_host_addr(TCGContext *s, HostAddress *h,
      * For unaligned accesses, compare against the end of the access to
      * verify that it does not cross a page boundary.
      */
-    tlb_mask = (target_ulong)TARGET_PAGE_MASK | a_mask;
-    tcg_out_movi(s, TCG_TYPE_I32, TCG_TMP1, tlb_mask);
-    if (a_mask >= s_mask) {
-        tcg_out_opc_reg(s, OPC_AND, TCG_TMP1, TCG_TMP1, addrlo);
-    } else {
-        tcg_out_opc_imm(s, ALIAS_PADDI, TCG_TMP2, addrlo, s_mask - a_mask);
+    tcg_out_movi(s, TCG_TYPE_TL, TCG_TMP1, TARGET_PAGE_MASK | a_mask);
+    if (a_mask < s_mask) {
+        tcg_out_opc_imm(s, ALIAS_TADDI, TCG_TMP2, addrlo, s_mask - a_mask);
         tcg_out_opc_reg(s, OPC_AND, TCG_TMP1, TCG_TMP1, TCG_TMP2);
+    } else {
+        tcg_out_opc_reg(s, OPC_AND, TCG_TMP1, TCG_TMP1, addrlo);
     }
 
-    if (TCG_TARGET_REG_BITS >= TARGET_LONG_BITS) {
-        /* Load the tlb addend for the fast path.  */
-        tcg_out_ld(s, TCG_TYPE_PTR, TCG_TMP2, TCG_TMP3, add_off);
+    /* Zero extend a 32-bit guest address for a 64-bit host. */
+    if (TCG_TARGET_REG_BITS > TARGET_LONG_BITS) {
+        tcg_out_ext32u(s, TCG_TMP2, addrlo);
+        addrlo = TCG_TMP2;
     }
 
     ldst->label_ptr[0] = s->code_ptr;
@@ -XXX,XX +XXX,XX @@ static TCGLabelQemuLdst *prepare_host_addr(TCGContext *s, HostAddress *h,
         tcg_out_ldst(s, OPC_LW, TCG_TMP0, TCG_TMP3, cmp_off + HI_OFF);
 
         /* Load the tlb addend for the fast path.  */
-        tcg_out_ld(s, TCG_TYPE_PTR, TCG_TMP2, TCG_TMP3, add_off);
+        tcg_out_ld(s, TCG_TYPE_PTR, TCG_TMP3, TCG_TMP3, add_off);
 
         ldst->label_ptr[1] = s->code_ptr;
         tcg_out_opc_br(s, OPC_BNE, addrhi, TCG_TMP0);
     }
 
     /* delay slot */
-    tcg_out_opc_reg(s, ALIAS_PADD, base, TCG_TMP2, addrlo);
+    base = TCG_TMP3;
+    tcg_out_opc_reg(s, ALIAS_PADD, base, TCG_TMP3, addrlo);
 #else
     if (a_mask && (use_mips32r6_instructions || a_bits != s_bits)) {
         ldst = new_ldst_label(s);
-- 
2.34.1

The softmmu tlb uses TCG_REG_TMP[0-3], not any of the normally available
registers.  Now that we handle overlap betwen inputs and helper arguments,
and have eliminated use of A0, we can allow any allocatable reg.

Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/mips/tcg-target-con-set.h | 13 +++++--------
 tcg/mips/tcg-target-con-str.h |  2 --
 tcg/mips/tcg-target.c.inc     | 30 ++++++++----------------------
 3 files changed, 13 insertions(+), 32 deletions(-)

diff --git a/tcg/mips/tcg-target-con-set.h b/tcg/mips/tcg-target-con-set.h
index XXXXXXX..XXXXXXX 100644
--- a/tcg/mips/tcg-target-con-set.h
+++ b/tcg/mips/tcg-target-con-set.h
@@ -XXX,XX +XXX,XX @@
 C_O0_I1(r)
 C_O0_I2(rZ, r)
 C_O0_I2(rZ, rZ)
-C_O0_I2(SZ, S)
-C_O0_I3(SZ, S, S)
-C_O0_I3(SZ, SZ, S)
+C_O0_I3(rZ, r, r)
+C_O0_I3(rZ, rZ, r)
 C_O0_I4(rZ, rZ, rZ, rZ)
-C_O0_I4(SZ, SZ, S, S)
-C_O1_I1(r, L)
+C_O0_I4(rZ, rZ, r, r)
 C_O1_I1(r, r)
 C_O1_I2(r, 0, rZ)
-C_O1_I2(r, L, L)
+C_O1_I2(r, r, r)
 C_O1_I2(r, r, ri)
 C_O1_I2(r, r, rI)
 C_O1_I2(r, r, rIK)
@@ -XXX,XX +XXX,XX @@ C_O1_I2(r, rZ, rN)
 C_O1_I2(r, rZ, rZ)
 C_O1_I4(r, rZ, rZ, rZ, 0)
 C_O1_I4(r, rZ, rZ, rZ, rZ)
-C_O2_I1(r, r, L)
-C_O2_I2(r, r, L, L)
+C_O2_I1(r, r, r)
 C_O2_I2(r, r, r, r)
 C_O2_I4(r, r, rZ, rZ, rN, rN)
diff --git a/tcg/mips/tcg-target-con-str.h b/tcg/mips/tcg-target-con-str.h
index XXXXXXX..XXXXXXX 100644
--- a/tcg/mips/tcg-target-con-str.h
+++ b/tcg/mips/tcg-target-con-str.h
@@ -XXX,XX +XXX,XX @@
  * REGS(letter, register_mask)
  */
 REGS('r', ALL_GENERAL_REGS)
-REGS('L', ALL_QLOAD_REGS)
-REGS('S', ALL_QSTORE_REGS)
 
 /*
  * Define constraint letters for constants:
diff --git a/tcg/mips/tcg-target.c.inc b/tcg/mips/tcg-target.c.inc
index XXXXXXX..XXXXXXX 100644
--- a/tcg/mips/tcg-target.c.inc
+++ b/tcg/mips/tcg-target.c.inc
@@ -XXX,XX +XXX,XX @@ static bool patch_reloc(tcg_insn_unit *code_ptr, int type,
 #define TCG_CT_CONST_WSZ  0x2000   /* word size */
 
 #define ALL_GENERAL_REGS  0xffffffffu
-#define NOA0_REGS         (ALL_GENERAL_REGS & ~(1 << TCG_REG_A0))
-
-#ifdef CONFIG_SOFTMMU
-#define ALL_QLOAD_REGS \
-    (NOA0_REGS & ~((TCG_TARGET_REG_BITS < TARGET_LONG_BITS) << TCG_REG_A2))
-#define ALL_QSTORE_REGS \
-    (NOA0_REGS & ~(TCG_TARGET_REG_BITS < TARGET_LONG_BITS   \
-                   ? (1 << TCG_REG_A2) | (1 << TCG_REG_A3)  \
-                   : (1 << TCG_REG_A1)))
-#else
-#define ALL_QLOAD_REGS   NOA0_REGS
-#define ALL_QSTORE_REGS  NOA0_REGS
-#endif
-
 
 static bool is_p2m1(tcg_target_long val)
 {
@@ -XXX,XX +XXX,XX @@ static TCGConstraintSetIndex tcg_target_op_def(TCGOpcode op)
 
     case INDEX_op_qemu_ld_i32:
         return (TCG_TARGET_REG_BITS == 64 || TARGET_LONG_BITS == 32
-                ? C_O1_I1(r, L) : C_O1_I2(r, L, L));
+                ? C_O1_I1(r, r) : C_O1_I2(r, r, r));
     case INDEX_op_qemu_st_i32:
         return (TCG_TARGET_REG_BITS == 64 || TARGET_LONG_BITS == 32
-                ? C_O0_I2(SZ, S) : C_O0_I3(SZ, S, S));
+                ? C_O0_I2(rZ, r) : C_O0_I3(rZ, r, r));
     case INDEX_op_qemu_ld_i64:
-        return (TCG_TARGET_REG_BITS == 64 ? C_O1_I1(r, L)
-                : TARGET_LONG_BITS == 32 ? C_O2_I1(r, r, L)
-                : C_O2_I2(r, r, L, L));
+        return (TCG_TARGET_REG_BITS == 64 ? C_O1_I1(r, r)
+                : TARGET_LONG_BITS == 32 ? C_O2_I1(r, r, r)
+                : C_O2_I2(r, r, r, r));
     case INDEX_op_qemu_st_i64:
-        return (TCG_TARGET_REG_BITS == 64 ? C_O0_I2(SZ, S)
-                : TARGET_LONG_BITS == 32 ? C_O0_I3(SZ, SZ, S)
-                : C_O0_I4(SZ, SZ, S, S));
+        return (TCG_TARGET_REG_BITS == 64 ? C_O0_I2(rZ, r)
+                : TARGET_LONG_BITS == 32 ? C_O0_I3(rZ, rZ, r)
+                : C_O0_I4(rZ, rZ, r, r));
 
     default:
         g_assert_not_reached();
-- 
2.34.1

Allocate TCG_REG_TMP2.  Use R0, TMP1, TMP2 instead of any of
the normally allocated registers for the tlb load.

Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
Reviewed-by: Daniel Henrique Barboza <danielhb413@gmail.com>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/ppc/tcg-target.c.inc | 78 ++++++++++++++++++++++++----------------
 1 file changed, 47 insertions(+), 31 deletions(-)

diff --git a/tcg/ppc/tcg-target.c.inc b/tcg/ppc/tcg-target.c.inc
index XXXXXXX..XXXXXXX 100644
--- a/tcg/ppc/tcg-target.c.inc
+++ b/tcg/ppc/tcg-target.c.inc
@@ -XXX,XX +XXX,XX @@
 #else
 # define TCG_REG_TMP1   TCG_REG_R12
 #endif
+#define TCG_REG_TMP2    TCG_REG_R11
 
 #define TCG_VEC_TMP1    TCG_REG_V0
 #define TCG_VEC_TMP2    TCG_REG_V1
@@ -XXX,XX +XXX,XX @@ static TCGReg ldst_ra_gen(TCGContext *s, const TCGLabelQemuLdst *l, int arg)
 /*
  * For the purposes of ppc32 sorting 4 input registers into 4 argument
  * registers, there is an outside chance we would require 3 temps.
- * Because of constraints, no inputs are in r3, and env will not be
- * placed into r3 until after the sorting is done, and is thus free.
  */
 static const TCGLdstHelperParam ldst_helper_param = {
     .ra_gen = ldst_ra_gen,
     .ntmp = 3,
-    .tmp = { TCG_REG_TMP1, TCG_REG_R0, TCG_REG_R3 }
+    .tmp = { TCG_REG_TMP1, TCG_REG_TMP2, TCG_REG_R0 }
 };
 
 static bool tcg_out_qemu_ld_slow_path(TCGContext *s, TCGLabelQemuLdst *lb)
@@ -XXX,XX +XXX,XX @@ static TCGLabelQemuLdst *prepare_host_addr(TCGContext *s, HostAddress *h,
     /* Load tlb_mask[mmu_idx] and tlb_table[mmu_idx].  */
     QEMU_BUILD_BUG_ON(TLB_MASK_TABLE_OFS(0) > 0);
     QEMU_BUILD_BUG_ON(TLB_MASK_TABLE_OFS(0) < -32768);
-    tcg_out_ld(s, TCG_TYPE_PTR, TCG_REG_R3, TCG_AREG0, mask_off);
-    tcg_out_ld(s, TCG_TYPE_PTR, TCG_REG_R4, TCG_AREG0, table_off);
+    tcg_out_ld(s, TCG_TYPE_PTR, TCG_REG_TMP1, TCG_AREG0, mask_off);
+    tcg_out_ld(s, TCG_TYPE_PTR, TCG_REG_TMP2, TCG_AREG0, table_off);
 
     /* Extract the page index, shifted into place for tlb index.  */
     if (TCG_TARGET_REG_BITS == 32) {
-        tcg_out_shri32(s, TCG_REG_TMP1, addrlo,
+        tcg_out_shri32(s, TCG_REG_R0, addrlo,
                        TARGET_PAGE_BITS - CPU_TLB_ENTRY_BITS);
     } else {
-        tcg_out_shri64(s, TCG_REG_TMP1, addrlo,
+        tcg_out_shri64(s, TCG_REG_R0, addrlo,
                        TARGET_PAGE_BITS - CPU_TLB_ENTRY_BITS);
     }
-    tcg_out32(s, AND | SAB(TCG_REG_R3, TCG_REG_R3, TCG_REG_TMP1));
+    tcg_out32(s, AND | SAB(TCG_REG_TMP1, TCG_REG_TMP1, TCG_REG_R0));
 
-    /* Load the TLB comparator.  */
+    /* Load the (low part) TLB comparator into TMP2.  */
     if (cmp_off == 0 && TCG_TARGET_REG_BITS >= TARGET_LONG_BITS) {
         uint32_t lxu = (TCG_TARGET_REG_BITS == 32 || TARGET_LONG_BITS == 32
                         ? LWZUX : LDUX);
-        tcg_out32(s, lxu | TAB(TCG_REG_TMP1, TCG_REG_R3, TCG_REG_R4));
+        tcg_out32(s, lxu | TAB(TCG_REG_TMP2, TCG_REG_TMP1, TCG_REG_TMP2));
     } else {
-        tcg_out32(s, ADD | TAB(TCG_REG_R3, TCG_REG_R3, TCG_REG_R4));
+        tcg_out32(s, ADD | TAB(TCG_REG_TMP1, TCG_REG_TMP1, TCG_REG_TMP2));
         if (TCG_TARGET_REG_BITS < TARGET_LONG_BITS) {
-            tcg_out_ld(s, TCG_TYPE_I32, TCG_REG_TMP1, TCG_REG_R3, cmp_off + 4);
-            tcg_out_ld(s, TCG_TYPE_I32, TCG_REG_R4, TCG_REG_R3, cmp_off);
+            tcg_out_ld(s, TCG_TYPE_I32, TCG_REG_TMP2,
+                       TCG_REG_TMP1, cmp_off + 4 * HOST_BIG_ENDIAN);
         } else {
-            tcg_out_ld(s, TCG_TYPE_TL, TCG_REG_TMP1, TCG_REG_R3, cmp_off);
+            tcg_out_ld(s, TCG_TYPE_TL, TCG_REG_TMP2, TCG_REG_TMP1, cmp_off);
         }
     }
 
@@ -XXX,XX +XXX,XX @@ static TCGLabelQemuLdst *prepare_host_addr(TCGContext *s, HostAddress *h,
      * Load the TLB addend for use on the fast path.
      * Do this asap to minimize any load use delay.
      */
-    h->base = TCG_REG_R3;
-    tcg_out_ld(s, TCG_TYPE_PTR, h->base, TCG_REG_R3,
-               offsetof(CPUTLBEntry, addend));
+    if (TCG_TARGET_REG_BITS >= TARGET_LONG_BITS) {
+        tcg_out_ld(s, TCG_TYPE_PTR, TCG_REG_TMP1, TCG_REG_TMP1,
+                   offsetof(CPUTLBEntry, addend));
+    }
 
-    /* Clear the non-page, non-alignment bits from the address */
+    /* Clear the non-page, non-alignment bits from the address in R0. */
     if (TCG_TARGET_REG_BITS == 32) {
         /*
          * We don't support unaligned accesses on 32-bits.
@@ -XXX,XX +XXX,XX @@ static TCGLabelQemuLdst *prepare_host_addr(TCGContext *s, HostAddress *h,
         if (TARGET_LONG_BITS == 32) {
             tcg_out_rlw(s, RLWINM, TCG_REG_R0, t, 0,
                         (32 - a_bits) & 31, 31 - TARGET_PAGE_BITS);
-            /* Zero-extend the address for use in the final address.  */
-            tcg_out_ext32u(s, TCG_REG_R4, addrlo);
-            addrlo = TCG_REG_R4;
         } else if (a_bits == 0) {
             tcg_out_rld(s, RLDICR, TCG_REG_R0, t, 0, 63 - TARGET_PAGE_BITS);
         } else {
@@ -XXX,XX +XXX,XX @@ static TCGLabelQemuLdst *prepare_host_addr(TCGContext *s, HostAddress *h,
             tcg_out_rld(s, RLDICL, TCG_REG_R0, TCG_REG_R0, TARGET_PAGE_BITS, 0);
         }
     }
-    h->index = addrlo;
 
     if (TCG_TARGET_REG_BITS < TARGET_LONG_BITS) {
-        tcg_out_cmp(s, TCG_COND_EQ, TCG_REG_R0, TCG_REG_TMP1,
+        /* Low part comparison into cr7. */
+        tcg_out_cmp(s, TCG_COND_EQ, TCG_REG_R0, TCG_REG_TMP2,
                     0, 7, TCG_TYPE_I32);
-        tcg_out_cmp(s, TCG_COND_EQ, addrhi, TCG_REG_R4, 0, 6, TCG_TYPE_I32);
+
+        /* Load the high part TLB comparator into TMP2.  */
+        tcg_out_ld(s, TCG_TYPE_I32, TCG_REG_TMP2, TCG_REG_TMP1,
+                   cmp_off + 4 * !HOST_BIG_ENDIAN);
+
+        /* Load addend, deferred for this case. */
+        tcg_out_ld(s, TCG_TYPE_PTR, TCG_REG_TMP1, TCG_REG_TMP1,
+                   offsetof(CPUTLBEntry, addend));
+
+        /* High part comparison into cr6. */
+        tcg_out_cmp(s, TCG_COND_EQ, addrhi, TCG_REG_TMP2, 0, 6, TCG_TYPE_I32);
+
+        /* Combine comparisons into cr7. */
         tcg_out32(s, CRAND | BT(7, CR_EQ) | BA(6, CR_EQ) | BB(7, CR_EQ));
     } else {
-        tcg_out_cmp(s, TCG_COND_EQ, TCG_REG_R0, TCG_REG_TMP1,
+        /* Full comparison into cr7. */
+        tcg_out_cmp(s, TCG_COND_EQ, TCG_REG_R0, TCG_REG_TMP2,
                     0, 7, TCG_TYPE_TL);
     }
 
     /* Load a pointer into the current opcode w/conditional branch-link. */
     ldst->label_ptr[0] = s->code_ptr;
     tcg_out32(s, BC | BI(7, CR_EQ) | BO_COND_FALSE | LK);
+
+    h->base = TCG_REG_TMP1;
 #else
     if (a_bits) {
         ldst = new_ldst_label(s);
@@ -XXX,XX +XXX,XX @@ static TCGLabelQemuLdst *prepare_host_addr(TCGContext *s, HostAddress *h,
     }
 
     h->base = guest_base ? TCG_GUEST_BASE_REG : 0;
-    h->index = addrlo;
-    if (TCG_TARGET_REG_BITS > TARGET_LONG_BITS) {
-        tcg_out_ext32u(s, TCG_REG_TMP1, addrlo);
-        h->index = TCG_REG_TMP1;
-    }
 #endif
 
+    if (TCG_TARGET_REG_BITS > TARGET_LONG_BITS) {
+        /* Zero-extend the guest address for use in the host address. */
+        tcg_out_ext32u(s, TCG_REG_R0, addrlo);
+        h->index = TCG_REG_R0;
+    } else {
+        h->index = addrlo;
+    }
+
     return ldst;
 }
 
@@ -XXX,XX +XXX,XX @@ static void tcg_target_init(TCGContext *s)
 #if defined(_CALL_SYSV) || TCG_TARGET_REG_BITS == 64
     tcg_regset_set_reg(s->reserved_regs, TCG_REG_R13); /* thread pointer */
 #endif
-    tcg_regset_set_reg(s->reserved_regs, TCG_REG_TMP1); /* mem temp */
+    tcg_regset_set_reg(s->reserved_regs, TCG_REG_TMP1);
+    tcg_regset_set_reg(s->reserved_regs, TCG_REG_TMP2);
     tcg_regset_set_reg(s->reserved_regs, TCG_VEC_TMP1);
     tcg_regset_set_reg(s->reserved_regs, TCG_VEC_TMP2);
     if (USE_REG_TB) {
-- 
2.34.1

The softmmu tlb uses TCG_REG_{TMP1,TMP2,R0}, not any of the normally
available registers.  Now that we handle overlap betwen inputs and
helper arguments, we can allow any allocatable reg.

Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
Reviewed-by: Daniel Henrique Barboza <danielhb413@gmail.com>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/ppc/tcg-target-con-set.h | 11 ++++-------
 tcg/ppc/tcg-target-con-str.h |  2 --
 tcg/ppc/tcg-target.c.inc     | 32 ++++++++++----------------------
 3 files changed, 14 insertions(+), 31 deletions(-)

diff --git a/tcg/ppc/tcg-target-con-set.h b/tcg/ppc/tcg-target-con-set.h
index XXXXXXX..XXXXXXX 100644
--- a/tcg/ppc/tcg-target-con-set.h
+++ b/tcg/ppc/tcg-target-con-set.h
@@ -XXX,XX +XXX,XX @@
 C_O0_I1(r)
 C_O0_I2(r, r)
 C_O0_I2(r, ri)
-C_O0_I2(S, S)
 C_O0_I2(v, r)
-C_O0_I3(S, S, S)
+C_O0_I3(r, r, r)
 C_O0_I4(r, r, ri, ri)
-C_O0_I4(S, S, S, S)
-C_O1_I1(r, L)
+C_O0_I4(r, r, r, r)
 C_O1_I1(r, r)
 C_O1_I1(v, r)
 C_O1_I1(v, v)
 C_O1_I1(v, vr)
 C_O1_I2(r, 0, rZ)
-C_O1_I2(r, L, L)
 C_O1_I2(r, rI, ri)
 C_O1_I2(r, rI, rT)
 C_O1_I2(r, r, r)
@@ -XXX,XX +XXX,XX @@ C_O1_I2(v, v, v)
 C_O1_I3(v, v, v, v)
 C_O1_I4(r, r, ri, rZ, rZ)
 C_O1_I4(r, r, r, ri, ri)
-C_O2_I1(L, L, L)
-C_O2_I2(L, L, L, L)
+C_O2_I1(r, r, r)
+C_O2_I2(r, r, r, r)
 C_O2_I4(r, r, rI, rZM, r, r)
 C_O2_I4(r, r, r, r, rI, rZM)
diff --git a/tcg/ppc/tcg-target-con-str.h b/tcg/ppc/tcg-target-con-str.h
index XXXXXXX..XXXXXXX 100644
--- a/tcg/ppc/tcg-target-con-str.h
+++ b/tcg/ppc/tcg-target-con-str.h
@@ -XXX,XX +XXX,XX @@ REGS('A', 1u << TCG_REG_R3)
 REGS('B', 1u << TCG_REG_R4)
 REGS('C', 1u << TCG_REG_R5)
 REGS('D', 1u << TCG_REG_R6)
-REGS('L', ALL_QLOAD_REGS)
-REGS('S', ALL_QSTORE_REGS)
 
 /*
  * Define constraint letters for constants:
diff --git a/tcg/ppc/tcg-target.c.inc b/tcg/ppc/tcg-target.c.inc
index XXXXXXX..XXXXXXX 100644
--- a/tcg/ppc/tcg-target.c.inc
+++ b/tcg/ppc/tcg-target.c.inc
@@ -XXX,XX +XXX,XX @@
 #define ALL_GENERAL_REGS  0xffffffffu
 #define ALL_VECTOR_REGS   0xffffffff00000000ull
 
-#ifdef CONFIG_SOFTMMU
-#define ALL_QLOAD_REGS \
-    (ALL_GENERAL_REGS & \
-     ~((1 << TCG_REG_R3) | (1 << TCG_REG_R4) | (1 << TCG_REG_R5)))
-#define ALL_QSTORE_REGS \
-    (ALL_GENERAL_REGS & ~((1 << TCG_REG_R3) | (1 << TCG_REG_R4) | \
-                          (1 << TCG_REG_R5) | (1 << TCG_REG_R6)))
-#else
-#define ALL_QLOAD_REGS  (ALL_GENERAL_REGS & ~(1 << TCG_REG_R3))
-#define ALL_QSTORE_REGS ALL_QLOAD_REGS
-#endif
-
 TCGPowerISA have_isa;
 static bool have_isel;
 bool have_altivec;
@@ -XXX,XX +XXX,XX @@ static TCGConstraintSetIndex tcg_target_op_def(TCGOpcode op)
 
     case INDEX_op_qemu_ld_i32:
         return (TCG_TARGET_REG_BITS == 64 || TARGET_LONG_BITS == 32
-                ? C_O1_I1(r, L)
-                : C_O1_I2(r, L, L));
+                ? C_O1_I1(r, r)
+                : C_O1_I2(r, r, r));
 
     case INDEX_op_qemu_st_i32:
         return (TCG_TARGET_REG_BITS == 64 || TARGET_LONG_BITS == 32
-                ? C_O0_I2(S, S)
-                : C_O0_I3(S, S, S));
+                ? C_O0_I2(r, r)
+                : C_O0_I3(r, r, r));
 
     case INDEX_op_qemu_ld_i64:
-        return (TCG_TARGET_REG_BITS == 64 ? C_O1_I1(r, L)
-                : TARGET_LONG_BITS == 32 ? C_O2_I1(L, L, L)
-                : C_O2_I2(L, L, L, L));
+        return (TCG_TARGET_REG_BITS == 64 ? C_O1_I1(r, r)
+                : TARGET_LONG_BITS == 32 ? C_O2_I1(r, r, r)
+                : C_O2_I2(r, r, r, r));
 
     case INDEX_op_qemu_st_i64:
-        return (TCG_TARGET_REG_BITS == 64 ? C_O0_I2(S, S)
-                : TARGET_LONG_BITS == 32 ? C_O0_I3(S, S, S)
-                : C_O0_I4(S, S, S, S));
+        return (TCG_TARGET_REG_BITS == 64 ? C_O0_I2(r, r)
+                : TARGET_LONG_BITS == 32 ? C_O0_I3(r, r, r)
+                : C_O0_I4(r, r, r, r));
 
     case INDEX_op_add_vec:
     case INDEX_op_sub_vec:
-- 
2.34.1

Never used since its introduction.

Fixes: 3d582c6179c ("tcg-ppc64: Rearrange integer constant constraints")
Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/ppc/tcg-target-con-str.h | 1 -
 tcg/ppc/tcg-target.c.inc     | 3 ---
 2 files changed, 4 deletions(-)

diff --git a/tcg/ppc/tcg-target-con-str.h b/tcg/ppc/tcg-target-con-str.h
index XXXXXXX..XXXXXXX 100644
--- a/tcg/ppc/tcg-target-con-str.h
+++ b/tcg/ppc/tcg-target-con-str.h
@@ -XXX,XX +XXX,XX @@ REGS('v', ALL_VECTOR_REGS)
  * CONST(letter, TCG_CT_CONST_* bit set)
  */
 CONST('I', TCG_CT_CONST_S16)
-CONST('J', TCG_CT_CONST_U16)
 CONST('M', TCG_CT_CONST_MONE)
 CONST('T', TCG_CT_CONST_S32)
 CONST('U', TCG_CT_CONST_U32)
diff --git a/tcg/ppc/tcg-target.c.inc b/tcg/ppc/tcg-target.c.inc
index XXXXXXX..XXXXXXX 100644
--- a/tcg/ppc/tcg-target.c.inc
+++ b/tcg/ppc/tcg-target.c.inc
@@ -XXX,XX +XXX,XX @@
 #define SZR  (TCG_TARGET_REG_BITS / 8)
 
 #define TCG_CT_CONST_S16  0x100
-#define TCG_CT_CONST_U16  0x200
 #define TCG_CT_CONST_S32  0x400
 #define TCG_CT_CONST_U32  0x800
 #define TCG_CT_CONST_ZERO 0x1000
@@ -XXX,XX +XXX,XX @@ static bool tcg_target_const_match(int64_t val, TCGType type, int ct)
 
     if ((ct & TCG_CT_CONST_S16) && val == (int16_t)val) {
         return 1;
-    } else if ((ct & TCG_CT_CONST_U16) && val == (uint16_t)val) {
-        return 1;
     } else if ((ct & TCG_CT_CONST_S32) && val == (int32_t)val) {
         return 1;
     } else if ((ct & TCG_CT_CONST_U32) && val == (uint32_t)val) {
-- 
2.34.1

The softmmu tlb uses TCG_REG_TMP[0-2], not any of the normally available
registers.  Now that we handle overlap betwen inputs and helper arguments,
we can allow any allocatable reg.

Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
Reviewed-by: Daniel Henrique Barboza <dbarboza@ventanamicro.com>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/riscv/tcg-target-con-set.h |  2 --
 tcg/riscv/tcg-target-con-str.h |  1 -
 tcg/riscv/tcg-target.c.inc     | 16 +++-------------
 3 files changed, 3 insertions(+), 16 deletions(-)

diff --git a/tcg/riscv/tcg-target-con-set.h b/tcg/riscv/tcg-target-con-set.h
index XXXXXXX..XXXXXXX 100644
--- a/tcg/riscv/tcg-target-con-set.h
+++ b/tcg/riscv/tcg-target-con-set.h
@@ -XXX,XX +XXX,XX @@
  * tcg-target-con-str.h; the constraint combination is inclusive or.
  */
 C_O0_I1(r)
-C_O0_I2(LZ, L)
 C_O0_I2(rZ, r)
 C_O0_I2(rZ, rZ)
-C_O1_I1(r, L)
 C_O1_I1(r, r)
 C_O1_I2(r, r, ri)
 C_O1_I2(r, r, rI)
diff --git a/tcg/riscv/tcg-target-con-str.h b/tcg/riscv/tcg-target-con-str.h
index XXXXXXX..XXXXXXX 100644
--- a/tcg/riscv/tcg-target-con-str.h
+++ b/tcg/riscv/tcg-target-con-str.h
@@ -XXX,XX +XXX,XX @@
  * REGS(letter, register_mask)
  */
 REGS('r', ALL_GENERAL_REGS)
-REGS('L', ALL_GENERAL_REGS & ~SOFTMMU_RESERVE_REGS)
 
 /*
  * Define constraint letters for constants:
diff --git a/tcg/riscv/tcg-target.c.inc b/tcg/riscv/tcg-target.c.inc
index XXXXXXX..XXXXXXX 100644
--- a/tcg/riscv/tcg-target.c.inc
+++ b/tcg/riscv/tcg-target.c.inc
@@ -XXX,XX +XXX,XX @@ static TCGReg tcg_target_call_oarg_reg(TCGCallReturnKind kind, int slot)
 #define TCG_CT_CONST_N12   0x400
 #define TCG_CT_CONST_M12   0x800
 
-#define ALL_GENERAL_REGS      MAKE_64BIT_MASK(0, 32)
-/*
- * For softmmu, we need to avoid conflicts with the first 5
- * argument registers to call the helper.  Some of these are
- * also used for the tlb lookup.
- */
-#ifdef CONFIG_SOFTMMU
-#define SOFTMMU_RESERVE_REGS  MAKE_64BIT_MASK(TCG_REG_A0, 5)
-#else
-#define SOFTMMU_RESERVE_REGS  0
-#endif
+#define ALL_GENERAL_REGS   MAKE_64BIT_MASK(0, 32)
 
 #define sextreg  sextract64
 
@@ -XXX,XX +XXX,XX @@ static TCGConstraintSetIndex tcg_target_op_def(TCGOpcode op)
 
     case INDEX_op_qemu_ld_i32:
     case INDEX_op_qemu_ld_i64:
-        return C_O1_I1(r, L);
+        return C_O1_I1(r, r);
     case INDEX_op_qemu_st_i32:
     case INDEX_op_qemu_st_i64:
-        return C_O0_I2(LZ, L);
+        return C_O0_I2(rZ, r);
 
     default:
         g_assert_not_reached();
-- 
2.34.1

Rather than zero-extend the guest address into a register,
use an add instruction which zero-extends the second input.

Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/s390x/tcg-target.c.inc | 8 +++++---
 1 file changed, 5 insertions(+), 3 deletions(-)

diff --git a/tcg/s390x/tcg-target.c.inc b/tcg/s390x/tcg-target.c.inc
index XXXXXXX..XXXXXXX 100644
--- a/tcg/s390x/tcg-target.c.inc
+++ b/tcg/s390x/tcg-target.c.inc
@@ -XXX,XX +XXX,XX @@ typedef enum S390Opcode {
     RRE_ALGR    = 0xb90a,
     RRE_ALCR    = 0xb998,
     RRE_ALCGR   = 0xb988,
+    RRE_ALGFR   = 0xb91a,
     RRE_CGR     = 0xb920,
     RRE_CLGR    = 0xb921,
     RRE_DLGR    = 0xb987,
@@ -XXX,XX +XXX,XX @@ static TCGLabelQemuLdst *prepare_host_addr(TCGContext *s, HostAddress *h,
     tcg_out_insn(s, RXY, LG, h->index, TCG_REG_R2, TCG_REG_NONE,
                  offsetof(CPUTLBEntry, addend));
 
-    h->base = addr_reg;
     if (TARGET_LONG_BITS == 32) {
-        tcg_out_ext32u(s, TCG_REG_R3, addr_reg);
-        h->base = TCG_REG_R3;
+        tcg_out_insn(s, RRE, ALGFR, h->index, addr_reg);
+        h->base = TCG_REG_NONE;
+    } else {
+        h->base = addr_reg;
     }
     h->disp = 0;
 #else
-- 
2.34.1

Adjust the softmmu tlb to use R0+R1, not any of the normally available
registers.  Since we handle overlap betwen inputs and helper arguments,
we can allow any allocatable reg.

Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/s390x/tcg-target-con-set.h |  2 --
 tcg/s390x/tcg-target-con-str.h |  1 -
 tcg/s390x/tcg-target.c.inc     | 36 ++++++++++++----------------------
 3 files changed, 12 insertions(+), 27 deletions(-)

diff --git a/tcg/s390x/tcg-target-con-set.h b/tcg/s390x/tcg-target-con-set.h
index XXXXXXX..XXXXXXX 100644
--- a/tcg/s390x/tcg-target-con-set.h
+++ b/tcg/s390x/tcg-target-con-set.h
@@ -XXX,XX +XXX,XX @@
  * tcg-target-con-str.h; the constraint combination is inclusive or.
  */
 C_O0_I1(r)
-C_O0_I2(L, L)
 C_O0_I2(r, r)
 C_O0_I2(r, ri)
 C_O0_I2(r, rA)
 C_O0_I2(v, r)
-C_O1_I1(r, L)
 C_O1_I1(r, r)
 C_O1_I1(v, r)
 C_O1_I1(v, v)
diff --git a/tcg/s390x/tcg-target-con-str.h b/tcg/s390x/tcg-target-con-str.h
index XXXXXXX..XXXXXXX 100644
--- a/tcg/s390x/tcg-target-con-str.h
+++ b/tcg/s390x/tcg-target-con-str.h
@@ -XXX,XX +XXX,XX @@
  * REGS(letter, register_mask)
  */
 REGS('r', ALL_GENERAL_REGS)
-REGS('L', ALL_GENERAL_REGS & ~SOFTMMU_RESERVE_REGS)
 REGS('v', ALL_VECTOR_REGS)
 REGS('o', 0xaaaa) /* odd numbered general regs */
 
diff --git a/tcg/s390x/tcg-target.c.inc b/tcg/s390x/tcg-target.c.inc
index XXXXXXX..XXXXXXX 100644
--- a/tcg/s390x/tcg-target.c.inc
+++ b/tcg/s390x/tcg-target.c.inc
@@ -XXX,XX +XXX,XX @@
 #define ALL_GENERAL_REGS     MAKE_64BIT_MASK(0, 16)
 #define ALL_VECTOR_REGS      MAKE_64BIT_MASK(32, 32)
 
-/*
- * For softmmu, we need to avoid conflicts with the first 3
- * argument registers to perform the tlb lookup, and to call
- * the helper function.
- */
-#ifdef CONFIG_SOFTMMU
-#define SOFTMMU_RESERVE_REGS MAKE_64BIT_MASK(TCG_REG_R2, 3)
-#else
-#define SOFTMMU_RESERVE_REGS 0
-#endif
-
-
 /* Several places within the instruction set 0 means "no register"
    rather than TCG_REG_R0.  */
 #define TCG_REG_NONE    0
@@ -XXX,XX +XXX,XX @@ static TCGLabelQemuLdst *prepare_host_addr(TCGContext *s, HostAddress *h,
     ldst->oi = oi;
     ldst->addrlo_reg = addr_reg;
 
-    tcg_out_sh64(s, RSY_SRLG, TCG_REG_R2, addr_reg, TCG_REG_NONE,
+    tcg_out_sh64(s, RSY_SRLG, TCG_TMP0, addr_reg, TCG_REG_NONE,
                  TARGET_PAGE_BITS - CPU_TLB_ENTRY_BITS);
 
     QEMU_BUILD_BUG_ON(TLB_MASK_TABLE_OFS(0) > 0);
     QEMU_BUILD_BUG_ON(TLB_MASK_TABLE_OFS(0) < -(1 << 19));
-    tcg_out_insn(s, RXY, NG, TCG_REG_R2, TCG_AREG0, TCG_REG_NONE, mask_off);
-    tcg_out_insn(s, RXY, AG, TCG_REG_R2, TCG_AREG0, TCG_REG_NONE, table_off);
+    tcg_out_insn(s, RXY, NG, TCG_TMP0, TCG_AREG0, TCG_REG_NONE, mask_off);
+    tcg_out_insn(s, RXY, AG, TCG_TMP0, TCG_AREG0, TCG_REG_NONE, table_off);
 
     /*
      * For aligned accesses, we check the first byte and include the alignment
@@ -XXX,XX +XXX,XX @@ static TCGLabelQemuLdst *prepare_host_addr(TCGContext *s, HostAddress *h,
     a_off = (a_bits >= s_bits ? 0 : s_mask - a_mask);
     tlb_mask = (uint64_t)TARGET_PAGE_MASK | a_mask;
     if (a_off == 0) {
-        tgen_andi_risbg(s, TCG_REG_R3, addr_reg, tlb_mask);
+        tgen_andi_risbg(s, TCG_REG_R0, addr_reg, tlb_mask);
     } else {
-        tcg_out_insn(s, RX, LA, TCG_REG_R3, addr_reg, TCG_REG_NONE, a_off);
-        tgen_andi(s, TCG_TYPE_TL, TCG_REG_R3, tlb_mask);
+        tcg_out_insn(s, RX, LA, TCG_REG_R0, addr_reg, TCG_REG_NONE, a_off);
+        tgen_andi(s, TCG_TYPE_TL, TCG_REG_R0, tlb_mask);
     }
 
     if (is_ld) {
@@ -XXX,XX +XXX,XX @@ static TCGLabelQemuLdst *prepare_host_addr(TCGContext *s, HostAddress *h,
         ofs = offsetof(CPUTLBEntry, addr_write);
     }
     if (TARGET_LONG_BITS == 32) {
-        tcg_out_insn(s, RX, C, TCG_REG_R3, TCG_REG_R2, TCG_REG_NONE, ofs);
+        tcg_out_insn(s, RX, C, TCG_REG_R0, TCG_TMP0, TCG_REG_NONE, ofs);
     } else {
-        tcg_out_insn(s, RXY, CG, TCG_REG_R3, TCG_REG_R2, TCG_REG_NONE, ofs);
+        tcg_out_insn(s, RXY, CG, TCG_REG_R0, TCG_TMP0, TCG_REG_NONE, ofs);
     }
 
     tcg_out16(s, RI_BRC | (S390_CC_NE << 4));
     ldst->label_ptr[0] = s->code_ptr++;
 
-    h->index = TCG_REG_R2;
-    tcg_out_insn(s, RXY, LG, h->index, TCG_REG_R2, TCG_REG_NONE,
+    h->index = TCG_TMP0;
+    tcg_out_insn(s, RXY, LG, h->index, TCG_TMP0, TCG_REG_NONE,
                  offsetof(CPUTLBEntry, addend));
 
     if (TARGET_LONG_BITS == 32) {
@@ -XXX,XX +XXX,XX @@ static TCGConstraintSetIndex tcg_target_op_def(TCGOpcode op)
 
     case INDEX_op_qemu_ld_i32:
     case INDEX_op_qemu_ld_i64:
-        return C_O1_I1(r, L);
+        return C_O1_I1(r, r);
     case INDEX_op_qemu_st_i64:
     case INDEX_op_qemu_st_i32:
-        return C_O0_I2(L, L);
+        return C_O0_I2(r, r);
 
     case INDEX_op_deposit_i32:
     case INDEX_op_deposit_i64:
-- 
2.34.1

These are atomic operations, so mark as requiring alignment.

Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 target/mips/tcg/nanomips_translate.c.inc | 5 +++--
 1 file changed, 3 insertions(+), 2 deletions(-)

diff --git a/target/mips/tcg/nanomips_translate.c.inc b/target/mips/tcg/nanomips_translate.c.inc
index XXXXXXX..XXXXXXX 100644
--- a/target/mips/tcg/nanomips_translate.c.inc
+++ b/target/mips/tcg/nanomips_translate.c.inc
@@ -XXX,XX +XXX,XX @@ static void gen_llwp(DisasContext *ctx, uint32_t base, int16_t offset,
     TCGv tmp2 = tcg_temp_new();
 
     gen_base_offset_addr(ctx, taddr, base, offset);
-    tcg_gen_qemu_ld_i64(tval, taddr, ctx->mem_idx, MO_TEUQ);
+    tcg_gen_qemu_ld_i64(tval, taddr, ctx->mem_idx, MO_TEUQ | MO_ALIGN);
     if (cpu_is_bigendian(ctx)) {
         tcg_gen_extr_i64_tl(tmp2, tmp1, tval);
     } else {
@@ -XXX,XX +XXX,XX @@ static void gen_scwp(DisasContext *ctx, uint32_t base, int16_t offset,
 
     tcg_gen_ld_i64(llval, cpu_env, offsetof(CPUMIPSState, llval_wp));
     tcg_gen_atomic_cmpxchg_i64(val, taddr, llval, tval,
-                               eva ? MIPS_HFLAG_UM : ctx->mem_idx, MO_64);
+                               eva ? MIPS_HFLAG_UM : ctx->mem_idx,
+                               MO_64 | MO_ALIGN);
     if (reg1 != 0) {
         tcg_gen_movi_tl(cpu_gpr[reg1], 1);
     }
-- 
2.34.1

Memory operations that are not already aligned, or otherwise
marked up, require addition of ctx->default_tcg_memop_mask.

Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 target/mips/tcg/mxu_translate.c           |  3 ++-
 target/mips/tcg/micromips_translate.c.inc | 24 ++++++++++++++--------
 target/mips/tcg/mips16e_translate.c.inc   | 18 ++++++++++------
 target/mips/tcg/nanomips_translate.c.inc  | 25 +++++++++++------------
 4 files changed, 42 insertions(+), 28 deletions(-)

diff --git a/target/mips/tcg/mxu_translate.c b/target/mips/tcg/mxu_translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/mips/tcg/mxu_translate.c
+++ b/target/mips/tcg/mxu_translate.c
@@ -XXX,XX +XXX,XX @@ static void gen_mxu_s32ldd_s32lddr(DisasContext *ctx)
         tcg_gen_ori_tl(t1, t1, 0xFFFFF000);
     }
     tcg_gen_add_tl(t1, t0, t1);
-    tcg_gen_qemu_ld_tl(t1, t1, ctx->mem_idx, MO_TESL ^ (sel * MO_BSWAP));
+    tcg_gen_qemu_ld_tl(t1, t1, ctx->mem_idx, (MO_TESL ^ (sel * MO_BSWAP)) |
+                       ctx->default_tcg_memop_mask);
 
     gen_store_mxu_gpr(t1, XRa);
 }
diff --git a/target/mips/tcg/micromips_translate.c.inc b/target/mips/tcg/micromips_translate.c.inc
index XXXXXXX..XXXXXXX 100644
--- a/target/mips/tcg/micromips_translate.c.inc
+++ b/target/mips/tcg/micromips_translate.c.inc
@@ -XXX,XX +XXX,XX @@ static void gen_ldst_pair(DisasContext *ctx, uint32_t opc, int rd,
             gen_reserved_instruction(ctx);
             return;
         }
-        tcg_gen_qemu_ld_tl(t1, t0, ctx->mem_idx, MO_TESL);
+        tcg_gen_qemu_ld_tl(t1, t0, ctx->mem_idx, MO_TESL |
+                           ctx->default_tcg_memop_mask);
         gen_store_gpr(t1, rd);
         tcg_gen_movi_tl(t1, 4);
         gen_op_addr_add(ctx, t0, t0, t1);
-        tcg_gen_qemu_ld_tl(t1, t0, ctx->mem_idx, MO_TESL);
+        tcg_gen_qemu_ld_tl(t1, t0, ctx->mem_idx, MO_TESL |
+                           ctx->default_tcg_memop_mask);
         gen_store_gpr(t1, rd + 1);
         break;
     case SWP:
         gen_load_gpr(t1, rd);
-        tcg_gen_qemu_st_tl(t1, t0, ctx->mem_idx, MO_TEUL);
+        tcg_gen_qemu_st_tl(t1, t0, ctx->mem_idx, MO_TEUL |
+                           ctx->default_tcg_memop_mask);
         tcg_gen_movi_tl(t1, 4);
         gen_op_addr_add(ctx, t0, t0, t1);
         gen_load_gpr(t1, rd + 1);
-        tcg_gen_qemu_st_tl(t1, t0, ctx->mem_idx, MO_TEUL);
+        tcg_gen_qemu_st_tl(t1, t0, ctx->mem_idx, MO_TEUL |
+                           ctx->default_tcg_memop_mask);
         break;
 #ifdef TARGET_MIPS64
     case LDP:
@@ -XXX,XX +XXX,XX @@ static void gen_ldst_pair(DisasContext *ctx, uint32_t opc, int rd,
             gen_reserved_instruction(ctx);
             return;
         }
-        tcg_gen_qemu_ld_tl(t1, t0, ctx->mem_idx, MO_TEUQ);
+        tcg_gen_qemu_ld_tl(t1, t0, ctx->mem_idx, MO_TEUQ |
+                           ctx->default_tcg_memop_mask);
         gen_store_gpr(t1, rd);
         tcg_gen_movi_tl(t1, 8);
         gen_op_addr_add(ctx, t0, t0, t1);
-        tcg_gen_qemu_ld_tl(t1, t0, ctx->mem_idx, MO_TEUQ);
+        tcg_gen_qemu_ld_tl(t1, t0, ctx->mem_idx, MO_TEUQ |
+                           ctx->default_tcg_memop_mask);
         gen_store_gpr(t1, rd + 1);
         break;
     case SDP:
         gen_load_gpr(t1, rd);
-        tcg_gen_qemu_st_tl(t1, t0, ctx->mem_idx, MO_TEUQ);
+        tcg_gen_qemu_st_tl(t1, t0, ctx->mem_idx, MO_TEUQ |
+                           ctx->default_tcg_memop_mask);
         tcg_gen_movi_tl(t1, 8);
         gen_op_addr_add(ctx, t0, t0, t1);
         gen_load_gpr(t1, rd + 1);
-        tcg_gen_qemu_st_tl(t1, t0, ctx->mem_idx, MO_TEUQ);
+        tcg_gen_qemu_st_tl(t1, t0, ctx->mem_idx, MO_TEUQ |
+                           ctx->default_tcg_memop_mask);
         break;
 #endif
     }
diff --git a/target/mips/tcg/mips16e_translate.c.inc b/target/mips/tcg/mips16e_translate.c.inc
index XXXXXXX..XXXXXXX 100644
--- a/target/mips/tcg/mips16e_translate.c.inc
+++ b/target/mips/tcg/mips16e_translate.c.inc
@@ -XXX,XX +XXX,XX @@ static void gen_mips16_save(DisasContext *ctx,
     case 4:
         gen_base_offset_addr(ctx, t0, 29, 12);
         gen_load_gpr(t1, 7);
-        tcg_gen_qemu_st_tl(t1, t0, ctx->mem_idx, MO_TEUL);
+        tcg_gen_qemu_st_tl(t1, t0, ctx->mem_idx, MO_TEUL |
+                           ctx->default_tcg_memop_mask);
         /* Fall through */
     case 3:
         gen_base_offset_addr(ctx, t0, 29, 8);
         gen_load_gpr(t1, 6);
-        tcg_gen_qemu_st_tl(t1, t0, ctx->mem_idx, MO_TEUL);
+        tcg_gen_qemu_st_tl(t1, t0, ctx->mem_idx, MO_TEUL |
+                           ctx->default_tcg_memop_mask);
         /* Fall through */
     case 2:
         gen_base_offset_addr(ctx, t0, 29, 4);
         gen_load_gpr(t1, 5);
-        tcg_gen_qemu_st_tl(t1, t0, ctx->mem_idx, MO_TEUL);
+        tcg_gen_qemu_st_tl(t1, t0, ctx->mem_idx, MO_TEUL |
+                           ctx->default_tcg_memop_mask);
         /* Fall through */
     case 1:
         gen_base_offset_addr(ctx, t0, 29, 0);
         gen_load_gpr(t1, 4);
-        tcg_gen_qemu_st_tl(t1, t0, ctx->mem_idx, MO_TEUL);
+        tcg_gen_qemu_st_tl(t1, t0, ctx->mem_idx, MO_TEUL |
+                           ctx->default_tcg_memop_mask);
     }
 
     gen_load_gpr(t0, 29);
@@ -XXX,XX +XXX,XX @@ static void gen_mips16_save(DisasContext *ctx,
         tcg_gen_movi_tl(t2, -4);                                 \
         gen_op_addr_add(ctx, t0, t0, t2);                        \
         gen_load_gpr(t1, reg);                                   \
-        tcg_gen_qemu_st_tl(t1, t0, ctx->mem_idx, MO_TEUL); \
+        tcg_gen_qemu_st_tl(t1, t0, ctx->mem_idx, MO_TEUL |       \
+                           ctx->default_tcg_memop_mask);         \
     } while (0)
 
     if (do_ra) {
@@ -XXX,XX +XXX,XX @@ static void gen_mips16_restore(DisasContext *ctx,
 #define DECR_AND_LOAD(reg) do {                            \
         tcg_gen_movi_tl(t2, -4);                           \
         gen_op_addr_add(ctx, t0, t0, t2);                  \
-        tcg_gen_qemu_ld_tl(t1, t0, ctx->mem_idx, MO_TESL); \
+        tcg_gen_qemu_ld_tl(t1, t0, ctx->mem_idx, MO_TESL | \
+                           ctx->default_tcg_memop_mask);   \
         gen_store_gpr(t1, reg);                            \
     } while (0)
 
diff --git a/target/mips/tcg/nanomips_translate.c.inc b/target/mips/tcg/nanomips_translate.c.inc
index XXXXXXX..XXXXXXX 100644
--- a/target/mips/tcg/nanomips_translate.c.inc
+++ b/target/mips/tcg/nanomips_translate.c.inc
@@ -XXX,XX +XXX,XX @@ static void gen_p_lsx(DisasContext *ctx, int rd, int rs, int rt)
 
     switch (extract32(ctx->opcode, 7, 4)) {
     case NM_LBX:
-        tcg_gen_qemu_ld_tl(t0, t0, ctx->mem_idx,
-                           MO_SB);
+        tcg_gen_qemu_ld_tl(t0, t0, ctx->mem_idx, MO_SB);
         gen_store_gpr(t0, rd);
         break;
     case NM_LHX:
     /*case NM_LHXS:*/
         tcg_gen_qemu_ld_tl(t0, t0, ctx->mem_idx,
-                           MO_TESW);
+                           MO_TESW | ctx->default_tcg_memop_mask);
         gen_store_gpr(t0, rd);
         break;
     case NM_LWX:
     /*case NM_LWXS:*/
         tcg_gen_qemu_ld_tl(t0, t0, ctx->mem_idx,
-                           MO_TESL);
+                           MO_TESL | ctx->default_tcg_memop_mask);
         gen_store_gpr(t0, rd);
         break;
     case NM_LBUX:
-        tcg_gen_qemu_ld_tl(t0, t0, ctx->mem_idx,
-                           MO_UB);
+        tcg_gen_qemu_ld_tl(t0, t0, ctx->mem_idx, MO_UB);
         gen_store_gpr(t0, rd);
         break;
     case NM_LHUX:
     /*case NM_LHUXS:*/
         tcg_gen_qemu_ld_tl(t0, t0, ctx->mem_idx,
-                           MO_TEUW);
+                           MO_TEUW | ctx->default_tcg_memop_mask);
         gen_store_gpr(t0, rd);
         break;
     case NM_SBX:
         check_nms(ctx);
         gen_load_gpr(t1, rd);
-        tcg_gen_qemu_st_tl(t1, t0, ctx->mem_idx,
-                           MO_8);
+        tcg_gen_qemu_st_tl(t1, t0, ctx->mem_idx, MO_8);
         break;
     case NM_SHX:
     /*case NM_SHXS:*/
         check_nms(ctx);
         gen_load_gpr(t1, rd);
         tcg_gen_qemu_st_tl(t1, t0, ctx->mem_idx,
-                           MO_TEUW);
+                           MO_TEUW | ctx->default_tcg_memop_mask);
         break;
     case NM_SWX:
     /*case NM_SWXS:*/
         check_nms(ctx);
         gen_load_gpr(t1, rd);
         tcg_gen_qemu_st_tl(t1, t0, ctx->mem_idx,
-                           MO_TEUL);
+                           MO_TEUL | ctx->default_tcg_memop_mask);
         break;
     case NM_LWC1X:
     /*case NM_LWC1XS:*/
@@ -XXX,XX +XXX,XX @@ static int decode_nanomips_32_48_opc(CPUMIPSState *env, DisasContext *ctx)
                                                 addr_off);
 
                     tcg_gen_movi_tl(t0, addr);
-                    tcg_gen_qemu_ld_tl(cpu_gpr[rt], t0, ctx->mem_idx, MO_TESL);
+                    tcg_gen_qemu_ld_tl(cpu_gpr[rt], t0, ctx->mem_idx,
+                                       MO_TESL | ctx->default_tcg_memop_mask);
                 }
                 break;
             case NM_SWPC48:
@@ -XXX,XX +XXX,XX @@ static int decode_nanomips_32_48_opc(CPUMIPSState *env, DisasContext *ctx)
                     tcg_gen_movi_tl(t0, addr);
                     gen_load_gpr(t1, rt);
 
-                    tcg_gen_qemu_st_tl(t1, t0, ctx->mem_idx, MO_TEUL);
+                    tcg_gen_qemu_st_tl(t1, t0, ctx->mem_idx,
+                                       MO_TEUL | ctx->default_tcg_memop_mask);
                 }
                 break;
             default:
-- 
2.34.1

Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 configs/targets/mips-linux-user.mak      | 1 -
 configs/targets/mips-softmmu.mak         | 1 -
 configs/targets/mips64-linux-user.mak    | 1 -
 configs/targets/mips64-softmmu.mak       | 1 -
 configs/targets/mips64el-linux-user.mak  | 1 -
 configs/targets/mips64el-softmmu.mak     | 1 -
 configs/targets/mipsel-linux-user.mak    | 1 -
 configs/targets/mipsel-softmmu.mak       | 1 -
 configs/targets/mipsn32-linux-user.mak   | 1 -
 configs/targets/mipsn32el-linux-user.mak | 1 -
 10 files changed, 10 deletions(-)

diff --git a/configs/targets/mips-linux-user.mak b/configs/targets/mips-linux-user.mak
index XXXXXXX..XXXXXXX 100644
--- a/configs/targets/mips-linux-user.mak
+++ b/configs/targets/mips-linux-user.mak
@@ -XXX,XX +XXX,XX @@ TARGET_ARCH=mips
 TARGET_ABI_MIPSO32=y
 TARGET_SYSTBL_ABI=o32
 TARGET_SYSTBL=syscall_o32.tbl
-TARGET_ALIGNED_ONLY=y
 TARGET_BIG_ENDIAN=y
diff --git a/configs/targets/mips-softmmu.mak b/configs/targets/mips-softmmu.mak
index XXXXXXX..XXXXXXX 100644
--- a/configs/targets/mips-softmmu.mak
+++ b/configs/targets/mips-softmmu.mak
@@ -XXX,XX +XXX,XX @@
 TARGET_ARCH=mips
-TARGET_ALIGNED_ONLY=y
 TARGET_BIG_ENDIAN=y
 TARGET_SUPPORTS_MTTCG=y
diff --git a/configs/targets/mips64-linux-user.mak b/configs/targets/mips64-linux-user.mak
index XXXXXXX..XXXXXXX 100644
--- a/configs/targets/mips64-linux-user.mak
+++ b/configs/targets/mips64-linux-user.mak
@@ -XXX,XX +XXX,XX @@ TARGET_ABI_MIPSN64=y
 TARGET_BASE_ARCH=mips
 TARGET_SYSTBL_ABI=n64
 TARGET_SYSTBL=syscall_n64.tbl
-TARGET_ALIGNED_ONLY=y
 TARGET_BIG_ENDIAN=y
diff --git a/configs/targets/mips64-softmmu.mak b/configs/targets/mips64-softmmu.mak
index XXXXXXX..XXXXXXX 100644
--- a/configs/targets/mips64-softmmu.mak
+++ b/configs/targets/mips64-softmmu.mak
@@ -XXX,XX +XXX,XX @@
 TARGET_ARCH=mips64
 TARGET_BASE_ARCH=mips
-TARGET_ALIGNED_ONLY=y
 TARGET_BIG_ENDIAN=y
diff --git a/configs/targets/mips64el-linux-user.mak b/configs/targets/mips64el-linux-user.mak
index XXXXXXX..XXXXXXX 100644
--- a/configs/targets/mips64el-linux-user.mak
+++ b/configs/targets/mips64el-linux-user.mak
@@ -XXX,XX +XXX,XX @@ TARGET_ABI_MIPSN64=y
 TARGET_BASE_ARCH=mips
 TARGET_SYSTBL_ABI=n64
 TARGET_SYSTBL=syscall_n64.tbl
-TARGET_ALIGNED_ONLY=y
diff --git a/configs/targets/mips64el-softmmu.mak b/configs/targets/mips64el-softmmu.mak
index XXXXXXX..XXXXXXX 100644
--- a/configs/targets/mips64el-softmmu.mak
+++ b/configs/targets/mips64el-softmmu.mak
@@ -XXX,XX +XXX,XX @@
 TARGET_ARCH=mips64
 TARGET_BASE_ARCH=mips
-TARGET_ALIGNED_ONLY=y
 TARGET_NEED_FDT=y
diff --git a/configs/targets/mipsel-linux-user.mak b/configs/targets/mipsel-linux-user.mak
index XXXXXXX..XXXXXXX 100644
--- a/configs/targets/mipsel-linux-user.mak
+++ b/configs/targets/mipsel-linux-user.mak
@@ -XXX,XX +XXX,XX @@ TARGET_ARCH=mips
 TARGET_ABI_MIPSO32=y
 TARGET_SYSTBL_ABI=o32
 TARGET_SYSTBL=syscall_o32.tbl
-TARGET_ALIGNED_ONLY=y
diff --git a/configs/targets/mipsel-softmmu.mak b/configs/targets/mipsel-softmmu.mak
index XXXXXXX..XXXXXXX 100644
--- a/configs/targets/mipsel-softmmu.mak
+++ b/configs/targets/mipsel-softmmu.mak
@@ -XXX,XX +XXX,XX @@
 TARGET_ARCH=mips
-TARGET_ALIGNED_ONLY=y
 TARGET_SUPPORTS_MTTCG=y
diff --git a/configs/targets/mipsn32-linux-user.mak b/configs/targets/mipsn32-linux-user.mak
index XXXXXXX..XXXXXXX 100644
--- a/configs/targets/mipsn32-linux-user.mak
+++ b/configs/targets/mipsn32-linux-user.mak
@@ -XXX,XX +XXX,XX @@ TARGET_ABI32=y
 TARGET_BASE_ARCH=mips
 TARGET_SYSTBL_ABI=n32
 TARGET_SYSTBL=syscall_n32.tbl
-TARGET_ALIGNED_ONLY=y
 TARGET_BIG_ENDIAN=y
diff --git a/configs/targets/mipsn32el-linux-user.mak b/configs/targets/mipsn32el-linux-user.mak
index XXXXXXX..XXXXXXX 100644
--- a/configs/targets/mipsn32el-linux-user.mak
+++ b/configs/targets/mipsn32el-linux-user.mak
@@ -XXX,XX +XXX,XX @@ TARGET_ABI32=y
 TARGET_BASE_ARCH=mips
 TARGET_SYSTBL_ABI=n32
 TARGET_SYSTBL=syscall_n32.tbl
-TARGET_ALIGNED_ONLY=y
-- 
2.34.1

In gen_ldx/gen_stx, the only two locations for memory operations,
mark the operation as either aligned (softmmu) or unaligned
(user-only, as if emulated by the kernel).

Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 configs/targets/nios2-softmmu.mak |  1 -
 target/nios2/translate.c          | 10 ++++++++++
 2 files changed, 10 insertions(+), 1 deletion(-)

diff --git a/configs/targets/nios2-softmmu.mak b/configs/targets/nios2-softmmu.mak
index XXXXXXX..XXXXXXX 100644
--- a/configs/targets/nios2-softmmu.mak
+++ b/configs/targets/nios2-softmmu.mak
@@ -XXX,XX +XXX,XX @@
 TARGET_ARCH=nios2
-TARGET_ALIGNED_ONLY=y
 TARGET_NEED_FDT=y
diff --git a/target/nios2/translate.c b/target/nios2/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/nios2/translate.c
+++ b/target/nios2/translate.c
@@ -XXX,XX +XXX,XX @@ static void gen_ldx(DisasContext *dc, uint32_t code, uint32_t flags)
     TCGv data = dest_gpr(dc, instr.b);
 
     tcg_gen_addi_tl(addr, load_gpr(dc, instr.a), instr.imm16.s);
+#ifdef CONFIG_USER_ONLY
+    flags |= MO_UNALN;
+#else
+    flags |= MO_ALIGN;
+#endif
     tcg_gen_qemu_ld_tl(data, addr, dc->mem_idx, flags);
 }
 
@@ -XXX,XX +XXX,XX @@ static void gen_stx(DisasContext *dc, uint32_t code, uint32_t flags)
 
     TCGv addr = tcg_temp_new();
     tcg_gen_addi_tl(addr, load_gpr(dc, instr.a), instr.imm16.s);
+#ifdef CONFIG_USER_ONLY
+    flags |= MO_UNALN;
+#else
+    flags |= MO_ALIGN;
+#endif
     tcg_gen_qemu_st_tl(val, addr, dc->mem_idx, flags);
 }
 
-- 
2.34.1

Mark all memory operations that are not already marked with UNALIGN.

Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 target/sh4/translate.c | 102 ++++++++++++++++++++++++++---------------
 1 file changed, 66 insertions(+), 36 deletions(-)

diff --git a/target/sh4/translate.c b/target/sh4/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/sh4/translate.c
+++ b/target/sh4/translate.c
@@ -XXX,XX +XXX,XX @@ static void _decode_opc(DisasContext * ctx)
     case 0x9000:		/* mov.w @(disp,PC),Rn */
 	{
             TCGv addr = tcg_constant_i32(ctx->base.pc_next + 4 + B7_0 * 2);
-            tcg_gen_qemu_ld_i32(REG(B11_8), addr, ctx->memidx, MO_TESW);
+            tcg_gen_qemu_ld_i32(REG(B11_8), addr, ctx->memidx,
+                                MO_TESW | MO_ALIGN);
 	}
 	return;
     case 0xd000:		/* mov.l @(disp,PC),Rn */
 	{
             TCGv addr = tcg_constant_i32((ctx->base.pc_next + 4 + B7_0 * 4) & ~3);
-            tcg_gen_qemu_ld_i32(REG(B11_8), addr, ctx->memidx, MO_TESL);
+            tcg_gen_qemu_ld_i32(REG(B11_8), addr, ctx->memidx,
+                                MO_TESL | MO_ALIGN);
 	}
 	return;
     case 0x7000:		/* add #imm,Rn */
@@ -XXX,XX +XXX,XX @@ static void _decode_opc(DisasContext * ctx)
 	{
 	    TCGv arg0, arg1;
 	    arg0 = tcg_temp_new();
-            tcg_gen_qemu_ld_i32(arg0, REG(B7_4), ctx->memidx, MO_TESL);
+            tcg_gen_qemu_ld_i32(arg0, REG(B7_4), ctx->memidx,
+                                MO_TESL | MO_ALIGN);
 	    arg1 = tcg_temp_new();
-            tcg_gen_qemu_ld_i32(arg1, REG(B11_8), ctx->memidx, MO_TESL);
+            tcg_gen_qemu_ld_i32(arg1, REG(B11_8), ctx->memidx,
+                                MO_TESL | MO_ALIGN);
             gen_helper_macl(cpu_env, arg0, arg1);
 	    tcg_gen_addi_i32(REG(B7_4), REG(B7_4), 4);
 	    tcg_gen_addi_i32(REG(B11_8), REG(B11_8), 4);
@@ -XXX,XX +XXX,XX @@ static void _decode_opc(DisasContext * ctx)
 	{
 	    TCGv arg0, arg1;
 	    arg0 = tcg_temp_new();
-            tcg_gen_qemu_ld_i32(arg0, REG(B7_4), ctx->memidx, MO_TESL);
+            tcg_gen_qemu_ld_i32(arg0, REG(B7_4), ctx->memidx,
+                                MO_TESL | MO_ALIGN);
 	    arg1 = tcg_temp_new();
-            tcg_gen_qemu_ld_i32(arg1, REG(B11_8), ctx->memidx, MO_TESL);
+            tcg_gen_qemu_ld_i32(arg1, REG(B11_8), ctx->memidx,
+                                MO_TESL | MO_ALIGN);
             gen_helper_macw(cpu_env, arg0, arg1);
 	    tcg_gen_addi_i32(REG(B11_8), REG(B11_8), 2);
 	    tcg_gen_addi_i32(REG(B7_4), REG(B7_4), 2);
@@ -XXX,XX +XXX,XX @@ static void _decode_opc(DisasContext * ctx)
         if (ctx->tbflags & FPSCR_SZ) {
             TCGv_i64 fp = tcg_temp_new_i64();
             gen_load_fpr64(ctx, fp, XHACK(B7_4));
-            tcg_gen_qemu_st_i64(fp, REG(B11_8), ctx->memidx, MO_TEUQ);
+            tcg_gen_qemu_st_i64(fp, REG(B11_8), ctx->memidx,
+                                MO_TEUQ | MO_ALIGN);
 	} else {
-            tcg_gen_qemu_st_i32(FREG(B7_4), REG(B11_8), ctx->memidx, MO_TEUL);
+            tcg_gen_qemu_st_i32(FREG(B7_4), REG(B11_8), ctx->memidx,
+                                MO_TEUL | MO_ALIGN);
 	}
 	return;
     case 0xf008: /* fmov @Rm,{F,D,X}Rn - FPSCR: Nothing */
 	CHECK_FPU_ENABLED
         if (ctx->tbflags & FPSCR_SZ) {
             TCGv_i64 fp = tcg_temp_new_i64();
-            tcg_gen_qemu_ld_i64(fp, REG(B7_4), ctx->memidx, MO_TEUQ);
+            tcg_gen_qemu_ld_i64(fp, REG(B7_4), ctx->memidx,
+                                MO_TEUQ | MO_ALIGN);
             gen_store_fpr64(ctx, fp, XHACK(B11_8));
 	} else {
-            tcg_gen_qemu_ld_i32(FREG(B11_8), REG(B7_4), ctx->memidx, MO_TEUL);
+            tcg_gen_qemu_ld_i32(FREG(B11_8), REG(B7_4), ctx->memidx,
+                                MO_TEUL | MO_ALIGN);
 	}
 	return;
     case 0xf009: /* fmov @Rm+,{F,D,X}Rn - FPSCR: Nothing */
 	CHECK_FPU_ENABLED
         if (ctx->tbflags & FPSCR_SZ) {
             TCGv_i64 fp = tcg_temp_new_i64();
-            tcg_gen_qemu_ld_i64(fp, REG(B7_4), ctx->memidx, MO_TEUQ);
+            tcg_gen_qemu_ld_i64(fp, REG(B7_4), ctx->memidx,
+                                MO_TEUQ | MO_ALIGN);
             gen_store_fpr64(ctx, fp, XHACK(B11_8));
             tcg_gen_addi_i32(REG(B7_4), REG(B7_4), 8);
 	} else {
-            tcg_gen_qemu_ld_i32(FREG(B11_8), REG(B7_4), ctx->memidx, MO_TEUL);
+            tcg_gen_qemu_ld_i32(FREG(B11_8), REG(B7_4), ctx->memidx,
+                                MO_TEUL | MO_ALIGN);
 	    tcg_gen_addi_i32(REG(B7_4), REG(B7_4), 4);
 	}
 	return;
@@ -XXX,XX +XXX,XX @@ static void _decode_opc(DisasContext * ctx)
                 TCGv_i64 fp = tcg_temp_new_i64();
                 gen_load_fpr64(ctx, fp, XHACK(B7_4));
                 tcg_gen_subi_i32(addr, REG(B11_8), 8);
-                tcg_gen_qemu_st_i64(fp, addr, ctx->memidx, MO_TEUQ);
+                tcg_gen_qemu_st_i64(fp, addr, ctx->memidx,
+                                    MO_TEUQ | MO_ALIGN);
             } else {
                 tcg_gen_subi_i32(addr, REG(B11_8), 4);
-                tcg_gen_qemu_st_i32(FREG(B7_4), addr, ctx->memidx, MO_TEUL);
+                tcg_gen_qemu_st_i32(FREG(B7_4), addr, ctx->memidx,
+                                    MO_TEUL | MO_ALIGN);
             }
             tcg_gen_mov_i32(REG(B11_8), addr);
         }
@@ -XXX,XX +XXX,XX @@ static void _decode_opc(DisasContext * ctx)
 	    tcg_gen_add_i32(addr, REG(B7_4), REG(0));
             if (ctx->tbflags & FPSCR_SZ) {
                 TCGv_i64 fp = tcg_temp_new_i64();
-                tcg_gen_qemu_ld_i64(fp, addr, ctx->memidx, MO_TEUQ);
+                tcg_gen_qemu_ld_i64(fp, addr, ctx->memidx,
+                                    MO_TEUQ | MO_ALIGN);
                 gen_store_fpr64(ctx, fp, XHACK(B11_8));
 	    } else {
-                tcg_gen_qemu_ld_i32(FREG(B11_8), addr, ctx->memidx, MO_TEUL);
+                tcg_gen_qemu_ld_i32(FREG(B11_8), addr, ctx->memidx,
+                                    MO_TEUL | MO_ALIGN);
 	    }
 	}
 	return;
@@ -XXX,XX +XXX,XX @@ static void _decode_opc(DisasContext * ctx)
             if (ctx->tbflags & FPSCR_SZ) {
                 TCGv_i64 fp = tcg_temp_new_i64();
                 gen_load_fpr64(ctx, fp, XHACK(B7_4));
-                tcg_gen_qemu_st_i64(fp, addr, ctx->memidx, MO_TEUQ);
+                tcg_gen_qemu_st_i64(fp, addr, ctx->memidx,
+                                    MO_TEUQ | MO_ALIGN);
 	    } else {
-                tcg_gen_qemu_st_i32(FREG(B7_4), addr, ctx->memidx, MO_TEUL);
+                tcg_gen_qemu_st_i32(FREG(B7_4), addr, ctx->memidx,
+                                    MO_TEUL | MO_ALIGN);
 	    }
 	}
 	return;
@@ -XXX,XX +XXX,XX @@ static void _decode_opc(DisasContext * ctx)
 	{
 	    TCGv addr = tcg_temp_new();
 	    tcg_gen_addi_i32(addr, cpu_gbr, B7_0 * 2);
-            tcg_gen_qemu_ld_i32(REG(0), addr, ctx->memidx, MO_TESW);
+            tcg_gen_qemu_ld_i32(REG(0), addr, ctx->memidx, MO_TESW | MO_ALIGN);
 	}
 	return;
     case 0xc600:		/* mov.l @(disp,GBR),R0 */
 	{
 	    TCGv addr = tcg_temp_new();
 	    tcg_gen_addi_i32(addr, cpu_gbr, B7_0 * 4);
-            tcg_gen_qemu_ld_i32(REG(0), addr, ctx->memidx, MO_TESL);
+            tcg_gen_qemu_ld_i32(REG(0), addr, ctx->memidx, MO_TESL | MO_ALIGN);
 	}
 	return;
     case 0xc000:		/* mov.b R0,@(disp,GBR) */
@@ -XXX,XX +XXX,XX @@ static void _decode_opc(DisasContext * ctx)
 	{
 	    TCGv addr = tcg_temp_new();
 	    tcg_gen_addi_i32(addr, cpu_gbr, B7_0 * 2);
-            tcg_gen_qemu_st_i32(REG(0), addr, ctx->memidx, MO_TEUW);
+            tcg_gen_qemu_st_i32(REG(0), addr, ctx->memidx, MO_TEUW | MO_ALIGN);
 	}
 	return;
     case 0xc200:		/* mov.l R0,@(disp,GBR) */
 	{
 	    TCGv addr = tcg_temp_new();
 	    tcg_gen_addi_i32(addr, cpu_gbr, B7_0 * 4);
-            tcg_gen_qemu_st_i32(REG(0), addr, ctx->memidx, MO_TEUL);
+            tcg_gen_qemu_st_i32(REG(0), addr, ctx->memidx, MO_TEUL | MO_ALIGN);
 	}
 	return;
     case 0x8000:		/* mov.b R0,@(disp,Rn) */
@@ -XXX,XX +XXX,XX @@ static void _decode_opc(DisasContext * ctx)
 	return;
     case 0x4087:		/* ldc.l @Rm+,Rn_BANK */
 	CHECK_PRIVILEGED
-        tcg_gen_qemu_ld_i32(ALTREG(B6_4), REG(B11_8), ctx->memidx, MO_TESL);
+        tcg_gen_qemu_ld_i32(ALTREG(B6_4), REG(B11_8), ctx->memidx,
+                            MO_TESL | MO_ALIGN);
 	tcg_gen_addi_i32(REG(B11_8), REG(B11_8), 4);
 	return;
     case 0x0082:		/* stc Rm_BANK,Rn */
@@ -XXX,XX +XXX,XX @@ static void _decode_opc(DisasContext * ctx)
 	{
 	    TCGv addr = tcg_temp_new();
 	    tcg_gen_subi_i32(addr, REG(B11_8), 4);
-            tcg_gen_qemu_st_i32(ALTREG(B6_4), addr, ctx->memidx, MO_TEUL);
+            tcg_gen_qemu_st_i32(ALTREG(B6_4), addr, ctx->memidx,
+                                MO_TEUL | MO_ALIGN);
 	    tcg_gen_mov_i32(REG(B11_8), addr);
 	}
 	return;
@@ -XXX,XX +XXX,XX @@ static void _decode_opc(DisasContext * ctx)
 	CHECK_PRIVILEGED
 	{
 	    TCGv val = tcg_temp_new();
-            tcg_gen_qemu_ld_i32(val, REG(B11_8), ctx->memidx, MO_TESL);
+            tcg_gen_qemu_ld_i32(val, REG(B11_8), ctx->memidx,
+                                MO_TESL | MO_ALIGN);
             tcg_gen_andi_i32(val, val, 0x700083f3);
             gen_write_sr(val);
 	    tcg_gen_addi_i32(REG(B11_8), REG(B11_8), 4);
@@ -XXX,XX +XXX,XX @@ static void _decode_opc(DisasContext * ctx)
             TCGv val = tcg_temp_new();
 	    tcg_gen_subi_i32(addr, REG(B11_8), 4);
             gen_read_sr(val);
-            tcg_gen_qemu_st_i32(val, addr, ctx->memidx, MO_TEUL);
+            tcg_gen_qemu_st_i32(val, addr, ctx->memidx, MO_TEUL | MO_ALIGN);
 	    tcg_gen_mov_i32(REG(B11_8), addr);
 	}
 	return;
@@ -XXX,XX +XXX,XX @@ static void _decode_opc(DisasContext * ctx)
     return;							\
   case ldpnum:							\
     prechk    							\
-    tcg_gen_qemu_ld_i32(cpu_##reg, REG(B11_8), ctx->memidx, MO_TESL); \
+    tcg_gen_qemu_ld_i32(cpu_##reg, REG(B11_8), ctx->memidx,     \
+                        MO_TESL | MO_ALIGN);                    \
     tcg_gen_addi_i32(REG(B11_8), REG(B11_8), 4);		\
     return;
 #define ST(reg,stnum,stpnum,prechk)		\
@@ -XXX,XX +XXX,XX @@ static void _decode_opc(DisasContext * ctx)
     {								\
 	TCGv addr = tcg_temp_new();				\
 	tcg_gen_subi_i32(addr, REG(B11_8), 4);			\
-        tcg_gen_qemu_st_i32(cpu_##reg, addr, ctx->memidx, MO_TEUL); \
+        tcg_gen_qemu_st_i32(cpu_##reg, addr, ctx->memidx,       \
+                            MO_TEUL | MO_ALIGN);                \
 	tcg_gen_mov_i32(REG(B11_8), addr);			\
     }								\
     return;
@@ -XXX,XX +XXX,XX @@ static void _decode_opc(DisasContext * ctx)
 	CHECK_FPU_ENABLED
 	{
 	    TCGv addr = tcg_temp_new();
-            tcg_gen_qemu_ld_i32(addr, REG(B11_8), ctx->memidx, MO_TESL);
+            tcg_gen_qemu_ld_i32(addr, REG(B11_8), ctx->memidx,
+                                MO_TESL | MO_ALIGN);
 	    tcg_gen_addi_i32(REG(B11_8), REG(B11_8), 4);
             gen_helper_ld_fpscr(cpu_env, addr);
             ctx->base.is_jmp = DISAS_STOP;
@@ -XXX,XX +XXX,XX @@ static void _decode_opc(DisasContext * ctx)
 	    tcg_gen_andi_i32(val, cpu_fpscr, 0x003fffff);
 	    addr = tcg_temp_new();
 	    tcg_gen_subi_i32(addr, REG(B11_8), 4);
-            tcg_gen_qemu_st_i32(val, addr, ctx->memidx, MO_TEUL);
+            tcg_gen_qemu_st_i32(val, addr, ctx->memidx, MO_TEUL | MO_ALIGN);
 	    tcg_gen_mov_i32(REG(B11_8), addr);
 	}
 	return;
     case 0x00c3:		/* movca.l R0,@Rm */
         {
             TCGv val = tcg_temp_new();
-            tcg_gen_qemu_ld_i32(val, REG(B11_8), ctx->memidx, MO_TEUL);
+            tcg_gen_qemu_ld_i32(val, REG(B11_8), ctx->memidx,
+                                MO_TEUL | MO_ALIGN);
             gen_helper_movcal(cpu_env, REG(B11_8), val);
-            tcg_gen_qemu_st_i32(REG(0), REG(B11_8), ctx->memidx, MO_TEUL);
+            tcg_gen_qemu_st_i32(REG(0), REG(B11_8), ctx->memidx,
+                                MO_TEUL | MO_ALIGN);
         }
         ctx->has_movcal = 1;
 	return;
@@ -XXX,XX +XXX,XX @@ static void _decode_opc(DisasContext * ctx)
                                    cpu_lock_addr, fail);
                 tmp = tcg_temp_new();
                 tcg_gen_atomic_cmpxchg_i32(tmp, REG(B11_8), cpu_lock_value,
-                                           REG(0), ctx->memidx, MO_TEUL);
+                                           REG(0), ctx->memidx,
+                                           MO_TEUL | MO_ALIGN);
                 tcg_gen_setcond_i32(TCG_COND_EQ, cpu_sr_t, tmp, cpu_lock_value);
             } else {
                 tcg_gen_brcondi_i32(TCG_COND_EQ, cpu_lock_addr, -1, fail);
-                tcg_gen_qemu_st_i32(REG(0), REG(B11_8), ctx->memidx, MO_TEUL);
+                tcg_gen_qemu_st_i32(REG(0), REG(B11_8), ctx->memidx,
+                                    MO_TEUL | MO_ALIGN);
                 tcg_gen_movi_i32(cpu_sr_t, 1);
             }
             tcg_gen_br(done);
@@ -XXX,XX +XXX,XX @@ static void _decode_opc(DisasContext * ctx)
         if ((tb_cflags(ctx->base.tb) & CF_PARALLEL)) {
             TCGv tmp = tcg_temp_new();
             tcg_gen_mov_i32(tmp, REG(B11_8));
-            tcg_gen_qemu_ld_i32(REG(0), REG(B11_8), ctx->memidx, MO_TESL);
+            tcg_gen_qemu_ld_i32(REG(0), REG(B11_8), ctx->memidx,
+                                MO_TESL | MO_ALIGN);
             tcg_gen_mov_i32(cpu_lock_value, REG(0));
             tcg_gen_mov_i32(cpu_lock_addr, tmp);
         } else {
-            tcg_gen_qemu_ld_i32(REG(0), REG(B11_8), ctx->memidx, MO_TESL);
+            tcg_gen_qemu_ld_i32(REG(0), REG(B11_8), ctx->memidx,
+                                MO_TESL | MO_ALIGN);
             tcg_gen_movi_i32(cpu_lock_addr, 0);
         }
         return;
-- 
2.34.1

Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 configs/targets/sh4-linux-user.mak   | 1 -
 configs/targets/sh4-softmmu.mak      | 1 -
 configs/targets/sh4eb-linux-user.mak | 1 -
 configs/targets/sh4eb-softmmu.mak    | 1 -
 4 files changed, 4 deletions(-)

diff --git a/configs/targets/sh4-linux-user.mak b/configs/targets/sh4-linux-user.mak
index XXXXXXX..XXXXXXX 100644
--- a/configs/targets/sh4-linux-user.mak
+++ b/configs/targets/sh4-linux-user.mak
@@ -XXX,XX +XXX,XX @@
 TARGET_ARCH=sh4
 TARGET_SYSTBL_ABI=common
 TARGET_SYSTBL=syscall.tbl
-TARGET_ALIGNED_ONLY=y
 TARGET_HAS_BFLT=y
diff --git a/configs/targets/sh4-softmmu.mak b/configs/targets/sh4-softmmu.mak
index XXXXXXX..XXXXXXX 100644
--- a/configs/targets/sh4-softmmu.mak
+++ b/configs/targets/sh4-softmmu.mak
@@ -1,2 +1 @@
 TARGET_ARCH=sh4
-TARGET_ALIGNED_ONLY=y
diff --git a/configs/targets/sh4eb-linux-user.mak b/configs/targets/sh4eb-linux-user.mak
index XXXXXXX..XXXXXXX 100644
--- a/configs/targets/sh4eb-linux-user.mak
+++ b/configs/targets/sh4eb-linux-user.mak
@@ -XXX,XX +XXX,XX @@
 TARGET_ARCH=sh4
 TARGET_SYSTBL_ABI=common
 TARGET_SYSTBL=syscall.tbl
-TARGET_ALIGNED_ONLY=y
 TARGET_BIG_ENDIAN=y
 TARGET_HAS_BFLT=y
diff --git a/configs/targets/sh4eb-softmmu.mak b/configs/targets/sh4eb-softmmu.mak
index XXXXXXX..XXXXXXX 100644
--- a/configs/targets/sh4eb-softmmu.mak
+++ b/configs/targets/sh4eb-softmmu.mak
@@ -XXX,XX +XXX,XX @@
 TARGET_ARCH=sh4
-TARGET_ALIGNED_ONLY=y
 TARGET_BIG_ENDIAN=y
-- 
2.34.1

All uses have now been expunged.

Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 include/exec/memop.h  | 13 ++-----------
 include/exec/poison.h |  1 -
 tcg/tcg.c             |  5 -----
 3 files changed, 2 insertions(+), 17 deletions(-)

diff --git a/include/exec/memop.h b/include/exec/memop.h
index XXXXXXX..XXXXXXX 100644
--- a/include/exec/memop.h
+++ b/include/exec/memop.h
@@ -XXX,XX +XXX,XX @@ typedef enum MemOp {
      * MO_UNALN accesses are never checked for alignment.
      * MO_ALIGN accesses will result in a call to the CPU's
      * do_unaligned_access hook if the guest address is not aligned.
-     * The default depends on whether the target CPU defines
-     * TARGET_ALIGNED_ONLY.
      *
      * Some architectures (e.g. ARMv8) need the address which is aligned
      * to a size more than the size of the memory access.
@@ -XXX,XX +XXX,XX @@ typedef enum MemOp {
      */
     MO_ASHIFT = 5,
     MO_AMASK = 0x7 << MO_ASHIFT,
-#ifdef NEED_CPU_H
-#ifdef TARGET_ALIGNED_ONLY
-    MO_ALIGN = 0,
-    MO_UNALN = MO_AMASK,
-#else
-    MO_ALIGN = MO_AMASK,
-    MO_UNALN = 0,
-#endif
-#endif
+    MO_UNALN    = 0,
     MO_ALIGN_2  = 1 << MO_ASHIFT,
     MO_ALIGN_4  = 2 << MO_ASHIFT,
     MO_ALIGN_8  = 3 << MO_ASHIFT,
     MO_ALIGN_16 = 4 << MO_ASHIFT,
     MO_ALIGN_32 = 5 << MO_ASHIFT,
     MO_ALIGN_64 = 6 << MO_ASHIFT,
+    MO_ALIGN    = MO_AMASK,
 
     /* Combinations of the above, for ease of use.  */
     MO_UB    = MO_8,
diff --git a/include/exec/poison.h b/include/exec/poison.h
index XXXXXXX..XXXXXXX 100644
--- a/include/exec/poison.h
+++ b/include/exec/poison.h
@@ -XXX,XX +XXX,XX @@
 #pragma GCC poison TARGET_TRICORE
 #pragma GCC poison TARGET_XTENSA
 
-#pragma GCC poison TARGET_ALIGNED_ONLY
 #pragma GCC poison TARGET_HAS_BFLT
 #pragma GCC poison TARGET_NAME
 #pragma GCC poison TARGET_SUPPORTS_MTTCG
diff --git a/tcg/tcg.c b/tcg/tcg.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/tcg.c
+++ b/tcg/tcg.c
@@ -XXX,XX +XXX,XX @@ static const char * const ldst_name[] =
 };
 
 static const char * const alignment_name[(MO_AMASK >> MO_ASHIFT) + 1] = {
-#ifdef TARGET_ALIGNED_ONLY
     [MO_UNALN >> MO_ASHIFT]    = "un+",
-    [MO_ALIGN >> MO_ASHIFT]    = "",
-#else
-    [MO_UNALN >> MO_ASHIFT]    = "",
     [MO_ALIGN >> MO_ASHIFT]    = "al+",
-#endif
     [MO_ALIGN_2 >> MO_ASHIFT]  = "al2+",
     [MO_ALIGN_4 >> MO_ASHIFT]  = "al4+",
     [MO_ALIGN_8 >> MO_ASHIFT]  = "al8+",
-- 
2.34.1

Like cpu_in_exclusive_context, but also true if
there is no other cpu against which we could race.

Use it in tb_flush as a direct replacement.
Use it in cpu_loop_exit_atomic to ensure that there
is no loop against cpu_exec_step_atomic.

Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 accel/tcg/internal.h        | 9 +++++++++
 accel/tcg/cpu-exec-common.c | 3 +++
 accel/tcg/tb-maint.c        | 2 +-
 3 files changed, 13 insertions(+), 1 deletion(-)

diff --git a/accel/tcg/internal.h b/accel/tcg/internal.h
index XXXXXXX..XXXXXXX 100644
--- a/accel/tcg/internal.h
+++ b/accel/tcg/internal.h
@@ -XXX,XX +XXX,XX @@ static inline target_ulong log_pc(CPUState *cpu, const TranslationBlock *tb)
     }
 }
 
+/*
+ * Return true if CS is not running in parallel with other cpus, either
+ * because there are no other cpus or we are within an exclusive context.
+ */
+static inline bool cpu_in_serial_context(CPUState *cs)
+{
+    return !(cs->tcg_cflags & CF_PARALLEL) || cpu_in_exclusive_context(cs);
+}
+
 extern int64_t max_delay;
 extern int64_t max_advance;
 
diff --git a/accel/tcg/cpu-exec-common.c b/accel/tcg/cpu-exec-common.c
index XXXXXXX..XXXXXXX 100644
--- a/accel/tcg/cpu-exec-common.c
+++ b/accel/tcg/cpu-exec-common.c
@@ -XXX,XX +XXX,XX @@
 #include "sysemu/tcg.h"
 #include "exec/exec-all.h"
 #include "qemu/plugin.h"
+#include "internal.h"
 
 bool tcg_allowed;
 
@@ -XXX,XX +XXX,XX @@ void cpu_loop_exit_restore(CPUState *cpu, uintptr_t pc)
 
 void cpu_loop_exit_atomic(CPUState *cpu, uintptr_t pc)
 {
+    /* Prevent looping if already executing in a serial context. */
+    g_assert(!cpu_in_serial_context(cpu));
     cpu->exception_index = EXCP_ATOMIC;
     cpu_loop_exit_restore(cpu, pc);
 }
diff --git a/accel/tcg/tb-maint.c b/accel/tcg/tb-maint.c
index XXXXXXX..XXXXXXX 100644
--- a/accel/tcg/tb-maint.c
+++ b/accel/tcg/tb-maint.c
@@ -XXX,XX +XXX,XX @@ void tb_flush(CPUState *cpu)
     if (tcg_enabled()) {
         unsigned tb_flush_count = qatomic_read(&tb_ctx.tb_flush_count);
 
-        if (cpu_in_exclusive_context(cpu)) {
+        if (cpu_in_serial_context(cpu)) {
             do_tb_flush(cpu, RUN_ON_CPU_HOST_INT(tb_flush_count));
         } else {
             async_safe_run_on_cpu(cpu, do_tb_flush,
-- 
2.34.1

Instead of playing with offsetof in various places, use
MMUAccessType to index an array.  This is easily defined
instead of the previous dummy padding array in the union.

Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 include/exec/cpu-defs.h |   7 ++-
 include/exec/cpu_ldst.h |  26 ++++++++--
 accel/tcg/cputlb.c      | 104 +++++++++++++---------------------------
 3 files changed, 59 insertions(+), 78 deletions(-)

diff --git a/include/exec/cpu-defs.h b/include/exec/cpu-defs.h
index XXXXXXX..XXXXXXX 100644
--- a/include/exec/cpu-defs.h
+++ b/include/exec/cpu-defs.h
@@ -XXX,XX +XXX,XX @@ typedef struct CPUTLBEntry {
                use the corresponding iotlb value.  */
             uintptr_t addend;
         };
-        /* padding to get a power of two size */
-        uint8_t dummy[1 << CPU_TLB_ENTRY_BITS];
+        /*
+         * Padding to get a power of two size, as well as index
+         * access to addr_{read,write,code}.
+         */
+        target_ulong addr_idx[(1 << CPU_TLB_ENTRY_BITS) / TARGET_LONG_SIZE];
     };
 } CPUTLBEntry;
 
diff --git a/include/exec/cpu_ldst.h b/include/exec/cpu_ldst.h
index XXXXXXX..XXXXXXX 100644
--- a/include/exec/cpu_ldst.h
+++ b/include/exec/cpu_ldst.h
@@ -XXX,XX +XXX,XX @@ static inline void clear_helper_retaddr(void)
 /* Needed for TCG_OVERSIZED_GUEST */
 #include "tcg/tcg.h"
 
+static inline target_ulong tlb_read_idx(const CPUTLBEntry *entry,
+                                        MMUAccessType access_type)
+{
+    /* Do not rearrange the CPUTLBEntry structure members. */
+    QEMU_BUILD_BUG_ON(offsetof(CPUTLBEntry, addr_read) !=
+                      MMU_DATA_LOAD * TARGET_LONG_SIZE);
+    QEMU_BUILD_BUG_ON(offsetof(CPUTLBEntry, addr_write) !=
+                      MMU_DATA_STORE * TARGET_LONG_SIZE);
+    QEMU_BUILD_BUG_ON(offsetof(CPUTLBEntry, addr_code) !=
+                      MMU_INST_FETCH * TARGET_LONG_SIZE);
+
+    const target_ulong *ptr = &entry->addr_idx[access_type];
+#if TCG_OVERSIZED_GUEST
+    return *ptr;
+#else
+    /* ofs might correspond to .addr_write, so use qatomic_read */
+    return qatomic_read(ptr);
+#endif
+}
+
 static inline target_ulong tlb_addr_write(const CPUTLBEntry *entry)
 {
-#if TCG_OVERSIZED_GUEST
-    return entry->addr_write;
-#else
-    return qatomic_read(&entry->addr_write);
-#endif
+    return tlb_read_idx(entry, MMU_DATA_STORE);
 }
 
 /* Find the TLB index corresponding to the mmu_idx + address pair.  */
diff --git a/accel/tcg/cputlb.c b/accel/tcg/cputlb.c
index XXXXXXX..XXXXXXX 100644
--- a/accel/tcg/cputlb.c
+++ b/accel/tcg/cputlb.c
@@ -XXX,XX +XXX,XX @@ static void io_writex(CPUArchState *env, CPUTLBEntryFull *full,
     }
 }
 
-static inline target_ulong tlb_read_ofs(CPUTLBEntry *entry, size_t ofs)
-{
-#if TCG_OVERSIZED_GUEST
-    return *(target_ulong *)((uintptr_t)entry + ofs);
-#else
-    /* ofs might correspond to .addr_write, so use qatomic_read */
-    return qatomic_read((target_ulong *)((uintptr_t)entry + ofs));
-#endif
-}
-
 /* Return true if ADDR is present in the victim tlb, and has been copied
    back to the main tlb.  */
 static bool victim_tlb_hit(CPUArchState *env, size_t mmu_idx, size_t index,
-                           size_t elt_ofs, target_ulong page)
+                           MMUAccessType access_type, target_ulong page)
 {
     size_t vidx;
 
     assert_cpu_is_self(env_cpu(env));
     for (vidx = 0; vidx < CPU_VTLB_SIZE; ++vidx) {
         CPUTLBEntry *vtlb = &env_tlb(env)->d[mmu_idx].vtable[vidx];
-        target_ulong cmp;
-
-        /* elt_ofs might correspond to .addr_write, so use qatomic_read */
-#if TCG_OVERSIZED_GUEST
-        cmp = *(target_ulong *)((uintptr_t)vtlb + elt_ofs);
-#else
-        cmp = qatomic_read((target_ulong *)((uintptr_t)vtlb + elt_ofs));
-#endif
+        target_ulong cmp = tlb_read_idx(vtlb, access_type);
 
         if (cmp == page) {
             /* Found entry in victim tlb, swap tlb and iotlb.  */
@@ -XXX,XX +XXX,XX @@ static bool victim_tlb_hit(CPUArchState *env, size_t mmu_idx, size_t index,
     return false;
 }
 
-/* Macro to call the above, with local variables from the use context.  */
-#define VICTIM_TLB_HIT(TY, ADDR) \
-  victim_tlb_hit(env, mmu_idx, index, offsetof(CPUTLBEntry, TY), \
-                 (ADDR) & TARGET_PAGE_MASK)
-
 static void notdirty_write(CPUState *cpu, vaddr mem_vaddr, unsigned size,
                            CPUTLBEntryFull *full, uintptr_t retaddr)
 {
@@ -XXX,XX +XXX,XX @@ static int probe_access_internal(CPUArchState *env, target_ulong addr,
 {
     uintptr_t index = tlb_index(env, mmu_idx, addr);
     CPUTLBEntry *entry = tlb_entry(env, mmu_idx, addr);
-    target_ulong tlb_addr, page_addr;
-    size_t elt_ofs;
-    int flags;
+    target_ulong tlb_addr = tlb_read_idx(entry, access_type);
+    target_ulong page_addr = addr & TARGET_PAGE_MASK;
+    int flags = TLB_FLAGS_MASK;
 
-    switch (access_type) {
-    case MMU_DATA_LOAD:
-        elt_ofs = offsetof(CPUTLBEntry, addr_read);
-        break;
-    case MMU_DATA_STORE:
-        elt_ofs = offsetof(CPUTLBEntry, addr_write);
-        break;
-    case MMU_INST_FETCH:
-        elt_ofs = offsetof(CPUTLBEntry, addr_code);
-        break;
-    default:
-        g_assert_not_reached();
-    }
-    tlb_addr = tlb_read_ofs(entry, elt_ofs);
-
-    flags = TLB_FLAGS_MASK;
-    page_addr = addr & TARGET_PAGE_MASK;
     if (!tlb_hit_page(tlb_addr, page_addr)) {
-        if (!victim_tlb_hit(env, mmu_idx, index, elt_ofs, page_addr)) {
+        if (!victim_tlb_hit(env, mmu_idx, index, access_type, page_addr)) {
             CPUState *cs = env_cpu(env);
 
             if (!cs->cc->tcg_ops->tlb_fill(cs, addr, fault_size, access_type,
@@ -XXX,XX +XXX,XX @@ static int probe_access_internal(CPUArchState *env, target_ulong addr,
              */
             flags &= ~TLB_INVALID_MASK;
         }
-        tlb_addr = tlb_read_ofs(entry, elt_ofs);
+        tlb_addr = tlb_read_idx(entry, access_type);
     }
     flags &= tlb_addr;
 
@@ -XXX,XX +XXX,XX @@ static void *atomic_mmu_lookup(CPUArchState *env, target_ulong addr,
     if (prot & PAGE_WRITE) {
         tlb_addr = tlb_addr_write(tlbe);
         if (!tlb_hit(tlb_addr, addr)) {
-            if (!VICTIM_TLB_HIT(addr_write, addr)) {
+            if (!victim_tlb_hit(env, mmu_idx, index, MMU_DATA_STORE,
+                                addr & TARGET_PAGE_MASK)) {
                 tlb_fill(env_cpu(env), addr, size,
                          MMU_DATA_STORE, mmu_idx, retaddr);
                 index = tlb_index(env, mmu_idx, addr);
@@ -XXX,XX +XXX,XX @@ static void *atomic_mmu_lookup(CPUArchState *env, target_ulong addr,
     } else /* if (prot & PAGE_READ) */ {
         tlb_addr = tlbe->addr_read;
         if (!tlb_hit(tlb_addr, addr)) {
-            if (!VICTIM_TLB_HIT(addr_read, addr)) {
+            if (!victim_tlb_hit(env, mmu_idx, index, MMU_DATA_LOAD,
+                                addr & TARGET_PAGE_MASK)) {
                 tlb_fill(env_cpu(env), addr, size,
                          MMU_DATA_LOAD, mmu_idx, retaddr);
                 index = tlb_index(env, mmu_idx, addr);
@@ -XXX,XX +XXX,XX @@ load_memop(const void *haddr, MemOp op)
 
 static inline uint64_t QEMU_ALWAYS_INLINE
 load_helper(CPUArchState *env, target_ulong addr, MemOpIdx oi,
-            uintptr_t retaddr, MemOp op, bool code_read,
+            uintptr_t retaddr, MemOp op, MMUAccessType access_type,
             FullLoadHelper *full_load)
 {
-    const size_t tlb_off = code_read ?
-        offsetof(CPUTLBEntry, addr_code) : offsetof(CPUTLBEntry, addr_read);
-    const MMUAccessType access_type =
-        code_read ? MMU_INST_FETCH : MMU_DATA_LOAD;
     const unsigned a_bits = get_alignment_bits(get_memop(oi));
     const size_t size = memop_size(op);
     uintptr_t mmu_idx = get_mmuidx(oi);
@@ -XXX,XX +XXX,XX @@ load_helper(CPUArchState *env, target_ulong addr, MemOpIdx oi,
 
     index = tlb_index(env, mmu_idx, addr);
     entry = tlb_entry(env, mmu_idx, addr);
-    tlb_addr = code_read ? entry->addr_code : entry->addr_read;
+    tlb_addr = tlb_read_idx(entry, access_type);
 
     /* If the TLB entry is for a different page, reload and try again.  */
     if (!tlb_hit(tlb_addr, addr)) {
-        if (!victim_tlb_hit(env, mmu_idx, index, tlb_off,
+        if (!victim_tlb_hit(env, mmu_idx, index, access_type,
                             addr & TARGET_PAGE_MASK)) {
             tlb_fill(env_cpu(env), addr, size,
                      access_type, mmu_idx, retaddr);
             index = tlb_index(env, mmu_idx, addr);
             entry = tlb_entry(env, mmu_idx, addr);
         }
-        tlb_addr = code_read ? entry->addr_code : entry->addr_read;
+        tlb_addr = tlb_read_idx(entry, access_type);
         tlb_addr &= ~TLB_INVALID_MASK;
     }
 
@@ -XXX,XX +XXX,XX @@ static uint64_t full_ldub_mmu(CPUArchState *env, target_ulong addr,
                               MemOpIdx oi, uintptr_t retaddr)
 {
     validate_memop(oi, MO_UB);
-    return load_helper(env, addr, oi, retaddr, MO_UB, false, full_ldub_mmu);
+    return load_helper(env, addr, oi, retaddr, MO_UB, MMU_DATA_LOAD,
+                       full_ldub_mmu);
 }
 
 tcg_target_ulong helper_ret_ldub_mmu(CPUArchState *env, target_ulong addr,
@@ -XXX,XX +XXX,XX @@ static uint64_t full_le_lduw_mmu(CPUArchState *env, target_ulong addr,
                                  MemOpIdx oi, uintptr_t retaddr)
 {
     validate_memop(oi, MO_LEUW);
-    return load_helper(env, addr, oi, retaddr, MO_LEUW, false,
+    return load_helper(env, addr, oi, retaddr, MO_LEUW, MMU_DATA_LOAD,
                        full_le_lduw_mmu);
 }
 
@@ -XXX,XX +XXX,XX @@ static uint64_t full_be_lduw_mmu(CPUArchState *env, target_ulong addr,
                                  MemOpIdx oi, uintptr_t retaddr)
 {
     validate_memop(oi, MO_BEUW);
-    return load_helper(env, addr, oi, retaddr, MO_BEUW, false,
+    return load_helper(env, addr, oi, retaddr, MO_BEUW, MMU_DATA_LOAD,
                        full_be_lduw_mmu);
 }
 
@@ -XXX,XX +XXX,XX @@ static uint64_t full_le_ldul_mmu(CPUArchState *env, target_ulong addr,
                                  MemOpIdx oi, uintptr_t retaddr)
 {
     validate_memop(oi, MO_LEUL);
-    return load_helper(env, addr, oi, retaddr, MO_LEUL, false,
+    return load_helper(env, addr, oi, retaddr, MO_LEUL, MMU_DATA_LOAD,
                        full_le_ldul_mmu);
 }
 
@@ -XXX,XX +XXX,XX @@ static uint64_t full_be_ldul_mmu(CPUArchState *env, target_ulong addr,
                                  MemOpIdx oi, uintptr_t retaddr)
 {
     validate_memop(oi, MO_BEUL);
-    return load_helper(env, addr, oi, retaddr, MO_BEUL, false,
+    return load_helper(env, addr, oi, retaddr, MO_BEUL, MMU_DATA_LOAD,
                        full_be_ldul_mmu);
 }
 
@@ -XXX,XX +XXX,XX @@ uint64_t helper_le_ldq_mmu(CPUArchState *env, target_ulong addr,
                            MemOpIdx oi, uintptr_t retaddr)
 {
     validate_memop(oi, MO_LEUQ);
-    return load_helper(env, addr, oi, retaddr, MO_LEUQ, false,
+    return load_helper(env, addr, oi, retaddr, MO_LEUQ, MMU_DATA_LOAD,
                        helper_le_ldq_mmu);
 }
 
@@ -XXX,XX +XXX,XX @@ uint64_t helper_be_ldq_mmu(CPUArchState *env, target_ulong addr,
                            MemOpIdx oi, uintptr_t retaddr)
 {
     validate_memop(oi, MO_BEUQ);
-    return load_helper(env, addr, oi, retaddr, MO_BEUQ, false,
+    return load_helper(env, addr, oi, retaddr, MO_BEUQ, MMU_DATA_LOAD,
                        helper_be_ldq_mmu);
 }
 
@@ -XXX,XX +XXX,XX @@ store_helper_unaligned(CPUArchState *env, target_ulong addr, uint64_t val,
                        uintptr_t retaddr, size_t size, uintptr_t mmu_idx,
                        bool big_endian)
 {
-    const size_t tlb_off = offsetof(CPUTLBEntry, addr_write);
     uintptr_t index, index2;
     CPUTLBEntry *entry, *entry2;
     target_ulong page1, page2, tlb_addr, tlb_addr2;
@@ -XXX,XX +XXX,XX @@ store_helper_unaligned(CPUArchState *env, target_ulong addr, uint64_t val,
 
     tlb_addr2 = tlb_addr_write(entry2);
     if (page1 != page2 && !tlb_hit_page(tlb_addr2, page2)) {
-        if (!victim_tlb_hit(env, mmu_idx, index2, tlb_off, page2)) {
+        if (!victim_tlb_hit(env, mmu_idx, index2, MMU_DATA_STORE, page2)) {
             tlb_fill(env_cpu(env), page2, size2, MMU_DATA_STORE,
                      mmu_idx, retaddr);
             index2 = tlb_index(env, mmu_idx, page2);
@@ -XXX,XX +XXX,XX @@ static inline void QEMU_ALWAYS_INLINE
 store_helper(CPUArchState *env, target_ulong addr, uint64_t val,
              MemOpIdx oi, uintptr_t retaddr, MemOp op)
 {
-    const size_t tlb_off = offsetof(CPUTLBEntry, addr_write);
     const unsigned a_bits = get_alignment_bits(get_memop(oi));
     const size_t size = memop_size(op);
     uintptr_t mmu_idx = get_mmuidx(oi);
@@ -XXX,XX +XXX,XX @@ store_helper(CPUArchState *env, target_ulong addr, uint64_t val,
 
     /* If the TLB entry is for a different page, reload and try again.  */
     if (!tlb_hit(tlb_addr, addr)) {
-        if (!victim_tlb_hit(env, mmu_idx, index, tlb_off,
+        if (!victim_tlb_hit(env, mmu_idx, index, MMU_DATA_STORE,
             addr & TARGET_PAGE_MASK)) {
             tlb_fill(env_cpu(env), addr, size, MMU_DATA_STORE,
                      mmu_idx, retaddr);
@@ -XXX,XX +XXX,XX @@ void cpu_st16_le_mmu(CPUArchState *env, abi_ptr addr, Int128 val,
 static uint64_t full_ldub_code(CPUArchState *env, target_ulong addr,
                                MemOpIdx oi, uintptr_t retaddr)
 {
-    return load_helper(env, addr, oi, retaddr, MO_8, true, full_ldub_code);
+    return load_helper(env, addr, oi, retaddr, MO_8,
+                       MMU_INST_FETCH, full_ldub_code);
 }
 
 uint32_t cpu_ldub_code(CPUArchState *env, abi_ptr addr)
@@ -XXX,XX +XXX,XX @@ uint32_t cpu_ldub_code(CPUArchState *env, abi_ptr addr)
 static uint64_t full_lduw_code(CPUArchState *env, target_ulong addr,
                                MemOpIdx oi, uintptr_t retaddr)
 {
-    return load_helper(env, addr, oi, retaddr, MO_TEUW, true, full_lduw_code);
+    return load_helper(env, addr, oi, retaddr, MO_TEUW,
+                       MMU_INST_FETCH, full_lduw_code);
 }
 
 uint32_t cpu_lduw_code(CPUArchState *env, abi_ptr addr)
@@ -XXX,XX +XXX,XX @@ uint32_t cpu_lduw_code(CPUArchState *env, abi_ptr addr)
 static uint64_t full_ldl_code(CPUArchState *env, target_ulong addr,
                               MemOpIdx oi, uintptr_t retaddr)
 {
-    return load_helper(env, addr, oi, retaddr, MO_TEUL, true, full_ldl_code);
+    return load_helper(env, addr, oi, retaddr, MO_TEUL,
+                       MMU_INST_FETCH, full_ldl_code);
 }
 
 uint32_t cpu_ldl_code(CPUArchState *env, abi_ptr addr)
@@ -XXX,XX +XXX,XX @@ uint32_t cpu_ldl_code(CPUArchState *env, abi_ptr addr)
 static uint64_t full_ldq_code(CPUArchState *env, target_ulong addr,
                               MemOpIdx oi, uintptr_t retaddr)
 {
-    return load_helper(env, addr, oi, retaddr, MO_TEUQ, true, full_ldq_code);
+    return load_helper(env, addr, oi, retaddr, MO_TEUQ,
+                       MMU_INST_FETCH, full_ldq_code);
 }
 
 uint64_t cpu_ldq_code(CPUArchState *env, abi_ptr addr)
-- 
2.34.1

Instead of trying to unify all operations on uint64_t, pull out
mmu_lookup() to perform the basic tlb hit and resolution.
Create individual functions to handle access by size.

Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 accel/tcg/cputlb.c | 645 +++++++++++++++++++++++++++++----------------
 1 file changed, 424 insertions(+), 221 deletions(-)

diff --git a/accel/tcg/cputlb.c b/accel/tcg/cputlb.c
index XXXXXXX..XXXXXXX 100644
--- a/accel/tcg/cputlb.c
+++ b/accel/tcg/cputlb.c
@@ -XXX,XX +XXX,XX @@ bool tlb_plugin_lookup(CPUState *cpu, target_ulong addr, int mmu_idx,
 
 #endif
 
+/*
+ * Probe for a load/store operation.
+ * Return the host address and into @flags.
+ */
+
+typedef struct MMULookupPageData {
+    CPUTLBEntryFull *full;
+    void *haddr;
+    target_ulong addr;
+    int flags;
+    int size;
+} MMULookupPageData;
+
+typedef struct MMULookupLocals {
+    MMULookupPageData page[2];
+    MemOp memop;
+    int mmu_idx;
+} MMULookupLocals;
+
+/**
+ * mmu_lookup1: translate one page
+ * @env: cpu context
+ * @data: lookup parameters
+ * @mmu_idx: virtual address context
+ * @access_type: load/store/code
+ * @ra: return address into tcg generated code, or 0
+ *
+ * Resolve the translation for the one page at @data.addr, filling in
+ * the rest of @data with the results.  If the translation fails,
+ * tlb_fill will longjmp out.  Return true if the softmmu tlb for
+ * @mmu_idx may have resized.
+ */
+static bool mmu_lookup1(CPUArchState *env, MMULookupPageData *data,
+                        int mmu_idx, MMUAccessType access_type, uintptr_t ra)
+{
+    target_ulong addr = data->addr;
+    uintptr_t index = tlb_index(env, mmu_idx, addr);
+    CPUTLBEntry *entry = tlb_entry(env, mmu_idx, addr);
+    target_ulong tlb_addr = tlb_read_idx(entry, access_type);
+    bool maybe_resized = false;
+
+    /* If the TLB entry is for a different page, reload and try again.  */
+    if (!tlb_hit(tlb_addr, addr)) {
+        if (!victim_tlb_hit(env, mmu_idx, index, access_type,
+                            addr & TARGET_PAGE_MASK)) {
+            tlb_fill(env_cpu(env), addr, data->size, access_type, mmu_idx, ra);
+            maybe_resized = true;
+            index = tlb_index(env, mmu_idx, addr);
+            entry = tlb_entry(env, mmu_idx, addr);
+        }
+        tlb_addr = tlb_read_idx(entry, access_type) & ~TLB_INVALID_MASK;
+    }
+
+    data->flags = tlb_addr & TLB_FLAGS_MASK;
+    data->full = &env_tlb(env)->d[mmu_idx].fulltlb[index];
+    /* Compute haddr speculatively; depending on flags it might be invalid. */
+    data->haddr = (void *)((uintptr_t)addr + entry->addend);
+
+    return maybe_resized;
+}
+
+/**
+ * mmu_watch_or_dirty
+ * @env: cpu context
+ * @data: lookup parameters
+ * @access_type: load/store/code
+ * @ra: return address into tcg generated code, or 0
+ *
+ * Trigger watchpoints for @data.addr:@data.size;
+ * record writes to protected clean pages.
+ */
+static void mmu_watch_or_dirty(CPUArchState *env, MMULookupPageData *data,
+                               MMUAccessType access_type, uintptr_t ra)
+{
+    CPUTLBEntryFull *full = data->full;
+    target_ulong addr = data->addr;
+    int flags = data->flags;
+    int size = data->size;
+
+    /* On watchpoint hit, this will longjmp out.  */
+    if (flags & TLB_WATCHPOINT) {
+        int wp = access_type == MMU_DATA_STORE ? BP_MEM_WRITE : BP_MEM_READ;
+        cpu_check_watchpoint(env_cpu(env), addr, size, full->attrs, wp, ra);
+        flags &= ~TLB_WATCHPOINT;
+    }
+
+    /* Note that notdirty is only set for writes. */
+    if (flags & TLB_NOTDIRTY) {
+        notdirty_write(env_cpu(env), addr, size, full, ra);
+        flags &= ~TLB_NOTDIRTY;
+    }
+    data->flags = flags;
+}
+
+/**
+ * mmu_lookup: translate page(s)
+ * @env: cpu context
+ * @addr: virtual address
+ * @oi: combined mmu_idx and MemOp
+ * @ra: return address into tcg generated code, or 0
+ * @access_type: load/store/code
+ * @l: output result
+ *
+ * Resolve the translation for the page(s) beginning at @addr, for MemOp.size
+ * bytes.  Return true if the lookup crosses a page boundary.
+ */
+static bool mmu_lookup(CPUArchState *env, target_ulong addr, MemOpIdx oi,
+                       uintptr_t ra, MMUAccessType type, MMULookupLocals *l)
+{
+    unsigned a_bits;
+    bool crosspage;
+    int flags;
+
+    l->memop = get_memop(oi);
+    l->mmu_idx = get_mmuidx(oi);
+
+    tcg_debug_assert(l->mmu_idx < NB_MMU_MODES);
+
+    /* Handle CPU specific unaligned behaviour */
+    a_bits = get_alignment_bits(l->memop);
+    if (addr & ((1 << a_bits) - 1)) {
+        cpu_unaligned_access(env_cpu(env), addr, type, l->mmu_idx, ra);
+    }
+
+    l->page[0].addr = addr;
+    l->page[0].size = memop_size(l->memop);
+    l->page[1].addr = (addr + l->page[0].size - 1) & TARGET_PAGE_MASK;
+    l->page[1].size = 0;
+    crosspage = (addr ^ l->page[1].addr) & TARGET_PAGE_MASK;
+
+    if (likely(!crosspage)) {
+        mmu_lookup1(env, &l->page[0], l->mmu_idx, type, ra);
+
+        flags = l->page[0].flags;
+        if (unlikely(flags & (TLB_WATCHPOINT | TLB_NOTDIRTY))) {
+            mmu_watch_or_dirty(env, &l->page[0], type, ra);
+        }
+        if (unlikely(flags & TLB_BSWAP)) {
+            l->memop ^= MO_BSWAP;
+        }
+    } else {
+        /* Finish compute of page crossing. */
+        int size0 = l->page[1].addr - addr;
+        l->page[1].size = l->page[0].size - size0;
+        l->page[0].size = size0;
+
+        /*
+         * Lookup both pages, recognizing exceptions from either.  If the
+         * second lookup potentially resized, refresh first CPUTLBEntryFull.
+         */
+        mmu_lookup1(env, &l->page[0], l->mmu_idx, type, ra);
+        if (mmu_lookup1(env, &l->page[1], l->mmu_idx, type, ra)) {
+            uintptr_t index = tlb_index(env, l->mmu_idx, addr);
+            l->page[0].full = &env_tlb(env)->d[l->mmu_idx].fulltlb[index];
+        }
+
+        flags = l->page[0].flags | l->page[1].flags;
+        if (unlikely(flags & (TLB_WATCHPOINT | TLB_NOTDIRTY))) {
+            mmu_watch_or_dirty(env, &l->page[0], type, ra);
+            mmu_watch_or_dirty(env, &l->page[1], type, ra);
+        }
+
+        /*
+         * Since target/sparc is the only user of TLB_BSWAP, and all
+         * Sparc accesses are aligned, any treatment across two pages
+         * would be arbitrary.  Refuse it until there's a use.
+         */
+        tcg_debug_assert((flags & TLB_BSWAP) == 0);
+    }
+
+    return crosspage;
+}
+
 /*
  * Probe for an atomic operation.  Do not allow unaligned operations,
  * or io operations to proceed.  Return the host address.
@@ -XXX,XX +XXX,XX @@ load_memop(const void *haddr, MemOp op)
     }
 }
 
-static inline uint64_t QEMU_ALWAYS_INLINE
-load_helper(CPUArchState *env, target_ulong addr, MemOpIdx oi,
-            uintptr_t retaddr, MemOp op, MMUAccessType access_type,
-            FullLoadHelper *full_load)
-{
-    const unsigned a_bits = get_alignment_bits(get_memop(oi));
-    const size_t size = memop_size(op);
-    uintptr_t mmu_idx = get_mmuidx(oi);
-    uintptr_t index;
-    CPUTLBEntry *entry;
-    target_ulong tlb_addr;
-    void *haddr;
-    uint64_t res;
-
-    tcg_debug_assert(mmu_idx < NB_MMU_MODES);
-
-    /* Handle CPU specific unaligned behaviour */
-    if (addr & ((1 << a_bits) - 1)) {
-        cpu_unaligned_access(env_cpu(env), addr, access_type,
-                             mmu_idx, retaddr);
-    }
-
-    index = tlb_index(env, mmu_idx, addr);
-    entry = tlb_entry(env, mmu_idx, addr);
-    tlb_addr = tlb_read_idx(entry, access_type);
-
-    /* If the TLB entry is for a different page, reload and try again.  */
-    if (!tlb_hit(tlb_addr, addr)) {
-        if (!victim_tlb_hit(env, mmu_idx, index, access_type,
-                            addr & TARGET_PAGE_MASK)) {
-            tlb_fill(env_cpu(env), addr, size,
-                     access_type, mmu_idx, retaddr);
-            index = tlb_index(env, mmu_idx, addr);
-            entry = tlb_entry(env, mmu_idx, addr);
-        }
-        tlb_addr = tlb_read_idx(entry, access_type);
-        tlb_addr &= ~TLB_INVALID_MASK;
-    }
-
-    /* Handle anything that isn't just a straight memory access.  */
-    if (unlikely(tlb_addr & ~TARGET_PAGE_MASK)) {
-        CPUTLBEntryFull *full;
-        bool need_swap;
-
-        /* For anything that is unaligned, recurse through full_load.  */
-        if ((addr & (size - 1)) != 0) {
-            goto do_unaligned_access;
-        }
-
-        full = &env_tlb(env)->d[mmu_idx].fulltlb[index];
-
-        /* Handle watchpoints.  */
-        if (unlikely(tlb_addr & TLB_WATCHPOINT)) {
-            /* On watchpoint hit, this will longjmp out.  */
-            cpu_check_watchpoint(env_cpu(env), addr, size,
-                                 full->attrs, BP_MEM_READ, retaddr);
-        }
-
-        need_swap = size > 1 && (tlb_addr & TLB_BSWAP);
-
-        /* Handle I/O access.  */
-        if (likely(tlb_addr & TLB_MMIO)) {
-            return io_readx(env, full, mmu_idx, addr, retaddr,
-                            access_type, op ^ (need_swap * MO_BSWAP));
-        }
-
-        haddr = (void *)((uintptr_t)addr + entry->addend);
-
-        /*
-         * Keep these two load_memop separate to ensure that the compiler
-         * is able to fold the entire function to a single instruction.
-         * There is a build-time assert inside to remind you of this.  ;-)
-         */
-        if (unlikely(need_swap)) {
-            return load_memop(haddr, op ^ MO_BSWAP);
-        }
-        return load_memop(haddr, op);
-    }
-
-    /* Handle slow unaligned access (it spans two pages or IO).  */
-    if (size > 1
-        && unlikely((addr & ~TARGET_PAGE_MASK) + size - 1
-                    >= TARGET_PAGE_SIZE)) {
-        target_ulong addr1, addr2;
-        uint64_t r1, r2;
-        unsigned shift;
-    do_unaligned_access:
-        addr1 = addr & ~((target_ulong)size - 1);
-        addr2 = addr1 + size;
-        r1 = full_load(env, addr1, oi, retaddr);
-        r2 = full_load(env, addr2, oi, retaddr);
-        shift = (addr & (size - 1)) * 8;
-
-        if (memop_big_endian(op)) {
-            /* Big-endian combine.  */
-            res = (r1 << shift) | (r2 >> ((size * 8) - shift));
-        } else {
-            /* Little-endian combine.  */
-            res = (r1 >> shift) | (r2 << ((size * 8) - shift));
-        }
-        return res & MAKE_64BIT_MASK(0, size * 8);
-    }
-
-    haddr = (void *)((uintptr_t)addr + entry->addend);
-    return load_memop(haddr, op);
-}
-
 /*
  * For the benefit of TCG generated code, we want to avoid the
  * complication of ABI-specific return type promotion and always
@@ -XXX,XX +XXX,XX @@ load_helper(CPUArchState *env, target_ulong addr, MemOpIdx oi,
  * We don't bother with this widened value for SOFTMMU_CODE_ACCESS.
  */
 
-static uint64_t full_ldub_mmu(CPUArchState *env, target_ulong addr,
-                              MemOpIdx oi, uintptr_t retaddr)
+/**
+ * do_ld_mmio_beN:
+ * @env: cpu context
+ * @p: translation parameters
+ * @ret_be: accumulated data
+ * @mmu_idx: virtual address context
+ * @ra: return address into tcg generated code, or 0
+ *
+ * Load @p->size bytes from @p->addr, which is memory-mapped i/o.
+ * The bytes are concatenated in big-endian order with @ret_be.
+ */
+static uint64_t do_ld_mmio_beN(CPUArchState *env, MMULookupPageData *p,
+                               uint64_t ret_be, int mmu_idx,
+                               MMUAccessType type, uintptr_t ra)
 {
-    validate_memop(oi, MO_UB);
-    return load_helper(env, addr, oi, retaddr, MO_UB, MMU_DATA_LOAD,
-                       full_ldub_mmu);
+    CPUTLBEntryFull *full = p->full;
+    target_ulong addr = p->addr;
+    int i, size = p->size;
+
+    QEMU_IOTHREAD_LOCK_GUARD();
+    for (i = 0; i < size; i++) {
+        uint8_t x = io_readx(env, full, mmu_idx, addr + i, ra, type, MO_UB);
+        ret_be = (ret_be << 8) | x;
+    }
+    return ret_be;
+}
+
+/**
+ * do_ld_bytes_beN
+ * @p: translation parameters
+ * @ret_be: accumulated data
+ *
+ * Load @p->size bytes from @p->haddr, which is RAM.
+ * The bytes to concatenated in big-endian order with @ret_be.
+ */
+static uint64_t do_ld_bytes_beN(MMULookupPageData *p, uint64_t ret_be)
+{
+    uint8_t *haddr = p->haddr;
+    int i, size = p->size;
+
+    for (i = 0; i < size; i++) {
+        ret_be = (ret_be << 8) | haddr[i];
+    }
+    return ret_be;
+}
+
+/*
+ * Wrapper for the above.
+ */
+static uint64_t do_ld_beN(CPUArchState *env, MMULookupPageData *p,
+                          uint64_t ret_be, int mmu_idx,
+                          MMUAccessType type, uintptr_t ra)
+{
+    if (unlikely(p->flags & TLB_MMIO)) {
+        return do_ld_mmio_beN(env, p, ret_be, mmu_idx, type, ra);
+    } else {
+        return do_ld_bytes_beN(p, ret_be);
+    }
+}
+
+static uint8_t do_ld_1(CPUArchState *env, MMULookupPageData *p, int mmu_idx,
+                       MMUAccessType type, uintptr_t ra)
+{
+    if (unlikely(p->flags & TLB_MMIO)) {
+        return io_readx(env, p->full, mmu_idx, p->addr, ra, type, MO_UB);
+    } else {
+        return *(uint8_t *)p->haddr;
+    }
+}
+
+static uint16_t do_ld_2(CPUArchState *env, MMULookupPageData *p, int mmu_idx,
+                        MMUAccessType type, MemOp memop, uintptr_t ra)
+{
+    uint64_t ret;
+
+    if (unlikely(p->flags & TLB_MMIO)) {
+        return io_readx(env, p->full, mmu_idx, p->addr, ra, type, memop);
+    }
+
+    /* Perform the load host endian, then swap if necessary. */
+    ret = load_memop(p->haddr, MO_UW);
+    if (memop & MO_BSWAP) {
+        ret = bswap16(ret);
+    }
+    return ret;
+}
+
+static uint32_t do_ld_4(CPUArchState *env, MMULookupPageData *p, int mmu_idx,
+                        MMUAccessType type, MemOp memop, uintptr_t ra)
+{
+    uint32_t ret;
+
+    if (unlikely(p->flags & TLB_MMIO)) {
+        return io_readx(env, p->full, mmu_idx, p->addr, ra, type, memop);
+    }
+
+    /* Perform the load host endian. */
+    ret = load_memop(p->haddr, MO_UL);
+    if (memop & MO_BSWAP) {
+        ret = bswap32(ret);
+    }
+    return ret;
+}
+
+static uint64_t do_ld_8(CPUArchState *env, MMULookupPageData *p, int mmu_idx,
+                        MMUAccessType type, MemOp memop, uintptr_t ra)
+{
+    uint64_t ret;
+
+    if (unlikely(p->flags & TLB_MMIO)) {
+        return io_readx(env, p->full, mmu_idx, p->addr, ra, type, memop);
+    }
+
+    /* Perform the load host endian. */
+    ret = load_memop(p->haddr, MO_UQ);
+    if (memop & MO_BSWAP) {
+        ret = bswap64(ret);
+    }
+    return ret;
+}
+
+static uint8_t do_ld1_mmu(CPUArchState *env, target_ulong addr, MemOpIdx oi,
+                          uintptr_t ra, MMUAccessType access_type)
+{
+    MMULookupLocals l;
+    bool crosspage;
+
+    crosspage = mmu_lookup(env, addr, oi, ra, access_type, &l);
+    tcg_debug_assert(!crosspage);
+
+    return do_ld_1(env, &l.page[0], l.mmu_idx, access_type, ra);
 }
 
 tcg_target_ulong helper_ret_ldub_mmu(CPUArchState *env, target_ulong addr,
                                      MemOpIdx oi, uintptr_t retaddr)
 {
-    return full_ldub_mmu(env, addr, oi, retaddr);
+    validate_memop(oi, MO_UB);
+    return do_ld1_mmu(env, addr, oi, retaddr, MMU_DATA_LOAD);
 }
 
-static uint64_t full_le_lduw_mmu(CPUArchState *env, target_ulong addr,
-                                 MemOpIdx oi, uintptr_t retaddr)
+static uint16_t do_ld2_mmu(CPUArchState *env, target_ulong addr, MemOpIdx oi,
+                           uintptr_t ra, MMUAccessType access_type)
 {
-    validate_memop(oi, MO_LEUW);
-    return load_helper(env, addr, oi, retaddr, MO_LEUW, MMU_DATA_LOAD,
-                       full_le_lduw_mmu);
+    MMULookupLocals l;
+    bool crosspage;
+    uint16_t ret;
+    uint8_t a, b;
+
+    crosspage = mmu_lookup(env, addr, oi, ra, access_type, &l);
+    if (likely(!crosspage)) {
+        return do_ld_2(env, &l.page[0], l.mmu_idx, access_type, l.memop, ra);
+    }
+
+    a = do_ld_1(env, &l.page[0], l.mmu_idx, access_type, ra);
+    b = do_ld_1(env, &l.page[1], l.mmu_idx, access_type, ra);
+
+    if ((l.memop & MO_BSWAP) == MO_LE) {
+        ret = a | (b << 8);
+    } else {
+        ret = b | (a << 8);
+    }
+    return ret;
 }
 
 tcg_target_ulong helper_le_lduw_mmu(CPUArchState *env, target_ulong addr,
                                     MemOpIdx oi, uintptr_t retaddr)
 {
-    return full_le_lduw_mmu(env, addr, oi, retaddr);
-}
-
-static uint64_t full_be_lduw_mmu(CPUArchState *env, target_ulong addr,
-                                 MemOpIdx oi, uintptr_t retaddr)
-{
-    validate_memop(oi, MO_BEUW);
-    return load_helper(env, addr, oi, retaddr, MO_BEUW, MMU_DATA_LOAD,
-                       full_be_lduw_mmu);
+    validate_memop(oi, MO_LEUW);
+    return do_ld2_mmu(env, addr, oi, retaddr, MMU_DATA_LOAD);
 }
 
 tcg_target_ulong helper_be_lduw_mmu(CPUArchState *env, target_ulong addr,
                                     MemOpIdx oi, uintptr_t retaddr)
 {
-    return full_be_lduw_mmu(env, addr, oi, retaddr);
+    validate_memop(oi, MO_BEUW);
+    return do_ld2_mmu(env, addr, oi, retaddr, MMU_DATA_LOAD);
 }
 
-static uint64_t full_le_ldul_mmu(CPUArchState *env, target_ulong addr,
-                                 MemOpIdx oi, uintptr_t retaddr)
+static uint32_t do_ld4_mmu(CPUArchState *env, target_ulong addr, MemOpIdx oi,
+                           uintptr_t ra, MMUAccessType access_type)
 {
-    validate_memop(oi, MO_LEUL);
-    return load_helper(env, addr, oi, retaddr, MO_LEUL, MMU_DATA_LOAD,
-                       full_le_ldul_mmu);
+    MMULookupLocals l;
+    bool crosspage;
+    uint32_t ret;
+
+    crosspage = mmu_lookup(env, addr, oi, ra, access_type, &l);
+    if (likely(!crosspage)) {
+        return do_ld_4(env, &l.page[0], l.mmu_idx, access_type, l.memop, ra);
+    }
+
+    ret = do_ld_beN(env, &l.page[0], 0, l.mmu_idx, access_type, ra);
+    ret = do_ld_beN(env, &l.page[1], ret, l.mmu_idx, access_type, ra);
+    if ((l.memop & MO_BSWAP) == MO_LE) {
+        ret = bswap32(ret);
+    }
+    return ret;
 }
 
 tcg_target_ulong helper_le_ldul_mmu(CPUArchState *env, target_ulong addr,
                                     MemOpIdx oi, uintptr_t retaddr)
 {
-    return full_le_ldul_mmu(env, addr, oi, retaddr);
-}
-
-static uint64_t full_be_ldul_mmu(CPUArchState *env, target_ulong addr,
-                                 MemOpIdx oi, uintptr_t retaddr)
-{
-    validate_memop(oi, MO_BEUL);
-    return load_helper(env, addr, oi, retaddr, MO_BEUL, MMU_DATA_LOAD,
-                       full_be_ldul_mmu);
+    validate_memop(oi, MO_LEUL);
+    return do_ld4_mmu(env, addr, oi, retaddr, MMU_DATA_LOAD);
 }
 
 tcg_target_ulong helper_be_ldul_mmu(CPUArchState *env, target_ulong addr,
                                     MemOpIdx oi, uintptr_t retaddr)
 {
-    return full_be_ldul_mmu(env, addr, oi, retaddr);
+    validate_memop(oi, MO_BEUL);
+    return do_ld4_mmu(env, addr, oi, retaddr, MMU_DATA_LOAD);
+}
+
+static uint64_t do_ld8_mmu(CPUArchState *env, target_ulong addr, MemOpIdx oi,
+                           uintptr_t ra, MMUAccessType access_type)
+{
+    MMULookupLocals l;
+    bool crosspage;
+    uint64_t ret;
+
+    crosspage = mmu_lookup(env, addr, oi, ra, access_type, &l);
+    if (likely(!crosspage)) {
+        return do_ld_8(env, &l.page[0], l.mmu_idx, access_type, l.memop, ra);
+    }
+
+    ret = do_ld_beN(env, &l.page[0], 0, l.mmu_idx, access_type, ra);
+    ret = do_ld_beN(env, &l.page[1], ret, l.mmu_idx, access_type, ra);
+    if ((l.memop & MO_BSWAP) == MO_LE) {
+        ret = bswap64(ret);
+    }
+    return ret;
 }
 
 uint64_t helper_le_ldq_mmu(CPUArchState *env, target_ulong addr,
                            MemOpIdx oi, uintptr_t retaddr)
 {
     validate_memop(oi, MO_LEUQ);
-    return load_helper(env, addr, oi, retaddr, MO_LEUQ, MMU_DATA_LOAD,
-                       helper_le_ldq_mmu);
+    return do_ld8_mmu(env, addr, oi, retaddr, MMU_DATA_LOAD);
 }
 
 uint64_t helper_be_ldq_mmu(CPUArchState *env, target_ulong addr,
                            MemOpIdx oi, uintptr_t retaddr)
 {
     validate_memop(oi, MO_BEUQ);
-    return load_helper(env, addr, oi, retaddr, MO_BEUQ, MMU_DATA_LOAD,
-                       helper_be_ldq_mmu);
+    return do_ld8_mmu(env, addr, oi, retaddr, MMU_DATA_LOAD);
 }
 
 /*
@@ -XXX,XX +XXX,XX @@ tcg_target_ulong helper_be_ldsl_mmu(CPUArchState *env, target_ulong addr,
  * Load helpers for cpu_ldst.h.
  */
 
-static inline uint64_t cpu_load_helper(CPUArchState *env, abi_ptr addr,
-                                       MemOpIdx oi, uintptr_t retaddr,
-                                       FullLoadHelper *full_load)
+static void plugin_load_cb(CPUArchState *env, abi_ptr addr, MemOpIdx oi)
 {
-    uint64_t ret;
-
-    ret = full_load(env, addr, oi, retaddr);
     qemu_plugin_vcpu_mem_cb(env_cpu(env), addr, oi, QEMU_PLUGIN_MEM_R);
-    return ret;
 }
 
 uint8_t cpu_ldb_mmu(CPUArchState *env, abi_ptr addr, MemOpIdx oi, uintptr_t ra)
 {
-    return cpu_load_helper(env, addr, oi, ra, full_ldub_mmu);
+    uint8_t ret;
+
+    validate_memop(oi, MO_UB);
+    ret = do_ld1_mmu(env, addr, oi, ra, MMU_DATA_LOAD);
+    plugin_load_cb(env, addr, oi);
+    return ret;
 }
 
 uint16_t cpu_ldw_be_mmu(CPUArchState *env, abi_ptr addr,
                         MemOpIdx oi, uintptr_t ra)
 {
-    return cpu_load_helper(env, addr, oi, ra, full_be_lduw_mmu);
+    uint16_t ret;
+
+    validate_memop(oi, MO_BEUW);
+    ret = do_ld2_mmu(env, addr, oi, ra, MMU_DATA_LOAD);
+    plugin_load_cb(env, addr, oi);
+    return ret;
 }
 
 uint32_t cpu_ldl_be_mmu(CPUArchState *env, abi_ptr addr,
                         MemOpIdx oi, uintptr_t ra)
 {
-    return cpu_load_helper(env, addr, oi, ra, full_be_ldul_mmu);
+    uint32_t ret;
+
+    validate_memop(oi, MO_BEUL);
+    ret = do_ld4_mmu(env, addr, oi, ra, MMU_DATA_LOAD);
+    plugin_load_cb(env, addr, oi);
+    return ret;
 }
 
 uint64_t cpu_ldq_be_mmu(CPUArchState *env, abi_ptr addr,
                         MemOpIdx oi, uintptr_t ra)
 {
-    return cpu_load_helper(env, addr, oi, ra, helper_be_ldq_mmu);
+    uint64_t ret;
+
+    validate_memop(oi, MO_BEUQ);
+    ret = do_ld8_mmu(env, addr, oi, ra, MMU_DATA_LOAD);
+    plugin_load_cb(env, addr, oi);
+    return ret;
 }
 
 uint16_t cpu_ldw_le_mmu(CPUArchState *env, abi_ptr addr,
                         MemOpIdx oi, uintptr_t ra)
 {
-    return cpu_load_helper(env, addr, oi, ra, full_le_lduw_mmu);
+    uint16_t ret;
+
+    validate_memop(oi, MO_LEUW);
+    ret = do_ld2_mmu(env, addr, oi, ra, MMU_DATA_LOAD);
+    plugin_load_cb(env, addr, oi);
+    return ret;
 }
 
 uint32_t cpu_ldl_le_mmu(CPUArchState *env, abi_ptr addr,
                         MemOpIdx oi, uintptr_t ra)
 {
-    return cpu_load_helper(env, addr, oi, ra, full_le_ldul_mmu);
+    uint32_t ret;
+
+    validate_memop(oi, MO_LEUL);
+    ret = do_ld4_mmu(env, addr, oi, ra, MMU_DATA_LOAD);
+    plugin_load_cb(env, addr, oi);
+    return ret;
 }
 
 uint64_t cpu_ldq_le_mmu(CPUArchState *env, abi_ptr addr,
                         MemOpIdx oi, uintptr_t ra)
 {
-    return cpu_load_helper(env, addr, oi, ra, helper_le_ldq_mmu);
+    uint64_t ret;
+
+    validate_memop(oi, MO_LEUQ);
+    ret = do_ld8_mmu(env, addr, oi, ra, MMU_DATA_LOAD);
+    plugin_load_cb(env, addr, oi);
+    return ret;
 }
 
 Int128 cpu_ld16_be_mmu(CPUArchState *env, abi_ptr addr,
@@ -XXX,XX +XXX,XX @@ void cpu_st16_le_mmu(CPUArchState *env, abi_ptr addr, Int128 val,
 
 /* Code access functions.  */
 
-static uint64_t full_ldub_code(CPUArchState *env, target_ulong addr,
-                               MemOpIdx oi, uintptr_t retaddr)
-{
-    return load_helper(env, addr, oi, retaddr, MO_8,
-                       MMU_INST_FETCH, full_ldub_code);
-}
-
 uint32_t cpu_ldub_code(CPUArchState *env, abi_ptr addr)
 {
     MemOpIdx oi = make_memop_idx(MO_UB, cpu_mmu_index(env, true));
-    return full_ldub_code(env, addr, oi, 0);
-}
-
-static uint64_t full_lduw_code(CPUArchState *env, target_ulong addr,
-                               MemOpIdx oi, uintptr_t retaddr)
-{
-    return load_helper(env, addr, oi, retaddr, MO_TEUW,
-                       MMU_INST_FETCH, full_lduw_code);
+    return do_ld1_mmu(env, addr, oi, 0, MMU_INST_FETCH);
 }
 
 uint32_t cpu_lduw_code(CPUArchState *env, abi_ptr addr)
 {
     MemOpIdx oi = make_memop_idx(MO_TEUW, cpu_mmu_index(env, true));
-    return full_lduw_code(env, addr, oi, 0);
-}
-
-static uint64_t full_ldl_code(CPUArchState *env, target_ulong addr,
-                              MemOpIdx oi, uintptr_t retaddr)
-{
-    return load_helper(env, addr, oi, retaddr, MO_TEUL,
-                       MMU_INST_FETCH, full_ldl_code);
+    return do_ld2_mmu(env, addr, oi, 0, MMU_INST_FETCH);
 }
 
 uint32_t cpu_ldl_code(CPUArchState *env, abi_ptr addr)
 {
     MemOpIdx oi = make_memop_idx(MO_TEUL, cpu_mmu_index(env, true));
-    return full_ldl_code(env, addr, oi, 0);
-}
-
-static uint64_t full_ldq_code(CPUArchState *env, target_ulong addr,
-                              MemOpIdx oi, uintptr_t retaddr)
-{
-    return load_helper(env, addr, oi, retaddr, MO_TEUQ,
-                       MMU_INST_FETCH, full_ldq_code);
+    return do_ld4_mmu(env, addr, oi, 0, MMU_INST_FETCH);
 }
 
 uint64_t cpu_ldq_code(CPUArchState *env, abi_ptr addr)
 {
     MemOpIdx oi = make_memop_idx(MO_TEUQ, cpu_mmu_index(env, true));
-    return full_ldq_code(env, addr, oi, 0);
+    return do_ld8_mmu(env, addr, oi, 0, MMU_INST_FETCH);
 }
 
 uint8_t cpu_ldb_code_mmu(CPUArchState *env, abi_ptr addr,
                          MemOpIdx oi, uintptr_t retaddr)
 {
-    return full_ldub_code(env, addr, oi, retaddr);
+    return do_ld1_mmu(env, addr, oi, retaddr, MMU_INST_FETCH);
 }
 
 uint16_t cpu_ldw_code_mmu(CPUArchState *env, abi_ptr addr,
                           MemOpIdx oi, uintptr_t retaddr)
 {
-    MemOp mop = get_memop(oi);
-    int idx = get_mmuidx(oi);
-    uint16_t ret;
-
-    ret = full_lduw_code(env, addr, make_memop_idx(MO_TEUW, idx), retaddr);
-    if ((mop & MO_BSWAP) != MO_TE) {
-        ret = bswap16(ret);
-    }
-    return ret;
+    return do_ld2_mmu(env, addr, oi, retaddr, MMU_INST_FETCH);
 }
 
 uint32_t cpu_ldl_code_mmu(CPUArchState *env, abi_ptr addr,
                           MemOpIdx oi, uintptr_t retaddr)
 {
-    MemOp mop = get_memop(oi);
-    int idx = get_mmuidx(oi);
-    uint32_t ret;
-
-    ret = full_ldl_code(env, addr, make_memop_idx(MO_TEUL, idx), retaddr);
-    if ((mop & MO_BSWAP) != MO_TE) {
-        ret = bswap32(ret);
-    }
-    return ret;
+    return do_ld4_mmu(env, addr, oi, retaddr, MMU_INST_FETCH);
 }
 
 uint64_t cpu_ldq_code_mmu(CPUArchState *env, abi_ptr addr,
                           MemOpIdx oi, uintptr_t retaddr)
 {
-    MemOp mop = get_memop(oi);
-    int idx = get_mmuidx(oi);
-    uint64_t ret;
-
-    ret = full_ldq_code(env, addr, make_memop_idx(MO_TEUQ, idx), retaddr);
-    if ((mop & MO_BSWAP) != MO_TE) {
-        ret = bswap64(ret);
-    }
-    return ret;
+    return do_ld8_mmu(env, addr, oi, retaddr, MMU_INST_FETCH);
 }
-- 
2.34.1

Instead of trying to unify all operations on uint64_t, use
mmu_lookup() to perform the basic tlb hit and resolution.
Create individual functions to handle access by size.

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 accel/tcg/cputlb.c | 408 +++++++++++++++++++++------------------------
 1 file changed, 193 insertions(+), 215 deletions(-)

diff --git a/accel/tcg/cputlb.c b/accel/tcg/cputlb.c
index XXXXXXX..XXXXXXX 100644
--- a/accel/tcg/cputlb.c
+++ b/accel/tcg/cputlb.c
@@ -XXX,XX +XXX,XX @@ store_memop(void *haddr, uint64_t val, MemOp op)
     }
 }
 
-static void full_stb_mmu(CPUArchState *env, target_ulong addr, uint64_t val,
-                         MemOpIdx oi, uintptr_t retaddr);
-
-static void __attribute__((noinline))
-store_helper_unaligned(CPUArchState *env, target_ulong addr, uint64_t val,
-                       uintptr_t retaddr, size_t size, uintptr_t mmu_idx,
-                       bool big_endian)
+/**
+ * do_st_mmio_leN:
+ * @env: cpu context
+ * @p: translation parameters
+ * @val_le: data to store
+ * @mmu_idx: virtual address context
+ * @ra: return address into tcg generated code, or 0
+ *
+ * Store @p->size bytes at @p->addr, which is memory-mapped i/o.
+ * The bytes to store are extracted in little-endian order from @val_le;
+ * return the bytes of @val_le beyond @p->size that have not been stored.
+ */
+static uint64_t do_st_mmio_leN(CPUArchState *env, MMULookupPageData *p,
+                               uint64_t val_le, int mmu_idx, uintptr_t ra)
 {
-    uintptr_t index, index2;
-    CPUTLBEntry *entry, *entry2;
-    target_ulong page1, page2, tlb_addr, tlb_addr2;
-    MemOpIdx oi;
-    size_t size2;
-    int i;
+    CPUTLBEntryFull *full = p->full;
+    target_ulong addr = p->addr;
+    int i, size = p->size;
 
-    /*
-     * Ensure the second page is in the TLB.  Note that the first page
-     * is already guaranteed to be filled, and that the second page
-     * cannot evict the first.  An exception to this rule is PAGE_WRITE_INV
-     * handling: the first page could have evicted itself.
-     */
-    page1 = addr & TARGET_PAGE_MASK;
-    page2 = (addr + size) & TARGET_PAGE_MASK;
-    size2 = (addr + size) & ~TARGET_PAGE_MASK;
-    index2 = tlb_index(env, mmu_idx, page2);
-    entry2 = tlb_entry(env, mmu_idx, page2);
-
-    tlb_addr2 = tlb_addr_write(entry2);
-    if (page1 != page2 && !tlb_hit_page(tlb_addr2, page2)) {
-        if (!victim_tlb_hit(env, mmu_idx, index2, MMU_DATA_STORE, page2)) {
-            tlb_fill(env_cpu(env), page2, size2, MMU_DATA_STORE,
-                     mmu_idx, retaddr);
-            index2 = tlb_index(env, mmu_idx, page2);
-            entry2 = tlb_entry(env, mmu_idx, page2);
-        }
-        tlb_addr2 = tlb_addr_write(entry2);
+    QEMU_IOTHREAD_LOCK_GUARD();
+    for (i = 0; i < size; i++, val_le >>= 8) {
+        io_writex(env, full, mmu_idx, val_le, addr + i, ra, MO_UB);
     }
+    return val_le;
+}
 
-    index = tlb_index(env, mmu_idx, addr);
-    entry = tlb_entry(env, mmu_idx, addr);
-    tlb_addr = tlb_addr_write(entry);
+/**
+ * do_st_bytes_leN:
+ * @p: translation parameters
+ * @val_le: data to store
+ *
+ * Store @p->size bytes at @p->haddr, which is RAM.
+ * The bytes to store are extracted in little-endian order from @val_le;
+ * return the bytes of @val_le beyond @p->size that have not been stored.
+ */
+static uint64_t do_st_bytes_leN(MMULookupPageData *p, uint64_t val_le)
+{
+    uint8_t *haddr = p->haddr;
+    int i, size = p->size;
 
-    /*
-     * Handle watchpoints.  Since this may trap, all checks
-     * must happen before any store.
-     */
-    if (unlikely(tlb_addr & TLB_WATCHPOINT)) {
-        cpu_check_watchpoint(env_cpu(env), addr, size - size2,
-                             env_tlb(env)->d[mmu_idx].fulltlb[index].attrs,
-                             BP_MEM_WRITE, retaddr);
-    }
-    if (unlikely(tlb_addr2 & TLB_WATCHPOINT)) {
-        cpu_check_watchpoint(env_cpu(env), page2, size2,
-                             env_tlb(env)->d[mmu_idx].fulltlb[index2].attrs,
-                             BP_MEM_WRITE, retaddr);
+    for (i = 0; i < size; i++, val_le >>= 8) {
+        haddr[i] = val_le;
     }
+    return val_le;
+}
 
-    /*
-     * XXX: not efficient, but simple.
-     * This loop must go in the forward direction to avoid issues
-     * with self-modifying code in Windows 64-bit.
-     */
-    oi = make_memop_idx(MO_UB, mmu_idx);
-    if (big_endian) {
-        for (i = 0; i < size; ++i) {
-            /* Big-endian extract.  */
-            uint8_t val8 = val >> (((size - 1) * 8) - (i * 8));
-            full_stb_mmu(env, addr + i, val8, oi, retaddr);
-        }
+/*
+ * Wrapper for the above.
+ */
+static uint64_t do_st_leN(CPUArchState *env, MMULookupPageData *p,
+                          uint64_t val_le, int mmu_idx, uintptr_t ra)
+{
+    if (unlikely(p->flags & TLB_MMIO)) {
+        return do_st_mmio_leN(env, p, val_le, mmu_idx, ra);
+    } else if (unlikely(p->flags & TLB_DISCARD_WRITE)) {
+        return val_le >> (p->size * 8);
     } else {
-        for (i = 0; i < size; ++i) {
-            /* Little-endian extract.  */
-            uint8_t val8 = val >> (i * 8);
-            full_stb_mmu(env, addr + i, val8, oi, retaddr);
-        }
+        return do_st_bytes_leN(p, val_le);
     }
 }
 
-static inline void QEMU_ALWAYS_INLINE
-store_helper(CPUArchState *env, target_ulong addr, uint64_t val,
-             MemOpIdx oi, uintptr_t retaddr, MemOp op)
+static void do_st_1(CPUArchState *env, MMULookupPageData *p, uint8_t val,
+                    int mmu_idx, uintptr_t ra)
 {
-    const unsigned a_bits = get_alignment_bits(get_memop(oi));
-    const size_t size = memop_size(op);
-    uintptr_t mmu_idx = get_mmuidx(oi);
-    uintptr_t index;
-    CPUTLBEntry *entry;
-    target_ulong tlb_addr;
-    void *haddr;
-
-    tcg_debug_assert(mmu_idx < NB_MMU_MODES);
-
-    /* Handle CPU specific unaligned behaviour */
-    if (addr & ((1 << a_bits) - 1)) {
-        cpu_unaligned_access(env_cpu(env), addr, MMU_DATA_STORE,
-                             mmu_idx, retaddr);
+    if (unlikely(p->flags & TLB_MMIO)) {
+        io_writex(env, p->full, mmu_idx, val, p->addr, ra, MO_UB);
+    } else if (unlikely(p->flags & TLB_DISCARD_WRITE)) {
+        /* nothing */
+    } else {
+        *(uint8_t *)p->haddr = val;
     }
-
-    index = tlb_index(env, mmu_idx, addr);
-    entry = tlb_entry(env, mmu_idx, addr);
-    tlb_addr = tlb_addr_write(entry);
-
-    /* If the TLB entry is for a different page, reload and try again.  */
-    if (!tlb_hit(tlb_addr, addr)) {
-        if (!victim_tlb_hit(env, mmu_idx, index, MMU_DATA_STORE,
-            addr & TARGET_PAGE_MASK)) {
-            tlb_fill(env_cpu(env), addr, size, MMU_DATA_STORE,
-                     mmu_idx, retaddr);
-            index = tlb_index(env, mmu_idx, addr);
-            entry = tlb_entry(env, mmu_idx, addr);
-        }
-        tlb_addr = tlb_addr_write(entry) & ~TLB_INVALID_MASK;
-    }
-
-    /* Handle anything that isn't just a straight memory access.  */
-    if (unlikely(tlb_addr & ~TARGET_PAGE_MASK)) {
-        CPUTLBEntryFull *full;
-        bool need_swap;
-
-        /* For anything that is unaligned, recurse through byte stores.  */
-        if ((addr & (size - 1)) != 0) {
-            goto do_unaligned_access;
-        }
-
-        full = &env_tlb(env)->d[mmu_idx].fulltlb[index];
-
-        /* Handle watchpoints.  */
-        if (unlikely(tlb_addr & TLB_WATCHPOINT)) {
-            /* On watchpoint hit, this will longjmp out.  */
-            cpu_check_watchpoint(env_cpu(env), addr, size,
-                                 full->attrs, BP_MEM_WRITE, retaddr);
-        }
-
-        need_swap = size > 1 && (tlb_addr & TLB_BSWAP);
-
-        /* Handle I/O access.  */
-        if (tlb_addr & TLB_MMIO) {
-            io_writex(env, full, mmu_idx, val, addr, retaddr,
-                      op ^ (need_swap * MO_BSWAP));
-            return;
-        }
-
-        /* Ignore writes to ROM.  */
-        if (unlikely(tlb_addr & TLB_DISCARD_WRITE)) {
-            return;
-        }
-
-        /* Handle clean RAM pages.  */
-        if (tlb_addr & TLB_NOTDIRTY) {
-            notdirty_write(env_cpu(env), addr, size, full, retaddr);
-        }
-
-        haddr = (void *)((uintptr_t)addr + entry->addend);
-
-        /*
-         * Keep these two store_memop separate to ensure that the compiler
-         * is able to fold the entire function to a single instruction.
-         * There is a build-time assert inside to remind you of this.  ;-)
-         */
-        if (unlikely(need_swap)) {
-            store_memop(haddr, val, op ^ MO_BSWAP);
-        } else {
-            store_memop(haddr, val, op);
-        }
-        return;
-    }
-
-    /* Handle slow unaligned access (it spans two pages or IO).  */
-    if (size > 1
-        && unlikely((addr & ~TARGET_PAGE_MASK) + size - 1
-                     >= TARGET_PAGE_SIZE)) {
-    do_unaligned_access:
-        store_helper_unaligned(env, addr, val, retaddr, size,
-                               mmu_idx, memop_big_endian(op));
-        return;
-    }
-
-    haddr = (void *)((uintptr_t)addr + entry->addend);
-    store_memop(haddr, val, op);
 }
 
-static void __attribute__((noinline))
-full_stb_mmu(CPUArchState *env, target_ulong addr, uint64_t val,
-             MemOpIdx oi, uintptr_t retaddr)
+static void do_st_2(CPUArchState *env, MMULookupPageData *p, uint16_t val,
+                    int mmu_idx, MemOp memop, uintptr_t ra)
 {
-    validate_memop(oi, MO_UB);
-    store_helper(env, addr, val, oi, retaddr, MO_UB);
+    if (unlikely(p->flags & TLB_MMIO)) {
+        io_writex(env, p->full, mmu_idx, val, p->addr, ra, memop);
+    } else if (unlikely(p->flags & TLB_DISCARD_WRITE)) {
+        /* nothing */
+    } else {
+        /* Swap to host endian if necessary, then store. */
+        if (memop & MO_BSWAP) {
+            val = bswap16(val);
+        }
+        store_memop(p->haddr, val, MO_UW);
+    }
+}
+
+static void do_st_4(CPUArchState *env, MMULookupPageData *p, uint32_t val,
+                    int mmu_idx, MemOp memop, uintptr_t ra)
+{
+    if (unlikely(p->flags & TLB_MMIO)) {
+        io_writex(env, p->full, mmu_idx, val, p->addr, ra, memop);
+    } else if (unlikely(p->flags & TLB_DISCARD_WRITE)) {
+        /* nothing */
+    } else {
+        /* Swap to host endian if necessary, then store. */
+        if (memop & MO_BSWAP) {
+            val = bswap32(val);
+        }
+        store_memop(p->haddr, val, MO_UL);
+    }
+}
+
+static void do_st_8(CPUArchState *env, MMULookupPageData *p, uint64_t val,
+                    int mmu_idx, MemOp memop, uintptr_t ra)
+{
+    if (unlikely(p->flags & TLB_MMIO)) {
+        io_writex(env, p->full, mmu_idx, val, p->addr, ra, memop);
+    } else if (unlikely(p->flags & TLB_DISCARD_WRITE)) {
+        /* nothing */
+    } else {
+        /* Swap to host endian if necessary, then store. */
+        if (memop & MO_BSWAP) {
+            val = bswap64(val);
+        }
+        store_memop(p->haddr, val, MO_UQ);
+    }
 }
 
 void helper_ret_stb_mmu(CPUArchState *env, target_ulong addr, uint32_t val,
-                        MemOpIdx oi, uintptr_t retaddr)
+                        MemOpIdx oi, uintptr_t ra)
 {
-    full_stb_mmu(env, addr, val, oi, retaddr);
+    MMULookupLocals l;
+    bool crosspage;
+
+    validate_memop(oi, MO_UB);
+    crosspage = mmu_lookup(env, addr, oi, ra, MMU_DATA_STORE, &l);
+    tcg_debug_assert(!crosspage);
+
+    do_st_1(env, &l.page[0], val, l.mmu_idx, ra);
 }
 
-static void full_le_stw_mmu(CPUArchState *env, target_ulong addr, uint64_t val,
-                            MemOpIdx oi, uintptr_t retaddr)
+static void do_st2_mmu(CPUArchState *env, target_ulong addr, uint16_t val,
+                       MemOpIdx oi, uintptr_t ra)
 {
-    validate_memop(oi, MO_LEUW);
-    store_helper(env, addr, val, oi, retaddr, MO_LEUW);
+    MMULookupLocals l;
+    bool crosspage;
+    uint8_t a, b;
+
+    crosspage = mmu_lookup(env, addr, oi, ra, MMU_DATA_STORE, &l);
+    if (likely(!crosspage)) {
+        do_st_2(env, &l.page[0], val, l.mmu_idx, l.memop, ra);
+        return;
+    }
+
+    if ((l.memop & MO_BSWAP) == MO_LE) {
+        a = val, b = val >> 8;
+    } else {
+        b = val, a = val >> 8;
+    }
+    do_st_1(env, &l.page[0], a, l.mmu_idx, ra);
+    do_st_1(env, &l.page[1], b, l.mmu_idx, ra);
 }
 
 void helper_le_stw_mmu(CPUArchState *env, target_ulong addr, uint32_t val,
                        MemOpIdx oi, uintptr_t retaddr)
 {
-    full_le_stw_mmu(env, addr, val, oi, retaddr);
-}
-
-static void full_be_stw_mmu(CPUArchState *env, target_ulong addr, uint64_t val,
-                            MemOpIdx oi, uintptr_t retaddr)
-{
-    validate_memop(oi, MO_BEUW);
-    store_helper(env, addr, val, oi, retaddr, MO_BEUW);
+    validate_memop(oi, MO_LEUW);
+    do_st2_mmu(env, addr, val, oi, retaddr);
 }
 
 void helper_be_stw_mmu(CPUArchState *env, target_ulong addr, uint32_t val,
                        MemOpIdx oi, uintptr_t retaddr)
 {
-    full_be_stw_mmu(env, addr, val, oi, retaddr);
+    validate_memop(oi, MO_BEUW);
+    do_st2_mmu(env, addr, val, oi, retaddr);
 }
 
-static void full_le_stl_mmu(CPUArchState *env, target_ulong addr, uint64_t val,
-                            MemOpIdx oi, uintptr_t retaddr)
+static void do_st4_mmu(CPUArchState *env, target_ulong addr, uint32_t val,
+                       MemOpIdx oi, uintptr_t ra)
 {
-    validate_memop(oi, MO_LEUL);
-    store_helper(env, addr, val, oi, retaddr, MO_LEUL);
+    MMULookupLocals l;
+    bool crosspage;
+
+    crosspage = mmu_lookup(env, addr, oi, ra, MMU_DATA_STORE, &l);
+    if (likely(!crosspage)) {
+        do_st_4(env, &l.page[0], val, l.mmu_idx, l.memop, ra);
+        return;
+    }
+
+    /* Swap to little endian for simplicity, then store by bytes. */
+    if ((l.memop & MO_BSWAP) != MO_LE) {
+        val = bswap32(val);
+    }
+    val = do_st_leN(env, &l.page[0], val, l.mmu_idx, ra);
+    (void) do_st_leN(env, &l.page[1], val, l.mmu_idx, ra);
 }
 
 void helper_le_stl_mmu(CPUArchState *env, target_ulong addr, uint32_t val,
                        MemOpIdx oi, uintptr_t retaddr)
 {
-    full_le_stl_mmu(env, addr, val, oi, retaddr);
-}
-
-static void full_be_stl_mmu(CPUArchState *env, target_ulong addr, uint64_t val,
-                            MemOpIdx oi, uintptr_t retaddr)
-{
-    validate_memop(oi, MO_BEUL);
-    store_helper(env, addr, val, oi, retaddr, MO_BEUL);
+    validate_memop(oi, MO_LEUL);
+    do_st4_mmu(env, addr, val, oi, retaddr);
 }
 
 void helper_be_stl_mmu(CPUArchState *env, target_ulong addr, uint32_t val,
                        MemOpIdx oi, uintptr_t retaddr)
 {
-    full_be_stl_mmu(env, addr, val, oi, retaddr);
+    validate_memop(oi, MO_BEUL);
+    do_st4_mmu(env, addr, val, oi, retaddr);
+}
+
+static void do_st8_mmu(CPUArchState *env, target_ulong addr, uint64_t val,
+                       MemOpIdx oi, uintptr_t ra)
+{
+    MMULookupLocals l;
+    bool crosspage;
+
+    crosspage = mmu_lookup(env, addr, oi, ra, MMU_DATA_STORE, &l);
+    if (likely(!crosspage)) {
+        do_st_8(env, &l.page[0], val, l.mmu_idx, l.memop, ra);
+        return;
+    }
+
+    /* Swap to little endian for simplicity, then store by bytes. */
+    if ((l.memop & MO_BSWAP) != MO_LE) {
+        val = bswap64(val);
+    }
+    val = do_st_leN(env, &l.page[0], val, l.mmu_idx, ra);
+    (void) do_st_leN(env, &l.page[1], val, l.mmu_idx, ra);
 }
 
 void helper_le_stq_mmu(CPUArchState *env, target_ulong addr, uint64_t val,
                        MemOpIdx oi, uintptr_t retaddr)
 {
     validate_memop(oi, MO_LEUQ);
-    store_helper(env, addr, val, oi, retaddr, MO_LEUQ);
+    do_st8_mmu(env, addr, val, oi, retaddr);
 }
 
 void helper_be_stq_mmu(CPUArchState *env, target_ulong addr, uint64_t val,
                        MemOpIdx oi, uintptr_t retaddr)
 {
     validate_memop(oi, MO_BEUQ);
-    store_helper(env, addr, val, oi, retaddr, MO_BEUQ);
+    do_st8_mmu(env, addr, val, oi, retaddr);
 }
 
 /*
  * Store Helpers for cpu_ldst.h
  */
 
-typedef void FullStoreHelper(CPUArchState *env, target_ulong addr,
-                             uint64_t val, MemOpIdx oi, uintptr_t retaddr);
-
-static inline void cpu_store_helper(CPUArchState *env, target_ulong addr,
-                                    uint64_t val, MemOpIdx oi, uintptr_t ra,
-                                    FullStoreHelper *full_store)
+static void plugin_store_cb(CPUArchState *env, abi_ptr addr, MemOpIdx oi)
 {
-    full_store(env, addr, val, oi, ra);
     qemu_plugin_vcpu_mem_cb(env_cpu(env), addr, oi, QEMU_PLUGIN_MEM_W);
 }
 
 void cpu_stb_mmu(CPUArchState *env, target_ulong addr, uint8_t val,
                  MemOpIdx oi, uintptr_t retaddr)
 {
-    cpu_store_helper(env, addr, val, oi, retaddr, full_stb_mmu);
+    helper_ret_stb_mmu(env, addr, val, oi, retaddr);
+    plugin_store_cb(env, addr, oi);
 }
 
 void cpu_stw_be_mmu(CPUArchState *env, target_ulong addr, uint16_t val,
                     MemOpIdx oi, uintptr_t retaddr)
 {
-    cpu_store_helper(env, addr, val, oi, retaddr, full_be_stw_mmu);
+    helper_be_stw_mmu(env, addr, val, oi, retaddr);
+    plugin_store_cb(env, addr, oi);
 }
 
 void cpu_stl_be_mmu(CPUArchState *env, target_ulong addr, uint32_t val,
                     MemOpIdx oi, uintptr_t retaddr)
 {
-    cpu_store_helper(env, addr, val, oi, retaddr, full_be_stl_mmu);
+    helper_be_stl_mmu(env, addr, val, oi, retaddr);
+    plugin_store_cb(env, addr, oi);
 }
 
 void cpu_stq_be_mmu(CPUArchState *env, target_ulong addr, uint64_t val,
                     MemOpIdx oi, uintptr_t retaddr)
 {
-    cpu_store_helper(env, addr, val, oi, retaddr, helper_be_stq_mmu);
+    helper_be_stq_mmu(env, addr, val, oi, retaddr);
+    plugin_store_cb(env, addr, oi);
 }
 
 void cpu_stw_le_mmu(CPUArchState *env, target_ulong addr, uint16_t val,
                     MemOpIdx oi, uintptr_t retaddr)
 {
-    cpu_store_helper(env, addr, val, oi, retaddr, full_le_stw_mmu);
+    helper_le_stw_mmu(env, addr, val, oi, retaddr);
+    plugin_store_cb(env, addr, oi);
 }
 
 void cpu_stl_le_mmu(CPUArchState *env, target_ulong addr, uint32_t val,
                     MemOpIdx oi, uintptr_t retaddr)
 {
-    cpu_store_helper(env, addr, val, oi, retaddr, full_le_stl_mmu);
+    helper_le_stl_mmu(env, addr, val, oi, retaddr);
+    plugin_store_cb(env, addr, oi);
 }
 
 void cpu_stq_le_mmu(CPUArchState *env, target_ulong addr, uint64_t val,
                     MemOpIdx oi, uintptr_t retaddr)
 {
-    cpu_store_helper(env, addr, val, oi, retaddr, helper_le_stq_mmu);
+    helper_le_stq_mmu(env, addr, val, oi, retaddr);
+    plugin_store_cb(env, addr, oi);
 }
 
 void cpu_st16_be_mmu(CPUArchState *env, abi_ptr addr, Int128 val,
-- 
2.34.1

This header is supposed to be private to tcg and in fact
does not need to be included here at all.

Reviewed-by: Song Gao <gaosong@loongson.cn>
Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 target/loongarch/csr_helper.c   | 1 -
 target/loongarch/iocsr_helper.c | 1 -
 2 files changed, 2 deletions(-)

diff --git a/target/loongarch/csr_helper.c b/target/loongarch/csr_helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/loongarch/csr_helper.c
+++ b/target/loongarch/csr_helper.c
@@ -XXX,XX +XXX,XX @@
 #include "exec/cpu_ldst.h"
 #include "hw/irq.h"
 #include "cpu-csr.h"
-#include "tcg/tcg-ldst.h"
 
 target_ulong helper_csrrd_pgd(CPULoongArchState *env)
 {
diff --git a/target/loongarch/iocsr_helper.c b/target/loongarch/iocsr_helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/loongarch/iocsr_helper.c
+++ b/target/loongarch/iocsr_helper.c
@@ -XXX,XX +XXX,XX @@
 #include "exec/helper-proto.h"
 #include "exec/exec-all.h"
 #include "exec/cpu_ldst.h"
-#include "tcg/tcg-ldst.h"
 
 #define GET_MEMTXATTRS(cas) \
         ((MemTxAttrs){.requester_id = env_cpu(cas)->cpu_index})
-- 
2.34.1