Series comparison

-[PULL 00/56] tcg patch queue
+[PULL 00/62] tcg patch queue
-The following changes since commit c52d69e7dbaaed0ffdef8125e79218672c30161d:
+The following changes since commit 627634031092e1514f363fd8659a579398de0f0e:
-  Merge remote-tracking branch 'remotes/cschoenebeck/tags/pull-9p-20211027' into staging (2021-10-27 11:45:18 -0700)
+  Merge tag 'buildsys-qom-qdev-ui-20230227' of https://github.com/philmd/qemu into staging (2023-02-28 15:09:18 +0000)
 are available in the Git repository at:
-  https://gitlab.com/rth7680/qemu.git tags/pull-tcg-20211027
+  https://gitlab.com/rth7680/qemu.git tags/pull-tcg-20230228
-for you to fetch changes up to 820c025f0dcacf2f3c12735b1f162893fbfa7bc6:
+for you to fetch changes up to c7fbf10db8718d2eba87712bc3410b671157a377:
-  tcg/optimize: Propagate sign info for shifting (2021-10-27 17:11:23 -0700)
+  tcg: Update docs/devel/tcg-ops.rst for temporary changes (2023-02-28 10:36:19 -1000)
 ----------------------------------------------------------------
-Improvements to qemu/int128
+helper-head: Add fpu/softfloat-types.h
-Fixes for 128/64 division.
+softmmu: Use memmove in flatview_write_continue
-Cleanup tcg/optimize.c
+tcg: Add sign param to probe_access_flags, probe_access_full
-Optimize redundant sign extensions
+tcg: Convert TARGET_TB_PCREL to CF_PCREL
 tcg: Simplify temporary lifetimes for translators
 ----------------------------------------------------------------
-Frédéric Pétrot (1):
+Akihiko Odaki (1):
-      qemu/int128: Add int128_{not,xor}
+      softmmu: Use memmove in flatview_write_continue
-Luis Pires (4):
+Anton Johansson via (27):
-      host-utils: move checks out of divu128/divs128
+      include/exec: Introduce `CF_PCREL`
-      host-utils: move udiv_qrnnd() to host-utils
+      target/i386: set `CF_PCREL` in `x86_cpu_realizefn`
-      host-utils: add 128-bit quotient support to divu128/divs128
+      target/arm: set `CF_PCREL` in `arm_cpu_realizefn`
-      host-utils: add unit tests for divu128/divs128
+      accel/tcg: Replace `TARGET_TB_PCREL` with `CF_PCREL`
       include/exec: Replace `TARGET_TB_PCREL` with `CF_PCREL`
       target/arm: Replace `TARGET_TB_PCREL` with `CF_PCREL`
       target/i386: Replace `TARGET_TB_PCREL` with `CF_PCREL`
       include/exec: Remove `TARGET_TB_PCREL` define
       target/arm: Remove `TARGET_TB_PCREL` define
       target/i386: Remove `TARGET_TB_PCREL` define
       accel/tcg: Move jmp-cache `CF_PCREL` checks to caller
       accel/tcg: Replace `tb_pc()` with `tb->pc`
       target/tricore: Replace `tb_pc()` with `tb->pc`
       target/sparc: Replace `tb_pc()` with `tb->pc`
       target/sh4: Replace `tb_pc()` with `tb->pc`
       target/rx: Replace `tb_pc()` with `tb->pc`
       target/riscv: Replace `tb_pc()` with `tb->pc`
       target/openrisc: Replace `tb_pc()` with `tb->pc`
       target/mips: Replace `tb_pc()` with `tb->pc`
       target/microblaze: Replace `tb_pc()` with `tb->pc`
       target/loongarch: Replace `tb_pc()` with `tb->pc`
       target/i386: Replace `tb_pc()` with `tb->pc`
       target/hppa: Replace `tb_pc()` with `tb->pc`
       target/hexagon: Replace `tb_pc()` with `tb->pc`
       target/avr: Replace `tb_pc()` with `tb->pc`
       target/arm: Replace `tb_pc()` with `tb->pc`
       include/exec: Remove `tb_pc()`
-Richard Henderson (51):
+Daniel Henrique Barboza (1):
-      tcg/optimize: Rename "mask" to "z_mask"
+      accel/tcg: Add 'size' param to probe_access_flags()
       tcg/optimize: Split out OptContext
       tcg/optimize: Remove do_default label
       tcg/optimize: Change tcg_opt_gen_{mov,movi} interface
       tcg/optimize: Move prev_mb into OptContext
       tcg/optimize: Split out init_arguments
       tcg/optimize: Split out copy_propagate
       tcg/optimize: Split out fold_call
       tcg/optimize: Drop nb_oargs, nb_iargs locals
       tcg/optimize: Change fail return for do_constant_folding_cond*
       tcg/optimize: Return true from tcg_opt_gen_{mov,movi}
       tcg/optimize: Split out finish_folding
       tcg/optimize: Use a boolean to avoid a mass of continues
       tcg/optimize: Split out fold_mb, fold_qemu_{ld,st}
       tcg/optimize: Split out fold_const{1,2}
       tcg/optimize: Split out fold_setcond2
       tcg/optimize: Split out fold_brcond2
       tcg/optimize: Split out fold_brcond
       tcg/optimize: Split out fold_setcond
       tcg/optimize: Split out fold_mulu2_i32
       tcg/optimize: Split out fold_addsub2_i32
       tcg/optimize: Split out fold_movcond
       tcg/optimize: Split out fold_extract2
       tcg/optimize: Split out fold_extract, fold_sextract
       tcg/optimize: Split out fold_deposit
       tcg/optimize: Split out fold_count_zeros
       tcg/optimize: Split out fold_bswap
       tcg/optimize: Split out fold_dup, fold_dup2
       tcg/optimize: Split out fold_mov
       tcg/optimize: Split out fold_xx_to_i
       tcg/optimize: Split out fold_xx_to_x
       tcg/optimize: Split out fold_xi_to_i
       tcg/optimize: Add type to OptContext
       tcg/optimize: Split out fold_to_not
       tcg/optimize: Split out fold_sub_to_neg
       tcg/optimize: Split out fold_xi_to_x
       tcg/optimize: Split out fold_ix_to_i
       tcg/optimize: Split out fold_masks
       tcg/optimize: Expand fold_mulu2_i32 to all 4-arg multiplies
       tcg/optimize: Expand fold_addsub2_i32 to 64-bit ops
       tcg/optimize: Sink commutative operand swapping into fold functions
       tcg/optimize: Stop forcing z_mask to "garbage" for 32-bit values
       tcg/optimize: Use fold_xx_to_i for orc
       tcg/optimize: Use fold_xi_to_x for mul
       tcg/optimize: Use fold_xi_to_x for div
       tcg/optimize: Use fold_xx_to_i for rem
       tcg/optimize: Optimize sign extensions
       tcg/optimize: Propagate sign info for logical operations
       tcg/optimize: Propagate sign info for setcond
       tcg/optimize: Propagate sign info for bit counting
       tcg/optimize: Propagate sign info for shifting
- include/fpu/softfloat-macros.h |   82 --
+Philippe Mathieu-Daudé (1):
- include/hw/clock.h             |    5 +-
+      exec/helper-head: Include missing "fpu/softfloat-types.h" header
  include/qemu/host-utils.h      |  121 +-
  include/qemu/int128.h          |   20 +
  target/ppc/int_helper.c        |   23 +-
  tcg/optimize.c                 | 2644 ++++++++++++++++++++++++----------------
  tests/unit/test-div128.c       |  197 +++
  util/host-utils.c              |  147 ++-
  tests/unit/meson.build         |    1 +
 files changed, 2053 insertions(+), 1187 deletions(-)
  create mode 100644 tests/unit/test-div128.c
+Richard Henderson (32):
+      accel/tcg: Add 'size' param to probe_access_full
+      tcg: Adjust TCGContext.temps_in_use check
+      accel/tcg: Pass max_insn to gen_intermediate_code by pointer
+      accel/tcg: Use more accurate max_insns for tb_overflow
+      tcg: Remove branch-to-next regardless of reference count
+      tcg: Rename TEMP_LOCAL to TEMP_TB
+      tcg: Use noinline for major tcg_gen_code subroutines
+      tcg: Add liveness_pass_0
+      tcg: Remove TEMP_NORMAL
+      tcg: Pass TCGTempKind to tcg_temp_new_internal
+      tcg: Use tcg_constant_i32 in tcg_gen_io_start
+      tcg: Add tcg_gen_movi_ptr
+      tcg: Add tcg_temp_ebb_new_{i32,i64,ptr}
+      tcg: Use tcg_temp_ebb_new_* in tcg/
+      tcg: Use tcg_constant_ptr in do_dup
+      accel/tcg/plugin: Use tcg_temp_ebb_*
+      accel/tcg/plugin: Tidy plugin_gen_disable_mem_helpers
+      tcg: Don't re-use TEMP_TB temporaries
+      tcg: Change default temp lifetime to TEMP_TB
+      target/arm: Drop copies in gen_sve_{ldr,str}
+      target/arm: Don't use tcg_temp_local_new_*
+      target/cris: Don't use tcg_temp_local_new
+      target/hexagon: Don't use tcg_temp_local_new_*
+      target/hexagon/idef-parser: Drop gen_tmp_local
+      target/hppa: Don't use tcg_temp_local_new
+      target/i386: Don't use tcg_temp_local_new
+      target/mips: Don't use tcg_temp_local_new
+      target/ppc: Don't use tcg_temp_local_new
+      target/xtensa: Don't use tcg_temp_local_new_*
+      exec/gen-icount: Don't use tcg_temp_local_new_i32
+      tcg: Remove tcg_temp_local_new_*, tcg_const_local_*
+      tcg: Update docs/devel/tcg-ops.rst for temporary changes
+ docs/devel/tcg-ops.rst                      | 230 +++++++++++++----------
+ target/hexagon/idef-parser/README.rst       |   4 +-
+ accel/tcg/internal.h                        |  10 +-
+ accel/tcg/tb-jmp-cache.h                    |  42 +----
+ include/exec/cpu-defs.h                     |   3 -
+ include/exec/exec-all.h                     |  26 +--
+ include/exec/gen-icount.h                   |  12 +-
+ include/exec/helper-head.h                  |   2 +
+ include/exec/translator.h                   |   4 +-
+ include/tcg/tcg-op.h                        |   7 +-
+ include/tcg/tcg.h                           |  64 ++++---
+ target/arm/cpu-param.h                      |   2 -
+ target/arm/tcg/translate-a64.h              |   1 -
+ target/arm/tcg/translate.h                  |   2 +-
+ target/hexagon/gen_tcg.h                    |   4 +-
+ target/i386/cpu-param.h                     |   4 -
+ accel/stubs/tcg-stub.c                      |   2 +-
+ accel/tcg/cpu-exec.c                        |  62 ++++--
+ accel/tcg/cputlb.c                          |  21 ++-
+ accel/tcg/perf.c                            |   2 +-
+ accel/tcg/plugin-gen.c                      |  32 ++--
+ accel/tcg/tb-maint.c                        |  10 +-
+ accel/tcg/translate-all.c                   |  18 +-
+ accel/tcg/translator.c                      |   6 +-
+ accel/tcg/user-exec.c                       |   5 +-
+ semihosting/uaccess.c                       |   2 +-
+ softmmu/physmem.c                           |   2 +-
+ target/alpha/translate.c                    |   2 +-
+ target/arm/cpu.c                            |  17 +-
+ target/arm/ptw.c                            |   4 +-
+ target/arm/tcg/mte_helper.c                 |   4 +-
+ target/arm/tcg/sve_helper.c                 |   4 +-
+ target/arm/tcg/translate-a64.c              |  16 +-
+ target/arm/tcg/translate-sve.c              |  38 +---
+ target/arm/tcg/translate.c                  |  14 +-
+ target/avr/cpu.c                            |   3 +-
+ target/avr/translate.c                      |   2 +-
+ target/cris/translate.c                     |   8 +-
+ target/hexagon/cpu.c                        |   4 +-
+ target/hexagon/genptr.c                     |  16 +-
+ target/hexagon/idef-parser/parser-helpers.c |  26 +--
+ target/hexagon/translate.c                  |   4 +-
+ target/hppa/cpu.c                           |   8 +-
+ target/hppa/translate.c                     |   5 +-
+ target/i386/cpu.c                           |   5 +
+ target/i386/helper.c                        |   2 +-
+ target/i386/tcg/sysemu/excp_helper.c        |   4 +-
+ target/i386/tcg/tcg-cpu.c                   |   8 +-
+ target/i386/tcg/translate.c                 |  55 +++---
+ target/loongarch/cpu.c                      |   6 +-
+ target/loongarch/translate.c                |   2 +-
+ target/m68k/translate.c                     |   2 +-
+ target/microblaze/cpu.c                     |   4 +-
+ target/microblaze/translate.c               |   2 +-
+ target/mips/tcg/exception.c                 |   3 +-
+ target/mips/tcg/sysemu/special_helper.c     |   2 +-
+ target/mips/tcg/translate.c                 |  59 ++----
+ target/nios2/translate.c                    |   2 +-
+ target/openrisc/cpu.c                       |   4 +-
+ target/openrisc/translate.c                 |   2 +-
+ target/ppc/translate.c                      |   8 +-
+ target/riscv/cpu.c                          |   7 +-
+ target/riscv/translate.c                    |   2 +-
+ target/rx/cpu.c                             |   3 +-
+ target/rx/translate.c                       |   2 +-
+ target/s390x/tcg/mem_helper.c               |   2 +-
+ target/s390x/tcg/translate.c                |   2 +-
+ target/sh4/cpu.c                            |   6 +-
+ target/sh4/translate.c                      |   2 +-
+ target/sparc/cpu.c                          |   4 +-
+ target/sparc/translate.c                    |   2 +-
+ target/tricore/cpu.c                        |   3 +-
+ target/tricore/translate.c                  |   2 +-
+ target/xtensa/translate.c                   |  18 +-
+ tcg/optimize.c                              |   2 +-
+ tcg/tcg-op-gvec.c                           | 189 ++++++++++---------
+ tcg/tcg-op.c                                | 258 ++++++++++++-------------
+ tcg/tcg.c                                   | 280 ++++++++++++++++------------
+ target/cris/translate_v10.c.inc             |  10 +-
+ target/mips/tcg/nanomips_translate.c.inc    |   4 +-
+ target/ppc/translate/spe-impl.c.inc         |   8 +-
+ target/ppc/translate/vmx-impl.c.inc         |   4 +-
+ target/hexagon/README                       |   8 +-
+ target/hexagon/gen_tcg_funcs.py             |  18 +-
+files changed, 870 insertions(+), 890 deletions(-)

-[PULL 46/56] tcg/optimize: Sink commutative operand swapping into fold functions
+[PULL 01/62] exec/helper-head: Include missing "fpu/softfloat-types.h" header
-Most of these are handled by creating a fold_const2_commutative
+From: Philippe Mathieu-Daudé <philmd@linaro.org>
 to handle all of the binary operators.  The rest were already
 handled on a case-by-case basis in the switch, and have their
 own fold function in which to place the call.
-We now have only one major switch on TCGOpcode.
+'dh_ctype_f32' is defined as 'float32', itself declared
 in "fpu/softfloat-types.h". Include this header to avoid
 when refactoring other headers:
-Introduce NO_DEST and a block comment for swap_commutative in
+  In file included from include/exec/helper-proto.h:7,
-order to make the handling of brcond and movcond opcodes cleaner.
+                   from include/tcg/tcg-op.h:29,
                    from ../../tcg/tcg-op-vec.c:22:
   include/exec/helper-head.h:44:22: error: unknown type name ‘float32’; did you mean ‘_Float32’?
 | #define dh_ctype_f32 float32
         |                      ^~~~~~~
-Reviewed-by: Luis Pires <luis.pires@eldorado.org.br>
+Signed-off-by: Philippe Mathieu-Daudé <philmd@linaro.org>
 Message-Id: <20221216225202.25664-1-philmd@linaro.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- tcg/optimize.c | 142 ++++++++++++++++++++++++-------------------------
+ include/exec/helper-head.h | 2 ++
-file changed, 70 insertions(+), 72 deletions(-)
+file changed, 2 insertions(+)
-diff --git a/tcg/optimize.c b/tcg/optimize.c
+diff --git a/include/exec/helper-head.h b/include/exec/helper-head.h
 index XXXXXXX..XXXXXXX 100644
---- a/tcg/optimize.c
+--- a/include/exec/helper-head.h
-+++ b/tcg/optimize.c
++++ b/include/exec/helper-head.h
-@@ -XXX,XX +XXX,XX @@ static int do_constant_folding_cond2(TCGArg *p1, TCGArg *p2, TCGCond c)
+@@ -XXX,XX +XXX,XX @@
-     return -1;
+ #ifndef EXEC_HELPER_HEAD_H
- }
+ #define EXEC_HELPER_HEAD_H
-+/**
++#include "fpu/softfloat-types.h"
 + * swap_commutative:
 + * @dest: TCGArg of the destination argument, or NO_DEST.
 + * @p1: first paired argument
 + * @p2: second paired argument
 + *
 + * If *@p1 is a constant and *@p2 is not, swap.
 + * If *@p2 matches @dest, swap.
 + * Return true if a swap was performed.
 + */
 +
-+#define NO_DEST  temp_arg(NULL)
+ #define HELPER(name) glue(helper_, name)
-+
- static bool swap_commutative(TCGArg dest, TCGArg *p1, TCGArg *p2)
+ /* Some types that make sense in C, but not for TCG.  */
  {
      TCGArg a1 = *p1, a2 = *p2;
@@ -XXX,XX +XXX,XX @@ static bool fold_const2(OptContext *ctx, TCGOp *op)
      return false;
  }
 +static bool fold_const2_commutative(OptContext *ctx, TCGOp *op)
 +{
 +    swap_commutative(op->args[0], &op->args[1], &op->args[2]);
 +    return fold_const2(ctx, op);
 +}
 +
  static bool fold_masks(OptContext *ctx, TCGOp *op)
  {
      uint64_t a_mask = ctx->a_mask;
@@ -XXX,XX +XXX,XX @@ static bool fold_xx_to_x(OptContext *ctx, TCGOp *op)
  static bool fold_add(OptContext *ctx, TCGOp *op)
  {
 -    if (fold_const2(ctx, op) ||
 +    if (fold_const2_commutative(ctx, op) ||
          fold_xi_to_x(ctx, op, 0)) {
          return true;
      }
@@ -XXX,XX +XXX,XX @@ static bool fold_addsub2(OptContext *ctx, TCGOp *op, bool add)
  static bool fold_add2(OptContext *ctx, TCGOp *op)
  {
 +    /* Note that the high and low parts may be independently swapped. */
 +    swap_commutative(op->args[0], &op->args[2], &op->args[4]);
 +    swap_commutative(op->args[1], &op->args[3], &op->args[5]);
 +
      return fold_addsub2(ctx, op, true);
  }
@@ -XXX,XX +XXX,XX @@ static bool fold_and(OptContext *ctx, TCGOp *op)
  {
      uint64_t z1, z2;
 -    if (fold_const2(ctx, op) ||
 +    if (fold_const2_commutative(ctx, op) ||
          fold_xi_to_i(ctx, op, 0) ||
          fold_xi_to_x(ctx, op, -1) ||
          fold_xx_to_x(ctx, op)) {
@@ -XXX,XX +XXX,XX @@ static bool fold_andc(OptContext *ctx, TCGOp *op)
  static bool fold_brcond(OptContext *ctx, TCGOp *op)
  {
      TCGCond cond = op->args[2];
 -    int i = do_constant_folding_cond(ctx->type, op->args[0], op->args[1], cond);
 +    int i;
 +    if (swap_commutative(NO_DEST, &op->args[0], &op->args[1])) {
 +        op->args[2] = cond = tcg_swap_cond(cond);
 +    }
 +
 +    i = do_constant_folding_cond(ctx->type, op->args[0], op->args[1], cond);
      if (i == 0) {
          tcg_op_remove(ctx->tcg, op);
          return true;
@@ -XXX,XX +XXX,XX @@ static bool fold_brcond(OptContext *ctx, TCGOp *op)
  static bool fold_brcond2(OptContext *ctx, TCGOp *op)
  {
      TCGCond cond = op->args[4];
 -    int i = do_constant_folding_cond2(&op->args[0], &op->args[2], cond);
      TCGArg label = op->args[5];
 -    int inv = 0;
 +    int i, inv = 0;
 +    if (swap_commutative2(&op->args[0], &op->args[2])) {
 +        op->args[4] = cond = tcg_swap_cond(cond);
 +    }
 +
 +    i = do_constant_folding_cond2(&op->args[0], &op->args[2], cond);
      if (i >= 0) {
          goto do_brcond_const;
      }
@@ -XXX,XX +XXX,XX @@ static bool fold_dup2(OptContext *ctx, TCGOp *op)
  static bool fold_eqv(OptContext *ctx, TCGOp *op)
  {
 -    if (fold_const2(ctx, op) ||
 +    if (fold_const2_commutative(ctx, op) ||
          fold_xi_to_x(ctx, op, -1) ||
          fold_xi_to_not(ctx, op, 0)) {
          return true;
@@ -XXX,XX +XXX,XX @@ static bool fold_mov(OptContext *ctx, TCGOp *op)
  static bool fold_movcond(OptContext *ctx, TCGOp *op)
  {
      TCGCond cond = op->args[5];
 -    int i = do_constant_folding_cond(ctx->type, op->args[1], op->args[2], cond);
 +    int i;
 +    if (swap_commutative(NO_DEST, &op->args[1], &op->args[2])) {
 +        op->args[5] = cond = tcg_swap_cond(cond);
 +    }
 +    /*
 +     * Canonicalize the "false" input reg to match the destination reg so
 +     * that the tcg backend can implement a "move if true" operation.
 +     */
 +    if (swap_commutative(op->args[0], &op->args[4], &op->args[3])) {
 +        op->args[5] = cond = tcg_invert_cond(cond);
 +    }
 +
 +    i = do_constant_folding_cond(ctx->type, op->args[1], op->args[2], cond);
      if (i >= 0) {
          return tcg_opt_gen_mov(ctx, op, op->args[0], op->args[4 - i]);
      }
@@ -XXX,XX +XXX,XX @@ static bool fold_mul(OptContext *ctx, TCGOp *op)
  static bool fold_mul_highpart(OptContext *ctx, TCGOp *op)
  {
 -    if (fold_const2(ctx, op) ||
 +    if (fold_const2_commutative(ctx, op) ||
          fold_xi_to_i(ctx, op, 0)) {
          return true;
      }
@@ -XXX,XX +XXX,XX @@ static bool fold_mul_highpart(OptContext *ctx, TCGOp *op)
  static bool fold_multiply2(OptContext *ctx, TCGOp *op)
  {
 +    swap_commutative(op->args[0], &op->args[2], &op->args[3]);
 +
      if (arg_is_const(op->args[2]) && arg_is_const(op->args[3])) {
          uint64_t a = arg_info(op->args[2])->val;
          uint64_t b = arg_info(op->args[3])->val;
@@ -XXX,XX +XXX,XX @@ static bool fold_multiply2(OptContext *ctx, TCGOp *op)
  static bool fold_nand(OptContext *ctx, TCGOp *op)
  {
 -    if (fold_const2(ctx, op) ||
 +    if (fold_const2_commutative(ctx, op) ||
          fold_xi_to_not(ctx, op, -1)) {
          return true;
      }
@@ -XXX,XX +XXX,XX @@ static bool fold_neg(OptContext *ctx, TCGOp *op)
  static bool fold_nor(OptContext *ctx, TCGOp *op)
  {
 -    if (fold_const2(ctx, op) ||
 +    if (fold_const2_commutative(ctx, op) ||
          fold_xi_to_not(ctx, op, 0)) {
          return true;
      }
@@ -XXX,XX +XXX,XX @@ static bool fold_not(OptContext *ctx, TCGOp *op)
  static bool fold_or(OptContext *ctx, TCGOp *op)
  {
 -    if (fold_const2(ctx, op) ||
 +    if (fold_const2_commutative(ctx, op) ||
          fold_xi_to_x(ctx, op, 0) ||
          fold_xx_to_x(ctx, op)) {
          return true;
@@ -XXX,XX +XXX,XX @@ static bool fold_remainder(OptContext *ctx, TCGOp *op)
  static bool fold_setcond(OptContext *ctx, TCGOp *op)
  {
      TCGCond cond = op->args[3];
 -    int i = do_constant_folding_cond(ctx->type, op->args[1], op->args[2], cond);
 +    int i;
 +    if (swap_commutative(op->args[0], &op->args[1], &op->args[2])) {
 +        op->args[3] = cond = tcg_swap_cond(cond);
 +    }
 +
 +    i = do_constant_folding_cond(ctx->type, op->args[1], op->args[2], cond);
      if (i >= 0) {
          return tcg_opt_gen_movi(ctx, op, op->args[0], i);
      }
@@ -XXX,XX +XXX,XX @@ static bool fold_setcond(OptContext *ctx, TCGOp *op)
  static bool fold_setcond2(OptContext *ctx, TCGOp *op)
  {
      TCGCond cond = op->args[5];
 -    int i = do_constant_folding_cond2(&op->args[1], &op->args[3], cond);
 -    int inv = 0;
 +    int i, inv = 0;
 +    if (swap_commutative2(&op->args[1], &op->args[3])) {
 +        op->args[5] = cond = tcg_swap_cond(cond);
 +    }
 +
 +    i = do_constant_folding_cond2(&op->args[1], &op->args[3], cond);
      if (i >= 0) {
          goto do_setcond_const;
      }
@@ -XXX,XX +XXX,XX @@ static bool fold_tcg_ld(OptContext *ctx, TCGOp *op)
  static bool fold_xor(OptContext *ctx, TCGOp *op)
  {
 -    if (fold_const2(ctx, op) ||
 +    if (fold_const2_commutative(ctx, op) ||
          fold_xx_to_i(ctx, op, 0) ||
          fold_xi_to_x(ctx, op, 0) ||
          fold_xi_to_not(ctx, op, -1)) {
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
              ctx.type = TCG_TYPE_I32;
          }
 -        /* For commutative operations make constant second argument */
 -        switch (opc) {
 -        CASE_OP_32_64_VEC(add):
 -        CASE_OP_32_64_VEC(mul):
 -        CASE_OP_32_64_VEC(and):
 -        CASE_OP_32_64_VEC(or):
 -        CASE_OP_32_64_VEC(xor):
 -        CASE_OP_32_64(eqv):
 -        CASE_OP_32_64(nand):
 -        CASE_OP_32_64(nor):
 -        CASE_OP_32_64(muluh):
 -        CASE_OP_32_64(mulsh):
 -            swap_commutative(op->args[0], &op->args[1], &op->args[2]);
 -            break;
 -        CASE_OP_32_64(brcond):
 -            if (swap_commutative(-1, &op->args[0], &op->args[1])) {
 -                op->args[2] = tcg_swap_cond(op->args[2]);
 -            }
 -            break;
 -        CASE_OP_32_64(setcond):
 -            if (swap_commutative(op->args[0], &op->args[1], &op->args[2])) {
 -                op->args[3] = tcg_swap_cond(op->args[3]);
 -            }
 -            break;
 -        CASE_OP_32_64(movcond):
 -            if (swap_commutative(-1, &op->args[1], &op->args[2])) {
 -                op->args[5] = tcg_swap_cond(op->args[5]);
 -            }
 -            /* For movcond, we canonicalize the "false" input reg to match
 -               the destination reg so that the tcg backend can implement
 -               a "move if true" operation.  */
 -            if (swap_commutative(op->args[0], &op->args[4], &op->args[3])) {
 -                op->args[5] = tcg_invert_cond(op->args[5]);
 -            }
 -            break;
 -        CASE_OP_32_64(add2):
 -            swap_commutative(op->args[0], &op->args[2], &op->args[4]);
 -            swap_commutative(op->args[1], &op->args[3], &op->args[5]);
 -            break;
 -        CASE_OP_32_64(mulu2):
 -        CASE_OP_32_64(muls2):
 -            swap_commutative(op->args[0], &op->args[2], &op->args[3]);
 -            break;
 -        case INDEX_op_brcond2_i32:
 -            if (swap_commutative2(&op->args[0], &op->args[2])) {
 -                op->args[4] = tcg_swap_cond(op->args[4]);
 -            }
 -            break;
 -        case INDEX_op_setcond2_i32:
 -            if (swap_commutative2(&op->args[1], &op->args[3])) {
 -                op->args[5] = tcg_swap_cond(op->args[5]);
 -            }
 -            break;
 -        default:
 -            break;
 -        }
 -
          /* Assume all bits affected, and no bits known zero. */
          ctx.a_mask = -1;
          ctx.z_mask = -1;
 --
-.25.1
+.34.1

-New patch
+[PULL 02/62] softmmu: Use memmove in flatview_write_continue
+From: Akihiko Odaki <akihiko.odaki@daynix.com>
+We found a case where the source passed to flatview_write_continue() may
+overlap with the destination when fuzzing igb, a new proposed network
+device with sanitizers.
+igb uses pci_dma_map() to get Tx packet, and pci_dma_write() to write Rx
+buffer. While pci_dma_write() is usually used to write data from
+memory not mapped to the guest, if igb is configured to perform
+loopback, the data will be sourced from the guest memory. The source and
+destination can overlap and the usage of memcpy() will be invalid in
+such a case.
+While we do not really have to deal with such an invalid request for
+igb, detecting the overlap in igb code beforehand requires complex code,
+and only covers this specific case. Instead, just replace memcpy() with
+memmove() to tolerate overlaps. Using memmove() will slightly damage the
+performance as it will need to check overlaps before using SIMD
+instructions for copying, but the cost should be negligible, considering
+the inherent complexity of flatview_write_continue().
+The test cases generated by the fuzzer is available at:
+https://patchew.org/QEMU/20230129053316.1071513-1-alxndr@bu.edu/
+The fixed test case is:
+fuzz/crash_47dfe62d9f911bf523ff48cd441b61c0013ed805
+Signed-off-by: Akihiko Odaki <akihiko.odaki@daynix.com>
+Acked-by: Alexander Bulekov <alxndr@bu.edu>
+Acked-by: David Hildenbrand <david@redhat.com>
+Message-Id: <20230131030155.18932-1-akihiko.odaki@daynix.com>
+Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
+---
+ softmmu/physmem.c | 2 +-
+file changed, 1 insertion(+), 1 deletion(-)
+diff --git a/softmmu/physmem.c b/softmmu/physmem.c
+index XXXXXXX..XXXXXXX 100644
+--- a/softmmu/physmem.c
++++ b/softmmu/physmem.c
+@@ -XXX,XX +XXX,XX @@ static MemTxResult flatview_write_continue(FlatView *fv, hwaddr addr,
+         } else {
+             /* RAM case */
+             ram_ptr = qemu_ram_ptr_length(mr->ram_block, addr1, &l, false);
+-            memcpy(ram_ptr, buf, l);
++            memmove(ram_ptr, buf, l);
+             invalidate_and_set_dirty(mr, addr1, l);
+         }
+--
+.34.1

-[PULL 40/56] tcg/optimize: Split out fold_sub_to_neg
+[PULL 03/62] accel/tcg: Add 'size' param to probe_access_flags()
-Even though there is only one user, place this more complex
+From: Daniel Henrique Barboza <dbarboza@ventanamicro.com>
 conversion into its own helper.
-Reviewed-by: Luis Pires <luis.pires@eldorado.org.br>
+probe_access_flags() as it is today uses probe_access_full(), which in
 turn uses probe_access_internal() with size = 0. probe_access_internal()
 then uses the size to call the tlb_fill() callback for the given CPU.
 This size param ('fault_size' as probe_access_internal() calls it) is
 ignored by most existing .tlb_fill callback implementations, e.g.
 arm_cpu_tlb_fill(), ppc_cpu_tlb_fill(), x86_cpu_tlb_fill() and
 mips_cpu_tlb_fill() to name a few.
 But RISC-V riscv_cpu_tlb_fill() actually uses it. The 'size' parameter
 is used to check for PMP (Physical Memory Protection) access. This is
 necessary because PMP does not make any guarantees about all the bytes
 of the same page having the same permissions, i.e. the same page can
 have different PMP properties, so we're forced to make sub-page range
 checks. To allow RISC-V emulation to do a probe_acess_flags() that
 covers PMP, we need to either add a 'size' param to the existing
 probe_acess_flags() or create a new interface (e.g.
 probe_access_range_flags).
 There are quite a few probe_* APIs already, so let's add a 'size' param
 to probe_access_flags() and re-use this API. This is done by open coding
 what probe_access_full() does inside probe_acess_flags() and passing the
 'size' param to probe_acess_internal(). Existing probe_access_flags()
 callers use size = 0 to not change their current API usage. 'size' is
 asserted to enforce single page access like probe_access() already does.
 No behavioral changes intended.
 Signed-off-by: Daniel Henrique Barboza <dbarboza@ventanamicro.com>
 Message-Id: <20230223234427.521114-2-dbarboza@ventanamicro.com>
 Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- tcg/optimize.c | 89 ++++++++++++++++++++++++++------------------------
+ include/exec/exec-all.h       |  3 ++-
-file changed, 47 insertions(+), 42 deletions(-)
+ accel/stubs/tcg-stub.c        |  2 +-
  accel/tcg/cputlb.c            | 17 ++++++++++++++---
  accel/tcg/user-exec.c         |  5 +++--
  semihosting/uaccess.c         |  2 +-
  target/arm/ptw.c              |  2 +-
  target/arm/tcg/sve_helper.c   |  2 +-
  target/s390x/tcg/mem_helper.c |  2 +-
 files changed, 24 insertions(+), 11 deletions(-)
-diff --git a/tcg/optimize.c b/tcg/optimize.c
+diff --git a/include/exec/exec-all.h b/include/exec/exec-all.h
 index XXXXXXX..XXXXXXX 100644
---- a/tcg/optimize.c
+--- a/include/exec/exec-all.h
-+++ b/tcg/optimize.c
++++ b/include/exec/exec-all.h
-@@ -XXX,XX +XXX,XX @@ static bool fold_nand(OptContext *ctx, TCGOp *op)
+@@ -XXX,XX +XXX,XX @@ static inline void *probe_read(CPUArchState *env, target_ulong addr, int size,
+  * probe_access_flags:
- static bool fold_neg(OptContext *ctx, TCGOp *op)
+  * @env: CPUArchState
   * @addr: guest virtual address to look up
 + * @size: size of the access
   * @access_type: read, write or execute permission
   * @mmu_idx: MMU index to use for lookup
   * @nonfault: suppress the fault
@@ -XXX,XX +XXX,XX @@ static inline void *probe_read(CPUArchState *env, target_ulong addr, int size,
   * Do handle clean pages, so exclude TLB_NOTDIRY from the returned flags.
   * For simplicity, all "mmio-like" flags are folded to TLB_MMIO.
   */
 -int probe_access_flags(CPUArchState *env, target_ulong addr,
 +int probe_access_flags(CPUArchState *env, target_ulong addr, int size,
                         MMUAccessType access_type, int mmu_idx,
                         bool nonfault, void **phost, uintptr_t retaddr);
 diff --git a/accel/stubs/tcg-stub.c b/accel/stubs/tcg-stub.c
 index XXXXXXX..XXXXXXX 100644
 --- a/accel/stubs/tcg-stub.c
 +++ b/accel/stubs/tcg-stub.c
@@ -XXX,XX +XXX,XX @@ void tcg_flush_jmp_cache(CPUState *cpu)
  {
--    return fold_const1(ctx, op);
-+    if (fold_const1(ctx, op)) {
-+        return true;
-+    }
-+    /*
-+     * Because of fold_sub_to_neg, we want to always return true,
-+     * via finish_folding.
-+     */
-+    finish_folding(ctx, op);
-+    return true;
  }
- static bool fold_nor(OptContext *ctx, TCGOp *op)
+-int probe_access_flags(CPUArchState *env, target_ulong addr,
-@@ -XXX,XX +XXX,XX @@ static bool fold_shift(OptContext *ctx, TCGOp *op)
++int probe_access_flags(CPUArchState *env, target_ulong addr, int size,
-     return fold_const2(ctx, op);
+                        MMUAccessType access_type, int mmu_idx,
                         bool nonfault, void **phost, uintptr_t retaddr)
  {
 diff --git a/accel/tcg/cputlb.c b/accel/tcg/cputlb.c
 index XXXXXXX..XXXXXXX 100644
 --- a/accel/tcg/cputlb.c
 +++ b/accel/tcg/cputlb.c
@@ -XXX,XX +XXX,XX @@ int probe_access_full(CPUArchState *env, target_ulong addr,
      return flags;
  }
-+static bool fold_sub_to_neg(OptContext *ctx, TCGOp *op)
+-int probe_access_flags(CPUArchState *env, target_ulong addr,
-+{
++int probe_access_flags(CPUArchState *env, target_ulong addr, int size,
-+    TCGOpcode neg_op;
+                        MMUAccessType access_type, int mmu_idx,
-+    bool have_neg;
+                        bool nonfault, void **phost, uintptr_t retaddr)
  {
      CPUTLBEntryFull *full;
 +    int flags;
 -    return probe_access_full(env, addr, access_type, mmu_idx,
 -                             nonfault, phost, &full, retaddr);
 +    g_assert(-(addr | TARGET_PAGE_MASK) >= size);
 +
-+    if (!arg_is_const(op->args[1]) || arg_info(op->args[1])->val != 0) {
++    flags = probe_access_internal(env, addr, size, access_type, mmu_idx,
-+        return false;
++                                  nonfault, phost, &full, retaddr);
 +
 +    /* Handle clean RAM pages. */
 +    if (unlikely(flags & TLB_NOTDIRTY)) {
 +        notdirty_write(env_cpu(env), addr, 1, full, retaddr);
 +        flags &= ~TLB_NOTDIRTY;
 +    }
 +
-+    switch (ctx->type) {
++    return flags;
-+    case TCG_TYPE_I32:
+ }
-+        neg_op = INDEX_op_neg_i32;
-+        have_neg = TCG_TARGET_HAS_neg_i32;
+ void *probe_access(CPUArchState *env, target_ulong addr, int size,
-+        break;
+diff --git a/accel/tcg/user-exec.c b/accel/tcg/user-exec.c
-+    case TCG_TYPE_I64:
+index XXXXXXX..XXXXXXX 100644
-+        neg_op = INDEX_op_neg_i64;
+--- a/accel/tcg/user-exec.c
-+        have_neg = TCG_TARGET_HAS_neg_i64;
++++ b/accel/tcg/user-exec.c
-+        break;
+@@ -XXX,XX +XXX,XX @@ static int probe_access_internal(CPUArchState *env, target_ulong addr,
-+    case TCG_TYPE_V64:
+     cpu_loop_exit_sigsegv(env_cpu(env), addr, access_type, maperr, ra);
-+    case TCG_TYPE_V128:
+ }
-+    case TCG_TYPE_V256:
-+        neg_op = INDEX_op_neg_vec;
+-int probe_access_flags(CPUArchState *env, target_ulong addr,
-+        have_neg = (TCG_TARGET_HAS_neg_vec &&
++int probe_access_flags(CPUArchState *env, target_ulong addr, int size,
-+                    tcg_can_emit_vec_op(neg_op, ctx->type, TCGOP_VECE(op)) > 0);
+                        MMUAccessType access_type, int mmu_idx,
-+        break;
+                        bool nonfault, void **phost, uintptr_t ra)
 +    default:
 +        g_assert_not_reached();
 +    }
 +    if (have_neg) {
 +        op->opc = neg_op;
 +        op->args[1] = op->args[2];
 +        return fold_neg(ctx, op);
 +    }
 +    return false;
 +}
 +
  static bool fold_sub(OptContext *ctx, TCGOp *op)
  {
-     if (fold_const2(ctx, op) ||
+     int flags;
--        fold_xx_to_i(ctx, op, 0)) {
-+        fold_xx_to_i(ctx, op, 0) ||
+-    flags = probe_access_internal(env, addr, 0, access_type, nonfault, ra);
-+        fold_sub_to_neg(ctx, op)) {
++    g_assert(-(addr | TARGET_PAGE_MASK) >= size);
-         return true;
++    flags = probe_access_internal(env, addr, size, access_type, nonfault, ra);
-     }
+     *phost = flags ? NULL : g2h(env_cpu(env), addr);
-     return false;
+     return flags;
-@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
+ }
-                 continue;
+diff --git a/semihosting/uaccess.c b/semihosting/uaccess.c
-             }
+index XXXXXXX..XXXXXXX 100644
-             break;
+--- a/semihosting/uaccess.c
--        CASE_OP_32_64_VEC(sub):
++++ b/semihosting/uaccess.c
--            {
+@@ -XXX,XX +XXX,XX @@ ssize_t softmmu_strlen_user(CPUArchState *env, target_ulong addr)
--                TCGOpcode neg_op;
+         /* Find the number of bytes remaining in the page. */
--                bool have_neg;
+         left_in_page = TARGET_PAGE_SIZE - (addr & ~TARGET_PAGE_MASK);
--
--                if (arg_is_const(op->args[2])) {
+-        flags = probe_access_flags(env, addr, MMU_DATA_LOAD,
--                    /* Proceed with possible constant folding. */
++        flags = probe_access_flags(env, addr, 0, MMU_DATA_LOAD,
--                    break;
+                                    mmu_idx, true, &h, 0);
--                }
+         if (flags & TLB_INVALID_MASK) {
--                switch (ctx.type) {
+             return -1;
--                case TCG_TYPE_I32:
+diff --git a/target/arm/ptw.c b/target/arm/ptw.c
--                    neg_op = INDEX_op_neg_i32;
+index XXXXXXX..XXXXXXX 100644
--                    have_neg = TCG_TARGET_HAS_neg_i32;
+--- a/target/arm/ptw.c
--                    break;
++++ b/target/arm/ptw.c
--                case TCG_TYPE_I64:
+@@ -XXX,XX +XXX,XX @@ static uint64_t arm_casq_ptw(CPUARMState *env, uint64_t old_val,
--                    neg_op = INDEX_op_neg_i64;
+         void *discard;
--                    have_neg = TCG_TARGET_HAS_neg_i64;
--                    break;
+         env->tlb_fi = fi;
--                case TCG_TYPE_V64:
+-        flags = probe_access_flags(env, ptw->out_virt, MMU_DATA_STORE,
--                case TCG_TYPE_V128:
++        flags = probe_access_flags(env, ptw->out_virt, 0, MMU_DATA_STORE,
--                case TCG_TYPE_V256:
+                                    arm_to_core_mmu_idx(ptw->in_ptw_idx),
--                    neg_op = INDEX_op_neg_vec;
+                                    true, &discard, 0);
--                    have_neg = tcg_can_emit_vec_op(neg_op, ctx.type,
+         env->tlb_fi = NULL;
--                                                   TCGOP_VECE(op)) > 0;
+diff --git a/target/arm/tcg/sve_helper.c b/target/arm/tcg/sve_helper.c
--                    break;
+index XXXXXXX..XXXXXXX 100644
--                default:
+--- a/target/arm/tcg/sve_helper.c
--                    g_assert_not_reached();
++++ b/target/arm/tcg/sve_helper.c
--                }
+@@ -XXX,XX +XXX,XX @@ bool sve_probe_page(SVEHostPage *info, bool nofault, CPUARMState *env,
--                if (!have_neg) {
+     addr = useronly_clean_ptr(addr);
--                    break;
--                }
+ #ifdef CONFIG_USER_ONLY
--                if (arg_is_const(op->args[1])
+-    flags = probe_access_flags(env, addr, access_type, mmu_idx, nofault,
--                    && arg_info(op->args[1])->val == 0) {
++    flags = probe_access_flags(env, addr, 0, access_type, mmu_idx, nofault,
--                    op->opc = neg_op;
+                                &info->host, retaddr);
--                    reset_temp(op->args[0]);
+ #else
--                    op->args[1] = op->args[2];
+     CPUTLBEntryFull *full;
--                    continue;
+diff --git a/target/s390x/tcg/mem_helper.c b/target/s390x/tcg/mem_helper.c
--                }
+index XXXXXXX..XXXXXXX 100644
--            }
+--- a/target/s390x/tcg/mem_helper.c
--            break;
++++ b/target/s390x/tcg/mem_helper.c
-         default:
+@@ -XXX,XX +XXX,XX @@ static inline int s390_probe_access(CPUArchState *env, target_ulong addr,
-             break;
+                                     int mmu_idx, bool nonfault,
-         }
+                                     void **phost, uintptr_t ra)
  {
 -    int flags = probe_access_flags(env, addr, access_type, mmu_idx,
 +    int flags = probe_access_flags(env, addr, 0, access_type, mmu_idx,
                                     nonfault, phost, ra);
      if (unlikely(flags & TLB_INVALID_MASK)) {
 --
-.25.1
+.34.1

-[PULL 42/56] tcg/optimize: Split out fold_ix_to_i
+[PULL 04/62] accel/tcg: Add 'size' param to probe_access_full
-Pull the "op r, 0, b => movi r, 0" optimization into a function,
+Change to match the recent change to probe_access_flags.
-and use it in fold_shift.
+All existing callers updated to supply 0, so no change in behaviour.
-Reviewed-by: Luis Pires <luis.pires@eldorado.org.br>
+Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
-Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
+Reviewed-by: Daniel Henrique Barboza <dbarboza@ventanamicro.com>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- tcg/optimize.c | 28 ++++++++++------------------
+ include/exec/exec-all.h              | 2 +-
-file changed, 10 insertions(+), 18 deletions(-)
+ accel/tcg/cputlb.c                   | 4 ++--
  target/arm/ptw.c                     | 2 +-
  target/arm/tcg/mte_helper.c          | 4 ++--
  target/arm/tcg/sve_helper.c          | 2 +-
  target/arm/tcg/translate-a64.c       | 2 +-
  target/i386/tcg/sysemu/excp_helper.c | 4 ++--
 files changed, 10 insertions(+), 10 deletions(-)
-diff --git a/tcg/optimize.c b/tcg/optimize.c
+diff --git a/include/exec/exec-all.h b/include/exec/exec-all.h
 index XXXXXXX..XXXXXXX 100644
---- a/tcg/optimize.c
+--- a/include/exec/exec-all.h
-+++ b/tcg/optimize.c
++++ b/include/exec/exec-all.h
-@@ -XXX,XX +XXX,XX @@ static bool fold_to_not(OptContext *ctx, TCGOp *op, int idx)
+@@ -XXX,XX +XXX,XX @@ int probe_access_flags(CPUArchState *env, target_ulong addr, int size,
-     return false;
+  * and must be consumed or copied immediately, before any further
   * access or changes to TLB @mmu_idx.
   */
 -int probe_access_full(CPUArchState *env, target_ulong addr,
 +int probe_access_full(CPUArchState *env, target_ulong addr, int size,
                        MMUAccessType access_type, int mmu_idx,
                        bool nonfault, void **phost,
                        CPUTLBEntryFull **pfull, uintptr_t retaddr);
 diff --git a/accel/tcg/cputlb.c b/accel/tcg/cputlb.c
 index XXXXXXX..XXXXXXX 100644
 --- a/accel/tcg/cputlb.c
 +++ b/accel/tcg/cputlb.c
@@ -XXX,XX +XXX,XX @@ static int probe_access_internal(CPUArchState *env, target_ulong addr,
      return flags;
  }
-+/* If the binary operation has first argument @i, fold to @i. */
+-int probe_access_full(CPUArchState *env, target_ulong addr,
-+static bool fold_ix_to_i(OptContext *ctx, TCGOp *op, uint64_t i)
++int probe_access_full(CPUArchState *env, target_ulong addr, int size,
-+{
+                       MMUAccessType access_type, int mmu_idx,
-+    if (arg_is_const(op->args[1]) && arg_info(op->args[1])->val == i) {
+                       bool nonfault, void **phost, CPUTLBEntryFull **pfull,
-+        return tcg_opt_gen_movi(ctx, op, op->args[0], i);
+                       uintptr_t retaddr)
 +    }
 +    return false;
 +}
 +
  /* If the binary operation has first argument @i, fold to NOT. */
  static bool fold_ix_to_not(OptContext *ctx, TCGOp *op, uint64_t i)
  {
-@@ -XXX,XX +XXX,XX @@ static bool fold_sextract(OptContext *ctx, TCGOp *op)
+-    int flags = probe_access_internal(env, addr, 0, access_type, mmu_idx,
- static bool fold_shift(OptContext *ctx, TCGOp *op)
++    int flags = probe_access_internal(env, addr, size, access_type, mmu_idx,
- {
+                                       nonfault, phost, pfull, retaddr);
-     if (fold_const2(ctx, op) ||
-+        fold_ix_to_i(ctx, op, 0) ||
+     /* Handle clean RAM pages.  */
-         fold_xi_to_x(ctx, op, 0)) {
+diff --git a/target/arm/ptw.c b/target/arm/ptw.c
-         return true;
+index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/ptw.c
 +++ b/target/arm/ptw.c
@@ -XXX,XX +XXX,XX @@ static bool S1_ptw_translate(CPUARMState *env, S1Translate *ptw,
          int flags;
          env->tlb_fi = fi;
 -        flags = probe_access_full(env, addr, MMU_DATA_LOAD,
 +        flags = probe_access_full(env, addr, 0, MMU_DATA_LOAD,
                                    arm_to_core_mmu_idx(s2_mmu_idx),
                                    true, &ptw->out_host, &full, 0);
          env->tlb_fi = NULL;
 diff --git a/target/arm/tcg/mte_helper.c b/target/arm/tcg/mte_helper.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/tcg/mte_helper.c
 +++ b/target/arm/tcg/mte_helper.c
@@ -XXX,XX +XXX,XX @@ static uint8_t *allocation_tag_mem(CPUARMState *env, int ptr_mmu_idx,
       * valid.  Indicate to probe_access_flags no-fault, then assert that
       * we received a valid page.
       */
 -    flags = probe_access_full(env, ptr, ptr_access, ptr_mmu_idx,
 +    flags = probe_access_full(env, ptr, 0, ptr_access, ptr_mmu_idx,
                                ra == 0, &host, &full, ra);
      assert(!(flags & TLB_INVALID_MASK));
@@ -XXX,XX +XXX,XX @@ static uint8_t *allocation_tag_mem(CPUARMState *env, int ptr_mmu_idx,
       */
      in_page = -(ptr | TARGET_PAGE_MASK);
      if (unlikely(ptr_size > in_page)) {
 -        flags |= probe_access_full(env, ptr + in_page, ptr_access,
 +        flags |= probe_access_full(env, ptr + in_page, 0, ptr_access,
                                     ptr_mmu_idx, ra == 0, &host, &full, ra);
          assert(!(flags & TLB_INVALID_MASK));
      }
-@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
+diff --git a/target/arm/tcg/sve_helper.c b/target/arm/tcg/sve_helper.c
-             break;
+index XXXXXXX..XXXXXXX 100644
-         }
+--- a/target/arm/tcg/sve_helper.c
++++ b/target/arm/tcg/sve_helper.c
--        /* Simplify expressions for "shift/rot r, 0, a => movi r, 0",
+@@ -XXX,XX +XXX,XX @@ bool sve_probe_page(SVEHostPage *info, bool nofault, CPUARMState *env,
--           and "sub r, 0, a => neg r, a" case.  */
+                                &info->host, retaddr);
--        switch (opc) {
+ #else
--        CASE_OP_32_64(shl):
+     CPUTLBEntryFull *full;
--        CASE_OP_32_64(shr):
+-    flags = probe_access_full(env, addr, access_type, mmu_idx, nofault,
--        CASE_OP_32_64(sar):
++    flags = probe_access_full(env, addr, 0, access_type, mmu_idx, nofault,
--        CASE_OP_32_64(rotl):
+                               &info->host, &full, retaddr);
--        CASE_OP_32_64(rotr):
+ #endif
--            if (arg_is_const(op->args[1])
+     info->flags = flags;
--                && arg_info(op->args[1])->val == 0) {
+diff --git a/target/arm/tcg/translate-a64.c b/target/arm/tcg/translate-a64.c
--                tcg_opt_gen_movi(&ctx, op, op->args[0], 0);
+index XXXXXXX..XXXXXXX 100644
--                continue;
+--- a/target/arm/tcg/translate-a64.c
--            }
++++ b/target/arm/tcg/translate-a64.c
--            break;
+@@ -XXX,XX +XXX,XX @@ static bool is_guarded_page(CPUARMState *env, DisasContext *s)
--        default:
+      * that the TLB entry must be present and valid, and thus this
--            break;
+      * access will never raise an exception.
--        }
+      */
--
+-    flags = probe_access_full(env, addr, MMU_INST_FETCH, mmu_idx,
-         /* Simplify using known-zero bits. Currently only ops with a single
++    flags = probe_access_full(env, addr, 0, MMU_INST_FETCH, mmu_idx,
-            output argument is supported. */
+                               false, &host, &full, 0);
-         z_mask = -1;
+     assert(!(flags & TLB_INVALID_MASK));
 diff --git a/target/i386/tcg/sysemu/excp_helper.c b/target/i386/tcg/sysemu/excp_helper.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/i386/tcg/sysemu/excp_helper.c
 +++ b/target/i386/tcg/sysemu/excp_helper.c
@@ -XXX,XX +XXX,XX @@ static bool ptw_translate(PTETranslate *inout, hwaddr addr)
      int flags;
      inout->gaddr = addr;
 -    flags = probe_access_full(inout->env, addr, MMU_DATA_STORE,
 +    flags = probe_access_full(inout->env, addr, 0, MMU_DATA_STORE,
                                inout->ptw_idx, true, &inout->haddr, &full, 0);
      if (unlikely(flags & TLB_INVALID_MASK)) {
@@ -XXX,XX +XXX,XX @@ do_check_protect_pse36:
          CPUTLBEntryFull *full;
          int flags, nested_page_size;
 -        flags = probe_access_full(env, paddr, access_type,
 +        flags = probe_access_full(env, paddr, 0, access_type,
                                    MMU_NESTED_IDX, true,
                                    &pte_trans.haddr, &full, 0);
          if (unlikely(flags & TLB_INVALID_MASK)) {
 --
-.25.1
+.34.1

-[PULL 37/56] tcg/optimize: Split out fold_xi_to_i
+[PULL 05/62] include/exec: Introduce `CF_PCREL`
-Pull the "op r, a, 0 => movi r, 0" optimization into a function,
+From: Anton Johansson via <qemu-devel@nongnu.org>
 and use it in the outer opcode fold functions.
-Reviewed-by: Luis Pires <luis.pires@eldorado.org.br>
+Adds a new field to TranslationBlock.cflags denoting whether or not the
-Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
+instructions of a given translation block are pc-relative. This field
 aims to replace the macro `TARGET_TB_PCREL`.
 Signed-off-by: Anton Johansson <anjo@rev.ng>
 Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
 Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
 Message-Id: <20230227135202.9710-2-anjo@rev.ng>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- tcg/optimize.c | 38 ++++++++++++++++++++------------------
+ include/exec/exec-all.h | 1 +
-file changed, 20 insertions(+), 18 deletions(-)
+file changed, 1 insertion(+)
-diff --git a/tcg/optimize.c b/tcg/optimize.c
+diff --git a/include/exec/exec-all.h b/include/exec/exec-all.h
 index XXXXXXX..XXXXXXX 100644
---- a/tcg/optimize.c
+--- a/include/exec/exec-all.h
-+++ b/tcg/optimize.c
++++ b/include/exec/exec-all.h
-@@ -XXX,XX +XXX,XX @@ static bool fold_const2(OptContext *ctx, TCGOp *op)
+@@ -XXX,XX +XXX,XX @@ struct TranslationBlock {
-     return false;
+ #define CF_INVALID       0x00040000 /* TB is stale. Set with @jmp_lock held */
- }
+ #define CF_PARALLEL      0x00080000 /* Generate code for a parallel context */
+ #define CF_NOIRQ         0x00100000 /* Generate an uninterruptible TB */
-+/* If the binary operation has second argument @i, fold to @i. */
++#define CF_PCREL         0x00200000 /* Opcodes in TB are PC-relative */
-+static bool fold_xi_to_i(OptContext *ctx, TCGOp *op, uint64_t i)
+ #define CF_CLUSTER_MASK  0xff000000 /* Top 8 bits are cluster ID */
-+{
+ #define CF_CLUSTER_SHIFT 24
-+    if (arg_is_const(op->args[2]) && arg_info(op->args[2])->val == i) {
 +        return tcg_opt_gen_movi(ctx, op, op->args[0], i);
 +    }
 +    return false;
 +}
 +
  /* If the binary operation has both arguments equal, fold to @i. */
  static bool fold_xx_to_i(OptContext *ctx, TCGOp *op, uint64_t i)
  {
@@ -XXX,XX +XXX,XX @@ static bool fold_add2_i32(OptContext *ctx, TCGOp *op)
  static bool fold_and(OptContext *ctx, TCGOp *op)
  {
      if (fold_const2(ctx, op) ||
 +        fold_xi_to_i(ctx, op, 0) ||
          fold_xx_to_x(ctx, op)) {
          return true;
      }
@@ -XXX,XX +XXX,XX @@ static bool fold_movcond(OptContext *ctx, TCGOp *op)
  static bool fold_mul(OptContext *ctx, TCGOp *op)
  {
 -    return fold_const2(ctx, op);
 +    if (fold_const2(ctx, op) ||
 +        fold_xi_to_i(ctx, op, 0)) {
 +        return true;
 +    }
 +    return false;
  }
  static bool fold_mul_highpart(OptContext *ctx, TCGOp *op)
  {
 -    return fold_const2(ctx, op);
 +    if (fold_const2(ctx, op) ||
 +        fold_xi_to_i(ctx, op, 0)) {
 +        return true;
 +    }
 +    return false;
  }
  static bool fold_mulu2_i32(OptContext *ctx, TCGOp *op)
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
              continue;
          }
 -        /* Simplify expression for "op r, a, 0 => movi r, 0" cases */
 -        switch (opc) {
 -        CASE_OP_32_64_VEC(and):
 -        CASE_OP_32_64_VEC(mul):
 -        CASE_OP_32_64(muluh):
 -        CASE_OP_32_64(mulsh):
 -            if (arg_is_const(op->args[2])
 -                && arg_info(op->args[2])->val == 0) {
 -                tcg_opt_gen_movi(&ctx, op, op->args[0], 0);
 -                continue;
 -            }
 -            break;
 -        default:
 -            break;
 -        }
 -
          /*
           * Process each opcode.
           * Sorted alphabetically by opcode as much as possible.
 --
-.25.1
+.34.1

-[PULL 36/56] tcg/optimize: Split out fold_xx_to_x
+[PULL 06/62] target/i386: set `CF_PCREL` in `x86_cpu_realizefn`
-Pull the "op r, a, a => mov r, a" optimization into a function,
+From: Anton Johansson via <qemu-devel@nongnu.org>
 and use it in the outer opcode fold functions.
-Reviewed-by: Luis Pires <luis.pires@eldorado.org.br>
+Signed-off-by: Anton Johansson <anjo@rev.ng>
-Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
+Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
 Message-Id: <20230227135202.9710-3-anjo@rev.ng>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- tcg/optimize.c | 39 ++++++++++++++++++++++++---------------
+ target/i386/cpu.c | 5 +++++
-file changed, 24 insertions(+), 15 deletions(-)
+file changed, 5 insertions(+)
-diff --git a/tcg/optimize.c b/tcg/optimize.c
+diff --git a/target/i386/cpu.c b/target/i386/cpu.c
 index XXXXXXX..XXXXXXX 100644
---- a/tcg/optimize.c
+--- a/target/i386/cpu.c
-+++ b/tcg/optimize.c
++++ b/target/i386/cpu.c
-@@ -XXX,XX +XXX,XX @@ static bool fold_xx_to_i(OptContext *ctx, TCGOp *op, uint64_t i)
+@@ -XXX,XX +XXX,XX @@ static void x86_cpu_realizefn(DeviceState *dev, Error **errp)
-     return false;
+     static bool ht_warned;
- }
+     unsigned requested_lbr_fmt;
-+/* If the binary operation has both arguments equal, fold to identity. */
++    /* Use pc-relative instructions in system-mode */
-+static bool fold_xx_to_x(OptContext *ctx, TCGOp *op)
++#ifndef CONFIG_USER_ONLY
-+{
++    cs->tcg_cflags |= CF_PCREL;
-+    if (args_are_copies(op->args[1], op->args[2])) {
++#endif
 +        return tcg_opt_gen_mov(ctx, op, op->args[0], op->args[1]);
 +    }
 +    return false;
 +}
 +
- /*
+     if (cpu->apic_id == UNASSIGNED_APIC_ID) {
-  * These outermost fold_<op> functions are sorted alphabetically.
+         error_setg(errp, "apic-id property was not initialized properly");
-+ *
+         return;
 + * The ordering of the transformations should be:
 + *   1) those that produce a constant
 + *   2) those that produce a copy
 + *   3) those that produce information about the result value.
   */
  static bool fold_add(OptContext *ctx, TCGOp *op)
@@ -XXX,XX +XXX,XX @@ static bool fold_add2_i32(OptContext *ctx, TCGOp *op)
  static bool fold_and(OptContext *ctx, TCGOp *op)
  {
 -    return fold_const2(ctx, op);
 +    if (fold_const2(ctx, op) ||
 +        fold_xx_to_x(ctx, op)) {
 +        return true;
 +    }
 +    return false;
  }
  static bool fold_andc(OptContext *ctx, TCGOp *op)
@@ -XXX,XX +XXX,XX @@ static bool fold_not(OptContext *ctx, TCGOp *op)
  static bool fold_or(OptContext *ctx, TCGOp *op)
  {
 -    return fold_const2(ctx, op);
 +    if (fold_const2(ctx, op) ||
 +        fold_xx_to_x(ctx, op)) {
 +        return true;
 +    }
 +    return false;
  }
  static bool fold_orc(OptContext *ctx, TCGOp *op)
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
              break;
          }
 -        /* Simplify expression for "op r, a, a => mov r, a" cases */
 -        switch (opc) {
 -        CASE_OP_32_64_VEC(or):
 -        CASE_OP_32_64_VEC(and):
 -            if (args_are_copies(op->args[1], op->args[2])) {
 -                tcg_opt_gen_mov(&ctx, op, op->args[0], op->args[1]);
 -                continue;
 -            }
 -            break;
 -        default:
 -            break;
 -        }
 -
          /*
           * Process each opcode.
           * Sorted alphabetically by opcode as much as possible.
 --
-.25.1
+.34.1

-New patch
+[PULL 07/62] target/arm: set `CF_PCREL` in `arm_cpu_realizefn`
+From: Anton Johansson via <qemu-devel@nongnu.org>
+Signed-off-by: Anton Johansson <anjo@rev.ng>
+Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
+Message-Id: <20230227135202.9710-4-anjo@rev.ng>
+Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
+---
+ target/arm/cpu.c | 5 +++++
+file changed, 5 insertions(+)
+diff --git a/target/arm/cpu.c b/target/arm/cpu.c
+index XXXXXXX..XXXXXXX 100644
+--- a/target/arm/cpu.c
++++ b/target/arm/cpu.c
+@@ -XXX,XX +XXX,XX @@ static void arm_cpu_realizefn(DeviceState *dev, Error **errp)
+     Error *local_err = NULL;
+     bool no_aa32 = false;
++    /* Use pc-relative instructions in system-mode */
++#ifndef CONFIG_USER_ONLY
++    cs->tcg_cflags |= CF_PCREL;
++#endif
++
+     /* If we needed to query the host kernel for the CPU features
+      * then it's possible that might have failed in the initfn, but
+      * this is the first point where we can report it.
+--
+.34.1

-New patch
+[PULL 08/62] accel/tcg: Replace `TARGET_TB_PCREL` with `CF_PCREL`
+From: Anton Johansson via <qemu-devel@nongnu.org>
 Signed-off-by: Anton Johansson <anjo@rev.ng>
 Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
 Message-Id: <20230227135202.9710-5-anjo@rev.ng>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
  accel/tcg/internal.h      | 10 ++++----
  accel/tcg/tb-jmp-cache.h  | 48 +++++++++++++++++++--------------------
  accel/tcg/cpu-exec.c      |  8 +++----
  accel/tcg/perf.c          |  2 +-
  accel/tcg/tb-maint.c      |  8 +++----
  accel/tcg/translate-all.c | 14 ++++++------
 files changed, 44 insertions(+), 46 deletions(-)
 diff --git a/accel/tcg/internal.h b/accel/tcg/internal.h
 index XXXXXXX..XXXXXXX 100644
 --- a/accel/tcg/internal.h
 +++ b/accel/tcg/internal.h
@@ -XXX,XX +XXX,XX @@ void cpu_restore_state_from_tb(CPUState *cpu, TranslationBlock *tb,
  /* Return the current PC from CPU, which may be cached in TB. */
  static inline target_ulong log_pc(CPUState *cpu, const TranslationBlock *tb)
  {
 -#if TARGET_TB_PCREL
 -    return cpu->cc->get_pc(cpu);
 -#else
 -    return tb_pc(tb);
 -#endif
 +    if (tb_cflags(tb) & CF_PCREL) {
 +        return cpu->cc->get_pc(cpu);
 +    } else {
 +        return tb_pc(tb);
 +    }
  }
  extern int64_t max_delay;
 diff --git a/accel/tcg/tb-jmp-cache.h b/accel/tcg/tb-jmp-cache.h
 index XXXXXXX..XXXXXXX 100644
 --- a/accel/tcg/tb-jmp-cache.h
 +++ b/accel/tcg/tb-jmp-cache.h
@@ -XXX,XX +XXX,XX @@
  /*
   * Accessed in parallel; all accesses to 'tb' must be atomic.
 - * For TARGET_TB_PCREL, accesses to 'pc' must be protected by
 - * a load_acquire/store_release to 'tb'.
 + * For CF_PCREL, accesses to 'pc' must be protected by a
 + * load_acquire/store_release to 'tb'.
   */
  struct CPUJumpCache {
      struct rcu_head rcu;
      struct {
          TranslationBlock *tb;
 -#if TARGET_TB_PCREL
          target_ulong pc;
 -#endif
      } array[TB_JMP_CACHE_SIZE];
  };
  static inline TranslationBlock *
 -tb_jmp_cache_get_tb(CPUJumpCache *jc, uint32_t hash)
 +tb_jmp_cache_get_tb(CPUJumpCache *jc, uint32_t cflags, uint32_t hash)
  {
 -#if TARGET_TB_PCREL
 -    /* Use acquire to ensure current load of pc from jc. */
 -    return qatomic_load_acquire(&jc->array[hash].tb);
 -#else
 -    /* Use rcu_read to ensure current load of pc from *tb. */
 -    return qatomic_rcu_read(&jc->array[hash].tb);
 -#endif
 +    if (cflags & CF_PCREL) {
 +        /* Use acquire to ensure current load of pc from jc. */
 +        return qatomic_load_acquire(&jc->array[hash].tb);
 +    } else {
 +        /* Use rcu_read to ensure current load of pc from *tb. */
 +        return qatomic_rcu_read(&jc->array[hash].tb);
 +    }
  }
  static inline target_ulong
  tb_jmp_cache_get_pc(CPUJumpCache *jc, uint32_t hash, TranslationBlock *tb)
  {
 -#if TARGET_TB_PCREL
 -    return jc->array[hash].pc;
 -#else
 -    return tb_pc(tb);
 -#endif
 +    if (tb_cflags(tb) & CF_PCREL) {
 +        return jc->array[hash].pc;
 +    } else {
 +        return tb_pc(tb);
 +    }
  }
  static inline void
  tb_jmp_cache_set(CPUJumpCache *jc, uint32_t hash,
                   TranslationBlock *tb, target_ulong pc)
  {
 -#if TARGET_TB_PCREL
 -    jc->array[hash].pc = pc;
 -    /* Use store_release on tb to ensure pc is written first. */
 -    qatomic_store_release(&jc->array[hash].tb, tb);
 -#else
 -    /* Use the pc value already stored in tb->pc. */
 -    qatomic_set(&jc->array[hash].tb, tb);
 -#endif
 +    if (tb_cflags(tb) & CF_PCREL) {
 +        jc->array[hash].pc = pc;
 +        /* Use store_release on tb to ensure pc is written first. */
 +        qatomic_store_release(&jc->array[hash].tb, tb);
 +    } else{
 +        /* Use the pc value already stored in tb->pc. */
 +        qatomic_set(&jc->array[hash].tb, tb);
 +    }
  }
  #endif /* ACCEL_TCG_TB_JMP_CACHE_H */
 diff --git a/accel/tcg/cpu-exec.c b/accel/tcg/cpu-exec.c
 index XXXXXXX..XXXXXXX 100644
 --- a/accel/tcg/cpu-exec.c
 +++ b/accel/tcg/cpu-exec.c
@@ -XXX,XX +XXX,XX @@ static bool tb_lookup_cmp(const void *p, const void *d)
      const TranslationBlock *tb = p;
      const struct tb_desc *desc = d;
 -    if ((TARGET_TB_PCREL || tb_pc(tb) == desc->pc) &&
 +    if ((tb_cflags(tb) & CF_PCREL || tb_pc(tb) == desc->pc) &&
          tb_page_addr0(tb) == desc->page_addr0 &&
          tb->cs_base == desc->cs_base &&
          tb->flags == desc->flags &&
@@ -XXX,XX +XXX,XX @@ static TranslationBlock *tb_htable_lookup(CPUState *cpu, target_ulong pc,
          return NULL;
      }
      desc.page_addr0 = phys_pc;
 -    h = tb_hash_func(phys_pc, (TARGET_TB_PCREL ? 0 : pc),
 +    h = tb_hash_func(phys_pc, (cflags & CF_PCREL ? 0 : pc),
                       flags, cflags, *cpu->trace_dstate);
      return qht_lookup_custom(&tb_ctx.htable, &desc, h, tb_lookup_cmp);
  }
@@ -XXX,XX +XXX,XX @@ static inline TranslationBlock *tb_lookup(CPUState *cpu, target_ulong pc,
      hash = tb_jmp_cache_hash_func(pc);
      jc = cpu->tb_jmp_cache;
 -    tb = tb_jmp_cache_get_tb(jc, hash);
 +    tb = tb_jmp_cache_get_tb(jc, cflags, hash);
      if (likely(tb &&
                 tb_jmp_cache_get_pc(jc, hash, tb) == pc &&
@@ -XXX,XX +XXX,XX @@ cpu_tb_exec(CPUState *cpu, TranslationBlock *itb, int *tb_exit)
          if (cc->tcg_ops->synchronize_from_tb) {
              cc->tcg_ops->synchronize_from_tb(cpu, last_tb);
          } else {
 -            assert(!TARGET_TB_PCREL);
 +            tcg_debug_assert(!(tb_cflags(last_tb) & CF_PCREL));
              assert(cc->set_pc);
              cc->set_pc(cpu, tb_pc(last_tb));
          }
 diff --git a/accel/tcg/perf.c b/accel/tcg/perf.c
 index XXXXXXX..XXXXXXX 100644
 --- a/accel/tcg/perf.c
 +++ b/accel/tcg/perf.c
@@ -XXX,XX +XXX,XX @@ void perf_report_code(uint64_t guest_pc, TranslationBlock *tb,
      for (insn = 0; insn < tb->icount; insn++) {
          /* FIXME: This replicates the restore_state_to_opc() logic. */
          q[insn].address = tcg_ctx->gen_insn_data[insn][0];
 -        if (TARGET_TB_PCREL) {
 +        if (tb_cflags(tb) & CF_PCREL) {
              q[insn].address |= (guest_pc & TARGET_PAGE_MASK);
          } else {
  #if defined(TARGET_I386)
 diff --git a/accel/tcg/tb-maint.c b/accel/tcg/tb-maint.c
 index XXXXXXX..XXXXXXX 100644
 --- a/accel/tcg/tb-maint.c
 +++ b/accel/tcg/tb-maint.c
@@ -XXX,XX +XXX,XX @@ static bool tb_cmp(const void *ap, const void *bp)
      const TranslationBlock *a = ap;
      const TranslationBlock *b = bp;
 -    return ((TARGET_TB_PCREL || tb_pc(a) == tb_pc(b)) &&
 +    return ((tb_cflags(a) & CF_PCREL || tb_pc(a) == tb_pc(b)) &&
              a->cs_base == b->cs_base &&
              a->flags == b->flags &&
              (tb_cflags(a) & ~CF_INVALID) == (tb_cflags(b) & ~CF_INVALID) &&
@@ -XXX,XX +XXX,XX @@ static void tb_jmp_cache_inval_tb(TranslationBlock *tb)
  {
      CPUState *cpu;
 -    if (TARGET_TB_PCREL) {
 +    if (tb_cflags(tb) & CF_PCREL) {
          /* A TB may be at any virtual address */
          CPU_FOREACH(cpu) {
              tcg_flush_jmp_cache(cpu);
@@ -XXX,XX +XXX,XX @@ static void do_tb_phys_invalidate(TranslationBlock *tb, bool rm_from_page_list)
      /* remove the TB from the hash list */
      phys_pc = tb_page_addr0(tb);
 -    h = tb_hash_func(phys_pc, (TARGET_TB_PCREL ? 0 : tb_pc(tb)),
 +    h = tb_hash_func(phys_pc, (orig_cflags & CF_PCREL ? 0 : tb_pc(tb)),
                       tb->flags, orig_cflags, tb->trace_vcpu_dstate);
      if (!qht_remove(&tb_ctx.htable, tb, h)) {
          return;
@@ -XXX,XX +XXX,XX @@ TranslationBlock *tb_link_page(TranslationBlock *tb, tb_page_addr_t phys_pc,
      tb_record(tb, p, p2);
      /* add in the hash table */
 -    h = tb_hash_func(phys_pc, (TARGET_TB_PCREL ? 0 : tb_pc(tb)),
 +    h = tb_hash_func(phys_pc, (tb->cflags & CF_PCREL ? 0 : tb_pc(tb)),
                       tb->flags, tb->cflags, tb->trace_vcpu_dstate);
      qht_insert(&tb_ctx.htable, tb, h, &existing_tb);
 diff --git a/accel/tcg/translate-all.c b/accel/tcg/translate-all.c
 index XXXXXXX..XXXXXXX 100644
 --- a/accel/tcg/translate-all.c
 +++ b/accel/tcg/translate-all.c
@@ -XXX,XX +XXX,XX @@ static int encode_search(TranslationBlock *tb, uint8_t *block)
          for (j = 0; j < TARGET_INSN_START_WORDS; ++j) {
              if (i == 0) {
 -                prev = (!TARGET_TB_PCREL && j == 0 ? tb_pc(tb) : 0);
 +                prev = (!(tb_cflags(tb) & CF_PCREL) && j == 0 ? tb_pc(tb) : 0);
              } else {
                  prev = tcg_ctx->gen_insn_data[i - 1][j];
              }
@@ -XXX,XX +XXX,XX @@ static int cpu_unwind_data_from_tb(TranslationBlock *tb, uintptr_t host_pc,
      }
      memset(data, 0, sizeof(uint64_t) * TARGET_INSN_START_WORDS);
 -    if (!TARGET_TB_PCREL) {
 +    if (!(tb_cflags(tb) & CF_PCREL)) {
          data[0] = tb_pc(tb);
      }
@@ -XXX,XX +XXX,XX @@ TranslationBlock *tb_gen_code(CPUState *cpu,
      gen_code_buf = tcg_ctx->code_gen_ptr;
      tb->tc.ptr = tcg_splitwx_to_rx(gen_code_buf);
 -#if !TARGET_TB_PCREL
 -    tb->pc = pc;
 -#endif
 +    if (!(cflags & CF_PCREL)) {
 +        tb->pc = pc;
 +    }
      tb->cs_base = cs_base;
      tb->flags = flags;
      tb->cflags = cflags;
@@ -XXX,XX +XXX,XX @@ TranslationBlock *tb_gen_code(CPUState *cpu,
      tb->tc.size = gen_code_size;
      /*
 -     * For TARGET_TB_PCREL, attribute all executions of the generated
 -     * code to its first mapping.
 +     * For CF_PCREL, attribute all executions of the generated code
 +     * to its first mapping.
       */
      perf_report_code(pc, tb, tcg_splitwx_to_rx(gen_code_buf));
 --
 .34.1

-[PULL 34/56] tcg/optimize: Split out fold_mov
+[PULL 09/62] include/exec: Replace `TARGET_TB_PCREL` with `CF_PCREL`
-This is the final entry in the main switch that was in a
+From: Anton Johansson via <qemu-devel@nongnu.org>
 different form.  After this, we have the option to convert
 the switch into a function dispatch table.
-Reviewed-by: Luis Pires <luis.pires@eldorado.org.br>
+Signed-off-by: Anton Johansson <anjo@rev.ng>
-Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
+Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
 Message-Id: <20230227135202.9710-6-anjo@rev.ng>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- tcg/optimize.c | 27 ++++++++++++++-------------
+ include/exec/exec-all.h | 27 +++++++++++----------------
-file changed, 14 insertions(+), 13 deletions(-)
+file changed, 11 insertions(+), 16 deletions(-)
-diff --git a/tcg/optimize.c b/tcg/optimize.c
+diff --git a/include/exec/exec-all.h b/include/exec/exec-all.h
 index XXXXXXX..XXXXXXX 100644
---- a/tcg/optimize.c
+--- a/include/exec/exec-all.h
-+++ b/tcg/optimize.c
++++ b/include/exec/exec-all.h
-@@ -XXX,XX +XXX,XX @@ static bool fold_mb(OptContext *ctx, TCGOp *op)
+@@ -XXX,XX +XXX,XX @@ struct tb_tc {
-     return true;
+ };
  struct TranslationBlock {
 -#if !TARGET_TB_PCREL
      /*
       * Guest PC corresponding to this block.  This must be the true
       * virtual address.  Therefore e.g. x86 stores EIP + CS_BASE, and
       * targets like Arm, MIPS, HP-PA, which reuse low bits for ISA or
       * privilege, must store those bits elsewhere.
       *
 -     * If TARGET_TB_PCREL, the opcodes for the TranslationBlock are
 -     * written such that the TB is associated only with the physical
 -     * page and may be run in any virtual address context.  In this case,
 -     * PC must always be taken from ENV in a target-specific manner.
 +     * If CF_PCREL, the opcodes for the TranslationBlock are written
 +     * such that the TB is associated only with the physical page and
 +     * may be run in any virtual address context.  In this case, PC
 +     * must always be taken from ENV in a target-specific manner.
       * Unwind information is taken as offsets from the page, to be
       * deposited into the "current" PC.
       */
      target_ulong pc;
 -#endif
      /*
       * Target-specific data associated with the TranslationBlock, e.g.:
@@ -XXX,XX +XXX,XX @@ struct TranslationBlock {
      uintptr_t jmp_dest[2];
  };
 -/* Hide the read to avoid ifdefs for TARGET_TB_PCREL. */
 -static inline target_ulong tb_pc(const TranslationBlock *tb)
 -{
 -#if TARGET_TB_PCREL
 -    qemu_build_not_reached();
 -#else
 -    return tb->pc;
 -#endif
 -}
 -
  /* Hide the qatomic_read to make code a little easier on the eyes */
  static inline uint32_t tb_cflags(const TranslationBlock *tb)
  {
      return qatomic_read(&tb->cflags);
  }
-+static bool fold_mov(OptContext *ctx, TCGOp *op)
++/* Hide the read to avoid ifdefs for CF_PCREL. */
 +static inline target_ulong tb_pc(const TranslationBlock *tb)
 +{
-+    return tcg_opt_gen_mov(ctx, op, op->args[0], op->args[1]);
++    assert(!(tb_cflags(tb) & CF_PCREL));
 +    return tb->pc;
 +}
 +
- static bool fold_movcond(OptContext *ctx, TCGOp *op)
+ static inline tb_page_addr_t tb_page_addr0(const TranslationBlock *tb)
  {
-     TCGOpcode opc = op->opc;
+ #ifdef CONFIG_USER_ONLY
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
              break;
          }
 -        /* Propagate constants through copy operations and do constant
 -           folding.  Constants will be substituted to arguments by register
 -           allocator where needed and possible.  Also detect copies. */
 +        /*
 +         * Process each opcode.
 +         * Sorted alphabetically by opcode as much as possible.
 +         */
          switch (opc) {
 -        CASE_OP_32_64_VEC(mov):
 -            done = tcg_opt_gen_mov(&ctx, op, op->args[0], op->args[1]);
 -            break;
 -
 -        default:
 -            break;
 -
 -        /* ---------------------------------------------------------- */
 -        /* Sorted alphabetically by opcode as much as possible. */
 -
          CASE_OP_32_64_VEC(add):
              done = fold_add(&ctx, op);
              break;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
          case INDEX_op_mb:
              done = fold_mb(&ctx, op);
              break;
 +        CASE_OP_32_64_VEC(mov):
 +            done = fold_mov(&ctx, op);
 +            break;
          CASE_OP_32_64(movcond):
              done = fold_movcond(&ctx, op);
              break;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
          CASE_OP_32_64_VEC(xor):
              done = fold_xor(&ctx, op);
              break;
 +        default:
 +            break;
          }
          if (!done) {
 --
-.25.1
+.34.1

-[PULL 33/56] tcg/optimize: Split out fold_dup, fold_dup2
+[PULL 10/62] target/arm: Replace `TARGET_TB_PCREL` with `CF_PCREL`
-Reviewed-by: Luis Pires <luis.pires@eldorado.org.br>
+From: Anton Johansson via <qemu-devel@nongnu.org>
-Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
 Signed-off-by: Anton Johansson <anjo@rev.ng>
 Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
 Message-Id: <20230227135202.9710-7-anjo@rev.ng>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- tcg/optimize.c | 53 +++++++++++++++++++++++++++++---------------------
+ target/arm/tcg/translate.h     | 2 +-
-file changed, 31 insertions(+), 22 deletions(-)
+ target/arm/cpu.c               | 8 ++++----
  target/arm/tcg/translate-a64.c | 8 ++++----
  target/arm/tcg/translate.c     | 6 +++---
 files changed, 12 insertions(+), 12 deletions(-)
-diff --git a/tcg/optimize.c b/tcg/optimize.c
+diff --git a/target/arm/tcg/translate.h b/target/arm/tcg/translate.h
 index XXXXXXX..XXXXXXX 100644
---- a/tcg/optimize.c
+--- a/target/arm/tcg/translate.h
-+++ b/tcg/optimize.c
++++ b/target/arm/tcg/translate.h
-@@ -XXX,XX +XXX,XX @@ static bool fold_divide(OptContext *ctx, TCGOp *op)
+@@ -XXX,XX +XXX,XX @@ typedef struct DisasContext {
-     return fold_const2(ctx, op);
+     /* The address of the current instruction being translated. */
- }
+     target_ulong pc_curr;
+     /*
-+static bool fold_dup(OptContext *ctx, TCGOp *op)
+-     * For TARGET_TB_PCREL, the full value of cpu_pc is not known
-+{
++     * For CF_PCREL, the full value of cpu_pc is not known
-+    if (arg_is_const(op->args[1])) {
+      * (although the page offset is known).  For convenience, the
-+        uint64_t t = arg_info(op->args[1])->val;
+      * translation loop uses the full virtual address that triggered
-+        t = dup_const(TCGOP_VECE(op), t);
+      * the translation, from base.pc_start through pc_curr.
-+        return tcg_opt_gen_movi(ctx, op, op->args[0], t);
+diff --git a/target/arm/cpu.c b/target/arm/cpu.c
-+    }
+index XXXXXXX..XXXXXXX 100644
-+    return false;
+--- a/target/arm/cpu.c
-+}
++++ b/target/arm/cpu.c
-+
+@@ -XXX,XX +XXX,XX @@ static vaddr arm_cpu_get_pc(CPUState *cs)
-+static bool fold_dup2(OptContext *ctx, TCGOp *op)
+ void arm_cpu_synchronize_from_tb(CPUState *cs,
-+{
+                                  const TranslationBlock *tb)
 +    if (arg_is_const(op->args[1]) && arg_is_const(op->args[2])) {
 +        uint64_t t = deposit64(arg_info(op->args[1])->val, 32, 32,
 +                               arg_info(op->args[2])->val);
 +        return tcg_opt_gen_movi(ctx, op, op->args[0], t);
 +    }
 +
 +    if (args_are_copies(op->args[1], op->args[2])) {
 +        op->opc = INDEX_op_dup_vec;
 +        TCGOP_VECE(op) = MO_32;
 +    }
 +    return false;
 +}
 +
  static bool fold_eqv(OptContext *ctx, TCGOp *op)
  {
-     return fold_const2(ctx, op);
+-    /* The program counter is always up to date with TARGET_TB_PCREL. */
-@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
+-    if (!TARGET_TB_PCREL) {
-             done = tcg_opt_gen_mov(&ctx, op, op->args[0], op->args[1]);
++    /* The program counter is always up to date with CF_PCREL. */
-             break;
++    if (!(tb_cflags(tb) & CF_PCREL)) {
+         CPUARMState *env = cs->env_ptr;
--        case INDEX_op_dup_vec:
+         /*
--            if (arg_is_const(op->args[1])) {
+          * It's OK to look at env for the current mode here, because it's
--                tmp = arg_info(op->args[1])->val;
+@@ -XXX,XX +XXX,XX @@ void arm_restore_state_to_opc(CPUState *cs,
--                tmp = dup_const(TCGOP_VECE(op), tmp);
+     CPUARMState *env = cs->env_ptr;
--                tcg_opt_gen_movi(&ctx, op, op->args[0], tmp);
--                continue;
+     if (is_a64(env)) {
--            }
+-        if (TARGET_TB_PCREL) {
--            break;
++        if (tb_cflags(tb) & CF_PCREL) {
--
+             env->pc = (env->pc & TARGET_PAGE_MASK) | data[0];
--        case INDEX_op_dup2_vec:
+         } else {
--            assert(TCG_TARGET_REG_BITS == 32);
+             env->pc = data[0];
--            if (arg_is_const(op->args[1]) && arg_is_const(op->args[2])) {
+@@ -XXX,XX +XXX,XX @@ void arm_restore_state_to_opc(CPUState *cs,
--                tcg_opt_gen_movi(&ctx, op, op->args[0],
+         env->condexec_bits = 0;
--                                 deposit64(arg_info(op->args[1])->val, 32, 32,
+         env->exception.syndrome = data[2] << ARM_INSN_START_WORD2_SHIFT;
--                                           arg_info(op->args[2])->val));
+     } else {
--                continue;
+-        if (TARGET_TB_PCREL) {
--            } else if (args_are_copies(op->args[1], op->args[2])) {
++        if (tb_cflags(tb) & CF_PCREL) {
--                op->opc = INDEX_op_dup_vec;
+             env->regs[15] = (env->regs[15] & TARGET_PAGE_MASK) | data[0];
--                TCGOP_VECE(op) = MO_32;
+         } else {
--            }
+             env->regs[15] = data[0];
--            break;
+diff --git a/target/arm/tcg/translate-a64.c b/target/arm/tcg/translate-a64.c
--
+index XXXXXXX..XXXXXXX 100644
-         default:
+--- a/target/arm/tcg/translate-a64.c
-             break;
++++ b/target/arm/tcg/translate-a64.c
+@@ -XXX,XX +XXX,XX @@ static void reset_btype(DisasContext *s)
-@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
+ static void gen_pc_plus_diff(DisasContext *s, TCGv_i64 dest, target_long diff)
-         CASE_OP_32_64(divu):
+ {
-             done = fold_divide(&ctx, op);
+     assert(s->pc_save != -1);
-             break;
+-    if (TARGET_TB_PCREL) {
-+        case INDEX_op_dup_vec:
++    if (tb_cflags(s->base.tb) & CF_PCREL) {
-+            done = fold_dup(&ctx, op);
+         tcg_gen_addi_i64(dest, cpu_pc, (s->pc_curr - s->pc_save) + diff);
-+            break;
+     } else {
-+        case INDEX_op_dup2_vec:
+         tcg_gen_movi_i64(dest, s->pc_curr + diff);
-+            done = fold_dup2(&ctx, op);
+@@ -XXX,XX +XXX,XX @@ static void gen_goto_tb(DisasContext *s, int n, int64_t diff)
-+            break;
+          * update to pc to the unlinked path.  A long chain of links
-         CASE_OP_32_64(eqv):
+          * can thus avoid many updates to the PC.
-             done = fold_eqv(&ctx, op);
+          */
-             break;
+-        if (TARGET_TB_PCREL) {
 +        if (tb_cflags(s->base.tb) & CF_PCREL) {
              gen_a64_update_pc(s, diff);
              tcg_gen_goto_tb(n);
          } else {
@@ -XXX,XX +XXX,XX @@ static void disas_pc_rel_adr(DisasContext *s, uint32_t insn)
      if (page) {
          /* ADRP (page based) */
          offset <<= 12;
 -        /* The page offset is ok for TARGET_TB_PCREL. */
 +        /* The page offset is ok for CF_PCREL. */
          offset -= s->pc_curr & 0xfff;
      }
@@ -XXX,XX +XXX,XX @@ static void aarch64_tr_insn_start(DisasContextBase *dcbase, CPUState *cpu)
      DisasContext *dc = container_of(dcbase, DisasContext, base);
      target_ulong pc_arg = dc->base.pc_next;
 -    if (TARGET_TB_PCREL) {
 +    if (tb_cflags(dcbase->tb) & CF_PCREL) {
          pc_arg &= ~TARGET_PAGE_MASK;
      }
      tcg_gen_insn_start(pc_arg, 0, 0);
 diff --git a/target/arm/tcg/translate.c b/target/arm/tcg/translate.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/tcg/translate.c
 +++ b/target/arm/tcg/translate.c
@@ -XXX,XX +XXX,XX @@ static target_long jmp_diff(DisasContext *s, target_long diff)
  static void gen_pc_plus_diff(DisasContext *s, TCGv_i32 var, target_long diff)
  {
      assert(s->pc_save != -1);
 -    if (TARGET_TB_PCREL) {
 +    if (tb_cflags(s->base.tb) & CF_PCREL) {
          tcg_gen_addi_i32(var, cpu_R[15], (s->pc_curr - s->pc_save) + diff);
      } else {
          tcg_gen_movi_i32(var, s->pc_curr + diff);
@@ -XXX,XX +XXX,XX @@ static void gen_goto_tb(DisasContext *s, int n, target_long diff)
           * update to pc to the unlinked path.  A long chain of links
           * can thus avoid many updates to the PC.
           */
 -        if (TARGET_TB_PCREL) {
 +        if (tb_cflags(s->base.tb) & CF_PCREL) {
              gen_update_pc(s, diff);
              tcg_gen_goto_tb(n);
          } else {
@@ -XXX,XX +XXX,XX @@ static void arm_tr_insn_start(DisasContextBase *dcbase, CPUState *cpu)
      uint32_t condexec_bits;
      target_ulong pc_arg = dc->base.pc_next;
 -    if (TARGET_TB_PCREL) {
 +    if (tb_cflags(dcbase->tb) & CF_PCREL) {
          pc_arg &= ~TARGET_PAGE_MASK;
      }
      if (dc->eci) {
 --
-.25.1
+.34.1

-[PULL 54/56] tcg/optimize: Propagate sign info for setcond
+[PULL 11/62] target/i386: Replace `TARGET_TB_PCREL` with `CF_PCREL`
-The result is either 0 or 1, which means that we have
+From: Anton Johansson via <qemu-devel@nongnu.org>
 a 2 bit signed result, and thus 62 bits of sign.
 For clarity, use the smask_from_zmask function.
-Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
+Signed-off-by: Anton Johansson <anjo@rev.ng>
-Reviewed-by: Luis Pires <luis.pires@eldorado.org.br>
+Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
 Message-Id: <20230227135202.9710-8-anjo@rev.ng>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- tcg/optimize.c | 2 ++
+ target/i386/helper.c        |  2 +-
-file changed, 2 insertions(+)
+ target/i386/tcg/tcg-cpu.c   |  6 +++---
  target/i386/tcg/translate.c | 26 +++++++++++++-------------
 files changed, 17 insertions(+), 17 deletions(-)
-diff --git a/tcg/optimize.c b/tcg/optimize.c
+diff --git a/target/i386/helper.c b/target/i386/helper.c
 index XXXXXXX..XXXXXXX 100644
---- a/tcg/optimize.c
+--- a/target/i386/helper.c
-+++ b/tcg/optimize.c
++++ b/target/i386/helper.c
-@@ -XXX,XX +XXX,XX @@ static bool fold_setcond(OptContext *ctx, TCGOp *op)
+@@ -XXX,XX +XXX,XX @@ static inline target_ulong get_memio_eip(CPUX86State *env)
      }
-     ctx->z_mask = 1;
+     /* Per x86_restore_state_to_opc. */
-+    ctx->s_mask = smask_from_zmask(1);
+-    if (TARGET_TB_PCREL) {
-     return false;
++    if (cs->tcg_cflags & CF_PCREL) {
          return (env->eip & TARGET_PAGE_MASK) | data[0];
      } else {
          return data[0] - env->segs[R_CS].base;
 diff --git a/target/i386/tcg/tcg-cpu.c b/target/i386/tcg/tcg-cpu.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/i386/tcg/tcg-cpu.c
 +++ b/target/i386/tcg/tcg-cpu.c
@@ -XXX,XX +XXX,XX @@ static void x86_cpu_exec_exit(CPUState *cs)
  static void x86_cpu_synchronize_from_tb(CPUState *cs,
                                          const TranslationBlock *tb)
  {
 -    /* The instruction pointer is always up to date with TARGET_TB_PCREL. */
 -    if (!TARGET_TB_PCREL) {
 +    /* The instruction pointer is always up to date with CF_PCREL. */
 +    if (!(tb_cflags(tb) & CF_PCREL)) {
          CPUX86State *env = cs->env_ptr;
          env->eip = tb_pc(tb) - tb->cs_base;
      }
@@ -XXX,XX +XXX,XX @@ static void x86_restore_state_to_opc(CPUState *cs,
      CPUX86State *env = &cpu->env;
      int cc_op = data[1];
 -    if (TARGET_TB_PCREL) {
 +    if (tb_cflags(tb) & CF_PCREL) {
          env->eip = (env->eip & TARGET_PAGE_MASK) | data[0];
      } else {
          env->eip = data[0] - tb->cs_base;
 diff --git a/target/i386/tcg/translate.c b/target/i386/tcg/translate.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/i386/tcg/translate.c
 +++ b/target/i386/tcg/translate.c
@@ -XXX,XX +XXX,XX @@ static inline void gen_op_st_rm_T0_A0(DisasContext *s, int idx, int d)
  static void gen_update_eip_cur(DisasContext *s)
  {
      assert(s->pc_save != -1);
 -    if (TARGET_TB_PCREL) {
 +    if (tb_cflags(s->base.tb) & CF_PCREL) {
          tcg_gen_addi_tl(cpu_eip, cpu_eip, s->base.pc_next - s->pc_save);
      } else {
          tcg_gen_movi_tl(cpu_eip, s->base.pc_next - s->cs_base);
@@ -XXX,XX +XXX,XX @@ static void gen_update_eip_cur(DisasContext *s)
  static void gen_update_eip_next(DisasContext *s)
  {
      assert(s->pc_save != -1);
 -    if (TARGET_TB_PCREL) {
 +    if (tb_cflags(s->base.tb) & CF_PCREL) {
          tcg_gen_addi_tl(cpu_eip, cpu_eip, s->pc - s->pc_save);
      } else {
          tcg_gen_movi_tl(cpu_eip, s->pc - s->cs_base);
@@ -XXX,XX +XXX,XX @@ static TCGv_i32 eip_next_i32(DisasContext *s)
      if (CODE64(s)) {
          return tcg_constant_i32(-1);
      }
 -    if (TARGET_TB_PCREL) {
 +    if (tb_cflags(s->base.tb) & CF_PCREL) {
          TCGv_i32 ret = tcg_temp_new_i32();
          tcg_gen_trunc_tl_i32(ret, cpu_eip);
          tcg_gen_addi_i32(ret, ret, s->pc - s->pc_save);
@@ -XXX,XX +XXX,XX @@ static TCGv_i32 eip_next_i32(DisasContext *s)
  static TCGv eip_next_tl(DisasContext *s)
  {
      assert(s->pc_save != -1);
 -    if (TARGET_TB_PCREL) {
 +    if (tb_cflags(s->base.tb) & CF_PCREL) {
          TCGv ret = tcg_temp_new();
          tcg_gen_addi_tl(ret, cpu_eip, s->pc - s->pc_save);
          return ret;
@@ -XXX,XX +XXX,XX @@ static TCGv eip_next_tl(DisasContext *s)
  static TCGv eip_cur_tl(DisasContext *s)
  {
      assert(s->pc_save != -1);
 -    if (TARGET_TB_PCREL) {
 +    if (tb_cflags(s->base.tb) & CF_PCREL) {
          TCGv ret = tcg_temp_new();
          tcg_gen_addi_tl(ret, cpu_eip, s->base.pc_next - s->pc_save);
          return ret;
@@ -XXX,XX +XXX,XX @@ static void gen_rot_rm_T1(DisasContext *s, MemOp ot, int op1, int is_right)
      tcg_temp_free_i32(t0);
      tcg_temp_free_i32(t1);
 -    /* The CC_OP value is no longer predictable.  */
 +    /* The CC_OP value is no longer predictable.  */
      set_cc_op(s, CC_OP_DYNAMIC);
  }
-@@ -XXX,XX +XXX,XX @@ static bool fold_setcond2(OptContext *ctx, TCGOp *op)
+@@ -XXX,XX +XXX,XX @@ static void gen_rotc_rm_T1(DisasContext *s, MemOp ot, int op1,
          gen_op_ld_v(s, ot, s->T0, s->A0);
      else
          gen_op_mov_v_reg(s, ot, s->T0, op1);
 -
 +
      if (is_right) {
          switch (ot) {
          case MO_8:
@@ -XXX,XX +XXX,XX @@ static TCGv gen_lea_modrm_1(DisasContext *s, AddressParts a, bool is_vsib)
          ea = cpu_regs[a.base];
      }
+     if (!ea) {
-     ctx->z_mask = 1;
+-        if (TARGET_TB_PCREL && a.base == -2) {
-+    ctx->s_mask = smask_from_zmask(1);
++        if (tb_cflags(s->base.tb) & CF_PCREL && a.base == -2) {
-     return false;
+             /* With cpu_eip ~= pc_save, the expression is pc-relative. */
+             tcg_gen_addi_tl(s->A0, cpu_eip, a.disp - s->pc_save);
-  do_setcond_const:
+         } else {
@@ -XXX,XX +XXX,XX @@ static void gen_jmp_rel(DisasContext *s, MemOp ot, int diff, int tb_num)
      if (!CODE64(s)) {
          if (ot == MO_16) {
              mask = 0xffff;
 -            if (TARGET_TB_PCREL && CODE32(s)) {
 +            if (tb_cflags(s->base.tb) & CF_PCREL && CODE32(s)) {
                  use_goto_tb = false;
              }
          } else {
@@ -XXX,XX +XXX,XX @@ static void gen_jmp_rel(DisasContext *s, MemOp ot, int diff, int tb_num)
      gen_update_cc_op(s);
      set_cc_op(s, CC_OP_DYNAMIC);
 -    if (TARGET_TB_PCREL) {
 +    if (tb_cflags(s->base.tb) & CF_PCREL) {
          tcg_gen_addi_tl(cpu_eip, cpu_eip, new_pc - s->pc_save);
          /*
           * If we can prove the branch does not leave the page and we have
@@ -XXX,XX +XXX,XX @@ static void gen_jmp_rel(DisasContext *s, MemOp ot, int diff, int tb_num)
          translator_use_goto_tb(&s->base, new_eip + s->cs_base)) {
          /* jump to same page: we can use a direct jump */
          tcg_gen_goto_tb(tb_num);
 -        if (!TARGET_TB_PCREL) {
 +        if (!(tb_cflags(s->base.tb) & CF_PCREL)) {
              tcg_gen_movi_tl(cpu_eip, new_eip);
          }
          tcg_gen_exit_tb(s->base.tb, tb_num);
          s->base.is_jmp = DISAS_NORETURN;
      } else {
 -        if (!TARGET_TB_PCREL) {
 +        if (!(tb_cflags(s->base.tb) & CF_PCREL)) {
              tcg_gen_movi_tl(cpu_eip, new_eip);
          }
          if (s->jmp_opt) {
@@ -XXX,XX +XXX,XX @@ static void i386_tr_insn_start(DisasContextBase *dcbase, CPUState *cpu)
      target_ulong pc_arg = dc->base.pc_next;
      dc->prev_insn_end = tcg_last_op();
 -    if (TARGET_TB_PCREL) {
 +    if (tb_cflags(dcbase->tb) & CF_PCREL) {
          pc_arg -= dc->cs_base;
          pc_arg &= ~TARGET_PAGE_MASK;
      }
 --
-.25.1
+.34.1

-[PULL 56/56] tcg/optimize: Propagate sign info for shifting
+[PULL 12/62] include/exec: Remove `TARGET_TB_PCREL` define
-For constant shifts, we can simply shift the s_mask.
+From: Anton Johansson via <qemu-devel@nongnu.org>
-For variable shifts, we know that sar does not reduce
+Signed-off-by: Anton Johansson <anjo@rev.ng>
-the s_mask, which helps for sequences like
+Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
+Message-Id: <20230227135202.9710-9-anjo@rev.ng>
     ext32s_i64  t, in
     sar_i64     t, t, v
     ext32s_i64  out, t
 allowing the final extend to be eliminated.
 Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
 Reviewed-by: Luis Pires <luis.pires@eldorado.org.br>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- tcg/optimize.c | 50 +++++++++++++++++++++++++++++++++++++++++++++++---
+ include/exec/cpu-defs.h | 3 ---
-file changed, 47 insertions(+), 3 deletions(-)
+file changed, 3 deletions(-)
-diff --git a/tcg/optimize.c b/tcg/optimize.c
+diff --git a/include/exec/cpu-defs.h b/include/exec/cpu-defs.h
 index XXXXXXX..XXXXXXX 100644
---- a/tcg/optimize.c
+--- a/include/exec/cpu-defs.h
-+++ b/tcg/optimize.c
++++ b/include/exec/cpu-defs.h
-@@ -XXX,XX +XXX,XX @@ static uint64_t smask_from_zmask(uint64_t zmask)
+@@ -XXX,XX +XXX,XX @@
-     return ~(~0ull >> rep);
+ #  error TARGET_PAGE_BITS must be defined in cpu-param.h
- }
+ # endif
+ #endif
-+/*
+-#ifndef TARGET_TB_PCREL
-+ * Recreate a properly left-aligned smask after manipulation.
+-# define TARGET_TB_PCREL 0
-+ * Some bit-shuffling, particularly shifts and rotates, may
+-#endif
-+ * retain sign bits on the left, but may scatter disconnected
-+ * sign bits on the right.  Retain only what remains to the left.
+ #define TARGET_LONG_SIZE (TARGET_LONG_BITS / 8)
 + */
 +static uint64_t smask_from_smask(int64_t smask)
 +{
 +    /* Only the 1 bits are significant for smask */
 +    return smask_from_zmask(~smask);
 +}
 +
  static inline TempOptInfo *ts_info(TCGTemp *ts)
  {
      return ts->state_ptr;
@@ -XXX,XX +XXX,XX @@ static bool fold_sextract(OptContext *ctx, TCGOp *op)
  static bool fold_shift(OptContext *ctx, TCGOp *op)
  {
 +    uint64_t s_mask, z_mask, sign;
 +
      if (fold_const2(ctx, op) ||
          fold_ix_to_i(ctx, op, 0) ||
          fold_xi_to_x(ctx, op, 0)) {
          return true;
      }
 +    s_mask = arg_info(op->args[1])->s_mask;
 +    z_mask = arg_info(op->args[1])->z_mask;
 +
      if (arg_is_const(op->args[2])) {
 -        ctx->z_mask = do_constant_folding(op->opc, ctx->type,
 -                                          arg_info(op->args[1])->z_mask,
 -                                          arg_info(op->args[2])->val);
 +        int sh = arg_info(op->args[2])->val;
 +
 +        ctx->z_mask = do_constant_folding(op->opc, ctx->type, z_mask, sh);
 +
 +        s_mask = do_constant_folding(op->opc, ctx->type, s_mask, sh);
 +        ctx->s_mask = smask_from_smask(s_mask);
 +
          return fold_masks(ctx, op);
      }
 +
 +    switch (op->opc) {
 +    CASE_OP_32_64(sar):
 +        /*
 +         * Arithmetic right shift will not reduce the number of
 +         * input sign repetitions.
 +         */
 +        ctx->s_mask = s_mask;
 +        break;
 +    CASE_OP_32_64(shr):
 +        /*
 +         * If the sign bit is known zero, then logical right shift
 +         * will not reduced the number of input sign repetitions.
 +         */
 +        sign = (s_mask & -s_mask) >> 1;
 +        if (!(z_mask & sign)) {
 +            ctx->s_mask = s_mask;
 +        }
 +        break;
 +    default:
 +        break;
 +    }
 +
      return false;
  }
 --
-.25.1
+.34.1

-New patch
+[PULL 13/62] target/arm: Remove `TARGET_TB_PCREL` define
+From: Anton Johansson via <qemu-devel@nongnu.org>
+Signed-off-by: Anton Johansson <anjo@rev.ng>
+Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
+Message-Id: <20230227135202.9710-10-anjo@rev.ng>
+Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
+---
+ target/arm/cpu-param.h | 2 --
+file changed, 2 deletions(-)
+diff --git a/target/arm/cpu-param.h b/target/arm/cpu-param.h
+index XXXXXXX..XXXXXXX 100644
+--- a/target/arm/cpu-param.h
++++ b/target/arm/cpu-param.h
+@@ -XXX,XX +XXX,XX @@
+ # define TARGET_PAGE_BITS_VARY
+ # define TARGET_PAGE_BITS_MIN  10
+-# define TARGET_TB_PCREL 1
+-
+ /*
+  * Cache the attrs and shareability fields from the page table entry.
+  *
+--
+.34.1

-[PULL 04/56] host-utils: add 128-bit quotient support to divu128/divs128
+[PULL 14/62] target/i386: Remove `TARGET_TB_PCREL` define
-From: Luis Pires <luis.pires@eldorado.org.br>
+From: Anton Johansson via <qemu-devel@nongnu.org>
-These will be used to implement new decimal floating point
+Signed-off-by: Anton Johansson <anjo@rev.ng>
-instructions from Power ISA 3.1.
+Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
+Message-Id: <20230227135202.9710-11-anjo@rev.ng>
 The remainder is now returned directly by divu128/divs128,
 freeing up phigh to receive the high 64 bits of the quotient.
 Signed-off-by: Luis Pires <luis.pires@eldorado.org.br>
 Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
 Message-Id: <20211025191154.350831-4-luis.pires@eldorado.org.br>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- include/hw/clock.h        |   6 +-
+ target/i386/cpu-param.h | 4 ----
- include/qemu/host-utils.h |  20 ++++--
+file changed, 4 deletions(-)
  target/ppc/int_helper.c   |   9 +--
  util/host-utils.c         | 133 +++++++++++++++++++++++++-------------
 files changed, 108 insertions(+), 60 deletions(-)
-diff --git a/include/hw/clock.h b/include/hw/clock.h
+diff --git a/target/i386/cpu-param.h b/target/i386/cpu-param.h
 index XXXXXXX..XXXXXXX 100644
---- a/include/hw/clock.h
+--- a/target/i386/cpu-param.h
-+++ b/include/hw/clock.h
++++ b/target/i386/cpu-param.h
-@@ -XXX,XX +XXX,XX @@ static inline uint64_t clock_ns_to_ticks(const Clock *clk, uint64_t ns)
+@@ -XXX,XX +XXX,XX @@
-     if (clk->period == 0) {
+ #define TARGET_PAGE_BITS 12
-         return 0;
+ #define NB_MMU_MODES 5
-     }
--    /*
+-#ifndef CONFIG_USER_ONLY
--     * BUG: when CONFIG_INT128 is not defined, the current implementation of
+-# define TARGET_TB_PCREL 1
--     * divu128 does not return a valid truncated quotient, so the result will
+-#endif
 -     * be wrong.
 -     */
 +
      divu128(&lo, &hi, clk->period);
      return lo;
  }
 diff --git a/include/qemu/host-utils.h b/include/qemu/host-utils.h
 index XXXXXXX..XXXXXXX 100644
 --- a/include/qemu/host-utils.h
 +++ b/include/qemu/host-utils.h
@@ -XXX,XX +XXX,XX @@ static inline uint64_t muldiv64(uint64_t a, uint32_t b, uint32_t c)
      return (__int128_t)a * b / c;
  }
 -static inline void divu128(uint64_t *plow, uint64_t *phigh, uint64_t divisor)
 +static inline uint64_t divu128(uint64_t *plow, uint64_t *phigh,
 +                               uint64_t divisor)
  {
      __uint128_t dividend = ((__uint128_t)*phigh << 64) | *plow;
      __uint128_t result = dividend / divisor;
 +
      *plow = result;
 -    *phigh = dividend % divisor;
 +    *phigh = result >> 64;
 +    return dividend % divisor;
  }
 -static inline void divs128(int64_t *plow, int64_t *phigh, int64_t divisor)
 +static inline int64_t divs128(uint64_t *plow, int64_t *phigh,
 +                              int64_t divisor)
  {
 -    __int128_t dividend = ((__int128_t)*phigh << 64) | (uint64_t)*plow;
 +    __int128_t dividend = ((__int128_t)*phigh << 64) | *plow;
      __int128_t result = dividend / divisor;
 +
      *plow = result;
 -    *phigh = dividend % divisor;
 +    *phigh = result >> 64;
 +    return dividend % divisor;
  }
  #else
  void muls64(uint64_t *plow, uint64_t *phigh, int64_t a, int64_t b);
  void mulu64(uint64_t *plow, uint64_t *phigh, uint64_t a, uint64_t b);
 -void divu128(uint64_t *plow, uint64_t *phigh, uint64_t divisor);
 -void divs128(int64_t *plow, int64_t *phigh, int64_t divisor);
 +uint64_t divu128(uint64_t *plow, uint64_t *phigh, uint64_t divisor);
 +int64_t divs128(uint64_t *plow, int64_t *phigh, int64_t divisor);
  static inline uint64_t muldiv64(uint64_t a, uint32_t b, uint32_t c)
  {
 diff --git a/target/ppc/int_helper.c b/target/ppc/int_helper.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/ppc/int_helper.c
 +++ b/target/ppc/int_helper.c
@@ -XXX,XX +XXX,XX @@ uint64_t helper_divdeu(CPUPPCState *env, uint64_t ra, uint64_t rb, uint32_t oe)
  uint64_t helper_divde(CPUPPCState *env, uint64_t rau, uint64_t rbu, uint32_t oe)
  {
 -    int64_t rt = 0;
 +    uint64_t rt = 0;
      int64_t ra = (int64_t)rau;
      int64_t rb = (int64_t)rbu;
      int overflow = 0;
@@ -XXX,XX +XXX,XX @@ uint32_t helper_bcdcfsq(ppc_avr_t *r, ppc_avr_t *b, uint32_t ps)
      int cr;
      uint64_t lo_value;
      uint64_t hi_value;
 +    uint64_t rem;
      ppc_avr_t ret = { .u64 = { 0, 0 } };
      if (b->VsrSD(0) < 0) {
@@ -XXX,XX +XXX,XX @@ uint32_t helper_bcdcfsq(ppc_avr_t *r, ppc_avr_t *b, uint32_t ps)
           * In that case, we leave r unchanged.
           */
      } else {
 -        divu128(&lo_value, &hi_value, 1000000000000000ULL);
 +        rem = divu128(&lo_value, &hi_value, 1000000000000000ULL);
 -        for (i = 1; i < 16; hi_value /= 10, i++) {
 -            bcd_put_digit(&ret, hi_value % 10, i);
 +        for (i = 1; i < 16; rem /= 10, i++) {
 +            bcd_put_digit(&ret, rem % 10, i);
          }
          for (; i < 32; lo_value /= 10, i++) {
 diff --git a/util/host-utils.c b/util/host-utils.c
 index XXXXXXX..XXXXXXX 100644
 --- a/util/host-utils.c
 +++ b/util/host-utils.c
@@ -XXX,XX +XXX,XX @@ void muls64 (uint64_t *plow, uint64_t *phigh, int64_t a, int64_t b)
  }
  /*
 - * Unsigned 128-by-64 division. Returns quotient via plow and
 - * remainder via phigh.
 - * The result must fit in 64 bits (plow) - otherwise, the result
 - * is undefined.
 - * This function will cause a division by zero if passed a zero divisor.
 + * Unsigned 128-by-64 division.
 + * Returns the remainder.
 + * Returns quotient via plow and phigh.
 + * Also returns the remainder via the function return value.
   */
 -void divu128(uint64_t *plow, uint64_t *phigh, uint64_t divisor)
 +uint64_t divu128(uint64_t *plow, uint64_t *phigh, uint64_t divisor)
  {
      uint64_t dhi = *phigh;
      uint64_t dlo = *plow;
 -    unsigned i;
 -    uint64_t carry = 0;
 +    uint64_t rem, dhighest;
 +    int sh;
      if (divisor == 0 || dhi == 0) {
          *plow  = dlo / divisor;
 -        *phigh = dlo % divisor;
 +        *phigh = 0;
 +        return dlo % divisor;
      } else {
 +        sh = clz64(divisor);
 -        for (i = 0; i < 64; i++) {
 -            carry = dhi >> 63;
 -            dhi = (dhi << 1) | (dlo >> 63);
 -            if (carry || (dhi >= divisor)) {
 -                dhi -= divisor;
 -                carry = 1;
 -            } else {
 -                carry = 0;
 +        if (dhi < divisor) {
 +            if (sh != 0) {
 +                /* normalize the divisor, shifting the dividend accordingly */
 +                divisor <<= sh;
 +                dhi = (dhi << sh) | (dlo >> (64 - sh));
 +                dlo <<= sh;
              }
 -            dlo = (dlo << 1) | carry;
 +
 +            *phigh = 0;
 +            *plow = udiv_qrnnd(&rem, dhi, dlo, divisor);
 +        } else {
 +            if (sh != 0) {
 +                /* normalize the divisor, shifting the dividend accordingly */
 +                divisor <<= sh;
 +                dhighest = dhi >> (64 - sh);
 +                dhi = (dhi << sh) | (dlo >> (64 - sh));
 +                dlo <<= sh;
 +
 +                *phigh = udiv_qrnnd(&dhi, dhighest, dhi, divisor);
 +            } else {
 +                /**
 +                 * dhi >= divisor
 +                 * Since the MSB of divisor is set (sh == 0),
 +                 * (dhi - divisor) < divisor
 +                 *
 +                 * Thus, the high part of the quotient is 1, and we can
 +                 * calculate the low part with a single call to udiv_qrnnd
 +                 * after subtracting divisor from dhi
 +                 */
 +                dhi -= divisor;
 +                *phigh = 1;
 +            }
 +
 +            *plow = udiv_qrnnd(&rem, dhi, dlo, divisor);
          }
 -        *plow = dlo;
 -        *phigh = dhi;
 +        /*
 +         * since the dividend/divisor might have been normalized,
 +         * the remainder might also have to be shifted back
 +         */
 +        return rem >> sh;
      }
  }
  /*
 - * Signed 128-by-64 division. Returns quotient via plow and
 - * remainder via phigh.
 - * The result must fit in 64 bits (plow) - otherwise, the result
 - * is undefined.
 - * This function will cause a division by zero if passed a zero divisor.
 + * Signed 128-by-64 division.
 + * Returns quotient via plow and phigh.
 + * Also returns the remainder via the function return value.
   */
 -void divs128(int64_t *plow, int64_t *phigh, int64_t divisor)
 +int64_t divs128(uint64_t *plow, int64_t *phigh, int64_t divisor)
  {
 -    int sgn_dvdnd = *phigh < 0;
 -    int sgn_divsr = divisor < 0;
 +    bool neg_quotient = false, neg_remainder = false;
 +    uint64_t unsig_hi = *phigh, unsig_lo = *plow;
 +    uint64_t rem;
 -    if (sgn_dvdnd) {
 -        *plow = ~(*plow);
 -        *phigh = ~(*phigh);
 -        if (*plow == (int64_t)-1) {
 +    if (*phigh < 0) {
 +        neg_quotient = !neg_quotient;
 +        neg_remainder = !neg_remainder;
 +
 +        if (unsig_lo == 0) {
 +            unsig_hi = -unsig_hi;
 +        } else {
 +            unsig_hi = ~unsig_hi;
 +            unsig_lo = -unsig_lo;
 +        }
 +    }
 +
 +    if (divisor < 0) {
 +        neg_quotient = !neg_quotient;
 +
 +        divisor = -divisor;
 +    }
 +
 +    rem = divu128(&unsig_lo, &unsig_hi, (uint64_t)divisor);
 +
 +    if (neg_quotient) {
 +        if (unsig_lo == 0) {
 +            *phigh = -unsig_hi;
              *plow = 0;
 -            (*phigh)++;
 -         } else {
 -            (*plow)++;
 -         }
 +        } else {
 +            *phigh = ~unsig_hi;
 +            *plow = -unsig_lo;
 +        }
 +    } else {
 +        *phigh = unsig_hi;
 +        *plow = unsig_lo;
      }
 -    if (sgn_divsr) {
 -        divisor = 0 - divisor;
 -    }
 -
--    divu128((uint64_t *)plow, (uint64_t *)phigh, (uint64_t)divisor);
--
--    if (sgn_dvdnd  ^ sgn_divsr) {
--        *plow = 0 - *plow;
-+    if (neg_remainder) {
-+        return -rem;
-+    } else {
-+        return rem;
-     }
- }
  #endif
 --
-.25.1
+.34.1

-[PULL 32/56] tcg/optimize: Split out fold_bswap
+[PULL 15/62] accel/tcg: Move jmp-cache `CF_PCREL` checks to caller
-Reviewed-by: Luis Pires <luis.pires@eldorado.org.br>
+From: Anton Johansson via <qemu-devel@nongnu.org>
-Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
 tb-jmp-cache.h contains a few small functions that only exist to hide a
 CF_PCREL check, however the caller often already performs such a check.
 This patch moves CF_PCREL checks from the callee to the caller, and also
 removes these functions which now only hide an access of the jmp-cache.
 Signed-off-by: Anton Johansson <anjo@rev.ng>
 Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
 Message-Id: <20230227135202.9710-12-anjo@rev.ng>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- tcg/optimize.c | 27 ++++++++++++++++-----------
+ accel/tcg/tb-jmp-cache.h | 36 ---------------------------
-file changed, 16 insertions(+), 11 deletions(-)
+ accel/tcg/cpu-exec.c     | 54 +++++++++++++++++++++++++++++-----------
 files changed, 40 insertions(+), 50 deletions(-)
-diff --git a/tcg/optimize.c b/tcg/optimize.c
+diff --git a/accel/tcg/tb-jmp-cache.h b/accel/tcg/tb-jmp-cache.h
 index XXXXXXX..XXXXXXX 100644
---- a/tcg/optimize.c
+--- a/accel/tcg/tb-jmp-cache.h
-+++ b/tcg/optimize.c
++++ b/accel/tcg/tb-jmp-cache.h
-@@ -XXX,XX +XXX,XX @@ static bool fold_brcond2(OptContext *ctx, TCGOp *op)
+@@ -XXX,XX +XXX,XX @@ struct CPUJumpCache {
-     return false;
+     } array[TB_JMP_CACHE_SIZE];
  };
 -static inline TranslationBlock *
 -tb_jmp_cache_get_tb(CPUJumpCache *jc, uint32_t cflags, uint32_t hash)
 -{
 -    if (cflags & CF_PCREL) {
 -        /* Use acquire to ensure current load of pc from jc. */
 -        return qatomic_load_acquire(&jc->array[hash].tb);
 -    } else {
 -        /* Use rcu_read to ensure current load of pc from *tb. */
 -        return qatomic_rcu_read(&jc->array[hash].tb);
 -    }
 -}
 -
 -static inline target_ulong
 -tb_jmp_cache_get_pc(CPUJumpCache *jc, uint32_t hash, TranslationBlock *tb)
 -{
 -    if (tb_cflags(tb) & CF_PCREL) {
 -        return jc->array[hash].pc;
 -    } else {
 -        return tb_pc(tb);
 -    }
 -}
 -
 -static inline void
 -tb_jmp_cache_set(CPUJumpCache *jc, uint32_t hash,
 -                 TranslationBlock *tb, target_ulong pc)
 -{
 -    if (tb_cflags(tb) & CF_PCREL) {
 -        jc->array[hash].pc = pc;
 -        /* Use store_release on tb to ensure pc is written first. */
 -        qatomic_store_release(&jc->array[hash].tb, tb);
 -    } else{
 -        /* Use the pc value already stored in tb->pc. */
 -        qatomic_set(&jc->array[hash].tb, tb);
 -    }
 -}
 -
  #endif /* ACCEL_TCG_TB_JMP_CACHE_H */
 diff --git a/accel/tcg/cpu-exec.c b/accel/tcg/cpu-exec.c
 index XXXXXXX..XXXXXXX 100644
 --- a/accel/tcg/cpu-exec.c
 +++ b/accel/tcg/cpu-exec.c
@@ -XXX,XX +XXX,XX @@ static inline TranslationBlock *tb_lookup(CPUState *cpu, target_ulong pc,
      hash = tb_jmp_cache_hash_func(pc);
      jc = cpu->tb_jmp_cache;
 -    tb = tb_jmp_cache_get_tb(jc, cflags, hash);
 -    if (likely(tb &&
 -               tb_jmp_cache_get_pc(jc, hash, tb) == pc &&
 -               tb->cs_base == cs_base &&
 -               tb->flags == flags &&
 -               tb->trace_vcpu_dstate == *cpu->trace_dstate &&
 -               tb_cflags(tb) == cflags)) {
 -        return tb;
 +    if (cflags & CF_PCREL) {
 +        /* Use acquire to ensure current load of pc from jc. */
 +        tb =  qatomic_load_acquire(&jc->array[hash].tb);
 +
 +        if (likely(tb &&
 +                   jc->array[hash].pc == pc &&
 +                   tb->cs_base == cs_base &&
 +                   tb->flags == flags &&
 +                   tb->trace_vcpu_dstate == *cpu->trace_dstate &&
 +                   tb_cflags(tb) == cflags)) {
 +            return tb;
 +        }
 +        tb = tb_htable_lookup(cpu, pc, cs_base, flags, cflags);
 +        if (tb == NULL) {
 +            return NULL;
 +        }
 +        jc->array[hash].pc = pc;
 +        /* Use store_release on tb to ensure pc is written first. */
 +        qatomic_store_release(&jc->array[hash].tb, tb);
 +    } else {
 +        /* Use rcu_read to ensure current load of pc from *tb. */
 +        tb = qatomic_rcu_read(&jc->array[hash].tb);
 +
 +        if (likely(tb &&
 +                   tb_pc(tb) == pc &&
 +                   tb->cs_base == cs_base &&
 +                   tb->flags == flags &&
 +                   tb->trace_vcpu_dstate == *cpu->trace_dstate &&
 +                   tb_cflags(tb) == cflags)) {
 +            return tb;
 +        }
 +        tb = tb_htable_lookup(cpu, pc, cs_base, flags, cflags);
 +        if (tb == NULL) {
 +            return NULL;
 +        }
 +        /* Use the pc value already stored in tb->pc. */
 +        qatomic_set(&jc->array[hash].tb, tb);
      }
 -    tb = tb_htable_lookup(cpu, pc, cs_base, flags, cflags);
 -    if (tb == NULL) {
 -        return NULL;
 -    }
 -    tb_jmp_cache_set(jc, hash, tb, pc);
 +
      return tb;
  }
-+static bool fold_bswap(OptContext *ctx, TCGOp *op)
+@@ -XXX,XX +XXX,XX @@ cpu_exec_loop(CPUState *cpu, SyncClocks *sc)
-+{
+                  * for the fast lookup
-+    if (arg_is_const(op->args[1])) {
+                  */
-+        uint64_t t = arg_info(op->args[1])->val;
+                 h = tb_jmp_cache_hash_func(pc);
-+
+-                tb_jmp_cache_set(cpu->tb_jmp_cache, h, tb, pc);
-+        t = do_constant_folding(op->opc, t, op->args[2]);
++                /* Use the pc value already stored in tb->pc. */
-+        return tcg_opt_gen_movi(ctx, op, op->args[0], t);
++                qatomic_set(&cpu->tb_jmp_cache->array[h].tb, tb);
 +    }
 +    return false;
 +}
 +
  static bool fold_call(OptContext *ctx, TCGOp *op)
  {
      TCGContext *s = ctx->tcg;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
              }
-             break;
+ #ifndef CONFIG_USER_ONLY
 -        CASE_OP_32_64(bswap16):
 -        CASE_OP_32_64(bswap32):
 -        case INDEX_op_bswap64_i64:
 -            if (arg_is_const(op->args[1])) {
 -                tmp = do_constant_folding(opc, arg_info(op->args[1])->val,
 -                                          op->args[2]);
 -                tcg_opt_gen_movi(&ctx, op, op->args[0], tmp);
 -                continue;
 -            }
 -            break;
 -
          default:
              break;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
          case INDEX_op_brcond2_i32:
              done = fold_brcond2(&ctx, op);
              break;
 +        CASE_OP_32_64(bswap16):
 +        CASE_OP_32_64(bswap32):
 +        case INDEX_op_bswap64_i64:
 +            done = fold_bswap(&ctx, op);
 +            break;
          CASE_OP_32_64(clz):
          CASE_OP_32_64(ctz):
              done = fold_count_zeros(&ctx, op);
 --
-.25.1
+.34.1

-[PULL 02/56] host-utils: move checks out of divu128/divs128
+[PULL 16/62] accel/tcg: Replace `tb_pc()` with `tb->pc`
-From: Luis Pires <luis.pires@eldorado.org.br>
+From: Anton Johansson via <qemu-devel@nongnu.org>
-In preparation for changing the divu128/divs128 implementations
+Signed-off-by: Anton Johansson <anjo@rev.ng>
-to allow for quotients larger than 64 bits, move the div-by-zero
+Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
-and overflow checks to the callers.
+Message-Id: <20230227135202.9710-13-anjo@rev.ng>
 Signed-off-by: Luis Pires <luis.pires@eldorado.org.br>
 Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
 Message-Id: <20211025191154.350831-2-luis.pires@eldorado.org.br>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- include/hw/clock.h        |  5 +++--
+ accel/tcg/internal.h      | 2 +-
- include/qemu/host-utils.h | 34 ++++++++++++---------------------
+ accel/tcg/cpu-exec.c      | 6 +++---
- target/ppc/int_helper.c   | 14 +++++++++-----
+ accel/tcg/tb-maint.c      | 8 ++++----
- util/host-utils.c         | 40 ++++++++++++++++++---------------------
+ accel/tcg/translate-all.c | 4 ++--
-files changed, 42 insertions(+), 51 deletions(-)
+files changed, 10 insertions(+), 10 deletions(-)
-diff --git a/include/hw/clock.h b/include/hw/clock.h
+diff --git a/accel/tcg/internal.h b/accel/tcg/internal.h
 index XXXXXXX..XXXXXXX 100644
---- a/include/hw/clock.h
+--- a/accel/tcg/internal.h
-+++ b/include/hw/clock.h
++++ b/accel/tcg/internal.h
-@@ -XXX,XX +XXX,XX @@ static inline uint64_t clock_ns_to_ticks(const Clock *clk, uint64_t ns)
+@@ -XXX,XX +XXX,XX @@ static inline target_ulong log_pc(CPUState *cpu, const TranslationBlock *tb)
-         return 0;
+     if (tb_cflags(tb) & CF_PCREL) {
-     }
+         return cpu->cc->get_pc(cpu);
      /*
 -     * Ignore divu128() return value as we've caught div-by-zero and don't
 -     * need different behaviour for overflow.
 +     * BUG: when CONFIG_INT128 is not defined, the current implementation of
 +     * divu128 does not return a valid truncated quotient, so the result will
 +     * be wrong.
       */
      divu128(&lo, &hi, clk->period);
      return lo;
 diff --git a/include/qemu/host-utils.h b/include/qemu/host-utils.h
 index XXXXXXX..XXXXXXX 100644
 --- a/include/qemu/host-utils.h
 +++ b/include/qemu/host-utils.h
@@ -XXX,XX +XXX,XX @@ static inline uint64_t muldiv64(uint64_t a, uint32_t b, uint32_t c)
      return (__int128_t)a * b / c;
  }
 -static inline int divu128(uint64_t *plow, uint64_t *phigh, uint64_t divisor)
 +static inline void divu128(uint64_t *plow, uint64_t *phigh, uint64_t divisor)
  {
 -    if (divisor == 0) {
 -        return 1;
 -    } else {
 -        __uint128_t dividend = ((__uint128_t)*phigh << 64) | *plow;
 -        __uint128_t result = dividend / divisor;
 -        *plow = result;
 -        *phigh = dividend % divisor;
 -        return result > UINT64_MAX;
 -    }
 +    __uint128_t dividend = ((__uint128_t)*phigh << 64) | *plow;
 +    __uint128_t result = dividend / divisor;
 +    *plow = result;
 +    *phigh = dividend % divisor;
  }
 -static inline int divs128(int64_t *plow, int64_t *phigh, int64_t divisor)
 +static inline void divs128(int64_t *plow, int64_t *phigh, int64_t divisor)
  {
 -    if (divisor == 0) {
 -        return 1;
 -    } else {
 -        __int128_t dividend = ((__int128_t)*phigh << 64) | (uint64_t)*plow;
 -        __int128_t result = dividend / divisor;
 -        *plow = result;
 -        *phigh = dividend % divisor;
 -        return result != *plow;
 -    }
 +    __int128_t dividend = ((__int128_t)*phigh << 64) | (uint64_t)*plow;
 +    __int128_t result = dividend / divisor;
 +    *plow = result;
 +    *phigh = dividend % divisor;
  }
  #else
  void muls64(uint64_t *plow, uint64_t *phigh, int64_t a, int64_t b);
  void mulu64(uint64_t *plow, uint64_t *phigh, uint64_t a, uint64_t b);
 -int divu128(uint64_t *plow, uint64_t *phigh, uint64_t divisor);
 -int divs128(int64_t *plow, int64_t *phigh, int64_t divisor);
 +void divu128(uint64_t *plow, uint64_t *phigh, uint64_t divisor);
 +void divs128(int64_t *plow, int64_t *phigh, int64_t divisor);
  static inline uint64_t muldiv64(uint64_t a, uint32_t b, uint32_t c)
  {
 diff --git a/target/ppc/int_helper.c b/target/ppc/int_helper.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/ppc/int_helper.c
 +++ b/target/ppc/int_helper.c
@@ -XXX,XX +XXX,XX @@ uint64_t helper_divdeu(CPUPPCState *env, uint64_t ra, uint64_t rb, uint32_t oe)
      uint64_t rt = 0;
      int overflow = 0;
 -    overflow = divu128(&rt, &ra, rb);
 -
 -    if (unlikely(overflow)) {
 +    if (unlikely(rb == 0 || ra >= rb)) {
 +        overflow = 1;
          rt = 0; /* Undefined */
 +    } else {
 +        divu128(&rt, &ra, rb);
      }
      if (oe) {
@@ -XXX,XX +XXX,XX @@ uint64_t helper_divde(CPUPPCState *env, uint64_t rau, uint64_t rbu, uint32_t oe)
      int64_t rt = 0;
      int64_t ra = (int64_t)rau;
      int64_t rb = (int64_t)rbu;
 -    int overflow = divs128(&rt, &ra, rb);
 +    int overflow = 0;
 -    if (unlikely(overflow)) {
 +    if (unlikely(rb == 0 || uabs64(ra) >= uabs64(rb))) {
 +        overflow = 1;
          rt = 0; /* Undefined */
 +    } else {
 +        divs128(&rt, &ra, rb);
      }
      if (oe) {
 diff --git a/util/host-utils.c b/util/host-utils.c
 index XXXXXXX..XXXXXXX 100644
 --- a/util/host-utils.c
 +++ b/util/host-utils.c
@@ -XXX,XX +XXX,XX @@ void muls64 (uint64_t *plow, uint64_t *phigh, int64_t a, int64_t b)
      *phigh = rh;
  }
 -/* Unsigned 128x64 division.  Returns 1 if overflow (divide by zero or */
 -/* quotient exceeds 64 bits).  Otherwise returns quotient via plow and */
 -/* remainder via phigh. */
 -int divu128(uint64_t *plow, uint64_t *phigh, uint64_t divisor)
 +/*
 + * Unsigned 128-by-64 division. Returns quotient via plow and
 + * remainder via phigh.
 + * The result must fit in 64 bits (plow) - otherwise, the result
 + * is undefined.
 + * This function will cause a division by zero if passed a zero divisor.
 + */
 +void divu128(uint64_t *plow, uint64_t *phigh, uint64_t divisor)
  {
      uint64_t dhi = *phigh;
      uint64_t dlo = *plow;
      unsigned i;
      uint64_t carry = 0;
 -    if (divisor == 0) {
 -        return 1;
 -    } else if (dhi == 0) {
 +    if (divisor == 0 || dhi == 0) {
          *plow  = dlo / divisor;
          *phigh = dlo % divisor;
 -        return 0;
 -    } else if (dhi >= divisor) {
 -        return 1;
      } else {
+-        return tb_pc(tb);
-         for (i = 0; i < 64; i++) {
++        return tb->pc;
@@ -XXX,XX +XXX,XX @@ int divu128(uint64_t *plow, uint64_t *phigh, uint64_t divisor)
          *plow = dlo;
          *phigh = dhi;
 -        return 0;
      }
  }
--int divs128(int64_t *plow, int64_t *phigh, int64_t divisor)
+diff --git a/accel/tcg/cpu-exec.c b/accel/tcg/cpu-exec.c
-+/*
+index XXXXXXX..XXXXXXX 100644
-+ * Signed 128-by-64 division. Returns quotient via plow and
+--- a/accel/tcg/cpu-exec.c
-+ * remainder via phigh.
++++ b/accel/tcg/cpu-exec.c
-+ * The result must fit in 64 bits (plow) - otherwise, the result
+@@ -XXX,XX +XXX,XX @@ static bool tb_lookup_cmp(const void *p, const void *d)
-+ * is undefined.
+     const TranslationBlock *tb = p;
-+ * This function will cause a division by zero if passed a zero divisor.
+     const struct tb_desc *desc = d;
-+ */
-+void divs128(int64_t *plow, int64_t *phigh, int64_t divisor)
+-    if ((tb_cflags(tb) & CF_PCREL || tb_pc(tb) == desc->pc) &&
- {
++    if ((tb_cflags(tb) & CF_PCREL || tb->pc == desc->pc) &&
-     int sgn_dvdnd = *phigh < 0;
+         tb_page_addr0(tb) == desc->page_addr0 &&
-     int sgn_divsr = divisor < 0;
+         tb->cs_base == desc->cs_base &&
--    int overflow = 0;
+         tb->flags == desc->flags &&
+@@ -XXX,XX +XXX,XX @@ static inline TranslationBlock *tb_lookup(CPUState *cpu, target_ulong pc,
-     if (sgn_dvdnd) {
+         tb = qatomic_rcu_read(&jc->array[hash].tb);
-         *plow = ~(*plow);
-@@ -XXX,XX +XXX,XX @@ int divs128(int64_t *plow, int64_t *phigh, int64_t divisor)
+         if (likely(tb &&
-         divisor = 0 - divisor;
+-                   tb_pc(tb) == pc &&
 +                   tb->pc == pc &&
                     tb->cs_base == cs_base &&
                     tb->flags == flags &&
                     tb->trace_vcpu_dstate == *cpu->trace_dstate &&
@@ -XXX,XX +XXX,XX @@ cpu_tb_exec(CPUState *cpu, TranslationBlock *itb, int *tb_exit)
          } else {
              tcg_debug_assert(!(tb_cflags(last_tb) & CF_PCREL));
              assert(cc->set_pc);
 -            cc->set_pc(cpu, tb_pc(last_tb));
 +            cc->set_pc(cpu, last_tb->pc);
          }
          if (qemu_loglevel_mask(CPU_LOG_EXEC)) {
              target_ulong pc = log_pc(cpu, last_tb);
 diff --git a/accel/tcg/tb-maint.c b/accel/tcg/tb-maint.c
 index XXXXXXX..XXXXXXX 100644
 --- a/accel/tcg/tb-maint.c
 +++ b/accel/tcg/tb-maint.c
@@ -XXX,XX +XXX,XX @@ static bool tb_cmp(const void *ap, const void *bp)
      const TranslationBlock *a = ap;
      const TranslationBlock *b = bp;
 -    return ((tb_cflags(a) & CF_PCREL || tb_pc(a) == tb_pc(b)) &&
 +    return ((tb_cflags(a) & CF_PCREL || a->pc == b->pc) &&
              a->cs_base == b->cs_base &&
              a->flags == b->flags &&
              (tb_cflags(a) & ~CF_INVALID) == (tb_cflags(b) & ~CF_INVALID) &&
@@ -XXX,XX +XXX,XX @@ static void tb_jmp_cache_inval_tb(TranslationBlock *tb)
              tcg_flush_jmp_cache(cpu);
          }
      } else {
 -        uint32_t h = tb_jmp_cache_hash_func(tb_pc(tb));
 +        uint32_t h = tb_jmp_cache_hash_func(tb->pc);
          CPU_FOREACH(cpu) {
              CPUJumpCache *jc = cpu->tb_jmp_cache;
@@ -XXX,XX +XXX,XX @@ static void do_tb_phys_invalidate(TranslationBlock *tb, bool rm_from_page_list)
      /* remove the TB from the hash list */
      phys_pc = tb_page_addr0(tb);
 -    h = tb_hash_func(phys_pc, (orig_cflags & CF_PCREL ? 0 : tb_pc(tb)),
 +    h = tb_hash_func(phys_pc, (orig_cflags & CF_PCREL ? 0 : tb->pc),
                       tb->flags, orig_cflags, tb->trace_vcpu_dstate);
      if (!qht_remove(&tb_ctx.htable, tb, h)) {
          return;
@@ -XXX,XX +XXX,XX @@ TranslationBlock *tb_link_page(TranslationBlock *tb, tb_page_addr_t phys_pc,
      tb_record(tb, p, p2);
      /* add in the hash table */
 -    h = tb_hash_func(phys_pc, (tb->cflags & CF_PCREL ? 0 : tb_pc(tb)),
 +    h = tb_hash_func(phys_pc, (tb->cflags & CF_PCREL ? 0 : tb->pc),
                       tb->flags, tb->cflags, tb->trace_vcpu_dstate);
      qht_insert(&tb_ctx.htable, tb, h, &existing_tb);
 diff --git a/accel/tcg/translate-all.c b/accel/tcg/translate-all.c
 index XXXXXXX..XXXXXXX 100644
 --- a/accel/tcg/translate-all.c
 +++ b/accel/tcg/translate-all.c
@@ -XXX,XX +XXX,XX @@ static int encode_search(TranslationBlock *tb, uint8_t *block)
          for (j = 0; j < TARGET_INSN_START_WORDS; ++j) {
              if (i == 0) {
 -                prev = (!(tb_cflags(tb) & CF_PCREL) && j == 0 ? tb_pc(tb) : 0);
 +                prev = (!(tb_cflags(tb) & CF_PCREL) && j == 0 ? tb->pc : 0);
              } else {
                  prev = tcg_ctx->gen_insn_data[i - 1][j];
              }
@@ -XXX,XX +XXX,XX @@ static int cpu_unwind_data_from_tb(TranslationBlock *tb, uintptr_t host_pc,
      memset(data, 0, sizeof(uint64_t) * TARGET_INSN_START_WORDS);
      if (!(tb_cflags(tb) & CF_PCREL)) {
 -        data[0] = tb_pc(tb);
 +        data[0] = tb->pc;
      }
--    overflow = divu128((uint64_t *)plow, (uint64_t *)phigh, (uint64_t)divisor);
+     /*
 +    divu128((uint64_t *)plow, (uint64_t *)phigh, (uint64_t)divisor);
      if (sgn_dvdnd  ^ sgn_divsr) {
          *plow = 0 - *plow;
      }
 -
 -    if (!overflow) {
 -        if ((*plow < 0) ^ (sgn_dvdnd ^ sgn_divsr)) {
 -            overflow = 1;
 -        }
 -    }
 -
 -    return overflow;
  }
  #endif
 --
-.25.1
+.34.1

-[PULL 31/56] tcg/optimize: Split out fold_count_zeros
+[PULL 17/62] target/tricore: Replace `tb_pc()` with `tb->pc`
-Reviewed-by: Luis Pires <luis.pires@eldorado.org.br>
+From: Anton Johansson via <qemu-devel@nongnu.org>
-Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
 Signed-off-by: Anton Johansson <anjo@rev.ng>
 Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
 Message-Id: <20230227135202.9710-14-anjo@rev.ng>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- tcg/optimize.c | 32 ++++++++++++++++++--------------
+ target/tricore/cpu.c | 3 ++-
-file changed, 18 insertions(+), 14 deletions(-)
+file changed, 2 insertions(+), 1 deletion(-)
-diff --git a/tcg/optimize.c b/tcg/optimize.c
+diff --git a/target/tricore/cpu.c b/target/tricore/cpu.c
 index XXXXXXX..XXXXXXX 100644
---- a/tcg/optimize.c
+--- a/target/tricore/cpu.c
-+++ b/tcg/optimize.c
++++ b/target/tricore/cpu.c
-@@ -XXX,XX +XXX,XX @@ static bool fold_call(OptContext *ctx, TCGOp *op)
+@@ -XXX,XX +XXX,XX @@ static void tricore_cpu_synchronize_from_tb(CPUState *cs,
-     return true;
+     TriCoreCPU *cpu = TRICORE_CPU(cs);
      CPUTriCoreState *env = &cpu->env;
 -    env->PC = tb_pc(tb);
 +    tcg_debug_assert(!(cs->tcg_cflags & CF_PCREL));
 +    env->PC = tb->pc;
  }
-+static bool fold_count_zeros(OptContext *ctx, TCGOp *op)
+ static void tricore_restore_state_to_opc(CPUState *cs,
 +{
 +    if (arg_is_const(op->args[1])) {
 +        uint64_t t = arg_info(op->args[1])->val;
 +
 +        if (t != 0) {
 +            t = do_constant_folding(op->opc, t, 0);
 +            return tcg_opt_gen_movi(ctx, op, op->args[0], t);
 +        }
 +        return tcg_opt_gen_mov(ctx, op, op->args[0], op->args[2]);
 +    }
 +    return false;
 +}
 +
  static bool fold_ctpop(OptContext *ctx, TCGOp *op)
  {
      return fold_const1(ctx, op);
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
              }
              break;
 -        CASE_OP_32_64(clz):
 -        CASE_OP_32_64(ctz):
 -            if (arg_is_const(op->args[1])) {
 -                TCGArg v = arg_info(op->args[1])->val;
 -                if (v != 0) {
 -                    tmp = do_constant_folding(opc, v, 0);
 -                    tcg_opt_gen_movi(&ctx, op, op->args[0], tmp);
 -                } else {
 -                    tcg_opt_gen_mov(&ctx, op, op->args[0], op->args[2]);
 -                }
 -                continue;
 -            }
 -            break;
 -
          default:
              break;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
          case INDEX_op_brcond2_i32:
              done = fold_brcond2(&ctx, op);
              break;
 +        CASE_OP_32_64(clz):
 +        CASE_OP_32_64(ctz):
 +            done = fold_count_zeros(&ctx, op);
 +            break;
          CASE_OP_32_64(ctpop):
              done = fold_ctpop(&ctx, op);
              break;
 --
-.25.1
+.34.1

-[PULL 30/56] tcg/optimize: Split out fold_deposit
+[PULL 18/62] target/sparc: Replace `tb_pc()` with `tb->pc`
-Reviewed-by: Luis Pires <luis.pires@eldorado.org.br>
+From: Anton Johansson via <qemu-devel@nongnu.org>
-Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
 Signed-off-by: Anton Johansson <anjo@rev.ng>
 Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
 Message-Id: <20230227135202.9710-15-anjo@rev.ng>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- tcg/optimize.c | 25 +++++++++++++++----------
+ target/sparc/cpu.c | 4 +++-
-file changed, 15 insertions(+), 10 deletions(-)
+file changed, 3 insertions(+), 1 deletion(-)
-diff --git a/tcg/optimize.c b/tcg/optimize.c
+diff --git a/target/sparc/cpu.c b/target/sparc/cpu.c
 index XXXXXXX..XXXXXXX 100644
---- a/tcg/optimize.c
+--- a/target/sparc/cpu.c
-+++ b/tcg/optimize.c
++++ b/target/sparc/cpu.c
-@@ -XXX,XX +XXX,XX @@ static bool fold_ctpop(OptContext *ctx, TCGOp *op)
+@@ -XXX,XX +XXX,XX @@
-     return fold_const1(ctx, op);
+ #include "exec/exec-all.h"
  #include "hw/qdev-properties.h"
  #include "qapi/visitor.h"
 +#include "tcg/tcg.h"
  //#define DEBUG_FEATURES
@@ -XXX,XX +XXX,XX @@ static void sparc_cpu_synchronize_from_tb(CPUState *cs,
  {
      SPARCCPU *cpu = SPARC_CPU(cs);
 -    cpu->env.pc = tb_pc(tb);
 +    tcg_debug_assert(!(cs->tcg_cflags & CF_PCREL));
 +    cpu->env.pc = tb->pc;
      cpu->env.npc = tb->cs_base;
  }
-+static bool fold_deposit(OptContext *ctx, TCGOp *op)
-+{
-+    if (arg_is_const(op->args[1]) && arg_is_const(op->args[2])) {
-+        uint64_t t1 = arg_info(op->args[1])->val;
-+        uint64_t t2 = arg_info(op->args[2])->val;
-+
-+        t1 = deposit64(t1, op->args[3], op->args[4], t2);
-+        return tcg_opt_gen_movi(ctx, op, op->args[0], t1);
-+    }
-+    return false;
-+}
-+
- static bool fold_divide(OptContext *ctx, TCGOp *op)
- {
-     return fold_const2(ctx, op);
-@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
-             }
-             break;
--        CASE_OP_32_64(deposit):
--            if (arg_is_const(op->args[1]) && arg_is_const(op->args[2])) {
--                tmp = deposit64(arg_info(op->args[1])->val,
--                                op->args[3], op->args[4],
--                                arg_info(op->args[2])->val);
--                tcg_opt_gen_movi(&ctx, op, op->args[0], tmp);
--                continue;
--            }
--            break;
--
-         default:
-             break;
-@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
-         CASE_OP_32_64(ctpop):
-             done = fold_ctpop(&ctx, op);
-             break;
-+        CASE_OP_32_64(deposit):
-+            done = fold_deposit(&ctx, op);
-+            break;
-         CASE_OP_32_64(div):
-         CASE_OP_32_64(divu):
-             done = fold_divide(&ctx, op);
 --
-.25.1
+.34.1

-[PULL 29/56] tcg/optimize: Split out fold_extract, fold_sextract
+[PULL 19/62] target/sh4: Replace `tb_pc()` with `tb->pc`
-Reviewed-by: Luis Pires <luis.pires@eldorado.org.br>
+From: Anton Johansson via <qemu-devel@nongnu.org>
-Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
 Signed-off-by: Anton Johansson <anjo@rev.ng>
 Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
 Message-Id: <20230227135202.9710-16-anjo@rev.ng>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- tcg/optimize.c | 48 ++++++++++++++++++++++++++++++------------------
+ target/sh4/cpu.c | 6 ++++--
-file changed, 30 insertions(+), 18 deletions(-)
+file changed, 4 insertions(+), 2 deletions(-)
-diff --git a/tcg/optimize.c b/tcg/optimize.c
+diff --git a/target/sh4/cpu.c b/target/sh4/cpu.c
 index XXXXXXX..XXXXXXX 100644
---- a/tcg/optimize.c
+--- a/target/sh4/cpu.c
-+++ b/tcg/optimize.c
++++ b/target/sh4/cpu.c
-@@ -XXX,XX +XXX,XX @@ static bool fold_eqv(OptContext *ctx, TCGOp *op)
+@@ -XXX,XX +XXX,XX @@
-     return fold_const2(ctx, op);
+ #include "migration/vmstate.h"
  #include "exec/exec-all.h"
  #include "fpu/softfloat-helpers.h"
 +#include "tcg/tcg.h"
  static void superh_cpu_set_pc(CPUState *cs, vaddr value)
  {
@@ -XXX,XX +XXX,XX @@ static void superh_cpu_synchronize_from_tb(CPUState *cs,
  {
      SuperHCPU *cpu = SUPERH_CPU(cs);
 -    cpu->env.pc = tb_pc(tb);
 +    tcg_debug_assert(!(cs->tcg_cflags & CF_PCREL));
 +    cpu->env.pc = tb->pc;
      cpu->env.flags = tb->flags & TB_FLAG_ENVFLAGS_MASK;
  }
-+static bool fold_extract(OptContext *ctx, TCGOp *op)
+@@ -XXX,XX +XXX,XX @@ static bool superh_io_recompile_replay_branch(CPUState *cs,
-+{
+     CPUSH4State *env = &cpu->env;
-+    if (arg_is_const(op->args[1])) {
-+        uint64_t t;
+     if ((env->flags & (TB_FLAG_DELAY_SLOT | TB_FLAG_DELAY_SLOT_COND))
-+
+-        && env->pc != tb_pc(tb)) {
-+        t = arg_info(op->args[1])->val;
++        && !(cs->tcg_cflags & CF_PCREL) && env->pc != tb->pc) {
-+        t = extract64(t, op->args[2], op->args[3]);
+         env->pc -= 2;
-+        return tcg_opt_gen_movi(ctx, op, op->args[0], t);
+         env->flags &= ~(TB_FLAG_DELAY_SLOT | TB_FLAG_DELAY_SLOT_COND);
-+    }
+         return true;
 +    return false;
 +}
 +
  static bool fold_extract2(OptContext *ctx, TCGOp *op)
  {
      if (arg_is_const(op->args[1]) && arg_is_const(op->args[2])) {
@@ -XXX,XX +XXX,XX @@ static bool fold_setcond2(OptContext *ctx, TCGOp *op)
      return tcg_opt_gen_movi(ctx, op, op->args[0], i);
  }
 +static bool fold_sextract(OptContext *ctx, TCGOp *op)
 +{
 +    if (arg_is_const(op->args[1])) {
 +        uint64_t t;
 +
 +        t = arg_info(op->args[1])->val;
 +        t = sextract64(t, op->args[2], op->args[3]);
 +        return tcg_opt_gen_movi(ctx, op, op->args[0], t);
 +    }
 +    return false;
 +}
 +
  static bool fold_shift(OptContext *ctx, TCGOp *op)
  {
      return fold_const2(ctx, op);
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
              }
              break;
 -        CASE_OP_32_64(extract):
 -            if (arg_is_const(op->args[1])) {
 -                tmp = extract64(arg_info(op->args[1])->val,
 -                                op->args[2], op->args[3]);
 -                tcg_opt_gen_movi(&ctx, op, op->args[0], tmp);
 -                continue;
 -            }
 -            break;
 -
 -        CASE_OP_32_64(sextract):
 -            if (arg_is_const(op->args[1])) {
 -                tmp = sextract64(arg_info(op->args[1])->val,
 -                                 op->args[2], op->args[3]);
 -                tcg_opt_gen_movi(&ctx, op, op->args[0], tmp);
 -                continue;
 -            }
 -            break;
 -
          default:
              break;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
          CASE_OP_32_64(eqv):
              done = fold_eqv(&ctx, op);
              break;
 +        CASE_OP_32_64(extract):
 +            done = fold_extract(&ctx, op);
 +            break;
          CASE_OP_32_64(extract2):
              done = fold_extract2(&ctx, op);
              break;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
          case INDEX_op_setcond2_i32:
              done = fold_setcond2(&ctx, op);
              break;
 +        CASE_OP_32_64(sextract):
 +            done = fold_sextract(&ctx, op);
 +            break;
          CASE_OP_32_64_VEC(sub):
              done = fold_sub(&ctx, op);
              break;
 --
-.25.1
+.34.1

-[PULL 55/56] tcg/optimize: Propagate sign info for bit counting
+[PULL 20/62] target/rx: Replace `tb_pc()` with `tb->pc`
-The results are generally 6 bit unsigned values, though
+From: Anton Johansson via <qemu-devel@nongnu.org>
 the count leading and trailing bits may produce any value
 for a zero input.
-Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
+Signed-off-by: Anton Johansson <anjo@rev.ng>
-Reviewed-by: Luis Pires <luis.pires@eldorado.org.br>
+Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
 Message-Id: <20230227135202.9710-17-anjo@rev.ng>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- tcg/optimize.c | 3 ++-
+ target/rx/cpu.c | 3 ++-
 file changed, 2 insertions(+), 1 deletion(-)
-diff --git a/tcg/optimize.c b/tcg/optimize.c
+diff --git a/target/rx/cpu.c b/target/rx/cpu.c
 index XXXXXXX..XXXXXXX 100644
---- a/tcg/optimize.c
+--- a/target/rx/cpu.c
-+++ b/tcg/optimize.c
++++ b/target/rx/cpu.c
-@@ -XXX,XX +XXX,XX @@ static bool fold_count_zeros(OptContext *ctx, TCGOp *op)
+@@ -XXX,XX +XXX,XX @@ static void rx_cpu_synchronize_from_tb(CPUState *cs,
-         g_assert_not_reached();
+ {
-     }
+     RXCPU *cpu = RX_CPU(cs);
-     ctx->z_mask = arg_info(op->args[2])->z_mask | z_mask;
--
+-    cpu->env.pc = tb_pc(tb);
-+    ctx->s_mask = smask_from_zmask(ctx->z_mask);
++    tcg_debug_assert(!(cs->tcg_cflags & CF_PCREL));
-     return false;
++    cpu->env.pc = tb->pc;
  }
-@@ -XXX,XX +XXX,XX @@ static bool fold_ctpop(OptContext *ctx, TCGOp *op)
+ static void rx_restore_state_to_opc(CPUState *cs,
      default:
          g_assert_not_reached();
      }
 +    ctx->s_mask = smask_from_zmask(ctx->z_mask);
      return false;
  }
 --
-.25.1
+.34.1

-[PULL 38/56] tcg/optimize: Add type to OptContext
+[PULL 21/62] target/riscv: Replace `tb_pc()` with `tb->pc`
-Compute the type of the operation early.
+From: Anton Johansson via <qemu-devel@nongnu.org>
-There are at least 4 places that used a def->flags ladder
+Signed-off-by: Anton Johansson <anjo@rev.ng>
-to determine the type of the operation being optimized.
+Reviewed-by: Palmer Dabbelt <palmer@rivosinc.com>
+Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
-There were two places that assumed !TCG_OPF_64BIT means
+Message-Id: <20230227135202.9710-18-anjo@rev.ng>
 TCG_TYPE_I32, and so could potentially compute incorrect
 results for vector operations.
 Reviewed-by: Luis Pires <luis.pires@eldorado.org.br>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- tcg/optimize.c | 149 +++++++++++++++++++++++++++++--------------------
+ target/riscv/cpu.c | 7 +++++--
-file changed, 89 insertions(+), 60 deletions(-)
+file changed, 5 insertions(+), 2 deletions(-)
-diff --git a/tcg/optimize.c b/tcg/optimize.c
+diff --git a/target/riscv/cpu.c b/target/riscv/cpu.c
 index XXXXXXX..XXXXXXX 100644
---- a/tcg/optimize.c
+--- a/target/riscv/cpu.c
-+++ b/tcg/optimize.c
++++ b/target/riscv/cpu.c
-@@ -XXX,XX +XXX,XX @@ typedef struct OptContext {
+@@ -XXX,XX +XXX,XX @@
+ #include "fpu/softfloat-helpers.h"
-     /* In flight values from optimization. */
+ #include "sysemu/kvm.h"
-     uint64_t z_mask;
+ #include "kvm_riscv.h"
-+    TCGType type;
++#include "tcg/tcg.h"
- } OptContext;
+ /* RISC-V CPU definitions */
- static inline TempOptInfo *ts_info(TCGTemp *ts)
-@@ -XXX,XX +XXX,XX @@ static bool tcg_opt_gen_mov(OptContext *ctx, TCGOp *op, TCGArg dst, TCGArg src)
+@@ -XXX,XX +XXX,XX @@ static void riscv_cpu_synchronize_from_tb(CPUState *cs,
- {
+     CPURISCVState *env = &cpu->env;
-     TCGTemp *dst_ts = arg_temp(dst);
+     RISCVMXL xl = FIELD_EX32(tb->flags, TB_FLAGS, XL);
-     TCGTemp *src_ts = arg_temp(src);
--    const TCGOpDef *def;
++    tcg_debug_assert(!(cs->tcg_cflags & CF_PCREL));
      TempOptInfo *di;
      TempOptInfo *si;
      uint64_t z_mask;
@@ -XXX,XX +XXX,XX @@ static bool tcg_opt_gen_mov(OptContext *ctx, TCGOp *op, TCGArg dst, TCGArg src)
      reset_ts(dst_ts);
      di = ts_info(dst_ts);
      si = ts_info(src_ts);
 -    def = &tcg_op_defs[op->opc];
 -    if (def->flags & TCG_OPF_VECTOR) {
 -        new_op = INDEX_op_mov_vec;
 -    } else if (def->flags & TCG_OPF_64BIT) {
 -        new_op = INDEX_op_mov_i64;
 -    } else {
 +
-+    switch (ctx->type) {
+     if (xl == MXL_RV32) {
-+    case TCG_TYPE_I32:
+-        env->pc = (int32_t)tb_pc(tb);
-         new_op = INDEX_op_mov_i32;
++        env->pc = (int32_t) tb->pc;
-+        break;
+     } else {
-+    case TCG_TYPE_I64:
+-        env->pc = tb_pc(tb);
-+        new_op = INDEX_op_mov_i64;
++        env->pc = tb->pc;
 +        break;
 +    case TCG_TYPE_V64:
 +    case TCG_TYPE_V128:
 +    case TCG_TYPE_V256:
 +        /* TCGOP_VECL and TCGOP_VECE remain unchanged.  */
 +        new_op = INDEX_op_mov_vec;
 +        break;
 +    default:
 +        g_assert_not_reached();
      }
      op->opc = new_op;
 -    /* TCGOP_VECL and TCGOP_VECE remain unchanged.  */
      op->args[0] = dst;
      op->args[1] = src;
@@ -XXX,XX +XXX,XX @@ static bool tcg_opt_gen_mov(OptContext *ctx, TCGOp *op, TCGArg dst, TCGArg src)
  static bool tcg_opt_gen_movi(OptContext *ctx, TCGOp *op,
                               TCGArg dst, uint64_t val)
  {
 -    const TCGOpDef *def = &tcg_op_defs[op->opc];
 -    TCGType type;
 -    TCGTemp *tv;
 -
 -    if (def->flags & TCG_OPF_VECTOR) {
 -        type = TCGOP_VECL(op) + TCG_TYPE_V64;
 -    } else if (def->flags & TCG_OPF_64BIT) {
 -        type = TCG_TYPE_I64;
 -    } else {
 -        type = TCG_TYPE_I32;
 -    }
 -
      /* Convert movi to mov with constant temp. */
 -    tv = tcg_constant_internal(type, val);
 +    TCGTemp *tv = tcg_constant_internal(ctx->type, val);
 +
      init_ts_info(ctx, tv);
      return tcg_opt_gen_mov(ctx, op, dst, temp_arg(tv));
  }
@@ -XXX,XX +XXX,XX @@ static uint64_t do_constant_folding_2(TCGOpcode op, uint64_t x, uint64_t y)
      }
  }
--static uint64_t do_constant_folding(TCGOpcode op, uint64_t x, uint64_t y)
-+static uint64_t do_constant_folding(TCGOpcode op, TCGType type,
-+                                    uint64_t x, uint64_t y)
- {
--    const TCGOpDef *def = &tcg_op_defs[op];
-     uint64_t res = do_constant_folding_2(op, x, y);
--    if (!(def->flags & TCG_OPF_64BIT)) {
-+    if (type == TCG_TYPE_I32) {
-         res = (int32_t)res;
-     }
-     return res;
-@@ -XXX,XX +XXX,XX @@ static bool do_constant_folding_cond_eq(TCGCond c)
-  * Return -1 if the condition can't be simplified,
-  * and the result of the condition (0 or 1) if it can.
-  */
--static int do_constant_folding_cond(TCGOpcode op, TCGArg x,
-+static int do_constant_folding_cond(TCGType type, TCGArg x,
-                                     TCGArg y, TCGCond c)
- {
-     uint64_t xv = arg_info(x)->val;
-     uint64_t yv = arg_info(y)->val;
-     if (arg_is_const(x) && arg_is_const(y)) {
--        const TCGOpDef *def = &tcg_op_defs[op];
--        tcg_debug_assert(!(def->flags & TCG_OPF_VECTOR));
--        if (def->flags & TCG_OPF_64BIT) {
--            return do_constant_folding_cond_64(xv, yv, c);
--        } else {
-+        switch (type) {
-+        case TCG_TYPE_I32:
-             return do_constant_folding_cond_32(xv, yv, c);
-+        case TCG_TYPE_I64:
-+            return do_constant_folding_cond_64(xv, yv, c);
-+        default:
-+            /* Only scalar comparisons are optimizable */
-+            return -1;
-         }
-     } else if (args_are_copies(x, y)) {
-         return do_constant_folding_cond_eq(c);
-@@ -XXX,XX +XXX,XX @@ static bool fold_const1(OptContext *ctx, TCGOp *op)
-         uint64_t t;
-         t = arg_info(op->args[1])->val;
--        t = do_constant_folding(op->opc, t, 0);
-+        t = do_constant_folding(op->opc, ctx->type, t, 0);
-         return tcg_opt_gen_movi(ctx, op, op->args[0], t);
-     }
-     return false;
-@@ -XXX,XX +XXX,XX @@ static bool fold_const2(OptContext *ctx, TCGOp *op)
-         uint64_t t1 = arg_info(op->args[1])->val;
-         uint64_t t2 = arg_info(op->args[2])->val;
--        t1 = do_constant_folding(op->opc, t1, t2);
-+        t1 = do_constant_folding(op->opc, ctx->type, t1, t2);
-         return tcg_opt_gen_movi(ctx, op, op->args[0], t1);
-     }
-     return false;
-@@ -XXX,XX +XXX,XX @@ static bool fold_andc(OptContext *ctx, TCGOp *op)
- static bool fold_brcond(OptContext *ctx, TCGOp *op)
- {
-     TCGCond cond = op->args[2];
--    int i = do_constant_folding_cond(op->opc, op->args[0], op->args[1], cond);
-+    int i = do_constant_folding_cond(ctx->type, op->args[0], op->args[1], cond);
-     if (i == 0) {
-         tcg_op_remove(ctx->tcg, op);
-@@ -XXX,XX +XXX,XX @@ static bool fold_brcond2(OptContext *ctx, TCGOp *op)
-          * Simplify EQ/NE comparisons where one of the pairs
-          * can be simplified.
-          */
--        i = do_constant_folding_cond(INDEX_op_brcond_i32, op->args[0],
-+        i = do_constant_folding_cond(TCG_TYPE_I32, op->args[0],
-                                      op->args[2], cond);
-         switch (i ^ inv) {
-         case 0:
-@@ -XXX,XX +XXX,XX @@ static bool fold_brcond2(OptContext *ctx, TCGOp *op)
-             goto do_brcond_high;
-         }
--        i = do_constant_folding_cond(INDEX_op_brcond_i32, op->args[1],
-+        i = do_constant_folding_cond(TCG_TYPE_I32, op->args[1],
-                                      op->args[3], cond);
-         switch (i ^ inv) {
-         case 0:
-@@ -XXX,XX +XXX,XX @@ static bool fold_bswap(OptContext *ctx, TCGOp *op)
-     if (arg_is_const(op->args[1])) {
-         uint64_t t = arg_info(op->args[1])->val;
--        t = do_constant_folding(op->opc, t, op->args[2]);
-+        t = do_constant_folding(op->opc, ctx->type, t, op->args[2]);
-         return tcg_opt_gen_movi(ctx, op, op->args[0], t);
-     }
-     return false;
-@@ -XXX,XX +XXX,XX @@ static bool fold_count_zeros(OptContext *ctx, TCGOp *op)
-         uint64_t t = arg_info(op->args[1])->val;
-         if (t != 0) {
--            t = do_constant_folding(op->opc, t, 0);
-+            t = do_constant_folding(op->opc, ctx->type, t, 0);
-             return tcg_opt_gen_movi(ctx, op, op->args[0], t);
-         }
-         return tcg_opt_gen_mov(ctx, op, op->args[0], op->args[2]);
-@@ -XXX,XX +XXX,XX @@ static bool fold_mov(OptContext *ctx, TCGOp *op)
- static bool fold_movcond(OptContext *ctx, TCGOp *op)
- {
--    TCGOpcode opc = op->opc;
-     TCGCond cond = op->args[5];
--    int i = do_constant_folding_cond(opc, op->args[1], op->args[2], cond);
-+    int i = do_constant_folding_cond(ctx->type, op->args[1], op->args[2], cond);
-     if (i >= 0) {
-         return tcg_opt_gen_mov(ctx, op, op->args[0], op->args[4 - i]);
-@@ -XXX,XX +XXX,XX @@ static bool fold_movcond(OptContext *ctx, TCGOp *op)
-     if (arg_is_const(op->args[3]) && arg_is_const(op->args[4])) {
-         uint64_t tv = arg_info(op->args[3])->val;
-         uint64_t fv = arg_info(op->args[4])->val;
-+        TCGOpcode opc;
--        opc = (opc == INDEX_op_movcond_i32
--               ? INDEX_op_setcond_i32 : INDEX_op_setcond_i64);
-+        switch (ctx->type) {
-+        case TCG_TYPE_I32:
-+            opc = INDEX_op_setcond_i32;
-+            break;
-+        case TCG_TYPE_I64:
-+            opc = INDEX_op_setcond_i64;
-+            break;
-+        default:
-+            g_assert_not_reached();
-+        }
-         if (tv == 1 && fv == 0) {
-             op->opc = opc;
-@@ -XXX,XX +XXX,XX @@ static bool fold_remainder(OptContext *ctx, TCGOp *op)
- static bool fold_setcond(OptContext *ctx, TCGOp *op)
- {
-     TCGCond cond = op->args[3];
--    int i = do_constant_folding_cond(op->opc, op->args[1], op->args[2], cond);
-+    int i = do_constant_folding_cond(ctx->type, op->args[1], op->args[2], cond);
-     if (i >= 0) {
-         return tcg_opt_gen_movi(ctx, op, op->args[0], i);
-@@ -XXX,XX +XXX,XX @@ static bool fold_setcond2(OptContext *ctx, TCGOp *op)
-          * Simplify EQ/NE comparisons where one of the pairs
-          * can be simplified.
-          */
--        i = do_constant_folding_cond(INDEX_op_setcond_i32, op->args[1],
-+        i = do_constant_folding_cond(TCG_TYPE_I32, op->args[1],
-                                      op->args[3], cond);
-         switch (i ^ inv) {
-         case 0:
-@@ -XXX,XX +XXX,XX @@ static bool fold_setcond2(OptContext *ctx, TCGOp *op)
-             goto do_setcond_high;
-         }
--        i = do_constant_folding_cond(INDEX_op_setcond_i32, op->args[2],
-+        i = do_constant_folding_cond(TCG_TYPE_I32, op->args[2],
-                                      op->args[4], cond);
-         switch (i ^ inv) {
-         case 0:
-@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
-         init_arguments(&ctx, op, def->nb_oargs + def->nb_iargs);
-         copy_propagate(&ctx, op, def->nb_oargs, def->nb_iargs);
-+        /* Pre-compute the type of the operation. */
-+        if (def->flags & TCG_OPF_VECTOR) {
-+            ctx.type = TCG_TYPE_V64 + TCGOP_VECL(op);
-+        } else if (def->flags & TCG_OPF_64BIT) {
-+            ctx.type = TCG_TYPE_I64;
-+        } else {
-+            ctx.type = TCG_TYPE_I32;
-+        }
-+
-         /* For commutative operations make constant second argument */
-         switch (opc) {
-         CASE_OP_32_64_VEC(add):
-@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
-                     /* Proceed with possible constant folding. */
-                     break;
-                 }
--                if (opc == INDEX_op_sub_i32) {
-+                switch (ctx.type) {
-+                case TCG_TYPE_I32:
-                     neg_op = INDEX_op_neg_i32;
-                     have_neg = TCG_TARGET_HAS_neg_i32;
--                } else if (opc == INDEX_op_sub_i64) {
-+                    break;
-+                case TCG_TYPE_I64:
-                     neg_op = INDEX_op_neg_i64;
-                     have_neg = TCG_TARGET_HAS_neg_i64;
--                } else if (TCG_TARGET_HAS_neg_vec) {
--                    TCGType type = TCGOP_VECL(op) + TCG_TYPE_V64;
--                    unsigned vece = TCGOP_VECE(op);
--                    neg_op = INDEX_op_neg_vec;
--                    have_neg = tcg_can_emit_vec_op(neg_op, type, vece) > 0;
--                } else {
-                     break;
-+                case TCG_TYPE_V64:
-+                case TCG_TYPE_V128:
-+                case TCG_TYPE_V256:
-+                    neg_op = INDEX_op_neg_vec;
-+                    have_neg = tcg_can_emit_vec_op(neg_op, ctx.type,
-+                                                   TCGOP_VECE(op)) > 0;
-+                    break;
-+                default:
-+                    g_assert_not_reached();
-                 }
-                 if (!have_neg) {
-                     break;
-@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
-                 TCGOpcode not_op;
-                 bool have_not;
--                if (def->flags & TCG_OPF_VECTOR) {
--                    not_op = INDEX_op_not_vec;
--                    have_not = TCG_TARGET_HAS_not_vec;
--                } else if (def->flags & TCG_OPF_64BIT) {
--                    not_op = INDEX_op_not_i64;
--                    have_not = TCG_TARGET_HAS_not_i64;
--                } else {
-+                switch (ctx.type) {
-+                case TCG_TYPE_I32:
-                     not_op = INDEX_op_not_i32;
-                     have_not = TCG_TARGET_HAS_not_i32;
-+                    break;
-+                case TCG_TYPE_I64:
-+                    not_op = INDEX_op_not_i64;
-+                    have_not = TCG_TARGET_HAS_not_i64;
-+                    break;
-+                case TCG_TYPE_V64:
-+                case TCG_TYPE_V128:
-+                case TCG_TYPE_V256:
-+                    not_op = INDEX_op_not_vec;
-+                    have_not = TCG_TARGET_HAS_not_vec;
-+                    break;
-+                default:
-+                    g_assert_not_reached();
-                 }
-                 if (!have_not) {
-                     break;
-@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
-            below, we can ignore high bits, but for further optimizations we
-            need to record that the high bits contain garbage.  */
-         partmask = z_mask;
--        if (!(def->flags & TCG_OPF_64BIT)) {
-+        if (ctx.type == TCG_TYPE_I32) {
-             z_mask |= ~(tcg_target_ulong)0xffffffffu;
-             partmask &= 0xffffffffu;
-             affected &= 0xffffffffu;
 --
-.25.1
+.34.1

-[PULL 51/56] tcg/optimize: Use fold_xx_to_i for rem
+[PULL 22/62] target/openrisc: Replace `tb_pc()` with `tb->pc`
-Recognize the constant function for remainder.
+From: Anton Johansson via <qemu-devel@nongnu.org>
-Suggested-by: Luis Pires <luis.pires@eldorado.org.br>
+Signed-off-by: Anton Johansson <anjo@rev.ng>
-Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
+Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
 Message-Id: <20230227135202.9710-19-anjo@rev.ng>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- tcg/optimize.c | 6 +++++-
+ target/openrisc/cpu.c | 4 +++-
-file changed, 5 insertions(+), 1 deletion(-)
+file changed, 3 insertions(+), 1 deletion(-)
-diff --git a/tcg/optimize.c b/tcg/optimize.c
+diff --git a/target/openrisc/cpu.c b/target/openrisc/cpu.c
 index XXXXXXX..XXXXXXX 100644
---- a/tcg/optimize.c
+--- a/target/openrisc/cpu.c
-+++ b/tcg/optimize.c
++++ b/target/openrisc/cpu.c
-@@ -XXX,XX +XXX,XX @@ static bool fold_qemu_st(OptContext *ctx, TCGOp *op)
+@@ -XXX,XX +XXX,XX @@
+ #include "qemu/qemu-print.h"
- static bool fold_remainder(OptContext *ctx, TCGOp *op)
+ #include "cpu.h"
  #include "exec/exec-all.h"
 +#include "tcg/tcg.h"
  static void openrisc_cpu_set_pc(CPUState *cs, vaddr value)
  {
--    return fold_const2(ctx, op);
+@@ -XXX,XX +XXX,XX @@ static void openrisc_cpu_synchronize_from_tb(CPUState *cs,
-+    if (fold_const2(ctx, op) ||
+ {
-+        fold_xx_to_i(ctx, op, 0)) {
+     OpenRISCCPU *cpu = OPENRISC_CPU(cs);
-+        return true;
-+    }
+-    cpu->env.pc = tb_pc(tb);
-+    return false;
++    tcg_debug_assert(!(cs->tcg_cflags & CF_PCREL));
 +    cpu->env.pc = tb->pc;
  }
- static bool fold_setcond(OptContext *ctx, TCGOp *op)
+ static void openrisc_restore_state_to_opc(CPUState *cs,
 --
-.25.1
+.34.1

-[PULL 48/56] tcg/optimize: Use fold_xx_to_i for orc
+[PULL 23/62] target/mips: Replace `tb_pc()` with `tb->pc`
-Recognize the constant function for or-complement.
+From: Anton Johansson via <qemu-devel@nongnu.org>
-Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
+Signed-off-by: Anton Johansson <anjo@rev.ng>
-Reviewed-by: Luis Pires <luis.pires@eldorado.org.br>
+Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
-Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
+Message-Id: <20230227135202.9710-20-anjo@rev.ng>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- tcg/optimize.c | 1 +
+ target/mips/tcg/exception.c             | 3 ++-
-file changed, 1 insertion(+)
+ target/mips/tcg/sysemu/special_helper.c | 2 +-
 files changed, 3 insertions(+), 2 deletions(-)
-diff --git a/tcg/optimize.c b/tcg/optimize.c
+diff --git a/target/mips/tcg/exception.c b/target/mips/tcg/exception.c
 index XXXXXXX..XXXXXXX 100644
---- a/tcg/optimize.c
+--- a/target/mips/tcg/exception.c
-+++ b/tcg/optimize.c
++++ b/target/mips/tcg/exception.c
-@@ -XXX,XX +XXX,XX @@ static bool fold_or(OptContext *ctx, TCGOp *op)
+@@ -XXX,XX +XXX,XX @@ void mips_cpu_synchronize_from_tb(CPUState *cs, const TranslationBlock *tb)
- static bool fold_orc(OptContext *ctx, TCGOp *op)
+     MIPSCPU *cpu = MIPS_CPU(cs);
- {
+     CPUMIPSState *env = &cpu->env;
-     if (fold_const2(ctx, op) ||
-+        fold_xx_to_i(ctx, op, -1) ||
+-    env->active_tc.PC = tb_pc(tb);
-         fold_xi_to_x(ctx, op, -1) ||
++    tcg_debug_assert(!(cs->tcg_cflags & CF_PCREL));
-         fold_ix_to_not(ctx, op, 0)) {
++    env->active_tc.PC = tb->pc;
      env->hflags &= ~MIPS_HFLAG_BMASK;
      env->hflags |= tb->flags & MIPS_HFLAG_BMASK;
  }
 diff --git a/target/mips/tcg/sysemu/special_helper.c b/target/mips/tcg/sysemu/special_helper.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/mips/tcg/sysemu/special_helper.c
 +++ b/target/mips/tcg/sysemu/special_helper.c
@@ -XXX,XX +XXX,XX @@ bool mips_io_recompile_replay_branch(CPUState *cs, const TranslationBlock *tb)
      CPUMIPSState *env = &cpu->env;
      if ((env->hflags & MIPS_HFLAG_BMASK) != 0
 -        && env->active_tc.PC != tb_pc(tb)) {
 +        && !(cs->tcg_cflags & CF_PCREL) && env->active_tc.PC != tb->pc) {
          env->active_tc.PC -= (env->hflags & MIPS_HFLAG_B16 ? 2 : 4);
          env->hflags &= ~MIPS_HFLAG_BMASK;
          return true;
 --
-.25.1
+.34.1

-[PULL 28/56] tcg/optimize: Split out fold_extract2
+[PULL 24/62] target/microblaze: Replace `tb_pc()` with `tb->pc`
-Reviewed-by: Luis Pires <luis.pires@eldorado.org.br>
+From: Anton Johansson via <qemu-devel@nongnu.org>
-Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
 Signed-off-by: Anton Johansson <anjo@rev.ng>
 Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
 Message-Id: <20230227135202.9710-21-anjo@rev.ng>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- tcg/optimize.c | 39 ++++++++++++++++++++++-----------------
+ target/microblaze/cpu.c | 4 +++-
-file changed, 22 insertions(+), 17 deletions(-)
+file changed, 3 insertions(+), 1 deletion(-)
-diff --git a/tcg/optimize.c b/tcg/optimize.c
+diff --git a/target/microblaze/cpu.c b/target/microblaze/cpu.c
 index XXXXXXX..XXXXXXX 100644
---- a/tcg/optimize.c
+--- a/target/microblaze/cpu.c
-+++ b/tcg/optimize.c
++++ b/target/microblaze/cpu.c
-@@ -XXX,XX +XXX,XX @@ static bool fold_eqv(OptContext *ctx, TCGOp *op)
+@@ -XXX,XX +XXX,XX @@
-     return fold_const2(ctx, op);
+ #include "exec/exec-all.h"
  #include "exec/gdbstub.h"
  #include "fpu/softfloat-helpers.h"
 +#include "tcg/tcg.h"
  static const struct {
      const char *name;
@@ -XXX,XX +XXX,XX @@ static void mb_cpu_synchronize_from_tb(CPUState *cs,
  {
      MicroBlazeCPU *cpu = MICROBLAZE_CPU(cs);
 -    cpu->env.pc = tb_pc(tb);
 +    tcg_debug_assert(!(cs->tcg_cflags & CF_PCREL));
 +    cpu->env.pc = tb->pc;
      cpu->env.iflags = tb->flags & IFLAGS_TB_MASK;
  }
-+static bool fold_extract2(OptContext *ctx, TCGOp *op)
-+{
-+    if (arg_is_const(op->args[1]) && arg_is_const(op->args[2])) {
-+        uint64_t v1 = arg_info(op->args[1])->val;
-+        uint64_t v2 = arg_info(op->args[2])->val;
-+        int shr = op->args[3];
-+
-+        if (op->opc == INDEX_op_extract2_i64) {
-+            v1 >>= shr;
-+            v2 <<= 64 - shr;
-+        } else {
-+            v1 = (uint32_t)v1 >> shr;
-+            v2 = (int32_t)v2 << (32 - shr);
-+        }
-+        return tcg_opt_gen_movi(ctx, op, op->args[0], v1 | v2);
-+    }
-+    return false;
-+}
-+
- static bool fold_exts(OptContext *ctx, TCGOp *op)
- {
-     return fold_const1(ctx, op);
-@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
-             }
-             break;
--        CASE_OP_32_64(extract2):
--            if (arg_is_const(op->args[1]) && arg_is_const(op->args[2])) {
--                uint64_t v1 = arg_info(op->args[1])->val;
--                uint64_t v2 = arg_info(op->args[2])->val;
--                int shr = op->args[3];
--
--                if (opc == INDEX_op_extract2_i64) {
--                    tmp = (v1 >> shr) | (v2 << (64 - shr));
--                } else {
--                    tmp = (int32_t)(((uint32_t)v1 >> shr) |
--                                    ((uint32_t)v2 << (32 - shr)));
--                }
--                tcg_opt_gen_movi(&ctx, op, op->args[0], tmp);
--                continue;
--            }
--            break;
--
-         default:
-             break;
-@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
-         CASE_OP_32_64(eqv):
-             done = fold_eqv(&ctx, op);
-             break;
-+        CASE_OP_32_64(extract2):
-+            done = fold_extract2(&ctx, op);
-+            break;
-         CASE_OP_32_64(ext8s):
-         CASE_OP_32_64(ext16s):
-         case INDEX_op_ext32s_i64:
 --
-.25.1
+.34.1

-[PULL 27/56] tcg/optimize: Split out fold_movcond
+[PULL 25/62] target/loongarch: Replace `tb_pc()` with `tb->pc`
-Reviewed-by: Luis Pires <luis.pires@eldorado.org.br>
+From: Anton Johansson via <qemu-devel@nongnu.org>
-Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
 Signed-off-by: Anton Johansson <anjo@rev.ng>
 Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
 Message-Id: <20230227135202.9710-22-anjo@rev.ng>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- tcg/optimize.c | 56 ++++++++++++++++++++++++++++----------------------
+ target/loongarch/cpu.c | 6 ++++--
-file changed, 31 insertions(+), 25 deletions(-)
+file changed, 4 insertions(+), 2 deletions(-)
-diff --git a/tcg/optimize.c b/tcg/optimize.c
+diff --git a/target/loongarch/cpu.c b/target/loongarch/cpu.c
 index XXXXXXX..XXXXXXX 100644
---- a/tcg/optimize.c
+--- a/target/loongarch/cpu.c
-+++ b/tcg/optimize.c
++++ b/target/loongarch/cpu.c
-@@ -XXX,XX +XXX,XX @@ static bool fold_mb(OptContext *ctx, TCGOp *op)
+@@ -XXX,XX +XXX,XX @@
-     return true;
+ #include "fpu/softfloat-helpers.h"
  #include "cpu-csr.h"
  #include "sysemu/reset.h"
 +#include "tcg/tcg.h"
  const char * const regnames[32] = {
      "r0", "r1", "r2", "r3", "r4", "r5", "r6", "r7",
@@ -XXX,XX +XXX,XX @@ static void loongarch_cpu_synchronize_from_tb(CPUState *cs,
      LoongArchCPU *cpu = LOONGARCH_CPU(cs);
      CPULoongArchState *env = &cpu->env;
 -    env->pc = tb_pc(tb);
 +    tcg_debug_assert(!(cs->tcg_cflags & CF_PCREL));
 +    env->pc = tb->pc;
  }
-+static bool fold_movcond(OptContext *ctx, TCGOp *op)
+ static void loongarch_restore_state_to_opc(CPUState *cs,
-+{
+@@ -XXX,XX +XXX,XX @@ static ObjectClass *loongarch_cpu_class_by_name(const char *cpu_model)
-+    TCGOpcode opc = op->opc;
-+    TCGCond cond = op->args[5];
+     oc = object_class_by_name(cpu_model);
-+    int i = do_constant_folding_cond(opc, op->args[1], op->args[2], cond);
+     if (!oc) {
-+
+-        g_autofree char *typename
-+    if (i >= 0) {
++        g_autofree char *typename
-+        return tcg_opt_gen_mov(ctx, op, op->args[0], op->args[4 - i]);
+             = g_strdup_printf(LOONGARCH_CPU_TYPE_NAME("%s"), cpu_model);
-+    }
+         oc = object_class_by_name(typename);
-+
+         if (!oc) {
 +    if (arg_is_const(op->args[3]) && arg_is_const(op->args[4])) {
 +        uint64_t tv = arg_info(op->args[3])->val;
 +        uint64_t fv = arg_info(op->args[4])->val;
 +
 +        opc = (opc == INDEX_op_movcond_i32
 +               ? INDEX_op_setcond_i32 : INDEX_op_setcond_i64);
 +
 +        if (tv == 1 && fv == 0) {
 +            op->opc = opc;
 +            op->args[3] = cond;
 +        } else if (fv == 1 && tv == 0) {
 +            op->opc = opc;
 +            op->args[3] = tcg_invert_cond(cond);
 +        }
 +    }
 +    return false;
 +}
 +
  static bool fold_mul(OptContext *ctx, TCGOp *op)
  {
      return fold_const2(ctx, op);
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
              }
              break;
 -        CASE_OP_32_64(movcond):
 -            i = do_constant_folding_cond(opc, op->args[1],
 -                                         op->args[2], op->args[5]);
 -            if (i >= 0) {
 -                tcg_opt_gen_mov(&ctx, op, op->args[0], op->args[4 - i]);
 -                continue;
 -            }
 -            if (arg_is_const(op->args[3]) && arg_is_const(op->args[4])) {
 -                uint64_t tv = arg_info(op->args[3])->val;
 -                uint64_t fv = arg_info(op->args[4])->val;
 -                TCGCond cond = op->args[5];
 -
 -                if (fv == 1 && tv == 0) {
 -                    cond = tcg_invert_cond(cond);
 -                } else if (!(tv == 1 && fv == 0)) {
 -                    break;
 -                }
 -                op->args[3] = cond;
 -                op->opc = opc = (opc == INDEX_op_movcond_i32
 -                                 ? INDEX_op_setcond_i32
 -                                 : INDEX_op_setcond_i64);
 -            }
 -            break;
 -
 -
          default:
              break;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
          case INDEX_op_mb:
              done = fold_mb(&ctx, op);
              break;
 +        CASE_OP_32_64(movcond):
 +            done = fold_movcond(&ctx, op);
 +            break;
          CASE_OP_32_64(mul):
              done = fold_mul(&ctx, op);
              break;
 --
-.25.1
+.34.1

-[PULL 15/56] tcg/optimize: Change fail return for do_constant_folding_cond*
+[PULL 26/62] target/i386: Replace `tb_pc()` with `tb->pc`
-Return -1 instead of 2 for failure, so that we can
+From: Anton Johansson via <qemu-devel@nongnu.org>
 use comparisons against 0 for all cases.
-Reviewed-by: Luis Pires <luis.pires@eldorado.org.br>
+Signed-off-by: Anton Johansson <anjo@rev.ng>
-Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
+Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
 Message-Id: <20230227135202.9710-23-anjo@rev.ng>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- tcg/optimize.c | 145 +++++++++++++++++++++++++------------------------
+ target/i386/tcg/tcg-cpu.c | 2 +-
-file changed, 74 insertions(+), 71 deletions(-)
+file changed, 1 insertion(+), 1 deletion(-)
-diff --git a/tcg/optimize.c b/tcg/optimize.c
+diff --git a/target/i386/tcg/tcg-cpu.c b/target/i386/tcg/tcg-cpu.c
 index XXXXXXX..XXXXXXX 100644
---- a/tcg/optimize.c
+--- a/target/i386/tcg/tcg-cpu.c
-+++ b/tcg/optimize.c
++++ b/target/i386/tcg/tcg-cpu.c
-@@ -XXX,XX +XXX,XX @@ static bool do_constant_folding_cond_eq(TCGCond c)
+@@ -XXX,XX +XXX,XX @@ static void x86_cpu_synchronize_from_tb(CPUState *cs,
      /* The instruction pointer is always up to date with CF_PCREL. */
      if (!(tb_cflags(tb) & CF_PCREL)) {
          CPUX86State *env = cs->env_ptr;
 -        env->eip = tb_pc(tb) - tb->cs_base;
 +        env->eip = tb->pc - tb->cs_base;
      }
  }
--/* Return 2 if the condition can't be simplified, and the result
--   of the condition (0 or 1) if it can */
--static TCGArg do_constant_folding_cond(TCGOpcode op, TCGArg x,
--                                       TCGArg y, TCGCond c)
-+/*
-+ * Return -1 if the condition can't be simplified,
-+ * and the result of the condition (0 or 1) if it can.
-+ */
-+static int do_constant_folding_cond(TCGOpcode op, TCGArg x,
-+                                    TCGArg y, TCGCond c)
- {
-     uint64_t xv = arg_info(x)->val;
-     uint64_t yv = arg_info(y)->val;
-@@ -XXX,XX +XXX,XX @@ static TCGArg do_constant_folding_cond(TCGOpcode op, TCGArg x,
-         case TCG_COND_GEU:
-             return 1;
-         default:
--            return 2;
-+            return -1;
-         }
-     }
--    return 2;
-+    return -1;
- }
--/* Return 2 if the condition can't be simplified, and the result
--   of the condition (0 or 1) if it can */
--static TCGArg do_constant_folding_cond2(TCGArg *p1, TCGArg *p2, TCGCond c)
-+/*
-+ * Return -1 if the condition can't be simplified,
-+ * and the result of the condition (0 or 1) if it can.
-+ */
-+static int do_constant_folding_cond2(TCGArg *p1, TCGArg *p2, TCGCond c)
- {
-     TCGArg al = p1[0], ah = p1[1];
-     TCGArg bl = p2[0], bh = p2[1];
-@@ -XXX,XX +XXX,XX @@ static TCGArg do_constant_folding_cond2(TCGArg *p1, TCGArg *p2, TCGCond c)
-     if (args_are_copies(al, bl) && args_are_copies(ah, bh)) {
-         return do_constant_folding_cond_eq(c);
-     }
--    return 2;
-+    return -1;
- }
- static bool swap_commutative(TCGArg dest, TCGArg *p1, TCGArg *p2)
-@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
-             break;
-         CASE_OP_32_64(setcond):
--            tmp = do_constant_folding_cond(opc, op->args[1],
--                                           op->args[2], op->args[3]);
--            if (tmp != 2) {
--                tcg_opt_gen_movi(&ctx, op, op->args[0], tmp);
-+            i = do_constant_folding_cond(opc, op->args[1],
-+                                         op->args[2], op->args[3]);
-+            if (i >= 0) {
-+                tcg_opt_gen_movi(&ctx, op, op->args[0], i);
-                 continue;
-             }
-             break;
-         CASE_OP_32_64(brcond):
--            tmp = do_constant_folding_cond(opc, op->args[0],
--                                           op->args[1], op->args[2]);
--            switch (tmp) {
--            case 0:
-+            i = do_constant_folding_cond(opc, op->args[0],
-+                                         op->args[1], op->args[2]);
-+            if (i == 0) {
-                 tcg_op_remove(s, op);
-                 continue;
--            case 1:
-+            } else if (i > 0) {
-                 memset(&ctx.temps_used, 0, sizeof(ctx.temps_used));
-                 op->opc = opc = INDEX_op_br;
-                 op->args[0] = op->args[3];
-@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
-             break;
-         CASE_OP_32_64(movcond):
--            tmp = do_constant_folding_cond(opc, op->args[1],
--                                           op->args[2], op->args[5]);
--            if (tmp != 2) {
--                tcg_opt_gen_mov(&ctx, op, op->args[0], op->args[4-tmp]);
-+            i = do_constant_folding_cond(opc, op->args[1],
-+                                         op->args[2], op->args[5]);
-+            if (i >= 0) {
-+                tcg_opt_gen_mov(&ctx, op, op->args[0], op->args[4 - i]);
-                 continue;
-             }
-             if (arg_is_const(op->args[3]) && arg_is_const(op->args[4])) {
-@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
-             break;
-         case INDEX_op_brcond2_i32:
--            tmp = do_constant_folding_cond2(&op->args[0], &op->args[2],
--                                            op->args[4]);
--            if (tmp == 0) {
-+            i = do_constant_folding_cond2(&op->args[0], &op->args[2],
-+                                          op->args[4]);
-+            if (i == 0) {
-             do_brcond_false:
-                 tcg_op_remove(s, op);
-                 continue;
-             }
--            if (tmp == 1) {
-+            if (i > 0) {
-             do_brcond_true:
-                 op->opc = opc = INDEX_op_br;
-                 op->args[0] = op->args[5];
-@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
-             if (op->args[4] == TCG_COND_EQ) {
-                 /* Simplify EQ comparisons where one of the pairs
-                    can be simplified.  */
--                tmp = do_constant_folding_cond(INDEX_op_brcond_i32,
--                                               op->args[0], op->args[2],
--                                               TCG_COND_EQ);
--                if (tmp == 0) {
-+                i = do_constant_folding_cond(INDEX_op_brcond_i32,
-+                                             op->args[0], op->args[2],
-+                                             TCG_COND_EQ);
-+                if (i == 0) {
-                     goto do_brcond_false;
--                } else if (tmp == 1) {
-+                } else if (i > 0) {
-                     goto do_brcond_high;
-                 }
--                tmp = do_constant_folding_cond(INDEX_op_brcond_i32,
--                                               op->args[1], op->args[3],
--                                               TCG_COND_EQ);
--                if (tmp == 0) {
-+                i = do_constant_folding_cond(INDEX_op_brcond_i32,
-+                                             op->args[1], op->args[3],
-+                                             TCG_COND_EQ);
-+                if (i == 0) {
-                     goto do_brcond_false;
--                } else if (tmp != 1) {
-+                } else if (i < 0) {
-                     break;
-                 }
-             do_brcond_low:
-@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
-             if (op->args[4] == TCG_COND_NE) {
-                 /* Simplify NE comparisons where one of the pairs
-                    can be simplified.  */
--                tmp = do_constant_folding_cond(INDEX_op_brcond_i32,
--                                               op->args[0], op->args[2],
--                                               TCG_COND_NE);
--                if (tmp == 0) {
-+                i = do_constant_folding_cond(INDEX_op_brcond_i32,
-+                                             op->args[0], op->args[2],
-+                                             TCG_COND_NE);
-+                if (i == 0) {
-                     goto do_brcond_high;
--                } else if (tmp == 1) {
-+                } else if (i > 0) {
-                     goto do_brcond_true;
-                 }
--                tmp = do_constant_folding_cond(INDEX_op_brcond_i32,
--                                               op->args[1], op->args[3],
--                                               TCG_COND_NE);
--                if (tmp == 0) {
-+                i = do_constant_folding_cond(INDEX_op_brcond_i32,
-+                                             op->args[1], op->args[3],
-+                                             TCG_COND_NE);
-+                if (i == 0) {
-                     goto do_brcond_low;
--                } else if (tmp == 1) {
-+                } else if (i > 0) {
-                     goto do_brcond_true;
-                 }
-             }
-             break;
-         case INDEX_op_setcond2_i32:
--            tmp = do_constant_folding_cond2(&op->args[1], &op->args[3],
--                                            op->args[5]);
--            if (tmp != 2) {
-+            i = do_constant_folding_cond2(&op->args[1], &op->args[3],
-+                                          op->args[5]);
-+            if (i >= 0) {
-             do_setcond_const:
--                tcg_opt_gen_movi(&ctx, op, op->args[0], tmp);
-+                tcg_opt_gen_movi(&ctx, op, op->args[0], i);
-                 continue;
-             }
-             if ((op->args[5] == TCG_COND_LT || op->args[5] == TCG_COND_GE)
-@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
-             if (op->args[5] == TCG_COND_EQ) {
-                 /* Simplify EQ comparisons where one of the pairs
-                    can be simplified.  */
--                tmp = do_constant_folding_cond(INDEX_op_setcond_i32,
--                                               op->args[1], op->args[3],
--                                               TCG_COND_EQ);
--                if (tmp == 0) {
-+                i = do_constant_folding_cond(INDEX_op_setcond_i32,
-+                                             op->args[1], op->args[3],
-+                                             TCG_COND_EQ);
-+                if (i == 0) {
-                     goto do_setcond_const;
--                } else if (tmp == 1) {
-+                } else if (i > 0) {
-                     goto do_setcond_high;
-                 }
--                tmp = do_constant_folding_cond(INDEX_op_setcond_i32,
--                                               op->args[2], op->args[4],
--                                               TCG_COND_EQ);
--                if (tmp == 0) {
-+                i = do_constant_folding_cond(INDEX_op_setcond_i32,
-+                                             op->args[2], op->args[4],
-+                                             TCG_COND_EQ);
-+                if (i == 0) {
-                     goto do_setcond_high;
--                } else if (tmp != 1) {
-+                } else if (i < 0) {
-                     break;
-                 }
-             do_setcond_low:
-@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
-             if (op->args[5] == TCG_COND_NE) {
-                 /* Simplify NE comparisons where one of the pairs
-                    can be simplified.  */
--                tmp = do_constant_folding_cond(INDEX_op_setcond_i32,
--                                               op->args[1], op->args[3],
--                                               TCG_COND_NE);
--                if (tmp == 0) {
-+                i = do_constant_folding_cond(INDEX_op_setcond_i32,
-+                                             op->args[1], op->args[3],
-+                                             TCG_COND_NE);
-+                if (i == 0) {
-                     goto do_setcond_high;
--                } else if (tmp == 1) {
-+                } else if (i > 0) {
-                     goto do_setcond_const;
-                 }
--                tmp = do_constant_folding_cond(INDEX_op_setcond_i32,
--                                               op->args[2], op->args[4],
--                                               TCG_COND_NE);
--                if (tmp == 0) {
-+                i = do_constant_folding_cond(INDEX_op_setcond_i32,
-+                                             op->args[2], op->args[4],
-+                                             TCG_COND_NE);
-+                if (i == 0) {
-                     goto do_setcond_low;
--                } else if (tmp == 1) {
-+                } else if (i > 0) {
-                     goto do_setcond_const;
-                 }
-             }
 --
-.25.1
+.34.1

-[PULL 26/56] tcg/optimize: Split out fold_addsub2_i32
+[PULL 27/62] target/hppa: Replace `tb_pc()` with `tb->pc`
-Add two additional helpers, fold_add2_i32 and fold_sub2_i32
+From: Anton Johansson via <qemu-devel@nongnu.org>
 which will not be simple wrappers forever.
-Reviewed-by: Luis Pires <luis.pires@eldorado.org.br>
+Signed-off-by: Anton Johansson <anjo@rev.ng>
-Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
+Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
 Message-Id: <20230227135202.9710-24-anjo@rev.ng>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- tcg/optimize.c | 70 +++++++++++++++++++++++++++++++-------------------
+ target/hppa/cpu.c | 8 +++++---
-file changed, 44 insertions(+), 26 deletions(-)
+file changed, 5 insertions(+), 3 deletions(-)
-diff --git a/tcg/optimize.c b/tcg/optimize.c
+diff --git a/target/hppa/cpu.c b/target/hppa/cpu.c
 index XXXXXXX..XXXXXXX 100644
---- a/tcg/optimize.c
+--- a/target/hppa/cpu.c
-+++ b/tcg/optimize.c
++++ b/target/hppa/cpu.c
-@@ -XXX,XX +XXX,XX @@ static bool fold_add(OptContext *ctx, TCGOp *op)
+@@ -XXX,XX +XXX,XX @@
-     return fold_const2(ctx, op);
+ #include "qemu/module.h"
- }
+ #include "exec/exec-all.h"
+ #include "fpu/softfloat.h"
-+static bool fold_addsub2_i32(OptContext *ctx, TCGOp *op, bool add)
+-
-+{
++#include "tcg/tcg.h"
-+    if (arg_is_const(op->args[2]) && arg_is_const(op->args[3]) &&
-+        arg_is_const(op->args[4]) && arg_is_const(op->args[5])) {
+ static void hppa_cpu_set_pc(CPUState *cs, vaddr value)
-+        uint32_t al = arg_info(op->args[2])->val;
+ {
-+        uint32_t ah = arg_info(op->args[3])->val;
+@@ -XXX,XX +XXX,XX @@ static void hppa_cpu_synchronize_from_tb(CPUState *cs,
-+        uint32_t bl = arg_info(op->args[4])->val;
+ {
-+        uint32_t bh = arg_info(op->args[5])->val;
+     HPPACPU *cpu = HPPA_CPU(cs);
-+        uint64_t a = ((uint64_t)ah << 32) | al;
-+        uint64_t b = ((uint64_t)bh << 32) | bl;
++    tcg_debug_assert(!(cs->tcg_cflags & CF_PCREL));
 +        TCGArg rl, rh;
 +        TCGOp *op2 = tcg_op_insert_before(ctx->tcg, op, INDEX_op_mov_i32);
 +
-+        if (add) {
+ #ifdef CONFIG_USER_ONLY
-+            a += b;
+-    cpu->env.iaoq_f = tb_pc(tb);
-+        } else {
++    cpu->env.iaoq_f = tb->pc;
-+            a -= b;
+     cpu->env.iaoq_b = tb->cs_base;
-+        }
+ #else
-+
+     /* Recover the IAOQ values from the GVA + PRIV.  */
-+        rl = op->args[0];
+@@ -XXX,XX +XXX,XX @@ static void hppa_cpu_synchronize_from_tb(CPUState *cs,
-+        rh = op->args[1];
+     int32_t diff = cs_base;
-+        tcg_opt_gen_movi(ctx, op, rl, (int32_t)a);
-+        tcg_opt_gen_movi(ctx, op2, rh, (int32_t)(a >> 32));
+     cpu->env.iasq_f = iasq_f;
-+        return true;
+-    cpu->env.iaoq_f = (tb_pc(tb) & ~iasq_f) + priv;
-+    }
++    cpu->env.iaoq_f = (tb->pc & ~iasq_f) + priv;
-+    return false;
+     if (diff) {
-+}
+         cpu->env.iaoq_b = cpu->env.iaoq_f + diff;
-+
+     }
 +static bool fold_add2_i32(OptContext *ctx, TCGOp *op)
 +{
 +    return fold_addsub2_i32(ctx, op, true);
 +}
 +
  static bool fold_and(OptContext *ctx, TCGOp *op)
  {
      return fold_const2(ctx, op);
@@ -XXX,XX +XXX,XX @@ static bool fold_sub(OptContext *ctx, TCGOp *op)
      return fold_const2(ctx, op);
  }
 +static bool fold_sub2_i32(OptContext *ctx, TCGOp *op)
 +{
 +    return fold_addsub2_i32(ctx, op, false);
 +}
 +
  static bool fold_xor(OptContext *ctx, TCGOp *op)
  {
      return fold_const2(ctx, op);
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
              }
              break;
 -        case INDEX_op_add2_i32:
 -        case INDEX_op_sub2_i32:
 -            if (arg_is_const(op->args[2]) && arg_is_const(op->args[3])
 -                && arg_is_const(op->args[4]) && arg_is_const(op->args[5])) {
 -                uint32_t al = arg_info(op->args[2])->val;
 -                uint32_t ah = arg_info(op->args[3])->val;
 -                uint32_t bl = arg_info(op->args[4])->val;
 -                uint32_t bh = arg_info(op->args[5])->val;
 -                uint64_t a = ((uint64_t)ah << 32) | al;
 -                uint64_t b = ((uint64_t)bh << 32) | bl;
 -                TCGArg rl, rh;
 -                TCGOp *op2 = tcg_op_insert_before(s, op, INDEX_op_mov_i32);
 -
 -                if (opc == INDEX_op_add2_i32) {
 -                    a += b;
 -                } else {
 -                    a -= b;
 -                }
 -
 -                rl = op->args[0];
 -                rh = op->args[1];
 -                tcg_opt_gen_movi(&ctx, op, rl, (int32_t)a);
 -                tcg_opt_gen_movi(&ctx, op2, rh, (int32_t)(a >> 32));
 -                continue;
 -            }
 -            break;
          default:
              break;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
          CASE_OP_32_64_VEC(add):
              done = fold_add(&ctx, op);
              break;
 +        case INDEX_op_add2_i32:
 +            done = fold_add2_i32(&ctx, op);
 +            break;
          CASE_OP_32_64_VEC(and):
              done = fold_and(&ctx, op);
              break;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
          CASE_OP_32_64_VEC(sub):
              done = fold_sub(&ctx, op);
              break;
 +        case INDEX_op_sub2_i32:
 +            done = fold_sub2_i32(&ctx, op);
 +            break;
          CASE_OP_32_64_VEC(xor):
              done = fold_xor(&ctx, op);
              break;
 --
-.25.1
+.34.1

-[PULL 44/56] tcg/optimize: Expand fold_mulu2_i32 to all 4-arg multiplies
+[PULL 28/62] target/hexagon: Replace `tb_pc()` with `tb->pc`
-Rename to fold_multiply2, and handle muls2_i32, mulu2_i64,
+From: Anton Johansson via <qemu-devel@nongnu.org>
 and muls2_i64.
-Reviewed-by: Luis Pires <luis.pires@eldorado.org.br>
+Signed-off-by: Anton Johansson <anjo@rev.ng>
-Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
+Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
 Reviewed-by: Taylor Simpson <tsimpson@quicinc.com>
 Message-Id: <20230227135202.9710-25-anjo@rev.ng>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- tcg/optimize.c | 44 +++++++++++++++++++++++++++++++++++---------
+ target/hexagon/cpu.c | 4 +++-
-file changed, 35 insertions(+), 9 deletions(-)
+file changed, 3 insertions(+), 1 deletion(-)
-diff --git a/tcg/optimize.c b/tcg/optimize.c
+diff --git a/target/hexagon/cpu.c b/target/hexagon/cpu.c
 index XXXXXXX..XXXXXXX 100644
---- a/tcg/optimize.c
+--- a/target/hexagon/cpu.c
-+++ b/tcg/optimize.c
++++ b/target/hexagon/cpu.c
-@@ -XXX,XX +XXX,XX @@ static bool fold_mul_highpart(OptContext *ctx, TCGOp *op)
+@@ -XXX,XX +XXX,XX @@
-     return false;
+ #include "qapi/error.h"
  #include "hw/qdev-properties.h"
  #include "fpu/softfloat-helpers.h"
 +#include "tcg/tcg.h"
  static void hexagon_v67_cpu_init(Object *obj)
  {
@@ -XXX,XX +XXX,XX @@ static void hexagon_cpu_synchronize_from_tb(CPUState *cs,
  {
      HexagonCPU *cpu = HEXAGON_CPU(cs);
      CPUHexagonState *env = &cpu->env;
 -    env->gpr[HEX_REG_PC] = tb_pc(tb);
 +    tcg_debug_assert(!(cs->tcg_cflags & CF_PCREL));
 +    env->gpr[HEX_REG_PC] = tb->pc;
  }
--static bool fold_mulu2_i32(OptContext *ctx, TCGOp *op)
+ static bool hexagon_cpu_has_work(CPUState *cs)
 +static bool fold_multiply2(OptContext *ctx, TCGOp *op)
  {
      if (arg_is_const(op->args[2]) && arg_is_const(op->args[3])) {
 -        uint32_t a = arg_info(op->args[2])->val;
 -        uint32_t b = arg_info(op->args[3])->val;
 -        uint64_t r = (uint64_t)a * b;
 +        uint64_t a = arg_info(op->args[2])->val;
 +        uint64_t b = arg_info(op->args[3])->val;
 +        uint64_t h, l;
          TCGArg rl, rh;
 -        TCGOp *op2 = tcg_op_insert_before(ctx->tcg, op, INDEX_op_mov_i32);
 +        TCGOp *op2;
 +
 +        switch (op->opc) {
 +        case INDEX_op_mulu2_i32:
 +            l = (uint64_t)(uint32_t)a * (uint32_t)b;
 +            h = (int32_t)(l >> 32);
 +            l = (int32_t)l;
 +            break;
 +        case INDEX_op_muls2_i32:
 +            l = (int64_t)(int32_t)a * (int32_t)b;
 +            h = l >> 32;
 +            l = (int32_t)l;
 +            break;
 +        case INDEX_op_mulu2_i64:
 +            mulu64(&l, &h, a, b);
 +            break;
 +        case INDEX_op_muls2_i64:
 +            muls64(&l, &h, a, b);
 +            break;
 +        default:
 +            g_assert_not_reached();
 +        }
          rl = op->args[0];
          rh = op->args[1];
 -        tcg_opt_gen_movi(ctx, op, rl, (int32_t)r);
 -        tcg_opt_gen_movi(ctx, op2, rh, (int32_t)(r >> 32));
 +
 +        /* The proper opcode is supplied by tcg_opt_gen_mov. */
 +        op2 = tcg_op_insert_before(ctx->tcg, op, 0);
 +
 +        tcg_opt_gen_movi(ctx, op, rl, l);
 +        tcg_opt_gen_movi(ctx, op2, rh, h);
          return true;
      }
      return false;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
          CASE_OP_32_64(muluh):
              done = fold_mul_highpart(&ctx, op);
              break;
 -        case INDEX_op_mulu2_i32:
 -            done = fold_mulu2_i32(&ctx, op);
 +        CASE_OP_32_64(muls2):
 +        CASE_OP_32_64(mulu2):
 +            done = fold_multiply2(&ctx, op);
              break;
          CASE_OP_32_64(nand):
              done = fold_nand(&ctx, op);
 --
-.25.1
+.34.1

-[PULL 49/56] tcg/optimize: Use fold_xi_to_x for mul
+[PULL 29/62] target/avr: Replace `tb_pc()` with `tb->pc`
-Recognize the identity function for low-part multiply.
+From: Anton Johansson via <qemu-devel@nongnu.org>
-Suggested-by: Luis Pires <luis.pires@eldorado.org.br>
+Signed-off-by: Anton Johansson <anjo@rev.ng>
-Reviewed-by: Luis Pires <luis.pires@eldorado.org.br>
+Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
-Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
+Message-Id: <20230227135202.9710-26-anjo@rev.ng>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- tcg/optimize.c | 3 ++-
+ target/avr/cpu.c | 3 ++-
 file changed, 2 insertions(+), 1 deletion(-)
-diff --git a/tcg/optimize.c b/tcg/optimize.c
+diff --git a/target/avr/cpu.c b/target/avr/cpu.c
 index XXXXXXX..XXXXXXX 100644
---- a/tcg/optimize.c
+--- a/target/avr/cpu.c
-+++ b/tcg/optimize.c
++++ b/target/avr/cpu.c
-@@ -XXX,XX +XXX,XX @@ static bool fold_movcond(OptContext *ctx, TCGOp *op)
+@@ -XXX,XX +XXX,XX @@ static void avr_cpu_synchronize_from_tb(CPUState *cs,
- static bool fold_mul(OptContext *ctx, TCGOp *op)
+     AVRCPU *cpu = AVR_CPU(cs);
- {
+     CPUAVRState *env = &cpu->env;
-     if (fold_const2(ctx, op) ||
--        fold_xi_to_i(ctx, op, 0)) {
+-    env->pc_w = tb_pc(tb) / 2; /* internally PC points to words */
-+        fold_xi_to_i(ctx, op, 0) ||
++    tcg_debug_assert(!(cs->tcg_cflags & CF_PCREL));
-+        fold_xi_to_x(ctx, op, 1)) {
++    env->pc_w = tb->pc / 2; /* internally PC points to words */
-         return true;
+ }
-     }
-     return false;
+ static void avr_restore_state_to_opc(CPUState *cs,
 --
-.25.1
+.34.1

-[PULL 10/56] tcg/optimize: Move prev_mb into OptContext
+[PULL 30/62] target/arm: Replace `tb_pc()` with `tb->pc`
-This will expose the variable to subroutines that
+From: Anton Johansson via <qemu-devel@nongnu.org>
 will be broken out of tcg_optimize.
-Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
+Signed-off-by: Anton Johansson <anjo@rev.ng>
-Reviewed-by: Luis Pires <luis.pires@eldorado.org.br>
+Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
-Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
+Message-Id: <20230227135202.9710-27-anjo@rev.ng>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- tcg/optimize.c | 11 ++++++-----
+ target/arm/cpu.c | 4 ++--
-file changed, 6 insertions(+), 5 deletions(-)
+file changed, 2 insertions(+), 2 deletions(-)
-diff --git a/tcg/optimize.c b/tcg/optimize.c
+diff --git a/target/arm/cpu.c b/target/arm/cpu.c
 index XXXXXXX..XXXXXXX 100644
---- a/tcg/optimize.c
+--- a/target/arm/cpu.c
-+++ b/tcg/optimize.c
++++ b/target/arm/cpu.c
-@@ -XXX,XX +XXX,XX @@ typedef struct TempOptInfo {
+@@ -XXX,XX +XXX,XX @@ void arm_cpu_synchronize_from_tb(CPUState *cs,
+          * never possible for an AArch64 TB to chain to an AArch32 TB.
- typedef struct OptContext {
+          */
-     TCGContext *tcg;
+         if (is_a64(env)) {
-+    TCGOp *prev_mb;
+-            env->pc = tb_pc(tb);
-     TCGTempSet temps_used;
++            env->pc = tb->pc;
- } OptContext;
+         } else {
+-            env->regs[15] = tb_pc(tb);
-@@ -XXX,XX +XXX,XX @@ static bool swap_commutative2(TCGArg *p1, TCGArg *p2)
++            env->regs[15] = tb->pc;
  void tcg_optimize(TCGContext *s)
  {
      int nb_temps, nb_globals, i;
 -    TCGOp *op, *op_next, *prev_mb = NULL;
 +    TCGOp *op, *op_next;
      OptContext ctx = { .tcg = s };
      /* Array VALS has an element for each temp.
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
          }
          /* Eliminate duplicate and redundant fence instructions.  */
 -        if (prev_mb) {
 +        if (ctx.prev_mb) {
              switch (opc) {
              case INDEX_op_mb:
                  /* Merge two barriers of the same type into one,
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
                   * barrier.  This is stricter than specified but for
                   * the purposes of TCG is better than not optimizing.
                   */
 -                prev_mb->args[0] |= op->args[0];
 +                ctx.prev_mb->args[0] |= op->args[0];
                  tcg_op_remove(s, op);
                  break;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
              case INDEX_op_qemu_st_i64:
              case INDEX_op_call:
                  /* Opcodes that touch guest memory stop the optimization.  */
 -                prev_mb = NULL;
 +                ctx.prev_mb = NULL;
                  break;
              }
          } else if (opc == INDEX_op_mb) {
 -            prev_mb = op;
 +            ctx.prev_mb = op;
          }
      }
  }
 --
-.25.1
+.34.1

-[PULL 11/56] tcg/optimize: Split out init_arguments
+[PULL 31/62] include/exec: Remove `tb_pc()`
-There was no real reason for calls to have separate code here.
+From: Anton Johansson via <qemu-devel@nongnu.org>
 Unify init for calls vs non-calls using the call path, which
 handles TCG_CALL_DUMMY_ARG.
-Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
+Signed-off-by: Anton Johansson <anjo@rev.ng>
-Reviewed-by: Luis Pires <luis.pires@eldorado.org.br>
+Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
-Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
+Message-Id: <20230227135202.9710-28-anjo@rev.ng>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- tcg/optimize.c | 25 +++++++++++--------------
+ include/exec/exec-all.h | 7 -------
-file changed, 11 insertions(+), 14 deletions(-)
+file changed, 7 deletions(-)
-diff --git a/tcg/optimize.c b/tcg/optimize.c
+diff --git a/include/exec/exec-all.h b/include/exec/exec-all.h
 index XXXXXXX..XXXXXXX 100644
---- a/tcg/optimize.c
+--- a/include/exec/exec-all.h
-+++ b/tcg/optimize.c
++++ b/include/exec/exec-all.h
-@@ -XXX,XX +XXX,XX @@ static void init_ts_info(OptContext *ctx, TCGTemp *ts)
+@@ -XXX,XX +XXX,XX @@ static inline uint32_t tb_cflags(const TranslationBlock *tb)
-     }
+     return qatomic_read(&tb->cflags);
  }
--static void init_arg_info(OptContext *ctx, TCGArg arg)
+-/* Hide the read to avoid ifdefs for CF_PCREL. */
 -static inline target_ulong tb_pc(const TranslationBlock *tb)
 -{
--    init_ts_info(ctx, arg_temp(arg));
+-    assert(!(tb_cflags(tb) & CF_PCREL));
 -    return tb->pc;
 -}
 -
- static TCGTemp *find_better_copy(TCGContext *s, TCGTemp *ts)
+ static inline tb_page_addr_t tb_page_addr0(const TranslationBlock *tb)
  {
-     TCGTemp *i, *g, *l;
+ #ifdef CONFIG_USER_ONLY
@@ -XXX,XX +XXX,XX @@ static bool swap_commutative2(TCGArg *p1, TCGArg *p2)
      return false;
  }
 +static void init_arguments(OptContext *ctx, TCGOp *op, int nb_args)
 +{
 +    for (int i = 0; i < nb_args; i++) {
 +        TCGTemp *ts = arg_temp(op->args[i]);
 +        if (ts) {
 +            init_ts_info(ctx, ts);
 +        }
 +    }
 +}
 +
  /* Propagate constants and copies, fold constant expressions. */
  void tcg_optimize(TCGContext *s)
  {
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
          if (opc == INDEX_op_call) {
              nb_oargs = TCGOP_CALLO(op);
              nb_iargs = TCGOP_CALLI(op);
 -            for (i = 0; i < nb_oargs + nb_iargs; i++) {
 -                TCGTemp *ts = arg_temp(op->args[i]);
 -                if (ts) {
 -                    init_ts_info(&ctx, ts);
 -                }
 -            }
          } else {
              nb_oargs = def->nb_oargs;
              nb_iargs = def->nb_iargs;
 -            for (i = 0; i < nb_oargs + nb_iargs; i++) {
 -                init_arg_info(&ctx, op->args[i]);
 -            }
          }
 +        init_arguments(&ctx, op, nb_oargs + nb_iargs);
          /* Do copy propagation */
          for (i = nb_oargs; i < nb_oargs + nb_iargs; i++) {
 --
-.25.1
+.34.1

-[PULL 16/56] tcg/optimize: Return true from tcg_opt_gen_{mov,movi}
+[PULL 32/62] tcg: Adjust TCGContext.temps_in_use check
-This will allow callers to tail call to these functions
+Change the temps_in_use check to use assert not fprintf.
-and return true indicating processing complete.
+Move the assert for double-free before the check for count,
 since that is the more immediate problem.
-Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
+Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
 Reviewed-by: Luis Pires <luis.pires@eldorado.org.br>
 Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- tcg/optimize.c | 9 +++++----
+ tcg/tcg.c | 12 +++++-------
-file changed, 5 insertions(+), 4 deletions(-)
+file changed, 5 insertions(+), 7 deletions(-)
-diff --git a/tcg/optimize.c b/tcg/optimize.c
+diff --git a/tcg/tcg.c b/tcg/tcg.c
 index XXXXXXX..XXXXXXX 100644
---- a/tcg/optimize.c
+--- a/tcg/tcg.c
-+++ b/tcg/optimize.c
++++ b/tcg/tcg.c
-@@ -XXX,XX +XXX,XX @@ static bool args_are_copies(TCGArg arg1, TCGArg arg2)
+@@ -XXX,XX +XXX,XX @@ void tcg_temp_free_internal(TCGTemp *ts)
-     return ts_are_copies(arg_temp(arg1), arg_temp(arg2));
+         g_assert_not_reached();
  }
 -static void tcg_opt_gen_mov(OptContext *ctx, TCGOp *op, TCGArg dst, TCGArg src)
 +static bool tcg_opt_gen_mov(OptContext *ctx, TCGOp *op, TCGArg dst, TCGArg src)
  {
      TCGTemp *dst_ts = arg_temp(dst);
      TCGTemp *src_ts = arg_temp(src);
@@ -XXX,XX +XXX,XX @@ static void tcg_opt_gen_mov(OptContext *ctx, TCGOp *op, TCGArg dst, TCGArg src)
      if (ts_are_copies(dst_ts, src_ts)) {
          tcg_op_remove(ctx->tcg, op);
 -        return;
 +        return true;
      }
-     reset_ts(dst_ts);
+-#if defined(CONFIG_DEBUG_TCG)
-@@ -XXX,XX +XXX,XX @@ static void tcg_opt_gen_mov(OptContext *ctx, TCGOp *op, TCGArg dst, TCGArg src)
+-    s->temps_in_use--;
-         di->is_const = si->is_const;
+-    if (s->temps_in_use < 0) {
-         di->val = si->val;
+-        fprintf(stderr, "More temporaries freed than allocated!\n");
-     }
+-    }
-+    return true;
+-#endif
- }
+-
+     tcg_debug_assert(ts->temp_allocated != 0);
--static void tcg_opt_gen_movi(OptContext *ctx, TCGOp *op,
+     ts->temp_allocated = 0;
-+static bool tcg_opt_gen_movi(OptContext *ctx, TCGOp *op,
-                              TCGArg dst, uint64_t val)
++#if defined(CONFIG_DEBUG_TCG)
- {
++    assert(s->temps_in_use > 0);
-     const TCGOpDef *def = &tcg_op_defs[op->opc];
++    s->temps_in_use--;
-@@ -XXX,XX +XXX,XX @@ static void tcg_opt_gen_movi(OptContext *ctx, TCGOp *op,
++#endif
-     /* Convert movi to mov with constant temp. */
++
-     tv = tcg_constant_internal(type, val);
+     idx = temp_idx(ts);
-     init_ts_info(ctx, tv);
+     k = ts->base_type + (ts->kind == TEMP_NORMAL ? 0 : TCG_TYPE_COUNT);
--    tcg_opt_gen_mov(ctx, op, dst, temp_arg(tv));
+     set_bit(idx, s->free_temps[k].l);
 +    return tcg_opt_gen_mov(ctx, op, dst, temp_arg(tv));
  }
  static uint64_t do_constant_folding_2(TCGOpcode op, uint64_t x, uint64_t y)
 --
-.25.1
+.34.1

-[PULL 13/56] tcg/optimize: Split out fold_call
+[PULL 33/62] accel/tcg: Pass max_insn to gen_intermediate_code by pointer
-Calls are special in that they have a variable number
+In preparation for returning the number of insns generated
-of arguments, and need to be able to clobber globals.
+via the same pointer.  Adjust only the prototypes so far.
-Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
+Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
 Reviewed-by: Luis Pires <luis.pires@eldorado.org.br>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- tcg/optimize.c | 63 ++++++++++++++++++++++++++++++++------------------
+ include/exec/translator.h     | 4 ++--
-file changed, 41 insertions(+), 22 deletions(-)
+ accel/tcg/translate-all.c     | 2 +-
  accel/tcg/translator.c        | 4 ++--
  target/alpha/translate.c      | 2 +-
  target/arm/tcg/translate.c    | 2 +-
  target/avr/translate.c        | 2 +-
  target/cris/translate.c       | 2 +-
  target/hexagon/translate.c    | 2 +-
  target/hppa/translate.c       | 2 +-
  target/i386/tcg/translate.c   | 2 +-
  target/loongarch/translate.c  | 2 +-
  target/m68k/translate.c       | 2 +-
  target/microblaze/translate.c | 2 +-
  target/mips/tcg/translate.c   | 2 +-
  target/nios2/translate.c      | 2 +-
  target/openrisc/translate.c   | 2 +-
  target/ppc/translate.c        | 2 +-
  target/riscv/translate.c      | 2 +-
  target/rx/translate.c         | 2 +-
  target/s390x/tcg/translate.c  | 2 +-
  target/sh4/translate.c        | 2 +-
  target/sparc/translate.c      | 2 +-
  target/tricore/translate.c    | 2 +-
  target/xtensa/translate.c     | 2 +-
 files changed, 26 insertions(+), 26 deletions(-)
-diff --git a/tcg/optimize.c b/tcg/optimize.c
+diff --git a/include/exec/translator.h b/include/exec/translator.h
 index XXXXXXX..XXXXXXX 100644
---- a/tcg/optimize.c
+--- a/include/exec/translator.h
-+++ b/tcg/optimize.c
++++ b/include/exec/translator.h
-@@ -XXX,XX +XXX,XX @@ static void copy_propagate(OptContext *ctx, TCGOp *op,
+@@ -XXX,XX +XXX,XX @@
-     }
+  * This function must be provided by the target, which should create
   * the target-specific DisasContext, and then invoke translator_loop.
   */
 -void gen_intermediate_code(CPUState *cpu, TranslationBlock *tb, int max_insns,
 +void gen_intermediate_code(CPUState *cpu, TranslationBlock *tb, int *max_insns,
                             target_ulong pc, void *host_pc);
  /**
@@ -XXX,XX +XXX,XX @@ typedef struct TranslatorOps {
   * - When single-stepping is enabled (system-wide or on the current vCPU).
   * - When too many instructions have been translated.
   */
 -void translator_loop(CPUState *cpu, TranslationBlock *tb, int max_insns,
 +void translator_loop(CPUState *cpu, TranslationBlock *tb, int *max_insns,
                       target_ulong pc, void *host_pc,
                       const TranslatorOps *ops, DisasContextBase *db);
 diff --git a/accel/tcg/translate-all.c b/accel/tcg/translate-all.c
 index XXXXXXX..XXXXXXX 100644
 --- a/accel/tcg/translate-all.c
 +++ b/accel/tcg/translate-all.c
@@ -XXX,XX +XXX,XX @@ static int setjmp_gen_code(CPUArchState *env, TranslationBlock *tb,
      tcg_func_start(tcg_ctx);
      tcg_ctx->cpu = env_cpu(env);
 -    gen_intermediate_code(env_cpu(env), tb, *max_insns, pc, host_pc);
 +    gen_intermediate_code(env_cpu(env), tb, max_insns, pc, host_pc);
      assert(tb->size != 0);
      tcg_ctx->cpu = NULL;
      *max_insns = tb->icount;
 diff --git a/accel/tcg/translator.c b/accel/tcg/translator.c
 index XXXXXXX..XXXXXXX 100644
 --- a/accel/tcg/translator.c
 +++ b/accel/tcg/translator.c
@@ -XXX,XX +XXX,XX @@ bool translator_use_goto_tb(DisasContextBase *db, target_ulong dest)
      return ((db->pc_first ^ dest) & TARGET_PAGE_MASK) == 0;
  }
-+static bool fold_call(OptContext *ctx, TCGOp *op)
+-void translator_loop(CPUState *cpu, TranslationBlock *tb, int max_insns,
-+{
++void translator_loop(CPUState *cpu, TranslationBlock *tb, int *max_insns,
-+    TCGContext *s = ctx->tcg;
+                      target_ulong pc, void *host_pc,
-+    int nb_oargs = TCGOP_CALLO(op);
+                      const TranslatorOps *ops, DisasContextBase *db)
-+    int nb_iargs = TCGOP_CALLI(op);
+ {
-+    int flags, i;
+@@ -XXX,XX +XXX,XX @@ void translator_loop(CPUState *cpu, TranslationBlock *tb, int max_insns,
-+
+     db->pc_next = pc;
-+    init_arguments(ctx, op, nb_oargs + nb_iargs);
+     db->is_jmp = DISAS_NEXT;
-+    copy_propagate(ctx, op, nb_oargs, nb_iargs);
+     db->num_insns = 0;
-+
+-    db->max_insns = max_insns;
-+    /* If the function reads or writes globals, reset temp data. */
++    db->max_insns = *max_insns;
-+    flags = tcg_call_flags(op);
+     db->singlestep_enabled = cflags & CF_SINGLE_STEP;
-+    if (!(flags & (TCG_CALL_NO_READ_GLOBALS | TCG_CALL_NO_WRITE_GLOBALS))) {
+     db->host_addr[0] = host_pc;
-+        int nb_globals = s->nb_globals;
+     db->host_addr[1] = NULL;
-+
+diff --git a/target/alpha/translate.c b/target/alpha/translate.c
-+        for (i = 0; i < nb_globals; i++) {
+index XXXXXXX..XXXXXXX 100644
-+            if (test_bit(i, ctx->temps_used.l)) {
+--- a/target/alpha/translate.c
-+                reset_ts(&ctx->tcg->temps[i]);
++++ b/target/alpha/translate.c
-+            }
+@@ -XXX,XX +XXX,XX @@ static const TranslatorOps alpha_tr_ops = {
-+        }
+     .disas_log          = alpha_tr_disas_log,
-+    }
+ };
-+
-+    /* Reset temp data for outputs. */
+-void gen_intermediate_code(CPUState *cpu, TranslationBlock *tb, int max_insns,
-+    for (i = 0; i < nb_oargs; i++) {
++void gen_intermediate_code(CPUState *cpu, TranslationBlock *tb, int *max_insns,
-+        reset_temp(op->args[i]);
+                            target_ulong pc, void *host_pc)
-+    }
+ {
-+
+     DisasContext dc;
-+    /* Stop optimizing MB across calls. */
+diff --git a/target/arm/tcg/translate.c b/target/arm/tcg/translate.c
-+    ctx->prev_mb = NULL;
+index XXXXXXX..XXXXXXX 100644
-+    return true;
+--- a/target/arm/tcg/translate.c
-+}
++++ b/target/arm/tcg/translate.c
-+
+@@ -XXX,XX +XXX,XX @@ static const TranslatorOps thumb_translator_ops = {
- /* Propagate constants and copies, fold constant expressions. */
+ };
- void tcg_optimize(TCGContext *s)
- {
+ /* generate intermediate code for basic block 'tb'.  */
--    int nb_temps, nb_globals, i;
+-void gen_intermediate_code(CPUState *cpu, TranslationBlock *tb, int max_insns,
-+    int nb_temps, i;
++void gen_intermediate_code(CPUState *cpu, TranslationBlock *tb, int *max_insns,
-     TCGOp *op, *op_next;
+                            target_ulong pc, void *host_pc)
-     OptContext ctx = { .tcg = s };
+ {
+     DisasContext dc = { };
-@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
+diff --git a/target/avr/translate.c b/target/avr/translate.c
-        available through the doubly linked circular list. */
+index XXXXXXX..XXXXXXX 100644
+--- a/target/avr/translate.c
-     nb_temps = s->nb_temps;
++++ b/target/avr/translate.c
--    nb_globals = s->nb_globals;
+@@ -XXX,XX +XXX,XX @@ static const TranslatorOps avr_tr_ops = {
--
+     .disas_log          = avr_tr_disas_log,
-     for (i = 0; i < nb_temps; ++i) {
+ };
-         s->temps[i].state_ptr = NULL;
-     }
+-void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int max_insns,
-@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
++void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int *max_insns,
-         uint64_t z_mask, partmask, affected, tmp;
+                            target_ulong pc, void *host_pc)
-         int nb_oargs, nb_iargs;
+ {
-         TCGOpcode opc = op->opc;
+     DisasContext dc = { };
--        const TCGOpDef *def = &tcg_op_defs[opc];
+diff --git a/target/cris/translate.c b/target/cris/translate.c
-+        const TCGOpDef *def;
+index XXXXXXX..XXXXXXX 100644
+--- a/target/cris/translate.c
--        /* Count the arguments, and initialize the temps that are
++++ b/target/cris/translate.c
--           going to be used */
+@@ -XXX,XX +XXX,XX @@ static const TranslatorOps cris_tr_ops = {
-+        /* Calls are special. */
+     .disas_log          = cris_tr_disas_log,
-         if (opc == INDEX_op_call) {
+ };
--            nb_oargs = TCGOP_CALLO(op);
--            nb_iargs = TCGOP_CALLI(op);
+-void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int max_insns,
--        } else {
++void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int *max_insns,
--            nb_oargs = def->nb_oargs;
+                            target_ulong pc, void *host_pc)
--            nb_iargs = def->nb_iargs;
+ {
-+            fold_call(&ctx, op);
+     DisasContext dc;
-+            continue;
+diff --git a/target/hexagon/translate.c b/target/hexagon/translate.c
-         }
+index XXXXXXX..XXXXXXX 100644
-+
+--- a/target/hexagon/translate.c
-+        def = &tcg_op_defs[opc];
++++ b/target/hexagon/translate.c
-+        nb_oargs = def->nb_oargs;
+@@ -XXX,XX +XXX,XX @@ static const TranslatorOps hexagon_tr_ops = {
-+        nb_iargs = def->nb_iargs;
+     .disas_log          = hexagon_tr_disas_log,
-         init_arguments(&ctx, op, nb_oargs + nb_iargs);
+ };
-         copy_propagate(&ctx, op, nb_oargs, nb_iargs);
+-void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int max_insns,
-@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
++void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int *max_insns,
-         if (def->flags & TCG_OPF_BB_END) {
+                            target_ulong pc, void *host_pc)
-             memset(&ctx.temps_used, 0, sizeof(ctx.temps_used));
+ {
-         } else {
+     DisasContext ctx;
--            if (opc == INDEX_op_call &&
+diff --git a/target/hppa/translate.c b/target/hppa/translate.c
--                !(tcg_call_flags(op)
+index XXXXXXX..XXXXXXX 100644
--                  & (TCG_CALL_NO_READ_GLOBALS | TCG_CALL_NO_WRITE_GLOBALS))) {
+--- a/target/hppa/translate.c
--                for (i = 0; i < nb_globals; i++) {
++++ b/target/hppa/translate.c
--                    if (test_bit(i, ctx.temps_used.l)) {
+@@ -XXX,XX +XXX,XX @@ static const TranslatorOps hppa_tr_ops = {
--                        reset_ts(&s->temps[i]);
+     .disas_log          = hppa_tr_disas_log,
--                    }
+ };
--                }
--            }
+-void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int max_insns,
--
++void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int *max_insns,
-             for (i = 0; i < nb_oargs; i++) {
+                            target_ulong pc, void *host_pc)
-                 reset_temp(op->args[i]);
+ {
-                 /* Save the corresponding known-zero bits mask for the
+     DisasContext ctx;
-@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
+diff --git a/target/i386/tcg/translate.c b/target/i386/tcg/translate.c
-             case INDEX_op_qemu_st_i32:
+index XXXXXXX..XXXXXXX 100644
-             case INDEX_op_qemu_st8_i32:
+--- a/target/i386/tcg/translate.c
-             case INDEX_op_qemu_st_i64:
++++ b/target/i386/tcg/translate.c
--            case INDEX_op_call:
+@@ -XXX,XX +XXX,XX @@ static const TranslatorOps i386_tr_ops = {
-                 /* Opcodes that touch guest memory stop the optimization.  */
+ };
-                 ctx.prev_mb = NULL;
-                 break;
+ /* generate intermediate code for basic block 'tb'.  */
 -void gen_intermediate_code(CPUState *cpu, TranslationBlock *tb, int max_insns,
 +void gen_intermediate_code(CPUState *cpu, TranslationBlock *tb, int *max_insns,
                             target_ulong pc, void *host_pc)
  {
      DisasContext dc;
 diff --git a/target/loongarch/translate.c b/target/loongarch/translate.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/loongarch/translate.c
 +++ b/target/loongarch/translate.c
@@ -XXX,XX +XXX,XX @@ static const TranslatorOps loongarch_tr_ops = {
      .disas_log          = loongarch_tr_disas_log,
  };
 -void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int max_insns,
 +void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int *max_insns,
                             target_ulong pc, void *host_pc)
  {
      DisasContext ctx;
 diff --git a/target/m68k/translate.c b/target/m68k/translate.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/m68k/translate.c
 +++ b/target/m68k/translate.c
@@ -XXX,XX +XXX,XX @@ static const TranslatorOps m68k_tr_ops = {
      .disas_log          = m68k_tr_disas_log,
  };
 -void gen_intermediate_code(CPUState *cpu, TranslationBlock *tb, int max_insns,
 +void gen_intermediate_code(CPUState *cpu, TranslationBlock *tb, int *max_insns,
                             target_ulong pc, void *host_pc)
  {
      DisasContext dc;
 diff --git a/target/microblaze/translate.c b/target/microblaze/translate.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/microblaze/translate.c
 +++ b/target/microblaze/translate.c
@@ -XXX,XX +XXX,XX @@ static const TranslatorOps mb_tr_ops = {
      .disas_log          = mb_tr_disas_log,
  };
 -void gen_intermediate_code(CPUState *cpu, TranslationBlock *tb, int max_insns,
 +void gen_intermediate_code(CPUState *cpu, TranslationBlock *tb, int *max_insns,
                             target_ulong pc, void *host_pc)
  {
      DisasContext dc;
 diff --git a/target/mips/tcg/translate.c b/target/mips/tcg/translate.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/mips/tcg/translate.c
 +++ b/target/mips/tcg/translate.c
@@ -XXX,XX +XXX,XX @@ static const TranslatorOps mips_tr_ops = {
      .disas_log          = mips_tr_disas_log,
  };
 -void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int max_insns,
 +void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int *max_insns,
                             target_ulong pc, void *host_pc)
  {
      DisasContext ctx;
 diff --git a/target/nios2/translate.c b/target/nios2/translate.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/nios2/translate.c
 +++ b/target/nios2/translate.c
@@ -XXX,XX +XXX,XX @@ static const TranslatorOps nios2_tr_ops = {
      .disas_log          = nios2_tr_disas_log,
  };
 -void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int max_insns,
 +void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int *max_insns,
                             target_ulong pc, void *host_pc)
  {
      DisasContext dc;
 diff --git a/target/openrisc/translate.c b/target/openrisc/translate.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/openrisc/translate.c
 +++ b/target/openrisc/translate.c
@@ -XXX,XX +XXX,XX @@ static const TranslatorOps openrisc_tr_ops = {
      .disas_log          = openrisc_tr_disas_log,
  };
 -void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int max_insns,
 +void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int *max_insns,
                             target_ulong pc, void *host_pc)
  {
      DisasContext ctx;
 diff --git a/target/ppc/translate.c b/target/ppc/translate.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/ppc/translate.c
 +++ b/target/ppc/translate.c
@@ -XXX,XX +XXX,XX @@ static const TranslatorOps ppc_tr_ops = {
      .disas_log          = ppc_tr_disas_log,
  };
 -void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int max_insns,
 +void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int *max_insns,
                             target_ulong pc, void *host_pc)
  {
      DisasContext ctx;
 diff --git a/target/riscv/translate.c b/target/riscv/translate.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/riscv/translate.c
 +++ b/target/riscv/translate.c
@@ -XXX,XX +XXX,XX @@ static const TranslatorOps riscv_tr_ops = {
      .disas_log          = riscv_tr_disas_log,
  };
 -void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int max_insns,
 +void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int *max_insns,
                             target_ulong pc, void *host_pc)
  {
      DisasContext ctx;
 diff --git a/target/rx/translate.c b/target/rx/translate.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/rx/translate.c
 +++ b/target/rx/translate.c
@@ -XXX,XX +XXX,XX @@ static const TranslatorOps rx_tr_ops = {
      .disas_log          = rx_tr_disas_log,
  };
 -void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int max_insns,
 +void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int *max_insns,
                             target_ulong pc, void *host_pc)
  {
      DisasContext dc;
 diff --git a/target/s390x/tcg/translate.c b/target/s390x/tcg/translate.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/s390x/tcg/translate.c
 +++ b/target/s390x/tcg/translate.c
@@ -XXX,XX +XXX,XX @@ static const TranslatorOps s390x_tr_ops = {
      .disas_log          = s390x_tr_disas_log,
  };
 -void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int max_insns,
 +void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int *max_insns,
                             target_ulong pc, void *host_pc)
  {
      DisasContext dc;
 diff --git a/target/sh4/translate.c b/target/sh4/translate.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/sh4/translate.c
 +++ b/target/sh4/translate.c
@@ -XXX,XX +XXX,XX @@ static const TranslatorOps sh4_tr_ops = {
      .disas_log          = sh4_tr_disas_log,
  };
 -void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int max_insns,
 +void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int *max_insns,
                             target_ulong pc, void *host_pc)
  {
      DisasContext ctx;
 diff --git a/target/sparc/translate.c b/target/sparc/translate.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/sparc/translate.c
 +++ b/target/sparc/translate.c
@@ -XXX,XX +XXX,XX @@ static const TranslatorOps sparc_tr_ops = {
      .disas_log          = sparc_tr_disas_log,
  };
 -void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int max_insns,
 +void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int *max_insns,
                             target_ulong pc, void *host_pc)
  {
      DisasContext dc = {};
 diff --git a/target/tricore/translate.c b/target/tricore/translate.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/tricore/translate.c
 +++ b/target/tricore/translate.c
@@ -XXX,XX +XXX,XX @@ static const TranslatorOps tricore_tr_ops = {
  };
 -void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int max_insns,
 +void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int *max_insns,
                             target_ulong pc, void *host_pc)
  {
      DisasContext ctx;
 diff --git a/target/xtensa/translate.c b/target/xtensa/translate.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/xtensa/translate.c
 +++ b/target/xtensa/translate.c
@@ -XXX,XX +XXX,XX @@ static const TranslatorOps xtensa_translator_ops = {
      .disas_log          = xtensa_tr_disas_log,
  };
 -void gen_intermediate_code(CPUState *cpu, TranslationBlock *tb, int max_insns,
 +void gen_intermediate_code(CPUState *cpu, TranslationBlock *tb, int *max_insns,
                             target_ulong pc, void *host_pc)
  {
      DisasContext dc = {};
 --
-.25.1
+.34.1

-[PULL 53/56] tcg/optimize: Propagate sign info for logical operations
+[PULL 34/62] accel/tcg: Use more accurate max_insns for tb_overflow
-Sign repetitions are perforce all identical, whether they are 1 or 0.
+Write back the number of insns that we attempt to translate,
-Bitwise operations preserve the relative quantity of the repetitions.
+so that if we longjmp out we have a more accurate limit for
 the next attempt.  This results in fewer restarts when some
 limit is consumed by few instructions.
-Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
+Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
 Reviewed-by: Luis Pires <luis.pires@eldorado.org.br>
 Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- tcg/optimize.c | 29 +++++++++++++++++++++++++++++
+ accel/tcg/translator.c | 2 +-
-file changed, 29 insertions(+)
+file changed, 1 insertion(+), 1 deletion(-)
-diff --git a/tcg/optimize.c b/tcg/optimize.c
+diff --git a/accel/tcg/translator.c b/accel/tcg/translator.c
 index XXXXXXX..XXXXXXX 100644
---- a/tcg/optimize.c
+--- a/accel/tcg/translator.c
-+++ b/tcg/optimize.c
++++ b/accel/tcg/translator.c
-@@ -XXX,XX +XXX,XX @@ static bool fold_and(OptContext *ctx, TCGOp *op)
+@@ -XXX,XX +XXX,XX @@ void translator_loop(CPUState *cpu, TranslationBlock *tb, int *max_insns,
-     z2 = arg_info(op->args[2])->z_mask;
+     plugin_enabled = plugin_gen_tb_start(cpu, db, cflags & CF_MEMI_ONLY);
-     ctx->z_mask = z1 & z2;
+     while (true) {
-+    /*
+-        db->num_insns++;
-+     * Sign repetitions are perforce all identical, whether they are 1 or 0.
++        *max_insns = ++db->num_insns;
-+     * Bitwise operations preserve the relative quantity of the repetitions.
+         ops->insn_start(db, cpu);
-+     */
+         tcg_debug_assert(db->is_jmp == DISAS_NEXT);  /* no early exit */
 +    ctx->s_mask = arg_info(op->args[1])->s_mask
 +                & arg_info(op->args[2])->s_mask;
 +
      /*
       * Known-zeros does not imply known-ones.  Therefore unless
       * arg2 is constant, we can't infer affected bits from it.
@@ -XXX,XX +XXX,XX @@ static bool fold_andc(OptContext *ctx, TCGOp *op)
      }
      ctx->z_mask = z1;
 +    ctx->s_mask = arg_info(op->args[1])->s_mask
 +                & arg_info(op->args[2])->s_mask;
      return fold_masks(ctx, op);
  }
@@ -XXX,XX +XXX,XX @@ static bool fold_eqv(OptContext *ctx, TCGOp *op)
          fold_xi_to_not(ctx, op, 0)) {
          return true;
      }
 +
 +    ctx->s_mask = arg_info(op->args[1])->s_mask
 +                & arg_info(op->args[2])->s_mask;
      return false;
  }
@@ -XXX,XX +XXX,XX @@ static bool fold_movcond(OptContext *ctx, TCGOp *op)
      ctx->z_mask = arg_info(op->args[3])->z_mask
                  | arg_info(op->args[4])->z_mask;
 +    ctx->s_mask = arg_info(op->args[3])->s_mask
 +                & arg_info(op->args[4])->s_mask;
      if (arg_is_const(op->args[3]) && arg_is_const(op->args[4])) {
          uint64_t tv = arg_info(op->args[3])->val;
@@ -XXX,XX +XXX,XX @@ static bool fold_nand(OptContext *ctx, TCGOp *op)
          fold_xi_to_not(ctx, op, -1)) {
          return true;
      }
 +
 +    ctx->s_mask = arg_info(op->args[1])->s_mask
 +                & arg_info(op->args[2])->s_mask;
      return false;
  }
@@ -XXX,XX +XXX,XX @@ static bool fold_nor(OptContext *ctx, TCGOp *op)
          fold_xi_to_not(ctx, op, 0)) {
          return true;
      }
 +
 +    ctx->s_mask = arg_info(op->args[1])->s_mask
 +                & arg_info(op->args[2])->s_mask;
      return false;
  }
@@ -XXX,XX +XXX,XX @@ static bool fold_not(OptContext *ctx, TCGOp *op)
          return true;
      }
 +    ctx->s_mask = arg_info(op->args[1])->s_mask;
 +
      /* Because of fold_to_not, we want to always return true, via finish. */
      finish_folding(ctx, op);
      return true;
@@ -XXX,XX +XXX,XX @@ static bool fold_or(OptContext *ctx, TCGOp *op)
      ctx->z_mask = arg_info(op->args[1])->z_mask
                  | arg_info(op->args[2])->z_mask;
 +    ctx->s_mask = arg_info(op->args[1])->s_mask
 +                & arg_info(op->args[2])->s_mask;
      return fold_masks(ctx, op);
  }
@@ -XXX,XX +XXX,XX @@ static bool fold_orc(OptContext *ctx, TCGOp *op)
          fold_ix_to_not(ctx, op, 0)) {
          return true;
      }
 +
 +    ctx->s_mask = arg_info(op->args[1])->s_mask
 +                & arg_info(op->args[2])->s_mask;
      return false;
  }
@@ -XXX,XX +XXX,XX @@ static bool fold_xor(OptContext *ctx, TCGOp *op)
      ctx->z_mask = arg_info(op->args[1])->z_mask
                  | arg_info(op->args[2])->z_mask;
 +    ctx->s_mask = arg_info(op->args[1])->s_mask
 +                & arg_info(op->args[2])->s_mask;
      return fold_masks(ctx, op);
  }
 --
-.25.1
+.34.1

-[PULL 14/56] tcg/optimize: Drop nb_oargs, nb_iargs locals
+[PULL 35/62] tcg: Remove branch-to-next regardless of reference count
-Rather than try to keep these up-to-date across folding,
+Just because the label reference count is more than 1 does
-re-read nb_oargs at the end, after re-reading the opcode.
+not mean we cannot remove a branch-to-next.  By doing this
 first, the label reference count may drop to 0, and then
 the label itself gets removed as before.
-A couple of asserts need dropping, but that will take care
+Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
 of itself as we split the function further.
 Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
 Reviewed-by: Luis Pires <luis.pires@eldorado.org.br>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- tcg/optimize.c | 14 ++++----------
+ tcg/tcg.c | 33 +++++++++++++++++----------------
-file changed, 4 insertions(+), 10 deletions(-)
+file changed, 17 insertions(+), 16 deletions(-)
-diff --git a/tcg/optimize.c b/tcg/optimize.c
+diff --git a/tcg/tcg.c b/tcg/tcg.c
 index XXXXXXX..XXXXXXX 100644
---- a/tcg/optimize.c
+--- a/tcg/tcg.c
-+++ b/tcg/optimize.c
++++ b/tcg/tcg.c
-@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
+@@ -XXX,XX +XXX,XX @@ TCGOp *tcg_op_insert_after(TCGContext *s, TCGOp *old_op,
  /* Reachable analysis : remove unreachable code.  */
  static void reachable_code_pass(TCGContext *s)
  {
 -    TCGOp *op, *op_next;
 +    TCGOp *op, *op_next, *op_prev;
      bool dead = false;
      QTAILQ_FOREACH_SAFE(op, &s->ops, link, op_next) {
-         uint64_t z_mask, partmask, affected, tmp;
+@@ -XXX,XX +XXX,XX @@ static void reachable_code_pass(TCGContext *s)
--        int nb_oargs, nb_iargs;
+         switch (op->opc) {
-         TCGOpcode opc = op->opc;
+         case INDEX_op_set_label:
-         const TCGOpDef *def;
+             label = arg_label(op->args[0]);
++
-@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
++            /*
-         }
++             * Optimization can fold conditional branches to unconditional.
++             * If we find a label which is preceded by an unconditional
-         def = &tcg_op_defs[opc];
++             * branch to next, remove the branch.  We couldn't do this when
--        nb_oargs = def->nb_oargs;
++             * processing the branch because any dead code between the branch
--        nb_iargs = def->nb_iargs;
++             * and label had not yet been removed.
--        init_arguments(&ctx, op, nb_oargs + nb_iargs);
++             */
--        copy_propagate(&ctx, op, nb_oargs, nb_iargs);
++            op_prev = QTAILQ_PREV(op, link);
-+        init_arguments(&ctx, op, def->nb_oargs + def->nb_iargs);
++            if (op_prev->opc == INDEX_op_br &&
-+        copy_propagate(&ctx, op, def->nb_oargs, def->nb_iargs);
++                label == arg_label(op_prev->args[0])) {
++                tcg_op_remove(s, op_prev);
-         /* For commutative operations make constant second argument */
++                /* Fall through means insns become live again.  */
-         switch (opc) {
++                dead = false;
-@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
++            }
++
-         CASE_OP_32_64(qemu_ld):
+             if (label->refs == 0) {
-             {
+                 /*
--                MemOpIdx oi = op->args[nb_oargs + nb_iargs];
+                  * While there is an occasional backward branch, virtually
-+                MemOpIdx oi = op->args[def->nb_oargs + def->nb_iargs];
+@@ -XXX,XX +XXX,XX @@ static void reachable_code_pass(TCGContext *s)
-                 MemOp mop = get_memop(oi);
+                 /* Once we see a label, insns become live again.  */
-                 if (!(mop & MO_SIGN)) {
+                 dead = false;
-                     z_mask = (2ULL << ((8 << (mop & MO_SIZE)) - 1)) - 1;
+                 remove = false;
-@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
+-
-         }
+-                /*
+-                 * Optimization can fold conditional branches to unconditional.
-         if (partmask == 0) {
+-                 * If we find a label with one reference which is preceded by
--            tcg_debug_assert(nb_oargs == 1);
+-                 * an unconditional branch to it, remove both.  This needed to
-             tcg_opt_gen_movi(&ctx, op, op->args[0], 0);
+-                 * wait until the dead code in between them was removed.
-             continue;
+-                 */
-         }
+-                if (label->refs == 1) {
-         if (affected == 0) {
+-                    TCGOp *op_prev = QTAILQ_PREV(op, link);
--            tcg_debug_assert(nb_oargs == 1);
+-                    if (op_prev->opc == INDEX_op_br &&
-             tcg_opt_gen_mov(&ctx, op, op->args[0], op->args[1]);
+-                        label == arg_label(op_prev->args[0])) {
-             continue;
+-                        tcg_op_remove(s, op_prev);
-         }
+-                        remove = true;
-@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
+-                    }
-             } else if (args_are_copies(op->args[1], op->args[2])) {
+-                }
                  op->opc = INDEX_op_dup_vec;
                  TCGOP_VECE(op) = MO_32;
 -                nb_iargs = 1;
              }
              break;
-@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
-                 op->opc = opc = (opc == INDEX_op_movcond_i32
-                                  ? INDEX_op_setcond_i32
-                                  : INDEX_op_setcond_i64);
--                nb_iargs = 2;
-             }
-             break;
-@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
-         if (def->flags & TCG_OPF_BB_END) {
-             memset(&ctx.temps_used, 0, sizeof(ctx.temps_used));
-         } else {
-+            int nb_oargs = def->nb_oargs;
-             for (i = 0; i < nb_oargs; i++) {
-                 reset_temp(op->args[i]);
-                 /* Save the corresponding known-zero bits mask for the
 --
-.25.1
+.34.1

-[PULL 52/56] tcg/optimize: Optimize sign extensions
+[PULL 36/62] tcg: Rename TEMP_LOCAL to TEMP_TB
-Certain targets, like riscv, produce signed 32-bit results.
+Use TEMP_TB as that is more explicit about the default
-This can lead to lots of redundant extensions as values are
+lifetime of the data.  While "global" and "local" used
-manipulated.
+to be contrasting, we have more lifetimes than that now.
-Begin by tracking only the obvious sign-extensions, and
+Do not yet rename tcg_temp_local_new_*, just the enum.
 converting them to simple copies when possible.
-Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
+Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
 Reviewed-by: Luis Pires <luis.pires@eldorado.org.br>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- tcg/optimize.c | 123 ++++++++++++++++++++++++++++++++++++++++---------
+ include/tcg/tcg.h | 12 ++++++++----
-file changed, 102 insertions(+), 21 deletions(-)
+ tcg/optimize.c    |  2 +-
  tcg/tcg.c         | 18 +++++++++---------
 files changed, 18 insertions(+), 14 deletions(-)
+diff --git a/include/tcg/tcg.h b/include/tcg/tcg.h
+index XXXXXXX..XXXXXXX 100644
+--- a/include/tcg/tcg.h
++++ b/include/tcg/tcg.h
+@@ -XXX,XX +XXX,XX @@ typedef enum TCGTempVal {
+ typedef enum TCGTempKind {
+     /* Temp is dead at the end of all basic blocks. */
+     TEMP_NORMAL,
+-    /* Temp is live across conditional branch, but dead otherwise. */
++    /*
++     * Temp is dead at the end of the extended basic block (EBB),
++     * the single-entry multiple-exit region that falls through
++     * conditional branches.
++     */
+     TEMP_EBB,
+-    /* Temp is saved across basic blocks but dead at the end of TBs. */
+-    TEMP_LOCAL,
+-    /* Temp is saved across both basic blocks and translation blocks. */
++    /* Temp is live across the entire translation block, but dead at end. */
++    TEMP_TB,
++    /* Temp is live across the entire translation block, and between them. */
+     TEMP_GLOBAL,
+     /* Temp is in a fixed register. */
+     TEMP_FIXED,
 diff --git a/tcg/optimize.c b/tcg/optimize.c
 index XXXXXXX..XXXXXXX 100644
 --- a/tcg/optimize.c
 +++ b/tcg/optimize.c
-@@ -XXX,XX +XXX,XX @@ typedef struct TempOptInfo {
+@@ -XXX,XX +XXX,XX @@ static TCGTemp *find_better_copy(TCGContext *s, TCGTemp *ts)
-     TCGTemp *next_copy;
+         } else if (i->kind > ts->kind) {
-     uint64_t val;
+             if (i->kind == TEMP_GLOBAL) {
-     uint64_t z_mask;  /* mask bit is 0 if and only if value bit is 0 */
+                 g = i;
-+    uint64_t s_mask;  /* a left-aligned mask of clrsb(value) bits. */
+-            } else if (i->kind == TEMP_LOCAL) {
- } TempOptInfo;
++            } else if (i->kind == TEMP_TB) {
+                 l = i;
- typedef struct OptContext {
+             }
-@@ -XXX,XX +XXX,XX @@ typedef struct OptContext {
+         }
-     /* In flight values from optimization. */
+diff --git a/tcg/tcg.c b/tcg/tcg.c
-     uint64_t a_mask;  /* mask bit is 0 iff value identical to first input */
+index XXXXXXX..XXXXXXX 100644
-     uint64_t z_mask;  /* mask bit is 0 iff value bit is 0 */
+--- a/tcg/tcg.c
-+    uint64_t s_mask;  /* mask of clrsb(value) bits */
++++ b/tcg/tcg.c
-     TCGType type;
+@@ -XXX,XX +XXX,XX @@ TCGTemp *tcg_global_mem_new_internal(TCGType type, TCGv_ptr base,
- } OptContext;
+ TCGTemp *tcg_temp_new_internal(TCGType type, bool temp_local)
 +/* Calculate the smask for a specific value. */
 +static uint64_t smask_from_value(uint64_t value)
 +{
 +    int rep = clrsb64(value);
 +    return ~(~0ull >> rep);
 +}
 +
 +/*
 + * Calculate the smask for a given set of known-zeros.
 + * If there are lots of zeros on the left, we can consider the remainder
 + * an unsigned field, and thus the corresponding signed field is one bit
 + * larger.
 + */
 +static uint64_t smask_from_zmask(uint64_t zmask)
 +{
 +    /*
 +     * Only the 0 bits are significant for zmask, thus the msb itself
 +     * must be zero, else we have no sign information.
 +     */
 +    int rep = clz64(zmask);
 +    if (rep == 0) {
 +        return 0;
 +    }
 +    rep -= 1;
 +    return ~(~0ull >> rep);
 +}
 +
  static inline TempOptInfo *ts_info(TCGTemp *ts)
  {
-     return ts->state_ptr;
+     TCGContext *s = tcg_ctx;
-@@ -XXX,XX +XXX,XX @@ static void reset_ts(TCGTemp *ts)
+-    TCGTempKind kind = temp_local ? TEMP_LOCAL : TEMP_NORMAL;
-     ti->prev_copy = ts;
++    TCGTempKind kind = temp_local ? TEMP_TB : TEMP_NORMAL;
-     ti->is_const = false;
+     TCGTemp *ts;
-     ti->z_mask = -1;
+     int idx, k;
-+    ti->s_mask = 0;
- }
+@@ -XXX,XX +XXX,XX @@ void tcg_temp_free_internal(TCGTemp *ts)
  static void reset_temp(TCGArg arg)
@@ -XXX,XX +XXX,XX @@ static void init_ts_info(OptContext *ctx, TCGTemp *ts)
          ti->is_const = true;
          ti->val = ts->val;
          ti->z_mask = ts->val;
 +        ti->s_mask = smask_from_value(ts->val);
      } else {
          ti->is_const = false;
          ti->z_mask = -1;
 +        ti->s_mask = 0;
      }
  }
@@ -XXX,XX +XXX,XX @@ static bool tcg_opt_gen_mov(OptContext *ctx, TCGOp *op, TCGArg dst, TCGArg src)
      op->args[1] = src;
      di->z_mask = si->z_mask;
 +    di->s_mask = si->s_mask;
      if (src_ts->type == dst_ts->type) {
          TempOptInfo *ni = ts_info(si->next_copy);
@@ -XXX,XX +XXX,XX @@ static void finish_folding(OptContext *ctx, TCGOp *op)
      nb_oargs = def->nb_oargs;
      for (i = 0; i < nb_oargs; i++) {
 -        reset_temp(op->args[i]);
 +        TCGTemp *ts = arg_temp(op->args[i]);
 +        reset_ts(ts);
          /*
 -         * Save the corresponding known-zero bits mask for the
 +         * Save the corresponding known-zero/sign bits mask for the
           * first output argument (only one supported so far).
           */
-         if (i == 0) {
+         return;
--            arg_info(op->args[i])->z_mask = ctx->z_mask;
+     case TEMP_NORMAL:
-+            ts_info(ts)->z_mask = ctx->z_mask;
+-    case TEMP_LOCAL:
-+            ts_info(ts)->s_mask = ctx->s_mask;
++    case TEMP_TB:
          }
      }
  }
@@ -XXX,XX +XXX,XX @@ static bool fold_masks(OptContext *ctx, TCGOp *op)
  {
      uint64_t a_mask = ctx->a_mask;
      uint64_t z_mask = ctx->z_mask;
 +    uint64_t s_mask = ctx->s_mask;
      /*
       * 32-bit ops generate 32-bit results, which for the purpose of
@@ -XXX,XX +XXX,XX @@ static bool fold_masks(OptContext *ctx, TCGOp *op)
      if (ctx->type == TCG_TYPE_I32) {
          a_mask = (int32_t)a_mask;
          z_mask = (int32_t)z_mask;
 +        s_mask |= MAKE_64BIT_MASK(32, 32);
          ctx->z_mask = z_mask;
 +        ctx->s_mask = s_mask;
      }
      if (z_mask == 0) {
@@ -XXX,XX +XXX,XX @@ static bool fold_brcond2(OptContext *ctx, TCGOp *op)
  static bool fold_bswap(OptContext *ctx, TCGOp *op)
  {
 -    uint64_t z_mask, sign;
 +    uint64_t z_mask, s_mask, sign;
      if (arg_is_const(op->args[1])) {
          uint64_t t = arg_info(op->args[1])->val;
@@ -XXX,XX +XXX,XX @@ static bool fold_bswap(OptContext *ctx, TCGOp *op)
      }
      z_mask = arg_info(op->args[1])->z_mask;
 +
      switch (op->opc) {
      case INDEX_op_bswap16_i32:
      case INDEX_op_bswap16_i64:
@@ -XXX,XX +XXX,XX @@ static bool fold_bswap(OptContext *ctx, TCGOp *op)
      default:
          g_assert_not_reached();
      }
 +    s_mask = smask_from_zmask(z_mask);
      switch (op->args[2] & (TCG_BSWAP_OZ | TCG_BSWAP_OS)) {
      case TCG_BSWAP_OZ:
@@ -XXX,XX +XXX,XX @@ static bool fold_bswap(OptContext *ctx, TCGOp *op)
          /* If the sign bit may be 1, force all the bits above to 1. */
          if (z_mask & sign) {
              z_mask |= sign;
 +            s_mask = sign << 1;
          }
          break;
      default:
          /* The high bits are undefined: force all bits above the sign to 1. */
          z_mask |= sign << 1;
 +        s_mask = 0;
          break;
      }
      ctx->z_mask = z_mask;
 +    ctx->s_mask = s_mask;
      return fold_masks(ctx, op);
  }
@@ -XXX,XX +XXX,XX @@ static bool fold_eqv(OptContext *ctx, TCGOp *op)
  static bool fold_extract(OptContext *ctx, TCGOp *op)
  {
      uint64_t z_mask_old, z_mask;
 +    int pos = op->args[2];
 +    int len = op->args[3];
      if (arg_is_const(op->args[1])) {
          uint64_t t;
          t = arg_info(op->args[1])->val;
 -        t = extract64(t, op->args[2], op->args[3]);
 +        t = extract64(t, pos, len);
          return tcg_opt_gen_movi(ctx, op, op->args[0], t);
      }
      z_mask_old = arg_info(op->args[1])->z_mask;
 -    z_mask = extract64(z_mask_old, op->args[2], op->args[3]);
 -    if (op->args[2] == 0) {
 +    z_mask = extract64(z_mask_old, pos, len);
 +    if (pos == 0) {
          ctx->a_mask = z_mask_old ^ z_mask;
      }
      ctx->z_mask = z_mask;
 +    ctx->s_mask = smask_from_zmask(z_mask);
      return fold_masks(ctx, op);
  }
@@ -XXX,XX +XXX,XX @@ static bool fold_extract2(OptContext *ctx, TCGOp *op)
  static bool fold_exts(OptContext *ctx, TCGOp *op)
  {
 -    uint64_t z_mask_old, z_mask, sign;
 +    uint64_t s_mask_old, s_mask, z_mask, sign;
      bool type_change = false;
      if (fold_const1(ctx, op)) {
          return true;
      }
 -    z_mask_old = z_mask = arg_info(op->args[1])->z_mask;
 +    z_mask = arg_info(op->args[1])->z_mask;
 +    s_mask = arg_info(op->args[1])->s_mask;
 +    s_mask_old = s_mask;
      switch (op->opc) {
      CASE_OP_32_64(ext8s):
@@ -XXX,XX +XXX,XX @@ static bool fold_exts(OptContext *ctx, TCGOp *op)
      if (z_mask & sign) {
          z_mask |= sign;
 -    } else if (!type_change) {
 -        ctx->a_mask = z_mask_old ^ z_mask;
      }
 +    s_mask |= sign << 1;
 +
      ctx->z_mask = z_mask;
 +    ctx->s_mask = s_mask;
 +    if (!type_change) {
 +        ctx->a_mask = s_mask & ~s_mask_old;
 +    }
      return fold_masks(ctx, op);
  }
@@ -XXX,XX +XXX,XX @@ static bool fold_extu(OptContext *ctx, TCGOp *op)
      }
      ctx->z_mask = z_mask;
 +    ctx->s_mask = smask_from_zmask(z_mask);
      if (!type_change) {
          ctx->a_mask = z_mask_old ^ z_mask;
      }
@@ -XXX,XX +XXX,XX @@ static bool fold_qemu_ld(OptContext *ctx, TCGOp *op)
      MemOp mop = get_memop(oi);
      int width = 8 * memop_size(mop);
 -    if (!(mop & MO_SIGN) && width < 64) {
 -        ctx->z_mask = MAKE_64BIT_MASK(0, width);
 +    if (width < 64) {
 +        ctx->s_mask = MAKE_64BIT_MASK(width, 64 - width);
 +        if (!(mop & MO_SIGN)) {
 +            ctx->z_mask = MAKE_64BIT_MASK(0, width);
 +            ctx->s_mask <<= 1;
 +        }
      }
      /* Opcodes that touch guest memory stop the mb optimization.  */
@@ -XXX,XX +XXX,XX @@ static bool fold_setcond2(OptContext *ctx, TCGOp *op)
  static bool fold_sextract(OptContext *ctx, TCGOp *op)
  {
 -    int64_t z_mask_old, z_mask;
 +    uint64_t z_mask, s_mask, s_mask_old;
 +    int pos = op->args[2];
 +    int len = op->args[3];
      if (arg_is_const(op->args[1])) {
          uint64_t t;
          t = arg_info(op->args[1])->val;
 -        t = sextract64(t, op->args[2], op->args[3]);
 +        t = sextract64(t, pos, len);
          return tcg_opt_gen_movi(ctx, op, op->args[0], t);
      }
 -    z_mask_old = arg_info(op->args[1])->z_mask;
 -    z_mask = sextract64(z_mask_old, op->args[2], op->args[3]);
 -    if (op->args[2] == 0 && z_mask >= 0) {
 -        ctx->a_mask = z_mask_old ^ z_mask;
 -    }
 +    z_mask = arg_info(op->args[1])->z_mask;
 +    z_mask = sextract64(z_mask, pos, len);
      ctx->z_mask = z_mask;
 +    s_mask_old = arg_info(op->args[1])->s_mask;
 +    s_mask = sextract64(s_mask_old, pos, len);
 +    s_mask |= MAKE_64BIT_MASK(len, 64 - len);
 +    ctx->s_mask = s_mask;
 +
 +    if (pos == 0) {
 +        ctx->a_mask = s_mask & ~s_mask_old;
 +    }
 +
      return fold_masks(ctx, op);
  }
@@ -XXX,XX +XXX,XX @@ static bool fold_tcg_ld(OptContext *ctx, TCGOp *op)
  {
      /* We can't do any folding with a load, but we can record bits. */
      switch (op->opc) {
 +    CASE_OP_32_64(ld8s):
 +        ctx->s_mask = MAKE_64BIT_MASK(8, 56);
 +        break;
      CASE_OP_32_64(ld8u):
          ctx->z_mask = MAKE_64BIT_MASK(0, 8);
 +        ctx->s_mask = MAKE_64BIT_MASK(9, 55);
 +        break;
 +    CASE_OP_32_64(ld16s):
 +        ctx->s_mask = MAKE_64BIT_MASK(16, 48);
          break;
      CASE_OP_32_64(ld16u):
          ctx->z_mask = MAKE_64BIT_MASK(0, 16);
 +        ctx->s_mask = MAKE_64BIT_MASK(17, 47);
 +        break;
 +    case INDEX_op_ld32s_i64:
 +        ctx->s_mask = MAKE_64BIT_MASK(32, 32);
          break;
      case INDEX_op_ld32u_i64:
          ctx->z_mask = MAKE_64BIT_MASK(0, 32);
 +        ctx->s_mask = MAKE_64BIT_MASK(33, 31);
          break;
      default:
          g_assert_not_reached();
-@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
+@@ -XXX,XX +XXX,XX @@ static void tcg_reg_alloc_start(TCGContext *s)
-             ctx.type = TCG_TYPE_I32;
+         case TEMP_EBB:
-         }
+             val = TEMP_VAL_DEAD;
+             /* fall through */
--        /* Assume all bits affected, and no bits known zero. */
+-        case TEMP_LOCAL:
-+        /* Assume all bits affected, no bits known zero, no sign reps. */
++        case TEMP_TB:
-         ctx.a_mask = -1;
+             ts->mem_allocated = 0;
          ctx.z_mask = -1;
 +        ctx.s_mask = 0;
          /*
           * Process each opcode.
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
          case INDEX_op_extrh_i64_i32:
              done = fold_extu(&ctx, op);
              break;
-+        CASE_OP_32_64(ld8s):
+         default:
-         CASE_OP_32_64(ld8u):
+@@ -XXX,XX +XXX,XX @@ static char *tcg_get_arg_str_ptr(TCGContext *s, char *buf, int buf_size,
-+        CASE_OP_32_64(ld16s):
+     case TEMP_GLOBAL:
-         CASE_OP_32_64(ld16u):
+         pstrcpy(buf, buf_size, ts->name);
-+        case INDEX_op_ld32s_i64:
+         break;
-         case INDEX_op_ld32u_i64:
+-    case TEMP_LOCAL:
-             done = fold_tcg_ld(&ctx, op);
++    case TEMP_TB:
          snprintf(buf, buf_size, "loc%d", idx - s->nb_globals);
          break;
      case TEMP_EBB:
@@ -XXX,XX +XXX,XX @@ static void la_bb_end(TCGContext *s, int ng, int nt)
          switch (ts->kind) {
          case TEMP_FIXED:
          case TEMP_GLOBAL:
 -        case TEMP_LOCAL:
 +        case TEMP_TB:
              state = TS_DEAD | TS_MEM;
              break;
+         case TEMP_NORMAL:
+@@ -XXX,XX +XXX,XX @@ static void la_bb_sync(TCGContext *s, int ng, int nt)
+         int state;
+         switch (ts->kind) {
+-        case TEMP_LOCAL:
++        case TEMP_TB:
+             state = ts->state;
+             ts->state = state | TS_MEM;
+             if (state != TS_DEAD) {
+@@ -XXX,XX +XXX,XX @@ static void temp_free_or_dead(TCGContext *s, TCGTemp *ts, int free_or_dead)
+     case TEMP_FIXED:
+         return;
+     case TEMP_GLOBAL:
+-    case TEMP_LOCAL:
++    case TEMP_TB:
+         new_type = TEMP_VAL_MEM;
+         break;
+     case TEMP_NORMAL:
+@@ -XXX,XX +XXX,XX @@ static void tcg_reg_alloc_bb_end(TCGContext *s, TCGRegSet allocated_regs)
+         TCGTemp *ts = &s->temps[i];
+         switch (ts->kind) {
+-        case TEMP_LOCAL:
++        case TEMP_TB:
+             temp_save(s, ts, allocated_regs);
+             break;
+         case TEMP_NORMAL:
+@@ -XXX,XX +XXX,XX @@ static void tcg_reg_alloc_cbranch(TCGContext *s, TCGRegSet allocated_regs)
+          * Keep tcg_debug_asserts for safety.
+          */
+         switch (ts->kind) {
+-        case TEMP_LOCAL:
++        case TEMP_TB:
+             tcg_debug_assert(ts->val_type != TEMP_VAL_REG || ts->mem_coherent);
+             break;
+         case TEMP_NORMAL:
 --
-.25.1
+.34.1

-[PULL 06/56] tcg/optimize: Rename "mask" to "z_mask"
+[PULL 37/62] tcg: Use noinline for major tcg_gen_code subroutines
-Prepare for tracking different masks by renaming this one.
+This makes it easier to assign blame with perf.
-Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
+Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
-Reviewed-by: Luis Pires <luis.pires@eldorado.org.br>
+Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
 Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- tcg/optimize.c | 142 +++++++++++++++++++++++++------------------------
+ tcg/tcg.c | 9 ++++++---
-file changed, 72 insertions(+), 70 deletions(-)
+file changed, 6 insertions(+), 3 deletions(-)
-diff --git a/tcg/optimize.c b/tcg/optimize.c
+diff --git a/tcg/tcg.c b/tcg/tcg.c
 index XXXXXXX..XXXXXXX 100644
---- a/tcg/optimize.c
+--- a/tcg/tcg.c
-+++ b/tcg/optimize.c
++++ b/tcg/tcg.c
-@@ -XXX,XX +XXX,XX @@ typedef struct TempOptInfo {
+@@ -XXX,XX +XXX,XX @@ TCGOp *tcg_op_insert_after(TCGContext *s, TCGOp *old_op,
      TCGTemp *prev_copy;
      TCGTemp *next_copy;
      uint64_t val;
 -    uint64_t mask;
 +    uint64_t z_mask;  /* mask bit is 0 if and only if value bit is 0 */
  } TempOptInfo;
  static inline TempOptInfo *ts_info(TCGTemp *ts)
@@ -XXX,XX +XXX,XX @@ static void reset_ts(TCGTemp *ts)
      ti->next_copy = ts;
      ti->prev_copy = ts;
      ti->is_const = false;
 -    ti->mask = -1;
 +    ti->z_mask = -1;
  }
- static void reset_temp(TCGArg arg)
+ /* Reachable analysis : remove unreachable code.  */
-@@ -XXX,XX +XXX,XX @@ static void init_ts_info(TCGTempSet *temps_used, TCGTemp *ts)
+-static void reachable_code_pass(TCGContext *s)
-     if (ts->kind == TEMP_CONST) {
++static void __attribute__((noinline))
-         ti->is_const = true;
++reachable_code_pass(TCGContext *s)
-         ti->val = ts->val;
+ {
--        ti->mask = ts->val;
+     TCGOp *op, *op_next, *op_prev;
-+        ti->z_mask = ts->val;
+     bool dead = false;
-         if (TCG_TARGET_REG_BITS > 32 && ts->type == TCG_TYPE_I32) {
+@@ -XXX,XX +XXX,XX @@ static void la_cross_call(TCGContext *s, int nt)
-             /* High bits of a 32-bit quantity are garbage.  */
+ /* Liveness analysis : update the opc_arg_life array to tell if a
--            ti->mask |= ~0xffffffffull;
+    given input arguments is dead. Instructions updating dead
-+            ti->z_mask |= ~0xffffffffull;
+    temporaries are removed. */
-         }
+-static void liveness_pass_1(TCGContext *s)
-     } else {
++static void __attribute__((noinline))
-         ti->is_const = false;
++liveness_pass_1(TCGContext *s)
--        ti->mask = -1;
+ {
-+        ti->z_mask = -1;
+     int nb_globals = s->nb_globals;
-     }
+     int nb_temps = s->nb_temps;
@@ -XXX,XX +XXX,XX @@ static void liveness_pass_1(TCGContext *s)
  }
-@@ -XXX,XX +XXX,XX @@ static void tcg_opt_gen_mov(TCGContext *s, TCGOp *op, TCGArg dst, TCGArg src)
+ /* Liveness analysis: Convert indirect regs to direct temporaries.  */
-     const TCGOpDef *def;
+-static bool liveness_pass_2(TCGContext *s)
-     TempOptInfo *di;
++static bool __attribute__((noinline))
-     TempOptInfo *si;
++liveness_pass_2(TCGContext *s)
--    uint64_t mask;
+ {
-+    uint64_t z_mask;
+     int nb_globals = s->nb_globals;
-     TCGOpcode new_op;
+     int nb_temps, i;
      if (ts_are_copies(dst_ts, src_ts)) {
@@ -XXX,XX +XXX,XX @@ static void tcg_opt_gen_mov(TCGContext *s, TCGOp *op, TCGArg dst, TCGArg src)
      op->args[0] = dst;
      op->args[1] = src;
 -    mask = si->mask;
 +    z_mask = si->z_mask;
      if (TCG_TARGET_REG_BITS > 32 && new_op == INDEX_op_mov_i32) {
          /* High bits of the destination are now garbage.  */
 -        mask |= ~0xffffffffull;
 +        z_mask |= ~0xffffffffull;
      }
 -    di->mask = mask;
 +    di->z_mask = z_mask;
      if (src_ts->type == dst_ts->type) {
          TempOptInfo *ni = ts_info(si->next_copy);
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
      }
      QTAILQ_FOREACH_SAFE(op, &s->ops, link, op_next) {
 -        uint64_t mask, partmask, affected, tmp;
 +        uint64_t z_mask, partmask, affected, tmp;
          int nb_oargs, nb_iargs;
          TCGOpcode opc = op->opc;
          const TCGOpDef *def = &tcg_op_defs[opc];
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
          /* Simplify using known-zero bits. Currently only ops with a single
             output argument is supported. */
 -        mask = -1;
 +        z_mask = -1;
          affected = -1;
          switch (opc) {
          CASE_OP_32_64(ext8s):
 -            if ((arg_info(op->args[1])->mask & 0x80) != 0) {
 +            if ((arg_info(op->args[1])->z_mask & 0x80) != 0) {
                  break;
              }
              QEMU_FALLTHROUGH;
          CASE_OP_32_64(ext8u):
 -            mask = 0xff;
 +            z_mask = 0xff;
              goto and_const;
          CASE_OP_32_64(ext16s):
 -            if ((arg_info(op->args[1])->mask & 0x8000) != 0) {
 +            if ((arg_info(op->args[1])->z_mask & 0x8000) != 0) {
                  break;
              }
              QEMU_FALLTHROUGH;
          CASE_OP_32_64(ext16u):
 -            mask = 0xffff;
 +            z_mask = 0xffff;
              goto and_const;
          case INDEX_op_ext32s_i64:
 -            if ((arg_info(op->args[1])->mask & 0x80000000) != 0) {
 +            if ((arg_info(op->args[1])->z_mask & 0x80000000) != 0) {
                  break;
              }
              QEMU_FALLTHROUGH;
          case INDEX_op_ext32u_i64:
 -            mask = 0xffffffffU;
 +            z_mask = 0xffffffffU;
              goto and_const;
          CASE_OP_32_64(and):
 -            mask = arg_info(op->args[2])->mask;
 +            z_mask = arg_info(op->args[2])->z_mask;
              if (arg_is_const(op->args[2])) {
          and_const:
 -                affected = arg_info(op->args[1])->mask & ~mask;
 +                affected = arg_info(op->args[1])->z_mask & ~z_mask;
              }
 -            mask = arg_info(op->args[1])->mask & mask;
 +            z_mask = arg_info(op->args[1])->z_mask & z_mask;
              break;
          case INDEX_op_ext_i32_i64:
 -            if ((arg_info(op->args[1])->mask & 0x80000000) != 0) {
 +            if ((arg_info(op->args[1])->z_mask & 0x80000000) != 0) {
                  break;
              }
              QEMU_FALLTHROUGH;
          case INDEX_op_extu_i32_i64:
              /* We do not compute affected as it is a size changing op.  */
 -            mask = (uint32_t)arg_info(op->args[1])->mask;
 +            z_mask = (uint32_t)arg_info(op->args[1])->z_mask;
              break;
          CASE_OP_32_64(andc):
              /* Known-zeros does not imply known-ones.  Therefore unless
                 op->args[2] is constant, we can't infer anything from it.  */
              if (arg_is_const(op->args[2])) {
 -                mask = ~arg_info(op->args[2])->mask;
 +                z_mask = ~arg_info(op->args[2])->z_mask;
                  goto and_const;
              }
              /* But we certainly know nothing outside args[1] may be set. */
 -            mask = arg_info(op->args[1])->mask;
 +            z_mask = arg_info(op->args[1])->z_mask;
              break;
          case INDEX_op_sar_i32:
              if (arg_is_const(op->args[2])) {
                  tmp = arg_info(op->args[2])->val & 31;
 -                mask = (int32_t)arg_info(op->args[1])->mask >> tmp;
 +                z_mask = (int32_t)arg_info(op->args[1])->z_mask >> tmp;
              }
              break;
          case INDEX_op_sar_i64:
              if (arg_is_const(op->args[2])) {
                  tmp = arg_info(op->args[2])->val & 63;
 -                mask = (int64_t)arg_info(op->args[1])->mask >> tmp;
 +                z_mask = (int64_t)arg_info(op->args[1])->z_mask >> tmp;
              }
              break;
          case INDEX_op_shr_i32:
              if (arg_is_const(op->args[2])) {
                  tmp = arg_info(op->args[2])->val & 31;
 -                mask = (uint32_t)arg_info(op->args[1])->mask >> tmp;
 +                z_mask = (uint32_t)arg_info(op->args[1])->z_mask >> tmp;
              }
              break;
          case INDEX_op_shr_i64:
              if (arg_is_const(op->args[2])) {
                  tmp = arg_info(op->args[2])->val & 63;
 -                mask = (uint64_t)arg_info(op->args[1])->mask >> tmp;
 +                z_mask = (uint64_t)arg_info(op->args[1])->z_mask >> tmp;
              }
              break;
          case INDEX_op_extrl_i64_i32:
 -            mask = (uint32_t)arg_info(op->args[1])->mask;
 +            z_mask = (uint32_t)arg_info(op->args[1])->z_mask;
              break;
          case INDEX_op_extrh_i64_i32:
 -            mask = (uint64_t)arg_info(op->args[1])->mask >> 32;
 +            z_mask = (uint64_t)arg_info(op->args[1])->z_mask >> 32;
              break;
          CASE_OP_32_64(shl):
              if (arg_is_const(op->args[2])) {
                  tmp = arg_info(op->args[2])->val & (TCG_TARGET_REG_BITS - 1);
 -                mask = arg_info(op->args[1])->mask << tmp;
 +                z_mask = arg_info(op->args[1])->z_mask << tmp;
              }
              break;
          CASE_OP_32_64(neg):
              /* Set to 1 all bits to the left of the rightmost.  */
 -            mask = -(arg_info(op->args[1])->mask
 -                     & -arg_info(op->args[1])->mask);
 +            z_mask = -(arg_info(op->args[1])->z_mask
 +                       & -arg_info(op->args[1])->z_mask);
              break;
          CASE_OP_32_64(deposit):
 -            mask = deposit64(arg_info(op->args[1])->mask,
 -                             op->args[3], op->args[4],
 -                             arg_info(op->args[2])->mask);
 +            z_mask = deposit64(arg_info(op->args[1])->z_mask,
 +                               op->args[3], op->args[4],
 +                               arg_info(op->args[2])->z_mask);
              break;
          CASE_OP_32_64(extract):
 -            mask = extract64(arg_info(op->args[1])->mask,
 -                             op->args[2], op->args[3]);
 +            z_mask = extract64(arg_info(op->args[1])->z_mask,
 +                               op->args[2], op->args[3]);
              if (op->args[2] == 0) {
 -                affected = arg_info(op->args[1])->mask & ~mask;
 +                affected = arg_info(op->args[1])->z_mask & ~z_mask;
              }
              break;
          CASE_OP_32_64(sextract):
 -            mask = sextract64(arg_info(op->args[1])->mask,
 -                              op->args[2], op->args[3]);
 -            if (op->args[2] == 0 && (tcg_target_long)mask >= 0) {
 -                affected = arg_info(op->args[1])->mask & ~mask;
 +            z_mask = sextract64(arg_info(op->args[1])->z_mask,
 +                                op->args[2], op->args[3]);
 +            if (op->args[2] == 0 && (tcg_target_long)z_mask >= 0) {
 +                affected = arg_info(op->args[1])->z_mask & ~z_mask;
              }
              break;
          CASE_OP_32_64(or):
          CASE_OP_32_64(xor):
 -            mask = arg_info(op->args[1])->mask | arg_info(op->args[2])->mask;
 +            z_mask = arg_info(op->args[1])->z_mask
 +                   | arg_info(op->args[2])->z_mask;
              break;
          case INDEX_op_clz_i32:
          case INDEX_op_ctz_i32:
 -            mask = arg_info(op->args[2])->mask | 31;
 +            z_mask = arg_info(op->args[2])->z_mask | 31;
              break;
          case INDEX_op_clz_i64:
          case INDEX_op_ctz_i64:
 -            mask = arg_info(op->args[2])->mask | 63;
 +            z_mask = arg_info(op->args[2])->z_mask | 63;
              break;
          case INDEX_op_ctpop_i32:
 -            mask = 32 | 31;
 +            z_mask = 32 | 31;
              break;
          case INDEX_op_ctpop_i64:
 -            mask = 64 | 63;
 +            z_mask = 64 | 63;
              break;
          CASE_OP_32_64(setcond):
          case INDEX_op_setcond2_i32:
 -            mask = 1;
 +            z_mask = 1;
              break;
          CASE_OP_32_64(movcond):
 -            mask = arg_info(op->args[3])->mask | arg_info(op->args[4])->mask;
 +            z_mask = arg_info(op->args[3])->z_mask
 +                   | arg_info(op->args[4])->z_mask;
              break;
          CASE_OP_32_64(ld8u):
 -            mask = 0xff;
 +            z_mask = 0xff;
              break;
          CASE_OP_32_64(ld16u):
 -            mask = 0xffff;
 +            z_mask = 0xffff;
              break;
          case INDEX_op_ld32u_i64:
 -            mask = 0xffffffffu;
 +            z_mask = 0xffffffffu;
              break;
          CASE_OP_32_64(qemu_ld):
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
                  MemOpIdx oi = op->args[nb_oargs + nb_iargs];
                  MemOp mop = get_memop(oi);
                  if (!(mop & MO_SIGN)) {
 -                    mask = (2ULL << ((8 << (mop & MO_SIZE)) - 1)) - 1;
 +                    z_mask = (2ULL << ((8 << (mop & MO_SIZE)) - 1)) - 1;
                  }
              }
              break;
          CASE_OP_32_64(bswap16):
 -            mask = arg_info(op->args[1])->mask;
 -            if (mask <= 0xffff) {
 +            z_mask = arg_info(op->args[1])->z_mask;
 +            if (z_mask <= 0xffff) {
                  op->args[2] |= TCG_BSWAP_IZ;
              }
 -            mask = bswap16(mask);
 +            z_mask = bswap16(z_mask);
              switch (op->args[2] & (TCG_BSWAP_OZ | TCG_BSWAP_OS)) {
              case TCG_BSWAP_OZ:
                  break;
              case TCG_BSWAP_OS:
 -                mask = (int16_t)mask;
 +                z_mask = (int16_t)z_mask;
                  break;
              default: /* undefined high bits */
 -                mask |= MAKE_64BIT_MASK(16, 48);
 +                z_mask |= MAKE_64BIT_MASK(16, 48);
                  break;
              }
              break;
          case INDEX_op_bswap32_i64:
 -            mask = arg_info(op->args[1])->mask;
 -            if (mask <= 0xffffffffu) {
 +            z_mask = arg_info(op->args[1])->z_mask;
 +            if (z_mask <= 0xffffffffu) {
                  op->args[2] |= TCG_BSWAP_IZ;
              }
 -            mask = bswap32(mask);
 +            z_mask = bswap32(z_mask);
              switch (op->args[2] & (TCG_BSWAP_OZ | TCG_BSWAP_OS)) {
              case TCG_BSWAP_OZ:
                  break;
              case TCG_BSWAP_OS:
 -                mask = (int32_t)mask;
 +                z_mask = (int32_t)z_mask;
                  break;
              default: /* undefined high bits */
 -                mask |= MAKE_64BIT_MASK(32, 32);
 +                z_mask |= MAKE_64BIT_MASK(32, 32);
                  break;
              }
              break;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
          /* 32-bit ops generate 32-bit results.  For the result is zero test
             below, we can ignore high bits, but for further optimizations we
             need to record that the high bits contain garbage.  */
 -        partmask = mask;
 +        partmask = z_mask;
          if (!(def->flags & TCG_OPF_64BIT)) {
 -            mask |= ~(tcg_target_ulong)0xffffffffu;
 +            z_mask |= ~(tcg_target_ulong)0xffffffffu;
              partmask &= 0xffffffffu;
              affected &= 0xffffffffu;
          }
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
                     vs the high word of the input.  */
              do_setcond_high:
                  reset_temp(op->args[0]);
 -                arg_info(op->args[0])->mask = 1;
 +                arg_info(op->args[0])->z_mask = 1;
                  op->opc = INDEX_op_setcond_i32;
                  op->args[1] = op->args[2];
                  op->args[2] = op->args[4];
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
                  }
              do_setcond_low:
                  reset_temp(op->args[0]);
 -                arg_info(op->args[0])->mask = 1;
 +                arg_info(op->args[0])->z_mask = 1;
                  op->opc = INDEX_op_setcond_i32;
                  op->args[2] = op->args[3];
                  op->args[3] = op->args[5];
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
              /* Default case: we know nothing about operation (or were unable
                 to compute the operation result) so no propagation is done.
                 We trash everything if the operation is the end of a basic
 -               block, otherwise we only trash the output args.  "mask" is
 +               block, otherwise we only trash the output args.  "z_mask" is
                 the non-zero bits mask for the first output arg.  */
              if (def->flags & TCG_OPF_BB_END) {
                  memset(&temps_used, 0, sizeof(temps_used));
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
                      /* Save the corresponding known-zero bits mask for the
                         first output argument (only one supported so far). */
                      if (i == 0) {
 -                        arg_info(op->args[i])->mask = mask;
 +                        arg_info(op->args[i])->z_mask = z_mask;
                      }
                  }
              }
 --
-.25.1
+.34.1

-[PULL 17/56] tcg/optimize: Split out finish_folding
+[PULL 38/62] tcg: Add liveness_pass_0
-Copy z_mask into OptContext, for writeback to the
+Attempt to reduce the lifetime of TEMP_TB.
 first output within the new function.
 Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
-Reviewed-by: Luis Pires <luis.pires@eldorado.org.br>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- tcg/optimize.c | 49 +++++++++++++++++++++++++++++++++----------------
+ tcg/tcg.c | 70 +++++++++++++++++++++++++++++++++++++++++++++++++++++++
-file changed, 33 insertions(+), 16 deletions(-)
+file changed, 70 insertions(+)
-diff --git a/tcg/optimize.c b/tcg/optimize.c
+diff --git a/tcg/tcg.c b/tcg/tcg.c
 index XXXXXXX..XXXXXXX 100644
---- a/tcg/optimize.c
+--- a/tcg/tcg.c
-+++ b/tcg/optimize.c
++++ b/tcg/tcg.c
-@@ -XXX,XX +XXX,XX @@ typedef struct OptContext {
+@@ -XXX,XX +XXX,XX @@ static void la_cross_call(TCGContext *s, int nt)
      TCGContext *tcg;
      TCGOp *prev_mb;
      TCGTempSet temps_used;
 +
 +    /* In flight values from optimization. */
 +    uint64_t z_mask;
  } OptContext;
  static inline TempOptInfo *ts_info(TCGTemp *ts)
@@ -XXX,XX +XXX,XX @@ static void copy_propagate(OptContext *ctx, TCGOp *op,
      }
  }
-+static void finish_folding(OptContext *ctx, TCGOp *op)
++/*
 + * Liveness analysis: Verify the lifetime of TEMP_TB, and reduce
 + * to TEMP_EBB, if possible.
 + */
 +static void __attribute__((noinline))
 +liveness_pass_0(TCGContext *s)
 +{
-+    const TCGOpDef *def = &tcg_op_defs[op->opc];
++    void * const multiple_ebb = (void *)(uintptr_t)-1;
-+    int i, nb_oargs;
++    int nb_temps = s->nb_temps;
 +    TCGOp *op, *ebb;
 +
 +    for (int i = s->nb_globals; i < nb_temps; ++i) {
 +        s->temps[i].state_ptr = NULL;
 +    }
 +
 +    /*
-+     * For an opcode that ends a BB, reset all temp data.
++     * Represent each EBB by the op at which it begins.  In the case of
-+     * We do no cross-BB optimization.
++     * the first EBB, this is the first op, otherwise it is a label.
 +     * Collect the uses of each TEMP_TB: NULL for unused, EBB for use
 +     * within a single EBB, else MULTIPLE_EBB.
 +     */
-+    if (def->flags & TCG_OPF_BB_END) {
++    ebb = QTAILQ_FIRST(&s->ops);
-+        memset(&ctx->temps_used, 0, sizeof(ctx->temps_used));
++    QTAILQ_FOREACH(op, &s->ops, link) {
-+        ctx->prev_mb = NULL;
++        const TCGOpDef *def;
-+        return;
++        int nb_oargs, nb_iargs;
 +
 +        switch (op->opc) {
 +        case INDEX_op_set_label:
 +            ebb = op;
 +            continue;
 +        case INDEX_op_discard:
 +            continue;
 +        case INDEX_op_call:
 +            nb_oargs = TCGOP_CALLO(op);
 +            nb_iargs = TCGOP_CALLI(op);
 +            break;
 +        default:
 +            def = &tcg_op_defs[op->opc];
 +            nb_oargs = def->nb_oargs;
 +            nb_iargs = def->nb_iargs;
 +            break;
 +        }
 +
 +        for (int i = 0; i < nb_oargs + nb_iargs; ++i) {
 +            TCGTemp *ts = arg_temp(op->args[i]);
 +
 +            if (ts->kind != TEMP_TB) {
 +                continue;
 +            }
 +            if (ts->state_ptr == NULL) {
 +                ts->state_ptr = ebb;
 +            } else if (ts->state_ptr != ebb) {
 +                ts->state_ptr = multiple_ebb;
 +            }
 +        }
 +    }
 +
-+    nb_oargs = def->nb_oargs;
++    /*
-+    for (i = 0; i < nb_oargs; i++) {
++     * For TEMP_TB that turned out not to be used beyond one EBB,
-+        reset_temp(op->args[i]);
++     * reduce the liveness to TEMP_EBB.
-+        /*
++     */
-+         * Save the corresponding known-zero bits mask for the
++    for (int i = s->nb_globals; i < nb_temps; ++i) {
-+         * first output argument (only one supported so far).
++        TCGTemp *ts = &s->temps[i];
-+         */
++        if (ts->kind == TEMP_TB && ts->state_ptr != multiple_ebb) {
-+        if (i == 0) {
++            ts->kind = TEMP_EBB;
 +            arg_info(op->args[i])->z_mask = ctx->z_mask;
 +        }
 +    }
 +}
 +
- static bool fold_call(OptContext *ctx, TCGOp *op)
+ /* Liveness analysis : update the opc_arg_life array to tell if a
- {
+    given input arguments is dead. Instructions updating dead
-     TCGContext *s = ctx->tcg;
+    temporaries are removed. */
-@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
+@@ -XXX,XX +XXX,XX @@ int tcg_gen_code(TCGContext *s, TranslationBlock *tb, target_ulong pc_start)
-             partmask &= 0xffffffffu;
+ #endif
-             affected &= 0xffffffffu;
-         }
+     reachable_code_pass(s);
-+        ctx.z_mask = z_mask;
++    liveness_pass_0(s);
+     liveness_pass_1(s);
-         if (partmask == 0) {
-             tcg_opt_gen_movi(&ctx, op, op->args[0], 0);
+     if (s->nb_indirects > 0) {
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
              break;
          }
 -        /* Some of the folding above can change opc. */
 -        opc = op->opc;
 -        def = &tcg_op_defs[opc];
 -        if (def->flags & TCG_OPF_BB_END) {
 -            memset(&ctx.temps_used, 0, sizeof(ctx.temps_used));
 -        } else {
 -            int nb_oargs = def->nb_oargs;
 -            for (i = 0; i < nb_oargs; i++) {
 -                reset_temp(op->args[i]);
 -                /* Save the corresponding known-zero bits mask for the
 -                   first output argument (only one supported so far). */
 -                if (i == 0) {
 -                    arg_info(op->args[i])->z_mask = z_mask;
 -                }
 -            }
 -        }
 +        finish_folding(&ctx, op);
          /* Eliminate duplicate and redundant fence instructions.  */
          if (ctx.prev_mb) {
 --
-.25.1
+.34.1

-[PULL 25/56] tcg/optimize: Split out fold_mulu2_i32
+[PULL 39/62] tcg: Remove TEMP_NORMAL
-Reviewed-by: Luis Pires <luis.pires@eldorado.org.br>
+TEMP_NORMAL is a subset of TEMP_EBB.  Promote single basic
-Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
+block temps to single extended basic block.
 Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- tcg/optimize.c | 37 +++++++++++++++++++++----------------
+ include/tcg/tcg.h |  2 --
-file changed, 21 insertions(+), 16 deletions(-)
+ tcg/tcg.c         | 19 +++----------------
 files changed, 3 insertions(+), 18 deletions(-)
-diff --git a/tcg/optimize.c b/tcg/optimize.c
+diff --git a/include/tcg/tcg.h b/include/tcg/tcg.h
 index XXXXXXX..XXXXXXX 100644
---- a/tcg/optimize.c
+--- a/include/tcg/tcg.h
-+++ b/tcg/optimize.c
++++ b/include/tcg/tcg.h
-@@ -XXX,XX +XXX,XX @@ static bool fold_mul_highpart(OptContext *ctx, TCGOp *op)
+@@ -XXX,XX +XXX,XX @@ typedef enum TCGTempVal {
-     return fold_const2(ctx, op);
+ } TCGTempVal;
  typedef enum TCGTempKind {
 -    /* Temp is dead at the end of all basic blocks. */
 -    TEMP_NORMAL,
      /*
       * Temp is dead at the end of the extended basic block (EBB),
       * the single-entry multiple-exit region that falls through
 diff --git a/tcg/tcg.c b/tcg/tcg.c
 index XXXXXXX..XXXXXXX 100644
 --- a/tcg/tcg.c
 +++ b/tcg/tcg.c
@@ -XXX,XX +XXX,XX @@ TCGTemp *tcg_global_mem_new_internal(TCGType type, TCGv_ptr base,
  TCGTemp *tcg_temp_new_internal(TCGType type, bool temp_local)
  {
      TCGContext *s = tcg_ctx;
 -    TCGTempKind kind = temp_local ? TEMP_TB : TEMP_NORMAL;
 +    TCGTempKind kind = temp_local ? TEMP_TB : TEMP_EBB;
      TCGTemp *ts;
      int idx, k;
@@ -XXX,XX +XXX,XX @@ void tcg_temp_free_internal(TCGTemp *ts)
           * silently ignore free.
           */
          return;
 -    case TEMP_NORMAL:
 +    case TEMP_EBB:
      case TEMP_TB:
          break;
      default:
@@ -XXX,XX +XXX,XX @@ void tcg_temp_free_internal(TCGTemp *ts)
  #endif
      idx = temp_idx(ts);
 -    k = ts->base_type + (ts->kind == TEMP_NORMAL ? 0 : TCG_TYPE_COUNT);
 +    k = ts->base_type + (ts->kind == TEMP_EBB ? 0 : TCG_TYPE_COUNT);
      set_bit(idx, s->free_temps[k].l);
  }
-+static bool fold_mulu2_i32(OptContext *ctx, TCGOp *op)
+@@ -XXX,XX +XXX,XX @@ static void tcg_reg_alloc_start(TCGContext *s)
-+{
+             break;
-+    if (arg_is_const(op->args[2]) && arg_is_const(op->args[3])) {
+         case TEMP_GLOBAL:
-+        uint32_t a = arg_info(op->args[2])->val;
+             break;
-+        uint32_t b = arg_info(op->args[3])->val;
+-        case TEMP_NORMAL:
-+        uint64_t r = (uint64_t)a * b;
+         case TEMP_EBB:
-+        TCGArg rl, rh;
+             val = TEMP_VAL_DEAD;
-+        TCGOp *op2 = tcg_op_insert_before(ctx->tcg, op, INDEX_op_mov_i32);
+             /* fall through */
-+
+@@ -XXX,XX +XXX,XX @@ static char *tcg_get_arg_str_ptr(TCGContext *s, char *buf, int buf_size,
-+        rl = op->args[0];
+         snprintf(buf, buf_size, "loc%d", idx - s->nb_globals);
-+        rh = op->args[1];
+         break;
-+        tcg_opt_gen_movi(ctx, op, rl, (int32_t)r);
+     case TEMP_EBB:
-+        tcg_opt_gen_movi(ctx, op2, rh, (int32_t)(r >> 32));
+-        snprintf(buf, buf_size, "ebb%d", idx - s->nb_globals);
-+        return true;
+-        break;
-+    }
+-    case TEMP_NORMAL:
-+    return false;
+         snprintf(buf, buf_size, "tmp%d", idx - s->nb_globals);
-+}
+         break;
-+
+     case TEMP_CONST:
- static bool fold_nand(OptContext *ctx, TCGOp *op)
+@@ -XXX,XX +XXX,XX @@ static void la_bb_end(TCGContext *s, int ng, int nt)
- {
+         case TEMP_TB:
-     return fold_const2(ctx, op);
+             state = TS_DEAD | TS_MEM;
-@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
+             break;
 -        case TEMP_NORMAL:
          case TEMP_EBB:
          case TEMP_CONST:
              state = TS_DEAD;
@@ -XXX,XX +XXX,XX @@ static void la_bb_sync(TCGContext *s, int ng, int nt)
                  continue;
              }
              break;
+-        case TEMP_NORMAL:
--        case INDEX_op_mulu2_i32:
+-            s->temps[i].state = TS_DEAD;
 -            if (arg_is_const(op->args[2]) && arg_is_const(op->args[3])) {
 -                uint32_t a = arg_info(op->args[2])->val;
 -                uint32_t b = arg_info(op->args[3])->val;
 -                uint64_t r = (uint64_t)a * b;
 -                TCGArg rl, rh;
 -                TCGOp *op2 = tcg_op_insert_before(s, op, INDEX_op_mov_i32);
 -
 -                rl = op->args[0];
 -                rh = op->args[1];
 -                tcg_opt_gen_movi(&ctx, op, rl, (int32_t)r);
 -                tcg_opt_gen_movi(&ctx, op2, rh, (int32_t)(r >> 32));
 -                continue;
 -            }
 -            break;
--
+         case TEMP_EBB:
-         default:
+         case TEMP_CONST:
              continue;
@@ -XXX,XX +XXX,XX @@ static void temp_free_or_dead(TCGContext *s, TCGTemp *ts, int free_or_dead)
      case TEMP_TB:
          new_type = TEMP_VAL_MEM;
          break;
 -    case TEMP_NORMAL:
      case TEMP_EBB:
          new_type = free_or_dead < 0 ? TEMP_VAL_MEM : TEMP_VAL_DEAD;
          break;
@@ -XXX,XX +XXX,XX @@ static void tcg_reg_alloc_bb_end(TCGContext *s, TCGRegSet allocated_regs)
          case TEMP_TB:
              temp_save(s, ts, allocated_regs);
              break;
+-        case TEMP_NORMAL:
-@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
+         case TEMP_EBB:
-         CASE_OP_32_64(muluh):
+             /* The liveness analysis already ensures that temps are dead.
-             done = fold_mul_highpart(&ctx, op);
+                Keep an tcg_debug_assert for safety. */
@@ -XXX,XX +XXX,XX @@ static void tcg_reg_alloc_cbranch(TCGContext *s, TCGRegSet allocated_regs)
          case TEMP_TB:
              tcg_debug_assert(ts->val_type != TEMP_VAL_REG || ts->mem_coherent);
              break;
-+        case INDEX_op_mulu2_i32:
+-        case TEMP_NORMAL:
-+            done = fold_mulu2_i32(&ctx, op);
+-            tcg_debug_assert(ts->val_type == TEMP_VAL_DEAD);
-+            break;
+-            break;
-         CASE_OP_32_64(nand):
+         case TEMP_EBB:
-             done = fold_nand(&ctx, op);
+         case TEMP_CONST:
              break;
 --
-.25.1
+.34.1

-[PULL 35/56] tcg/optimize: Split out fold_xx_to_i
+[PULL 40/62] tcg: Pass TCGTempKind to tcg_temp_new_internal
-Pull the "op r, a, a => movi r, 0" optimization into a function,
+While the argument can only be TEMP_EBB or TEMP_TB,
-and use it in the outer opcode fold functions.
+it's more obvious this way.
-Reviewed-by: Luis Pires <luis.pires@eldorado.org.br>
+Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
 Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- tcg/optimize.c | 41 ++++++++++++++++++++++++-----------------
+ include/tcg/tcg.h | 18 +++++++++---------
-file changed, 24 insertions(+), 17 deletions(-)
+ tcg/tcg.c         |  8 ++++----
 files changed, 13 insertions(+), 13 deletions(-)
-diff --git a/tcg/optimize.c b/tcg/optimize.c
+diff --git a/include/tcg/tcg.h b/include/tcg/tcg.h
 index XXXXXXX..XXXXXXX 100644
---- a/tcg/optimize.c
+--- a/include/tcg/tcg.h
-+++ b/tcg/optimize.c
++++ b/include/tcg/tcg.h
-@@ -XXX,XX +XXX,XX @@ static bool fold_const2(OptContext *ctx, TCGOp *op)
+@@ -XXX,XX +XXX,XX @@ void tcg_set_frame(TCGContext *s, TCGReg reg, intptr_t start, intptr_t size);
-     return false;
  TCGTemp *tcg_global_mem_new_internal(TCGType, TCGv_ptr,
                                       intptr_t, const char *);
 -TCGTemp *tcg_temp_new_internal(TCGType, bool);
 +TCGTemp *tcg_temp_new_internal(TCGType, TCGTempKind);
  void tcg_temp_free_internal(TCGTemp *);
  TCGv_vec tcg_temp_new_vec(TCGType type);
  TCGv_vec tcg_temp_new_vec_matching(TCGv_vec match);
@@ -XXX,XX +XXX,XX @@ static inline TCGv_i32 tcg_global_mem_new_i32(TCGv_ptr reg, intptr_t offset,
  static inline TCGv_i32 tcg_temp_new_i32(void)
  {
 -    TCGTemp *t = tcg_temp_new_internal(TCG_TYPE_I32, false);
 +    TCGTemp *t = tcg_temp_new_internal(TCG_TYPE_I32, TEMP_EBB);
      return temp_tcgv_i32(t);
  }
-+/* If the binary operation has both arguments equal, fold to @i. */
+ static inline TCGv_i32 tcg_temp_local_new_i32(void)
 +static bool fold_xx_to_i(OptContext *ctx, TCGOp *op, uint64_t i)
 +{
 +    if (args_are_copies(op->args[1], op->args[2])) {
 +        return tcg_opt_gen_movi(ctx, op, op->args[0], i);
 +    }
 +    return false;
 +}
 +
  /*
   * These outermost fold_<op> functions are sorted alphabetically.
   */
@@ -XXX,XX +XXX,XX @@ static bool fold_and(OptContext *ctx, TCGOp *op)
  static bool fold_andc(OptContext *ctx, TCGOp *op)
  {
--    return fold_const2(ctx, op);
+-    TCGTemp *t = tcg_temp_new_internal(TCG_TYPE_I32, true);
-+    if (fold_const2(ctx, op) ||
++    TCGTemp *t = tcg_temp_new_internal(TCG_TYPE_I32, TEMP_TB);
-+        fold_xx_to_i(ctx, op, 0)) {
+     return temp_tcgv_i32(t);
 +        return true;
 +    }
 +    return false;
  }
- static bool fold_brcond(OptContext *ctx, TCGOp *op)
+@@ -XXX,XX +XXX,XX @@ static inline TCGv_i64 tcg_global_mem_new_i64(TCGv_ptr reg, intptr_t offset,
-@@ -XXX,XX +XXX,XX @@ static bool fold_shift(OptContext *ctx, TCGOp *op)
+ static inline TCGv_i64 tcg_temp_new_i64(void)
  static bool fold_sub(OptContext *ctx, TCGOp *op)
  {
--    return fold_const2(ctx, op);
+-    TCGTemp *t = tcg_temp_new_internal(TCG_TYPE_I64, false);
-+    if (fold_const2(ctx, op) ||
++    TCGTemp *t = tcg_temp_new_internal(TCG_TYPE_I64, TEMP_EBB);
-+        fold_xx_to_i(ctx, op, 0)) {
+     return temp_tcgv_i64(t);
 +        return true;
 +    }
 +    return false;
  }
- static bool fold_sub2_i32(OptContext *ctx, TCGOp *op)
+ static inline TCGv_i64 tcg_temp_local_new_i64(void)
@@ -XXX,XX +XXX,XX @@ static bool fold_sub2_i32(OptContext *ctx, TCGOp *op)
  static bool fold_xor(OptContext *ctx, TCGOp *op)
  {
--    return fold_const2(ctx, op);
+-    TCGTemp *t = tcg_temp_new_internal(TCG_TYPE_I64, true);
-+    if (fold_const2(ctx, op) ||
++    TCGTemp *t = tcg_temp_new_internal(TCG_TYPE_I64, TEMP_TB);
-+        fold_xx_to_i(ctx, op, 0)) {
+     return temp_tcgv_i64(t);
 +        return true;
 +    }
 +    return false;
  }
- /* Propagate constants and copies, fold constant expressions. */
+ static inline TCGv_i128 tcg_temp_new_i128(void)
-@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
+ {
-             break;
+-    TCGTemp *t = tcg_temp_new_internal(TCG_TYPE_I128, false);
-         }
++    TCGTemp *t = tcg_temp_new_internal(TCG_TYPE_I128, TEMP_EBB);
+     return temp_tcgv_i128(t);
--        /* Simplify expression for "op r, a, a => movi r, 0" cases */
+ }
--        switch (opc) {
--        CASE_OP_32_64_VEC(andc):
+ static inline TCGv_i128 tcg_temp_local_new_i128(void)
--        CASE_OP_32_64_VEC(sub):
+ {
--        CASE_OP_32_64_VEC(xor):
+-    TCGTemp *t = tcg_temp_new_internal(TCG_TYPE_I128, true);
--            if (args_are_copies(op->args[1], op->args[2])) {
++    TCGTemp *t = tcg_temp_new_internal(TCG_TYPE_I128, TEMP_TB);
--                tcg_opt_gen_movi(&ctx, op, op->args[0], 0);
+     return temp_tcgv_i128(t);
--                continue;
+ }
--            }
--            break;
+@@ -XXX,XX +XXX,XX @@ static inline TCGv_ptr tcg_global_mem_new_ptr(TCGv_ptr reg, intptr_t offset,
--        default:
--            break;
+ static inline TCGv_ptr tcg_temp_new_ptr(void)
--        }
+ {
--
+-    TCGTemp *t = tcg_temp_new_internal(TCG_TYPE_PTR, false);
-         /*
++    TCGTemp *t = tcg_temp_new_internal(TCG_TYPE_PTR, TEMP_EBB);
-          * Process each opcode.
+     return temp_tcgv_ptr(t);
-          * Sorted alphabetically by opcode as much as possible.
+ }
  static inline TCGv_ptr tcg_temp_local_new_ptr(void)
  {
 -    TCGTemp *t = tcg_temp_new_internal(TCG_TYPE_PTR, true);
 +    TCGTemp *t = tcg_temp_new_internal(TCG_TYPE_PTR, TEMP_TB);
      return temp_tcgv_ptr(t);
  }
 diff --git a/tcg/tcg.c b/tcg/tcg.c
 index XXXXXXX..XXXXXXX 100644
 --- a/tcg/tcg.c
 +++ b/tcg/tcg.c
@@ -XXX,XX +XXX,XX @@ TCGTemp *tcg_global_mem_new_internal(TCGType type, TCGv_ptr base,
      return ts;
  }
 -TCGTemp *tcg_temp_new_internal(TCGType type, bool temp_local)
 +TCGTemp *tcg_temp_new_internal(TCGType type, TCGTempKind kind)
  {
      TCGContext *s = tcg_ctx;
 -    TCGTempKind kind = temp_local ? TEMP_TB : TEMP_EBB;
 +    bool temp_local = kind == TEMP_TB;
      TCGTemp *ts;
      int idx, k;
@@ -XXX,XX +XXX,XX @@ TCGv_vec tcg_temp_new_vec(TCGType type)
      }
  #endif
 -    t = tcg_temp_new_internal(type, 0);
 +    t = tcg_temp_new_internal(type, TEMP_EBB);
      return temp_tcgv_vec(t);
  }
@@ -XXX,XX +XXX,XX @@ TCGv_vec tcg_temp_new_vec_matching(TCGv_vec match)
      tcg_debug_assert(t->temp_allocated != 0);
 -    t = tcg_temp_new_internal(t->base_type, 0);
 +    t = tcg_temp_new_internal(t->base_type, TEMP_EBB);
      return temp_tcgv_vec(t);
  }
 --
-.25.1
+.34.1

-[PULL 50/56] tcg/optimize: Use fold_xi_to_x for div
+[PULL 41/62] tcg: Use tcg_constant_i32 in tcg_gen_io_start
-Recognize the identity function for division.
+Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
+Reviewed-by: Daniel Henrique Barboza <dbarboza@ventanamicro.com>
 Suggested-by: Luis Pires <luis.pires@eldorado.org.br>
 Reviewed-by: Luis Pires <luis.pires@eldorado.org.br>
 Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- tcg/optimize.c | 6 +++++-
+ include/exec/gen-icount.h | 4 +---
-file changed, 5 insertions(+), 1 deletion(-)
+file changed, 1 insertion(+), 3 deletions(-)
-diff --git a/tcg/optimize.c b/tcg/optimize.c
+diff --git a/include/exec/gen-icount.h b/include/exec/gen-icount.h
 index XXXXXXX..XXXXXXX 100644
---- a/tcg/optimize.c
+--- a/include/exec/gen-icount.h
-+++ b/tcg/optimize.c
++++ b/include/exec/gen-icount.h
-@@ -XXX,XX +XXX,XX @@ static bool fold_deposit(OptContext *ctx, TCGOp *op)
+@@ -XXX,XX +XXX,XX @@ static TCGOp *icount_start_insn;
- static bool fold_divide(OptContext *ctx, TCGOp *op)
+ static inline void gen_io_start(void)
  {
--    return fold_const2(ctx, op);
+-    TCGv_i32 tmp = tcg_const_i32(1);
-+    if (fold_const2(ctx, op) ||
+-    tcg_gen_st_i32(tmp, cpu_env,
-+        fold_xi_to_x(ctx, op, 1)) {
++    tcg_gen_st_i32(tcg_constant_i32(1), cpu_env,
-+        return true;
+                    offsetof(ArchCPU, parent_obj.can_do_io) -
-+    }
+                    offsetof(ArchCPU, env));
-+    return false;
+-    tcg_temp_free_i32(tmp);
  }
- static bool fold_dup(OptContext *ctx, TCGOp *op)
+ static inline void gen_tb_start(const TranslationBlock *tb)
 --
-.25.1
+.34.1

-[PULL 24/56] tcg/optimize: Split out fold_setcond
+[PULL 42/62] tcg: Add tcg_gen_movi_ptr
-Reviewed-by: Luis Pires <luis.pires@eldorado.org.br>
+Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
 Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- tcg/optimize.c | 23 ++++++++++++++---------
+ include/tcg/tcg-op.h | 5 +++++
-file changed, 14 insertions(+), 9 deletions(-)
+file changed, 5 insertions(+)
-diff --git a/tcg/optimize.c b/tcg/optimize.c
+diff --git a/include/tcg/tcg-op.h b/include/tcg/tcg-op.h
 index XXXXXXX..XXXXXXX 100644
---- a/tcg/optimize.c
+--- a/include/tcg/tcg-op.h
-+++ b/tcg/optimize.c
++++ b/include/tcg/tcg-op.h
-@@ -XXX,XX +XXX,XX @@ static bool fold_remainder(OptContext *ctx, TCGOp *op)
+@@ -XXX,XX +XXX,XX @@ static inline void tcg_gen_mov_ptr(TCGv_ptr d, TCGv_ptr s)
-     return fold_const2(ctx, op);
+     glue(tcg_gen_mov_,PTR)((NAT)d, (NAT)s);
  }
-+static bool fold_setcond(OptContext *ctx, TCGOp *op)
++static inline void tcg_gen_movi_ptr(TCGv_ptr d, intptr_t s)
 +{
-+    TCGCond cond = op->args[3];
++    glue(tcg_gen_movi_,PTR)((NAT)d, s);
 +    int i = do_constant_folding_cond(op->opc, op->args[1], op->args[2], cond);
 +
 +    if (i >= 0) {
 +        return tcg_opt_gen_movi(ctx, op, op->args[0], i);
 +    }
 +    return false;
 +}
 +
- static bool fold_setcond2(OptContext *ctx, TCGOp *op)
+ static inline void tcg_gen_brcondi_ptr(TCGCond cond, TCGv_ptr a,
                                         intptr_t b, TCGLabel *label)
  {
-     TCGCond cond = op->args[5];
-@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
-             }
-             break;
--        CASE_OP_32_64(setcond):
--            i = do_constant_folding_cond(opc, op->args[1],
--                                         op->args[2], op->args[3]);
--            if (i >= 0) {
--                tcg_opt_gen_movi(&ctx, op, op->args[0], i);
--                continue;
--            }
--            break;
--
-         CASE_OP_32_64(movcond):
-             i = do_constant_folding_cond(opc, op->args[1],
-                                          op->args[2], op->args[5]);
-@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
-         CASE_OP_32_64(shr):
-             done = fold_shift(&ctx, op);
-             break;
-+        CASE_OP_32_64(setcond):
-+            done = fold_setcond(&ctx, op);
-+            break;
-         case INDEX_op_setcond2_i32:
-             done = fold_setcond2(&ctx, op);
-             break;
 --
-.25.1
+.34.1

-[PULL 01/56] qemu/int128: Add int128_{not,xor}
+[PULL 43/62] tcg: Add tcg_temp_ebb_new_{i32,i64,ptr}
-From: Frédéric Pétrot <frederic.petrot@univ-grenoble-alpes.fr>
+TCG internals will want to be able to allocate and reuse
 explicitly life-limited temporaries.
-Addition of not and xor on 128-bit integers.
+Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
 Signed-off-by: Frédéric Pétrot <frederic.petrot@univ-grenoble-alpes.fr>
 Co-authored-by: Fabien Portas <fabien.portas@grenoble-inp.org>
 Message-Id: <20211025122818.168890-3-frederic.petrot@univ-grenoble-alpes.fr>
 [rth: Split out logical operations.]
 Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- include/qemu/int128.h | 20 ++++++++++++++++++++
+ include/tcg/tcg.h | 28 ++++++++++++++++++++++++++++
-file changed, 20 insertions(+)
+file changed, 28 insertions(+)
-diff --git a/include/qemu/int128.h b/include/qemu/int128.h
+diff --git a/include/tcg/tcg.h b/include/tcg/tcg.h
 index XXXXXXX..XXXXXXX 100644
---- a/include/qemu/int128.h
+--- a/include/tcg/tcg.h
-+++ b/include/qemu/int128.h
++++ b/include/tcg/tcg.h
-@@ -XXX,XX +XXX,XX @@ static inline Int128 int128_exts64(int64_t a)
+@@ -XXX,XX +XXX,XX @@ static inline TCGv_i32 tcg_global_mem_new_i32(TCGv_ptr reg, intptr_t offset,
-     return a;
+     return temp_tcgv_i32(t);
  }
-+static inline Int128 int128_not(Int128 a)
++/* Used only by tcg infrastructure: tcg-op.c or plugin-gen.c */
 +static inline TCGv_i32 tcg_temp_ebb_new_i32(void)
 +{
-+    return ~a;
++    TCGTemp *t = tcg_temp_new_internal(TCG_TYPE_I32, TEMP_EBB);
 +    return temp_tcgv_i32(t);
 +}
 +
- static inline Int128 int128_and(Int128 a, Int128 b)
+ static inline TCGv_i32 tcg_temp_new_i32(void)
  {
-     return a & b;
+     TCGTemp *t = tcg_temp_new_internal(TCG_TYPE_I32, TEMP_EBB);
-@@ -XXX,XX +XXX,XX @@ static inline Int128 int128_or(Int128 a, Int128 b)
+@@ -XXX,XX +XXX,XX @@ static inline TCGv_i64 tcg_global_mem_new_i64(TCGv_ptr reg, intptr_t offset,
-     return a | b;
+     return temp_tcgv_i64(t);
  }
-+static inline Int128 int128_xor(Int128 a, Int128 b)
++/* Used only by tcg infrastructure: tcg-op.c or plugin-gen.c */
 +static inline TCGv_i64 tcg_temp_ebb_new_i64(void)
 +{
-+    return a ^ b;
++    TCGTemp *t = tcg_temp_new_internal(TCG_TYPE_I64, TEMP_EBB);
 +    return temp_tcgv_i64(t);
 +}
 +
- static inline Int128 int128_rshift(Int128 a, int n)
+ static inline TCGv_i64 tcg_temp_new_i64(void)
  {
-     return a >> n;
+     TCGTemp *t = tcg_temp_new_internal(TCG_TYPE_I64, TEMP_EBB);
-@@ -XXX,XX +XXX,XX @@ static inline Int128 int128_exts64(int64_t a)
+@@ -XXX,XX +XXX,XX @@ static inline TCGv_i64 tcg_temp_local_new_i64(void)
-     return int128_make128(a, (a < 0) ? -1 : 0);
+     return temp_tcgv_i64(t);
  }
-+static inline Int128 int128_not(Int128 a)
++/* Used only by tcg infrastructure: tcg-op.c or plugin-gen.c */
 +static inline TCGv_i128 tcg_temp_ebb_new_i128(void)
 +{
-+    return int128_make128(~a.lo, ~a.hi);
++    TCGTemp *t = tcg_temp_new_internal(TCG_TYPE_I128, TEMP_EBB);
 +    return temp_tcgv_i128(t);
 +}
 +
- static inline Int128 int128_and(Int128 a, Int128 b)
+ static inline TCGv_i128 tcg_temp_new_i128(void)
  {
-     return int128_make128(a.lo & b.lo, a.hi & b.hi);
+     TCGTemp *t = tcg_temp_new_internal(TCG_TYPE_I128, TEMP_EBB);
-@@ -XXX,XX +XXX,XX @@ static inline Int128 int128_or(Int128 a, Int128 b)
+@@ -XXX,XX +XXX,XX @@ static inline TCGv_ptr tcg_global_mem_new_ptr(TCGv_ptr reg, intptr_t offset,
-     return int128_make128(a.lo | b.lo, a.hi | b.hi);
+     return temp_tcgv_ptr(t);
  }
-+static inline Int128 int128_xor(Int128 a, Int128 b)
++/* Used only by tcg infrastructure: tcg-op.c or plugin-gen.c */
 +static inline TCGv_ptr tcg_temp_ebb_new_ptr(void)
 +{
-+    return int128_make128(a.lo ^ b.lo, a.hi ^ b.hi);
++    TCGTemp *t = tcg_temp_new_internal(TCG_TYPE_PTR, TEMP_EBB);
 +    return temp_tcgv_ptr(t);
 +}
 +
- static inline Int128 int128_rshift(Int128 a, int n)
+ static inline TCGv_ptr tcg_temp_new_ptr(void)
  {
-     int64_t h;
+     TCGTemp *t = tcg_temp_new_internal(TCG_TYPE_PTR, TEMP_EBB);
 --
-.25.1
+.34.1

-[PULL 47/56] tcg/optimize: Stop forcing z_mask to "garbage" for 32-bit values
+[PULL 44/62] tcg: Use tcg_temp_ebb_new_* in tcg/
-This "garbage" setting pre-dates the addition of the type
+All of these have obvious and quite local scope.
 changing opcodes INDEX_op_ext_i32_i64, INDEX_op_extu_i32_i64,
 and INDEX_op_extr{l,h}_i64_i32.
-So now we have a definitive points at which to adjust z_mask
+Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
 to eliminate such bits from the 32-bit operands.
 Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
 Reviewed-by: Luis Pires <luis.pires@eldorado.org.br>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- tcg/optimize.c | 35 ++++++++++++++++-------------------
+ tcg/tcg-op-gvec.c | 186 ++++++++++++++++-----------------
-file changed, 16 insertions(+), 19 deletions(-)
+ tcg/tcg-op.c      | 258 +++++++++++++++++++++++-----------------------
  tcg/tcg.c         |   2 +-
 files changed, 223 insertions(+), 223 deletions(-)
-diff --git a/tcg/optimize.c b/tcg/optimize.c
+diff --git a/tcg/tcg-op-gvec.c b/tcg/tcg-op-gvec.c
 index XXXXXXX..XXXXXXX 100644
---- a/tcg/optimize.c
+--- a/tcg/tcg-op-gvec.c
-+++ b/tcg/optimize.c
++++ b/tcg/tcg-op-gvec.c
-@@ -XXX,XX +XXX,XX @@ static void init_ts_info(OptContext *ctx, TCGTemp *ts)
+@@ -XXX,XX +XXX,XX @@ void tcg_gen_gvec_2_ool(uint32_t dofs, uint32_t aofs,
-         ti->is_const = true;
+     TCGv_ptr a0, a1;
-         ti->val = ts->val;
+     TCGv_i32 desc = tcg_constant_i32(simd_desc(oprsz, maxsz, data));
-         ti->z_mask = ts->val;
--        if (TCG_TARGET_REG_BITS > 32 && ts->type == TCG_TYPE_I32) {
+-    a0 = tcg_temp_new_ptr();
--            /* High bits of a 32-bit quantity are garbage.  */
+-    a1 = tcg_temp_new_ptr();
--            ti->z_mask |= ~0xffffffffull;
++    a0 = tcg_temp_ebb_new_ptr();
--        }
++    a1 = tcg_temp_ebb_new_ptr();
-     } else {
-         ti->is_const = false;
+     tcg_gen_addi_ptr(a0, cpu_env, dofs);
-         ti->z_mask = -1;
+     tcg_gen_addi_ptr(a1, cpu_env, aofs);
-@@ -XXX,XX +XXX,XX @@ static bool tcg_opt_gen_mov(OptContext *ctx, TCGOp *op, TCGArg dst, TCGArg src)
+@@ -XXX,XX +XXX,XX @@ void tcg_gen_gvec_2i_ool(uint32_t dofs, uint32_t aofs, TCGv_i64 c,
-     TCGTemp *src_ts = arg_temp(src);
+     TCGv_ptr a0, a1;
-     TempOptInfo *di;
+     TCGv_i32 desc = tcg_constant_i32(simd_desc(oprsz, maxsz, data));
-     TempOptInfo *si;
--    uint64_t z_mask;
+-    a0 = tcg_temp_new_ptr();
-     TCGOpcode new_op;
+-    a1 = tcg_temp_new_ptr();
++    a0 = tcg_temp_ebb_new_ptr();
-     if (ts_are_copies(dst_ts, src_ts)) {
++    a1 = tcg_temp_ebb_new_ptr();
-@@ -XXX,XX +XXX,XX @@ static bool tcg_opt_gen_mov(OptContext *ctx, TCGOp *op, TCGArg dst, TCGArg src)
-     op->args[0] = dst;
+     tcg_gen_addi_ptr(a0, cpu_env, dofs);
-     op->args[1] = src;
+     tcg_gen_addi_ptr(a1, cpu_env, aofs);
+@@ -XXX,XX +XXX,XX @@ void tcg_gen_gvec_3_ool(uint32_t dofs, uint32_t aofs, uint32_t bofs,
--    z_mask = si->z_mask;
+     TCGv_ptr a0, a1, a2;
--    if (TCG_TARGET_REG_BITS > 32 && new_op == INDEX_op_mov_i32) {
+     TCGv_i32 desc = tcg_constant_i32(simd_desc(oprsz, maxsz, data));
--        /* High bits of the destination are now garbage.  */
--        z_mask |= ~0xffffffffull;
+-    a0 = tcg_temp_new_ptr();
--    }
+-    a1 = tcg_temp_new_ptr();
--    di->z_mask = z_mask;
+-    a2 = tcg_temp_new_ptr();
-+    di->z_mask = si->z_mask;
++    a0 = tcg_temp_ebb_new_ptr();
++    a1 = tcg_temp_ebb_new_ptr();
-     if (src_ts->type == dst_ts->type) {
++    a2 = tcg_temp_ebb_new_ptr();
-         TempOptInfo *ni = ts_info(si->next_copy);
-@@ -XXX,XX +XXX,XX @@ static bool tcg_opt_gen_mov(OptContext *ctx, TCGOp *op, TCGArg dst, TCGArg src)
+     tcg_gen_addi_ptr(a0, cpu_env, dofs);
- static bool tcg_opt_gen_movi(OptContext *ctx, TCGOp *op,
+     tcg_gen_addi_ptr(a1, cpu_env, aofs);
-                              TCGArg dst, uint64_t val)
+@@ -XXX,XX +XXX,XX @@ void tcg_gen_gvec_4_ool(uint32_t dofs, uint32_t aofs, uint32_t bofs,
- {
+     TCGv_ptr a0, a1, a2, a3;
--    /* Convert movi to mov with constant temp. */
+     TCGv_i32 desc = tcg_constant_i32(simd_desc(oprsz, maxsz, data));
--    TCGTemp *tv = tcg_constant_internal(ctx->type, val);
-+    TCGTemp *tv;
+-    a0 = tcg_temp_new_ptr();
+-    a1 = tcg_temp_new_ptr();
-+    if (ctx->type == TCG_TYPE_I32) {
+-    a2 = tcg_temp_new_ptr();
-+        val = (int32_t)val;
+-    a3 = tcg_temp_new_ptr();
-+    }
++    a0 = tcg_temp_ebb_new_ptr();
-+
++    a1 = tcg_temp_ebb_new_ptr();
-+    /* Convert movi to mov with constant temp. */
++    a2 = tcg_temp_ebb_new_ptr();
-+    tv = tcg_constant_internal(ctx->type, val);
++    a3 = tcg_temp_ebb_new_ptr();
-     init_ts_info(ctx, tv);
-     return tcg_opt_gen_mov(ctx, op, dst, temp_arg(tv));
+     tcg_gen_addi_ptr(a0, cpu_env, dofs);
- }
+     tcg_gen_addi_ptr(a1, cpu_env, aofs);
-@@ -XXX,XX +XXX,XX @@ static bool fold_masks(OptContext *ctx, TCGOp *op)
+@@ -XXX,XX +XXX,XX @@ void tcg_gen_gvec_5_ool(uint32_t dofs, uint32_t aofs, uint32_t bofs,
-     uint64_t z_mask = ctx->z_mask;
+     TCGv_ptr a0, a1, a2, a3, a4;
      TCGv_i32 desc = tcg_constant_i32(simd_desc(oprsz, maxsz, data));
 -    a0 = tcg_temp_new_ptr();
 -    a1 = tcg_temp_new_ptr();
 -    a2 = tcg_temp_new_ptr();
 -    a3 = tcg_temp_new_ptr();
 -    a4 = tcg_temp_new_ptr();
 +    a0 = tcg_temp_ebb_new_ptr();
 +    a1 = tcg_temp_ebb_new_ptr();
 +    a2 = tcg_temp_ebb_new_ptr();
 +    a3 = tcg_temp_ebb_new_ptr();
 +    a4 = tcg_temp_ebb_new_ptr();
      tcg_gen_addi_ptr(a0, cpu_env, dofs);
      tcg_gen_addi_ptr(a1, cpu_env, aofs);
@@ -XXX,XX +XXX,XX @@ void tcg_gen_gvec_2_ptr(uint32_t dofs, uint32_t aofs,
      TCGv_ptr a0, a1;
      TCGv_i32 desc = tcg_constant_i32(simd_desc(oprsz, maxsz, data));
 -    a0 = tcg_temp_new_ptr();
 -    a1 = tcg_temp_new_ptr();
 +    a0 = tcg_temp_ebb_new_ptr();
 +    a1 = tcg_temp_ebb_new_ptr();
      tcg_gen_addi_ptr(a0, cpu_env, dofs);
      tcg_gen_addi_ptr(a1, cpu_env, aofs);
@@ -XXX,XX +XXX,XX @@ void tcg_gen_gvec_3_ptr(uint32_t dofs, uint32_t aofs, uint32_t bofs,
      TCGv_ptr a0, a1, a2;
      TCGv_i32 desc = tcg_constant_i32(simd_desc(oprsz, maxsz, data));
 -    a0 = tcg_temp_new_ptr();
 -    a1 = tcg_temp_new_ptr();
 -    a2 = tcg_temp_new_ptr();
 +    a0 = tcg_temp_ebb_new_ptr();
 +    a1 = tcg_temp_ebb_new_ptr();
 +    a2 = tcg_temp_ebb_new_ptr();
      tcg_gen_addi_ptr(a0, cpu_env, dofs);
      tcg_gen_addi_ptr(a1, cpu_env, aofs);
@@ -XXX,XX +XXX,XX @@ void tcg_gen_gvec_4_ptr(uint32_t dofs, uint32_t aofs, uint32_t bofs,
      TCGv_ptr a0, a1, a2, a3;
      TCGv_i32 desc = tcg_constant_i32(simd_desc(oprsz, maxsz, data));
 -    a0 = tcg_temp_new_ptr();
 -    a1 = tcg_temp_new_ptr();
 -    a2 = tcg_temp_new_ptr();
 -    a3 = tcg_temp_new_ptr();
 +    a0 = tcg_temp_ebb_new_ptr();
 +    a1 = tcg_temp_ebb_new_ptr();
 +    a2 = tcg_temp_ebb_new_ptr();
 +    a3 = tcg_temp_ebb_new_ptr();
      tcg_gen_addi_ptr(a0, cpu_env, dofs);
      tcg_gen_addi_ptr(a1, cpu_env, aofs);
@@ -XXX,XX +XXX,XX @@ void tcg_gen_gvec_5_ptr(uint32_t dofs, uint32_t aofs, uint32_t bofs,
      TCGv_ptr a0, a1, a2, a3, a4;
      TCGv_i32 desc = tcg_constant_i32(simd_desc(oprsz, maxsz, data));
 -    a0 = tcg_temp_new_ptr();
 -    a1 = tcg_temp_new_ptr();
 -    a2 = tcg_temp_new_ptr();
 -    a3 = tcg_temp_new_ptr();
 -    a4 = tcg_temp_new_ptr();
 +    a0 = tcg_temp_ebb_new_ptr();
 +    a1 = tcg_temp_ebb_new_ptr();
 +    a2 = tcg_temp_ebb_new_ptr();
 +    a3 = tcg_temp_ebb_new_ptr();
 +    a4 = tcg_temp_ebb_new_ptr();
      tcg_gen_addi_ptr(a0, cpu_env, dofs);
      tcg_gen_addi_ptr(a1, cpu_env, aofs);
@@ -XXX,XX +XXX,XX @@ static void do_dup(unsigned vece, uint32_t dofs, uint32_t oprsz,
                 be simple enough.  */
              if (TCG_TARGET_REG_BITS == 64
                  && (vece != MO_32 || !check_size_impl(oprsz, 4))) {
 -                t_64 = tcg_temp_new_i64();
 +                t_64 = tcg_temp_ebb_new_i64();
                  tcg_gen_extu_i32_i64(t_64, in_32);
                  tcg_gen_dup_i64(vece, t_64, t_64);
              } else {
 -                t_32 = tcg_temp_new_i32();
 +                t_32 = tcg_temp_ebb_new_i32();
                  tcg_gen_dup_i32(vece, t_32, in_32);
              }
          } else if (in_64) {
              /* We are given a 64-bit variable input.  */
 -            t_64 = tcg_temp_new_i64();
 +            t_64 = tcg_temp_ebb_new_i64();
              tcg_gen_dup_i64(vece, t_64, in_64);
          } else {
              /* We are given a constant input.  */
@@ -XXX,XX +XXX,XX @@ static void do_dup(unsigned vece, uint32_t dofs, uint32_t oprsz,
      }
      /* Otherwise implement out of line.  */
 -    t_ptr = tcg_temp_new_ptr();
 +    t_ptr = tcg_temp_ebb_new_ptr();
      tcg_gen_addi_ptr(t_ptr, cpu_env, dofs);
      /*
--     * 32-bit ops generate 32-bit results.  For the result is zero test
+@@ -XXX,XX +XXX,XX @@ static void do_dup(unsigned vece, uint32_t dofs, uint32_t oprsz,
--     * below, we can ignore high bits, but for further optimizations we
+         if (in_32) {
--     * need to record that the high bits contain garbage.
+             t_val = in_32;
-+     * 32-bit ops generate 32-bit results, which for the purpose of
+         } else if (in_64) {
-+     * simplifying tcg are sign-extended.  Certainly that's how we
+-            t_val = tcg_temp_new_i32();
-+     * represent our constants elsewhere.  Note that the bits will
++            t_val = tcg_temp_ebb_new_i32();
-+     * be reset properly for a 64-bit value when encountering the
+             tcg_gen_extrl_i64_i32(t_val, in_64);
-+     * type changing opcodes.
+         } else {
-      */
+             t_val = tcg_constant_i32(in_c);
-     if (ctx->type == TCG_TYPE_I32) {
+@@ -XXX,XX +XXX,XX @@ static void do_dup(unsigned vece, uint32_t dofs, uint32_t oprsz,
--        ctx->z_mask |= MAKE_64BIT_MASK(32, 32);
+         if (in_32) {
--        a_mask &= MAKE_64BIT_MASK(0, 32);
+             fns[vece](t_ptr, t_desc, in_32);
--        z_mask &= MAKE_64BIT_MASK(0, 32);
+         } else if (in_64) {
-+        a_mask = (int32_t)a_mask;
+-            t_32 = tcg_temp_new_i32();
-+        z_mask = (int32_t)z_mask;
++            t_32 = tcg_temp_ebb_new_i32();
-+        ctx->z_mask = z_mask;
+             tcg_gen_extrl_i64_i32(t_32, in_64);
              fns[vece](t_ptr, t_desc, t_32);
              tcg_temp_free_i32(t_32);
@@ -XXX,XX +XXX,XX @@ void tcg_gen_gvec_dup_mem(unsigned vece, uint32_t dofs, uint32_t aofs,
              do_dup_store(type, dofs, oprsz, maxsz, t_vec);
              tcg_temp_free_vec(t_vec);
          } else if (vece <= MO_32) {
 -            TCGv_i32 in = tcg_temp_new_i32();
 +            TCGv_i32 in = tcg_temp_ebb_new_i32();
              switch (vece) {
              case MO_8:
                  tcg_gen_ld8u_i32(in, cpu_env, aofs);
@@ -XXX,XX +XXX,XX @@ void tcg_gen_gvec_dup_mem(unsigned vece, uint32_t dofs, uint32_t aofs,
              do_dup(vece, dofs, oprsz, maxsz, in, NULL, 0);
              tcg_temp_free_i32(in);
          } else {
 -            TCGv_i64 in = tcg_temp_new_i64();
 +            TCGv_i64 in = tcg_temp_ebb_new_i64();
              tcg_gen_ld_i64(in, cpu_env, aofs);
              do_dup(vece, dofs, oprsz, maxsz, NULL, in, 0);
              tcg_temp_free_i64(in);
@@ -XXX,XX +XXX,XX @@ void tcg_gen_gvec_dup_mem(unsigned vece, uint32_t dofs, uint32_t aofs,
              }
              tcg_temp_free_vec(in);
          } else {
 -            TCGv_i64 in0 = tcg_temp_new_i64();
 -            TCGv_i64 in1 = tcg_temp_new_i64();
 +            TCGv_i64 in0 = tcg_temp_ebb_new_i64();
 +            TCGv_i64 in1 = tcg_temp_ebb_new_i64();
              tcg_gen_ld_i64(in0, cpu_env, aofs);
              tcg_gen_ld_i64(in1, cpu_env, aofs + 8);
@@ -XXX,XX +XXX,XX @@ void tcg_gen_gvec_dup_mem(unsigned vece, uint32_t dofs, uint32_t aofs,
              int j;
              for (j = 0; j < 4; ++j) {
 -                in[j] = tcg_temp_new_i64();
 +                in[j] = tcg_temp_ebb_new_i64();
                  tcg_gen_ld_i64(in[j], cpu_env, aofs + j * 8);
              }
              for (i = (aofs == dofs) * 32; i < oprsz; i += 32) {
@@ -XXX,XX +XXX,XX @@ void tcg_gen_gvec_not(unsigned vece, uint32_t dofs, uint32_t aofs,
     the 64-bit operation.  */
  static void gen_addv_mask(TCGv_i64 d, TCGv_i64 a, TCGv_i64 b, TCGv_i64 m)
  {
 -    TCGv_i64 t1 = tcg_temp_new_i64();
 -    TCGv_i64 t2 = tcg_temp_new_i64();
 -    TCGv_i64 t3 = tcg_temp_new_i64();
 +    TCGv_i64 t1 = tcg_temp_ebb_new_i64();
 +    TCGv_i64 t2 = tcg_temp_ebb_new_i64();
 +    TCGv_i64 t3 = tcg_temp_ebb_new_i64();
      tcg_gen_andc_i64(t1, a, m);
      tcg_gen_andc_i64(t2, b, m);
@@ -XXX,XX +XXX,XX @@ void tcg_gen_vec_add8_i64(TCGv_i64 d, TCGv_i64 a, TCGv_i64 b)
  void tcg_gen_vec_add8_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b)
  {
      TCGv_i32 m = tcg_constant_i32((int32_t)dup_const(MO_8, 0x80));
 -    TCGv_i32 t1 = tcg_temp_new_i32();
 -    TCGv_i32 t2 = tcg_temp_new_i32();
 -    TCGv_i32 t3 = tcg_temp_new_i32();
 +    TCGv_i32 t1 = tcg_temp_ebb_new_i32();
 +    TCGv_i32 t2 = tcg_temp_ebb_new_i32();
 +    TCGv_i32 t3 = tcg_temp_ebb_new_i32();
      tcg_gen_andc_i32(t1, a, m);
      tcg_gen_andc_i32(t2, b, m);
@@ -XXX,XX +XXX,XX @@ void tcg_gen_vec_add16_i64(TCGv_i64 d, TCGv_i64 a, TCGv_i64 b)
  void tcg_gen_vec_add16_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b)
  {
 -    TCGv_i32 t1 = tcg_temp_new_i32();
 -    TCGv_i32 t2 = tcg_temp_new_i32();
 +    TCGv_i32 t1 = tcg_temp_ebb_new_i32();
 +    TCGv_i32 t2 = tcg_temp_ebb_new_i32();
      tcg_gen_andi_i32(t1, a, ~0xffff);
      tcg_gen_add_i32(t2, a, b);
@@ -XXX,XX +XXX,XX @@ void tcg_gen_vec_add16_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b)
  void tcg_gen_vec_add32_i64(TCGv_i64 d, TCGv_i64 a, TCGv_i64 b)
  {
 -    TCGv_i64 t1 = tcg_temp_new_i64();
 -    TCGv_i64 t2 = tcg_temp_new_i64();
 +    TCGv_i64 t1 = tcg_temp_ebb_new_i64();
 +    TCGv_i64 t2 = tcg_temp_ebb_new_i64();
      tcg_gen_andi_i64(t1, a, ~0xffffffffull);
      tcg_gen_add_i64(t2, a, b);
@@ -XXX,XX +XXX,XX @@ void tcg_gen_gvec_subs(unsigned vece, uint32_t dofs, uint32_t aofs,
     Compare gen_addv_mask above.  */
  static void gen_subv_mask(TCGv_i64 d, TCGv_i64 a, TCGv_i64 b, TCGv_i64 m)
  {
 -    TCGv_i64 t1 = tcg_temp_new_i64();
 -    TCGv_i64 t2 = tcg_temp_new_i64();
 -    TCGv_i64 t3 = tcg_temp_new_i64();
 +    TCGv_i64 t1 = tcg_temp_ebb_new_i64();
 +    TCGv_i64 t2 = tcg_temp_ebb_new_i64();
 +    TCGv_i64 t3 = tcg_temp_ebb_new_i64();
      tcg_gen_or_i64(t1, a, m);
      tcg_gen_andc_i64(t2, b, m);
@@ -XXX,XX +XXX,XX @@ void tcg_gen_vec_sub8_i64(TCGv_i64 d, TCGv_i64 a, TCGv_i64 b)
  void tcg_gen_vec_sub8_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b)
  {
      TCGv_i32 m = tcg_constant_i32((int32_t)dup_const(MO_8, 0x80));
 -    TCGv_i32 t1 = tcg_temp_new_i32();
 -    TCGv_i32 t2 = tcg_temp_new_i32();
 -    TCGv_i32 t3 = tcg_temp_new_i32();
 +    TCGv_i32 t1 = tcg_temp_ebb_new_i32();
 +    TCGv_i32 t2 = tcg_temp_ebb_new_i32();
 +    TCGv_i32 t3 = tcg_temp_ebb_new_i32();
      tcg_gen_or_i32(t1, a, m);
      tcg_gen_andc_i32(t2, b, m);
@@ -XXX,XX +XXX,XX @@ void tcg_gen_vec_sub16_i64(TCGv_i64 d, TCGv_i64 a, TCGv_i64 b)
  void tcg_gen_vec_sub16_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b)
  {
 -    TCGv_i32 t1 = tcg_temp_new_i32();
 -    TCGv_i32 t2 = tcg_temp_new_i32();
 +    TCGv_i32 t1 = tcg_temp_ebb_new_i32();
 +    TCGv_i32 t2 = tcg_temp_ebb_new_i32();
      tcg_gen_andi_i32(t1, b, ~0xffff);
      tcg_gen_sub_i32(t2, a, b);
@@ -XXX,XX +XXX,XX @@ void tcg_gen_vec_sub16_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b)
  void tcg_gen_vec_sub32_i64(TCGv_i64 d, TCGv_i64 a, TCGv_i64 b)
  {
 -    TCGv_i64 t1 = tcg_temp_new_i64();
 -    TCGv_i64 t2 = tcg_temp_new_i64();
 +    TCGv_i64 t1 = tcg_temp_ebb_new_i64();
 +    TCGv_i64 t2 = tcg_temp_ebb_new_i64();
      tcg_gen_andi_i64(t1, b, ~0xffffffffull);
      tcg_gen_sub_i64(t2, a, b);
@@ -XXX,XX +XXX,XX @@ void tcg_gen_gvec_umax(unsigned vece, uint32_t dofs, uint32_t aofs,
     Compare gen_subv_mask above.  */
  static void gen_negv_mask(TCGv_i64 d, TCGv_i64 b, TCGv_i64 m)
  {
 -    TCGv_i64 t2 = tcg_temp_new_i64();
 -    TCGv_i64 t3 = tcg_temp_new_i64();
 +    TCGv_i64 t2 = tcg_temp_ebb_new_i64();
 +    TCGv_i64 t3 = tcg_temp_ebb_new_i64();
      tcg_gen_andc_i64(t3, m, b);
      tcg_gen_andc_i64(t2, b, m);
@@ -XXX,XX +XXX,XX @@ void tcg_gen_vec_neg16_i64(TCGv_i64 d, TCGv_i64 b)
  void tcg_gen_vec_neg32_i64(TCGv_i64 d, TCGv_i64 b)
  {
 -    TCGv_i64 t1 = tcg_temp_new_i64();
 -    TCGv_i64 t2 = tcg_temp_new_i64();
 +    TCGv_i64 t1 = tcg_temp_ebb_new_i64();
 +    TCGv_i64 t2 = tcg_temp_ebb_new_i64();
      tcg_gen_andi_i64(t1, b, ~0xffffffffull);
      tcg_gen_neg_i64(t2, b);
@@ -XXX,XX +XXX,XX @@ void tcg_gen_gvec_neg(unsigned vece, uint32_t dofs, uint32_t aofs,
  static void gen_absv_mask(TCGv_i64 d, TCGv_i64 b, unsigned vece)
  {
 -    TCGv_i64 t = tcg_temp_new_i64();
 +    TCGv_i64 t = tcg_temp_ebb_new_i64();
      int nbit = 8 << vece;
      /* Create -1 for each negative element.  */
@@ -XXX,XX +XXX,XX @@ static const GVecGen2s gop_ands = {
  void tcg_gen_gvec_ands(unsigned vece, uint32_t dofs, uint32_t aofs,
                         TCGv_i64 c, uint32_t oprsz, uint32_t maxsz)
  {
 -    TCGv_i64 tmp = tcg_temp_new_i64();
 +    TCGv_i64 tmp = tcg_temp_ebb_new_i64();
      tcg_gen_dup_i64(vece, tmp, c);
      tcg_gen_gvec_2s(dofs, aofs, oprsz, maxsz, tmp, &gop_ands);
      tcg_temp_free_i64(tmp);
@@ -XXX,XX +XXX,XX @@ static const GVecGen2s gop_xors = {
  void tcg_gen_gvec_xors(unsigned vece, uint32_t dofs, uint32_t aofs,
                         TCGv_i64 c, uint32_t oprsz, uint32_t maxsz)
  {
 -    TCGv_i64 tmp = tcg_temp_new_i64();
 +    TCGv_i64 tmp = tcg_temp_ebb_new_i64();
      tcg_gen_dup_i64(vece, tmp, c);
      tcg_gen_gvec_2s(dofs, aofs, oprsz, maxsz, tmp, &gop_xors);
      tcg_temp_free_i64(tmp);
@@ -XXX,XX +XXX,XX @@ static const GVecGen2s gop_ors = {
  void tcg_gen_gvec_ors(unsigned vece, uint32_t dofs, uint32_t aofs,
                        TCGv_i64 c, uint32_t oprsz, uint32_t maxsz)
  {
 -    TCGv_i64 tmp = tcg_temp_new_i64();
 +    TCGv_i64 tmp = tcg_temp_ebb_new_i64();
      tcg_gen_dup_i64(vece, tmp, c);
      tcg_gen_gvec_2s(dofs, aofs, oprsz, maxsz, tmp, &gop_ors);
      tcg_temp_free_i64(tmp);
@@ -XXX,XX +XXX,XX @@ void tcg_gen_vec_sar8i_i64(TCGv_i64 d, TCGv_i64 a, int64_t c)
  {
      uint64_t s_mask = dup_const(MO_8, 0x80 >> c);
      uint64_t c_mask = dup_const(MO_8, 0xff >> c);
 -    TCGv_i64 s = tcg_temp_new_i64();
 +    TCGv_i64 s = tcg_temp_ebb_new_i64();
      tcg_gen_shri_i64(d, a, c);
      tcg_gen_andi_i64(s, d, s_mask);  /* isolate (shifted) sign bit */
@@ -XXX,XX +XXX,XX @@ void tcg_gen_vec_sar16i_i64(TCGv_i64 d, TCGv_i64 a, int64_t c)
  {
      uint64_t s_mask = dup_const(MO_16, 0x8000 >> c);
      uint64_t c_mask = dup_const(MO_16, 0xffff >> c);
 -    TCGv_i64 s = tcg_temp_new_i64();
 +    TCGv_i64 s = tcg_temp_ebb_new_i64();
      tcg_gen_shri_i64(d, a, c);
      tcg_gen_andi_i64(s, d, s_mask);  /* isolate (shifted) sign bit */
@@ -XXX,XX +XXX,XX @@ void tcg_gen_vec_sar8i_i32(TCGv_i32 d, TCGv_i32 a, int32_t c)
  {
      uint32_t s_mask = dup_const(MO_8, 0x80 >> c);
      uint32_t c_mask = dup_const(MO_8, 0xff >> c);
 -    TCGv_i32 s = tcg_temp_new_i32();
 +    TCGv_i32 s = tcg_temp_ebb_new_i32();
      tcg_gen_shri_i32(d, a, c);
      tcg_gen_andi_i32(s, d, s_mask);  /* isolate (shifted) sign bit */
@@ -XXX,XX +XXX,XX @@ void tcg_gen_vec_sar16i_i32(TCGv_i32 d, TCGv_i32 a, int32_t c)
  {
      uint32_t s_mask = dup_const(MO_16, 0x8000 >> c);
      uint32_t c_mask = dup_const(MO_16, 0xffff >> c);
 -    TCGv_i32 s = tcg_temp_new_i32();
 +    TCGv_i32 s = tcg_temp_ebb_new_i32();
      tcg_gen_shri_i32(d, a, c);
      tcg_gen_andi_i32(s, d, s_mask);  /* isolate (shifted) sign bit */
@@ -XXX,XX +XXX,XX @@ do_gvec_shifts(unsigned vece, uint32_t dofs, uint32_t aofs, TCGv_i32 shift,
          TCGv_vec v_shift = tcg_temp_new_vec(type);
          if (vece == MO_64) {
 -            TCGv_i64 sh64 = tcg_temp_new_i64();
 +            TCGv_i64 sh64 = tcg_temp_ebb_new_i64();
              tcg_gen_extu_i32_i64(sh64, shift);
              tcg_gen_dup_i64_vec(MO_64, v_shift, sh64);
              tcg_temp_free_i64(sh64);
@@ -XXX,XX +XXX,XX @@ do_gvec_shifts(unsigned vece, uint32_t dofs, uint32_t aofs, TCGv_i32 shift,
      if (vece == MO_32 && check_size_impl(oprsz, 4)) {
          expand_2s_i32(dofs, aofs, oprsz, shift, false, g->fni4);
      } else if (vece == MO_64 && check_size_impl(oprsz, 8)) {
 -        TCGv_i64 sh64 = tcg_temp_new_i64();
 +        TCGv_i64 sh64 = tcg_temp_ebb_new_i64();
          tcg_gen_extu_i32_i64(sh64, shift);
          expand_2s_i64(dofs, aofs, oprsz, sh64, false, g->fni8);
          tcg_temp_free_i64(sh64);
      } else {
 -        TCGv_ptr a0 = tcg_temp_new_ptr();
 -        TCGv_ptr a1 = tcg_temp_new_ptr();
 -        TCGv_i32 desc = tcg_temp_new_i32();
 +        TCGv_ptr a0 = tcg_temp_ebb_new_ptr();
 +        TCGv_ptr a1 = tcg_temp_ebb_new_ptr();
 +        TCGv_i32 desc = tcg_temp_ebb_new_i32();
          tcg_gen_shli_i32(desc, shift, SIMD_DATA_SHIFT);
          tcg_gen_ori_i32(desc, desc, simd_desc(oprsz, maxsz, 0));
@@ -XXX,XX +XXX,XX @@ static void tcg_gen_shlv_mod_vec(unsigned vece, TCGv_vec d,
  static void tcg_gen_shl_mod_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b)
  {
 -    TCGv_i32 t = tcg_temp_new_i32();
 +    TCGv_i32 t = tcg_temp_ebb_new_i32();
      tcg_gen_andi_i32(t, b, 31);
      tcg_gen_shl_i32(d, a, t);
@@ -XXX,XX +XXX,XX @@ static void tcg_gen_shl_mod_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b)
  static void tcg_gen_shl_mod_i64(TCGv_i64 d, TCGv_i64 a, TCGv_i64 b)
  {
 -    TCGv_i64 t = tcg_temp_new_i64();
 +    TCGv_i64 t = tcg_temp_ebb_new_i64();
      tcg_gen_andi_i64(t, b, 63);
      tcg_gen_shl_i64(d, a, t);
@@ -XXX,XX +XXX,XX @@ static void tcg_gen_shrv_mod_vec(unsigned vece, TCGv_vec d,
  static void tcg_gen_shr_mod_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b)
  {
 -    TCGv_i32 t = tcg_temp_new_i32();
 +    TCGv_i32 t = tcg_temp_ebb_new_i32();
      tcg_gen_andi_i32(t, b, 31);
      tcg_gen_shr_i32(d, a, t);
@@ -XXX,XX +XXX,XX @@ static void tcg_gen_shr_mod_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b)
  static void tcg_gen_shr_mod_i64(TCGv_i64 d, TCGv_i64 a, TCGv_i64 b)
  {
 -    TCGv_i64 t = tcg_temp_new_i64();
 +    TCGv_i64 t = tcg_temp_ebb_new_i64();
      tcg_gen_andi_i64(t, b, 63);
      tcg_gen_shr_i64(d, a, t);
@@ -XXX,XX +XXX,XX @@ static void tcg_gen_sarv_mod_vec(unsigned vece, TCGv_vec d,
  static void tcg_gen_sar_mod_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b)
  {
 -    TCGv_i32 t = tcg_temp_new_i32();
 +    TCGv_i32 t = tcg_temp_ebb_new_i32();
      tcg_gen_andi_i32(t, b, 31);
      tcg_gen_sar_i32(d, a, t);
@@ -XXX,XX +XXX,XX @@ static void tcg_gen_sar_mod_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b)
  static void tcg_gen_sar_mod_i64(TCGv_i64 d, TCGv_i64 a, TCGv_i64 b)
  {
 -    TCGv_i64 t = tcg_temp_new_i64();
 +    TCGv_i64 t = tcg_temp_ebb_new_i64();
      tcg_gen_andi_i64(t, b, 63);
      tcg_gen_sar_i64(d, a, t);
@@ -XXX,XX +XXX,XX @@ static void tcg_gen_rotlv_mod_vec(unsigned vece, TCGv_vec d,
  static void tcg_gen_rotl_mod_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b)
  {
 -    TCGv_i32 t = tcg_temp_new_i32();
 +    TCGv_i32 t = tcg_temp_ebb_new_i32();
      tcg_gen_andi_i32(t, b, 31);
      tcg_gen_rotl_i32(d, a, t);
@@ -XXX,XX +XXX,XX @@ static void tcg_gen_rotl_mod_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b)
  static void tcg_gen_rotl_mod_i64(TCGv_i64 d, TCGv_i64 a, TCGv_i64 b)
  {
 -    TCGv_i64 t = tcg_temp_new_i64();
 +    TCGv_i64 t = tcg_temp_ebb_new_i64();
      tcg_gen_andi_i64(t, b, 63);
      tcg_gen_rotl_i64(d, a, t);
@@ -XXX,XX +XXX,XX @@ static void tcg_gen_rotrv_mod_vec(unsigned vece, TCGv_vec d,
  static void tcg_gen_rotr_mod_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b)
  {
 -    TCGv_i32 t = tcg_temp_new_i32();
 +    TCGv_i32 t = tcg_temp_ebb_new_i32();
      tcg_gen_andi_i32(t, b, 31);
      tcg_gen_rotr_i32(d, a, t);
@@ -XXX,XX +XXX,XX @@ static void tcg_gen_rotr_mod_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b)
  static void tcg_gen_rotr_mod_i64(TCGv_i64 d, TCGv_i64 a, TCGv_i64 b)
  {
 -    TCGv_i64 t = tcg_temp_new_i64();
 +    TCGv_i64 t = tcg_temp_ebb_new_i64();
      tcg_gen_andi_i64(t, b, 63);
      tcg_gen_rotr_i64(d, a, t);
@@ -XXX,XX +XXX,XX @@ void tcg_gen_gvec_rotrv(unsigned vece, uint32_t dofs, uint32_t aofs,
  static void expand_cmp_i32(uint32_t dofs, uint32_t aofs, uint32_t bofs,
                             uint32_t oprsz, TCGCond cond)
  {
 -    TCGv_i32 t0 = tcg_temp_new_i32();
 -    TCGv_i32 t1 = tcg_temp_new_i32();
 +    TCGv_i32 t0 = tcg_temp_ebb_new_i32();
 +    TCGv_i32 t1 = tcg_temp_ebb_new_i32();
      uint32_t i;
      for (i = 0; i < oprsz; i += 4) {
@@ -XXX,XX +XXX,XX @@ static void expand_cmp_i32(uint32_t dofs, uint32_t aofs, uint32_t bofs,
  static void expand_cmp_i64(uint32_t dofs, uint32_t aofs, uint32_t bofs,
                             uint32_t oprsz, TCGCond cond)
  {
 -    TCGv_i64 t0 = tcg_temp_new_i64();
 -    TCGv_i64 t1 = tcg_temp_new_i64();
 +    TCGv_i64 t0 = tcg_temp_ebb_new_i64();
 +    TCGv_i64 t1 = tcg_temp_ebb_new_i64();
      uint32_t i;
      for (i = 0; i < oprsz; i += 8) {
@@ -XXX,XX +XXX,XX @@ void tcg_gen_gvec_cmp(TCGCond cond, unsigned vece, uint32_t dofs,
  static void tcg_gen_bitsel_i64(TCGv_i64 d, TCGv_i64 a, TCGv_i64 b, TCGv_i64 c)
  {
 -    TCGv_i64 t = tcg_temp_new_i64();
 +    TCGv_i64 t = tcg_temp_ebb_new_i64();
      tcg_gen_and_i64(t, b, a);
      tcg_gen_andc_i64(d, c, a);
 diff --git a/tcg/tcg-op.c b/tcg/tcg-op.c
 index XXXXXXX..XXXXXXX 100644
 --- a/tcg/tcg-op.c
 +++ b/tcg/tcg-op.c
@@ -XXX,XX +XXX,XX @@ void tcg_gen_div_i32(TCGv_i32 ret, TCGv_i32 arg1, TCGv_i32 arg2)
      if (TCG_TARGET_HAS_div_i32) {
          tcg_gen_op3_i32(INDEX_op_div_i32, ret, arg1, arg2);
      } else if (TCG_TARGET_HAS_div2_i32) {
 -        TCGv_i32 t0 = tcg_temp_new_i32();
 +        TCGv_i32 t0 = tcg_temp_ebb_new_i32();
          tcg_gen_sari_i32(t0, arg1, 31);
          tcg_gen_op5_i32(INDEX_op_div2_i32, ret, t0, arg1, t0, arg2);
          tcg_temp_free_i32(t0);
@@ -XXX,XX +XXX,XX @@ void tcg_gen_rem_i32(TCGv_i32 ret, TCGv_i32 arg1, TCGv_i32 arg2)
      if (TCG_TARGET_HAS_rem_i32) {
          tcg_gen_op3_i32(INDEX_op_rem_i32, ret, arg1, arg2);
      } else if (TCG_TARGET_HAS_div_i32) {
 -        TCGv_i32 t0 = tcg_temp_new_i32();
 +        TCGv_i32 t0 = tcg_temp_ebb_new_i32();
          tcg_gen_op3_i32(INDEX_op_div_i32, t0, arg1, arg2);
          tcg_gen_mul_i32(t0, t0, arg2);
          tcg_gen_sub_i32(ret, arg1, t0);
          tcg_temp_free_i32(t0);
      } else if (TCG_TARGET_HAS_div2_i32) {
 -        TCGv_i32 t0 = tcg_temp_new_i32();
 +        TCGv_i32 t0 = tcg_temp_ebb_new_i32();
          tcg_gen_sari_i32(t0, arg1, 31);
          tcg_gen_op5_i32(INDEX_op_div2_i32, t0, ret, arg1, t0, arg2);
          tcg_temp_free_i32(t0);
@@ -XXX,XX +XXX,XX @@ void tcg_gen_divu_i32(TCGv_i32 ret, TCGv_i32 arg1, TCGv_i32 arg2)
      if (TCG_TARGET_HAS_div_i32) {
          tcg_gen_op3_i32(INDEX_op_divu_i32, ret, arg1, arg2);
      } else if (TCG_TARGET_HAS_div2_i32) {
 -        TCGv_i32 t0 = tcg_temp_new_i32();
 +        TCGv_i32 t0 = tcg_temp_ebb_new_i32();
          tcg_gen_movi_i32(t0, 0);
          tcg_gen_op5_i32(INDEX_op_divu2_i32, ret, t0, arg1, t0, arg2);
          tcg_temp_free_i32(t0);
@@ -XXX,XX +XXX,XX @@ void tcg_gen_remu_i32(TCGv_i32 ret, TCGv_i32 arg1, TCGv_i32 arg2)
      if (TCG_TARGET_HAS_rem_i32) {
          tcg_gen_op3_i32(INDEX_op_remu_i32, ret, arg1, arg2);
      } else if (TCG_TARGET_HAS_div_i32) {
 -        TCGv_i32 t0 = tcg_temp_new_i32();
 +        TCGv_i32 t0 = tcg_temp_ebb_new_i32();
          tcg_gen_op3_i32(INDEX_op_divu_i32, t0, arg1, arg2);
          tcg_gen_mul_i32(t0, t0, arg2);
          tcg_gen_sub_i32(ret, arg1, t0);
          tcg_temp_free_i32(t0);
      } else if (TCG_TARGET_HAS_div2_i32) {
 -        TCGv_i32 t0 = tcg_temp_new_i32();
 +        TCGv_i32 t0 = tcg_temp_ebb_new_i32();
          tcg_gen_movi_i32(t0, 0);
          tcg_gen_op5_i32(INDEX_op_divu2_i32, t0, ret, arg1, t0, arg2);
          tcg_temp_free_i32(t0);
@@ -XXX,XX +XXX,XX @@ void tcg_gen_andc_i32(TCGv_i32 ret, TCGv_i32 arg1, TCGv_i32 arg2)
      if (TCG_TARGET_HAS_andc_i32) {
          tcg_gen_op3_i32(INDEX_op_andc_i32, ret, arg1, arg2);
      } else {
 -        TCGv_i32 t0 = tcg_temp_new_i32();
 +        TCGv_i32 t0 = tcg_temp_ebb_new_i32();
          tcg_gen_not_i32(t0, arg2);
          tcg_gen_and_i32(ret, arg1, t0);
          tcg_temp_free_i32(t0);
@@ -XXX,XX +XXX,XX @@ void tcg_gen_orc_i32(TCGv_i32 ret, TCGv_i32 arg1, TCGv_i32 arg2)
      if (TCG_TARGET_HAS_orc_i32) {
          tcg_gen_op3_i32(INDEX_op_orc_i32, ret, arg1, arg2);
      } else {
 -        TCGv_i32 t0 = tcg_temp_new_i32();
 +        TCGv_i32 t0 = tcg_temp_ebb_new_i32();
          tcg_gen_not_i32(t0, arg2);
          tcg_gen_or_i32(ret, arg1, t0);
          tcg_temp_free_i32(t0);
@@ -XXX,XX +XXX,XX @@ void tcg_gen_clz_i32(TCGv_i32 ret, TCGv_i32 arg1, TCGv_i32 arg2)
      if (TCG_TARGET_HAS_clz_i32) {
          tcg_gen_op3_i32(INDEX_op_clz_i32, ret, arg1, arg2);
      } else if (TCG_TARGET_HAS_clz_i64) {
 -        TCGv_i64 t1 = tcg_temp_new_i64();
 -        TCGv_i64 t2 = tcg_temp_new_i64();
 +        TCGv_i64 t1 = tcg_temp_ebb_new_i64();
 +        TCGv_i64 t2 = tcg_temp_ebb_new_i64();
          tcg_gen_extu_i32_i64(t1, arg1);
          tcg_gen_extu_i32_i64(t2, arg2);
          tcg_gen_addi_i64(t2, t2, 32);
@@ -XXX,XX +XXX,XX @@ void tcg_gen_ctz_i32(TCGv_i32 ret, TCGv_i32 arg1, TCGv_i32 arg2)
      if (TCG_TARGET_HAS_ctz_i32) {
          tcg_gen_op3_i32(INDEX_op_ctz_i32, ret, arg1, arg2);
      } else if (TCG_TARGET_HAS_ctz_i64) {
 -        TCGv_i64 t1 = tcg_temp_new_i64();
 -        TCGv_i64 t2 = tcg_temp_new_i64();
 +        TCGv_i64 t1 = tcg_temp_ebb_new_i64();
 +        TCGv_i64 t2 = tcg_temp_ebb_new_i64();
          tcg_gen_extu_i32_i64(t1, arg1);
          tcg_gen_extu_i32_i64(t2, arg2);
          tcg_gen_ctz_i64(t1, t1, t2);
@@ -XXX,XX +XXX,XX @@ void tcg_gen_ctz_i32(TCGv_i32 ret, TCGv_i32 arg1, TCGv_i32 arg2)
                 || TCG_TARGET_HAS_ctpop_i64
                 || TCG_TARGET_HAS_clz_i32
                 || TCG_TARGET_HAS_clz_i64) {
 -        TCGv_i32 z, t = tcg_temp_new_i32();
 +        TCGv_i32 z, t = tcg_temp_ebb_new_i32();
          if (TCG_TARGET_HAS_ctpop_i32 || TCG_TARGET_HAS_ctpop_i64) {
              tcg_gen_subi_i32(t, arg1, 1);
@@ -XXX,XX +XXX,XX @@ void tcg_gen_ctzi_i32(TCGv_i32 ret, TCGv_i32 arg1, uint32_t arg2)
  {
      if (!TCG_TARGET_HAS_ctz_i32 && TCG_TARGET_HAS_ctpop_i32 && arg2 == 32) {
          /* This equivalence has the advantage of not requiring a fixup.  */
 -        TCGv_i32 t = tcg_temp_new_i32();
 +        TCGv_i32 t = tcg_temp_ebb_new_i32();
          tcg_gen_subi_i32(t, arg1, 1);
          tcg_gen_andc_i32(t, t, arg1);
          tcg_gen_ctpop_i32(ret, t);
@@ -XXX,XX +XXX,XX @@ void tcg_gen_ctzi_i32(TCGv_i32 ret, TCGv_i32 arg1, uint32_t arg2)
  void tcg_gen_clrsb_i32(TCGv_i32 ret, TCGv_i32 arg)
  {
      if (TCG_TARGET_HAS_clz_i32) {
 -        TCGv_i32 t = tcg_temp_new_i32();
 +        TCGv_i32 t = tcg_temp_ebb_new_i32();
          tcg_gen_sari_i32(t, arg, 31);
          tcg_gen_xor_i32(t, t, arg);
          tcg_gen_clzi_i32(t, t, 32);
@@ -XXX,XX +XXX,XX @@ void tcg_gen_ctpop_i32(TCGv_i32 ret, TCGv_i32 arg1)
      if (TCG_TARGET_HAS_ctpop_i32) {
          tcg_gen_op2_i32(INDEX_op_ctpop_i32, ret, arg1);
      } else if (TCG_TARGET_HAS_ctpop_i64) {
 -        TCGv_i64 t = tcg_temp_new_i64();
 +        TCGv_i64 t = tcg_temp_ebb_new_i64();
          tcg_gen_extu_i32_i64(t, arg1);
          tcg_gen_ctpop_i64(t, t);
          tcg_gen_extrl_i64_i32(ret, t);
@@ -XXX,XX +XXX,XX @@ void tcg_gen_rotl_i32(TCGv_i32 ret, TCGv_i32 arg1, TCGv_i32 arg2)
      } else {
          TCGv_i32 t0, t1;
 -        t0 = tcg_temp_new_i32();
 -        t1 = tcg_temp_new_i32();
 +        t0 = tcg_temp_ebb_new_i32();
 +        t1 = tcg_temp_ebb_new_i32();
          tcg_gen_shl_i32(t0, arg1, arg2);
          tcg_gen_subfi_i32(t1, 32, arg2);
          tcg_gen_shr_i32(t1, arg1, t1);
@@ -XXX,XX +XXX,XX @@ void tcg_gen_rotli_i32(TCGv_i32 ret, TCGv_i32 arg1, int32_t arg2)
          tcg_gen_rotl_i32(ret, arg1, tcg_constant_i32(arg2));
      } else {
          TCGv_i32 t0, t1;
 -        t0 = tcg_temp_new_i32();
 -        t1 = tcg_temp_new_i32();
 +        t0 = tcg_temp_ebb_new_i32();
 +        t1 = tcg_temp_ebb_new_i32();
          tcg_gen_shli_i32(t0, arg1, arg2);
          tcg_gen_shri_i32(t1, arg1, 32 - arg2);
          tcg_gen_or_i32(ret, t0, t1);
@@ -XXX,XX +XXX,XX @@ void tcg_gen_rotr_i32(TCGv_i32 ret, TCGv_i32 arg1, TCGv_i32 arg2)
      } else {
          TCGv_i32 t0, t1;
 -        t0 = tcg_temp_new_i32();
 -        t1 = tcg_temp_new_i32();
 +        t0 = tcg_temp_ebb_new_i32();
 +        t1 = tcg_temp_ebb_new_i32();
          tcg_gen_shr_i32(t0, arg1, arg2);
          tcg_gen_subfi_i32(t1, 32, arg2);
          tcg_gen_shl_i32(t1, arg1, t1);
@@ -XXX,XX +XXX,XX @@ void tcg_gen_deposit_i32(TCGv_i32 ret, TCGv_i32 arg1, TCGv_i32 arg2,
          return;
      }
-     if (z_mask == 0) {
+-    t1 = tcg_temp_new_i32();
 +    t1 = tcg_temp_ebb_new_i32();
      if (TCG_TARGET_HAS_extract2_i32) {
          if (ofs + len == 32) {
@@ -XXX,XX +XXX,XX @@ void tcg_gen_extract2_i32(TCGv_i32 ret, TCGv_i32 al, TCGv_i32 ah,
      } else if (TCG_TARGET_HAS_extract2_i32) {
          tcg_gen_op4i_i32(INDEX_op_extract2_i32, ret, al, ah, ofs);
      } else {
 -        TCGv_i32 t0 = tcg_temp_new_i32();
 +        TCGv_i32 t0 = tcg_temp_ebb_new_i32();
          tcg_gen_shri_i32(t0, al, ofs);
          tcg_gen_deposit_i32(ret, t0, ah, 32 - ofs, ofs);
          tcg_temp_free_i32(t0);
@@ -XXX,XX +XXX,XX @@ void tcg_gen_movcond_i32(TCGCond cond, TCGv_i32 ret, TCGv_i32 c1,
      } else if (TCG_TARGET_HAS_movcond_i32) {
          tcg_gen_op6i_i32(INDEX_op_movcond_i32, ret, c1, c2, v1, v2, cond);
      } else {
 -        TCGv_i32 t0 = tcg_temp_new_i32();
 -        TCGv_i32 t1 = tcg_temp_new_i32();
 +        TCGv_i32 t0 = tcg_temp_ebb_new_i32();
 +        TCGv_i32 t1 = tcg_temp_ebb_new_i32();
          tcg_gen_setcond_i32(cond, t0, c1, c2);
          tcg_gen_neg_i32(t0, t0);
          tcg_gen_and_i32(t1, v1, t0);
@@ -XXX,XX +XXX,XX @@ void tcg_gen_add2_i32(TCGv_i32 rl, TCGv_i32 rh, TCGv_i32 al,
      if (TCG_TARGET_HAS_add2_i32) {
          tcg_gen_op6_i32(INDEX_op_add2_i32, rl, rh, al, ah, bl, bh);
      } else {
 -        TCGv_i64 t0 = tcg_temp_new_i64();
 -        TCGv_i64 t1 = tcg_temp_new_i64();
 +        TCGv_i64 t0 = tcg_temp_ebb_new_i64();
 +        TCGv_i64 t1 = tcg_temp_ebb_new_i64();
          tcg_gen_concat_i32_i64(t0, al, ah);
          tcg_gen_concat_i32_i64(t1, bl, bh);
          tcg_gen_add_i64(t0, t0, t1);
@@ -XXX,XX +XXX,XX @@ void tcg_gen_sub2_i32(TCGv_i32 rl, TCGv_i32 rh, TCGv_i32 al,
      if (TCG_TARGET_HAS_sub2_i32) {
          tcg_gen_op6_i32(INDEX_op_sub2_i32, rl, rh, al, ah, bl, bh);
      } else {
 -        TCGv_i64 t0 = tcg_temp_new_i64();
 -        TCGv_i64 t1 = tcg_temp_new_i64();
 +        TCGv_i64 t0 = tcg_temp_ebb_new_i64();
 +        TCGv_i64 t1 = tcg_temp_ebb_new_i64();
          tcg_gen_concat_i32_i64(t0, al, ah);
          tcg_gen_concat_i32_i64(t1, bl, bh);
          tcg_gen_sub_i64(t0, t0, t1);
@@ -XXX,XX +XXX,XX @@ void tcg_gen_mulu2_i32(TCGv_i32 rl, TCGv_i32 rh, TCGv_i32 arg1, TCGv_i32 arg2)
      if (TCG_TARGET_HAS_mulu2_i32) {
          tcg_gen_op4_i32(INDEX_op_mulu2_i32, rl, rh, arg1, arg2);
      } else if (TCG_TARGET_HAS_muluh_i32) {
 -        TCGv_i32 t = tcg_temp_new_i32();
 +        TCGv_i32 t = tcg_temp_ebb_new_i32();
          tcg_gen_op3_i32(INDEX_op_mul_i32, t, arg1, arg2);
          tcg_gen_op3_i32(INDEX_op_muluh_i32, rh, arg1, arg2);
          tcg_gen_mov_i32(rl, t);
          tcg_temp_free_i32(t);
      } else if (TCG_TARGET_REG_BITS == 64) {
 -        TCGv_i64 t0 = tcg_temp_new_i64();
 -        TCGv_i64 t1 = tcg_temp_new_i64();
 +        TCGv_i64 t0 = tcg_temp_ebb_new_i64();
 +        TCGv_i64 t1 = tcg_temp_ebb_new_i64();
          tcg_gen_extu_i32_i64(t0, arg1);
          tcg_gen_extu_i32_i64(t1, arg2);
          tcg_gen_mul_i64(t0, t0, t1);
@@ -XXX,XX +XXX,XX @@ void tcg_gen_muls2_i32(TCGv_i32 rl, TCGv_i32 rh, TCGv_i32 arg1, TCGv_i32 arg2)
      if (TCG_TARGET_HAS_muls2_i32) {
          tcg_gen_op4_i32(INDEX_op_muls2_i32, rl, rh, arg1, arg2);
      } else if (TCG_TARGET_HAS_mulsh_i32) {
 -        TCGv_i32 t = tcg_temp_new_i32();
 +        TCGv_i32 t = tcg_temp_ebb_new_i32();
          tcg_gen_op3_i32(INDEX_op_mul_i32, t, arg1, arg2);
          tcg_gen_op3_i32(INDEX_op_mulsh_i32, rh, arg1, arg2);
          tcg_gen_mov_i32(rl, t);
          tcg_temp_free_i32(t);
      } else if (TCG_TARGET_REG_BITS == 32) {
 -        TCGv_i32 t0 = tcg_temp_new_i32();
 -        TCGv_i32 t1 = tcg_temp_new_i32();
 -        TCGv_i32 t2 = tcg_temp_new_i32();
 -        TCGv_i32 t3 = tcg_temp_new_i32();
 +        TCGv_i32 t0 = tcg_temp_ebb_new_i32();
 +        TCGv_i32 t1 = tcg_temp_ebb_new_i32();
 +        TCGv_i32 t2 = tcg_temp_ebb_new_i32();
 +        TCGv_i32 t3 = tcg_temp_ebb_new_i32();
          tcg_gen_mulu2_i32(t0, t1, arg1, arg2);
          /* Adjust for negative inputs.  */
          tcg_gen_sari_i32(t2, arg1, 31);
@@ -XXX,XX +XXX,XX @@ void tcg_gen_muls2_i32(TCGv_i32 rl, TCGv_i32 rh, TCGv_i32 arg1, TCGv_i32 arg2)
          tcg_temp_free_i32(t2);
          tcg_temp_free_i32(t3);
      } else {
 -        TCGv_i64 t0 = tcg_temp_new_i64();
 -        TCGv_i64 t1 = tcg_temp_new_i64();
 +        TCGv_i64 t0 = tcg_temp_ebb_new_i64();
 +        TCGv_i64 t1 = tcg_temp_ebb_new_i64();
          tcg_gen_ext_i32_i64(t0, arg1);
          tcg_gen_ext_i32_i64(t1, arg2);
          tcg_gen_mul_i64(t0, t0, t1);
@@ -XXX,XX +XXX,XX @@ void tcg_gen_muls2_i32(TCGv_i32 rl, TCGv_i32 rh, TCGv_i32 arg1, TCGv_i32 arg2)
  void tcg_gen_mulsu2_i32(TCGv_i32 rl, TCGv_i32 rh, TCGv_i32 arg1, TCGv_i32 arg2)
  {
      if (TCG_TARGET_REG_BITS == 32) {
 -        TCGv_i32 t0 = tcg_temp_new_i32();
 -        TCGv_i32 t1 = tcg_temp_new_i32();
 -        TCGv_i32 t2 = tcg_temp_new_i32();
 +        TCGv_i32 t0 = tcg_temp_ebb_new_i32();
 +        TCGv_i32 t1 = tcg_temp_ebb_new_i32();
 +        TCGv_i32 t2 = tcg_temp_ebb_new_i32();
          tcg_gen_mulu2_i32(t0, t1, arg1, arg2);
          /* Adjust for negative input for the signed arg1.  */
          tcg_gen_sari_i32(t2, arg1, 31);
@@ -XXX,XX +XXX,XX @@ void tcg_gen_mulsu2_i32(TCGv_i32 rl, TCGv_i32 rh, TCGv_i32 arg1, TCGv_i32 arg2)
          tcg_temp_free_i32(t1);
          tcg_temp_free_i32(t2);
      } else {
 -        TCGv_i64 t0 = tcg_temp_new_i64();
 -        TCGv_i64 t1 = tcg_temp_new_i64();
 +        TCGv_i64 t0 = tcg_temp_ebb_new_i64();
 +        TCGv_i64 t1 = tcg_temp_ebb_new_i64();
          tcg_gen_ext_i32_i64(t0, arg1);
          tcg_gen_extu_i32_i64(t1, arg2);
          tcg_gen_mul_i64(t0, t0, t1);
@@ -XXX,XX +XXX,XX @@ void tcg_gen_bswap16_i32(TCGv_i32 ret, TCGv_i32 arg, int flags)
      if (TCG_TARGET_HAS_bswap16_i32) {
          tcg_gen_op3i_i32(INDEX_op_bswap16_i32, ret, arg, flags);
      } else {
 -        TCGv_i32 t0 = tcg_temp_new_i32();
 -        TCGv_i32 t1 = tcg_temp_new_i32();
 +        TCGv_i32 t0 = tcg_temp_ebb_new_i32();
 +        TCGv_i32 t1 = tcg_temp_ebb_new_i32();
          tcg_gen_shri_i32(t0, arg, 8);
          if (!(flags & TCG_BSWAP_IZ)) {
@@ -XXX,XX +XXX,XX @@ void tcg_gen_bswap32_i32(TCGv_i32 ret, TCGv_i32 arg)
      if (TCG_TARGET_HAS_bswap32_i32) {
          tcg_gen_op3i_i32(INDEX_op_bswap32_i32, ret, arg, 0);
      } else {
 -        TCGv_i32 t0 = tcg_temp_new_i32();
 -        TCGv_i32 t1 = tcg_temp_new_i32();
 +        TCGv_i32 t0 = tcg_temp_ebb_new_i32();
 +        TCGv_i32 t1 = tcg_temp_ebb_new_i32();
          TCGv_i32 t2 = tcg_constant_i32(0x00ff00ff);
                                          /* arg = abcd */
@@ -XXX,XX +XXX,XX @@ void tcg_gen_umax_i32(TCGv_i32 ret, TCGv_i32 a, TCGv_i32 b)
  void tcg_gen_abs_i32(TCGv_i32 ret, TCGv_i32 a)
  {
 -    TCGv_i32 t = tcg_temp_new_i32();
 +    TCGv_i32 t = tcg_temp_ebb_new_i32();
      tcg_gen_sari_i32(t, a, 31);
      tcg_gen_xor_i32(ret, a, t);
@@ -XXX,XX +XXX,XX @@ void tcg_gen_mul_i64(TCGv_i64 ret, TCGv_i64 arg1, TCGv_i64 arg2)
      TCGv_i64 t0;
      TCGv_i32 t1;
 -    t0 = tcg_temp_new_i64();
 -    t1 = tcg_temp_new_i32();
 +    t0 = tcg_temp_ebb_new_i64();
 +    t1 = tcg_temp_ebb_new_i32();
      tcg_gen_mulu2_i32(TCGV_LOW(t0), TCGV_HIGH(t0),
                        TCGV_LOW(arg1), TCGV_LOW(arg2));
@@ -XXX,XX +XXX,XX @@ static inline void tcg_gen_shifti_i64(TCGv_i64 ret, TCGv_i64 arg1,
              tcg_gen_extract2_i32(TCGV_HIGH(ret),
                                   TCGV_LOW(arg1), TCGV_HIGH(arg1), 32 - c);
          } else {
 -            TCGv_i32 t0 = tcg_temp_new_i32();
 +            TCGv_i32 t0 = tcg_temp_ebb_new_i32();
              tcg_gen_shri_i32(t0, TCGV_LOW(arg1), 32 - c);
              tcg_gen_deposit_i32(TCGV_HIGH(ret), t0,
                                  TCGV_HIGH(arg1), c, 32 - c);
@@ -XXX,XX +XXX,XX @@ void tcg_gen_div_i64(TCGv_i64 ret, TCGv_i64 arg1, TCGv_i64 arg2)
      if (TCG_TARGET_HAS_div_i64) {
          tcg_gen_op3_i64(INDEX_op_div_i64, ret, arg1, arg2);
      } else if (TCG_TARGET_HAS_div2_i64) {
 -        TCGv_i64 t0 = tcg_temp_new_i64();
 +        TCGv_i64 t0 = tcg_temp_ebb_new_i64();
          tcg_gen_sari_i64(t0, arg1, 63);
          tcg_gen_op5_i64(INDEX_op_div2_i64, ret, t0, arg1, t0, arg2);
          tcg_temp_free_i64(t0);
@@ -XXX,XX +XXX,XX @@ void tcg_gen_rem_i64(TCGv_i64 ret, TCGv_i64 arg1, TCGv_i64 arg2)
      if (TCG_TARGET_HAS_rem_i64) {
          tcg_gen_op3_i64(INDEX_op_rem_i64, ret, arg1, arg2);
      } else if (TCG_TARGET_HAS_div_i64) {
 -        TCGv_i64 t0 = tcg_temp_new_i64();
 +        TCGv_i64 t0 = tcg_temp_ebb_new_i64();
          tcg_gen_op3_i64(INDEX_op_div_i64, t0, arg1, arg2);
          tcg_gen_mul_i64(t0, t0, arg2);
          tcg_gen_sub_i64(ret, arg1, t0);
          tcg_temp_free_i64(t0);
      } else if (TCG_TARGET_HAS_div2_i64) {
 -        TCGv_i64 t0 = tcg_temp_new_i64();
 +        TCGv_i64 t0 = tcg_temp_ebb_new_i64();
          tcg_gen_sari_i64(t0, arg1, 63);
          tcg_gen_op5_i64(INDEX_op_div2_i64, t0, ret, arg1, t0, arg2);
          tcg_temp_free_i64(t0);
@@ -XXX,XX +XXX,XX @@ void tcg_gen_divu_i64(TCGv_i64 ret, TCGv_i64 arg1, TCGv_i64 arg2)
      if (TCG_TARGET_HAS_div_i64) {
          tcg_gen_op3_i64(INDEX_op_divu_i64, ret, arg1, arg2);
      } else if (TCG_TARGET_HAS_div2_i64) {
 -        TCGv_i64 t0 = tcg_temp_new_i64();
 +        TCGv_i64 t0 = tcg_temp_ebb_new_i64();
          tcg_gen_movi_i64(t0, 0);
          tcg_gen_op5_i64(INDEX_op_divu2_i64, ret, t0, arg1, t0, arg2);
          tcg_temp_free_i64(t0);
@@ -XXX,XX +XXX,XX @@ void tcg_gen_remu_i64(TCGv_i64 ret, TCGv_i64 arg1, TCGv_i64 arg2)
      if (TCG_TARGET_HAS_rem_i64) {
          tcg_gen_op3_i64(INDEX_op_remu_i64, ret, arg1, arg2);
      } else if (TCG_TARGET_HAS_div_i64) {
 -        TCGv_i64 t0 = tcg_temp_new_i64();
 +        TCGv_i64 t0 = tcg_temp_ebb_new_i64();
          tcg_gen_op3_i64(INDEX_op_divu_i64, t0, arg1, arg2);
          tcg_gen_mul_i64(t0, t0, arg2);
          tcg_gen_sub_i64(ret, arg1, t0);
          tcg_temp_free_i64(t0);
      } else if (TCG_TARGET_HAS_div2_i64) {
 -        TCGv_i64 t0 = tcg_temp_new_i64();
 +        TCGv_i64 t0 = tcg_temp_ebb_new_i64();
          tcg_gen_movi_i64(t0, 0);
          tcg_gen_op5_i64(INDEX_op_divu2_i64, t0, ret, arg1, t0, arg2);
          tcg_temp_free_i64(t0);
@@ -XXX,XX +XXX,XX @@ void tcg_gen_bswap16_i64(TCGv_i64 ret, TCGv_i64 arg, int flags)
      } else if (TCG_TARGET_HAS_bswap16_i64) {
          tcg_gen_op3i_i64(INDEX_op_bswap16_i64, ret, arg, flags);
      } else {
 -        TCGv_i64 t0 = tcg_temp_new_i64();
 -        TCGv_i64 t1 = tcg_temp_new_i64();
 +        TCGv_i64 t0 = tcg_temp_ebb_new_i64();
 +        TCGv_i64 t1 = tcg_temp_ebb_new_i64();
          tcg_gen_shri_i64(t0, arg, 8);
          if (!(flags & TCG_BSWAP_IZ)) {
@@ -XXX,XX +XXX,XX @@ void tcg_gen_bswap32_i64(TCGv_i64 ret, TCGv_i64 arg, int flags)
      } else if (TCG_TARGET_HAS_bswap32_i64) {
          tcg_gen_op3i_i64(INDEX_op_bswap32_i64, ret, arg, flags);
      } else {
 -        TCGv_i64 t0 = tcg_temp_new_i64();
 -        TCGv_i64 t1 = tcg_temp_new_i64();
 +        TCGv_i64 t0 = tcg_temp_ebb_new_i64();
 +        TCGv_i64 t1 = tcg_temp_ebb_new_i64();
          TCGv_i64 t2 = tcg_constant_i64(0x00ff00ff);
                                              /* arg = xxxxabcd */
@@ -XXX,XX +XXX,XX @@ void tcg_gen_bswap64_i64(TCGv_i64 ret, TCGv_i64 arg)
  {
      if (TCG_TARGET_REG_BITS == 32) {
          TCGv_i32 t0, t1;
 -        t0 = tcg_temp_new_i32();
 -        t1 = tcg_temp_new_i32();
 +        t0 = tcg_temp_ebb_new_i32();
 +        t1 = tcg_temp_ebb_new_i32();
          tcg_gen_bswap32_i32(t0, TCGV_LOW(arg));
          tcg_gen_bswap32_i32(t1, TCGV_HIGH(arg));
@@ -XXX,XX +XXX,XX @@ void tcg_gen_bswap64_i64(TCGv_i64 ret, TCGv_i64 arg)
      } else if (TCG_TARGET_HAS_bswap64_i64) {
          tcg_gen_op3i_i64(INDEX_op_bswap64_i64, ret, arg, 0);
      } else {
 -        TCGv_i64 t0 = tcg_temp_new_i64();
 -        TCGv_i64 t1 = tcg_temp_new_i64();
 -        TCGv_i64 t2 = tcg_temp_new_i64();
 +        TCGv_i64 t0 = tcg_temp_ebb_new_i64();
 +        TCGv_i64 t1 = tcg_temp_ebb_new_i64();
 +        TCGv_i64 t2 = tcg_temp_ebb_new_i64();
                                          /* arg = abcdefgh */
          tcg_gen_movi_i64(t2, 0x00ff00ff00ff00ffull);
@@ -XXX,XX +XXX,XX @@ void tcg_gen_bswap64_i64(TCGv_i64 ret, TCGv_i64 arg)
  void tcg_gen_hswap_i64(TCGv_i64 ret, TCGv_i64 arg)
  {
      uint64_t m = 0x0000ffff0000ffffull;
 -    TCGv_i64 t0 = tcg_temp_new_i64();
 -    TCGv_i64 t1 = tcg_temp_new_i64();
 +    TCGv_i64 t0 = tcg_temp_ebb_new_i64();
 +    TCGv_i64 t1 = tcg_temp_ebb_new_i64();
      /* See include/qemu/bitops.h, hswap64. */
      tcg_gen_rotli_i64(t1, arg, 32);
@@ -XXX,XX +XXX,XX @@ void tcg_gen_andc_i64(TCGv_i64 ret, TCGv_i64 arg1, TCGv_i64 arg2)
      } else if (TCG_TARGET_HAS_andc_i64) {
          tcg_gen_op3_i64(INDEX_op_andc_i64, ret, arg1, arg2);
      } else {
 -        TCGv_i64 t0 = tcg_temp_new_i64();
 +        TCGv_i64 t0 = tcg_temp_ebb_new_i64();
          tcg_gen_not_i64(t0, arg2);
          tcg_gen_and_i64(ret, arg1, t0);
          tcg_temp_free_i64(t0);
@@ -XXX,XX +XXX,XX @@ void tcg_gen_orc_i64(TCGv_i64 ret, TCGv_i64 arg1, TCGv_i64 arg2)
      } else if (TCG_TARGET_HAS_orc_i64) {
          tcg_gen_op3_i64(INDEX_op_orc_i64, ret, arg1, arg2);
      } else {
 -        TCGv_i64 t0 = tcg_temp_new_i64();
 +        TCGv_i64 t0 = tcg_temp_ebb_new_i64();
          tcg_gen_not_i64(t0, arg2);
          tcg_gen_or_i64(ret, arg1, t0);
          tcg_temp_free_i64(t0);
@@ -XXX,XX +XXX,XX @@ void tcg_gen_clzi_i64(TCGv_i64 ret, TCGv_i64 arg1, uint64_t arg2)
      if (TCG_TARGET_REG_BITS == 32
          && TCG_TARGET_HAS_clz_i32
          && arg2 <= 0xffffffffu) {
 -        TCGv_i32 t = tcg_temp_new_i32();
 +        TCGv_i32 t = tcg_temp_ebb_new_i32();
          tcg_gen_clzi_i32(t, TCGV_LOW(arg1), arg2 - 32);
          tcg_gen_addi_i32(t, t, 32);
          tcg_gen_clz_i32(TCGV_LOW(ret), TCGV_HIGH(arg1), t);
@@ -XXX,XX +XXX,XX @@ void tcg_gen_ctz_i64(TCGv_i64 ret, TCGv_i64 arg1, TCGv_i64 arg2)
      if (TCG_TARGET_HAS_ctz_i64) {
          tcg_gen_op3_i64(INDEX_op_ctz_i64, ret, arg1, arg2);
      } else if (TCG_TARGET_HAS_ctpop_i64 || TCG_TARGET_HAS_clz_i64) {
 -        TCGv_i64 z, t = tcg_temp_new_i64();
 +        TCGv_i64 z, t = tcg_temp_ebb_new_i64();
          if (TCG_TARGET_HAS_ctpop_i64) {
              tcg_gen_subi_i64(t, arg1, 1);
@@ -XXX,XX +XXX,XX @@ void tcg_gen_ctzi_i64(TCGv_i64 ret, TCGv_i64 arg1, uint64_t arg2)
      if (TCG_TARGET_REG_BITS == 32
          && TCG_TARGET_HAS_ctz_i32
          && arg2 <= 0xffffffffu) {
 -        TCGv_i32 t32 = tcg_temp_new_i32();
 +        TCGv_i32 t32 = tcg_temp_ebb_new_i32();
          tcg_gen_ctzi_i32(t32, TCGV_HIGH(arg1), arg2 - 32);
          tcg_gen_addi_i32(t32, t32, 32);
          tcg_gen_ctz_i32(TCGV_LOW(ret), TCGV_LOW(arg1), t32);
@@ -XXX,XX +XXX,XX @@ void tcg_gen_ctzi_i64(TCGv_i64 ret, TCGv_i64 arg1, uint64_t arg2)
                 && TCG_TARGET_HAS_ctpop_i64
                 && arg2 == 64) {
          /* This equivalence has the advantage of not requiring a fixup.  */
 -        TCGv_i64 t = tcg_temp_new_i64();
 +        TCGv_i64 t = tcg_temp_ebb_new_i64();
          tcg_gen_subi_i64(t, arg1, 1);
          tcg_gen_andc_i64(t, t, arg1);
          tcg_gen_ctpop_i64(ret, t);
@@ -XXX,XX +XXX,XX @@ void tcg_gen_ctzi_i64(TCGv_i64 ret, TCGv_i64 arg1, uint64_t arg2)
  void tcg_gen_clrsb_i64(TCGv_i64 ret, TCGv_i64 arg)
  {
      if (TCG_TARGET_HAS_clz_i64 || TCG_TARGET_HAS_clz_i32) {
 -        TCGv_i64 t = tcg_temp_new_i64();
 +        TCGv_i64 t = tcg_temp_ebb_new_i64();
          tcg_gen_sari_i64(t, arg, 63);
          tcg_gen_xor_i64(t, t, arg);
          tcg_gen_clzi_i64(t, t, 64);
@@ -XXX,XX +XXX,XX @@ void tcg_gen_rotl_i64(TCGv_i64 ret, TCGv_i64 arg1, TCGv_i64 arg2)
          tcg_gen_op3_i64(INDEX_op_rotl_i64, ret, arg1, arg2);
      } else {
          TCGv_i64 t0, t1;
 -        t0 = tcg_temp_new_i64();
 -        t1 = tcg_temp_new_i64();
 +        t0 = tcg_temp_ebb_new_i64();
 +        t1 = tcg_temp_ebb_new_i64();
          tcg_gen_shl_i64(t0, arg1, arg2);
          tcg_gen_subfi_i64(t1, 64, arg2);
          tcg_gen_shr_i64(t1, arg1, t1);
@@ -XXX,XX +XXX,XX @@ void tcg_gen_rotli_i64(TCGv_i64 ret, TCGv_i64 arg1, int64_t arg2)
          tcg_gen_rotl_i64(ret, arg1, tcg_constant_i64(arg2));
      } else {
          TCGv_i64 t0, t1;
 -        t0 = tcg_temp_new_i64();
 -        t1 = tcg_temp_new_i64();
 +        t0 = tcg_temp_ebb_new_i64();
 +        t1 = tcg_temp_ebb_new_i64();
          tcg_gen_shli_i64(t0, arg1, arg2);
          tcg_gen_shri_i64(t1, arg1, 64 - arg2);
          tcg_gen_or_i64(ret, t0, t1);
@@ -XXX,XX +XXX,XX @@ void tcg_gen_rotr_i64(TCGv_i64 ret, TCGv_i64 arg1, TCGv_i64 arg2)
          tcg_gen_op3_i64(INDEX_op_rotr_i64, ret, arg1, arg2);
      } else {
          TCGv_i64 t0, t1;
 -        t0 = tcg_temp_new_i64();
 -        t1 = tcg_temp_new_i64();
 +        t0 = tcg_temp_ebb_new_i64();
 +        t1 = tcg_temp_ebb_new_i64();
          tcg_gen_shr_i64(t0, arg1, arg2);
          tcg_gen_subfi_i64(t1, 64, arg2);
          tcg_gen_shl_i64(t1, arg1, t1);
@@ -XXX,XX +XXX,XX @@ void tcg_gen_deposit_i64(TCGv_i64 ret, TCGv_i64 arg1, TCGv_i64 arg2,
          }
      }
 -    t1 = tcg_temp_new_i64();
 +    t1 = tcg_temp_ebb_new_i64();
      if (TCG_TARGET_HAS_extract2_i64) {
          if (ofs + len == 64) {
@@ -XXX,XX +XXX,XX @@ void tcg_gen_sextract_i64(TCGv_i64 ret, TCGv_i64 arg,
              tcg_gen_sextract_i32(TCGV_HIGH(ret), TCGV_HIGH(arg), 0, len - 32);
              return;
          } else if (len > 32) {
 -            TCGv_i32 t = tcg_temp_new_i32();
 +            TCGv_i32 t = tcg_temp_ebb_new_i32();
              /* Extract the bits for the high word normally.  */
              tcg_gen_sextract_i32(t, TCGV_HIGH(arg), ofs + 32, len - 32);
              /* Shift the field down for the low part.  */
@@ -XXX,XX +XXX,XX @@ void tcg_gen_extract2_i64(TCGv_i64 ret, TCGv_i64 al, TCGv_i64 ah,
      } else if (TCG_TARGET_HAS_extract2_i64) {
          tcg_gen_op4i_i64(INDEX_op_extract2_i64, ret, al, ah, ofs);
      } else {
 -        TCGv_i64 t0 = tcg_temp_new_i64();
 +        TCGv_i64 t0 = tcg_temp_ebb_new_i64();
          tcg_gen_shri_i64(t0, al, ofs);
          tcg_gen_deposit_i64(ret, t0, ah, 64 - ofs, ofs);
          tcg_temp_free_i64(t0);
@@ -XXX,XX +XXX,XX @@ void tcg_gen_movcond_i64(TCGCond cond, TCGv_i64 ret, TCGv_i64 c1,
      } else if (cond == TCG_COND_NEVER) {
          tcg_gen_mov_i64(ret, v2);
      } else if (TCG_TARGET_REG_BITS == 32) {
 -        TCGv_i32 t0 = tcg_temp_new_i32();
 -        TCGv_i32 t1 = tcg_temp_new_i32();
 +        TCGv_i32 t0 = tcg_temp_ebb_new_i32();
 +        TCGv_i32 t1 = tcg_temp_ebb_new_i32();
          tcg_gen_op6i_i32(INDEX_op_setcond2_i32, t0,
                           TCGV_LOW(c1), TCGV_HIGH(c1),
                           TCGV_LOW(c2), TCGV_HIGH(c2), cond);
@@ -XXX,XX +XXX,XX @@ void tcg_gen_movcond_i64(TCGCond cond, TCGv_i64 ret, TCGv_i64 c1,
      } else if (TCG_TARGET_HAS_movcond_i64) {
          tcg_gen_op6i_i64(INDEX_op_movcond_i64, ret, c1, c2, v1, v2, cond);
      } else {
 -        TCGv_i64 t0 = tcg_temp_new_i64();
 -        TCGv_i64 t1 = tcg_temp_new_i64();
 +        TCGv_i64 t0 = tcg_temp_ebb_new_i64();
 +        TCGv_i64 t1 = tcg_temp_ebb_new_i64();
          tcg_gen_setcond_i64(cond, t0, c1, c2);
          tcg_gen_neg_i64(t0, t0);
          tcg_gen_and_i64(t1, v1, t0);
@@ -XXX,XX +XXX,XX @@ void tcg_gen_add2_i64(TCGv_i64 rl, TCGv_i64 rh, TCGv_i64 al,
      if (TCG_TARGET_HAS_add2_i64) {
          tcg_gen_op6_i64(INDEX_op_add2_i64, rl, rh, al, ah, bl, bh);
      } else {
 -        TCGv_i64 t0 = tcg_temp_new_i64();
 -        TCGv_i64 t1 = tcg_temp_new_i64();
 +        TCGv_i64 t0 = tcg_temp_ebb_new_i64();
 +        TCGv_i64 t1 = tcg_temp_ebb_new_i64();
          tcg_gen_add_i64(t0, al, bl);
          tcg_gen_setcond_i64(TCG_COND_LTU, t1, t0, al);
          tcg_gen_add_i64(rh, ah, bh);
@@ -XXX,XX +XXX,XX @@ void tcg_gen_sub2_i64(TCGv_i64 rl, TCGv_i64 rh, TCGv_i64 al,
      if (TCG_TARGET_HAS_sub2_i64) {
          tcg_gen_op6_i64(INDEX_op_sub2_i64, rl, rh, al, ah, bl, bh);
      } else {
 -        TCGv_i64 t0 = tcg_temp_new_i64();
 -        TCGv_i64 t1 = tcg_temp_new_i64();
 +        TCGv_i64 t0 = tcg_temp_ebb_new_i64();
 +        TCGv_i64 t1 = tcg_temp_ebb_new_i64();
          tcg_gen_sub_i64(t0, al, bl);
          tcg_gen_setcond_i64(TCG_COND_LTU, t1, al, bl);
          tcg_gen_sub_i64(rh, ah, bh);
@@ -XXX,XX +XXX,XX @@ void tcg_gen_mulu2_i64(TCGv_i64 rl, TCGv_i64 rh, TCGv_i64 arg1, TCGv_i64 arg2)
      if (TCG_TARGET_HAS_mulu2_i64) {
          tcg_gen_op4_i64(INDEX_op_mulu2_i64, rl, rh, arg1, arg2);
      } else if (TCG_TARGET_HAS_muluh_i64) {
 -        TCGv_i64 t = tcg_temp_new_i64();
 +        TCGv_i64 t = tcg_temp_ebb_new_i64();
          tcg_gen_op3_i64(INDEX_op_mul_i64, t, arg1, arg2);
          tcg_gen_op3_i64(INDEX_op_muluh_i64, rh, arg1, arg2);
          tcg_gen_mov_i64(rl, t);
          tcg_temp_free_i64(t);
      } else {
 -        TCGv_i64 t0 = tcg_temp_new_i64();
 +        TCGv_i64 t0 = tcg_temp_ebb_new_i64();
          tcg_gen_mul_i64(t0, arg1, arg2);
          gen_helper_muluh_i64(rh, arg1, arg2);
          tcg_gen_mov_i64(rl, t0);
@@ -XXX,XX +XXX,XX @@ void tcg_gen_muls2_i64(TCGv_i64 rl, TCGv_i64 rh, TCGv_i64 arg1, TCGv_i64 arg2)
      if (TCG_TARGET_HAS_muls2_i64) {
          tcg_gen_op4_i64(INDEX_op_muls2_i64, rl, rh, arg1, arg2);
      } else if (TCG_TARGET_HAS_mulsh_i64) {
 -        TCGv_i64 t = tcg_temp_new_i64();
 +        TCGv_i64 t = tcg_temp_ebb_new_i64();
          tcg_gen_op3_i64(INDEX_op_mul_i64, t, arg1, arg2);
          tcg_gen_op3_i64(INDEX_op_mulsh_i64, rh, arg1, arg2);
          tcg_gen_mov_i64(rl, t);
          tcg_temp_free_i64(t);
      } else if (TCG_TARGET_HAS_mulu2_i64 || TCG_TARGET_HAS_muluh_i64) {
 -        TCGv_i64 t0 = tcg_temp_new_i64();
 -        TCGv_i64 t1 = tcg_temp_new_i64();
 -        TCGv_i64 t2 = tcg_temp_new_i64();
 -        TCGv_i64 t3 = tcg_temp_new_i64();
 +        TCGv_i64 t0 = tcg_temp_ebb_new_i64();
 +        TCGv_i64 t1 = tcg_temp_ebb_new_i64();
 +        TCGv_i64 t2 = tcg_temp_ebb_new_i64();
 +        TCGv_i64 t3 = tcg_temp_ebb_new_i64();
          tcg_gen_mulu2_i64(t0, t1, arg1, arg2);
          /* Adjust for negative inputs.  */
          tcg_gen_sari_i64(t2, arg1, 63);
@@ -XXX,XX +XXX,XX @@ void tcg_gen_muls2_i64(TCGv_i64 rl, TCGv_i64 rh, TCGv_i64 arg1, TCGv_i64 arg2)
          tcg_temp_free_i64(t2);
          tcg_temp_free_i64(t3);
      } else {
 -        TCGv_i64 t0 = tcg_temp_new_i64();
 +        TCGv_i64 t0 = tcg_temp_ebb_new_i64();
          tcg_gen_mul_i64(t0, arg1, arg2);
          gen_helper_mulsh_i64(rh, arg1, arg2);
          tcg_gen_mov_i64(rl, t0);
@@ -XXX,XX +XXX,XX @@ void tcg_gen_muls2_i64(TCGv_i64 rl, TCGv_i64 rh, TCGv_i64 arg1, TCGv_i64 arg2)
  void tcg_gen_mulsu2_i64(TCGv_i64 rl, TCGv_i64 rh, TCGv_i64 arg1, TCGv_i64 arg2)
  {
 -    TCGv_i64 t0 = tcg_temp_new_i64();
 -    TCGv_i64 t1 = tcg_temp_new_i64();
 -    TCGv_i64 t2 = tcg_temp_new_i64();
 +    TCGv_i64 t0 = tcg_temp_ebb_new_i64();
 +    TCGv_i64 t1 = tcg_temp_ebb_new_i64();
 +    TCGv_i64 t2 = tcg_temp_ebb_new_i64();
      tcg_gen_mulu2_i64(t0, t1, arg1, arg2);
      /* Adjust for negative input for the signed arg1.  */
      tcg_gen_sari_i64(t2, arg1, 63);
@@ -XXX,XX +XXX,XX @@ void tcg_gen_umax_i64(TCGv_i64 ret, TCGv_i64 a, TCGv_i64 b)
  void tcg_gen_abs_i64(TCGv_i64 ret, TCGv_i64 a)
  {
 -    TCGv_i64 t = tcg_temp_new_i64();
 +    TCGv_i64 t = tcg_temp_ebb_new_i64();
      tcg_gen_sari_i64(t, a, 63);
      tcg_gen_xor_i64(ret, a, t);
@@ -XXX,XX +XXX,XX @@ void tcg_gen_extrh_i64_i32(TCGv_i32 ret, TCGv_i64 arg)
          tcg_gen_op2(INDEX_op_extrh_i64_i32,
                      tcgv_i32_arg(ret), tcgv_i64_arg(arg));
      } else {
 -        TCGv_i64 t = tcg_temp_new_i64();
 +        TCGv_i64 t = tcg_temp_ebb_new_i64();
          tcg_gen_shri_i64(t, arg, 32);
          tcg_gen_mov_i32(ret, (TCGv_i32)t);
          tcg_temp_free_i64(t);
@@ -XXX,XX +XXX,XX @@ void tcg_gen_concat_i32_i64(TCGv_i64 dest, TCGv_i32 low, TCGv_i32 high)
          return;
      }
 -    tmp = tcg_temp_new_i64();
 +    tmp = tcg_temp_ebb_new_i64();
      /* These extensions are only needed for type correctness.
         We may be able to do better given target specific information.  */
      tcg_gen_extu_i32_i64(tmp, high);
@@ -XXX,XX +XXX,XX @@ void tcg_gen_lookup_and_goto_ptr(void)
      }
      plugin_gen_disable_mem_helpers();
 -    ptr = tcg_temp_new_ptr();
 +    ptr = tcg_temp_ebb_new_ptr();
      gen_helper_lookup_tb_ptr(ptr, cpu_env);
      tcg_gen_op1i(INDEX_op_goto_ptr, tcgv_ptr_arg(ptr));
      tcg_temp_free_ptr(ptr);
@@ -XXX,XX +XXX,XX @@ void tcg_gen_qemu_st_i32(TCGv_i32 val, TCGv addr, TCGArg idx, MemOp memop)
      oi = make_memop_idx(memop, idx);
      if (!TCG_TARGET_HAS_MEMORY_BSWAP && (memop & MO_BSWAP)) {
 -        swap = tcg_temp_new_i32();
 +        swap = tcg_temp_ebb_new_i32();
          switch (memop & MO_SIZE) {
          case MO_16:
              tcg_gen_bswap16_i32(swap, val, 0);
@@ -XXX,XX +XXX,XX @@ void tcg_gen_qemu_st_i64(TCGv_i64 val, TCGv addr, TCGArg idx, MemOp memop)
      oi = make_memop_idx(memop, idx);
      if (!TCG_TARGET_HAS_MEMORY_BSWAP && (memop & MO_BSWAP)) {
 -        swap = tcg_temp_new_i64();
 +        swap = tcg_temp_ebb_new_i64();
          switch (memop & MO_SIZE) {
          case MO_16:
              tcg_gen_bswap16_i64(swap, val, 0);
@@ -XXX,XX +XXX,XX @@ void tcg_gen_qemu_st_i128(TCGv_i128 val, TCGv addr, TCGArg idx, MemOp memop)
      addr_p8 = tcg_temp_new();
      if ((mop[0] ^ memop) & MO_BSWAP) {
 -        TCGv_i64 t = tcg_temp_new_i64();
 +        TCGv_i64 t = tcg_temp_ebb_new_i64();
          tcg_gen_bswap64_i64(t, x);
          gen_ldst_i64(INDEX_op_qemu_st_i64, t, addr, mop[0], idx);
@@ -XXX,XX +XXX,XX @@ static void * const table_cmpxchg[(MO_SIZE | MO_BSWAP) + 1] = {
  void tcg_gen_nonatomic_cmpxchg_i32(TCGv_i32 retv, TCGv addr, TCGv_i32 cmpv,
                                     TCGv_i32 newv, TCGArg idx, MemOp memop)
  {
 -    TCGv_i32 t1 = tcg_temp_new_i32();
 -    TCGv_i32 t2 = tcg_temp_new_i32();
 +    TCGv_i32 t1 = tcg_temp_ebb_new_i32();
 +    TCGv_i32 t2 = tcg_temp_ebb_new_i32();
      tcg_gen_ext_i32(t2, cmpv, memop & MO_SIZE);
@@ -XXX,XX +XXX,XX @@ void tcg_gen_nonatomic_cmpxchg_i64(TCGv_i64 retv, TCGv addr, TCGv_i64 cmpv,
          return;
      }
 -    t1 = tcg_temp_new_i64();
 -    t2 = tcg_temp_new_i64();
 +    t1 = tcg_temp_ebb_new_i64();
 +    t2 = tcg_temp_ebb_new_i64();
      tcg_gen_ext_i64(t2, cmpv, memop & MO_SIZE);
@@ -XXX,XX +XXX,XX @@ void tcg_gen_atomic_cmpxchg_i64(TCGv_i64 retv, TCGv addr, TCGv_i64 cmpv,
              tcg_gen_movi_i32(TCGV_HIGH(retv), 0);
          }
      } else {
 -        TCGv_i32 c32 = tcg_temp_new_i32();
 -        TCGv_i32 n32 = tcg_temp_new_i32();
 -        TCGv_i32 r32 = tcg_temp_new_i32();
 +        TCGv_i32 c32 = tcg_temp_ebb_new_i32();
 +        TCGv_i32 n32 = tcg_temp_ebb_new_i32();
 +        TCGv_i32 r32 = tcg_temp_ebb_new_i32();
          tcg_gen_extrl_i64_i32(c32, cmpv);
          tcg_gen_extrl_i64_i32(n32, newv);
@@ -XXX,XX +XXX,XX @@ void tcg_gen_nonatomic_cmpxchg_i128(TCGv_i128 retv, TCGv addr, TCGv_i128 cmpv,
          gen(retv, cpu_env, addr, cmpv, newv, tcg_constant_i32(oi));
      } else {
 -        TCGv_i128 oldv = tcg_temp_new_i128();
 -        TCGv_i128 tmpv = tcg_temp_new_i128();
 -        TCGv_i64 t0 = tcg_temp_new_i64();
 -        TCGv_i64 t1 = tcg_temp_new_i64();
 +        TCGv_i128 oldv = tcg_temp_ebb_new_i128();
 +        TCGv_i128 tmpv = tcg_temp_ebb_new_i128();
 +        TCGv_i64 t0 = tcg_temp_ebb_new_i64();
 +        TCGv_i64 t1 = tcg_temp_ebb_new_i64();
          TCGv_i64 z = tcg_constant_i64(0);
          tcg_gen_qemu_ld_i128(oldv, addr, idx, memop);
@@ -XXX,XX +XXX,XX @@ static void do_nonatomic_op_i32(TCGv_i32 ret, TCGv addr, TCGv_i32 val,
                                  TCGArg idx, MemOp memop, bool new_val,
                                  void (*gen)(TCGv_i32, TCGv_i32, TCGv_i32))
  {
 -    TCGv_i32 t1 = tcg_temp_new_i32();
 -    TCGv_i32 t2 = tcg_temp_new_i32();
 +    TCGv_i32 t1 = tcg_temp_ebb_new_i32();
 +    TCGv_i32 t2 = tcg_temp_ebb_new_i32();
      memop = tcg_canonicalize_memop(memop, 0, 0);
@@ -XXX,XX +XXX,XX @@ static void do_nonatomic_op_i64(TCGv_i64 ret, TCGv addr, TCGv_i64 val,
                                  TCGArg idx, MemOp memop, bool new_val,
                                  void (*gen)(TCGv_i64, TCGv_i64, TCGv_i64))
  {
 -    TCGv_i64 t1 = tcg_temp_new_i64();
 -    TCGv_i64 t2 = tcg_temp_new_i64();
 +    TCGv_i64 t1 = tcg_temp_ebb_new_i64();
 +    TCGv_i64 t2 = tcg_temp_ebb_new_i64();
      memop = tcg_canonicalize_memop(memop, 1, 0);
@@ -XXX,XX +XXX,XX @@ static void do_atomic_op_i64(TCGv_i64 ret, TCGv addr, TCGv_i64 val,
          tcg_gen_movi_i64(ret, 0);
  #endif /* CONFIG_ATOMIC64 */
      } else {
 -        TCGv_i32 v32 = tcg_temp_new_i32();
 -        TCGv_i32 r32 = tcg_temp_new_i32();
 +        TCGv_i32 v32 = tcg_temp_ebb_new_i32();
 +        TCGv_i32 r32 = tcg_temp_ebb_new_i32();
          tcg_gen_extrl_i64_i32(v32, val);
          do_atomic_op_i32(r32, addr, v32, idx, memop & ~MO_SIGN, table);
 diff --git a/tcg/tcg.c b/tcg/tcg.c
 index XXXXXXX..XXXXXXX 100644
 --- a/tcg/tcg.c
 +++ b/tcg/tcg.c
@@ -XXX,XX +XXX,XX @@ void tcg_gen_callN(void *func, TCGTemp *ret, int nargs, TCGTemp **args)
          case TCG_CALL_ARG_EXTEND_U:
          case TCG_CALL_ARG_EXTEND_S:
              {
 -                TCGv_i64 temp = tcg_temp_new_i64();
 +                TCGv_i64 temp = tcg_temp_ebb_new_i64();
                  TCGv_i32 orig = temp_tcgv_i32(ts);
                  if (loc->kind == TCG_CALL_ARG_EXTEND_S) {
 --
-.25.1
+.34.1

-[PULL 23/56] tcg/optimize: Split out fold_brcond
+[PULL 45/62] tcg: Use tcg_constant_ptr in do_dup
-Reviewed-by: Luis Pires <luis.pires@eldorado.org.br>
+Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
-Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
+Reviewed-by: Daniel Henrique Barboza <dbarboza@ventanamicro.com>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- tcg/optimize.c | 33 +++++++++++++++++++--------------
+ tcg/tcg-op-gvec.c | 3 +--
-file changed, 19 insertions(+), 14 deletions(-)
+file changed, 1 insertion(+), 2 deletions(-)
-diff --git a/tcg/optimize.c b/tcg/optimize.c
+diff --git a/tcg/tcg-op-gvec.c b/tcg/tcg-op-gvec.c
 index XXXXXXX..XXXXXXX 100644
---- a/tcg/optimize.c
+--- a/tcg/tcg-op-gvec.c
-+++ b/tcg/optimize.c
++++ b/tcg/tcg-op-gvec.c
-@@ -XXX,XX +XXX,XX @@ static bool fold_andc(OptContext *ctx, TCGOp *op)
+@@ -XXX,XX +XXX,XX @@ static void do_dup(unsigned vece, uint32_t dofs, uint32_t oprsz,
-     return fold_const2(ctx, op);
+      * stores through to memset.
- }
+      */
+     if (oprsz == maxsz && vece == MO_8) {
-+static bool fold_brcond(OptContext *ctx, TCGOp *op)
+-        TCGv_ptr t_size = tcg_const_ptr(oprsz);
-+{
++        TCGv_ptr t_size = tcg_constant_ptr(oprsz);
-+    TCGCond cond = op->args[2];
+         TCGv_i32 t_val;
-+    int i = do_constant_folding_cond(op->opc, op->args[0], op->args[1], cond);
-+
+         if (in_32) {
-+    if (i == 0) {
+@@ -XXX,XX +XXX,XX @@ static void do_dup(unsigned vece, uint32_t dofs, uint32_t oprsz,
-+        tcg_op_remove(ctx->tcg, op);
+         if (in_64) {
-+        return true;
+             tcg_temp_free_i32(t_val);
-+    }
+         }
-+    if (i > 0) {
+-        tcg_temp_free_ptr(t_size);
-+        op->opc = INDEX_op_br;
+         tcg_temp_free_ptr(t_ptr);
-+        op->args[0] = op->args[3];
+         return;
-+    }
+     }
 +    return false;
 +}
 +
  static bool fold_brcond2(OptContext *ctx, TCGOp *op)
  {
      TCGCond cond = op->args[4];
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
              }
              break;
 -        CASE_OP_32_64(brcond):
 -            i = do_constant_folding_cond(opc, op->args[0],
 -                                         op->args[1], op->args[2]);
 -            if (i == 0) {
 -                tcg_op_remove(s, op);
 -                continue;
 -            } else if (i > 0) {
 -                memset(&ctx.temps_used, 0, sizeof(ctx.temps_used));
 -                op->opc = opc = INDEX_op_br;
 -                op->args[0] = op->args[3];
 -                break;
 -            }
 -            break;
 -
          CASE_OP_32_64(movcond):
              i = do_constant_folding_cond(opc, op->args[1],
                                           op->args[2], op->args[5]);
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
          CASE_OP_32_64_VEC(andc):
              done = fold_andc(&ctx, op);
              break;
 +        CASE_OP_32_64(brcond):
 +            done = fold_brcond(&ctx, op);
 +            break;
          case INDEX_op_brcond2_i32:
              done = fold_brcond2(&ctx, op);
              break;
 --
-.25.1
+.34.1

-[PULL 22/56] tcg/optimize: Split out fold_brcond2
+[PULL 46/62] accel/tcg/plugin: Use tcg_temp_ebb_*
-Reduce some code duplication by folding the NE and EQ cases.
+All of these uses have quite local scope.
 Avoid tcg_const_*, because we haven't added a corresponding
 interface for TEMP_EBB.  Use explicit tcg_gen_movi_* instead.
-Reviewed-by: Luis Pires <luis.pires@eldorado.org.br>
+Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- tcg/optimize.c | 159 +++++++++++++++++++++++++------------------------
+ accel/tcg/plugin-gen.c | 24 ++++++++++++++----------
-file changed, 81 insertions(+), 78 deletions(-)
+file changed, 14 insertions(+), 10 deletions(-)
-diff --git a/tcg/optimize.c b/tcg/optimize.c
+diff --git a/accel/tcg/plugin-gen.c b/accel/tcg/plugin-gen.c
 index XXXXXXX..XXXXXXX 100644
---- a/tcg/optimize.c
+--- a/accel/tcg/plugin-gen.c
-+++ b/tcg/optimize.c
++++ b/accel/tcg/plugin-gen.c
-@@ -XXX,XX +XXX,XX @@ static bool fold_andc(OptContext *ctx, TCGOp *op)
+@@ -XXX,XX +XXX,XX @@ void HELPER(plugin_vcpu_mem_cb)(unsigned int vcpu_index,
-     return fold_const2(ctx, op);
- }
+ static void do_gen_mem_cb(TCGv vaddr, uint32_t info)
 +static bool fold_brcond2(OptContext *ctx, TCGOp *op)
 +{
 +    TCGCond cond = op->args[4];
 +    int i = do_constant_folding_cond2(&op->args[0], &op->args[2], cond);
 +    TCGArg label = op->args[5];
 +    int inv = 0;
 +
 +    if (i >= 0) {
 +        goto do_brcond_const;
 +    }
 +
 +    switch (cond) {
 +    case TCG_COND_LT:
 +    case TCG_COND_GE:
 +        /*
 +         * Simplify LT/GE comparisons vs zero to a single compare
 +         * vs the high word of the input.
 +         */
 +        if (arg_is_const(op->args[2]) && arg_info(op->args[2])->val == 0 &&
 +            arg_is_const(op->args[3]) && arg_info(op->args[3])->val == 0) {
 +            goto do_brcond_high;
 +        }
 +        break;
 +
 +    case TCG_COND_NE:
 +        inv = 1;
 +        QEMU_FALLTHROUGH;
 +    case TCG_COND_EQ:
 +        /*
 +         * Simplify EQ/NE comparisons where one of the pairs
 +         * can be simplified.
 +         */
 +        i = do_constant_folding_cond(INDEX_op_brcond_i32, op->args[0],
 +                                     op->args[2], cond);
 +        switch (i ^ inv) {
 +        case 0:
 +            goto do_brcond_const;
 +        case 1:
 +            goto do_brcond_high;
 +        }
 +
 +        i = do_constant_folding_cond(INDEX_op_brcond_i32, op->args[1],
 +                                     op->args[3], cond);
 +        switch (i ^ inv) {
 +        case 0:
 +            goto do_brcond_const;
 +        case 1:
 +            op->opc = INDEX_op_brcond_i32;
 +            op->args[1] = op->args[2];
 +            op->args[2] = cond;
 +            op->args[3] = label;
 +            break;
 +        }
 +        break;
 +
 +    default:
 +        break;
 +
 +    do_brcond_high:
 +        op->opc = INDEX_op_brcond_i32;
 +        op->args[0] = op->args[1];
 +        op->args[1] = op->args[3];
 +        op->args[2] = cond;
 +        op->args[3] = label;
 +        break;
 +
 +    do_brcond_const:
 +        if (i == 0) {
 +            tcg_op_remove(ctx->tcg, op);
 +            return true;
 +        }
 +        op->opc = INDEX_op_br;
 +        op->args[0] = label;
 +        break;
 +    }
 +    return false;
 +}
 +
  static bool fold_call(OptContext *ctx, TCGOp *op)
  {
-     TCGContext *s = ctx->tcg;
+-    TCGv_i32 cpu_index = tcg_temp_new_i32();
-@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
+-    TCGv_i32 meminfo = tcg_const_i32(info);
-             }
+-    TCGv_i64 vaddr64 = tcg_temp_new_i64();
-             break;
+-    TCGv_ptr udata = tcg_const_ptr(NULL);
++    TCGv_i32 cpu_index = tcg_temp_ebb_new_i32();
--        case INDEX_op_brcond2_i32:
++    TCGv_i32 meminfo = tcg_temp_ebb_new_i32();
--            i = do_constant_folding_cond2(&op->args[0], &op->args[2],
++    TCGv_i64 vaddr64 = tcg_temp_ebb_new_i64();
--                                          op->args[4]);
++    TCGv_ptr udata = tcg_temp_ebb_new_ptr();
--            if (i == 0) {
--            do_brcond_false:
++    tcg_gen_movi_i32(meminfo, info);
--                tcg_op_remove(s, op);
++    tcg_gen_movi_ptr(udata, 0);
--                continue;
+     tcg_gen_ld_i32(cpu_index, cpu_env,
--            }
+                    -offsetof(ArchCPU, env) + offsetof(CPUState, cpu_index));
--            if (i > 0) {
+     tcg_gen_extu_tl_i64(vaddr64, vaddr);
--            do_brcond_true:
+@@ -XXX,XX +XXX,XX @@ static void do_gen_mem_cb(TCGv vaddr, uint32_t info)
--                op->opc = opc = INDEX_op_br;
--                op->args[0] = op->args[5];
+ static void gen_empty_udata_cb(void)
--                break;
+ {
--            }
+-    TCGv_i32 cpu_index = tcg_temp_new_i32();
--            if ((op->args[4] == TCG_COND_LT || op->args[4] == TCG_COND_GE)
+-    TCGv_ptr udata = tcg_const_ptr(NULL); /* will be overwritten later */
--                 && arg_is_const(op->args[2])
++    TCGv_i32 cpu_index = tcg_temp_ebb_new_i32();
--                 && arg_info(op->args[2])->val == 0
++    TCGv_ptr udata = tcg_temp_ebb_new_ptr();
--                 && arg_is_const(op->args[3])
--                 && arg_info(op->args[3])->val == 0) {
++    tcg_gen_movi_ptr(udata, 0);
--                /* Simplify LT/GE comparisons vs zero to a single compare
+     tcg_gen_ld_i32(cpu_index, cpu_env,
--                   vs the high word of the input.  */
+                    -offsetof(ArchCPU, env) + offsetof(CPUState, cpu_index));
--            do_brcond_high:
+     gen_helper_plugin_vcpu_udata_cb(cpu_index, udata);
--                op->opc = opc = INDEX_op_brcond_i32;
+@@ -XXX,XX +XXX,XX @@ static void gen_empty_udata_cb(void)
--                op->args[0] = op->args[1];
+  */
--                op->args[1] = op->args[3];
+ static void gen_empty_inline_cb(void)
--                op->args[2] = op->args[4];
+ {
--                op->args[3] = op->args[5];
+-    TCGv_i64 val = tcg_temp_new_i64();
--                break;
+-    TCGv_ptr ptr = tcg_const_ptr(NULL); /* overwritten later */
--            }
++    TCGv_i64 val = tcg_temp_ebb_new_i64();
--            if (op->args[4] == TCG_COND_EQ) {
++    TCGv_ptr ptr = tcg_temp_ebb_new_ptr();
--                /* Simplify EQ comparisons where one of the pairs
--                   can be simplified.  */
++    tcg_gen_movi_ptr(ptr, 0);
--                i = do_constant_folding_cond(INDEX_op_brcond_i32,
+     tcg_gen_ld_i64(val, ptr, 0);
--                                             op->args[0], op->args[2],
+     /* pass an immediate != 0 so that it doesn't get optimized away */
--                                             TCG_COND_EQ);
+     tcg_gen_addi_i64(val, val, 0xdeadface);
--                if (i == 0) {
+@@ -XXX,XX +XXX,XX @@ static void gen_empty_mem_cb(TCGv addr, uint32_t info)
--                    goto do_brcond_false;
+  */
--                } else if (i > 0) {
+ static void gen_empty_mem_helper(void)
--                    goto do_brcond_high;
+ {
--                }
+-    TCGv_ptr ptr;
--                i = do_constant_folding_cond(INDEX_op_brcond_i32,
++    TCGv_ptr ptr = tcg_temp_ebb_new_ptr();
--                                             op->args[1], op->args[3],
--                                             TCG_COND_EQ);
+-    ptr = tcg_const_ptr(NULL);
--                if (i == 0) {
++    tcg_gen_movi_ptr(ptr, 0);
--                    goto do_brcond_false;
+     tcg_gen_st_ptr(ptr, cpu_env, offsetof(CPUState, plugin_mem_cbs) -
--                } else if (i < 0) {
+                                  offsetof(ArchCPU, env));
--                    break;
+     tcg_temp_free_ptr(ptr);
 -                }
 -            do_brcond_low:
 -                memset(&ctx.temps_used, 0, sizeof(ctx.temps_used));
 -                op->opc = INDEX_op_brcond_i32;
 -                op->args[1] = op->args[2];
 -                op->args[2] = op->args[4];
 -                op->args[3] = op->args[5];
 -                break;
 -            }
 -            if (op->args[4] == TCG_COND_NE) {
 -                /* Simplify NE comparisons where one of the pairs
 -                   can be simplified.  */
 -                i = do_constant_folding_cond(INDEX_op_brcond_i32,
 -                                             op->args[0], op->args[2],
 -                                             TCG_COND_NE);
 -                if (i == 0) {
 -                    goto do_brcond_high;
 -                } else if (i > 0) {
 -                    goto do_brcond_true;
 -                }
 -                i = do_constant_folding_cond(INDEX_op_brcond_i32,
 -                                             op->args[1], op->args[3],
 -                                             TCG_COND_NE);
 -                if (i == 0) {
 -                    goto do_brcond_low;
 -                } else if (i > 0) {
 -                    goto do_brcond_true;
 -                }
 -            }
 -            break;
 -
          default:
              break;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
          CASE_OP_32_64_VEC(andc):
              done = fold_andc(&ctx, op);
              break;
 +        case INDEX_op_brcond2_i32:
 +            done = fold_brcond2(&ctx, op);
 +            break;
          CASE_OP_32_64(ctpop):
              done = fold_ctpop(&ctx, op);
              break;
 --
-.25.1
+.34.1

-[PULL 07/56] tcg/optimize: Split out OptContext
+[PULL 47/62] accel/tcg/plugin: Tidy plugin_gen_disable_mem_helpers
-Provide what will become a larger context for splitting
+Here we are creating a temp whose value needs to be replaced,
-the very large tcg_optimize function.
+but always storing NULL into CPUState.plugin_mem_cbs.
 Use tcg_constant_ptr(0) explicitly.
-Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
+Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
 Reviewed-by: Luis Pires <luis.pires@eldorado.org.br>
 Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- tcg/optimize.c | 77 ++++++++++++++++++++++++++------------------------
+ accel/tcg/plugin-gen.c | 8 ++------
-file changed, 40 insertions(+), 37 deletions(-)
+file changed, 2 insertions(+), 6 deletions(-)
-diff --git a/tcg/optimize.c b/tcg/optimize.c
+diff --git a/accel/tcg/plugin-gen.c b/accel/tcg/plugin-gen.c
 index XXXXXXX..XXXXXXX 100644
---- a/tcg/optimize.c
+--- a/accel/tcg/plugin-gen.c
-+++ b/tcg/optimize.c
++++ b/accel/tcg/plugin-gen.c
-@@ -XXX,XX +XXX,XX @@ typedef struct TempOptInfo {
+@@ -XXX,XX +XXX,XX @@ static void inject_mem_disable_helper(struct qemu_plugin_insn *plugin_insn,
-     uint64_t z_mask;  /* mask bit is 0 if and only if value bit is 0 */
+ /* called before finishing a TB with exit_tb, goto_tb or goto_ptr */
- } TempOptInfo;
+ void plugin_gen_disable_mem_helpers(void)
 +typedef struct OptContext {
 +    TCGTempSet temps_used;
 +} OptContext;
 +
  static inline TempOptInfo *ts_info(TCGTemp *ts)
  {
-     return ts->state_ptr;
+-    TCGv_ptr ptr;
-@@ -XXX,XX +XXX,XX @@ static void reset_temp(TCGArg arg)
+-
- }
+     /*
+      * We could emit the clearing unconditionally and be done. However, this can
- /* Initialize and activate a temporary.  */
+      * be wasteful if for instance plugins don't track memory accesses, or if
--static void init_ts_info(TCGTempSet *temps_used, TCGTemp *ts)
+@@ -XXX,XX +XXX,XX @@ void plugin_gen_disable_mem_helpers(void)
-+static void init_ts_info(OptContext *ctx, TCGTemp *ts)
+     if (!tcg_ctx->plugin_tb->mem_helper) {
  {
      size_t idx = temp_idx(ts);
      TempOptInfo *ti;
 -    if (test_bit(idx, temps_used->l)) {
 +    if (test_bit(idx, ctx->temps_used.l)) {
          return;
      }
--    set_bit(idx, temps_used->l);
+-    ptr = tcg_const_ptr(NULL);
-+    set_bit(idx, ctx->temps_used.l);
+-    tcg_gen_st_ptr(ptr, cpu_env, offsetof(CPUState, plugin_mem_cbs) -
+-                                 offsetof(ArchCPU, env));
-     ti = ts->state_ptr;
+-    tcg_temp_free_ptr(ptr);
-     if (ti == NULL) {
++    tcg_gen_st_ptr(tcg_constant_ptr(NULL), cpu_env,
-@@ -XXX,XX +XXX,XX @@ static void init_ts_info(TCGTempSet *temps_used, TCGTemp *ts)
++                   offsetof(CPUState, plugin_mem_cbs) - offsetof(ArchCPU, env));
      }
  }
--static void init_arg_info(TCGTempSet *temps_used, TCGArg arg)
+ static void plugin_gen_tb_udata(const struct qemu_plugin_tb *ptb,
 +static void init_arg_info(OptContext *ctx, TCGArg arg)
  {
 -    init_ts_info(temps_used, arg_temp(arg));
 +    init_ts_info(ctx, arg_temp(arg));
  }
  static TCGTemp *find_better_copy(TCGContext *s, TCGTemp *ts)
@@ -XXX,XX +XXX,XX @@ static void tcg_opt_gen_mov(TCGContext *s, TCGOp *op, TCGArg dst, TCGArg src)
      }
  }
 -static void tcg_opt_gen_movi(TCGContext *s, TCGTempSet *temps_used,
 +static void tcg_opt_gen_movi(TCGContext *s, OptContext *ctx,
                               TCGOp *op, TCGArg dst, uint64_t val)
  {
      const TCGOpDef *def = &tcg_op_defs[op->opc];
@@ -XXX,XX +XXX,XX @@ static void tcg_opt_gen_movi(TCGContext *s, TCGTempSet *temps_used,
      /* Convert movi to mov with constant temp. */
      tv = tcg_constant_internal(type, val);
 -    init_ts_info(temps_used, tv);
 +    init_ts_info(ctx, tv);
      tcg_opt_gen_mov(s, op, dst, temp_arg(tv));
  }
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
  {
      int nb_temps, nb_globals, i;
      TCGOp *op, *op_next, *prev_mb = NULL;
 -    TCGTempSet temps_used;
 +    OptContext ctx = {};
      /* Array VALS has an element for each temp.
         If this temp holds a constant then its value is kept in VALS' element.
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
      nb_temps = s->nb_temps;
      nb_globals = s->nb_globals;
 -    memset(&temps_used, 0, sizeof(temps_used));
      for (i = 0; i < nb_temps; ++i) {
          s->temps[i].state_ptr = NULL;
      }
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
              for (i = 0; i < nb_oargs + nb_iargs; i++) {
                  TCGTemp *ts = arg_temp(op->args[i]);
                  if (ts) {
 -                    init_ts_info(&temps_used, ts);
 +                    init_ts_info(&ctx, ts);
                  }
              }
          } else {
              nb_oargs = def->nb_oargs;
              nb_iargs = def->nb_iargs;
              for (i = 0; i < nb_oargs + nb_iargs; i++) {
 -                init_arg_info(&temps_used, op->args[i]);
 +                init_arg_info(&ctx, op->args[i]);
              }
          }
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
          CASE_OP_32_64(rotr):
              if (arg_is_const(op->args[1])
                  && arg_info(op->args[1])->val == 0) {
 -                tcg_opt_gen_movi(s, &temps_used, op, op->args[0], 0);
 +                tcg_opt_gen_movi(s, &ctx, op, op->args[0], 0);
                  continue;
              }
              break;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
          if (partmask == 0) {
              tcg_debug_assert(nb_oargs == 1);
 -            tcg_opt_gen_movi(s, &temps_used, op, op->args[0], 0);
 +            tcg_opt_gen_movi(s, &ctx, op, op->args[0], 0);
              continue;
          }
          if (affected == 0) {
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
          CASE_OP_32_64(mulsh):
              if (arg_is_const(op->args[2])
                  && arg_info(op->args[2])->val == 0) {
 -                tcg_opt_gen_movi(s, &temps_used, op, op->args[0], 0);
 +                tcg_opt_gen_movi(s, &ctx, op, op->args[0], 0);
                  continue;
              }
              break;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
          CASE_OP_32_64_VEC(sub):
          CASE_OP_32_64_VEC(xor):
              if (args_are_copies(op->args[1], op->args[2])) {
 -                tcg_opt_gen_movi(s, &temps_used, op, op->args[0], 0);
 +                tcg_opt_gen_movi(s, &ctx, op, op->args[0], 0);
                  continue;
              }
              break;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
              if (arg_is_const(op->args[1])) {
                  tmp = arg_info(op->args[1])->val;
                  tmp = dup_const(TCGOP_VECE(op), tmp);
 -                tcg_opt_gen_movi(s, &temps_used, op, op->args[0], tmp);
 +                tcg_opt_gen_movi(s, &ctx, op, op->args[0], tmp);
                  break;
              }
              goto do_default;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
          case INDEX_op_dup2_vec:
              assert(TCG_TARGET_REG_BITS == 32);
              if (arg_is_const(op->args[1]) && arg_is_const(op->args[2])) {
 -                tcg_opt_gen_movi(s, &temps_used, op, op->args[0],
 +                tcg_opt_gen_movi(s, &ctx, op, op->args[0],
                                   deposit64(arg_info(op->args[1])->val, 32, 32,
                                             arg_info(op->args[2])->val));
                  break;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
          case INDEX_op_extrh_i64_i32:
              if (arg_is_const(op->args[1])) {
                  tmp = do_constant_folding(opc, arg_info(op->args[1])->val, 0);
 -                tcg_opt_gen_movi(s, &temps_used, op, op->args[0], tmp);
 +                tcg_opt_gen_movi(s, &ctx, op, op->args[0], tmp);
                  break;
              }
              goto do_default;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
              if (arg_is_const(op->args[1])) {
                  tmp = do_constant_folding(opc, arg_info(op->args[1])->val,
                                            op->args[2]);
 -                tcg_opt_gen_movi(s, &temps_used, op, op->args[0], tmp);
 +                tcg_opt_gen_movi(s, &ctx, op, op->args[0], tmp);
                  break;
              }
              goto do_default;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
              if (arg_is_const(op->args[1]) && arg_is_const(op->args[2])) {
                  tmp = do_constant_folding(opc, arg_info(op->args[1])->val,
                                            arg_info(op->args[2])->val);
 -                tcg_opt_gen_movi(s, &temps_used, op, op->args[0], tmp);
 +                tcg_opt_gen_movi(s, &ctx, op, op->args[0], tmp);
                  break;
              }
              goto do_default;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
                  TCGArg v = arg_info(op->args[1])->val;
                  if (v != 0) {
                      tmp = do_constant_folding(opc, v, 0);
 -                    tcg_opt_gen_movi(s, &temps_used, op, op->args[0], tmp);
 +                    tcg_opt_gen_movi(s, &ctx, op, op->args[0], tmp);
                  } else {
                      tcg_opt_gen_mov(s, op, op->args[0], op->args[2]);
                  }
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
                  tmp = deposit64(arg_info(op->args[1])->val,
                                  op->args[3], op->args[4],
                                  arg_info(op->args[2])->val);
 -                tcg_opt_gen_movi(s, &temps_used, op, op->args[0], tmp);
 +                tcg_opt_gen_movi(s, &ctx, op, op->args[0], tmp);
                  break;
              }
              goto do_default;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
              if (arg_is_const(op->args[1])) {
                  tmp = extract64(arg_info(op->args[1])->val,
                                  op->args[2], op->args[3]);
 -                tcg_opt_gen_movi(s, &temps_used, op, op->args[0], tmp);
 +                tcg_opt_gen_movi(s, &ctx, op, op->args[0], tmp);
                  break;
              }
              goto do_default;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
              if (arg_is_const(op->args[1])) {
                  tmp = sextract64(arg_info(op->args[1])->val,
                                   op->args[2], op->args[3]);
 -                tcg_opt_gen_movi(s, &temps_used, op, op->args[0], tmp);
 +                tcg_opt_gen_movi(s, &ctx, op, op->args[0], tmp);
                  break;
              }
              goto do_default;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
                      tmp = (int32_t)(((uint32_t)v1 >> shr) |
                                      ((uint32_t)v2 << (32 - shr)));
                  }
 -                tcg_opt_gen_movi(s, &temps_used, op, op->args[0], tmp);
 +                tcg_opt_gen_movi(s, &ctx, op, op->args[0], tmp);
                  break;
              }
              goto do_default;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
              tmp = do_constant_folding_cond(opc, op->args[1],
                                             op->args[2], op->args[3]);
              if (tmp != 2) {
 -                tcg_opt_gen_movi(s, &temps_used, op, op->args[0], tmp);
 +                tcg_opt_gen_movi(s, &ctx, op, op->args[0], tmp);
                  break;
              }
              goto do_default;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
                                             op->args[1], op->args[2]);
              if (tmp != 2) {
                  if (tmp) {
 -                    memset(&temps_used, 0, sizeof(temps_used));
 +                    memset(&ctx.temps_used, 0, sizeof(ctx.temps_used));
                      op->opc = INDEX_op_br;
                      op->args[0] = op->args[3];
                  } else {
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
                  rl = op->args[0];
                  rh = op->args[1];
 -                tcg_opt_gen_movi(s, &temps_used, op, rl, (int32_t)a);
 -                tcg_opt_gen_movi(s, &temps_used, op2, rh, (int32_t)(a >> 32));
 +                tcg_opt_gen_movi(s, &ctx, op, rl, (int32_t)a);
 +                tcg_opt_gen_movi(s, &ctx, op2, rh, (int32_t)(a >> 32));
                  break;
              }
              goto do_default;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
                  rl = op->args[0];
                  rh = op->args[1];
 -                tcg_opt_gen_movi(s, &temps_used, op, rl, (int32_t)r);
 -                tcg_opt_gen_movi(s, &temps_used, op2, rh, (int32_t)(r >> 32));
 +                tcg_opt_gen_movi(s, &ctx, op, rl, (int32_t)r);
 +                tcg_opt_gen_movi(s, &ctx, op2, rh, (int32_t)(r >> 32));
                  break;
              }
              goto do_default;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
              if (tmp != 2) {
                  if (tmp) {
              do_brcond_true:
 -                    memset(&temps_used, 0, sizeof(temps_used));
 +                    memset(&ctx.temps_used, 0, sizeof(ctx.temps_used));
                      op->opc = INDEX_op_br;
                      op->args[0] = op->args[5];
                  } else {
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
                  /* Simplify LT/GE comparisons vs zero to a single compare
                     vs the high word of the input.  */
              do_brcond_high:
 -                memset(&temps_used, 0, sizeof(temps_used));
 +                memset(&ctx.temps_used, 0, sizeof(ctx.temps_used));
                  op->opc = INDEX_op_brcond_i32;
                  op->args[0] = op->args[1];
                  op->args[1] = op->args[3];
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
                      goto do_default;
                  }
              do_brcond_low:
 -                memset(&temps_used, 0, sizeof(temps_used));
 +                memset(&ctx.temps_used, 0, sizeof(ctx.temps_used));
                  op->opc = INDEX_op_brcond_i32;
                  op->args[1] = op->args[2];
                  op->args[2] = op->args[4];
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
                                              op->args[5]);
              if (tmp != 2) {
              do_setcond_const:
 -                tcg_opt_gen_movi(s, &temps_used, op, op->args[0], tmp);
 +                tcg_opt_gen_movi(s, &ctx, op, op->args[0], tmp);
              } else if ((op->args[5] == TCG_COND_LT
                          || op->args[5] == TCG_COND_GE)
                         && arg_is_const(op->args[3])
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
              if (!(tcg_call_flags(op)
                    & (TCG_CALL_NO_READ_GLOBALS | TCG_CALL_NO_WRITE_GLOBALS))) {
                  for (i = 0; i < nb_globals; i++) {
 -                    if (test_bit(i, temps_used.l)) {
 +                    if (test_bit(i, ctx.temps_used.l)) {
                          reset_ts(&s->temps[i]);
                      }
                  }
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
                 block, otherwise we only trash the output args.  "z_mask" is
                 the non-zero bits mask for the first output arg.  */
              if (def->flags & TCG_OPF_BB_END) {
 -                memset(&temps_used, 0, sizeof(temps_used));
 +                memset(&ctx.temps_used, 0, sizeof(ctx.temps_used));
              } else {
          do_reset_output:
                  for (i = 0; i < nb_oargs; i++) {
 --
-.25.1
+.34.1

-[PULL 39/56] tcg/optimize: Split out fold_to_not
+[PULL 48/62] tcg: Don't re-use TEMP_TB temporaries
-Split out the conditional conversion from a more complex logical
+Reusing TEMP_TB interferes with detecting whether the
-operation to a simple NOT.  Create a couple more helpers to make
+temp can be adjusted to TEMP_EBB.
 this easy for the outer-most logical operations.
-Reviewed-by: Luis Pires <luis.pires@eldorado.org.br>
+Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- tcg/optimize.c | 158 +++++++++++++++++++++++++++----------------------
+ include/tcg/tcg.h |   2 +-
-file changed, 86 insertions(+), 72 deletions(-)
+ tcg/tcg.c         | 101 ++++++++++++++++++++++++----------------------
 files changed, 53 insertions(+), 50 deletions(-)
-diff --git a/tcg/optimize.c b/tcg/optimize.c
+diff --git a/include/tcg/tcg.h b/include/tcg/tcg.h
 index XXXXXXX..XXXXXXX 100644
---- a/tcg/optimize.c
+--- a/include/tcg/tcg.h
-+++ b/tcg/optimize.c
++++ b/include/tcg/tcg.h
-@@ -XXX,XX +XXX,XX @@ static bool fold_const2(OptContext *ctx, TCGOp *op)
+@@ -XXX,XX +XXX,XX @@ struct TCGContext {
-     return false;
+ #endif
- }
+     GHashTable *const_table[TCG_TYPE_COUNT];
-+/*
+-    TCGTempSet free_temps[TCG_TYPE_COUNT * 2];
-+ * Convert @op to NOT, if NOT is supported by the host.
++    TCGTempSet free_temps[TCG_TYPE_COUNT];
-+ * Return true f the conversion is successful, which will still
+     TCGTemp temps[TCG_MAX_TEMPS]; /* globals first, temps after */
-+ * indicate that the processing is complete.
-+ */
+     QTAILQ_HEAD(, TCGOp) ops, free_ops;
-+static bool fold_not(OptContext *ctx, TCGOp *op);
+diff --git a/tcg/tcg.c b/tcg/tcg.c
-+static bool fold_to_not(OptContext *ctx, TCGOp *op, int idx)
+index XXXXXXX..XXXXXXX 100644
-+{
+--- a/tcg/tcg.c
-+    TCGOpcode not_op;
++++ b/tcg/tcg.c
-+    bool have_not;
+@@ -XXX,XX +XXX,XX @@ TCGTemp *tcg_global_mem_new_internal(TCGType type, TCGv_ptr base,
-+
+ TCGTemp *tcg_temp_new_internal(TCGType type, TCGTempKind kind)
-+    switch (ctx->type) {
+ {
      TCGContext *s = tcg_ctx;
 -    bool temp_local = kind == TEMP_TB;
      TCGTemp *ts;
 -    int idx, k;
 +    int n;
 -    k = type + (temp_local ? TCG_TYPE_COUNT : 0);
 -    idx = find_first_bit(s->free_temps[k].l, TCG_MAX_TEMPS);
 -    if (idx < TCG_MAX_TEMPS) {
 -        /* There is already an available temp with the right type.  */
 -        clear_bit(idx, s->free_temps[k].l);
 +    if (kind == TEMP_EBB) {
 +        int idx = find_first_bit(s->free_temps[type].l, TCG_MAX_TEMPS);
 -        ts = &s->temps[idx];
 -        ts->temp_allocated = 1;
 -        tcg_debug_assert(ts->base_type == type);
 -        tcg_debug_assert(ts->kind == kind);
 -    } else {
 -        int i, n;
 +        if (idx < TCG_MAX_TEMPS) {
 +            /* There is already an available temp with the right type.  */
 +            clear_bit(idx, s->free_temps[type].l);
 -        switch (type) {
 -        case TCG_TYPE_I32:
 -        case TCG_TYPE_V64:
 -        case TCG_TYPE_V128:
 -        case TCG_TYPE_V256:
 -            n = 1;
 -            break;
 -        case TCG_TYPE_I64:
 -            n = 64 / TCG_TARGET_REG_BITS;
 -            break;
 -        case TCG_TYPE_I128:
 -            n = 128 / TCG_TARGET_REG_BITS;
 -            break;
 -        default:
 -            g_assert_not_reached();
 +            ts = &s->temps[idx];
 +            ts->temp_allocated = 1;
 +            tcg_debug_assert(ts->base_type == type);
 +            tcg_debug_assert(ts->kind == kind);
 +            goto done;
          }
 +    } else {
 +        tcg_debug_assert(kind == TEMP_TB);
 +    }
 -        ts = tcg_temp_alloc(s);
 -        ts->base_type = type;
 -        ts->temp_allocated = 1;
 -        ts->kind = kind;
 +    switch (type) {
 +    case TCG_TYPE_I32:
-+        not_op = INDEX_op_not_i32;
-+        have_not = TCG_TARGET_HAS_not_i32;
-+        break;
-+    case TCG_TYPE_I64:
-+        not_op = INDEX_op_not_i64;
-+        have_not = TCG_TARGET_HAS_not_i64;
-+        break;
 +    case TCG_TYPE_V64:
 +    case TCG_TYPE_V128:
 +    case TCG_TYPE_V256:
-+        not_op = INDEX_op_not_vec;
++        n = 1;
-+        have_not = TCG_TARGET_HAS_not_vec;
++        break;
 +    case TCG_TYPE_I64:
 +        n = 64 / TCG_TARGET_REG_BITS;
 +        break;
 +    case TCG_TYPE_I128:
 +        n = 128 / TCG_TARGET_REG_BITS;
 +        break;
 +    default:
 +        g_assert_not_reached();
 +    }
-+    if (have_not) {
-+        op->opc = not_op;
+-        if (n == 1) {
-+        op->args[1] = op->args[idx];
+-            ts->type = type;
-+        return fold_not(ctx, op);
+-        } else {
 -            ts->type = TCG_TYPE_REG;
 +    ts = tcg_temp_alloc(s);
 +    ts->base_type = type;
 +    ts->temp_allocated = 1;
 +    ts->kind = kind;
 -            for (i = 1; i < n; ++i) {
 -                TCGTemp *ts2 = tcg_temp_alloc(s);
 +    if (n == 1) {
 +        ts->type = type;
 +    } else {
 +        ts->type = TCG_TYPE_REG;
 -                tcg_debug_assert(ts2 == ts + i);
 -                ts2->base_type = type;
 -                ts2->type = TCG_TYPE_REG;
 -                ts2->temp_allocated = 1;
 -                ts2->temp_subindex = i;
 -                ts2->kind = kind;
 -            }
 +        for (int i = 1; i < n; ++i) {
 +            TCGTemp *ts2 = tcg_temp_alloc(s);
 +
 +            tcg_debug_assert(ts2 == ts + i);
 +            ts2->base_type = type;
 +            ts2->type = TCG_TYPE_REG;
 +            ts2->temp_allocated = 1;
 +            ts2->temp_subindex = i;
 +            ts2->kind = kind;
          }
      }
 + done:
  #if defined(CONFIG_DEBUG_TCG)
      s->temps_in_use++;
  #endif
@@ -XXX,XX +XXX,XX @@ TCGv_vec tcg_temp_new_vec_matching(TCGv_vec match)
  void tcg_temp_free_internal(TCGTemp *ts)
  {
      TCGContext *s = tcg_ctx;
 -    int k, idx;
      switch (ts->kind) {
      case TEMP_CONST:
@@ -XXX,XX +XXX,XX @@ void tcg_temp_free_internal(TCGTemp *ts)
      s->temps_in_use--;
  #endif
 -    idx = temp_idx(ts);
 -    k = ts->base_type + (ts->kind == TEMP_EBB ? 0 : TCG_TYPE_COUNT);
 -    set_bit(idx, s->free_temps[k].l);
 +    if (ts->kind == TEMP_EBB) {
 +        int idx = temp_idx(ts);
 +        set_bit(idx, s->free_temps[ts->base_type].l);
 +    }
-+    return false;
-+}
-+
-+/* If the binary operation has first argument @i, fold to NOT. */
-+static bool fold_ix_to_not(OptContext *ctx, TCGOp *op, uint64_t i)
-+{
-+    if (arg_is_const(op->args[1]) && arg_info(op->args[1])->val == i) {
-+        return fold_to_not(ctx, op, 2);
-+    }
-+    return false;
-+}
-+
- /* If the binary operation has second argument @i, fold to @i. */
- static bool fold_xi_to_i(OptContext *ctx, TCGOp *op, uint64_t i)
- {
-@@ -XXX,XX +XXX,XX @@ static bool fold_xi_to_i(OptContext *ctx, TCGOp *op, uint64_t i)
-     return false;
  }
-+/* If the binary operation has second argument @i, fold to NOT. */
+ TCGTemp *tcg_constant_internal(TCGType type, int64_t val)
 +static bool fold_xi_to_not(OptContext *ctx, TCGOp *op, uint64_t i)
 +{
 +    if (arg_is_const(op->args[2]) && arg_info(op->args[2])->val == i) {
 +        return fold_to_not(ctx, op, 1);
 +    }
 +    return false;
 +}
 +
  /* If the binary operation has both arguments equal, fold to @i. */
  static bool fold_xx_to_i(OptContext *ctx, TCGOp *op, uint64_t i)
  {
@@ -XXX,XX +XXX,XX @@ static bool fold_and(OptContext *ctx, TCGOp *op)
  static bool fold_andc(OptContext *ctx, TCGOp *op)
  {
      if (fold_const2(ctx, op) ||
 -        fold_xx_to_i(ctx, op, 0)) {
 +        fold_xx_to_i(ctx, op, 0) ||
 +        fold_ix_to_not(ctx, op, -1)) {
          return true;
      }
      return false;
@@ -XXX,XX +XXX,XX @@ static bool fold_dup2(OptContext *ctx, TCGOp *op)
  static bool fold_eqv(OptContext *ctx, TCGOp *op)
  {
 -    return fold_const2(ctx, op);
 +    if (fold_const2(ctx, op) ||
 +        fold_xi_to_not(ctx, op, 0)) {
 +        return true;
 +    }
 +    return false;
  }
  static bool fold_extract(OptContext *ctx, TCGOp *op)
@@ -XXX,XX +XXX,XX @@ static bool fold_mulu2_i32(OptContext *ctx, TCGOp *op)
  static bool fold_nand(OptContext *ctx, TCGOp *op)
  {
 -    return fold_const2(ctx, op);
 +    if (fold_const2(ctx, op) ||
 +        fold_xi_to_not(ctx, op, -1)) {
 +        return true;
 +    }
 +    return false;
  }
  static bool fold_neg(OptContext *ctx, TCGOp *op)
@@ -XXX,XX +XXX,XX @@ static bool fold_neg(OptContext *ctx, TCGOp *op)
  static bool fold_nor(OptContext *ctx, TCGOp *op)
  {
 -    return fold_const2(ctx, op);
 +    if (fold_const2(ctx, op) ||
 +        fold_xi_to_not(ctx, op, 0)) {
 +        return true;
 +    }
 +    return false;
  }
  static bool fold_not(OptContext *ctx, TCGOp *op)
  {
 -    return fold_const1(ctx, op);
 +    if (fold_const1(ctx, op)) {
 +        return true;
 +    }
 +
 +    /* Because of fold_to_not, we want to always return true, via finish. */
 +    finish_folding(ctx, op);
 +    return true;
  }
  static bool fold_or(OptContext *ctx, TCGOp *op)
@@ -XXX,XX +XXX,XX @@ static bool fold_or(OptContext *ctx, TCGOp *op)
  static bool fold_orc(OptContext *ctx, TCGOp *op)
  {
 -    return fold_const2(ctx, op);
 +    if (fold_const2(ctx, op) ||
 +        fold_ix_to_not(ctx, op, 0)) {
 +        return true;
 +    }
 +    return false;
  }
  static bool fold_qemu_ld(OptContext *ctx, TCGOp *op)
@@ -XXX,XX +XXX,XX @@ static bool fold_sub2_i32(OptContext *ctx, TCGOp *op)
  static bool fold_xor(OptContext *ctx, TCGOp *op)
  {
      if (fold_const2(ctx, op) ||
 -        fold_xx_to_i(ctx, op, 0)) {
 +        fold_xx_to_i(ctx, op, 0) ||
 +        fold_xi_to_not(ctx, op, -1)) {
          return true;
      }
      return false;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
                  }
              }
              break;
 -        CASE_OP_32_64_VEC(xor):
 -        CASE_OP_32_64(nand):
 -            if (!arg_is_const(op->args[1])
 -                && arg_is_const(op->args[2])
 -                && arg_info(op->args[2])->val == -1) {
 -                i = 1;
 -                goto try_not;
 -            }
 -            break;
 -        CASE_OP_32_64(nor):
 -            if (!arg_is_const(op->args[1])
 -                && arg_is_const(op->args[2])
 -                && arg_info(op->args[2])->val == 0) {
 -                i = 1;
 -                goto try_not;
 -            }
 -            break;
 -        CASE_OP_32_64_VEC(andc):
 -            if (!arg_is_const(op->args[2])
 -                && arg_is_const(op->args[1])
 -                && arg_info(op->args[1])->val == -1) {
 -                i = 2;
 -                goto try_not;
 -            }
 -            break;
 -        CASE_OP_32_64_VEC(orc):
 -        CASE_OP_32_64(eqv):
 -            if (!arg_is_const(op->args[2])
 -                && arg_is_const(op->args[1])
 -                && arg_info(op->args[1])->val == 0) {
 -                i = 2;
 -                goto try_not;
 -            }
 -            break;
 -        try_not:
 -            {
 -                TCGOpcode not_op;
 -                bool have_not;
 -
 -                switch (ctx.type) {
 -                case TCG_TYPE_I32:
 -                    not_op = INDEX_op_not_i32;
 -                    have_not = TCG_TARGET_HAS_not_i32;
 -                    break;
 -                case TCG_TYPE_I64:
 -                    not_op = INDEX_op_not_i64;
 -                    have_not = TCG_TARGET_HAS_not_i64;
 -                    break;
 -                case TCG_TYPE_V64:
 -                case TCG_TYPE_V128:
 -                case TCG_TYPE_V256:
 -                    not_op = INDEX_op_not_vec;
 -                    have_not = TCG_TARGET_HAS_not_vec;
 -                    break;
 -                default:
 -                    g_assert_not_reached();
 -                }
 -                if (!have_not) {
 -                    break;
 -                }
 -                op->opc = not_op;
 -                reset_temp(op->args[0]);
 -                op->args[1] = op->args[i];
 -                continue;
 -            }
          default:
              break;
          }
 --
-.25.1
+.34.1

-[PULL 45/56] tcg/optimize: Expand fold_addsub2_i32 to 64-bit ops
+[PULL 49/62] tcg: Change default temp lifetime to TEMP_TB
-Rename to fold_addsub2.
+Guest front-ends now get temps that span the lifetime of
-Use Int128 to implement the wider operation.
+the translation block by default, which avoids accidentally
 using the temp across branches and invalidating the data.
-Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
+Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
 Reviewed-by: Luis Pires <luis.pires@eldorado.org.br>
 Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- tcg/optimize.c | 65 ++++++++++++++++++++++++++++++++++----------------
+ include/tcg/tcg.h | 8 ++++----
-file changed, 44 insertions(+), 21 deletions(-)
+file changed, 4 insertions(+), 4 deletions(-)
-diff --git a/tcg/optimize.c b/tcg/optimize.c
+diff --git a/include/tcg/tcg.h b/include/tcg/tcg.h
 index XXXXXXX..XXXXXXX 100644
---- a/tcg/optimize.c
+--- a/include/tcg/tcg.h
-+++ b/tcg/optimize.c
++++ b/include/tcg/tcg.h
-@@ -XXX,XX +XXX,XX @@
+@@ -XXX,XX +XXX,XX @@ static inline TCGv_i32 tcg_temp_ebb_new_i32(void)
-  */
+ static inline TCGv_i32 tcg_temp_new_i32(void)
- #include "qemu/osdep.h"
+ {
-+#include "qemu/int128.h"
+-    TCGTemp *t = tcg_temp_new_internal(TCG_TYPE_I32, TEMP_EBB);
- #include "tcg/tcg-op.h"
++    TCGTemp *t = tcg_temp_new_internal(TCG_TYPE_I32, TEMP_TB);
- #include "tcg-internal.h"
+     return temp_tcgv_i32(t);
@@ -XXX,XX +XXX,XX @@ static bool fold_add(OptContext *ctx, TCGOp *op)
      return false;
  }
--static bool fold_addsub2_i32(OptContext *ctx, TCGOp *op, bool add)
+@@ -XXX,XX +XXX,XX @@ static inline TCGv_i64 tcg_temp_ebb_new_i64(void)
-+static bool fold_addsub2(OptContext *ctx, TCGOp *op, bool add)
  static inline TCGv_i64 tcg_temp_new_i64(void)
  {
-     if (arg_is_const(op->args[2]) && arg_is_const(op->args[3]) &&
+-    TCGTemp *t = tcg_temp_new_internal(TCG_TYPE_I64, TEMP_EBB);
-         arg_is_const(op->args[4]) && arg_is_const(op->args[5])) {
++    TCGTemp *t = tcg_temp_new_internal(TCG_TYPE_I64, TEMP_TB);
--        uint32_t al = arg_info(op->args[2])->val;
+     return temp_tcgv_i64(t);
 -        uint32_t ah = arg_info(op->args[3])->val;
 -        uint32_t bl = arg_info(op->args[4])->val;
 -        uint32_t bh = arg_info(op->args[5])->val;
 -        uint64_t a = ((uint64_t)ah << 32) | al;
 -        uint64_t b = ((uint64_t)bh << 32) | bl;
 +        uint64_t al = arg_info(op->args[2])->val;
 +        uint64_t ah = arg_info(op->args[3])->val;
 +        uint64_t bl = arg_info(op->args[4])->val;
 +        uint64_t bh = arg_info(op->args[5])->val;
          TCGArg rl, rh;
 -        TCGOp *op2 = tcg_op_insert_before(ctx->tcg, op, INDEX_op_mov_i32);
 +        TCGOp *op2;
 -        if (add) {
 -            a += b;
 +        if (ctx->type == TCG_TYPE_I32) {
 +            uint64_t a = deposit64(al, 32, 32, ah);
 +            uint64_t b = deposit64(bl, 32, 32, bh);
 +
 +            if (add) {
 +                a += b;
 +            } else {
 +                a -= b;
 +            }
 +
 +            al = sextract64(a, 0, 32);
 +            ah = sextract64(a, 32, 32);
          } else {
 -            a -= b;
 +            Int128 a = int128_make128(al, ah);
 +            Int128 b = int128_make128(bl, bh);
 +
 +            if (add) {
 +                a = int128_add(a, b);
 +            } else {
 +                a = int128_sub(a, b);
 +            }
 +
 +            al = int128_getlo(a);
 +            ah = int128_gethi(a);
          }
          rl = op->args[0];
          rh = op->args[1];
 -        tcg_opt_gen_movi(ctx, op, rl, (int32_t)a);
 -        tcg_opt_gen_movi(ctx, op2, rh, (int32_t)(a >> 32));
 +
 +        /* The proper opcode is supplied by tcg_opt_gen_mov. */
 +        op2 = tcg_op_insert_before(ctx->tcg, op, 0);
 +
 +        tcg_opt_gen_movi(ctx, op, rl, al);
 +        tcg_opt_gen_movi(ctx, op2, rh, ah);
          return true;
      }
      return false;
  }
--static bool fold_add2_i32(OptContext *ctx, TCGOp *op)
+@@ -XXX,XX +XXX,XX @@ static inline TCGv_i128 tcg_temp_ebb_new_i128(void)
-+static bool fold_add2(OptContext *ctx, TCGOp *op)
  static inline TCGv_i128 tcg_temp_new_i128(void)
  {
--    return fold_addsub2_i32(ctx, op, true);
+-    TCGTemp *t = tcg_temp_new_internal(TCG_TYPE_I128, TEMP_EBB);
-+    return fold_addsub2(ctx, op, true);
++    TCGTemp *t = tcg_temp_new_internal(TCG_TYPE_I128, TEMP_TB);
      return temp_tcgv_i128(t);
  }
- static bool fold_and(OptContext *ctx, TCGOp *op)
+@@ -XXX,XX +XXX,XX @@ static inline TCGv_ptr tcg_temp_ebb_new_ptr(void)
-@@ -XXX,XX +XXX,XX @@ static bool fold_sub(OptContext *ctx, TCGOp *op)
-     return false;
+ static inline TCGv_ptr tcg_temp_new_ptr(void)
  {
 -    TCGTemp *t = tcg_temp_new_internal(TCG_TYPE_PTR, TEMP_EBB);
 +    TCGTemp *t = tcg_temp_new_internal(TCG_TYPE_PTR, TEMP_TB);
      return temp_tcgv_ptr(t);
  }
--static bool fold_sub2_i32(OptContext *ctx, TCGOp *op)
-+static bool fold_sub2(OptContext *ctx, TCGOp *op)
- {
--    return fold_addsub2_i32(ctx, op, false);
-+    return fold_addsub2(ctx, op, false);
- }
- static bool fold_tcg_ld(OptContext *ctx, TCGOp *op)
-@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
-         CASE_OP_32_64_VEC(add):
-             done = fold_add(&ctx, op);
-             break;
--        case INDEX_op_add2_i32:
--            done = fold_add2_i32(&ctx, op);
-+        CASE_OP_32_64(add2):
-+            done = fold_add2(&ctx, op);
-             break;
-         CASE_OP_32_64_VEC(and):
-             done = fold_and(&ctx, op);
-@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
-         CASE_OP_32_64_VEC(sub):
-             done = fold_sub(&ctx, op);
-             break;
--        case INDEX_op_sub2_i32:
--            done = fold_sub2_i32(&ctx, op);
-+        CASE_OP_32_64(sub2):
-+            done = fold_sub2(&ctx, op);
-             break;
-         CASE_OP_32_64_VEC(xor):
-             done = fold_xor(&ctx, op);
 --
-.25.1
+.34.1

-[PULL 19/56] tcg/optimize: Split out fold_mb, fold_qemu_{ld,st}
+[PULL 50/62] target/arm: Drop copies in gen_sve_{ldr,str}
-This puts the separate mb optimization into the same framework
+Since we now get TEMP_TB temporaries by default, we no longer
-as the others.  While fold_qemu_{ld,st} are currently identical,
+need to make copies across these loops.  These were the only
-that won't last as more code gets moved.
+uses of new_tmp_a64_local(), so remove that as well.
-Reviewed-by: Luis Pires <luis.pires@eldorado.org.br>
+Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
 Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- tcg/optimize.c | 89 +++++++++++++++++++++++++++++---------------------
+ target/arm/tcg/translate-a64.h |  1 -
-file changed, 51 insertions(+), 38 deletions(-)
+ target/arm/tcg/translate-a64.c |  6 ------
  target/arm/tcg/translate-sve.c | 32 --------------------------------
 files changed, 39 deletions(-)
-diff --git a/tcg/optimize.c b/tcg/optimize.c
+diff --git a/target/arm/tcg/translate-a64.h b/target/arm/tcg/translate-a64.h
 index XXXXXXX..XXXXXXX 100644
---- a/tcg/optimize.c
+--- a/target/arm/tcg/translate-a64.h
-+++ b/tcg/optimize.c
++++ b/target/arm/tcg/translate-a64.h
-@@ -XXX,XX +XXX,XX @@ static bool fold_call(OptContext *ctx, TCGOp *op)
+@@ -XXX,XX +XXX,XX @@
-     return true;
+ #define TARGET_ARM_TRANSLATE_A64_H
  TCGv_i64 new_tmp_a64(DisasContext *s);
 -TCGv_i64 new_tmp_a64_local(DisasContext *s);
  TCGv_i64 new_tmp_a64_zero(DisasContext *s);
  TCGv_i64 cpu_reg(DisasContext *s, int reg);
  TCGv_i64 cpu_reg_sp(DisasContext *s, int reg);
 diff --git a/target/arm/tcg/translate-a64.c b/target/arm/tcg/translate-a64.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/tcg/translate-a64.c
 +++ b/target/arm/tcg/translate-a64.c
@@ -XXX,XX +XXX,XX @@ TCGv_i64 new_tmp_a64(DisasContext *s)
      return s->tmp_a64[s->tmp_a64_count++] = tcg_temp_new_i64();
  }
-+static bool fold_mb(OptContext *ctx, TCGOp *op)
+-TCGv_i64 new_tmp_a64_local(DisasContext *s)
-+{
+-{
-+    /* Eliminate duplicate and redundant fence instructions.  */
+-    assert(s->tmp_a64_count < TMP_A64_MAX);
-+    if (ctx->prev_mb) {
+-    return s->tmp_a64[s->tmp_a64_count++] = tcg_temp_local_new_i64();
-+        /*
+-}
-+         * Merge two barriers of the same type into one,
+-
-+         * or a weaker barrier into a stronger one,
+ TCGv_i64 new_tmp_a64_zero(DisasContext *s)
 +         * or two weaker barriers into a stronger one.
 +         *   mb X; mb Y => mb X|Y
 +         *   mb; strl => mb; st
 +         *   ldaq; mb => ld; mb
 +         *   ldaq; strl => ld; mb; st
 +         * Other combinations are also merged into a strong
 +         * barrier.  This is stricter than specified but for
 +         * the purposes of TCG is better than not optimizing.
 +         */
 +        ctx->prev_mb->args[0] |= op->args[0];
 +        tcg_op_remove(ctx->tcg, op);
 +    } else {
 +        ctx->prev_mb = op;
 +    }
 +    return true;
 +}
 +
 +static bool fold_qemu_ld(OptContext *ctx, TCGOp *op)
 +{
 +    /* Opcodes that touch guest memory stop the mb optimization.  */
 +    ctx->prev_mb = NULL;
 +    return false;
 +}
 +
 +static bool fold_qemu_st(OptContext *ctx, TCGOp *op)
 +{
 +    /* Opcodes that touch guest memory stop the mb optimization.  */
 +    ctx->prev_mb = NULL;
 +    return false;
 +}
 +
  /* Propagate constants and copies, fold constant expressions. */
  void tcg_optimize(TCGContext *s)
  {
-@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
+     TCGv_i64 t = new_tmp_a64(s);
-             }
+diff --git a/target/arm/tcg/translate-sve.c b/target/arm/tcg/translate-sve.c
-             break;
+index XXXXXXX..XXXXXXX 100644
+--- a/target/arm/tcg/translate-sve.c
-+        case INDEX_op_mb:
++++ b/target/arm/tcg/translate-sve.c
-+            done = fold_mb(&ctx, op);
+@@ -XXX,XX +XXX,XX @@ void gen_sve_ldr(DisasContext *s, TCGv_ptr base, int vofs,
-+            break;
+         TCGLabel *loop = gen_new_label();
-+        case INDEX_op_qemu_ld_i32:
+         TCGv_ptr tp, i = tcg_const_local_ptr(0);
-+        case INDEX_op_qemu_ld_i64:
-+            done = fold_qemu_ld(&ctx, op);
+-        /* Copy the clean address into a local temp, live across the loop. */
-+            break;
+-        t0 = clean_addr;
-+        case INDEX_op_qemu_st_i32:
+-        clean_addr = new_tmp_a64_local(s);
-+        case INDEX_op_qemu_st8_i32:
+-        tcg_gen_mov_i64(clean_addr, t0);
 +        case INDEX_op_qemu_st_i64:
 +            done = fold_qemu_st(&ctx, op);
 +            break;
 +
          default:
              break;
          }
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
          if (!done) {
              finish_folding(&ctx, op);
          }
 -
--        /* Eliminate duplicate and redundant fence instructions.  */
+-        if (base != cpu_env) {
--        if (ctx.prev_mb) {
+-            TCGv_ptr b = tcg_temp_local_new_ptr();
--            switch (opc) {
+-            tcg_gen_mov_ptr(b, base);
--            case INDEX_op_mb:
+-            base = b;
--                /* Merge two barriers of the same type into one,
+-        }
 -                 * or a weaker barrier into a stronger one,
 -                 * or two weaker barriers into a stronger one.
 -                 *   mb X; mb Y => mb X|Y
 -                 *   mb; strl => mb; st
 -                 *   ldaq; mb => ld; mb
 -                 *   ldaq; strl => ld; mb; st
 -                 * Other combinations are also merged into a strong
 -                 * barrier.  This is stricter than specified but for
 -                 * the purposes of TCG is better than not optimizing.
 -                 */
 -                ctx.prev_mb->args[0] |= op->args[0];
 -                tcg_op_remove(s, op);
 -                break;
 -
--            default:
+         gen_set_label(loop);
--                /* Opcodes that end the block stop the optimization.  */
--                if ((def->flags & TCG_OPF_BB_END) == 0) {
+         t0 = tcg_temp_new_i64();
--                    break;
+@@ -XXX,XX +XXX,XX @@ void gen_sve_ldr(DisasContext *s, TCGv_ptr base, int vofs,
--                }
--                /* fallthru */
+         tcg_gen_brcondi_ptr(TCG_COND_LTU, i, len_align, loop);
--            case INDEX_op_qemu_ld_i32:
+         tcg_temp_free_ptr(i);
--            case INDEX_op_qemu_ld_i64:
+-
--            case INDEX_op_qemu_st_i32:
+-        if (base != cpu_env) {
--            case INDEX_op_qemu_st8_i32:
+-            tcg_temp_free_ptr(base);
--            case INDEX_op_qemu_st_i64:
+-            assert(len_remain == 0);
 -                /* Opcodes that touch guest memory stop the optimization.  */
 -                ctx.prev_mb = NULL;
 -                break;
 -            }
 -        } else if (opc == INDEX_op_mb) {
 -            ctx.prev_mb = op;
 -        }
      }
- }
      /*
@@ -XXX,XX +XXX,XX @@ void gen_sve_str(DisasContext *s, TCGv_ptr base, int vofs,
          TCGLabel *loop = gen_new_label();
          TCGv_ptr tp, i = tcg_const_local_ptr(0);
 -        /* Copy the clean address into a local temp, live across the loop. */
 -        t0 = clean_addr;
 -        clean_addr = new_tmp_a64_local(s);
 -        tcg_gen_mov_i64(clean_addr, t0);
 -
 -        if (base != cpu_env) {
 -            TCGv_ptr b = tcg_temp_local_new_ptr();
 -            tcg_gen_mov_ptr(b, base);
 -            base = b;
 -        }
 -
          gen_set_label(loop);
          t0 = tcg_temp_new_i64();
@@ -XXX,XX +XXX,XX @@ void gen_sve_str(DisasContext *s, TCGv_ptr base, int vofs,
          tcg_gen_brcondi_ptr(TCG_COND_LTU, i, len_align, loop);
          tcg_temp_free_ptr(i);
 -
 -        if (base != cpu_env) {
 -            tcg_temp_free_ptr(base);
 -            assert(len_remain == 0);
 -        }
      }
      /* Predicate register stores can be any multiple of 2.  */
 --
-.25.1
+.34.1

-[PULL 41/56] tcg/optimize: Split out fold_xi_to_x
+[PULL 51/62] target/arm: Don't use tcg_temp_local_new_*
-Pull the "op r, a, i => mov r, a" optimization into a function,
+Since tcg_temp_new_* is now identical, use those.
 and use them in the outer-most logical operations.
-Reviewed-by: Luis Pires <luis.pires@eldorado.org.br>
+Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- tcg/optimize.c | 61 +++++++++++++++++++++-----------------------------
+ target/arm/tcg/translate-sve.c | 6 +++---
-file changed, 26 insertions(+), 35 deletions(-)
+ target/arm/tcg/translate.c     | 6 +++---
 files changed, 6 insertions(+), 6 deletions(-)
-diff --git a/tcg/optimize.c b/tcg/optimize.c
+diff --git a/target/arm/tcg/translate-sve.c b/target/arm/tcg/translate-sve.c
 index XXXXXXX..XXXXXXX 100644
---- a/tcg/optimize.c
+--- a/target/arm/tcg/translate-sve.c
-+++ b/tcg/optimize.c
++++ b/target/arm/tcg/translate-sve.c
-@@ -XXX,XX +XXX,XX @@ static bool fold_xi_to_i(OptContext *ctx, TCGOp *op, uint64_t i)
+@@ -XXX,XX +XXX,XX @@ static bool do_clast_vector(DisasContext *s, arg_rprr_esz *a, bool before)
      return false;
  }
 +/* If the binary operation has second argument @i, fold to identity. */
 +static bool fold_xi_to_x(OptContext *ctx, TCGOp *op, uint64_t i)
 +{
 +    if (arg_is_const(op->args[2]) && arg_info(op->args[2])->val == i) {
 +        return tcg_opt_gen_mov(ctx, op, op->args[0], op->args[1]);
 +    }
 +    return false;
 +}
 +
  /* If the binary operation has second argument @i, fold to NOT. */
  static bool fold_xi_to_not(OptContext *ctx, TCGOp *op, uint64_t i)
  {
@@ -XXX,XX +XXX,XX @@ static bool fold_xx_to_x(OptContext *ctx, TCGOp *op)
  static bool fold_add(OptContext *ctx, TCGOp *op)
  {
 -    return fold_const2(ctx, op);
 +    if (fold_const2(ctx, op) ||
 +        fold_xi_to_x(ctx, op, 0)) {
 +        return true;
 +    }
 +    return false;
  }
  static bool fold_addsub2_i32(OptContext *ctx, TCGOp *op, bool add)
@@ -XXX,XX +XXX,XX @@ static bool fold_and(OptContext *ctx, TCGOp *op)
  {
      if (fold_const2(ctx, op) ||
          fold_xi_to_i(ctx, op, 0) ||
 +        fold_xi_to_x(ctx, op, -1) ||
          fold_xx_to_x(ctx, op)) {
          return true;
      }
-@@ -XXX,XX +XXX,XX @@ static bool fold_andc(OptContext *ctx, TCGOp *op)
- {
+-    last = tcg_temp_local_new_i32();
-     if (fold_const2(ctx, op) ||
++    last = tcg_temp_new_i32();
-         fold_xx_to_i(ctx, op, 0) ||
+     over = gen_new_label();
-+        fold_xi_to_x(ctx, op, 0) ||
-         fold_ix_to_not(ctx, op, -1)) {
+     find_last_active(s, last, esz, a->pg);
@@ -XXX,XX +XXX,XX @@ void gen_sve_ldr(DisasContext *s, TCGv_ptr base, int vofs,
          tcg_temp_free_i64(t0);
      } else {
          TCGLabel *loop = gen_new_label();
 -        TCGv_ptr tp, i = tcg_const_local_ptr(0);
 +        TCGv_ptr tp, i = tcg_const_ptr(0);
          gen_set_label(loop);
@@ -XXX,XX +XXX,XX @@ void gen_sve_str(DisasContext *s, TCGv_ptr base, int vofs,
          tcg_temp_free_i64(t0);
      } else {
          TCGLabel *loop = gen_new_label();
 -        TCGv_ptr tp, i = tcg_const_local_ptr(0);
 +        TCGv_ptr tp, i = tcg_const_ptr(0);
          gen_set_label(loop);
 diff --git a/target/arm/tcg/translate.c b/target/arm/tcg/translate.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/tcg/translate.c
 +++ b/target/arm/tcg/translate.c
@@ -XXX,XX +XXX,XX @@ static bool op_strex(DisasContext *s, arg_STREX *a, MemOp mop, bool rel)
          tcg_gen_mb(TCG_MO_ALL | TCG_BAR_STRL);
      }
 -    addr = tcg_temp_local_new_i32();
 +    addr = tcg_temp_new_i32();
      load_reg_var(s, addr, a->rn);
      tcg_gen_addi_i32(addr, addr, a->imm);
@@ -XXX,XX +XXX,XX @@ static bool op_ldrex(DisasContext *s, arg_LDREX *a, MemOp mop, bool acq)
          return true;
      }
-@@ -XXX,XX +XXX,XX @@ static bool fold_dup2(OptContext *ctx, TCGOp *op)
- static bool fold_eqv(OptContext *ctx, TCGOp *op)
+-    addr = tcg_temp_local_new_i32();
- {
++    addr = tcg_temp_new_i32();
-     if (fold_const2(ctx, op) ||
+     load_reg_var(s, addr, a->rn);
-+        fold_xi_to_x(ctx, op, -1) ||
+     tcg_gen_addi_i32(addr, addr, a->imm);
-         fold_xi_to_not(ctx, op, 0)) {
-         return true;
+@@ -XXX,XX +XXX,XX @@ static bool trans_LE(DisasContext *s, arg_LE *a)
-     }
+          * Decrement by 1 << (4 - LTPSIZE). We need to use a TCG local
-@@ -XXX,XX +XXX,XX @@ static bool fold_not(OptContext *ctx, TCGOp *op)
+          * so that decr stays live after the brcondi.
- static bool fold_or(OptContext *ctx, TCGOp *op)
+          */
- {
+-        TCGv_i32 decr = tcg_temp_local_new_i32();
-     if (fold_const2(ctx, op) ||
++        TCGv_i32 decr = tcg_temp_new_i32();
-+        fold_xi_to_x(ctx, op, 0) ||
+         TCGv_i32 ltpsize = load_cpu_field(v7m.ltpsize);
-         fold_xx_to_x(ctx, op)) {
+         tcg_gen_sub_i32(decr, tcg_constant_i32(4), ltpsize);
-         return true;
+         tcg_gen_shl_i32(decr, tcg_constant_i32(1), decr);
      }
@@ -XXX,XX +XXX,XX @@ static bool fold_or(OptContext *ctx, TCGOp *op)
  static bool fold_orc(OptContext *ctx, TCGOp *op)
  {
      if (fold_const2(ctx, op) ||
 +        fold_xi_to_x(ctx, op, -1) ||
          fold_ix_to_not(ctx, op, 0)) {
          return true;
      }
@@ -XXX,XX +XXX,XX @@ static bool fold_sextract(OptContext *ctx, TCGOp *op)
  static bool fold_shift(OptContext *ctx, TCGOp *op)
  {
 -    return fold_const2(ctx, op);
 +    if (fold_const2(ctx, op) ||
 +        fold_xi_to_x(ctx, op, 0)) {
 +        return true;
 +    }
 +    return false;
  }
  static bool fold_sub_to_neg(OptContext *ctx, TCGOp *op)
@@ -XXX,XX +XXX,XX @@ static bool fold_sub(OptContext *ctx, TCGOp *op)
  {
      if (fold_const2(ctx, op) ||
          fold_xx_to_i(ctx, op, 0) ||
 +        fold_xi_to_x(ctx, op, 0) ||
          fold_sub_to_neg(ctx, op)) {
          return true;
      }
@@ -XXX,XX +XXX,XX @@ static bool fold_xor(OptContext *ctx, TCGOp *op)
  {
      if (fold_const2(ctx, op) ||
          fold_xx_to_i(ctx, op, 0) ||
 +        fold_xi_to_x(ctx, op, 0) ||
          fold_xi_to_not(ctx, op, -1)) {
          return true;
      }
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
              break;
          }
 -        /* Simplify expression for "op r, a, const => mov r, a" cases */
 -        switch (opc) {
 -        CASE_OP_32_64_VEC(add):
 -        CASE_OP_32_64_VEC(sub):
 -        CASE_OP_32_64_VEC(or):
 -        CASE_OP_32_64_VEC(xor):
 -        CASE_OP_32_64_VEC(andc):
 -        CASE_OP_32_64(shl):
 -        CASE_OP_32_64(shr):
 -        CASE_OP_32_64(sar):
 -        CASE_OP_32_64(rotl):
 -        CASE_OP_32_64(rotr):
 -            if (!arg_is_const(op->args[1])
 -                && arg_is_const(op->args[2])
 -                && arg_info(op->args[2])->val == 0) {
 -                tcg_opt_gen_mov(&ctx, op, op->args[0], op->args[1]);
 -                continue;
 -            }
 -            break;
 -        CASE_OP_32_64_VEC(and):
 -        CASE_OP_32_64_VEC(orc):
 -        CASE_OP_32_64(eqv):
 -            if (!arg_is_const(op->args[1])
 -                && arg_is_const(op->args[2])
 -                && arg_info(op->args[2])->val == -1) {
 -                tcg_opt_gen_mov(&ctx, op, op->args[0], op->args[1]);
 -                continue;
 -            }
 -            break;
 -        default:
 -            break;
 -        }
 -
          /* Simplify using known-zero bits. Currently only ops with a single
             output argument is supported. */
          z_mask = -1;
 --
-.25.1
+.34.1

-[PULL 21/56] tcg/optimize: Split out fold_setcond2
+[PULL 52/62] target/cris: Don't use tcg_temp_local_new
-Reduce some code duplication by folding the NE and EQ cases.
+Since tcg_temp_new is now identical, use that.
-Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
+Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
 Reviewed-by: Luis Pires <luis.pires@eldorado.org.br>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- tcg/optimize.c | 145 ++++++++++++++++++++++++-------------------------
+ target/cris/translate.c         |  6 +++---
-file changed, 72 insertions(+), 73 deletions(-)
+ target/cris/translate_v10.c.inc | 10 +++++-----
 files changed, 8 insertions(+), 8 deletions(-)
-diff --git a/tcg/optimize.c b/tcg/optimize.c
+diff --git a/target/cris/translate.c b/target/cris/translate.c
 index XXXXXXX..XXXXXXX 100644
---- a/tcg/optimize.c
+--- a/target/cris/translate.c
-+++ b/tcg/optimize.c
++++ b/target/cris/translate.c
-@@ -XXX,XX +XXX,XX @@ static bool fold_remainder(OptContext *ctx, TCGOp *op)
+@@ -XXX,XX +XXX,XX @@ static int dec_bound_r(CPUCRISState *env, DisasContext *dc)
-     return fold_const2(ctx, op);
+     LOG_DIS("bound.%c $r%u, $r%u\n",
- }
+             memsize_char(size), dc->op1, dc->op2);
+     cris_cc_mask(dc, CC_MASK_NZ);
-+static bool fold_setcond2(OptContext *ctx, TCGOp *op)
+-    l0 = tcg_temp_local_new();
-+{
++    l0 = tcg_temp_new();
-+    TCGCond cond = op->args[5];
+     dec_prep_move_r(dc, dc->op1, dc->op2, size, 0, l0);
-+    int i = do_constant_folding_cond2(&op->args[1], &op->args[3], cond);
+     cris_alu(dc, CC_OP_BOUND, cpu_R[dc->op2], cpu_R[dc->op2], l0, 4);
-+    int inv = 0;
+     tcg_temp_free(l0);
-+
+@@ -XXX,XX +XXX,XX @@ static int dec_bound_m(CPUCRISState *env, DisasContext *dc)
-+    if (i >= 0) {
+             dc->op1, dc->postinc ? "+]" : "]",
-+        goto do_setcond_const;
+             dc->op2);
-+    }
-+
+-    l[0] = tcg_temp_local_new();
-+    switch (cond) {
+-    l[1] = tcg_temp_local_new();
-+    case TCG_COND_LT:
++    l[0] = tcg_temp_new();
-+    case TCG_COND_GE:
++    l[1] = tcg_temp_new();
-+        /*
+         insn_len = dec_prep_alu_m(env, dc, 0, memsize, l[0], l[1]);
-+         * Simplify LT/GE comparisons vs zero to a single compare
+     cris_cc_mask(dc, CC_MASK_NZ);
-+         * vs the high word of the input.
+     cris_alu(dc, CC_OP_BOUND, cpu_R[dc->op2], l[0], l[1], 4);
-+         */
+diff --git a/target/cris/translate_v10.c.inc b/target/cris/translate_v10.c.inc
-+        if (arg_is_const(op->args[3]) && arg_info(op->args[3])->val == 0 &&
+index XXXXXXX..XXXXXXX 100644
-+            arg_is_const(op->args[4]) && arg_info(op->args[4])->val == 0) {
+--- a/target/cris/translate_v10.c.inc
-+            goto do_setcond_high;
++++ b/target/cris/translate_v10.c.inc
-+        }
+@@ -XXX,XX +XXX,XX @@ static void gen_store_v10_conditional(DisasContext *dc, TCGv addr, TCGv val,
-+        break;
+                        unsigned int size, int mem_index)
 +
 +    case TCG_COND_NE:
 +        inv = 1;
 +        QEMU_FALLTHROUGH;
 +    case TCG_COND_EQ:
 +        /*
 +         * Simplify EQ/NE comparisons where one of the pairs
 +         * can be simplified.
 +         */
 +        i = do_constant_folding_cond(INDEX_op_setcond_i32, op->args[1],
 +                                     op->args[3], cond);
 +        switch (i ^ inv) {
 +        case 0:
 +            goto do_setcond_const;
 +        case 1:
 +            goto do_setcond_high;
 +        }
 +
 +        i = do_constant_folding_cond(INDEX_op_setcond_i32, op->args[2],
 +                                     op->args[4], cond);
 +        switch (i ^ inv) {
 +        case 0:
 +            goto do_setcond_const;
 +        case 1:
 +            op->args[2] = op->args[3];
 +            op->args[3] = cond;
 +            op->opc = INDEX_op_setcond_i32;
 +            break;
 +        }
 +        break;
 +
 +    default:
 +        break;
 +
 +    do_setcond_high:
 +        op->args[1] = op->args[2];
 +        op->args[2] = op->args[4];
 +        op->args[3] = cond;
 +        op->opc = INDEX_op_setcond_i32;
 +        break;
 +    }
 +    return false;
 +
 + do_setcond_const:
 +    return tcg_opt_gen_movi(ctx, op, op->args[0], i);
 +}
 +
  static bool fold_shift(OptContext *ctx, TCGOp *op)
  {
-     return fold_const2(ctx, op);
+     TCGLabel *l1 = gen_new_label();
-@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
+-    TCGv taddr = tcg_temp_local_new();
-             }
+-    TCGv tval = tcg_temp_local_new();
-             break;
+-    TCGv t1 = tcg_temp_local_new();
++    TCGv taddr = tcg_temp_new();
--        case INDEX_op_setcond2_i32:
++    TCGv tval = tcg_temp_new();
--            i = do_constant_folding_cond2(&op->args[1], &op->args[3],
++    TCGv t1 = tcg_temp_new();
--                                          op->args[5]);
+     dc->postinc = 0;
--            if (i >= 0) {
+     cris_evaluate_flags(dc);
--            do_setcond_const:
--                tcg_opt_gen_movi(&ctx, op, op->args[0], i);
+@@ -XXX,XX +XXX,XX @@ static void dec10_reg_bound(DisasContext *dc, int size)
--                continue;
+ {
--            }
+     TCGv t;
--            if ((op->args[5] == TCG_COND_LT || op->args[5] == TCG_COND_GE)
--                 && arg_is_const(op->args[3])
+-    t = tcg_temp_local_new();
--                 && arg_info(op->args[3])->val == 0
++    t = tcg_temp_new();
--                 && arg_is_const(op->args[4])
+     t_gen_zext(t, cpu_R[dc->src], size);
--                 && arg_info(op->args[4])->val == 0) {
+     cris_alu(dc, CC_OP_BOUND, cpu_R[dc->dst], cpu_R[dc->dst], t, 4);
--                /* Simplify LT/GE comparisons vs zero to a single compare
+     tcg_temp_free(t);
--                   vs the high word of the input.  */
+@@ -XXX,XX +XXX,XX @@ static int dec10_ind_bound(CPUCRISState *env, DisasContext *dc,
--            do_setcond_high:
+     int rd = dc->dst;
--                reset_temp(op->args[0]);
+     TCGv t;
--                arg_info(op->args[0])->z_mask = 1;
--                op->opc = INDEX_op_setcond_i32;
+-    t = tcg_temp_local_new();
--                op->args[1] = op->args[2];
++    t = tcg_temp_new();
--                op->args[2] = op->args[4];
+     insn_len += dec10_prep_move_m(env, dc, 0, size, t);
--                op->args[3] = op->args[5];
+     cris_alu(dc, CC_OP_BOUND, cpu_R[dc->dst], cpu_R[rd], t, 4);
--                break;
+     if (dc->dst == 15) {
 -            }
 -            if (op->args[5] == TCG_COND_EQ) {
 -                /* Simplify EQ comparisons where one of the pairs
 -                   can be simplified.  */
 -                i = do_constant_folding_cond(INDEX_op_setcond_i32,
 -                                             op->args[1], op->args[3],
 -                                             TCG_COND_EQ);
 -                if (i == 0) {
 -                    goto do_setcond_const;
 -                } else if (i > 0) {
 -                    goto do_setcond_high;
 -                }
 -                i = do_constant_folding_cond(INDEX_op_setcond_i32,
 -                                             op->args[2], op->args[4],
 -                                             TCG_COND_EQ);
 -                if (i == 0) {
 -                    goto do_setcond_high;
 -                } else if (i < 0) {
 -                    break;
 -                }
 -            do_setcond_low:
 -                reset_temp(op->args[0]);
 -                arg_info(op->args[0])->z_mask = 1;
 -                op->opc = INDEX_op_setcond_i32;
 -                op->args[2] = op->args[3];
 -                op->args[3] = op->args[5];
 -                break;
 -            }
 -            if (op->args[5] == TCG_COND_NE) {
 -                /* Simplify NE comparisons where one of the pairs
 -                   can be simplified.  */
 -                i = do_constant_folding_cond(INDEX_op_setcond_i32,
 -                                             op->args[1], op->args[3],
 -                                             TCG_COND_NE);
 -                if (i == 0) {
 -                    goto do_setcond_high;
 -                } else if (i > 0) {
 -                    goto do_setcond_const;
 -                }
 -                i = do_constant_folding_cond(INDEX_op_setcond_i32,
 -                                             op->args[2], op->args[4],
 -                                             TCG_COND_NE);
 -                if (i == 0) {
 -                    goto do_setcond_low;
 -                } else if (i > 0) {
 -                    goto do_setcond_const;
 -                }
 -            }
 -            break;
 -
          default:
              break;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
          CASE_OP_32_64(shr):
              done = fold_shift(&ctx, op);
              break;
 +        case INDEX_op_setcond2_i32:
 +            done = fold_setcond2(&ctx, op);
 +            break;
          CASE_OP_32_64_VEC(sub):
              done = fold_sub(&ctx, op);
              break;
 --
-.25.1
+.34.1

-New patch
+[PULL 53/62] target/hexagon: Don't use tcg_temp_local_new_*
+Since tcg_temp_new_* is now identical, use those.
 Reviewed-by: Taylor Simpson <tsimpson@quicinc.com>
 Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
  target/hexagon/idef-parser/README.rst       |  4 ++--
  target/hexagon/gen_tcg.h                    |  4 ++--
  target/hexagon/genptr.c                     | 16 ++++++++--------
  target/hexagon/idef-parser/parser-helpers.c |  4 ++--
  target/hexagon/translate.c                  |  2 +-
  target/hexagon/README                       |  8 ++++----
  target/hexagon/gen_tcg_funcs.py             | 18 +++++++-----------
 files changed, 26 insertions(+), 30 deletions(-)
 diff --git a/target/hexagon/idef-parser/README.rst b/target/hexagon/idef-parser/README.rst
 index XXXXXXX..XXXXXXX 100644
 --- a/target/hexagon/idef-parser/README.rst
 +++ b/target/hexagon/idef-parser/README.rst
@@ -XXX,XX +XXX,XX @@ generators the previous declarations are mapped to
  ::
 -    int var1;           ->      TCGv_i32 var1 = tcg_temp_local_new_i32();
 +    int var1;           ->      TCGv_i32 var1 = tcg_temp_new_i32();
 -    int var2 = 0;       ->      TCGv_i32 var1 = tcg_temp_local_new_i32();
 +    int var2 = 0;       ->      TCGv_i32 var1 = tcg_temp_new_i32();
                                  tcg_gen_movi_i32(j, ((int64_t) 0ULL));
  which are later automatically freed at the end of the function they're declared
 diff --git a/target/hexagon/gen_tcg.h b/target/hexagon/gen_tcg.h
 index XXXXXXX..XXXXXXX 100644
 --- a/target/hexagon/gen_tcg.h
 +++ b/target/hexagon/gen_tcg.h
@@ -XXX,XX +XXX,XX @@
   */
  #define fGEN_TCG_PRED_LOAD(GET_EA, PRED, SIZE, SIGN) \
      do { \
 -        TCGv LSB = tcg_temp_local_new(); \
 +        TCGv LSB = tcg_temp_new(); \
          TCGLabel *label = gen_new_label(); \
          tcg_gen_movi_tl(EA, 0); \
          PRED;  \
@@ -XXX,XX +XXX,XX @@
  /* Predicated loads into a register pair */
  #define fGEN_TCG_PRED_LOAD_PAIR(GET_EA, PRED) \
      do { \
 -        TCGv LSB = tcg_temp_local_new(); \
 +        TCGv LSB = tcg_temp_new(); \
          TCGLabel *label = gen_new_label(); \
          tcg_gen_movi_tl(EA, 0); \
          PRED;  \
 diff --git a/target/hexagon/genptr.c b/target/hexagon/genptr.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/hexagon/genptr.c
 +++ b/target/hexagon/genptr.c
@@ -XXX,XX +XXX,XX @@ static void gen_cond_call(DisasContext *ctx, TCGv pred,
                            TCGCond cond, int pc_off)
  {
      TCGv next_PC;
 -    TCGv lsb = tcg_temp_local_new();
 +    TCGv lsb = tcg_temp_new();
      TCGLabel *skip = gen_new_label();
      tcg_gen_andi_tl(lsb, pred, 1);
      gen_write_new_pc_pcrel(ctx, pc_off, cond, lsb);
@@ -XXX,XX +XXX,XX @@ static void gen_cond_call(DisasContext *ctx, TCGv pred,
  static void gen_endloop0(DisasContext *ctx)
  {
 -    TCGv lpcfg = tcg_temp_local_new();
 +    TCGv lpcfg = tcg_temp_new();
      GET_USR_FIELD(USR_LPCFG, lpcfg);
@@ -XXX,XX +XXX,XX @@ static void gen_sar(TCGv dst, TCGv src, TCGv shift_amt)
  /* Bidirectional shift right with saturation */
  static void gen_asr_r_r_sat(TCGv RdV, TCGv RsV, TCGv RtV)
  {
 -    TCGv shift_amt = tcg_temp_local_new();
 +    TCGv shift_amt = tcg_temp_new();
      TCGLabel *positive = gen_new_label();
      TCGLabel *done = gen_new_label();
@@ -XXX,XX +XXX,XX @@ static void gen_asr_r_r_sat(TCGv RdV, TCGv RsV, TCGv RtV)
  /* Bidirectional shift left with saturation */
  static void gen_asl_r_r_sat(TCGv RdV, TCGv RsV, TCGv RtV)
  {
 -    TCGv shift_amt = tcg_temp_local_new();
 +    TCGv shift_amt = tcg_temp_new();
      TCGLabel *positive = gen_new_label();
      TCGLabel *done = gen_new_label();
@@ -XXX,XX +XXX,XX @@ static void gen_log_vreg_write(DisasContext *ctx, intptr_t srcoff, int num,
      intptr_t dstoff;
      if (is_predicated) {
 -        TCGv cancelled = tcg_temp_local_new();
 +        TCGv cancelled = tcg_temp_new();
          label_end = gen_new_label();
          /* Don't do anything if the slot was cancelled */
@@ -XXX,XX +XXX,XX @@ static void gen_log_qreg_write(intptr_t srcoff, int num, int vnew,
      intptr_t dstoff;
      if (is_predicated) {
 -        TCGv cancelled = tcg_temp_local_new();
 +        TCGv cancelled = tcg_temp_new();
          label_end = gen_new_label();
          /* Don't do anything if the slot was cancelled */
@@ -XXX,XX +XXX,XX @@ void gen_satu_i64_ovfl(TCGv ovfl, TCGv_i64 dest, TCGv_i64 source, int width)
  /* Implements the fADDSAT64 macro in TCG */
  void gen_add_sat_i64(TCGv_i64 ret, TCGv_i64 a, TCGv_i64 b)
  {
 -    TCGv_i64 sum = tcg_temp_local_new_i64();
 +    TCGv_i64 sum = tcg_temp_new_i64();
      TCGv_i64 xor = tcg_temp_new_i64();
      TCGv_i64 cond1 = tcg_temp_new_i64();
 -    TCGv_i64 cond2 = tcg_temp_local_new_i64();
 +    TCGv_i64 cond2 = tcg_temp_new_i64();
      TCGv_i64 cond3 = tcg_temp_new_i64();
      TCGv_i64 mask = tcg_constant_i64(0x8000000000000000ULL);
      TCGv_i64 max_pos = tcg_constant_i64(0x7FFFFFFFFFFFFFFFLL);
 diff --git a/target/hexagon/idef-parser/parser-helpers.c b/target/hexagon/idef-parser/parser-helpers.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/hexagon/idef-parser/parser-helpers.c
 +++ b/target/hexagon/idef-parser/parser-helpers.c
@@ -XXX,XX +XXX,XX @@ HexValue gen_tmp_local(Context *c,
      rvalue.is_manual = false;
      rvalue.tmp.index = c->inst.tmp_count;
      OUT(c, locp, "TCGv_i", &bit_width, " tmp_", &c->inst.tmp_count,
 -        " = tcg_temp_local_new_i", &bit_width, "();\n");
 +        " = tcg_temp_new_i", &bit_width, "();\n");
      c->inst.tmp_count++;
      return rvalue;
  }
@@ -XXX,XX +XXX,XX @@ void gen_varid_allocate(Context *c,
      new_var.signedness = signedness;
      EMIT_HEAD(c, "TCGv_%s %s", bit_suffix, varid->var.name->str);
 -    EMIT_HEAD(c, " = tcg_temp_local_new_%s();\n", bit_suffix);
 +    EMIT_HEAD(c, " = tcg_temp_new_%s();\n", bit_suffix);
      g_array_append_val(c->inst.allocated, new_var);
  }
 diff --git a/target/hexagon/translate.c b/target/hexagon/translate.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/hexagon/translate.c
 +++ b/target/hexagon/translate.c
@@ -XXX,XX +XXX,XX @@ void process_store(DisasContext *ctx, int slot_num)
          tcg_temp_free(cancelled);
      }
      {
 -        TCGv address = tcg_temp_local_new();
 +        TCGv address = tcg_temp_new();
          tcg_gen_mov_tl(address, hex_store_addr[slot_num]);
          /*
 diff --git a/target/hexagon/README b/target/hexagon/README
 index XXXXXXX..XXXXXXX 100644
 --- a/target/hexagon/README
 +++ b/target/hexagon/README
@@ -XXX,XX +XXX,XX @@ tcg_funcs_generated.c.inc
                      Insn *insn,
                      Packet *pkt)
      {
 -        TCGv RdV = tcg_temp_local_new();
 +        TCGv RdV = tcg_temp_new();
          const int RdN = insn->regno[0];
          TCGv RsV = hex_gpr[insn->regno[1]];
          TCGv RtV = hex_gpr[insn->regno[2]];
@@ -XXX,XX +XXX,XX @@ istruction.
          const int VdN = insn->regno[0];
          const intptr_t VdV_off =
              ctx_future_vreg_off(ctx, VdN, 1, true);
 -        TCGv_ptr VdV = tcg_temp_local_new_ptr();
 +        TCGv_ptr VdV = tcg_temp_new_ptr();
          tcg_gen_addi_ptr(VdV, cpu_env, VdV_off);
          const int VuN = insn->regno[1];
          const intptr_t VuV_off =
              vreg_src_off(ctx, VuN);
 -        TCGv_ptr VuV = tcg_temp_local_new_ptr();
 +        TCGv_ptr VuV = tcg_temp_new_ptr();
          const int VvN = insn->regno[2];
          const intptr_t VvV_off =
              vreg_src_off(ctx, VvN);
 -        TCGv_ptr VvV = tcg_temp_local_new_ptr();
 +        TCGv_ptr VvV = tcg_temp_new_ptr();
          tcg_gen_addi_ptr(VuV, cpu_env, VuV_off);
          tcg_gen_addi_ptr(VvV, cpu_env, VvV_off);
          TCGv slot = tcg_constant_tl(insn->slot);
 diff --git a/target/hexagon/gen_tcg_funcs.py b/target/hexagon/gen_tcg_funcs.py
 index XXXXXXX..XXXXXXX 100755
 --- a/target/hexagon/gen_tcg_funcs.py
 +++ b/target/hexagon/gen_tcg_funcs.py
@@ -XXX,XX +XXX,XX @@
  ## Helpers for gen_tcg_func
  ##
  def gen_decl_ea_tcg(f, tag):
 -    if ('A_CONDEXEC' in hex_common.attribdict[tag] or
 -        'A_LOAD' in hex_common.attribdict[tag]):
 -        f.write("    TCGv EA = tcg_temp_local_new();\n")
 -    else:
 -        f.write("    TCGv EA = tcg_temp_new();\n")
 +    f.write("    TCGv EA = tcg_temp_new();\n")
  def gen_free_ea_tcg(f):
      f.write("    tcg_temp_free(EA);\n")
  def genptr_decl_pair_writable(f, tag, regtype, regid, regno):
      regN="%s%sN" % (regtype,regid)
 -    f.write("    TCGv_i64 %s%sV = tcg_temp_local_new_i64();\n" % \
 +    f.write("    TCGv_i64 %s%sV = tcg_temp_new_i64();\n" % \
          (regtype, regid))
      if (regtype == "C"):
          f.write("    const int %s = insn->regno[%d] + HEX_REG_SA0;\n" % \
@@ -XXX,XX +XXX,XX @@ def genptr_decl_pair_writable(f, tag, regtype, regid, regno):
  def genptr_decl_writable(f, tag, regtype, regid, regno):
      regN="%s%sN" % (regtype,regid)
 -    f.write("    TCGv %s%sV = tcg_temp_local_new();\n" % \
 +    f.write("    TCGv %s%sV = tcg_temp_new();\n" % \
          (regtype, regid))
      if (regtype == "C"):
          f.write("    const int %s = insn->regno[%d] + HEX_REG_SA0;\n" % \
@@ -XXX,XX +XXX,XX @@ def genptr_decl(f, tag, regtype, regid, regno):
      regN="%s%sN" % (regtype,regid)
      if (regtype == "R"):
          if (regid in {"ss", "tt"}):
 -            f.write("    TCGv_i64 %s%sV = tcg_temp_local_new_i64();\n" % \
 +            f.write("    TCGv_i64 %s%sV = tcg_temp_new_i64();\n" % \
                  (regtype, regid))
              f.write("    const int %s = insn->regno[%d];\n" % \
                  (regN, regno))
@@ -XXX,XX +XXX,XX @@ def genptr_decl(f, tag, regtype, regid, regno):
              print("Bad register parse: ", regtype, regid)
      elif (regtype == "C"):
          if (regid == "ss"):
 -            f.write("    TCGv_i64 %s%sV = tcg_temp_local_new_i64();\n" % \
 +            f.write("    TCGv_i64 %s%sV = tcg_temp_new_i64();\n" % \
                  (regtype, regid))
              f.write("    const int %s = insn->regno[%d] + HEX_REG_SA0;\n" % \
                  (regN, regno))
          elif (regid == "dd"):
              genptr_decl_pair_writable(f, tag, regtype, regid, regno)
          elif (regid == "s"):
 -            f.write("    TCGv %s%sV = tcg_temp_local_new();\n" % \
 +            f.write("    TCGv %s%sV = tcg_temp_new();\n" % \
                  (regtype, regid))
              f.write("    const int %s%sN = insn->regno[%d] + HEX_REG_SA0;\n" % \
                  (regtype, regid, regno))
@@ -XXX,XX +XXX,XX @@ def genptr_dst_write_opn(f,regtype, regid, tag):
  ##     We produce:
  ##    static void generate_A2_add(DisasContext *ctx)
  ##       {
 -##           TCGv RdV = tcg_temp_local_new();
 +##           TCGv RdV = tcg_temp_new();
  ##           const int RdN = insn->regno[0];
  ##           TCGv RsV = hex_gpr[insn->regno[1]];
  ##           TCGv RtV = hex_gpr[insn->regno[2]];
 --
 .34.1

-[PULL 03/56] host-utils: move udiv_qrnnd() to host-utils
+[PULL 54/62] target/hexagon/idef-parser: Drop gen_tmp_local
-From: Luis Pires <luis.pires@eldorado.org.br>
+This is now equivalent to gen_tmp.
-Move udiv_qrnnd() from include/fpu/softfloat-macros.h to host-utils,
+Reviewed-by: Taylor Simpson <tsimpson@quicinc.com>
-so it can be reused by divu128().
+Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
 Signed-off-by: Luis Pires <luis.pires@eldorado.org.br>
 Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
 Message-Id: <20211025191154.350831-3-luis.pires@eldorado.org.br>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- include/fpu/softfloat-macros.h | 82 ----------------------------------
+ target/hexagon/idef-parser/parser-helpers.c | 24 ++-------------------
- include/qemu/host-utils.h      | 81 +++++++++++++++++++++++++++++++++
+file changed, 2 insertions(+), 22 deletions(-)
 files changed, 81 insertions(+), 82 deletions(-)
-diff --git a/include/fpu/softfloat-macros.h b/include/fpu/softfloat-macros.h
+diff --git a/target/hexagon/idef-parser/parser-helpers.c b/target/hexagon/idef-parser/parser-helpers.c
 index XXXXXXX..XXXXXXX 100644
---- a/include/fpu/softfloat-macros.h
+--- a/target/hexagon/idef-parser/parser-helpers.c
-+++ b/include/fpu/softfloat-macros.h
++++ b/target/hexagon/idef-parser/parser-helpers.c
-@@ -XXX,XX +XXX,XX @@
+@@ -XXX,XX +XXX,XX @@ HexValue gen_tmp(Context *c,
-  * so some portions are provided under:
+     return rvalue;
   *  the SoftFloat-2a license
   *  the BSD license
 - *  GPL-v2-or-later
   *
   * Any future contributions to this file after December 1st 2014 will be
   * taken to be licensed under the Softfloat-2a license unless specifically
@@ -XXX,XX +XXX,XX @@ this code that are retained.
   * THE POSSIBILITY OF SUCH DAMAGE.
   */
 -/* Portions of this work are licensed under the terms of the GNU GPL,
 - * version 2 or later. See the COPYING file in the top-level directory.
 - */
 -
  #ifndef FPU_SOFTFLOAT_MACROS_H
  #define FPU_SOFTFLOAT_MACROS_H
@@ -XXX,XX +XXX,XX @@ static inline uint64_t estimateDiv128To64(uint64_t a0, uint64_t a1, uint64_t b)
  }
--/* From the GNU Multi Precision Library - longlong.h __udiv_qrnnd
+-HexValue gen_tmp_local(Context *c,
-- * (https://gmplib.org/repo/gmp/file/tip/longlong.h)
+-                       YYLTYPE *locp,
-- *
+-                       unsigned bit_width,
-- * Licensed under the GPLv2/LGPLv3
+-                       HexSignedness signedness)
 - */
 -static inline uint64_t udiv_qrnnd(uint64_t *r, uint64_t n1,
 -                                  uint64_t n0, uint64_t d)
 -{
--#if defined(__x86_64__)
+-    HexValue rvalue;
--    uint64_t q;
+-    assert(bit_width == 32 || bit_width == 64);
--    asm("divq %4" : "=a"(q), "=d"(*r) : "0"(n0), "1"(n1), "rm"(d));
+-    memset(&rvalue, 0, sizeof(HexValue));
--    return q;
+-    rvalue.type = TEMP;
--#elif defined(__s390x__) && !defined(__clang__)
+-    rvalue.bit_width = bit_width;
--    /* Need to use a TImode type to get an even register pair for DLGR.  */
+-    rvalue.signedness = signedness;
--    unsigned __int128 n = (unsigned __int128)n1 << 64 | n0;
+-    rvalue.is_dotnew = false;
--    asm("dlgr %0, %1" : "+r"(n) : "r"(d));
+-    rvalue.is_manual = false;
--    *r = n >> 64;
+-    rvalue.tmp.index = c->inst.tmp_count;
--    return n;
+-    OUT(c, locp, "TCGv_i", &bit_width, " tmp_", &c->inst.tmp_count,
--#elif defined(_ARCH_PPC64) && defined(_ARCH_PWR7)
+-        " = tcg_temp_new_i", &bit_width, "();\n");
--    /* From Power ISA 2.06, programming note for divdeu.  */
+-    c->inst.tmp_count++;
--    uint64_t q1, q2, Q, r1, r2, R;
+-    return rvalue;
 -    asm("divdeu %0,%2,%4; divdu %1,%3,%4"
 -        : "=&r"(q1), "=r"(q2)
 -        : "r"(n1), "r"(n0), "r"(d));
 -    r1 = -(q1 * d);         /* low part of (n1<<64) - (q1 * d) */
 -    r2 = n0 - (q2 * d);
 -    Q = q1 + q2;
 -    R = r1 + r2;
 -    if (R >= d || R < r2) { /* overflow implies R > d */
 -        Q += 1;
 -        R -= d;
 -    }
 -    *r = R;
 -    return Q;
 -#else
 -    uint64_t d0, d1, q0, q1, r1, r0, m;
 -
 -    d0 = (uint32_t)d;
 -    d1 = d >> 32;
 -
 -    r1 = n1 % d1;
 -    q1 = n1 / d1;
 -    m = q1 * d0;
 -    r1 = (r1 << 32) | (n0 >> 32);
 -    if (r1 < m) {
 -        q1 -= 1;
 -        r1 += d;
 -        if (r1 >= d) {
 -            if (r1 < m) {
 -                q1 -= 1;
 -                r1 += d;
 -            }
 -        }
 -    }
 -    r1 -= m;
 -
 -    r0 = r1 % d1;
 -    q0 = r1 / d1;
 -    m = q0 * d0;
 -    r0 = (r0 << 32) | (uint32_t)n0;
 -    if (r0 < m) {
 -        q0 -= 1;
 -        r0 += d;
 -        if (r0 >= d) {
 -            if (r0 < m) {
 -                q0 -= 1;
 -                r0 += d;
 -            }
 -        }
 -    }
 -    r0 -= m;
 -
 -    *r = r0;
 -    return (q1 << 32) | q0;
 -#endif
 -}
 -
- /*----------------------------------------------------------------------------
+ HexValue gen_tmp_value(Context *c,
- | Returns an approximation to the square root of the 32-bit significand given
+                        YYLTYPE *locp,
- | by `a'.  Considered as an integer, `a' must be at least 2^31.  If bit 0 of
+                        const char *value,
-diff --git a/include/qemu/host-utils.h b/include/qemu/host-utils.h
+@@ -XXX,XX +XXX,XX @@ HexValue gen_rvalue_sat(Context *c, YYLTYPE *locp, HexSat *sat,
-index XXXXXXX..XXXXXXX 100644
+     assert_signedness(c, locp, sat->signedness);
---- a/include/qemu/host-utils.h
-+++ b/include/qemu/host-utils.h
+     unsigned_str = (sat->signedness == UNSIGNED) ? "u" : "";
-@@ -XXX,XX +XXX,XX @@
+-    res = gen_tmp_local(c, locp, value->bit_width, sat->signedness);
-  * THE SOFTWARE.
+-    ovfl = gen_tmp_local(c, locp, 32, sat->signedness);
-  */
++    res = gen_tmp(c, locp, value->bit_width, sat->signedness);
++    ovfl = gen_tmp(c, locp, 32, sat->signedness);
-+/* Portions of this work are licensed under the terms of the GNU GPL,
+     OUT(c, locp, "gen_sat", unsigned_str, "_", bit_suffix, "_ovfl(");
-+ * version 2 or later. See the COPYING file in the top-level directory.
+     OUT(c, locp, &ovfl, ", ", &res, ", ", value, ", ", &width->imm.value,
-+ */
+         ");\n");
 +
  #ifndef HOST_UTILS_H
  #define HOST_UTILS_H
@@ -XXX,XX +XXX,XX @@ void urshift(uint64_t *plow, uint64_t *phigh, int32_t shift);
   */
  void ulshift(uint64_t *plow, uint64_t *phigh, int32_t shift, bool *overflow);
 +/* From the GNU Multi Precision Library - longlong.h __udiv_qrnnd
 + * (https://gmplib.org/repo/gmp/file/tip/longlong.h)
 + *
 + * Licensed under the GPLv2/LGPLv3
 + */
 +static inline uint64_t udiv_qrnnd(uint64_t *r, uint64_t n1,
 +                                  uint64_t n0, uint64_t d)
 +{
 +#if defined(__x86_64__)
 +    uint64_t q;
 +    asm("divq %4" : "=a"(q), "=d"(*r) : "0"(n0), "1"(n1), "rm"(d));
 +    return q;
 +#elif defined(__s390x__) && !defined(__clang__)
 +    /* Need to use a TImode type to get an even register pair for DLGR.  */
 +    unsigned __int128 n = (unsigned __int128)n1 << 64 | n0;
 +    asm("dlgr %0, %1" : "+r"(n) : "r"(d));
 +    *r = n >> 64;
 +    return n;
 +#elif defined(_ARCH_PPC64) && defined(_ARCH_PWR7)
 +    /* From Power ISA 2.06, programming note for divdeu.  */
 +    uint64_t q1, q2, Q, r1, r2, R;
 +    asm("divdeu %0,%2,%4; divdu %1,%3,%4"
 +        : "=&r"(q1), "=r"(q2)
 +        : "r"(n1), "r"(n0), "r"(d));
 +    r1 = -(q1 * d);         /* low part of (n1<<64) - (q1 * d) */
 +    r2 = n0 - (q2 * d);
 +    Q = q1 + q2;
 +    R = r1 + r2;
 +    if (R >= d || R < r2) { /* overflow implies R > d */
 +        Q += 1;
 +        R -= d;
 +    }
 +    *r = R;
 +    return Q;
 +#else
 +    uint64_t d0, d1, q0, q1, r1, r0, m;
 +
 +    d0 = (uint32_t)d;
 +    d1 = d >> 32;
 +
 +    r1 = n1 % d1;
 +    q1 = n1 / d1;
 +    m = q1 * d0;
 +    r1 = (r1 << 32) | (n0 >> 32);
 +    if (r1 < m) {
 +        q1 -= 1;
 +        r1 += d;
 +        if (r1 >= d) {
 +            if (r1 < m) {
 +                q1 -= 1;
 +                r1 += d;
 +            }
 +        }
 +    }
 +    r1 -= m;
 +
 +    r0 = r1 % d1;
 +    q0 = r1 / d1;
 +    m = q0 * d0;
 +    r0 = (r0 << 32) | (uint32_t)n0;
 +    if (r0 < m) {
 +        q0 -= 1;
 +        r0 += d;
 +        if (r0 >= d) {
 +            if (r0 < m) {
 +                q0 -= 1;
 +                r0 += d;
 +            }
 +        }
 +    }
 +    r0 -= m;
 +
 +    *r = r0;
 +    return (q1 << 32) | q0;
 +#endif
 +}
 +
  #endif
 --
-.25.1
+.34.1

-[PULL 18/56] tcg/optimize: Use a boolean to avoid a mass of continues
+[PULL 55/62] target/hppa: Don't use tcg_temp_local_new
-Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
+This wasn't actually used at all, just some unused
-Reviewed-by: Luis Pires <luis.pires@eldorado.org.br>
+macro re-definitions.
-Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
 Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- tcg/optimize.c | 9 ++++++---
+ target/hppa/translate.c | 3 ---
-file changed, 6 insertions(+), 3 deletions(-)
+file changed, 3 deletions(-)
-diff --git a/tcg/optimize.c b/tcg/optimize.c
+diff --git a/target/hppa/translate.c b/target/hppa/translate.c
 index XXXXXXX..XXXXXXX 100644
---- a/tcg/optimize.c
+--- a/target/hppa/translate.c
-+++ b/tcg/optimize.c
++++ b/target/hppa/translate.c
-@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
+@@ -XXX,XX +XXX,XX @@
-         uint64_t z_mask, partmask, affected, tmp;
+ #undef TCGv
-         TCGOpcode opc = op->opc;
+ #undef tcg_temp_new
-         const TCGOpDef *def;
+ #undef tcg_global_mem_new
-+        bool done = false;
+-#undef tcg_temp_local_new
+ #undef tcg_temp_free
-         /* Calls are special. */
-         if (opc == INDEX_op_call) {
+ #if TARGET_LONG_BITS == 64
-@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
+@@ -XXX,XX +XXX,XX @@
-            allocator where needed and possible.  Also detect copies. */
-         switch (opc) {
+ #define tcg_temp_new         tcg_temp_new_i64
-         CASE_OP_32_64_VEC(mov):
+ #define tcg_global_mem_new   tcg_global_mem_new_i64
--            tcg_opt_gen_mov(&ctx, op, op->args[0], op->args[1]);
+-#define tcg_temp_local_new   tcg_temp_local_new_i64
--            continue;
+ #define tcg_temp_free        tcg_temp_free_i64
-+            done = tcg_opt_gen_mov(&ctx, op, op->args[0], op->args[1]);
-+            break;
+ #define tcg_gen_movi_reg     tcg_gen_movi_i64
+@@ -XXX,XX +XXX,XX @@
-         case INDEX_op_dup_vec:
+ #define TCGv_reg             TCGv_i32
-             if (arg_is_const(op->args[1])) {
+ #define tcg_temp_new         tcg_temp_new_i32
-@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
+ #define tcg_global_mem_new   tcg_global_mem_new_i32
-             break;
+-#define tcg_temp_local_new   tcg_temp_local_new_i32
-         }
+ #define tcg_temp_free        tcg_temp_free_i32
--        finish_folding(&ctx, op);
+ #define tcg_gen_movi_reg     tcg_gen_movi_i32
 +        if (!done) {
 +            finish_folding(&ctx, op);
 +        }
          /* Eliminate duplicate and redundant fence instructions.  */
          if (ctx.prev_mb) {
 --
-.25.1
+.34.1

-[PULL 12/56] tcg/optimize: Split out copy_propagate
+[PULL 56/62] target/i386: Don't use tcg_temp_local_new
-Continue splitting tcg_optimize.
+Since tcg_temp_new is now identical, use that.
 In some cases we can avoid a copy from A0 or T0.
-Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
+Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
 Reviewed-by: Luis Pires <luis.pires@eldorado.org.br>
 Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- tcg/optimize.c | 22 ++++++++++++++--------
+ target/i386/tcg/translate.c | 27 +++++++++------------------
-file changed, 14 insertions(+), 8 deletions(-)
+file changed, 9 insertions(+), 18 deletions(-)
-diff --git a/tcg/optimize.c b/tcg/optimize.c
+diff --git a/target/i386/tcg/translate.c b/target/i386/tcg/translate.c
 index XXXXXXX..XXXXXXX 100644
---- a/tcg/optimize.c
+--- a/target/i386/tcg/translate.c
-+++ b/tcg/optimize.c
++++ b/target/i386/tcg/translate.c
-@@ -XXX,XX +XXX,XX @@ static void init_arguments(OptContext *ctx, TCGOp *op, int nb_args)
+@@ -XXX,XX +XXX,XX @@ static bool disas_insn(DisasContext *s, CPUState *cpu)
-     }
+                 if (mod == 3) {
                      goto illegal_op;
                  }
 -                a0 = tcg_temp_local_new();
 -                t0 = tcg_temp_local_new();
 +                a0 = s->A0;
 +                t0 = s->T0;
                  label1 = gen_new_label();
 -                tcg_gen_mov_tl(a0, s->A0);
 -                tcg_gen_mov_tl(t0, s->T0);
 -
                  gen_set_label(label1);
                  t1 = tcg_temp_new();
                  t2 = tcg_temp_new();
@@ -XXX,XX +XXX,XX @@ static bool disas_insn(DisasContext *s, CPUState *cpu)
                  tcg_gen_brcond_tl(TCG_COND_NE, t0, t2, label1);
                  tcg_temp_free(t2);
 -                tcg_temp_free(a0);
                  tcg_gen_neg_tl(s->T0, t0);
 -                tcg_temp_free(t0);
              } else {
                  tcg_gen_neg_tl(s->T0, s->T0);
                  if (mod != 3) {
@@ -XXX,XX +XXX,XX @@ static bool disas_insn(DisasContext *s, CPUState *cpu)
  #endif
          {
              TCGLabel *label1;
 -            TCGv t0, t1, t2, a0;
 +            TCGv t0, t1, t2;
              if (!PE(s) || VM86(s))
                  goto illegal_op;
 -            t0 = tcg_temp_local_new();
 -            t1 = tcg_temp_local_new();
 -            t2 = tcg_temp_local_new();
 +            t0 = tcg_temp_new();
 +            t1 = tcg_temp_new();
 +            t2 = tcg_temp_new();
              ot = MO_16;
              modrm = x86_ldub_code(env, s);
              reg = (modrm >> 3) & 7;
@@ -XXX,XX +XXX,XX @@ static bool disas_insn(DisasContext *s, CPUState *cpu)
              if (mod != 3) {
                  gen_lea_modrm(env, s, modrm);
                  gen_op_ld_v(s, ot, t0, s->A0);
 -                a0 = tcg_temp_local_new();
 -                tcg_gen_mov_tl(a0, s->A0);
              } else {
                  gen_op_mov_v_reg(s, ot, t0, rm);
 -                a0 = NULL;
              }
              gen_op_mov_v_reg(s, ot, t1, reg);
              tcg_gen_andi_tl(s->tmp0, t0, 3);
@@ -XXX,XX +XXX,XX @@ static bool disas_insn(DisasContext *s, CPUState *cpu)
              tcg_gen_movi_tl(t2, CC_Z);
              gen_set_label(label1);
              if (mod != 3) {
 -                gen_op_st_v(s, ot, t0, a0);
 -                tcg_temp_free(a0);
 +                gen_op_st_v(s, ot, t0, s->A0);
             } else {
                  gen_op_mov_reg_v(s, ot, rm, t0);
              }
@@ -XXX,XX +XXX,XX @@ static bool disas_insn(DisasContext *s, CPUState *cpu)
              modrm = x86_ldub_code(env, s);
              reg = ((modrm >> 3) & 7) | REX_R(s);
              gen_ldst_modrm(env, s, modrm, MO_16, OR_TMP0, 0);
 -            t0 = tcg_temp_local_new();
 +            t0 = tcg_temp_new();
              gen_update_cc_op(s);
              if (b == 0x102) {
                  gen_helper_lar(t0, cpu_env, s->T0);
@@ -XXX,XX +XXX,XX @@ static void i386_tr_init_disas_context(DisasContextBase *dcbase, CPUState *cpu)
      dc->tmp2_i32 = tcg_temp_new_i32();
      dc->tmp3_i32 = tcg_temp_new_i32();
      dc->tmp4 = tcg_temp_new();
 -    dc->cc_srcT = tcg_temp_local_new();
 +    dc->cc_srcT = tcg_temp_new();
  }
-+static void copy_propagate(OptContext *ctx, TCGOp *op,
+ static void i386_tr_tb_start(DisasContextBase *db, CPUState *cpu)
 +                           int nb_oargs, int nb_iargs)
 +{
 +    TCGContext *s = ctx->tcg;
 +
 +    for (int i = nb_oargs; i < nb_oargs + nb_iargs; i++) {
 +        TCGTemp *ts = arg_temp(op->args[i]);
 +        if (ts && ts_is_copy(ts)) {
 +            op->args[i] = temp_arg(find_better_copy(s, ts));
 +        }
 +    }
 +}
 +
  /* Propagate constants and copies, fold constant expressions. */
  void tcg_optimize(TCGContext *s)
  {
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
              nb_iargs = def->nb_iargs;
          }
          init_arguments(&ctx, op, nb_oargs + nb_iargs);
 -
 -        /* Do copy propagation */
 -        for (i = nb_oargs; i < nb_oargs + nb_iargs; i++) {
 -            TCGTemp *ts = arg_temp(op->args[i]);
 -            if (ts && ts_is_copy(ts)) {
 -                op->args[i] = temp_arg(find_better_copy(s, ts));
 -            }
 -        }
 +        copy_propagate(&ctx, op, nb_oargs, nb_iargs);
          /* For commutative operations make constant second argument */
          switch (opc) {
 --
-.25.1
+.34.1

-[PULL 09/56] tcg/optimize: Change tcg_opt_gen_{mov,movi} interface
+[PULL 57/62] target/mips: Don't use tcg_temp_local_new
-Adjust the interface to take the OptContext parameter instead
+Since tcg_temp_new is now identical, use that.
 of TCGContext or both.
-Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
+Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
 Reviewed-by: Luis Pires <luis.pires@eldorado.org.br>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- tcg/optimize.c | 67 +++++++++++++++++++++++++-------------------------
+ target/mips/tcg/translate.c              | 57 ++++++------------------
-file changed, 34 insertions(+), 33 deletions(-)
+ target/mips/tcg/nanomips_translate.c.inc |  4 +-
 files changed, 16 insertions(+), 45 deletions(-)
-diff --git a/tcg/optimize.c b/tcg/optimize.c
+diff --git a/target/mips/tcg/translate.c b/target/mips/tcg/translate.c
 index XXXXXXX..XXXXXXX 100644
---- a/tcg/optimize.c
+--- a/target/mips/tcg/translate.c
-+++ b/tcg/optimize.c
++++ b/target/mips/tcg/translate.c
-@@ -XXX,XX +XXX,XX @@ typedef struct TempOptInfo {
+@@ -XXX,XX +XXX,XX @@ static void gen_arith_imm(DisasContext *ctx, uint32_t opc,
- } TempOptInfo;
+     switch (opc) {
+     case OPC_ADDI:
- typedef struct OptContext {
+         {
-+    TCGContext *tcg;
+-            TCGv t0 = tcg_temp_local_new();
-     TCGTempSet temps_used;
++            TCGv t0 = tcg_temp_new();
- } OptContext;
+             TCGv t1 = tcg_temp_new();
+             TCGv t2 = tcg_temp_new();
-@@ -XXX,XX +XXX,XX @@ static bool args_are_copies(TCGArg arg1, TCGArg arg2)
+             TCGLabel *l1 = gen_new_label();
-     return ts_are_copies(arg_temp(arg1), arg_temp(arg2));
+@@ -XXX,XX +XXX,XX @@ static void gen_arith_imm(DisasContext *ctx, uint32_t opc,
- }
+ #if defined(TARGET_MIPS64)
+     case OPC_DADDI:
--static void tcg_opt_gen_mov(TCGContext *s, TCGOp *op, TCGArg dst, TCGArg src)
+         {
-+static void tcg_opt_gen_mov(OptContext *ctx, TCGOp *op, TCGArg dst, TCGArg src)
+-            TCGv t0 = tcg_temp_local_new();
- {
++            TCGv t0 = tcg_temp_new();
-     TCGTemp *dst_ts = arg_temp(dst);
+             TCGv t1 = tcg_temp_new();
-     TCGTemp *src_ts = arg_temp(src);
+             TCGv t2 = tcg_temp_new();
-@@ -XXX,XX +XXX,XX @@ static void tcg_opt_gen_mov(TCGContext *s, TCGOp *op, TCGArg dst, TCGArg src)
+             TCGLabel *l1 = gen_new_label();
-     TCGOpcode new_op;
+@@ -XXX,XX +XXX,XX @@ static void gen_arith(DisasContext *ctx, uint32_t opc,
+     switch (opc) {
-     if (ts_are_copies(dst_ts, src_ts)) {
+     case OPC_ADD:
--        tcg_op_remove(s, op);
+         {
-+        tcg_op_remove(ctx->tcg, op);
+-            TCGv t0 = tcg_temp_local_new();
 +            TCGv t0 = tcg_temp_new();
              TCGv t1 = tcg_temp_new();
              TCGv t2 = tcg_temp_new();
              TCGLabel *l1 = gen_new_label();
@@ -XXX,XX +XXX,XX @@ static void gen_arith(DisasContext *ctx, uint32_t opc,
          break;
      case OPC_SUB:
          {
 -            TCGv t0 = tcg_temp_local_new();
 +            TCGv t0 = tcg_temp_new();
              TCGv t1 = tcg_temp_new();
              TCGv t2 = tcg_temp_new();
              TCGLabel *l1 = gen_new_label();
@@ -XXX,XX +XXX,XX @@ static void gen_arith(DisasContext *ctx, uint32_t opc,
  #if defined(TARGET_MIPS64)
      case OPC_DADD:
          {
 -            TCGv t0 = tcg_temp_local_new();
 +            TCGv t0 = tcg_temp_new();
              TCGv t1 = tcg_temp_new();
              TCGv t2 = tcg_temp_new();
              TCGLabel *l1 = gen_new_label();
@@ -XXX,XX +XXX,XX @@ static void gen_arith(DisasContext *ctx, uint32_t opc,
          break;
      case OPC_DSUB:
          {
 -            TCGv t0 = tcg_temp_local_new();
 +            TCGv t0 = tcg_temp_new();
              TCGv t1 = tcg_temp_new();
              TCGv t2 = tcg_temp_new();
              TCGLabel *l1 = gen_new_label();
@@ -XXX,XX +XXX,XX @@ static void gen_loongson_integer(DisasContext *ctx, uint32_t opc,
          return;
      }
-@@ -XXX,XX +XXX,XX @@ static void tcg_opt_gen_mov(TCGContext *s, TCGOp *op, TCGArg dst, TCGArg src)
+-    switch (opc) {
-     }
+-    case OPC_MULT_G_2E:
- }
+-    case OPC_MULT_G_2F:
+-    case OPC_MULTU_G_2E:
--static void tcg_opt_gen_movi(TCGContext *s, OptContext *ctx,
+-    case OPC_MULTU_G_2F:
--                             TCGOp *op, TCGArg dst, uint64_t val)
+-#if defined(TARGET_MIPS64)
-+static void tcg_opt_gen_movi(OptContext *ctx, TCGOp *op,
+-    case OPC_DMULT_G_2E:
-+                             TCGArg dst, uint64_t val)
+-    case OPC_DMULT_G_2F:
 -    case OPC_DMULTU_G_2E:
 -    case OPC_DMULTU_G_2F:
 -#endif
 -        t0 = tcg_temp_new();
 -        t1 = tcg_temp_new();
 -        break;
 -    default:
 -        t0 = tcg_temp_local_new();
 -        t1 = tcg_temp_local_new();
 -        break;
 -    }
 -
 +    t0 = tcg_temp_new();
 +    t1 = tcg_temp_new();
      gen_load_gpr(t0, rs);
      gen_load_gpr(t1, rt);
@@ -XXX,XX +XXX,XX @@ static void gen_loongson_multimedia(DisasContext *ctx, int rd, int rs, int rt)
      TCGCond cond;
      opc = MASK_LMMI(ctx->opcode);
 -    switch (opc) {
 -    case OPC_ADD_CP2:
 -    case OPC_SUB_CP2:
 -    case OPC_DADD_CP2:
 -    case OPC_DSUB_CP2:
 -        t0 = tcg_temp_local_new_i64();
 -        t1 = tcg_temp_local_new_i64();
 -        break;
 -    default:
 -        t0 = tcg_temp_new_i64();
 -        t1 = tcg_temp_new_i64();
 -        break;
 -    }
 -
      check_cp1_enabled(ctx);
 +
 +    t0 = tcg_temp_new_i64();
 +    t1 = tcg_temp_new_i64();
      gen_load_fpr64(ctx, t0, rs);
      gen_load_fpr64(ctx, t1, rt);
@@ -XXX,XX +XXX,XX @@ static void gen_mftr(CPUMIPSState *env, DisasContext *ctx, int rt, int rd,
                       int u, int sel, int h)
  {
-     const TCGOpDef *def = &tcg_op_defs[op->opc];
+     int other_tc = env->CP0_VPEControl & (0xff << CP0VPECo_TargTC);
-     TCGType type;
+-    TCGv t0 = tcg_temp_local_new();
-@@ -XXX,XX +XXX,XX @@ static void tcg_opt_gen_movi(TCGContext *s, OptContext *ctx,
++    TCGv t0 = tcg_temp_new();
-     /* Convert movi to mov with constant temp. */
-     tv = tcg_constant_internal(type, val);
+     if ((env->CP0_VPEConf0 & (1 << CP0VPEC0_MVP)) == 0 &&
-     init_ts_info(ctx, tv);
+         ((env->tcs[other_tc].CP0_TCBind & (0xf << CP0TCBd_CurVPE)) !=
--    tcg_opt_gen_mov(s, op, dst, temp_arg(tv));
+@@ -XXX,XX +XXX,XX @@ static void gen_mttr(CPUMIPSState *env, DisasContext *ctx, int rd, int rt,
-+    tcg_opt_gen_mov(ctx, op, dst, temp_arg(tv));
+                      int u, int sel, int h)
  }
  static uint64_t do_constant_folding_2(TCGOpcode op, uint64_t x, uint64_t y)
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
  {
-     int nb_temps, nb_globals, i;
+     int other_tc = env->CP0_VPEControl & (0xff << CP0VPECo_TargTC);
-     TCGOp *op, *op_next, *prev_mb = NULL;
+-    TCGv t0 = tcg_temp_local_new();
--    OptContext ctx = {};
++    TCGv t0 = tcg_temp_new();
-+    OptContext ctx = { .tcg = s };
+     gen_load_gpr(t0, rt);
-     /* Array VALS has an element for each temp.
+     if ((env->CP0_VPEConf0 & (1 << CP0VPEC0_MVP)) == 0 &&
-        If this temp holds a constant then its value is kept in VALS' element.
+@@ -XXX,XX +XXX,XX @@ static void gen_flt3_arith(DisasContext *ctx, uint32_t opc,
-@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
+     case OPC_ALNV_PS:
-         CASE_OP_32_64(rotr):
+         check_ps(ctx);
-             if (arg_is_const(op->args[1])
+         {
-                 && arg_info(op->args[1])->val == 0) {
+-            TCGv t0 = tcg_temp_local_new();
--                tcg_opt_gen_movi(s, &ctx, op, op->args[0], 0);
++            TCGv t0 = tcg_temp_new();
-+                tcg_opt_gen_movi(&ctx, op, op->args[0], 0);
+             TCGv_i32 fp = tcg_temp_new_i32();
-                 continue;
+             TCGv_i32 fph = tcg_temp_new_i32();
-             }
+             TCGLabel *l1 = gen_new_label();
-             break;
+diff --git a/target/mips/tcg/nanomips_translate.c.inc b/target/mips/tcg/nanomips_translate.c.inc
-@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
+index XXXXXXX..XXXXXXX 100644
-             if (!arg_is_const(op->args[1])
+--- a/target/mips/tcg/nanomips_translate.c.inc
-                 && arg_is_const(op->args[2])
++++ b/target/mips/tcg/nanomips_translate.c.inc
-                 && arg_info(op->args[2])->val == 0) {
+@@ -XXX,XX +XXX,XX @@ static void gen_llwp(DisasContext *ctx, uint32_t base, int16_t offset,
--                tcg_opt_gen_mov(s, op, op->args[0], op->args[1]);
+ static void gen_scwp(DisasContext *ctx, uint32_t base, int16_t offset,
-+                tcg_opt_gen_mov(&ctx, op, op->args[0], op->args[1]);
+                     uint32_t reg1, uint32_t reg2, bool eva)
-                 continue;
+ {
-             }
+-    TCGv taddr = tcg_temp_local_new();
-             break;
+-    TCGv lladdr = tcg_temp_local_new();
-@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
++    TCGv taddr = tcg_temp_new();
-             if (!arg_is_const(op->args[1])
++    TCGv lladdr = tcg_temp_new();
-                 && arg_is_const(op->args[2])
+     TCGv_i64 tval = tcg_temp_new_i64();
-                 && arg_info(op->args[2])->val == -1) {
+     TCGv_i64 llval = tcg_temp_new_i64();
--                tcg_opt_gen_mov(s, op, op->args[0], op->args[1]);
+     TCGv_i64 val = tcg_temp_new_i64();
 +                tcg_opt_gen_mov(&ctx, op, op->args[0], op->args[1]);
                  continue;
              }
              break;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
          if (partmask == 0) {
              tcg_debug_assert(nb_oargs == 1);
 -            tcg_opt_gen_movi(s, &ctx, op, op->args[0], 0);
 +            tcg_opt_gen_movi(&ctx, op, op->args[0], 0);
              continue;
          }
          if (affected == 0) {
              tcg_debug_assert(nb_oargs == 1);
 -            tcg_opt_gen_mov(s, op, op->args[0], op->args[1]);
 +            tcg_opt_gen_mov(&ctx, op, op->args[0], op->args[1]);
              continue;
          }
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
          CASE_OP_32_64(mulsh):
              if (arg_is_const(op->args[2])
                  && arg_info(op->args[2])->val == 0) {
 -                tcg_opt_gen_movi(s, &ctx, op, op->args[0], 0);
 +                tcg_opt_gen_movi(&ctx, op, op->args[0], 0);
                  continue;
              }
              break;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
          CASE_OP_32_64_VEC(or):
          CASE_OP_32_64_VEC(and):
              if (args_are_copies(op->args[1], op->args[2])) {
 -                tcg_opt_gen_mov(s, op, op->args[0], op->args[1]);
 +                tcg_opt_gen_mov(&ctx, op, op->args[0], op->args[1]);
                  continue;
              }
              break;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
          CASE_OP_32_64_VEC(sub):
          CASE_OP_32_64_VEC(xor):
              if (args_are_copies(op->args[1], op->args[2])) {
 -                tcg_opt_gen_movi(s, &ctx, op, op->args[0], 0);
 +                tcg_opt_gen_movi(&ctx, op, op->args[0], 0);
                  continue;
              }
              break;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
             allocator where needed and possible.  Also detect copies. */
          switch (opc) {
          CASE_OP_32_64_VEC(mov):
 -            tcg_opt_gen_mov(s, op, op->args[0], op->args[1]);
 +            tcg_opt_gen_mov(&ctx, op, op->args[0], op->args[1]);
              continue;
          case INDEX_op_dup_vec:
              if (arg_is_const(op->args[1])) {
                  tmp = arg_info(op->args[1])->val;
                  tmp = dup_const(TCGOP_VECE(op), tmp);
 -                tcg_opt_gen_movi(s, &ctx, op, op->args[0], tmp);
 +                tcg_opt_gen_movi(&ctx, op, op->args[0], tmp);
                  continue;
              }
              break;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
          case INDEX_op_dup2_vec:
              assert(TCG_TARGET_REG_BITS == 32);
              if (arg_is_const(op->args[1]) && arg_is_const(op->args[2])) {
 -                tcg_opt_gen_movi(s, &ctx, op, op->args[0],
 +                tcg_opt_gen_movi(&ctx, op, op->args[0],
                                   deposit64(arg_info(op->args[1])->val, 32, 32,
                                             arg_info(op->args[2])->val));
                  continue;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
          case INDEX_op_extrh_i64_i32:
              if (arg_is_const(op->args[1])) {
                  tmp = do_constant_folding(opc, arg_info(op->args[1])->val, 0);
 -                tcg_opt_gen_movi(s, &ctx, op, op->args[0], tmp);
 +                tcg_opt_gen_movi(&ctx, op, op->args[0], tmp);
                  continue;
              }
              break;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
              if (arg_is_const(op->args[1])) {
                  tmp = do_constant_folding(opc, arg_info(op->args[1])->val,
                                            op->args[2]);
 -                tcg_opt_gen_movi(s, &ctx, op, op->args[0], tmp);
 +                tcg_opt_gen_movi(&ctx, op, op->args[0], tmp);
                  continue;
              }
              break;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
              if (arg_is_const(op->args[1]) && arg_is_const(op->args[2])) {
                  tmp = do_constant_folding(opc, arg_info(op->args[1])->val,
                                            arg_info(op->args[2])->val);
 -                tcg_opt_gen_movi(s, &ctx, op, op->args[0], tmp);
 +                tcg_opt_gen_movi(&ctx, op, op->args[0], tmp);
                  continue;
              }
              break;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
                  TCGArg v = arg_info(op->args[1])->val;
                  if (v != 0) {
                      tmp = do_constant_folding(opc, v, 0);
 -                    tcg_opt_gen_movi(s, &ctx, op, op->args[0], tmp);
 +                    tcg_opt_gen_movi(&ctx, op, op->args[0], tmp);
                  } else {
 -                    tcg_opt_gen_mov(s, op, op->args[0], op->args[2]);
 +                    tcg_opt_gen_mov(&ctx, op, op->args[0], op->args[2]);
                  }
                  continue;
              }
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
                  tmp = deposit64(arg_info(op->args[1])->val,
                                  op->args[3], op->args[4],
                                  arg_info(op->args[2])->val);
 -                tcg_opt_gen_movi(s, &ctx, op, op->args[0], tmp);
 +                tcg_opt_gen_movi(&ctx, op, op->args[0], tmp);
                  continue;
              }
              break;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
              if (arg_is_const(op->args[1])) {
                  tmp = extract64(arg_info(op->args[1])->val,
                                  op->args[2], op->args[3]);
 -                tcg_opt_gen_movi(s, &ctx, op, op->args[0], tmp);
 +                tcg_opt_gen_movi(&ctx, op, op->args[0], tmp);
                  continue;
              }
              break;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
              if (arg_is_const(op->args[1])) {
                  tmp = sextract64(arg_info(op->args[1])->val,
                                   op->args[2], op->args[3]);
 -                tcg_opt_gen_movi(s, &ctx, op, op->args[0], tmp);
 +                tcg_opt_gen_movi(&ctx, op, op->args[0], tmp);
                  continue;
              }
              break;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
                      tmp = (int32_t)(((uint32_t)v1 >> shr) |
                                      ((uint32_t)v2 << (32 - shr)));
                  }
 -                tcg_opt_gen_movi(s, &ctx, op, op->args[0], tmp);
 +                tcg_opt_gen_movi(&ctx, op, op->args[0], tmp);
                  continue;
              }
              break;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
              tmp = do_constant_folding_cond(opc, op->args[1],
                                             op->args[2], op->args[3]);
              if (tmp != 2) {
 -                tcg_opt_gen_movi(s, &ctx, op, op->args[0], tmp);
 +                tcg_opt_gen_movi(&ctx, op, op->args[0], tmp);
                  continue;
              }
              break;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
              tmp = do_constant_folding_cond(opc, op->args[1],
                                             op->args[2], op->args[5]);
              if (tmp != 2) {
 -                tcg_opt_gen_mov(s, op, op->args[0], op->args[4-tmp]);
 +                tcg_opt_gen_mov(&ctx, op, op->args[0], op->args[4-tmp]);
                  continue;
              }
              if (arg_is_const(op->args[3]) && arg_is_const(op->args[4])) {
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
                  rl = op->args[0];
                  rh = op->args[1];
 -                tcg_opt_gen_movi(s, &ctx, op, rl, (int32_t)a);
 -                tcg_opt_gen_movi(s, &ctx, op2, rh, (int32_t)(a >> 32));
 +                tcg_opt_gen_movi(&ctx, op, rl, (int32_t)a);
 +                tcg_opt_gen_movi(&ctx, op2, rh, (int32_t)(a >> 32));
                  continue;
              }
              break;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
                  rl = op->args[0];
                  rh = op->args[1];
 -                tcg_opt_gen_movi(s, &ctx, op, rl, (int32_t)r);
 -                tcg_opt_gen_movi(s, &ctx, op2, rh, (int32_t)(r >> 32));
 +                tcg_opt_gen_movi(&ctx, op, rl, (int32_t)r);
 +                tcg_opt_gen_movi(&ctx, op2, rh, (int32_t)(r >> 32));
                  continue;
              }
              break;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
                                              op->args[5]);
              if (tmp != 2) {
              do_setcond_const:
 -                tcg_opt_gen_movi(s, &ctx, op, op->args[0], tmp);
 +                tcg_opt_gen_movi(&ctx, op, op->args[0], tmp);
                  continue;
              }
              if ((op->args[5] == TCG_COND_LT || op->args[5] == TCG_COND_GE)
 --
-.25.1
+.34.1

-[PULL 05/56] host-utils: add unit tests for divu128/divs128
+[PULL 58/62] target/ppc: Don't use tcg_temp_local_new
-From: Luis Pires <luis.pires@eldorado.org.br>
+Since tcg_temp_new is now identical, use that.
-Signed-off-by: Luis Pires <luis.pires@eldorado.org.br>
+Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
 Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
 Message-Id: <20211025191154.350831-5-luis.pires@eldorado.org.br>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- tests/unit/test-div128.c | 197 +++++++++++++++++++++++++++++++++++++++
+ target/ppc/translate.c              | 6 +++---
- tests/unit/meson.build   |   1 +
+ target/ppc/translate/spe-impl.c.inc | 8 ++++----
-files changed, 198 insertions(+)
+ target/ppc/translate/vmx-impl.c.inc | 4 ++--
- create mode 100644 tests/unit/test-div128.c
+files changed, 9 insertions(+), 9 deletions(-)
-diff --git a/tests/unit/test-div128.c b/tests/unit/test-div128.c
+diff --git a/target/ppc/translate.c b/target/ppc/translate.c
 new file mode 100644
 index XXXXXXX..XXXXXXX
 --- /dev/null
 +++ b/tests/unit/test-div128.c
@@ -XXX,XX +XXX,XX @@
 +/*
 + * Test 128-bit division functions
 + *
 + * Copyright (c) 2021 Instituto de Pesquisas Eldorado (eldorado.org.br)
 + *
 + * This library is free software; you can redistribute it and/or
 + * modify it under the terms of the GNU Lesser General Public
 + * License as published by the Free Software Foundation; either
 + * version 2.1 of the License, or (at your option) any later version.
 + *
 + * This library is distributed in the hope that it will be useful,
 + * but WITHOUT ANY WARRANTY; without even the implied warranty of
 + * MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU
 + * Lesser General Public License for more details.
 + *
 + * You should have received a copy of the GNU Lesser General Public
 + * License along with this library; if not, see <http://www.gnu.org/licenses/>.
 + */
 +
 +#include "qemu/osdep.h"
 +#include "qemu/host-utils.h"
 +
 +typedef struct {
 +    uint64_t high;
 +    uint64_t low;
 +    uint64_t rhigh;
 +    uint64_t rlow;
 +    uint64_t divisor;
 +    uint64_t remainder;
 +} test_data_unsigned;
 +
 +typedef struct {
 +    int64_t high;
 +    uint64_t low;
 +    int64_t rhigh;
 +    uint64_t rlow;
 +    int64_t divisor;
 +    int64_t remainder;
 +} test_data_signed;
 +
 +static const test_data_unsigned test_table_unsigned[] = {
 +    /* Dividend fits in 64 bits */
 +    { 0x0000000000000000ULL, 0x0000000000000000ULL,
 +      0x0000000000000000ULL, 0x0000000000000000ULL,
 +      0x0000000000000001ULL, 0x0000000000000000ULL},
 +    { 0x0000000000000000ULL, 0x0000000000000001ULL,
 +      0x0000000000000000ULL, 0x0000000000000001ULL,
 +      0x0000000000000001ULL, 0x0000000000000000ULL},
 +    { 0x0000000000000000ULL, 0x0000000000000003ULL,
 +      0x0000000000000000ULL, 0x0000000000000001ULL,
 +      0x0000000000000002ULL, 0x0000000000000001ULL},
 +    { 0x0000000000000000ULL, 0x8000000000000000ULL,
 +      0x0000000000000000ULL, 0x8000000000000000ULL,
 +      0x0000000000000001ULL, 0x0000000000000000ULL},
 +    { 0x0000000000000000ULL, 0xa000000000000000ULL,
 +      0x0000000000000000ULL, 0x0000000000000002ULL,
 +      0x4000000000000000ULL, 0x2000000000000000ULL},
 +    { 0x0000000000000000ULL, 0x8000000000000000ULL,
 +      0x0000000000000000ULL, 0x0000000000000001ULL,
 +      0x8000000000000000ULL, 0x0000000000000000ULL},
 +
 +    /* Dividend > 64 bits, with MSB 0 */
 +    { 0x123456789abcdefeULL, 0xefedcba987654321ULL,
 +      0x123456789abcdefeULL, 0xefedcba987654321ULL,
 +      0x0000000000000001ULL, 0x0000000000000000ULL},
 +    { 0x123456789abcdefeULL, 0xefedcba987654321ULL,
 +      0x0000000000000001ULL, 0x000000000000000dULL,
 +      0x123456789abcdefeULL, 0x03456789abcdf03bULL},
 +    { 0x123456789abcdefeULL, 0xefedcba987654321ULL,
 +      0x0123456789abcdefULL, 0xeefedcba98765432ULL,
 +      0x0000000000000010ULL, 0x0000000000000001ULL},
 +
 +    /* Dividend > 64 bits, with MSB 1 */
 +    { 0xfeeddccbbaa99887ULL, 0x766554433221100fULL,
 +      0xfeeddccbbaa99887ULL, 0x766554433221100fULL,
 +      0x0000000000000001ULL, 0x0000000000000000ULL},
 +    { 0xfeeddccbbaa99887ULL, 0x766554433221100fULL,
 +      0x0000000000000001ULL, 0x0000000000000000ULL,
 +      0xfeeddccbbaa99887ULL, 0x766554433221100fULL},
 +    { 0xfeeddccbbaa99887ULL, 0x766554433221100fULL,
 +      0x0feeddccbbaa9988ULL, 0x7766554433221100ULL,
 +      0x0000000000000010ULL, 0x000000000000000fULL},
 +    { 0xfeeddccbbaa99887ULL, 0x766554433221100fULL,
 +      0x000000000000000eULL, 0x00f0f0f0f0f0f35aULL,
 +      0x123456789abcdefeULL, 0x0f8922bc55ef90c3ULL},
 +
 +    /**
 +     * Divisor == 64 bits, with MSB 1
 +     * and high 64 bits of dividend >= divisor
 +     * (for testing normalization)
 +     */
 +    { 0xfeeddccbbaa99887ULL, 0x766554433221100fULL,
 +      0x0000000000000001ULL, 0x0000000000000000ULL,
 +      0xfeeddccbbaa99887ULL, 0x766554433221100fULL},
 +    { 0xfeeddccbbaa99887ULL, 0x766554433221100fULL,
 +      0x0000000000000001ULL, 0xfddbb9977553310aULL,
 +      0x8000000000000001ULL, 0x78899aabbccddf05ULL},
 +
 +    /* Dividend > 64 bits, divisor almost as big */
 +    { 0x0000000000000001ULL, 0x23456789abcdef01ULL,
 +      0x0000000000000000ULL, 0x000000000000000fULL,
 +      0x123456789abcdefeULL, 0x123456789abcde1fULL},
 +};
 +
 +static const test_data_signed test_table_signed[] = {
 +    /* Positive dividend, positive/negative divisors */
 +    { 0x0000000000000000LL, 0x0000000000bc614eULL,
 +      0x0000000000000000LL, 0x0000000000bc614eULL,
 +      0x0000000000000001LL, 0x0000000000000000LL},
 +    { 0x0000000000000000LL, 0x0000000000bc614eULL,
 +      0xffffffffffffffffLL, 0xffffffffff439eb2ULL,
 +      0xffffffffffffffffLL, 0x0000000000000000LL},
 +    { 0x0000000000000000LL, 0x0000000000bc614eULL,
 +      0x0000000000000000LL, 0x00000000005e30a7ULL,
 +      0x0000000000000002LL, 0x0000000000000000LL},
 +    { 0x0000000000000000LL, 0x0000000000bc614eULL,
 +      0xffffffffffffffffLL, 0xffffffffffa1cf59ULL,
 +      0xfffffffffffffffeLL, 0x0000000000000000LL},
 +    { 0x0000000000000000LL, 0x0000000000bc614eULL,
 +      0x0000000000000000LL, 0x0000000000178c29ULL,
 +      0x0000000000000008LL, 0x0000000000000006LL},
 +    { 0x0000000000000000LL, 0x0000000000bc614eULL,
 +      0xffffffffffffffffLL, 0xffffffffffe873d7ULL,
 +      0xfffffffffffffff8LL, 0x0000000000000006LL},
 +    { 0x0000000000000000LL, 0x0000000000bc614eULL,
 +      0x0000000000000000LL, 0x000000000000550dULL,
 +      0x0000000000000237LL, 0x0000000000000183LL},
 +    { 0x0000000000000000LL, 0x0000000000bc614eULL,
 +      0xffffffffffffffffLL, 0xffffffffffffaaf3ULL,
 +      0xfffffffffffffdc9LL, 0x0000000000000183LL},
 +
 +    /* Negative dividend, positive/negative divisors */
 +    { 0xffffffffffffffffLL, 0xffffffffff439eb2ULL,
 +      0xffffffffffffffffLL, 0xffffffffff439eb2ULL,
 +      0x0000000000000001LL, 0x0000000000000000LL},
 +    { 0xffffffffffffffffLL, 0xffffffffff439eb2ULL,
 +      0x0000000000000000LL, 0x0000000000bc614eULL,
 +      0xffffffffffffffffLL, 0x0000000000000000LL},
 +    { 0xffffffffffffffffLL, 0xffffffffff439eb2ULL,
 +      0xffffffffffffffffLL, 0xffffffffffa1cf59ULL,
 +      0x0000000000000002LL, 0x0000000000000000LL},
 +    { 0xffffffffffffffffLL, 0xffffffffff439eb2ULL,
 +      0x0000000000000000LL, 0x00000000005e30a7ULL,
 +      0xfffffffffffffffeLL, 0x0000000000000000LL},
 +    { 0xffffffffffffffffLL, 0xffffffffff439eb2ULL,
 +      0xffffffffffffffffLL, 0xffffffffffe873d7ULL,
 +      0x0000000000000008LL, 0xfffffffffffffffaLL},
 +    { 0xffffffffffffffffLL, 0xffffffffff439eb2ULL,
 +      0x0000000000000000LL, 0x0000000000178c29ULL,
 +      0xfffffffffffffff8LL, 0xfffffffffffffffaLL},
 +    { 0xffffffffffffffffLL, 0xffffffffff439eb2ULL,
 +      0xffffffffffffffffLL, 0xffffffffffffaaf3ULL,
 +      0x0000000000000237LL, 0xfffffffffffffe7dLL},
 +    { 0xffffffffffffffffLL, 0xffffffffff439eb2ULL,
 +      0x0000000000000000LL, 0x000000000000550dULL,
 +      0xfffffffffffffdc9LL, 0xfffffffffffffe7dLL},
 +};
 +
 +static void test_divu128(void)
 +{
 +    int i;
 +    uint64_t rem;
 +    test_data_unsigned tmp;
 +
 +    for (i = 0; i < ARRAY_SIZE(test_table_unsigned); ++i) {
 +        tmp = test_table_unsigned[i];
 +
 +        rem = divu128(&tmp.low, &tmp.high, tmp.divisor);
 +        g_assert_cmpuint(tmp.low, ==, tmp.rlow);
 +        g_assert_cmpuint(tmp.high, ==, tmp.rhigh);
 +        g_assert_cmpuint(rem, ==, tmp.remainder);
 +    }
 +}
 +
 +static void test_divs128(void)
 +{
 +    int i;
 +    int64_t rem;
 +    test_data_signed tmp;
 +
 +    for (i = 0; i < ARRAY_SIZE(test_table_signed); ++i) {
 +        tmp = test_table_signed[i];
 +
 +        rem = divs128(&tmp.low, &tmp.high, tmp.divisor);
 +        g_assert_cmpuint(tmp.low, ==, tmp.rlow);
 +        g_assert_cmpuint(tmp.high, ==, tmp.rhigh);
 +        g_assert_cmpuint(rem, ==, tmp.remainder);
 +    }
 +}
 +
 +int main(int argc, char **argv)
 +{
 +    g_test_init(&argc, &argv, NULL);
 +    g_test_add_func("/host-utils/test_divu128", test_divu128);
 +    g_test_add_func("/host-utils/test_divs128", test_divs128);
 +    return g_test_run();
 +}
 diff --git a/tests/unit/meson.build b/tests/unit/meson.build
 index XXXXXXX..XXXXXXX 100644
---- a/tests/unit/meson.build
+--- a/target/ppc/translate.c
-+++ b/tests/unit/meson.build
++++ b/target/ppc/translate.c
-@@ -XXX,XX +XXX,XX @@ tests = {
+@@ -XXX,XX +XXX,XX @@ static void gen_bcond(DisasContext *ctx, int type)
-   # all code tested by test-x86-cpuid is inside topology.h
+     TCGv target;
-   'test-x86-cpuid': [],
-   'test-cutils': [],
+     if (type == BCOND_LR || type == BCOND_CTR || type == BCOND_TAR) {
-+  'test-div128': [],
+-        target = tcg_temp_local_new();
-   'test-shift128': [],
++        target = tcg_temp_new();
-   'test-mul64': [],
+         if (type == BCOND_CTR) {
-   # all code tested by test-int128 is inside int128.h
+             tcg_gen_mov_tl(target, cpu_ctr);
          } else if (type == BCOND_TAR) {
@@ -XXX,XX +XXX,XX @@ static inline void gen_405_mulladd_insn(DisasContext *ctx, int opc2, int opc3,
  {
      TCGv t0, t1;
 -    t0 = tcg_temp_local_new();
 -    t1 = tcg_temp_local_new();
 +    t0 = tcg_temp_new();
 +    t1 = tcg_temp_new();
      switch (opc3 & 0x0D) {
      case 0x05:
 diff --git a/target/ppc/translate/spe-impl.c.inc b/target/ppc/translate/spe-impl.c.inc
 index XXXXXXX..XXXXXXX 100644
 --- a/target/ppc/translate/spe-impl.c.inc
 +++ b/target/ppc/translate/spe-impl.c.inc
@@ -XXX,XX +XXX,XX @@ static inline void gen_op_evsrwu(TCGv_i32 ret, TCGv_i32 arg1, TCGv_i32 arg2)
  {
      TCGLabel *l1 = gen_new_label();
      TCGLabel *l2 = gen_new_label();
 -    TCGv_i32 t0 = tcg_temp_local_new_i32();
 +    TCGv_i32 t0 = tcg_temp_new_i32();
      /* No error here: 6 bits are used */
      tcg_gen_andi_i32(t0, arg2, 0x3F);
@@ -XXX,XX +XXX,XX @@ static inline void gen_op_evsrws(TCGv_i32 ret, TCGv_i32 arg1, TCGv_i32 arg2)
  {
      TCGLabel *l1 = gen_new_label();
      TCGLabel *l2 = gen_new_label();
 -    TCGv_i32 t0 = tcg_temp_local_new_i32();
 +    TCGv_i32 t0 = tcg_temp_new_i32();
      /* No error here: 6 bits are used */
      tcg_gen_andi_i32(t0, arg2, 0x3F);
@@ -XXX,XX +XXX,XX @@ static inline void gen_op_evslw(TCGv_i32 ret, TCGv_i32 arg1, TCGv_i32 arg2)
  {
      TCGLabel *l1 = gen_new_label();
      TCGLabel *l2 = gen_new_label();
 -    TCGv_i32 t0 = tcg_temp_local_new_i32();
 +    TCGv_i32 t0 = tcg_temp_new_i32();
      /* No error here: 6 bits are used */
      tcg_gen_andi_i32(t0, arg2, 0x3F);
@@ -XXX,XX +XXX,XX @@ static inline void gen_evsel(DisasContext *ctx)
      TCGLabel *l2 = gen_new_label();
      TCGLabel *l3 = gen_new_label();
      TCGLabel *l4 = gen_new_label();
 -    TCGv_i32 t0 = tcg_temp_local_new_i32();
 +    TCGv_i32 t0 = tcg_temp_new_i32();
      tcg_gen_andi_i32(t0, cpu_crf[ctx->opcode & 0x07], 1 << 3);
      tcg_gen_brcondi_i32(TCG_COND_EQ, t0, 0, l1);
 diff --git a/target/ppc/translate/vmx-impl.c.inc b/target/ppc/translate/vmx-impl.c.inc
 index XXXXXXX..XXXXXXX 100644
 --- a/target/ppc/translate/vmx-impl.c.inc
 +++ b/target/ppc/translate/vmx-impl.c.inc
@@ -XXX,XX +XXX,XX @@ static bool do_vcmpq(DisasContext *ctx, arg_VX_bf *a, bool sign)
      REQUIRE_INSNS_FLAGS2(ctx, ISA310);
      REQUIRE_VECTOR(ctx);
 -    vra = tcg_temp_local_new_i64();
 -    vrb = tcg_temp_local_new_i64();
 +    vra = tcg_temp_new_i64();
 +    vrb = tcg_temp_new_i64();
      gt = gen_new_label();
      lt = gen_new_label();
      done = gen_new_label();
 --
-.25.1
+.34.1

-[PULL 20/56] tcg/optimize: Split out fold_const{1,2}
+[PULL 59/62] target/xtensa: Don't use tcg_temp_local_new_*
-Split out a whole bunch of placeholder functions, which are
+Since tcg_temp_new_* is now identical, use those.
 currently identical.  That won't last as more code gets moved.
-Use CASE_32_64_VEC for some logical operators that previously
+Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
 missed the addition of vectors.
 Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
 Reviewed-by: Luis Pires <luis.pires@eldorado.org.br>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- tcg/optimize.c | 271 +++++++++++++++++++++++++++++++++++++++----------
+ target/xtensa/translate.c | 16 ++++++++--------
-file changed, 219 insertions(+), 52 deletions(-)
+file changed, 8 insertions(+), 8 deletions(-)
-diff --git a/tcg/optimize.c b/tcg/optimize.c
+diff --git a/target/xtensa/translate.c b/target/xtensa/translate.c
 index XXXXXXX..XXXXXXX 100644
---- a/tcg/optimize.c
+--- a/target/xtensa/translate.c
-+++ b/tcg/optimize.c
++++ b/target/xtensa/translate.c
-@@ -XXX,XX +XXX,XX @@ static void finish_folding(OptContext *ctx, TCGOp *op)
+@@ -XXX,XX +XXX,XX @@ static void gen_right_shift_sar(DisasContext *dc, TCGv_i32 sa)
  static void gen_left_shift_sar(DisasContext *dc, TCGv_i32 sa)
  {
      if (!dc->sar_m32_allocated) {
 -        dc->sar_m32 = tcg_temp_local_new_i32();
 +        dc->sar_m32 = tcg_temp_new_i32();
          dc->sar_m32_allocated = true;
      }
      tcg_gen_andi_i32(dc->sar_m32, sa, 0x1f);
@@ -XXX,XX +XXX,XX @@ static void disas_xtensa_insn(CPUXtensaState *env, DisasContext *dc)
              if (i == 0 || arg_copy[i].resource != resource) {
                  resource = arg_copy[i].resource;
                  if (arg_copy[i].arg->num_bits <= 32) {
 -                    temp = tcg_temp_local_new_i32();
 +                    temp = tcg_temp_new_i32();
                      tcg_gen_mov_i32(temp, arg_copy[i].arg->in);
                  } else if (arg_copy[i].arg->num_bits <= 64) {
 -                    temp = tcg_temp_local_new_i64();
 +                    temp = tcg_temp_new_i64();
                      tcg_gen_mov_i64(temp, arg_copy[i].arg->in);
                  } else {
                      g_assert_not_reached();
@@ -XXX,XX +XXX,XX @@ static void xtensa_tr_tb_start(DisasContextBase *dcbase, CPUState *cpu)
      DisasContext *dc = container_of(dcbase, DisasContext, base);
      if (dc->icount) {
 -        dc->next_icount = tcg_temp_local_new_i32();
 +        dc->next_icount = tcg_temp_new_i32();
      }
  }
-+/*
+@@ -XXX,XX +XXX,XX @@ static void gen_check_atomctl(DisasContext *dc, TCGv_i32 addr)
-+ * The fold_* functions return true when processing is complete,
+ static void translate_s32c1i(DisasContext *dc, const OpcodeArg arg[],
-+ * usually by folding the operation to a constant or to a copy,
+                              const uint32_t par[])
 + * and calling tcg_opt_gen_{mov,movi}.  They may do other things,
 + * like collect information about the value produced, for use in
 + * optimizing a subsequent operation.
 + *
 + * These first fold_* functions are all helpers, used by other
 + * folders for more specific operations.
 + */
 +
 +static bool fold_const1(OptContext *ctx, TCGOp *op)
 +{
 +    if (arg_is_const(op->args[1])) {
 +        uint64_t t;
 +
 +        t = arg_info(op->args[1])->val;
 +        t = do_constant_folding(op->opc, t, 0);
 +        return tcg_opt_gen_movi(ctx, op, op->args[0], t);
 +    }
 +    return false;
 +}
 +
 +static bool fold_const2(OptContext *ctx, TCGOp *op)
 +{
 +    if (arg_is_const(op->args[1]) && arg_is_const(op->args[2])) {
 +        uint64_t t1 = arg_info(op->args[1])->val;
 +        uint64_t t2 = arg_info(op->args[2])->val;
 +
 +        t1 = do_constant_folding(op->opc, t1, t2);
 +        return tcg_opt_gen_movi(ctx, op, op->args[0], t1);
 +    }
 +    return false;
 +}
 +
 +/*
 + * These outermost fold_<op> functions are sorted alphabetically.
 + */
 +
 +static bool fold_add(OptContext *ctx, TCGOp *op)
 +{
 +    return fold_const2(ctx, op);
 +}
 +
 +static bool fold_and(OptContext *ctx, TCGOp *op)
 +{
 +    return fold_const2(ctx, op);
 +}
 +
 +static bool fold_andc(OptContext *ctx, TCGOp *op)
 +{
 +    return fold_const2(ctx, op);
 +}
 +
  static bool fold_call(OptContext *ctx, TCGOp *op)
  {
-     TCGContext *s = ctx->tcg;
+-    TCGv_i32 tmp = tcg_temp_local_new_i32();
-@@ -XXX,XX +XXX,XX @@ static bool fold_call(OptContext *ctx, TCGOp *op)
+-    TCGv_i32 addr = tcg_temp_local_new_i32();
-     return true;
++    TCGv_i32 tmp = tcg_temp_new_i32();
- }
++    TCGv_i32 addr = tcg_temp_new_i32();
+     MemOp mop;
-+static bool fold_ctpop(OptContext *ctx, TCGOp *op)
-+{
+     tcg_gen_mov_i32(tmp, arg[0].in);
-+    return fold_const1(ctx, op);
+@@ -XXX,XX +XXX,XX @@ static void translate_s32ex(DisasContext *dc, const OpcodeArg arg[],
-+}
+                             const uint32_t par[])
 +
 +static bool fold_divide(OptContext *ctx, TCGOp *op)
 +{
 +    return fold_const2(ctx, op);
 +}
 +
 +static bool fold_eqv(OptContext *ctx, TCGOp *op)
 +{
 +    return fold_const2(ctx, op);
 +}
 +
 +static bool fold_exts(OptContext *ctx, TCGOp *op)
 +{
 +    return fold_const1(ctx, op);
 +}
 +
 +static bool fold_extu(OptContext *ctx, TCGOp *op)
 +{
 +    return fold_const1(ctx, op);
 +}
 +
  static bool fold_mb(OptContext *ctx, TCGOp *op)
  {
-     /* Eliminate duplicate and redundant fence instructions.  */
+     TCGv_i32 prev = tcg_temp_new_i32();
-@@ -XXX,XX +XXX,XX @@ static bool fold_mb(OptContext *ctx, TCGOp *op)
+-    TCGv_i32 addr = tcg_temp_local_new_i32();
-     return true;
+-    TCGv_i32 res = tcg_temp_local_new_i32();
- }
++    TCGv_i32 addr = tcg_temp_new_i32();
++    TCGv_i32 res = tcg_temp_new_i32();
-+static bool fold_mul(OptContext *ctx, TCGOp *op)
+     TCGLabel *label = gen_new_label();
-+{
+     MemOp mop;
 +    return fold_const2(ctx, op);
 +}
 +
 +static bool fold_mul_highpart(OptContext *ctx, TCGOp *op)
 +{
 +    return fold_const2(ctx, op);
 +}
 +
 +static bool fold_nand(OptContext *ctx, TCGOp *op)
 +{
 +    return fold_const2(ctx, op);
 +}
 +
 +static bool fold_neg(OptContext *ctx, TCGOp *op)
 +{
 +    return fold_const1(ctx, op);
 +}
 +
 +static bool fold_nor(OptContext *ctx, TCGOp *op)
 +{
 +    return fold_const2(ctx, op);
 +}
 +
 +static bool fold_not(OptContext *ctx, TCGOp *op)
 +{
 +    return fold_const1(ctx, op);
 +}
 +
 +static bool fold_or(OptContext *ctx, TCGOp *op)
 +{
 +    return fold_const2(ctx, op);
 +}
 +
 +static bool fold_orc(OptContext *ctx, TCGOp *op)
 +{
 +    return fold_const2(ctx, op);
 +}
 +
  static bool fold_qemu_ld(OptContext *ctx, TCGOp *op)
  {
      /* Opcodes that touch guest memory stop the mb optimization.  */
@@ -XXX,XX +XXX,XX @@ static bool fold_qemu_st(OptContext *ctx, TCGOp *op)
      return false;
  }
 +static bool fold_remainder(OptContext *ctx, TCGOp *op)
 +{
 +    return fold_const2(ctx, op);
 +}
 +
 +static bool fold_shift(OptContext *ctx, TCGOp *op)
 +{
 +    return fold_const2(ctx, op);
 +}
 +
 +static bool fold_sub(OptContext *ctx, TCGOp *op)
 +{
 +    return fold_const2(ctx, op);
 +}
 +
 +static bool fold_xor(OptContext *ctx, TCGOp *op)
 +{
 +    return fold_const2(ctx, op);
 +}
 +
  /* Propagate constants and copies, fold constant expressions. */
  void tcg_optimize(TCGContext *s)
  {
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
              }
              break;
 -        CASE_OP_32_64(not):
 -        CASE_OP_32_64(neg):
 -        CASE_OP_32_64(ext8s):
 -        CASE_OP_32_64(ext8u):
 -        CASE_OP_32_64(ext16s):
 -        CASE_OP_32_64(ext16u):
 -        CASE_OP_32_64(ctpop):
 -        case INDEX_op_ext32s_i64:
 -        case INDEX_op_ext32u_i64:
 -        case INDEX_op_ext_i32_i64:
 -        case INDEX_op_extu_i32_i64:
 -        case INDEX_op_extrl_i64_i32:
 -        case INDEX_op_extrh_i64_i32:
 -            if (arg_is_const(op->args[1])) {
 -                tmp = do_constant_folding(opc, arg_info(op->args[1])->val, 0);
 -                tcg_opt_gen_movi(&ctx, op, op->args[0], tmp);
 -                continue;
 -            }
 -            break;
 -
          CASE_OP_32_64(bswap16):
          CASE_OP_32_64(bswap32):
          case INDEX_op_bswap64_i64:
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
              }
              break;
 -        CASE_OP_32_64(add):
 -        CASE_OP_32_64(sub):
 -        CASE_OP_32_64(mul):
 -        CASE_OP_32_64(or):
 -        CASE_OP_32_64(and):
 -        CASE_OP_32_64(xor):
 -        CASE_OP_32_64(shl):
 -        CASE_OP_32_64(shr):
 -        CASE_OP_32_64(sar):
 -        CASE_OP_32_64(rotl):
 -        CASE_OP_32_64(rotr):
 -        CASE_OP_32_64(andc):
 -        CASE_OP_32_64(orc):
 -        CASE_OP_32_64(eqv):
 -        CASE_OP_32_64(nand):
 -        CASE_OP_32_64(nor):
 -        CASE_OP_32_64(muluh):
 -        CASE_OP_32_64(mulsh):
 -        CASE_OP_32_64(div):
 -        CASE_OP_32_64(divu):
 -        CASE_OP_32_64(rem):
 -        CASE_OP_32_64(remu):
 -            if (arg_is_const(op->args[1]) && arg_is_const(op->args[2])) {
 -                tmp = do_constant_folding(opc, arg_info(op->args[1])->val,
 -                                          arg_info(op->args[2])->val);
 -                tcg_opt_gen_movi(&ctx, op, op->args[0], tmp);
 -                continue;
 -            }
 -            break;
 -
          CASE_OP_32_64(clz):
          CASE_OP_32_64(ctz):
              if (arg_is_const(op->args[1])) {
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
              }
              break;
 +        default:
 +            break;
 +
 +        /* ---------------------------------------------------------- */
 +        /* Sorted alphabetically by opcode as much as possible. */
 +
 +        CASE_OP_32_64_VEC(add):
 +            done = fold_add(&ctx, op);
 +            break;
 +        CASE_OP_32_64_VEC(and):
 +            done = fold_and(&ctx, op);
 +            break;
 +        CASE_OP_32_64_VEC(andc):
 +            done = fold_andc(&ctx, op);
 +            break;
 +        CASE_OP_32_64(ctpop):
 +            done = fold_ctpop(&ctx, op);
 +            break;
 +        CASE_OP_32_64(div):
 +        CASE_OP_32_64(divu):
 +            done = fold_divide(&ctx, op);
 +            break;
 +        CASE_OP_32_64(eqv):
 +            done = fold_eqv(&ctx, op);
 +            break;
 +        CASE_OP_32_64(ext8s):
 +        CASE_OP_32_64(ext16s):
 +        case INDEX_op_ext32s_i64:
 +        case INDEX_op_ext_i32_i64:
 +            done = fold_exts(&ctx, op);
 +            break;
 +        CASE_OP_32_64(ext8u):
 +        CASE_OP_32_64(ext16u):
 +        case INDEX_op_ext32u_i64:
 +        case INDEX_op_extu_i32_i64:
 +        case INDEX_op_extrl_i64_i32:
 +        case INDEX_op_extrh_i64_i32:
 +            done = fold_extu(&ctx, op);
 +            break;
          case INDEX_op_mb:
              done = fold_mb(&ctx, op);
              break;
 +        CASE_OP_32_64(mul):
 +            done = fold_mul(&ctx, op);
 +            break;
 +        CASE_OP_32_64(mulsh):
 +        CASE_OP_32_64(muluh):
 +            done = fold_mul_highpart(&ctx, op);
 +            break;
 +        CASE_OP_32_64(nand):
 +            done = fold_nand(&ctx, op);
 +            break;
 +        CASE_OP_32_64(neg):
 +            done = fold_neg(&ctx, op);
 +            break;
 +        CASE_OP_32_64(nor):
 +            done = fold_nor(&ctx, op);
 +            break;
 +        CASE_OP_32_64_VEC(not):
 +            done = fold_not(&ctx, op);
 +            break;
 +        CASE_OP_32_64_VEC(or):
 +            done = fold_or(&ctx, op);
 +            break;
 +        CASE_OP_32_64_VEC(orc):
 +            done = fold_orc(&ctx, op);
 +            break;
          case INDEX_op_qemu_ld_i32:
          case INDEX_op_qemu_ld_i64:
              done = fold_qemu_ld(&ctx, op);
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
          case INDEX_op_qemu_st_i64:
              done = fold_qemu_st(&ctx, op);
              break;
 -
 -        default:
 +        CASE_OP_32_64(rem):
 +        CASE_OP_32_64(remu):
 +            done = fold_remainder(&ctx, op);
 +            break;
 +        CASE_OP_32_64(rotl):
 +        CASE_OP_32_64(rotr):
 +        CASE_OP_32_64(sar):
 +        CASE_OP_32_64(shl):
 +        CASE_OP_32_64(shr):
 +            done = fold_shift(&ctx, op);
 +            break;
 +        CASE_OP_32_64_VEC(sub):
 +            done = fold_sub(&ctx, op);
 +            break;
 +        CASE_OP_32_64_VEC(xor):
 +            done = fold_xor(&ctx, op);
              break;
          }
 --
-.25.1
+.34.1

-[PULL 08/56] tcg/optimize: Remove do_default label
+[PULL 60/62] exec/gen-icount: Don't use tcg_temp_local_new_i32
-Break the final cleanup clause out of the main switch
+Since tcg_temp_new_i32 is now identical, use that.
 statement.  When fully folding an opcode to mov/movi,
 use "continue" to process the next opcode, else break
 to fall into the final cleanup.
-Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
+Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
 Reviewed-by: Luis Pires <luis.pires@eldorado.org.br>
 Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- tcg/optimize.c | 190 ++++++++++++++++++++++++-------------------------
+ include/exec/gen-icount.h | 8 +-------
-file changed, 94 insertions(+), 96 deletions(-)
+file changed, 1 insertion(+), 7 deletions(-)
-diff --git a/tcg/optimize.c b/tcg/optimize.c
+diff --git a/include/exec/gen-icount.h b/include/exec/gen-icount.h
 index XXXXXXX..XXXXXXX 100644
---- a/tcg/optimize.c
+--- a/include/exec/gen-icount.h
-+++ b/tcg/optimize.c
++++ b/include/exec/gen-icount.h
-@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
+@@ -XXX,XX +XXX,XX @@ static inline void gen_io_start(void)
-         switch (opc) {
-         CASE_OP_32_64_VEC(mov):
+ static inline void gen_tb_start(const TranslationBlock *tb)
-             tcg_opt_gen_mov(s, op, op->args[0], op->args[1]);
+ {
--            break;
+-    TCGv_i32 count;
-+            continue;
+-
+-    if (tb_cflags(tb) & CF_USE_ICOUNT) {
-         case INDEX_op_dup_vec:
+-        count = tcg_temp_local_new_i32();
-             if (arg_is_const(op->args[1])) {
+-    } else {
-                 tmp = arg_info(op->args[1])->val;
+-        count = tcg_temp_new_i32();
-                 tmp = dup_const(TCGOP_VECE(op), tmp);
+-    }
-                 tcg_opt_gen_movi(s, &ctx, op, op->args[0], tmp);
++    TCGv_i32 count = tcg_temp_new_i32();
--                break;
-+                continue;
+     tcg_gen_ld_i32(count, cpu_env,
-             }
+                    offsetof(ArchCPU, neg.icount_decr.u32) -
 -            goto do_default;
 +            break;
          case INDEX_op_dup2_vec:
              assert(TCG_TARGET_REG_BITS == 32);
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
                  tcg_opt_gen_movi(s, &ctx, op, op->args[0],
                                   deposit64(arg_info(op->args[1])->val, 32, 32,
                                             arg_info(op->args[2])->val));
 -                break;
 +                continue;
              } else if (args_are_copies(op->args[1], op->args[2])) {
                  op->opc = INDEX_op_dup_vec;
                  TCGOP_VECE(op) = MO_32;
                  nb_iargs = 1;
              }
 -            goto do_default;
 +            break;
          CASE_OP_32_64(not):
          CASE_OP_32_64(neg):
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
              if (arg_is_const(op->args[1])) {
                  tmp = do_constant_folding(opc, arg_info(op->args[1])->val, 0);
                  tcg_opt_gen_movi(s, &ctx, op, op->args[0], tmp);
 -                break;
 +                continue;
              }
 -            goto do_default;
 +            break;
          CASE_OP_32_64(bswap16):
          CASE_OP_32_64(bswap32):
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
                  tmp = do_constant_folding(opc, arg_info(op->args[1])->val,
                                            op->args[2]);
                  tcg_opt_gen_movi(s, &ctx, op, op->args[0], tmp);
 -                break;
 +                continue;
              }
 -            goto do_default;
 +            break;
          CASE_OP_32_64(add):
          CASE_OP_32_64(sub):
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
                  tmp = do_constant_folding(opc, arg_info(op->args[1])->val,
                                            arg_info(op->args[2])->val);
                  tcg_opt_gen_movi(s, &ctx, op, op->args[0], tmp);
 -                break;
 +                continue;
              }
 -            goto do_default;
 +            break;
          CASE_OP_32_64(clz):
          CASE_OP_32_64(ctz):
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
                  } else {
                      tcg_opt_gen_mov(s, op, op->args[0], op->args[2]);
                  }
 -                break;
 +                continue;
              }
 -            goto do_default;
 +            break;
          CASE_OP_32_64(deposit):
              if (arg_is_const(op->args[1]) && arg_is_const(op->args[2])) {
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
                                  op->args[3], op->args[4],
                                  arg_info(op->args[2])->val);
                  tcg_opt_gen_movi(s, &ctx, op, op->args[0], tmp);
 -                break;
 +                continue;
              }
 -            goto do_default;
 +            break;
          CASE_OP_32_64(extract):
              if (arg_is_const(op->args[1])) {
                  tmp = extract64(arg_info(op->args[1])->val,
                                  op->args[2], op->args[3]);
                  tcg_opt_gen_movi(s, &ctx, op, op->args[0], tmp);
 -                break;
 +                continue;
              }
 -            goto do_default;
 +            break;
          CASE_OP_32_64(sextract):
              if (arg_is_const(op->args[1])) {
                  tmp = sextract64(arg_info(op->args[1])->val,
                                   op->args[2], op->args[3]);
                  tcg_opt_gen_movi(s, &ctx, op, op->args[0], tmp);
 -                break;
 +                continue;
              }
 -            goto do_default;
 +            break;
          CASE_OP_32_64(extract2):
              if (arg_is_const(op->args[1]) && arg_is_const(op->args[2])) {
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
                                      ((uint32_t)v2 << (32 - shr)));
                  }
                  tcg_opt_gen_movi(s, &ctx, op, op->args[0], tmp);
 -                break;
 +                continue;
              }
 -            goto do_default;
 +            break;
          CASE_OP_32_64(setcond):
              tmp = do_constant_folding_cond(opc, op->args[1],
                                             op->args[2], op->args[3]);
              if (tmp != 2) {
                  tcg_opt_gen_movi(s, &ctx, op, op->args[0], tmp);
 -                break;
 +                continue;
              }
 -            goto do_default;
 +            break;
          CASE_OP_32_64(brcond):
              tmp = do_constant_folding_cond(opc, op->args[0],
                                             op->args[1], op->args[2]);
 -            if (tmp != 2) {
 -                if (tmp) {
 -                    memset(&ctx.temps_used, 0, sizeof(ctx.temps_used));
 -                    op->opc = INDEX_op_br;
 -                    op->args[0] = op->args[3];
 -                } else {
 -                    tcg_op_remove(s, op);
 -                }
 +            switch (tmp) {
 +            case 0:
 +                tcg_op_remove(s, op);
 +                continue;
 +            case 1:
 +                memset(&ctx.temps_used, 0, sizeof(ctx.temps_used));
 +                op->opc = opc = INDEX_op_br;
 +                op->args[0] = op->args[3];
                  break;
              }
 -            goto do_default;
 +            break;
          CASE_OP_32_64(movcond):
              tmp = do_constant_folding_cond(opc, op->args[1],
                                             op->args[2], op->args[5]);
              if (tmp != 2) {
                  tcg_opt_gen_mov(s, op, op->args[0], op->args[4-tmp]);
 -                break;
 +                continue;
              }
              if (arg_is_const(op->args[3]) && arg_is_const(op->args[4])) {
                  uint64_t tv = arg_info(op->args[3])->val;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
                  if (fv == 1 && tv == 0) {
                      cond = tcg_invert_cond(cond);
                  } else if (!(tv == 1 && fv == 0)) {
 -                    goto do_default;
 +                    break;
                  }
                  op->args[3] = cond;
                  op->opc = opc = (opc == INDEX_op_movcond_i32
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
                                   : INDEX_op_setcond_i64);
                  nb_iargs = 2;
              }
 -            goto do_default;
 +            break;
          case INDEX_op_add2_i32:
          case INDEX_op_sub2_i32:
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
                  rh = op->args[1];
                  tcg_opt_gen_movi(s, &ctx, op, rl, (int32_t)a);
                  tcg_opt_gen_movi(s, &ctx, op2, rh, (int32_t)(a >> 32));
 -                break;
 +                continue;
              }
 -            goto do_default;
 +            break;
          case INDEX_op_mulu2_i32:
              if (arg_is_const(op->args[2]) && arg_is_const(op->args[3])) {
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
                  rh = op->args[1];
                  tcg_opt_gen_movi(s, &ctx, op, rl, (int32_t)r);
                  tcg_opt_gen_movi(s, &ctx, op2, rh, (int32_t)(r >> 32));
 -                break;
 +                continue;
              }
 -            goto do_default;
 +            break;
          case INDEX_op_brcond2_i32:
              tmp = do_constant_folding_cond2(&op->args[0], &op->args[2],
                                              op->args[4]);
 -            if (tmp != 2) {
 -                if (tmp) {
 -            do_brcond_true:
 -                    memset(&ctx.temps_used, 0, sizeof(ctx.temps_used));
 -                    op->opc = INDEX_op_br;
 -                    op->args[0] = op->args[5];
 -                } else {
 +            if (tmp == 0) {
              do_brcond_false:
 -                    tcg_op_remove(s, op);
 -                }
 -            } else if ((op->args[4] == TCG_COND_LT
 -                        || op->args[4] == TCG_COND_GE)
 -                       && arg_is_const(op->args[2])
 -                       && arg_info(op->args[2])->val == 0
 -                       && arg_is_const(op->args[3])
 -                       && arg_info(op->args[3])->val == 0) {
 +                tcg_op_remove(s, op);
 +                continue;
 +            }
 +            if (tmp == 1) {
 +            do_brcond_true:
 +                op->opc = opc = INDEX_op_br;
 +                op->args[0] = op->args[5];
 +                break;
 +            }
 +            if ((op->args[4] == TCG_COND_LT || op->args[4] == TCG_COND_GE)
 +                 && arg_is_const(op->args[2])
 +                 && arg_info(op->args[2])->val == 0
 +                 && arg_is_const(op->args[3])
 +                 && arg_info(op->args[3])->val == 0) {
                  /* Simplify LT/GE comparisons vs zero to a single compare
                     vs the high word of the input.  */
              do_brcond_high:
 -                memset(&ctx.temps_used, 0, sizeof(ctx.temps_used));
 -                op->opc = INDEX_op_brcond_i32;
 +                op->opc = opc = INDEX_op_brcond_i32;
                  op->args[0] = op->args[1];
                  op->args[1] = op->args[3];
                  op->args[2] = op->args[4];
                  op->args[3] = op->args[5];
 -            } else if (op->args[4] == TCG_COND_EQ) {
 +                break;
 +            }
 +            if (op->args[4] == TCG_COND_EQ) {
                  /* Simplify EQ comparisons where one of the pairs
                     can be simplified.  */
                  tmp = do_constant_folding_cond(INDEX_op_brcond_i32,
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
                  if (tmp == 0) {
                      goto do_brcond_false;
                  } else if (tmp != 1) {
 -                    goto do_default;
 +                    break;
                  }
              do_brcond_low:
                  memset(&ctx.temps_used, 0, sizeof(ctx.temps_used));
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
                  op->args[1] = op->args[2];
                  op->args[2] = op->args[4];
                  op->args[3] = op->args[5];
 -            } else if (op->args[4] == TCG_COND_NE) {
 +                break;
 +            }
 +            if (op->args[4] == TCG_COND_NE) {
                  /* Simplify NE comparisons where one of the pairs
                     can be simplified.  */
                  tmp = do_constant_folding_cond(INDEX_op_brcond_i32,
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
                  } else if (tmp == 1) {
                      goto do_brcond_true;
                  }
 -                goto do_default;
 -            } else {
 -                goto do_default;
              }
              break;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
              if (tmp != 2) {
              do_setcond_const:
                  tcg_opt_gen_movi(s, &ctx, op, op->args[0], tmp);
 -            } else if ((op->args[5] == TCG_COND_LT
 -                        || op->args[5] == TCG_COND_GE)
 -                       && arg_is_const(op->args[3])
 -                       && arg_info(op->args[3])->val == 0
 -                       && arg_is_const(op->args[4])
 -                       && arg_info(op->args[4])->val == 0) {
 +                continue;
 +            }
 +            if ((op->args[5] == TCG_COND_LT || op->args[5] == TCG_COND_GE)
 +                 && arg_is_const(op->args[3])
 +                 && arg_info(op->args[3])->val == 0
 +                 && arg_is_const(op->args[4])
 +                 && arg_info(op->args[4])->val == 0) {
                  /* Simplify LT/GE comparisons vs zero to a single compare
                     vs the high word of the input.  */
              do_setcond_high:
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
                  op->args[1] = op->args[2];
                  op->args[2] = op->args[4];
                  op->args[3] = op->args[5];
 -            } else if (op->args[5] == TCG_COND_EQ) {
 +                break;
 +            }
 +            if (op->args[5] == TCG_COND_EQ) {
                  /* Simplify EQ comparisons where one of the pairs
                     can be simplified.  */
                  tmp = do_constant_folding_cond(INDEX_op_setcond_i32,
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
                  if (tmp == 0) {
                      goto do_setcond_high;
                  } else if (tmp != 1) {
 -                    goto do_default;
 +                    break;
                  }
              do_setcond_low:
                  reset_temp(op->args[0]);
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
                  op->opc = INDEX_op_setcond_i32;
                  op->args[2] = op->args[3];
                  op->args[3] = op->args[5];
 -            } else if (op->args[5] == TCG_COND_NE) {
 +                break;
 +            }
 +            if (op->args[5] == TCG_COND_NE) {
                  /* Simplify NE comparisons where one of the pairs
                     can be simplified.  */
                  tmp = do_constant_folding_cond(INDEX_op_setcond_i32,
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
                  } else if (tmp == 1) {
                      goto do_setcond_const;
                  }
 -                goto do_default;
 -            } else {
 -                goto do_default;
              }
              break;
 -        case INDEX_op_call:
 -            if (!(tcg_call_flags(op)
 +        default:
 +            break;
 +        }
 +
 +        /* Some of the folding above can change opc. */
 +        opc = op->opc;
 +        def = &tcg_op_defs[opc];
 +        if (def->flags & TCG_OPF_BB_END) {
 +            memset(&ctx.temps_used, 0, sizeof(ctx.temps_used));
 +        } else {
 +            if (opc == INDEX_op_call &&
 +                !(tcg_call_flags(op)
                    & (TCG_CALL_NO_READ_GLOBALS | TCG_CALL_NO_WRITE_GLOBALS))) {
                  for (i = 0; i < nb_globals; i++) {
                      if (test_bit(i, ctx.temps_used.l)) {
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
                      }
                  }
              }
 -            goto do_reset_output;
 -        default:
 -        do_default:
 -            /* Default case: we know nothing about operation (or were unable
 -               to compute the operation result) so no propagation is done.
 -               We trash everything if the operation is the end of a basic
 -               block, otherwise we only trash the output args.  "z_mask" is
 -               the non-zero bits mask for the first output arg.  */
 -            if (def->flags & TCG_OPF_BB_END) {
 -                memset(&ctx.temps_used, 0, sizeof(ctx.temps_used));
 -            } else {
 -        do_reset_output:
 -                for (i = 0; i < nb_oargs; i++) {
 -                    reset_temp(op->args[i]);
 -                    /* Save the corresponding known-zero bits mask for the
 -                       first output argument (only one supported so far). */
 -                    if (i == 0) {
 -                        arg_info(op->args[i])->z_mask = z_mask;
 -                    }
 +            for (i = 0; i < nb_oargs; i++) {
 +                reset_temp(op->args[i]);
 +                /* Save the corresponding known-zero bits mask for the
 +                   first output argument (only one supported so far). */
 +                if (i == 0) {
 +                    arg_info(op->args[i])->z_mask = z_mask;
                  }
              }
 -            break;
          }
          /* Eliminate duplicate and redundant fence instructions.  */
 --
-.25.1
+.34.1

-[PULL 43/56] tcg/optimize: Split out fold_masks
+[PULL 61/62] tcg: Remove tcg_temp_local_new_*, tcg_const_local_*
-Move all of the known-zero optimizations into the per-opcode
+These symbols are now unused.
 functions.  Use fold_masks when there is a possibility of the
 result being determined, and simply set ctx->z_mask otherwise.
-Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
+Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
 Reviewed-by: Luis Pires <luis.pires@eldorado.org.br>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- tcg/optimize.c | 545 ++++++++++++++++++++++++++-----------------------
+ include/tcg/tcg-op.h |  2 --
-file changed, 294 insertions(+), 251 deletions(-)
+ include/tcg/tcg.h    | 28 ----------------------------
  tcg/tcg.c            | 16 ----------------
 files changed, 46 deletions(-)
-diff --git a/tcg/optimize.c b/tcg/optimize.c
+diff --git a/include/tcg/tcg-op.h b/include/tcg/tcg-op.h
 index XXXXXXX..XXXXXXX 100644
---- a/tcg/optimize.c
+--- a/include/tcg/tcg-op.h
-+++ b/tcg/optimize.c
++++ b/include/tcg/tcg-op.h
-@@ -XXX,XX +XXX,XX @@ typedef struct OptContext {
+@@ -XXX,XX +XXX,XX @@ static inline void tcg_gen_plugin_cb_end(void)
-     TCGTempSet temps_used;
+ #if TARGET_LONG_BITS == 32
+ #define tcg_temp_new() tcg_temp_new_i32()
-     /* In flight values from optimization. */
+ #define tcg_global_mem_new tcg_global_mem_new_i32
--    uint64_t z_mask;
+-#define tcg_temp_local_new() tcg_temp_local_new_i32()
-+    uint64_t a_mask;  /* mask bit is 0 iff value identical to first input */
+ #define tcg_temp_free tcg_temp_free_i32
-+    uint64_t z_mask;  /* mask bit is 0 iff value bit is 0 */
+ #define tcg_gen_qemu_ld_tl tcg_gen_qemu_ld_i32
-     TCGType type;
+ #define tcg_gen_qemu_st_tl tcg_gen_qemu_st_i32
- } OptContext;
+ #else
+ #define tcg_temp_new() tcg_temp_new_i64()
-@@ -XXX,XX +XXX,XX @@ static bool fold_const2(OptContext *ctx, TCGOp *op)
+ #define tcg_global_mem_new tcg_global_mem_new_i64
-     return false;
+-#define tcg_temp_local_new() tcg_temp_local_new_i64()
  #define tcg_temp_free tcg_temp_free_i64
  #define tcg_gen_qemu_ld_tl tcg_gen_qemu_ld_i64
  #define tcg_gen_qemu_st_tl tcg_gen_qemu_st_i64
 diff --git a/include/tcg/tcg.h b/include/tcg/tcg.h
 index XXXXXXX..XXXXXXX 100644
 --- a/include/tcg/tcg.h
 +++ b/include/tcg/tcg.h
@@ -XXX,XX +XXX,XX @@ static inline TCGv_i32 tcg_temp_new_i32(void)
      return temp_tcgv_i32(t);
  }
-+static bool fold_masks(OptContext *ctx, TCGOp *op)
+-static inline TCGv_i32 tcg_temp_local_new_i32(void)
-+{
+-{
-+    uint64_t a_mask = ctx->a_mask;
+-    TCGTemp *t = tcg_temp_new_internal(TCG_TYPE_I32, TEMP_TB);
-+    uint64_t z_mask = ctx->z_mask;
+-    return temp_tcgv_i32(t);
-+
+-}
-+    /*
+-
-+     * 32-bit ops generate 32-bit results.  For the result is zero test
+ static inline TCGv_i64 tcg_global_mem_new_i64(TCGv_ptr reg, intptr_t offset,
-+     * below, we can ignore high bits, but for further optimizations we
+                                               const char *name)
 +     * need to record that the high bits contain garbage.
 +     */
 +    if (ctx->type == TCG_TYPE_I32) {
 +        ctx->z_mask |= MAKE_64BIT_MASK(32, 32);
 +        a_mask &= MAKE_64BIT_MASK(0, 32);
 +        z_mask &= MAKE_64BIT_MASK(0, 32);
 +    }
 +
 +    if (z_mask == 0) {
 +        return tcg_opt_gen_movi(ctx, op, op->args[0], 0);
 +    }
 +    if (a_mask == 0) {
 +        return tcg_opt_gen_mov(ctx, op, op->args[0], op->args[1]);
 +    }
 +    return false;
 +}
 +
  /*
   * Convert @op to NOT, if NOT is supported by the host.
   * Return true f the conversion is successful, which will still
@@ -XXX,XX +XXX,XX @@ static bool fold_add2_i32(OptContext *ctx, TCGOp *op)
  static bool fold_and(OptContext *ctx, TCGOp *op)
  {
-+    uint64_t z1, z2;
+@@ -XXX,XX +XXX,XX @@ static inline TCGv_i64 tcg_temp_new_i64(void)
-+
+     return temp_tcgv_i64(t);
      if (fold_const2(ctx, op) ||
          fold_xi_to_i(ctx, op, 0) ||
          fold_xi_to_x(ctx, op, -1) ||
          fold_xx_to_x(ctx, op)) {
          return true;
      }
 -    return false;
 +
 +    z1 = arg_info(op->args[1])->z_mask;
 +    z2 = arg_info(op->args[2])->z_mask;
 +    ctx->z_mask = z1 & z2;
 +
 +    /*
 +     * Known-zeros does not imply known-ones.  Therefore unless
 +     * arg2 is constant, we can't infer affected bits from it.
 +     */
 +    if (arg_is_const(op->args[2])) {
 +        ctx->a_mask = z1 & ~z2;
 +    }
 +
 +    return fold_masks(ctx, op);
  }
- static bool fold_andc(OptContext *ctx, TCGOp *op)
+-static inline TCGv_i64 tcg_temp_local_new_i64(void)
 -{
 -    TCGTemp *t = tcg_temp_new_internal(TCG_TYPE_I64, TEMP_TB);
 -    return temp_tcgv_i64(t);
 -}
 -
  /* Used only by tcg infrastructure: tcg-op.c or plugin-gen.c */
  static inline TCGv_i128 tcg_temp_ebb_new_i128(void)
  {
-+    uint64_t z1;
+@@ -XXX,XX +XXX,XX @@ static inline TCGv_i128 tcg_temp_new_i128(void)
-+
+     return temp_tcgv_i128(t);
      if (fold_const2(ctx, op) ||
          fold_xx_to_i(ctx, op, 0) ||
          fold_xi_to_x(ctx, op, 0) ||
          fold_ix_to_not(ctx, op, -1)) {
          return true;
      }
 -    return false;
 +
 +    z1 = arg_info(op->args[1])->z_mask;
 +
 +    /*
 +     * Known-zeros does not imply known-ones.  Therefore unless
 +     * arg2 is constant, we can't infer anything from it.
 +     */
 +    if (arg_is_const(op->args[2])) {
 +        uint64_t z2 = ~arg_info(op->args[2])->z_mask;
 +        ctx->a_mask = z1 & ~z2;
 +        z1 &= z2;
 +    }
 +    ctx->z_mask = z1;
 +
 +    return fold_masks(ctx, op);
  }
- static bool fold_brcond(OptContext *ctx, TCGOp *op)
+-static inline TCGv_i128 tcg_temp_local_new_i128(void)
-@@ -XXX,XX +XXX,XX @@ static bool fold_brcond2(OptContext *ctx, TCGOp *op)
+-{
+-    TCGTemp *t = tcg_temp_new_internal(TCG_TYPE_I128, TEMP_TB);
- static bool fold_bswap(OptContext *ctx, TCGOp *op)
+-    return temp_tcgv_i128(t);
 -}
 -
  static inline TCGv_ptr tcg_global_mem_new_ptr(TCGv_ptr reg, intptr_t offset,
                                                const char *name)
  {
-+    uint64_t z_mask, sign;
+@@ -XXX,XX +XXX,XX @@ static inline TCGv_ptr tcg_temp_new_ptr(void)
-+
+     return temp_tcgv_ptr(t);
      if (arg_is_const(op->args[1])) {
          uint64_t t = arg_info(op->args[1])->val;
          t = do_constant_folding(op->opc, ctx->type, t, op->args[2]);
          return tcg_opt_gen_movi(ctx, op, op->args[0], t);
      }
 -    return false;
 +
 +    z_mask = arg_info(op->args[1])->z_mask;
 +    switch (op->opc) {
 +    case INDEX_op_bswap16_i32:
 +    case INDEX_op_bswap16_i64:
 +        z_mask = bswap16(z_mask);
 +        sign = INT16_MIN;
 +        break;
 +    case INDEX_op_bswap32_i32:
 +    case INDEX_op_bswap32_i64:
 +        z_mask = bswap32(z_mask);
 +        sign = INT32_MIN;
 +        break;
 +    case INDEX_op_bswap64_i64:
 +        z_mask = bswap64(z_mask);
 +        sign = INT64_MIN;
 +        break;
 +    default:
 +        g_assert_not_reached();
 +    }
 +
 +    switch (op->args[2] & (TCG_BSWAP_OZ | TCG_BSWAP_OS)) {
 +    case TCG_BSWAP_OZ:
 +        break;
 +    case TCG_BSWAP_OS:
 +        /* If the sign bit may be 1, force all the bits above to 1. */
 +        if (z_mask & sign) {
 +            z_mask |= sign;
 +        }
 +        break;
 +    default:
 +        /* The high bits are undefined: force all bits above the sign to 1. */
 +        z_mask |= sign << 1;
 +        break;
 +    }
 +    ctx->z_mask = z_mask;
 +
 +    return fold_masks(ctx, op);
  }
- static bool fold_call(OptContext *ctx, TCGOp *op)
+-static inline TCGv_ptr tcg_temp_local_new_ptr(void)
-@@ -XXX,XX +XXX,XX @@ static bool fold_call(OptContext *ctx, TCGOp *op)
+-{
+-    TCGTemp *t = tcg_temp_new_internal(TCG_TYPE_PTR, TEMP_TB);
- static bool fold_count_zeros(OptContext *ctx, TCGOp *op)
+-    return temp_tcgv_ptr(t);
 -}
 -
  #if defined(CONFIG_DEBUG_TCG)
  /* If you call tcg_clear_temp_count() at the start of a section of
   * code which is not supposed to leak any TCG temporaries, then
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s);
  /* Allocate a new temporary and initialize it with a constant. */
  TCGv_i32 tcg_const_i32(int32_t val);
  TCGv_i64 tcg_const_i64(int64_t val);
 -TCGv_i32 tcg_const_local_i32(int32_t val);
 -TCGv_i64 tcg_const_local_i64(int64_t val);
  TCGv_vec tcg_const_zeros_vec(TCGType);
  TCGv_vec tcg_const_ones_vec(TCGType);
  TCGv_vec tcg_const_zeros_vec_matching(TCGv_vec);
@@ -XXX,XX +XXX,XX @@ TCGv_vec tcg_constant_vec_matching(TCGv_vec match, unsigned vece, int64_t val);
  #if UINTPTR_MAX == UINT32_MAX
  # define tcg_const_ptr(x)        ((TCGv_ptr)tcg_const_i32((intptr_t)(x)))
 -# define tcg_const_local_ptr(x)  ((TCGv_ptr)tcg_const_local_i32((intptr_t)(x)))
  # define tcg_constant_ptr(x)     ((TCGv_ptr)tcg_constant_i32((intptr_t)(x)))
  #else
  # define tcg_const_ptr(x)        ((TCGv_ptr)tcg_const_i64((intptr_t)(x)))
 -# define tcg_const_local_ptr(x)  ((TCGv_ptr)tcg_const_local_i64((intptr_t)(x)))
  # define tcg_constant_ptr(x)     ((TCGv_ptr)tcg_constant_i64((intptr_t)(x)))
  #endif
 diff --git a/tcg/tcg.c b/tcg/tcg.c
 index XXXXXXX..XXXXXXX 100644
 --- a/tcg/tcg.c
 +++ b/tcg/tcg.c
@@ -XXX,XX +XXX,XX @@ TCGv_i64 tcg_const_i64(int64_t val)
      return t0;
  }
 -TCGv_i32 tcg_const_local_i32(int32_t val)
 -{
 -    TCGv_i32 t0;
 -    t0 = tcg_temp_local_new_i32();
 -    tcg_gen_movi_i32(t0, val);
 -    return t0;
 -}
 -
 -TCGv_i64 tcg_const_local_i64(int64_t val)
 -{
 -    TCGv_i64 t0;
 -    t0 = tcg_temp_local_new_i64();
 -    tcg_gen_movi_i64(t0, val);
 -    return t0;
 -}
 -
  #if defined(CONFIG_DEBUG_TCG)
  void tcg_clear_temp_count(void)
  {
-+    uint64_t z_mask;
-+
-     if (arg_is_const(op->args[1])) {
-         uint64_t t = arg_info(op->args[1])->val;
-@@ -XXX,XX +XXX,XX @@ static bool fold_count_zeros(OptContext *ctx, TCGOp *op)
-         }
-         return tcg_opt_gen_mov(ctx, op, op->args[0], op->args[2]);
-     }
-+
-+    switch (ctx->type) {
-+    case TCG_TYPE_I32:
-+        z_mask = 31;
-+        break;
-+    case TCG_TYPE_I64:
-+        z_mask = 63;
-+        break;
-+    default:
-+        g_assert_not_reached();
-+    }
-+    ctx->z_mask = arg_info(op->args[2])->z_mask | z_mask;
-+
-     return false;
- }
- static bool fold_ctpop(OptContext *ctx, TCGOp *op)
- {
--    return fold_const1(ctx, op);
-+    if (fold_const1(ctx, op)) {
-+        return true;
-+    }
-+
-+    switch (ctx->type) {
-+    case TCG_TYPE_I32:
-+        ctx->z_mask = 32 | 31;
-+        break;
-+    case TCG_TYPE_I64:
-+        ctx->z_mask = 64 | 63;
-+        break;
-+    default:
-+        g_assert_not_reached();
-+    }
-+    return false;
- }
- static bool fold_deposit(OptContext *ctx, TCGOp *op)
-@@ -XXX,XX +XXX,XX @@ static bool fold_deposit(OptContext *ctx, TCGOp *op)
-         t1 = deposit64(t1, op->args[3], op->args[4], t2);
-         return tcg_opt_gen_movi(ctx, op, op->args[0], t1);
-     }
-+
-+    ctx->z_mask = deposit64(arg_info(op->args[1])->z_mask,
-+                            op->args[3], op->args[4],
-+                            arg_info(op->args[2])->z_mask);
-     return false;
- }
-@@ -XXX,XX +XXX,XX @@ static bool fold_eqv(OptContext *ctx, TCGOp *op)
- static bool fold_extract(OptContext *ctx, TCGOp *op)
- {
-+    uint64_t z_mask_old, z_mask;
-+
-     if (arg_is_const(op->args[1])) {
-         uint64_t t;
-@@ -XXX,XX +XXX,XX @@ static bool fold_extract(OptContext *ctx, TCGOp *op)
-         t = extract64(t, op->args[2], op->args[3]);
-         return tcg_opt_gen_movi(ctx, op, op->args[0], t);
-     }
--    return false;
-+
-+    z_mask_old = arg_info(op->args[1])->z_mask;
-+    z_mask = extract64(z_mask_old, op->args[2], op->args[3]);
-+    if (op->args[2] == 0) {
-+        ctx->a_mask = z_mask_old ^ z_mask;
-+    }
-+    ctx->z_mask = z_mask;
-+
-+    return fold_masks(ctx, op);
- }
- static bool fold_extract2(OptContext *ctx, TCGOp *op)
-@@ -XXX,XX +XXX,XX @@ static bool fold_extract2(OptContext *ctx, TCGOp *op)
- static bool fold_exts(OptContext *ctx, TCGOp *op)
- {
--    return fold_const1(ctx, op);
-+    uint64_t z_mask_old, z_mask, sign;
-+    bool type_change = false;
-+
-+    if (fold_const1(ctx, op)) {
-+        return true;
-+    }
-+
-+    z_mask_old = z_mask = arg_info(op->args[1])->z_mask;
-+
-+    switch (op->opc) {
-+    CASE_OP_32_64(ext8s):
-+        sign = INT8_MIN;
-+        z_mask = (uint8_t)z_mask;
-+        break;
-+    CASE_OP_32_64(ext16s):
-+        sign = INT16_MIN;
-+        z_mask = (uint16_t)z_mask;
-+        break;
-+    case INDEX_op_ext_i32_i64:
-+        type_change = true;
-+        QEMU_FALLTHROUGH;
-+    case INDEX_op_ext32s_i64:
-+        sign = INT32_MIN;
-+        z_mask = (uint32_t)z_mask;
-+        break;
-+    default:
-+        g_assert_not_reached();
-+    }
-+
-+    if (z_mask & sign) {
-+        z_mask |= sign;
-+    } else if (!type_change) {
-+        ctx->a_mask = z_mask_old ^ z_mask;
-+    }
-+    ctx->z_mask = z_mask;
-+
-+    return fold_masks(ctx, op);
- }
- static bool fold_extu(OptContext *ctx, TCGOp *op)
- {
--    return fold_const1(ctx, op);
-+    uint64_t z_mask_old, z_mask;
-+    bool type_change = false;
-+
-+    if (fold_const1(ctx, op)) {
-+        return true;
-+    }
-+
-+    z_mask_old = z_mask = arg_info(op->args[1])->z_mask;
-+
-+    switch (op->opc) {
-+    CASE_OP_32_64(ext8u):
-+        z_mask = (uint8_t)z_mask;
-+        break;
-+    CASE_OP_32_64(ext16u):
-+        z_mask = (uint16_t)z_mask;
-+        break;
-+    case INDEX_op_extrl_i64_i32:
-+    case INDEX_op_extu_i32_i64:
-+        type_change = true;
-+        QEMU_FALLTHROUGH;
-+    case INDEX_op_ext32u_i64:
-+        z_mask = (uint32_t)z_mask;
-+        break;
-+    case INDEX_op_extrh_i64_i32:
-+        type_change = true;
-+        z_mask >>= 32;
-+        break;
-+    default:
-+        g_assert_not_reached();
-+    }
-+
-+    ctx->z_mask = z_mask;
-+    if (!type_change) {
-+        ctx->a_mask = z_mask_old ^ z_mask;
-+    }
-+    return fold_masks(ctx, op);
- }
- static bool fold_mb(OptContext *ctx, TCGOp *op)
-@@ -XXX,XX +XXX,XX @@ static bool fold_movcond(OptContext *ctx, TCGOp *op)
-         return tcg_opt_gen_mov(ctx, op, op->args[0], op->args[4 - i]);
-     }
-+    ctx->z_mask = arg_info(op->args[3])->z_mask
-+                | arg_info(op->args[4])->z_mask;
-+
-     if (arg_is_const(op->args[3]) && arg_is_const(op->args[4])) {
-         uint64_t tv = arg_info(op->args[3])->val;
-         uint64_t fv = arg_info(op->args[4])->val;
-@@ -XXX,XX +XXX,XX @@ static bool fold_nand(OptContext *ctx, TCGOp *op)
- static bool fold_neg(OptContext *ctx, TCGOp *op)
- {
-+    uint64_t z_mask;
-+
-     if (fold_const1(ctx, op)) {
-         return true;
-     }
-+
-+    /* Set to 1 all bits to the left of the rightmost.  */
-+    z_mask = arg_info(op->args[1])->z_mask;
-+    ctx->z_mask = -(z_mask & -z_mask);
-+
-     /*
-      * Because of fold_sub_to_neg, we want to always return true,
-      * via finish_folding.
-@@ -XXX,XX +XXX,XX @@ static bool fold_or(OptContext *ctx, TCGOp *op)
-         fold_xx_to_x(ctx, op)) {
-         return true;
-     }
--    return false;
-+
-+    ctx->z_mask = arg_info(op->args[1])->z_mask
-+                | arg_info(op->args[2])->z_mask;
-+    return fold_masks(ctx, op);
- }
- static bool fold_orc(OptContext *ctx, TCGOp *op)
-@@ -XXX,XX +XXX,XX @@ static bool fold_orc(OptContext *ctx, TCGOp *op)
- static bool fold_qemu_ld(OptContext *ctx, TCGOp *op)
- {
-+    const TCGOpDef *def = &tcg_op_defs[op->opc];
-+    MemOpIdx oi = op->args[def->nb_oargs + def->nb_iargs];
-+    MemOp mop = get_memop(oi);
-+    int width = 8 * memop_size(mop);
-+
-+    if (!(mop & MO_SIGN) && width < 64) {
-+        ctx->z_mask = MAKE_64BIT_MASK(0, width);
-+    }
-+
-     /* Opcodes that touch guest memory stop the mb optimization.  */
-     ctx->prev_mb = NULL;
-     return false;
-@@ -XXX,XX +XXX,XX @@ static bool fold_setcond(OptContext *ctx, TCGOp *op)
-     if (i >= 0) {
-         return tcg_opt_gen_movi(ctx, op, op->args[0], i);
-     }
-+
-+    ctx->z_mask = 1;
-     return false;
- }
-@@ -XXX,XX +XXX,XX @@ static bool fold_setcond2(OptContext *ctx, TCGOp *op)
-         op->opc = INDEX_op_setcond_i32;
-         break;
-     }
-+
-+    ctx->z_mask = 1;
-     return false;
-  do_setcond_const:
-@@ -XXX,XX +XXX,XX @@ static bool fold_setcond2(OptContext *ctx, TCGOp *op)
- static bool fold_sextract(OptContext *ctx, TCGOp *op)
- {
-+    int64_t z_mask_old, z_mask;
-+
-     if (arg_is_const(op->args[1])) {
-         uint64_t t;
-@@ -XXX,XX +XXX,XX @@ static bool fold_sextract(OptContext *ctx, TCGOp *op)
-         t = sextract64(t, op->args[2], op->args[3]);
-         return tcg_opt_gen_movi(ctx, op, op->args[0], t);
-     }
--    return false;
-+
-+    z_mask_old = arg_info(op->args[1])->z_mask;
-+    z_mask = sextract64(z_mask_old, op->args[2], op->args[3]);
-+    if (op->args[2] == 0 && z_mask >= 0) {
-+        ctx->a_mask = z_mask_old ^ z_mask;
-+    }
-+    ctx->z_mask = z_mask;
-+
-+    return fold_masks(ctx, op);
- }
- static bool fold_shift(OptContext *ctx, TCGOp *op)
-@@ -XXX,XX +XXX,XX @@ static bool fold_shift(OptContext *ctx, TCGOp *op)
-         fold_xi_to_x(ctx, op, 0)) {
-         return true;
-     }
-+
-+    if (arg_is_const(op->args[2])) {
-+        ctx->z_mask = do_constant_folding(op->opc, ctx->type,
-+                                          arg_info(op->args[1])->z_mask,
-+                                          arg_info(op->args[2])->val);
-+        return fold_masks(ctx, op);
-+    }
-     return false;
- }
-@@ -XXX,XX +XXX,XX @@ static bool fold_sub2_i32(OptContext *ctx, TCGOp *op)
-     return fold_addsub2_i32(ctx, op, false);
- }
-+static bool fold_tcg_ld(OptContext *ctx, TCGOp *op)
-+{
-+    /* We can't do any folding with a load, but we can record bits. */
-+    switch (op->opc) {
-+    CASE_OP_32_64(ld8u):
-+        ctx->z_mask = MAKE_64BIT_MASK(0, 8);
-+        break;
-+    CASE_OP_32_64(ld16u):
-+        ctx->z_mask = MAKE_64BIT_MASK(0, 16);
-+        break;
-+    case INDEX_op_ld32u_i64:
-+        ctx->z_mask = MAKE_64BIT_MASK(0, 32);
-+        break;
-+    default:
-+        g_assert_not_reached();
-+    }
-+    return false;
-+}
-+
- static bool fold_xor(OptContext *ctx, TCGOp *op)
- {
-     if (fold_const2(ctx, op) ||
-@@ -XXX,XX +XXX,XX @@ static bool fold_xor(OptContext *ctx, TCGOp *op)
-         fold_xi_to_not(ctx, op, -1)) {
-         return true;
-     }
--    return false;
-+
-+    ctx->z_mask = arg_info(op->args[1])->z_mask
-+                | arg_info(op->args[2])->z_mask;
-+    return fold_masks(ctx, op);
- }
- /* Propagate constants and copies, fold constant expressions. */
-@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
-     }
-     QTAILQ_FOREACH_SAFE(op, &s->ops, link, op_next) {
--        uint64_t z_mask, partmask, affected, tmp;
-         TCGOpcode opc = op->opc;
-         const TCGOpDef *def;
-         bool done = false;
-@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
-             break;
-         }
--        /* Simplify using known-zero bits. Currently only ops with a single
--           output argument is supported. */
--        z_mask = -1;
--        affected = -1;
--        switch (opc) {
--        CASE_OP_32_64(ext8s):
--            if ((arg_info(op->args[1])->z_mask & 0x80) != 0) {
--                break;
--            }
--            QEMU_FALLTHROUGH;
--        CASE_OP_32_64(ext8u):
--            z_mask = 0xff;
--            goto and_const;
--        CASE_OP_32_64(ext16s):
--            if ((arg_info(op->args[1])->z_mask & 0x8000) != 0) {
--                break;
--            }
--            QEMU_FALLTHROUGH;
--        CASE_OP_32_64(ext16u):
--            z_mask = 0xffff;
--            goto and_const;
--        case INDEX_op_ext32s_i64:
--            if ((arg_info(op->args[1])->z_mask & 0x80000000) != 0) {
--                break;
--            }
--            QEMU_FALLTHROUGH;
--        case INDEX_op_ext32u_i64:
--            z_mask = 0xffffffffU;
--            goto and_const;
--
--        CASE_OP_32_64(and):
--            z_mask = arg_info(op->args[2])->z_mask;
--            if (arg_is_const(op->args[2])) {
--        and_const:
--                affected = arg_info(op->args[1])->z_mask & ~z_mask;
--            }
--            z_mask = arg_info(op->args[1])->z_mask & z_mask;
--            break;
--
--        case INDEX_op_ext_i32_i64:
--            if ((arg_info(op->args[1])->z_mask & 0x80000000) != 0) {
--                break;
--            }
--            QEMU_FALLTHROUGH;
--        case INDEX_op_extu_i32_i64:
--            /* We do not compute affected as it is a size changing op.  */
--            z_mask = (uint32_t)arg_info(op->args[1])->z_mask;
--            break;
--
--        CASE_OP_32_64(andc):
--            /* Known-zeros does not imply known-ones.  Therefore unless
--               op->args[2] is constant, we can't infer anything from it.  */
--            if (arg_is_const(op->args[2])) {
--                z_mask = ~arg_info(op->args[2])->z_mask;
--                goto and_const;
--            }
--            /* But we certainly know nothing outside args[1] may be set. */
--            z_mask = arg_info(op->args[1])->z_mask;
--            break;
--
--        case INDEX_op_sar_i32:
--            if (arg_is_const(op->args[2])) {
--                tmp = arg_info(op->args[2])->val & 31;
--                z_mask = (int32_t)arg_info(op->args[1])->z_mask >> tmp;
--            }
--            break;
--        case INDEX_op_sar_i64:
--            if (arg_is_const(op->args[2])) {
--                tmp = arg_info(op->args[2])->val & 63;
--                z_mask = (int64_t)arg_info(op->args[1])->z_mask >> tmp;
--            }
--            break;
--
--        case INDEX_op_shr_i32:
--            if (arg_is_const(op->args[2])) {
--                tmp = arg_info(op->args[2])->val & 31;
--                z_mask = (uint32_t)arg_info(op->args[1])->z_mask >> tmp;
--            }
--            break;
--        case INDEX_op_shr_i64:
--            if (arg_is_const(op->args[2])) {
--                tmp = arg_info(op->args[2])->val & 63;
--                z_mask = (uint64_t)arg_info(op->args[1])->z_mask >> tmp;
--            }
--            break;
--
--        case INDEX_op_extrl_i64_i32:
--            z_mask = (uint32_t)arg_info(op->args[1])->z_mask;
--            break;
--        case INDEX_op_extrh_i64_i32:
--            z_mask = (uint64_t)arg_info(op->args[1])->z_mask >> 32;
--            break;
--
--        CASE_OP_32_64(shl):
--            if (arg_is_const(op->args[2])) {
--                tmp = arg_info(op->args[2])->val & (TCG_TARGET_REG_BITS - 1);
--                z_mask = arg_info(op->args[1])->z_mask << tmp;
--            }
--            break;
--
--        CASE_OP_32_64(neg):
--            /* Set to 1 all bits to the left of the rightmost.  */
--            z_mask = -(arg_info(op->args[1])->z_mask
--                       & -arg_info(op->args[1])->z_mask);
--            break;
--
--        CASE_OP_32_64(deposit):
--            z_mask = deposit64(arg_info(op->args[1])->z_mask,
--                               op->args[3], op->args[4],
--                               arg_info(op->args[2])->z_mask);
--            break;
--
--        CASE_OP_32_64(extract):
--            z_mask = extract64(arg_info(op->args[1])->z_mask,
--                               op->args[2], op->args[3]);
--            if (op->args[2] == 0) {
--                affected = arg_info(op->args[1])->z_mask & ~z_mask;
--            }
--            break;
--        CASE_OP_32_64(sextract):
--            z_mask = sextract64(arg_info(op->args[1])->z_mask,
--                                op->args[2], op->args[3]);
--            if (op->args[2] == 0 && (tcg_target_long)z_mask >= 0) {
--                affected = arg_info(op->args[1])->z_mask & ~z_mask;
--            }
--            break;
--
--        CASE_OP_32_64(or):
--        CASE_OP_32_64(xor):
--            z_mask = arg_info(op->args[1])->z_mask
--                   | arg_info(op->args[2])->z_mask;
--            break;
--
--        case INDEX_op_clz_i32:
--        case INDEX_op_ctz_i32:
--            z_mask = arg_info(op->args[2])->z_mask | 31;
--            break;
--
--        case INDEX_op_clz_i64:
--        case INDEX_op_ctz_i64:
--            z_mask = arg_info(op->args[2])->z_mask | 63;
--            break;
--
--        case INDEX_op_ctpop_i32:
--            z_mask = 32 | 31;
--            break;
--        case INDEX_op_ctpop_i64:
--            z_mask = 64 | 63;
--            break;
--
--        CASE_OP_32_64(setcond):
--        case INDEX_op_setcond2_i32:
--            z_mask = 1;
--            break;
--
--        CASE_OP_32_64(movcond):
--            z_mask = arg_info(op->args[3])->z_mask
--                   | arg_info(op->args[4])->z_mask;
--            break;
--
--        CASE_OP_32_64(ld8u):
--            z_mask = 0xff;
--            break;
--        CASE_OP_32_64(ld16u):
--            z_mask = 0xffff;
--            break;
--        case INDEX_op_ld32u_i64:
--            z_mask = 0xffffffffu;
--            break;
--
--        CASE_OP_32_64(qemu_ld):
--            {
--                MemOpIdx oi = op->args[def->nb_oargs + def->nb_iargs];
--                MemOp mop = get_memop(oi);
--                if (!(mop & MO_SIGN)) {
--                    z_mask = (2ULL << ((8 << (mop & MO_SIZE)) - 1)) - 1;
--                }
--            }
--            break;
--
--        CASE_OP_32_64(bswap16):
--            z_mask = arg_info(op->args[1])->z_mask;
--            if (z_mask <= 0xffff) {
--                op->args[2] |= TCG_BSWAP_IZ;
--            }
--            z_mask = bswap16(z_mask);
--            switch (op->args[2] & (TCG_BSWAP_OZ | TCG_BSWAP_OS)) {
--            case TCG_BSWAP_OZ:
--                break;
--            case TCG_BSWAP_OS:
--                z_mask = (int16_t)z_mask;
--                break;
--            default: /* undefined high bits */
--                z_mask |= MAKE_64BIT_MASK(16, 48);
--                break;
--            }
--            break;
--
--        case INDEX_op_bswap32_i64:
--            z_mask = arg_info(op->args[1])->z_mask;
--            if (z_mask <= 0xffffffffu) {
--                op->args[2] |= TCG_BSWAP_IZ;
--            }
--            z_mask = bswap32(z_mask);
--            switch (op->args[2] & (TCG_BSWAP_OZ | TCG_BSWAP_OS)) {
--            case TCG_BSWAP_OZ:
--                break;
--            case TCG_BSWAP_OS:
--                z_mask = (int32_t)z_mask;
--                break;
--            default: /* undefined high bits */
--                z_mask |= MAKE_64BIT_MASK(32, 32);
--                break;
--            }
--            break;
--
--        default:
--            break;
--        }
--
--        /* 32-bit ops generate 32-bit results.  For the result is zero test
--           below, we can ignore high bits, but for further optimizations we
--           need to record that the high bits contain garbage.  */
--        partmask = z_mask;
--        if (ctx.type == TCG_TYPE_I32) {
--            z_mask |= ~(tcg_target_ulong)0xffffffffu;
--            partmask &= 0xffffffffu;
--            affected &= 0xffffffffu;
--        }
--        ctx.z_mask = z_mask;
--
--        if (partmask == 0) {
--            tcg_opt_gen_movi(&ctx, op, op->args[0], 0);
--            continue;
--        }
--        if (affected == 0) {
--            tcg_opt_gen_mov(&ctx, op, op->args[0], op->args[1]);
--            continue;
--        }
-+        /* Assume all bits affected, and no bits known zero. */
-+        ctx.a_mask = -1;
-+        ctx.z_mask = -1;
-         /*
-          * Process each opcode.
-@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
-         case INDEX_op_extrh_i64_i32:
-             done = fold_extu(&ctx, op);
-             break;
-+        CASE_OP_32_64(ld8u):
-+        CASE_OP_32_64(ld16u):
-+        case INDEX_op_ld32u_i64:
-+            done = fold_tcg_ld(&ctx, op);
-+            break;
-         case INDEX_op_mb:
-             done = fold_mb(&ctx, op);
-             break;
 --
-.25.1
+.34.1

-New patch
+[PULL 62/62] tcg: Update docs/devel/tcg-ops.rst for temporary changes
+Rewrite the sections which talked about 'local temporaries'.
+Remove some assumptions which no longer hold.
+Reviewed-by: Daniel Henrique Barboza <dbarboza@ventanamicro.com>
+Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
+---
+ docs/devel/tcg-ops.rst | 230 +++++++++++++++++++++++------------------
+file changed, 129 insertions(+), 101 deletions(-)
+diff --git a/docs/devel/tcg-ops.rst b/docs/devel/tcg-ops.rst
+index XXXXXXX..XXXXXXX 100644
+--- a/docs/devel/tcg-ops.rst
++++ b/docs/devel/tcg-ops.rst
+@@ -XXX,XX +XXX,XX @@ TCG Intermediate Representation
+ Introduction
+ ============
+-TCG (Tiny Code Generator) began as a generic backend for a C
+-compiler. It was simplified to be used in QEMU. It also has its roots
+-in the QOP code generator written by Paul Brook.
++TCG (Tiny Code Generator) began as a generic backend for a C compiler.
++It was simplified to be used in QEMU.  It also has its roots in the
++QOP code generator written by Paul Brook.
+ Definitions
+ ===========
+-TCG receives RISC-like *TCG ops* and performs some optimizations on them,
+-including liveness analysis and trivial constant expression
+-evaluation.  TCG ops are then implemented in the host CPU back end,
+-also known as the TCG target.
+-
+-The TCG *target* is the architecture for which we generate the
+-code. It is of course not the same as the "target" of QEMU which is
+-the emulated architecture. As TCG started as a generic C backend used
+-for cross compiling, it is assumed that the TCG target is different
+-from the host, although it is never the case for QEMU.
++The TCG *target* is the architecture for which we generate the code.
++It is of course not the same as the "target" of QEMU which is the
++emulated architecture.  As TCG started as a generic C backend used
++for cross compiling, the assumption was that TCG target might be
++different from the host, although this is never the case for QEMU.
+ In this document, we use *guest* to specify what architecture we are
+ emulating; *target* always means the TCG target, the machine on which
+ we are running QEMU.
+-A TCG *function* corresponds to a QEMU Translated Block (TB).
+-
+-A TCG *temporary* is a variable only live in a basic block. Temporaries are allocated explicitly in each function.
+-
+-A TCG *local temporary* is a variable only live in a function. Local temporaries are allocated explicitly in each function.
+-
+-A TCG *global* is a variable which is live in all the functions
+-(equivalent of a C global variable). They are defined before the
+-functions defined. A TCG global can be a memory location (e.g. a QEMU
+-CPU register), a fixed host register (e.g. the QEMU CPU state pointer)
+-or a memory location which is stored in a register outside QEMU TBs
+-(not implemented yet).
+-
+-A TCG *basic block* corresponds to a list of instructions terminated
+-by a branch instruction.
+-
+ An operation with *undefined behavior* may result in a crash.
+ An operation with *unspecified behavior* shall not crash.  However,
+ the result may be one of several possibilities so may be considered
+ an *undefined result*.
+-Intermediate representation
+-===========================
++Basic Blocks
++============
+-Introduction
+-------------
++A TCG *basic block* is a single entry, multiple exit region which
++corresponds to a list of instructions terminated by a label, or
++any branch instruction.
+-TCG instructions operate on variables which are temporaries, local
+-temporaries or globals. TCG instructions and variables are strongly
+-typed. Two types are supported: 32 bit integers and 64 bit
+-integers. Pointers are defined as an alias to 32 bit or 64 bit
+-integers depending on the TCG target word size.
++A TCG *extended basic block* is a single entry, multiple exit region
++which corresponds to a list of instructions terminated by a label or
++an unconditional branch.  Specifically, an extended basic block is
++a sequence of basic blocks connected by the fall-through paths of
++zero or more conditional branch instructions.
+-Each instruction has a fixed number of output variable operands, input
+-variable operands and always constant operands.
++Operations
++==========
+-The notable exception is the call instruction which has a variable
+-number of outputs and inputs.
++TCG instructions or *ops* operate on TCG *variables*, both of which
++are strongly typed.  Each instruction has a fixed number of output
++variable operands, input variable operands and constant operands.
++Vector instructions have a field specifying the element size within
++the vector.  The notable exception is the call instruction which has
++a variable number of outputs and inputs.
+ In the textual form, output operands usually come first, followed by
+ input operands, followed by constant operands. The output type is
+@@ -XXX,XX +XXX,XX @@ included in the instruction name. Constants are prefixed with a '$'.
+    add_i32 t0, t1, t2    /* (t0 <- t1 + t2) */
++Variables
++=========
+-Assumptions
+------------
++* ``TEMP_FIXED``
+-Basic blocks
+-^^^^^^^^^^^^
++  There is one TCG *fixed global* variable, ``cpu_env``, which is
++  live in all translation blocks, and holds a pointer to ``CPUArchState``.
++  This variable is held in a host cpu register at all times in all
++  translation blocks.
+-* Basic blocks end after branches (e.g. brcond_i32 instruction),
+-  goto_tb and exit_tb instructions.
++* ``TEMP_GLOBAL``
+-* Basic blocks start after the end of a previous basic block, or at a
+-  set_label instruction.
++  A TCG *global* is a variable which is live in all translation blocks,
++  and corresponds to memory location that is within ``CPUArchState``.
++  These may be specified as an offset from ``cpu_env``, in which case
++  they are called *direct globals*, or may be specified as an offset
++  from a direct global, in which case they are called *indirect globals*.
++  Even indirect globals should still reference memory within
++  ``CPUArchState``.  All TCG globals are defined during
++  ``TCGCPUOps.initialize``, before any translation blocks are generated.
+-After the end of a basic block, the content of temporaries is
+-destroyed, but local temporaries and globals are preserved.
++* ``TEMP_CONST``
+-Floating point types
+-^^^^^^^^^^^^^^^^^^^^
++  A TCG *constant* is a variable which is live throughout the entire
++  translation block, and contains a constant value.  These variables
++  are allocated on demand during translation and are hashed so that
++  there is exactly one variable holding a given value.
+-* Floating point types are not supported yet
++* ``TEMP_TB``
+-Pointers
+-^^^^^^^^
++  A TCG *translation block temporary* is a variable which is live
++  throughout the entire translation block, but dies on any exit.
++  These temporaries are allocated explicitly during translation.
+-* Depending on the TCG target, pointer size is 32 bit or 64
+-  bit. The type ``TCG_TYPE_PTR`` is an alias to ``TCG_TYPE_I32`` or
+-  ``TCG_TYPE_I64``.
++* ``TEMP_EBB``
++
++  A TCG *extended basic block temporary* is a variable which is live
++  throughout an extended basic block, but dies on any exit.
++  These temporaries are allocated explicitly during translation.
++
++Types
++=====
++
++* ``TCG_TYPE_I32``
++
++  A 32-bit integer.
++
++* ``TCG_TYPE_I64``
++
++  A 64-bit integer.  For 32-bit hosts, such variables are split into a pair
++  of variables with ``type=TCG_TYPE_I32`` and ``base_type=TCG_TYPE_I64``.
++  The ``temp_subindex`` for each indicates where it falls within the
++  host-endian representation.
++
++* ``TCG_TYPE_PTR``
++
++  An alias for ``TCG_TYPE_I32`` or ``TCG_TYPE_I64``, depending on the size
++  of a pointer for the host.
++
++* ``TCG_TYPE_REG``
++
++  An alias for ``TCG_TYPE_I32`` or ``TCG_TYPE_I64``, depending on the size
++  of the integer registers for the host.  This may be larger
++  than ``TCG_TYPE_PTR`` depending on the host ABI.
++
++* ``TCG_TYPE_I128``
++
++  A 128-bit integer.  For all hosts, such variables are split into a number
++  of variables with ``type=TCG_TYPE_REG`` and ``base_type=TCG_TYPE_I128``.
++  The ``temp_subindex`` for each indicates where it falls within the
++  host-endian representation.
++
++* ``TCG_TYPE_V64``
++
++  A 64-bit vector.  This type is valid only if the TCG target
++  sets ``TCG_TARGET_HAS_v64``.
++
++* ``TCG_TYPE_V128``
++
++  A 128-bit vector.  This type is valid only if the TCG target
++  sets ``TCG_TARGET_HAS_v128``.
++
++* ``TCG_TYPE_V256``
++
++  A 256-bit vector.  This type is valid only if the TCG target
++  sets ``TCG_TARGET_HAS_v256``.
+ Helpers
+-^^^^^^^
++=======
+-* Using the tcg_gen_helper_x_y it is possible to call any function
+-  taking i32, i64 or pointer types. By default, before calling a helper,
+-  all globals are stored at their canonical location and it is assumed
+-  that the function can modify them. By default, the helper is allowed to
+-  modify the CPU state or raise an exception.
++Helpers are registered in a guest-specific ``helper.h``,
++which is processed to generate ``tcg_gen_helper_*`` functions.
++With these functions it is possible to call a function taking
++i32, i64, i128 or pointer types.
+-  This can be overridden using the following function modifiers:
++By default, before calling a helper, all globals are stored at their
++canonical location.  By default, the helper is allowed to modify the
++CPU state (including the state represented by tcg globals)
++or may raise an exception.  This default can be overridden using the
++following function modifiers:
+-  - ``TCG_CALL_NO_READ_GLOBALS`` means that the helper does not read globals,
+-    either directly or via an exception. They will not be saved to their
+-    canonical locations before calling the helper.
++* ``TCG_CALL_NO_WRITE_GLOBALS``
+-  - ``TCG_CALL_NO_WRITE_GLOBALS`` means that the helper does not modify any globals.
+-    They will only be saved to their canonical location before calling helpers,
+-    but they won't be reloaded afterwards.
++  The helper does not modify any globals, but may read them.
++  Globals will be saved to their canonical location before calling helpers,
++  but need not be reloaded afterwards.
+-  - ``TCG_CALL_NO_SIDE_EFFECTS`` means that the call to the function is removed if
+-    the return value is not used.
++* ``TCG_CALL_NO_READ_GLOBALS``
+-  Note that ``TCG_CALL_NO_READ_GLOBALS`` implies ``TCG_CALL_NO_WRITE_GLOBALS``.
++  The helper does not read globals, either directly or via an exception.
++  They will not be saved to their canonical locations before calling
++  the helper.  This implies ``TCG_CALL_NO_WRITE_GLOBALS``.
+-  On some TCG targets (e.g. x86), several calling conventions are
+-  supported.
++* ``TCG_CALL_NO_SIDE_EFFECTS``
+-Branches
+-^^^^^^^^
+-
+-* Use the instruction 'br' to jump to a label.
++  The call to the helper function may be removed if the return value is
++  not used.  This means that it may not modify any CPU state nor may it
++  raise an exception.
+ Code Optimizations
+-------------------
++==================
+ When generating instructions, you can count on at least the following
+ optimizations:
+@@ -XXX,XX +XXX,XX @@ Recommended coding rules for best performance
+   often modified, e.g. the integer registers and the condition
+   codes. TCG will be able to use host registers to store them.
+-- Avoid globals stored in fixed registers. They must be used only to
+-  store the pointer to the CPU state and possibly to store a pointer
+-  to a register window.
+-
+-- Use temporaries. Use local temporaries only when really needed,
+-  e.g. when you need to use a value after a jump. Local temporaries
+-  introduce a performance hit in the current TCG implementation: their
+-  content is saved to memory at end of each basic block.
+-
+-- Free temporaries and local temporaries when they are no longer used
+-  (tcg_temp_free). Since tcg_const_x() also creates a temporary, you
+-  should free it after it is used. Freeing temporaries does not yield
+-  a better generated code, but it reduces the memory usage of TCG and
+-  the speed of the translation.
++- Free temporaries when they are no longer used (``tcg_temp_free``).
++  Since ``tcg_const_x`` also creates a temporary, you should free it
++  after it is used.
+ - Don't hesitate to use helpers for complicated or seldom used guest
+   instructions. There is little performance advantage in using TCG to
+@@ -XXX,XX +XXX,XX @@ Recommended coding rules for best performance
+   the instruction is mostly doing loads and stores, and in those cases
+   inline TCG may still be faster for longer sequences.
+-- The hard limit on the number of TCG instructions you can generate
+-  per guest instruction is set by ``MAX_OP_PER_INSTR`` in ``exec-all.h`` --
+-  you cannot exceed this without risking a buffer overrun.
+-
+ - Use the 'discard' instruction if you know that TCG won't be able to
+   prove that a given global is "dead" at a given program point. The
+   x86 guest uses it to improve the condition codes optimisation.
+--
+.34.1

The following changes since commit c52d69e7dbaaed0ffdef8125e79218672c30161d:

Merge remote-tracking branch 'remotes/cschoenebeck/tags/pull-9p-20211027' into staging (2021-10-27 11:45:18 -0700)

are available in the Git repository at:

https://gitlab.com/rth7680/qemu.git tags/pull-tcg-20211027

for you to fetch changes up to 820c025f0dcacf2f3c12735b1f162893fbfa7bc6:

tcg/optimize: Propagate sign info for shifting (2021-10-27 17:11:23 -0700)

----------------------------------------------------------------
Improvements to qemu/int128
Fixes for 128/64 division.
Cleanup tcg/optimize.c
Optimize redundant sign extensions

----------------------------------------------------------------
Frédéric Pétrot (1):
      qemu/int128: Add int128_{not,xor}

Luis Pires (4):
      host-utils: move checks out of divu128/divs128
      host-utils: move udiv_qrnnd() to host-utils
      host-utils: add 128-bit quotient support to divu128/divs128
      host-utils: add unit tests for divu128/divs128

Richard Henderson (51):
      tcg/optimize: Rename "mask" to "z_mask"
      tcg/optimize: Split out OptContext
      tcg/optimize: Remove do_default label
      tcg/optimize: Change tcg_opt_gen_{mov,movi} interface
      tcg/optimize: Move prev_mb into OptContext
      tcg/optimize: Split out init_arguments
      tcg/optimize: Split out copy_propagate
      tcg/optimize: Split out fold_call
      tcg/optimize: Drop nb_oargs, nb_iargs locals
      tcg/optimize: Change fail return for do_constant_folding_cond*
      tcg/optimize: Return true from tcg_opt_gen_{mov,movi}
      tcg/optimize: Split out finish_folding
      tcg/optimize: Use a boolean to avoid a mass of continues
      tcg/optimize: Split out fold_mb, fold_qemu_{ld,st}
      tcg/optimize: Split out fold_const{1,2}
      tcg/optimize: Split out fold_setcond2
      tcg/optimize: Split out fold_brcond2
      tcg/optimize: Split out fold_brcond
      tcg/optimize: Split out fold_setcond
      tcg/optimize: Split out fold_mulu2_i32
      tcg/optimize: Split out fold_addsub2_i32
      tcg/optimize: Split out fold_movcond
      tcg/optimize: Split out fold_extract2
      tcg/optimize: Split out fold_extract, fold_sextract
      tcg/optimize: Split out fold_deposit
      tcg/optimize: Split out fold_count_zeros
      tcg/optimize: Split out fold_bswap
      tcg/optimize: Split out fold_dup, fold_dup2
      tcg/optimize: Split out fold_mov
      tcg/optimize: Split out fold_xx_to_i
      tcg/optimize: Split out fold_xx_to_x
      tcg/optimize: Split out fold_xi_to_i
      tcg/optimize: Add type to OptContext
      tcg/optimize: Split out fold_to_not
      tcg/optimize: Split out fold_sub_to_neg
      tcg/optimize: Split out fold_xi_to_x
      tcg/optimize: Split out fold_ix_to_i
      tcg/optimize: Split out fold_masks
      tcg/optimize: Expand fold_mulu2_i32 to all 4-arg multiplies
      tcg/optimize: Expand fold_addsub2_i32 to 64-bit ops
      tcg/optimize: Sink commutative operand swapping into fold functions
      tcg/optimize: Stop forcing z_mask to "garbage" for 32-bit values
      tcg/optimize: Use fold_xx_to_i for orc
      tcg/optimize: Use fold_xi_to_x for mul
      tcg/optimize: Use fold_xi_to_x for div
      tcg/optimize: Use fold_xx_to_i for rem
      tcg/optimize: Optimize sign extensions
      tcg/optimize: Propagate sign info for logical operations
      tcg/optimize: Propagate sign info for setcond
      tcg/optimize: Propagate sign info for bit counting
      tcg/optimize: Propagate sign info for shifting

From: Frédéric Pétrot <frederic.petrot@univ-grenoble-alpes.fr>

Addition of not and xor on 128-bit integers.

Signed-off-by: Frédéric Pétrot <frederic.petrot@univ-grenoble-alpes.fr>
Co-authored-by: Fabien Portas <fabien.portas@grenoble-inp.org>
Message-Id: <20211025122818.168890-3-frederic.petrot@univ-grenoble-alpes.fr>
[rth: Split out logical operations.]
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 include/qemu/int128.h | 20 ++++++++++++++++++++
 1 file changed, 20 insertions(+)

diff --git a/include/qemu/int128.h b/include/qemu/int128.h
index XXXXXXX..XXXXXXX 100644
--- a/include/qemu/int128.h
+++ b/include/qemu/int128.h
@@ -XXX,XX +XXX,XX @@ static inline Int128 int128_exts64(int64_t a)
     return a;
 }
 
+static inline Int128 int128_not(Int128 a)
+{
+    return ~a;
+}
+
 static inline Int128 int128_and(Int128 a, Int128 b)
 {
     return a & b;
@@ -XXX,XX +XXX,XX @@ static inline Int128 int128_or(Int128 a, Int128 b)
     return a | b;
 }
 
+static inline Int128 int128_xor(Int128 a, Int128 b)
+{
+    return a ^ b;
+}
+
 static inline Int128 int128_rshift(Int128 a, int n)
 {
     return a >> n;
@@ -XXX,XX +XXX,XX @@ static inline Int128 int128_exts64(int64_t a)
     return int128_make128(a, (a < 0) ? -1 : 0);
 }
 
+static inline Int128 int128_not(Int128 a)
+{
+    return int128_make128(~a.lo, ~a.hi);
+}
+
 static inline Int128 int128_and(Int128 a, Int128 b)
 {
     return int128_make128(a.lo & b.lo, a.hi & b.hi);
@@ -XXX,XX +XXX,XX @@ static inline Int128 int128_or(Int128 a, Int128 b)
     return int128_make128(a.lo | b.lo, a.hi | b.hi);
 }
 
+static inline Int128 int128_xor(Int128 a, Int128 b)
+{
+    return int128_make128(a.lo ^ b.lo, a.hi ^ b.hi);
+}
+
 static inline Int128 int128_rshift(Int128 a, int n)
 {
     int64_t h;
-- 
2.25.1

From: Luis Pires <luis.pires@eldorado.org.br>

In preparation for changing the divu128/divs128 implementations
to allow for quotients larger than 64 bits, move the div-by-zero
and overflow checks to the callers.

Signed-off-by: Luis Pires <luis.pires@eldorado.org.br>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-Id: <20211025191154.350831-2-luis.pires@eldorado.org.br>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 include/hw/clock.h        |  5 +++--
 include/qemu/host-utils.h | 34 ++++++++++++---------------------
 target/ppc/int_helper.c   | 14 +++++++++-----
 util/host-utils.c         | 40 ++++++++++++++++++---------------------
 4 files changed, 42 insertions(+), 51 deletions(-)

diff --git a/include/hw/clock.h b/include/hw/clock.h
index XXXXXXX..XXXXXXX 100644
--- a/include/hw/clock.h
+++ b/include/hw/clock.h
@@ -XXX,XX +XXX,XX @@ static inline uint64_t clock_ns_to_ticks(const Clock *clk, uint64_t ns)
         return 0;
     }
     /*
-     * Ignore divu128() return value as we've caught div-by-zero and don't
-     * need different behaviour for overflow.
+     * BUG: when CONFIG_INT128 is not defined, the current implementation of
+     * divu128 does not return a valid truncated quotient, so the result will
+     * be wrong.
      */
     divu128(&lo, &hi, clk->period);
     return lo;
diff --git a/include/qemu/host-utils.h b/include/qemu/host-utils.h
index XXXXXXX..XXXXXXX 100644
--- a/include/qemu/host-utils.h
+++ b/include/qemu/host-utils.h
@@ -XXX,XX +XXX,XX @@ static inline uint64_t muldiv64(uint64_t a, uint32_t b, uint32_t c)
     return (__int128_t)a * b / c;
 }
 
-static inline int divu128(uint64_t *plow, uint64_t *phigh, uint64_t divisor)
+static inline void divu128(uint64_t *plow, uint64_t *phigh, uint64_t divisor)
 {
-    if (divisor == 0) {
-        return 1;
-    } else {
-        __uint128_t dividend = ((__uint128_t)*phigh << 64) | *plow;
-        __uint128_t result = dividend / divisor;
-        *plow = result;
-        *phigh = dividend % divisor;
-        return result > UINT64_MAX;
-    }
+    __uint128_t dividend = ((__uint128_t)*phigh << 64) | *plow;
+    __uint128_t result = dividend / divisor;
+    *plow = result;
+    *phigh = dividend % divisor;
 }
 
-static inline int divs128(int64_t *plow, int64_t *phigh, int64_t divisor)
+static inline void divs128(int64_t *plow, int64_t *phigh, int64_t divisor)
 {
-    if (divisor == 0) {
-        return 1;
-    } else {
-        __int128_t dividend = ((__int128_t)*phigh << 64) | (uint64_t)*plow;
-        __int128_t result = dividend / divisor;
-        *plow = result;
-        *phigh = dividend % divisor;
-        return result != *plow;
-    }
+    __int128_t dividend = ((__int128_t)*phigh << 64) | (uint64_t)*plow;
+    __int128_t result = dividend / divisor;
+    *plow = result;
+    *phigh = dividend % divisor;
 }
 #else
 void muls64(uint64_t *plow, uint64_t *phigh, int64_t a, int64_t b);
 void mulu64(uint64_t *plow, uint64_t *phigh, uint64_t a, uint64_t b);
-int divu128(uint64_t *plow, uint64_t *phigh, uint64_t divisor);
-int divs128(int64_t *plow, int64_t *phigh, int64_t divisor);
+void divu128(uint64_t *plow, uint64_t *phigh, uint64_t divisor);
+void divs128(int64_t *plow, int64_t *phigh, int64_t divisor);
 
 static inline uint64_t muldiv64(uint64_t a, uint32_t b, uint32_t c)
 {
diff --git a/target/ppc/int_helper.c b/target/ppc/int_helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/ppc/int_helper.c
+++ b/target/ppc/int_helper.c
@@ -XXX,XX +XXX,XX @@ uint64_t helper_divdeu(CPUPPCState *env, uint64_t ra, uint64_t rb, uint32_t oe)
     uint64_t rt = 0;
     int overflow = 0;
 
-    overflow = divu128(&rt, &ra, rb);
-
-    if (unlikely(overflow)) {
+    if (unlikely(rb == 0 || ra >= rb)) {
+        overflow = 1;
         rt = 0; /* Undefined */
+    } else {
+        divu128(&rt, &ra, rb);
     }
 
     if (oe) {
@@ -XXX,XX +XXX,XX @@ uint64_t helper_divde(CPUPPCState *env, uint64_t rau, uint64_t rbu, uint32_t oe)
     int64_t rt = 0;
     int64_t ra = (int64_t)rau;
     int64_t rb = (int64_t)rbu;
-    int overflow = divs128(&rt, &ra, rb);
+    int overflow = 0;
 
-    if (unlikely(overflow)) {
+    if (unlikely(rb == 0 || uabs64(ra) >= uabs64(rb))) {
+        overflow = 1;
         rt = 0; /* Undefined */
+    } else {
+        divs128(&rt, &ra, rb);
     }
 
     if (oe) {
diff --git a/util/host-utils.c b/util/host-utils.c
index XXXXXXX..XXXXXXX 100644
--- a/util/host-utils.c
+++ b/util/host-utils.c
@@ -XXX,XX +XXX,XX @@ void muls64 (uint64_t *plow, uint64_t *phigh, int64_t a, int64_t b)
     *phigh = rh;
 }
 
-/* Unsigned 128x64 division.  Returns 1 if overflow (divide by zero or */
-/* quotient exceeds 64 bits).  Otherwise returns quotient via plow and */
-/* remainder via phigh. */
-int divu128(uint64_t *plow, uint64_t *phigh, uint64_t divisor)
+/*
+ * Unsigned 128-by-64 division. Returns quotient via plow and
+ * remainder via phigh.
+ * The result must fit in 64 bits (plow) - otherwise, the result
+ * is undefined.
+ * This function will cause a division by zero if passed a zero divisor.
+ */
+void divu128(uint64_t *plow, uint64_t *phigh, uint64_t divisor)
 {
     uint64_t dhi = *phigh;
     uint64_t dlo = *plow;
     unsigned i;
     uint64_t carry = 0;
 
-    if (divisor == 0) {
-        return 1;
-    } else if (dhi == 0) {
+    if (divisor == 0 || dhi == 0) {
         *plow  = dlo / divisor;
         *phigh = dlo % divisor;
-        return 0;
-    } else if (dhi >= divisor) {
-        return 1;
     } else {
 
         for (i = 0; i < 64; i++) {
@@ -XXX,XX +XXX,XX @@ int divu128(uint64_t *plow, uint64_t *phigh, uint64_t divisor)
 
         *plow = dlo;
         *phigh = dhi;
-        return 0;
     }
 }
 
-int divs128(int64_t *plow, int64_t *phigh, int64_t divisor)
+/*
+ * Signed 128-by-64 division. Returns quotient via plow and
+ * remainder via phigh.
+ * The result must fit in 64 bits (plow) - otherwise, the result
+ * is undefined.
+ * This function will cause a division by zero if passed a zero divisor.
+ */
+void divs128(int64_t *plow, int64_t *phigh, int64_t divisor)
 {
     int sgn_dvdnd = *phigh < 0;
     int sgn_divsr = divisor < 0;
-    int overflow = 0;
 
     if (sgn_dvdnd) {
         *plow = ~(*plow);
@@ -XXX,XX +XXX,XX @@ int divs128(int64_t *plow, int64_t *phigh, int64_t divisor)
         divisor = 0 - divisor;
     }
 
-    overflow = divu128((uint64_t *)plow, (uint64_t *)phigh, (uint64_t)divisor);
+    divu128((uint64_t *)plow, (uint64_t *)phigh, (uint64_t)divisor);
 
     if (sgn_dvdnd  ^ sgn_divsr) {
         *plow = 0 - *plow;
     }
-
-    if (!overflow) {
-        if ((*plow < 0) ^ (sgn_dvdnd ^ sgn_divsr)) {
-            overflow = 1;
-        }
-    }
-
-    return overflow;
 }
 #endif
 
-- 
2.25.1

From: Luis Pires <luis.pires@eldorado.org.br>

Move udiv_qrnnd() from include/fpu/softfloat-macros.h to host-utils,
so it can be reused by divu128().

Signed-off-by: Luis Pires <luis.pires@eldorado.org.br>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-Id: <20211025191154.350831-3-luis.pires@eldorado.org.br>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 include/fpu/softfloat-macros.h | 82 ----------------------------------
 include/qemu/host-utils.h      | 81 +++++++++++++++++++++++++++++++++
 2 files changed, 81 insertions(+), 82 deletions(-)

diff --git a/include/fpu/softfloat-macros.h b/include/fpu/softfloat-macros.h
index XXXXXXX..XXXXXXX 100644
--- a/include/fpu/softfloat-macros.h
+++ b/include/fpu/softfloat-macros.h
@@ -XXX,XX +XXX,XX @@
  * so some portions are provided under:
  *  the SoftFloat-2a license
  *  the BSD license
- *  GPL-v2-or-later
  *
  * Any future contributions to this file after December 1st 2014 will be
  * taken to be licensed under the Softfloat-2a license unless specifically
@@ -XXX,XX +XXX,XX @@ this code that are retained.
  * THE POSSIBILITY OF SUCH DAMAGE.
  */
 
-/* Portions of this work are licensed under the terms of the GNU GPL,
- * version 2 or later. See the COPYING file in the top-level directory.
- */
-
 #ifndef FPU_SOFTFLOAT_MACROS_H
 #define FPU_SOFTFLOAT_MACROS_H
 
@@ -XXX,XX +XXX,XX @@ static inline uint64_t estimateDiv128To64(uint64_t a0, uint64_t a1, uint64_t b)
 
 }
 
-/* From the GNU Multi Precision Library - longlong.h __udiv_qrnnd
- * (https://gmplib.org/repo/gmp/file/tip/longlong.h)
- *
- * Licensed under the GPLv2/LGPLv3
- */
-static inline uint64_t udiv_qrnnd(uint64_t *r, uint64_t n1,
-                                  uint64_t n0, uint64_t d)
-{
-#if defined(__x86_64__)
-    uint64_t q;
-    asm("divq %4" : "=a"(q), "=d"(*r) : "0"(n0), "1"(n1), "rm"(d));
-    return q;
-#elif defined(__s390x__) && !defined(__clang__)
-    /* Need to use a TImode type to get an even register pair for DLGR.  */
-    unsigned __int128 n = (unsigned __int128)n1 << 64 | n0;
-    asm("dlgr %0, %1" : "+r"(n) : "r"(d));
-    *r = n >> 64;
-    return n;
-#elif defined(_ARCH_PPC64) && defined(_ARCH_PWR7)
-    /* From Power ISA 2.06, programming note for divdeu.  */
-    uint64_t q1, q2, Q, r1, r2, R;
-    asm("divdeu %0,%2,%4; divdu %1,%3,%4"
-        : "=&r"(q1), "=r"(q2)
-        : "r"(n1), "r"(n0), "r"(d));
-    r1 = -(q1 * d);         /* low part of (n1<<64) - (q1 * d) */
-    r2 = n0 - (q2 * d);
-    Q = q1 + q2;
-    R = r1 + r2;
-    if (R >= d || R < r2) { /* overflow implies R > d */
-        Q += 1;
-        R -= d;
-    }
-    *r = R;
-    return Q;
-#else
-    uint64_t d0, d1, q0, q1, r1, r0, m;
-
-    d0 = (uint32_t)d;
-    d1 = d >> 32;
-
-    r1 = n1 % d1;
-    q1 = n1 / d1;
-    m = q1 * d0;
-    r1 = (r1 << 32) | (n0 >> 32);
-    if (r1 < m) {
-        q1 -= 1;
-        r1 += d;
-        if (r1 >= d) {
-            if (r1 < m) {
-                q1 -= 1;
-                r1 += d;
-            }
-        }
-    }
-    r1 -= m;
-
-    r0 = r1 % d1;
-    q0 = r1 / d1;
-    m = q0 * d0;
-    r0 = (r0 << 32) | (uint32_t)n0;
-    if (r0 < m) {
-        q0 -= 1;
-        r0 += d;
-        if (r0 >= d) {
-            if (r0 < m) {
-                q0 -= 1;
-                r0 += d;
-            }
-        }
-    }
-    r0 -= m;
-
-    *r = r0;
-    return (q1 << 32) | q0;
-#endif
-}
-
 /*----------------------------------------------------------------------------
 | Returns an approximation to the square root of the 32-bit significand given
 | by `a'.  Considered as an integer, `a' must be at least 2^31.  If bit 0 of
diff --git a/include/qemu/host-utils.h b/include/qemu/host-utils.h
index XXXXXXX..XXXXXXX 100644
--- a/include/qemu/host-utils.h
+++ b/include/qemu/host-utils.h
@@ -XXX,XX +XXX,XX @@
  * THE SOFTWARE.
  */
 
+/* Portions of this work are licensed under the terms of the GNU GPL,
+ * version 2 or later. See the COPYING file in the top-level directory.
+ */
+
 #ifndef HOST_UTILS_H
 #define HOST_UTILS_H
 
@@ -XXX,XX +XXX,XX @@ void urshift(uint64_t *plow, uint64_t *phigh, int32_t shift);
  */
 void ulshift(uint64_t *plow, uint64_t *phigh, int32_t shift, bool *overflow);
 
+/* From the GNU Multi Precision Library - longlong.h __udiv_qrnnd
+ * (https://gmplib.org/repo/gmp/file/tip/longlong.h)
+ *
+ * Licensed under the GPLv2/LGPLv3
+ */
+static inline uint64_t udiv_qrnnd(uint64_t *r, uint64_t n1,
+                                  uint64_t n0, uint64_t d)
+{
+#if defined(__x86_64__)
+    uint64_t q;
+    asm("divq %4" : "=a"(q), "=d"(*r) : "0"(n0), "1"(n1), "rm"(d));
+    return q;
+#elif defined(__s390x__) && !defined(__clang__)
+    /* Need to use a TImode type to get an even register pair for DLGR.  */
+    unsigned __int128 n = (unsigned __int128)n1 << 64 | n0;
+    asm("dlgr %0, %1" : "+r"(n) : "r"(d));
+    *r = n >> 64;
+    return n;
+#elif defined(_ARCH_PPC64) && defined(_ARCH_PWR7)
+    /* From Power ISA 2.06, programming note for divdeu.  */
+    uint64_t q1, q2, Q, r1, r2, R;
+    asm("divdeu %0,%2,%4; divdu %1,%3,%4"
+        : "=&r"(q1), "=r"(q2)
+        : "r"(n1), "r"(n0), "r"(d));
+    r1 = -(q1 * d);         /* low part of (n1<<64) - (q1 * d) */
+    r2 = n0 - (q2 * d);
+    Q = q1 + q2;
+    R = r1 + r2;
+    if (R >= d || R < r2) { /* overflow implies R > d */
+        Q += 1;
+        R -= d;
+    }
+    *r = R;
+    return Q;
+#else
+    uint64_t d0, d1, q0, q1, r1, r0, m;
+
+    d0 = (uint32_t)d;
+    d1 = d >> 32;
+
+    r1 = n1 % d1;
+    q1 = n1 / d1;
+    m = q1 * d0;
+    r1 = (r1 << 32) | (n0 >> 32);
+    if (r1 < m) {
+        q1 -= 1;
+        r1 += d;
+        if (r1 >= d) {
+            if (r1 < m) {
+                q1 -= 1;
+                r1 += d;
+            }
+        }
+    }
+    r1 -= m;
+
+    r0 = r1 % d1;
+    q0 = r1 / d1;
+    m = q0 * d0;
+    r0 = (r0 << 32) | (uint32_t)n0;
+    if (r0 < m) {
+        q0 -= 1;
+        r0 += d;
+        if (r0 >= d) {
+            if (r0 < m) {
+                q0 -= 1;
+                r0 += d;
+            }
+        }
+    }
+    r0 -= m;
+
+    *r = r0;
+    return (q1 << 32) | q0;
+#endif
+}
+
 #endif
-- 
2.25.1

From: Luis Pires <luis.pires@eldorado.org.br>

These will be used to implement new decimal floating point
instructions from Power ISA 3.1.

The remainder is now returned directly by divu128/divs128,
freeing up phigh to receive the high 64 bits of the quotient.

Signed-off-by: Luis Pires <luis.pires@eldorado.org.br>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-Id: <20211025191154.350831-4-luis.pires@eldorado.org.br>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 include/hw/clock.h        |   6 +-
 include/qemu/host-utils.h |  20 ++++--
 target/ppc/int_helper.c   |   9 +--
 util/host-utils.c         | 133 +++++++++++++++++++++++++-------------
 4 files changed, 108 insertions(+), 60 deletions(-)

diff --git a/include/hw/clock.h b/include/hw/clock.h
index XXXXXXX..XXXXXXX 100644
--- a/include/hw/clock.h
+++ b/include/hw/clock.h
@@ -XXX,XX +XXX,XX @@ static inline uint64_t clock_ns_to_ticks(const Clock *clk, uint64_t ns)
     if (clk->period == 0) {
         return 0;
     }
-    /*
-     * BUG: when CONFIG_INT128 is not defined, the current implementation of
-     * divu128 does not return a valid truncated quotient, so the result will
-     * be wrong.
-     */
+
     divu128(&lo, &hi, clk->period);
     return lo;
 }
diff --git a/include/qemu/host-utils.h b/include/qemu/host-utils.h
index XXXXXXX..XXXXXXX 100644
--- a/include/qemu/host-utils.h
+++ b/include/qemu/host-utils.h
@@ -XXX,XX +XXX,XX @@ static inline uint64_t muldiv64(uint64_t a, uint32_t b, uint32_t c)
     return (__int128_t)a * b / c;
 }
 
-static inline void divu128(uint64_t *plow, uint64_t *phigh, uint64_t divisor)
+static inline uint64_t divu128(uint64_t *plow, uint64_t *phigh,
+                               uint64_t divisor)
 {
     __uint128_t dividend = ((__uint128_t)*phigh << 64) | *plow;
     __uint128_t result = dividend / divisor;
+
     *plow = result;
-    *phigh = dividend % divisor;
+    *phigh = result >> 64;
+    return dividend % divisor;
 }
 
-static inline void divs128(int64_t *plow, int64_t *phigh, int64_t divisor)
+static inline int64_t divs128(uint64_t *plow, int64_t *phigh,
+                              int64_t divisor)
 {
-    __int128_t dividend = ((__int128_t)*phigh << 64) | (uint64_t)*plow;
+    __int128_t dividend = ((__int128_t)*phigh << 64) | *plow;
     __int128_t result = dividend / divisor;
+
     *plow = result;
-    *phigh = dividend % divisor;
+    *phigh = result >> 64;
+    return dividend % divisor;
 }
 #else
 void muls64(uint64_t *plow, uint64_t *phigh, int64_t a, int64_t b);
 void mulu64(uint64_t *plow, uint64_t *phigh, uint64_t a, uint64_t b);
-void divu128(uint64_t *plow, uint64_t *phigh, uint64_t divisor);
-void divs128(int64_t *plow, int64_t *phigh, int64_t divisor);
+uint64_t divu128(uint64_t *plow, uint64_t *phigh, uint64_t divisor);
+int64_t divs128(uint64_t *plow, int64_t *phigh, int64_t divisor);
 
 static inline uint64_t muldiv64(uint64_t a, uint32_t b, uint32_t c)
 {
diff --git a/target/ppc/int_helper.c b/target/ppc/int_helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/ppc/int_helper.c
+++ b/target/ppc/int_helper.c
@@ -XXX,XX +XXX,XX @@ uint64_t helper_divdeu(CPUPPCState *env, uint64_t ra, uint64_t rb, uint32_t oe)
 
 uint64_t helper_divde(CPUPPCState *env, uint64_t rau, uint64_t rbu, uint32_t oe)
 {
-    int64_t rt = 0;
+    uint64_t rt = 0;
     int64_t ra = (int64_t)rau;
     int64_t rb = (int64_t)rbu;
     int overflow = 0;
@@ -XXX,XX +XXX,XX @@ uint32_t helper_bcdcfsq(ppc_avr_t *r, ppc_avr_t *b, uint32_t ps)
     int cr;
     uint64_t lo_value;
     uint64_t hi_value;
+    uint64_t rem;
     ppc_avr_t ret = { .u64 = { 0, 0 } };
 
     if (b->VsrSD(0) < 0) {
@@ -XXX,XX +XXX,XX @@ uint32_t helper_bcdcfsq(ppc_avr_t *r, ppc_avr_t *b, uint32_t ps)
          * In that case, we leave r unchanged.
          */
     } else {
-        divu128(&lo_value, &hi_value, 1000000000000000ULL);
+        rem = divu128(&lo_value, &hi_value, 1000000000000000ULL);
 
-        for (i = 1; i < 16; hi_value /= 10, i++) {
-            bcd_put_digit(&ret, hi_value % 10, i);
+        for (i = 1; i < 16; rem /= 10, i++) {
+            bcd_put_digit(&ret, rem % 10, i);
         }
 
         for (; i < 32; lo_value /= 10, i++) {
diff --git a/util/host-utils.c b/util/host-utils.c
index XXXXXXX..XXXXXXX 100644
--- a/util/host-utils.c
+++ b/util/host-utils.c
@@ -XXX,XX +XXX,XX @@ void muls64 (uint64_t *plow, uint64_t *phigh, int64_t a, int64_t b)
 }
 
 /*
- * Unsigned 128-by-64 division. Returns quotient via plow and
- * remainder via phigh.
- * The result must fit in 64 bits (plow) - otherwise, the result
- * is undefined.
- * This function will cause a division by zero if passed a zero divisor.
+ * Unsigned 128-by-64 division.
+ * Returns the remainder.
+ * Returns quotient via plow and phigh.
+ * Also returns the remainder via the function return value.
  */
-void divu128(uint64_t *plow, uint64_t *phigh, uint64_t divisor)
+uint64_t divu128(uint64_t *plow, uint64_t *phigh, uint64_t divisor)
 {
     uint64_t dhi = *phigh;
     uint64_t dlo = *plow;
-    unsigned i;
-    uint64_t carry = 0;
+    uint64_t rem, dhighest;
+    int sh;
 
     if (divisor == 0 || dhi == 0) {
         *plow  = dlo / divisor;
-        *phigh = dlo % divisor;
+        *phigh = 0;
+        return dlo % divisor;
     } else {
+        sh = clz64(divisor);
 
-        for (i = 0; i < 64; i++) {
-            carry = dhi >> 63;
-            dhi = (dhi << 1) | (dlo >> 63);
-            if (carry || (dhi >= divisor)) {
-                dhi -= divisor;
-                carry = 1;
-            } else {
-                carry = 0;
+        if (dhi < divisor) {
+            if (sh != 0) {
+                /* normalize the divisor, shifting the dividend accordingly */
+                divisor <<= sh;
+                dhi = (dhi << sh) | (dlo >> (64 - sh));
+                dlo <<= sh;
             }
-            dlo = (dlo << 1) | carry;
+
+            *phigh = 0;
+            *plow = udiv_qrnnd(&rem, dhi, dlo, divisor);
+        } else {
+            if (sh != 0) {
+                /* normalize the divisor, shifting the dividend accordingly */
+                divisor <<= sh;
+                dhighest = dhi >> (64 - sh);
+                dhi = (dhi << sh) | (dlo >> (64 - sh));
+                dlo <<= sh;
+
+                *phigh = udiv_qrnnd(&dhi, dhighest, dhi, divisor);
+            } else {
+                /**
+                 * dhi >= divisor
+                 * Since the MSB of divisor is set (sh == 0),
+                 * (dhi - divisor) < divisor
+                 *
+                 * Thus, the high part of the quotient is 1, and we can
+                 * calculate the low part with a single call to udiv_qrnnd
+                 * after subtracting divisor from dhi
+                 */
+                dhi -= divisor;
+                *phigh = 1;
+            }
+
+            *plow = udiv_qrnnd(&rem, dhi, dlo, divisor);
         }
 
-        *plow = dlo;
-        *phigh = dhi;
+        /*
+         * since the dividend/divisor might have been normalized,
+         * the remainder might also have to be shifted back
+         */
+        return rem >> sh;
     }
 }
 
 /*
- * Signed 128-by-64 division. Returns quotient via plow and
- * remainder via phigh.
- * The result must fit in 64 bits (plow) - otherwise, the result
- * is undefined.
- * This function will cause a division by zero if passed a zero divisor.
+ * Signed 128-by-64 division.
+ * Returns quotient via plow and phigh.
+ * Also returns the remainder via the function return value.
  */
-void divs128(int64_t *plow, int64_t *phigh, int64_t divisor)
+int64_t divs128(uint64_t *plow, int64_t *phigh, int64_t divisor)
 {
-    int sgn_dvdnd = *phigh < 0;
-    int sgn_divsr = divisor < 0;
+    bool neg_quotient = false, neg_remainder = false;
+    uint64_t unsig_hi = *phigh, unsig_lo = *plow;
+    uint64_t rem;
 
-    if (sgn_dvdnd) {
-        *plow = ~(*plow);
-        *phigh = ~(*phigh);
-        if (*plow == (int64_t)-1) {
+    if (*phigh < 0) {
+        neg_quotient = !neg_quotient;
+        neg_remainder = !neg_remainder;
+
+        if (unsig_lo == 0) {
+            unsig_hi = -unsig_hi;
+        } else {
+            unsig_hi = ~unsig_hi;
+            unsig_lo = -unsig_lo;
+        }
+    }
+
+    if (divisor < 0) {
+        neg_quotient = !neg_quotient;
+
+        divisor = -divisor;
+    }
+
+    rem = divu128(&unsig_lo, &unsig_hi, (uint64_t)divisor);
+
+    if (neg_quotient) {
+        if (unsig_lo == 0) {
+            *phigh = -unsig_hi;
             *plow = 0;
-            (*phigh)++;
-         } else {
-            (*plow)++;
-         }
+        } else {
+            *phigh = ~unsig_hi;
+            *plow = -unsig_lo;
+        }
+    } else {
+        *phigh = unsig_hi;
+        *plow = unsig_lo;
     }
 
-    if (sgn_divsr) {
-        divisor = 0 - divisor;
-    }
-
-    divu128((uint64_t *)plow, (uint64_t *)phigh, (uint64_t)divisor);
-
-    if (sgn_dvdnd  ^ sgn_divsr) {
-        *plow = 0 - *plow;
+    if (neg_remainder) {
+        return -rem;
+    } else {
+        return rem;
     }
 }
 #endif
-- 
2.25.1

From: Luis Pires <luis.pires@eldorado.org.br>

Signed-off-by: Luis Pires <luis.pires@eldorado.org.br>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-Id: <20211025191154.350831-5-luis.pires@eldorado.org.br>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tests/unit/test-div128.c | 197 +++++++++++++++++++++++++++++++++++++++
 tests/unit/meson.build   |   1 +
 2 files changed, 198 insertions(+)
 create mode 100644 tests/unit/test-div128.c

diff --git a/tests/unit/test-div128.c b/tests/unit/test-div128.c
new file mode 100644
index XXXXXXX..XXXXXXX
--- /dev/null
+++ b/tests/unit/test-div128.c
@@ -XXX,XX +XXX,XX @@
+/*
+ * Test 128-bit division functions
+ *
+ * Copyright (c) 2021 Instituto de Pesquisas Eldorado (eldorado.org.br)
+ *
+ * This library is free software; you can redistribute it and/or
+ * modify it under the terms of the GNU Lesser General Public
+ * License as published by the Free Software Foundation; either
+ * version 2.1 of the License, or (at your option) any later version.
+ *
+ * This library is distributed in the hope that it will be useful,
+ * but WITHOUT ANY WARRANTY; without even the implied warranty of
+ * MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU
+ * Lesser General Public License for more details.
+ *
+ * You should have received a copy of the GNU Lesser General Public
+ * License along with this library; if not, see <http://www.gnu.org/licenses/>.
+ */
+
+#include "qemu/osdep.h"
+#include "qemu/host-utils.h"
+
+typedef struct {
+    uint64_t high;
+    uint64_t low;
+    uint64_t rhigh;
+    uint64_t rlow;
+    uint64_t divisor;
+    uint64_t remainder;
+} test_data_unsigned;
+
+typedef struct {
+    int64_t high;
+    uint64_t low;
+    int64_t rhigh;
+    uint64_t rlow;
+    int64_t divisor;
+    int64_t remainder;
+} test_data_signed;
+
+static const test_data_unsigned test_table_unsigned[] = {
+    /* Dividend fits in 64 bits */
+    { 0x0000000000000000ULL, 0x0000000000000000ULL,
+      0x0000000000000000ULL, 0x0000000000000000ULL,
+      0x0000000000000001ULL, 0x0000000000000000ULL},
+    { 0x0000000000000000ULL, 0x0000000000000001ULL,
+      0x0000000000000000ULL, 0x0000000000000001ULL,
+      0x0000000000000001ULL, 0x0000000000000000ULL},
+    { 0x0000000000000000ULL, 0x0000000000000003ULL,
+      0x0000000000000000ULL, 0x0000000000000001ULL,
+      0x0000000000000002ULL, 0x0000000000000001ULL},
+    { 0x0000000000000000ULL, 0x8000000000000000ULL,
+      0x0000000000000000ULL, 0x8000000000000000ULL,
+      0x0000000000000001ULL, 0x0000000000000000ULL},
+    { 0x0000000000000000ULL, 0xa000000000000000ULL,
+      0x0000000000000000ULL, 0x0000000000000002ULL,
+      0x4000000000000000ULL, 0x2000000000000000ULL},
+    { 0x0000000000000000ULL, 0x8000000000000000ULL,
+      0x0000000000000000ULL, 0x0000000000000001ULL,
+      0x8000000000000000ULL, 0x0000000000000000ULL},
+
+    /* Dividend > 64 bits, with MSB 0 */
+    { 0x123456789abcdefeULL, 0xefedcba987654321ULL,
+      0x123456789abcdefeULL, 0xefedcba987654321ULL,
+      0x0000000000000001ULL, 0x0000000000000000ULL},
+    { 0x123456789abcdefeULL, 0xefedcba987654321ULL,
+      0x0000000000000001ULL, 0x000000000000000dULL,
+      0x123456789abcdefeULL, 0x03456789abcdf03bULL},
+    { 0x123456789abcdefeULL, 0xefedcba987654321ULL,
+      0x0123456789abcdefULL, 0xeefedcba98765432ULL,
+      0x0000000000000010ULL, 0x0000000000000001ULL},
+
+    /* Dividend > 64 bits, with MSB 1 */
+    { 0xfeeddccbbaa99887ULL, 0x766554433221100fULL,
+      0xfeeddccbbaa99887ULL, 0x766554433221100fULL,
+      0x0000000000000001ULL, 0x0000000000000000ULL},
+    { 0xfeeddccbbaa99887ULL, 0x766554433221100fULL,
+      0x0000000000000001ULL, 0x0000000000000000ULL,
+      0xfeeddccbbaa99887ULL, 0x766554433221100fULL},
+    { 0xfeeddccbbaa99887ULL, 0x766554433221100fULL,
+      0x0feeddccbbaa9988ULL, 0x7766554433221100ULL,
+      0x0000000000000010ULL, 0x000000000000000fULL},
+    { 0xfeeddccbbaa99887ULL, 0x766554433221100fULL,
+      0x000000000000000eULL, 0x00f0f0f0f0f0f35aULL,
+      0x123456789abcdefeULL, 0x0f8922bc55ef90c3ULL},
+
+    /**
+     * Divisor == 64 bits, with MSB 1
+     * and high 64 bits of dividend >= divisor
+     * (for testing normalization)
+     */
+    { 0xfeeddccbbaa99887ULL, 0x766554433221100fULL,
+      0x0000000000000001ULL, 0x0000000000000000ULL,
+      0xfeeddccbbaa99887ULL, 0x766554433221100fULL},
+    { 0xfeeddccbbaa99887ULL, 0x766554433221100fULL,
+      0x0000000000000001ULL, 0xfddbb9977553310aULL,
+      0x8000000000000001ULL, 0x78899aabbccddf05ULL},
+
+    /* Dividend > 64 bits, divisor almost as big */
+    { 0x0000000000000001ULL, 0x23456789abcdef01ULL,
+      0x0000000000000000ULL, 0x000000000000000fULL,
+      0x123456789abcdefeULL, 0x123456789abcde1fULL},
+};
+
+static const test_data_signed test_table_signed[] = {
+    /* Positive dividend, positive/negative divisors */
+    { 0x0000000000000000LL, 0x0000000000bc614eULL,
+      0x0000000000000000LL, 0x0000000000bc614eULL,
+      0x0000000000000001LL, 0x0000000000000000LL},
+    { 0x0000000000000000LL, 0x0000000000bc614eULL,
+      0xffffffffffffffffLL, 0xffffffffff439eb2ULL,
+      0xffffffffffffffffLL, 0x0000000000000000LL},
+    { 0x0000000000000000LL, 0x0000000000bc614eULL,
+      0x0000000000000000LL, 0x00000000005e30a7ULL,
+      0x0000000000000002LL, 0x0000000000000000LL},
+    { 0x0000000000000000LL, 0x0000000000bc614eULL,
+      0xffffffffffffffffLL, 0xffffffffffa1cf59ULL,
+      0xfffffffffffffffeLL, 0x0000000000000000LL},
+    { 0x0000000000000000LL, 0x0000000000bc614eULL,
+      0x0000000000000000LL, 0x0000000000178c29ULL,
+      0x0000000000000008LL, 0x0000000000000006LL},
+    { 0x0000000000000000LL, 0x0000000000bc614eULL,
+      0xffffffffffffffffLL, 0xffffffffffe873d7ULL,
+      0xfffffffffffffff8LL, 0x0000000000000006LL},
+    { 0x0000000000000000LL, 0x0000000000bc614eULL,
+      0x0000000000000000LL, 0x000000000000550dULL,
+      0x0000000000000237LL, 0x0000000000000183LL},
+    { 0x0000000000000000LL, 0x0000000000bc614eULL,
+      0xffffffffffffffffLL, 0xffffffffffffaaf3ULL,
+      0xfffffffffffffdc9LL, 0x0000000000000183LL},
+
+    /* Negative dividend, positive/negative divisors */
+    { 0xffffffffffffffffLL, 0xffffffffff439eb2ULL,
+      0xffffffffffffffffLL, 0xffffffffff439eb2ULL,
+      0x0000000000000001LL, 0x0000000000000000LL},
+    { 0xffffffffffffffffLL, 0xffffffffff439eb2ULL,
+      0x0000000000000000LL, 0x0000000000bc614eULL,
+      0xffffffffffffffffLL, 0x0000000000000000LL},
+    { 0xffffffffffffffffLL, 0xffffffffff439eb2ULL,
+      0xffffffffffffffffLL, 0xffffffffffa1cf59ULL,
+      0x0000000000000002LL, 0x0000000000000000LL},
+    { 0xffffffffffffffffLL, 0xffffffffff439eb2ULL,
+      0x0000000000000000LL, 0x00000000005e30a7ULL,
+      0xfffffffffffffffeLL, 0x0000000000000000LL},
+    { 0xffffffffffffffffLL, 0xffffffffff439eb2ULL,
+      0xffffffffffffffffLL, 0xffffffffffe873d7ULL,
+      0x0000000000000008LL, 0xfffffffffffffffaLL},
+    { 0xffffffffffffffffLL, 0xffffffffff439eb2ULL,
+      0x0000000000000000LL, 0x0000000000178c29ULL,
+      0xfffffffffffffff8LL, 0xfffffffffffffffaLL},
+    { 0xffffffffffffffffLL, 0xffffffffff439eb2ULL,
+      0xffffffffffffffffLL, 0xffffffffffffaaf3ULL,
+      0x0000000000000237LL, 0xfffffffffffffe7dLL},
+    { 0xffffffffffffffffLL, 0xffffffffff439eb2ULL,
+      0x0000000000000000LL, 0x000000000000550dULL,
+      0xfffffffffffffdc9LL, 0xfffffffffffffe7dLL},
+};
+
+static void test_divu128(void)
+{
+    int i;
+    uint64_t rem;
+    test_data_unsigned tmp;
+
+    for (i = 0; i < ARRAY_SIZE(test_table_unsigned); ++i) {
+        tmp = test_table_unsigned[i];
+
+        rem = divu128(&tmp.low, &tmp.high, tmp.divisor);
+        g_assert_cmpuint(tmp.low, ==, tmp.rlow);
+        g_assert_cmpuint(tmp.high, ==, tmp.rhigh);
+        g_assert_cmpuint(rem, ==, tmp.remainder);
+    }
+}
+
+static void test_divs128(void)
+{
+    int i;
+    int64_t rem;
+    test_data_signed tmp;
+
+    for (i = 0; i < ARRAY_SIZE(test_table_signed); ++i) {
+        tmp = test_table_signed[i];
+
+        rem = divs128(&tmp.low, &tmp.high, tmp.divisor);
+        g_assert_cmpuint(tmp.low, ==, tmp.rlow);
+        g_assert_cmpuint(tmp.high, ==, tmp.rhigh);
+        g_assert_cmpuint(rem, ==, tmp.remainder);
+    }
+}
+
+int main(int argc, char **argv)
+{
+    g_test_init(&argc, &argv, NULL);
+    g_test_add_func("/host-utils/test_divu128", test_divu128);
+    g_test_add_func("/host-utils/test_divs128", test_divs128);
+    return g_test_run();
+}
diff --git a/tests/unit/meson.build b/tests/unit/meson.build
index XXXXXXX..XXXXXXX 100644
--- a/tests/unit/meson.build
+++ b/tests/unit/meson.build
@@ -XXX,XX +XXX,XX @@ tests = {
   # all code tested by test-x86-cpuid is inside topology.h
   'test-x86-cpuid': [],
   'test-cutils': [],
+  'test-div128': [],
   'test-shift128': [],
   'test-mul64': [],
   # all code tested by test-int128 is inside int128.h
-- 
2.25.1

Prepare for tracking different masks by renaming this one.

Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
Reviewed-by: Luis Pires <luis.pires@eldorado.org.br>
Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/optimize.c | 142 +++++++++++++++++++++++++------------------------
 1 file changed, 72 insertions(+), 70 deletions(-)

diff --git a/tcg/optimize.c b/tcg/optimize.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/optimize.c
+++ b/tcg/optimize.c
@@ -XXX,XX +XXX,XX @@ typedef struct TempOptInfo {
     TCGTemp *prev_copy;
     TCGTemp *next_copy;
     uint64_t val;
-    uint64_t mask;
+    uint64_t z_mask;  /* mask bit is 0 if and only if value bit is 0 */
 } TempOptInfo;
 
 static inline TempOptInfo *ts_info(TCGTemp *ts)
@@ -XXX,XX +XXX,XX @@ static void reset_ts(TCGTemp *ts)
     ti->next_copy = ts;
     ti->prev_copy = ts;
     ti->is_const = false;
-    ti->mask = -1;
+    ti->z_mask = -1;
 }
 
 static void reset_temp(TCGArg arg)
@@ -XXX,XX +XXX,XX @@ static void init_ts_info(TCGTempSet *temps_used, TCGTemp *ts)
     if (ts->kind == TEMP_CONST) {
         ti->is_const = true;
         ti->val = ts->val;
-        ti->mask = ts->val;
+        ti->z_mask = ts->val;
         if (TCG_TARGET_REG_BITS > 32 && ts->type == TCG_TYPE_I32) {
             /* High bits of a 32-bit quantity are garbage.  */
-            ti->mask |= ~0xffffffffull;
+            ti->z_mask |= ~0xffffffffull;
         }
     } else {
         ti->is_const = false;
-        ti->mask = -1;
+        ti->z_mask = -1;
     }
 }
 
@@ -XXX,XX +XXX,XX @@ static void tcg_opt_gen_mov(TCGContext *s, TCGOp *op, TCGArg dst, TCGArg src)
     const TCGOpDef *def;
     TempOptInfo *di;
     TempOptInfo *si;
-    uint64_t mask;
+    uint64_t z_mask;
     TCGOpcode new_op;
 
     if (ts_are_copies(dst_ts, src_ts)) {
@@ -XXX,XX +XXX,XX @@ static void tcg_opt_gen_mov(TCGContext *s, TCGOp *op, TCGArg dst, TCGArg src)
     op->args[0] = dst;
     op->args[1] = src;
 
-    mask = si->mask;
+    z_mask = si->z_mask;
     if (TCG_TARGET_REG_BITS > 32 && new_op == INDEX_op_mov_i32) {
         /* High bits of the destination are now garbage.  */
-        mask |= ~0xffffffffull;
+        z_mask |= ~0xffffffffull;
     }
-    di->mask = mask;
+    di->z_mask = z_mask;
 
     if (src_ts->type == dst_ts->type) {
         TempOptInfo *ni = ts_info(si->next_copy);
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
     }
 
     QTAILQ_FOREACH_SAFE(op, &s->ops, link, op_next) {
-        uint64_t mask, partmask, affected, tmp;
+        uint64_t z_mask, partmask, affected, tmp;
         int nb_oargs, nb_iargs;
         TCGOpcode opc = op->opc;
         const TCGOpDef *def = &tcg_op_defs[opc];
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
 
         /* Simplify using known-zero bits. Currently only ops with a single
            output argument is supported. */
-        mask = -1;
+        z_mask = -1;
         affected = -1;
         switch (opc) {
         CASE_OP_32_64(ext8s):
-            if ((arg_info(op->args[1])->mask & 0x80) != 0) {
+            if ((arg_info(op->args[1])->z_mask & 0x80) != 0) {
                 break;
             }
             QEMU_FALLTHROUGH;
         CASE_OP_32_64(ext8u):
-            mask = 0xff;
+            z_mask = 0xff;
             goto and_const;
         CASE_OP_32_64(ext16s):
-            if ((arg_info(op->args[1])->mask & 0x8000) != 0) {
+            if ((arg_info(op->args[1])->z_mask & 0x8000) != 0) {
                 break;
             }
             QEMU_FALLTHROUGH;
         CASE_OP_32_64(ext16u):
-            mask = 0xffff;
+            z_mask = 0xffff;
             goto and_const;
         case INDEX_op_ext32s_i64:
-            if ((arg_info(op->args[1])->mask & 0x80000000) != 0) {
+            if ((arg_info(op->args[1])->z_mask & 0x80000000) != 0) {
                 break;
             }
             QEMU_FALLTHROUGH;
         case INDEX_op_ext32u_i64:
-            mask = 0xffffffffU;
+            z_mask = 0xffffffffU;
             goto and_const;
 
         CASE_OP_32_64(and):
-            mask = arg_info(op->args[2])->mask;
+            z_mask = arg_info(op->args[2])->z_mask;
             if (arg_is_const(op->args[2])) {
         and_const:
-                affected = arg_info(op->args[1])->mask & ~mask;
+                affected = arg_info(op->args[1])->z_mask & ~z_mask;
             }
-            mask = arg_info(op->args[1])->mask & mask;
+            z_mask = arg_info(op->args[1])->z_mask & z_mask;
             break;
 
         case INDEX_op_ext_i32_i64:
-            if ((arg_info(op->args[1])->mask & 0x80000000) != 0) {
+            if ((arg_info(op->args[1])->z_mask & 0x80000000) != 0) {
                 break;
             }
             QEMU_FALLTHROUGH;
         case INDEX_op_extu_i32_i64:
             /* We do not compute affected as it is a size changing op.  */
-            mask = (uint32_t)arg_info(op->args[1])->mask;
+            z_mask = (uint32_t)arg_info(op->args[1])->z_mask;
             break;
 
         CASE_OP_32_64(andc):
             /* Known-zeros does not imply known-ones.  Therefore unless
                op->args[2] is constant, we can't infer anything from it.  */
             if (arg_is_const(op->args[2])) {
-                mask = ~arg_info(op->args[2])->mask;
+                z_mask = ~arg_info(op->args[2])->z_mask;
                 goto and_const;
             }
             /* But we certainly know nothing outside args[1] may be set. */
-            mask = arg_info(op->args[1])->mask;
+            z_mask = arg_info(op->args[1])->z_mask;
             break;
 
         case INDEX_op_sar_i32:
             if (arg_is_const(op->args[2])) {
                 tmp = arg_info(op->args[2])->val & 31;
-                mask = (int32_t)arg_info(op->args[1])->mask >> tmp;
+                z_mask = (int32_t)arg_info(op->args[1])->z_mask >> tmp;
             }
             break;
         case INDEX_op_sar_i64:
             if (arg_is_const(op->args[2])) {
                 tmp = arg_info(op->args[2])->val & 63;
-                mask = (int64_t)arg_info(op->args[1])->mask >> tmp;
+                z_mask = (int64_t)arg_info(op->args[1])->z_mask >> tmp;
             }
             break;
 
         case INDEX_op_shr_i32:
             if (arg_is_const(op->args[2])) {
                 tmp = arg_info(op->args[2])->val & 31;
-                mask = (uint32_t)arg_info(op->args[1])->mask >> tmp;
+                z_mask = (uint32_t)arg_info(op->args[1])->z_mask >> tmp;
             }
             break;
         case INDEX_op_shr_i64:
             if (arg_is_const(op->args[2])) {
                 tmp = arg_info(op->args[2])->val & 63;
-                mask = (uint64_t)arg_info(op->args[1])->mask >> tmp;
+                z_mask = (uint64_t)arg_info(op->args[1])->z_mask >> tmp;
             }
             break;
 
         case INDEX_op_extrl_i64_i32:
-            mask = (uint32_t)arg_info(op->args[1])->mask;
+            z_mask = (uint32_t)arg_info(op->args[1])->z_mask;
             break;
         case INDEX_op_extrh_i64_i32:
-            mask = (uint64_t)arg_info(op->args[1])->mask >> 32;
+            z_mask = (uint64_t)arg_info(op->args[1])->z_mask >> 32;
             break;
 
         CASE_OP_32_64(shl):
             if (arg_is_const(op->args[2])) {
                 tmp = arg_info(op->args[2])->val & (TCG_TARGET_REG_BITS - 1);
-                mask = arg_info(op->args[1])->mask << tmp;
+                z_mask = arg_info(op->args[1])->z_mask << tmp;
             }
             break;
 
         CASE_OP_32_64(neg):
             /* Set to 1 all bits to the left of the rightmost.  */
-            mask = -(arg_info(op->args[1])->mask
-                     & -arg_info(op->args[1])->mask);
+            z_mask = -(arg_info(op->args[1])->z_mask
+                       & -arg_info(op->args[1])->z_mask);
             break;
 
         CASE_OP_32_64(deposit):
-            mask = deposit64(arg_info(op->args[1])->mask,
-                             op->args[3], op->args[4],
-                             arg_info(op->args[2])->mask);
+            z_mask = deposit64(arg_info(op->args[1])->z_mask,
+                               op->args[3], op->args[4],
+                               arg_info(op->args[2])->z_mask);
             break;
 
         CASE_OP_32_64(extract):
-            mask = extract64(arg_info(op->args[1])->mask,
-                             op->args[2], op->args[3]);
+            z_mask = extract64(arg_info(op->args[1])->z_mask,
+                               op->args[2], op->args[3]);
             if (op->args[2] == 0) {
-                affected = arg_info(op->args[1])->mask & ~mask;
+                affected = arg_info(op->args[1])->z_mask & ~z_mask;
             }
             break;
         CASE_OP_32_64(sextract):
-            mask = sextract64(arg_info(op->args[1])->mask,
-                              op->args[2], op->args[3]);
-            if (op->args[2] == 0 && (tcg_target_long)mask >= 0) {
-                affected = arg_info(op->args[1])->mask & ~mask;
+            z_mask = sextract64(arg_info(op->args[1])->z_mask,
+                                op->args[2], op->args[3]);
+            if (op->args[2] == 0 && (tcg_target_long)z_mask >= 0) {
+                affected = arg_info(op->args[1])->z_mask & ~z_mask;
             }
             break;
 
         CASE_OP_32_64(or):
         CASE_OP_32_64(xor):
-            mask = arg_info(op->args[1])->mask | arg_info(op->args[2])->mask;
+            z_mask = arg_info(op->args[1])->z_mask
+                   | arg_info(op->args[2])->z_mask;
             break;
 
         case INDEX_op_clz_i32:
         case INDEX_op_ctz_i32:
-            mask = arg_info(op->args[2])->mask | 31;
+            z_mask = arg_info(op->args[2])->z_mask | 31;
             break;
 
         case INDEX_op_clz_i64:
         case INDEX_op_ctz_i64:
-            mask = arg_info(op->args[2])->mask | 63;
+            z_mask = arg_info(op->args[2])->z_mask | 63;
             break;
 
         case INDEX_op_ctpop_i32:
-            mask = 32 | 31;
+            z_mask = 32 | 31;
             break;
         case INDEX_op_ctpop_i64:
-            mask = 64 | 63;
+            z_mask = 64 | 63;
             break;
 
         CASE_OP_32_64(setcond):
         case INDEX_op_setcond2_i32:
-            mask = 1;
+            z_mask = 1;
             break;
 
         CASE_OP_32_64(movcond):
-            mask = arg_info(op->args[3])->mask | arg_info(op->args[4])->mask;
+            z_mask = arg_info(op->args[3])->z_mask
+                   | arg_info(op->args[4])->z_mask;
             break;
 
         CASE_OP_32_64(ld8u):
-            mask = 0xff;
+            z_mask = 0xff;
             break;
         CASE_OP_32_64(ld16u):
-            mask = 0xffff;
+            z_mask = 0xffff;
             break;
         case INDEX_op_ld32u_i64:
-            mask = 0xffffffffu;
+            z_mask = 0xffffffffu;
             break;
 
         CASE_OP_32_64(qemu_ld):
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
                 MemOpIdx oi = op->args[nb_oargs + nb_iargs];
                 MemOp mop = get_memop(oi);
                 if (!(mop & MO_SIGN)) {
-                    mask = (2ULL << ((8 << (mop & MO_SIZE)) - 1)) - 1;
+                    z_mask = (2ULL << ((8 << (mop & MO_SIZE)) - 1)) - 1;
                 }
             }
             break;
 
         CASE_OP_32_64(bswap16):
-            mask = arg_info(op->args[1])->mask;
-            if (mask <= 0xffff) {
+            z_mask = arg_info(op->args[1])->z_mask;
+            if (z_mask <= 0xffff) {
                 op->args[2] |= TCG_BSWAP_IZ;
             }
-            mask = bswap16(mask);
+            z_mask = bswap16(z_mask);
             switch (op->args[2] & (TCG_BSWAP_OZ | TCG_BSWAP_OS)) {
             case TCG_BSWAP_OZ:
                 break;
             case TCG_BSWAP_OS:
-                mask = (int16_t)mask;
+                z_mask = (int16_t)z_mask;
                 break;
             default: /* undefined high bits */
-                mask |= MAKE_64BIT_MASK(16, 48);
+                z_mask |= MAKE_64BIT_MASK(16, 48);
                 break;
             }
             break;
 
         case INDEX_op_bswap32_i64:
-            mask = arg_info(op->args[1])->mask;
-            if (mask <= 0xffffffffu) {
+            z_mask = arg_info(op->args[1])->z_mask;
+            if (z_mask <= 0xffffffffu) {
                 op->args[2] |= TCG_BSWAP_IZ;
             }
-            mask = bswap32(mask);
+            z_mask = bswap32(z_mask);
             switch (op->args[2] & (TCG_BSWAP_OZ | TCG_BSWAP_OS)) {
             case TCG_BSWAP_OZ:
                 break;
             case TCG_BSWAP_OS:
-                mask = (int32_t)mask;
+                z_mask = (int32_t)z_mask;
                 break;
             default: /* undefined high bits */
-                mask |= MAKE_64BIT_MASK(32, 32);
+                z_mask |= MAKE_64BIT_MASK(32, 32);
                 break;
             }
             break;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
         /* 32-bit ops generate 32-bit results.  For the result is zero test
            below, we can ignore high bits, but for further optimizations we
            need to record that the high bits contain garbage.  */
-        partmask = mask;
+        partmask = z_mask;
         if (!(def->flags & TCG_OPF_64BIT)) {
-            mask |= ~(tcg_target_ulong)0xffffffffu;
+            z_mask |= ~(tcg_target_ulong)0xffffffffu;
             partmask &= 0xffffffffu;
             affected &= 0xffffffffu;
         }
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
                    vs the high word of the input.  */
             do_setcond_high:
                 reset_temp(op->args[0]);
-                arg_info(op->args[0])->mask = 1;
+                arg_info(op->args[0])->z_mask = 1;
                 op->opc = INDEX_op_setcond_i32;
                 op->args[1] = op->args[2];
                 op->args[2] = op->args[4];
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
                 }
             do_setcond_low:
                 reset_temp(op->args[0]);
-                arg_info(op->args[0])->mask = 1;
+                arg_info(op->args[0])->z_mask = 1;
                 op->opc = INDEX_op_setcond_i32;
                 op->args[2] = op->args[3];
                 op->args[3] = op->args[5];
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
             /* Default case: we know nothing about operation (or were unable
                to compute the operation result) so no propagation is done.
                We trash everything if the operation is the end of a basic
-               block, otherwise we only trash the output args.  "mask" is
+               block, otherwise we only trash the output args.  "z_mask" is
                the non-zero bits mask for the first output arg.  */
             if (def->flags & TCG_OPF_BB_END) {
                 memset(&temps_used, 0, sizeof(temps_used));
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
                     /* Save the corresponding known-zero bits mask for the
                        first output argument (only one supported so far). */
                     if (i == 0) {
-                        arg_info(op->args[i])->mask = mask;
+                        arg_info(op->args[i])->z_mask = z_mask;
                     }
                 }
             }
-- 
2.25.1

Provide what will become a larger context for splitting
the very large tcg_optimize function.

Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
Reviewed-by: Luis Pires <luis.pires@eldorado.org.br>
Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/optimize.c | 77 ++++++++++++++++++++++++++------------------------
 1 file changed, 40 insertions(+), 37 deletions(-)

diff --git a/tcg/optimize.c b/tcg/optimize.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/optimize.c
+++ b/tcg/optimize.c
@@ -XXX,XX +XXX,XX @@ typedef struct TempOptInfo {
     uint64_t z_mask;  /* mask bit is 0 if and only if value bit is 0 */
 } TempOptInfo;
 
+typedef struct OptContext {
+    TCGTempSet temps_used;
+} OptContext;
+
 static inline TempOptInfo *ts_info(TCGTemp *ts)
 {
     return ts->state_ptr;
@@ -XXX,XX +XXX,XX @@ static void reset_temp(TCGArg arg)
 }
 
 /* Initialize and activate a temporary.  */
-static void init_ts_info(TCGTempSet *temps_used, TCGTemp *ts)
+static void init_ts_info(OptContext *ctx, TCGTemp *ts)
 {
     size_t idx = temp_idx(ts);
     TempOptInfo *ti;
 
-    if (test_bit(idx, temps_used->l)) {
+    if (test_bit(idx, ctx->temps_used.l)) {
         return;
     }
-    set_bit(idx, temps_used->l);
+    set_bit(idx, ctx->temps_used.l);
 
     ti = ts->state_ptr;
     if (ti == NULL) {
@@ -XXX,XX +XXX,XX @@ static void init_ts_info(TCGTempSet *temps_used, TCGTemp *ts)
     }
 }
 
-static void init_arg_info(TCGTempSet *temps_used, TCGArg arg)
+static void init_arg_info(OptContext *ctx, TCGArg arg)
 {
-    init_ts_info(temps_used, arg_temp(arg));
+    init_ts_info(ctx, arg_temp(arg));
 }
 
 static TCGTemp *find_better_copy(TCGContext *s, TCGTemp *ts)
@@ -XXX,XX +XXX,XX @@ static void tcg_opt_gen_mov(TCGContext *s, TCGOp *op, TCGArg dst, TCGArg src)
     }
 }
 
-static void tcg_opt_gen_movi(TCGContext *s, TCGTempSet *temps_used,
+static void tcg_opt_gen_movi(TCGContext *s, OptContext *ctx,
                              TCGOp *op, TCGArg dst, uint64_t val)
 {
     const TCGOpDef *def = &tcg_op_defs[op->opc];
@@ -XXX,XX +XXX,XX @@ static void tcg_opt_gen_movi(TCGContext *s, TCGTempSet *temps_used,
 
     /* Convert movi to mov with constant temp. */
     tv = tcg_constant_internal(type, val);
-    init_ts_info(temps_used, tv);
+    init_ts_info(ctx, tv);
     tcg_opt_gen_mov(s, op, dst, temp_arg(tv));
 }
 
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
 {
     int nb_temps, nb_globals, i;
     TCGOp *op, *op_next, *prev_mb = NULL;
-    TCGTempSet temps_used;
+    OptContext ctx = {};
 
     /* Array VALS has an element for each temp.
        If this temp holds a constant then its value is kept in VALS' element.
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
     nb_temps = s->nb_temps;
     nb_globals = s->nb_globals;
 
-    memset(&temps_used, 0, sizeof(temps_used));
     for (i = 0; i < nb_temps; ++i) {
         s->temps[i].state_ptr = NULL;
     }
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
             for (i = 0; i < nb_oargs + nb_iargs; i++) {
                 TCGTemp *ts = arg_temp(op->args[i]);
                 if (ts) {
-                    init_ts_info(&temps_used, ts);
+                    init_ts_info(&ctx, ts);
                 }
             }
         } else {
             nb_oargs = def->nb_oargs;
             nb_iargs = def->nb_iargs;
             for (i = 0; i < nb_oargs + nb_iargs; i++) {
-                init_arg_info(&temps_used, op->args[i]);
+                init_arg_info(&ctx, op->args[i]);
             }
         }
 
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
         CASE_OP_32_64(rotr):
             if (arg_is_const(op->args[1])
                 && arg_info(op->args[1])->val == 0) {
-                tcg_opt_gen_movi(s, &temps_used, op, op->args[0], 0);
+                tcg_opt_gen_movi(s, &ctx, op, op->args[0], 0);
                 continue;
             }
             break;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
 
         if (partmask == 0) {
             tcg_debug_assert(nb_oargs == 1);
-            tcg_opt_gen_movi(s, &temps_used, op, op->args[0], 0);
+            tcg_opt_gen_movi(s, &ctx, op, op->args[0], 0);
             continue;
         }
         if (affected == 0) {
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
         CASE_OP_32_64(mulsh):
             if (arg_is_const(op->args[2])
                 && arg_info(op->args[2])->val == 0) {
-                tcg_opt_gen_movi(s, &temps_used, op, op->args[0], 0);
+                tcg_opt_gen_movi(s, &ctx, op, op->args[0], 0);
                 continue;
             }
             break;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
         CASE_OP_32_64_VEC(sub):
         CASE_OP_32_64_VEC(xor):
             if (args_are_copies(op->args[1], op->args[2])) {
-                tcg_opt_gen_movi(s, &temps_used, op, op->args[0], 0);
+                tcg_opt_gen_movi(s, &ctx, op, op->args[0], 0);
                 continue;
             }
             break;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
             if (arg_is_const(op->args[1])) {
                 tmp = arg_info(op->args[1])->val;
                 tmp = dup_const(TCGOP_VECE(op), tmp);
-                tcg_opt_gen_movi(s, &temps_used, op, op->args[0], tmp);
+                tcg_opt_gen_movi(s, &ctx, op, op->args[0], tmp);
                 break;
             }
             goto do_default;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
         case INDEX_op_dup2_vec:
             assert(TCG_TARGET_REG_BITS == 32);
             if (arg_is_const(op->args[1]) && arg_is_const(op->args[2])) {
-                tcg_opt_gen_movi(s, &temps_used, op, op->args[0],
+                tcg_opt_gen_movi(s, &ctx, op, op->args[0],
                                  deposit64(arg_info(op->args[1])->val, 32, 32,
                                            arg_info(op->args[2])->val));
                 break;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
         case INDEX_op_extrh_i64_i32:
             if (arg_is_const(op->args[1])) {
                 tmp = do_constant_folding(opc, arg_info(op->args[1])->val, 0);
-                tcg_opt_gen_movi(s, &temps_used, op, op->args[0], tmp);
+                tcg_opt_gen_movi(s, &ctx, op, op->args[0], tmp);
                 break;
             }
             goto do_default;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
             if (arg_is_const(op->args[1])) {
                 tmp = do_constant_folding(opc, arg_info(op->args[1])->val,
                                           op->args[2]);
-                tcg_opt_gen_movi(s, &temps_used, op, op->args[0], tmp);
+                tcg_opt_gen_movi(s, &ctx, op, op->args[0], tmp);
                 break;
             }
             goto do_default;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
             if (arg_is_const(op->args[1]) && arg_is_const(op->args[2])) {
                 tmp = do_constant_folding(opc, arg_info(op->args[1])->val,
                                           arg_info(op->args[2])->val);
-                tcg_opt_gen_movi(s, &temps_used, op, op->args[0], tmp);
+                tcg_opt_gen_movi(s, &ctx, op, op->args[0], tmp);
                 break;
             }
             goto do_default;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
                 TCGArg v = arg_info(op->args[1])->val;
                 if (v != 0) {
                     tmp = do_constant_folding(opc, v, 0);
-                    tcg_opt_gen_movi(s, &temps_used, op, op->args[0], tmp);
+                    tcg_opt_gen_movi(s, &ctx, op, op->args[0], tmp);
                 } else {
                     tcg_opt_gen_mov(s, op, op->args[0], op->args[2]);
                 }
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
                 tmp = deposit64(arg_info(op->args[1])->val,
                                 op->args[3], op->args[4],
                                 arg_info(op->args[2])->val);
-                tcg_opt_gen_movi(s, &temps_used, op, op->args[0], tmp);
+                tcg_opt_gen_movi(s, &ctx, op, op->args[0], tmp);
                 break;
             }
             goto do_default;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
             if (arg_is_const(op->args[1])) {
                 tmp = extract64(arg_info(op->args[1])->val,
                                 op->args[2], op->args[3]);
-                tcg_opt_gen_movi(s, &temps_used, op, op->args[0], tmp);
+                tcg_opt_gen_movi(s, &ctx, op, op->args[0], tmp);
                 break;
             }
             goto do_default;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
             if (arg_is_const(op->args[1])) {
                 tmp = sextract64(arg_info(op->args[1])->val,
                                  op->args[2], op->args[3]);
-                tcg_opt_gen_movi(s, &temps_used, op, op->args[0], tmp);
+                tcg_opt_gen_movi(s, &ctx, op, op->args[0], tmp);
                 break;
             }
             goto do_default;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
                     tmp = (int32_t)(((uint32_t)v1 >> shr) |
                                     ((uint32_t)v2 << (32 - shr)));
                 }
-                tcg_opt_gen_movi(s, &temps_used, op, op->args[0], tmp);
+                tcg_opt_gen_movi(s, &ctx, op, op->args[0], tmp);
                 break;
             }
             goto do_default;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
             tmp = do_constant_folding_cond(opc, op->args[1],
                                            op->args[2], op->args[3]);
             if (tmp != 2) {
-                tcg_opt_gen_movi(s, &temps_used, op, op->args[0], tmp);
+                tcg_opt_gen_movi(s, &ctx, op, op->args[0], tmp);
                 break;
             }
             goto do_default;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
                                            op->args[1], op->args[2]);
             if (tmp != 2) {
                 if (tmp) {
-                    memset(&temps_used, 0, sizeof(temps_used));
+                    memset(&ctx.temps_used, 0, sizeof(ctx.temps_used));
                     op->opc = INDEX_op_br;
                     op->args[0] = op->args[3];
                 } else {
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
 
                 rl = op->args[0];
                 rh = op->args[1];
-                tcg_opt_gen_movi(s, &temps_used, op, rl, (int32_t)a);
-                tcg_opt_gen_movi(s, &temps_used, op2, rh, (int32_t)(a >> 32));
+                tcg_opt_gen_movi(s, &ctx, op, rl, (int32_t)a);
+                tcg_opt_gen_movi(s, &ctx, op2, rh, (int32_t)(a >> 32));
                 break;
             }
             goto do_default;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
 
                 rl = op->args[0];
                 rh = op->args[1];
-                tcg_opt_gen_movi(s, &temps_used, op, rl, (int32_t)r);
-                tcg_opt_gen_movi(s, &temps_used, op2, rh, (int32_t)(r >> 32));
+                tcg_opt_gen_movi(s, &ctx, op, rl, (int32_t)r);
+                tcg_opt_gen_movi(s, &ctx, op2, rh, (int32_t)(r >> 32));
                 break;
             }
             goto do_default;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
             if (tmp != 2) {
                 if (tmp) {
             do_brcond_true:
-                    memset(&temps_used, 0, sizeof(temps_used));
+                    memset(&ctx.temps_used, 0, sizeof(ctx.temps_used));
                     op->opc = INDEX_op_br;
                     op->args[0] = op->args[5];
                 } else {
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
                 /* Simplify LT/GE comparisons vs zero to a single compare
                    vs the high word of the input.  */
             do_brcond_high:
-                memset(&temps_used, 0, sizeof(temps_used));
+                memset(&ctx.temps_used, 0, sizeof(ctx.temps_used));
                 op->opc = INDEX_op_brcond_i32;
                 op->args[0] = op->args[1];
                 op->args[1] = op->args[3];
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
                     goto do_default;
                 }
             do_brcond_low:
-                memset(&temps_used, 0, sizeof(temps_used));
+                memset(&ctx.temps_used, 0, sizeof(ctx.temps_used));
                 op->opc = INDEX_op_brcond_i32;
                 op->args[1] = op->args[2];
                 op->args[2] = op->args[4];
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
                                             op->args[5]);
             if (tmp != 2) {
             do_setcond_const:
-                tcg_opt_gen_movi(s, &temps_used, op, op->args[0], tmp);
+                tcg_opt_gen_movi(s, &ctx, op, op->args[0], tmp);
             } else if ((op->args[5] == TCG_COND_LT
                         || op->args[5] == TCG_COND_GE)
                        && arg_is_const(op->args[3])
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
             if (!(tcg_call_flags(op)
                   & (TCG_CALL_NO_READ_GLOBALS | TCG_CALL_NO_WRITE_GLOBALS))) {
                 for (i = 0; i < nb_globals; i++) {
-                    if (test_bit(i, temps_used.l)) {
+                    if (test_bit(i, ctx.temps_used.l)) {
                         reset_ts(&s->temps[i]);
                     }
                 }
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
                block, otherwise we only trash the output args.  "z_mask" is
                the non-zero bits mask for the first output arg.  */
             if (def->flags & TCG_OPF_BB_END) {
-                memset(&temps_used, 0, sizeof(temps_used));
+                memset(&ctx.temps_used, 0, sizeof(ctx.temps_used));
             } else {
         do_reset_output:
                 for (i = 0; i < nb_oargs; i++) {
-- 
2.25.1

Break the final cleanup clause out of the main switch
statement.  When fully folding an opcode to mov/movi,
use "continue" to process the next opcode, else break
to fall into the final cleanup.

Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
Reviewed-by: Luis Pires <luis.pires@eldorado.org.br>
Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/optimize.c | 190 ++++++++++++++++++++++++-------------------------
 1 file changed, 94 insertions(+), 96 deletions(-)

diff --git a/tcg/optimize.c b/tcg/optimize.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/optimize.c
+++ b/tcg/optimize.c
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
         switch (opc) {
         CASE_OP_32_64_VEC(mov):
             tcg_opt_gen_mov(s, op, op->args[0], op->args[1]);
-            break;
+            continue;
 
         case INDEX_op_dup_vec:
             if (arg_is_const(op->args[1])) {
                 tmp = arg_info(op->args[1])->val;
                 tmp = dup_const(TCGOP_VECE(op), tmp);
                 tcg_opt_gen_movi(s, &ctx, op, op->args[0], tmp);
-                break;
+                continue;
             }
-            goto do_default;
+            break;
 
         case INDEX_op_dup2_vec:
             assert(TCG_TARGET_REG_BITS == 32);
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
                 tcg_opt_gen_movi(s, &ctx, op, op->args[0],
                                  deposit64(arg_info(op->args[1])->val, 32, 32,
                                            arg_info(op->args[2])->val));
-                break;
+                continue;
             } else if (args_are_copies(op->args[1], op->args[2])) {
                 op->opc = INDEX_op_dup_vec;
                 TCGOP_VECE(op) = MO_32;
                 nb_iargs = 1;
             }
-            goto do_default;
+            break;
 
         CASE_OP_32_64(not):
         CASE_OP_32_64(neg):
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
             if (arg_is_const(op->args[1])) {
                 tmp = do_constant_folding(opc, arg_info(op->args[1])->val, 0);
                 tcg_opt_gen_movi(s, &ctx, op, op->args[0], tmp);
-                break;
+                continue;
             }
-            goto do_default;
+            break;
 
         CASE_OP_32_64(bswap16):
         CASE_OP_32_64(bswap32):
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
                 tmp = do_constant_folding(opc, arg_info(op->args[1])->val,
                                           op->args[2]);
                 tcg_opt_gen_movi(s, &ctx, op, op->args[0], tmp);
-                break;
+                continue;
             }
-            goto do_default;
+            break;
 
         CASE_OP_32_64(add):
         CASE_OP_32_64(sub):
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
                 tmp = do_constant_folding(opc, arg_info(op->args[1])->val,
                                           arg_info(op->args[2])->val);
                 tcg_opt_gen_movi(s, &ctx, op, op->args[0], tmp);
-                break;
+                continue;
             }
-            goto do_default;
+            break;
 
         CASE_OP_32_64(clz):
         CASE_OP_32_64(ctz):
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
                 } else {
                     tcg_opt_gen_mov(s, op, op->args[0], op->args[2]);
                 }
-                break;
+                continue;
             }
-            goto do_default;
+            break;
 
         CASE_OP_32_64(deposit):
             if (arg_is_const(op->args[1]) && arg_is_const(op->args[2])) {
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
                                 op->args[3], op->args[4],
                                 arg_info(op->args[2])->val);
                 tcg_opt_gen_movi(s, &ctx, op, op->args[0], tmp);
-                break;
+                continue;
             }
-            goto do_default;
+            break;
 
         CASE_OP_32_64(extract):
             if (arg_is_const(op->args[1])) {
                 tmp = extract64(arg_info(op->args[1])->val,
                                 op->args[2], op->args[3]);
                 tcg_opt_gen_movi(s, &ctx, op, op->args[0], tmp);
-                break;
+                continue;
             }
-            goto do_default;
+            break;
 
         CASE_OP_32_64(sextract):
             if (arg_is_const(op->args[1])) {
                 tmp = sextract64(arg_info(op->args[1])->val,
                                  op->args[2], op->args[3]);
                 tcg_opt_gen_movi(s, &ctx, op, op->args[0], tmp);
-                break;
+                continue;
             }
-            goto do_default;
+            break;
 
         CASE_OP_32_64(extract2):
             if (arg_is_const(op->args[1]) && arg_is_const(op->args[2])) {
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
                                     ((uint32_t)v2 << (32 - shr)));
                 }
                 tcg_opt_gen_movi(s, &ctx, op, op->args[0], tmp);
-                break;
+                continue;
             }
-            goto do_default;
+            break;
 
         CASE_OP_32_64(setcond):
             tmp = do_constant_folding_cond(opc, op->args[1],
                                            op->args[2], op->args[3]);
             if (tmp != 2) {
                 tcg_opt_gen_movi(s, &ctx, op, op->args[0], tmp);
-                break;
+                continue;
             }
-            goto do_default;
+            break;
 
         CASE_OP_32_64(brcond):
             tmp = do_constant_folding_cond(opc, op->args[0],
                                            op->args[1], op->args[2]);
-            if (tmp != 2) {
-                if (tmp) {
-                    memset(&ctx.temps_used, 0, sizeof(ctx.temps_used));
-                    op->opc = INDEX_op_br;
-                    op->args[0] = op->args[3];
-                } else {
-                    tcg_op_remove(s, op);
-                }
+            switch (tmp) {
+            case 0:
+                tcg_op_remove(s, op);
+                continue;
+            case 1:
+                memset(&ctx.temps_used, 0, sizeof(ctx.temps_used));
+                op->opc = opc = INDEX_op_br;
+                op->args[0] = op->args[3];
                 break;
             }
-            goto do_default;
+            break;
 
         CASE_OP_32_64(movcond):
             tmp = do_constant_folding_cond(opc, op->args[1],
                                            op->args[2], op->args[5]);
             if (tmp != 2) {
                 tcg_opt_gen_mov(s, op, op->args[0], op->args[4-tmp]);
-                break;
+                continue;
             }
             if (arg_is_const(op->args[3]) && arg_is_const(op->args[4])) {
                 uint64_t tv = arg_info(op->args[3])->val;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
                 if (fv == 1 && tv == 0) {
                     cond = tcg_invert_cond(cond);
                 } else if (!(tv == 1 && fv == 0)) {
-                    goto do_default;
+                    break;
                 }
                 op->args[3] = cond;
                 op->opc = opc = (opc == INDEX_op_movcond_i32
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
                                  : INDEX_op_setcond_i64);
                 nb_iargs = 2;
             }
-            goto do_default;
+            break;
 
         case INDEX_op_add2_i32:
         case INDEX_op_sub2_i32:
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
                 rh = op->args[1];
                 tcg_opt_gen_movi(s, &ctx, op, rl, (int32_t)a);
                 tcg_opt_gen_movi(s, &ctx, op2, rh, (int32_t)(a >> 32));
-                break;
+                continue;
             }
-            goto do_default;
+            break;
 
         case INDEX_op_mulu2_i32:
             if (arg_is_const(op->args[2]) && arg_is_const(op->args[3])) {
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
                 rh = op->args[1];
                 tcg_opt_gen_movi(s, &ctx, op, rl, (int32_t)r);
                 tcg_opt_gen_movi(s, &ctx, op2, rh, (int32_t)(r >> 32));
-                break;
+                continue;
             }
-            goto do_default;
+            break;
 
         case INDEX_op_brcond2_i32:
             tmp = do_constant_folding_cond2(&op->args[0], &op->args[2],
                                             op->args[4]);
-            if (tmp != 2) {
-                if (tmp) {
-            do_brcond_true:
-                    memset(&ctx.temps_used, 0, sizeof(ctx.temps_used));
-                    op->opc = INDEX_op_br;
-                    op->args[0] = op->args[5];
-                } else {
+            if (tmp == 0) {
             do_brcond_false:
-                    tcg_op_remove(s, op);
-                }
-            } else if ((op->args[4] == TCG_COND_LT
-                        || op->args[4] == TCG_COND_GE)
-                       && arg_is_const(op->args[2])
-                       && arg_info(op->args[2])->val == 0
-                       && arg_is_const(op->args[3])
-                       && arg_info(op->args[3])->val == 0) {
+                tcg_op_remove(s, op);
+                continue;
+            }
+            if (tmp == 1) {
+            do_brcond_true:
+                op->opc = opc = INDEX_op_br;
+                op->args[0] = op->args[5];
+                break;
+            }
+            if ((op->args[4] == TCG_COND_LT || op->args[4] == TCG_COND_GE)
+                 && arg_is_const(op->args[2])
+                 && arg_info(op->args[2])->val == 0
+                 && arg_is_const(op->args[3])
+                 && arg_info(op->args[3])->val == 0) {
                 /* Simplify LT/GE comparisons vs zero to a single compare
                    vs the high word of the input.  */
             do_brcond_high:
-                memset(&ctx.temps_used, 0, sizeof(ctx.temps_used));
-                op->opc = INDEX_op_brcond_i32;
+                op->opc = opc = INDEX_op_brcond_i32;
                 op->args[0] = op->args[1];
                 op->args[1] = op->args[3];
                 op->args[2] = op->args[4];
                 op->args[3] = op->args[5];
-            } else if (op->args[4] == TCG_COND_EQ) {
+                break;
+            }
+            if (op->args[4] == TCG_COND_EQ) {
                 /* Simplify EQ comparisons where one of the pairs
                    can be simplified.  */
                 tmp = do_constant_folding_cond(INDEX_op_brcond_i32,
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
                 if (tmp == 0) {
                     goto do_brcond_false;
                 } else if (tmp != 1) {
-                    goto do_default;
+                    break;
                 }
             do_brcond_low:
                 memset(&ctx.temps_used, 0, sizeof(ctx.temps_used));
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
                 op->args[1] = op->args[2];
                 op->args[2] = op->args[4];
                 op->args[3] = op->args[5];
-            } else if (op->args[4] == TCG_COND_NE) {
+                break;
+            }
+            if (op->args[4] == TCG_COND_NE) {
                 /* Simplify NE comparisons where one of the pairs
                    can be simplified.  */
                 tmp = do_constant_folding_cond(INDEX_op_brcond_i32,
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
                 } else if (tmp == 1) {
                     goto do_brcond_true;
                 }
-                goto do_default;
-            } else {
-                goto do_default;
             }
             break;
 
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
             if (tmp != 2) {
             do_setcond_const:
                 tcg_opt_gen_movi(s, &ctx, op, op->args[0], tmp);
-            } else if ((op->args[5] == TCG_COND_LT
-                        || op->args[5] == TCG_COND_GE)
-                       && arg_is_const(op->args[3])
-                       && arg_info(op->args[3])->val == 0
-                       && arg_is_const(op->args[4])
-                       && arg_info(op->args[4])->val == 0) {
+                continue;
+            }
+            if ((op->args[5] == TCG_COND_LT || op->args[5] == TCG_COND_GE)
+                 && arg_is_const(op->args[3])
+                 && arg_info(op->args[3])->val == 0
+                 && arg_is_const(op->args[4])
+                 && arg_info(op->args[4])->val == 0) {
                 /* Simplify LT/GE comparisons vs zero to a single compare
                    vs the high word of the input.  */
             do_setcond_high:
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
                 op->args[1] = op->args[2];
                 op->args[2] = op->args[4];
                 op->args[3] = op->args[5];
-            } else if (op->args[5] == TCG_COND_EQ) {
+                break;
+            }
+            if (op->args[5] == TCG_COND_EQ) {
                 /* Simplify EQ comparisons where one of the pairs
                    can be simplified.  */
                 tmp = do_constant_folding_cond(INDEX_op_setcond_i32,
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
                 if (tmp == 0) {
                     goto do_setcond_high;
                 } else if (tmp != 1) {
-                    goto do_default;
+                    break;
                 }
             do_setcond_low:
                 reset_temp(op->args[0]);
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
                 op->opc = INDEX_op_setcond_i32;
                 op->args[2] = op->args[3];
                 op->args[3] = op->args[5];
-            } else if (op->args[5] == TCG_COND_NE) {
+                break;
+            }
+            if (op->args[5] == TCG_COND_NE) {
                 /* Simplify NE comparisons where one of the pairs
                    can be simplified.  */
                 tmp = do_constant_folding_cond(INDEX_op_setcond_i32,
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
                 } else if (tmp == 1) {
                     goto do_setcond_const;
                 }
-                goto do_default;
-            } else {
-                goto do_default;
             }
             break;
 
-        case INDEX_op_call:
-            if (!(tcg_call_flags(op)
+        default:
+            break;
+        }
+
+        /* Some of the folding above can change opc. */
+        opc = op->opc;
+        def = &tcg_op_defs[opc];
+        if (def->flags & TCG_OPF_BB_END) {
+            memset(&ctx.temps_used, 0, sizeof(ctx.temps_used));
+        } else {
+            if (opc == INDEX_op_call &&
+                !(tcg_call_flags(op)
                   & (TCG_CALL_NO_READ_GLOBALS | TCG_CALL_NO_WRITE_GLOBALS))) {
                 for (i = 0; i < nb_globals; i++) {
                     if (test_bit(i, ctx.temps_used.l)) {
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
                     }
                 }
             }
-            goto do_reset_output;
 
-        default:
-        do_default:
-            /* Default case: we know nothing about operation (or were unable
-               to compute the operation result) so no propagation is done.
-               We trash everything if the operation is the end of a basic
-               block, otherwise we only trash the output args.  "z_mask" is
-               the non-zero bits mask for the first output arg.  */
-            if (def->flags & TCG_OPF_BB_END) {
-                memset(&ctx.temps_used, 0, sizeof(ctx.temps_used));
-            } else {
-        do_reset_output:
-                for (i = 0; i < nb_oargs; i++) {
-                    reset_temp(op->args[i]);
-                    /* Save the corresponding known-zero bits mask for the
-                       first output argument (only one supported so far). */
-                    if (i == 0) {
-                        arg_info(op->args[i])->z_mask = z_mask;
-                    }
+            for (i = 0; i < nb_oargs; i++) {
+                reset_temp(op->args[i]);
+                /* Save the corresponding known-zero bits mask for the
+                   first output argument (only one supported so far). */
+                if (i == 0) {
+                    arg_info(op->args[i])->z_mask = z_mask;
                 }
             }
-            break;
         }
 
         /* Eliminate duplicate and redundant fence instructions.  */
-- 
2.25.1

Adjust the interface to take the OptContext parameter instead
of TCGContext or both.

Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
Reviewed-by: Luis Pires <luis.pires@eldorado.org.br>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/optimize.c | 67 +++++++++++++++++++++++++-------------------------
 1 file changed, 34 insertions(+), 33 deletions(-)

diff --git a/tcg/optimize.c b/tcg/optimize.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/optimize.c
+++ b/tcg/optimize.c
@@ -XXX,XX +XXX,XX @@ typedef struct TempOptInfo {
 } TempOptInfo;
 
 typedef struct OptContext {
+    TCGContext *tcg;
     TCGTempSet temps_used;
 } OptContext;
 
@@ -XXX,XX +XXX,XX @@ static bool args_are_copies(TCGArg arg1, TCGArg arg2)
     return ts_are_copies(arg_temp(arg1), arg_temp(arg2));
 }
 
-static void tcg_opt_gen_mov(TCGContext *s, TCGOp *op, TCGArg dst, TCGArg src)
+static void tcg_opt_gen_mov(OptContext *ctx, TCGOp *op, TCGArg dst, TCGArg src)
 {
     TCGTemp *dst_ts = arg_temp(dst);
     TCGTemp *src_ts = arg_temp(src);
@@ -XXX,XX +XXX,XX @@ static void tcg_opt_gen_mov(TCGContext *s, TCGOp *op, TCGArg dst, TCGArg src)
     TCGOpcode new_op;
 
     if (ts_are_copies(dst_ts, src_ts)) {
-        tcg_op_remove(s, op);
+        tcg_op_remove(ctx->tcg, op);
         return;
     }
 
@@ -XXX,XX +XXX,XX @@ static void tcg_opt_gen_mov(TCGContext *s, TCGOp *op, TCGArg dst, TCGArg src)
     }
 }
 
-static void tcg_opt_gen_movi(TCGContext *s, OptContext *ctx,
-                             TCGOp *op, TCGArg dst, uint64_t val)
+static void tcg_opt_gen_movi(OptContext *ctx, TCGOp *op,
+                             TCGArg dst, uint64_t val)
 {
     const TCGOpDef *def = &tcg_op_defs[op->opc];
     TCGType type;
@@ -XXX,XX +XXX,XX @@ static void tcg_opt_gen_movi(TCGContext *s, OptContext *ctx,
     /* Convert movi to mov with constant temp. */
     tv = tcg_constant_internal(type, val);
     init_ts_info(ctx, tv);
-    tcg_opt_gen_mov(s, op, dst, temp_arg(tv));
+    tcg_opt_gen_mov(ctx, op, dst, temp_arg(tv));
 }
 
 static uint64_t do_constant_folding_2(TCGOpcode op, uint64_t x, uint64_t y)
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
 {
     int nb_temps, nb_globals, i;
     TCGOp *op, *op_next, *prev_mb = NULL;
-    OptContext ctx = {};
+    OptContext ctx = { .tcg = s };
 
     /* Array VALS has an element for each temp.
        If this temp holds a constant then its value is kept in VALS' element.
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
         CASE_OP_32_64(rotr):
             if (arg_is_const(op->args[1])
                 && arg_info(op->args[1])->val == 0) {
-                tcg_opt_gen_movi(s, &ctx, op, op->args[0], 0);
+                tcg_opt_gen_movi(&ctx, op, op->args[0], 0);
                 continue;
             }
             break;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
             if (!arg_is_const(op->args[1])
                 && arg_is_const(op->args[2])
                 && arg_info(op->args[2])->val == 0) {
-                tcg_opt_gen_mov(s, op, op->args[0], op->args[1]);
+                tcg_opt_gen_mov(&ctx, op, op->args[0], op->args[1]);
                 continue;
             }
             break;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
             if (!arg_is_const(op->args[1])
                 && arg_is_const(op->args[2])
                 && arg_info(op->args[2])->val == -1) {
-                tcg_opt_gen_mov(s, op, op->args[0], op->args[1]);
+                tcg_opt_gen_mov(&ctx, op, op->args[0], op->args[1]);
                 continue;
             }
             break;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
 
         if (partmask == 0) {
             tcg_debug_assert(nb_oargs == 1);
-            tcg_opt_gen_movi(s, &ctx, op, op->args[0], 0);
+            tcg_opt_gen_movi(&ctx, op, op->args[0], 0);
             continue;
         }
         if (affected == 0) {
             tcg_debug_assert(nb_oargs == 1);
-            tcg_opt_gen_mov(s, op, op->args[0], op->args[1]);
+            tcg_opt_gen_mov(&ctx, op, op->args[0], op->args[1]);
             continue;
         }
 
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
         CASE_OP_32_64(mulsh):
             if (arg_is_const(op->args[2])
                 && arg_info(op->args[2])->val == 0) {
-                tcg_opt_gen_movi(s, &ctx, op, op->args[0], 0);
+                tcg_opt_gen_movi(&ctx, op, op->args[0], 0);
                 continue;
             }
             break;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
         CASE_OP_32_64_VEC(or):
         CASE_OP_32_64_VEC(and):
             if (args_are_copies(op->args[1], op->args[2])) {
-                tcg_opt_gen_mov(s, op, op->args[0], op->args[1]);
+                tcg_opt_gen_mov(&ctx, op, op->args[0], op->args[1]);
                 continue;
             }
             break;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
         CASE_OP_32_64_VEC(sub):
         CASE_OP_32_64_VEC(xor):
             if (args_are_copies(op->args[1], op->args[2])) {
-                tcg_opt_gen_movi(s, &ctx, op, op->args[0], 0);
+                tcg_opt_gen_movi(&ctx, op, op->args[0], 0);
                 continue;
             }
             break;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
            allocator where needed and possible.  Also detect copies. */
         switch (opc) {
         CASE_OP_32_64_VEC(mov):
-            tcg_opt_gen_mov(s, op, op->args[0], op->args[1]);
+            tcg_opt_gen_mov(&ctx, op, op->args[0], op->args[1]);
             continue;
 
         case INDEX_op_dup_vec:
             if (arg_is_const(op->args[1])) {
                 tmp = arg_info(op->args[1])->val;
                 tmp = dup_const(TCGOP_VECE(op), tmp);
-                tcg_opt_gen_movi(s, &ctx, op, op->args[0], tmp);
+                tcg_opt_gen_movi(&ctx, op, op->args[0], tmp);
                 continue;
             }
             break;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
         case INDEX_op_dup2_vec:
             assert(TCG_TARGET_REG_BITS == 32);
             if (arg_is_const(op->args[1]) && arg_is_const(op->args[2])) {
-                tcg_opt_gen_movi(s, &ctx, op, op->args[0],
+                tcg_opt_gen_movi(&ctx, op, op->args[0],
                                  deposit64(arg_info(op->args[1])->val, 32, 32,
                                            arg_info(op->args[2])->val));
                 continue;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
         case INDEX_op_extrh_i64_i32:
             if (arg_is_const(op->args[1])) {
                 tmp = do_constant_folding(opc, arg_info(op->args[1])->val, 0);
-                tcg_opt_gen_movi(s, &ctx, op, op->args[0], tmp);
+                tcg_opt_gen_movi(&ctx, op, op->args[0], tmp);
                 continue;
             }
             break;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
             if (arg_is_const(op->args[1])) {
                 tmp = do_constant_folding(opc, arg_info(op->args[1])->val,
                                           op->args[2]);
-                tcg_opt_gen_movi(s, &ctx, op, op->args[0], tmp);
+                tcg_opt_gen_movi(&ctx, op, op->args[0], tmp);
                 continue;
             }
             break;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
             if (arg_is_const(op->args[1]) && arg_is_const(op->args[2])) {
                 tmp = do_constant_folding(opc, arg_info(op->args[1])->val,
                                           arg_info(op->args[2])->val);
-                tcg_opt_gen_movi(s, &ctx, op, op->args[0], tmp);
+                tcg_opt_gen_movi(&ctx, op, op->args[0], tmp);
                 continue;
             }
             break;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
                 TCGArg v = arg_info(op->args[1])->val;
                 if (v != 0) {
                     tmp = do_constant_folding(opc, v, 0);
-                    tcg_opt_gen_movi(s, &ctx, op, op->args[0], tmp);
+                    tcg_opt_gen_movi(&ctx, op, op->args[0], tmp);
                 } else {
-                    tcg_opt_gen_mov(s, op, op->args[0], op->args[2]);
+                    tcg_opt_gen_mov(&ctx, op, op->args[0], op->args[2]);
                 }
                 continue;
             }
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
                 tmp = deposit64(arg_info(op->args[1])->val,
                                 op->args[3], op->args[4],
                                 arg_info(op->args[2])->val);
-                tcg_opt_gen_movi(s, &ctx, op, op->args[0], tmp);
+                tcg_opt_gen_movi(&ctx, op, op->args[0], tmp);
                 continue;
             }
             break;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
             if (arg_is_const(op->args[1])) {
                 tmp = extract64(arg_info(op->args[1])->val,
                                 op->args[2], op->args[3]);
-                tcg_opt_gen_movi(s, &ctx, op, op->args[0], tmp);
+                tcg_opt_gen_movi(&ctx, op, op->args[0], tmp);
                 continue;
             }
             break;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
             if (arg_is_const(op->args[1])) {
                 tmp = sextract64(arg_info(op->args[1])->val,
                                  op->args[2], op->args[3]);
-                tcg_opt_gen_movi(s, &ctx, op, op->args[0], tmp);
+                tcg_opt_gen_movi(&ctx, op, op->args[0], tmp);
                 continue;
             }
             break;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
                     tmp = (int32_t)(((uint32_t)v1 >> shr) |
                                     ((uint32_t)v2 << (32 - shr)));
                 }
-                tcg_opt_gen_movi(s, &ctx, op, op->args[0], tmp);
+                tcg_opt_gen_movi(&ctx, op, op->args[0], tmp);
                 continue;
             }
             break;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
             tmp = do_constant_folding_cond(opc, op->args[1],
                                            op->args[2], op->args[3]);
             if (tmp != 2) {
-                tcg_opt_gen_movi(s, &ctx, op, op->args[0], tmp);
+                tcg_opt_gen_movi(&ctx, op, op->args[0], tmp);
                 continue;
             }
             break;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
             tmp = do_constant_folding_cond(opc, op->args[1],
                                            op->args[2], op->args[5]);
             if (tmp != 2) {
-                tcg_opt_gen_mov(s, op, op->args[0], op->args[4-tmp]);
+                tcg_opt_gen_mov(&ctx, op, op->args[0], op->args[4-tmp]);
                 continue;
             }
             if (arg_is_const(op->args[3]) && arg_is_const(op->args[4])) {
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
 
                 rl = op->args[0];
                 rh = op->args[1];
-                tcg_opt_gen_movi(s, &ctx, op, rl, (int32_t)a);
-                tcg_opt_gen_movi(s, &ctx, op2, rh, (int32_t)(a >> 32));
+                tcg_opt_gen_movi(&ctx, op, rl, (int32_t)a);
+                tcg_opt_gen_movi(&ctx, op2, rh, (int32_t)(a >> 32));
                 continue;
             }
             break;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
 
                 rl = op->args[0];
                 rh = op->args[1];
-                tcg_opt_gen_movi(s, &ctx, op, rl, (int32_t)r);
-                tcg_opt_gen_movi(s, &ctx, op2, rh, (int32_t)(r >> 32));
+                tcg_opt_gen_movi(&ctx, op, rl, (int32_t)r);
+                tcg_opt_gen_movi(&ctx, op2, rh, (int32_t)(r >> 32));
                 continue;
             }
             break;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
                                             op->args[5]);
             if (tmp != 2) {
             do_setcond_const:
-                tcg_opt_gen_movi(s, &ctx, op, op->args[0], tmp);
+                tcg_opt_gen_movi(&ctx, op, op->args[0], tmp);
                 continue;
             }
             if ((op->args[5] == TCG_COND_LT || op->args[5] == TCG_COND_GE)
-- 
2.25.1

This will expose the variable to subroutines that
will be broken out of tcg_optimize.

Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
Reviewed-by: Luis Pires <luis.pires@eldorado.org.br>
Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/optimize.c | 11 ++++++-----
 1 file changed, 6 insertions(+), 5 deletions(-)

diff --git a/tcg/optimize.c b/tcg/optimize.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/optimize.c
+++ b/tcg/optimize.c
@@ -XXX,XX +XXX,XX @@ typedef struct TempOptInfo {
 
 typedef struct OptContext {
     TCGContext *tcg;
+    TCGOp *prev_mb;
     TCGTempSet temps_used;
 } OptContext;
 
@@ -XXX,XX +XXX,XX @@ static bool swap_commutative2(TCGArg *p1, TCGArg *p2)
 void tcg_optimize(TCGContext *s)
 {
     int nb_temps, nb_globals, i;
-    TCGOp *op, *op_next, *prev_mb = NULL;
+    TCGOp *op, *op_next;
     OptContext ctx = { .tcg = s };
 
     /* Array VALS has an element for each temp.
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
         }
 
         /* Eliminate duplicate and redundant fence instructions.  */
-        if (prev_mb) {
+        if (ctx.prev_mb) {
             switch (opc) {
             case INDEX_op_mb:
                 /* Merge two barriers of the same type into one,
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
                  * barrier.  This is stricter than specified but for
                  * the purposes of TCG is better than not optimizing.
                  */
-                prev_mb->args[0] |= op->args[0];
+                ctx.prev_mb->args[0] |= op->args[0];
                 tcg_op_remove(s, op);
                 break;
 
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
             case INDEX_op_qemu_st_i64:
             case INDEX_op_call:
                 /* Opcodes that touch guest memory stop the optimization.  */
-                prev_mb = NULL;
+                ctx.prev_mb = NULL;
                 break;
             }
         } else if (opc == INDEX_op_mb) {
-            prev_mb = op;
+            ctx.prev_mb = op;
         }
     }
 }
-- 
2.25.1

There was no real reason for calls to have separate code here.
Unify init for calls vs non-calls using the call path, which
handles TCG_CALL_DUMMY_ARG.

Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
Reviewed-by: Luis Pires <luis.pires@eldorado.org.br>
Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/optimize.c | 25 +++++++++++--------------
 1 file changed, 11 insertions(+), 14 deletions(-)

diff --git a/tcg/optimize.c b/tcg/optimize.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/optimize.c
+++ b/tcg/optimize.c
@@ -XXX,XX +XXX,XX @@ static void init_ts_info(OptContext *ctx, TCGTemp *ts)
     }
 }
 
-static void init_arg_info(OptContext *ctx, TCGArg arg)
-{
-    init_ts_info(ctx, arg_temp(arg));
-}
-
 static TCGTemp *find_better_copy(TCGContext *s, TCGTemp *ts)
 {
     TCGTemp *i, *g, *l;
@@ -XXX,XX +XXX,XX @@ static bool swap_commutative2(TCGArg *p1, TCGArg *p2)
     return false;
 }
 
+static void init_arguments(OptContext *ctx, TCGOp *op, int nb_args)
+{
+    for (int i = 0; i < nb_args; i++) {
+        TCGTemp *ts = arg_temp(op->args[i]);
+        if (ts) {
+            init_ts_info(ctx, ts);
+        }
+    }
+}
+
 /* Propagate constants and copies, fold constant expressions. */
 void tcg_optimize(TCGContext *s)
 {
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
         if (opc == INDEX_op_call) {
             nb_oargs = TCGOP_CALLO(op);
             nb_iargs = TCGOP_CALLI(op);
-            for (i = 0; i < nb_oargs + nb_iargs; i++) {
-                TCGTemp *ts = arg_temp(op->args[i]);
-                if (ts) {
-                    init_ts_info(&ctx, ts);
-                }
-            }
         } else {
             nb_oargs = def->nb_oargs;
             nb_iargs = def->nb_iargs;
-            for (i = 0; i < nb_oargs + nb_iargs; i++) {
-                init_arg_info(&ctx, op->args[i]);
-            }
         }
+        init_arguments(&ctx, op, nb_oargs + nb_iargs);
 
         /* Do copy propagation */
         for (i = nb_oargs; i < nb_oargs + nb_iargs; i++) {
-- 
2.25.1

Continue splitting tcg_optimize.

Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
Reviewed-by: Luis Pires <luis.pires@eldorado.org.br>
Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/optimize.c | 22 ++++++++++++++--------
 1 file changed, 14 insertions(+), 8 deletions(-)

diff --git a/tcg/optimize.c b/tcg/optimize.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/optimize.c
+++ b/tcg/optimize.c
@@ -XXX,XX +XXX,XX @@ static void init_arguments(OptContext *ctx, TCGOp *op, int nb_args)
     }
 }
 
+static void copy_propagate(OptContext *ctx, TCGOp *op,
+                           int nb_oargs, int nb_iargs)
+{
+    TCGContext *s = ctx->tcg;
+
+    for (int i = nb_oargs; i < nb_oargs + nb_iargs; i++) {
+        TCGTemp *ts = arg_temp(op->args[i]);
+        if (ts && ts_is_copy(ts)) {
+            op->args[i] = temp_arg(find_better_copy(s, ts));
+        }
+    }
+}
+
 /* Propagate constants and copies, fold constant expressions. */
 void tcg_optimize(TCGContext *s)
 {
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
             nb_iargs = def->nb_iargs;
         }
         init_arguments(&ctx, op, nb_oargs + nb_iargs);
-
-        /* Do copy propagation */
-        for (i = nb_oargs; i < nb_oargs + nb_iargs; i++) {
-            TCGTemp *ts = arg_temp(op->args[i]);
-            if (ts && ts_is_copy(ts)) {
-                op->args[i] = temp_arg(find_better_copy(s, ts));
-            }
-        }
+        copy_propagate(&ctx, op, nb_oargs, nb_iargs);
 
         /* For commutative operations make constant second argument */
         switch (opc) {
-- 
2.25.1

Calls are special in that they have a variable number
of arguments, and need to be able to clobber globals.

Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
Reviewed-by: Luis Pires <luis.pires@eldorado.org.br>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/optimize.c | 63 ++++++++++++++++++++++++++++++++------------------
 1 file changed, 41 insertions(+), 22 deletions(-)

diff --git a/tcg/optimize.c b/tcg/optimize.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/optimize.c
+++ b/tcg/optimize.c
@@ -XXX,XX +XXX,XX @@ static void copy_propagate(OptContext *ctx, TCGOp *op,
     }
 }
 
+static bool fold_call(OptContext *ctx, TCGOp *op)
+{
+    TCGContext *s = ctx->tcg;
+    int nb_oargs = TCGOP_CALLO(op);
+    int nb_iargs = TCGOP_CALLI(op);
+    int flags, i;
+
+    init_arguments(ctx, op, nb_oargs + nb_iargs);
+    copy_propagate(ctx, op, nb_oargs, nb_iargs);
+
+    /* If the function reads or writes globals, reset temp data. */
+    flags = tcg_call_flags(op);
+    if (!(flags & (TCG_CALL_NO_READ_GLOBALS | TCG_CALL_NO_WRITE_GLOBALS))) {
+        int nb_globals = s->nb_globals;
+
+        for (i = 0; i < nb_globals; i++) {
+            if (test_bit(i, ctx->temps_used.l)) {
+                reset_ts(&ctx->tcg->temps[i]);
+            }
+        }
+    }
+
+    /* Reset temp data for outputs. */
+    for (i = 0; i < nb_oargs; i++) {
+        reset_temp(op->args[i]);
+    }
+
+    /* Stop optimizing MB across calls. */
+    ctx->prev_mb = NULL;
+    return true;
+}
+
 /* Propagate constants and copies, fold constant expressions. */
 void tcg_optimize(TCGContext *s)
 {
-    int nb_temps, nb_globals, i;
+    int nb_temps, i;
     TCGOp *op, *op_next;
     OptContext ctx = { .tcg = s };
 
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
        available through the doubly linked circular list. */
 
     nb_temps = s->nb_temps;
-    nb_globals = s->nb_globals;
-
     for (i = 0; i < nb_temps; ++i) {
         s->temps[i].state_ptr = NULL;
     }
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
         uint64_t z_mask, partmask, affected, tmp;
         int nb_oargs, nb_iargs;
         TCGOpcode opc = op->opc;
-        const TCGOpDef *def = &tcg_op_defs[opc];
+        const TCGOpDef *def;
 
-        /* Count the arguments, and initialize the temps that are
-           going to be used */
+        /* Calls are special. */
         if (opc == INDEX_op_call) {
-            nb_oargs = TCGOP_CALLO(op);
-            nb_iargs = TCGOP_CALLI(op);
-        } else {
-            nb_oargs = def->nb_oargs;
-            nb_iargs = def->nb_iargs;
+            fold_call(&ctx, op);
+            continue;
         }
+
+        def = &tcg_op_defs[opc];
+        nb_oargs = def->nb_oargs;
+        nb_iargs = def->nb_iargs;
         init_arguments(&ctx, op, nb_oargs + nb_iargs);
         copy_propagate(&ctx, op, nb_oargs, nb_iargs);
 
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
         if (def->flags & TCG_OPF_BB_END) {
             memset(&ctx.temps_used, 0, sizeof(ctx.temps_used));
         } else {
-            if (opc == INDEX_op_call &&
-                !(tcg_call_flags(op)
-                  & (TCG_CALL_NO_READ_GLOBALS | TCG_CALL_NO_WRITE_GLOBALS))) {
-                for (i = 0; i < nb_globals; i++) {
-                    if (test_bit(i, ctx.temps_used.l)) {
-                        reset_ts(&s->temps[i]);
-                    }
-                }
-            }
-
             for (i = 0; i < nb_oargs; i++) {
                 reset_temp(op->args[i]);
                 /* Save the corresponding known-zero bits mask for the
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
             case INDEX_op_qemu_st_i32:
             case INDEX_op_qemu_st8_i32:
             case INDEX_op_qemu_st_i64:
-            case INDEX_op_call:
                 /* Opcodes that touch guest memory stop the optimization.  */
                 ctx.prev_mb = NULL;
                 break;
-- 
2.25.1

Rather than try to keep these up-to-date across folding,
re-read nb_oargs at the end, after re-reading the opcode.

A couple of asserts need dropping, but that will take care
of itself as we split the function further.

Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
Reviewed-by: Luis Pires <luis.pires@eldorado.org.br>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/optimize.c | 14 ++++----------
 1 file changed, 4 insertions(+), 10 deletions(-)

diff --git a/tcg/optimize.c b/tcg/optimize.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/optimize.c
+++ b/tcg/optimize.c
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
 
     QTAILQ_FOREACH_SAFE(op, &s->ops, link, op_next) {
         uint64_t z_mask, partmask, affected, tmp;
-        int nb_oargs, nb_iargs;
         TCGOpcode opc = op->opc;
         const TCGOpDef *def;
 
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
         }
 
         def = &tcg_op_defs[opc];
-        nb_oargs = def->nb_oargs;
-        nb_iargs = def->nb_iargs;
-        init_arguments(&ctx, op, nb_oargs + nb_iargs);
-        copy_propagate(&ctx, op, nb_oargs, nb_iargs);
+        init_arguments(&ctx, op, def->nb_oargs + def->nb_iargs);
+        copy_propagate(&ctx, op, def->nb_oargs, def->nb_iargs);
 
         /* For commutative operations make constant second argument */
         switch (opc) {
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
 
         CASE_OP_32_64(qemu_ld):
             {
-                MemOpIdx oi = op->args[nb_oargs + nb_iargs];
+                MemOpIdx oi = op->args[def->nb_oargs + def->nb_iargs];
                 MemOp mop = get_memop(oi);
                 if (!(mop & MO_SIGN)) {
                     z_mask = (2ULL << ((8 << (mop & MO_SIZE)) - 1)) - 1;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
         }
 
         if (partmask == 0) {
-            tcg_debug_assert(nb_oargs == 1);
             tcg_opt_gen_movi(&ctx, op, op->args[0], 0);
             continue;
         }
         if (affected == 0) {
-            tcg_debug_assert(nb_oargs == 1);
             tcg_opt_gen_mov(&ctx, op, op->args[0], op->args[1]);
             continue;
         }
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
             } else if (args_are_copies(op->args[1], op->args[2])) {
                 op->opc = INDEX_op_dup_vec;
                 TCGOP_VECE(op) = MO_32;
-                nb_iargs = 1;
             }
             break;
 
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
                 op->opc = opc = (opc == INDEX_op_movcond_i32
                                  ? INDEX_op_setcond_i32
                                  : INDEX_op_setcond_i64);
-                nb_iargs = 2;
             }
             break;
 
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
         if (def->flags & TCG_OPF_BB_END) {
             memset(&ctx.temps_used, 0, sizeof(ctx.temps_used));
         } else {
+            int nb_oargs = def->nb_oargs;
             for (i = 0; i < nb_oargs; i++) {
                 reset_temp(op->args[i]);
                 /* Save the corresponding known-zero bits mask for the
-- 
2.25.1

Return -1 instead of 2 for failure, so that we can
use comparisons against 0 for all cases.

Reviewed-by: Luis Pires <luis.pires@eldorado.org.br>
Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/optimize.c | 145 +++++++++++++++++++++++++------------------------
 1 file changed, 74 insertions(+), 71 deletions(-)

diff --git a/tcg/optimize.c b/tcg/optimize.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/optimize.c
+++ b/tcg/optimize.c
@@ -XXX,XX +XXX,XX @@ static bool do_constant_folding_cond_eq(TCGCond c)
     }
 }
 
-/* Return 2 if the condition can't be simplified, and the result
-   of the condition (0 or 1) if it can */
-static TCGArg do_constant_folding_cond(TCGOpcode op, TCGArg x,
-                                       TCGArg y, TCGCond c)
+/*
+ * Return -1 if the condition can't be simplified,
+ * and the result of the condition (0 or 1) if it can.
+ */
+static int do_constant_folding_cond(TCGOpcode op, TCGArg x,
+                                    TCGArg y, TCGCond c)
 {
     uint64_t xv = arg_info(x)->val;
     uint64_t yv = arg_info(y)->val;
@@ -XXX,XX +XXX,XX @@ static TCGArg do_constant_folding_cond(TCGOpcode op, TCGArg x,
         case TCG_COND_GEU:
             return 1;
         default:
-            return 2;
+            return -1;
         }
     }
-    return 2;
+    return -1;
 }
 
-/* Return 2 if the condition can't be simplified, and the result
-   of the condition (0 or 1) if it can */
-static TCGArg do_constant_folding_cond2(TCGArg *p1, TCGArg *p2, TCGCond c)
+/*
+ * Return -1 if the condition can't be simplified,
+ * and the result of the condition (0 or 1) if it can.
+ */
+static int do_constant_folding_cond2(TCGArg *p1, TCGArg *p2, TCGCond c)
 {
     TCGArg al = p1[0], ah = p1[1];
     TCGArg bl = p2[0], bh = p2[1];
@@ -XXX,XX +XXX,XX @@ static TCGArg do_constant_folding_cond2(TCGArg *p1, TCGArg *p2, TCGCond c)
     if (args_are_copies(al, bl) && args_are_copies(ah, bh)) {
         return do_constant_folding_cond_eq(c);
     }
-    return 2;
+    return -1;
 }
 
 static bool swap_commutative(TCGArg dest, TCGArg *p1, TCGArg *p2)
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
             break;
 
         CASE_OP_32_64(setcond):
-            tmp = do_constant_folding_cond(opc, op->args[1],
-                                           op->args[2], op->args[3]);
-            if (tmp != 2) {
-                tcg_opt_gen_movi(&ctx, op, op->args[0], tmp);
+            i = do_constant_folding_cond(opc, op->args[1],
+                                         op->args[2], op->args[3]);
+            if (i >= 0) {
+                tcg_opt_gen_movi(&ctx, op, op->args[0], i);
                 continue;
             }
             break;
 
         CASE_OP_32_64(brcond):
-            tmp = do_constant_folding_cond(opc, op->args[0],
-                                           op->args[1], op->args[2]);
-            switch (tmp) {
-            case 0:
+            i = do_constant_folding_cond(opc, op->args[0],
+                                         op->args[1], op->args[2]);
+            if (i == 0) {
                 tcg_op_remove(s, op);
                 continue;
-            case 1:
+            } else if (i > 0) {
                 memset(&ctx.temps_used, 0, sizeof(ctx.temps_used));
                 op->opc = opc = INDEX_op_br;
                 op->args[0] = op->args[3];
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
             break;
 
         CASE_OP_32_64(movcond):
-            tmp = do_constant_folding_cond(opc, op->args[1],
-                                           op->args[2], op->args[5]);
-            if (tmp != 2) {
-                tcg_opt_gen_mov(&ctx, op, op->args[0], op->args[4-tmp]);
+            i = do_constant_folding_cond(opc, op->args[1],
+                                         op->args[2], op->args[5]);
+            if (i >= 0) {
+                tcg_opt_gen_mov(&ctx, op, op->args[0], op->args[4 - i]);
                 continue;
             }
             if (arg_is_const(op->args[3]) && arg_is_const(op->args[4])) {
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
             break;
 
         case INDEX_op_brcond2_i32:
-            tmp = do_constant_folding_cond2(&op->args[0], &op->args[2],
-                                            op->args[4]);
-            if (tmp == 0) {
+            i = do_constant_folding_cond2(&op->args[0], &op->args[2],
+                                          op->args[4]);
+            if (i == 0) {
             do_brcond_false:
                 tcg_op_remove(s, op);
                 continue;
             }
-            if (tmp == 1) {
+            if (i > 0) {
             do_brcond_true:
                 op->opc = opc = INDEX_op_br;
                 op->args[0] = op->args[5];
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
             if (op->args[4] == TCG_COND_EQ) {
                 /* Simplify EQ comparisons where one of the pairs
                    can be simplified.  */
-                tmp = do_constant_folding_cond(INDEX_op_brcond_i32,
-                                               op->args[0], op->args[2],
-                                               TCG_COND_EQ);
-                if (tmp == 0) {
+                i = do_constant_folding_cond(INDEX_op_brcond_i32,
+                                             op->args[0], op->args[2],
+                                             TCG_COND_EQ);
+                if (i == 0) {
                     goto do_brcond_false;
-                } else if (tmp == 1) {
+                } else if (i > 0) {
                     goto do_brcond_high;
                 }
-                tmp = do_constant_folding_cond(INDEX_op_brcond_i32,
-                                               op->args[1], op->args[3],
-                                               TCG_COND_EQ);
-                if (tmp == 0) {
+                i = do_constant_folding_cond(INDEX_op_brcond_i32,
+                                             op->args[1], op->args[3],
+                                             TCG_COND_EQ);
+                if (i == 0) {
                     goto do_brcond_false;
-                } else if (tmp != 1) {
+                } else if (i < 0) {
                     break;
                 }
             do_brcond_low:
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
             if (op->args[4] == TCG_COND_NE) {
                 /* Simplify NE comparisons where one of the pairs
                    can be simplified.  */
-                tmp = do_constant_folding_cond(INDEX_op_brcond_i32,
-                                               op->args[0], op->args[2],
-                                               TCG_COND_NE);
-                if (tmp == 0) {
+                i = do_constant_folding_cond(INDEX_op_brcond_i32,
+                                             op->args[0], op->args[2],
+                                             TCG_COND_NE);
+                if (i == 0) {
                     goto do_brcond_high;
-                } else if (tmp == 1) {
+                } else if (i > 0) {
                     goto do_brcond_true;
                 }
-                tmp = do_constant_folding_cond(INDEX_op_brcond_i32,
-                                               op->args[1], op->args[3],
-                                               TCG_COND_NE);
-                if (tmp == 0) {
+                i = do_constant_folding_cond(INDEX_op_brcond_i32,
+                                             op->args[1], op->args[3],
+                                             TCG_COND_NE);
+                if (i == 0) {
                     goto do_brcond_low;
-                } else if (tmp == 1) {
+                } else if (i > 0) {
                     goto do_brcond_true;
                 }
             }
             break;
 
         case INDEX_op_setcond2_i32:
-            tmp = do_constant_folding_cond2(&op->args[1], &op->args[3],
-                                            op->args[5]);
-            if (tmp != 2) {
+            i = do_constant_folding_cond2(&op->args[1], &op->args[3],
+                                          op->args[5]);
+            if (i >= 0) {
             do_setcond_const:
-                tcg_opt_gen_movi(&ctx, op, op->args[0], tmp);
+                tcg_opt_gen_movi(&ctx, op, op->args[0], i);
                 continue;
             }
             if ((op->args[5] == TCG_COND_LT || op->args[5] == TCG_COND_GE)
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
             if (op->args[5] == TCG_COND_EQ) {
                 /* Simplify EQ comparisons where one of the pairs
                    can be simplified.  */
-                tmp = do_constant_folding_cond(INDEX_op_setcond_i32,
-                                               op->args[1], op->args[3],
-                                               TCG_COND_EQ);
-                if (tmp == 0) {
+                i = do_constant_folding_cond(INDEX_op_setcond_i32,
+                                             op->args[1], op->args[3],
+                                             TCG_COND_EQ);
+                if (i == 0) {
                     goto do_setcond_const;
-                } else if (tmp == 1) {
+                } else if (i > 0) {
                     goto do_setcond_high;
                 }
-                tmp = do_constant_folding_cond(INDEX_op_setcond_i32,
-                                               op->args[2], op->args[4],
-                                               TCG_COND_EQ);
-                if (tmp == 0) {
+                i = do_constant_folding_cond(INDEX_op_setcond_i32,
+                                             op->args[2], op->args[4],
+                                             TCG_COND_EQ);
+                if (i == 0) {
                     goto do_setcond_high;
-                } else if (tmp != 1) {
+                } else if (i < 0) {
                     break;
                 }
             do_setcond_low:
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
             if (op->args[5] == TCG_COND_NE) {
                 /* Simplify NE comparisons where one of the pairs
                    can be simplified.  */
-                tmp = do_constant_folding_cond(INDEX_op_setcond_i32,
-                                               op->args[1], op->args[3],
-                                               TCG_COND_NE);
-                if (tmp == 0) {
+                i = do_constant_folding_cond(INDEX_op_setcond_i32,
+                                             op->args[1], op->args[3],
+                                             TCG_COND_NE);
+                if (i == 0) {
                     goto do_setcond_high;
-                } else if (tmp == 1) {
+                } else if (i > 0) {
                     goto do_setcond_const;
                 }
-                tmp = do_constant_folding_cond(INDEX_op_setcond_i32,
-                                               op->args[2], op->args[4],
-                                               TCG_COND_NE);
-                if (tmp == 0) {
+                i = do_constant_folding_cond(INDEX_op_setcond_i32,
+                                             op->args[2], op->args[4],
+                                             TCG_COND_NE);
+                if (i == 0) {
                     goto do_setcond_low;
-                } else if (tmp == 1) {
+                } else if (i > 0) {
                     goto do_setcond_const;
                 }
             }
-- 
2.25.1

This will allow callers to tail call to these functions
and return true indicating processing complete.

Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
Reviewed-by: Luis Pires <luis.pires@eldorado.org.br>
Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/optimize.c | 9 +++++----
 1 file changed, 5 insertions(+), 4 deletions(-)

diff --git a/tcg/optimize.c b/tcg/optimize.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/optimize.c
+++ b/tcg/optimize.c
@@ -XXX,XX +XXX,XX @@ static bool args_are_copies(TCGArg arg1, TCGArg arg2)
     return ts_are_copies(arg_temp(arg1), arg_temp(arg2));
 }
 
-static void tcg_opt_gen_mov(OptContext *ctx, TCGOp *op, TCGArg dst, TCGArg src)
+static bool tcg_opt_gen_mov(OptContext *ctx, TCGOp *op, TCGArg dst, TCGArg src)
 {
     TCGTemp *dst_ts = arg_temp(dst);
     TCGTemp *src_ts = arg_temp(src);
@@ -XXX,XX +XXX,XX @@ static void tcg_opt_gen_mov(OptContext *ctx, TCGOp *op, TCGArg dst, TCGArg src)
 
     if (ts_are_copies(dst_ts, src_ts)) {
         tcg_op_remove(ctx->tcg, op);
-        return;
+        return true;
     }
 
     reset_ts(dst_ts);
@@ -XXX,XX +XXX,XX @@ static void tcg_opt_gen_mov(OptContext *ctx, TCGOp *op, TCGArg dst, TCGArg src)
         di->is_const = si->is_const;
         di->val = si->val;
     }
+    return true;
 }
 
-static void tcg_opt_gen_movi(OptContext *ctx, TCGOp *op,
+static bool tcg_opt_gen_movi(OptContext *ctx, TCGOp *op,
                              TCGArg dst, uint64_t val)
 {
     const TCGOpDef *def = &tcg_op_defs[op->opc];
@@ -XXX,XX +XXX,XX @@ static void tcg_opt_gen_movi(OptContext *ctx, TCGOp *op,
     /* Convert movi to mov with constant temp. */
     tv = tcg_constant_internal(type, val);
     init_ts_info(ctx, tv);
-    tcg_opt_gen_mov(ctx, op, dst, temp_arg(tv));
+    return tcg_opt_gen_mov(ctx, op, dst, temp_arg(tv));
 }
 
 static uint64_t do_constant_folding_2(TCGOpcode op, uint64_t x, uint64_t y)
-- 
2.25.1

Copy z_mask into OptContext, for writeback to the
first output within the new function.

Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
Reviewed-by: Luis Pires <luis.pires@eldorado.org.br>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/optimize.c | 49 +++++++++++++++++++++++++++++++++----------------
 1 file changed, 33 insertions(+), 16 deletions(-)

diff --git a/tcg/optimize.c b/tcg/optimize.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/optimize.c
+++ b/tcg/optimize.c
@@ -XXX,XX +XXX,XX @@ typedef struct OptContext {
     TCGContext *tcg;
     TCGOp *prev_mb;
     TCGTempSet temps_used;
+
+    /* In flight values from optimization. */
+    uint64_t z_mask;
 } OptContext;
 
 static inline TempOptInfo *ts_info(TCGTemp *ts)
@@ -XXX,XX +XXX,XX @@ static void copy_propagate(OptContext *ctx, TCGOp *op,
     }
 }
 
+static void finish_folding(OptContext *ctx, TCGOp *op)
+{
+    const TCGOpDef *def = &tcg_op_defs[op->opc];
+    int i, nb_oargs;
+
+    /*
+     * For an opcode that ends a BB, reset all temp data.
+     * We do no cross-BB optimization.
+     */
+    if (def->flags & TCG_OPF_BB_END) {
+        memset(&ctx->temps_used, 0, sizeof(ctx->temps_used));
+        ctx->prev_mb = NULL;
+        return;
+    }
+
+    nb_oargs = def->nb_oargs;
+    for (i = 0; i < nb_oargs; i++) {
+        reset_temp(op->args[i]);
+        /*
+         * Save the corresponding known-zero bits mask for the
+         * first output argument (only one supported so far).
+         */
+        if (i == 0) {
+            arg_info(op->args[i])->z_mask = ctx->z_mask;
+        }
+    }
+}
+
 static bool fold_call(OptContext *ctx, TCGOp *op)
 {
     TCGContext *s = ctx->tcg;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
             partmask &= 0xffffffffu;
             affected &= 0xffffffffu;
         }
+        ctx.z_mask = z_mask;
 
         if (partmask == 0) {
             tcg_opt_gen_movi(&ctx, op, op->args[0], 0);
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
             break;
         }
 
-        /* Some of the folding above can change opc. */
-        opc = op->opc;
-        def = &tcg_op_defs[opc];
-        if (def->flags & TCG_OPF_BB_END) {
-            memset(&ctx.temps_used, 0, sizeof(ctx.temps_used));
-        } else {
-            int nb_oargs = def->nb_oargs;
-            for (i = 0; i < nb_oargs; i++) {
-                reset_temp(op->args[i]);
-                /* Save the corresponding known-zero bits mask for the
-                   first output argument (only one supported so far). */
-                if (i == 0) {
-                    arg_info(op->args[i])->z_mask = z_mask;
-                }
-            }
-        }
+        finish_folding(&ctx, op);
 
         /* Eliminate duplicate and redundant fence instructions.  */
         if (ctx.prev_mb) {
-- 
2.25.1

Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
Reviewed-by: Luis Pires <luis.pires@eldorado.org.br>
Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/optimize.c | 9 ++++++---
 1 file changed, 6 insertions(+), 3 deletions(-)

diff --git a/tcg/optimize.c b/tcg/optimize.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/optimize.c
+++ b/tcg/optimize.c
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
         uint64_t z_mask, partmask, affected, tmp;
         TCGOpcode opc = op->opc;
         const TCGOpDef *def;
+        bool done = false;
 
         /* Calls are special. */
         if (opc == INDEX_op_call) {
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
            allocator where needed and possible.  Also detect copies. */
         switch (opc) {
         CASE_OP_32_64_VEC(mov):
-            tcg_opt_gen_mov(&ctx, op, op->args[0], op->args[1]);
-            continue;
+            done = tcg_opt_gen_mov(&ctx, op, op->args[0], op->args[1]);
+            break;
 
         case INDEX_op_dup_vec:
             if (arg_is_const(op->args[1])) {
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
             break;
         }
 
-        finish_folding(&ctx, op);
+        if (!done) {
+            finish_folding(&ctx, op);
+        }
 
         /* Eliminate duplicate and redundant fence instructions.  */
         if (ctx.prev_mb) {
-- 
2.25.1

This puts the separate mb optimization into the same framework
as the others.  While fold_qemu_{ld,st} are currently identical,
that won't last as more code gets moved.

Reviewed-by: Luis Pires <luis.pires@eldorado.org.br>
Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/optimize.c | 89 +++++++++++++++++++++++++++++---------------------
 1 file changed, 51 insertions(+), 38 deletions(-)

diff --git a/tcg/optimize.c b/tcg/optimize.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/optimize.c
+++ b/tcg/optimize.c
@@ -XXX,XX +XXX,XX @@ static bool fold_call(OptContext *ctx, TCGOp *op)
     return true;
 }
 
+static bool fold_mb(OptContext *ctx, TCGOp *op)
+{
+    /* Eliminate duplicate and redundant fence instructions.  */
+    if (ctx->prev_mb) {
+        /*
+         * Merge two barriers of the same type into one,
+         * or a weaker barrier into a stronger one,
+         * or two weaker barriers into a stronger one.
+         *   mb X; mb Y => mb X|Y
+         *   mb; strl => mb; st
+         *   ldaq; mb => ld; mb
+         *   ldaq; strl => ld; mb; st
+         * Other combinations are also merged into a strong
+         * barrier.  This is stricter than specified but for
+         * the purposes of TCG is better than not optimizing.
+         */
+        ctx->prev_mb->args[0] |= op->args[0];
+        tcg_op_remove(ctx->tcg, op);
+    } else {
+        ctx->prev_mb = op;
+    }
+    return true;
+}
+
+static bool fold_qemu_ld(OptContext *ctx, TCGOp *op)
+{
+    /* Opcodes that touch guest memory stop the mb optimization.  */
+    ctx->prev_mb = NULL;
+    return false;
+}
+
+static bool fold_qemu_st(OptContext *ctx, TCGOp *op)
+{
+    /* Opcodes that touch guest memory stop the mb optimization.  */
+    ctx->prev_mb = NULL;
+    return false;
+}
+
 /* Propagate constants and copies, fold constant expressions. */
 void tcg_optimize(TCGContext *s)
 {
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
             }
             break;
 
+        case INDEX_op_mb:
+            done = fold_mb(&ctx, op);
+            break;
+        case INDEX_op_qemu_ld_i32:
+        case INDEX_op_qemu_ld_i64:
+            done = fold_qemu_ld(&ctx, op);
+            break;
+        case INDEX_op_qemu_st_i32:
+        case INDEX_op_qemu_st8_i32:
+        case INDEX_op_qemu_st_i64:
+            done = fold_qemu_st(&ctx, op);
+            break;
+
         default:
             break;
         }
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
         if (!done) {
             finish_folding(&ctx, op);
         }
-
-        /* Eliminate duplicate and redundant fence instructions.  */
-        if (ctx.prev_mb) {
-            switch (opc) {
-            case INDEX_op_mb:
-                /* Merge two barriers of the same type into one,
-                 * or a weaker barrier into a stronger one,
-                 * or two weaker barriers into a stronger one.
-                 *   mb X; mb Y => mb X|Y
-                 *   mb; strl => mb; st
-                 *   ldaq; mb => ld; mb
-                 *   ldaq; strl => ld; mb; st
-                 * Other combinations are also merged into a strong
-                 * barrier.  This is stricter than specified but for
-                 * the purposes of TCG is better than not optimizing.
-                 */
-                ctx.prev_mb->args[0] |= op->args[0];
-                tcg_op_remove(s, op);
-                break;
-
-            default:
-                /* Opcodes that end the block stop the optimization.  */
-                if ((def->flags & TCG_OPF_BB_END) == 0) {
-                    break;
-                }
-                /* fallthru */
-            case INDEX_op_qemu_ld_i32:
-            case INDEX_op_qemu_ld_i64:
-            case INDEX_op_qemu_st_i32:
-            case INDEX_op_qemu_st8_i32:
-            case INDEX_op_qemu_st_i64:
-                /* Opcodes that touch guest memory stop the optimization.  */
-                ctx.prev_mb = NULL;
-                break;
-            }
-        } else if (opc == INDEX_op_mb) {
-            ctx.prev_mb = op;
-        }
     }
 }
-- 
2.25.1

Split out a whole bunch of placeholder functions, which are
currently identical.  That won't last as more code gets moved.

Use CASE_32_64_VEC for some logical operators that previously
missed the addition of vectors.

Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
Reviewed-by: Luis Pires <luis.pires@eldorado.org.br>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/optimize.c | 271 +++++++++++++++++++++++++++++++++++++++----------
 1 file changed, 219 insertions(+), 52 deletions(-)

diff --git a/tcg/optimize.c b/tcg/optimize.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/optimize.c
+++ b/tcg/optimize.c
@@ -XXX,XX +XXX,XX @@ static void finish_folding(OptContext *ctx, TCGOp *op)
     }
 }
 
+/*
+ * The fold_* functions return true when processing is complete,
+ * usually by folding the operation to a constant or to a copy,
+ * and calling tcg_opt_gen_{mov,movi}.  They may do other things,
+ * like collect information about the value produced, for use in
+ * optimizing a subsequent operation.
+ *
+ * These first fold_* functions are all helpers, used by other
+ * folders for more specific operations.
+ */
+
+static bool fold_const1(OptContext *ctx, TCGOp *op)
+{
+    if (arg_is_const(op->args[1])) {
+        uint64_t t;
+
+        t = arg_info(op->args[1])->val;
+        t = do_constant_folding(op->opc, t, 0);
+        return tcg_opt_gen_movi(ctx, op, op->args[0], t);
+    }
+    return false;
+}
+
+static bool fold_const2(OptContext *ctx, TCGOp *op)
+{
+    if (arg_is_const(op->args[1]) && arg_is_const(op->args[2])) {
+        uint64_t t1 = arg_info(op->args[1])->val;
+        uint64_t t2 = arg_info(op->args[2])->val;
+
+        t1 = do_constant_folding(op->opc, t1, t2);
+        return tcg_opt_gen_movi(ctx, op, op->args[0], t1);
+    }
+    return false;
+}
+
+/*
+ * These outermost fold_<op> functions are sorted alphabetically.
+ */
+
+static bool fold_add(OptContext *ctx, TCGOp *op)
+{
+    return fold_const2(ctx, op);
+}
+
+static bool fold_and(OptContext *ctx, TCGOp *op)
+{
+    return fold_const2(ctx, op);
+}
+
+static bool fold_andc(OptContext *ctx, TCGOp *op)
+{
+    return fold_const2(ctx, op);
+}
+
 static bool fold_call(OptContext *ctx, TCGOp *op)
 {
     TCGContext *s = ctx->tcg;
@@ -XXX,XX +XXX,XX @@ static bool fold_call(OptContext *ctx, TCGOp *op)
     return true;
 }
 
+static bool fold_ctpop(OptContext *ctx, TCGOp *op)
+{
+    return fold_const1(ctx, op);
+}
+
+static bool fold_divide(OptContext *ctx, TCGOp *op)
+{
+    return fold_const2(ctx, op);
+}
+
+static bool fold_eqv(OptContext *ctx, TCGOp *op)
+{
+    return fold_const2(ctx, op);
+}
+
+static bool fold_exts(OptContext *ctx, TCGOp *op)
+{
+    return fold_const1(ctx, op);
+}
+
+static bool fold_extu(OptContext *ctx, TCGOp *op)
+{
+    return fold_const1(ctx, op);
+}
+
 static bool fold_mb(OptContext *ctx, TCGOp *op)
 {
     /* Eliminate duplicate and redundant fence instructions.  */
@@ -XXX,XX +XXX,XX @@ static bool fold_mb(OptContext *ctx, TCGOp *op)
     return true;
 }
 
+static bool fold_mul(OptContext *ctx, TCGOp *op)
+{
+    return fold_const2(ctx, op);
+}
+
+static bool fold_mul_highpart(OptContext *ctx, TCGOp *op)
+{
+    return fold_const2(ctx, op);
+}
+
+static bool fold_nand(OptContext *ctx, TCGOp *op)
+{
+    return fold_const2(ctx, op);
+}
+
+static bool fold_neg(OptContext *ctx, TCGOp *op)
+{
+    return fold_const1(ctx, op);
+}
+
+static bool fold_nor(OptContext *ctx, TCGOp *op)
+{
+    return fold_const2(ctx, op);
+}
+
+static bool fold_not(OptContext *ctx, TCGOp *op)
+{
+    return fold_const1(ctx, op);
+}
+
+static bool fold_or(OptContext *ctx, TCGOp *op)
+{
+    return fold_const2(ctx, op);
+}
+
+static bool fold_orc(OptContext *ctx, TCGOp *op)
+{
+    return fold_const2(ctx, op);
+}
+
 static bool fold_qemu_ld(OptContext *ctx, TCGOp *op)
 {
     /* Opcodes that touch guest memory stop the mb optimization.  */
@@ -XXX,XX +XXX,XX @@ static bool fold_qemu_st(OptContext *ctx, TCGOp *op)
     return false;
 }
 
+static bool fold_remainder(OptContext *ctx, TCGOp *op)
+{
+    return fold_const2(ctx, op);
+}
+
+static bool fold_shift(OptContext *ctx, TCGOp *op)
+{
+    return fold_const2(ctx, op);
+}
+
+static bool fold_sub(OptContext *ctx, TCGOp *op)
+{
+    return fold_const2(ctx, op);
+}
+
+static bool fold_xor(OptContext *ctx, TCGOp *op)
+{
+    return fold_const2(ctx, op);
+}
+
 /* Propagate constants and copies, fold constant expressions. */
 void tcg_optimize(TCGContext *s)
 {
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
             }
             break;
 
-        CASE_OP_32_64(not):
-        CASE_OP_32_64(neg):
-        CASE_OP_32_64(ext8s):
-        CASE_OP_32_64(ext8u):
-        CASE_OP_32_64(ext16s):
-        CASE_OP_32_64(ext16u):
-        CASE_OP_32_64(ctpop):
-        case INDEX_op_ext32s_i64:
-        case INDEX_op_ext32u_i64:
-        case INDEX_op_ext_i32_i64:
-        case INDEX_op_extu_i32_i64:
-        case INDEX_op_extrl_i64_i32:
-        case INDEX_op_extrh_i64_i32:
-            if (arg_is_const(op->args[1])) {
-                tmp = do_constant_folding(opc, arg_info(op->args[1])->val, 0);
-                tcg_opt_gen_movi(&ctx, op, op->args[0], tmp);
-                continue;
-            }
-            break;
-
         CASE_OP_32_64(bswap16):
         CASE_OP_32_64(bswap32):
         case INDEX_op_bswap64_i64:
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
             }
             break;
 
-        CASE_OP_32_64(add):
-        CASE_OP_32_64(sub):
-        CASE_OP_32_64(mul):
-        CASE_OP_32_64(or):
-        CASE_OP_32_64(and):
-        CASE_OP_32_64(xor):
-        CASE_OP_32_64(shl):
-        CASE_OP_32_64(shr):
-        CASE_OP_32_64(sar):
-        CASE_OP_32_64(rotl):
-        CASE_OP_32_64(rotr):
-        CASE_OP_32_64(andc):
-        CASE_OP_32_64(orc):
-        CASE_OP_32_64(eqv):
-        CASE_OP_32_64(nand):
-        CASE_OP_32_64(nor):
-        CASE_OP_32_64(muluh):
-        CASE_OP_32_64(mulsh):
-        CASE_OP_32_64(div):
-        CASE_OP_32_64(divu):
-        CASE_OP_32_64(rem):
-        CASE_OP_32_64(remu):
-            if (arg_is_const(op->args[1]) && arg_is_const(op->args[2])) {
-                tmp = do_constant_folding(opc, arg_info(op->args[1])->val,
-                                          arg_info(op->args[2])->val);
-                tcg_opt_gen_movi(&ctx, op, op->args[0], tmp);
-                continue;
-            }
-            break;
-
         CASE_OP_32_64(clz):
         CASE_OP_32_64(ctz):
             if (arg_is_const(op->args[1])) {
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
             }
             break;
 
+        default:
+            break;
+
+        /* ---------------------------------------------------------- */
+        /* Sorted alphabetically by opcode as much as possible. */
+
+        CASE_OP_32_64_VEC(add):
+            done = fold_add(&ctx, op);
+            break;
+        CASE_OP_32_64_VEC(and):
+            done = fold_and(&ctx, op);
+            break;
+        CASE_OP_32_64_VEC(andc):
+            done = fold_andc(&ctx, op);
+            break;
+        CASE_OP_32_64(ctpop):
+            done = fold_ctpop(&ctx, op);
+            break;
+        CASE_OP_32_64(div):
+        CASE_OP_32_64(divu):
+            done = fold_divide(&ctx, op);
+            break;
+        CASE_OP_32_64(eqv):
+            done = fold_eqv(&ctx, op);
+            break;
+        CASE_OP_32_64(ext8s):
+        CASE_OP_32_64(ext16s):
+        case INDEX_op_ext32s_i64:
+        case INDEX_op_ext_i32_i64:
+            done = fold_exts(&ctx, op);
+            break;
+        CASE_OP_32_64(ext8u):
+        CASE_OP_32_64(ext16u):
+        case INDEX_op_ext32u_i64:
+        case INDEX_op_extu_i32_i64:
+        case INDEX_op_extrl_i64_i32:
+        case INDEX_op_extrh_i64_i32:
+            done = fold_extu(&ctx, op);
+            break;
         case INDEX_op_mb:
             done = fold_mb(&ctx, op);
             break;
+        CASE_OP_32_64(mul):
+            done = fold_mul(&ctx, op);
+            break;
+        CASE_OP_32_64(mulsh):
+        CASE_OP_32_64(muluh):
+            done = fold_mul_highpart(&ctx, op);
+            break;
+        CASE_OP_32_64(nand):
+            done = fold_nand(&ctx, op);
+            break;
+        CASE_OP_32_64(neg):
+            done = fold_neg(&ctx, op);
+            break;
+        CASE_OP_32_64(nor):
+            done = fold_nor(&ctx, op);
+            break;
+        CASE_OP_32_64_VEC(not):
+            done = fold_not(&ctx, op);
+            break;
+        CASE_OP_32_64_VEC(or):
+            done = fold_or(&ctx, op);
+            break;
+        CASE_OP_32_64_VEC(orc):
+            done = fold_orc(&ctx, op);
+            break;
         case INDEX_op_qemu_ld_i32:
         case INDEX_op_qemu_ld_i64:
             done = fold_qemu_ld(&ctx, op);
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
         case INDEX_op_qemu_st_i64:
             done = fold_qemu_st(&ctx, op);
             break;
-
-        default:
+        CASE_OP_32_64(rem):
+        CASE_OP_32_64(remu):
+            done = fold_remainder(&ctx, op);
+            break;
+        CASE_OP_32_64(rotl):
+        CASE_OP_32_64(rotr):
+        CASE_OP_32_64(sar):
+        CASE_OP_32_64(shl):
+        CASE_OP_32_64(shr):
+            done = fold_shift(&ctx, op);
+            break;
+        CASE_OP_32_64_VEC(sub):
+            done = fold_sub(&ctx, op);
+            break;
+        CASE_OP_32_64_VEC(xor):
+            done = fold_xor(&ctx, op);
             break;
         }
 
-- 
2.25.1

Reduce some code duplication by folding the NE and EQ cases.

Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
Reviewed-by: Luis Pires <luis.pires@eldorado.org.br>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/optimize.c | 145 ++++++++++++++++++++++++-------------------------
 1 file changed, 72 insertions(+), 73 deletions(-)

diff --git a/tcg/optimize.c b/tcg/optimize.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/optimize.c
+++ b/tcg/optimize.c
@@ -XXX,XX +XXX,XX @@ static bool fold_remainder(OptContext *ctx, TCGOp *op)
     return fold_const2(ctx, op);
 }
 
+static bool fold_setcond2(OptContext *ctx, TCGOp *op)
+{
+    TCGCond cond = op->args[5];
+    int i = do_constant_folding_cond2(&op->args[1], &op->args[3], cond);
+    int inv = 0;
+
+    if (i >= 0) {
+        goto do_setcond_const;
+    }
+
+    switch (cond) {
+    case TCG_COND_LT:
+    case TCG_COND_GE:
+        /*
+         * Simplify LT/GE comparisons vs zero to a single compare
+         * vs the high word of the input.
+         */
+        if (arg_is_const(op->args[3]) && arg_info(op->args[3])->val == 0 &&
+            arg_is_const(op->args[4]) && arg_info(op->args[4])->val == 0) {
+            goto do_setcond_high;
+        }
+        break;
+
+    case TCG_COND_NE:
+        inv = 1;
+        QEMU_FALLTHROUGH;
+    case TCG_COND_EQ:
+        /*
+         * Simplify EQ/NE comparisons where one of the pairs
+         * can be simplified.
+         */
+        i = do_constant_folding_cond(INDEX_op_setcond_i32, op->args[1],
+                                     op->args[3], cond);
+        switch (i ^ inv) {
+        case 0:
+            goto do_setcond_const;
+        case 1:
+            goto do_setcond_high;
+        }
+
+        i = do_constant_folding_cond(INDEX_op_setcond_i32, op->args[2],
+                                     op->args[4], cond);
+        switch (i ^ inv) {
+        case 0:
+            goto do_setcond_const;
+        case 1:
+            op->args[2] = op->args[3];
+            op->args[3] = cond;
+            op->opc = INDEX_op_setcond_i32;
+            break;
+        }
+        break;
+
+    default:
+        break;
+
+    do_setcond_high:
+        op->args[1] = op->args[2];
+        op->args[2] = op->args[4];
+        op->args[3] = cond;
+        op->opc = INDEX_op_setcond_i32;
+        break;
+    }
+    return false;
+
+ do_setcond_const:
+    return tcg_opt_gen_movi(ctx, op, op->args[0], i);
+}
+
 static bool fold_shift(OptContext *ctx, TCGOp *op)
 {
     return fold_const2(ctx, op);
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
             }
             break;
 
-        case INDEX_op_setcond2_i32:
-            i = do_constant_folding_cond2(&op->args[1], &op->args[3],
-                                          op->args[5]);
-            if (i >= 0) {
-            do_setcond_const:
-                tcg_opt_gen_movi(&ctx, op, op->args[0], i);
-                continue;
-            }
-            if ((op->args[5] == TCG_COND_LT || op->args[5] == TCG_COND_GE)
-                 && arg_is_const(op->args[3])
-                 && arg_info(op->args[3])->val == 0
-                 && arg_is_const(op->args[4])
-                 && arg_info(op->args[4])->val == 0) {
-                /* Simplify LT/GE comparisons vs zero to a single compare
-                   vs the high word of the input.  */
-            do_setcond_high:
-                reset_temp(op->args[0]);
-                arg_info(op->args[0])->z_mask = 1;
-                op->opc = INDEX_op_setcond_i32;
-                op->args[1] = op->args[2];
-                op->args[2] = op->args[4];
-                op->args[3] = op->args[5];
-                break;
-            }
-            if (op->args[5] == TCG_COND_EQ) {
-                /* Simplify EQ comparisons where one of the pairs
-                   can be simplified.  */
-                i = do_constant_folding_cond(INDEX_op_setcond_i32,
-                                             op->args[1], op->args[3],
-                                             TCG_COND_EQ);
-                if (i == 0) {
-                    goto do_setcond_const;
-                } else if (i > 0) {
-                    goto do_setcond_high;
-                }
-                i = do_constant_folding_cond(INDEX_op_setcond_i32,
-                                             op->args[2], op->args[4],
-                                             TCG_COND_EQ);
-                if (i == 0) {
-                    goto do_setcond_high;
-                } else if (i < 0) {
-                    break;
-                }
-            do_setcond_low:
-                reset_temp(op->args[0]);
-                arg_info(op->args[0])->z_mask = 1;
-                op->opc = INDEX_op_setcond_i32;
-                op->args[2] = op->args[3];
-                op->args[3] = op->args[5];
-                break;
-            }
-            if (op->args[5] == TCG_COND_NE) {
-                /* Simplify NE comparisons where one of the pairs
-                   can be simplified.  */
-                i = do_constant_folding_cond(INDEX_op_setcond_i32,
-                                             op->args[1], op->args[3],
-                                             TCG_COND_NE);
-                if (i == 0) {
-                    goto do_setcond_high;
-                } else if (i > 0) {
-                    goto do_setcond_const;
-                }
-                i = do_constant_folding_cond(INDEX_op_setcond_i32,
-                                             op->args[2], op->args[4],
-                                             TCG_COND_NE);
-                if (i == 0) {
-                    goto do_setcond_low;
-                } else if (i > 0) {
-                    goto do_setcond_const;
-                }
-            }
-            break;
-
         default:
             break;
 
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
         CASE_OP_32_64(shr):
             done = fold_shift(&ctx, op);
             break;
+        case INDEX_op_setcond2_i32:
+            done = fold_setcond2(&ctx, op);
+            break;
         CASE_OP_32_64_VEC(sub):
             done = fold_sub(&ctx, op);
             break;
-- 
2.25.1

Reduce some code duplication by folding the NE and EQ cases.

Reviewed-by: Luis Pires <luis.pires@eldorado.org.br>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/optimize.c | 159 +++++++++++++++++++++++++------------------------
 1 file changed, 81 insertions(+), 78 deletions(-)

diff --git a/tcg/optimize.c b/tcg/optimize.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/optimize.c
+++ b/tcg/optimize.c
@@ -XXX,XX +XXX,XX @@ static bool fold_andc(OptContext *ctx, TCGOp *op)
     return fold_const2(ctx, op);
 }
 
+static bool fold_brcond2(OptContext *ctx, TCGOp *op)
+{
+    TCGCond cond = op->args[4];
+    int i = do_constant_folding_cond2(&op->args[0], &op->args[2], cond);
+    TCGArg label = op->args[5];
+    int inv = 0;
+
+    if (i >= 0) {
+        goto do_brcond_const;
+    }
+
+    switch (cond) {
+    case TCG_COND_LT:
+    case TCG_COND_GE:
+        /*
+         * Simplify LT/GE comparisons vs zero to a single compare
+         * vs the high word of the input.
+         */
+        if (arg_is_const(op->args[2]) && arg_info(op->args[2])->val == 0 &&
+            arg_is_const(op->args[3]) && arg_info(op->args[3])->val == 0) {
+            goto do_brcond_high;
+        }
+        break;
+
+    case TCG_COND_NE:
+        inv = 1;
+        QEMU_FALLTHROUGH;
+    case TCG_COND_EQ:
+        /*
+         * Simplify EQ/NE comparisons where one of the pairs
+         * can be simplified.
+         */
+        i = do_constant_folding_cond(INDEX_op_brcond_i32, op->args[0],
+                                     op->args[2], cond);
+        switch (i ^ inv) {
+        case 0:
+            goto do_brcond_const;
+        case 1:
+            goto do_brcond_high;
+        }
+
+        i = do_constant_folding_cond(INDEX_op_brcond_i32, op->args[1],
+                                     op->args[3], cond);
+        switch (i ^ inv) {
+        case 0:
+            goto do_brcond_const;
+        case 1:
+            op->opc = INDEX_op_brcond_i32;
+            op->args[1] = op->args[2];
+            op->args[2] = cond;
+            op->args[3] = label;
+            break;
+        }
+        break;
+
+    default:
+        break;
+
+    do_brcond_high:
+        op->opc = INDEX_op_brcond_i32;
+        op->args[0] = op->args[1];
+        op->args[1] = op->args[3];
+        op->args[2] = cond;
+        op->args[3] = label;
+        break;
+
+    do_brcond_const:
+        if (i == 0) {
+            tcg_op_remove(ctx->tcg, op);
+            return true;
+        }
+        op->opc = INDEX_op_br;
+        op->args[0] = label;
+        break;
+    }
+    return false;
+}
+
 static bool fold_call(OptContext *ctx, TCGOp *op)
 {
     TCGContext *s = ctx->tcg;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
             }
             break;
 
-        case INDEX_op_brcond2_i32:
-            i = do_constant_folding_cond2(&op->args[0], &op->args[2],
-                                          op->args[4]);
-            if (i == 0) {
-            do_brcond_false:
-                tcg_op_remove(s, op);
-                continue;
-            }
-            if (i > 0) {
-            do_brcond_true:
-                op->opc = opc = INDEX_op_br;
-                op->args[0] = op->args[5];
-                break;
-            }
-            if ((op->args[4] == TCG_COND_LT || op->args[4] == TCG_COND_GE)
-                 && arg_is_const(op->args[2])
-                 && arg_info(op->args[2])->val == 0
-                 && arg_is_const(op->args[3])
-                 && arg_info(op->args[3])->val == 0) {
-                /* Simplify LT/GE comparisons vs zero to a single compare
-                   vs the high word of the input.  */
-            do_brcond_high:
-                op->opc = opc = INDEX_op_brcond_i32;
-                op->args[0] = op->args[1];
-                op->args[1] = op->args[3];
-                op->args[2] = op->args[4];
-                op->args[3] = op->args[5];
-                break;
-            }
-            if (op->args[4] == TCG_COND_EQ) {
-                /* Simplify EQ comparisons where one of the pairs
-                   can be simplified.  */
-                i = do_constant_folding_cond(INDEX_op_brcond_i32,
-                                             op->args[0], op->args[2],
-                                             TCG_COND_EQ);
-                if (i == 0) {
-                    goto do_brcond_false;
-                } else if (i > 0) {
-                    goto do_brcond_high;
-                }
-                i = do_constant_folding_cond(INDEX_op_brcond_i32,
-                                             op->args[1], op->args[3],
-                                             TCG_COND_EQ);
-                if (i == 0) {
-                    goto do_brcond_false;
-                } else if (i < 0) {
-                    break;
-                }
-            do_brcond_low:
-                memset(&ctx.temps_used, 0, sizeof(ctx.temps_used));
-                op->opc = INDEX_op_brcond_i32;
-                op->args[1] = op->args[2];
-                op->args[2] = op->args[4];
-                op->args[3] = op->args[5];
-                break;
-            }
-            if (op->args[4] == TCG_COND_NE) {
-                /* Simplify NE comparisons where one of the pairs
-                   can be simplified.  */
-                i = do_constant_folding_cond(INDEX_op_brcond_i32,
-                                             op->args[0], op->args[2],
-                                             TCG_COND_NE);
-                if (i == 0) {
-                    goto do_brcond_high;
-                } else if (i > 0) {
-                    goto do_brcond_true;
-                }
-                i = do_constant_folding_cond(INDEX_op_brcond_i32,
-                                             op->args[1], op->args[3],
-                                             TCG_COND_NE);
-                if (i == 0) {
-                    goto do_brcond_low;
-                } else if (i > 0) {
-                    goto do_brcond_true;
-                }
-            }
-            break;
-
         default:
             break;
 
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
         CASE_OP_32_64_VEC(andc):
             done = fold_andc(&ctx, op);
             break;
+        case INDEX_op_brcond2_i32:
+            done = fold_brcond2(&ctx, op);
+            break;
         CASE_OP_32_64(ctpop):
             done = fold_ctpop(&ctx, op);
             break;
-- 
2.25.1

Reviewed-by: Luis Pires <luis.pires@eldorado.org.br>
Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/optimize.c | 33 +++++++++++++++++++--------------
 1 file changed, 19 insertions(+), 14 deletions(-)

Reviewed-by: Luis Pires <luis.pires@eldorado.org.br>
Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/optimize.c | 23 ++++++++++++++---------
 1 file changed, 14 insertions(+), 9 deletions(-)

Reviewed-by: Luis Pires <luis.pires@eldorado.org.br>
Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/optimize.c | 37 +++++++++++++++++++++----------------
 1 file changed, 21 insertions(+), 16 deletions(-)

diff --git a/tcg/optimize.c b/tcg/optimize.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/optimize.c
+++ b/tcg/optimize.c
@@ -XXX,XX +XXX,XX @@ static bool fold_mul_highpart(OptContext *ctx, TCGOp *op)
     return fold_const2(ctx, op);
 }
 
+static bool fold_mulu2_i32(OptContext *ctx, TCGOp *op)
+{
+    if (arg_is_const(op->args[2]) && arg_is_const(op->args[3])) {
+        uint32_t a = arg_info(op->args[2])->val;
+        uint32_t b = arg_info(op->args[3])->val;
+        uint64_t r = (uint64_t)a * b;
+        TCGArg rl, rh;
+        TCGOp *op2 = tcg_op_insert_before(ctx->tcg, op, INDEX_op_mov_i32);
+
+        rl = op->args[0];
+        rh = op->args[1];
+        tcg_opt_gen_movi(ctx, op, rl, (int32_t)r);
+        tcg_opt_gen_movi(ctx, op2, rh, (int32_t)(r >> 32));
+        return true;
+    }
+    return false;
+}
+
 static bool fold_nand(OptContext *ctx, TCGOp *op)
 {
     return fold_const2(ctx, op);
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
             }
             break;
 
-        case INDEX_op_mulu2_i32:
-            if (arg_is_const(op->args[2]) && arg_is_const(op->args[3])) {
-                uint32_t a = arg_info(op->args[2])->val;
-                uint32_t b = arg_info(op->args[3])->val;
-                uint64_t r = (uint64_t)a * b;
-                TCGArg rl, rh;
-                TCGOp *op2 = tcg_op_insert_before(s, op, INDEX_op_mov_i32);
-
-                rl = op->args[0];
-                rh = op->args[1];
-                tcg_opt_gen_movi(&ctx, op, rl, (int32_t)r);
-                tcg_opt_gen_movi(&ctx, op2, rh, (int32_t)(r >> 32));
-                continue;
-            }
-            break;
-
         default:
             break;
 
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
         CASE_OP_32_64(muluh):
             done = fold_mul_highpart(&ctx, op);
             break;
+        case INDEX_op_mulu2_i32:
+            done = fold_mulu2_i32(&ctx, op);
+            break;
         CASE_OP_32_64(nand):
             done = fold_nand(&ctx, op);
             break;
-- 
2.25.1

Add two additional helpers, fold_add2_i32 and fold_sub2_i32
which will not be simple wrappers forever.

Reviewed-by: Luis Pires <luis.pires@eldorado.org.br>
Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/optimize.c | 70 +++++++++++++++++++++++++++++++-------------------
 1 file changed, 44 insertions(+), 26 deletions(-)

diff --git a/tcg/optimize.c b/tcg/optimize.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/optimize.c
+++ b/tcg/optimize.c
@@ -XXX,XX +XXX,XX @@ static bool fold_add(OptContext *ctx, TCGOp *op)
     return fold_const2(ctx, op);
 }
 
+static bool fold_addsub2_i32(OptContext *ctx, TCGOp *op, bool add)
+{
+    if (arg_is_const(op->args[2]) && arg_is_const(op->args[3]) &&
+        arg_is_const(op->args[4]) && arg_is_const(op->args[5])) {
+        uint32_t al = arg_info(op->args[2])->val;
+        uint32_t ah = arg_info(op->args[3])->val;
+        uint32_t bl = arg_info(op->args[4])->val;
+        uint32_t bh = arg_info(op->args[5])->val;
+        uint64_t a = ((uint64_t)ah << 32) | al;
+        uint64_t b = ((uint64_t)bh << 32) | bl;
+        TCGArg rl, rh;
+        TCGOp *op2 = tcg_op_insert_before(ctx->tcg, op, INDEX_op_mov_i32);
+
+        if (add) {
+            a += b;
+        } else {
+            a -= b;
+        }
+
+        rl = op->args[0];
+        rh = op->args[1];
+        tcg_opt_gen_movi(ctx, op, rl, (int32_t)a);
+        tcg_opt_gen_movi(ctx, op2, rh, (int32_t)(a >> 32));
+        return true;
+    }
+    return false;
+}
+
+static bool fold_add2_i32(OptContext *ctx, TCGOp *op)
+{
+    return fold_addsub2_i32(ctx, op, true);
+}
+
 static bool fold_and(OptContext *ctx, TCGOp *op)
 {
     return fold_const2(ctx, op);
@@ -XXX,XX +XXX,XX @@ static bool fold_sub(OptContext *ctx, TCGOp *op)
     return fold_const2(ctx, op);
 }
 
+static bool fold_sub2_i32(OptContext *ctx, TCGOp *op)
+{
+    return fold_addsub2_i32(ctx, op, false);
+}
+
 static bool fold_xor(OptContext *ctx, TCGOp *op)
 {
     return fold_const2(ctx, op);
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
             }
             break;
 
-        case INDEX_op_add2_i32:
-        case INDEX_op_sub2_i32:
-            if (arg_is_const(op->args[2]) && arg_is_const(op->args[3])
-                && arg_is_const(op->args[4]) && arg_is_const(op->args[5])) {
-                uint32_t al = arg_info(op->args[2])->val;
-                uint32_t ah = arg_info(op->args[3])->val;
-                uint32_t bl = arg_info(op->args[4])->val;
-                uint32_t bh = arg_info(op->args[5])->val;
-                uint64_t a = ((uint64_t)ah << 32) | al;
-                uint64_t b = ((uint64_t)bh << 32) | bl;
-                TCGArg rl, rh;
-                TCGOp *op2 = tcg_op_insert_before(s, op, INDEX_op_mov_i32);
-
-                if (opc == INDEX_op_add2_i32) {
-                    a += b;
-                } else {
-                    a -= b;
-                }
-
-                rl = op->args[0];
-                rh = op->args[1];
-                tcg_opt_gen_movi(&ctx, op, rl, (int32_t)a);
-                tcg_opt_gen_movi(&ctx, op2, rh, (int32_t)(a >> 32));
-                continue;
-            }
-            break;
 
         default:
             break;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
         CASE_OP_32_64_VEC(add):
             done = fold_add(&ctx, op);
             break;
+        case INDEX_op_add2_i32:
+            done = fold_add2_i32(&ctx, op);
+            break;
         CASE_OP_32_64_VEC(and):
             done = fold_and(&ctx, op);
             break;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
         CASE_OP_32_64_VEC(sub):
             done = fold_sub(&ctx, op);
             break;
+        case INDEX_op_sub2_i32:
+            done = fold_sub2_i32(&ctx, op);
+            break;
         CASE_OP_32_64_VEC(xor):
             done = fold_xor(&ctx, op);
             break;
-- 
2.25.1

Reviewed-by: Luis Pires <luis.pires@eldorado.org.br>
Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/optimize.c | 56 ++++++++++++++++++++++++++++----------------------
 1 file changed, 31 insertions(+), 25 deletions(-)

diff --git a/tcg/optimize.c b/tcg/optimize.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/optimize.c
+++ b/tcg/optimize.c
@@ -XXX,XX +XXX,XX @@ static bool fold_mb(OptContext *ctx, TCGOp *op)
     return true;
 }
 
+static bool fold_movcond(OptContext *ctx, TCGOp *op)
+{
+    TCGOpcode opc = op->opc;
+    TCGCond cond = op->args[5];
+    int i = do_constant_folding_cond(opc, op->args[1], op->args[2], cond);
+
+    if (i >= 0) {
+        return tcg_opt_gen_mov(ctx, op, op->args[0], op->args[4 - i]);
+    }
+
+    if (arg_is_const(op->args[3]) && arg_is_const(op->args[4])) {
+        uint64_t tv = arg_info(op->args[3])->val;
+        uint64_t fv = arg_info(op->args[4])->val;
+
+        opc = (opc == INDEX_op_movcond_i32
+               ? INDEX_op_setcond_i32 : INDEX_op_setcond_i64);
+
+        if (tv == 1 && fv == 0) {
+            op->opc = opc;
+            op->args[3] = cond;
+        } else if (fv == 1 && tv == 0) {
+            op->opc = opc;
+            op->args[3] = tcg_invert_cond(cond);
+        }
+    }
+    return false;
+}
+
 static bool fold_mul(OptContext *ctx, TCGOp *op)
 {
     return fold_const2(ctx, op);
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
             }
             break;
 
-        CASE_OP_32_64(movcond):
-            i = do_constant_folding_cond(opc, op->args[1],
-                                         op->args[2], op->args[5]);
-            if (i >= 0) {
-                tcg_opt_gen_mov(&ctx, op, op->args[0], op->args[4 - i]);
-                continue;
-            }
-            if (arg_is_const(op->args[3]) && arg_is_const(op->args[4])) {
-                uint64_t tv = arg_info(op->args[3])->val;
-                uint64_t fv = arg_info(op->args[4])->val;
-                TCGCond cond = op->args[5];
-
-                if (fv == 1 && tv == 0) {
-                    cond = tcg_invert_cond(cond);
-                } else if (!(tv == 1 && fv == 0)) {
-                    break;
-                }
-                op->args[3] = cond;
-                op->opc = opc = (opc == INDEX_op_movcond_i32
-                                 ? INDEX_op_setcond_i32
-                                 : INDEX_op_setcond_i64);
-            }
-            break;
-
-
         default:
             break;
 
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
         case INDEX_op_mb:
             done = fold_mb(&ctx, op);
             break;
+        CASE_OP_32_64(movcond):
+            done = fold_movcond(&ctx, op);
+            break;
         CASE_OP_32_64(mul):
             done = fold_mul(&ctx, op);
             break;
-- 
2.25.1

Reviewed-by: Luis Pires <luis.pires@eldorado.org.br>
Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/optimize.c | 39 ++++++++++++++++++++++-----------------
 1 file changed, 22 insertions(+), 17 deletions(-)

diff --git a/tcg/optimize.c b/tcg/optimize.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/optimize.c
+++ b/tcg/optimize.c
@@ -XXX,XX +XXX,XX @@ static bool fold_eqv(OptContext *ctx, TCGOp *op)
     return fold_const2(ctx, op);
 }
 
+static bool fold_extract2(OptContext *ctx, TCGOp *op)
+{
+    if (arg_is_const(op->args[1]) && arg_is_const(op->args[2])) {
+        uint64_t v1 = arg_info(op->args[1])->val;
+        uint64_t v2 = arg_info(op->args[2])->val;
+        int shr = op->args[3];
+
+        if (op->opc == INDEX_op_extract2_i64) {
+            v1 >>= shr;
+            v2 <<= 64 - shr;
+        } else {
+            v1 = (uint32_t)v1 >> shr;
+            v2 = (int32_t)v2 << (32 - shr);
+        }
+        return tcg_opt_gen_movi(ctx, op, op->args[0], v1 | v2);
+    }
+    return false;
+}
+
 static bool fold_exts(OptContext *ctx, TCGOp *op)
 {
     return fold_const1(ctx, op);
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
             }
             break;
 
-        CASE_OP_32_64(extract2):
-            if (arg_is_const(op->args[1]) && arg_is_const(op->args[2])) {
-                uint64_t v1 = arg_info(op->args[1])->val;
-                uint64_t v2 = arg_info(op->args[2])->val;
-                int shr = op->args[3];
-
-                if (opc == INDEX_op_extract2_i64) {
-                    tmp = (v1 >> shr) | (v2 << (64 - shr));
-                } else {
-                    tmp = (int32_t)(((uint32_t)v1 >> shr) |
-                                    ((uint32_t)v2 << (32 - shr)));
-                }
-                tcg_opt_gen_movi(&ctx, op, op->args[0], tmp);
-                continue;
-            }
-            break;
-
         default:
             break;
 
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
         CASE_OP_32_64(eqv):
             done = fold_eqv(&ctx, op);
             break;
+        CASE_OP_32_64(extract2):
+            done = fold_extract2(&ctx, op);
+            break;
         CASE_OP_32_64(ext8s):
         CASE_OP_32_64(ext16s):
         case INDEX_op_ext32s_i64:
-- 
2.25.1

Reviewed-by: Luis Pires <luis.pires@eldorado.org.br>
Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/optimize.c | 48 ++++++++++++++++++++++++++++++------------------
 1 file changed, 30 insertions(+), 18 deletions(-)

diff --git a/tcg/optimize.c b/tcg/optimize.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/optimize.c
+++ b/tcg/optimize.c
@@ -XXX,XX +XXX,XX @@ static bool fold_eqv(OptContext *ctx, TCGOp *op)
     return fold_const2(ctx, op);
 }
 
+static bool fold_extract(OptContext *ctx, TCGOp *op)
+{
+    if (arg_is_const(op->args[1])) {
+        uint64_t t;
+
+        t = arg_info(op->args[1])->val;
+        t = extract64(t, op->args[2], op->args[3]);
+        return tcg_opt_gen_movi(ctx, op, op->args[0], t);
+    }
+    return false;
+}
+
 static bool fold_extract2(OptContext *ctx, TCGOp *op)
 {
     if (arg_is_const(op->args[1]) && arg_is_const(op->args[2])) {
@@ -XXX,XX +XXX,XX @@ static bool fold_setcond2(OptContext *ctx, TCGOp *op)
     return tcg_opt_gen_movi(ctx, op, op->args[0], i);
 }
 
+static bool fold_sextract(OptContext *ctx, TCGOp *op)
+{
+    if (arg_is_const(op->args[1])) {
+        uint64_t t;
+
+        t = arg_info(op->args[1])->val;
+        t = sextract64(t, op->args[2], op->args[3]);
+        return tcg_opt_gen_movi(ctx, op, op->args[0], t);
+    }
+    return false;
+}
+
 static bool fold_shift(OptContext *ctx, TCGOp *op)
 {
     return fold_const2(ctx, op);
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
             }
             break;
 
-        CASE_OP_32_64(extract):
-            if (arg_is_const(op->args[1])) {
-                tmp = extract64(arg_info(op->args[1])->val,
-                                op->args[2], op->args[3]);
-                tcg_opt_gen_movi(&ctx, op, op->args[0], tmp);
-                continue;
-            }
-            break;
-
-        CASE_OP_32_64(sextract):
-            if (arg_is_const(op->args[1])) {
-                tmp = sextract64(arg_info(op->args[1])->val,
-                                 op->args[2], op->args[3]);
-                tcg_opt_gen_movi(&ctx, op, op->args[0], tmp);
-                continue;
-            }
-            break;
-
         default:
             break;
 
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
         CASE_OP_32_64(eqv):
             done = fold_eqv(&ctx, op);
             break;
+        CASE_OP_32_64(extract):
+            done = fold_extract(&ctx, op);
+            break;
         CASE_OP_32_64(extract2):
             done = fold_extract2(&ctx, op);
             break;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
         case INDEX_op_setcond2_i32:
             done = fold_setcond2(&ctx, op);
             break;
+        CASE_OP_32_64(sextract):
+            done = fold_sextract(&ctx, op);
+            break;
         CASE_OP_32_64_VEC(sub):
             done = fold_sub(&ctx, op);
             break;
-- 
2.25.1

Reviewed-by: Luis Pires <luis.pires@eldorado.org.br>
Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/optimize.c | 25 +++++++++++++++----------
 1 file changed, 15 insertions(+), 10 deletions(-)

diff --git a/tcg/optimize.c b/tcg/optimize.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/optimize.c
+++ b/tcg/optimize.c
@@ -XXX,XX +XXX,XX @@ static bool fold_ctpop(OptContext *ctx, TCGOp *op)
     return fold_const1(ctx, op);
 }
 
+static bool fold_deposit(OptContext *ctx, TCGOp *op)
+{
+    if (arg_is_const(op->args[1]) && arg_is_const(op->args[2])) {
+        uint64_t t1 = arg_info(op->args[1])->val;
+        uint64_t t2 = arg_info(op->args[2])->val;
+
+        t1 = deposit64(t1, op->args[3], op->args[4], t2);
+        return tcg_opt_gen_movi(ctx, op, op->args[0], t1);
+    }
+    return false;
+}
+
 static bool fold_divide(OptContext *ctx, TCGOp *op)
 {
     return fold_const2(ctx, op);
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
             }
             break;
 
-        CASE_OP_32_64(deposit):
-            if (arg_is_const(op->args[1]) && arg_is_const(op->args[2])) {
-                tmp = deposit64(arg_info(op->args[1])->val,
-                                op->args[3], op->args[4],
-                                arg_info(op->args[2])->val);
-                tcg_opt_gen_movi(&ctx, op, op->args[0], tmp);
-                continue;
-            }
-            break;
-
         default:
             break;
 
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
         CASE_OP_32_64(ctpop):
             done = fold_ctpop(&ctx, op);
             break;
+        CASE_OP_32_64(deposit):
+            done = fold_deposit(&ctx, op);
+            break;
         CASE_OP_32_64(div):
         CASE_OP_32_64(divu):
             done = fold_divide(&ctx, op);
-- 
2.25.1

Reviewed-by: Luis Pires <luis.pires@eldorado.org.br>
Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/optimize.c | 32 ++++++++++++++++++--------------
 1 file changed, 18 insertions(+), 14 deletions(-)

Reviewed-by: Luis Pires <luis.pires@eldorado.org.br>
Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/optimize.c | 27 ++++++++++++++++-----------
 1 file changed, 16 insertions(+), 11 deletions(-)

diff --git a/tcg/optimize.c b/tcg/optimize.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/optimize.c
+++ b/tcg/optimize.c
@@ -XXX,XX +XXX,XX @@ static bool fold_brcond2(OptContext *ctx, TCGOp *op)
     return false;
 }
 
+static bool fold_bswap(OptContext *ctx, TCGOp *op)
+{
+    if (arg_is_const(op->args[1])) {
+        uint64_t t = arg_info(op->args[1])->val;
+
+        t = do_constant_folding(op->opc, t, op->args[2]);
+        return tcg_opt_gen_movi(ctx, op, op->args[0], t);
+    }
+    return false;
+}
+
 static bool fold_call(OptContext *ctx, TCGOp *op)
 {
     TCGContext *s = ctx->tcg;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
             }
             break;
 
-        CASE_OP_32_64(bswap16):
-        CASE_OP_32_64(bswap32):
-        case INDEX_op_bswap64_i64:
-            if (arg_is_const(op->args[1])) {
-                tmp = do_constant_folding(opc, arg_info(op->args[1])->val,
-                                          op->args[2]);
-                tcg_opt_gen_movi(&ctx, op, op->args[0], tmp);
-                continue;
-            }
-            break;
-
         default:
             break;
 
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
         case INDEX_op_brcond2_i32:
             done = fold_brcond2(&ctx, op);
             break;
+        CASE_OP_32_64(bswap16):
+        CASE_OP_32_64(bswap32):
+        case INDEX_op_bswap64_i64:
+            done = fold_bswap(&ctx, op);
+            break;
         CASE_OP_32_64(clz):
         CASE_OP_32_64(ctz):
             done = fold_count_zeros(&ctx, op);
-- 
2.25.1

Reviewed-by: Luis Pires <luis.pires@eldorado.org.br>
Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/optimize.c | 53 +++++++++++++++++++++++++++++---------------------
 1 file changed, 31 insertions(+), 22 deletions(-)

diff --git a/tcg/optimize.c b/tcg/optimize.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/optimize.c
+++ b/tcg/optimize.c
@@ -XXX,XX +XXX,XX @@ static bool fold_divide(OptContext *ctx, TCGOp *op)
     return fold_const2(ctx, op);
 }
 
+static bool fold_dup(OptContext *ctx, TCGOp *op)
+{
+    if (arg_is_const(op->args[1])) {
+        uint64_t t = arg_info(op->args[1])->val;
+        t = dup_const(TCGOP_VECE(op), t);
+        return tcg_opt_gen_movi(ctx, op, op->args[0], t);
+    }
+    return false;
+}
+
+static bool fold_dup2(OptContext *ctx, TCGOp *op)
+{
+    if (arg_is_const(op->args[1]) && arg_is_const(op->args[2])) {
+        uint64_t t = deposit64(arg_info(op->args[1])->val, 32, 32,
+                               arg_info(op->args[2])->val);
+        return tcg_opt_gen_movi(ctx, op, op->args[0], t);
+    }
+
+    if (args_are_copies(op->args[1], op->args[2])) {
+        op->opc = INDEX_op_dup_vec;
+        TCGOP_VECE(op) = MO_32;
+    }
+    return false;
+}
+
 static bool fold_eqv(OptContext *ctx, TCGOp *op)
 {
     return fold_const2(ctx, op);
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
             done = tcg_opt_gen_mov(&ctx, op, op->args[0], op->args[1]);
             break;
 
-        case INDEX_op_dup_vec:
-            if (arg_is_const(op->args[1])) {
-                tmp = arg_info(op->args[1])->val;
-                tmp = dup_const(TCGOP_VECE(op), tmp);
-                tcg_opt_gen_movi(&ctx, op, op->args[0], tmp);
-                continue;
-            }
-            break;
-
-        case INDEX_op_dup2_vec:
-            assert(TCG_TARGET_REG_BITS == 32);
-            if (arg_is_const(op->args[1]) && arg_is_const(op->args[2])) {
-                tcg_opt_gen_movi(&ctx, op, op->args[0],
-                                 deposit64(arg_info(op->args[1])->val, 32, 32,
-                                           arg_info(op->args[2])->val));
-                continue;
-            } else if (args_are_copies(op->args[1], op->args[2])) {
-                op->opc = INDEX_op_dup_vec;
-                TCGOP_VECE(op) = MO_32;
-            }
-            break;
-
         default:
             break;
 
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
         CASE_OP_32_64(divu):
             done = fold_divide(&ctx, op);
             break;
+        case INDEX_op_dup_vec:
+            done = fold_dup(&ctx, op);
+            break;
+        case INDEX_op_dup2_vec:
+            done = fold_dup2(&ctx, op);
+            break;
         CASE_OP_32_64(eqv):
             done = fold_eqv(&ctx, op);
             break;
-- 
2.25.1

This is the final entry in the main switch that was in a
different form.  After this, we have the option to convert
the switch into a function dispatch table.

Reviewed-by: Luis Pires <luis.pires@eldorado.org.br>
Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/optimize.c | 27 ++++++++++++++-------------
 1 file changed, 14 insertions(+), 13 deletions(-)

diff --git a/tcg/optimize.c b/tcg/optimize.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/optimize.c
+++ b/tcg/optimize.c
@@ -XXX,XX +XXX,XX @@ static bool fold_mb(OptContext *ctx, TCGOp *op)
     return true;
 }
 
+static bool fold_mov(OptContext *ctx, TCGOp *op)
+{
+    return tcg_opt_gen_mov(ctx, op, op->args[0], op->args[1]);
+}
+
 static bool fold_movcond(OptContext *ctx, TCGOp *op)
 {
     TCGOpcode opc = op->opc;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
             break;
         }
 
-        /* Propagate constants through copy operations and do constant
-           folding.  Constants will be substituted to arguments by register
-           allocator where needed and possible.  Also detect copies. */
+        /*
+         * Process each opcode.
+         * Sorted alphabetically by opcode as much as possible.
+         */
         switch (opc) {
-        CASE_OP_32_64_VEC(mov):
-            done = tcg_opt_gen_mov(&ctx, op, op->args[0], op->args[1]);
-            break;
-
-        default:
-            break;
-
-        /* ---------------------------------------------------------- */
-        /* Sorted alphabetically by opcode as much as possible. */
-
         CASE_OP_32_64_VEC(add):
             done = fold_add(&ctx, op);
             break;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
         case INDEX_op_mb:
             done = fold_mb(&ctx, op);
             break;
+        CASE_OP_32_64_VEC(mov):
+            done = fold_mov(&ctx, op);
+            break;
         CASE_OP_32_64(movcond):
             done = fold_movcond(&ctx, op);
             break;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
         CASE_OP_32_64_VEC(xor):
             done = fold_xor(&ctx, op);
             break;
+        default:
+            break;
         }
 
         if (!done) {
-- 
2.25.1

Pull the "op r, a, a => movi r, 0" optimization into a function,
and use it in the outer opcode fold functions.

Reviewed-by: Luis Pires <luis.pires@eldorado.org.br>
Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/optimize.c | 41 ++++++++++++++++++++++++-----------------
 1 file changed, 24 insertions(+), 17 deletions(-)

diff --git a/tcg/optimize.c b/tcg/optimize.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/optimize.c
+++ b/tcg/optimize.c
@@ -XXX,XX +XXX,XX @@ static bool fold_const2(OptContext *ctx, TCGOp *op)
     return false;
 }
 
+/* If the binary operation has both arguments equal, fold to @i. */
+static bool fold_xx_to_i(OptContext *ctx, TCGOp *op, uint64_t i)
+{
+    if (args_are_copies(op->args[1], op->args[2])) {
+        return tcg_opt_gen_movi(ctx, op, op->args[0], i);
+    }
+    return false;
+}
+
 /*
  * These outermost fold_<op> functions are sorted alphabetically.
  */
@@ -XXX,XX +XXX,XX @@ static bool fold_and(OptContext *ctx, TCGOp *op)
 
 static bool fold_andc(OptContext *ctx, TCGOp *op)
 {
-    return fold_const2(ctx, op);
+    if (fold_const2(ctx, op) ||
+        fold_xx_to_i(ctx, op, 0)) {
+        return true;
+    }
+    return false;
 }
 
 static bool fold_brcond(OptContext *ctx, TCGOp *op)
@@ -XXX,XX +XXX,XX @@ static bool fold_shift(OptContext *ctx, TCGOp *op)
 
 static bool fold_sub(OptContext *ctx, TCGOp *op)
 {
-    return fold_const2(ctx, op);
+    if (fold_const2(ctx, op) ||
+        fold_xx_to_i(ctx, op, 0)) {
+        return true;
+    }
+    return false;
 }
 
 static bool fold_sub2_i32(OptContext *ctx, TCGOp *op)
@@ -XXX,XX +XXX,XX @@ static bool fold_sub2_i32(OptContext *ctx, TCGOp *op)
 
 static bool fold_xor(OptContext *ctx, TCGOp *op)
 {
-    return fold_const2(ctx, op);
+    if (fold_const2(ctx, op) ||
+        fold_xx_to_i(ctx, op, 0)) {
+        return true;
+    }
+    return false;
 }
 
 /* Propagate constants and copies, fold constant expressions. */
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
             break;
         }
 
-        /* Simplify expression for "op r, a, a => movi r, 0" cases */
-        switch (opc) {
-        CASE_OP_32_64_VEC(andc):
-        CASE_OP_32_64_VEC(sub):
-        CASE_OP_32_64_VEC(xor):
-            if (args_are_copies(op->args[1], op->args[2])) {
-                tcg_opt_gen_movi(&ctx, op, op->args[0], 0);
-                continue;
-            }
-            break;
-        default:
-            break;
-        }
-
         /*
          * Process each opcode.
          * Sorted alphabetically by opcode as much as possible.
-- 
2.25.1

Pull the "op r, a, a => mov r, a" optimization into a function,
and use it in the outer opcode fold functions.

Reviewed-by: Luis Pires <luis.pires@eldorado.org.br>
Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/optimize.c | 39 ++++++++++++++++++++++++---------------
 1 file changed, 24 insertions(+), 15 deletions(-)

diff --git a/tcg/optimize.c b/tcg/optimize.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/optimize.c
+++ b/tcg/optimize.c
@@ -XXX,XX +XXX,XX @@ static bool fold_xx_to_i(OptContext *ctx, TCGOp *op, uint64_t i)
     return false;
 }
 
+/* If the binary operation has both arguments equal, fold to identity. */
+static bool fold_xx_to_x(OptContext *ctx, TCGOp *op)
+{
+    if (args_are_copies(op->args[1], op->args[2])) {
+        return tcg_opt_gen_mov(ctx, op, op->args[0], op->args[1]);
+    }
+    return false;
+}
+
 /*
  * These outermost fold_<op> functions are sorted alphabetically.
+ *
+ * The ordering of the transformations should be:
+ *   1) those that produce a constant
+ *   2) those that produce a copy
+ *   3) those that produce information about the result value.
  */
 
 static bool fold_add(OptContext *ctx, TCGOp *op)
@@ -XXX,XX +XXX,XX @@ static bool fold_add2_i32(OptContext *ctx, TCGOp *op)
 
 static bool fold_and(OptContext *ctx, TCGOp *op)
 {
-    return fold_const2(ctx, op);
+    if (fold_const2(ctx, op) ||
+        fold_xx_to_x(ctx, op)) {
+        return true;
+    }
+    return false;
 }
 
 static bool fold_andc(OptContext *ctx, TCGOp *op)
@@ -XXX,XX +XXX,XX @@ static bool fold_not(OptContext *ctx, TCGOp *op)
 
 static bool fold_or(OptContext *ctx, TCGOp *op)
 {
-    return fold_const2(ctx, op);
+    if (fold_const2(ctx, op) ||
+        fold_xx_to_x(ctx, op)) {
+        return true;
+    }
+    return false;
 }
 
 static bool fold_orc(OptContext *ctx, TCGOp *op)
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
             break;
         }
 
-        /* Simplify expression for "op r, a, a => mov r, a" cases */
-        switch (opc) {
-        CASE_OP_32_64_VEC(or):
-        CASE_OP_32_64_VEC(and):
-            if (args_are_copies(op->args[1], op->args[2])) {
-                tcg_opt_gen_mov(&ctx, op, op->args[0], op->args[1]);
-                continue;
-            }
-            break;
-        default:
-            break;
-        }
-
         /*
          * Process each opcode.
          * Sorted alphabetically by opcode as much as possible.
-- 
2.25.1

Pull the "op r, a, 0 => movi r, 0" optimization into a function,
and use it in the outer opcode fold functions.

Reviewed-by: Luis Pires <luis.pires@eldorado.org.br>
Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/optimize.c | 38 ++++++++++++++++++++------------------
 1 file changed, 20 insertions(+), 18 deletions(-)

diff --git a/tcg/optimize.c b/tcg/optimize.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/optimize.c
+++ b/tcg/optimize.c
@@ -XXX,XX +XXX,XX @@ static bool fold_const2(OptContext *ctx, TCGOp *op)
     return false;
 }
 
+/* If the binary operation has second argument @i, fold to @i. */
+static bool fold_xi_to_i(OptContext *ctx, TCGOp *op, uint64_t i)
+{
+    if (arg_is_const(op->args[2]) && arg_info(op->args[2])->val == i) {
+        return tcg_opt_gen_movi(ctx, op, op->args[0], i);
+    }
+    return false;
+}
+
 /* If the binary operation has both arguments equal, fold to @i. */
 static bool fold_xx_to_i(OptContext *ctx, TCGOp *op, uint64_t i)
 {
@@ -XXX,XX +XXX,XX @@ static bool fold_add2_i32(OptContext *ctx, TCGOp *op)
 static bool fold_and(OptContext *ctx, TCGOp *op)
 {
     if (fold_const2(ctx, op) ||
+        fold_xi_to_i(ctx, op, 0) ||
         fold_xx_to_x(ctx, op)) {
         return true;
     }
@@ -XXX,XX +XXX,XX @@ static bool fold_movcond(OptContext *ctx, TCGOp *op)
 
 static bool fold_mul(OptContext *ctx, TCGOp *op)
 {
-    return fold_const2(ctx, op);
+    if (fold_const2(ctx, op) ||
+        fold_xi_to_i(ctx, op, 0)) {
+        return true;
+    }
+    return false;
 }
 
 static bool fold_mul_highpart(OptContext *ctx, TCGOp *op)
 {
-    return fold_const2(ctx, op);
+    if (fold_const2(ctx, op) ||
+        fold_xi_to_i(ctx, op, 0)) {
+        return true;
+    }
+    return false;
 }
 
 static bool fold_mulu2_i32(OptContext *ctx, TCGOp *op)
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
             continue;
         }
 
-        /* Simplify expression for "op r, a, 0 => movi r, 0" cases */
-        switch (opc) {
-        CASE_OP_32_64_VEC(and):
-        CASE_OP_32_64_VEC(mul):
-        CASE_OP_32_64(muluh):
-        CASE_OP_32_64(mulsh):
-            if (arg_is_const(op->args[2])
-                && arg_info(op->args[2])->val == 0) {
-                tcg_opt_gen_movi(&ctx, op, op->args[0], 0);
-                continue;
-            }
-            break;
-        default:
-            break;
-        }
-
         /*
          * Process each opcode.
          * Sorted alphabetically by opcode as much as possible.
-- 
2.25.1

Compute the type of the operation early.

There are at least 4 places that used a def->flags ladder
to determine the type of the operation being optimized.

There were two places that assumed !TCG_OPF_64BIT means
TCG_TYPE_I32, and so could potentially compute incorrect
results for vector operations.

Reviewed-by: Luis Pires <luis.pires@eldorado.org.br>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/optimize.c | 149 +++++++++++++++++++++++++++++--------------------
 1 file changed, 89 insertions(+), 60 deletions(-)

diff --git a/tcg/optimize.c b/tcg/optimize.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/optimize.c
+++ b/tcg/optimize.c
@@ -XXX,XX +XXX,XX @@ typedef struct OptContext {
 
     /* In flight values from optimization. */
     uint64_t z_mask;
+    TCGType type;
 } OptContext;
 
 static inline TempOptInfo *ts_info(TCGTemp *ts)
@@ -XXX,XX +XXX,XX @@ static bool tcg_opt_gen_mov(OptContext *ctx, TCGOp *op, TCGArg dst, TCGArg src)
 {
     TCGTemp *dst_ts = arg_temp(dst);
     TCGTemp *src_ts = arg_temp(src);
-    const TCGOpDef *def;
     TempOptInfo *di;
     TempOptInfo *si;
     uint64_t z_mask;
@@ -XXX,XX +XXX,XX @@ static bool tcg_opt_gen_mov(OptContext *ctx, TCGOp *op, TCGArg dst, TCGArg src)
     reset_ts(dst_ts);
     di = ts_info(dst_ts);
     si = ts_info(src_ts);
-    def = &tcg_op_defs[op->opc];
-    if (def->flags & TCG_OPF_VECTOR) {
-        new_op = INDEX_op_mov_vec;
-    } else if (def->flags & TCG_OPF_64BIT) {
-        new_op = INDEX_op_mov_i64;
-    } else {
+
+    switch (ctx->type) {
+    case TCG_TYPE_I32:
         new_op = INDEX_op_mov_i32;
+        break;
+    case TCG_TYPE_I64:
+        new_op = INDEX_op_mov_i64;
+        break;
+    case TCG_TYPE_V64:
+    case TCG_TYPE_V128:
+    case TCG_TYPE_V256:
+        /* TCGOP_VECL and TCGOP_VECE remain unchanged.  */
+        new_op = INDEX_op_mov_vec;
+        break;
+    default:
+        g_assert_not_reached();
     }
     op->opc = new_op;
-    /* TCGOP_VECL and TCGOP_VECE remain unchanged.  */
     op->args[0] = dst;
     op->args[1] = src;
 
@@ -XXX,XX +XXX,XX @@ static bool tcg_opt_gen_mov(OptContext *ctx, TCGOp *op, TCGArg dst, TCGArg src)
 static bool tcg_opt_gen_movi(OptContext *ctx, TCGOp *op,
                              TCGArg dst, uint64_t val)
 {
-    const TCGOpDef *def = &tcg_op_defs[op->opc];
-    TCGType type;
-    TCGTemp *tv;
-
-    if (def->flags & TCG_OPF_VECTOR) {
-        type = TCGOP_VECL(op) + TCG_TYPE_V64;
-    } else if (def->flags & TCG_OPF_64BIT) {
-        type = TCG_TYPE_I64;
-    } else {
-        type = TCG_TYPE_I32;
-    }
-
     /* Convert movi to mov with constant temp. */
-    tv = tcg_constant_internal(type, val);
+    TCGTemp *tv = tcg_constant_internal(ctx->type, val);
+
     init_ts_info(ctx, tv);
     return tcg_opt_gen_mov(ctx, op, dst, temp_arg(tv));
 }
@@ -XXX,XX +XXX,XX @@ static uint64_t do_constant_folding_2(TCGOpcode op, uint64_t x, uint64_t y)
     }
 }
 
-static uint64_t do_constant_folding(TCGOpcode op, uint64_t x, uint64_t y)
+static uint64_t do_constant_folding(TCGOpcode op, TCGType type,
+                                    uint64_t x, uint64_t y)
 {
-    const TCGOpDef *def = &tcg_op_defs[op];
     uint64_t res = do_constant_folding_2(op, x, y);
-    if (!(def->flags & TCG_OPF_64BIT)) {
+    if (type == TCG_TYPE_I32) {
         res = (int32_t)res;
     }
     return res;
@@ -XXX,XX +XXX,XX @@ static bool do_constant_folding_cond_eq(TCGCond c)
  * Return -1 if the condition can't be simplified,
  * and the result of the condition (0 or 1) if it can.
  */
-static int do_constant_folding_cond(TCGOpcode op, TCGArg x,
+static int do_constant_folding_cond(TCGType type, TCGArg x,
                                     TCGArg y, TCGCond c)
 {
     uint64_t xv = arg_info(x)->val;
     uint64_t yv = arg_info(y)->val;
 
     if (arg_is_const(x) && arg_is_const(y)) {
-        const TCGOpDef *def = &tcg_op_defs[op];
-        tcg_debug_assert(!(def->flags & TCG_OPF_VECTOR));
-        if (def->flags & TCG_OPF_64BIT) {
-            return do_constant_folding_cond_64(xv, yv, c);
-        } else {
+        switch (type) {
+        case TCG_TYPE_I32:
             return do_constant_folding_cond_32(xv, yv, c);
+        case TCG_TYPE_I64:
+            return do_constant_folding_cond_64(xv, yv, c);
+        default:
+            /* Only scalar comparisons are optimizable */
+            return -1;
         }
     } else if (args_are_copies(x, y)) {
         return do_constant_folding_cond_eq(c);
@@ -XXX,XX +XXX,XX @@ static bool fold_const1(OptContext *ctx, TCGOp *op)
         uint64_t t;
 
         t = arg_info(op->args[1])->val;
-        t = do_constant_folding(op->opc, t, 0);
+        t = do_constant_folding(op->opc, ctx->type, t, 0);
         return tcg_opt_gen_movi(ctx, op, op->args[0], t);
     }
     return false;
@@ -XXX,XX +XXX,XX @@ static bool fold_const2(OptContext *ctx, TCGOp *op)
         uint64_t t1 = arg_info(op->args[1])->val;
         uint64_t t2 = arg_info(op->args[2])->val;
 
-        t1 = do_constant_folding(op->opc, t1, t2);
+        t1 = do_constant_folding(op->opc, ctx->type, t1, t2);
         return tcg_opt_gen_movi(ctx, op, op->args[0], t1);
     }
     return false;
@@ -XXX,XX +XXX,XX @@ static bool fold_andc(OptContext *ctx, TCGOp *op)
 static bool fold_brcond(OptContext *ctx, TCGOp *op)
 {
     TCGCond cond = op->args[2];
-    int i = do_constant_folding_cond(op->opc, op->args[0], op->args[1], cond);
+    int i = do_constant_folding_cond(ctx->type, op->args[0], op->args[1], cond);
 
     if (i == 0) {
         tcg_op_remove(ctx->tcg, op);
@@ -XXX,XX +XXX,XX @@ static bool fold_brcond2(OptContext *ctx, TCGOp *op)
          * Simplify EQ/NE comparisons where one of the pairs
          * can be simplified.
          */
-        i = do_constant_folding_cond(INDEX_op_brcond_i32, op->args[0],
+        i = do_constant_folding_cond(TCG_TYPE_I32, op->args[0],
                                      op->args[2], cond);
         switch (i ^ inv) {
         case 0:
@@ -XXX,XX +XXX,XX @@ static bool fold_brcond2(OptContext *ctx, TCGOp *op)
             goto do_brcond_high;
         }
 
-        i = do_constant_folding_cond(INDEX_op_brcond_i32, op->args[1],
+        i = do_constant_folding_cond(TCG_TYPE_I32, op->args[1],
                                      op->args[3], cond);
         switch (i ^ inv) {
         case 0:
@@ -XXX,XX +XXX,XX @@ static bool fold_bswap(OptContext *ctx, TCGOp *op)
     if (arg_is_const(op->args[1])) {
         uint64_t t = arg_info(op->args[1])->val;
 
-        t = do_constant_folding(op->opc, t, op->args[2]);
+        t = do_constant_folding(op->opc, ctx->type, t, op->args[2]);
         return tcg_opt_gen_movi(ctx, op, op->args[0], t);
     }
     return false;
@@ -XXX,XX +XXX,XX @@ static bool fold_count_zeros(OptContext *ctx, TCGOp *op)
         uint64_t t = arg_info(op->args[1])->val;
 
         if (t != 0) {
-            t = do_constant_folding(op->opc, t, 0);
+            t = do_constant_folding(op->opc, ctx->type, t, 0);
             return tcg_opt_gen_movi(ctx, op, op->args[0], t);
         }
         return tcg_opt_gen_mov(ctx, op, op->args[0], op->args[2]);
@@ -XXX,XX +XXX,XX @@ static bool fold_mov(OptContext *ctx, TCGOp *op)
 
 static bool fold_movcond(OptContext *ctx, TCGOp *op)
 {
-    TCGOpcode opc = op->opc;
     TCGCond cond = op->args[5];
-    int i = do_constant_folding_cond(opc, op->args[1], op->args[2], cond);
+    int i = do_constant_folding_cond(ctx->type, op->args[1], op->args[2], cond);
 
     if (i >= 0) {
         return tcg_opt_gen_mov(ctx, op, op->args[0], op->args[4 - i]);
@@ -XXX,XX +XXX,XX @@ static bool fold_movcond(OptContext *ctx, TCGOp *op)
     if (arg_is_const(op->args[3]) && arg_is_const(op->args[4])) {
         uint64_t tv = arg_info(op->args[3])->val;
         uint64_t fv = arg_info(op->args[4])->val;
+        TCGOpcode opc;
 
-        opc = (opc == INDEX_op_movcond_i32
-               ? INDEX_op_setcond_i32 : INDEX_op_setcond_i64);
+        switch (ctx->type) {
+        case TCG_TYPE_I32:
+            opc = INDEX_op_setcond_i32;
+            break;
+        case TCG_TYPE_I64:
+            opc = INDEX_op_setcond_i64;
+            break;
+        default:
+            g_assert_not_reached();
+        }
 
         if (tv == 1 && fv == 0) {
             op->opc = opc;
@@ -XXX,XX +XXX,XX @@ static bool fold_remainder(OptContext *ctx, TCGOp *op)
 static bool fold_setcond(OptContext *ctx, TCGOp *op)
 {
     TCGCond cond = op->args[3];
-    int i = do_constant_folding_cond(op->opc, op->args[1], op->args[2], cond);
+    int i = do_constant_folding_cond(ctx->type, op->args[1], op->args[2], cond);
 
     if (i >= 0) {
         return tcg_opt_gen_movi(ctx, op, op->args[0], i);
@@ -XXX,XX +XXX,XX @@ static bool fold_setcond2(OptContext *ctx, TCGOp *op)
          * Simplify EQ/NE comparisons where one of the pairs
          * can be simplified.
          */
-        i = do_constant_folding_cond(INDEX_op_setcond_i32, op->args[1],
+        i = do_constant_folding_cond(TCG_TYPE_I32, op->args[1],
                                      op->args[3], cond);
         switch (i ^ inv) {
         case 0:
@@ -XXX,XX +XXX,XX @@ static bool fold_setcond2(OptContext *ctx, TCGOp *op)
             goto do_setcond_high;
         }
 
-        i = do_constant_folding_cond(INDEX_op_setcond_i32, op->args[2],
+        i = do_constant_folding_cond(TCG_TYPE_I32, op->args[2],
                                      op->args[4], cond);
         switch (i ^ inv) {
         case 0:
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
         init_arguments(&ctx, op, def->nb_oargs + def->nb_iargs);
         copy_propagate(&ctx, op, def->nb_oargs, def->nb_iargs);
 
+        /* Pre-compute the type of the operation. */
+        if (def->flags & TCG_OPF_VECTOR) {
+            ctx.type = TCG_TYPE_V64 + TCGOP_VECL(op);
+        } else if (def->flags & TCG_OPF_64BIT) {
+            ctx.type = TCG_TYPE_I64;
+        } else {
+            ctx.type = TCG_TYPE_I32;
+        }
+
         /* For commutative operations make constant second argument */
         switch (opc) {
         CASE_OP_32_64_VEC(add):
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
                     /* Proceed with possible constant folding. */
                     break;
                 }
-                if (opc == INDEX_op_sub_i32) {
+                switch (ctx.type) {
+                case TCG_TYPE_I32:
                     neg_op = INDEX_op_neg_i32;
                     have_neg = TCG_TARGET_HAS_neg_i32;
-                } else if (opc == INDEX_op_sub_i64) {
+                    break;
+                case TCG_TYPE_I64:
                     neg_op = INDEX_op_neg_i64;
                     have_neg = TCG_TARGET_HAS_neg_i64;
-                } else if (TCG_TARGET_HAS_neg_vec) {
-                    TCGType type = TCGOP_VECL(op) + TCG_TYPE_V64;
-                    unsigned vece = TCGOP_VECE(op);
-                    neg_op = INDEX_op_neg_vec;
-                    have_neg = tcg_can_emit_vec_op(neg_op, type, vece) > 0;
-                } else {
                     break;
+                case TCG_TYPE_V64:
+                case TCG_TYPE_V128:
+                case TCG_TYPE_V256:
+                    neg_op = INDEX_op_neg_vec;
+                    have_neg = tcg_can_emit_vec_op(neg_op, ctx.type,
+                                                   TCGOP_VECE(op)) > 0;
+                    break;
+                default:
+                    g_assert_not_reached();
                 }
                 if (!have_neg) {
                     break;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
                 TCGOpcode not_op;
                 bool have_not;
 
-                if (def->flags & TCG_OPF_VECTOR) {
-                    not_op = INDEX_op_not_vec;
-                    have_not = TCG_TARGET_HAS_not_vec;
-                } else if (def->flags & TCG_OPF_64BIT) {
-                    not_op = INDEX_op_not_i64;
-                    have_not = TCG_TARGET_HAS_not_i64;
-                } else {
+                switch (ctx.type) {
+                case TCG_TYPE_I32:
                     not_op = INDEX_op_not_i32;
                     have_not = TCG_TARGET_HAS_not_i32;
+                    break;
+                case TCG_TYPE_I64:
+                    not_op = INDEX_op_not_i64;
+                    have_not = TCG_TARGET_HAS_not_i64;
+                    break;
+                case TCG_TYPE_V64:
+                case TCG_TYPE_V128:
+                case TCG_TYPE_V256:
+                    not_op = INDEX_op_not_vec;
+                    have_not = TCG_TARGET_HAS_not_vec;
+                    break;
+                default:
+                    g_assert_not_reached();
                 }
                 if (!have_not) {
                     break;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
            below, we can ignore high bits, but for further optimizations we
            need to record that the high bits contain garbage.  */
         partmask = z_mask;
-        if (!(def->flags & TCG_OPF_64BIT)) {
+        if (ctx.type == TCG_TYPE_I32) {
             z_mask |= ~(tcg_target_ulong)0xffffffffu;
             partmask &= 0xffffffffu;
             affected &= 0xffffffffu;
-- 
2.25.1

Split out the conditional conversion from a more complex logical
operation to a simple NOT.  Create a couple more helpers to make
this easy for the outer-most logical operations.

Reviewed-by: Luis Pires <luis.pires@eldorado.org.br>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/optimize.c | 158 +++++++++++++++++++++++++++----------------------
 1 file changed, 86 insertions(+), 72 deletions(-)

diff --git a/tcg/optimize.c b/tcg/optimize.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/optimize.c
+++ b/tcg/optimize.c
@@ -XXX,XX +XXX,XX @@ static bool fold_const2(OptContext *ctx, TCGOp *op)
     return false;
 }
 
+/*
+ * Convert @op to NOT, if NOT is supported by the host.
+ * Return true f the conversion is successful, which will still
+ * indicate that the processing is complete.
+ */
+static bool fold_not(OptContext *ctx, TCGOp *op);
+static bool fold_to_not(OptContext *ctx, TCGOp *op, int idx)
+{
+    TCGOpcode not_op;
+    bool have_not;
+
+    switch (ctx->type) {
+    case TCG_TYPE_I32:
+        not_op = INDEX_op_not_i32;
+        have_not = TCG_TARGET_HAS_not_i32;
+        break;
+    case TCG_TYPE_I64:
+        not_op = INDEX_op_not_i64;
+        have_not = TCG_TARGET_HAS_not_i64;
+        break;
+    case TCG_TYPE_V64:
+    case TCG_TYPE_V128:
+    case TCG_TYPE_V256:
+        not_op = INDEX_op_not_vec;
+        have_not = TCG_TARGET_HAS_not_vec;
+        break;
+    default:
+        g_assert_not_reached();
+    }
+    if (have_not) {
+        op->opc = not_op;
+        op->args[1] = op->args[idx];
+        return fold_not(ctx, op);
+    }
+    return false;
+}
+
+/* If the binary operation has first argument @i, fold to NOT. */
+static bool fold_ix_to_not(OptContext *ctx, TCGOp *op, uint64_t i)
+{
+    if (arg_is_const(op->args[1]) && arg_info(op->args[1])->val == i) {
+        return fold_to_not(ctx, op, 2);
+    }
+    return false;
+}
+
 /* If the binary operation has second argument @i, fold to @i. */
 static bool fold_xi_to_i(OptContext *ctx, TCGOp *op, uint64_t i)
 {
@@ -XXX,XX +XXX,XX @@ static bool fold_xi_to_i(OptContext *ctx, TCGOp *op, uint64_t i)
     return false;
 }
 
+/* If the binary operation has second argument @i, fold to NOT. */
+static bool fold_xi_to_not(OptContext *ctx, TCGOp *op, uint64_t i)
+{
+    if (arg_is_const(op->args[2]) && arg_info(op->args[2])->val == i) {
+        return fold_to_not(ctx, op, 1);
+    }
+    return false;
+}
+
 /* If the binary operation has both arguments equal, fold to @i. */
 static bool fold_xx_to_i(OptContext *ctx, TCGOp *op, uint64_t i)
 {
@@ -XXX,XX +XXX,XX @@ static bool fold_and(OptContext *ctx, TCGOp *op)
 static bool fold_andc(OptContext *ctx, TCGOp *op)
 {
     if (fold_const2(ctx, op) ||
-        fold_xx_to_i(ctx, op, 0)) {
+        fold_xx_to_i(ctx, op, 0) ||
+        fold_ix_to_not(ctx, op, -1)) {
         return true;
     }
     return false;
@@ -XXX,XX +XXX,XX @@ static bool fold_dup2(OptContext *ctx, TCGOp *op)
 
 static bool fold_eqv(OptContext *ctx, TCGOp *op)
 {
-    return fold_const2(ctx, op);
+    if (fold_const2(ctx, op) ||
+        fold_xi_to_not(ctx, op, 0)) {
+        return true;
+    }
+    return false;
 }
 
 static bool fold_extract(OptContext *ctx, TCGOp *op)
@@ -XXX,XX +XXX,XX @@ static bool fold_mulu2_i32(OptContext *ctx, TCGOp *op)
 
 static bool fold_nand(OptContext *ctx, TCGOp *op)
 {
-    return fold_const2(ctx, op);
+    if (fold_const2(ctx, op) ||
+        fold_xi_to_not(ctx, op, -1)) {
+        return true;
+    }
+    return false;
 }
 
 static bool fold_neg(OptContext *ctx, TCGOp *op)
@@ -XXX,XX +XXX,XX @@ static bool fold_neg(OptContext *ctx, TCGOp *op)
 
 static bool fold_nor(OptContext *ctx, TCGOp *op)
 {
-    return fold_const2(ctx, op);
+    if (fold_const2(ctx, op) ||
+        fold_xi_to_not(ctx, op, 0)) {
+        return true;
+    }
+    return false;
 }
 
 static bool fold_not(OptContext *ctx, TCGOp *op)
 {
-    return fold_const1(ctx, op);
+    if (fold_const1(ctx, op)) {
+        return true;
+    }
+
+    /* Because of fold_to_not, we want to always return true, via finish. */
+    finish_folding(ctx, op);
+    return true;
 }
 
 static bool fold_or(OptContext *ctx, TCGOp *op)
@@ -XXX,XX +XXX,XX @@ static bool fold_or(OptContext *ctx, TCGOp *op)
 
 static bool fold_orc(OptContext *ctx, TCGOp *op)
 {
-    return fold_const2(ctx, op);
+    if (fold_const2(ctx, op) ||
+        fold_ix_to_not(ctx, op, 0)) {
+        return true;
+    }
+    return false;
 }
 
 static bool fold_qemu_ld(OptContext *ctx, TCGOp *op)
@@ -XXX,XX +XXX,XX @@ static bool fold_sub2_i32(OptContext *ctx, TCGOp *op)
 static bool fold_xor(OptContext *ctx, TCGOp *op)
 {
     if (fold_const2(ctx, op) ||
-        fold_xx_to_i(ctx, op, 0)) {
+        fold_xx_to_i(ctx, op, 0) ||
+        fold_xi_to_not(ctx, op, -1)) {
         return true;
     }
     return false;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
                 }
             }
             break;
-        CASE_OP_32_64_VEC(xor):
-        CASE_OP_32_64(nand):
-            if (!arg_is_const(op->args[1])
-                && arg_is_const(op->args[2])
-                && arg_info(op->args[2])->val == -1) {
-                i = 1;
-                goto try_not;
-            }
-            break;
-        CASE_OP_32_64(nor):
-            if (!arg_is_const(op->args[1])
-                && arg_is_const(op->args[2])
-                && arg_info(op->args[2])->val == 0) {
-                i = 1;
-                goto try_not;
-            }
-            break;
-        CASE_OP_32_64_VEC(andc):
-            if (!arg_is_const(op->args[2])
-                && arg_is_const(op->args[1])
-                && arg_info(op->args[1])->val == -1) {
-                i = 2;
-                goto try_not;
-            }
-            break;
-        CASE_OP_32_64_VEC(orc):
-        CASE_OP_32_64(eqv):
-            if (!arg_is_const(op->args[2])
-                && arg_is_const(op->args[1])
-                && arg_info(op->args[1])->val == 0) {
-                i = 2;
-                goto try_not;
-            }
-            break;
-        try_not:
-            {
-                TCGOpcode not_op;
-                bool have_not;
-
-                switch (ctx.type) {
-                case TCG_TYPE_I32:
-                    not_op = INDEX_op_not_i32;
-                    have_not = TCG_TARGET_HAS_not_i32;
-                    break;
-                case TCG_TYPE_I64:
-                    not_op = INDEX_op_not_i64;
-                    have_not = TCG_TARGET_HAS_not_i64;
-                    break;
-                case TCG_TYPE_V64:
-                case TCG_TYPE_V128:
-                case TCG_TYPE_V256:
-                    not_op = INDEX_op_not_vec;
-                    have_not = TCG_TARGET_HAS_not_vec;
-                    break;
-                default:
-                    g_assert_not_reached();
-                }
-                if (!have_not) {
-                    break;
-                }
-                op->opc = not_op;
-                reset_temp(op->args[0]);
-                op->args[1] = op->args[i];
-                continue;
-            }
         default:
             break;
         }
-- 
2.25.1

Even though there is only one user, place this more complex
conversion into its own helper.

Reviewed-by: Luis Pires <luis.pires@eldorado.org.br>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/optimize.c | 89 ++++++++++++++++++++++++++------------------------
 1 file changed, 47 insertions(+), 42 deletions(-)

diff --git a/tcg/optimize.c b/tcg/optimize.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/optimize.c
+++ b/tcg/optimize.c
@@ -XXX,XX +XXX,XX @@ static bool fold_nand(OptContext *ctx, TCGOp *op)
 
 static bool fold_neg(OptContext *ctx, TCGOp *op)
 {
-    return fold_const1(ctx, op);
+    if (fold_const1(ctx, op)) {
+        return true;
+    }
+    /*
+     * Because of fold_sub_to_neg, we want to always return true,
+     * via finish_folding.
+     */
+    finish_folding(ctx, op);
+    return true;
 }
 
 static bool fold_nor(OptContext *ctx, TCGOp *op)
@@ -XXX,XX +XXX,XX @@ static bool fold_shift(OptContext *ctx, TCGOp *op)
     return fold_const2(ctx, op);
 }
 
+static bool fold_sub_to_neg(OptContext *ctx, TCGOp *op)
+{
+    TCGOpcode neg_op;
+    bool have_neg;
+
+    if (!arg_is_const(op->args[1]) || arg_info(op->args[1])->val != 0) {
+        return false;
+    }
+
+    switch (ctx->type) {
+    case TCG_TYPE_I32:
+        neg_op = INDEX_op_neg_i32;
+        have_neg = TCG_TARGET_HAS_neg_i32;
+        break;
+    case TCG_TYPE_I64:
+        neg_op = INDEX_op_neg_i64;
+        have_neg = TCG_TARGET_HAS_neg_i64;
+        break;
+    case TCG_TYPE_V64:
+    case TCG_TYPE_V128:
+    case TCG_TYPE_V256:
+        neg_op = INDEX_op_neg_vec;
+        have_neg = (TCG_TARGET_HAS_neg_vec &&
+                    tcg_can_emit_vec_op(neg_op, ctx->type, TCGOP_VECE(op)) > 0);
+        break;
+    default:
+        g_assert_not_reached();
+    }
+    if (have_neg) {
+        op->opc = neg_op;
+        op->args[1] = op->args[2];
+        return fold_neg(ctx, op);
+    }
+    return false;
+}
+
 static bool fold_sub(OptContext *ctx, TCGOp *op)
 {
     if (fold_const2(ctx, op) ||
-        fold_xx_to_i(ctx, op, 0)) {
+        fold_xx_to_i(ctx, op, 0) ||
+        fold_sub_to_neg(ctx, op)) {
         return true;
     }
     return false;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
                 continue;
             }
             break;
-        CASE_OP_32_64_VEC(sub):
-            {
-                TCGOpcode neg_op;
-                bool have_neg;
-
-                if (arg_is_const(op->args[2])) {
-                    /* Proceed with possible constant folding. */
-                    break;
-                }
-                switch (ctx.type) {
-                case TCG_TYPE_I32:
-                    neg_op = INDEX_op_neg_i32;
-                    have_neg = TCG_TARGET_HAS_neg_i32;
-                    break;
-                case TCG_TYPE_I64:
-                    neg_op = INDEX_op_neg_i64;
-                    have_neg = TCG_TARGET_HAS_neg_i64;
-                    break;
-                case TCG_TYPE_V64:
-                case TCG_TYPE_V128:
-                case TCG_TYPE_V256:
-                    neg_op = INDEX_op_neg_vec;
-                    have_neg = tcg_can_emit_vec_op(neg_op, ctx.type,
-                                                   TCGOP_VECE(op)) > 0;
-                    break;
-                default:
-                    g_assert_not_reached();
-                }
-                if (!have_neg) {
-                    break;
-                }
-                if (arg_is_const(op->args[1])
-                    && arg_info(op->args[1])->val == 0) {
-                    op->opc = neg_op;
-                    reset_temp(op->args[0]);
-                    op->args[1] = op->args[2];
-                    continue;
-                }
-            }
-            break;
         default:
             break;
         }
-- 
2.25.1

Pull the "op r, a, i => mov r, a" optimization into a function,
and use them in the outer-most logical operations.

Reviewed-by: Luis Pires <luis.pires@eldorado.org.br>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/optimize.c | 61 +++++++++++++++++++++-----------------------------
 1 file changed, 26 insertions(+), 35 deletions(-)

diff --git a/tcg/optimize.c b/tcg/optimize.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/optimize.c
+++ b/tcg/optimize.c
@@ -XXX,XX +XXX,XX @@ static bool fold_xi_to_i(OptContext *ctx, TCGOp *op, uint64_t i)
     return false;
 }
 
+/* If the binary operation has second argument @i, fold to identity. */
+static bool fold_xi_to_x(OptContext *ctx, TCGOp *op, uint64_t i)
+{
+    if (arg_is_const(op->args[2]) && arg_info(op->args[2])->val == i) {
+        return tcg_opt_gen_mov(ctx, op, op->args[0], op->args[1]);
+    }
+    return false;
+}
+
 /* If the binary operation has second argument @i, fold to NOT. */
 static bool fold_xi_to_not(OptContext *ctx, TCGOp *op, uint64_t i)
 {
@@ -XXX,XX +XXX,XX @@ static bool fold_xx_to_x(OptContext *ctx, TCGOp *op)
 
 static bool fold_add(OptContext *ctx, TCGOp *op)
 {
-    return fold_const2(ctx, op);
+    if (fold_const2(ctx, op) ||
+        fold_xi_to_x(ctx, op, 0)) {
+        return true;
+    }
+    return false;
 }
 
 static bool fold_addsub2_i32(OptContext *ctx, TCGOp *op, bool add)
@@ -XXX,XX +XXX,XX @@ static bool fold_and(OptContext *ctx, TCGOp *op)
 {
     if (fold_const2(ctx, op) ||
         fold_xi_to_i(ctx, op, 0) ||
+        fold_xi_to_x(ctx, op, -1) ||
         fold_xx_to_x(ctx, op)) {
         return true;
     }
@@ -XXX,XX +XXX,XX @@ static bool fold_andc(OptContext *ctx, TCGOp *op)
 {
     if (fold_const2(ctx, op) ||
         fold_xx_to_i(ctx, op, 0) ||
+        fold_xi_to_x(ctx, op, 0) ||
         fold_ix_to_not(ctx, op, -1)) {
         return true;
     }
@@ -XXX,XX +XXX,XX @@ static bool fold_dup2(OptContext *ctx, TCGOp *op)
 static bool fold_eqv(OptContext *ctx, TCGOp *op)
 {
     if (fold_const2(ctx, op) ||
+        fold_xi_to_x(ctx, op, -1) ||
         fold_xi_to_not(ctx, op, 0)) {
         return true;
     }
@@ -XXX,XX +XXX,XX @@ static bool fold_not(OptContext *ctx, TCGOp *op)
 static bool fold_or(OptContext *ctx, TCGOp *op)
 {
     if (fold_const2(ctx, op) ||
+        fold_xi_to_x(ctx, op, 0) ||
         fold_xx_to_x(ctx, op)) {
         return true;
     }
@@ -XXX,XX +XXX,XX @@ static bool fold_or(OptContext *ctx, TCGOp *op)
 static bool fold_orc(OptContext *ctx, TCGOp *op)
 {
     if (fold_const2(ctx, op) ||
+        fold_xi_to_x(ctx, op, -1) ||
         fold_ix_to_not(ctx, op, 0)) {
         return true;
     }
@@ -XXX,XX +XXX,XX @@ static bool fold_sextract(OptContext *ctx, TCGOp *op)
 
 static bool fold_shift(OptContext *ctx, TCGOp *op)
 {
-    return fold_const2(ctx, op);
+    if (fold_const2(ctx, op) ||
+        fold_xi_to_x(ctx, op, 0)) {
+        return true;
+    }
+    return false;
 }
 
 static bool fold_sub_to_neg(OptContext *ctx, TCGOp *op)
@@ -XXX,XX +XXX,XX @@ static bool fold_sub(OptContext *ctx, TCGOp *op)
 {
     if (fold_const2(ctx, op) ||
         fold_xx_to_i(ctx, op, 0) ||
+        fold_xi_to_x(ctx, op, 0) ||
         fold_sub_to_neg(ctx, op)) {
         return true;
     }
@@ -XXX,XX +XXX,XX @@ static bool fold_xor(OptContext *ctx, TCGOp *op)
 {
     if (fold_const2(ctx, op) ||
         fold_xx_to_i(ctx, op, 0) ||
+        fold_xi_to_x(ctx, op, 0) ||
         fold_xi_to_not(ctx, op, -1)) {
         return true;
     }
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
             break;
         }
 
-        /* Simplify expression for "op r, a, const => mov r, a" cases */
-        switch (opc) {
-        CASE_OP_32_64_VEC(add):
-        CASE_OP_32_64_VEC(sub):
-        CASE_OP_32_64_VEC(or):
-        CASE_OP_32_64_VEC(xor):
-        CASE_OP_32_64_VEC(andc):
-        CASE_OP_32_64(shl):
-        CASE_OP_32_64(shr):
-        CASE_OP_32_64(sar):
-        CASE_OP_32_64(rotl):
-        CASE_OP_32_64(rotr):
-            if (!arg_is_const(op->args[1])
-                && arg_is_const(op->args[2])
-                && arg_info(op->args[2])->val == 0) {
-                tcg_opt_gen_mov(&ctx, op, op->args[0], op->args[1]);
-                continue;
-            }
-            break;
-        CASE_OP_32_64_VEC(and):
-        CASE_OP_32_64_VEC(orc):
-        CASE_OP_32_64(eqv):
-            if (!arg_is_const(op->args[1])
-                && arg_is_const(op->args[2])
-                && arg_info(op->args[2])->val == -1) {
-                tcg_opt_gen_mov(&ctx, op, op->args[0], op->args[1]);
-                continue;
-            }
-            break;
-        default:
-            break;
-        }
-
         /* Simplify using known-zero bits. Currently only ops with a single
            output argument is supported. */
         z_mask = -1;
-- 
2.25.1

Pull the "op r, 0, b => movi r, 0" optimization into a function,
and use it in fold_shift.

Reviewed-by: Luis Pires <luis.pires@eldorado.org.br>
Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/optimize.c | 28 ++++++++++------------------
 1 file changed, 10 insertions(+), 18 deletions(-)

diff --git a/tcg/optimize.c b/tcg/optimize.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/optimize.c
+++ b/tcg/optimize.c
@@ -XXX,XX +XXX,XX @@ static bool fold_to_not(OptContext *ctx, TCGOp *op, int idx)
     return false;
 }
 
+/* If the binary operation has first argument @i, fold to @i. */
+static bool fold_ix_to_i(OptContext *ctx, TCGOp *op, uint64_t i)
+{
+    if (arg_is_const(op->args[1]) && arg_info(op->args[1])->val == i) {
+        return tcg_opt_gen_movi(ctx, op, op->args[0], i);
+    }
+    return false;
+}
+
 /* If the binary operation has first argument @i, fold to NOT. */
 static bool fold_ix_to_not(OptContext *ctx, TCGOp *op, uint64_t i)
 {
@@ -XXX,XX +XXX,XX @@ static bool fold_sextract(OptContext *ctx, TCGOp *op)
 static bool fold_shift(OptContext *ctx, TCGOp *op)
 {
     if (fold_const2(ctx, op) ||
+        fold_ix_to_i(ctx, op, 0) ||
         fold_xi_to_x(ctx, op, 0)) {
         return true;
     }
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
             break;
         }
 
-        /* Simplify expressions for "shift/rot r, 0, a => movi r, 0",
-           and "sub r, 0, a => neg r, a" case.  */
-        switch (opc) {
-        CASE_OP_32_64(shl):
-        CASE_OP_32_64(shr):
-        CASE_OP_32_64(sar):
-        CASE_OP_32_64(rotl):
-        CASE_OP_32_64(rotr):
-            if (arg_is_const(op->args[1])
-                && arg_info(op->args[1])->val == 0) {
-                tcg_opt_gen_movi(&ctx, op, op->args[0], 0);
-                continue;
-            }
-            break;
-        default:
-            break;
-        }
-
         /* Simplify using known-zero bits. Currently only ops with a single
            output argument is supported. */
         z_mask = -1;
-- 
2.25.1

Move all of the known-zero optimizations into the per-opcode
functions.  Use fold_masks when there is a possibility of the
result being determined, and simply set ctx->z_mask otherwise.

Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
Reviewed-by: Luis Pires <luis.pires@eldorado.org.br>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/optimize.c | 545 ++++++++++++++++++++++++++-----------------------
 1 file changed, 294 insertions(+), 251 deletions(-)

diff --git a/tcg/optimize.c b/tcg/optimize.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/optimize.c
+++ b/tcg/optimize.c
@@ -XXX,XX +XXX,XX @@ typedef struct OptContext {
     TCGTempSet temps_used;
 
     /* In flight values from optimization. */
-    uint64_t z_mask;
+    uint64_t a_mask;  /* mask bit is 0 iff value identical to first input */
+    uint64_t z_mask;  /* mask bit is 0 iff value bit is 0 */
     TCGType type;
 } OptContext;
 
@@ -XXX,XX +XXX,XX @@ static bool fold_const2(OptContext *ctx, TCGOp *op)
     return false;
 }
 
+static bool fold_masks(OptContext *ctx, TCGOp *op)
+{
+    uint64_t a_mask = ctx->a_mask;
+    uint64_t z_mask = ctx->z_mask;
+
+    /*
+     * 32-bit ops generate 32-bit results.  For the result is zero test
+     * below, we can ignore high bits, but for further optimizations we
+     * need to record that the high bits contain garbage.
+     */
+    if (ctx->type == TCG_TYPE_I32) {
+        ctx->z_mask |= MAKE_64BIT_MASK(32, 32);
+        a_mask &= MAKE_64BIT_MASK(0, 32);
+        z_mask &= MAKE_64BIT_MASK(0, 32);
+    }
+
+    if (z_mask == 0) {
+        return tcg_opt_gen_movi(ctx, op, op->args[0], 0);
+    }
+    if (a_mask == 0) {
+        return tcg_opt_gen_mov(ctx, op, op->args[0], op->args[1]);
+    }
+    return false;
+}
+
 /*
  * Convert @op to NOT, if NOT is supported by the host.
  * Return true f the conversion is successful, which will still
@@ -XXX,XX +XXX,XX @@ static bool fold_add2_i32(OptContext *ctx, TCGOp *op)
 
 static bool fold_and(OptContext *ctx, TCGOp *op)
 {
+    uint64_t z1, z2;
+
     if (fold_const2(ctx, op) ||
         fold_xi_to_i(ctx, op, 0) ||
         fold_xi_to_x(ctx, op, -1) ||
         fold_xx_to_x(ctx, op)) {
         return true;
     }
-    return false;
+
+    z1 = arg_info(op->args[1])->z_mask;
+    z2 = arg_info(op->args[2])->z_mask;
+    ctx->z_mask = z1 & z2;
+
+    /*
+     * Known-zeros does not imply known-ones.  Therefore unless
+     * arg2 is constant, we can't infer affected bits from it.
+     */
+    if (arg_is_const(op->args[2])) {
+        ctx->a_mask = z1 & ~z2;
+    }
+
+    return fold_masks(ctx, op);
 }
 
 static bool fold_andc(OptContext *ctx, TCGOp *op)
 {
+    uint64_t z1;
+
     if (fold_const2(ctx, op) ||
         fold_xx_to_i(ctx, op, 0) ||
         fold_xi_to_x(ctx, op, 0) ||
         fold_ix_to_not(ctx, op, -1)) {
         return true;
     }
-    return false;
+
+    z1 = arg_info(op->args[1])->z_mask;
+
+    /*
+     * Known-zeros does not imply known-ones.  Therefore unless
+     * arg2 is constant, we can't infer anything from it.
+     */
+    if (arg_is_const(op->args[2])) {
+        uint64_t z2 = ~arg_info(op->args[2])->z_mask;
+        ctx->a_mask = z1 & ~z2;
+        z1 &= z2;
+    }
+    ctx->z_mask = z1;
+
+    return fold_masks(ctx, op);
 }
 
 static bool fold_brcond(OptContext *ctx, TCGOp *op)
@@ -XXX,XX +XXX,XX @@ static bool fold_brcond2(OptContext *ctx, TCGOp *op)
 
 static bool fold_bswap(OptContext *ctx, TCGOp *op)
 {
+    uint64_t z_mask, sign;
+
     if (arg_is_const(op->args[1])) {
         uint64_t t = arg_info(op->args[1])->val;
 
         t = do_constant_folding(op->opc, ctx->type, t, op->args[2]);
         return tcg_opt_gen_movi(ctx, op, op->args[0], t);
     }
-    return false;
+
+    z_mask = arg_info(op->args[1])->z_mask;
+    switch (op->opc) {
+    case INDEX_op_bswap16_i32:
+    case INDEX_op_bswap16_i64:
+        z_mask = bswap16(z_mask);
+        sign = INT16_MIN;
+        break;
+    case INDEX_op_bswap32_i32:
+    case INDEX_op_bswap32_i64:
+        z_mask = bswap32(z_mask);
+        sign = INT32_MIN;
+        break;
+    case INDEX_op_bswap64_i64:
+        z_mask = bswap64(z_mask);
+        sign = INT64_MIN;
+        break;
+    default:
+        g_assert_not_reached();
+    }
+
+    switch (op->args[2] & (TCG_BSWAP_OZ | TCG_BSWAP_OS)) {
+    case TCG_BSWAP_OZ:
+        break;
+    case TCG_BSWAP_OS:
+        /* If the sign bit may be 1, force all the bits above to 1. */
+        if (z_mask & sign) {
+            z_mask |= sign;
+        }
+        break;
+    default:
+        /* The high bits are undefined: force all bits above the sign to 1. */
+        z_mask |= sign << 1;
+        break;
+    }
+    ctx->z_mask = z_mask;
+
+    return fold_masks(ctx, op);
 }
 
 static bool fold_call(OptContext *ctx, TCGOp *op)
@@ -XXX,XX +XXX,XX @@ static bool fold_call(OptContext *ctx, TCGOp *op)
 
 static bool fold_count_zeros(OptContext *ctx, TCGOp *op)
 {
+    uint64_t z_mask;
+
     if (arg_is_const(op->args[1])) {
         uint64_t t = arg_info(op->args[1])->val;
 
@@ -XXX,XX +XXX,XX @@ static bool fold_count_zeros(OptContext *ctx, TCGOp *op)
         }
         return tcg_opt_gen_mov(ctx, op, op->args[0], op->args[2]);
     }
+
+    switch (ctx->type) {
+    case TCG_TYPE_I32:
+        z_mask = 31;
+        break;
+    case TCG_TYPE_I64:
+        z_mask = 63;
+        break;
+    default:
+        g_assert_not_reached();
+    }
+    ctx->z_mask = arg_info(op->args[2])->z_mask | z_mask;
+
     return false;
 }
 
 static bool fold_ctpop(OptContext *ctx, TCGOp *op)
 {
-    return fold_const1(ctx, op);
+    if (fold_const1(ctx, op)) {
+        return true;
+    }
+
+    switch (ctx->type) {
+    case TCG_TYPE_I32:
+        ctx->z_mask = 32 | 31;
+        break;
+    case TCG_TYPE_I64:
+        ctx->z_mask = 64 | 63;
+        break;
+    default:
+        g_assert_not_reached();
+    }
+    return false;
 }
 
 static bool fold_deposit(OptContext *ctx, TCGOp *op)
@@ -XXX,XX +XXX,XX @@ static bool fold_deposit(OptContext *ctx, TCGOp *op)
         t1 = deposit64(t1, op->args[3], op->args[4], t2);
         return tcg_opt_gen_movi(ctx, op, op->args[0], t1);
     }
+
+    ctx->z_mask = deposit64(arg_info(op->args[1])->z_mask,
+                            op->args[3], op->args[4],
+                            arg_info(op->args[2])->z_mask);
     return false;
 }
 
@@ -XXX,XX +XXX,XX @@ static bool fold_eqv(OptContext *ctx, TCGOp *op)
 
 static bool fold_extract(OptContext *ctx, TCGOp *op)
 {
+    uint64_t z_mask_old, z_mask;
+
     if (arg_is_const(op->args[1])) {
         uint64_t t;
 
@@ -XXX,XX +XXX,XX @@ static bool fold_extract(OptContext *ctx, TCGOp *op)
         t = extract64(t, op->args[2], op->args[3]);
         return tcg_opt_gen_movi(ctx, op, op->args[0], t);
     }
-    return false;
+
+    z_mask_old = arg_info(op->args[1])->z_mask;
+    z_mask = extract64(z_mask_old, op->args[2], op->args[3]);
+    if (op->args[2] == 0) {
+        ctx->a_mask = z_mask_old ^ z_mask;
+    }
+    ctx->z_mask = z_mask;
+
+    return fold_masks(ctx, op);
 }
 
 static bool fold_extract2(OptContext *ctx, TCGOp *op)
@@ -XXX,XX +XXX,XX @@ static bool fold_extract2(OptContext *ctx, TCGOp *op)
 
 static bool fold_exts(OptContext *ctx, TCGOp *op)
 {
-    return fold_const1(ctx, op);
+    uint64_t z_mask_old, z_mask, sign;
+    bool type_change = false;
+
+    if (fold_const1(ctx, op)) {
+        return true;
+    }
+
+    z_mask_old = z_mask = arg_info(op->args[1])->z_mask;
+
+    switch (op->opc) {
+    CASE_OP_32_64(ext8s):
+        sign = INT8_MIN;
+        z_mask = (uint8_t)z_mask;
+        break;
+    CASE_OP_32_64(ext16s):
+        sign = INT16_MIN;
+        z_mask = (uint16_t)z_mask;
+        break;
+    case INDEX_op_ext_i32_i64:
+        type_change = true;
+        QEMU_FALLTHROUGH;
+    case INDEX_op_ext32s_i64:
+        sign = INT32_MIN;
+        z_mask = (uint32_t)z_mask;
+        break;
+    default:
+        g_assert_not_reached();
+    }
+
+    if (z_mask & sign) {
+        z_mask |= sign;
+    } else if (!type_change) {
+        ctx->a_mask = z_mask_old ^ z_mask;
+    }
+    ctx->z_mask = z_mask;
+
+    return fold_masks(ctx, op);
 }
 
 static bool fold_extu(OptContext *ctx, TCGOp *op)
 {
-    return fold_const1(ctx, op);
+    uint64_t z_mask_old, z_mask;
+    bool type_change = false;
+
+    if (fold_const1(ctx, op)) {
+        return true;
+    }
+
+    z_mask_old = z_mask = arg_info(op->args[1])->z_mask;
+
+    switch (op->opc) {
+    CASE_OP_32_64(ext8u):
+        z_mask = (uint8_t)z_mask;
+        break;
+    CASE_OP_32_64(ext16u):
+        z_mask = (uint16_t)z_mask;
+        break;
+    case INDEX_op_extrl_i64_i32:
+    case INDEX_op_extu_i32_i64:
+        type_change = true;
+        QEMU_FALLTHROUGH;
+    case INDEX_op_ext32u_i64:
+        z_mask = (uint32_t)z_mask;
+        break;
+    case INDEX_op_extrh_i64_i32:
+        type_change = true;
+        z_mask >>= 32;
+        break;
+    default:
+        g_assert_not_reached();
+    }
+
+    ctx->z_mask = z_mask;
+    if (!type_change) {
+        ctx->a_mask = z_mask_old ^ z_mask;
+    }
+    return fold_masks(ctx, op);
 }
 
 static bool fold_mb(OptContext *ctx, TCGOp *op)
@@ -XXX,XX +XXX,XX @@ static bool fold_movcond(OptContext *ctx, TCGOp *op)
         return tcg_opt_gen_mov(ctx, op, op->args[0], op->args[4 - i]);
     }
 
+    ctx->z_mask = arg_info(op->args[3])->z_mask
+                | arg_info(op->args[4])->z_mask;
+
     if (arg_is_const(op->args[3]) && arg_is_const(op->args[4])) {
         uint64_t tv = arg_info(op->args[3])->val;
         uint64_t fv = arg_info(op->args[4])->val;
@@ -XXX,XX +XXX,XX @@ static bool fold_nand(OptContext *ctx, TCGOp *op)
 
 static bool fold_neg(OptContext *ctx, TCGOp *op)
 {
+    uint64_t z_mask;
+
     if (fold_const1(ctx, op)) {
         return true;
     }
+
+    /* Set to 1 all bits to the left of the rightmost.  */
+    z_mask = arg_info(op->args[1])->z_mask;
+    ctx->z_mask = -(z_mask & -z_mask);
+
     /*
      * Because of fold_sub_to_neg, we want to always return true,
      * via finish_folding.
@@ -XXX,XX +XXX,XX @@ static bool fold_or(OptContext *ctx, TCGOp *op)
         fold_xx_to_x(ctx, op)) {
         return true;
     }
-    return false;
+
+    ctx->z_mask = arg_info(op->args[1])->z_mask
+                | arg_info(op->args[2])->z_mask;
+    return fold_masks(ctx, op);
 }
 
 static bool fold_orc(OptContext *ctx, TCGOp *op)
@@ -XXX,XX +XXX,XX @@ static bool fold_orc(OptContext *ctx, TCGOp *op)
 
 static bool fold_qemu_ld(OptContext *ctx, TCGOp *op)
 {
+    const TCGOpDef *def = &tcg_op_defs[op->opc];
+    MemOpIdx oi = op->args[def->nb_oargs + def->nb_iargs];
+    MemOp mop = get_memop(oi);
+    int width = 8 * memop_size(mop);
+
+    if (!(mop & MO_SIGN) && width < 64) {
+        ctx->z_mask = MAKE_64BIT_MASK(0, width);
+    }
+
     /* Opcodes that touch guest memory stop the mb optimization.  */
     ctx->prev_mb = NULL;
     return false;
@@ -XXX,XX +XXX,XX @@ static bool fold_setcond(OptContext *ctx, TCGOp *op)
     if (i >= 0) {
         return tcg_opt_gen_movi(ctx, op, op->args[0], i);
     }
+
+    ctx->z_mask = 1;
     return false;
 }
 
@@ -XXX,XX +XXX,XX @@ static bool fold_setcond2(OptContext *ctx, TCGOp *op)
         op->opc = INDEX_op_setcond_i32;
         break;
     }
+
+    ctx->z_mask = 1;
     return false;
 
  do_setcond_const:
@@ -XXX,XX +XXX,XX @@ static bool fold_setcond2(OptContext *ctx, TCGOp *op)
 
 static bool fold_sextract(OptContext *ctx, TCGOp *op)
 {
+    int64_t z_mask_old, z_mask;
+
     if (arg_is_const(op->args[1])) {
         uint64_t t;
 
@@ -XXX,XX +XXX,XX @@ static bool fold_sextract(OptContext *ctx, TCGOp *op)
         t = sextract64(t, op->args[2], op->args[3]);
         return tcg_opt_gen_movi(ctx, op, op->args[0], t);
     }
-    return false;
+
+    z_mask_old = arg_info(op->args[1])->z_mask;
+    z_mask = sextract64(z_mask_old, op->args[2], op->args[3]);
+    if (op->args[2] == 0 && z_mask >= 0) {
+        ctx->a_mask = z_mask_old ^ z_mask;
+    }
+    ctx->z_mask = z_mask;
+
+    return fold_masks(ctx, op);
 }
 
 static bool fold_shift(OptContext *ctx, TCGOp *op)
@@ -XXX,XX +XXX,XX @@ static bool fold_shift(OptContext *ctx, TCGOp *op)
         fold_xi_to_x(ctx, op, 0)) {
         return true;
     }
+
+    if (arg_is_const(op->args[2])) {
+        ctx->z_mask = do_constant_folding(op->opc, ctx->type,
+                                          arg_info(op->args[1])->z_mask,
+                                          arg_info(op->args[2])->val);
+        return fold_masks(ctx, op);
+    }
     return false;
 }
 
@@ -XXX,XX +XXX,XX @@ static bool fold_sub2_i32(OptContext *ctx, TCGOp *op)
     return fold_addsub2_i32(ctx, op, false);
 }
 
+static bool fold_tcg_ld(OptContext *ctx, TCGOp *op)
+{
+    /* We can't do any folding with a load, but we can record bits. */
+    switch (op->opc) {
+    CASE_OP_32_64(ld8u):
+        ctx->z_mask = MAKE_64BIT_MASK(0, 8);
+        break;
+    CASE_OP_32_64(ld16u):
+        ctx->z_mask = MAKE_64BIT_MASK(0, 16);
+        break;
+    case INDEX_op_ld32u_i64:
+        ctx->z_mask = MAKE_64BIT_MASK(0, 32);
+        break;
+    default:
+        g_assert_not_reached();
+    }
+    return false;
+}
+
 static bool fold_xor(OptContext *ctx, TCGOp *op)
 {
     if (fold_const2(ctx, op) ||
@@ -XXX,XX +XXX,XX @@ static bool fold_xor(OptContext *ctx, TCGOp *op)
         fold_xi_to_not(ctx, op, -1)) {
         return true;
     }
-    return false;
+
+    ctx->z_mask = arg_info(op->args[1])->z_mask
+                | arg_info(op->args[2])->z_mask;
+    return fold_masks(ctx, op);
 }
 
 /* Propagate constants and copies, fold constant expressions. */
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
     }
 
     QTAILQ_FOREACH_SAFE(op, &s->ops, link, op_next) {
-        uint64_t z_mask, partmask, affected, tmp;
         TCGOpcode opc = op->opc;
         const TCGOpDef *def;
         bool done = false;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
             break;
         }
 
-        /* Simplify using known-zero bits. Currently only ops with a single
-           output argument is supported. */
-        z_mask = -1;
-        affected = -1;
-        switch (opc) {
-        CASE_OP_32_64(ext8s):
-            if ((arg_info(op->args[1])->z_mask & 0x80) != 0) {
-                break;
-            }
-            QEMU_FALLTHROUGH;
-        CASE_OP_32_64(ext8u):
-            z_mask = 0xff;
-            goto and_const;
-        CASE_OP_32_64(ext16s):
-            if ((arg_info(op->args[1])->z_mask & 0x8000) != 0) {
-                break;
-            }
-            QEMU_FALLTHROUGH;
-        CASE_OP_32_64(ext16u):
-            z_mask = 0xffff;
-            goto and_const;
-        case INDEX_op_ext32s_i64:
-            if ((arg_info(op->args[1])->z_mask & 0x80000000) != 0) {
-                break;
-            }
-            QEMU_FALLTHROUGH;
-        case INDEX_op_ext32u_i64:
-            z_mask = 0xffffffffU;
-            goto and_const;
-
-        CASE_OP_32_64(and):
-            z_mask = arg_info(op->args[2])->z_mask;
-            if (arg_is_const(op->args[2])) {
-        and_const:
-                affected = arg_info(op->args[1])->z_mask & ~z_mask;
-            }
-            z_mask = arg_info(op->args[1])->z_mask & z_mask;
-            break;
-
-        case INDEX_op_ext_i32_i64:
-            if ((arg_info(op->args[1])->z_mask & 0x80000000) != 0) {
-                break;
-            }
-            QEMU_FALLTHROUGH;
-        case INDEX_op_extu_i32_i64:
-            /* We do not compute affected as it is a size changing op.  */
-            z_mask = (uint32_t)arg_info(op->args[1])->z_mask;
-            break;
-
-        CASE_OP_32_64(andc):
-            /* Known-zeros does not imply known-ones.  Therefore unless
-               op->args[2] is constant, we can't infer anything from it.  */
-            if (arg_is_const(op->args[2])) {
-                z_mask = ~arg_info(op->args[2])->z_mask;
-                goto and_const;
-            }
-            /* But we certainly know nothing outside args[1] may be set. */
-            z_mask = arg_info(op->args[1])->z_mask;
-            break;
-
-        case INDEX_op_sar_i32:
-            if (arg_is_const(op->args[2])) {
-                tmp = arg_info(op->args[2])->val & 31;
-                z_mask = (int32_t)arg_info(op->args[1])->z_mask >> tmp;
-            }
-            break;
-        case INDEX_op_sar_i64:
-            if (arg_is_const(op->args[2])) {
-                tmp = arg_info(op->args[2])->val & 63;
-                z_mask = (int64_t)arg_info(op->args[1])->z_mask >> tmp;
-            }
-            break;
-
-        case INDEX_op_shr_i32:
-            if (arg_is_const(op->args[2])) {
-                tmp = arg_info(op->args[2])->val & 31;
-                z_mask = (uint32_t)arg_info(op->args[1])->z_mask >> tmp;
-            }
-            break;
-        case INDEX_op_shr_i64:
-            if (arg_is_const(op->args[2])) {
-                tmp = arg_info(op->args[2])->val & 63;
-                z_mask = (uint64_t)arg_info(op->args[1])->z_mask >> tmp;
-            }
-            break;
-
-        case INDEX_op_extrl_i64_i32:
-            z_mask = (uint32_t)arg_info(op->args[1])->z_mask;
-            break;
-        case INDEX_op_extrh_i64_i32:
-            z_mask = (uint64_t)arg_info(op->args[1])->z_mask >> 32;
-            break;
-
-        CASE_OP_32_64(shl):
-            if (arg_is_const(op->args[2])) {
-                tmp = arg_info(op->args[2])->val & (TCG_TARGET_REG_BITS - 1);
-                z_mask = arg_info(op->args[1])->z_mask << tmp;
-            }
-            break;
-
-        CASE_OP_32_64(neg):
-            /* Set to 1 all bits to the left of the rightmost.  */
-            z_mask = -(arg_info(op->args[1])->z_mask
-                       & -arg_info(op->args[1])->z_mask);
-            break;
-
-        CASE_OP_32_64(deposit):
-            z_mask = deposit64(arg_info(op->args[1])->z_mask,
-                               op->args[3], op->args[4],
-                               arg_info(op->args[2])->z_mask);
-            break;
-
-        CASE_OP_32_64(extract):
-            z_mask = extract64(arg_info(op->args[1])->z_mask,
-                               op->args[2], op->args[3]);
-            if (op->args[2] == 0) {
-                affected = arg_info(op->args[1])->z_mask & ~z_mask;
-            }
-            break;
-        CASE_OP_32_64(sextract):
-            z_mask = sextract64(arg_info(op->args[1])->z_mask,
-                                op->args[2], op->args[3]);
-            if (op->args[2] == 0 && (tcg_target_long)z_mask >= 0) {
-                affected = arg_info(op->args[1])->z_mask & ~z_mask;
-            }
-            break;
-
-        CASE_OP_32_64(or):
-        CASE_OP_32_64(xor):
-            z_mask = arg_info(op->args[1])->z_mask
-                   | arg_info(op->args[2])->z_mask;
-            break;
-
-        case INDEX_op_clz_i32:
-        case INDEX_op_ctz_i32:
-            z_mask = arg_info(op->args[2])->z_mask | 31;
-            break;
-
-        case INDEX_op_clz_i64:
-        case INDEX_op_ctz_i64:
-            z_mask = arg_info(op->args[2])->z_mask | 63;
-            break;
-
-        case INDEX_op_ctpop_i32:
-            z_mask = 32 | 31;
-            break;
-        case INDEX_op_ctpop_i64:
-            z_mask = 64 | 63;
-            break;
-
-        CASE_OP_32_64(setcond):
-        case INDEX_op_setcond2_i32:
-            z_mask = 1;
-            break;
-
-        CASE_OP_32_64(movcond):
-            z_mask = arg_info(op->args[3])->z_mask
-                   | arg_info(op->args[4])->z_mask;
-            break;
-
-        CASE_OP_32_64(ld8u):
-            z_mask = 0xff;
-            break;
-        CASE_OP_32_64(ld16u):
-            z_mask = 0xffff;
-            break;
-        case INDEX_op_ld32u_i64:
-            z_mask = 0xffffffffu;
-            break;
-
-        CASE_OP_32_64(qemu_ld):
-            {
-                MemOpIdx oi = op->args[def->nb_oargs + def->nb_iargs];
-                MemOp mop = get_memop(oi);
-                if (!(mop & MO_SIGN)) {
-                    z_mask = (2ULL << ((8 << (mop & MO_SIZE)) - 1)) - 1;
-                }
-            }
-            break;
-
-        CASE_OP_32_64(bswap16):
-            z_mask = arg_info(op->args[1])->z_mask;
-            if (z_mask <= 0xffff) {
-                op->args[2] |= TCG_BSWAP_IZ;
-            }
-            z_mask = bswap16(z_mask);
-            switch (op->args[2] & (TCG_BSWAP_OZ | TCG_BSWAP_OS)) {
-            case TCG_BSWAP_OZ:
-                break;
-            case TCG_BSWAP_OS:
-                z_mask = (int16_t)z_mask;
-                break;
-            default: /* undefined high bits */
-                z_mask |= MAKE_64BIT_MASK(16, 48);
-                break;
-            }
-            break;
-
-        case INDEX_op_bswap32_i64:
-            z_mask = arg_info(op->args[1])->z_mask;
-            if (z_mask <= 0xffffffffu) {
-                op->args[2] |= TCG_BSWAP_IZ;
-            }
-            z_mask = bswap32(z_mask);
-            switch (op->args[2] & (TCG_BSWAP_OZ | TCG_BSWAP_OS)) {
-            case TCG_BSWAP_OZ:
-                break;
-            case TCG_BSWAP_OS:
-                z_mask = (int32_t)z_mask;
-                break;
-            default: /* undefined high bits */
-                z_mask |= MAKE_64BIT_MASK(32, 32);
-                break;
-            }
-            break;
-
-        default:
-            break;
-        }
-
-        /* 32-bit ops generate 32-bit results.  For the result is zero test
-           below, we can ignore high bits, but for further optimizations we
-           need to record that the high bits contain garbage.  */
-        partmask = z_mask;
-        if (ctx.type == TCG_TYPE_I32) {
-            z_mask |= ~(tcg_target_ulong)0xffffffffu;
-            partmask &= 0xffffffffu;
-            affected &= 0xffffffffu;
-        }
-        ctx.z_mask = z_mask;
-
-        if (partmask == 0) {
-            tcg_opt_gen_movi(&ctx, op, op->args[0], 0);
-            continue;
-        }
-        if (affected == 0) {
-            tcg_opt_gen_mov(&ctx, op, op->args[0], op->args[1]);
-            continue;
-        }
+        /* Assume all bits affected, and no bits known zero. */
+        ctx.a_mask = -1;
+        ctx.z_mask = -1;
 
         /*
          * Process each opcode.
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
         case INDEX_op_extrh_i64_i32:
             done = fold_extu(&ctx, op);
             break;
+        CASE_OP_32_64(ld8u):
+        CASE_OP_32_64(ld16u):
+        case INDEX_op_ld32u_i64:
+            done = fold_tcg_ld(&ctx, op);
+            break;
         case INDEX_op_mb:
             done = fold_mb(&ctx, op);
             break;
-- 
2.25.1

Rename to fold_multiply2, and handle muls2_i32, mulu2_i64,
and muls2_i64.

Reviewed-by: Luis Pires <luis.pires@eldorado.org.br>
Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/optimize.c | 44 +++++++++++++++++++++++++++++++++++---------
 1 file changed, 35 insertions(+), 9 deletions(-)

diff --git a/tcg/optimize.c b/tcg/optimize.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/optimize.c
+++ b/tcg/optimize.c
@@ -XXX,XX +XXX,XX @@ static bool fold_mul_highpart(OptContext *ctx, TCGOp *op)
     return false;
 }
 
-static bool fold_mulu2_i32(OptContext *ctx, TCGOp *op)
+static bool fold_multiply2(OptContext *ctx, TCGOp *op)
 {
     if (arg_is_const(op->args[2]) && arg_is_const(op->args[3])) {
-        uint32_t a = arg_info(op->args[2])->val;
-        uint32_t b = arg_info(op->args[3])->val;
-        uint64_t r = (uint64_t)a * b;
+        uint64_t a = arg_info(op->args[2])->val;
+        uint64_t b = arg_info(op->args[3])->val;
+        uint64_t h, l;
         TCGArg rl, rh;
-        TCGOp *op2 = tcg_op_insert_before(ctx->tcg, op, INDEX_op_mov_i32);
+        TCGOp *op2;
+
+        switch (op->opc) {
+        case INDEX_op_mulu2_i32:
+            l = (uint64_t)(uint32_t)a * (uint32_t)b;
+            h = (int32_t)(l >> 32);
+            l = (int32_t)l;
+            break;
+        case INDEX_op_muls2_i32:
+            l = (int64_t)(int32_t)a * (int32_t)b;
+            h = l >> 32;
+            l = (int32_t)l;
+            break;
+        case INDEX_op_mulu2_i64:
+            mulu64(&l, &h, a, b);
+            break;
+        case INDEX_op_muls2_i64:
+            muls64(&l, &h, a, b);
+            break;
+        default:
+            g_assert_not_reached();
+        }
 
         rl = op->args[0];
         rh = op->args[1];
-        tcg_opt_gen_movi(ctx, op, rl, (int32_t)r);
-        tcg_opt_gen_movi(ctx, op2, rh, (int32_t)(r >> 32));
+
+        /* The proper opcode is supplied by tcg_opt_gen_mov. */
+        op2 = tcg_op_insert_before(ctx->tcg, op, 0);
+
+        tcg_opt_gen_movi(ctx, op, rl, l);
+        tcg_opt_gen_movi(ctx, op2, rh, h);
         return true;
     }
     return false;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
         CASE_OP_32_64(muluh):
             done = fold_mul_highpart(&ctx, op);
             break;
-        case INDEX_op_mulu2_i32:
-            done = fold_mulu2_i32(&ctx, op);
+        CASE_OP_32_64(muls2):
+        CASE_OP_32_64(mulu2):
+            done = fold_multiply2(&ctx, op);
             break;
         CASE_OP_32_64(nand):
             done = fold_nand(&ctx, op);
-- 
2.25.1

Rename to fold_addsub2.
Use Int128 to implement the wider operation.

Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
Reviewed-by: Luis Pires <luis.pires@eldorado.org.br>
Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/optimize.c | 65 ++++++++++++++++++++++++++++++++++----------------
 1 file changed, 44 insertions(+), 21 deletions(-)

diff --git a/tcg/optimize.c b/tcg/optimize.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/optimize.c
+++ b/tcg/optimize.c
@@ -XXX,XX +XXX,XX @@
  */
 
 #include "qemu/osdep.h"
+#include "qemu/int128.h"
 #include "tcg/tcg-op.h"
 #include "tcg-internal.h"
 
@@ -XXX,XX +XXX,XX @@ static bool fold_add(OptContext *ctx, TCGOp *op)
     return false;
 }
 
-static bool fold_addsub2_i32(OptContext *ctx, TCGOp *op, bool add)
+static bool fold_addsub2(OptContext *ctx, TCGOp *op, bool add)
 {
     if (arg_is_const(op->args[2]) && arg_is_const(op->args[3]) &&
         arg_is_const(op->args[4]) && arg_is_const(op->args[5])) {
-        uint32_t al = arg_info(op->args[2])->val;
-        uint32_t ah = arg_info(op->args[3])->val;
-        uint32_t bl = arg_info(op->args[4])->val;
-        uint32_t bh = arg_info(op->args[5])->val;
-        uint64_t a = ((uint64_t)ah << 32) | al;
-        uint64_t b = ((uint64_t)bh << 32) | bl;
+        uint64_t al = arg_info(op->args[2])->val;
+        uint64_t ah = arg_info(op->args[3])->val;
+        uint64_t bl = arg_info(op->args[4])->val;
+        uint64_t bh = arg_info(op->args[5])->val;
         TCGArg rl, rh;
-        TCGOp *op2 = tcg_op_insert_before(ctx->tcg, op, INDEX_op_mov_i32);
+        TCGOp *op2;
 
-        if (add) {
-            a += b;
+        if (ctx->type == TCG_TYPE_I32) {
+            uint64_t a = deposit64(al, 32, 32, ah);
+            uint64_t b = deposit64(bl, 32, 32, bh);
+
+            if (add) {
+                a += b;
+            } else {
+                a -= b;
+            }
+
+            al = sextract64(a, 0, 32);
+            ah = sextract64(a, 32, 32);
         } else {
-            a -= b;
+            Int128 a = int128_make128(al, ah);
+            Int128 b = int128_make128(bl, bh);
+
+            if (add) {
+                a = int128_add(a, b);
+            } else {
+                a = int128_sub(a, b);
+            }
+
+            al = int128_getlo(a);
+            ah = int128_gethi(a);
         }
 
         rl = op->args[0];
         rh = op->args[1];
-        tcg_opt_gen_movi(ctx, op, rl, (int32_t)a);
-        tcg_opt_gen_movi(ctx, op2, rh, (int32_t)(a >> 32));
+
+        /* The proper opcode is supplied by tcg_opt_gen_mov. */
+        op2 = tcg_op_insert_before(ctx->tcg, op, 0);
+
+        tcg_opt_gen_movi(ctx, op, rl, al);
+        tcg_opt_gen_movi(ctx, op2, rh, ah);
         return true;
     }
     return false;
 }
 
-static bool fold_add2_i32(OptContext *ctx, TCGOp *op)
+static bool fold_add2(OptContext *ctx, TCGOp *op)
 {
-    return fold_addsub2_i32(ctx, op, true);
+    return fold_addsub2(ctx, op, true);
 }
 
 static bool fold_and(OptContext *ctx, TCGOp *op)
@@ -XXX,XX +XXX,XX @@ static bool fold_sub(OptContext *ctx, TCGOp *op)
     return false;
 }
 
-static bool fold_sub2_i32(OptContext *ctx, TCGOp *op)
+static bool fold_sub2(OptContext *ctx, TCGOp *op)
 {
-    return fold_addsub2_i32(ctx, op, false);
+    return fold_addsub2(ctx, op, false);
 }
 
 static bool fold_tcg_ld(OptContext *ctx, TCGOp *op)
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
         CASE_OP_32_64_VEC(add):
             done = fold_add(&ctx, op);
             break;
-        case INDEX_op_add2_i32:
-            done = fold_add2_i32(&ctx, op);
+        CASE_OP_32_64(add2):
+            done = fold_add2(&ctx, op);
             break;
         CASE_OP_32_64_VEC(and):
             done = fold_and(&ctx, op);
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
         CASE_OP_32_64_VEC(sub):
             done = fold_sub(&ctx, op);
             break;
-        case INDEX_op_sub2_i32:
-            done = fold_sub2_i32(&ctx, op);
+        CASE_OP_32_64(sub2):
+            done = fold_sub2(&ctx, op);
             break;
         CASE_OP_32_64_VEC(xor):
             done = fold_xor(&ctx, op);
-- 
2.25.1

Most of these are handled by creating a fold_const2_commutative
to handle all of the binary operators.  The rest were already
handled on a case-by-case basis in the switch, and have their
own fold function in which to place the call.

We now have only one major switch on TCGOpcode.

Introduce NO_DEST and a block comment for swap_commutative in
order to make the handling of brcond and movcond opcodes cleaner.

Reviewed-by: Luis Pires <luis.pires@eldorado.org.br>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/optimize.c | 142 ++++++++++++++++++++++++-------------------------
 1 file changed, 70 insertions(+), 72 deletions(-)

diff --git a/tcg/optimize.c b/tcg/optimize.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/optimize.c
+++ b/tcg/optimize.c
@@ -XXX,XX +XXX,XX @@ static int do_constant_folding_cond2(TCGArg *p1, TCGArg *p2, TCGCond c)
     return -1;
 }
 
+/**
+ * swap_commutative:
+ * @dest: TCGArg of the destination argument, or NO_DEST.
+ * @p1: first paired argument
+ * @p2: second paired argument
+ *
+ * If *@p1 is a constant and *@p2 is not, swap.
+ * If *@p2 matches @dest, swap.
+ * Return true if a swap was performed.
+ */
+
+#define NO_DEST  temp_arg(NULL)
+
 static bool swap_commutative(TCGArg dest, TCGArg *p1, TCGArg *p2)
 {
     TCGArg a1 = *p1, a2 = *p2;
@@ -XXX,XX +XXX,XX @@ static bool fold_const2(OptContext *ctx, TCGOp *op)
     return false;
 }
 
+static bool fold_const2_commutative(OptContext *ctx, TCGOp *op)
+{
+    swap_commutative(op->args[0], &op->args[1], &op->args[2]);
+    return fold_const2(ctx, op);
+}
+
 static bool fold_masks(OptContext *ctx, TCGOp *op)
 {
     uint64_t a_mask = ctx->a_mask;
@@ -XXX,XX +XXX,XX @@ static bool fold_xx_to_x(OptContext *ctx, TCGOp *op)
 
 static bool fold_add(OptContext *ctx, TCGOp *op)
 {
-    if (fold_const2(ctx, op) ||
+    if (fold_const2_commutative(ctx, op) ||
         fold_xi_to_x(ctx, op, 0)) {
         return true;
     }
@@ -XXX,XX +XXX,XX @@ static bool fold_addsub2(OptContext *ctx, TCGOp *op, bool add)
 
 static bool fold_add2(OptContext *ctx, TCGOp *op)
 {
+    /* Note that the high and low parts may be independently swapped. */
+    swap_commutative(op->args[0], &op->args[2], &op->args[4]);
+    swap_commutative(op->args[1], &op->args[3], &op->args[5]);
+
     return fold_addsub2(ctx, op, true);
 }
 
@@ -XXX,XX +XXX,XX @@ static bool fold_and(OptContext *ctx, TCGOp *op)
 {
     uint64_t z1, z2;
 
-    if (fold_const2(ctx, op) ||
+    if (fold_const2_commutative(ctx, op) ||
         fold_xi_to_i(ctx, op, 0) ||
         fold_xi_to_x(ctx, op, -1) ||
         fold_xx_to_x(ctx, op)) {
@@ -XXX,XX +XXX,XX @@ static bool fold_andc(OptContext *ctx, TCGOp *op)
 static bool fold_brcond(OptContext *ctx, TCGOp *op)
 {
     TCGCond cond = op->args[2];
-    int i = do_constant_folding_cond(ctx->type, op->args[0], op->args[1], cond);
+    int i;
 
+    if (swap_commutative(NO_DEST, &op->args[0], &op->args[1])) {
+        op->args[2] = cond = tcg_swap_cond(cond);
+    }
+
+    i = do_constant_folding_cond(ctx->type, op->args[0], op->args[1], cond);
     if (i == 0) {
         tcg_op_remove(ctx->tcg, op);
         return true;
@@ -XXX,XX +XXX,XX @@ static bool fold_brcond(OptContext *ctx, TCGOp *op)
 static bool fold_brcond2(OptContext *ctx, TCGOp *op)
 {
     TCGCond cond = op->args[4];
-    int i = do_constant_folding_cond2(&op->args[0], &op->args[2], cond);
     TCGArg label = op->args[5];
-    int inv = 0;
+    int i, inv = 0;
 
+    if (swap_commutative2(&op->args[0], &op->args[2])) {
+        op->args[4] = cond = tcg_swap_cond(cond);
+    }
+
+    i = do_constant_folding_cond2(&op->args[0], &op->args[2], cond);
     if (i >= 0) {
         goto do_brcond_const;
     }
@@ -XXX,XX +XXX,XX @@ static bool fold_dup2(OptContext *ctx, TCGOp *op)
 
 static bool fold_eqv(OptContext *ctx, TCGOp *op)
 {
-    if (fold_const2(ctx, op) ||
+    if (fold_const2_commutative(ctx, op) ||
         fold_xi_to_x(ctx, op, -1) ||
         fold_xi_to_not(ctx, op, 0)) {
         return true;
@@ -XXX,XX +XXX,XX @@ static bool fold_mov(OptContext *ctx, TCGOp *op)
 static bool fold_movcond(OptContext *ctx, TCGOp *op)
 {
     TCGCond cond = op->args[5];
-    int i = do_constant_folding_cond(ctx->type, op->args[1], op->args[2], cond);
+    int i;
 
+    if (swap_commutative(NO_DEST, &op->args[1], &op->args[2])) {
+        op->args[5] = cond = tcg_swap_cond(cond);
+    }
+    /*
+     * Canonicalize the "false" input reg to match the destination reg so
+     * that the tcg backend can implement a "move if true" operation.
+     */
+    if (swap_commutative(op->args[0], &op->args[4], &op->args[3])) {
+        op->args[5] = cond = tcg_invert_cond(cond);
+    }
+
+    i = do_constant_folding_cond(ctx->type, op->args[1], op->args[2], cond);
     if (i >= 0) {
         return tcg_opt_gen_mov(ctx, op, op->args[0], op->args[4 - i]);
     }
@@ -XXX,XX +XXX,XX @@ static bool fold_mul(OptContext *ctx, TCGOp *op)
 
 static bool fold_mul_highpart(OptContext *ctx, TCGOp *op)
 {
-    if (fold_const2(ctx, op) ||
+    if (fold_const2_commutative(ctx, op) ||
         fold_xi_to_i(ctx, op, 0)) {
         return true;
     }
@@ -XXX,XX +XXX,XX @@ static bool fold_mul_highpart(OptContext *ctx, TCGOp *op)
 
 static bool fold_multiply2(OptContext *ctx, TCGOp *op)
 {
+    swap_commutative(op->args[0], &op->args[2], &op->args[3]);
+
     if (arg_is_const(op->args[2]) && arg_is_const(op->args[3])) {
         uint64_t a = arg_info(op->args[2])->val;
         uint64_t b = arg_info(op->args[3])->val;
@@ -XXX,XX +XXX,XX @@ static bool fold_multiply2(OptContext *ctx, TCGOp *op)
 
 static bool fold_nand(OptContext *ctx, TCGOp *op)
 {
-    if (fold_const2(ctx, op) ||
+    if (fold_const2_commutative(ctx, op) ||
         fold_xi_to_not(ctx, op, -1)) {
         return true;
     }
@@ -XXX,XX +XXX,XX @@ static bool fold_neg(OptContext *ctx, TCGOp *op)
 
 static bool fold_nor(OptContext *ctx, TCGOp *op)
 {
-    if (fold_const2(ctx, op) ||
+    if (fold_const2_commutative(ctx, op) ||
         fold_xi_to_not(ctx, op, 0)) {
         return true;
     }
@@ -XXX,XX +XXX,XX @@ static bool fold_not(OptContext *ctx, TCGOp *op)
 
 static bool fold_or(OptContext *ctx, TCGOp *op)
 {
-    if (fold_const2(ctx, op) ||
+    if (fold_const2_commutative(ctx, op) ||
         fold_xi_to_x(ctx, op, 0) ||
         fold_xx_to_x(ctx, op)) {
         return true;
@@ -XXX,XX +XXX,XX @@ static bool fold_remainder(OptContext *ctx, TCGOp *op)
 static bool fold_setcond(OptContext *ctx, TCGOp *op)
 {
     TCGCond cond = op->args[3];
-    int i = do_constant_folding_cond(ctx->type, op->args[1], op->args[2], cond);
+    int i;
 
+    if (swap_commutative(op->args[0], &op->args[1], &op->args[2])) {
+        op->args[3] = cond = tcg_swap_cond(cond);
+    }
+
+    i = do_constant_folding_cond(ctx->type, op->args[1], op->args[2], cond);
     if (i >= 0) {
         return tcg_opt_gen_movi(ctx, op, op->args[0], i);
     }
@@ -XXX,XX +XXX,XX @@ static bool fold_setcond(OptContext *ctx, TCGOp *op)
 static bool fold_setcond2(OptContext *ctx, TCGOp *op)
 {
     TCGCond cond = op->args[5];
-    int i = do_constant_folding_cond2(&op->args[1], &op->args[3], cond);
-    int inv = 0;
+    int i, inv = 0;
 
+    if (swap_commutative2(&op->args[1], &op->args[3])) {
+        op->args[5] = cond = tcg_swap_cond(cond);
+    }
+
+    i = do_constant_folding_cond2(&op->args[1], &op->args[3], cond);
     if (i >= 0) {
         goto do_setcond_const;
     }
@@ -XXX,XX +XXX,XX @@ static bool fold_tcg_ld(OptContext *ctx, TCGOp *op)
 
 static bool fold_xor(OptContext *ctx, TCGOp *op)
 {
-    if (fold_const2(ctx, op) ||
+    if (fold_const2_commutative(ctx, op) ||
         fold_xx_to_i(ctx, op, 0) ||
         fold_xi_to_x(ctx, op, 0) ||
         fold_xi_to_not(ctx, op, -1)) {
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
             ctx.type = TCG_TYPE_I32;
         }
 
-        /* For commutative operations make constant second argument */
-        switch (opc) {
-        CASE_OP_32_64_VEC(add):
-        CASE_OP_32_64_VEC(mul):
-        CASE_OP_32_64_VEC(and):
-        CASE_OP_32_64_VEC(or):
-        CASE_OP_32_64_VEC(xor):
-        CASE_OP_32_64(eqv):
-        CASE_OP_32_64(nand):
-        CASE_OP_32_64(nor):
-        CASE_OP_32_64(muluh):
-        CASE_OP_32_64(mulsh):
-            swap_commutative(op->args[0], &op->args[1], &op->args[2]);
-            break;
-        CASE_OP_32_64(brcond):
-            if (swap_commutative(-1, &op->args[0], &op->args[1])) {
-                op->args[2] = tcg_swap_cond(op->args[2]);
-            }
-            break;
-        CASE_OP_32_64(setcond):
-            if (swap_commutative(op->args[0], &op->args[1], &op->args[2])) {
-                op->args[3] = tcg_swap_cond(op->args[3]);
-            }
-            break;
-        CASE_OP_32_64(movcond):
-            if (swap_commutative(-1, &op->args[1], &op->args[2])) {
-                op->args[5] = tcg_swap_cond(op->args[5]);
-            }
-            /* For movcond, we canonicalize the "false" input reg to match
-               the destination reg so that the tcg backend can implement
-               a "move if true" operation.  */
-            if (swap_commutative(op->args[0], &op->args[4], &op->args[3])) {
-                op->args[5] = tcg_invert_cond(op->args[5]);
-            }
-            break;
-        CASE_OP_32_64(add2):
-            swap_commutative(op->args[0], &op->args[2], &op->args[4]);
-            swap_commutative(op->args[1], &op->args[3], &op->args[5]);
-            break;
-        CASE_OP_32_64(mulu2):
-        CASE_OP_32_64(muls2):
-            swap_commutative(op->args[0], &op->args[2], &op->args[3]);
-            break;
-        case INDEX_op_brcond2_i32:
-            if (swap_commutative2(&op->args[0], &op->args[2])) {
-                op->args[4] = tcg_swap_cond(op->args[4]);
-            }
-            break;
-        case INDEX_op_setcond2_i32:
-            if (swap_commutative2(&op->args[1], &op->args[3])) {
-                op->args[5] = tcg_swap_cond(op->args[5]);
-            }
-            break;
-        default:
-            break;
-        }
-
         /* Assume all bits affected, and no bits known zero. */
         ctx.a_mask = -1;
         ctx.z_mask = -1;
-- 
2.25.1

This "garbage" setting pre-dates the addition of the type
changing opcodes INDEX_op_ext_i32_i64, INDEX_op_extu_i32_i64,
and INDEX_op_extr{l,h}_i64_i32.

So now we have a definitive points at which to adjust z_mask
to eliminate such bits from the 32-bit operands.

Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
Reviewed-by: Luis Pires <luis.pires@eldorado.org.br>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/optimize.c | 35 ++++++++++++++++-------------------
 1 file changed, 16 insertions(+), 19 deletions(-)

diff --git a/tcg/optimize.c b/tcg/optimize.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/optimize.c
+++ b/tcg/optimize.c
@@ -XXX,XX +XXX,XX @@ static void init_ts_info(OptContext *ctx, TCGTemp *ts)
         ti->is_const = true;
         ti->val = ts->val;
         ti->z_mask = ts->val;
-        if (TCG_TARGET_REG_BITS > 32 && ts->type == TCG_TYPE_I32) {
-            /* High bits of a 32-bit quantity are garbage.  */
-            ti->z_mask |= ~0xffffffffull;
-        }
     } else {
         ti->is_const = false;
         ti->z_mask = -1;
@@ -XXX,XX +XXX,XX @@ static bool tcg_opt_gen_mov(OptContext *ctx, TCGOp *op, TCGArg dst, TCGArg src)
     TCGTemp *src_ts = arg_temp(src);
     TempOptInfo *di;
     TempOptInfo *si;
-    uint64_t z_mask;
     TCGOpcode new_op;
 
     if (ts_are_copies(dst_ts, src_ts)) {
@@ -XXX,XX +XXX,XX @@ static bool tcg_opt_gen_mov(OptContext *ctx, TCGOp *op, TCGArg dst, TCGArg src)
     op->args[0] = dst;
     op->args[1] = src;
 
-    z_mask = si->z_mask;
-    if (TCG_TARGET_REG_BITS > 32 && new_op == INDEX_op_mov_i32) {
-        /* High bits of the destination are now garbage.  */
-        z_mask |= ~0xffffffffull;
-    }
-    di->z_mask = z_mask;
+    di->z_mask = si->z_mask;
 
     if (src_ts->type == dst_ts->type) {
         TempOptInfo *ni = ts_info(si->next_copy);
@@ -XXX,XX +XXX,XX @@ static bool tcg_opt_gen_mov(OptContext *ctx, TCGOp *op, TCGArg dst, TCGArg src)
 static bool tcg_opt_gen_movi(OptContext *ctx, TCGOp *op,
                              TCGArg dst, uint64_t val)
 {
-    /* Convert movi to mov with constant temp. */
-    TCGTemp *tv = tcg_constant_internal(ctx->type, val);
+    TCGTemp *tv;
 
+    if (ctx->type == TCG_TYPE_I32) {
+        val = (int32_t)val;
+    }
+
+    /* Convert movi to mov with constant temp. */
+    tv = tcg_constant_internal(ctx->type, val);
     init_ts_info(ctx, tv);
     return tcg_opt_gen_mov(ctx, op, dst, temp_arg(tv));
 }
@@ -XXX,XX +XXX,XX @@ static bool fold_masks(OptContext *ctx, TCGOp *op)
     uint64_t z_mask = ctx->z_mask;
 
     /*
-     * 32-bit ops generate 32-bit results.  For the result is zero test
-     * below, we can ignore high bits, but for further optimizations we
-     * need to record that the high bits contain garbage.
+     * 32-bit ops generate 32-bit results, which for the purpose of
+     * simplifying tcg are sign-extended.  Certainly that's how we
+     * represent our constants elsewhere.  Note that the bits will
+     * be reset properly for a 64-bit value when encountering the
+     * type changing opcodes.
      */
     if (ctx->type == TCG_TYPE_I32) {
-        ctx->z_mask |= MAKE_64BIT_MASK(32, 32);
-        a_mask &= MAKE_64BIT_MASK(0, 32);
-        z_mask &= MAKE_64BIT_MASK(0, 32);
+        a_mask = (int32_t)a_mask;
+        z_mask = (int32_t)z_mask;
+        ctx->z_mask = z_mask;
     }
 
     if (z_mask == 0) {
-- 
2.25.1

Certain targets, like riscv, produce signed 32-bit results.
This can lead to lots of redundant extensions as values are
manipulated.

Begin by tracking only the obvious sign-extensions, and
converting them to simple copies when possible.

Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
Reviewed-by: Luis Pires <luis.pires@eldorado.org.br>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/optimize.c | 123 ++++++++++++++++++++++++++++++++++++++++---------
 1 file changed, 102 insertions(+), 21 deletions(-)

diff --git a/tcg/optimize.c b/tcg/optimize.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/optimize.c
+++ b/tcg/optimize.c
@@ -XXX,XX +XXX,XX @@ typedef struct TempOptInfo {
     TCGTemp *next_copy;
     uint64_t val;
     uint64_t z_mask;  /* mask bit is 0 if and only if value bit is 0 */
+    uint64_t s_mask;  /* a left-aligned mask of clrsb(value) bits. */
 } TempOptInfo;
 
 typedef struct OptContext {
@@ -XXX,XX +XXX,XX @@ typedef struct OptContext {
     /* In flight values from optimization. */
     uint64_t a_mask;  /* mask bit is 0 iff value identical to first input */
     uint64_t z_mask;  /* mask bit is 0 iff value bit is 0 */
+    uint64_t s_mask;  /* mask of clrsb(value) bits */
     TCGType type;
 } OptContext;
 
+/* Calculate the smask for a specific value. */
+static uint64_t smask_from_value(uint64_t value)
+{
+    int rep = clrsb64(value);
+    return ~(~0ull >> rep);
+}
+
+/*
+ * Calculate the smask for a given set of known-zeros.
+ * If there are lots of zeros on the left, we can consider the remainder
+ * an unsigned field, and thus the corresponding signed field is one bit
+ * larger.
+ */
+static uint64_t smask_from_zmask(uint64_t zmask)
+{
+    /*
+     * Only the 0 bits are significant for zmask, thus the msb itself
+     * must be zero, else we have no sign information.
+     */
+    int rep = clz64(zmask);
+    if (rep == 0) {
+        return 0;
+    }
+    rep -= 1;
+    return ~(~0ull >> rep);
+}
+
 static inline TempOptInfo *ts_info(TCGTemp *ts)
 {
     return ts->state_ptr;
@@ -XXX,XX +XXX,XX @@ static void reset_ts(TCGTemp *ts)
     ti->prev_copy = ts;
     ti->is_const = false;
     ti->z_mask = -1;
+    ti->s_mask = 0;
 }
 
 static void reset_temp(TCGArg arg)
@@ -XXX,XX +XXX,XX @@ static void init_ts_info(OptContext *ctx, TCGTemp *ts)
         ti->is_const = true;
         ti->val = ts->val;
         ti->z_mask = ts->val;
+        ti->s_mask = smask_from_value(ts->val);
     } else {
         ti->is_const = false;
         ti->z_mask = -1;
+        ti->s_mask = 0;
     }
 }
 
@@ -XXX,XX +XXX,XX @@ static bool tcg_opt_gen_mov(OptContext *ctx, TCGOp *op, TCGArg dst, TCGArg src)
     op->args[1] = src;
 
     di->z_mask = si->z_mask;
+    di->s_mask = si->s_mask;
 
     if (src_ts->type == dst_ts->type) {
         TempOptInfo *ni = ts_info(si->next_copy);
@@ -XXX,XX +XXX,XX @@ static void finish_folding(OptContext *ctx, TCGOp *op)
 
     nb_oargs = def->nb_oargs;
     for (i = 0; i < nb_oargs; i++) {
-        reset_temp(op->args[i]);
+        TCGTemp *ts = arg_temp(op->args[i]);
+        reset_ts(ts);
         /*
-         * Save the corresponding known-zero bits mask for the
+         * Save the corresponding known-zero/sign bits mask for the
          * first output argument (only one supported so far).
          */
         if (i == 0) {
-            arg_info(op->args[i])->z_mask = ctx->z_mask;
+            ts_info(ts)->z_mask = ctx->z_mask;
+            ts_info(ts)->s_mask = ctx->s_mask;
         }
     }
 }
@@ -XXX,XX +XXX,XX @@ static bool fold_masks(OptContext *ctx, TCGOp *op)
 {
     uint64_t a_mask = ctx->a_mask;
     uint64_t z_mask = ctx->z_mask;
+    uint64_t s_mask = ctx->s_mask;
 
     /*
      * 32-bit ops generate 32-bit results, which for the purpose of
@@ -XXX,XX +XXX,XX @@ static bool fold_masks(OptContext *ctx, TCGOp *op)
     if (ctx->type == TCG_TYPE_I32) {
         a_mask = (int32_t)a_mask;
         z_mask = (int32_t)z_mask;
+        s_mask |= MAKE_64BIT_MASK(32, 32);
         ctx->z_mask = z_mask;
+        ctx->s_mask = s_mask;
     }
 
     if (z_mask == 0) {
@@ -XXX,XX +XXX,XX @@ static bool fold_brcond2(OptContext *ctx, TCGOp *op)
 
 static bool fold_bswap(OptContext *ctx, TCGOp *op)
 {
-    uint64_t z_mask, sign;
+    uint64_t z_mask, s_mask, sign;
 
     if (arg_is_const(op->args[1])) {
         uint64_t t = arg_info(op->args[1])->val;
@@ -XXX,XX +XXX,XX @@ static bool fold_bswap(OptContext *ctx, TCGOp *op)
     }
 
     z_mask = arg_info(op->args[1])->z_mask;
+
     switch (op->opc) {
     case INDEX_op_bswap16_i32:
     case INDEX_op_bswap16_i64:
@@ -XXX,XX +XXX,XX @@ static bool fold_bswap(OptContext *ctx, TCGOp *op)
     default:
         g_assert_not_reached();
     }
+    s_mask = smask_from_zmask(z_mask);
 
     switch (op->args[2] & (TCG_BSWAP_OZ | TCG_BSWAP_OS)) {
     case TCG_BSWAP_OZ:
@@ -XXX,XX +XXX,XX @@ static bool fold_bswap(OptContext *ctx, TCGOp *op)
         /* If the sign bit may be 1, force all the bits above to 1. */
         if (z_mask & sign) {
             z_mask |= sign;
+            s_mask = sign << 1;
         }
         break;
     default:
         /* The high bits are undefined: force all bits above the sign to 1. */
         z_mask |= sign << 1;
+        s_mask = 0;
         break;
     }
     ctx->z_mask = z_mask;
+    ctx->s_mask = s_mask;
 
     return fold_masks(ctx, op);
 }
@@ -XXX,XX +XXX,XX @@ static bool fold_eqv(OptContext *ctx, TCGOp *op)
 static bool fold_extract(OptContext *ctx, TCGOp *op)
 {
     uint64_t z_mask_old, z_mask;
+    int pos = op->args[2];
+    int len = op->args[3];
 
     if (arg_is_const(op->args[1])) {
         uint64_t t;
 
         t = arg_info(op->args[1])->val;
-        t = extract64(t, op->args[2], op->args[3]);
+        t = extract64(t, pos, len);
         return tcg_opt_gen_movi(ctx, op, op->args[0], t);
     }
 
     z_mask_old = arg_info(op->args[1])->z_mask;
-    z_mask = extract64(z_mask_old, op->args[2], op->args[3]);
-    if (op->args[2] == 0) {
+    z_mask = extract64(z_mask_old, pos, len);
+    if (pos == 0) {
         ctx->a_mask = z_mask_old ^ z_mask;
     }
     ctx->z_mask = z_mask;
+    ctx->s_mask = smask_from_zmask(z_mask);
 
     return fold_masks(ctx, op);
 }
@@ -XXX,XX +XXX,XX @@ static bool fold_extract2(OptContext *ctx, TCGOp *op)
 
 static bool fold_exts(OptContext *ctx, TCGOp *op)
 {
-    uint64_t z_mask_old, z_mask, sign;
+    uint64_t s_mask_old, s_mask, z_mask, sign;
     bool type_change = false;
 
     if (fold_const1(ctx, op)) {
         return true;
     }
 
-    z_mask_old = z_mask = arg_info(op->args[1])->z_mask;
+    z_mask = arg_info(op->args[1])->z_mask;
+    s_mask = arg_info(op->args[1])->s_mask;
+    s_mask_old = s_mask;
 
     switch (op->opc) {
     CASE_OP_32_64(ext8s):
@@ -XXX,XX +XXX,XX @@ static bool fold_exts(OptContext *ctx, TCGOp *op)
 
     if (z_mask & sign) {
         z_mask |= sign;
-    } else if (!type_change) {
-        ctx->a_mask = z_mask_old ^ z_mask;
     }
+    s_mask |= sign << 1;
+
     ctx->z_mask = z_mask;
+    ctx->s_mask = s_mask;
+    if (!type_change) {
+        ctx->a_mask = s_mask & ~s_mask_old;
+    }
 
     return fold_masks(ctx, op);
 }
@@ -XXX,XX +XXX,XX @@ static bool fold_extu(OptContext *ctx, TCGOp *op)
     }
 
     ctx->z_mask = z_mask;
+    ctx->s_mask = smask_from_zmask(z_mask);
     if (!type_change) {
         ctx->a_mask = z_mask_old ^ z_mask;
     }
@@ -XXX,XX +XXX,XX @@ static bool fold_qemu_ld(OptContext *ctx, TCGOp *op)
     MemOp mop = get_memop(oi);
     int width = 8 * memop_size(mop);
 
-    if (!(mop & MO_SIGN) && width < 64) {
-        ctx->z_mask = MAKE_64BIT_MASK(0, width);
+    if (width < 64) {
+        ctx->s_mask = MAKE_64BIT_MASK(width, 64 - width);
+        if (!(mop & MO_SIGN)) {
+            ctx->z_mask = MAKE_64BIT_MASK(0, width);
+            ctx->s_mask <<= 1;
+        }
     }
 
     /* Opcodes that touch guest memory stop the mb optimization.  */
@@ -XXX,XX +XXX,XX @@ static bool fold_setcond2(OptContext *ctx, TCGOp *op)
 
 static bool fold_sextract(OptContext *ctx, TCGOp *op)
 {
-    int64_t z_mask_old, z_mask;
+    uint64_t z_mask, s_mask, s_mask_old;
+    int pos = op->args[2];
+    int len = op->args[3];
 
     if (arg_is_const(op->args[1])) {
         uint64_t t;
 
         t = arg_info(op->args[1])->val;
-        t = sextract64(t, op->args[2], op->args[3]);
+        t = sextract64(t, pos, len);
         return tcg_opt_gen_movi(ctx, op, op->args[0], t);
     }
 
-    z_mask_old = arg_info(op->args[1])->z_mask;
-    z_mask = sextract64(z_mask_old, op->args[2], op->args[3]);
-    if (op->args[2] == 0 && z_mask >= 0) {
-        ctx->a_mask = z_mask_old ^ z_mask;
-    }
+    z_mask = arg_info(op->args[1])->z_mask;
+    z_mask = sextract64(z_mask, pos, len);
     ctx->z_mask = z_mask;
 
+    s_mask_old = arg_info(op->args[1])->s_mask;
+    s_mask = sextract64(s_mask_old, pos, len);
+    s_mask |= MAKE_64BIT_MASK(len, 64 - len);
+    ctx->s_mask = s_mask;
+
+    if (pos == 0) {
+        ctx->a_mask = s_mask & ~s_mask_old;
+    }
+
     return fold_masks(ctx, op);
 }
 
@@ -XXX,XX +XXX,XX @@ static bool fold_tcg_ld(OptContext *ctx, TCGOp *op)
 {
     /* We can't do any folding with a load, but we can record bits. */
     switch (op->opc) {
+    CASE_OP_32_64(ld8s):
+        ctx->s_mask = MAKE_64BIT_MASK(8, 56);
+        break;
     CASE_OP_32_64(ld8u):
         ctx->z_mask = MAKE_64BIT_MASK(0, 8);
+        ctx->s_mask = MAKE_64BIT_MASK(9, 55);
+        break;
+    CASE_OP_32_64(ld16s):
+        ctx->s_mask = MAKE_64BIT_MASK(16, 48);
         break;
     CASE_OP_32_64(ld16u):
         ctx->z_mask = MAKE_64BIT_MASK(0, 16);
+        ctx->s_mask = MAKE_64BIT_MASK(17, 47);
+        break;
+    case INDEX_op_ld32s_i64:
+        ctx->s_mask = MAKE_64BIT_MASK(32, 32);
         break;
     case INDEX_op_ld32u_i64:
         ctx->z_mask = MAKE_64BIT_MASK(0, 32);
+        ctx->s_mask = MAKE_64BIT_MASK(33, 31);
         break;
     default:
         g_assert_not_reached();
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
             ctx.type = TCG_TYPE_I32;
         }
 
-        /* Assume all bits affected, and no bits known zero. */
+        /* Assume all bits affected, no bits known zero, no sign reps. */
         ctx.a_mask = -1;
         ctx.z_mask = -1;
+        ctx.s_mask = 0;
 
         /*
          * Process each opcode.
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
         case INDEX_op_extrh_i64_i32:
             done = fold_extu(&ctx, op);
             break;
+        CASE_OP_32_64(ld8s):
         CASE_OP_32_64(ld8u):
+        CASE_OP_32_64(ld16s):
         CASE_OP_32_64(ld16u):
+        case INDEX_op_ld32s_i64:
         case INDEX_op_ld32u_i64:
             done = fold_tcg_ld(&ctx, op);
             break;
-- 
2.25.1

Sign repetitions are perforce all identical, whether they are 1 or 0.
Bitwise operations preserve the relative quantity of the repetitions.

Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
Reviewed-by: Luis Pires <luis.pires@eldorado.org.br>
Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/optimize.c | 29 +++++++++++++++++++++++++++++
 1 file changed, 29 insertions(+)

diff --git a/tcg/optimize.c b/tcg/optimize.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/optimize.c
+++ b/tcg/optimize.c
@@ -XXX,XX +XXX,XX @@ static bool fold_and(OptContext *ctx, TCGOp *op)
     z2 = arg_info(op->args[2])->z_mask;
     ctx->z_mask = z1 & z2;
 
+    /*
+     * Sign repetitions are perforce all identical, whether they are 1 or 0.
+     * Bitwise operations preserve the relative quantity of the repetitions.
+     */
+    ctx->s_mask = arg_info(op->args[1])->s_mask
+                & arg_info(op->args[2])->s_mask;
+
     /*
      * Known-zeros does not imply known-ones.  Therefore unless
      * arg2 is constant, we can't infer affected bits from it.
@@ -XXX,XX +XXX,XX @@ static bool fold_andc(OptContext *ctx, TCGOp *op)
     }
     ctx->z_mask = z1;
 
+    ctx->s_mask = arg_info(op->args[1])->s_mask
+                & arg_info(op->args[2])->s_mask;
     return fold_masks(ctx, op);
 }
 
@@ -XXX,XX +XXX,XX @@ static bool fold_eqv(OptContext *ctx, TCGOp *op)
         fold_xi_to_not(ctx, op, 0)) {
         return true;
     }
+
+    ctx->s_mask = arg_info(op->args[1])->s_mask
+                & arg_info(op->args[2])->s_mask;
     return false;
 }
 
@@ -XXX,XX +XXX,XX @@ static bool fold_movcond(OptContext *ctx, TCGOp *op)
 
     ctx->z_mask = arg_info(op->args[3])->z_mask
                 | arg_info(op->args[4])->z_mask;
+    ctx->s_mask = arg_info(op->args[3])->s_mask
+                & arg_info(op->args[4])->s_mask;
 
     if (arg_is_const(op->args[3]) && arg_is_const(op->args[4])) {
         uint64_t tv = arg_info(op->args[3])->val;
@@ -XXX,XX +XXX,XX @@ static bool fold_nand(OptContext *ctx, TCGOp *op)
         fold_xi_to_not(ctx, op, -1)) {
         return true;
     }
+
+    ctx->s_mask = arg_info(op->args[1])->s_mask
+                & arg_info(op->args[2])->s_mask;
     return false;
 }
 
@@ -XXX,XX +XXX,XX @@ static bool fold_nor(OptContext *ctx, TCGOp *op)
         fold_xi_to_not(ctx, op, 0)) {
         return true;
     }
+
+    ctx->s_mask = arg_info(op->args[1])->s_mask
+                & arg_info(op->args[2])->s_mask;
     return false;
 }
 
@@ -XXX,XX +XXX,XX @@ static bool fold_not(OptContext *ctx, TCGOp *op)
         return true;
     }
 
+    ctx->s_mask = arg_info(op->args[1])->s_mask;
+
     /* Because of fold_to_not, we want to always return true, via finish. */
     finish_folding(ctx, op);
     return true;
@@ -XXX,XX +XXX,XX @@ static bool fold_or(OptContext *ctx, TCGOp *op)
 
     ctx->z_mask = arg_info(op->args[1])->z_mask
                 | arg_info(op->args[2])->z_mask;
+    ctx->s_mask = arg_info(op->args[1])->s_mask
+                & arg_info(op->args[2])->s_mask;
     return fold_masks(ctx, op);
 }
 
@@ -XXX,XX +XXX,XX @@ static bool fold_orc(OptContext *ctx, TCGOp *op)
         fold_ix_to_not(ctx, op, 0)) {
         return true;
     }
+
+    ctx->s_mask = arg_info(op->args[1])->s_mask
+                & arg_info(op->args[2])->s_mask;
     return false;
 }
 
@@ -XXX,XX +XXX,XX @@ static bool fold_xor(OptContext *ctx, TCGOp *op)
 
     ctx->z_mask = arg_info(op->args[1])->z_mask
                 | arg_info(op->args[2])->z_mask;
+    ctx->s_mask = arg_info(op->args[1])->s_mask
+                & arg_info(op->args[2])->s_mask;
     return fold_masks(ctx, op);
 }
 
-- 
2.25.1

For constant shifts, we can simply shift the s_mask.

For variable shifts, we know that sar does not reduce
the s_mask, which helps for sequences like

ext32s_i64  t, in
    sar_i64     t, t, v
    ext32s_i64  out, t

allowing the final extend to be eliminated.

Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
Reviewed-by: Luis Pires <luis.pires@eldorado.org.br>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/optimize.c | 50 +++++++++++++++++++++++++++++++++++++++++++++++---
 1 file changed, 47 insertions(+), 3 deletions(-)

diff --git a/tcg/optimize.c b/tcg/optimize.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/optimize.c
+++ b/tcg/optimize.c
@@ -XXX,XX +XXX,XX @@ static uint64_t smask_from_zmask(uint64_t zmask)
     return ~(~0ull >> rep);
 }
 
+/*
+ * Recreate a properly left-aligned smask after manipulation.
+ * Some bit-shuffling, particularly shifts and rotates, may
+ * retain sign bits on the left, but may scatter disconnected
+ * sign bits on the right.  Retain only what remains to the left.
+ */
+static uint64_t smask_from_smask(int64_t smask)
+{
+    /* Only the 1 bits are significant for smask */
+    return smask_from_zmask(~smask);
+}
+
 static inline TempOptInfo *ts_info(TCGTemp *ts)
 {
     return ts->state_ptr;
@@ -XXX,XX +XXX,XX @@ static bool fold_sextract(OptContext *ctx, TCGOp *op)
 
 static bool fold_shift(OptContext *ctx, TCGOp *op)
 {
+    uint64_t s_mask, z_mask, sign;
+
     if (fold_const2(ctx, op) ||
         fold_ix_to_i(ctx, op, 0) ||
         fold_xi_to_x(ctx, op, 0)) {
         return true;
     }
 
+    s_mask = arg_info(op->args[1])->s_mask;
+    z_mask = arg_info(op->args[1])->z_mask;
+
     if (arg_is_const(op->args[2])) {
-        ctx->z_mask = do_constant_folding(op->opc, ctx->type,
-                                          arg_info(op->args[1])->z_mask,
-                                          arg_info(op->args[2])->val);
+        int sh = arg_info(op->args[2])->val;
+
+        ctx->z_mask = do_constant_folding(op->opc, ctx->type, z_mask, sh);
+
+        s_mask = do_constant_folding(op->opc, ctx->type, s_mask, sh);
+        ctx->s_mask = smask_from_smask(s_mask);
+
         return fold_masks(ctx, op);
     }
+
+    switch (op->opc) {
+    CASE_OP_32_64(sar):
+        /*
+         * Arithmetic right shift will not reduce the number of
+         * input sign repetitions.
+         */
+        ctx->s_mask = s_mask;
+        break;
+    CASE_OP_32_64(shr):
+        /*
+         * If the sign bit is known zero, then logical right shift
+         * will not reduced the number of input sign repetitions.
+         */
+        sign = (s_mask & -s_mask) >> 1;
+        if (!(z_mask & sign)) {
+            ctx->s_mask = s_mask;
+        }
+        break;
+    default:
+        break;
+    }
+
     return false;
 }
 
-- 
2.25.1

The following changes since commit 627634031092e1514f363fd8659a579398de0f0e:

Merge tag 'buildsys-qom-qdev-ui-20230227' of https://github.com/philmd/qemu into staging (2023-02-28 15:09:18 +0000)

are available in the Git repository at:

https://gitlab.com/rth7680/qemu.git tags/pull-tcg-20230228

for you to fetch changes up to c7fbf10db8718d2eba87712bc3410b671157a377:

tcg: Update docs/devel/tcg-ops.rst for temporary changes (2023-02-28 10:36:19 -1000)

----------------------------------------------------------------
helper-head: Add fpu/softfloat-types.h
softmmu: Use memmove in flatview_write_continue
tcg: Add sign param to probe_access_flags, probe_access_full
tcg: Convert TARGET_TB_PCREL to CF_PCREL
tcg: Simplify temporary lifetimes for translators

----------------------------------------------------------------
Akihiko Odaki (1):
      softmmu: Use memmove in flatview_write_continue

Anton Johansson via (27):
      include/exec: Introduce `CF_PCREL`
      target/i386: set `CF_PCREL` in `x86_cpu_realizefn`
      target/arm: set `CF_PCREL` in `arm_cpu_realizefn`
      accel/tcg: Replace `TARGET_TB_PCREL` with `CF_PCREL`
      include/exec: Replace `TARGET_TB_PCREL` with `CF_PCREL`
      target/arm: Replace `TARGET_TB_PCREL` with `CF_PCREL`
      target/i386: Replace `TARGET_TB_PCREL` with `CF_PCREL`
      include/exec: Remove `TARGET_TB_PCREL` define
      target/arm: Remove `TARGET_TB_PCREL` define
      target/i386: Remove `TARGET_TB_PCREL` define
      accel/tcg: Move jmp-cache `CF_PCREL` checks to caller
      accel/tcg: Replace `tb_pc()` with `tb->pc`
      target/tricore: Replace `tb_pc()` with `tb->pc`
      target/sparc: Replace `tb_pc()` with `tb->pc`
      target/sh4: Replace `tb_pc()` with `tb->pc`
      target/rx: Replace `tb_pc()` with `tb->pc`
      target/riscv: Replace `tb_pc()` with `tb->pc`
      target/openrisc: Replace `tb_pc()` with `tb->pc`
      target/mips: Replace `tb_pc()` with `tb->pc`
      target/microblaze: Replace `tb_pc()` with `tb->pc`
      target/loongarch: Replace `tb_pc()` with `tb->pc`
      target/i386: Replace `tb_pc()` with `tb->pc`
      target/hppa: Replace `tb_pc()` with `tb->pc`
      target/hexagon: Replace `tb_pc()` with `tb->pc`
      target/avr: Replace `tb_pc()` with `tb->pc`
      target/arm: Replace `tb_pc()` with `tb->pc`
      include/exec: Remove `tb_pc()`

Daniel Henrique Barboza (1):
      accel/tcg: Add 'size' param to probe_access_flags()

Philippe Mathieu-Daudé (1):
      exec/helper-head: Include missing "fpu/softfloat-types.h" header

Richard Henderson (32):
      accel/tcg: Add 'size' param to probe_access_full
      tcg: Adjust TCGContext.temps_in_use check
      accel/tcg: Pass max_insn to gen_intermediate_code by pointer
      accel/tcg: Use more accurate max_insns for tb_overflow
      tcg: Remove branch-to-next regardless of reference count
      tcg: Rename TEMP_LOCAL to TEMP_TB
      tcg: Use noinline for major tcg_gen_code subroutines
      tcg: Add liveness_pass_0
      tcg: Remove TEMP_NORMAL
      tcg: Pass TCGTempKind to tcg_temp_new_internal
      tcg: Use tcg_constant_i32 in tcg_gen_io_start
      tcg: Add tcg_gen_movi_ptr
      tcg: Add tcg_temp_ebb_new_{i32,i64,ptr}
      tcg: Use tcg_temp_ebb_new_* in tcg/
      tcg: Use tcg_constant_ptr in do_dup
      accel/tcg/plugin: Use tcg_temp_ebb_*
      accel/tcg/plugin: Tidy plugin_gen_disable_mem_helpers
      tcg: Don't re-use TEMP_TB temporaries
      tcg: Change default temp lifetime to TEMP_TB
      target/arm: Drop copies in gen_sve_{ldr,str}
      target/arm: Don't use tcg_temp_local_new_*
      target/cris: Don't use tcg_temp_local_new
      target/hexagon: Don't use tcg_temp_local_new_*
      target/hexagon/idef-parser: Drop gen_tmp_local
      target/hppa: Don't use tcg_temp_local_new
      target/i386: Don't use tcg_temp_local_new
      target/mips: Don't use tcg_temp_local_new
      target/ppc: Don't use tcg_temp_local_new
      target/xtensa: Don't use tcg_temp_local_new_*
      exec/gen-icount: Don't use tcg_temp_local_new_i32
      tcg: Remove tcg_temp_local_new_*, tcg_const_local_*
      tcg: Update docs/devel/tcg-ops.rst for temporary changes

From: Philippe Mathieu-Daudé <philmd@linaro.org>

'dh_ctype_f32' is defined as 'float32', itself declared
in "fpu/softfloat-types.h". Include this header to avoid
when refactoring other headers:

In file included from include/exec/helper-proto.h:7,
                   from include/tcg/tcg-op.h:29,
                   from ../../tcg/tcg-op-vec.c:22:
  include/exec/helper-head.h:44:22: error: unknown type name ‘float32’; did you mean ‘_Float32’?
     44 | #define dh_ctype_f32 float32
        |                      ^~~~~~~

Signed-off-by: Philippe Mathieu-Daudé <philmd@linaro.org>
Message-Id: <20221216225202.25664-1-philmd@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 include/exec/helper-head.h | 2 ++
 1 file changed, 2 insertions(+)

diff --git a/include/exec/helper-head.h b/include/exec/helper-head.h
index XXXXXXX..XXXXXXX 100644
--- a/include/exec/helper-head.h
+++ b/include/exec/helper-head.h
@@ -XXX,XX +XXX,XX @@
 #ifndef EXEC_HELPER_HEAD_H
 #define EXEC_HELPER_HEAD_H
 
+#include "fpu/softfloat-types.h"
+
 #define HELPER(name) glue(helper_, name)
 
 /* Some types that make sense in C, but not for TCG.  */
-- 
2.34.1

From: Akihiko Odaki <akihiko.odaki@daynix.com>

We found a case where the source passed to flatview_write_continue() may
overlap with the destination when fuzzing igb, a new proposed network
device with sanitizers.

igb uses pci_dma_map() to get Tx packet, and pci_dma_write() to write Rx
buffer. While pci_dma_write() is usually used to write data from
memory not mapped to the guest, if igb is configured to perform
loopback, the data will be sourced from the guest memory. The source and
destination can overlap and the usage of memcpy() will be invalid in
such a case.

While we do not really have to deal with such an invalid request for
igb, detecting the overlap in igb code beforehand requires complex code,
and only covers this specific case. Instead, just replace memcpy() with
memmove() to tolerate overlaps. Using memmove() will slightly damage the
performance as it will need to check overlaps before using SIMD
instructions for copying, but the cost should be negligible, considering
the inherent complexity of flatview_write_continue().

The test cases generated by the fuzzer is available at:
https://patchew.org/QEMU/20230129053316.1071513-1-alxndr@bu.edu/

The fixed test case is:
fuzz/crash_47dfe62d9f911bf523ff48cd441b61c0013ed805

Signed-off-by: Akihiko Odaki <akihiko.odaki@daynix.com>
Acked-by: Alexander Bulekov <alxndr@bu.edu>
Acked-by: David Hildenbrand <david@redhat.com>
Message-Id: <20230131030155.18932-1-akihiko.odaki@daynix.com>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 softmmu/physmem.c | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/softmmu/physmem.c b/softmmu/physmem.c
index XXXXXXX..XXXXXXX 100644
--- a/softmmu/physmem.c
+++ b/softmmu/physmem.c
@@ -XXX,XX +XXX,XX @@ static MemTxResult flatview_write_continue(FlatView *fv, hwaddr addr,
         } else {
             /* RAM case */
             ram_ptr = qemu_ram_ptr_length(mr->ram_block, addr1, &l, false);
-            memcpy(ram_ptr, buf, l);
+            memmove(ram_ptr, buf, l);
             invalidate_and_set_dirty(mr, addr1, l);
         }
 
-- 
2.34.1

From: Daniel Henrique Barboza <dbarboza@ventanamicro.com>

probe_access_flags() as it is today uses probe_access_full(), which in
turn uses probe_access_internal() with size = 0. probe_access_internal()
then uses the size to call the tlb_fill() callback for the given CPU.
This size param ('fault_size' as probe_access_internal() calls it) is
ignored by most existing .tlb_fill callback implementations, e.g.
arm_cpu_tlb_fill(), ppc_cpu_tlb_fill(), x86_cpu_tlb_fill() and
mips_cpu_tlb_fill() to name a few.

But RISC-V riscv_cpu_tlb_fill() actually uses it. The 'size' parameter
is used to check for PMP (Physical Memory Protection) access. This is
necessary because PMP does not make any guarantees about all the bytes
of the same page having the same permissions, i.e. the same page can
have different PMP properties, so we're forced to make sub-page range
checks. To allow RISC-V emulation to do a probe_acess_flags() that
covers PMP, we need to either add a 'size' param to the existing
probe_acess_flags() or create a new interface (e.g.
probe_access_range_flags).

There are quite a few probe_* APIs already, so let's add a 'size' param
to probe_access_flags() and re-use this API. This is done by open coding
what probe_access_full() does inside probe_acess_flags() and passing the
'size' param to probe_acess_internal(). Existing probe_access_flags()
callers use size = 0 to not change their current API usage. 'size' is
asserted to enforce single page access like probe_access() already does.

No behavioral changes intended.

Signed-off-by: Daniel Henrique Barboza <dbarboza@ventanamicro.com>
Message-Id: <20230223234427.521114-2-dbarboza@ventanamicro.com>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 include/exec/exec-all.h       |  3 ++-
 accel/stubs/tcg-stub.c        |  2 +-
 accel/tcg/cputlb.c            | 17 ++++++++++++++---
 accel/tcg/user-exec.c         |  5 +++--
 semihosting/uaccess.c         |  2 +-
 target/arm/ptw.c              |  2 +-
 target/arm/tcg/sve_helper.c   |  2 +-
 target/s390x/tcg/mem_helper.c |  2 +-
 8 files changed, 24 insertions(+), 11 deletions(-)

diff --git a/include/exec/exec-all.h b/include/exec/exec-all.h
index XXXXXXX..XXXXXXX 100644
--- a/include/exec/exec-all.h
+++ b/include/exec/exec-all.h
@@ -XXX,XX +XXX,XX @@ static inline void *probe_read(CPUArchState *env, target_ulong addr, int size,
  * probe_access_flags:
  * @env: CPUArchState
  * @addr: guest virtual address to look up
+ * @size: size of the access
  * @access_type: read, write or execute permission
  * @mmu_idx: MMU index to use for lookup
  * @nonfault: suppress the fault
@@ -XXX,XX +XXX,XX @@ static inline void *probe_read(CPUArchState *env, target_ulong addr, int size,
  * Do handle clean pages, so exclude TLB_NOTDIRY from the returned flags.
  * For simplicity, all "mmio-like" flags are folded to TLB_MMIO.
  */
-int probe_access_flags(CPUArchState *env, target_ulong addr,
+int probe_access_flags(CPUArchState *env, target_ulong addr, int size,
                        MMUAccessType access_type, int mmu_idx,
                        bool nonfault, void **phost, uintptr_t retaddr);
 
diff --git a/accel/stubs/tcg-stub.c b/accel/stubs/tcg-stub.c
index XXXXXXX..XXXXXXX 100644
--- a/accel/stubs/tcg-stub.c
+++ b/accel/stubs/tcg-stub.c
@@ -XXX,XX +XXX,XX @@ void tcg_flush_jmp_cache(CPUState *cpu)
 {
 }
 
-int probe_access_flags(CPUArchState *env, target_ulong addr,
+int probe_access_flags(CPUArchState *env, target_ulong addr, int size,
                        MMUAccessType access_type, int mmu_idx,
                        bool nonfault, void **phost, uintptr_t retaddr)
 {
diff --git a/accel/tcg/cputlb.c b/accel/tcg/cputlb.c
index XXXXXXX..XXXXXXX 100644
--- a/accel/tcg/cputlb.c
+++ b/accel/tcg/cputlb.c
@@ -XXX,XX +XXX,XX @@ int probe_access_full(CPUArchState *env, target_ulong addr,
     return flags;
 }
 
-int probe_access_flags(CPUArchState *env, target_ulong addr,
+int probe_access_flags(CPUArchState *env, target_ulong addr, int size,
                        MMUAccessType access_type, int mmu_idx,
                        bool nonfault, void **phost, uintptr_t retaddr)
 {
     CPUTLBEntryFull *full;
+    int flags;
 
-    return probe_access_full(env, addr, access_type, mmu_idx,
-                             nonfault, phost, &full, retaddr);
+    g_assert(-(addr | TARGET_PAGE_MASK) >= size);
+
+    flags = probe_access_internal(env, addr, size, access_type, mmu_idx,
+                                  nonfault, phost, &full, retaddr);
+
+    /* Handle clean RAM pages. */
+    if (unlikely(flags & TLB_NOTDIRTY)) {
+        notdirty_write(env_cpu(env), addr, 1, full, retaddr);
+        flags &= ~TLB_NOTDIRTY;
+    }
+
+    return flags;
 }
 
 void *probe_access(CPUArchState *env, target_ulong addr, int size,
diff --git a/accel/tcg/user-exec.c b/accel/tcg/user-exec.c
index XXXXXXX..XXXXXXX 100644
--- a/accel/tcg/user-exec.c
+++ b/accel/tcg/user-exec.c
@@ -XXX,XX +XXX,XX @@ static int probe_access_internal(CPUArchState *env, target_ulong addr,
     cpu_loop_exit_sigsegv(env_cpu(env), addr, access_type, maperr, ra);
 }
 
-int probe_access_flags(CPUArchState *env, target_ulong addr,
+int probe_access_flags(CPUArchState *env, target_ulong addr, int size,
                        MMUAccessType access_type, int mmu_idx,
                        bool nonfault, void **phost, uintptr_t ra)
 {
     int flags;
 
-    flags = probe_access_internal(env, addr, 0, access_type, nonfault, ra);
+    g_assert(-(addr | TARGET_PAGE_MASK) >= size);
+    flags = probe_access_internal(env, addr, size, access_type, nonfault, ra);
     *phost = flags ? NULL : g2h(env_cpu(env), addr);
     return flags;
 }
diff --git a/semihosting/uaccess.c b/semihosting/uaccess.c
index XXXXXXX..XXXXXXX 100644
--- a/semihosting/uaccess.c
+++ b/semihosting/uaccess.c
@@ -XXX,XX +XXX,XX @@ ssize_t softmmu_strlen_user(CPUArchState *env, target_ulong addr)
         /* Find the number of bytes remaining in the page. */
         left_in_page = TARGET_PAGE_SIZE - (addr & ~TARGET_PAGE_MASK);
 
-        flags = probe_access_flags(env, addr, MMU_DATA_LOAD,
+        flags = probe_access_flags(env, addr, 0, MMU_DATA_LOAD,
                                    mmu_idx, true, &h, 0);
         if (flags & TLB_INVALID_MASK) {
             return -1;
diff --git a/target/arm/ptw.c b/target/arm/ptw.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/ptw.c
+++ b/target/arm/ptw.c
@@ -XXX,XX +XXX,XX @@ static uint64_t arm_casq_ptw(CPUARMState *env, uint64_t old_val,
         void *discard;
 
         env->tlb_fi = fi;
-        flags = probe_access_flags(env, ptw->out_virt, MMU_DATA_STORE,
+        flags = probe_access_flags(env, ptw->out_virt, 0, MMU_DATA_STORE,
                                    arm_to_core_mmu_idx(ptw->in_ptw_idx),
                                    true, &discard, 0);
         env->tlb_fi = NULL;
diff --git a/target/arm/tcg/sve_helper.c b/target/arm/tcg/sve_helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/sve_helper.c
+++ b/target/arm/tcg/sve_helper.c
@@ -XXX,XX +XXX,XX @@ bool sve_probe_page(SVEHostPage *info, bool nofault, CPUARMState *env,
     addr = useronly_clean_ptr(addr);
 
 #ifdef CONFIG_USER_ONLY
-    flags = probe_access_flags(env, addr, access_type, mmu_idx, nofault,
+    flags = probe_access_flags(env, addr, 0, access_type, mmu_idx, nofault,
                                &info->host, retaddr);
 #else
     CPUTLBEntryFull *full;
diff --git a/target/s390x/tcg/mem_helper.c b/target/s390x/tcg/mem_helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/s390x/tcg/mem_helper.c
+++ b/target/s390x/tcg/mem_helper.c
@@ -XXX,XX +XXX,XX @@ static inline int s390_probe_access(CPUArchState *env, target_ulong addr,
                                     int mmu_idx, bool nonfault,
                                     void **phost, uintptr_t ra)
 {
-    int flags = probe_access_flags(env, addr, access_type, mmu_idx,
+    int flags = probe_access_flags(env, addr, 0, access_type, mmu_idx,
                                    nonfault, phost, ra);
 
     if (unlikely(flags & TLB_INVALID_MASK)) {
-- 
2.34.1

Change to match the recent change to probe_access_flags.
All existing callers updated to supply 0, so no change in behaviour.

Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
Reviewed-by: Daniel Henrique Barboza <dbarboza@ventanamicro.com>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 include/exec/exec-all.h              | 2 +-
 accel/tcg/cputlb.c                   | 4 ++--
 target/arm/ptw.c                     | 2 +-
 target/arm/tcg/mte_helper.c          | 4 ++--
 target/arm/tcg/sve_helper.c          | 2 +-
 target/arm/tcg/translate-a64.c       | 2 +-
 target/i386/tcg/sysemu/excp_helper.c | 4 ++--
 7 files changed, 10 insertions(+), 10 deletions(-)

diff --git a/include/exec/exec-all.h b/include/exec/exec-all.h
index XXXXXXX..XXXXXXX 100644
--- a/include/exec/exec-all.h
+++ b/include/exec/exec-all.h
@@ -XXX,XX +XXX,XX @@ int probe_access_flags(CPUArchState *env, target_ulong addr, int size,
  * and must be consumed or copied immediately, before any further
  * access or changes to TLB @mmu_idx.
  */
-int probe_access_full(CPUArchState *env, target_ulong addr,
+int probe_access_full(CPUArchState *env, target_ulong addr, int size,
                       MMUAccessType access_type, int mmu_idx,
                       bool nonfault, void **phost,
                       CPUTLBEntryFull **pfull, uintptr_t retaddr);
diff --git a/accel/tcg/cputlb.c b/accel/tcg/cputlb.c
index XXXXXXX..XXXXXXX 100644
--- a/accel/tcg/cputlb.c
+++ b/accel/tcg/cputlb.c
@@ -XXX,XX +XXX,XX @@ static int probe_access_internal(CPUArchState *env, target_ulong addr,
     return flags;
 }
 
-int probe_access_full(CPUArchState *env, target_ulong addr,
+int probe_access_full(CPUArchState *env, target_ulong addr, int size,
                       MMUAccessType access_type, int mmu_idx,
                       bool nonfault, void **phost, CPUTLBEntryFull **pfull,
                       uintptr_t retaddr)
 {
-    int flags = probe_access_internal(env, addr, 0, access_type, mmu_idx,
+    int flags = probe_access_internal(env, addr, size, access_type, mmu_idx,
                                       nonfault, phost, pfull, retaddr);
 
     /* Handle clean RAM pages.  */
diff --git a/target/arm/ptw.c b/target/arm/ptw.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/ptw.c
+++ b/target/arm/ptw.c
@@ -XXX,XX +XXX,XX @@ static bool S1_ptw_translate(CPUARMState *env, S1Translate *ptw,
         int flags;
 
         env->tlb_fi = fi;
-        flags = probe_access_full(env, addr, MMU_DATA_LOAD,
+        flags = probe_access_full(env, addr, 0, MMU_DATA_LOAD,
                                   arm_to_core_mmu_idx(s2_mmu_idx),
                                   true, &ptw->out_host, &full, 0);
         env->tlb_fi = NULL;
diff --git a/target/arm/tcg/mte_helper.c b/target/arm/tcg/mte_helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/mte_helper.c
+++ b/target/arm/tcg/mte_helper.c
@@ -XXX,XX +XXX,XX @@ static uint8_t *allocation_tag_mem(CPUARMState *env, int ptr_mmu_idx,
      * valid.  Indicate to probe_access_flags no-fault, then assert that
      * we received a valid page.
      */
-    flags = probe_access_full(env, ptr, ptr_access, ptr_mmu_idx,
+    flags = probe_access_full(env, ptr, 0, ptr_access, ptr_mmu_idx,
                               ra == 0, &host, &full, ra);
     assert(!(flags & TLB_INVALID_MASK));
 
@@ -XXX,XX +XXX,XX @@ static uint8_t *allocation_tag_mem(CPUARMState *env, int ptr_mmu_idx,
      */
     in_page = -(ptr | TARGET_PAGE_MASK);
     if (unlikely(ptr_size > in_page)) {
-        flags |= probe_access_full(env, ptr + in_page, ptr_access,
+        flags |= probe_access_full(env, ptr + in_page, 0, ptr_access,
                                    ptr_mmu_idx, ra == 0, &host, &full, ra);
         assert(!(flags & TLB_INVALID_MASK));
     }
diff --git a/target/arm/tcg/sve_helper.c b/target/arm/tcg/sve_helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/sve_helper.c
+++ b/target/arm/tcg/sve_helper.c
@@ -XXX,XX +XXX,XX @@ bool sve_probe_page(SVEHostPage *info, bool nofault, CPUARMState *env,
                                &info->host, retaddr);
 #else
     CPUTLBEntryFull *full;
-    flags = probe_access_full(env, addr, access_type, mmu_idx, nofault,
+    flags = probe_access_full(env, addr, 0, access_type, mmu_idx, nofault,
                               &info->host, &full, retaddr);
 #endif
     info->flags = flags;
diff --git a/target/arm/tcg/translate-a64.c b/target/arm/tcg/translate-a64.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/translate-a64.c
+++ b/target/arm/tcg/translate-a64.c
@@ -XXX,XX +XXX,XX @@ static bool is_guarded_page(CPUARMState *env, DisasContext *s)
      * that the TLB entry must be present and valid, and thus this
      * access will never raise an exception.
      */
-    flags = probe_access_full(env, addr, MMU_INST_FETCH, mmu_idx,
+    flags = probe_access_full(env, addr, 0, MMU_INST_FETCH, mmu_idx,
                               false, &host, &full, 0);
     assert(!(flags & TLB_INVALID_MASK));
 
diff --git a/target/i386/tcg/sysemu/excp_helper.c b/target/i386/tcg/sysemu/excp_helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/i386/tcg/sysemu/excp_helper.c
+++ b/target/i386/tcg/sysemu/excp_helper.c
@@ -XXX,XX +XXX,XX @@ static bool ptw_translate(PTETranslate *inout, hwaddr addr)
     int flags;
 
     inout->gaddr = addr;
-    flags = probe_access_full(inout->env, addr, MMU_DATA_STORE,
+    flags = probe_access_full(inout->env, addr, 0, MMU_DATA_STORE,
                               inout->ptw_idx, true, &inout->haddr, &full, 0);
 
     if (unlikely(flags & TLB_INVALID_MASK)) {
@@ -XXX,XX +XXX,XX @@ do_check_protect_pse36:
         CPUTLBEntryFull *full;
         int flags, nested_page_size;
 
-        flags = probe_access_full(env, paddr, access_type,
+        flags = probe_access_full(env, paddr, 0, access_type,
                                   MMU_NESTED_IDX, true,
                                   &pte_trans.haddr, &full, 0);
         if (unlikely(flags & TLB_INVALID_MASK)) {
-- 
2.34.1