Series comparison

-[PULL 00/63] tcg patch queue
+[PULL 00/56] tcg patch queue
-The following changes since commit 13d5f87cc3b94bfccc501142df4a7b12fee3a6e7:
+The following changes since commit c52d69e7dbaaed0ffdef8125e79218672c30161d:
-  Merge remote-tracking branch 'remotes/rth-gitlab/tags/pull-axp-20210628' into staging (2021-06-29 10:02:42 +0100)
+  Merge remote-tracking branch 'remotes/cschoenebeck/tags/pull-9p-20211027' into staging (2021-10-27 11:45:18 -0700)
 are available in the Git repository at:
-  https://gitlab.com/rth7680/qemu.git tags/pull-tcg-20210629
+  https://gitlab.com/rth7680/qemu.git tags/pull-tcg-20211027
-for you to fetch changes up to c86bd2dc4c1d37653c27293b2dacee6bb46bb995:
+for you to fetch changes up to 820c025f0dcacf2f3c12735b1f162893fbfa7bc6:
-  tcg/riscv: Remove MO_BSWAP handling (2021-06-29 10:04:57 -0700)
+  tcg/optimize: Propagate sign info for shifting (2021-10-27 17:11:23 -0700)
 ----------------------------------------------------------------
-TranslatorOps conversion for target/avr
+Improvements to qemu/int128
-TranslatorOps conversion for target/cris
+Fixes for 128/64 division.
-TranslatorOps conversion for target/nios2
+Cleanup tcg/optimize.c
-Simple vector operations on TCGv_i32
+Optimize redundant sign extensions
 Host signal fixes for *BSD
 Improvements to tcg bswap operations
 ----------------------------------------------------------------
-LIU Zhiwei (5):
+Frédéric Pétrot (1):
-      tcg: Add tcg_gen_vec_add{sub}16_i32
+      qemu/int128: Add int128_{not,xor}
       tcg: Add tcg_gen_vec_add{sub}8_i32
       tcg: Add tcg_gen_vec_shl{shr}{sar}16i_i32
       tcg: Add tcg_gen_vec_shl{shr}{sar}8i_i32
       tcg: Implement tcg_gen_vec_add{sub}32_tl
-Richard Henderson (57):
+Luis Pires (4):
-      target/nios2: Replace DISAS_TB_JUMP with DISAS_NORETURN
+      host-utils: move checks out of divu128/divs128
-      target/nios2: Use global cpu_env
+      host-utils: move udiv_qrnnd() to host-utils
-      target/nios2: Use global cpu_R
+      host-utils: add 128-bit quotient support to divu128/divs128
-      target/nios2: Add DisasContextBase to DisasContext
+      host-utils: add unit tests for divu128/divs128
       target/nios2: Convert to TranslatorOps
       target/nios2: Remove assignment to env in handle_instruction
       target/nios2: Clean up goto in handle_instruction
       target/nios2: Inline handle_instruction
       target/nios2: Use pc_next for pc + 4
       target/avr: Add DisasContextBase to DisasContext
       target/avr: Change ctx to DisasContext* in gen_intermediate_code
       target/avr: Convert to TranslatorOps
       target/cris: Add DisasContextBase to DisasContext
       target/cris: Remove DISAS_SWI
       target/cris: Replace DISAS_TB_JUMP with DISAS_NORETURN
       target/cris: Mark exceptions as DISAS_NORETURN
       target/cris: Fix use_goto_tb
       target/cris: Convert to TranslatorOps
       target/cris: Mark helper_raise_exception noreturn
       target/cris: Mark static arrays const
       target/cris: Fold unhandled X_FLAG changes into cpustate_changed
       target/cris: Set cpustate_changed for rfe/rfn
       target/cris: Add DISAS_UPDATE_NEXT
       target/cris: Add DISAS_DBRANCH
       target/cris: Use tcg_gen_lookup_and_goto_ptr
       target/cris: Improve JMP_INDIRECT
       target/cris: Remove dc->flagx_known
       target/cris: Do not exit tb for X_FLAG changes
       tcg: Add flags argument to bswap opcodes
       tcg/i386: Support bswap flags
       tcg/aarch64: Merge tcg_out_rev{16,32,64}
       tcg/aarch64: Support bswap flags
       tcg/arm: Support bswap flags
       tcg/ppc: Split out tcg_out_ext{8,16,32}s
       tcg/ppc: Split out tcg_out_sari{32,64}
       tcg/ppc: Split out tcg_out_bswap16
       tcg/ppc: Split out tcg_out_bswap32
       tcg/ppc: Split out tcg_out_bswap64
       tcg/ppc: Support bswap flags
       tcg/ppc: Use power10 byte-reverse instructions
       tcg/s390: Support bswap flags
       tcg/mips: Support bswap flags in tcg_out_bswap16
       tcg/mips: Support bswap flags in tcg_out_bswap32
       tcg/tci: Support bswap flags
       tcg: Handle new bswap flags during optimize
       tcg: Add flags argument to tcg_gen_bswap16_*, tcg_gen_bswap32_i64
       tcg: Make use of bswap flags in tcg_gen_qemu_ld_*
       tcg: Make use of bswap flags in tcg_gen_qemu_st_*
       target/arm: Improve REV32
       target/arm: Improve vector REV
       target/arm: Improve REVSH
       target/i386: Improve bswap translation
       target/sh4: Improve swap.b translation
       target/mips: Fix gen_mxu_s32ldd_s32lddr
       tcg/arm: Unset TCG_TARGET_HAS_MEMORY_BSWAP
       tcg/aarch64: Unset TCG_TARGET_HAS_MEMORY_BSWAP
       tcg/riscv: Remove MO_BSWAP handling
-Warner Losh (1):
+Richard Henderson (51):
-      tcg: Use correct trap number for page faults on *BSD systems
+      tcg/optimize: Rename "mask" to "z_mask"
       tcg/optimize: Split out OptContext
       tcg/optimize: Remove do_default label
       tcg/optimize: Change tcg_opt_gen_{mov,movi} interface
       tcg/optimize: Move prev_mb into OptContext
       tcg/optimize: Split out init_arguments
       tcg/optimize: Split out copy_propagate
       tcg/optimize: Split out fold_call
       tcg/optimize: Drop nb_oargs, nb_iargs locals
       tcg/optimize: Change fail return for do_constant_folding_cond*
       tcg/optimize: Return true from tcg_opt_gen_{mov,movi}
       tcg/optimize: Split out finish_folding
       tcg/optimize: Use a boolean to avoid a mass of continues
       tcg/optimize: Split out fold_mb, fold_qemu_{ld,st}
       tcg/optimize: Split out fold_const{1,2}
       tcg/optimize: Split out fold_setcond2
       tcg/optimize: Split out fold_brcond2
       tcg/optimize: Split out fold_brcond
       tcg/optimize: Split out fold_setcond
       tcg/optimize: Split out fold_mulu2_i32
       tcg/optimize: Split out fold_addsub2_i32
       tcg/optimize: Split out fold_movcond
       tcg/optimize: Split out fold_extract2
       tcg/optimize: Split out fold_extract, fold_sextract
       tcg/optimize: Split out fold_deposit
       tcg/optimize: Split out fold_count_zeros
       tcg/optimize: Split out fold_bswap
       tcg/optimize: Split out fold_dup, fold_dup2
       tcg/optimize: Split out fold_mov
       tcg/optimize: Split out fold_xx_to_i
       tcg/optimize: Split out fold_xx_to_x
       tcg/optimize: Split out fold_xi_to_i
       tcg/optimize: Add type to OptContext
       tcg/optimize: Split out fold_to_not
       tcg/optimize: Split out fold_sub_to_neg
       tcg/optimize: Split out fold_xi_to_x
       tcg/optimize: Split out fold_ix_to_i
       tcg/optimize: Split out fold_masks
       tcg/optimize: Expand fold_mulu2_i32 to all 4-arg multiplies
       tcg/optimize: Expand fold_addsub2_i32 to 64-bit ops
       tcg/optimize: Sink commutative operand swapping into fold functions
       tcg/optimize: Stop forcing z_mask to "garbage" for 32-bit values
       tcg/optimize: Use fold_xx_to_i for orc
       tcg/optimize: Use fold_xi_to_x for mul
       tcg/optimize: Use fold_xi_to_x for div
       tcg/optimize: Use fold_xx_to_i for rem
       tcg/optimize: Optimize sign extensions
       tcg/optimize: Propagate sign info for logical operations
       tcg/optimize: Propagate sign info for setcond
       tcg/optimize: Propagate sign info for bit counting
       tcg/optimize: Propagate sign info for shifting
- include/tcg/tcg-op-gvec.h       |  43 ++++
+ include/fpu/softfloat-macros.h |   82 --
- include/tcg/tcg-op.h            |   8 +-
+ include/hw/clock.h             |    5 +-
- include/tcg/tcg-opc.h           |  10 +-
+ include/qemu/host-utils.h      |  121 +-
- include/tcg/tcg.h               |  12 +
+ include/qemu/int128.h          |   20 +
- target/cris/helper.h            |   2 +-
+ target/ppc/int_helper.c        |   23 +-
- tcg/aarch64/tcg-target.h        |   2 +-
+ tcg/optimize.c                 | 2644 ++++++++++++++++++++++++----------------
- tcg/arm/tcg-target.h            |   2 +-
+ tests/unit/test-div128.c       |  197 +++
- accel/tcg/user-exec.c           |  20 +-
+ util/host-utils.c              |  147 ++-
- target/arm/translate-a64.c      |  21 +-
+ tests/unit/meson.build         |    1 +
- target/arm/translate.c          |   4 +-
+files changed, 2053 insertions(+), 1187 deletions(-)
- target/avr/translate.c          | 284 ++++++++++++----------
+ create mode 100644 tests/unit/test-div128.c
  target/cris/translate.c         | 515 ++++++++++++++++++++--------------------
  target/i386/tcg/translate.c     |  14 +-
  target/mips/tcg/mxu_translate.c |   6 +-
  target/nios2/translate.c        | 318 ++++++++++++-------------
  target/s390x/translate.c        |   4 +-
  target/sh4/translate.c          |   3 +-
  tcg/optimize.c                  |  56 ++++-
  tcg/tcg-op-gvec.c               | 122 ++++++++++
  tcg/tcg-op.c                    | 143 +++++++----
  tcg/tcg.c                       |  28 +++
  tcg/tci.c                       |   3 +-
  target/cris/translate_v10.c.inc |  17 +-
  tcg/aarch64/tcg-target.c.inc    | 125 ++++------
  tcg/arm/tcg-target.c.inc        | 295 ++++++++++-------------
  tcg/i386/tcg-target.c.inc       |  20 +-
  tcg/mips/tcg-target.c.inc       | 102 ++++----
  tcg/ppc/tcg-target.c.inc        | 230 ++++++++++++------
  tcg/riscv/tcg-target.c.inc      |  64 ++---
  tcg/s390/tcg-target.c.inc       |  34 ++-
  tcg/tci/tcg-target.c.inc        |  23 +-
  tcg/README                      |  22 +-
 files changed, 1458 insertions(+), 1094 deletions(-)

-[PULL 32/63] tcg: Add tcg_gen_vec_shl{shr}{sar}8i_i32
+[PULL 01/56] qemu/int128: Add int128_{not,xor}
-From: LIU Zhiwei <zhiwei_liu@c-sky.com>
+From: Frédéric Pétrot <frederic.petrot@univ-grenoble-alpes.fr>
-Implement tcg_gen_vec_shl{shr}{sar}8i_tl by adding corresponging i32 OP.
+Addition of not and xor on 128-bit integers.
-Signed-off-by: LIU Zhiwei <zhiwei_liu@c-sky.com>
+Signed-off-by: Frédéric Pétrot <frederic.petrot@univ-grenoble-alpes.fr>
-Message-Id: <20210624105023.3852-5-zhiwei_liu@c-sky.com>
+Co-authored-by: Fabien Portas <fabien.portas@grenoble-inp.org>
 Message-Id: <20211025122818.168890-3-frederic.petrot@univ-grenoble-alpes.fr>
 [rth: Split out logical operations.]
 Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- include/tcg/tcg-op-gvec.h | 10 ++++++++++
+ include/qemu/int128.h | 20 ++++++++++++++++++++
- tcg/tcg-op-gvec.c         | 28 ++++++++++++++++++++++++++++
+file changed, 20 insertions(+)
 files changed, 38 insertions(+)
-diff --git a/include/tcg/tcg-op-gvec.h b/include/tcg/tcg-op-gvec.h
+diff --git a/include/qemu/int128.h b/include/qemu/int128.h
 index XXXXXXX..XXXXXXX 100644
---- a/include/tcg/tcg-op-gvec.h
+--- a/include/qemu/int128.h
-+++ b/include/tcg/tcg-op-gvec.h
++++ b/include/qemu/int128.h
-@@ -XXX,XX +XXX,XX @@ void tcg_gen_vec_add16_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b);
+@@ -XXX,XX +XXX,XX @@ static inline Int128 int128_exts64(int64_t a)
- void tcg_gen_vec_sub8_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b);
+     return a;
  void tcg_gen_vec_sub16_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b);
 +void tcg_gen_vec_shl8i_i32(TCGv_i32 d, TCGv_i32 a, int32_t);
  void tcg_gen_vec_shl16i_i32(TCGv_i32 d, TCGv_i32 a, int32_t);
 +void tcg_gen_vec_shr8i_i32(TCGv_i32 d, TCGv_i32 a, int32_t);
  void tcg_gen_vec_shr16i_i32(TCGv_i32 d, TCGv_i32 a, int32_t);
 +void tcg_gen_vec_sar8i_i32(TCGv_i32 d, TCGv_i32 a, int32_t);
  void tcg_gen_vec_sar16i_i32(TCGv_i32 d, TCGv_i32 a, int32_t);
  #if TARGET_LONG_BITS == 64
@@ -XXX,XX +XXX,XX @@ void tcg_gen_vec_sar16i_i32(TCGv_i32 d, TCGv_i32 a, int32_t);
  #define tcg_gen_vec_sub8_tl  tcg_gen_vec_sub8_i64
  #define tcg_gen_vec_add16_tl tcg_gen_vec_add16_i64
  #define tcg_gen_vec_sub16_tl tcg_gen_vec_sub16_i64
 +#define tcg_gen_vec_shl8i_tl tcg_gen_vec_shl8i_i64
 +#define tcg_gen_vec_shr8i_tl tcg_gen_vec_shr8i_i64
 +#define tcg_gen_vec_sar8i_tl tcg_gen_vec_sar8i_i64
  #define tcg_gen_vec_shl16i_tl tcg_gen_vec_shl16i_i64
  #define tcg_gen_vec_shr16i_tl tcg_gen_vec_shr16i_i64
  #define tcg_gen_vec_sar16i_tl tcg_gen_vec_sar16i_i64
 +
  #else
  #define tcg_gen_vec_add8_tl  tcg_gen_vec_add8_i32
  #define tcg_gen_vec_sub8_tl  tcg_gen_vec_sub8_i32
  #define tcg_gen_vec_add16_tl tcg_gen_vec_add16_i32
  #define tcg_gen_vec_sub16_tl tcg_gen_vec_sub16_i32
 +#define tcg_gen_vec_shl8i_tl tcg_gen_vec_shl8i_i32
 +#define tcg_gen_vec_shr8i_tl tcg_gen_vec_shr8i_i32
 +#define tcg_gen_vec_sar8i_tl tcg_gen_vec_sar8i_i32
  #define tcg_gen_vec_shl16i_tl tcg_gen_vec_shl16i_i32
  #define tcg_gen_vec_shr16i_tl tcg_gen_vec_shr16i_i32
  #define tcg_gen_vec_sar16i_tl tcg_gen_vec_sar16i_i32
 diff --git a/tcg/tcg-op-gvec.c b/tcg/tcg-op-gvec.c
 index XXXXXXX..XXXXXXX 100644
 --- a/tcg/tcg-op-gvec.c
 +++ b/tcg/tcg-op-gvec.c
@@ -XXX,XX +XXX,XX @@ void tcg_gen_vec_shl16i_i64(TCGv_i64 d, TCGv_i64 a, int64_t c)
      tcg_gen_andi_i64(d, d, mask);
  }
-+void tcg_gen_vec_shl8i_i32(TCGv_i32 d, TCGv_i32 a, int32_t c)
++static inline Int128 int128_not(Int128 a)
 +{
-+    uint32_t mask = dup_const(MO_8, 0xff << c);
++    return ~a;
 +    tcg_gen_shli_i32(d, a, c);
 +    tcg_gen_andi_i32(d, d, mask);
 +}
 +
- void tcg_gen_vec_shl16i_i32(TCGv_i32 d, TCGv_i32 a, int32_t c)
+ static inline Int128 int128_and(Int128 a, Int128 b)
  {
-     uint32_t mask = dup_const(MO_16, 0xffff << c);
+     return a & b;
-@@ -XXX,XX +XXX,XX @@ void tcg_gen_vec_shr16i_i64(TCGv_i64 d, TCGv_i64 a, int64_t c)
+@@ -XXX,XX +XXX,XX @@ static inline Int128 int128_or(Int128 a, Int128 b)
-     tcg_gen_andi_i64(d, d, mask);
+     return a | b;
  }
-+void tcg_gen_vec_shr8i_i32(TCGv_i32 d, TCGv_i32 a, int32_t c)
++static inline Int128 int128_xor(Int128 a, Int128 b)
 +{
-+    uint32_t mask = dup_const(MO_8, 0xff >> c);
++    return a ^ b;
 +    tcg_gen_shri_i32(d, a, c);
 +    tcg_gen_andi_i32(d, d, mask);
 +}
 +
- void tcg_gen_vec_shr16i_i32(TCGv_i32 d, TCGv_i32 a, int32_t c)
+ static inline Int128 int128_rshift(Int128 a, int n)
  {
-     uint32_t mask = dup_const(MO_16, 0xffff >> c);
+     return a >> n;
-@@ -XXX,XX +XXX,XX @@ void tcg_gen_vec_sar16i_i64(TCGv_i64 d, TCGv_i64 a, int64_t c)
+@@ -XXX,XX +XXX,XX @@ static inline Int128 int128_exts64(int64_t a)
-     tcg_temp_free_i64(s);
+     return int128_make128(a, (a < 0) ? -1 : 0);
  }
-+void tcg_gen_vec_sar8i_i32(TCGv_i32 d, TCGv_i32 a, int32_t c)
++static inline Int128 int128_not(Int128 a)
 +{
-+    uint32_t s_mask = dup_const(MO_8, 0x80 >> c);
++    return int128_make128(~a.lo, ~a.hi);
 +    uint32_t c_mask = dup_const(MO_8, 0xff >> c);
 +    TCGv_i32 s = tcg_temp_new_i32();
 +
 +    tcg_gen_shri_i32(d, a, c);
 +    tcg_gen_andi_i32(s, d, s_mask);  /* isolate (shifted) sign bit */
 +    tcg_gen_muli_i32(s, s, (2 << c) - 2); /* replicate isolated signs */
 +    tcg_gen_andi_i32(d, d, c_mask);  /* clear out bits above sign  */
 +    tcg_gen_or_i32(d, d, s);         /* include sign extension */
 +    tcg_temp_free_i32(s);
 +}
 +
- void tcg_gen_vec_sar16i_i32(TCGv_i32 d, TCGv_i32 a, int32_t c)
+ static inline Int128 int128_and(Int128 a, Int128 b)
  {
-     uint32_t s_mask = dup_const(MO_16, 0x8000 >> c);
+     return int128_make128(a.lo & b.lo, a.hi & b.hi);
@@ -XXX,XX +XXX,XX @@ static inline Int128 int128_or(Int128 a, Int128 b)
      return int128_make128(a.lo | b.lo, a.hi | b.hi);
  }
 +static inline Int128 int128_xor(Int128 a, Int128 b)
 +{
 +    return int128_make128(a.lo ^ b.lo, a.hi ^ b.hi);
 +}
 +
  static inline Int128 int128_rshift(Int128 a, int n)
  {
      int64_t h;
 --
 .25.1

-[PULL 63/63] tcg/riscv: Remove MO_BSWAP handling
+[PULL 02/56] host-utils: move checks out of divu128/divs128
-TCG_TARGET_HAS_MEMORY_BSWAP is already unset for this backend,
+From: Luis Pires <luis.pires@eldorado.org.br>
-which means that MO_BSWAP be handled by the middle-end and
-will never be seen by the backend.  Thus the indexes used with
+In preparation for changing the divu128/divs128 implementations
-qemu_{ld,st}_helpers will always be zero.
+to allow for quotients larger than 64 bits, move the div-by-zero
+and overflow checks to the callers.
-Tidy the comments and asserts in tcg_out_qemu_{ld,st}_direct.
-It is not that we do not handle bswap "yet", but never will.
+Signed-off-by: Luis Pires <luis.pires@eldorado.org.br>
+Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
-Acked-by: Alistair Francis <alistair.francis@wdc.com>
+Message-Id: <20211025191154.350831-2-luis.pires@eldorado.org.br>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- tcg/riscv/tcg-target.c.inc | 64 ++++++++++++++++++++------------------
+ include/hw/clock.h        |  5 +++--
-file changed, 33 insertions(+), 31 deletions(-)
+ include/qemu/host-utils.h | 34 ++++++++++++---------------------
+ target/ppc/int_helper.c   | 14 +++++++++-----
-diff --git a/tcg/riscv/tcg-target.c.inc b/tcg/riscv/tcg-target.c.inc
+ util/host-utils.c         | 40 ++++++++++++++++++---------------------
-index XXXXXXX..XXXXXXX 100644
+files changed, 42 insertions(+), 51 deletions(-)
---- a/tcg/riscv/tcg-target.c.inc
-+++ b/tcg/riscv/tcg-target.c.inc
+diff --git a/include/hw/clock.h b/include/hw/clock.h
-@@ -XXX,XX +XXX,XX @@ static void tcg_out_mb(TCGContext *s, TCGArg a0)
+index XXXXXXX..XXXXXXX 100644
- /* helper signature: helper_ret_ld_mmu(CPUState *env, target_ulong addr,
+--- a/include/hw/clock.h
-  *                                     TCGMemOpIdx oi, uintptr_t ra)
++++ b/include/hw/clock.h
-  */
+@@ -XXX,XX +XXX,XX @@ static inline uint64_t clock_ns_to_ticks(const Clock *clk, uint64_t ns)
--static void * const qemu_ld_helpers[16] = {
+         return 0;
--    [MO_UB]   = helper_ret_ldub_mmu,
+     }
--    [MO_SB]   = helper_ret_ldsb_mmu,
+     /*
--    [MO_LEUW] = helper_le_lduw_mmu,
+-     * Ignore divu128() return value as we've caught div-by-zero and don't
--    [MO_LESW] = helper_le_ldsw_mmu,
+-     * need different behaviour for overflow.
--    [MO_LEUL] = helper_le_ldul_mmu,
++     * BUG: when CONFIG_INT128 is not defined, the current implementation of
-+static void * const qemu_ld_helpers[8] = {
++     * divu128 does not return a valid truncated quotient, so the result will
-+    [MO_UB] = helper_ret_ldub_mmu,
++     * be wrong.
-+    [MO_SB] = helper_ret_ldsb_mmu,
+      */
-+#ifdef HOST_WORDS_BIGENDIAN
+     divu128(&lo, &hi, clk->period);
-+    [MO_UW] = helper_be_lduw_mmu,
+     return lo;
-+    [MO_SW] = helper_be_ldsw_mmu,
+diff --git a/include/qemu/host-utils.h b/include/qemu/host-utils.h
-+    [MO_UL] = helper_be_ldul_mmu,
+index XXXXXXX..XXXXXXX 100644
- #if TCG_TARGET_REG_BITS == 64
+--- a/include/qemu/host-utils.h
--    [MO_LESL] = helper_le_ldsl_mmu,
++++ b/include/qemu/host-utils.h
-+    [MO_SL] = helper_be_ldsl_mmu,
+@@ -XXX,XX +XXX,XX @@ static inline uint64_t muldiv64(uint64_t a, uint32_t b, uint32_t c)
      return (__int128_t)a * b / c;
  }
 -static inline int divu128(uint64_t *plow, uint64_t *phigh, uint64_t divisor)
 +static inline void divu128(uint64_t *plow, uint64_t *phigh, uint64_t divisor)
  {
 -    if (divisor == 0) {
 -        return 1;
 -    } else {
 -        __uint128_t dividend = ((__uint128_t)*phigh << 64) | *plow;
 -        __uint128_t result = dividend / divisor;
 -        *plow = result;
 -        *phigh = dividend % divisor;
 -        return result > UINT64_MAX;
 -    }
 +    __uint128_t dividend = ((__uint128_t)*phigh << 64) | *plow;
 +    __uint128_t result = dividend / divisor;
 +    *plow = result;
 +    *phigh = dividend % divisor;
  }
 -static inline int divs128(int64_t *plow, int64_t *phigh, int64_t divisor)
 +static inline void divs128(int64_t *plow, int64_t *phigh, int64_t divisor)
  {
 -    if (divisor == 0) {
 -        return 1;
 -    } else {
 -        __int128_t dividend = ((__int128_t)*phigh << 64) | (uint64_t)*plow;
 -        __int128_t result = dividend / divisor;
 -        *plow = result;
 -        *phigh = dividend % divisor;
 -        return result != *plow;
 -    }
 +    __int128_t dividend = ((__int128_t)*phigh << 64) | (uint64_t)*plow;
 +    __int128_t result = dividend / divisor;
 +    *plow = result;
 +    *phigh = dividend % divisor;
  }
  #else
  void muls64(uint64_t *plow, uint64_t *phigh, int64_t a, int64_t b);
  void mulu64(uint64_t *plow, uint64_t *phigh, uint64_t a, uint64_t b);
 -int divu128(uint64_t *plow, uint64_t *phigh, uint64_t divisor);
 -int divs128(int64_t *plow, int64_t *phigh, int64_t divisor);
 +void divu128(uint64_t *plow, uint64_t *phigh, uint64_t divisor);
 +void divs128(int64_t *plow, int64_t *phigh, int64_t divisor);
  static inline uint64_t muldiv64(uint64_t a, uint32_t b, uint32_t c)
  {
 diff --git a/target/ppc/int_helper.c b/target/ppc/int_helper.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/ppc/int_helper.c
 +++ b/target/ppc/int_helper.c
@@ -XXX,XX +XXX,XX @@ uint64_t helper_divdeu(CPUPPCState *env, uint64_t ra, uint64_t rb, uint32_t oe)
      uint64_t rt = 0;
      int overflow = 0;
 -    overflow = divu128(&rt, &ra, rb);
 -
 -    if (unlikely(overflow)) {
 +    if (unlikely(rb == 0 || ra >= rb)) {
 +        overflow = 1;
          rt = 0; /* Undefined */
 +    } else {
 +        divu128(&rt, &ra, rb);
      }
      if (oe) {
@@ -XXX,XX +XXX,XX @@ uint64_t helper_divde(CPUPPCState *env, uint64_t rau, uint64_t rbu, uint32_t oe)
      int64_t rt = 0;
      int64_t ra = (int64_t)rau;
      int64_t rb = (int64_t)rbu;
 -    int overflow = divs128(&rt, &ra, rb);
 +    int overflow = 0;
 -    if (unlikely(overflow)) {
 +    if (unlikely(rb == 0 || uabs64(ra) >= uabs64(rb))) {
 +        overflow = 1;
          rt = 0; /* Undefined */
 +    } else {
 +        divs128(&rt, &ra, rb);
      }
      if (oe) {
 diff --git a/util/host-utils.c b/util/host-utils.c
 index XXXXXXX..XXXXXXX 100644
 --- a/util/host-utils.c
 +++ b/util/host-utils.c
@@ -XXX,XX +XXX,XX @@ void muls64 (uint64_t *plow, uint64_t *phigh, int64_t a, int64_t b)
      *phigh = rh;
  }
 -/* Unsigned 128x64 division.  Returns 1 if overflow (divide by zero or */
 -/* quotient exceeds 64 bits).  Otherwise returns quotient via plow and */
 -/* remainder via phigh. */
 -int divu128(uint64_t *plow, uint64_t *phigh, uint64_t divisor)
 +/*
 + * Unsigned 128-by-64 division. Returns quotient via plow and
 + * remainder via phigh.
 + * The result must fit in 64 bits (plow) - otherwise, the result
 + * is undefined.
 + * This function will cause a division by zero if passed a zero divisor.
 + */
 +void divu128(uint64_t *plow, uint64_t *phigh, uint64_t divisor)
  {
      uint64_t dhi = *phigh;
      uint64_t dlo = *plow;
      unsigned i;
      uint64_t carry = 0;
 -    if (divisor == 0) {
 -        return 1;
 -    } else if (dhi == 0) {
 +    if (divisor == 0 || dhi == 0) {
          *plow  = dlo / divisor;
          *phigh = dlo % divisor;
 -        return 0;
 -    } else if (dhi >= divisor) {
 -        return 1;
      } else {
          for (i = 0; i < 64; i++) {
@@ -XXX,XX +XXX,XX @@ int divu128(uint64_t *plow, uint64_t *phigh, uint64_t divisor)
          *plow = dlo;
          *phigh = dhi;
 -        return 0;
      }
  }
 -int divs128(int64_t *plow, int64_t *phigh, int64_t divisor)
 +/*
 + * Signed 128-by-64 division. Returns quotient via plow and
 + * remainder via phigh.
 + * The result must fit in 64 bits (plow) - otherwise, the result
 + * is undefined.
 + * This function will cause a division by zero if passed a zero divisor.
 + */
 +void divs128(int64_t *plow, int64_t *phigh, int64_t divisor)
  {
      int sgn_dvdnd = *phigh < 0;
      int sgn_divsr = divisor < 0;
 -    int overflow = 0;
      if (sgn_dvdnd) {
          *plow = ~(*plow);
@@ -XXX,XX +XXX,XX @@ int divs128(int64_t *plow, int64_t *phigh, int64_t divisor)
          divisor = 0 - divisor;
      }
 -    overflow = divu128((uint64_t *)plow, (uint64_t *)phigh, (uint64_t)divisor);
 +    divu128((uint64_t *)plow, (uint64_t *)phigh, (uint64_t)divisor);
      if (sgn_dvdnd  ^ sgn_divsr) {
          *plow = 0 - *plow;
      }
 -
 -    if (!overflow) {
 -        if ((*plow < 0) ^ (sgn_dvdnd ^ sgn_divsr)) {
 -            overflow = 1;
 -        }
 -    }
 -
 -    return overflow;
  }
  #endif
--    [MO_LEQ]  = helper_le_ldq_mmu,
 -    [MO_BEUW] = helper_be_lduw_mmu,
 -    [MO_BESW] = helper_be_ldsw_mmu,
 -    [MO_BEUL] = helper_be_ldul_mmu,
 +    [MO_Q]  = helper_be_ldq_mmu,
 +#else
 +    [MO_UW] = helper_le_lduw_mmu,
 +    [MO_SW] = helper_le_ldsw_mmu,
 +    [MO_UL] = helper_le_ldul_mmu,
  #if TCG_TARGET_REG_BITS == 64
 -    [MO_BESL] = helper_be_ldsl_mmu,
 +    [MO_SL] = helper_le_ldsl_mmu,
 +#endif
 +    [MO_Q]  = helper_le_ldq_mmu,
  #endif
 -    [MO_BEQ]  = helper_be_ldq_mmu,
  };
  /* helper signature: helper_ret_st_mmu(CPUState *env, target_ulong addr,
   *                                     uintxx_t val, TCGMemOpIdx oi,
   *                                     uintptr_t ra)
   */
 -static void * const qemu_st_helpers[16] = {
 -    [MO_UB]   = helper_ret_stb_mmu,
 -    [MO_LEUW] = helper_le_stw_mmu,
 -    [MO_LEUL] = helper_le_stl_mmu,
 -    [MO_LEQ]  = helper_le_stq_mmu,
 -    [MO_BEUW] = helper_be_stw_mmu,
 -    [MO_BEUL] = helper_be_stl_mmu,
 -    [MO_BEQ]  = helper_be_stq_mmu,
 +static void * const qemu_st_helpers[4] = {
 +    [MO_8]   = helper_ret_stb_mmu,
 +#ifdef HOST_WORDS_BIGENDIAN
 +    [MO_16] = helper_be_stw_mmu,
 +    [MO_32] = helper_be_stl_mmu,
 +    [MO_64] = helper_be_stq_mmu,
 +#else
 +    [MO_16] = helper_le_stw_mmu,
 +    [MO_32] = helper_le_stl_mmu,
 +    [MO_64] = helper_le_stq_mmu,
 +#endif
  };
  /* We don't support oversize guests */
@@ -XXX,XX +XXX,XX @@ static bool tcg_out_qemu_ld_slow_path(TCGContext *s, TCGLabelQemuLdst *l)
      tcg_out_movi(s, TCG_TYPE_PTR, a2, oi);
      tcg_out_movi(s, TCG_TYPE_PTR, a3, (tcg_target_long)l->raddr);
 -    tcg_out_call(s, qemu_ld_helpers[opc & (MO_BSWAP | MO_SSIZE)]);
 +    tcg_out_call(s, qemu_ld_helpers[opc & MO_SSIZE]);
      tcg_out_mov(s, (opc & MO_SIZE) == MO_64, l->datalo_reg, a0);
      tcg_out_goto(s, l->raddr);
@@ -XXX,XX +XXX,XX @@ static bool tcg_out_qemu_st_slow_path(TCGContext *s, TCGLabelQemuLdst *l)
      tcg_out_movi(s, TCG_TYPE_PTR, a3, oi);
      tcg_out_movi(s, TCG_TYPE_PTR, a4, (tcg_target_long)l->raddr);
 -    tcg_out_call(s, qemu_st_helpers[opc & (MO_BSWAP | MO_SSIZE)]);
 +    tcg_out_call(s, qemu_st_helpers[opc & MO_SIZE]);
      tcg_out_goto(s, l->raddr);
      return true;
@@ -XXX,XX +XXX,XX @@ static bool tcg_out_qemu_st_slow_path(TCGContext *s, TCGLabelQemuLdst *l)
  static void tcg_out_qemu_ld_direct(TCGContext *s, TCGReg lo, TCGReg hi,
                                     TCGReg base, MemOp opc, bool is_64)
  {
 -    const MemOp bswap = opc & MO_BSWAP;
 -
 -    /* We don't yet handle byteswapping, assert */
 -    g_assert(!bswap);
 +    /* Byte swapping is left to middle-end expansion. */
 +    tcg_debug_assert((opc & MO_BSWAP) == 0);
      switch (opc & (MO_SSIZE)) {
      case MO_UB:
@@ -XXX,XX +XXX,XX @@ static void tcg_out_qemu_ld(TCGContext *s, const TCGArg *args, bool is_64)
  static void tcg_out_qemu_st_direct(TCGContext *s, TCGReg lo, TCGReg hi,
                                     TCGReg base, MemOp opc)
  {
 -    const MemOp bswap = opc & MO_BSWAP;
 -
 -    /* We don't yet handle byteswapping, assert */
 -    g_assert(!bswap);
 +    /* Byte swapping is left to middle-end expansion. */
 +    tcg_debug_assert((opc & MO_BSWAP) == 0);
      switch (opc & (MO_SSIZE)) {
      case MO_8:
 --
 .25.1

-[PULL 08/63] target/nios2: Inline handle_instruction
+[PULL 03/56] host-utils: move udiv_qrnnd() to host-utils
-Move handle_instruction into nios2_tr_translate_insn
+From: Luis Pires <luis.pires@eldorado.org.br>
-as the only caller.
+Move udiv_qrnnd() from include/fpu/softfloat-macros.h to host-utils,
-Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
+so it can be reused by divu128().
 Signed-off-by: Luis Pires <luis.pires@eldorado.org.br>
 Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
 Message-Id: <20211025191154.350831-3-luis.pires@eldorado.org.br>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- target/nios2/translate.c | 66 +++++++++++++++++++---------------------
+ include/fpu/softfloat-macros.h | 82 ----------------------------------
-file changed, 31 insertions(+), 35 deletions(-)
+ include/qemu/host-utils.h      | 81 +++++++++++++++++++++++++++++++++
+files changed, 81 insertions(+), 82 deletions(-)
-diff --git a/target/nios2/translate.c b/target/nios2/translate.c
 diff --git a/include/fpu/softfloat-macros.h b/include/fpu/softfloat-macros.h
 index XXXXXXX..XXXXXXX 100644
---- a/target/nios2/translate.c
+--- a/include/fpu/softfloat-macros.h
-+++ b/target/nios2/translate.c
++++ b/include/fpu/softfloat-macros.h
-@@ -XXX,XX +XXX,XX @@ illegal_op:
+@@ -XXX,XX +XXX,XX @@
-     t_gen_helper_raise_exception(dc, EXCP_ILLEGAL);
+  * so some portions are provided under:
   *  the SoftFloat-2a license
   *  the BSD license
 - *  GPL-v2-or-later
   *
   * Any future contributions to this file after December 1st 2014 will be
   * taken to be licensed under the Softfloat-2a license unless specifically
@@ -XXX,XX +XXX,XX @@ this code that are retained.
   * THE POSSIBILITY OF SUCH DAMAGE.
   */
 -/* Portions of this work are licensed under the terms of the GNU GPL,
 - * version 2 or later. See the COPYING file in the top-level directory.
 - */
 -
  #ifndef FPU_SOFTFLOAT_MACROS_H
  #define FPU_SOFTFLOAT_MACROS_H
@@ -XXX,XX +XXX,XX @@ static inline uint64_t estimateDiv128To64(uint64_t a0, uint64_t a1, uint64_t b)
  }
--static void handle_instruction(DisasContext *dc, CPUNios2State *env)
+-/* From the GNU Multi Precision Library - longlong.h __udiv_qrnnd
 - * (https://gmplib.org/repo/gmp/file/tip/longlong.h)
 - *
 - * Licensed under the GPLv2/LGPLv3
 - */
 -static inline uint64_t udiv_qrnnd(uint64_t *r, uint64_t n1,
 -                                  uint64_t n0, uint64_t d)
 -{
--    uint32_t code;
+-#if defined(__x86_64__)
--    uint8_t op;
+-    uint64_t q;
--    const Nios2Instruction *instr;
+-    asm("divq %4" : "=a"(q), "=d"(*r) : "0"(n0), "1"(n1), "rm"(d));
--
+-    return q;
--#if defined(CONFIG_USER_ONLY)
+-#elif defined(__s390x__) && !defined(__clang__)
--    /* FIXME: Is this needed ? */
+-    /* Need to use a TImode type to get an even register pair for DLGR.  */
--    if (dc->pc >= 0x1000 && dc->pc < 0x2000) {
+-    unsigned __int128 n = (unsigned __int128)n1 << 64 | n0;
--        t_gen_helper_raise_exception(dc, 0xaa);
+-    asm("dlgr %0, %1" : "+r"(n) : "r"(d));
--        return;
+-    *r = n >> 64;
 -    return n;
 -#elif defined(_ARCH_PPC64) && defined(_ARCH_PWR7)
 -    /* From Power ISA 2.06, programming note for divdeu.  */
 -    uint64_t q1, q2, Q, r1, r2, R;
 -    asm("divdeu %0,%2,%4; divdu %1,%3,%4"
 -        : "=&r"(q1), "=r"(q2)
 -        : "r"(n1), "r"(n0), "r"(d));
 -    r1 = -(q1 * d);         /* low part of (n1<<64) - (q1 * d) */
 -    r2 = n0 - (q2 * d);
 -    Q = q1 + q2;
 -    R = r1 + r2;
 -    if (R >= d || R < r2) { /* overflow implies R > d */
 -        Q += 1;
 -        R -= d;
 -    }
+-    *r = R;
+-    return Q;
+-#else
+-    uint64_t d0, d1, q0, q1, r1, r0, m;
+-
+-    d0 = (uint32_t)d;
+-    d1 = d >> 32;
+-
+-    r1 = n1 % d1;
+-    q1 = n1 / d1;
+-    m = q1 * d0;
+-    r1 = (r1 << 32) | (n0 >> 32);
+-    if (r1 < m) {
+-        q1 -= 1;
+-        r1 += d;
+-        if (r1 >= d) {
+-            if (r1 < m) {
+-                q1 -= 1;
+-                r1 += d;
+-            }
+-        }
+-    }
+-    r1 -= m;
+-
+-    r0 = r1 % d1;
+-    q0 = r1 / d1;
+-    m = q0 * d0;
+-    r0 = (r0 << 32) | (uint32_t)n0;
+-    if (r0 < m) {
+-        q0 -= 1;
+-        r0 += d;
+-        if (r0 >= d) {
+-            if (r0 < m) {
+-                q0 -= 1;
+-                r0 += d;
+-            }
+-        }
+-    }
+-    r0 -= m;
+-
+-    *r = r0;
+-    return (q1 << 32) | q0;
 -#endif
--
--    code = cpu_ldl_code(env, dc->pc);
--    op = get_opcode(code);
--
--    if (unlikely(op >= ARRAY_SIZE(i_type_instructions))) {
--        t_gen_helper_raise_exception(dc, EXCP_ILLEGAL);
--        return;
--    }
--
--    dc->zero = NULL;
--
--    instr = &i_type_instructions[op];
--    instr->handler(dc, code, instr->flags);
--
--    if (dc->zero) {
--        tcg_temp_free(dc->zero);
--    }
 -}
 -
- static const char * const regnames[] = {
+ /*----------------------------------------------------------------------------
-     "zero",       "at",         "r2",         "r3",
+ | Returns an approximation to the square root of the 32-bit significand given
-     "r4",         "r5",         "r6",         "r7",
+ | by `a'.  Considered as an integer, `a' must be at least 2^31.  If bit 0 of
-@@ -XXX,XX +XXX,XX @@ static void nios2_tr_translate_insn(DisasContextBase *dcbase, CPUState *cs)
+diff --git a/include/qemu/host-utils.h b/include/qemu/host-utils.h
- {
+index XXXXXXX..XXXXXXX 100644
-     DisasContext *dc = container_of(dcbase, DisasContext, base);
+--- a/include/qemu/host-utils.h
-     CPUNios2State *env = cs->env_ptr;
++++ b/include/qemu/host-utils.h
-+    const Nios2Instruction *instr;
+@@ -XXX,XX +XXX,XX @@
-+    uint32_t code, pc;
+  * THE SOFTWARE.
-+    uint8_t op;
+  */
--    dc->pc = dc->base.pc_next;
++/* Portions of this work are licensed under the terms of the GNU GPL,
--    dc->base.pc_next += 4;
++ * version 2 or later. See the COPYING file in the top-level directory.
-+    pc = dc->base.pc_next;
++ */
-+    dc->pc = pc;
++
-+    dc->base.pc_next = pc + 4;
+ #ifndef HOST_UTILS_H
+ #define HOST_UTILS_H
-     /* Decode an instruction */
--    handle_instruction(dc, env);
+@@ -XXX,XX +XXX,XX @@ void urshift(uint64_t *plow, uint64_t *phigh, int32_t shift);
-+
+  */
-+#if defined(CONFIG_USER_ONLY)
+ void ulshift(uint64_t *plow, uint64_t *phigh, int32_t shift, bool *overflow);
-+    /* FIXME: Is this needed ? */
-+    if (pc >= 0x1000 && pc < 0x2000) {
++/* From the GNU Multi Precision Library - longlong.h __udiv_qrnnd
-+        t_gen_helper_raise_exception(dc, 0xaa);
++ * (https://gmplib.org/repo/gmp/file/tip/longlong.h)
-+        return;
++ *
 + * Licensed under the GPLv2/LGPLv3
 + */
 +static inline uint64_t udiv_qrnnd(uint64_t *r, uint64_t n1,
 +                                  uint64_t n0, uint64_t d)
 +{
 +#if defined(__x86_64__)
 +    uint64_t q;
 +    asm("divq %4" : "=a"(q), "=d"(*r) : "0"(n0), "1"(n1), "rm"(d));
 +    return q;
 +#elif defined(__s390x__) && !defined(__clang__)
 +    /* Need to use a TImode type to get an even register pair for DLGR.  */
 +    unsigned __int128 n = (unsigned __int128)n1 << 64 | n0;
 +    asm("dlgr %0, %1" : "+r"(n) : "r"(d));
 +    *r = n >> 64;
 +    return n;
 +#elif defined(_ARCH_PPC64) && defined(_ARCH_PWR7)
 +    /* From Power ISA 2.06, programming note for divdeu.  */
 +    uint64_t q1, q2, Q, r1, r2, R;
 +    asm("divdeu %0,%2,%4; divdu %1,%3,%4"
 +        : "=&r"(q1), "=r"(q2)
 +        : "r"(n1), "r"(n0), "r"(d));
 +    r1 = -(q1 * d);         /* low part of (n1<<64) - (q1 * d) */
 +    r2 = n0 - (q2 * d);
 +    Q = q1 + q2;
 +    R = r1 + r2;
 +    if (R >= d || R < r2) { /* overflow implies R > d */
 +        Q += 1;
 +        R -= d;
 +    }
++    *r = R;
++    return Q;
++#else
++    uint64_t d0, d1, q0, q1, r1, r0, m;
++
++    d0 = (uint32_t)d;
++    d1 = d >> 32;
++
++    r1 = n1 % d1;
++    q1 = n1 / d1;
++    m = q1 * d0;
++    r1 = (r1 << 32) | (n0 >> 32);
++    if (r1 < m) {
++        q1 -= 1;
++        r1 += d;
++        if (r1 >= d) {
++            if (r1 < m) {
++                q1 -= 1;
++                r1 += d;
++            }
++        }
++    }
++    r1 -= m;
++
++    r0 = r1 % d1;
++    q0 = r1 / d1;
++    m = q0 * d0;
++    r0 = (r0 << 32) | (uint32_t)n0;
++    if (r0 < m) {
++        q0 -= 1;
++        r0 += d;
++        if (r0 >= d) {
++            if (r0 < m) {
++                q0 -= 1;
++                r0 += d;
++            }
++        }
++    }
++    r0 -= m;
++
++    *r = r0;
++    return (q1 << 32) | q0;
 +#endif
-+
++}
-+    code = cpu_ldl_code(env, pc);
++
-+    op = get_opcode(code);
+ #endif
 +
 +    if (unlikely(op >= ARRAY_SIZE(i_type_instructions))) {
 +        t_gen_helper_raise_exception(dc, EXCP_ILLEGAL);
 +        return;
 +    }
 +
 +    dc->zero = NULL;
 +
 +    instr = &i_type_instructions[op];
 +    instr->handler(dc, code, instr->flags);
 +
 +    if (dc->zero) {
 +        tcg_temp_free(dc->zero);
 +    }
  }
  static void nios2_tr_tb_stop(DisasContextBase *dcbase, CPUState *cs)
 --
 .25.1

-[PULL 60/63] target/mips: Fix gen_mxu_s32ldd_s32lddr
+[PULL 04/56] host-utils: add 128-bit quotient support to divu128/divs128
-There were two bugs here: (1) the required endianness was
+From: Luis Pires <luis.pires@eldorado.org.br>
-not present in the MemOp, and (2) we were not providing a
-zero-extended input to the bswap as semantics required.
+These will be used to implement new decimal floating point
+instructions from Power ISA 3.1.
-The best fix is to fold the bswap into the memory operation,
-producing the desired result directly.
+The remainder is now returned directly by divu128/divs128,
+freeing up phigh to receive the high 64 bits of the quotient.
-Acked-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
 Signed-off-by: Luis Pires <luis.pires@eldorado.org.br>
 Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
 Message-Id: <20211025191154.350831-4-luis.pires@eldorado.org.br>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- target/mips/tcg/mxu_translate.c | 6 +-----
+ include/hw/clock.h        |   6 +-
-file changed, 1 insertion(+), 5 deletions(-)
+ include/qemu/host-utils.h |  20 ++++--
+ target/ppc/int_helper.c   |   9 +--
-diff --git a/target/mips/tcg/mxu_translate.c b/target/mips/tcg/mxu_translate.c
+ util/host-utils.c         | 133 +++++++++++++++++++++++++-------------
-index XXXXXXX..XXXXXXX 100644
+files changed, 108 insertions(+), 60 deletions(-)
---- a/target/mips/tcg/mxu_translate.c
-+++ b/target/mips/tcg/mxu_translate.c
+diff --git a/include/hw/clock.h b/include/hw/clock.h
-@@ -XXX,XX +XXX,XX @@ static void gen_mxu_s32ldd_s32lddr(DisasContext *ctx)
+index XXXXXXX..XXXXXXX 100644
-         tcg_gen_ori_tl(t1, t1, 0xFFFFF000);
+--- a/include/hw/clock.h
-     }
++++ b/include/hw/clock.h
-     tcg_gen_add_tl(t1, t0, t1);
+@@ -XXX,XX +XXX,XX @@ static inline uint64_t clock_ns_to_ticks(const Clock *clk, uint64_t ns)
--    tcg_gen_qemu_ld_tl(t1, t1, ctx->mem_idx, MO_SL);
+     if (clk->period == 0) {
-+    tcg_gen_qemu_ld_tl(t1, t1, ctx->mem_idx, MO_TESL ^ (sel * MO_BSWAP));
+         return 0;
+     }
--    if (sel == 1) {
+-    /*
--        /* S32LDDR */
+-     * BUG: when CONFIG_INT128 is not defined, the current implementation of
--        tcg_gen_bswap32_tl(t1, t1, TCG_BSWAP_IZ | TCG_BSWAP_OZ);
+-     * divu128 does not return a valid truncated quotient, so the result will
 -     * be wrong.
 -     */
 +
      divu128(&lo, &hi, clk->period);
      return lo;
  }
 diff --git a/include/qemu/host-utils.h b/include/qemu/host-utils.h
 index XXXXXXX..XXXXXXX 100644
 --- a/include/qemu/host-utils.h
 +++ b/include/qemu/host-utils.h
@@ -XXX,XX +XXX,XX @@ static inline uint64_t muldiv64(uint64_t a, uint32_t b, uint32_t c)
      return (__int128_t)a * b / c;
  }
 -static inline void divu128(uint64_t *plow, uint64_t *phigh, uint64_t divisor)
 +static inline uint64_t divu128(uint64_t *plow, uint64_t *phigh,
 +                               uint64_t divisor)
  {
      __uint128_t dividend = ((__uint128_t)*phigh << 64) | *plow;
      __uint128_t result = dividend / divisor;
 +
      *plow = result;
 -    *phigh = dividend % divisor;
 +    *phigh = result >> 64;
 +    return dividend % divisor;
  }
 -static inline void divs128(int64_t *plow, int64_t *phigh, int64_t divisor)
 +static inline int64_t divs128(uint64_t *plow, int64_t *phigh,
 +                              int64_t divisor)
  {
 -    __int128_t dividend = ((__int128_t)*phigh << 64) | (uint64_t)*plow;
 +    __int128_t dividend = ((__int128_t)*phigh << 64) | *plow;
      __int128_t result = dividend / divisor;
 +
      *plow = result;
 -    *phigh = dividend % divisor;
 +    *phigh = result >> 64;
 +    return dividend % divisor;
  }
  #else
  void muls64(uint64_t *plow, uint64_t *phigh, int64_t a, int64_t b);
  void mulu64(uint64_t *plow, uint64_t *phigh, uint64_t a, uint64_t b);
 -void divu128(uint64_t *plow, uint64_t *phigh, uint64_t divisor);
 -void divs128(int64_t *plow, int64_t *phigh, int64_t divisor);
 +uint64_t divu128(uint64_t *plow, uint64_t *phigh, uint64_t divisor);
 +int64_t divs128(uint64_t *plow, int64_t *phigh, int64_t divisor);
  static inline uint64_t muldiv64(uint64_t a, uint32_t b, uint32_t c)
  {
 diff --git a/target/ppc/int_helper.c b/target/ppc/int_helper.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/ppc/int_helper.c
 +++ b/target/ppc/int_helper.c
@@ -XXX,XX +XXX,XX @@ uint64_t helper_divdeu(CPUPPCState *env, uint64_t ra, uint64_t rb, uint32_t oe)
  uint64_t helper_divde(CPUPPCState *env, uint64_t rau, uint64_t rbu, uint32_t oe)
  {
 -    int64_t rt = 0;
 +    uint64_t rt = 0;
      int64_t ra = (int64_t)rau;
      int64_t rb = (int64_t)rbu;
      int overflow = 0;
@@ -XXX,XX +XXX,XX @@ uint32_t helper_bcdcfsq(ppc_avr_t *r, ppc_avr_t *b, uint32_t ps)
      int cr;
      uint64_t lo_value;
      uint64_t hi_value;
 +    uint64_t rem;
      ppc_avr_t ret = { .u64 = { 0, 0 } };
      if (b->VsrSD(0) < 0) {
@@ -XXX,XX +XXX,XX @@ uint32_t helper_bcdcfsq(ppc_avr_t *r, ppc_avr_t *b, uint32_t ps)
           * In that case, we leave r unchanged.
           */
      } else {
 -        divu128(&lo_value, &hi_value, 1000000000000000ULL);
 +        rem = divu128(&lo_value, &hi_value, 1000000000000000ULL);
 -        for (i = 1; i < 16; hi_value /= 10, i++) {
 -            bcd_put_digit(&ret, hi_value % 10, i);
 +        for (i = 1; i < 16; rem /= 10, i++) {
 +            bcd_put_digit(&ret, rem % 10, i);
          }
          for (; i < 32; lo_value /= 10, i++) {
 diff --git a/util/host-utils.c b/util/host-utils.c
 index XXXXXXX..XXXXXXX 100644
 --- a/util/host-utils.c
 +++ b/util/host-utils.c
@@ -XXX,XX +XXX,XX @@ void muls64 (uint64_t *plow, uint64_t *phigh, int64_t a, int64_t b)
  }
  /*
 - * Unsigned 128-by-64 division. Returns quotient via plow and
 - * remainder via phigh.
 - * The result must fit in 64 bits (plow) - otherwise, the result
 - * is undefined.
 - * This function will cause a division by zero if passed a zero divisor.
 + * Unsigned 128-by-64 division.
 + * Returns the remainder.
 + * Returns quotient via plow and phigh.
 + * Also returns the remainder via the function return value.
   */
 -void divu128(uint64_t *plow, uint64_t *phigh, uint64_t divisor)
 +uint64_t divu128(uint64_t *plow, uint64_t *phigh, uint64_t divisor)
  {
      uint64_t dhi = *phigh;
      uint64_t dlo = *plow;
 -    unsigned i;
 -    uint64_t carry = 0;
 +    uint64_t rem, dhighest;
 +    int sh;
      if (divisor == 0 || dhi == 0) {
          *plow  = dlo / divisor;
 -        *phigh = dlo % divisor;
 +        *phigh = 0;
 +        return dlo % divisor;
      } else {
 +        sh = clz64(divisor);
 -        for (i = 0; i < 64; i++) {
 -            carry = dhi >> 63;
 -            dhi = (dhi << 1) | (dlo >> 63);
 -            if (carry || (dhi >= divisor)) {
 -                dhi -= divisor;
 -                carry = 1;
 -            } else {
 -                carry = 0;
 +        if (dhi < divisor) {
 +            if (sh != 0) {
 +                /* normalize the divisor, shifting the dividend accordingly */
 +                divisor <<= sh;
 +                dhi = (dhi << sh) | (dlo >> (64 - sh));
 +                dlo <<= sh;
              }
 -            dlo = (dlo << 1) | carry;
 +
 +            *phigh = 0;
 +            *plow = udiv_qrnnd(&rem, dhi, dlo, divisor);
 +        } else {
 +            if (sh != 0) {
 +                /* normalize the divisor, shifting the dividend accordingly */
 +                divisor <<= sh;
 +                dhighest = dhi >> (64 - sh);
 +                dhi = (dhi << sh) | (dlo >> (64 - sh));
 +                dlo <<= sh;
 +
 +                *phigh = udiv_qrnnd(&dhi, dhighest, dhi, divisor);
 +            } else {
 +                /**
 +                 * dhi >= divisor
 +                 * Since the MSB of divisor is set (sh == 0),
 +                 * (dhi - divisor) < divisor
 +                 *
 +                 * Thus, the high part of the quotient is 1, and we can
 +                 * calculate the low part with a single call to udiv_qrnnd
 +                 * after subtracting divisor from dhi
 +                 */
 +                dhi -= divisor;
 +                *phigh = 1;
 +            }
 +
 +            *plow = udiv_qrnnd(&rem, dhi, dlo, divisor);
          }
 -        *plow = dlo;
 -        *phigh = dhi;
 +        /*
 +         * since the dividend/divisor might have been normalized,
 +         * the remainder might also have to be shifted back
 +         */
 +        return rem >> sh;
      }
  }
  /*
 - * Signed 128-by-64 division. Returns quotient via plow and
 - * remainder via phigh.
 - * The result must fit in 64 bits (plow) - otherwise, the result
 - * is undefined.
 - * This function will cause a division by zero if passed a zero divisor.
 + * Signed 128-by-64 division.
 + * Returns quotient via plow and phigh.
 + * Also returns the remainder via the function return value.
   */
 -void divs128(int64_t *plow, int64_t *phigh, int64_t divisor)
 +int64_t divs128(uint64_t *plow, int64_t *phigh, int64_t divisor)
  {
 -    int sgn_dvdnd = *phigh < 0;
 -    int sgn_divsr = divisor < 0;
 +    bool neg_quotient = false, neg_remainder = false;
 +    uint64_t unsig_hi = *phigh, unsig_lo = *plow;
 +    uint64_t rem;
 -    if (sgn_dvdnd) {
 -        *plow = ~(*plow);
 -        *phigh = ~(*phigh);
 -        if (*plow == (int64_t)-1) {
 +    if (*phigh < 0) {
 +        neg_quotient = !neg_quotient;
 +        neg_remainder = !neg_remainder;
 +
 +        if (unsig_lo == 0) {
 +            unsig_hi = -unsig_hi;
 +        } else {
 +            unsig_hi = ~unsig_hi;
 +            unsig_lo = -unsig_lo;
 +        }
 +    }
 +
 +    if (divisor < 0) {
 +        neg_quotient = !neg_quotient;
 +
 +        divisor = -divisor;
 +    }
 +
 +    rem = divu128(&unsig_lo, &unsig_hi, (uint64_t)divisor);
 +
 +    if (neg_quotient) {
 +        if (unsig_lo == 0) {
 +            *phigh = -unsig_hi;
              *plow = 0;
 -            (*phigh)++;
 -         } else {
 -            (*plow)++;
 -         }
 +        } else {
 +            *phigh = ~unsig_hi;
 +            *plow = -unsig_lo;
 +        }
 +    } else {
 +        *phigh = unsig_hi;
 +        *plow = unsig_lo;
      }
 -    if (sgn_divsr) {
 -        divisor = 0 - divisor;
 -    }
-     gen_store_mxu_gpr(t1, XRa);
+-
+-    divu128((uint64_t *)plow, (uint64_t *)phigh, (uint64_t)divisor);
-     tcg_temp_free(t0);
+-
 -    if (sgn_dvdnd  ^ sgn_divsr) {
 -        *plow = 0 - *plow;
 +    if (neg_remainder) {
 +        return -rem;
 +    } else {
 +        return rem;
      }
  }
  #endif
 --
 .25.1

-[PULL 59/63] target/sh4: Improve swap.b translation
+[PULL 05/56] host-utils: add unit tests for divu128/divs128
-Remove TCG_BSWAP_IZ and the preceding zero-extension.
+From: Luis Pires <luis.pires@eldorado.org.br>
-Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
+Signed-off-by: Luis Pires <luis.pires@eldorado.org.br>
 Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
 Message-Id: <20211025191154.350831-5-luis.pires@eldorado.org.br>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- target/sh4/translate.c | 3 +--
+ tests/unit/test-div128.c | 197 +++++++++++++++++++++++++++++++++++++++
-file changed, 1 insertion(+), 2 deletions(-)
+ tests/unit/meson.build   |   1 +
+files changed, 198 insertions(+)
-diff --git a/target/sh4/translate.c b/target/sh4/translate.c
+ create mode 100644 tests/unit/test-div128.c
 diff --git a/tests/unit/test-div128.c b/tests/unit/test-div128.c
 new file mode 100644
 index XXXXXXX..XXXXXXX
 --- /dev/null
 +++ b/tests/unit/test-div128.c
@@ -XXX,XX +XXX,XX @@
 +/*
 + * Test 128-bit division functions
 + *
 + * Copyright (c) 2021 Instituto de Pesquisas Eldorado (eldorado.org.br)
 + *
 + * This library is free software; you can redistribute it and/or
 + * modify it under the terms of the GNU Lesser General Public
 + * License as published by the Free Software Foundation; either
 + * version 2.1 of the License, or (at your option) any later version.
 + *
 + * This library is distributed in the hope that it will be useful,
 + * but WITHOUT ANY WARRANTY; without even the implied warranty of
 + * MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU
 + * Lesser General Public License for more details.
 + *
 + * You should have received a copy of the GNU Lesser General Public
 + * License along with this library; if not, see <http://www.gnu.org/licenses/>.
 + */
 +
 +#include "qemu/osdep.h"
 +#include "qemu/host-utils.h"
 +
 +typedef struct {
 +    uint64_t high;
 +    uint64_t low;
 +    uint64_t rhigh;
 +    uint64_t rlow;
 +    uint64_t divisor;
 +    uint64_t remainder;
 +} test_data_unsigned;
 +
 +typedef struct {
 +    int64_t high;
 +    uint64_t low;
 +    int64_t rhigh;
 +    uint64_t rlow;
 +    int64_t divisor;
 +    int64_t remainder;
 +} test_data_signed;
 +
 +static const test_data_unsigned test_table_unsigned[] = {
 +    /* Dividend fits in 64 bits */
 +    { 0x0000000000000000ULL, 0x0000000000000000ULL,
 +      0x0000000000000000ULL, 0x0000000000000000ULL,
 +      0x0000000000000001ULL, 0x0000000000000000ULL},
 +    { 0x0000000000000000ULL, 0x0000000000000001ULL,
 +      0x0000000000000000ULL, 0x0000000000000001ULL,
 +      0x0000000000000001ULL, 0x0000000000000000ULL},
 +    { 0x0000000000000000ULL, 0x0000000000000003ULL,
 +      0x0000000000000000ULL, 0x0000000000000001ULL,
 +      0x0000000000000002ULL, 0x0000000000000001ULL},
 +    { 0x0000000000000000ULL, 0x8000000000000000ULL,
 +      0x0000000000000000ULL, 0x8000000000000000ULL,
 +      0x0000000000000001ULL, 0x0000000000000000ULL},
 +    { 0x0000000000000000ULL, 0xa000000000000000ULL,
 +      0x0000000000000000ULL, 0x0000000000000002ULL,
 +      0x4000000000000000ULL, 0x2000000000000000ULL},
 +    { 0x0000000000000000ULL, 0x8000000000000000ULL,
 +      0x0000000000000000ULL, 0x0000000000000001ULL,
 +      0x8000000000000000ULL, 0x0000000000000000ULL},
 +
 +    /* Dividend > 64 bits, with MSB 0 */
 +    { 0x123456789abcdefeULL, 0xefedcba987654321ULL,
 +      0x123456789abcdefeULL, 0xefedcba987654321ULL,
 +      0x0000000000000001ULL, 0x0000000000000000ULL},
 +    { 0x123456789abcdefeULL, 0xefedcba987654321ULL,
 +      0x0000000000000001ULL, 0x000000000000000dULL,
 +      0x123456789abcdefeULL, 0x03456789abcdf03bULL},
 +    { 0x123456789abcdefeULL, 0xefedcba987654321ULL,
 +      0x0123456789abcdefULL, 0xeefedcba98765432ULL,
 +      0x0000000000000010ULL, 0x0000000000000001ULL},
 +
 +    /* Dividend > 64 bits, with MSB 1 */
 +    { 0xfeeddccbbaa99887ULL, 0x766554433221100fULL,
 +      0xfeeddccbbaa99887ULL, 0x766554433221100fULL,
 +      0x0000000000000001ULL, 0x0000000000000000ULL},
 +    { 0xfeeddccbbaa99887ULL, 0x766554433221100fULL,
 +      0x0000000000000001ULL, 0x0000000000000000ULL,
 +      0xfeeddccbbaa99887ULL, 0x766554433221100fULL},
 +    { 0xfeeddccbbaa99887ULL, 0x766554433221100fULL,
 +      0x0feeddccbbaa9988ULL, 0x7766554433221100ULL,
 +      0x0000000000000010ULL, 0x000000000000000fULL},
 +    { 0xfeeddccbbaa99887ULL, 0x766554433221100fULL,
 +      0x000000000000000eULL, 0x00f0f0f0f0f0f35aULL,
 +      0x123456789abcdefeULL, 0x0f8922bc55ef90c3ULL},
 +
 +    /**
 +     * Divisor == 64 bits, with MSB 1
 +     * and high 64 bits of dividend >= divisor
 +     * (for testing normalization)
 +     */
 +    { 0xfeeddccbbaa99887ULL, 0x766554433221100fULL,
 +      0x0000000000000001ULL, 0x0000000000000000ULL,
 +      0xfeeddccbbaa99887ULL, 0x766554433221100fULL},
 +    { 0xfeeddccbbaa99887ULL, 0x766554433221100fULL,
 +      0x0000000000000001ULL, 0xfddbb9977553310aULL,
 +      0x8000000000000001ULL, 0x78899aabbccddf05ULL},
 +
 +    /* Dividend > 64 bits, divisor almost as big */
 +    { 0x0000000000000001ULL, 0x23456789abcdef01ULL,
 +      0x0000000000000000ULL, 0x000000000000000fULL,
 +      0x123456789abcdefeULL, 0x123456789abcde1fULL},
 +};
 +
 +static const test_data_signed test_table_signed[] = {
 +    /* Positive dividend, positive/negative divisors */
 +    { 0x0000000000000000LL, 0x0000000000bc614eULL,
 +      0x0000000000000000LL, 0x0000000000bc614eULL,
 +      0x0000000000000001LL, 0x0000000000000000LL},
 +    { 0x0000000000000000LL, 0x0000000000bc614eULL,
 +      0xffffffffffffffffLL, 0xffffffffff439eb2ULL,
 +      0xffffffffffffffffLL, 0x0000000000000000LL},
 +    { 0x0000000000000000LL, 0x0000000000bc614eULL,
 +      0x0000000000000000LL, 0x00000000005e30a7ULL,
 +      0x0000000000000002LL, 0x0000000000000000LL},
 +    { 0x0000000000000000LL, 0x0000000000bc614eULL,
 +      0xffffffffffffffffLL, 0xffffffffffa1cf59ULL,
 +      0xfffffffffffffffeLL, 0x0000000000000000LL},
 +    { 0x0000000000000000LL, 0x0000000000bc614eULL,
 +      0x0000000000000000LL, 0x0000000000178c29ULL,
 +      0x0000000000000008LL, 0x0000000000000006LL},
 +    { 0x0000000000000000LL, 0x0000000000bc614eULL,
 +      0xffffffffffffffffLL, 0xffffffffffe873d7ULL,
 +      0xfffffffffffffff8LL, 0x0000000000000006LL},
 +    { 0x0000000000000000LL, 0x0000000000bc614eULL,
 +      0x0000000000000000LL, 0x000000000000550dULL,
 +      0x0000000000000237LL, 0x0000000000000183LL},
 +    { 0x0000000000000000LL, 0x0000000000bc614eULL,
 +      0xffffffffffffffffLL, 0xffffffffffffaaf3ULL,
 +      0xfffffffffffffdc9LL, 0x0000000000000183LL},
 +
 +    /* Negative dividend, positive/negative divisors */
 +    { 0xffffffffffffffffLL, 0xffffffffff439eb2ULL,
 +      0xffffffffffffffffLL, 0xffffffffff439eb2ULL,
 +      0x0000000000000001LL, 0x0000000000000000LL},
 +    { 0xffffffffffffffffLL, 0xffffffffff439eb2ULL,
 +      0x0000000000000000LL, 0x0000000000bc614eULL,
 +      0xffffffffffffffffLL, 0x0000000000000000LL},
 +    { 0xffffffffffffffffLL, 0xffffffffff439eb2ULL,
 +      0xffffffffffffffffLL, 0xffffffffffa1cf59ULL,
 +      0x0000000000000002LL, 0x0000000000000000LL},
 +    { 0xffffffffffffffffLL, 0xffffffffff439eb2ULL,
 +      0x0000000000000000LL, 0x00000000005e30a7ULL,
 +      0xfffffffffffffffeLL, 0x0000000000000000LL},
 +    { 0xffffffffffffffffLL, 0xffffffffff439eb2ULL,
 +      0xffffffffffffffffLL, 0xffffffffffe873d7ULL,
 +      0x0000000000000008LL, 0xfffffffffffffffaLL},
 +    { 0xffffffffffffffffLL, 0xffffffffff439eb2ULL,
 +      0x0000000000000000LL, 0x0000000000178c29ULL,
 +      0xfffffffffffffff8LL, 0xfffffffffffffffaLL},
 +    { 0xffffffffffffffffLL, 0xffffffffff439eb2ULL,
 +      0xffffffffffffffffLL, 0xffffffffffffaaf3ULL,
 +      0x0000000000000237LL, 0xfffffffffffffe7dLL},
 +    { 0xffffffffffffffffLL, 0xffffffffff439eb2ULL,
 +      0x0000000000000000LL, 0x000000000000550dULL,
 +      0xfffffffffffffdc9LL, 0xfffffffffffffe7dLL},
 +};
 +
 +static void test_divu128(void)
 +{
 +    int i;
 +    uint64_t rem;
 +    test_data_unsigned tmp;
 +
 +    for (i = 0; i < ARRAY_SIZE(test_table_unsigned); ++i) {
 +        tmp = test_table_unsigned[i];
 +
 +        rem = divu128(&tmp.low, &tmp.high, tmp.divisor);
 +        g_assert_cmpuint(tmp.low, ==, tmp.rlow);
 +        g_assert_cmpuint(tmp.high, ==, tmp.rhigh);
 +        g_assert_cmpuint(rem, ==, tmp.remainder);
 +    }
 +}
 +
 +static void test_divs128(void)
 +{
 +    int i;
 +    int64_t rem;
 +    test_data_signed tmp;
 +
 +    for (i = 0; i < ARRAY_SIZE(test_table_signed); ++i) {
 +        tmp = test_table_signed[i];
 +
 +        rem = divs128(&tmp.low, &tmp.high, tmp.divisor);
 +        g_assert_cmpuint(tmp.low, ==, tmp.rlow);
 +        g_assert_cmpuint(tmp.high, ==, tmp.rhigh);
 +        g_assert_cmpuint(rem, ==, tmp.remainder);
 +    }
 +}
 +
 +int main(int argc, char **argv)
 +{
 +    g_test_init(&argc, &argv, NULL);
 +    g_test_add_func("/host-utils/test_divu128", test_divu128);
 +    g_test_add_func("/host-utils/test_divs128", test_divs128);
 +    return g_test_run();
 +}
 diff --git a/tests/unit/meson.build b/tests/unit/meson.build
 index XXXXXXX..XXXXXXX 100644
---- a/target/sh4/translate.c
+--- a/tests/unit/meson.build
-+++ b/target/sh4/translate.c
++++ b/tests/unit/meson.build
-@@ -XXX,XX +XXX,XX @@ static void _decode_opc(DisasContext * ctx)
+@@ -XXX,XX +XXX,XX @@ tests = {
-     case 0x6008:        /* swap.b Rm,Rn */
+   # all code tested by test-x86-cpuid is inside topology.h
-     {
+   'test-x86-cpuid': [],
-             TCGv low = tcg_temp_new();
+   'test-cutils': [],
--        tcg_gen_ext16u_i32(low, REG(B7_4));
++  'test-div128': [],
--        tcg_gen_bswap16_i32(low, low, TCG_BSWAP_IZ | TCG_BSWAP_OZ);
+   'test-shift128': [],
-+            tcg_gen_bswap16_i32(low, REG(B7_4), 0);
+   'test-mul64': [],
-             tcg_gen_deposit_i32(REG(B11_8), REG(B7_4), low, 0, 16);
+   # all code tested by test-int128 is inside int128.h
          tcg_temp_free(low);
      }
 --
 .25.1

-[PULL 10/63] target/avr: Add DisasContextBase to DisasContext
+[PULL 06/56] tcg/optimize: Rename "mask" to "z_mask"
-Migrate the bstate, tb and singlestep_enabled fields
+Prepare for tracking different masks by renaming this one.
 from DisasContext into the base.
-Tested-by: Michael Rolnik <mrolnik@gmail.com>
+Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
-Reviewed-by: Michael Rolnik <mrolnik@gmail.com>
+Reviewed-by: Luis Pires <luis.pires@eldorado.org.br>
 Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- target/avr/translate.c | 58 +++++++++++++++++++++---------------------
+ tcg/optimize.c | 142 +++++++++++++++++++++++++------------------------
-file changed, 29 insertions(+), 29 deletions(-)
+file changed, 72 insertions(+), 70 deletions(-)
-diff --git a/target/avr/translate.c b/target/avr/translate.c
+diff --git a/tcg/optimize.c b/tcg/optimize.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/avr/translate.c
+--- a/tcg/optimize.c
-+++ b/target/avr/translate.c
++++ b/tcg/optimize.c
-@@ -XXX,XX +XXX,XX @@ typedef struct DisasContext DisasContext;
+@@ -XXX,XX +XXX,XX @@ typedef struct TempOptInfo {
+     TCGTemp *prev_copy;
- /* This is the state at translation time. */
+     TCGTemp *next_copy;
- struct DisasContext {
+     uint64_t val;
--    TranslationBlock *tb;
+-    uint64_t mask;
-+    DisasContextBase base;
++    uint64_t z_mask;  /* mask bit is 0 if and only if value bit is 0 */
+ } TempOptInfo;
-     CPUAVRState *env;
-     CPUState *cs;
+ static inline TempOptInfo *ts_info(TCGTemp *ts)
-@@ -XXX,XX +XXX,XX @@ struct DisasContext {
+@@ -XXX,XX +XXX,XX @@ static void reset_ts(TCGTemp *ts)
+     ti->next_copy = ts;
-     /* Routine used to access memory */
+     ti->prev_copy = ts;
-     int memidx;
+     ti->is_const = false;
--    int bstate;
+-    ti->mask = -1;
--    int singlestep;
++    ti->z_mask = -1;
      /*
       * some AVR instructions can make the following instruction to be skipped
@@ -XXX,XX +XXX,XX @@ static bool avr_have_feature(DisasContext *ctx, int feature)
  {
      if (!avr_feature(ctx->env, feature)) {
          gen_helper_unsupported(cpu_env);
 -        ctx->bstate = DISAS_NORETURN;
 +        ctx->base.is_jmp = DISAS_NORETURN;
          return false;
      }
      return true;
@@ -XXX,XX +XXX,XX @@ static void gen_jmp_ez(DisasContext *ctx)
  {
      tcg_gen_deposit_tl(cpu_pc, cpu_r[30], cpu_r[31], 8, 8);
      tcg_gen_or_tl(cpu_pc, cpu_pc, cpu_eind);
 -    ctx->bstate = DISAS_LOOKUP;
 +    ctx->base.is_jmp = DISAS_LOOKUP;
  }
- static void gen_jmp_z(DisasContext *ctx)
+ static void reset_temp(TCGArg arg)
- {
+@@ -XXX,XX +XXX,XX @@ static void init_ts_info(TCGTempSet *temps_used, TCGTemp *ts)
-     tcg_gen_deposit_tl(cpu_pc, cpu_r[30], cpu_r[31], 8, 8);
+     if (ts->kind == TEMP_CONST) {
--    ctx->bstate = DISAS_LOOKUP;
+         ti->is_const = true;
-+    ctx->base.is_jmp = DISAS_LOOKUP;
+         ti->val = ts->val;
- }
+-        ti->mask = ts->val;
++        ti->z_mask = ts->val;
- static void gen_push_ret(DisasContext *ctx, int ret)
+         if (TCG_TARGET_REG_BITS > 32 && ts->type == TCG_TYPE_I32) {
-@@ -XXX,XX +XXX,XX @@ static void gen_pop_ret(DisasContext *ctx, TCGv ret)
+             /* High bits of a 32-bit quantity are garbage.  */
+-            ti->mask |= ~0xffffffffull;
- static void gen_goto_tb(DisasContext *ctx, int n, target_ulong dest)
++            ti->z_mask |= ~0xffffffffull;
- {
+         }
 -    TranslationBlock *tb = ctx->tb;
 +    const TranslationBlock *tb = ctx->base.tb;
 -    if (ctx->singlestep == 0) {
 +    if (!ctx->base.singlestep_enabled) {
          tcg_gen_goto_tb(n);
          tcg_gen_movi_i32(cpu_pc, dest);
          tcg_gen_exit_tb(tb, n);
@@ -XXX,XX +XXX,XX @@ static void gen_goto_tb(DisasContext *ctx, int n, target_ulong dest)
          gen_helper_debug(cpu_env);
          tcg_gen_exit_tb(NULL, 0);
      }
 -    ctx->bstate = DISAS_NORETURN;
 +    ctx->base.is_jmp = DISAS_NORETURN;
  }
  /*
@@ -XXX,XX +XXX,XX @@ static bool trans_RET(DisasContext *ctx, arg_RET *a)
  {
      gen_pop_ret(ctx, cpu_pc);
 -    ctx->bstate = DISAS_LOOKUP;
 +    ctx->base.is_jmp = DISAS_LOOKUP;
      return true;
  }
@@ -XXX,XX +XXX,XX @@ static bool trans_RETI(DisasContext *ctx, arg_RETI *a)
      tcg_gen_movi_tl(cpu_If, 1);
      /* Need to return to main loop to re-evaluate interrupts.  */
 -    ctx->bstate = DISAS_EXIT;
 +    ctx->base.is_jmp = DISAS_EXIT;
      return true;
  }
@@ -XXX,XX +XXX,XX @@ static bool trans_BRBC(DisasContext *ctx, arg_BRBC *a)
      gen_goto_tb(ctx, 0, ctx->npc + a->imm);
      gen_set_label(not_taken);
 -    ctx->bstate = DISAS_CHAIN;
 +    ctx->base.is_jmp = DISAS_CHAIN;
      return true;
  }
@@ -XXX,XX +XXX,XX @@ static bool trans_BRBS(DisasContext *ctx, arg_BRBS *a)
      gen_goto_tb(ctx, 0, ctx->npc + a->imm);
      gen_set_label(not_taken);
 -    ctx->bstate = DISAS_CHAIN;
 +    ctx->base.is_jmp = DISAS_CHAIN;
      return true;
  }
@@ -XXX,XX +XXX,XX @@ static TCGv gen_get_zaddr(void)
   */
  static void gen_data_store(DisasContext *ctx, TCGv data, TCGv addr)
  {
 -    if (ctx->tb->flags & TB_FLAGS_FULL_ACCESS) {
 +    if (ctx->base.tb->flags & TB_FLAGS_FULL_ACCESS) {
          gen_helper_fullwr(cpu_env, data, addr);
      } else {
-         tcg_gen_qemu_st8(data, addr, MMU_DATA_IDX); /* mem[addr] = data */
+         ti->is_const = false;
-@@ -XXX,XX +XXX,XX @@ static void gen_data_store(DisasContext *ctx, TCGv data, TCGv addr)
+-        ti->mask = -1;
++        ti->z_mask = -1;
  static void gen_data_load(DisasContext *ctx, TCGv data, TCGv addr)
  {
 -    if (ctx->tb->flags & TB_FLAGS_FULL_ACCESS) {
 +    if (ctx->base.tb->flags & TB_FLAGS_FULL_ACCESS) {
          gen_helper_fullrd(data, cpu_env, addr);
      } else {
          tcg_gen_qemu_ld8u(data, addr, MMU_DATA_IDX); /* data = mem[addr] */
@@ -XXX,XX +XXX,XX @@ static bool trans_BREAK(DisasContext *ctx, arg_BREAK *a)
  #ifdef BREAKPOINT_ON_BREAK
      tcg_gen_movi_tl(cpu_pc, ctx->npc - 1);
      gen_helper_debug(cpu_env);
 -    ctx->bstate = DISAS_EXIT;
 +    ctx->base.is_jmp = DISAS_EXIT;
  #else
      /* NOP */
  #endif
@@ -XXX,XX +XXX,XX @@ static bool trans_NOP(DisasContext *ctx, arg_NOP *a)
  static bool trans_SLEEP(DisasContext *ctx, arg_SLEEP *a)
  {
      gen_helper_sleep(cpu_env);
 -    ctx->bstate = DISAS_NORETURN;
 +    ctx->base.is_jmp = DISAS_NORETURN;
      return true;
  }
@@ -XXX,XX +XXX,XX @@ static void translate(DisasContext *ctx)
      if (!decode_insn(ctx, opcode)) {
          gen_helper_unsupported(cpu_env);
 -        ctx->bstate = DISAS_NORETURN;
 +        ctx->base.is_jmp = DISAS_NORETURN;
      }
  }
-@@ -XXX,XX +XXX,XX @@ void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int max_insns)
+@@ -XXX,XX +XXX,XX @@ static void tcg_opt_gen_mov(TCGContext *s, TCGOp *op, TCGArg dst, TCGArg src)
- {
+     const TCGOpDef *def;
-     CPUAVRState *env = cs->env_ptr;
+     TempOptInfo *di;
-     DisasContext ctx = {
+     TempOptInfo *si;
--        .tb = tb,
+-    uint64_t mask;
-+        .base.tb = tb,
++    uint64_t z_mask;
-+        .base.is_jmp = DISAS_NEXT,
+     TCGOpcode new_op;
-+        .base.pc_first = tb->pc,
-+        .base.pc_next = tb->pc,
+     if (ts_are_copies(dst_ts, src_ts)) {
-+        .base.singlestep_enabled = cs->singlestep_enabled,
+@@ -XXX,XX +XXX,XX @@ static void tcg_opt_gen_mov(TCGContext *s, TCGOp *op, TCGArg dst, TCGArg src)
-         .cs = cs,
+     op->args[0] = dst;
-         .env = env,
+     op->args[1] = src;
-         .memidx = 0,
--        .bstate = DISAS_NEXT,
+-    mask = si->mask;
-         .skip_cond = TCG_COND_NEVER,
++    z_mask = si->z_mask;
--        .singlestep = cs->singlestep_enabled,
+     if (TCG_TARGET_REG_BITS > 32 && new_op == INDEX_op_mov_i32) {
-     };
+         /* High bits of the destination are now garbage.  */
-     target_ulong pc_start = tb->pc / 2;
+-        mask |= ~0xffffffffull;
-     int num_insns = 0;
++        z_mask |= ~0xffffffffull;
@@ -XXX,XX +XXX,XX @@ void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int max_insns)
           */
          max_insns = 1;
      }
--    if (ctx.singlestep) {
+-    di->mask = mask;
-+    if (ctx.base.singlestep_enabled) {
++    di->z_mask = z_mask;
-         max_insns = 1;
      if (src_ts->type == dst_ts->type) {
          TempOptInfo *ni = ts_info(si->next_copy);
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
      }
-@@ -XXX,XX +XXX,XX @@ void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int max_insns)
+     QTAILQ_FOREACH_SAFE(op, &s->ops, link, op_next) {
-          * b main   - sets breakpoint at address 0x00000100 (code)
+-        uint64_t mask, partmask, affected, tmp;
-          * b *0x100 - sets breakpoint at address 0x00800100 (data)
++        uint64_t z_mask, partmask, affected, tmp;
-          */
+         int nb_oargs, nb_iargs;
--        if (unlikely(!ctx.singlestep &&
+         TCGOpcode opc = op->opc;
-+        if (unlikely(!ctx.base.singlestep_enabled &&
+         const TCGOpDef *def = &tcg_op_defs[opc];
-                 (cpu_breakpoint_test(cs, OFFSET_CODE + ctx.npc * 2, BP_ANY) ||
+@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
-                  cpu_breakpoint_test(cs, OFFSET_DATA + ctx.npc * 2, BP_ANY)))) {
-             canonicalize_skip(&ctx);
+         /* Simplify using known-zero bits. Currently only ops with a single
-@@ -XXX,XX +XXX,XX @@ void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int max_insns)
+            output argument is supported. */
-         if (skip_label) {
+-        mask = -1;
-             canonicalize_skip(&ctx);
++        z_mask = -1;
-             gen_set_label(skip_label);
+         affected = -1;
--            if (ctx.bstate == DISAS_NORETURN) {
+         switch (opc) {
--                ctx.bstate = DISAS_CHAIN;
+         CASE_OP_32_64(ext8s):
-+            if (ctx.base.is_jmp == DISAS_NORETURN) {
+-            if ((arg_info(op->args[1])->mask & 0x80) != 0) {
-+                ctx.base.is_jmp = DISAS_CHAIN;
++            if ((arg_info(op->args[1])->z_mask & 0x80) != 0) {
-             }
+                 break;
              }
              QEMU_FALLTHROUGH;
          CASE_OP_32_64(ext8u):
 -            mask = 0xff;
 +            z_mask = 0xff;
              goto and_const;
          CASE_OP_32_64(ext16s):
 -            if ((arg_info(op->args[1])->mask & 0x8000) != 0) {
 +            if ((arg_info(op->args[1])->z_mask & 0x8000) != 0) {
                  break;
              }
              QEMU_FALLTHROUGH;
          CASE_OP_32_64(ext16u):
 -            mask = 0xffff;
 +            z_mask = 0xffff;
              goto and_const;
          case INDEX_op_ext32s_i64:
 -            if ((arg_info(op->args[1])->mask & 0x80000000) != 0) {
 +            if ((arg_info(op->args[1])->z_mask & 0x80000000) != 0) {
                  break;
              }
              QEMU_FALLTHROUGH;
          case INDEX_op_ext32u_i64:
 -            mask = 0xffffffffU;
 +            z_mask = 0xffffffffU;
              goto and_const;
          CASE_OP_32_64(and):
 -            mask = arg_info(op->args[2])->mask;
 +            z_mask = arg_info(op->args[2])->z_mask;
              if (arg_is_const(op->args[2])) {
          and_const:
 -                affected = arg_info(op->args[1])->mask & ~mask;
 +                affected = arg_info(op->args[1])->z_mask & ~z_mask;
              }
 -            mask = arg_info(op->args[1])->mask & mask;
 +            z_mask = arg_info(op->args[1])->z_mask & z_mask;
              break;
          case INDEX_op_ext_i32_i64:
 -            if ((arg_info(op->args[1])->mask & 0x80000000) != 0) {
 +            if ((arg_info(op->args[1])->z_mask & 0x80000000) != 0) {
                  break;
              }
              QEMU_FALLTHROUGH;
          case INDEX_op_extu_i32_i64:
              /* We do not compute affected as it is a size changing op.  */
 -            mask = (uint32_t)arg_info(op->args[1])->mask;
 +            z_mask = (uint32_t)arg_info(op->args[1])->z_mask;
              break;
          CASE_OP_32_64(andc):
              /* Known-zeros does not imply known-ones.  Therefore unless
                 op->args[2] is constant, we can't infer anything from it.  */
              if (arg_is_const(op->args[2])) {
 -                mask = ~arg_info(op->args[2])->mask;
 +                z_mask = ~arg_info(op->args[2])->z_mask;
                  goto and_const;
              }
              /* But we certainly know nothing outside args[1] may be set. */
 -            mask = arg_info(op->args[1])->mask;
 +            z_mask = arg_info(op->args[1])->z_mask;
              break;
          case INDEX_op_sar_i32:
              if (arg_is_const(op->args[2])) {
                  tmp = arg_info(op->args[2])->val & 31;
 -                mask = (int32_t)arg_info(op->args[1])->mask >> tmp;
 +                z_mask = (int32_t)arg_info(op->args[1])->z_mask >> tmp;
              }
              break;
          case INDEX_op_sar_i64:
              if (arg_is_const(op->args[2])) {
                  tmp = arg_info(op->args[2])->val & 63;
 -                mask = (int64_t)arg_info(op->args[1])->mask >> tmp;
 +                z_mask = (int64_t)arg_info(op->args[1])->z_mask >> tmp;
              }
              break;
          case INDEX_op_shr_i32:
              if (arg_is_const(op->args[2])) {
                  tmp = arg_info(op->args[2])->val & 31;
 -                mask = (uint32_t)arg_info(op->args[1])->mask >> tmp;
 +                z_mask = (uint32_t)arg_info(op->args[1])->z_mask >> tmp;
              }
              break;
          case INDEX_op_shr_i64:
              if (arg_is_const(op->args[2])) {
                  tmp = arg_info(op->args[2])->val & 63;
 -                mask = (uint64_t)arg_info(op->args[1])->mask >> tmp;
 +                z_mask = (uint64_t)arg_info(op->args[1])->z_mask >> tmp;
              }
              break;
          case INDEX_op_extrl_i64_i32:
 -            mask = (uint32_t)arg_info(op->args[1])->mask;
 +            z_mask = (uint32_t)arg_info(op->args[1])->z_mask;
              break;
          case INDEX_op_extrh_i64_i32:
 -            mask = (uint64_t)arg_info(op->args[1])->mask >> 32;
 +            z_mask = (uint64_t)arg_info(op->args[1])->z_mask >> 32;
              break;
          CASE_OP_32_64(shl):
              if (arg_is_const(op->args[2])) {
                  tmp = arg_info(op->args[2])->val & (TCG_TARGET_REG_BITS - 1);
 -                mask = arg_info(op->args[1])->mask << tmp;
 +                z_mask = arg_info(op->args[1])->z_mask << tmp;
              }
              break;
          CASE_OP_32_64(neg):
              /* Set to 1 all bits to the left of the rightmost.  */
 -            mask = -(arg_info(op->args[1])->mask
 -                     & -arg_info(op->args[1])->mask);
 +            z_mask = -(arg_info(op->args[1])->z_mask
 +                       & -arg_info(op->args[1])->z_mask);
              break;
          CASE_OP_32_64(deposit):
 -            mask = deposit64(arg_info(op->args[1])->mask,
 -                             op->args[3], op->args[4],
 -                             arg_info(op->args[2])->mask);
 +            z_mask = deposit64(arg_info(op->args[1])->z_mask,
 +                               op->args[3], op->args[4],
 +                               arg_info(op->args[2])->z_mask);
              break;
          CASE_OP_32_64(extract):
 -            mask = extract64(arg_info(op->args[1])->mask,
 -                             op->args[2], op->args[3]);
 +            z_mask = extract64(arg_info(op->args[1])->z_mask,
 +                               op->args[2], op->args[3]);
              if (op->args[2] == 0) {
 -                affected = arg_info(op->args[1])->mask & ~mask;
 +                affected = arg_info(op->args[1])->z_mask & ~z_mask;
              }
              break;
          CASE_OP_32_64(sextract):
 -            mask = sextract64(arg_info(op->args[1])->mask,
 -                              op->args[2], op->args[3]);
 -            if (op->args[2] == 0 && (tcg_target_long)mask >= 0) {
 -                affected = arg_info(op->args[1])->mask & ~mask;
 +            z_mask = sextract64(arg_info(op->args[1])->z_mask,
 +                                op->args[2], op->args[3]);
 +            if (op->args[2] == 0 && (tcg_target_long)z_mask >= 0) {
 +                affected = arg_info(op->args[1])->z_mask & ~z_mask;
              }
              break;
          CASE_OP_32_64(or):
          CASE_OP_32_64(xor):
 -            mask = arg_info(op->args[1])->mask | arg_info(op->args[2])->mask;
 +            z_mask = arg_info(op->args[1])->z_mask
 +                   | arg_info(op->args[2])->z_mask;
              break;
          case INDEX_op_clz_i32:
          case INDEX_op_ctz_i32:
 -            mask = arg_info(op->args[2])->mask | 31;
 +            z_mask = arg_info(op->args[2])->z_mask | 31;
              break;
          case INDEX_op_clz_i64:
          case INDEX_op_ctz_i64:
 -            mask = arg_info(op->args[2])->mask | 63;
 +            z_mask = arg_info(op->args[2])->z_mask | 63;
              break;
          case INDEX_op_ctpop_i32:
 -            mask = 32 | 31;
 +            z_mask = 32 | 31;
              break;
          case INDEX_op_ctpop_i64:
 -            mask = 64 | 63;
 +            z_mask = 64 | 63;
              break;
          CASE_OP_32_64(setcond):
          case INDEX_op_setcond2_i32:
 -            mask = 1;
 +            z_mask = 1;
              break;
          CASE_OP_32_64(movcond):
 -            mask = arg_info(op->args[3])->mask | arg_info(op->args[4])->mask;
 +            z_mask = arg_info(op->args[3])->z_mask
 +                   | arg_info(op->args[4])->z_mask;
              break;
          CASE_OP_32_64(ld8u):
 -            mask = 0xff;
 +            z_mask = 0xff;
              break;
          CASE_OP_32_64(ld16u):
 -            mask = 0xffff;
 +            z_mask = 0xffff;
              break;
          case INDEX_op_ld32u_i64:
 -            mask = 0xffffffffu;
 +            z_mask = 0xffffffffu;
              break;
          CASE_OP_32_64(qemu_ld):
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
                  MemOpIdx oi = op->args[nb_oargs + nb_iargs];
                  MemOp mop = get_memop(oi);
                  if (!(mop & MO_SIGN)) {
 -                    mask = (2ULL << ((8 << (mop & MO_SIZE)) - 1)) - 1;
 +                    z_mask = (2ULL << ((8 << (mop & MO_SIZE)) - 1)) - 1;
                  }
              }
              break;
          CASE_OP_32_64(bswap16):
 -            mask = arg_info(op->args[1])->mask;
 -            if (mask <= 0xffff) {
 +            z_mask = arg_info(op->args[1])->z_mask;
 +            if (z_mask <= 0xffff) {
                  op->args[2] |= TCG_BSWAP_IZ;
              }
 -            mask = bswap16(mask);
 +            z_mask = bswap16(z_mask);
              switch (op->args[2] & (TCG_BSWAP_OZ | TCG_BSWAP_OS)) {
              case TCG_BSWAP_OZ:
                  break;
              case TCG_BSWAP_OS:
 -                mask = (int16_t)mask;
 +                z_mask = (int16_t)z_mask;
                  break;
              default: /* undefined high bits */
 -                mask |= MAKE_64BIT_MASK(16, 48);
 +                z_mask |= MAKE_64BIT_MASK(16, 48);
                  break;
              }
              break;
          case INDEX_op_bswap32_i64:
 -            mask = arg_info(op->args[1])->mask;
 -            if (mask <= 0xffffffffu) {
 +            z_mask = arg_info(op->args[1])->z_mask;
 +            if (z_mask <= 0xffffffffu) {
                  op->args[2] |= TCG_BSWAP_IZ;
              }
 -            mask = bswap32(mask);
 +            z_mask = bswap32(z_mask);
              switch (op->args[2] & (TCG_BSWAP_OZ | TCG_BSWAP_OS)) {
              case TCG_BSWAP_OZ:
                  break;
              case TCG_BSWAP_OS:
 -                mask = (int32_t)mask;
 +                z_mask = (int32_t)z_mask;
                  break;
              default: /* undefined high bits */
 -                mask |= MAKE_64BIT_MASK(32, 32);
 +                z_mask |= MAKE_64BIT_MASK(32, 32);
                  break;
              }
              break;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
          /* 32-bit ops generate 32-bit results.  For the result is zero test
             below, we can ignore high bits, but for further optimizations we
             need to record that the high bits contain garbage.  */
 -        partmask = mask;
 +        partmask = z_mask;
          if (!(def->flags & TCG_OPF_64BIT)) {
 -            mask |= ~(tcg_target_ulong)0xffffffffu;
 +            z_mask |= ~(tcg_target_ulong)0xffffffffu;
              partmask &= 0xffffffffu;
              affected &= 0xffffffffu;
          }
--    } while (ctx.bstate == DISAS_NEXT
+@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
-+    } while (ctx.base.is_jmp == DISAS_NEXT
+                    vs the high word of the input.  */
-              && num_insns < max_insns
+             do_setcond_high:
-              && (ctx.npc - pc_start) * 2 < TARGET_PAGE_SIZE - 4
+                 reset_temp(op->args[0]);
-              && !tcg_op_buf_full());
+-                arg_info(op->args[0])->mask = 1;
-@@ -XXX,XX +XXX,XX @@ void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int max_insns)
++                arg_info(op->args[0])->z_mask = 1;
+                 op->opc = INDEX_op_setcond_i32;
-     bool nonconst_skip = canonicalize_skip(&ctx);
+                 op->args[1] = op->args[2];
+                 op->args[2] = op->args[4];
--    switch (ctx.bstate) {
+@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
-+    switch (ctx.base.is_jmp) {
+                 }
-     case DISAS_NORETURN:
+             do_setcond_low:
-         assert(!nonconst_skip);
+                 reset_temp(op->args[0]);
-         break;
+-                arg_info(op->args[0])->mask = 1;
-@@ -XXX,XX +XXX,XX @@ void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int max_insns)
++                arg_info(op->args[0])->z_mask = 1;
-         tcg_gen_movi_tl(cpu_pc, ctx.npc);
+                 op->opc = INDEX_op_setcond_i32;
-         /* fall through */
+                 op->args[2] = op->args[3];
-     case DISAS_LOOKUP:
+                 op->args[3] = op->args[5];
--        if (!ctx.singlestep) {
+@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
-+        if (!ctx.base.singlestep_enabled) {
+             /* Default case: we know nothing about operation (or were unable
-             tcg_gen_lookup_and_goto_ptr();
+                to compute the operation result) so no propagation is done.
-             break;
+                We trash everything if the operation is the end of a basic
-         }
+-               block, otherwise we only trash the output args.  "mask" is
-         /* fall through */
++               block, otherwise we only trash the output args.  "z_mask" is
-     case DISAS_EXIT:
+                the non-zero bits mask for the first output arg.  */
--        if (ctx.singlestep) {
+             if (def->flags & TCG_OPF_BB_END) {
-+        if (ctx.base.singlestep_enabled) {
+                 memset(&temps_used, 0, sizeof(temps_used));
-             gen_helper_debug(cpu_env);
+@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
-         } else {
+                     /* Save the corresponding known-zero bits mask for the
-             tcg_gen_exit_tb(NULL, 0);
+                        first output argument (only one supported so far). */
                      if (i == 0) {
 -                        arg_info(op->args[i])->mask = mask;
 +                        arg_info(op->args[i])->z_mask = z_mask;
                      }
                  }
              }
 --
 .25.1

-[PULL 56/63] target/arm: Improve vector REV
+[PULL 07/56] tcg/optimize: Split out OptContext
-We can eliminate the requirement for a zero-extended output,
+Provide what will become a larger context for splitting
-because the following store will ignore any garbage high bits.
+the very large tcg_optimize function.
+Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
+Reviewed-by: Luis Pires <luis.pires@eldorado.org.br>
 Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
-Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- target/arm/translate-a64.c | 6 ++----
+ tcg/optimize.c | 77 ++++++++++++++++++++++++++------------------------
-file changed, 2 insertions(+), 4 deletions(-)
+file changed, 40 insertions(+), 37 deletions(-)
-diff --git a/target/arm/translate-a64.c b/target/arm/translate-a64.c
+diff --git a/tcg/optimize.c b/tcg/optimize.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/translate-a64.c
+--- a/tcg/optimize.c
-+++ b/target/arm/translate-a64.c
++++ b/tcg/optimize.c
-@@ -XXX,XX +XXX,XX @@ static void handle_rev(DisasContext *s, int opcode, bool u,
+@@ -XXX,XX +XXX,XX @@ typedef struct TempOptInfo {
-             read_vec_element(s, tcg_tmp, rn, i, grp_size);
+     uint64_t z_mask;  /* mask bit is 0 if and only if value bit is 0 */
-             switch (grp_size) {
+ } TempOptInfo;
-             case MO_16:
--                tcg_gen_bswap16_i64(tcg_tmp, tcg_tmp,
++typedef struct OptContext {
--                                    TCG_BSWAP_IZ | TCG_BSWAP_OZ);
++    TCGTempSet temps_used;
-+                tcg_gen_bswap16_i64(tcg_tmp, tcg_tmp, TCG_BSWAP_IZ);
++} OptContext;
-                 break;
++
-             case MO_32:
+ static inline TempOptInfo *ts_info(TCGTemp *ts)
--                tcg_gen_bswap32_i64(tcg_tmp, tcg_tmp,
+ {
--                                    TCG_BSWAP_IZ | TCG_BSWAP_OZ);
+     return ts->state_ptr;
-+                tcg_gen_bswap32_i64(tcg_tmp, tcg_tmp, TCG_BSWAP_IZ);
+@@ -XXX,XX +XXX,XX @@ static void reset_temp(TCGArg arg)
-                 break;
+ }
-             case MO_64:
-                 tcg_gen_bswap64_i64(tcg_tmp, tcg_tmp);
+ /* Initialize and activate a temporary.  */
 -static void init_ts_info(TCGTempSet *temps_used, TCGTemp *ts)
 +static void init_ts_info(OptContext *ctx, TCGTemp *ts)
  {
      size_t idx = temp_idx(ts);
      TempOptInfo *ti;
 -    if (test_bit(idx, temps_used->l)) {
 +    if (test_bit(idx, ctx->temps_used.l)) {
          return;
      }
 -    set_bit(idx, temps_used->l);
 +    set_bit(idx, ctx->temps_used.l);
      ti = ts->state_ptr;
      if (ti == NULL) {
@@ -XXX,XX +XXX,XX @@ static void init_ts_info(TCGTempSet *temps_used, TCGTemp *ts)
      }
  }
 -static void init_arg_info(TCGTempSet *temps_used, TCGArg arg)
 +static void init_arg_info(OptContext *ctx, TCGArg arg)
  {
 -    init_ts_info(temps_used, arg_temp(arg));
 +    init_ts_info(ctx, arg_temp(arg));
  }
  static TCGTemp *find_better_copy(TCGContext *s, TCGTemp *ts)
@@ -XXX,XX +XXX,XX @@ static void tcg_opt_gen_mov(TCGContext *s, TCGOp *op, TCGArg dst, TCGArg src)
      }
  }
 -static void tcg_opt_gen_movi(TCGContext *s, TCGTempSet *temps_used,
 +static void tcg_opt_gen_movi(TCGContext *s, OptContext *ctx,
                               TCGOp *op, TCGArg dst, uint64_t val)
  {
      const TCGOpDef *def = &tcg_op_defs[op->opc];
@@ -XXX,XX +XXX,XX @@ static void tcg_opt_gen_movi(TCGContext *s, TCGTempSet *temps_used,
      /* Convert movi to mov with constant temp. */
      tv = tcg_constant_internal(type, val);
 -    init_ts_info(temps_used, tv);
 +    init_ts_info(ctx, tv);
      tcg_opt_gen_mov(s, op, dst, temp_arg(tv));
  }
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
  {
      int nb_temps, nb_globals, i;
      TCGOp *op, *op_next, *prev_mb = NULL;
 -    TCGTempSet temps_used;
 +    OptContext ctx = {};
      /* Array VALS has an element for each temp.
         If this temp holds a constant then its value is kept in VALS' element.
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
      nb_temps = s->nb_temps;
      nb_globals = s->nb_globals;
 -    memset(&temps_used, 0, sizeof(temps_used));
      for (i = 0; i < nb_temps; ++i) {
          s->temps[i].state_ptr = NULL;
      }
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
              for (i = 0; i < nb_oargs + nb_iargs; i++) {
                  TCGTemp *ts = arg_temp(op->args[i]);
                  if (ts) {
 -                    init_ts_info(&temps_used, ts);
 +                    init_ts_info(&ctx, ts);
                  }
              }
          } else {
              nb_oargs = def->nb_oargs;
              nb_iargs = def->nb_iargs;
              for (i = 0; i < nb_oargs + nb_iargs; i++) {
 -                init_arg_info(&temps_used, op->args[i]);
 +                init_arg_info(&ctx, op->args[i]);
              }
          }
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
          CASE_OP_32_64(rotr):
              if (arg_is_const(op->args[1])
                  && arg_info(op->args[1])->val == 0) {
 -                tcg_opt_gen_movi(s, &temps_used, op, op->args[0], 0);
 +                tcg_opt_gen_movi(s, &ctx, op, op->args[0], 0);
                  continue;
              }
              break;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
          if (partmask == 0) {
              tcg_debug_assert(nb_oargs == 1);
 -            tcg_opt_gen_movi(s, &temps_used, op, op->args[0], 0);
 +            tcg_opt_gen_movi(s, &ctx, op, op->args[0], 0);
              continue;
          }
          if (affected == 0) {
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
          CASE_OP_32_64(mulsh):
              if (arg_is_const(op->args[2])
                  && arg_info(op->args[2])->val == 0) {
 -                tcg_opt_gen_movi(s, &temps_used, op, op->args[0], 0);
 +                tcg_opt_gen_movi(s, &ctx, op, op->args[0], 0);
                  continue;
              }
              break;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
          CASE_OP_32_64_VEC(sub):
          CASE_OP_32_64_VEC(xor):
              if (args_are_copies(op->args[1], op->args[2])) {
 -                tcg_opt_gen_movi(s, &temps_used, op, op->args[0], 0);
 +                tcg_opt_gen_movi(s, &ctx, op, op->args[0], 0);
                  continue;
              }
              break;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
              if (arg_is_const(op->args[1])) {
                  tmp = arg_info(op->args[1])->val;
                  tmp = dup_const(TCGOP_VECE(op), tmp);
 -                tcg_opt_gen_movi(s, &temps_used, op, op->args[0], tmp);
 +                tcg_opt_gen_movi(s, &ctx, op, op->args[0], tmp);
                  break;
              }
              goto do_default;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
          case INDEX_op_dup2_vec:
              assert(TCG_TARGET_REG_BITS == 32);
              if (arg_is_const(op->args[1]) && arg_is_const(op->args[2])) {
 -                tcg_opt_gen_movi(s, &temps_used, op, op->args[0],
 +                tcg_opt_gen_movi(s, &ctx, op, op->args[0],
                                   deposit64(arg_info(op->args[1])->val, 32, 32,
                                             arg_info(op->args[2])->val));
                  break;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
          case INDEX_op_extrh_i64_i32:
              if (arg_is_const(op->args[1])) {
                  tmp = do_constant_folding(opc, arg_info(op->args[1])->val, 0);
 -                tcg_opt_gen_movi(s, &temps_used, op, op->args[0], tmp);
 +                tcg_opt_gen_movi(s, &ctx, op, op->args[0], tmp);
                  break;
              }
              goto do_default;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
              if (arg_is_const(op->args[1])) {
                  tmp = do_constant_folding(opc, arg_info(op->args[1])->val,
                                            op->args[2]);
 -                tcg_opt_gen_movi(s, &temps_used, op, op->args[0], tmp);
 +                tcg_opt_gen_movi(s, &ctx, op, op->args[0], tmp);
                  break;
              }
              goto do_default;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
              if (arg_is_const(op->args[1]) && arg_is_const(op->args[2])) {
                  tmp = do_constant_folding(opc, arg_info(op->args[1])->val,
                                            arg_info(op->args[2])->val);
 -                tcg_opt_gen_movi(s, &temps_used, op, op->args[0], tmp);
 +                tcg_opt_gen_movi(s, &ctx, op, op->args[0], tmp);
                  break;
              }
              goto do_default;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
                  TCGArg v = arg_info(op->args[1])->val;
                  if (v != 0) {
                      tmp = do_constant_folding(opc, v, 0);
 -                    tcg_opt_gen_movi(s, &temps_used, op, op->args[0], tmp);
 +                    tcg_opt_gen_movi(s, &ctx, op, op->args[0], tmp);
                  } else {
                      tcg_opt_gen_mov(s, op, op->args[0], op->args[2]);
                  }
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
                  tmp = deposit64(arg_info(op->args[1])->val,
                                  op->args[3], op->args[4],
                                  arg_info(op->args[2])->val);
 -                tcg_opt_gen_movi(s, &temps_used, op, op->args[0], tmp);
 +                tcg_opt_gen_movi(s, &ctx, op, op->args[0], tmp);
                  break;
              }
              goto do_default;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
              if (arg_is_const(op->args[1])) {
                  tmp = extract64(arg_info(op->args[1])->val,
                                  op->args[2], op->args[3]);
 -                tcg_opt_gen_movi(s, &temps_used, op, op->args[0], tmp);
 +                tcg_opt_gen_movi(s, &ctx, op, op->args[0], tmp);
                  break;
              }
              goto do_default;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
              if (arg_is_const(op->args[1])) {
                  tmp = sextract64(arg_info(op->args[1])->val,
                                   op->args[2], op->args[3]);
 -                tcg_opt_gen_movi(s, &temps_used, op, op->args[0], tmp);
 +                tcg_opt_gen_movi(s, &ctx, op, op->args[0], tmp);
                  break;
              }
              goto do_default;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
                      tmp = (int32_t)(((uint32_t)v1 >> shr) |
                                      ((uint32_t)v2 << (32 - shr)));
                  }
 -                tcg_opt_gen_movi(s, &temps_used, op, op->args[0], tmp);
 +                tcg_opt_gen_movi(s, &ctx, op, op->args[0], tmp);
                  break;
              }
              goto do_default;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
              tmp = do_constant_folding_cond(opc, op->args[1],
                                             op->args[2], op->args[3]);
              if (tmp != 2) {
 -                tcg_opt_gen_movi(s, &temps_used, op, op->args[0], tmp);
 +                tcg_opt_gen_movi(s, &ctx, op, op->args[0], tmp);
                  break;
              }
              goto do_default;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
                                             op->args[1], op->args[2]);
              if (tmp != 2) {
                  if (tmp) {
 -                    memset(&temps_used, 0, sizeof(temps_used));
 +                    memset(&ctx.temps_used, 0, sizeof(ctx.temps_used));
                      op->opc = INDEX_op_br;
                      op->args[0] = op->args[3];
                  } else {
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
                  rl = op->args[0];
                  rh = op->args[1];
 -                tcg_opt_gen_movi(s, &temps_used, op, rl, (int32_t)a);
 -                tcg_opt_gen_movi(s, &temps_used, op2, rh, (int32_t)(a >> 32));
 +                tcg_opt_gen_movi(s, &ctx, op, rl, (int32_t)a);
 +                tcg_opt_gen_movi(s, &ctx, op2, rh, (int32_t)(a >> 32));
                  break;
              }
              goto do_default;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
                  rl = op->args[0];
                  rh = op->args[1];
 -                tcg_opt_gen_movi(s, &temps_used, op, rl, (int32_t)r);
 -                tcg_opt_gen_movi(s, &temps_used, op2, rh, (int32_t)(r >> 32));
 +                tcg_opt_gen_movi(s, &ctx, op, rl, (int32_t)r);
 +                tcg_opt_gen_movi(s, &ctx, op2, rh, (int32_t)(r >> 32));
                  break;
              }
              goto do_default;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
              if (tmp != 2) {
                  if (tmp) {
              do_brcond_true:
 -                    memset(&temps_used, 0, sizeof(temps_used));
 +                    memset(&ctx.temps_used, 0, sizeof(ctx.temps_used));
                      op->opc = INDEX_op_br;
                      op->args[0] = op->args[5];
                  } else {
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
                  /* Simplify LT/GE comparisons vs zero to a single compare
                     vs the high word of the input.  */
              do_brcond_high:
 -                memset(&temps_used, 0, sizeof(temps_used));
 +                memset(&ctx.temps_used, 0, sizeof(ctx.temps_used));
                  op->opc = INDEX_op_brcond_i32;
                  op->args[0] = op->args[1];
                  op->args[1] = op->args[3];
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
                      goto do_default;
                  }
              do_brcond_low:
 -                memset(&temps_used, 0, sizeof(temps_used));
 +                memset(&ctx.temps_used, 0, sizeof(ctx.temps_used));
                  op->opc = INDEX_op_brcond_i32;
                  op->args[1] = op->args[2];
                  op->args[2] = op->args[4];
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
                                              op->args[5]);
              if (tmp != 2) {
              do_setcond_const:
 -                tcg_opt_gen_movi(s, &temps_used, op, op->args[0], tmp);
 +                tcg_opt_gen_movi(s, &ctx, op, op->args[0], tmp);
              } else if ((op->args[5] == TCG_COND_LT
                          || op->args[5] == TCG_COND_GE)
                         && arg_is_const(op->args[3])
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
              if (!(tcg_call_flags(op)
                    & (TCG_CALL_NO_READ_GLOBALS | TCG_CALL_NO_WRITE_GLOBALS))) {
                  for (i = 0; i < nb_globals; i++) {
 -                    if (test_bit(i, temps_used.l)) {
 +                    if (test_bit(i, ctx.temps_used.l)) {
                          reset_ts(&s->temps[i]);
                      }
                  }
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
                 block, otherwise we only trash the output args.  "z_mask" is
                 the non-zero bits mask for the first output arg.  */
              if (def->flags & TCG_OPF_BB_END) {
 -                memset(&temps_used, 0, sizeof(temps_used));
 +                memset(&ctx.temps_used, 0, sizeof(ctx.temps_used));
              } else {
          do_reset_output:
                  for (i = 0; i < nb_oargs; i++) {
 --
 .25.1

-[PULL 54/63] tcg: Make use of bswap flags in tcg_gen_qemu_st_*
+[PULL 08/56] tcg/optimize: Remove do_default label
-By removing TCG_BSWAP_IZ we indicate that the input is
+Break the final cleanup clause out of the main switch
-not zero-extended, and thus can remove an explicit extend.
+statement.  When fully folding an opcode to mov/movi,
-By removing TCG_BSWAP_OZ, we allow the implementation to
+use "continue" to process the next opcode, else break
-leave high bits set, which will be ignored by the store.
+to fall into the final cleanup.
-Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
+Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
 Reviewed-by: Luis Pires <luis.pires@eldorado.org.br>
 Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- tcg/tcg-op.c | 9 +++------
+ tcg/optimize.c | 190 ++++++++++++++++++++++++-------------------------
-file changed, 3 insertions(+), 6 deletions(-)
+file changed, 94 insertions(+), 96 deletions(-)
-diff --git a/tcg/tcg-op.c b/tcg/tcg-op.c
+diff --git a/tcg/optimize.c b/tcg/optimize.c
 index XXXXXXX..XXXXXXX 100644
---- a/tcg/tcg-op.c
+--- a/tcg/optimize.c
-+++ b/tcg/tcg-op.c
++++ b/tcg/optimize.c
-@@ -XXX,XX +XXX,XX @@ void tcg_gen_qemu_st_i32(TCGv_i32 val, TCGv addr, TCGArg idx, MemOp memop)
+@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
-         swap = tcg_temp_new_i32();
+         switch (opc) {
-         switch (memop & MO_SIZE) {
+         CASE_OP_32_64_VEC(mov):
-         case MO_16:
+             tcg_opt_gen_mov(s, op, op->args[0], op->args[1]);
--            tcg_gen_ext16u_i32(swap, val);
+-            break;
--            tcg_gen_bswap16_i32(swap, swap, TCG_BSWAP_IZ | TCG_BSWAP_OZ);
++            continue;
-+            tcg_gen_bswap16_i32(swap, val, 0);
          case INDEX_op_dup_vec:
              if (arg_is_const(op->args[1])) {
                  tmp = arg_info(op->args[1])->val;
                  tmp = dup_const(TCGOP_VECE(op), tmp);
                  tcg_opt_gen_movi(s, &ctx, op, op->args[0], tmp);
 -                break;
 +                continue;
              }
 -            goto do_default;
 +            break;
          case INDEX_op_dup2_vec:
              assert(TCG_TARGET_REG_BITS == 32);
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
                  tcg_opt_gen_movi(s, &ctx, op, op->args[0],
                                   deposit64(arg_info(op->args[1])->val, 32, 32,
                                             arg_info(op->args[2])->val));
 -                break;
 +                continue;
              } else if (args_are_copies(op->args[1], op->args[2])) {
                  op->opc = INDEX_op_dup_vec;
                  TCGOP_VECE(op) = MO_32;
                  nb_iargs = 1;
              }
 -            goto do_default;
 +            break;
          CASE_OP_32_64(not):
          CASE_OP_32_64(neg):
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
              if (arg_is_const(op->args[1])) {
                  tmp = do_constant_folding(opc, arg_info(op->args[1])->val, 0);
                  tcg_opt_gen_movi(s, &ctx, op, op->args[0], tmp);
 -                break;
 +                continue;
              }
 -            goto do_default;
 +            break;
          CASE_OP_32_64(bswap16):
          CASE_OP_32_64(bswap32):
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
                  tmp = do_constant_folding(opc, arg_info(op->args[1])->val,
                                            op->args[2]);
                  tcg_opt_gen_movi(s, &ctx, op, op->args[0], tmp);
 -                break;
 +                continue;
              }
 -            goto do_default;
 +            break;
          CASE_OP_32_64(add):
          CASE_OP_32_64(sub):
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
                  tmp = do_constant_folding(opc, arg_info(op->args[1])->val,
                                            arg_info(op->args[2])->val);
                  tcg_opt_gen_movi(s, &ctx, op, op->args[0], tmp);
 -                break;
 +                continue;
              }
 -            goto do_default;
 +            break;
          CASE_OP_32_64(clz):
          CASE_OP_32_64(ctz):
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
                  } else {
                      tcg_opt_gen_mov(s, op, op->args[0], op->args[2]);
                  }
 -                break;
 +                continue;
              }
 -            goto do_default;
 +            break;
          CASE_OP_32_64(deposit):
              if (arg_is_const(op->args[1]) && arg_is_const(op->args[2])) {
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
                                  op->args[3], op->args[4],
                                  arg_info(op->args[2])->val);
                  tcg_opt_gen_movi(s, &ctx, op, op->args[0], tmp);
 -                break;
 +                continue;
              }
 -            goto do_default;
 +            break;
          CASE_OP_32_64(extract):
              if (arg_is_const(op->args[1])) {
                  tmp = extract64(arg_info(op->args[1])->val,
                                  op->args[2], op->args[3]);
                  tcg_opt_gen_movi(s, &ctx, op, op->args[0], tmp);
 -                break;
 +                continue;
              }
 -            goto do_default;
 +            break;
          CASE_OP_32_64(sextract):
              if (arg_is_const(op->args[1])) {
                  tmp = sextract64(arg_info(op->args[1])->val,
                                   op->args[2], op->args[3]);
                  tcg_opt_gen_movi(s, &ctx, op, op->args[0], tmp);
 -                break;
 +                continue;
              }
 -            goto do_default;
 +            break;
          CASE_OP_32_64(extract2):
              if (arg_is_const(op->args[1]) && arg_is_const(op->args[2])) {
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
                                      ((uint32_t)v2 << (32 - shr)));
                  }
                  tcg_opt_gen_movi(s, &ctx, op, op->args[0], tmp);
 -                break;
 +                continue;
              }
 -            goto do_default;
 +            break;
          CASE_OP_32_64(setcond):
              tmp = do_constant_folding_cond(opc, op->args[1],
                                             op->args[2], op->args[3]);
              if (tmp != 2) {
                  tcg_opt_gen_movi(s, &ctx, op, op->args[0], tmp);
 -                break;
 +                continue;
              }
 -            goto do_default;
 +            break;
          CASE_OP_32_64(brcond):
              tmp = do_constant_folding_cond(opc, op->args[0],
                                             op->args[1], op->args[2]);
 -            if (tmp != 2) {
 -                if (tmp) {
 -                    memset(&ctx.temps_used, 0, sizeof(ctx.temps_used));
 -                    op->opc = INDEX_op_br;
 -                    op->args[0] = op->args[3];
 -                } else {
 -                    tcg_op_remove(s, op);
 -                }
 +            switch (tmp) {
 +            case 0:
 +                tcg_op_remove(s, op);
 +                continue;
 +            case 1:
 +                memset(&ctx.temps_used, 0, sizeof(ctx.temps_used));
 +                op->opc = opc = INDEX_op_br;
 +                op->args[0] = op->args[3];
                  break;
              }
 -            goto do_default;
 +            break;
          CASE_OP_32_64(movcond):
              tmp = do_constant_folding_cond(opc, op->args[1],
                                             op->args[2], op->args[5]);
              if (tmp != 2) {
                  tcg_opt_gen_mov(s, op, op->args[0], op->args[4-tmp]);
 -                break;
 +                continue;
              }
              if (arg_is_const(op->args[3]) && arg_is_const(op->args[4])) {
                  uint64_t tv = arg_info(op->args[3])->val;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
                  if (fv == 1 && tv == 0) {
                      cond = tcg_invert_cond(cond);
                  } else if (!(tv == 1 && fv == 0)) {
 -                    goto do_default;
 +                    break;
                  }
                  op->args[3] = cond;
                  op->opc = opc = (opc == INDEX_op_movcond_i32
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
                                   : INDEX_op_setcond_i64);
                  nb_iargs = 2;
              }
 -            goto do_default;
 +            break;
          case INDEX_op_add2_i32:
          case INDEX_op_sub2_i32:
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
                  rh = op->args[1];
                  tcg_opt_gen_movi(s, &ctx, op, rl, (int32_t)a);
                  tcg_opt_gen_movi(s, &ctx, op2, rh, (int32_t)(a >> 32));
 -                break;
 +                continue;
              }
 -            goto do_default;
 +            break;
          case INDEX_op_mulu2_i32:
              if (arg_is_const(op->args[2]) && arg_is_const(op->args[3])) {
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
                  rh = op->args[1];
                  tcg_opt_gen_movi(s, &ctx, op, rl, (int32_t)r);
                  tcg_opt_gen_movi(s, &ctx, op2, rh, (int32_t)(r >> 32));
 -                break;
 +                continue;
              }
 -            goto do_default;
 +            break;
          case INDEX_op_brcond2_i32:
              tmp = do_constant_folding_cond2(&op->args[0], &op->args[2],
                                              op->args[4]);
 -            if (tmp != 2) {
 -                if (tmp) {
 -            do_brcond_true:
 -                    memset(&ctx.temps_used, 0, sizeof(ctx.temps_used));
 -                    op->opc = INDEX_op_br;
 -                    op->args[0] = op->args[5];
 -                } else {
 +            if (tmp == 0) {
              do_brcond_false:
 -                    tcg_op_remove(s, op);
 -                }
 -            } else if ((op->args[4] == TCG_COND_LT
 -                        || op->args[4] == TCG_COND_GE)
 -                       && arg_is_const(op->args[2])
 -                       && arg_info(op->args[2])->val == 0
 -                       && arg_is_const(op->args[3])
 -                       && arg_info(op->args[3])->val == 0) {
 +                tcg_op_remove(s, op);
 +                continue;
 +            }
 +            if (tmp == 1) {
 +            do_brcond_true:
 +                op->opc = opc = INDEX_op_br;
 +                op->args[0] = op->args[5];
 +                break;
 +            }
 +            if ((op->args[4] == TCG_COND_LT || op->args[4] == TCG_COND_GE)
 +                 && arg_is_const(op->args[2])
 +                 && arg_info(op->args[2])->val == 0
 +                 && arg_is_const(op->args[3])
 +                 && arg_info(op->args[3])->val == 0) {
                  /* Simplify LT/GE comparisons vs zero to a single compare
                     vs the high word of the input.  */
              do_brcond_high:
 -                memset(&ctx.temps_used, 0, sizeof(ctx.temps_used));
 -                op->opc = INDEX_op_brcond_i32;
 +                op->opc = opc = INDEX_op_brcond_i32;
                  op->args[0] = op->args[1];
                  op->args[1] = op->args[3];
                  op->args[2] = op->args[4];
                  op->args[3] = op->args[5];
 -            } else if (op->args[4] == TCG_COND_EQ) {
 +                break;
 +            }
 +            if (op->args[4] == TCG_COND_EQ) {
                  /* Simplify EQ comparisons where one of the pairs
                     can be simplified.  */
                  tmp = do_constant_folding_cond(INDEX_op_brcond_i32,
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
                  if (tmp == 0) {
                      goto do_brcond_false;
                  } else if (tmp != 1) {
 -                    goto do_default;
 +                    break;
                  }
              do_brcond_low:
                  memset(&ctx.temps_used, 0, sizeof(ctx.temps_used));
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
                  op->args[1] = op->args[2];
                  op->args[2] = op->args[4];
                  op->args[3] = op->args[5];
 -            } else if (op->args[4] == TCG_COND_NE) {
 +                break;
 +            }
 +            if (op->args[4] == TCG_COND_NE) {
                  /* Simplify NE comparisons where one of the pairs
                     can be simplified.  */
                  tmp = do_constant_folding_cond(INDEX_op_brcond_i32,
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
                  } else if (tmp == 1) {
                      goto do_brcond_true;
                  }
 -                goto do_default;
 -            } else {
 -                goto do_default;
              }
              break;
-         case MO_32:
-             tcg_gen_bswap32_i32(swap, val);
+@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
-@@ -XXX,XX +XXX,XX @@ void tcg_gen_qemu_st_i64(TCGv_i64 val, TCGv addr, TCGArg idx, MemOp memop)
+             if (tmp != 2) {
-         swap = tcg_temp_new_i64();
+             do_setcond_const:
-         switch (memop & MO_SIZE) {
+                 tcg_opt_gen_movi(s, &ctx, op, op->args[0], tmp);
-         case MO_16:
+-            } else if ((op->args[5] == TCG_COND_LT
--            tcg_gen_ext16u_i64(swap, val);
+-                        || op->args[5] == TCG_COND_GE)
--            tcg_gen_bswap16_i64(swap, swap, TCG_BSWAP_IZ | TCG_BSWAP_OZ);
+-                       && arg_is_const(op->args[3])
-+            tcg_gen_bswap16_i64(swap, val, 0);
+-                       && arg_info(op->args[3])->val == 0
 -                       && arg_is_const(op->args[4])
 -                       && arg_info(op->args[4])->val == 0) {
 +                continue;
 +            }
 +            if ((op->args[5] == TCG_COND_LT || op->args[5] == TCG_COND_GE)
 +                 && arg_is_const(op->args[3])
 +                 && arg_info(op->args[3])->val == 0
 +                 && arg_is_const(op->args[4])
 +                 && arg_info(op->args[4])->val == 0) {
                  /* Simplify LT/GE comparisons vs zero to a single compare
                     vs the high word of the input.  */
              do_setcond_high:
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
                  op->args[1] = op->args[2];
                  op->args[2] = op->args[4];
                  op->args[3] = op->args[5];
 -            } else if (op->args[5] == TCG_COND_EQ) {
 +                break;
 +            }
 +            if (op->args[5] == TCG_COND_EQ) {
                  /* Simplify EQ comparisons where one of the pairs
                     can be simplified.  */
                  tmp = do_constant_folding_cond(INDEX_op_setcond_i32,
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
                  if (tmp == 0) {
                      goto do_setcond_high;
                  } else if (tmp != 1) {
 -                    goto do_default;
 +                    break;
                  }
              do_setcond_low:
                  reset_temp(op->args[0]);
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
                  op->opc = INDEX_op_setcond_i32;
                  op->args[2] = op->args[3];
                  op->args[3] = op->args[5];
 -            } else if (op->args[5] == TCG_COND_NE) {
 +                break;
 +            }
 +            if (op->args[5] == TCG_COND_NE) {
                  /* Simplify NE comparisons where one of the pairs
                     can be simplified.  */
                  tmp = do_constant_folding_cond(INDEX_op_setcond_i32,
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
                  } else if (tmp == 1) {
                      goto do_setcond_const;
                  }
 -                goto do_default;
 -            } else {
 -                goto do_default;
              }
              break;
-         case MO_32:
--            tcg_gen_ext32u_i64(swap, val);
+-        case INDEX_op_call:
--            tcg_gen_bswap32_i64(swap, swap, TCG_BSWAP_IZ | TCG_BSWAP_OZ);
+-            if (!(tcg_call_flags(op)
-+            tcg_gen_bswap32_i64(swap, val, 0);
++        default:
-             break;
++            break;
-         case MO_64:
++        }
-             tcg_gen_bswap64_i64(swap, val);
++
 +        /* Some of the folding above can change opc. */
 +        opc = op->opc;
 +        def = &tcg_op_defs[opc];
 +        if (def->flags & TCG_OPF_BB_END) {
 +            memset(&ctx.temps_used, 0, sizeof(ctx.temps_used));
 +        } else {
 +            if (opc == INDEX_op_call &&
 +                !(tcg_call_flags(op)
                    & (TCG_CALL_NO_READ_GLOBALS | TCG_CALL_NO_WRITE_GLOBALS))) {
                  for (i = 0; i < nb_globals; i++) {
                      if (test_bit(i, ctx.temps_used.l)) {
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
                      }
                  }
              }
 -            goto do_reset_output;
 -        default:
 -        do_default:
 -            /* Default case: we know nothing about operation (or were unable
 -               to compute the operation result) so no propagation is done.
 -               We trash everything if the operation is the end of a basic
 -               block, otherwise we only trash the output args.  "z_mask" is
 -               the non-zero bits mask for the first output arg.  */
 -            if (def->flags & TCG_OPF_BB_END) {
 -                memset(&ctx.temps_used, 0, sizeof(ctx.temps_used));
 -            } else {
 -        do_reset_output:
 -                for (i = 0; i < nb_oargs; i++) {
 -                    reset_temp(op->args[i]);
 -                    /* Save the corresponding known-zero bits mask for the
 -                       first output argument (only one supported so far). */
 -                    if (i == 0) {
 -                        arg_info(op->args[i])->z_mask = z_mask;
 -                    }
 +            for (i = 0; i < nb_oargs; i++) {
 +                reset_temp(op->args[i]);
 +                /* Save the corresponding known-zero bits mask for the
 +                   first output argument (only one supported so far). */
 +                if (i == 0) {
 +                    arg_info(op->args[i])->z_mask = z_mask;
                  }
              }
 -            break;
          }
          /* Eliminate duplicate and redundant fence instructions.  */
 --
 .25.1

-[PULL 39/63] tcg/arm: Support bswap flags
+[PULL 09/56] tcg/optimize: Change tcg_opt_gen_{mov,movi} interface
-Combine the three bswap16 routines, and differentiate via the flags.
+Adjust the interface to take the OptContext parameter instead
-Use the correct flags combination from the load/store routines, and
+of TCGContext or both.
-pass along the constant parameter from tcg_out_op.
+Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
-Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
+Reviewed-by: Luis Pires <luis.pires@eldorado.org.br>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- tcg/arm/tcg-target.c.inc | 101 ++++++++++++++++++++++++---------------
+ tcg/optimize.c | 67 +++++++++++++++++++++++++-------------------------
-file changed, 63 insertions(+), 38 deletions(-)
+file changed, 34 insertions(+), 33 deletions(-)
-diff --git a/tcg/arm/tcg-target.c.inc b/tcg/arm/tcg-target.c.inc
+diff --git a/tcg/optimize.c b/tcg/optimize.c
 index XXXXXXX..XXXXXXX 100644
---- a/tcg/arm/tcg-target.c.inc
+--- a/tcg/optimize.c
-+++ b/tcg/arm/tcg-target.c.inc
++++ b/tcg/optimize.c
-@@ -XXX,XX +XXX,XX @@ static inline void tcg_out_ext16u(TCGContext *s, int cond,
+@@ -XXX,XX +XXX,XX @@ typedef struct TempOptInfo {
  } TempOptInfo;
  typedef struct OptContext {
 +    TCGContext *tcg;
      TCGTempSet temps_used;
  } OptContext;
@@ -XXX,XX +XXX,XX @@ static bool args_are_copies(TCGArg arg1, TCGArg arg2)
      return ts_are_copies(arg_temp(arg1), arg_temp(arg2));
  }
 -static void tcg_opt_gen_mov(TCGContext *s, TCGOp *op, TCGArg dst, TCGArg src)
 +static void tcg_opt_gen_mov(OptContext *ctx, TCGOp *op, TCGArg dst, TCGArg src)
  {
      TCGTemp *dst_ts = arg_temp(dst);
      TCGTemp *src_ts = arg_temp(src);
@@ -XXX,XX +XXX,XX @@ static void tcg_opt_gen_mov(TCGContext *s, TCGOp *op, TCGArg dst, TCGArg src)
      TCGOpcode new_op;
      if (ts_are_copies(dst_ts, src_ts)) {
 -        tcg_op_remove(s, op);
 +        tcg_op_remove(ctx->tcg, op);
          return;
      }
@@ -XXX,XX +XXX,XX @@ static void tcg_opt_gen_mov(TCGContext *s, TCGOp *op, TCGArg dst, TCGArg src)
      }
  }
--static inline void tcg_out_bswap16s(TCGContext *s, int cond, int rd, int rn)
+-static void tcg_opt_gen_movi(TCGContext *s, OptContext *ctx,
-+static void tcg_out_bswap16(TCGContext *s, int cond, int rd, int rn, int flags)
+-                             TCGOp *op, TCGArg dst, uint64_t val)
 +static void tcg_opt_gen_movi(OptContext *ctx, TCGOp *op,
 +                             TCGArg dst, uint64_t val)
  {
-     if (use_armv6_instructions) {
+     const TCGOpDef *def = &tcg_op_defs[op->opc];
--        /* revsh */
+     TCGType type;
--        tcg_out32(s, 0x06ff0fb0 | (cond << 28) | (rd << 12) | rn);
+@@ -XXX,XX +XXX,XX @@ static void tcg_opt_gen_movi(TCGContext *s, OptContext *ctx,
--    } else {
+     /* Convert movi to mov with constant temp. */
--        tcg_out_dat_reg(s, cond, ARITH_MOV,
+     tv = tcg_constant_internal(type, val);
--                        TCG_REG_TMP, 0, rn, SHIFT_IMM_LSL(24));
+     init_ts_info(ctx, tv);
--        tcg_out_dat_reg(s, cond, ARITH_MOV,
+-    tcg_opt_gen_mov(s, op, dst, temp_arg(tv));
--                        TCG_REG_TMP, 0, TCG_REG_TMP, SHIFT_IMM_ASR(16));
++    tcg_opt_gen_mov(ctx, op, dst, temp_arg(tv));
 -        tcg_out_dat_reg(s, cond, ARITH_ORR,
 -                        rd, TCG_REG_TMP, rn, SHIFT_IMM_LSR(8));
 -    }
 -}
 +        if (flags & TCG_BSWAP_OS) {
 +            /* revsh */
 +            tcg_out32(s, 0x06ff0fb0 | (cond << 28) | (rd << 12) | rn);
 +            return;
 +        }
 -static inline void tcg_out_bswap16(TCGContext *s, int cond, int rd, int rn)
 -{
 -    if (use_armv6_instructions) {
          /* rev16 */
          tcg_out32(s, 0x06bf0fb0 | (cond << 28) | (rd << 12) | rn);
 -    } else {
 -        tcg_out_dat_reg(s, cond, ARITH_MOV,
 -                        TCG_REG_TMP, 0, rn, SHIFT_IMM_LSL(24));
 -        tcg_out_dat_reg(s, cond, ARITH_MOV,
 -                        TCG_REG_TMP, 0, TCG_REG_TMP, SHIFT_IMM_LSR(16));
 -        tcg_out_dat_reg(s, cond, ARITH_ORR,
 -                        rd, TCG_REG_TMP, rn, SHIFT_IMM_LSR(8));
 +        if ((flags & (TCG_BSWAP_IZ | TCG_BSWAP_OZ)) == TCG_BSWAP_OZ) {
 +            /* uxth */
 +            tcg_out32(s, 0x06ff0070 | (cond << 28) | (rd << 12) | rd);
 +        }
 +        return;
      }
 -}
 -/* swap the two low bytes assuming that the two high input bytes and the
 -   two high output bit can hold any value. */
 -static inline void tcg_out_bswap16st(TCGContext *s, int cond, int rd, int rn)
 -{
 -    if (use_armv6_instructions) {
 -        /* rev16 */
 -        tcg_out32(s, 0x06bf0fb0 | (cond << 28) | (rd << 12) | rn);
 -    } else {
 +    if (flags == 0) {
 +        /*
 +         * For stores, no input or output extension:
 +         *                              rn  = xxAB
 +         * lsr tmp, rn, #8              tmp = 0xxA
 +         * and tmp, tmp, #0xff          tmp = 000A
 +         * orr rd, tmp, rn, lsl #8      rd  = xABA
 +         */
          tcg_out_dat_reg(s, cond, ARITH_MOV,
                          TCG_REG_TMP, 0, rn, SHIFT_IMM_LSR(8));
          tcg_out_dat_imm(s, cond, ARITH_AND, TCG_REG_TMP, TCG_REG_TMP, 0xff);
          tcg_out_dat_reg(s, cond, ARITH_ORR,
                          rd, TCG_REG_TMP, rn, SHIFT_IMM_LSL(8));
 +        return;
      }
 +
 +    /*
 +     * Byte swap, leaving the result at the top of the register.
 +     * We will then shift down, zero or sign-extending.
 +     */
 +    if (flags & TCG_BSWAP_IZ) {
 +        /*
 +         *                              rn  = 00AB
 +         * ror tmp, rn, #8              tmp = B00A
 +         * orr tmp, tmp, tmp, lsl #16   tmp = BA00
 +         */
 +        tcg_out_dat_reg(s, cond, ARITH_MOV,
 +                        TCG_REG_TMP, 0, rn, SHIFT_IMM_ROR(8));
 +        tcg_out_dat_reg(s, cond, ARITH_ORR,
 +                        TCG_REG_TMP, TCG_REG_TMP, TCG_REG_TMP,
 +                        SHIFT_IMM_LSL(16));
 +    } else {
 +        /*
 +         *                              rn  = xxAB
 +         * and tmp, rn, #0xff00         tmp = 00A0
 +         * lsl tmp, tmp, #8             tmp = 0A00
 +         * orr tmp, tmp, rn, lsl #24    tmp = BA00
 +         */
 +        tcg_out_dat_rI(s, cond, ARITH_AND, TCG_REG_TMP, rn, 0xff00, 1);
 +        tcg_out_dat_reg(s, cond, ARITH_MOV,
 +                        TCG_REG_TMP, 0, TCG_REG_TMP, SHIFT_IMM_LSL(8));
 +        tcg_out_dat_reg(s, cond, ARITH_ORR,
 +                        TCG_REG_TMP, TCG_REG_TMP, rn, SHIFT_IMM_LSL(24));
 +    }
 +    tcg_out_dat_reg(s, cond, ARITH_MOV, rd, 0, TCG_REG_TMP,
 +                    (flags & TCG_BSWAP_OS
 +                     ? SHIFT_IMM_ASR(8) : SHIFT_IMM_LSR(8)));
  }
- static inline void tcg_out_bswap32(TCGContext *s, int cond, int rd, int rn)
+ static uint64_t do_constant_folding_2(TCGOpcode op, uint64_t x, uint64_t y)
-@@ -XXX,XX +XXX,XX @@ static inline void tcg_out_qemu_ld_index(TCGContext *s, MemOp opc,
+@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
-     case MO_UW:
+ {
-         tcg_out_ld16u_r(s, COND_AL, datalo, addrlo, addend);
+     int nb_temps, nb_globals, i;
-         if (bswap) {
+     TCGOp *op, *op_next, *prev_mb = NULL;
--            tcg_out_bswap16(s, COND_AL, datalo, datalo);
+-    OptContext ctx = {};
-+            tcg_out_bswap16(s, COND_AL, datalo, datalo,
++    OptContext ctx = { .tcg = s };
-+                            TCG_BSWAP_IZ | TCG_BSWAP_OZ);
      /* Array VALS has an element for each temp.
         If this temp holds a constant then its value is kept in VALS' element.
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
          CASE_OP_32_64(rotr):
              if (arg_is_const(op->args[1])
                  && arg_info(op->args[1])->val == 0) {
 -                tcg_opt_gen_movi(s, &ctx, op, op->args[0], 0);
 +                tcg_opt_gen_movi(&ctx, op, op->args[0], 0);
                  continue;
              }
              break;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
              if (!arg_is_const(op->args[1])
                  && arg_is_const(op->args[2])
                  && arg_info(op->args[2])->val == 0) {
 -                tcg_opt_gen_mov(s, op, op->args[0], op->args[1]);
 +                tcg_opt_gen_mov(&ctx, op, op->args[0], op->args[1]);
                  continue;
              }
              break;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
              if (!arg_is_const(op->args[1])
                  && arg_is_const(op->args[2])
                  && arg_info(op->args[2])->val == -1) {
 -                tcg_opt_gen_mov(s, op, op->args[0], op->args[1]);
 +                tcg_opt_gen_mov(&ctx, op, op->args[0], op->args[1]);
                  continue;
              }
              break;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
          if (partmask == 0) {
              tcg_debug_assert(nb_oargs == 1);
 -            tcg_opt_gen_movi(s, &ctx, op, op->args[0], 0);
 +            tcg_opt_gen_movi(&ctx, op, op->args[0], 0);
              continue;
          }
-         break;
+         if (affected == 0) {
-     case MO_SW:
+             tcg_debug_assert(nb_oargs == 1);
-         if (bswap) {
+-            tcg_opt_gen_mov(s, op, op->args[0], op->args[1]);
-             tcg_out_ld16u_r(s, COND_AL, datalo, addrlo, addend);
++            tcg_opt_gen_mov(&ctx, op, op->args[0], op->args[1]);
--            tcg_out_bswap16s(s, COND_AL, datalo, datalo);
+             continue;
 +            tcg_out_bswap16(s, COND_AL, datalo, datalo,
 +                            TCG_BSWAP_IZ | TCG_BSWAP_OS);
          } else {
              tcg_out_ld16s_r(s, COND_AL, datalo, addrlo, addend);
          }
-@@ -XXX,XX +XXX,XX @@ static inline void tcg_out_qemu_ld_direct(TCGContext *s, MemOp opc,
-     case MO_UW:
+@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
-         tcg_out_ld16u_8(s, COND_AL, datalo, addrlo, 0);
+         CASE_OP_32_64(mulsh):
-         if (bswap) {
+             if (arg_is_const(op->args[2])
--            tcg_out_bswap16(s, COND_AL, datalo, datalo);
+                 && arg_info(op->args[2])->val == 0) {
-+            tcg_out_bswap16(s, COND_AL, datalo, datalo,
+-                tcg_opt_gen_movi(s, &ctx, op, op->args[0], 0);
-+                            TCG_BSWAP_IZ | TCG_BSWAP_OZ);
++                tcg_opt_gen_movi(&ctx, op, op->args[0], 0);
-         }
+                 continue;
-         break;
+             }
-     case MO_SW:
+             break;
-         if (bswap) {
+@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
-             tcg_out_ld16u_8(s, COND_AL, datalo, addrlo, 0);
+         CASE_OP_32_64_VEC(or):
--            tcg_out_bswap16s(s, COND_AL, datalo, datalo);
+         CASE_OP_32_64_VEC(and):
-+            tcg_out_bswap16(s, COND_AL, datalo, datalo,
+             if (args_are_copies(op->args[1], op->args[2])) {
-+                            TCG_BSWAP_IZ | TCG_BSWAP_OS);
+-                tcg_opt_gen_mov(s, op, op->args[0], op->args[1]);
-         } else {
++                tcg_opt_gen_mov(&ctx, op, op->args[0], op->args[1]);
-             tcg_out_ld16s_8(s, COND_AL, datalo, addrlo, 0);
+                 continue;
-         }
+             }
-@@ -XXX,XX +XXX,XX @@ static inline void tcg_out_qemu_st_index(TCGContext *s, int cond, MemOp opc,
+             break;
-         break;
+@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
-     case MO_16:
+         CASE_OP_32_64_VEC(sub):
-         if (bswap) {
+         CASE_OP_32_64_VEC(xor):
--            tcg_out_bswap16st(s, cond, TCG_REG_R0, datalo);
+             if (args_are_copies(op->args[1], op->args[2])) {
-+            tcg_out_bswap16(s, cond, TCG_REG_R0, datalo, 0);
+-                tcg_opt_gen_movi(s, &ctx, op, op->args[0], 0);
-             tcg_out_st16_r(s, cond, TCG_REG_R0, addrlo, addend);
++                tcg_opt_gen_movi(&ctx, op, op->args[0], 0);
-         } else {
+                 continue;
-             tcg_out_st16_r(s, cond, datalo, addrlo, addend);
+             }
-@@ -XXX,XX +XXX,XX @@ static inline void tcg_out_qemu_st_direct(TCGContext *s, MemOp opc,
+             break;
-         break;
+@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
-     case MO_16:
+            allocator where needed and possible.  Also detect copies. */
-         if (bswap) {
+         switch (opc) {
--            tcg_out_bswap16st(s, COND_AL, TCG_REG_R0, datalo);
+         CASE_OP_32_64_VEC(mov):
-+            tcg_out_bswap16(s, COND_AL, TCG_REG_R0, datalo, 0);
+-            tcg_opt_gen_mov(s, op, op->args[0], op->args[1]);
-             tcg_out_st16_8(s, COND_AL, TCG_REG_R0, addrlo, 0);
++            tcg_opt_gen_mov(&ctx, op, op->args[0], op->args[1]);
-         } else {
+             continue;
-             tcg_out_st16_8(s, COND_AL, datalo, addrlo, 0);
-@@ -XXX,XX +XXX,XX @@ static inline void tcg_out_op(TCGContext *s, TCGOpcode opc,
+         case INDEX_op_dup_vec:
-         break;
+             if (arg_is_const(op->args[1])) {
+                 tmp = arg_info(op->args[1])->val;
-     case INDEX_op_bswap16_i32:
+                 tmp = dup_const(TCGOP_VECE(op), tmp);
--        tcg_out_bswap16(s, COND_AL, args[0], args[1]);
+-                tcg_opt_gen_movi(s, &ctx, op, op->args[0], tmp);
-+        tcg_out_bswap16(s, COND_AL, args[0], args[1], args[2]);
++                tcg_opt_gen_movi(&ctx, op, op->args[0], tmp);
-         break;
+                 continue;
-     case INDEX_op_bswap32_i32:
+             }
-         tcg_out_bswap32(s, COND_AL, args[0], args[1]);
+             break;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
          case INDEX_op_dup2_vec:
              assert(TCG_TARGET_REG_BITS == 32);
              if (arg_is_const(op->args[1]) && arg_is_const(op->args[2])) {
 -                tcg_opt_gen_movi(s, &ctx, op, op->args[0],
 +                tcg_opt_gen_movi(&ctx, op, op->args[0],
                                   deposit64(arg_info(op->args[1])->val, 32, 32,
                                             arg_info(op->args[2])->val));
                  continue;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
          case INDEX_op_extrh_i64_i32:
              if (arg_is_const(op->args[1])) {
                  tmp = do_constant_folding(opc, arg_info(op->args[1])->val, 0);
 -                tcg_opt_gen_movi(s, &ctx, op, op->args[0], tmp);
 +                tcg_opt_gen_movi(&ctx, op, op->args[0], tmp);
                  continue;
              }
              break;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
              if (arg_is_const(op->args[1])) {
                  tmp = do_constant_folding(opc, arg_info(op->args[1])->val,
                                            op->args[2]);
 -                tcg_opt_gen_movi(s, &ctx, op, op->args[0], tmp);
 +                tcg_opt_gen_movi(&ctx, op, op->args[0], tmp);
                  continue;
              }
              break;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
              if (arg_is_const(op->args[1]) && arg_is_const(op->args[2])) {
                  tmp = do_constant_folding(opc, arg_info(op->args[1])->val,
                                            arg_info(op->args[2])->val);
 -                tcg_opt_gen_movi(s, &ctx, op, op->args[0], tmp);
 +                tcg_opt_gen_movi(&ctx, op, op->args[0], tmp);
                  continue;
              }
              break;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
                  TCGArg v = arg_info(op->args[1])->val;
                  if (v != 0) {
                      tmp = do_constant_folding(opc, v, 0);
 -                    tcg_opt_gen_movi(s, &ctx, op, op->args[0], tmp);
 +                    tcg_opt_gen_movi(&ctx, op, op->args[0], tmp);
                  } else {
 -                    tcg_opt_gen_mov(s, op, op->args[0], op->args[2]);
 +                    tcg_opt_gen_mov(&ctx, op, op->args[0], op->args[2]);
                  }
                  continue;
              }
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
                  tmp = deposit64(arg_info(op->args[1])->val,
                                  op->args[3], op->args[4],
                                  arg_info(op->args[2])->val);
 -                tcg_opt_gen_movi(s, &ctx, op, op->args[0], tmp);
 +                tcg_opt_gen_movi(&ctx, op, op->args[0], tmp);
                  continue;
              }
              break;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
              if (arg_is_const(op->args[1])) {
                  tmp = extract64(arg_info(op->args[1])->val,
                                  op->args[2], op->args[3]);
 -                tcg_opt_gen_movi(s, &ctx, op, op->args[0], tmp);
 +                tcg_opt_gen_movi(&ctx, op, op->args[0], tmp);
                  continue;
              }
              break;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
              if (arg_is_const(op->args[1])) {
                  tmp = sextract64(arg_info(op->args[1])->val,
                                   op->args[2], op->args[3]);
 -                tcg_opt_gen_movi(s, &ctx, op, op->args[0], tmp);
 +                tcg_opt_gen_movi(&ctx, op, op->args[0], tmp);
                  continue;
              }
              break;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
                      tmp = (int32_t)(((uint32_t)v1 >> shr) |
                                      ((uint32_t)v2 << (32 - shr)));
                  }
 -                tcg_opt_gen_movi(s, &ctx, op, op->args[0], tmp);
 +                tcg_opt_gen_movi(&ctx, op, op->args[0], tmp);
                  continue;
              }
              break;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
              tmp = do_constant_folding_cond(opc, op->args[1],
                                             op->args[2], op->args[3]);
              if (tmp != 2) {
 -                tcg_opt_gen_movi(s, &ctx, op, op->args[0], tmp);
 +                tcg_opt_gen_movi(&ctx, op, op->args[0], tmp);
                  continue;
              }
              break;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
              tmp = do_constant_folding_cond(opc, op->args[1],
                                             op->args[2], op->args[5]);
              if (tmp != 2) {
 -                tcg_opt_gen_mov(s, op, op->args[0], op->args[4-tmp]);
 +                tcg_opt_gen_mov(&ctx, op, op->args[0], op->args[4-tmp]);
                  continue;
              }
              if (arg_is_const(op->args[3]) && arg_is_const(op->args[4])) {
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
                  rl = op->args[0];
                  rh = op->args[1];
 -                tcg_opt_gen_movi(s, &ctx, op, rl, (int32_t)a);
 -                tcg_opt_gen_movi(s, &ctx, op2, rh, (int32_t)(a >> 32));
 +                tcg_opt_gen_movi(&ctx, op, rl, (int32_t)a);
 +                tcg_opt_gen_movi(&ctx, op2, rh, (int32_t)(a >> 32));
                  continue;
              }
              break;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
                  rl = op->args[0];
                  rh = op->args[1];
 -                tcg_opt_gen_movi(s, &ctx, op, rl, (int32_t)r);
 -                tcg_opt_gen_movi(s, &ctx, op2, rh, (int32_t)(r >> 32));
 +                tcg_opt_gen_movi(&ctx, op, rl, (int32_t)r);
 +                tcg_opt_gen_movi(&ctx, op2, rh, (int32_t)(r >> 32));
                  continue;
              }
              break;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
                                              op->args[5]);
              if (tmp != 2) {
              do_setcond_const:
 -                tcg_opt_gen_movi(s, &ctx, op, op->args[0], tmp);
 +                tcg_opt_gen_movi(&ctx, op, op->args[0], tmp);
                  continue;
              }
              if ((op->args[5] == TCG_COND_LT || op->args[5] == TCG_COND_GE)
 --
 .25.1

-[PULL 13/63] target/cris: Add DisasContextBase to DisasContext
+[PULL 10/56] tcg/optimize: Move prev_mb into OptContext
-Migrate the is_jmp, tb and singlestep_enabled fields
+This will expose the variable to subroutines that
-from DisasContext into the base.
+will be broken out of tcg_optimize.
-Reviewed-by: Edgar E. Iglesias <edgar.iglesias@xilinx.com>
+Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
-Tested-by: Edgar E. Iglesias <edgar.iglesias@xilinx.com>
+Reviewed-by: Luis Pires <luis.pires@eldorado.org.br>
 Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- target/cris/translate.c         | 49 +++++++++++++++++----------------
+ tcg/optimize.c | 11 ++++++-----
- target/cris/translate_v10.c.inc |  4 +--
+file changed, 6 insertions(+), 5 deletions(-)
 files changed, 27 insertions(+), 26 deletions(-)
-diff --git a/target/cris/translate.c b/target/cris/translate.c
+diff --git a/tcg/optimize.c b/tcg/optimize.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/cris/translate.c
+--- a/tcg/optimize.c
-+++ b/target/cris/translate.c
++++ b/tcg/optimize.c
-@@ -XXX,XX +XXX,XX @@ static TCGv env_pc;
+@@ -XXX,XX +XXX,XX @@ typedef struct TempOptInfo {
- /* This is the state at translation time.  */
+ typedef struct OptContext {
- typedef struct DisasContext {
+     TCGContext *tcg;
-+    DisasContextBase base;
++    TCGOp *prev_mb;
-+
+     TCGTempSet temps_used;
-     CRISCPU *cpu;
+ } OptContext;
-     target_ulong pc, ppc;
+@@ -XXX,XX +XXX,XX @@ static bool swap_commutative2(TCGArg *p1, TCGArg *p2)
-@@ -XXX,XX +XXX,XX @@ typedef struct DisasContext {
+ void tcg_optimize(TCGContext *s)
      int clear_locked_irq; /* Clear the irq lockout.  */
      int cpustate_changed;
      unsigned int tb_flags; /* tb dependent flags.  */
 -    int is_jmp;
  #define JMP_NOJMP     0
  #define JMP_DIRECT    1
@@ -XXX,XX +XXX,XX @@ typedef struct DisasContext {
      uint32_t jmp_pc;
      int delayed_branch;
 -
 -    TranslationBlock *tb;
 -    int singlestep_enabled;
  } DisasContext;
  static void gen_BUG(DisasContext *dc, const char *file, int line)
@@ -XXX,XX +XXX,XX @@ static void t_gen_cc_jmp(TCGv pc_true, TCGv pc_false)
  static inline bool use_goto_tb(DisasContext *dc, target_ulong dest)
  {
- #ifndef CONFIG_USER_ONLY
+     int nb_temps, nb_globals, i;
--    return (dc->tb->pc & TARGET_PAGE_MASK) == (dest & TARGET_PAGE_MASK) ||
+-    TCGOp *op, *op_next, *prev_mb = NULL;
-+    return (dc->base.pc_first & TARGET_PAGE_MASK) == (dest & TARGET_PAGE_MASK) ||
++    TCGOp *op, *op_next;
-            (dc->ppc & TARGET_PAGE_MASK) == (dest & TARGET_PAGE_MASK);
+     OptContext ctx = { .tcg = s };
- #else
-     return true;
+     /* Array VALS has an element for each temp.
-@@ -XXX,XX +XXX,XX @@ static void gen_goto_tb(DisasContext *dc, int n, target_ulong dest)
+@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
-     if (use_goto_tb(dc, dest)) {
+         }
-         tcg_gen_goto_tb(n);
-         tcg_gen_movi_tl(env_pc, dest);
+         /* Eliminate duplicate and redundant fence instructions.  */
--        tcg_gen_exit_tb(dc->tb, n);
+-        if (prev_mb) {
-+        tcg_gen_exit_tb(dc->base.tb, n);
++        if (ctx.prev_mb) {
-     } else {
+             switch (opc) {
-         tcg_gen_movi_tl(env_pc, dest);
+             case INDEX_op_mb:
-         tcg_gen_exit_tb(NULL, 0);
+                 /* Merge two barriers of the same type into one,
-@@ -XXX,XX +XXX,XX @@ static int dec_setclrf(CPUCRISState *env, DisasContext *dc)
+@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
-     /* Break the TB if any of the SPI flag changes.  */
+                  * barrier.  This is stricter than specified but for
-     if (flags & (P_FLAG | S_FLAG)) {
+                  * the purposes of TCG is better than not optimizing.
-         tcg_gen_movi_tl(env_pc, dc->pc + 2);
+                  */
--        dc->is_jmp = DISAS_UPDATE;
+-                prev_mb->args[0] |= op->args[0];
-+        dc->base.is_jmp = DISAS_UPDATE;
++                ctx.prev_mb->args[0] |= op->args[0];
-         dc->cpustate_changed = 1;
+                 tcg_op_remove(s, op);
-     }
+                 break;
-     /* For the I flag, only act on posedge.  */
+@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
-     if ((flags & I_FLAG)) {
+             case INDEX_op_qemu_st_i64:
-         tcg_gen_movi_tl(env_pc, dc->pc + 2);
+             case INDEX_op_call:
--        dc->is_jmp = DISAS_UPDATE;
+                 /* Opcodes that touch guest memory stop the optimization.  */
-+        dc->base.is_jmp = DISAS_UPDATE;
+-                prev_mb = NULL;
-         dc->cpustate_changed = 1;
++                ctx.prev_mb = NULL;
      }
@@ -XXX,XX +XXX,XX @@ static int dec_rfe_etc(CPUCRISState *env, DisasContext *dc)
          LOG_DIS("rfe\n");
          cris_evaluate_flags(dc);
          gen_helper_rfe(cpu_env);
 -        dc->is_jmp = DISAS_UPDATE;
 +        dc->base.is_jmp = DISAS_UPDATE;
          break;
      case 5:
          /* rfn.  */
          LOG_DIS("rfn\n");
          cris_evaluate_flags(dc);
          gen_helper_rfn(cpu_env);
 -        dc->is_jmp = DISAS_UPDATE;
 +        dc->base.is_jmp = DISAS_UPDATE;
          break;
      case 6:
          LOG_DIS("break %d\n", dc->op1);
@@ -XXX,XX +XXX,XX @@ static int dec_rfe_etc(CPUCRISState *env, DisasContext *dc)
          /* Breaks start at 16 in the exception vector.  */
          t_gen_movi_env_TN(trap_vector, dc->op1 + 16);
          t_gen_raise_exception(EXCP_BREAK);
 -        dc->is_jmp = DISAS_UPDATE;
 +        dc->base.is_jmp = DISAS_UPDATE;
          break;
      default:
          printf("op2=%x\n", dc->op2);
@@ -XXX,XX +XXX,XX @@ void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int max_insns)
       * delayslot, like in real hw.
       */
      pc_start = tb->pc & ~1;
 -    dc->cpu = env_archcpu(env);
 -    dc->tb = tb;
 -    dc->is_jmp = DISAS_NEXT;
 +    dc->base.tb = tb;
 +    dc->base.pc_first = pc_start;
 +    dc->base.pc_next = pc_start;
 +    dc->base.is_jmp = DISAS_NEXT;
 +    dc->base.singlestep_enabled = cs->singlestep_enabled;
 +
 +    dc->cpu = env_archcpu(env);
      dc->ppc = pc_start;
      dc->pc = pc_start;
 -    dc->singlestep_enabled = cs->singlestep_enabled;
      dc->flags_uptodate = 1;
      dc->flagx_known = 1;
      dc->flags_x = tb->flags & X_FLAG;
@@ -XXX,XX +XXX,XX @@ void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int max_insns)
              cris_evaluate_flags(dc);
              tcg_gen_movi_tl(env_pc, dc->pc);
              t_gen_raise_exception(EXCP_DEBUG);
 -            dc->is_jmp = DISAS_UPDATE;
 +            dc->base.is_jmp = DISAS_UPDATE;
              /* The address covered by the breakpoint must be included in
                 [tb->pc, tb->pc + tb->size) in order to for it to be
                 properly cleared -- thus we increment the PC here so that
@@ -XXX,XX +XXX,XX @@ void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int max_insns)
                      gen_goto_tb(dc, 1, dc->jmp_pc);
                      gen_set_label(l1);
                      gen_goto_tb(dc, 0, dc->pc);
 -                    dc->is_jmp = DISAS_TB_JUMP;
 +                    dc->base.is_jmp = DISAS_TB_JUMP;
                      dc->jmp = JMP_NOJMP;
                  } else if (dc->jmp == JMP_DIRECT) {
                      cris_evaluate_flags(dc);
                      gen_goto_tb(dc, 0, dc->jmp_pc);
 -                    dc->is_jmp = DISAS_TB_JUMP;
 +                    dc->base.is_jmp = DISAS_TB_JUMP;
                      dc->jmp = JMP_NOJMP;
                  } else {
                      TCGv c = tcg_const_tl(dc->pc);
                      t_gen_cc_jmp(env_btarget, c);
                      tcg_temp_free(c);
 -                    dc->is_jmp = DISAS_JUMP;
 +                    dc->base.is_jmp = DISAS_JUMP;
                  }
                  break;
              }
-@@ -XXX,XX +XXX,XX @@ void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int max_insns)
+         } else if (opc == INDEX_op_mb) {
-         if (!(tb->pc & 1) && cs->singlestep_enabled) {
+-            prev_mb = op;
-             break;
++            ctx.prev_mb = op;
          }
 -    } while (!dc->is_jmp && !dc->cpustate_changed
 +    } while (!dc->base.is_jmp && !dc->cpustate_changed
              && !tcg_op_buf_full()
              && !singlestep
              && (dc->pc - page_start < TARGET_PAGE_SIZE)
@@ -XXX,XX +XXX,XX @@ void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int max_insns)
      npc = dc->pc;
      /* Force an update if the per-tb cpu state has changed.  */
 -    if (dc->is_jmp == DISAS_NEXT
 +    if (dc->base.is_jmp == DISAS_NEXT
          && (dc->cpustate_changed || !dc->flagx_known
          || (dc->flags_x != (tb->flags & X_FLAG)))) {
 -        dc->is_jmp = DISAS_UPDATE;
 +        dc->base.is_jmp = DISAS_UPDATE;
          tcg_gen_movi_tl(env_pc, npc);
      }
      /* Broken branch+delayslot sequence.  */
@@ -XXX,XX +XXX,XX @@ void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int max_insns)
      cris_evaluate_flags(dc);
      if (unlikely(cs->singlestep_enabled)) {
 -        if (dc->is_jmp == DISAS_NEXT) {
 +        if (dc->base.is_jmp == DISAS_NEXT) {
              tcg_gen_movi_tl(env_pc, npc);
          }
          t_gen_raise_exception(EXCP_DEBUG);
      } else {
 -        switch (dc->is_jmp) {
 +        switch (dc->base.is_jmp) {
          case DISAS_NEXT:
              gen_goto_tb(dc, 1, npc);
              break;
 diff --git a/target/cris/translate_v10.c.inc b/target/cris/translate_v10.c.inc
 index XXXXXXX..XXXXXXX 100644
 --- a/target/cris/translate_v10.c.inc
 +++ b/target/cris/translate_v10.c.inc
@@ -XXX,XX +XXX,XX @@ static unsigned int dec10_ind(CPUCRISState *env, DisasContext *dc)
                      t_gen_mov_env_TN(trap_vector, c);
                      tcg_temp_free(c);
                      t_gen_raise_exception(EXCP_BREAK);
 -                    dc->is_jmp = DISAS_UPDATE;
 +                    dc->base.is_jmp = DISAS_UPDATE;
                      return insn_len;
                  }
                  LOG_DIS("%d: jump.%d %d r%d r%d\n", __LINE__, size,
@@ -XXX,XX +XXX,XX @@ static unsigned int crisv10_decoder(CPUCRISState *env, DisasContext *dc)
      if (dc->clear_prefix && dc->tb_flags & PFIX_FLAG) {
          dc->tb_flags &= ~PFIX_FLAG;
          tcg_gen_andi_tl(cpu_PR[PR_CCS], cpu_PR[PR_CCS], ~PFIX_FLAG);
 -        if (dc->tb_flags != dc->tb->flags) {
 +        if (dc->tb_flags != dc->base.tb->flags) {
              dc->cpustate_changed = 1;
          }
      }
+ }
 --
 .25.1

-[PULL 37/63] tcg/aarch64: Merge tcg_out_rev{16,32,64}
+[PULL 11/56] tcg/optimize: Split out init_arguments
-Pass in the input and output size.  We currently use 3 of the 5
+There was no real reason for calls to have separate code here.
-possible combinations; the others may be used by new tcg opcodes.
+Unify init for calls vs non-calls using the call path, which
 handles TCG_CALL_DUMMY_ARG.
-Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
+Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
 Reviewed-by: Luis Pires <luis.pires@eldorado.org.br>
 Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- tcg/aarch64/tcg-target.c.inc | 42 ++++++++++++++----------------------
+ tcg/optimize.c | 25 +++++++++++--------------
-file changed, 16 insertions(+), 26 deletions(-)
+file changed, 11 insertions(+), 14 deletions(-)
-diff --git a/tcg/aarch64/tcg-target.c.inc b/tcg/aarch64/tcg-target.c.inc
+diff --git a/tcg/optimize.c b/tcg/optimize.c
 index XXXXXXX..XXXXXXX 100644
---- a/tcg/aarch64/tcg-target.c.inc
+--- a/tcg/optimize.c
-+++ b/tcg/aarch64/tcg-target.c.inc
++++ b/tcg/optimize.c
-@@ -XXX,XX +XXX,XX @@ typedef enum {
+@@ -XXX,XX +XXX,XX @@ static void init_ts_info(OptContext *ctx, TCGTemp *ts)
      /* Data-processing (1 source) instructions.  */
      I3507_CLZ       = 0x5ac01000,
      I3507_RBIT      = 0x5ac00000,
 -    I3507_REV16     = 0x5ac00400,
 -    I3507_REV32     = 0x5ac00800,
 -    I3507_REV64     = 0x5ac00c00,
 +    I3507_REV       = 0x5ac00000, /* + size << 10 */
      /* Data-processing (2 source) instructions.  */
      I3508_LSLV      = 0x1ac02000,
@@ -XXX,XX +XXX,XX @@ static void tcg_out_brcond(TCGContext *s, TCGType ext, TCGCond c, TCGArg a,
      }
  }
--static inline void tcg_out_rev64(TCGContext *s, TCGReg rd, TCGReg rn)
+-static void init_arg_info(OptContext *ctx, TCGArg arg)
-+static inline void tcg_out_rev(TCGContext *s, int ext, MemOp s_bits,
+-{
-+                               TCGReg rd, TCGReg rn)
+-    init_ts_info(ctx, arg_temp(arg));
  {
 -    tcg_out_insn(s, 3507, REV64, TCG_TYPE_I64, rd, rn);
 -}
 -
--static inline void tcg_out_rev32(TCGContext *s, TCGReg rd, TCGReg rn)
+ static TCGTemp *find_better_copy(TCGContext *s, TCGTemp *ts)
--{
+ {
--    tcg_out_insn(s, 3507, REV32, TCG_TYPE_I32, rd, rn);
+     TCGTemp *i, *g, *l;
--}
+@@ -XXX,XX +XXX,XX @@ static bool swap_commutative2(TCGArg *p1, TCGArg *p2)
--
+     return false;
 -static inline void tcg_out_rev16(TCGContext *s, TCGReg rd, TCGReg rn)
 -{
 -    tcg_out_insn(s, 3507, REV16, TCG_TYPE_I32, rd, rn);
 +    /* REV, REV16, REV32 */
 +    tcg_out_insn_3507(s, I3507_REV | (s_bits << 10), ext, rd, rn);
  }
- static inline void tcg_out_sxt(TCGContext *s, TCGType ext, MemOp s_bits,
++static void init_arguments(OptContext *ctx, TCGOp *op, int nb_args)
-@@ -XXX,XX +XXX,XX @@ static void tcg_out_qemu_ld_direct(TCGContext *s, MemOp memop, TCGType ext,
++{
-     case MO_UW:
++    for (int i = 0; i < nb_args; i++) {
-         tcg_out_ldst_r(s, I3312_LDRH, data_r, addr_r, otype, off_r);
++        TCGTemp *ts = arg_temp(op->args[i]);
-         if (bswap) {
++        if (ts) {
--            tcg_out_rev16(s, data_r, data_r);
++            init_ts_info(ctx, ts);
-+            tcg_out_rev(s, TCG_TYPE_I32, MO_16, data_r, data_r);
++        }
 +    }
 +}
 +
  /* Propagate constants and copies, fold constant expressions. */
  void tcg_optimize(TCGContext *s)
  {
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
          if (opc == INDEX_op_call) {
              nb_oargs = TCGOP_CALLO(op);
              nb_iargs = TCGOP_CALLI(op);
 -            for (i = 0; i < nb_oargs + nb_iargs; i++) {
 -                TCGTemp *ts = arg_temp(op->args[i]);
 -                if (ts) {
 -                    init_ts_info(&ctx, ts);
 -                }
 -            }
          } else {
              nb_oargs = def->nb_oargs;
              nb_iargs = def->nb_iargs;
 -            for (i = 0; i < nb_oargs + nb_iargs; i++) {
 -                init_arg_info(&ctx, op->args[i]);
 -            }
          }
-         break;
++        init_arguments(&ctx, op, nb_oargs + nb_iargs);
-     case MO_SW:
-         if (bswap) {
+         /* Do copy propagation */
-             tcg_out_ldst_r(s, I3312_LDRH, data_r, addr_r, otype, off_r);
+         for (i = nb_oargs; i < nb_oargs + nb_iargs; i++) {
 -            tcg_out_rev16(s, data_r, data_r);
 +            tcg_out_rev(s, TCG_TYPE_I32, MO_16, data_r, data_r);
              tcg_out_sxt(s, ext, MO_16, data_r, data_r);
          } else {
              tcg_out_ldst_r(s, (ext ? I3312_LDRSHX : I3312_LDRSHW),
@@ -XXX,XX +XXX,XX @@ static void tcg_out_qemu_ld_direct(TCGContext *s, MemOp memop, TCGType ext,
      case MO_UL:
          tcg_out_ldst_r(s, I3312_LDRW, data_r, addr_r, otype, off_r);
          if (bswap) {
 -            tcg_out_rev32(s, data_r, data_r);
 +            tcg_out_rev(s, TCG_TYPE_I32, MO_32, data_r, data_r);
          }
          break;
      case MO_SL:
          if (bswap) {
              tcg_out_ldst_r(s, I3312_LDRW, data_r, addr_r, otype, off_r);
 -            tcg_out_rev32(s, data_r, data_r);
 +            tcg_out_rev(s, TCG_TYPE_I32, MO_32, data_r, data_r);
              tcg_out_sxt(s, TCG_TYPE_I64, MO_32, data_r, data_r);
          } else {
              tcg_out_ldst_r(s, I3312_LDRSWX, data_r, addr_r, otype, off_r);
@@ -XXX,XX +XXX,XX @@ static void tcg_out_qemu_ld_direct(TCGContext *s, MemOp memop, TCGType ext,
      case MO_Q:
          tcg_out_ldst_r(s, I3312_LDRX, data_r, addr_r, otype, off_r);
          if (bswap) {
 -            tcg_out_rev64(s, data_r, data_r);
 +            tcg_out_rev(s, TCG_TYPE_I64, MO_64, data_r, data_r);
          }
          break;
      default:
@@ -XXX,XX +XXX,XX @@ static void tcg_out_qemu_st_direct(TCGContext *s, MemOp memop,
          break;
      case MO_16:
          if (bswap && data_r != TCG_REG_XZR) {
 -            tcg_out_rev16(s, TCG_REG_TMP, data_r);
 +            tcg_out_rev(s, TCG_TYPE_I32, MO_16, TCG_REG_TMP, data_r);
              data_r = TCG_REG_TMP;
          }
          tcg_out_ldst_r(s, I3312_STRH, data_r, addr_r, otype, off_r);
          break;
      case MO_32:
          if (bswap && data_r != TCG_REG_XZR) {
 -            tcg_out_rev32(s, TCG_REG_TMP, data_r);
 +            tcg_out_rev(s, TCG_TYPE_I32, MO_32, TCG_REG_TMP, data_r);
              data_r = TCG_REG_TMP;
          }
          tcg_out_ldst_r(s, I3312_STRW, data_r, addr_r, otype, off_r);
          break;
      case MO_64:
          if (bswap && data_r != TCG_REG_XZR) {
 -            tcg_out_rev64(s, TCG_REG_TMP, data_r);
 +            tcg_out_rev(s, TCG_TYPE_I64, MO_64, TCG_REG_TMP, data_r);
              data_r = TCG_REG_TMP;
          }
          tcg_out_ldst_r(s, I3312_STRX, data_r, addr_r, otype, off_r);
@@ -XXX,XX +XXX,XX @@ static void tcg_out_op(TCGContext *s, TCGOpcode opc,
          break;
      case INDEX_op_bswap64_i64:
 -        tcg_out_rev64(s, a0, a1);
 +        tcg_out_rev(s, TCG_TYPE_I64, MO_64, a0, a1);
          break;
      case INDEX_op_bswap32_i64:
      case INDEX_op_bswap32_i32:
 -        tcg_out_rev32(s, a0, a1);
 +        tcg_out_rev(s, TCG_TYPE_I32, MO_32, a0, a1);
          break;
      case INDEX_op_bswap16_i64:
      case INDEX_op_bswap16_i32:
 -        tcg_out_rev16(s, a0, a1);
 +        tcg_out_rev(s, TCG_TYPE_I32, MO_16, a0, a1);
          break;
      case INDEX_op_ext8s_i64:
 --
 .25.1

-[PULL 55/63] target/arm: Improve REV32
+[PULL 12/56] tcg/optimize: Split out copy_propagate
-For the sf version, we are performing two 32-bit bswaps
+Continue splitting tcg_optimize.
 in either half of the register.  This is equivalent to
 performing one 64-bit bswap followed by a rotate.
-For the non-sf version, we can remove TCG_BSWAP_IZ
+Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
-and the preceding zero-extension.
+Reviewed-by: Luis Pires <luis.pires@eldorado.org.br>
 Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
 Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- target/arm/translate-a64.c | 17 ++++-------------
+ tcg/optimize.c | 22 ++++++++++++++--------
-file changed, 4 insertions(+), 13 deletions(-)
+file changed, 14 insertions(+), 8 deletions(-)
-diff --git a/target/arm/translate-a64.c b/target/arm/translate-a64.c
+diff --git a/tcg/optimize.c b/tcg/optimize.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/translate-a64.c
+--- a/tcg/optimize.c
-+++ b/target/arm/translate-a64.c
++++ b/tcg/optimize.c
-@@ -XXX,XX +XXX,XX @@ static void handle_rev32(DisasContext *s, unsigned int sf,
+@@ -XXX,XX +XXX,XX @@ static void init_arguments(OptContext *ctx, TCGOp *op, int nb_args)
                           unsigned int rn, unsigned int rd)
  {
      TCGv_i64 tcg_rd = cpu_reg(s, rd);
 +    TCGv_i64 tcg_rn = cpu_reg(s, rn);
      if (sf) {
 -        TCGv_i64 tcg_tmp = tcg_temp_new_i64();
 -        TCGv_i64 tcg_rn = read_cpu_reg(s, rn, sf);
 -
 -        /* bswap32_i64 requires zero high word */
 -        tcg_gen_ext32u_i64(tcg_tmp, tcg_rn);
 -        tcg_gen_bswap32_i64(tcg_rd, tcg_tmp, TCG_BSWAP_IZ | TCG_BSWAP_OZ);
 -        tcg_gen_shri_i64(tcg_tmp, tcg_rn, 32);
 -        tcg_gen_bswap32_i64(tcg_tmp, tcg_tmp, TCG_BSWAP_IZ | TCG_BSWAP_OZ);
 -        tcg_gen_concat32_i64(tcg_rd, tcg_rd, tcg_tmp);
 -
 -        tcg_temp_free_i64(tcg_tmp);
 +        tcg_gen_bswap64_i64(tcg_rd, tcg_rn);
 +        tcg_gen_rotri_i64(tcg_rd, tcg_rd, 32);
      } else {
 -        tcg_gen_ext32u_i64(tcg_rd, cpu_reg(s, rn));
 -        tcg_gen_bswap32_i64(tcg_rd, tcg_rd, TCG_BSWAP_IZ | TCG_BSWAP_OZ);
 +        tcg_gen_bswap32_i64(tcg_rd, tcg_rn, TCG_BSWAP_OZ);
      }
  }
++static void copy_propagate(OptContext *ctx, TCGOp *op,
++                           int nb_oargs, int nb_iargs)
++{
++    TCGContext *s = ctx->tcg;
++
++    for (int i = nb_oargs; i < nb_oargs + nb_iargs; i++) {
++        TCGTemp *ts = arg_temp(op->args[i]);
++        if (ts && ts_is_copy(ts)) {
++            op->args[i] = temp_arg(find_better_copy(s, ts));
++        }
++    }
++}
++
+ /* Propagate constants and copies, fold constant expressions. */
+ void tcg_optimize(TCGContext *s)
+ {
+@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
+             nb_iargs = def->nb_iargs;
+         }
+         init_arguments(&ctx, op, nb_oargs + nb_iargs);
+-
+-        /* Do copy propagation */
+-        for (i = nb_oargs; i < nb_oargs + nb_iargs; i++) {
+-            TCGTemp *ts = arg_temp(op->args[i]);
+-            if (ts && ts_is_copy(ts)) {
+-                op->args[i] = temp_arg(find_better_copy(s, ts));
+-            }
+-        }
++        copy_propagate(&ctx, op, nb_oargs, nb_iargs);
+         /* For commutative operations make constant second argument */
+         switch (opc) {
 --
 .25.1

-[PULL 25/63] target/cris: Use tcg_gen_lookup_and_goto_ptr
+[PULL 13/56] tcg/optimize: Split out fold_call
-We can use this in gen_goto_tb and for DISAS_JUMP
+Calls are special in that they have a variable number
-to indirectly chain to the next TB.
+of arguments, and need to be able to clobber globals.
-Reviewed-by: Edgar E. Iglesias <edgar.iglesias@xilinx.com>
+Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
-Tested-by: Edgar E. Iglesias <edgar.iglesias@xilinx.com>
+Reviewed-by: Luis Pires <luis.pires@eldorado.org.br>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- target/cris/translate.c | 4 +++-
+ tcg/optimize.c | 63 ++++++++++++++++++++++++++++++++------------------
-file changed, 3 insertions(+), 1 deletion(-)
+file changed, 41 insertions(+), 22 deletions(-)
-diff --git a/target/cris/translate.c b/target/cris/translate.c
+diff --git a/tcg/optimize.c b/tcg/optimize.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/cris/translate.c
+--- a/tcg/optimize.c
-+++ b/target/cris/translate.c
++++ b/tcg/optimize.c
-@@ -XXX,XX +XXX,XX @@ static void gen_goto_tb(DisasContext *dc, int n, target_ulong dest)
+@@ -XXX,XX +XXX,XX @@ static void copy_propagate(OptContext *ctx, TCGOp *op,
          tcg_gen_exit_tb(dc->base.tb, n);
      } else {
          tcg_gen_movi_tl(env_pc, dest);
 -        tcg_gen_exit_tb(NULL, 0);
 +        tcg_gen_lookup_and_goto_ptr();
      }
  }
-@@ -XXX,XX +XXX,XX @@ static void cris_tr_tb_stop(DisasContextBase *dcbase, CPUState *cpu)
++static bool fold_call(OptContext *ctx, TCGOp *op)
-         tcg_gen_movi_tl(env_pc, npc);
++{
-         /* fall through */
++    TCGContext *s = ctx->tcg;
-     case DISAS_JUMP:
++    int nb_oargs = TCGOP_CALLO(op);
-+        tcg_gen_lookup_and_goto_ptr();
++    int nb_iargs = TCGOP_CALLI(op);
-+        break;
++    int flags, i;
-     case DISAS_UPDATE:
++
-         /* Indicate that interupts must be re-evaluated before the next TB. */
++    init_arguments(ctx, op, nb_oargs + nb_iargs);
-         tcg_gen_exit_tb(NULL, 0);
++    copy_propagate(ctx, op, nb_oargs, nb_iargs);
 +
 +    /* If the function reads or writes globals, reset temp data. */
 +    flags = tcg_call_flags(op);
 +    if (!(flags & (TCG_CALL_NO_READ_GLOBALS | TCG_CALL_NO_WRITE_GLOBALS))) {
 +        int nb_globals = s->nb_globals;
 +
 +        for (i = 0; i < nb_globals; i++) {
 +            if (test_bit(i, ctx->temps_used.l)) {
 +                reset_ts(&ctx->tcg->temps[i]);
 +            }
 +        }
 +    }
 +
 +    /* Reset temp data for outputs. */
 +    for (i = 0; i < nb_oargs; i++) {
 +        reset_temp(op->args[i]);
 +    }
 +
 +    /* Stop optimizing MB across calls. */
 +    ctx->prev_mb = NULL;
 +    return true;
 +}
 +
  /* Propagate constants and copies, fold constant expressions. */
  void tcg_optimize(TCGContext *s)
  {
 -    int nb_temps, nb_globals, i;
 +    int nb_temps, i;
      TCGOp *op, *op_next;
      OptContext ctx = { .tcg = s };
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
         available through the doubly linked circular list. */
      nb_temps = s->nb_temps;
 -    nb_globals = s->nb_globals;
 -
      for (i = 0; i < nb_temps; ++i) {
          s->temps[i].state_ptr = NULL;
      }
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
          uint64_t z_mask, partmask, affected, tmp;
          int nb_oargs, nb_iargs;
          TCGOpcode opc = op->opc;
 -        const TCGOpDef *def = &tcg_op_defs[opc];
 +        const TCGOpDef *def;
 -        /* Count the arguments, and initialize the temps that are
 -           going to be used */
 +        /* Calls are special. */
          if (opc == INDEX_op_call) {
 -            nb_oargs = TCGOP_CALLO(op);
 -            nb_iargs = TCGOP_CALLI(op);
 -        } else {
 -            nb_oargs = def->nb_oargs;
 -            nb_iargs = def->nb_iargs;
 +            fold_call(&ctx, op);
 +            continue;
          }
 +
 +        def = &tcg_op_defs[opc];
 +        nb_oargs = def->nb_oargs;
 +        nb_iargs = def->nb_iargs;
          init_arguments(&ctx, op, nb_oargs + nb_iargs);
          copy_propagate(&ctx, op, nb_oargs, nb_iargs);
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
          if (def->flags & TCG_OPF_BB_END) {
              memset(&ctx.temps_used, 0, sizeof(ctx.temps_used));
          } else {
 -            if (opc == INDEX_op_call &&
 -                !(tcg_call_flags(op)
 -                  & (TCG_CALL_NO_READ_GLOBALS | TCG_CALL_NO_WRITE_GLOBALS))) {
 -                for (i = 0; i < nb_globals; i++) {
 -                    if (test_bit(i, ctx.temps_used.l)) {
 -                        reset_ts(&s->temps[i]);
 -                    }
 -                }
 -            }
 -
              for (i = 0; i < nb_oargs; i++) {
                  reset_temp(op->args[i]);
                  /* Save the corresponding known-zero bits mask for the
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
              case INDEX_op_qemu_st_i32:
              case INDEX_op_qemu_st8_i32:
              case INDEX_op_qemu_st_i64:
 -            case INDEX_op_call:
                  /* Opcodes that touch guest memory stop the optimization.  */
                  ctx.prev_mb = NULL;
                  break;
 --
 .25.1

-[PULL 58/63] target/i386: Improve bswap translation
+[PULL 14/56] tcg/optimize: Drop nb_oargs, nb_iargs locals
-Use a break instead of an ifdefed else.
+Rather than try to keep these up-to-date across folding,
-There's no need to move the values through s->T0.
+re-read nb_oargs at the end, after re-reading the opcode.
 Remove TCG_BSWAP_IZ and the preceding zero-extension.
-Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
+A couple of asserts need dropping, but that will take care
 of itself as we split the function further.
 Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
 Reviewed-by: Luis Pires <luis.pires@eldorado.org.br>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- target/i386/tcg/translate.c | 14 ++++----------
+ tcg/optimize.c | 14 ++++----------
 file changed, 4 insertions(+), 10 deletions(-)
-diff --git a/target/i386/tcg/translate.c b/target/i386/tcg/translate.c
+diff --git a/tcg/optimize.c b/tcg/optimize.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/i386/tcg/translate.c
+--- a/tcg/optimize.c
-+++ b/target/i386/tcg/translate.c
++++ b/tcg/optimize.c
-@@ -XXX,XX +XXX,XX @@ static target_ulong disas_insn(DisasContext *s, CPUState *cpu)
+@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
-         reg = (b & 7) | REX_B(s);
- #ifdef TARGET_X86_64
+     QTAILQ_FOREACH_SAFE(op, &s->ops, link, op_next) {
-         if (dflag == MO_64) {
+         uint64_t z_mask, partmask, affected, tmp;
--            gen_op_mov_v_reg(s, MO_64, s->T0, reg);
+-        int nb_oargs, nb_iargs;
--            tcg_gen_bswap64_i64(s->T0, s->T0);
+         TCGOpcode opc = op->opc;
--            gen_op_mov_reg_v(s, MO_64, reg, s->T0);
+         const TCGOpDef *def;
--        } else
--#endif
+@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
 -        {
 -            gen_op_mov_v_reg(s, MO_32, s->T0, reg);
 -            tcg_gen_ext32u_tl(s->T0, s->T0);
 -            tcg_gen_bswap32_tl(s->T0, s->T0, TCG_BSWAP_IZ | TCG_BSWAP_OZ);
 -            gen_op_mov_reg_v(s, MO_32, reg, s->T0);
 +            tcg_gen_bswap64_i64(cpu_regs[reg], cpu_regs[reg]);
 +            break;
          }
-+#endif
-+        tcg_gen_bswap32_tl(cpu_regs[reg], cpu_regs[reg], TCG_BSWAP_OZ);
+         def = &tcg_op_defs[opc];
-         break;
+-        nb_oargs = def->nb_oargs;
-     case 0xd6: /* salc */
+-        nb_iargs = def->nb_iargs;
-         if (CODE64(s))
+-        init_arguments(&ctx, op, nb_oargs + nb_iargs);
 -        copy_propagate(&ctx, op, nb_oargs, nb_iargs);
 +        init_arguments(&ctx, op, def->nb_oargs + def->nb_iargs);
 +        copy_propagate(&ctx, op, def->nb_oargs, def->nb_iargs);
          /* For commutative operations make constant second argument */
          switch (opc) {
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
          CASE_OP_32_64(qemu_ld):
              {
 -                MemOpIdx oi = op->args[nb_oargs + nb_iargs];
 +                MemOpIdx oi = op->args[def->nb_oargs + def->nb_iargs];
                  MemOp mop = get_memop(oi);
                  if (!(mop & MO_SIGN)) {
                      z_mask = (2ULL << ((8 << (mop & MO_SIZE)) - 1)) - 1;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
          }
          if (partmask == 0) {
 -            tcg_debug_assert(nb_oargs == 1);
              tcg_opt_gen_movi(&ctx, op, op->args[0], 0);
              continue;
          }
          if (affected == 0) {
 -            tcg_debug_assert(nb_oargs == 1);
              tcg_opt_gen_mov(&ctx, op, op->args[0], op->args[1]);
              continue;
          }
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
              } else if (args_are_copies(op->args[1], op->args[2])) {
                  op->opc = INDEX_op_dup_vec;
                  TCGOP_VECE(op) = MO_32;
 -                nb_iargs = 1;
              }
              break;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
                  op->opc = opc = (opc == INDEX_op_movcond_i32
                                   ? INDEX_op_setcond_i32
                                   : INDEX_op_setcond_i64);
 -                nb_iargs = 2;
              }
              break;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
          if (def->flags & TCG_OPF_BB_END) {
              memset(&ctx.temps_used, 0, sizeof(ctx.temps_used));
          } else {
 +            int nb_oargs = def->nb_oargs;
              for (i = 0; i < nb_oargs; i++) {
                  reset_temp(op->args[i]);
                  /* Save the corresponding known-zero bits mask for the
 --
 .25.1

-[PULL 27/63] target/cris: Remove dc->flagx_known
+[PULL 15/56] tcg/optimize: Change fail return for do_constant_folding_cond*
-Ever since 2a44f7f17364, flagx_known is always true.
+Return -1 instead of 2 for failure, so that we can
-Fold away all of the tests against the flag.
+use comparisons against 0 for all cases.
-Reviewed-by: Edgar E. Iglesias <edgar.iglesias@xilinx.com>
+Reviewed-by: Luis Pires <luis.pires@eldorado.org.br>
-Tested-by: Edgar E. Iglesias <edgar.iglesias@xilinx.com>
+Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- target/cris/translate.c         | 99 ++++++++-------------------------
+ tcg/optimize.c | 145 +++++++++++++++++++++++++------------------------
- target/cris/translate_v10.c.inc |  6 +-
+file changed, 74 insertions(+), 71 deletions(-)
-files changed, 24 insertions(+), 81 deletions(-)
+diff --git a/tcg/optimize.c b/tcg/optimize.c
 diff --git a/target/cris/translate.c b/target/cris/translate.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/cris/translate.c
+--- a/tcg/optimize.c
-+++ b/target/cris/translate.c
++++ b/tcg/optimize.c
-@@ -XXX,XX +XXX,XX @@ typedef struct DisasContext {
+@@ -XXX,XX +XXX,XX @@ static bool do_constant_folding_cond_eq(TCGCond c)
      int cc_x_uptodate;  /* 1 - ccs, 2 - known | X_FLAG. 0 not up-to-date.  */
      int flags_uptodate; /* Whether or not $ccs is up-to-date.  */
 -    int flagx_known; /* Whether or not flags_x has the x flag known at
 -                translation time.  */
      int flags_x;
      int clear_x; /* Clear x after this insn?  */
@@ -XXX,XX +XXX,XX @@ static inline void t_gen_add_flag(TCGv d, int flag)
  static inline void t_gen_addx_carry(DisasContext *dc, TCGv d)
  {
 -    if (dc->flagx_known) {
 -        if (dc->flags_x) {
 -            TCGv c;
 -
 -            c = tcg_temp_new();
 -            t_gen_mov_TN_preg(c, PR_CCS);
 -            /* C flag is already at bit 0.  */
 -            tcg_gen_andi_tl(c, c, C_FLAG);
 -            tcg_gen_add_tl(d, d, c);
 -            tcg_temp_free(c);
 -        }
 -    } else {
 -        TCGv x, c;
 +    if (dc->flags_x) {
 +        TCGv c = tcg_temp_new();
 -        x = tcg_temp_new();
 -        c = tcg_temp_new();
 -        t_gen_mov_TN_preg(x, PR_CCS);
 -        tcg_gen_mov_tl(c, x);
 -
 -        /* Propagate carry into d if X is set. Branch free.  */
 +        t_gen_mov_TN_preg(c, PR_CCS);
 +        /* C flag is already at bit 0.  */
          tcg_gen_andi_tl(c, c, C_FLAG);
 -        tcg_gen_andi_tl(x, x, X_FLAG);
 -        tcg_gen_shri_tl(x, x, 4);
 -
 -        tcg_gen_and_tl(x, x, c);
 -        tcg_gen_add_tl(d, d, x);
 -        tcg_temp_free(x);
 +        tcg_gen_add_tl(d, d, c);
          tcg_temp_free(c);
      }
  }
- static inline void t_gen_subx_carry(DisasContext *dc, TCGv d)
+-/* Return 2 if the condition can't be simplified, and the result
 -   of the condition (0 or 1) if it can */
 -static TCGArg do_constant_folding_cond(TCGOpcode op, TCGArg x,
 -                                       TCGArg y, TCGCond c)
 +/*
 + * Return -1 if the condition can't be simplified,
 + * and the result of the condition (0 or 1) if it can.
 + */
 +static int do_constant_folding_cond(TCGOpcode op, TCGArg x,
 +                                    TCGArg y, TCGCond c)
  {
--    if (dc->flagx_known) {
+     uint64_t xv = arg_info(x)->val;
--        if (dc->flags_x) {
+     uint64_t yv = arg_info(y)->val;
--            TCGv c;
+@@ -XXX,XX +XXX,XX @@ static TCGArg do_constant_folding_cond(TCGOpcode op, TCGArg x,
--
+         case TCG_COND_GEU:
--            c = tcg_temp_new();
+             return 1;
--            t_gen_mov_TN_preg(c, PR_CCS);
+         default:
--            /* C flag is already at bit 0.  */
+-            return 2;
--            tcg_gen_andi_tl(c, c, C_FLAG);
++            return -1;
--            tcg_gen_sub_tl(d, d, c);
+         }
 -            tcg_temp_free(c);
 -        }
 -    } else {
 -        TCGv x, c;
 +    if (dc->flags_x) {
 +        TCGv c = tcg_temp_new();
 -        x = tcg_temp_new();
 -        c = tcg_temp_new();
 -        t_gen_mov_TN_preg(x, PR_CCS);
 -        tcg_gen_mov_tl(c, x);
 -
 -        /* Propagate carry into d if X is set. Branch free.  */
 +        t_gen_mov_TN_preg(c, PR_CCS);
 +        /* C flag is already at bit 0.  */
          tcg_gen_andi_tl(c, c, C_FLAG);
 -        tcg_gen_andi_tl(x, x, X_FLAG);
 -        tcg_gen_shri_tl(x, x, 4);
 -
 -        tcg_gen_and_tl(x, x, c);
 -        tcg_gen_sub_tl(d, d, x);
 -        tcg_temp_free(x);
 +        tcg_gen_sub_tl(d, d, c);
          tcg_temp_free(c);
      }
+-    return 2;
++    return -1;
  }
-@@ -XXX,XX +XXX,XX @@ static void gen_goto_tb(DisasContext *dc, int n, target_ulong dest)
+-/* Return 2 if the condition can't be simplified, and the result
- static inline void cris_clear_x_flag(DisasContext *dc)
+-   of the condition (0 or 1) if it can */
 -static TCGArg do_constant_folding_cond2(TCGArg *p1, TCGArg *p2, TCGCond c)
 +/*
 + * Return -1 if the condition can't be simplified,
 + * and the result of the condition (0 or 1) if it can.
 + */
 +static int do_constant_folding_cond2(TCGArg *p1, TCGArg *p2, TCGCond c)
  {
--    if (dc->flagx_known && dc->flags_x) {
+     TCGArg al = p1[0], ah = p1[1];
-+    if (dc->flags_x) {
+     TCGArg bl = p2[0], bh = p2[1];
-         dc->flags_uptodate = 0;
+@@ -XXX,XX +XXX,XX @@ static TCGArg do_constant_folding_cond2(TCGArg *p1, TCGArg *p2, TCGCond c)
      if (args_are_copies(al, bl) && args_are_copies(ah, bh)) {
          return do_constant_folding_cond_eq(c);
      }
--
+-    return 2;
--    dc->flagx_known = 1;
++    return -1;
      dc->flags_x = 0;
  }
-@@ -XXX,XX +XXX,XX @@ static void cris_evaluate_flags(DisasContext *dc)
+ static bool swap_commutative(TCGArg dest, TCGArg *p1, TCGArg *p2)
-         break;
+@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
-     }
+             break;
--    if (dc->flagx_known) {
+         CASE_OP_32_64(setcond):
--        if (dc->flags_x) {
+-            tmp = do_constant_folding_cond(opc, op->args[1],
--            tcg_gen_ori_tl(cpu_PR[PR_CCS], cpu_PR[PR_CCS], X_FLAG);
+-                                           op->args[2], op->args[3]);
--        } else if (dc->cc_op == CC_OP_FLAGS) {
+-            if (tmp != 2) {
--            tcg_gen_andi_tl(cpu_PR[PR_CCS], cpu_PR[PR_CCS], ~X_FLAG);
+-                tcg_opt_gen_movi(&ctx, op, op->args[0], tmp);
--        }
++            i = do_constant_folding_cond(opc, op->args[1],
-+    if (dc->flags_x) {
++                                         op->args[2], op->args[3]);
-+        tcg_gen_ori_tl(cpu_PR[PR_CCS], cpu_PR[PR_CCS], X_FLAG);
++            if (i >= 0) {
-+    } else if (dc->cc_op == CC_OP_FLAGS) {
++                tcg_opt_gen_movi(&ctx, op, op->args[0], i);
-+        tcg_gen_andi_tl(cpu_PR[PR_CCS], cpu_PR[PR_CCS], ~X_FLAG);
+                 continue;
-     }
+             }
-     dc->flags_uptodate = 1;
+             break;
- }
-@@ -XXX,XX +XXX,XX @@ static void cris_update_cc_op(DisasContext *dc, int op, int size)
+         CASE_OP_32_64(brcond):
- static inline void cris_update_cc_x(DisasContext *dc)
+-            tmp = do_constant_folding_cond(opc, op->args[0],
- {
+-                                           op->args[1], op->args[2]);
-     /* Save the x flag state at the time of the cc snapshot.  */
+-            switch (tmp) {
--    if (dc->flagx_known) {
+-            case 0:
--        if (dc->cc_x_uptodate == (2 | dc->flags_x)) {
++            i = do_constant_folding_cond(opc, op->args[0],
--            return;
++                                         op->args[1], op->args[2]);
--        }
++            if (i == 0) {
--        tcg_gen_movi_tl(cc_x, dc->flags_x);
+                 tcg_op_remove(s, op);
--        dc->cc_x_uptodate = 2 | dc->flags_x;
+                 continue;
--    } else {
+-            case 1:
--        tcg_gen_andi_tl(cc_x, cpu_PR[PR_CCS], X_FLAG);
++            } else if (i > 0) {
--        dc->cc_x_uptodate = 1;
+                 memset(&ctx.temps_used, 0, sizeof(ctx.temps_used));
-+    if (dc->cc_x_uptodate == (2 | dc->flags_x)) {
+                 op->opc = opc = INDEX_op_br;
-+        return;
+                 op->args[0] = op->args[3];
-     }
+@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
-+    tcg_gen_movi_tl(cc_x, dc->flags_x);
+             break;
-+    dc->cc_x_uptodate = 2 | dc->flags_x;
- }
+         CASE_OP_32_64(movcond):
+-            tmp = do_constant_folding_cond(opc, op->args[1],
- /* Update cc prior to executing ALU op. Needs source operands untouched.  */
+-                                           op->args[2], op->args[5]);
-@@ -XXX,XX +XXX,XX @@ static void gen_store (DisasContext *dc, TCGv addr, TCGv val,
+-            if (tmp != 2) {
+-                tcg_opt_gen_mov(&ctx, op, op->args[0], op->args[4-tmp]);
-     /* Conditional writes. We only support the kind were X and P are known
++            i = do_constant_folding_cond(opc, op->args[1],
-        at translation time.  */
++                                         op->args[2], op->args[5]);
--    if (dc->flagx_known && dc->flags_x && (dc->tb_flags & P_FLAG)) {
++            if (i >= 0) {
-+    if (dc->flags_x && (dc->tb_flags & P_FLAG)) {
++                tcg_opt_gen_mov(&ctx, op, op->args[0], op->args[4 - i]);
-         dc->postinc = 0;
+                 continue;
-         cris_evaluate_flags(dc);
+             }
-         tcg_gen_ori_tl(cpu_PR[PR_CCS], cpu_PR[PR_CCS], C_FLAG);
+             if (arg_is_const(op->args[3]) && arg_is_const(op->args[4])) {
-@@ -XXX,XX +XXX,XX @@ static void gen_store (DisasContext *dc, TCGv addr, TCGv val,
+@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
+             break;
-     tcg_gen_qemu_st_tl(val, addr, mem_index, MO_TE + ctz32(size));
+         case INDEX_op_brcond2_i32:
--    if (dc->flagx_known && dc->flags_x) {
+-            tmp = do_constant_folding_cond2(&op->args[0], &op->args[2],
-+    if (dc->flags_x) {
+-                                            op->args[4]);
-         cris_evaluate_flags(dc);
+-            if (tmp == 0) {
-         tcg_gen_andi_tl(cpu_PR[PR_CCS], cpu_PR[PR_CCS], ~C_FLAG);
++            i = do_constant_folding_cond2(&op->args[0], &op->args[2],
-     }
++                                          op->args[4]);
-@@ -XXX,XX +XXX,XX @@ static int dec_addc_r(CPUCRISState *env, DisasContext *dc)
++            if (i == 0) {
-     LOG_DIS("addc $r%u, $r%u\n",
+             do_brcond_false:
-             dc->op1, dc->op2);
+                 tcg_op_remove(s, op);
-     cris_evaluate_flags(dc);
+                 continue;
-+
+             }
-     /* Set for this insn.  */
+-            if (tmp == 1) {
--    dc->flagx_known = 1;
++            if (i > 0) {
-     dc->flags_x = X_FLAG;
+             do_brcond_true:
+                 op->opc = opc = INDEX_op_br;
-     cris_cc_mask(dc, CC_MASK_NZVC);
+                 op->args[0] = op->args[5];
-@@ -XXX,XX +XXX,XX @@ static int dec_setclrf(CPUCRISState *env, DisasContext *dc)
+@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
-     }
+             if (op->args[4] == TCG_COND_EQ) {
+                 /* Simplify EQ comparisons where one of the pairs
-     if (flags & X_FLAG) {
+                    can be simplified.  */
--        dc->flagx_known = 1;
+-                tmp = do_constant_folding_cond(INDEX_op_brcond_i32,
-         if (set) {
+-                                               op->args[0], op->args[2],
-             dc->flags_x = X_FLAG;
+-                                               TCG_COND_EQ);
-         } else {
+-                if (tmp == 0) {
-@@ -XXX,XX +XXX,XX @@ static int dec_addc_mr(CPUCRISState *env, DisasContext *dc)
++                i = do_constant_folding_cond(INDEX_op_brcond_i32,
-     cris_evaluate_flags(dc);
++                                             op->args[0], op->args[2],
++                                             TCG_COND_EQ);
-     /* Set for this insn.  */
++                if (i == 0) {
--    dc->flagx_known = 1;
+                     goto do_brcond_false;
-     dc->flags_x = X_FLAG;
+-                } else if (tmp == 1) {
++                } else if (i > 0) {
-     cris_alu_m_alloc_temps(t);
+                     goto do_brcond_high;
-@@ -XXX,XX +XXX,XX @@ static void cris_tr_init_disas_context(DisasContextBase *dcbase, CPUState *cs)
+                 }
-     dc->ppc = pc_start;
+-                tmp = do_constant_folding_cond(INDEX_op_brcond_i32,
-     dc->pc = pc_start;
+-                                               op->args[1], op->args[3],
-     dc->flags_uptodate = 1;
+-                                               TCG_COND_EQ);
--    dc->flagx_known = 1;
+-                if (tmp == 0) {
-     dc->flags_x = tb_flags & X_FLAG;
++                i = do_constant_folding_cond(INDEX_op_brcond_i32,
-     dc->cc_x_uptodate = 0;
++                                             op->args[1], op->args[3],
-     dc->cc_mask = 0;
++                                             TCG_COND_EQ);
-@@ -XXX,XX +XXX,XX @@ static void cris_tr_translate_insn(DisasContextBase *dcbase, CPUState *cs)
++                if (i == 0) {
-     }
+                     goto do_brcond_false;
+-                } else if (tmp != 1) {
-     /* Fold unhandled changes to X_FLAG into cpustate_changed. */
++                } else if (i < 0) {
--    dc->cpustate_changed |= !dc->flagx_known;
+                     break;
-     dc->cpustate_changed |= dc->flags_x != (dc->base.tb->flags & X_FLAG);
+                 }
+             do_brcond_low:
-     /*
+@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
-diff --git a/target/cris/translate_v10.c.inc b/target/cris/translate_v10.c.inc
+             if (op->args[4] == TCG_COND_NE) {
-index XXXXXXX..XXXXXXX 100644
+                 /* Simplify NE comparisons where one of the pairs
---- a/target/cris/translate_v10.c.inc
+                    can be simplified.  */
-+++ b/target/cris/translate_v10.c.inc
+-                tmp = do_constant_folding_cond(INDEX_op_brcond_i32,
-@@ -XXX,XX +XXX,XX @@ static void gen_store_v10(DisasContext *dc, TCGv addr, TCGv val,
+-                                               op->args[0], op->args[2],
-         cris_store_direct_jmp(dc);
+-                                               TCG_COND_NE);
-     }
+-                if (tmp == 0) {
++                i = do_constant_folding_cond(INDEX_op_brcond_i32,
--    /* Conditional writes. We only support the kind were X is known
++                                             op->args[0], op->args[2],
--       at translation time.  */
++                                             TCG_COND_NE);
--    if (dc->flagx_known && dc->flags_x) {
++                if (i == 0) {
-+    /* Conditional writes. */
+                     goto do_brcond_high;
-+    if (dc->flags_x) {
+-                } else if (tmp == 1) {
-         gen_store_v10_conditional(dc, addr, val, size, mem_index);
++                } else if (i > 0) {
-         return;
+                     goto do_brcond_true;
-     }
+                 }
-@@ -XXX,XX +XXX,XX @@ static unsigned int dec10_setclrf(DisasContext *dc)
+-                tmp = do_constant_folding_cond(INDEX_op_brcond_i32,
+-                                               op->args[1], op->args[3],
+-                                               TCG_COND_NE);
-     if (flags & X_FLAG) {
+-                if (tmp == 0) {
--        dc->flagx_known = 1;
++                i = do_constant_folding_cond(INDEX_op_brcond_i32,
-         if (set)
++                                             op->args[1], op->args[3],
-             dc->flags_x = X_FLAG;
++                                             TCG_COND_NE);
-         else
++                if (i == 0) {
                      goto do_brcond_low;
 -                } else if (tmp == 1) {
 +                } else if (i > 0) {
                      goto do_brcond_true;
                  }
              }
              break;
          case INDEX_op_setcond2_i32:
 -            tmp = do_constant_folding_cond2(&op->args[1], &op->args[3],
 -                                            op->args[5]);
 -            if (tmp != 2) {
 +            i = do_constant_folding_cond2(&op->args[1], &op->args[3],
 +                                          op->args[5]);
 +            if (i >= 0) {
              do_setcond_const:
 -                tcg_opt_gen_movi(&ctx, op, op->args[0], tmp);
 +                tcg_opt_gen_movi(&ctx, op, op->args[0], i);
                  continue;
              }
              if ((op->args[5] == TCG_COND_LT || op->args[5] == TCG_COND_GE)
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
              if (op->args[5] == TCG_COND_EQ) {
                  /* Simplify EQ comparisons where one of the pairs
                     can be simplified.  */
 -                tmp = do_constant_folding_cond(INDEX_op_setcond_i32,
 -                                               op->args[1], op->args[3],
 -                                               TCG_COND_EQ);
 -                if (tmp == 0) {
 +                i = do_constant_folding_cond(INDEX_op_setcond_i32,
 +                                             op->args[1], op->args[3],
 +                                             TCG_COND_EQ);
 +                if (i == 0) {
                      goto do_setcond_const;
 -                } else if (tmp == 1) {
 +                } else if (i > 0) {
                      goto do_setcond_high;
                  }
 -                tmp = do_constant_folding_cond(INDEX_op_setcond_i32,
 -                                               op->args[2], op->args[4],
 -                                               TCG_COND_EQ);
 -                if (tmp == 0) {
 +                i = do_constant_folding_cond(INDEX_op_setcond_i32,
 +                                             op->args[2], op->args[4],
 +                                             TCG_COND_EQ);
 +                if (i == 0) {
                      goto do_setcond_high;
 -                } else if (tmp != 1) {
 +                } else if (i < 0) {
                      break;
                  }
              do_setcond_low:
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
              if (op->args[5] == TCG_COND_NE) {
                  /* Simplify NE comparisons where one of the pairs
                     can be simplified.  */
 -                tmp = do_constant_folding_cond(INDEX_op_setcond_i32,
 -                                               op->args[1], op->args[3],
 -                                               TCG_COND_NE);
 -                if (tmp == 0) {
 +                i = do_constant_folding_cond(INDEX_op_setcond_i32,
 +                                             op->args[1], op->args[3],
 +                                             TCG_COND_NE);
 +                if (i == 0) {
                      goto do_setcond_high;
 -                } else if (tmp == 1) {
 +                } else if (i > 0) {
                      goto do_setcond_const;
                  }
 -                tmp = do_constant_folding_cond(INDEX_op_setcond_i32,
 -                                               op->args[2], op->args[4],
 -                                               TCG_COND_NE);
 -                if (tmp == 0) {
 +                i = do_constant_folding_cond(INDEX_op_setcond_i32,
 +                                             op->args[2], op->args[4],
 +                                             TCG_COND_NE);
 +                if (i == 0) {
                      goto do_setcond_low;
 -                } else if (tmp == 1) {
 +                } else if (i > 0) {
                      goto do_setcond_const;
                  }
              }
 --
 .25.1

-[PULL 07/63] target/nios2: Clean up goto in handle_instruction
+[PULL 16/56] tcg/optimize: Return true from tcg_opt_gen_{mov,movi}
-Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
+This will allow callers to tail call to these functions
 and return true indicating processing complete.
 Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
 Reviewed-by: Luis Pires <luis.pires@eldorado.org.br>
 Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- target/nios2/translate.c | 8 ++------
+ tcg/optimize.c | 9 +++++----
-file changed, 2 insertions(+), 6 deletions(-)
+file changed, 5 insertions(+), 4 deletions(-)
-diff --git a/target/nios2/translate.c b/target/nios2/translate.c
+diff --git a/tcg/optimize.c b/tcg/optimize.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/nios2/translate.c
+--- a/tcg/optimize.c
-+++ b/target/nios2/translate.c
++++ b/tcg/optimize.c
-@@ -XXX,XX +XXX,XX @@ static void handle_instruction(DisasContext *dc, CPUNios2State *env)
+@@ -XXX,XX +XXX,XX @@ static bool args_are_copies(TCGArg arg1, TCGArg arg2)
-     op = get_opcode(code);
+     return ts_are_copies(arg_temp(arg1), arg_temp(arg2));
+ }
-     if (unlikely(op >= ARRAY_SIZE(i_type_instructions))) {
--        goto illegal_op;
+-static void tcg_opt_gen_mov(OptContext *ctx, TCGOp *op, TCGArg dst, TCGArg src)
-+        t_gen_helper_raise_exception(dc, EXCP_ILLEGAL);
++static bool tcg_opt_gen_mov(OptContext *ctx, TCGOp *op, TCGArg dst, TCGArg src)
-+        return;
+ {
      TCGTemp *dst_ts = arg_temp(dst);
      TCGTemp *src_ts = arg_temp(src);
@@ -XXX,XX +XXX,XX @@ static void tcg_opt_gen_mov(OptContext *ctx, TCGOp *op, TCGArg dst, TCGArg src)
      if (ts_are_copies(dst_ts, src_ts)) {
          tcg_op_remove(ctx->tcg, op);
 -        return;
 +        return true;
      }
-     dc->zero = NULL;
+     reset_ts(dst_ts);
-@@ -XXX,XX +XXX,XX @@ static void handle_instruction(DisasContext *dc, CPUNios2State *env)
+@@ -XXX,XX +XXX,XX @@ static void tcg_opt_gen_mov(OptContext *ctx, TCGOp *op, TCGArg dst, TCGArg src)
-     if (dc->zero) {
+         di->is_const = si->is_const;
-         tcg_temp_free(dc->zero);
+         di->val = si->val;
      }
--
++    return true;
 -    return;
 -
 -illegal_op:
 -    t_gen_helper_raise_exception(dc, EXCP_ILLEGAL);
  }
- static const char * const regnames[] = {
+-static void tcg_opt_gen_movi(OptContext *ctx, TCGOp *op,
 +static bool tcg_opt_gen_movi(OptContext *ctx, TCGOp *op,
                               TCGArg dst, uint64_t val)
  {
      const TCGOpDef *def = &tcg_op_defs[op->opc];
@@ -XXX,XX +XXX,XX @@ static void tcg_opt_gen_movi(OptContext *ctx, TCGOp *op,
      /* Convert movi to mov with constant temp. */
      tv = tcg_constant_internal(type, val);
      init_ts_info(ctx, tv);
 -    tcg_opt_gen_mov(ctx, op, dst, temp_arg(tv));
 +    return tcg_opt_gen_mov(ctx, op, dst, temp_arg(tv));
  }
  static uint64_t do_constant_folding_2(TCGOpcode op, uint64_t x, uint64_t y)
 --
 .25.1

-[PULL 12/63] target/avr: Convert to TranslatorOps
+[PULL 17/56] tcg/optimize: Split out finish_folding
-Tested-by: Michael Rolnik <mrolnik@gmail.com>
+Copy z_mask into OptContext, for writeback to the
-Reviewed-by: Michael Rolnik <mrolnik@gmail.com>
+first output within the new function.
 Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
 Reviewed-by: Luis Pires <luis.pires@eldorado.org.br>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- target/avr/translate.c | 234 ++++++++++++++++++++++-------------------
+ tcg/optimize.c | 49 +++++++++++++++++++++++++++++++++----------------
-file changed, 128 insertions(+), 106 deletions(-)
+file changed, 33 insertions(+), 16 deletions(-)
-diff --git a/target/avr/translate.c b/target/avr/translate.c
+diff --git a/tcg/optimize.c b/tcg/optimize.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/avr/translate.c
+--- a/tcg/optimize.c
-+++ b/target/avr/translate.c
++++ b/tcg/optimize.c
-@@ -XXX,XX +XXX,XX @@ static bool canonicalize_skip(DisasContext *ctx)
+@@ -XXX,XX +XXX,XX @@ typedef struct OptContext {
-     return true;
+     TCGContext *tcg;
      TCGOp *prev_mb;
      TCGTempSet temps_used;
 +
 +    /* In flight values from optimization. */
 +    uint64_t z_mask;
  } OptContext;
  static inline TempOptInfo *ts_info(TCGTemp *ts)
@@ -XXX,XX +XXX,XX @@ static void copy_propagate(OptContext *ctx, TCGOp *op,
      }
  }
--void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int max_insns)
++static void finish_folding(OptContext *ctx, TCGOp *op)
 +static void gen_breakpoint(DisasContext *ctx)
  {
 +    canonicalize_skip(ctx);
 +    tcg_gen_movi_tl(cpu_pc, ctx->npc);
 +    gen_helper_debug(cpu_env);
 +    ctx->base.is_jmp = DISAS_NORETURN;
 +}
 +
 +static void avr_tr_init_disas_context(DisasContextBase *dcbase, CPUState *cs)
 +{
-+    DisasContext *ctx = container_of(dcbase, DisasContext, base);
++    const TCGOpDef *def = &tcg_op_defs[op->opc];
-     CPUAVRState *env = cs->env_ptr;
++    int i, nb_oargs;
 -    DisasContext ctx1 = {
 -        .base.tb = tb,
 -        .base.is_jmp = DISAS_NEXT,
 -        .base.pc_first = tb->pc,
 -        .base.pc_next = tb->pc,
 -        .base.singlestep_enabled = cs->singlestep_enabled,
 -        .cs = cs,
 -        .env = env,
 -        .memidx = 0,
 -        .skip_cond = TCG_COND_NEVER,
 -    };
 -    DisasContext *ctx = &ctx1;
 -    target_ulong pc_start = tb->pc / 2;
 -    int num_insns = 0;
 +    uint32_t tb_flags = ctx->base.tb->flags;
 -    if (tb->flags & TB_FLAGS_FULL_ACCESS) {
 -        /*
 -         * This flag is set by ST/LD instruction we will regenerate it ONLY
 -         * with mem/cpu memory access instead of mem access
 -         */
 -        max_insns = 1;
 -    }
 -    if (ctx->base.singlestep_enabled) {
 -        max_insns = 1;
 -    }
 +    ctx->cs = cs;
 +    ctx->env = env;
 +    ctx->npc = ctx->base.pc_first / 2;
 -    gen_tb_start(tb);
 -
 -    ctx->npc = pc_start;
 -    if (tb->flags & TB_FLAGS_SKIP) {
 +    ctx->skip_cond = TCG_COND_NEVER;
 +    if (tb_flags & TB_FLAGS_SKIP) {
          ctx->skip_cond = TCG_COND_ALWAYS;
          ctx->skip_var0 = cpu_skip;
      }
 -    do {
 -        TCGLabel *skip_label = NULL;
 -
 -        /* translate current instruction */
 -        tcg_gen_insn_start(ctx->npc);
 -        num_insns++;
 -
 +    if (tb_flags & TB_FLAGS_FULL_ACCESS) {
          /*
 -         * this is due to some strange GDB behavior
 -         * let's assume main has address 0x100
 -         * b main   - sets breakpoint at address 0x00000100 (code)
 -         * b *0x100 - sets breakpoint at address 0x00800100 (data)
 +         * This flag is set by ST/LD instruction we will regenerate it ONLY
 +         * with mem/cpu memory access instead of mem access
           */
 -        if (unlikely(!ctx->base.singlestep_enabled &&
 -            (cpu_breakpoint_test(cs, OFFSET_CODE + ctx->npc * 2, BP_ANY) ||
 -             cpu_breakpoint_test(cs, OFFSET_DATA + ctx->npc * 2, BP_ANY)))) {
 -            canonicalize_skip(ctx);
 -            tcg_gen_movi_tl(cpu_pc, ctx->npc);
 -            gen_helper_debug(cpu_env);
 -            goto done_generating;
 -        }
 +        ctx->base.max_insns = 1;
 +    }
 +}
 -        /* Conditionally skip the next instruction, if indicated.  */
 -        if (ctx->skip_cond != TCG_COND_NEVER) {
 -            skip_label = gen_new_label();
 -            if (ctx->skip_var0 == cpu_skip) {
 -                /*
 -                 * Copy cpu_skip so that we may zero it before the branch.
 -                 * This ensures that cpu_skip is non-zero after the label
 -                 * if and only if the skipped insn itself sets a skip.
 -                 */
 -                ctx->free_skip_var0 = true;
 -                ctx->skip_var0 = tcg_temp_new();
 -                tcg_gen_mov_tl(ctx->skip_var0, cpu_skip);
 -                tcg_gen_movi_tl(cpu_skip, 0);
 -            }
 -            if (ctx->skip_var1 == NULL) {
 -                tcg_gen_brcondi_tl(ctx->skip_cond, ctx->skip_var0,
 -                                   0, skip_label);
 -            } else {
 -                tcg_gen_brcond_tl(ctx->skip_cond, ctx->skip_var0,
 -                                  ctx->skip_var1, skip_label);
 -                ctx->skip_var1 = NULL;
 -            }
 -            if (ctx->free_skip_var0) {
 -                tcg_temp_free(ctx->skip_var0);
 -                ctx->free_skip_var0 = false;
 -            }
 -            ctx->skip_cond = TCG_COND_NEVER;
 -            ctx->skip_var0 = NULL;
 -        }
 +static void avr_tr_tb_start(DisasContextBase *db, CPUState *cs)
 +{
 +}
 -        translate(ctx);
 +static void avr_tr_insn_start(DisasContextBase *dcbase, CPUState *cs)
 +{
 +    DisasContext *ctx = container_of(dcbase, DisasContext, base);
 -        if (skip_label) {
 -            canonicalize_skip(ctx);
 -            gen_set_label(skip_label);
 -            if (ctx->base.is_jmp == DISAS_NORETURN) {
 -                ctx->base.is_jmp = DISAS_CHAIN;
 -            }
 -        }
 -    } while (ctx->base.is_jmp == DISAS_NEXT
 -             && num_insns < max_insns
 -             && (ctx->npc - pc_start) * 2 < TARGET_PAGE_SIZE - 4
 -             && !tcg_op_buf_full());
 +    tcg_gen_insn_start(ctx->npc);
 +}
 -    if (tb->cflags & CF_LAST_IO) {
 -        gen_io_end();
 +static bool avr_tr_breakpoint_check(DisasContextBase *dcbase, CPUState *cs,
 +                                    const CPUBreakpoint *bp)
 +{
 +    DisasContext *ctx = container_of(dcbase, DisasContext, base);
 +
 +    gen_breakpoint(ctx);
 +    return true;
 +}
 +
 +static void avr_tr_translate_insn(DisasContextBase *dcbase, CPUState *cs)
 +{
 +    DisasContext *ctx = container_of(dcbase, DisasContext, base);
 +    TCGLabel *skip_label = NULL;
 +
 +    /*
-+     * This is due to some strange GDB behavior
++     * For an opcode that ends a BB, reset all temp data.
-+     * Let's assume main has address 0x100:
++     * We do no cross-BB optimization.
 +     * b main   - sets breakpoint at address 0x00000100 (code)
 +     * b *0x100 - sets breakpoint at address 0x00800100 (data)
 +     *
 +     * The translator driver has already taken care of the code pointer.
 +     */
-+    if (!ctx->base.singlestep_enabled &&
++    if (def->flags & TCG_OPF_BB_END) {
-+        cpu_breakpoint_test(cs, OFFSET_DATA + ctx->base.pc_next, BP_ANY)) {
++        memset(&ctx->temps_used, 0, sizeof(ctx->temps_used));
-+        gen_breakpoint(ctx);
++        ctx->prev_mb = NULL;
 +        return;
-     }
-+    /* Conditionally skip the next instruction, if indicated.  */
-+    if (ctx->skip_cond != TCG_COND_NEVER) {
-+        skip_label = gen_new_label();
-+        if (ctx->skip_var0 == cpu_skip) {
-+            /*
-+             * Copy cpu_skip so that we may zero it before the branch.
-+             * This ensures that cpu_skip is non-zero after the label
-+             * if and only if the skipped insn itself sets a skip.
-+             */
-+            ctx->free_skip_var0 = true;
-+            ctx->skip_var0 = tcg_temp_new();
-+            tcg_gen_mov_tl(ctx->skip_var0, cpu_skip);
-+            tcg_gen_movi_tl(cpu_skip, 0);
-+        }
-+        if (ctx->skip_var1 == NULL) {
-+            tcg_gen_brcondi_tl(ctx->skip_cond, ctx->skip_var0, 0, skip_label);
-+        } else {
-+            tcg_gen_brcond_tl(ctx->skip_cond, ctx->skip_var0,
-+                              ctx->skip_var1, skip_label);
-+            ctx->skip_var1 = NULL;
-+        }
-+        if (ctx->free_skip_var0) {
-+            tcg_temp_free(ctx->skip_var0);
-+            ctx->free_skip_var0 = false;
-+        }
-+        ctx->skip_cond = TCG_COND_NEVER;
-+        ctx->skip_var0 = NULL;
 +    }
 +
-+    translate(ctx);
++    nb_oargs = def->nb_oargs;
-+
++    for (i = 0; i < nb_oargs; i++) {
-+    ctx->base.pc_next = ctx->npc * 2;
++        reset_temp(op->args[i]);
-+
++        /*
-+    if (skip_label) {
++         * Save the corresponding known-zero bits mask for the
-+        canonicalize_skip(ctx);
++         * first output argument (only one supported so far).
-+        gen_set_label(skip_label);
++         */
-+        if (ctx->base.is_jmp == DISAS_NORETURN) {
++        if (i == 0) {
-+            ctx->base.is_jmp = DISAS_CHAIN;
++            arg_info(op->args[i])->z_mask = ctx->z_mask;
 +        }
 +    }
 +
 +    if (ctx->base.is_jmp == DISAS_NEXT) {
 +        target_ulong page_first = ctx->base.pc_first & TARGET_PAGE_MASK;
 +
 +        if ((ctx->base.pc_next - page_first) >= TARGET_PAGE_SIZE - 4) {
 +            ctx->base.is_jmp = DISAS_TOO_MANY;
 +        }
 +    }
 +}
 +
-+static void avr_tr_tb_stop(DisasContextBase *dcbase, CPUState *cs)
+ static bool fold_call(OptContext *ctx, TCGOp *op)
-+{
+ {
-+    DisasContext *ctx = container_of(dcbase, DisasContext, base);
+     TCGContext *s = ctx->tcg;
-     bool nonconst_skip = canonicalize_skip(ctx);
+@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
+             partmask &= 0xffffffffu;
-     switch (ctx->base.is_jmp) {
+             affected &= 0xffffffffu;
-@@ -XXX,XX +XXX,XX @@ void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int max_insns)
+         }
-     default:
++        ctx.z_mask = z_mask;
-         g_assert_not_reached();
-     }
+         if (partmask == 0) {
-+}
+             tcg_opt_gen_movi(&ctx, op, op->args[0], 0);
+@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
--done_generating:
+             break;
--    gen_tb_end(tb, num_insns);
+         }
-+static void avr_tr_disas_log(const DisasContextBase *dcbase, CPUState *cs)
-+{
+-        /* Some of the folding above can change opc. */
-+    qemu_log("IN: %s\n", lookup_symbol(dcbase->pc_first));
+-        opc = op->opc;
-+    log_target_disas(cs, dcbase->pc_first, dcbase->tb->size);
+-        def = &tcg_op_defs[opc];
-+}
+-        if (def->flags & TCG_OPF_BB_END) {
+-            memset(&ctx.temps_used, 0, sizeof(ctx.temps_used));
--    tb->size = (ctx->npc - pc_start) * 2;
+-        } else {
--    tb->icount = num_insns;
+-            int nb_oargs = def->nb_oargs;
-+static const TranslatorOps avr_tr_ops = {
+-            for (i = 0; i < nb_oargs; i++) {
-+    .init_disas_context = avr_tr_init_disas_context,
+-                reset_temp(op->args[i]);
-+    .tb_start           = avr_tr_tb_start,
+-                /* Save the corresponding known-zero bits mask for the
-+    .insn_start         = avr_tr_insn_start,
+-                   first output argument (only one supported so far). */
-+    .breakpoint_check   = avr_tr_breakpoint_check,
+-                if (i == 0) {
-+    .translate_insn     = avr_tr_translate_insn,
+-                    arg_info(op->args[i])->z_mask = z_mask;
-+    .tb_stop            = avr_tr_tb_stop,
+-                }
-+    .disas_log          = avr_tr_disas_log,
+-            }
-+};
+-        }
++        finish_folding(&ctx, op);
--#ifdef DEBUG_DISAS
--    if (qemu_loglevel_mask(CPU_LOG_TB_IN_ASM)
+         /* Eliminate duplicate and redundant fence instructions.  */
--        && qemu_log_in_addr_range(tb->pc)) {
+         if (ctx.prev_mb) {
 -        FILE *fd;
 -        fd = qemu_log_lock();
 -        qemu_log("IN: %s\n", lookup_symbol(tb->pc));
 -        log_target_disas(cs, tb->pc, tb->size);
 -        qemu_log("\n");
 -        qemu_log_unlock(fd);
 -    }
 -#endif
 +void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int max_insns)
 +{
 +    DisasContext dc = { };
 +    translator_loop(&avr_tr_ops, &dc.base, cs, tb, max_insns);
  }
  void restore_state_to_opc(CPUAVRState *env, TranslationBlock *tb,
 --
 .25.1

-[PULL 11/63] target/avr: Change ctx to DisasContext* in gen_intermediate_code
+[PULL 18/56] tcg/optimize: Use a boolean to avoid a mass of continues
-Prepare for receiving it as a pointer input.
+Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
+Reviewed-by: Luis Pires <luis.pires@eldorado.org.br>
 Tested-by: Michael Rolnik <mrolnik@gmail.com>
 Reviewed-by: Michael Rolnik <mrolnik@gmail.com>
 Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- target/avr/translate.c | 84 +++++++++++++++++++++---------------------
+ tcg/optimize.c | 9 ++++++---
-file changed, 43 insertions(+), 41 deletions(-)
+file changed, 6 insertions(+), 3 deletions(-)
-diff --git a/target/avr/translate.c b/target/avr/translate.c
+diff --git a/tcg/optimize.c b/tcg/optimize.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/avr/translate.c
+--- a/tcg/optimize.c
-+++ b/target/avr/translate.c
++++ b/tcg/optimize.c
-@@ -XXX,XX +XXX,XX @@ struct DisasContext {
+@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
-      * used in the following manner (sketch)
+         uint64_t z_mask, partmask, affected, tmp;
-      *
+         TCGOpcode opc = op->opc;
-      * TCGLabel *skip_label = NULL;
+         const TCGOpDef *def;
--     * if (ctx.skip_cond != TCG_COND_NEVER) {
++        bool done = false;
-+     * if (ctx->skip_cond != TCG_COND_NEVER) {
-      *     skip_label = gen_new_label();
+         /* Calls are special. */
-      *     tcg_gen_brcond_tl(skip_cond, skip_var0, skip_var1, skip_label);
+         if (opc == INDEX_op_call) {
-      * }
+@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
-@@ -XXX,XX +XXX,XX @@ struct DisasContext {
+            allocator where needed and possible.  Also detect copies. */
-      *     free_skip_var0 = false;
+         switch (opc) {
-      * }
+         CASE_OP_32_64_VEC(mov):
-      *
+-            tcg_opt_gen_mov(&ctx, op, op->args[0], op->args[1]);
--     * translate(&ctx);
+-            continue;
-+     * translate(ctx);
++            done = tcg_opt_gen_mov(&ctx, op, op->args[0], op->args[1]);
-      *
++            break;
-      * if (skip_label) {
-      *     gen_set_label(skip_label);
+         case INDEX_op_dup_vec:
-@@ -XXX,XX +XXX,XX @@ static bool canonicalize_skip(DisasContext *ctx)
+             if (arg_is_const(op->args[1])) {
- void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int max_insns)
+@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
  {
      CPUAVRState *env = cs->env_ptr;
 -    DisasContext ctx = {
 +    DisasContext ctx1 = {
          .base.tb = tb,
          .base.is_jmp = DISAS_NEXT,
          .base.pc_first = tb->pc,
@@ -XXX,XX +XXX,XX @@ void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int max_insns)
          .memidx = 0,
          .skip_cond = TCG_COND_NEVER,
      };
 +    DisasContext *ctx = &ctx1;
      target_ulong pc_start = tb->pc / 2;
      int num_insns = 0;
@@ -XXX,XX +XXX,XX @@ void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int max_insns)
           */
          max_insns = 1;
      }
 -    if (ctx.base.singlestep_enabled) {
 +    if (ctx->base.singlestep_enabled) {
          max_insns = 1;
      }
      gen_tb_start(tb);
 -    ctx.npc = pc_start;
 +    ctx->npc = pc_start;
      if (tb->flags & TB_FLAGS_SKIP) {
 -        ctx.skip_cond = TCG_COND_ALWAYS;
 -        ctx.skip_var0 = cpu_skip;
 +        ctx->skip_cond = TCG_COND_ALWAYS;
 +        ctx->skip_var0 = cpu_skip;
      }
      do {
          TCGLabel *skip_label = NULL;
          /* translate current instruction */
 -        tcg_gen_insn_start(ctx.npc);
 +        tcg_gen_insn_start(ctx->npc);
          num_insns++;
          /*
@@ -XXX,XX +XXX,XX @@ void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int max_insns)
           * b main   - sets breakpoint at address 0x00000100 (code)
           * b *0x100 - sets breakpoint at address 0x00800100 (data)
           */
 -        if (unlikely(!ctx.base.singlestep_enabled &&
 -                (cpu_breakpoint_test(cs, OFFSET_CODE + ctx.npc * 2, BP_ANY) ||
 -                 cpu_breakpoint_test(cs, OFFSET_DATA + ctx.npc * 2, BP_ANY)))) {
 -            canonicalize_skip(&ctx);
 -            tcg_gen_movi_tl(cpu_pc, ctx.npc);
 +        if (unlikely(!ctx->base.singlestep_enabled &&
 +            (cpu_breakpoint_test(cs, OFFSET_CODE + ctx->npc * 2, BP_ANY) ||
 +             cpu_breakpoint_test(cs, OFFSET_DATA + ctx->npc * 2, BP_ANY)))) {
 +            canonicalize_skip(ctx);
 +            tcg_gen_movi_tl(cpu_pc, ctx->npc);
              gen_helper_debug(cpu_env);
              goto done_generating;
          }
          /* Conditionally skip the next instruction, if indicated.  */
 -        if (ctx.skip_cond != TCG_COND_NEVER) {
 +        if (ctx->skip_cond != TCG_COND_NEVER) {
              skip_label = gen_new_label();
 -            if (ctx.skip_var0 == cpu_skip) {
 +            if (ctx->skip_var0 == cpu_skip) {
                  /*
                   * Copy cpu_skip so that we may zero it before the branch.
                   * This ensures that cpu_skip is non-zero after the label
                   * if and only if the skipped insn itself sets a skip.
                   */
 -                ctx.free_skip_var0 = true;
 -                ctx.skip_var0 = tcg_temp_new();
 -                tcg_gen_mov_tl(ctx.skip_var0, cpu_skip);
 +                ctx->free_skip_var0 = true;
 +                ctx->skip_var0 = tcg_temp_new();
 +                tcg_gen_mov_tl(ctx->skip_var0, cpu_skip);
                  tcg_gen_movi_tl(cpu_skip, 0);
              }
 -            if (ctx.skip_var1 == NULL) {
 -                tcg_gen_brcondi_tl(ctx.skip_cond, ctx.skip_var0, 0, skip_label);
 +            if (ctx->skip_var1 == NULL) {
 +                tcg_gen_brcondi_tl(ctx->skip_cond, ctx->skip_var0,
 +                                   0, skip_label);
              } else {
 -                tcg_gen_brcond_tl(ctx.skip_cond, ctx.skip_var0,
 -                                  ctx.skip_var1, skip_label);
 -                ctx.skip_var1 = NULL;
 +                tcg_gen_brcond_tl(ctx->skip_cond, ctx->skip_var0,
 +                                  ctx->skip_var1, skip_label);
 +                ctx->skip_var1 = NULL;
              }
 -            if (ctx.free_skip_var0) {
 -                tcg_temp_free(ctx.skip_var0);
 -                ctx.free_skip_var0 = false;
 +            if (ctx->free_skip_var0) {
 +                tcg_temp_free(ctx->skip_var0);
 +                ctx->free_skip_var0 = false;
              }
 -            ctx.skip_cond = TCG_COND_NEVER;
 -            ctx.skip_var0 = NULL;
 +            ctx->skip_cond = TCG_COND_NEVER;
 +            ctx->skip_var0 = NULL;
          }
 -        translate(&ctx);
 +        translate(ctx);
          if (skip_label) {
 -            canonicalize_skip(&ctx);
 +            canonicalize_skip(ctx);
              gen_set_label(skip_label);
 -            if (ctx.base.is_jmp == DISAS_NORETURN) {
 -                ctx.base.is_jmp = DISAS_CHAIN;
 +            if (ctx->base.is_jmp == DISAS_NORETURN) {
 +                ctx->base.is_jmp = DISAS_CHAIN;
              }
          }
 -    } while (ctx.base.is_jmp == DISAS_NEXT
 +    } while (ctx->base.is_jmp == DISAS_NEXT
               && num_insns < max_insns
 -             && (ctx.npc - pc_start) * 2 < TARGET_PAGE_SIZE - 4
 +             && (ctx->npc - pc_start) * 2 < TARGET_PAGE_SIZE - 4
               && !tcg_op_buf_full());
      if (tb->cflags & CF_LAST_IO) {
          gen_io_end();
      }
 -    bool nonconst_skip = canonicalize_skip(&ctx);
 +    bool nonconst_skip = canonicalize_skip(ctx);
 -    switch (ctx.base.is_jmp) {
 +    switch (ctx->base.is_jmp) {
      case DISAS_NORETURN:
          assert(!nonconst_skip);
          break;
@@ -XXX,XX +XXX,XX @@ void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int max_insns)
      case DISAS_CHAIN:
          if (!nonconst_skip) {
              /* Note gen_goto_tb checks singlestep.  */
 -            gen_goto_tb(&ctx, 1, ctx.npc);
 +            gen_goto_tb(ctx, 1, ctx->npc);
              break;
          }
--        tcg_gen_movi_tl(cpu_pc, ctx.npc);
-+        tcg_gen_movi_tl(cpu_pc, ctx->npc);
+-        finish_folding(&ctx, op);
-         /* fall through */
++        if (!done) {
-     case DISAS_LOOKUP:
++            finish_folding(&ctx, op);
--        if (!ctx.base.singlestep_enabled) {
++        }
-+        if (!ctx->base.singlestep_enabled) {
-             tcg_gen_lookup_and_goto_ptr();
+         /* Eliminate duplicate and redundant fence instructions.  */
-             break;
+         if (ctx.prev_mb) {
          }
          /* fall through */
      case DISAS_EXIT:
 -        if (ctx.base.singlestep_enabled) {
 +        if (ctx->base.singlestep_enabled) {
              gen_helper_debug(cpu_env);
          } else {
              tcg_gen_exit_tb(NULL, 0);
@@ -XXX,XX +XXX,XX @@ void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int max_insns)
  done_generating:
      gen_tb_end(tb, num_insns);
 -    tb->size = (ctx.npc - pc_start) * 2;
 +    tb->size = (ctx->npc - pc_start) * 2;
      tb->icount = num_insns;
  #ifdef DEBUG_DISAS
 --
 .25.1

-[PULL 40/63] tcg/ppc: Split out tcg_out_ext{8,16,32}s
+[PULL 19/56] tcg/optimize: Split out fold_mb, fold_qemu_{ld,st}
-We will shortly require these in other context;
+This puts the separate mb optimization into the same framework
-make the expansion as clear as possible.
+as the others.  While fold_qemu_{ld,st} are currently identical,
 that won't last as more code gets moved.
+Reviewed-by: Luis Pires <luis.pires@eldorado.org.br>
 Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
-Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- tcg/ppc/tcg-target.c.inc | 31 +++++++++++++++++++++----------
+ tcg/optimize.c | 89 +++++++++++++++++++++++++++++---------------------
-file changed, 21 insertions(+), 10 deletions(-)
+file changed, 51 insertions(+), 38 deletions(-)
-diff --git a/tcg/ppc/tcg-target.c.inc b/tcg/ppc/tcg-target.c.inc
+diff --git a/tcg/optimize.c b/tcg/optimize.c
 index XXXXXXX..XXXXXXX 100644
---- a/tcg/ppc/tcg-target.c.inc
+--- a/tcg/optimize.c
-+++ b/tcg/ppc/tcg-target.c.inc
++++ b/tcg/optimize.c
-@@ -XXX,XX +XXX,XX @@ static inline void tcg_out_rlw(TCGContext *s, int op, TCGReg ra, TCGReg rs,
+@@ -XXX,XX +XXX,XX @@ static bool fold_call(OptContext *ctx, TCGOp *op)
-     tcg_out32(s, op | RA(ra) | RS(rs) | SH(sh) | MB(mb) | ME(me));
+     return true;
  }
-+static inline void tcg_out_ext8s(TCGContext *s, TCGReg dst, TCGReg src)
++static bool fold_mb(OptContext *ctx, TCGOp *op)
 +{
-+    tcg_out32(s, EXTSB | RA(dst) | RS(src));
++    /* Eliminate duplicate and redundant fence instructions.  */
 +    if (ctx->prev_mb) {
 +        /*
 +         * Merge two barriers of the same type into one,
 +         * or a weaker barrier into a stronger one,
 +         * or two weaker barriers into a stronger one.
 +         *   mb X; mb Y => mb X|Y
 +         *   mb; strl => mb; st
 +         *   ldaq; mb => ld; mb
 +         *   ldaq; strl => ld; mb; st
 +         * Other combinations are also merged into a strong
 +         * barrier.  This is stricter than specified but for
 +         * the purposes of TCG is better than not optimizing.
 +         */
 +        ctx->prev_mb->args[0] |= op->args[0];
 +        tcg_op_remove(ctx->tcg, op);
 +    } else {
 +        ctx->prev_mb = op;
 +    }
 +    return true;
 +}
 +
-+static inline void tcg_out_ext16s(TCGContext *s, TCGReg dst, TCGReg src)
++static bool fold_qemu_ld(OptContext *ctx, TCGOp *op)
 +{
-+    tcg_out32(s, EXTSH | RA(dst) | RS(src));
++    /* Opcodes that touch guest memory stop the mb optimization.  */
 +    ctx->prev_mb = NULL;
 +    return false;
 +}
 +
-+static inline void tcg_out_ext32s(TCGContext *s, TCGReg dst, TCGReg src)
++static bool fold_qemu_st(OptContext *ctx, TCGOp *op)
 +{
-+    tcg_out32(s, EXTSW | RA(dst) | RS(src));
++    /* Opcodes that touch guest memory stop the mb optimization.  */
 +    ctx->prev_mb = NULL;
 +    return false;
 +}
 +
- static inline void tcg_out_ext32u(TCGContext *s, TCGReg dst, TCGReg src)
+ /* Propagate constants and copies, fold constant expressions. */
  void tcg_optimize(TCGContext *s)
  {
-     tcg_out_rld(s, RLDICL, dst, src, 0, 32);
+@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
-@@ -XXX,XX +XXX,XX @@ static void tcg_out_op(TCGContext *s, TCGOpcode opc,
+             }
-                        const int const_args[TCG_MAX_OP_ARGS])
+             break;
- {
-     TCGArg a0, a1, a2;
++        case INDEX_op_mb:
--    int c;
++            done = fold_mb(&ctx, op);
++            break;
-     switch (opc) {
++        case INDEX_op_qemu_ld_i32:
-     case INDEX_op_exit_tb:
++        case INDEX_op_qemu_ld_i64:
-@@ -XXX,XX +XXX,XX @@ static void tcg_out_op(TCGContext *s, TCGOpcode opc,
++            done = fold_qemu_ld(&ctx, op);
-     case INDEX_op_ld8s_i32:
++            break;
-     case INDEX_op_ld8s_i64:
++        case INDEX_op_qemu_st_i32:
-         tcg_out_mem_long(s, LBZ, LBZX, args[0], args[1], args[2]);
++        case INDEX_op_qemu_st8_i32:
--        tcg_out32(s, EXTSB | RS(args[0]) | RA(args[0]));
++        case INDEX_op_qemu_st_i64:
-+        tcg_out_ext8s(s, args[0], args[0]);
++            done = fold_qemu_st(&ctx, op);
-         break;
++            break;
-     case INDEX_op_ld16u_i32:
++
-     case INDEX_op_ld16u_i64:
+         default:
-@@ -XXX,XX +XXX,XX @@ static void tcg_out_op(TCGContext *s, TCGOpcode opc,
+             break;
+         }
-     case INDEX_op_ext8s_i32:
+@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
-     case INDEX_op_ext8s_i64:
+         if (!done) {
--        c = EXTSB;
+             finish_folding(&ctx, op);
--        goto gen_ext;
+         }
-+        tcg_out_ext8s(s, args[0], args[1]);
+-
-+        break;
+-        /* Eliminate duplicate and redundant fence instructions.  */
-     case INDEX_op_ext16s_i32:
+-        if (ctx.prev_mb) {
-     case INDEX_op_ext16s_i64:
+-            switch (opc) {
--        c = EXTSH;
+-            case INDEX_op_mb:
--        goto gen_ext;
+-                /* Merge two barriers of the same type into one,
-+        tcg_out_ext16s(s, args[0], args[1]);
+-                 * or a weaker barrier into a stronger one,
-+        break;
+-                 * or two weaker barriers into a stronger one.
-     case INDEX_op_ext_i32_i64:
+-                 *   mb X; mb Y => mb X|Y
-     case INDEX_op_ext32s_i64:
+-                 *   mb; strl => mb; st
--        c = EXTSW;
+-                 *   ldaq; mb => ld; mb
--        goto gen_ext;
+-                 *   ldaq; strl => ld; mb; st
--    gen_ext:
+-                 * Other combinations are also merged into a strong
--        tcg_out32(s, c | RS(args[1]) | RA(args[0]));
+-                 * barrier.  This is stricter than specified but for
-+        tcg_out_ext32s(s, args[0], args[1]);
+-                 * the purposes of TCG is better than not optimizing.
-         break;
+-                 */
-     case INDEX_op_extu_i32_i64:
+-                ctx.prev_mb->args[0] |= op->args[0];
-         tcg_out_ext32u(s, args[0], args[1]);
+-                tcg_op_remove(s, op);
 -                break;
 -
 -            default:
 -                /* Opcodes that end the block stop the optimization.  */
 -                if ((def->flags & TCG_OPF_BB_END) == 0) {
 -                    break;
 -                }
 -                /* fallthru */
 -            case INDEX_op_qemu_ld_i32:
 -            case INDEX_op_qemu_ld_i64:
 -            case INDEX_op_qemu_st_i32:
 -            case INDEX_op_qemu_st8_i32:
 -            case INDEX_op_qemu_st_i64:
 -                /* Opcodes that touch guest memory stop the optimization.  */
 -                ctx.prev_mb = NULL;
 -                break;
 -            }
 -        } else if (opc == INDEX_op_mb) {
 -            ctx.prev_mb = op;
 -        }
      }
  }
 --
 .25.1

-[PULL 03/63] target/nios2: Use global cpu_R
+[PULL 20/56] tcg/optimize: Split out fold_const{1,2}
-We do not need to copy this into DisasContext.
+Split out a whole bunch of placeholder functions, which are
+currently identical.  That won't last as more code gets moved.
-Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
 Use CASE_32_64_VEC for some logical operators that previously
 missed the addition of vectors.
 Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
 Reviewed-by: Luis Pires <luis.pires@eldorado.org.br>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- target/nios2/translate.c | 73 +++++++++++++++++++---------------------
+ tcg/optimize.c | 271 +++++++++++++++++++++++++++++++++++++++----------
-file changed, 34 insertions(+), 39 deletions(-)
+file changed, 219 insertions(+), 52 deletions(-)
-diff --git a/target/nios2/translate.c b/target/nios2/translate.c
+diff --git a/tcg/optimize.c b/tcg/optimize.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/nios2/translate.c
+--- a/tcg/optimize.c
-+++ b/target/nios2/translate.c
++++ b/tcg/optimize.c
-@@ -XXX,XX +XXX,XX @@
+@@ -XXX,XX +XXX,XX @@ static void finish_folding(OptContext *ctx, TCGOp *op)
      }
  typedef struct DisasContext {
 -    TCGv             *cpu_R;
      TCGv_i32          zero;
      int               is_jmp;
      target_ulong      pc;
@@ -XXX,XX +XXX,XX @@ typedef struct DisasContext {
      bool              singlestep_enabled;
  } DisasContext;
 +static TCGv cpu_R[NUM_CORE_REGS];
 +
  typedef struct Nios2Instruction {
      void     (*handler)(DisasContext *dc, uint32_t code, uint32_t flags);
      uint32_t  flags;
@@ -XXX,XX +XXX,XX @@ static TCGv load_zero(DisasContext *dc)
  static TCGv load_gpr(DisasContext *dc, uint8_t reg)
  {
      if (likely(reg != R_ZERO)) {
 -        return dc->cpu_R[reg];
 +        return cpu_R[reg];
      } else {
          return load_zero(dc);
      }
@@ -XXX,XX +XXX,XX @@ static void t_gen_helper_raise_exception(DisasContext *dc,
  {
      TCGv_i32 tmp = tcg_const_i32(index);
 -    tcg_gen_movi_tl(dc->cpu_R[R_PC], dc->pc);
 +    tcg_gen_movi_tl(cpu_R[R_PC], dc->pc);
      gen_helper_raise_exception(cpu_env, tmp);
      tcg_temp_free_i32(tmp);
      dc->is_jmp = DISAS_NORETURN;
@@ -XXX,XX +XXX,XX @@ static void gen_goto_tb(DisasContext *dc, int n, uint32_t dest)
      if (use_goto_tb(dc, dest)) {
          tcg_gen_goto_tb(n);
 -        tcg_gen_movi_tl(dc->cpu_R[R_PC], dest);
 +        tcg_gen_movi_tl(cpu_R[R_PC], dest);
          tcg_gen_exit_tb(tb, n);
      } else {
 -        tcg_gen_movi_tl(dc->cpu_R[R_PC], dest);
 +        tcg_gen_movi_tl(cpu_R[R_PC], dest);
          tcg_gen_exit_tb(NULL, 0);
      }
  }
-@@ -XXX,XX +XXX,XX @@ static void jmpi(DisasContext *dc, uint32_t code, uint32_t flags)
++/*
- static void call(DisasContext *dc, uint32_t code, uint32_t flags)
++ * The fold_* functions return true when processing is complete,
 + * usually by folding the operation to a constant or to a copy,
 + * and calling tcg_opt_gen_{mov,movi}.  They may do other things,
 + * like collect information about the value produced, for use in
 + * optimizing a subsequent operation.
 + *
 + * These first fold_* functions are all helpers, used by other
 + * folders for more specific operations.
 + */
 +
 +static bool fold_const1(OptContext *ctx, TCGOp *op)
 +{
 +    if (arg_is_const(op->args[1])) {
 +        uint64_t t;
 +
 +        t = arg_info(op->args[1])->val;
 +        t = do_constant_folding(op->opc, t, 0);
 +        return tcg_opt_gen_movi(ctx, op, op->args[0], t);
 +    }
 +    return false;
 +}
 +
 +static bool fold_const2(OptContext *ctx, TCGOp *op)
 +{
 +    if (arg_is_const(op->args[1]) && arg_is_const(op->args[2])) {
 +        uint64_t t1 = arg_info(op->args[1])->val;
 +        uint64_t t2 = arg_info(op->args[2])->val;
 +
 +        t1 = do_constant_folding(op->opc, t1, t2);
 +        return tcg_opt_gen_movi(ctx, op, op->args[0], t1);
 +    }
 +    return false;
 +}
 +
 +/*
 + * These outermost fold_<op> functions are sorted alphabetically.
 + */
 +
 +static bool fold_add(OptContext *ctx, TCGOp *op)
 +{
 +    return fold_const2(ctx, op);
 +}
 +
 +static bool fold_and(OptContext *ctx, TCGOp *op)
 +{
 +    return fold_const2(ctx, op);
 +}
 +
 +static bool fold_andc(OptContext *ctx, TCGOp *op)
 +{
 +    return fold_const2(ctx, op);
 +}
 +
  static bool fold_call(OptContext *ctx, TCGOp *op)
  {
--    tcg_gen_movi_tl(dc->cpu_R[R_RA], dc->pc + 4);
+     TCGContext *s = ctx->tcg;
-+    tcg_gen_movi_tl(cpu_R[R_RA], dc->pc + 4);
+@@ -XXX,XX +XXX,XX @@ static bool fold_call(OptContext *ctx, TCGOp *op)
-     jmpi(dc, code, flags);
+     return true;
  }
-@@ -XXX,XX +XXX,XX @@ static void gen_ldx(DisasContext *dc, uint32_t code, uint32_t flags)
++static bool fold_ctpop(OptContext *ctx, TCGOp *op)
-      *          the Nios2 CPU.
++{
-      */
++    return fold_const1(ctx, op);
-     if (likely(instr.b != R_ZERO)) {
++}
--        data = dc->cpu_R[instr.b];
++
-+        data = cpu_R[instr.b];
++static bool fold_divide(OptContext *ctx, TCGOp *op)
-     } else {
++{
-         data = tcg_temp_new();
++    return fold_const2(ctx, op);
-     }
++}
-@@ -XXX,XX +XXX,XX @@ static void gen_bxx(DisasContext *dc, uint32_t code, uint32_t flags)
++
-     I_TYPE(instr, code);
++static bool fold_eqv(OptContext *ctx, TCGOp *op)
++{
-     TCGLabel *l1 = gen_new_label();
++    return fold_const2(ctx, op);
--    tcg_gen_brcond_tl(flags, dc->cpu_R[instr.a], dc->cpu_R[instr.b], l1);
++}
-+    tcg_gen_brcond_tl(flags, cpu_R[instr.a], cpu_R[instr.b], l1);
++
-     gen_goto_tb(dc, 0, dc->pc + 4);
++static bool fold_exts(OptContext *ctx, TCGOp *op)
-     gen_set_label(l1);
++{
-     gen_goto_tb(dc, 1, dc->pc + 4 + (instr.imm16.s & -4));
++    return fold_const1(ctx, op);
-@@ -XXX,XX +XXX,XX @@ static void gen_bxx(DisasContext *dc, uint32_t code, uint32_t flags)
++}
- static void (fname)(DisasContext *dc, uint32_t code, uint32_t flags)         \
++
- {                                                                            \
++static bool fold_extu(OptContext *ctx, TCGOp *op)
-     I_TYPE(instr, (code));                                                   \
++{
--    tcg_gen_setcondi_tl(flags, (dc)->cpu_R[instr.b], (dc)->cpu_R[instr.a],   \
++    return fold_const1(ctx, op);
--                        (op3));                                              \
++}
-+    tcg_gen_setcondi_tl(flags, cpu_R[instr.b], cpu_R[instr.a], (op3));       \
++
  static bool fold_mb(OptContext *ctx, TCGOp *op)
  {
      /* Eliminate duplicate and redundant fence instructions.  */
@@ -XXX,XX +XXX,XX @@ static bool fold_mb(OptContext *ctx, TCGOp *op)
      return true;
  }
- gen_i_cmpxx(gen_cmpxxsi, instr.imm16.s)
++static bool fold_mul(OptContext *ctx, TCGOp *op)
-@@ -XXX,XX +XXX,XX @@ static void (fname)(DisasContext *dc, uint32_t code, uint32_t flags)        \
++{
-     if (unlikely(instr.b == R_ZERO)) { /* Store to R_ZERO is ignored */     \
++    return fold_const2(ctx, op);
-         return;                                                             \
++}
-     } else if (instr.a == R_ZERO) { /* MOVxI optimizations */               \
++
--        tcg_gen_movi_tl(dc->cpu_R[instr.b], (resimm) ? (op3) : 0);          \
++static bool fold_mul_highpart(OptContext *ctx, TCGOp *op)
-+        tcg_gen_movi_tl(cpu_R[instr.b], (resimm) ? (op3) : 0);              \
++{
-     } else {                                                                \
++    return fold_const2(ctx, op);
--        tcg_gen_##insn##_tl((dc)->cpu_R[instr.b], (dc)->cpu_R[instr.a],     \
++}
--                            (op3));                                         \
++
-+        tcg_gen_##insn##_tl(cpu_R[instr.b], cpu_R[instr.a], (op3));         \
++static bool fold_nand(OptContext *ctx, TCGOp *op)
-     }                                                                       \
++{
 +    return fold_const2(ctx, op);
 +}
 +
 +static bool fold_neg(OptContext *ctx, TCGOp *op)
 +{
 +    return fold_const1(ctx, op);
 +}
 +
 +static bool fold_nor(OptContext *ctx, TCGOp *op)
 +{
 +    return fold_const2(ctx, op);
 +}
 +
 +static bool fold_not(OptContext *ctx, TCGOp *op)
 +{
 +    return fold_const1(ctx, op);
 +}
 +
 +static bool fold_or(OptContext *ctx, TCGOp *op)
 +{
 +    return fold_const2(ctx, op);
 +}
 +
 +static bool fold_orc(OptContext *ctx, TCGOp *op)
 +{
 +    return fold_const2(ctx, op);
 +}
 +
  static bool fold_qemu_ld(OptContext *ctx, TCGOp *op)
  {
      /* Opcodes that touch guest memory stop the mb optimization.  */
@@ -XXX,XX +XXX,XX @@ static bool fold_qemu_st(OptContext *ctx, TCGOp *op)
      return false;
  }
-@@ -XXX,XX +XXX,XX @@ static const Nios2Instruction i_type_instructions[] = {
++static bool fold_remainder(OptContext *ctx, TCGOp *op)
-  */
++{
- static void eret(DisasContext *dc, uint32_t code, uint32_t flags)
++    return fold_const2(ctx, op);
 +}
 +
 +static bool fold_shift(OptContext *ctx, TCGOp *op)
 +{
 +    return fold_const2(ctx, op);
 +}
 +
 +static bool fold_sub(OptContext *ctx, TCGOp *op)
 +{
 +    return fold_const2(ctx, op);
 +}
 +
 +static bool fold_xor(OptContext *ctx, TCGOp *op)
 +{
 +    return fold_const2(ctx, op);
 +}
 +
  /* Propagate constants and copies, fold constant expressions. */
  void tcg_optimize(TCGContext *s)
  {
--    tcg_gen_mov_tl(dc->cpu_R[CR_STATUS], dc->cpu_R[CR_ESTATUS]);
+@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
--    tcg_gen_mov_tl(dc->cpu_R[R_PC], dc->cpu_R[R_EA]);
+             }
-+    tcg_gen_mov_tl(cpu_R[CR_STATUS], cpu_R[CR_ESTATUS]);
+             break;
-+    tcg_gen_mov_tl(cpu_R[R_PC], cpu_R[R_EA]);
+-        CASE_OP_32_64(not):
-     dc->is_jmp = DISAS_JUMP;
+-        CASE_OP_32_64(neg):
- }
+-        CASE_OP_32_64(ext8s):
-@@ -XXX,XX +XXX,XX @@ static void eret(DisasContext *dc, uint32_t code, uint32_t flags)
+-        CASE_OP_32_64(ext8u):
- /* PC <- ra */
+-        CASE_OP_32_64(ext16s):
- static void ret(DisasContext *dc, uint32_t code, uint32_t flags)
+-        CASE_OP_32_64(ext16u):
- {
+-        CASE_OP_32_64(ctpop):
--    tcg_gen_mov_tl(dc->cpu_R[R_PC], dc->cpu_R[R_RA]);
+-        case INDEX_op_ext32s_i64:
-+    tcg_gen_mov_tl(cpu_R[R_PC], cpu_R[R_RA]);
+-        case INDEX_op_ext32u_i64:
+-        case INDEX_op_ext_i32_i64:
-     dc->is_jmp = DISAS_JUMP;
+-        case INDEX_op_extu_i32_i64:
- }
+-        case INDEX_op_extrl_i64_i32:
-@@ -XXX,XX +XXX,XX @@ static void ret(DisasContext *dc, uint32_t code, uint32_t flags)
+-        case INDEX_op_extrh_i64_i32:
- /* PC <- ba */
+-            if (arg_is_const(op->args[1])) {
- static void bret(DisasContext *dc, uint32_t code, uint32_t flags)
+-                tmp = do_constant_folding(opc, arg_info(op->args[1])->val, 0);
- {
+-                tcg_opt_gen_movi(&ctx, op, op->args[0], tmp);
--    tcg_gen_mov_tl(dc->cpu_R[R_PC], dc->cpu_R[R_BA]);
+-                continue;
-+    tcg_gen_mov_tl(cpu_R[R_PC], cpu_R[R_BA]);
+-            }
+-            break;
-     dc->is_jmp = DISAS_JUMP;
+-
- }
+         CASE_OP_32_64(bswap16):
-@@ -XXX,XX +XXX,XX @@ static void jmp(DisasContext *dc, uint32_t code, uint32_t flags)
+         CASE_OP_32_64(bswap32):
- {
+         case INDEX_op_bswap64_i64:
-     R_TYPE(instr, code);
+@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
+             }
--    tcg_gen_mov_tl(dc->cpu_R[R_PC], load_gpr(dc, instr.a));
+             break;
-+    tcg_gen_mov_tl(cpu_R[R_PC], load_gpr(dc, instr.a));
+-        CASE_OP_32_64(add):
-     dc->is_jmp = DISAS_JUMP;
+-        CASE_OP_32_64(sub):
- }
+-        CASE_OP_32_64(mul):
-@@ -XXX,XX +XXX,XX @@ static void nextpc(DisasContext *dc, uint32_t code, uint32_t flags)
+-        CASE_OP_32_64(or):
-     R_TYPE(instr, code);
+-        CASE_OP_32_64(and):
+-        CASE_OP_32_64(xor):
-     if (likely(instr.c != R_ZERO)) {
+-        CASE_OP_32_64(shl):
--        tcg_gen_movi_tl(dc->cpu_R[instr.c], dc->pc + 4);
+-        CASE_OP_32_64(shr):
-+        tcg_gen_movi_tl(cpu_R[instr.c], dc->pc + 4);
+-        CASE_OP_32_64(sar):
-     }
+-        CASE_OP_32_64(rotl):
- }
+-        CASE_OP_32_64(rotr):
+-        CASE_OP_32_64(andc):
-@@ -XXX,XX +XXX,XX @@ static void callr(DisasContext *dc, uint32_t code, uint32_t flags)
+-        CASE_OP_32_64(orc):
- {
+-        CASE_OP_32_64(eqv):
-     R_TYPE(instr, code);
+-        CASE_OP_32_64(nand):
+-        CASE_OP_32_64(nor):
--    tcg_gen_mov_tl(dc->cpu_R[R_PC], load_gpr(dc, instr.a));
+-        CASE_OP_32_64(muluh):
--    tcg_gen_movi_tl(dc->cpu_R[R_RA], dc->pc + 4);
+-        CASE_OP_32_64(mulsh):
-+    tcg_gen_mov_tl(cpu_R[R_PC], load_gpr(dc, instr.a));
+-        CASE_OP_32_64(div):
-+    tcg_gen_movi_tl(cpu_R[R_RA], dc->pc + 4);
+-        CASE_OP_32_64(divu):
+-        CASE_OP_32_64(rem):
-     dc->is_jmp = DISAS_JUMP;
+-        CASE_OP_32_64(remu):
- }
+-            if (arg_is_const(op->args[1]) && arg_is_const(op->args[2])) {
-@@ -XXX,XX +XXX,XX @@ static void rdctl(DisasContext *dc, uint32_t code, uint32_t flags)
+-                tmp = do_constant_folding(opc, arg_info(op->args[1])->val,
-     {
+-                                          arg_info(op->args[2])->val);
- #if !defined(CONFIG_USER_ONLY)
+-                tcg_opt_gen_movi(&ctx, op, op->args[0], tmp);
-         if (likely(instr.c != R_ZERO)) {
+-                continue;
--            tcg_gen_mov_tl(dc->cpu_R[instr.c], dc->cpu_R[instr.imm5 + CR_BASE]);
+-            }
-+            tcg_gen_mov_tl(cpu_R[instr.c], cpu_R[instr.imm5 + CR_BASE]);
+-            break;
- #ifdef DEBUG_MMU
+-
-             TCGv_i32 tmp = tcg_const_i32(instr.imm5 + CR_BASE);
+         CASE_OP_32_64(clz):
--            gen_helper_mmu_read_debug(dc->cpu_R[instr.c], cpu_env, tmp);
+         CASE_OP_32_64(ctz):
-+            gen_helper_mmu_read_debug(cpu_R[instr.c], cpu_env, tmp);
+             if (arg_is_const(op->args[1])) {
-             tcg_temp_free_i32(tmp);
+@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
- #endif
+             }
              break;
 +        default:
 +            break;
 +
 +        /* ---------------------------------------------------------- */
 +        /* Sorted alphabetically by opcode as much as possible. */
 +
 +        CASE_OP_32_64_VEC(add):
 +            done = fold_add(&ctx, op);
 +            break;
 +        CASE_OP_32_64_VEC(and):
 +            done = fold_and(&ctx, op);
 +            break;
 +        CASE_OP_32_64_VEC(andc):
 +            done = fold_andc(&ctx, op);
 +            break;
 +        CASE_OP_32_64(ctpop):
 +            done = fold_ctpop(&ctx, op);
 +            break;
 +        CASE_OP_32_64(div):
 +        CASE_OP_32_64(divu):
 +            done = fold_divide(&ctx, op);
 +            break;
 +        CASE_OP_32_64(eqv):
 +            done = fold_eqv(&ctx, op);
 +            break;
 +        CASE_OP_32_64(ext8s):
 +        CASE_OP_32_64(ext16s):
 +        case INDEX_op_ext32s_i64:
 +        case INDEX_op_ext_i32_i64:
 +            done = fold_exts(&ctx, op);
 +            break;
 +        CASE_OP_32_64(ext8u):
 +        CASE_OP_32_64(ext16u):
 +        case INDEX_op_ext32u_i64:
 +        case INDEX_op_extu_i32_i64:
 +        case INDEX_op_extrl_i64_i32:
 +        case INDEX_op_extrh_i64_i32:
 +            done = fold_extu(&ctx, op);
 +            break;
          case INDEX_op_mb:
              done = fold_mb(&ctx, op);
              break;
 +        CASE_OP_32_64(mul):
 +            done = fold_mul(&ctx, op);
 +            break;
 +        CASE_OP_32_64(mulsh):
 +        CASE_OP_32_64(muluh):
 +            done = fold_mul_highpart(&ctx, op);
 +            break;
 +        CASE_OP_32_64(nand):
 +            done = fold_nand(&ctx, op);
 +            break;
 +        CASE_OP_32_64(neg):
 +            done = fold_neg(&ctx, op);
 +            break;
 +        CASE_OP_32_64(nor):
 +            done = fold_nor(&ctx, op);
 +            break;
 +        CASE_OP_32_64_VEC(not):
 +            done = fold_not(&ctx, op);
 +            break;
 +        CASE_OP_32_64_VEC(or):
 +            done = fold_or(&ctx, op);
 +            break;
 +        CASE_OP_32_64_VEC(orc):
 +            done = fold_orc(&ctx, op);
 +            break;
          case INDEX_op_qemu_ld_i32:
          case INDEX_op_qemu_ld_i64:
              done = fold_qemu_ld(&ctx, op);
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
          case INDEX_op_qemu_st_i64:
              done = fold_qemu_st(&ctx, op);
              break;
 -
 -        default:
 +        CASE_OP_32_64(rem):
 +        CASE_OP_32_64(remu):
 +            done = fold_remainder(&ctx, op);
 +            break;
 +        CASE_OP_32_64(rotl):
 +        CASE_OP_32_64(rotr):
 +        CASE_OP_32_64(sar):
 +        CASE_OP_32_64(shl):
 +        CASE_OP_32_64(shr):
 +            done = fold_shift(&ctx, op);
 +            break;
 +        CASE_OP_32_64_VEC(sub):
 +            done = fold_sub(&ctx, op);
 +            break;
 +        CASE_OP_32_64_VEC(xor):
 +            done = fold_xor(&ctx, op);
              break;
          }
-@@ -XXX,XX +XXX,XX @@ static void rdctl(DisasContext *dc, uint32_t code, uint32_t flags)
      default:
          if (likely(instr.c != R_ZERO)) {
 -            tcg_gen_mov_tl(dc->cpu_R[instr.c], dc->cpu_R[instr.imm5 + CR_BASE]);
 +            tcg_gen_mov_tl(cpu_R[instr.c], cpu_R[instr.imm5 + CR_BASE]);
          }
          break;
      }
@@ -XXX,XX +XXX,XX @@ static void wrctl(DisasContext *dc, uint32_t code, uint32_t flags)
      }
      default:
 -        tcg_gen_mov_tl(dc->cpu_R[instr.imm5 + CR_BASE], load_gpr(dc, instr.a));
 +        tcg_gen_mov_tl(cpu_R[instr.imm5 + CR_BASE], load_gpr(dc, instr.a));
          break;
      }
@@ -XXX,XX +XXX,XX @@ static void gen_cmpxx(DisasContext *dc, uint32_t code, uint32_t flags)
  {
      R_TYPE(instr, code);
      if (likely(instr.c != R_ZERO)) {
 -        tcg_gen_setcond_tl(flags, dc->cpu_R[instr.c], dc->cpu_R[instr.a],
 -                           dc->cpu_R[instr.b]);
 +        tcg_gen_setcond_tl(flags, cpu_R[instr.c], cpu_R[instr.a],
 +                           cpu_R[instr.b]);
      }
  }
@@ -XXX,XX +XXX,XX @@ static void (fname)(DisasContext *dc, uint32_t code, uint32_t flags)       \
  {                                                                          \
      R_TYPE(instr, (code));                                                 \
      if (likely(instr.c != R_ZERO)) {                                       \
 -        tcg_gen_##insn((dc)->cpu_R[instr.c], load_gpr((dc), instr.a),      \
 -                       (op3));                                             \
 +        tcg_gen_##insn(cpu_R[instr.c], load_gpr((dc), instr.a), (op3));    \
      }                                                                      \
  }
@@ -XXX,XX +XXX,XX @@ static void (fname)(DisasContext *dc, uint32_t code, uint32_t flags)   \
      R_TYPE(instr, (code));                                             \
      if (likely(instr.c != R_ZERO)) {                                   \
          TCGv t0 = tcg_temp_new();                                      \
 -        tcg_gen_##insn(t0, dc->cpu_R[instr.c],                         \
 -                       load_gpr(dc, instr.a), load_gpr(dc, instr.b)); \
 +        tcg_gen_##insn(t0, cpu_R[instr.c],                             \
 +                       load_gpr(dc, instr.a), load_gpr(dc, instr.b));  \
          tcg_temp_free(t0);                                             \
      }                                                                  \
  }
@@ -XXX,XX +XXX,XX @@ static void (fname)(DisasContext *dc, uint32_t code, uint32_t flags)       \
      if (likely(instr.c != R_ZERO)) {                                       \
          TCGv t0 = tcg_temp_new();                                          \
          tcg_gen_andi_tl(t0, load_gpr((dc), instr.b), 31);                  \
 -        tcg_gen_##insn((dc)->cpu_R[instr.c], load_gpr((dc), instr.a), t0); \
 +        tcg_gen_##insn(cpu_R[instr.c], load_gpr((dc), instr.a), t0);       \
          tcg_temp_free(t0);                                                 \
      }                                                                      \
  }
@@ -XXX,XX +XXX,XX @@ static void divs(DisasContext *dc, uint32_t code, uint32_t flags)
      tcg_gen_or_tl(t2, t2, t3);
      tcg_gen_movi_tl(t3, 0);
      tcg_gen_movcond_tl(TCG_COND_NE, t1, t2, t3, t2, t1);
 -    tcg_gen_div_tl(dc->cpu_R[instr.c], t0, t1);
 -    tcg_gen_ext32s_tl(dc->cpu_R[instr.c], dc->cpu_R[instr.c]);
 +    tcg_gen_div_tl(cpu_R[instr.c], t0, t1);
 +    tcg_gen_ext32s_tl(cpu_R[instr.c], cpu_R[instr.c]);
      tcg_temp_free(t3);
      tcg_temp_free(t2);
@@ -XXX,XX +XXX,XX @@ static void divu(DisasContext *dc, uint32_t code, uint32_t flags)
      tcg_gen_ext32u_tl(t0, load_gpr(dc, instr.a));
      tcg_gen_ext32u_tl(t1, load_gpr(dc, instr.b));
      tcg_gen_movcond_tl(TCG_COND_EQ, t1, t1, t2, t3, t1);
 -    tcg_gen_divu_tl(dc->cpu_R[instr.c], t0, t1);
 -    tcg_gen_ext32s_tl(dc->cpu_R[instr.c], dc->cpu_R[instr.c]);
 +    tcg_gen_divu_tl(cpu_R[instr.c], t0, t1);
 +    tcg_gen_ext32s_tl(cpu_R[instr.c], cpu_R[instr.c]);
      tcg_temp_free(t3);
      tcg_temp_free(t2);
@@ -XXX,XX +XXX,XX @@ static const char * const regnames[] = {
      "rpc"
  };
 -static TCGv cpu_R[NUM_CORE_REGS];
 -
  #include "exec/gen-icount.h"
  static void gen_exception(DisasContext *dc, uint32_t excp)
@@ -XXX,XX +XXX,XX @@ void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int max_insns)
      int num_insns;
      /* Initialize DC */
 -    dc->cpu_R   = cpu_R;
      dc->is_jmp  = DISAS_NEXT;
      dc->pc      = tb->pc;
      dc->tb      = tb;
 --
 .25.1

-[PULL 50/63] tcg/tci: Support bswap flags
+[PULL 21/56] tcg/optimize: Split out fold_setcond2
-The existing interpreter zero-extends, ignoring high bits.
+Reduce some code duplication by folding the NE and EQ cases.
 Simply add a separate sign-extension opcode if required.
 Ensure that the interpreter supports ext16s when bswap16 is enabled.
-Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
+Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
 Reviewed-by: Luis Pires <luis.pires@eldorado.org.br>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- tcg/tci.c                |  3 ++-
+ tcg/optimize.c | 145 ++++++++++++++++++++++++-------------------------
- tcg/tci/tcg-target.c.inc | 23 ++++++++++++++++++++---
+file changed, 72 insertions(+), 73 deletions(-)
 files changed, 22 insertions(+), 4 deletions(-)
-diff --git a/tcg/tci.c b/tcg/tci.c
+diff --git a/tcg/optimize.c b/tcg/optimize.c
 index XXXXXXX..XXXXXXX 100644
---- a/tcg/tci.c
+--- a/tcg/optimize.c
-+++ b/tcg/tci.c
++++ b/tcg/optimize.c
-@@ -XXX,XX +XXX,XX @@ uintptr_t QEMU_DISABLE_CFI tcg_qemu_tb_exec(CPUArchState *env,
+@@ -XXX,XX +XXX,XX @@ static bool fold_remainder(OptContext *ctx, TCGOp *op)
-             regs[r0] = (int8_t)regs[r1];
+     return fold_const2(ctx, op);
-             break;
+ }
- #endif
--#if TCG_TARGET_HAS_ext16s_i32 || TCG_TARGET_HAS_ext16s_i64
++static bool fold_setcond2(OptContext *ctx, TCGOp *op)
-+#if TCG_TARGET_HAS_ext16s_i32 || TCG_TARGET_HAS_ext16s_i64 || \
++{
-+    TCG_TARGET_HAS_bswap16_i32 || TCG_TARGET_HAS_bswap16_i64
++    TCGCond cond = op->args[5];
-         CASE_32_64(ext16s)
++    int i = do_constant_folding_cond2(&op->args[1], &op->args[3], cond);
-             tci_args_rr(insn, &r0, &r1);
++    int inv = 0;
              regs[r0] = (int16_t)regs[r1];
 diff --git a/tcg/tci/tcg-target.c.inc b/tcg/tci/tcg-target.c.inc
 index XXXXXXX..XXXXXXX 100644
 --- a/tcg/tci/tcg-target.c.inc
 +++ b/tcg/tci/tcg-target.c.inc
@@ -XXX,XX +XXX,XX @@ static void tcg_out_op(TCGContext *s, TCGOpcode opc,
                         const TCGArg args[TCG_MAX_OP_ARGS],
                         const int const_args[TCG_MAX_OP_ARGS])
  {
 +    TCGOpcode exts;
 +
-     switch (opc) {
++    if (i >= 0) {
-     case INDEX_op_exit_tb:
++        goto do_setcond_const;
-         tcg_out_op_p(s, opc, (void *)args[0]);
++    }
-@@ -XXX,XX +XXX,XX @@ static void tcg_out_op(TCGContext *s, TCGOpcode opc,
++
-     CASE_64(ext32u)      /* Optional (TCG_TARGET_HAS_ext32u_i64). */
++    switch (cond) {
-     CASE_64(ext_i32)
++    case TCG_COND_LT:
-     CASE_64(extu_i32)
++    case TCG_COND_GE:
--    CASE_32_64(bswap16)  /* Optional (TCG_TARGET_HAS_bswap16_*). */
++        /*
--    CASE_32_64(bswap32)  /* Optional (TCG_TARGET_HAS_bswap32_*). */
++         * Simplify LT/GE comparisons vs zero to a single compare
--    CASE_64(bswap64)     /* Optional (TCG_TARGET_HAS_bswap64_i64). */
++         * vs the high word of the input.
-     CASE_32_64(ctpop)    /* Optional (TCG_TARGET_HAS_ctpop_*). */
++         */
-+    case INDEX_op_bswap32_i32: /* Optional (TCG_TARGET_HAS_bswap32_i32). */
++        if (arg_is_const(op->args[3]) && arg_info(op->args[3])->val == 0 &&
-+    case INDEX_op_bswap64_i64: /* Optional (TCG_TARGET_HAS_bswap64_i64). */
++            arg_is_const(op->args[4]) && arg_info(op->args[4])->val == 0) {
-         tcg_out_op_rr(s, opc, args[0], args[1]);
++            goto do_setcond_high;
          break;
 +    case INDEX_op_bswap16_i32: /* Optional (TCG_TARGET_HAS_bswap16_i32). */
 +        exts = INDEX_op_ext16s_i32;
 +        goto do_bswap;
 +    case INDEX_op_bswap16_i64: /* Optional (TCG_TARGET_HAS_bswap16_i64). */
 +        exts = INDEX_op_ext16s_i64;
 +        goto do_bswap;
 +    case INDEX_op_bswap32_i64: /* Optional (TCG_TARGET_HAS_bswap32_i64). */
 +        exts = INDEX_op_ext32s_i64;
 +    do_bswap:
 +        /* The base tci bswaps zero-extend, and ignore high bits. */
 +        tcg_out_op_rr(s, opc, args[0], args[1]);
 +        if (args[2] & TCG_BSWAP_OS) {
 +            tcg_out_op_rr(s, exts, args[0], args[0]);
 +        }
 +        break;
 +
-     CASE_32_64(add2)
++    case TCG_COND_NE:
-     CASE_32_64(sub2)
++        inv = 1;
-         tcg_out_op_rrrrrr(s, opc, args[0], args[1], args[2],
++        QEMU_FALLTHROUGH;
 +    case TCG_COND_EQ:
 +        /*
 +         * Simplify EQ/NE comparisons where one of the pairs
 +         * can be simplified.
 +         */
 +        i = do_constant_folding_cond(INDEX_op_setcond_i32, op->args[1],
 +                                     op->args[3], cond);
 +        switch (i ^ inv) {
 +        case 0:
 +            goto do_setcond_const;
 +        case 1:
 +            goto do_setcond_high;
 +        }
 +
 +        i = do_constant_folding_cond(INDEX_op_setcond_i32, op->args[2],
 +                                     op->args[4], cond);
 +        switch (i ^ inv) {
 +        case 0:
 +            goto do_setcond_const;
 +        case 1:
 +            op->args[2] = op->args[3];
 +            op->args[3] = cond;
 +            op->opc = INDEX_op_setcond_i32;
 +            break;
 +        }
 +        break;
 +
 +    default:
 +        break;
 +
 +    do_setcond_high:
 +        op->args[1] = op->args[2];
 +        op->args[2] = op->args[4];
 +        op->args[3] = cond;
 +        op->opc = INDEX_op_setcond_i32;
 +        break;
 +    }
 +    return false;
 +
 + do_setcond_const:
 +    return tcg_opt_gen_movi(ctx, op, op->args[0], i);
 +}
 +
  static bool fold_shift(OptContext *ctx, TCGOp *op)
  {
      return fold_const2(ctx, op);
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
              }
              break;
 -        case INDEX_op_setcond2_i32:
 -            i = do_constant_folding_cond2(&op->args[1], &op->args[3],
 -                                          op->args[5]);
 -            if (i >= 0) {
 -            do_setcond_const:
 -                tcg_opt_gen_movi(&ctx, op, op->args[0], i);
 -                continue;
 -            }
 -            if ((op->args[5] == TCG_COND_LT || op->args[5] == TCG_COND_GE)
 -                 && arg_is_const(op->args[3])
 -                 && arg_info(op->args[3])->val == 0
 -                 && arg_is_const(op->args[4])
 -                 && arg_info(op->args[4])->val == 0) {
 -                /* Simplify LT/GE comparisons vs zero to a single compare
 -                   vs the high word of the input.  */
 -            do_setcond_high:
 -                reset_temp(op->args[0]);
 -                arg_info(op->args[0])->z_mask = 1;
 -                op->opc = INDEX_op_setcond_i32;
 -                op->args[1] = op->args[2];
 -                op->args[2] = op->args[4];
 -                op->args[3] = op->args[5];
 -                break;
 -            }
 -            if (op->args[5] == TCG_COND_EQ) {
 -                /* Simplify EQ comparisons where one of the pairs
 -                   can be simplified.  */
 -                i = do_constant_folding_cond(INDEX_op_setcond_i32,
 -                                             op->args[1], op->args[3],
 -                                             TCG_COND_EQ);
 -                if (i == 0) {
 -                    goto do_setcond_const;
 -                } else if (i > 0) {
 -                    goto do_setcond_high;
 -                }
 -                i = do_constant_folding_cond(INDEX_op_setcond_i32,
 -                                             op->args[2], op->args[4],
 -                                             TCG_COND_EQ);
 -                if (i == 0) {
 -                    goto do_setcond_high;
 -                } else if (i < 0) {
 -                    break;
 -                }
 -            do_setcond_low:
 -                reset_temp(op->args[0]);
 -                arg_info(op->args[0])->z_mask = 1;
 -                op->opc = INDEX_op_setcond_i32;
 -                op->args[2] = op->args[3];
 -                op->args[3] = op->args[5];
 -                break;
 -            }
 -            if (op->args[5] == TCG_COND_NE) {
 -                /* Simplify NE comparisons where one of the pairs
 -                   can be simplified.  */
 -                i = do_constant_folding_cond(INDEX_op_setcond_i32,
 -                                             op->args[1], op->args[3],
 -                                             TCG_COND_NE);
 -                if (i == 0) {
 -                    goto do_setcond_high;
 -                } else if (i > 0) {
 -                    goto do_setcond_const;
 -                }
 -                i = do_constant_folding_cond(INDEX_op_setcond_i32,
 -                                             op->args[2], op->args[4],
 -                                             TCG_COND_NE);
 -                if (i == 0) {
 -                    goto do_setcond_low;
 -                } else if (i > 0) {
 -                    goto do_setcond_const;
 -                }
 -            }
 -            break;
 -
          default:
              break;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
          CASE_OP_32_64(shr):
              done = fold_shift(&ctx, op);
              break;
 +        case INDEX_op_setcond2_i32:
 +            done = fold_setcond2(&ctx, op);
 +            break;
          CASE_OP_32_64_VEC(sub):
              done = fold_sub(&ctx, op);
              break;
 --
 .25.1

-[PULL 47/63] tcg/s390: Support bswap flags
+[PULL 22/56] tcg/optimize: Split out fold_brcond2
-For INDEX_op_bswap16_i64, use 64-bit instructions so that we can
+Reduce some code duplication by folding the NE and EQ cases.
 easily provide the extension to 64-bits.  Drop the special case,
 previously used, where the input is already zero-extended -- the
 minor code size savings is not worth the complication.
-Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
+Reviewed-by: Luis Pires <luis.pires@eldorado.org.br>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- tcg/s390/tcg-target.c.inc | 34 ++++++++++++++++++++++++++++------
+ tcg/optimize.c | 159 +++++++++++++++++++++++++------------------------
-file changed, 28 insertions(+), 6 deletions(-)
+file changed, 81 insertions(+), 78 deletions(-)
-diff --git a/tcg/s390/tcg-target.c.inc b/tcg/s390/tcg-target.c.inc
+diff --git a/tcg/optimize.c b/tcg/optimize.c
 index XXXXXXX..XXXXXXX 100644
---- a/tcg/s390/tcg-target.c.inc
+--- a/tcg/optimize.c
-+++ b/tcg/s390/tcg-target.c.inc
++++ b/tcg/optimize.c
-@@ -XXX,XX +XXX,XX @@ static inline void tcg_out_op(TCGContext *s, TCGOpcode opc,
+@@ -XXX,XX +XXX,XX @@ static bool fold_andc(OptContext *ctx, TCGOp *op)
-         tgen_ext16u(s, TCG_TYPE_I32, args[0], args[1]);
+     return fold_const2(ctx, op);
-         break;
+ }
--    OP_32_64(bswap16):
++static bool fold_brcond2(OptContext *ctx, TCGOp *op)
--        /* The TCG bswap definition requires bits 0-47 already be zero.
++{
--           Thus we don't need the G-type insns to implement bswap16_i64.  */
++    TCGCond cond = op->args[4];
--        tcg_out_insn(s, RRE, LRVR, args[0], args[1]);
++    int i = do_constant_folding_cond2(&op->args[0], &op->args[2], cond);
--        tcg_out_sh32(s, RS_SRL, args[0], TCG_REG_NONE, 16);
++    TCGArg label = op->args[5];
-+    case INDEX_op_bswap16_i32:
++    int inv = 0;
-+        a0 = args[0], a1 = args[1], a2 = args[2];
++
-+        tcg_out_insn(s, RRE, LRVR, a0, a1);
++    if (i >= 0) {
-+        if (a2 & TCG_BSWAP_OS) {
++        goto do_brcond_const;
-+            tcg_out_sh32(s, RS_SRA, a0, TCG_REG_NONE, 16);
++    }
-+        } else {
++
-+            tcg_out_sh32(s, RS_SRL, a0, TCG_REG_NONE, 16);
++    switch (cond) {
-+        }
++    case TCG_COND_LT:
-         break;
++    case TCG_COND_GE:
--    OP_32_64(bswap32):
++        /*
-+    case INDEX_op_bswap16_i64:
++         * Simplify LT/GE comparisons vs zero to a single compare
-+        a0 = args[0], a1 = args[1], a2 = args[2];
++         * vs the high word of the input.
-+        tcg_out_insn(s, RRE, LRVGR, a0, a1);
++         */
-+        if (a2 & TCG_BSWAP_OS) {
++        if (arg_is_const(op->args[2]) && arg_info(op->args[2])->val == 0 &&
-+            tcg_out_sh64(s, RSY_SRAG, a0, a0, TCG_REG_NONE, 48);
++            arg_is_const(op->args[3]) && arg_info(op->args[3])->val == 0) {
-+        } else {
++            goto do_brcond_high;
 +            tcg_out_sh64(s, RSY_SRLG, a0, a0, TCG_REG_NONE, 48);
 +        }
 +        break;
 +
-+    case INDEX_op_bswap32_i32:
++    case TCG_COND_NE:
-         tcg_out_insn(s, RRE, LRVR, args[0], args[1]);
++        inv = 1;
-         break;
++        QEMU_FALLTHROUGH;
-+    case INDEX_op_bswap32_i64:
++    case TCG_COND_EQ:
-+        a0 = args[0], a1 = args[1], a2 = args[2];
++        /*
-+        tcg_out_insn(s, RRE, LRVR, a0, a1);
++         * Simplify EQ/NE comparisons where one of the pairs
-+        if (a2 & TCG_BSWAP_OS) {
++         * can be simplified.
-+            tgen_ext32s(s, a0, a0);
++         */
-+        } else if ((a2 & (TCG_BSWAP_IZ | TCG_BSWAP_OZ)) == TCG_BSWAP_OZ) {
++        i = do_constant_folding_cond(INDEX_op_brcond_i32, op->args[0],
-+            tgen_ext32u(s, a0, a0);
++                                     op->args[2], cond);
 +        switch (i ^ inv) {
 +        case 0:
 +            goto do_brcond_const;
 +        case 1:
 +            goto do_brcond_high;
 +        }
 +
 +        i = do_constant_folding_cond(INDEX_op_brcond_i32, op->args[1],
 +                                     op->args[3], cond);
 +        switch (i ^ inv) {
 +        case 0:
 +            goto do_brcond_const;
 +        case 1:
 +            op->opc = INDEX_op_brcond_i32;
 +            op->args[1] = op->args[2];
 +            op->args[2] = cond;
 +            op->args[3] = label;
 +            break;
 +        }
 +        break;
++
-     case INDEX_op_add2_i32:
++    default:
-         if (const_args[4]) {
++        break;
 +
 +    do_brcond_high:
 +        op->opc = INDEX_op_brcond_i32;
 +        op->args[0] = op->args[1];
 +        op->args[1] = op->args[3];
 +        op->args[2] = cond;
 +        op->args[3] = label;
 +        break;
 +
 +    do_brcond_const:
 +        if (i == 0) {
 +            tcg_op_remove(ctx->tcg, op);
 +            return true;
 +        }
 +        op->opc = INDEX_op_br;
 +        op->args[0] = label;
 +        break;
 +    }
 +    return false;
 +}
 +
  static bool fold_call(OptContext *ctx, TCGOp *op)
  {
      TCGContext *s = ctx->tcg;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
              }
              break;
 -        case INDEX_op_brcond2_i32:
 -            i = do_constant_folding_cond2(&op->args[0], &op->args[2],
 -                                          op->args[4]);
 -            if (i == 0) {
 -            do_brcond_false:
 -                tcg_op_remove(s, op);
 -                continue;
 -            }
 -            if (i > 0) {
 -            do_brcond_true:
 -                op->opc = opc = INDEX_op_br;
 -                op->args[0] = op->args[5];
 -                break;
 -            }
 -            if ((op->args[4] == TCG_COND_LT || op->args[4] == TCG_COND_GE)
 -                 && arg_is_const(op->args[2])
 -                 && arg_info(op->args[2])->val == 0
 -                 && arg_is_const(op->args[3])
 -                 && arg_info(op->args[3])->val == 0) {
 -                /* Simplify LT/GE comparisons vs zero to a single compare
 -                   vs the high word of the input.  */
 -            do_brcond_high:
 -                op->opc = opc = INDEX_op_brcond_i32;
 -                op->args[0] = op->args[1];
 -                op->args[1] = op->args[3];
 -                op->args[2] = op->args[4];
 -                op->args[3] = op->args[5];
 -                break;
 -            }
 -            if (op->args[4] == TCG_COND_EQ) {
 -                /* Simplify EQ comparisons where one of the pairs
 -                   can be simplified.  */
 -                i = do_constant_folding_cond(INDEX_op_brcond_i32,
 -                                             op->args[0], op->args[2],
 -                                             TCG_COND_EQ);
 -                if (i == 0) {
 -                    goto do_brcond_false;
 -                } else if (i > 0) {
 -                    goto do_brcond_high;
 -                }
 -                i = do_constant_folding_cond(INDEX_op_brcond_i32,
 -                                             op->args[1], op->args[3],
 -                                             TCG_COND_EQ);
 -                if (i == 0) {
 -                    goto do_brcond_false;
 -                } else if (i < 0) {
 -                    break;
 -                }
 -            do_brcond_low:
 -                memset(&ctx.temps_used, 0, sizeof(ctx.temps_used));
 -                op->opc = INDEX_op_brcond_i32;
 -                op->args[1] = op->args[2];
 -                op->args[2] = op->args[4];
 -                op->args[3] = op->args[5];
 -                break;
 -            }
 -            if (op->args[4] == TCG_COND_NE) {
 -                /* Simplify NE comparisons where one of the pairs
 -                   can be simplified.  */
 -                i = do_constant_folding_cond(INDEX_op_brcond_i32,
 -                                             op->args[0], op->args[2],
 -                                             TCG_COND_NE);
 -                if (i == 0) {
 -                    goto do_brcond_high;
 -                } else if (i > 0) {
 -                    goto do_brcond_true;
 -                }
 -                i = do_constant_folding_cond(INDEX_op_brcond_i32,
 -                                             op->args[1], op->args[3],
 -                                             TCG_COND_NE);
 -                if (i == 0) {
 -                    goto do_brcond_low;
 -                } else if (i > 0) {
 -                    goto do_brcond_true;
 -                }
 -            }
 -            break;
 -
          default:
              break;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
          CASE_OP_32_64_VEC(andc):
              done = fold_andc(&ctx, op);
              break;
 +        case INDEX_op_brcond2_i32:
 +            done = fold_brcond2(&ctx, op);
 +            break;
          CASE_OP_32_64(ctpop):
              done = fold_ctpop(&ctx, op);
              break;
 --
 .25.1

-[PULL 49/63] tcg/mips: Support bswap flags in tcg_out_bswap32
+[PULL 23/56] tcg/optimize: Split out fold_brcond
-Merge tcg_out_bswap32 and tcg_out_bswap32s.
+Reviewed-by: Luis Pires <luis.pires@eldorado.org.br>
 Use the flags in the internal uses for loads and stores.
 For mips32r2 bswap32 with zero-extension, standardize on
 WSBH+ROTR+DEXT.  This is the same number of insns as the
 previous DSBH+DSHD+DSRL but fits in better with the flags check.
 Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- tcg/mips/tcg-target.c.inc | 39 ++++++++++++++++-----------------------
+ tcg/optimize.c | 33 +++++++++++++++++++--------------
-file changed, 16 insertions(+), 23 deletions(-)
+file changed, 19 insertions(+), 14 deletions(-)
-diff --git a/tcg/mips/tcg-target.c.inc b/tcg/mips/tcg-target.c.inc
+diff --git a/tcg/optimize.c b/tcg/optimize.c
 index XXXXXXX..XXXXXXX 100644
---- a/tcg/mips/tcg-target.c.inc
+--- a/tcg/optimize.c
-+++ b/tcg/mips/tcg-target.c.inc
++++ b/tcg/optimize.c
-@@ -XXX,XX +XXX,XX @@ static void tcg_out_bswap_subr(TCGContext *s, const tcg_insn_unit *sub)
+@@ -XXX,XX +XXX,XX @@ static bool fold_andc(OptContext *ctx, TCGOp *op)
-     tcg_debug_assert(ok);
+     return fold_const2(ctx, op);
  }
--static void tcg_out_bswap32(TCGContext *s, TCGReg ret, TCGReg arg)
++static bool fold_brcond(OptContext *ctx, TCGOp *op)
-+static void tcg_out_bswap32(TCGContext *s, TCGReg ret, TCGReg arg, int flags)
++{
 +    TCGCond cond = op->args[2];
 +    int i = do_constant_folding_cond(op->opc, op->args[0], op->args[1], cond);
 +
 +    if (i == 0) {
 +        tcg_op_remove(ctx->tcg, op);
 +        return true;
 +    }
 +    if (i > 0) {
 +        op->opc = INDEX_op_br;
 +        op->args[0] = op->args[3];
 +    }
 +    return false;
 +}
 +
  static bool fold_brcond2(OptContext *ctx, TCGOp *op)
  {
-     if (use_mips32r2_instructions) {
+     TCGCond cond = op->args[4];
-         tcg_out_opc_reg(s, OPC_WSBH, ret, 0, arg);
+@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
-         tcg_out_opc_sa(s, OPC_ROTR, ret, ret, 16);
+             }
-+        if (flags & TCG_BSWAP_OZ) {
+             break;
-+            tcg_out_opc_bf(s, OPC_DEXT, ret, ret, 31, 0);
-+        }
+-        CASE_OP_32_64(brcond):
-     } else {
+-            i = do_constant_folding_cond(opc, op->args[0],
--        tcg_out_bswap_subr(s, bswap32_addr);
+-                                         op->args[1], op->args[2]);
--        /* delay slot -- never omit the insn, like tcg_out_mov might.  */
+-            if (i == 0) {
--        tcg_out_opc_reg(s, OPC_OR, TCG_TMP0, arg, TCG_REG_ZERO);
+-                tcg_op_remove(s, op);
--        tcg_out_mov(s, TCG_TYPE_I32, ret, TCG_TMP3);
+-                continue;
--    }
+-            } else if (i > 0) {
--}
+-                memset(&ctx.temps_used, 0, sizeof(ctx.temps_used));
 -                op->opc = opc = INDEX_op_br;
 -                op->args[0] = op->args[3];
 -                break;
 -            }
 -            break;
 -
--static void tcg_out_bswap32u(TCGContext *s, TCGReg ret, TCGReg arg)
+         CASE_OP_32_64(movcond):
--{
+             i = do_constant_folding_cond(opc, op->args[1],
--    if (use_mips32r2_instructions) {
+                                          op->args[2], op->args[5]);
--        tcg_out_opc_reg(s, OPC_DSBH, ret, 0, arg);
+@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
--        tcg_out_opc_reg(s, OPC_DSHD, ret, 0, ret);
+         CASE_OP_32_64_VEC(andc):
--        tcg_out_dsrl(s, ret, ret, 32);
+             done = fold_andc(&ctx, op);
--    } else {
+             break;
--        tcg_out_bswap_subr(s, bswap32u_addr);
++        CASE_OP_32_64(brcond):
-+        if (flags & TCG_BSWAP_OZ) {
++            done = fold_brcond(&ctx, op);
-+            tcg_out_bswap_subr(s, bswap32u_addr);
++            break;
-+        } else {
+         case INDEX_op_brcond2_i32:
-+            tcg_out_bswap_subr(s, bswap32_addr);
+             done = fold_brcond2(&ctx, op);
-+        }
+             break;
          /* delay slot -- never omit the insn, like tcg_out_mov might.  */
          tcg_out_opc_reg(s, OPC_OR, TCG_TMP0, arg, TCG_REG_ZERO);
          tcg_out_mov(s, TCG_TYPE_I32, ret, TCG_TMP3);
@@ -XXX,XX +XXX,XX @@ static void tcg_out_qemu_ld_direct(TCGContext *s, TCGReg lo, TCGReg hi,
          if (TCG_TARGET_REG_BITS == 64 && is_64) {
              if (use_mips32r2_instructions) {
                  tcg_out_opc_imm(s, OPC_LWU, lo, base, 0);
 -                tcg_out_bswap32u(s, lo, lo);
 +                tcg_out_bswap32(s, lo, lo, TCG_BSWAP_IZ | TCG_BSWAP_OZ);
              } else {
                  tcg_out_bswap_subr(s, bswap32u_addr);
                  /* delay slot */
@@ -XXX,XX +XXX,XX @@ static void tcg_out_qemu_ld_direct(TCGContext *s, TCGReg lo, TCGReg hi,
      case MO_SL | MO_BSWAP:
          if (use_mips32r2_instructions) {
              tcg_out_opc_imm(s, OPC_LW, lo, base, 0);
 -            tcg_out_bswap32(s, lo, lo);
 +            tcg_out_bswap32(s, lo, lo, 0);
          } else {
              tcg_out_bswap_subr(s, bswap32_addr);
              /* delay slot */
@@ -XXX,XX +XXX,XX @@ static void tcg_out_qemu_st_direct(TCGContext *s, TCGReg lo, TCGReg hi,
          break;
      case MO_32 | MO_BSWAP:
 -        tcg_out_bswap32(s, TCG_TMP3, lo);
 +        tcg_out_bswap32(s, TCG_TMP3, lo, 0);
          lo = TCG_TMP3;
          /* FALLTHRU */
      case MO_32:
@@ -XXX,XX +XXX,XX @@ static void tcg_out_qemu_st_direct(TCGContext *s, TCGReg lo, TCGReg hi,
              tcg_out_opc_imm(s, OPC_SW, TCG_TMP0, base, 0);
              tcg_out_opc_imm(s, OPC_SW, TCG_TMP1, base, 4);
          } else {
 -            tcg_out_bswap32(s, TCG_TMP3, MIPS_BE ? lo : hi);
 +            tcg_out_bswap32(s, TCG_TMP3, MIPS_BE ? lo : hi, 0);
              tcg_out_opc_imm(s, OPC_SW, TCG_TMP3, base, 0);
 -            tcg_out_bswap32(s, TCG_TMP3, MIPS_BE ? hi : lo);
 +            tcg_out_bswap32(s, TCG_TMP3, MIPS_BE ? hi : lo, 0);
              tcg_out_opc_imm(s, OPC_SW, TCG_TMP3, base, 4);
          }
          break;
@@ -XXX,XX +XXX,XX @@ static inline void tcg_out_op(TCGContext *s, TCGOpcode opc,
          tcg_out_bswap16(s, a0, a1, a2);
          break;
      case INDEX_op_bswap32_i32:
 -        tcg_out_bswap32(s, a0, a1);
 +        tcg_out_bswap32(s, a0, a1, 0);
          break;
      case INDEX_op_bswap32_i64:
 -        tcg_out_bswap32u(s, a0, a1);
 +        tcg_out_bswap32(s, a0, a1, a2);
          break;
      case INDEX_op_bswap64_i64:
          tcg_out_bswap64(s, a0, a1);
 --
 .25.1

-[PULL 43/63] tcg/ppc: Split out tcg_out_bswap32
+[PULL 24/56] tcg/optimize: Split out fold_setcond
-Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
+Reviewed-by: Luis Pires <luis.pires@eldorado.org.br>
 Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- tcg/ppc/tcg-target.c.inc | 38 ++++++++++++++++++++++----------------
+ tcg/optimize.c | 23 ++++++++++++++---------
-file changed, 22 insertions(+), 16 deletions(-)
+file changed, 14 insertions(+), 9 deletions(-)
-diff --git a/tcg/ppc/tcg-target.c.inc b/tcg/ppc/tcg-target.c.inc
+diff --git a/tcg/optimize.c b/tcg/optimize.c
 index XXXXXXX..XXXXXXX 100644
---- a/tcg/ppc/tcg-target.c.inc
+--- a/tcg/optimize.c
-+++ b/tcg/ppc/tcg-target.c.inc
++++ b/tcg/optimize.c
-@@ -XXX,XX +XXX,XX @@ static void tcg_out_bswap16(TCGContext *s, TCGReg dst, TCGReg src)
+@@ -XXX,XX +XXX,XX @@ static bool fold_remainder(OptContext *ctx, TCGOp *op)
-     tcg_out_mov(s, TCG_TYPE_REG, dst, tmp);
+     return fold_const2(ctx, op);
  }
-+static void tcg_out_bswap32(TCGContext *s, TCGReg dst, TCGReg src)
++static bool fold_setcond(OptContext *ctx, TCGOp *op)
 +{
-+    TCGReg tmp = dst == src ? TCG_REG_R0 : dst;
++    TCGCond cond = op->args[3];
 +    int i = do_constant_folding_cond(op->opc, op->args[1], op->args[2], cond);
 +
-+    /*
++    if (i >= 0) {
-+     * Stolen from gcc's builtin_bswap32.
++        return tcg_opt_gen_movi(ctx, op, op->args[0], i);
-+     * In the following,
++    }
-+     *   dep(a, b, m) -> (a & ~m) | (b & m)
++    return false;
 +     *
 +     * Begin with:                              src = xxxxabcd
 +     */
 +    /* tmp = rol32(src, 8) & 0xffffffff             = 0000bcda */
 +    tcg_out_rlw(s, RLWINM, tmp, src, 8, 0, 31);
 +    /* tmp = dep(tmp, rol32(src, 24), 0xff000000)   = 0000dcda */
 +    tcg_out_rlw(s, RLWIMI, tmp, src, 24, 0, 7);
 +    /* tmp = dep(tmp, rol32(src, 24), 0x0000ff00)   = 0000dcba */
 +    tcg_out_rlw(s, RLWIMI, tmp, src, 24, 16, 23);
 +
 +    tcg_out_mov(s, TCG_TYPE_REG, dst, tmp);
 +}
 +
- /* Emit a move into ret of arg, if it can be done in one insn.  */
+ static bool fold_setcond2(OptContext *ctx, TCGOp *op)
  static bool tcg_out_movi_one(TCGContext *s, TCGReg ret, tcg_target_long arg)
  {
-@@ -XXX,XX +XXX,XX @@ static void tcg_out_op(TCGContext *s, TCGOpcode opc,
+     TCGCond cond = op->args[5];
-     case INDEX_op_bswap16_i64:
+@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
-         tcg_out_bswap16(s, args[0], args[1]);
+             }
-         break;
+             break;
 -        CASE_OP_32_64(setcond):
 -            i = do_constant_folding_cond(opc, op->args[1],
 -                                         op->args[2], op->args[3]);
 -            if (i >= 0) {
 -                tcg_opt_gen_movi(&ctx, op, op->args[0], i);
 -                continue;
 -            }
 -            break;
 -
-     case INDEX_op_bswap32_i32:
+         CASE_OP_32_64(movcond):
-     case INDEX_op_bswap32_i64:
+             i = do_constant_folding_cond(opc, op->args[1],
--        /* Stolen from gcc's builtin_bswap32 */
+                                          op->args[2], op->args[5]);
--        a1 = args[1];
+@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
--        a0 = args[0] == a1 ? TCG_REG_R0 : args[0];
+         CASE_OP_32_64(shr):
--
+             done = fold_shift(&ctx, op);
--        /* a1 = args[1] # abcd */
+             break;
--        /* a0 = rotate_left (a1, 8) # bcda */
++        CASE_OP_32_64(setcond):
--        tcg_out_rlw(s, RLWINM, a0, a1, 8, 0, 31);
++            done = fold_setcond(&ctx, op);
--        /* a0 = (a0 & ~0xff000000) | ((a1 r<< 24) & 0xff000000) # dcda */
++            break;
--        tcg_out_rlw(s, RLWIMI, a0, a1, 24, 0, 7);
+         case INDEX_op_setcond2_i32:
--        /* a0 = (a0 & ~0x0000ff00) | ((a1 r<< 24) & 0x0000ff00) # dcba */
+             done = fold_setcond2(&ctx, op);
--        tcg_out_rlw(s, RLWIMI, a0, a1, 24, 16, 23);
+             break;
 -
 -        if (a0 == TCG_REG_R0) {
 -            tcg_out_mov(s, TCG_TYPE_REG, args[0], a0);
 -        }
 +        tcg_out_bswap32(s, args[0], args[1]);
          break;
      case INDEX_op_bswap64_i64:
 --
 .25.1

-[PULL 42/63] tcg/ppc: Split out tcg_out_bswap16
+[PULL 25/56] tcg/optimize: Split out fold_mulu2_i32
-With the use of a suitable temporary, we can use the same
+Reviewed-by: Luis Pires <luis.pires@eldorado.org.br>
-algorithm when src overlaps dst.  The result is the same
+Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
 number of instructions either way.
 Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- tcg/ppc/tcg-target.c.inc | 34 +++++++++++++++++++---------------
+ tcg/optimize.c | 37 +++++++++++++++++++++----------------
-file changed, 19 insertions(+), 15 deletions(-)
+file changed, 21 insertions(+), 16 deletions(-)
-diff --git a/tcg/ppc/tcg-target.c.inc b/tcg/ppc/tcg-target.c.inc
+diff --git a/tcg/optimize.c b/tcg/optimize.c
 index XXXXXXX..XXXXXXX 100644
---- a/tcg/ppc/tcg-target.c.inc
+--- a/tcg/optimize.c
-+++ b/tcg/ppc/tcg-target.c.inc
++++ b/tcg/optimize.c
-@@ -XXX,XX +XXX,XX @@ static inline void tcg_out_sari64(TCGContext *s, TCGReg dst, TCGReg src, int c)
+@@ -XXX,XX +XXX,XX @@ static bool fold_mul_highpart(OptContext *ctx, TCGOp *op)
-     tcg_out32(s, SRADI | RA(dst) | RS(src) | SH(c & 0x1f) | ((c >> 4) & 2));
+     return fold_const2(ctx, op);
  }
-+static void tcg_out_bswap16(TCGContext *s, TCGReg dst, TCGReg src)
++static bool fold_mulu2_i32(OptContext *ctx, TCGOp *op)
 +{
-+    TCGReg tmp = dst == src ? TCG_REG_R0 : dst;
++    if (arg_is_const(op->args[2]) && arg_is_const(op->args[3])) {
 +        uint32_t a = arg_info(op->args[2])->val;
 +        uint32_t b = arg_info(op->args[3])->val;
 +        uint64_t r = (uint64_t)a * b;
 +        TCGArg rl, rh;
 +        TCGOp *op2 = tcg_op_insert_before(ctx->tcg, op, INDEX_op_mov_i32);
 +
-+    /*
++        rl = op->args[0];
-+     * In the following,
++        rh = op->args[1];
-+     *   dep(a, b, m) -> (a & ~m) | (b & m)
++        tcg_opt_gen_movi(ctx, op, rl, (int32_t)r);
-+     *
++        tcg_opt_gen_movi(ctx, op2, rh, (int32_t)(r >> 32));
-+     * Begin with:                              src = xxxxabcd
++        return true;
-+     */
++    }
-+    /* tmp = rol32(src, 24) & 0x000000ff            = 0000000c */
++    return false;
 +    tcg_out_rlw(s, RLWINM, tmp, src, 24, 24, 31);
 +    /* tmp = dep(tmp, rol32(src, 8), 0x0000ff00)    = 000000dc */
 +    tcg_out_rlw(s, RLWIMI, tmp, src, 8, 16, 23);
 +
 +    tcg_out_mov(s, TCG_TYPE_REG, dst, tmp);
 +}
 +
- /* Emit a move into ret of arg, if it can be done in one insn.  */
+ static bool fold_nand(OptContext *ctx, TCGOp *op)
  static bool tcg_out_movi_one(TCGContext *s, TCGReg ret, tcg_target_long arg)
  {
-@@ -XXX,XX +XXX,XX @@ static void tcg_out_op(TCGContext *s, TCGOpcode opc,
+     return fold_const2(ctx, op);
+@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
-     case INDEX_op_bswap16_i32:
+             }
-     case INDEX_op_bswap16_i64:
+             break;
--        a0 = args[0], a1 = args[1];
--        /* a1 = abcd */
+-        case INDEX_op_mulu2_i32:
--        if (a0 != a1) {
+-            if (arg_is_const(op->args[2]) && arg_is_const(op->args[3])) {
--            /* a0 = (a1 r<< 24) & 0xff # 000c */
+-                uint32_t a = arg_info(op->args[2])->val;
--            tcg_out_rlw(s, RLWINM, a0, a1, 24, 24, 31);
+-                uint32_t b = arg_info(op->args[3])->val;
--            /* a0 = (a0 & ~0xff00) | (a1 r<< 8) & 0xff00 # 00dc */
+-                uint64_t r = (uint64_t)a * b;
--            tcg_out_rlw(s, RLWIMI, a0, a1, 8, 16, 23);
+-                TCGArg rl, rh;
--        } else {
+-                TCGOp *op2 = tcg_op_insert_before(s, op, INDEX_op_mov_i32);
--            /* r0 = (a1 r<< 8) & 0xff00 # 00d0 */
+-
--            tcg_out_rlw(s, RLWINM, TCG_REG_R0, a1, 8, 16, 23);
+-                rl = op->args[0];
--            /* a0 = (a1 r<< 24) & 0xff # 000c */
+-                rh = op->args[1];
--            tcg_out_rlw(s, RLWINM, a0, a1, 24, 24, 31);
+-                tcg_opt_gen_movi(&ctx, op, rl, (int32_t)r);
--            /* a0 = a0 | r0 # 00dc */
+-                tcg_opt_gen_movi(&ctx, op2, rh, (int32_t)(r >> 32));
--            tcg_out32(s, OR | SAB(TCG_REG_R0, a0, a0));
+-                continue;
--        }
+-            }
-+        tcg_out_bswap16(s, args[0], args[1]);
+-            break;
-         break;
+-
+         default:
-     case INDEX_op_bswap32_i32:
+             break;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
          CASE_OP_32_64(muluh):
              done = fold_mul_highpart(&ctx, op);
              break;
 +        case INDEX_op_mulu2_i32:
 +            done = fold_mulu2_i32(&ctx, op);
 +            break;
          CASE_OP_32_64(nand):
              done = fold_nand(&ctx, op);
              break;
 --
 .25.1

-[PULL 17/63] target/cris: Fix use_goto_tb
+[PULL 26/56] tcg/optimize: Split out fold_addsub2_i32
-Do not skip the page check for user-only -- mmap/mprotect can
+Add two additional helpers, fold_add2_i32 and fold_sub2_i32
-still change page mappings.  Only check dc->base.pc_first, not
+which will not be simple wrappers forever.
 dc->ppc -- the start page is the only one that's relevant.
-Reviewed-by: Edgar E. Iglesias <edgar.iglesias@xilinx.com>
+Reviewed-by: Luis Pires <luis.pires@eldorado.org.br>
-Tested-by: Edgar E. Iglesias <edgar.iglesias@xilinx.com>
+Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- target/cris/translate.c | 9 ++-------
+ tcg/optimize.c | 70 +++++++++++++++++++++++++++++++-------------------
-file changed, 2 insertions(+), 7 deletions(-)
+file changed, 44 insertions(+), 26 deletions(-)
-diff --git a/target/cris/translate.c b/target/cris/translate.c
+diff --git a/tcg/optimize.c b/tcg/optimize.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/cris/translate.c
+--- a/tcg/optimize.c
-+++ b/target/cris/translate.c
++++ b/tcg/optimize.c
-@@ -XXX,XX +XXX,XX @@ static void t_gen_cc_jmp(TCGv pc_true, TCGv pc_false)
+@@ -XXX,XX +XXX,XX @@ static bool fold_add(OptContext *ctx, TCGOp *op)
-     gen_set_label(l1);
+     return fold_const2(ctx, op);
  }
--static inline bool use_goto_tb(DisasContext *dc, target_ulong dest)
++static bool fold_addsub2_i32(OptContext *ctx, TCGOp *op, bool add)
-+static bool use_goto_tb(DisasContext *dc, target_ulong dest)
++{
 +    if (arg_is_const(op->args[2]) && arg_is_const(op->args[3]) &&
 +        arg_is_const(op->args[4]) && arg_is_const(op->args[5])) {
 +        uint32_t al = arg_info(op->args[2])->val;
 +        uint32_t ah = arg_info(op->args[3])->val;
 +        uint32_t bl = arg_info(op->args[4])->val;
 +        uint32_t bh = arg_info(op->args[5])->val;
 +        uint64_t a = ((uint64_t)ah << 32) | al;
 +        uint64_t b = ((uint64_t)bh << 32) | bl;
 +        TCGArg rl, rh;
 +        TCGOp *op2 = tcg_op_insert_before(ctx->tcg, op, INDEX_op_mov_i32);
 +
 +        if (add) {
 +            a += b;
 +        } else {
 +            a -= b;
 +        }
 +
 +        rl = op->args[0];
 +        rh = op->args[1];
 +        tcg_opt_gen_movi(ctx, op, rl, (int32_t)a);
 +        tcg_opt_gen_movi(ctx, op2, rh, (int32_t)(a >> 32));
 +        return true;
 +    }
 +    return false;
 +}
 +
 +static bool fold_add2_i32(OptContext *ctx, TCGOp *op)
 +{
 +    return fold_addsub2_i32(ctx, op, true);
 +}
 +
  static bool fold_and(OptContext *ctx, TCGOp *op)
  {
--#ifndef CONFIG_USER_ONLY
+     return fold_const2(ctx, op);
--    return (dc->base.pc_first & TARGET_PAGE_MASK) == (dest & TARGET_PAGE_MASK) ||
+@@ -XXX,XX +XXX,XX @@ static bool fold_sub(OptContext *ctx, TCGOp *op)
--           (dc->ppc & TARGET_PAGE_MASK) == (dest & TARGET_PAGE_MASK);
+     return fold_const2(ctx, op);
 -#else
 -    return true;
 -#endif
 +    return ((dest ^ dc->base.pc_first) & TARGET_PAGE_MASK) == 0;
  }
- static void gen_goto_tb(DisasContext *dc, int n, target_ulong dest)
++static bool fold_sub2_i32(OptContext *ctx, TCGOp *op)
 +{
 +    return fold_addsub2_i32(ctx, op, false);
 +}
 +
  static bool fold_xor(OptContext *ctx, TCGOp *op)
  {
      return fold_const2(ctx, op);
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
              }
              break;
 -        case INDEX_op_add2_i32:
 -        case INDEX_op_sub2_i32:
 -            if (arg_is_const(op->args[2]) && arg_is_const(op->args[3])
 -                && arg_is_const(op->args[4]) && arg_is_const(op->args[5])) {
 -                uint32_t al = arg_info(op->args[2])->val;
 -                uint32_t ah = arg_info(op->args[3])->val;
 -                uint32_t bl = arg_info(op->args[4])->val;
 -                uint32_t bh = arg_info(op->args[5])->val;
 -                uint64_t a = ((uint64_t)ah << 32) | al;
 -                uint64_t b = ((uint64_t)bh << 32) | bl;
 -                TCGArg rl, rh;
 -                TCGOp *op2 = tcg_op_insert_before(s, op, INDEX_op_mov_i32);
 -
 -                if (opc == INDEX_op_add2_i32) {
 -                    a += b;
 -                } else {
 -                    a -= b;
 -                }
 -
 -                rl = op->args[0];
 -                rh = op->args[1];
 -                tcg_opt_gen_movi(&ctx, op, rl, (int32_t)a);
 -                tcg_opt_gen_movi(&ctx, op2, rh, (int32_t)(a >> 32));
 -                continue;
 -            }
 -            break;
          default:
              break;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
          CASE_OP_32_64_VEC(add):
              done = fold_add(&ctx, op);
              break;
 +        case INDEX_op_add2_i32:
 +            done = fold_add2_i32(&ctx, op);
 +            break;
          CASE_OP_32_64_VEC(and):
              done = fold_and(&ctx, op);
              break;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
          CASE_OP_32_64_VEC(sub):
              done = fold_sub(&ctx, op);
              break;
 +        case INDEX_op_sub2_i32:
 +            done = fold_sub2_i32(&ctx, op);
 +            break;
          CASE_OP_32_64_VEC(xor):
              done = fold_xor(&ctx, op);
              break;
 --
 .25.1

-[PULL 62/63] tcg/aarch64: Unset TCG_TARGET_HAS_MEMORY_BSWAP
+[PULL 27/56] tcg/optimize: Split out fold_movcond
-The memory bswap support in the aarch64 backend merely dates from
+Reviewed-by: Luis Pires <luis.pires@eldorado.org.br>
-a time when it was required.  There is nothing special about the
+Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
 backend support that could not have been provided by the middle-end
 even prior to the introduction of the bswap flags.
 Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- tcg/aarch64/tcg-target.h     |  2 +-
+ tcg/optimize.c | 56 ++++++++++++++++++++++++++++----------------------
- tcg/aarch64/tcg-target.c.inc | 87 +++++++++++++-----------------------
+file changed, 31 insertions(+), 25 deletions(-)
 files changed, 32 insertions(+), 57 deletions(-)
-diff --git a/tcg/aarch64/tcg-target.h b/tcg/aarch64/tcg-target.h
+diff --git a/tcg/optimize.c b/tcg/optimize.c
 index XXXXXXX..XXXXXXX 100644
---- a/tcg/aarch64/tcg-target.h
+--- a/tcg/optimize.c
-+++ b/tcg/aarch64/tcg-target.h
++++ b/tcg/optimize.c
-@@ -XXX,XX +XXX,XX @@ typedef enum {
+@@ -XXX,XX +XXX,XX @@ static bool fold_mb(OptContext *ctx, TCGOp *op)
  #define TCG_TARGET_HAS_cmpsel_vec       0
  #define TCG_TARGET_DEFAULT_MO (0)
 -#define TCG_TARGET_HAS_MEMORY_BSWAP     1
 +#define TCG_TARGET_HAS_MEMORY_BSWAP     0
  void tb_target_set_jmp_target(uintptr_t, uintptr_t, uintptr_t, uintptr_t);
 diff --git a/tcg/aarch64/tcg-target.c.inc b/tcg/aarch64/tcg-target.c.inc
 index XXXXXXX..XXXXXXX 100644
 --- a/tcg/aarch64/tcg-target.c.inc
 +++ b/tcg/aarch64/tcg-target.c.inc
@@ -XXX,XX +XXX,XX @@ static void tcg_out_cltz(TCGContext *s, TCGType ext, TCGReg d,
  /* helper signature: helper_ret_ld_mmu(CPUState *env, target_ulong addr,
   *                                     TCGMemOpIdx oi, uintptr_t ra)
   */
 -static void * const qemu_ld_helpers[16] = {
 -    [MO_UB]   = helper_ret_ldub_mmu,
 -    [MO_LEUW] = helper_le_lduw_mmu,
 -    [MO_LEUL] = helper_le_ldul_mmu,
 -    [MO_LEQ]  = helper_le_ldq_mmu,
 -    [MO_BEUW] = helper_be_lduw_mmu,
 -    [MO_BEUL] = helper_be_ldul_mmu,
 -    [MO_BEQ]  = helper_be_ldq_mmu,
 +static void * const qemu_ld_helpers[4] = {
 +    [MO_8]  = helper_ret_ldub_mmu,
 +#ifdef HOST_WORDS_BIGENDIAN
 +    [MO_16] = helper_be_lduw_mmu,
 +    [MO_32] = helper_be_ldul_mmu,
 +    [MO_64] = helper_be_ldq_mmu,
 +#else
 +    [MO_16] = helper_le_lduw_mmu,
 +    [MO_32] = helper_le_ldul_mmu,
 +    [MO_64] = helper_le_ldq_mmu,
 +#endif
  };
  /* helper signature: helper_ret_st_mmu(CPUState *env, target_ulong addr,
   *                                     uintxx_t val, TCGMemOpIdx oi,
   *                                     uintptr_t ra)
   */
 -static void * const qemu_st_helpers[16] = {
 -    [MO_UB]   = helper_ret_stb_mmu,
 -    [MO_LEUW] = helper_le_stw_mmu,
 -    [MO_LEUL] = helper_le_stl_mmu,
 -    [MO_LEQ]  = helper_le_stq_mmu,
 -    [MO_BEUW] = helper_be_stw_mmu,
 -    [MO_BEUL] = helper_be_stl_mmu,
 -    [MO_BEQ]  = helper_be_stq_mmu,
 +static void * const qemu_st_helpers[4] = {
 +    [MO_8]  = helper_ret_stb_mmu,
 +#ifdef HOST_WORDS_BIGENDIAN
 +    [MO_16] = helper_be_stw_mmu,
 +    [MO_32] = helper_be_stl_mmu,
 +    [MO_64] = helper_be_stq_mmu,
 +#else
 +    [MO_16] = helper_le_stw_mmu,
 +    [MO_32] = helper_le_stl_mmu,
 +    [MO_64] = helper_le_stq_mmu,
 +#endif
  };
  static inline void tcg_out_adr(TCGContext *s, TCGReg rd, const void *target)
@@ -XXX,XX +XXX,XX @@ static bool tcg_out_qemu_ld_slow_path(TCGContext *s, TCGLabelQemuLdst *lb)
      tcg_out_mov(s, TARGET_LONG_BITS == 64, TCG_REG_X1, lb->addrlo_reg);
      tcg_out_movi(s, TCG_TYPE_I32, TCG_REG_X2, oi);
      tcg_out_adr(s, TCG_REG_X3, lb->raddr);
 -    tcg_out_call(s, qemu_ld_helpers[opc & (MO_BSWAP | MO_SIZE)]);
 +    tcg_out_call(s, qemu_ld_helpers[opc & MO_SIZE]);
      if (opc & MO_SIGN) {
          tcg_out_sxt(s, lb->type, size, lb->datalo_reg, TCG_REG_X0);
      } else {
@@ -XXX,XX +XXX,XX @@ static bool tcg_out_qemu_st_slow_path(TCGContext *s, TCGLabelQemuLdst *lb)
      tcg_out_mov(s, size == MO_64, TCG_REG_X2, lb->datalo_reg);
      tcg_out_movi(s, TCG_TYPE_I32, TCG_REG_X3, oi);
      tcg_out_adr(s, TCG_REG_X4, lb->raddr);
 -    tcg_out_call(s, qemu_st_helpers[opc & (MO_BSWAP | MO_SIZE)]);
 +    tcg_out_call(s, qemu_st_helpers[opc & MO_SIZE]);
      tcg_out_goto(s, lb->raddr);
      return true;
  }
-@@ -XXX,XX +XXX,XX @@ static void tcg_out_qemu_ld_direct(TCGContext *s, MemOp memop, TCGType ext,
-                                    TCGReg data_r, TCGReg addr_r,
++static bool fold_movcond(OptContext *ctx, TCGOp *op)
-                                    TCGType otype, TCGReg off_r)
++{
 +    TCGOpcode opc = op->opc;
 +    TCGCond cond = op->args[5];
 +    int i = do_constant_folding_cond(opc, op->args[1], op->args[2], cond);
 +
 +    if (i >= 0) {
 +        return tcg_opt_gen_mov(ctx, op, op->args[0], op->args[4 - i]);
 +    }
 +
 +    if (arg_is_const(op->args[3]) && arg_is_const(op->args[4])) {
 +        uint64_t tv = arg_info(op->args[3])->val;
 +        uint64_t fv = arg_info(op->args[4])->val;
 +
 +        opc = (opc == INDEX_op_movcond_i32
 +               ? INDEX_op_setcond_i32 : INDEX_op_setcond_i64);
 +
 +        if (tv == 1 && fv == 0) {
 +            op->opc = opc;
 +            op->args[3] = cond;
 +        } else if (fv == 1 && tv == 0) {
 +            op->opc = opc;
 +            op->args[3] = tcg_invert_cond(cond);
 +        }
 +    }
 +    return false;
 +}
 +
  static bool fold_mul(OptContext *ctx, TCGOp *op)
  {
--    const MemOp bswap = memop & MO_BSWAP;
+     return fold_const2(ctx, op);
-+    /* Byte swapping is left to middle-end expansion. */
+@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
-+    tcg_debug_assert((memop & MO_BSWAP) == 0);
+             }
+             break;
-     switch (memop & MO_SSIZE) {
-     case MO_UB:
+-        CASE_OP_32_64(movcond):
-@@ -XXX,XX +XXX,XX @@ static void tcg_out_qemu_ld_direct(TCGContext *s, MemOp memop, TCGType ext,
+-            i = do_constant_folding_cond(opc, op->args[1],
-         break;
+-                                         op->args[2], op->args[5]);
-     case MO_UW:
+-            if (i >= 0) {
-         tcg_out_ldst_r(s, I3312_LDRH, data_r, addr_r, otype, off_r);
+-                tcg_opt_gen_mov(&ctx, op, op->args[0], op->args[4 - i]);
--        if (bswap) {
+-                continue;
--            tcg_out_rev(s, TCG_TYPE_I32, MO_16, data_r, data_r);
+-            }
--        }
+-            if (arg_is_const(op->args[3]) && arg_is_const(op->args[4])) {
-         break;
+-                uint64_t tv = arg_info(op->args[3])->val;
-     case MO_SW:
+-                uint64_t fv = arg_info(op->args[4])->val;
--        if (bswap) {
+-                TCGCond cond = op->args[5];
--            tcg_out_ldst_r(s, I3312_LDRH, data_r, addr_r, otype, off_r);
+-
--            tcg_out_rev(s, TCG_TYPE_I32, MO_16, data_r, data_r);
+-                if (fv == 1 && tv == 0) {
--            tcg_out_sxt(s, ext, MO_16, data_r, data_r);
+-                    cond = tcg_invert_cond(cond);
--        } else {
+-                } else if (!(tv == 1 && fv == 0)) {
--            tcg_out_ldst_r(s, (ext ? I3312_LDRSHX : I3312_LDRSHW),
+-                    break;
--                           data_r, addr_r, otype, off_r);
+-                }
--        }
+-                op->args[3] = cond;
-+        tcg_out_ldst_r(s, (ext ? I3312_LDRSHX : I3312_LDRSHW),
+-                op->opc = opc = (opc == INDEX_op_movcond_i32
-+                       data_r, addr_r, otype, off_r);
+-                                 ? INDEX_op_setcond_i32
-         break;
+-                                 : INDEX_op_setcond_i64);
-     case MO_UL:
+-            }
-         tcg_out_ldst_r(s, I3312_LDRW, data_r, addr_r, otype, off_r);
+-            break;
--        if (bswap) {
+-
--            tcg_out_rev(s, TCG_TYPE_I32, MO_32, data_r, data_r);
+-
--        }
+         default:
-         break;
+             break;
-     case MO_SL:
--        if (bswap) {
+@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
--            tcg_out_ldst_r(s, I3312_LDRW, data_r, addr_r, otype, off_r);
+         case INDEX_op_mb:
--            tcg_out_rev(s, TCG_TYPE_I32, MO_32, data_r, data_r);
+             done = fold_mb(&ctx, op);
--            tcg_out_sxt(s, TCG_TYPE_I64, MO_32, data_r, data_r);
+             break;
--        } else {
++        CASE_OP_32_64(movcond):
--            tcg_out_ldst_r(s, I3312_LDRSWX, data_r, addr_r, otype, off_r);
++            done = fold_movcond(&ctx, op);
--        }
++            break;
-+        tcg_out_ldst_r(s, I3312_LDRSWX, data_r, addr_r, otype, off_r);
+         CASE_OP_32_64(mul):
-         break;
+             done = fold_mul(&ctx, op);
-     case MO_Q:
+             break;
          tcg_out_ldst_r(s, I3312_LDRX, data_r, addr_r, otype, off_r);
 -        if (bswap) {
 -            tcg_out_rev(s, TCG_TYPE_I64, MO_64, data_r, data_r);
 -        }
          break;
      default:
          tcg_abort();
@@ -XXX,XX +XXX,XX @@ static void tcg_out_qemu_st_direct(TCGContext *s, MemOp memop,
                                     TCGReg data_r, TCGReg addr_r,
                                     TCGType otype, TCGReg off_r)
  {
 -    const MemOp bswap = memop & MO_BSWAP;
 +    /* Byte swapping is left to middle-end expansion. */
 +    tcg_debug_assert((memop & MO_BSWAP) == 0);
      switch (memop & MO_SIZE) {
      case MO_8:
          tcg_out_ldst_r(s, I3312_STRB, data_r, addr_r, otype, off_r);
          break;
      case MO_16:
 -        if (bswap && data_r != TCG_REG_XZR) {
 -            tcg_out_rev(s, TCG_TYPE_I32, MO_16, TCG_REG_TMP, data_r);
 -            data_r = TCG_REG_TMP;
 -        }
          tcg_out_ldst_r(s, I3312_STRH, data_r, addr_r, otype, off_r);
          break;
      case MO_32:
 -        if (bswap && data_r != TCG_REG_XZR) {
 -            tcg_out_rev(s, TCG_TYPE_I32, MO_32, TCG_REG_TMP, data_r);
 -            data_r = TCG_REG_TMP;
 -        }
          tcg_out_ldst_r(s, I3312_STRW, data_r, addr_r, otype, off_r);
          break;
      case MO_64:
 -        if (bswap && data_r != TCG_REG_XZR) {
 -            tcg_out_rev(s, TCG_TYPE_I64, MO_64, TCG_REG_TMP, data_r);
 -            data_r = TCG_REG_TMP;
 -        }
          tcg_out_ldst_r(s, I3312_STRX, data_r, addr_r, otype, off_r);
          break;
      default:
 --
 .25.1

-[PULL 05/63] target/nios2: Convert to TranslatorOps
+[PULL 28/56] tcg/optimize: Split out fold_extract2
-Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
+Reviewed-by: Luis Pires <luis.pires@eldorado.org.br>
 Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- target/nios2/translate.c | 128 ++++++++++++++++++++-------------------
+ tcg/optimize.c | 39 ++++++++++++++++++++++-----------------
-file changed, 65 insertions(+), 63 deletions(-)
+file changed, 22 insertions(+), 17 deletions(-)
-diff --git a/target/nios2/translate.c b/target/nios2/translate.c
+diff --git a/tcg/optimize.c b/tcg/optimize.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/nios2/translate.c
+--- a/tcg/optimize.c
-+++ b/target/nios2/translate.c
++++ b/tcg/optimize.c
-@@ -XXX,XX +XXX,XX @@ static void gen_exception(DisasContext *dc, uint32_t excp)
+@@ -XXX,XX +XXX,XX @@ static bool fold_eqv(OptContext *ctx, TCGOp *op)
      return fold_const2(ctx, op);
  }
- /* generate intermediate code for basic block 'tb'.  */
++static bool fold_extract2(OptContext *ctx, TCGOp *op)
 -void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int max_insns)
 +static void nios2_tr_init_disas_context(DisasContextBase *dcbase, CPUState *cs)
  {
 +    DisasContext *dc = container_of(dcbase, DisasContext, base);
      CPUNios2State *env = cs->env_ptr;
 -    DisasContext dc1, *dc = &dc1;
 -    int num_insns;
 -
 -    /* Initialize DC */
 -
 -    dc->base.tb = tb;
 -    dc->base.singlestep_enabled = cs->singlestep_enabled;
 -    dc->base.is_jmp = DISAS_NEXT;
 -    dc->base.pc_first = tb->pc;
 -    dc->base.pc_next = tb->pc;
 +    int page_insns;
      dc->mem_idx = cpu_mmu_index(env, false);
 -    /* Set up instruction counts */
 -    num_insns = 0;
 -    if (max_insns > 1) {
 -        int page_insns = (TARGET_PAGE_SIZE - (tb->pc & ~TARGET_PAGE_MASK)) / 4;
 -        if (max_insns > page_insns) {
 -            max_insns = page_insns;
 -        }
 -    }
 +    /* Bound the number of insns to execute to those left on the page.  */
 +    page_insns = -(dc->base.pc_first | TARGET_PAGE_MASK) / 4;
 +    dc->base.max_insns = MIN(page_insns, dc->base.max_insns);
 +}
 -    gen_tb_start(tb);
 -    do {
 -        tcg_gen_insn_start(dc->base.pc_next);
 -        num_insns++;
 +static void nios2_tr_tb_start(DisasContextBase *db, CPUState *cs)
 +{
-+}
++    if (arg_is_const(op->args[1]) && arg_is_const(op->args[2])) {
++        uint64_t v1 = arg_info(op->args[1])->val;
--        if (unlikely(cpu_breakpoint_test(cs, dc->base.pc_next, BP_ANY))) {
++        uint64_t v2 = arg_info(op->args[2])->val;
--            gen_exception(dc, EXCP_DEBUG);
++        int shr = op->args[3];
 -            /* The address covered by the breakpoint must be included in
 -               [tb->pc, tb->pc + tb->size) in order to for it to be
 -               properly cleared -- thus we increment the PC here so that
 -               the logic setting tb->size below does the right thing.  */
 -            dc->pc += 4;
 -            break;
 -        }
 +static void nios2_tr_insn_start(DisasContextBase *dcbase, CPUState *cs)
 +{
 +    tcg_gen_insn_start(dcbase->pc_next);
 +}
 -        if (num_insns == max_insns && (tb_cflags(tb) & CF_LAST_IO)) {
 -            gen_io_start();
 -        }
 +static bool nios2_tr_breakpoint_check(DisasContextBase *dcbase, CPUState *cs,
 +                                      const CPUBreakpoint *bp)
 +{
 +    DisasContext *dc = container_of(dcbase, DisasContext, base);
 -        dc->pc = dc->base.pc_next;
 -        dc->base.pc_next += 4;
 +    gen_exception(dc, EXCP_DEBUG);
 +    /*
 +     * The address covered by the breakpoint must be included in
 +     * [tb->pc, tb->pc + tb->size) in order to for it to be
 +     * properly cleared -- thus we increment the PC here so that
 +     * the logic setting tb->size below does the right thing.
 +     */
 +    dc->base.pc_next += 4;
 +    return true;
 +}
 -        /* Decode an instruction */
 -        handle_instruction(dc, env);
 +static void nios2_tr_translate_insn(DisasContextBase *dcbase, CPUState *cs)
 +{
 +    DisasContext *dc = container_of(dcbase, DisasContext, base);
 +    CPUNios2State *env = cs->env_ptr;
 -        /* Translation stops when a conditional branch is encountered.
 -         * Otherwise the subsequent code could get translated several times.
 -         * Also stop translation when a page boundary is reached.  This
 -         * ensures prefetch aborts occur at the right place.  */
 -    } while (!dc->base.is_jmp &&
 -             !tcg_op_buf_full() &&
 -             num_insns < max_insns);
 +    dc->pc = dc->base.pc_next;
 +    dc->base.pc_next += 4;
 +
-+    /* Decode an instruction */
++        if (op->opc == INDEX_op_extract2_i64) {
-+    handle_instruction(dc, env);
++            v1 >>= shr;
 +            v2 <<= 64 - shr;
 +        } else {
 +            v1 = (uint32_t)v1 >> shr;
 +            v2 = (int32_t)v2 << (32 - shr);
 +        }
 +        return tcg_opt_gen_movi(ctx, op, op->args[0], v1 | v2);
 +    }
 +    return false;
 +}
 +
-+static void nios2_tr_tb_stop(DisasContextBase *dcbase, CPUState *cs)
+ static bool fold_exts(OptContext *ctx, TCGOp *op)
-+{
+ {
-+    DisasContext *dc = container_of(dcbase, DisasContext, base);
+     return fold_const1(ctx, op);
+@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
-     /* Indicate where the next block should start */
+             }
-     switch (dc->base.is_jmp) {
+             break;
--    case DISAS_NEXT:
-+    case DISAS_TOO_MANY:
+-        CASE_OP_32_64(extract2):
-     case DISAS_UPDATE:
+-            if (arg_is_const(op->args[1]) && arg_is_const(op->args[2])) {
-         /* Save the current PC back into the CPU register */
+-                uint64_t v1 = arg_info(op->args[1])->val;
-         tcg_gen_movi_tl(cpu_R[R_PC], dc->base.pc_next);
+-                uint64_t v2 = arg_info(op->args[2])->val;
-         tcg_gen_exit_tb(NULL, 0);
+-                int shr = op->args[3];
-         break;
+-
+-                if (opc == INDEX_op_extract2_i64) {
--    default:
+-                    tmp = (v1 >> shr) | (v2 << (64 - shr));
-     case DISAS_JUMP:
+-                } else {
-         /* The jump will already have updated the PC register */
+-                    tmp = (int32_t)(((uint32_t)v1 >> shr) |
-         tcg_gen_exit_tb(NULL, 0);
+-                                    ((uint32_t)v2 << (32 - shr)));
-@@ -XXX,XX +XXX,XX @@ void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int max_insns)
+-                }
-     case DISAS_NORETURN:
+-                tcg_opt_gen_movi(&ctx, op, op->args[0], tmp);
-         /* nothing more to generate */
+-                continue;
-         break;
+-            }
-+
+-            break;
-+    default:
+-
-+        g_assert_not_reached();
+         default:
-     }
+             break;
-+}
+@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
--    /* End off the block */
+         CASE_OP_32_64(eqv):
--    gen_tb_end(tb, num_insns);
+             done = fold_eqv(&ctx, op);
-+static void nios2_tr_disas_log(const DisasContextBase *dcbase, CPUState *cpu)
+             break;
-+{
++        CASE_OP_32_64(extract2):
-+    qemu_log("IN: %s\n", lookup_symbol(dcbase->pc_first));
++            done = fold_extract2(&ctx, op);
-+    log_target_disas(cpu, dcbase->pc_first, dcbase->tb->size);
++            break;
-+}
+         CASE_OP_32_64(ext8s):
+         CASE_OP_32_64(ext16s):
--    /* Mark instruction starts for the final generated instruction */
+         case INDEX_op_ext32s_i64:
 -    tb->size = dc->base.pc_next - dc->base.pc_first;
 -    tb->icount = num_insns;
 +static const TranslatorOps nios2_tr_ops = {
 +    .init_disas_context = nios2_tr_init_disas_context,
 +    .tb_start           = nios2_tr_tb_start,
 +    .insn_start         = nios2_tr_insn_start,
 +    .breakpoint_check   = nios2_tr_breakpoint_check,
 +    .translate_insn     = nios2_tr_translate_insn,
 +    .tb_stop            = nios2_tr_tb_stop,
 +    .disas_log          = nios2_tr_disas_log,
 +};
 -#ifdef DEBUG_DISAS
 -    if (qemu_loglevel_mask(CPU_LOG_TB_IN_ASM)
 -        && qemu_log_in_addr_range(dc->base.pc_first)) {
 -        FILE *logfile = qemu_log_lock();
 -        qemu_log("IN: %s\n", lookup_symbol(dc->base.pc_first));
 -        log_target_disas(cs, tb->pc, tb->size);
 -        qemu_log("\n");
 -        qemu_log_unlock(logfile);
 -    }
 -#endif
 +void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int max_insns)
 +{
 +    DisasContext dc;
 +    translator_loop(&nios2_tr_ops, &dc.base, cs, tb, max_insns);
  }
  void nios2_cpu_dump_state(CPUState *cs, FILE *f, int flags)
 --
 .25.1

-[PULL 30/63] tcg: Add tcg_gen_vec_add{sub}8_i32
+[PULL 29/56] tcg/optimize: Split out fold_extract, fold_sextract
-From: LIU Zhiwei <zhiwei_liu@c-sky.com>
+Reviewed-by: Luis Pires <luis.pires@eldorado.org.br>
+Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
 Implement tcg_gen_vec_add{sub}8_tl by adding corresponging i32 OP.
 Signed-off-by: LIU Zhiwei <zhiwei_liu@c-sky.com>
 Message-Id: <20210624105023.3852-3-zhiwei_liu@c-sky.com>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- include/tcg/tcg-op-gvec.h |  6 ++++++
+ tcg/optimize.c | 48 ++++++++++++++++++++++++++++++------------------
- tcg/tcg-op-gvec.c         | 38 ++++++++++++++++++++++++++++++++++++++
+file changed, 30 insertions(+), 18 deletions(-)
 files changed, 44 insertions(+)
-diff --git a/include/tcg/tcg-op-gvec.h b/include/tcg/tcg-op-gvec.h
+diff --git a/tcg/optimize.c b/tcg/optimize.c
 index XXXXXXX..XXXXXXX 100644
---- a/include/tcg/tcg-op-gvec.h
+--- a/tcg/optimize.c
-+++ b/include/tcg/tcg-op-gvec.h
++++ b/tcg/optimize.c
-@@ -XXX,XX +XXX,XX @@ void tcg_gen_vec_rotl8i_i64(TCGv_i64 d, TCGv_i64 a, int64_t c);
+@@ -XXX,XX +XXX,XX @@ static bool fold_eqv(OptContext *ctx, TCGOp *op)
- void tcg_gen_vec_rotl16i_i64(TCGv_i64 d, TCGv_i64 a, int64_t c);
+     return fold_const2(ctx, op);
  /* 32-bit vector operations. */
 +void tcg_gen_vec_add8_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b);
  void tcg_gen_vec_add16_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b);
 +void tcg_gen_vec_sub8_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b);
  void tcg_gen_vec_sub16_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b);
  #if TARGET_LONG_BITS == 64
 +#define tcg_gen_vec_add8_tl  tcg_gen_vec_add8_i64
 +#define tcg_gen_vec_sub8_tl  tcg_gen_vec_sub8_i64
  #define tcg_gen_vec_add16_tl tcg_gen_vec_add16_i64
  #define tcg_gen_vec_sub16_tl tcg_gen_vec_sub16_i64
  #else
 +#define tcg_gen_vec_add8_tl  tcg_gen_vec_add8_i32
 +#define tcg_gen_vec_sub8_tl  tcg_gen_vec_sub8_i32
  #define tcg_gen_vec_add16_tl tcg_gen_vec_add16_i32
  #define tcg_gen_vec_sub16_tl tcg_gen_vec_sub16_i32
  #endif
 diff --git a/tcg/tcg-op-gvec.c b/tcg/tcg-op-gvec.c
 index XXXXXXX..XXXXXXX 100644
 --- a/tcg/tcg-op-gvec.c
 +++ b/tcg/tcg-op-gvec.c
@@ -XXX,XX +XXX,XX @@ void tcg_gen_vec_add8_i64(TCGv_i64 d, TCGv_i64 a, TCGv_i64 b)
      gen_addv_mask(d, a, b, m);
  }
-+void tcg_gen_vec_add8_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b)
++static bool fold_extract(OptContext *ctx, TCGOp *op)
 +{
-+    TCGv_i32 m = tcg_constant_i32((int32_t)dup_const(MO_8, 0x80));
++    if (arg_is_const(op->args[1])) {
-+    TCGv_i32 t1 = tcg_temp_new_i32();
++        uint64_t t;
 +    TCGv_i32 t2 = tcg_temp_new_i32();
 +    TCGv_i32 t3 = tcg_temp_new_i32();
 +
-+    tcg_gen_andc_i32(t1, a, m);
++        t = arg_info(op->args[1])->val;
-+    tcg_gen_andc_i32(t2, b, m);
++        t = extract64(t, op->args[2], op->args[3]);
-+    tcg_gen_xor_i32(t3, a, b);
++        return tcg_opt_gen_movi(ctx, op, op->args[0], t);
-+    tcg_gen_add_i32(d, t1, t2);
++    }
-+    tcg_gen_and_i32(t3, t3, m);
++    return false;
 +    tcg_gen_xor_i32(d, d, t3);
 +
 +    tcg_temp_free_i32(t1);
 +    tcg_temp_free_i32(t2);
 +    tcg_temp_free_i32(t3);
 +}
 +
- void tcg_gen_vec_add16_i64(TCGv_i64 d, TCGv_i64 a, TCGv_i64 b)
+ static bool fold_extract2(OptContext *ctx, TCGOp *op)
  {
-     TCGv_i64 m = tcg_constant_i64(dup_const(MO_16, 0x8000));
+     if (arg_is_const(op->args[1]) && arg_is_const(op->args[2])) {
-@@ -XXX,XX +XXX,XX @@ void tcg_gen_vec_sub8_i64(TCGv_i64 d, TCGv_i64 a, TCGv_i64 b)
+@@ -XXX,XX +XXX,XX @@ static bool fold_setcond2(OptContext *ctx, TCGOp *op)
-     gen_subv_mask(d, a, b, m);
+     return tcg_opt_gen_movi(ctx, op, op->args[0], i);
  }
-+void tcg_gen_vec_sub8_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b)
++static bool fold_sextract(OptContext *ctx, TCGOp *op)
 +{
-+    TCGv_i32 m = tcg_constant_i32((int32_t)dup_const(MO_8, 0x80));
++    if (arg_is_const(op->args[1])) {
-+    TCGv_i32 t1 = tcg_temp_new_i32();
++        uint64_t t;
 +    TCGv_i32 t2 = tcg_temp_new_i32();
 +    TCGv_i32 t3 = tcg_temp_new_i32();
 +
-+    tcg_gen_or_i32(t1, a, m);
++        t = arg_info(op->args[1])->val;
-+    tcg_gen_andc_i32(t2, b, m);
++        t = sextract64(t, op->args[2], op->args[3]);
-+    tcg_gen_eqv_i32(t3, a, b);
++        return tcg_opt_gen_movi(ctx, op, op->args[0], t);
-+    tcg_gen_sub_i32(d, t1, t2);
++    }
-+    tcg_gen_and_i32(t3, t3, m);
++    return false;
 +    tcg_gen_xor_i32(d, d, t3);
 +
 +    tcg_temp_free_i32(t1);
 +    tcg_temp_free_i32(t2);
 +    tcg_temp_free_i32(t3);
 +}
 +
- void tcg_gen_vec_sub16_i64(TCGv_i64 d, TCGv_i64 a, TCGv_i64 b)
+ static bool fold_shift(OptContext *ctx, TCGOp *op)
  {
-     TCGv_i64 m = tcg_constant_i64(dup_const(MO_16, 0x8000));
+     return fold_const2(ctx, op);
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
              }
              break;
 -        CASE_OP_32_64(extract):
 -            if (arg_is_const(op->args[1])) {
 -                tmp = extract64(arg_info(op->args[1])->val,
 -                                op->args[2], op->args[3]);
 -                tcg_opt_gen_movi(&ctx, op, op->args[0], tmp);
 -                continue;
 -            }
 -            break;
 -
 -        CASE_OP_32_64(sextract):
 -            if (arg_is_const(op->args[1])) {
 -                tmp = sextract64(arg_info(op->args[1])->val,
 -                                 op->args[2], op->args[3]);
 -                tcg_opt_gen_movi(&ctx, op, op->args[0], tmp);
 -                continue;
 -            }
 -            break;
 -
          default:
              break;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
          CASE_OP_32_64(eqv):
              done = fold_eqv(&ctx, op);
              break;
 +        CASE_OP_32_64(extract):
 +            done = fold_extract(&ctx, op);
 +            break;
          CASE_OP_32_64(extract2):
              done = fold_extract2(&ctx, op);
              break;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
          case INDEX_op_setcond2_i32:
              done = fold_setcond2(&ctx, op);
              break;
 +        CASE_OP_32_64(sextract):
 +            done = fold_sextract(&ctx, op);
 +            break;
          CASE_OP_32_64_VEC(sub):
              done = fold_sub(&ctx, op);
              break;
 --
 .25.1

-[PULL 26/63] target/cris: Improve JMP_INDIRECT
+[PULL 30/56] tcg/optimize: Split out fold_deposit
-Use movcond instead of brcond to set env_pc.
+Reviewed-by: Luis Pires <luis.pires@eldorado.org.br>
-Discard the btarget and btaken variables to improve
+Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
 register allocation and avoid unnecessary writeback.
 Reviewed-by: Edgar E. Iglesias <edgar.iglesias@xilinx.com>
 Tested-by: Edgar E. Iglesias <edgar.iglesias@xilinx.com>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- target/cris/translate.c | 22 ++++++++++------------
+ tcg/optimize.c | 25 +++++++++++++++----------
-file changed, 10 insertions(+), 12 deletions(-)
+file changed, 15 insertions(+), 10 deletions(-)
-diff --git a/target/cris/translate.c b/target/cris/translate.c
+diff --git a/tcg/optimize.c b/tcg/optimize.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/cris/translate.c
+--- a/tcg/optimize.c
-+++ b/target/cris/translate.c
++++ b/tcg/optimize.c
-@@ -XXX,XX +XXX,XX @@ static void t_gen_swapr(TCGv d, TCGv s)
+@@ -XXX,XX +XXX,XX @@ static bool fold_ctpop(OptContext *ctx, TCGOp *op)
-     tcg_temp_free(org_s);
+     return fold_const1(ctx, op);
  }
--static void t_gen_cc_jmp(TCGv pc_true, TCGv pc_false)
++static bool fold_deposit(OptContext *ctx, TCGOp *op)
--{
++{
--    TCGLabel *l1 = gen_new_label();
++    if (arg_is_const(op->args[1]) && arg_is_const(op->args[2])) {
 +        uint64_t t1 = arg_info(op->args[1])->val;
 +        uint64_t t2 = arg_info(op->args[2])->val;
 +
 +        t1 = deposit64(t1, op->args[3], op->args[4], t2);
 +        return tcg_opt_gen_movi(ctx, op, op->args[0], t1);
 +    }
 +    return false;
 +}
 +
  static bool fold_divide(OptContext *ctx, TCGOp *op)
  {
      return fold_const2(ctx, op);
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
              }
              break;
 -        CASE_OP_32_64(deposit):
 -            if (arg_is_const(op->args[1]) && arg_is_const(op->args[2])) {
 -                tmp = deposit64(arg_info(op->args[1])->val,
 -                                op->args[3], op->args[4],
 -                                arg_info(op->args[2])->val);
 -                tcg_opt_gen_movi(&ctx, op, op->args[0], tmp);
 -                continue;
 -            }
 -            break;
 -
--    /* Conditional jmp.  */
+         default:
 -    tcg_gen_mov_tl(env_pc, pc_false);
 -    tcg_gen_brcondi_tl(TCG_COND_EQ, env_btaken, 0, l1);
 -    tcg_gen_mov_tl(env_pc, pc_true);
 -    gen_set_label(l1);
 -}
 -
  static bool use_goto_tb(DisasContext *dc, target_ulong dest)
  {
      return ((dest ^ dc->base.pc_first) & TARGET_PAGE_MASK) == 0;
@@ -XXX,XX +XXX,XX @@ static void cris_tr_tb_stop(DisasContextBase *dcbase, CPUState *cpu)
              /* fall through */
          case JMP_INDIRECT:
 -            t_gen_cc_jmp(env_btarget, tcg_constant_tl(npc));
 +            tcg_gen_movcond_tl(TCG_COND_NE, env_pc,
 +                               env_btaken, tcg_constant_tl(0),
 +                               env_btarget, tcg_constant_tl(npc));
              is_jmp = dc->cpustate_changed ? DISAS_UPDATE : DISAS_JUMP;
 +
 +            /*
 +             * We have now consumed btaken and btarget.  Hint to the
 +             * tcg compiler that the writeback to env may be dropped.
 +             */
 +            tcg_gen_discard_tl(env_btaken);
 +            tcg_gen_discard_tl(env_btarget);
              break;
-         default:
+@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
          CASE_OP_32_64(ctpop):
              done = fold_ctpop(&ctx, op);
              break;
 +        CASE_OP_32_64(deposit):
 +            done = fold_deposit(&ctx, op);
 +            break;
          CASE_OP_32_64(div):
          CASE_OP_32_64(divu):
              done = fold_divide(&ctx, op);
 --
 .25.1

-[PULL 14/63] target/cris: Remove DISAS_SWI
+[PULL 31/56] tcg/optimize: Split out fold_count_zeros
-This value is unused.
+Reviewed-by: Luis Pires <luis.pires@eldorado.org.br>
+Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
 Reviewed-by: Edgar E. Iglesias <edgar.iglesias@xilinx.com>
 Tested-by: Edgar E. Iglesias <edgar.iglesias@xilinx.com>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- target/cris/translate.c | 2 --
+ tcg/optimize.c | 32 ++++++++++++++++++--------------
-file changed, 2 deletions(-)
+file changed, 18 insertions(+), 14 deletions(-)
-diff --git a/target/cris/translate.c b/target/cris/translate.c
+diff --git a/tcg/optimize.c b/tcg/optimize.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/cris/translate.c
+--- a/tcg/optimize.c
-+++ b/target/cris/translate.c
++++ b/tcg/optimize.c
-@@ -XXX,XX +XXX,XX @@
+@@ -XXX,XX +XXX,XX @@ static bool fold_call(OptContext *ctx, TCGOp *op)
- #define DISAS_JUMP    DISAS_TARGET_0 /* only pc was modified dynamically */
+     return true;
- #define DISAS_UPDATE  DISAS_TARGET_1 /* cpu state was modified dynamically */
+ }
- #define DISAS_TB_JUMP DISAS_TARGET_2 /* only pc was modified statically */
--#define DISAS_SWI     DISAS_TARGET_3
++static bool fold_count_zeros(OptContext *ctx, TCGOp *op)
++{
- /* Used by the decoder.  */
++    if (arg_is_const(op->args[1])) {
- #define EXTRACT_FIELD(src, start, end) \
++        uint64_t t = arg_info(op->args[1])->val;
-@@ -XXX,XX +XXX,XX @@ void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int max_insns)
++
-                    to find the next TB */
++        if (t != 0) {
-             tcg_gen_exit_tb(NULL, 0);
++            t = do_constant_folding(op->opc, t, 0);
 +            return tcg_opt_gen_movi(ctx, op, op->args[0], t);
 +        }
 +        return tcg_opt_gen_mov(ctx, op, op->args[0], op->args[2]);
 +    }
 +    return false;
 +}
 +
  static bool fold_ctpop(OptContext *ctx, TCGOp *op)
  {
      return fold_const1(ctx, op);
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
              }
              break;
--        case DISAS_SWI:
-         case DISAS_TB_JUMP:
+-        CASE_OP_32_64(clz):
-             /* nothing more to generate */
+-        CASE_OP_32_64(ctz):
 -            if (arg_is_const(op->args[1])) {
 -                TCGArg v = arg_info(op->args[1])->val;
 -                if (v != 0) {
 -                    tmp = do_constant_folding(opc, v, 0);
 -                    tcg_opt_gen_movi(&ctx, op, op->args[0], tmp);
 -                } else {
 -                    tcg_opt_gen_mov(&ctx, op, op->args[0], op->args[2]);
 -                }
 -                continue;
 -            }
 -            break;
 -
          default:
              break;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
          case INDEX_op_brcond2_i32:
              done = fold_brcond2(&ctx, op);
              break;
 +        CASE_OP_32_64(clz):
 +        CASE_OP_32_64(ctz):
 +            done = fold_count_zeros(&ctx, op);
 +            break;
          CASE_OP_32_64(ctpop):
              done = fold_ctpop(&ctx, op);
              break;
 --
 .25.1

-[PULL 51/63] tcg: Handle new bswap flags during optimize
+[PULL 32/56] tcg/optimize: Split out fold_bswap
-Notice when the input is known to be zero-extended and force
+Reviewed-by: Luis Pires <luis.pires@eldorado.org.br>
-the TCG_BSWAP_IZ flag on.  Honor the TCG_BSWAP_OS bit during
+Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
 constant folding.  Propagate the input to the output mask.
 Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- tcg/optimize.c | 56 +++++++++++++++++++++++++++++++++++++++++++++-----
+ tcg/optimize.c | 27 ++++++++++++++++-----------
-file changed, 51 insertions(+), 5 deletions(-)
+file changed, 16 insertions(+), 11 deletions(-)
 diff --git a/tcg/optimize.c b/tcg/optimize.c
 index XXXXXXX..XXXXXXX 100644
 --- a/tcg/optimize.c
 +++ b/tcg/optimize.c
-@@ -XXX,XX +XXX,XX @@ static uint64_t do_constant_folding_2(TCGOpcode op, uint64_t x, uint64_t y)
+@@ -XXX,XX +XXX,XX @@ static bool fold_brcond2(OptContext *ctx, TCGOp *op)
-         return (uint16_t)x;
+     return false;
+ }
-     CASE_OP_32_64(bswap16):
--        return bswap16(x);
++static bool fold_bswap(OptContext *ctx, TCGOp *op)
-+        x = bswap16(x);
++{
-+        return y & TCG_BSWAP_OS ? (int16_t)x : x;
++    if (arg_is_const(op->args[1])) {
++        uint64_t t = arg_info(op->args[1])->val;
-     CASE_OP_32_64(bswap32):
++
--        return bswap32(x);
++        t = do_constant_folding(op->opc, t, op->args[2]);
-+        x = bswap32(x);
++        return tcg_opt_gen_movi(ctx, op, op->args[0], t);
-+        return y & TCG_BSWAP_OS ? (int32_t)x : x;
++    }
++    return false;
-     case INDEX_op_bswap64_i64:
++}
-         return bswap64(x);
++
  static bool fold_call(OptContext *ctx, TCGOp *op)
  {
      TCGContext *s = ctx->tcg;
 @@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
              }
              break;
-+        CASE_OP_32_64(bswap16):
-+            mask = arg_info(op->args[1])->mask;
-+            if (mask <= 0xffff) {
-+                op->args[2] |= TCG_BSWAP_IZ;
-+            }
-+            mask = bswap16(mask);
-+            switch (op->args[2] & (TCG_BSWAP_OZ | TCG_BSWAP_OS)) {
-+            case TCG_BSWAP_OZ:
-+                break;
-+            case TCG_BSWAP_OS:
-+                mask = (int16_t)mask;
-+                break;
-+            default: /* undefined high bits */
-+                mask |= MAKE_64BIT_MASK(16, 48);
-+                break;
-+            }
-+            break;
-+
-+        case INDEX_op_bswap32_i64:
-+            mask = arg_info(op->args[1])->mask;
-+            if (mask <= 0xffffffffu) {
-+                op->args[2] |= TCG_BSWAP_IZ;
-+            }
-+            mask = bswap32(mask);
-+            switch (op->args[2] & (TCG_BSWAP_OZ | TCG_BSWAP_OS)) {
-+            case TCG_BSWAP_OZ:
-+                break;
-+            case TCG_BSWAP_OS:
-+                mask = (int32_t)mask;
-+                break;
-+            default: /* undefined high bits */
-+                mask |= MAKE_64BIT_MASK(32, 32);
-+                break;
-+            }
-+            break;
-+
-         default:
-             break;
-         }
-@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
-         CASE_OP_32_64(ext16s):
-         CASE_OP_32_64(ext16u):
-         CASE_OP_32_64(ctpop):
 -        CASE_OP_32_64(bswap16):
 -        CASE_OP_32_64(bswap32):
 -        case INDEX_op_bswap64_i64:
-         case INDEX_op_ext32s_i64:
+-            if (arg_is_const(op->args[1])) {
-         case INDEX_op_ext32u_i64:
+-                tmp = do_constant_folding(opc, arg_info(op->args[1])->val,
-         case INDEX_op_ext_i32_i64:
+-                                          op->args[2]);
 -                tcg_opt_gen_movi(&ctx, op, op->args[0], tmp);
 -                continue;
 -            }
 -            break;
 -
          default:
              break;
 @@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
-             }
+         case INDEX_op_brcond2_i32:
-             goto do_default;
+             done = fold_brcond2(&ctx, op);
+             break;
 +        CASE_OP_32_64(bswap16):
 +        CASE_OP_32_64(bswap32):
 +        case INDEX_op_bswap64_i64:
-+            if (arg_is_const(op->args[1])) {
++            done = fold_bswap(&ctx, op);
-+                tmp = do_constant_folding(opc, arg_info(op->args[1])->val,
++            break;
-+                                          op->args[2]);
+         CASE_OP_32_64(clz):
-+                tcg_opt_gen_movi(s, &temps_used, op, op->args[0], tmp);
+         CASE_OP_32_64(ctz):
-+                break;
+             done = fold_count_zeros(&ctx, op);
 +            }
 +            goto do_default;
 +
          CASE_OP_32_64(add):
          CASE_OP_32_64(sub):
          CASE_OP_32_64(mul):
 --
 .25.1

-[PULL 46/63] tcg/ppc: Use power10 byte-reverse instructions
+[PULL 33/56] tcg/optimize: Split out fold_dup, fold_dup2
-Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
+Reviewed-by: Luis Pires <luis.pires@eldorado.org.br>
 Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- tcg/ppc/tcg-target.c.inc | 34 ++++++++++++++++++++++++++++++++++
+ tcg/optimize.c | 53 +++++++++++++++++++++++++++++---------------------
-file changed, 34 insertions(+)
+file changed, 31 insertions(+), 22 deletions(-)
-diff --git a/tcg/ppc/tcg-target.c.inc b/tcg/ppc/tcg-target.c.inc
+diff --git a/tcg/optimize.c b/tcg/optimize.c
 index XXXXXXX..XXXXXXX 100644
---- a/tcg/ppc/tcg-target.c.inc
+--- a/tcg/optimize.c
-+++ b/tcg/ppc/tcg-target.c.inc
++++ b/tcg/optimize.c
-@@ -XXX,XX +XXX,XX @@ static bool tcg_target_const_match(int64_t val, TCGType type, int ct)
+@@ -XXX,XX +XXX,XX @@ static bool fold_divide(OptContext *ctx, TCGOp *op)
- #define SRAD   XO31(794)
+     return fold_const2(ctx, op);
  #define SRADI  XO31(413<<1)
 +#define BRH    XO31(219)
 +#define BRW    XO31(155)
 +#define BRD    XO31(187)
 +
  #define TW     XO31( 4)
  #define TRAP   (TW | TO(31))
@@ -XXX,XX +XXX,XX @@ static inline void tcg_out_ext16s(TCGContext *s, TCGReg dst, TCGReg src)
      tcg_out32(s, EXTSH | RA(dst) | RS(src));
  }
-+static inline void tcg_out_ext16u(TCGContext *s, TCGReg dst, TCGReg src)
++static bool fold_dup(OptContext *ctx, TCGOp *op)
 +{
-+    tcg_out32(s, ANDI | SAI(src, dst, 0xffff));
++    if (arg_is_const(op->args[1])) {
 +        uint64_t t = arg_info(op->args[1])->val;
 +        t = dup_const(TCGOP_VECE(op), t);
 +        return tcg_opt_gen_movi(ctx, op, op->args[0], t);
 +    }
 +    return false;
 +}
 +
- static inline void tcg_out_ext32s(TCGContext *s, TCGReg dst, TCGReg src)
++static bool fold_dup2(OptContext *ctx, TCGOp *op)
- {
++{
-     tcg_out32(s, EXTSW | RA(dst) | RS(src));
++    if (arg_is_const(op->args[1]) && arg_is_const(op->args[2])) {
-@@ -XXX,XX +XXX,XX @@ static void tcg_out_bswap16(TCGContext *s, TCGReg dst, TCGReg src, int flags)
++        uint64_t t = deposit64(arg_info(op->args[1])->val, 32, 32,
- {
++                               arg_info(op->args[2])->val);
-     TCGReg tmp = dst == src ? TCG_REG_R0 : dst;
++        return tcg_opt_gen_movi(ctx, op, op->args[0], t);
 +    if (have_isa_3_10) {
 +        tcg_out32(s, BRH | RA(dst) | RS(src));
 +        if (flags & TCG_BSWAP_OS) {
 +            tcg_out_ext16s(s, dst, dst);
 +        } else if ((flags & (TCG_BSWAP_IZ | TCG_BSWAP_OZ)) == TCG_BSWAP_OZ) {
 +            tcg_out_ext16u(s, dst, dst);
 +        }
 +        return;
 +    }
 +
-     /*
++    if (args_are_copies(op->args[1], op->args[2])) {
-      * In the following,
++        op->opc = INDEX_op_dup_vec;
-      *   dep(a, b, m) -> (a & ~m) | (b & m)
++        TCGOP_VECE(op) = MO_32;
-@@ -XXX,XX +XXX,XX @@ static void tcg_out_bswap32(TCGContext *s, TCGReg dst, TCGReg src, int flags)
++    }
 +    return false;
 +}
 +
  static bool fold_eqv(OptContext *ctx, TCGOp *op)
  {
-     TCGReg tmp = dst == src ? TCG_REG_R0 : dst;
+     return fold_const2(ctx, op);
+@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
-+    if (have_isa_3_10) {
+             done = tcg_opt_gen_mov(&ctx, op, op->args[0], op->args[1]);
-+        tcg_out32(s, BRW | RA(dst) | RS(src));
+             break;
-+        if (flags & TCG_BSWAP_OS) {
-+            tcg_out_ext32s(s, dst, dst);
+-        case INDEX_op_dup_vec:
-+        } else if ((flags & (TCG_BSWAP_IZ | TCG_BSWAP_OZ)) == TCG_BSWAP_OZ) {
+-            if (arg_is_const(op->args[1])) {
-+            tcg_out_ext32u(s, dst, dst);
+-                tmp = arg_info(op->args[1])->val;
-+        }
+-                tmp = dup_const(TCGOP_VECE(op), tmp);
-+        return;
+-                tcg_opt_gen_movi(&ctx, op, op->args[0], tmp);
-+    }
+-                continue;
-+
+-            }
-     /*
+-            break;
-      * Stolen from gcc's builtin_bswap32.
+-
-      * In the following,
+-        case INDEX_op_dup2_vec:
-@@ -XXX,XX +XXX,XX @@ static void tcg_out_bswap64(TCGContext *s, TCGReg dst, TCGReg src)
+-            assert(TCG_TARGET_REG_BITS == 32);
-     TCGReg t0 = dst == src ? TCG_REG_R0 : dst;
+-            if (arg_is_const(op->args[1]) && arg_is_const(op->args[2])) {
-     TCGReg t1 = dst == src ? dst : TCG_REG_R0;
+-                tcg_opt_gen_movi(&ctx, op, op->args[0],
+-                                 deposit64(arg_info(op->args[1])->val, 32, 32,
-+    if (have_isa_3_10) {
+-                                           arg_info(op->args[2])->val));
-+        tcg_out32(s, BRD | RA(dst) | RS(src));
+-                continue;
-+        return;
+-            } else if (args_are_copies(op->args[1], op->args[2])) {
-+    }
+-                op->opc = INDEX_op_dup_vec;
-+
+-                TCGOP_VECE(op) = MO_32;
-     /*
+-            }
-      * In the following,
+-            break;
-      *   dep(a, b, m) -> (a & ~m) | (b & m)
+-
          default:
              break;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
          CASE_OP_32_64(divu):
              done = fold_divide(&ctx, op);
              break;
 +        case INDEX_op_dup_vec:
 +            done = fold_dup(&ctx, op);
 +            break;
 +        case INDEX_op_dup2_vec:
 +            done = fold_dup2(&ctx, op);
 +            break;
          CASE_OP_32_64(eqv):
              done = fold_eqv(&ctx, op);
              break;
 --
 .25.1

-[PULL 21/63] target/cris: Fold unhandled X_FLAG changes into cpustate_changed
+[PULL 34/56] tcg/optimize: Split out fold_mov
-We really do this already, by including them into the same test.
+This is the final entry in the main switch that was in a
-This just hoists the expression up a bit.
+different form.  After this, we have the option to convert
 the switch into a function dispatch table.
-Reviewed-by: Edgar E. Iglesias <edgar.iglesias@xilinx.com>
+Reviewed-by: Luis Pires <luis.pires@eldorado.org.br>
-Tested-by: Edgar E. Iglesias <edgar.iglesias@xilinx.com>
+Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- target/cris/translate.c | 13 ++++++-------
+ tcg/optimize.c | 27 ++++++++++++++-------------
-file changed, 6 insertions(+), 7 deletions(-)
+file changed, 14 insertions(+), 13 deletions(-)
-diff --git a/target/cris/translate.c b/target/cris/translate.c
+diff --git a/tcg/optimize.c b/tcg/optimize.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/cris/translate.c
+--- a/tcg/optimize.c
-+++ b/target/cris/translate.c
++++ b/tcg/optimize.c
-@@ -XXX,XX +XXX,XX @@ static void cris_tr_translate_insn(DisasContextBase *dcbase, CPUState *cs)
+@@ -XXX,XX +XXX,XX @@ static bool fold_mb(OptContext *ctx, TCGOp *op)
-         cris_clear_x_flag(dc);
+     return true;
-     }
+ }
-+    /* Fold unhandled changes to X_FLAG into cpustate_changed. */
++static bool fold_mov(OptContext *ctx, TCGOp *op)
-+    dc->cpustate_changed |= !dc->flagx_known;
++{
-+    dc->cpustate_changed |= dc->flags_x != (dc->base.tb->flags & X_FLAG);
++    return tcg_opt_gen_mov(ctx, op, op->args[0], op->args[1]);
 +}
 +
-     /*
+ static bool fold_movcond(OptContext *ctx, TCGOp *op)
-      * Check for delayed branches here.  If we do it before
+ {
-      * actually generating any host code, the simulator will just
+     TCGOpcode opc = op->opc;
-@@ -XXX,XX +XXX,XX @@ static void cris_tr_translate_insn(DisasContextBase *dcbase, CPUState *cs)
+@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
-             t_gen_movi_env_TN(dslot, 0);
+             break;
          }
--        if (dc->cpustate_changed
+-        /* Propagate constants through copy operations and do constant
--            || !dc->flagx_known
+-           folding.  Constants will be substituted to arguments by register
--            || (dc->flags_x != (dc->base.tb->flags & X_FLAG))) {
+-           allocator where needed and possible.  Also detect copies. */
-+        if (dc->cpustate_changed) {
++        /*
-             cris_store_direct_jmp(dc);
++         * Process each opcode.
 +         * Sorted alphabetically by opcode as much as possible.
 +         */
          switch (opc) {
 -        CASE_OP_32_64_VEC(mov):
 -            done = tcg_opt_gen_mov(&ctx, op, op->args[0], op->args[1]);
 -            break;
 -
 -        default:
 -            break;
 -
 -        /* ---------------------------------------------------------- */
 -        /* Sorted alphabetically by opcode as much as possible. */
 -
          CASE_OP_32_64_VEC(add):
              done = fold_add(&ctx, op);
              break;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
          case INDEX_op_mb:
              done = fold_mb(&ctx, op);
              break;
 +        CASE_OP_32_64_VEC(mov):
 +            done = fold_mov(&ctx, op);
 +            break;
          CASE_OP_32_64(movcond):
              done = fold_movcond(&ctx, op);
              break;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
          CASE_OP_32_64_VEC(xor):
              done = fold_xor(&ctx, op);
              break;
 +        default:
 +            break;
          }
-@@ -XXX,XX +XXX,XX @@ static void cris_tr_translate_insn(DisasContextBase *dcbase, CPUState *cs)
+         if (!done) {
      }
      /* Force an update if the per-tb cpu state has changed.  */
 -    if (dc->base.is_jmp == DISAS_NEXT
 -        && (dc->cpustate_changed
 -            || !dc->flagx_known
 -            || (dc->flags_x != (dc->base.tb->flags & X_FLAG)))) {
 +    if (dc->base.is_jmp == DISAS_NEXT && dc->cpustate_changed) {
          dc->base.is_jmp = DISAS_UPDATE;
          tcg_gen_movi_tl(env_pc, dc->pc);
      }
 --
 .25.1

-[PULL 01/63] target/nios2: Replace DISAS_TB_JUMP with DISAS_NORETURN
+[PULL 35/56] tcg/optimize: Split out fold_xx_to_i
-The only semantic of DISAS_TB_JUMP is that we've done goto_tb,
+Pull the "op r, a, a => movi r, 0" optimization into a function,
-which is the same as DISAS_NORETURN -- we've exited the tb.
+and use it in the outer opcode fold functions.
-Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
+Reviewed-by: Luis Pires <luis.pires@eldorado.org.br>
 Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- target/nios2/translate.c | 8 +++-----
+ tcg/optimize.c | 41 ++++++++++++++++++++++++-----------------
-file changed, 3 insertions(+), 5 deletions(-)
+file changed, 24 insertions(+), 17 deletions(-)
-diff --git a/target/nios2/translate.c b/target/nios2/translate.c
+diff --git a/tcg/optimize.c b/tcg/optimize.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/nios2/translate.c
+--- a/tcg/optimize.c
-+++ b/target/nios2/translate.c
++++ b/tcg/optimize.c
-@@ -XXX,XX +XXX,XX @@
+@@ -XXX,XX +XXX,XX @@ static bool fold_const2(OptContext *ctx, TCGOp *op)
- /* is_jmp field values */
+     return false;
- #define DISAS_JUMP    DISAS_TARGET_0 /* only pc was modified dynamically */
+ }
- #define DISAS_UPDATE  DISAS_TARGET_1 /* cpu state was modified dynamically */
--#define DISAS_TB_JUMP DISAS_TARGET_2 /* only pc was modified statically */
++/* If the binary operation has both arguments equal, fold to @i. */
++static bool fold_xx_to_i(OptContext *ctx, TCGOp *op, uint64_t i)
- #define INSTRUCTION_FLG(func, flags) { (func), (flags) }
++{
- #define INSTRUCTION(func)                  \
++    if (args_are_copies(op->args[1], op->args[2])) {
-@@ -XXX,XX +XXX,XX @@ static void jmpi(DisasContext *dc, uint32_t code, uint32_t flags)
++        return tcg_opt_gen_movi(ctx, op, op->args[0], i);
 +    }
 +    return false;
 +}
 +
  /*
   * These outermost fold_<op> functions are sorted alphabetically.
   */
@@ -XXX,XX +XXX,XX @@ static bool fold_and(OptContext *ctx, TCGOp *op)
  static bool fold_andc(OptContext *ctx, TCGOp *op)
  {
-     J_TYPE(instr, code);
+-    return fold_const2(ctx, op);
-     gen_goto_tb(dc, 0, (dc->pc & 0xF0000000) | (instr.imm26 << 2));
++    if (fold_const2(ctx, op) ||
--    dc->is_jmp = DISAS_TB_JUMP;
++        fold_xx_to_i(ctx, op, 0)) {
-+    dc->is_jmp = DISAS_NORETURN;
++        return true;
 +    }
 +    return false;
  }
- static void call(DisasContext *dc, uint32_t code, uint32_t flags)
+ static bool fold_brcond(OptContext *ctx, TCGOp *op)
-@@ -XXX,XX +XXX,XX @@ static void br(DisasContext *dc, uint32_t code, uint32_t flags)
+@@ -XXX,XX +XXX,XX @@ static bool fold_shift(OptContext *ctx, TCGOp *op)
-     I_TYPE(instr, code);
+ static bool fold_sub(OptContext *ctx, TCGOp *op)
-     gen_goto_tb(dc, 0, dc->pc + 4 + (instr.imm16.s & -4));
+ {
--    dc->is_jmp = DISAS_TB_JUMP;
+-    return fold_const2(ctx, op);
-+    dc->is_jmp = DISAS_NORETURN;
++    if (fold_const2(ctx, op) ||
 +        fold_xx_to_i(ctx, op, 0)) {
 +        return true;
 +    }
 +    return false;
  }
- static void gen_bxx(DisasContext *dc, uint32_t code, uint32_t flags)
+ static bool fold_sub2_i32(OptContext *ctx, TCGOp *op)
-@@ -XXX,XX +XXX,XX @@ static void gen_bxx(DisasContext *dc, uint32_t code, uint32_t flags)
+@@ -XXX,XX +XXX,XX @@ static bool fold_sub2_i32(OptContext *ctx, TCGOp *op)
-     gen_goto_tb(dc, 0, dc->pc + 4);
-     gen_set_label(l1);
+ static bool fold_xor(OptContext *ctx, TCGOp *op)
-     gen_goto_tb(dc, 1, dc->pc + 4 + (instr.imm16.s & -4));
+ {
--    dc->is_jmp = DISAS_TB_JUMP;
+-    return fold_const2(ctx, op);
-+    dc->is_jmp = DISAS_NORETURN;
++    if (fold_const2(ctx, op) ||
 +        fold_xx_to_i(ctx, op, 0)) {
 +        return true;
 +    }
 +    return false;
  }
- /* Comparison instructions */
+ /* Propagate constants and copies, fold constant expressions. */
-@@ -XXX,XX +XXX,XX @@ void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int max_insns)
+@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
-         break;
+             break;
+         }
-     case DISAS_NORETURN:
--    case DISAS_TB_JUMP:
+-        /* Simplify expression for "op r, a, a => movi r, 0" cases */
-         /* nothing more to generate */
+-        switch (opc) {
-         break;
+-        CASE_OP_32_64_VEC(andc):
-     }
+-        CASE_OP_32_64_VEC(sub):
 -        CASE_OP_32_64_VEC(xor):
 -            if (args_are_copies(op->args[1], op->args[2])) {
 -                tcg_opt_gen_movi(&ctx, op, op->args[0], 0);
 -                continue;
 -            }
 -            break;
 -        default:
 -            break;
 -        }
 -
          /*
           * Process each opcode.
           * Sorted alphabetically by opcode as much as possible.
 --
 .25.1

-[PULL 02/63] target/nios2: Use global cpu_env
+Deleted patch
-We do not need to copy this into DisasContext.
-Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
-Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
----
- target/nios2/translate.c | 10 ++++------
-file changed, 4 insertions(+), 6 deletions(-)
-diff --git a/target/nios2/translate.c b/target/nios2/translate.c
-index XXXXXXX..XXXXXXX 100644
---- a/target/nios2/translate.c
-+++ b/target/nios2/translate.c
-@@ -XXX,XX +XXX,XX @@
-     }
- typedef struct DisasContext {
--    TCGv_ptr          cpu_env;
-     TCGv             *cpu_R;
-     TCGv_i32          zero;
-     int               is_jmp;
-@@ -XXX,XX +XXX,XX @@ static void t_gen_helper_raise_exception(DisasContext *dc,
-     TCGv_i32 tmp = tcg_const_i32(index);
-     tcg_gen_movi_tl(dc->cpu_R[R_PC], dc->pc);
--    gen_helper_raise_exception(dc->cpu_env, tmp);
-+    gen_helper_raise_exception(cpu_env, tmp);
-     tcg_temp_free_i32(tmp);
-     dc->is_jmp = DISAS_NORETURN;
- }
-@@ -XXX,XX +XXX,XX @@ static void rdctl(DisasContext *dc, uint32_t code, uint32_t flags)
-             tcg_gen_mov_tl(dc->cpu_R[instr.c], dc->cpu_R[instr.imm5 + CR_BASE]);
- #ifdef DEBUG_MMU
-             TCGv_i32 tmp = tcg_const_i32(instr.imm5 + CR_BASE);
--            gen_helper_mmu_read_debug(dc->cpu_R[instr.c], dc->cpu_env, tmp);
-+            gen_helper_mmu_read_debug(dc->cpu_R[instr.c], cpu_env, tmp);
-             tcg_temp_free_i32(tmp);
- #endif
-         }
-@@ -XXX,XX +XXX,XX @@ static void wrctl(DisasContext *dc, uint32_t code, uint32_t flags)
-     {
- #if !defined(CONFIG_USER_ONLY)
-         TCGv_i32 tmp = tcg_const_i32(instr.imm5 + CR_BASE);
--        gen_helper_mmu_write(dc->cpu_env, tmp, load_gpr(dc, instr.a));
-+        gen_helper_mmu_write(cpu_env, tmp, load_gpr(dc, instr.a));
-         tcg_temp_free_i32(tmp);
- #endif
-         break;
-@@ -XXX,XX +XXX,XX @@ static void wrctl(DisasContext *dc, uint32_t code, uint32_t flags)
-         if (tb_cflags(dc->tb) & CF_USE_ICOUNT) {
-             gen_io_start();
-         }
--        gen_helper_check_interrupts(dc->cpu_env);
-+        gen_helper_check_interrupts(cpu_env);
-         dc->is_jmp = DISAS_UPDATE;
-     }
- #endif
-@@ -XXX,XX +XXX,XX @@ void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int max_insns)
-     int num_insns;
-     /* Initialize DC */
--    dc->cpu_env = cpu_env;
-     dc->cpu_R   = cpu_R;
-     dc->is_jmp  = DISAS_NEXT;
-     dc->pc      = tb->pc;
---
-.25.1

-[PULL 45/63] tcg/ppc: Support bswap flags
+[PULL 36/56] tcg/optimize: Split out fold_xx_to_x
-For INDEX_op_bswap32_i32, pass 0 for flags: input not zero-extended,
+Pull the "op r, a, a => mov r, a" optimization into a function,
-output does not need extension within the host 64-bit register.
+and use it in the outer opcode fold functions.
+Reviewed-by: Luis Pires <luis.pires@eldorado.org.br>
 Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- tcg/ppc/tcg-target.c.inc | 22 ++++++++++++++++------
+ tcg/optimize.c | 39 ++++++++++++++++++++++++---------------
-file changed, 16 insertions(+), 6 deletions(-)
+file changed, 24 insertions(+), 15 deletions(-)
-diff --git a/tcg/ppc/tcg-target.c.inc b/tcg/ppc/tcg-target.c.inc
+diff --git a/tcg/optimize.c b/tcg/optimize.c
 index XXXXXXX..XXXXXXX 100644
---- a/tcg/ppc/tcg-target.c.inc
+--- a/tcg/optimize.c
-+++ b/tcg/ppc/tcg-target.c.inc
++++ b/tcg/optimize.c
-@@ -XXX,XX +XXX,XX @@ static inline void tcg_out_sari64(TCGContext *s, TCGReg dst, TCGReg src, int c)
+@@ -XXX,XX +XXX,XX @@ static bool fold_xx_to_i(OptContext *ctx, TCGOp *op, uint64_t i)
-     tcg_out32(s, SRADI | RA(dst) | RS(src) | SH(c & 0x1f) | ((c >> 4) & 2));
+     return false;
  }
--static void tcg_out_bswap16(TCGContext *s, TCGReg dst, TCGReg src)
++/* If the binary operation has both arguments equal, fold to identity. */
-+static void tcg_out_bswap16(TCGContext *s, TCGReg dst, TCGReg src, int flags)
++static bool fold_xx_to_x(OptContext *ctx, TCGOp *op)
 +{
 +    if (args_are_copies(op->args[1], op->args[2])) {
 +        return tcg_opt_gen_mov(ctx, op, op->args[0], op->args[1]);
 +    }
 +    return false;
 +}
 +
  /*
   * These outermost fold_<op> functions are sorted alphabetically.
 + *
 + * The ordering of the transformations should be:
 + *   1) those that produce a constant
 + *   2) those that produce a copy
 + *   3) those that produce information about the result value.
   */
  static bool fold_add(OptContext *ctx, TCGOp *op)
@@ -XXX,XX +XXX,XX @@ static bool fold_add2_i32(OptContext *ctx, TCGOp *op)
  static bool fold_and(OptContext *ctx, TCGOp *op)
  {
-     TCGReg tmp = dst == src ? TCG_REG_R0 : dst;
+-    return fold_const2(ctx, op);
++    if (fold_const2(ctx, op) ||
-@@ -XXX,XX +XXX,XX @@ static void tcg_out_bswap16(TCGContext *s, TCGReg dst, TCGReg src)
++        fold_xx_to_x(ctx, op)) {
-     /* tmp = dep(tmp, rol32(src, 8), 0x0000ff00)    = 000000dc */
++        return true;
      tcg_out_rlw(s, RLWIMI, tmp, src, 8, 16, 23);
 -    tcg_out_mov(s, TCG_TYPE_REG, dst, tmp);
 +    if (flags & TCG_BSWAP_OS) {
 +        tcg_out_ext16s(s, dst, tmp);
 +    } else {
 +        tcg_out_mov(s, TCG_TYPE_REG, dst, tmp);
 +    }
++    return false;
  }
--static void tcg_out_bswap32(TCGContext *s, TCGReg dst, TCGReg src)
+ static bool fold_andc(OptContext *ctx, TCGOp *op)
-+static void tcg_out_bswap32(TCGContext *s, TCGReg dst, TCGReg src, int flags)
+@@ -XXX,XX +XXX,XX @@ static bool fold_not(OptContext *ctx, TCGOp *op)
  static bool fold_or(OptContext *ctx, TCGOp *op)
  {
-     TCGReg tmp = dst == src ? TCG_REG_R0 : dst;
+-    return fold_const2(ctx, op);
++    if (fold_const2(ctx, op) ||
-@@ -XXX,XX +XXX,XX @@ static void tcg_out_bswap32(TCGContext *s, TCGReg dst, TCGReg src)
++        fold_xx_to_x(ctx, op)) {
-     /* tmp = dep(tmp, rol32(src, 24), 0x0000ff00)   = 0000dcba */
++        return true;
      tcg_out_rlw(s, RLWIMI, tmp, src, 24, 16, 23);
 -    tcg_out_mov(s, TCG_TYPE_REG, dst, tmp);
 +    if (flags & TCG_BSWAP_OS) {
 +        tcg_out_ext32s(s, dst, tmp);
 +    } else {
 +        tcg_out_mov(s, TCG_TYPE_REG, dst, tmp);
 +    }
++    return false;
  }
- static void tcg_out_bswap64(TCGContext *s, TCGReg dst, TCGReg src)
+ static bool fold_orc(OptContext *ctx, TCGOp *op)
-@@ -XXX,XX +XXX,XX @@ static void tcg_out_op(TCGContext *s, TCGOpcode opc,
+@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
+             break;
-     case INDEX_op_bswap16_i32:
+         }
-     case INDEX_op_bswap16_i64:
--        tcg_out_bswap16(s, args[0], args[1]);
+-        /* Simplify expression for "op r, a, a => mov r, a" cases */
-+        tcg_out_bswap16(s, args[0], args[1], args[2]);
+-        switch (opc) {
-         break;
+-        CASE_OP_32_64_VEC(or):
-     case INDEX_op_bswap32_i32:
+-        CASE_OP_32_64_VEC(and):
-+        tcg_out_bswap32(s, args[0], args[1], 0);
+-            if (args_are_copies(op->args[1], op->args[2])) {
-+        break;
+-                tcg_opt_gen_mov(&ctx, op, op->args[0], op->args[1]);
-     case INDEX_op_bswap32_i64:
+-                continue;
--        tcg_out_bswap32(s, args[0], args[1]);
+-            }
-+        tcg_out_bswap32(s, args[0], args[1], args[2]);
+-            break;
-         break;
+-        default:
-     case INDEX_op_bswap64_i64:
+-            break;
-         tcg_out_bswap64(s, args[0], args[1]);
+-        }
 -
          /*
           * Process each opcode.
           * Sorted alphabetically by opcode as much as possible.
 --
 .25.1

-[PULL 31/63] tcg: Add tcg_gen_vec_shl{shr}{sar}16i_i32
+[PULL 37/56] tcg/optimize: Split out fold_xi_to_i
-From: LIU Zhiwei <zhiwei_liu@c-sky.com>
+Pull the "op r, a, 0 => movi r, 0" optimization into a function,
 and use it in the outer opcode fold functions.
-Implement tcg_gen_vec_shl{shr}{sar}16i_tl by adding corresponging i32 OP.
+Reviewed-by: Luis Pires <luis.pires@eldorado.org.br>
+Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
 Signed-off-by: LIU Zhiwei <zhiwei_liu@c-sky.com>
 Message-Id: <20210624105023.3852-4-zhiwei_liu@c-sky.com>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- include/tcg/tcg-op-gvec.h | 10 ++++++++++
+ tcg/optimize.c | 38 ++++++++++++++++++++------------------
- tcg/tcg-op-gvec.c         | 28 ++++++++++++++++++++++++++++
+file changed, 20 insertions(+), 18 deletions(-)
 files changed, 38 insertions(+)
-diff --git a/include/tcg/tcg-op-gvec.h b/include/tcg/tcg-op-gvec.h
+diff --git a/tcg/optimize.c b/tcg/optimize.c
 index XXXXXXX..XXXXXXX 100644
---- a/include/tcg/tcg-op-gvec.h
+--- a/tcg/optimize.c
-+++ b/include/tcg/tcg-op-gvec.h
++++ b/tcg/optimize.c
-@@ -XXX,XX +XXX,XX @@ void tcg_gen_vec_add16_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b);
+@@ -XXX,XX +XXX,XX @@ static bool fold_const2(OptContext *ctx, TCGOp *op)
- void tcg_gen_vec_sub8_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b);
+     return false;
  void tcg_gen_vec_sub16_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b);
 +void tcg_gen_vec_shl16i_i32(TCGv_i32 d, TCGv_i32 a, int32_t);
 +void tcg_gen_vec_shr16i_i32(TCGv_i32 d, TCGv_i32 a, int32_t);
 +void tcg_gen_vec_sar16i_i32(TCGv_i32 d, TCGv_i32 a, int32_t);
 +
  #if TARGET_LONG_BITS == 64
  #define tcg_gen_vec_add8_tl  tcg_gen_vec_add8_i64
  #define tcg_gen_vec_sub8_tl  tcg_gen_vec_sub8_i64
  #define tcg_gen_vec_add16_tl tcg_gen_vec_add16_i64
  #define tcg_gen_vec_sub16_tl tcg_gen_vec_sub16_i64
 +#define tcg_gen_vec_shl16i_tl tcg_gen_vec_shl16i_i64
 +#define tcg_gen_vec_shr16i_tl tcg_gen_vec_shr16i_i64
 +#define tcg_gen_vec_sar16i_tl tcg_gen_vec_sar16i_i64
  #else
  #define tcg_gen_vec_add8_tl  tcg_gen_vec_add8_i32
  #define tcg_gen_vec_sub8_tl  tcg_gen_vec_sub8_i32
  #define tcg_gen_vec_add16_tl tcg_gen_vec_add16_i32
  #define tcg_gen_vec_sub16_tl tcg_gen_vec_sub16_i32
 +#define tcg_gen_vec_shl16i_tl tcg_gen_vec_shl16i_i32
 +#define tcg_gen_vec_shr16i_tl tcg_gen_vec_shr16i_i32
 +#define tcg_gen_vec_sar16i_tl tcg_gen_vec_sar16i_i32
  #endif
  #endif
 diff --git a/tcg/tcg-op-gvec.c b/tcg/tcg-op-gvec.c
 index XXXXXXX..XXXXXXX 100644
 --- a/tcg/tcg-op-gvec.c
 +++ b/tcg/tcg-op-gvec.c
@@ -XXX,XX +XXX,XX @@ void tcg_gen_vec_shl16i_i64(TCGv_i64 d, TCGv_i64 a, int64_t c)
      tcg_gen_andi_i64(d, d, mask);
  }
-+void tcg_gen_vec_shl16i_i32(TCGv_i32 d, TCGv_i32 a, int32_t c)
++/* If the binary operation has second argument @i, fold to @i. */
 +static bool fold_xi_to_i(OptContext *ctx, TCGOp *op, uint64_t i)
 +{
-+    uint32_t mask = dup_const(MO_16, 0xffff << c);
++    if (arg_is_const(op->args[2]) && arg_info(op->args[2])->val == i) {
-+    tcg_gen_shli_i32(d, a, c);
++        return tcg_opt_gen_movi(ctx, op, op->args[0], i);
-+    tcg_gen_andi_i32(d, d, mask);
++    }
 +    return false;
 +}
 +
- void tcg_gen_gvec_shli(unsigned vece, uint32_t dofs, uint32_t aofs,
+ /* If the binary operation has both arguments equal, fold to @i. */
-                        int64_t shift, uint32_t oprsz, uint32_t maxsz)
+ static bool fold_xx_to_i(OptContext *ctx, TCGOp *op, uint64_t i)
  {
-@@ -XXX,XX +XXX,XX @@ void tcg_gen_vec_shr16i_i64(TCGv_i64 d, TCGv_i64 a, int64_t c)
+@@ -XXX,XX +XXX,XX @@ static bool fold_add2_i32(OptContext *ctx, TCGOp *op)
-     tcg_gen_andi_i64(d, d, mask);
+ static bool fold_and(OptContext *ctx, TCGOp *op)
  {
      if (fold_const2(ctx, op) ||
 +        fold_xi_to_i(ctx, op, 0) ||
          fold_xx_to_x(ctx, op)) {
          return true;
      }
@@ -XXX,XX +XXX,XX @@ static bool fold_movcond(OptContext *ctx, TCGOp *op)
  static bool fold_mul(OptContext *ctx, TCGOp *op)
  {
 -    return fold_const2(ctx, op);
 +    if (fold_const2(ctx, op) ||
 +        fold_xi_to_i(ctx, op, 0)) {
 +        return true;
 +    }
 +    return false;
  }
-+void tcg_gen_vec_shr16i_i32(TCGv_i32 d, TCGv_i32 a, int32_t c)
+ static bool fold_mul_highpart(OptContext *ctx, TCGOp *op)
 +{
 +    uint32_t mask = dup_const(MO_16, 0xffff >> c);
 +    tcg_gen_shri_i32(d, a, c);
 +    tcg_gen_andi_i32(d, d, mask);
 +}
 +
  void tcg_gen_gvec_shri(unsigned vece, uint32_t dofs, uint32_t aofs,
                         int64_t shift, uint32_t oprsz, uint32_t maxsz)
  {
-@@ -XXX,XX +XXX,XX @@ void tcg_gen_vec_sar16i_i64(TCGv_i64 d, TCGv_i64 a, int64_t c)
+-    return fold_const2(ctx, op);
-     tcg_temp_free_i64(s);
++    if (fold_const2(ctx, op) ||
 +        fold_xi_to_i(ctx, op, 0)) {
 +        return true;
 +    }
 +    return false;
  }
-+void tcg_gen_vec_sar16i_i32(TCGv_i32 d, TCGv_i32 a, int32_t c)
+ static bool fold_mulu2_i32(OptContext *ctx, TCGOp *op)
-+{
+@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
-+    uint32_t s_mask = dup_const(MO_16, 0x8000 >> c);
+             continue;
-+    uint32_t c_mask = dup_const(MO_16, 0xffff >> c);
+         }
-+    TCGv_i32 s = tcg_temp_new_i32();
-+
+-        /* Simplify expression for "op r, a, 0 => movi r, 0" cases */
-+    tcg_gen_shri_i32(d, a, c);
+-        switch (opc) {
-+    tcg_gen_andi_i32(s, d, s_mask);  /* isolate (shifted) sign bit */
+-        CASE_OP_32_64_VEC(and):
-+    tcg_gen_andi_i32(d, d, c_mask);  /* clear out bits above sign  */
+-        CASE_OP_32_64_VEC(mul):
-+    tcg_gen_muli_i32(s, s, (2 << c) - 2); /* replicate isolated signs */
+-        CASE_OP_32_64(muluh):
-+    tcg_gen_or_i32(d, d, s);         /* include sign extension */
+-        CASE_OP_32_64(mulsh):
-+    tcg_temp_free_i32(s);
+-            if (arg_is_const(op->args[2])
-+}
+-                && arg_info(op->args[2])->val == 0) {
-+
+-                tcg_opt_gen_movi(&ctx, op, op->args[0], 0);
- void tcg_gen_gvec_sari(unsigned vece, uint32_t dofs, uint32_t aofs,
+-                continue;
-                        int64_t shift, uint32_t oprsz, uint32_t maxsz)
+-            }
- {
+-            break;
 -        default:
 -            break;
 -        }
 -
          /*
           * Process each opcode.
           * Sorted alphabetically by opcode as much as possible.
 --
 .25.1

-[PULL 18/63] target/cris: Convert to TranslatorOps
+[PULL 38/56] tcg/optimize: Add type to OptContext
-Reviewed-by: Edgar E. Iglesias <edgar.iglesias@xilinx.com>
+Compute the type of the operation early.
-Tested-by: Edgar E. Iglesias <edgar.iglesias@xilinx.com>
 There are at least 4 places that used a def->flags ladder
 to determine the type of the operation being optimized.
 There were two places that assumed !TCG_OPF_64BIT means
 TCG_TYPE_I32, and so could potentially compute incorrect
 results for vector operations.
 Reviewed-by: Luis Pires <luis.pires@eldorado.org.br>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- target/cris/translate.c | 317 ++++++++++++++++++++++------------------
+ tcg/optimize.c | 149 +++++++++++++++++++++++++++++--------------------
-file changed, 174 insertions(+), 143 deletions(-)
+file changed, 89 insertions(+), 60 deletions(-)
-diff --git a/target/cris/translate.c b/target/cris/translate.c
+diff --git a/tcg/optimize.c b/tcg/optimize.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/cris/translate.c
+--- a/tcg/optimize.c
-+++ b/target/cris/translate.c
++++ b/tcg/optimize.c
-@@ -XXX,XX +XXX,XX @@ static unsigned int crisv32_decoder(CPUCRISState *env, DisasContext *dc)
+@@ -XXX,XX +XXX,XX @@ typedef struct OptContext {
-  *
-  */
+     /* In flight values from optimization. */
+     uint64_t z_mask;
--/* generate intermediate code for basic block 'tb'.  */
++    TCGType type;
--void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int max_insns)
+ } OptContext;
-+static void cris_tr_init_disas_context(DisasContextBase *dcbase, CPUState *cs)
- {
+ static inline TempOptInfo *ts_info(TCGTemp *ts)
-+    DisasContext *dc = container_of(dcbase, DisasContext, base);
+@@ -XXX,XX +XXX,XX @@ static bool tcg_opt_gen_mov(OptContext *ctx, TCGOp *op, TCGArg dst, TCGArg src)
-     CPUCRISState *env = cs->env_ptr;
+ {
-+    uint32_t tb_flags = dc->base.tb->flags;
+     TCGTemp *dst_ts = arg_temp(dst);
-     uint32_t pc_start;
+     TCGTemp *src_ts = arg_temp(src);
--    unsigned int insn_len;
+-    const TCGOpDef *def;
--    struct DisasContext ctx;
+     TempOptInfo *di;
--    struct DisasContext *dc = &ctx;
+     TempOptInfo *si;
--    uint32_t page_start;
+     uint64_t z_mask;
--    target_ulong npc;
+@@ -XXX,XX +XXX,XX @@ static bool tcg_opt_gen_mov(OptContext *ctx, TCGOp *op, TCGArg dst, TCGArg src)
--    int num_insns;
+     reset_ts(dst_ts);
+     di = ts_info(dst_ts);
-     if (env->pregs[PR_VR] == 32) {
+     si = ts_info(src_ts);
-         dc->decoder = crisv32_decoder;
+-    def = &tcg_op_defs[op->opc];
-@@ -XXX,XX +XXX,XX @@ void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int max_insns)
+-    if (def->flags & TCG_OPF_VECTOR) {
-         dc->clear_locked_irq = 1;
+-        new_op = INDEX_op_mov_vec;
-     }
+-    } else if (def->flags & TCG_OPF_64BIT) {
+-        new_op = INDEX_op_mov_i64;
--    /* Odd PC indicates that branch is rexecuting due to exception in the
+-    } else {
 +    /*
 +     * Odd PC indicates that branch is rexecuting due to exception in the
       * delayslot, like in real hw.
       */
 -    pc_start = tb->pc & ~1;
 -
 -    dc->base.tb = tb;
 +    pc_start = dc->base.pc_first & ~1;
      dc->base.pc_first = pc_start;
      dc->base.pc_next = pc_start;
 -    dc->base.is_jmp = DISAS_NEXT;
 -    dc->base.singlestep_enabled = cs->singlestep_enabled;
      dc->cpu = env_archcpu(env);
      dc->ppc = pc_start;
      dc->pc = pc_start;
      dc->flags_uptodate = 1;
      dc->flagx_known = 1;
 -    dc->flags_x = tb->flags & X_FLAG;
 +    dc->flags_x = tb_flags & X_FLAG;
      dc->cc_x_uptodate = 0;
      dc->cc_mask = 0;
      dc->update_cc = 0;
      dc->clear_prefix = 0;
 +    dc->cpustate_changed = 0;
      cris_update_cc_op(dc, CC_OP_FLAGS, 4);
      dc->cc_size_uptodate = -1;
      /* Decode TB flags.  */
 -    dc->tb_flags = tb->flags & (S_FLAG | P_FLAG | U_FLAG \
 -            | X_FLAG | PFIX_FLAG);
 -    dc->delayed_branch = !!(tb->flags & 7);
 +    dc->tb_flags = tb_flags & (S_FLAG | P_FLAG | U_FLAG | X_FLAG | PFIX_FLAG);
 +    dc->delayed_branch = !!(tb_flags & 7);
      if (dc->delayed_branch) {
          dc->jmp = JMP_INDIRECT;
      } else {
          dc->jmp = JMP_NOJMP;
      }
 +}
 -    dc->cpustate_changed = 0;
 +static void cris_tr_tb_start(DisasContextBase *db, CPUState *cpu)
 +{
 +}
 -    page_start = pc_start & TARGET_PAGE_MASK;
 -    num_insns = 0;
 +static void cris_tr_insn_start(DisasContextBase *dcbase, CPUState *cpu)
 +{
 +    DisasContext *dc = container_of(dcbase, DisasContext, base);
 -    gen_tb_start(tb);
 -    do {
 -        tcg_gen_insn_start(dc->delayed_branch == 1
 -                           ? dc->ppc | 1 : dc->pc);
 -        num_insns++;
 +    tcg_gen_insn_start(dc->delayed_branch == 1 ? dc->ppc | 1 : dc->pc);
 +}
 -        if (unlikely(cpu_breakpoint_test(cs, dc->pc, BP_ANY))) {
 +static bool cris_tr_breakpoint_check(DisasContextBase *dcbase, CPUState *cpu,
 +                                     const CPUBreakpoint *bp)
 +{
 +    DisasContext *dc = container_of(dcbase, DisasContext, base);
 +
-+    cris_evaluate_flags(dc);
++    switch (ctx->type) {
-+    tcg_gen_movi_tl(env_pc, dc->pc);
++    case TCG_TYPE_I32:
-+    t_gen_raise_exception(EXCP_DEBUG);
+         new_op = INDEX_op_mov_i32;
 +    dc->base.is_jmp = DISAS_NORETURN;
 +    /*
 +     * The address covered by the breakpoint must be included in
 +     * [tb->pc, tb->pc + tb->size) in order to for it to be
 +     * properly cleared -- thus we increment the PC here so that
 +     * the logic setting tb->size below does the right thing.
 +     */
 +    dc->pc += 2;
 +    return true;
 +}
 +
 +static void cris_tr_translate_insn(DisasContextBase *dcbase, CPUState *cs)
 +{
 +    DisasContext *dc = container_of(dcbase, DisasContext, base);
 +    CPUCRISState *env = cs->env_ptr;
 +    unsigned int insn_len;
 +
 +    /* Pretty disas.  */
 +    LOG_DIS("%8.8x:\t", dc->pc);
 +
 +    dc->clear_x = 1;
 +
 +    insn_len = dc->decoder(env, dc);
 +    dc->ppc = dc->pc;
 +    dc->pc += insn_len;
 +    dc->base.pc_next += insn_len;
 +
 +    if (dc->base.is_jmp == DISAS_NORETURN) {
 +        return;
 +    }
 +
 +    if (dc->clear_x) {
 +        cris_clear_x_flag(dc);
 +    }
 +
 +    /*
 +     * Check for delayed branches here.  If we do it before
 +     * actually generating any host code, the simulator will just
 +     * loop doing nothing for on this program location.
 +     */
 +    if (dc->delayed_branch && --dc->delayed_branch == 0) {
 +        if (dc->base.tb->flags & 7) {
 +            t_gen_movi_env_TN(dslot, 0);
 +        }
 +
 +        if (dc->cpustate_changed
 +            || !dc->flagx_known
 +            || (dc->flags_x != (dc->base.tb->flags & X_FLAG))) {
 +            cris_store_direct_jmp(dc);
 +        }
 +
 +        if (dc->clear_locked_irq) {
 +            dc->clear_locked_irq = 0;
 +            t_gen_movi_env_TN(locked_irq, 0);
 +        }
 +
 +        if (dc->jmp == JMP_DIRECT_CC) {
 +            TCGLabel *l1 = gen_new_label();
              cris_evaluate_flags(dc);
 -            tcg_gen_movi_tl(env_pc, dc->pc);
 -            t_gen_raise_exception(EXCP_DEBUG);
 +
 +            /* Conditional jmp.  */
 +            tcg_gen_brcondi_tl(TCG_COND_EQ, env_btaken, 0, l1);
 +            gen_goto_tb(dc, 1, dc->jmp_pc);
 +            gen_set_label(l1);
 +            gen_goto_tb(dc, 0, dc->pc);
              dc->base.is_jmp = DISAS_NORETURN;
 -            /* The address covered by the breakpoint must be included in
 -               [tb->pc, tb->pc + tb->size) in order to for it to be
 -               properly cleared -- thus we increment the PC here so that
 -               the logic setting tb->size below does the right thing.  */
 -            dc->pc += 2;
 -            break;
 +            dc->jmp = JMP_NOJMP;
 +        } else if (dc->jmp == JMP_DIRECT) {
 +            cris_evaluate_flags(dc);
 +            gen_goto_tb(dc, 0, dc->jmp_pc);
 +            dc->base.is_jmp = DISAS_NORETURN;
 +            dc->jmp = JMP_NOJMP;
 +        } else {
 +            TCGv c = tcg_const_tl(dc->pc);
 +            t_gen_cc_jmp(env_btarget, c);
 +            tcg_temp_free(c);
 +            dc->base.is_jmp = DISAS_JUMP;
          }
 +    }
 -        /* Pretty disas.  */
 -        LOG_DIS("%8.8x:\t", dc->pc);
 +    /* Force an update if the per-tb cpu state has changed.  */
 +    if (dc->base.is_jmp == DISAS_NEXT
 +        && (dc->cpustate_changed
 +            || !dc->flagx_known
 +            || (dc->flags_x != (dc->base.tb->flags & X_FLAG)))) {
 +        dc->base.is_jmp = DISAS_UPDATE;
 +        tcg_gen_movi_tl(env_pc, dc->pc);
 +    }
 -        if (num_insns == max_insns && (tb_cflags(tb) & CF_LAST_IO)) {
 -            gen_io_start();
 -        }
 -        dc->clear_x = 1;
 +    /*
 +     * FIXME: Only the first insn in the TB should cross a page boundary.
 +     * If we can detect the length of the next insn easily, we should.
 +     * In the meantime, simply stop when we do cross.
 +     */
 +    if (dc->base.is_jmp == DISAS_NEXT
 +        && ((dc->pc ^ dc->base.pc_first) & TARGET_PAGE_MASK) != 0) {
 +        dc->base.is_jmp = DISAS_TOO_MANY;
 +    }
 +}
 -        insn_len = dc->decoder(env, dc);
 -        dc->ppc = dc->pc;
 -        dc->pc += insn_len;
 -        if (dc->clear_x) {
 -            cris_clear_x_flag(dc);
 -        }
 +static void cris_tr_tb_stop(DisasContextBase *dcbase, CPUState *cpu)
 +{
 +    DisasContext *dc = container_of(dcbase, DisasContext, base);
 +    DisasJumpType is_jmp = dc->base.is_jmp;
 +    target_ulong npc = dc->pc;
 -        /* Check for delayed branches here. If we do it before
 -           actually generating any host code, the simulator will just
 -           loop doing nothing for on this program location.  */
 -        if (dc->delayed_branch) {
 -            dc->delayed_branch--;
 -            if (dc->delayed_branch == 0) {
 -                if (tb->flags & 7) {
 -                    t_gen_movi_env_TN(dslot, 0);
 -                }
 -                if (dc->cpustate_changed || !dc->flagx_known
 -                    || (dc->flags_x != (tb->flags & X_FLAG))) {
 -                    cris_store_direct_jmp(dc);
 -                }
 -
 -                if (dc->clear_locked_irq) {
 -                    dc->clear_locked_irq = 0;
 -                    t_gen_movi_env_TN(locked_irq, 0);
 -                }
 -
 -                if (dc->jmp == JMP_DIRECT_CC) {
 -                    TCGLabel *l1 = gen_new_label();
 -                    cris_evaluate_flags(dc);
 -
 -                    /* Conditional jmp.  */
 -                    tcg_gen_brcondi_tl(TCG_COND_EQ,
 -                               env_btaken, 0, l1);
 -                    gen_goto_tb(dc, 1, dc->jmp_pc);
 -                    gen_set_label(l1);
 -                    gen_goto_tb(dc, 0, dc->pc);
 -                    dc->base.is_jmp = DISAS_NORETURN;
 -                    dc->jmp = JMP_NOJMP;
 -                } else if (dc->jmp == JMP_DIRECT) {
 -                    cris_evaluate_flags(dc);
 -                    gen_goto_tb(dc, 0, dc->jmp_pc);
 -                    dc->base.is_jmp = DISAS_NORETURN;
 -                    dc->jmp = JMP_NOJMP;
 -                } else {
 -                    TCGv c = tcg_const_tl(dc->pc);
 -                    t_gen_cc_jmp(env_btarget, c);
 -                    tcg_temp_free(c);
 -                    dc->base.is_jmp = DISAS_JUMP;
 -                }
 -                break;
 -            }
 -        }
 -
 -        /* If we are rexecuting a branch due to exceptions on
 -           delay slots don't break.  */
 -        if (!(tb->pc & 1) && cs->singlestep_enabled) {
 -            break;
 -        }
 -    } while (!dc->base.is_jmp && !dc->cpustate_changed
 -            && !tcg_op_buf_full()
 -            && !singlestep
 -            && (dc->pc - page_start < TARGET_PAGE_SIZE)
 -            && num_insns < max_insns);
 +    if (is_jmp == DISAS_NORETURN) {
 +        /* If we have a broken branch+delayslot sequence, it's too late. */
 +        assert(dc->delayed_branch != 1);
 +        return;
 +    }
      if (dc->clear_locked_irq) {
          t_gen_movi_env_TN(locked_irq, 0);
      }
 -    npc = dc->pc;
 -
 -    /* Force an update if the per-tb cpu state has changed.  */
 -    if (dc->base.is_jmp == DISAS_NEXT
 -        && (dc->cpustate_changed || !dc->flagx_known
 -        || (dc->flags_x != (tb->flags & X_FLAG)))) {
 -        dc->base.is_jmp = DISAS_UPDATE;
 -        tcg_gen_movi_tl(env_pc, npc);
 -    }
      /* Broken branch+delayslot sequence.  */
      if (dc->delayed_branch == 1) {
          /* Set env->dslot to the size of the branch insn.  */
@@ -XXX,XX +XXX,XX @@ void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int max_insns)
      cris_evaluate_flags(dc);
 -    if (unlikely(cs->singlestep_enabled)) {
 -        if (dc->base.is_jmp == DISAS_NEXT) {
 +    if (unlikely(dc->base.singlestep_enabled)) {
 +        switch (is_jmp) {
 +        case DISAS_TOO_MANY:
              tcg_gen_movi_tl(env_pc, npc);
 -        }
 -        t_gen_raise_exception(EXCP_DEBUG);
 -    } else {
 -        switch (dc->base.is_jmp) {
 -        case DISAS_NEXT:
 -            gen_goto_tb(dc, 1, npc);
 -            break;
 -        default:
 +            /* fall through */
          case DISAS_JUMP:
          case DISAS_UPDATE:
 -            /* indicate that the hash table must be used
 -                   to find the next TB */
 -            tcg_gen_exit_tb(NULL, 0);
 -            break;
 -        case DISAS_NORETURN:
 -            /* nothing more to generate */
 +            t_gen_raise_exception(EXCP_DEBUG);
 +            return;
 +        default:
              break;
          }
 +        g_assert_not_reached();
      }
 -    gen_tb_end(tb, num_insns);
 -    tb->size = dc->pc - pc_start;
 -    tb->icount = num_insns;
 -
 -#ifdef DEBUG_DISAS
 -#if !DISAS_CRIS
 -    if (qemu_loglevel_mask(CPU_LOG_TB_IN_ASM)
 -        && qemu_log_in_addr_range(pc_start)) {
 -        FILE *logfile = qemu_log_lock();
 -        qemu_log("--------------\n");
 -        qemu_log("IN: %s\n", lookup_symbol(pc_start));
 -        log_target_disas(cs, pc_start, dc->pc - pc_start);
 -        qemu_log_unlock(logfile);
 +    switch (is_jmp) {
 +    case DISAS_TOO_MANY:
 +        gen_goto_tb(dc, 0, npc);
 +        break;
-+    case DISAS_JUMP:
++    case TCG_TYPE_I64:
-+    case DISAS_UPDATE:
++        new_op = INDEX_op_mov_i64;
-+        /* Indicate that interupts must be re-evaluated before the next TB. */
++        break;
-+        tcg_gen_exit_tb(NULL, 0);
++    case TCG_TYPE_V64:
 +    case TCG_TYPE_V128:
 +    case TCG_TYPE_V256:
 +        /* TCGOP_VECL and TCGOP_VECE remain unchanged.  */
 +        new_op = INDEX_op_mov_vec;
 +        break;
 +    default:
 +        g_assert_not_reached();
      }
--#endif
+     op->opc = new_op;
--#endif
+-    /* TCGOP_VECL and TCGOP_VECE remain unchanged.  */
-+}
+     op->args[0] = dst;
      op->args[1] = src;
@@ -XXX,XX +XXX,XX @@ static bool tcg_opt_gen_mov(OptContext *ctx, TCGOp *op, TCGArg dst, TCGArg src)
  static bool tcg_opt_gen_movi(OptContext *ctx, TCGOp *op,
                               TCGArg dst, uint64_t val)
  {
 -    const TCGOpDef *def = &tcg_op_defs[op->opc];
 -    TCGType type;
 -    TCGTemp *tv;
 -
 -    if (def->flags & TCG_OPF_VECTOR) {
 -        type = TCGOP_VECL(op) + TCG_TYPE_V64;
 -    } else if (def->flags & TCG_OPF_64BIT) {
 -        type = TCG_TYPE_I64;
 -    } else {
 -        type = TCG_TYPE_I32;
 -    }
 -
      /* Convert movi to mov with constant temp. */
 -    tv = tcg_constant_internal(type, val);
 +    TCGTemp *tv = tcg_constant_internal(ctx->type, val);
 +
-+static void cris_tr_disas_log(const DisasContextBase *dcbase, CPUState *cpu)
+     init_ts_info(ctx, tv);
-+{
+     return tcg_opt_gen_mov(ctx, op, dst, temp_arg(tv));
-+    if (!DISAS_CRIS) {
+ }
-+        qemu_log("IN: %s\n", lookup_symbol(dcbase->pc_first));
+@@ -XXX,XX +XXX,XX @@ static uint64_t do_constant_folding_2(TCGOpcode op, uint64_t x, uint64_t y)
-+        log_target_disas(cpu, dcbase->pc_first, dcbase->tb->size);
+     }
-+    }
+ }
-+}
 -static uint64_t do_constant_folding(TCGOpcode op, uint64_t x, uint64_t y)
 +static uint64_t do_constant_folding(TCGOpcode op, TCGType type,
 +                                    uint64_t x, uint64_t y)
  {
 -    const TCGOpDef *def = &tcg_op_defs[op];
      uint64_t res = do_constant_folding_2(op, x, y);
 -    if (!(def->flags & TCG_OPF_64BIT)) {
 +    if (type == TCG_TYPE_I32) {
          res = (int32_t)res;
      }
      return res;
@@ -XXX,XX +XXX,XX @@ static bool do_constant_folding_cond_eq(TCGCond c)
   * Return -1 if the condition can't be simplified,
   * and the result of the condition (0 or 1) if it can.
   */
 -static int do_constant_folding_cond(TCGOpcode op, TCGArg x,
 +static int do_constant_folding_cond(TCGType type, TCGArg x,
                                      TCGArg y, TCGCond c)
  {
      uint64_t xv = arg_info(x)->val;
      uint64_t yv = arg_info(y)->val;
      if (arg_is_const(x) && arg_is_const(y)) {
 -        const TCGOpDef *def = &tcg_op_defs[op];
 -        tcg_debug_assert(!(def->flags & TCG_OPF_VECTOR));
 -        if (def->flags & TCG_OPF_64BIT) {
 -            return do_constant_folding_cond_64(xv, yv, c);
 -        } else {
 +        switch (type) {
 +        case TCG_TYPE_I32:
              return do_constant_folding_cond_32(xv, yv, c);
 +        case TCG_TYPE_I64:
 +            return do_constant_folding_cond_64(xv, yv, c);
 +        default:
 +            /* Only scalar comparisons are optimizable */
 +            return -1;
          }
      } else if (args_are_copies(x, y)) {
          return do_constant_folding_cond_eq(c);
@@ -XXX,XX +XXX,XX @@ static bool fold_const1(OptContext *ctx, TCGOp *op)
          uint64_t t;
          t = arg_info(op->args[1])->val;
 -        t = do_constant_folding(op->opc, t, 0);
 +        t = do_constant_folding(op->opc, ctx->type, t, 0);
          return tcg_opt_gen_movi(ctx, op, op->args[0], t);
      }
      return false;
@@ -XXX,XX +XXX,XX @@ static bool fold_const2(OptContext *ctx, TCGOp *op)
          uint64_t t1 = arg_info(op->args[1])->val;
          uint64_t t2 = arg_info(op->args[2])->val;
 -        t1 = do_constant_folding(op->opc, t1, t2);
 +        t1 = do_constant_folding(op->opc, ctx->type, t1, t2);
          return tcg_opt_gen_movi(ctx, op, op->args[0], t1);
      }
      return false;
@@ -XXX,XX +XXX,XX @@ static bool fold_andc(OptContext *ctx, TCGOp *op)
  static bool fold_brcond(OptContext *ctx, TCGOp *op)
  {
      TCGCond cond = op->args[2];
 -    int i = do_constant_folding_cond(op->opc, op->args[0], op->args[1], cond);
 +    int i = do_constant_folding_cond(ctx->type, op->args[0], op->args[1], cond);
      if (i == 0) {
          tcg_op_remove(ctx->tcg, op);
@@ -XXX,XX +XXX,XX @@ static bool fold_brcond2(OptContext *ctx, TCGOp *op)
           * Simplify EQ/NE comparisons where one of the pairs
           * can be simplified.
           */
 -        i = do_constant_folding_cond(INDEX_op_brcond_i32, op->args[0],
 +        i = do_constant_folding_cond(TCG_TYPE_I32, op->args[0],
                                       op->args[2], cond);
          switch (i ^ inv) {
          case 0:
@@ -XXX,XX +XXX,XX @@ static bool fold_brcond2(OptContext *ctx, TCGOp *op)
              goto do_brcond_high;
          }
 -        i = do_constant_folding_cond(INDEX_op_brcond_i32, op->args[1],
 +        i = do_constant_folding_cond(TCG_TYPE_I32, op->args[1],
                                       op->args[3], cond);
          switch (i ^ inv) {
          case 0:
@@ -XXX,XX +XXX,XX @@ static bool fold_bswap(OptContext *ctx, TCGOp *op)
      if (arg_is_const(op->args[1])) {
          uint64_t t = arg_info(op->args[1])->val;
 -        t = do_constant_folding(op->opc, t, op->args[2]);
 +        t = do_constant_folding(op->opc, ctx->type, t, op->args[2]);
          return tcg_opt_gen_movi(ctx, op, op->args[0], t);
      }
      return false;
@@ -XXX,XX +XXX,XX @@ static bool fold_count_zeros(OptContext *ctx, TCGOp *op)
          uint64_t t = arg_info(op->args[1])->val;
          if (t != 0) {
 -            t = do_constant_folding(op->opc, t, 0);
 +            t = do_constant_folding(op->opc, ctx->type, t, 0);
              return tcg_opt_gen_movi(ctx, op, op->args[0], t);
          }
          return tcg_opt_gen_mov(ctx, op, op->args[0], op->args[2]);
@@ -XXX,XX +XXX,XX @@ static bool fold_mov(OptContext *ctx, TCGOp *op)
  static bool fold_movcond(OptContext *ctx, TCGOp *op)
  {
 -    TCGOpcode opc = op->opc;
      TCGCond cond = op->args[5];
 -    int i = do_constant_folding_cond(opc, op->args[1], op->args[2], cond);
 +    int i = do_constant_folding_cond(ctx->type, op->args[1], op->args[2], cond);
      if (i >= 0) {
          return tcg_opt_gen_mov(ctx, op, op->args[0], op->args[4 - i]);
@@ -XXX,XX +XXX,XX @@ static bool fold_movcond(OptContext *ctx, TCGOp *op)
      if (arg_is_const(op->args[3]) && arg_is_const(op->args[4])) {
          uint64_t tv = arg_info(op->args[3])->val;
          uint64_t fv = arg_info(op->args[4])->val;
 +        TCGOpcode opc;
 -        opc = (opc == INDEX_op_movcond_i32
 -               ? INDEX_op_setcond_i32 : INDEX_op_setcond_i64);
 +        switch (ctx->type) {
 +        case TCG_TYPE_I32:
 +            opc = INDEX_op_setcond_i32;
 +            break;
 +        case TCG_TYPE_I64:
 +            opc = INDEX_op_setcond_i64;
 +            break;
 +        default:
 +            g_assert_not_reached();
 +        }
          if (tv == 1 && fv == 0) {
              op->opc = opc;
@@ -XXX,XX +XXX,XX @@ static bool fold_remainder(OptContext *ctx, TCGOp *op)
  static bool fold_setcond(OptContext *ctx, TCGOp *op)
  {
      TCGCond cond = op->args[3];
 -    int i = do_constant_folding_cond(op->opc, op->args[1], op->args[2], cond);
 +    int i = do_constant_folding_cond(ctx->type, op->args[1], op->args[2], cond);
      if (i >= 0) {
          return tcg_opt_gen_movi(ctx, op, op->args[0], i);
@@ -XXX,XX +XXX,XX @@ static bool fold_setcond2(OptContext *ctx, TCGOp *op)
           * Simplify EQ/NE comparisons where one of the pairs
           * can be simplified.
           */
 -        i = do_constant_folding_cond(INDEX_op_setcond_i32, op->args[1],
 +        i = do_constant_folding_cond(TCG_TYPE_I32, op->args[1],
                                       op->args[3], cond);
          switch (i ^ inv) {
          case 0:
@@ -XXX,XX +XXX,XX @@ static bool fold_setcond2(OptContext *ctx, TCGOp *op)
              goto do_setcond_high;
          }
 -        i = do_constant_folding_cond(INDEX_op_setcond_i32, op->args[2],
 +        i = do_constant_folding_cond(TCG_TYPE_I32, op->args[2],
                                       op->args[4], cond);
          switch (i ^ inv) {
          case 0:
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
          init_arguments(&ctx, op, def->nb_oargs + def->nb_iargs);
          copy_propagate(&ctx, op, def->nb_oargs, def->nb_iargs);
 +        /* Pre-compute the type of the operation. */
 +        if (def->flags & TCG_OPF_VECTOR) {
 +            ctx.type = TCG_TYPE_V64 + TCGOP_VECL(op);
 +        } else if (def->flags & TCG_OPF_64BIT) {
 +            ctx.type = TCG_TYPE_I64;
 +        } else {
 +            ctx.type = TCG_TYPE_I32;
 +        }
 +
-+static const TranslatorOps cris_tr_ops = {
+         /* For commutative operations make constant second argument */
-+    .init_disas_context = cris_tr_init_disas_context,
+         switch (opc) {
-+    .tb_start           = cris_tr_tb_start,
+         CASE_OP_32_64_VEC(add):
-+    .insn_start         = cris_tr_insn_start,
+@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
-+    .breakpoint_check   = cris_tr_breakpoint_check,
+                     /* Proceed with possible constant folding. */
-+    .translate_insn     = cris_tr_translate_insn,
+                     break;
-+    .tb_stop            = cris_tr_tb_stop,
+                 }
-+    .disas_log          = cris_tr_disas_log,
+-                if (opc == INDEX_op_sub_i32) {
-+};
++                switch (ctx.type) {
-+
++                case TCG_TYPE_I32:
-+void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int max_insns)
+                     neg_op = INDEX_op_neg_i32;
-+{
+                     have_neg = TCG_TARGET_HAS_neg_i32;
-+    DisasContext dc;
+-                } else if (opc == INDEX_op_sub_i64) {
-+    translator_loop(&cris_tr_ops, &dc.base, cs, tb, max_insns);
++                    break;
- }
++                case TCG_TYPE_I64:
+                     neg_op = INDEX_op_neg_i64;
- void cris_cpu_dump_state(CPUState *cs, FILE *f, int flags)
+                     have_neg = TCG_TARGET_HAS_neg_i64;
 -                } else if (TCG_TARGET_HAS_neg_vec) {
 -                    TCGType type = TCGOP_VECL(op) + TCG_TYPE_V64;
 -                    unsigned vece = TCGOP_VECE(op);
 -                    neg_op = INDEX_op_neg_vec;
 -                    have_neg = tcg_can_emit_vec_op(neg_op, type, vece) > 0;
 -                } else {
                      break;
 +                case TCG_TYPE_V64:
 +                case TCG_TYPE_V128:
 +                case TCG_TYPE_V256:
 +                    neg_op = INDEX_op_neg_vec;
 +                    have_neg = tcg_can_emit_vec_op(neg_op, ctx.type,
 +                                                   TCGOP_VECE(op)) > 0;
 +                    break;
 +                default:
 +                    g_assert_not_reached();
                  }
                  if (!have_neg) {
                      break;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
                  TCGOpcode not_op;
                  bool have_not;
 -                if (def->flags & TCG_OPF_VECTOR) {
 -                    not_op = INDEX_op_not_vec;
 -                    have_not = TCG_TARGET_HAS_not_vec;
 -                } else if (def->flags & TCG_OPF_64BIT) {
 -                    not_op = INDEX_op_not_i64;
 -                    have_not = TCG_TARGET_HAS_not_i64;
 -                } else {
 +                switch (ctx.type) {
 +                case TCG_TYPE_I32:
                      not_op = INDEX_op_not_i32;
                      have_not = TCG_TARGET_HAS_not_i32;
 +                    break;
 +                case TCG_TYPE_I64:
 +                    not_op = INDEX_op_not_i64;
 +                    have_not = TCG_TARGET_HAS_not_i64;
 +                    break;
 +                case TCG_TYPE_V64:
 +                case TCG_TYPE_V128:
 +                case TCG_TYPE_V256:
 +                    not_op = INDEX_op_not_vec;
 +                    have_not = TCG_TARGET_HAS_not_vec;
 +                    break;
 +                default:
 +                    g_assert_not_reached();
                  }
                  if (!have_not) {
                      break;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
             below, we can ignore high bits, but for further optimizations we
             need to record that the high bits contain garbage.  */
          partmask = z_mask;
 -        if (!(def->flags & TCG_OPF_64BIT)) {
 +        if (ctx.type == TCG_TYPE_I32) {
              z_mask |= ~(tcg_target_ulong)0xffffffffu;
              partmask &= 0xffffffffu;
              affected &= 0xffffffffu;
 --
 .25.1

-[PULL 41/63] tcg/ppc: Split out tcg_out_sari{32,64}
+[PULL 39/56] tcg/optimize: Split out fold_to_not
-We will shortly require sari in other context;
+Split out the conditional conversion from a more complex logical
-split out both for cleanliness sake.
+operation to a simple NOT.  Create a couple more helpers to make
+this easy for the outer-most logical operations.
-Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
 Reviewed-by: Luis Pires <luis.pires@eldorado.org.br>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- tcg/ppc/tcg-target.c.inc | 17 +++++++++++++----
+ tcg/optimize.c | 158 +++++++++++++++++++++++++++----------------------
-file changed, 13 insertions(+), 4 deletions(-)
+file changed, 86 insertions(+), 72 deletions(-)
-diff --git a/tcg/ppc/tcg-target.c.inc b/tcg/ppc/tcg-target.c.inc
+diff --git a/tcg/optimize.c b/tcg/optimize.c
 index XXXXXXX..XXXXXXX 100644
---- a/tcg/ppc/tcg-target.c.inc
+--- a/tcg/optimize.c
-+++ b/tcg/ppc/tcg-target.c.inc
++++ b/tcg/optimize.c
-@@ -XXX,XX +XXX,XX @@ static inline void tcg_out_shli64(TCGContext *s, TCGReg dst, TCGReg src, int c)
+@@ -XXX,XX +XXX,XX @@ static bool fold_const2(OptContext *ctx, TCGOp *op)
-     tcg_out_rld(s, RLDICR, dst, src, c, 63 - c);
+     return false;
  }
-+static inline void tcg_out_sari32(TCGContext *s, TCGReg dst, TCGReg src, int c)
++/*
 + * Convert @op to NOT, if NOT is supported by the host.
 + * Return true f the conversion is successful, which will still
 + * indicate that the processing is complete.
 + */
 +static bool fold_not(OptContext *ctx, TCGOp *op);
 +static bool fold_to_not(OptContext *ctx, TCGOp *op, int idx)
 +{
-+    /* Limit immediate shift count lest we create an illegal insn.  */
++    TCGOpcode not_op;
-+    tcg_out32(s, SRAWI | RA(dst) | RS(src) | SH(c & 31));
++    bool have_not;
 +
 +    switch (ctx->type) {
 +    case TCG_TYPE_I32:
 +        not_op = INDEX_op_not_i32;
 +        have_not = TCG_TARGET_HAS_not_i32;
 +        break;
 +    case TCG_TYPE_I64:
 +        not_op = INDEX_op_not_i64;
 +        have_not = TCG_TARGET_HAS_not_i64;
 +        break;
 +    case TCG_TYPE_V64:
 +    case TCG_TYPE_V128:
 +    case TCG_TYPE_V256:
 +        not_op = INDEX_op_not_vec;
 +        have_not = TCG_TARGET_HAS_not_vec;
 +        break;
 +    default:
 +        g_assert_not_reached();
 +    }
 +    if (have_not) {
 +        op->opc = not_op;
 +        op->args[1] = op->args[idx];
 +        return fold_not(ctx, op);
 +    }
 +    return false;
 +}
 +
- static inline void tcg_out_shri32(TCGContext *s, TCGReg dst, TCGReg src, int c)
++/* If the binary operation has first argument @i, fold to NOT. */
- {
++static bool fold_ix_to_not(OptContext *ctx, TCGOp *op, uint64_t i)
      tcg_out_rlw(s, RLWINM, dst, src, 32 - c, c, 31);
@@ -XXX,XX +XXX,XX @@ static inline void tcg_out_shri64(TCGContext *s, TCGReg dst, TCGReg src, int c)
      tcg_out_rld(s, RLDICL, dst, src, 64 - c, c);
  }
 +static inline void tcg_out_sari64(TCGContext *s, TCGReg dst, TCGReg src, int c)
 +{
-+    tcg_out32(s, SRADI | RA(dst) | RS(src) | SH(c & 0x1f) | ((c >> 4) & 2));
++    if (arg_is_const(op->args[1]) && arg_info(op->args[1])->val == i) {
 +        return fold_to_not(ctx, op, 2);
 +    }
 +    return false;
 +}
 +
- /* Emit a move into ret of arg, if it can be done in one insn.  */
+ /* If the binary operation has second argument @i, fold to @i. */
- static bool tcg_out_movi_one(TCGContext *s, TCGReg ret, tcg_target_long arg)
+ static bool fold_xi_to_i(OptContext *ctx, TCGOp *op, uint64_t i)
  {
-@@ -XXX,XX +XXX,XX @@ static void tcg_out_op(TCGContext *s, TCGOpcode opc,
+@@ -XXX,XX +XXX,XX @@ static bool fold_xi_to_i(OptContext *ctx, TCGOp *op, uint64_t i)
-         break;
+     return false;
-     case INDEX_op_sar_i32:
+ }
-         if (const_args[2]) {
--            /* Limit immediate shift count lest we create an illegal insn.  */
++/* If the binary operation has second argument @i, fold to NOT. */
--            tcg_out32(s, SRAWI | RS(args[1]) | RA(args[0]) | SH(args[2] & 31));
++static bool fold_xi_to_not(OptContext *ctx, TCGOp *op, uint64_t i)
-+            tcg_out_sari32(s, args[0], args[1], args[2]);
++{
-         } else {
++    if (arg_is_const(op->args[2]) && arg_info(op->args[2])->val == i) {
-             tcg_out32(s, SRAW | SAB(args[1], args[0], args[2]));
++        return fold_to_not(ctx, op, 1);
-         }
++    }
-@@ -XXX,XX +XXX,XX @@ static void tcg_out_op(TCGContext *s, TCGOpcode opc,
++    return false;
-         break;
++}
-     case INDEX_op_sar_i64:
++
-         if (const_args[2]) {
+ /* If the binary operation has both arguments equal, fold to @i. */
--            int sh = SH(args[2] & 0x1f) | (((args[2] >> 5) & 1) << 1);
+ static bool fold_xx_to_i(OptContext *ctx, TCGOp *op, uint64_t i)
--            tcg_out32(s, SRADI | RA(args[0]) | RS(args[1]) | sh);
+ {
-+            tcg_out_sari64(s, args[0], args[1], args[2]);
+@@ -XXX,XX +XXX,XX @@ static bool fold_and(OptContext *ctx, TCGOp *op)
-         } else {
+ static bool fold_andc(OptContext *ctx, TCGOp *op)
-             tcg_out32(s, SRAD | SAB(args[1], args[0], args[2]));
+ {
      if (fold_const2(ctx, op) ||
 -        fold_xx_to_i(ctx, op, 0)) {
 +        fold_xx_to_i(ctx, op, 0) ||
 +        fold_ix_to_not(ctx, op, -1)) {
          return true;
      }
      return false;
@@ -XXX,XX +XXX,XX @@ static bool fold_dup2(OptContext *ctx, TCGOp *op)
  static bool fold_eqv(OptContext *ctx, TCGOp *op)
  {
 -    return fold_const2(ctx, op);
 +    if (fold_const2(ctx, op) ||
 +        fold_xi_to_not(ctx, op, 0)) {
 +        return true;
 +    }
 +    return false;
  }
  static bool fold_extract(OptContext *ctx, TCGOp *op)
@@ -XXX,XX +XXX,XX @@ static bool fold_mulu2_i32(OptContext *ctx, TCGOp *op)
  static bool fold_nand(OptContext *ctx, TCGOp *op)
  {
 -    return fold_const2(ctx, op);
 +    if (fold_const2(ctx, op) ||
 +        fold_xi_to_not(ctx, op, -1)) {
 +        return true;
 +    }
 +    return false;
  }
  static bool fold_neg(OptContext *ctx, TCGOp *op)
@@ -XXX,XX +XXX,XX @@ static bool fold_neg(OptContext *ctx, TCGOp *op)
  static bool fold_nor(OptContext *ctx, TCGOp *op)
  {
 -    return fold_const2(ctx, op);
 +    if (fold_const2(ctx, op) ||
 +        fold_xi_to_not(ctx, op, 0)) {
 +        return true;
 +    }
 +    return false;
  }
  static bool fold_not(OptContext *ctx, TCGOp *op)
  {
 -    return fold_const1(ctx, op);
 +    if (fold_const1(ctx, op)) {
 +        return true;
 +    }
 +
 +    /* Because of fold_to_not, we want to always return true, via finish. */
 +    finish_folding(ctx, op);
 +    return true;
  }
  static bool fold_or(OptContext *ctx, TCGOp *op)
@@ -XXX,XX +XXX,XX @@ static bool fold_or(OptContext *ctx, TCGOp *op)
  static bool fold_orc(OptContext *ctx, TCGOp *op)
  {
 -    return fold_const2(ctx, op);
 +    if (fold_const2(ctx, op) ||
 +        fold_ix_to_not(ctx, op, 0)) {
 +        return true;
 +    }
 +    return false;
  }
  static bool fold_qemu_ld(OptContext *ctx, TCGOp *op)
@@ -XXX,XX +XXX,XX @@ static bool fold_sub2_i32(OptContext *ctx, TCGOp *op)
  static bool fold_xor(OptContext *ctx, TCGOp *op)
  {
      if (fold_const2(ctx, op) ||
 -        fold_xx_to_i(ctx, op, 0)) {
 +        fold_xx_to_i(ctx, op, 0) ||
 +        fold_xi_to_not(ctx, op, -1)) {
          return true;
      }
      return false;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
                  }
              }
              break;
 -        CASE_OP_32_64_VEC(xor):
 -        CASE_OP_32_64(nand):
 -            if (!arg_is_const(op->args[1])
 -                && arg_is_const(op->args[2])
 -                && arg_info(op->args[2])->val == -1) {
 -                i = 1;
 -                goto try_not;
 -            }
 -            break;
 -        CASE_OP_32_64(nor):
 -            if (!arg_is_const(op->args[1])
 -                && arg_is_const(op->args[2])
 -                && arg_info(op->args[2])->val == 0) {
 -                i = 1;
 -                goto try_not;
 -            }
 -            break;
 -        CASE_OP_32_64_VEC(andc):
 -            if (!arg_is_const(op->args[2])
 -                && arg_is_const(op->args[1])
 -                && arg_info(op->args[1])->val == -1) {
 -                i = 2;
 -                goto try_not;
 -            }
 -            break;
 -        CASE_OP_32_64_VEC(orc):
 -        CASE_OP_32_64(eqv):
 -            if (!arg_is_const(op->args[2])
 -                && arg_is_const(op->args[1])
 -                && arg_info(op->args[1])->val == 0) {
 -                i = 2;
 -                goto try_not;
 -            }
 -            break;
 -        try_not:
 -            {
 -                TCGOpcode not_op;
 -                bool have_not;
 -
 -                switch (ctx.type) {
 -                case TCG_TYPE_I32:
 -                    not_op = INDEX_op_not_i32;
 -                    have_not = TCG_TARGET_HAS_not_i32;
 -                    break;
 -                case TCG_TYPE_I64:
 -                    not_op = INDEX_op_not_i64;
 -                    have_not = TCG_TARGET_HAS_not_i64;
 -                    break;
 -                case TCG_TYPE_V64:
 -                case TCG_TYPE_V128:
 -                case TCG_TYPE_V256:
 -                    not_op = INDEX_op_not_vec;
 -                    have_not = TCG_TARGET_HAS_not_vec;
 -                    break;
 -                default:
 -                    g_assert_not_reached();
 -                }
 -                if (!have_not) {
 -                    break;
 -                }
 -                op->opc = not_op;
 -                reset_temp(op->args[0]);
 -                op->args[1] = op->args[i];
 -                continue;
 -            }
          default:
              break;
          }
 --
 .25.1

-[PULL 15/63] target/cris: Replace DISAS_TB_JUMP with DISAS_NORETURN
+[PULL 40/56] tcg/optimize: Split out fold_sub_to_neg
-The only semantic of DISAS_TB_JUMP is that we've done goto_tb,
+Even though there is only one user, place this more complex
-which is the same as DISAS_NORETURN -- we've exited the tb.
+conversion into its own helper.
-Reviewed-by: Edgar E. Iglesias <edgar.iglesias@xilinx.com>
+Reviewed-by: Luis Pires <luis.pires@eldorado.org.br>
 Tested-by: Edgar E. Iglesias <edgar.iglesias@xilinx.com>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- target/cris/translate.c | 7 +++----
+ tcg/optimize.c | 89 ++++++++++++++++++++++++++------------------------
-file changed, 3 insertions(+), 4 deletions(-)
+file changed, 47 insertions(+), 42 deletions(-)
-diff --git a/target/cris/translate.c b/target/cris/translate.c
+diff --git a/tcg/optimize.c b/tcg/optimize.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/cris/translate.c
+--- a/tcg/optimize.c
-+++ b/target/cris/translate.c
++++ b/tcg/optimize.c
-@@ -XXX,XX +XXX,XX @@
+@@ -XXX,XX +XXX,XX @@ static bool fold_nand(OptContext *ctx, TCGOp *op)
- /* is_jmp field values */
- #define DISAS_JUMP    DISAS_TARGET_0 /* only pc was modified dynamically */
+ static bool fold_neg(OptContext *ctx, TCGOp *op)
- #define DISAS_UPDATE  DISAS_TARGET_1 /* cpu state was modified dynamically */
+ {
--#define DISAS_TB_JUMP DISAS_TARGET_2 /* only pc was modified statically */
+-    return fold_const1(ctx, op);
++    if (fold_const1(ctx, op)) {
- /* Used by the decoder.  */
++        return true;
- #define EXTRACT_FIELD(src, start, end) \
++    }
-@@ -XXX,XX +XXX,XX @@ void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int max_insns)
++    /*
-                     gen_goto_tb(dc, 1, dc->jmp_pc);
++     * Because of fold_sub_to_neg, we want to always return true,
-                     gen_set_label(l1);
++     * via finish_folding.
-                     gen_goto_tb(dc, 0, dc->pc);
++     */
--                    dc->base.is_jmp = DISAS_TB_JUMP;
++    finish_folding(ctx, op);
-+                    dc->base.is_jmp = DISAS_NORETURN;
++    return true;
-                     dc->jmp = JMP_NOJMP;
+ }
-                 } else if (dc->jmp == JMP_DIRECT) {
-                     cris_evaluate_flags(dc);
+ static bool fold_nor(OptContext *ctx, TCGOp *op)
-                     gen_goto_tb(dc, 0, dc->jmp_pc);
+@@ -XXX,XX +XXX,XX @@ static bool fold_shift(OptContext *ctx, TCGOp *op)
--                    dc->base.is_jmp = DISAS_TB_JUMP;
+     return fold_const2(ctx, op);
-+                    dc->base.is_jmp = DISAS_NORETURN;
+ }
-                     dc->jmp = JMP_NOJMP;
-                 } else {
++static bool fold_sub_to_neg(OptContext *ctx, TCGOp *op)
-                     TCGv c = tcg_const_tl(dc->pc);
++{
-@@ -XXX,XX +XXX,XX @@ void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int max_insns)
++    TCGOpcode neg_op;
-                    to find the next TB */
++    bool have_neg;
-             tcg_gen_exit_tb(NULL, 0);
++
 +    if (!arg_is_const(op->args[1]) || arg_info(op->args[1])->val != 0) {
 +        return false;
 +    }
 +
 +    switch (ctx->type) {
 +    case TCG_TYPE_I32:
 +        neg_op = INDEX_op_neg_i32;
 +        have_neg = TCG_TARGET_HAS_neg_i32;
 +        break;
 +    case TCG_TYPE_I64:
 +        neg_op = INDEX_op_neg_i64;
 +        have_neg = TCG_TARGET_HAS_neg_i64;
 +        break;
 +    case TCG_TYPE_V64:
 +    case TCG_TYPE_V128:
 +    case TCG_TYPE_V256:
 +        neg_op = INDEX_op_neg_vec;
 +        have_neg = (TCG_TARGET_HAS_neg_vec &&
 +                    tcg_can_emit_vec_op(neg_op, ctx->type, TCGOP_VECE(op)) > 0);
 +        break;
 +    default:
 +        g_assert_not_reached();
 +    }
 +    if (have_neg) {
 +        op->opc = neg_op;
 +        op->args[1] = op->args[2];
 +        return fold_neg(ctx, op);
 +    }
 +    return false;
 +}
 +
  static bool fold_sub(OptContext *ctx, TCGOp *op)
  {
      if (fold_const2(ctx, op) ||
 -        fold_xx_to_i(ctx, op, 0)) {
 +        fold_xx_to_i(ctx, op, 0) ||
 +        fold_sub_to_neg(ctx, op)) {
          return true;
      }
      return false;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
                  continue;
              }
              break;
--        case DISAS_TB_JUMP:
+-        CASE_OP_32_64_VEC(sub):
-+        case DISAS_NORETURN:
+-            {
-             /* nothing more to generate */
+-                TCGOpcode neg_op;
 -                bool have_neg;
 -
 -                if (arg_is_const(op->args[2])) {
 -                    /* Proceed with possible constant folding. */
 -                    break;
 -                }
 -                switch (ctx.type) {
 -                case TCG_TYPE_I32:
 -                    neg_op = INDEX_op_neg_i32;
 -                    have_neg = TCG_TARGET_HAS_neg_i32;
 -                    break;
 -                case TCG_TYPE_I64:
 -                    neg_op = INDEX_op_neg_i64;
 -                    have_neg = TCG_TARGET_HAS_neg_i64;
 -                    break;
 -                case TCG_TYPE_V64:
 -                case TCG_TYPE_V128:
 -                case TCG_TYPE_V256:
 -                    neg_op = INDEX_op_neg_vec;
 -                    have_neg = tcg_can_emit_vec_op(neg_op, ctx.type,
 -                                                   TCGOP_VECE(op)) > 0;
 -                    break;
 -                default:
 -                    g_assert_not_reached();
 -                }
 -                if (!have_neg) {
 -                    break;
 -                }
 -                if (arg_is_const(op->args[1])
 -                    && arg_info(op->args[1])->val == 0) {
 -                    op->opc = neg_op;
 -                    reset_temp(op->args[0]);
 -                    op->args[1] = op->args[2];
 -                    continue;
 -                }
 -            }
 -            break;
          default:
              break;
          }
 --
 .25.1

-[PULL 29/63] tcg: Add tcg_gen_vec_add{sub}16_i32
+[PULL 41/56] tcg/optimize: Split out fold_xi_to_x
-From: LIU Zhiwei <zhiwei_liu@c-sky.com>
+Pull the "op r, a, i => mov r, a" optimization into a function,
 and use them in the outer-most logical operations.
-Implement tcg_gen_vec_add{sub}16_tl by adding corresponding i32 OP.
+Reviewed-by: Luis Pires <luis.pires@eldorado.org.br>
 Signed-off-by: LIU Zhiwei <zhiwei_liu@c-sky.com>
 Message-Id: <20210624105023.3852-2-zhiwei_liu@c-sky.com>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- include/tcg/tcg-op-gvec.h | 13 +++++++++++++
+ tcg/optimize.c | 61 +++++++++++++++++++++-----------------------------
- tcg/tcg-op-gvec.c         | 28 ++++++++++++++++++++++++++++
+file changed, 26 insertions(+), 35 deletions(-)
 files changed, 41 insertions(+)
-diff --git a/include/tcg/tcg-op-gvec.h b/include/tcg/tcg-op-gvec.h
+diff --git a/tcg/optimize.c b/tcg/optimize.c
 index XXXXXXX..XXXXXXX 100644
---- a/include/tcg/tcg-op-gvec.h
+--- a/tcg/optimize.c
-+++ b/include/tcg/tcg-op-gvec.h
++++ b/tcg/optimize.c
-@@ -XXX,XX +XXX,XX @@ void tcg_gen_vec_sar16i_i64(TCGv_i64 d, TCGv_i64 a, int64_t);
+@@ -XXX,XX +XXX,XX @@ static bool fold_xi_to_i(OptContext *ctx, TCGOp *op, uint64_t i)
- void tcg_gen_vec_rotl8i_i64(TCGv_i64 d, TCGv_i64 a, int64_t c);
+     return false;
  void tcg_gen_vec_rotl16i_i64(TCGv_i64 d, TCGv_i64 a, int64_t c);
 +/* 32-bit vector operations. */
 +void tcg_gen_vec_add16_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b);
 +
 +void tcg_gen_vec_sub16_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b);
 +
 +#if TARGET_LONG_BITS == 64
 +#define tcg_gen_vec_add16_tl tcg_gen_vec_add16_i64
 +#define tcg_gen_vec_sub16_tl tcg_gen_vec_sub16_i64
 +#else
 +#define tcg_gen_vec_add16_tl tcg_gen_vec_add16_i32
 +#define tcg_gen_vec_sub16_tl tcg_gen_vec_sub16_i32
 +#endif
 +
  #endif
 diff --git a/tcg/tcg-op-gvec.c b/tcg/tcg-op-gvec.c
 index XXXXXXX..XXXXXXX 100644
 --- a/tcg/tcg-op-gvec.c
 +++ b/tcg/tcg-op-gvec.c
@@ -XXX,XX +XXX,XX @@ void tcg_gen_vec_add16_i64(TCGv_i64 d, TCGv_i64 a, TCGv_i64 b)
      gen_addv_mask(d, a, b, m);
  }
-+void tcg_gen_vec_add16_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b)
++/* If the binary operation has second argument @i, fold to identity. */
 +static bool fold_xi_to_x(OptContext *ctx, TCGOp *op, uint64_t i)
 +{
-+    TCGv_i32 t1 = tcg_temp_new_i32();
++    if (arg_is_const(op->args[2]) && arg_info(op->args[2])->val == i) {
-+    TCGv_i32 t2 = tcg_temp_new_i32();
++        return tcg_opt_gen_mov(ctx, op, op->args[0], op->args[1]);
-+
++    }
-+    tcg_gen_andi_i32(t1, a, ~0xffff);
++    return false;
 +    tcg_gen_add_i32(t2, a, b);
 +    tcg_gen_add_i32(t1, t1, b);
 +    tcg_gen_deposit_i32(d, t1, t2, 0, 16);
 +
 +    tcg_temp_free_i32(t1);
 +    tcg_temp_free_i32(t2);
 +}
 +
- void tcg_gen_vec_add32_i64(TCGv_i64 d, TCGv_i64 a, TCGv_i64 b)
+ /* If the binary operation has second argument @i, fold to NOT. */
  static bool fold_xi_to_not(OptContext *ctx, TCGOp *op, uint64_t i)
  {
-     TCGv_i64 t1 = tcg_temp_new_i64();
+@@ -XXX,XX +XXX,XX @@ static bool fold_xx_to_x(OptContext *ctx, TCGOp *op)
-@@ -XXX,XX +XXX,XX @@ void tcg_gen_vec_sub16_i64(TCGv_i64 d, TCGv_i64 a, TCGv_i64 b)
-     gen_subv_mask(d, a, b, m);
+ static bool fold_add(OptContext *ctx, TCGOp *op)
  {
 -    return fold_const2(ctx, op);
 +    if (fold_const2(ctx, op) ||
 +        fold_xi_to_x(ctx, op, 0)) {
 +        return true;
 +    }
 +    return false;
  }
-+void tcg_gen_vec_sub16_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b)
+ static bool fold_addsub2_i32(OptContext *ctx, TCGOp *op, bool add)
-+{
+@@ -XXX,XX +XXX,XX @@ static bool fold_and(OptContext *ctx, TCGOp *op)
 +    TCGv_i32 t1 = tcg_temp_new_i32();
 +    TCGv_i32 t2 = tcg_temp_new_i32();
 +
 +    tcg_gen_andi_i32(t1, b, ~0xffff);
 +    tcg_gen_sub_i32(t2, a, b);
 +    tcg_gen_sub_i32(t1, a, t1);
 +    tcg_gen_deposit_i32(d, t1, t2, 0, 16);
 +
 +    tcg_temp_free_i32(t1);
 +    tcg_temp_free_i32(t2);
 +}
 +
  void tcg_gen_vec_sub32_i64(TCGv_i64 d, TCGv_i64 a, TCGv_i64 b)
  {
-     TCGv_i64 t1 = tcg_temp_new_i64();
+     if (fold_const2(ctx, op) ||
          fold_xi_to_i(ctx, op, 0) ||
 +        fold_xi_to_x(ctx, op, -1) ||
          fold_xx_to_x(ctx, op)) {
          return true;
      }
@@ -XXX,XX +XXX,XX @@ static bool fold_andc(OptContext *ctx, TCGOp *op)
  {
      if (fold_const2(ctx, op) ||
          fold_xx_to_i(ctx, op, 0) ||
 +        fold_xi_to_x(ctx, op, 0) ||
          fold_ix_to_not(ctx, op, -1)) {
          return true;
      }
@@ -XXX,XX +XXX,XX @@ static bool fold_dup2(OptContext *ctx, TCGOp *op)
  static bool fold_eqv(OptContext *ctx, TCGOp *op)
  {
      if (fold_const2(ctx, op) ||
 +        fold_xi_to_x(ctx, op, -1) ||
          fold_xi_to_not(ctx, op, 0)) {
          return true;
      }
@@ -XXX,XX +XXX,XX @@ static bool fold_not(OptContext *ctx, TCGOp *op)
  static bool fold_or(OptContext *ctx, TCGOp *op)
  {
      if (fold_const2(ctx, op) ||
 +        fold_xi_to_x(ctx, op, 0) ||
          fold_xx_to_x(ctx, op)) {
          return true;
      }
@@ -XXX,XX +XXX,XX @@ static bool fold_or(OptContext *ctx, TCGOp *op)
  static bool fold_orc(OptContext *ctx, TCGOp *op)
  {
      if (fold_const2(ctx, op) ||
 +        fold_xi_to_x(ctx, op, -1) ||
          fold_ix_to_not(ctx, op, 0)) {
          return true;
      }
@@ -XXX,XX +XXX,XX @@ static bool fold_sextract(OptContext *ctx, TCGOp *op)
  static bool fold_shift(OptContext *ctx, TCGOp *op)
  {
 -    return fold_const2(ctx, op);
 +    if (fold_const2(ctx, op) ||
 +        fold_xi_to_x(ctx, op, 0)) {
 +        return true;
 +    }
 +    return false;
  }
  static bool fold_sub_to_neg(OptContext *ctx, TCGOp *op)
@@ -XXX,XX +XXX,XX @@ static bool fold_sub(OptContext *ctx, TCGOp *op)
  {
      if (fold_const2(ctx, op) ||
          fold_xx_to_i(ctx, op, 0) ||
 +        fold_xi_to_x(ctx, op, 0) ||
          fold_sub_to_neg(ctx, op)) {
          return true;
      }
@@ -XXX,XX +XXX,XX @@ static bool fold_xor(OptContext *ctx, TCGOp *op)
  {
      if (fold_const2(ctx, op) ||
          fold_xx_to_i(ctx, op, 0) ||
 +        fold_xi_to_x(ctx, op, 0) ||
          fold_xi_to_not(ctx, op, -1)) {
          return true;
      }
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
              break;
          }
 -        /* Simplify expression for "op r, a, const => mov r, a" cases */
 -        switch (opc) {
 -        CASE_OP_32_64_VEC(add):
 -        CASE_OP_32_64_VEC(sub):
 -        CASE_OP_32_64_VEC(or):
 -        CASE_OP_32_64_VEC(xor):
 -        CASE_OP_32_64_VEC(andc):
 -        CASE_OP_32_64(shl):
 -        CASE_OP_32_64(shr):
 -        CASE_OP_32_64(sar):
 -        CASE_OP_32_64(rotl):
 -        CASE_OP_32_64(rotr):
 -            if (!arg_is_const(op->args[1])
 -                && arg_is_const(op->args[2])
 -                && arg_info(op->args[2])->val == 0) {
 -                tcg_opt_gen_mov(&ctx, op, op->args[0], op->args[1]);
 -                continue;
 -            }
 -            break;
 -        CASE_OP_32_64_VEC(and):
 -        CASE_OP_32_64_VEC(orc):
 -        CASE_OP_32_64(eqv):
 -            if (!arg_is_const(op->args[1])
 -                && arg_is_const(op->args[2])
 -                && arg_info(op->args[2])->val == -1) {
 -                tcg_opt_gen_mov(&ctx, op, op->args[0], op->args[1]);
 -                continue;
 -            }
 -            break;
 -        default:
 -            break;
 -        }
 -
          /* Simplify using known-zero bits. Currently only ops with a single
             output argument is supported. */
          z_mask = -1;
 --
 .25.1

-[PULL 44/63] tcg/ppc: Split out tcg_out_bswap64
+[PULL 42/56] tcg/optimize: Split out fold_ix_to_i
-Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
+Pull the "op r, 0, b => movi r, 0" optimization into a function,
 and use it in fold_shift.
 Reviewed-by: Luis Pires <luis.pires@eldorado.org.br>
 Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- tcg/ppc/tcg-target.c.inc | 64 +++++++++++++++++++++-------------------
+ tcg/optimize.c | 28 ++++++++++------------------
-file changed, 34 insertions(+), 30 deletions(-)
+file changed, 10 insertions(+), 18 deletions(-)
-diff --git a/tcg/ppc/tcg-target.c.inc b/tcg/ppc/tcg-target.c.inc
+diff --git a/tcg/optimize.c b/tcg/optimize.c
 index XXXXXXX..XXXXXXX 100644
---- a/tcg/ppc/tcg-target.c.inc
+--- a/tcg/optimize.c
-+++ b/tcg/ppc/tcg-target.c.inc
++++ b/tcg/optimize.c
-@@ -XXX,XX +XXX,XX @@ static void tcg_out_bswap32(TCGContext *s, TCGReg dst, TCGReg src)
+@@ -XXX,XX +XXX,XX @@ static bool fold_to_not(OptContext *ctx, TCGOp *op, int idx)
-     tcg_out_mov(s, TCG_TYPE_REG, dst, tmp);
+     return false;
  }
-+static void tcg_out_bswap64(TCGContext *s, TCGReg dst, TCGReg src)
++/* If the binary operation has first argument @i, fold to @i. */
 +static bool fold_ix_to_i(OptContext *ctx, TCGOp *op, uint64_t i)
 +{
-+    TCGReg t0 = dst == src ? TCG_REG_R0 : dst;
++    if (arg_is_const(op->args[1]) && arg_info(op->args[1])->val == i) {
-+    TCGReg t1 = dst == src ? dst : TCG_REG_R0;
++        return tcg_opt_gen_movi(ctx, op, op->args[0], i);
-+
++    }
-+    /*
++    return false;
 +     * In the following,
 +     *   dep(a, b, m) -> (a & ~m) | (b & m)
 +     *
 +     * Begin with:                              src = abcdefgh
 +     */
 +    /* t0 = rol32(src, 8) & 0xffffffff              = 0000fghe */
 +    tcg_out_rlw(s, RLWINM, t0, src, 8, 0, 31);
 +    /* t0 = dep(t0, rol32(src, 24), 0xff000000)     = 0000hghe */
 +    tcg_out_rlw(s, RLWIMI, t0, src, 24, 0, 7);
 +    /* t0 = dep(t0, rol32(src, 24), 0x0000ff00)     = 0000hgfe */
 +    tcg_out_rlw(s, RLWIMI, t0, src, 24, 16, 23);
 +
 +    /* t0 = rol64(t0, 32)                           = hgfe0000 */
 +    tcg_out_rld(s, RLDICL, t0, t0, 32, 0);
 +    /* t1 = rol64(src, 32)                          = efghabcd */
 +    tcg_out_rld(s, RLDICL, t1, src, 32, 0);
 +
 +    /* t0 = dep(t0, rol32(t1, 24), 0xffffffff)      = hgfebcda */
 +    tcg_out_rlw(s, RLWIMI, t0, t1, 8, 0, 31);
 +    /* t0 = dep(t0, rol32(t1, 24), 0xff000000)      = hgfedcda */
 +    tcg_out_rlw(s, RLWIMI, t0, t1, 24, 0, 7);
 +    /* t0 = dep(t0, rol32(t1, 24), 0x0000ff00)      = hgfedcba */
 +    tcg_out_rlw(s, RLWIMI, t0, t1, 24, 16, 23);
 +
 +    tcg_out_mov(s, TCG_TYPE_REG, dst, t0);
 +}
 +
- /* Emit a move into ret of arg, if it can be done in one insn.  */
+ /* If the binary operation has first argument @i, fold to NOT. */
- static bool tcg_out_movi_one(TCGContext *s, TCGReg ret, tcg_target_long arg)
+ static bool fold_ix_to_not(OptContext *ctx, TCGOp *op, uint64_t i)
  {
-@@ -XXX,XX +XXX,XX @@ static void tcg_out_op(TCGContext *s, TCGOpcode opc,
+@@ -XXX,XX +XXX,XX @@ static bool fold_sextract(OptContext *ctx, TCGOp *op)
-     case INDEX_op_bswap32_i64:
+ static bool fold_shift(OptContext *ctx, TCGOp *op)
-         tcg_out_bswap32(s, args[0], args[1]);
+ {
-         break;
+     if (fold_const2(ctx, op) ||
--
++        fold_ix_to_i(ctx, op, 0) ||
-     case INDEX_op_bswap64_i64:
+         fold_xi_to_x(ctx, op, 0)) {
--        a0 = args[0], a1 = args[1], a2 = TCG_REG_R0;
+         return true;
--        if (a0 == a1) {
+     }
--            a0 = TCG_REG_R0;
+@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
--            a2 = a1;
+             break;
          }
 -        /* Simplify expressions for "shift/rot r, 0, a => movi r, 0",
 -           and "sub r, 0, a => neg r, a" case.  */
 -        switch (opc) {
 -        CASE_OP_32_64(shl):
 -        CASE_OP_32_64(shr):
 -        CASE_OP_32_64(sar):
 -        CASE_OP_32_64(rotl):
 -        CASE_OP_32_64(rotr):
 -            if (arg_is_const(op->args[1])
 -                && arg_info(op->args[1])->val == 0) {
 -                tcg_opt_gen_movi(&ctx, op, op->args[0], 0);
 -                continue;
 -            }
 -            break;
 -        default:
 -            break;
 -        }
 -
--        /* a1 = # abcd efgh */
+         /* Simplify using known-zero bits. Currently only ops with a single
--        /* a0 = rl32(a1, 8) # 0000 fghe */
+            output argument is supported. */
--        tcg_out_rlw(s, RLWINM, a0, a1, 8, 0, 31);
+         z_mask = -1;
 -        /* a0 = dep(a0, rl32(a1, 24), 0xff000000) # 0000 hghe */
 -        tcg_out_rlw(s, RLWIMI, a0, a1, 24, 0, 7);
 -        /* a0 = dep(a0, rl32(a1, 24), 0x0000ff00) # 0000 hgfe */
 -        tcg_out_rlw(s, RLWIMI, a0, a1, 24, 16, 23);
 -
 -        /* a0 = rl64(a0, 32) # hgfe 0000 */
 -        /* a2 = rl64(a1, 32) # efgh abcd */
 -        tcg_out_rld(s, RLDICL, a0, a0, 32, 0);
 -        tcg_out_rld(s, RLDICL, a2, a1, 32, 0);
 -
 -        /* a0 = dep(a0, rl32(a2, 8), 0xffffffff)  # hgfe bcda */
 -        tcg_out_rlw(s, RLWIMI, a0, a2, 8, 0, 31);
 -        /* a0 = dep(a0, rl32(a2, 24), 0xff000000) # hgfe dcda */
 -        tcg_out_rlw(s, RLWIMI, a0, a2, 24, 0, 7);
 -        /* a0 = dep(a0, rl32(a2, 24), 0x0000ff00) # hgfe dcba */
 -        tcg_out_rlw(s, RLWIMI, a0, a2, 24, 16, 23);
 -
 -        if (a0 == 0) {
 -            tcg_out_mov(s, TCG_TYPE_REG, args[0], a0);
 -        }
 +        tcg_out_bswap64(s, args[0], args[1]);
          break;
      case INDEX_op_deposit_i32:
 --
 .25.1

-[PULL 61/63] tcg/arm: Unset TCG_TARGET_HAS_MEMORY_BSWAP
+[PULL 43/56] tcg/optimize: Split out fold_masks
-Now that the middle-end can replicate the same tricks as tcg/arm
+Move all of the known-zero optimizations into the per-opcode
-used for optimizing bswap for signed loads and for stores, do not
+functions.  Use fold_masks when there is a possibility of the
-pretend to have these memory ops in the backend.
+result being determined, and simply set ctx->z_mask otherwise.
-Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
+Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
 Reviewed-by: Luis Pires <luis.pires@eldorado.org.br>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- tcg/arm/tcg-target.h     |   2 +-
+ tcg/optimize.c | 545 ++++++++++++++++++++++++++-----------------------
- tcg/arm/tcg-target.c.inc | 214 ++++++++++++++-------------------------
+file changed, 294 insertions(+), 251 deletions(-)
 files changed, 77 insertions(+), 139 deletions(-)
-diff --git a/tcg/arm/tcg-target.h b/tcg/arm/tcg-target.h
+diff --git a/tcg/optimize.c b/tcg/optimize.c
 index XXXXXXX..XXXXXXX 100644
---- a/tcg/arm/tcg-target.h
+--- a/tcg/optimize.c
-+++ b/tcg/arm/tcg-target.h
++++ b/tcg/optimize.c
-@@ -XXX,XX +XXX,XX @@ extern bool use_neon_instructions;
+@@ -XXX,XX +XXX,XX @@ typedef struct OptContext {
- #define TCG_TARGET_HAS_cmpsel_vec       0
+     TCGTempSet temps_used;
- #define TCG_TARGET_DEFAULT_MO (0)
+     /* In flight values from optimization. */
--#define TCG_TARGET_HAS_MEMORY_BSWAP     1
+-    uint64_t z_mask;
-+#define TCG_TARGET_HAS_MEMORY_BSWAP     0
++    uint64_t a_mask;  /* mask bit is 0 iff value identical to first input */
++    uint64_t z_mask;  /* mask bit is 0 iff value bit is 0 */
- /* not defined -- call should be eliminated at compile time */
+     TCGType type;
- void tb_target_set_jmp_target(uintptr_t, uintptr_t, uintptr_t, uintptr_t);
+ } OptContext;
-diff --git a/tcg/arm/tcg-target.c.inc b/tcg/arm/tcg-target.c.inc
-index XXXXXXX..XXXXXXX 100644
+@@ -XXX,XX +XXX,XX @@ static bool fold_const2(OptContext *ctx, TCGOp *op)
---- a/tcg/arm/tcg-target.c.inc
+     return false;
-+++ b/tcg/arm/tcg-target.c.inc
+ }
-@@ -XXX,XX +XXX,XX @@ static void tcg_out_vldst(TCGContext *s, ARMInsn insn,
- /* helper signature: helper_ret_ld_mmu(CPUState *env, target_ulong addr,
++static bool fold_masks(OptContext *ctx, TCGOp *op)
-  *                                     int mmu_idx, uintptr_t ra)
++{
-  */
++    uint64_t a_mask = ctx->a_mask;
--static void * const qemu_ld_helpers[16] = {
++    uint64_t z_mask = ctx->z_mask;
-+static void * const qemu_ld_helpers[8] = {
++
-     [MO_UB]   = helper_ret_ldub_mmu,
++    /*
-     [MO_SB]   = helper_ret_ldsb_mmu,
++     * 32-bit ops generate 32-bit results.  For the result is zero test
--
++     * below, we can ignore high bits, but for further optimizations we
--    [MO_LEUW] = helper_le_lduw_mmu,
++     * need to record that the high bits contain garbage.
--    [MO_LEUL] = helper_le_ldul_mmu,
++     */
--    [MO_LEQ]  = helper_le_ldq_mmu,
++    if (ctx->type == TCG_TYPE_I32) {
--    [MO_LESW] = helper_le_ldsw_mmu,
++        ctx->z_mask |= MAKE_64BIT_MASK(32, 32);
--    [MO_LESL] = helper_le_ldul_mmu,
++        a_mask &= MAKE_64BIT_MASK(0, 32);
--
++        z_mask &= MAKE_64BIT_MASK(0, 32);
--    [MO_BEUW] = helper_be_lduw_mmu,
++    }
--    [MO_BEUL] = helper_be_ldul_mmu,
++
--    [MO_BEQ]  = helper_be_ldq_mmu,
++    if (z_mask == 0) {
--    [MO_BESW] = helper_be_ldsw_mmu,
++        return tcg_opt_gen_movi(ctx, op, op->args[0], 0);
--    [MO_BESL] = helper_be_ldul_mmu,
++    }
-+#ifdef HOST_WORDS_BIGENDIAN
++    if (a_mask == 0) {
-+    [MO_UW] = helper_be_lduw_mmu,
++        return tcg_opt_gen_mov(ctx, op, op->args[0], op->args[1]);
-+    [MO_UL] = helper_be_ldul_mmu,
++    }
-+    [MO_Q]  = helper_be_ldq_mmu,
++    return false;
-+    [MO_SW] = helper_be_ldsw_mmu,
++}
-+    [MO_SL] = helper_be_ldul_mmu,
++
-+#else
+ /*
-+    [MO_UW] = helper_le_lduw_mmu,
+  * Convert @op to NOT, if NOT is supported by the host.
-+    [MO_UL] = helper_le_ldul_mmu,
+  * Return true f the conversion is successful, which will still
-+    [MO_Q]  = helper_le_ldq_mmu,
+@@ -XXX,XX +XXX,XX @@ static bool fold_add2_i32(OptContext *ctx, TCGOp *op)
-+    [MO_SW] = helper_le_ldsw_mmu,
-+    [MO_SL] = helper_le_ldul_mmu,
+ static bool fold_and(OptContext *ctx, TCGOp *op)
-+#endif
+ {
- };
++    uint64_t z1, z2;
++
- /* helper signature: helper_ret_st_mmu(CPUState *env, target_ulong addr,
+     if (fold_const2(ctx, op) ||
-  *                                     uintxx_t val, int mmu_idx, uintptr_t ra)
+         fold_xi_to_i(ctx, op, 0) ||
-  */
+         fold_xi_to_x(ctx, op, -1) ||
--static void * const qemu_st_helpers[16] = {
+         fold_xx_to_x(ctx, op)) {
--    [MO_UB]   = helper_ret_stb_mmu,
+         return true;
--    [MO_LEUW] = helper_le_stw_mmu,
+     }
--    [MO_LEUL] = helper_le_stl_mmu,
+-    return false;
--    [MO_LEQ]  = helper_le_stq_mmu,
++
--    [MO_BEUW] = helper_be_stw_mmu,
++    z1 = arg_info(op->args[1])->z_mask;
--    [MO_BEUL] = helper_be_stl_mmu,
++    z2 = arg_info(op->args[2])->z_mask;
--    [MO_BEQ]  = helper_be_stq_mmu,
++    ctx->z_mask = z1 & z2;
-+static void * const qemu_st_helpers[4] = {
++
-+    [MO_8]   = helper_ret_stb_mmu,
++    /*
-+#ifdef HOST_WORDS_BIGENDIAN
++     * Known-zeros does not imply known-ones.  Therefore unless
-+    [MO_16] = helper_be_stw_mmu,
++     * arg2 is constant, we can't infer affected bits from it.
-+    [MO_32] = helper_be_stl_mmu,
++     */
-+    [MO_64] = helper_be_stq_mmu,
++    if (arg_is_const(op->args[2])) {
-+#else
++        ctx->a_mask = z1 & ~z2;
-+    [MO_16] = helper_le_stw_mmu,
++    }
-+    [MO_32] = helper_le_stl_mmu,
++
-+    [MO_64] = helper_le_stq_mmu,
++    return fold_masks(ctx, op);
-+#endif
+ }
- };
+ static bool fold_andc(OptContext *ctx, TCGOp *op)
- /* Helper routines for marshalling helper function arguments into
+ {
-@@ -XXX,XX +XXX,XX @@ static bool tcg_out_qemu_ld_slow_path(TCGContext *s, TCGLabelQemuLdst *lb)
++    uint64_t z1;
-        icache usage.  For pre-armv6, use the signed helpers since we do
++
-        not have a single insn sign-extend.  */
+     if (fold_const2(ctx, op) ||
-     if (use_armv6_instructions) {
+         fold_xx_to_i(ctx, op, 0) ||
--        func = qemu_ld_helpers[opc & (MO_BSWAP | MO_SIZE)];
+         fold_xi_to_x(ctx, op, 0) ||
-+        func = qemu_ld_helpers[opc & MO_SIZE];
+         fold_ix_to_not(ctx, op, -1)) {
-     } else {
+         return true;
--        func = qemu_ld_helpers[opc & (MO_BSWAP | MO_SSIZE)];
+     }
-+        func = qemu_ld_helpers[opc & MO_SSIZE];
+-    return false;
-         if (opc & MO_SIGN) {
++
-             opc = MO_UL;
++    z1 = arg_info(op->args[1])->z_mask;
-         }
++
-@@ -XXX,XX +XXX,XX @@ static bool tcg_out_qemu_st_slow_path(TCGContext *s, TCGLabelQemuLdst *lb)
++    /*
-     argreg = tcg_out_arg_reg32(s, argreg, TCG_REG_R14);
++     * Known-zeros does not imply known-ones.  Therefore unless
++     * arg2 is constant, we can't infer anything from it.
-     /* Tail-call to the helper, which will return to the fast path.  */
++     */
--    tcg_out_goto(s, COND_AL, qemu_st_helpers[opc & (MO_BSWAP | MO_SIZE)]);
++    if (arg_is_const(op->args[2])) {
-+    tcg_out_goto(s, COND_AL, qemu_st_helpers[opc & MO_SIZE]);
++        uint64_t z2 = ~arg_info(op->args[2])->z_mask;
-     return true;
++        ctx->a_mask = z1 & ~z2;
- }
++        z1 &= z2;
- #endif /* SOFTMMU */
++    }
-@@ -XXX,XX +XXX,XX @@ static inline void tcg_out_qemu_ld_index(TCGContext *s, MemOp opc,
++    ctx->z_mask = z1;
-                                          TCGReg datalo, TCGReg datahi,
++
-                                          TCGReg addrlo, TCGReg addend)
++    return fold_masks(ctx, op);
- {
+ }
--    MemOp bswap = opc & MO_BSWAP;
-+    /* Byte swapping is left to middle-end expansion. */
+ static bool fold_brcond(OptContext *ctx, TCGOp *op)
-+    tcg_debug_assert((opc & MO_BSWAP) == 0);
+@@ -XXX,XX +XXX,XX @@ static bool fold_brcond2(OptContext *ctx, TCGOp *op)
-     switch (opc & MO_SSIZE) {
+ static bool fold_bswap(OptContext *ctx, TCGOp *op)
-     case MO_UB:
+ {
-@@ -XXX,XX +XXX,XX @@ static inline void tcg_out_qemu_ld_index(TCGContext *s, MemOp opc,
++    uint64_t z_mask, sign;
-         break;
++
-     case MO_UW:
+     if (arg_is_const(op->args[1])) {
-         tcg_out_ld16u_r(s, COND_AL, datalo, addrlo, addend);
+         uint64_t t = arg_info(op->args[1])->val;
--        if (bswap) {
--            tcg_out_bswap16(s, COND_AL, datalo, datalo,
+         t = do_constant_folding(op->opc, ctx->type, t, op->args[2]);
--                            TCG_BSWAP_IZ | TCG_BSWAP_OZ);
+         return tcg_opt_gen_movi(ctx, op, op->args[0], t);
--        }
+     }
-         break;
+-    return false;
-     case MO_SW:
++
--        if (bswap) {
++    z_mask = arg_info(op->args[1])->z_mask;
--            tcg_out_ld16u_r(s, COND_AL, datalo, addrlo, addend);
++    switch (op->opc) {
--            tcg_out_bswap16(s, COND_AL, datalo, datalo,
++    case INDEX_op_bswap16_i32:
--                            TCG_BSWAP_IZ | TCG_BSWAP_OS);
++    case INDEX_op_bswap16_i64:
--        } else {
++        z_mask = bswap16(z_mask);
--            tcg_out_ld16s_r(s, COND_AL, datalo, addrlo, addend);
++        sign = INT16_MIN;
--        }
++        break;
-+        tcg_out_ld16s_r(s, COND_AL, datalo, addrlo, addend);
++    case INDEX_op_bswap32_i32:
-         break;
++    case INDEX_op_bswap32_i64:
-     case MO_UL:
++        z_mask = bswap32(z_mask);
--    default:
++        sign = INT32_MIN;
-         tcg_out_ld32_r(s, COND_AL, datalo, addrlo, addend);
++        break;
--        if (bswap) {
++    case INDEX_op_bswap64_i64:
--            tcg_out_bswap32(s, COND_AL, datalo, datalo);
++        z_mask = bswap64(z_mask);
--        }
++        sign = INT64_MIN;
-         break;
++        break;
      case MO_Q:
 -        {
 -            TCGReg dl = (bswap ? datahi : datalo);
 -            TCGReg dh = (bswap ? datalo : datahi);
 -
 -            /* Avoid ldrd for user-only emulation, to handle unaligned.  */
 -            if (USING_SOFTMMU && use_armv6_instructions
 -                && (dl & 1) == 0 && dh == dl + 1) {
 -                tcg_out_ldrd_r(s, COND_AL, dl, addrlo, addend);
 -            } else if (dl != addend) {
 -                tcg_out_ld32_rwb(s, COND_AL, dl, addend, addrlo);
 -                tcg_out_ld32_12(s, COND_AL, dh, addend, 4);
 -            } else {
 -                tcg_out_dat_reg(s, COND_AL, ARITH_ADD, TCG_REG_TMP,
 -                                addend, addrlo, SHIFT_IMM_LSL(0));
 -                tcg_out_ld32_12(s, COND_AL, dl, TCG_REG_TMP, 0);
 -                tcg_out_ld32_12(s, COND_AL, dh, TCG_REG_TMP, 4);
 -            }
 -            if (bswap) {
 -                tcg_out_bswap32(s, COND_AL, dl, dl);
 -                tcg_out_bswap32(s, COND_AL, dh, dh);
 -            }
 +        /* Avoid ldrd for user-only emulation, to handle unaligned.  */
 +        if (USING_SOFTMMU && use_armv6_instructions
 +            && (datalo & 1) == 0 && datahi == datalo + 1) {
 +            tcg_out_ldrd_r(s, COND_AL, datalo, addrlo, addend);
 +        } else if (datalo != addend) {
 +            tcg_out_ld32_rwb(s, COND_AL, datalo, addend, addrlo);
 +            tcg_out_ld32_12(s, COND_AL, datahi, addend, 4);
 +        } else {
 +            tcg_out_dat_reg(s, COND_AL, ARITH_ADD, TCG_REG_TMP,
 +                            addend, addrlo, SHIFT_IMM_LSL(0));
 +            tcg_out_ld32_12(s, COND_AL, datalo, TCG_REG_TMP, 0);
 +            tcg_out_ld32_12(s, COND_AL, datahi, TCG_REG_TMP, 4);
          }
          break;
 +    default:
 +        g_assert_not_reached();
-     }
++    }
- }
++
++    switch (op->args[2] & (TCG_BSWAP_OZ | TCG_BSWAP_OS)) {
-@@ -XXX,XX +XXX,XX @@ static inline void tcg_out_qemu_ld_direct(TCGContext *s, MemOp opc,
++    case TCG_BSWAP_OZ:
-                                           TCGReg datalo, TCGReg datahi,
++        break;
-                                           TCGReg addrlo)
++    case TCG_BSWAP_OS:
- {
++        /* If the sign bit may be 1, force all the bits above to 1. */
--    MemOp bswap = opc & MO_BSWAP;
++        if (z_mask & sign) {
-+    /* Byte swapping is left to middle-end expansion. */
++            z_mask |= sign;
-+    tcg_debug_assert((opc & MO_BSWAP) == 0);
++        }
++        break;
-     switch (opc & MO_SSIZE) {
++    default:
-     case MO_UB:
++        /* The high bits are undefined: force all bits above the sign to 1. */
-@@ -XXX,XX +XXX,XX @@ static inline void tcg_out_qemu_ld_direct(TCGContext *s, MemOp opc,
++        z_mask |= sign << 1;
-         break;
++        break;
-     case MO_UW:
++    }
-         tcg_out_ld16u_8(s, COND_AL, datalo, addrlo, 0);
++    ctx->z_mask = z_mask;
--        if (bswap) {
++
--            tcg_out_bswap16(s, COND_AL, datalo, datalo,
++    return fold_masks(ctx, op);
--                            TCG_BSWAP_IZ | TCG_BSWAP_OZ);
+ }
--        }
-         break;
+ static bool fold_call(OptContext *ctx, TCGOp *op)
-     case MO_SW:
+@@ -XXX,XX +XXX,XX @@ static bool fold_call(OptContext *ctx, TCGOp *op)
--        if (bswap) {
--            tcg_out_ld16u_8(s, COND_AL, datalo, addrlo, 0);
+ static bool fold_count_zeros(OptContext *ctx, TCGOp *op)
--            tcg_out_bswap16(s, COND_AL, datalo, datalo,
+ {
--                            TCG_BSWAP_IZ | TCG_BSWAP_OS);
++    uint64_t z_mask;
--        } else {
++
--            tcg_out_ld16s_8(s, COND_AL, datalo, addrlo, 0);
+     if (arg_is_const(op->args[1])) {
--        }
+         uint64_t t = arg_info(op->args[1])->val;
-+        tcg_out_ld16s_8(s, COND_AL, datalo, addrlo, 0);
-         break;
+@@ -XXX,XX +XXX,XX @@ static bool fold_count_zeros(OptContext *ctx, TCGOp *op)
      case MO_UL:
 -    default:
          tcg_out_ld32_12(s, COND_AL, datalo, addrlo, 0);
 -        if (bswap) {
 -            tcg_out_bswap32(s, COND_AL, datalo, datalo);
 -        }
          break;
      case MO_Q:
 -        {
 -            TCGReg dl = (bswap ? datahi : datalo);
 -            TCGReg dh = (bswap ? datalo : datahi);
 -
 -            /* Avoid ldrd for user-only emulation, to handle unaligned.  */
 -            if (USING_SOFTMMU && use_armv6_instructions
 -                && (dl & 1) == 0 && dh == dl + 1) {
 -                tcg_out_ldrd_8(s, COND_AL, dl, addrlo, 0);
 -            } else if (dl == addrlo) {
 -                tcg_out_ld32_12(s, COND_AL, dh, addrlo, bswap ? 0 : 4);
 -                tcg_out_ld32_12(s, COND_AL, dl, addrlo, bswap ? 4 : 0);
 -            } else {
 -                tcg_out_ld32_12(s, COND_AL, dl, addrlo, bswap ? 4 : 0);
 -                tcg_out_ld32_12(s, COND_AL, dh, addrlo, bswap ? 0 : 4);
 -            }
 -            if (bswap) {
 -                tcg_out_bswap32(s, COND_AL, dl, dl);
 -                tcg_out_bswap32(s, COND_AL, dh, dh);
 -            }
 +        /* Avoid ldrd for user-only emulation, to handle unaligned.  */
 +        if (USING_SOFTMMU && use_armv6_instructions
 +            && (datalo & 1) == 0 && datahi == datalo + 1) {
 +            tcg_out_ldrd_8(s, COND_AL, datalo, addrlo, 0);
 +        } else if (datalo == addrlo) {
 +            tcg_out_ld32_12(s, COND_AL, datahi, addrlo, 4);
 +            tcg_out_ld32_12(s, COND_AL, datalo, addrlo, 0);
 +        } else {
 +            tcg_out_ld32_12(s, COND_AL, datalo, addrlo, 0);
 +            tcg_out_ld32_12(s, COND_AL, datahi, addrlo, 4);
          }
-         break;
+         return tcg_opt_gen_mov(ctx, op, op->args[0], op->args[2]);
      }
 +
 +    switch (ctx->type) {
 +    case TCG_TYPE_I32:
 +        z_mask = 31;
 +        break;
 +    case TCG_TYPE_I64:
 +        z_mask = 63;
 +        break;
 +    default:
 +        g_assert_not_reached();
-     }
++    }
- }
++    ctx->z_mask = arg_info(op->args[2])->z_mask | z_mask;
++
-@@ -XXX,XX +XXX,XX @@ static inline void tcg_out_qemu_st_index(TCGContext *s, int cond, MemOp opc,
+     return false;
-                                          TCGReg datalo, TCGReg datahi,
+ }
-                                          TCGReg addrlo, TCGReg addend)
- {
+ static bool fold_ctpop(OptContext *ctx, TCGOp *op)
--    MemOp bswap = opc & MO_BSWAP;
+ {
-+    /* Byte swapping is left to middle-end expansion. */
+-    return fold_const1(ctx, op);
-+    tcg_debug_assert((opc & MO_BSWAP) == 0);
++    if (fold_const1(ctx, op)) {
++        return true;
-     switch (opc & MO_SIZE) {
++    }
-     case MO_8:
++
-         tcg_out_st8_r(s, cond, datalo, addrlo, addend);
++    switch (ctx->type) {
-         break;
++    case TCG_TYPE_I32:
-     case MO_16:
++        ctx->z_mask = 32 | 31;
--        if (bswap) {
++        break;
--            tcg_out_bswap16(s, cond, TCG_REG_R0, datalo, 0);
++    case TCG_TYPE_I64:
--            tcg_out_st16_r(s, cond, TCG_REG_R0, addrlo, addend);
++        ctx->z_mask = 64 | 63;
--        } else {
++        break;
 -            tcg_out_st16_r(s, cond, datalo, addrlo, addend);
 -        }
 +        tcg_out_st16_r(s, cond, datalo, addrlo, addend);
          break;
      case MO_32:
 -    default:
 -        if (bswap) {
 -            tcg_out_bswap32(s, cond, TCG_REG_R0, datalo);
 -            tcg_out_st32_r(s, cond, TCG_REG_R0, addrlo, addend);
 -        } else {
 -            tcg_out_st32_r(s, cond, datalo, addrlo, addend);
 -        }
 +        tcg_out_st32_r(s, cond, datalo, addrlo, addend);
          break;
      case MO_64:
          /* Avoid strd for user-only emulation, to handle unaligned.  */
 -        if (bswap) {
 -            tcg_out_bswap32(s, cond, TCG_REG_R0, datahi);
 -            tcg_out_st32_rwb(s, cond, TCG_REG_R0, addend, addrlo);
 -            tcg_out_bswap32(s, cond, TCG_REG_R0, datalo);
 -            tcg_out_st32_12(s, cond, TCG_REG_R0, addend, 4);
 -        } else if (USING_SOFTMMU && use_armv6_instructions
 -                   && (datalo & 1) == 0 && datahi == datalo + 1) {
 +        if (USING_SOFTMMU && use_armv6_instructions
 +            && (datalo & 1) == 0 && datahi == datalo + 1) {
              tcg_out_strd_r(s, cond, datalo, addrlo, addend);
          } else {
              tcg_out_st32_rwb(s, cond, datalo, addend, addrlo);
              tcg_out_st32_12(s, cond, datahi, addend, 4);
          }
          break;
 +    default:
 +        g_assert_not_reached();
-     }
++    }
- }
++    return false;
+ }
-@@ -XXX,XX +XXX,XX @@ static inline void tcg_out_qemu_st_direct(TCGContext *s, MemOp opc,
-                                           TCGReg datalo, TCGReg datahi,
+ static bool fold_deposit(OptContext *ctx, TCGOp *op)
-                                           TCGReg addrlo)
+@@ -XXX,XX +XXX,XX @@ static bool fold_deposit(OptContext *ctx, TCGOp *op)
- {
+         t1 = deposit64(t1, op->args[3], op->args[4], t2);
--    MemOp bswap = opc & MO_BSWAP;
+         return tcg_opt_gen_movi(ctx, op, op->args[0], t1);
-+    /* Byte swapping is left to middle-end expansion. */
+     }
-+    tcg_debug_assert((opc & MO_BSWAP) == 0);
++
++    ctx->z_mask = deposit64(arg_info(op->args[1])->z_mask,
-     switch (opc & MO_SIZE) {
++                            op->args[3], op->args[4],
-     case MO_8:
++                            arg_info(op->args[2])->z_mask);
-         tcg_out_st8_12(s, COND_AL, datalo, addrlo, 0);
+     return false;
-         break;
+ }
-     case MO_16:
--        if (bswap) {
+@@ -XXX,XX +XXX,XX @@ static bool fold_eqv(OptContext *ctx, TCGOp *op)
--            tcg_out_bswap16(s, COND_AL, TCG_REG_R0, datalo, 0);
--            tcg_out_st16_8(s, COND_AL, TCG_REG_R0, addrlo, 0);
+ static bool fold_extract(OptContext *ctx, TCGOp *op)
--        } else {
+ {
--            tcg_out_st16_8(s, COND_AL, datalo, addrlo, 0);
++    uint64_t z_mask_old, z_mask;
--        }
++
-+        tcg_out_st16_8(s, COND_AL, datalo, addrlo, 0);
+     if (arg_is_const(op->args[1])) {
-         break;
+         uint64_t t;
-     case MO_32:
--    default:
+@@ -XXX,XX +XXX,XX @@ static bool fold_extract(OptContext *ctx, TCGOp *op)
--        if (bswap) {
+         t = extract64(t, op->args[2], op->args[3]);
--            tcg_out_bswap32(s, COND_AL, TCG_REG_R0, datalo);
+         return tcg_opt_gen_movi(ctx, op, op->args[0], t);
--            tcg_out_st32_12(s, COND_AL, TCG_REG_R0, addrlo, 0);
+     }
--        } else {
+-    return false;
--            tcg_out_st32_12(s, COND_AL, datalo, addrlo, 0);
++
--        }
++    z_mask_old = arg_info(op->args[1])->z_mask;
-+        tcg_out_st32_12(s, COND_AL, datalo, addrlo, 0);
++    z_mask = extract64(z_mask_old, op->args[2], op->args[3]);
-         break;
++    if (op->args[2] == 0) {
-     case MO_64:
++        ctx->a_mask = z_mask_old ^ z_mask;
-         /* Avoid strd for user-only emulation, to handle unaligned.  */
++    }
--        if (bswap) {
++    ctx->z_mask = z_mask;
--            tcg_out_bswap32(s, COND_AL, TCG_REG_R0, datahi);
++
--            tcg_out_st32_12(s, COND_AL, TCG_REG_R0, addrlo, 0);
++    return fold_masks(ctx, op);
--            tcg_out_bswap32(s, COND_AL, TCG_REG_R0, datalo);
+ }
--            tcg_out_st32_12(s, COND_AL, TCG_REG_R0, addrlo, 4);
--        } else if (USING_SOFTMMU && use_armv6_instructions
+ static bool fold_extract2(OptContext *ctx, TCGOp *op)
--                   && (datalo & 1) == 0 && datahi == datalo + 1) {
+@@ -XXX,XX +XXX,XX @@ static bool fold_extract2(OptContext *ctx, TCGOp *op)
-+        if (USING_SOFTMMU && use_armv6_instructions
-+            && (datalo & 1) == 0 && datahi == datalo + 1) {
+ static bool fold_exts(OptContext *ctx, TCGOp *op)
-             tcg_out_strd_8(s, COND_AL, datalo, addrlo, 0);
+ {
-         } else {
+-    return fold_const1(ctx, op);
-             tcg_out_st32_12(s, COND_AL, datalo, addrlo, 0);
++    uint64_t z_mask_old, z_mask, sign;
-             tcg_out_st32_12(s, COND_AL, datahi, addrlo, 4);
++    bool type_change = false;
-         }
++
-         break;
++    if (fold_const1(ctx, op)) {
 +        return true;
 +    }
 +
 +    z_mask_old = z_mask = arg_info(op->args[1])->z_mask;
 +
 +    switch (op->opc) {
 +    CASE_OP_32_64(ext8s):
 +        sign = INT8_MIN;
 +        z_mask = (uint8_t)z_mask;
 +        break;
 +    CASE_OP_32_64(ext16s):
 +        sign = INT16_MIN;
 +        z_mask = (uint16_t)z_mask;
 +        break;
 +    case INDEX_op_ext_i32_i64:
 +        type_change = true;
 +        QEMU_FALLTHROUGH;
 +    case INDEX_op_ext32s_i64:
 +        sign = INT32_MIN;
 +        z_mask = (uint32_t)z_mask;
 +        break;
 +    default:
 +        g_assert_not_reached();
-     }
++    }
- }
++
++    if (z_mask & sign) {
 +        z_mask |= sign;
 +    } else if (!type_change) {
 +        ctx->a_mask = z_mask_old ^ z_mask;
 +    }
 +    ctx->z_mask = z_mask;
 +
 +    return fold_masks(ctx, op);
  }
  static bool fold_extu(OptContext *ctx, TCGOp *op)
  {
 -    return fold_const1(ctx, op);
 +    uint64_t z_mask_old, z_mask;
 +    bool type_change = false;
 +
 +    if (fold_const1(ctx, op)) {
 +        return true;
 +    }
 +
 +    z_mask_old = z_mask = arg_info(op->args[1])->z_mask;
 +
 +    switch (op->opc) {
 +    CASE_OP_32_64(ext8u):
 +        z_mask = (uint8_t)z_mask;
 +        break;
 +    CASE_OP_32_64(ext16u):
 +        z_mask = (uint16_t)z_mask;
 +        break;
 +    case INDEX_op_extrl_i64_i32:
 +    case INDEX_op_extu_i32_i64:
 +        type_change = true;
 +        QEMU_FALLTHROUGH;
 +    case INDEX_op_ext32u_i64:
 +        z_mask = (uint32_t)z_mask;
 +        break;
 +    case INDEX_op_extrh_i64_i32:
 +        type_change = true;
 +        z_mask >>= 32;
 +        break;
 +    default:
 +        g_assert_not_reached();
 +    }
 +
 +    ctx->z_mask = z_mask;
 +    if (!type_change) {
 +        ctx->a_mask = z_mask_old ^ z_mask;
 +    }
 +    return fold_masks(ctx, op);
  }
  static bool fold_mb(OptContext *ctx, TCGOp *op)
@@ -XXX,XX +XXX,XX @@ static bool fold_movcond(OptContext *ctx, TCGOp *op)
          return tcg_opt_gen_mov(ctx, op, op->args[0], op->args[4 - i]);
      }
 +    ctx->z_mask = arg_info(op->args[3])->z_mask
 +                | arg_info(op->args[4])->z_mask;
 +
      if (arg_is_const(op->args[3]) && arg_is_const(op->args[4])) {
          uint64_t tv = arg_info(op->args[3])->val;
          uint64_t fv = arg_info(op->args[4])->val;
@@ -XXX,XX +XXX,XX @@ static bool fold_nand(OptContext *ctx, TCGOp *op)
  static bool fold_neg(OptContext *ctx, TCGOp *op)
  {
 +    uint64_t z_mask;
 +
      if (fold_const1(ctx, op)) {
          return true;
      }
 +
 +    /* Set to 1 all bits to the left of the rightmost.  */
 +    z_mask = arg_info(op->args[1])->z_mask;
 +    ctx->z_mask = -(z_mask & -z_mask);
 +
      /*
       * Because of fold_sub_to_neg, we want to always return true,
       * via finish_folding.
@@ -XXX,XX +XXX,XX @@ static bool fold_or(OptContext *ctx, TCGOp *op)
          fold_xx_to_x(ctx, op)) {
          return true;
      }
 -    return false;
 +
 +    ctx->z_mask = arg_info(op->args[1])->z_mask
 +                | arg_info(op->args[2])->z_mask;
 +    return fold_masks(ctx, op);
  }
  static bool fold_orc(OptContext *ctx, TCGOp *op)
@@ -XXX,XX +XXX,XX @@ static bool fold_orc(OptContext *ctx, TCGOp *op)
  static bool fold_qemu_ld(OptContext *ctx, TCGOp *op)
  {
 +    const TCGOpDef *def = &tcg_op_defs[op->opc];
 +    MemOpIdx oi = op->args[def->nb_oargs + def->nb_iargs];
 +    MemOp mop = get_memop(oi);
 +    int width = 8 * memop_size(mop);
 +
 +    if (!(mop & MO_SIGN) && width < 64) {
 +        ctx->z_mask = MAKE_64BIT_MASK(0, width);
 +    }
 +
      /* Opcodes that touch guest memory stop the mb optimization.  */
      ctx->prev_mb = NULL;
      return false;
@@ -XXX,XX +XXX,XX @@ static bool fold_setcond(OptContext *ctx, TCGOp *op)
      if (i >= 0) {
          return tcg_opt_gen_movi(ctx, op, op->args[0], i);
      }
 +
 +    ctx->z_mask = 1;
      return false;
  }
@@ -XXX,XX +XXX,XX @@ static bool fold_setcond2(OptContext *ctx, TCGOp *op)
          op->opc = INDEX_op_setcond_i32;
          break;
      }
 +
 +    ctx->z_mask = 1;
      return false;
   do_setcond_const:
@@ -XXX,XX +XXX,XX @@ static bool fold_setcond2(OptContext *ctx, TCGOp *op)
  static bool fold_sextract(OptContext *ctx, TCGOp *op)
  {
 +    int64_t z_mask_old, z_mask;
 +
      if (arg_is_const(op->args[1])) {
          uint64_t t;
@@ -XXX,XX +XXX,XX @@ static bool fold_sextract(OptContext *ctx, TCGOp *op)
          t = sextract64(t, op->args[2], op->args[3]);
          return tcg_opt_gen_movi(ctx, op, op->args[0], t);
      }
 -    return false;
 +
 +    z_mask_old = arg_info(op->args[1])->z_mask;
 +    z_mask = sextract64(z_mask_old, op->args[2], op->args[3]);
 +    if (op->args[2] == 0 && z_mask >= 0) {
 +        ctx->a_mask = z_mask_old ^ z_mask;
 +    }
 +    ctx->z_mask = z_mask;
 +
 +    return fold_masks(ctx, op);
  }
  static bool fold_shift(OptContext *ctx, TCGOp *op)
@@ -XXX,XX +XXX,XX @@ static bool fold_shift(OptContext *ctx, TCGOp *op)
          fold_xi_to_x(ctx, op, 0)) {
          return true;
      }
 +
 +    if (arg_is_const(op->args[2])) {
 +        ctx->z_mask = do_constant_folding(op->opc, ctx->type,
 +                                          arg_info(op->args[1])->z_mask,
 +                                          arg_info(op->args[2])->val);
 +        return fold_masks(ctx, op);
 +    }
      return false;
  }
@@ -XXX,XX +XXX,XX @@ static bool fold_sub2_i32(OptContext *ctx, TCGOp *op)
      return fold_addsub2_i32(ctx, op, false);
  }
 +static bool fold_tcg_ld(OptContext *ctx, TCGOp *op)
 +{
 +    /* We can't do any folding with a load, but we can record bits. */
 +    switch (op->opc) {
 +    CASE_OP_32_64(ld8u):
 +        ctx->z_mask = MAKE_64BIT_MASK(0, 8);
 +        break;
 +    CASE_OP_32_64(ld16u):
 +        ctx->z_mask = MAKE_64BIT_MASK(0, 16);
 +        break;
 +    case INDEX_op_ld32u_i64:
 +        ctx->z_mask = MAKE_64BIT_MASK(0, 32);
 +        break;
 +    default:
 +        g_assert_not_reached();
 +    }
 +    return false;
 +}
 +
  static bool fold_xor(OptContext *ctx, TCGOp *op)
  {
      if (fold_const2(ctx, op) ||
@@ -XXX,XX +XXX,XX @@ static bool fold_xor(OptContext *ctx, TCGOp *op)
          fold_xi_to_not(ctx, op, -1)) {
          return true;
      }
 -    return false;
 +
 +    ctx->z_mask = arg_info(op->args[1])->z_mask
 +                | arg_info(op->args[2])->z_mask;
 +    return fold_masks(ctx, op);
  }
  /* Propagate constants and copies, fold constant expressions. */
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
      }
      QTAILQ_FOREACH_SAFE(op, &s->ops, link, op_next) {
 -        uint64_t z_mask, partmask, affected, tmp;
          TCGOpcode opc = op->opc;
          const TCGOpDef *def;
          bool done = false;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
              break;
          }
 -        /* Simplify using known-zero bits. Currently only ops with a single
 -           output argument is supported. */
 -        z_mask = -1;
 -        affected = -1;
 -        switch (opc) {
 -        CASE_OP_32_64(ext8s):
 -            if ((arg_info(op->args[1])->z_mask & 0x80) != 0) {
 -                break;
 -            }
 -            QEMU_FALLTHROUGH;
 -        CASE_OP_32_64(ext8u):
 -            z_mask = 0xff;
 -            goto and_const;
 -        CASE_OP_32_64(ext16s):
 -            if ((arg_info(op->args[1])->z_mask & 0x8000) != 0) {
 -                break;
 -            }
 -            QEMU_FALLTHROUGH;
 -        CASE_OP_32_64(ext16u):
 -            z_mask = 0xffff;
 -            goto and_const;
 -        case INDEX_op_ext32s_i64:
 -            if ((arg_info(op->args[1])->z_mask & 0x80000000) != 0) {
 -                break;
 -            }
 -            QEMU_FALLTHROUGH;
 -        case INDEX_op_ext32u_i64:
 -            z_mask = 0xffffffffU;
 -            goto and_const;
 -
 -        CASE_OP_32_64(and):
 -            z_mask = arg_info(op->args[2])->z_mask;
 -            if (arg_is_const(op->args[2])) {
 -        and_const:
 -                affected = arg_info(op->args[1])->z_mask & ~z_mask;
 -            }
 -            z_mask = arg_info(op->args[1])->z_mask & z_mask;
 -            break;
 -
 -        case INDEX_op_ext_i32_i64:
 -            if ((arg_info(op->args[1])->z_mask & 0x80000000) != 0) {
 -                break;
 -            }
 -            QEMU_FALLTHROUGH;
 -        case INDEX_op_extu_i32_i64:
 -            /* We do not compute affected as it is a size changing op.  */
 -            z_mask = (uint32_t)arg_info(op->args[1])->z_mask;
 -            break;
 -
 -        CASE_OP_32_64(andc):
 -            /* Known-zeros does not imply known-ones.  Therefore unless
 -               op->args[2] is constant, we can't infer anything from it.  */
 -            if (arg_is_const(op->args[2])) {
 -                z_mask = ~arg_info(op->args[2])->z_mask;
 -                goto and_const;
 -            }
 -            /* But we certainly know nothing outside args[1] may be set. */
 -            z_mask = arg_info(op->args[1])->z_mask;
 -            break;
 -
 -        case INDEX_op_sar_i32:
 -            if (arg_is_const(op->args[2])) {
 -                tmp = arg_info(op->args[2])->val & 31;
 -                z_mask = (int32_t)arg_info(op->args[1])->z_mask >> tmp;
 -            }
 -            break;
 -        case INDEX_op_sar_i64:
 -            if (arg_is_const(op->args[2])) {
 -                tmp = arg_info(op->args[2])->val & 63;
 -                z_mask = (int64_t)arg_info(op->args[1])->z_mask >> tmp;
 -            }
 -            break;
 -
 -        case INDEX_op_shr_i32:
 -            if (arg_is_const(op->args[2])) {
 -                tmp = arg_info(op->args[2])->val & 31;
 -                z_mask = (uint32_t)arg_info(op->args[1])->z_mask >> tmp;
 -            }
 -            break;
 -        case INDEX_op_shr_i64:
 -            if (arg_is_const(op->args[2])) {
 -                tmp = arg_info(op->args[2])->val & 63;
 -                z_mask = (uint64_t)arg_info(op->args[1])->z_mask >> tmp;
 -            }
 -            break;
 -
 -        case INDEX_op_extrl_i64_i32:
 -            z_mask = (uint32_t)arg_info(op->args[1])->z_mask;
 -            break;
 -        case INDEX_op_extrh_i64_i32:
 -            z_mask = (uint64_t)arg_info(op->args[1])->z_mask >> 32;
 -            break;
 -
 -        CASE_OP_32_64(shl):
 -            if (arg_is_const(op->args[2])) {
 -                tmp = arg_info(op->args[2])->val & (TCG_TARGET_REG_BITS - 1);
 -                z_mask = arg_info(op->args[1])->z_mask << tmp;
 -            }
 -            break;
 -
 -        CASE_OP_32_64(neg):
 -            /* Set to 1 all bits to the left of the rightmost.  */
 -            z_mask = -(arg_info(op->args[1])->z_mask
 -                       & -arg_info(op->args[1])->z_mask);
 -            break;
 -
 -        CASE_OP_32_64(deposit):
 -            z_mask = deposit64(arg_info(op->args[1])->z_mask,
 -                               op->args[3], op->args[4],
 -                               arg_info(op->args[2])->z_mask);
 -            break;
 -
 -        CASE_OP_32_64(extract):
 -            z_mask = extract64(arg_info(op->args[1])->z_mask,
 -                               op->args[2], op->args[3]);
 -            if (op->args[2] == 0) {
 -                affected = arg_info(op->args[1])->z_mask & ~z_mask;
 -            }
 -            break;
 -        CASE_OP_32_64(sextract):
 -            z_mask = sextract64(arg_info(op->args[1])->z_mask,
 -                                op->args[2], op->args[3]);
 -            if (op->args[2] == 0 && (tcg_target_long)z_mask >= 0) {
 -                affected = arg_info(op->args[1])->z_mask & ~z_mask;
 -            }
 -            break;
 -
 -        CASE_OP_32_64(or):
 -        CASE_OP_32_64(xor):
 -            z_mask = arg_info(op->args[1])->z_mask
 -                   | arg_info(op->args[2])->z_mask;
 -            break;
 -
 -        case INDEX_op_clz_i32:
 -        case INDEX_op_ctz_i32:
 -            z_mask = arg_info(op->args[2])->z_mask | 31;
 -            break;
 -
 -        case INDEX_op_clz_i64:
 -        case INDEX_op_ctz_i64:
 -            z_mask = arg_info(op->args[2])->z_mask | 63;
 -            break;
 -
 -        case INDEX_op_ctpop_i32:
 -            z_mask = 32 | 31;
 -            break;
 -        case INDEX_op_ctpop_i64:
 -            z_mask = 64 | 63;
 -            break;
 -
 -        CASE_OP_32_64(setcond):
 -        case INDEX_op_setcond2_i32:
 -            z_mask = 1;
 -            break;
 -
 -        CASE_OP_32_64(movcond):
 -            z_mask = arg_info(op->args[3])->z_mask
 -                   | arg_info(op->args[4])->z_mask;
 -            break;
 -
 -        CASE_OP_32_64(ld8u):
 -            z_mask = 0xff;
 -            break;
 -        CASE_OP_32_64(ld16u):
 -            z_mask = 0xffff;
 -            break;
 -        case INDEX_op_ld32u_i64:
 -            z_mask = 0xffffffffu;
 -            break;
 -
 -        CASE_OP_32_64(qemu_ld):
 -            {
 -                MemOpIdx oi = op->args[def->nb_oargs + def->nb_iargs];
 -                MemOp mop = get_memop(oi);
 -                if (!(mop & MO_SIGN)) {
 -                    z_mask = (2ULL << ((8 << (mop & MO_SIZE)) - 1)) - 1;
 -                }
 -            }
 -            break;
 -
 -        CASE_OP_32_64(bswap16):
 -            z_mask = arg_info(op->args[1])->z_mask;
 -            if (z_mask <= 0xffff) {
 -                op->args[2] |= TCG_BSWAP_IZ;
 -            }
 -            z_mask = bswap16(z_mask);
 -            switch (op->args[2] & (TCG_BSWAP_OZ | TCG_BSWAP_OS)) {
 -            case TCG_BSWAP_OZ:
 -                break;
 -            case TCG_BSWAP_OS:
 -                z_mask = (int16_t)z_mask;
 -                break;
 -            default: /* undefined high bits */
 -                z_mask |= MAKE_64BIT_MASK(16, 48);
 -                break;
 -            }
 -            break;
 -
 -        case INDEX_op_bswap32_i64:
 -            z_mask = arg_info(op->args[1])->z_mask;
 -            if (z_mask <= 0xffffffffu) {
 -                op->args[2] |= TCG_BSWAP_IZ;
 -            }
 -            z_mask = bswap32(z_mask);
 -            switch (op->args[2] & (TCG_BSWAP_OZ | TCG_BSWAP_OS)) {
 -            case TCG_BSWAP_OZ:
 -                break;
 -            case TCG_BSWAP_OS:
 -                z_mask = (int32_t)z_mask;
 -                break;
 -            default: /* undefined high bits */
 -                z_mask |= MAKE_64BIT_MASK(32, 32);
 -                break;
 -            }
 -            break;
 -
 -        default:
 -            break;
 -        }
 -
 -        /* 32-bit ops generate 32-bit results.  For the result is zero test
 -           below, we can ignore high bits, but for further optimizations we
 -           need to record that the high bits contain garbage.  */
 -        partmask = z_mask;
 -        if (ctx.type == TCG_TYPE_I32) {
 -            z_mask |= ~(tcg_target_ulong)0xffffffffu;
 -            partmask &= 0xffffffffu;
 -            affected &= 0xffffffffu;
 -        }
 -        ctx.z_mask = z_mask;
 -
 -        if (partmask == 0) {
 -            tcg_opt_gen_movi(&ctx, op, op->args[0], 0);
 -            continue;
 -        }
 -        if (affected == 0) {
 -            tcg_opt_gen_mov(&ctx, op, op->args[0], op->args[1]);
 -            continue;
 -        }
 +        /* Assume all bits affected, and no bits known zero. */
 +        ctx.a_mask = -1;
 +        ctx.z_mask = -1;
          /*
           * Process each opcode.
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
          case INDEX_op_extrh_i64_i32:
              done = fold_extu(&ctx, op);
              break;
 +        CASE_OP_32_64(ld8u):
 +        CASE_OP_32_64(ld16u):
 +        case INDEX_op_ld32u_i64:
 +            done = fold_tcg_ld(&ctx, op);
 +            break;
          case INDEX_op_mb:
              done = fold_mb(&ctx, op);
              break;
 --
 .25.1

-[PULL 20/63] target/cris: Mark static arrays const
+[PULL 44/56] tcg/optimize: Expand fold_mulu2_i32 to all 4-arg multiplies
-Reviewed-by: Edgar E. Iglesias <edgar.iglesias@xilinx.com>
+Rename to fold_multiply2, and handle muls2_i32, mulu2_i64,
-Tested-by: Edgar E. Iglesias <edgar.iglesias@xilinx.com>
+and muls2_i64.
 Reviewed-by: Luis Pires <luis.pires@eldorado.org.br>
 Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- target/cris/translate.c         | 19 ++++++++++---------
+ tcg/optimize.c | 44 +++++++++++++++++++++++++++++++++++---------
- target/cris/translate_v10.c.inc |  6 +++---
+file changed, 35 insertions(+), 9 deletions(-)
 files changed, 13 insertions(+), 12 deletions(-)
-diff --git a/target/cris/translate.c b/target/cris/translate.c
+diff --git a/tcg/optimize.c b/tcg/optimize.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/cris/translate.c
+--- a/tcg/optimize.c
-+++ b/target/cris/translate.c
++++ b/tcg/optimize.c
-@@ -XXX,XX +XXX,XX @@ static void gen_BUG(DisasContext *dc, const char *file, int line)
+@@ -XXX,XX +XXX,XX @@ static bool fold_mul_highpart(OptContext *ctx, TCGOp *op)
-     cpu_abort(CPU(dc->cpu), "%s:%d pc=%x\n", file, line, dc->pc);
+     return false;
  }
--static const char *regnames_v32[] =
+-static bool fold_mulu2_i32(OptContext *ctx, TCGOp *op)
-+static const char * const regnames_v32[] =
++static bool fold_multiply2(OptContext *ctx, TCGOp *op)
  {
-     "$r0", "$r1", "$r2", "$r3",
+     if (arg_is_const(op->args[2]) && arg_is_const(op->args[3])) {
-     "$r4", "$r5", "$r6", "$r7",
+-        uint32_t a = arg_info(op->args[2])->val;
-     "$r8", "$r9", "$r10", "$r11",
+-        uint32_t b = arg_info(op->args[3])->val;
-     "$r12", "$r13", "$sp", "$acr",
+-        uint64_t r = (uint64_t)a * b;
- };
++        uint64_t a = arg_info(op->args[2])->val;
--static const char *pregnames_v32[] =
++        uint64_t b = arg_info(op->args[3])->val;
 +        uint64_t h, l;
          TCGArg rl, rh;
 -        TCGOp *op2 = tcg_op_insert_before(ctx->tcg, op, INDEX_op_mov_i32);
 +        TCGOp *op2;
 +
-+static const char * const pregnames_v32[] =
++        switch (op->opc) {
- {
++        case INDEX_op_mulu2_i32:
-     "$bz", "$vr", "$pid", "$srs",
++            l = (uint64_t)(uint32_t)a * (uint32_t)b;
-     "$wz", "$exs", "$eda", "$mof",
++            h = (int32_t)(l >> 32);
-@@ -XXX,XX +XXX,XX @@ static const char *pregnames_v32[] =
++            l = (int32_t)l;
- };
++            break;
++        case INDEX_op_muls2_i32:
- /* We need this table to handle preg-moves with implicit width.  */
++            l = (int64_t)(int32_t)a * (int32_t)b;
--static int preg_sizes[] = {
++            h = l >> 32;
-+static const int preg_sizes[] = {
++            l = (int32_t)l;
-, /* bz.  */
++            break;
-, /* vr.  */
++        case INDEX_op_mulu2_i64:
-, /* pid.  */
++            mulu64(&l, &h, a, b);
-@@ -XXX,XX +XXX,XX @@ static inline void t_gen_swapw(TCGv d, TCGv s)
++            break;
-    ((T0 >> 5) & 0x02020202) |
++        case INDEX_op_muls2_i64:
-    ((T0 >> 7) & 0x01010101));
++            muls64(&l, &h, a, b);
-  */
++            break;
--static inline void t_gen_swapr(TCGv d, TCGv s)
++        default:
-+static void t_gen_swapr(TCGv d, TCGv s)
++            g_assert_not_reached();
- {
++        }
--    struct {
-+    static const struct {
+         rl = op->args[0];
-         int shift; /* LSL when positive, LSR when negative.  */
+         rh = op->args[1];
-         uint32_t mask;
+-        tcg_opt_gen_movi(ctx, op, rl, (int32_t)r);
-     } bitrev[] = {
+-        tcg_opt_gen_movi(ctx, op2, rh, (int32_t)(r >> 32));
-@@ -XXX,XX +XXX,XX @@ static int dec_prep_alu_m(CPUCRISState *env, DisasContext *dc,
++
- #if DISAS_CRIS
++        /* The proper opcode is supplied by tcg_opt_gen_mov. */
- static const char *cc_name(int cc)
++        op2 = tcg_op_insert_before(ctx->tcg, op, 0);
- {
++
--    static const char *cc_names[16] = {
++        tcg_opt_gen_movi(ctx, op, rl, l);
-+    static const char * const cc_names[16] = {
++        tcg_opt_gen_movi(ctx, op2, rh, h);
-         "cc", "cs", "ne", "eq", "vc", "vs", "pl", "mi",
+         return true;
-         "ls", "hi", "ge", "lt", "gt", "le", "a", "p"
+     }
-     };
+     return false;
-@@ -XXX,XX +XXX,XX @@ static int dec_null(CPUCRISState *env, DisasContext *dc)
+@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
-     return 2;
+         CASE_OP_32_64(muluh):
- }
+             done = fold_mul_highpart(&ctx, op);
+             break;
--static struct decoder_info {
+-        case INDEX_op_mulu2_i32:
-+static const struct decoder_info {
+-            done = fold_mulu2_i32(&ctx, op);
-     struct {
++        CASE_OP_32_64(muls2):
-         uint32_t bits;
++        CASE_OP_32_64(mulu2):
-         uint32_t mask;
++            done = fold_multiply2(&ctx, op);
-@@ -XXX,XX +XXX,XX @@ void cris_cpu_dump_state(CPUState *cs, FILE *f, int flags)
+             break;
- {
+         CASE_OP_32_64(nand):
-     CRISCPU *cpu = CRIS_CPU(cs);
+             done = fold_nand(&ctx, op);
      CPUCRISState *env = &cpu->env;
 -    const char **regnames;
 -    const char **pregnames;
 +    const char * const *regnames;
 +    const char * const *pregnames;
      int i;
      if (!env) {
 diff --git a/target/cris/translate_v10.c.inc b/target/cris/translate_v10.c.inc
 index XXXXXXX..XXXXXXX 100644
 --- a/target/cris/translate_v10.c.inc
 +++ b/target/cris/translate_v10.c.inc
@@ -XXX,XX +XXX,XX @@
  #include "qemu/osdep.h"
  #include "crisv10-decode.h"
 -static const char *regnames_v10[] =
 +static const char * const regnames_v10[] =
  {
      "$r0", "$r1", "$r2", "$r3",
      "$r4", "$r5", "$r6", "$r7",
@@ -XXX,XX +XXX,XX @@ static const char *regnames_v10[] =
      "$r12", "$r13", "$sp", "$pc",
  };
 -static const char *pregnames_v10[] =
 +static const char * const pregnames_v10[] =
  {
      "$bz", "$vr", "$p2", "$p3",
      "$wz", "$ccr", "$p6-prefix", "$mof",
@@ -XXX,XX +XXX,XX @@ static const char *pregnames_v10[] =
  };
  /* We need this table to handle preg-moves with implicit width.  */
 -static int preg_sizes_v10[] = {
 +static const int preg_sizes_v10[] = {
 , /* bz.  */
 , /* vr.  */
 , /* pid. */
 --
 .25.1

-[PULL 09/63] target/nios2: Use pc_next for pc + 4
+[PULL 45/56] tcg/optimize: Expand fold_addsub2_i32 to 64-bit ops
-We have pre-computed the next instruction address into
+Rename to fold_addsub2.
-dc->base.pc_next, so we might as well use it.
+Use Int128 to implement the wider operation.
-Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
+Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
-Suggested-by: Peter Maydell <peter.maydell@linaro.org>
+Reviewed-by: Luis Pires <luis.pires@eldorado.org.br>
 Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- target/nios2/translate.c | 12 ++++++------
+ tcg/optimize.c | 65 ++++++++++++++++++++++++++++++++++----------------
-file changed, 6 insertions(+), 6 deletions(-)
+file changed, 44 insertions(+), 21 deletions(-)
-diff --git a/target/nios2/translate.c b/target/nios2/translate.c
+diff --git a/tcg/optimize.c b/tcg/optimize.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/nios2/translate.c
+--- a/tcg/optimize.c
-+++ b/target/nios2/translate.c
++++ b/tcg/optimize.c
-@@ -XXX,XX +XXX,XX @@ static void jmpi(DisasContext *dc, uint32_t code, uint32_t flags)
+@@ -XXX,XX +XXX,XX @@
+  */
- static void call(DisasContext *dc, uint32_t code, uint32_t flags)
  #include "qemu/osdep.h"
 +#include "qemu/int128.h"
  #include "tcg/tcg-op.h"
  #include "tcg-internal.h"
@@ -XXX,XX +XXX,XX @@ static bool fold_add(OptContext *ctx, TCGOp *op)
      return false;
  }
 -static bool fold_addsub2_i32(OptContext *ctx, TCGOp *op, bool add)
 +static bool fold_addsub2(OptContext *ctx, TCGOp *op, bool add)
  {
--    tcg_gen_movi_tl(cpu_R[R_RA], dc->pc + 4);
+     if (arg_is_const(op->args[2]) && arg_is_const(op->args[3]) &&
-+    tcg_gen_movi_tl(cpu_R[R_RA], dc->base.pc_next);
+         arg_is_const(op->args[4]) && arg_is_const(op->args[5])) {
-     jmpi(dc, code, flags);
+-        uint32_t al = arg_info(op->args[2])->val;
 -        uint32_t ah = arg_info(op->args[3])->val;
 -        uint32_t bl = arg_info(op->args[4])->val;
 -        uint32_t bh = arg_info(op->args[5])->val;
 -        uint64_t a = ((uint64_t)ah << 32) | al;
 -        uint64_t b = ((uint64_t)bh << 32) | bl;
 +        uint64_t al = arg_info(op->args[2])->val;
 +        uint64_t ah = arg_info(op->args[3])->val;
 +        uint64_t bl = arg_info(op->args[4])->val;
 +        uint64_t bh = arg_info(op->args[5])->val;
          TCGArg rl, rh;
 -        TCGOp *op2 = tcg_op_insert_before(ctx->tcg, op, INDEX_op_mov_i32);
 +        TCGOp *op2;
 -        if (add) {
 -            a += b;
 +        if (ctx->type == TCG_TYPE_I32) {
 +            uint64_t a = deposit64(al, 32, 32, ah);
 +            uint64_t b = deposit64(bl, 32, 32, bh);
 +
 +            if (add) {
 +                a += b;
 +            } else {
 +                a -= b;
 +            }
 +
 +            al = sextract64(a, 0, 32);
 +            ah = sextract64(a, 32, 32);
          } else {
 -            a -= b;
 +            Int128 a = int128_make128(al, ah);
 +            Int128 b = int128_make128(bl, bh);
 +
 +            if (add) {
 +                a = int128_add(a, b);
 +            } else {
 +                a = int128_sub(a, b);
 +            }
 +
 +            al = int128_getlo(a);
 +            ah = int128_gethi(a);
          }
          rl = op->args[0];
          rh = op->args[1];
 -        tcg_opt_gen_movi(ctx, op, rl, (int32_t)a);
 -        tcg_opt_gen_movi(ctx, op2, rh, (int32_t)(a >> 32));
 +
 +        /* The proper opcode is supplied by tcg_opt_gen_mov. */
 +        op2 = tcg_op_insert_before(ctx->tcg, op, 0);
 +
 +        tcg_opt_gen_movi(ctx, op, rl, al);
 +        tcg_opt_gen_movi(ctx, op2, rh, ah);
          return true;
      }
      return false;
  }
-@@ -XXX,XX +XXX,XX @@ static void br(DisasContext *dc, uint32_t code, uint32_t flags)
+-static bool fold_add2_i32(OptContext *ctx, TCGOp *op)
 +static bool fold_add2(OptContext *ctx, TCGOp *op)
  {
-     I_TYPE(instr, code);
+-    return fold_addsub2_i32(ctx, op, true);
++    return fold_addsub2(ctx, op, true);
 -    gen_goto_tb(dc, 0, dc->pc + 4 + (instr.imm16.s & -4));
 +    gen_goto_tb(dc, 0, dc->base.pc_next + (instr.imm16.s & -4));
      dc->base.is_jmp = DISAS_NORETURN;
  }
-@@ -XXX,XX +XXX,XX @@ static void gen_bxx(DisasContext *dc, uint32_t code, uint32_t flags)
+ static bool fold_and(OptContext *ctx, TCGOp *op)
+@@ -XXX,XX +XXX,XX @@ static bool fold_sub(OptContext *ctx, TCGOp *op)
-     TCGLabel *l1 = gen_new_label();
+     return false;
      tcg_gen_brcond_tl(flags, cpu_R[instr.a], cpu_R[instr.b], l1);
 -    gen_goto_tb(dc, 0, dc->pc + 4);
 +    gen_goto_tb(dc, 0, dc->base.pc_next);
      gen_set_label(l1);
 -    gen_goto_tb(dc, 1, dc->pc + 4 + (instr.imm16.s & -4));
 +    gen_goto_tb(dc, 1, dc->base.pc_next + (instr.imm16.s & -4));
      dc->base.is_jmp = DISAS_NORETURN;
  }
-@@ -XXX,XX +XXX,XX @@ static void nextpc(DisasContext *dc, uint32_t code, uint32_t flags)
+-static bool fold_sub2_i32(OptContext *ctx, TCGOp *op)
-     R_TYPE(instr, code);
++static bool fold_sub2(OptContext *ctx, TCGOp *op)
+ {
-     if (likely(instr.c != R_ZERO)) {
+-    return fold_addsub2_i32(ctx, op, false);
--        tcg_gen_movi_tl(cpu_R[instr.c], dc->pc + 4);
++    return fold_addsub2(ctx, op, false);
 +        tcg_gen_movi_tl(cpu_R[instr.c], dc->base.pc_next);
      }
  }
-@@ -XXX,XX +XXX,XX @@ static void callr(DisasContext *dc, uint32_t code, uint32_t flags)
+ static bool fold_tcg_ld(OptContext *ctx, TCGOp *op)
-     R_TYPE(instr, code);
+@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
+         CASE_OP_32_64_VEC(add):
-     tcg_gen_mov_tl(cpu_R[R_PC], load_gpr(dc, instr.a));
+             done = fold_add(&ctx, op);
--    tcg_gen_movi_tl(cpu_R[R_RA], dc->pc + 4);
+             break;
-+    tcg_gen_movi_tl(cpu_R[R_RA], dc->base.pc_next);
+-        case INDEX_op_add2_i32:
+-            done = fold_add2_i32(&ctx, op);
-     dc->base.is_jmp = DISAS_JUMP;
++        CASE_OP_32_64(add2):
- }
++            done = fold_add2(&ctx, op);
              break;
          CASE_OP_32_64_VEC(and):
              done = fold_and(&ctx, op);
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
          CASE_OP_32_64_VEC(sub):
              done = fold_sub(&ctx, op);
              break;
 -        case INDEX_op_sub2_i32:
 -            done = fold_sub2_i32(&ctx, op);
 +        CASE_OP_32_64(sub2):
 +            done = fold_sub2(&ctx, op);
              break;
          CASE_OP_32_64_VEC(xor):
              done = fold_xor(&ctx, op);
 --
 .25.1

-[PULL 04/63] target/nios2: Add DisasContextBase to DisasContext
+[PULL 46/56] tcg/optimize: Sink commutative operand swapping into fold functions
-Migrate the is_jmp, tb and singlestep_enabled fields from
+Most of these are handled by creating a fold_const2_commutative
-DisasContext into the base.  Use pc_first instead of tb->pc.
+to handle all of the binary operators.  The rest were already
-Increment pc_next prior to decode, leaving the address of
+handled on a case-by-case basis in the switch, and have their
-the current insn in dc->pc.
+own fold function in which to place the call.
-Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
+We now have only one major switch on TCGOpcode.
 Introduce NO_DEST and a block comment for swap_commutative in
 order to make the handling of brcond and movcond opcodes cleaner.
 Reviewed-by: Luis Pires <luis.pires@eldorado.org.br>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- target/nios2/translate.c | 70 +++++++++++++++++++++-------------------
+ tcg/optimize.c | 142 ++++++++++++++++++++++++-------------------------
-file changed, 36 insertions(+), 34 deletions(-)
+file changed, 70 insertions(+), 72 deletions(-)
-diff --git a/target/nios2/translate.c b/target/nios2/translate.c
+diff --git a/tcg/optimize.c b/tcg/optimize.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/nios2/translate.c
+--- a/tcg/optimize.c
-+++ b/target/nios2/translate.c
++++ b/tcg/optimize.c
-@@ -XXX,XX +XXX,XX @@
+@@ -XXX,XX +XXX,XX @@ static int do_constant_folding_cond2(TCGArg *p1, TCGArg *p2, TCGCond c)
-     }
+     return -1;
  typedef struct DisasContext {
 +    DisasContextBase  base;
      TCGv_i32          zero;
 -    int               is_jmp;
      target_ulong      pc;
 -    TranslationBlock *tb;
      int               mem_idx;
 -    bool              singlestep_enabled;
  } DisasContext;
  static TCGv cpu_R[NUM_CORE_REGS];
@@ -XXX,XX +XXX,XX @@ static void t_gen_helper_raise_exception(DisasContext *dc,
      tcg_gen_movi_tl(cpu_R[R_PC], dc->pc);
      gen_helper_raise_exception(cpu_env, tmp);
      tcg_temp_free_i32(tmp);
 -    dc->is_jmp = DISAS_NORETURN;
 +    dc->base.is_jmp = DISAS_NORETURN;
  }
- static bool use_goto_tb(DisasContext *dc, uint32_t dest)
++/**
- {
++ * swap_commutative:
--    if (unlikely(dc->singlestep_enabled)) {
++ * @dest: TCGArg of the destination argument, or NO_DEST.
-+    if (unlikely(dc->base.singlestep_enabled)) {
++ * @p1: first paired argument
-         return false;
++ * @p2: second paired argument
-     }
++ *
++ * If *@p1 is a constant and *@p2 is not, swap.
- #ifndef CONFIG_USER_ONLY
++ * If *@p2 matches @dest, swap.
--    return (dc->tb->pc & TARGET_PAGE_MASK) == (dest & TARGET_PAGE_MASK);
++ * Return true if a swap was performed.
-+    return (dc->base.pc_first & TARGET_PAGE_MASK) == (dest & TARGET_PAGE_MASK);
++ */
- #else
++
-     return true;
++#define NO_DEST  temp_arg(NULL)
- #endif
++
-@@ -XXX,XX +XXX,XX @@ static bool use_goto_tb(DisasContext *dc, uint32_t dest)
+ static bool swap_commutative(TCGArg dest, TCGArg *p1, TCGArg *p2)
+ {
- static void gen_goto_tb(DisasContext *dc, int n, uint32_t dest)
+     TCGArg a1 = *p1, a2 = *p2;
- {
+@@ -XXX,XX +XXX,XX @@ static bool fold_const2(OptContext *ctx, TCGOp *op)
--    TranslationBlock *tb = dc->tb;
+     return false;
 +    const TranslationBlock *tb = dc->base.tb;
      if (use_goto_tb(dc, dest)) {
          tcg_gen_goto_tb(n);
@@ -XXX,XX +XXX,XX @@ static void gen_excp(DisasContext *dc, uint32_t code, uint32_t flags)
  static void gen_check_supervisor(DisasContext *dc)
  {
 -    if (dc->tb->flags & CR_STATUS_U) {
 +    if (dc->base.tb->flags & CR_STATUS_U) {
          /* CPU in user mode, privileged instruction called, stop. */
          t_gen_helper_raise_exception(dc, EXCP_SUPERI);
      }
@@ -XXX,XX +XXX,XX @@ static void jmpi(DisasContext *dc, uint32_t code, uint32_t flags)
  {
      J_TYPE(instr, code);
      gen_goto_tb(dc, 0, (dc->pc & 0xF0000000) | (instr.imm26 << 2));
 -    dc->is_jmp = DISAS_NORETURN;
 +    dc->base.is_jmp = DISAS_NORETURN;
  }
- static void call(DisasContext *dc, uint32_t code, uint32_t flags)
++static bool fold_const2_commutative(OptContext *ctx, TCGOp *op)
-@@ -XXX,XX +XXX,XX @@ static void br(DisasContext *dc, uint32_t code, uint32_t flags)
++{
-     I_TYPE(instr, code);
++    swap_commutative(op->args[0], &op->args[1], &op->args[2]);
++    return fold_const2(ctx, op);
-     gen_goto_tb(dc, 0, dc->pc + 4 + (instr.imm16.s & -4));
++}
--    dc->is_jmp = DISAS_NORETURN;
++
-+    dc->base.is_jmp = DISAS_NORETURN;
+ static bool fold_masks(OptContext *ctx, TCGOp *op)
  {
      uint64_t a_mask = ctx->a_mask;
@@ -XXX,XX +XXX,XX @@ static bool fold_xx_to_x(OptContext *ctx, TCGOp *op)
  static bool fold_add(OptContext *ctx, TCGOp *op)
  {
 -    if (fold_const2(ctx, op) ||
 +    if (fold_const2_commutative(ctx, op) ||
          fold_xi_to_x(ctx, op, 0)) {
          return true;
      }
@@ -XXX,XX +XXX,XX @@ static bool fold_addsub2(OptContext *ctx, TCGOp *op, bool add)
  static bool fold_add2(OptContext *ctx, TCGOp *op)
  {
 +    /* Note that the high and low parts may be independently swapped. */
 +    swap_commutative(op->args[0], &op->args[2], &op->args[4]);
 +    swap_commutative(op->args[1], &op->args[3], &op->args[5]);
 +
      return fold_addsub2(ctx, op, true);
  }
- static void gen_bxx(DisasContext *dc, uint32_t code, uint32_t flags)
+@@ -XXX,XX +XXX,XX @@ static bool fold_and(OptContext *ctx, TCGOp *op)
-@@ -XXX,XX +XXX,XX @@ static void gen_bxx(DisasContext *dc, uint32_t code, uint32_t flags)
+ {
-     gen_goto_tb(dc, 0, dc->pc + 4);
+     uint64_t z1, z2;
-     gen_set_label(l1);
-     gen_goto_tb(dc, 1, dc->pc + 4 + (instr.imm16.s & -4));
+-    if (fold_const2(ctx, op) ||
--    dc->is_jmp = DISAS_NORETURN;
++    if (fold_const2_commutative(ctx, op) ||
-+    dc->base.is_jmp = DISAS_NORETURN;
+         fold_xi_to_i(ctx, op, 0) ||
- }
+         fold_xi_to_x(ctx, op, -1) ||
+         fold_xx_to_x(ctx, op)) {
- /* Comparison instructions */
+@@ -XXX,XX +XXX,XX @@ static bool fold_andc(OptContext *ctx, TCGOp *op)
-@@ -XXX,XX +XXX,XX @@ static void eret(DisasContext *dc, uint32_t code, uint32_t flags)
+ static bool fold_brcond(OptContext *ctx, TCGOp *op)
-     tcg_gen_mov_tl(cpu_R[CR_STATUS], cpu_R[CR_ESTATUS]);
+ {
-     tcg_gen_mov_tl(cpu_R[R_PC], cpu_R[R_EA]);
+     TCGCond cond = op->args[2];
+-    int i = do_constant_folding_cond(ctx->type, op->args[0], op->args[1], cond);
--    dc->is_jmp = DISAS_JUMP;
++    int i;
-+    dc->base.is_jmp = DISAS_JUMP;
- }
++    if (swap_commutative(NO_DEST, &op->args[0], &op->args[1])) {
++        op->args[2] = cond = tcg_swap_cond(cond);
- /* PC <- ra */
++    }
-@@ -XXX,XX +XXX,XX @@ static void ret(DisasContext *dc, uint32_t code, uint32_t flags)
++
- {
++    i = do_constant_folding_cond(ctx->type, op->args[0], op->args[1], cond);
-     tcg_gen_mov_tl(cpu_R[R_PC], cpu_R[R_RA]);
+     if (i == 0) {
+         tcg_op_remove(ctx->tcg, op);
--    dc->is_jmp = DISAS_JUMP;
+         return true;
-+    dc->base.is_jmp = DISAS_JUMP;
+@@ -XXX,XX +XXX,XX @@ static bool fold_brcond(OptContext *ctx, TCGOp *op)
- }
+ static bool fold_brcond2(OptContext *ctx, TCGOp *op)
+ {
- /* PC <- ba */
+     TCGCond cond = op->args[4];
-@@ -XXX,XX +XXX,XX @@ static void bret(DisasContext *dc, uint32_t code, uint32_t flags)
+-    int i = do_constant_folding_cond2(&op->args[0], &op->args[2], cond);
- {
+     TCGArg label = op->args[5];
-     tcg_gen_mov_tl(cpu_R[R_PC], cpu_R[R_BA]);
+-    int inv = 0;
++    int i, inv = 0;
--    dc->is_jmp = DISAS_JUMP;
-+    dc->base.is_jmp = DISAS_JUMP;
++    if (swap_commutative2(&op->args[0], &op->args[2])) {
- }
++        op->args[4] = cond = tcg_swap_cond(cond);
++    }
- /* PC <- rA */
++
-@@ -XXX,XX +XXX,XX @@ static void jmp(DisasContext *dc, uint32_t code, uint32_t flags)
++    i = do_constant_folding_cond2(&op->args[0], &op->args[2], cond);
+     if (i >= 0) {
-     tcg_gen_mov_tl(cpu_R[R_PC], load_gpr(dc, instr.a));
+         goto do_brcond_const;
+     }
--    dc->is_jmp = DISAS_JUMP;
+@@ -XXX,XX +XXX,XX @@ static bool fold_dup2(OptContext *ctx, TCGOp *op)
-+    dc->base.is_jmp = DISAS_JUMP;
- }
+ static bool fold_eqv(OptContext *ctx, TCGOp *op)
+ {
- /* rC <- PC + 4 */
+-    if (fold_const2(ctx, op) ||
-@@ -XXX,XX +XXX,XX @@ static void callr(DisasContext *dc, uint32_t code, uint32_t flags)
++    if (fold_const2_commutative(ctx, op) ||
-     tcg_gen_mov_tl(cpu_R[R_PC], load_gpr(dc, instr.a));
+         fold_xi_to_x(ctx, op, -1) ||
-     tcg_gen_movi_tl(cpu_R[R_RA], dc->pc + 4);
+         fold_xi_to_not(ctx, op, 0)) {
+         return true;
--    dc->is_jmp = DISAS_JUMP;
+@@ -XXX,XX +XXX,XX @@ static bool fold_mov(OptContext *ctx, TCGOp *op)
-+    dc->base.is_jmp = DISAS_JUMP;
+ static bool fold_movcond(OptContext *ctx, TCGOp *op)
- }
+ {
+     TCGCond cond = op->args[5];
- /* rC <- ctlN */
+-    int i = do_constant_folding_cond(ctx->type, op->args[1], op->args[2], cond);
-@@ -XXX,XX +XXX,XX @@ static void wrctl(DisasContext *dc, uint32_t code, uint32_t flags)
++    int i;
-     /* If interrupts were enabled using WRCTL, trigger them. */
- #if !defined(CONFIG_USER_ONLY)
++    if (swap_commutative(NO_DEST, &op->args[1], &op->args[2])) {
-     if ((instr.imm5 + CR_BASE) == CR_STATUS) {
++        op->args[5] = cond = tcg_swap_cond(cond);
--        if (tb_cflags(dc->tb) & CF_USE_ICOUNT) {
++    }
-+        if (tb_cflags(dc->base.tb) & CF_USE_ICOUNT) {
++    /*
-             gen_io_start();
++     * Canonicalize the "false" input reg to match the destination reg so
 +     * that the tcg backend can implement a "move if true" operation.
 +     */
 +    if (swap_commutative(op->args[0], &op->args[4], &op->args[3])) {
 +        op->args[5] = cond = tcg_invert_cond(cond);
 +    }
 +
 +    i = do_constant_folding_cond(ctx->type, op->args[1], op->args[2], cond);
      if (i >= 0) {
          return tcg_opt_gen_mov(ctx, op, op->args[0], op->args[4 - i]);
      }
@@ -XXX,XX +XXX,XX @@ static bool fold_mul(OptContext *ctx, TCGOp *op)
  static bool fold_mul_highpart(OptContext *ctx, TCGOp *op)
  {
 -    if (fold_const2(ctx, op) ||
 +    if (fold_const2_commutative(ctx, op) ||
          fold_xi_to_i(ctx, op, 0)) {
          return true;
      }
@@ -XXX,XX +XXX,XX @@ static bool fold_mul_highpart(OptContext *ctx, TCGOp *op)
  static bool fold_multiply2(OptContext *ctx, TCGOp *op)
  {
 +    swap_commutative(op->args[0], &op->args[2], &op->args[3]);
 +
      if (arg_is_const(op->args[2]) && arg_is_const(op->args[3])) {
          uint64_t a = arg_info(op->args[2])->val;
          uint64_t b = arg_info(op->args[3])->val;
@@ -XXX,XX +XXX,XX @@ static bool fold_multiply2(OptContext *ctx, TCGOp *op)
  static bool fold_nand(OptContext *ctx, TCGOp *op)
  {
 -    if (fold_const2(ctx, op) ||
 +    if (fold_const2_commutative(ctx, op) ||
          fold_xi_to_not(ctx, op, -1)) {
          return true;
      }
@@ -XXX,XX +XXX,XX @@ static bool fold_neg(OptContext *ctx, TCGOp *op)
  static bool fold_nor(OptContext *ctx, TCGOp *op)
  {
 -    if (fold_const2(ctx, op) ||
 +    if (fold_const2_commutative(ctx, op) ||
          fold_xi_to_not(ctx, op, 0)) {
          return true;
      }
@@ -XXX,XX +XXX,XX @@ static bool fold_not(OptContext *ctx, TCGOp *op)
  static bool fold_or(OptContext *ctx, TCGOp *op)
  {
 -    if (fold_const2(ctx, op) ||
 +    if (fold_const2_commutative(ctx, op) ||
          fold_xi_to_x(ctx, op, 0) ||
          fold_xx_to_x(ctx, op)) {
          return true;
@@ -XXX,XX +XXX,XX @@ static bool fold_remainder(OptContext *ctx, TCGOp *op)
  static bool fold_setcond(OptContext *ctx, TCGOp *op)
  {
      TCGCond cond = op->args[3];
 -    int i = do_constant_folding_cond(ctx->type, op->args[1], op->args[2], cond);
 +    int i;
 +    if (swap_commutative(op->args[0], &op->args[1], &op->args[2])) {
 +        op->args[3] = cond = tcg_swap_cond(cond);
 +    }
 +
 +    i = do_constant_folding_cond(ctx->type, op->args[1], op->args[2], cond);
      if (i >= 0) {
          return tcg_opt_gen_movi(ctx, op, op->args[0], i);
      }
@@ -XXX,XX +XXX,XX @@ static bool fold_setcond(OptContext *ctx, TCGOp *op)
  static bool fold_setcond2(OptContext *ctx, TCGOp *op)
  {
      TCGCond cond = op->args[5];
 -    int i = do_constant_folding_cond2(&op->args[1], &op->args[3], cond);
 -    int inv = 0;
 +    int i, inv = 0;
 +    if (swap_commutative2(&op->args[1], &op->args[3])) {
 +        op->args[5] = cond = tcg_swap_cond(cond);
 +    }
 +
 +    i = do_constant_folding_cond2(&op->args[1], &op->args[3], cond);
      if (i >= 0) {
          goto do_setcond_const;
      }
@@ -XXX,XX +XXX,XX @@ static bool fold_tcg_ld(OptContext *ctx, TCGOp *op)
  static bool fold_xor(OptContext *ctx, TCGOp *op)
  {
 -    if (fold_const2(ctx, op) ||
 +    if (fold_const2_commutative(ctx, op) ||
          fold_xx_to_i(ctx, op, 0) ||
          fold_xi_to_x(ctx, op, 0) ||
          fold_xi_to_not(ctx, op, -1)) {
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
              ctx.type = TCG_TYPE_I32;
          }
-         gen_helper_check_interrupts(cpu_env);
--        dc->is_jmp = DISAS_UPDATE;
+-        /* For commutative operations make constant second argument */
-+        dc->base.is_jmp = DISAS_UPDATE;
+-        switch (opc) {
-     }
+-        CASE_OP_32_64_VEC(add):
- #endif
+-        CASE_OP_32_64_VEC(mul):
- }
+-        CASE_OP_32_64_VEC(and):
-@@ -XXX,XX +XXX,XX @@ static void gen_exception(DisasContext *dc, uint32_t excp)
+-        CASE_OP_32_64_VEC(or):
-     tcg_gen_movi_tl(cpu_R[R_PC], dc->pc);
+-        CASE_OP_32_64_VEC(xor):
-     gen_helper_raise_exception(cpu_env, tmp);
+-        CASE_OP_32_64(eqv):
-     tcg_temp_free_i32(tmp);
+-        CASE_OP_32_64(nand):
--    dc->is_jmp = DISAS_NORETURN;
+-        CASE_OP_32_64(nor):
-+    dc->base.is_jmp = DISAS_NORETURN;
+-        CASE_OP_32_64(muluh):
- }
+-        CASE_OP_32_64(mulsh):
+-            swap_commutative(op->args[0], &op->args[1], &op->args[2]);
- /* generate intermediate code for basic block 'tb'.  */
+-            break;
-@@ -XXX,XX +XXX,XX @@ void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int max_insns)
+-        CASE_OP_32_64(brcond):
-     int num_insns;
+-            if (swap_commutative(-1, &op->args[0], &op->args[1])) {
+-                op->args[2] = tcg_swap_cond(op->args[2]);
-     /* Initialize DC */
+-            }
--    dc->is_jmp  = DISAS_NEXT;
+-            break;
--    dc->pc      = tb->pc;
+-        CASE_OP_32_64(setcond):
--    dc->tb      = tb;
+-            if (swap_commutative(op->args[0], &op->args[1], &op->args[2])) {
-+
+-                op->args[3] = tcg_swap_cond(op->args[3]);
-+    dc->base.tb = tb;
+-            }
-+    dc->base.singlestep_enabled = cs->singlestep_enabled;
+-            break;
-+    dc->base.is_jmp = DISAS_NEXT;
+-        CASE_OP_32_64(movcond):
-+    dc->base.pc_first = tb->pc;
+-            if (swap_commutative(-1, &op->args[1], &op->args[2])) {
-+    dc->base.pc_next = tb->pc;
+-                op->args[5] = tcg_swap_cond(op->args[5]);
-+
+-            }
-     dc->mem_idx = cpu_mmu_index(env, false);
+-            /* For movcond, we canonicalize the "false" input reg to match
--    dc->singlestep_enabled = cs->singlestep_enabled;
+-               the destination reg so that the tcg backend can implement
+-               a "move if true" operation.  */
-     /* Set up instruction counts */
+-            if (swap_commutative(op->args[0], &op->args[4], &op->args[3])) {
-     num_insns = 0;
+-                op->args[5] = tcg_invert_cond(op->args[5]);
-@@ -XXX,XX +XXX,XX @@ void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int max_insns)
+-            }
+-            break;
-     gen_tb_start(tb);
+-        CASE_OP_32_64(add2):
-     do {
+-            swap_commutative(op->args[0], &op->args[2], &op->args[4]);
--        tcg_gen_insn_start(dc->pc);
+-            swap_commutative(op->args[1], &op->args[3], &op->args[5]);
-+        tcg_gen_insn_start(dc->base.pc_next);
+-            break;
-         num_insns++;
+-        CASE_OP_32_64(mulu2):
+-        CASE_OP_32_64(muls2):
--        if (unlikely(cpu_breakpoint_test(cs, dc->pc, BP_ANY))) {
+-            swap_commutative(op->args[0], &op->args[2], &op->args[3]);
-+        if (unlikely(cpu_breakpoint_test(cs, dc->base.pc_next, BP_ANY))) {
+-            break;
-             gen_exception(dc, EXCP_DEBUG);
+-        case INDEX_op_brcond2_i32:
-             /* The address covered by the breakpoint must be included in
+-            if (swap_commutative2(&op->args[0], &op->args[2])) {
-                [tb->pc, tb->pc + tb->size) in order to for it to be
+-                op->args[4] = tcg_swap_cond(op->args[4]);
-@@ -XXX,XX +XXX,XX @@ void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int max_insns)
+-            }
-             gen_io_start();
+-            break;
-         }
+-        case INDEX_op_setcond2_i32:
+-            if (swap_commutative2(&op->args[1], &op->args[3])) {
-+        dc->pc = dc->base.pc_next;
+-                op->args[5] = tcg_swap_cond(op->args[5]);
-+        dc->base.pc_next += 4;
+-            }
-+
+-            break;
-         /* Decode an instruction */
+-        default:
-         handle_instruction(dc, env);
+-            break;
+-        }
 -        dc->pc += 4;
 -
-         /* Translation stops when a conditional branch is encountered.
+         /* Assume all bits affected, and no bits known zero. */
-          * Otherwise the subsequent code could get translated several times.
+         ctx.a_mask = -1;
-          * Also stop translation when a page boundary is reached.  This
+         ctx.z_mask = -1;
           * ensures prefetch aborts occur at the right place.  */
 -    } while (!dc->is_jmp &&
 +    } while (!dc->base.is_jmp &&
               !tcg_op_buf_full() &&
               num_insns < max_insns);
      /* Indicate where the next block should start */
 -    switch (dc->is_jmp) {
 +    switch (dc->base.is_jmp) {
      case DISAS_NEXT:
      case DISAS_UPDATE:
          /* Save the current PC back into the CPU register */
 -        tcg_gen_movi_tl(cpu_R[R_PC], dc->pc);
 +        tcg_gen_movi_tl(cpu_R[R_PC], dc->base.pc_next);
          tcg_gen_exit_tb(NULL, 0);
          break;
@@ -XXX,XX +XXX,XX @@ void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int max_insns)
      gen_tb_end(tb, num_insns);
      /* Mark instruction starts for the final generated instruction */
 -    tb->size = dc->pc - tb->pc;
 +    tb->size = dc->base.pc_next - dc->base.pc_first;
      tb->icount = num_insns;
  #ifdef DEBUG_DISAS
      if (qemu_loglevel_mask(CPU_LOG_TB_IN_ASM)
 -        && qemu_log_in_addr_range(tb->pc)) {
 +        && qemu_log_in_addr_range(dc->base.pc_first)) {
          FILE *logfile = qemu_log_lock();
 -        qemu_log("IN: %s\n", lookup_symbol(tb->pc));
 -        log_target_disas(cs, tb->pc, dc->pc - tb->pc);
 +        qemu_log("IN: %s\n", lookup_symbol(dc->base.pc_first));
 +        log_target_disas(cs, tb->pc, tb->size);
          qemu_log("\n");
          qemu_log_unlock(logfile);
      }
 --
 .25.1

-[PULL 28/63] target/cris: Do not exit tb for X_FLAG changes
+[PULL 47/56] tcg/optimize: Stop forcing z_mask to "garbage" for 32-bit values
-We always know the exact value of X, that's all that matters.
+This "garbage" setting pre-dates the addition of the type
-This avoids splitting the TB e.g. between "ax" and "addq".
+changing opcodes INDEX_op_ext_i32_i64, INDEX_op_extu_i32_i64,
 and INDEX_op_extr{l,h}_i64_i32.
-Reviewed-by: Edgar E. Iglesias <edgar.iglesias@xilinx.com>
+So now we have a definitive points at which to adjust z_mask
-Tested-by: Edgar E. Iglesias <edgar.iglesias@xilinx.com>
+to eliminate such bits from the 32-bit operands.
 Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
 Reviewed-by: Luis Pires <luis.pires@eldorado.org.br>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- target/cris/translate.c | 3 ---
+ tcg/optimize.c | 35 ++++++++++++++++-------------------
-file changed, 3 deletions(-)
+file changed, 16 insertions(+), 19 deletions(-)
-diff --git a/target/cris/translate.c b/target/cris/translate.c
+diff --git a/tcg/optimize.c b/tcg/optimize.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/cris/translate.c
+--- a/tcg/optimize.c
-+++ b/target/cris/translate.c
++++ b/tcg/optimize.c
-@@ -XXX,XX +XXX,XX @@ static void cris_tr_translate_insn(DisasContextBase *dcbase, CPUState *cs)
+@@ -XXX,XX +XXX,XX @@ static void init_ts_info(OptContext *ctx, TCGTemp *ts)
-         cris_clear_x_flag(dc);
+         ti->is_const = true;
          ti->val = ts->val;
          ti->z_mask = ts->val;
 -        if (TCG_TARGET_REG_BITS > 32 && ts->type == TCG_TYPE_I32) {
 -            /* High bits of a 32-bit quantity are garbage.  */
 -            ti->z_mask |= ~0xffffffffull;
 -        }
      } else {
          ti->is_const = false;
          ti->z_mask = -1;
@@ -XXX,XX +XXX,XX @@ static bool tcg_opt_gen_mov(OptContext *ctx, TCGOp *op, TCGArg dst, TCGArg src)
      TCGTemp *src_ts = arg_temp(src);
      TempOptInfo *di;
      TempOptInfo *si;
 -    uint64_t z_mask;
      TCGOpcode new_op;
      if (ts_are_copies(dst_ts, src_ts)) {
@@ -XXX,XX +XXX,XX @@ static bool tcg_opt_gen_mov(OptContext *ctx, TCGOp *op, TCGArg dst, TCGArg src)
      op->args[0] = dst;
      op->args[1] = src;
 -    z_mask = si->z_mask;
 -    if (TCG_TARGET_REG_BITS > 32 && new_op == INDEX_op_mov_i32) {
 -        /* High bits of the destination are now garbage.  */
 -        z_mask |= ~0xffffffffull;
 -    }
 -    di->z_mask = z_mask;
 +    di->z_mask = si->z_mask;
      if (src_ts->type == dst_ts->type) {
          TempOptInfo *ni = ts_info(si->next_copy);
@@ -XXX,XX +XXX,XX @@ static bool tcg_opt_gen_mov(OptContext *ctx, TCGOp *op, TCGArg dst, TCGArg src)
  static bool tcg_opt_gen_movi(OptContext *ctx, TCGOp *op,
                               TCGArg dst, uint64_t val)
  {
 -    /* Convert movi to mov with constant temp. */
 -    TCGTemp *tv = tcg_constant_internal(ctx->type, val);
 +    TCGTemp *tv;
 +    if (ctx->type == TCG_TYPE_I32) {
 +        val = (int32_t)val;
 +    }
 +
 +    /* Convert movi to mov with constant temp. */
 +    tv = tcg_constant_internal(ctx->type, val);
      init_ts_info(ctx, tv);
      return tcg_opt_gen_mov(ctx, op, dst, temp_arg(tv));
  }
@@ -XXX,XX +XXX,XX @@ static bool fold_masks(OptContext *ctx, TCGOp *op)
      uint64_t z_mask = ctx->z_mask;
      /*
 -     * 32-bit ops generate 32-bit results.  For the result is zero test
 -     * below, we can ignore high bits, but for further optimizations we
 -     * need to record that the high bits contain garbage.
 +     * 32-bit ops generate 32-bit results, which for the purpose of
 +     * simplifying tcg are sign-extended.  Certainly that's how we
 +     * represent our constants elsewhere.  Note that the bits will
 +     * be reset properly for a 64-bit value when encountering the
 +     * type changing opcodes.
       */
      if (ctx->type == TCG_TYPE_I32) {
 -        ctx->z_mask |= MAKE_64BIT_MASK(32, 32);
 -        a_mask &= MAKE_64BIT_MASK(0, 32);
 -        z_mask &= MAKE_64BIT_MASK(0, 32);
 +        a_mask = (int32_t)a_mask;
 +        z_mask = (int32_t)z_mask;
 +        ctx->z_mask = z_mask;
      }
--    /* Fold unhandled changes to X_FLAG into cpustate_changed. */
+     if (z_mask == 0) {
 -    dc->cpustate_changed |= dc->flags_x != (dc->base.tb->flags & X_FLAG);
 -
      /*
       * All branches are delayed branches, handled immediately below.
       * We don't expect to see odd combinations of exit conditions.
 --
 .25.1

-[PULL 53/63] tcg: Make use of bswap flags in tcg_gen_qemu_ld_*
+[PULL 48/56] tcg/optimize: Use fold_xx_to_i for orc
-We can perform any required sign-extension via TCG_BSWAP_OS.
+Recognize the constant function for or-complement.
+Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
+Reviewed-by: Luis Pires <luis.pires@eldorado.org.br>
 Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
-Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- tcg/tcg-op.c | 24 ++++++++++--------------
+ tcg/optimize.c | 1 +
-file changed, 10 insertions(+), 14 deletions(-)
+file changed, 1 insertion(+)
-diff --git a/tcg/tcg-op.c b/tcg/tcg-op.c
+diff --git a/tcg/optimize.c b/tcg/optimize.c
 index XXXXXXX..XXXXXXX 100644
---- a/tcg/tcg-op.c
+--- a/tcg/optimize.c
-+++ b/tcg/tcg-op.c
++++ b/tcg/optimize.c
-@@ -XXX,XX +XXX,XX @@ void tcg_gen_qemu_ld_i32(TCGv_i32 val, TCGv addr, TCGArg idx, MemOp memop)
+@@ -XXX,XX +XXX,XX @@ static bool fold_or(OptContext *ctx, TCGOp *op)
-     orig_memop = memop;
+ static bool fold_orc(OptContext *ctx, TCGOp *op)
-     if (!TCG_TARGET_HAS_MEMORY_BSWAP && (memop & MO_BSWAP)) {
+ {
-         memop &= ~MO_BSWAP;
+     if (fold_const2(ctx, op) ||
--        /* The bswap primitive requires zero-extended input.  */
++        fold_xx_to_i(ctx, op, -1) ||
-+        /* The bswap primitive benefits from zero-extended input.  */
+         fold_xi_to_x(ctx, op, -1) ||
-         if ((memop & MO_SSIZE) == MO_SW) {
+         fold_ix_to_not(ctx, op, 0)) {
-             memop &= ~MO_SIGN;
+         return true;
          }
@@ -XXX,XX +XXX,XX @@ void tcg_gen_qemu_ld_i32(TCGv_i32 val, TCGv addr, TCGArg idx, MemOp memop)
      if ((orig_memop ^ memop) & MO_BSWAP) {
          switch (orig_memop & MO_SIZE) {
          case MO_16:
 -            tcg_gen_bswap16_i32(val, val, TCG_BSWAP_IZ | TCG_BSWAP_OZ);
 -            if (orig_memop & MO_SIGN) {
 -                tcg_gen_ext16s_i32(val, val);
 -            }
 +            tcg_gen_bswap16_i32(val, val, (orig_memop & MO_SIGN
 +                                           ? TCG_BSWAP_IZ | TCG_BSWAP_OS
 +                                           : TCG_BSWAP_IZ | TCG_BSWAP_OZ));
              break;
          case MO_32:
              tcg_gen_bswap32_i32(val, val);
@@ -XXX,XX +XXX,XX @@ void tcg_gen_qemu_ld_i64(TCGv_i64 val, TCGv addr, TCGArg idx, MemOp memop)
      orig_memop = memop;
      if (!TCG_TARGET_HAS_MEMORY_BSWAP && (memop & MO_BSWAP)) {
          memop &= ~MO_BSWAP;
 -        /* The bswap primitive requires zero-extended input.  */
 +        /* The bswap primitive benefits from zero-extended input.  */
          if ((memop & MO_SIGN) && (memop & MO_SIZE) < MO_64) {
              memop &= ~MO_SIGN;
          }
@@ -XXX,XX +XXX,XX @@ void tcg_gen_qemu_ld_i64(TCGv_i64 val, TCGv addr, TCGArg idx, MemOp memop)
      plugin_gen_mem_callbacks(addr, info);
      if ((orig_memop ^ memop) & MO_BSWAP) {
 +        int flags = (orig_memop & MO_SIGN
 +                     ? TCG_BSWAP_IZ | TCG_BSWAP_OS
 +                     : TCG_BSWAP_IZ | TCG_BSWAP_OZ);
          switch (orig_memop & MO_SIZE) {
          case MO_16:
 -            tcg_gen_bswap16_i64(val, val, TCG_BSWAP_IZ | TCG_BSWAP_OZ);
 -            if (orig_memop & MO_SIGN) {
 -                tcg_gen_ext16s_i64(val, val);
 -            }
 +            tcg_gen_bswap16_i64(val, val, flags);
              break;
          case MO_32:
 -            tcg_gen_bswap32_i64(val, val, TCG_BSWAP_IZ | TCG_BSWAP_OZ);
 -            if (orig_memop & MO_SIGN) {
 -                tcg_gen_ext32s_i64(val, val);
 -            }
 +            tcg_gen_bswap32_i64(val, val, flags);
              break;
          case MO_64:
              tcg_gen_bswap64_i64(val, val);
 --
 .25.1

-[PULL 06/63] target/nios2: Remove assignment to env in handle_instruction
+[PULL 49/56] tcg/optimize: Use fold_xi_to_x for mul
-Direct assignments to env during translation do not work.
+Recognize the identity function for low-part multiply.
-As it happens, the only way we can get here is if env->pc
+Suggested-by: Luis Pires <luis.pires@eldorado.org.br>
-is already set to dc->pc.  We will trap on the first insn
+Reviewed-by: Luis Pires <luis.pires@eldorado.org.br>
-we execute anywhere on the page.
+Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
 Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- target/nios2/translate.c | 3 ++-
+ tcg/optimize.c | 3 ++-
 file changed, 2 insertions(+), 1 deletion(-)
-diff --git a/target/nios2/translate.c b/target/nios2/translate.c
+diff --git a/tcg/optimize.c b/tcg/optimize.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/nios2/translate.c
+--- a/tcg/optimize.c
-+++ b/target/nios2/translate.c
++++ b/tcg/optimize.c
-@@ -XXX,XX +XXX,XX @@ static void handle_instruction(DisasContext *dc, CPUNios2State *env)
+@@ -XXX,XX +XXX,XX @@ static bool fold_movcond(OptContext *ctx, TCGOp *op)
-     uint32_t code;
+ static bool fold_mul(OptContext *ctx, TCGOp *op)
-     uint8_t op;
+ {
-     const Nios2Instruction *instr;
+     if (fold_const2(ctx, op) ||
-+
+-        fold_xi_to_i(ctx, op, 0)) {
- #if defined(CONFIG_USER_ONLY)
++        fold_xi_to_i(ctx, op, 0) ||
-     /* FIXME: Is this needed ? */
++        fold_xi_to_x(ctx, op, 1)) {
-     if (dc->pc >= 0x1000 && dc->pc < 0x2000) {
+         return true;
 -        env->regs[R_PC] = dc->pc;
          t_gen_helper_raise_exception(dc, 0xaa);
          return;
      }
- #endif
+     return false;
 +
      code = cpu_ldl_code(env, dc->pc);
      op = get_opcode(code);
 --
 .25.1

-[PULL 57/63] target/arm: Improve REVSH
+[PULL 50/56] tcg/optimize: Use fold_xi_to_x for div
-The new bswap flags can implement the semantics exactly.
+Recognize the identity function for division.
-Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
+Suggested-by: Luis Pires <luis.pires@eldorado.org.br>
 Reviewed-by: Luis Pires <luis.pires@eldorado.org.br>
 Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- target/arm/translate.c | 4 +---
+ tcg/optimize.c | 6 +++++-
-file changed, 1 insertion(+), 3 deletions(-)
+file changed, 5 insertions(+), 1 deletion(-)
-diff --git a/target/arm/translate.c b/target/arm/translate.c
+diff --git a/tcg/optimize.c b/tcg/optimize.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/translate.c
+--- a/tcg/optimize.c
-+++ b/target/arm/translate.c
++++ b/tcg/optimize.c
-@@ -XXX,XX +XXX,XX @@ void gen_rev16(TCGv_i32 dest, TCGv_i32 var)
+@@ -XXX,XX +XXX,XX @@ static bool fold_deposit(OptContext *ctx, TCGOp *op)
- /* Byteswap low halfword and sign extend.  */
- static void gen_revsh(TCGv_i32 dest, TCGv_i32 var)
+ static bool fold_divide(OptContext *ctx, TCGOp *op)
  {
--    tcg_gen_ext16u_i32(var, var);
+-    return fold_const2(ctx, op);
--    tcg_gen_bswap16_i32(var, var, TCG_BSWAP_IZ | TCG_BSWAP_OZ);
++    if (fold_const2(ctx, op) ||
--    tcg_gen_ext16s_i32(dest, var);
++        fold_xi_to_x(ctx, op, 1)) {
-+    tcg_gen_bswap16_i32(var, var, TCG_BSWAP_OS);
++        return true;
 +    }
 +    return false;
  }
- /* Dual 16-bit add.  Result placed in t0 and t1 is marked as dead.
+ static bool fold_dup(OptContext *ctx, TCGOp *op)
 --
 .25.1

-[PULL 48/63] tcg/mips: Support bswap flags in tcg_out_bswap16
+[PULL 51/56] tcg/optimize: Use fold_xx_to_i for rem
-Merge tcg_out_bswap16 and tcg_out_bswap16s.  Use the flags
+Recognize the constant function for remainder.
 in the internal uses for loads and stores.
+Suggested-by: Luis Pires <luis.pires@eldorado.org.br>
 Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- tcg/mips/tcg-target.c.inc | 63 +++++++++++++++++++--------------------
+ tcg/optimize.c | 6 +++++-
-file changed, 30 insertions(+), 33 deletions(-)
+file changed, 5 insertions(+), 1 deletion(-)
-diff --git a/tcg/mips/tcg-target.c.inc b/tcg/mips/tcg-target.c.inc
+diff --git a/tcg/optimize.c b/tcg/optimize.c
 index XXXXXXX..XXXXXXX 100644
---- a/tcg/mips/tcg-target.c.inc
+--- a/tcg/optimize.c
-+++ b/tcg/mips/tcg-target.c.inc
++++ b/tcg/optimize.c
-@@ -XXX,XX +XXX,XX @@ static void tcg_out_movi(TCGContext *s, TCGType type,
+@@ -XXX,XX +XXX,XX @@ static bool fold_qemu_st(OptContext *ctx, TCGOp *op)
-     }
  static bool fold_remainder(OptContext *ctx, TCGOp *op)
  {
 -    return fold_const2(ctx, op);
 +    if (fold_const2(ctx, op) ||
 +        fold_xx_to_i(ctx, op, 0)) {
 +        return true;
 +    }
 +    return false;
  }
--static inline void tcg_out_bswap16(TCGContext *s, TCGReg ret, TCGReg arg)
+ static bool fold_setcond(OptContext *ctx, TCGOp *op)
 +static void tcg_out_bswap16(TCGContext *s, TCGReg ret, TCGReg arg, int flags)
  {
 +    /* ret and arg can't be register tmp0 */
 +    tcg_debug_assert(ret != TCG_TMP0);
 +    tcg_debug_assert(arg != TCG_TMP0);
 +
 +    /* With arg = abcd: */
      if (use_mips32r2_instructions) {
 -        tcg_out_opc_reg(s, OPC_WSBH, ret, 0, arg);
 -    } else {
 -        /* ret and arg can't be register at */
 -        if (ret == TCG_TMP0 || arg == TCG_TMP0) {
 -            tcg_abort();
 +        tcg_out_opc_reg(s, OPC_WSBH, ret, 0, arg);                 /* badc */
 +        if (flags & TCG_BSWAP_OS) {
 +            tcg_out_opc_reg(s, OPC_SEH, ret, 0, ret);              /* ssdc */
 +        } else if ((flags & (TCG_BSWAP_IZ | TCG_BSWAP_OZ)) == TCG_BSWAP_OZ) {
 +            tcg_out_opc_imm(s, OPC_ANDI, ret, ret, 0xffff);        /* 00dc */
          }
 -
 -        tcg_out_opc_sa(s, OPC_SRL, TCG_TMP0, arg, 8);
 -        tcg_out_opc_sa(s, OPC_SLL, ret, arg, 8);
 -        tcg_out_opc_imm(s, OPC_ANDI, ret, ret, 0xff00);
 -        tcg_out_opc_reg(s, OPC_OR, ret, ret, TCG_TMP0);
 +        return;
      }
 -}
 -static inline void tcg_out_bswap16s(TCGContext *s, TCGReg ret, TCGReg arg)
 -{
 -    if (use_mips32r2_instructions) {
 -        tcg_out_opc_reg(s, OPC_WSBH, ret, 0, arg);
 -        tcg_out_opc_reg(s, OPC_SEH, ret, 0, ret);
 +    tcg_out_opc_sa(s, OPC_SRL, TCG_TMP0, arg, 8);                  /* 0abc */
 +    if (!(flags & TCG_BSWAP_IZ)) {
 +        tcg_out_opc_imm(s, OPC_ANDI, TCG_TMP0, TCG_TMP0, 0x00ff);  /* 000c */
 +    }
 +    if (flags & TCG_BSWAP_OS) {
 +        tcg_out_opc_sa(s, OPC_SLL, ret, arg, 24);                  /* d000 */
 +        tcg_out_opc_sa(s, OPC_SRA, ret, ret, 16);                  /* ssd0 */
      } else {
 -        /* ret and arg can't be register at */
 -        if (ret == TCG_TMP0 || arg == TCG_TMP0) {
 -            tcg_abort();
 +        tcg_out_opc_sa(s, OPC_SLL, ret, arg, 8);                   /* bcd0 */
 +        if (flags & TCG_BSWAP_OZ) {
 +            tcg_out_opc_imm(s, OPC_ANDI, ret, ret, 0xff00);        /* 00d0 */
          }
 -
 -        tcg_out_opc_sa(s, OPC_SRL, TCG_TMP0, arg, 8);
 -        tcg_out_opc_sa(s, OPC_SLL, ret, arg, 24);
 -        tcg_out_opc_sa(s, OPC_SRA, ret, ret, 16);
 -        tcg_out_opc_reg(s, OPC_OR, ret, ret, TCG_TMP0);
      }
 +    tcg_out_opc_reg(s, OPC_OR, ret, ret, TCG_TMP0);                /* ssdc */
  }
  static void tcg_out_bswap_subr(TCGContext *s, const tcg_insn_unit *sub)
@@ -XXX,XX +XXX,XX @@ static void tcg_out_qemu_ld_direct(TCGContext *s, TCGReg lo, TCGReg hi,
          break;
      case MO_UW | MO_BSWAP:
          tcg_out_opc_imm(s, OPC_LHU, TCG_TMP1, base, 0);
 -        tcg_out_bswap16(s, lo, TCG_TMP1);
 +        tcg_out_bswap16(s, lo, TCG_TMP1, TCG_BSWAP_IZ | TCG_BSWAP_OZ);
          break;
      case MO_UW:
          tcg_out_opc_imm(s, OPC_LHU, lo, base, 0);
          break;
      case MO_SW | MO_BSWAP:
          tcg_out_opc_imm(s, OPC_LHU, TCG_TMP1, base, 0);
 -        tcg_out_bswap16s(s, lo, TCG_TMP1);
 +        tcg_out_bswap16(s, lo, TCG_TMP1, TCG_BSWAP_IZ | TCG_BSWAP_OS);
          break;
      case MO_SW:
          tcg_out_opc_imm(s, OPC_LH, lo, base, 0);
@@ -XXX,XX +XXX,XX @@ static void tcg_out_qemu_st_direct(TCGContext *s, TCGReg lo, TCGReg hi,
          break;
      case MO_16 | MO_BSWAP:
 -        tcg_out_opc_imm(s, OPC_ANDI, TCG_TMP1, lo, 0xffff);
 -        tcg_out_bswap16(s, TCG_TMP1, TCG_TMP1);
 +        tcg_out_bswap16(s, TCG_TMP1, lo, 0);
          lo = TCG_TMP1;
          /* FALLTHRU */
      case MO_16:
@@ -XXX,XX +XXX,XX @@ static inline void tcg_out_op(TCGContext *s, TCGOpcode opc,
      case INDEX_op_not_i64:
          i1 = OPC_NOR;
          goto do_unary;
 -    case INDEX_op_bswap16_i32:
 -    case INDEX_op_bswap16_i64:
 -        i1 = OPC_WSBH;
 -        goto do_unary;
      case INDEX_op_ext8s_i32:
      case INDEX_op_ext8s_i64:
          i1 = OPC_SEB;
@@ -XXX,XX +XXX,XX @@ static inline void tcg_out_op(TCGContext *s, TCGOpcode opc,
          tcg_out_opc_reg(s, i1, a0, TCG_REG_ZERO, a1);
          break;
 +    case INDEX_op_bswap16_i32:
 +    case INDEX_op_bswap16_i64:
 +        tcg_out_bswap16(s, a0, a1, a2);
 +        break;
      case INDEX_op_bswap32_i32:
          tcg_out_bswap32(s, a0, a1);
          break;
 --
 .25.1

-[PULL 24/63] target/cris: Add DISAS_DBRANCH
+[PULL 52/56] tcg/optimize: Optimize sign extensions
-Move delayed branch handling to tb_stop, where we can re-use other
+Certain targets, like riscv, produce signed 32-bit results.
-end-of-tb code, e.g. the evaluation of flags.  Honor single stepping.
+This can lead to lots of redundant extensions as values are
-Validate that we aren't losing state by overwriting is_jmp.
+manipulated.
-Reviewed-by: Edgar E. Iglesias <edgar.iglesias@xilinx.com>
+Begin by tracking only the obvious sign-extensions, and
-Tested-by: Edgar E. Iglesias <edgar.iglesias@xilinx.com>
+converting them to simple copies when possible.
 Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
 Reviewed-by: Luis Pires <luis.pires@eldorado.org.br>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- target/cris/translate.c | 96 ++++++++++++++++++++++++-----------------
+ tcg/optimize.c | 123 ++++++++++++++++++++++++++++++++++++++++---------
-file changed, 56 insertions(+), 40 deletions(-)
+file changed, 102 insertions(+), 21 deletions(-)
-diff --git a/target/cris/translate.c b/target/cris/translate.c
+diff --git a/tcg/optimize.c b/tcg/optimize.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/cris/translate.c
+--- a/tcg/optimize.c
-+++ b/target/cris/translate.c
++++ b/tcg/optimize.c
-@@ -XXX,XX +XXX,XX @@
+@@ -XXX,XX +XXX,XX @@ typedef struct TempOptInfo {
- #define DISAS_UPDATE        DISAS_TARGET_1
+     TCGTemp *next_copy;
- /* Cpu state was modified dynamically, excluding pc -- use npc */
+     uint64_t val;
- #define DISAS_UPDATE_NEXT   DISAS_TARGET_2
+     uint64_t z_mask;  /* mask bit is 0 if and only if value bit is 0 */
-+/* PC update for delayed branch, see cpustate_changed otherwise */
++    uint64_t s_mask;  /* a left-aligned mask of clrsb(value) bits. */
-+#define DISAS_DBRANCH       DISAS_TARGET_3
+ } TempOptInfo;
- /* Used by the decoder.  */
+ typedef struct OptContext {
- #define EXTRACT_FIELD(src, start, end) \
+@@ -XXX,XX +XXX,XX @@ typedef struct OptContext {
-@@ -XXX,XX +XXX,XX @@ static void cris_tr_translate_insn(DisasContextBase *dcbase, CPUState *cs)
+     /* In flight values from optimization. */
-     dc->cpustate_changed |= dc->flags_x != (dc->base.tb->flags & X_FLAG);
+     uint64_t a_mask;  /* mask bit is 0 iff value identical to first input */
      uint64_t z_mask;  /* mask bit is 0 iff value bit is 0 */
 +    uint64_t s_mask;  /* mask of clrsb(value) bits */
      TCGType type;
  } OptContext;
 +/* Calculate the smask for a specific value. */
 +static uint64_t smask_from_value(uint64_t value)
 +{
 +    int rep = clrsb64(value);
 +    return ~(~0ull >> rep);
 +}
 +
 +/*
 + * Calculate the smask for a given set of known-zeros.
 + * If there are lots of zeros on the left, we can consider the remainder
 + * an unsigned field, and thus the corresponding signed field is one bit
 + * larger.
 + */
 +static uint64_t smask_from_zmask(uint64_t zmask)
 +{
 +    /*
 +     * Only the 0 bits are significant for zmask, thus the msb itself
 +     * must be zero, else we have no sign information.
 +     */
 +    int rep = clz64(zmask);
 +    if (rep == 0) {
 +        return 0;
 +    }
 +    rep -= 1;
 +    return ~(~0ull >> rep);
 +}
 +
  static inline TempOptInfo *ts_info(TCGTemp *ts)
  {
      return ts->state_ptr;
@@ -XXX,XX +XXX,XX @@ static void reset_ts(TCGTemp *ts)
      ti->prev_copy = ts;
      ti->is_const = false;
      ti->z_mask = -1;
 +    ti->s_mask = 0;
  }
  static void reset_temp(TCGArg arg)
@@ -XXX,XX +XXX,XX @@ static void init_ts_info(OptContext *ctx, TCGTemp *ts)
          ti->is_const = true;
          ti->val = ts->val;
          ti->z_mask = ts->val;
 +        ti->s_mask = smask_from_value(ts->val);
      } else {
          ti->is_const = false;
          ti->z_mask = -1;
 +        ti->s_mask = 0;
      }
  }
@@ -XXX,XX +XXX,XX @@ static bool tcg_opt_gen_mov(OptContext *ctx, TCGOp *op, TCGArg dst, TCGArg src)
      op->args[1] = src;
      di->z_mask = si->z_mask;
 +    di->s_mask = si->s_mask;
      if (src_ts->type == dst_ts->type) {
          TempOptInfo *ni = ts_info(si->next_copy);
@@ -XXX,XX +XXX,XX @@ static void finish_folding(OptContext *ctx, TCGOp *op)
      nb_oargs = def->nb_oargs;
      for (i = 0; i < nb_oargs; i++) {
 -        reset_temp(op->args[i]);
 +        TCGTemp *ts = arg_temp(op->args[i]);
 +        reset_ts(ts);
          /*
 -         * Save the corresponding known-zero bits mask for the
 +         * Save the corresponding known-zero/sign bits mask for the
           * first output argument (only one supported so far).
           */
          if (i == 0) {
 -            arg_info(op->args[i])->z_mask = ctx->z_mask;
 +            ts_info(ts)->z_mask = ctx->z_mask;
 +            ts_info(ts)->s_mask = ctx->s_mask;
          }
      }
  }
@@ -XXX,XX +XXX,XX @@ static bool fold_masks(OptContext *ctx, TCGOp *op)
  {
      uint64_t a_mask = ctx->a_mask;
      uint64_t z_mask = ctx->z_mask;
 +    uint64_t s_mask = ctx->s_mask;
      /*
--     * Check for delayed branches here.  If we do it before
+      * 32-bit ops generate 32-bit results, which for the purpose of
--     * actually generating any host code, the simulator will just
+@@ -XXX,XX +XXX,XX @@ static bool fold_masks(OptContext *ctx, TCGOp *op)
--     * loop doing nothing for on this program location.
+     if (ctx->type == TCG_TYPE_I32) {
-+     * All branches are delayed branches, handled immediately below.
+         a_mask = (int32_t)a_mask;
-+     * We don't expect to see odd combinations of exit conditions.
+         z_mask = (int32_t)z_mask;
-      */
++        s_mask |= MAKE_64BIT_MASK(32, 32);
-+    assert(dc->base.is_jmp == DISAS_NEXT || dc->cpustate_changed);
+         ctx->z_mask = z_mask;
-+
++        ctx->s_mask = s_mask;
-     if (dc->delayed_branch && --dc->delayed_branch == 0) {
+     }
--        if (dc->base.tb->flags & 7) {
--            t_gen_movi_env_TN(dslot, 0);
+     if (z_mask == 0) {
--        }
+@@ -XXX,XX +XXX,XX @@ static bool fold_brcond2(OptContext *ctx, TCGOp *op)
-+        dc->base.is_jmp = DISAS_DBRANCH;
-+        return;
+ static bool fold_bswap(OptContext *ctx, TCGOp *op)
  {
 -    uint64_t z_mask, sign;
 +    uint64_t z_mask, s_mask, sign;
      if (arg_is_const(op->args[1])) {
          uint64_t t = arg_info(op->args[1])->val;
@@ -XXX,XX +XXX,XX @@ static bool fold_bswap(OptContext *ctx, TCGOp *op)
      }
      z_mask = arg_info(op->args[1])->z_mask;
 +
      switch (op->opc) {
      case INDEX_op_bswap16_i32:
      case INDEX_op_bswap16_i64:
@@ -XXX,XX +XXX,XX @@ static bool fold_bswap(OptContext *ctx, TCGOp *op)
      default:
          g_assert_not_reached();
      }
 +    s_mask = smask_from_zmask(z_mask);
      switch (op->args[2] & (TCG_BSWAP_OZ | TCG_BSWAP_OS)) {
      case TCG_BSWAP_OZ:
@@ -XXX,XX +XXX,XX @@ static bool fold_bswap(OptContext *ctx, TCGOp *op)
          /* If the sign bit may be 1, force all the bits above to 1. */
          if (z_mask & sign) {
              z_mask |= sign;
 +            s_mask = sign << 1;
          }
          break;
      default:
          /* The high bits are undefined: force all bits above the sign to 1. */
          z_mask |= sign << 1;
 +        s_mask = 0;
          break;
      }
      ctx->z_mask = z_mask;
 +    ctx->s_mask = s_mask;
      return fold_masks(ctx, op);
  }
@@ -XXX,XX +XXX,XX @@ static bool fold_eqv(OptContext *ctx, TCGOp *op)
  static bool fold_extract(OptContext *ctx, TCGOp *op)
  {
      uint64_t z_mask_old, z_mask;
 +    int pos = op->args[2];
 +    int len = op->args[3];
      if (arg_is_const(op->args[1])) {
          uint64_t t;
          t = arg_info(op->args[1])->val;
 -        t = extract64(t, op->args[2], op->args[3]);
 +        t = extract64(t, pos, len);
          return tcg_opt_gen_movi(ctx, op, op->args[0], t);
      }
      z_mask_old = arg_info(op->args[1])->z_mask;
 -    z_mask = extract64(z_mask_old, op->args[2], op->args[3]);
 -    if (op->args[2] == 0) {
 +    z_mask = extract64(z_mask_old, pos, len);
 +    if (pos == 0) {
          ctx->a_mask = z_mask_old ^ z_mask;
      }
      ctx->z_mask = z_mask;
 +    ctx->s_mask = smask_from_zmask(z_mask);
      return fold_masks(ctx, op);
  }
@@ -XXX,XX +XXX,XX @@ static bool fold_extract2(OptContext *ctx, TCGOp *op)
  static bool fold_exts(OptContext *ctx, TCGOp *op)
  {
 -    uint64_t z_mask_old, z_mask, sign;
 +    uint64_t s_mask_old, s_mask, z_mask, sign;
      bool type_change = false;
      if (fold_const1(ctx, op)) {
          return true;
      }
 -    z_mask_old = z_mask = arg_info(op->args[1])->z_mask;
 +    z_mask = arg_info(op->args[1])->z_mask;
 +    s_mask = arg_info(op->args[1])->s_mask;
 +    s_mask_old = s_mask;
      switch (op->opc) {
      CASE_OP_32_64(ext8s):
@@ -XXX,XX +XXX,XX @@ static bool fold_exts(OptContext *ctx, TCGOp *op)
      if (z_mask & sign) {
          z_mask |= sign;
 -    } else if (!type_change) {
 -        ctx->a_mask = z_mask_old ^ z_mask;
      }
 +    s_mask |= sign << 1;
 +
      ctx->z_mask = z_mask;
 +    ctx->s_mask = s_mask;
 +    if (!type_change) {
 +        ctx->a_mask = s_mask & ~s_mask_old;
 +    }
--        if (dc->cpustate_changed) {
+     return fold_masks(ctx, op);
--            cris_store_direct_jmp(dc);
+ }
--        }
+@@ -XXX,XX +XXX,XX @@ static bool fold_extu(OptContext *ctx, TCGOp *op)
--
+     }
--        if (dc->clear_locked_irq) {
--            dc->clear_locked_irq = 0;
+     ctx->z_mask = z_mask;
--            t_gen_movi_env_TN(locked_irq, 0);
++    ctx->s_mask = smask_from_zmask(z_mask);
--        }
+     if (!type_change) {
--
+         ctx->a_mask = z_mask_old ^ z_mask;
--        if (dc->jmp == JMP_DIRECT_CC) {
+     }
--            TCGLabel *l1 = gen_new_label();
+@@ -XXX,XX +XXX,XX @@ static bool fold_qemu_ld(OptContext *ctx, TCGOp *op)
--            cris_evaluate_flags(dc);
+     MemOp mop = get_memop(oi);
--
+     int width = 8 * memop_size(mop);
--            /* Conditional jmp.  */
--            tcg_gen_brcondi_tl(TCG_COND_EQ, env_btaken, 0, l1);
+-    if (!(mop & MO_SIGN) && width < 64) {
--            gen_goto_tb(dc, 1, dc->jmp_pc);
+-        ctx->z_mask = MAKE_64BIT_MASK(0, width);
--            gen_set_label(l1);
++    if (width < 64) {
--            gen_goto_tb(dc, 0, dc->pc);
++        ctx->s_mask = MAKE_64BIT_MASK(width, 64 - width);
--            dc->base.is_jmp = DISAS_NORETURN;
++        if (!(mop & MO_SIGN)) {
--            dc->jmp = JMP_NOJMP;
++            ctx->z_mask = MAKE_64BIT_MASK(0, width);
--        } else if (dc->jmp == JMP_DIRECT) {
++            ctx->s_mask <<= 1;
 -            cris_evaluate_flags(dc);
 -            gen_goto_tb(dc, 0, dc->jmp_pc);
 -            dc->base.is_jmp = DISAS_NORETURN;
 -            dc->jmp = JMP_NOJMP;
 -        } else {
 -            TCGv c = tcg_const_tl(dc->pc);
 -            t_gen_cc_jmp(env_btarget, c);
 -            tcg_temp_free(c);
 -            dc->base.is_jmp = DISAS_JUMP;
 -        }
 +    if (dc->base.is_jmp != DISAS_NEXT) {
 +        return;
      }
      /* Force an update if the per-tb cpu state has changed.  */
 -    if (dc->base.is_jmp == DISAS_NEXT && dc->cpustate_changed) {
 +    if (dc->cpustate_changed) {
          dc->base.is_jmp = DISAS_UPDATE_NEXT;
          return;
      }
@@ -XXX,XX +XXX,XX @@ static void cris_tr_translate_insn(DisasContextBase *dcbase, CPUState *cs)
       * If we can detect the length of the next insn easily, we should.
       * In the meantime, simply stop when we do cross.
       */
 -    if (dc->base.is_jmp == DISAS_NEXT
 -        && ((dc->pc ^ dc->base.pc_first) & TARGET_PAGE_MASK) != 0) {
 +    if ((dc->pc ^ dc->base.pc_first) & TARGET_PAGE_MASK) {
          dc->base.is_jmp = DISAS_TOO_MANY;
      }
  }
@@ -XXX,XX +XXX,XX @@ static void cris_tr_tb_stop(DisasContextBase *dcbase, CPUState *cpu)
      cris_evaluate_flags(dc);
 +    /* Evaluate delayed branch destination and fold to another is_jmp case. */
 +    if (is_jmp == DISAS_DBRANCH) {
 +        if (dc->base.tb->flags & 7) {
 +            t_gen_movi_env_TN(dslot, 0);
 +        }
-+
+     }
-+        switch (dc->jmp) {
-+        case JMP_DIRECT:
+     /* Opcodes that touch guest memory stop the mb optimization.  */
-+            npc = dc->jmp_pc;
+@@ -XXX,XX +XXX,XX @@ static bool fold_setcond2(OptContext *ctx, TCGOp *op)
-+            is_jmp = dc->cpustate_changed ? DISAS_UPDATE_NEXT : DISAS_TOO_MANY;
-+            break;
+ static bool fold_sextract(OptContext *ctx, TCGOp *op)
-+
+ {
-+        case JMP_DIRECT_CC:
+-    int64_t z_mask_old, z_mask;
-+            /*
++    uint64_t z_mask, s_mask, s_mask_old;
-+             * Use a conditional branch if either taken or not-taken path
++    int pos = op->args[2];
-+             * can use goto_tb.  If neither can, then treat it as indirect.
++    int len = op->args[3];
-+             */
-+            if (likely(!dc->base.singlestep_enabled)
+     if (arg_is_const(op->args[1])) {
-+                && likely(!dc->cpustate_changed)
+         uint64_t t;
-+                && (use_goto_tb(dc, dc->jmp_pc) || use_goto_tb(dc, npc))) {
-+                TCGLabel *not_taken = gen_new_label();
+         t = arg_info(op->args[1])->val;
-+
+-        t = sextract64(t, op->args[2], op->args[3]);
-+                tcg_gen_brcondi_tl(TCG_COND_EQ, env_btaken, 0, not_taken);
++        t = sextract64(t, pos, len);
-+                gen_goto_tb(dc, 1, dc->jmp_pc);
+         return tcg_opt_gen_movi(ctx, op, op->args[0], t);
-+                gen_set_label(not_taken);
+     }
-+
-+                /* not-taken case handled below. */
+-    z_mask_old = arg_info(op->args[1])->z_mask;
-+                is_jmp = DISAS_TOO_MANY;
+-    z_mask = sextract64(z_mask_old, op->args[2], op->args[3]);
-+                break;
+-    if (op->args[2] == 0 && z_mask >= 0) {
-+            }
+-        ctx->a_mask = z_mask_old ^ z_mask;
-+            tcg_gen_movi_tl(env_btarget, dc->jmp_pc);
+-    }
-+            /* fall through */
++    z_mask = arg_info(op->args[1])->z_mask;
-+
++    z_mask = sextract64(z_mask, pos, len);
-+        case JMP_INDIRECT:
+     ctx->z_mask = z_mask;
-+            t_gen_cc_jmp(env_btarget, tcg_constant_tl(npc));
-+            is_jmp = dc->cpustate_changed ? DISAS_UPDATE : DISAS_JUMP;
++    s_mask_old = arg_info(op->args[1])->s_mask;
-+            break;
++    s_mask = sextract64(s_mask_old, pos, len);
-+
++    s_mask |= MAKE_64BIT_MASK(len, 64 - len);
-+        default:
++    ctx->s_mask = s_mask;
-+            g_assert_not_reached();
++
-+        }
++    if (pos == 0) {
 +        ctx->a_mask = s_mask & ~s_mask_old;
 +    }
 +
-     if (unlikely(dc->base.singlestep_enabled)) {
+     return fold_masks(ctx, op);
-         switch (is_jmp) {
+ }
-         case DISAS_TOO_MANY:
@@ -XXX,XX +XXX,XX @@ static bool fold_tcg_ld(OptContext *ctx, TCGOp *op)
  {
      /* We can't do any folding with a load, but we can record bits. */
      switch (op->opc) {
 +    CASE_OP_32_64(ld8s):
 +        ctx->s_mask = MAKE_64BIT_MASK(8, 56);
 +        break;
      CASE_OP_32_64(ld8u):
          ctx->z_mask = MAKE_64BIT_MASK(0, 8);
 +        ctx->s_mask = MAKE_64BIT_MASK(9, 55);
 +        break;
 +    CASE_OP_32_64(ld16s):
 +        ctx->s_mask = MAKE_64BIT_MASK(16, 48);
          break;
      CASE_OP_32_64(ld16u):
          ctx->z_mask = MAKE_64BIT_MASK(0, 16);
 +        ctx->s_mask = MAKE_64BIT_MASK(17, 47);
 +        break;
 +    case INDEX_op_ld32s_i64:
 +        ctx->s_mask = MAKE_64BIT_MASK(32, 32);
          break;
      case INDEX_op_ld32u_i64:
          ctx->z_mask = MAKE_64BIT_MASK(0, 32);
 +        ctx->s_mask = MAKE_64BIT_MASK(33, 31);
          break;
      default:
          g_assert_not_reached();
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
              ctx.type = TCG_TYPE_I32;
          }
 -        /* Assume all bits affected, and no bits known zero. */
 +        /* Assume all bits affected, no bits known zero, no sign reps. */
          ctx.a_mask = -1;
          ctx.z_mask = -1;
 +        ctx.s_mask = 0;
          /*
           * Process each opcode.
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
          case INDEX_op_extrh_i64_i32:
              done = fold_extu(&ctx, op);
              break;
 +        CASE_OP_32_64(ld8s):
          CASE_OP_32_64(ld8u):
 +        CASE_OP_32_64(ld16s):
          CASE_OP_32_64(ld16u):
 +        case INDEX_op_ld32s_i64:
          case INDEX_op_ld32u_i64:
              done = fold_tcg_ld(&ctx, op);
              break;
 --
 .25.1

-[PULL 52/63] tcg: Add flags argument to tcg_gen_bswap16_*, tcg_gen_bswap32_i64
+[PULL 53/56] tcg/optimize: Propagate sign info for logical operations
-Implement the new semantics in the fallback expansion.
+Sign repetitions are perforce all identical, whether they are 1 or 0.
-Change all callers to supply the flags that keep the
+Bitwise operations preserve the relative quantity of the repetitions.
 semantics unchanged locally.
-Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
+Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
 Reviewed-by: Luis Pires <luis.pires@eldorado.org.br>
 Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- include/tcg/tcg-op.h            |   8 +--
+ tcg/optimize.c | 29 +++++++++++++++++++++++++++++
- target/arm/translate-a64.c      |  12 ++--
+file changed, 29 insertions(+)
  target/arm/translate.c          |   2 +-
  target/i386/tcg/translate.c     |   2 +-
  target/mips/tcg/mxu_translate.c |   2 +-
  target/s390x/translate.c        |   4 +-
  target/sh4/translate.c          |   2 +-
  tcg/tcg-op.c                    | 121 ++++++++++++++++++++++----------
 files changed, 99 insertions(+), 54 deletions(-)
-diff --git a/include/tcg/tcg-op.h b/include/tcg/tcg-op.h
+diff --git a/tcg/optimize.c b/tcg/optimize.c
 index XXXXXXX..XXXXXXX 100644
---- a/include/tcg/tcg-op.h
+--- a/tcg/optimize.c
-+++ b/include/tcg/tcg-op.h
++++ b/tcg/optimize.c
-@@ -XXX,XX +XXX,XX @@ void tcg_gen_ext8s_i32(TCGv_i32 ret, TCGv_i32 arg);
+@@ -XXX,XX +XXX,XX @@ static bool fold_and(OptContext *ctx, TCGOp *op)
- void tcg_gen_ext16s_i32(TCGv_i32 ret, TCGv_i32 arg);
+     z2 = arg_info(op->args[2])->z_mask;
- void tcg_gen_ext8u_i32(TCGv_i32 ret, TCGv_i32 arg);
+     ctx->z_mask = z1 & z2;
- void tcg_gen_ext16u_i32(TCGv_i32 ret, TCGv_i32 arg);
--void tcg_gen_bswap16_i32(TCGv_i32 ret, TCGv_i32 arg);
++    /*
-+void tcg_gen_bswap16_i32(TCGv_i32 ret, TCGv_i32 arg, int flags);
++     * Sign repetitions are perforce all identical, whether they are 1 or 0.
- void tcg_gen_bswap32_i32(TCGv_i32 ret, TCGv_i32 arg);
++     * Bitwise operations preserve the relative quantity of the repetitions.
- void tcg_gen_smin_i32(TCGv_i32, TCGv_i32 arg1, TCGv_i32 arg2);
++     */
- void tcg_gen_smax_i32(TCGv_i32, TCGv_i32 arg1, TCGv_i32 arg2);
++    ctx->s_mask = arg_info(op->args[1])->s_mask
-@@ -XXX,XX +XXX,XX @@ void tcg_gen_ext32s_i64(TCGv_i64 ret, TCGv_i64 arg);
++                & arg_info(op->args[2])->s_mask;
- void tcg_gen_ext8u_i64(TCGv_i64 ret, TCGv_i64 arg);
++
- void tcg_gen_ext16u_i64(TCGv_i64 ret, TCGv_i64 arg);
+     /*
- void tcg_gen_ext32u_i64(TCGv_i64 ret, TCGv_i64 arg);
+      * Known-zeros does not imply known-ones.  Therefore unless
--void tcg_gen_bswap16_i64(TCGv_i64 ret, TCGv_i64 arg);
+      * arg2 is constant, we can't infer affected bits from it.
--void tcg_gen_bswap32_i64(TCGv_i64 ret, TCGv_i64 arg);
+@@ -XXX,XX +XXX,XX @@ static bool fold_andc(OptContext *ctx, TCGOp *op)
 +void tcg_gen_bswap16_i64(TCGv_i64 ret, TCGv_i64 arg, int flags);
 +void tcg_gen_bswap32_i64(TCGv_i64 ret, TCGv_i64 arg, int flags);
  void tcg_gen_bswap64_i64(TCGv_i64 ret, TCGv_i64 arg);
  void tcg_gen_smin_i64(TCGv_i64, TCGv_i64 arg1, TCGv_i64 arg2);
  void tcg_gen_smax_i64(TCGv_i64, TCGv_i64 arg1, TCGv_i64 arg2);
@@ -XXX,XX +XXX,XX @@ void tcg_gen_stl_vec(TCGv_vec r, TCGv_ptr base, TCGArg offset, TCGType t);
  #define tcg_gen_ext32u_tl tcg_gen_mov_i32
  #define tcg_gen_ext32s_tl tcg_gen_mov_i32
  #define tcg_gen_bswap16_tl tcg_gen_bswap16_i32
 -#define tcg_gen_bswap32_tl tcg_gen_bswap32_i32
 +#define tcg_gen_bswap32_tl(D, S, F) tcg_gen_bswap32_i32(D, S)
  #define tcg_gen_bswap_tl tcg_gen_bswap32_i32
  #define tcg_gen_concat_tl_i64 tcg_gen_concat_i32_i64
  #define tcg_gen_extr_i64_tl tcg_gen_extr_i64_i32
 diff --git a/target/arm/translate-a64.c b/target/arm/translate-a64.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/translate-a64.c
 +++ b/target/arm/translate-a64.c
@@ -XXX,XX +XXX,XX @@ static void handle_rev32(DisasContext *s, unsigned int sf,
          /* bswap32_i64 requires zero high word */
          tcg_gen_ext32u_i64(tcg_tmp, tcg_rn);
 -        tcg_gen_bswap32_i64(tcg_rd, tcg_tmp);
 +        tcg_gen_bswap32_i64(tcg_rd, tcg_tmp, TCG_BSWAP_IZ | TCG_BSWAP_OZ);
          tcg_gen_shri_i64(tcg_tmp, tcg_rn, 32);
 -        tcg_gen_bswap32_i64(tcg_tmp, tcg_tmp);
 +        tcg_gen_bswap32_i64(tcg_tmp, tcg_tmp, TCG_BSWAP_IZ | TCG_BSWAP_OZ);
          tcg_gen_concat32_i64(tcg_rd, tcg_rd, tcg_tmp);
          tcg_temp_free_i64(tcg_tmp);
      } else {
          tcg_gen_ext32u_i64(tcg_rd, cpu_reg(s, rn));
 -        tcg_gen_bswap32_i64(tcg_rd, tcg_rd);
 +        tcg_gen_bswap32_i64(tcg_rd, tcg_rd, TCG_BSWAP_IZ | TCG_BSWAP_OZ);
      }
+     ctx->z_mask = z1;
++    ctx->s_mask = arg_info(op->args[1])->s_mask
++                & arg_info(op->args[2])->s_mask;
+     return fold_masks(ctx, op);
  }
-@@ -XXX,XX +XXX,XX @@ static void handle_rev(DisasContext *s, int opcode, bool u,
+@@ -XXX,XX +XXX,XX @@ static bool fold_eqv(OptContext *ctx, TCGOp *op)
-             read_vec_element(s, tcg_tmp, rn, i, grp_size);
+         fold_xi_to_not(ctx, op, 0)) {
-             switch (grp_size) {
+         return true;
-             case MO_16:
+     }
--                tcg_gen_bswap16_i64(tcg_tmp, tcg_tmp);
++
-+                tcg_gen_bswap16_i64(tcg_tmp, tcg_tmp,
++    ctx->s_mask = arg_info(op->args[1])->s_mask
-+                                    TCG_BSWAP_IZ | TCG_BSWAP_OZ);
++                & arg_info(op->args[2])->s_mask;
-                 break;
+     return false;
              case MO_32:
 -                tcg_gen_bswap32_i64(tcg_tmp, tcg_tmp);
 +                tcg_gen_bswap32_i64(tcg_tmp, tcg_tmp,
 +                                    TCG_BSWAP_IZ | TCG_BSWAP_OZ);
                  break;
              case MO_64:
                  tcg_gen_bswap64_i64(tcg_tmp, tcg_tmp);
 diff --git a/target/arm/translate.c b/target/arm/translate.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/translate.c
 +++ b/target/arm/translate.c
@@ -XXX,XX +XXX,XX @@ void gen_rev16(TCGv_i32 dest, TCGv_i32 var)
  static void gen_revsh(TCGv_i32 dest, TCGv_i32 var)
  {
      tcg_gen_ext16u_i32(var, var);
 -    tcg_gen_bswap16_i32(var, var);
 +    tcg_gen_bswap16_i32(var, var, TCG_BSWAP_IZ | TCG_BSWAP_OZ);
      tcg_gen_ext16s_i32(dest, var);
  }
-diff --git a/target/i386/tcg/translate.c b/target/i386/tcg/translate.c
+@@ -XXX,XX +XXX,XX @@ static bool fold_movcond(OptContext *ctx, TCGOp *op)
-index XXXXXXX..XXXXXXX 100644
---- a/target/i386/tcg/translate.c
+     ctx->z_mask = arg_info(op->args[3])->z_mask
-+++ b/target/i386/tcg/translate.c
+                 | arg_info(op->args[4])->z_mask;
-@@ -XXX,XX +XXX,XX @@ static target_ulong disas_insn(DisasContext *s, CPUState *cpu)
++    ctx->s_mask = arg_info(op->args[3])->s_mask
-         {
++                & arg_info(op->args[4])->s_mask;
-             gen_op_mov_v_reg(s, MO_32, s->T0, reg);
-             tcg_gen_ext32u_tl(s->T0, s->T0);
+     if (arg_is_const(op->args[3]) && arg_is_const(op->args[4])) {
--            tcg_gen_bswap32_tl(s->T0, s->T0);
+         uint64_t tv = arg_info(op->args[3])->val;
-+            tcg_gen_bswap32_tl(s->T0, s->T0, TCG_BSWAP_IZ | TCG_BSWAP_OZ);
+@@ -XXX,XX +XXX,XX @@ static bool fold_nand(OptContext *ctx, TCGOp *op)
-             gen_op_mov_reg_v(s, MO_32, reg, s->T0);
+         fold_xi_to_not(ctx, op, -1)) {
-         }
+         return true;
          break;
 diff --git a/target/mips/tcg/mxu_translate.c b/target/mips/tcg/mxu_translate.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/mips/tcg/mxu_translate.c
 +++ b/target/mips/tcg/mxu_translate.c
@@ -XXX,XX +XXX,XX @@ static void gen_mxu_s32ldd_s32lddr(DisasContext *ctx)
      if (sel == 1) {
          /* S32LDDR */
 -        tcg_gen_bswap32_tl(t1, t1);
 +        tcg_gen_bswap32_tl(t1, t1, TCG_BSWAP_IZ | TCG_BSWAP_OZ);
      }
-     gen_store_mxu_gpr(t1, XRa);
++
++    ctx->s_mask = arg_info(op->args[1])->s_mask
-diff --git a/target/s390x/translate.c b/target/s390x/translate.c
++                & arg_info(op->args[2])->s_mask;
-index XXXXXXX..XXXXXXX 100644
+     return false;
 --- a/target/s390x/translate.c
 +++ b/target/s390x/translate.c
@@ -XXX,XX +XXX,XX @@ static DisasJumpType op_rosbg(DisasContext *s, DisasOps *o)
  static DisasJumpType op_rev16(DisasContext *s, DisasOps *o)
  {
 -    tcg_gen_bswap16_i64(o->out, o->in2);
 +    tcg_gen_bswap16_i64(o->out, o->in2, TCG_BSWAP_IZ | TCG_BSWAP_OZ);
      return DISAS_NEXT;
  }
- static DisasJumpType op_rev32(DisasContext *s, DisasOps *o)
+@@ -XXX,XX +XXX,XX @@ static bool fold_nor(OptContext *ctx, TCGOp *op)
- {
+         fold_xi_to_not(ctx, op, 0)) {
--    tcg_gen_bswap32_i64(o->out, o->in2);
+         return true;
-+    tcg_gen_bswap32_i64(o->out, o->in2, TCG_BSWAP_IZ | TCG_BSWAP_OZ);
+     }
-     return DISAS_NEXT;
++
 +    ctx->s_mask = arg_info(op->args[1])->s_mask
 +                & arg_info(op->args[2])->s_mask;
      return false;
  }
-diff --git a/target/sh4/translate.c b/target/sh4/translate.c
+@@ -XXX,XX +XXX,XX @@ static bool fold_not(OptContext *ctx, TCGOp *op)
-index XXXXXXX..XXXXXXX 100644
+         return true;
 --- a/target/sh4/translate.c
 +++ b/target/sh4/translate.c
@@ -XXX,XX +XXX,XX @@ static void _decode_opc(DisasContext * ctx)
      {
              TCGv low = tcg_temp_new();
          tcg_gen_ext16u_i32(low, REG(B7_4));
 -        tcg_gen_bswap16_i32(low, low);
 +        tcg_gen_bswap16_i32(low, low, TCG_BSWAP_IZ | TCG_BSWAP_OZ);
              tcg_gen_deposit_i32(REG(B11_8), REG(B7_4), low, 0, 16);
          tcg_temp_free(low);
      }
 diff --git a/tcg/tcg-op.c b/tcg/tcg-op.c
 index XXXXXXX..XXXXXXX 100644
 --- a/tcg/tcg-op.c
 +++ b/tcg/tcg-op.c
@@ -XXX,XX +XXX,XX @@ void tcg_gen_ext16u_i32(TCGv_i32 ret, TCGv_i32 arg)
      }
++    ctx->s_mask = arg_info(op->args[1])->s_mask;
++
+     /* Because of fold_to_not, we want to always return true, via finish. */
+     finish_folding(ctx, op);
+     return true;
+@@ -XXX,XX +XXX,XX @@ static bool fold_or(OptContext *ctx, TCGOp *op)
+     ctx->z_mask = arg_info(op->args[1])->z_mask
+                 | arg_info(op->args[2])->z_mask;
++    ctx->s_mask = arg_info(op->args[1])->s_mask
++                & arg_info(op->args[2])->s_mask;
+     return fold_masks(ctx, op);
  }
--/* Note: we assume the two high bytes are set to zero */
+@@ -XXX,XX +XXX,XX @@ static bool fold_orc(OptContext *ctx, TCGOp *op)
--void tcg_gen_bswap16_i32(TCGv_i32 ret, TCGv_i32 arg)
+         fold_ix_to_not(ctx, op, 0)) {
-+void tcg_gen_bswap16_i32(TCGv_i32 ret, TCGv_i32 arg, int flags)
+         return true;
- {
+     }
 +    /* Only one extension flag may be present. */
 +    tcg_debug_assert(!(flags & TCG_BSWAP_OS) || !(flags & TCG_BSWAP_OZ));
 +
-     if (TCG_TARGET_HAS_bswap16_i32) {
++    ctx->s_mask = arg_info(op->args[1])->s_mask
--        tcg_gen_op3i_i32(INDEX_op_bswap16_i32, ret, arg,
++                & arg_info(op->args[2])->s_mask;
--                         TCG_BSWAP_IZ | TCG_BSWAP_OZ);
+     return false;
 +        tcg_gen_op3i_i32(INDEX_op_bswap16_i32, ret, arg, flags);
      } else {
          TCGv_i32 t0 = tcg_temp_new_i32();
 +        TCGv_i32 t1 = tcg_temp_new_i32();
 -        tcg_gen_ext8u_i32(t0, arg);
 -        tcg_gen_shli_i32(t0, t0, 8);
 -        tcg_gen_shri_i32(ret, arg, 8);
 -        tcg_gen_or_i32(ret, ret, t0);
 +        tcg_gen_shri_i32(t0, arg, 8);
 +        if (!(flags & TCG_BSWAP_IZ)) {
 +            tcg_gen_ext8u_i32(t0, t0);
 +        }
 +
 +        if (flags & TCG_BSWAP_OS) {
 +            tcg_gen_shli_i32(t1, arg, 24);
 +            tcg_gen_sari_i32(t1, t1, 16);
 +        } else if (flags & TCG_BSWAP_OZ) {
 +            tcg_gen_ext8u_i32(t1, arg);
 +            tcg_gen_shli_i32(t1, t1, 8);
 +        } else {
 +            tcg_gen_shli_i32(t1, arg, 8);
 +        }
 +
 +        tcg_gen_or_i32(ret, t0, t1);
          tcg_temp_free_i32(t0);
 +        tcg_temp_free_i32(t1);
      }
  }
-@@ -XXX,XX +XXX,XX @@ void tcg_gen_ext32u_i64(TCGv_i64 ret, TCGv_i64 arg)
+@@ -XXX,XX +XXX,XX @@ static bool fold_xor(OptContext *ctx, TCGOp *op)
-     }
      ctx->z_mask = arg_info(op->args[1])->z_mask
                  | arg_info(op->args[2])->z_mask;
 +    ctx->s_mask = arg_info(op->args[1])->s_mask
 +                & arg_info(op->args[2])->s_mask;
      return fold_masks(ctx, op);
  }
--/* Note: we assume the six high bytes are set to zero */
--void tcg_gen_bswap16_i64(TCGv_i64 ret, TCGv_i64 arg)
-+void tcg_gen_bswap16_i64(TCGv_i64 ret, TCGv_i64 arg, int flags)
- {
-+    /* Only one extension flag may be present. */
-+    tcg_debug_assert(!(flags & TCG_BSWAP_OS) || !(flags & TCG_BSWAP_OZ));
-+
-     if (TCG_TARGET_REG_BITS == 32) {
--        tcg_gen_bswap16_i32(TCGV_LOW(ret), TCGV_LOW(arg));
--        tcg_gen_movi_i32(TCGV_HIGH(ret), 0);
-+        tcg_gen_bswap16_i32(TCGV_LOW(ret), TCGV_LOW(arg), flags);
-+        if (flags & TCG_BSWAP_OS) {
-+            tcg_gen_sari_i32(TCGV_HIGH(ret), TCGV_LOW(ret), 31);
-+        } else {
-+            tcg_gen_movi_i32(TCGV_HIGH(ret), 0);
-+        }
-     } else if (TCG_TARGET_HAS_bswap16_i64) {
--        tcg_gen_op3i_i64(INDEX_op_bswap16_i64, ret, arg,
--                         TCG_BSWAP_IZ | TCG_BSWAP_OZ);
-+        tcg_gen_op3i_i64(INDEX_op_bswap16_i64, ret, arg, flags);
-     } else {
-         TCGv_i64 t0 = tcg_temp_new_i64();
-+        TCGv_i64 t1 = tcg_temp_new_i64();
--        tcg_gen_ext8u_i64(t0, arg);
--        tcg_gen_shli_i64(t0, t0, 8);
--        tcg_gen_shri_i64(ret, arg, 8);
--        tcg_gen_or_i64(ret, ret, t0);
-+        tcg_gen_shri_i64(t0, arg, 8);
-+        if (!(flags & TCG_BSWAP_IZ)) {
-+            tcg_gen_ext8u_i64(t0, t0);
-+        }
-+
-+        if (flags & TCG_BSWAP_OS) {
-+            tcg_gen_shli_i64(t1, arg, 56);
-+            tcg_gen_sari_i64(t1, t1, 48);
-+        } else if (flags & TCG_BSWAP_OZ) {
-+            tcg_gen_ext8u_i64(t1, arg);
-+            tcg_gen_shli_i64(t1, t1, 8);
-+        } else {
-+            tcg_gen_shli_i64(t1, arg, 8);
-+        }
-+
-+        tcg_gen_or_i64(ret, t0, t1);
-         tcg_temp_free_i64(t0);
-+        tcg_temp_free_i64(t1);
-     }
- }
--/* Note: we assume the four high bytes are set to zero */
--void tcg_gen_bswap32_i64(TCGv_i64 ret, TCGv_i64 arg)
-+void tcg_gen_bswap32_i64(TCGv_i64 ret, TCGv_i64 arg, int flags)
- {
-+    /* Only one extension flag may be present. */
-+    tcg_debug_assert(!(flags & TCG_BSWAP_OS) || !(flags & TCG_BSWAP_OZ));
-+
-     if (TCG_TARGET_REG_BITS == 32) {
-         tcg_gen_bswap32_i32(TCGV_LOW(ret), TCGV_LOW(arg));
--        tcg_gen_movi_i32(TCGV_HIGH(ret), 0);
-+        if (flags & TCG_BSWAP_OS) {
-+            tcg_gen_sari_i32(TCGV_HIGH(ret), TCGV_LOW(ret), 31);
-+        } else {
-+            tcg_gen_movi_i32(TCGV_HIGH(ret), 0);
-+        }
-     } else if (TCG_TARGET_HAS_bswap32_i64) {
--        tcg_gen_op3i_i64(INDEX_op_bswap32_i64, ret, arg,
--                         TCG_BSWAP_IZ | TCG_BSWAP_OZ);
-+        tcg_gen_op3i_i64(INDEX_op_bswap32_i64, ret, arg, flags);
-     } else {
-         TCGv_i64 t0 = tcg_temp_new_i64();
-         TCGv_i64 t1 = tcg_temp_new_i64();
-         TCGv_i64 t2 = tcg_constant_i64(0x00ff00ff);
--                                        /* arg = ....abcd */
--        tcg_gen_shri_i64(t0, arg, 8);   /*  t0 = .....abc */
--        tcg_gen_and_i64(t1, arg, t2);   /*  t1 = .....b.d */
--        tcg_gen_and_i64(t0, t0, t2);    /*  t0 = .....a.c */
--        tcg_gen_shli_i64(t1, t1, 8);    /*  t1 = ....b.d. */
--        tcg_gen_or_i64(ret, t0, t1);    /* ret = ....badc */
-+                                            /* arg = xxxxabcd */
-+        tcg_gen_shri_i64(t0, arg, 8);       /*  t0 = .xxxxabc */
-+        tcg_gen_and_i64(t1, arg, t2);       /*  t1 = .....b.d */
-+        tcg_gen_and_i64(t0, t0, t2);        /*  t0 = .....a.c */
-+        tcg_gen_shli_i64(t1, t1, 8);        /*  t1 = ....b.d. */
-+        tcg_gen_or_i64(ret, t0, t1);        /* ret = ....badc */
--        tcg_gen_shli_i64(t1, ret, 48);  /*  t1 = dc...... */
--        tcg_gen_shri_i64(t0, ret, 16);  /*  t0 = ......ba */
--        tcg_gen_shri_i64(t1, t1, 32);   /*  t1 = ....dc.. */
--        tcg_gen_or_i64(ret, t0, t1);    /* ret = ....dcba */
-+        tcg_gen_shli_i64(t1, ret, 48);      /*  t1 = dc...... */
-+        tcg_gen_shri_i64(t0, ret, 16);      /*  t0 = ......ba */
-+        if (flags & TCG_BSWAP_OS) {
-+            tcg_gen_sari_i64(t1, t1, 32);   /*  t1 = ssssdc.. */
-+        } else {
-+            tcg_gen_shri_i64(t1, t1, 32);   /*  t1 = ....dc.. */
-+        }
-+        tcg_gen_or_i64(ret, t0, t1);        /* ret = ssssdcba */
-         tcg_temp_free_i64(t0);
-         tcg_temp_free_i64(t1);
-@@ -XXX,XX +XXX,XX @@ void tcg_gen_qemu_ld_i32(TCGv_i32 val, TCGv addr, TCGArg idx, MemOp memop)
-     if ((orig_memop ^ memop) & MO_BSWAP) {
-         switch (orig_memop & MO_SIZE) {
-         case MO_16:
--            tcg_gen_bswap16_i32(val, val);
-+            tcg_gen_bswap16_i32(val, val, TCG_BSWAP_IZ | TCG_BSWAP_OZ);
-             if (orig_memop & MO_SIGN) {
-                 tcg_gen_ext16s_i32(val, val);
-             }
-@@ -XXX,XX +XXX,XX @@ void tcg_gen_qemu_st_i32(TCGv_i32 val, TCGv addr, TCGArg idx, MemOp memop)
-         switch (memop & MO_SIZE) {
-         case MO_16:
-             tcg_gen_ext16u_i32(swap, val);
--            tcg_gen_bswap16_i32(swap, swap);
-+            tcg_gen_bswap16_i32(swap, swap, TCG_BSWAP_IZ | TCG_BSWAP_OZ);
-             break;
-         case MO_32:
-             tcg_gen_bswap32_i32(swap, val);
-@@ -XXX,XX +XXX,XX @@ void tcg_gen_qemu_ld_i64(TCGv_i64 val, TCGv addr, TCGArg idx, MemOp memop)
-     if ((orig_memop ^ memop) & MO_BSWAP) {
-         switch (orig_memop & MO_SIZE) {
-         case MO_16:
--            tcg_gen_bswap16_i64(val, val);
-+            tcg_gen_bswap16_i64(val, val, TCG_BSWAP_IZ | TCG_BSWAP_OZ);
-             if (orig_memop & MO_SIGN) {
-                 tcg_gen_ext16s_i64(val, val);
-             }
-             break;
-         case MO_32:
--            tcg_gen_bswap32_i64(val, val);
-+            tcg_gen_bswap32_i64(val, val, TCG_BSWAP_IZ | TCG_BSWAP_OZ);
-             if (orig_memop & MO_SIGN) {
-                 tcg_gen_ext32s_i64(val, val);
-             }
-@@ -XXX,XX +XXX,XX @@ void tcg_gen_qemu_st_i64(TCGv_i64 val, TCGv addr, TCGArg idx, MemOp memop)
-         switch (memop & MO_SIZE) {
-         case MO_16:
-             tcg_gen_ext16u_i64(swap, val);
--            tcg_gen_bswap16_i64(swap, swap);
-+            tcg_gen_bswap16_i64(swap, swap, TCG_BSWAP_IZ | TCG_BSWAP_OZ);
-             break;
-         case MO_32:
-             tcg_gen_ext32u_i64(swap, val);
--            tcg_gen_bswap32_i64(swap, swap);
-+            tcg_gen_bswap32_i64(swap, swap, TCG_BSWAP_IZ | TCG_BSWAP_OZ);
-             break;
-         case MO_64:
-             tcg_gen_bswap64_i64(swap, val);
 --
 .25.1

-[PULL 16/63] target/cris: Mark exceptions as DISAS_NORETURN
+[PULL 54/56] tcg/optimize: Propagate sign info for setcond
-After we've raised the exception, we have left the TB.
+The result is either 0 or 1, which means that we have
 a 2 bit signed result, and thus 62 bits of sign.
 For clarity, use the smask_from_zmask function.
-Reviewed-by: Edgar E. Iglesias <edgar.iglesias@xilinx.com>
+Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
-Tested-by: Edgar E. Iglesias <edgar.iglesias@xilinx.com>
+Reviewed-by: Luis Pires <luis.pires@eldorado.org.br>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- target/cris/translate.c         | 5 +++--
+ tcg/optimize.c | 2 ++
- target/cris/translate_v10.c.inc | 3 ++-
+file changed, 2 insertions(+)
 files changed, 5 insertions(+), 3 deletions(-)
-diff --git a/target/cris/translate.c b/target/cris/translate.c
+diff --git a/tcg/optimize.c b/tcg/optimize.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/cris/translate.c
+--- a/tcg/optimize.c
-+++ b/target/cris/translate.c
++++ b/tcg/optimize.c
-@@ -XXX,XX +XXX,XX @@ static int dec_rfe_etc(CPUCRISState *env, DisasContext *dc)
+@@ -XXX,XX +XXX,XX @@ static bool fold_setcond(OptContext *ctx, TCGOp *op)
                         -offsetof(CRISCPU, env) + offsetof(CPUState, halted));
          tcg_gen_movi_tl(env_pc, dc->pc + 2);
          t_gen_raise_exception(EXCP_HLT);
 +        dc->base.is_jmp = DISAS_NORETURN;
          return 2;
      }
-@@ -XXX,XX +XXX,XX @@ static int dec_rfe_etc(CPUCRISState *env, DisasContext *dc)
+     ctx->z_mask = 1;
-         /* Breaks start at 16 in the exception vector.  */
++    ctx->s_mask = smask_from_zmask(1);
-         t_gen_movi_env_TN(trap_vector, dc->op1 + 16);
+     return false;
          t_gen_raise_exception(EXCP_BREAK);
 -        dc->base.is_jmp = DISAS_UPDATE;
 +        dc->base.is_jmp = DISAS_NORETURN;
          break;
      default:
          printf("op2=%x\n", dc->op2);
@@ -XXX,XX +XXX,XX @@ void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int max_insns)
              cris_evaluate_flags(dc);
              tcg_gen_movi_tl(env_pc, dc->pc);
              t_gen_raise_exception(EXCP_DEBUG);
 -            dc->base.is_jmp = DISAS_UPDATE;
 +            dc->base.is_jmp = DISAS_NORETURN;
              /* The address covered by the breakpoint must be included in
                 [tb->pc, tb->pc + tb->size) in order to for it to be
                 properly cleared -- thus we increment the PC here so that
 diff --git a/target/cris/translate_v10.c.inc b/target/cris/translate_v10.c.inc
 index XXXXXXX..XXXXXXX 100644
 --- a/target/cris/translate_v10.c.inc
 +++ b/target/cris/translate_v10.c.inc
@@ -XXX,XX +XXX,XX @@ static inline void cris_illegal_insn(DisasContext *dc)
  {
      qemu_log_mask(LOG_GUEST_ERROR, "illegal insn at pc=%x\n", dc->pc);
      t_gen_raise_exception(EXCP_BREAK);
 +    dc->base.is_jmp = DISAS_NORETURN;
  }
- static void gen_store_v10_conditional(DisasContext *dc, TCGv addr, TCGv val,
+@@ -XXX,XX +XXX,XX @@ static bool fold_setcond2(OptContext *ctx, TCGOp *op)
-@@ -XXX,XX +XXX,XX @@ static unsigned int dec10_ind(CPUCRISState *env, DisasContext *dc)
+     }
-                     t_gen_mov_env_TN(trap_vector, c);
-                     tcg_temp_free(c);
+     ctx->z_mask = 1;
-                     t_gen_raise_exception(EXCP_BREAK);
++    ctx->s_mask = smask_from_zmask(1);
--                    dc->base.is_jmp = DISAS_UPDATE;
+     return false;
-+                    dc->base.is_jmp = DISAS_NORETURN;
-                     return insn_len;
+  do_setcond_const:
                  }
                  LOG_DIS("%d: jump.%d %d r%d r%d\n", __LINE__, size,
 --
 .25.1

-[PULL 19/63] target/cris: Mark helper_raise_exception noreturn
+Deleted patch
-Reviewed-by: Edgar E. Iglesias <edgar.iglesias@xilinx.com>
-Tested-by: Edgar E. Iglesias <edgar.iglesias@xilinx.com>
-Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
----
- target/cris/helper.h | 2 +-
-file changed, 1 insertion(+), 1 deletion(-)
-diff --git a/target/cris/helper.h b/target/cris/helper.h
-index XXXXXXX..XXXXXXX 100644
---- a/target/cris/helper.h
-+++ b/target/cris/helper.h
-@@ -XXX,XX +XXX,XX @@
--DEF_HELPER_2(raise_exception, void, env, i32)
-+DEF_HELPER_2(raise_exception, noreturn, env, i32)
- DEF_HELPER_2(tlb_flush_pid, void, env, i32)
- DEF_HELPER_2(spc_write, void, env, i32)
- DEF_HELPER_1(rfe, void, env)
---
-.25.1

-[PULL 22/63] target/cris: Set cpustate_changed for rfe/rfn
+Deleted patch
-These insns set DISAS_UPDATE without cpustate_changed,
-which isn't quite right.
-Reviewed-by: Edgar E. Iglesias <edgar.iglesias@xilinx.com>
-Tested-by: Edgar E. Iglesias <edgar.iglesias@xilinx.com>
-Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
----
- target/cris/translate.c | 2 ++
-file changed, 2 insertions(+)
-diff --git a/target/cris/translate.c b/target/cris/translate.c
-index XXXXXXX..XXXXXXX 100644
---- a/target/cris/translate.c
-+++ b/target/cris/translate.c
-@@ -XXX,XX +XXX,XX @@ static int dec_rfe_etc(CPUCRISState *env, DisasContext *dc)
-         cris_evaluate_flags(dc);
-         gen_helper_rfe(cpu_env);
-         dc->base.is_jmp = DISAS_UPDATE;
-+        dc->cpustate_changed = true;
-         break;
-     case 5:
-         /* rfn.  */
-@@ -XXX,XX +XXX,XX @@ static int dec_rfe_etc(CPUCRISState *env, DisasContext *dc)
-         cris_evaluate_flags(dc);
-         gen_helper_rfn(cpu_env);
-         dc->base.is_jmp = DISAS_UPDATE;
-+        dc->cpustate_changed = true;
-         break;
-     case 6:
-         LOG_DIS("break %d\n", dc->op1);
---
-.25.1

-[PULL 23/63] target/cris: Add DISAS_UPDATE_NEXT
+Deleted patch
-Move this pc update into tb_stop.
-We will be able to re-use this code shortly.
-Reviewed-by: Edgar E. Iglesias <edgar.iglesias@xilinx.com>
-Tested-by: Edgar E. Iglesias <edgar.iglesias@xilinx.com>
-Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
----
- target/cris/translate.c | 20 +++++++++++++++-----
-file changed, 15 insertions(+), 5 deletions(-)
-diff --git a/target/cris/translate.c b/target/cris/translate.c
-index XXXXXXX..XXXXXXX 100644
---- a/target/cris/translate.c
-+++ b/target/cris/translate.c
-@@ -XXX,XX +XXX,XX @@
- #define BUG() (gen_BUG(dc, __FILE__, __LINE__))
- #define BUG_ON(x) ({if (x) BUG();})
--/* is_jmp field values */
--#define DISAS_JUMP    DISAS_TARGET_0 /* only pc was modified dynamically */
--#define DISAS_UPDATE  DISAS_TARGET_1 /* cpu state was modified dynamically */
-+/*
-+ * Target-specific is_jmp field values
-+ */
-+/* Only pc was modified dynamically */
-+#define DISAS_JUMP          DISAS_TARGET_0
-+/* Cpu state was modified dynamically, including pc */
-+#define DISAS_UPDATE        DISAS_TARGET_1
-+/* Cpu state was modified dynamically, excluding pc -- use npc */
-+#define DISAS_UPDATE_NEXT   DISAS_TARGET_2
- /* Used by the decoder.  */
- #define EXTRACT_FIELD(src, start, end) \
-@@ -XXX,XX +XXX,XX @@ static void cris_tr_translate_insn(DisasContextBase *dcbase, CPUState *cs)
-     /* Force an update if the per-tb cpu state has changed.  */
-     if (dc->base.is_jmp == DISAS_NEXT && dc->cpustate_changed) {
--        dc->base.is_jmp = DISAS_UPDATE;
--        tcg_gen_movi_tl(env_pc, dc->pc);
-+        dc->base.is_jmp = DISAS_UPDATE_NEXT;
-+        return;
-     }
-     /*
-@@ -XXX,XX +XXX,XX @@ static void cris_tr_tb_stop(DisasContextBase *dcbase, CPUState *cpu)
-     if (unlikely(dc->base.singlestep_enabled)) {
-         switch (is_jmp) {
-         case DISAS_TOO_MANY:
-+        case DISAS_UPDATE_NEXT:
-             tcg_gen_movi_tl(env_pc, npc);
-             /* fall through */
-         case DISAS_JUMP:
-@@ -XXX,XX +XXX,XX @@ static void cris_tr_tb_stop(DisasContextBase *dcbase, CPUState *cpu)
-     case DISAS_TOO_MANY:
-         gen_goto_tb(dc, 0, npc);
-         break;
-+    case DISAS_UPDATE_NEXT:
-+        tcg_gen_movi_tl(env_pc, npc);
-+        /* fall through */
-     case DISAS_JUMP:
-     case DISAS_UPDATE:
-         /* Indicate that interupts must be re-evaluated before the next TB. */
---
-.25.1

-[PULL 33/63] tcg: Implement tcg_gen_vec_add{sub}32_tl
+Deleted patch
-From: LIU Zhiwei <zhiwei_liu@c-sky.com>
-Signed-off-by: LIU Zhiwei <zhiwei_liu@c-sky.com>
-Message-Id: <20210624105023.3852-6-zhiwei_liu@c-sky.com>
-Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
----
- include/tcg/tcg-op-gvec.h | 4 ++++
-file changed, 4 insertions(+)
-diff --git a/include/tcg/tcg-op-gvec.h b/include/tcg/tcg-op-gvec.h
-index XXXXXXX..XXXXXXX 100644
---- a/include/tcg/tcg-op-gvec.h
-+++ b/include/tcg/tcg-op-gvec.h
-@@ -XXX,XX +XXX,XX @@ void tcg_gen_vec_sar16i_i32(TCGv_i32 d, TCGv_i32 a, int32_t);
- #define tcg_gen_vec_sub8_tl  tcg_gen_vec_sub8_i64
- #define tcg_gen_vec_add16_tl tcg_gen_vec_add16_i64
- #define tcg_gen_vec_sub16_tl tcg_gen_vec_sub16_i64
-+#define tcg_gen_vec_add32_tl tcg_gen_vec_add32_i64
-+#define tcg_gen_vec_sub32_tl tcg_gen_vec_sub32_i64
- #define tcg_gen_vec_shl8i_tl tcg_gen_vec_shl8i_i64
- #define tcg_gen_vec_shr8i_tl tcg_gen_vec_shr8i_i64
- #define tcg_gen_vec_sar8i_tl tcg_gen_vec_sar8i_i64
-@@ -XXX,XX +XXX,XX @@ void tcg_gen_vec_sar16i_i32(TCGv_i32 d, TCGv_i32 a, int32_t);
- #define tcg_gen_vec_sub8_tl  tcg_gen_vec_sub8_i32
- #define tcg_gen_vec_add16_tl tcg_gen_vec_add16_i32
- #define tcg_gen_vec_sub16_tl tcg_gen_vec_sub16_i32
-+#define tcg_gen_vec_add32_tl tcg_gen_add_i32
-+#define tcg_gen_vec_sub32_tl tcg_gen_sub_i32
- #define tcg_gen_vec_shl8i_tl tcg_gen_vec_shl8i_i32
- #define tcg_gen_vec_shr8i_tl tcg_gen_vec_shr8i_i32
- #define tcg_gen_vec_sar8i_tl tcg_gen_vec_sar8i_i32
---
-.25.1

-[PULL 34/63] tcg: Use correct trap number for page faults on *BSD systems
+[PULL 55/56] tcg/optimize: Propagate sign info for bit counting
-From: Warner Losh <imp@bsdimp.com>
+The results are generally 6 bit unsigned values, though
 the count leading and trailing bits may produce any value
 for a zero input.
-The trap number for a page fault on BSD systems is T_PAGEFLT
+Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
-not 0xe -- 0xe is used by Linux and represents the intel hardware
+Reviewed-by: Luis Pires <luis.pires@eldorado.org.br>
 trap vector. The BSD kernels, however, translate this to T_PAGEFLT
 in their Xpage, Xtrap0e, Xtrap14, etc fault handlers. This is true
 for i386 and x86_64, though the name of the trap hanlder can very
 on the flavor of BSD. As far as I can tell, Linux doesn't provide
 a define for this value. Invent a new one (PAGE_FAULT_TRAP) and
 use it instead to avoid uglier ifdefs.
 Signed-off-by: Mark Johnston <markj@FreeBSD.org>
 Signed-off-by: Juergen Lock <nox@FreeBSD.org>
 [ Rework to avoid ifdefs and expand it to i386 ]
 Signed-off-by: Warner Losh <imp@bsdimp.com>
 Message-Id: <20210625045707.84534-3-imp@bsdimp.com>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- accel/tcg/user-exec.c | 20 ++++++++++++++++++--
+ tcg/optimize.c | 3 ++-
-file changed, 18 insertions(+), 2 deletions(-)
+file changed, 2 insertions(+), 1 deletion(-)
-diff --git a/accel/tcg/user-exec.c b/accel/tcg/user-exec.c
+diff --git a/tcg/optimize.c b/tcg/optimize.c
 index XXXXXXX..XXXXXXX 100644
---- a/accel/tcg/user-exec.c
+--- a/tcg/optimize.c
-+++ b/accel/tcg/user-exec.c
++++ b/tcg/optimize.c
-@@ -XXX,XX +XXX,XX @@ void *probe_access(CPUArchState *env, target_ulong addr, int size,
+@@ -XXX,XX +XXX,XX @@ static bool fold_count_zeros(OptContext *ctx, TCGOp *op)
+         g_assert_not_reached();
- #if defined(__NetBSD__)
+     }
- #include <ucontext.h>
+     ctx->z_mask = arg_info(op->args[2])->z_mask | z_mask;
-+#include <machine/trap.h>
+-
++    ctx->s_mask = smask_from_zmask(ctx->z_mask);
- #define EIP_sig(context)     ((context)->uc_mcontext.__gregs[_REG_EIP])
+     return false;
  #define TRAP_sig(context)    ((context)->uc_mcontext.__gregs[_REG_TRAPNO])
  #define ERROR_sig(context)   ((context)->uc_mcontext.__gregs[_REG_ERR])
  #define MASK_sig(context)    ((context)->uc_sigmask)
 +#define PAGE_FAULT_TRAP      T_PAGEFLT
  #elif defined(__FreeBSD__) || defined(__DragonFly__)
  #include <ucontext.h>
 +#include <machine/trap.h>
  #define EIP_sig(context)  (*((unsigned long *)&(context)->uc_mcontext.mc_eip))
  #define TRAP_sig(context)    ((context)->uc_mcontext.mc_trapno)
  #define ERROR_sig(context)   ((context)->uc_mcontext.mc_err)
  #define MASK_sig(context)    ((context)->uc_sigmask)
 +#define PAGE_FAULT_TRAP      T_PAGEFLT
  #elif defined(__OpenBSD__)
 +#include <machine/trap.h>
  #define EIP_sig(context)     ((context)->sc_eip)
  #define TRAP_sig(context)    ((context)->sc_trapno)
  #define ERROR_sig(context)   ((context)->sc_err)
  #define MASK_sig(context)    ((context)->sc_mask)
 +#define PAGE_FAULT_TRAP      T_PAGEFLT
  #else
  #define EIP_sig(context)     ((context)->uc_mcontext.gregs[REG_EIP])
  #define TRAP_sig(context)    ((context)->uc_mcontext.gregs[REG_TRAPNO])
  #define ERROR_sig(context)   ((context)->uc_mcontext.gregs[REG_ERR])
  #define MASK_sig(context)    ((context)->uc_sigmask)
 +#define PAGE_FAULT_TRAP      0xe
  #endif
  int cpu_signal_handler(int host_signum, void *pinfo,
@@ -XXX,XX +XXX,XX @@ int cpu_signal_handler(int host_signum, void *pinfo,
      pc = EIP_sig(uc);
      trapno = TRAP_sig(uc);
      return handle_cpu_signal(pc, info,
 -                             trapno == 0xe ? (ERROR_sig(uc) >> 1) & 1 : 0,
 +                             trapno == PAGE_FAULT_TRAP ?
 +                             (ERROR_sig(uc) >> 1) & 1 : 0,
                               &MASK_sig(uc));
  }
- #elif defined(__x86_64__)
+@@ -XXX,XX +XXX,XX @@ static bool fold_ctpop(OptContext *ctx, TCGOp *op)
+     default:
- #ifdef __NetBSD__
+         g_assert_not_reached();
-+#include <machine/trap.h>
+     }
- #define PC_sig(context)       _UC_MACHINE_PC(context)
++    ctx->s_mask = smask_from_zmask(ctx->z_mask);
- #define TRAP_sig(context)     ((context)->uc_mcontext.__gregs[_REG_TRAPNO])
+     return false;
  #define ERROR_sig(context)    ((context)->uc_mcontext.__gregs[_REG_ERR])
  #define MASK_sig(context)     ((context)->uc_sigmask)
 +#define PAGE_FAULT_TRAP       T_PAGEFLT
  #elif defined(__OpenBSD__)
 +#include <machine/trap.h>
  #define PC_sig(context)       ((context)->sc_rip)
  #define TRAP_sig(context)     ((context)->sc_trapno)
  #define ERROR_sig(context)    ((context)->sc_err)
  #define MASK_sig(context)     ((context)->sc_mask)
 +#define PAGE_FAULT_TRAP       T_PAGEFLT
  #elif defined(__FreeBSD__) || defined(__DragonFly__)
  #include <ucontext.h>
 +#include <machine/trap.h>
  #define PC_sig(context)  (*((unsigned long *)&(context)->uc_mcontext.mc_rip))
  #define TRAP_sig(context)     ((context)->uc_mcontext.mc_trapno)
  #define ERROR_sig(context)    ((context)->uc_mcontext.mc_err)
  #define MASK_sig(context)     ((context)->uc_sigmask)
 +#define PAGE_FAULT_TRAP       T_PAGEFLT
  #else
  #define PC_sig(context)       ((context)->uc_mcontext.gregs[REG_RIP])
  #define TRAP_sig(context)     ((context)->uc_mcontext.gregs[REG_TRAPNO])
  #define ERROR_sig(context)    ((context)->uc_mcontext.gregs[REG_ERR])
  #define MASK_sig(context)     ((context)->uc_sigmask)
 +#define PAGE_FAULT_TRAP       0xe
  #endif
  int cpu_signal_handler(int host_signum, void *pinfo,
@@ -XXX,XX +XXX,XX @@ int cpu_signal_handler(int host_signum, void *pinfo,
      pc = PC_sig(uc);
      return handle_cpu_signal(pc, info,
 -                             TRAP_sig(uc) == 0xe ? (ERROR_sig(uc) >> 1) & 1 : 0,
 +                             TRAP_sig(uc) == PAGE_FAULT_TRAP ?
 +                             (ERROR_sig(uc) >> 1) & 1 : 0,
                               &MASK_sig(uc));
  }
 --
 .25.1

-[PULL 35/63] tcg: Add flags argument to bswap opcodes
+[PULL 56/56] tcg/optimize: Propagate sign info for shifting
-This will eventually simplify front-end usage, and will allow
+For constant shifts, we can simply shift the s_mask.
 backends to unset TCG_TARGET_HAS_MEMORY_BSWAP without loss of
 optimization.
-The argument is added during expansion, not currently exposed to the
+For variable shifts, we know that sar does not reduce
-front end translators.  The backends currently only support a flags
+the s_mask, which helps for sequences like
 value of either TCG_BSWAP_IZ, or (TCG_BSWAP_IZ | TCG_BSWAP_OZ),
 since they all require zero top bytes and leave them that way.
 At the existing call sites we pass in (TCG_BSWAP_IZ | TCG_BSWAP_OZ),
 except for the flags-ignored cases of a 32-bit swap of a 32-bit
 value and or a 64-bit swap of a 64-bit value, where we pass 0.
-Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
+    ext32s_i64  t, in
     sar_i64     t, t, v
     ext32s_i64  out, t
 allowing the final extend to be eliminated.
 Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
 Reviewed-by: Luis Pires <luis.pires@eldorado.org.br>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- include/tcg/tcg-opc.h | 10 +++++-----
+ tcg/optimize.c | 50 +++++++++++++++++++++++++++++++++++++++++++++++---
- include/tcg/tcg.h     | 12 ++++++++++++
+file changed, 47 insertions(+), 3 deletions(-)
  tcg/tcg-op.c          | 13 ++++++++-----
  tcg/tcg.c             | 28 ++++++++++++++++++++++++++++
  tcg/README            | 22 ++++++++++++++--------
 files changed, 67 insertions(+), 18 deletions(-)
-diff --git a/include/tcg/tcg-opc.h b/include/tcg/tcg-opc.h
+diff --git a/tcg/optimize.c b/tcg/optimize.c
 index XXXXXXX..XXXXXXX 100644
---- a/include/tcg/tcg-opc.h
+--- a/tcg/optimize.c
-+++ b/include/tcg/tcg-opc.h
++++ b/tcg/optimize.c
-@@ -XXX,XX +XXX,XX @@ DEF(ext8s_i32, 1, 1, 0, IMPL(TCG_TARGET_HAS_ext8s_i32))
+@@ -XXX,XX +XXX,XX @@ static uint64_t smask_from_zmask(uint64_t zmask)
- DEF(ext16s_i32, 1, 1, 0, IMPL(TCG_TARGET_HAS_ext16s_i32))
+     return ~(~0ull >> rep);
- DEF(ext8u_i32, 1, 1, 0, IMPL(TCG_TARGET_HAS_ext8u_i32))
+ }
  DEF(ext16u_i32, 1, 1, 0, IMPL(TCG_TARGET_HAS_ext16u_i32))
 -DEF(bswap16_i32, 1, 1, 0, IMPL(TCG_TARGET_HAS_bswap16_i32))
 -DEF(bswap32_i32, 1, 1, 0, IMPL(TCG_TARGET_HAS_bswap32_i32))
 +DEF(bswap16_i32, 1, 1, 1, IMPL(TCG_TARGET_HAS_bswap16_i32))
 +DEF(bswap32_i32, 1, 1, 1, IMPL(TCG_TARGET_HAS_bswap32_i32))
  DEF(not_i32, 1, 1, 0, IMPL(TCG_TARGET_HAS_not_i32))
  DEF(neg_i32, 1, 1, 0, IMPL(TCG_TARGET_HAS_neg_i32))
  DEF(andc_i32, 1, 2, 0, IMPL(TCG_TARGET_HAS_andc_i32))
@@ -XXX,XX +XXX,XX @@ DEF(ext32s_i64, 1, 1, 0, IMPL64 | IMPL(TCG_TARGET_HAS_ext32s_i64))
  DEF(ext8u_i64, 1, 1, 0, IMPL64 | IMPL(TCG_TARGET_HAS_ext8u_i64))
  DEF(ext16u_i64, 1, 1, 0, IMPL64 | IMPL(TCG_TARGET_HAS_ext16u_i64))
  DEF(ext32u_i64, 1, 1, 0, IMPL64 | IMPL(TCG_TARGET_HAS_ext32u_i64))
 -DEF(bswap16_i64, 1, 1, 0, IMPL64 | IMPL(TCG_TARGET_HAS_bswap16_i64))
 -DEF(bswap32_i64, 1, 1, 0, IMPL64 | IMPL(TCG_TARGET_HAS_bswap32_i64))
 -DEF(bswap64_i64, 1, 1, 0, IMPL64 | IMPL(TCG_TARGET_HAS_bswap64_i64))
 +DEF(bswap16_i64, 1, 1, 1, IMPL64 | IMPL(TCG_TARGET_HAS_bswap16_i64))
 +DEF(bswap32_i64, 1, 1, 1, IMPL64 | IMPL(TCG_TARGET_HAS_bswap32_i64))
 +DEF(bswap64_i64, 1, 1, 1, IMPL64 | IMPL(TCG_TARGET_HAS_bswap64_i64))
  DEF(not_i64, 1, 1, 0, IMPL64 | IMPL(TCG_TARGET_HAS_not_i64))
  DEF(neg_i64, 1, 1, 0, IMPL64 | IMPL(TCG_TARGET_HAS_neg_i64))
  DEF(andc_i64, 1, 2, 0, IMPL64 | IMPL(TCG_TARGET_HAS_andc_i64))
 diff --git a/include/tcg/tcg.h b/include/tcg/tcg.h
 index XXXXXXX..XXXXXXX 100644
 --- a/include/tcg/tcg.h
 +++ b/include/tcg/tcg.h
@@ -XXX,XX +XXX,XX @@ typedef TCGv_ptr TCGv_env;
  /* Used to align parameters.  See the comment before tcgv_i32_temp.  */
  #define TCG_CALL_DUMMY_ARG      ((TCGArg)0)
 +/*
-+ * Flags for the bswap opcodes.
++ * Recreate a properly left-aligned smask after manipulation.
-+ * If IZ, the input is zero-extended, otherwise unknown.
++ * Some bit-shuffling, particularly shifts and rotates, may
-+ * If OZ or OS, the output is zero- or sign-extended respectively,
++ * retain sign bits on the left, but may scatter disconnected
-+ * otherwise the high bits are undefined.
++ * sign bits on the right.  Retain only what remains to the left.
 + */
-+enum {
++static uint64_t smask_from_smask(int64_t smask)
-+    TCG_BSWAP_IZ = 1,
++{
-+    TCG_BSWAP_OZ = 2,
++    /* Only the 1 bits are significant for smask */
-+    TCG_BSWAP_OS = 4,
++    return smask_from_zmask(~smask);
-+};
++}
 +
- typedef enum TCGTempVal {
+ static inline TempOptInfo *ts_info(TCGTemp *ts)
      TEMP_VAL_DEAD,
      TEMP_VAL_REG,
 diff --git a/tcg/tcg-op.c b/tcg/tcg-op.c
 index XXXXXXX..XXXXXXX 100644
 --- a/tcg/tcg-op.c
 +++ b/tcg/tcg-op.c
@@ -XXX,XX +XXX,XX @@ void tcg_gen_ext16u_i32(TCGv_i32 ret, TCGv_i32 arg)
  void tcg_gen_bswap16_i32(TCGv_i32 ret, TCGv_i32 arg)
  {
-     if (TCG_TARGET_HAS_bswap16_i32) {
+     return ts->state_ptr;
--        tcg_gen_op2_i32(INDEX_op_bswap16_i32, ret, arg);
+@@ -XXX,XX +XXX,XX @@ static bool fold_sextract(OptContext *ctx, TCGOp *op)
-+        tcg_gen_op3i_i32(INDEX_op_bswap16_i32, ret, arg,
-+                         TCG_BSWAP_IZ | TCG_BSWAP_OZ);
+ static bool fold_shift(OptContext *ctx, TCGOp *op)
      } else {
          TCGv_i32 t0 = tcg_temp_new_i32();
@@ -XXX,XX +XXX,XX @@ void tcg_gen_bswap16_i32(TCGv_i32 ret, TCGv_i32 arg)
  void tcg_gen_bswap32_i32(TCGv_i32 ret, TCGv_i32 arg)
  {
-     if (TCG_TARGET_HAS_bswap32_i32) {
++    uint64_t s_mask, z_mask, sign;
 -        tcg_gen_op2_i32(INDEX_op_bswap32_i32, ret, arg);
 +        tcg_gen_op3i_i32(INDEX_op_bswap32_i32, ret, arg, 0);
      } else {
          TCGv_i32 t0 = tcg_temp_new_i32();
          TCGv_i32 t1 = tcg_temp_new_i32();
@@ -XXX,XX +XXX,XX @@ void tcg_gen_bswap16_i64(TCGv_i64 ret, TCGv_i64 arg)
          tcg_gen_bswap16_i32(TCGV_LOW(ret), TCGV_LOW(arg));
          tcg_gen_movi_i32(TCGV_HIGH(ret), 0);
      } else if (TCG_TARGET_HAS_bswap16_i64) {
 -        tcg_gen_op2_i64(INDEX_op_bswap16_i64, ret, arg);
 +        tcg_gen_op3i_i64(INDEX_op_bswap16_i64, ret, arg,
 +                         TCG_BSWAP_IZ | TCG_BSWAP_OZ);
      } else {
          TCGv_i64 t0 = tcg_temp_new_i64();
@@ -XXX,XX +XXX,XX @@ void tcg_gen_bswap32_i64(TCGv_i64 ret, TCGv_i64 arg)
          tcg_gen_bswap32_i32(TCGV_LOW(ret), TCGV_LOW(arg));
          tcg_gen_movi_i32(TCGV_HIGH(ret), 0);
      } else if (TCG_TARGET_HAS_bswap32_i64) {
 -        tcg_gen_op2_i64(INDEX_op_bswap32_i64, ret, arg);
 +        tcg_gen_op3i_i64(INDEX_op_bswap32_i64, ret, arg,
 +                         TCG_BSWAP_IZ | TCG_BSWAP_OZ);
      } else {
          TCGv_i64 t0 = tcg_temp_new_i64();
          TCGv_i64 t1 = tcg_temp_new_i64();
@@ -XXX,XX +XXX,XX @@ void tcg_gen_bswap64_i64(TCGv_i64 ret, TCGv_i64 arg)
          tcg_temp_free_i32(t0);
          tcg_temp_free_i32(t1);
      } else if (TCG_TARGET_HAS_bswap64_i64) {
 -        tcg_gen_op2_i64(INDEX_op_bswap64_i64, ret, arg);
 +        tcg_gen_op3i_i64(INDEX_op_bswap64_i64, ret, arg, 0);
      } else {
          TCGv_i64 t0 = tcg_temp_new_i64();
          TCGv_i64 t1 = tcg_temp_new_i64();
 diff --git a/tcg/tcg.c b/tcg/tcg.c
 index XXXXXXX..XXXXXXX 100644
 --- a/tcg/tcg.c
 +++ b/tcg/tcg.c
@@ -XXX,XX +XXX,XX @@ static const char * const alignment_name[(MO_AMASK >> MO_ASHIFT) + 1] = {
      [MO_ALIGN_64 >> MO_ASHIFT] = "al64+",
  };
 +static const char bswap_flag_name[][6] = {
 +    [TCG_BSWAP_IZ] = "iz",
 +    [TCG_BSWAP_OZ] = "oz",
 +    [TCG_BSWAP_OS] = "os",
 +    [TCG_BSWAP_IZ | TCG_BSWAP_OZ] = "iz,oz",
 +    [TCG_BSWAP_IZ | TCG_BSWAP_OS] = "iz,os",
 +};
 +
- static inline bool tcg_regset_single(TCGRegSet d)
+     if (fold_const2(ctx, op) ||
- {
+         fold_ix_to_i(ctx, op, 0) ||
-     return (d & (d - 1)) == 0;
+         fold_xi_to_x(ctx, op, 0)) {
-@@ -XXX,XX +XXX,XX @@ static void tcg_dump_ops(TCGContext *s, bool have_prefs)
+         return true;
-                     i = 1;
+     }
-                 }
-                 break;
++    s_mask = arg_info(op->args[1])->s_mask;
-+            case INDEX_op_bswap16_i32:
++    z_mask = arg_info(op->args[1])->z_mask;
 +            case INDEX_op_bswap16_i64:
 +            case INDEX_op_bswap32_i32:
 +            case INDEX_op_bswap32_i64:
 +            case INDEX_op_bswap64_i64:
 +                {
 +                    TCGArg flags = op->args[k];
 +                    const char *name = NULL;
 +
-+                    if (flags < ARRAY_SIZE(bswap_flag_name)) {
+     if (arg_is_const(op->args[2])) {
-+                        name = bswap_flag_name[flags];
+-        ctx->z_mask = do_constant_folding(op->opc, ctx->type,
-+                    }
+-                                          arg_info(op->args[1])->z_mask,
-+                    if (name) {
+-                                          arg_info(op->args[2])->val);
-+                        col += qemu_log(",%s", name);
++        int sh = arg_info(op->args[2])->val;
-+                    } else {
++
-+                        col += qemu_log(",$0x%" TCG_PRIlx, flags);
++        ctx->z_mask = do_constant_folding(op->opc, ctx->type, z_mask, sh);
-+                    }
++
-+                    i = k = 1;
++        s_mask = do_constant_folding(op->opc, ctx->type, s_mask, sh);
-+                }
++        ctx->s_mask = smask_from_smask(s_mask);
-+                break;
++
-             default:
+         return fold_masks(ctx, op);
-                 i = 0;
+     }
-                 break;
++
-diff --git a/tcg/README b/tcg/README
++    switch (op->opc) {
-index XXXXXXX..XXXXXXX 100644
++    CASE_OP_32_64(sar):
---- a/tcg/README
++        /*
-+++ b/tcg/README
++         * Arithmetic right shift will not reduce the number of
-@@ -XXX,XX +XXX,XX @@ ext32u_i64 t0, t1
++         * input sign repetitions.
++         */
-, 16 or 32 bit sign/zero extension (both operands must have the same type)
++        ctx->s_mask = s_mask;
++        break;
--* bswap16_i32/i64 t0, t1
++    CASE_OP_32_64(shr):
-+* bswap16_i32/i64 t0, t1, flags
++        /*
++         * If the sign bit is known zero, then logical right shift
--16 bit byte swap on a 32/64 bit value. It assumes that the two/six high order
++         * will not reduced the number of input sign repetitions.
--bytes are set to zero.
++         */
-+16 bit byte swap on the low bits of a 32/64 bit input.
++        sign = (s_mask & -s_mask) >> 1;
-+If flags & TCG_BSWAP_IZ, then t1 is known to be zero-extended from bit 15.
++        if (!(z_mask & sign)) {
-+If flags & TCG_BSWAP_OZ, then t0 will be zero-extended from bit 15.
++            ctx->s_mask = s_mask;
-+If flags & TCG_BSWAP_OS, then t0 will be sign-extended from bit 15.
++        }
-+If neither TCG_BSWAP_OZ nor TCG_BSWAP_OS are set, then the bits of
++        break;
-+t0 above bit 15 may contain any value.
++    default:
++        break;
--* bswap32_i32/i64 t0, t1
++    }
-+* bswap32_i64 t0, t1, flags
++
+     return false;
--32 bit byte swap on a 32/64 bit value. With a 64 bit value, it assumes that
+ }
 -the four high order bytes are set to zero.
 +32 bit byte swap on a 64-bit value.  The flags are the same as for bswap16,
 +except they apply from bit 31 instead of bit 15.
 -* bswap64_i64 t0, t1
 +* bswap32_i32 t0, t1, flags
 +* bswap64_i64 t0, t1, flags
 -64 bit byte swap
 +32/64 bit byte swap.  The flags are ignored, but still present
 +for consistency with the other bswap opcodes.
  * discard_i32/i64 t0
 --
 .25.1

-[PULL 36/63] tcg/i386: Support bswap flags
+Deleted patch
-Retain the current rorw bswap16 expansion for the zero-in/zero-out case.
-Otherwise, perform a wider bswap plus a right-shift or extend.
-Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
-Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
----
- tcg/i386/tcg-target.c.inc | 20 +++++++++++++++++++-
-file changed, 19 insertions(+), 1 deletion(-)
-diff --git a/tcg/i386/tcg-target.c.inc b/tcg/i386/tcg-target.c.inc
-index XXXXXXX..XXXXXXX 100644
---- a/tcg/i386/tcg-target.c.inc
-+++ b/tcg/i386/tcg-target.c.inc
-@@ -XXX,XX +XXX,XX @@ static inline void tcg_out_op(TCGContext *s, TCGOpcode opc,
-         break;
-     OP_32_64(bswap16):
--        tcg_out_rolw_8(s, a0);
-+        if (a2 & TCG_BSWAP_OS) {
-+            /* Output must be sign-extended. */
-+            if (rexw) {
-+                tcg_out_bswap64(s, a0);
-+                tcg_out_shifti(s, SHIFT_SAR + rexw, a0, 48);
-+            } else {
-+                tcg_out_bswap32(s, a0);
-+                tcg_out_shifti(s, SHIFT_SAR, a0, 16);
-+            }
-+        } else if ((a2 & (TCG_BSWAP_IZ | TCG_BSWAP_OZ)) == TCG_BSWAP_OZ) {
-+            /* Output must be zero-extended, but input isn't. */
-+            tcg_out_bswap32(s, a0);
-+            tcg_out_shifti(s, SHIFT_SHR, a0, 16);
-+        } else {
-+            tcg_out_rolw_8(s, a0);
-+        }
-         break;
-     OP_32_64(bswap32):
-         tcg_out_bswap32(s, a0);
-+        if (rexw && (a2 & TCG_BSWAP_OS)) {
-+            tcg_out_ext32s(s, a0, a0);
-+        }
-         break;
-     OP_32_64(neg):
---
-.25.1

-[PULL 38/63] tcg/aarch64: Support bswap flags
+Deleted patch
-Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
-Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
-Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
----
- tcg/aarch64/tcg-target.c.inc | 12 ++++++++++++
-file changed, 12 insertions(+)
-diff --git a/tcg/aarch64/tcg-target.c.inc b/tcg/aarch64/tcg-target.c.inc
-index XXXXXXX..XXXXXXX 100644
---- a/tcg/aarch64/tcg-target.c.inc
-+++ b/tcg/aarch64/tcg-target.c.inc
-@@ -XXX,XX +XXX,XX @@ static void tcg_out_op(TCGContext *s, TCGOpcode opc,
-         tcg_out_rev(s, TCG_TYPE_I64, MO_64, a0, a1);
-         break;
-     case INDEX_op_bswap32_i64:
-+        tcg_out_rev(s, TCG_TYPE_I32, MO_32, a0, a1);
-+        if (a2 & TCG_BSWAP_OS) {
-+            tcg_out_sxt(s, TCG_TYPE_I64, MO_32, a0, a0);
-+        }
-+        break;
-     case INDEX_op_bswap32_i32:
-         tcg_out_rev(s, TCG_TYPE_I32, MO_32, a0, a1);
-         break;
-     case INDEX_op_bswap16_i64:
-     case INDEX_op_bswap16_i32:
-         tcg_out_rev(s, TCG_TYPE_I32, MO_16, a0, a1);
-+        if (a2 & TCG_BSWAP_OS) {
-+            /* Output must be sign-extended. */
-+            tcg_out_sxt(s, ext, MO_16, a0, a0);
-+        } else if ((a2 & (TCG_BSWAP_IZ | TCG_BSWAP_OZ)) == TCG_BSWAP_OZ) {
-+            /* Output must be zero-extended, but input isn't. */
-+            tcg_out_uxt(s, MO_16, a0, a0);
-+        }
-         break;
-     case INDEX_op_ext8s_i64:
---
-.25.1

The following changes since commit 13d5f87cc3b94bfccc501142df4a7b12fee3a6e7:

Merge remote-tracking branch 'remotes/rth-gitlab/tags/pull-axp-20210628' into staging (2021-06-29 10:02:42 +0100)

are available in the Git repository at:

https://gitlab.com/rth7680/qemu.git tags/pull-tcg-20210629

for you to fetch changes up to c86bd2dc4c1d37653c27293b2dacee6bb46bb995:

tcg/riscv: Remove MO_BSWAP handling (2021-06-29 10:04:57 -0700)

----------------------------------------------------------------
TranslatorOps conversion for target/avr
TranslatorOps conversion for target/cris
TranslatorOps conversion for target/nios2
Simple vector operations on TCGv_i32
Host signal fixes for *BSD
Improvements to tcg bswap operations

----------------------------------------------------------------
LIU Zhiwei (5):
      tcg: Add tcg_gen_vec_add{sub}16_i32
      tcg: Add tcg_gen_vec_add{sub}8_i32
      tcg: Add tcg_gen_vec_shl{shr}{sar}16i_i32
      tcg: Add tcg_gen_vec_shl{shr}{sar}8i_i32
      tcg: Implement tcg_gen_vec_add{sub}32_tl

Richard Henderson (57):
      target/nios2: Replace DISAS_TB_JUMP with DISAS_NORETURN
      target/nios2: Use global cpu_env
      target/nios2: Use global cpu_R
      target/nios2: Add DisasContextBase to DisasContext
      target/nios2: Convert to TranslatorOps
      target/nios2: Remove assignment to env in handle_instruction
      target/nios2: Clean up goto in handle_instruction
      target/nios2: Inline handle_instruction
      target/nios2: Use pc_next for pc + 4
      target/avr: Add DisasContextBase to DisasContext
      target/avr: Change ctx to DisasContext* in gen_intermediate_code
      target/avr: Convert to TranslatorOps
      target/cris: Add DisasContextBase to DisasContext
      target/cris: Remove DISAS_SWI
      target/cris: Replace DISAS_TB_JUMP with DISAS_NORETURN
      target/cris: Mark exceptions as DISAS_NORETURN
      target/cris: Fix use_goto_tb
      target/cris: Convert to TranslatorOps
      target/cris: Mark helper_raise_exception noreturn
      target/cris: Mark static arrays const
      target/cris: Fold unhandled X_FLAG changes into cpustate_changed
      target/cris: Set cpustate_changed for rfe/rfn
      target/cris: Add DISAS_UPDATE_NEXT
      target/cris: Add DISAS_DBRANCH
      target/cris: Use tcg_gen_lookup_and_goto_ptr
      target/cris: Improve JMP_INDIRECT
      target/cris: Remove dc->flagx_known
      target/cris: Do not exit tb for X_FLAG changes
      tcg: Add flags argument to bswap opcodes
      tcg/i386: Support bswap flags
      tcg/aarch64: Merge tcg_out_rev{16,32,64}
      tcg/aarch64: Support bswap flags
      tcg/arm: Support bswap flags
      tcg/ppc: Split out tcg_out_ext{8,16,32}s
      tcg/ppc: Split out tcg_out_sari{32,64}
      tcg/ppc: Split out tcg_out_bswap16
      tcg/ppc: Split out tcg_out_bswap32
      tcg/ppc: Split out tcg_out_bswap64
      tcg/ppc: Support bswap flags
      tcg/ppc: Use power10 byte-reverse instructions
      tcg/s390: Support bswap flags
      tcg/mips: Support bswap flags in tcg_out_bswap16
      tcg/mips: Support bswap flags in tcg_out_bswap32
      tcg/tci: Support bswap flags
      tcg: Handle new bswap flags during optimize
      tcg: Add flags argument to tcg_gen_bswap16_*, tcg_gen_bswap32_i64
      tcg: Make use of bswap flags in tcg_gen_qemu_ld_*
      tcg: Make use of bswap flags in tcg_gen_qemu_st_*
      target/arm: Improve REV32
      target/arm: Improve vector REV
      target/arm: Improve REVSH
      target/i386: Improve bswap translation
      target/sh4: Improve swap.b translation
      target/mips: Fix gen_mxu_s32ldd_s32lddr
      tcg/arm: Unset TCG_TARGET_HAS_MEMORY_BSWAP
      tcg/aarch64: Unset TCG_TARGET_HAS_MEMORY_BSWAP
      tcg/riscv: Remove MO_BSWAP handling

Warner Losh (1):
      tcg: Use correct trap number for page faults on *BSD systems

The only semantic of DISAS_TB_JUMP is that we've done goto_tb,
which is the same as DISAS_NORETURN -- we've exited the tb.

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 target/nios2/translate.c | 8 +++-----
 1 file changed, 3 insertions(+), 5 deletions(-)

diff --git a/target/nios2/translate.c b/target/nios2/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/nios2/translate.c
+++ b/target/nios2/translate.c
@@ -XXX,XX +XXX,XX @@
 /* is_jmp field values */
 #define DISAS_JUMP    DISAS_TARGET_0 /* only pc was modified dynamically */
 #define DISAS_UPDATE  DISAS_TARGET_1 /* cpu state was modified dynamically */
-#define DISAS_TB_JUMP DISAS_TARGET_2 /* only pc was modified statically */
 
 #define INSTRUCTION_FLG(func, flags) { (func), (flags) }
 #define INSTRUCTION(func)                  \
@@ -XXX,XX +XXX,XX @@ static void jmpi(DisasContext *dc, uint32_t code, uint32_t flags)
 {
     J_TYPE(instr, code);
     gen_goto_tb(dc, 0, (dc->pc & 0xF0000000) | (instr.imm26 << 2));
-    dc->is_jmp = DISAS_TB_JUMP;
+    dc->is_jmp = DISAS_NORETURN;
 }
 
 static void call(DisasContext *dc, uint32_t code, uint32_t flags)
@@ -XXX,XX +XXX,XX @@ static void br(DisasContext *dc, uint32_t code, uint32_t flags)
     I_TYPE(instr, code);
 
     gen_goto_tb(dc, 0, dc->pc + 4 + (instr.imm16.s & -4));
-    dc->is_jmp = DISAS_TB_JUMP;
+    dc->is_jmp = DISAS_NORETURN;
 }
 
 static void gen_bxx(DisasContext *dc, uint32_t code, uint32_t flags)
@@ -XXX,XX +XXX,XX @@ static void gen_bxx(DisasContext *dc, uint32_t code, uint32_t flags)
     gen_goto_tb(dc, 0, dc->pc + 4);
     gen_set_label(l1);
     gen_goto_tb(dc, 1, dc->pc + 4 + (instr.imm16.s & -4));
-    dc->is_jmp = DISAS_TB_JUMP;
+    dc->is_jmp = DISAS_NORETURN;
 }
 
 /* Comparison instructions */
@@ -XXX,XX +XXX,XX @@ void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int max_insns)
         break;
 
     case DISAS_NORETURN:
-    case DISAS_TB_JUMP:
         /* nothing more to generate */
         break;
     }
-- 
2.25.1

We do not need to copy this into DisasContext.

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 target/nios2/translate.c | 10 ++++------
 1 file changed, 4 insertions(+), 6 deletions(-)

We do not need to copy this into DisasContext.

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 target/nios2/translate.c | 73 +++++++++++++++++++---------------------
 1 file changed, 34 insertions(+), 39 deletions(-)

diff --git a/target/nios2/translate.c b/target/nios2/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/nios2/translate.c
+++ b/target/nios2/translate.c
@@ -XXX,XX +XXX,XX @@
     }
 
 typedef struct DisasContext {
-    TCGv             *cpu_R;
     TCGv_i32          zero;
     int               is_jmp;
     target_ulong      pc;
@@ -XXX,XX +XXX,XX @@ typedef struct DisasContext {
     bool              singlestep_enabled;
 } DisasContext;
 
+static TCGv cpu_R[NUM_CORE_REGS];
+
 typedef struct Nios2Instruction {
     void     (*handler)(DisasContext *dc, uint32_t code, uint32_t flags);
     uint32_t  flags;
@@ -XXX,XX +XXX,XX @@ static TCGv load_zero(DisasContext *dc)
 static TCGv load_gpr(DisasContext *dc, uint8_t reg)
 {
     if (likely(reg != R_ZERO)) {
-        return dc->cpu_R[reg];
+        return cpu_R[reg];
     } else {
         return load_zero(dc);
     }
@@ -XXX,XX +XXX,XX @@ static void t_gen_helper_raise_exception(DisasContext *dc,
 {
     TCGv_i32 tmp = tcg_const_i32(index);
 
-    tcg_gen_movi_tl(dc->cpu_R[R_PC], dc->pc);
+    tcg_gen_movi_tl(cpu_R[R_PC], dc->pc);
     gen_helper_raise_exception(cpu_env, tmp);
     tcg_temp_free_i32(tmp);
     dc->is_jmp = DISAS_NORETURN;
@@ -XXX,XX +XXX,XX @@ static void gen_goto_tb(DisasContext *dc, int n, uint32_t dest)
 
     if (use_goto_tb(dc, dest)) {
         tcg_gen_goto_tb(n);
-        tcg_gen_movi_tl(dc->cpu_R[R_PC], dest);
+        tcg_gen_movi_tl(cpu_R[R_PC], dest);
         tcg_gen_exit_tb(tb, n);
     } else {
-        tcg_gen_movi_tl(dc->cpu_R[R_PC], dest);
+        tcg_gen_movi_tl(cpu_R[R_PC], dest);
         tcg_gen_exit_tb(NULL, 0);
     }
 }
@@ -XXX,XX +XXX,XX @@ static void jmpi(DisasContext *dc, uint32_t code, uint32_t flags)
 
 static void call(DisasContext *dc, uint32_t code, uint32_t flags)
 {
-    tcg_gen_movi_tl(dc->cpu_R[R_RA], dc->pc + 4);
+    tcg_gen_movi_tl(cpu_R[R_RA], dc->pc + 4);
     jmpi(dc, code, flags);
 }
 
@@ -XXX,XX +XXX,XX @@ static void gen_ldx(DisasContext *dc, uint32_t code, uint32_t flags)
      *          the Nios2 CPU.
      */
     if (likely(instr.b != R_ZERO)) {
-        data = dc->cpu_R[instr.b];
+        data = cpu_R[instr.b];
     } else {
         data = tcg_temp_new();
     }
@@ -XXX,XX +XXX,XX @@ static void gen_bxx(DisasContext *dc, uint32_t code, uint32_t flags)
     I_TYPE(instr, code);
 
     TCGLabel *l1 = gen_new_label();
-    tcg_gen_brcond_tl(flags, dc->cpu_R[instr.a], dc->cpu_R[instr.b], l1);
+    tcg_gen_brcond_tl(flags, cpu_R[instr.a], cpu_R[instr.b], l1);
     gen_goto_tb(dc, 0, dc->pc + 4);
     gen_set_label(l1);
     gen_goto_tb(dc, 1, dc->pc + 4 + (instr.imm16.s & -4));
@@ -XXX,XX +XXX,XX @@ static void gen_bxx(DisasContext *dc, uint32_t code, uint32_t flags)
 static void (fname)(DisasContext *dc, uint32_t code, uint32_t flags)         \
 {                                                                            \
     I_TYPE(instr, (code));                                                   \
-    tcg_gen_setcondi_tl(flags, (dc)->cpu_R[instr.b], (dc)->cpu_R[instr.a],   \
-                        (op3));                                              \
+    tcg_gen_setcondi_tl(flags, cpu_R[instr.b], cpu_R[instr.a], (op3));       \
 }
 
 gen_i_cmpxx(gen_cmpxxsi, instr.imm16.s)
@@ -XXX,XX +XXX,XX @@ static void (fname)(DisasContext *dc, uint32_t code, uint32_t flags)        \
     if (unlikely(instr.b == R_ZERO)) { /* Store to R_ZERO is ignored */     \
         return;                                                             \
     } else if (instr.a == R_ZERO) { /* MOVxI optimizations */               \
-        tcg_gen_movi_tl(dc->cpu_R[instr.b], (resimm) ? (op3) : 0);          \
+        tcg_gen_movi_tl(cpu_R[instr.b], (resimm) ? (op3) : 0);              \
     } else {                                                                \
-        tcg_gen_##insn##_tl((dc)->cpu_R[instr.b], (dc)->cpu_R[instr.a],     \
-                            (op3));                                         \
+        tcg_gen_##insn##_tl(cpu_R[instr.b], cpu_R[instr.a], (op3));         \
     }                                                                       \
 }
 
@@ -XXX,XX +XXX,XX @@ static const Nios2Instruction i_type_instructions[] = {
  */
 static void eret(DisasContext *dc, uint32_t code, uint32_t flags)
 {
-    tcg_gen_mov_tl(dc->cpu_R[CR_STATUS], dc->cpu_R[CR_ESTATUS]);
-    tcg_gen_mov_tl(dc->cpu_R[R_PC], dc->cpu_R[R_EA]);
+    tcg_gen_mov_tl(cpu_R[CR_STATUS], cpu_R[CR_ESTATUS]);
+    tcg_gen_mov_tl(cpu_R[R_PC], cpu_R[R_EA]);
 
     dc->is_jmp = DISAS_JUMP;
 }
@@ -XXX,XX +XXX,XX @@ static void eret(DisasContext *dc, uint32_t code, uint32_t flags)
 /* PC <- ra */
 static void ret(DisasContext *dc, uint32_t code, uint32_t flags)
 {
-    tcg_gen_mov_tl(dc->cpu_R[R_PC], dc->cpu_R[R_RA]);
+    tcg_gen_mov_tl(cpu_R[R_PC], cpu_R[R_RA]);
 
     dc->is_jmp = DISAS_JUMP;
 }
@@ -XXX,XX +XXX,XX @@ static void ret(DisasContext *dc, uint32_t code, uint32_t flags)
 /* PC <- ba */
 static void bret(DisasContext *dc, uint32_t code, uint32_t flags)
 {
-    tcg_gen_mov_tl(dc->cpu_R[R_PC], dc->cpu_R[R_BA]);
+    tcg_gen_mov_tl(cpu_R[R_PC], cpu_R[R_BA]);
 
     dc->is_jmp = DISAS_JUMP;
 }
@@ -XXX,XX +XXX,XX @@ static void jmp(DisasContext *dc, uint32_t code, uint32_t flags)
 {
     R_TYPE(instr, code);
 
-    tcg_gen_mov_tl(dc->cpu_R[R_PC], load_gpr(dc, instr.a));
+    tcg_gen_mov_tl(cpu_R[R_PC], load_gpr(dc, instr.a));
 
     dc->is_jmp = DISAS_JUMP;
 }
@@ -XXX,XX +XXX,XX @@ static void nextpc(DisasContext *dc, uint32_t code, uint32_t flags)
     R_TYPE(instr, code);
 
     if (likely(instr.c != R_ZERO)) {
-        tcg_gen_movi_tl(dc->cpu_R[instr.c], dc->pc + 4);
+        tcg_gen_movi_tl(cpu_R[instr.c], dc->pc + 4);
     }
 }
 
@@ -XXX,XX +XXX,XX @@ static void callr(DisasContext *dc, uint32_t code, uint32_t flags)
 {
     R_TYPE(instr, code);
 
-    tcg_gen_mov_tl(dc->cpu_R[R_PC], load_gpr(dc, instr.a));
-    tcg_gen_movi_tl(dc->cpu_R[R_RA], dc->pc + 4);
+    tcg_gen_mov_tl(cpu_R[R_PC], load_gpr(dc, instr.a));
+    tcg_gen_movi_tl(cpu_R[R_RA], dc->pc + 4);
 
     dc->is_jmp = DISAS_JUMP;
 }
@@ -XXX,XX +XXX,XX @@ static void rdctl(DisasContext *dc, uint32_t code, uint32_t flags)
     {
 #if !defined(CONFIG_USER_ONLY)
         if (likely(instr.c != R_ZERO)) {
-            tcg_gen_mov_tl(dc->cpu_R[instr.c], dc->cpu_R[instr.imm5 + CR_BASE]);
+            tcg_gen_mov_tl(cpu_R[instr.c], cpu_R[instr.imm5 + CR_BASE]);
 #ifdef DEBUG_MMU
             TCGv_i32 tmp = tcg_const_i32(instr.imm5 + CR_BASE);
-            gen_helper_mmu_read_debug(dc->cpu_R[instr.c], cpu_env, tmp);
+            gen_helper_mmu_read_debug(cpu_R[instr.c], cpu_env, tmp);
             tcg_temp_free_i32(tmp);
 #endif
         }
@@ -XXX,XX +XXX,XX @@ static void rdctl(DisasContext *dc, uint32_t code, uint32_t flags)
 
     default:
         if (likely(instr.c != R_ZERO)) {
-            tcg_gen_mov_tl(dc->cpu_R[instr.c], dc->cpu_R[instr.imm5 + CR_BASE]);
+            tcg_gen_mov_tl(cpu_R[instr.c], cpu_R[instr.imm5 + CR_BASE]);
         }
         break;
     }
@@ -XXX,XX +XXX,XX @@ static void wrctl(DisasContext *dc, uint32_t code, uint32_t flags)
     }
 
     default:
-        tcg_gen_mov_tl(dc->cpu_R[instr.imm5 + CR_BASE], load_gpr(dc, instr.a));
+        tcg_gen_mov_tl(cpu_R[instr.imm5 + CR_BASE], load_gpr(dc, instr.a));
         break;
     }
 
@@ -XXX,XX +XXX,XX @@ static void gen_cmpxx(DisasContext *dc, uint32_t code, uint32_t flags)
 {
     R_TYPE(instr, code);
     if (likely(instr.c != R_ZERO)) {
-        tcg_gen_setcond_tl(flags, dc->cpu_R[instr.c], dc->cpu_R[instr.a],
-                           dc->cpu_R[instr.b]);
+        tcg_gen_setcond_tl(flags, cpu_R[instr.c], cpu_R[instr.a],
+                           cpu_R[instr.b]);
     }
 }
 
@@ -XXX,XX +XXX,XX @@ static void (fname)(DisasContext *dc, uint32_t code, uint32_t flags)       \
 {                                                                          \
     R_TYPE(instr, (code));                                                 \
     if (likely(instr.c != R_ZERO)) {                                       \
-        tcg_gen_##insn((dc)->cpu_R[instr.c], load_gpr((dc), instr.a),      \
-                       (op3));                                             \
+        tcg_gen_##insn(cpu_R[instr.c], load_gpr((dc), instr.a), (op3));    \
     }                                                                      \
 }
 
@@ -XXX,XX +XXX,XX @@ static void (fname)(DisasContext *dc, uint32_t code, uint32_t flags)   \
     R_TYPE(instr, (code));                                             \
     if (likely(instr.c != R_ZERO)) {                                   \
         TCGv t0 = tcg_temp_new();                                      \
-        tcg_gen_##insn(t0, dc->cpu_R[instr.c],                         \
-                       load_gpr(dc, instr.a), load_gpr(dc, instr.b)); \
+        tcg_gen_##insn(t0, cpu_R[instr.c],                             \
+                       load_gpr(dc, instr.a), load_gpr(dc, instr.b));  \
         tcg_temp_free(t0);                                             \
     }                                                                  \
 }
@@ -XXX,XX +XXX,XX @@ static void (fname)(DisasContext *dc, uint32_t code, uint32_t flags)       \
     if (likely(instr.c != R_ZERO)) {                                       \
         TCGv t0 = tcg_temp_new();                                          \
         tcg_gen_andi_tl(t0, load_gpr((dc), instr.b), 31);                  \
-        tcg_gen_##insn((dc)->cpu_R[instr.c], load_gpr((dc), instr.a), t0); \
+        tcg_gen_##insn(cpu_R[instr.c], load_gpr((dc), instr.a), t0);       \
         tcg_temp_free(t0);                                                 \
     }                                                                      \
 }
@@ -XXX,XX +XXX,XX @@ static void divs(DisasContext *dc, uint32_t code, uint32_t flags)
     tcg_gen_or_tl(t2, t2, t3);
     tcg_gen_movi_tl(t3, 0);
     tcg_gen_movcond_tl(TCG_COND_NE, t1, t2, t3, t2, t1);
-    tcg_gen_div_tl(dc->cpu_R[instr.c], t0, t1);
-    tcg_gen_ext32s_tl(dc->cpu_R[instr.c], dc->cpu_R[instr.c]);
+    tcg_gen_div_tl(cpu_R[instr.c], t0, t1);
+    tcg_gen_ext32s_tl(cpu_R[instr.c], cpu_R[instr.c]);
 
     tcg_temp_free(t3);
     tcg_temp_free(t2);
@@ -XXX,XX +XXX,XX @@ static void divu(DisasContext *dc, uint32_t code, uint32_t flags)
     tcg_gen_ext32u_tl(t0, load_gpr(dc, instr.a));
     tcg_gen_ext32u_tl(t1, load_gpr(dc, instr.b));
     tcg_gen_movcond_tl(TCG_COND_EQ, t1, t1, t2, t3, t1);
-    tcg_gen_divu_tl(dc->cpu_R[instr.c], t0, t1);
-    tcg_gen_ext32s_tl(dc->cpu_R[instr.c], dc->cpu_R[instr.c]);
+    tcg_gen_divu_tl(cpu_R[instr.c], t0, t1);
+    tcg_gen_ext32s_tl(cpu_R[instr.c], cpu_R[instr.c]);
 
     tcg_temp_free(t3);
     tcg_temp_free(t2);
@@ -XXX,XX +XXX,XX @@ static const char * const regnames[] = {
     "rpc"
 };
 
-static TCGv cpu_R[NUM_CORE_REGS];
-
 #include "exec/gen-icount.h"
 
 static void gen_exception(DisasContext *dc, uint32_t excp)
@@ -XXX,XX +XXX,XX @@ void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int max_insns)
     int num_insns;
 
     /* Initialize DC */
-    dc->cpu_R   = cpu_R;
     dc->is_jmp  = DISAS_NEXT;
     dc->pc      = tb->pc;
     dc->tb      = tb;
-- 
2.25.1

Migrate the is_jmp, tb and singlestep_enabled fields from
DisasContext into the base.  Use pc_first instead of tb->pc.
Increment pc_next prior to decode, leaving the address of
the current insn in dc->pc.

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 target/nios2/translate.c | 70 +++++++++++++++++++++-------------------
 1 file changed, 36 insertions(+), 34 deletions(-)

diff --git a/target/nios2/translate.c b/target/nios2/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/nios2/translate.c
+++ b/target/nios2/translate.c
@@ -XXX,XX +XXX,XX @@
     }
 
 typedef struct DisasContext {
+    DisasContextBase  base;
     TCGv_i32          zero;
-    int               is_jmp;
     target_ulong      pc;
-    TranslationBlock *tb;
     int               mem_idx;
-    bool              singlestep_enabled;
 } DisasContext;
 
 static TCGv cpu_R[NUM_CORE_REGS];
@@ -XXX,XX +XXX,XX @@ static void t_gen_helper_raise_exception(DisasContext *dc,
     tcg_gen_movi_tl(cpu_R[R_PC], dc->pc);
     gen_helper_raise_exception(cpu_env, tmp);
     tcg_temp_free_i32(tmp);
-    dc->is_jmp = DISAS_NORETURN;
+    dc->base.is_jmp = DISAS_NORETURN;
 }
 
 static bool use_goto_tb(DisasContext *dc, uint32_t dest)
 {
-    if (unlikely(dc->singlestep_enabled)) {
+    if (unlikely(dc->base.singlestep_enabled)) {
         return false;
     }
 
 #ifndef CONFIG_USER_ONLY
-    return (dc->tb->pc & TARGET_PAGE_MASK) == (dest & TARGET_PAGE_MASK);
+    return (dc->base.pc_first & TARGET_PAGE_MASK) == (dest & TARGET_PAGE_MASK);
 #else
     return true;
 #endif
@@ -XXX,XX +XXX,XX @@ static bool use_goto_tb(DisasContext *dc, uint32_t dest)
 
 static void gen_goto_tb(DisasContext *dc, int n, uint32_t dest)
 {
-    TranslationBlock *tb = dc->tb;
+    const TranslationBlock *tb = dc->base.tb;
 
     if (use_goto_tb(dc, dest)) {
         tcg_gen_goto_tb(n);
@@ -XXX,XX +XXX,XX @@ static void gen_excp(DisasContext *dc, uint32_t code, uint32_t flags)
 
 static void gen_check_supervisor(DisasContext *dc)
 {
-    if (dc->tb->flags & CR_STATUS_U) {
+    if (dc->base.tb->flags & CR_STATUS_U) {
         /* CPU in user mode, privileged instruction called, stop. */
         t_gen_helper_raise_exception(dc, EXCP_SUPERI);
     }
@@ -XXX,XX +XXX,XX @@ static void jmpi(DisasContext *dc, uint32_t code, uint32_t flags)
 {
     J_TYPE(instr, code);
     gen_goto_tb(dc, 0, (dc->pc & 0xF0000000) | (instr.imm26 << 2));
-    dc->is_jmp = DISAS_NORETURN;
+    dc->base.is_jmp = DISAS_NORETURN;
 }
 
 static void call(DisasContext *dc, uint32_t code, uint32_t flags)
@@ -XXX,XX +XXX,XX @@ static void br(DisasContext *dc, uint32_t code, uint32_t flags)
     I_TYPE(instr, code);
 
     gen_goto_tb(dc, 0, dc->pc + 4 + (instr.imm16.s & -4));
-    dc->is_jmp = DISAS_NORETURN;
+    dc->base.is_jmp = DISAS_NORETURN;
 }
 
 static void gen_bxx(DisasContext *dc, uint32_t code, uint32_t flags)
@@ -XXX,XX +XXX,XX @@ static void gen_bxx(DisasContext *dc, uint32_t code, uint32_t flags)
     gen_goto_tb(dc, 0, dc->pc + 4);
     gen_set_label(l1);
     gen_goto_tb(dc, 1, dc->pc + 4 + (instr.imm16.s & -4));
-    dc->is_jmp = DISAS_NORETURN;
+    dc->base.is_jmp = DISAS_NORETURN;
 }
 
 /* Comparison instructions */
@@ -XXX,XX +XXX,XX @@ static void eret(DisasContext *dc, uint32_t code, uint32_t flags)
     tcg_gen_mov_tl(cpu_R[CR_STATUS], cpu_R[CR_ESTATUS]);
     tcg_gen_mov_tl(cpu_R[R_PC], cpu_R[R_EA]);
 
-    dc->is_jmp = DISAS_JUMP;
+    dc->base.is_jmp = DISAS_JUMP;
 }
 
 /* PC <- ra */
@@ -XXX,XX +XXX,XX @@ static void ret(DisasContext *dc, uint32_t code, uint32_t flags)
 {
     tcg_gen_mov_tl(cpu_R[R_PC], cpu_R[R_RA]);
 
-    dc->is_jmp = DISAS_JUMP;
+    dc->base.is_jmp = DISAS_JUMP;
 }
 
 /* PC <- ba */
@@ -XXX,XX +XXX,XX @@ static void bret(DisasContext *dc, uint32_t code, uint32_t flags)
 {
     tcg_gen_mov_tl(cpu_R[R_PC], cpu_R[R_BA]);
 
-    dc->is_jmp = DISAS_JUMP;
+    dc->base.is_jmp = DISAS_JUMP;
 }
 
 /* PC <- rA */
@@ -XXX,XX +XXX,XX @@ static void jmp(DisasContext *dc, uint32_t code, uint32_t flags)
 
     tcg_gen_mov_tl(cpu_R[R_PC], load_gpr(dc, instr.a));
 
-    dc->is_jmp = DISAS_JUMP;
+    dc->base.is_jmp = DISAS_JUMP;
 }
 
 /* rC <- PC + 4 */
@@ -XXX,XX +XXX,XX @@ static void callr(DisasContext *dc, uint32_t code, uint32_t flags)
     tcg_gen_mov_tl(cpu_R[R_PC], load_gpr(dc, instr.a));
     tcg_gen_movi_tl(cpu_R[R_RA], dc->pc + 4);
 
-    dc->is_jmp = DISAS_JUMP;
+    dc->base.is_jmp = DISAS_JUMP;
 }
 
 /* rC <- ctlN */
@@ -XXX,XX +XXX,XX @@ static void wrctl(DisasContext *dc, uint32_t code, uint32_t flags)
     /* If interrupts were enabled using WRCTL, trigger them. */
 #if !defined(CONFIG_USER_ONLY)
     if ((instr.imm5 + CR_BASE) == CR_STATUS) {
-        if (tb_cflags(dc->tb) & CF_USE_ICOUNT) {
+        if (tb_cflags(dc->base.tb) & CF_USE_ICOUNT) {
             gen_io_start();
         }
         gen_helper_check_interrupts(cpu_env);
-        dc->is_jmp = DISAS_UPDATE;
+        dc->base.is_jmp = DISAS_UPDATE;
     }
 #endif
 }
@@ -XXX,XX +XXX,XX @@ static void gen_exception(DisasContext *dc, uint32_t excp)
     tcg_gen_movi_tl(cpu_R[R_PC], dc->pc);
     gen_helper_raise_exception(cpu_env, tmp);
     tcg_temp_free_i32(tmp);
-    dc->is_jmp = DISAS_NORETURN;
+    dc->base.is_jmp = DISAS_NORETURN;
 }
 
 /* generate intermediate code for basic block 'tb'.  */
@@ -XXX,XX +XXX,XX @@ void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int max_insns)
     int num_insns;
 
     /* Initialize DC */
-    dc->is_jmp  = DISAS_NEXT;
-    dc->pc      = tb->pc;
-    dc->tb      = tb;
+
+    dc->base.tb = tb;
+    dc->base.singlestep_enabled = cs->singlestep_enabled;
+    dc->base.is_jmp = DISAS_NEXT;
+    dc->base.pc_first = tb->pc;
+    dc->base.pc_next = tb->pc;
+
     dc->mem_idx = cpu_mmu_index(env, false);
-    dc->singlestep_enabled = cs->singlestep_enabled;
 
     /* Set up instruction counts */
     num_insns = 0;
@@ -XXX,XX +XXX,XX @@ void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int max_insns)
 
     gen_tb_start(tb);
     do {
-        tcg_gen_insn_start(dc->pc);
+        tcg_gen_insn_start(dc->base.pc_next);
         num_insns++;
 
-        if (unlikely(cpu_breakpoint_test(cs, dc->pc, BP_ANY))) {
+        if (unlikely(cpu_breakpoint_test(cs, dc->base.pc_next, BP_ANY))) {
             gen_exception(dc, EXCP_DEBUG);
             /* The address covered by the breakpoint must be included in
                [tb->pc, tb->pc + tb->size) in order to for it to be
@@ -XXX,XX +XXX,XX @@ void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int max_insns)
             gen_io_start();
         }
 
+        dc->pc = dc->base.pc_next;
+        dc->base.pc_next += 4;
+
         /* Decode an instruction */
         handle_instruction(dc, env);
 
-        dc->pc += 4;
-
         /* Translation stops when a conditional branch is encountered.
          * Otherwise the subsequent code could get translated several times.
          * Also stop translation when a page boundary is reached.  This
          * ensures prefetch aborts occur at the right place.  */
-    } while (!dc->is_jmp &&
+    } while (!dc->base.is_jmp &&
              !tcg_op_buf_full() &&
              num_insns < max_insns);
 
     /* Indicate where the next block should start */
-    switch (dc->is_jmp) {
+    switch (dc->base.is_jmp) {
     case DISAS_NEXT:
     case DISAS_UPDATE:
         /* Save the current PC back into the CPU register */
-        tcg_gen_movi_tl(cpu_R[R_PC], dc->pc);
+        tcg_gen_movi_tl(cpu_R[R_PC], dc->base.pc_next);
         tcg_gen_exit_tb(NULL, 0);
         break;
 
@@ -XXX,XX +XXX,XX @@ void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int max_insns)
     gen_tb_end(tb, num_insns);
 
     /* Mark instruction starts for the final generated instruction */
-    tb->size = dc->pc - tb->pc;
+    tb->size = dc->base.pc_next - dc->base.pc_first;
     tb->icount = num_insns;
 
 #ifdef DEBUG_DISAS
     if (qemu_loglevel_mask(CPU_LOG_TB_IN_ASM)
-        && qemu_log_in_addr_range(tb->pc)) {
+        && qemu_log_in_addr_range(dc->base.pc_first)) {
         FILE *logfile = qemu_log_lock();
-        qemu_log("IN: %s\n", lookup_symbol(tb->pc));
-        log_target_disas(cs, tb->pc, dc->pc - tb->pc);
+        qemu_log("IN: %s\n", lookup_symbol(dc->base.pc_first));
+        log_target_disas(cs, tb->pc, tb->size);
         qemu_log("\n");
         qemu_log_unlock(logfile);
     }
-- 
2.25.1

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 target/nios2/translate.c | 128 ++++++++++++++++++++-------------------
 1 file changed, 65 insertions(+), 63 deletions(-)

diff --git a/target/nios2/translate.c b/target/nios2/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/nios2/translate.c
+++ b/target/nios2/translate.c
@@ -XXX,XX +XXX,XX @@ static void gen_exception(DisasContext *dc, uint32_t excp)
 }
 
 /* generate intermediate code for basic block 'tb'.  */
-void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int max_insns)
+static void nios2_tr_init_disas_context(DisasContextBase *dcbase, CPUState *cs)
 {
+    DisasContext *dc = container_of(dcbase, DisasContext, base);
     CPUNios2State *env = cs->env_ptr;
-    DisasContext dc1, *dc = &dc1;
-    int num_insns;
-
-    /* Initialize DC */
-
-    dc->base.tb = tb;
-    dc->base.singlestep_enabled = cs->singlestep_enabled;
-    dc->base.is_jmp = DISAS_NEXT;
-    dc->base.pc_first = tb->pc;
-    dc->base.pc_next = tb->pc;
+    int page_insns;
 
     dc->mem_idx = cpu_mmu_index(env, false);
 
-    /* Set up instruction counts */
-    num_insns = 0;
-    if (max_insns > 1) {
-        int page_insns = (TARGET_PAGE_SIZE - (tb->pc & ~TARGET_PAGE_MASK)) / 4;
-        if (max_insns > page_insns) {
-            max_insns = page_insns;
-        }
-    }
+    /* Bound the number of insns to execute to those left on the page.  */
+    page_insns = -(dc->base.pc_first | TARGET_PAGE_MASK) / 4;
+    dc->base.max_insns = MIN(page_insns, dc->base.max_insns);
+}
 
-    gen_tb_start(tb);
-    do {
-        tcg_gen_insn_start(dc->base.pc_next);
-        num_insns++;
+static void nios2_tr_tb_start(DisasContextBase *db, CPUState *cs)
+{
+}
 
-        if (unlikely(cpu_breakpoint_test(cs, dc->base.pc_next, BP_ANY))) {
-            gen_exception(dc, EXCP_DEBUG);
-            /* The address covered by the breakpoint must be included in
-               [tb->pc, tb->pc + tb->size) in order to for it to be
-               properly cleared -- thus we increment the PC here so that
-               the logic setting tb->size below does the right thing.  */
-            dc->pc += 4;
-            break;
-        }
+static void nios2_tr_insn_start(DisasContextBase *dcbase, CPUState *cs)
+{
+    tcg_gen_insn_start(dcbase->pc_next);
+}
 
-        if (num_insns == max_insns && (tb_cflags(tb) & CF_LAST_IO)) {
-            gen_io_start();
-        }
+static bool nios2_tr_breakpoint_check(DisasContextBase *dcbase, CPUState *cs,
+                                      const CPUBreakpoint *bp)
+{
+    DisasContext *dc = container_of(dcbase, DisasContext, base);
 
-        dc->pc = dc->base.pc_next;
-        dc->base.pc_next += 4;
+    gen_exception(dc, EXCP_DEBUG);
+    /*
+     * The address covered by the breakpoint must be included in
+     * [tb->pc, tb->pc + tb->size) in order to for it to be
+     * properly cleared -- thus we increment the PC here so that
+     * the logic setting tb->size below does the right thing.
+     */
+    dc->base.pc_next += 4;
+    return true;
+}
 
-        /* Decode an instruction */
-        handle_instruction(dc, env);
+static void nios2_tr_translate_insn(DisasContextBase *dcbase, CPUState *cs)
+{
+    DisasContext *dc = container_of(dcbase, DisasContext, base);
+    CPUNios2State *env = cs->env_ptr;
 
-        /* Translation stops when a conditional branch is encountered.
-         * Otherwise the subsequent code could get translated several times.
-         * Also stop translation when a page boundary is reached.  This
-         * ensures prefetch aborts occur at the right place.  */
-    } while (!dc->base.is_jmp &&
-             !tcg_op_buf_full() &&
-             num_insns < max_insns);
+    dc->pc = dc->base.pc_next;
+    dc->base.pc_next += 4;
+
+    /* Decode an instruction */
+    handle_instruction(dc, env);
+}
+
+static void nios2_tr_tb_stop(DisasContextBase *dcbase, CPUState *cs)
+{
+    DisasContext *dc = container_of(dcbase, DisasContext, base);
 
     /* Indicate where the next block should start */
     switch (dc->base.is_jmp) {
-    case DISAS_NEXT:
+    case DISAS_TOO_MANY:
     case DISAS_UPDATE:
         /* Save the current PC back into the CPU register */
         tcg_gen_movi_tl(cpu_R[R_PC], dc->base.pc_next);
         tcg_gen_exit_tb(NULL, 0);
         break;
 
-    default:
     case DISAS_JUMP:
         /* The jump will already have updated the PC register */
         tcg_gen_exit_tb(NULL, 0);
@@ -XXX,XX +XXX,XX @@ void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int max_insns)
     case DISAS_NORETURN:
         /* nothing more to generate */
         break;
+
+    default:
+        g_assert_not_reached();
     }
+}
 
-    /* End off the block */
-    gen_tb_end(tb, num_insns);
+static void nios2_tr_disas_log(const DisasContextBase *dcbase, CPUState *cpu)
+{
+    qemu_log("IN: %s\n", lookup_symbol(dcbase->pc_first));
+    log_target_disas(cpu, dcbase->pc_first, dcbase->tb->size);
+}
 
-    /* Mark instruction starts for the final generated instruction */
-    tb->size = dc->base.pc_next - dc->base.pc_first;
-    tb->icount = num_insns;
+static const TranslatorOps nios2_tr_ops = {
+    .init_disas_context = nios2_tr_init_disas_context,
+    .tb_start           = nios2_tr_tb_start,
+    .insn_start         = nios2_tr_insn_start,
+    .breakpoint_check   = nios2_tr_breakpoint_check,
+    .translate_insn     = nios2_tr_translate_insn,
+    .tb_stop            = nios2_tr_tb_stop,
+    .disas_log          = nios2_tr_disas_log,
+};
 
-#ifdef DEBUG_DISAS
-    if (qemu_loglevel_mask(CPU_LOG_TB_IN_ASM)
-        && qemu_log_in_addr_range(dc->base.pc_first)) {
-        FILE *logfile = qemu_log_lock();
-        qemu_log("IN: %s\n", lookup_symbol(dc->base.pc_first));
-        log_target_disas(cs, tb->pc, tb->size);
-        qemu_log("\n");
-        qemu_log_unlock(logfile);
-    }
-#endif
+void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int max_insns)
+{
+    DisasContext dc;
+    translator_loop(&nios2_tr_ops, &dc.base, cs, tb, max_insns);
 }
 
 void nios2_cpu_dump_state(CPUState *cs, FILE *f, int flags)
-- 
2.25.1

Direct assignments to env during translation do not work.

As it happens, the only way we can get here is if env->pc
is already set to dc->pc.  We will trap on the first insn
we execute anywhere on the page.

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 target/nios2/translate.c | 3 ++-
 1 file changed, 2 insertions(+), 1 deletion(-)

diff --git a/target/nios2/translate.c b/target/nios2/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/nios2/translate.c
+++ b/target/nios2/translate.c
@@ -XXX,XX +XXX,XX @@ static void handle_instruction(DisasContext *dc, CPUNios2State *env)
     uint32_t code;
     uint8_t op;
     const Nios2Instruction *instr;
+
 #if defined(CONFIG_USER_ONLY)
     /* FIXME: Is this needed ? */
     if (dc->pc >= 0x1000 && dc->pc < 0x2000) {
-        env->regs[R_PC] = dc->pc;
         t_gen_helper_raise_exception(dc, 0xaa);
         return;
     }
 #endif
+
     code = cpu_ldl_code(env, dc->pc);
     op = get_opcode(code);
 
-- 
2.25.1

Move handle_instruction into nios2_tr_translate_insn
as the only caller.

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 target/nios2/translate.c | 66 +++++++++++++++++++---------------------
 1 file changed, 31 insertions(+), 35 deletions(-)

diff --git a/target/nios2/translate.c b/target/nios2/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/nios2/translate.c
+++ b/target/nios2/translate.c
@@ -XXX,XX +XXX,XX @@ illegal_op:
     t_gen_helper_raise_exception(dc, EXCP_ILLEGAL);
 }
 
-static void handle_instruction(DisasContext *dc, CPUNios2State *env)
-{
-    uint32_t code;
-    uint8_t op;
-    const Nios2Instruction *instr;
-
-#if defined(CONFIG_USER_ONLY)
-    /* FIXME: Is this needed ? */
-    if (dc->pc >= 0x1000 && dc->pc < 0x2000) {
-        t_gen_helper_raise_exception(dc, 0xaa);
-        return;
-    }
-#endif
-
-    code = cpu_ldl_code(env, dc->pc);
-    op = get_opcode(code);
-
-    if (unlikely(op >= ARRAY_SIZE(i_type_instructions))) {
-        t_gen_helper_raise_exception(dc, EXCP_ILLEGAL);
-        return;
-    }
-
-    dc->zero = NULL;
-
-    instr = &i_type_instructions[op];
-    instr->handler(dc, code, instr->flags);
-
-    if (dc->zero) {
-        tcg_temp_free(dc->zero);
-    }
-}
-
 static const char * const regnames[] = {
     "zero",       "at",         "r2",         "r3",
     "r4",         "r5",         "r6",         "r7",
@@ -XXX,XX +XXX,XX @@ static void nios2_tr_translate_insn(DisasContextBase *dcbase, CPUState *cs)
 {
     DisasContext *dc = container_of(dcbase, DisasContext, base);
     CPUNios2State *env = cs->env_ptr;
+    const Nios2Instruction *instr;
+    uint32_t code, pc;
+    uint8_t op;
 
-    dc->pc = dc->base.pc_next;
-    dc->base.pc_next += 4;
+    pc = dc->base.pc_next;
+    dc->pc = pc;
+    dc->base.pc_next = pc + 4;
 
     /* Decode an instruction */
-    handle_instruction(dc, env);
+
+#if defined(CONFIG_USER_ONLY)
+    /* FIXME: Is this needed ? */
+    if (pc >= 0x1000 && pc < 0x2000) {
+        t_gen_helper_raise_exception(dc, 0xaa);
+        return;
+    }
+#endif
+
+    code = cpu_ldl_code(env, pc);
+    op = get_opcode(code);
+
+    if (unlikely(op >= ARRAY_SIZE(i_type_instructions))) {
+        t_gen_helper_raise_exception(dc, EXCP_ILLEGAL);
+        return;
+    }
+
+    dc->zero = NULL;
+
+    instr = &i_type_instructions[op];
+    instr->handler(dc, code, instr->flags);
+
+    if (dc->zero) {
+        tcg_temp_free(dc->zero);
+    }
 }
 
 static void nios2_tr_tb_stop(DisasContextBase *dcbase, CPUState *cs)
-- 
2.25.1

We have pre-computed the next instruction address into
dc->base.pc_next, so we might as well use it.

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Suggested-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 target/nios2/translate.c | 12 ++++++------
 1 file changed, 6 insertions(+), 6 deletions(-)

diff --git a/target/nios2/translate.c b/target/nios2/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/nios2/translate.c
+++ b/target/nios2/translate.c
@@ -XXX,XX +XXX,XX @@ static void jmpi(DisasContext *dc, uint32_t code, uint32_t flags)
 
 static void call(DisasContext *dc, uint32_t code, uint32_t flags)
 {
-    tcg_gen_movi_tl(cpu_R[R_RA], dc->pc + 4);
+    tcg_gen_movi_tl(cpu_R[R_RA], dc->base.pc_next);
     jmpi(dc, code, flags);
 }
 
@@ -XXX,XX +XXX,XX @@ static void br(DisasContext *dc, uint32_t code, uint32_t flags)
 {
     I_TYPE(instr, code);
 
-    gen_goto_tb(dc, 0, dc->pc + 4 + (instr.imm16.s & -4));
+    gen_goto_tb(dc, 0, dc->base.pc_next + (instr.imm16.s & -4));
     dc->base.is_jmp = DISAS_NORETURN;
 }
 
@@ -XXX,XX +XXX,XX @@ static void gen_bxx(DisasContext *dc, uint32_t code, uint32_t flags)
 
     TCGLabel *l1 = gen_new_label();
     tcg_gen_brcond_tl(flags, cpu_R[instr.a], cpu_R[instr.b], l1);
-    gen_goto_tb(dc, 0, dc->pc + 4);
+    gen_goto_tb(dc, 0, dc->base.pc_next);
     gen_set_label(l1);
-    gen_goto_tb(dc, 1, dc->pc + 4 + (instr.imm16.s & -4));
+    gen_goto_tb(dc, 1, dc->base.pc_next + (instr.imm16.s & -4));
     dc->base.is_jmp = DISAS_NORETURN;
 }
 
@@ -XXX,XX +XXX,XX @@ static void nextpc(DisasContext *dc, uint32_t code, uint32_t flags)
     R_TYPE(instr, code);
 
     if (likely(instr.c != R_ZERO)) {
-        tcg_gen_movi_tl(cpu_R[instr.c], dc->pc + 4);
+        tcg_gen_movi_tl(cpu_R[instr.c], dc->base.pc_next);
     }
 }
 
@@ -XXX,XX +XXX,XX @@ static void callr(DisasContext *dc, uint32_t code, uint32_t flags)
     R_TYPE(instr, code);
 
     tcg_gen_mov_tl(cpu_R[R_PC], load_gpr(dc, instr.a));
-    tcg_gen_movi_tl(cpu_R[R_RA], dc->pc + 4);
+    tcg_gen_movi_tl(cpu_R[R_RA], dc->base.pc_next);
 
     dc->base.is_jmp = DISAS_JUMP;
 }
-- 
2.25.1

Migrate the bstate, tb and singlestep_enabled fields
from DisasContext into the base.

Tested-by: Michael Rolnik <mrolnik@gmail.com>
Reviewed-by: Michael Rolnik <mrolnik@gmail.com>
Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 target/avr/translate.c | 58 +++++++++++++++++++++---------------------
 1 file changed, 29 insertions(+), 29 deletions(-)

diff --git a/target/avr/translate.c b/target/avr/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/avr/translate.c
+++ b/target/avr/translate.c
@@ -XXX,XX +XXX,XX @@ typedef struct DisasContext DisasContext;
 
 /* This is the state at translation time. */
 struct DisasContext {
-    TranslationBlock *tb;
+    DisasContextBase base;
 
     CPUAVRState *env;
     CPUState *cs;
@@ -XXX,XX +XXX,XX @@ struct DisasContext {
 
     /* Routine used to access memory */
     int memidx;
-    int bstate;
-    int singlestep;
 
     /*
      * some AVR instructions can make the following instruction to be skipped
@@ -XXX,XX +XXX,XX @@ static bool avr_have_feature(DisasContext *ctx, int feature)
 {
     if (!avr_feature(ctx->env, feature)) {
         gen_helper_unsupported(cpu_env);
-        ctx->bstate = DISAS_NORETURN;
+        ctx->base.is_jmp = DISAS_NORETURN;
         return false;
     }
     return true;
@@ -XXX,XX +XXX,XX @@ static void gen_jmp_ez(DisasContext *ctx)
 {
     tcg_gen_deposit_tl(cpu_pc, cpu_r[30], cpu_r[31], 8, 8);
     tcg_gen_or_tl(cpu_pc, cpu_pc, cpu_eind);
-    ctx->bstate = DISAS_LOOKUP;
+    ctx->base.is_jmp = DISAS_LOOKUP;
 }
 
 static void gen_jmp_z(DisasContext *ctx)
 {
     tcg_gen_deposit_tl(cpu_pc, cpu_r[30], cpu_r[31], 8, 8);
-    ctx->bstate = DISAS_LOOKUP;
+    ctx->base.is_jmp = DISAS_LOOKUP;
 }
 
 static void gen_push_ret(DisasContext *ctx, int ret)
@@ -XXX,XX +XXX,XX @@ static void gen_pop_ret(DisasContext *ctx, TCGv ret)
 
 static void gen_goto_tb(DisasContext *ctx, int n, target_ulong dest)
 {
-    TranslationBlock *tb = ctx->tb;
+    const TranslationBlock *tb = ctx->base.tb;
 
-    if (ctx->singlestep == 0) {
+    if (!ctx->base.singlestep_enabled) {
         tcg_gen_goto_tb(n);
         tcg_gen_movi_i32(cpu_pc, dest);
         tcg_gen_exit_tb(tb, n);
@@ -XXX,XX +XXX,XX @@ static void gen_goto_tb(DisasContext *ctx, int n, target_ulong dest)
         gen_helper_debug(cpu_env);
         tcg_gen_exit_tb(NULL, 0);
     }
-    ctx->bstate = DISAS_NORETURN;
+    ctx->base.is_jmp = DISAS_NORETURN;
 }
 
 /*
@@ -XXX,XX +XXX,XX @@ static bool trans_RET(DisasContext *ctx, arg_RET *a)
 {
     gen_pop_ret(ctx, cpu_pc);
 
-    ctx->bstate = DISAS_LOOKUP;
+    ctx->base.is_jmp = DISAS_LOOKUP;
     return true;
 }
 
@@ -XXX,XX +XXX,XX @@ static bool trans_RETI(DisasContext *ctx, arg_RETI *a)
     tcg_gen_movi_tl(cpu_If, 1);
 
     /* Need to return to main loop to re-evaluate interrupts.  */
-    ctx->bstate = DISAS_EXIT;
+    ctx->base.is_jmp = DISAS_EXIT;
     return true;
 }
 
@@ -XXX,XX +XXX,XX @@ static bool trans_BRBC(DisasContext *ctx, arg_BRBC *a)
     gen_goto_tb(ctx, 0, ctx->npc + a->imm);
     gen_set_label(not_taken);
 
-    ctx->bstate = DISAS_CHAIN;
+    ctx->base.is_jmp = DISAS_CHAIN;
     return true;
 }
 
@@ -XXX,XX +XXX,XX @@ static bool trans_BRBS(DisasContext *ctx, arg_BRBS *a)
     gen_goto_tb(ctx, 0, ctx->npc + a->imm);
     gen_set_label(not_taken);
 
-    ctx->bstate = DISAS_CHAIN;
+    ctx->base.is_jmp = DISAS_CHAIN;
     return true;
 }
 
@@ -XXX,XX +XXX,XX @@ static TCGv gen_get_zaddr(void)
  */
 static void gen_data_store(DisasContext *ctx, TCGv data, TCGv addr)
 {
-    if (ctx->tb->flags & TB_FLAGS_FULL_ACCESS) {
+    if (ctx->base.tb->flags & TB_FLAGS_FULL_ACCESS) {
         gen_helper_fullwr(cpu_env, data, addr);
     } else {
         tcg_gen_qemu_st8(data, addr, MMU_DATA_IDX); /* mem[addr] = data */
@@ -XXX,XX +XXX,XX @@ static void gen_data_store(DisasContext *ctx, TCGv data, TCGv addr)
 
 static void gen_data_load(DisasContext *ctx, TCGv data, TCGv addr)
 {
-    if (ctx->tb->flags & TB_FLAGS_FULL_ACCESS) {
+    if (ctx->base.tb->flags & TB_FLAGS_FULL_ACCESS) {
         gen_helper_fullrd(data, cpu_env, addr);
     } else {
         tcg_gen_qemu_ld8u(data, addr, MMU_DATA_IDX); /* data = mem[addr] */
@@ -XXX,XX +XXX,XX @@ static bool trans_BREAK(DisasContext *ctx, arg_BREAK *a)
 #ifdef BREAKPOINT_ON_BREAK
     tcg_gen_movi_tl(cpu_pc, ctx->npc - 1);
     gen_helper_debug(cpu_env);
-    ctx->bstate = DISAS_EXIT;
+    ctx->base.is_jmp = DISAS_EXIT;
 #else
     /* NOP */
 #endif
@@ -XXX,XX +XXX,XX @@ static bool trans_NOP(DisasContext *ctx, arg_NOP *a)
 static bool trans_SLEEP(DisasContext *ctx, arg_SLEEP *a)
 {
     gen_helper_sleep(cpu_env);
-    ctx->bstate = DISAS_NORETURN;
+    ctx->base.is_jmp = DISAS_NORETURN;
     return true;
 }
 
@@ -XXX,XX +XXX,XX @@ static void translate(DisasContext *ctx)
 
     if (!decode_insn(ctx, opcode)) {
         gen_helper_unsupported(cpu_env);
-        ctx->bstate = DISAS_NORETURN;
+        ctx->base.is_jmp = DISAS_NORETURN;
     }
 }
 
@@ -XXX,XX +XXX,XX @@ void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int max_insns)
 {
     CPUAVRState *env = cs->env_ptr;
     DisasContext ctx = {
-        .tb = tb,
+        .base.tb = tb,
+        .base.is_jmp = DISAS_NEXT,
+        .base.pc_first = tb->pc,
+        .base.pc_next = tb->pc,
+        .base.singlestep_enabled = cs->singlestep_enabled,
         .cs = cs,
         .env = env,
         .memidx = 0,
-        .bstate = DISAS_NEXT,
         .skip_cond = TCG_COND_NEVER,
-        .singlestep = cs->singlestep_enabled,
     };
     target_ulong pc_start = tb->pc / 2;
     int num_insns = 0;
@@ -XXX,XX +XXX,XX @@ void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int max_insns)
          */
         max_insns = 1;
     }
-    if (ctx.singlestep) {
+    if (ctx.base.singlestep_enabled) {
         max_insns = 1;
     }
 
@@ -XXX,XX +XXX,XX @@ void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int max_insns)
          * b main   - sets breakpoint at address 0x00000100 (code)
          * b *0x100 - sets breakpoint at address 0x00800100 (data)
          */
-        if (unlikely(!ctx.singlestep &&
+        if (unlikely(!ctx.base.singlestep_enabled &&
                 (cpu_breakpoint_test(cs, OFFSET_CODE + ctx.npc * 2, BP_ANY) ||
                  cpu_breakpoint_test(cs, OFFSET_DATA + ctx.npc * 2, BP_ANY)))) {
             canonicalize_skip(&ctx);
@@ -XXX,XX +XXX,XX @@ void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int max_insns)
         if (skip_label) {
             canonicalize_skip(&ctx);
             gen_set_label(skip_label);
-            if (ctx.bstate == DISAS_NORETURN) {
-                ctx.bstate = DISAS_CHAIN;
+            if (ctx.base.is_jmp == DISAS_NORETURN) {
+                ctx.base.is_jmp = DISAS_CHAIN;
             }
         }
-    } while (ctx.bstate == DISAS_NEXT
+    } while (ctx.base.is_jmp == DISAS_NEXT
              && num_insns < max_insns
              && (ctx.npc - pc_start) * 2 < TARGET_PAGE_SIZE - 4
              && !tcg_op_buf_full());
@@ -XXX,XX +XXX,XX @@ void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int max_insns)
 
     bool nonconst_skip = canonicalize_skip(&ctx);
 
-    switch (ctx.bstate) {
+    switch (ctx.base.is_jmp) {
     case DISAS_NORETURN:
         assert(!nonconst_skip);
         break;
@@ -XXX,XX +XXX,XX @@ void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int max_insns)
         tcg_gen_movi_tl(cpu_pc, ctx.npc);
         /* fall through */
     case DISAS_LOOKUP:
-        if (!ctx.singlestep) {
+        if (!ctx.base.singlestep_enabled) {
             tcg_gen_lookup_and_goto_ptr();
             break;
         }
         /* fall through */
     case DISAS_EXIT:
-        if (ctx.singlestep) {
+        if (ctx.base.singlestep_enabled) {
             gen_helper_debug(cpu_env);
         } else {
             tcg_gen_exit_tb(NULL, 0);
-- 
2.25.1

Prepare for receiving it as a pointer input.

Tested-by: Michael Rolnik <mrolnik@gmail.com>
Reviewed-by: Michael Rolnik <mrolnik@gmail.com>
Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 target/avr/translate.c | 84 +++++++++++++++++++++---------------------
 1 file changed, 43 insertions(+), 41 deletions(-)

diff --git a/target/avr/translate.c b/target/avr/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/avr/translate.c
+++ b/target/avr/translate.c
@@ -XXX,XX +XXX,XX @@ struct DisasContext {
      * used in the following manner (sketch)
      *
      * TCGLabel *skip_label = NULL;
-     * if (ctx.skip_cond != TCG_COND_NEVER) {
+     * if (ctx->skip_cond != TCG_COND_NEVER) {
      *     skip_label = gen_new_label();
      *     tcg_gen_brcond_tl(skip_cond, skip_var0, skip_var1, skip_label);
      * }
@@ -XXX,XX +XXX,XX @@ struct DisasContext {
      *     free_skip_var0 = false;
      * }
      *
-     * translate(&ctx);
+     * translate(ctx);
      *
      * if (skip_label) {
      *     gen_set_label(skip_label);
@@ -XXX,XX +XXX,XX @@ static bool canonicalize_skip(DisasContext *ctx)
 void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int max_insns)
 {
     CPUAVRState *env = cs->env_ptr;
-    DisasContext ctx = {
+    DisasContext ctx1 = {
         .base.tb = tb,
         .base.is_jmp = DISAS_NEXT,
         .base.pc_first = tb->pc,
@@ -XXX,XX +XXX,XX @@ void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int max_insns)
         .memidx = 0,
         .skip_cond = TCG_COND_NEVER,
     };
+    DisasContext *ctx = &ctx1;
     target_ulong pc_start = tb->pc / 2;
     int num_insns = 0;
 
@@ -XXX,XX +XXX,XX @@ void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int max_insns)
          */
         max_insns = 1;
     }
-    if (ctx.base.singlestep_enabled) {
+    if (ctx->base.singlestep_enabled) {
         max_insns = 1;
     }
 
     gen_tb_start(tb);
 
-    ctx.npc = pc_start;
+    ctx->npc = pc_start;
     if (tb->flags & TB_FLAGS_SKIP) {
-        ctx.skip_cond = TCG_COND_ALWAYS;
-        ctx.skip_var0 = cpu_skip;
+        ctx->skip_cond = TCG_COND_ALWAYS;
+        ctx->skip_var0 = cpu_skip;
     }
 
     do {
         TCGLabel *skip_label = NULL;
 
         /* translate current instruction */
-        tcg_gen_insn_start(ctx.npc);
+        tcg_gen_insn_start(ctx->npc);
         num_insns++;
 
         /*
@@ -XXX,XX +XXX,XX @@ void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int max_insns)
          * b main   - sets breakpoint at address 0x00000100 (code)
          * b *0x100 - sets breakpoint at address 0x00800100 (data)
          */
-        if (unlikely(!ctx.base.singlestep_enabled &&
-                (cpu_breakpoint_test(cs, OFFSET_CODE + ctx.npc * 2, BP_ANY) ||
-                 cpu_breakpoint_test(cs, OFFSET_DATA + ctx.npc * 2, BP_ANY)))) {
-            canonicalize_skip(&ctx);
-            tcg_gen_movi_tl(cpu_pc, ctx.npc);
+        if (unlikely(!ctx->base.singlestep_enabled &&
+            (cpu_breakpoint_test(cs, OFFSET_CODE + ctx->npc * 2, BP_ANY) ||
+             cpu_breakpoint_test(cs, OFFSET_DATA + ctx->npc * 2, BP_ANY)))) {
+            canonicalize_skip(ctx);
+            tcg_gen_movi_tl(cpu_pc, ctx->npc);
             gen_helper_debug(cpu_env);
             goto done_generating;
         }
 
         /* Conditionally skip the next instruction, if indicated.  */
-        if (ctx.skip_cond != TCG_COND_NEVER) {
+        if (ctx->skip_cond != TCG_COND_NEVER) {
             skip_label = gen_new_label();
-            if (ctx.skip_var0 == cpu_skip) {
+            if (ctx->skip_var0 == cpu_skip) {
                 /*
                  * Copy cpu_skip so that we may zero it before the branch.
                  * This ensures that cpu_skip is non-zero after the label
                  * if and only if the skipped insn itself sets a skip.
                  */
-                ctx.free_skip_var0 = true;
-                ctx.skip_var0 = tcg_temp_new();
-                tcg_gen_mov_tl(ctx.skip_var0, cpu_skip);
+                ctx->free_skip_var0 = true;
+                ctx->skip_var0 = tcg_temp_new();
+                tcg_gen_mov_tl(ctx->skip_var0, cpu_skip);
                 tcg_gen_movi_tl(cpu_skip, 0);
             }
-            if (ctx.skip_var1 == NULL) {
-                tcg_gen_brcondi_tl(ctx.skip_cond, ctx.skip_var0, 0, skip_label);
+            if (ctx->skip_var1 == NULL) {
+                tcg_gen_brcondi_tl(ctx->skip_cond, ctx->skip_var0,
+                                   0, skip_label);
             } else {
-                tcg_gen_brcond_tl(ctx.skip_cond, ctx.skip_var0,
-                                  ctx.skip_var1, skip_label);
-                ctx.skip_var1 = NULL;
+                tcg_gen_brcond_tl(ctx->skip_cond, ctx->skip_var0,
+                                  ctx->skip_var1, skip_label);
+                ctx->skip_var1 = NULL;
             }
-            if (ctx.free_skip_var0) {
-                tcg_temp_free(ctx.skip_var0);
-                ctx.free_skip_var0 = false;
+            if (ctx->free_skip_var0) {
+                tcg_temp_free(ctx->skip_var0);
+                ctx->free_skip_var0 = false;
             }
-            ctx.skip_cond = TCG_COND_NEVER;
-            ctx.skip_var0 = NULL;
+            ctx->skip_cond = TCG_COND_NEVER;
+            ctx->skip_var0 = NULL;
         }
 
-        translate(&ctx);
+        translate(ctx);
 
         if (skip_label) {
-            canonicalize_skip(&ctx);
+            canonicalize_skip(ctx);
             gen_set_label(skip_label);
-            if (ctx.base.is_jmp == DISAS_NORETURN) {
-                ctx.base.is_jmp = DISAS_CHAIN;
+            if (ctx->base.is_jmp == DISAS_NORETURN) {
+                ctx->base.is_jmp = DISAS_CHAIN;
             }
         }
-    } while (ctx.base.is_jmp == DISAS_NEXT
+    } while (ctx->base.is_jmp == DISAS_NEXT
              && num_insns < max_insns
-             && (ctx.npc - pc_start) * 2 < TARGET_PAGE_SIZE - 4
+             && (ctx->npc - pc_start) * 2 < TARGET_PAGE_SIZE - 4
              && !tcg_op_buf_full());
 
     if (tb->cflags & CF_LAST_IO) {
         gen_io_end();
     }
 
-    bool nonconst_skip = canonicalize_skip(&ctx);
+    bool nonconst_skip = canonicalize_skip(ctx);
 
-    switch (ctx.base.is_jmp) {
+    switch (ctx->base.is_jmp) {
     case DISAS_NORETURN:
         assert(!nonconst_skip);
         break;
@@ -XXX,XX +XXX,XX @@ void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int max_insns)
     case DISAS_CHAIN:
         if (!nonconst_skip) {
             /* Note gen_goto_tb checks singlestep.  */
-            gen_goto_tb(&ctx, 1, ctx.npc);
+            gen_goto_tb(ctx, 1, ctx->npc);
             break;
         }
-        tcg_gen_movi_tl(cpu_pc, ctx.npc);
+        tcg_gen_movi_tl(cpu_pc, ctx->npc);
         /* fall through */
     case DISAS_LOOKUP:
-        if (!ctx.base.singlestep_enabled) {
+        if (!ctx->base.singlestep_enabled) {
             tcg_gen_lookup_and_goto_ptr();
             break;
         }
         /* fall through */
     case DISAS_EXIT:
-        if (ctx.base.singlestep_enabled) {
+        if (ctx->base.singlestep_enabled) {
             gen_helper_debug(cpu_env);
         } else {
             tcg_gen_exit_tb(NULL, 0);
@@ -XXX,XX +XXX,XX @@ void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int max_insns)
 done_generating:
     gen_tb_end(tb, num_insns);
 
-    tb->size = (ctx.npc - pc_start) * 2;
+    tb->size = (ctx->npc - pc_start) * 2;
     tb->icount = num_insns;
 
 #ifdef DEBUG_DISAS
-- 
2.25.1

Tested-by: Michael Rolnik <mrolnik@gmail.com>
Reviewed-by: Michael Rolnik <mrolnik@gmail.com>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 target/avr/translate.c | 234 ++++++++++++++++++++++-------------------
 1 file changed, 128 insertions(+), 106 deletions(-)

diff --git a/target/avr/translate.c b/target/avr/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/avr/translate.c
+++ b/target/avr/translate.c
@@ -XXX,XX +XXX,XX @@ static bool canonicalize_skip(DisasContext *ctx)
     return true;
 }
 
-void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int max_insns)
+static void gen_breakpoint(DisasContext *ctx)
 {
+    canonicalize_skip(ctx);
+    tcg_gen_movi_tl(cpu_pc, ctx->npc);
+    gen_helper_debug(cpu_env);
+    ctx->base.is_jmp = DISAS_NORETURN;
+}
+
+static void avr_tr_init_disas_context(DisasContextBase *dcbase, CPUState *cs)
+{
+    DisasContext *ctx = container_of(dcbase, DisasContext, base);
     CPUAVRState *env = cs->env_ptr;
-    DisasContext ctx1 = {
-        .base.tb = tb,
-        .base.is_jmp = DISAS_NEXT,
-        .base.pc_first = tb->pc,
-        .base.pc_next = tb->pc,
-        .base.singlestep_enabled = cs->singlestep_enabled,
-        .cs = cs,
-        .env = env,
-        .memidx = 0,
-        .skip_cond = TCG_COND_NEVER,
-    };
-    DisasContext *ctx = &ctx1;
-    target_ulong pc_start = tb->pc / 2;
-    int num_insns = 0;
+    uint32_t tb_flags = ctx->base.tb->flags;
 
-    if (tb->flags & TB_FLAGS_FULL_ACCESS) {
-        /*
-         * This flag is set by ST/LD instruction we will regenerate it ONLY
-         * with mem/cpu memory access instead of mem access
-         */
-        max_insns = 1;
-    }
-    if (ctx->base.singlestep_enabled) {
-        max_insns = 1;
-    }
+    ctx->cs = cs;
+    ctx->env = env;
+    ctx->npc = ctx->base.pc_first / 2;
 
-    gen_tb_start(tb);
-
-    ctx->npc = pc_start;
-    if (tb->flags & TB_FLAGS_SKIP) {
+    ctx->skip_cond = TCG_COND_NEVER;
+    if (tb_flags & TB_FLAGS_SKIP) {
         ctx->skip_cond = TCG_COND_ALWAYS;
         ctx->skip_var0 = cpu_skip;
     }
 
-    do {
-        TCGLabel *skip_label = NULL;
-
-        /* translate current instruction */
-        tcg_gen_insn_start(ctx->npc);
-        num_insns++;
-
+    if (tb_flags & TB_FLAGS_FULL_ACCESS) {
         /*
-         * this is due to some strange GDB behavior
-         * let's assume main has address 0x100
-         * b main   - sets breakpoint at address 0x00000100 (code)
-         * b *0x100 - sets breakpoint at address 0x00800100 (data)
+         * This flag is set by ST/LD instruction we will regenerate it ONLY
+         * with mem/cpu memory access instead of mem access
          */
-        if (unlikely(!ctx->base.singlestep_enabled &&
-            (cpu_breakpoint_test(cs, OFFSET_CODE + ctx->npc * 2, BP_ANY) ||
-             cpu_breakpoint_test(cs, OFFSET_DATA + ctx->npc * 2, BP_ANY)))) {
-            canonicalize_skip(ctx);
-            tcg_gen_movi_tl(cpu_pc, ctx->npc);
-            gen_helper_debug(cpu_env);
-            goto done_generating;
-        }
+        ctx->base.max_insns = 1;
+    }
+}
 
-        /* Conditionally skip the next instruction, if indicated.  */
-        if (ctx->skip_cond != TCG_COND_NEVER) {
-            skip_label = gen_new_label();
-            if (ctx->skip_var0 == cpu_skip) {
-                /*
-                 * Copy cpu_skip so that we may zero it before the branch.
-                 * This ensures that cpu_skip is non-zero after the label
-                 * if and only if the skipped insn itself sets a skip.
-                 */
-                ctx->free_skip_var0 = true;
-                ctx->skip_var0 = tcg_temp_new();
-                tcg_gen_mov_tl(ctx->skip_var0, cpu_skip);
-                tcg_gen_movi_tl(cpu_skip, 0);
-            }
-            if (ctx->skip_var1 == NULL) {
-                tcg_gen_brcondi_tl(ctx->skip_cond, ctx->skip_var0,
-                                   0, skip_label);
-            } else {
-                tcg_gen_brcond_tl(ctx->skip_cond, ctx->skip_var0,
-                                  ctx->skip_var1, skip_label);
-                ctx->skip_var1 = NULL;
-            }
-            if (ctx->free_skip_var0) {
-                tcg_temp_free(ctx->skip_var0);
-                ctx->free_skip_var0 = false;
-            }
-            ctx->skip_cond = TCG_COND_NEVER;
-            ctx->skip_var0 = NULL;
-        }
+static void avr_tr_tb_start(DisasContextBase *db, CPUState *cs)
+{
+}
 
-        translate(ctx);
+static void avr_tr_insn_start(DisasContextBase *dcbase, CPUState *cs)
+{
+    DisasContext *ctx = container_of(dcbase, DisasContext, base);
 
-        if (skip_label) {
-            canonicalize_skip(ctx);
-            gen_set_label(skip_label);
-            if (ctx->base.is_jmp == DISAS_NORETURN) {
-                ctx->base.is_jmp = DISAS_CHAIN;
-            }
-        }
-    } while (ctx->base.is_jmp == DISAS_NEXT
-             && num_insns < max_insns
-             && (ctx->npc - pc_start) * 2 < TARGET_PAGE_SIZE - 4
-             && !tcg_op_buf_full());
+    tcg_gen_insn_start(ctx->npc);
+}
 
-    if (tb->cflags & CF_LAST_IO) {
-        gen_io_end();
+static bool avr_tr_breakpoint_check(DisasContextBase *dcbase, CPUState *cs,
+                                    const CPUBreakpoint *bp)
+{
+    DisasContext *ctx = container_of(dcbase, DisasContext, base);
+
+    gen_breakpoint(ctx);
+    return true;
+}
+
+static void avr_tr_translate_insn(DisasContextBase *dcbase, CPUState *cs)
+{
+    DisasContext *ctx = container_of(dcbase, DisasContext, base);
+    TCGLabel *skip_label = NULL;
+
+    /*
+     * This is due to some strange GDB behavior
+     * Let's assume main has address 0x100:
+     * b main   - sets breakpoint at address 0x00000100 (code)
+     * b *0x100 - sets breakpoint at address 0x00800100 (data)
+     *
+     * The translator driver has already taken care of the code pointer.
+     */
+    if (!ctx->base.singlestep_enabled &&
+        cpu_breakpoint_test(cs, OFFSET_DATA + ctx->base.pc_next, BP_ANY)) {
+        gen_breakpoint(ctx);
+        return;
     }
 
+    /* Conditionally skip the next instruction, if indicated.  */
+    if (ctx->skip_cond != TCG_COND_NEVER) {
+        skip_label = gen_new_label();
+        if (ctx->skip_var0 == cpu_skip) {
+            /*
+             * Copy cpu_skip so that we may zero it before the branch.
+             * This ensures that cpu_skip is non-zero after the label
+             * if and only if the skipped insn itself sets a skip.
+             */
+            ctx->free_skip_var0 = true;
+            ctx->skip_var0 = tcg_temp_new();
+            tcg_gen_mov_tl(ctx->skip_var0, cpu_skip);
+            tcg_gen_movi_tl(cpu_skip, 0);
+        }
+        if (ctx->skip_var1 == NULL) {
+            tcg_gen_brcondi_tl(ctx->skip_cond, ctx->skip_var0, 0, skip_label);
+        } else {
+            tcg_gen_brcond_tl(ctx->skip_cond, ctx->skip_var0,
+                              ctx->skip_var1, skip_label);
+            ctx->skip_var1 = NULL;
+        }
+        if (ctx->free_skip_var0) {
+            tcg_temp_free(ctx->skip_var0);
+            ctx->free_skip_var0 = false;
+        }
+        ctx->skip_cond = TCG_COND_NEVER;
+        ctx->skip_var0 = NULL;
+    }
+
+    translate(ctx);
+
+    ctx->base.pc_next = ctx->npc * 2;
+
+    if (skip_label) {
+        canonicalize_skip(ctx);
+        gen_set_label(skip_label);
+        if (ctx->base.is_jmp == DISAS_NORETURN) {
+            ctx->base.is_jmp = DISAS_CHAIN;
+        }
+    }
+
+    if (ctx->base.is_jmp == DISAS_NEXT) {
+        target_ulong page_first = ctx->base.pc_first & TARGET_PAGE_MASK;
+
+        if ((ctx->base.pc_next - page_first) >= TARGET_PAGE_SIZE - 4) {
+            ctx->base.is_jmp = DISAS_TOO_MANY;
+        }
+    }
+}
+
+static void avr_tr_tb_stop(DisasContextBase *dcbase, CPUState *cs)
+{
+    DisasContext *ctx = container_of(dcbase, DisasContext, base);
     bool nonconst_skip = canonicalize_skip(ctx);
 
     switch (ctx->base.is_jmp) {
@@ -XXX,XX +XXX,XX @@ void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int max_insns)
     default:
         g_assert_not_reached();
     }
+}
 
-done_generating:
-    gen_tb_end(tb, num_insns);
+static void avr_tr_disas_log(const DisasContextBase *dcbase, CPUState *cs)
+{
+    qemu_log("IN: %s\n", lookup_symbol(dcbase->pc_first));
+    log_target_disas(cs, dcbase->pc_first, dcbase->tb->size);
+}
 
-    tb->size = (ctx->npc - pc_start) * 2;
-    tb->icount = num_insns;
+static const TranslatorOps avr_tr_ops = {
+    .init_disas_context = avr_tr_init_disas_context,
+    .tb_start           = avr_tr_tb_start,
+    .insn_start         = avr_tr_insn_start,
+    .breakpoint_check   = avr_tr_breakpoint_check,
+    .translate_insn     = avr_tr_translate_insn,
+    .tb_stop            = avr_tr_tb_stop,
+    .disas_log          = avr_tr_disas_log,
+};
 
-#ifdef DEBUG_DISAS
-    if (qemu_loglevel_mask(CPU_LOG_TB_IN_ASM)
-        && qemu_log_in_addr_range(tb->pc)) {
-        FILE *fd;
-        fd = qemu_log_lock();
-        qemu_log("IN: %s\n", lookup_symbol(tb->pc));
-        log_target_disas(cs, tb->pc, tb->size);
-        qemu_log("\n");
-        qemu_log_unlock(fd);
-    }
-#endif
+void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int max_insns)
+{
+    DisasContext dc = { };
+    translator_loop(&avr_tr_ops, &dc.base, cs, tb, max_insns);
 }
 
 void restore_state_to_opc(CPUAVRState *env, TranslationBlock *tb,
-- 
2.25.1

Migrate the is_jmp, tb and singlestep_enabled fields
from DisasContext into the base.

Reviewed-by: Edgar E. Iglesias <edgar.iglesias@xilinx.com>
Tested-by: Edgar E. Iglesias <edgar.iglesias@xilinx.com>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 target/cris/translate.c         | 49 +++++++++++++++++----------------
 target/cris/translate_v10.c.inc |  4 +--
 2 files changed, 27 insertions(+), 26 deletions(-)

diff --git a/target/cris/translate.c b/target/cris/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/cris/translate.c
+++ b/target/cris/translate.c
@@ -XXX,XX +XXX,XX @@ static TCGv env_pc;
 
 /* This is the state at translation time.  */
 typedef struct DisasContext {
+    DisasContextBase base;
+
     CRISCPU *cpu;
     target_ulong pc, ppc;
 
@@ -XXX,XX +XXX,XX @@ typedef struct DisasContext {
     int clear_locked_irq; /* Clear the irq lockout.  */
     int cpustate_changed;
     unsigned int tb_flags; /* tb dependent flags.  */
-    int is_jmp;
 
 #define JMP_NOJMP     0
 #define JMP_DIRECT    1
@@ -XXX,XX +XXX,XX @@ typedef struct DisasContext {
     uint32_t jmp_pc;
 
     int delayed_branch;
-
-    TranslationBlock *tb;
-    int singlestep_enabled;
 } DisasContext;
 
 static void gen_BUG(DisasContext *dc, const char *file, int line)
@@ -XXX,XX +XXX,XX @@ static void t_gen_cc_jmp(TCGv pc_true, TCGv pc_false)
 static inline bool use_goto_tb(DisasContext *dc, target_ulong dest)
 {
 #ifndef CONFIG_USER_ONLY
-    return (dc->tb->pc & TARGET_PAGE_MASK) == (dest & TARGET_PAGE_MASK) ||
+    return (dc->base.pc_first & TARGET_PAGE_MASK) == (dest & TARGET_PAGE_MASK) ||
            (dc->ppc & TARGET_PAGE_MASK) == (dest & TARGET_PAGE_MASK);
 #else
     return true;
@@ -XXX,XX +XXX,XX @@ static void gen_goto_tb(DisasContext *dc, int n, target_ulong dest)
     if (use_goto_tb(dc, dest)) {
         tcg_gen_goto_tb(n);
         tcg_gen_movi_tl(env_pc, dest);
-        tcg_gen_exit_tb(dc->tb, n);
+        tcg_gen_exit_tb(dc->base.tb, n);
     } else {
         tcg_gen_movi_tl(env_pc, dest);
         tcg_gen_exit_tb(NULL, 0);
@@ -XXX,XX +XXX,XX @@ static int dec_setclrf(CPUCRISState *env, DisasContext *dc)
     /* Break the TB if any of the SPI flag changes.  */
     if (flags & (P_FLAG | S_FLAG)) {
         tcg_gen_movi_tl(env_pc, dc->pc + 2);
-        dc->is_jmp = DISAS_UPDATE;
+        dc->base.is_jmp = DISAS_UPDATE;
         dc->cpustate_changed = 1;
     }
 
     /* For the I flag, only act on posedge.  */
     if ((flags & I_FLAG)) {
         tcg_gen_movi_tl(env_pc, dc->pc + 2);
-        dc->is_jmp = DISAS_UPDATE;
+        dc->base.is_jmp = DISAS_UPDATE;
         dc->cpustate_changed = 1;
     }
 
@@ -XXX,XX +XXX,XX @@ static int dec_rfe_etc(CPUCRISState *env, DisasContext *dc)
         LOG_DIS("rfe\n");
         cris_evaluate_flags(dc);
         gen_helper_rfe(cpu_env);
-        dc->is_jmp = DISAS_UPDATE;
+        dc->base.is_jmp = DISAS_UPDATE;
         break;
     case 5:
         /* rfn.  */
         LOG_DIS("rfn\n");
         cris_evaluate_flags(dc);
         gen_helper_rfn(cpu_env);
-        dc->is_jmp = DISAS_UPDATE;
+        dc->base.is_jmp = DISAS_UPDATE;
         break;
     case 6:
         LOG_DIS("break %d\n", dc->op1);
@@ -XXX,XX +XXX,XX @@ static int dec_rfe_etc(CPUCRISState *env, DisasContext *dc)
         /* Breaks start at 16 in the exception vector.  */
         t_gen_movi_env_TN(trap_vector, dc->op1 + 16);
         t_gen_raise_exception(EXCP_BREAK);
-        dc->is_jmp = DISAS_UPDATE;
+        dc->base.is_jmp = DISAS_UPDATE;
         break;
     default:
         printf("op2=%x\n", dc->op2);
@@ -XXX,XX +XXX,XX @@ void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int max_insns)
      * delayslot, like in real hw.
      */
     pc_start = tb->pc & ~1;
-    dc->cpu = env_archcpu(env);
-    dc->tb = tb;
 
-    dc->is_jmp = DISAS_NEXT;
+    dc->base.tb = tb;
+    dc->base.pc_first = pc_start;
+    dc->base.pc_next = pc_start;
+    dc->base.is_jmp = DISAS_NEXT;
+    dc->base.singlestep_enabled = cs->singlestep_enabled;
+
+    dc->cpu = env_archcpu(env);
     dc->ppc = pc_start;
     dc->pc = pc_start;
-    dc->singlestep_enabled = cs->singlestep_enabled;
     dc->flags_uptodate = 1;
     dc->flagx_known = 1;
     dc->flags_x = tb->flags & X_FLAG;
@@ -XXX,XX +XXX,XX @@ void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int max_insns)
             cris_evaluate_flags(dc);
             tcg_gen_movi_tl(env_pc, dc->pc);
             t_gen_raise_exception(EXCP_DEBUG);
-            dc->is_jmp = DISAS_UPDATE;
+            dc->base.is_jmp = DISAS_UPDATE;
             /* The address covered by the breakpoint must be included in
                [tb->pc, tb->pc + tb->size) in order to for it to be
                properly cleared -- thus we increment the PC here so that
@@ -XXX,XX +XXX,XX @@ void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int max_insns)
                     gen_goto_tb(dc, 1, dc->jmp_pc);
                     gen_set_label(l1);
                     gen_goto_tb(dc, 0, dc->pc);
-                    dc->is_jmp = DISAS_TB_JUMP;
+                    dc->base.is_jmp = DISAS_TB_JUMP;
                     dc->jmp = JMP_NOJMP;
                 } else if (dc->jmp == JMP_DIRECT) {
                     cris_evaluate_flags(dc);
                     gen_goto_tb(dc, 0, dc->jmp_pc);
-                    dc->is_jmp = DISAS_TB_JUMP;
+                    dc->base.is_jmp = DISAS_TB_JUMP;
                     dc->jmp = JMP_NOJMP;
                 } else {
                     TCGv c = tcg_const_tl(dc->pc);
                     t_gen_cc_jmp(env_btarget, c);
                     tcg_temp_free(c);
-                    dc->is_jmp = DISAS_JUMP;
+                    dc->base.is_jmp = DISAS_JUMP;
                 }
                 break;
             }
@@ -XXX,XX +XXX,XX @@ void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int max_insns)
         if (!(tb->pc & 1) && cs->singlestep_enabled) {
             break;
         }
-    } while (!dc->is_jmp && !dc->cpustate_changed
+    } while (!dc->base.is_jmp && !dc->cpustate_changed
             && !tcg_op_buf_full()
             && !singlestep
             && (dc->pc - page_start < TARGET_PAGE_SIZE)
@@ -XXX,XX +XXX,XX @@ void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int max_insns)
     npc = dc->pc;
 
     /* Force an update if the per-tb cpu state has changed.  */
-    if (dc->is_jmp == DISAS_NEXT
+    if (dc->base.is_jmp == DISAS_NEXT
         && (dc->cpustate_changed || !dc->flagx_known
         || (dc->flags_x != (tb->flags & X_FLAG)))) {
-        dc->is_jmp = DISAS_UPDATE;
+        dc->base.is_jmp = DISAS_UPDATE;
         tcg_gen_movi_tl(env_pc, npc);
     }
     /* Broken branch+delayslot sequence.  */
@@ -XXX,XX +XXX,XX @@ void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int max_insns)
     cris_evaluate_flags(dc);
 
     if (unlikely(cs->singlestep_enabled)) {
-        if (dc->is_jmp == DISAS_NEXT) {
+        if (dc->base.is_jmp == DISAS_NEXT) {
             tcg_gen_movi_tl(env_pc, npc);
         }
         t_gen_raise_exception(EXCP_DEBUG);
     } else {
-        switch (dc->is_jmp) {
+        switch (dc->base.is_jmp) {
         case DISAS_NEXT:
             gen_goto_tb(dc, 1, npc);
             break;
diff --git a/target/cris/translate_v10.c.inc b/target/cris/translate_v10.c.inc
index XXXXXXX..XXXXXXX 100644
--- a/target/cris/translate_v10.c.inc
+++ b/target/cris/translate_v10.c.inc
@@ -XXX,XX +XXX,XX @@ static unsigned int dec10_ind(CPUCRISState *env, DisasContext *dc)
                     t_gen_mov_env_TN(trap_vector, c);
                     tcg_temp_free(c);
                     t_gen_raise_exception(EXCP_BREAK);
-                    dc->is_jmp = DISAS_UPDATE;
+                    dc->base.is_jmp = DISAS_UPDATE;
                     return insn_len;
                 }
                 LOG_DIS("%d: jump.%d %d r%d r%d\n", __LINE__, size,
@@ -XXX,XX +XXX,XX @@ static unsigned int crisv10_decoder(CPUCRISState *env, DisasContext *dc)
     if (dc->clear_prefix && dc->tb_flags & PFIX_FLAG) {
         dc->tb_flags &= ~PFIX_FLAG;
         tcg_gen_andi_tl(cpu_PR[PR_CCS], cpu_PR[PR_CCS], ~PFIX_FLAG);
-        if (dc->tb_flags != dc->tb->flags) {
+        if (dc->tb_flags != dc->base.tb->flags) {
             dc->cpustate_changed = 1;
         }
     }
-- 
2.25.1

This value is unused.

diff --git a/target/cris/translate.c b/target/cris/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/cris/translate.c
+++ b/target/cris/translate.c
@@ -XXX,XX +XXX,XX @@
 #define DISAS_JUMP    DISAS_TARGET_0 /* only pc was modified dynamically */
 #define DISAS_UPDATE  DISAS_TARGET_1 /* cpu state was modified dynamically */
 #define DISAS_TB_JUMP DISAS_TARGET_2 /* only pc was modified statically */
-#define DISAS_SWI     DISAS_TARGET_3
 
 /* Used by the decoder.  */
 #define EXTRACT_FIELD(src, start, end) \
@@ -XXX,XX +XXX,XX @@ void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int max_insns)
                    to find the next TB */
             tcg_gen_exit_tb(NULL, 0);
             break;
-        case DISAS_SWI:
         case DISAS_TB_JUMP:
             /* nothing more to generate */
             break;
-- 
2.25.1

The only semantic of DISAS_TB_JUMP is that we've done goto_tb,
which is the same as DISAS_NORETURN -- we've exited the tb.

Reviewed-by: Edgar E. Iglesias <edgar.iglesias@xilinx.com>
Tested-by: Edgar E. Iglesias <edgar.iglesias@xilinx.com>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 target/cris/translate.c | 7 +++----
 1 file changed, 3 insertions(+), 4 deletions(-)

diff --git a/target/cris/translate.c b/target/cris/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/cris/translate.c
+++ b/target/cris/translate.c
@@ -XXX,XX +XXX,XX @@
 /* is_jmp field values */
 #define DISAS_JUMP    DISAS_TARGET_0 /* only pc was modified dynamically */
 #define DISAS_UPDATE  DISAS_TARGET_1 /* cpu state was modified dynamically */
-#define DISAS_TB_JUMP DISAS_TARGET_2 /* only pc was modified statically */
 
 /* Used by the decoder.  */
 #define EXTRACT_FIELD(src, start, end) \
@@ -XXX,XX +XXX,XX @@ void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int max_insns)
                     gen_goto_tb(dc, 1, dc->jmp_pc);
                     gen_set_label(l1);
                     gen_goto_tb(dc, 0, dc->pc);
-                    dc->base.is_jmp = DISAS_TB_JUMP;
+                    dc->base.is_jmp = DISAS_NORETURN;
                     dc->jmp = JMP_NOJMP;
                 } else if (dc->jmp == JMP_DIRECT) {
                     cris_evaluate_flags(dc);
                     gen_goto_tb(dc, 0, dc->jmp_pc);
-                    dc->base.is_jmp = DISAS_TB_JUMP;
+                    dc->base.is_jmp = DISAS_NORETURN;
                     dc->jmp = JMP_NOJMP;
                 } else {
                     TCGv c = tcg_const_tl(dc->pc);
@@ -XXX,XX +XXX,XX @@ void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int max_insns)
                    to find the next TB */
             tcg_gen_exit_tb(NULL, 0);
             break;
-        case DISAS_TB_JUMP:
+        case DISAS_NORETURN:
             /* nothing more to generate */
             break;
         }
-- 
2.25.1

After we've raised the exception, we have left the TB.

Reviewed-by: Edgar E. Iglesias <edgar.iglesias@xilinx.com>
Tested-by: Edgar E. Iglesias <edgar.iglesias@xilinx.com>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 target/cris/translate.c         | 5 +++--
 target/cris/translate_v10.c.inc | 3 ++-
 2 files changed, 5 insertions(+), 3 deletions(-)

diff --git a/target/cris/translate.c b/target/cris/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/cris/translate.c
+++ b/target/cris/translate.c
@@ -XXX,XX +XXX,XX @@ static int dec_rfe_etc(CPUCRISState *env, DisasContext *dc)
                        -offsetof(CRISCPU, env) + offsetof(CPUState, halted));
         tcg_gen_movi_tl(env_pc, dc->pc + 2);
         t_gen_raise_exception(EXCP_HLT);
+        dc->base.is_jmp = DISAS_NORETURN;
         return 2;
     }
 
@@ -XXX,XX +XXX,XX @@ static int dec_rfe_etc(CPUCRISState *env, DisasContext *dc)
         /* Breaks start at 16 in the exception vector.  */
         t_gen_movi_env_TN(trap_vector, dc->op1 + 16);
         t_gen_raise_exception(EXCP_BREAK);
-        dc->base.is_jmp = DISAS_UPDATE;
+        dc->base.is_jmp = DISAS_NORETURN;
         break;
     default:
         printf("op2=%x\n", dc->op2);
@@ -XXX,XX +XXX,XX @@ void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int max_insns)
             cris_evaluate_flags(dc);
             tcg_gen_movi_tl(env_pc, dc->pc);
             t_gen_raise_exception(EXCP_DEBUG);
-            dc->base.is_jmp = DISAS_UPDATE;
+            dc->base.is_jmp = DISAS_NORETURN;
             /* The address covered by the breakpoint must be included in
                [tb->pc, tb->pc + tb->size) in order to for it to be
                properly cleared -- thus we increment the PC here so that
diff --git a/target/cris/translate_v10.c.inc b/target/cris/translate_v10.c.inc
index XXXXXXX..XXXXXXX 100644
--- a/target/cris/translate_v10.c.inc
+++ b/target/cris/translate_v10.c.inc
@@ -XXX,XX +XXX,XX @@ static inline void cris_illegal_insn(DisasContext *dc)
 {
     qemu_log_mask(LOG_GUEST_ERROR, "illegal insn at pc=%x\n", dc->pc);
     t_gen_raise_exception(EXCP_BREAK);
+    dc->base.is_jmp = DISAS_NORETURN;
 }
 
 static void gen_store_v10_conditional(DisasContext *dc, TCGv addr, TCGv val,
@@ -XXX,XX +XXX,XX @@ static unsigned int dec10_ind(CPUCRISState *env, DisasContext *dc)
                     t_gen_mov_env_TN(trap_vector, c);
                     tcg_temp_free(c);
                     t_gen_raise_exception(EXCP_BREAK);
-                    dc->base.is_jmp = DISAS_UPDATE;
+                    dc->base.is_jmp = DISAS_NORETURN;
                     return insn_len;
                 }
                 LOG_DIS("%d: jump.%d %d r%d r%d\n", __LINE__, size,
-- 
2.25.1

Do not skip the page check for user-only -- mmap/mprotect can
still change page mappings.  Only check dc->base.pc_first, not
dc->ppc -- the start page is the only one that's relevant.

Reviewed-by: Edgar E. Iglesias <edgar.iglesias@xilinx.com>
Tested-by: Edgar E. Iglesias <edgar.iglesias@xilinx.com>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 target/cris/translate.c | 9 ++-------
 1 file changed, 2 insertions(+), 7 deletions(-)

diff --git a/target/cris/translate.c b/target/cris/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/cris/translate.c
+++ b/target/cris/translate.c
@@ -XXX,XX +XXX,XX @@ static void t_gen_cc_jmp(TCGv pc_true, TCGv pc_false)
     gen_set_label(l1);
 }
 
-static inline bool use_goto_tb(DisasContext *dc, target_ulong dest)
+static bool use_goto_tb(DisasContext *dc, target_ulong dest)
 {
-#ifndef CONFIG_USER_ONLY
-    return (dc->base.pc_first & TARGET_PAGE_MASK) == (dest & TARGET_PAGE_MASK) ||
-           (dc->ppc & TARGET_PAGE_MASK) == (dest & TARGET_PAGE_MASK);
-#else
-    return true;
-#endif
+    return ((dest ^ dc->base.pc_first) & TARGET_PAGE_MASK) == 0;
 }
 
 static void gen_goto_tb(DisasContext *dc, int n, target_ulong dest)
-- 
2.25.1

Reviewed-by: Edgar E. Iglesias <edgar.iglesias@xilinx.com>
Tested-by: Edgar E. Iglesias <edgar.iglesias@xilinx.com>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 target/cris/translate.c | 317 ++++++++++++++++++++++------------------
 1 file changed, 174 insertions(+), 143 deletions(-)

diff --git a/target/cris/translate.c b/target/cris/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/cris/translate.c
+++ b/target/cris/translate.c
@@ -XXX,XX +XXX,XX @@ static unsigned int crisv32_decoder(CPUCRISState *env, DisasContext *dc)
  *
  */
 
-/* generate intermediate code for basic block 'tb'.  */
-void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int max_insns)
+static void cris_tr_init_disas_context(DisasContextBase *dcbase, CPUState *cs)
 {
+    DisasContext *dc = container_of(dcbase, DisasContext, base);
     CPUCRISState *env = cs->env_ptr;
+    uint32_t tb_flags = dc->base.tb->flags;
     uint32_t pc_start;
-    unsigned int insn_len;
-    struct DisasContext ctx;
-    struct DisasContext *dc = &ctx;
-    uint32_t page_start;
-    target_ulong npc;
-    int num_insns;
 
     if (env->pregs[PR_VR] == 32) {
         dc->decoder = crisv32_decoder;
@@ -XXX,XX +XXX,XX @@ void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int max_insns)
         dc->clear_locked_irq = 1;
     }
 
-    /* Odd PC indicates that branch is rexecuting due to exception in the
+    /*
+     * Odd PC indicates that branch is rexecuting due to exception in the
      * delayslot, like in real hw.
      */
-    pc_start = tb->pc & ~1;
-
-    dc->base.tb = tb;
+    pc_start = dc->base.pc_first & ~1;
     dc->base.pc_first = pc_start;
     dc->base.pc_next = pc_start;
-    dc->base.is_jmp = DISAS_NEXT;
-    dc->base.singlestep_enabled = cs->singlestep_enabled;
 
     dc->cpu = env_archcpu(env);
     dc->ppc = pc_start;
     dc->pc = pc_start;
     dc->flags_uptodate = 1;
     dc->flagx_known = 1;
-    dc->flags_x = tb->flags & X_FLAG;
+    dc->flags_x = tb_flags & X_FLAG;
     dc->cc_x_uptodate = 0;
     dc->cc_mask = 0;
     dc->update_cc = 0;
     dc->clear_prefix = 0;
+    dc->cpustate_changed = 0;
 
     cris_update_cc_op(dc, CC_OP_FLAGS, 4);
     dc->cc_size_uptodate = -1;
 
     /* Decode TB flags.  */
-    dc->tb_flags = tb->flags & (S_FLAG | P_FLAG | U_FLAG \
-            | X_FLAG | PFIX_FLAG);
-    dc->delayed_branch = !!(tb->flags & 7);
+    dc->tb_flags = tb_flags & (S_FLAG | P_FLAG | U_FLAG | X_FLAG | PFIX_FLAG);
+    dc->delayed_branch = !!(tb_flags & 7);
     if (dc->delayed_branch) {
         dc->jmp = JMP_INDIRECT;
     } else {
         dc->jmp = JMP_NOJMP;
     }
+}
 
-    dc->cpustate_changed = 0;
+static void cris_tr_tb_start(DisasContextBase *db, CPUState *cpu)
+{
+}
 
-    page_start = pc_start & TARGET_PAGE_MASK;
-    num_insns = 0;
+static void cris_tr_insn_start(DisasContextBase *dcbase, CPUState *cpu)
+{
+    DisasContext *dc = container_of(dcbase, DisasContext, base);
 
-    gen_tb_start(tb);
-    do {
-        tcg_gen_insn_start(dc->delayed_branch == 1
-                           ? dc->ppc | 1 : dc->pc);
-        num_insns++;
+    tcg_gen_insn_start(dc->delayed_branch == 1 ? dc->ppc | 1 : dc->pc);
+}
 
-        if (unlikely(cpu_breakpoint_test(cs, dc->pc, BP_ANY))) {
+static bool cris_tr_breakpoint_check(DisasContextBase *dcbase, CPUState *cpu,
+                                     const CPUBreakpoint *bp)
+{
+    DisasContext *dc = container_of(dcbase, DisasContext, base);
+
+    cris_evaluate_flags(dc);
+    tcg_gen_movi_tl(env_pc, dc->pc);
+    t_gen_raise_exception(EXCP_DEBUG);
+    dc->base.is_jmp = DISAS_NORETURN;
+    /*
+     * The address covered by the breakpoint must be included in
+     * [tb->pc, tb->pc + tb->size) in order to for it to be
+     * properly cleared -- thus we increment the PC here so that
+     * the logic setting tb->size below does the right thing.
+     */
+    dc->pc += 2;
+    return true;
+}
+
+static void cris_tr_translate_insn(DisasContextBase *dcbase, CPUState *cs)
+{
+    DisasContext *dc = container_of(dcbase, DisasContext, base);
+    CPUCRISState *env = cs->env_ptr;
+    unsigned int insn_len;
+
+    /* Pretty disas.  */
+    LOG_DIS("%8.8x:\t", dc->pc);
+
+    dc->clear_x = 1;
+
+    insn_len = dc->decoder(env, dc);
+    dc->ppc = dc->pc;
+    dc->pc += insn_len;
+    dc->base.pc_next += insn_len;
+
+    if (dc->base.is_jmp == DISAS_NORETURN) {
+        return;
+    }
+
+    if (dc->clear_x) {
+        cris_clear_x_flag(dc);
+    }
+
+    /*
+     * Check for delayed branches here.  If we do it before
+     * actually generating any host code, the simulator will just
+     * loop doing nothing for on this program location.
+     */
+    if (dc->delayed_branch && --dc->delayed_branch == 0) {
+        if (dc->base.tb->flags & 7) {
+            t_gen_movi_env_TN(dslot, 0);
+        }
+
+        if (dc->cpustate_changed
+            || !dc->flagx_known
+            || (dc->flags_x != (dc->base.tb->flags & X_FLAG))) {
+            cris_store_direct_jmp(dc);
+        }
+
+        if (dc->clear_locked_irq) {
+            dc->clear_locked_irq = 0;
+            t_gen_movi_env_TN(locked_irq, 0);
+        }
+
+        if (dc->jmp == JMP_DIRECT_CC) {
+            TCGLabel *l1 = gen_new_label();
             cris_evaluate_flags(dc);
-            tcg_gen_movi_tl(env_pc, dc->pc);
-            t_gen_raise_exception(EXCP_DEBUG);
+
+            /* Conditional jmp.  */
+            tcg_gen_brcondi_tl(TCG_COND_EQ, env_btaken, 0, l1);
+            gen_goto_tb(dc, 1, dc->jmp_pc);
+            gen_set_label(l1);
+            gen_goto_tb(dc, 0, dc->pc);
             dc->base.is_jmp = DISAS_NORETURN;
-            /* The address covered by the breakpoint must be included in
-               [tb->pc, tb->pc + tb->size) in order to for it to be
-               properly cleared -- thus we increment the PC here so that
-               the logic setting tb->size below does the right thing.  */
-            dc->pc += 2;
-            break;
+            dc->jmp = JMP_NOJMP;
+        } else if (dc->jmp == JMP_DIRECT) {
+            cris_evaluate_flags(dc);
+            gen_goto_tb(dc, 0, dc->jmp_pc);
+            dc->base.is_jmp = DISAS_NORETURN;
+            dc->jmp = JMP_NOJMP;
+        } else {
+            TCGv c = tcg_const_tl(dc->pc);
+            t_gen_cc_jmp(env_btarget, c);
+            tcg_temp_free(c);
+            dc->base.is_jmp = DISAS_JUMP;
         }
+    }
 
-        /* Pretty disas.  */
-        LOG_DIS("%8.8x:\t", dc->pc);
+    /* Force an update if the per-tb cpu state has changed.  */
+    if (dc->base.is_jmp == DISAS_NEXT
+        && (dc->cpustate_changed
+            || !dc->flagx_known
+            || (dc->flags_x != (dc->base.tb->flags & X_FLAG)))) {
+        dc->base.is_jmp = DISAS_UPDATE;
+        tcg_gen_movi_tl(env_pc, dc->pc);
+    }
 
-        if (num_insns == max_insns && (tb_cflags(tb) & CF_LAST_IO)) {
-            gen_io_start();
-        }
-        dc->clear_x = 1;
+    /*
+     * FIXME: Only the first insn in the TB should cross a page boundary.
+     * If we can detect the length of the next insn easily, we should.
+     * In the meantime, simply stop when we do cross.
+     */
+    if (dc->base.is_jmp == DISAS_NEXT
+        && ((dc->pc ^ dc->base.pc_first) & TARGET_PAGE_MASK) != 0) {
+        dc->base.is_jmp = DISAS_TOO_MANY;
+    }
+}
 
-        insn_len = dc->decoder(env, dc);
-        dc->ppc = dc->pc;
-        dc->pc += insn_len;
-        if (dc->clear_x) {
-            cris_clear_x_flag(dc);
-        }
+static void cris_tr_tb_stop(DisasContextBase *dcbase, CPUState *cpu)
+{
+    DisasContext *dc = container_of(dcbase, DisasContext, base);
+    DisasJumpType is_jmp = dc->base.is_jmp;
+    target_ulong npc = dc->pc;
 
-        /* Check for delayed branches here. If we do it before
-           actually generating any host code, the simulator will just
-           loop doing nothing for on this program location.  */
-        if (dc->delayed_branch) {
-            dc->delayed_branch--;
-            if (dc->delayed_branch == 0) {
-                if (tb->flags & 7) {
-                    t_gen_movi_env_TN(dslot, 0);
-                }
-                if (dc->cpustate_changed || !dc->flagx_known
-                    || (dc->flags_x != (tb->flags & X_FLAG))) {
-                    cris_store_direct_jmp(dc);
-                }
-
-                if (dc->clear_locked_irq) {
-                    dc->clear_locked_irq = 0;
-                    t_gen_movi_env_TN(locked_irq, 0);
-                }
-
-                if (dc->jmp == JMP_DIRECT_CC) {
-                    TCGLabel *l1 = gen_new_label();
-                    cris_evaluate_flags(dc);
-
-                    /* Conditional jmp.  */
-                    tcg_gen_brcondi_tl(TCG_COND_EQ,
-                               env_btaken, 0, l1);
-                    gen_goto_tb(dc, 1, dc->jmp_pc);
-                    gen_set_label(l1);
-                    gen_goto_tb(dc, 0, dc->pc);
-                    dc->base.is_jmp = DISAS_NORETURN;
-                    dc->jmp = JMP_NOJMP;
-                } else if (dc->jmp == JMP_DIRECT) {
-                    cris_evaluate_flags(dc);
-                    gen_goto_tb(dc, 0, dc->jmp_pc);
-                    dc->base.is_jmp = DISAS_NORETURN;
-                    dc->jmp = JMP_NOJMP;
-                } else {
-                    TCGv c = tcg_const_tl(dc->pc);
-                    t_gen_cc_jmp(env_btarget, c);
-                    tcg_temp_free(c);
-                    dc->base.is_jmp = DISAS_JUMP;
-                }
-                break;
-            }
-        }
-
-        /* If we are rexecuting a branch due to exceptions on
-           delay slots don't break.  */
-        if (!(tb->pc & 1) && cs->singlestep_enabled) {
-            break;
-        }
-    } while (!dc->base.is_jmp && !dc->cpustate_changed
-            && !tcg_op_buf_full()
-            && !singlestep
-            && (dc->pc - page_start < TARGET_PAGE_SIZE)
-            && num_insns < max_insns);
+    if (is_jmp == DISAS_NORETURN) {
+        /* If we have a broken branch+delayslot sequence, it's too late. */
+        assert(dc->delayed_branch != 1);
+        return;
+    }
 
     if (dc->clear_locked_irq) {
         t_gen_movi_env_TN(locked_irq, 0);
     }
 
-    npc = dc->pc;
-
-    /* Force an update if the per-tb cpu state has changed.  */
-    if (dc->base.is_jmp == DISAS_NEXT
-        && (dc->cpustate_changed || !dc->flagx_known
-        || (dc->flags_x != (tb->flags & X_FLAG)))) {
-        dc->base.is_jmp = DISAS_UPDATE;
-        tcg_gen_movi_tl(env_pc, npc);
-    }
     /* Broken branch+delayslot sequence.  */
     if (dc->delayed_branch == 1) {
         /* Set env->dslot to the size of the branch insn.  */
@@ -XXX,XX +XXX,XX @@ void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int max_insns)
 
     cris_evaluate_flags(dc);
 
-    if (unlikely(cs->singlestep_enabled)) {
-        if (dc->base.is_jmp == DISAS_NEXT) {
+    if (unlikely(dc->base.singlestep_enabled)) {
+        switch (is_jmp) {
+        case DISAS_TOO_MANY:
             tcg_gen_movi_tl(env_pc, npc);
-        }
-        t_gen_raise_exception(EXCP_DEBUG);
-    } else {
-        switch (dc->base.is_jmp) {
-        case DISAS_NEXT:
-            gen_goto_tb(dc, 1, npc);
-            break;
-        default:
+            /* fall through */
         case DISAS_JUMP:
         case DISAS_UPDATE:
-            /* indicate that the hash table must be used
-                   to find the next TB */
-            tcg_gen_exit_tb(NULL, 0);
-            break;
-        case DISAS_NORETURN:
-            /* nothing more to generate */
+            t_gen_raise_exception(EXCP_DEBUG);
+            return;
+        default:
             break;
         }
+        g_assert_not_reached();
     }
-    gen_tb_end(tb, num_insns);
 
-    tb->size = dc->pc - pc_start;
-    tb->icount = num_insns;
-
-#ifdef DEBUG_DISAS
-#if !DISAS_CRIS
-    if (qemu_loglevel_mask(CPU_LOG_TB_IN_ASM)
-        && qemu_log_in_addr_range(pc_start)) {
-        FILE *logfile = qemu_log_lock();
-        qemu_log("--------------\n");
-        qemu_log("IN: %s\n", lookup_symbol(pc_start));
-        log_target_disas(cs, pc_start, dc->pc - pc_start);
-        qemu_log_unlock(logfile);
+    switch (is_jmp) {
+    case DISAS_TOO_MANY:
+        gen_goto_tb(dc, 0, npc);
+        break;
+    case DISAS_JUMP:
+    case DISAS_UPDATE:
+        /* Indicate that interupts must be re-evaluated before the next TB. */
+        tcg_gen_exit_tb(NULL, 0);
+        break;
+    default:
+        g_assert_not_reached();
     }
-#endif
-#endif
+}
+
+static void cris_tr_disas_log(const DisasContextBase *dcbase, CPUState *cpu)
+{
+    if (!DISAS_CRIS) {
+        qemu_log("IN: %s\n", lookup_symbol(dcbase->pc_first));
+        log_target_disas(cpu, dcbase->pc_first, dcbase->tb->size);
+    }
+}
+
+static const TranslatorOps cris_tr_ops = {
+    .init_disas_context = cris_tr_init_disas_context,
+    .tb_start           = cris_tr_tb_start,
+    .insn_start         = cris_tr_insn_start,
+    .breakpoint_check   = cris_tr_breakpoint_check,
+    .translate_insn     = cris_tr_translate_insn,
+    .tb_stop            = cris_tr_tb_stop,
+    .disas_log          = cris_tr_disas_log,
+};
+
+void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int max_insns)
+{
+    DisasContext dc;
+    translator_loop(&cris_tr_ops, &dc.base, cs, tb, max_insns);
 }
 
 void cris_cpu_dump_state(CPUState *cs, FILE *f, int flags)
-- 
2.25.1

Reviewed-by: Edgar E. Iglesias <edgar.iglesias@xilinx.com>
Tested-by: Edgar E. Iglesias <edgar.iglesias@xilinx.com>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 target/cris/translate.c         | 19 ++++++++++---------
 target/cris/translate_v10.c.inc |  6 +++---
 2 files changed, 13 insertions(+), 12 deletions(-)

diff --git a/target/cris/translate.c b/target/cris/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/cris/translate.c
+++ b/target/cris/translate.c
@@ -XXX,XX +XXX,XX @@ static void gen_BUG(DisasContext *dc, const char *file, int line)
     cpu_abort(CPU(dc->cpu), "%s:%d pc=%x\n", file, line, dc->pc);
 }
 
-static const char *regnames_v32[] =
+static const char * const regnames_v32[] =
 {
     "$r0", "$r1", "$r2", "$r3",
     "$r4", "$r5", "$r6", "$r7",
     "$r8", "$r9", "$r10", "$r11",
     "$r12", "$r13", "$sp", "$acr",
 };
-static const char *pregnames_v32[] =
+
+static const char * const pregnames_v32[] =
 {
     "$bz", "$vr", "$pid", "$srs",
     "$wz", "$exs", "$eda", "$mof",
@@ -XXX,XX +XXX,XX @@ static const char *pregnames_v32[] =
 };
 
 /* We need this table to handle preg-moves with implicit width.  */
-static int preg_sizes[] = {
+static const int preg_sizes[] = {
     1, /* bz.  */
     1, /* vr.  */
     4, /* pid.  */
@@ -XXX,XX +XXX,XX @@ static inline void t_gen_swapw(TCGv d, TCGv s)
    ((T0 >> 5) & 0x02020202) |
    ((T0 >> 7) & 0x01010101));
  */
-static inline void t_gen_swapr(TCGv d, TCGv s)
+static void t_gen_swapr(TCGv d, TCGv s)
 {
-    struct {
+    static const struct {
         int shift; /* LSL when positive, LSR when negative.  */
         uint32_t mask;
     } bitrev[] = {
@@ -XXX,XX +XXX,XX @@ static int dec_prep_alu_m(CPUCRISState *env, DisasContext *dc,
 #if DISAS_CRIS
 static const char *cc_name(int cc)
 {
-    static const char *cc_names[16] = {
+    static const char * const cc_names[16] = {
         "cc", "cs", "ne", "eq", "vc", "vs", "pl", "mi",
         "ls", "hi", "ge", "lt", "gt", "le", "a", "p"
     };
@@ -XXX,XX +XXX,XX @@ static int dec_null(CPUCRISState *env, DisasContext *dc)
     return 2;
 }
 
-static struct decoder_info {
+static const struct decoder_info {
     struct {
         uint32_t bits;
         uint32_t mask;
@@ -XXX,XX +XXX,XX @@ void cris_cpu_dump_state(CPUState *cs, FILE *f, int flags)
 {
     CRISCPU *cpu = CRIS_CPU(cs);
     CPUCRISState *env = &cpu->env;
-    const char **regnames;
-    const char **pregnames;
+    const char * const *regnames;
+    const char * const *pregnames;
     int i;
 
     if (!env) {
diff --git a/target/cris/translate_v10.c.inc b/target/cris/translate_v10.c.inc
index XXXXXXX..XXXXXXX 100644
--- a/target/cris/translate_v10.c.inc
+++ b/target/cris/translate_v10.c.inc
@@ -XXX,XX +XXX,XX @@
 #include "qemu/osdep.h"
 #include "crisv10-decode.h"
 
-static const char *regnames_v10[] =
+static const char * const regnames_v10[] =
 {
     "$r0", "$r1", "$r2", "$r3",
     "$r4", "$r5", "$r6", "$r7",
@@ -XXX,XX +XXX,XX @@ static const char *regnames_v10[] =
     "$r12", "$r13", "$sp", "$pc",
 };
 
-static const char *pregnames_v10[] =
+static const char * const pregnames_v10[] =
 {
     "$bz", "$vr", "$p2", "$p3",
     "$wz", "$ccr", "$p6-prefix", "$mof",
@@ -XXX,XX +XXX,XX @@ static const char *pregnames_v10[] =
 };
 
 /* We need this table to handle preg-moves with implicit width.  */
-static int preg_sizes_v10[] = {
+static const int preg_sizes_v10[] = {
     1, /* bz.  */
     1, /* vr.  */
     1, /* pid. */
-- 
2.25.1

We really do this already, by including them into the same test.
This just hoists the expression up a bit.

Reviewed-by: Edgar E. Iglesias <edgar.iglesias@xilinx.com>
Tested-by: Edgar E. Iglesias <edgar.iglesias@xilinx.com>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 target/cris/translate.c | 13 ++++++-------
 1 file changed, 6 insertions(+), 7 deletions(-)

diff --git a/target/cris/translate.c b/target/cris/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/cris/translate.c
+++ b/target/cris/translate.c
@@ -XXX,XX +XXX,XX @@ static void cris_tr_translate_insn(DisasContextBase *dcbase, CPUState *cs)
         cris_clear_x_flag(dc);
     }
 
+    /* Fold unhandled changes to X_FLAG into cpustate_changed. */
+    dc->cpustate_changed |= !dc->flagx_known;
+    dc->cpustate_changed |= dc->flags_x != (dc->base.tb->flags & X_FLAG);
+
     /*
      * Check for delayed branches here.  If we do it before
      * actually generating any host code, the simulator will just
@@ -XXX,XX +XXX,XX @@ static void cris_tr_translate_insn(DisasContextBase *dcbase, CPUState *cs)
             t_gen_movi_env_TN(dslot, 0);
         }
 
-        if (dc->cpustate_changed
-            || !dc->flagx_known
-            || (dc->flags_x != (dc->base.tb->flags & X_FLAG))) {
+        if (dc->cpustate_changed) {
             cris_store_direct_jmp(dc);
         }
 
@@ -XXX,XX +XXX,XX @@ static void cris_tr_translate_insn(DisasContextBase *dcbase, CPUState *cs)
     }
 
     /* Force an update if the per-tb cpu state has changed.  */
-    if (dc->base.is_jmp == DISAS_NEXT
-        && (dc->cpustate_changed
-            || !dc->flagx_known
-            || (dc->flags_x != (dc->base.tb->flags & X_FLAG)))) {
+    if (dc->base.is_jmp == DISAS_NEXT && dc->cpustate_changed) {
         dc->base.is_jmp = DISAS_UPDATE;
         tcg_gen_movi_tl(env_pc, dc->pc);
     }
-- 
2.25.1

These insns set DISAS_UPDATE without cpustate_changed,
which isn't quite right.

diff --git a/target/cris/translate.c b/target/cris/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/cris/translate.c
+++ b/target/cris/translate.c
@@ -XXX,XX +XXX,XX @@ static int dec_rfe_etc(CPUCRISState *env, DisasContext *dc)
         cris_evaluate_flags(dc);
         gen_helper_rfe(cpu_env);
         dc->base.is_jmp = DISAS_UPDATE;
+        dc->cpustate_changed = true;
         break;
     case 5:
         /* rfn.  */
@@ -XXX,XX +XXX,XX @@ static int dec_rfe_etc(CPUCRISState *env, DisasContext *dc)
         cris_evaluate_flags(dc);
         gen_helper_rfn(cpu_env);
         dc->base.is_jmp = DISAS_UPDATE;
+        dc->cpustate_changed = true;
         break;
     case 6:
         LOG_DIS("break %d\n", dc->op1);
-- 
2.25.1

Move this pc update into tb_stop.
We will be able to re-use this code shortly.

Reviewed-by: Edgar E. Iglesias <edgar.iglesias@xilinx.com>
Tested-by: Edgar E. Iglesias <edgar.iglesias@xilinx.com>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 target/cris/translate.c | 20 +++++++++++++++-----
 1 file changed, 15 insertions(+), 5 deletions(-)

diff --git a/target/cris/translate.c b/target/cris/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/cris/translate.c
+++ b/target/cris/translate.c
@@ -XXX,XX +XXX,XX @@
 #define BUG() (gen_BUG(dc, __FILE__, __LINE__))
 #define BUG_ON(x) ({if (x) BUG();})
 
-/* is_jmp field values */
-#define DISAS_JUMP    DISAS_TARGET_0 /* only pc was modified dynamically */
-#define DISAS_UPDATE  DISAS_TARGET_1 /* cpu state was modified dynamically */
+/*
+ * Target-specific is_jmp field values
+ */
+/* Only pc was modified dynamically */
+#define DISAS_JUMP          DISAS_TARGET_0
+/* Cpu state was modified dynamically, including pc */
+#define DISAS_UPDATE        DISAS_TARGET_1
+/* Cpu state was modified dynamically, excluding pc -- use npc */
+#define DISAS_UPDATE_NEXT   DISAS_TARGET_2
 
 /* Used by the decoder.  */
 #define EXTRACT_FIELD(src, start, end) \
@@ -XXX,XX +XXX,XX @@ static void cris_tr_translate_insn(DisasContextBase *dcbase, CPUState *cs)
 
     /* Force an update if the per-tb cpu state has changed.  */
     if (dc->base.is_jmp == DISAS_NEXT && dc->cpustate_changed) {
-        dc->base.is_jmp = DISAS_UPDATE;
-        tcg_gen_movi_tl(env_pc, dc->pc);
+        dc->base.is_jmp = DISAS_UPDATE_NEXT;
+        return;
     }
 
     /*
@@ -XXX,XX +XXX,XX @@ static void cris_tr_tb_stop(DisasContextBase *dcbase, CPUState *cpu)
     if (unlikely(dc->base.singlestep_enabled)) {
         switch (is_jmp) {
         case DISAS_TOO_MANY:
+        case DISAS_UPDATE_NEXT:
             tcg_gen_movi_tl(env_pc, npc);
             /* fall through */
         case DISAS_JUMP:
@@ -XXX,XX +XXX,XX @@ static void cris_tr_tb_stop(DisasContextBase *dcbase, CPUState *cpu)
     case DISAS_TOO_MANY:
         gen_goto_tb(dc, 0, npc);
         break;
+    case DISAS_UPDATE_NEXT:
+        tcg_gen_movi_tl(env_pc, npc);
+        /* fall through */
     case DISAS_JUMP:
     case DISAS_UPDATE:
         /* Indicate that interupts must be re-evaluated before the next TB. */
-- 
2.25.1

Move delayed branch handling to tb_stop, where we can re-use other
end-of-tb code, e.g. the evaluation of flags.  Honor single stepping.
Validate that we aren't losing state by overwriting is_jmp.

Reviewed-by: Edgar E. Iglesias <edgar.iglesias@xilinx.com>
Tested-by: Edgar E. Iglesias <edgar.iglesias@xilinx.com>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 target/cris/translate.c | 96 ++++++++++++++++++++++++-----------------
 1 file changed, 56 insertions(+), 40 deletions(-)

diff --git a/target/cris/translate.c b/target/cris/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/cris/translate.c
+++ b/target/cris/translate.c
@@ -XXX,XX +XXX,XX @@
 #define DISAS_UPDATE        DISAS_TARGET_1
 /* Cpu state was modified dynamically, excluding pc -- use npc */
 #define DISAS_UPDATE_NEXT   DISAS_TARGET_2
+/* PC update for delayed branch, see cpustate_changed otherwise */
+#define DISAS_DBRANCH       DISAS_TARGET_3
 
 /* Used by the decoder.  */
 #define EXTRACT_FIELD(src, start, end) \
@@ -XXX,XX +XXX,XX @@ static void cris_tr_translate_insn(DisasContextBase *dcbase, CPUState *cs)
     dc->cpustate_changed |= dc->flags_x != (dc->base.tb->flags & X_FLAG);
 
     /*
-     * Check for delayed branches here.  If we do it before
-     * actually generating any host code, the simulator will just
-     * loop doing nothing for on this program location.
+     * All branches are delayed branches, handled immediately below.
+     * We don't expect to see odd combinations of exit conditions.
      */
+    assert(dc->base.is_jmp == DISAS_NEXT || dc->cpustate_changed);
+
     if (dc->delayed_branch && --dc->delayed_branch == 0) {
-        if (dc->base.tb->flags & 7) {
-            t_gen_movi_env_TN(dslot, 0);
-        }
+        dc->base.is_jmp = DISAS_DBRANCH;
+        return;
+    }
 
-        if (dc->cpustate_changed) {
-            cris_store_direct_jmp(dc);
-        }
-
-        if (dc->clear_locked_irq) {
-            dc->clear_locked_irq = 0;
-            t_gen_movi_env_TN(locked_irq, 0);
-        }
-
-        if (dc->jmp == JMP_DIRECT_CC) {
-            TCGLabel *l1 = gen_new_label();
-            cris_evaluate_flags(dc);
-
-            /* Conditional jmp.  */
-            tcg_gen_brcondi_tl(TCG_COND_EQ, env_btaken, 0, l1);
-            gen_goto_tb(dc, 1, dc->jmp_pc);
-            gen_set_label(l1);
-            gen_goto_tb(dc, 0, dc->pc);
-            dc->base.is_jmp = DISAS_NORETURN;
-            dc->jmp = JMP_NOJMP;
-        } else if (dc->jmp == JMP_DIRECT) {
-            cris_evaluate_flags(dc);
-            gen_goto_tb(dc, 0, dc->jmp_pc);
-            dc->base.is_jmp = DISAS_NORETURN;
-            dc->jmp = JMP_NOJMP;
-        } else {
-            TCGv c = tcg_const_tl(dc->pc);
-            t_gen_cc_jmp(env_btarget, c);
-            tcg_temp_free(c);
-            dc->base.is_jmp = DISAS_JUMP;
-        }
+    if (dc->base.is_jmp != DISAS_NEXT) {
+        return;
     }
 
     /* Force an update if the per-tb cpu state has changed.  */
-    if (dc->base.is_jmp == DISAS_NEXT && dc->cpustate_changed) {
+    if (dc->cpustate_changed) {
         dc->base.is_jmp = DISAS_UPDATE_NEXT;
         return;
     }
@@ -XXX,XX +XXX,XX @@ static void cris_tr_translate_insn(DisasContextBase *dcbase, CPUState *cs)
      * If we can detect the length of the next insn easily, we should.
      * In the meantime, simply stop when we do cross.
      */
-    if (dc->base.is_jmp == DISAS_NEXT
-        && ((dc->pc ^ dc->base.pc_first) & TARGET_PAGE_MASK) != 0) {
+    if ((dc->pc ^ dc->base.pc_first) & TARGET_PAGE_MASK) {
         dc->base.is_jmp = DISAS_TOO_MANY;
     }
 }
@@ -XXX,XX +XXX,XX @@ static void cris_tr_tb_stop(DisasContextBase *dcbase, CPUState *cpu)
 
     cris_evaluate_flags(dc);
 
+    /* Evaluate delayed branch destination and fold to another is_jmp case. */
+    if (is_jmp == DISAS_DBRANCH) {
+        if (dc->base.tb->flags & 7) {
+            t_gen_movi_env_TN(dslot, 0);
+        }
+
+        switch (dc->jmp) {
+        case JMP_DIRECT:
+            npc = dc->jmp_pc;
+            is_jmp = dc->cpustate_changed ? DISAS_UPDATE_NEXT : DISAS_TOO_MANY;
+            break;
+
+        case JMP_DIRECT_CC:
+            /*
+             * Use a conditional branch if either taken or not-taken path
+             * can use goto_tb.  If neither can, then treat it as indirect.
+             */
+            if (likely(!dc->base.singlestep_enabled)
+                && likely(!dc->cpustate_changed)
+                && (use_goto_tb(dc, dc->jmp_pc) || use_goto_tb(dc, npc))) {
+                TCGLabel *not_taken = gen_new_label();
+
+                tcg_gen_brcondi_tl(TCG_COND_EQ, env_btaken, 0, not_taken);
+                gen_goto_tb(dc, 1, dc->jmp_pc);
+                gen_set_label(not_taken);
+
+                /* not-taken case handled below. */
+                is_jmp = DISAS_TOO_MANY;
+                break;
+            }
+            tcg_gen_movi_tl(env_btarget, dc->jmp_pc);
+            /* fall through */
+
+        case JMP_INDIRECT:
+            t_gen_cc_jmp(env_btarget, tcg_constant_tl(npc));
+            is_jmp = dc->cpustate_changed ? DISAS_UPDATE : DISAS_JUMP;
+            break;
+
+        default:
+            g_assert_not_reached();
+        }
+    }
+
     if (unlikely(dc->base.singlestep_enabled)) {
         switch (is_jmp) {
         case DISAS_TOO_MANY:
-- 
2.25.1

We can use this in gen_goto_tb and for DISAS_JUMP
to indirectly chain to the next TB.

Reviewed-by: Edgar E. Iglesias <edgar.iglesias@xilinx.com>
Tested-by: Edgar E. Iglesias <edgar.iglesias@xilinx.com>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 target/cris/translate.c | 4 +++-
 1 file changed, 3 insertions(+), 1 deletion(-)

diff --git a/target/cris/translate.c b/target/cris/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/cris/translate.c
+++ b/target/cris/translate.c
@@ -XXX,XX +XXX,XX @@ static void gen_goto_tb(DisasContext *dc, int n, target_ulong dest)
         tcg_gen_exit_tb(dc->base.tb, n);
     } else {
         tcg_gen_movi_tl(env_pc, dest);
-        tcg_gen_exit_tb(NULL, 0);
+        tcg_gen_lookup_and_goto_ptr();
     }
 }
 
@@ -XXX,XX +XXX,XX @@ static void cris_tr_tb_stop(DisasContextBase *dcbase, CPUState *cpu)
         tcg_gen_movi_tl(env_pc, npc);
         /* fall through */
     case DISAS_JUMP:
+        tcg_gen_lookup_and_goto_ptr();
+        break;
     case DISAS_UPDATE:
         /* Indicate that interupts must be re-evaluated before the next TB. */
         tcg_gen_exit_tb(NULL, 0);
-- 
2.25.1

Use movcond instead of brcond to set env_pc.
Discard the btarget and btaken variables to improve
register allocation and avoid unnecessary writeback.

Reviewed-by: Edgar E. Iglesias <edgar.iglesias@xilinx.com>
Tested-by: Edgar E. Iglesias <edgar.iglesias@xilinx.com>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 target/cris/translate.c | 22 ++++++++++------------
 1 file changed, 10 insertions(+), 12 deletions(-)

diff --git a/target/cris/translate.c b/target/cris/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/cris/translate.c
+++ b/target/cris/translate.c
@@ -XXX,XX +XXX,XX @@ static void t_gen_swapr(TCGv d, TCGv s)
     tcg_temp_free(org_s);
 }
 
-static void t_gen_cc_jmp(TCGv pc_true, TCGv pc_false)
-{
-    TCGLabel *l1 = gen_new_label();
-
-    /* Conditional jmp.  */
-    tcg_gen_mov_tl(env_pc, pc_false);
-    tcg_gen_brcondi_tl(TCG_COND_EQ, env_btaken, 0, l1);
-    tcg_gen_mov_tl(env_pc, pc_true);
-    gen_set_label(l1);
-}
-
 static bool use_goto_tb(DisasContext *dc, target_ulong dest)
 {
     return ((dest ^ dc->base.pc_first) & TARGET_PAGE_MASK) == 0;
@@ -XXX,XX +XXX,XX @@ static void cris_tr_tb_stop(DisasContextBase *dcbase, CPUState *cpu)
             /* fall through */
 
         case JMP_INDIRECT:
-            t_gen_cc_jmp(env_btarget, tcg_constant_tl(npc));
+            tcg_gen_movcond_tl(TCG_COND_NE, env_pc,
+                               env_btaken, tcg_constant_tl(0),
+                               env_btarget, tcg_constant_tl(npc));
             is_jmp = dc->cpustate_changed ? DISAS_UPDATE : DISAS_JUMP;
+
+            /*
+             * We have now consumed btaken and btarget.  Hint to the
+             * tcg compiler that the writeback to env may be dropped.
+             */
+            tcg_gen_discard_tl(env_btaken);
+            tcg_gen_discard_tl(env_btarget);
             break;
 
         default:
-- 
2.25.1

Ever since 2a44f7f17364, flagx_known is always true.
Fold away all of the tests against the flag.

Reviewed-by: Edgar E. Iglesias <edgar.iglesias@xilinx.com>
Tested-by: Edgar E. Iglesias <edgar.iglesias@xilinx.com>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 target/cris/translate.c         | 99 ++++++++-------------------------
 target/cris/translate_v10.c.inc |  6 +-
 2 files changed, 24 insertions(+), 81 deletions(-)

diff --git a/target/cris/translate.c b/target/cris/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/cris/translate.c
+++ b/target/cris/translate.c
@@ -XXX,XX +XXX,XX @@ typedef struct DisasContext {
 
     int cc_x_uptodate;  /* 1 - ccs, 2 - known | X_FLAG. 0 not up-to-date.  */
     int flags_uptodate; /* Whether or not $ccs is up-to-date.  */
-    int flagx_known; /* Whether or not flags_x has the x flag known at
-                translation time.  */
     int flags_x;
 
     int clear_x; /* Clear x after this insn?  */
@@ -XXX,XX +XXX,XX @@ static inline void t_gen_add_flag(TCGv d, int flag)
 
 static inline void t_gen_addx_carry(DisasContext *dc, TCGv d)
 {
-    if (dc->flagx_known) {
-        if (dc->flags_x) {
-            TCGv c;
-            
-            c = tcg_temp_new();
-            t_gen_mov_TN_preg(c, PR_CCS);
-            /* C flag is already at bit 0.  */
-            tcg_gen_andi_tl(c, c, C_FLAG);
-            tcg_gen_add_tl(d, d, c);
-            tcg_temp_free(c);
-        }
-    } else {
-        TCGv x, c;
+    if (dc->flags_x) {
+        TCGv c = tcg_temp_new();
 
-        x = tcg_temp_new();
-        c = tcg_temp_new();
-        t_gen_mov_TN_preg(x, PR_CCS);
-        tcg_gen_mov_tl(c, x);
-
-        /* Propagate carry into d if X is set. Branch free.  */
+        t_gen_mov_TN_preg(c, PR_CCS);
+        /* C flag is already at bit 0.  */
         tcg_gen_andi_tl(c, c, C_FLAG);
-        tcg_gen_andi_tl(x, x, X_FLAG);
-        tcg_gen_shri_tl(x, x, 4);
-
-        tcg_gen_and_tl(x, x, c);
-        tcg_gen_add_tl(d, d, x);
-        tcg_temp_free(x);
+        tcg_gen_add_tl(d, d, c);
         tcg_temp_free(c);
     }
 }
 
 static inline void t_gen_subx_carry(DisasContext *dc, TCGv d)
 {
-    if (dc->flagx_known) {
-        if (dc->flags_x) {
-            TCGv c;
-            
-            c = tcg_temp_new();
-            t_gen_mov_TN_preg(c, PR_CCS);
-            /* C flag is already at bit 0.  */
-            tcg_gen_andi_tl(c, c, C_FLAG);
-            tcg_gen_sub_tl(d, d, c);
-            tcg_temp_free(c);
-        }
-    } else {
-        TCGv x, c;
+    if (dc->flags_x) {
+        TCGv c = tcg_temp_new();
 
-        x = tcg_temp_new();
-        c = tcg_temp_new();
-        t_gen_mov_TN_preg(x, PR_CCS);
-        tcg_gen_mov_tl(c, x);
-
-        /* Propagate carry into d if X is set. Branch free.  */
+        t_gen_mov_TN_preg(c, PR_CCS);
+        /* C flag is already at bit 0.  */
         tcg_gen_andi_tl(c, c, C_FLAG);
-        tcg_gen_andi_tl(x, x, X_FLAG);
-        tcg_gen_shri_tl(x, x, 4);
-
-        tcg_gen_and_tl(x, x, c);
-        tcg_gen_sub_tl(d, d, x);
-        tcg_temp_free(x);
+        tcg_gen_sub_tl(d, d, c);
         tcg_temp_free(c);
     }
 }
@@ -XXX,XX +XXX,XX @@ static void gen_goto_tb(DisasContext *dc, int n, target_ulong dest)
 
 static inline void cris_clear_x_flag(DisasContext *dc)
 {
-    if (dc->flagx_known && dc->flags_x) {
+    if (dc->flags_x) {
         dc->flags_uptodate = 0;
     }
-
-    dc->flagx_known = 1;
     dc->flags_x = 0;
 }
 
@@ -XXX,XX +XXX,XX @@ static void cris_evaluate_flags(DisasContext *dc)
         break;
     }
 
-    if (dc->flagx_known) {
-        if (dc->flags_x) {
-            tcg_gen_ori_tl(cpu_PR[PR_CCS], cpu_PR[PR_CCS], X_FLAG);
-        } else if (dc->cc_op == CC_OP_FLAGS) {
-            tcg_gen_andi_tl(cpu_PR[PR_CCS], cpu_PR[PR_CCS], ~X_FLAG);
-        }
+    if (dc->flags_x) {
+        tcg_gen_ori_tl(cpu_PR[PR_CCS], cpu_PR[PR_CCS], X_FLAG);
+    } else if (dc->cc_op == CC_OP_FLAGS) {
+        tcg_gen_andi_tl(cpu_PR[PR_CCS], cpu_PR[PR_CCS], ~X_FLAG);
     }
     dc->flags_uptodate = 1;
 }
@@ -XXX,XX +XXX,XX @@ static void cris_update_cc_op(DisasContext *dc, int op, int size)
 static inline void cris_update_cc_x(DisasContext *dc)
 {
     /* Save the x flag state at the time of the cc snapshot.  */
-    if (dc->flagx_known) {
-        if (dc->cc_x_uptodate == (2 | dc->flags_x)) {
-            return;
-        }
-        tcg_gen_movi_tl(cc_x, dc->flags_x);
-        dc->cc_x_uptodate = 2 | dc->flags_x;
-    } else {
-        tcg_gen_andi_tl(cc_x, cpu_PR[PR_CCS], X_FLAG);
-        dc->cc_x_uptodate = 1;
+    if (dc->cc_x_uptodate == (2 | dc->flags_x)) {
+        return;
     }
+    tcg_gen_movi_tl(cc_x, dc->flags_x);
+    dc->cc_x_uptodate = 2 | dc->flags_x;
 }
 
 /* Update cc prior to executing ALU op. Needs source operands untouched.  */
@@ -XXX,XX +XXX,XX @@ static void gen_store (DisasContext *dc, TCGv addr, TCGv val,
 
     /* Conditional writes. We only support the kind were X and P are known
        at translation time.  */
-    if (dc->flagx_known && dc->flags_x && (dc->tb_flags & P_FLAG)) {
+    if (dc->flags_x && (dc->tb_flags & P_FLAG)) {
         dc->postinc = 0;
         cris_evaluate_flags(dc);
         tcg_gen_ori_tl(cpu_PR[PR_CCS], cpu_PR[PR_CCS], C_FLAG);
@@ -XXX,XX +XXX,XX @@ static void gen_store (DisasContext *dc, TCGv addr, TCGv val,
 
     tcg_gen_qemu_st_tl(val, addr, mem_index, MO_TE + ctz32(size));
 
-    if (dc->flagx_known && dc->flags_x) {
+    if (dc->flags_x) {
         cris_evaluate_flags(dc);
         tcg_gen_andi_tl(cpu_PR[PR_CCS], cpu_PR[PR_CCS], ~C_FLAG);
     }
@@ -XXX,XX +XXX,XX @@ static int dec_addc_r(CPUCRISState *env, DisasContext *dc)
     LOG_DIS("addc $r%u, $r%u\n",
             dc->op1, dc->op2);
     cris_evaluate_flags(dc);
+
     /* Set for this insn.  */
-    dc->flagx_known = 1;
     dc->flags_x = X_FLAG;
 
     cris_cc_mask(dc, CC_MASK_NZVC);
@@ -XXX,XX +XXX,XX @@ static int dec_setclrf(CPUCRISState *env, DisasContext *dc)
     }
 
     if (flags & X_FLAG) {
-        dc->flagx_known = 1;
         if (set) {
             dc->flags_x = X_FLAG;
         } else {
@@ -XXX,XX +XXX,XX @@ static int dec_addc_mr(CPUCRISState *env, DisasContext *dc)
     cris_evaluate_flags(dc);
 
     /* Set for this insn.  */
-    dc->flagx_known = 1;
     dc->flags_x = X_FLAG;
 
     cris_alu_m_alloc_temps(t);
@@ -XXX,XX +XXX,XX @@ static void cris_tr_init_disas_context(DisasContextBase *dcbase, CPUState *cs)
     dc->ppc = pc_start;
     dc->pc = pc_start;
     dc->flags_uptodate = 1;
-    dc->flagx_known = 1;
     dc->flags_x = tb_flags & X_FLAG;
     dc->cc_x_uptodate = 0;
     dc->cc_mask = 0;
@@ -XXX,XX +XXX,XX @@ static void cris_tr_translate_insn(DisasContextBase *dcbase, CPUState *cs)
     }
 
     /* Fold unhandled changes to X_FLAG into cpustate_changed. */
-    dc->cpustate_changed |= !dc->flagx_known;
     dc->cpustate_changed |= dc->flags_x != (dc->base.tb->flags & X_FLAG);
 
     /*
diff --git a/target/cris/translate_v10.c.inc b/target/cris/translate_v10.c.inc
index XXXXXXX..XXXXXXX 100644
--- a/target/cris/translate_v10.c.inc
+++ b/target/cris/translate_v10.c.inc
@@ -XXX,XX +XXX,XX @@ static void gen_store_v10(DisasContext *dc, TCGv addr, TCGv val,
         cris_store_direct_jmp(dc);
     }
 
-    /* Conditional writes. We only support the kind were X is known
-       at translation time.  */
-    if (dc->flagx_known && dc->flags_x) {
+    /* Conditional writes. */
+    if (dc->flags_x) {
         gen_store_v10_conditional(dc, addr, val, size, mem_index);
         return;
     }
@@ -XXX,XX +XXX,XX @@ static unsigned int dec10_setclrf(DisasContext *dc)
 
 
     if (flags & X_FLAG) {
-        dc->flagx_known = 1;
         if (set)
             dc->flags_x = X_FLAG;
         else
-- 
2.25.1