Series comparison

-[PULL 00/63] tcg patch queue
+[PULL 00/72] tcg patch queue
-The following changes since commit 13d5f87cc3b94bfccc501142df4a7b12fee3a6e7:
+The following changes since commit aa3a285b5bc56a4208b3b57d4a55291e9c260107:
-  Merge remote-tracking branch 'remotes/rth-gitlab/tags/pull-axp-20210628' into staging (2021-06-29 10:02:42 +0100)
+  Merge tag 'mem-2024-12-21' of https://github.com/davidhildenbrand/qemu into staging (2024-12-22 14:33:27 -0500)
 are available in the Git repository at:
-  https://gitlab.com/rth7680/qemu.git tags/pull-tcg-20210629
+  https://gitlab.com/rth7680/qemu.git tags/pull-tcg-20241224
-for you to fetch changes up to c86bd2dc4c1d37653c27293b2dacee6bb46bb995:
+for you to fetch changes up to e4a8e093dc74be049f4829831dce76e5edab0003:
-  tcg/riscv: Remove MO_BSWAP handling (2021-06-29 10:04:57 -0700)
+  accel/tcg: Move gen_intermediate_code to TCGCPUOps.translate_core (2024-12-24 08:32:15 -0800)
 ----------------------------------------------------------------
-TranslatorOps conversion for target/avr
+tcg/optimize: Remove in-flight mask data from OptContext
-TranslatorOps conversion for target/cris
+fpu: Add float*_muladd_scalbn
-TranslatorOps conversion for target/nios2
+fpu: Remove float_muladd_halve_result
-Simple vector operations on TCGv_i32
+fpu: Add float_round_nearest_even_max
-Host signal fixes for *BSD
+fpu: Add float_muladd_suppress_add_product_zero
-Improvements to tcg bswap operations
+target/hexagon: Use float32_muladd
 accel/tcg: Move gen_intermediate_code to TCGCPUOps.translate_core
 ----------------------------------------------------------------
-LIU Zhiwei (5):
+Ilya Leoshkevich (1):
-      tcg: Add tcg_gen_vec_add{sub}16_i32
+      tests/tcg: Do not use inttypes.h in multiarch/system/memory.c
       tcg: Add tcg_gen_vec_add{sub}8_i32
       tcg: Add tcg_gen_vec_shl{shr}{sar}16i_i32
       tcg: Add tcg_gen_vec_shl{shr}{sar}8i_i32
       tcg: Implement tcg_gen_vec_add{sub}32_tl
-Richard Henderson (57):
+Pierrick Bouvier (1):
-      target/nios2: Replace DISAS_TB_JUMP with DISAS_NORETURN
+      plugins: optimize cpu_index code generation
       target/nios2: Use global cpu_env
       target/nios2: Use global cpu_R
       target/nios2: Add DisasContextBase to DisasContext
       target/nios2: Convert to TranslatorOps
       target/nios2: Remove assignment to env in handle_instruction
       target/nios2: Clean up goto in handle_instruction
       target/nios2: Inline handle_instruction
       target/nios2: Use pc_next for pc + 4
       target/avr: Add DisasContextBase to DisasContext
       target/avr: Change ctx to DisasContext* in gen_intermediate_code
       target/avr: Convert to TranslatorOps
       target/cris: Add DisasContextBase to DisasContext
       target/cris: Remove DISAS_SWI
       target/cris: Replace DISAS_TB_JUMP with DISAS_NORETURN
       target/cris: Mark exceptions as DISAS_NORETURN
       target/cris: Fix use_goto_tb
       target/cris: Convert to TranslatorOps
       target/cris: Mark helper_raise_exception noreturn
       target/cris: Mark static arrays const
       target/cris: Fold unhandled X_FLAG changes into cpustate_changed
       target/cris: Set cpustate_changed for rfe/rfn
       target/cris: Add DISAS_UPDATE_NEXT
       target/cris: Add DISAS_DBRANCH
       target/cris: Use tcg_gen_lookup_and_goto_ptr
       target/cris: Improve JMP_INDIRECT
       target/cris: Remove dc->flagx_known
       target/cris: Do not exit tb for X_FLAG changes
       tcg: Add flags argument to bswap opcodes
       tcg/i386: Support bswap flags
       tcg/aarch64: Merge tcg_out_rev{16,32,64}
       tcg/aarch64: Support bswap flags
       tcg/arm: Support bswap flags
       tcg/ppc: Split out tcg_out_ext{8,16,32}s
       tcg/ppc: Split out tcg_out_sari{32,64}
       tcg/ppc: Split out tcg_out_bswap16
       tcg/ppc: Split out tcg_out_bswap32
       tcg/ppc: Split out tcg_out_bswap64
       tcg/ppc: Support bswap flags
       tcg/ppc: Use power10 byte-reverse instructions
       tcg/s390: Support bswap flags
       tcg/mips: Support bswap flags in tcg_out_bswap16
       tcg/mips: Support bswap flags in tcg_out_bswap32
       tcg/tci: Support bswap flags
       tcg: Handle new bswap flags during optimize
       tcg: Add flags argument to tcg_gen_bswap16_*, tcg_gen_bswap32_i64
       tcg: Make use of bswap flags in tcg_gen_qemu_ld_*
       tcg: Make use of bswap flags in tcg_gen_qemu_st_*
       target/arm: Improve REV32
       target/arm: Improve vector REV
       target/arm: Improve REVSH
       target/i386: Improve bswap translation
       target/sh4: Improve swap.b translation
       target/mips: Fix gen_mxu_s32ldd_s32lddr
       tcg/arm: Unset TCG_TARGET_HAS_MEMORY_BSWAP
       tcg/aarch64: Unset TCG_TARGET_HAS_MEMORY_BSWAP
       tcg/riscv: Remove MO_BSWAP handling
-Warner Losh (1):
+Richard Henderson (70):
-      tcg: Use correct trap number for page faults on *BSD systems
+      tcg/optimize: Split out finish_bb, finish_ebb
       tcg/optimize: Split out fold_affected_mask
       tcg/optimize: Copy mask writeback to fold_masks
       tcg/optimize: Split out fold_masks_zs
       tcg/optimize: Augment s_mask from z_mask in fold_masks_zs
       tcg/optimize: Change representation of s_mask
       tcg/optimize: Use finish_folding in fold_add, fold_add_vec, fold_addsub2
       tcg/optimize: Introduce const value accessors for TempOptInfo
       tcg/optimize: Use fold_masks_zs in fold_and
       tcg/optimize: Use fold_masks_zs in fold_andc
       tcg/optimize: Use fold_masks_zs in fold_bswap
       tcg/optimize: Use fold_masks_zs in fold_count_zeros
       tcg/optimize: Use fold_masks_z in fold_ctpop
       tcg/optimize: Use fold_and and fold_masks_z in fold_deposit
       tcg/optimize: Compute sign mask in fold_deposit
       tcg/optimize: Use finish_folding in fold_divide
       tcg/optimize: Use finish_folding in fold_dup, fold_dup2
       tcg/optimize: Use fold_masks_s in fold_eqv
       tcg/optimize: Use fold_masks_z in fold_extract
       tcg/optimize: Use finish_folding in fold_extract2
       tcg/optimize: Use fold_masks_zs in fold_exts
       tcg/optimize: Use fold_masks_z in fold_extu
       tcg/optimize: Use fold_masks_zs in fold_movcond
       tcg/optimize: Use finish_folding in fold_mul*
       tcg/optimize: Use fold_masks_s in fold_nand
       tcg/optimize: Use fold_masks_z in fold_neg_no_const
       tcg/optimize: Use fold_masks_s in fold_nor
       tcg/optimize: Use fold_masks_s in fold_not
       tcg/optimize: Use fold_masks_zs in fold_or
       tcg/optimize: Use fold_masks_zs in fold_orc
       tcg/optimize: Use fold_masks_zs in fold_qemu_ld
       tcg/optimize: Return true from fold_qemu_st, fold_tcg_st
       tcg/optimize: Use finish_folding in fold_remainder
       tcg/optimize: Distinguish simplification in fold_setcond_zmask
       tcg/optimize: Use fold_masks_z in fold_setcond
       tcg/optimize: Use fold_masks_s in fold_negsetcond
       tcg/optimize: Use fold_masks_z in fold_setcond2
       tcg/optimize: Use finish_folding in fold_cmp_vec
       tcg/optimize: Use finish_folding in fold_cmpsel_vec
       tcg/optimize: Use fold_masks_zs in fold_sextract
       tcg/optimize: Use fold_masks_zs, fold_masks_s in fold_shift
       tcg/optimize: Simplify sign bit test in fold_shift
       tcg/optimize: Use finish_folding in fold_sub, fold_sub_vec
       tcg/optimize: Use fold_masks_zs in fold_tcg_ld
       tcg/optimize: Use finish_folding in fold_tcg_ld_memcopy
       tcg/optimize: Use fold_masks_zs in fold_xor
       tcg/optimize: Use finish_folding in fold_bitsel_vec
       tcg/optimize: Use finish_folding as default in tcg_optimize
       tcg/optimize: Remove z_mask, s_mask from OptContext
       tcg/optimize: Re-enable sign-mask optimizations
       tcg/optimize: Move fold_bitsel_vec into alphabetic sort
       tcg/optimize: Move fold_cmp_vec, fold_cmpsel_vec into alphabetic sort
       softfloat: Add float{16,32,64}_muladd_scalbn
       target/arm: Use float*_muladd_scalbn
       target/sparc: Use float*_muladd_scalbn
       softfloat: Remove float_muladd_halve_result
       softfloat: Add float_round_nearest_even_max
       softfloat: Add float_muladd_suppress_add_product_zero
       target/hexagon: Use float32_mul in helper_sfmpy
       target/hexagon: Use float32_muladd for helper_sffma
       target/hexagon: Use float32_muladd for helper_sffms
       target/hexagon: Use float32_muladd_scalbn for helper_sffma_sc
       target/hexagon: Use float32_muladd for helper_sffm[as]_lib
       target/hexagon: Remove internal_fmafx
       target/hexagon: Expand GEN_XF_ROUND
       target/hexagon: Remove Float
       target/hexagon: Remove Double
       target/hexagon: Use mulu64 for int128_mul_6464
       target/hexagon: Simplify internal_mpyhh setup
       accel/tcg: Move gen_intermediate_code to TCGCPUOps.translate_core
- include/tcg/tcg-op-gvec.h       |  43 ++++
+ include/exec/translator.h           |  14 -
- include/tcg/tcg-op.h            |   8 +-
+ include/fpu/softfloat-types.h       |   2 +
- include/tcg/tcg-opc.h           |  10 +-
+ include/fpu/softfloat.h             |  14 +-
- include/tcg/tcg.h               |  12 +
+ include/hw/core/tcg-cpu-ops.h       |  13 +
- target/cris/helper.h            |   2 +-
+ target/alpha/cpu.h                  |   2 +
- tcg/aarch64/tcg-target.h        |   2 +-
+ target/arm/internals.h              |   2 +
- tcg/arm/tcg-target.h            |   2 +-
+ target/avr/cpu.h                    |   2 +
- accel/tcg/user-exec.c           |  20 +-
+ target/hexagon/cpu.h                |   2 +
- target/arm/translate-a64.c      |  21 +-
+ target/hexagon/fma_emu.h            |   3 -
- target/arm/translate.c          |   4 +-
+ target/hppa/cpu.h                   |   2 +
- target/avr/translate.c          | 284 ++++++++++++----------
+ target/i386/tcg/helper-tcg.h        |   2 +
- target/cris/translate.c         | 515 ++++++++++++++++++++--------------------
+ target/loongarch/internals.h        |   2 +
- target/i386/tcg/translate.c     |  14 +-
+ target/m68k/cpu.h                   |   2 +
- target/mips/tcg/mxu_translate.c |   6 +-
+ target/microblaze/cpu.h             |   2 +
- target/nios2/translate.c        | 318 ++++++++++++-------------
+ target/mips/tcg/tcg-internal.h      |   2 +
- target/s390x/translate.c        |   4 +-
+ target/openrisc/cpu.h               |   2 +
- target/sh4/translate.c          |   3 +-
+ target/ppc/cpu.h                    |   2 +
- tcg/optimize.c                  |  56 ++++-
+ target/riscv/cpu.h                  |   3 +
- tcg/tcg-op-gvec.c               | 122 ++++++++++
+ target/rx/cpu.h                     |   2 +
- tcg/tcg-op.c                    | 143 +++++++----
+ target/s390x/s390x-internal.h       |   2 +
- tcg/tcg.c                       |  28 +++
+ target/sh4/cpu.h                    |   2 +
- tcg/tci.c                       |   3 +-
+ target/sparc/cpu.h                  |   2 +
- target/cris/translate_v10.c.inc |  17 +-
+ target/sparc/helper.h               |   4 +-
- tcg/aarch64/tcg-target.c.inc    | 125 ++++------
+ target/tricore/cpu.h                |   2 +
- tcg/arm/tcg-target.c.inc        | 295 ++++++++++-------------
+ target/xtensa/cpu.h                 |   2 +
- tcg/i386/tcg-target.c.inc       |  20 +-
+ accel/tcg/cpu-exec.c                |   8 +-
- tcg/mips/tcg-target.c.inc       | 102 ++++----
+ accel/tcg/plugin-gen.c              |   9 +
- tcg/ppc/tcg-target.c.inc        | 230 ++++++++++++------
+ accel/tcg/translate-all.c           |   8 +-
- tcg/riscv/tcg-target.c.inc      |  64 ++---
+ fpu/softfloat.c                     |  63 +--
- tcg/s390/tcg-target.c.inc       |  34 ++-
+ target/alpha/cpu.c                  |   1 +
- tcg/tci/tcg-target.c.inc        |  23 +-
+ target/alpha/translate.c            |   4 +-
- tcg/README                      |  22 +-
+ target/arm/cpu.c                    |   1 +
-files changed, 1458 insertions(+), 1094 deletions(-)
+ target/arm/tcg/cpu-v7m.c            |   1 +
+ target/arm/tcg/helper-a64.c         |   6 +-
  target/arm/tcg/translate.c          |   5 +-
  target/avr/cpu.c                    |   1 +
  target/avr/translate.c              |   6 +-
  target/hexagon/cpu.c                |   1 +
  target/hexagon/fma_emu.c            | 496 ++++++---------------
  target/hexagon/op_helper.c          | 125 ++----
  target/hexagon/translate.c          |   4 +-
  target/hppa/cpu.c                   |   1 +
  target/hppa/translate.c             |   4 +-
  target/i386/tcg/tcg-cpu.c           |   1 +
  target/i386/tcg/translate.c         |   5 +-
  target/loongarch/cpu.c              |   1 +
  target/loongarch/tcg/translate.c    |   4 +-
  target/m68k/cpu.c                   |   1 +
  target/m68k/translate.c             |   4 +-
  target/microblaze/cpu.c             |   1 +
  target/microblaze/translate.c       |   4 +-
  target/mips/cpu.c                   |   1 +
  target/mips/tcg/translate.c         |   4 +-
  target/openrisc/cpu.c               |   1 +
  target/openrisc/translate.c         |   4 +-
  target/ppc/cpu_init.c               |   1 +
  target/ppc/translate.c              |   4 +-
  target/riscv/tcg/tcg-cpu.c          |   1 +
  target/riscv/translate.c            |   4 +-
  target/rx/cpu.c                     |   1 +
  target/rx/translate.c               |   4 +-
  target/s390x/cpu.c                  |   1 +
  target/s390x/tcg/translate.c        |   4 +-
  target/sh4/cpu.c                    |   1 +
  target/sh4/translate.c              |   4 +-
  target/sparc/cpu.c                  |   1 +
  target/sparc/fop_helper.c           |   8 +-
  target/sparc/translate.c            |  84 ++--
  target/tricore/cpu.c                |   1 +
  target/tricore/translate.c          |   5 +-
  target/xtensa/cpu.c                 |   1 +
  target/xtensa/translate.c           |   4 +-
  tcg/optimize.c                      | 857 +++++++++++++++++++-----------------
  tests/tcg/multiarch/system/memory.c |   9 +-
  fpu/softfloat-parts.c.inc           |  16 +-
 files changed, 866 insertions(+), 1009 deletions(-)

-New patch
+[PULL 01/72] tests/tcg: Do not use inttypes.h in multiarch/system/memory.c
+From: Ilya Leoshkevich <iii@linux.ibm.com>
+make check-tcg fails on Fedora with the following error message:
+    alpha-linux-gnu-gcc [...] qemu/tests/tcg/multiarch/system/memory.c -o memory [...]
+    qemu/tests/tcg/multiarch/system/memory.c:17:10: fatal error: inttypes.h: No such file or directory
+| #include <inttypes.h>
+          |          ^~~~~~~~~~~~
+    compilation terminated.
+The reason is that Fedora has cross-compilers, but no cross-glibc
+headers. Fix by hardcoding the format specifiers and dropping the
+include.
+An alternative fix would be to introduce a configure check for
+inttypes.h. But this would make it impossible to use Fedora
+cross-compilers for softmmu tests, which used to work so far.
+Fixes: ecbcc9ead2f8 ("tests/tcg: add a system test to check memory instrumentation")
+Signed-off-by: Ilya Leoshkevich <iii@linux.ibm.com>
+Reviewed-by: Paolo Bonzini <pbonzini@redhat.com>
+Message-ID: <20241010085906.226249-1-iii@linux.ibm.com>
+Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
+---
+ tests/tcg/multiarch/system/memory.c | 9 ++++-----
+file changed, 4 insertions(+), 5 deletions(-)
+diff --git a/tests/tcg/multiarch/system/memory.c b/tests/tcg/multiarch/system/memory.c
+index XXXXXXX..XXXXXXX 100644
+--- a/tests/tcg/multiarch/system/memory.c
++++ b/tests/tcg/multiarch/system/memory.c
+@@ -XXX,XX +XXX,XX @@
+ #include <stdint.h>
+ #include <stdbool.h>
+-#include <inttypes.h>
+ #include <minilib.h>
+ #ifndef CHECK_UNALIGNED
+@@ -XXX,XX +XXX,XX @@ int main(void)
+     int i;
+     bool ok = true;
+-    ml_printf("Test data start: 0x%"PRIxPTR"\n", &test_data[0]);
+-    ml_printf("Test data end: 0x%"PRIxPTR"\n", &test_data[TEST_SIZE]);
++    ml_printf("Test data start: 0x%lx\n", (unsigned long)&test_data[0]);
++    ml_printf("Test data end: 0x%lx\n", (unsigned long)&test_data[TEST_SIZE]);
+     /* Run through the unsigned tests first */
+     for (i = 0; i < ARRAY_SIZE(init_ufns) && ok; i++) {
+@@ -XXX,XX +XXX,XX @@ int main(void)
+         ok = do_signed_reads(true);
+     }
+-    ml_printf("Test data read: %"PRId32"\n", test_read_count);
+-    ml_printf("Test data write: %"PRId32"\n", test_write_count);
++    ml_printf("Test data read: %lu\n", (unsigned long)test_read_count);
++    ml_printf("Test data write: %lu\n", (unsigned long)test_write_count);
+     ml_printf("Test complete: %s\n", ok ? "PASSED" : "FAILED");
+     return ok ? 0 : -1;
+ }
+--
+.43.0

-New patch
+[PULL 02/72] plugins: optimize cpu_index code generation
+From: Pierrick Bouvier <pierrick.bouvier@linaro.org>
+When running with a single vcpu, we can return a constant instead of a
+load when accessing cpu_index.
+A side effect is that all tcg operations using it are optimized, most
+notably scoreboard access.
+When running a simple loop in user-mode, the speedup is around 20%.
+Signed-off-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
+Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
+Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
+Message-ID: <20241128213843.1023080-1-pierrick.bouvier@linaro.org>
+---
+ accel/tcg/plugin-gen.c | 9 +++++++++
+file changed, 9 insertions(+)
+diff --git a/accel/tcg/plugin-gen.c b/accel/tcg/plugin-gen.c
+index XXXXXXX..XXXXXXX 100644
+--- a/accel/tcg/plugin-gen.c
++++ b/accel/tcg/plugin-gen.c
+@@ -XXX,XX +XXX,XX @@ static void gen_disable_mem_helper(void)
+ static TCGv_i32 gen_cpu_index(void)
+ {
++    /*
++     * Optimize when we run with a single vcpu. All values using cpu_index,
++     * including scoreboard index, will be optimized out.
++     * User-mode calls tb_flush when setting this flag. In system-mode, all
++     * vcpus are created before generating code.
++     */
++    if (!tcg_cflags_has(current_cpu, CF_PARALLEL)) {
++        return tcg_constant_i32(current_cpu->cpu_index);
++    }
+     TCGv_i32 cpu_index = tcg_temp_ebb_new_i32();
+     tcg_gen_ld_i32(cpu_index, tcg_env,
+                    -offsetof(ArchCPU, env) + offsetof(CPUState, cpu_index));
+--
+.43.0

-[PULL 41/63] tcg/ppc: Split out tcg_out_sari{32,64}
+[PULL 03/72] tcg/optimize: Split out finish_bb, finish_ebb
-We will shortly require sari in other context;
+Call them directly from the opcode switch statement in tcg_optimize,
-split out both for cleanliness sake.
+rather than in finish_folding based on opcode flags.  Adjust folding
 of conditional branches to match.
-Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
+Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- tcg/ppc/tcg-target.c.inc | 17 +++++++++++++----
+ tcg/optimize.c | 47 +++++++++++++++++++++++++++++++----------------
-file changed, 13 insertions(+), 4 deletions(-)
+file changed, 31 insertions(+), 16 deletions(-)
-diff --git a/tcg/ppc/tcg-target.c.inc b/tcg/ppc/tcg-target.c.inc
+diff --git a/tcg/optimize.c b/tcg/optimize.c
 index XXXXXXX..XXXXXXX 100644
---- a/tcg/ppc/tcg-target.c.inc
+--- a/tcg/optimize.c
-+++ b/tcg/ppc/tcg-target.c.inc
++++ b/tcg/optimize.c
-@@ -XXX,XX +XXX,XX @@ static inline void tcg_out_shli64(TCGContext *s, TCGReg dst, TCGReg src, int c)
+@@ -XXX,XX +XXX,XX @@ static void copy_propagate(OptContext *ctx, TCGOp *op,
-     tcg_out_rld(s, RLDICR, dst, src, c, 63 - c);
+     }
  }
-+static inline void tcg_out_sari32(TCGContext *s, TCGReg dst, TCGReg src, int c)
++static void finish_bb(OptContext *ctx)
 +{
-+    /* Limit immediate shift count lest we create an illegal insn.  */
++    /* We only optimize memory barriers across basic blocks. */
-+    tcg_out32(s, SRAWI | RA(dst) | RS(src) | SH(c & 31));
++    ctx->prev_mb = NULL;
 +}
 +
- static inline void tcg_out_shri32(TCGContext *s, TCGReg dst, TCGReg src, int c)
++static void finish_ebb(OptContext *ctx)
  {
      tcg_out_rlw(s, RLWINM, dst, src, 32 - c, c, 31);
@@ -XXX,XX +XXX,XX @@ static inline void tcg_out_shri64(TCGContext *s, TCGReg dst, TCGReg src, int c)
      tcg_out_rld(s, RLDICL, dst, src, 64 - c, c);
  }
 +static inline void tcg_out_sari64(TCGContext *s, TCGReg dst, TCGReg src, int c)
 +{
-+    tcg_out32(s, SRADI | RA(dst) | RS(src) | SH(c & 0x1f) | ((c >> 4) & 2));
++    finish_bb(ctx);
 +    /* We only optimize across extended basic blocks. */
 +    memset(&ctx->temps_used, 0, sizeof(ctx->temps_used));
 +    remove_mem_copy_all(ctx);
 +}
 +
- /* Emit a move into ret of arg, if it can be done in one insn.  */
+ static void finish_folding(OptContext *ctx, TCGOp *op)
  static bool tcg_out_movi_one(TCGContext *s, TCGReg ret, tcg_target_long arg)
  {
-@@ -XXX,XX +XXX,XX @@ static void tcg_out_op(TCGContext *s, TCGOpcode opc,
+     const TCGOpDef *def = &tcg_op_defs[op->opc];
-         break;
+     int i, nb_oargs;
-     case INDEX_op_sar_i32:
-         if (const_args[2]) {
+-    /*
--            /* Limit immediate shift count lest we create an illegal insn.  */
+-     * We only optimize extended basic blocks.  If the opcode ends a BB
--            tcg_out32(s, SRAWI | RS(args[1]) | RA(args[0]) | SH(args[2] & 31));
+-     * and is not a conditional branch, reset all temp data.
-+            tcg_out_sari32(s, args[0], args[1], args[2]);
+-     */
-         } else {
+-    if (def->flags & TCG_OPF_BB_END) {
-             tcg_out32(s, SRAW | SAB(args[1], args[0], args[2]));
+-        ctx->prev_mb = NULL;
 -        if (!(def->flags & TCG_OPF_COND_BRANCH)) {
 -            memset(&ctx->temps_used, 0, sizeof(ctx->temps_used));
 -            remove_mem_copy_all(ctx);
 -        }
 -        return;
 -    }
 -
      nb_oargs = def->nb_oargs;
      for (i = 0; i < nb_oargs; i++) {
          TCGTemp *ts = arg_temp(op->args[i]);
@@ -XXX,XX +XXX,XX @@ static bool fold_brcond(OptContext *ctx, TCGOp *op)
      if (i > 0) {
          op->opc = INDEX_op_br;
          op->args[0] = op->args[3];
 +        finish_ebb(ctx);
 +    } else {
 +        finish_bb(ctx);
      }
 -    return false;
 +    return true;
  }
  static bool fold_brcond2(OptContext *ctx, TCGOp *op)
@@ -XXX,XX +XXX,XX @@ static bool fold_brcond2(OptContext *ctx, TCGOp *op)
          }
-@@ -XXX,XX +XXX,XX @@ static void tcg_out_op(TCGContext *s, TCGOpcode opc,
+         op->opc = INDEX_op_br;
-         break;
+         op->args[0] = label;
-     case INDEX_op_sar_i64:
+-        break;
-         if (const_args[2]) {
++        finish_ebb(ctx);
--            int sh = SH(args[2] & 0x1f) | (((args[2] >> 5) & 1) << 1);
++        return true;
--            tcg_out32(s, SRADI | RA(args[0]) | RS(args[1]) | sh);
+     }
-+            tcg_out_sari64(s, args[0], args[1], args[2]);
+-    return false;
-         } else {
++
-             tcg_out32(s, SRAD | SAB(args[1], args[0], args[2]));
++    finish_bb(ctx);
 +    return true;
  }
  static bool fold_bswap(OptContext *ctx, TCGOp *op)
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
          CASE_OP_32_64_VEC(xor):
              done = fold_xor(&ctx, op);
              break;
 +        case INDEX_op_set_label:
 +        case INDEX_op_br:
 +        case INDEX_op_exit_tb:
 +        case INDEX_op_goto_tb:
 +        case INDEX_op_goto_ptr:
 +            finish_ebb(&ctx);
 +            done = true;
 +            break;
          default:
              break;
          }
 --
-.25.1
+.43.0

-[PULL 06/63] target/nios2: Remove assignment to env in handle_instruction
+[PULL 04/72] tcg/optimize: Split out fold_affected_mask
-Direct assignments to env during translation do not work.
+There are only a few logical operations which can compute
 an "affected" mask.  Split out handling of this optimization
 to a separate function, only to be called when applicable.
-As it happens, the only way we can get here is if env->pc
+Remove the a_mask field from OptContext, as the mask is
-is already set to dc->pc.  We will trap on the first insn
+no longer stored anywhere.
 we execute anywhere on the page.
-Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
+Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- target/nios2/translate.c | 3 ++-
+ tcg/optimize.c | 42 +++++++++++++++++++++++++++---------------
-file changed, 2 insertions(+), 1 deletion(-)
+file changed, 27 insertions(+), 15 deletions(-)
-diff --git a/target/nios2/translate.c b/target/nios2/translate.c
+diff --git a/tcg/optimize.c b/tcg/optimize.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/nios2/translate.c
+--- a/tcg/optimize.c
-+++ b/target/nios2/translate.c
++++ b/tcg/optimize.c
-@@ -XXX,XX +XXX,XX @@ static void handle_instruction(DisasContext *dc, CPUNios2State *env)
+@@ -XXX,XX +XXX,XX @@ typedef struct OptContext {
-     uint32_t code;
+     QSIMPLEQ_HEAD(, MemCopyInfo) mem_free;
-     uint8_t op;
-     const Nios2Instruction *instr;
+     /* In flight values from optimization. */
 -    uint64_t a_mask;  /* mask bit is 0 iff value identical to first input */
      uint64_t z_mask;  /* mask bit is 0 iff value bit is 0 */
      uint64_t s_mask;  /* mask of clrsb(value) bits */
      TCGType type;
@@ -XXX,XX +XXX,XX @@ static bool fold_const2_commutative(OptContext *ctx, TCGOp *op)
  static bool fold_masks(OptContext *ctx, TCGOp *op)
  {
 -    uint64_t a_mask = ctx->a_mask;
      uint64_t z_mask = ctx->z_mask;
      uint64_t s_mask = ctx->s_mask;
@@ -XXX,XX +XXX,XX @@ static bool fold_masks(OptContext *ctx, TCGOp *op)
       * type changing opcodes.
       */
      if (ctx->type == TCG_TYPE_I32) {
 -        a_mask = (int32_t)a_mask;
          z_mask = (int32_t)z_mask;
          s_mask |= MAKE_64BIT_MASK(32, 32);
          ctx->z_mask = z_mask;
@@ -XXX,XX +XXX,XX @@ static bool fold_masks(OptContext *ctx, TCGOp *op)
      if (z_mask == 0) {
          return tcg_opt_gen_movi(ctx, op, op->args[0], 0);
      }
 +    return false;
 +}
 +
- #if defined(CONFIG_USER_ONLY)
++/*
-     /* FIXME: Is this needed ? */
++ * An "affected" mask bit is 0 if and only if the result is identical
-     if (dc->pc >= 0x1000 && dc->pc < 0x2000) {
++ * to the first input.  Thus if the entire mask is 0, the operation
--        env->regs[R_PC] = dc->pc;
++ * is equivalent to a copy.
-         t_gen_helper_raise_exception(dc, 0xaa);
++ */
-         return;
++static bool fold_affected_mask(OptContext *ctx, TCGOp *op, uint64_t a_mask)
 +{
 +    if (ctx->type == TCG_TYPE_I32) {
 +        a_mask = (uint32_t)a_mask;
 +    }
      if (a_mask == 0) {
          return tcg_opt_gen_mov(ctx, op, op->args[0], op->args[1]);
      }
- #endif
+@@ -XXX,XX +XXX,XX @@ static bool fold_and(OptContext *ctx, TCGOp *op)
-+
+      * Known-zeros does not imply known-ones.  Therefore unless
-     code = cpu_ldl_code(env, dc->pc);
+      * arg2 is constant, we can't infer affected bits from it.
-     op = get_opcode(code);
+      */
 -    if (arg_is_const(op->args[2])) {
 -        ctx->a_mask = z1 & ~z2;
 +    if (arg_is_const(op->args[2]) &&
 +        fold_affected_mask(ctx, op, z1 & ~z2)) {
 +        return true;
      }
      return fold_masks(ctx, op);
@@ -XXX,XX +XXX,XX @@ static bool fold_andc(OptContext *ctx, TCGOp *op)
       */
      if (arg_is_const(op->args[2])) {
          uint64_t z2 = ~arg_info(op->args[2])->z_mask;
 -        ctx->a_mask = z1 & ~z2;
 +        if (fold_affected_mask(ctx, op, z1 & ~z2)) {
 +            return true;
 +        }
          z1 &= z2;
      }
      ctx->z_mask = z1;
@@ -XXX,XX +XXX,XX @@ static bool fold_extract(OptContext *ctx, TCGOp *op)
      z_mask_old = arg_info(op->args[1])->z_mask;
      z_mask = extract64(z_mask_old, pos, len);
 -    if (pos == 0) {
 -        ctx->a_mask = z_mask_old ^ z_mask;
 +    if (pos == 0 && fold_affected_mask(ctx, op, z_mask_old ^ z_mask)) {
 +        return true;
      }
      ctx->z_mask = z_mask;
      ctx->s_mask = smask_from_zmask(z_mask);
@@ -XXX,XX +XXX,XX @@ static bool fold_exts(OptContext *ctx, TCGOp *op)
      ctx->z_mask = z_mask;
      ctx->s_mask = s_mask;
 -    if (!type_change) {
 -        ctx->a_mask = s_mask & ~s_mask_old;
 +    if (!type_change && fold_affected_mask(ctx, op, s_mask & ~s_mask_old)) {
 +        return true;
      }
      return fold_masks(ctx, op);
@@ -XXX,XX +XXX,XX @@ static bool fold_extu(OptContext *ctx, TCGOp *op)
      ctx->z_mask = z_mask;
      ctx->s_mask = smask_from_zmask(z_mask);
 -    if (!type_change) {
 -        ctx->a_mask = z_mask_old ^ z_mask;
 +    if (!type_change && fold_affected_mask(ctx, op, z_mask_old ^ z_mask)) {
 +        return true;
      }
      return fold_masks(ctx, op);
  }
@@ -XXX,XX +XXX,XX @@ static bool fold_sextract(OptContext *ctx, TCGOp *op)
      s_mask |= MAKE_64BIT_MASK(len, 64 - len);
      ctx->s_mask = s_mask;
 -    if (pos == 0) {
 -        ctx->a_mask = s_mask & ~s_mask_old;
 +    if (pos == 0 && fold_affected_mask(ctx, op, s_mask & ~s_mask_old)) {
 +        return true;
      }
      return fold_masks(ctx, op);
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
          }
          /* Assume all bits affected, no bits known zero, no sign reps. */
 -        ctx.a_mask = -1;
          ctx.z_mask = -1;
          ctx.s_mask = 0;
 --
-.25.1
+.43.0

-New patch
+[PULL 05/72] tcg/optimize: Copy mask writeback to fold_masks
+Use of fold_masks should be restricted to those opcodes that
+can reliably make use of it -- those with a single output,
+and from higher-level folders that set up the masks.
+Prepare for conversion of each folder in turn.
+Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
+Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
+---
+ tcg/optimize.c | 17 ++++++++++++++---
+file changed, 14 insertions(+), 3 deletions(-)
+diff --git a/tcg/optimize.c b/tcg/optimize.c
+index XXXXXXX..XXXXXXX 100644
+--- a/tcg/optimize.c
++++ b/tcg/optimize.c
+@@ -XXX,XX +XXX,XX @@ static bool fold_masks(OptContext *ctx, TCGOp *op)
+ {
+     uint64_t z_mask = ctx->z_mask;
+     uint64_t s_mask = ctx->s_mask;
++    const TCGOpDef *def = &tcg_op_defs[op->opc];
++    TCGTemp *ts;
++    TempOptInfo *ti;
++
++    /* Only single-output opcodes are supported here. */
++    tcg_debug_assert(def->nb_oargs == 1);
+     /*
+      * 32-bit ops generate 32-bit results, which for the purpose of
+@@ -XXX,XX +XXX,XX @@ static bool fold_masks(OptContext *ctx, TCGOp *op)
+     if (ctx->type == TCG_TYPE_I32) {
+         z_mask = (int32_t)z_mask;
+         s_mask |= MAKE_64BIT_MASK(32, 32);
+-        ctx->z_mask = z_mask;
+-        ctx->s_mask = s_mask;
+     }
+     if (z_mask == 0) {
+         return tcg_opt_gen_movi(ctx, op, op->args[0], 0);
+     }
+-    return false;
++
++    ts = arg_temp(op->args[0]);
++    reset_ts(ctx, ts);
++
++    ti = ts_info(ts);
++    ti->z_mask = z_mask;
++    ti->s_mask = s_mask;
++    return true;
+ }
+ /*
+--
+.43.0

-[PULL 46/63] tcg/ppc: Use power10 byte-reverse instructions
+[PULL 06/72] tcg/optimize: Split out fold_masks_zs
-Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
+Add a routine to which masks can be passed directly, rather than
 storing them into OptContext.  To be used in upcoming patches.
 Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- tcg/ppc/tcg-target.c.inc | 34 ++++++++++++++++++++++++++++++++++
+ tcg/optimize.c | 15 ++++++++++++---
-file changed, 34 insertions(+)
+file changed, 12 insertions(+), 3 deletions(-)
-diff --git a/tcg/ppc/tcg-target.c.inc b/tcg/ppc/tcg-target.c.inc
+diff --git a/tcg/optimize.c b/tcg/optimize.c
 index XXXXXXX..XXXXXXX 100644
---- a/tcg/ppc/tcg-target.c.inc
+--- a/tcg/optimize.c
-+++ b/tcg/ppc/tcg-target.c.inc
++++ b/tcg/optimize.c
-@@ -XXX,XX +XXX,XX @@ static bool tcg_target_const_match(int64_t val, TCGType type, int ct)
+@@ -XXX,XX +XXX,XX @@ static bool fold_const2_commutative(OptContext *ctx, TCGOp *op)
- #define SRAD   XO31(794)
+     return fold_const2(ctx, op);
  #define SRADI  XO31(413<<1)
 +#define BRH    XO31(219)
 +#define BRW    XO31(155)
 +#define BRD    XO31(187)
 +
  #define TW     XO31( 4)
  #define TRAP   (TW | TO(31))
@@ -XXX,XX +XXX,XX @@ static inline void tcg_out_ext16s(TCGContext *s, TCGReg dst, TCGReg src)
      tcg_out32(s, EXTSH | RA(dst) | RS(src));
  }
-+static inline void tcg_out_ext16u(TCGContext *s, TCGReg dst, TCGReg src)
+-static bool fold_masks(OptContext *ctx, TCGOp *op)
 +/*
 + * Record "zero" and "sign" masks for the single output of @op.
 + * See TempOptInfo definition of z_mask and s_mask.
 + * If z_mask allows, fold the output to constant zero.
 + */
 +static bool fold_masks_zs(OptContext *ctx, TCGOp *op,
 +                          uint64_t z_mask, uint64_t s_mask)
  {
 -    uint64_t z_mask = ctx->z_mask;
 -    uint64_t s_mask = ctx->s_mask;
      const TCGOpDef *def = &tcg_op_defs[op->opc];
      TCGTemp *ts;
      TempOptInfo *ti;
@@ -XXX,XX +XXX,XX @@ static bool fold_masks(OptContext *ctx, TCGOp *op)
      return true;
  }
 +static bool fold_masks(OptContext *ctx, TCGOp *op)
 +{
-+    tcg_out32(s, ANDI | SAI(src, dst, 0xffff));
++    return fold_masks_zs(ctx, op, ctx->z_mask, ctx->s_mask);
 +}
 +
- static inline void tcg_out_ext32s(TCGContext *s, TCGReg dst, TCGReg src)
+ /*
- {
+  * An "affected" mask bit is 0 if and only if the result is identical
-     tcg_out32(s, EXTSW | RA(dst) | RS(src));
+  * to the first input.  Thus if the entire mask is 0, the operation
@@ -XXX,XX +XXX,XX @@ static void tcg_out_bswap16(TCGContext *s, TCGReg dst, TCGReg src, int flags)
  {
      TCGReg tmp = dst == src ? TCG_REG_R0 : dst;
 +    if (have_isa_3_10) {
 +        tcg_out32(s, BRH | RA(dst) | RS(src));
 +        if (flags & TCG_BSWAP_OS) {
 +            tcg_out_ext16s(s, dst, dst);
 +        } else if ((flags & (TCG_BSWAP_IZ | TCG_BSWAP_OZ)) == TCG_BSWAP_OZ) {
 +            tcg_out_ext16u(s, dst, dst);
 +        }
 +        return;
 +    }
 +
      /*
       * In the following,
       *   dep(a, b, m) -> (a & ~m) | (b & m)
@@ -XXX,XX +XXX,XX @@ static void tcg_out_bswap32(TCGContext *s, TCGReg dst, TCGReg src, int flags)
  {
      TCGReg tmp = dst == src ? TCG_REG_R0 : dst;
 +    if (have_isa_3_10) {
 +        tcg_out32(s, BRW | RA(dst) | RS(src));
 +        if (flags & TCG_BSWAP_OS) {
 +            tcg_out_ext32s(s, dst, dst);
 +        } else if ((flags & (TCG_BSWAP_IZ | TCG_BSWAP_OZ)) == TCG_BSWAP_OZ) {
 +            tcg_out_ext32u(s, dst, dst);
 +        }
 +        return;
 +    }
 +
      /*
       * Stolen from gcc's builtin_bswap32.
       * In the following,
@@ -XXX,XX +XXX,XX @@ static void tcg_out_bswap64(TCGContext *s, TCGReg dst, TCGReg src)
      TCGReg t0 = dst == src ? TCG_REG_R0 : dst;
      TCGReg t1 = dst == src ? dst : TCG_REG_R0;
 +    if (have_isa_3_10) {
 +        tcg_out32(s, BRD | RA(dst) | RS(src));
 +        return;
 +    }
 +
      /*
       * In the following,
       *   dep(a, b, m) -> (a & ~m) | (b & m)
 --
-.25.1
+.43.0

-[PULL 10/63] target/avr: Add DisasContextBase to DisasContext
+[PULL 07/72] tcg/optimize: Augment s_mask from z_mask in fold_masks_zs
-Migrate the bstate, tb and singlestep_enabled fields
+Consider the passed s_mask to be a minimum deduced from
-from DisasContext into the base.
+either existing s_mask or from a sign-extension operation.
 We may be able to deduce more from the set of known zeros.
 Remove identical logic from several opcode folders.
-Tested-by: Michael Rolnik <mrolnik@gmail.com>
+Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
 Reviewed-by: Michael Rolnik <mrolnik@gmail.com>
 Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- target/avr/translate.c | 58 +++++++++++++++++++++---------------------
+ tcg/optimize.c | 21 ++++++---------------
-file changed, 29 insertions(+), 29 deletions(-)
+file changed, 6 insertions(+), 15 deletions(-)
-diff --git a/target/avr/translate.c b/target/avr/translate.c
+diff --git a/tcg/optimize.c b/tcg/optimize.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/avr/translate.c
+--- a/tcg/optimize.c
-+++ b/target/avr/translate.c
++++ b/tcg/optimize.c
-@@ -XXX,XX +XXX,XX @@ typedef struct DisasContext DisasContext;
+@@ -XXX,XX +XXX,XX @@ static bool fold_const2_commutative(OptContext *ctx, TCGOp *op)
+  * Record "zero" and "sign" masks for the single output of @op.
- /* This is the state at translation time. */
+  * See TempOptInfo definition of z_mask and s_mask.
- struct DisasContext {
+  * If z_mask allows, fold the output to constant zero.
--    TranslationBlock *tb;
++ * The passed s_mask may be augmented by z_mask.
-+    DisasContextBase base;
+  */
+ static bool fold_masks_zs(OptContext *ctx, TCGOp *op,
-     CPUAVRState *env;
+                           uint64_t z_mask, uint64_t s_mask)
-     CPUState *cs;
+@@ -XXX,XX +XXX,XX @@ static bool fold_masks_zs(OptContext *ctx, TCGOp *op,
-@@ -XXX,XX +XXX,XX @@ struct DisasContext {
+     ti = ts_info(ts);
-     /* Routine used to access memory */
+     ti->z_mask = z_mask;
-     int memidx;
+-    ti->s_mask = s_mask;
--    int bstate;
++    ti->s_mask = s_mask | smask_from_zmask(z_mask);
 -    int singlestep;
      /*
       * some AVR instructions can make the following instruction to be skipped
@@ -XXX,XX +XXX,XX @@ static bool avr_have_feature(DisasContext *ctx, int feature)
  {
      if (!avr_feature(ctx->env, feature)) {
          gen_helper_unsupported(cpu_env);
 -        ctx->bstate = DISAS_NORETURN;
 +        ctx->base.is_jmp = DISAS_NORETURN;
          return false;
      }
      return true;
@@ -XXX,XX +XXX,XX @@ static void gen_jmp_ez(DisasContext *ctx)
  {
      tcg_gen_deposit_tl(cpu_pc, cpu_r[30], cpu_r[31], 8, 8);
      tcg_gen_or_tl(cpu_pc, cpu_pc, cpu_eind);
 -    ctx->bstate = DISAS_LOOKUP;
 +    ctx->base.is_jmp = DISAS_LOOKUP;
  }
  static void gen_jmp_z(DisasContext *ctx)
  {
      tcg_gen_deposit_tl(cpu_pc, cpu_r[30], cpu_r[31], 8, 8);
 -    ctx->bstate = DISAS_LOOKUP;
 +    ctx->base.is_jmp = DISAS_LOOKUP;
  }
  static void gen_push_ret(DisasContext *ctx, int ret)
@@ -XXX,XX +XXX,XX @@ static void gen_pop_ret(DisasContext *ctx, TCGv ret)
  static void gen_goto_tb(DisasContext *ctx, int n, target_ulong dest)
  {
 -    TranslationBlock *tb = ctx->tb;
 +    const TranslationBlock *tb = ctx->base.tb;
 -    if (ctx->singlestep == 0) {
 +    if (!ctx->base.singlestep_enabled) {
          tcg_gen_goto_tb(n);
          tcg_gen_movi_i32(cpu_pc, dest);
          tcg_gen_exit_tb(tb, n);
@@ -XXX,XX +XXX,XX @@ static void gen_goto_tb(DisasContext *ctx, int n, target_ulong dest)
          gen_helper_debug(cpu_env);
          tcg_gen_exit_tb(NULL, 0);
      }
 -    ctx->bstate = DISAS_NORETURN;
 +    ctx->base.is_jmp = DISAS_NORETURN;
  }
  /*
@@ -XXX,XX +XXX,XX @@ static bool trans_RET(DisasContext *ctx, arg_RET *a)
  {
      gen_pop_ret(ctx, cpu_pc);
 -    ctx->bstate = DISAS_LOOKUP;
 +    ctx->base.is_jmp = DISAS_LOOKUP;
      return true;
  }
-@@ -XXX,XX +XXX,XX @@ static bool trans_RETI(DisasContext *ctx, arg_RETI *a)
+@@ -XXX,XX +XXX,XX @@ static bool fold_bswap(OptContext *ctx, TCGOp *op)
-     tcg_gen_movi_tl(cpu_If, 1);
+     default:
+         g_assert_not_reached();
-     /* Need to return to main loop to re-evaluate interrupts.  */
+     }
--    ctx->bstate = DISAS_EXIT;
+-    s_mask = smask_from_zmask(z_mask);
-+    ctx->base.is_jmp = DISAS_EXIT;
-     return true;
++    s_mask = 0;
      switch (op->args[2] & (TCG_BSWAP_OZ | TCG_BSWAP_OS)) {
      case TCG_BSWAP_OZ:
          break;
@@ -XXX,XX +XXX,XX @@ static bool fold_bswap(OptContext *ctx, TCGOp *op)
      default:
          /* The high bits are undefined: force all bits above the sign to 1. */
          z_mask |= sign << 1;
 -        s_mask = 0;
          break;
      }
      ctx->z_mask = z_mask;
@@ -XXX,XX +XXX,XX @@ static bool fold_count_zeros(OptContext *ctx, TCGOp *op)
          g_assert_not_reached();
      }
      ctx->z_mask = arg_info(op->args[2])->z_mask | z_mask;
 -    ctx->s_mask = smask_from_zmask(ctx->z_mask);
      return false;
  }
-@@ -XXX,XX +XXX,XX @@ static bool trans_BRBC(DisasContext *ctx, arg_BRBC *a)
+@@ -XXX,XX +XXX,XX @@ static bool fold_ctpop(OptContext *ctx, TCGOp *op)
-     gen_goto_tb(ctx, 0, ctx->npc + a->imm);
+     default:
-     gen_set_label(not_taken);
+         g_assert_not_reached();
+     }
--    ctx->bstate = DISAS_CHAIN;
+-    ctx->s_mask = smask_from_zmask(ctx->z_mask);
-+    ctx->base.is_jmp = DISAS_CHAIN;
+     return false;
      return true;
  }
-@@ -XXX,XX +XXX,XX @@ static bool trans_BRBS(DisasContext *ctx, arg_BRBS *a)
+@@ -XXX,XX +XXX,XX @@ static bool fold_extract(OptContext *ctx, TCGOp *op)
-     gen_goto_tb(ctx, 0, ctx->npc + a->imm);
+         return true;
-     gen_set_label(not_taken);
+     }
+     ctx->z_mask = z_mask;
--    ctx->bstate = DISAS_CHAIN;
+-    ctx->s_mask = smask_from_zmask(z_mask);
-+    ctx->base.is_jmp = DISAS_CHAIN;
-     return true;
+     return fold_masks(ctx, op);
  }
+@@ -XXX,XX +XXX,XX @@ static bool fold_extu(OptContext *ctx, TCGOp *op)
-@@ -XXX,XX +XXX,XX @@ static TCGv gen_get_zaddr(void)
+     }
-  */
- static void gen_data_store(DisasContext *ctx, TCGv data, TCGv addr)
+     ctx->z_mask = z_mask;
- {
+-    ctx->s_mask = smask_from_zmask(z_mask);
--    if (ctx->tb->flags & TB_FLAGS_FULL_ACCESS) {
+     if (!type_change && fold_affected_mask(ctx, op, z_mask_old ^ z_mask)) {
-+    if (ctx->base.tb->flags & TB_FLAGS_FULL_ACCESS) {
+         return true;
-         gen_helper_fullwr(cpu_env, data, addr);
+     }
-     } else {
+@@ -XXX,XX +XXX,XX @@ static bool fold_qemu_ld(OptContext *ctx, TCGOp *op)
-         tcg_gen_qemu_st8(data, addr, MMU_DATA_IDX); /* mem[addr] = data */
+     int width = 8 * memop_size(mop);
-@@ -XXX,XX +XXX,XX @@ static void gen_data_store(DisasContext *ctx, TCGv data, TCGv addr)
+     if (width < 64) {
- static void gen_data_load(DisasContext *ctx, TCGv data, TCGv addr)
+-        ctx->s_mask = MAKE_64BIT_MASK(width, 64 - width);
- {
+-        if (!(mop & MO_SIGN)) {
--    if (ctx->tb->flags & TB_FLAGS_FULL_ACCESS) {
++        if (mop & MO_SIGN) {
-+    if (ctx->base.tb->flags & TB_FLAGS_FULL_ACCESS) {
++            ctx->s_mask = MAKE_64BIT_MASK(width, 64 - width);
-         gen_helper_fullrd(data, cpu_env, addr);
++        } else {
-     } else {
+             ctx->z_mask = MAKE_64BIT_MASK(0, width);
-         tcg_gen_qemu_ld8u(data, addr, MMU_DATA_IDX); /* data = mem[addr] */
+-            ctx->s_mask <<= 1;
-@@ -XXX,XX +XXX,XX @@ static bool trans_BREAK(DisasContext *ctx, arg_BREAK *a)
+         }
- #ifdef BREAKPOINT_ON_BREAK
+     }
-     tcg_gen_movi_tl(cpu_pc, ctx->npc - 1);
-     gen_helper_debug(cpu_env);
+@@ -XXX,XX +XXX,XX @@ static bool fold_setcond(OptContext *ctx, TCGOp *op)
--    ctx->bstate = DISAS_EXIT;
+     fold_setcond_tst_pow2(ctx, op, false);
-+    ctx->base.is_jmp = DISAS_EXIT;
- #else
+     ctx->z_mask = 1;
-     /* NOP */
+-    ctx->s_mask = smask_from_zmask(1);
- #endif
+     return false;
@@ -XXX,XX +XXX,XX @@ static bool trans_NOP(DisasContext *ctx, arg_NOP *a)
  static bool trans_SLEEP(DisasContext *ctx, arg_SLEEP *a)
  {
      gen_helper_sleep(cpu_env);
 -    ctx->bstate = DISAS_NORETURN;
 +    ctx->base.is_jmp = DISAS_NORETURN;
      return true;
  }
-@@ -XXX,XX +XXX,XX @@ static void translate(DisasContext *ctx)
+@@ -XXX,XX +XXX,XX @@ static bool fold_setcond2(OptContext *ctx, TCGOp *op)
      if (!decode_insn(ctx, opcode)) {
          gen_helper_unsupported(cpu_env);
 -        ctx->bstate = DISAS_NORETURN;
 +        ctx->base.is_jmp = DISAS_NORETURN;
      }
- }
+     ctx->z_mask = 1;
-@@ -XXX,XX +XXX,XX @@ void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int max_insns)
+-    ctx->s_mask = smask_from_zmask(1);
- {
+     return false;
-     CPUAVRState *env = cs->env_ptr;
-     DisasContext ctx = {
+  do_setcond_const:
--        .tb = tb,
+@@ -XXX,XX +XXX,XX @@ static bool fold_tcg_ld(OptContext *ctx, TCGOp *op)
 +        .base.tb = tb,
 +        .base.is_jmp = DISAS_NEXT,
 +        .base.pc_first = tb->pc,
 +        .base.pc_next = tb->pc,
 +        .base.singlestep_enabled = cs->singlestep_enabled,
          .cs = cs,
          .env = env,
          .memidx = 0,
 -        .bstate = DISAS_NEXT,
          .skip_cond = TCG_COND_NEVER,
 -        .singlestep = cs->singlestep_enabled,
      };
      target_ulong pc_start = tb->pc / 2;
      int num_insns = 0;
@@ -XXX,XX +XXX,XX @@ void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int max_insns)
           */
          max_insns = 1;
      }
 -    if (ctx.singlestep) {
 +    if (ctx.base.singlestep_enabled) {
          max_insns = 1;
      }
@@ -XXX,XX +XXX,XX @@ void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int max_insns)
           * b main   - sets breakpoint at address 0x00000100 (code)
           * b *0x100 - sets breakpoint at address 0x00800100 (data)
           */
 -        if (unlikely(!ctx.singlestep &&
 +        if (unlikely(!ctx.base.singlestep_enabled &&
                  (cpu_breakpoint_test(cs, OFFSET_CODE + ctx.npc * 2, BP_ANY) ||
                   cpu_breakpoint_test(cs, OFFSET_DATA + ctx.npc * 2, BP_ANY)))) {
              canonicalize_skip(&ctx);
@@ -XXX,XX +XXX,XX @@ void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int max_insns)
          if (skip_label) {
              canonicalize_skip(&ctx);
              gen_set_label(skip_label);
 -            if (ctx.bstate == DISAS_NORETURN) {
 -                ctx.bstate = DISAS_CHAIN;
 +            if (ctx.base.is_jmp == DISAS_NORETURN) {
 +                ctx.base.is_jmp = DISAS_CHAIN;
              }
          }
 -    } while (ctx.bstate == DISAS_NEXT
 +    } while (ctx.base.is_jmp == DISAS_NEXT
               && num_insns < max_insns
               && (ctx.npc - pc_start) * 2 < TARGET_PAGE_SIZE - 4
               && !tcg_op_buf_full());
@@ -XXX,XX +XXX,XX @@ void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int max_insns)
      bool nonconst_skip = canonicalize_skip(&ctx);
 -    switch (ctx.bstate) {
 +    switch (ctx.base.is_jmp) {
      case DISAS_NORETURN:
          assert(!nonconst_skip);
          break;
-@@ -XXX,XX +XXX,XX @@ void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int max_insns)
+     CASE_OP_32_64(ld8u):
-         tcg_gen_movi_tl(cpu_pc, ctx.npc);
+         ctx->z_mask = MAKE_64BIT_MASK(0, 8);
-         /* fall through */
+-        ctx->s_mask = MAKE_64BIT_MASK(9, 55);
-     case DISAS_LOOKUP:
+         break;
--        if (!ctx.singlestep) {
+     CASE_OP_32_64(ld16s):
-+        if (!ctx.base.singlestep_enabled) {
+         ctx->s_mask = MAKE_64BIT_MASK(16, 48);
-             tcg_gen_lookup_and_goto_ptr();
+         break;
-             break;
+     CASE_OP_32_64(ld16u):
-         }
+         ctx->z_mask = MAKE_64BIT_MASK(0, 16);
-         /* fall through */
+-        ctx->s_mask = MAKE_64BIT_MASK(17, 47);
-     case DISAS_EXIT:
+         break;
--        if (ctx.singlestep) {
+     case INDEX_op_ld32s_i64:
-+        if (ctx.base.singlestep_enabled) {
+         ctx->s_mask = MAKE_64BIT_MASK(32, 32);
-             gen_helper_debug(cpu_env);
+         break;
-         } else {
+     case INDEX_op_ld32u_i64:
-             tcg_gen_exit_tb(NULL, 0);
+         ctx->z_mask = MAKE_64BIT_MASK(0, 32);
 -        ctx->s_mask = MAKE_64BIT_MASK(33, 31);
          break;
      default:
          g_assert_not_reached();
 --
-.25.1
+.43.0

-New patch
+[PULL 08/72] tcg/optimize: Change representation of s_mask
+Change the representation from sign bit repetitions to all bits equal
+to the sign bit, including the sign bit itself.
+The previous format has a problem in that it is difficult to recreate
+a valid sign mask after a shift operation: the "repetitions" part of
+the previous format meant that applying the same shift as for the value
+lead to an off-by-one value.
+The new format, including the sign bit itself, means that the sign mask
+can be manipulated in exactly the same way as the value, canonicalization
+is easier.
+Canonicalize the s_mask in fold_masks_zs, rather than requiring callers
+to do so.  Treat 0 as a non-canonical but typeless input for no sign
+information, which will be reset as appropriate for the data type.
+We can easily fold in the data from z_mask while canonicalizing.
+Temporarily disable optimizations using s_mask while each operation is
+converted to use fold_masks_zs and to the new form.
+Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
+Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
+---
+ tcg/optimize.c | 64 ++++++++++++--------------------------------------
+file changed, 15 insertions(+), 49 deletions(-)
+diff --git a/tcg/optimize.c b/tcg/optimize.c
+index XXXXXXX..XXXXXXX 100644
+--- a/tcg/optimize.c
++++ b/tcg/optimize.c
+@@ -XXX,XX +XXX,XX @@ typedef struct TempOptInfo {
+     QSIMPLEQ_HEAD(, MemCopyInfo) mem_copy;
+     uint64_t val;
+     uint64_t z_mask;  /* mask bit is 0 if and only if value bit is 0 */
+-    uint64_t s_mask;  /* a left-aligned mask of clrsb(value) bits. */
++    uint64_t s_mask;  /* mask bit is 1 if value bit matches msb */
+ } TempOptInfo;
+ typedef struct OptContext {
+@@ -XXX,XX +XXX,XX @@ typedef struct OptContext {
+     /* In flight values from optimization. */
+     uint64_t z_mask;  /* mask bit is 0 iff value bit is 0 */
+-    uint64_t s_mask;  /* mask of clrsb(value) bits */
++    uint64_t s_mask;  /* mask bit is 1 if value bit matches msb */
+     TCGType type;
+ } OptContext;
+-/* Calculate the smask for a specific value. */
+-static uint64_t smask_from_value(uint64_t value)
+-{
+-    int rep = clrsb64(value);
+-    return ~(~0ull >> rep);
+-}
+-
+-/*
+- * Calculate the smask for a given set of known-zeros.
+- * If there are lots of zeros on the left, we can consider the remainder
+- * an unsigned field, and thus the corresponding signed field is one bit
+- * larger.
+- */
+-static uint64_t smask_from_zmask(uint64_t zmask)
+-{
+-    /*
+-     * Only the 0 bits are significant for zmask, thus the msb itself
+-     * must be zero, else we have no sign information.
+-     */
+-    int rep = clz64(zmask);
+-    if (rep == 0) {
+-        return 0;
+-    }
+-    rep -= 1;
+-    return ~(~0ull >> rep);
+-}
+-
+-/*
+- * Recreate a properly left-aligned smask after manipulation.
+- * Some bit-shuffling, particularly shifts and rotates, may
+- * retain sign bits on the left, but may scatter disconnected
+- * sign bits on the right.  Retain only what remains to the left.
+- */
+-static uint64_t smask_from_smask(int64_t smask)
+-{
+-    /* Only the 1 bits are significant for smask */
+-    return smask_from_zmask(~smask);
+-}
+-
+ static inline TempOptInfo *ts_info(TCGTemp *ts)
+ {
+     return ts->state_ptr;
+@@ -XXX,XX +XXX,XX @@ static void init_ts_info(OptContext *ctx, TCGTemp *ts)
+         ti->is_const = true;
+         ti->val = ts->val;
+         ti->z_mask = ts->val;
+-        ti->s_mask = smask_from_value(ts->val);
++        ti->s_mask = INT64_MIN >> clrsb64(ts->val);
+     } else {
+         ti->is_const = false;
+         ti->z_mask = -1;
+@@ -XXX,XX +XXX,XX @@ static void finish_folding(OptContext *ctx, TCGOp *op)
+          */
+         if (i == 0) {
+             ts_info(ts)->z_mask = ctx->z_mask;
+-            ts_info(ts)->s_mask = ctx->s_mask;
+         }
+     }
+ }
+@@ -XXX,XX +XXX,XX @@ static bool fold_const2_commutative(OptContext *ctx, TCGOp *op)
+  * The passed s_mask may be augmented by z_mask.
+  */
+ static bool fold_masks_zs(OptContext *ctx, TCGOp *op,
+-                          uint64_t z_mask, uint64_t s_mask)
++                          uint64_t z_mask, int64_t s_mask)
+ {
+     const TCGOpDef *def = &tcg_op_defs[op->opc];
+     TCGTemp *ts;
+     TempOptInfo *ti;
++    int rep;
+     /* Only single-output opcodes are supported here. */
+     tcg_debug_assert(def->nb_oargs == 1);
+@@ -XXX,XX +XXX,XX @@ static bool fold_masks_zs(OptContext *ctx, TCGOp *op,
+      */
+     if (ctx->type == TCG_TYPE_I32) {
+         z_mask = (int32_t)z_mask;
+-        s_mask |= MAKE_64BIT_MASK(32, 32);
++        s_mask |= INT32_MIN;
+     }
+     if (z_mask == 0) {
+@@ -XXX,XX +XXX,XX @@ static bool fold_masks_zs(OptContext *ctx, TCGOp *op,
+     ti = ts_info(ts);
+     ti->z_mask = z_mask;
+-    ti->s_mask = s_mask | smask_from_zmask(z_mask);
++
++    /* Canonicalize s_mask and incorporate data from z_mask. */
++    rep = clz64(~s_mask);
++    rep = MAX(rep, clz64(z_mask));
++    rep = MAX(rep - 1, 0);
++    ti->s_mask = INT64_MIN >> rep;
++
+     return true;
+ }
+@@ -XXX,XX +XXX,XX @@ static bool fold_exts(OptContext *ctx, TCGOp *op)
+     ctx->z_mask = z_mask;
+     ctx->s_mask = s_mask;
+-    if (!type_change && fold_affected_mask(ctx, op, s_mask & ~s_mask_old)) {
++    if (0 && !type_change && fold_affected_mask(ctx, op, s_mask & ~s_mask_old)) {
+         return true;
+     }
+@@ -XXX,XX +XXX,XX @@ static bool fold_sextract(OptContext *ctx, TCGOp *op)
+     s_mask |= MAKE_64BIT_MASK(len, 64 - len);
+     ctx->s_mask = s_mask;
+-    if (pos == 0 && fold_affected_mask(ctx, op, s_mask & ~s_mask_old)) {
++    if (0 && pos == 0 && fold_affected_mask(ctx, op, s_mask & ~s_mask_old)) {
+         return true;
+     }
+@@ -XXX,XX +XXX,XX @@ static bool fold_shift(OptContext *ctx, TCGOp *op)
+         ctx->z_mask = do_constant_folding(op->opc, ctx->type, z_mask, sh);
+         s_mask = do_constant_folding(op->opc, ctx->type, s_mask, sh);
+-        ctx->s_mask = smask_from_smask(s_mask);
+         return fold_masks(ctx, op);
+     }
+--
+.43.0

-[PULL 09/63] target/nios2: Use pc_next for pc + 4
+[PULL 09/72] tcg/optimize: Use finish_folding in fold_add, fold_add_vec, fold_addsub2
-We have pre-computed the next instruction address into
+Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
 dc->base.pc_next, so we might as well use it.
 Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
 Suggested-by: Peter Maydell <peter.maydell@linaro.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- target/nios2/translate.c | 12 ++++++------
+ tcg/optimize.c | 9 +++++----
-file changed, 6 insertions(+), 6 deletions(-)
+file changed, 5 insertions(+), 4 deletions(-)
-diff --git a/target/nios2/translate.c b/target/nios2/translate.c
+diff --git a/tcg/optimize.c b/tcg/optimize.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/nios2/translate.c
+--- a/tcg/optimize.c
-+++ b/target/nios2/translate.c
++++ b/tcg/optimize.c
-@@ -XXX,XX +XXX,XX @@ static void jmpi(DisasContext *dc, uint32_t code, uint32_t flags)
+@@ -XXX,XX +XXX,XX @@ static void finish_ebb(OptContext *ctx)
+     remove_mem_copy_all(ctx);
- static void call(DisasContext *dc, uint32_t code, uint32_t flags)
+ }
 -static void finish_folding(OptContext *ctx, TCGOp *op)
 +static bool finish_folding(OptContext *ctx, TCGOp *op)
  {
--    tcg_gen_movi_tl(cpu_R[R_RA], dc->pc + 4);
+     const TCGOpDef *def = &tcg_op_defs[op->opc];
-+    tcg_gen_movi_tl(cpu_R[R_RA], dc->base.pc_next);
+     int i, nb_oargs;
-     jmpi(dc, code, flags);
+@@ -XXX,XX +XXX,XX @@ static void finish_folding(OptContext *ctx, TCGOp *op)
              ts_info(ts)->z_mask = ctx->z_mask;
          }
      }
 +    return true;
  }
-@@ -XXX,XX +XXX,XX @@ static void br(DisasContext *dc, uint32_t code, uint32_t flags)
+ /*
- {
+@@ -XXX,XX +XXX,XX @@ static bool fold_add(OptContext *ctx, TCGOp *op)
-     I_TYPE(instr, code);
+         fold_xi_to_x(ctx, op, 0)) {
+         return true;
--    gen_goto_tb(dc, 0, dc->pc + 4 + (instr.imm16.s & -4));
+     }
-+    gen_goto_tb(dc, 0, dc->base.pc_next + (instr.imm16.s & -4));
+-    return false;
-     dc->base.is_jmp = DISAS_NORETURN;
++    return finish_folding(ctx, op);
  }
-@@ -XXX,XX +XXX,XX @@ static void gen_bxx(DisasContext *dc, uint32_t code, uint32_t flags)
+ /* We cannot as yet do_constant_folding with vectors. */
+@@ -XXX,XX +XXX,XX @@ static bool fold_add_vec(OptContext *ctx, TCGOp *op)
-     TCGLabel *l1 = gen_new_label();
+         fold_xi_to_x(ctx, op, 0)) {
-     tcg_gen_brcond_tl(flags, cpu_R[instr.a], cpu_R[instr.b], l1);
+         return true;
--    gen_goto_tb(dc, 0, dc->pc + 4);
+     }
-+    gen_goto_tb(dc, 0, dc->base.pc_next);
+-    return false;
-     gen_set_label(l1);
++    return finish_folding(ctx, op);
 -    gen_goto_tb(dc, 1, dc->pc + 4 + (instr.imm16.s & -4));
 +    gen_goto_tb(dc, 1, dc->base.pc_next + (instr.imm16.s & -4));
      dc->base.is_jmp = DISAS_NORETURN;
  }
-@@ -XXX,XX +XXX,XX @@ static void nextpc(DisasContext *dc, uint32_t code, uint32_t flags)
+ static bool fold_addsub2(OptContext *ctx, TCGOp *op, bool add)
-     R_TYPE(instr, code);
+@@ -XXX,XX +XXX,XX @@ static bool fold_addsub2(OptContext *ctx, TCGOp *op, bool add)
+         op->args[4] = arg_new_constant(ctx, bl);
-     if (likely(instr.c != R_ZERO)) {
+         op->args[5] = arg_new_constant(ctx, bh);
 -        tcg_gen_movi_tl(cpu_R[instr.c], dc->pc + 4);
 +        tcg_gen_movi_tl(cpu_R[instr.c], dc->base.pc_next);
      }
+-    return false;
++    return finish_folding(ctx, op);
  }
-@@ -XXX,XX +XXX,XX @@ static void callr(DisasContext *dc, uint32_t code, uint32_t flags)
+ static bool fold_add2(OptContext *ctx, TCGOp *op)
      R_TYPE(instr, code);
      tcg_gen_mov_tl(cpu_R[R_PC], load_gpr(dc, instr.a));
 -    tcg_gen_movi_tl(cpu_R[R_RA], dc->pc + 4);
 +    tcg_gen_movi_tl(cpu_R[R_RA], dc->base.pc_next);
      dc->base.is_jmp = DISAS_JUMP;
  }
 --
-.25.1
+.43.0

-[PULL 40/63] tcg/ppc: Split out tcg_out_ext{8,16,32}s
+[PULL 10/72] tcg/optimize: Introduce const value accessors for TempOptInfo
-We will shortly require these in other context;
+Introduce ti_is_const, ti_const_val, ti_is_const_val.
 make the expansion as clear as possible.
-Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
-Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- tcg/ppc/tcg-target.c.inc | 31 +++++++++++++++++++++----------
+ tcg/optimize.c | 20 +++++++++++++++++---
-file changed, 21 insertions(+), 10 deletions(-)
+file changed, 17 insertions(+), 3 deletions(-)
-diff --git a/tcg/ppc/tcg-target.c.inc b/tcg/ppc/tcg-target.c.inc
+diff --git a/tcg/optimize.c b/tcg/optimize.c
 index XXXXXXX..XXXXXXX 100644
---- a/tcg/ppc/tcg-target.c.inc
+--- a/tcg/optimize.c
-+++ b/tcg/ppc/tcg-target.c.inc
++++ b/tcg/optimize.c
-@@ -XXX,XX +XXX,XX @@ static inline void tcg_out_rlw(TCGContext *s, int op, TCGReg ra, TCGReg rs,
+@@ -XXX,XX +XXX,XX @@ static inline TempOptInfo *arg_info(TCGArg arg)
-     tcg_out32(s, op | RA(ra) | RS(rs) | SH(sh) | MB(mb) | ME(me));
+     return ts_info(arg_temp(arg));
  }
-+static inline void tcg_out_ext8s(TCGContext *s, TCGReg dst, TCGReg src)
++static inline bool ti_is_const(TempOptInfo *ti)
 +{
-+    tcg_out32(s, EXTSB | RA(dst) | RS(src));
++    return ti->is_const;
 +}
 +
-+static inline void tcg_out_ext16s(TCGContext *s, TCGReg dst, TCGReg src)
++static inline uint64_t ti_const_val(TempOptInfo *ti)
 +{
-+    tcg_out32(s, EXTSH | RA(dst) | RS(src));
++    return ti->val;
 +}
 +
-+static inline void tcg_out_ext32s(TCGContext *s, TCGReg dst, TCGReg src)
++static inline bool ti_is_const_val(TempOptInfo *ti, uint64_t val)
 +{
-+    tcg_out32(s, EXTSW | RA(dst) | RS(src));
++    return ti_is_const(ti) && ti_const_val(ti) == val;
 +}
 +
- static inline void tcg_out_ext32u(TCGContext *s, TCGReg dst, TCGReg src)
+ static inline bool ts_is_const(TCGTemp *ts)
  {
-     tcg_out_rld(s, RLDICL, dst, src, 0, 32);
+-    return ts_info(ts)->is_const;
-@@ -XXX,XX +XXX,XX @@ static void tcg_out_op(TCGContext *s, TCGOpcode opc,
++    return ti_is_const(ts_info(ts));
-                        const int const_args[TCG_MAX_OP_ARGS])
+ }
  static inline bool ts_is_const_val(TCGTemp *ts, uint64_t val)
  {
-     TCGArg a0, a1, a2;
+-    TempOptInfo *ti = ts_info(ts);
--    int c;
+-    return ti->is_const && ti->val == val;
++    return ti_is_const_val(ts_info(ts), val);
-     switch (opc) {
+ }
-     case INDEX_op_exit_tb:
-@@ -XXX,XX +XXX,XX @@ static void tcg_out_op(TCGContext *s, TCGOpcode opc,
+ static inline bool arg_is_const(TCGArg arg)
      case INDEX_op_ld8s_i32:
      case INDEX_op_ld8s_i64:
          tcg_out_mem_long(s, LBZ, LBZX, args[0], args[1], args[2]);
 -        tcg_out32(s, EXTSB | RS(args[0]) | RA(args[0]));
 +        tcg_out_ext8s(s, args[0], args[0]);
          break;
      case INDEX_op_ld16u_i32:
      case INDEX_op_ld16u_i64:
@@ -XXX,XX +XXX,XX @@ static void tcg_out_op(TCGContext *s, TCGOpcode opc,
      case INDEX_op_ext8s_i32:
      case INDEX_op_ext8s_i64:
 -        c = EXTSB;
 -        goto gen_ext;
 +        tcg_out_ext8s(s, args[0], args[1]);
 +        break;
      case INDEX_op_ext16s_i32:
      case INDEX_op_ext16s_i64:
 -        c = EXTSH;
 -        goto gen_ext;
 +        tcg_out_ext16s(s, args[0], args[1]);
 +        break;
      case INDEX_op_ext_i32_i64:
      case INDEX_op_ext32s_i64:
 -        c = EXTSW;
 -        goto gen_ext;
 -    gen_ext:
 -        tcg_out32(s, c | RS(args[1]) | RA(args[0]));
 +        tcg_out_ext32s(s, args[0], args[1]);
          break;
      case INDEX_op_extu_i32_i64:
          tcg_out_ext32u(s, args[0], args[1]);
 --
-.25.1
+.43.0

-[PULL 39/63] tcg/arm: Support bswap flags
+[PULL 11/72] tcg/optimize: Use fold_masks_zs in fold_and
-Combine the three bswap16 routines, and differentiate via the flags.
+Avoid the use of the OptContext slots.  Find TempOptInfo once.
-Use the correct flags combination from the load/store routines, and
+Sink mask computation below fold_affected_mask early exit.
 pass along the constant parameter from tcg_out_op.
-Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
+Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- tcg/arm/tcg-target.c.inc | 101 ++++++++++++++++++++++++---------------
+ tcg/optimize.c | 30 ++++++++++++++++--------------
-file changed, 63 insertions(+), 38 deletions(-)
+file changed, 16 insertions(+), 14 deletions(-)
-diff --git a/tcg/arm/tcg-target.c.inc b/tcg/arm/tcg-target.c.inc
+diff --git a/tcg/optimize.c b/tcg/optimize.c
 index XXXXXXX..XXXXXXX 100644
---- a/tcg/arm/tcg-target.c.inc
+--- a/tcg/optimize.c
-+++ b/tcg/arm/tcg-target.c.inc
++++ b/tcg/optimize.c
-@@ -XXX,XX +XXX,XX @@ static inline void tcg_out_ext16u(TCGContext *s, int cond,
+@@ -XXX,XX +XXX,XX @@ static bool fold_add2(OptContext *ctx, TCGOp *op)
  static bool fold_and(OptContext *ctx, TCGOp *op)
  {
 -    uint64_t z1, z2;
 +    uint64_t z1, z2, z_mask, s_mask;
 +    TempOptInfo *t1, *t2;
      if (fold_const2_commutative(ctx, op) ||
          fold_xi_to_i(ctx, op, 0) ||
@@ -XXX,XX +XXX,XX @@ static bool fold_and(OptContext *ctx, TCGOp *op)
          return true;
      }
- }
+-    z1 = arg_info(op->args[1])->z_mask;
--static inline void tcg_out_bswap16s(TCGContext *s, int cond, int rd, int rn)
+-    z2 = arg_info(op->args[2])->z_mask;
-+static void tcg_out_bswap16(TCGContext *s, int cond, int rd, int rn, int flags)
+-    ctx->z_mask = z1 & z2;
- {
+-
-     if (use_armv6_instructions) {
+-    /*
--        /* revsh */
+-     * Sign repetitions are perforce all identical, whether they are 1 or 0.
--        tcg_out32(s, 0x06ff0fb0 | (cond << 28) | (rd << 12) | rn);
+-     * Bitwise operations preserve the relative quantity of the repetitions.
--    } else {
+-     */
--        tcg_out_dat_reg(s, cond, ARITH_MOV,
+-    ctx->s_mask = arg_info(op->args[1])->s_mask
--                        TCG_REG_TMP, 0, rn, SHIFT_IMM_LSL(24));
+-                & arg_info(op->args[2])->s_mask;
--        tcg_out_dat_reg(s, cond, ARITH_MOV,
++    t1 = arg_info(op->args[1]);
--                        TCG_REG_TMP, 0, TCG_REG_TMP, SHIFT_IMM_ASR(16));
++    t2 = arg_info(op->args[2]);
--        tcg_out_dat_reg(s, cond, ARITH_ORR,
++    z1 = t1->z_mask;
--                        rd, TCG_REG_TMP, rn, SHIFT_IMM_LSR(8));
++    z2 = t2->z_mask;
--    }
--}
+     /*
-+        if (flags & TCG_BSWAP_OS) {
+      * Known-zeros does not imply known-ones.  Therefore unless
-+            /* revsh */
+      * arg2 is constant, we can't infer affected bits from it.
-+            tcg_out32(s, 0x06ff0fb0 | (cond << 28) | (rd << 12) | rn);
+      */
-+            return;
+-    if (arg_is_const(op->args[2]) &&
-+        }
+-        fold_affected_mask(ctx, op, z1 & ~z2)) {
++    if (ti_is_const(t2) && fold_affected_mask(ctx, op, z1 & ~z2)) {
--static inline void tcg_out_bswap16(TCGContext *s, int cond, int rd, int rn)
+         return true;
 -{
 -    if (use_armv6_instructions) {
          /* rev16 */
          tcg_out32(s, 0x06bf0fb0 | (cond << 28) | (rd << 12) | rn);
 -    } else {
 -        tcg_out_dat_reg(s, cond, ARITH_MOV,
 -                        TCG_REG_TMP, 0, rn, SHIFT_IMM_LSL(24));
 -        tcg_out_dat_reg(s, cond, ARITH_MOV,
 -                        TCG_REG_TMP, 0, TCG_REG_TMP, SHIFT_IMM_LSR(16));
 -        tcg_out_dat_reg(s, cond, ARITH_ORR,
 -                        rd, TCG_REG_TMP, rn, SHIFT_IMM_LSR(8));
 +        if ((flags & (TCG_BSWAP_IZ | TCG_BSWAP_OZ)) == TCG_BSWAP_OZ) {
 +            /* uxth */
 +            tcg_out32(s, 0x06ff0070 | (cond << 28) | (rd << 12) | rd);
 +        }
 +        return;
      }
--}
+-    return fold_masks(ctx, op);
--/* swap the two low bytes assuming that the two high input bytes and the
++    z_mask = z1 & z2;
 -   two high output bit can hold any value. */
 -static inline void tcg_out_bswap16st(TCGContext *s, int cond, int rd, int rn)
 -{
 -    if (use_armv6_instructions) {
 -        /* rev16 */
 -        tcg_out32(s, 0x06bf0fb0 | (cond << 28) | (rd << 12) | rn);
 -    } else {
 +    if (flags == 0) {
 +        /*
 +         * For stores, no input or output extension:
 +         *                              rn  = xxAB
 +         * lsr tmp, rn, #8              tmp = 0xxA
 +         * and tmp, tmp, #0xff          tmp = 000A
 +         * orr rd, tmp, rn, lsl #8      rd  = xABA
 +         */
          tcg_out_dat_reg(s, cond, ARITH_MOV,
                          TCG_REG_TMP, 0, rn, SHIFT_IMM_LSR(8));
          tcg_out_dat_imm(s, cond, ARITH_AND, TCG_REG_TMP, TCG_REG_TMP, 0xff);
          tcg_out_dat_reg(s, cond, ARITH_ORR,
                          rd, TCG_REG_TMP, rn, SHIFT_IMM_LSL(8));
 +        return;
      }
 +
 +    /*
-+     * Byte swap, leaving the result at the top of the register.
++     * Sign repetitions are perforce all identical, whether they are 1 or 0.
-+     * We will then shift down, zero or sign-extending.
++     * Bitwise operations preserve the relative quantity of the repetitions.
 +     */
-+    if (flags & TCG_BSWAP_IZ) {
++    s_mask = t1->s_mask & t2->s_mask;
-+        /*
++
-+         *                              rn  = 00AB
++    return fold_masks_zs(ctx, op, z_mask, s_mask);
 +         * ror tmp, rn, #8              tmp = B00A
 +         * orr tmp, tmp, tmp, lsl #16   tmp = BA00
 +         */
 +        tcg_out_dat_reg(s, cond, ARITH_MOV,
 +                        TCG_REG_TMP, 0, rn, SHIFT_IMM_ROR(8));
 +        tcg_out_dat_reg(s, cond, ARITH_ORR,
 +                        TCG_REG_TMP, TCG_REG_TMP, TCG_REG_TMP,
 +                        SHIFT_IMM_LSL(16));
 +    } else {
 +        /*
 +         *                              rn  = xxAB
 +         * and tmp, rn, #0xff00         tmp = 00A0
 +         * lsl tmp, tmp, #8             tmp = 0A00
 +         * orr tmp, tmp, rn, lsl #24    tmp = BA00
 +         */
 +        tcg_out_dat_rI(s, cond, ARITH_AND, TCG_REG_TMP, rn, 0xff00, 1);
 +        tcg_out_dat_reg(s, cond, ARITH_MOV,
 +                        TCG_REG_TMP, 0, TCG_REG_TMP, SHIFT_IMM_LSL(8));
 +        tcg_out_dat_reg(s, cond, ARITH_ORR,
 +                        TCG_REG_TMP, TCG_REG_TMP, rn, SHIFT_IMM_LSL(24));
 +    }
 +    tcg_out_dat_reg(s, cond, ARITH_MOV, rd, 0, TCG_REG_TMP,
 +                    (flags & TCG_BSWAP_OS
 +                     ? SHIFT_IMM_ASR(8) : SHIFT_IMM_LSR(8)));
  }
- static inline void tcg_out_bswap32(TCGContext *s, int cond, int rd, int rn)
+ static bool fold_andc(OptContext *ctx, TCGOp *op)
@@ -XXX,XX +XXX,XX @@ static inline void tcg_out_qemu_ld_index(TCGContext *s, MemOp opc,
      case MO_UW:
          tcg_out_ld16u_r(s, COND_AL, datalo, addrlo, addend);
          if (bswap) {
 -            tcg_out_bswap16(s, COND_AL, datalo, datalo);
 +            tcg_out_bswap16(s, COND_AL, datalo, datalo,
 +                            TCG_BSWAP_IZ | TCG_BSWAP_OZ);
          }
          break;
      case MO_SW:
          if (bswap) {
              tcg_out_ld16u_r(s, COND_AL, datalo, addrlo, addend);
 -            tcg_out_bswap16s(s, COND_AL, datalo, datalo);
 +            tcg_out_bswap16(s, COND_AL, datalo, datalo,
 +                            TCG_BSWAP_IZ | TCG_BSWAP_OS);
          } else {
              tcg_out_ld16s_r(s, COND_AL, datalo, addrlo, addend);
          }
@@ -XXX,XX +XXX,XX @@ static inline void tcg_out_qemu_ld_direct(TCGContext *s, MemOp opc,
      case MO_UW:
          tcg_out_ld16u_8(s, COND_AL, datalo, addrlo, 0);
          if (bswap) {
 -            tcg_out_bswap16(s, COND_AL, datalo, datalo);
 +            tcg_out_bswap16(s, COND_AL, datalo, datalo,
 +                            TCG_BSWAP_IZ | TCG_BSWAP_OZ);
          }
          break;
      case MO_SW:
          if (bswap) {
              tcg_out_ld16u_8(s, COND_AL, datalo, addrlo, 0);
 -            tcg_out_bswap16s(s, COND_AL, datalo, datalo);
 +            tcg_out_bswap16(s, COND_AL, datalo, datalo,
 +                            TCG_BSWAP_IZ | TCG_BSWAP_OS);
          } else {
              tcg_out_ld16s_8(s, COND_AL, datalo, addrlo, 0);
          }
@@ -XXX,XX +XXX,XX @@ static inline void tcg_out_qemu_st_index(TCGContext *s, int cond, MemOp opc,
          break;
      case MO_16:
          if (bswap) {
 -            tcg_out_bswap16st(s, cond, TCG_REG_R0, datalo);
 +            tcg_out_bswap16(s, cond, TCG_REG_R0, datalo, 0);
              tcg_out_st16_r(s, cond, TCG_REG_R0, addrlo, addend);
          } else {
              tcg_out_st16_r(s, cond, datalo, addrlo, addend);
@@ -XXX,XX +XXX,XX @@ static inline void tcg_out_qemu_st_direct(TCGContext *s, MemOp opc,
          break;
      case MO_16:
          if (bswap) {
 -            tcg_out_bswap16st(s, COND_AL, TCG_REG_R0, datalo);
 +            tcg_out_bswap16(s, COND_AL, TCG_REG_R0, datalo, 0);
              tcg_out_st16_8(s, COND_AL, TCG_REG_R0, addrlo, 0);
          } else {
              tcg_out_st16_8(s, COND_AL, datalo, addrlo, 0);
@@ -XXX,XX +XXX,XX @@ static inline void tcg_out_op(TCGContext *s, TCGOpcode opc,
          break;
      case INDEX_op_bswap16_i32:
 -        tcg_out_bswap16(s, COND_AL, args[0], args[1]);
 +        tcg_out_bswap16(s, COND_AL, args[0], args[1], args[2]);
          break;
      case INDEX_op_bswap32_i32:
          tcg_out_bswap32(s, COND_AL, args[0], args[1]);
 --
-.25.1
+.43.0

-New patch
+[PULL 12/72] tcg/optimize: Use fold_masks_zs in fold_andc
+Avoid the use of the OptContext slots.  Find TempOptInfo once.
+Avoid double inversion of the value of second const operand.
+Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
+Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
+---
+ tcg/optimize.c | 21 +++++++++++----------
+file changed, 11 insertions(+), 10 deletions(-)
+diff --git a/tcg/optimize.c b/tcg/optimize.c
+index XXXXXXX..XXXXXXX 100644
+--- a/tcg/optimize.c
++++ b/tcg/optimize.c
+@@ -XXX,XX +XXX,XX @@ static bool fold_and(OptContext *ctx, TCGOp *op)
+ static bool fold_andc(OptContext *ctx, TCGOp *op)
+ {
+-    uint64_t z1;
++    uint64_t z_mask, s_mask;
++    TempOptInfo *t1, *t2;
+     if (fold_const2(ctx, op) ||
+         fold_xx_to_i(ctx, op, 0) ||
+@@ -XXX,XX +XXX,XX @@ static bool fold_andc(OptContext *ctx, TCGOp *op)
+         return true;
+     }
+-    z1 = arg_info(op->args[1])->z_mask;
++    t1 = arg_info(op->args[1]);
++    t2 = arg_info(op->args[2]);
++    z_mask = t1->z_mask;
+     /*
+      * Known-zeros does not imply known-ones.  Therefore unless
+      * arg2 is constant, we can't infer anything from it.
+      */
+-    if (arg_is_const(op->args[2])) {
+-        uint64_t z2 = ~arg_info(op->args[2])->z_mask;
+-        if (fold_affected_mask(ctx, op, z1 & ~z2)) {
++    if (ti_is_const(t2)) {
++        uint64_t v2 = ti_const_val(t2);
++        if (fold_affected_mask(ctx, op, z_mask & v2)) {
+             return true;
+         }
+-        z1 &= z2;
++        z_mask &= ~v2;
+     }
+-    ctx->z_mask = z1;
+-    ctx->s_mask = arg_info(op->args[1])->s_mask
+-                & arg_info(op->args[2])->s_mask;
+-    return fold_masks(ctx, op);
++    s_mask = t1->s_mask & t2->s_mask;
++    return fold_masks_zs(ctx, op, z_mask, s_mask);
+ }
+ static bool fold_brcond(OptContext *ctx, TCGOp *op)
+--
+.43.0

-New patch
+[PULL 13/72] tcg/optimize: Use fold_masks_zs in fold_bswap
+Avoid the use of the OptContext slots.  Find TempOptInfo once.
+Always set s_mask along the BSWAP_OS path, since the result is
+being explicitly sign-extended.
+Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
+Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
+---
+ tcg/optimize.c | 21 ++++++++++-----------
+file changed, 10 insertions(+), 11 deletions(-)
+diff --git a/tcg/optimize.c b/tcg/optimize.c
+index XXXXXXX..XXXXXXX 100644
+--- a/tcg/optimize.c
++++ b/tcg/optimize.c
+@@ -XXX,XX +XXX,XX @@ static bool fold_brcond2(OptContext *ctx, TCGOp *op)
+ static bool fold_bswap(OptContext *ctx, TCGOp *op)
+ {
+     uint64_t z_mask, s_mask, sign;
++    TempOptInfo *t1 = arg_info(op->args[1]);
+-    if (arg_is_const(op->args[1])) {
+-        uint64_t t = arg_info(op->args[1])->val;
+-
+-        t = do_constant_folding(op->opc, ctx->type, t, op->args[2]);
+-        return tcg_opt_gen_movi(ctx, op, op->args[0], t);
++    if (ti_is_const(t1)) {
++        return tcg_opt_gen_movi(ctx, op, op->args[0],
++                                do_constant_folding(op->opc, ctx->type,
++                                                    ti_const_val(t1),
++                                                    op->args[2]));
+     }
+-    z_mask = arg_info(op->args[1])->z_mask;
+-
++    z_mask = t1->z_mask;
+     switch (op->opc) {
+     case INDEX_op_bswap16_i32:
+     case INDEX_op_bswap16_i64:
+@@ -XXX,XX +XXX,XX @@ static bool fold_bswap(OptContext *ctx, TCGOp *op)
+         /* If the sign bit may be 1, force all the bits above to 1. */
+         if (z_mask & sign) {
+             z_mask |= sign;
+-            s_mask = sign << 1;
+         }
++        /* The value and therefore s_mask is explicitly sign-extended. */
++        s_mask = sign;
+         break;
+     default:
+         /* The high bits are undefined: force all bits above the sign to 1. */
+         z_mask |= sign << 1;
+         break;
+     }
+-    ctx->z_mask = z_mask;
+-    ctx->s_mask = s_mask;
+-    return fold_masks(ctx, op);
++    return fold_masks_zs(ctx, op, z_mask, s_mask);
+ }
+ static bool fold_call(OptContext *ctx, TCGOp *op)
+--
+.43.0

-New patch
+[PULL 14/72] tcg/optimize: Use fold_masks_zs in fold_count_zeros
+Avoid the use of the OptContext slots. Find TempOptInfo once.
+Compute s_mask from the union of the maximum count and the
+op2 fallback for op1 being zero.
+Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
+Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
+---
+ tcg/optimize.c | 15 ++++++++++-----
+file changed, 10 insertions(+), 5 deletions(-)
+diff --git a/tcg/optimize.c b/tcg/optimize.c
+index XXXXXXX..XXXXXXX 100644
+--- a/tcg/optimize.c
++++ b/tcg/optimize.c
+@@ -XXX,XX +XXX,XX @@ static bool fold_call(OptContext *ctx, TCGOp *op)
+ static bool fold_count_zeros(OptContext *ctx, TCGOp *op)
+ {
+-    uint64_t z_mask;
++    uint64_t z_mask, s_mask;
++    TempOptInfo *t1 = arg_info(op->args[1]);
++    TempOptInfo *t2 = arg_info(op->args[2]);
+-    if (arg_is_const(op->args[1])) {
+-        uint64_t t = arg_info(op->args[1])->val;
++    if (ti_is_const(t1)) {
++        uint64_t t = ti_const_val(t1);
+         if (t != 0) {
+             t = do_constant_folding(op->opc, ctx->type, t, 0);
+@@ -XXX,XX +XXX,XX @@ static bool fold_count_zeros(OptContext *ctx, TCGOp *op)
+     default:
+         g_assert_not_reached();
+     }
+-    ctx->z_mask = arg_info(op->args[2])->z_mask | z_mask;
+-    return false;
++    s_mask = ~z_mask;
++    z_mask |= t2->z_mask;
++    s_mask &= t2->s_mask;
++
++    return fold_masks_zs(ctx, op, z_mask, s_mask);
+ }
+ static bool fold_ctpop(OptContext *ctx, TCGOp *op)
+--
+.43.0

-[PULL 12/63] target/avr: Convert to TranslatorOps
+[PULL 15/72] tcg/optimize: Use fold_masks_z in fold_ctpop
-Tested-by: Michael Rolnik <mrolnik@gmail.com>
+Add fold_masks_z as a trivial wrapper around fold_masks_zs.
-Reviewed-by: Michael Rolnik <mrolnik@gmail.com>
+Avoid the use of the OptContext slots.
 Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- target/avr/translate.c | 234 ++++++++++++++++++++++-------------------
+ tcg/optimize.c | 13 ++++++++++---
-file changed, 128 insertions(+), 106 deletions(-)
+file changed, 10 insertions(+), 3 deletions(-)
-diff --git a/target/avr/translate.c b/target/avr/translate.c
+diff --git a/tcg/optimize.c b/tcg/optimize.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/avr/translate.c
+--- a/tcg/optimize.c
-+++ b/target/avr/translate.c
++++ b/tcg/optimize.c
-@@ -XXX,XX +XXX,XX @@ static bool canonicalize_skip(DisasContext *ctx)
+@@ -XXX,XX +XXX,XX @@ static bool fold_masks_zs(OptContext *ctx, TCGOp *op,
      return true;
  }
--void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int max_insns)
++static bool fold_masks_z(OptContext *ctx, TCGOp *op, uint64_t z_mask)
-+static void gen_breakpoint(DisasContext *ctx)
++{
- {
++    return fold_masks_zs(ctx, op, z_mask, 0);
 +    canonicalize_skip(ctx);
 +    tcg_gen_movi_tl(cpu_pc, ctx->npc);
 +    gen_helper_debug(cpu_env);
 +    ctx->base.is_jmp = DISAS_NORETURN;
 +}
 +
-+static void avr_tr_init_disas_context(DisasContextBase *dcbase, CPUState *cs)
+ static bool fold_masks(OptContext *ctx, TCGOp *op)
-+{
+ {
-+    DisasContext *ctx = container_of(dcbase, DisasContext, base);
+     return fold_masks_zs(ctx, op, ctx->z_mask, ctx->s_mask);
-     CPUAVRState *env = cs->env_ptr;
+@@ -XXX,XX +XXX,XX @@ static bool fold_count_zeros(OptContext *ctx, TCGOp *op)
--    DisasContext ctx1 = {
--        .base.tb = tb,
+ static bool fold_ctpop(OptContext *ctx, TCGOp *op)
--        .base.is_jmp = DISAS_NEXT,
+ {
--        .base.pc_first = tb->pc,
++    uint64_t z_mask;
--        .base.pc_next = tb->pc,
++
--        .base.singlestep_enabled = cs->singlestep_enabled,
+     if (fold_const1(ctx, op)) {
--        .cs = cs,
+         return true;
 -        .env = env,
 -        .memidx = 0,
 -        .skip_cond = TCG_COND_NEVER,
 -    };
 -    DisasContext *ctx = &ctx1;
 -    target_ulong pc_start = tb->pc / 2;
 -    int num_insns = 0;
 +    uint32_t tb_flags = ctx->base.tb->flags;
 -    if (tb->flags & TB_FLAGS_FULL_ACCESS) {
 -        /*
 -         * This flag is set by ST/LD instruction we will regenerate it ONLY
 -         * with mem/cpu memory access instead of mem access
 -         */
 -        max_insns = 1;
 -    }
 -    if (ctx->base.singlestep_enabled) {
 -        max_insns = 1;
 -    }
 +    ctx->cs = cs;
 +    ctx->env = env;
 +    ctx->npc = ctx->base.pc_first / 2;
 -    gen_tb_start(tb);
 -
 -    ctx->npc = pc_start;
 -    if (tb->flags & TB_FLAGS_SKIP) {
 +    ctx->skip_cond = TCG_COND_NEVER;
 +    if (tb_flags & TB_FLAGS_SKIP) {
          ctx->skip_cond = TCG_COND_ALWAYS;
          ctx->skip_var0 = cpu_skip;
      }
--    do {
+     switch (ctx->type) {
--        TCGLabel *skip_label = NULL;
+     case TCG_TYPE_I32:
--
+-        ctx->z_mask = 32 | 31;
--        /* translate current instruction */
++        z_mask = 32 | 31;
--        tcg_gen_insn_start(ctx->npc);
+         break;
--        num_insns++;
+     case TCG_TYPE_I64:
--
+-        ctx->z_mask = 64 | 63;
-+    if (tb_flags & TB_FLAGS_FULL_ACCESS) {
++        z_mask = 64 | 63;
-         /*
+         break;
 -         * this is due to some strange GDB behavior
 -         * let's assume main has address 0x100
 -         * b main   - sets breakpoint at address 0x00000100 (code)
 -         * b *0x100 - sets breakpoint at address 0x00800100 (data)
 +         * This flag is set by ST/LD instruction we will regenerate it ONLY
 +         * with mem/cpu memory access instead of mem access
           */
 -        if (unlikely(!ctx->base.singlestep_enabled &&
 -            (cpu_breakpoint_test(cs, OFFSET_CODE + ctx->npc * 2, BP_ANY) ||
 -             cpu_breakpoint_test(cs, OFFSET_DATA + ctx->npc * 2, BP_ANY)))) {
 -            canonicalize_skip(ctx);
 -            tcg_gen_movi_tl(cpu_pc, ctx->npc);
 -            gen_helper_debug(cpu_env);
 -            goto done_generating;
 -        }
 +        ctx->base.max_insns = 1;
 +    }
 +}
 -        /* Conditionally skip the next instruction, if indicated.  */
 -        if (ctx->skip_cond != TCG_COND_NEVER) {
 -            skip_label = gen_new_label();
 -            if (ctx->skip_var0 == cpu_skip) {
 -                /*
 -                 * Copy cpu_skip so that we may zero it before the branch.
 -                 * This ensures that cpu_skip is non-zero after the label
 -                 * if and only if the skipped insn itself sets a skip.
 -                 */
 -                ctx->free_skip_var0 = true;
 -                ctx->skip_var0 = tcg_temp_new();
 -                tcg_gen_mov_tl(ctx->skip_var0, cpu_skip);
 -                tcg_gen_movi_tl(cpu_skip, 0);
 -            }
 -            if (ctx->skip_var1 == NULL) {
 -                tcg_gen_brcondi_tl(ctx->skip_cond, ctx->skip_var0,
 -                                   0, skip_label);
 -            } else {
 -                tcg_gen_brcond_tl(ctx->skip_cond, ctx->skip_var0,
 -                                  ctx->skip_var1, skip_label);
 -                ctx->skip_var1 = NULL;
 -            }
 -            if (ctx->free_skip_var0) {
 -                tcg_temp_free(ctx->skip_var0);
 -                ctx->free_skip_var0 = false;
 -            }
 -            ctx->skip_cond = TCG_COND_NEVER;
 -            ctx->skip_var0 = NULL;
 -        }
 +static void avr_tr_tb_start(DisasContextBase *db, CPUState *cs)
 +{
 +}
 -        translate(ctx);
 +static void avr_tr_insn_start(DisasContextBase *dcbase, CPUState *cs)
 +{
 +    DisasContext *ctx = container_of(dcbase, DisasContext, base);
 -        if (skip_label) {
 -            canonicalize_skip(ctx);
 -            gen_set_label(skip_label);
 -            if (ctx->base.is_jmp == DISAS_NORETURN) {
 -                ctx->base.is_jmp = DISAS_CHAIN;
 -            }
 -        }
 -    } while (ctx->base.is_jmp == DISAS_NEXT
 -             && num_insns < max_insns
 -             && (ctx->npc - pc_start) * 2 < TARGET_PAGE_SIZE - 4
 -             && !tcg_op_buf_full());
 +    tcg_gen_insn_start(ctx->npc);
 +}
 -    if (tb->cflags & CF_LAST_IO) {
 -        gen_io_end();
 +static bool avr_tr_breakpoint_check(DisasContextBase *dcbase, CPUState *cs,
 +                                    const CPUBreakpoint *bp)
 +{
 +    DisasContext *ctx = container_of(dcbase, DisasContext, base);
 +
 +    gen_breakpoint(ctx);
 +    return true;
 +}
 +
 +static void avr_tr_translate_insn(DisasContextBase *dcbase, CPUState *cs)
 +{
 +    DisasContext *ctx = container_of(dcbase, DisasContext, base);
 +    TCGLabel *skip_label = NULL;
 +
 +    /*
 +     * This is due to some strange GDB behavior
 +     * Let's assume main has address 0x100:
 +     * b main   - sets breakpoint at address 0x00000100 (code)
 +     * b *0x100 - sets breakpoint at address 0x00800100 (data)
 +     *
 +     * The translator driver has already taken care of the code pointer.
 +     */
 +    if (!ctx->base.singlestep_enabled &&
 +        cpu_breakpoint_test(cs, OFFSET_DATA + ctx->base.pc_next, BP_ANY)) {
 +        gen_breakpoint(ctx);
 +        return;
      }
 +    /* Conditionally skip the next instruction, if indicated.  */
 +    if (ctx->skip_cond != TCG_COND_NEVER) {
 +        skip_label = gen_new_label();
 +        if (ctx->skip_var0 == cpu_skip) {
 +            /*
 +             * Copy cpu_skip so that we may zero it before the branch.
 +             * This ensures that cpu_skip is non-zero after the label
 +             * if and only if the skipped insn itself sets a skip.
 +             */
 +            ctx->free_skip_var0 = true;
 +            ctx->skip_var0 = tcg_temp_new();
 +            tcg_gen_mov_tl(ctx->skip_var0, cpu_skip);
 +            tcg_gen_movi_tl(cpu_skip, 0);
 +        }
 +        if (ctx->skip_var1 == NULL) {
 +            tcg_gen_brcondi_tl(ctx->skip_cond, ctx->skip_var0, 0, skip_label);
 +        } else {
 +            tcg_gen_brcond_tl(ctx->skip_cond, ctx->skip_var0,
 +                              ctx->skip_var1, skip_label);
 +            ctx->skip_var1 = NULL;
 +        }
 +        if (ctx->free_skip_var0) {
 +            tcg_temp_free(ctx->skip_var0);
 +            ctx->free_skip_var0 = false;
 +        }
 +        ctx->skip_cond = TCG_COND_NEVER;
 +        ctx->skip_var0 = NULL;
 +    }
 +
 +    translate(ctx);
 +
 +    ctx->base.pc_next = ctx->npc * 2;
 +
 +    if (skip_label) {
 +        canonicalize_skip(ctx);
 +        gen_set_label(skip_label);
 +        if (ctx->base.is_jmp == DISAS_NORETURN) {
 +            ctx->base.is_jmp = DISAS_CHAIN;
 +        }
 +    }
 +
 +    if (ctx->base.is_jmp == DISAS_NEXT) {
 +        target_ulong page_first = ctx->base.pc_first & TARGET_PAGE_MASK;
 +
 +        if ((ctx->base.pc_next - page_first) >= TARGET_PAGE_SIZE - 4) {
 +            ctx->base.is_jmp = DISAS_TOO_MANY;
 +        }
 +    }
 +}
 +
 +static void avr_tr_tb_stop(DisasContextBase *dcbase, CPUState *cs)
 +{
 +    DisasContext *ctx = container_of(dcbase, DisasContext, base);
      bool nonconst_skip = canonicalize_skip(ctx);
      switch (ctx->base.is_jmp) {
@@ -XXX,XX +XXX,XX @@ void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int max_insns)
      default:
          g_assert_not_reached();
      }
-+}
+-    return false;
++    return fold_masks_z(ctx, op, z_mask);
 -done_generating:
 -    gen_tb_end(tb, num_insns);
 +static void avr_tr_disas_log(const DisasContextBase *dcbase, CPUState *cs)
 +{
 +    qemu_log("IN: %s\n", lookup_symbol(dcbase->pc_first));
 +    log_target_disas(cs, dcbase->pc_first, dcbase->tb->size);
 +}
 -    tb->size = (ctx->npc - pc_start) * 2;
 -    tb->icount = num_insns;
 +static const TranslatorOps avr_tr_ops = {
 +    .init_disas_context = avr_tr_init_disas_context,
 +    .tb_start           = avr_tr_tb_start,
 +    .insn_start         = avr_tr_insn_start,
 +    .breakpoint_check   = avr_tr_breakpoint_check,
 +    .translate_insn     = avr_tr_translate_insn,
 +    .tb_stop            = avr_tr_tb_stop,
 +    .disas_log          = avr_tr_disas_log,
 +};
 -#ifdef DEBUG_DISAS
 -    if (qemu_loglevel_mask(CPU_LOG_TB_IN_ASM)
 -        && qemu_log_in_addr_range(tb->pc)) {
 -        FILE *fd;
 -        fd = qemu_log_lock();
 -        qemu_log("IN: %s\n", lookup_symbol(tb->pc));
 -        log_target_disas(cs, tb->pc, tb->size);
 -        qemu_log("\n");
 -        qemu_log_unlock(fd);
 -    }
 -#endif
 +void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int max_insns)
 +{
 +    DisasContext dc = { };
 +    translator_loop(&avr_tr_ops, &dc.base, cs, tb, max_insns);
  }
- void restore_state_to_opc(CPUAVRState *env, TranslationBlock *tb,
+ static bool fold_deposit(OptContext *ctx, TCGOp *op)
 --
-.25.1
+.43.0

-[PULL 11/63] target/avr: Change ctx to DisasContext* in gen_intermediate_code
+[PULL 16/72] tcg/optimize: Use fold_and and fold_masks_z in fold_deposit
-Prepare for receiving it as a pointer input.
+Avoid the use of the OptContext slots.  Find TempOptInfo once.
 When we fold to and, use fold_and.
-Tested-by: Michael Rolnik <mrolnik@gmail.com>
+Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
 Reviewed-by: Michael Rolnik <mrolnik@gmail.com>
 Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- target/avr/translate.c | 84 +++++++++++++++++++++---------------------
+ tcg/optimize.c | 35 +++++++++++++++++------------------
-file changed, 43 insertions(+), 41 deletions(-)
+file changed, 17 insertions(+), 18 deletions(-)
-diff --git a/target/avr/translate.c b/target/avr/translate.c
+diff --git a/tcg/optimize.c b/tcg/optimize.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/avr/translate.c
+--- a/tcg/optimize.c
-+++ b/target/avr/translate.c
++++ b/tcg/optimize.c
-@@ -XXX,XX +XXX,XX @@ struct DisasContext {
+@@ -XXX,XX +XXX,XX @@ static bool fold_ctpop(OptContext *ctx, TCGOp *op)
-      * used in the following manner (sketch)
-      *
+ static bool fold_deposit(OptContext *ctx, TCGOp *op)
       * TCGLabel *skip_label = NULL;
 -     * if (ctx.skip_cond != TCG_COND_NEVER) {
 +     * if (ctx->skip_cond != TCG_COND_NEVER) {
       *     skip_label = gen_new_label();
       *     tcg_gen_brcond_tl(skip_cond, skip_var0, skip_var1, skip_label);
       * }
@@ -XXX,XX +XXX,XX @@ struct DisasContext {
       *     free_skip_var0 = false;
       * }
       *
 -     * translate(&ctx);
 +     * translate(ctx);
       *
       * if (skip_label) {
       *     gen_set_label(skip_label);
@@ -XXX,XX +XXX,XX @@ static bool canonicalize_skip(DisasContext *ctx)
  void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int max_insns)
  {
-     CPUAVRState *env = cs->env_ptr;
++    TempOptInfo *t1 = arg_info(op->args[1]);
--    DisasContext ctx = {
++    TempOptInfo *t2 = arg_info(op->args[2]);
-+    DisasContext ctx1 = {
++    int ofs = op->args[3];
-         .base.tb = tb,
++    int len = op->args[4];
-         .base.is_jmp = DISAS_NEXT,
+     TCGOpcode and_opc;
-         .base.pc_first = tb->pc,
++    uint64_t z_mask;
-@@ -XXX,XX +XXX,XX @@ void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int max_insns)
-         .memidx = 0,
+-    if (arg_is_const(op->args[1]) && arg_is_const(op->args[2])) {
-         .skip_cond = TCG_COND_NEVER,
+-        uint64_t t1 = arg_info(op->args[1])->val;
-     };
+-        uint64_t t2 = arg_info(op->args[2])->val;
-+    DisasContext *ctx = &ctx1;
+-
-     target_ulong pc_start = tb->pc / 2;
+-        t1 = deposit64(t1, op->args[3], op->args[4], t2);
-     int num_insns = 0;
+-        return tcg_opt_gen_movi(ctx, op, op->args[0], t1);
++    if (ti_is_const(t1) && ti_is_const(t2)) {
-@@ -XXX,XX +XXX,XX @@ void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int max_insns)
++        return tcg_opt_gen_movi(ctx, op, op->args[0],
-          */
++                                deposit64(ti_const_val(t1), ofs, len,
-         max_insns = 1;
++                                          ti_const_val(t2)));
      }
--    if (ctx.base.singlestep_enabled) {
-+    if (ctx->base.singlestep_enabled) {
+     switch (ctx->type) {
-         max_insns = 1;
+@@ -XXX,XX +XXX,XX @@ static bool fold_deposit(OptContext *ctx, TCGOp *op)
      }
-     gen_tb_start(tb);
+     /* Inserting a value into zero at offset 0. */
+-    if (arg_is_const_val(op->args[1], 0) && op->args[3] == 0) {
--    ctx.npc = pc_start;
+-        uint64_t mask = MAKE_64BIT_MASK(0, op->args[4]);
-+    ctx->npc = pc_start;
++    if (ti_is_const_val(t1, 0) && ofs == 0) {
-     if (tb->flags & TB_FLAGS_SKIP) {
++        uint64_t mask = MAKE_64BIT_MASK(0, len);
--        ctx.skip_cond = TCG_COND_ALWAYS;
--        ctx.skip_var0 = cpu_skip;
+         op->opc = and_opc;
-+        ctx->skip_cond = TCG_COND_ALWAYS;
+         op->args[1] = op->args[2];
-+        ctx->skip_var0 = cpu_skip;
+         op->args[2] = arg_new_constant(ctx, mask);
 -        ctx->z_mask = mask & arg_info(op->args[1])->z_mask;
 -        return false;
 +        return fold_and(ctx, op);
      }
-     do {
+     /* Inserting zero into a value. */
-         TCGLabel *skip_label = NULL;
+-    if (arg_is_const_val(op->args[2], 0)) {
+-        uint64_t mask = deposit64(-1, op->args[3], op->args[4], 0);
-         /* translate current instruction */
++    if (ti_is_const_val(t2, 0)) {
--        tcg_gen_insn_start(ctx.npc);
++        uint64_t mask = deposit64(-1, ofs, len, 0);
-+        tcg_gen_insn_start(ctx->npc);
-         num_insns++;
+         op->opc = and_opc;
+         op->args[2] = arg_new_constant(ctx, mask);
-         /*
+-        ctx->z_mask = mask & arg_info(op->args[1])->z_mask;
-@@ -XXX,XX +XXX,XX @@ void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int max_insns)
+-        return false;
-          * b main   - sets breakpoint at address 0x00000100 (code)
++        return fold_and(ctx, op);
           * b *0x100 - sets breakpoint at address 0x00800100 (data)
           */
 -        if (unlikely(!ctx.base.singlestep_enabled &&
 -                (cpu_breakpoint_test(cs, OFFSET_CODE + ctx.npc * 2, BP_ANY) ||
 -                 cpu_breakpoint_test(cs, OFFSET_DATA + ctx.npc * 2, BP_ANY)))) {
 -            canonicalize_skip(&ctx);
 -            tcg_gen_movi_tl(cpu_pc, ctx.npc);
 +        if (unlikely(!ctx->base.singlestep_enabled &&
 +            (cpu_breakpoint_test(cs, OFFSET_CODE + ctx->npc * 2, BP_ANY) ||
 +             cpu_breakpoint_test(cs, OFFSET_DATA + ctx->npc * 2, BP_ANY)))) {
 +            canonicalize_skip(ctx);
 +            tcg_gen_movi_tl(cpu_pc, ctx->npc);
              gen_helper_debug(cpu_env);
              goto done_generating;
          }
          /* Conditionally skip the next instruction, if indicated.  */
 -        if (ctx.skip_cond != TCG_COND_NEVER) {
 +        if (ctx->skip_cond != TCG_COND_NEVER) {
              skip_label = gen_new_label();
 -            if (ctx.skip_var0 == cpu_skip) {
 +            if (ctx->skip_var0 == cpu_skip) {
                  /*
                   * Copy cpu_skip so that we may zero it before the branch.
                   * This ensures that cpu_skip is non-zero after the label
                   * if and only if the skipped insn itself sets a skip.
                   */
 -                ctx.free_skip_var0 = true;
 -                ctx.skip_var0 = tcg_temp_new();
 -                tcg_gen_mov_tl(ctx.skip_var0, cpu_skip);
 +                ctx->free_skip_var0 = true;
 +                ctx->skip_var0 = tcg_temp_new();
 +                tcg_gen_mov_tl(ctx->skip_var0, cpu_skip);
                  tcg_gen_movi_tl(cpu_skip, 0);
              }
 -            if (ctx.skip_var1 == NULL) {
 -                tcg_gen_brcondi_tl(ctx.skip_cond, ctx.skip_var0, 0, skip_label);
 +            if (ctx->skip_var1 == NULL) {
 +                tcg_gen_brcondi_tl(ctx->skip_cond, ctx->skip_var0,
 +                                   0, skip_label);
              } else {
 -                tcg_gen_brcond_tl(ctx.skip_cond, ctx.skip_var0,
 -                                  ctx.skip_var1, skip_label);
 -                ctx.skip_var1 = NULL;
 +                tcg_gen_brcond_tl(ctx->skip_cond, ctx->skip_var0,
 +                                  ctx->skip_var1, skip_label);
 +                ctx->skip_var1 = NULL;
              }
 -            if (ctx.free_skip_var0) {
 -                tcg_temp_free(ctx.skip_var0);
 -                ctx.free_skip_var0 = false;
 +            if (ctx->free_skip_var0) {
 +                tcg_temp_free(ctx->skip_var0);
 +                ctx->free_skip_var0 = false;
              }
 -            ctx.skip_cond = TCG_COND_NEVER;
 -            ctx.skip_var0 = NULL;
 +            ctx->skip_cond = TCG_COND_NEVER;
 +            ctx->skip_var0 = NULL;
          }
 -        translate(&ctx);
 +        translate(ctx);
          if (skip_label) {
 -            canonicalize_skip(&ctx);
 +            canonicalize_skip(ctx);
              gen_set_label(skip_label);
 -            if (ctx.base.is_jmp == DISAS_NORETURN) {
 -                ctx.base.is_jmp = DISAS_CHAIN;
 +            if (ctx->base.is_jmp == DISAS_NORETURN) {
 +                ctx->base.is_jmp = DISAS_CHAIN;
              }
          }
 -    } while (ctx.base.is_jmp == DISAS_NEXT
 +    } while (ctx->base.is_jmp == DISAS_NEXT
               && num_insns < max_insns
 -             && (ctx.npc - pc_start) * 2 < TARGET_PAGE_SIZE - 4
 +             && (ctx->npc - pc_start) * 2 < TARGET_PAGE_SIZE - 4
               && !tcg_op_buf_full());
      if (tb->cflags & CF_LAST_IO) {
          gen_io_end();
      }
--    bool nonconst_skip = canonicalize_skip(&ctx);
+-    ctx->z_mask = deposit64(arg_info(op->args[1])->z_mask,
-+    bool nonconst_skip = canonicalize_skip(ctx);
+-                            op->args[3], op->args[4],
+-                            arg_info(op->args[2])->z_mask);
--    switch (ctx.base.is_jmp) {
+-    return false;
-+    switch (ctx->base.is_jmp) {
++    z_mask = deposit64(t1->z_mask, ofs, len, t2->z_mask);
-     case DISAS_NORETURN:
++    return fold_masks_z(ctx, op, z_mask);
-         assert(!nonconst_skip);
+ }
-         break;
-@@ -XXX,XX +XXX,XX @@ void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int max_insns)
+ static bool fold_divide(OptContext *ctx, TCGOp *op)
      case DISAS_CHAIN:
          if (!nonconst_skip) {
              /* Note gen_goto_tb checks singlestep.  */
 -            gen_goto_tb(&ctx, 1, ctx.npc);
 +            gen_goto_tb(ctx, 1, ctx->npc);
              break;
          }
 -        tcg_gen_movi_tl(cpu_pc, ctx.npc);
 +        tcg_gen_movi_tl(cpu_pc, ctx->npc);
          /* fall through */
      case DISAS_LOOKUP:
 -        if (!ctx.base.singlestep_enabled) {
 +        if (!ctx->base.singlestep_enabled) {
              tcg_gen_lookup_and_goto_ptr();
              break;
          }
          /* fall through */
      case DISAS_EXIT:
 -        if (ctx.base.singlestep_enabled) {
 +        if (ctx->base.singlestep_enabled) {
              gen_helper_debug(cpu_env);
          } else {
              tcg_gen_exit_tb(NULL, 0);
@@ -XXX,XX +XXX,XX @@ void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int max_insns)
  done_generating:
      gen_tb_end(tb, num_insns);
 -    tb->size = (ctx.npc - pc_start) * 2;
 +    tb->size = (ctx->npc - pc_start) * 2;
      tb->icount = num_insns;
  #ifdef DEBUG_DISAS
 --
-.25.1
+.43.0

-[PULL 24/63] target/cris: Add DISAS_DBRANCH
+[PULL 17/72] tcg/optimize: Compute sign mask in fold_deposit
-Move delayed branch handling to tb_stop, where we can re-use other
+The input which overlaps the sign bit of the output can
-end-of-tb code, e.g. the evaluation of flags.  Honor single stepping.
+have its input s_mask propagated to the output s_mask.
 Validate that we aren't losing state by overwriting is_jmp.
-Reviewed-by: Edgar E. Iglesias <edgar.iglesias@xilinx.com>
+Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
 Tested-by: Edgar E. Iglesias <edgar.iglesias@xilinx.com>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- target/cris/translate.c | 96 ++++++++++++++++++++++++-----------------
+ tcg/optimize.c | 14 ++++++++++++--
-file changed, 56 insertions(+), 40 deletions(-)
+file changed, 12 insertions(+), 2 deletions(-)
-diff --git a/target/cris/translate.c b/target/cris/translate.c
+diff --git a/tcg/optimize.c b/tcg/optimize.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/cris/translate.c
+--- a/tcg/optimize.c
-+++ b/target/cris/translate.c
++++ b/tcg/optimize.c
-@@ -XXX,XX +XXX,XX @@
+@@ -XXX,XX +XXX,XX @@ static bool fold_deposit(OptContext *ctx, TCGOp *op)
- #define DISAS_UPDATE        DISAS_TARGET_1
+     TempOptInfo *t2 = arg_info(op->args[2]);
- /* Cpu state was modified dynamically, excluding pc -- use npc */
+     int ofs = op->args[3];
- #define DISAS_UPDATE_NEXT   DISAS_TARGET_2
+     int len = op->args[4];
-+/* PC update for delayed branch, see cpustate_changed otherwise */
++    int width;
-+#define DISAS_DBRANCH       DISAS_TARGET_3
+     TCGOpcode and_opc;
+-    uint64_t z_mask;
- /* Used by the decoder.  */
++    uint64_t z_mask, s_mask;
- #define EXTRACT_FIELD(src, start, end) \
-@@ -XXX,XX +XXX,XX @@ static void cris_tr_translate_insn(DisasContextBase *dcbase, CPUState *cs)
+     if (ti_is_const(t1) && ti_is_const(t2)) {
-     dc->cpustate_changed |= dc->flags_x != (dc->base.tb->flags & X_FLAG);
+         return tcg_opt_gen_movi(ctx, op, op->args[0],
+@@ -XXX,XX +XXX,XX @@ static bool fold_deposit(OptContext *ctx, TCGOp *op)
-     /*
+     switch (ctx->type) {
--     * Check for delayed branches here.  If we do it before
+     case TCG_TYPE_I32:
--     * actually generating any host code, the simulator will just
+         and_opc = INDEX_op_and_i32;
--     * loop doing nothing for on this program location.
++        width = 32;
-+     * All branches are delayed branches, handled immediately below.
+         break;
-+     * We don't expect to see odd combinations of exit conditions.
+     case TCG_TYPE_I64:
-      */
+         and_opc = INDEX_op_and_i64;
-+    assert(dc->base.is_jmp == DISAS_NEXT || dc->cpustate_changed);
++        width = 64;
-+
+         break;
-     if (dc->delayed_branch && --dc->delayed_branch == 0) {
+     default:
--        if (dc->base.tb->flags & 7) {
+         g_assert_not_reached();
--            t_gen_movi_env_TN(dslot, 0);
+@@ -XXX,XX +XXX,XX @@ static bool fold_deposit(OptContext *ctx, TCGOp *op)
--        }
+         return fold_and(ctx, op);
 +        dc->base.is_jmp = DISAS_DBRANCH;
 +        return;
 +    }
 -        if (dc->cpustate_changed) {
 -            cris_store_direct_jmp(dc);
 -        }
 -
 -        if (dc->clear_locked_irq) {
 -            dc->clear_locked_irq = 0;
 -            t_gen_movi_env_TN(locked_irq, 0);
 -        }
 -
 -        if (dc->jmp == JMP_DIRECT_CC) {
 -            TCGLabel *l1 = gen_new_label();
 -            cris_evaluate_flags(dc);
 -
 -            /* Conditional jmp.  */
 -            tcg_gen_brcondi_tl(TCG_COND_EQ, env_btaken, 0, l1);
 -            gen_goto_tb(dc, 1, dc->jmp_pc);
 -            gen_set_label(l1);
 -            gen_goto_tb(dc, 0, dc->pc);
 -            dc->base.is_jmp = DISAS_NORETURN;
 -            dc->jmp = JMP_NOJMP;
 -        } else if (dc->jmp == JMP_DIRECT) {
 -            cris_evaluate_flags(dc);
 -            gen_goto_tb(dc, 0, dc->jmp_pc);
 -            dc->base.is_jmp = DISAS_NORETURN;
 -            dc->jmp = JMP_NOJMP;
 -        } else {
 -            TCGv c = tcg_const_tl(dc->pc);
 -            t_gen_cc_jmp(env_btarget, c);
 -            tcg_temp_free(c);
 -            dc->base.is_jmp = DISAS_JUMP;
 -        }
 +    if (dc->base.is_jmp != DISAS_NEXT) {
 +        return;
      }
-     /* Force an update if the per-tb cpu state has changed.  */
++    /* The s_mask from the top portion of the deposit is still valid. */
--    if (dc->base.is_jmp == DISAS_NEXT && dc->cpustate_changed) {
++    if (ofs + len == width) {
-+    if (dc->cpustate_changed) {
++        s_mask = t2->s_mask << ofs;
-         dc->base.is_jmp = DISAS_UPDATE_NEXT;
++    } else {
-         return;
++        s_mask = t1->s_mask & ~MAKE_64BIT_MASK(0, ofs + len);
      }
@@ -XXX,XX +XXX,XX @@ static void cris_tr_translate_insn(DisasContextBase *dcbase, CPUState *cs)
       * If we can detect the length of the next insn easily, we should.
       * In the meantime, simply stop when we do cross.
       */
 -    if (dc->base.is_jmp == DISAS_NEXT
 -        && ((dc->pc ^ dc->base.pc_first) & TARGET_PAGE_MASK) != 0) {
 +    if ((dc->pc ^ dc->base.pc_first) & TARGET_PAGE_MASK) {
          dc->base.is_jmp = DISAS_TOO_MANY;
      }
  }
@@ -XXX,XX +XXX,XX @@ static void cris_tr_tb_stop(DisasContextBase *dcbase, CPUState *cpu)
      cris_evaluate_flags(dc);
 +    /* Evaluate delayed branch destination and fold to another is_jmp case. */
 +    if (is_jmp == DISAS_DBRANCH) {
 +        if (dc->base.tb->flags & 7) {
 +            t_gen_movi_env_TN(dslot, 0);
 +        }
 +
 +        switch (dc->jmp) {
 +        case JMP_DIRECT:
 +            npc = dc->jmp_pc;
 +            is_jmp = dc->cpustate_changed ? DISAS_UPDATE_NEXT : DISAS_TOO_MANY;
 +            break;
 +
 +        case JMP_DIRECT_CC:
 +            /*
 +             * Use a conditional branch if either taken or not-taken path
 +             * can use goto_tb.  If neither can, then treat it as indirect.
 +             */
 +            if (likely(!dc->base.singlestep_enabled)
 +                && likely(!dc->cpustate_changed)
 +                && (use_goto_tb(dc, dc->jmp_pc) || use_goto_tb(dc, npc))) {
 +                TCGLabel *not_taken = gen_new_label();
 +
 +                tcg_gen_brcondi_tl(TCG_COND_EQ, env_btaken, 0, not_taken);
 +                gen_goto_tb(dc, 1, dc->jmp_pc);
 +                gen_set_label(not_taken);
 +
 +                /* not-taken case handled below. */
 +                is_jmp = DISAS_TOO_MANY;
 +                break;
 +            }
 +            tcg_gen_movi_tl(env_btarget, dc->jmp_pc);
 +            /* fall through */
 +
 +        case JMP_INDIRECT:
 +            t_gen_cc_jmp(env_btarget, tcg_constant_tl(npc));
 +            is_jmp = dc->cpustate_changed ? DISAS_UPDATE : DISAS_JUMP;
 +            break;
 +
 +        default:
 +            g_assert_not_reached();
 +        }
 +    }
 +
-     if (unlikely(dc->base.singlestep_enabled)) {
+     z_mask = deposit64(t1->z_mask, ofs, len, t2->z_mask);
-         switch (is_jmp) {
+-    return fold_masks_z(ctx, op, z_mask);
-         case DISAS_TOO_MANY:
++    return fold_masks_zs(ctx, op, z_mask, s_mask);
  }
  static bool fold_divide(OptContext *ctx, TCGOp *op)
 --
-.25.1
+.43.0

-New patch
+[PULL 18/72] tcg/optimize: Use finish_folding in fold_divide
+Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
+Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
+---
+ tcg/optimize.c | 2 +-
+file changed, 1 insertion(+), 1 deletion(-)
+diff --git a/tcg/optimize.c b/tcg/optimize.c
+index XXXXXXX..XXXXXXX 100644
+--- a/tcg/optimize.c
++++ b/tcg/optimize.c
+@@ -XXX,XX +XXX,XX @@ static bool fold_divide(OptContext *ctx, TCGOp *op)
+         fold_xi_to_x(ctx, op, 1)) {
+         return true;
+     }
+-    return false;
++    return finish_folding(ctx, op);
+ }
+ static bool fold_dup(OptContext *ctx, TCGOp *op)
+--
+.43.0

-[PULL 48/63] tcg/mips: Support bswap flags in tcg_out_bswap16
+[PULL 19/72] tcg/optimize: Use finish_folding in fold_dup, fold_dup2
-Merge tcg_out_bswap16 and tcg_out_bswap16s.  Use the flags
+Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
 in the internal uses for loads and stores.
 Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- tcg/mips/tcg-target.c.inc | 63 +++++++++++++++++++--------------------
+ tcg/optimize.c | 4 ++--
-file changed, 30 insertions(+), 33 deletions(-)
+file changed, 2 insertions(+), 2 deletions(-)
-diff --git a/tcg/mips/tcg-target.c.inc b/tcg/mips/tcg-target.c.inc
+diff --git a/tcg/optimize.c b/tcg/optimize.c
 index XXXXXXX..XXXXXXX 100644
---- a/tcg/mips/tcg-target.c.inc
+--- a/tcg/optimize.c
-+++ b/tcg/mips/tcg-target.c.inc
++++ b/tcg/optimize.c
-@@ -XXX,XX +XXX,XX @@ static void tcg_out_movi(TCGContext *s, TCGType type,
+@@ -XXX,XX +XXX,XX @@ static bool fold_dup(OptContext *ctx, TCGOp *op)
          t = dup_const(TCGOP_VECE(op), t);
          return tcg_opt_gen_movi(ctx, op, op->args[0], t);
      }
+-    return false;
++    return finish_folding(ctx, op);
  }
--static inline void tcg_out_bswap16(TCGContext *s, TCGReg ret, TCGReg arg)
+ static bool fold_dup2(OptContext *ctx, TCGOp *op)
-+static void tcg_out_bswap16(TCGContext *s, TCGReg ret, TCGReg arg, int flags)
+@@ -XXX,XX +XXX,XX @@ static bool fold_dup2(OptContext *ctx, TCGOp *op)
- {
+         op->opc = INDEX_op_dup_vec;
-+    /* ret and arg can't be register tmp0 */
+         TCGOP_VECE(op) = MO_32;
 +    tcg_debug_assert(ret != TCG_TMP0);
 +    tcg_debug_assert(arg != TCG_TMP0);
 +
 +    /* With arg = abcd: */
      if (use_mips32r2_instructions) {
 -        tcg_out_opc_reg(s, OPC_WSBH, ret, 0, arg);
 -    } else {
 -        /* ret and arg can't be register at */
 -        if (ret == TCG_TMP0 || arg == TCG_TMP0) {
 -            tcg_abort();
 +        tcg_out_opc_reg(s, OPC_WSBH, ret, 0, arg);                 /* badc */
 +        if (flags & TCG_BSWAP_OS) {
 +            tcg_out_opc_reg(s, OPC_SEH, ret, 0, ret);              /* ssdc */
 +        } else if ((flags & (TCG_BSWAP_IZ | TCG_BSWAP_OZ)) == TCG_BSWAP_OZ) {
 +            tcg_out_opc_imm(s, OPC_ANDI, ret, ret, 0xffff);        /* 00dc */
          }
 -
 -        tcg_out_opc_sa(s, OPC_SRL, TCG_TMP0, arg, 8);
 -        tcg_out_opc_sa(s, OPC_SLL, ret, arg, 8);
 -        tcg_out_opc_imm(s, OPC_ANDI, ret, ret, 0xff00);
 -        tcg_out_opc_reg(s, OPC_OR, ret, ret, TCG_TMP0);
 +        return;
      }
--}
+-    return false;
++    return finish_folding(ctx, op);
 -static inline void tcg_out_bswap16s(TCGContext *s, TCGReg ret, TCGReg arg)
 -{
 -    if (use_mips32r2_instructions) {
 -        tcg_out_opc_reg(s, OPC_WSBH, ret, 0, arg);
 -        tcg_out_opc_reg(s, OPC_SEH, ret, 0, ret);
 +    tcg_out_opc_sa(s, OPC_SRL, TCG_TMP0, arg, 8);                  /* 0abc */
 +    if (!(flags & TCG_BSWAP_IZ)) {
 +        tcg_out_opc_imm(s, OPC_ANDI, TCG_TMP0, TCG_TMP0, 0x00ff);  /* 000c */
 +    }
 +    if (flags & TCG_BSWAP_OS) {
 +        tcg_out_opc_sa(s, OPC_SLL, ret, arg, 24);                  /* d000 */
 +        tcg_out_opc_sa(s, OPC_SRA, ret, ret, 16);                  /* ssd0 */
      } else {
 -        /* ret and arg can't be register at */
 -        if (ret == TCG_TMP0 || arg == TCG_TMP0) {
 -            tcg_abort();
 +        tcg_out_opc_sa(s, OPC_SLL, ret, arg, 8);                   /* bcd0 */
 +        if (flags & TCG_BSWAP_OZ) {
 +            tcg_out_opc_imm(s, OPC_ANDI, ret, ret, 0xff00);        /* 00d0 */
          }
 -
 -        tcg_out_opc_sa(s, OPC_SRL, TCG_TMP0, arg, 8);
 -        tcg_out_opc_sa(s, OPC_SLL, ret, arg, 24);
 -        tcg_out_opc_sa(s, OPC_SRA, ret, ret, 16);
 -        tcg_out_opc_reg(s, OPC_OR, ret, ret, TCG_TMP0);
      }
 +    tcg_out_opc_reg(s, OPC_OR, ret, ret, TCG_TMP0);                /* ssdc */
  }
- static void tcg_out_bswap_subr(TCGContext *s, const tcg_insn_unit *sub)
+ static bool fold_eqv(OptContext *ctx, TCGOp *op)
@@ -XXX,XX +XXX,XX @@ static void tcg_out_qemu_ld_direct(TCGContext *s, TCGReg lo, TCGReg hi,
          break;
      case MO_UW | MO_BSWAP:
          tcg_out_opc_imm(s, OPC_LHU, TCG_TMP1, base, 0);
 -        tcg_out_bswap16(s, lo, TCG_TMP1);
 +        tcg_out_bswap16(s, lo, TCG_TMP1, TCG_BSWAP_IZ | TCG_BSWAP_OZ);
          break;
      case MO_UW:
          tcg_out_opc_imm(s, OPC_LHU, lo, base, 0);
          break;
      case MO_SW | MO_BSWAP:
          tcg_out_opc_imm(s, OPC_LHU, TCG_TMP1, base, 0);
 -        tcg_out_bswap16s(s, lo, TCG_TMP1);
 +        tcg_out_bswap16(s, lo, TCG_TMP1, TCG_BSWAP_IZ | TCG_BSWAP_OS);
          break;
      case MO_SW:
          tcg_out_opc_imm(s, OPC_LH, lo, base, 0);
@@ -XXX,XX +XXX,XX @@ static void tcg_out_qemu_st_direct(TCGContext *s, TCGReg lo, TCGReg hi,
          break;
      case MO_16 | MO_BSWAP:
 -        tcg_out_opc_imm(s, OPC_ANDI, TCG_TMP1, lo, 0xffff);
 -        tcg_out_bswap16(s, TCG_TMP1, TCG_TMP1);
 +        tcg_out_bswap16(s, TCG_TMP1, lo, 0);
          lo = TCG_TMP1;
          /* FALLTHRU */
      case MO_16:
@@ -XXX,XX +XXX,XX @@ static inline void tcg_out_op(TCGContext *s, TCGOpcode opc,
      case INDEX_op_not_i64:
          i1 = OPC_NOR;
          goto do_unary;
 -    case INDEX_op_bswap16_i32:
 -    case INDEX_op_bswap16_i64:
 -        i1 = OPC_WSBH;
 -        goto do_unary;
      case INDEX_op_ext8s_i32:
      case INDEX_op_ext8s_i64:
          i1 = OPC_SEB;
@@ -XXX,XX +XXX,XX @@ static inline void tcg_out_op(TCGContext *s, TCGOpcode opc,
          tcg_out_opc_reg(s, i1, a0, TCG_REG_ZERO, a1);
          break;
 +    case INDEX_op_bswap16_i32:
 +    case INDEX_op_bswap16_i64:
 +        tcg_out_bswap16(s, a0, a1, a2);
 +        break;
      case INDEX_op_bswap32_i32:
          tcg_out_bswap32(s, a0, a1);
          break;
 --
-.25.1
+.43.0

-[PULL 29/63] tcg: Add tcg_gen_vec_add{sub}16_i32
+[PULL 20/72] tcg/optimize: Use fold_masks_s in fold_eqv
-From: LIU Zhiwei <zhiwei_liu@c-sky.com>
+Add fold_masks_s as a trivial wrapper around fold_masks_zs.
 Avoid the use of the OptContext slots.
-Implement tcg_gen_vec_add{sub}16_tl by adding corresponding i32 OP.
+Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
 Signed-off-by: LIU Zhiwei <zhiwei_liu@c-sky.com>
 Message-Id: <20210624105023.3852-2-zhiwei_liu@c-sky.com>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- include/tcg/tcg-op-gvec.h | 13 +++++++++++++
+ tcg/optimize.c | 13 ++++++++++---
- tcg/tcg-op-gvec.c         | 28 ++++++++++++++++++++++++++++
+file changed, 10 insertions(+), 3 deletions(-)
 files changed, 41 insertions(+)
-diff --git a/include/tcg/tcg-op-gvec.h b/include/tcg/tcg-op-gvec.h
+diff --git a/tcg/optimize.c b/tcg/optimize.c
 index XXXXXXX..XXXXXXX 100644
---- a/include/tcg/tcg-op-gvec.h
+--- a/tcg/optimize.c
-+++ b/include/tcg/tcg-op-gvec.h
++++ b/tcg/optimize.c
-@@ -XXX,XX +XXX,XX @@ void tcg_gen_vec_sar16i_i64(TCGv_i64 d, TCGv_i64 a, int64_t);
+@@ -XXX,XX +XXX,XX @@ static bool fold_masks_z(OptContext *ctx, TCGOp *op, uint64_t z_mask)
- void tcg_gen_vec_rotl8i_i64(TCGv_i64 d, TCGv_i64 a, int64_t c);
+     return fold_masks_zs(ctx, op, z_mask, 0);
  void tcg_gen_vec_rotl16i_i64(TCGv_i64 d, TCGv_i64 a, int64_t c);
 +/* 32-bit vector operations. */
 +void tcg_gen_vec_add16_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b);
 +
 +void tcg_gen_vec_sub16_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b);
 +
 +#if TARGET_LONG_BITS == 64
 +#define tcg_gen_vec_add16_tl tcg_gen_vec_add16_i64
 +#define tcg_gen_vec_sub16_tl tcg_gen_vec_sub16_i64
 +#else
 +#define tcg_gen_vec_add16_tl tcg_gen_vec_add16_i32
 +#define tcg_gen_vec_sub16_tl tcg_gen_vec_sub16_i32
 +#endif
 +
  #endif
 diff --git a/tcg/tcg-op-gvec.c b/tcg/tcg-op-gvec.c
 index XXXXXXX..XXXXXXX 100644
 --- a/tcg/tcg-op-gvec.c
 +++ b/tcg/tcg-op-gvec.c
@@ -XXX,XX +XXX,XX @@ void tcg_gen_vec_add16_i64(TCGv_i64 d, TCGv_i64 a, TCGv_i64 b)
      gen_addv_mask(d, a, b, m);
  }
-+void tcg_gen_vec_add16_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b)
++static bool fold_masks_s(OptContext *ctx, TCGOp *op, uint64_t s_mask)
 +{
-+    TCGv_i32 t1 = tcg_temp_new_i32();
++    return fold_masks_zs(ctx, op, -1, s_mask);
 +    TCGv_i32 t2 = tcg_temp_new_i32();
 +
 +    tcg_gen_andi_i32(t1, a, ~0xffff);
 +    tcg_gen_add_i32(t2, a, b);
 +    tcg_gen_add_i32(t1, t1, b);
 +    tcg_gen_deposit_i32(d, t1, t2, 0, 16);
 +
 +    tcg_temp_free_i32(t1);
 +    tcg_temp_free_i32(t2);
 +}
 +
- void tcg_gen_vec_add32_i64(TCGv_i64 d, TCGv_i64 a, TCGv_i64 b)
+ static bool fold_masks(OptContext *ctx, TCGOp *op)
  {
-     TCGv_i64 t1 = tcg_temp_new_i64();
+     return fold_masks_zs(ctx, op, ctx->z_mask, ctx->s_mask);
-@@ -XXX,XX +XXX,XX @@ void tcg_gen_vec_sub16_i64(TCGv_i64 d, TCGv_i64 a, TCGv_i64 b)
+@@ -XXX,XX +XXX,XX @@ static bool fold_dup2(OptContext *ctx, TCGOp *op)
-     gen_subv_mask(d, a, b, m);
  static bool fold_eqv(OptContext *ctx, TCGOp *op)
  {
 +    uint64_t s_mask;
 +
      if (fold_const2_commutative(ctx, op) ||
          fold_xi_to_x(ctx, op, -1) ||
          fold_xi_to_not(ctx, op, 0)) {
          return true;
      }
 -    ctx->s_mask = arg_info(op->args[1])->s_mask
 -                & arg_info(op->args[2])->s_mask;
 -    return false;
 +    s_mask = arg_info(op->args[1])->s_mask
 +           & arg_info(op->args[2])->s_mask;
 +    return fold_masks_s(ctx, op, s_mask);
  }
-+void tcg_gen_vec_sub16_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b)
+ static bool fold_extract(OptContext *ctx, TCGOp *op)
 +{
 +    TCGv_i32 t1 = tcg_temp_new_i32();
 +    TCGv_i32 t2 = tcg_temp_new_i32();
 +
 +    tcg_gen_andi_i32(t1, b, ~0xffff);
 +    tcg_gen_sub_i32(t2, a, b);
 +    tcg_gen_sub_i32(t1, a, t1);
 +    tcg_gen_deposit_i32(d, t1, t2, 0, 16);
 +
 +    tcg_temp_free_i32(t1);
 +    tcg_temp_free_i32(t2);
 +}
 +
  void tcg_gen_vec_sub32_i64(TCGv_i64 d, TCGv_i64 a, TCGv_i64 b)
  {
      TCGv_i64 t1 = tcg_temp_new_i64();
 --
-.25.1
+.43.0

-New patch
+[PULL 21/72] tcg/optimize: Use fold_masks_z in fold_extract
+Avoid the use of the OptContext slots.  Find TempOptInfo once.
+Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
+Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
+---
+ tcg/optimize.c | 15 ++++++---------
+file changed, 6 insertions(+), 9 deletions(-)
+diff --git a/tcg/optimize.c b/tcg/optimize.c
+index XXXXXXX..XXXXXXX 100644
+--- a/tcg/optimize.c
++++ b/tcg/optimize.c
+@@ -XXX,XX +XXX,XX @@ static bool fold_eqv(OptContext *ctx, TCGOp *op)
+ static bool fold_extract(OptContext *ctx, TCGOp *op)
+ {
+     uint64_t z_mask_old, z_mask;
++    TempOptInfo *t1 = arg_info(op->args[1]);
+     int pos = op->args[2];
+     int len = op->args[3];
+-    if (arg_is_const(op->args[1])) {
+-        uint64_t t;
+-
+-        t = arg_info(op->args[1])->val;
+-        t = extract64(t, pos, len);
+-        return tcg_opt_gen_movi(ctx, op, op->args[0], t);
++    if (ti_is_const(t1)) {
++        return tcg_opt_gen_movi(ctx, op, op->args[0],
++                                extract64(ti_const_val(t1), pos, len));
+     }
+-    z_mask_old = arg_info(op->args[1])->z_mask;
++    z_mask_old = t1->z_mask;
+     z_mask = extract64(z_mask_old, pos, len);
+     if (pos == 0 && fold_affected_mask(ctx, op, z_mask_old ^ z_mask)) {
+         return true;
+     }
+-    ctx->z_mask = z_mask;
+-    return fold_masks(ctx, op);
++    return fold_masks_z(ctx, op, z_mask);
+ }
+ static bool fold_extract2(OptContext *ctx, TCGOp *op)
+--
+.43.0

-[PULL 60/63] target/mips: Fix gen_mxu_s32ldd_s32lddr
+[PULL 22/72] tcg/optimize: Use finish_folding in fold_extract2
-There were two bugs here: (1) the required endianness was
+Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
 not present in the MemOp, and (2) we were not providing a
 zero-extended input to the bswap as semantics required.
 The best fix is to fold the bswap into the memory operation,
 producing the desired result directly.
 Acked-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- target/mips/tcg/mxu_translate.c | 6 +-----
+ tcg/optimize.c | 2 +-
-file changed, 1 insertion(+), 5 deletions(-)
+file changed, 1 insertion(+), 1 deletion(-)
-diff --git a/target/mips/tcg/mxu_translate.c b/target/mips/tcg/mxu_translate.c
+diff --git a/tcg/optimize.c b/tcg/optimize.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/mips/tcg/mxu_translate.c
+--- a/tcg/optimize.c
-+++ b/target/mips/tcg/mxu_translate.c
++++ b/tcg/optimize.c
-@@ -XXX,XX +XXX,XX @@ static void gen_mxu_s32ldd_s32lddr(DisasContext *ctx)
+@@ -XXX,XX +XXX,XX @@ static bool fold_extract2(OptContext *ctx, TCGOp *op)
-         tcg_gen_ori_tl(t1, t1, 0xFFFFF000);
+         }
          return tcg_opt_gen_movi(ctx, op, op->args[0], v1 | v2);
      }
-     tcg_gen_add_tl(t1, t0, t1);
+-    return false;
--    tcg_gen_qemu_ld_tl(t1, t1, ctx->mem_idx, MO_SL);
++    return finish_folding(ctx, op);
-+    tcg_gen_qemu_ld_tl(t1, t1, ctx->mem_idx, MO_TESL ^ (sel * MO_BSWAP));
+ }
--    if (sel == 1) {
+ static bool fold_exts(OptContext *ctx, TCGOp *op)
 -        /* S32LDDR */
 -        tcg_gen_bswap32_tl(t1, t1, TCG_BSWAP_IZ | TCG_BSWAP_OZ);
 -    }
      gen_store_mxu_gpr(t1, XRa);
      tcg_temp_free(t0);
 --
-.25.1
+.43.0

-[PULL 16/63] target/cris: Mark exceptions as DISAS_NORETURN
+[PULL 23/72] tcg/optimize: Use fold_masks_zs in fold_exts
-After we've raised the exception, we have left the TB.
+Avoid the use of the OptContext slots.  Find TempOptInfo once.
 Explicitly sign-extend z_mask instead of doing that manually.
-Reviewed-by: Edgar E. Iglesias <edgar.iglesias@xilinx.com>
+Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
 Tested-by: Edgar E. Iglesias <edgar.iglesias@xilinx.com>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- target/cris/translate.c         | 5 +++--
+ tcg/optimize.c | 29 ++++++++++++-----------------
- target/cris/translate_v10.c.inc | 3 ++-
+file changed, 12 insertions(+), 17 deletions(-)
 files changed, 5 insertions(+), 3 deletions(-)
-diff --git a/target/cris/translate.c b/target/cris/translate.c
+diff --git a/tcg/optimize.c b/tcg/optimize.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/cris/translate.c
+--- a/tcg/optimize.c
-+++ b/target/cris/translate.c
++++ b/tcg/optimize.c
-@@ -XXX,XX +XXX,XX @@ static int dec_rfe_etc(CPUCRISState *env, DisasContext *dc)
+@@ -XXX,XX +XXX,XX @@ static bool fold_extract2(OptContext *ctx, TCGOp *op)
-                        -offsetof(CRISCPU, env) + offsetof(CPUState, halted));
-         tcg_gen_movi_tl(env_pc, dc->pc + 2);
+ static bool fold_exts(OptContext *ctx, TCGOp *op)
-         t_gen_raise_exception(EXCP_HLT);
+ {
-+        dc->base.is_jmp = DISAS_NORETURN;
+-    uint64_t s_mask_old, s_mask, z_mask, sign;
-         return 2;
++    uint64_t s_mask_old, s_mask, z_mask;
      bool type_change = false;
 +    TempOptInfo *t1;
      if (fold_const1(ctx, op)) {
          return true;
      }
-@@ -XXX,XX +XXX,XX @@ static int dec_rfe_etc(CPUCRISState *env, DisasContext *dc)
+-    z_mask = arg_info(op->args[1])->z_mask;
-         /* Breaks start at 16 in the exception vector.  */
+-    s_mask = arg_info(op->args[1])->s_mask;
-         t_gen_movi_env_TN(trap_vector, dc->op1 + 16);
++    t1 = arg_info(op->args[1]);
-         t_gen_raise_exception(EXCP_BREAK);
++    z_mask = t1->z_mask;
--        dc->base.is_jmp = DISAS_UPDATE;
++    s_mask = t1->s_mask;
-+        dc->base.is_jmp = DISAS_NORETURN;
+     s_mask_old = s_mask;
      switch (op->opc) {
      CASE_OP_32_64(ext8s):
 -        sign = INT8_MIN;
 -        z_mask = (uint8_t)z_mask;
 +        s_mask |= INT8_MIN;
 +        z_mask = (int8_t)z_mask;
          break;
      CASE_OP_32_64(ext16s):
 -        sign = INT16_MIN;
 -        z_mask = (uint16_t)z_mask;
 +        s_mask |= INT16_MIN;
 +        z_mask = (int16_t)z_mask;
          break;
      case INDEX_op_ext_i32_i64:
          type_change = true;
          QEMU_FALLTHROUGH;
      case INDEX_op_ext32s_i64:
 -        sign = INT32_MIN;
 -        z_mask = (uint32_t)z_mask;
 +        s_mask |= INT32_MIN;
 +        z_mask = (int32_t)z_mask;
          break;
      default:
-         printf("op2=%x\n", dc->op2);
+         g_assert_not_reached();
-@@ -XXX,XX +XXX,XX @@ void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int max_insns)
+     }
-             cris_evaluate_flags(dc);
-             tcg_gen_movi_tl(env_pc, dc->pc);
+-    if (z_mask & sign) {
-             t_gen_raise_exception(EXCP_DEBUG);
+-        z_mask |= sign;
--            dc->base.is_jmp = DISAS_UPDATE;
+-    }
-+            dc->base.is_jmp = DISAS_NORETURN;
+-    s_mask |= sign << 1;
-             /* The address covered by the breakpoint must be included in
+-
-                [tb->pc, tb->pc + tb->size) in order to for it to be
+-    ctx->z_mask = z_mask;
-                properly cleared -- thus we increment the PC here so that
+-    ctx->s_mask = s_mask;
-diff --git a/target/cris/translate_v10.c.inc b/target/cris/translate_v10.c.inc
+     if (0 && !type_change && fold_affected_mask(ctx, op, s_mask & ~s_mask_old)) {
-index XXXXXXX..XXXXXXX 100644
+         return true;
---- a/target/cris/translate_v10.c.inc
+     }
-+++ b/target/cris/translate_v10.c.inc
-@@ -XXX,XX +XXX,XX @@ static inline void cris_illegal_insn(DisasContext *dc)
+-    return fold_masks(ctx, op);
- {
++    return fold_masks_zs(ctx, op, z_mask, s_mask);
      qemu_log_mask(LOG_GUEST_ERROR, "illegal insn at pc=%x\n", dc->pc);
      t_gen_raise_exception(EXCP_BREAK);
 +    dc->base.is_jmp = DISAS_NORETURN;
  }
- static void gen_store_v10_conditional(DisasContext *dc, TCGv addr, TCGv val,
+ static bool fold_extu(OptContext *ctx, TCGOp *op)
@@ -XXX,XX +XXX,XX @@ static unsigned int dec10_ind(CPUCRISState *env, DisasContext *dc)
                      t_gen_mov_env_TN(trap_vector, c);
                      tcg_temp_free(c);
                      t_gen_raise_exception(EXCP_BREAK);
 -                    dc->base.is_jmp = DISAS_UPDATE;
 +                    dc->base.is_jmp = DISAS_NORETURN;
                      return insn_len;
                  }
                  LOG_DIS("%d: jump.%d %d r%d r%d\n", __LINE__, size,
 --
-.25.1
+.43.0

-[PULL 58/63] target/i386: Improve bswap translation
+[PULL 24/72] tcg/optimize: Use fold_masks_z in fold_extu
-Use a break instead of an ifdefed else.
+Avoid the use of the OptContext slots.
 There's no need to move the values through s->T0.
 Remove TCG_BSWAP_IZ and the preceding zero-extension.
-Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
+Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- target/i386/tcg/translate.c | 14 ++++----------
+ tcg/optimize.c | 4 ++--
-file changed, 4 insertions(+), 10 deletions(-)
+file changed, 2 insertions(+), 2 deletions(-)
-diff --git a/target/i386/tcg/translate.c b/target/i386/tcg/translate.c
+diff --git a/tcg/optimize.c b/tcg/optimize.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/i386/tcg/translate.c
+--- a/tcg/optimize.c
-+++ b/target/i386/tcg/translate.c
++++ b/tcg/optimize.c
-@@ -XXX,XX +XXX,XX @@ static target_ulong disas_insn(DisasContext *s, CPUState *cpu)
+@@ -XXX,XX +XXX,XX @@ static bool fold_extu(OptContext *ctx, TCGOp *op)
-         reg = (b & 7) | REX_B(s);
+         g_assert_not_reached();
- #ifdef TARGET_X86_64
+     }
-         if (dflag == MO_64) {
--            gen_op_mov_v_reg(s, MO_64, s->T0, reg);
+-    ctx->z_mask = z_mask;
--            tcg_gen_bswap64_i64(s->T0, s->T0);
+     if (!type_change && fold_affected_mask(ctx, op, z_mask_old ^ z_mask)) {
--            gen_op_mov_reg_v(s, MO_64, reg, s->T0);
+         return true;
--        } else
+     }
--#endif
+-    return fold_masks(ctx, op);
--        {
++
--            gen_op_mov_v_reg(s, MO_32, s->T0, reg);
++    return fold_masks_z(ctx, op, z_mask);
--            tcg_gen_ext32u_tl(s->T0, s->T0);
+ }
--            tcg_gen_bswap32_tl(s->T0, s->T0, TCG_BSWAP_IZ | TCG_BSWAP_OZ);
--            gen_op_mov_reg_v(s, MO_32, reg, s->T0);
+ static bool fold_mb(OptContext *ctx, TCGOp *op)
 +            tcg_gen_bswap64_i64(cpu_regs[reg], cpu_regs[reg]);
 +            break;
          }
 +#endif
 +        tcg_gen_bswap32_tl(cpu_regs[reg], cpu_regs[reg], TCG_BSWAP_OZ);
          break;
      case 0xd6: /* salc */
          if (CODE64(s))
 --
-.25.1
+.43.0

-[PULL 13/63] target/cris: Add DisasContextBase to DisasContext
+[PULL 25/72] tcg/optimize: Use fold_masks_zs in fold_movcond
-Migrate the is_jmp, tb and singlestep_enabled fields
+Avoid the use of the OptContext slots.  Find TempOptInfo once.
 from DisasContext into the base.
-Reviewed-by: Edgar E. Iglesias <edgar.iglesias@xilinx.com>
+Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
 Tested-by: Edgar E. Iglesias <edgar.iglesias@xilinx.com>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- target/cris/translate.c         | 49 +++++++++++++++++----------------
+ tcg/optimize.c | 19 +++++++++++--------
- target/cris/translate_v10.c.inc |  4 +--
+file changed, 11 insertions(+), 8 deletions(-)
 files changed, 27 insertions(+), 26 deletions(-)
-diff --git a/target/cris/translate.c b/target/cris/translate.c
+diff --git a/tcg/optimize.c b/tcg/optimize.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/cris/translate.c
+--- a/tcg/optimize.c
-+++ b/target/cris/translate.c
++++ b/tcg/optimize.c
-@@ -XXX,XX +XXX,XX @@ static TCGv env_pc;
+@@ -XXX,XX +XXX,XX @@ static bool fold_mov(OptContext *ctx, TCGOp *op)
- /* This is the state at translation time.  */
+ static bool fold_movcond(OptContext *ctx, TCGOp *op)
  typedef struct DisasContext {
 +    DisasContextBase base;
 +
      CRISCPU *cpu;
      target_ulong pc, ppc;
@@ -XXX,XX +XXX,XX @@ typedef struct DisasContext {
      int clear_locked_irq; /* Clear the irq lockout.  */
      int cpustate_changed;
      unsigned int tb_flags; /* tb dependent flags.  */
 -    int is_jmp;
  #define JMP_NOJMP     0
  #define JMP_DIRECT    1
@@ -XXX,XX +XXX,XX @@ typedef struct DisasContext {
      uint32_t jmp_pc;
      int delayed_branch;
 -
 -    TranslationBlock *tb;
 -    int singlestep_enabled;
  } DisasContext;
  static void gen_BUG(DisasContext *dc, const char *file, int line)
@@ -XXX,XX +XXX,XX @@ static void t_gen_cc_jmp(TCGv pc_true, TCGv pc_false)
  static inline bool use_goto_tb(DisasContext *dc, target_ulong dest)
  {
- #ifndef CONFIG_USER_ONLY
++    uint64_t z_mask, s_mask;
--    return (dc->tb->pc & TARGET_PAGE_MASK) == (dest & TARGET_PAGE_MASK) ||
++    TempOptInfo *tt, *ft;
-+    return (dc->base.pc_first & TARGET_PAGE_MASK) == (dest & TARGET_PAGE_MASK) ||
+     int i;
-            (dc->ppc & TARGET_PAGE_MASK) == (dest & TARGET_PAGE_MASK);
- #else
+     /* If true and false values are the same, eliminate the cmp. */
-     return true;
+@@ -XXX,XX +XXX,XX @@ static bool fold_movcond(OptContext *ctx, TCGOp *op)
-@@ -XXX,XX +XXX,XX @@ static void gen_goto_tb(DisasContext *dc, int n, target_ulong dest)
+         return tcg_opt_gen_mov(ctx, op, op->args[0], op->args[4 - i]);
      if (use_goto_tb(dc, dest)) {
          tcg_gen_goto_tb(n);
          tcg_gen_movi_tl(env_pc, dest);
 -        tcg_gen_exit_tb(dc->tb, n);
 +        tcg_gen_exit_tb(dc->base.tb, n);
      } else {
          tcg_gen_movi_tl(env_pc, dest);
          tcg_gen_exit_tb(NULL, 0);
@@ -XXX,XX +XXX,XX @@ static int dec_setclrf(CPUCRISState *env, DisasContext *dc)
      /* Break the TB if any of the SPI flag changes.  */
      if (flags & (P_FLAG | S_FLAG)) {
          tcg_gen_movi_tl(env_pc, dc->pc + 2);
 -        dc->is_jmp = DISAS_UPDATE;
 +        dc->base.is_jmp = DISAS_UPDATE;
          dc->cpustate_changed = 1;
      }
-     /* For the I flag, only act on posedge.  */
+-    ctx->z_mask = arg_info(op->args[3])->z_mask
-     if ((flags & I_FLAG)) {
+-                | arg_info(op->args[4])->z_mask;
-         tcg_gen_movi_tl(env_pc, dc->pc + 2);
+-    ctx->s_mask = arg_info(op->args[3])->s_mask
--        dc->is_jmp = DISAS_UPDATE;
+-                & arg_info(op->args[4])->s_mask;
-+        dc->base.is_jmp = DISAS_UPDATE;
++    tt = arg_info(op->args[3]);
-         dc->cpustate_changed = 1;
++    ft = arg_info(op->args[4]);
-     }
++    z_mask = tt->z_mask | ft->z_mask;
++    s_mask = tt->s_mask & ft->s_mask;
-@@ -XXX,XX +XXX,XX @@ static int dec_rfe_etc(CPUCRISState *env, DisasContext *dc)
-         LOG_DIS("rfe\n");
+-    if (arg_is_const(op->args[3]) && arg_is_const(op->args[4])) {
-         cris_evaluate_flags(dc);
+-        uint64_t tv = arg_info(op->args[3])->val;
-         gen_helper_rfe(cpu_env);
+-        uint64_t fv = arg_info(op->args[4])->val;
--        dc->is_jmp = DISAS_UPDATE;
++    if (ti_is_const(tt) && ti_is_const(ft)) {
-+        dc->base.is_jmp = DISAS_UPDATE;
++        uint64_t tv = ti_const_val(tt);
-         break;
++        uint64_t fv = ti_const_val(ft);
-     case 5:
+         TCGOpcode opc, negopc = 0;
-         /* rfn.  */
+         TCGCond cond = op->args[5];
-         LOG_DIS("rfn\n");
-         cris_evaluate_flags(dc);
+@@ -XXX,XX +XXX,XX @@ static bool fold_movcond(OptContext *ctx, TCGOp *op)
          gen_helper_rfn(cpu_env);
 -        dc->is_jmp = DISAS_UPDATE;
 +        dc->base.is_jmp = DISAS_UPDATE;
          break;
      case 6:
          LOG_DIS("break %d\n", dc->op1);
@@ -XXX,XX +XXX,XX @@ static int dec_rfe_etc(CPUCRISState *env, DisasContext *dc)
          /* Breaks start at 16 in the exception vector.  */
          t_gen_movi_env_TN(trap_vector, dc->op1 + 16);
          t_gen_raise_exception(EXCP_BREAK);
 -        dc->is_jmp = DISAS_UPDATE;
 +        dc->base.is_jmp = DISAS_UPDATE;
          break;
      default:
          printf("op2=%x\n", dc->op2);
@@ -XXX,XX +XXX,XX @@ void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int max_insns)
       * delayslot, like in real hw.
       */
      pc_start = tb->pc & ~1;
 -    dc->cpu = env_archcpu(env);
 -    dc->tb = tb;
 -    dc->is_jmp = DISAS_NEXT;
 +    dc->base.tb = tb;
 +    dc->base.pc_first = pc_start;
 +    dc->base.pc_next = pc_start;
 +    dc->base.is_jmp = DISAS_NEXT;
 +    dc->base.singlestep_enabled = cs->singlestep_enabled;
 +
 +    dc->cpu = env_archcpu(env);
      dc->ppc = pc_start;
      dc->pc = pc_start;
 -    dc->singlestep_enabled = cs->singlestep_enabled;
      dc->flags_uptodate = 1;
      dc->flagx_known = 1;
      dc->flags_x = tb->flags & X_FLAG;
@@ -XXX,XX +XXX,XX @@ void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int max_insns)
              cris_evaluate_flags(dc);
              tcg_gen_movi_tl(env_pc, dc->pc);
              t_gen_raise_exception(EXCP_DEBUG);
 -            dc->is_jmp = DISAS_UPDATE;
 +            dc->base.is_jmp = DISAS_UPDATE;
              /* The address covered by the breakpoint must be included in
                 [tb->pc, tb->pc + tb->size) in order to for it to be
                 properly cleared -- thus we increment the PC here so that
@@ -XXX,XX +XXX,XX @@ void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int max_insns)
                      gen_goto_tb(dc, 1, dc->jmp_pc);
                      gen_set_label(l1);
                      gen_goto_tb(dc, 0, dc->pc);
 -                    dc->is_jmp = DISAS_TB_JUMP;
 +                    dc->base.is_jmp = DISAS_TB_JUMP;
                      dc->jmp = JMP_NOJMP;
                  } else if (dc->jmp == JMP_DIRECT) {
                      cris_evaluate_flags(dc);
                      gen_goto_tb(dc, 0, dc->jmp_pc);
 -                    dc->is_jmp = DISAS_TB_JUMP;
 +                    dc->base.is_jmp = DISAS_TB_JUMP;
                      dc->jmp = JMP_NOJMP;
                  } else {
                      TCGv c = tcg_const_tl(dc->pc);
                      t_gen_cc_jmp(env_btarget, c);
                      tcg_temp_free(c);
 -                    dc->is_jmp = DISAS_JUMP;
 +                    dc->base.is_jmp = DISAS_JUMP;
                  }
                  break;
              }
-@@ -XXX,XX +XXX,XX @@ void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int max_insns)
-         if (!(tb->pc & 1) && cs->singlestep_enabled) {
-             break;
-         }
--    } while (!dc->is_jmp && !dc->cpustate_changed
-+    } while (!dc->base.is_jmp && !dc->cpustate_changed
-             && !tcg_op_buf_full()
-             && !singlestep
-             && (dc->pc - page_start < TARGET_PAGE_SIZE)
-@@ -XXX,XX +XXX,XX @@ void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int max_insns)
-     npc = dc->pc;
-     /* Force an update if the per-tb cpu state has changed.  */
--    if (dc->is_jmp == DISAS_NEXT
-+    if (dc->base.is_jmp == DISAS_NEXT
-         && (dc->cpustate_changed || !dc->flagx_known
-         || (dc->flags_x != (tb->flags & X_FLAG)))) {
--        dc->is_jmp = DISAS_UPDATE;
-+        dc->base.is_jmp = DISAS_UPDATE;
-         tcg_gen_movi_tl(env_pc, npc);
-     }
-     /* Broken branch+delayslot sequence.  */
-@@ -XXX,XX +XXX,XX @@ void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int max_insns)
-     cris_evaluate_flags(dc);
-     if (unlikely(cs->singlestep_enabled)) {
--        if (dc->is_jmp == DISAS_NEXT) {
-+        if (dc->base.is_jmp == DISAS_NEXT) {
-             tcg_gen_movi_tl(env_pc, npc);
-         }
-         t_gen_raise_exception(EXCP_DEBUG);
-     } else {
--        switch (dc->is_jmp) {
-+        switch (dc->base.is_jmp) {
-         case DISAS_NEXT:
-             gen_goto_tb(dc, 1, npc);
-             break;
-diff --git a/target/cris/translate_v10.c.inc b/target/cris/translate_v10.c.inc
-index XXXXXXX..XXXXXXX 100644
---- a/target/cris/translate_v10.c.inc
-+++ b/target/cris/translate_v10.c.inc
-@@ -XXX,XX +XXX,XX @@ static unsigned int dec10_ind(CPUCRISState *env, DisasContext *dc)
-                     t_gen_mov_env_TN(trap_vector, c);
-                     tcg_temp_free(c);
-                     t_gen_raise_exception(EXCP_BREAK);
--                    dc->is_jmp = DISAS_UPDATE;
-+                    dc->base.is_jmp = DISAS_UPDATE;
-                     return insn_len;
-                 }
-                 LOG_DIS("%d: jump.%d %d r%d r%d\n", __LINE__, size,
-@@ -XXX,XX +XXX,XX @@ static unsigned int crisv10_decoder(CPUCRISState *env, DisasContext *dc)
-     if (dc->clear_prefix && dc->tb_flags & PFIX_FLAG) {
-         dc->tb_flags &= ~PFIX_FLAG;
-         tcg_gen_andi_tl(cpu_PR[PR_CCS], cpu_PR[PR_CCS], ~PFIX_FLAG);
--        if (dc->tb_flags != dc->tb->flags) {
-+        if (dc->tb_flags != dc->base.tb->flags) {
-             dc->cpustate_changed = 1;
          }
      }
+-    return false;
++
++    return fold_masks_zs(ctx, op, z_mask, s_mask);
+ }
+ static bool fold_mul(OptContext *ctx, TCGOp *op)
 --
-.25.1
+.43.0

-[PULL 45/63] tcg/ppc: Support bswap flags
+[PULL 26/72] tcg/optimize: Use finish_folding in fold_mul*
-For INDEX_op_bswap32_i32, pass 0 for flags: input not zero-extended,
+Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
 output does not need extension within the host 64-bit register.
 Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- tcg/ppc/tcg-target.c.inc | 22 ++++++++++++++++------
+ tcg/optimize.c | 6 +++---
-file changed, 16 insertions(+), 6 deletions(-)
+file changed, 3 insertions(+), 3 deletions(-)
-diff --git a/tcg/ppc/tcg-target.c.inc b/tcg/ppc/tcg-target.c.inc
+diff --git a/tcg/optimize.c b/tcg/optimize.c
 index XXXXXXX..XXXXXXX 100644
---- a/tcg/ppc/tcg-target.c.inc
+--- a/tcg/optimize.c
-+++ b/tcg/ppc/tcg-target.c.inc
++++ b/tcg/optimize.c
-@@ -XXX,XX +XXX,XX @@ static inline void tcg_out_sari64(TCGContext *s, TCGReg dst, TCGReg src, int c)
+@@ -XXX,XX +XXX,XX @@ static bool fold_mul(OptContext *ctx, TCGOp *op)
-     tcg_out32(s, SRADI | RA(dst) | RS(src) | SH(c & 0x1f) | ((c >> 4) & 2));
+         fold_xi_to_x(ctx, op, 1)) {
          return true;
      }
 -    return false;
 +    return finish_folding(ctx, op);
  }
--static void tcg_out_bswap16(TCGContext *s, TCGReg dst, TCGReg src)
+ static bool fold_mul_highpart(OptContext *ctx, TCGOp *op)
-+static void tcg_out_bswap16(TCGContext *s, TCGReg dst, TCGReg src, int flags)
+@@ -XXX,XX +XXX,XX @@ static bool fold_mul_highpart(OptContext *ctx, TCGOp *op)
- {
+         fold_xi_to_i(ctx, op, 0)) {
-     TCGReg tmp = dst == src ? TCG_REG_R0 : dst;
+         return true;
+     }
-@@ -XXX,XX +XXX,XX @@ static void tcg_out_bswap16(TCGContext *s, TCGReg dst, TCGReg src)
+-    return false;
-     /* tmp = dep(tmp, rol32(src, 8), 0x0000ff00)    = 000000dc */
++    return finish_folding(ctx, op);
      tcg_out_rlw(s, RLWIMI, tmp, src, 8, 16, 23);
 -    tcg_out_mov(s, TCG_TYPE_REG, dst, tmp);
 +    if (flags & TCG_BSWAP_OS) {
 +        tcg_out_ext16s(s, dst, tmp);
 +    } else {
 +        tcg_out_mov(s, TCG_TYPE_REG, dst, tmp);
 +    }
  }
--static void tcg_out_bswap32(TCGContext *s, TCGReg dst, TCGReg src)
+ static bool fold_multiply2(OptContext *ctx, TCGOp *op)
-+static void tcg_out_bswap32(TCGContext *s, TCGReg dst, TCGReg src, int flags)
+@@ -XXX,XX +XXX,XX @@ static bool fold_multiply2(OptContext *ctx, TCGOp *op)
- {
+         tcg_opt_gen_movi(ctx, op2, rh, h);
-     TCGReg tmp = dst == src ? TCG_REG_R0 : dst;
+         return true;
+     }
-@@ -XXX,XX +XXX,XX @@ static void tcg_out_bswap32(TCGContext *s, TCGReg dst, TCGReg src)
+-    return false;
-     /* tmp = dep(tmp, rol32(src, 24), 0x0000ff00)   = 0000dcba */
++    return finish_folding(ctx, op);
      tcg_out_rlw(s, RLWIMI, tmp, src, 24, 16, 23);
 -    tcg_out_mov(s, TCG_TYPE_REG, dst, tmp);
 +    if (flags & TCG_BSWAP_OS) {
 +        tcg_out_ext32s(s, dst, tmp);
 +    } else {
 +        tcg_out_mov(s, TCG_TYPE_REG, dst, tmp);
 +    }
  }
- static void tcg_out_bswap64(TCGContext *s, TCGReg dst, TCGReg src)
+ static bool fold_nand(OptContext *ctx, TCGOp *op)
@@ -XXX,XX +XXX,XX @@ static void tcg_out_op(TCGContext *s, TCGOpcode opc,
      case INDEX_op_bswap16_i32:
      case INDEX_op_bswap16_i64:
 -        tcg_out_bswap16(s, args[0], args[1]);
 +        tcg_out_bswap16(s, args[0], args[1], args[2]);
          break;
      case INDEX_op_bswap32_i32:
 +        tcg_out_bswap32(s, args[0], args[1], 0);
 +        break;
      case INDEX_op_bswap32_i64:
 -        tcg_out_bswap32(s, args[0], args[1]);
 +        tcg_out_bswap32(s, args[0], args[1], args[2]);
          break;
      case INDEX_op_bswap64_i64:
          tcg_out_bswap64(s, args[0], args[1]);
 --
-.25.1
+.43.0

-[PULL 57/63] target/arm: Improve REVSH
+[PULL 27/72] tcg/optimize: Use fold_masks_s in fold_nand
-The new bswap flags can implement the semantics exactly.
+Avoid the use of the OptContext slots.
-Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
+Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
 Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- target/arm/translate.c | 4 +---
+ tcg/optimize.c | 8 +++++---
-file changed, 1 insertion(+), 3 deletions(-)
+file changed, 5 insertions(+), 3 deletions(-)
-diff --git a/target/arm/translate.c b/target/arm/translate.c
+diff --git a/tcg/optimize.c b/tcg/optimize.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/translate.c
+--- a/tcg/optimize.c
-+++ b/target/arm/translate.c
++++ b/tcg/optimize.c
-@@ -XXX,XX +XXX,XX @@ void gen_rev16(TCGv_i32 dest, TCGv_i32 var)
+@@ -XXX,XX +XXX,XX @@ static bool fold_multiply2(OptContext *ctx, TCGOp *op)
- /* Byteswap low halfword and sign extend.  */
- static void gen_revsh(TCGv_i32 dest, TCGv_i32 var)
+ static bool fold_nand(OptContext *ctx, TCGOp *op)
  {
--    tcg_gen_ext16u_i32(var, var);
++    uint64_t s_mask;
--    tcg_gen_bswap16_i32(var, var, TCG_BSWAP_IZ | TCG_BSWAP_OZ);
++
--    tcg_gen_ext16s_i32(dest, var);
+     if (fold_const2_commutative(ctx, op) ||
-+    tcg_gen_bswap16_i32(var, var, TCG_BSWAP_OS);
+         fold_xi_to_not(ctx, op, -1)) {
          return true;
      }
 -    ctx->s_mask = arg_info(op->args[1])->s_mask
 -                & arg_info(op->args[2])->s_mask;
 -    return false;
 +    s_mask = arg_info(op->args[1])->s_mask
 +           & arg_info(op->args[2])->s_mask;
 +    return fold_masks_s(ctx, op, s_mask);
  }
- /* Dual 16-bit add.  Result placed in t0 and t1 is marked as dead.
+ static bool fold_neg_no_const(OptContext *ctx, TCGOp *op)
 --
-.25.1
+.43.0

-[PULL 17/63] target/cris: Fix use_goto_tb
+[PULL 28/72] tcg/optimize: Use fold_masks_z in fold_neg_no_const
-Do not skip the page check for user-only -- mmap/mprotect can
+Avoid the use of the OptContext slots.
 still change page mappings.  Only check dc->base.pc_first, not
 dc->ppc -- the start page is the only one that's relevant.
-Reviewed-by: Edgar E. Iglesias <edgar.iglesias@xilinx.com>
+Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
 Tested-by: Edgar E. Iglesias <edgar.iglesias@xilinx.com>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- target/cris/translate.c | 9 ++-------
+ tcg/optimize.c | 9 ++-------
 file changed, 2 insertions(+), 7 deletions(-)
-diff --git a/target/cris/translate.c b/target/cris/translate.c
+diff --git a/tcg/optimize.c b/tcg/optimize.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/cris/translate.c
+--- a/tcg/optimize.c
-+++ b/target/cris/translate.c
++++ b/tcg/optimize.c
-@@ -XXX,XX +XXX,XX @@ static void t_gen_cc_jmp(TCGv pc_true, TCGv pc_false)
+@@ -XXX,XX +XXX,XX @@ static bool fold_neg_no_const(OptContext *ctx, TCGOp *op)
-     gen_set_label(l1);
+ {
      /* Set to 1 all bits to the left of the rightmost.  */
      uint64_t z_mask = arg_info(op->args[1])->z_mask;
 -    ctx->z_mask = -(z_mask & -z_mask);
 +    z_mask = -(z_mask & -z_mask);
 -    /*
 -     * Because of fold_sub_to_neg, we want to always return true,
 -     * via finish_folding.
 -     */
 -    finish_folding(ctx, op);
 -    return true;
 +    return fold_masks_z(ctx, op, z_mask);
  }
--static inline bool use_goto_tb(DisasContext *dc, target_ulong dest)
+ static bool fold_neg(OptContext *ctx, TCGOp *op)
 +static bool use_goto_tb(DisasContext *dc, target_ulong dest)
  {
 -#ifndef CONFIG_USER_ONLY
 -    return (dc->base.pc_first & TARGET_PAGE_MASK) == (dest & TARGET_PAGE_MASK) ||
 -           (dc->ppc & TARGET_PAGE_MASK) == (dest & TARGET_PAGE_MASK);
 -#else
 -    return true;
 -#endif
 +    return ((dest ^ dc->base.pc_first) & TARGET_PAGE_MASK) == 0;
  }
  static void gen_goto_tb(DisasContext *dc, int n, target_ulong dest)
 --
-.25.1
+.43.0

-[PULL 56/63] target/arm: Improve vector REV
+[PULL 29/72] tcg/optimize: Use fold_masks_s in fold_nor
-We can eliminate the requirement for a zero-extended output,
+Avoid the use of the OptContext slots.
 because the following store will ignore any garbage high bits.
-Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
+Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
 Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- target/arm/translate-a64.c | 6 ++----
+ tcg/optimize.c | 8 +++++---
-file changed, 2 insertions(+), 4 deletions(-)
+file changed, 5 insertions(+), 3 deletions(-)
-diff --git a/target/arm/translate-a64.c b/target/arm/translate-a64.c
+diff --git a/tcg/optimize.c b/tcg/optimize.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/translate-a64.c
+--- a/tcg/optimize.c
-+++ b/target/arm/translate-a64.c
++++ b/tcg/optimize.c
-@@ -XXX,XX +XXX,XX @@ static void handle_rev(DisasContext *s, int opcode, bool u,
+@@ -XXX,XX +XXX,XX @@ static bool fold_neg(OptContext *ctx, TCGOp *op)
-             read_vec_element(s, tcg_tmp, rn, i, grp_size);
-             switch (grp_size) {
+ static bool fold_nor(OptContext *ctx, TCGOp *op)
-             case MO_16:
+ {
--                tcg_gen_bswap16_i64(tcg_tmp, tcg_tmp,
++    uint64_t s_mask;
--                                    TCG_BSWAP_IZ | TCG_BSWAP_OZ);
++
-+                tcg_gen_bswap16_i64(tcg_tmp, tcg_tmp, TCG_BSWAP_IZ);
+     if (fold_const2_commutative(ctx, op) ||
-                 break;
+         fold_xi_to_not(ctx, op, 0)) {
-             case MO_32:
+         return true;
--                tcg_gen_bswap32_i64(tcg_tmp, tcg_tmp,
+     }
--                                    TCG_BSWAP_IZ | TCG_BSWAP_OZ);
-+                tcg_gen_bswap32_i64(tcg_tmp, tcg_tmp, TCG_BSWAP_IZ);
+-    ctx->s_mask = arg_info(op->args[1])->s_mask
-                 break;
+-                & arg_info(op->args[2])->s_mask;
-             case MO_64:
+-    return false;
-                 tcg_gen_bswap64_i64(tcg_tmp, tcg_tmp);
++    s_mask = arg_info(op->args[1])->s_mask
 +           & arg_info(op->args[2])->s_mask;
 +    return fold_masks_s(ctx, op, s_mask);
  }
  static bool fold_not(OptContext *ctx, TCGOp *op)
 --
-.25.1
+.43.0

-[PULL 55/63] target/arm: Improve REV32
+[PULL 30/72] tcg/optimize: Use fold_masks_s in fold_not
-For the sf version, we are performing two 32-bit bswaps
+Avoid the use of the OptContext slots.
 in either half of the register.  This is equivalent to
 performing one 64-bit bswap followed by a rotate.
-For the non-sf version, we can remove TCG_BSWAP_IZ
+Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
 and the preceding zero-extension.
 Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
 Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- target/arm/translate-a64.c | 17 ++++-------------
+ tcg/optimize.c | 7 +------
-file changed, 4 insertions(+), 13 deletions(-)
+file changed, 1 insertion(+), 6 deletions(-)
-diff --git a/target/arm/translate-a64.c b/target/arm/translate-a64.c
+diff --git a/tcg/optimize.c b/tcg/optimize.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/translate-a64.c
+--- a/tcg/optimize.c
-+++ b/target/arm/translate-a64.c
++++ b/tcg/optimize.c
-@@ -XXX,XX +XXX,XX @@ static void handle_rev32(DisasContext *s, unsigned int sf,
+@@ -XXX,XX +XXX,XX @@ static bool fold_not(OptContext *ctx, TCGOp *op)
-                          unsigned int rn, unsigned int rd)
+     if (fold_const1(ctx, op)) {
- {
+         return true;
-     TCGv_i64 tcg_rd = cpu_reg(s, rd);
+     }
 +    TCGv_i64 tcg_rn = cpu_reg(s, rn);
      if (sf) {
 -        TCGv_i64 tcg_tmp = tcg_temp_new_i64();
 -        TCGv_i64 tcg_rn = read_cpu_reg(s, rn, sf);
 -
--        /* bswap32_i64 requires zero high word */
+-    ctx->s_mask = arg_info(op->args[1])->s_mask;
 -        tcg_gen_ext32u_i64(tcg_tmp, tcg_rn);
 -        tcg_gen_bswap32_i64(tcg_rd, tcg_tmp, TCG_BSWAP_IZ | TCG_BSWAP_OZ);
 -        tcg_gen_shri_i64(tcg_tmp, tcg_rn, 32);
 -        tcg_gen_bswap32_i64(tcg_tmp, tcg_tmp, TCG_BSWAP_IZ | TCG_BSWAP_OZ);
 -        tcg_gen_concat32_i64(tcg_rd, tcg_rd, tcg_tmp);
 -
--        tcg_temp_free_i64(tcg_tmp);
+-    /* Because of fold_to_not, we want to always return true, via finish. */
-+        tcg_gen_bswap64_i64(tcg_rd, tcg_rn);
+-    finish_folding(ctx, op);
-+        tcg_gen_rotri_i64(tcg_rd, tcg_rd, 32);
+-    return true;
-     } else {
++    return fold_masks_s(ctx, op, arg_info(op->args[1])->s_mask);
 -        tcg_gen_ext32u_i64(tcg_rd, cpu_reg(s, rn));
 -        tcg_gen_bswap32_i64(tcg_rd, tcg_rd, TCG_BSWAP_IZ | TCG_BSWAP_OZ);
 +        tcg_gen_bswap32_i64(tcg_rd, tcg_rn, TCG_BSWAP_OZ);
      }
  }
+ static bool fold_or(OptContext *ctx, TCGOp *op)
 --
-.25.1
+.43.0

-[PULL 54/63] tcg: Make use of bswap flags in tcg_gen_qemu_st_*
+[PULL 31/72] tcg/optimize: Use fold_masks_zs in fold_or
-By removing TCG_BSWAP_IZ we indicate that the input is
+Avoid the use of the OptContext slots.  Find TempOptInfo once.
 not zero-extended, and thus can remove an explicit extend.
 By removing TCG_BSWAP_OZ, we allow the implementation to
 leave high bits set, which will be ignored by the store.
-Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
+Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- tcg/tcg-op.c | 9 +++------
+ tcg/optimize.c | 13 ++++++++-----
-file changed, 3 insertions(+), 6 deletions(-)
+file changed, 8 insertions(+), 5 deletions(-)
-diff --git a/tcg/tcg-op.c b/tcg/tcg-op.c
+diff --git a/tcg/optimize.c b/tcg/optimize.c
 index XXXXXXX..XXXXXXX 100644
---- a/tcg/tcg-op.c
+--- a/tcg/optimize.c
-+++ b/tcg/tcg-op.c
++++ b/tcg/optimize.c
-@@ -XXX,XX +XXX,XX @@ void tcg_gen_qemu_st_i32(TCGv_i32 val, TCGv addr, TCGArg idx, MemOp memop)
+@@ -XXX,XX +XXX,XX @@ static bool fold_not(OptContext *ctx, TCGOp *op)
-         swap = tcg_temp_new_i32();
-         switch (memop & MO_SIZE) {
+ static bool fold_or(OptContext *ctx, TCGOp *op)
-         case MO_16:
+ {
--            tcg_gen_ext16u_i32(swap, val);
++    uint64_t z_mask, s_mask;
--            tcg_gen_bswap16_i32(swap, swap, TCG_BSWAP_IZ | TCG_BSWAP_OZ);
++    TempOptInfo *t1, *t2;
-+            tcg_gen_bswap16_i32(swap, val, 0);
++
-             break;
+     if (fold_const2_commutative(ctx, op) ||
-         case MO_32:
+         fold_xi_to_x(ctx, op, 0) ||
-             tcg_gen_bswap32_i32(swap, val);
+         fold_xx_to_x(ctx, op)) {
-@@ -XXX,XX +XXX,XX @@ void tcg_gen_qemu_st_i64(TCGv_i64 val, TCGv addr, TCGArg idx, MemOp memop)
+         return true;
-         swap = tcg_temp_new_i64();
+     }
-         switch (memop & MO_SIZE) {
-         case MO_16:
+-    ctx->z_mask = arg_info(op->args[1])->z_mask
--            tcg_gen_ext16u_i64(swap, val);
+-                | arg_info(op->args[2])->z_mask;
--            tcg_gen_bswap16_i64(swap, swap, TCG_BSWAP_IZ | TCG_BSWAP_OZ);
+-    ctx->s_mask = arg_info(op->args[1])->s_mask
-+            tcg_gen_bswap16_i64(swap, val, 0);
+-                & arg_info(op->args[2])->s_mask;
-             break;
+-    return fold_masks(ctx, op);
-         case MO_32:
++    t1 = arg_info(op->args[1]);
--            tcg_gen_ext32u_i64(swap, val);
++    t2 = arg_info(op->args[2]);
--            tcg_gen_bswap32_i64(swap, swap, TCG_BSWAP_IZ | TCG_BSWAP_OZ);
++    z_mask = t1->z_mask | t2->z_mask;
-+            tcg_gen_bswap32_i64(swap, val, 0);
++    s_mask = t1->s_mask & t2->s_mask;
-             break;
++    return fold_masks_zs(ctx, op, z_mask, s_mask);
-         case MO_64:
+ }
-             tcg_gen_bswap64_i64(swap, val);
  static bool fold_orc(OptContext *ctx, TCGOp *op)
 --
-.25.1
+.43.0

-[PULL 28/63] target/cris: Do not exit tb for X_FLAG changes
+[PULL 32/72] tcg/optimize: Use fold_masks_zs in fold_orc
-We always know the exact value of X, that's all that matters.
+Avoid the use of the OptContext slots.
 This avoids splitting the TB e.g. between "ax" and "addq".
-Reviewed-by: Edgar E. Iglesias <edgar.iglesias@xilinx.com>
+Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
 Tested-by: Edgar E. Iglesias <edgar.iglesias@xilinx.com>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- target/cris/translate.c | 3 ---
+ tcg/optimize.c | 8 +++++---
-file changed, 3 deletions(-)
+file changed, 5 insertions(+), 3 deletions(-)
-diff --git a/target/cris/translate.c b/target/cris/translate.c
+diff --git a/tcg/optimize.c b/tcg/optimize.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/cris/translate.c
+--- a/tcg/optimize.c
-+++ b/target/cris/translate.c
++++ b/tcg/optimize.c
-@@ -XXX,XX +XXX,XX @@ static void cris_tr_translate_insn(DisasContextBase *dcbase, CPUState *cs)
+@@ -XXX,XX +XXX,XX @@ static bool fold_or(OptContext *ctx, TCGOp *op)
-         cris_clear_x_flag(dc);
  static bool fold_orc(OptContext *ctx, TCGOp *op)
  {
 +    uint64_t s_mask;
 +
      if (fold_const2(ctx, op) ||
          fold_xx_to_i(ctx, op, -1) ||
          fold_xi_to_x(ctx, op, -1) ||
@@ -XXX,XX +XXX,XX @@ static bool fold_orc(OptContext *ctx, TCGOp *op)
          return true;
      }
--    /* Fold unhandled changes to X_FLAG into cpustate_changed. */
+-    ctx->s_mask = arg_info(op->args[1])->s_mask
--    dc->cpustate_changed |= dc->flags_x != (dc->base.tb->flags & X_FLAG);
+-                & arg_info(op->args[2])->s_mask;
--
+-    return false;
-     /*
++    s_mask = arg_info(op->args[1])->s_mask
-      * All branches are delayed branches, handled immediately below.
++           & arg_info(op->args[2])->s_mask;
-      * We don't expect to see odd combinations of exit conditions.
++    return fold_masks_s(ctx, op, s_mask);
  }
  static bool fold_qemu_ld(OptContext *ctx, TCGOp *op)
 --
-.25.1
+.43.0

-[PULL 30/63] tcg: Add tcg_gen_vec_add{sub}8_i32
+[PULL 33/72] tcg/optimize: Use fold_masks_zs in fold_qemu_ld
-From: LIU Zhiwei <zhiwei_liu@c-sky.com>
+Avoid the use of the OptContext slots.
-Implement tcg_gen_vec_add{sub}8_tl by adding corresponging i32 OP.
+Be careful not to call fold_masks_zs when the memory operation
 is wide enough to require multiple outputs, so split into two
 functions: fold_qemu_ld_1reg and fold_qemu_ld_2reg.
-Signed-off-by: LIU Zhiwei <zhiwei_liu@c-sky.com>
+Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
 Message-Id: <20210624105023.3852-3-zhiwei_liu@c-sky.com>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- include/tcg/tcg-op-gvec.h |  6 ++++++
+ tcg/optimize.c | 26 +++++++++++++++++++++-----
- tcg/tcg-op-gvec.c         | 38 ++++++++++++++++++++++++++++++++++++++
+file changed, 21 insertions(+), 5 deletions(-)
 files changed, 44 insertions(+)
-diff --git a/include/tcg/tcg-op-gvec.h b/include/tcg/tcg-op-gvec.h
+diff --git a/tcg/optimize.c b/tcg/optimize.c
 index XXXXXXX..XXXXXXX 100644
---- a/include/tcg/tcg-op-gvec.h
+--- a/tcg/optimize.c
-+++ b/include/tcg/tcg-op-gvec.h
++++ b/tcg/optimize.c
-@@ -XXX,XX +XXX,XX @@ void tcg_gen_vec_rotl8i_i64(TCGv_i64 d, TCGv_i64 a, int64_t c);
+@@ -XXX,XX +XXX,XX @@ static bool fold_orc(OptContext *ctx, TCGOp *op)
- void tcg_gen_vec_rotl16i_i64(TCGv_i64 d, TCGv_i64 a, int64_t c);
+     return fold_masks_s(ctx, op, s_mask);
  /* 32-bit vector operations. */
 +void tcg_gen_vec_add8_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b);
  void tcg_gen_vec_add16_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b);
 +void tcg_gen_vec_sub8_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b);
  void tcg_gen_vec_sub16_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b);
  #if TARGET_LONG_BITS == 64
 +#define tcg_gen_vec_add8_tl  tcg_gen_vec_add8_i64
 +#define tcg_gen_vec_sub8_tl  tcg_gen_vec_sub8_i64
  #define tcg_gen_vec_add16_tl tcg_gen_vec_add16_i64
  #define tcg_gen_vec_sub16_tl tcg_gen_vec_sub16_i64
  #else
 +#define tcg_gen_vec_add8_tl  tcg_gen_vec_add8_i32
 +#define tcg_gen_vec_sub8_tl  tcg_gen_vec_sub8_i32
  #define tcg_gen_vec_add16_tl tcg_gen_vec_add16_i32
  #define tcg_gen_vec_sub16_tl tcg_gen_vec_sub16_i32
  #endif
 diff --git a/tcg/tcg-op-gvec.c b/tcg/tcg-op-gvec.c
 index XXXXXXX..XXXXXXX 100644
 --- a/tcg/tcg-op-gvec.c
 +++ b/tcg/tcg-op-gvec.c
@@ -XXX,XX +XXX,XX @@ void tcg_gen_vec_add8_i64(TCGv_i64 d, TCGv_i64 a, TCGv_i64 b)
      gen_addv_mask(d, a, b, m);
  }
-+void tcg_gen_vec_add8_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b)
+-static bool fold_qemu_ld(OptContext *ctx, TCGOp *op)
-+{
++static bool fold_qemu_ld_1reg(OptContext *ctx, TCGOp *op)
-+    TCGv_i32 m = tcg_constant_i32((int32_t)dup_const(MO_8, 0x80));
+ {
-+    TCGv_i32 t1 = tcg_temp_new_i32();
+     const TCGOpDef *def = &tcg_op_defs[op->opc];
-+    TCGv_i32 t2 = tcg_temp_new_i32();
+     MemOpIdx oi = op->args[def->nb_oargs + def->nb_iargs];
-+    TCGv_i32 t3 = tcg_temp_new_i32();
+     MemOp mop = get_memop(oi);
      int width = 8 * memop_size(mop);
 +    uint64_t z_mask = -1, s_mask = 0;
      if (width < 64) {
          if (mop & MO_SIGN) {
 -            ctx->s_mask = MAKE_64BIT_MASK(width, 64 - width);
 +            s_mask = MAKE_64BIT_MASK(width - 1, 64 - (width - 1));
          } else {
 -            ctx->z_mask = MAKE_64BIT_MASK(0, width);
 +            z_mask = MAKE_64BIT_MASK(0, width);
          }
      }
      /* Opcodes that touch guest memory stop the mb optimization.  */
      ctx->prev_mb = NULL;
 -    return false;
 +
-+    tcg_gen_andc_i32(t1, a, m);
++    return fold_masks_zs(ctx, op, z_mask, s_mask);
 +    tcg_gen_andc_i32(t2, b, m);
 +    tcg_gen_xor_i32(t3, a, b);
 +    tcg_gen_add_i32(d, t1, t2);
 +    tcg_gen_and_i32(t3, t3, m);
 +    tcg_gen_xor_i32(d, d, t3);
 +
 +    tcg_temp_free_i32(t1);
 +    tcg_temp_free_i32(t2);
 +    tcg_temp_free_i32(t3);
 +}
 +
- void tcg_gen_vec_add16_i64(TCGv_i64 d, TCGv_i64 a, TCGv_i64 b)
++static bool fold_qemu_ld_2reg(OptContext *ctx, TCGOp *op)
- {
++{
-     TCGv_i64 m = tcg_constant_i64(dup_const(MO_16, 0x8000));
++    /* Opcodes that touch guest memory stop the mb optimization.  */
-@@ -XXX,XX +XXX,XX @@ void tcg_gen_vec_sub8_i64(TCGv_i64 d, TCGv_i64 a, TCGv_i64 b)
++    ctx->prev_mb = NULL;
-     gen_subv_mask(d, a, b, m);
++    return finish_folding(ctx, op);
  }
-+void tcg_gen_vec_sub8_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b)
+ static bool fold_qemu_st(OptContext *ctx, TCGOp *op)
-+{
+@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
-+    TCGv_i32 m = tcg_constant_i32((int32_t)dup_const(MO_8, 0x80));
+             break;
-+    TCGv_i32 t1 = tcg_temp_new_i32();
+         case INDEX_op_qemu_ld_a32_i32:
-+    TCGv_i32 t2 = tcg_temp_new_i32();
+         case INDEX_op_qemu_ld_a64_i32:
-+    TCGv_i32 t3 = tcg_temp_new_i32();
++            done = fold_qemu_ld_1reg(&ctx, op);
-+
++            break;
-+    tcg_gen_or_i32(t1, a, m);
+         case INDEX_op_qemu_ld_a32_i64:
-+    tcg_gen_andc_i32(t2, b, m);
+         case INDEX_op_qemu_ld_a64_i64:
-+    tcg_gen_eqv_i32(t3, a, b);
++            if (TCG_TARGET_REG_BITS == 64) {
-+    tcg_gen_sub_i32(d, t1, t2);
++                done = fold_qemu_ld_1reg(&ctx, op);
-+    tcg_gen_and_i32(t3, t3, m);
++                break;
-+    tcg_gen_xor_i32(d, d, t3);
++            }
-+
++            QEMU_FALLTHROUGH;
-+    tcg_temp_free_i32(t1);
+         case INDEX_op_qemu_ld_a32_i128:
-+    tcg_temp_free_i32(t2);
+         case INDEX_op_qemu_ld_a64_i128:
-+    tcg_temp_free_i32(t3);
+-            done = fold_qemu_ld(&ctx, op);
-+}
++            done = fold_qemu_ld_2reg(&ctx, op);
-+
+             break;
- void tcg_gen_vec_sub16_i64(TCGv_i64 d, TCGv_i64 a, TCGv_i64 b)
+         case INDEX_op_qemu_st8_a32_i32:
- {
+         case INDEX_op_qemu_st8_a64_i32:
      TCGv_i64 m = tcg_constant_i64(dup_const(MO_16, 0x8000));
 --
-.25.1
+.43.0

-[PULL 04/63] target/nios2: Add DisasContextBase to DisasContext
+[PULL 34/72] tcg/optimize: Return true from fold_qemu_st, fold_tcg_st
-Migrate the is_jmp, tb and singlestep_enabled fields from
+Stores have no output operands, and so need no further work.
 DisasContext into the base.  Use pc_first instead of tb->pc.
 Increment pc_next prior to decode, leaving the address of
 the current insn in dc->pc.
-Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
+Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- target/nios2/translate.c | 70 +++++++++++++++++++++-------------------
+ tcg/optimize.c | 11 +++++------
-file changed, 36 insertions(+), 34 deletions(-)
+file changed, 5 insertions(+), 6 deletions(-)
-diff --git a/target/nios2/translate.c b/target/nios2/translate.c
+diff --git a/tcg/optimize.c b/tcg/optimize.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/nios2/translate.c
+--- a/tcg/optimize.c
-+++ b/target/nios2/translate.c
++++ b/tcg/optimize.c
-@@ -XXX,XX +XXX,XX @@
+@@ -XXX,XX +XXX,XX @@ static bool fold_qemu_st(OptContext *ctx, TCGOp *op)
  {
      /* Opcodes that touch guest memory stop the mb optimization.  */
      ctx->prev_mb = NULL;
 -    return false;
 +    return true;
  }
  static bool fold_remainder(OptContext *ctx, TCGOp *op)
@@ -XXX,XX +XXX,XX @@ static bool fold_tcg_st(OptContext *ctx, TCGOp *op)
      if (op->args[1] != tcgv_ptr_arg(tcg_env)) {
          remove_mem_copy_all(ctx);
 -        return false;
 +        return true;
      }
- typedef struct DisasContext {
+     switch (op->opc) {
-+    DisasContextBase  base;
+@@ -XXX,XX +XXX,XX @@ static bool fold_tcg_st(OptContext *ctx, TCGOp *op)
-     TCGv_i32          zero;
+         g_assert_not_reached();
--    int               is_jmp;
+     }
-     target_ulong      pc;
+     remove_mem_copy_in(ctx, ofs, ofs + lm1);
--    TranslationBlock *tb;
+-    return false;
-     int               mem_idx;
++    return true;
 -    bool              singlestep_enabled;
  } DisasContext;
  static TCGv cpu_R[NUM_CORE_REGS];
@@ -XXX,XX +XXX,XX @@ static void t_gen_helper_raise_exception(DisasContext *dc,
      tcg_gen_movi_tl(cpu_R[R_PC], dc->pc);
      gen_helper_raise_exception(cpu_env, tmp);
      tcg_temp_free_i32(tmp);
 -    dc->is_jmp = DISAS_NORETURN;
 +    dc->base.is_jmp = DISAS_NORETURN;
  }
- static bool use_goto_tb(DisasContext *dc, uint32_t dest)
+ static bool fold_tcg_st_memcopy(OptContext *ctx, TCGOp *op)
- {
+@@ -XXX,XX +XXX,XX @@ static bool fold_tcg_st_memcopy(OptContext *ctx, TCGOp *op)
--    if (unlikely(dc->singlestep_enabled)) {
+     TCGType type;
-+    if (unlikely(dc->base.singlestep_enabled)) {
-         return false;
+     if (op->args[1] != tcgv_ptr_arg(tcg_env)) {
 -        fold_tcg_st(ctx, op);
 -        return false;
 +        return fold_tcg_st(ctx, op);
      }
- #ifndef CONFIG_USER_ONLY
+     src = arg_temp(op->args[0]);
--    return (dc->tb->pc & TARGET_PAGE_MASK) == (dest & TARGET_PAGE_MASK);
+@@ -XXX,XX +XXX,XX @@ static bool fold_tcg_st_memcopy(OptContext *ctx, TCGOp *op)
-+    return (dc->base.pc_first & TARGET_PAGE_MASK) == (dest & TARGET_PAGE_MASK);
+     last = ofs + tcg_type_size(type) - 1;
- #else
+     remove_mem_copy_in(ctx, ofs, last);
-     return true;
+     record_mem_copy(ctx, type, src, ofs, last);
- #endif
+-    return false;
-@@ -XXX,XX +XXX,XX @@ static bool use_goto_tb(DisasContext *dc, uint32_t dest)
++    return true;
  static void gen_goto_tb(DisasContext *dc, int n, uint32_t dest)
  {
 -    TranslationBlock *tb = dc->tb;
 +    const TranslationBlock *tb = dc->base.tb;
      if (use_goto_tb(dc, dest)) {
          tcg_gen_goto_tb(n);
@@ -XXX,XX +XXX,XX @@ static void gen_excp(DisasContext *dc, uint32_t code, uint32_t flags)
  static void gen_check_supervisor(DisasContext *dc)
  {
 -    if (dc->tb->flags & CR_STATUS_U) {
 +    if (dc->base.tb->flags & CR_STATUS_U) {
          /* CPU in user mode, privileged instruction called, stop. */
          t_gen_helper_raise_exception(dc, EXCP_SUPERI);
      }
@@ -XXX,XX +XXX,XX @@ static void jmpi(DisasContext *dc, uint32_t code, uint32_t flags)
  {
      J_TYPE(instr, code);
      gen_goto_tb(dc, 0, (dc->pc & 0xF0000000) | (instr.imm26 << 2));
 -    dc->is_jmp = DISAS_NORETURN;
 +    dc->base.is_jmp = DISAS_NORETURN;
  }
- static void call(DisasContext *dc, uint32_t code, uint32_t flags)
+ static bool fold_xor(OptContext *ctx, TCGOp *op)
@@ -XXX,XX +XXX,XX @@ static void br(DisasContext *dc, uint32_t code, uint32_t flags)
      I_TYPE(instr, code);
      gen_goto_tb(dc, 0, dc->pc + 4 + (instr.imm16.s & -4));
 -    dc->is_jmp = DISAS_NORETURN;
 +    dc->base.is_jmp = DISAS_NORETURN;
  }
  static void gen_bxx(DisasContext *dc, uint32_t code, uint32_t flags)
@@ -XXX,XX +XXX,XX @@ static void gen_bxx(DisasContext *dc, uint32_t code, uint32_t flags)
      gen_goto_tb(dc, 0, dc->pc + 4);
      gen_set_label(l1);
      gen_goto_tb(dc, 1, dc->pc + 4 + (instr.imm16.s & -4));
 -    dc->is_jmp = DISAS_NORETURN;
 +    dc->base.is_jmp = DISAS_NORETURN;
  }
  /* Comparison instructions */
@@ -XXX,XX +XXX,XX @@ static void eret(DisasContext *dc, uint32_t code, uint32_t flags)
      tcg_gen_mov_tl(cpu_R[CR_STATUS], cpu_R[CR_ESTATUS]);
      tcg_gen_mov_tl(cpu_R[R_PC], cpu_R[R_EA]);
 -    dc->is_jmp = DISAS_JUMP;
 +    dc->base.is_jmp = DISAS_JUMP;
  }
  /* PC <- ra */
@@ -XXX,XX +XXX,XX @@ static void ret(DisasContext *dc, uint32_t code, uint32_t flags)
  {
      tcg_gen_mov_tl(cpu_R[R_PC], cpu_R[R_RA]);
 -    dc->is_jmp = DISAS_JUMP;
 +    dc->base.is_jmp = DISAS_JUMP;
  }
  /* PC <- ba */
@@ -XXX,XX +XXX,XX @@ static void bret(DisasContext *dc, uint32_t code, uint32_t flags)
  {
      tcg_gen_mov_tl(cpu_R[R_PC], cpu_R[R_BA]);
 -    dc->is_jmp = DISAS_JUMP;
 +    dc->base.is_jmp = DISAS_JUMP;
  }
  /* PC <- rA */
@@ -XXX,XX +XXX,XX @@ static void jmp(DisasContext *dc, uint32_t code, uint32_t flags)
      tcg_gen_mov_tl(cpu_R[R_PC], load_gpr(dc, instr.a));
 -    dc->is_jmp = DISAS_JUMP;
 +    dc->base.is_jmp = DISAS_JUMP;
  }
  /* rC <- PC + 4 */
@@ -XXX,XX +XXX,XX @@ static void callr(DisasContext *dc, uint32_t code, uint32_t flags)
      tcg_gen_mov_tl(cpu_R[R_PC], load_gpr(dc, instr.a));
      tcg_gen_movi_tl(cpu_R[R_RA], dc->pc + 4);
 -    dc->is_jmp = DISAS_JUMP;
 +    dc->base.is_jmp = DISAS_JUMP;
  }
  /* rC <- ctlN */
@@ -XXX,XX +XXX,XX @@ static void wrctl(DisasContext *dc, uint32_t code, uint32_t flags)
      /* If interrupts were enabled using WRCTL, trigger them. */
  #if !defined(CONFIG_USER_ONLY)
      if ((instr.imm5 + CR_BASE) == CR_STATUS) {
 -        if (tb_cflags(dc->tb) & CF_USE_ICOUNT) {
 +        if (tb_cflags(dc->base.tb) & CF_USE_ICOUNT) {
              gen_io_start();
          }
          gen_helper_check_interrupts(cpu_env);
 -        dc->is_jmp = DISAS_UPDATE;
 +        dc->base.is_jmp = DISAS_UPDATE;
      }
  #endif
  }
@@ -XXX,XX +XXX,XX @@ static void gen_exception(DisasContext *dc, uint32_t excp)
      tcg_gen_movi_tl(cpu_R[R_PC], dc->pc);
      gen_helper_raise_exception(cpu_env, tmp);
      tcg_temp_free_i32(tmp);
 -    dc->is_jmp = DISAS_NORETURN;
 +    dc->base.is_jmp = DISAS_NORETURN;
  }
  /* generate intermediate code for basic block 'tb'.  */
@@ -XXX,XX +XXX,XX @@ void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int max_insns)
      int num_insns;
      /* Initialize DC */
 -    dc->is_jmp  = DISAS_NEXT;
 -    dc->pc      = tb->pc;
 -    dc->tb      = tb;
 +
 +    dc->base.tb = tb;
 +    dc->base.singlestep_enabled = cs->singlestep_enabled;
 +    dc->base.is_jmp = DISAS_NEXT;
 +    dc->base.pc_first = tb->pc;
 +    dc->base.pc_next = tb->pc;
 +
      dc->mem_idx = cpu_mmu_index(env, false);
 -    dc->singlestep_enabled = cs->singlestep_enabled;
      /* Set up instruction counts */
      num_insns = 0;
@@ -XXX,XX +XXX,XX @@ void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int max_insns)
      gen_tb_start(tb);
      do {
 -        tcg_gen_insn_start(dc->pc);
 +        tcg_gen_insn_start(dc->base.pc_next);
          num_insns++;
 -        if (unlikely(cpu_breakpoint_test(cs, dc->pc, BP_ANY))) {
 +        if (unlikely(cpu_breakpoint_test(cs, dc->base.pc_next, BP_ANY))) {
              gen_exception(dc, EXCP_DEBUG);
              /* The address covered by the breakpoint must be included in
                 [tb->pc, tb->pc + tb->size) in order to for it to be
@@ -XXX,XX +XXX,XX @@ void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int max_insns)
              gen_io_start();
          }
 +        dc->pc = dc->base.pc_next;
 +        dc->base.pc_next += 4;
 +
          /* Decode an instruction */
          handle_instruction(dc, env);
 -        dc->pc += 4;
 -
          /* Translation stops when a conditional branch is encountered.
           * Otherwise the subsequent code could get translated several times.
           * Also stop translation when a page boundary is reached.  This
           * ensures prefetch aborts occur at the right place.  */
 -    } while (!dc->is_jmp &&
 +    } while (!dc->base.is_jmp &&
               !tcg_op_buf_full() &&
               num_insns < max_insns);
      /* Indicate where the next block should start */
 -    switch (dc->is_jmp) {
 +    switch (dc->base.is_jmp) {
      case DISAS_NEXT:
      case DISAS_UPDATE:
          /* Save the current PC back into the CPU register */
 -        tcg_gen_movi_tl(cpu_R[R_PC], dc->pc);
 +        tcg_gen_movi_tl(cpu_R[R_PC], dc->base.pc_next);
          tcg_gen_exit_tb(NULL, 0);
          break;
@@ -XXX,XX +XXX,XX @@ void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int max_insns)
      gen_tb_end(tb, num_insns);
      /* Mark instruction starts for the final generated instruction */
 -    tb->size = dc->pc - tb->pc;
 +    tb->size = dc->base.pc_next - dc->base.pc_first;
      tb->icount = num_insns;
  #ifdef DEBUG_DISAS
      if (qemu_loglevel_mask(CPU_LOG_TB_IN_ASM)
 -        && qemu_log_in_addr_range(tb->pc)) {
 +        && qemu_log_in_addr_range(dc->base.pc_first)) {
          FILE *logfile = qemu_log_lock();
 -        qemu_log("IN: %s\n", lookup_symbol(tb->pc));
 -        log_target_disas(cs, tb->pc, dc->pc - tb->pc);
 +        qemu_log("IN: %s\n", lookup_symbol(dc->base.pc_first));
 +        log_target_disas(cs, tb->pc, tb->size);
          qemu_log("\n");
          qemu_log_unlock(logfile);
      }
 --
-.25.1
+.43.0

-[PULL 44/63] tcg/ppc: Split out tcg_out_bswap64
+[PULL 35/72] tcg/optimize: Use finish_folding in fold_remainder
-Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
+Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- tcg/ppc/tcg-target.c.inc | 64 +++++++++++++++++++++-------------------
+ tcg/optimize.c | 2 +-
-file changed, 34 insertions(+), 30 deletions(-)
+file changed, 1 insertion(+), 1 deletion(-)
-diff --git a/tcg/ppc/tcg-target.c.inc b/tcg/ppc/tcg-target.c.inc
+diff --git a/tcg/optimize.c b/tcg/optimize.c
 index XXXXXXX..XXXXXXX 100644
---- a/tcg/ppc/tcg-target.c.inc
+--- a/tcg/optimize.c
-+++ b/tcg/ppc/tcg-target.c.inc
++++ b/tcg/optimize.c
-@@ -XXX,XX +XXX,XX @@ static void tcg_out_bswap32(TCGContext *s, TCGReg dst, TCGReg src)
+@@ -XXX,XX +XXX,XX @@ static bool fold_remainder(OptContext *ctx, TCGOp *op)
-     tcg_out_mov(s, TCG_TYPE_REG, dst, tmp);
+         fold_xx_to_i(ctx, op, 0)) {
          return true;
      }
 -    return false;
 +    return finish_folding(ctx, op);
  }
-+static void tcg_out_bswap64(TCGContext *s, TCGReg dst, TCGReg src)
+ static bool fold_setcond_zmask(OptContext *ctx, TCGOp *op, bool neg)
 +{
 +    TCGReg t0 = dst == src ? TCG_REG_R0 : dst;
 +    TCGReg t1 = dst == src ? dst : TCG_REG_R0;
 +
 +    /*
 +     * In the following,
 +     *   dep(a, b, m) -> (a & ~m) | (b & m)
 +     *
 +     * Begin with:                              src = abcdefgh
 +     */
 +    /* t0 = rol32(src, 8) & 0xffffffff              = 0000fghe */
 +    tcg_out_rlw(s, RLWINM, t0, src, 8, 0, 31);
 +    /* t0 = dep(t0, rol32(src, 24), 0xff000000)     = 0000hghe */
 +    tcg_out_rlw(s, RLWIMI, t0, src, 24, 0, 7);
 +    /* t0 = dep(t0, rol32(src, 24), 0x0000ff00)     = 0000hgfe */
 +    tcg_out_rlw(s, RLWIMI, t0, src, 24, 16, 23);
 +
 +    /* t0 = rol64(t0, 32)                           = hgfe0000 */
 +    tcg_out_rld(s, RLDICL, t0, t0, 32, 0);
 +    /* t1 = rol64(src, 32)                          = efghabcd */
 +    tcg_out_rld(s, RLDICL, t1, src, 32, 0);
 +
 +    /* t0 = dep(t0, rol32(t1, 24), 0xffffffff)      = hgfebcda */
 +    tcg_out_rlw(s, RLWIMI, t0, t1, 8, 0, 31);
 +    /* t0 = dep(t0, rol32(t1, 24), 0xff000000)      = hgfedcda */
 +    tcg_out_rlw(s, RLWIMI, t0, t1, 24, 0, 7);
 +    /* t0 = dep(t0, rol32(t1, 24), 0x0000ff00)      = hgfedcba */
 +    tcg_out_rlw(s, RLWIMI, t0, t1, 24, 16, 23);
 +
 +    tcg_out_mov(s, TCG_TYPE_REG, dst, t0);
 +}
 +
  /* Emit a move into ret of arg, if it can be done in one insn.  */
  static bool tcg_out_movi_one(TCGContext *s, TCGReg ret, tcg_target_long arg)
  {
@@ -XXX,XX +XXX,XX @@ static void tcg_out_op(TCGContext *s, TCGOpcode opc,
      case INDEX_op_bswap32_i64:
          tcg_out_bswap32(s, args[0], args[1]);
          break;
 -
      case INDEX_op_bswap64_i64:
 -        a0 = args[0], a1 = args[1], a2 = TCG_REG_R0;
 -        if (a0 == a1) {
 -            a0 = TCG_REG_R0;
 -            a2 = a1;
 -        }
 -
 -        /* a1 = # abcd efgh */
 -        /* a0 = rl32(a1, 8) # 0000 fghe */
 -        tcg_out_rlw(s, RLWINM, a0, a1, 8, 0, 31);
 -        /* a0 = dep(a0, rl32(a1, 24), 0xff000000) # 0000 hghe */
 -        tcg_out_rlw(s, RLWIMI, a0, a1, 24, 0, 7);
 -        /* a0 = dep(a0, rl32(a1, 24), 0x0000ff00) # 0000 hgfe */
 -        tcg_out_rlw(s, RLWIMI, a0, a1, 24, 16, 23);
 -
 -        /* a0 = rl64(a0, 32) # hgfe 0000 */
 -        /* a2 = rl64(a1, 32) # efgh abcd */
 -        tcg_out_rld(s, RLDICL, a0, a0, 32, 0);
 -        tcg_out_rld(s, RLDICL, a2, a1, 32, 0);
 -
 -        /* a0 = dep(a0, rl32(a2, 8), 0xffffffff)  # hgfe bcda */
 -        tcg_out_rlw(s, RLWIMI, a0, a2, 8, 0, 31);
 -        /* a0 = dep(a0, rl32(a2, 24), 0xff000000) # hgfe dcda */
 -        tcg_out_rlw(s, RLWIMI, a0, a2, 24, 0, 7);
 -        /* a0 = dep(a0, rl32(a2, 24), 0x0000ff00) # hgfe dcba */
 -        tcg_out_rlw(s, RLWIMI, a0, a2, 24, 16, 23);
 -
 -        if (a0 == 0) {
 -            tcg_out_mov(s, TCG_TYPE_REG, args[0], a0);
 -        }
 +        tcg_out_bswap64(s, args[0], args[1]);
          break;
      case INDEX_op_deposit_i32:
 --
-.25.1
+.43.0

-[PULL 27/63] target/cris: Remove dc->flagx_known
+[PULL 36/72] tcg/optimize: Distinguish simplification in fold_setcond_zmask
-Ever since 2a44f7f17364, flagx_known is always true.
+Change return from bool to int; distinguish between
-Fold away all of the tests against the flag.
+complete folding, simplification, and no change.
-Reviewed-by: Edgar E. Iglesias <edgar.iglesias@xilinx.com>
+Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
 Tested-by: Edgar E. Iglesias <edgar.iglesias@xilinx.com>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- target/cris/translate.c         | 99 ++++++++-------------------------
+ tcg/optimize.c | 22 ++++++++++++++--------
- target/cris/translate_v10.c.inc |  6 +-
+file changed, 14 insertions(+), 8 deletions(-)
 files changed, 24 insertions(+), 81 deletions(-)
-diff --git a/target/cris/translate.c b/target/cris/translate.c
+diff --git a/tcg/optimize.c b/tcg/optimize.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/cris/translate.c
+--- a/tcg/optimize.c
-+++ b/target/cris/translate.c
++++ b/tcg/optimize.c
-@@ -XXX,XX +XXX,XX @@ typedef struct DisasContext {
+@@ -XXX,XX +XXX,XX @@ static bool fold_remainder(OptContext *ctx, TCGOp *op)
+     return finish_folding(ctx, op);
-     int cc_x_uptodate;  /* 1 - ccs, 2 - known | X_FLAG. 0 not up-to-date.  */
+ }
-     int flags_uptodate; /* Whether or not $ccs is up-to-date.  */
--    int flagx_known; /* Whether or not flags_x has the x flag known at
+-static bool fold_setcond_zmask(OptContext *ctx, TCGOp *op, bool neg)
--                translation time.  */
++/* Return 1 if finished, -1 if simplified, 0 if unchanged. */
-     int flags_x;
++static int fold_setcond_zmask(OptContext *ctx, TCGOp *op, bool neg)
      int clear_x; /* Clear x after this insn?  */
@@ -XXX,XX +XXX,XX @@ static inline void t_gen_add_flag(TCGv d, int flag)
  static inline void t_gen_addx_carry(DisasContext *dc, TCGv d)
  {
--    if (dc->flagx_known) {
+     uint64_t a_zmask, b_val;
--        if (dc->flags_x) {
+     TCGCond cond;
--            TCGv c;
+@@ -XXX,XX +XXX,XX @@ static bool fold_setcond_zmask(OptContext *ctx, TCGOp *op, bool neg)
--
+                 op->opc = xor_opc;
--            c = tcg_temp_new();
+                 op->args[2] = arg_new_constant(ctx, 1);
--            t_gen_mov_TN_preg(c, PR_CCS);
+             }
--            /* C flag is already at bit 0.  */
+-            return false;
--            tcg_gen_andi_tl(c, c, C_FLAG);
++            return -1;
--            tcg_gen_add_tl(d, d, c);
+         }
 -            tcg_temp_free(c);
 -        }
 -    } else {
 -        TCGv x, c;
 +    if (dc->flags_x) {
 +        TCGv c = tcg_temp_new();
 -        x = tcg_temp_new();
 -        c = tcg_temp_new();
 -        t_gen_mov_TN_preg(x, PR_CCS);
 -        tcg_gen_mov_tl(c, x);
 -
 -        /* Propagate carry into d if X is set. Branch free.  */
 +        t_gen_mov_TN_preg(c, PR_CCS);
 +        /* C flag is already at bit 0.  */
          tcg_gen_andi_tl(c, c, C_FLAG);
 -        tcg_gen_andi_tl(x, x, X_FLAG);
 -        tcg_gen_shri_tl(x, x, 4);
 -
 -        tcg_gen_and_tl(x, x, c);
 -        tcg_gen_add_tl(d, d, x);
 -        tcg_temp_free(x);
 +        tcg_gen_add_tl(d, d, c);
          tcg_temp_free(c);
      }
  }
  static inline void t_gen_subx_carry(DisasContext *dc, TCGv d)
  {
 -    if (dc->flagx_known) {
 -        if (dc->flags_x) {
 -            TCGv c;
 -
 -            c = tcg_temp_new();
 -            t_gen_mov_TN_preg(c, PR_CCS);
 -            /* C flag is already at bit 0.  */
 -            tcg_gen_andi_tl(c, c, C_FLAG);
 -            tcg_gen_sub_tl(d, d, c);
 -            tcg_temp_free(c);
 -        }
 -    } else {
 -        TCGv x, c;
 +    if (dc->flags_x) {
 +        TCGv c = tcg_temp_new();
 -        x = tcg_temp_new();
 -        c = tcg_temp_new();
 -        t_gen_mov_TN_preg(x, PR_CCS);
 -        tcg_gen_mov_tl(c, x);
 -
 -        /* Propagate carry into d if X is set. Branch free.  */
 +        t_gen_mov_TN_preg(c, PR_CCS);
 +        /* C flag is already at bit 0.  */
          tcg_gen_andi_tl(c, c, C_FLAG);
 -        tcg_gen_andi_tl(x, x, X_FLAG);
 -        tcg_gen_shri_tl(x, x, 4);
 -
 -        tcg_gen_and_tl(x, x, c);
 -        tcg_gen_sub_tl(d, d, x);
 -        tcg_temp_free(x);
 +        tcg_gen_sub_tl(d, d, c);
          tcg_temp_free(c);
      }
  }
@@ -XXX,XX +XXX,XX @@ static void gen_goto_tb(DisasContext *dc, int n, target_ulong dest)
  static inline void cris_clear_x_flag(DisasContext *dc)
  {
 -    if (dc->flagx_known && dc->flags_x) {
 +    if (dc->flags_x) {
          dc->flags_uptodate = 0;
      }
 -
--    dc->flagx_known = 1;
+-    return false;
-     dc->flags_x = 0;
++    return 0;
  }
-@@ -XXX,XX +XXX,XX @@ static void cris_evaluate_flags(DisasContext *dc)
+ static void fold_setcond_tst_pow2(OptContext *ctx, TCGOp *op, bool neg)
-         break;
+@@ -XXX,XX +XXX,XX @@ static bool fold_setcond(OptContext *ctx, TCGOp *op)
          return tcg_opt_gen_movi(ctx, op, op->args[0], i);
      }
--    if (dc->flagx_known) {
+-    if (fold_setcond_zmask(ctx, op, false)) {
--        if (dc->flags_x) {
++    i = fold_setcond_zmask(ctx, op, false);
--            tcg_gen_ori_tl(cpu_PR[PR_CCS], cpu_PR[PR_CCS], X_FLAG);
++    if (i > 0) {
--        } else if (dc->cc_op == CC_OP_FLAGS) {
+         return true;
 -            tcg_gen_andi_tl(cpu_PR[PR_CCS], cpu_PR[PR_CCS], ~X_FLAG);
 -        }
 +    if (dc->flags_x) {
 +        tcg_gen_ori_tl(cpu_PR[PR_CCS], cpu_PR[PR_CCS], X_FLAG);
 +    } else if (dc->cc_op == CC_OP_FLAGS) {
 +        tcg_gen_andi_tl(cpu_PR[PR_CCS], cpu_PR[PR_CCS], ~X_FLAG);
      }
-     dc->flags_uptodate = 1;
+-    fold_setcond_tst_pow2(ctx, op, false);
- }
++    if (i == 0) {
-@@ -XXX,XX +XXX,XX @@ static void cris_update_cc_op(DisasContext *dc, int op, int size)
++        fold_setcond_tst_pow2(ctx, op, false);
- static inline void cris_update_cc_x(DisasContext *dc)
++    }
- {
-     /* Save the x flag state at the time of the cc snapshot.  */
+     ctx->z_mask = 1;
--    if (dc->flagx_known) {
+     return false;
--        if (dc->cc_x_uptodate == (2 | dc->flags_x)) {
+@@ -XXX,XX +XXX,XX @@ static bool fold_negsetcond(OptContext *ctx, TCGOp *op)
--            return;
+         return tcg_opt_gen_movi(ctx, op, op->args[0], -i);
 -        }
 -        tcg_gen_movi_tl(cc_x, dc->flags_x);
 -        dc->cc_x_uptodate = 2 | dc->flags_x;
 -    } else {
 -        tcg_gen_andi_tl(cc_x, cpu_PR[PR_CCS], X_FLAG);
 -        dc->cc_x_uptodate = 1;
 +    if (dc->cc_x_uptodate == (2 | dc->flags_x)) {
 +        return;
      }
-+    tcg_gen_movi_tl(cc_x, dc->flags_x);
-+    dc->cc_x_uptodate = 2 | dc->flags_x;
+-    if (fold_setcond_zmask(ctx, op, true)) {
- }
++    i = fold_setcond_zmask(ctx, op, true);
++    if (i > 0) {
- /* Update cc prior to executing ALU op. Needs source operands untouched.  */
+         return true;
@@ -XXX,XX +XXX,XX @@ static void gen_store (DisasContext *dc, TCGv addr, TCGv val,
      /* Conditional writes. We only support the kind were X and P are known
         at translation time.  */
 -    if (dc->flagx_known && dc->flags_x && (dc->tb_flags & P_FLAG)) {
 +    if (dc->flags_x && (dc->tb_flags & P_FLAG)) {
          dc->postinc = 0;
          cris_evaluate_flags(dc);
          tcg_gen_ori_tl(cpu_PR[PR_CCS], cpu_PR[PR_CCS], C_FLAG);
@@ -XXX,XX +XXX,XX @@ static void gen_store (DisasContext *dc, TCGv addr, TCGv val,
      tcg_gen_qemu_st_tl(val, addr, mem_index, MO_TE + ctz32(size));
 -    if (dc->flagx_known && dc->flags_x) {
 +    if (dc->flags_x) {
          cris_evaluate_flags(dc);
          tcg_gen_andi_tl(cpu_PR[PR_CCS], cpu_PR[PR_CCS], ~C_FLAG);
      }
-@@ -XXX,XX +XXX,XX @@ static int dec_addc_r(CPUCRISState *env, DisasContext *dc)
+-    fold_setcond_tst_pow2(ctx, op, true);
-     LOG_DIS("addc $r%u, $r%u\n",
++    if (i == 0) {
-             dc->op1, dc->op2);
++        fold_setcond_tst_pow2(ctx, op, true);
-     cris_evaluate_flags(dc);
++    }
-+
-     /* Set for this insn.  */
+     /* Value is {0,-1} so all bits are repetitions of the sign. */
--    dc->flagx_known = 1;
+     ctx->s_mask = -1;
      dc->flags_x = X_FLAG;
      cris_cc_mask(dc, CC_MASK_NZVC);
@@ -XXX,XX +XXX,XX @@ static int dec_setclrf(CPUCRISState *env, DisasContext *dc)
      }
      if (flags & X_FLAG) {
 -        dc->flagx_known = 1;
          if (set) {
              dc->flags_x = X_FLAG;
          } else {
@@ -XXX,XX +XXX,XX @@ static int dec_addc_mr(CPUCRISState *env, DisasContext *dc)
      cris_evaluate_flags(dc);
      /* Set for this insn.  */
 -    dc->flagx_known = 1;
      dc->flags_x = X_FLAG;
      cris_alu_m_alloc_temps(t);
@@ -XXX,XX +XXX,XX @@ static void cris_tr_init_disas_context(DisasContextBase *dcbase, CPUState *cs)
      dc->ppc = pc_start;
      dc->pc = pc_start;
      dc->flags_uptodate = 1;
 -    dc->flagx_known = 1;
      dc->flags_x = tb_flags & X_FLAG;
      dc->cc_x_uptodate = 0;
      dc->cc_mask = 0;
@@ -XXX,XX +XXX,XX @@ static void cris_tr_translate_insn(DisasContextBase *dcbase, CPUState *cs)
      }
      /* Fold unhandled changes to X_FLAG into cpustate_changed. */
 -    dc->cpustate_changed |= !dc->flagx_known;
      dc->cpustate_changed |= dc->flags_x != (dc->base.tb->flags & X_FLAG);
      /*
 diff --git a/target/cris/translate_v10.c.inc b/target/cris/translate_v10.c.inc
 index XXXXXXX..XXXXXXX 100644
 --- a/target/cris/translate_v10.c.inc
 +++ b/target/cris/translate_v10.c.inc
@@ -XXX,XX +XXX,XX @@ static void gen_store_v10(DisasContext *dc, TCGv addr, TCGv val,
          cris_store_direct_jmp(dc);
      }
 -    /* Conditional writes. We only support the kind were X is known
 -       at translation time.  */
 -    if (dc->flagx_known && dc->flags_x) {
 +    /* Conditional writes. */
 +    if (dc->flags_x) {
          gen_store_v10_conditional(dc, addr, val, size, mem_index);
          return;
      }
@@ -XXX,XX +XXX,XX @@ static unsigned int dec10_setclrf(DisasContext *dc)
      if (flags & X_FLAG) {
 -        dc->flagx_known = 1;
          if (set)
              dc->flags_x = X_FLAG;
          else
 --
-.25.1
+.43.0

-[PULL 23/63] target/cris: Add DISAS_UPDATE_NEXT
+[PULL 37/72] tcg/optimize: Use fold_masks_z in fold_setcond
-Move this pc update into tb_stop.
+Avoid the use of the OptContext slots.
 We will be able to re-use this code shortly.
-Reviewed-by: Edgar E. Iglesias <edgar.iglesias@xilinx.com>
+Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
 Tested-by: Edgar E. Iglesias <edgar.iglesias@xilinx.com>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- target/cris/translate.c | 20 +++++++++++++++-----
+ tcg/optimize.c | 3 +--
-file changed, 15 insertions(+), 5 deletions(-)
+file changed, 1 insertion(+), 2 deletions(-)
-diff --git a/target/cris/translate.c b/target/cris/translate.c
+diff --git a/tcg/optimize.c b/tcg/optimize.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/cris/translate.c
+--- a/tcg/optimize.c
-+++ b/target/cris/translate.c
++++ b/tcg/optimize.c
-@@ -XXX,XX +XXX,XX @@
+@@ -XXX,XX +XXX,XX @@ static bool fold_setcond(OptContext *ctx, TCGOp *op)
- #define BUG() (gen_BUG(dc, __FILE__, __LINE__))
+         fold_setcond_tst_pow2(ctx, op, false);
  #define BUG_ON(x) ({if (x) BUG();})
 -/* is_jmp field values */
 -#define DISAS_JUMP    DISAS_TARGET_0 /* only pc was modified dynamically */
 -#define DISAS_UPDATE  DISAS_TARGET_1 /* cpu state was modified dynamically */
 +/*
 + * Target-specific is_jmp field values
 + */
 +/* Only pc was modified dynamically */
 +#define DISAS_JUMP          DISAS_TARGET_0
 +/* Cpu state was modified dynamically, including pc */
 +#define DISAS_UPDATE        DISAS_TARGET_1
 +/* Cpu state was modified dynamically, excluding pc -- use npc */
 +#define DISAS_UPDATE_NEXT   DISAS_TARGET_2
  /* Used by the decoder.  */
  #define EXTRACT_FIELD(src, start, end) \
@@ -XXX,XX +XXX,XX @@ static void cris_tr_translate_insn(DisasContextBase *dcbase, CPUState *cs)
      /* Force an update if the per-tb cpu state has changed.  */
      if (dc->base.is_jmp == DISAS_NEXT && dc->cpustate_changed) {
 -        dc->base.is_jmp = DISAS_UPDATE;
 -        tcg_gen_movi_tl(env_pc, dc->pc);
 +        dc->base.is_jmp = DISAS_UPDATE_NEXT;
 +        return;
      }
-     /*
+-    ctx->z_mask = 1;
-@@ -XXX,XX +XXX,XX @@ static void cris_tr_tb_stop(DisasContextBase *dcbase, CPUState *cpu)
+-    return false;
-     if (unlikely(dc->base.singlestep_enabled)) {
++    return fold_masks_z(ctx, op, 1);
-         switch (is_jmp) {
+ }
-         case DISAS_TOO_MANY:
-+        case DISAS_UPDATE_NEXT:
+ static bool fold_negsetcond(OptContext *ctx, TCGOp *op)
              tcg_gen_movi_tl(env_pc, npc);
              /* fall through */
          case DISAS_JUMP:
@@ -XXX,XX +XXX,XX @@ static void cris_tr_tb_stop(DisasContextBase *dcbase, CPUState *cpu)
      case DISAS_TOO_MANY:
          gen_goto_tb(dc, 0, npc);
          break;
 +    case DISAS_UPDATE_NEXT:
 +        tcg_gen_movi_tl(env_pc, npc);
 +        /* fall through */
      case DISAS_JUMP:
      case DISAS_UPDATE:
          /* Indicate that interupts must be re-evaluated before the next TB. */
 --
-.25.1
+.43.0

-[PULL 07/63] target/nios2: Clean up goto in handle_instruction
+[PULL 38/72] tcg/optimize: Use fold_masks_s in fold_negsetcond
-Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
+Avoid the use of the OptContext slots.
 Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- target/nios2/translate.c | 8 ++------
+ tcg/optimize.c | 3 +--
-file changed, 2 insertions(+), 6 deletions(-)
+file changed, 1 insertion(+), 2 deletions(-)
-diff --git a/target/nios2/translate.c b/target/nios2/translate.c
+diff --git a/tcg/optimize.c b/tcg/optimize.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/nios2/translate.c
+--- a/tcg/optimize.c
-+++ b/target/nios2/translate.c
++++ b/tcg/optimize.c
-@@ -XXX,XX +XXX,XX @@ static void handle_instruction(DisasContext *dc, CPUNios2State *env)
+@@ -XXX,XX +XXX,XX @@ static bool fold_negsetcond(OptContext *ctx, TCGOp *op)
      op = get_opcode(code);
      if (unlikely(op >= ARRAY_SIZE(i_type_instructions))) {
 -        goto illegal_op;
 +        t_gen_helper_raise_exception(dc, EXCP_ILLEGAL);
 +        return;
      }
-     dc->zero = NULL;
+     /* Value is {0,-1} so all bits are repetitions of the sign. */
-@@ -XXX,XX +XXX,XX @@ static void handle_instruction(DisasContext *dc, CPUNios2State *env)
+-    ctx->s_mask = -1;
-     if (dc->zero) {
+-    return false;
-         tcg_temp_free(dc->zero);
++    return fold_masks_s(ctx, op, -1);
      }
 -
 -    return;
 -
 -illegal_op:
 -    t_gen_helper_raise_exception(dc, EXCP_ILLEGAL);
  }
- static const char * const regnames[] = {
+ static bool fold_setcond2(OptContext *ctx, TCGOp *op)
 --
-.25.1
+.43.0

-[PULL 59/63] target/sh4: Improve swap.b translation
+[PULL 39/72] tcg/optimize: Use fold_masks_z in fold_setcond2
-Remove TCG_BSWAP_IZ and the preceding zero-extension.
+Avoid the use of the OptContext slots.
-Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
+Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- target/sh4/translate.c | 3 +--
+ tcg/optimize.c | 3 +--
 file changed, 1 insertion(+), 2 deletions(-)
-diff --git a/target/sh4/translate.c b/target/sh4/translate.c
+diff --git a/tcg/optimize.c b/tcg/optimize.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/sh4/translate.c
+--- a/tcg/optimize.c
-+++ b/target/sh4/translate.c
++++ b/tcg/optimize.c
-@@ -XXX,XX +XXX,XX @@ static void _decode_opc(DisasContext * ctx)
+@@ -XXX,XX +XXX,XX @@ static bool fold_setcond2(OptContext *ctx, TCGOp *op)
-     case 0x6008:        /* swap.b Rm,Rn */
+         return fold_setcond(ctx, op);
-     {
+     }
-             TCGv low = tcg_temp_new();
--        tcg_gen_ext16u_i32(low, REG(B7_4));
+-    ctx->z_mask = 1;
--        tcg_gen_bswap16_i32(low, low, TCG_BSWAP_IZ | TCG_BSWAP_OZ);
+-    return false;
-+            tcg_gen_bswap16_i32(low, REG(B7_4), 0);
++    return fold_masks_z(ctx, op, 1);
-             tcg_gen_deposit_i32(REG(B11_8), REG(B7_4), low, 0, 16);
-         tcg_temp_free(low);
+  do_setcond_const:
-     }
+     return tcg_opt_gen_movi(ctx, op, op->args[0], i);
 --
-.25.1
+.43.0

-[PULL 43/63] tcg/ppc: Split out tcg_out_bswap32
+[PULL 40/72] tcg/optimize: Use finish_folding in fold_cmp_vec
-Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
+Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- tcg/ppc/tcg-target.c.inc | 38 ++++++++++++++++++++++----------------
+ tcg/optimize.c | 2 +-
-file changed, 22 insertions(+), 16 deletions(-)
+file changed, 1 insertion(+), 1 deletion(-)
-diff --git a/tcg/ppc/tcg-target.c.inc b/tcg/ppc/tcg-target.c.inc
+diff --git a/tcg/optimize.c b/tcg/optimize.c
 index XXXXXXX..XXXXXXX 100644
---- a/tcg/ppc/tcg-target.c.inc
+--- a/tcg/optimize.c
-+++ b/tcg/ppc/tcg-target.c.inc
++++ b/tcg/optimize.c
-@@ -XXX,XX +XXX,XX @@ static void tcg_out_bswap16(TCGContext *s, TCGReg dst, TCGReg src)
+@@ -XXX,XX +XXX,XX @@ static bool fold_cmp_vec(OptContext *ctx, TCGOp *op)
-     tcg_out_mov(s, TCG_TYPE_REG, dst, tmp);
+     if (swap_commutative(NO_DEST, &op->args[1], &op->args[2])) {
          op->args[3] = tcg_swap_cond(op->args[3]);
      }
 -    return false;
 +    return finish_folding(ctx, op);
  }
-+static void tcg_out_bswap32(TCGContext *s, TCGReg dst, TCGReg src)
+ static bool fold_cmpsel_vec(OptContext *ctx, TCGOp *op)
 +{
 +    TCGReg tmp = dst == src ? TCG_REG_R0 : dst;
 +
 +    /*
 +     * Stolen from gcc's builtin_bswap32.
 +     * In the following,
 +     *   dep(a, b, m) -> (a & ~m) | (b & m)
 +     *
 +     * Begin with:                              src = xxxxabcd
 +     */
 +    /* tmp = rol32(src, 8) & 0xffffffff             = 0000bcda */
 +    tcg_out_rlw(s, RLWINM, tmp, src, 8, 0, 31);
 +    /* tmp = dep(tmp, rol32(src, 24), 0xff000000)   = 0000dcda */
 +    tcg_out_rlw(s, RLWIMI, tmp, src, 24, 0, 7);
 +    /* tmp = dep(tmp, rol32(src, 24), 0x0000ff00)   = 0000dcba */
 +    tcg_out_rlw(s, RLWIMI, tmp, src, 24, 16, 23);
 +
 +    tcg_out_mov(s, TCG_TYPE_REG, dst, tmp);
 +}
 +
  /* Emit a move into ret of arg, if it can be done in one insn.  */
  static bool tcg_out_movi_one(TCGContext *s, TCGReg ret, tcg_target_long arg)
  {
@@ -XXX,XX +XXX,XX @@ static void tcg_out_op(TCGContext *s, TCGOpcode opc,
      case INDEX_op_bswap16_i64:
          tcg_out_bswap16(s, args[0], args[1]);
          break;
 -
      case INDEX_op_bswap32_i32:
      case INDEX_op_bswap32_i64:
 -        /* Stolen from gcc's builtin_bswap32 */
 -        a1 = args[1];
 -        a0 = args[0] == a1 ? TCG_REG_R0 : args[0];
 -
 -        /* a1 = args[1] # abcd */
 -        /* a0 = rotate_left (a1, 8) # bcda */
 -        tcg_out_rlw(s, RLWINM, a0, a1, 8, 0, 31);
 -        /* a0 = (a0 & ~0xff000000) | ((a1 r<< 24) & 0xff000000) # dcda */
 -        tcg_out_rlw(s, RLWIMI, a0, a1, 24, 0, 7);
 -        /* a0 = (a0 & ~0x0000ff00) | ((a1 r<< 24) & 0x0000ff00) # dcba */
 -        tcg_out_rlw(s, RLWIMI, a0, a1, 24, 16, 23);
 -
 -        if (a0 == TCG_REG_R0) {
 -            tcg_out_mov(s, TCG_TYPE_REG, args[0], a0);
 -        }
 +        tcg_out_bswap32(s, args[0], args[1]);
          break;
      case INDEX_op_bswap64_i64:
 --
-.25.1
+.43.0

-[PULL 42/63] tcg/ppc: Split out tcg_out_bswap16
+[PULL 41/72] tcg/optimize: Use finish_folding in fold_cmpsel_vec
-With the use of a suitable temporary, we can use the same
+Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
 algorithm when src overlaps dst.  The result is the same
 number of instructions either way.
 Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- tcg/ppc/tcg-target.c.inc | 34 +++++++++++++++++++---------------
+ tcg/optimize.c | 2 +-
-file changed, 19 insertions(+), 15 deletions(-)
+file changed, 1 insertion(+), 1 deletion(-)
-diff --git a/tcg/ppc/tcg-target.c.inc b/tcg/ppc/tcg-target.c.inc
+diff --git a/tcg/optimize.c b/tcg/optimize.c
 index XXXXXXX..XXXXXXX 100644
---- a/tcg/ppc/tcg-target.c.inc
+--- a/tcg/optimize.c
-+++ b/tcg/ppc/tcg-target.c.inc
++++ b/tcg/optimize.c
-@@ -XXX,XX +XXX,XX @@ static inline void tcg_out_sari64(TCGContext *s, TCGReg dst, TCGReg src, int c)
+@@ -XXX,XX +XXX,XX @@ static bool fold_cmpsel_vec(OptContext *ctx, TCGOp *op)
-     tcg_out32(s, SRADI | RA(dst) | RS(src) | SH(c & 0x1f) | ((c >> 4) & 2));
+     if (swap_commutative(op->args[0], &op->args[4], &op->args[3])) {
          op->args[5] = tcg_invert_cond(op->args[5]);
      }
 -    return false;
 +    return finish_folding(ctx, op);
  }
-+static void tcg_out_bswap16(TCGContext *s, TCGReg dst, TCGReg src)
+ static bool fold_sextract(OptContext *ctx, TCGOp *op)
 +{
 +    TCGReg tmp = dst == src ? TCG_REG_R0 : dst;
 +
 +    /*
 +     * In the following,
 +     *   dep(a, b, m) -> (a & ~m) | (b & m)
 +     *
 +     * Begin with:                              src = xxxxabcd
 +     */
 +    /* tmp = rol32(src, 24) & 0x000000ff            = 0000000c */
 +    tcg_out_rlw(s, RLWINM, tmp, src, 24, 24, 31);
 +    /* tmp = dep(tmp, rol32(src, 8), 0x0000ff00)    = 000000dc */
 +    tcg_out_rlw(s, RLWIMI, tmp, src, 8, 16, 23);
 +
 +    tcg_out_mov(s, TCG_TYPE_REG, dst, tmp);
 +}
 +
  /* Emit a move into ret of arg, if it can be done in one insn.  */
  static bool tcg_out_movi_one(TCGContext *s, TCGReg ret, tcg_target_long arg)
  {
@@ -XXX,XX +XXX,XX @@ static void tcg_out_op(TCGContext *s, TCGOpcode opc,
      case INDEX_op_bswap16_i32:
      case INDEX_op_bswap16_i64:
 -        a0 = args[0], a1 = args[1];
 -        /* a1 = abcd */
 -        if (a0 != a1) {
 -            /* a0 = (a1 r<< 24) & 0xff # 000c */
 -            tcg_out_rlw(s, RLWINM, a0, a1, 24, 24, 31);
 -            /* a0 = (a0 & ~0xff00) | (a1 r<< 8) & 0xff00 # 00dc */
 -            tcg_out_rlw(s, RLWIMI, a0, a1, 8, 16, 23);
 -        } else {
 -            /* r0 = (a1 r<< 8) & 0xff00 # 00d0 */
 -            tcg_out_rlw(s, RLWINM, TCG_REG_R0, a1, 8, 16, 23);
 -            /* a0 = (a1 r<< 24) & 0xff # 000c */
 -            tcg_out_rlw(s, RLWINM, a0, a1, 24, 24, 31);
 -            /* a0 = a0 | r0 # 00dc */
 -            tcg_out32(s, OR | SAB(TCG_REG_R0, a0, a0));
 -        }
 +        tcg_out_bswap16(s, args[0], args[1]);
          break;
      case INDEX_op_bswap32_i32:
 --
-.25.1
+.43.0

-[PULL 21/63] target/cris: Fold unhandled X_FLAG changes into cpustate_changed
+[PULL 42/72] tcg/optimize: Use fold_masks_zs in fold_sextract
-We really do this already, by including them into the same test.
+Avoid the use of the OptContext slots.  Find TempOptInfo once.
 This just hoists the expression up a bit.
-Reviewed-by: Edgar E. Iglesias <edgar.iglesias@xilinx.com>
+Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
 Tested-by: Edgar E. Iglesias <edgar.iglesias@xilinx.com>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- target/cris/translate.c | 13 ++++++-------
+ tcg/optimize.c | 24 +++++++++---------------
-file changed, 6 insertions(+), 7 deletions(-)
+file changed, 9 insertions(+), 15 deletions(-)
-diff --git a/target/cris/translate.c b/target/cris/translate.c
+diff --git a/tcg/optimize.c b/tcg/optimize.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/cris/translate.c
+--- a/tcg/optimize.c
-+++ b/target/cris/translate.c
++++ b/tcg/optimize.c
-@@ -XXX,XX +XXX,XX @@ static void cris_tr_translate_insn(DisasContextBase *dcbase, CPUState *cs)
+@@ -XXX,XX +XXX,XX @@ static bool fold_cmpsel_vec(OptContext *ctx, TCGOp *op)
-         cris_clear_x_flag(dc);
+ static bool fold_sextract(OptContext *ctx, TCGOp *op)
  {
      uint64_t z_mask, s_mask, s_mask_old;
 +    TempOptInfo *t1 = arg_info(op->args[1]);
      int pos = op->args[2];
      int len = op->args[3];
 -    if (arg_is_const(op->args[1])) {
 -        uint64_t t;
 -
 -        t = arg_info(op->args[1])->val;
 -        t = sextract64(t, pos, len);
 -        return tcg_opt_gen_movi(ctx, op, op->args[0], t);
 +    if (ti_is_const(t1)) {
 +        return tcg_opt_gen_movi(ctx, op, op->args[0],
 +                                sextract64(ti_const_val(t1), pos, len));
      }
-+    /* Fold unhandled changes to X_FLAG into cpustate_changed. */
+-    z_mask = arg_info(op->args[1])->z_mask;
-+    dc->cpustate_changed |= !dc->flagx_known;
+-    z_mask = sextract64(z_mask, pos, len);
-+    dc->cpustate_changed |= dc->flags_x != (dc->base.tb->flags & X_FLAG);
+-    ctx->z_mask = z_mask;
-+
+-
-     /*
+-    s_mask_old = arg_info(op->args[1])->s_mask;
-      * Check for delayed branches here.  If we do it before
+-    s_mask = sextract64(s_mask_old, pos, len);
-      * actually generating any host code, the simulator will just
+-    s_mask |= MAKE_64BIT_MASK(len, 64 - len);
-@@ -XXX,XX +XXX,XX @@ static void cris_tr_translate_insn(DisasContextBase *dcbase, CPUState *cs)
+-    ctx->s_mask = s_mask;
-             t_gen_movi_env_TN(dslot, 0);
++    s_mask_old = t1->s_mask;
-         }
++    s_mask = s_mask_old >> pos;
++    s_mask |= -1ull << (len - 1);
--        if (dc->cpustate_changed
--            || !dc->flagx_known
+     if (0 && pos == 0 && fold_affected_mask(ctx, op, s_mask & ~s_mask_old)) {
--            || (dc->flags_x != (dc->base.tb->flags & X_FLAG))) {
+         return true;
 +        if (dc->cpustate_changed) {
              cris_store_direct_jmp(dc);
          }
@@ -XXX,XX +XXX,XX @@ static void cris_tr_translate_insn(DisasContextBase *dcbase, CPUState *cs)
      }
-     /* Force an update if the per-tb cpu state has changed.  */
+-    return fold_masks(ctx, op);
--    if (dc->base.is_jmp == DISAS_NEXT
++    z_mask = sextract64(t1->z_mask, pos, len);
--        && (dc->cpustate_changed
++    return fold_masks_zs(ctx, op, z_mask, s_mask);
--            || !dc->flagx_known
+ }
--            || (dc->flags_x != (dc->base.tb->flags & X_FLAG)))) {
-+    if (dc->base.is_jmp == DISAS_NEXT && dc->cpustate_changed) {
+ static bool fold_shift(OptContext *ctx, TCGOp *op)
          dc->base.is_jmp = DISAS_UPDATE;
          tcg_gen_movi_tl(env_pc, dc->pc);
      }
 --
-.25.1
+.43.0

-[PULL 03/63] target/nios2: Use global cpu_R
+[PULL 43/72] tcg/optimize: Use fold_masks_zs, fold_masks_s in fold_shift
-We do not need to copy this into DisasContext.
+Avoid the use of the OptContext slots.  Find TempOptInfo once.
-Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
+Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- target/nios2/translate.c | 73 +++++++++++++++++++---------------------
+ tcg/optimize.c | 27 ++++++++++++++-------------
-file changed, 34 insertions(+), 39 deletions(-)
+file changed, 14 insertions(+), 13 deletions(-)
-diff --git a/target/nios2/translate.c b/target/nios2/translate.c
+diff --git a/tcg/optimize.c b/tcg/optimize.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/nios2/translate.c
+--- a/tcg/optimize.c
-+++ b/target/nios2/translate.c
++++ b/tcg/optimize.c
-@@ -XXX,XX +XXX,XX @@
+@@ -XXX,XX +XXX,XX @@ static bool fold_sextract(OptContext *ctx, TCGOp *op)
  static bool fold_shift(OptContext *ctx, TCGOp *op)
  {
      uint64_t s_mask, z_mask, sign;
 +    TempOptInfo *t1, *t2;
      if (fold_const2(ctx, op) ||
          fold_ix_to_i(ctx, op, 0) ||
@@ -XXX,XX +XXX,XX @@ static bool fold_shift(OptContext *ctx, TCGOp *op)
          return true;
      }
- typedef struct DisasContext {
+-    s_mask = arg_info(op->args[1])->s_mask;
--    TCGv             *cpu_R;
+-    z_mask = arg_info(op->args[1])->z_mask;
-     TCGv_i32          zero;
++    t1 = arg_info(op->args[1]);
-     int               is_jmp;
++    t2 = arg_info(op->args[2]);
-     target_ulong      pc;
++    s_mask = t1->s_mask;
-@@ -XXX,XX +XXX,XX @@ typedef struct DisasContext {
++    z_mask = t1->z_mask;
-     bool              singlestep_enabled;
- } DisasContext;
+-    if (arg_is_const(op->args[2])) {
+-        int sh = arg_info(op->args[2])->val;
-+static TCGv cpu_R[NUM_CORE_REGS];
+-
-+
+-        ctx->z_mask = do_constant_folding(op->opc, ctx->type, z_mask, sh);
- typedef struct Nios2Instruction {
++    if (ti_is_const(t2)) {
-     void     (*handler)(DisasContext *dc, uint32_t code, uint32_t flags);
++        int sh = ti_const_val(t2);
-     uint32_t  flags;
-@@ -XXX,XX +XXX,XX @@ static TCGv load_zero(DisasContext *dc)
++        z_mask = do_constant_folding(op->opc, ctx->type, z_mask, sh);
- static TCGv load_gpr(DisasContext *dc, uint8_t reg)
+         s_mask = do_constant_folding(op->opc, ctx->type, s_mask, sh);
- {
-     if (likely(reg != R_ZERO)) {
+-        return fold_masks(ctx, op);
--        return dc->cpu_R[reg];
++        return fold_masks_zs(ctx, op, z_mask, s_mask);
 +        return cpu_R[reg];
      } else {
          return load_zero(dc);
      }
-@@ -XXX,XX +XXX,XX @@ static void t_gen_helper_raise_exception(DisasContext *dc,
- {
+     switch (op->opc) {
-     TCGv_i32 tmp = tcg_const_i32(index);
+@@ -XXX,XX +XXX,XX @@ static bool fold_shift(OptContext *ctx, TCGOp *op)
+          * Arithmetic right shift will not reduce the number of
--    tcg_gen_movi_tl(dc->cpu_R[R_PC], dc->pc);
+          * input sign repetitions.
-+    tcg_gen_movi_tl(cpu_R[R_PC], dc->pc);
+          */
-     gen_helper_raise_exception(cpu_env, tmp);
+-        ctx->s_mask = s_mask;
-     tcg_temp_free_i32(tmp);
+-        break;
-     dc->is_jmp = DISAS_NORETURN;
++        return fold_masks_s(ctx, op, s_mask);
-@@ -XXX,XX +XXX,XX @@ static void gen_goto_tb(DisasContext *dc, int n, uint32_t dest)
+     CASE_OP_32_64(shr):
+         /*
-     if (use_goto_tb(dc, dest)) {
+          * If the sign bit is known zero, then logical right shift
-         tcg_gen_goto_tb(n);
+-         * will not reduced the number of input sign repetitions.
--        tcg_gen_movi_tl(dc->cpu_R[R_PC], dest);
++         * will not reduce the number of input sign repetitions.
-+        tcg_gen_movi_tl(cpu_R[R_PC], dest);
+          */
-         tcg_gen_exit_tb(tb, n);
+-        sign = (s_mask & -s_mask) >> 1;
-     } else {
++        sign = -s_mask;
--        tcg_gen_movi_tl(dc->cpu_R[R_PC], dest);
+         if (sign && !(z_mask & sign)) {
-+        tcg_gen_movi_tl(cpu_R[R_PC], dest);
+-            ctx->s_mask = s_mask;
-         tcg_gen_exit_tb(NULL, 0);
++            return fold_masks_s(ctx, op, s_mask);
      }
  }
@@ -XXX,XX +XXX,XX @@ static void jmpi(DisasContext *dc, uint32_t code, uint32_t flags)
  static void call(DisasContext *dc, uint32_t code, uint32_t flags)
  {
 -    tcg_gen_movi_tl(dc->cpu_R[R_RA], dc->pc + 4);
 +    tcg_gen_movi_tl(cpu_R[R_RA], dc->pc + 4);
      jmpi(dc, code, flags);
  }
@@ -XXX,XX +XXX,XX @@ static void gen_ldx(DisasContext *dc, uint32_t code, uint32_t flags)
       *          the Nios2 CPU.
       */
      if (likely(instr.b != R_ZERO)) {
 -        data = dc->cpu_R[instr.b];
 +        data = cpu_R[instr.b];
      } else {
          data = tcg_temp_new();
      }
@@ -XXX,XX +XXX,XX @@ static void gen_bxx(DisasContext *dc, uint32_t code, uint32_t flags)
      I_TYPE(instr, code);
      TCGLabel *l1 = gen_new_label();
 -    tcg_gen_brcond_tl(flags, dc->cpu_R[instr.a], dc->cpu_R[instr.b], l1);
 +    tcg_gen_brcond_tl(flags, cpu_R[instr.a], cpu_R[instr.b], l1);
      gen_goto_tb(dc, 0, dc->pc + 4);
      gen_set_label(l1);
      gen_goto_tb(dc, 1, dc->pc + 4 + (instr.imm16.s & -4));
@@ -XXX,XX +XXX,XX @@ static void gen_bxx(DisasContext *dc, uint32_t code, uint32_t flags)
  static void (fname)(DisasContext *dc, uint32_t code, uint32_t flags)         \
  {                                                                            \
      I_TYPE(instr, (code));                                                   \
 -    tcg_gen_setcondi_tl(flags, (dc)->cpu_R[instr.b], (dc)->cpu_R[instr.a],   \
 -                        (op3));                                              \
 +    tcg_gen_setcondi_tl(flags, cpu_R[instr.b], cpu_R[instr.a], (op3));       \
  }
  gen_i_cmpxx(gen_cmpxxsi, instr.imm16.s)
@@ -XXX,XX +XXX,XX @@ static void (fname)(DisasContext *dc, uint32_t code, uint32_t flags)        \
      if (unlikely(instr.b == R_ZERO)) { /* Store to R_ZERO is ignored */     \
          return;                                                             \
      } else if (instr.a == R_ZERO) { /* MOVxI optimizations */               \
 -        tcg_gen_movi_tl(dc->cpu_R[instr.b], (resimm) ? (op3) : 0);          \
 +        tcg_gen_movi_tl(cpu_R[instr.b], (resimm) ? (op3) : 0);              \
      } else {                                                                \
 -        tcg_gen_##insn##_tl((dc)->cpu_R[instr.b], (dc)->cpu_R[instr.a],     \
 -                            (op3));                                         \
 +        tcg_gen_##insn##_tl(cpu_R[instr.b], cpu_R[instr.a], (op3));         \
      }                                                                       \
  }
@@ -XXX,XX +XXX,XX @@ static const Nios2Instruction i_type_instructions[] = {
   */
  static void eret(DisasContext *dc, uint32_t code, uint32_t flags)
  {
 -    tcg_gen_mov_tl(dc->cpu_R[CR_STATUS], dc->cpu_R[CR_ESTATUS]);
 -    tcg_gen_mov_tl(dc->cpu_R[R_PC], dc->cpu_R[R_EA]);
 +    tcg_gen_mov_tl(cpu_R[CR_STATUS], cpu_R[CR_ESTATUS]);
 +    tcg_gen_mov_tl(cpu_R[R_PC], cpu_R[R_EA]);
      dc->is_jmp = DISAS_JUMP;
  }
@@ -XXX,XX +XXX,XX @@ static void eret(DisasContext *dc, uint32_t code, uint32_t flags)
  /* PC <- ra */
  static void ret(DisasContext *dc, uint32_t code, uint32_t flags)
  {
 -    tcg_gen_mov_tl(dc->cpu_R[R_PC], dc->cpu_R[R_RA]);
 +    tcg_gen_mov_tl(cpu_R[R_PC], cpu_R[R_RA]);
      dc->is_jmp = DISAS_JUMP;
  }
@@ -XXX,XX +XXX,XX @@ static void ret(DisasContext *dc, uint32_t code, uint32_t flags)
  /* PC <- ba */
  static void bret(DisasContext *dc, uint32_t code, uint32_t flags)
  {
 -    tcg_gen_mov_tl(dc->cpu_R[R_PC], dc->cpu_R[R_BA]);
 +    tcg_gen_mov_tl(cpu_R[R_PC], cpu_R[R_BA]);
      dc->is_jmp = DISAS_JUMP;
  }
@@ -XXX,XX +XXX,XX @@ static void jmp(DisasContext *dc, uint32_t code, uint32_t flags)
  {
      R_TYPE(instr, code);
 -    tcg_gen_mov_tl(dc->cpu_R[R_PC], load_gpr(dc, instr.a));
 +    tcg_gen_mov_tl(cpu_R[R_PC], load_gpr(dc, instr.a));
      dc->is_jmp = DISAS_JUMP;
  }
@@ -XXX,XX +XXX,XX @@ static void nextpc(DisasContext *dc, uint32_t code, uint32_t flags)
      R_TYPE(instr, code);
      if (likely(instr.c != R_ZERO)) {
 -        tcg_gen_movi_tl(dc->cpu_R[instr.c], dc->pc + 4);
 +        tcg_gen_movi_tl(cpu_R[instr.c], dc->pc + 4);
      }
  }
@@ -XXX,XX +XXX,XX @@ static void callr(DisasContext *dc, uint32_t code, uint32_t flags)
  {
      R_TYPE(instr, code);
 -    tcg_gen_mov_tl(dc->cpu_R[R_PC], load_gpr(dc, instr.a));
 -    tcg_gen_movi_tl(dc->cpu_R[R_RA], dc->pc + 4);
 +    tcg_gen_mov_tl(cpu_R[R_PC], load_gpr(dc, instr.a));
 +    tcg_gen_movi_tl(cpu_R[R_RA], dc->pc + 4);
      dc->is_jmp = DISAS_JUMP;
  }
@@ -XXX,XX +XXX,XX @@ static void rdctl(DisasContext *dc, uint32_t code, uint32_t flags)
      {
  #if !defined(CONFIG_USER_ONLY)
          if (likely(instr.c != R_ZERO)) {
 -            tcg_gen_mov_tl(dc->cpu_R[instr.c], dc->cpu_R[instr.imm5 + CR_BASE]);
 +            tcg_gen_mov_tl(cpu_R[instr.c], cpu_R[instr.imm5 + CR_BASE]);
  #ifdef DEBUG_MMU
              TCGv_i32 tmp = tcg_const_i32(instr.imm5 + CR_BASE);
 -            gen_helper_mmu_read_debug(dc->cpu_R[instr.c], cpu_env, tmp);
 +            gen_helper_mmu_read_debug(cpu_R[instr.c], cpu_env, tmp);
              tcg_temp_free_i32(tmp);
  #endif
          }
@@ -XXX,XX +XXX,XX @@ static void rdctl(DisasContext *dc, uint32_t code, uint32_t flags)
      default:
          if (likely(instr.c != R_ZERO)) {
 -            tcg_gen_mov_tl(dc->cpu_R[instr.c], dc->cpu_R[instr.imm5 + CR_BASE]);
 +            tcg_gen_mov_tl(cpu_R[instr.c], cpu_R[instr.imm5 + CR_BASE]);
          }
          break;
-     }
-@@ -XXX,XX +XXX,XX @@ static void wrctl(DisasContext *dc, uint32_t code, uint32_t flags)
-     }
      default:
--        tcg_gen_mov_tl(dc->cpu_R[instr.imm5 + CR_BASE], load_gpr(dc, instr.a));
-+        tcg_gen_mov_tl(cpu_R[instr.imm5 + CR_BASE], load_gpr(dc, instr.a));
          break;
      }
-@@ -XXX,XX +XXX,XX @@ static void gen_cmpxx(DisasContext *dc, uint32_t code, uint32_t flags)
+-    return false;
- {
++    return finish_folding(ctx, op);
      R_TYPE(instr, code);
      if (likely(instr.c != R_ZERO)) {
 -        tcg_gen_setcond_tl(flags, dc->cpu_R[instr.c], dc->cpu_R[instr.a],
 -                           dc->cpu_R[instr.b]);
 +        tcg_gen_setcond_tl(flags, cpu_R[instr.c], cpu_R[instr.a],
 +                           cpu_R[instr.b]);
      }
  }
-@@ -XXX,XX +XXX,XX @@ static void (fname)(DisasContext *dc, uint32_t code, uint32_t flags)       \
+ static bool fold_sub_to_neg(OptContext *ctx, TCGOp *op)
  {                                                                          \
      R_TYPE(instr, (code));                                                 \
      if (likely(instr.c != R_ZERO)) {                                       \
 -        tcg_gen_##insn((dc)->cpu_R[instr.c], load_gpr((dc), instr.a),      \
 -                       (op3));                                             \
 +        tcg_gen_##insn(cpu_R[instr.c], load_gpr((dc), instr.a), (op3));    \
      }                                                                      \
  }
@@ -XXX,XX +XXX,XX @@ static void (fname)(DisasContext *dc, uint32_t code, uint32_t flags)   \
      R_TYPE(instr, (code));                                             \
      if (likely(instr.c != R_ZERO)) {                                   \
          TCGv t0 = tcg_temp_new();                                      \
 -        tcg_gen_##insn(t0, dc->cpu_R[instr.c],                         \
 -                       load_gpr(dc, instr.a), load_gpr(dc, instr.b)); \
 +        tcg_gen_##insn(t0, cpu_R[instr.c],                             \
 +                       load_gpr(dc, instr.a), load_gpr(dc, instr.b));  \
          tcg_temp_free(t0);                                             \
      }                                                                  \
  }
@@ -XXX,XX +XXX,XX @@ static void (fname)(DisasContext *dc, uint32_t code, uint32_t flags)       \
      if (likely(instr.c != R_ZERO)) {                                       \
          TCGv t0 = tcg_temp_new();                                          \
          tcg_gen_andi_tl(t0, load_gpr((dc), instr.b), 31);                  \
 -        tcg_gen_##insn((dc)->cpu_R[instr.c], load_gpr((dc), instr.a), t0); \
 +        tcg_gen_##insn(cpu_R[instr.c], load_gpr((dc), instr.a), t0);       \
          tcg_temp_free(t0);                                                 \
      }                                                                      \
  }
@@ -XXX,XX +XXX,XX @@ static void divs(DisasContext *dc, uint32_t code, uint32_t flags)
      tcg_gen_or_tl(t2, t2, t3);
      tcg_gen_movi_tl(t3, 0);
      tcg_gen_movcond_tl(TCG_COND_NE, t1, t2, t3, t2, t1);
 -    tcg_gen_div_tl(dc->cpu_R[instr.c], t0, t1);
 -    tcg_gen_ext32s_tl(dc->cpu_R[instr.c], dc->cpu_R[instr.c]);
 +    tcg_gen_div_tl(cpu_R[instr.c], t0, t1);
 +    tcg_gen_ext32s_tl(cpu_R[instr.c], cpu_R[instr.c]);
      tcg_temp_free(t3);
      tcg_temp_free(t2);
@@ -XXX,XX +XXX,XX @@ static void divu(DisasContext *dc, uint32_t code, uint32_t flags)
      tcg_gen_ext32u_tl(t0, load_gpr(dc, instr.a));
      tcg_gen_ext32u_tl(t1, load_gpr(dc, instr.b));
      tcg_gen_movcond_tl(TCG_COND_EQ, t1, t1, t2, t3, t1);
 -    tcg_gen_divu_tl(dc->cpu_R[instr.c], t0, t1);
 -    tcg_gen_ext32s_tl(dc->cpu_R[instr.c], dc->cpu_R[instr.c]);
 +    tcg_gen_divu_tl(cpu_R[instr.c], t0, t1);
 +    tcg_gen_ext32s_tl(cpu_R[instr.c], cpu_R[instr.c]);
      tcg_temp_free(t3);
      tcg_temp_free(t2);
@@ -XXX,XX +XXX,XX @@ static const char * const regnames[] = {
      "rpc"
  };
 -static TCGv cpu_R[NUM_CORE_REGS];
 -
  #include "exec/gen-icount.h"
  static void gen_exception(DisasContext *dc, uint32_t excp)
@@ -XXX,XX +XXX,XX @@ void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int max_insns)
      int num_insns;
      /* Initialize DC */
 -    dc->cpu_R   = cpu_R;
      dc->is_jmp  = DISAS_NEXT;
      dc->pc      = tb->pc;
      dc->tb      = tb;
 --
-.25.1
+.43.0

-[PULL 53/63] tcg: Make use of bswap flags in tcg_gen_qemu_ld_*
+[PULL 44/72] tcg/optimize: Simplify sign bit test in fold_shift
-We can perform any required sign-extension via TCG_BSWAP_OS.
+Merge the two conditions, sign != 0 && !(z_mask & sign),
 by testing ~z_mask & sign.   If sign == 0, the logical and
 will produce false.
-Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
+Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
 Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- tcg/tcg-op.c | 24 ++++++++++--------------
+ tcg/optimize.c | 5 ++---
-file changed, 10 insertions(+), 14 deletions(-)
+file changed, 2 insertions(+), 3 deletions(-)
-diff --git a/tcg/tcg-op.c b/tcg/tcg-op.c
+diff --git a/tcg/optimize.c b/tcg/optimize.c
 index XXXXXXX..XXXXXXX 100644
---- a/tcg/tcg-op.c
+--- a/tcg/optimize.c
-+++ b/tcg/tcg-op.c
++++ b/tcg/optimize.c
-@@ -XXX,XX +XXX,XX @@ void tcg_gen_qemu_ld_i32(TCGv_i32 val, TCGv addr, TCGArg idx, MemOp memop)
+@@ -XXX,XX +XXX,XX @@ static bool fold_sextract(OptContext *ctx, TCGOp *op)
-     orig_memop = memop;
-     if (!TCG_TARGET_HAS_MEMORY_BSWAP && (memop & MO_BSWAP)) {
+ static bool fold_shift(OptContext *ctx, TCGOp *op)
-         memop &= ~MO_BSWAP;
+ {
--        /* The bswap primitive requires zero-extended input.  */
+-    uint64_t s_mask, z_mask, sign;
-+        /* The bswap primitive benefits from zero-extended input.  */
++    uint64_t s_mask, z_mask;
-         if ((memop & MO_SSIZE) == MO_SW) {
+     TempOptInfo *t1, *t2;
-             memop &= ~MO_SIGN;
      if (fold_const2(ctx, op) ||
@@ -XXX,XX +XXX,XX @@ static bool fold_shift(OptContext *ctx, TCGOp *op)
           * If the sign bit is known zero, then logical right shift
           * will not reduce the number of input sign repetitions.
           */
 -        sign = -s_mask;
 -        if (sign && !(z_mask & sign)) {
 +        if (~z_mask & -s_mask) {
              return fold_masks_s(ctx, op, s_mask);
          }
-@@ -XXX,XX +XXX,XX @@ void tcg_gen_qemu_ld_i32(TCGv_i32 val, TCGv addr, TCGArg idx, MemOp memop)
+         break;
      if ((orig_memop ^ memop) & MO_BSWAP) {
          switch (orig_memop & MO_SIZE) {
          case MO_16:
 -            tcg_gen_bswap16_i32(val, val, TCG_BSWAP_IZ | TCG_BSWAP_OZ);
 -            if (orig_memop & MO_SIGN) {
 -                tcg_gen_ext16s_i32(val, val);
 -            }
 +            tcg_gen_bswap16_i32(val, val, (orig_memop & MO_SIGN
 +                                           ? TCG_BSWAP_IZ | TCG_BSWAP_OS
 +                                           : TCG_BSWAP_IZ | TCG_BSWAP_OZ));
              break;
          case MO_32:
              tcg_gen_bswap32_i32(val, val);
@@ -XXX,XX +XXX,XX @@ void tcg_gen_qemu_ld_i64(TCGv_i64 val, TCGv addr, TCGArg idx, MemOp memop)
      orig_memop = memop;
      if (!TCG_TARGET_HAS_MEMORY_BSWAP && (memop & MO_BSWAP)) {
          memop &= ~MO_BSWAP;
 -        /* The bswap primitive requires zero-extended input.  */
 +        /* The bswap primitive benefits from zero-extended input.  */
          if ((memop & MO_SIGN) && (memop & MO_SIZE) < MO_64) {
              memop &= ~MO_SIGN;
          }
@@ -XXX,XX +XXX,XX @@ void tcg_gen_qemu_ld_i64(TCGv_i64 val, TCGv addr, TCGArg idx, MemOp memop)
      plugin_gen_mem_callbacks(addr, info);
      if ((orig_memop ^ memop) & MO_BSWAP) {
 +        int flags = (orig_memop & MO_SIGN
 +                     ? TCG_BSWAP_IZ | TCG_BSWAP_OS
 +                     : TCG_BSWAP_IZ | TCG_BSWAP_OZ);
          switch (orig_memop & MO_SIZE) {
          case MO_16:
 -            tcg_gen_bswap16_i64(val, val, TCG_BSWAP_IZ | TCG_BSWAP_OZ);
 -            if (orig_memop & MO_SIGN) {
 -                tcg_gen_ext16s_i64(val, val);
 -            }
 +            tcg_gen_bswap16_i64(val, val, flags);
              break;
          case MO_32:
 -            tcg_gen_bswap32_i64(val, val, TCG_BSWAP_IZ | TCG_BSWAP_OZ);
 -            if (orig_memop & MO_SIGN) {
 -                tcg_gen_ext32s_i64(val, val);
 -            }
 +            tcg_gen_bswap32_i64(val, val, flags);
              break;
          case MO_64:
              tcg_gen_bswap64_i64(val, val);
 --
-.25.1
+.43.0

-[PULL 34/63] tcg: Use correct trap number for page faults on *BSD systems
+[PULL 45/72] tcg/optimize: Use finish_folding in fold_sub, fold_sub_vec
-From: Warner Losh <imp@bsdimp.com>
+Duplicate fold_sub_vec into fold_sub instead of calling it,
 now that fold_sub_vec always returns true.
-The trap number for a page fault on BSD systems is T_PAGEFLT
+Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
 not 0xe -- 0xe is used by Linux and represents the intel hardware
 trap vector. The BSD kernels, however, translate this to T_PAGEFLT
 in their Xpage, Xtrap0e, Xtrap14, etc fault handlers. This is true
 for i386 and x86_64, though the name of the trap hanlder can very
 on the flavor of BSD. As far as I can tell, Linux doesn't provide
 a define for this value. Invent a new one (PAGE_FAULT_TRAP) and
 use it instead to avoid uglier ifdefs.
 Signed-off-by: Mark Johnston <markj@FreeBSD.org>
 Signed-off-by: Juergen Lock <nox@FreeBSD.org>
 [ Rework to avoid ifdefs and expand it to i386 ]
 Signed-off-by: Warner Losh <imp@bsdimp.com>
 Message-Id: <20210625045707.84534-3-imp@bsdimp.com>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- accel/tcg/user-exec.c | 20 ++++++++++++++++++--
+ tcg/optimize.c | 9 ++++++---
-file changed, 18 insertions(+), 2 deletions(-)
+file changed, 6 insertions(+), 3 deletions(-)
-diff --git a/accel/tcg/user-exec.c b/accel/tcg/user-exec.c
+diff --git a/tcg/optimize.c b/tcg/optimize.c
 index XXXXXXX..XXXXXXX 100644
---- a/accel/tcg/user-exec.c
+--- a/tcg/optimize.c
-+++ b/accel/tcg/user-exec.c
++++ b/tcg/optimize.c
-@@ -XXX,XX +XXX,XX @@ void *probe_access(CPUArchState *env, target_ulong addr, int size,
+@@ -XXX,XX +XXX,XX @@ static bool fold_sub_vec(OptContext *ctx, TCGOp *op)
+         fold_sub_to_neg(ctx, op)) {
- #if defined(__NetBSD__)
+         return true;
- #include <ucontext.h>
+     }
-+#include <machine/trap.h>
+-    return false;
++    return finish_folding(ctx, op);
  #define EIP_sig(context)     ((context)->uc_mcontext.__gregs[_REG_EIP])
  #define TRAP_sig(context)    ((context)->uc_mcontext.__gregs[_REG_TRAPNO])
  #define ERROR_sig(context)   ((context)->uc_mcontext.__gregs[_REG_ERR])
  #define MASK_sig(context)    ((context)->uc_sigmask)
 +#define PAGE_FAULT_TRAP      T_PAGEFLT
  #elif defined(__FreeBSD__) || defined(__DragonFly__)
  #include <ucontext.h>
 +#include <machine/trap.h>
  #define EIP_sig(context)  (*((unsigned long *)&(context)->uc_mcontext.mc_eip))
  #define TRAP_sig(context)    ((context)->uc_mcontext.mc_trapno)
  #define ERROR_sig(context)   ((context)->uc_mcontext.mc_err)
  #define MASK_sig(context)    ((context)->uc_sigmask)
 +#define PAGE_FAULT_TRAP      T_PAGEFLT
  #elif defined(__OpenBSD__)
 +#include <machine/trap.h>
  #define EIP_sig(context)     ((context)->sc_eip)
  #define TRAP_sig(context)    ((context)->sc_trapno)
  #define ERROR_sig(context)   ((context)->sc_err)
  #define MASK_sig(context)    ((context)->sc_mask)
 +#define PAGE_FAULT_TRAP      T_PAGEFLT
  #else
  #define EIP_sig(context)     ((context)->uc_mcontext.gregs[REG_EIP])
  #define TRAP_sig(context)    ((context)->uc_mcontext.gregs[REG_TRAPNO])
  #define ERROR_sig(context)   ((context)->uc_mcontext.gregs[REG_ERR])
  #define MASK_sig(context)    ((context)->uc_sigmask)
 +#define PAGE_FAULT_TRAP      0xe
  #endif
  int cpu_signal_handler(int host_signum, void *pinfo,
@@ -XXX,XX +XXX,XX @@ int cpu_signal_handler(int host_signum, void *pinfo,
      pc = EIP_sig(uc);
      trapno = TRAP_sig(uc);
      return handle_cpu_signal(pc, info,
 -                             trapno == 0xe ? (ERROR_sig(uc) >> 1) & 1 : 0,
 +                             trapno == PAGE_FAULT_TRAP ?
 +                             (ERROR_sig(uc) >> 1) & 1 : 0,
                               &MASK_sig(uc));
  }
- #elif defined(__x86_64__)
+ static bool fold_sub(OptContext *ctx, TCGOp *op)
+ {
- #ifdef __NetBSD__
+-    if (fold_const2(ctx, op) || fold_sub_vec(ctx, op)) {
-+#include <machine/trap.h>
++    if (fold_const2(ctx, op) ||
- #define PC_sig(context)       _UC_MACHINE_PC(context)
++        fold_xx_to_i(ctx, op, 0) ||
- #define TRAP_sig(context)     ((context)->uc_mcontext.__gregs[_REG_TRAPNO])
++        fold_xi_to_x(ctx, op, 0) ||
- #define ERROR_sig(context)    ((context)->uc_mcontext.__gregs[_REG_ERR])
++        fold_sub_to_neg(ctx, op)) {
- #define MASK_sig(context)     ((context)->uc_sigmask)
+         return true;
-+#define PAGE_FAULT_TRAP       T_PAGEFLT
+     }
- #elif defined(__OpenBSD__)
-+#include <machine/trap.h>
+@@ -XXX,XX +XXX,XX @@ static bool fold_sub(OptContext *ctx, TCGOp *op)
- #define PC_sig(context)       ((context)->sc_rip)
+                    ? INDEX_op_add_i32 : INDEX_op_add_i64);
- #define TRAP_sig(context)     ((context)->sc_trapno)
+         op->args[2] = arg_new_constant(ctx, -val);
- #define ERROR_sig(context)    ((context)->sc_err)
+     }
- #define MASK_sig(context)     ((context)->sc_mask)
+-    return false;
-+#define PAGE_FAULT_TRAP       T_PAGEFLT
++    return finish_folding(ctx, op);
  #elif defined(__FreeBSD__) || defined(__DragonFly__)
  #include <ucontext.h>
 +#include <machine/trap.h>
  #define PC_sig(context)  (*((unsigned long *)&(context)->uc_mcontext.mc_rip))
  #define TRAP_sig(context)     ((context)->uc_mcontext.mc_trapno)
  #define ERROR_sig(context)    ((context)->uc_mcontext.mc_err)
  #define MASK_sig(context)     ((context)->uc_sigmask)
 +#define PAGE_FAULT_TRAP       T_PAGEFLT
  #else
  #define PC_sig(context)       ((context)->uc_mcontext.gregs[REG_RIP])
  #define TRAP_sig(context)     ((context)->uc_mcontext.gregs[REG_TRAPNO])
  #define ERROR_sig(context)    ((context)->uc_mcontext.gregs[REG_ERR])
  #define MASK_sig(context)     ((context)->uc_sigmask)
 +#define PAGE_FAULT_TRAP       0xe
  #endif
  int cpu_signal_handler(int host_signum, void *pinfo,
@@ -XXX,XX +XXX,XX @@ int cpu_signal_handler(int host_signum, void *pinfo,
      pc = PC_sig(uc);
      return handle_cpu_signal(pc, info,
 -                             TRAP_sig(uc) == 0xe ? (ERROR_sig(uc) >> 1) & 1 : 0,
 +                             TRAP_sig(uc) == PAGE_FAULT_TRAP ?
 +                             (ERROR_sig(uc) >> 1) & 1 : 0,
                               &MASK_sig(uc));
  }
+ static bool fold_sub2(OptContext *ctx, TCGOp *op)
 --
-.25.1
+.43.0

-[PULL 62/63] tcg/aarch64: Unset TCG_TARGET_HAS_MEMORY_BSWAP
+[PULL 46/72] tcg/optimize: Use fold_masks_zs in fold_tcg_ld
-The memory bswap support in the aarch64 backend merely dates from
+Avoid the use of the OptContext slots.
 a time when it was required.  There is nothing special about the
 backend support that could not have been provided by the middle-end
 even prior to the introduction of the bswap flags.
-Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
+Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- tcg/aarch64/tcg-target.h     |  2 +-
+ tcg/optimize.c | 16 +++++++++-------
- tcg/aarch64/tcg-target.c.inc | 87 +++++++++++++-----------------------
+file changed, 9 insertions(+), 7 deletions(-)
 files changed, 32 insertions(+), 57 deletions(-)
-diff --git a/tcg/aarch64/tcg-target.h b/tcg/aarch64/tcg-target.h
+diff --git a/tcg/optimize.c b/tcg/optimize.c
 index XXXXXXX..XXXXXXX 100644
---- a/tcg/aarch64/tcg-target.h
+--- a/tcg/optimize.c
-+++ b/tcg/aarch64/tcg-target.h
++++ b/tcg/optimize.c
-@@ -XXX,XX +XXX,XX @@ typedef enum {
+@@ -XXX,XX +XXX,XX @@ static bool fold_sub2(OptContext *ctx, TCGOp *op)
- #define TCG_TARGET_HAS_cmpsel_vec       0
+ static bool fold_tcg_ld(OptContext *ctx, TCGOp *op)
  #define TCG_TARGET_DEFAULT_MO (0)
 -#define TCG_TARGET_HAS_MEMORY_BSWAP     1
 +#define TCG_TARGET_HAS_MEMORY_BSWAP     0
  void tb_target_set_jmp_target(uintptr_t, uintptr_t, uintptr_t, uintptr_t);
 diff --git a/tcg/aarch64/tcg-target.c.inc b/tcg/aarch64/tcg-target.c.inc
 index XXXXXXX..XXXXXXX 100644
 --- a/tcg/aarch64/tcg-target.c.inc
 +++ b/tcg/aarch64/tcg-target.c.inc
@@ -XXX,XX +XXX,XX @@ static void tcg_out_cltz(TCGContext *s, TCGType ext, TCGReg d,
  /* helper signature: helper_ret_ld_mmu(CPUState *env, target_ulong addr,
   *                                     TCGMemOpIdx oi, uintptr_t ra)
   */
 -static void * const qemu_ld_helpers[16] = {
 -    [MO_UB]   = helper_ret_ldub_mmu,
 -    [MO_LEUW] = helper_le_lduw_mmu,
 -    [MO_LEUL] = helper_le_ldul_mmu,
 -    [MO_LEQ]  = helper_le_ldq_mmu,
 -    [MO_BEUW] = helper_be_lduw_mmu,
 -    [MO_BEUL] = helper_be_ldul_mmu,
 -    [MO_BEQ]  = helper_be_ldq_mmu,
 +static void * const qemu_ld_helpers[4] = {
 +    [MO_8]  = helper_ret_ldub_mmu,
 +#ifdef HOST_WORDS_BIGENDIAN
 +    [MO_16] = helper_be_lduw_mmu,
 +    [MO_32] = helper_be_ldul_mmu,
 +    [MO_64] = helper_be_ldq_mmu,
 +#else
 +    [MO_16] = helper_le_lduw_mmu,
 +    [MO_32] = helper_le_ldul_mmu,
 +    [MO_64] = helper_le_ldq_mmu,
 +#endif
  };
  /* helper signature: helper_ret_st_mmu(CPUState *env, target_ulong addr,
   *                                     uintxx_t val, TCGMemOpIdx oi,
   *                                     uintptr_t ra)
   */
 -static void * const qemu_st_helpers[16] = {
 -    [MO_UB]   = helper_ret_stb_mmu,
 -    [MO_LEUW] = helper_le_stw_mmu,
 -    [MO_LEUL] = helper_le_stl_mmu,
 -    [MO_LEQ]  = helper_le_stq_mmu,
 -    [MO_BEUW] = helper_be_stw_mmu,
 -    [MO_BEUL] = helper_be_stl_mmu,
 -    [MO_BEQ]  = helper_be_stq_mmu,
 +static void * const qemu_st_helpers[4] = {
 +    [MO_8]  = helper_ret_stb_mmu,
 +#ifdef HOST_WORDS_BIGENDIAN
 +    [MO_16] = helper_be_stw_mmu,
 +    [MO_32] = helper_be_stl_mmu,
 +    [MO_64] = helper_be_stq_mmu,
 +#else
 +    [MO_16] = helper_le_stw_mmu,
 +    [MO_32] = helper_le_stl_mmu,
 +    [MO_64] = helper_le_stq_mmu,
 +#endif
  };
  static inline void tcg_out_adr(TCGContext *s, TCGReg rd, const void *target)
@@ -XXX,XX +XXX,XX @@ static bool tcg_out_qemu_ld_slow_path(TCGContext *s, TCGLabelQemuLdst *lb)
      tcg_out_mov(s, TARGET_LONG_BITS == 64, TCG_REG_X1, lb->addrlo_reg);
      tcg_out_movi(s, TCG_TYPE_I32, TCG_REG_X2, oi);
      tcg_out_adr(s, TCG_REG_X3, lb->raddr);
 -    tcg_out_call(s, qemu_ld_helpers[opc & (MO_BSWAP | MO_SIZE)]);
 +    tcg_out_call(s, qemu_ld_helpers[opc & MO_SIZE]);
      if (opc & MO_SIGN) {
          tcg_out_sxt(s, lb->type, size, lb->datalo_reg, TCG_REG_X0);
      } else {
@@ -XXX,XX +XXX,XX @@ static bool tcg_out_qemu_st_slow_path(TCGContext *s, TCGLabelQemuLdst *lb)
      tcg_out_mov(s, size == MO_64, TCG_REG_X2, lb->datalo_reg);
      tcg_out_movi(s, TCG_TYPE_I32, TCG_REG_X3, oi);
      tcg_out_adr(s, TCG_REG_X4, lb->raddr);
 -    tcg_out_call(s, qemu_st_helpers[opc & (MO_BSWAP | MO_SIZE)]);
 +    tcg_out_call(s, qemu_st_helpers[opc & MO_SIZE]);
      tcg_out_goto(s, lb->raddr);
      return true;
  }
@@ -XXX,XX +XXX,XX @@ static void tcg_out_qemu_ld_direct(TCGContext *s, MemOp memop, TCGType ext,
                                     TCGReg data_r, TCGReg addr_r,
                                     TCGType otype, TCGReg off_r)
  {
--    const MemOp bswap = memop & MO_BSWAP;
++    uint64_t z_mask = -1, s_mask = 0;
-+    /* Byte swapping is left to middle-end expansion. */
++
-+    tcg_debug_assert((memop & MO_BSWAP) == 0);
+     /* We can't do any folding with a load, but we can record bits. */
+     switch (op->opc) {
-     switch (memop & MO_SSIZE) {
+     CASE_OP_32_64(ld8s):
-     case MO_UB:
+-        ctx->s_mask = MAKE_64BIT_MASK(8, 56);
-@@ -XXX,XX +XXX,XX @@ static void tcg_out_qemu_ld_direct(TCGContext *s, MemOp memop, TCGType ext,
++        s_mask = INT8_MIN;
          break;
-     case MO_UW:
+     CASE_OP_32_64(ld8u):
-         tcg_out_ldst_r(s, I3312_LDRH, data_r, addr_r, otype, off_r);
+-        ctx->z_mask = MAKE_64BIT_MASK(0, 8);
--        if (bswap) {
++        z_mask = MAKE_64BIT_MASK(0, 8);
 -            tcg_out_rev(s, TCG_TYPE_I32, MO_16, data_r, data_r);
 -        }
          break;
-     case MO_SW:
+     CASE_OP_32_64(ld16s):
--        if (bswap) {
+-        ctx->s_mask = MAKE_64BIT_MASK(16, 48);
--            tcg_out_ldst_r(s, I3312_LDRH, data_r, addr_r, otype, off_r);
++        s_mask = INT16_MIN;
 -            tcg_out_rev(s, TCG_TYPE_I32, MO_16, data_r, data_r);
 -            tcg_out_sxt(s, ext, MO_16, data_r, data_r);
 -        } else {
 -            tcg_out_ldst_r(s, (ext ? I3312_LDRSHX : I3312_LDRSHW),
 -                           data_r, addr_r, otype, off_r);
 -        }
 +        tcg_out_ldst_r(s, (ext ? I3312_LDRSHX : I3312_LDRSHW),
 +                       data_r, addr_r, otype, off_r);
          break;
-     case MO_UL:
+     CASE_OP_32_64(ld16u):
-         tcg_out_ldst_r(s, I3312_LDRW, data_r, addr_r, otype, off_r);
+-        ctx->z_mask = MAKE_64BIT_MASK(0, 16);
--        if (bswap) {
++        z_mask = MAKE_64BIT_MASK(0, 16);
 -            tcg_out_rev(s, TCG_TYPE_I32, MO_32, data_r, data_r);
 -        }
          break;
-     case MO_SL:
+     case INDEX_op_ld32s_i64:
--        if (bswap) {
+-        ctx->s_mask = MAKE_64BIT_MASK(32, 32);
--            tcg_out_ldst_r(s, I3312_LDRW, data_r, addr_r, otype, off_r);
++        s_mask = INT32_MIN;
 -            tcg_out_rev(s, TCG_TYPE_I32, MO_32, data_r, data_r);
 -            tcg_out_sxt(s, TCG_TYPE_I64, MO_32, data_r, data_r);
 -        } else {
 -            tcg_out_ldst_r(s, I3312_LDRSWX, data_r, addr_r, otype, off_r);
 -        }
 +        tcg_out_ldst_r(s, I3312_LDRSWX, data_r, addr_r, otype, off_r);
          break;
-     case MO_Q:
+     case INDEX_op_ld32u_i64:
-         tcg_out_ldst_r(s, I3312_LDRX, data_r, addr_r, otype, off_r);
+-        ctx->z_mask = MAKE_64BIT_MASK(0, 32);
--        if (bswap) {
++        z_mask = MAKE_64BIT_MASK(0, 32);
 -            tcg_out_rev(s, TCG_TYPE_I64, MO_64, data_r, data_r);
 -        }
          break;
      default:
-         tcg_abort();
+         g_assert_not_reached();
-@@ -XXX,XX +XXX,XX @@ static void tcg_out_qemu_st_direct(TCGContext *s, MemOp memop,
+     }
-                                    TCGReg data_r, TCGReg addr_r,
+-    return false;
-                                    TCGType otype, TCGReg off_r)
++    return fold_masks_zs(ctx, op, z_mask, s_mask);
- {
+ }
--    const MemOp bswap = memop & MO_BSWAP;
-+    /* Byte swapping is left to middle-end expansion. */
+ static bool fold_tcg_ld_memcopy(OptContext *ctx, TCGOp *op)
 +    tcg_debug_assert((memop & MO_BSWAP) == 0);
      switch (memop & MO_SIZE) {
      case MO_8:
          tcg_out_ldst_r(s, I3312_STRB, data_r, addr_r, otype, off_r);
          break;
      case MO_16:
 -        if (bswap && data_r != TCG_REG_XZR) {
 -            tcg_out_rev(s, TCG_TYPE_I32, MO_16, TCG_REG_TMP, data_r);
 -            data_r = TCG_REG_TMP;
 -        }
          tcg_out_ldst_r(s, I3312_STRH, data_r, addr_r, otype, off_r);
          break;
      case MO_32:
 -        if (bswap && data_r != TCG_REG_XZR) {
 -            tcg_out_rev(s, TCG_TYPE_I32, MO_32, TCG_REG_TMP, data_r);
 -            data_r = TCG_REG_TMP;
 -        }
          tcg_out_ldst_r(s, I3312_STRW, data_r, addr_r, otype, off_r);
          break;
      case MO_64:
 -        if (bswap && data_r != TCG_REG_XZR) {
 -            tcg_out_rev(s, TCG_TYPE_I64, MO_64, TCG_REG_TMP, data_r);
 -            data_r = TCG_REG_TMP;
 -        }
          tcg_out_ldst_r(s, I3312_STRX, data_r, addr_r, otype, off_r);
          break;
      default:
 --
-.25.1
+.43.0

-[PULL 02/63] target/nios2: Use global cpu_env
+[PULL 47/72] tcg/optimize: Use finish_folding in fold_tcg_ld_memcopy
-We do not need to copy this into DisasContext.
+Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
 Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- target/nios2/translate.c | 10 ++++------
+ tcg/optimize.c | 2 +-
-file changed, 4 insertions(+), 6 deletions(-)
+file changed, 1 insertion(+), 1 deletion(-)
-diff --git a/target/nios2/translate.c b/target/nios2/translate.c
+diff --git a/tcg/optimize.c b/tcg/optimize.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/nios2/translate.c
+--- a/tcg/optimize.c
-+++ b/target/nios2/translate.c
++++ b/tcg/optimize.c
-@@ -XXX,XX +XXX,XX @@
+@@ -XXX,XX +XXX,XX @@ static bool fold_tcg_ld_memcopy(OptContext *ctx, TCGOp *op)
      TCGType type;
      if (op->args[1] != tcgv_ptr_arg(tcg_env)) {
 -        return false;
 +        return finish_folding(ctx, op);
      }
- typedef struct DisasContext {
+     type = ctx->type;
 -    TCGv_ptr          cpu_env;
      TCGv             *cpu_R;
      TCGv_i32          zero;
      int               is_jmp;
@@ -XXX,XX +XXX,XX @@ static void t_gen_helper_raise_exception(DisasContext *dc,
      TCGv_i32 tmp = tcg_const_i32(index);
      tcg_gen_movi_tl(dc->cpu_R[R_PC], dc->pc);
 -    gen_helper_raise_exception(dc->cpu_env, tmp);
 +    gen_helper_raise_exception(cpu_env, tmp);
      tcg_temp_free_i32(tmp);
      dc->is_jmp = DISAS_NORETURN;
  }
@@ -XXX,XX +XXX,XX @@ static void rdctl(DisasContext *dc, uint32_t code, uint32_t flags)
              tcg_gen_mov_tl(dc->cpu_R[instr.c], dc->cpu_R[instr.imm5 + CR_BASE]);
  #ifdef DEBUG_MMU
              TCGv_i32 tmp = tcg_const_i32(instr.imm5 + CR_BASE);
 -            gen_helper_mmu_read_debug(dc->cpu_R[instr.c], dc->cpu_env, tmp);
 +            gen_helper_mmu_read_debug(dc->cpu_R[instr.c], cpu_env, tmp);
              tcg_temp_free_i32(tmp);
  #endif
          }
@@ -XXX,XX +XXX,XX @@ static void wrctl(DisasContext *dc, uint32_t code, uint32_t flags)
      {
  #if !defined(CONFIG_USER_ONLY)
          TCGv_i32 tmp = tcg_const_i32(instr.imm5 + CR_BASE);
 -        gen_helper_mmu_write(dc->cpu_env, tmp, load_gpr(dc, instr.a));
 +        gen_helper_mmu_write(cpu_env, tmp, load_gpr(dc, instr.a));
          tcg_temp_free_i32(tmp);
  #endif
          break;
@@ -XXX,XX +XXX,XX @@ static void wrctl(DisasContext *dc, uint32_t code, uint32_t flags)
          if (tb_cflags(dc->tb) & CF_USE_ICOUNT) {
              gen_io_start();
          }
 -        gen_helper_check_interrupts(dc->cpu_env);
 +        gen_helper_check_interrupts(cpu_env);
          dc->is_jmp = DISAS_UPDATE;
      }
  #endif
@@ -XXX,XX +XXX,XX @@ void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int max_insns)
      int num_insns;
      /* Initialize DC */
 -    dc->cpu_env = cpu_env;
      dc->cpu_R   = cpu_R;
      dc->is_jmp  = DISAS_NEXT;
      dc->pc      = tb->pc;
 --
-.25.1
+.43.0

-[PULL 49/63] tcg/mips: Support bswap flags in tcg_out_bswap32
+[PULL 48/72] tcg/optimize: Use fold_masks_zs in fold_xor
-Merge tcg_out_bswap32 and tcg_out_bswap32s.
+Avoid the use of the OptContext slots.  Find TempOptInfo once.
-Use the flags in the internal uses for loads and stores.
+Remove fold_masks as the function becomes unused.
-For mips32r2 bswap32 with zero-extension, standardize on
+Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
 WSBH+ROTR+DEXT.  This is the same number of insns as the
 previous DSBH+DSHD+DSRL but fits in better with the flags check.
 Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- tcg/mips/tcg-target.c.inc | 39 ++++++++++++++++-----------------------
+ tcg/optimize.c | 18 ++++++++----------
-file changed, 16 insertions(+), 23 deletions(-)
+file changed, 8 insertions(+), 10 deletions(-)
-diff --git a/tcg/mips/tcg-target.c.inc b/tcg/mips/tcg-target.c.inc
+diff --git a/tcg/optimize.c b/tcg/optimize.c
 index XXXXXXX..XXXXXXX 100644
---- a/tcg/mips/tcg-target.c.inc
+--- a/tcg/optimize.c
-+++ b/tcg/mips/tcg-target.c.inc
++++ b/tcg/optimize.c
-@@ -XXX,XX +XXX,XX @@ static void tcg_out_bswap_subr(TCGContext *s, const tcg_insn_unit *sub)
+@@ -XXX,XX +XXX,XX @@ static bool fold_masks_s(OptContext *ctx, TCGOp *op, uint64_t s_mask)
-     tcg_debug_assert(ok);
+     return fold_masks_zs(ctx, op, -1, s_mask);
  }
--static void tcg_out_bswap32(TCGContext *s, TCGReg ret, TCGReg arg)
+-static bool fold_masks(OptContext *ctx, TCGOp *op)
-+static void tcg_out_bswap32(TCGContext *s, TCGReg ret, TCGReg arg, int flags)
+-{
- {
+-    return fold_masks_zs(ctx, op, ctx->z_mask, ctx->s_mask);
      if (use_mips32r2_instructions) {
          tcg_out_opc_reg(s, OPC_WSBH, ret, 0, arg);
          tcg_out_opc_sa(s, OPC_ROTR, ret, ret, 16);
 +        if (flags & TCG_BSWAP_OZ) {
 +            tcg_out_opc_bf(s, OPC_DEXT, ret, ret, 31, 0);
 +        }
      } else {
 -        tcg_out_bswap_subr(s, bswap32_addr);
 -        /* delay slot -- never omit the insn, like tcg_out_mov might.  */
 -        tcg_out_opc_reg(s, OPC_OR, TCG_TMP0, arg, TCG_REG_ZERO);
 -        tcg_out_mov(s, TCG_TYPE_I32, ret, TCG_TMP3);
 -    }
 -}
 -
--static void tcg_out_bswap32u(TCGContext *s, TCGReg ret, TCGReg arg)
+ /*
--{
+  * An "affected" mask bit is 0 if and only if the result is identical
--    if (use_mips32r2_instructions) {
+  * to the first input.  Thus if the entire mask is 0, the operation
--        tcg_out_opc_reg(s, OPC_DSBH, ret, 0, arg);
+@@ -XXX,XX +XXX,XX @@ static bool fold_tcg_st_memcopy(OptContext *ctx, TCGOp *op)
--        tcg_out_opc_reg(s, OPC_DSHD, ret, 0, ret);
--        tcg_out_dsrl(s, ret, ret, 32);
+ static bool fold_xor(OptContext *ctx, TCGOp *op)
--    } else {
+ {
--        tcg_out_bswap_subr(s, bswap32u_addr);
++    uint64_t z_mask, s_mask;
-+        if (flags & TCG_BSWAP_OZ) {
++    TempOptInfo *t1, *t2;
-+            tcg_out_bswap_subr(s, bswap32u_addr);
++
-+        } else {
+     if (fold_const2_commutative(ctx, op) ||
-+            tcg_out_bswap_subr(s, bswap32_addr);
+         fold_xx_to_i(ctx, op, 0) ||
-+        }
+         fold_xi_to_x(ctx, op, 0) ||
-         /* delay slot -- never omit the insn, like tcg_out_mov might.  */
+@@ -XXX,XX +XXX,XX @@ static bool fold_xor(OptContext *ctx, TCGOp *op)
-         tcg_out_opc_reg(s, OPC_OR, TCG_TMP0, arg, TCG_REG_ZERO);
+         return true;
-         tcg_out_mov(s, TCG_TYPE_I32, ret, TCG_TMP3);
+     }
-@@ -XXX,XX +XXX,XX @@ static void tcg_out_qemu_ld_direct(TCGContext *s, TCGReg lo, TCGReg hi,
-         if (TCG_TARGET_REG_BITS == 64 && is_64) {
+-    ctx->z_mask = arg_info(op->args[1])->z_mask
-             if (use_mips32r2_instructions) {
+-                | arg_info(op->args[2])->z_mask;
-                 tcg_out_opc_imm(s, OPC_LWU, lo, base, 0);
+-    ctx->s_mask = arg_info(op->args[1])->s_mask
--                tcg_out_bswap32u(s, lo, lo);
+-                & arg_info(op->args[2])->s_mask;
-+                tcg_out_bswap32(s, lo, lo, TCG_BSWAP_IZ | TCG_BSWAP_OZ);
+-    return fold_masks(ctx, op);
-             } else {
++    t1 = arg_info(op->args[1]);
-                 tcg_out_bswap_subr(s, bswap32u_addr);
++    t2 = arg_info(op->args[2]);
-                 /* delay slot */
++    z_mask = t1->z_mask | t2->z_mask;
-@@ -XXX,XX +XXX,XX @@ static void tcg_out_qemu_ld_direct(TCGContext *s, TCGReg lo, TCGReg hi,
++    s_mask = t1->s_mask & t2->s_mask;
-     case MO_SL | MO_BSWAP:
++    return fold_masks_zs(ctx, op, z_mask, s_mask);
-         if (use_mips32r2_instructions) {
+ }
-             tcg_out_opc_imm(s, OPC_LW, lo, base, 0);
--            tcg_out_bswap32(s, lo, lo);
+ static bool fold_bitsel_vec(OptContext *ctx, TCGOp *op)
 +            tcg_out_bswap32(s, lo, lo, 0);
          } else {
              tcg_out_bswap_subr(s, bswap32_addr);
              /* delay slot */
@@ -XXX,XX +XXX,XX @@ static void tcg_out_qemu_st_direct(TCGContext *s, TCGReg lo, TCGReg hi,
          break;
      case MO_32 | MO_BSWAP:
 -        tcg_out_bswap32(s, TCG_TMP3, lo);
 +        tcg_out_bswap32(s, TCG_TMP3, lo, 0);
          lo = TCG_TMP3;
          /* FALLTHRU */
      case MO_32:
@@ -XXX,XX +XXX,XX @@ static void tcg_out_qemu_st_direct(TCGContext *s, TCGReg lo, TCGReg hi,
              tcg_out_opc_imm(s, OPC_SW, TCG_TMP0, base, 0);
              tcg_out_opc_imm(s, OPC_SW, TCG_TMP1, base, 4);
          } else {
 -            tcg_out_bswap32(s, TCG_TMP3, MIPS_BE ? lo : hi);
 +            tcg_out_bswap32(s, TCG_TMP3, MIPS_BE ? lo : hi, 0);
              tcg_out_opc_imm(s, OPC_SW, TCG_TMP3, base, 0);
 -            tcg_out_bswap32(s, TCG_TMP3, MIPS_BE ? hi : lo);
 +            tcg_out_bswap32(s, TCG_TMP3, MIPS_BE ? hi : lo, 0);
              tcg_out_opc_imm(s, OPC_SW, TCG_TMP3, base, 4);
          }
          break;
@@ -XXX,XX +XXX,XX @@ static inline void tcg_out_op(TCGContext *s, TCGOpcode opc,
          tcg_out_bswap16(s, a0, a1, a2);
          break;
      case INDEX_op_bswap32_i32:
 -        tcg_out_bswap32(s, a0, a1);
 +        tcg_out_bswap32(s, a0, a1, 0);
          break;
      case INDEX_op_bswap32_i64:
 -        tcg_out_bswap32u(s, a0, a1);
 +        tcg_out_bswap32(s, a0, a1, a2);
          break;
      case INDEX_op_bswap64_i64:
          tcg_out_bswap64(s, a0, a1);
 --
-.25.1
+.43.0

-[PULL 25/63] target/cris: Use tcg_gen_lookup_and_goto_ptr
+[PULL 49/72] tcg/optimize: Use finish_folding in fold_bitsel_vec
-We can use this in gen_goto_tb and for DISAS_JUMP
+Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
 to indirectly chain to the next TB.
 Reviewed-by: Edgar E. Iglesias <edgar.iglesias@xilinx.com>
 Tested-by: Edgar E. Iglesias <edgar.iglesias@xilinx.com>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- target/cris/translate.c | 4 +++-
+ tcg/optimize.c | 2 +-
-file changed, 3 insertions(+), 1 deletion(-)
+file changed, 1 insertion(+), 1 deletion(-)
-diff --git a/target/cris/translate.c b/target/cris/translate.c
+diff --git a/tcg/optimize.c b/tcg/optimize.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/cris/translate.c
+--- a/tcg/optimize.c
-+++ b/target/cris/translate.c
++++ b/tcg/optimize.c
-@@ -XXX,XX +XXX,XX @@ static void gen_goto_tb(DisasContext *dc, int n, target_ulong dest)
+@@ -XXX,XX +XXX,XX @@ static bool fold_bitsel_vec(OptContext *ctx, TCGOp *op)
-         tcg_gen_exit_tb(dc->base.tb, n);
+             return fold_orc(ctx, op);
-     } else {
+         }
          tcg_gen_movi_tl(env_pc, dest);
 -        tcg_gen_exit_tb(NULL, 0);
 +        tcg_gen_lookup_and_goto_ptr();
      }
+-    return false;
++    return finish_folding(ctx, op);
  }
-@@ -XXX,XX +XXX,XX @@ static void cris_tr_tb_stop(DisasContextBase *dcbase, CPUState *cpu)
+ /* Propagate constants and copies, fold constant expressions. */
          tcg_gen_movi_tl(env_pc, npc);
          /* fall through */
      case DISAS_JUMP:
 +        tcg_gen_lookup_and_goto_ptr();
 +        break;
      case DISAS_UPDATE:
          /* Indicate that interupts must be re-evaluated before the next TB. */
          tcg_gen_exit_tb(NULL, 0);
 --
-.25.1
+.43.0

-[PULL 51/63] tcg: Handle new bswap flags during optimize
+[PULL 50/72] tcg/optimize: Use finish_folding as default in tcg_optimize
-Notice when the input is known to be zero-extended and force
+All non-default cases now finish folding within each function.
-the TCG_BSWAP_IZ flag on.  Honor the TCG_BSWAP_OS bit during
+Do the same with the default case and assert it is done after.
 constant folding.  Propagate the input to the output mask.
-Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
+Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- tcg/optimize.c | 56 +++++++++++++++++++++++++++++++++++++++++++++-----
+ tcg/optimize.c | 6 ++----
-file changed, 51 insertions(+), 5 deletions(-)
+file changed, 2 insertions(+), 4 deletions(-)
 diff --git a/tcg/optimize.c b/tcg/optimize.c
 index XXXXXXX..XXXXXXX 100644
 --- a/tcg/optimize.c
 +++ b/tcg/optimize.c
-@@ -XXX,XX +XXX,XX @@ static uint64_t do_constant_folding_2(TCGOpcode op, uint64_t x, uint64_t y)
-         return (uint16_t)x;
-     CASE_OP_32_64(bswap16):
--        return bswap16(x);
-+        x = bswap16(x);
-+        return y & TCG_BSWAP_OS ? (int16_t)x : x;
-     CASE_OP_32_64(bswap32):
--        return bswap32(x);
-+        x = bswap32(x);
-+        return y & TCG_BSWAP_OS ? (int32_t)x : x;
-     case INDEX_op_bswap64_i64:
-         return bswap64(x);
 @@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
-             }
+             done = true;
              break;
-+        CASE_OP_32_64(bswap16):
-+            mask = arg_info(op->args[1])->mask;
-+            if (mask <= 0xffff) {
-+                op->args[2] |= TCG_BSWAP_IZ;
-+            }
-+            mask = bswap16(mask);
-+            switch (op->args[2] & (TCG_BSWAP_OZ | TCG_BSWAP_OS)) {
-+            case TCG_BSWAP_OZ:
-+                break;
-+            case TCG_BSWAP_OS:
-+                mask = (int16_t)mask;
-+                break;
-+            default: /* undefined high bits */
-+                mask |= MAKE_64BIT_MASK(16, 48);
-+                break;
-+            }
-+            break;
-+
-+        case INDEX_op_bswap32_i64:
-+            mask = arg_info(op->args[1])->mask;
-+            if (mask <= 0xffffffffu) {
-+                op->args[2] |= TCG_BSWAP_IZ;
-+            }
-+            mask = bswap32(mask);
-+            switch (op->args[2] & (TCG_BSWAP_OZ | TCG_BSWAP_OS)) {
-+            case TCG_BSWAP_OZ:
-+                break;
-+            case TCG_BSWAP_OS:
-+                mask = (int32_t)mask;
-+                break;
-+            default: /* undefined high bits */
-+                mask |= MAKE_64BIT_MASK(32, 32);
-+                break;
-+            }
-+            break;
-+
          default:
++            done = finish_folding(&ctx, op);
              break;
          }
-@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
+-
-         CASE_OP_32_64(ext16s):
+-        if (!done) {
-         CASE_OP_32_64(ext16u):
+-            finish_folding(&ctx, op);
-         CASE_OP_32_64(ctpop):
+-        }
--        CASE_OP_32_64(bswap16):
++        tcg_debug_assert(done);
--        CASE_OP_32_64(bswap32):
+     }
--        case INDEX_op_bswap64_i64:
+ }
          case INDEX_op_ext32s_i64:
          case INDEX_op_ext32u_i64:
          case INDEX_op_ext_i32_i64:
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
              }
              goto do_default;
 +        CASE_OP_32_64(bswap16):
 +        CASE_OP_32_64(bswap32):
 +        case INDEX_op_bswap64_i64:
 +            if (arg_is_const(op->args[1])) {
 +                tmp = do_constant_folding(opc, arg_info(op->args[1])->val,
 +                                          op->args[2]);
 +                tcg_opt_gen_movi(s, &temps_used, op, op->args[0], tmp);
 +                break;
 +            }
 +            goto do_default;
 +
          CASE_OP_32_64(add):
          CASE_OP_32_64(sub):
          CASE_OP_32_64(mul):
 --
-.25.1
+.43.0

-[PULL 61/63] tcg/arm: Unset TCG_TARGET_HAS_MEMORY_BSWAP
+[PULL 51/72] tcg/optimize: Remove z_mask, s_mask from OptContext
-Now that the middle-end can replicate the same tricks as tcg/arm
+All mask setting is now done with parameters via fold_masks_*.
 used for optimizing bswap for signed loads and for stores, do not
 pretend to have these memory ops in the backend.
-Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
+Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- tcg/arm/tcg-target.h     |   2 +-
+ tcg/optimize.c | 13 -------------
- tcg/arm/tcg-target.c.inc | 214 ++++++++++++++-------------------------
+file changed, 13 deletions(-)
 files changed, 77 insertions(+), 139 deletions(-)
-diff --git a/tcg/arm/tcg-target.h b/tcg/arm/tcg-target.h
+diff --git a/tcg/optimize.c b/tcg/optimize.c
 index XXXXXXX..XXXXXXX 100644
---- a/tcg/arm/tcg-target.h
+--- a/tcg/optimize.c
-+++ b/tcg/arm/tcg-target.h
++++ b/tcg/optimize.c
-@@ -XXX,XX +XXX,XX @@ extern bool use_neon_instructions;
+@@ -XXX,XX +XXX,XX @@ typedef struct OptContext {
- #define TCG_TARGET_HAS_cmpsel_vec       0
+     QSIMPLEQ_HEAD(, MemCopyInfo) mem_free;
- #define TCG_TARGET_DEFAULT_MO (0)
+     /* In flight values from optimization. */
--#define TCG_TARGET_HAS_MEMORY_BSWAP     1
+-    uint64_t z_mask;  /* mask bit is 0 iff value bit is 0 */
-+#define TCG_TARGET_HAS_MEMORY_BSWAP     0
+-    uint64_t s_mask;  /* mask bit is 1 if value bit matches msb */
+     TCGType type;
- /* not defined -- call should be eliminated at compile time */
+ } OptContext;
- void tb_target_set_jmp_target(uintptr_t, uintptr_t, uintptr_t, uintptr_t);
-diff --git a/tcg/arm/tcg-target.c.inc b/tcg/arm/tcg-target.c.inc
+@@ -XXX,XX +XXX,XX @@ static bool finish_folding(OptContext *ctx, TCGOp *op)
-index XXXXXXX..XXXXXXX 100644
+     for (i = 0; i < nb_oargs; i++) {
---- a/tcg/arm/tcg-target.c.inc
+         TCGTemp *ts = arg_temp(op->args[i]);
-+++ b/tcg/arm/tcg-target.c.inc
+         reset_ts(ctx, ts);
-@@ -XXX,XX +XXX,XX @@ static void tcg_out_vldst(TCGContext *s, ARMInsn insn,
+-        /*
- /* helper signature: helper_ret_ld_mmu(CPUState *env, target_ulong addr,
+-         * Save the corresponding known-zero/sign bits mask for the
-  *                                     int mmu_idx, uintptr_t ra)
+-         * first output argument (only one supported so far).
-  */
+-         */
--static void * const qemu_ld_helpers[16] = {
+-        if (i == 0) {
-+static void * const qemu_ld_helpers[8] = {
+-            ts_info(ts)->z_mask = ctx->z_mask;
-     [MO_UB]   = helper_ret_ldub_mmu,
+-        }
-     [MO_SB]   = helper_ret_ldsb_mmu,
+     }
 -
 -    [MO_LEUW] = helper_le_lduw_mmu,
 -    [MO_LEUL] = helper_le_ldul_mmu,
 -    [MO_LEQ]  = helper_le_ldq_mmu,
 -    [MO_LESW] = helper_le_ldsw_mmu,
 -    [MO_LESL] = helper_le_ldul_mmu,
 -
 -    [MO_BEUW] = helper_be_lduw_mmu,
 -    [MO_BEUL] = helper_be_ldul_mmu,
 -    [MO_BEQ]  = helper_be_ldq_mmu,
 -    [MO_BESW] = helper_be_ldsw_mmu,
 -    [MO_BESL] = helper_be_ldul_mmu,
 +#ifdef HOST_WORDS_BIGENDIAN
 +    [MO_UW] = helper_be_lduw_mmu,
 +    [MO_UL] = helper_be_ldul_mmu,
 +    [MO_Q]  = helper_be_ldq_mmu,
 +    [MO_SW] = helper_be_ldsw_mmu,
 +    [MO_SL] = helper_be_ldul_mmu,
 +#else
 +    [MO_UW] = helper_le_lduw_mmu,
 +    [MO_UL] = helper_le_ldul_mmu,
 +    [MO_Q]  = helper_le_ldq_mmu,
 +    [MO_SW] = helper_le_ldsw_mmu,
 +    [MO_SL] = helper_le_ldul_mmu,
 +#endif
  };
  /* helper signature: helper_ret_st_mmu(CPUState *env, target_ulong addr,
   *                                     uintxx_t val, int mmu_idx, uintptr_t ra)
   */
 -static void * const qemu_st_helpers[16] = {
 -    [MO_UB]   = helper_ret_stb_mmu,
 -    [MO_LEUW] = helper_le_stw_mmu,
 -    [MO_LEUL] = helper_le_stl_mmu,
 -    [MO_LEQ]  = helper_le_stq_mmu,
 -    [MO_BEUW] = helper_be_stw_mmu,
 -    [MO_BEUL] = helper_be_stl_mmu,
 -    [MO_BEQ]  = helper_be_stq_mmu,
 +static void * const qemu_st_helpers[4] = {
 +    [MO_8]   = helper_ret_stb_mmu,
 +#ifdef HOST_WORDS_BIGENDIAN
 +    [MO_16] = helper_be_stw_mmu,
 +    [MO_32] = helper_be_stl_mmu,
 +    [MO_64] = helper_be_stq_mmu,
 +#else
 +    [MO_16] = helper_le_stw_mmu,
 +    [MO_32] = helper_le_stl_mmu,
 +    [MO_64] = helper_le_stq_mmu,
 +#endif
  };
  /* Helper routines for marshalling helper function arguments into
@@ -XXX,XX +XXX,XX @@ static bool tcg_out_qemu_ld_slow_path(TCGContext *s, TCGLabelQemuLdst *lb)
         icache usage.  For pre-armv6, use the signed helpers since we do
         not have a single insn sign-extend.  */
      if (use_armv6_instructions) {
 -        func = qemu_ld_helpers[opc & (MO_BSWAP | MO_SIZE)];
 +        func = qemu_ld_helpers[opc & MO_SIZE];
      } else {
 -        func = qemu_ld_helpers[opc & (MO_BSWAP | MO_SSIZE)];
 +        func = qemu_ld_helpers[opc & MO_SSIZE];
          if (opc & MO_SIGN) {
              opc = MO_UL;
          }
@@ -XXX,XX +XXX,XX @@ static bool tcg_out_qemu_st_slow_path(TCGContext *s, TCGLabelQemuLdst *lb)
      argreg = tcg_out_arg_reg32(s, argreg, TCG_REG_R14);
      /* Tail-call to the helper, which will return to the fast path.  */
 -    tcg_out_goto(s, COND_AL, qemu_st_helpers[opc & (MO_BSWAP | MO_SIZE)]);
 +    tcg_out_goto(s, COND_AL, qemu_st_helpers[opc & MO_SIZE]);
      return true;
  }
- #endif /* SOFTMMU */
+@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
-@@ -XXX,XX +XXX,XX @@ static inline void tcg_out_qemu_ld_index(TCGContext *s, MemOp opc,
+             ctx.type = TCG_TYPE_I32;
-                                          TCGReg datalo, TCGReg datahi,
+         }
-                                          TCGReg addrlo, TCGReg addend)
- {
+-        /* Assume all bits affected, no bits known zero, no sign reps. */
--    MemOp bswap = opc & MO_BSWAP;
+-        ctx.z_mask = -1;
-+    /* Byte swapping is left to middle-end expansion. */
+-        ctx.s_mask = 0;
 +    tcg_debug_assert((opc & MO_BSWAP) == 0);
      switch (opc & MO_SSIZE) {
      case MO_UB:
@@ -XXX,XX +XXX,XX @@ static inline void tcg_out_qemu_ld_index(TCGContext *s, MemOp opc,
          break;
      case MO_UW:
          tcg_out_ld16u_r(s, COND_AL, datalo, addrlo, addend);
 -        if (bswap) {
 -            tcg_out_bswap16(s, COND_AL, datalo, datalo,
 -                            TCG_BSWAP_IZ | TCG_BSWAP_OZ);
 -        }
          break;
      case MO_SW:
 -        if (bswap) {
 -            tcg_out_ld16u_r(s, COND_AL, datalo, addrlo, addend);
 -            tcg_out_bswap16(s, COND_AL, datalo, datalo,
 -                            TCG_BSWAP_IZ | TCG_BSWAP_OS);
 -        } else {
 -            tcg_out_ld16s_r(s, COND_AL, datalo, addrlo, addend);
 -        }
 +        tcg_out_ld16s_r(s, COND_AL, datalo, addrlo, addend);
          break;
      case MO_UL:
 -    default:
          tcg_out_ld32_r(s, COND_AL, datalo, addrlo, addend);
 -        if (bswap) {
 -            tcg_out_bswap32(s, COND_AL, datalo, datalo);
 -        }
          break;
      case MO_Q:
 -        {
 -            TCGReg dl = (bswap ? datahi : datalo);
 -            TCGReg dh = (bswap ? datalo : datahi);
 -
--            /* Avoid ldrd for user-only emulation, to handle unaligned.  */
+         /*
--            if (USING_SOFTMMU && use_armv6_instructions
+          * Process each opcode.
--                && (dl & 1) == 0 && dh == dl + 1) {
+          * Sorted alphabetically by opcode as much as possible.
 -                tcg_out_ldrd_r(s, COND_AL, dl, addrlo, addend);
 -            } else if (dl != addend) {
 -                tcg_out_ld32_rwb(s, COND_AL, dl, addend, addrlo);
 -                tcg_out_ld32_12(s, COND_AL, dh, addend, 4);
 -            } else {
 -                tcg_out_dat_reg(s, COND_AL, ARITH_ADD, TCG_REG_TMP,
 -                                addend, addrlo, SHIFT_IMM_LSL(0));
 -                tcg_out_ld32_12(s, COND_AL, dl, TCG_REG_TMP, 0);
 -                tcg_out_ld32_12(s, COND_AL, dh, TCG_REG_TMP, 4);
 -            }
 -            if (bswap) {
 -                tcg_out_bswap32(s, COND_AL, dl, dl);
 -                tcg_out_bswap32(s, COND_AL, dh, dh);
 -            }
 +        /* Avoid ldrd for user-only emulation, to handle unaligned.  */
 +        if (USING_SOFTMMU && use_armv6_instructions
 +            && (datalo & 1) == 0 && datahi == datalo + 1) {
 +            tcg_out_ldrd_r(s, COND_AL, datalo, addrlo, addend);
 +        } else if (datalo != addend) {
 +            tcg_out_ld32_rwb(s, COND_AL, datalo, addend, addrlo);
 +            tcg_out_ld32_12(s, COND_AL, datahi, addend, 4);
 +        } else {
 +            tcg_out_dat_reg(s, COND_AL, ARITH_ADD, TCG_REG_TMP,
 +                            addend, addrlo, SHIFT_IMM_LSL(0));
 +            tcg_out_ld32_12(s, COND_AL, datalo, TCG_REG_TMP, 0);
 +            tcg_out_ld32_12(s, COND_AL, datahi, TCG_REG_TMP, 4);
          }
          break;
 +    default:
 +        g_assert_not_reached();
      }
  }
@@ -XXX,XX +XXX,XX @@ static inline void tcg_out_qemu_ld_direct(TCGContext *s, MemOp opc,
                                            TCGReg datalo, TCGReg datahi,
                                            TCGReg addrlo)
  {
 -    MemOp bswap = opc & MO_BSWAP;
 +    /* Byte swapping is left to middle-end expansion. */
 +    tcg_debug_assert((opc & MO_BSWAP) == 0);
      switch (opc & MO_SSIZE) {
      case MO_UB:
@@ -XXX,XX +XXX,XX @@ static inline void tcg_out_qemu_ld_direct(TCGContext *s, MemOp opc,
          break;
      case MO_UW:
          tcg_out_ld16u_8(s, COND_AL, datalo, addrlo, 0);
 -        if (bswap) {
 -            tcg_out_bswap16(s, COND_AL, datalo, datalo,
 -                            TCG_BSWAP_IZ | TCG_BSWAP_OZ);
 -        }
          break;
      case MO_SW:
 -        if (bswap) {
 -            tcg_out_ld16u_8(s, COND_AL, datalo, addrlo, 0);
 -            tcg_out_bswap16(s, COND_AL, datalo, datalo,
 -                            TCG_BSWAP_IZ | TCG_BSWAP_OS);
 -        } else {
 -            tcg_out_ld16s_8(s, COND_AL, datalo, addrlo, 0);
 -        }
 +        tcg_out_ld16s_8(s, COND_AL, datalo, addrlo, 0);
          break;
      case MO_UL:
 -    default:
          tcg_out_ld32_12(s, COND_AL, datalo, addrlo, 0);
 -        if (bswap) {
 -            tcg_out_bswap32(s, COND_AL, datalo, datalo);
 -        }
          break;
      case MO_Q:
 -        {
 -            TCGReg dl = (bswap ? datahi : datalo);
 -            TCGReg dh = (bswap ? datalo : datahi);
 -
 -            /* Avoid ldrd for user-only emulation, to handle unaligned.  */
 -            if (USING_SOFTMMU && use_armv6_instructions
 -                && (dl & 1) == 0 && dh == dl + 1) {
 -                tcg_out_ldrd_8(s, COND_AL, dl, addrlo, 0);
 -            } else if (dl == addrlo) {
 -                tcg_out_ld32_12(s, COND_AL, dh, addrlo, bswap ? 0 : 4);
 -                tcg_out_ld32_12(s, COND_AL, dl, addrlo, bswap ? 4 : 0);
 -            } else {
 -                tcg_out_ld32_12(s, COND_AL, dl, addrlo, bswap ? 4 : 0);
 -                tcg_out_ld32_12(s, COND_AL, dh, addrlo, bswap ? 0 : 4);
 -            }
 -            if (bswap) {
 -                tcg_out_bswap32(s, COND_AL, dl, dl);
 -                tcg_out_bswap32(s, COND_AL, dh, dh);
 -            }
 +        /* Avoid ldrd for user-only emulation, to handle unaligned.  */
 +        if (USING_SOFTMMU && use_armv6_instructions
 +            && (datalo & 1) == 0 && datahi == datalo + 1) {
 +            tcg_out_ldrd_8(s, COND_AL, datalo, addrlo, 0);
 +        } else if (datalo == addrlo) {
 +            tcg_out_ld32_12(s, COND_AL, datahi, addrlo, 4);
 +            tcg_out_ld32_12(s, COND_AL, datalo, addrlo, 0);
 +        } else {
 +            tcg_out_ld32_12(s, COND_AL, datalo, addrlo, 0);
 +            tcg_out_ld32_12(s, COND_AL, datahi, addrlo, 4);
          }
          break;
 +    default:
 +        g_assert_not_reached();
      }
  }
@@ -XXX,XX +XXX,XX @@ static inline void tcg_out_qemu_st_index(TCGContext *s, int cond, MemOp opc,
                                           TCGReg datalo, TCGReg datahi,
                                           TCGReg addrlo, TCGReg addend)
  {
 -    MemOp bswap = opc & MO_BSWAP;
 +    /* Byte swapping is left to middle-end expansion. */
 +    tcg_debug_assert((opc & MO_BSWAP) == 0);
      switch (opc & MO_SIZE) {
      case MO_8:
          tcg_out_st8_r(s, cond, datalo, addrlo, addend);
          break;
      case MO_16:
 -        if (bswap) {
 -            tcg_out_bswap16(s, cond, TCG_REG_R0, datalo, 0);
 -            tcg_out_st16_r(s, cond, TCG_REG_R0, addrlo, addend);
 -        } else {
 -            tcg_out_st16_r(s, cond, datalo, addrlo, addend);
 -        }
 +        tcg_out_st16_r(s, cond, datalo, addrlo, addend);
          break;
      case MO_32:
 -    default:
 -        if (bswap) {
 -            tcg_out_bswap32(s, cond, TCG_REG_R0, datalo);
 -            tcg_out_st32_r(s, cond, TCG_REG_R0, addrlo, addend);
 -        } else {
 -            tcg_out_st32_r(s, cond, datalo, addrlo, addend);
 -        }
 +        tcg_out_st32_r(s, cond, datalo, addrlo, addend);
          break;
      case MO_64:
          /* Avoid strd for user-only emulation, to handle unaligned.  */
 -        if (bswap) {
 -            tcg_out_bswap32(s, cond, TCG_REG_R0, datahi);
 -            tcg_out_st32_rwb(s, cond, TCG_REG_R0, addend, addrlo);
 -            tcg_out_bswap32(s, cond, TCG_REG_R0, datalo);
 -            tcg_out_st32_12(s, cond, TCG_REG_R0, addend, 4);
 -        } else if (USING_SOFTMMU && use_armv6_instructions
 -                   && (datalo & 1) == 0 && datahi == datalo + 1) {
 +        if (USING_SOFTMMU && use_armv6_instructions
 +            && (datalo & 1) == 0 && datahi == datalo + 1) {
              tcg_out_strd_r(s, cond, datalo, addrlo, addend);
          } else {
              tcg_out_st32_rwb(s, cond, datalo, addend, addrlo);
              tcg_out_st32_12(s, cond, datahi, addend, 4);
          }
          break;
 +    default:
 +        g_assert_not_reached();
      }
  }
@@ -XXX,XX +XXX,XX @@ static inline void tcg_out_qemu_st_direct(TCGContext *s, MemOp opc,
                                            TCGReg datalo, TCGReg datahi,
                                            TCGReg addrlo)
  {
 -    MemOp bswap = opc & MO_BSWAP;
 +    /* Byte swapping is left to middle-end expansion. */
 +    tcg_debug_assert((opc & MO_BSWAP) == 0);
      switch (opc & MO_SIZE) {
      case MO_8:
          tcg_out_st8_12(s, COND_AL, datalo, addrlo, 0);
          break;
      case MO_16:
 -        if (bswap) {
 -            tcg_out_bswap16(s, COND_AL, TCG_REG_R0, datalo, 0);
 -            tcg_out_st16_8(s, COND_AL, TCG_REG_R0, addrlo, 0);
 -        } else {
 -            tcg_out_st16_8(s, COND_AL, datalo, addrlo, 0);
 -        }
 +        tcg_out_st16_8(s, COND_AL, datalo, addrlo, 0);
          break;
      case MO_32:
 -    default:
 -        if (bswap) {
 -            tcg_out_bswap32(s, COND_AL, TCG_REG_R0, datalo);
 -            tcg_out_st32_12(s, COND_AL, TCG_REG_R0, addrlo, 0);
 -        } else {
 -            tcg_out_st32_12(s, COND_AL, datalo, addrlo, 0);
 -        }
 +        tcg_out_st32_12(s, COND_AL, datalo, addrlo, 0);
          break;
      case MO_64:
          /* Avoid strd for user-only emulation, to handle unaligned.  */
 -        if (bswap) {
 -            tcg_out_bswap32(s, COND_AL, TCG_REG_R0, datahi);
 -            tcg_out_st32_12(s, COND_AL, TCG_REG_R0, addrlo, 0);
 -            tcg_out_bswap32(s, COND_AL, TCG_REG_R0, datalo);
 -            tcg_out_st32_12(s, COND_AL, TCG_REG_R0, addrlo, 4);
 -        } else if (USING_SOFTMMU && use_armv6_instructions
 -                   && (datalo & 1) == 0 && datahi == datalo + 1) {
 +        if (USING_SOFTMMU && use_armv6_instructions
 +            && (datalo & 1) == 0 && datahi == datalo + 1) {
              tcg_out_strd_8(s, COND_AL, datalo, addrlo, 0);
          } else {
              tcg_out_st32_12(s, COND_AL, datalo, addrlo, 0);
              tcg_out_st32_12(s, COND_AL, datahi, addrlo, 4);
          }
          break;
 +    default:
 +        g_assert_not_reached();
      }
  }
 --
-.25.1
+.43.0

-[PULL 35/63] tcg: Add flags argument to bswap opcodes
+[PULL 52/72] tcg/optimize: Re-enable sign-mask optimizations
-This will eventually simplify front-end usage, and will allow
+All instances of s_mask have been converted to the new
-backends to unset TCG_TARGET_HAS_MEMORY_BSWAP without loss of
+representation.  We can now re-enable usage.
 optimization.
-The argument is added during expansion, not currently exposed to the
+Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
 front end translators.  The backends currently only support a flags
 value of either TCG_BSWAP_IZ, or (TCG_BSWAP_IZ | TCG_BSWAP_OZ),
 since they all require zero top bytes and leave them that way.
 At the existing call sites we pass in (TCG_BSWAP_IZ | TCG_BSWAP_OZ),
 except for the flags-ignored cases of a 32-bit swap of a 32-bit
 value and or a 64-bit swap of a 64-bit value, where we pass 0.
 Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- include/tcg/tcg-opc.h | 10 +++++-----
+ tcg/optimize.c | 4 ++--
- include/tcg/tcg.h     | 12 ++++++++++++
+file changed, 2 insertions(+), 2 deletions(-)
  tcg/tcg-op.c          | 13 ++++++++-----
  tcg/tcg.c             | 28 ++++++++++++++++++++++++++++
  tcg/README            | 22 ++++++++++++++--------
 files changed, 67 insertions(+), 18 deletions(-)
-diff --git a/include/tcg/tcg-opc.h b/include/tcg/tcg-opc.h
+diff --git a/tcg/optimize.c b/tcg/optimize.c
 index XXXXXXX..XXXXXXX 100644
---- a/include/tcg/tcg-opc.h
+--- a/tcg/optimize.c
-+++ b/include/tcg/tcg-opc.h
++++ b/tcg/optimize.c
-@@ -XXX,XX +XXX,XX @@ DEF(ext8s_i32, 1, 1, 0, IMPL(TCG_TARGET_HAS_ext8s_i32))
+@@ -XXX,XX +XXX,XX @@ static bool fold_exts(OptContext *ctx, TCGOp *op)
- DEF(ext16s_i32, 1, 1, 0, IMPL(TCG_TARGET_HAS_ext16s_i32))
+         g_assert_not_reached();
- DEF(ext8u_i32, 1, 1, 0, IMPL(TCG_TARGET_HAS_ext8u_i32))
+     }
- DEF(ext16u_i32, 1, 1, 0, IMPL(TCG_TARGET_HAS_ext16u_i32))
--DEF(bswap16_i32, 1, 1, 0, IMPL(TCG_TARGET_HAS_bswap16_i32))
+-    if (0 && !type_change && fold_affected_mask(ctx, op, s_mask & ~s_mask_old)) {
--DEF(bswap32_i32, 1, 1, 0, IMPL(TCG_TARGET_HAS_bswap32_i32))
++    if (!type_change && fold_affected_mask(ctx, op, s_mask & ~s_mask_old)) {
-+DEF(bswap16_i32, 1, 1, 1, IMPL(TCG_TARGET_HAS_bswap16_i32))
+         return true;
-+DEF(bswap32_i32, 1, 1, 1, IMPL(TCG_TARGET_HAS_bswap32_i32))
+     }
- DEF(not_i32, 1, 1, 0, IMPL(TCG_TARGET_HAS_not_i32))
- DEF(neg_i32, 1, 1, 0, IMPL(TCG_TARGET_HAS_neg_i32))
+@@ -XXX,XX +XXX,XX @@ static bool fold_sextract(OptContext *ctx, TCGOp *op)
- DEF(andc_i32, 1, 2, 0, IMPL(TCG_TARGET_HAS_andc_i32))
+     s_mask = s_mask_old >> pos;
-@@ -XXX,XX +XXX,XX @@ DEF(ext32s_i64, 1, 1, 0, IMPL64 | IMPL(TCG_TARGET_HAS_ext32s_i64))
+     s_mask |= -1ull << (len - 1);
- DEF(ext8u_i64, 1, 1, 0, IMPL64 | IMPL(TCG_TARGET_HAS_ext8u_i64))
- DEF(ext16u_i64, 1, 1, 0, IMPL64 | IMPL(TCG_TARGET_HAS_ext16u_i64))
+-    if (0 && pos == 0 && fold_affected_mask(ctx, op, s_mask & ~s_mask_old)) {
- DEF(ext32u_i64, 1, 1, 0, IMPL64 | IMPL(TCG_TARGET_HAS_ext32u_i64))
++    if (pos == 0 && fold_affected_mask(ctx, op, s_mask & ~s_mask_old)) {
--DEF(bswap16_i64, 1, 1, 0, IMPL64 | IMPL(TCG_TARGET_HAS_bswap16_i64))
+         return true;
--DEF(bswap32_i64, 1, 1, 0, IMPL64 | IMPL(TCG_TARGET_HAS_bswap32_i64))
+     }
 -DEF(bswap64_i64, 1, 1, 0, IMPL64 | IMPL(TCG_TARGET_HAS_bswap64_i64))
 +DEF(bswap16_i64, 1, 1, 1, IMPL64 | IMPL(TCG_TARGET_HAS_bswap16_i64))
 +DEF(bswap32_i64, 1, 1, 1, IMPL64 | IMPL(TCG_TARGET_HAS_bswap32_i64))
 +DEF(bswap64_i64, 1, 1, 1, IMPL64 | IMPL(TCG_TARGET_HAS_bswap64_i64))
  DEF(not_i64, 1, 1, 0, IMPL64 | IMPL(TCG_TARGET_HAS_not_i64))
  DEF(neg_i64, 1, 1, 0, IMPL64 | IMPL(TCG_TARGET_HAS_neg_i64))
  DEF(andc_i64, 1, 2, 0, IMPL64 | IMPL(TCG_TARGET_HAS_andc_i64))
 diff --git a/include/tcg/tcg.h b/include/tcg/tcg.h
 index XXXXXXX..XXXXXXX 100644
 --- a/include/tcg/tcg.h
 +++ b/include/tcg/tcg.h
@@ -XXX,XX +XXX,XX @@ typedef TCGv_ptr TCGv_env;
  /* Used to align parameters.  See the comment before tcgv_i32_temp.  */
  #define TCG_CALL_DUMMY_ARG      ((TCGArg)0)
 +/*
 + * Flags for the bswap opcodes.
 + * If IZ, the input is zero-extended, otherwise unknown.
 + * If OZ or OS, the output is zero- or sign-extended respectively,
 + * otherwise the high bits are undefined.
 + */
 +enum {
 +    TCG_BSWAP_IZ = 1,
 +    TCG_BSWAP_OZ = 2,
 +    TCG_BSWAP_OS = 4,
 +};
 +
  typedef enum TCGTempVal {
      TEMP_VAL_DEAD,
      TEMP_VAL_REG,
 diff --git a/tcg/tcg-op.c b/tcg/tcg-op.c
 index XXXXXXX..XXXXXXX 100644
 --- a/tcg/tcg-op.c
 +++ b/tcg/tcg-op.c
@@ -XXX,XX +XXX,XX @@ void tcg_gen_ext16u_i32(TCGv_i32 ret, TCGv_i32 arg)
  void tcg_gen_bswap16_i32(TCGv_i32 ret, TCGv_i32 arg)
  {
      if (TCG_TARGET_HAS_bswap16_i32) {
 -        tcg_gen_op2_i32(INDEX_op_bswap16_i32, ret, arg);
 +        tcg_gen_op3i_i32(INDEX_op_bswap16_i32, ret, arg,
 +                         TCG_BSWAP_IZ | TCG_BSWAP_OZ);
      } else {
          TCGv_i32 t0 = tcg_temp_new_i32();
@@ -XXX,XX +XXX,XX @@ void tcg_gen_bswap16_i32(TCGv_i32 ret, TCGv_i32 arg)
  void tcg_gen_bswap32_i32(TCGv_i32 ret, TCGv_i32 arg)
  {
      if (TCG_TARGET_HAS_bswap32_i32) {
 -        tcg_gen_op2_i32(INDEX_op_bswap32_i32, ret, arg);
 +        tcg_gen_op3i_i32(INDEX_op_bswap32_i32, ret, arg, 0);
      } else {
          TCGv_i32 t0 = tcg_temp_new_i32();
          TCGv_i32 t1 = tcg_temp_new_i32();
@@ -XXX,XX +XXX,XX @@ void tcg_gen_bswap16_i64(TCGv_i64 ret, TCGv_i64 arg)
          tcg_gen_bswap16_i32(TCGV_LOW(ret), TCGV_LOW(arg));
          tcg_gen_movi_i32(TCGV_HIGH(ret), 0);
      } else if (TCG_TARGET_HAS_bswap16_i64) {
 -        tcg_gen_op2_i64(INDEX_op_bswap16_i64, ret, arg);
 +        tcg_gen_op3i_i64(INDEX_op_bswap16_i64, ret, arg,
 +                         TCG_BSWAP_IZ | TCG_BSWAP_OZ);
      } else {
          TCGv_i64 t0 = tcg_temp_new_i64();
@@ -XXX,XX +XXX,XX @@ void tcg_gen_bswap32_i64(TCGv_i64 ret, TCGv_i64 arg)
          tcg_gen_bswap32_i32(TCGV_LOW(ret), TCGV_LOW(arg));
          tcg_gen_movi_i32(TCGV_HIGH(ret), 0);
      } else if (TCG_TARGET_HAS_bswap32_i64) {
 -        tcg_gen_op2_i64(INDEX_op_bswap32_i64, ret, arg);
 +        tcg_gen_op3i_i64(INDEX_op_bswap32_i64, ret, arg,
 +                         TCG_BSWAP_IZ | TCG_BSWAP_OZ);
      } else {
          TCGv_i64 t0 = tcg_temp_new_i64();
          TCGv_i64 t1 = tcg_temp_new_i64();
@@ -XXX,XX +XXX,XX @@ void tcg_gen_bswap64_i64(TCGv_i64 ret, TCGv_i64 arg)
          tcg_temp_free_i32(t0);
          tcg_temp_free_i32(t1);
      } else if (TCG_TARGET_HAS_bswap64_i64) {
 -        tcg_gen_op2_i64(INDEX_op_bswap64_i64, ret, arg);
 +        tcg_gen_op3i_i64(INDEX_op_bswap64_i64, ret, arg, 0);
      } else {
          TCGv_i64 t0 = tcg_temp_new_i64();
          TCGv_i64 t1 = tcg_temp_new_i64();
 diff --git a/tcg/tcg.c b/tcg/tcg.c
 index XXXXXXX..XXXXXXX 100644
 --- a/tcg/tcg.c
 +++ b/tcg/tcg.c
@@ -XXX,XX +XXX,XX @@ static const char * const alignment_name[(MO_AMASK >> MO_ASHIFT) + 1] = {
      [MO_ALIGN_64 >> MO_ASHIFT] = "al64+",
  };
 +static const char bswap_flag_name[][6] = {
 +    [TCG_BSWAP_IZ] = "iz",
 +    [TCG_BSWAP_OZ] = "oz",
 +    [TCG_BSWAP_OS] = "os",
 +    [TCG_BSWAP_IZ | TCG_BSWAP_OZ] = "iz,oz",
 +    [TCG_BSWAP_IZ | TCG_BSWAP_OS] = "iz,os",
 +};
 +
  static inline bool tcg_regset_single(TCGRegSet d)
  {
      return (d & (d - 1)) == 0;
@@ -XXX,XX +XXX,XX @@ static void tcg_dump_ops(TCGContext *s, bool have_prefs)
                      i = 1;
                  }
                  break;
 +            case INDEX_op_bswap16_i32:
 +            case INDEX_op_bswap16_i64:
 +            case INDEX_op_bswap32_i32:
 +            case INDEX_op_bswap32_i64:
 +            case INDEX_op_bswap64_i64:
 +                {
 +                    TCGArg flags = op->args[k];
 +                    const char *name = NULL;
 +
 +                    if (flags < ARRAY_SIZE(bswap_flag_name)) {
 +                        name = bswap_flag_name[flags];
 +                    }
 +                    if (name) {
 +                        col += qemu_log(",%s", name);
 +                    } else {
 +                        col += qemu_log(",$0x%" TCG_PRIlx, flags);
 +                    }
 +                    i = k = 1;
 +                }
 +                break;
              default:
                  i = 0;
                  break;
 diff --git a/tcg/README b/tcg/README
 index XXXXXXX..XXXXXXX 100644
 --- a/tcg/README
 +++ b/tcg/README
@@ -XXX,XX +XXX,XX @@ ext32u_i64 t0, t1
 , 16 or 32 bit sign/zero extension (both operands must have the same type)
 -* bswap16_i32/i64 t0, t1
 +* bswap16_i32/i64 t0, t1, flags
 -16 bit byte swap on a 32/64 bit value. It assumes that the two/six high order
 -bytes are set to zero.
 +16 bit byte swap on the low bits of a 32/64 bit input.
 +If flags & TCG_BSWAP_IZ, then t1 is known to be zero-extended from bit 15.
 +If flags & TCG_BSWAP_OZ, then t0 will be zero-extended from bit 15.
 +If flags & TCG_BSWAP_OS, then t0 will be sign-extended from bit 15.
 +If neither TCG_BSWAP_OZ nor TCG_BSWAP_OS are set, then the bits of
 +t0 above bit 15 may contain any value.
 -* bswap32_i32/i64 t0, t1
 +* bswap32_i64 t0, t1, flags
 -32 bit byte swap on a 32/64 bit value. With a 64 bit value, it assumes that
 -the four high order bytes are set to zero.
 +32 bit byte swap on a 64-bit value.  The flags are the same as for bswap16,
 +except they apply from bit 31 instead of bit 15.
 -* bswap64_i64 t0, t1
 +* bswap32_i32 t0, t1, flags
 +* bswap64_i64 t0, t1, flags
 -64 bit byte swap
 +32/64 bit byte swap.  The flags are ignored, but still present
 +for consistency with the other bswap opcodes.
  * discard_i32/i64 t0
 --
-.25.1
+.43.0

-[PULL 31/63] tcg: Add tcg_gen_vec_shl{shr}{sar}16i_i32
+[PULL 53/72] tcg/optimize: Move fold_bitsel_vec into alphabetic sort
-From: LIU Zhiwei <zhiwei_liu@c-sky.com>
+The big comment just above says functions should be sorted.
 Add forward declarations as needed.
-Implement tcg_gen_vec_shl{shr}{sar}16i_tl by adding corresponging i32 OP.
+Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
 Signed-off-by: LIU Zhiwei <zhiwei_liu@c-sky.com>
 Message-Id: <20210624105023.3852-4-zhiwei_liu@c-sky.com>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- include/tcg/tcg-op-gvec.h | 10 ++++++++++
+ tcg/optimize.c | 114 +++++++++++++++++++++++++------------------------
- tcg/tcg-op-gvec.c         | 28 ++++++++++++++++++++++++++++
+file changed, 59 insertions(+), 55 deletions(-)
 files changed, 38 insertions(+)
-diff --git a/include/tcg/tcg-op-gvec.h b/include/tcg/tcg-op-gvec.h
+diff --git a/tcg/optimize.c b/tcg/optimize.c
 index XXXXXXX..XXXXXXX 100644
---- a/include/tcg/tcg-op-gvec.h
+--- a/tcg/optimize.c
-+++ b/include/tcg/tcg-op-gvec.h
++++ b/tcg/optimize.c
-@@ -XXX,XX +XXX,XX @@ void tcg_gen_vec_add16_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b);
+@@ -XXX,XX +XXX,XX @@ static bool fold_xx_to_x(OptContext *ctx, TCGOp *op)
- void tcg_gen_vec_sub8_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b);
+  *   3) those that produce information about the result value.
- void tcg_gen_vec_sub16_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b);
+  */
-+void tcg_gen_vec_shl16i_i32(TCGv_i32 d, TCGv_i32 a, int32_t);
++static bool fold_or(OptContext *ctx, TCGOp *op);
-+void tcg_gen_vec_shr16i_i32(TCGv_i32 d, TCGv_i32 a, int32_t);
++static bool fold_orc(OptContext *ctx, TCGOp *op);
-+void tcg_gen_vec_sar16i_i32(TCGv_i32 d, TCGv_i32 a, int32_t);
++static bool fold_xor(OptContext *ctx, TCGOp *op);
 +
- #if TARGET_LONG_BITS == 64
+ static bool fold_add(OptContext *ctx, TCGOp *op)
- #define tcg_gen_vec_add8_tl  tcg_gen_vec_add8_i64
+ {
- #define tcg_gen_vec_sub8_tl  tcg_gen_vec_sub8_i64
+     if (fold_const2_commutative(ctx, op) ||
- #define tcg_gen_vec_add16_tl tcg_gen_vec_add16_i64
+@@ -XXX,XX +XXX,XX @@ static bool fold_andc(OptContext *ctx, TCGOp *op)
- #define tcg_gen_vec_sub16_tl tcg_gen_vec_sub16_i64
+     return fold_masks_zs(ctx, op, z_mask, s_mask);
 +#define tcg_gen_vec_shl16i_tl tcg_gen_vec_shl16i_i64
 +#define tcg_gen_vec_shr16i_tl tcg_gen_vec_shr16i_i64
 +#define tcg_gen_vec_sar16i_tl tcg_gen_vec_sar16i_i64
  #else
  #define tcg_gen_vec_add8_tl  tcg_gen_vec_add8_i32
  #define tcg_gen_vec_sub8_tl  tcg_gen_vec_sub8_i32
  #define tcg_gen_vec_add16_tl tcg_gen_vec_add16_i32
  #define tcg_gen_vec_sub16_tl tcg_gen_vec_sub16_i32
 +#define tcg_gen_vec_shl16i_tl tcg_gen_vec_shl16i_i32
 +#define tcg_gen_vec_shr16i_tl tcg_gen_vec_shr16i_i32
 +#define tcg_gen_vec_sar16i_tl tcg_gen_vec_sar16i_i32
  #endif
  #endif
 diff --git a/tcg/tcg-op-gvec.c b/tcg/tcg-op-gvec.c
 index XXXXXXX..XXXXXXX 100644
 --- a/tcg/tcg-op-gvec.c
 +++ b/tcg/tcg-op-gvec.c
@@ -XXX,XX +XXX,XX @@ void tcg_gen_vec_shl16i_i64(TCGv_i64 d, TCGv_i64 a, int64_t c)
      tcg_gen_andi_i64(d, d, mask);
  }
-+void tcg_gen_vec_shl16i_i32(TCGv_i32 d, TCGv_i32 a, int32_t c)
++static bool fold_bitsel_vec(OptContext *ctx, TCGOp *op)
 +{
-+    uint32_t mask = dup_const(MO_16, 0xffff << c);
++    /* If true and false values are the same, eliminate the cmp. */
-+    tcg_gen_shli_i32(d, a, c);
++    if (args_are_copies(op->args[2], op->args[3])) {
-+    tcg_gen_andi_i32(d, d, mask);
++        return tcg_opt_gen_mov(ctx, op, op->args[0], op->args[2]);
 +    }
 +
 +    if (arg_is_const(op->args[2]) && arg_is_const(op->args[3])) {
 +        uint64_t tv = arg_info(op->args[2])->val;
 +        uint64_t fv = arg_info(op->args[3])->val;
 +
 +        if (tv == -1 && fv == 0) {
 +            return tcg_opt_gen_mov(ctx, op, op->args[0], op->args[1]);
 +        }
 +        if (tv == 0 && fv == -1) {
 +            if (TCG_TARGET_HAS_not_vec) {
 +                op->opc = INDEX_op_not_vec;
 +                return fold_not(ctx, op);
 +            } else {
 +                op->opc = INDEX_op_xor_vec;
 +                op->args[2] = arg_new_constant(ctx, -1);
 +                return fold_xor(ctx, op);
 +            }
 +        }
 +    }
 +    if (arg_is_const(op->args[2])) {
 +        uint64_t tv = arg_info(op->args[2])->val;
 +        if (tv == -1) {
 +            op->opc = INDEX_op_or_vec;
 +            op->args[2] = op->args[3];
 +            return fold_or(ctx, op);
 +        }
 +        if (tv == 0 && TCG_TARGET_HAS_andc_vec) {
 +            op->opc = INDEX_op_andc_vec;
 +            op->args[2] = op->args[1];
 +            op->args[1] = op->args[3];
 +            return fold_andc(ctx, op);
 +        }
 +    }
 +    if (arg_is_const(op->args[3])) {
 +        uint64_t fv = arg_info(op->args[3])->val;
 +        if (fv == 0) {
 +            op->opc = INDEX_op_and_vec;
 +            return fold_and(ctx, op);
 +        }
 +        if (fv == -1 && TCG_TARGET_HAS_orc_vec) {
 +            op->opc = INDEX_op_orc_vec;
 +            op->args[2] = op->args[1];
 +            op->args[1] = op->args[3];
 +            return fold_orc(ctx, op);
 +        }
 +    }
 +    return finish_folding(ctx, op);
 +}
 +
- void tcg_gen_gvec_shli(unsigned vece, uint32_t dofs, uint32_t aofs,
+ static bool fold_brcond(OptContext *ctx, TCGOp *op)
                         int64_t shift, uint32_t oprsz, uint32_t maxsz)
  {
-@@ -XXX,XX +XXX,XX @@ void tcg_gen_vec_shr16i_i64(TCGv_i64 d, TCGv_i64 a, int64_t c)
+     int i = do_constant_folding_cond1(ctx, op, NO_DEST, &op->args[0],
-     tcg_gen_andi_i64(d, d, mask);
+@@ -XXX,XX +XXX,XX @@ static bool fold_xor(OptContext *ctx, TCGOp *op)
      return fold_masks_zs(ctx, op, z_mask, s_mask);
  }
-+void tcg_gen_vec_shr16i_i32(TCGv_i32 d, TCGv_i32 a, int32_t c)
+-static bool fold_bitsel_vec(OptContext *ctx, TCGOp *op)
-+{
+-{
-+    uint32_t mask = dup_const(MO_16, 0xffff >> c);
+-    /* If true and false values are the same, eliminate the cmp. */
-+    tcg_gen_shri_i32(d, a, c);
+-    if (args_are_copies(op->args[2], op->args[3])) {
-+    tcg_gen_andi_i32(d, d, mask);
+-        return tcg_opt_gen_mov(ctx, op, op->args[0], op->args[2]);
-+}
+-    }
-+
+-
- void tcg_gen_gvec_shri(unsigned vece, uint32_t dofs, uint32_t aofs,
+-    if (arg_is_const(op->args[2]) && arg_is_const(op->args[3])) {
-                        int64_t shift, uint32_t oprsz, uint32_t maxsz)
+-        uint64_t tv = arg_info(op->args[2])->val;
- {
+-        uint64_t fv = arg_info(op->args[3])->val;
-@@ -XXX,XX +XXX,XX @@ void tcg_gen_vec_sar16i_i64(TCGv_i64 d, TCGv_i64 a, int64_t c)
+-
-     tcg_temp_free_i64(s);
+-        if (tv == -1 && fv == 0) {
- }
+-            return tcg_opt_gen_mov(ctx, op, op->args[0], op->args[1]);
+-        }
-+void tcg_gen_vec_sar16i_i32(TCGv_i32 d, TCGv_i32 a, int32_t c)
+-        if (tv == 0 && fv == -1) {
-+{
+-            if (TCG_TARGET_HAS_not_vec) {
-+    uint32_t s_mask = dup_const(MO_16, 0x8000 >> c);
+-                op->opc = INDEX_op_not_vec;
-+    uint32_t c_mask = dup_const(MO_16, 0xffff >> c);
+-                return fold_not(ctx, op);
-+    TCGv_i32 s = tcg_temp_new_i32();
+-            } else {
-+
+-                op->opc = INDEX_op_xor_vec;
-+    tcg_gen_shri_i32(d, a, c);
+-                op->args[2] = arg_new_constant(ctx, -1);
-+    tcg_gen_andi_i32(s, d, s_mask);  /* isolate (shifted) sign bit */
+-                return fold_xor(ctx, op);
-+    tcg_gen_andi_i32(d, d, c_mask);  /* clear out bits above sign  */
+-            }
-+    tcg_gen_muli_i32(s, s, (2 << c) - 2); /* replicate isolated signs */
+-        }
-+    tcg_gen_or_i32(d, d, s);         /* include sign extension */
+-    }
-+    tcg_temp_free_i32(s);
+-    if (arg_is_const(op->args[2])) {
-+}
+-        uint64_t tv = arg_info(op->args[2])->val;
-+
+-        if (tv == -1) {
- void tcg_gen_gvec_sari(unsigned vece, uint32_t dofs, uint32_t aofs,
+-            op->opc = INDEX_op_or_vec;
-                        int64_t shift, uint32_t oprsz, uint32_t maxsz)
+-            op->args[2] = op->args[3];
 -            return fold_or(ctx, op);
 -        }
 -        if (tv == 0 && TCG_TARGET_HAS_andc_vec) {
 -            op->opc = INDEX_op_andc_vec;
 -            op->args[2] = op->args[1];
 -            op->args[1] = op->args[3];
 -            return fold_andc(ctx, op);
 -        }
 -    }
 -    if (arg_is_const(op->args[3])) {
 -        uint64_t fv = arg_info(op->args[3])->val;
 -        if (fv == 0) {
 -            op->opc = INDEX_op_and_vec;
 -            return fold_and(ctx, op);
 -        }
 -        if (fv == -1 && TCG_TARGET_HAS_orc_vec) {
 -            op->opc = INDEX_op_orc_vec;
 -            op->args[2] = op->args[1];
 -            op->args[1] = op->args[3];
 -            return fold_orc(ctx, op);
 -        }
 -    }
 -    return finish_folding(ctx, op);
 -}
 -
  /* Propagate constants and copies, fold constant expressions. */
  void tcg_optimize(TCGContext *s)
  {
 --
-.25.1
+.43.0

-[PULL 32/63] tcg: Add tcg_gen_vec_shl{shr}{sar}8i_i32
+[PULL 54/72] tcg/optimize: Move fold_cmp_vec, fold_cmpsel_vec into alphabetic sort
-From: LIU Zhiwei <zhiwei_liu@c-sky.com>
+The big comment just above says functions should be sorted.
-Implement tcg_gen_vec_shl{shr}{sar}8i_tl by adding corresponging i32 OP.
+Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
 Signed-off-by: LIU Zhiwei <zhiwei_liu@c-sky.com>
 Message-Id: <20210624105023.3852-5-zhiwei_liu@c-sky.com>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- include/tcg/tcg-op-gvec.h | 10 ++++++++++
+ tcg/optimize.c | 60 +++++++++++++++++++++++++-------------------------
- tcg/tcg-op-gvec.c         | 28 ++++++++++++++++++++++++++++
+file changed, 30 insertions(+), 30 deletions(-)
 files changed, 38 insertions(+)
-diff --git a/include/tcg/tcg-op-gvec.h b/include/tcg/tcg-op-gvec.h
+diff --git a/tcg/optimize.c b/tcg/optimize.c
 index XXXXXXX..XXXXXXX 100644
---- a/include/tcg/tcg-op-gvec.h
+--- a/tcg/optimize.c
-+++ b/include/tcg/tcg-op-gvec.h
++++ b/tcg/optimize.c
-@@ -XXX,XX +XXX,XX @@ void tcg_gen_vec_add16_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b);
+@@ -XXX,XX +XXX,XX @@ static bool fold_call(OptContext *ctx, TCGOp *op)
- void tcg_gen_vec_sub8_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b);
+     return true;
  void tcg_gen_vec_sub16_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b);
 +void tcg_gen_vec_shl8i_i32(TCGv_i32 d, TCGv_i32 a, int32_t);
  void tcg_gen_vec_shl16i_i32(TCGv_i32 d, TCGv_i32 a, int32_t);
 +void tcg_gen_vec_shr8i_i32(TCGv_i32 d, TCGv_i32 a, int32_t);
  void tcg_gen_vec_shr16i_i32(TCGv_i32 d, TCGv_i32 a, int32_t);
 +void tcg_gen_vec_sar8i_i32(TCGv_i32 d, TCGv_i32 a, int32_t);
  void tcg_gen_vec_sar16i_i32(TCGv_i32 d, TCGv_i32 a, int32_t);
  #if TARGET_LONG_BITS == 64
@@ -XXX,XX +XXX,XX @@ void tcg_gen_vec_sar16i_i32(TCGv_i32 d, TCGv_i32 a, int32_t);
  #define tcg_gen_vec_sub8_tl  tcg_gen_vec_sub8_i64
  #define tcg_gen_vec_add16_tl tcg_gen_vec_add16_i64
  #define tcg_gen_vec_sub16_tl tcg_gen_vec_sub16_i64
 +#define tcg_gen_vec_shl8i_tl tcg_gen_vec_shl8i_i64
 +#define tcg_gen_vec_shr8i_tl tcg_gen_vec_shr8i_i64
 +#define tcg_gen_vec_sar8i_tl tcg_gen_vec_sar8i_i64
  #define tcg_gen_vec_shl16i_tl tcg_gen_vec_shl16i_i64
  #define tcg_gen_vec_shr16i_tl tcg_gen_vec_shr16i_i64
  #define tcg_gen_vec_sar16i_tl tcg_gen_vec_sar16i_i64
 +
  #else
  #define tcg_gen_vec_add8_tl  tcg_gen_vec_add8_i32
  #define tcg_gen_vec_sub8_tl  tcg_gen_vec_sub8_i32
  #define tcg_gen_vec_add16_tl tcg_gen_vec_add16_i32
  #define tcg_gen_vec_sub16_tl tcg_gen_vec_sub16_i32
 +#define tcg_gen_vec_shl8i_tl tcg_gen_vec_shl8i_i32
 +#define tcg_gen_vec_shr8i_tl tcg_gen_vec_shr8i_i32
 +#define tcg_gen_vec_sar8i_tl tcg_gen_vec_sar8i_i32
  #define tcg_gen_vec_shl16i_tl tcg_gen_vec_shl16i_i32
  #define tcg_gen_vec_shr16i_tl tcg_gen_vec_shr16i_i32
  #define tcg_gen_vec_sar16i_tl tcg_gen_vec_sar16i_i32
 diff --git a/tcg/tcg-op-gvec.c b/tcg/tcg-op-gvec.c
 index XXXXXXX..XXXXXXX 100644
 --- a/tcg/tcg-op-gvec.c
 +++ b/tcg/tcg-op-gvec.c
@@ -XXX,XX +XXX,XX @@ void tcg_gen_vec_shl16i_i64(TCGv_i64 d, TCGv_i64 a, int64_t c)
      tcg_gen_andi_i64(d, d, mask);
  }
-+void tcg_gen_vec_shl8i_i32(TCGv_i32 d, TCGv_i32 a, int32_t c)
++static bool fold_cmp_vec(OptContext *ctx, TCGOp *op)
 +{
-+    uint32_t mask = dup_const(MO_8, 0xff << c);
++    /* Canonicalize the comparison to put immediate second. */
-+    tcg_gen_shli_i32(d, a, c);
++    if (swap_commutative(NO_DEST, &op->args[1], &op->args[2])) {
-+    tcg_gen_andi_i32(d, d, mask);
++        op->args[3] = tcg_swap_cond(op->args[3]);
 +    }
 +    return finish_folding(ctx, op);
 +}
 +
- void tcg_gen_vec_shl16i_i32(TCGv_i32 d, TCGv_i32 a, int32_t c)
++static bool fold_cmpsel_vec(OptContext *ctx, TCGOp *op)
  {
      uint32_t mask = dup_const(MO_16, 0xffff << c);
@@ -XXX,XX +XXX,XX @@ void tcg_gen_vec_shr16i_i64(TCGv_i64 d, TCGv_i64 a, int64_t c)
      tcg_gen_andi_i64(d, d, mask);
  }
 +void tcg_gen_vec_shr8i_i32(TCGv_i32 d, TCGv_i32 a, int32_t c)
 +{
-+    uint32_t mask = dup_const(MO_8, 0xff >> c);
++    /* If true and false values are the same, eliminate the cmp. */
-+    tcg_gen_shri_i32(d, a, c);
++    if (args_are_copies(op->args[3], op->args[4])) {
-+    tcg_gen_andi_i32(d, d, mask);
++        return tcg_opt_gen_mov(ctx, op, op->args[0], op->args[3]);
 +    }
 +
 +    /* Canonicalize the comparison to put immediate second. */
 +    if (swap_commutative(NO_DEST, &op->args[1], &op->args[2])) {
 +        op->args[5] = tcg_swap_cond(op->args[5]);
 +    }
 +    /*
 +     * Canonicalize the "false" input reg to match the destination,
 +     * so that the tcg backend can implement "move if true".
 +     */
 +    if (swap_commutative(op->args[0], &op->args[4], &op->args[3])) {
 +        op->args[5] = tcg_invert_cond(op->args[5]);
 +    }
 +    return finish_folding(ctx, op);
 +}
 +
- void tcg_gen_vec_shr16i_i32(TCGv_i32 d, TCGv_i32 a, int32_t c)
+ static bool fold_count_zeros(OptContext *ctx, TCGOp *op)
  {
-     uint32_t mask = dup_const(MO_16, 0xffff >> c);
+     uint64_t z_mask, s_mask;
-@@ -XXX,XX +XXX,XX @@ void tcg_gen_vec_sar16i_i64(TCGv_i64 d, TCGv_i64 a, int64_t c)
+@@ -XXX,XX +XXX,XX @@ static bool fold_setcond2(OptContext *ctx, TCGOp *op)
-     tcg_temp_free_i64(s);
+     return tcg_opt_gen_movi(ctx, op, op->args[0], i);
  }
-+void tcg_gen_vec_sar8i_i32(TCGv_i32 d, TCGv_i32 a, int32_t c)
+-static bool fold_cmp_vec(OptContext *ctx, TCGOp *op)
-+{
+-{
-+    uint32_t s_mask = dup_const(MO_8, 0x80 >> c);
+-    /* Canonicalize the comparison to put immediate second. */
-+    uint32_t c_mask = dup_const(MO_8, 0xff >> c);
+-    if (swap_commutative(NO_DEST, &op->args[1], &op->args[2])) {
-+    TCGv_i32 s = tcg_temp_new_i32();
+-        op->args[3] = tcg_swap_cond(op->args[3]);
-+
+-    }
-+    tcg_gen_shri_i32(d, a, c);
+-    return finish_folding(ctx, op);
-+    tcg_gen_andi_i32(s, d, s_mask);  /* isolate (shifted) sign bit */
+-}
-+    tcg_gen_muli_i32(s, s, (2 << c) - 2); /* replicate isolated signs */
+-
-+    tcg_gen_andi_i32(d, d, c_mask);  /* clear out bits above sign  */
+-static bool fold_cmpsel_vec(OptContext *ctx, TCGOp *op)
-+    tcg_gen_or_i32(d, d, s);         /* include sign extension */
+-{
-+    tcg_temp_free_i32(s);
+-    /* If true and false values are the same, eliminate the cmp. */
-+}
+-    if (args_are_copies(op->args[3], op->args[4])) {
-+
+-        return tcg_opt_gen_mov(ctx, op, op->args[0], op->args[3]);
- void tcg_gen_vec_sar16i_i32(TCGv_i32 d, TCGv_i32 a, int32_t c)
+-    }
 -
 -    /* Canonicalize the comparison to put immediate second. */
 -    if (swap_commutative(NO_DEST, &op->args[1], &op->args[2])) {
 -        op->args[5] = tcg_swap_cond(op->args[5]);
 -    }
 -    /*
 -     * Canonicalize the "false" input reg to match the destination,
 -     * so that the tcg backend can implement "move if true".
 -     */
 -    if (swap_commutative(op->args[0], &op->args[4], &op->args[3])) {
 -        op->args[5] = tcg_invert_cond(op->args[5]);
 -    }
 -    return finish_folding(ctx, op);
 -}
 -
  static bool fold_sextract(OptContext *ctx, TCGOp *op)
  {
-     uint32_t s_mask = dup_const(MO_16, 0x8000 >> c);
+     uint64_t z_mask, s_mask, s_mask_old;
 --
-.25.1
+.43.0

-[PULL 18/63] target/cris: Convert to TranslatorOps
+[PULL 55/72] softfloat: Add float{16,32,64}_muladd_scalbn
-Reviewed-by: Edgar E. Iglesias <edgar.iglesias@xilinx.com>
+We currently have a flag, float_muladd_halve_result, to scale
-Tested-by: Edgar E. Iglesias <edgar.iglesias@xilinx.com>
+the result by 2**-1.  Extend this to handle arbitrary scaling.
 Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- target/cris/translate.c | 317 ++++++++++++++++++++++------------------
+ include/fpu/softfloat.h   |  6 ++++
-file changed, 174 insertions(+), 143 deletions(-)
+ fpu/softfloat.c           | 58 ++++++++++++++++++++++-----------------
+ fpu/softfloat-parts.c.inc |  7 +++--
-diff --git a/target/cris/translate.c b/target/cris/translate.c
+files changed, 44 insertions(+), 27 deletions(-)
 diff --git a/include/fpu/softfloat.h b/include/fpu/softfloat.h
 index XXXXXXX..XXXXXXX 100644
---- a/target/cris/translate.c
+--- a/include/fpu/softfloat.h
-+++ b/target/cris/translate.c
++++ b/include/fpu/softfloat.h
-@@ -XXX,XX +XXX,XX @@ static unsigned int crisv32_decoder(CPUCRISState *env, DisasContext *dc)
+@@ -XXX,XX +XXX,XX @@ float16 float16_add(float16, float16, float_status *status);
-  *
+ float16 float16_sub(float16, float16, float_status *status);
  float16 float16_mul(float16, float16, float_status *status);
  float16 float16_muladd(float16, float16, float16, int, float_status *status);
 +float16 float16_muladd_scalbn(float16, float16, float16,
 +                              int, int, float_status *status);
  float16 float16_div(float16, float16, float_status *status);
  float16 float16_scalbn(float16, int, float_status *status);
  float16 float16_min(float16, float16, float_status *status);
@@ -XXX,XX +XXX,XX @@ float32 float32_mul(float32, float32, float_status *status);
  float32 float32_div(float32, float32, float_status *status);
  float32 float32_rem(float32, float32, float_status *status);
  float32 float32_muladd(float32, float32, float32, int, float_status *status);
 +float32 float32_muladd_scalbn(float32, float32, float32,
 +                              int, int, float_status *status);
  float32 float32_sqrt(float32, float_status *status);
  float32 float32_exp2(float32, float_status *status);
  float32 float32_log2(float32, float_status *status);
@@ -XXX,XX +XXX,XX @@ float64 float64_mul(float64, float64, float_status *status);
  float64 float64_div(float64, float64, float_status *status);
  float64 float64_rem(float64, float64, float_status *status);
  float64 float64_muladd(float64, float64, float64, int, float_status *status);
 +float64 float64_muladd_scalbn(float64, float64, float64,
 +                              int, int, float_status *status);
  float64 float64_sqrt(float64, float_status *status);
  float64 float64_log2(float64, float_status *status);
  FloatRelation float64_compare(float64, float64, float_status *status);
 diff --git a/fpu/softfloat.c b/fpu/softfloat.c
 index XXXXXXX..XXXXXXX 100644
 --- a/fpu/softfloat.c
 +++ b/fpu/softfloat.c
@@ -XXX,XX +XXX,XX @@ static FloatParts128 *parts128_mul(FloatParts128 *a, FloatParts128 *b,
  #define parts_mul(A, B, S) \
      PARTS_GENERIC_64_128(mul, A)(A, B, S)
 -static FloatParts64 *parts64_muladd(FloatParts64 *a, FloatParts64 *b,
 -                                    FloatParts64 *c, int flags,
 -                                    float_status *s);
 -static FloatParts128 *parts128_muladd(FloatParts128 *a, FloatParts128 *b,
 -                                      FloatParts128 *c, int flags,
 -                                      float_status *s);
 +static FloatParts64 *parts64_muladd_scalbn(FloatParts64 *a, FloatParts64 *b,
 +                                           FloatParts64 *c, int scale,
 +                                           int flags, float_status *s);
 +static FloatParts128 *parts128_muladd_scalbn(FloatParts128 *a, FloatParts128 *b,
 +                                             FloatParts128 *c, int scale,
 +                                             int flags, float_status *s);
 -#define parts_muladd(A, B, C, Z, S) \
 -    PARTS_GENERIC_64_128(muladd, A)(A, B, C, Z, S)
 +#define parts_muladd_scalbn(A, B, C, Z, Y, S) \
 +    PARTS_GENERIC_64_128(muladd_scalbn, A)(A, B, C, Z, Y, S)
  static FloatParts64 *parts64_div(FloatParts64 *a, FloatParts64 *b,
                                   float_status *s);
@@ -XXX,XX +XXX,XX @@ floatx80_mul(floatx80 a, floatx80 b, float_status *status)
   * Fused multiply-add
   */
--/* generate intermediate code for basic block 'tb'.  */
+-float16 QEMU_FLATTEN float16_muladd(float16 a, float16 b, float16 c,
--void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int max_insns)
+-                                    int flags, float_status *status)
-+static void cris_tr_init_disas_context(DisasContextBase *dcbase, CPUState *cs)
++float16 QEMU_FLATTEN
- {
++float16_muladd_scalbn(float16 a, float16 b, float16 c,
-+    DisasContext *dc = container_of(dcbase, DisasContext, base);
++                      int scale, int flags, float_status *status)
-     CPUCRISState *env = cs->env_ptr;
+ {
-+    uint32_t tb_flags = dc->base.tb->flags;
+     FloatParts64 pa, pb, pc, *pr;
-     uint32_t pc_start;
--    unsigned int insn_len;
+     float16_unpack_canonical(&pa, a, status);
--    struct DisasContext ctx;
+     float16_unpack_canonical(&pb, b, status);
--    struct DisasContext *dc = &ctx;
+     float16_unpack_canonical(&pc, c, status);
--    uint32_t page_start;
+-    pr = parts_muladd(&pa, &pb, &pc, flags, status);
--    target_ulong npc;
++    pr = parts_muladd_scalbn(&pa, &pb, &pc, scale, flags, status);
--    int num_insns;
+     return float16_round_pack_canonical(pr, status);
-     if (env->pregs[PR_VR] == 32) {
+ }
-         dc->decoder = crisv32_decoder;
-@@ -XXX,XX +XXX,XX @@ void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int max_insns)
+-static float32 QEMU_SOFTFLOAT_ATTR
-         dc->clear_locked_irq = 1;
+-soft_f32_muladd(float32 a, float32 b, float32 c, int flags,
-     }
+-                float_status *status)
++float16 float16_muladd(float16 a, float16 b, float16 c,
--    /* Odd PC indicates that branch is rexecuting due to exception in the
++                       int flags, float_status *status)
 +    /*
 +     * Odd PC indicates that branch is rexecuting due to exception in the
       * delayslot, like in real hw.
       */
 -    pc_start = tb->pc & ~1;
 -
 -    dc->base.tb = tb;
 +    pc_start = dc->base.pc_first & ~1;
      dc->base.pc_first = pc_start;
      dc->base.pc_next = pc_start;
 -    dc->base.is_jmp = DISAS_NEXT;
 -    dc->base.singlestep_enabled = cs->singlestep_enabled;
      dc->cpu = env_archcpu(env);
      dc->ppc = pc_start;
      dc->pc = pc_start;
      dc->flags_uptodate = 1;
      dc->flagx_known = 1;
 -    dc->flags_x = tb->flags & X_FLAG;
 +    dc->flags_x = tb_flags & X_FLAG;
      dc->cc_x_uptodate = 0;
      dc->cc_mask = 0;
      dc->update_cc = 0;
      dc->clear_prefix = 0;
 +    dc->cpustate_changed = 0;
      cris_update_cc_op(dc, CC_OP_FLAGS, 4);
      dc->cc_size_uptodate = -1;
      /* Decode TB flags.  */
 -    dc->tb_flags = tb->flags & (S_FLAG | P_FLAG | U_FLAG \
 -            | X_FLAG | PFIX_FLAG);
 -    dc->delayed_branch = !!(tb->flags & 7);
 +    dc->tb_flags = tb_flags & (S_FLAG | P_FLAG | U_FLAG | X_FLAG | PFIX_FLAG);
 +    dc->delayed_branch = !!(tb_flags & 7);
      if (dc->delayed_branch) {
          dc->jmp = JMP_INDIRECT;
      } else {
          dc->jmp = JMP_NOJMP;
      }
 +}
 -    dc->cpustate_changed = 0;
 +static void cris_tr_tb_start(DisasContextBase *db, CPUState *cpu)
 +{
-+}
++    return float16_muladd_scalbn(a, b, c, 0, flags, status);
 -    page_start = pc_start & TARGET_PAGE_MASK;
 -    num_insns = 0;
 +static void cris_tr_insn_start(DisasContextBase *dcbase, CPUState *cpu)
 +{
 +    DisasContext *dc = container_of(dcbase, DisasContext, base);
 -    gen_tb_start(tb);
 -    do {
 -        tcg_gen_insn_start(dc->delayed_branch == 1
 -                           ? dc->ppc | 1 : dc->pc);
 -        num_insns++;
 +    tcg_gen_insn_start(dc->delayed_branch == 1 ? dc->ppc | 1 : dc->pc);
 +}
 -        if (unlikely(cpu_breakpoint_test(cs, dc->pc, BP_ANY))) {
 +static bool cris_tr_breakpoint_check(DisasContextBase *dcbase, CPUState *cpu,
 +                                     const CPUBreakpoint *bp)
 +{
 +    DisasContext *dc = container_of(dcbase, DisasContext, base);
 +
 +    cris_evaluate_flags(dc);
 +    tcg_gen_movi_tl(env_pc, dc->pc);
 +    t_gen_raise_exception(EXCP_DEBUG);
 +    dc->base.is_jmp = DISAS_NORETURN;
 +    /*
 +     * The address covered by the breakpoint must be included in
 +     * [tb->pc, tb->pc + tb->size) in order to for it to be
 +     * properly cleared -- thus we increment the PC here so that
 +     * the logic setting tb->size below does the right thing.
 +     */
 +    dc->pc += 2;
 +    return true;
 +}
 +
-+static void cris_tr_translate_insn(DisasContextBase *dcbase, CPUState *cs)
++float32 QEMU_SOFTFLOAT_ATTR
-+{
++float32_muladd_scalbn(float32 a, float32 b, float32 c,
-+    DisasContext *dc = container_of(dcbase, DisasContext, base);
++                      int scale, int flags, float_status *status)
-+    CPUCRISState *env = cs->env_ptr;
+ {
-+    unsigned int insn_len;
+     FloatParts64 pa, pb, pc, *pr;
      float32_unpack_canonical(&pa, a, status);
      float32_unpack_canonical(&pb, b, status);
      float32_unpack_canonical(&pc, c, status);
 -    pr = parts_muladd(&pa, &pb, &pc, flags, status);
 +    pr = parts_muladd_scalbn(&pa, &pb, &pc, scale, flags, status);
      return float32_round_pack_canonical(pr, status);
  }
 -static float64 QEMU_SOFTFLOAT_ATTR
 -soft_f64_muladd(float64 a, float64 b, float64 c, int flags,
 -                float_status *status)
 +float64 QEMU_SOFTFLOAT_ATTR
 +float64_muladd_scalbn(float64 a, float64 b, float64 c,
 +                      int scale, int flags, float_status *status)
  {
      FloatParts64 pa, pb, pc, *pr;
      float64_unpack_canonical(&pa, a, status);
      float64_unpack_canonical(&pb, b, status);
      float64_unpack_canonical(&pc, c, status);
 -    pr = parts_muladd(&pa, &pb, &pc, flags, status);
 +    pr = parts_muladd_scalbn(&pa, &pb, &pc, scale, flags, status);
      return float64_round_pack_canonical(pr, status);
  }
@@ -XXX,XX +XXX,XX @@ float32_muladd(float32 xa, float32 xb, float32 xc, int flags, float_status *s)
      return ur.s;
   soft:
 -    return soft_f32_muladd(ua.s, ub.s, uc.s, flags, s);
 +    return float32_muladd_scalbn(ua.s, ub.s, uc.s, 0, flags, s);
  }
  float64 QEMU_FLATTEN
@@ -XXX,XX +XXX,XX @@ float64_muladd(float64 xa, float64 xb, float64 xc, int flags, float_status *s)
      return ur.s;
   soft:
 -    return soft_f64_muladd(ua.s, ub.s, uc.s, flags, s);
 +    return float64_muladd_scalbn(ua.s, ub.s, uc.s, 0, flags, s);
  }
  float64 float64r32_muladd(float64 a, float64 b, float64 c,
@@ -XXX,XX +XXX,XX @@ float64 float64r32_muladd(float64 a, float64 b, float64 c,
      float64_unpack_canonical(&pa, a, status);
      float64_unpack_canonical(&pb, b, status);
      float64_unpack_canonical(&pc, c, status);
 -    pr = parts_muladd(&pa, &pb, &pc, flags, status);
 +    pr = parts_muladd_scalbn(&pa, &pb, &pc, 0, flags, status);
      return float64r32_round_pack_canonical(pr, status);
  }
@@ -XXX,XX +XXX,XX @@ bfloat16 QEMU_FLATTEN bfloat16_muladd(bfloat16 a, bfloat16 b, bfloat16 c,
      bfloat16_unpack_canonical(&pa, a, status);
      bfloat16_unpack_canonical(&pb, b, status);
      bfloat16_unpack_canonical(&pc, c, status);
 -    pr = parts_muladd(&pa, &pb, &pc, flags, status);
 +    pr = parts_muladd_scalbn(&pa, &pb, &pc, 0, flags, status);
      return bfloat16_round_pack_canonical(pr, status);
  }
@@ -XXX,XX +XXX,XX @@ float128 QEMU_FLATTEN float128_muladd(float128 a, float128 b, float128 c,
      float128_unpack_canonical(&pa, a, status);
      float128_unpack_canonical(&pb, b, status);
      float128_unpack_canonical(&pc, c, status);
 -    pr = parts_muladd(&pa, &pb, &pc, flags, status);
 +    pr = parts_muladd_scalbn(&pa, &pb, &pc, 0, flags, status);
      return float128_round_pack_canonical(pr, status);
  }
@@ -XXX,XX +XXX,XX @@ float32 float32_exp2(float32 a, float_status *status)
      float64_unpack_canonical(&rp, float64_one, status);
      for (i = 0 ; i < 15 ; i++) {
 +
-+    /* Pretty disas.  */
+         float64_unpack_canonical(&tp, float32_exp2_coefficients[i], status);
-+    LOG_DIS("%8.8x:\t", dc->pc);
+-        rp = *parts_muladd(&tp, &xnp, &rp, 0, status);
-+
++        rp = *parts_muladd_scalbn(&tp, &xnp, &rp, 0, 0, status);
-+    dc->clear_x = 1;
+         xnp = *parts_mul(&xnp, &xp, status);
 +
 +    insn_len = dc->decoder(env, dc);
 +    dc->ppc = dc->pc;
 +    dc->pc += insn_len;
 +    dc->base.pc_next += insn_len;
 +
 +    if (dc->base.is_jmp == DISAS_NORETURN) {
 +        return;
 +    }
 +
 +    if (dc->clear_x) {
 +        cris_clear_x_flag(dc);
 +    }
 +
 +    /*
 +     * Check for delayed branches here.  If we do it before
 +     * actually generating any host code, the simulator will just
 +     * loop doing nothing for on this program location.
 +     */
 +    if (dc->delayed_branch && --dc->delayed_branch == 0) {
 +        if (dc->base.tb->flags & 7) {
 +            t_gen_movi_env_TN(dslot, 0);
 +        }
 +
 +        if (dc->cpustate_changed
 +            || !dc->flagx_known
 +            || (dc->flags_x != (dc->base.tb->flags & X_FLAG))) {
 +            cris_store_direct_jmp(dc);
 +        }
 +
 +        if (dc->clear_locked_irq) {
 +            dc->clear_locked_irq = 0;
 +            t_gen_movi_env_TN(locked_irq, 0);
 +        }
 +
 +        if (dc->jmp == JMP_DIRECT_CC) {
 +            TCGLabel *l1 = gen_new_label();
              cris_evaluate_flags(dc);
 -            tcg_gen_movi_tl(env_pc, dc->pc);
 -            t_gen_raise_exception(EXCP_DEBUG);
 +
 +            /* Conditional jmp.  */
 +            tcg_gen_brcondi_tl(TCG_COND_EQ, env_btaken, 0, l1);
 +            gen_goto_tb(dc, 1, dc->jmp_pc);
 +            gen_set_label(l1);
 +            gen_goto_tb(dc, 0, dc->pc);
              dc->base.is_jmp = DISAS_NORETURN;
 -            /* The address covered by the breakpoint must be included in
 -               [tb->pc, tb->pc + tb->size) in order to for it to be
 -               properly cleared -- thus we increment the PC here so that
 -               the logic setting tb->size below does the right thing.  */
 -            dc->pc += 2;
 -            break;
 +            dc->jmp = JMP_NOJMP;
 +        } else if (dc->jmp == JMP_DIRECT) {
 +            cris_evaluate_flags(dc);
 +            gen_goto_tb(dc, 0, dc->jmp_pc);
 +            dc->base.is_jmp = DISAS_NORETURN;
 +            dc->jmp = JMP_NOJMP;
 +        } else {
 +            TCGv c = tcg_const_tl(dc->pc);
 +            t_gen_cc_jmp(env_btarget, c);
 +            tcg_temp_free(c);
 +            dc->base.is_jmp = DISAS_JUMP;
          }
 +    }
 -        /* Pretty disas.  */
 -        LOG_DIS("%8.8x:\t", dc->pc);
 +    /* Force an update if the per-tb cpu state has changed.  */
 +    if (dc->base.is_jmp == DISAS_NEXT
 +        && (dc->cpustate_changed
 +            || !dc->flagx_known
 +            || (dc->flags_x != (dc->base.tb->flags & X_FLAG)))) {
 +        dc->base.is_jmp = DISAS_UPDATE;
 +        tcg_gen_movi_tl(env_pc, dc->pc);
 +    }
 -        if (num_insns == max_insns && (tb_cflags(tb) & CF_LAST_IO)) {
 -            gen_io_start();
 -        }
 -        dc->clear_x = 1;
 +    /*
 +     * FIXME: Only the first insn in the TB should cross a page boundary.
 +     * If we can detect the length of the next insn easily, we should.
 +     * In the meantime, simply stop when we do cross.
 +     */
 +    if (dc->base.is_jmp == DISAS_NEXT
 +        && ((dc->pc ^ dc->base.pc_first) & TARGET_PAGE_MASK) != 0) {
 +        dc->base.is_jmp = DISAS_TOO_MANY;
 +    }
 +}
 -        insn_len = dc->decoder(env, dc);
 -        dc->ppc = dc->pc;
 -        dc->pc += insn_len;
 -        if (dc->clear_x) {
 -            cris_clear_x_flag(dc);
 -        }
 +static void cris_tr_tb_stop(DisasContextBase *dcbase, CPUState *cpu)
 +{
 +    DisasContext *dc = container_of(dcbase, DisasContext, base);
 +    DisasJumpType is_jmp = dc->base.is_jmp;
 +    target_ulong npc = dc->pc;
 -        /* Check for delayed branches here. If we do it before
 -           actually generating any host code, the simulator will just
 -           loop doing nothing for on this program location.  */
 -        if (dc->delayed_branch) {
 -            dc->delayed_branch--;
 -            if (dc->delayed_branch == 0) {
 -                if (tb->flags & 7) {
 -                    t_gen_movi_env_TN(dslot, 0);
 -                }
 -                if (dc->cpustate_changed || !dc->flagx_known
 -                    || (dc->flags_x != (tb->flags & X_FLAG))) {
 -                    cris_store_direct_jmp(dc);
 -                }
 -
 -                if (dc->clear_locked_irq) {
 -                    dc->clear_locked_irq = 0;
 -                    t_gen_movi_env_TN(locked_irq, 0);
 -                }
 -
 -                if (dc->jmp == JMP_DIRECT_CC) {
 -                    TCGLabel *l1 = gen_new_label();
 -                    cris_evaluate_flags(dc);
 -
 -                    /* Conditional jmp.  */
 -                    tcg_gen_brcondi_tl(TCG_COND_EQ,
 -                               env_btaken, 0, l1);
 -                    gen_goto_tb(dc, 1, dc->jmp_pc);
 -                    gen_set_label(l1);
 -                    gen_goto_tb(dc, 0, dc->pc);
 -                    dc->base.is_jmp = DISAS_NORETURN;
 -                    dc->jmp = JMP_NOJMP;
 -                } else if (dc->jmp == JMP_DIRECT) {
 -                    cris_evaluate_flags(dc);
 -                    gen_goto_tb(dc, 0, dc->jmp_pc);
 -                    dc->base.is_jmp = DISAS_NORETURN;
 -                    dc->jmp = JMP_NOJMP;
 -                } else {
 -                    TCGv c = tcg_const_tl(dc->pc);
 -                    t_gen_cc_jmp(env_btarget, c);
 -                    tcg_temp_free(c);
 -                    dc->base.is_jmp = DISAS_JUMP;
 -                }
 -                break;
 -            }
 -        }
 -
 -        /* If we are rexecuting a branch due to exceptions on
 -           delay slots don't break.  */
 -        if (!(tb->pc & 1) && cs->singlestep_enabled) {
 -            break;
 -        }
 -    } while (!dc->base.is_jmp && !dc->cpustate_changed
 -            && !tcg_op_buf_full()
 -            && !singlestep
 -            && (dc->pc - page_start < TARGET_PAGE_SIZE)
 -            && num_insns < max_insns);
 +    if (is_jmp == DISAS_NORETURN) {
 +        /* If we have a broken branch+delayslot sequence, it's too late. */
 +        assert(dc->delayed_branch != 1);
 +        return;
 +    }
      if (dc->clear_locked_irq) {
          t_gen_movi_env_TN(locked_irq, 0);
      }
--    npc = dc->pc;
+diff --git a/fpu/softfloat-parts.c.inc b/fpu/softfloat-parts.c.inc
--
+index XXXXXXX..XXXXXXX 100644
--    /* Force an update if the per-tb cpu state has changed.  */
+--- a/fpu/softfloat-parts.c.inc
--    if (dc->base.is_jmp == DISAS_NEXT
++++ b/fpu/softfloat-parts.c.inc
--        && (dc->cpustate_changed || !dc->flagx_known
+@@ -XXX,XX +XXX,XX @@ static FloatPartsN *partsN(mul)(FloatPartsN *a, FloatPartsN *b,
--        || (dc->flags_x != (tb->flags & X_FLAG)))) {
+  * Requires A and C extracted into a double-sized structure to provide the
--        dc->base.is_jmp = DISAS_UPDATE;
+  * extra space for the widening multiply.
--        tcg_gen_movi_tl(env_pc, npc);
+  */
--    }
+-static FloatPartsN *partsN(muladd)(FloatPartsN *a, FloatPartsN *b,
-     /* Broken branch+delayslot sequence.  */
+-                                   FloatPartsN *c, int flags, float_status *s)
-     if (dc->delayed_branch == 1) {
++static FloatPartsN *partsN(muladd_scalbn)(FloatPartsN *a, FloatPartsN *b,
-         /* Set env->dslot to the size of the branch insn.  */
++                                          FloatPartsN *c, int scale,
-@@ -XXX,XX +XXX,XX @@ void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int max_insns)
++                                          int flags, float_status *s)
+ {
-     cris_evaluate_flags(dc);
+     int ab_mask, abc_mask;
+     FloatPartsW p_widen, c_widen;
--    if (unlikely(cs->singlestep_enabled)) {
+@@ -XXX,XX +XXX,XX @@ static FloatPartsN *partsN(muladd)(FloatPartsN *a, FloatPartsN *b,
--        if (dc->base.is_jmp == DISAS_NEXT) {
+     a->exp = p_widen.exp;
-+    if (unlikely(dc->base.singlestep_enabled)) {
-+        switch (is_jmp) {
+  return_normal:
-+        case DISAS_TOO_MANY:
++    /* TODO: Replace all use of float_muladd_halve_result with scale. */
-             tcg_gen_movi_tl(env_pc, npc);
+     if (flags & float_muladd_halve_result) {
--        }
+         a->exp -= 1;
 -        t_gen_raise_exception(EXCP_DEBUG);
 -    } else {
 -        switch (dc->base.is_jmp) {
 -        case DISAS_NEXT:
 -            gen_goto_tb(dc, 1, npc);
 -            break;
 -        default:
 +            /* fall through */
          case DISAS_JUMP:
          case DISAS_UPDATE:
 -            /* indicate that the hash table must be used
 -                   to find the next TB */
 -            tcg_gen_exit_tb(NULL, 0);
 -            break;
 -        case DISAS_NORETURN:
 -            /* nothing more to generate */
 +            t_gen_raise_exception(EXCP_DEBUG);
 +            return;
 +        default:
              break;
          }
 +        g_assert_not_reached();
      }
--    gen_tb_end(tb, num_insns);
++    a->exp += scale;
+  finish_sign:
--    tb->size = dc->pc - pc_start;
+     if (flags & float_muladd_negate_result) {
--    tb->icount = num_insns;
+         a->sign ^= 1;
 -
 -#ifdef DEBUG_DISAS
 -#if !DISAS_CRIS
 -    if (qemu_loglevel_mask(CPU_LOG_TB_IN_ASM)
 -        && qemu_log_in_addr_range(pc_start)) {
 -        FILE *logfile = qemu_log_lock();
 -        qemu_log("--------------\n");
 -        qemu_log("IN: %s\n", lookup_symbol(pc_start));
 -        log_target_disas(cs, pc_start, dc->pc - pc_start);
 -        qemu_log_unlock(logfile);
 +    switch (is_jmp) {
 +    case DISAS_TOO_MANY:
 +        gen_goto_tb(dc, 0, npc);
 +        break;
 +    case DISAS_JUMP:
 +    case DISAS_UPDATE:
 +        /* Indicate that interupts must be re-evaluated before the next TB. */
 +        tcg_gen_exit_tb(NULL, 0);
 +        break;
 +    default:
 +        g_assert_not_reached();
      }
 -#endif
 -#endif
 +}
 +
 +static void cris_tr_disas_log(const DisasContextBase *dcbase, CPUState *cpu)
 +{
 +    if (!DISAS_CRIS) {
 +        qemu_log("IN: %s\n", lookup_symbol(dcbase->pc_first));
 +        log_target_disas(cpu, dcbase->pc_first, dcbase->tb->size);
 +    }
 +}
 +
 +static const TranslatorOps cris_tr_ops = {
 +    .init_disas_context = cris_tr_init_disas_context,
 +    .tb_start           = cris_tr_tb_start,
 +    .insn_start         = cris_tr_insn_start,
 +    .breakpoint_check   = cris_tr_breakpoint_check,
 +    .translate_insn     = cris_tr_translate_insn,
 +    .tb_stop            = cris_tr_tb_stop,
 +    .disas_log          = cris_tr_disas_log,
 +};
 +
 +void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int max_insns)
 +{
 +    DisasContext dc;
 +    translator_loop(&cris_tr_ops, &dc.base, cs, tb, max_insns);
  }
  void cris_cpu_dump_state(CPUState *cs, FILE *f, int flags)
 --
-.25.1
+.43.0

-[PULL 01/63] target/nios2: Replace DISAS_TB_JUMP with DISAS_NORETURN
+[PULL 56/72] target/arm: Use float*_muladd_scalbn
-The only semantic of DISAS_TB_JUMP is that we've done goto_tb,
+Use the scalbn interface instead of float_muladd_halve_result.
 which is the same as DISAS_NORETURN -- we've exited the tb.
-Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
+Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- target/nios2/translate.c | 8 +++-----
+ target/arm/tcg/helper-a64.c | 6 +++---
-file changed, 3 insertions(+), 5 deletions(-)
+file changed, 3 insertions(+), 3 deletions(-)
-diff --git a/target/nios2/translate.c b/target/nios2/translate.c
+diff --git a/target/arm/tcg/helper-a64.c b/target/arm/tcg/helper-a64.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/nios2/translate.c
+--- a/target/arm/tcg/helper-a64.c
-+++ b/target/nios2/translate.c
++++ b/target/arm/tcg/helper-a64.c
-@@ -XXX,XX +XXX,XX @@
+@@ -XXX,XX +XXX,XX @@ uint32_t HELPER(rsqrtsf_f16)(uint32_t a, uint32_t b, float_status *fpst)
- /* is_jmp field values */
+         (float16_is_infinity(b) && float16_is_zero(a))) {
- #define DISAS_JUMP    DISAS_TARGET_0 /* only pc was modified dynamically */
+         return float16_one_point_five;
- #define DISAS_UPDATE  DISAS_TARGET_1 /* cpu state was modified dynamically */
+     }
--#define DISAS_TB_JUMP DISAS_TARGET_2 /* only pc was modified statically */
+-    return float16_muladd(a, b, float16_three, float_muladd_halve_result, fpst);
++    return float16_muladd_scalbn(a, b, float16_three, -1, 0, fpst);
  #define INSTRUCTION_FLG(func, flags) { (func), (flags) }
  #define INSTRUCTION(func)                  \
@@ -XXX,XX +XXX,XX @@ static void jmpi(DisasContext *dc, uint32_t code, uint32_t flags)
  {
      J_TYPE(instr, code);
      gen_goto_tb(dc, 0, (dc->pc & 0xF0000000) | (instr.imm26 << 2));
 -    dc->is_jmp = DISAS_TB_JUMP;
 +    dc->is_jmp = DISAS_NORETURN;
  }
- static void call(DisasContext *dc, uint32_t code, uint32_t flags)
+ float32 HELPER(rsqrtsf_f32)(float32 a, float32 b, float_status *fpst)
-@@ -XXX,XX +XXX,XX @@ static void br(DisasContext *dc, uint32_t code, uint32_t flags)
+@@ -XXX,XX +XXX,XX @@ float32 HELPER(rsqrtsf_f32)(float32 a, float32 b, float_status *fpst)
-     I_TYPE(instr, code);
+         (float32_is_infinity(b) && float32_is_zero(a))) {
+         return float32_one_point_five;
-     gen_goto_tb(dc, 0, dc->pc + 4 + (instr.imm16.s & -4));
+     }
--    dc->is_jmp = DISAS_TB_JUMP;
+-    return float32_muladd(a, b, float32_three, float_muladd_halve_result, fpst);
-+    dc->is_jmp = DISAS_NORETURN;
++    return float32_muladd_scalbn(a, b, float32_three, -1, 0, fpst);
  }
- static void gen_bxx(DisasContext *dc, uint32_t code, uint32_t flags)
+ float64 HELPER(rsqrtsf_f64)(float64 a, float64 b, float_status *fpst)
-@@ -XXX,XX +XXX,XX @@ static void gen_bxx(DisasContext *dc, uint32_t code, uint32_t flags)
+@@ -XXX,XX +XXX,XX @@ float64 HELPER(rsqrtsf_f64)(float64 a, float64 b, float_status *fpst)
-     gen_goto_tb(dc, 0, dc->pc + 4);
+         (float64_is_infinity(b) && float64_is_zero(a))) {
-     gen_set_label(l1);
+         return float64_one_point_five;
-     gen_goto_tb(dc, 1, dc->pc + 4 + (instr.imm16.s & -4));
+     }
--    dc->is_jmp = DISAS_TB_JUMP;
+-    return float64_muladd(a, b, float64_three, float_muladd_halve_result, fpst);
-+    dc->is_jmp = DISAS_NORETURN;
++    return float64_muladd_scalbn(a, b, float64_three, -1, 0, fpst);
  }
- /* Comparison instructions */
+ /* Floating-point reciprocal exponent - see FPRecpX in ARM ARM */
@@ -XXX,XX +XXX,XX @@ void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int max_insns)
          break;
      case DISAS_NORETURN:
 -    case DISAS_TB_JUMP:
          /* nothing more to generate */
          break;
      }
 --
-.25.1
+.43.0

-[PULL 50/63] tcg/tci: Support bswap flags
+[PULL 57/72] target/sparc: Use float*_muladd_scalbn
-The existing interpreter zero-extends, ignoring high bits.
+Use the scalbn interface instead of float_muladd_halve_result.
-Simply add a separate sign-extension opcode if required.
-Ensure that the interpreter supports ext16s when bswap16 is enabled.
+Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
 Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- tcg/tci.c                |  3 ++-
+ target/sparc/helper.h     |  4 +-
- tcg/tci/tcg-target.c.inc | 23 ++++++++++++++++++++---
+ target/sparc/fop_helper.c |  8 ++--
-files changed, 22 insertions(+), 4 deletions(-)
+ target/sparc/translate.c  | 80 +++++++++++++++++++++++----------------
+files changed, 54 insertions(+), 38 deletions(-)
-diff --git a/tcg/tci.c b/tcg/tci.c
 diff --git a/target/sparc/helper.h b/target/sparc/helper.h
 index XXXXXXX..XXXXXXX 100644
---- a/tcg/tci.c
+--- a/target/sparc/helper.h
-+++ b/tcg/tci.c
++++ b/target/sparc/helper.h
-@@ -XXX,XX +XXX,XX @@ uintptr_t QEMU_DISABLE_CFI tcg_qemu_tb_exec(CPUArchState *env,
+@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_3(faddd, TCG_CALL_NO_WG, f64, env, f64, f64)
-             regs[r0] = (int8_t)regs[r1];
+ DEF_HELPER_FLAGS_3(fsubd, TCG_CALL_NO_WG, f64, env, f64, f64)
-             break;
+ DEF_HELPER_FLAGS_3(fmuld, TCG_CALL_NO_WG, f64, env, f64, f64)
- #endif
+ DEF_HELPER_FLAGS_3(fdivd, TCG_CALL_NO_WG, f64, env, f64, f64)
--#if TCG_TARGET_HAS_ext16s_i32 || TCG_TARGET_HAS_ext16s_i64
+-DEF_HELPER_FLAGS_5(fmaddd, TCG_CALL_NO_WG, f64, env, f64, f64, f64, i32)
-+#if TCG_TARGET_HAS_ext16s_i32 || TCG_TARGET_HAS_ext16s_i64 || \
++DEF_HELPER_FLAGS_6(fmaddd, TCG_CALL_NO_WG, f64, env, f64, f64, f64, s32, i32)
-+    TCG_TARGET_HAS_bswap16_i32 || TCG_TARGET_HAS_bswap16_i64
+ DEF_HELPER_FLAGS_3(fnaddd, TCG_CALL_NO_WG, f64, env, f64, f64)
-         CASE_32_64(ext16s)
+ DEF_HELPER_FLAGS_3(fnmuld, TCG_CALL_NO_WG, f64, env, f64, f64)
-             tci_args_rr(insn, &r0, &r1);
-             regs[r0] = (int16_t)regs[r1];
+@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_3(fadds, TCG_CALL_NO_WG, f32, env, f32, f32)
-diff --git a/tcg/tci/tcg-target.c.inc b/tcg/tci/tcg-target.c.inc
+ DEF_HELPER_FLAGS_3(fsubs, TCG_CALL_NO_WG, f32, env, f32, f32)
  DEF_HELPER_FLAGS_3(fmuls, TCG_CALL_NO_WG, f32, env, f32, f32)
  DEF_HELPER_FLAGS_3(fdivs, TCG_CALL_NO_WG, f32, env, f32, f32)
 -DEF_HELPER_FLAGS_5(fmadds, TCG_CALL_NO_WG, f32, env, f32, f32, f32, i32)
 +DEF_HELPER_FLAGS_6(fmadds, TCG_CALL_NO_WG, f32, env, f32, f32, f32, s32, i32)
  DEF_HELPER_FLAGS_3(fnadds, TCG_CALL_NO_WG, f32, env, f32, f32)
  DEF_HELPER_FLAGS_3(fnmuls, TCG_CALL_NO_WG, f32, env, f32, f32)
 diff --git a/target/sparc/fop_helper.c b/target/sparc/fop_helper.c
 index XXXXXXX..XXXXXXX 100644
---- a/tcg/tci/tcg-target.c.inc
+--- a/target/sparc/fop_helper.c
-+++ b/tcg/tci/tcg-target.c.inc
++++ b/target/sparc/fop_helper.c
-@@ -XXX,XX +XXX,XX @@ static void tcg_out_op(TCGContext *s, TCGOpcode opc,
+@@ -XXX,XX +XXX,XX @@ Int128 helper_fsqrtq(CPUSPARCState *env, Int128 src)
-                        const TCGArg args[TCG_MAX_OP_ARGS],
+ }
-                        const int const_args[TCG_MAX_OP_ARGS])
- {
+ float32 helper_fmadds(CPUSPARCState *env, float32 s1,
-+    TCGOpcode exts;
+-                      float32 s2, float32 s3, uint32_t op)
-+
++                      float32 s2, float32 s3, int32_t sc, uint32_t op)
-     switch (opc) {
+ {
-     case INDEX_op_exit_tb:
+-    float32 ret = float32_muladd(s1, s2, s3, op, &env->fp_status);
-         tcg_out_op_p(s, opc, (void *)args[0]);
++    float32 ret = float32_muladd_scalbn(s1, s2, s3, sc, op, &env->fp_status);
-@@ -XXX,XX +XXX,XX @@ static void tcg_out_op(TCGContext *s, TCGOpcode opc,
+     check_ieee_exceptions(env, GETPC());
-     CASE_64(ext32u)      /* Optional (TCG_TARGET_HAS_ext32u_i64). */
+     return ret;
-     CASE_64(ext_i32)
+ }
-     CASE_64(extu_i32)
--    CASE_32_64(bswap16)  /* Optional (TCG_TARGET_HAS_bswap16_*). */
+ float64 helper_fmaddd(CPUSPARCState *env, float64 s1,
--    CASE_32_64(bswap32)  /* Optional (TCG_TARGET_HAS_bswap32_*). */
+-                      float64 s2, float64 s3, uint32_t op)
--    CASE_64(bswap64)     /* Optional (TCG_TARGET_HAS_bswap64_i64). */
++                      float64 s2, float64 s3, int32_t sc, uint32_t op)
-     CASE_32_64(ctpop)    /* Optional (TCG_TARGET_HAS_ctpop_*). */
+ {
-+    case INDEX_op_bswap32_i32: /* Optional (TCG_TARGET_HAS_bswap32_i32). */
+-    float64 ret = float64_muladd(s1, s2, s3, op, &env->fp_status);
-+    case INDEX_op_bswap64_i64: /* Optional (TCG_TARGET_HAS_bswap64_i64). */
++    float64 ret = float64_muladd_scalbn(s1, s2, s3, sc, op, &env->fp_status);
-         tcg_out_op_rr(s, opc, args[0], args[1]);
+     check_ieee_exceptions(env, GETPC());
-         break;
+     return ret;
+ }
-+    case INDEX_op_bswap16_i32: /* Optional (TCG_TARGET_HAS_bswap16_i32). */
+diff --git a/target/sparc/translate.c b/target/sparc/translate.c
-+        exts = INDEX_op_ext16s_i32;
+index XXXXXXX..XXXXXXX 100644
-+        goto do_bswap;
+--- a/target/sparc/translate.c
-+    case INDEX_op_bswap16_i64: /* Optional (TCG_TARGET_HAS_bswap16_i64). */
++++ b/target/sparc/translate.c
-+        exts = INDEX_op_ext16s_i64;
+@@ -XXX,XX +XXX,XX @@ static void gen_op_fabsq(TCGv_i128 dst, TCGv_i128 src)
-+        goto do_bswap;
-+    case INDEX_op_bswap32_i64: /* Optional (TCG_TARGET_HAS_bswap32_i64). */
+ static void gen_op_fmadds(TCGv_i32 d, TCGv_i32 s1, TCGv_i32 s2, TCGv_i32 s3)
-+        exts = INDEX_op_ext32s_i64;
+ {
-+    do_bswap:
+-    gen_helper_fmadds(d, tcg_env, s1, s2, s3, tcg_constant_i32(0));
-+        /* The base tci bswaps zero-extend, and ignore high bits. */
++    TCGv_i32 z = tcg_constant_i32(0);
-+        tcg_out_op_rr(s, opc, args[0], args[1]);
++    gen_helper_fmadds(d, tcg_env, s1, s2, s3, z, z);
-+        if (args[2] & TCG_BSWAP_OS) {
+ }
-+            tcg_out_op_rr(s, exts, args[0], args[0]);
-+        }
+ static void gen_op_fmaddd(TCGv_i64 d, TCGv_i64 s1, TCGv_i64 s2, TCGv_i64 s3)
-+        break;
+ {
-+
+-    gen_helper_fmaddd(d, tcg_env, s1, s2, s3, tcg_constant_i32(0));
-     CASE_32_64(add2)
++    TCGv_i32 z = tcg_constant_i32(0);
-     CASE_32_64(sub2)
++    gen_helper_fmaddd(d, tcg_env, s1, s2, s3, z, z);
-         tcg_out_op_rrrrrr(s, opc, args[0], args[1], args[2],
+ }
  static void gen_op_fmsubs(TCGv_i32 d, TCGv_i32 s1, TCGv_i32 s2, TCGv_i32 s3)
  {
 -    int op = float_muladd_negate_c;
 -    gen_helper_fmadds(d, tcg_env, s1, s2, s3, tcg_constant_i32(op));
 +    TCGv_i32 z = tcg_constant_i32(0);
 +    TCGv_i32 op = tcg_constant_i32(float_muladd_negate_c);
 +    gen_helper_fmadds(d, tcg_env, s1, s2, s3, z, op);
  }
  static void gen_op_fmsubd(TCGv_i64 d, TCGv_i64 s1, TCGv_i64 s2, TCGv_i64 s3)
  {
 -    int op = float_muladd_negate_c;
 -    gen_helper_fmaddd(d, tcg_env, s1, s2, s3, tcg_constant_i32(op));
 +    TCGv_i32 z = tcg_constant_i32(0);
 +    TCGv_i32 op = tcg_constant_i32(float_muladd_negate_c);
 +    gen_helper_fmaddd(d, tcg_env, s1, s2, s3, z, op);
  }
  static void gen_op_fnmsubs(TCGv_i32 d, TCGv_i32 s1, TCGv_i32 s2, TCGv_i32 s3)
  {
 -    int op = float_muladd_negate_c | float_muladd_negate_result;
 -    gen_helper_fmadds(d, tcg_env, s1, s2, s3, tcg_constant_i32(op));
 +    TCGv_i32 z = tcg_constant_i32(0);
 +    TCGv_i32 op = tcg_constant_i32(float_muladd_negate_c |
 +                                   float_muladd_negate_result);
 +    gen_helper_fmadds(d, tcg_env, s1, s2, s3, z, op);
  }
  static void gen_op_fnmsubd(TCGv_i64 d, TCGv_i64 s1, TCGv_i64 s2, TCGv_i64 s3)
  {
 -    int op = float_muladd_negate_c | float_muladd_negate_result;
 -    gen_helper_fmaddd(d, tcg_env, s1, s2, s3, tcg_constant_i32(op));
 +    TCGv_i32 z = tcg_constant_i32(0);
 +    TCGv_i32 op = tcg_constant_i32(float_muladd_negate_c |
 +                                   float_muladd_negate_result);
 +    gen_helper_fmaddd(d, tcg_env, s1, s2, s3, z, op);
  }
  static void gen_op_fnmadds(TCGv_i32 d, TCGv_i32 s1, TCGv_i32 s2, TCGv_i32 s3)
  {
 -    int op = float_muladd_negate_result;
 -    gen_helper_fmadds(d, tcg_env, s1, s2, s3, tcg_constant_i32(op));
 +    TCGv_i32 z = tcg_constant_i32(0);
 +    TCGv_i32 op = tcg_constant_i32(float_muladd_negate_result);
 +    gen_helper_fmadds(d, tcg_env, s1, s2, s3, z, op);
  }
  static void gen_op_fnmaddd(TCGv_i64 d, TCGv_i64 s1, TCGv_i64 s2, TCGv_i64 s3)
  {
 -    int op = float_muladd_negate_result;
 -    gen_helper_fmaddd(d, tcg_env, s1, s2, s3, tcg_constant_i32(op));
 +    TCGv_i32 z = tcg_constant_i32(0);
 +    TCGv_i32 op = tcg_constant_i32(float_muladd_negate_result);
 +    gen_helper_fmaddd(d, tcg_env, s1, s2, s3, z, op);
  }
  /* Use muladd to compute (1 * src1) + src2 / 2 with one rounding. */
  static void gen_op_fhadds(TCGv_i32 d, TCGv_i32 s1, TCGv_i32 s2)
  {
 -    TCGv_i32 one = tcg_constant_i32(float32_one);
 -    int op = float_muladd_halve_result;
 -    gen_helper_fmadds(d, tcg_env, one, s1, s2, tcg_constant_i32(op));
 +    TCGv_i32 fone = tcg_constant_i32(float32_one);
 +    TCGv_i32 mone = tcg_constant_i32(-1);
 +    TCGv_i32 op = tcg_constant_i32(0);
 +    gen_helper_fmadds(d, tcg_env, fone, s1, s2, mone, op);
  }
  static void gen_op_fhaddd(TCGv_i64 d, TCGv_i64 s1, TCGv_i64 s2)
  {
 -    TCGv_i64 one = tcg_constant_i64(float64_one);
 -    int op = float_muladd_halve_result;
 -    gen_helper_fmaddd(d, tcg_env, one, s1, s2, tcg_constant_i32(op));
 +    TCGv_i64 fone = tcg_constant_i64(float64_one);
 +    TCGv_i32 mone = tcg_constant_i32(-1);
 +    TCGv_i32 op = tcg_constant_i32(0);
 +    gen_helper_fmaddd(d, tcg_env, fone, s1, s2, mone, op);
  }
  /* Use muladd to compute (1 * src1) - src2 / 2 with one rounding. */
  static void gen_op_fhsubs(TCGv_i32 d, TCGv_i32 s1, TCGv_i32 s2)
  {
 -    TCGv_i32 one = tcg_constant_i32(float32_one);
 -    int op = float_muladd_negate_c | float_muladd_halve_result;
 -    gen_helper_fmadds(d, tcg_env, one, s1, s2, tcg_constant_i32(op));
 +    TCGv_i32 fone = tcg_constant_i32(float32_one);
 +    TCGv_i32 mone = tcg_constant_i32(-1);
 +    TCGv_i32 op = tcg_constant_i32(float_muladd_negate_c);
 +    gen_helper_fmadds(d, tcg_env, fone, s1, s2, mone, op);
  }
  static void gen_op_fhsubd(TCGv_i64 d, TCGv_i64 s1, TCGv_i64 s2)
  {
 -    TCGv_i64 one = tcg_constant_i64(float64_one);
 -    int op = float_muladd_negate_c | float_muladd_halve_result;
 -    gen_helper_fmaddd(d, tcg_env, one, s1, s2, tcg_constant_i32(op));
 +    TCGv_i64 fone = tcg_constant_i64(float64_one);
 +    TCGv_i32 mone = tcg_constant_i32(-1);
 +    TCGv_i32 op = tcg_constant_i32(float_muladd_negate_c);
 +    gen_helper_fmaddd(d, tcg_env, fone, s1, s2, mone, op);
  }
  /* Use muladd to compute -((1 * src1) + src2 / 2) with one rounding. */
  static void gen_op_fnhadds(TCGv_i32 d, TCGv_i32 s1, TCGv_i32 s2)
  {
 -    TCGv_i32 one = tcg_constant_i32(float32_one);
 -    int op = float_muladd_negate_result | float_muladd_halve_result;
 -    gen_helper_fmadds(d, tcg_env, one, s1, s2, tcg_constant_i32(op));
 +    TCGv_i32 fone = tcg_constant_i32(float32_one);
 +    TCGv_i32 mone = tcg_constant_i32(-1);
 +    TCGv_i32 op = tcg_constant_i32(float_muladd_negate_result);
 +    gen_helper_fmadds(d, tcg_env, fone, s1, s2, mone, op);
  }
  static void gen_op_fnhaddd(TCGv_i64 d, TCGv_i64 s1, TCGv_i64 s2)
  {
 -    TCGv_i64 one = tcg_constant_i64(float64_one);
 -    int op = float_muladd_negate_result | float_muladd_halve_result;
 -    gen_helper_fmaddd(d, tcg_env, one, s1, s2, tcg_constant_i32(op));
 +    TCGv_i64 fone = tcg_constant_i64(float64_one);
 +    TCGv_i32 mone = tcg_constant_i32(-1);
 +    TCGv_i32 op = tcg_constant_i32(float_muladd_negate_result);
 +    gen_helper_fmaddd(d, tcg_env, fone, s1, s2, mone, op);
  }
  static void gen_op_fpexception_im(DisasContext *dc, int ftt)
 --
-.25.1
+.43.0

-[PULL 63/63] tcg/riscv: Remove MO_BSWAP handling
+[PULL 58/72] softfloat: Remove float_muladd_halve_result
-TCG_TARGET_HAS_MEMORY_BSWAP is already unset for this backend,
+All uses have been convered to float*_muladd_scalbn.
 which means that MO_BSWAP be handled by the middle-end and
 will never be seen by the backend.  Thus the indexes used with
 qemu_{ld,st}_helpers will always be zero.
-Tidy the comments and asserts in tcg_out_qemu_{ld,st}_direct.
+Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
 It is not that we do not handle bswap "yet", but never will.
 Acked-by: Alistair Francis <alistair.francis@wdc.com>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- tcg/riscv/tcg-target.c.inc | 64 ++++++++++++++++++++------------------
+ include/fpu/softfloat.h   | 3 ---
-file changed, 33 insertions(+), 31 deletions(-)
+ fpu/softfloat.c           | 6 ------
  fpu/softfloat-parts.c.inc | 4 ----
 files changed, 13 deletions(-)
-diff --git a/tcg/riscv/tcg-target.c.inc b/tcg/riscv/tcg-target.c.inc
+diff --git a/include/fpu/softfloat.h b/include/fpu/softfloat.h
 index XXXXXXX..XXXXXXX 100644
---- a/tcg/riscv/tcg-target.c.inc
+--- a/include/fpu/softfloat.h
-+++ b/tcg/riscv/tcg-target.c.inc
++++ b/include/fpu/softfloat.h
-@@ -XXX,XX +XXX,XX @@ static void tcg_out_mb(TCGContext *s, TCGArg a0)
+@@ -XXX,XX +XXX,XX @@ bfloat16 bfloat16_squash_input_denormal(bfloat16 a, float_status *status);
- /* helper signature: helper_ret_ld_mmu(CPUState *env, target_ulong addr,
+ | Using these differs from negating an input or output before calling
-  *                                     TCGMemOpIdx oi, uintptr_t ra)
+ | the muladd function in that this means that a NaN doesn't have its
-  */
+ | sign bit inverted before it is propagated.
--static void * const qemu_ld_helpers[16] = {
+-| We also support halving the result before rounding, as a special
--    [MO_UB]   = helper_ret_ldub_mmu,
+-| case to support the ARM fused-sqrt-step instruction FRSQRTS.
--    [MO_SB]   = helper_ret_ldsb_mmu,
+ *----------------------------------------------------------------------------*/
--    [MO_LEUW] = helper_le_lduw_mmu,
+ enum {
--    [MO_LESW] = helper_le_ldsw_mmu,
+     float_muladd_negate_c = 1,
--    [MO_LEUL] = helper_le_ldul_mmu,
+     float_muladd_negate_product = 2,
-+static void * const qemu_ld_helpers[8] = {
+     float_muladd_negate_result = 4,
-+    [MO_UB] = helper_ret_ldub_mmu,
+-    float_muladd_halve_result = 8,
 +    [MO_SB] = helper_ret_ldsb_mmu,
 +#ifdef HOST_WORDS_BIGENDIAN
 +    [MO_UW] = helper_be_lduw_mmu,
 +    [MO_SW] = helper_be_ldsw_mmu,
 +    [MO_UL] = helper_be_ldul_mmu,
  #if TCG_TARGET_REG_BITS == 64
 -    [MO_LESL] = helper_le_ldsl_mmu,
 +    [MO_SL] = helper_be_ldsl_mmu,
  #endif
 -    [MO_LEQ]  = helper_le_ldq_mmu,
 -    [MO_BEUW] = helper_be_lduw_mmu,
 -    [MO_BESW] = helper_be_ldsw_mmu,
 -    [MO_BEUL] = helper_be_ldul_mmu,
 +    [MO_Q]  = helper_be_ldq_mmu,
 +#else
 +    [MO_UW] = helper_le_lduw_mmu,
 +    [MO_SW] = helper_le_ldsw_mmu,
 +    [MO_UL] = helper_le_ldul_mmu,
  #if TCG_TARGET_REG_BITS == 64
 -    [MO_BESL] = helper_be_ldsl_mmu,
 +    [MO_SL] = helper_le_ldsl_mmu,
 +#endif
 +    [MO_Q]  = helper_le_ldq_mmu,
  #endif
 -    [MO_BEQ]  = helper_be_ldq_mmu,
  };
- /* helper signature: helper_ret_st_mmu(CPUState *env, target_ulong addr,
+ /*----------------------------------------------------------------------------
-  *                                     uintxx_t val, TCGMemOpIdx oi,
+diff --git a/fpu/softfloat.c b/fpu/softfloat.c
-  *                                     uintptr_t ra)
+index XXXXXXX..XXXXXXX 100644
-  */
+--- a/fpu/softfloat.c
--static void * const qemu_st_helpers[16] = {
++++ b/fpu/softfloat.c
--    [MO_UB]   = helper_ret_stb_mmu,
+@@ -XXX,XX +XXX,XX @@ float32_muladd(float32 xa, float32 xb, float32 xc, int flags, float_status *s)
--    [MO_LEUW] = helper_le_stw_mmu,
+     if (unlikely(!can_use_fpu(s))) {
--    [MO_LEUL] = helper_le_stl_mmu,
+         goto soft;
--    [MO_LEQ]  = helper_le_stq_mmu,
+     }
--    [MO_BEUW] = helper_be_stw_mmu,
+-    if (unlikely(flags & float_muladd_halve_result)) {
--    [MO_BEUL] = helper_be_stl_mmu,
+-        goto soft;
--    [MO_BEQ]  = helper_be_stq_mmu,
+-    }
-+static void * const qemu_st_helpers[4] = {
-+    [MO_8]   = helper_ret_stb_mmu,
+     float32_input_flush3(&ua.s, &ub.s, &uc.s, s);
-+#ifdef HOST_WORDS_BIGENDIAN
+     if (unlikely(!f32_is_zon3(ua, ub, uc))) {
-+    [MO_16] = helper_be_stw_mmu,
+@@ -XXX,XX +XXX,XX @@ float64_muladd(float64 xa, float64 xb, float64 xc, int flags, float_status *s)
-+    [MO_32] = helper_be_stl_mmu,
+     if (unlikely(!can_use_fpu(s))) {
-+    [MO_64] = helper_be_stq_mmu,
+         goto soft;
-+#else
+     }
-+    [MO_16] = helper_le_stw_mmu,
+-    if (unlikely(flags & float_muladd_halve_result)) {
-+    [MO_32] = helper_le_stl_mmu,
+-        goto soft;
-+    [MO_64] = helper_le_stq_mmu,
+-    }
-+#endif
- };
+     float64_input_flush3(&ua.s, &ub.s, &uc.s, s);
+     if (unlikely(!f64_is_zon3(ua, ub, uc))) {
- /* We don't support oversize guests */
+diff --git a/fpu/softfloat-parts.c.inc b/fpu/softfloat-parts.c.inc
-@@ -XXX,XX +XXX,XX @@ static bool tcg_out_qemu_ld_slow_path(TCGContext *s, TCGLabelQemuLdst *l)
+index XXXXXXX..XXXXXXX 100644
-     tcg_out_movi(s, TCG_TYPE_PTR, a2, oi);
+--- a/fpu/softfloat-parts.c.inc
-     tcg_out_movi(s, TCG_TYPE_PTR, a3, (tcg_target_long)l->raddr);
++++ b/fpu/softfloat-parts.c.inc
+@@ -XXX,XX +XXX,XX @@ static FloatPartsN *partsN(muladd_scalbn)(FloatPartsN *a, FloatPartsN *b,
--    tcg_out_call(s, qemu_ld_helpers[opc & (MO_BSWAP | MO_SSIZE)]);
+     a->exp = p_widen.exp;
-+    tcg_out_call(s, qemu_ld_helpers[opc & MO_SSIZE]);
-     tcg_out_mov(s, (opc & MO_SIZE) == MO_64, l->datalo_reg, a0);
+  return_normal:
+-    /* TODO: Replace all use of float_muladd_halve_result with scale. */
-     tcg_out_goto(s, l->raddr);
+-    if (flags & float_muladd_halve_result) {
-@@ -XXX,XX +XXX,XX @@ static bool tcg_out_qemu_st_slow_path(TCGContext *s, TCGLabelQemuLdst *l)
+-        a->exp -= 1;
-     tcg_out_movi(s, TCG_TYPE_PTR, a3, oi);
+-    }
-     tcg_out_movi(s, TCG_TYPE_PTR, a4, (tcg_target_long)l->raddr);
+     a->exp += scale;
+  finish_sign:
--    tcg_out_call(s, qemu_st_helpers[opc & (MO_BSWAP | MO_SSIZE)]);
+     if (flags & float_muladd_negate_result) {
 +    tcg_out_call(s, qemu_st_helpers[opc & MO_SIZE]);
      tcg_out_goto(s, l->raddr);
      return true;
@@ -XXX,XX +XXX,XX @@ static bool tcg_out_qemu_st_slow_path(TCGContext *s, TCGLabelQemuLdst *l)
  static void tcg_out_qemu_ld_direct(TCGContext *s, TCGReg lo, TCGReg hi,
                                     TCGReg base, MemOp opc, bool is_64)
  {
 -    const MemOp bswap = opc & MO_BSWAP;
 -
 -    /* We don't yet handle byteswapping, assert */
 -    g_assert(!bswap);
 +    /* Byte swapping is left to middle-end expansion. */
 +    tcg_debug_assert((opc & MO_BSWAP) == 0);
      switch (opc & (MO_SSIZE)) {
      case MO_UB:
@@ -XXX,XX +XXX,XX @@ static void tcg_out_qemu_ld(TCGContext *s, const TCGArg *args, bool is_64)
  static void tcg_out_qemu_st_direct(TCGContext *s, TCGReg lo, TCGReg hi,
                                     TCGReg base, MemOp opc)
  {
 -    const MemOp bswap = opc & MO_BSWAP;
 -
 -    /* We don't yet handle byteswapping, assert */
 -    g_assert(!bswap);
 +    /* Byte swapping is left to middle-end expansion. */
 +    tcg_debug_assert((opc & MO_BSWAP) == 0);
      switch (opc & (MO_SSIZE)) {
      case MO_8:
 --
-.25.1
+.43.0

-[PULL 47/63] tcg/s390: Support bswap flags
+[PULL 59/72] softfloat: Add float_round_nearest_even_max
-For INDEX_op_bswap16_i64, use 64-bit instructions so that we can
+This rounding mode is used by Hexagon.
 easily provide the extension to 64-bits.  Drop the special case,
 previously used, where the input is already zero-extended -- the
 minor code size savings is not worth the complication.
-Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- tcg/s390/tcg-target.c.inc | 34 ++++++++++++++++++++++++++++------
+ include/fpu/softfloat-types.h | 2 ++
-file changed, 28 insertions(+), 6 deletions(-)
+ fpu/softfloat-parts.c.inc     | 3 +++
 files changed, 5 insertions(+)
-diff --git a/tcg/s390/tcg-target.c.inc b/tcg/s390/tcg-target.c.inc
+diff --git a/include/fpu/softfloat-types.h b/include/fpu/softfloat-types.h
 index XXXXXXX..XXXXXXX 100644
---- a/tcg/s390/tcg-target.c.inc
+--- a/include/fpu/softfloat-types.h
-+++ b/tcg/s390/tcg-target.c.inc
++++ b/include/fpu/softfloat-types.h
-@@ -XXX,XX +XXX,XX @@ static inline void tcg_out_op(TCGContext *s, TCGOpcode opc,
+@@ -XXX,XX +XXX,XX @@ typedef enum __attribute__((__packed__)) {
-         tgen_ext16u(s, TCG_TYPE_I32, args[0], args[1]);
+     float_round_to_odd       = 5,
-         break;
+     /* Not an IEEE rounding mode: round to closest odd, overflow to inf */
+     float_round_to_odd_inf   = 6,
--    OP_32_64(bswap16):
++    /* Not an IEEE rounding mode: round to nearest even, overflow to max */
--        /* The TCG bswap definition requires bits 0-47 already be zero.
++    float_round_nearest_even_max = 7,
--           Thus we don't need the G-type insns to implement bswap16_i64.  */
+ } FloatRoundMode;
--        tcg_out_insn(s, RRE, LRVR, args[0], args[1]);
--        tcg_out_sh32(s, RS_SRL, args[0], TCG_REG_NONE, 16);
+ /*
-+    case INDEX_op_bswap16_i32:
+diff --git a/fpu/softfloat-parts.c.inc b/fpu/softfloat-parts.c.inc
-+        a0 = args[0], a1 = args[1], a2 = args[2];
+index XXXXXXX..XXXXXXX 100644
-+        tcg_out_insn(s, RRE, LRVR, a0, a1);
+--- a/fpu/softfloat-parts.c.inc
-+        if (a2 & TCG_BSWAP_OS) {
++++ b/fpu/softfloat-parts.c.inc
-+            tcg_out_sh32(s, RS_SRA, a0, TCG_REG_NONE, 16);
+@@ -XXX,XX +XXX,XX @@ static void partsN(uncanon_normal)(FloatPartsN *p, float_status *s,
-+        } else {
+     int exp, flags = 0;
-+            tcg_out_sh32(s, RS_SRL, a0, TCG_REG_NONE, 16);
-+        }
+     switch (s->float_rounding_mode) {
-         break;
++    case float_round_nearest_even_max:
--    OP_32_64(bswap32):
++        overflow_norm = true;
-+    case INDEX_op_bswap16_i64:
++        /* fall through */
-+        a0 = args[0], a1 = args[1], a2 = args[2];
+     case float_round_nearest_even:
-+        tcg_out_insn(s, RRE, LRVGR, a0, a1);
+         if (N > 64 && frac_lsb == 0) {
-+        if (a2 & TCG_BSWAP_OS) {
+             inc = ((p->frac_hi & 1) || (p->frac_lo & round_mask) != frac_lsbm1
 +            tcg_out_sh64(s, RSY_SRAG, a0, a0, TCG_REG_NONE, 48);
 +        } else {
 +            tcg_out_sh64(s, RSY_SRLG, a0, a0, TCG_REG_NONE, 48);
 +        }
 +        break;
 +
 +    case INDEX_op_bswap32_i32:
          tcg_out_insn(s, RRE, LRVR, args[0], args[1]);
          break;
 +    case INDEX_op_bswap32_i64:
 +        a0 = args[0], a1 = args[1], a2 = args[2];
 +        tcg_out_insn(s, RRE, LRVR, a0, a1);
 +        if (a2 & TCG_BSWAP_OS) {
 +            tgen_ext32s(s, a0, a0);
 +        } else if ((a2 & (TCG_BSWAP_IZ | TCG_BSWAP_OZ)) == TCG_BSWAP_OZ) {
 +            tgen_ext32u(s, a0, a0);
 +        }
 +        break;
      case INDEX_op_add2_i32:
          if (const_args[4]) {
 --
-.25.1
+.43.0

-[PULL 38/63] tcg/aarch64: Support bswap flags
+[PULL 60/72] softfloat: Add float_muladd_suppress_add_product_zero
-Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
+Certain Hexagon instructions suppress changes to the result
-Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
+when the product of fma() is a true zero.
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- tcg/aarch64/tcg-target.c.inc | 12 ++++++++++++
+ include/fpu/softfloat.h   | 5 +++++
-file changed, 12 insertions(+)
+ fpu/softfloat.c           | 3 +++
  fpu/softfloat-parts.c.inc | 4 +++-
 files changed, 11 insertions(+), 1 deletion(-)
-diff --git a/tcg/aarch64/tcg-target.c.inc b/tcg/aarch64/tcg-target.c.inc
+diff --git a/include/fpu/softfloat.h b/include/fpu/softfloat.h
 index XXXXXXX..XXXXXXX 100644
---- a/tcg/aarch64/tcg-target.c.inc
+--- a/include/fpu/softfloat.h
-+++ b/tcg/aarch64/tcg-target.c.inc
++++ b/include/fpu/softfloat.h
-@@ -XXX,XX +XXX,XX @@ static void tcg_out_op(TCGContext *s, TCGOpcode opc,
+@@ -XXX,XX +XXX,XX @@ bfloat16 bfloat16_squash_input_denormal(bfloat16 a, float_status *status);
-         tcg_out_rev(s, TCG_TYPE_I64, MO_64, a0, a1);
+ | Using these differs from negating an input or output before calling
-         break;
+ | the muladd function in that this means that a NaN doesn't have its
-     case INDEX_op_bswap32_i64:
+ | sign bit inverted before it is propagated.
-+        tcg_out_rev(s, TCG_TYPE_I32, MO_32, a0, a1);
++|
-+        if (a2 & TCG_BSWAP_OS) {
++| With float_muladd_suppress_add_product_zero, if A or B is zero
-+            tcg_out_sxt(s, TCG_TYPE_I64, MO_32, a0, a0);
++| such that the product is a true zero, then return C without addition.
-+        }
++| This preserves the sign of C when C is +/- 0.  Used for Hexagon.
-+        break;
+ *----------------------------------------------------------------------------*/
-     case INDEX_op_bswap32_i32:
+ enum {
-         tcg_out_rev(s, TCG_TYPE_I32, MO_32, a0, a1);
+     float_muladd_negate_c = 1,
-         break;
+     float_muladd_negate_product = 2,
-     case INDEX_op_bswap16_i64:
+     float_muladd_negate_result = 4,
-     case INDEX_op_bswap16_i32:
++    float_muladd_suppress_add_product_zero = 8,
-         tcg_out_rev(s, TCG_TYPE_I32, MO_16, a0, a1);
+ };
-+        if (a2 & TCG_BSWAP_OS) {
-+            /* Output must be sign-extended. */
+ /*----------------------------------------------------------------------------
-+            tcg_out_sxt(s, ext, MO_16, a0, a0);
+diff --git a/fpu/softfloat.c b/fpu/softfloat.c
-+        } else if ((a2 & (TCG_BSWAP_IZ | TCG_BSWAP_OZ)) == TCG_BSWAP_OZ) {
+index XXXXXXX..XXXXXXX 100644
-+            /* Output must be zero-extended, but input isn't. */
+--- a/fpu/softfloat.c
-+            tcg_out_uxt(s, MO_16, a0, a0);
++++ b/fpu/softfloat.c
-+        }
+@@ -XXX,XX +XXX,XX @@ float32_muladd(float32 xa, float32 xb, float32 xc, int flags, float_status *s)
-         break;
+     if (unlikely(!can_use_fpu(s))) {
+         goto soft;
-     case INDEX_op_ext8s_i64:
+     }
 +    if (unlikely(flags & float_muladd_suppress_add_product_zero)) {
 +        goto soft;
 +    }
      float32_input_flush3(&ua.s, &ub.s, &uc.s, s);
      if (unlikely(!f32_is_zon3(ua, ub, uc))) {
 diff --git a/fpu/softfloat-parts.c.inc b/fpu/softfloat-parts.c.inc
 index XXXXXXX..XXXXXXX 100644
 --- a/fpu/softfloat-parts.c.inc
 +++ b/fpu/softfloat-parts.c.inc
@@ -XXX,XX +XXX,XX @@ static FloatPartsN *partsN(muladd_scalbn)(FloatPartsN *a, FloatPartsN *b,
              goto return_normal;
          }
          if (c->cls == float_class_zero) {
 -            if (a->sign != c->sign) {
 +            if (flags & float_muladd_suppress_add_product_zero) {
 +                a->sign = c->sign;
 +            } else if (a->sign != c->sign) {
                  goto return_sub_zero;
              }
              goto return_zero;
 --
-.25.1
+.43.0

-[PULL 26/63] target/cris: Improve JMP_INDIRECT
+[PULL 61/72] target/hexagon: Use float32_mul in helper_sfmpy
-Use movcond instead of brcond to set env_pc.
+There are no special cases for this instruction.
-Discard the btarget and btaken variables to improve
+Remove internal_mpyf as unused.
 register allocation and avoid unnecessary writeback.
-Reviewed-by: Edgar E. Iglesias <edgar.iglesias@xilinx.com>
+Reviewed-by: Brian Cain <brian.cain@oss.qualcomm.com>
 Tested-by: Edgar E. Iglesias <edgar.iglesias@xilinx.com>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- target/cris/translate.c | 22 ++++++++++------------
+ target/hexagon/fma_emu.h   | 1 -
-file changed, 10 insertions(+), 12 deletions(-)
+ target/hexagon/fma_emu.c   | 8 --------
  target/hexagon/op_helper.c | 2 +-
 files changed, 1 insertion(+), 10 deletions(-)
-diff --git a/target/cris/translate.c b/target/cris/translate.c
+diff --git a/target/hexagon/fma_emu.h b/target/hexagon/fma_emu.h
 index XXXXXXX..XXXXXXX 100644
---- a/target/cris/translate.c
+--- a/target/hexagon/fma_emu.h
-+++ b/target/cris/translate.c
++++ b/target/hexagon/fma_emu.h
-@@ -XXX,XX +XXX,XX @@ static void t_gen_swapr(TCGv d, TCGv s)
+@@ -XXX,XX +XXX,XX @@ int32_t float32_getexp(float32 f32);
-     tcg_temp_free(org_s);
+ float32 infinite_float32(uint8_t sign);
  float32 internal_fmafx(float32 a, float32 b, float32 c,
                         int scale, float_status *fp_status);
 -float32 internal_mpyf(float32 a, float32 b, float_status *fp_status);
  float64 internal_mpyhh(float64 a, float64 b,
                         unsigned long long int accumulated,
                         float_status *fp_status);
 diff --git a/target/hexagon/fma_emu.c b/target/hexagon/fma_emu.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/hexagon/fma_emu.c
 +++ b/target/hexagon/fma_emu.c
@@ -XXX,XX +XXX,XX @@ float32 internal_fmafx(float32 a, float32 b, float32 c, int scale,
      return accum_round_float32(result, fp_status);
  }
--static void t_gen_cc_jmp(TCGv pc_true, TCGv pc_false)
+-float32 internal_mpyf(float32 a, float32 b, float_status *fp_status)
 -{
--    TCGLabel *l1 = gen_new_label();
+-    if (float32_is_zero(a) || float32_is_zero(b)) {
--
+-        return float32_mul(a, b, fp_status);
--    /* Conditional jmp.  */
+-    }
--    tcg_gen_mov_tl(env_pc, pc_false);
+-    return internal_fmafx(a, b, float32_zero, 0, fp_status);
 -    tcg_gen_brcondi_tl(TCG_COND_EQ, env_btaken, 0, l1);
 -    tcg_gen_mov_tl(env_pc, pc_true);
 -    gen_set_label(l1);
 -}
 -
- static bool use_goto_tb(DisasContext *dc, target_ulong dest)
+ float64 internal_mpyhh(float64 a, float64 b,
                        unsigned long long int accumulated,
                        float_status *fp_status)
 diff --git a/target/hexagon/op_helper.c b/target/hexagon/op_helper.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/hexagon/op_helper.c
 +++ b/target/hexagon/op_helper.c
@@ -XXX,XX +XXX,XX @@ float32 HELPER(sfmpy)(CPUHexagonState *env, float32 RsV, float32 RtV)
  {
-     return ((dest ^ dc->base.pc_first) & TARGET_PAGE_MASK) == 0;
+     float32 RdV;
-@@ -XXX,XX +XXX,XX @@ static void cris_tr_tb_stop(DisasContextBase *dcbase, CPUState *cpu)
+     arch_fpop_start(env);
-             /* fall through */
+-    RdV = internal_mpyf(RsV, RtV, &env->fp_status);
++    RdV = float32_mul(RsV, RtV, &env->fp_status);
-         case JMP_INDIRECT:
+     arch_fpop_end(env);
--            t_gen_cc_jmp(env_btarget, tcg_constant_tl(npc));
+     return RdV;
-+            tcg_gen_movcond_tl(TCG_COND_NE, env_pc,
+ }
 +                               env_btaken, tcg_constant_tl(0),
 +                               env_btarget, tcg_constant_tl(npc));
              is_jmp = dc->cpustate_changed ? DISAS_UPDATE : DISAS_JUMP;
 +
 +            /*
 +             * We have now consumed btaken and btarget.  Hint to the
 +             * tcg compiler that the writeback to env may be dropped.
 +             */
 +            tcg_gen_discard_tl(env_btaken);
 +            tcg_gen_discard_tl(env_btarget);
              break;
          default:
 --
-.25.1
+.43.0

-[PULL 36/63] tcg/i386: Support bswap flags
+[PULL 62/72] target/hexagon: Use float32_muladd for helper_sffma
-Retain the current rorw bswap16 expansion for the zero-in/zero-out case.
+There are no special cases for this instruction.
 Otherwise, perform a wider bswap plus a right-shift or extend.
-Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
+Reviewed-by: Brian Cain <brian.cain@oss.qualcomm.com>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- tcg/i386/tcg-target.c.inc | 20 +++++++++++++++++++-
+ target/hexagon/op_helper.c | 2 +-
-file changed, 19 insertions(+), 1 deletion(-)
+file changed, 1 insertion(+), 1 deletion(-)
-diff --git a/tcg/i386/tcg-target.c.inc b/tcg/i386/tcg-target.c.inc
+diff --git a/target/hexagon/op_helper.c b/target/hexagon/op_helper.c
 index XXXXXXX..XXXXXXX 100644
---- a/tcg/i386/tcg-target.c.inc
+--- a/target/hexagon/op_helper.c
-+++ b/tcg/i386/tcg-target.c.inc
++++ b/target/hexagon/op_helper.c
-@@ -XXX,XX +XXX,XX @@ static inline void tcg_out_op(TCGContext *s, TCGOpcode opc,
+@@ -XXX,XX +XXX,XX @@ float32 HELPER(sffma)(CPUHexagonState *env, float32 RxV,
-         break;
+                       float32 RsV, float32 RtV)
+ {
-     OP_32_64(bswap16):
+     arch_fpop_start(env);
--        tcg_out_rolw_8(s, a0);
+-    RxV = internal_fmafx(RsV, RtV, RxV, 0, &env->fp_status);
-+        if (a2 & TCG_BSWAP_OS) {
++    RxV = float32_muladd(RsV, RtV, RxV, 0, &env->fp_status);
-+            /* Output must be sign-extended. */
+     arch_fpop_end(env);
-+            if (rexw) {
+     return RxV;
-+                tcg_out_bswap64(s, a0);
+ }
 +                tcg_out_shifti(s, SHIFT_SAR + rexw, a0, 48);
 +            } else {
 +                tcg_out_bswap32(s, a0);
 +                tcg_out_shifti(s, SHIFT_SAR, a0, 16);
 +            }
 +        } else if ((a2 & (TCG_BSWAP_IZ | TCG_BSWAP_OZ)) == TCG_BSWAP_OZ) {
 +            /* Output must be zero-extended, but input isn't. */
 +            tcg_out_bswap32(s, a0);
 +            tcg_out_shifti(s, SHIFT_SHR, a0, 16);
 +        } else {
 +            tcg_out_rolw_8(s, a0);
 +        }
          break;
      OP_32_64(bswap32):
          tcg_out_bswap32(s, a0);
 +        if (rexw && (a2 & TCG_BSWAP_OS)) {
 +            tcg_out_ext32s(s, a0, a0);
 +        }
          break;
      OP_32_64(neg):
 --
-.25.1
+.43.0

-[PULL 33/63] tcg: Implement tcg_gen_vec_add{sub}32_tl
+[PULL 63/72] target/hexagon: Use float32_muladd for helper_sffms
-From: LIU Zhiwei <zhiwei_liu@c-sky.com>
+There are no special cases for this instruction.  Since hexagon
 always uses default-nan mode, explicitly negating the first
 input is unnecessary.  Use float_muladd_negate_product instead.
-Signed-off-by: LIU Zhiwei <zhiwei_liu@c-sky.com>
+Reviewed-by: Brian Cain <brian.cain@oss.qualcomm.com>
 Message-Id: <20210624105023.3852-6-zhiwei_liu@c-sky.com>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- include/tcg/tcg-op-gvec.h | 4 ++++
+ target/hexagon/op_helper.c | 5 ++---
-file changed, 4 insertions(+)
+file changed, 2 insertions(+), 3 deletions(-)
-diff --git a/include/tcg/tcg-op-gvec.h b/include/tcg/tcg-op-gvec.h
+diff --git a/target/hexagon/op_helper.c b/target/hexagon/op_helper.c
 index XXXXXXX..XXXXXXX 100644
---- a/include/tcg/tcg-op-gvec.h
+--- a/target/hexagon/op_helper.c
-+++ b/include/tcg/tcg-op-gvec.h
++++ b/target/hexagon/op_helper.c
-@@ -XXX,XX +XXX,XX @@ void tcg_gen_vec_sar16i_i32(TCGv_i32 d, TCGv_i32 a, int32_t);
+@@ -XXX,XX +XXX,XX @@ float32 HELPER(sffma_sc)(CPUHexagonState *env, float32 RxV,
- #define tcg_gen_vec_sub8_tl  tcg_gen_vec_sub8_i64
+ float32 HELPER(sffms)(CPUHexagonState *env, float32 RxV,
- #define tcg_gen_vec_add16_tl tcg_gen_vec_add16_i64
+                       float32 RsV, float32 RtV)
- #define tcg_gen_vec_sub16_tl tcg_gen_vec_sub16_i64
+ {
-+#define tcg_gen_vec_add32_tl tcg_gen_vec_add32_i64
+-    float32 neg_RsV;
-+#define tcg_gen_vec_sub32_tl tcg_gen_vec_sub32_i64
+     arch_fpop_start(env);
- #define tcg_gen_vec_shl8i_tl tcg_gen_vec_shl8i_i64
+-    neg_RsV = float32_set_sign(RsV, float32_is_neg(RsV) ? 0 : 1);
- #define tcg_gen_vec_shr8i_tl tcg_gen_vec_shr8i_i64
+-    RxV = internal_fmafx(neg_RsV, RtV, RxV, 0, &env->fp_status);
- #define tcg_gen_vec_sar8i_tl tcg_gen_vec_sar8i_i64
++    RxV = float32_muladd(RsV, RtV, RxV, float_muladd_negate_product,
-@@ -XXX,XX +XXX,XX @@ void tcg_gen_vec_sar16i_i32(TCGv_i32 d, TCGv_i32 a, int32_t);
++                         &env->fp_status);
- #define tcg_gen_vec_sub8_tl  tcg_gen_vec_sub8_i32
+     arch_fpop_end(env);
- #define tcg_gen_vec_add16_tl tcg_gen_vec_add16_i32
+     return RxV;
- #define tcg_gen_vec_sub16_tl tcg_gen_vec_sub16_i32
+ }
 +#define tcg_gen_vec_add32_tl tcg_gen_add_i32
 +#define tcg_gen_vec_sub32_tl tcg_gen_sub_i32
  #define tcg_gen_vec_shl8i_tl tcg_gen_vec_shl8i_i32
  #define tcg_gen_vec_shr8i_tl tcg_gen_vec_shr8i_i32
  #define tcg_gen_vec_sar8i_tl tcg_gen_vec_sar8i_i32
 --
-.25.1
+.43.0

-[PULL 22/63] target/cris: Set cpustate_changed for rfe/rfn
+[PULL 64/72] target/hexagon: Use float32_muladd_scalbn for helper_sffma_sc
-These insns set DISAS_UPDATE without cpustate_changed,
+This instruction has a special case that 0 * x + c returns c
-which isn't quite right.
+without the normal sign folding that comes with 0 + -0.
 Use the new float_muladd_suppress_add_product_zero to
 describe this.
-Reviewed-by: Edgar E. Iglesias <edgar.iglesias@xilinx.com>
+Reviewed-by: Brian Cain <brian.cain@oss.qualcomm.com>
 Tested-by: Edgar E. Iglesias <edgar.iglesias@xilinx.com>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- target/cris/translate.c | 2 ++
+ target/hexagon/op_helper.c | 11 +++--------
-file changed, 2 insertions(+)
+file changed, 3 insertions(+), 8 deletions(-)
-diff --git a/target/cris/translate.c b/target/cris/translate.c
+diff --git a/target/hexagon/op_helper.c b/target/hexagon/op_helper.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/cris/translate.c
+--- a/target/hexagon/op_helper.c
-+++ b/target/cris/translate.c
++++ b/target/hexagon/op_helper.c
-@@ -XXX,XX +XXX,XX @@ static int dec_rfe_etc(CPUCRISState *env, DisasContext *dc)
+@@ -XXX,XX +XXX,XX @@ static float32 check_nan(float32 dst, float32 x, float_status *fp_status)
-         cris_evaluate_flags(dc);
+ float32 HELPER(sffma_sc)(CPUHexagonState *env, float32 RxV,
-         gen_helper_rfe(cpu_env);
+                          float32 RsV, float32 RtV, float32 PuV)
-         dc->base.is_jmp = DISAS_UPDATE;
+ {
-+        dc->cpustate_changed = true;
+-    size4s_t tmp;
-         break;
+     arch_fpop_start(env);
-     case 5:
+-    RxV = check_nan(RxV, RxV, &env->fp_status);
-         /* rfn.  */
+-    RxV = check_nan(RxV, RsV, &env->fp_status);
-@@ -XXX,XX +XXX,XX @@ static int dec_rfe_etc(CPUCRISState *env, DisasContext *dc)
+-    RxV = check_nan(RxV, RtV, &env->fp_status);
-         cris_evaluate_flags(dc);
+-    tmp = internal_fmafx(RsV, RtV, RxV, fSXTN(8, 64, PuV), &env->fp_status);
-         gen_helper_rfn(cpu_env);
+-    if (!(float32_is_zero(RxV) && is_zero_prod(RsV, RtV))) {
-         dc->base.is_jmp = DISAS_UPDATE;
+-        RxV = tmp;
-+        dc->cpustate_changed = true;
+-    }
-         break;
++    RxV = float32_muladd_scalbn(RsV, RtV, RxV, fSXTN(8, 64, PuV),
-     case 6:
++                                float_muladd_suppress_add_product_zero,
-         LOG_DIS("break %d\n", dc->op1);
++                                &env->fp_status);
      arch_fpop_end(env);
      return RxV;
  }
 --
-.25.1
+.43.0

-[PULL 08/63] target/nios2: Inline handle_instruction
+[PULL 65/72] target/hexagon: Use float32_muladd for helper_sffm[as]_lib
-Move handle_instruction into nios2_tr_translate_insn
+There are multiple special cases for this instruction.
-as the only caller.
+(1) The saturate to normal maximum instead of overflow to infinity is
     handled by the new float_round_nearest_even_max rounding mode.
 (2) The 0 * n + c special case is handled by the new
     float_muladd_suppress_add_product_zero flag.
 (3) The Inf - Inf -> 0 special case can be detected after the fact
     by examining float_flag_invalid_isi.
-Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
+Reviewed-by: Brian Cain <brian.cain@oss.qualcomm.com>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- target/nios2/translate.c | 66 +++++++++++++++++++---------------------
+ target/hexagon/op_helper.c | 105 +++++++++----------------------------
-file changed, 31 insertions(+), 35 deletions(-)
+file changed, 26 insertions(+), 79 deletions(-)
-diff --git a/target/nios2/translate.c b/target/nios2/translate.c
+diff --git a/target/hexagon/op_helper.c b/target/hexagon/op_helper.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/nios2/translate.c
+--- a/target/hexagon/op_helper.c
-+++ b/target/nios2/translate.c
++++ b/target/hexagon/op_helper.c
-@@ -XXX,XX +XXX,XX @@ illegal_op:
+@@ -XXX,XX +XXX,XX @@ float32 HELPER(sffma)(CPUHexagonState *env, float32 RxV,
-     t_gen_helper_raise_exception(dc, EXCP_ILLEGAL);
+     return RxV;
  }
--static void handle_instruction(DisasContext *dc, CPUNios2State *env)
+-static bool is_zero_prod(float32 a, float32 b)
 -{
--    uint32_t code;
+-    return ((float32_is_zero(a) && is_finite(b)) ||
--    uint8_t op;
+-            (float32_is_zero(b) && is_finite(a)));
 -    const Nios2Instruction *instr;
 -
 -#if defined(CONFIG_USER_ONLY)
 -    /* FIXME: Is this needed ? */
 -    if (dc->pc >= 0x1000 && dc->pc < 0x2000) {
 -        t_gen_helper_raise_exception(dc, 0xaa);
 -        return;
 -    }
 -#endif
 -
 -    code = cpu_ldl_code(env, dc->pc);
 -    op = get_opcode(code);
 -
 -    if (unlikely(op >= ARRAY_SIZE(i_type_instructions))) {
 -        t_gen_helper_raise_exception(dc, EXCP_ILLEGAL);
 -        return;
 -    }
 -
 -    dc->zero = NULL;
 -
 -    instr = &i_type_instructions[op];
 -    instr->handler(dc, code, instr->flags);
 -
 -    if (dc->zero) {
 -        tcg_temp_free(dc->zero);
 -    }
 -}
 -
- static const char * const regnames[] = {
+-static float32 check_nan(float32 dst, float32 x, float_status *fp_status)
-     "zero",       "at",         "r2",         "r3",
+-{
-     "r4",         "r5",         "r6",         "r7",
+-    float32 ret = dst;
-@@ -XXX,XX +XXX,XX @@ static void nios2_tr_translate_insn(DisasContextBase *dcbase, CPUState *cs)
+-    if (float32_is_any_nan(x)) {
 -        if (extract32(x, 22, 1) == 0) {
 -            float_raise(float_flag_invalid, fp_status);
 -        }
 -        ret = make_float32(0xffffffff);    /* nan */
 -    }
 -    return ret;
 -}
 -
  float32 HELPER(sffma_sc)(CPUHexagonState *env, float32 RxV,
                           float32 RsV, float32 RtV, float32 PuV)
  {
-     DisasContext *dc = container_of(dcbase, DisasContext, base);
+@@ -XXX,XX +XXX,XX @@ float32 HELPER(sffms)(CPUHexagonState *env, float32 RxV,
-     CPUNios2State *env = cs->env_ptr;
+     return RxV;
-+    const Nios2Instruction *instr;
+ }
-+    uint32_t code, pc;
-+    uint8_t op;
+-static bool is_inf_prod(int32_t a, int32_t b)
++static float32 do_sffma_lib(CPUHexagonState *env, float32 RxV,
--    dc->pc = dc->base.pc_next;
++                            float32 RsV, float32 RtV, int negate)
--    dc->base.pc_next += 4;
+ {
-+    pc = dc->base.pc_next;
+-    return (float32_is_infinity(a) && float32_is_infinity(b)) ||
-+    dc->pc = pc;
+-           (float32_is_infinity(a) && is_finite(b) && !float32_is_zero(b)) ||
-+    dc->base.pc_next = pc + 4;
+-           (float32_is_infinity(b) && is_finite(a) && !float32_is_zero(a));
++    int flags;
      /* Decode an instruction */
 -    handle_instruction(dc, env);
 +
-+#if defined(CONFIG_USER_ONLY)
++    arch_fpop_start(env);
 +    /* FIXME: Is this needed ? */
 +    if (pc >= 0x1000 && pc < 0x2000) {
 +        t_gen_helper_raise_exception(dc, 0xaa);
 +        return;
 +    }
 +#endif
 +
-+    code = cpu_ldl_code(env, pc);
++    set_float_rounding_mode(float_round_nearest_even_max, &env->fp_status);
-+    op = get_opcode(code);
++    RxV = float32_muladd(RsV, RtV, RxV,
 +                         negate | float_muladd_suppress_add_product_zero,
 +                         &env->fp_status);
 +
-+    if (unlikely(op >= ARRAY_SIZE(i_type_instructions))) {
++    flags = get_float_exception_flags(&env->fp_status);
-+        t_gen_helper_raise_exception(dc, EXCP_ILLEGAL);
++    if (flags) {
-+        return;
++        /* Flags are suppressed by this instruction. */
 +        set_float_exception_flags(0, &env->fp_status);
 +
 +        /* Return 0 for Inf - Inf. */
 +        if (flags & float_flag_invalid_isi) {
 +            RxV = 0;
 +        }
 +    }
 +
-+    dc->zero = NULL;
++    arch_fpop_end(env);
-+
++    return RxV;
 +    instr = &i_type_instructions[op];
 +    instr->handler(dc, code, instr->flags);
 +
 +    if (dc->zero) {
 +        tcg_temp_free(dc->zero);
 +    }
  }
- static void nios2_tr_tb_stop(DisasContextBase *dcbase, CPUState *cs)
+ float32 HELPER(sffma_lib)(CPUHexagonState *env, float32 RxV,
                            float32 RsV, float32 RtV)
  {
 -    bool infinp;
 -    bool infminusinf;
 -    float32 tmp;
 -
 -    arch_fpop_start(env);
 -    set_float_rounding_mode(float_round_nearest_even, &env->fp_status);
 -    infminusinf = float32_is_infinity(RxV) &&
 -                  is_inf_prod(RsV, RtV) &&
 -                  (fGETBIT(31, RsV ^ RxV ^ RtV) != 0);
 -    infinp = float32_is_infinity(RxV) ||
 -             float32_is_infinity(RtV) ||
 -             float32_is_infinity(RsV);
 -    RxV = check_nan(RxV, RxV, &env->fp_status);
 -    RxV = check_nan(RxV, RsV, &env->fp_status);
 -    RxV = check_nan(RxV, RtV, &env->fp_status);
 -    tmp = internal_fmafx(RsV, RtV, RxV, 0, &env->fp_status);
 -    if (!(float32_is_zero(RxV) && is_zero_prod(RsV, RtV))) {
 -        RxV = tmp;
 -    }
 -    set_float_exception_flags(0, &env->fp_status);
 -    if (float32_is_infinity(RxV) && !infinp) {
 -        RxV = RxV - 1;
 -    }
 -    if (infminusinf) {
 -        RxV = 0;
 -    }
 -    arch_fpop_end(env);
 -    return RxV;
 +    return do_sffma_lib(env, RxV, RsV, RtV, 0);
  }
  float32 HELPER(sffms_lib)(CPUHexagonState *env, float32 RxV,
                            float32 RsV, float32 RtV)
  {
 -    bool infinp;
 -    bool infminusinf;
 -    float32 tmp;
 -
 -    arch_fpop_start(env);
 -    set_float_rounding_mode(float_round_nearest_even, &env->fp_status);
 -    infminusinf = float32_is_infinity(RxV) &&
 -                  is_inf_prod(RsV, RtV) &&
 -                  (fGETBIT(31, RsV ^ RxV ^ RtV) == 0);
 -    infinp = float32_is_infinity(RxV) ||
 -             float32_is_infinity(RtV) ||
 -             float32_is_infinity(RsV);
 -    RxV = check_nan(RxV, RxV, &env->fp_status);
 -    RxV = check_nan(RxV, RsV, &env->fp_status);
 -    RxV = check_nan(RxV, RtV, &env->fp_status);
 -    float32 minus_RsV = float32_sub(float32_zero, RsV, &env->fp_status);
 -    tmp = internal_fmafx(minus_RsV, RtV, RxV, 0, &env->fp_status);
 -    if (!(float32_is_zero(RxV) && is_zero_prod(RsV, RtV))) {
 -        RxV = tmp;
 -    }
 -    set_float_exception_flags(0, &env->fp_status);
 -    if (float32_is_infinity(RxV) && !infinp) {
 -        RxV = RxV - 1;
 -    }
 -    if (infminusinf) {
 -        RxV = 0;
 -    }
 -    arch_fpop_end(env);
 -    return RxV;
 +    return do_sffma_lib(env, RxV, RsV, RtV, float_muladd_negate_product);
  }
  float64 HELPER(dfmpyfix)(CPUHexagonState *env, float64 RssV, float64 RttV)
 --
-.25.1
+.43.0

-[PULL 15/63] target/cris: Replace DISAS_TB_JUMP with DISAS_NORETURN
+[PULL 66/72] target/hexagon: Remove internal_fmafx
-The only semantic of DISAS_TB_JUMP is that we've done goto_tb,
+The function is now unused.
 which is the same as DISAS_NORETURN -- we've exited the tb.
-Reviewed-by: Edgar E. Iglesias <edgar.iglesias@xilinx.com>
+Reviewed-by: Brian Cain <brian.cain@oss.qualcomm.com>
 Tested-by: Edgar E. Iglesias <edgar.iglesias@xilinx.com>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- target/cris/translate.c | 7 +++----
+ target/hexagon/fma_emu.h |   2 -
-file changed, 3 insertions(+), 4 deletions(-)
+ target/hexagon/fma_emu.c | 171 ---------------------------------------
 files changed, 173 deletions(-)
-diff --git a/target/cris/translate.c b/target/cris/translate.c
+diff --git a/target/hexagon/fma_emu.h b/target/hexagon/fma_emu.h
 index XXXXXXX..XXXXXXX 100644
---- a/target/cris/translate.c
+--- a/target/hexagon/fma_emu.h
-+++ b/target/cris/translate.c
++++ b/target/hexagon/fma_emu.h
-@@ -XXX,XX +XXX,XX @@
+@@ -XXX,XX +XXX,XX @@ static inline uint32_t float32_getexp_raw(float32 f32)
- /* is_jmp field values */
+ }
- #define DISAS_JUMP    DISAS_TARGET_0 /* only pc was modified dynamically */
+ int32_t float32_getexp(float32 f32);
- #define DISAS_UPDATE  DISAS_TARGET_1 /* cpu state was modified dynamically */
+ float32 infinite_float32(uint8_t sign);
--#define DISAS_TB_JUMP DISAS_TARGET_2 /* only pc was modified statically */
+-float32 internal_fmafx(float32 a, float32 b, float32 c,
+-                       int scale, float_status *fp_status);
- /* Used by the decoder.  */
+ float64 internal_mpyhh(float64 a, float64 b,
- #define EXTRACT_FIELD(src, start, end) \
+                        unsigned long long int accumulated,
-@@ -XXX,XX +XXX,XX @@ void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int max_insns)
+                        float_status *fp_status);
-                     gen_goto_tb(dc, 1, dc->jmp_pc);
+diff --git a/target/hexagon/fma_emu.c b/target/hexagon/fma_emu.c
-                     gen_set_label(l1);
+index XXXXXXX..XXXXXXX 100644
-                     gen_goto_tb(dc, 0, dc->pc);
+--- a/target/hexagon/fma_emu.c
--                    dc->base.is_jmp = DISAS_TB_JUMP;
++++ b/target/hexagon/fma_emu.c
-+                    dc->base.is_jmp = DISAS_NORETURN;
+@@ -XXX,XX +XXX,XX @@ int32_t float64_getexp(float64 f64)
-                     dc->jmp = JMP_NOJMP;
+     return -1;
-                 } else if (dc->jmp == JMP_DIRECT) {
+ }
-                     cris_evaluate_flags(dc);
-                     gen_goto_tb(dc, 0, dc->jmp_pc);
+-static uint64_t float32_getmant(float32 f32)
--                    dc->base.is_jmp = DISAS_TB_JUMP;
+-{
-+                    dc->base.is_jmp = DISAS_NORETURN;
+-    Float a = { .i = f32 };
-                     dc->jmp = JMP_NOJMP;
+-    if (float32_is_normal(f32)) {
-                 } else {
+-        return a.mant | 1ULL << 23;
-                     TCGv c = tcg_const_tl(dc->pc);
+-    }
-@@ -XXX,XX +XXX,XX @@ void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int max_insns)
+-    if (float32_is_zero(f32)) {
-                    to find the next TB */
+-        return 0;
-             tcg_gen_exit_tb(NULL, 0);
+-    }
-             break;
+-    if (float32_is_denormal(f32)) {
--        case DISAS_TB_JUMP:
+-        return a.mant;
-+        case DISAS_NORETURN:
+-    }
-             /* nothing more to generate */
+-    return ~0ULL;
-             break;
+-}
-         }
+-
  int32_t float32_getexp(float32 f32)
  {
      Float a = { .i = f32 };
@@ -XXX,XX +XXX,XX @@ float32 infinite_float32(uint8_t sign)
  }
  /* Return a maximum finite value with the requested sign */
 -static float32 maxfinite_float32(uint8_t sign)
 -{
 -    if (sign) {
 -        return make_float32(SF_MINUS_MAXF);
 -    } else {
 -        return make_float32(SF_MAXF);
 -    }
 -}
 -
 -/* Return a zero value with requested sign */
 -static float32 zero_float32(uint8_t sign)
 -{
 -    if (sign) {
 -        return make_float32(0x80000000);
 -    } else {
 -        return float32_zero;
 -    }
 -}
 -
  #define GEN_XF_ROUND(SUFFIX, MANTBITS, INF_EXP, INTERNAL_TYPE) \
  static SUFFIX accum_round_##SUFFIX(Accum a, float_status * fp_status) \
  { \
@@ -XXX,XX +XXX,XX @@ static SUFFIX accum_round_##SUFFIX(Accum a, float_status * fp_status) \
  }
  GEN_XF_ROUND(float64, DF_MANTBITS, DF_INF_EXP, Double)
 -GEN_XF_ROUND(float32, SF_MANTBITS, SF_INF_EXP, Float)
 -
 -static bool is_inf_prod(float64 a, float64 b)
 -{
 -    return ((float64_is_infinity(a) && float64_is_infinity(b)) ||
 -            (float64_is_infinity(a) && is_finite(b) && (!float64_is_zero(b))) ||
 -            (float64_is_infinity(b) && is_finite(a) && (!float64_is_zero(a))));
 -}
 -
 -static float64 special_fma(float64 a, float64 b, float64 c,
 -                           float_status *fp_status)
 -{
 -    float64 ret = make_float64(0);
 -
 -    /*
 -     * If A multiplied by B is an exact infinity and C is also an infinity
 -     * but with the opposite sign, FMA returns NaN and raises invalid.
 -     */
 -    uint8_t a_sign = float64_is_neg(a);
 -    uint8_t b_sign = float64_is_neg(b);
 -    uint8_t c_sign = float64_is_neg(c);
 -    if (is_inf_prod(a, b) && float64_is_infinity(c)) {
 -        if ((a_sign ^ b_sign) != c_sign) {
 -            ret = make_float64(DF_NAN);
 -            float_raise(float_flag_invalid, fp_status);
 -            return ret;
 -        }
 -    }
 -    if ((float64_is_infinity(a) && float64_is_zero(b)) ||
 -        (float64_is_zero(a) && float64_is_infinity(b))) {
 -        ret = make_float64(DF_NAN);
 -        float_raise(float_flag_invalid, fp_status);
 -        return ret;
 -    }
 -    /*
 -     * If none of the above checks are true and C is a NaN,
 -     * a NaN shall be returned
 -     * If A or B are NaN, a NAN shall be returned.
 -     */
 -    if (float64_is_any_nan(a) ||
 -        float64_is_any_nan(b) ||
 -        float64_is_any_nan(c)) {
 -        if (float64_is_any_nan(a) && (fGETBIT(51, a) == 0)) {
 -            float_raise(float_flag_invalid, fp_status);
 -        }
 -        if (float64_is_any_nan(b) && (fGETBIT(51, b) == 0)) {
 -            float_raise(float_flag_invalid, fp_status);
 -        }
 -        if (float64_is_any_nan(c) && (fGETBIT(51, c) == 0)) {
 -            float_raise(float_flag_invalid, fp_status);
 -        }
 -        ret = make_float64(DF_NAN);
 -        return ret;
 -    }
 -    /*
 -     * We have checked for adding opposite-signed infinities.
 -     * Other infinities return infinity with the correct sign
 -     */
 -    if (float64_is_infinity(c)) {
 -        ret = infinite_float64(c_sign);
 -        return ret;
 -    }
 -    if (float64_is_infinity(a) || float64_is_infinity(b)) {
 -        ret = infinite_float64(a_sign ^ b_sign);
 -        return ret;
 -    }
 -    g_assert_not_reached();
 -}
 -
 -static float32 special_fmaf(float32 a, float32 b, float32 c,
 -                            float_status *fp_status)
 -{
 -    float64 aa, bb, cc;
 -    aa = float32_to_float64(a, fp_status);
 -    bb = float32_to_float64(b, fp_status);
 -    cc = float32_to_float64(c, fp_status);
 -    return float64_to_float32(special_fma(aa, bb, cc, fp_status), fp_status);
 -}
 -
 -float32 internal_fmafx(float32 a, float32 b, float32 c, int scale,
 -                       float_status *fp_status)
 -{
 -    Accum prod;
 -    Accum acc;
 -    Accum result;
 -    accum_init(&prod);
 -    accum_init(&acc);
 -    accum_init(&result);
 -
 -    uint8_t a_sign = float32_is_neg(a);
 -    uint8_t b_sign = float32_is_neg(b);
 -    uint8_t c_sign = float32_is_neg(c);
 -    if (float32_is_infinity(a) ||
 -        float32_is_infinity(b) ||
 -        float32_is_infinity(c)) {
 -        return special_fmaf(a, b, c, fp_status);
 -    }
 -    if (float32_is_any_nan(a) ||
 -        float32_is_any_nan(b) ||
 -        float32_is_any_nan(c)) {
 -        return special_fmaf(a, b, c, fp_status);
 -    }
 -    if ((scale == 0) && (float32_is_zero(a) || float32_is_zero(b))) {
 -        float32 tmp = float32_mul(a, b, fp_status);
 -        tmp = float32_add(tmp, c, fp_status);
 -        return tmp;
 -    }
 -
 -    /* (a * 2**b) * (c * 2**d) == a*c * 2**(b+d) */
 -    prod.mant = int128_mul_6464(float32_getmant(a), float32_getmant(b));
 -
 -    /*
 -     * Note: extracting the mantissa into an int is multiplying by
 -     * 2**23, so adjust here
 -     */
 -    prod.exp = float32_getexp(a) + float32_getexp(b) - SF_BIAS - 23;
 -    prod.sign = a_sign ^ b_sign;
 -    if (float32_is_zero(a) || float32_is_zero(b)) {
 -        prod.exp = -2 * WAY_BIG_EXP;
 -    }
 -    if ((scale > 0) && float32_is_denormal(c)) {
 -        acc.mant = int128_mul_6464(0, 0);
 -        acc.exp = -WAY_BIG_EXP;
 -        acc.sign = c_sign;
 -        acc.sticky = 1;
 -        result = accum_add(prod, acc);
 -    } else if (!float32_is_zero(c)) {
 -        acc.mant = int128_mul_6464(float32_getmant(c), 1);
 -        acc.exp = float32_getexp(c);
 -        acc.sign = c_sign;
 -        result = accum_add(prod, acc);
 -    } else {
 -        result = prod;
 -    }
 -    result.exp += scale;
 -    return accum_round_float32(result, fp_status);
 -}
  float64 internal_mpyhh(float64 a, float64 b,
                        unsigned long long int accumulated,
 --
-.25.1
+.43.0

-[PULL 20/63] target/cris: Mark static arrays const
+[PULL 67/72] target/hexagon: Expand GEN_XF_ROUND
-Reviewed-by: Edgar E. Iglesias <edgar.iglesias@xilinx.com>
+This massive macro is now only used once.
-Tested-by: Edgar E. Iglesias <edgar.iglesias@xilinx.com>
+Expand it for use only by float64.
 Reviewed-by: Brian Cain <brian.cain@oss.qualcomm.com>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- target/cris/translate.c         | 19 ++++++++++---------
+ target/hexagon/fma_emu.c | 255 +++++++++++++++++++--------------------
- target/cris/translate_v10.c.inc |  6 +++---
+file changed, 127 insertions(+), 128 deletions(-)
 files changed, 13 insertions(+), 12 deletions(-)
-diff --git a/target/cris/translate.c b/target/cris/translate.c
+diff --git a/target/hexagon/fma_emu.c b/target/hexagon/fma_emu.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/cris/translate.c
+--- a/target/hexagon/fma_emu.c
-+++ b/target/cris/translate.c
++++ b/target/hexagon/fma_emu.c
-@@ -XXX,XX +XXX,XX @@ static void gen_BUG(DisasContext *dc, const char *file, int line)
+@@ -XXX,XX +XXX,XX @@ float32 infinite_float32(uint8_t sign)
      cpu_abort(CPU(dc->cpu), "%s:%d pc=%x\n", file, line, dc->pc);
  }
--static const char *regnames_v32[] =
+ /* Return a maximum finite value with the requested sign */
-+static const char * const regnames_v32[] =
+-#define GEN_XF_ROUND(SUFFIX, MANTBITS, INF_EXP, INTERNAL_TYPE) \
- {
+-static SUFFIX accum_round_##SUFFIX(Accum a, float_status * fp_status) \
-     "$r0", "$r1", "$r2", "$r3",
+-{ \
-     "$r4", "$r5", "$r6", "$r7",
+-    if ((int128_gethi(a.mant) == 0) && (int128_getlo(a.mant) == 0) \
-     "$r8", "$r9", "$r10", "$r11",
+-        && ((a.guard | a.round | a.sticky) == 0)) { \
-     "$r12", "$r13", "$sp", "$acr",
+-        /* result zero */ \
- };
+-        switch (fp_status->float_rounding_mode) { \
--static const char *pregnames_v32[] =
+-        case float_round_down: \
-+
+-            return zero_##SUFFIX(1); \
-+static const char * const pregnames_v32[] =
+-        default: \
- {
+-            return zero_##SUFFIX(0); \
-     "$bz", "$vr", "$pid", "$srs",
+-        } \
-     "$wz", "$exs", "$eda", "$mof",
+-    } \
-@@ -XXX,XX +XXX,XX @@ static const char *pregnames_v32[] =
+-    /* Normalize right */ \
- };
+-    /* We want MANTBITS bits of mantissa plus the leading one. */ \
+-    /* That means that we want MANTBITS+1 bits, or 0x000000000000FF_FFFF */ \
- /* We need this table to handle preg-moves with implicit width.  */
+-    /* So we need to normalize right while the high word is non-zero and \
--static int preg_sizes[] = {
+-    * while the low word is nonzero when masked with 0xffe0_0000_0000_0000 */ \
-+static const int preg_sizes[] = {
+-    while ((int128_gethi(a.mant) != 0) || \
-, /* bz.  */
+-           ((int128_getlo(a.mant) >> (MANTBITS + 1)) != 0)) { \
-, /* vr.  */
+-        a = accum_norm_right(a, 1); \
-, /* pid.  */
+-    } \
-@@ -XXX,XX +XXX,XX @@ static inline void t_gen_swapw(TCGv d, TCGv s)
+-    /* \
-    ((T0 >> 5) & 0x02020202) |
+-     * OK, now normalize left \
-    ((T0 >> 7) & 0x01010101));
+-     * We want to normalize left until we have a leading one in bit 24 \
-  */
+-     * Theoretically, we only need to shift a maximum of one to the left if we \
--static inline void t_gen_swapr(TCGv d, TCGv s)
+-     * shifted out lots of bits from B, or if we had no shift / 1 shift sticky \
-+static void t_gen_swapr(TCGv d, TCGv s)
+-     * should be 0  \
- {
+-     */ \
--    struct {
+-    while ((int128_getlo(a.mant) & (1ULL << MANTBITS)) == 0) { \
-+    static const struct {
+-        a = accum_norm_left(a); \
-         int shift; /* LSL when positive, LSR when negative.  */
+-    } \
-         uint32_t mask;
+-    /* \
-     } bitrev[] = {
+-     * OK, now we might need to denormalize because of potential underflow. \
-@@ -XXX,XX +XXX,XX @@ static int dec_prep_alu_m(CPUCRISState *env, DisasContext *dc,
+-     * We need to do this before rounding, and rounding might make us normal \
- #if DISAS_CRIS
+-     * again \
- static const char *cc_name(int cc)
+-     */ \
- {
+-    while (a.exp <= 0) { \
--    static const char *cc_names[16] = {
+-        a = accum_norm_right(a, 1 - a.exp); \
-+    static const char * const cc_names[16] = {
+-        /* \
-         "cc", "cs", "ne", "eq", "vc", "vs", "pl", "mi",
+-         * Do we have underflow? \
-         "ls", "hi", "ge", "lt", "gt", "le", "a", "p"
+-         * That's when we get an inexact answer because we ran out of bits \
-     };
+-         * in a denormal. \
-@@ -XXX,XX +XXX,XX @@ static int dec_null(CPUCRISState *env, DisasContext *dc)
+-         */ \
-     return 2;
+-        if (a.guard || a.round || a.sticky) { \
 -            float_raise(float_flag_underflow, fp_status); \
 -        } \
 -    } \
 -    /* OK, we're relatively canonical... now we need to round */ \
 -    if (a.guard || a.round || a.sticky) { \
 -        float_raise(float_flag_inexact, fp_status); \
 -        switch (fp_status->float_rounding_mode) { \
 -        case float_round_to_zero: \
 -            /* Chop and we're done */ \
 -            break; \
 -        case float_round_up: \
 -            if (a.sign == 0) { \
 -                a.mant = int128_add(a.mant, int128_one()); \
 -            } \
 -            break; \
 -        case float_round_down: \
 -            if (a.sign != 0) { \
 -                a.mant = int128_add(a.mant, int128_one()); \
 -            } \
 -            break; \
 -        default: \
 -            if (a.round || a.sticky) { \
 -                /* round up if guard is 1, down if guard is zero */ \
 -                a.mant = int128_add(a.mant, int128_make64(a.guard)); \
 -            } else if (a.guard) { \
 -                /* exactly .5, round up if odd */ \
 -                a.mant = int128_add(a.mant, int128_and(a.mant, int128_one())); \
 -            } \
 -            break; \
 -        } \
 -    } \
 -    /* \
 -     * OK, now we might have carried all the way up. \
 -     * So we might need to shr once \
 -     * at least we know that the lsb should be zero if we rounded and \
 -     * got a carry out... \
 -     */ \
 -    if ((int128_getlo(a.mant) >> (MANTBITS + 1)) != 0) { \
 -        a = accum_norm_right(a, 1); \
 -    } \
 -    /* Overflow? */ \
 -    if (a.exp >= INF_EXP) { \
 -        /* Yep, inf result */ \
 -        float_raise(float_flag_overflow, fp_status); \
 -        float_raise(float_flag_inexact, fp_status); \
 -        switch (fp_status->float_rounding_mode) { \
 -        case float_round_to_zero: \
 -            return maxfinite_##SUFFIX(a.sign); \
 -        case float_round_up: \
 -            if (a.sign == 0) { \
 -                return infinite_##SUFFIX(a.sign); \
 -            } else { \
 -                return maxfinite_##SUFFIX(a.sign); \
 -            } \
 -        case float_round_down: \
 -            if (a.sign != 0) { \
 -                return infinite_##SUFFIX(a.sign); \
 -            } else { \
 -                return maxfinite_##SUFFIX(a.sign); \
 -            } \
 -        default: \
 -            return infinite_##SUFFIX(a.sign); \
 -        } \
 -    } \
 -    /* Underflow? */ \
 -    if (int128_getlo(a.mant) & (1ULL << MANTBITS)) { \
 -        /* Leading one means: No, we're normal. So, we should be done... */ \
 -        INTERNAL_TYPE ret; \
 -        ret.i = 0; \
 -        ret.sign = a.sign; \
 -        ret.exp = a.exp; \
 -        ret.mant = int128_getlo(a.mant); \
 -        return ret.i; \
 -    } \
 -    assert(a.exp == 1); \
 -    INTERNAL_TYPE ret; \
 -    ret.i = 0; \
 -    ret.sign = a.sign; \
 -    ret.exp = 0; \
 -    ret.mant = int128_getlo(a.mant); \
 -    return ret.i; \
 +static float64 accum_round_float64(Accum a, float_status *fp_status)
 +{
 +    if ((int128_gethi(a.mant) == 0) && (int128_getlo(a.mant) == 0)
 +        && ((a.guard | a.round | a.sticky) == 0)) {
 +        /* result zero */
 +        switch (fp_status->float_rounding_mode) {
 +        case float_round_down:
 +            return zero_float64(1);
 +        default:
 +            return zero_float64(0);
 +        }
 +    }
 +    /*
 +     * Normalize right
 +     * We want DF_MANTBITS bits of mantissa plus the leading one.
 +     * That means that we want DF_MANTBITS+1 bits, or 0x000000000000FF_FFFF
 +     * So we need to normalize right while the high word is non-zero and
 +     * while the low word is nonzero when masked with 0xffe0_0000_0000_0000
 +     */
 +    while ((int128_gethi(a.mant) != 0) ||
 +           ((int128_getlo(a.mant) >> (DF_MANTBITS + 1)) != 0)) {
 +        a = accum_norm_right(a, 1);
 +    }
 +    /*
 +     * OK, now normalize left
 +     * We want to normalize left until we have a leading one in bit 24
 +     * Theoretically, we only need to shift a maximum of one to the left if we
 +     * shifted out lots of bits from B, or if we had no shift / 1 shift sticky
 +     * should be 0
 +     */
 +    while ((int128_getlo(a.mant) & (1ULL << DF_MANTBITS)) == 0) {
 +        a = accum_norm_left(a);
 +    }
 +    /*
 +     * OK, now we might need to denormalize because of potential underflow.
 +     * We need to do this before rounding, and rounding might make us normal
 +     * again
 +     */
 +    while (a.exp <= 0) {
 +        a = accum_norm_right(a, 1 - a.exp);
 +        /*
 +         * Do we have underflow?
 +         * That's when we get an inexact answer because we ran out of bits
 +         * in a denormal.
 +         */
 +        if (a.guard || a.round || a.sticky) {
 +            float_raise(float_flag_underflow, fp_status);
 +        }
 +    }
 +    /* OK, we're relatively canonical... now we need to round */
 +    if (a.guard || a.round || a.sticky) {
 +        float_raise(float_flag_inexact, fp_status);
 +        switch (fp_status->float_rounding_mode) {
 +        case float_round_to_zero:
 +            /* Chop and we're done */
 +            break;
 +        case float_round_up:
 +            if (a.sign == 0) {
 +                a.mant = int128_add(a.mant, int128_one());
 +            }
 +            break;
 +        case float_round_down:
 +            if (a.sign != 0) {
 +                a.mant = int128_add(a.mant, int128_one());
 +            }
 +            break;
 +        default:
 +            if (a.round || a.sticky) {
 +                /* round up if guard is 1, down if guard is zero */
 +                a.mant = int128_add(a.mant, int128_make64(a.guard));
 +            } else if (a.guard) {
 +                /* exactly .5, round up if odd */
 +                a.mant = int128_add(a.mant, int128_and(a.mant, int128_one()));
 +            }
 +            break;
 +        }
 +    }
 +    /*
 +     * OK, now we might have carried all the way up.
 +     * So we might need to shr once
 +     * at least we know that the lsb should be zero if we rounded and
 +     * got a carry out...
 +     */
 +    if ((int128_getlo(a.mant) >> (DF_MANTBITS + 1)) != 0) {
 +        a = accum_norm_right(a, 1);
 +    }
 +    /* Overflow? */
 +    if (a.exp >= DF_INF_EXP) {
 +        /* Yep, inf result */
 +        float_raise(float_flag_overflow, fp_status);
 +        float_raise(float_flag_inexact, fp_status);
 +        switch (fp_status->float_rounding_mode) {
 +        case float_round_to_zero:
 +            return maxfinite_float64(a.sign);
 +        case float_round_up:
 +            if (a.sign == 0) {
 +                return infinite_float64(a.sign);
 +            } else {
 +                return maxfinite_float64(a.sign);
 +            }
 +        case float_round_down:
 +            if (a.sign != 0) {
 +                return infinite_float64(a.sign);
 +            } else {
 +                return maxfinite_float64(a.sign);
 +            }
 +        default:
 +            return infinite_float64(a.sign);
 +        }
 +    }
 +    /* Underflow? */
 +    if (int128_getlo(a.mant) & (1ULL << DF_MANTBITS)) {
 +        /* Leading one means: No, we're normal. So, we should be done... */
 +        Double ret;
 +        ret.i = 0;
 +        ret.sign = a.sign;
 +        ret.exp = a.exp;
 +        ret.mant = int128_getlo(a.mant);
 +        return ret.i;
 +    }
 +    assert(a.exp == 1);
 +    Double ret;
 +    ret.i = 0;
 +    ret.sign = a.sign;
 +    ret.exp = 0;
 +    ret.mant = int128_getlo(a.mant);
 +    return ret.i;
  }
--static struct decoder_info {
+-GEN_XF_ROUND(float64, DF_MANTBITS, DF_INF_EXP, Double)
-+static const struct decoder_info {
+-
-     struct {
+ float64 internal_mpyhh(float64 a, float64 b,
-         uint32_t bits;
+                       unsigned long long int accumulated,
-         uint32_t mask;
+                       float_status *fp_status)
@@ -XXX,XX +XXX,XX @@ void cris_cpu_dump_state(CPUState *cs, FILE *f, int flags)
  {
      CRISCPU *cpu = CRIS_CPU(cs);
      CPUCRISState *env = &cpu->env;
 -    const char **regnames;
 -    const char **pregnames;
 +    const char * const *regnames;
 +    const char * const *pregnames;
      int i;
      if (!env) {
 diff --git a/target/cris/translate_v10.c.inc b/target/cris/translate_v10.c.inc
 index XXXXXXX..XXXXXXX 100644
 --- a/target/cris/translate_v10.c.inc
 +++ b/target/cris/translate_v10.c.inc
@@ -XXX,XX +XXX,XX @@
  #include "qemu/osdep.h"
  #include "crisv10-decode.h"
 -static const char *regnames_v10[] =
 +static const char * const regnames_v10[] =
  {
      "$r0", "$r1", "$r2", "$r3",
      "$r4", "$r5", "$r6", "$r7",
@@ -XXX,XX +XXX,XX @@ static const char *regnames_v10[] =
      "$r12", "$r13", "$sp", "$pc",
  };
 -static const char *pregnames_v10[] =
 +static const char * const pregnames_v10[] =
  {
      "$bz", "$vr", "$p2", "$p3",
      "$wz", "$ccr", "$p6-prefix", "$mof",
@@ -XXX,XX +XXX,XX @@ static const char *pregnames_v10[] =
  };
  /* We need this table to handle preg-moves with implicit width.  */
 -static int preg_sizes_v10[] = {
 +static const int preg_sizes_v10[] = {
 , /* bz.  */
 , /* vr.  */
 , /* pid. */
 --
-.25.1
+.43.0

-[PULL 14/63] target/cris: Remove DISAS_SWI
+[PULL 68/72] target/hexagon: Remove Float
-This value is unused.
+This structure, with bitfields, is incorrect for big-endian.
 Use the existing float32_getexp_raw which uses extract32.
-Reviewed-by: Edgar E. Iglesias <edgar.iglesias@xilinx.com>
+Reviewed-by: Brian Cain <brian.cain@oss.qualcomm.com>
 Tested-by: Edgar E. Iglesias <edgar.iglesias@xilinx.com>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- target/cris/translate.c | 2 --
+ target/hexagon/fma_emu.c | 16 +++-------------
-file changed, 2 deletions(-)
+file changed, 3 insertions(+), 13 deletions(-)
-diff --git a/target/cris/translate.c b/target/cris/translate.c
+diff --git a/target/hexagon/fma_emu.c b/target/hexagon/fma_emu.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/cris/translate.c
+--- a/target/hexagon/fma_emu.c
-+++ b/target/cris/translate.c
++++ b/target/hexagon/fma_emu.c
-@@ -XXX,XX +XXX,XX @@
+@@ -XXX,XX +XXX,XX @@ typedef union {
- #define DISAS_JUMP    DISAS_TARGET_0 /* only pc was modified dynamically */
+     };
- #define DISAS_UPDATE  DISAS_TARGET_1 /* cpu state was modified dynamically */
+ } Double;
- #define DISAS_TB_JUMP DISAS_TARGET_2 /* only pc was modified statically */
--#define DISAS_SWI     DISAS_TARGET_3
+-typedef union {
+-    float f;
- /* Used by the decoder.  */
+-    uint32_t i;
- #define EXTRACT_FIELD(src, start, end) \
+-    struct {
-@@ -XXX,XX +XXX,XX @@ void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int max_insns)
+-        uint32_t mant:23;
-                    to find the next TB */
+-        uint32_t exp:8;
-             tcg_gen_exit_tb(NULL, 0);
+-        uint32_t sign:1;
-             break;
+-    };
--        case DISAS_SWI:
+-} Float;
-         case DISAS_TB_JUMP:
+-
-             /* nothing more to generate */
+ static uint64_t float64_getmant(float64 f64)
-             break;
+ {
      Double a = { .i = f64 };
@@ -XXX,XX +XXX,XX @@ int32_t float64_getexp(float64 f64)
  int32_t float32_getexp(float32 f32)
  {
 -    Float a = { .i = f32 };
 +    int exp = float32_getexp_raw(f32);
      if (float32_is_normal(f32)) {
 -        return a.exp;
 +        return exp;
      }
      if (float32_is_denormal(f32)) {
 -        return a.exp + 1;
 +        return exp + 1;
      }
      return -1;
  }
 --
-.25.1
+.43.0

-[PULL 05/63] target/nios2: Convert to TranslatorOps
+[PULL 69/72] target/hexagon: Remove Double
-Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
+This structure, with bitfields, is incorrect for big-endian.
 Use extract64 and deposit64 instead.
 Reviewed-by: Brian Cain <brian.cain@oss.qualcomm.com>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- target/nios2/translate.c | 128 ++++++++++++++++++++-------------------
+ target/hexagon/fma_emu.c | 46 ++++++++++++++--------------------------
-file changed, 65 insertions(+), 63 deletions(-)
+file changed, 16 insertions(+), 30 deletions(-)
-diff --git a/target/nios2/translate.c b/target/nios2/translate.c
+diff --git a/target/hexagon/fma_emu.c b/target/hexagon/fma_emu.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/nios2/translate.c
+--- a/target/hexagon/fma_emu.c
-+++ b/target/nios2/translate.c
++++ b/target/hexagon/fma_emu.c
-@@ -XXX,XX +XXX,XX @@ static void gen_exception(DisasContext *dc, uint32_t excp)
+@@ -XXX,XX +XXX,XX @@
  #define WAY_BIG_EXP 4096
 -typedef union {
 -    double f;
 -    uint64_t i;
 -    struct {
 -        uint64_t mant:52;
 -        uint64_t exp:11;
 -        uint64_t sign:1;
 -    };
 -} Double;
 -
  static uint64_t float64_getmant(float64 f64)
  {
 -    Double a = { .i = f64 };
 +    uint64_t mant = extract64(f64, 0, 52);
      if (float64_is_normal(f64)) {
 -        return a.mant | 1ULL << 52;
 +        return mant | 1ULL << 52;
      }
      if (float64_is_zero(f64)) {
          return 0;
      }
      if (float64_is_denormal(f64)) {
 -        return a.mant;
 +        return mant;
      }
      return ~0ULL;
  }
- /* generate intermediate code for basic block 'tb'.  */
+ int32_t float64_getexp(float64 f64)
 -void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int max_insns)
 +static void nios2_tr_init_disas_context(DisasContextBase *dcbase, CPUState *cs)
  {
-+    DisasContext *dc = container_of(dcbase, DisasContext, base);
+-    Double a = { .i = f64 };
-     CPUNios2State *env = cs->env_ptr;
++    int exp = extract64(f64, 52, 11);
--    DisasContext dc1, *dc = &dc1;
+     if (float64_is_normal(f64)) {
--    int num_insns;
+-        return a.exp;
--
++        return exp;
--    /* Initialize DC */
+     }
--
+     if (float64_is_denormal(f64)) {
--    dc->base.tb = tb;
+-        return a.exp + 1;
--    dc->base.singlestep_enabled = cs->singlestep_enabled;
++        return exp + 1;
--    dc->base.is_jmp = DISAS_NEXT;
+     }
--    dc->base.pc_first = tb->pc;
+     return -1;
--    dc->base.pc_next = tb->pc;
+ }
-+    int page_insns;
+@@ -XXX,XX +XXX,XX @@ float32 infinite_float32(uint8_t sign)
+ /* Return a maximum finite value with the requested sign */
-     dc->mem_idx = cpu_mmu_index(env, false);
+ static float64 accum_round_float64(Accum a, float_status *fp_status)
+ {
--    /* Set up instruction counts */
++    uint64_t ret;
 -    num_insns = 0;
 -    if (max_insns > 1) {
 -        int page_insns = (TARGET_PAGE_SIZE - (tb->pc & ~TARGET_PAGE_MASK)) / 4;
 -        if (max_insns > page_insns) {
 -            max_insns = page_insns;
 -        }
 -    }
 +    /* Bound the number of insns to execute to those left on the page.  */
 +    page_insns = -(dc->base.pc_first | TARGET_PAGE_MASK) / 4;
 +    dc->base.max_insns = MIN(page_insns, dc->base.max_insns);
 +}
 -    gen_tb_start(tb);
 -    do {
 -        tcg_gen_insn_start(dc->base.pc_next);
 -        num_insns++;
 +static void nios2_tr_tb_start(DisasContextBase *db, CPUState *cs)
 +{
 +}
 -        if (unlikely(cpu_breakpoint_test(cs, dc->base.pc_next, BP_ANY))) {
 -            gen_exception(dc, EXCP_DEBUG);
 -            /* The address covered by the breakpoint must be included in
 -               [tb->pc, tb->pc + tb->size) in order to for it to be
 -               properly cleared -- thus we increment the PC here so that
 -               the logic setting tb->size below does the right thing.  */
 -            dc->pc += 4;
 -            break;
 -        }
 +static void nios2_tr_insn_start(DisasContextBase *dcbase, CPUState *cs)
 +{
 +    tcg_gen_insn_start(dcbase->pc_next);
 +}
 -        if (num_insns == max_insns && (tb_cflags(tb) & CF_LAST_IO)) {
 -            gen_io_start();
 -        }
 +static bool nios2_tr_breakpoint_check(DisasContextBase *dcbase, CPUState *cs,
 +                                      const CPUBreakpoint *bp)
 +{
 +    DisasContext *dc = container_of(dcbase, DisasContext, base);
 -        dc->pc = dc->base.pc_next;
 -        dc->base.pc_next += 4;
 +    gen_exception(dc, EXCP_DEBUG);
 +    /*
 +     * The address covered by the breakpoint must be included in
 +     * [tb->pc, tb->pc + tb->size) in order to for it to be
 +     * properly cleared -- thus we increment the PC here so that
 +     * the logic setting tb->size below does the right thing.
 +     */
 +    dc->base.pc_next += 4;
 +    return true;
 +}
 -        /* Decode an instruction */
 -        handle_instruction(dc, env);
 +static void nios2_tr_translate_insn(DisasContextBase *dcbase, CPUState *cs)
 +{
 +    DisasContext *dc = container_of(dcbase, DisasContext, base);
 +    CPUNios2State *env = cs->env_ptr;
 -        /* Translation stops when a conditional branch is encountered.
 -         * Otherwise the subsequent code could get translated several times.
 -         * Also stop translation when a page boundary is reached.  This
 -         * ensures prefetch aborts occur at the right place.  */
 -    } while (!dc->base.is_jmp &&
 -             !tcg_op_buf_full() &&
 -             num_insns < max_insns);
 +    dc->pc = dc->base.pc_next;
 +    dc->base.pc_next += 4;
 +
-+    /* Decode an instruction */
+     if ((int128_gethi(a.mant) == 0) && (int128_getlo(a.mant) == 0)
-+    handle_instruction(dc, env);
+         && ((a.guard | a.round | a.sticky) == 0)) {
-+}
+         /* result zero */
-+
+@@ -XXX,XX +XXX,XX @@ static float64 accum_round_float64(Accum a, float_status *fp_status)
-+static void nios2_tr_tb_stop(DisasContextBase *dcbase, CPUState *cs)
+         }
 +{
 +    DisasContext *dc = container_of(dcbase, DisasContext, base);
      /* Indicate where the next block should start */
      switch (dc->base.is_jmp) {
 -    case DISAS_NEXT:
 +    case DISAS_TOO_MANY:
      case DISAS_UPDATE:
          /* Save the current PC back into the CPU register */
          tcg_gen_movi_tl(cpu_R[R_PC], dc->base.pc_next);
          tcg_gen_exit_tb(NULL, 0);
          break;
 -    default:
      case DISAS_JUMP:
          /* The jump will already have updated the PC register */
          tcg_gen_exit_tb(NULL, 0);
@@ -XXX,XX +XXX,XX @@ void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int max_insns)
      case DISAS_NORETURN:
          /* nothing more to generate */
          break;
 +
 +    default:
 +        g_assert_not_reached();
      }
-+}
+     /* Underflow? */
+-    if (int128_getlo(a.mant) & (1ULL << DF_MANTBITS)) {
--    /* End off the block */
++    ret = int128_getlo(a.mant);
--    gen_tb_end(tb, num_insns);
++    if (ret & (1ULL << DF_MANTBITS)) {
-+static void nios2_tr_disas_log(const DisasContextBase *dcbase, CPUState *cpu)
+         /* Leading one means: No, we're normal. So, we should be done... */
-+{
+-        Double ret;
-+    qemu_log("IN: %s\n", lookup_symbol(dcbase->pc_first));
+-        ret.i = 0;
-+    log_target_disas(cpu, dcbase->pc_first, dcbase->tb->size);
+-        ret.sign = a.sign;
-+}
+-        ret.exp = a.exp;
+-        ret.mant = int128_getlo(a.mant);
--    /* Mark instruction starts for the final generated instruction */
+-        return ret.i;
--    tb->size = dc->base.pc_next - dc->base.pc_first;
++        ret = deposit64(ret, 52, 11, a.exp);
--    tb->icount = num_insns;
++    } else {
-+static const TranslatorOps nios2_tr_ops = {
++        assert(a.exp == 1);
-+    .init_disas_context = nios2_tr_init_disas_context,
++        ret = deposit64(ret, 52, 11, 0);
-+    .tb_start           = nios2_tr_tb_start,
+     }
-+    .insn_start         = nios2_tr_insn_start,
+-    assert(a.exp == 1);
-+    .breakpoint_check   = nios2_tr_breakpoint_check,
+-    Double ret;
-+    .translate_insn     = nios2_tr_translate_insn,
+-    ret.i = 0;
-+    .tb_stop            = nios2_tr_tb_stop,
+-    ret.sign = a.sign;
-+    .disas_log          = nios2_tr_disas_log,
+-    ret.exp = 0;
-+};
+-    ret.mant = int128_getlo(a.mant);
+-    return ret.i;
--#ifdef DEBUG_DISAS
++    ret = deposit64(ret, 63, 1, a.sign);
--    if (qemu_loglevel_mask(CPU_LOG_TB_IN_ASM)
++    return ret;
 -        && qemu_log_in_addr_range(dc->base.pc_first)) {
 -        FILE *logfile = qemu_log_lock();
 -        qemu_log("IN: %s\n", lookup_symbol(dc->base.pc_first));
 -        log_target_disas(cs, tb->pc, tb->size);
 -        qemu_log("\n");
 -        qemu_log_unlock(logfile);
 -    }
 -#endif
 +void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int max_insns)
 +{
 +    DisasContext dc;
 +    translator_loop(&nios2_tr_ops, &dc.base, cs, tb, max_insns);
  }
- void nios2_cpu_dump_state(CPUState *cs, FILE *f, int flags)
+ float64 internal_mpyhh(float64 a, float64 b,
 --
-.25.1
+.43.0

-[PULL 37/63] tcg/aarch64: Merge tcg_out_rev{16,32,64}
+[PULL 70/72] target/hexagon: Use mulu64 for int128_mul_6464
-Pass in the input and output size.  We currently use 3 of the 5
+No need to open-code 64x64->128-bit multiplication.
 possible combinations; the others may be used by new tcg opcodes.
-Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
+Reviewed-by: Brian Cain <brian.cain@oss.qualcomm.com>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- tcg/aarch64/tcg-target.c.inc | 42 ++++++++++++++----------------------
+ target/hexagon/fma_emu.c | 32 +++-----------------------------
-file changed, 16 insertions(+), 26 deletions(-)
+file changed, 3 insertions(+), 29 deletions(-)
-diff --git a/tcg/aarch64/tcg-target.c.inc b/tcg/aarch64/tcg-target.c.inc
+diff --git a/target/hexagon/fma_emu.c b/target/hexagon/fma_emu.c
 index XXXXXXX..XXXXXXX 100644
---- a/tcg/aarch64/tcg-target.c.inc
+--- a/target/hexagon/fma_emu.c
-+++ b/tcg/aarch64/tcg-target.c.inc
++++ b/target/hexagon/fma_emu.c
-@@ -XXX,XX +XXX,XX @@ typedef enum {
+@@ -XXX,XX +XXX,XX @@ int32_t float32_getexp(float32 f32)
-     /* Data-processing (1 source) instructions.  */
+     return -1;
      I3507_CLZ       = 0x5ac01000,
      I3507_RBIT      = 0x5ac00000,
 -    I3507_REV16     = 0x5ac00400,
 -    I3507_REV32     = 0x5ac00800,
 -    I3507_REV64     = 0x5ac00c00,
 +    I3507_REV       = 0x5ac00000, /* + size << 10 */
      /* Data-processing (2 source) instructions.  */
      I3508_LSLV      = 0x1ac02000,
@@ -XXX,XX +XXX,XX @@ static void tcg_out_brcond(TCGContext *s, TCGType ext, TCGCond c, TCGArg a,
      }
  }
--static inline void tcg_out_rev64(TCGContext *s, TCGReg rd, TCGReg rn)
+-static uint32_t int128_getw0(Int128 x)
-+static inline void tcg_out_rev(TCGContext *s, int ext, MemOp s_bits,
+-{
-+                               TCGReg rd, TCGReg rn)
+-    return int128_getlo(x);
  {
 -    tcg_out_insn(s, 3507, REV64, TCG_TYPE_I64, rd, rn);
 -}
 -
--static inline void tcg_out_rev32(TCGContext *s, TCGReg rd, TCGReg rn)
+-static uint32_t int128_getw1(Int128 x)
 -{
--    tcg_out_insn(s, 3507, REV32, TCG_TYPE_I32, rd, rn);
+-    return int128_getlo(x) >> 32;
 -}
 -
--static inline void tcg_out_rev16(TCGContext *s, TCGReg rd, TCGReg rn)
+ static Int128 int128_mul_6464(uint64_t ai, uint64_t bi)
--{
+ {
--    tcg_out_insn(s, 3507, REV16, TCG_TYPE_I32, rd, rn);
+-    Int128 a, b;
-+    /* REV, REV16, REV32 */
+-    uint64_t pp0, pp1a, pp1b, pp1s, pp2;
-+    tcg_out_insn_3507(s, I3507_REV | (s_bits << 10), ext, rd, rn);
++    uint64_t l, h;
 -    a = int128_make64(ai);
 -    b = int128_make64(bi);
 -    pp0 = (uint64_t)int128_getw0(a) * (uint64_t)int128_getw0(b);
 -    pp1a = (uint64_t)int128_getw1(a) * (uint64_t)int128_getw0(b);
 -    pp1b = (uint64_t)int128_getw1(b) * (uint64_t)int128_getw0(a);
 -    pp2 = (uint64_t)int128_getw1(a) * (uint64_t)int128_getw1(b);
 -
 -    pp1s = pp1a + pp1b;
 -    if ((pp1s < pp1a) || (pp1s < pp1b)) {
 -        pp2 += (1ULL << 32);
 -    }
 -    uint64_t ret_low = pp0 + (pp1s << 32);
 -    if ((ret_low < pp0) || (ret_low < (pp1s << 32))) {
 -        pp2 += 1;
 -    }
 -
 -    return int128_make128(ret_low, pp2 + (pp1s >> 32));
 +    mulu64(&l, &h, ai, bi);
 +    return int128_make128(l, h);
  }
- static inline void tcg_out_sxt(TCGContext *s, TCGType ext, MemOp s_bits,
+ static Int128 int128_sub_borrow(Int128 a, Int128 b, int borrow)
@@ -XXX,XX +XXX,XX @@ static void tcg_out_qemu_ld_direct(TCGContext *s, MemOp memop, TCGType ext,
      case MO_UW:
          tcg_out_ldst_r(s, I3312_LDRH, data_r, addr_r, otype, off_r);
          if (bswap) {
 -            tcg_out_rev16(s, data_r, data_r);
 +            tcg_out_rev(s, TCG_TYPE_I32, MO_16, data_r, data_r);
          }
          break;
      case MO_SW:
          if (bswap) {
              tcg_out_ldst_r(s, I3312_LDRH, data_r, addr_r, otype, off_r);
 -            tcg_out_rev16(s, data_r, data_r);
 +            tcg_out_rev(s, TCG_TYPE_I32, MO_16, data_r, data_r);
              tcg_out_sxt(s, ext, MO_16, data_r, data_r);
          } else {
              tcg_out_ldst_r(s, (ext ? I3312_LDRSHX : I3312_LDRSHW),
@@ -XXX,XX +XXX,XX @@ static void tcg_out_qemu_ld_direct(TCGContext *s, MemOp memop, TCGType ext,
      case MO_UL:
          tcg_out_ldst_r(s, I3312_LDRW, data_r, addr_r, otype, off_r);
          if (bswap) {
 -            tcg_out_rev32(s, data_r, data_r);
 +            tcg_out_rev(s, TCG_TYPE_I32, MO_32, data_r, data_r);
          }
          break;
      case MO_SL:
          if (bswap) {
              tcg_out_ldst_r(s, I3312_LDRW, data_r, addr_r, otype, off_r);
 -            tcg_out_rev32(s, data_r, data_r);
 +            tcg_out_rev(s, TCG_TYPE_I32, MO_32, data_r, data_r);
              tcg_out_sxt(s, TCG_TYPE_I64, MO_32, data_r, data_r);
          } else {
              tcg_out_ldst_r(s, I3312_LDRSWX, data_r, addr_r, otype, off_r);
@@ -XXX,XX +XXX,XX @@ static void tcg_out_qemu_ld_direct(TCGContext *s, MemOp memop, TCGType ext,
      case MO_Q:
          tcg_out_ldst_r(s, I3312_LDRX, data_r, addr_r, otype, off_r);
          if (bswap) {
 -            tcg_out_rev64(s, data_r, data_r);
 +            tcg_out_rev(s, TCG_TYPE_I64, MO_64, data_r, data_r);
          }
          break;
      default:
@@ -XXX,XX +XXX,XX @@ static void tcg_out_qemu_st_direct(TCGContext *s, MemOp memop,
          break;
      case MO_16:
          if (bswap && data_r != TCG_REG_XZR) {
 -            tcg_out_rev16(s, TCG_REG_TMP, data_r);
 +            tcg_out_rev(s, TCG_TYPE_I32, MO_16, TCG_REG_TMP, data_r);
              data_r = TCG_REG_TMP;
          }
          tcg_out_ldst_r(s, I3312_STRH, data_r, addr_r, otype, off_r);
          break;
      case MO_32:
          if (bswap && data_r != TCG_REG_XZR) {
 -            tcg_out_rev32(s, TCG_REG_TMP, data_r);
 +            tcg_out_rev(s, TCG_TYPE_I32, MO_32, TCG_REG_TMP, data_r);
              data_r = TCG_REG_TMP;
          }
          tcg_out_ldst_r(s, I3312_STRW, data_r, addr_r, otype, off_r);
          break;
      case MO_64:
          if (bswap && data_r != TCG_REG_XZR) {
 -            tcg_out_rev64(s, TCG_REG_TMP, data_r);
 +            tcg_out_rev(s, TCG_TYPE_I64, MO_64, TCG_REG_TMP, data_r);
              data_r = TCG_REG_TMP;
          }
          tcg_out_ldst_r(s, I3312_STRX, data_r, addr_r, otype, off_r);
@@ -XXX,XX +XXX,XX @@ static void tcg_out_op(TCGContext *s, TCGOpcode opc,
          break;
      case INDEX_op_bswap64_i64:
 -        tcg_out_rev64(s, a0, a1);
 +        tcg_out_rev(s, TCG_TYPE_I64, MO_64, a0, a1);
          break;
      case INDEX_op_bswap32_i64:
      case INDEX_op_bswap32_i32:
 -        tcg_out_rev32(s, a0, a1);
 +        tcg_out_rev(s, TCG_TYPE_I32, MO_32, a0, a1);
          break;
      case INDEX_op_bswap16_i64:
      case INDEX_op_bswap16_i32:
 -        tcg_out_rev16(s, a0, a1);
 +        tcg_out_rev(s, TCG_TYPE_I32, MO_16, a0, a1);
          break;
      case INDEX_op_ext8s_i64:
 --
-.25.1
+.43.0

-[PULL 19/63] target/cris: Mark helper_raise_exception noreturn
+[PULL 71/72] target/hexagon: Simplify internal_mpyhh setup
-Reviewed-by: Edgar E. Iglesias <edgar.iglesias@xilinx.com>
+Initialize x with accumulated via direct assignment,
-Tested-by: Edgar E. Iglesias <edgar.iglesias@xilinx.com>
+rather than multiplying by 1.
 Reviewed-by: Brian Cain <brian.cain@oss.qualcomm.com>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- target/cris/helper.h | 2 +-
+ target/hexagon/fma_emu.c | 2 +-
 file changed, 1 insertion(+), 1 deletion(-)
-diff --git a/target/cris/helper.h b/target/cris/helper.h
+diff --git a/target/hexagon/fma_emu.c b/target/hexagon/fma_emu.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/cris/helper.h
+--- a/target/hexagon/fma_emu.c
-+++ b/target/cris/helper.h
++++ b/target/hexagon/fma_emu.c
-@@ -XXX,XX +XXX,XX @@
+@@ -XXX,XX +XXX,XX @@ float64 internal_mpyhh(float64 a, float64 b,
--DEF_HELPER_2(raise_exception, void, env, i32)
+         float64_is_infinity(b)) {
-+DEF_HELPER_2(raise_exception, noreturn, env, i32)
+         return float64_mul(a, b, fp_status);
- DEF_HELPER_2(tlb_flush_pid, void, env, i32)
+     }
- DEF_HELPER_2(spc_write, void, env, i32)
+-    x.mant = int128_mul_6464(accumulated, 1);
- DEF_HELPER_1(rfe, void, env)
++    x.mant = int128_make64(accumulated);
      x.sticky = sticky;
      prod = fGETUWORD(1, float64_getmant(a)) * fGETUWORD(1, float64_getmant(b));
      x.mant = int128_add(x.mant, int128_mul_6464(prod, 0x100000000ULL));
 --
-.25.1
+.43.0

-[PULL 52/63] tcg: Add flags argument to tcg_gen_bswap16_*, tcg_gen_bswap32_i64
+[PULL 72/72] accel/tcg: Move gen_intermediate_code to TCGCPUOps.translate_core
-Implement the new semantics in the fallback expansion.
+Convert all targets simultaneously, as the gen_intermediate_code
-Change all callers to supply the flags that keep the
+function disappears from the target.  While there are possible
-semantics unchanged locally.
+workarounds, they're larger than simply performing the conversion.
-Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
+Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
 Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- include/tcg/tcg-op.h            |   8 +--
+ include/exec/translator.h        | 14 --------------
- target/arm/translate-a64.c      |  12 ++--
+ include/hw/core/tcg-cpu-ops.h    | 13 +++++++++++++
- target/arm/translate.c          |   2 +-
+ target/alpha/cpu.h               |  2 ++
- target/i386/tcg/translate.c     |   2 +-
+ target/arm/internals.h           |  2 ++
- target/mips/tcg/mxu_translate.c |   2 +-
+ target/avr/cpu.h                 |  2 ++
- target/s390x/translate.c        |   4 +-
+ target/hexagon/cpu.h             |  2 ++
- target/sh4/translate.c          |   2 +-
+ target/hppa/cpu.h                |  2 ++
- tcg/tcg-op.c                    | 121 ++++++++++++++++++++++----------
+ target/i386/tcg/helper-tcg.h     |  2 ++
-files changed, 99 insertions(+), 54 deletions(-)
+ target/loongarch/internals.h     |  2 ++
  target/m68k/cpu.h                |  2 ++
  target/microblaze/cpu.h          |  2 ++
  target/mips/tcg/tcg-internal.h   |  2 ++
  target/openrisc/cpu.h            |  2 ++
  target/ppc/cpu.h                 |  2 ++
  target/riscv/cpu.h               |  3 +++
  target/rx/cpu.h                  |  2 ++
  target/s390x/s390x-internal.h    |  2 ++
  target/sh4/cpu.h                 |  2 ++
  target/sparc/cpu.h               |  2 ++
  target/tricore/cpu.h             |  2 ++
  target/xtensa/cpu.h              |  2 ++
  accel/tcg/cpu-exec.c             |  8 +++++---
  accel/tcg/translate-all.c        |  8 +++++---
  target/alpha/cpu.c               |  1 +
  target/alpha/translate.c         |  4 ++--
  target/arm/cpu.c                 |  1 +
  target/arm/tcg/cpu-v7m.c         |  1 +
  target/arm/tcg/translate.c       |  5 ++---
  target/avr/cpu.c                 |  1 +
  target/avr/translate.c           |  6 +++---
  target/hexagon/cpu.c             |  1 +
  target/hexagon/translate.c       |  4 ++--
  target/hppa/cpu.c                |  1 +
  target/hppa/translate.c          |  4 ++--
  target/i386/tcg/tcg-cpu.c        |  1 +
  target/i386/tcg/translate.c      |  5 ++---
  target/loongarch/cpu.c           |  1 +
  target/loongarch/tcg/translate.c |  4 ++--
  target/m68k/cpu.c                |  1 +
  target/m68k/translate.c          |  4 ++--
  target/microblaze/cpu.c          |  1 +
  target/microblaze/translate.c    |  4 ++--
  target/mips/cpu.c                |  1 +
  target/mips/tcg/translate.c      |  4 ++--
  target/openrisc/cpu.c            |  1 +
  target/openrisc/translate.c      |  4 ++--
  target/ppc/cpu_init.c            |  1 +
  target/ppc/translate.c           |  4 ++--
  target/riscv/tcg/tcg-cpu.c       |  1 +
  target/riscv/translate.c         |  4 ++--
  target/rx/cpu.c                  |  1 +
  target/rx/translate.c            |  4 ++--
  target/s390x/cpu.c               |  1 +
  target/s390x/tcg/translate.c     |  4 ++--
  target/sh4/cpu.c                 |  1 +
  target/sh4/translate.c           |  4 ++--
  target/sparc/cpu.c               |  1 +
  target/sparc/translate.c         |  4 ++--
  target/tricore/cpu.c             |  1 +
  target/tricore/translate.c       |  5 ++---
  target/xtensa/cpu.c              |  1 +
  target/xtensa/translate.c        |  4 ++--
 files changed, 121 insertions(+), 62 deletions(-)
-diff --git a/include/tcg/tcg-op.h b/include/tcg/tcg-op.h
+diff --git a/include/exec/translator.h b/include/exec/translator.h
 index XXXXXXX..XXXXXXX 100644
---- a/include/tcg/tcg-op.h
+--- a/include/exec/translator.h
-+++ b/include/tcg/tcg-op.h
++++ b/include/exec/translator.h
-@@ -XXX,XX +XXX,XX @@ void tcg_gen_ext8s_i32(TCGv_i32 ret, TCGv_i32 arg);
+@@ -XXX,XX +XXX,XX @@
- void tcg_gen_ext16s_i32(TCGv_i32 ret, TCGv_i32 arg);
+ #include "qemu/bswap.h"
- void tcg_gen_ext8u_i32(TCGv_i32 ret, TCGv_i32 arg);
+ #include "exec/vaddr.h"
- void tcg_gen_ext16u_i32(TCGv_i32 ret, TCGv_i32 arg);
--void tcg_gen_bswap16_i32(TCGv_i32 ret, TCGv_i32 arg);
+-/**
-+void tcg_gen_bswap16_i32(TCGv_i32 ret, TCGv_i32 arg, int flags);
+- * gen_intermediate_code
- void tcg_gen_bswap32_i32(TCGv_i32 ret, TCGv_i32 arg);
+- * @cpu: cpu context
- void tcg_gen_smin_i32(TCGv_i32, TCGv_i32 arg1, TCGv_i32 arg2);
+- * @tb: translation block
- void tcg_gen_smax_i32(TCGv_i32, TCGv_i32 arg1, TCGv_i32 arg2);
+- * @max_insns: max number of instructions to translate
-@@ -XXX,XX +XXX,XX @@ void tcg_gen_ext32s_i64(TCGv_i64 ret, TCGv_i64 arg);
+- * @pc: guest virtual program counter address
- void tcg_gen_ext8u_i64(TCGv_i64 ret, TCGv_i64 arg);
+- * @host_pc: host physical program counter address
- void tcg_gen_ext16u_i64(TCGv_i64 ret, TCGv_i64 arg);
+- *
- void tcg_gen_ext32u_i64(TCGv_i64 ret, TCGv_i64 arg);
+- * This function must be provided by the target, which should create
--void tcg_gen_bswap16_i64(TCGv_i64 ret, TCGv_i64 arg);
+- * the target-specific DisasContext, and then invoke translator_loop.
--void tcg_gen_bswap32_i64(TCGv_i64 ret, TCGv_i64 arg);
+- */
-+void tcg_gen_bswap16_i64(TCGv_i64 ret, TCGv_i64 arg, int flags);
+-void gen_intermediate_code(CPUState *cpu, TranslationBlock *tb, int *max_insns,
-+void tcg_gen_bswap32_i64(TCGv_i64 ret, TCGv_i64 arg, int flags);
+-                           vaddr pc, void *host_pc);
- void tcg_gen_bswap64_i64(TCGv_i64 ret, TCGv_i64 arg);
+-
- void tcg_gen_smin_i64(TCGv_i64, TCGv_i64 arg1, TCGv_i64 arg2);
+ /**
- void tcg_gen_smax_i64(TCGv_i64, TCGv_i64 arg1, TCGv_i64 arg2);
+  * DisasJumpType:
-@@ -XXX,XX +XXX,XX @@ void tcg_gen_stl_vec(TCGv_vec r, TCGv_ptr base, TCGArg offset, TCGType t);
+  * @DISAS_NEXT: Next instruction in program order.
- #define tcg_gen_ext32u_tl tcg_gen_mov_i32
+diff --git a/include/hw/core/tcg-cpu-ops.h b/include/hw/core/tcg-cpu-ops.h
- #define tcg_gen_ext32s_tl tcg_gen_mov_i32
+index XXXXXXX..XXXXXXX 100644
- #define tcg_gen_bswap16_tl tcg_gen_bswap16_i32
+--- a/include/hw/core/tcg-cpu-ops.h
--#define tcg_gen_bswap32_tl tcg_gen_bswap32_i32
++++ b/include/hw/core/tcg-cpu-ops.h
-+#define tcg_gen_bswap32_tl(D, S, F) tcg_gen_bswap32_i32(D, S)
+@@ -XXX,XX +XXX,XX @@ struct TCGCPUOps {
- #define tcg_gen_bswap_tl tcg_gen_bswap32_i32
+      * Called when the first CPU is realized.
- #define tcg_gen_concat_tl_i64 tcg_gen_concat_i32_i64
+      */
- #define tcg_gen_extr_i64_tl tcg_gen_extr_i64_i32
+     void (*initialize)(void);
-diff --git a/target/arm/translate-a64.c b/target/arm/translate-a64.c
++    /**
-index XXXXXXX..XXXXXXX 100644
++     * @translate_code: Translate guest instructions to TCGOps
---- a/target/arm/translate-a64.c
++     * @cpu: cpu context
-+++ b/target/arm/translate-a64.c
++     * @tb: translation block
-@@ -XXX,XX +XXX,XX @@ static void handle_rev32(DisasContext *s, unsigned int sf,
++     * @max_insns: max number of instructions to translate
++     * @pc: guest virtual program counter address
-         /* bswap32_i64 requires zero high word */
++     * @host_pc: host physical program counter address
-         tcg_gen_ext32u_i64(tcg_tmp, tcg_rn);
++     *
--        tcg_gen_bswap32_i64(tcg_rd, tcg_tmp);
++     * This function must be provided by the target, which should create
-+        tcg_gen_bswap32_i64(tcg_rd, tcg_tmp, TCG_BSWAP_IZ | TCG_BSWAP_OZ);
++     * the target-specific DisasContext, and then invoke translator_loop.
-         tcg_gen_shri_i64(tcg_tmp, tcg_rn, 32);
++     */
--        tcg_gen_bswap32_i64(tcg_tmp, tcg_tmp);
++    void (*translate_code)(CPUState *cpu, TranslationBlock *tb,
-+        tcg_gen_bswap32_i64(tcg_tmp, tcg_tmp, TCG_BSWAP_IZ | TCG_BSWAP_OZ);
++                           int *max_insns, vaddr pc, void *host_pc);
-         tcg_gen_concat32_i64(tcg_rd, tcg_rd, tcg_tmp);
+     /**
+      * @synchronize_from_tb: Synchronize state from a TCG #TranslationBlock
-         tcg_temp_free_i64(tcg_tmp);
+      *
-     } else {
+diff --git a/target/alpha/cpu.h b/target/alpha/cpu.h
-         tcg_gen_ext32u_i64(tcg_rd, cpu_reg(s, rn));
+index XXXXXXX..XXXXXXX 100644
--        tcg_gen_bswap32_i64(tcg_rd, tcg_rd);
+--- a/target/alpha/cpu.h
-+        tcg_gen_bswap32_i64(tcg_rd, tcg_rd, TCG_BSWAP_IZ | TCG_BSWAP_OZ);
++++ b/target/alpha/cpu.h
@@ -XXX,XX +XXX,XX @@ enum {
  };
  void alpha_translate_init(void);
 +void alpha_translate_code(CPUState *cs, TranslationBlock *tb,
 +                          int *max_insns, vaddr pc, void *host_pc);
  #define CPU_RESOLVING_TYPE TYPE_ALPHA_CPU
 diff --git a/target/arm/internals.h b/target/arm/internals.h
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/internals.h
 +++ b/target/arm/internals.h
@@ -XXX,XX +XXX,XX @@ void init_cpreg_list(ARMCPU *cpu);
  void arm_cpu_register_gdb_regs_for_features(ARMCPU *cpu);
  void arm_translate_init(void);
 +void arm_translate_code(CPUState *cs, TranslationBlock *tb,
 +                        int *max_insns, vaddr pc, void *host_pc);
  void arm_cpu_register_gdb_commands(ARMCPU *cpu);
  void aarch64_cpu_register_gdb_commands(ARMCPU *cpu, GString *,
 diff --git a/target/avr/cpu.h b/target/avr/cpu.h
 index XXXXXXX..XXXXXXX 100644
 --- a/target/avr/cpu.h
 +++ b/target/avr/cpu.h
@@ -XXX,XX +XXX,XX @@ static inline void set_avr_feature(CPUAVRState *env, int feature)
  }
  void avr_cpu_tcg_init(void);
 +void avr_cpu_translate_code(CPUState *cs, TranslationBlock *tb,
 +                            int *max_insns, vaddr pc, void *host_pc);
  int cpu_avr_exec(CPUState *cpu);
 diff --git a/target/hexagon/cpu.h b/target/hexagon/cpu.h
 index XXXXXXX..XXXXXXX 100644
 --- a/target/hexagon/cpu.h
 +++ b/target/hexagon/cpu.h
@@ -XXX,XX +XXX,XX @@ static inline void cpu_get_tb_cpu_state(CPUHexagonState *env, vaddr *pc,
  typedef HexagonCPU ArchCPU;
  void hexagon_translate_init(void);
 +void hexagon_translate_code(CPUState *cs, TranslationBlock *tb,
 +                            int *max_insns, vaddr pc, void *host_pc);
  #include "exec/cpu-all.h"
 diff --git a/target/hppa/cpu.h b/target/hppa/cpu.h
 index XXXXXXX..XXXXXXX 100644
 --- a/target/hppa/cpu.h
 +++ b/target/hppa/cpu.h
@@ -XXX,XX +XXX,XX @@ static inline int HPPA_BTLB_ENTRIES(CPUHPPAState *env)
  }
  void hppa_translate_init(void);
 +void hppa_translate_code(CPUState *cs, TranslationBlock *tb,
 +                         int *max_insns, vaddr pc, void *host_pc);
  #define CPU_RESOLVING_TYPE TYPE_HPPA_CPU
 diff --git a/target/i386/tcg/helper-tcg.h b/target/i386/tcg/helper-tcg.h
 index XXXXXXX..XXXXXXX 100644
 --- a/target/i386/tcg/helper-tcg.h
 +++ b/target/i386/tcg/helper-tcg.h
@@ -XXX,XX +XXX,XX @@ static inline target_long lshift(target_long x, int n)
  /* translate.c */
  void tcg_x86_init(void);
 +void x86_translate_code(CPUState *cs, TranslationBlock *tb,
 +                        int *max_insns, vaddr pc, void *host_pc);
  /* excp_helper.c */
  G_NORETURN void raise_exception(CPUX86State *env, int exception_index);
 diff --git a/target/loongarch/internals.h b/target/loongarch/internals.h
 index XXXXXXX..XXXXXXX 100644
 --- a/target/loongarch/internals.h
 +++ b/target/loongarch/internals.h
@@ -XXX,XX +XXX,XX @@
  #define TARGET_VIRT_MASK MAKE_64BIT_MASK(0, TARGET_VIRT_ADDR_SPACE_BITS)
  void loongarch_translate_init(void);
 +void loongarch_translate_code(CPUState *cs, TranslationBlock *tb,
 +                              int *max_insns, vaddr pc, void *host_pc);
  void G_NORETURN do_raise_exception(CPULoongArchState *env,
                                     uint32_t exception,
 diff --git a/target/m68k/cpu.h b/target/m68k/cpu.h
 index XXXXXXX..XXXXXXX 100644
 --- a/target/m68k/cpu.h
 +++ b/target/m68k/cpu.h
@@ -XXX,XX +XXX,XX @@ int m68k_cpu_gdb_read_register(CPUState *cpu, GByteArray *buf, int reg);
  int m68k_cpu_gdb_write_register(CPUState *cpu, uint8_t *buf, int reg);
  void m68k_tcg_init(void);
 +void m68k_translate_code(CPUState *cs, TranslationBlock *tb,
 +                         int *max_insns, vaddr pc, void *host_pc);
  void m68k_cpu_init_gdb(M68kCPU *cpu);
  uint32_t cpu_m68k_get_ccr(CPUM68KState *env);
  void cpu_m68k_set_ccr(CPUM68KState *env, uint32_t);
 diff --git a/target/microblaze/cpu.h b/target/microblaze/cpu.h
 index XXXXXXX..XXXXXXX 100644
 --- a/target/microblaze/cpu.h
 +++ b/target/microblaze/cpu.h
@@ -XXX,XX +XXX,XX @@ static inline void mb_cpu_write_msr(CPUMBState *env, uint32_t val)
  }
  void mb_tcg_init(void);
 +void mb_translate_code(CPUState *cs, TranslationBlock *tb,
 +                       int *max_insns, vaddr pc, void *host_pc);
  #define CPU_RESOLVING_TYPE TYPE_MICROBLAZE_CPU
 diff --git a/target/mips/tcg/tcg-internal.h b/target/mips/tcg/tcg-internal.h
 index XXXXXXX..XXXXXXX 100644
 --- a/target/mips/tcg/tcg-internal.h
 +++ b/target/mips/tcg/tcg-internal.h
@@ -XXX,XX +XXX,XX @@
  #include "cpu.h"
  void mips_tcg_init(void);
 +void mips_translate_code(CPUState *cs, TranslationBlock *tb,
 +                         int *max_insns, vaddr pc, void *host_pc);
  void mips_cpu_synchronize_from_tb(CPUState *cs, const TranslationBlock *tb);
  G_NORETURN void mips_cpu_do_unaligned_access(CPUState *cpu, vaddr addr,
 diff --git a/target/openrisc/cpu.h b/target/openrisc/cpu.h
 index XXXXXXX..XXXXXXX 100644
 --- a/target/openrisc/cpu.h
 +++ b/target/openrisc/cpu.h
@@ -XXX,XX +XXX,XX @@ void openrisc_cpu_dump_state(CPUState *cpu, FILE *f, int flags);
  int openrisc_cpu_gdb_read_register(CPUState *cpu, GByteArray *buf, int reg);
  int openrisc_cpu_gdb_write_register(CPUState *cpu, uint8_t *buf, int reg);
  void openrisc_translate_init(void);
 +void openrisc_translate_code(CPUState *cs, TranslationBlock *tb,
 +                             int *max_insns, vaddr pc, void *host_pc);
  int print_insn_or1k(bfd_vma addr, disassemble_info *info);
  #ifndef CONFIG_USER_ONLY
 diff --git a/target/ppc/cpu.h b/target/ppc/cpu.h
 index XXXXXXX..XXXXXXX 100644
 --- a/target/ppc/cpu.h
 +++ b/target/ppc/cpu.h
@@ -XXX,XX +XXX,XX @@ extern const VMStateDescription vmstate_ppc_cpu;
  /*****************************************************************************/
  void ppc_translate_init(void);
 +void ppc_translate_code(CPUState *cs, TranslationBlock *tb,
 +                        int *max_insns, vaddr pc, void *host_pc);
  #if !defined(CONFIG_USER_ONLY)
  void ppc_store_sdr1(CPUPPCState *env, target_ulong value);
 diff --git a/target/riscv/cpu.h b/target/riscv/cpu.h
 index XXXXXXX..XXXXXXX 100644
 --- a/target/riscv/cpu.h
 +++ b/target/riscv/cpu.h
@@ -XXX,XX +XXX,XX @@ RISCVException smstateen_acc_ok(CPURISCVState *env, int index, uint64_t bit);
  void riscv_cpu_set_mode(CPURISCVState *env, target_ulong newpriv, bool virt_en);
  void riscv_translate_init(void);
 +void riscv_translate_code(CPUState *cs, TranslationBlock *tb,
 +                          int *max_insns, vaddr pc, void *host_pc);
 +
  G_NORETURN void riscv_raise_exception(CPURISCVState *env,
                                        uint32_t exception, uintptr_t pc);
 diff --git a/target/rx/cpu.h b/target/rx/cpu.h
 index XXXXXXX..XXXXXXX 100644
 --- a/target/rx/cpu.h
 +++ b/target/rx/cpu.h
@@ -XXX,XX +XXX,XX @@ int rx_cpu_gdb_read_register(CPUState *cpu, GByteArray *buf, int reg);
  int rx_cpu_gdb_write_register(CPUState *cpu, uint8_t *buf, int reg);
  void rx_translate_init(void);
 +void rx_translate_code(CPUState *cs, TranslationBlock *tb,
 +                       int *max_insns, vaddr pc, void *host_pc);
  void rx_cpu_unpack_psw(CPURXState *env, uint32_t psw, int rte);
  #include "exec/cpu-all.h"
 diff --git a/target/s390x/s390x-internal.h b/target/s390x/s390x-internal.h
 index XXXXXXX..XXXXXXX 100644
 --- a/target/s390x/s390x-internal.h
 +++ b/target/s390x/s390x-internal.h
@@ -XXX,XX +XXX,XX @@ void handle_diag_308(CPUS390XState *env, uint64_t r1, uint64_t r3,
  /* translate.c */
  void s390x_translate_init(void);
 +void s390x_translate_code(CPUState *cs, TranslationBlock *tb,
 +                          int *max_insns, vaddr pc, void *host_pc);
  void s390x_restore_state_to_opc(CPUState *cs,
                                  const TranslationBlock *tb,
                                  const uint64_t *data);
 diff --git a/target/sh4/cpu.h b/target/sh4/cpu.h
 index XXXXXXX..XXXXXXX 100644
 --- a/target/sh4/cpu.h
 +++ b/target/sh4/cpu.h
@@ -XXX,XX +XXX,XX @@ G_NORETURN void superh_cpu_do_unaligned_access(CPUState *cpu, vaddr addr,
                                                 uintptr_t retaddr);
  void sh4_translate_init(void);
 +void sh4_translate_code(CPUState *cs, TranslationBlock *tb,
 +                        int *max_insns, vaddr pc, void *host_pc);
  #if !defined(CONFIG_USER_ONLY)
  hwaddr superh_cpu_get_phys_page_debug(CPUState *cpu, vaddr addr);
 diff --git a/target/sparc/cpu.h b/target/sparc/cpu.h
 index XXXXXXX..XXXXXXX 100644
 --- a/target/sparc/cpu.h
 +++ b/target/sparc/cpu.h
@@ -XXX,XX +XXX,XX @@ int sparc_cpu_memory_rw_debug(CPUState *cpu, vaddr addr,
  /* translate.c */
  void sparc_tcg_init(void);
 +void sparc_translate_code(CPUState *cs, TranslationBlock *tb,
 +                          int *max_insns, vaddr pc, void *host_pc);
  /* fop_helper.c */
  target_ulong cpu_get_fsr(CPUSPARCState *);
 diff --git a/target/tricore/cpu.h b/target/tricore/cpu.h
 index XXXXXXX..XXXXXXX 100644
 --- a/target/tricore/cpu.h
 +++ b/target/tricore/cpu.h
@@ -XXX,XX +XXX,XX @@ FIELD(TB_FLAGS, PRIV, 0, 2)
  void cpu_state_reset(CPUTriCoreState *s);
  void tricore_tcg_init(void);
 +void tricore_translate_code(CPUState *cs, TranslationBlock *tb,
 +                            int *max_insns, vaddr pc, void *host_pc);
  static inline void cpu_get_tb_cpu_state(CPUTriCoreState *env, vaddr *pc,
                                          uint64_t *cs_base, uint32_t *flags)
 diff --git a/target/xtensa/cpu.h b/target/xtensa/cpu.h
 index XXXXXXX..XXXXXXX 100644
 --- a/target/xtensa/cpu.h
 +++ b/target/xtensa/cpu.h
@@ -XXX,XX +XXX,XX @@ G_NORETURN void xtensa_cpu_do_unaligned_access(CPUState *cpu, vaddr addr,
  void xtensa_collect_sr_names(const XtensaConfig *config);
  void xtensa_translate_init(void);
 +void xtensa_translate_code(CPUState *cs, TranslationBlock *tb,
 +                           int *max_insns, vaddr pc, void *host_pc);
  void **xtensa_get_regfile_by_name(const char *name, int entries, int bits);
  void xtensa_breakpoint_handler(CPUState *cs);
  void xtensa_register_core(XtensaConfigList *node);
 diff --git a/accel/tcg/cpu-exec.c b/accel/tcg/cpu-exec.c
 index XXXXXXX..XXXXXXX 100644
 --- a/accel/tcg/cpu-exec.c
 +++ b/accel/tcg/cpu-exec.c
@@ -XXX,XX +XXX,XX @@ bool tcg_exec_realizefn(CPUState *cpu, Error **errp)
      if (!tcg_target_initialized) {
          /* Check mandatory TCGCPUOps handlers */
 +        const TCGCPUOps *tcg_ops = cpu->cc->tcg_ops;
  #ifndef CONFIG_USER_ONLY
 -        assert(cpu->cc->tcg_ops->cpu_exec_halt);
 -        assert(cpu->cc->tcg_ops->cpu_exec_interrupt);
 +        assert(tcg_ops->cpu_exec_halt);
 +        assert(tcg_ops->cpu_exec_interrupt);
  #endif /* !CONFIG_USER_ONLY */
 -        cpu->cc->tcg_ops->initialize();
 +        assert(tcg_ops->translate_code);
 +        tcg_ops->initialize();
          tcg_target_initialized = true;
      }
- }
+diff --git a/accel/tcg/translate-all.c b/accel/tcg/translate-all.c
-@@ -XXX,XX +XXX,XX @@ static void handle_rev(DisasContext *s, int opcode, bool u,
+index XXXXXXX..XXXXXXX 100644
-             read_vec_element(s, tcg_tmp, rn, i, grp_size);
+--- a/accel/tcg/translate-all.c
-             switch (grp_size) {
++++ b/accel/tcg/translate-all.c
-             case MO_16:
+@@ -XXX,XX +XXX,XX @@ static int setjmp_gen_code(CPUArchState *env, TranslationBlock *tb,
--                tcg_gen_bswap16_i64(tcg_tmp, tcg_tmp);
-+                tcg_gen_bswap16_i64(tcg_tmp, tcg_tmp,
+     tcg_func_start(tcg_ctx);
-+                                    TCG_BSWAP_IZ | TCG_BSWAP_OZ);
-                 break;
+-    tcg_ctx->cpu = env_cpu(env);
-             case MO_32:
+-    gen_intermediate_code(env_cpu(env), tb, max_insns, pc, host_pc);
--                tcg_gen_bswap32_i64(tcg_tmp, tcg_tmp);
++    CPUState *cs = env_cpu(env);
-+                tcg_gen_bswap32_i64(tcg_tmp, tcg_tmp,
++    tcg_ctx->cpu = cs;
-+                                    TCG_BSWAP_IZ | TCG_BSWAP_OZ);
++    cs->cc->tcg_ops->translate_code(cs, tb, max_insns, pc, host_pc);
-                 break;
++
-             case MO_64:
+     assert(tb->size != 0);
-                 tcg_gen_bswap64_i64(tcg_tmp, tcg_tmp);
+     tcg_ctx->cpu = NULL;
-diff --git a/target/arm/translate.c b/target/arm/translate.c
+     *max_insns = tb->icount;
-index XXXXXXX..XXXXXXX 100644
+@@ -XXX,XX +XXX,XX @@ TranslationBlock *tb_gen_code(CPUState *cpu,
---- a/target/arm/translate.c
+             /*
-+++ b/target/arm/translate.c
+              * Overflow of code_gen_buffer, or the current slice of it.
-@@ -XXX,XX +XXX,XX @@ void gen_rev16(TCGv_i32 dest, TCGv_i32 var)
+              *
- static void gen_revsh(TCGv_i32 dest, TCGv_i32 var)
+-             * TODO: We don't need to re-do gen_intermediate_code, nor
- {
++             * TODO: We don't need to re-do tcg_ops->translate_code, nor
-     tcg_gen_ext16u_i32(var, var);
+              * should we re-do the tcg optimization currently hidden
--    tcg_gen_bswap16_i32(var, var);
+              * inside tcg_gen_code.  All that should be required is to
-+    tcg_gen_bswap16_i32(var, var, TCG_BSWAP_IZ | TCG_BSWAP_OZ);
+              * flush the TBs, allocate a new TB, re-initialize it per
-     tcg_gen_ext16s_i32(dest, var);
+diff --git a/target/alpha/cpu.c b/target/alpha/cpu.c
- }
+index XXXXXXX..XXXXXXX 100644
+--- a/target/alpha/cpu.c
 +++ b/target/alpha/cpu.c
@@ -XXX,XX +XXX,XX @@ static const struct SysemuCPUOps alpha_sysemu_ops = {
  static const TCGCPUOps alpha_tcg_ops = {
      .initialize = alpha_translate_init,
 +    .translate_code = alpha_translate_code,
      .synchronize_from_tb = alpha_cpu_synchronize_from_tb,
      .restore_state_to_opc = alpha_restore_state_to_opc,
 diff --git a/target/alpha/translate.c b/target/alpha/translate.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/alpha/translate.c
 +++ b/target/alpha/translate.c
@@ -XXX,XX +XXX,XX @@ static const TranslatorOps alpha_tr_ops = {
      .tb_stop            = alpha_tr_tb_stop,
  };
 -void gen_intermediate_code(CPUState *cpu, TranslationBlock *tb, int *max_insns,
 -                           vaddr pc, void *host_pc)
 +void alpha_translate_code(CPUState *cpu, TranslationBlock *tb,
 +                          int *max_insns, vaddr pc, void *host_pc)
  {
      DisasContext dc;
      translator_loop(cpu, tb, max_insns, pc, host_pc, &alpha_tr_ops, &dc.base);
 diff --git a/target/arm/cpu.c b/target/arm/cpu.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/cpu.c
 +++ b/target/arm/cpu.c
@@ -XXX,XX +XXX,XX @@ static const struct SysemuCPUOps arm_sysemu_ops = {
  #ifdef CONFIG_TCG
  static const TCGCPUOps arm_tcg_ops = {
      .initialize = arm_translate_init,
 +    .translate_code = arm_translate_code,
      .synchronize_from_tb = arm_cpu_synchronize_from_tb,
      .debug_excp_handler = arm_debug_excp_handler,
      .restore_state_to_opc = arm_restore_state_to_opc,
 diff --git a/target/arm/tcg/cpu-v7m.c b/target/arm/tcg/cpu-v7m.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/tcg/cpu-v7m.c
 +++ b/target/arm/tcg/cpu-v7m.c
@@ -XXX,XX +XXX,XX @@ static void cortex_m55_initfn(Object *obj)
  static const TCGCPUOps arm_v7m_tcg_ops = {
      .initialize = arm_translate_init,
 +    .translate_code = arm_translate_code,
      .synchronize_from_tb = arm_cpu_synchronize_from_tb,
      .debug_excp_handler = arm_debug_excp_handler,
      .restore_state_to_opc = arm_restore_state_to_opc,
 diff --git a/target/arm/tcg/translate.c b/target/arm/tcg/translate.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/tcg/translate.c
 +++ b/target/arm/tcg/translate.c
@@ -XXX,XX +XXX,XX @@ static const TranslatorOps thumb_translator_ops = {
      .tb_stop            = arm_tr_tb_stop,
  };
 -/* generate intermediate code for basic block 'tb'.  */
 -void gen_intermediate_code(CPUState *cpu, TranslationBlock *tb, int *max_insns,
 -                           vaddr pc, void *host_pc)
 +void arm_translate_code(CPUState *cpu, TranslationBlock *tb,
 +                        int *max_insns, vaddr pc, void *host_pc)
  {
      DisasContext dc = { };
      const TranslatorOps *ops = &arm_translator_ops;
 diff --git a/target/avr/cpu.c b/target/avr/cpu.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/avr/cpu.c
 +++ b/target/avr/cpu.c
@@ -XXX,XX +XXX,XX @@ static const struct SysemuCPUOps avr_sysemu_ops = {
  static const TCGCPUOps avr_tcg_ops = {
      .initialize = avr_cpu_tcg_init,
 +    .translate_code = avr_cpu_translate_code,
      .synchronize_from_tb = avr_cpu_synchronize_from_tb,
      .restore_state_to_opc = avr_restore_state_to_opc,
      .cpu_exec_interrupt = avr_cpu_exec_interrupt,
 diff --git a/target/avr/translate.c b/target/avr/translate.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/avr/translate.c
 +++ b/target/avr/translate.c
@@ -XXX,XX +XXX,XX @@ static bool trans_WDR(DisasContext *ctx, arg_WDR *a)
   *
   *    - translate()
   *    - canonicalize_skip()
 - *    - gen_intermediate_code()
 + *    - translate_code()
   *    - restore_state_to_opc()
   *
   */
@@ -XXX,XX +XXX,XX @@ static const TranslatorOps avr_tr_ops = {
      .tb_stop            = avr_tr_tb_stop,
  };
 -void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int *max_insns,
 -                           vaddr pc, void *host_pc)
 +void avr_cpu_translate_code(CPUState *cs, TranslationBlock *tb,
 +                            int *max_insns, vaddr pc, void *host_pc)
  {
      DisasContext dc = { };
      translator_loop(cs, tb, max_insns, pc, host_pc, &avr_tr_ops, &dc.base);
 diff --git a/target/hexagon/cpu.c b/target/hexagon/cpu.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/hexagon/cpu.c
 +++ b/target/hexagon/cpu.c
@@ -XXX,XX +XXX,XX @@ static void hexagon_cpu_init(Object *obj)
  static const TCGCPUOps hexagon_tcg_ops = {
      .initialize = hexagon_translate_init,
 +    .translate_code = hexagon_translate_code,
      .synchronize_from_tb = hexagon_cpu_synchronize_from_tb,
      .restore_state_to_opc = hexagon_restore_state_to_opc,
  };
 diff --git a/target/hexagon/translate.c b/target/hexagon/translate.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/hexagon/translate.c
 +++ b/target/hexagon/translate.c
@@ -XXX,XX +XXX,XX @@ static const TranslatorOps hexagon_tr_ops = {
      .tb_stop            = hexagon_tr_tb_stop,
  };
 -void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int *max_insns,
 -                           vaddr pc, void *host_pc)
 +void hexagon_translate_code(CPUState *cs, TranslationBlock *tb,
 +                            int *max_insns, vaddr pc, void *host_pc)
  {
      DisasContext ctx;
 diff --git a/target/hppa/cpu.c b/target/hppa/cpu.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/hppa/cpu.c
 +++ b/target/hppa/cpu.c
@@ -XXX,XX +XXX,XX @@ static const struct SysemuCPUOps hppa_sysemu_ops = {
  static const TCGCPUOps hppa_tcg_ops = {
      .initialize = hppa_translate_init,
 +    .translate_code = hppa_translate_code,
      .synchronize_from_tb = hppa_cpu_synchronize_from_tb,
      .restore_state_to_opc = hppa_restore_state_to_opc,
 diff --git a/target/hppa/translate.c b/target/hppa/translate.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/hppa/translate.c
 +++ b/target/hppa/translate.c
@@ -XXX,XX +XXX,XX @@ static const TranslatorOps hppa_tr_ops = {
  #endif
  };
 -void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int *max_insns,
 -                           vaddr pc, void *host_pc)
 +void hppa_translate_code(CPUState *cs, TranslationBlock *tb,
 +                         int *max_insns, vaddr pc, void *host_pc)
  {
      DisasContext ctx = { };
      translator_loop(cs, tb, max_insns, pc, host_pc, &hppa_tr_ops, &ctx.base);
 diff --git a/target/i386/tcg/tcg-cpu.c b/target/i386/tcg/tcg-cpu.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/i386/tcg/tcg-cpu.c
 +++ b/target/i386/tcg/tcg-cpu.c
@@ -XXX,XX +XXX,XX @@ static bool x86_debug_check_breakpoint(CPUState *cs)
  static const TCGCPUOps x86_tcg_ops = {
      .initialize = tcg_x86_init,
 +    .translate_code = x86_translate_code,
      .synchronize_from_tb = x86_cpu_synchronize_from_tb,
      .restore_state_to_opc = x86_restore_state_to_opc,
      .cpu_exec_enter = x86_cpu_exec_enter,
 diff --git a/target/i386/tcg/translate.c b/target/i386/tcg/translate.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/i386/tcg/translate.c
 +++ b/target/i386/tcg/translate.c
-@@ -XXX,XX +XXX,XX @@ static target_ulong disas_insn(DisasContext *s, CPUState *cpu)
+@@ -XXX,XX +XXX,XX @@ static const TranslatorOps i386_tr_ops = {
-         {
+     .tb_stop            = i386_tr_tb_stop,
-             gen_op_mov_v_reg(s, MO_32, s->T0, reg);
+ };
-             tcg_gen_ext32u_tl(s->T0, s->T0);
--            tcg_gen_bswap32_tl(s->T0, s->T0);
+-/* generate intermediate code for basic block 'tb'.  */
-+            tcg_gen_bswap32_tl(s->T0, s->T0, TCG_BSWAP_IZ | TCG_BSWAP_OZ);
+-void gen_intermediate_code(CPUState *cpu, TranslationBlock *tb, int *max_insns,
-             gen_op_mov_reg_v(s, MO_32, reg, s->T0);
+-                           vaddr pc, void *host_pc)
-         }
++void x86_translate_code(CPUState *cpu, TranslationBlock *tb,
-         break;
++                        int *max_insns, vaddr pc, void *host_pc)
-diff --git a/target/mips/tcg/mxu_translate.c b/target/mips/tcg/mxu_translate.c
+ {
-index XXXXXXX..XXXXXXX 100644
+     DisasContext dc;
---- a/target/mips/tcg/mxu_translate.c
-+++ b/target/mips/tcg/mxu_translate.c
+diff --git a/target/loongarch/cpu.c b/target/loongarch/cpu.c
-@@ -XXX,XX +XXX,XX @@ static void gen_mxu_s32ldd_s32lddr(DisasContext *ctx)
+index XXXXXXX..XXXXXXX 100644
+--- a/target/loongarch/cpu.c
-     if (sel == 1) {
++++ b/target/loongarch/cpu.c
-         /* S32LDDR */
+@@ -XXX,XX +XXX,XX @@ static void loongarch_cpu_dump_state(CPUState *cs, FILE *f, int flags)
--        tcg_gen_bswap32_tl(t1, t1);
-+        tcg_gen_bswap32_tl(t1, t1, TCG_BSWAP_IZ | TCG_BSWAP_OZ);
+ static const TCGCPUOps loongarch_tcg_ops = {
-     }
+     .initialize = loongarch_translate_init,
-     gen_store_mxu_gpr(t1, XRa);
++    .translate_code = loongarch_translate_code,
+     .synchronize_from_tb = loongarch_cpu_synchronize_from_tb,
-diff --git a/target/s390x/translate.c b/target/s390x/translate.c
+     .restore_state_to_opc = loongarch_restore_state_to_opc,
-index XXXXXXX..XXXXXXX 100644
---- a/target/s390x/translate.c
+diff --git a/target/loongarch/tcg/translate.c b/target/loongarch/tcg/translate.c
-+++ b/target/s390x/translate.c
+index XXXXXXX..XXXXXXX 100644
-@@ -XXX,XX +XXX,XX @@ static DisasJumpType op_rosbg(DisasContext *s, DisasOps *o)
+--- a/target/loongarch/tcg/translate.c
++++ b/target/loongarch/tcg/translate.c
- static DisasJumpType op_rev16(DisasContext *s, DisasOps *o)
+@@ -XXX,XX +XXX,XX @@ static const TranslatorOps loongarch_tr_ops = {
- {
+     .tb_stop            = loongarch_tr_tb_stop,
--    tcg_gen_bswap16_i64(o->out, o->in2);
+ };
-+    tcg_gen_bswap16_i64(o->out, o->in2, TCG_BSWAP_IZ | TCG_BSWAP_OZ);
-     return DISAS_NEXT;
+-void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int *max_insns,
- }
+-                           vaddr pc, void *host_pc)
++void loongarch_translate_code(CPUState *cs, TranslationBlock *tb,
- static DisasJumpType op_rev32(DisasContext *s, DisasOps *o)
++                              int *max_insns, vaddr pc, void *host_pc)
  {
--    tcg_gen_bswap32_i64(o->out, o->in2);
+     DisasContext ctx;
-+    tcg_gen_bswap32_i64(o->out, o->in2, TCG_BSWAP_IZ | TCG_BSWAP_OZ);
-     return DISAS_NEXT;
+diff --git a/target/m68k/cpu.c b/target/m68k/cpu.c
- }
+index XXXXXXX..XXXXXXX 100644
 --- a/target/m68k/cpu.c
 +++ b/target/m68k/cpu.c
@@ -XXX,XX +XXX,XX @@ static const struct SysemuCPUOps m68k_sysemu_ops = {
  static const TCGCPUOps m68k_tcg_ops = {
      .initialize = m68k_tcg_init,
 +    .translate_code = m68k_translate_code,
      .restore_state_to_opc = m68k_restore_state_to_opc,
  #ifndef CONFIG_USER_ONLY
 diff --git a/target/m68k/translate.c b/target/m68k/translate.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/m68k/translate.c
 +++ b/target/m68k/translate.c
@@ -XXX,XX +XXX,XX @@ static const TranslatorOps m68k_tr_ops = {
      .tb_stop            = m68k_tr_tb_stop,
  };
 -void gen_intermediate_code(CPUState *cpu, TranslationBlock *tb, int *max_insns,
 -                           vaddr pc, void *host_pc)
 +void m68k_translate_code(CPUState *cpu, TranslationBlock *tb,
 +                         int *max_insns, vaddr pc, void *host_pc)
  {
      DisasContext dc;
      translator_loop(cpu, tb, max_insns, pc, host_pc, &m68k_tr_ops, &dc.base);
 diff --git a/target/microblaze/cpu.c b/target/microblaze/cpu.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/microblaze/cpu.c
 +++ b/target/microblaze/cpu.c
@@ -XXX,XX +XXX,XX @@ static const struct SysemuCPUOps mb_sysemu_ops = {
  static const TCGCPUOps mb_tcg_ops = {
      .initialize = mb_tcg_init,
 +    .translate_code = mb_translate_code,
      .synchronize_from_tb = mb_cpu_synchronize_from_tb,
      .restore_state_to_opc = mb_restore_state_to_opc,
 diff --git a/target/microblaze/translate.c b/target/microblaze/translate.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/microblaze/translate.c
 +++ b/target/microblaze/translate.c
@@ -XXX,XX +XXX,XX @@ static const TranslatorOps mb_tr_ops = {
      .tb_stop            = mb_tr_tb_stop,
  };
 -void gen_intermediate_code(CPUState *cpu, TranslationBlock *tb, int *max_insns,
 -                           vaddr pc, void *host_pc)
 +void mb_translate_code(CPUState *cpu, TranslationBlock *tb,
 +                       int *max_insns, vaddr pc, void *host_pc)
  {
      DisasContext dc;
      translator_loop(cpu, tb, max_insns, pc, host_pc, &mb_tr_ops, &dc.base);
 diff --git a/target/mips/cpu.c b/target/mips/cpu.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/mips/cpu.c
 +++ b/target/mips/cpu.c
@@ -XXX,XX +XXX,XX @@ static const Property mips_cpu_properties[] = {
  #include "hw/core/tcg-cpu-ops.h"
  static const TCGCPUOps mips_tcg_ops = {
      .initialize = mips_tcg_init,
 +    .translate_code = mips_translate_code,
      .synchronize_from_tb = mips_cpu_synchronize_from_tb,
      .restore_state_to_opc = mips_restore_state_to_opc,
 diff --git a/target/mips/tcg/translate.c b/target/mips/tcg/translate.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/mips/tcg/translate.c
 +++ b/target/mips/tcg/translate.c
@@ -XXX,XX +XXX,XX @@ static const TranslatorOps mips_tr_ops = {
      .tb_stop            = mips_tr_tb_stop,
  };
 -void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int *max_insns,
 -                           vaddr pc, void *host_pc)
 +void mips_translate_code(CPUState *cs, TranslationBlock *tb,
 +                         int *max_insns, vaddr pc, void *host_pc)
  {
      DisasContext ctx;
 diff --git a/target/openrisc/cpu.c b/target/openrisc/cpu.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/openrisc/cpu.c
 +++ b/target/openrisc/cpu.c
@@ -XXX,XX +XXX,XX @@ static const struct SysemuCPUOps openrisc_sysemu_ops = {
  static const TCGCPUOps openrisc_tcg_ops = {
      .initialize = openrisc_translate_init,
 +    .translate_code = openrisc_translate_code,
      .synchronize_from_tb = openrisc_cpu_synchronize_from_tb,
      .restore_state_to_opc = openrisc_restore_state_to_opc,
 diff --git a/target/openrisc/translate.c b/target/openrisc/translate.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/openrisc/translate.c
 +++ b/target/openrisc/translate.c
@@ -XXX,XX +XXX,XX @@ static const TranslatorOps openrisc_tr_ops = {
      .tb_stop            = openrisc_tr_tb_stop,
  };
 -void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int *max_insns,
 -                           vaddr pc, void *host_pc)
 +void openrisc_translate_code(CPUState *cs, TranslationBlock *tb,
 +                             int *max_insns, vaddr pc, void *host_pc)
  {
      DisasContext ctx;
 diff --git a/target/ppc/cpu_init.c b/target/ppc/cpu_init.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/ppc/cpu_init.c
 +++ b/target/ppc/cpu_init.c
@@ -XXX,XX +XXX,XX @@ static const struct SysemuCPUOps ppc_sysemu_ops = {
  static const TCGCPUOps ppc_tcg_ops = {
    .initialize = ppc_translate_init,
 +  .translate_code = ppc_translate_code,
    .restore_state_to_opc = ppc_restore_state_to_opc,
  #ifdef CONFIG_USER_ONLY
 diff --git a/target/ppc/translate.c b/target/ppc/translate.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/ppc/translate.c
 +++ b/target/ppc/translate.c
@@ -XXX,XX +XXX,XX @@ static const TranslatorOps ppc_tr_ops = {
      .tb_stop            = ppc_tr_tb_stop,
  };
 -void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int *max_insns,
 -                           vaddr pc, void *host_pc)
 +void ppc_translate_code(CPUState *cs, TranslationBlock *tb,
 +                        int *max_insns, vaddr pc, void *host_pc)
  {
      DisasContext ctx;
 diff --git a/target/riscv/tcg/tcg-cpu.c b/target/riscv/tcg/tcg-cpu.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/riscv/tcg/tcg-cpu.c
 +++ b/target/riscv/tcg/tcg-cpu.c
@@ -XXX,XX +XXX,XX @@ static void riscv_restore_state_to_opc(CPUState *cs,
  static const TCGCPUOps riscv_tcg_ops = {
      .initialize = riscv_translate_init,
 +    .translate_code = riscv_translate_code,
      .synchronize_from_tb = riscv_cpu_synchronize_from_tb,
      .restore_state_to_opc = riscv_restore_state_to_opc,
 diff --git a/target/riscv/translate.c b/target/riscv/translate.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/riscv/translate.c
 +++ b/target/riscv/translate.c
@@ -XXX,XX +XXX,XX @@ static const TranslatorOps riscv_tr_ops = {
      .tb_stop            = riscv_tr_tb_stop,
  };
 -void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int *max_insns,
 -                           vaddr pc, void *host_pc)
 +void riscv_translate_code(CPUState *cs, TranslationBlock *tb,
 +                          int *max_insns, vaddr pc, void *host_pc)
  {
      DisasContext ctx;
 diff --git a/target/rx/cpu.c b/target/rx/cpu.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/rx/cpu.c
 +++ b/target/rx/cpu.c
@@ -XXX,XX +XXX,XX @@ static const struct SysemuCPUOps rx_sysemu_ops = {
  static const TCGCPUOps rx_tcg_ops = {
      .initialize = rx_translate_init,
 +    .translate_code = rx_translate_code,
      .synchronize_from_tb = rx_cpu_synchronize_from_tb,
      .restore_state_to_opc = rx_restore_state_to_opc,
      .tlb_fill = rx_cpu_tlb_fill,
 diff --git a/target/rx/translate.c b/target/rx/translate.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/rx/translate.c
 +++ b/target/rx/translate.c
@@ -XXX,XX +XXX,XX @@ static const TranslatorOps rx_tr_ops = {
      .tb_stop            = rx_tr_tb_stop,
  };
 -void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int *max_insns,
 -                           vaddr pc, void *host_pc)
 +void rx_translate_code(CPUState *cs, TranslationBlock *tb,
 +                       int *max_insns, vaddr pc, void *host_pc)
  {
      DisasContext dc;
 diff --git a/target/s390x/cpu.c b/target/s390x/cpu.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/s390x/cpu.c
 +++ b/target/s390x/cpu.c
@@ -XXX,XX +XXX,XX @@ void cpu_get_tb_cpu_state(CPUS390XState *env, vaddr *pc,
  static const TCGCPUOps s390_tcg_ops = {
      .initialize = s390x_translate_init,
 +    .translate_code = s390x_translate_code,
      .restore_state_to_opc = s390x_restore_state_to_opc,
  #ifdef CONFIG_USER_ONLY
 diff --git a/target/s390x/tcg/translate.c b/target/s390x/tcg/translate.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/s390x/tcg/translate.c
 +++ b/target/s390x/tcg/translate.c
@@ -XXX,XX +XXX,XX @@ static const TranslatorOps s390x_tr_ops = {
      .disas_log          = s390x_tr_disas_log,
  };
 -void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int *max_insns,
 -                           vaddr pc, void *host_pc)
 +void s390x_translate_code(CPUState *cs, TranslationBlock *tb,
 +                          int *max_insns, vaddr pc, void *host_pc)
  {
      DisasContext dc;
 diff --git a/target/sh4/cpu.c b/target/sh4/cpu.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/sh4/cpu.c
 +++ b/target/sh4/cpu.c
@@ -XXX,XX +XXX,XX @@ static const struct SysemuCPUOps sh4_sysemu_ops = {
  static const TCGCPUOps superh_tcg_ops = {
      .initialize = sh4_translate_init,
 +    .translate_code = sh4_translate_code,
      .synchronize_from_tb = superh_cpu_synchronize_from_tb,
      .restore_state_to_opc = superh_restore_state_to_opc,
 diff --git a/target/sh4/translate.c b/target/sh4/translate.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/sh4/translate.c
 +++ b/target/sh4/translate.c
-@@ -XXX,XX +XXX,XX @@ static void _decode_opc(DisasContext * ctx)
+@@ -XXX,XX +XXX,XX @@ static const TranslatorOps sh4_tr_ops = {
-     {
+     .tb_stop            = sh4_tr_tb_stop,
-             TCGv low = tcg_temp_new();
+ };
-         tcg_gen_ext16u_i32(low, REG(B7_4));
--        tcg_gen_bswap16_i32(low, low);
+-void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int *max_insns,
-+        tcg_gen_bswap16_i32(low, low, TCG_BSWAP_IZ | TCG_BSWAP_OZ);
+-                           vaddr pc, void *host_pc)
-             tcg_gen_deposit_i32(REG(B11_8), REG(B7_4), low, 0, 16);
++void sh4_translate_code(CPUState *cs, TranslationBlock *tb,
-         tcg_temp_free(low);
++                        int *max_insns, vaddr pc, void *host_pc)
-     }
+ {
-diff --git a/tcg/tcg-op.c b/tcg/tcg-op.c
+     DisasContext ctx;
-index XXXXXXX..XXXXXXX 100644
---- a/tcg/tcg-op.c
+diff --git a/target/sparc/cpu.c b/target/sparc/cpu.c
-+++ b/tcg/tcg-op.c
+index XXXXXXX..XXXXXXX 100644
-@@ -XXX,XX +XXX,XX @@ void tcg_gen_ext16u_i32(TCGv_i32 ret, TCGv_i32 arg)
+--- a/target/sparc/cpu.c
-     }
++++ b/target/sparc/cpu.c
- }
+@@ -XXX,XX +XXX,XX @@ static const struct SysemuCPUOps sparc_sysemu_ops = {
--/* Note: we assume the two high bytes are set to zero */
+ static const TCGCPUOps sparc_tcg_ops = {
--void tcg_gen_bswap16_i32(TCGv_i32 ret, TCGv_i32 arg)
+     .initialize = sparc_tcg_init,
-+void tcg_gen_bswap16_i32(TCGv_i32 ret, TCGv_i32 arg, int flags)
++    .translate_code = sparc_translate_code,
- {
+     .synchronize_from_tb = sparc_cpu_synchronize_from_tb,
-+    /* Only one extension flag may be present. */
+     .restore_state_to_opc = sparc_restore_state_to_opc,
-+    tcg_debug_assert(!(flags & TCG_BSWAP_OS) || !(flags & TCG_BSWAP_OZ));
-+
+diff --git a/target/sparc/translate.c b/target/sparc/translate.c
-     if (TCG_TARGET_HAS_bswap16_i32) {
+index XXXXXXX..XXXXXXX 100644
--        tcg_gen_op3i_i32(INDEX_op_bswap16_i32, ret, arg,
+--- a/target/sparc/translate.c
--                         TCG_BSWAP_IZ | TCG_BSWAP_OZ);
++++ b/target/sparc/translate.c
-+        tcg_gen_op3i_i32(INDEX_op_bswap16_i32, ret, arg, flags);
+@@ -XXX,XX +XXX,XX @@ static const TranslatorOps sparc_tr_ops = {
-     } else {
+     .tb_stop            = sparc_tr_tb_stop,
-         TCGv_i32 t0 = tcg_temp_new_i32();
+ };
-+        TCGv_i32 t1 = tcg_temp_new_i32();
+-void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int *max_insns,
--        tcg_gen_ext8u_i32(t0, arg);
+-                           vaddr pc, void *host_pc)
--        tcg_gen_shli_i32(t0, t0, 8);
++void sparc_translate_code(CPUState *cs, TranslationBlock *tb,
--        tcg_gen_shri_i32(ret, arg, 8);
++                          int *max_insns, vaddr pc, void *host_pc)
--        tcg_gen_or_i32(ret, ret, t0);
+ {
-+        tcg_gen_shri_i32(t0, arg, 8);
+     DisasContext dc = {};
-+        if (!(flags & TCG_BSWAP_IZ)) {
-+            tcg_gen_ext8u_i32(t0, t0);
+diff --git a/target/tricore/cpu.c b/target/tricore/cpu.c
-+        }
+index XXXXXXX..XXXXXXX 100644
-+
+--- a/target/tricore/cpu.c
-+        if (flags & TCG_BSWAP_OS) {
++++ b/target/tricore/cpu.c
-+            tcg_gen_shli_i32(t1, arg, 24);
+@@ -XXX,XX +XXX,XX @@ static const struct SysemuCPUOps tricore_sysemu_ops = {
-+            tcg_gen_sari_i32(t1, t1, 16);
-+        } else if (flags & TCG_BSWAP_OZ) {
+ static const TCGCPUOps tricore_tcg_ops = {
-+            tcg_gen_ext8u_i32(t1, arg);
+     .initialize = tricore_tcg_init,
-+            tcg_gen_shli_i32(t1, t1, 8);
++    .translate_code = tricore_translate_code,
-+        } else {
+     .synchronize_from_tb = tricore_cpu_synchronize_from_tb,
-+            tcg_gen_shli_i32(t1, arg, 8);
+     .restore_state_to_opc = tricore_restore_state_to_opc,
-+        }
+     .tlb_fill = tricore_cpu_tlb_fill,
-+
+diff --git a/target/tricore/translate.c b/target/tricore/translate.c
-+        tcg_gen_or_i32(ret, t0, t1);
+index XXXXXXX..XXXXXXX 100644
-         tcg_temp_free_i32(t0);
+--- a/target/tricore/translate.c
-+        tcg_temp_free_i32(t1);
++++ b/target/tricore/translate.c
-     }
+@@ -XXX,XX +XXX,XX @@ static const TranslatorOps tricore_tr_ops = {
- }
+     .tb_stop            = tricore_tr_tb_stop,
+ };
-@@ -XXX,XX +XXX,XX @@ void tcg_gen_ext32u_i64(TCGv_i64 ret, TCGv_i64 arg)
-     }
+-
- }
+-void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int *max_insns,
+-                           vaddr pc, void *host_pc)
--/* Note: we assume the six high bytes are set to zero */
++void tricore_translate_code(CPUState *cs, TranslationBlock *tb,
--void tcg_gen_bswap16_i64(TCGv_i64 ret, TCGv_i64 arg)
++                            int *max_insns, vaddr pc, void *host_pc)
-+void tcg_gen_bswap16_i64(TCGv_i64 ret, TCGv_i64 arg, int flags)
+ {
- {
+     DisasContext ctx;
-+    /* Only one extension flag may be present. */
+     translator_loop(cs, tb, max_insns, pc, host_pc,
-+    tcg_debug_assert(!(flags & TCG_BSWAP_OS) || !(flags & TCG_BSWAP_OZ));
+diff --git a/target/xtensa/cpu.c b/target/xtensa/cpu.c
-+
+index XXXXXXX..XXXXXXX 100644
-     if (TCG_TARGET_REG_BITS == 32) {
+--- a/target/xtensa/cpu.c
--        tcg_gen_bswap16_i32(TCGV_LOW(ret), TCGV_LOW(arg));
++++ b/target/xtensa/cpu.c
--        tcg_gen_movi_i32(TCGV_HIGH(ret), 0);
+@@ -XXX,XX +XXX,XX @@ static const struct SysemuCPUOps xtensa_sysemu_ops = {
-+        tcg_gen_bswap16_i32(TCGV_LOW(ret), TCGV_LOW(arg), flags);
-+        if (flags & TCG_BSWAP_OS) {
+ static const TCGCPUOps xtensa_tcg_ops = {
-+            tcg_gen_sari_i32(TCGV_HIGH(ret), TCGV_LOW(ret), 31);
+     .initialize = xtensa_translate_init,
-+        } else {
++    .translate_code = xtensa_translate_code,
-+            tcg_gen_movi_i32(TCGV_HIGH(ret), 0);
+     .debug_excp_handler = xtensa_breakpoint_handler,
-+        }
+     .restore_state_to_opc = xtensa_restore_state_to_opc,
-     } else if (TCG_TARGET_HAS_bswap16_i64) {
--        tcg_gen_op3i_i64(INDEX_op_bswap16_i64, ret, arg,
+diff --git a/target/xtensa/translate.c b/target/xtensa/translate.c
--                         TCG_BSWAP_IZ | TCG_BSWAP_OZ);
+index XXXXXXX..XXXXXXX 100644
-+        tcg_gen_op3i_i64(INDEX_op_bswap16_i64, ret, arg, flags);
+--- a/target/xtensa/translate.c
-     } else {
++++ b/target/xtensa/translate.c
-         TCGv_i64 t0 = tcg_temp_new_i64();
+@@ -XXX,XX +XXX,XX @@ static const TranslatorOps xtensa_translator_ops = {
-+        TCGv_i64 t1 = tcg_temp_new_i64();
+     .tb_stop            = xtensa_tr_tb_stop,
+ };
--        tcg_gen_ext8u_i64(t0, arg);
--        tcg_gen_shli_i64(t0, t0, 8);
+-void gen_intermediate_code(CPUState *cpu, TranslationBlock *tb, int *max_insns,
--        tcg_gen_shri_i64(ret, arg, 8);
+-                           vaddr pc, void *host_pc)
--        tcg_gen_or_i64(ret, ret, t0);
++void xtensa_translate_code(CPUState *cpu, TranslationBlock *tb,
-+        tcg_gen_shri_i64(t0, arg, 8);
++                           int *max_insns, vaddr pc, void *host_pc)
-+        if (!(flags & TCG_BSWAP_IZ)) {
+ {
-+            tcg_gen_ext8u_i64(t0, t0);
+     DisasContext dc = {};
-+        }
+     translator_loop(cpu, tb, max_insns, pc, host_pc,
 +
 +        if (flags & TCG_BSWAP_OS) {
 +            tcg_gen_shli_i64(t1, arg, 56);
 +            tcg_gen_sari_i64(t1, t1, 48);
 +        } else if (flags & TCG_BSWAP_OZ) {
 +            tcg_gen_ext8u_i64(t1, arg);
 +            tcg_gen_shli_i64(t1, t1, 8);
 +        } else {
 +            tcg_gen_shli_i64(t1, arg, 8);
 +        }
 +
 +        tcg_gen_or_i64(ret, t0, t1);
          tcg_temp_free_i64(t0);
 +        tcg_temp_free_i64(t1);
      }
  }
 -/* Note: we assume the four high bytes are set to zero */
 -void tcg_gen_bswap32_i64(TCGv_i64 ret, TCGv_i64 arg)
 +void tcg_gen_bswap32_i64(TCGv_i64 ret, TCGv_i64 arg, int flags)
  {
 +    /* Only one extension flag may be present. */
 +    tcg_debug_assert(!(flags & TCG_BSWAP_OS) || !(flags & TCG_BSWAP_OZ));
 +
      if (TCG_TARGET_REG_BITS == 32) {
          tcg_gen_bswap32_i32(TCGV_LOW(ret), TCGV_LOW(arg));
 -        tcg_gen_movi_i32(TCGV_HIGH(ret), 0);
 +        if (flags & TCG_BSWAP_OS) {
 +            tcg_gen_sari_i32(TCGV_HIGH(ret), TCGV_LOW(ret), 31);
 +        } else {
 +            tcg_gen_movi_i32(TCGV_HIGH(ret), 0);
 +        }
      } else if (TCG_TARGET_HAS_bswap32_i64) {
 -        tcg_gen_op3i_i64(INDEX_op_bswap32_i64, ret, arg,
 -                         TCG_BSWAP_IZ | TCG_BSWAP_OZ);
 +        tcg_gen_op3i_i64(INDEX_op_bswap32_i64, ret, arg, flags);
      } else {
          TCGv_i64 t0 = tcg_temp_new_i64();
          TCGv_i64 t1 = tcg_temp_new_i64();
          TCGv_i64 t2 = tcg_constant_i64(0x00ff00ff);
 -                                        /* arg = ....abcd */
 -        tcg_gen_shri_i64(t0, arg, 8);   /*  t0 = .....abc */
 -        tcg_gen_and_i64(t1, arg, t2);   /*  t1 = .....b.d */
 -        tcg_gen_and_i64(t0, t0, t2);    /*  t0 = .....a.c */
 -        tcg_gen_shli_i64(t1, t1, 8);    /*  t1 = ....b.d. */
 -        tcg_gen_or_i64(ret, t0, t1);    /* ret = ....badc */
 +                                            /* arg = xxxxabcd */
 +        tcg_gen_shri_i64(t0, arg, 8);       /*  t0 = .xxxxabc */
 +        tcg_gen_and_i64(t1, arg, t2);       /*  t1 = .....b.d */
 +        tcg_gen_and_i64(t0, t0, t2);        /*  t0 = .....a.c */
 +        tcg_gen_shli_i64(t1, t1, 8);        /*  t1 = ....b.d. */
 +        tcg_gen_or_i64(ret, t0, t1);        /* ret = ....badc */
 -        tcg_gen_shli_i64(t1, ret, 48);  /*  t1 = dc...... */
 -        tcg_gen_shri_i64(t0, ret, 16);  /*  t0 = ......ba */
 -        tcg_gen_shri_i64(t1, t1, 32);   /*  t1 = ....dc.. */
 -        tcg_gen_or_i64(ret, t0, t1);    /* ret = ....dcba */
 +        tcg_gen_shli_i64(t1, ret, 48);      /*  t1 = dc...... */
 +        tcg_gen_shri_i64(t0, ret, 16);      /*  t0 = ......ba */
 +        if (flags & TCG_BSWAP_OS) {
 +            tcg_gen_sari_i64(t1, t1, 32);   /*  t1 = ssssdc.. */
 +        } else {
 +            tcg_gen_shri_i64(t1, t1, 32);   /*  t1 = ....dc.. */
 +        }
 +        tcg_gen_or_i64(ret, t0, t1);        /* ret = ssssdcba */
          tcg_temp_free_i64(t0);
          tcg_temp_free_i64(t1);
@@ -XXX,XX +XXX,XX @@ void tcg_gen_qemu_ld_i32(TCGv_i32 val, TCGv addr, TCGArg idx, MemOp memop)
      if ((orig_memop ^ memop) & MO_BSWAP) {
          switch (orig_memop & MO_SIZE) {
          case MO_16:
 -            tcg_gen_bswap16_i32(val, val);
 +            tcg_gen_bswap16_i32(val, val, TCG_BSWAP_IZ | TCG_BSWAP_OZ);
              if (orig_memop & MO_SIGN) {
                  tcg_gen_ext16s_i32(val, val);
              }
@@ -XXX,XX +XXX,XX @@ void tcg_gen_qemu_st_i32(TCGv_i32 val, TCGv addr, TCGArg idx, MemOp memop)
          switch (memop & MO_SIZE) {
          case MO_16:
              tcg_gen_ext16u_i32(swap, val);
 -            tcg_gen_bswap16_i32(swap, swap);
 +            tcg_gen_bswap16_i32(swap, swap, TCG_BSWAP_IZ | TCG_BSWAP_OZ);
              break;
          case MO_32:
              tcg_gen_bswap32_i32(swap, val);
@@ -XXX,XX +XXX,XX @@ void tcg_gen_qemu_ld_i64(TCGv_i64 val, TCGv addr, TCGArg idx, MemOp memop)
      if ((orig_memop ^ memop) & MO_BSWAP) {
          switch (orig_memop & MO_SIZE) {
          case MO_16:
 -            tcg_gen_bswap16_i64(val, val);
 +            tcg_gen_bswap16_i64(val, val, TCG_BSWAP_IZ | TCG_BSWAP_OZ);
              if (orig_memop & MO_SIGN) {
                  tcg_gen_ext16s_i64(val, val);
              }
              break;
          case MO_32:
 -            tcg_gen_bswap32_i64(val, val);
 +            tcg_gen_bswap32_i64(val, val, TCG_BSWAP_IZ | TCG_BSWAP_OZ);
              if (orig_memop & MO_SIGN) {
                  tcg_gen_ext32s_i64(val, val);
              }
@@ -XXX,XX +XXX,XX @@ void tcg_gen_qemu_st_i64(TCGv_i64 val, TCGv addr, TCGArg idx, MemOp memop)
          switch (memop & MO_SIZE) {
          case MO_16:
              tcg_gen_ext16u_i64(swap, val);
 -            tcg_gen_bswap16_i64(swap, swap);
 +            tcg_gen_bswap16_i64(swap, swap, TCG_BSWAP_IZ | TCG_BSWAP_OZ);
              break;
          case MO_32:
              tcg_gen_ext32u_i64(swap, val);
 -            tcg_gen_bswap32_i64(swap, swap);
 +            tcg_gen_bswap32_i64(swap, swap, TCG_BSWAP_IZ | TCG_BSWAP_OZ);
              break;
          case MO_64:
              tcg_gen_bswap64_i64(swap, val);
 --
-.25.1
+.43.0

The following changes since commit 13d5f87cc3b94bfccc501142df4a7b12fee3a6e7:

Merge remote-tracking branch 'remotes/rth-gitlab/tags/pull-axp-20210628' into staging (2021-06-29 10:02:42 +0100)

are available in the Git repository at:

https://gitlab.com/rth7680/qemu.git tags/pull-tcg-20210629

for you to fetch changes up to c86bd2dc4c1d37653c27293b2dacee6bb46bb995:

tcg/riscv: Remove MO_BSWAP handling (2021-06-29 10:04:57 -0700)

----------------------------------------------------------------
TranslatorOps conversion for target/avr
TranslatorOps conversion for target/cris
TranslatorOps conversion for target/nios2
Simple vector operations on TCGv_i32
Host signal fixes for *BSD
Improvements to tcg bswap operations

----------------------------------------------------------------
LIU Zhiwei (5):
      tcg: Add tcg_gen_vec_add{sub}16_i32
      tcg: Add tcg_gen_vec_add{sub}8_i32
      tcg: Add tcg_gen_vec_shl{shr}{sar}16i_i32
      tcg: Add tcg_gen_vec_shl{shr}{sar}8i_i32
      tcg: Implement tcg_gen_vec_add{sub}32_tl

Richard Henderson (57):
      target/nios2: Replace DISAS_TB_JUMP with DISAS_NORETURN
      target/nios2: Use global cpu_env
      target/nios2: Use global cpu_R
      target/nios2: Add DisasContextBase to DisasContext
      target/nios2: Convert to TranslatorOps
      target/nios2: Remove assignment to env in handle_instruction
      target/nios2: Clean up goto in handle_instruction
      target/nios2: Inline handle_instruction
      target/nios2: Use pc_next for pc + 4
      target/avr: Add DisasContextBase to DisasContext
      target/avr: Change ctx to DisasContext* in gen_intermediate_code
      target/avr: Convert to TranslatorOps
      target/cris: Add DisasContextBase to DisasContext
      target/cris: Remove DISAS_SWI
      target/cris: Replace DISAS_TB_JUMP with DISAS_NORETURN
      target/cris: Mark exceptions as DISAS_NORETURN
      target/cris: Fix use_goto_tb
      target/cris: Convert to TranslatorOps
      target/cris: Mark helper_raise_exception noreturn
      target/cris: Mark static arrays const
      target/cris: Fold unhandled X_FLAG changes into cpustate_changed
      target/cris: Set cpustate_changed for rfe/rfn
      target/cris: Add DISAS_UPDATE_NEXT
      target/cris: Add DISAS_DBRANCH
      target/cris: Use tcg_gen_lookup_and_goto_ptr
      target/cris: Improve JMP_INDIRECT
      target/cris: Remove dc->flagx_known
      target/cris: Do not exit tb for X_FLAG changes
      tcg: Add flags argument to bswap opcodes
      tcg/i386: Support bswap flags
      tcg/aarch64: Merge tcg_out_rev{16,32,64}
      tcg/aarch64: Support bswap flags
      tcg/arm: Support bswap flags
      tcg/ppc: Split out tcg_out_ext{8,16,32}s
      tcg/ppc: Split out tcg_out_sari{32,64}
      tcg/ppc: Split out tcg_out_bswap16
      tcg/ppc: Split out tcg_out_bswap32
      tcg/ppc: Split out tcg_out_bswap64
      tcg/ppc: Support bswap flags
      tcg/ppc: Use power10 byte-reverse instructions
      tcg/s390: Support bswap flags
      tcg/mips: Support bswap flags in tcg_out_bswap16
      tcg/mips: Support bswap flags in tcg_out_bswap32
      tcg/tci: Support bswap flags
      tcg: Handle new bswap flags during optimize
      tcg: Add flags argument to tcg_gen_bswap16_*, tcg_gen_bswap32_i64
      tcg: Make use of bswap flags in tcg_gen_qemu_ld_*
      tcg: Make use of bswap flags in tcg_gen_qemu_st_*
      target/arm: Improve REV32
      target/arm: Improve vector REV
      target/arm: Improve REVSH
      target/i386: Improve bswap translation
      target/sh4: Improve swap.b translation
      target/mips: Fix gen_mxu_s32ldd_s32lddr
      tcg/arm: Unset TCG_TARGET_HAS_MEMORY_BSWAP
      tcg/aarch64: Unset TCG_TARGET_HAS_MEMORY_BSWAP
      tcg/riscv: Remove MO_BSWAP handling

Warner Losh (1):
      tcg: Use correct trap number for page faults on *BSD systems

The only semantic of DISAS_TB_JUMP is that we've done goto_tb,
which is the same as DISAS_NORETURN -- we've exited the tb.

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 target/nios2/translate.c | 8 +++-----
 1 file changed, 3 insertions(+), 5 deletions(-)

diff --git a/target/nios2/translate.c b/target/nios2/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/nios2/translate.c
+++ b/target/nios2/translate.c
@@ -XXX,XX +XXX,XX @@
 /* is_jmp field values */
 #define DISAS_JUMP    DISAS_TARGET_0 /* only pc was modified dynamically */
 #define DISAS_UPDATE  DISAS_TARGET_1 /* cpu state was modified dynamically */
-#define DISAS_TB_JUMP DISAS_TARGET_2 /* only pc was modified statically */
 
 #define INSTRUCTION_FLG(func, flags) { (func), (flags) }
 #define INSTRUCTION(func)                  \
@@ -XXX,XX +XXX,XX @@ static void jmpi(DisasContext *dc, uint32_t code, uint32_t flags)
 {
     J_TYPE(instr, code);
     gen_goto_tb(dc, 0, (dc->pc & 0xF0000000) | (instr.imm26 << 2));
-    dc->is_jmp = DISAS_TB_JUMP;
+    dc->is_jmp = DISAS_NORETURN;
 }
 
 static void call(DisasContext *dc, uint32_t code, uint32_t flags)
@@ -XXX,XX +XXX,XX @@ static void br(DisasContext *dc, uint32_t code, uint32_t flags)
     I_TYPE(instr, code);
 
     gen_goto_tb(dc, 0, dc->pc + 4 + (instr.imm16.s & -4));
-    dc->is_jmp = DISAS_TB_JUMP;
+    dc->is_jmp = DISAS_NORETURN;
 }
 
 static void gen_bxx(DisasContext *dc, uint32_t code, uint32_t flags)
@@ -XXX,XX +XXX,XX @@ static void gen_bxx(DisasContext *dc, uint32_t code, uint32_t flags)
     gen_goto_tb(dc, 0, dc->pc + 4);
     gen_set_label(l1);
     gen_goto_tb(dc, 1, dc->pc + 4 + (instr.imm16.s & -4));
-    dc->is_jmp = DISAS_TB_JUMP;
+    dc->is_jmp = DISAS_NORETURN;
 }
 
 /* Comparison instructions */
@@ -XXX,XX +XXX,XX @@ void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int max_insns)
         break;
 
     case DISAS_NORETURN:
-    case DISAS_TB_JUMP:
         /* nothing more to generate */
         break;
     }
-- 
2.25.1

We do not need to copy this into DisasContext.

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 target/nios2/translate.c | 10 ++++------
 1 file changed, 4 insertions(+), 6 deletions(-)

We do not need to copy this into DisasContext.

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 target/nios2/translate.c | 73 +++++++++++++++++++---------------------
 1 file changed, 34 insertions(+), 39 deletions(-)

diff --git a/target/nios2/translate.c b/target/nios2/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/nios2/translate.c
+++ b/target/nios2/translate.c
@@ -XXX,XX +XXX,XX @@
     }
 
 typedef struct DisasContext {
-    TCGv             *cpu_R;
     TCGv_i32          zero;
     int               is_jmp;
     target_ulong      pc;
@@ -XXX,XX +XXX,XX @@ typedef struct DisasContext {
     bool              singlestep_enabled;
 } DisasContext;
 
+static TCGv cpu_R[NUM_CORE_REGS];
+
 typedef struct Nios2Instruction {
     void     (*handler)(DisasContext *dc, uint32_t code, uint32_t flags);
     uint32_t  flags;
@@ -XXX,XX +XXX,XX @@ static TCGv load_zero(DisasContext *dc)
 static TCGv load_gpr(DisasContext *dc, uint8_t reg)
 {
     if (likely(reg != R_ZERO)) {
-        return dc->cpu_R[reg];
+        return cpu_R[reg];
     } else {
         return load_zero(dc);
     }
@@ -XXX,XX +XXX,XX @@ static void t_gen_helper_raise_exception(DisasContext *dc,
 {
     TCGv_i32 tmp = tcg_const_i32(index);
 
-    tcg_gen_movi_tl(dc->cpu_R[R_PC], dc->pc);
+    tcg_gen_movi_tl(cpu_R[R_PC], dc->pc);
     gen_helper_raise_exception(cpu_env, tmp);
     tcg_temp_free_i32(tmp);
     dc->is_jmp = DISAS_NORETURN;
@@ -XXX,XX +XXX,XX @@ static void gen_goto_tb(DisasContext *dc, int n, uint32_t dest)
 
     if (use_goto_tb(dc, dest)) {
         tcg_gen_goto_tb(n);
-        tcg_gen_movi_tl(dc->cpu_R[R_PC], dest);
+        tcg_gen_movi_tl(cpu_R[R_PC], dest);
         tcg_gen_exit_tb(tb, n);
     } else {
-        tcg_gen_movi_tl(dc->cpu_R[R_PC], dest);
+        tcg_gen_movi_tl(cpu_R[R_PC], dest);
         tcg_gen_exit_tb(NULL, 0);
     }
 }
@@ -XXX,XX +XXX,XX @@ static void jmpi(DisasContext *dc, uint32_t code, uint32_t flags)
 
 static void call(DisasContext *dc, uint32_t code, uint32_t flags)
 {
-    tcg_gen_movi_tl(dc->cpu_R[R_RA], dc->pc + 4);
+    tcg_gen_movi_tl(cpu_R[R_RA], dc->pc + 4);
     jmpi(dc, code, flags);
 }
 
@@ -XXX,XX +XXX,XX @@ static void gen_ldx(DisasContext *dc, uint32_t code, uint32_t flags)
      *          the Nios2 CPU.
      */
     if (likely(instr.b != R_ZERO)) {
-        data = dc->cpu_R[instr.b];
+        data = cpu_R[instr.b];
     } else {
         data = tcg_temp_new();
     }
@@ -XXX,XX +XXX,XX @@ static void gen_bxx(DisasContext *dc, uint32_t code, uint32_t flags)
     I_TYPE(instr, code);
 
     TCGLabel *l1 = gen_new_label();
-    tcg_gen_brcond_tl(flags, dc->cpu_R[instr.a], dc->cpu_R[instr.b], l1);
+    tcg_gen_brcond_tl(flags, cpu_R[instr.a], cpu_R[instr.b], l1);
     gen_goto_tb(dc, 0, dc->pc + 4);
     gen_set_label(l1);
     gen_goto_tb(dc, 1, dc->pc + 4 + (instr.imm16.s & -4));
@@ -XXX,XX +XXX,XX @@ static void gen_bxx(DisasContext *dc, uint32_t code, uint32_t flags)
 static void (fname)(DisasContext *dc, uint32_t code, uint32_t flags)         \
 {                                                                            \
     I_TYPE(instr, (code));                                                   \
-    tcg_gen_setcondi_tl(flags, (dc)->cpu_R[instr.b], (dc)->cpu_R[instr.a],   \
-                        (op3));                                              \
+    tcg_gen_setcondi_tl(flags, cpu_R[instr.b], cpu_R[instr.a], (op3));       \
 }
 
 gen_i_cmpxx(gen_cmpxxsi, instr.imm16.s)
@@ -XXX,XX +XXX,XX @@ static void (fname)(DisasContext *dc, uint32_t code, uint32_t flags)        \
     if (unlikely(instr.b == R_ZERO)) { /* Store to R_ZERO is ignored */     \
         return;                                                             \
     } else if (instr.a == R_ZERO) { /* MOVxI optimizations */               \
-        tcg_gen_movi_tl(dc->cpu_R[instr.b], (resimm) ? (op3) : 0);          \
+        tcg_gen_movi_tl(cpu_R[instr.b], (resimm) ? (op3) : 0);              \
     } else {                                                                \
-        tcg_gen_##insn##_tl((dc)->cpu_R[instr.b], (dc)->cpu_R[instr.a],     \
-                            (op3));                                         \
+        tcg_gen_##insn##_tl(cpu_R[instr.b], cpu_R[instr.a], (op3));         \
     }                                                                       \
 }
 
@@ -XXX,XX +XXX,XX @@ static const Nios2Instruction i_type_instructions[] = {
  */
 static void eret(DisasContext *dc, uint32_t code, uint32_t flags)
 {
-    tcg_gen_mov_tl(dc->cpu_R[CR_STATUS], dc->cpu_R[CR_ESTATUS]);
-    tcg_gen_mov_tl(dc->cpu_R[R_PC], dc->cpu_R[R_EA]);
+    tcg_gen_mov_tl(cpu_R[CR_STATUS], cpu_R[CR_ESTATUS]);
+    tcg_gen_mov_tl(cpu_R[R_PC], cpu_R[R_EA]);
 
     dc->is_jmp = DISAS_JUMP;
 }
@@ -XXX,XX +XXX,XX @@ static void eret(DisasContext *dc, uint32_t code, uint32_t flags)
 /* PC <- ra */
 static void ret(DisasContext *dc, uint32_t code, uint32_t flags)
 {
-    tcg_gen_mov_tl(dc->cpu_R[R_PC], dc->cpu_R[R_RA]);
+    tcg_gen_mov_tl(cpu_R[R_PC], cpu_R[R_RA]);
 
     dc->is_jmp = DISAS_JUMP;
 }
@@ -XXX,XX +XXX,XX @@ static void ret(DisasContext *dc, uint32_t code, uint32_t flags)
 /* PC <- ba */
 static void bret(DisasContext *dc, uint32_t code, uint32_t flags)
 {
-    tcg_gen_mov_tl(dc->cpu_R[R_PC], dc->cpu_R[R_BA]);
+    tcg_gen_mov_tl(cpu_R[R_PC], cpu_R[R_BA]);
 
     dc->is_jmp = DISAS_JUMP;
 }
@@ -XXX,XX +XXX,XX @@ static void jmp(DisasContext *dc, uint32_t code, uint32_t flags)
 {
     R_TYPE(instr, code);
 
-    tcg_gen_mov_tl(dc->cpu_R[R_PC], load_gpr(dc, instr.a));
+    tcg_gen_mov_tl(cpu_R[R_PC], load_gpr(dc, instr.a));
 
     dc->is_jmp = DISAS_JUMP;
 }
@@ -XXX,XX +XXX,XX @@ static void nextpc(DisasContext *dc, uint32_t code, uint32_t flags)
     R_TYPE(instr, code);
 
     if (likely(instr.c != R_ZERO)) {
-        tcg_gen_movi_tl(dc->cpu_R[instr.c], dc->pc + 4);
+        tcg_gen_movi_tl(cpu_R[instr.c], dc->pc + 4);
     }
 }
 
@@ -XXX,XX +XXX,XX @@ static void callr(DisasContext *dc, uint32_t code, uint32_t flags)
 {
     R_TYPE(instr, code);
 
-    tcg_gen_mov_tl(dc->cpu_R[R_PC], load_gpr(dc, instr.a));
-    tcg_gen_movi_tl(dc->cpu_R[R_RA], dc->pc + 4);
+    tcg_gen_mov_tl(cpu_R[R_PC], load_gpr(dc, instr.a));
+    tcg_gen_movi_tl(cpu_R[R_RA], dc->pc + 4);
 
     dc->is_jmp = DISAS_JUMP;
 }
@@ -XXX,XX +XXX,XX @@ static void rdctl(DisasContext *dc, uint32_t code, uint32_t flags)
     {
 #if !defined(CONFIG_USER_ONLY)
         if (likely(instr.c != R_ZERO)) {
-            tcg_gen_mov_tl(dc->cpu_R[instr.c], dc->cpu_R[instr.imm5 + CR_BASE]);
+            tcg_gen_mov_tl(cpu_R[instr.c], cpu_R[instr.imm5 + CR_BASE]);
 #ifdef DEBUG_MMU
             TCGv_i32 tmp = tcg_const_i32(instr.imm5 + CR_BASE);
-            gen_helper_mmu_read_debug(dc->cpu_R[instr.c], cpu_env, tmp);
+            gen_helper_mmu_read_debug(cpu_R[instr.c], cpu_env, tmp);
             tcg_temp_free_i32(tmp);
 #endif
         }
@@ -XXX,XX +XXX,XX @@ static void rdctl(DisasContext *dc, uint32_t code, uint32_t flags)
 
     default:
         if (likely(instr.c != R_ZERO)) {
-            tcg_gen_mov_tl(dc->cpu_R[instr.c], dc->cpu_R[instr.imm5 + CR_BASE]);
+            tcg_gen_mov_tl(cpu_R[instr.c], cpu_R[instr.imm5 + CR_BASE]);
         }
         break;
     }
@@ -XXX,XX +XXX,XX @@ static void wrctl(DisasContext *dc, uint32_t code, uint32_t flags)
     }
 
     default:
-        tcg_gen_mov_tl(dc->cpu_R[instr.imm5 + CR_BASE], load_gpr(dc, instr.a));
+        tcg_gen_mov_tl(cpu_R[instr.imm5 + CR_BASE], load_gpr(dc, instr.a));
         break;
     }
 
@@ -XXX,XX +XXX,XX @@ static void gen_cmpxx(DisasContext *dc, uint32_t code, uint32_t flags)
 {
     R_TYPE(instr, code);
     if (likely(instr.c != R_ZERO)) {
-        tcg_gen_setcond_tl(flags, dc->cpu_R[instr.c], dc->cpu_R[instr.a],
-                           dc->cpu_R[instr.b]);
+        tcg_gen_setcond_tl(flags, cpu_R[instr.c], cpu_R[instr.a],
+                           cpu_R[instr.b]);
     }
 }
 
@@ -XXX,XX +XXX,XX @@ static void (fname)(DisasContext *dc, uint32_t code, uint32_t flags)       \
 {                                                                          \
     R_TYPE(instr, (code));                                                 \
     if (likely(instr.c != R_ZERO)) {                                       \
-        tcg_gen_##insn((dc)->cpu_R[instr.c], load_gpr((dc), instr.a),      \
-                       (op3));                                             \
+        tcg_gen_##insn(cpu_R[instr.c], load_gpr((dc), instr.a), (op3));    \
     }                                                                      \
 }
 
@@ -XXX,XX +XXX,XX @@ static void (fname)(DisasContext *dc, uint32_t code, uint32_t flags)   \
     R_TYPE(instr, (code));                                             \
     if (likely(instr.c != R_ZERO)) {                                   \
         TCGv t0 = tcg_temp_new();                                      \
-        tcg_gen_##insn(t0, dc->cpu_R[instr.c],                         \
-                       load_gpr(dc, instr.a), load_gpr(dc, instr.b)); \
+        tcg_gen_##insn(t0, cpu_R[instr.c],                             \
+                       load_gpr(dc, instr.a), load_gpr(dc, instr.b));  \
         tcg_temp_free(t0);                                             \
     }                                                                  \
 }
@@ -XXX,XX +XXX,XX @@ static void (fname)(DisasContext *dc, uint32_t code, uint32_t flags)       \
     if (likely(instr.c != R_ZERO)) {                                       \
         TCGv t0 = tcg_temp_new();                                          \
         tcg_gen_andi_tl(t0, load_gpr((dc), instr.b), 31);                  \
-        tcg_gen_##insn((dc)->cpu_R[instr.c], load_gpr((dc), instr.a), t0); \
+        tcg_gen_##insn(cpu_R[instr.c], load_gpr((dc), instr.a), t0);       \
         tcg_temp_free(t0);                                                 \
     }                                                                      \
 }
@@ -XXX,XX +XXX,XX @@ static void divs(DisasContext *dc, uint32_t code, uint32_t flags)
     tcg_gen_or_tl(t2, t2, t3);
     tcg_gen_movi_tl(t3, 0);
     tcg_gen_movcond_tl(TCG_COND_NE, t1, t2, t3, t2, t1);
-    tcg_gen_div_tl(dc->cpu_R[instr.c], t0, t1);
-    tcg_gen_ext32s_tl(dc->cpu_R[instr.c], dc->cpu_R[instr.c]);
+    tcg_gen_div_tl(cpu_R[instr.c], t0, t1);
+    tcg_gen_ext32s_tl(cpu_R[instr.c], cpu_R[instr.c]);
 
     tcg_temp_free(t3);
     tcg_temp_free(t2);
@@ -XXX,XX +XXX,XX @@ static void divu(DisasContext *dc, uint32_t code, uint32_t flags)
     tcg_gen_ext32u_tl(t0, load_gpr(dc, instr.a));
     tcg_gen_ext32u_tl(t1, load_gpr(dc, instr.b));
     tcg_gen_movcond_tl(TCG_COND_EQ, t1, t1, t2, t3, t1);
-    tcg_gen_divu_tl(dc->cpu_R[instr.c], t0, t1);
-    tcg_gen_ext32s_tl(dc->cpu_R[instr.c], dc->cpu_R[instr.c]);
+    tcg_gen_divu_tl(cpu_R[instr.c], t0, t1);
+    tcg_gen_ext32s_tl(cpu_R[instr.c], cpu_R[instr.c]);
 
     tcg_temp_free(t3);
     tcg_temp_free(t2);
@@ -XXX,XX +XXX,XX @@ static const char * const regnames[] = {
     "rpc"
 };
 
-static TCGv cpu_R[NUM_CORE_REGS];
-
 #include "exec/gen-icount.h"
 
 static void gen_exception(DisasContext *dc, uint32_t excp)
@@ -XXX,XX +XXX,XX @@ void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int max_insns)
     int num_insns;
 
     /* Initialize DC */
-    dc->cpu_R   = cpu_R;
     dc->is_jmp  = DISAS_NEXT;
     dc->pc      = tb->pc;
     dc->tb      = tb;
-- 
2.25.1

Migrate the is_jmp, tb and singlestep_enabled fields from
DisasContext into the base.  Use pc_first instead of tb->pc.
Increment pc_next prior to decode, leaving the address of
the current insn in dc->pc.

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 target/nios2/translate.c | 70 +++++++++++++++++++++-------------------
 1 file changed, 36 insertions(+), 34 deletions(-)

diff --git a/target/nios2/translate.c b/target/nios2/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/nios2/translate.c
+++ b/target/nios2/translate.c
@@ -XXX,XX +XXX,XX @@
     }
 
 typedef struct DisasContext {
+    DisasContextBase  base;
     TCGv_i32          zero;
-    int               is_jmp;
     target_ulong      pc;
-    TranslationBlock *tb;
     int               mem_idx;
-    bool              singlestep_enabled;
 } DisasContext;
 
 static TCGv cpu_R[NUM_CORE_REGS];
@@ -XXX,XX +XXX,XX @@ static void t_gen_helper_raise_exception(DisasContext *dc,
     tcg_gen_movi_tl(cpu_R[R_PC], dc->pc);
     gen_helper_raise_exception(cpu_env, tmp);
     tcg_temp_free_i32(tmp);
-    dc->is_jmp = DISAS_NORETURN;
+    dc->base.is_jmp = DISAS_NORETURN;
 }
 
 static bool use_goto_tb(DisasContext *dc, uint32_t dest)
 {
-    if (unlikely(dc->singlestep_enabled)) {
+    if (unlikely(dc->base.singlestep_enabled)) {
         return false;
     }
 
 #ifndef CONFIG_USER_ONLY
-    return (dc->tb->pc & TARGET_PAGE_MASK) == (dest & TARGET_PAGE_MASK);
+    return (dc->base.pc_first & TARGET_PAGE_MASK) == (dest & TARGET_PAGE_MASK);
 #else
     return true;
 #endif
@@ -XXX,XX +XXX,XX @@ static bool use_goto_tb(DisasContext *dc, uint32_t dest)
 
 static void gen_goto_tb(DisasContext *dc, int n, uint32_t dest)
 {
-    TranslationBlock *tb = dc->tb;
+    const TranslationBlock *tb = dc->base.tb;
 
     if (use_goto_tb(dc, dest)) {
         tcg_gen_goto_tb(n);
@@ -XXX,XX +XXX,XX @@ static void gen_excp(DisasContext *dc, uint32_t code, uint32_t flags)
 
 static void gen_check_supervisor(DisasContext *dc)
 {
-    if (dc->tb->flags & CR_STATUS_U) {
+    if (dc->base.tb->flags & CR_STATUS_U) {
         /* CPU in user mode, privileged instruction called, stop. */
         t_gen_helper_raise_exception(dc, EXCP_SUPERI);
     }
@@ -XXX,XX +XXX,XX @@ static void jmpi(DisasContext *dc, uint32_t code, uint32_t flags)
 {
     J_TYPE(instr, code);
     gen_goto_tb(dc, 0, (dc->pc & 0xF0000000) | (instr.imm26 << 2));
-    dc->is_jmp = DISAS_NORETURN;
+    dc->base.is_jmp = DISAS_NORETURN;
 }
 
 static void call(DisasContext *dc, uint32_t code, uint32_t flags)
@@ -XXX,XX +XXX,XX @@ static void br(DisasContext *dc, uint32_t code, uint32_t flags)
     I_TYPE(instr, code);
 
     gen_goto_tb(dc, 0, dc->pc + 4 + (instr.imm16.s & -4));
-    dc->is_jmp = DISAS_NORETURN;
+    dc->base.is_jmp = DISAS_NORETURN;
 }
 
 static void gen_bxx(DisasContext *dc, uint32_t code, uint32_t flags)
@@ -XXX,XX +XXX,XX @@ static void gen_bxx(DisasContext *dc, uint32_t code, uint32_t flags)
     gen_goto_tb(dc, 0, dc->pc + 4);
     gen_set_label(l1);
     gen_goto_tb(dc, 1, dc->pc + 4 + (instr.imm16.s & -4));
-    dc->is_jmp = DISAS_NORETURN;
+    dc->base.is_jmp = DISAS_NORETURN;
 }
 
 /* Comparison instructions */
@@ -XXX,XX +XXX,XX @@ static void eret(DisasContext *dc, uint32_t code, uint32_t flags)
     tcg_gen_mov_tl(cpu_R[CR_STATUS], cpu_R[CR_ESTATUS]);
     tcg_gen_mov_tl(cpu_R[R_PC], cpu_R[R_EA]);
 
-    dc->is_jmp = DISAS_JUMP;
+    dc->base.is_jmp = DISAS_JUMP;
 }
 
 /* PC <- ra */
@@ -XXX,XX +XXX,XX @@ static void ret(DisasContext *dc, uint32_t code, uint32_t flags)
 {
     tcg_gen_mov_tl(cpu_R[R_PC], cpu_R[R_RA]);
 
-    dc->is_jmp = DISAS_JUMP;
+    dc->base.is_jmp = DISAS_JUMP;
 }
 
 /* PC <- ba */
@@ -XXX,XX +XXX,XX @@ static void bret(DisasContext *dc, uint32_t code, uint32_t flags)
 {
     tcg_gen_mov_tl(cpu_R[R_PC], cpu_R[R_BA]);
 
-    dc->is_jmp = DISAS_JUMP;
+    dc->base.is_jmp = DISAS_JUMP;
 }
 
 /* PC <- rA */
@@ -XXX,XX +XXX,XX @@ static void jmp(DisasContext *dc, uint32_t code, uint32_t flags)
 
     tcg_gen_mov_tl(cpu_R[R_PC], load_gpr(dc, instr.a));
 
-    dc->is_jmp = DISAS_JUMP;
+    dc->base.is_jmp = DISAS_JUMP;
 }
 
 /* rC <- PC + 4 */
@@ -XXX,XX +XXX,XX @@ static void callr(DisasContext *dc, uint32_t code, uint32_t flags)
     tcg_gen_mov_tl(cpu_R[R_PC], load_gpr(dc, instr.a));
     tcg_gen_movi_tl(cpu_R[R_RA], dc->pc + 4);
 
-    dc->is_jmp = DISAS_JUMP;
+    dc->base.is_jmp = DISAS_JUMP;
 }
 
 /* rC <- ctlN */
@@ -XXX,XX +XXX,XX @@ static void wrctl(DisasContext *dc, uint32_t code, uint32_t flags)
     /* If interrupts were enabled using WRCTL, trigger them. */
 #if !defined(CONFIG_USER_ONLY)
     if ((instr.imm5 + CR_BASE) == CR_STATUS) {
-        if (tb_cflags(dc->tb) & CF_USE_ICOUNT) {
+        if (tb_cflags(dc->base.tb) & CF_USE_ICOUNT) {
             gen_io_start();
         }
         gen_helper_check_interrupts(cpu_env);
-        dc->is_jmp = DISAS_UPDATE;
+        dc->base.is_jmp = DISAS_UPDATE;
     }
 #endif
 }
@@ -XXX,XX +XXX,XX @@ static void gen_exception(DisasContext *dc, uint32_t excp)
     tcg_gen_movi_tl(cpu_R[R_PC], dc->pc);
     gen_helper_raise_exception(cpu_env, tmp);
     tcg_temp_free_i32(tmp);
-    dc->is_jmp = DISAS_NORETURN;
+    dc->base.is_jmp = DISAS_NORETURN;
 }
 
 /* generate intermediate code for basic block 'tb'.  */
@@ -XXX,XX +XXX,XX @@ void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int max_insns)
     int num_insns;
 
     /* Initialize DC */
-    dc->is_jmp  = DISAS_NEXT;
-    dc->pc      = tb->pc;
-    dc->tb      = tb;
+
+    dc->base.tb = tb;
+    dc->base.singlestep_enabled = cs->singlestep_enabled;
+    dc->base.is_jmp = DISAS_NEXT;
+    dc->base.pc_first = tb->pc;
+    dc->base.pc_next = tb->pc;
+
     dc->mem_idx = cpu_mmu_index(env, false);
-    dc->singlestep_enabled = cs->singlestep_enabled;
 
     /* Set up instruction counts */
     num_insns = 0;
@@ -XXX,XX +XXX,XX @@ void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int max_insns)
 
     gen_tb_start(tb);
     do {
-        tcg_gen_insn_start(dc->pc);
+        tcg_gen_insn_start(dc->base.pc_next);
         num_insns++;
 
-        if (unlikely(cpu_breakpoint_test(cs, dc->pc, BP_ANY))) {
+        if (unlikely(cpu_breakpoint_test(cs, dc->base.pc_next, BP_ANY))) {
             gen_exception(dc, EXCP_DEBUG);
             /* The address covered by the breakpoint must be included in
                [tb->pc, tb->pc + tb->size) in order to for it to be
@@ -XXX,XX +XXX,XX @@ void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int max_insns)
             gen_io_start();
         }
 
+        dc->pc = dc->base.pc_next;
+        dc->base.pc_next += 4;
+
         /* Decode an instruction */
         handle_instruction(dc, env);
 
-        dc->pc += 4;
-
         /* Translation stops when a conditional branch is encountered.
          * Otherwise the subsequent code could get translated several times.
          * Also stop translation when a page boundary is reached.  This
          * ensures prefetch aborts occur at the right place.  */
-    } while (!dc->is_jmp &&
+    } while (!dc->base.is_jmp &&
              !tcg_op_buf_full() &&
              num_insns < max_insns);
 
     /* Indicate where the next block should start */
-    switch (dc->is_jmp) {
+    switch (dc->base.is_jmp) {
     case DISAS_NEXT:
     case DISAS_UPDATE:
         /* Save the current PC back into the CPU register */
-        tcg_gen_movi_tl(cpu_R[R_PC], dc->pc);
+        tcg_gen_movi_tl(cpu_R[R_PC], dc->base.pc_next);
         tcg_gen_exit_tb(NULL, 0);
         break;
 
@@ -XXX,XX +XXX,XX @@ void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int max_insns)
     gen_tb_end(tb, num_insns);
 
     /* Mark instruction starts for the final generated instruction */
-    tb->size = dc->pc - tb->pc;
+    tb->size = dc->base.pc_next - dc->base.pc_first;
     tb->icount = num_insns;
 
 #ifdef DEBUG_DISAS
     if (qemu_loglevel_mask(CPU_LOG_TB_IN_ASM)
-        && qemu_log_in_addr_range(tb->pc)) {
+        && qemu_log_in_addr_range(dc->base.pc_first)) {
         FILE *logfile = qemu_log_lock();
-        qemu_log("IN: %s\n", lookup_symbol(tb->pc));
-        log_target_disas(cs, tb->pc, dc->pc - tb->pc);
+        qemu_log("IN: %s\n", lookup_symbol(dc->base.pc_first));
+        log_target_disas(cs, tb->pc, tb->size);
         qemu_log("\n");
         qemu_log_unlock(logfile);
     }
-- 
2.25.1

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 target/nios2/translate.c | 128 ++++++++++++++++++++-------------------
 1 file changed, 65 insertions(+), 63 deletions(-)

diff --git a/target/nios2/translate.c b/target/nios2/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/nios2/translate.c
+++ b/target/nios2/translate.c
@@ -XXX,XX +XXX,XX @@ static void gen_exception(DisasContext *dc, uint32_t excp)
 }
 
 /* generate intermediate code for basic block 'tb'.  */
-void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int max_insns)
+static void nios2_tr_init_disas_context(DisasContextBase *dcbase, CPUState *cs)
 {
+    DisasContext *dc = container_of(dcbase, DisasContext, base);
     CPUNios2State *env = cs->env_ptr;
-    DisasContext dc1, *dc = &dc1;
-    int num_insns;
-
-    /* Initialize DC */
-
-    dc->base.tb = tb;
-    dc->base.singlestep_enabled = cs->singlestep_enabled;
-    dc->base.is_jmp = DISAS_NEXT;
-    dc->base.pc_first = tb->pc;
-    dc->base.pc_next = tb->pc;
+    int page_insns;
 
     dc->mem_idx = cpu_mmu_index(env, false);
 
-    /* Set up instruction counts */
-    num_insns = 0;
-    if (max_insns > 1) {
-        int page_insns = (TARGET_PAGE_SIZE - (tb->pc & ~TARGET_PAGE_MASK)) / 4;
-        if (max_insns > page_insns) {
-            max_insns = page_insns;
-        }
-    }
+    /* Bound the number of insns to execute to those left on the page.  */
+    page_insns = -(dc->base.pc_first | TARGET_PAGE_MASK) / 4;
+    dc->base.max_insns = MIN(page_insns, dc->base.max_insns);
+}
 
-    gen_tb_start(tb);
-    do {
-        tcg_gen_insn_start(dc->base.pc_next);
-        num_insns++;
+static void nios2_tr_tb_start(DisasContextBase *db, CPUState *cs)
+{
+}
 
-        if (unlikely(cpu_breakpoint_test(cs, dc->base.pc_next, BP_ANY))) {
-            gen_exception(dc, EXCP_DEBUG);
-            /* The address covered by the breakpoint must be included in
-               [tb->pc, tb->pc + tb->size) in order to for it to be
-               properly cleared -- thus we increment the PC here so that
-               the logic setting tb->size below does the right thing.  */
-            dc->pc += 4;
-            break;
-        }
+static void nios2_tr_insn_start(DisasContextBase *dcbase, CPUState *cs)
+{
+    tcg_gen_insn_start(dcbase->pc_next);
+}
 
-        if (num_insns == max_insns && (tb_cflags(tb) & CF_LAST_IO)) {
-            gen_io_start();
-        }
+static bool nios2_tr_breakpoint_check(DisasContextBase *dcbase, CPUState *cs,
+                                      const CPUBreakpoint *bp)
+{
+    DisasContext *dc = container_of(dcbase, DisasContext, base);
 
-        dc->pc = dc->base.pc_next;
-        dc->base.pc_next += 4;
+    gen_exception(dc, EXCP_DEBUG);
+    /*
+     * The address covered by the breakpoint must be included in
+     * [tb->pc, tb->pc + tb->size) in order to for it to be
+     * properly cleared -- thus we increment the PC here so that
+     * the logic setting tb->size below does the right thing.
+     */
+    dc->base.pc_next += 4;
+    return true;
+}
 
-        /* Decode an instruction */
-        handle_instruction(dc, env);
+static void nios2_tr_translate_insn(DisasContextBase *dcbase, CPUState *cs)
+{
+    DisasContext *dc = container_of(dcbase, DisasContext, base);
+    CPUNios2State *env = cs->env_ptr;
 
-        /* Translation stops when a conditional branch is encountered.
-         * Otherwise the subsequent code could get translated several times.
-         * Also stop translation when a page boundary is reached.  This
-         * ensures prefetch aborts occur at the right place.  */
-    } while (!dc->base.is_jmp &&
-             !tcg_op_buf_full() &&
-             num_insns < max_insns);
+    dc->pc = dc->base.pc_next;
+    dc->base.pc_next += 4;
+
+    /* Decode an instruction */
+    handle_instruction(dc, env);
+}
+
+static void nios2_tr_tb_stop(DisasContextBase *dcbase, CPUState *cs)
+{
+    DisasContext *dc = container_of(dcbase, DisasContext, base);
 
     /* Indicate where the next block should start */
     switch (dc->base.is_jmp) {
-    case DISAS_NEXT:
+    case DISAS_TOO_MANY:
     case DISAS_UPDATE:
         /* Save the current PC back into the CPU register */
         tcg_gen_movi_tl(cpu_R[R_PC], dc->base.pc_next);
         tcg_gen_exit_tb(NULL, 0);
         break;
 
-    default:
     case DISAS_JUMP:
         /* The jump will already have updated the PC register */
         tcg_gen_exit_tb(NULL, 0);
@@ -XXX,XX +XXX,XX @@ void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int max_insns)
     case DISAS_NORETURN:
         /* nothing more to generate */
         break;
+
+    default:
+        g_assert_not_reached();
     }
+}
 
-    /* End off the block */
-    gen_tb_end(tb, num_insns);
+static void nios2_tr_disas_log(const DisasContextBase *dcbase, CPUState *cpu)
+{
+    qemu_log("IN: %s\n", lookup_symbol(dcbase->pc_first));
+    log_target_disas(cpu, dcbase->pc_first, dcbase->tb->size);
+}
 
-    /* Mark instruction starts for the final generated instruction */
-    tb->size = dc->base.pc_next - dc->base.pc_first;
-    tb->icount = num_insns;
+static const TranslatorOps nios2_tr_ops = {
+    .init_disas_context = nios2_tr_init_disas_context,
+    .tb_start           = nios2_tr_tb_start,
+    .insn_start         = nios2_tr_insn_start,
+    .breakpoint_check   = nios2_tr_breakpoint_check,
+    .translate_insn     = nios2_tr_translate_insn,
+    .tb_stop            = nios2_tr_tb_stop,
+    .disas_log          = nios2_tr_disas_log,
+};
 
-#ifdef DEBUG_DISAS
-    if (qemu_loglevel_mask(CPU_LOG_TB_IN_ASM)
-        && qemu_log_in_addr_range(dc->base.pc_first)) {
-        FILE *logfile = qemu_log_lock();
-        qemu_log("IN: %s\n", lookup_symbol(dc->base.pc_first));
-        log_target_disas(cs, tb->pc, tb->size);
-        qemu_log("\n");
-        qemu_log_unlock(logfile);
-    }
-#endif
+void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int max_insns)
+{
+    DisasContext dc;
+    translator_loop(&nios2_tr_ops, &dc.base, cs, tb, max_insns);
 }
 
 void nios2_cpu_dump_state(CPUState *cs, FILE *f, int flags)
-- 
2.25.1

Direct assignments to env during translation do not work.

As it happens, the only way we can get here is if env->pc
is already set to dc->pc.  We will trap on the first insn
we execute anywhere on the page.

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 target/nios2/translate.c | 3 ++-
 1 file changed, 2 insertions(+), 1 deletion(-)

diff --git a/target/nios2/translate.c b/target/nios2/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/nios2/translate.c
+++ b/target/nios2/translate.c
@@ -XXX,XX +XXX,XX @@ static void handle_instruction(DisasContext *dc, CPUNios2State *env)
     uint32_t code;
     uint8_t op;
     const Nios2Instruction *instr;
+
 #if defined(CONFIG_USER_ONLY)
     /* FIXME: Is this needed ? */
     if (dc->pc >= 0x1000 && dc->pc < 0x2000) {
-        env->regs[R_PC] = dc->pc;
         t_gen_helper_raise_exception(dc, 0xaa);
         return;
     }
 #endif
+
     code = cpu_ldl_code(env, dc->pc);
     op = get_opcode(code);
 
-- 
2.25.1

Move handle_instruction into nios2_tr_translate_insn
as the only caller.

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 target/nios2/translate.c | 66 +++++++++++++++++++---------------------
 1 file changed, 31 insertions(+), 35 deletions(-)

diff --git a/target/nios2/translate.c b/target/nios2/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/nios2/translate.c
+++ b/target/nios2/translate.c
@@ -XXX,XX +XXX,XX @@ illegal_op:
     t_gen_helper_raise_exception(dc, EXCP_ILLEGAL);
 }
 
-static void handle_instruction(DisasContext *dc, CPUNios2State *env)
-{
-    uint32_t code;
-    uint8_t op;
-    const Nios2Instruction *instr;
-
-#if defined(CONFIG_USER_ONLY)
-    /* FIXME: Is this needed ? */
-    if (dc->pc >= 0x1000 && dc->pc < 0x2000) {
-        t_gen_helper_raise_exception(dc, 0xaa);
-        return;
-    }
-#endif
-
-    code = cpu_ldl_code(env, dc->pc);
-    op = get_opcode(code);
-
-    if (unlikely(op >= ARRAY_SIZE(i_type_instructions))) {
-        t_gen_helper_raise_exception(dc, EXCP_ILLEGAL);
-        return;
-    }
-
-    dc->zero = NULL;
-
-    instr = &i_type_instructions[op];
-    instr->handler(dc, code, instr->flags);
-
-    if (dc->zero) {
-        tcg_temp_free(dc->zero);
-    }
-}
-
 static const char * const regnames[] = {
     "zero",       "at",         "r2",         "r3",
     "r4",         "r5",         "r6",         "r7",
@@ -XXX,XX +XXX,XX @@ static void nios2_tr_translate_insn(DisasContextBase *dcbase, CPUState *cs)
 {
     DisasContext *dc = container_of(dcbase, DisasContext, base);
     CPUNios2State *env = cs->env_ptr;
+    const Nios2Instruction *instr;
+    uint32_t code, pc;
+    uint8_t op;
 
-    dc->pc = dc->base.pc_next;
-    dc->base.pc_next += 4;
+    pc = dc->base.pc_next;
+    dc->pc = pc;
+    dc->base.pc_next = pc + 4;
 
     /* Decode an instruction */
-    handle_instruction(dc, env);
+
+#if defined(CONFIG_USER_ONLY)
+    /* FIXME: Is this needed ? */
+    if (pc >= 0x1000 && pc < 0x2000) {
+        t_gen_helper_raise_exception(dc, 0xaa);
+        return;
+    }
+#endif
+
+    code = cpu_ldl_code(env, pc);
+    op = get_opcode(code);
+
+    if (unlikely(op >= ARRAY_SIZE(i_type_instructions))) {
+        t_gen_helper_raise_exception(dc, EXCP_ILLEGAL);
+        return;
+    }
+
+    dc->zero = NULL;
+
+    instr = &i_type_instructions[op];
+    instr->handler(dc, code, instr->flags);
+
+    if (dc->zero) {
+        tcg_temp_free(dc->zero);
+    }
 }
 
 static void nios2_tr_tb_stop(DisasContextBase *dcbase, CPUState *cs)
-- 
2.25.1

We have pre-computed the next instruction address into
dc->base.pc_next, so we might as well use it.

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Suggested-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 target/nios2/translate.c | 12 ++++++------
 1 file changed, 6 insertions(+), 6 deletions(-)

diff --git a/target/nios2/translate.c b/target/nios2/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/nios2/translate.c
+++ b/target/nios2/translate.c
@@ -XXX,XX +XXX,XX @@ static void jmpi(DisasContext *dc, uint32_t code, uint32_t flags)
 
 static void call(DisasContext *dc, uint32_t code, uint32_t flags)
 {
-    tcg_gen_movi_tl(cpu_R[R_RA], dc->pc + 4);
+    tcg_gen_movi_tl(cpu_R[R_RA], dc->base.pc_next);
     jmpi(dc, code, flags);
 }
 
@@ -XXX,XX +XXX,XX @@ static void br(DisasContext *dc, uint32_t code, uint32_t flags)
 {
     I_TYPE(instr, code);
 
-    gen_goto_tb(dc, 0, dc->pc + 4 + (instr.imm16.s & -4));
+    gen_goto_tb(dc, 0, dc->base.pc_next + (instr.imm16.s & -4));
     dc->base.is_jmp = DISAS_NORETURN;
 }
 
@@ -XXX,XX +XXX,XX @@ static void gen_bxx(DisasContext *dc, uint32_t code, uint32_t flags)
 
     TCGLabel *l1 = gen_new_label();
     tcg_gen_brcond_tl(flags, cpu_R[instr.a], cpu_R[instr.b], l1);
-    gen_goto_tb(dc, 0, dc->pc + 4);
+    gen_goto_tb(dc, 0, dc->base.pc_next);
     gen_set_label(l1);
-    gen_goto_tb(dc, 1, dc->pc + 4 + (instr.imm16.s & -4));
+    gen_goto_tb(dc, 1, dc->base.pc_next + (instr.imm16.s & -4));
     dc->base.is_jmp = DISAS_NORETURN;
 }
 
@@ -XXX,XX +XXX,XX @@ static void nextpc(DisasContext *dc, uint32_t code, uint32_t flags)
     R_TYPE(instr, code);
 
     if (likely(instr.c != R_ZERO)) {
-        tcg_gen_movi_tl(cpu_R[instr.c], dc->pc + 4);
+        tcg_gen_movi_tl(cpu_R[instr.c], dc->base.pc_next);
     }
 }
 
@@ -XXX,XX +XXX,XX @@ static void callr(DisasContext *dc, uint32_t code, uint32_t flags)
     R_TYPE(instr, code);
 
     tcg_gen_mov_tl(cpu_R[R_PC], load_gpr(dc, instr.a));
-    tcg_gen_movi_tl(cpu_R[R_RA], dc->pc + 4);
+    tcg_gen_movi_tl(cpu_R[R_RA], dc->base.pc_next);
 
     dc->base.is_jmp = DISAS_JUMP;
 }
-- 
2.25.1

Migrate the bstate, tb and singlestep_enabled fields
from DisasContext into the base.

Tested-by: Michael Rolnik <mrolnik@gmail.com>
Reviewed-by: Michael Rolnik <mrolnik@gmail.com>
Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 target/avr/translate.c | 58 +++++++++++++++++++++---------------------
 1 file changed, 29 insertions(+), 29 deletions(-)

diff --git a/target/avr/translate.c b/target/avr/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/avr/translate.c
+++ b/target/avr/translate.c
@@ -XXX,XX +XXX,XX @@ typedef struct DisasContext DisasContext;
 
 /* This is the state at translation time. */
 struct DisasContext {
-    TranslationBlock *tb;
+    DisasContextBase base;
 
     CPUAVRState *env;
     CPUState *cs;
@@ -XXX,XX +XXX,XX @@ struct DisasContext {
 
     /* Routine used to access memory */
     int memidx;
-    int bstate;
-    int singlestep;
 
     /*
      * some AVR instructions can make the following instruction to be skipped
@@ -XXX,XX +XXX,XX @@ static bool avr_have_feature(DisasContext *ctx, int feature)
 {
     if (!avr_feature(ctx->env, feature)) {
         gen_helper_unsupported(cpu_env);
-        ctx->bstate = DISAS_NORETURN;
+        ctx->base.is_jmp = DISAS_NORETURN;
         return false;
     }
     return true;
@@ -XXX,XX +XXX,XX @@ static void gen_jmp_ez(DisasContext *ctx)
 {
     tcg_gen_deposit_tl(cpu_pc, cpu_r[30], cpu_r[31], 8, 8);
     tcg_gen_or_tl(cpu_pc, cpu_pc, cpu_eind);
-    ctx->bstate = DISAS_LOOKUP;
+    ctx->base.is_jmp = DISAS_LOOKUP;
 }
 
 static void gen_jmp_z(DisasContext *ctx)
 {
     tcg_gen_deposit_tl(cpu_pc, cpu_r[30], cpu_r[31], 8, 8);
-    ctx->bstate = DISAS_LOOKUP;
+    ctx->base.is_jmp = DISAS_LOOKUP;
 }
 
 static void gen_push_ret(DisasContext *ctx, int ret)
@@ -XXX,XX +XXX,XX @@ static void gen_pop_ret(DisasContext *ctx, TCGv ret)
 
 static void gen_goto_tb(DisasContext *ctx, int n, target_ulong dest)
 {
-    TranslationBlock *tb = ctx->tb;
+    const TranslationBlock *tb = ctx->base.tb;
 
-    if (ctx->singlestep == 0) {
+    if (!ctx->base.singlestep_enabled) {
         tcg_gen_goto_tb(n);
         tcg_gen_movi_i32(cpu_pc, dest);
         tcg_gen_exit_tb(tb, n);
@@ -XXX,XX +XXX,XX @@ static void gen_goto_tb(DisasContext *ctx, int n, target_ulong dest)
         gen_helper_debug(cpu_env);
         tcg_gen_exit_tb(NULL, 0);
     }
-    ctx->bstate = DISAS_NORETURN;
+    ctx->base.is_jmp = DISAS_NORETURN;
 }
 
 /*
@@ -XXX,XX +XXX,XX @@ static bool trans_RET(DisasContext *ctx, arg_RET *a)
 {
     gen_pop_ret(ctx, cpu_pc);
 
-    ctx->bstate = DISAS_LOOKUP;
+    ctx->base.is_jmp = DISAS_LOOKUP;
     return true;
 }
 
@@ -XXX,XX +XXX,XX @@ static bool trans_RETI(DisasContext *ctx, arg_RETI *a)
     tcg_gen_movi_tl(cpu_If, 1);
 
     /* Need to return to main loop to re-evaluate interrupts.  */
-    ctx->bstate = DISAS_EXIT;
+    ctx->base.is_jmp = DISAS_EXIT;
     return true;
 }
 
@@ -XXX,XX +XXX,XX @@ static bool trans_BRBC(DisasContext *ctx, arg_BRBC *a)
     gen_goto_tb(ctx, 0, ctx->npc + a->imm);
     gen_set_label(not_taken);
 
-    ctx->bstate = DISAS_CHAIN;
+    ctx->base.is_jmp = DISAS_CHAIN;
     return true;
 }
 
@@ -XXX,XX +XXX,XX @@ static bool trans_BRBS(DisasContext *ctx, arg_BRBS *a)
     gen_goto_tb(ctx, 0, ctx->npc + a->imm);
     gen_set_label(not_taken);
 
-    ctx->bstate = DISAS_CHAIN;
+    ctx->base.is_jmp = DISAS_CHAIN;
     return true;
 }
 
@@ -XXX,XX +XXX,XX @@ static TCGv gen_get_zaddr(void)
  */
 static void gen_data_store(DisasContext *ctx, TCGv data, TCGv addr)
 {
-    if (ctx->tb->flags & TB_FLAGS_FULL_ACCESS) {
+    if (ctx->base.tb->flags & TB_FLAGS_FULL_ACCESS) {
         gen_helper_fullwr(cpu_env, data, addr);
     } else {
         tcg_gen_qemu_st8(data, addr, MMU_DATA_IDX); /* mem[addr] = data */
@@ -XXX,XX +XXX,XX @@ static void gen_data_store(DisasContext *ctx, TCGv data, TCGv addr)
 
 static void gen_data_load(DisasContext *ctx, TCGv data, TCGv addr)
 {
-    if (ctx->tb->flags & TB_FLAGS_FULL_ACCESS) {
+    if (ctx->base.tb->flags & TB_FLAGS_FULL_ACCESS) {
         gen_helper_fullrd(data, cpu_env, addr);
     } else {
         tcg_gen_qemu_ld8u(data, addr, MMU_DATA_IDX); /* data = mem[addr] */
@@ -XXX,XX +XXX,XX @@ static bool trans_BREAK(DisasContext *ctx, arg_BREAK *a)
 #ifdef BREAKPOINT_ON_BREAK
     tcg_gen_movi_tl(cpu_pc, ctx->npc - 1);
     gen_helper_debug(cpu_env);
-    ctx->bstate = DISAS_EXIT;
+    ctx->base.is_jmp = DISAS_EXIT;
 #else
     /* NOP */
 #endif
@@ -XXX,XX +XXX,XX @@ static bool trans_NOP(DisasContext *ctx, arg_NOP *a)
 static bool trans_SLEEP(DisasContext *ctx, arg_SLEEP *a)
 {
     gen_helper_sleep(cpu_env);
-    ctx->bstate = DISAS_NORETURN;
+    ctx->base.is_jmp = DISAS_NORETURN;
     return true;
 }
 
@@ -XXX,XX +XXX,XX @@ static void translate(DisasContext *ctx)
 
     if (!decode_insn(ctx, opcode)) {
         gen_helper_unsupported(cpu_env);
-        ctx->bstate = DISAS_NORETURN;
+        ctx->base.is_jmp = DISAS_NORETURN;
     }
 }
 
@@ -XXX,XX +XXX,XX @@ void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int max_insns)
 {
     CPUAVRState *env = cs->env_ptr;
     DisasContext ctx = {
-        .tb = tb,
+        .base.tb = tb,
+        .base.is_jmp = DISAS_NEXT,
+        .base.pc_first = tb->pc,
+        .base.pc_next = tb->pc,
+        .base.singlestep_enabled = cs->singlestep_enabled,
         .cs = cs,
         .env = env,
         .memidx = 0,
-        .bstate = DISAS_NEXT,
         .skip_cond = TCG_COND_NEVER,
-        .singlestep = cs->singlestep_enabled,
     };
     target_ulong pc_start = tb->pc / 2;
     int num_insns = 0;
@@ -XXX,XX +XXX,XX @@ void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int max_insns)
          */
         max_insns = 1;
     }
-    if (ctx.singlestep) {
+    if (ctx.base.singlestep_enabled) {
         max_insns = 1;
     }
 
@@ -XXX,XX +XXX,XX @@ void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int max_insns)
          * b main   - sets breakpoint at address 0x00000100 (code)
          * b *0x100 - sets breakpoint at address 0x00800100 (data)
          */
-        if (unlikely(!ctx.singlestep &&
+        if (unlikely(!ctx.base.singlestep_enabled &&
                 (cpu_breakpoint_test(cs, OFFSET_CODE + ctx.npc * 2, BP_ANY) ||
                  cpu_breakpoint_test(cs, OFFSET_DATA + ctx.npc * 2, BP_ANY)))) {
             canonicalize_skip(&ctx);
@@ -XXX,XX +XXX,XX @@ void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int max_insns)
         if (skip_label) {
             canonicalize_skip(&ctx);
             gen_set_label(skip_label);
-            if (ctx.bstate == DISAS_NORETURN) {
-                ctx.bstate = DISAS_CHAIN;
+            if (ctx.base.is_jmp == DISAS_NORETURN) {
+                ctx.base.is_jmp = DISAS_CHAIN;
             }
         }
-    } while (ctx.bstate == DISAS_NEXT
+    } while (ctx.base.is_jmp == DISAS_NEXT
              && num_insns < max_insns
              && (ctx.npc - pc_start) * 2 < TARGET_PAGE_SIZE - 4
              && !tcg_op_buf_full());
@@ -XXX,XX +XXX,XX @@ void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int max_insns)
 
     bool nonconst_skip = canonicalize_skip(&ctx);
 
-    switch (ctx.bstate) {
+    switch (ctx.base.is_jmp) {
     case DISAS_NORETURN:
         assert(!nonconst_skip);
         break;
@@ -XXX,XX +XXX,XX @@ void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int max_insns)
         tcg_gen_movi_tl(cpu_pc, ctx.npc);
         /* fall through */
     case DISAS_LOOKUP:
-        if (!ctx.singlestep) {
+        if (!ctx.base.singlestep_enabled) {
             tcg_gen_lookup_and_goto_ptr();
             break;
         }
         /* fall through */
     case DISAS_EXIT:
-        if (ctx.singlestep) {
+        if (ctx.base.singlestep_enabled) {
             gen_helper_debug(cpu_env);
         } else {
             tcg_gen_exit_tb(NULL, 0);
-- 
2.25.1

Prepare for receiving it as a pointer input.

Tested-by: Michael Rolnik <mrolnik@gmail.com>
Reviewed-by: Michael Rolnik <mrolnik@gmail.com>
Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 target/avr/translate.c | 84 +++++++++++++++++++++---------------------
 1 file changed, 43 insertions(+), 41 deletions(-)

diff --git a/target/avr/translate.c b/target/avr/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/avr/translate.c
+++ b/target/avr/translate.c
@@ -XXX,XX +XXX,XX @@ struct DisasContext {
      * used in the following manner (sketch)
      *
      * TCGLabel *skip_label = NULL;
-     * if (ctx.skip_cond != TCG_COND_NEVER) {
+     * if (ctx->skip_cond != TCG_COND_NEVER) {
      *     skip_label = gen_new_label();
      *     tcg_gen_brcond_tl(skip_cond, skip_var0, skip_var1, skip_label);
      * }
@@ -XXX,XX +XXX,XX @@ struct DisasContext {
      *     free_skip_var0 = false;
      * }
      *
-     * translate(&ctx);
+     * translate(ctx);
      *
      * if (skip_label) {
      *     gen_set_label(skip_label);
@@ -XXX,XX +XXX,XX @@ static bool canonicalize_skip(DisasContext *ctx)
 void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int max_insns)
 {
     CPUAVRState *env = cs->env_ptr;
-    DisasContext ctx = {
+    DisasContext ctx1 = {
         .base.tb = tb,
         .base.is_jmp = DISAS_NEXT,
         .base.pc_first = tb->pc,
@@ -XXX,XX +XXX,XX @@ void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int max_insns)
         .memidx = 0,
         .skip_cond = TCG_COND_NEVER,
     };
+    DisasContext *ctx = &ctx1;
     target_ulong pc_start = tb->pc / 2;
     int num_insns = 0;
 
@@ -XXX,XX +XXX,XX @@ void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int max_insns)
          */
         max_insns = 1;
     }
-    if (ctx.base.singlestep_enabled) {
+    if (ctx->base.singlestep_enabled) {
         max_insns = 1;
     }
 
     gen_tb_start(tb);
 
-    ctx.npc = pc_start;
+    ctx->npc = pc_start;
     if (tb->flags & TB_FLAGS_SKIP) {
-        ctx.skip_cond = TCG_COND_ALWAYS;
-        ctx.skip_var0 = cpu_skip;
+        ctx->skip_cond = TCG_COND_ALWAYS;
+        ctx->skip_var0 = cpu_skip;
     }
 
     do {
         TCGLabel *skip_label = NULL;
 
         /* translate current instruction */
-        tcg_gen_insn_start(ctx.npc);
+        tcg_gen_insn_start(ctx->npc);
         num_insns++;
 
         /*
@@ -XXX,XX +XXX,XX @@ void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int max_insns)
          * b main   - sets breakpoint at address 0x00000100 (code)
          * b *0x100 - sets breakpoint at address 0x00800100 (data)
          */
-        if (unlikely(!ctx.base.singlestep_enabled &&
-                (cpu_breakpoint_test(cs, OFFSET_CODE + ctx.npc * 2, BP_ANY) ||
-                 cpu_breakpoint_test(cs, OFFSET_DATA + ctx.npc * 2, BP_ANY)))) {
-            canonicalize_skip(&ctx);
-            tcg_gen_movi_tl(cpu_pc, ctx.npc);
+        if (unlikely(!ctx->base.singlestep_enabled &&
+            (cpu_breakpoint_test(cs, OFFSET_CODE + ctx->npc * 2, BP_ANY) ||
+             cpu_breakpoint_test(cs, OFFSET_DATA + ctx->npc * 2, BP_ANY)))) {
+            canonicalize_skip(ctx);
+            tcg_gen_movi_tl(cpu_pc, ctx->npc);
             gen_helper_debug(cpu_env);
             goto done_generating;
         }
 
         /* Conditionally skip the next instruction, if indicated.  */
-        if (ctx.skip_cond != TCG_COND_NEVER) {
+        if (ctx->skip_cond != TCG_COND_NEVER) {
             skip_label = gen_new_label();
-            if (ctx.skip_var0 == cpu_skip) {
+            if (ctx->skip_var0 == cpu_skip) {
                 /*
                  * Copy cpu_skip so that we may zero it before the branch.
                  * This ensures that cpu_skip is non-zero after the label
                  * if and only if the skipped insn itself sets a skip.
                  */
-                ctx.free_skip_var0 = true;
-                ctx.skip_var0 = tcg_temp_new();
-                tcg_gen_mov_tl(ctx.skip_var0, cpu_skip);
+                ctx->free_skip_var0 = true;
+                ctx->skip_var0 = tcg_temp_new();
+                tcg_gen_mov_tl(ctx->skip_var0, cpu_skip);
                 tcg_gen_movi_tl(cpu_skip, 0);
             }
-            if (ctx.skip_var1 == NULL) {
-                tcg_gen_brcondi_tl(ctx.skip_cond, ctx.skip_var0, 0, skip_label);
+            if (ctx->skip_var1 == NULL) {
+                tcg_gen_brcondi_tl(ctx->skip_cond, ctx->skip_var0,
+                                   0, skip_label);
             } else {
-                tcg_gen_brcond_tl(ctx.skip_cond, ctx.skip_var0,
-                                  ctx.skip_var1, skip_label);
-                ctx.skip_var1 = NULL;
+                tcg_gen_brcond_tl(ctx->skip_cond, ctx->skip_var0,
+                                  ctx->skip_var1, skip_label);
+                ctx->skip_var1 = NULL;
             }
-            if (ctx.free_skip_var0) {
-                tcg_temp_free(ctx.skip_var0);
-                ctx.free_skip_var0 = false;
+            if (ctx->free_skip_var0) {
+                tcg_temp_free(ctx->skip_var0);
+                ctx->free_skip_var0 = false;
             }
-            ctx.skip_cond = TCG_COND_NEVER;
-            ctx.skip_var0 = NULL;
+            ctx->skip_cond = TCG_COND_NEVER;
+            ctx->skip_var0 = NULL;
         }
 
-        translate(&ctx);
+        translate(ctx);
 
         if (skip_label) {
-            canonicalize_skip(&ctx);
+            canonicalize_skip(ctx);
             gen_set_label(skip_label);
-            if (ctx.base.is_jmp == DISAS_NORETURN) {
-                ctx.base.is_jmp = DISAS_CHAIN;
+            if (ctx->base.is_jmp == DISAS_NORETURN) {
+                ctx->base.is_jmp = DISAS_CHAIN;
             }
         }
-    } while (ctx.base.is_jmp == DISAS_NEXT
+    } while (ctx->base.is_jmp == DISAS_NEXT
              && num_insns < max_insns
-             && (ctx.npc - pc_start) * 2 < TARGET_PAGE_SIZE - 4
+             && (ctx->npc - pc_start) * 2 < TARGET_PAGE_SIZE - 4
              && !tcg_op_buf_full());
 
     if (tb->cflags & CF_LAST_IO) {
         gen_io_end();
     }
 
-    bool nonconst_skip = canonicalize_skip(&ctx);
+    bool nonconst_skip = canonicalize_skip(ctx);
 
-    switch (ctx.base.is_jmp) {
+    switch (ctx->base.is_jmp) {
     case DISAS_NORETURN:
         assert(!nonconst_skip);
         break;
@@ -XXX,XX +XXX,XX @@ void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int max_insns)
     case DISAS_CHAIN:
         if (!nonconst_skip) {
             /* Note gen_goto_tb checks singlestep.  */
-            gen_goto_tb(&ctx, 1, ctx.npc);
+            gen_goto_tb(ctx, 1, ctx->npc);
             break;
         }
-        tcg_gen_movi_tl(cpu_pc, ctx.npc);
+        tcg_gen_movi_tl(cpu_pc, ctx->npc);
         /* fall through */
     case DISAS_LOOKUP:
-        if (!ctx.base.singlestep_enabled) {
+        if (!ctx->base.singlestep_enabled) {
             tcg_gen_lookup_and_goto_ptr();
             break;
         }
         /* fall through */
     case DISAS_EXIT:
-        if (ctx.base.singlestep_enabled) {
+        if (ctx->base.singlestep_enabled) {
             gen_helper_debug(cpu_env);
         } else {
             tcg_gen_exit_tb(NULL, 0);
@@ -XXX,XX +XXX,XX @@ void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int max_insns)
 done_generating:
     gen_tb_end(tb, num_insns);
 
-    tb->size = (ctx.npc - pc_start) * 2;
+    tb->size = (ctx->npc - pc_start) * 2;
     tb->icount = num_insns;
 
 #ifdef DEBUG_DISAS
-- 
2.25.1

Tested-by: Michael Rolnik <mrolnik@gmail.com>
Reviewed-by: Michael Rolnik <mrolnik@gmail.com>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 target/avr/translate.c | 234 ++++++++++++++++++++++-------------------
 1 file changed, 128 insertions(+), 106 deletions(-)

diff --git a/target/avr/translate.c b/target/avr/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/avr/translate.c
+++ b/target/avr/translate.c
@@ -XXX,XX +XXX,XX @@ static bool canonicalize_skip(DisasContext *ctx)
     return true;
 }
 
-void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int max_insns)
+static void gen_breakpoint(DisasContext *ctx)
 {
+    canonicalize_skip(ctx);
+    tcg_gen_movi_tl(cpu_pc, ctx->npc);
+    gen_helper_debug(cpu_env);
+    ctx->base.is_jmp = DISAS_NORETURN;
+}
+
+static void avr_tr_init_disas_context(DisasContextBase *dcbase, CPUState *cs)
+{
+    DisasContext *ctx = container_of(dcbase, DisasContext, base);
     CPUAVRState *env = cs->env_ptr;
-    DisasContext ctx1 = {
-        .base.tb = tb,
-        .base.is_jmp = DISAS_NEXT,
-        .base.pc_first = tb->pc,
-        .base.pc_next = tb->pc,
-        .base.singlestep_enabled = cs->singlestep_enabled,
-        .cs = cs,
-        .env = env,
-        .memidx = 0,
-        .skip_cond = TCG_COND_NEVER,
-    };
-    DisasContext *ctx = &ctx1;
-    target_ulong pc_start = tb->pc / 2;
-    int num_insns = 0;
+    uint32_t tb_flags = ctx->base.tb->flags;
 
-    if (tb->flags & TB_FLAGS_FULL_ACCESS) {
-        /*
-         * This flag is set by ST/LD instruction we will regenerate it ONLY
-         * with mem/cpu memory access instead of mem access
-         */
-        max_insns = 1;
-    }
-    if (ctx->base.singlestep_enabled) {
-        max_insns = 1;
-    }
+    ctx->cs = cs;
+    ctx->env = env;
+    ctx->npc = ctx->base.pc_first / 2;
 
-    gen_tb_start(tb);
-
-    ctx->npc = pc_start;
-    if (tb->flags & TB_FLAGS_SKIP) {
+    ctx->skip_cond = TCG_COND_NEVER;
+    if (tb_flags & TB_FLAGS_SKIP) {
         ctx->skip_cond = TCG_COND_ALWAYS;
         ctx->skip_var0 = cpu_skip;
     }
 
-    do {
-        TCGLabel *skip_label = NULL;
-
-        /* translate current instruction */
-        tcg_gen_insn_start(ctx->npc);
-        num_insns++;
-
+    if (tb_flags & TB_FLAGS_FULL_ACCESS) {
         /*
-         * this is due to some strange GDB behavior
-         * let's assume main has address 0x100
-         * b main   - sets breakpoint at address 0x00000100 (code)
-         * b *0x100 - sets breakpoint at address 0x00800100 (data)
+         * This flag is set by ST/LD instruction we will regenerate it ONLY
+         * with mem/cpu memory access instead of mem access
          */
-        if (unlikely(!ctx->base.singlestep_enabled &&
-            (cpu_breakpoint_test(cs, OFFSET_CODE + ctx->npc * 2, BP_ANY) ||
-             cpu_breakpoint_test(cs, OFFSET_DATA + ctx->npc * 2, BP_ANY)))) {
-            canonicalize_skip(ctx);
-            tcg_gen_movi_tl(cpu_pc, ctx->npc);
-            gen_helper_debug(cpu_env);
-            goto done_generating;
-        }
+        ctx->base.max_insns = 1;
+    }
+}
 
-        /* Conditionally skip the next instruction, if indicated.  */
-        if (ctx->skip_cond != TCG_COND_NEVER) {
-            skip_label = gen_new_label();
-            if (ctx->skip_var0 == cpu_skip) {
-                /*
-                 * Copy cpu_skip so that we may zero it before the branch.
-                 * This ensures that cpu_skip is non-zero after the label
-                 * if and only if the skipped insn itself sets a skip.
-                 */
-                ctx->free_skip_var0 = true;
-                ctx->skip_var0 = tcg_temp_new();
-                tcg_gen_mov_tl(ctx->skip_var0, cpu_skip);
-                tcg_gen_movi_tl(cpu_skip, 0);
-            }
-            if (ctx->skip_var1 == NULL) {
-                tcg_gen_brcondi_tl(ctx->skip_cond, ctx->skip_var0,
-                                   0, skip_label);
-            } else {
-                tcg_gen_brcond_tl(ctx->skip_cond, ctx->skip_var0,
-                                  ctx->skip_var1, skip_label);
-                ctx->skip_var1 = NULL;
-            }
-            if (ctx->free_skip_var0) {
-                tcg_temp_free(ctx->skip_var0);
-                ctx->free_skip_var0 = false;
-            }
-            ctx->skip_cond = TCG_COND_NEVER;
-            ctx->skip_var0 = NULL;
-        }
+static void avr_tr_tb_start(DisasContextBase *db, CPUState *cs)
+{
+}
 
-        translate(ctx);
+static void avr_tr_insn_start(DisasContextBase *dcbase, CPUState *cs)
+{
+    DisasContext *ctx = container_of(dcbase, DisasContext, base);
 
-        if (skip_label) {
-            canonicalize_skip(ctx);
-            gen_set_label(skip_label);
-            if (ctx->base.is_jmp == DISAS_NORETURN) {
-                ctx->base.is_jmp = DISAS_CHAIN;
-            }
-        }
-    } while (ctx->base.is_jmp == DISAS_NEXT
-             && num_insns < max_insns
-             && (ctx->npc - pc_start) * 2 < TARGET_PAGE_SIZE - 4
-             && !tcg_op_buf_full());
+    tcg_gen_insn_start(ctx->npc);
+}
 
-    if (tb->cflags & CF_LAST_IO) {
-        gen_io_end();
+static bool avr_tr_breakpoint_check(DisasContextBase *dcbase, CPUState *cs,
+                                    const CPUBreakpoint *bp)
+{
+    DisasContext *ctx = container_of(dcbase, DisasContext, base);
+
+    gen_breakpoint(ctx);
+    return true;
+}
+
+static void avr_tr_translate_insn(DisasContextBase *dcbase, CPUState *cs)
+{
+    DisasContext *ctx = container_of(dcbase, DisasContext, base);
+    TCGLabel *skip_label = NULL;
+
+    /*
+     * This is due to some strange GDB behavior
+     * Let's assume main has address 0x100:
+     * b main   - sets breakpoint at address 0x00000100 (code)
+     * b *0x100 - sets breakpoint at address 0x00800100 (data)
+     *
+     * The translator driver has already taken care of the code pointer.
+     */
+    if (!ctx->base.singlestep_enabled &&
+        cpu_breakpoint_test(cs, OFFSET_DATA + ctx->base.pc_next, BP_ANY)) {
+        gen_breakpoint(ctx);
+        return;
     }
 
+    /* Conditionally skip the next instruction, if indicated.  */
+    if (ctx->skip_cond != TCG_COND_NEVER) {
+        skip_label = gen_new_label();
+        if (ctx->skip_var0 == cpu_skip) {
+            /*
+             * Copy cpu_skip so that we may zero it before the branch.
+             * This ensures that cpu_skip is non-zero after the label
+             * if and only if the skipped insn itself sets a skip.
+             */
+            ctx->free_skip_var0 = true;
+            ctx->skip_var0 = tcg_temp_new();
+            tcg_gen_mov_tl(ctx->skip_var0, cpu_skip);
+            tcg_gen_movi_tl(cpu_skip, 0);
+        }
+        if (ctx->skip_var1 == NULL) {
+            tcg_gen_brcondi_tl(ctx->skip_cond, ctx->skip_var0, 0, skip_label);
+        } else {
+            tcg_gen_brcond_tl(ctx->skip_cond, ctx->skip_var0,
+                              ctx->skip_var1, skip_label);
+            ctx->skip_var1 = NULL;
+        }
+        if (ctx->free_skip_var0) {
+            tcg_temp_free(ctx->skip_var0);
+            ctx->free_skip_var0 = false;
+        }
+        ctx->skip_cond = TCG_COND_NEVER;
+        ctx->skip_var0 = NULL;
+    }
+
+    translate(ctx);
+
+    ctx->base.pc_next = ctx->npc * 2;
+
+    if (skip_label) {
+        canonicalize_skip(ctx);
+        gen_set_label(skip_label);
+        if (ctx->base.is_jmp == DISAS_NORETURN) {
+            ctx->base.is_jmp = DISAS_CHAIN;
+        }
+    }
+
+    if (ctx->base.is_jmp == DISAS_NEXT) {
+        target_ulong page_first = ctx->base.pc_first & TARGET_PAGE_MASK;
+
+        if ((ctx->base.pc_next - page_first) >= TARGET_PAGE_SIZE - 4) {
+            ctx->base.is_jmp = DISAS_TOO_MANY;
+        }
+    }
+}
+
+static void avr_tr_tb_stop(DisasContextBase *dcbase, CPUState *cs)
+{
+    DisasContext *ctx = container_of(dcbase, DisasContext, base);
     bool nonconst_skip = canonicalize_skip(ctx);
 
     switch (ctx->base.is_jmp) {
@@ -XXX,XX +XXX,XX @@ void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int max_insns)
     default:
         g_assert_not_reached();
     }
+}
 
-done_generating:
-    gen_tb_end(tb, num_insns);
+static void avr_tr_disas_log(const DisasContextBase *dcbase, CPUState *cs)
+{
+    qemu_log("IN: %s\n", lookup_symbol(dcbase->pc_first));
+    log_target_disas(cs, dcbase->pc_first, dcbase->tb->size);
+}
 
-    tb->size = (ctx->npc - pc_start) * 2;
-    tb->icount = num_insns;
+static const TranslatorOps avr_tr_ops = {
+    .init_disas_context = avr_tr_init_disas_context,
+    .tb_start           = avr_tr_tb_start,
+    .insn_start         = avr_tr_insn_start,
+    .breakpoint_check   = avr_tr_breakpoint_check,
+    .translate_insn     = avr_tr_translate_insn,
+    .tb_stop            = avr_tr_tb_stop,
+    .disas_log          = avr_tr_disas_log,
+};
 
-#ifdef DEBUG_DISAS
-    if (qemu_loglevel_mask(CPU_LOG_TB_IN_ASM)
-        && qemu_log_in_addr_range(tb->pc)) {
-        FILE *fd;
-        fd = qemu_log_lock();
-        qemu_log("IN: %s\n", lookup_symbol(tb->pc));
-        log_target_disas(cs, tb->pc, tb->size);
-        qemu_log("\n");
-        qemu_log_unlock(fd);
-    }
-#endif
+void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int max_insns)
+{
+    DisasContext dc = { };
+    translator_loop(&avr_tr_ops, &dc.base, cs, tb, max_insns);
 }
 
 void restore_state_to_opc(CPUAVRState *env, TranslationBlock *tb,
-- 
2.25.1

Migrate the is_jmp, tb and singlestep_enabled fields
from DisasContext into the base.

Reviewed-by: Edgar E. Iglesias <edgar.iglesias@xilinx.com>
Tested-by: Edgar E. Iglesias <edgar.iglesias@xilinx.com>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 target/cris/translate.c         | 49 +++++++++++++++++----------------
 target/cris/translate_v10.c.inc |  4 +--
 2 files changed, 27 insertions(+), 26 deletions(-)

diff --git a/target/cris/translate.c b/target/cris/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/cris/translate.c
+++ b/target/cris/translate.c
@@ -XXX,XX +XXX,XX @@ static TCGv env_pc;
 
 /* This is the state at translation time.  */
 typedef struct DisasContext {
+    DisasContextBase base;
+
     CRISCPU *cpu;
     target_ulong pc, ppc;
 
@@ -XXX,XX +XXX,XX @@ typedef struct DisasContext {
     int clear_locked_irq; /* Clear the irq lockout.  */
     int cpustate_changed;
     unsigned int tb_flags; /* tb dependent flags.  */
-    int is_jmp;
 
 #define JMP_NOJMP     0
 #define JMP_DIRECT    1
@@ -XXX,XX +XXX,XX @@ typedef struct DisasContext {
     uint32_t jmp_pc;
 
     int delayed_branch;
-
-    TranslationBlock *tb;
-    int singlestep_enabled;
 } DisasContext;
 
 static void gen_BUG(DisasContext *dc, const char *file, int line)
@@ -XXX,XX +XXX,XX @@ static void t_gen_cc_jmp(TCGv pc_true, TCGv pc_false)
 static inline bool use_goto_tb(DisasContext *dc, target_ulong dest)
 {
 #ifndef CONFIG_USER_ONLY
-    return (dc->tb->pc & TARGET_PAGE_MASK) == (dest & TARGET_PAGE_MASK) ||
+    return (dc->base.pc_first & TARGET_PAGE_MASK) == (dest & TARGET_PAGE_MASK) ||
            (dc->ppc & TARGET_PAGE_MASK) == (dest & TARGET_PAGE_MASK);
 #else
     return true;
@@ -XXX,XX +XXX,XX @@ static void gen_goto_tb(DisasContext *dc, int n, target_ulong dest)
     if (use_goto_tb(dc, dest)) {
         tcg_gen_goto_tb(n);
         tcg_gen_movi_tl(env_pc, dest);
-        tcg_gen_exit_tb(dc->tb, n);
+        tcg_gen_exit_tb(dc->base.tb, n);
     } else {
         tcg_gen_movi_tl(env_pc, dest);
         tcg_gen_exit_tb(NULL, 0);
@@ -XXX,XX +XXX,XX @@ static int dec_setclrf(CPUCRISState *env, DisasContext *dc)
     /* Break the TB if any of the SPI flag changes.  */
     if (flags & (P_FLAG | S_FLAG)) {
         tcg_gen_movi_tl(env_pc, dc->pc + 2);
-        dc->is_jmp = DISAS_UPDATE;
+        dc->base.is_jmp = DISAS_UPDATE;
         dc->cpustate_changed = 1;
     }
 
     /* For the I flag, only act on posedge.  */
     if ((flags & I_FLAG)) {
         tcg_gen_movi_tl(env_pc, dc->pc + 2);
-        dc->is_jmp = DISAS_UPDATE;
+        dc->base.is_jmp = DISAS_UPDATE;
         dc->cpustate_changed = 1;
     }
 
@@ -XXX,XX +XXX,XX @@ static int dec_rfe_etc(CPUCRISState *env, DisasContext *dc)
         LOG_DIS("rfe\n");
         cris_evaluate_flags(dc);
         gen_helper_rfe(cpu_env);
-        dc->is_jmp = DISAS_UPDATE;
+        dc->base.is_jmp = DISAS_UPDATE;
         break;
     case 5:
         /* rfn.  */
         LOG_DIS("rfn\n");
         cris_evaluate_flags(dc);
         gen_helper_rfn(cpu_env);
-        dc->is_jmp = DISAS_UPDATE;
+        dc->base.is_jmp = DISAS_UPDATE;
         break;
     case 6:
         LOG_DIS("break %d\n", dc->op1);
@@ -XXX,XX +XXX,XX @@ static int dec_rfe_etc(CPUCRISState *env, DisasContext *dc)
         /* Breaks start at 16 in the exception vector.  */
         t_gen_movi_env_TN(trap_vector, dc->op1 + 16);
         t_gen_raise_exception(EXCP_BREAK);
-        dc->is_jmp = DISAS_UPDATE;
+        dc->base.is_jmp = DISAS_UPDATE;
         break;
     default:
         printf("op2=%x\n", dc->op2);
@@ -XXX,XX +XXX,XX @@ void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int max_insns)
      * delayslot, like in real hw.
      */
     pc_start = tb->pc & ~1;
-    dc->cpu = env_archcpu(env);
-    dc->tb = tb;
 
-    dc->is_jmp = DISAS_NEXT;
+    dc->base.tb = tb;
+    dc->base.pc_first = pc_start;
+    dc->base.pc_next = pc_start;
+    dc->base.is_jmp = DISAS_NEXT;
+    dc->base.singlestep_enabled = cs->singlestep_enabled;
+
+    dc->cpu = env_archcpu(env);
     dc->ppc = pc_start;
     dc->pc = pc_start;
-    dc->singlestep_enabled = cs->singlestep_enabled;
     dc->flags_uptodate = 1;
     dc->flagx_known = 1;
     dc->flags_x = tb->flags & X_FLAG;
@@ -XXX,XX +XXX,XX @@ void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int max_insns)
             cris_evaluate_flags(dc);
             tcg_gen_movi_tl(env_pc, dc->pc);
             t_gen_raise_exception(EXCP_DEBUG);
-            dc->is_jmp = DISAS_UPDATE;
+            dc->base.is_jmp = DISAS_UPDATE;
             /* The address covered by the breakpoint must be included in
                [tb->pc, tb->pc + tb->size) in order to for it to be
                properly cleared -- thus we increment the PC here so that
@@ -XXX,XX +XXX,XX @@ void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int max_insns)
                     gen_goto_tb(dc, 1, dc->jmp_pc);
                     gen_set_label(l1);
                     gen_goto_tb(dc, 0, dc->pc);
-                    dc->is_jmp = DISAS_TB_JUMP;
+                    dc->base.is_jmp = DISAS_TB_JUMP;
                     dc->jmp = JMP_NOJMP;
                 } else if (dc->jmp == JMP_DIRECT) {
                     cris_evaluate_flags(dc);
                     gen_goto_tb(dc, 0, dc->jmp_pc);
-                    dc->is_jmp = DISAS_TB_JUMP;
+                    dc->base.is_jmp = DISAS_TB_JUMP;
                     dc->jmp = JMP_NOJMP;
                 } else {
                     TCGv c = tcg_const_tl(dc->pc);
                     t_gen_cc_jmp(env_btarget, c);
                     tcg_temp_free(c);
-                    dc->is_jmp = DISAS_JUMP;
+                    dc->base.is_jmp = DISAS_JUMP;
                 }
                 break;
             }
@@ -XXX,XX +XXX,XX @@ void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int max_insns)
         if (!(tb->pc & 1) && cs->singlestep_enabled) {
             break;
         }
-    } while (!dc->is_jmp && !dc->cpustate_changed
+    } while (!dc->base.is_jmp && !dc->cpustate_changed
             && !tcg_op_buf_full()
             && !singlestep
             && (dc->pc - page_start < TARGET_PAGE_SIZE)
@@ -XXX,XX +XXX,XX @@ void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int max_insns)
     npc = dc->pc;
 
     /* Force an update if the per-tb cpu state has changed.  */
-    if (dc->is_jmp == DISAS_NEXT
+    if (dc->base.is_jmp == DISAS_NEXT
         && (dc->cpustate_changed || !dc->flagx_known
         || (dc->flags_x != (tb->flags & X_FLAG)))) {
-        dc->is_jmp = DISAS_UPDATE;
+        dc->base.is_jmp = DISAS_UPDATE;
         tcg_gen_movi_tl(env_pc, npc);
     }
     /* Broken branch+delayslot sequence.  */
@@ -XXX,XX +XXX,XX @@ void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int max_insns)
     cris_evaluate_flags(dc);
 
     if (unlikely(cs->singlestep_enabled)) {
-        if (dc->is_jmp == DISAS_NEXT) {
+        if (dc->base.is_jmp == DISAS_NEXT) {
             tcg_gen_movi_tl(env_pc, npc);
         }
         t_gen_raise_exception(EXCP_DEBUG);
     } else {
-        switch (dc->is_jmp) {
+        switch (dc->base.is_jmp) {
         case DISAS_NEXT:
             gen_goto_tb(dc, 1, npc);
             break;
diff --git a/target/cris/translate_v10.c.inc b/target/cris/translate_v10.c.inc
index XXXXXXX..XXXXXXX 100644
--- a/target/cris/translate_v10.c.inc
+++ b/target/cris/translate_v10.c.inc
@@ -XXX,XX +XXX,XX @@ static unsigned int dec10_ind(CPUCRISState *env, DisasContext *dc)
                     t_gen_mov_env_TN(trap_vector, c);
                     tcg_temp_free(c);
                     t_gen_raise_exception(EXCP_BREAK);
-                    dc->is_jmp = DISAS_UPDATE;
+                    dc->base.is_jmp = DISAS_UPDATE;
                     return insn_len;
                 }
                 LOG_DIS("%d: jump.%d %d r%d r%d\n", __LINE__, size,
@@ -XXX,XX +XXX,XX @@ static unsigned int crisv10_decoder(CPUCRISState *env, DisasContext *dc)
     if (dc->clear_prefix && dc->tb_flags & PFIX_FLAG) {
         dc->tb_flags &= ~PFIX_FLAG;
         tcg_gen_andi_tl(cpu_PR[PR_CCS], cpu_PR[PR_CCS], ~PFIX_FLAG);
-        if (dc->tb_flags != dc->tb->flags) {
+        if (dc->tb_flags != dc->base.tb->flags) {
             dc->cpustate_changed = 1;
         }
     }
-- 
2.25.1

This value is unused.

diff --git a/target/cris/translate.c b/target/cris/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/cris/translate.c
+++ b/target/cris/translate.c
@@ -XXX,XX +XXX,XX @@
 #define DISAS_JUMP    DISAS_TARGET_0 /* only pc was modified dynamically */
 #define DISAS_UPDATE  DISAS_TARGET_1 /* cpu state was modified dynamically */
 #define DISAS_TB_JUMP DISAS_TARGET_2 /* only pc was modified statically */
-#define DISAS_SWI     DISAS_TARGET_3
 
 /* Used by the decoder.  */
 #define EXTRACT_FIELD(src, start, end) \
@@ -XXX,XX +XXX,XX @@ void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int max_insns)
                    to find the next TB */
             tcg_gen_exit_tb(NULL, 0);
             break;
-        case DISAS_SWI:
         case DISAS_TB_JUMP:
             /* nothing more to generate */
             break;
-- 
2.25.1

The only semantic of DISAS_TB_JUMP is that we've done goto_tb,
which is the same as DISAS_NORETURN -- we've exited the tb.

Reviewed-by: Edgar E. Iglesias <edgar.iglesias@xilinx.com>
Tested-by: Edgar E. Iglesias <edgar.iglesias@xilinx.com>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 target/cris/translate.c | 7 +++----
 1 file changed, 3 insertions(+), 4 deletions(-)

diff --git a/target/cris/translate.c b/target/cris/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/cris/translate.c
+++ b/target/cris/translate.c
@@ -XXX,XX +XXX,XX @@
 /* is_jmp field values */
 #define DISAS_JUMP    DISAS_TARGET_0 /* only pc was modified dynamically */
 #define DISAS_UPDATE  DISAS_TARGET_1 /* cpu state was modified dynamically */
-#define DISAS_TB_JUMP DISAS_TARGET_2 /* only pc was modified statically */
 
 /* Used by the decoder.  */
 #define EXTRACT_FIELD(src, start, end) \
@@ -XXX,XX +XXX,XX @@ void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int max_insns)
                     gen_goto_tb(dc, 1, dc->jmp_pc);
                     gen_set_label(l1);
                     gen_goto_tb(dc, 0, dc->pc);
-                    dc->base.is_jmp = DISAS_TB_JUMP;
+                    dc->base.is_jmp = DISAS_NORETURN;
                     dc->jmp = JMP_NOJMP;
                 } else if (dc->jmp == JMP_DIRECT) {
                     cris_evaluate_flags(dc);
                     gen_goto_tb(dc, 0, dc->jmp_pc);
-                    dc->base.is_jmp = DISAS_TB_JUMP;
+                    dc->base.is_jmp = DISAS_NORETURN;
                     dc->jmp = JMP_NOJMP;
                 } else {
                     TCGv c = tcg_const_tl(dc->pc);
@@ -XXX,XX +XXX,XX @@ void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int max_insns)
                    to find the next TB */
             tcg_gen_exit_tb(NULL, 0);
             break;
-        case DISAS_TB_JUMP:
+        case DISAS_NORETURN:
             /* nothing more to generate */
             break;
         }
-- 
2.25.1

After we've raised the exception, we have left the TB.

Reviewed-by: Edgar E. Iglesias <edgar.iglesias@xilinx.com>
Tested-by: Edgar E. Iglesias <edgar.iglesias@xilinx.com>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 target/cris/translate.c         | 5 +++--
 target/cris/translate_v10.c.inc | 3 ++-
 2 files changed, 5 insertions(+), 3 deletions(-)

diff --git a/target/cris/translate.c b/target/cris/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/cris/translate.c
+++ b/target/cris/translate.c
@@ -XXX,XX +XXX,XX @@ static int dec_rfe_etc(CPUCRISState *env, DisasContext *dc)
                        -offsetof(CRISCPU, env) + offsetof(CPUState, halted));
         tcg_gen_movi_tl(env_pc, dc->pc + 2);
         t_gen_raise_exception(EXCP_HLT);
+        dc->base.is_jmp = DISAS_NORETURN;
         return 2;
     }
 
@@ -XXX,XX +XXX,XX @@ static int dec_rfe_etc(CPUCRISState *env, DisasContext *dc)
         /* Breaks start at 16 in the exception vector.  */
         t_gen_movi_env_TN(trap_vector, dc->op1 + 16);
         t_gen_raise_exception(EXCP_BREAK);
-        dc->base.is_jmp = DISAS_UPDATE;
+        dc->base.is_jmp = DISAS_NORETURN;
         break;
     default:
         printf("op2=%x\n", dc->op2);
@@ -XXX,XX +XXX,XX @@ void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int max_insns)
             cris_evaluate_flags(dc);
             tcg_gen_movi_tl(env_pc, dc->pc);
             t_gen_raise_exception(EXCP_DEBUG);
-            dc->base.is_jmp = DISAS_UPDATE;
+            dc->base.is_jmp = DISAS_NORETURN;
             /* The address covered by the breakpoint must be included in
                [tb->pc, tb->pc + tb->size) in order to for it to be
                properly cleared -- thus we increment the PC here so that
diff --git a/target/cris/translate_v10.c.inc b/target/cris/translate_v10.c.inc
index XXXXXXX..XXXXXXX 100644
--- a/target/cris/translate_v10.c.inc
+++ b/target/cris/translate_v10.c.inc
@@ -XXX,XX +XXX,XX @@ static inline void cris_illegal_insn(DisasContext *dc)
 {
     qemu_log_mask(LOG_GUEST_ERROR, "illegal insn at pc=%x\n", dc->pc);
     t_gen_raise_exception(EXCP_BREAK);
+    dc->base.is_jmp = DISAS_NORETURN;
 }
 
 static void gen_store_v10_conditional(DisasContext *dc, TCGv addr, TCGv val,
@@ -XXX,XX +XXX,XX @@ static unsigned int dec10_ind(CPUCRISState *env, DisasContext *dc)
                     t_gen_mov_env_TN(trap_vector, c);
                     tcg_temp_free(c);
                     t_gen_raise_exception(EXCP_BREAK);
-                    dc->base.is_jmp = DISAS_UPDATE;
+                    dc->base.is_jmp = DISAS_NORETURN;
                     return insn_len;
                 }
                 LOG_DIS("%d: jump.%d %d r%d r%d\n", __LINE__, size,
-- 
2.25.1

Do not skip the page check for user-only -- mmap/mprotect can
still change page mappings.  Only check dc->base.pc_first, not
dc->ppc -- the start page is the only one that's relevant.

Reviewed-by: Edgar E. Iglesias <edgar.iglesias@xilinx.com>
Tested-by: Edgar E. Iglesias <edgar.iglesias@xilinx.com>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 target/cris/translate.c | 9 ++-------
 1 file changed, 2 insertions(+), 7 deletions(-)

diff --git a/target/cris/translate.c b/target/cris/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/cris/translate.c
+++ b/target/cris/translate.c
@@ -XXX,XX +XXX,XX @@ static void t_gen_cc_jmp(TCGv pc_true, TCGv pc_false)
     gen_set_label(l1);
 }
 
-static inline bool use_goto_tb(DisasContext *dc, target_ulong dest)
+static bool use_goto_tb(DisasContext *dc, target_ulong dest)
 {
-#ifndef CONFIG_USER_ONLY
-    return (dc->base.pc_first & TARGET_PAGE_MASK) == (dest & TARGET_PAGE_MASK) ||
-           (dc->ppc & TARGET_PAGE_MASK) == (dest & TARGET_PAGE_MASK);
-#else
-    return true;
-#endif
+    return ((dest ^ dc->base.pc_first) & TARGET_PAGE_MASK) == 0;
 }
 
 static void gen_goto_tb(DisasContext *dc, int n, target_ulong dest)
-- 
2.25.1

Reviewed-by: Edgar E. Iglesias <edgar.iglesias@xilinx.com>
Tested-by: Edgar E. Iglesias <edgar.iglesias@xilinx.com>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 target/cris/translate.c | 317 ++++++++++++++++++++++------------------
 1 file changed, 174 insertions(+), 143 deletions(-)

diff --git a/target/cris/translate.c b/target/cris/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/cris/translate.c
+++ b/target/cris/translate.c
@@ -XXX,XX +XXX,XX @@ static unsigned int crisv32_decoder(CPUCRISState *env, DisasContext *dc)
  *
  */
 
-/* generate intermediate code for basic block 'tb'.  */
-void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int max_insns)
+static void cris_tr_init_disas_context(DisasContextBase *dcbase, CPUState *cs)
 {
+    DisasContext *dc = container_of(dcbase, DisasContext, base);
     CPUCRISState *env = cs->env_ptr;
+    uint32_t tb_flags = dc->base.tb->flags;
     uint32_t pc_start;
-    unsigned int insn_len;
-    struct DisasContext ctx;
-    struct DisasContext *dc = &ctx;
-    uint32_t page_start;
-    target_ulong npc;
-    int num_insns;
 
     if (env->pregs[PR_VR] == 32) {
         dc->decoder = crisv32_decoder;
@@ -XXX,XX +XXX,XX @@ void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int max_insns)
         dc->clear_locked_irq = 1;
     }
 
-    /* Odd PC indicates that branch is rexecuting due to exception in the
+    /*
+     * Odd PC indicates that branch is rexecuting due to exception in the
      * delayslot, like in real hw.
      */
-    pc_start = tb->pc & ~1;
-
-    dc->base.tb = tb;
+    pc_start = dc->base.pc_first & ~1;
     dc->base.pc_first = pc_start;
     dc->base.pc_next = pc_start;
-    dc->base.is_jmp = DISAS_NEXT;
-    dc->base.singlestep_enabled = cs->singlestep_enabled;
 
     dc->cpu = env_archcpu(env);
     dc->ppc = pc_start;
     dc->pc = pc_start;
     dc->flags_uptodate = 1;
     dc->flagx_known = 1;
-    dc->flags_x = tb->flags & X_FLAG;
+    dc->flags_x = tb_flags & X_FLAG;
     dc->cc_x_uptodate = 0;
     dc->cc_mask = 0;
     dc->update_cc = 0;
     dc->clear_prefix = 0;
+    dc->cpustate_changed = 0;
 
     cris_update_cc_op(dc, CC_OP_FLAGS, 4);
     dc->cc_size_uptodate = -1;
 
     /* Decode TB flags.  */
-    dc->tb_flags = tb->flags & (S_FLAG | P_FLAG | U_FLAG \
-            | X_FLAG | PFIX_FLAG);
-    dc->delayed_branch = !!(tb->flags & 7);
+    dc->tb_flags = tb_flags & (S_FLAG | P_FLAG | U_FLAG | X_FLAG | PFIX_FLAG);
+    dc->delayed_branch = !!(tb_flags & 7);
     if (dc->delayed_branch) {
         dc->jmp = JMP_INDIRECT;
     } else {
         dc->jmp = JMP_NOJMP;
     }
+}
 
-    dc->cpustate_changed = 0;
+static void cris_tr_tb_start(DisasContextBase *db, CPUState *cpu)
+{
+}
 
-    page_start = pc_start & TARGET_PAGE_MASK;
-    num_insns = 0;
+static void cris_tr_insn_start(DisasContextBase *dcbase, CPUState *cpu)
+{
+    DisasContext *dc = container_of(dcbase, DisasContext, base);
 
-    gen_tb_start(tb);
-    do {
-        tcg_gen_insn_start(dc->delayed_branch == 1
-                           ? dc->ppc | 1 : dc->pc);
-        num_insns++;
+    tcg_gen_insn_start(dc->delayed_branch == 1 ? dc->ppc | 1 : dc->pc);
+}
 
-        if (unlikely(cpu_breakpoint_test(cs, dc->pc, BP_ANY))) {
+static bool cris_tr_breakpoint_check(DisasContextBase *dcbase, CPUState *cpu,
+                                     const CPUBreakpoint *bp)
+{
+    DisasContext *dc = container_of(dcbase, DisasContext, base);
+
+    cris_evaluate_flags(dc);
+    tcg_gen_movi_tl(env_pc, dc->pc);
+    t_gen_raise_exception(EXCP_DEBUG);
+    dc->base.is_jmp = DISAS_NORETURN;
+    /*
+     * The address covered by the breakpoint must be included in
+     * [tb->pc, tb->pc + tb->size) in order to for it to be
+     * properly cleared -- thus we increment the PC here so that
+     * the logic setting tb->size below does the right thing.
+     */
+    dc->pc += 2;
+    return true;
+}
+
+static void cris_tr_translate_insn(DisasContextBase *dcbase, CPUState *cs)
+{
+    DisasContext *dc = container_of(dcbase, DisasContext, base);
+    CPUCRISState *env = cs->env_ptr;
+    unsigned int insn_len;
+
+    /* Pretty disas.  */
+    LOG_DIS("%8.8x:\t", dc->pc);
+
+    dc->clear_x = 1;
+
+    insn_len = dc->decoder(env, dc);
+    dc->ppc = dc->pc;
+    dc->pc += insn_len;
+    dc->base.pc_next += insn_len;
+
+    if (dc->base.is_jmp == DISAS_NORETURN) {
+        return;
+    }
+
+    if (dc->clear_x) {
+        cris_clear_x_flag(dc);
+    }
+
+    /*
+     * Check for delayed branches here.  If we do it before
+     * actually generating any host code, the simulator will just
+     * loop doing nothing for on this program location.
+     */
+    if (dc->delayed_branch && --dc->delayed_branch == 0) {
+        if (dc->base.tb->flags & 7) {
+            t_gen_movi_env_TN(dslot, 0);
+        }
+
+        if (dc->cpustate_changed
+            || !dc->flagx_known
+            || (dc->flags_x != (dc->base.tb->flags & X_FLAG))) {
+            cris_store_direct_jmp(dc);
+        }
+
+        if (dc->clear_locked_irq) {
+            dc->clear_locked_irq = 0;
+            t_gen_movi_env_TN(locked_irq, 0);
+        }
+
+        if (dc->jmp == JMP_DIRECT_CC) {
+            TCGLabel *l1 = gen_new_label();
             cris_evaluate_flags(dc);
-            tcg_gen_movi_tl(env_pc, dc->pc);
-            t_gen_raise_exception(EXCP_DEBUG);
+
+            /* Conditional jmp.  */
+            tcg_gen_brcondi_tl(TCG_COND_EQ, env_btaken, 0, l1);
+            gen_goto_tb(dc, 1, dc->jmp_pc);
+            gen_set_label(l1);
+            gen_goto_tb(dc, 0, dc->pc);
             dc->base.is_jmp = DISAS_NORETURN;
-            /* The address covered by the breakpoint must be included in
-               [tb->pc, tb->pc + tb->size) in order to for it to be
-               properly cleared -- thus we increment the PC here so that
-               the logic setting tb->size below does the right thing.  */
-            dc->pc += 2;
-            break;
+            dc->jmp = JMP_NOJMP;
+        } else if (dc->jmp == JMP_DIRECT) {
+            cris_evaluate_flags(dc);
+            gen_goto_tb(dc, 0, dc->jmp_pc);
+            dc->base.is_jmp = DISAS_NORETURN;
+            dc->jmp = JMP_NOJMP;
+        } else {
+            TCGv c = tcg_const_tl(dc->pc);
+            t_gen_cc_jmp(env_btarget, c);
+            tcg_temp_free(c);
+            dc->base.is_jmp = DISAS_JUMP;
         }
+    }
 
-        /* Pretty disas.  */
-        LOG_DIS("%8.8x:\t", dc->pc);
+    /* Force an update if the per-tb cpu state has changed.  */
+    if (dc->base.is_jmp == DISAS_NEXT
+        && (dc->cpustate_changed
+            || !dc->flagx_known
+            || (dc->flags_x != (dc->base.tb->flags & X_FLAG)))) {
+        dc->base.is_jmp = DISAS_UPDATE;
+        tcg_gen_movi_tl(env_pc, dc->pc);
+    }
 
-        if (num_insns == max_insns && (tb_cflags(tb) & CF_LAST_IO)) {
-            gen_io_start();
-        }
-        dc->clear_x = 1;
+    /*
+     * FIXME: Only the first insn in the TB should cross a page boundary.
+     * If we can detect the length of the next insn easily, we should.
+     * In the meantime, simply stop when we do cross.
+     */
+    if (dc->base.is_jmp == DISAS_NEXT
+        && ((dc->pc ^ dc->base.pc_first) & TARGET_PAGE_MASK) != 0) {
+        dc->base.is_jmp = DISAS_TOO_MANY;
+    }
+}
 
-        insn_len = dc->decoder(env, dc);
-        dc->ppc = dc->pc;
-        dc->pc += insn_len;
-        if (dc->clear_x) {
-            cris_clear_x_flag(dc);
-        }
+static void cris_tr_tb_stop(DisasContextBase *dcbase, CPUState *cpu)
+{
+    DisasContext *dc = container_of(dcbase, DisasContext, base);
+    DisasJumpType is_jmp = dc->base.is_jmp;
+    target_ulong npc = dc->pc;
 
-        /* Check for delayed branches here. If we do it before
-           actually generating any host code, the simulator will just
-           loop doing nothing for on this program location.  */
-        if (dc->delayed_branch) {
-            dc->delayed_branch--;
-            if (dc->delayed_branch == 0) {
-                if (tb->flags & 7) {
-                    t_gen_movi_env_TN(dslot, 0);
-                }
-                if (dc->cpustate_changed || !dc->flagx_known
-                    || (dc->flags_x != (tb->flags & X_FLAG))) {
-                    cris_store_direct_jmp(dc);
-                }
-
-                if (dc->clear_locked_irq) {
-                    dc->clear_locked_irq = 0;
-                    t_gen_movi_env_TN(locked_irq, 0);
-                }
-
-                if (dc->jmp == JMP_DIRECT_CC) {
-                    TCGLabel *l1 = gen_new_label();
-                    cris_evaluate_flags(dc);
-
-                    /* Conditional jmp.  */
-                    tcg_gen_brcondi_tl(TCG_COND_EQ,
-                               env_btaken, 0, l1);
-                    gen_goto_tb(dc, 1, dc->jmp_pc);
-                    gen_set_label(l1);
-                    gen_goto_tb(dc, 0, dc->pc);
-                    dc->base.is_jmp = DISAS_NORETURN;
-                    dc->jmp = JMP_NOJMP;
-                } else if (dc->jmp == JMP_DIRECT) {
-                    cris_evaluate_flags(dc);
-                    gen_goto_tb(dc, 0, dc->jmp_pc);
-                    dc->base.is_jmp = DISAS_NORETURN;
-                    dc->jmp = JMP_NOJMP;
-                } else {
-                    TCGv c = tcg_const_tl(dc->pc);
-                    t_gen_cc_jmp(env_btarget, c);
-                    tcg_temp_free(c);
-                    dc->base.is_jmp = DISAS_JUMP;
-                }
-                break;
-            }
-        }
-
-        /* If we are rexecuting a branch due to exceptions on
-           delay slots don't break.  */
-        if (!(tb->pc & 1) && cs->singlestep_enabled) {
-            break;
-        }
-    } while (!dc->base.is_jmp && !dc->cpustate_changed
-            && !tcg_op_buf_full()
-            && !singlestep
-            && (dc->pc - page_start < TARGET_PAGE_SIZE)
-            && num_insns < max_insns);
+    if (is_jmp == DISAS_NORETURN) {
+        /* If we have a broken branch+delayslot sequence, it's too late. */
+        assert(dc->delayed_branch != 1);
+        return;
+    }
 
     if (dc->clear_locked_irq) {
         t_gen_movi_env_TN(locked_irq, 0);
     }
 
-    npc = dc->pc;
-
-    /* Force an update if the per-tb cpu state has changed.  */
-    if (dc->base.is_jmp == DISAS_NEXT
-        && (dc->cpustate_changed || !dc->flagx_known
-        || (dc->flags_x != (tb->flags & X_FLAG)))) {
-        dc->base.is_jmp = DISAS_UPDATE;
-        tcg_gen_movi_tl(env_pc, npc);
-    }
     /* Broken branch+delayslot sequence.  */
     if (dc->delayed_branch == 1) {
         /* Set env->dslot to the size of the branch insn.  */
@@ -XXX,XX +XXX,XX @@ void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int max_insns)
 
     cris_evaluate_flags(dc);
 
-    if (unlikely(cs->singlestep_enabled)) {
-        if (dc->base.is_jmp == DISAS_NEXT) {
+    if (unlikely(dc->base.singlestep_enabled)) {
+        switch (is_jmp) {
+        case DISAS_TOO_MANY:
             tcg_gen_movi_tl(env_pc, npc);
-        }
-        t_gen_raise_exception(EXCP_DEBUG);
-    } else {
-        switch (dc->base.is_jmp) {
-        case DISAS_NEXT:
-            gen_goto_tb(dc, 1, npc);
-            break;
-        default:
+            /* fall through */
         case DISAS_JUMP:
         case DISAS_UPDATE:
-            /* indicate that the hash table must be used
-                   to find the next TB */
-            tcg_gen_exit_tb(NULL, 0);
-            break;
-        case DISAS_NORETURN:
-            /* nothing more to generate */
+            t_gen_raise_exception(EXCP_DEBUG);
+            return;
+        default:
             break;
         }
+        g_assert_not_reached();
     }
-    gen_tb_end(tb, num_insns);
 
-    tb->size = dc->pc - pc_start;
-    tb->icount = num_insns;
-
-#ifdef DEBUG_DISAS
-#if !DISAS_CRIS
-    if (qemu_loglevel_mask(CPU_LOG_TB_IN_ASM)
-        && qemu_log_in_addr_range(pc_start)) {
-        FILE *logfile = qemu_log_lock();
-        qemu_log("--------------\n");
-        qemu_log("IN: %s\n", lookup_symbol(pc_start));
-        log_target_disas(cs, pc_start, dc->pc - pc_start);
-        qemu_log_unlock(logfile);
+    switch (is_jmp) {
+    case DISAS_TOO_MANY:
+        gen_goto_tb(dc, 0, npc);
+        break;
+    case DISAS_JUMP:
+    case DISAS_UPDATE:
+        /* Indicate that interupts must be re-evaluated before the next TB. */
+        tcg_gen_exit_tb(NULL, 0);
+        break;
+    default:
+        g_assert_not_reached();
     }
-#endif
-#endif
+}
+
+static void cris_tr_disas_log(const DisasContextBase *dcbase, CPUState *cpu)
+{
+    if (!DISAS_CRIS) {
+        qemu_log("IN: %s\n", lookup_symbol(dcbase->pc_first));
+        log_target_disas(cpu, dcbase->pc_first, dcbase->tb->size);
+    }
+}
+
+static const TranslatorOps cris_tr_ops = {
+    .init_disas_context = cris_tr_init_disas_context,
+    .tb_start           = cris_tr_tb_start,
+    .insn_start         = cris_tr_insn_start,
+    .breakpoint_check   = cris_tr_breakpoint_check,
+    .translate_insn     = cris_tr_translate_insn,
+    .tb_stop            = cris_tr_tb_stop,
+    .disas_log          = cris_tr_disas_log,
+};
+
+void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int max_insns)
+{
+    DisasContext dc;
+    translator_loop(&cris_tr_ops, &dc.base, cs, tb, max_insns);
 }
 
 void cris_cpu_dump_state(CPUState *cs, FILE *f, int flags)
-- 
2.25.1

Reviewed-by: Edgar E. Iglesias <edgar.iglesias@xilinx.com>
Tested-by: Edgar E. Iglesias <edgar.iglesias@xilinx.com>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 target/cris/translate.c         | 19 ++++++++++---------
 target/cris/translate_v10.c.inc |  6 +++---
 2 files changed, 13 insertions(+), 12 deletions(-)

diff --git a/target/cris/translate.c b/target/cris/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/cris/translate.c
+++ b/target/cris/translate.c
@@ -XXX,XX +XXX,XX @@ static void gen_BUG(DisasContext *dc, const char *file, int line)
     cpu_abort(CPU(dc->cpu), "%s:%d pc=%x\n", file, line, dc->pc);
 }
 
-static const char *regnames_v32[] =
+static const char * const regnames_v32[] =
 {
     "$r0", "$r1", "$r2", "$r3",
     "$r4", "$r5", "$r6", "$r7",
     "$r8", "$r9", "$r10", "$r11",
     "$r12", "$r13", "$sp", "$acr",
 };
-static const char *pregnames_v32[] =
+
+static const char * const pregnames_v32[] =
 {
     "$bz", "$vr", "$pid", "$srs",
     "$wz", "$exs", "$eda", "$mof",
@@ -XXX,XX +XXX,XX @@ static const char *pregnames_v32[] =
 };
 
 /* We need this table to handle preg-moves with implicit width.  */
-static int preg_sizes[] = {
+static const int preg_sizes[] = {
     1, /* bz.  */
     1, /* vr.  */
     4, /* pid.  */
@@ -XXX,XX +XXX,XX @@ static inline void t_gen_swapw(TCGv d, TCGv s)
    ((T0 >> 5) & 0x02020202) |
    ((T0 >> 7) & 0x01010101));
  */
-static inline void t_gen_swapr(TCGv d, TCGv s)
+static void t_gen_swapr(TCGv d, TCGv s)
 {
-    struct {
+    static const struct {
         int shift; /* LSL when positive, LSR when negative.  */
         uint32_t mask;
     } bitrev[] = {
@@ -XXX,XX +XXX,XX @@ static int dec_prep_alu_m(CPUCRISState *env, DisasContext *dc,
 #if DISAS_CRIS
 static const char *cc_name(int cc)
 {
-    static const char *cc_names[16] = {
+    static const char * const cc_names[16] = {
         "cc", "cs", "ne", "eq", "vc", "vs", "pl", "mi",
         "ls", "hi", "ge", "lt", "gt", "le", "a", "p"
     };
@@ -XXX,XX +XXX,XX @@ static int dec_null(CPUCRISState *env, DisasContext *dc)
     return 2;
 }
 
-static struct decoder_info {
+static const struct decoder_info {
     struct {
         uint32_t bits;
         uint32_t mask;
@@ -XXX,XX +XXX,XX @@ void cris_cpu_dump_state(CPUState *cs, FILE *f, int flags)
 {
     CRISCPU *cpu = CRIS_CPU(cs);
     CPUCRISState *env = &cpu->env;
-    const char **regnames;
-    const char **pregnames;
+    const char * const *regnames;
+    const char * const *pregnames;
     int i;
 
     if (!env) {
diff --git a/target/cris/translate_v10.c.inc b/target/cris/translate_v10.c.inc
index XXXXXXX..XXXXXXX 100644
--- a/target/cris/translate_v10.c.inc
+++ b/target/cris/translate_v10.c.inc
@@ -XXX,XX +XXX,XX @@
 #include "qemu/osdep.h"
 #include "crisv10-decode.h"
 
-static const char *regnames_v10[] =
+static const char * const regnames_v10[] =
 {
     "$r0", "$r1", "$r2", "$r3",
     "$r4", "$r5", "$r6", "$r7",
@@ -XXX,XX +XXX,XX @@ static const char *regnames_v10[] =
     "$r12", "$r13", "$sp", "$pc",
 };
 
-static const char *pregnames_v10[] =
+static const char * const pregnames_v10[] =
 {
     "$bz", "$vr", "$p2", "$p3",
     "$wz", "$ccr", "$p6-prefix", "$mof",
@@ -XXX,XX +XXX,XX @@ static const char *pregnames_v10[] =
 };
 
 /* We need this table to handle preg-moves with implicit width.  */
-static int preg_sizes_v10[] = {
+static const int preg_sizes_v10[] = {
     1, /* bz.  */
     1, /* vr.  */
     1, /* pid. */
-- 
2.25.1

We really do this already, by including them into the same test.
This just hoists the expression up a bit.

Reviewed-by: Edgar E. Iglesias <edgar.iglesias@xilinx.com>
Tested-by: Edgar E. Iglesias <edgar.iglesias@xilinx.com>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 target/cris/translate.c | 13 ++++++-------
 1 file changed, 6 insertions(+), 7 deletions(-)

diff --git a/target/cris/translate.c b/target/cris/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/cris/translate.c
+++ b/target/cris/translate.c
@@ -XXX,XX +XXX,XX @@ static void cris_tr_translate_insn(DisasContextBase *dcbase, CPUState *cs)
         cris_clear_x_flag(dc);
     }
 
+    /* Fold unhandled changes to X_FLAG into cpustate_changed. */
+    dc->cpustate_changed |= !dc->flagx_known;
+    dc->cpustate_changed |= dc->flags_x != (dc->base.tb->flags & X_FLAG);
+
     /*
      * Check for delayed branches here.  If we do it before
      * actually generating any host code, the simulator will just
@@ -XXX,XX +XXX,XX @@ static void cris_tr_translate_insn(DisasContextBase *dcbase, CPUState *cs)
             t_gen_movi_env_TN(dslot, 0);
         }
 
-        if (dc->cpustate_changed
-            || !dc->flagx_known
-            || (dc->flags_x != (dc->base.tb->flags & X_FLAG))) {
+        if (dc->cpustate_changed) {
             cris_store_direct_jmp(dc);
         }
 
@@ -XXX,XX +XXX,XX @@ static void cris_tr_translate_insn(DisasContextBase *dcbase, CPUState *cs)
     }
 
     /* Force an update if the per-tb cpu state has changed.  */
-    if (dc->base.is_jmp == DISAS_NEXT
-        && (dc->cpustate_changed
-            || !dc->flagx_known
-            || (dc->flags_x != (dc->base.tb->flags & X_FLAG)))) {
+    if (dc->base.is_jmp == DISAS_NEXT && dc->cpustate_changed) {
         dc->base.is_jmp = DISAS_UPDATE;
         tcg_gen_movi_tl(env_pc, dc->pc);
     }
-- 
2.25.1

These insns set DISAS_UPDATE without cpustate_changed,
which isn't quite right.

diff --git a/target/cris/translate.c b/target/cris/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/cris/translate.c
+++ b/target/cris/translate.c
@@ -XXX,XX +XXX,XX @@ static int dec_rfe_etc(CPUCRISState *env, DisasContext *dc)
         cris_evaluate_flags(dc);
         gen_helper_rfe(cpu_env);
         dc->base.is_jmp = DISAS_UPDATE;
+        dc->cpustate_changed = true;
         break;
     case 5:
         /* rfn.  */
@@ -XXX,XX +XXX,XX @@ static int dec_rfe_etc(CPUCRISState *env, DisasContext *dc)
         cris_evaluate_flags(dc);
         gen_helper_rfn(cpu_env);
         dc->base.is_jmp = DISAS_UPDATE;
+        dc->cpustate_changed = true;
         break;
     case 6:
         LOG_DIS("break %d\n", dc->op1);
-- 
2.25.1

Move this pc update into tb_stop.
We will be able to re-use this code shortly.

Reviewed-by: Edgar E. Iglesias <edgar.iglesias@xilinx.com>
Tested-by: Edgar E. Iglesias <edgar.iglesias@xilinx.com>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 target/cris/translate.c | 20 +++++++++++++++-----
 1 file changed, 15 insertions(+), 5 deletions(-)

diff --git a/target/cris/translate.c b/target/cris/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/cris/translate.c
+++ b/target/cris/translate.c
@@ -XXX,XX +XXX,XX @@
 #define BUG() (gen_BUG(dc, __FILE__, __LINE__))
 #define BUG_ON(x) ({if (x) BUG();})
 
-/* is_jmp field values */
-#define DISAS_JUMP    DISAS_TARGET_0 /* only pc was modified dynamically */
-#define DISAS_UPDATE  DISAS_TARGET_1 /* cpu state was modified dynamically */
+/*
+ * Target-specific is_jmp field values
+ */
+/* Only pc was modified dynamically */
+#define DISAS_JUMP          DISAS_TARGET_0
+/* Cpu state was modified dynamically, including pc */
+#define DISAS_UPDATE        DISAS_TARGET_1
+/* Cpu state was modified dynamically, excluding pc -- use npc */
+#define DISAS_UPDATE_NEXT   DISAS_TARGET_2
 
 /* Used by the decoder.  */
 #define EXTRACT_FIELD(src, start, end) \
@@ -XXX,XX +XXX,XX @@ static void cris_tr_translate_insn(DisasContextBase *dcbase, CPUState *cs)
 
     /* Force an update if the per-tb cpu state has changed.  */
     if (dc->base.is_jmp == DISAS_NEXT && dc->cpustate_changed) {
-        dc->base.is_jmp = DISAS_UPDATE;
-        tcg_gen_movi_tl(env_pc, dc->pc);
+        dc->base.is_jmp = DISAS_UPDATE_NEXT;
+        return;
     }
 
     /*
@@ -XXX,XX +XXX,XX @@ static void cris_tr_tb_stop(DisasContextBase *dcbase, CPUState *cpu)
     if (unlikely(dc->base.singlestep_enabled)) {
         switch (is_jmp) {
         case DISAS_TOO_MANY:
+        case DISAS_UPDATE_NEXT:
             tcg_gen_movi_tl(env_pc, npc);
             /* fall through */
         case DISAS_JUMP:
@@ -XXX,XX +XXX,XX @@ static void cris_tr_tb_stop(DisasContextBase *dcbase, CPUState *cpu)
     case DISAS_TOO_MANY:
         gen_goto_tb(dc, 0, npc);
         break;
+    case DISAS_UPDATE_NEXT:
+        tcg_gen_movi_tl(env_pc, npc);
+        /* fall through */
     case DISAS_JUMP:
     case DISAS_UPDATE:
         /* Indicate that interupts must be re-evaluated before the next TB. */
-- 
2.25.1

Move delayed branch handling to tb_stop, where we can re-use other
end-of-tb code, e.g. the evaluation of flags.  Honor single stepping.
Validate that we aren't losing state by overwriting is_jmp.

Reviewed-by: Edgar E. Iglesias <edgar.iglesias@xilinx.com>
Tested-by: Edgar E. Iglesias <edgar.iglesias@xilinx.com>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 target/cris/translate.c | 96 ++++++++++++++++++++++++-----------------
 1 file changed, 56 insertions(+), 40 deletions(-)

diff --git a/target/cris/translate.c b/target/cris/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/cris/translate.c
+++ b/target/cris/translate.c
@@ -XXX,XX +XXX,XX @@
 #define DISAS_UPDATE        DISAS_TARGET_1
 /* Cpu state was modified dynamically, excluding pc -- use npc */
 #define DISAS_UPDATE_NEXT   DISAS_TARGET_2
+/* PC update for delayed branch, see cpustate_changed otherwise */
+#define DISAS_DBRANCH       DISAS_TARGET_3
 
 /* Used by the decoder.  */
 #define EXTRACT_FIELD(src, start, end) \
@@ -XXX,XX +XXX,XX @@ static void cris_tr_translate_insn(DisasContextBase *dcbase, CPUState *cs)
     dc->cpustate_changed |= dc->flags_x != (dc->base.tb->flags & X_FLAG);
 
     /*
-     * Check for delayed branches here.  If we do it before
-     * actually generating any host code, the simulator will just
-     * loop doing nothing for on this program location.
+     * All branches are delayed branches, handled immediately below.
+     * We don't expect to see odd combinations of exit conditions.
      */
+    assert(dc->base.is_jmp == DISAS_NEXT || dc->cpustate_changed);
+
     if (dc->delayed_branch && --dc->delayed_branch == 0) {
-        if (dc->base.tb->flags & 7) {
-            t_gen_movi_env_TN(dslot, 0);
-        }
+        dc->base.is_jmp = DISAS_DBRANCH;
+        return;
+    }
 
-        if (dc->cpustate_changed) {
-            cris_store_direct_jmp(dc);
-        }
-
-        if (dc->clear_locked_irq) {
-            dc->clear_locked_irq = 0;
-            t_gen_movi_env_TN(locked_irq, 0);
-        }
-
-        if (dc->jmp == JMP_DIRECT_CC) {
-            TCGLabel *l1 = gen_new_label();
-            cris_evaluate_flags(dc);
-
-            /* Conditional jmp.  */
-            tcg_gen_brcondi_tl(TCG_COND_EQ, env_btaken, 0, l1);
-            gen_goto_tb(dc, 1, dc->jmp_pc);
-            gen_set_label(l1);
-            gen_goto_tb(dc, 0, dc->pc);
-            dc->base.is_jmp = DISAS_NORETURN;
-            dc->jmp = JMP_NOJMP;
-        } else if (dc->jmp == JMP_DIRECT) {
-            cris_evaluate_flags(dc);
-            gen_goto_tb(dc, 0, dc->jmp_pc);
-            dc->base.is_jmp = DISAS_NORETURN;
-            dc->jmp = JMP_NOJMP;
-        } else {
-            TCGv c = tcg_const_tl(dc->pc);
-            t_gen_cc_jmp(env_btarget, c);
-            tcg_temp_free(c);
-            dc->base.is_jmp = DISAS_JUMP;
-        }
+    if (dc->base.is_jmp != DISAS_NEXT) {
+        return;
     }
 
     /* Force an update if the per-tb cpu state has changed.  */
-    if (dc->base.is_jmp == DISAS_NEXT && dc->cpustate_changed) {
+    if (dc->cpustate_changed) {
         dc->base.is_jmp = DISAS_UPDATE_NEXT;
         return;
     }
@@ -XXX,XX +XXX,XX @@ static void cris_tr_translate_insn(DisasContextBase *dcbase, CPUState *cs)
      * If we can detect the length of the next insn easily, we should.
      * In the meantime, simply stop when we do cross.
      */
-    if (dc->base.is_jmp == DISAS_NEXT
-        && ((dc->pc ^ dc->base.pc_first) & TARGET_PAGE_MASK) != 0) {
+    if ((dc->pc ^ dc->base.pc_first) & TARGET_PAGE_MASK) {
         dc->base.is_jmp = DISAS_TOO_MANY;
     }
 }
@@ -XXX,XX +XXX,XX @@ static void cris_tr_tb_stop(DisasContextBase *dcbase, CPUState *cpu)
 
     cris_evaluate_flags(dc);
 
+    /* Evaluate delayed branch destination and fold to another is_jmp case. */
+    if (is_jmp == DISAS_DBRANCH) {
+        if (dc->base.tb->flags & 7) {
+            t_gen_movi_env_TN(dslot, 0);
+        }
+
+        switch (dc->jmp) {
+        case JMP_DIRECT:
+            npc = dc->jmp_pc;
+            is_jmp = dc->cpustate_changed ? DISAS_UPDATE_NEXT : DISAS_TOO_MANY;
+            break;
+
+        case JMP_DIRECT_CC:
+            /*
+             * Use a conditional branch if either taken or not-taken path
+             * can use goto_tb.  If neither can, then treat it as indirect.
+             */
+            if (likely(!dc->base.singlestep_enabled)
+                && likely(!dc->cpustate_changed)
+                && (use_goto_tb(dc, dc->jmp_pc) || use_goto_tb(dc, npc))) {
+                TCGLabel *not_taken = gen_new_label();
+
+                tcg_gen_brcondi_tl(TCG_COND_EQ, env_btaken, 0, not_taken);
+                gen_goto_tb(dc, 1, dc->jmp_pc);
+                gen_set_label(not_taken);
+
+                /* not-taken case handled below. */
+                is_jmp = DISAS_TOO_MANY;
+                break;
+            }
+            tcg_gen_movi_tl(env_btarget, dc->jmp_pc);
+            /* fall through */
+
+        case JMP_INDIRECT:
+            t_gen_cc_jmp(env_btarget, tcg_constant_tl(npc));
+            is_jmp = dc->cpustate_changed ? DISAS_UPDATE : DISAS_JUMP;
+            break;
+
+        default:
+            g_assert_not_reached();
+        }
+    }
+
     if (unlikely(dc->base.singlestep_enabled)) {
         switch (is_jmp) {
         case DISAS_TOO_MANY:
-- 
2.25.1

We can use this in gen_goto_tb and for DISAS_JUMP
to indirectly chain to the next TB.

Reviewed-by: Edgar E. Iglesias <edgar.iglesias@xilinx.com>
Tested-by: Edgar E. Iglesias <edgar.iglesias@xilinx.com>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 target/cris/translate.c | 4 +++-
 1 file changed, 3 insertions(+), 1 deletion(-)

diff --git a/target/cris/translate.c b/target/cris/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/cris/translate.c
+++ b/target/cris/translate.c
@@ -XXX,XX +XXX,XX @@ static void gen_goto_tb(DisasContext *dc, int n, target_ulong dest)
         tcg_gen_exit_tb(dc->base.tb, n);
     } else {
         tcg_gen_movi_tl(env_pc, dest);
-        tcg_gen_exit_tb(NULL, 0);
+        tcg_gen_lookup_and_goto_ptr();
     }
 }
 
@@ -XXX,XX +XXX,XX @@ static void cris_tr_tb_stop(DisasContextBase *dcbase, CPUState *cpu)
         tcg_gen_movi_tl(env_pc, npc);
         /* fall through */
     case DISAS_JUMP:
+        tcg_gen_lookup_and_goto_ptr();
+        break;
     case DISAS_UPDATE:
         /* Indicate that interupts must be re-evaluated before the next TB. */
         tcg_gen_exit_tb(NULL, 0);
-- 
2.25.1

Use movcond instead of brcond to set env_pc.
Discard the btarget and btaken variables to improve
register allocation and avoid unnecessary writeback.

Reviewed-by: Edgar E. Iglesias <edgar.iglesias@xilinx.com>
Tested-by: Edgar E. Iglesias <edgar.iglesias@xilinx.com>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 target/cris/translate.c | 22 ++++++++++------------
 1 file changed, 10 insertions(+), 12 deletions(-)

diff --git a/target/cris/translate.c b/target/cris/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/cris/translate.c
+++ b/target/cris/translate.c
@@ -XXX,XX +XXX,XX @@ static void t_gen_swapr(TCGv d, TCGv s)
     tcg_temp_free(org_s);
 }
 
-static void t_gen_cc_jmp(TCGv pc_true, TCGv pc_false)
-{
-    TCGLabel *l1 = gen_new_label();
-
-    /* Conditional jmp.  */
-    tcg_gen_mov_tl(env_pc, pc_false);
-    tcg_gen_brcondi_tl(TCG_COND_EQ, env_btaken, 0, l1);
-    tcg_gen_mov_tl(env_pc, pc_true);
-    gen_set_label(l1);
-}
-
 static bool use_goto_tb(DisasContext *dc, target_ulong dest)
 {
     return ((dest ^ dc->base.pc_first) & TARGET_PAGE_MASK) == 0;
@@ -XXX,XX +XXX,XX @@ static void cris_tr_tb_stop(DisasContextBase *dcbase, CPUState *cpu)
             /* fall through */
 
         case JMP_INDIRECT:
-            t_gen_cc_jmp(env_btarget, tcg_constant_tl(npc));
+            tcg_gen_movcond_tl(TCG_COND_NE, env_pc,
+                               env_btaken, tcg_constant_tl(0),
+                               env_btarget, tcg_constant_tl(npc));
             is_jmp = dc->cpustate_changed ? DISAS_UPDATE : DISAS_JUMP;
+
+            /*
+             * We have now consumed btaken and btarget.  Hint to the
+             * tcg compiler that the writeback to env may be dropped.
+             */
+            tcg_gen_discard_tl(env_btaken);
+            tcg_gen_discard_tl(env_btarget);
             break;
 
         default:
-- 
2.25.1

Ever since 2a44f7f17364, flagx_known is always true.
Fold away all of the tests against the flag.

Reviewed-by: Edgar E. Iglesias <edgar.iglesias@xilinx.com>
Tested-by: Edgar E. Iglesias <edgar.iglesias@xilinx.com>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 target/cris/translate.c         | 99 ++++++++-------------------------
 target/cris/translate_v10.c.inc |  6 +-
 2 files changed, 24 insertions(+), 81 deletions(-)

diff --git a/target/cris/translate.c b/target/cris/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/cris/translate.c
+++ b/target/cris/translate.c
@@ -XXX,XX +XXX,XX @@ typedef struct DisasContext {
 
     int cc_x_uptodate;  /* 1 - ccs, 2 - known | X_FLAG. 0 not up-to-date.  */
     int flags_uptodate; /* Whether or not $ccs is up-to-date.  */
-    int flagx_known; /* Whether or not flags_x has the x flag known at
-                translation time.  */
     int flags_x;
 
     int clear_x; /* Clear x after this insn?  */
@@ -XXX,XX +XXX,XX @@ static inline void t_gen_add_flag(TCGv d, int flag)
 
 static inline void t_gen_addx_carry(DisasContext *dc, TCGv d)
 {
-    if (dc->flagx_known) {
-        if (dc->flags_x) {
-            TCGv c;
-            
-            c = tcg_temp_new();
-            t_gen_mov_TN_preg(c, PR_CCS);
-            /* C flag is already at bit 0.  */
-            tcg_gen_andi_tl(c, c, C_FLAG);
-            tcg_gen_add_tl(d, d, c);
-            tcg_temp_free(c);
-        }
-    } else {
-        TCGv x, c;
+    if (dc->flags_x) {
+        TCGv c = tcg_temp_new();
 
-        x = tcg_temp_new();
-        c = tcg_temp_new();
-        t_gen_mov_TN_preg(x, PR_CCS);
-        tcg_gen_mov_tl(c, x);
-
-        /* Propagate carry into d if X is set. Branch free.  */
+        t_gen_mov_TN_preg(c, PR_CCS);
+        /* C flag is already at bit 0.  */
         tcg_gen_andi_tl(c, c, C_FLAG);
-        tcg_gen_andi_tl(x, x, X_FLAG);
-        tcg_gen_shri_tl(x, x, 4);
-
-        tcg_gen_and_tl(x, x, c);
-        tcg_gen_add_tl(d, d, x);
-        tcg_temp_free(x);
+        tcg_gen_add_tl(d, d, c);
         tcg_temp_free(c);
     }
 }
 
 static inline void t_gen_subx_carry(DisasContext *dc, TCGv d)
 {
-    if (dc->flagx_known) {
-        if (dc->flags_x) {
-            TCGv c;
-            
-            c = tcg_temp_new();
-            t_gen_mov_TN_preg(c, PR_CCS);
-            /* C flag is already at bit 0.  */
-            tcg_gen_andi_tl(c, c, C_FLAG);
-            tcg_gen_sub_tl(d, d, c);
-            tcg_temp_free(c);
-        }
-    } else {
-        TCGv x, c;
+    if (dc->flags_x) {
+        TCGv c = tcg_temp_new();
 
-        x = tcg_temp_new();
-        c = tcg_temp_new();
-        t_gen_mov_TN_preg(x, PR_CCS);
-        tcg_gen_mov_tl(c, x);
-
-        /* Propagate carry into d if X is set. Branch free.  */
+        t_gen_mov_TN_preg(c, PR_CCS);
+        /* C flag is already at bit 0.  */
         tcg_gen_andi_tl(c, c, C_FLAG);
-        tcg_gen_andi_tl(x, x, X_FLAG);
-        tcg_gen_shri_tl(x, x, 4);
-
-        tcg_gen_and_tl(x, x, c);
-        tcg_gen_sub_tl(d, d, x);
-        tcg_temp_free(x);
+        tcg_gen_sub_tl(d, d, c);
         tcg_temp_free(c);
     }
 }
@@ -XXX,XX +XXX,XX @@ static void gen_goto_tb(DisasContext *dc, int n, target_ulong dest)
 
 static inline void cris_clear_x_flag(DisasContext *dc)
 {
-    if (dc->flagx_known && dc->flags_x) {
+    if (dc->flags_x) {
         dc->flags_uptodate = 0;
     }
-
-    dc->flagx_known = 1;
     dc->flags_x = 0;
 }
 
@@ -XXX,XX +XXX,XX @@ static void cris_evaluate_flags(DisasContext *dc)
         break;
     }
 
-    if (dc->flagx_known) {
-        if (dc->flags_x) {
-            tcg_gen_ori_tl(cpu_PR[PR_CCS], cpu_PR[PR_CCS], X_FLAG);
-        } else if (dc->cc_op == CC_OP_FLAGS) {
-            tcg_gen_andi_tl(cpu_PR[PR_CCS], cpu_PR[PR_CCS], ~X_FLAG);
-        }
+    if (dc->flags_x) {
+        tcg_gen_ori_tl(cpu_PR[PR_CCS], cpu_PR[PR_CCS], X_FLAG);
+    } else if (dc->cc_op == CC_OP_FLAGS) {
+        tcg_gen_andi_tl(cpu_PR[PR_CCS], cpu_PR[PR_CCS], ~X_FLAG);
     }
     dc->flags_uptodate = 1;
 }
@@ -XXX,XX +XXX,XX @@ static void cris_update_cc_op(DisasContext *dc, int op, int size)
 static inline void cris_update_cc_x(DisasContext *dc)
 {
     /* Save the x flag state at the time of the cc snapshot.  */
-    if (dc->flagx_known) {
-        if (dc->cc_x_uptodate == (2 | dc->flags_x)) {
-            return;
-        }
-        tcg_gen_movi_tl(cc_x, dc->flags_x);
-        dc->cc_x_uptodate = 2 | dc->flags_x;
-    } else {
-        tcg_gen_andi_tl(cc_x, cpu_PR[PR_CCS], X_FLAG);
-        dc->cc_x_uptodate = 1;
+    if (dc->cc_x_uptodate == (2 | dc->flags_x)) {
+        return;
     }
+    tcg_gen_movi_tl(cc_x, dc->flags_x);
+    dc->cc_x_uptodate = 2 | dc->flags_x;
 }
 
 /* Update cc prior to executing ALU op. Needs source operands untouched.  */
@@ -XXX,XX +XXX,XX @@ static void gen_store (DisasContext *dc, TCGv addr, TCGv val,
 
     /* Conditional writes. We only support the kind were X and P are known
        at translation time.  */
-    if (dc->flagx_known && dc->flags_x && (dc->tb_flags & P_FLAG)) {
+    if (dc->flags_x && (dc->tb_flags & P_FLAG)) {
         dc->postinc = 0;
         cris_evaluate_flags(dc);
         tcg_gen_ori_tl(cpu_PR[PR_CCS], cpu_PR[PR_CCS], C_FLAG);
@@ -XXX,XX +XXX,XX @@ static void gen_store (DisasContext *dc, TCGv addr, TCGv val,
 
     tcg_gen_qemu_st_tl(val, addr, mem_index, MO_TE + ctz32(size));
 
-    if (dc->flagx_known && dc->flags_x) {
+    if (dc->flags_x) {
         cris_evaluate_flags(dc);
         tcg_gen_andi_tl(cpu_PR[PR_CCS], cpu_PR[PR_CCS], ~C_FLAG);
     }
@@ -XXX,XX +XXX,XX @@ static int dec_addc_r(CPUCRISState *env, DisasContext *dc)
     LOG_DIS("addc $r%u, $r%u\n",
             dc->op1, dc->op2);
     cris_evaluate_flags(dc);
+
     /* Set for this insn.  */
-    dc->flagx_known = 1;
     dc->flags_x = X_FLAG;
 
     cris_cc_mask(dc, CC_MASK_NZVC);
@@ -XXX,XX +XXX,XX @@ static int dec_setclrf(CPUCRISState *env, DisasContext *dc)
     }
 
     if (flags & X_FLAG) {
-        dc->flagx_known = 1;
         if (set) {
             dc->flags_x = X_FLAG;
         } else {
@@ -XXX,XX +XXX,XX @@ static int dec_addc_mr(CPUCRISState *env, DisasContext *dc)
     cris_evaluate_flags(dc);
 
     /* Set for this insn.  */
-    dc->flagx_known = 1;
     dc->flags_x = X_FLAG;
 
     cris_alu_m_alloc_temps(t);
@@ -XXX,XX +XXX,XX @@ static void cris_tr_init_disas_context(DisasContextBase *dcbase, CPUState *cs)
     dc->ppc = pc_start;
     dc->pc = pc_start;
     dc->flags_uptodate = 1;
-    dc->flagx_known = 1;
     dc->flags_x = tb_flags & X_FLAG;
     dc->cc_x_uptodate = 0;
     dc->cc_mask = 0;
@@ -XXX,XX +XXX,XX @@ static void cris_tr_translate_insn(DisasContextBase *dcbase, CPUState *cs)
     }
 
     /* Fold unhandled changes to X_FLAG into cpustate_changed. */
-    dc->cpustate_changed |= !dc->flagx_known;
     dc->cpustate_changed |= dc->flags_x != (dc->base.tb->flags & X_FLAG);
 
     /*
diff --git a/target/cris/translate_v10.c.inc b/target/cris/translate_v10.c.inc
index XXXXXXX..XXXXXXX 100644
--- a/target/cris/translate_v10.c.inc
+++ b/target/cris/translate_v10.c.inc
@@ -XXX,XX +XXX,XX @@ static void gen_store_v10(DisasContext *dc, TCGv addr, TCGv val,
         cris_store_direct_jmp(dc);
     }
 
-    /* Conditional writes. We only support the kind were X is known
-       at translation time.  */
-    if (dc->flagx_known && dc->flags_x) {
+    /* Conditional writes. */
+    if (dc->flags_x) {
         gen_store_v10_conditional(dc, addr, val, size, mem_index);
         return;
     }
@@ -XXX,XX +XXX,XX @@ static unsigned int dec10_setclrf(DisasContext *dc)
 
 
     if (flags & X_FLAG) {
-        dc->flagx_known = 1;
         if (set)
             dc->flags_x = X_FLAG;
         else
-- 
2.25.1

From: LIU Zhiwei <zhiwei_liu@c-sky.com>

Implement tcg_gen_vec_add{sub}16_tl by adding corresponding i32 OP.

Signed-off-by: LIU Zhiwei <zhiwei_liu@c-sky.com>
Message-Id: <20210624105023.3852-2-zhiwei_liu@c-sky.com>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 include/tcg/tcg-op-gvec.h | 13 +++++++++++++
 tcg/tcg-op-gvec.c         | 28 ++++++++++++++++++++++++++++
 2 files changed, 41 insertions(+)

From: LIU Zhiwei <zhiwei_liu@c-sky.com>

Implement tcg_gen_vec_add{sub}8_tl by adding corresponging i32 OP.

Signed-off-by: LIU Zhiwei <zhiwei_liu@c-sky.com>
Message-Id: <20210624105023.3852-3-zhiwei_liu@c-sky.com>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 include/tcg/tcg-op-gvec.h |  6 ++++++
 tcg/tcg-op-gvec.c         | 38 ++++++++++++++++++++++++++++++++++++++
 2 files changed, 44 insertions(+)

diff --git a/include/tcg/tcg-op-gvec.h b/include/tcg/tcg-op-gvec.h
index XXXXXXX..XXXXXXX 100644
--- a/include/tcg/tcg-op-gvec.h
+++ b/include/tcg/tcg-op-gvec.h
@@ -XXX,XX +XXX,XX @@ void tcg_gen_vec_rotl8i_i64(TCGv_i64 d, TCGv_i64 a, int64_t c);
 void tcg_gen_vec_rotl16i_i64(TCGv_i64 d, TCGv_i64 a, int64_t c);
 
 /* 32-bit vector operations. */
+void tcg_gen_vec_add8_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b);
 void tcg_gen_vec_add16_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b);
 
+void tcg_gen_vec_sub8_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b);
 void tcg_gen_vec_sub16_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b);
 
 #if TARGET_LONG_BITS == 64
+#define tcg_gen_vec_add8_tl  tcg_gen_vec_add8_i64
+#define tcg_gen_vec_sub8_tl  tcg_gen_vec_sub8_i64
 #define tcg_gen_vec_add16_tl tcg_gen_vec_add16_i64
 #define tcg_gen_vec_sub16_tl tcg_gen_vec_sub16_i64
 #else
+#define tcg_gen_vec_add8_tl  tcg_gen_vec_add8_i32
+#define tcg_gen_vec_sub8_tl  tcg_gen_vec_sub8_i32
 #define tcg_gen_vec_add16_tl tcg_gen_vec_add16_i32
 #define tcg_gen_vec_sub16_tl tcg_gen_vec_sub16_i32
 #endif
diff --git a/tcg/tcg-op-gvec.c b/tcg/tcg-op-gvec.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/tcg-op-gvec.c
+++ b/tcg/tcg-op-gvec.c
@@ -XXX,XX +XXX,XX @@ void tcg_gen_vec_add8_i64(TCGv_i64 d, TCGv_i64 a, TCGv_i64 b)
     gen_addv_mask(d, a, b, m);
 }
 
+void tcg_gen_vec_add8_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b)
+{
+    TCGv_i32 m = tcg_constant_i32((int32_t)dup_const(MO_8, 0x80));
+    TCGv_i32 t1 = tcg_temp_new_i32();
+    TCGv_i32 t2 = tcg_temp_new_i32();
+    TCGv_i32 t3 = tcg_temp_new_i32();
+
+    tcg_gen_andc_i32(t1, a, m);
+    tcg_gen_andc_i32(t2, b, m);
+    tcg_gen_xor_i32(t3, a, b);
+    tcg_gen_add_i32(d, t1, t2);
+    tcg_gen_and_i32(t3, t3, m);
+    tcg_gen_xor_i32(d, d, t3);
+
+    tcg_temp_free_i32(t1);
+    tcg_temp_free_i32(t2);
+    tcg_temp_free_i32(t3);
+}
+
 void tcg_gen_vec_add16_i64(TCGv_i64 d, TCGv_i64 a, TCGv_i64 b)
 {
     TCGv_i64 m = tcg_constant_i64(dup_const(MO_16, 0x8000));
@@ -XXX,XX +XXX,XX @@ void tcg_gen_vec_sub8_i64(TCGv_i64 d, TCGv_i64 a, TCGv_i64 b)
     gen_subv_mask(d, a, b, m);
 }
 
+void tcg_gen_vec_sub8_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b)
+{
+    TCGv_i32 m = tcg_constant_i32((int32_t)dup_const(MO_8, 0x80));
+    TCGv_i32 t1 = tcg_temp_new_i32();
+    TCGv_i32 t2 = tcg_temp_new_i32();
+    TCGv_i32 t3 = tcg_temp_new_i32();
+
+    tcg_gen_or_i32(t1, a, m);
+    tcg_gen_andc_i32(t2, b, m);
+    tcg_gen_eqv_i32(t3, a, b);
+    tcg_gen_sub_i32(d, t1, t2);
+    tcg_gen_and_i32(t3, t3, m);
+    tcg_gen_xor_i32(d, d, t3);
+
+    tcg_temp_free_i32(t1);
+    tcg_temp_free_i32(t2);
+    tcg_temp_free_i32(t3);
+}
+
 void tcg_gen_vec_sub16_i64(TCGv_i64 d, TCGv_i64 a, TCGv_i64 b)
 {
     TCGv_i64 m = tcg_constant_i64(dup_const(MO_16, 0x8000));
-- 
2.25.1

From: LIU Zhiwei <zhiwei_liu@c-sky.com>

Implement tcg_gen_vec_shl{shr}{sar}16i_tl by adding corresponging i32 OP.

Signed-off-by: LIU Zhiwei <zhiwei_liu@c-sky.com>
Message-Id: <20210624105023.3852-4-zhiwei_liu@c-sky.com>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 include/tcg/tcg-op-gvec.h | 10 ++++++++++
 tcg/tcg-op-gvec.c         | 28 ++++++++++++++++++++++++++++
 2 files changed, 38 insertions(+)

diff --git a/include/tcg/tcg-op-gvec.h b/include/tcg/tcg-op-gvec.h
index XXXXXXX..XXXXXXX 100644
--- a/include/tcg/tcg-op-gvec.h
+++ b/include/tcg/tcg-op-gvec.h
@@ -XXX,XX +XXX,XX @@ void tcg_gen_vec_add16_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b);
 void tcg_gen_vec_sub8_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b);
 void tcg_gen_vec_sub16_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b);
 
+void tcg_gen_vec_shl16i_i32(TCGv_i32 d, TCGv_i32 a, int32_t);
+void tcg_gen_vec_shr16i_i32(TCGv_i32 d, TCGv_i32 a, int32_t);
+void tcg_gen_vec_sar16i_i32(TCGv_i32 d, TCGv_i32 a, int32_t);
+
 #if TARGET_LONG_BITS == 64
 #define tcg_gen_vec_add8_tl  tcg_gen_vec_add8_i64
 #define tcg_gen_vec_sub8_tl  tcg_gen_vec_sub8_i64
 #define tcg_gen_vec_add16_tl tcg_gen_vec_add16_i64
 #define tcg_gen_vec_sub16_tl tcg_gen_vec_sub16_i64
+#define tcg_gen_vec_shl16i_tl tcg_gen_vec_shl16i_i64
+#define tcg_gen_vec_shr16i_tl tcg_gen_vec_shr16i_i64
+#define tcg_gen_vec_sar16i_tl tcg_gen_vec_sar16i_i64
 #else
 #define tcg_gen_vec_add8_tl  tcg_gen_vec_add8_i32
 #define tcg_gen_vec_sub8_tl  tcg_gen_vec_sub8_i32
 #define tcg_gen_vec_add16_tl tcg_gen_vec_add16_i32
 #define tcg_gen_vec_sub16_tl tcg_gen_vec_sub16_i32
+#define tcg_gen_vec_shl16i_tl tcg_gen_vec_shl16i_i32
+#define tcg_gen_vec_shr16i_tl tcg_gen_vec_shr16i_i32
+#define tcg_gen_vec_sar16i_tl tcg_gen_vec_sar16i_i32
 #endif
 
 #endif
diff --git a/tcg/tcg-op-gvec.c b/tcg/tcg-op-gvec.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/tcg-op-gvec.c
+++ b/tcg/tcg-op-gvec.c
@@ -XXX,XX +XXX,XX @@ void tcg_gen_vec_shl16i_i64(TCGv_i64 d, TCGv_i64 a, int64_t c)
     tcg_gen_andi_i64(d, d, mask);
 }
 
+void tcg_gen_vec_shl16i_i32(TCGv_i32 d, TCGv_i32 a, int32_t c)
+{
+    uint32_t mask = dup_const(MO_16, 0xffff << c);
+    tcg_gen_shli_i32(d, a, c);
+    tcg_gen_andi_i32(d, d, mask);
+}
+
 void tcg_gen_gvec_shli(unsigned vece, uint32_t dofs, uint32_t aofs,
                        int64_t shift, uint32_t oprsz, uint32_t maxsz)
 {
@@ -XXX,XX +XXX,XX @@ void tcg_gen_vec_shr16i_i64(TCGv_i64 d, TCGv_i64 a, int64_t c)
     tcg_gen_andi_i64(d, d, mask);
 }
 
+void tcg_gen_vec_shr16i_i32(TCGv_i32 d, TCGv_i32 a, int32_t c)
+{
+    uint32_t mask = dup_const(MO_16, 0xffff >> c);
+    tcg_gen_shri_i32(d, a, c);
+    tcg_gen_andi_i32(d, d, mask);
+}
+
 void tcg_gen_gvec_shri(unsigned vece, uint32_t dofs, uint32_t aofs,
                        int64_t shift, uint32_t oprsz, uint32_t maxsz)
 {
@@ -XXX,XX +XXX,XX @@ void tcg_gen_vec_sar16i_i64(TCGv_i64 d, TCGv_i64 a, int64_t c)
     tcg_temp_free_i64(s);
 }
 
+void tcg_gen_vec_sar16i_i32(TCGv_i32 d, TCGv_i32 a, int32_t c)
+{
+    uint32_t s_mask = dup_const(MO_16, 0x8000 >> c);
+    uint32_t c_mask = dup_const(MO_16, 0xffff >> c);
+    TCGv_i32 s = tcg_temp_new_i32();
+
+    tcg_gen_shri_i32(d, a, c);
+    tcg_gen_andi_i32(s, d, s_mask);  /* isolate (shifted) sign bit */
+    tcg_gen_andi_i32(d, d, c_mask);  /* clear out bits above sign  */
+    tcg_gen_muli_i32(s, s, (2 << c) - 2); /* replicate isolated signs */
+    tcg_gen_or_i32(d, d, s);         /* include sign extension */
+    tcg_temp_free_i32(s);
+}
+
 void tcg_gen_gvec_sari(unsigned vece, uint32_t dofs, uint32_t aofs,
                        int64_t shift, uint32_t oprsz, uint32_t maxsz)
 {
-- 
2.25.1

From: LIU Zhiwei <zhiwei_liu@c-sky.com>

Implement tcg_gen_vec_shl{shr}{sar}8i_tl by adding corresponging i32 OP.

Signed-off-by: LIU Zhiwei <zhiwei_liu@c-sky.com>
Message-Id: <20210624105023.3852-5-zhiwei_liu@c-sky.com>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 include/tcg/tcg-op-gvec.h | 10 ++++++++++
 tcg/tcg-op-gvec.c         | 28 ++++++++++++++++++++++++++++
 2 files changed, 38 insertions(+)

diff --git a/include/tcg/tcg-op-gvec.h b/include/tcg/tcg-op-gvec.h
index XXXXXXX..XXXXXXX 100644
--- a/include/tcg/tcg-op-gvec.h
+++ b/include/tcg/tcg-op-gvec.h
@@ -XXX,XX +XXX,XX @@ void tcg_gen_vec_add16_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b);
 void tcg_gen_vec_sub8_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b);
 void tcg_gen_vec_sub16_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b);
 
+void tcg_gen_vec_shl8i_i32(TCGv_i32 d, TCGv_i32 a, int32_t);
 void tcg_gen_vec_shl16i_i32(TCGv_i32 d, TCGv_i32 a, int32_t);
+void tcg_gen_vec_shr8i_i32(TCGv_i32 d, TCGv_i32 a, int32_t);
 void tcg_gen_vec_shr16i_i32(TCGv_i32 d, TCGv_i32 a, int32_t);
+void tcg_gen_vec_sar8i_i32(TCGv_i32 d, TCGv_i32 a, int32_t);
 void tcg_gen_vec_sar16i_i32(TCGv_i32 d, TCGv_i32 a, int32_t);
 
 #if TARGET_LONG_BITS == 64
@@ -XXX,XX +XXX,XX @@ void tcg_gen_vec_sar16i_i32(TCGv_i32 d, TCGv_i32 a, int32_t);
 #define tcg_gen_vec_sub8_tl  tcg_gen_vec_sub8_i64
 #define tcg_gen_vec_add16_tl tcg_gen_vec_add16_i64
 #define tcg_gen_vec_sub16_tl tcg_gen_vec_sub16_i64
+#define tcg_gen_vec_shl8i_tl tcg_gen_vec_shl8i_i64
+#define tcg_gen_vec_shr8i_tl tcg_gen_vec_shr8i_i64
+#define tcg_gen_vec_sar8i_tl tcg_gen_vec_sar8i_i64
 #define tcg_gen_vec_shl16i_tl tcg_gen_vec_shl16i_i64
 #define tcg_gen_vec_shr16i_tl tcg_gen_vec_shr16i_i64
 #define tcg_gen_vec_sar16i_tl tcg_gen_vec_sar16i_i64
+
 #else
 #define tcg_gen_vec_add8_tl  tcg_gen_vec_add8_i32
 #define tcg_gen_vec_sub8_tl  tcg_gen_vec_sub8_i32
 #define tcg_gen_vec_add16_tl tcg_gen_vec_add16_i32
 #define tcg_gen_vec_sub16_tl tcg_gen_vec_sub16_i32
+#define tcg_gen_vec_shl8i_tl tcg_gen_vec_shl8i_i32
+#define tcg_gen_vec_shr8i_tl tcg_gen_vec_shr8i_i32
+#define tcg_gen_vec_sar8i_tl tcg_gen_vec_sar8i_i32
 #define tcg_gen_vec_shl16i_tl tcg_gen_vec_shl16i_i32
 #define tcg_gen_vec_shr16i_tl tcg_gen_vec_shr16i_i32
 #define tcg_gen_vec_sar16i_tl tcg_gen_vec_sar16i_i32
diff --git a/tcg/tcg-op-gvec.c b/tcg/tcg-op-gvec.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/tcg-op-gvec.c
+++ b/tcg/tcg-op-gvec.c
@@ -XXX,XX +XXX,XX @@ void tcg_gen_vec_shl16i_i64(TCGv_i64 d, TCGv_i64 a, int64_t c)
     tcg_gen_andi_i64(d, d, mask);
 }
 
+void tcg_gen_vec_shl8i_i32(TCGv_i32 d, TCGv_i32 a, int32_t c)
+{
+    uint32_t mask = dup_const(MO_8, 0xff << c);
+    tcg_gen_shli_i32(d, a, c);
+    tcg_gen_andi_i32(d, d, mask);
+}
+
 void tcg_gen_vec_shl16i_i32(TCGv_i32 d, TCGv_i32 a, int32_t c)
 {
     uint32_t mask = dup_const(MO_16, 0xffff << c);
@@ -XXX,XX +XXX,XX @@ void tcg_gen_vec_shr16i_i64(TCGv_i64 d, TCGv_i64 a, int64_t c)
     tcg_gen_andi_i64(d, d, mask);
 }
 
+void tcg_gen_vec_shr8i_i32(TCGv_i32 d, TCGv_i32 a, int32_t c)
+{
+    uint32_t mask = dup_const(MO_8, 0xff >> c);
+    tcg_gen_shri_i32(d, a, c);
+    tcg_gen_andi_i32(d, d, mask);
+}
+
 void tcg_gen_vec_shr16i_i32(TCGv_i32 d, TCGv_i32 a, int32_t c)
 {
     uint32_t mask = dup_const(MO_16, 0xffff >> c);
@@ -XXX,XX +XXX,XX @@ void tcg_gen_vec_sar16i_i64(TCGv_i64 d, TCGv_i64 a, int64_t c)
     tcg_temp_free_i64(s);
 }
 
+void tcg_gen_vec_sar8i_i32(TCGv_i32 d, TCGv_i32 a, int32_t c)
+{
+    uint32_t s_mask = dup_const(MO_8, 0x80 >> c);
+    uint32_t c_mask = dup_const(MO_8, 0xff >> c);
+    TCGv_i32 s = tcg_temp_new_i32();
+
+    tcg_gen_shri_i32(d, a, c);
+    tcg_gen_andi_i32(s, d, s_mask);  /* isolate (shifted) sign bit */
+    tcg_gen_muli_i32(s, s, (2 << c) - 2); /* replicate isolated signs */
+    tcg_gen_andi_i32(d, d, c_mask);  /* clear out bits above sign  */
+    tcg_gen_or_i32(d, d, s);         /* include sign extension */
+    tcg_temp_free_i32(s);
+}
+
 void tcg_gen_vec_sar16i_i32(TCGv_i32 d, TCGv_i32 a, int32_t c)
 {
     uint32_t s_mask = dup_const(MO_16, 0x8000 >> c);
-- 
2.25.1

From: LIU Zhiwei <zhiwei_liu@c-sky.com>

Signed-off-by: LIU Zhiwei <zhiwei_liu@c-sky.com>
Message-Id: <20210624105023.3852-6-zhiwei_liu@c-sky.com>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 include/tcg/tcg-op-gvec.h | 4 ++++
 1 file changed, 4 insertions(+)

From: Warner Losh <imp@bsdimp.com>

The trap number for a page fault on BSD systems is T_PAGEFLT
not 0xe -- 0xe is used by Linux and represents the intel hardware
trap vector. The BSD kernels, however, translate this to T_PAGEFLT
in their Xpage, Xtrap0e, Xtrap14, etc fault handlers. This is true
for i386 and x86_64, though the name of the trap hanlder can very
on the flavor of BSD. As far as I can tell, Linux doesn't provide
a define for this value. Invent a new one (PAGE_FAULT_TRAP) and
use it instead to avoid uglier ifdefs.

Signed-off-by: Mark Johnston <markj@FreeBSD.org>
Signed-off-by: Juergen Lock <nox@FreeBSD.org>
[ Rework to avoid ifdefs and expand it to i386 ]
Signed-off-by: Warner Losh <imp@bsdimp.com>
Message-Id: <20210625045707.84534-3-imp@bsdimp.com>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 accel/tcg/user-exec.c | 20 ++++++++++++++++++--
 1 file changed, 18 insertions(+), 2 deletions(-)

diff --git a/accel/tcg/user-exec.c b/accel/tcg/user-exec.c
index XXXXXXX..XXXXXXX 100644
--- a/accel/tcg/user-exec.c
+++ b/accel/tcg/user-exec.c
@@ -XXX,XX +XXX,XX @@ void *probe_access(CPUArchState *env, target_ulong addr, int size,
 
 #if defined(__NetBSD__)
 #include <ucontext.h>
+#include <machine/trap.h>
 
 #define EIP_sig(context)     ((context)->uc_mcontext.__gregs[_REG_EIP])
 #define TRAP_sig(context)    ((context)->uc_mcontext.__gregs[_REG_TRAPNO])
 #define ERROR_sig(context)   ((context)->uc_mcontext.__gregs[_REG_ERR])
 #define MASK_sig(context)    ((context)->uc_sigmask)
+#define PAGE_FAULT_TRAP      T_PAGEFLT
 #elif defined(__FreeBSD__) || defined(__DragonFly__)
 #include <ucontext.h>
+#include <machine/trap.h>
 
 #define EIP_sig(context)  (*((unsigned long *)&(context)->uc_mcontext.mc_eip))
 #define TRAP_sig(context)    ((context)->uc_mcontext.mc_trapno)
 #define ERROR_sig(context)   ((context)->uc_mcontext.mc_err)
 #define MASK_sig(context)    ((context)->uc_sigmask)
+#define PAGE_FAULT_TRAP      T_PAGEFLT
 #elif defined(__OpenBSD__)
+#include <machine/trap.h>
 #define EIP_sig(context)     ((context)->sc_eip)
 #define TRAP_sig(context)    ((context)->sc_trapno)
 #define ERROR_sig(context)   ((context)->sc_err)
 #define MASK_sig(context)    ((context)->sc_mask)
+#define PAGE_FAULT_TRAP      T_PAGEFLT
 #else
 #define EIP_sig(context)     ((context)->uc_mcontext.gregs[REG_EIP])
 #define TRAP_sig(context)    ((context)->uc_mcontext.gregs[REG_TRAPNO])
 #define ERROR_sig(context)   ((context)->uc_mcontext.gregs[REG_ERR])
 #define MASK_sig(context)    ((context)->uc_sigmask)
+#define PAGE_FAULT_TRAP      0xe
 #endif
 
 int cpu_signal_handler(int host_signum, void *pinfo,
@@ -XXX,XX +XXX,XX @@ int cpu_signal_handler(int host_signum, void *pinfo,
     pc = EIP_sig(uc);
     trapno = TRAP_sig(uc);
     return handle_cpu_signal(pc, info,
-                             trapno == 0xe ? (ERROR_sig(uc) >> 1) & 1 : 0,
+                             trapno == PAGE_FAULT_TRAP ?
+                             (ERROR_sig(uc) >> 1) & 1 : 0,
                              &MASK_sig(uc));
 }
 
 #elif defined(__x86_64__)
 
 #ifdef __NetBSD__
+#include <machine/trap.h>
 #define PC_sig(context)       _UC_MACHINE_PC(context)
 #define TRAP_sig(context)     ((context)->uc_mcontext.__gregs[_REG_TRAPNO])
 #define ERROR_sig(context)    ((context)->uc_mcontext.__gregs[_REG_ERR])
 #define MASK_sig(context)     ((context)->uc_sigmask)
+#define PAGE_FAULT_TRAP       T_PAGEFLT
 #elif defined(__OpenBSD__)
+#include <machine/trap.h>
 #define PC_sig(context)       ((context)->sc_rip)
 #define TRAP_sig(context)     ((context)->sc_trapno)
 #define ERROR_sig(context)    ((context)->sc_err)
 #define MASK_sig(context)     ((context)->sc_mask)
+#define PAGE_FAULT_TRAP       T_PAGEFLT
 #elif defined(__FreeBSD__) || defined(__DragonFly__)
 #include <ucontext.h>
+#include <machine/trap.h>
 
 #define PC_sig(context)  (*((unsigned long *)&(context)->uc_mcontext.mc_rip))
 #define TRAP_sig(context)     ((context)->uc_mcontext.mc_trapno)
 #define ERROR_sig(context)    ((context)->uc_mcontext.mc_err)
 #define MASK_sig(context)     ((context)->uc_sigmask)
+#define PAGE_FAULT_TRAP       T_PAGEFLT
 #else
 #define PC_sig(context)       ((context)->uc_mcontext.gregs[REG_RIP])
 #define TRAP_sig(context)     ((context)->uc_mcontext.gregs[REG_TRAPNO])
 #define ERROR_sig(context)    ((context)->uc_mcontext.gregs[REG_ERR])
 #define MASK_sig(context)     ((context)->uc_sigmask)
+#define PAGE_FAULT_TRAP       0xe
 #endif
 
 int cpu_signal_handler(int host_signum, void *pinfo,
@@ -XXX,XX +XXX,XX @@ int cpu_signal_handler(int host_signum, void *pinfo,
 
     pc = PC_sig(uc);
     return handle_cpu_signal(pc, info,
-                             TRAP_sig(uc) == 0xe ? (ERROR_sig(uc) >> 1) & 1 : 0,
+                             TRAP_sig(uc) == PAGE_FAULT_TRAP ?
+                             (ERROR_sig(uc) >> 1) & 1 : 0,
                              &MASK_sig(uc));
 }
 
-- 
2.25.1

This will eventually simplify front-end usage, and will allow
backends to unset TCG_TARGET_HAS_MEMORY_BSWAP without loss of
optimization.

The argument is added during expansion, not currently exposed to the
front end translators.  The backends currently only support a flags
value of either TCG_BSWAP_IZ, or (TCG_BSWAP_IZ | TCG_BSWAP_OZ),
since they all require zero top bytes and leave them that way.
At the existing call sites we pass in (TCG_BSWAP_IZ | TCG_BSWAP_OZ),
except for the flags-ignored cases of a 32-bit swap of a 32-bit
value and or a 64-bit swap of a 64-bit value, where we pass 0.

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 include/tcg/tcg-opc.h | 10 +++++-----
 include/tcg/tcg.h     | 12 ++++++++++++
 tcg/tcg-op.c          | 13 ++++++++-----
 tcg/tcg.c             | 28 ++++++++++++++++++++++++++++
 tcg/README            | 22 ++++++++++++++--------
 5 files changed, 67 insertions(+), 18 deletions(-)

diff --git a/include/tcg/tcg-opc.h b/include/tcg/tcg-opc.h
index XXXXXXX..XXXXXXX 100644
--- a/include/tcg/tcg-opc.h
+++ b/include/tcg/tcg-opc.h
@@ -XXX,XX +XXX,XX @@ DEF(ext8s_i32, 1, 1, 0, IMPL(TCG_TARGET_HAS_ext8s_i32))
 DEF(ext16s_i32, 1, 1, 0, IMPL(TCG_TARGET_HAS_ext16s_i32))
 DEF(ext8u_i32, 1, 1, 0, IMPL(TCG_TARGET_HAS_ext8u_i32))
 DEF(ext16u_i32, 1, 1, 0, IMPL(TCG_TARGET_HAS_ext16u_i32))
-DEF(bswap16_i32, 1, 1, 0, IMPL(TCG_TARGET_HAS_bswap16_i32))
-DEF(bswap32_i32, 1, 1, 0, IMPL(TCG_TARGET_HAS_bswap32_i32))
+DEF(bswap16_i32, 1, 1, 1, IMPL(TCG_TARGET_HAS_bswap16_i32))
+DEF(bswap32_i32, 1, 1, 1, IMPL(TCG_TARGET_HAS_bswap32_i32))
 DEF(not_i32, 1, 1, 0, IMPL(TCG_TARGET_HAS_not_i32))
 DEF(neg_i32, 1, 1, 0, IMPL(TCG_TARGET_HAS_neg_i32))
 DEF(andc_i32, 1, 2, 0, IMPL(TCG_TARGET_HAS_andc_i32))
@@ -XXX,XX +XXX,XX @@ DEF(ext32s_i64, 1, 1, 0, IMPL64 | IMPL(TCG_TARGET_HAS_ext32s_i64))
 DEF(ext8u_i64, 1, 1, 0, IMPL64 | IMPL(TCG_TARGET_HAS_ext8u_i64))
 DEF(ext16u_i64, 1, 1, 0, IMPL64 | IMPL(TCG_TARGET_HAS_ext16u_i64))
 DEF(ext32u_i64, 1, 1, 0, IMPL64 | IMPL(TCG_TARGET_HAS_ext32u_i64))
-DEF(bswap16_i64, 1, 1, 0, IMPL64 | IMPL(TCG_TARGET_HAS_bswap16_i64))
-DEF(bswap32_i64, 1, 1, 0, IMPL64 | IMPL(TCG_TARGET_HAS_bswap32_i64))
-DEF(bswap64_i64, 1, 1, 0, IMPL64 | IMPL(TCG_TARGET_HAS_bswap64_i64))
+DEF(bswap16_i64, 1, 1, 1, IMPL64 | IMPL(TCG_TARGET_HAS_bswap16_i64))
+DEF(bswap32_i64, 1, 1, 1, IMPL64 | IMPL(TCG_TARGET_HAS_bswap32_i64))
+DEF(bswap64_i64, 1, 1, 1, IMPL64 | IMPL(TCG_TARGET_HAS_bswap64_i64))
 DEF(not_i64, 1, 1, 0, IMPL64 | IMPL(TCG_TARGET_HAS_not_i64))
 DEF(neg_i64, 1, 1, 0, IMPL64 | IMPL(TCG_TARGET_HAS_neg_i64))
 DEF(andc_i64, 1, 2, 0, IMPL64 | IMPL(TCG_TARGET_HAS_andc_i64))
diff --git a/include/tcg/tcg.h b/include/tcg/tcg.h
index XXXXXXX..XXXXXXX 100644
--- a/include/tcg/tcg.h
+++ b/include/tcg/tcg.h
@@ -XXX,XX +XXX,XX @@ typedef TCGv_ptr TCGv_env;
 /* Used to align parameters.  See the comment before tcgv_i32_temp.  */
 #define TCG_CALL_DUMMY_ARG      ((TCGArg)0)
 
+/*
+ * Flags for the bswap opcodes.
+ * If IZ, the input is zero-extended, otherwise unknown.
+ * If OZ or OS, the output is zero- or sign-extended respectively,
+ * otherwise the high bits are undefined.
+ */
+enum {
+    TCG_BSWAP_IZ = 1,
+    TCG_BSWAP_OZ = 2,
+    TCG_BSWAP_OS = 4,
+};
+
 typedef enum TCGTempVal {
     TEMP_VAL_DEAD,
     TEMP_VAL_REG,
diff --git a/tcg/tcg-op.c b/tcg/tcg-op.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/tcg-op.c
+++ b/tcg/tcg-op.c
@@ -XXX,XX +XXX,XX @@ void tcg_gen_ext16u_i32(TCGv_i32 ret, TCGv_i32 arg)
 void tcg_gen_bswap16_i32(TCGv_i32 ret, TCGv_i32 arg)
 {
     if (TCG_TARGET_HAS_bswap16_i32) {
-        tcg_gen_op2_i32(INDEX_op_bswap16_i32, ret, arg);
+        tcg_gen_op3i_i32(INDEX_op_bswap16_i32, ret, arg,
+                         TCG_BSWAP_IZ | TCG_BSWAP_OZ);
     } else {
         TCGv_i32 t0 = tcg_temp_new_i32();
 
@@ -XXX,XX +XXX,XX @@ void tcg_gen_bswap16_i32(TCGv_i32 ret, TCGv_i32 arg)
 void tcg_gen_bswap32_i32(TCGv_i32 ret, TCGv_i32 arg)
 {
     if (TCG_TARGET_HAS_bswap32_i32) {
-        tcg_gen_op2_i32(INDEX_op_bswap32_i32, ret, arg);
+        tcg_gen_op3i_i32(INDEX_op_bswap32_i32, ret, arg, 0);
     } else {
         TCGv_i32 t0 = tcg_temp_new_i32();
         TCGv_i32 t1 = tcg_temp_new_i32();
@@ -XXX,XX +XXX,XX @@ void tcg_gen_bswap16_i64(TCGv_i64 ret, TCGv_i64 arg)
         tcg_gen_bswap16_i32(TCGV_LOW(ret), TCGV_LOW(arg));
         tcg_gen_movi_i32(TCGV_HIGH(ret), 0);
     } else if (TCG_TARGET_HAS_bswap16_i64) {
-        tcg_gen_op2_i64(INDEX_op_bswap16_i64, ret, arg);
+        tcg_gen_op3i_i64(INDEX_op_bswap16_i64, ret, arg,
+                         TCG_BSWAP_IZ | TCG_BSWAP_OZ);
     } else {
         TCGv_i64 t0 = tcg_temp_new_i64();
 
@@ -XXX,XX +XXX,XX @@ void tcg_gen_bswap32_i64(TCGv_i64 ret, TCGv_i64 arg)
         tcg_gen_bswap32_i32(TCGV_LOW(ret), TCGV_LOW(arg));
         tcg_gen_movi_i32(TCGV_HIGH(ret), 0);
     } else if (TCG_TARGET_HAS_bswap32_i64) {
-        tcg_gen_op2_i64(INDEX_op_bswap32_i64, ret, arg);
+        tcg_gen_op3i_i64(INDEX_op_bswap32_i64, ret, arg,
+                         TCG_BSWAP_IZ | TCG_BSWAP_OZ);
     } else {
         TCGv_i64 t0 = tcg_temp_new_i64();
         TCGv_i64 t1 = tcg_temp_new_i64();
@@ -XXX,XX +XXX,XX @@ void tcg_gen_bswap64_i64(TCGv_i64 ret, TCGv_i64 arg)
         tcg_temp_free_i32(t0);
         tcg_temp_free_i32(t1);
     } else if (TCG_TARGET_HAS_bswap64_i64) {
-        tcg_gen_op2_i64(INDEX_op_bswap64_i64, ret, arg);
+        tcg_gen_op3i_i64(INDEX_op_bswap64_i64, ret, arg, 0);
     } else {
         TCGv_i64 t0 = tcg_temp_new_i64();
         TCGv_i64 t1 = tcg_temp_new_i64();
diff --git a/tcg/tcg.c b/tcg/tcg.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/tcg.c
+++ b/tcg/tcg.c
@@ -XXX,XX +XXX,XX @@ static const char * const alignment_name[(MO_AMASK >> MO_ASHIFT) + 1] = {
     [MO_ALIGN_64 >> MO_ASHIFT] = "al64+",
 };
 
+static const char bswap_flag_name[][6] = {
+    [TCG_BSWAP_IZ] = "iz",
+    [TCG_BSWAP_OZ] = "oz",
+    [TCG_BSWAP_OS] = "os",
+    [TCG_BSWAP_IZ | TCG_BSWAP_OZ] = "iz,oz",
+    [TCG_BSWAP_IZ | TCG_BSWAP_OS] = "iz,os",
+};
+
 static inline bool tcg_regset_single(TCGRegSet d)
 {
     return (d & (d - 1)) == 0;
@@ -XXX,XX +XXX,XX @@ static void tcg_dump_ops(TCGContext *s, bool have_prefs)
                     i = 1;
                 }
                 break;
+            case INDEX_op_bswap16_i32:
+            case INDEX_op_bswap16_i64:
+            case INDEX_op_bswap32_i32:
+            case INDEX_op_bswap32_i64:
+            case INDEX_op_bswap64_i64:
+                {
+                    TCGArg flags = op->args[k];
+                    const char *name = NULL;
+
+                    if (flags < ARRAY_SIZE(bswap_flag_name)) {
+                        name = bswap_flag_name[flags];
+                    }
+                    if (name) {
+                        col += qemu_log(",%s", name);
+                    } else {
+                        col += qemu_log(",$0x%" TCG_PRIlx, flags);
+                    }
+                    i = k = 1;
+                }
+                break;
             default:
                 i = 0;
                 break;
diff --git a/tcg/README b/tcg/README
index XXXXXXX..XXXXXXX 100644
--- a/tcg/README
+++ b/tcg/README
@@ -XXX,XX +XXX,XX @@ ext32u_i64 t0, t1
 
 8, 16 or 32 bit sign/zero extension (both operands must have the same type)
 
-* bswap16_i32/i64 t0, t1
+* bswap16_i32/i64 t0, t1, flags
 
-16 bit byte swap on a 32/64 bit value. It assumes that the two/six high order
-bytes are set to zero.
+16 bit byte swap on the low bits of a 32/64 bit input.
+If flags & TCG_BSWAP_IZ, then t1 is known to be zero-extended from bit 15.
+If flags & TCG_BSWAP_OZ, then t0 will be zero-extended from bit 15.
+If flags & TCG_BSWAP_OS, then t0 will be sign-extended from bit 15.
+If neither TCG_BSWAP_OZ nor TCG_BSWAP_OS are set, then the bits of
+t0 above bit 15 may contain any value.
 
-* bswap32_i32/i64 t0, t1
+* bswap32_i64 t0, t1, flags
 
-32 bit byte swap on a 32/64 bit value. With a 64 bit value, it assumes that
-the four high order bytes are set to zero.
+32 bit byte swap on a 64-bit value.  The flags are the same as for bswap16,
+except they apply from bit 31 instead of bit 15.
 
-* bswap64_i64 t0, t1
+* bswap32_i32 t0, t1, flags
+* bswap64_i64 t0, t1, flags
 
-64 bit byte swap
+32/64 bit byte swap.  The flags are ignored, but still present
+for consistency with the other bswap opcodes.
 
 * discard_i32/i64 t0
 
-- 
2.25.1

Retain the current rorw bswap16 expansion for the zero-in/zero-out case.
Otherwise, perform a wider bswap plus a right-shift or extend.

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/i386/tcg-target.c.inc | 20 +++++++++++++++++++-
 1 file changed, 19 insertions(+), 1 deletion(-)

diff --git a/tcg/i386/tcg-target.c.inc b/tcg/i386/tcg-target.c.inc
index XXXXXXX..XXXXXXX 100644
--- a/tcg/i386/tcg-target.c.inc
+++ b/tcg/i386/tcg-target.c.inc
@@ -XXX,XX +XXX,XX @@ static inline void tcg_out_op(TCGContext *s, TCGOpcode opc,
         break;
 
     OP_32_64(bswap16):
-        tcg_out_rolw_8(s, a0);
+        if (a2 & TCG_BSWAP_OS) {
+            /* Output must be sign-extended. */
+            if (rexw) {
+                tcg_out_bswap64(s, a0);
+                tcg_out_shifti(s, SHIFT_SAR + rexw, a0, 48);
+            } else {
+                tcg_out_bswap32(s, a0);
+                tcg_out_shifti(s, SHIFT_SAR, a0, 16);
+            }
+        } else if ((a2 & (TCG_BSWAP_IZ | TCG_BSWAP_OZ)) == TCG_BSWAP_OZ) {
+            /* Output must be zero-extended, but input isn't. */
+            tcg_out_bswap32(s, a0);
+            tcg_out_shifti(s, SHIFT_SHR, a0, 16);
+        } else {
+            tcg_out_rolw_8(s, a0);
+        }
         break;
     OP_32_64(bswap32):
         tcg_out_bswap32(s, a0);
+        if (rexw && (a2 & TCG_BSWAP_OS)) {
+            tcg_out_ext32s(s, a0, a0);
+        }
         break;
 
     OP_32_64(neg):
-- 
2.25.1

Pass in the input and output size.  We currently use 3 of the 5
possible combinations; the others may be used by new tcg opcodes.

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/aarch64/tcg-target.c.inc | 42 ++++++++++++++----------------------
 1 file changed, 16 insertions(+), 26 deletions(-)

diff --git a/tcg/aarch64/tcg-target.c.inc b/tcg/aarch64/tcg-target.c.inc
index XXXXXXX..XXXXXXX 100644
--- a/tcg/aarch64/tcg-target.c.inc
+++ b/tcg/aarch64/tcg-target.c.inc
@@ -XXX,XX +XXX,XX @@ typedef enum {
     /* Data-processing (1 source) instructions.  */
     I3507_CLZ       = 0x5ac01000,
     I3507_RBIT      = 0x5ac00000,
-    I3507_REV16     = 0x5ac00400,
-    I3507_REV32     = 0x5ac00800,
-    I3507_REV64     = 0x5ac00c00,
+    I3507_REV       = 0x5ac00000, /* + size << 10 */
 
     /* Data-processing (2 source) instructions.  */
     I3508_LSLV      = 0x1ac02000,
@@ -XXX,XX +XXX,XX @@ static void tcg_out_brcond(TCGContext *s, TCGType ext, TCGCond c, TCGArg a,
     }
 }
 
-static inline void tcg_out_rev64(TCGContext *s, TCGReg rd, TCGReg rn)
+static inline void tcg_out_rev(TCGContext *s, int ext, MemOp s_bits,
+                               TCGReg rd, TCGReg rn)
 {
-    tcg_out_insn(s, 3507, REV64, TCG_TYPE_I64, rd, rn);
-}
-
-static inline void tcg_out_rev32(TCGContext *s, TCGReg rd, TCGReg rn)
-{
-    tcg_out_insn(s, 3507, REV32, TCG_TYPE_I32, rd, rn);
-}
-
-static inline void tcg_out_rev16(TCGContext *s, TCGReg rd, TCGReg rn)
-{
-    tcg_out_insn(s, 3507, REV16, TCG_TYPE_I32, rd, rn);
+    /* REV, REV16, REV32 */
+    tcg_out_insn_3507(s, I3507_REV | (s_bits << 10), ext, rd, rn);
 }
 
 static inline void tcg_out_sxt(TCGContext *s, TCGType ext, MemOp s_bits,
@@ -XXX,XX +XXX,XX @@ static void tcg_out_qemu_ld_direct(TCGContext *s, MemOp memop, TCGType ext,
     case MO_UW:
         tcg_out_ldst_r(s, I3312_LDRH, data_r, addr_r, otype, off_r);
         if (bswap) {
-            tcg_out_rev16(s, data_r, data_r);
+            tcg_out_rev(s, TCG_TYPE_I32, MO_16, data_r, data_r);
         }
         break;
     case MO_SW:
         if (bswap) {
             tcg_out_ldst_r(s, I3312_LDRH, data_r, addr_r, otype, off_r);
-            tcg_out_rev16(s, data_r, data_r);
+            tcg_out_rev(s, TCG_TYPE_I32, MO_16, data_r, data_r);
             tcg_out_sxt(s, ext, MO_16, data_r, data_r);
         } else {
             tcg_out_ldst_r(s, (ext ? I3312_LDRSHX : I3312_LDRSHW),
@@ -XXX,XX +XXX,XX @@ static void tcg_out_qemu_ld_direct(TCGContext *s, MemOp memop, TCGType ext,
     case MO_UL:
         tcg_out_ldst_r(s, I3312_LDRW, data_r, addr_r, otype, off_r);
         if (bswap) {
-            tcg_out_rev32(s, data_r, data_r);
+            tcg_out_rev(s, TCG_TYPE_I32, MO_32, data_r, data_r);
         }
         break;
     case MO_SL:
         if (bswap) {
             tcg_out_ldst_r(s, I3312_LDRW, data_r, addr_r, otype, off_r);
-            tcg_out_rev32(s, data_r, data_r);
+            tcg_out_rev(s, TCG_TYPE_I32, MO_32, data_r, data_r);
             tcg_out_sxt(s, TCG_TYPE_I64, MO_32, data_r, data_r);
         } else {
             tcg_out_ldst_r(s, I3312_LDRSWX, data_r, addr_r, otype, off_r);
@@ -XXX,XX +XXX,XX @@ static void tcg_out_qemu_ld_direct(TCGContext *s, MemOp memop, TCGType ext,
     case MO_Q:
         tcg_out_ldst_r(s, I3312_LDRX, data_r, addr_r, otype, off_r);
         if (bswap) {
-            tcg_out_rev64(s, data_r, data_r);
+            tcg_out_rev(s, TCG_TYPE_I64, MO_64, data_r, data_r);
         }
         break;
     default:
@@ -XXX,XX +XXX,XX @@ static void tcg_out_qemu_st_direct(TCGContext *s, MemOp memop,
         break;
     case MO_16:
         if (bswap && data_r != TCG_REG_XZR) {
-            tcg_out_rev16(s, TCG_REG_TMP, data_r);
+            tcg_out_rev(s, TCG_TYPE_I32, MO_16, TCG_REG_TMP, data_r);
             data_r = TCG_REG_TMP;
         }
         tcg_out_ldst_r(s, I3312_STRH, data_r, addr_r, otype, off_r);
         break;
     case MO_32:
         if (bswap && data_r != TCG_REG_XZR) {
-            tcg_out_rev32(s, TCG_REG_TMP, data_r);
+            tcg_out_rev(s, TCG_TYPE_I32, MO_32, TCG_REG_TMP, data_r);
             data_r = TCG_REG_TMP;
         }
         tcg_out_ldst_r(s, I3312_STRW, data_r, addr_r, otype, off_r);
         break;
     case MO_64:
         if (bswap && data_r != TCG_REG_XZR) {
-            tcg_out_rev64(s, TCG_REG_TMP, data_r);
+            tcg_out_rev(s, TCG_TYPE_I64, MO_64, TCG_REG_TMP, data_r);
             data_r = TCG_REG_TMP;
         }
         tcg_out_ldst_r(s, I3312_STRX, data_r, addr_r, otype, off_r);
@@ -XXX,XX +XXX,XX @@ static void tcg_out_op(TCGContext *s, TCGOpcode opc,
         break;
 
     case INDEX_op_bswap64_i64:
-        tcg_out_rev64(s, a0, a1);
+        tcg_out_rev(s, TCG_TYPE_I64, MO_64, a0, a1);
         break;
     case INDEX_op_bswap32_i64:
     case INDEX_op_bswap32_i32:
-        tcg_out_rev32(s, a0, a1);
+        tcg_out_rev(s, TCG_TYPE_I32, MO_32, a0, a1);
         break;
     case INDEX_op_bswap16_i64:
     case INDEX_op_bswap16_i32:
-        tcg_out_rev16(s, a0, a1);
+        tcg_out_rev(s, TCG_TYPE_I32, MO_16, a0, a1);
         break;
 
     case INDEX_op_ext8s_i64:
-- 
2.25.1

Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/aarch64/tcg-target.c.inc | 12 ++++++++++++
 1 file changed, 12 insertions(+)

diff --git a/tcg/aarch64/tcg-target.c.inc b/tcg/aarch64/tcg-target.c.inc
index XXXXXXX..XXXXXXX 100644
--- a/tcg/aarch64/tcg-target.c.inc
+++ b/tcg/aarch64/tcg-target.c.inc
@@ -XXX,XX +XXX,XX @@ static void tcg_out_op(TCGContext *s, TCGOpcode opc,
         tcg_out_rev(s, TCG_TYPE_I64, MO_64, a0, a1);
         break;
     case INDEX_op_bswap32_i64:
+        tcg_out_rev(s, TCG_TYPE_I32, MO_32, a0, a1);
+        if (a2 & TCG_BSWAP_OS) {
+            tcg_out_sxt(s, TCG_TYPE_I64, MO_32, a0, a0);
+        }
+        break;
     case INDEX_op_bswap32_i32:
         tcg_out_rev(s, TCG_TYPE_I32, MO_32, a0, a1);
         break;
     case INDEX_op_bswap16_i64:
     case INDEX_op_bswap16_i32:
         tcg_out_rev(s, TCG_TYPE_I32, MO_16, a0, a1);
+        if (a2 & TCG_BSWAP_OS) {
+            /* Output must be sign-extended. */
+            tcg_out_sxt(s, ext, MO_16, a0, a0);
+        } else if ((a2 & (TCG_BSWAP_IZ | TCG_BSWAP_OZ)) == TCG_BSWAP_OZ) {
+            /* Output must be zero-extended, but input isn't. */
+            tcg_out_uxt(s, MO_16, a0, a0);
+        }
         break;
 
     case INDEX_op_ext8s_i64:
-- 
2.25.1

Combine the three bswap16 routines, and differentiate via the flags.
Use the correct flags combination from the load/store routines, and
pass along the constant parameter from tcg_out_op.

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/arm/tcg-target.c.inc | 101 ++++++++++++++++++++++++---------------
 1 file changed, 63 insertions(+), 38 deletions(-)

diff --git a/tcg/arm/tcg-target.c.inc b/tcg/arm/tcg-target.c.inc
index XXXXXXX..XXXXXXX 100644
--- a/tcg/arm/tcg-target.c.inc
+++ b/tcg/arm/tcg-target.c.inc
@@ -XXX,XX +XXX,XX @@ static inline void tcg_out_ext16u(TCGContext *s, int cond,
     }
 }
 
-static inline void tcg_out_bswap16s(TCGContext *s, int cond, int rd, int rn)
+static void tcg_out_bswap16(TCGContext *s, int cond, int rd, int rn, int flags)
 {
     if (use_armv6_instructions) {
-        /* revsh */
-        tcg_out32(s, 0x06ff0fb0 | (cond << 28) | (rd << 12) | rn);
-    } else {
-        tcg_out_dat_reg(s, cond, ARITH_MOV,
-                        TCG_REG_TMP, 0, rn, SHIFT_IMM_LSL(24));
-        tcg_out_dat_reg(s, cond, ARITH_MOV,
-                        TCG_REG_TMP, 0, TCG_REG_TMP, SHIFT_IMM_ASR(16));
-        tcg_out_dat_reg(s, cond, ARITH_ORR,
-                        rd, TCG_REG_TMP, rn, SHIFT_IMM_LSR(8));
-    }
-}
+        if (flags & TCG_BSWAP_OS) {
+            /* revsh */
+            tcg_out32(s, 0x06ff0fb0 | (cond << 28) | (rd << 12) | rn);
+            return;
+        }
 
-static inline void tcg_out_bswap16(TCGContext *s, int cond, int rd, int rn)
-{
-    if (use_armv6_instructions) {
         /* rev16 */
         tcg_out32(s, 0x06bf0fb0 | (cond << 28) | (rd << 12) | rn);
-    } else {
-        tcg_out_dat_reg(s, cond, ARITH_MOV,
-                        TCG_REG_TMP, 0, rn, SHIFT_IMM_LSL(24));
-        tcg_out_dat_reg(s, cond, ARITH_MOV,
-                        TCG_REG_TMP, 0, TCG_REG_TMP, SHIFT_IMM_LSR(16));
-        tcg_out_dat_reg(s, cond, ARITH_ORR,
-                        rd, TCG_REG_TMP, rn, SHIFT_IMM_LSR(8));
+        if ((flags & (TCG_BSWAP_IZ | TCG_BSWAP_OZ)) == TCG_BSWAP_OZ) {
+            /* uxth */
+            tcg_out32(s, 0x06ff0070 | (cond << 28) | (rd << 12) | rd);
+        }
+        return;
     }
-}
 
-/* swap the two low bytes assuming that the two high input bytes and the
-   two high output bit can hold any value. */
-static inline void tcg_out_bswap16st(TCGContext *s, int cond, int rd, int rn)
-{
-    if (use_armv6_instructions) {
-        /* rev16 */
-        tcg_out32(s, 0x06bf0fb0 | (cond << 28) | (rd << 12) | rn);
-    } else {
+    if (flags == 0) {
+        /*
+         * For stores, no input or output extension:
+         *                              rn  = xxAB
+         * lsr tmp, rn, #8              tmp = 0xxA
+         * and tmp, tmp, #0xff          tmp = 000A
+         * orr rd, tmp, rn, lsl #8      rd  = xABA
+         */
         tcg_out_dat_reg(s, cond, ARITH_MOV,
                         TCG_REG_TMP, 0, rn, SHIFT_IMM_LSR(8));
         tcg_out_dat_imm(s, cond, ARITH_AND, TCG_REG_TMP, TCG_REG_TMP, 0xff);
         tcg_out_dat_reg(s, cond, ARITH_ORR,
                         rd, TCG_REG_TMP, rn, SHIFT_IMM_LSL(8));
+        return;
     }
+
+    /*
+     * Byte swap, leaving the result at the top of the register.
+     * We will then shift down, zero or sign-extending.
+     */
+    if (flags & TCG_BSWAP_IZ) {
+        /*
+         *                              rn  = 00AB
+         * ror tmp, rn, #8              tmp = B00A
+         * orr tmp, tmp, tmp, lsl #16   tmp = BA00
+         */
+        tcg_out_dat_reg(s, cond, ARITH_MOV,
+                        TCG_REG_TMP, 0, rn, SHIFT_IMM_ROR(8));
+        tcg_out_dat_reg(s, cond, ARITH_ORR,
+                        TCG_REG_TMP, TCG_REG_TMP, TCG_REG_TMP,
+                        SHIFT_IMM_LSL(16));
+    } else {
+        /*
+         *                              rn  = xxAB
+         * and tmp, rn, #0xff00         tmp = 00A0
+         * lsl tmp, tmp, #8             tmp = 0A00
+         * orr tmp, tmp, rn, lsl #24    tmp = BA00
+         */
+        tcg_out_dat_rI(s, cond, ARITH_AND, TCG_REG_TMP, rn, 0xff00, 1);
+        tcg_out_dat_reg(s, cond, ARITH_MOV,
+                        TCG_REG_TMP, 0, TCG_REG_TMP, SHIFT_IMM_LSL(8));
+        tcg_out_dat_reg(s, cond, ARITH_ORR,
+                        TCG_REG_TMP, TCG_REG_TMP, rn, SHIFT_IMM_LSL(24));
+    }
+    tcg_out_dat_reg(s, cond, ARITH_MOV, rd, 0, TCG_REG_TMP,
+                    (flags & TCG_BSWAP_OS
+                     ? SHIFT_IMM_ASR(8) : SHIFT_IMM_LSR(8)));
 }
 
 static inline void tcg_out_bswap32(TCGContext *s, int cond, int rd, int rn)
@@ -XXX,XX +XXX,XX @@ static inline void tcg_out_qemu_ld_index(TCGContext *s, MemOp opc,
     case MO_UW:
         tcg_out_ld16u_r(s, COND_AL, datalo, addrlo, addend);
         if (bswap) {
-            tcg_out_bswap16(s, COND_AL, datalo, datalo);
+            tcg_out_bswap16(s, COND_AL, datalo, datalo,
+                            TCG_BSWAP_IZ | TCG_BSWAP_OZ);
         }
         break;
     case MO_SW:
         if (bswap) {
             tcg_out_ld16u_r(s, COND_AL, datalo, addrlo, addend);
-            tcg_out_bswap16s(s, COND_AL, datalo, datalo);
+            tcg_out_bswap16(s, COND_AL, datalo, datalo,
+                            TCG_BSWAP_IZ | TCG_BSWAP_OS);
         } else {
             tcg_out_ld16s_r(s, COND_AL, datalo, addrlo, addend);
         }
@@ -XXX,XX +XXX,XX @@ static inline void tcg_out_qemu_ld_direct(TCGContext *s, MemOp opc,
     case MO_UW:
         tcg_out_ld16u_8(s, COND_AL, datalo, addrlo, 0);
         if (bswap) {
-            tcg_out_bswap16(s, COND_AL, datalo, datalo);
+            tcg_out_bswap16(s, COND_AL, datalo, datalo,
+                            TCG_BSWAP_IZ | TCG_BSWAP_OZ);
         }
         break;
     case MO_SW:
         if (bswap) {
             tcg_out_ld16u_8(s, COND_AL, datalo, addrlo, 0);
-            tcg_out_bswap16s(s, COND_AL, datalo, datalo);
+            tcg_out_bswap16(s, COND_AL, datalo, datalo,
+                            TCG_BSWAP_IZ | TCG_BSWAP_OS);
         } else {
             tcg_out_ld16s_8(s, COND_AL, datalo, addrlo, 0);
         }
@@ -XXX,XX +XXX,XX @@ static inline void tcg_out_qemu_st_index(TCGContext *s, int cond, MemOp opc,
         break;
     case MO_16:
         if (bswap) {
-            tcg_out_bswap16st(s, cond, TCG_REG_R0, datalo);
+            tcg_out_bswap16(s, cond, TCG_REG_R0, datalo, 0);
             tcg_out_st16_r(s, cond, TCG_REG_R0, addrlo, addend);
         } else {
             tcg_out_st16_r(s, cond, datalo, addrlo, addend);
@@ -XXX,XX +XXX,XX @@ static inline void tcg_out_qemu_st_direct(TCGContext *s, MemOp opc,
         break;
     case MO_16:
         if (bswap) {
-            tcg_out_bswap16st(s, COND_AL, TCG_REG_R0, datalo);
+            tcg_out_bswap16(s, COND_AL, TCG_REG_R0, datalo, 0);
             tcg_out_st16_8(s, COND_AL, TCG_REG_R0, addrlo, 0);
         } else {
             tcg_out_st16_8(s, COND_AL, datalo, addrlo, 0);
@@ -XXX,XX +XXX,XX @@ static inline void tcg_out_op(TCGContext *s, TCGOpcode opc,
         break;
 
     case INDEX_op_bswap16_i32:
-        tcg_out_bswap16(s, COND_AL, args[0], args[1]);
+        tcg_out_bswap16(s, COND_AL, args[0], args[1], args[2]);
         break;
     case INDEX_op_bswap32_i32:
         tcg_out_bswap32(s, COND_AL, args[0], args[1]);
-- 
2.25.1

We will shortly require these in other context;
make the expansion as clear as possible.

Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/ppc/tcg-target.c.inc | 31 +++++++++++++++++++++----------
 1 file changed, 21 insertions(+), 10 deletions(-)

diff --git a/tcg/ppc/tcg-target.c.inc b/tcg/ppc/tcg-target.c.inc
index XXXXXXX..XXXXXXX 100644
--- a/tcg/ppc/tcg-target.c.inc
+++ b/tcg/ppc/tcg-target.c.inc
@@ -XXX,XX +XXX,XX @@ static inline void tcg_out_rlw(TCGContext *s, int op, TCGReg ra, TCGReg rs,
     tcg_out32(s, op | RA(ra) | RS(rs) | SH(sh) | MB(mb) | ME(me));
 }
 
+static inline void tcg_out_ext8s(TCGContext *s, TCGReg dst, TCGReg src)
+{
+    tcg_out32(s, EXTSB | RA(dst) | RS(src));
+}
+
+static inline void tcg_out_ext16s(TCGContext *s, TCGReg dst, TCGReg src)
+{
+    tcg_out32(s, EXTSH | RA(dst) | RS(src));
+}
+
+static inline void tcg_out_ext32s(TCGContext *s, TCGReg dst, TCGReg src)
+{
+    tcg_out32(s, EXTSW | RA(dst) | RS(src));
+}
+
 static inline void tcg_out_ext32u(TCGContext *s, TCGReg dst, TCGReg src)
 {
     tcg_out_rld(s, RLDICL, dst, src, 0, 32);
@@ -XXX,XX +XXX,XX @@ static void tcg_out_op(TCGContext *s, TCGOpcode opc,
                        const int const_args[TCG_MAX_OP_ARGS])
 {
     TCGArg a0, a1, a2;
-    int c;
 
     switch (opc) {
     case INDEX_op_exit_tb:
@@ -XXX,XX +XXX,XX @@ static void tcg_out_op(TCGContext *s, TCGOpcode opc,
     case INDEX_op_ld8s_i32:
     case INDEX_op_ld8s_i64:
         tcg_out_mem_long(s, LBZ, LBZX, args[0], args[1], args[2]);
-        tcg_out32(s, EXTSB | RS(args[0]) | RA(args[0]));
+        tcg_out_ext8s(s, args[0], args[0]);
         break;
     case INDEX_op_ld16u_i32:
     case INDEX_op_ld16u_i64:
@@ -XXX,XX +XXX,XX @@ static void tcg_out_op(TCGContext *s, TCGOpcode opc,
 
     case INDEX_op_ext8s_i32:
     case INDEX_op_ext8s_i64:
-        c = EXTSB;
-        goto gen_ext;
+        tcg_out_ext8s(s, args[0], args[1]);
+        break;
     case INDEX_op_ext16s_i32:
     case INDEX_op_ext16s_i64:
-        c = EXTSH;
-        goto gen_ext;
+        tcg_out_ext16s(s, args[0], args[1]);
+        break;
     case INDEX_op_ext_i32_i64:
     case INDEX_op_ext32s_i64:
-        c = EXTSW;
-        goto gen_ext;
-    gen_ext:
-        tcg_out32(s, c | RS(args[1]) | RA(args[0]));
+        tcg_out_ext32s(s, args[0], args[1]);
         break;
     case INDEX_op_extu_i32_i64:
         tcg_out_ext32u(s, args[0], args[1]);
-- 
2.25.1

We will shortly require sari in other context;
split out both for cleanliness sake.

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/ppc/tcg-target.c.inc | 17 +++++++++++++----
 1 file changed, 13 insertions(+), 4 deletions(-)

With the use of a suitable temporary, we can use the same
algorithm when src overlaps dst.  The result is the same
number of instructions either way.

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/ppc/tcg-target.c.inc | 34 +++++++++++++++++++---------------
 1 file changed, 19 insertions(+), 15 deletions(-)

diff --git a/tcg/ppc/tcg-target.c.inc b/tcg/ppc/tcg-target.c.inc
index XXXXXXX..XXXXXXX 100644
--- a/tcg/ppc/tcg-target.c.inc
+++ b/tcg/ppc/tcg-target.c.inc
@@ -XXX,XX +XXX,XX @@ static inline void tcg_out_sari64(TCGContext *s, TCGReg dst, TCGReg src, int c)
     tcg_out32(s, SRADI | RA(dst) | RS(src) | SH(c & 0x1f) | ((c >> 4) & 2));
 }
 
+static void tcg_out_bswap16(TCGContext *s, TCGReg dst, TCGReg src)
+{
+    TCGReg tmp = dst == src ? TCG_REG_R0 : dst;
+
+    /*
+     * In the following,
+     *   dep(a, b, m) -> (a & ~m) | (b & m)
+     *
+     * Begin with:                              src = xxxxabcd
+     */
+    /* tmp = rol32(src, 24) & 0x000000ff            = 0000000c */
+    tcg_out_rlw(s, RLWINM, tmp, src, 24, 24, 31);
+    /* tmp = dep(tmp, rol32(src, 8), 0x0000ff00)    = 000000dc */
+    tcg_out_rlw(s, RLWIMI, tmp, src, 8, 16, 23);
+
+    tcg_out_mov(s, TCG_TYPE_REG, dst, tmp);
+}
+
 /* Emit a move into ret of arg, if it can be done in one insn.  */
 static bool tcg_out_movi_one(TCGContext *s, TCGReg ret, tcg_target_long arg)
 {
@@ -XXX,XX +XXX,XX @@ static void tcg_out_op(TCGContext *s, TCGOpcode opc,
 
     case INDEX_op_bswap16_i32:
     case INDEX_op_bswap16_i64:
-        a0 = args[0], a1 = args[1];
-        /* a1 = abcd */
-        if (a0 != a1) {
-            /* a0 = (a1 r<< 24) & 0xff # 000c */
-            tcg_out_rlw(s, RLWINM, a0, a1, 24, 24, 31);
-            /* a0 = (a0 & ~0xff00) | (a1 r<< 8) & 0xff00 # 00dc */
-            tcg_out_rlw(s, RLWIMI, a0, a1, 8, 16, 23);
-        } else {
-            /* r0 = (a1 r<< 8) & 0xff00 # 00d0 */
-            tcg_out_rlw(s, RLWINM, TCG_REG_R0, a1, 8, 16, 23);
-            /* a0 = (a1 r<< 24) & 0xff # 000c */
-            tcg_out_rlw(s, RLWINM, a0, a1, 24, 24, 31);
-            /* a0 = a0 | r0 # 00dc */
-            tcg_out32(s, OR | SAB(TCG_REG_R0, a0, a0));
-        }
+        tcg_out_bswap16(s, args[0], args[1]);
         break;
 
     case INDEX_op_bswap32_i32:
-- 
2.25.1

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/ppc/tcg-target.c.inc | 38 ++++++++++++++++++++++----------------
 1 file changed, 22 insertions(+), 16 deletions(-)

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/ppc/tcg-target.c.inc | 64 +++++++++++++++++++++-------------------
 1 file changed, 34 insertions(+), 30 deletions(-)

diff --git a/tcg/ppc/tcg-target.c.inc b/tcg/ppc/tcg-target.c.inc
index XXXXXXX..XXXXXXX 100644
--- a/tcg/ppc/tcg-target.c.inc
+++ b/tcg/ppc/tcg-target.c.inc
@@ -XXX,XX +XXX,XX @@ static void tcg_out_bswap32(TCGContext *s, TCGReg dst, TCGReg src)
     tcg_out_mov(s, TCG_TYPE_REG, dst, tmp);
 }
 
+static void tcg_out_bswap64(TCGContext *s, TCGReg dst, TCGReg src)
+{
+    TCGReg t0 = dst == src ? TCG_REG_R0 : dst;
+    TCGReg t1 = dst == src ? dst : TCG_REG_R0;
+
+    /*
+     * In the following,
+     *   dep(a, b, m) -> (a & ~m) | (b & m)
+     *
+     * Begin with:                              src = abcdefgh
+     */
+    /* t0 = rol32(src, 8) & 0xffffffff              = 0000fghe */
+    tcg_out_rlw(s, RLWINM, t0, src, 8, 0, 31);
+    /* t0 = dep(t0, rol32(src, 24), 0xff000000)     = 0000hghe */
+    tcg_out_rlw(s, RLWIMI, t0, src, 24, 0, 7);
+    /* t0 = dep(t0, rol32(src, 24), 0x0000ff00)     = 0000hgfe */
+    tcg_out_rlw(s, RLWIMI, t0, src, 24, 16, 23);
+
+    /* t0 = rol64(t0, 32)                           = hgfe0000 */
+    tcg_out_rld(s, RLDICL, t0, t0, 32, 0);
+    /* t1 = rol64(src, 32)                          = efghabcd */
+    tcg_out_rld(s, RLDICL, t1, src, 32, 0);
+
+    /* t0 = dep(t0, rol32(t1, 24), 0xffffffff)      = hgfebcda */
+    tcg_out_rlw(s, RLWIMI, t0, t1, 8, 0, 31);
+    /* t0 = dep(t0, rol32(t1, 24), 0xff000000)      = hgfedcda */
+    tcg_out_rlw(s, RLWIMI, t0, t1, 24, 0, 7);
+    /* t0 = dep(t0, rol32(t1, 24), 0x0000ff00)      = hgfedcba */
+    tcg_out_rlw(s, RLWIMI, t0, t1, 24, 16, 23);
+
+    tcg_out_mov(s, TCG_TYPE_REG, dst, t0);
+}
+
 /* Emit a move into ret of arg, if it can be done in one insn.  */
 static bool tcg_out_movi_one(TCGContext *s, TCGReg ret, tcg_target_long arg)
 {
@@ -XXX,XX +XXX,XX @@ static void tcg_out_op(TCGContext *s, TCGOpcode opc,
     case INDEX_op_bswap32_i64:
         tcg_out_bswap32(s, args[0], args[1]);
         break;
-
     case INDEX_op_bswap64_i64:
-        a0 = args[0], a1 = args[1], a2 = TCG_REG_R0;
-        if (a0 == a1) {
-            a0 = TCG_REG_R0;
-            a2 = a1;
-        }
-
-        /* a1 = # abcd efgh */
-        /* a0 = rl32(a1, 8) # 0000 fghe */
-        tcg_out_rlw(s, RLWINM, a0, a1, 8, 0, 31);
-        /* a0 = dep(a0, rl32(a1, 24), 0xff000000) # 0000 hghe */
-        tcg_out_rlw(s, RLWIMI, a0, a1, 24, 0, 7);
-        /* a0 = dep(a0, rl32(a1, 24), 0x0000ff00) # 0000 hgfe */
-        tcg_out_rlw(s, RLWIMI, a0, a1, 24, 16, 23);
-
-        /* a0 = rl64(a0, 32) # hgfe 0000 */
-        /* a2 = rl64(a1, 32) # efgh abcd */
-        tcg_out_rld(s, RLDICL, a0, a0, 32, 0);
-        tcg_out_rld(s, RLDICL, a2, a1, 32, 0);
-
-        /* a0 = dep(a0, rl32(a2, 8), 0xffffffff)  # hgfe bcda */
-        tcg_out_rlw(s, RLWIMI, a0, a2, 8, 0, 31);
-        /* a0 = dep(a0, rl32(a2, 24), 0xff000000) # hgfe dcda */
-        tcg_out_rlw(s, RLWIMI, a0, a2, 24, 0, 7);
-        /* a0 = dep(a0, rl32(a2, 24), 0x0000ff00) # hgfe dcba */
-        tcg_out_rlw(s, RLWIMI, a0, a2, 24, 16, 23);
-
-        if (a0 == 0) {
-            tcg_out_mov(s, TCG_TYPE_REG, args[0], a0);
-        }
+        tcg_out_bswap64(s, args[0], args[1]);
         break;
 
     case INDEX_op_deposit_i32:
-- 
2.25.1

For INDEX_op_bswap32_i32, pass 0 for flags: input not zero-extended,
output does not need extension within the host 64-bit register.

Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/ppc/tcg-target.c.inc | 22 ++++++++++++++++------
 1 file changed, 16 insertions(+), 6 deletions(-)

diff --git a/tcg/ppc/tcg-target.c.inc b/tcg/ppc/tcg-target.c.inc
index XXXXXXX..XXXXXXX 100644
--- a/tcg/ppc/tcg-target.c.inc
+++ b/tcg/ppc/tcg-target.c.inc
@@ -XXX,XX +XXX,XX @@ static inline void tcg_out_sari64(TCGContext *s, TCGReg dst, TCGReg src, int c)
     tcg_out32(s, SRADI | RA(dst) | RS(src) | SH(c & 0x1f) | ((c >> 4) & 2));
 }
 
-static void tcg_out_bswap16(TCGContext *s, TCGReg dst, TCGReg src)
+static void tcg_out_bswap16(TCGContext *s, TCGReg dst, TCGReg src, int flags)
 {
     TCGReg tmp = dst == src ? TCG_REG_R0 : dst;
 
@@ -XXX,XX +XXX,XX @@ static void tcg_out_bswap16(TCGContext *s, TCGReg dst, TCGReg src)
     /* tmp = dep(tmp, rol32(src, 8), 0x0000ff00)    = 000000dc */
     tcg_out_rlw(s, RLWIMI, tmp, src, 8, 16, 23);
 
-    tcg_out_mov(s, TCG_TYPE_REG, dst, tmp);
+    if (flags & TCG_BSWAP_OS) {
+        tcg_out_ext16s(s, dst, tmp);
+    } else {
+        tcg_out_mov(s, TCG_TYPE_REG, dst, tmp);
+    }
 }
 
-static void tcg_out_bswap32(TCGContext *s, TCGReg dst, TCGReg src)
+static void tcg_out_bswap32(TCGContext *s, TCGReg dst, TCGReg src, int flags)
 {
     TCGReg tmp = dst == src ? TCG_REG_R0 : dst;
 
@@ -XXX,XX +XXX,XX @@ static void tcg_out_bswap32(TCGContext *s, TCGReg dst, TCGReg src)
     /* tmp = dep(tmp, rol32(src, 24), 0x0000ff00)   = 0000dcba */
     tcg_out_rlw(s, RLWIMI, tmp, src, 24, 16, 23);
 
-    tcg_out_mov(s, TCG_TYPE_REG, dst, tmp);
+    if (flags & TCG_BSWAP_OS) {
+        tcg_out_ext32s(s, dst, tmp);
+    } else {
+        tcg_out_mov(s, TCG_TYPE_REG, dst, tmp);
+    }
 }
 
 static void tcg_out_bswap64(TCGContext *s, TCGReg dst, TCGReg src)
@@ -XXX,XX +XXX,XX @@ static void tcg_out_op(TCGContext *s, TCGOpcode opc,
 
     case INDEX_op_bswap16_i32:
     case INDEX_op_bswap16_i64:
-        tcg_out_bswap16(s, args[0], args[1]);
+        tcg_out_bswap16(s, args[0], args[1], args[2]);
         break;
     case INDEX_op_bswap32_i32:
+        tcg_out_bswap32(s, args[0], args[1], 0);
+        break;
     case INDEX_op_bswap32_i64:
-        tcg_out_bswap32(s, args[0], args[1]);
+        tcg_out_bswap32(s, args[0], args[1], args[2]);
         break;
     case INDEX_op_bswap64_i64:
         tcg_out_bswap64(s, args[0], args[1]);
-- 
2.25.1

diff --git a/tcg/ppc/tcg-target.c.inc b/tcg/ppc/tcg-target.c.inc
index XXXXXXX..XXXXXXX 100644
--- a/tcg/ppc/tcg-target.c.inc
+++ b/tcg/ppc/tcg-target.c.inc
@@ -XXX,XX +XXX,XX @@ static bool tcg_target_const_match(int64_t val, TCGType type, int ct)
 #define SRAD   XO31(794)
 #define SRADI  XO31(413<<1)
 
+#define BRH    XO31(219)
+#define BRW    XO31(155)
+#define BRD    XO31(187)
+
 #define TW     XO31( 4)
 #define TRAP   (TW | TO(31))
 
@@ -XXX,XX +XXX,XX @@ static inline void tcg_out_ext16s(TCGContext *s, TCGReg dst, TCGReg src)
     tcg_out32(s, EXTSH | RA(dst) | RS(src));
 }
 
+static inline void tcg_out_ext16u(TCGContext *s, TCGReg dst, TCGReg src)
+{
+    tcg_out32(s, ANDI | SAI(src, dst, 0xffff));
+}
+
 static inline void tcg_out_ext32s(TCGContext *s, TCGReg dst, TCGReg src)
 {
     tcg_out32(s, EXTSW | RA(dst) | RS(src));
@@ -XXX,XX +XXX,XX @@ static void tcg_out_bswap16(TCGContext *s, TCGReg dst, TCGReg src, int flags)
 {
     TCGReg tmp = dst == src ? TCG_REG_R0 : dst;
 
+    if (have_isa_3_10) {
+        tcg_out32(s, BRH | RA(dst) | RS(src));
+        if (flags & TCG_BSWAP_OS) {
+            tcg_out_ext16s(s, dst, dst);
+        } else if ((flags & (TCG_BSWAP_IZ | TCG_BSWAP_OZ)) == TCG_BSWAP_OZ) {
+            tcg_out_ext16u(s, dst, dst);
+        }
+        return;
+    }
+
     /*
      * In the following,
      *   dep(a, b, m) -> (a & ~m) | (b & m)
@@ -XXX,XX +XXX,XX @@ static void tcg_out_bswap32(TCGContext *s, TCGReg dst, TCGReg src, int flags)
 {
     TCGReg tmp = dst == src ? TCG_REG_R0 : dst;
 
+    if (have_isa_3_10) {
+        tcg_out32(s, BRW | RA(dst) | RS(src));
+        if (flags & TCG_BSWAP_OS) {
+            tcg_out_ext32s(s, dst, dst);
+        } else if ((flags & (TCG_BSWAP_IZ | TCG_BSWAP_OZ)) == TCG_BSWAP_OZ) {
+            tcg_out_ext32u(s, dst, dst);
+        }
+        return;
+    }
+
     /*
      * Stolen from gcc's builtin_bswap32.
      * In the following,
@@ -XXX,XX +XXX,XX @@ static void tcg_out_bswap64(TCGContext *s, TCGReg dst, TCGReg src)
     TCGReg t0 = dst == src ? TCG_REG_R0 : dst;
     TCGReg t1 = dst == src ? dst : TCG_REG_R0;
 
+    if (have_isa_3_10) {
+        tcg_out32(s, BRD | RA(dst) | RS(src));
+        return;
+    }
+
     /*
      * In the following,
      *   dep(a, b, m) -> (a & ~m) | (b & m)
-- 
2.25.1

For INDEX_op_bswap16_i64, use 64-bit instructions so that we can
easily provide the extension to 64-bits.  Drop the special case,
previously used, where the input is already zero-extended -- the
minor code size savings is not worth the complication.

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/s390/tcg-target.c.inc | 34 ++++++++++++++++++++++++++++------
 1 file changed, 28 insertions(+), 6 deletions(-)

diff --git a/tcg/s390/tcg-target.c.inc b/tcg/s390/tcg-target.c.inc
index XXXXXXX..XXXXXXX 100644
--- a/tcg/s390/tcg-target.c.inc
+++ b/tcg/s390/tcg-target.c.inc
@@ -XXX,XX +XXX,XX @@ static inline void tcg_out_op(TCGContext *s, TCGOpcode opc,
         tgen_ext16u(s, TCG_TYPE_I32, args[0], args[1]);
         break;
 
-    OP_32_64(bswap16):
-        /* The TCG bswap definition requires bits 0-47 already be zero.
-           Thus we don't need the G-type insns to implement bswap16_i64.  */
-        tcg_out_insn(s, RRE, LRVR, args[0], args[1]);
-        tcg_out_sh32(s, RS_SRL, args[0], TCG_REG_NONE, 16);
+    case INDEX_op_bswap16_i32:
+        a0 = args[0], a1 = args[1], a2 = args[2];
+        tcg_out_insn(s, RRE, LRVR, a0, a1);
+        if (a2 & TCG_BSWAP_OS) {
+            tcg_out_sh32(s, RS_SRA, a0, TCG_REG_NONE, 16);
+        } else {
+            tcg_out_sh32(s, RS_SRL, a0, TCG_REG_NONE, 16);
+        }
         break;
-    OP_32_64(bswap32):
+    case INDEX_op_bswap16_i64:
+        a0 = args[0], a1 = args[1], a2 = args[2];
+        tcg_out_insn(s, RRE, LRVGR, a0, a1);
+        if (a2 & TCG_BSWAP_OS) {
+            tcg_out_sh64(s, RSY_SRAG, a0, a0, TCG_REG_NONE, 48);
+        } else {
+            tcg_out_sh64(s, RSY_SRLG, a0, a0, TCG_REG_NONE, 48);
+        }
+        break;
+
+    case INDEX_op_bswap32_i32:
         tcg_out_insn(s, RRE, LRVR, args[0], args[1]);
         break;
+    case INDEX_op_bswap32_i64:
+        a0 = args[0], a1 = args[1], a2 = args[2];
+        tcg_out_insn(s, RRE, LRVR, a0, a1);
+        if (a2 & TCG_BSWAP_OS) {
+            tgen_ext32s(s, a0, a0);
+        } else if ((a2 & (TCG_BSWAP_IZ | TCG_BSWAP_OZ)) == TCG_BSWAP_OZ) {
+            tgen_ext32u(s, a0, a0);
+        }
+        break;
 
     case INDEX_op_add2_i32:
         if (const_args[4]) {
-- 
2.25.1

Merge tcg_out_bswap16 and tcg_out_bswap16s.  Use the flags
in the internal uses for loads and stores.

Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/mips/tcg-target.c.inc | 63 +++++++++++++++++++--------------------
 1 file changed, 30 insertions(+), 33 deletions(-)

diff --git a/tcg/mips/tcg-target.c.inc b/tcg/mips/tcg-target.c.inc
index XXXXXXX..XXXXXXX 100644
--- a/tcg/mips/tcg-target.c.inc
+++ b/tcg/mips/tcg-target.c.inc
@@ -XXX,XX +XXX,XX @@ static void tcg_out_movi(TCGContext *s, TCGType type,
     }
 }
 
-static inline void tcg_out_bswap16(TCGContext *s, TCGReg ret, TCGReg arg)
+static void tcg_out_bswap16(TCGContext *s, TCGReg ret, TCGReg arg, int flags)
 {
+    /* ret and arg can't be register tmp0 */
+    tcg_debug_assert(ret != TCG_TMP0);
+    tcg_debug_assert(arg != TCG_TMP0);
+
+    /* With arg = abcd: */
     if (use_mips32r2_instructions) {
-        tcg_out_opc_reg(s, OPC_WSBH, ret, 0, arg);
-    } else {
-        /* ret and arg can't be register at */
-        if (ret == TCG_TMP0 || arg == TCG_TMP0) {
-            tcg_abort();
+        tcg_out_opc_reg(s, OPC_WSBH, ret, 0, arg);                 /* badc */
+        if (flags & TCG_BSWAP_OS) {
+            tcg_out_opc_reg(s, OPC_SEH, ret, 0, ret);              /* ssdc */
+        } else if ((flags & (TCG_BSWAP_IZ | TCG_BSWAP_OZ)) == TCG_BSWAP_OZ) {
+            tcg_out_opc_imm(s, OPC_ANDI, ret, ret, 0xffff);        /* 00dc */
         }
-
-        tcg_out_opc_sa(s, OPC_SRL, TCG_TMP0, arg, 8);
-        tcg_out_opc_sa(s, OPC_SLL, ret, arg, 8);
-        tcg_out_opc_imm(s, OPC_ANDI, ret, ret, 0xff00);
-        tcg_out_opc_reg(s, OPC_OR, ret, ret, TCG_TMP0);
+        return;
     }
-}
 
-static inline void tcg_out_bswap16s(TCGContext *s, TCGReg ret, TCGReg arg)
-{
-    if (use_mips32r2_instructions) {
-        tcg_out_opc_reg(s, OPC_WSBH, ret, 0, arg);
-        tcg_out_opc_reg(s, OPC_SEH, ret, 0, ret);
+    tcg_out_opc_sa(s, OPC_SRL, TCG_TMP0, arg, 8);                  /* 0abc */
+    if (!(flags & TCG_BSWAP_IZ)) {
+        tcg_out_opc_imm(s, OPC_ANDI, TCG_TMP0, TCG_TMP0, 0x00ff);  /* 000c */
+    }
+    if (flags & TCG_BSWAP_OS) {
+        tcg_out_opc_sa(s, OPC_SLL, ret, arg, 24);                  /* d000 */
+        tcg_out_opc_sa(s, OPC_SRA, ret, ret, 16);                  /* ssd0 */
     } else {
-        /* ret and arg can't be register at */
-        if (ret == TCG_TMP0 || arg == TCG_TMP0) {
-            tcg_abort();
+        tcg_out_opc_sa(s, OPC_SLL, ret, arg, 8);                   /* bcd0 */
+        if (flags & TCG_BSWAP_OZ) {
+            tcg_out_opc_imm(s, OPC_ANDI, ret, ret, 0xff00);        /* 00d0 */
         }
-
-        tcg_out_opc_sa(s, OPC_SRL, TCG_TMP0, arg, 8);
-        tcg_out_opc_sa(s, OPC_SLL, ret, arg, 24);
-        tcg_out_opc_sa(s, OPC_SRA, ret, ret, 16);
-        tcg_out_opc_reg(s, OPC_OR, ret, ret, TCG_TMP0);
     }
+    tcg_out_opc_reg(s, OPC_OR, ret, ret, TCG_TMP0);                /* ssdc */
 }
 
 static void tcg_out_bswap_subr(TCGContext *s, const tcg_insn_unit *sub)
@@ -XXX,XX +XXX,XX @@ static void tcg_out_qemu_ld_direct(TCGContext *s, TCGReg lo, TCGReg hi,
         break;
     case MO_UW | MO_BSWAP:
         tcg_out_opc_imm(s, OPC_LHU, TCG_TMP1, base, 0);
-        tcg_out_bswap16(s, lo, TCG_TMP1);
+        tcg_out_bswap16(s, lo, TCG_TMP1, TCG_BSWAP_IZ | TCG_BSWAP_OZ);
         break;
     case MO_UW:
         tcg_out_opc_imm(s, OPC_LHU, lo, base, 0);
         break;
     case MO_SW | MO_BSWAP:
         tcg_out_opc_imm(s, OPC_LHU, TCG_TMP1, base, 0);
-        tcg_out_bswap16s(s, lo, TCG_TMP1);
+        tcg_out_bswap16(s, lo, TCG_TMP1, TCG_BSWAP_IZ | TCG_BSWAP_OS);
         break;
     case MO_SW:
         tcg_out_opc_imm(s, OPC_LH, lo, base, 0);
@@ -XXX,XX +XXX,XX @@ static void tcg_out_qemu_st_direct(TCGContext *s, TCGReg lo, TCGReg hi,
         break;
 
     case MO_16 | MO_BSWAP:
-        tcg_out_opc_imm(s, OPC_ANDI, TCG_TMP1, lo, 0xffff);
-        tcg_out_bswap16(s, TCG_TMP1, TCG_TMP1);
+        tcg_out_bswap16(s, TCG_TMP1, lo, 0);
         lo = TCG_TMP1;
         /* FALLTHRU */
     case MO_16:
@@ -XXX,XX +XXX,XX @@ static inline void tcg_out_op(TCGContext *s, TCGOpcode opc,
     case INDEX_op_not_i64:
         i1 = OPC_NOR;
         goto do_unary;
-    case INDEX_op_bswap16_i32:
-    case INDEX_op_bswap16_i64:
-        i1 = OPC_WSBH;
-        goto do_unary;
     case INDEX_op_ext8s_i32:
     case INDEX_op_ext8s_i64:
         i1 = OPC_SEB;
@@ -XXX,XX +XXX,XX @@ static inline void tcg_out_op(TCGContext *s, TCGOpcode opc,
         tcg_out_opc_reg(s, i1, a0, TCG_REG_ZERO, a1);
         break;
 
+    case INDEX_op_bswap16_i32:
+    case INDEX_op_bswap16_i64:
+        tcg_out_bswap16(s, a0, a1, a2);
+        break;
     case INDEX_op_bswap32_i32:
         tcg_out_bswap32(s, a0, a1);
         break;
-- 
2.25.1

Merge tcg_out_bswap32 and tcg_out_bswap32s.
Use the flags in the internal uses for loads and stores.

For mips32r2 bswap32 with zero-extension, standardize on
WSBH+ROTR+DEXT.  This is the same number of insns as the
previous DSBH+DSHD+DSRL but fits in better with the flags check.

Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/mips/tcg-target.c.inc | 39 ++++++++++++++++-----------------------
 1 file changed, 16 insertions(+), 23 deletions(-)

diff --git a/tcg/mips/tcg-target.c.inc b/tcg/mips/tcg-target.c.inc
index XXXXXXX..XXXXXXX 100644
--- a/tcg/mips/tcg-target.c.inc
+++ b/tcg/mips/tcg-target.c.inc
@@ -XXX,XX +XXX,XX @@ static void tcg_out_bswap_subr(TCGContext *s, const tcg_insn_unit *sub)
     tcg_debug_assert(ok);
 }
 
-static void tcg_out_bswap32(TCGContext *s, TCGReg ret, TCGReg arg)
+static void tcg_out_bswap32(TCGContext *s, TCGReg ret, TCGReg arg, int flags)
 {
     if (use_mips32r2_instructions) {
         tcg_out_opc_reg(s, OPC_WSBH, ret, 0, arg);
         tcg_out_opc_sa(s, OPC_ROTR, ret, ret, 16);
+        if (flags & TCG_BSWAP_OZ) {
+            tcg_out_opc_bf(s, OPC_DEXT, ret, ret, 31, 0);
+        }
     } else {
-        tcg_out_bswap_subr(s, bswap32_addr);
-        /* delay slot -- never omit the insn, like tcg_out_mov might.  */
-        tcg_out_opc_reg(s, OPC_OR, TCG_TMP0, arg, TCG_REG_ZERO);
-        tcg_out_mov(s, TCG_TYPE_I32, ret, TCG_TMP3);
-    }
-}
-
-static void tcg_out_bswap32u(TCGContext *s, TCGReg ret, TCGReg arg)
-{
-    if (use_mips32r2_instructions) {
-        tcg_out_opc_reg(s, OPC_DSBH, ret, 0, arg);
-        tcg_out_opc_reg(s, OPC_DSHD, ret, 0, ret);
-        tcg_out_dsrl(s, ret, ret, 32);
-    } else {
-        tcg_out_bswap_subr(s, bswap32u_addr);
+        if (flags & TCG_BSWAP_OZ) {
+            tcg_out_bswap_subr(s, bswap32u_addr);
+        } else {
+            tcg_out_bswap_subr(s, bswap32_addr);
+        }
         /* delay slot -- never omit the insn, like tcg_out_mov might.  */
         tcg_out_opc_reg(s, OPC_OR, TCG_TMP0, arg, TCG_REG_ZERO);
         tcg_out_mov(s, TCG_TYPE_I32, ret, TCG_TMP3);
@@ -XXX,XX +XXX,XX @@ static void tcg_out_qemu_ld_direct(TCGContext *s, TCGReg lo, TCGReg hi,
         if (TCG_TARGET_REG_BITS == 64 && is_64) {
             if (use_mips32r2_instructions) {
                 tcg_out_opc_imm(s, OPC_LWU, lo, base, 0);
-                tcg_out_bswap32u(s, lo, lo);
+                tcg_out_bswap32(s, lo, lo, TCG_BSWAP_IZ | TCG_BSWAP_OZ);
             } else {
                 tcg_out_bswap_subr(s, bswap32u_addr);
                 /* delay slot */
@@ -XXX,XX +XXX,XX @@ static void tcg_out_qemu_ld_direct(TCGContext *s, TCGReg lo, TCGReg hi,
     case MO_SL | MO_BSWAP:
         if (use_mips32r2_instructions) {
             tcg_out_opc_imm(s, OPC_LW, lo, base, 0);
-            tcg_out_bswap32(s, lo, lo);
+            tcg_out_bswap32(s, lo, lo, 0);
         } else {
             tcg_out_bswap_subr(s, bswap32_addr);
             /* delay slot */
@@ -XXX,XX +XXX,XX @@ static void tcg_out_qemu_st_direct(TCGContext *s, TCGReg lo, TCGReg hi,
         break;
 
     case MO_32 | MO_BSWAP:
-        tcg_out_bswap32(s, TCG_TMP3, lo);
+        tcg_out_bswap32(s, TCG_TMP3, lo, 0);
         lo = TCG_TMP3;
         /* FALLTHRU */
     case MO_32:
@@ -XXX,XX +XXX,XX @@ static void tcg_out_qemu_st_direct(TCGContext *s, TCGReg lo, TCGReg hi,
             tcg_out_opc_imm(s, OPC_SW, TCG_TMP0, base, 0);
             tcg_out_opc_imm(s, OPC_SW, TCG_TMP1, base, 4);
         } else {
-            tcg_out_bswap32(s, TCG_TMP3, MIPS_BE ? lo : hi);
+            tcg_out_bswap32(s, TCG_TMP3, MIPS_BE ? lo : hi, 0);
             tcg_out_opc_imm(s, OPC_SW, TCG_TMP3, base, 0);
-            tcg_out_bswap32(s, TCG_TMP3, MIPS_BE ? hi : lo);
+            tcg_out_bswap32(s, TCG_TMP3, MIPS_BE ? hi : lo, 0);
             tcg_out_opc_imm(s, OPC_SW, TCG_TMP3, base, 4);
         }
         break;
@@ -XXX,XX +XXX,XX @@ static inline void tcg_out_op(TCGContext *s, TCGOpcode opc,
         tcg_out_bswap16(s, a0, a1, a2);
         break;
     case INDEX_op_bswap32_i32:
-        tcg_out_bswap32(s, a0, a1);
+        tcg_out_bswap32(s, a0, a1, 0);
         break;
     case INDEX_op_bswap32_i64:
-        tcg_out_bswap32u(s, a0, a1);
+        tcg_out_bswap32(s, a0, a1, a2);
         break;
     case INDEX_op_bswap64_i64:
         tcg_out_bswap64(s, a0, a1);
-- 
2.25.1

The existing interpreter zero-extends, ignoring high bits.
Simply add a separate sign-extension opcode if required.
Ensure that the interpreter supports ext16s when bswap16 is enabled.

Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/tci.c                |  3 ++-
 tcg/tci/tcg-target.c.inc | 23 ++++++++++++++++++++---
 2 files changed, 22 insertions(+), 4 deletions(-)

diff --git a/tcg/tci.c b/tcg/tci.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/tci.c
+++ b/tcg/tci.c
@@ -XXX,XX +XXX,XX @@ uintptr_t QEMU_DISABLE_CFI tcg_qemu_tb_exec(CPUArchState *env,
             regs[r0] = (int8_t)regs[r1];
             break;
 #endif
-#if TCG_TARGET_HAS_ext16s_i32 || TCG_TARGET_HAS_ext16s_i64
+#if TCG_TARGET_HAS_ext16s_i32 || TCG_TARGET_HAS_ext16s_i64 || \
+    TCG_TARGET_HAS_bswap16_i32 || TCG_TARGET_HAS_bswap16_i64
         CASE_32_64(ext16s)
             tci_args_rr(insn, &r0, &r1);
             regs[r0] = (int16_t)regs[r1];
diff --git a/tcg/tci/tcg-target.c.inc b/tcg/tci/tcg-target.c.inc
index XXXXXXX..XXXXXXX 100644
--- a/tcg/tci/tcg-target.c.inc
+++ b/tcg/tci/tcg-target.c.inc
@@ -XXX,XX +XXX,XX @@ static void tcg_out_op(TCGContext *s, TCGOpcode opc,
                        const TCGArg args[TCG_MAX_OP_ARGS],
                        const int const_args[TCG_MAX_OP_ARGS])
 {
+    TCGOpcode exts;
+
     switch (opc) {
     case INDEX_op_exit_tb:
         tcg_out_op_p(s, opc, (void *)args[0]);
@@ -XXX,XX +XXX,XX @@ static void tcg_out_op(TCGContext *s, TCGOpcode opc,
     CASE_64(ext32u)      /* Optional (TCG_TARGET_HAS_ext32u_i64). */
     CASE_64(ext_i32)
     CASE_64(extu_i32)
-    CASE_32_64(bswap16)  /* Optional (TCG_TARGET_HAS_bswap16_*). */
-    CASE_32_64(bswap32)  /* Optional (TCG_TARGET_HAS_bswap32_*). */
-    CASE_64(bswap64)     /* Optional (TCG_TARGET_HAS_bswap64_i64). */
     CASE_32_64(ctpop)    /* Optional (TCG_TARGET_HAS_ctpop_*). */
+    case INDEX_op_bswap32_i32: /* Optional (TCG_TARGET_HAS_bswap32_i32). */
+    case INDEX_op_bswap64_i64: /* Optional (TCG_TARGET_HAS_bswap64_i64). */
         tcg_out_op_rr(s, opc, args[0], args[1]);
         break;
 
+    case INDEX_op_bswap16_i32: /* Optional (TCG_TARGET_HAS_bswap16_i32). */
+        exts = INDEX_op_ext16s_i32;
+        goto do_bswap;
+    case INDEX_op_bswap16_i64: /* Optional (TCG_TARGET_HAS_bswap16_i64). */
+        exts = INDEX_op_ext16s_i64;
+        goto do_bswap;
+    case INDEX_op_bswap32_i64: /* Optional (TCG_TARGET_HAS_bswap32_i64). */
+        exts = INDEX_op_ext32s_i64;
+    do_bswap:
+        /* The base tci bswaps zero-extend, and ignore high bits. */
+        tcg_out_op_rr(s, opc, args[0], args[1]);
+        if (args[2] & TCG_BSWAP_OS) {
+            tcg_out_op_rr(s, exts, args[0], args[0]);
+        }
+        break;
+
     CASE_32_64(add2)
     CASE_32_64(sub2)
         tcg_out_op_rrrrrr(s, opc, args[0], args[1], args[2],
-- 
2.25.1

Notice when the input is known to be zero-extended and force
the TCG_BSWAP_IZ flag on.  Honor the TCG_BSWAP_OS bit during
constant folding.  Propagate the input to the output mask.

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/optimize.c | 56 +++++++++++++++++++++++++++++++++++++++++++++-----
 1 file changed, 51 insertions(+), 5 deletions(-)

diff --git a/tcg/optimize.c b/tcg/optimize.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/optimize.c
+++ b/tcg/optimize.c
@@ -XXX,XX +XXX,XX @@ static uint64_t do_constant_folding_2(TCGOpcode op, uint64_t x, uint64_t y)
         return (uint16_t)x;
 
     CASE_OP_32_64(bswap16):
-        return bswap16(x);
+        x = bswap16(x);
+        return y & TCG_BSWAP_OS ? (int16_t)x : x;
 
     CASE_OP_32_64(bswap32):
-        return bswap32(x);
+        x = bswap32(x);
+        return y & TCG_BSWAP_OS ? (int32_t)x : x;
 
     case INDEX_op_bswap64_i64:
         return bswap64(x);
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
             }
             break;
 
+        CASE_OP_32_64(bswap16):
+            mask = arg_info(op->args[1])->mask;
+            if (mask <= 0xffff) {
+                op->args[2] |= TCG_BSWAP_IZ;
+            }
+            mask = bswap16(mask);
+            switch (op->args[2] & (TCG_BSWAP_OZ | TCG_BSWAP_OS)) {
+            case TCG_BSWAP_OZ:
+                break;
+            case TCG_BSWAP_OS:
+                mask = (int16_t)mask;
+                break;
+            default: /* undefined high bits */
+                mask |= MAKE_64BIT_MASK(16, 48);
+                break;
+            }
+            break;
+
+        case INDEX_op_bswap32_i64:
+            mask = arg_info(op->args[1])->mask;
+            if (mask <= 0xffffffffu) {
+                op->args[2] |= TCG_BSWAP_IZ;
+            }
+            mask = bswap32(mask);
+            switch (op->args[2] & (TCG_BSWAP_OZ | TCG_BSWAP_OS)) {
+            case TCG_BSWAP_OZ:
+                break;
+            case TCG_BSWAP_OS:
+                mask = (int32_t)mask;
+                break;
+            default: /* undefined high bits */
+                mask |= MAKE_64BIT_MASK(32, 32);
+                break;
+            }
+            break;
+
         default:
             break;
         }
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
         CASE_OP_32_64(ext16s):
         CASE_OP_32_64(ext16u):
         CASE_OP_32_64(ctpop):
-        CASE_OP_32_64(bswap16):
-        CASE_OP_32_64(bswap32):
-        case INDEX_op_bswap64_i64:
         case INDEX_op_ext32s_i64:
         case INDEX_op_ext32u_i64:
         case INDEX_op_ext_i32_i64:
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
             }
             goto do_default;
 
+        CASE_OP_32_64(bswap16):
+        CASE_OP_32_64(bswap32):
+        case INDEX_op_bswap64_i64:
+            if (arg_is_const(op->args[1])) {
+                tmp = do_constant_folding(opc, arg_info(op->args[1])->val,
+                                          op->args[2]);
+                tcg_opt_gen_movi(s, &temps_used, op, op->args[0], tmp);
+                break;
+            }
+            goto do_default;
+
         CASE_OP_32_64(add):
         CASE_OP_32_64(sub):
         CASE_OP_32_64(mul):
-- 
2.25.1

Implement the new semantics in the fallback expansion.
Change all callers to supply the flags that keep the
semantics unchanged locally.

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 include/tcg/tcg-op.h            |   8 +--
 target/arm/translate-a64.c      |  12 ++--
 target/arm/translate.c          |   2 +-
 target/i386/tcg/translate.c     |   2 +-
 target/mips/tcg/mxu_translate.c |   2 +-
 target/s390x/translate.c        |   4 +-
 target/sh4/translate.c          |   2 +-
 tcg/tcg-op.c                    | 121 ++++++++++++++++++++++----------
 8 files changed, 99 insertions(+), 54 deletions(-)

diff --git a/include/tcg/tcg-op.h b/include/tcg/tcg-op.h
index XXXXXXX..XXXXXXX 100644
--- a/include/tcg/tcg-op.h
+++ b/include/tcg/tcg-op.h
@@ -XXX,XX +XXX,XX @@ void tcg_gen_ext8s_i32(TCGv_i32 ret, TCGv_i32 arg);
 void tcg_gen_ext16s_i32(TCGv_i32 ret, TCGv_i32 arg);
 void tcg_gen_ext8u_i32(TCGv_i32 ret, TCGv_i32 arg);
 void tcg_gen_ext16u_i32(TCGv_i32 ret, TCGv_i32 arg);
-void tcg_gen_bswap16_i32(TCGv_i32 ret, TCGv_i32 arg);
+void tcg_gen_bswap16_i32(TCGv_i32 ret, TCGv_i32 arg, int flags);
 void tcg_gen_bswap32_i32(TCGv_i32 ret, TCGv_i32 arg);
 void tcg_gen_smin_i32(TCGv_i32, TCGv_i32 arg1, TCGv_i32 arg2);
 void tcg_gen_smax_i32(TCGv_i32, TCGv_i32 arg1, TCGv_i32 arg2);
@@ -XXX,XX +XXX,XX @@ void tcg_gen_ext32s_i64(TCGv_i64 ret, TCGv_i64 arg);
 void tcg_gen_ext8u_i64(TCGv_i64 ret, TCGv_i64 arg);
 void tcg_gen_ext16u_i64(TCGv_i64 ret, TCGv_i64 arg);
 void tcg_gen_ext32u_i64(TCGv_i64 ret, TCGv_i64 arg);
-void tcg_gen_bswap16_i64(TCGv_i64 ret, TCGv_i64 arg);
-void tcg_gen_bswap32_i64(TCGv_i64 ret, TCGv_i64 arg);
+void tcg_gen_bswap16_i64(TCGv_i64 ret, TCGv_i64 arg, int flags);
+void tcg_gen_bswap32_i64(TCGv_i64 ret, TCGv_i64 arg, int flags);
 void tcg_gen_bswap64_i64(TCGv_i64 ret, TCGv_i64 arg);
 void tcg_gen_smin_i64(TCGv_i64, TCGv_i64 arg1, TCGv_i64 arg2);
 void tcg_gen_smax_i64(TCGv_i64, TCGv_i64 arg1, TCGv_i64 arg2);
@@ -XXX,XX +XXX,XX @@ void tcg_gen_stl_vec(TCGv_vec r, TCGv_ptr base, TCGArg offset, TCGType t);
 #define tcg_gen_ext32u_tl tcg_gen_mov_i32
 #define tcg_gen_ext32s_tl tcg_gen_mov_i32
 #define tcg_gen_bswap16_tl tcg_gen_bswap16_i32
-#define tcg_gen_bswap32_tl tcg_gen_bswap32_i32
+#define tcg_gen_bswap32_tl(D, S, F) tcg_gen_bswap32_i32(D, S)
 #define tcg_gen_bswap_tl tcg_gen_bswap32_i32
 #define tcg_gen_concat_tl_i64 tcg_gen_concat_i32_i64
 #define tcg_gen_extr_i64_tl tcg_gen_extr_i64_i32
diff --git a/target/arm/translate-a64.c b/target/arm/translate-a64.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate-a64.c
+++ b/target/arm/translate-a64.c
@@ -XXX,XX +XXX,XX @@ static void handle_rev32(DisasContext *s, unsigned int sf,
 
         /* bswap32_i64 requires zero high word */
         tcg_gen_ext32u_i64(tcg_tmp, tcg_rn);
-        tcg_gen_bswap32_i64(tcg_rd, tcg_tmp);
+        tcg_gen_bswap32_i64(tcg_rd, tcg_tmp, TCG_BSWAP_IZ | TCG_BSWAP_OZ);
         tcg_gen_shri_i64(tcg_tmp, tcg_rn, 32);
-        tcg_gen_bswap32_i64(tcg_tmp, tcg_tmp);
+        tcg_gen_bswap32_i64(tcg_tmp, tcg_tmp, TCG_BSWAP_IZ | TCG_BSWAP_OZ);
         tcg_gen_concat32_i64(tcg_rd, tcg_rd, tcg_tmp);
 
         tcg_temp_free_i64(tcg_tmp);
     } else {
         tcg_gen_ext32u_i64(tcg_rd, cpu_reg(s, rn));
-        tcg_gen_bswap32_i64(tcg_rd, tcg_rd);
+        tcg_gen_bswap32_i64(tcg_rd, tcg_rd, TCG_BSWAP_IZ | TCG_BSWAP_OZ);
     }
 }
 
@@ -XXX,XX +XXX,XX @@ static void handle_rev(DisasContext *s, int opcode, bool u,
             read_vec_element(s, tcg_tmp, rn, i, grp_size);
             switch (grp_size) {
             case MO_16:
-                tcg_gen_bswap16_i64(tcg_tmp, tcg_tmp);
+                tcg_gen_bswap16_i64(tcg_tmp, tcg_tmp,
+                                    TCG_BSWAP_IZ | TCG_BSWAP_OZ);
                 break;
             case MO_32:
-                tcg_gen_bswap32_i64(tcg_tmp, tcg_tmp);
+                tcg_gen_bswap32_i64(tcg_tmp, tcg_tmp,
+                                    TCG_BSWAP_IZ | TCG_BSWAP_OZ);
                 break;
             case MO_64:
                 tcg_gen_bswap64_i64(tcg_tmp, tcg_tmp);
diff --git a/target/arm/translate.c b/target/arm/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate.c
+++ b/target/arm/translate.c
@@ -XXX,XX +XXX,XX @@ void gen_rev16(TCGv_i32 dest, TCGv_i32 var)
 static void gen_revsh(TCGv_i32 dest, TCGv_i32 var)
 {
     tcg_gen_ext16u_i32(var, var);
-    tcg_gen_bswap16_i32(var, var);
+    tcg_gen_bswap16_i32(var, var, TCG_BSWAP_IZ | TCG_BSWAP_OZ);
     tcg_gen_ext16s_i32(dest, var);
 }
 
diff --git a/target/i386/tcg/translate.c b/target/i386/tcg/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/i386/tcg/translate.c
+++ b/target/i386/tcg/translate.c
@@ -XXX,XX +XXX,XX @@ static target_ulong disas_insn(DisasContext *s, CPUState *cpu)
         {
             gen_op_mov_v_reg(s, MO_32, s->T0, reg);
             tcg_gen_ext32u_tl(s->T0, s->T0);
-            tcg_gen_bswap32_tl(s->T0, s->T0);
+            tcg_gen_bswap32_tl(s->T0, s->T0, TCG_BSWAP_IZ | TCG_BSWAP_OZ);
             gen_op_mov_reg_v(s, MO_32, reg, s->T0);
         }
         break;
diff --git a/target/mips/tcg/mxu_translate.c b/target/mips/tcg/mxu_translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/mips/tcg/mxu_translate.c
+++ b/target/mips/tcg/mxu_translate.c
@@ -XXX,XX +XXX,XX @@ static void gen_mxu_s32ldd_s32lddr(DisasContext *ctx)
 
     if (sel == 1) {
         /* S32LDDR */
-        tcg_gen_bswap32_tl(t1, t1);
+        tcg_gen_bswap32_tl(t1, t1, TCG_BSWAP_IZ | TCG_BSWAP_OZ);
     }
     gen_store_mxu_gpr(t1, XRa);
 
diff --git a/target/s390x/translate.c b/target/s390x/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/s390x/translate.c
+++ b/target/s390x/translate.c
@@ -XXX,XX +XXX,XX @@ static DisasJumpType op_rosbg(DisasContext *s, DisasOps *o)
 
 static DisasJumpType op_rev16(DisasContext *s, DisasOps *o)
 {
-    tcg_gen_bswap16_i64(o->out, o->in2);
+    tcg_gen_bswap16_i64(o->out, o->in2, TCG_BSWAP_IZ | TCG_BSWAP_OZ);
     return DISAS_NEXT;
 }
 
 static DisasJumpType op_rev32(DisasContext *s, DisasOps *o)
 {
-    tcg_gen_bswap32_i64(o->out, o->in2);
+    tcg_gen_bswap32_i64(o->out, o->in2, TCG_BSWAP_IZ | TCG_BSWAP_OZ);
     return DISAS_NEXT;
 }
 
diff --git a/target/sh4/translate.c b/target/sh4/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/sh4/translate.c
+++ b/target/sh4/translate.c
@@ -XXX,XX +XXX,XX @@ static void _decode_opc(DisasContext * ctx)
 	{
             TCGv low = tcg_temp_new();
 	    tcg_gen_ext16u_i32(low, REG(B7_4));
-	    tcg_gen_bswap16_i32(low, low);
+	    tcg_gen_bswap16_i32(low, low, TCG_BSWAP_IZ | TCG_BSWAP_OZ);
             tcg_gen_deposit_i32(REG(B11_8), REG(B7_4), low, 0, 16);
 	    tcg_temp_free(low);
 	}
diff --git a/tcg/tcg-op.c b/tcg/tcg-op.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/tcg-op.c
+++ b/tcg/tcg-op.c
@@ -XXX,XX +XXX,XX @@ void tcg_gen_ext16u_i32(TCGv_i32 ret, TCGv_i32 arg)
     }
 }
 
-/* Note: we assume the two high bytes are set to zero */
-void tcg_gen_bswap16_i32(TCGv_i32 ret, TCGv_i32 arg)
+void tcg_gen_bswap16_i32(TCGv_i32 ret, TCGv_i32 arg, int flags)
 {
+    /* Only one extension flag may be present. */
+    tcg_debug_assert(!(flags & TCG_BSWAP_OS) || !(flags & TCG_BSWAP_OZ));
+
     if (TCG_TARGET_HAS_bswap16_i32) {
-        tcg_gen_op3i_i32(INDEX_op_bswap16_i32, ret, arg,
-                         TCG_BSWAP_IZ | TCG_BSWAP_OZ);
+        tcg_gen_op3i_i32(INDEX_op_bswap16_i32, ret, arg, flags);
     } else {
         TCGv_i32 t0 = tcg_temp_new_i32();
+        TCGv_i32 t1 = tcg_temp_new_i32();
 
-        tcg_gen_ext8u_i32(t0, arg);
-        tcg_gen_shli_i32(t0, t0, 8);
-        tcg_gen_shri_i32(ret, arg, 8);
-        tcg_gen_or_i32(ret, ret, t0);
+        tcg_gen_shri_i32(t0, arg, 8);
+        if (!(flags & TCG_BSWAP_IZ)) {
+            tcg_gen_ext8u_i32(t0, t0);
+        }
+
+        if (flags & TCG_BSWAP_OS) {
+            tcg_gen_shli_i32(t1, arg, 24);
+            tcg_gen_sari_i32(t1, t1, 16);
+        } else if (flags & TCG_BSWAP_OZ) {
+            tcg_gen_ext8u_i32(t1, arg);
+            tcg_gen_shli_i32(t1, t1, 8);
+        } else {
+            tcg_gen_shli_i32(t1, arg, 8);
+        }
+
+        tcg_gen_or_i32(ret, t0, t1);
         tcg_temp_free_i32(t0);
+        tcg_temp_free_i32(t1);
     }
 }
 
@@ -XXX,XX +XXX,XX @@ void tcg_gen_ext32u_i64(TCGv_i64 ret, TCGv_i64 arg)
     }
 }
 
-/* Note: we assume the six high bytes are set to zero */
-void tcg_gen_bswap16_i64(TCGv_i64 ret, TCGv_i64 arg)
+void tcg_gen_bswap16_i64(TCGv_i64 ret, TCGv_i64 arg, int flags)
 {
+    /* Only one extension flag may be present. */
+    tcg_debug_assert(!(flags & TCG_BSWAP_OS) || !(flags & TCG_BSWAP_OZ));
+
     if (TCG_TARGET_REG_BITS == 32) {
-        tcg_gen_bswap16_i32(TCGV_LOW(ret), TCGV_LOW(arg));
-        tcg_gen_movi_i32(TCGV_HIGH(ret), 0);
+        tcg_gen_bswap16_i32(TCGV_LOW(ret), TCGV_LOW(arg), flags);
+        if (flags & TCG_BSWAP_OS) {
+            tcg_gen_sari_i32(TCGV_HIGH(ret), TCGV_LOW(ret), 31);
+        } else {
+            tcg_gen_movi_i32(TCGV_HIGH(ret), 0);
+        }
     } else if (TCG_TARGET_HAS_bswap16_i64) {
-        tcg_gen_op3i_i64(INDEX_op_bswap16_i64, ret, arg,
-                         TCG_BSWAP_IZ | TCG_BSWAP_OZ);
+        tcg_gen_op3i_i64(INDEX_op_bswap16_i64, ret, arg, flags);
     } else {
         TCGv_i64 t0 = tcg_temp_new_i64();
+        TCGv_i64 t1 = tcg_temp_new_i64();
 
-        tcg_gen_ext8u_i64(t0, arg);
-        tcg_gen_shli_i64(t0, t0, 8);
-        tcg_gen_shri_i64(ret, arg, 8);
-        tcg_gen_or_i64(ret, ret, t0);
+        tcg_gen_shri_i64(t0, arg, 8);
+        if (!(flags & TCG_BSWAP_IZ)) {
+            tcg_gen_ext8u_i64(t0, t0);
+        }
+
+        if (flags & TCG_BSWAP_OS) {
+            tcg_gen_shli_i64(t1, arg, 56);
+            tcg_gen_sari_i64(t1, t1, 48);
+        } else if (flags & TCG_BSWAP_OZ) {
+            tcg_gen_ext8u_i64(t1, arg);
+            tcg_gen_shli_i64(t1, t1, 8);
+        } else {
+            tcg_gen_shli_i64(t1, arg, 8);
+        }
+
+        tcg_gen_or_i64(ret, t0, t1);
         tcg_temp_free_i64(t0);
+        tcg_temp_free_i64(t1);
     }
 }
 
-/* Note: we assume the four high bytes are set to zero */
-void tcg_gen_bswap32_i64(TCGv_i64 ret, TCGv_i64 arg)
+void tcg_gen_bswap32_i64(TCGv_i64 ret, TCGv_i64 arg, int flags)
 {
+    /* Only one extension flag may be present. */
+    tcg_debug_assert(!(flags & TCG_BSWAP_OS) || !(flags & TCG_BSWAP_OZ));
+
     if (TCG_TARGET_REG_BITS == 32) {
         tcg_gen_bswap32_i32(TCGV_LOW(ret), TCGV_LOW(arg));
-        tcg_gen_movi_i32(TCGV_HIGH(ret), 0);
+        if (flags & TCG_BSWAP_OS) {
+            tcg_gen_sari_i32(TCGV_HIGH(ret), TCGV_LOW(ret), 31);
+        } else {
+            tcg_gen_movi_i32(TCGV_HIGH(ret), 0);
+        }
     } else if (TCG_TARGET_HAS_bswap32_i64) {
-        tcg_gen_op3i_i64(INDEX_op_bswap32_i64, ret, arg,
-                         TCG_BSWAP_IZ | TCG_BSWAP_OZ);
+        tcg_gen_op3i_i64(INDEX_op_bswap32_i64, ret, arg, flags);
     } else {
         TCGv_i64 t0 = tcg_temp_new_i64();
         TCGv_i64 t1 = tcg_temp_new_i64();
         TCGv_i64 t2 = tcg_constant_i64(0x00ff00ff);
 
-                                        /* arg = ....abcd */
-        tcg_gen_shri_i64(t0, arg, 8);   /*  t0 = .....abc */
-        tcg_gen_and_i64(t1, arg, t2);   /*  t1 = .....b.d */
-        tcg_gen_and_i64(t0, t0, t2);    /*  t0 = .....a.c */
-        tcg_gen_shli_i64(t1, t1, 8);    /*  t1 = ....b.d. */
-        tcg_gen_or_i64(ret, t0, t1);    /* ret = ....badc */
+                                            /* arg = xxxxabcd */
+        tcg_gen_shri_i64(t0, arg, 8);       /*  t0 = .xxxxabc */
+        tcg_gen_and_i64(t1, arg, t2);       /*  t1 = .....b.d */
+        tcg_gen_and_i64(t0, t0, t2);        /*  t0 = .....a.c */
+        tcg_gen_shli_i64(t1, t1, 8);        /*  t1 = ....b.d. */
+        tcg_gen_or_i64(ret, t0, t1);        /* ret = ....badc */
 
-        tcg_gen_shli_i64(t1, ret, 48);  /*  t1 = dc...... */
-        tcg_gen_shri_i64(t0, ret, 16);  /*  t0 = ......ba */
-        tcg_gen_shri_i64(t1, t1, 32);   /*  t1 = ....dc.. */
-        tcg_gen_or_i64(ret, t0, t1);    /* ret = ....dcba */
+        tcg_gen_shli_i64(t1, ret, 48);      /*  t1 = dc...... */
+        tcg_gen_shri_i64(t0, ret, 16);      /*  t0 = ......ba */
+        if (flags & TCG_BSWAP_OS) {
+            tcg_gen_sari_i64(t1, t1, 32);   /*  t1 = ssssdc.. */
+        } else {
+            tcg_gen_shri_i64(t1, t1, 32);   /*  t1 = ....dc.. */
+        }
+        tcg_gen_or_i64(ret, t0, t1);        /* ret = ssssdcba */
 
         tcg_temp_free_i64(t0);
         tcg_temp_free_i64(t1);
@@ -XXX,XX +XXX,XX @@ void tcg_gen_qemu_ld_i32(TCGv_i32 val, TCGv addr, TCGArg idx, MemOp memop)
     if ((orig_memop ^ memop) & MO_BSWAP) {
         switch (orig_memop & MO_SIZE) {
         case MO_16:
-            tcg_gen_bswap16_i32(val, val);
+            tcg_gen_bswap16_i32(val, val, TCG_BSWAP_IZ | TCG_BSWAP_OZ);
             if (orig_memop & MO_SIGN) {
                 tcg_gen_ext16s_i32(val, val);
             }
@@ -XXX,XX +XXX,XX @@ void tcg_gen_qemu_st_i32(TCGv_i32 val, TCGv addr, TCGArg idx, MemOp memop)
         switch (memop & MO_SIZE) {
         case MO_16:
             tcg_gen_ext16u_i32(swap, val);
-            tcg_gen_bswap16_i32(swap, swap);
+            tcg_gen_bswap16_i32(swap, swap, TCG_BSWAP_IZ | TCG_BSWAP_OZ);
             break;
         case MO_32:
             tcg_gen_bswap32_i32(swap, val);
@@ -XXX,XX +XXX,XX @@ void tcg_gen_qemu_ld_i64(TCGv_i64 val, TCGv addr, TCGArg idx, MemOp memop)
     if ((orig_memop ^ memop) & MO_BSWAP) {
         switch (orig_memop & MO_SIZE) {
         case MO_16:
-            tcg_gen_bswap16_i64(val, val);
+            tcg_gen_bswap16_i64(val, val, TCG_BSWAP_IZ | TCG_BSWAP_OZ);
             if (orig_memop & MO_SIGN) {
                 tcg_gen_ext16s_i64(val, val);
             }
             break;
         case MO_32:
-            tcg_gen_bswap32_i64(val, val);
+            tcg_gen_bswap32_i64(val, val, TCG_BSWAP_IZ | TCG_BSWAP_OZ);
             if (orig_memop & MO_SIGN) {
                 tcg_gen_ext32s_i64(val, val);
             }
@@ -XXX,XX +XXX,XX @@ void tcg_gen_qemu_st_i64(TCGv_i64 val, TCGv addr, TCGArg idx, MemOp memop)
         switch (memop & MO_SIZE) {
         case MO_16:
             tcg_gen_ext16u_i64(swap, val);
-            tcg_gen_bswap16_i64(swap, swap);
+            tcg_gen_bswap16_i64(swap, swap, TCG_BSWAP_IZ | TCG_BSWAP_OZ);
             break;
         case MO_32:
             tcg_gen_ext32u_i64(swap, val);
-            tcg_gen_bswap32_i64(swap, swap);
+            tcg_gen_bswap32_i64(swap, swap, TCG_BSWAP_IZ | TCG_BSWAP_OZ);
             break;
         case MO_64:
             tcg_gen_bswap64_i64(swap, val);
-- 
2.25.1

We can perform any required sign-extension via TCG_BSWAP_OS.

Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/tcg-op.c | 24 ++++++++++--------------
 1 file changed, 10 insertions(+), 14 deletions(-)

diff --git a/tcg/tcg-op.c b/tcg/tcg-op.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/tcg-op.c
+++ b/tcg/tcg-op.c
@@ -XXX,XX +XXX,XX @@ void tcg_gen_qemu_ld_i32(TCGv_i32 val, TCGv addr, TCGArg idx, MemOp memop)
     orig_memop = memop;
     if (!TCG_TARGET_HAS_MEMORY_BSWAP && (memop & MO_BSWAP)) {
         memop &= ~MO_BSWAP;
-        /* The bswap primitive requires zero-extended input.  */
+        /* The bswap primitive benefits from zero-extended input.  */
         if ((memop & MO_SSIZE) == MO_SW) {
             memop &= ~MO_SIGN;
         }
@@ -XXX,XX +XXX,XX @@ void tcg_gen_qemu_ld_i32(TCGv_i32 val, TCGv addr, TCGArg idx, MemOp memop)
     if ((orig_memop ^ memop) & MO_BSWAP) {
         switch (orig_memop & MO_SIZE) {
         case MO_16:
-            tcg_gen_bswap16_i32(val, val, TCG_BSWAP_IZ | TCG_BSWAP_OZ);
-            if (orig_memop & MO_SIGN) {
-                tcg_gen_ext16s_i32(val, val);
-            }
+            tcg_gen_bswap16_i32(val, val, (orig_memop & MO_SIGN
+                                           ? TCG_BSWAP_IZ | TCG_BSWAP_OS
+                                           : TCG_BSWAP_IZ | TCG_BSWAP_OZ));
             break;
         case MO_32:
             tcg_gen_bswap32_i32(val, val);
@@ -XXX,XX +XXX,XX @@ void tcg_gen_qemu_ld_i64(TCGv_i64 val, TCGv addr, TCGArg idx, MemOp memop)
     orig_memop = memop;
     if (!TCG_TARGET_HAS_MEMORY_BSWAP && (memop & MO_BSWAP)) {
         memop &= ~MO_BSWAP;
-        /* The bswap primitive requires zero-extended input.  */
+        /* The bswap primitive benefits from zero-extended input.  */
         if ((memop & MO_SIGN) && (memop & MO_SIZE) < MO_64) {
             memop &= ~MO_SIGN;
         }
@@ -XXX,XX +XXX,XX @@ void tcg_gen_qemu_ld_i64(TCGv_i64 val, TCGv addr, TCGArg idx, MemOp memop)
     plugin_gen_mem_callbacks(addr, info);
 
     if ((orig_memop ^ memop) & MO_BSWAP) {
+        int flags = (orig_memop & MO_SIGN
+                     ? TCG_BSWAP_IZ | TCG_BSWAP_OS
+                     : TCG_BSWAP_IZ | TCG_BSWAP_OZ);
         switch (orig_memop & MO_SIZE) {
         case MO_16:
-            tcg_gen_bswap16_i64(val, val, TCG_BSWAP_IZ | TCG_BSWAP_OZ);
-            if (orig_memop & MO_SIGN) {
-                tcg_gen_ext16s_i64(val, val);
-            }
+            tcg_gen_bswap16_i64(val, val, flags);
             break;
         case MO_32:
-            tcg_gen_bswap32_i64(val, val, TCG_BSWAP_IZ | TCG_BSWAP_OZ);
-            if (orig_memop & MO_SIGN) {
-                tcg_gen_ext32s_i64(val, val);
-            }
+            tcg_gen_bswap32_i64(val, val, flags);
             break;
         case MO_64:
             tcg_gen_bswap64_i64(val, val);
-- 
2.25.1

By removing TCG_BSWAP_IZ we indicate that the input is
not zero-extended, and thus can remove an explicit extend.
By removing TCG_BSWAP_OZ, we allow the implementation to
leave high bits set, which will be ignored by the store.

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/tcg-op.c | 9 +++------
 1 file changed, 3 insertions(+), 6 deletions(-)

diff --git a/tcg/tcg-op.c b/tcg/tcg-op.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/tcg-op.c
+++ b/tcg/tcg-op.c
@@ -XXX,XX +XXX,XX @@ void tcg_gen_qemu_st_i32(TCGv_i32 val, TCGv addr, TCGArg idx, MemOp memop)
         swap = tcg_temp_new_i32();
         switch (memop & MO_SIZE) {
         case MO_16:
-            tcg_gen_ext16u_i32(swap, val);
-            tcg_gen_bswap16_i32(swap, swap, TCG_BSWAP_IZ | TCG_BSWAP_OZ);
+            tcg_gen_bswap16_i32(swap, val, 0);
             break;
         case MO_32:
             tcg_gen_bswap32_i32(swap, val);
@@ -XXX,XX +XXX,XX @@ void tcg_gen_qemu_st_i64(TCGv_i64 val, TCGv addr, TCGArg idx, MemOp memop)
         swap = tcg_temp_new_i64();
         switch (memop & MO_SIZE) {
         case MO_16:
-            tcg_gen_ext16u_i64(swap, val);
-            tcg_gen_bswap16_i64(swap, swap, TCG_BSWAP_IZ | TCG_BSWAP_OZ);
+            tcg_gen_bswap16_i64(swap, val, 0);
             break;
         case MO_32:
-            tcg_gen_ext32u_i64(swap, val);
-            tcg_gen_bswap32_i64(swap, swap, TCG_BSWAP_IZ | TCG_BSWAP_OZ);
+            tcg_gen_bswap32_i64(swap, val, 0);
             break;
         case MO_64:
             tcg_gen_bswap64_i64(swap, val);
-- 
2.25.1

For the sf version, we are performing two 32-bit bswaps
in either half of the register.  This is equivalent to
performing one 64-bit bswap followed by a rotate.

For the non-sf version, we can remove TCG_BSWAP_IZ
and the preceding zero-extension.

diff --git a/target/arm/translate-a64.c b/target/arm/translate-a64.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate-a64.c
+++ b/target/arm/translate-a64.c
@@ -XXX,XX +XXX,XX @@ static void handle_rev32(DisasContext *s, unsigned int sf,
                          unsigned int rn, unsigned int rd)
 {
     TCGv_i64 tcg_rd = cpu_reg(s, rd);
+    TCGv_i64 tcg_rn = cpu_reg(s, rn);
 
     if (sf) {
-        TCGv_i64 tcg_tmp = tcg_temp_new_i64();
-        TCGv_i64 tcg_rn = read_cpu_reg(s, rn, sf);
-
-        /* bswap32_i64 requires zero high word */
-        tcg_gen_ext32u_i64(tcg_tmp, tcg_rn);
-        tcg_gen_bswap32_i64(tcg_rd, tcg_tmp, TCG_BSWAP_IZ | TCG_BSWAP_OZ);
-        tcg_gen_shri_i64(tcg_tmp, tcg_rn, 32);
-        tcg_gen_bswap32_i64(tcg_tmp, tcg_tmp, TCG_BSWAP_IZ | TCG_BSWAP_OZ);
-        tcg_gen_concat32_i64(tcg_rd, tcg_rd, tcg_tmp);
-
-        tcg_temp_free_i64(tcg_tmp);
+        tcg_gen_bswap64_i64(tcg_rd, tcg_rn);
+        tcg_gen_rotri_i64(tcg_rd, tcg_rd, 32);
     } else {
-        tcg_gen_ext32u_i64(tcg_rd, cpu_reg(s, rn));
-        tcg_gen_bswap32_i64(tcg_rd, tcg_rd, TCG_BSWAP_IZ | TCG_BSWAP_OZ);
+        tcg_gen_bswap32_i64(tcg_rd, tcg_rn, TCG_BSWAP_OZ);
     }
 }
 
-- 
2.25.1

We can eliminate the requirement for a zero-extended output,
because the following store will ignore any garbage high bits.

Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 target/arm/translate-a64.c | 6 ++----
 1 file changed, 2 insertions(+), 4 deletions(-)

diff --git a/target/arm/translate-a64.c b/target/arm/translate-a64.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate-a64.c
+++ b/target/arm/translate-a64.c
@@ -XXX,XX +XXX,XX @@ static void handle_rev(DisasContext *s, int opcode, bool u,
             read_vec_element(s, tcg_tmp, rn, i, grp_size);
             switch (grp_size) {
             case MO_16:
-                tcg_gen_bswap16_i64(tcg_tmp, tcg_tmp,
-                                    TCG_BSWAP_IZ | TCG_BSWAP_OZ);
+                tcg_gen_bswap16_i64(tcg_tmp, tcg_tmp, TCG_BSWAP_IZ);
                 break;
             case MO_32:
-                tcg_gen_bswap32_i64(tcg_tmp, tcg_tmp,
-                                    TCG_BSWAP_IZ | TCG_BSWAP_OZ);
+                tcg_gen_bswap32_i64(tcg_tmp, tcg_tmp, TCG_BSWAP_IZ);
                 break;
             case MO_64:
                 tcg_gen_bswap64_i64(tcg_tmp, tcg_tmp);
-- 
2.25.1

Use a break instead of an ifdefed else.
There's no need to move the values through s->T0.
Remove TCG_BSWAP_IZ and the preceding zero-extension.

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 target/i386/tcg/translate.c | 14 ++++----------
 1 file changed, 4 insertions(+), 10 deletions(-)

diff --git a/target/i386/tcg/translate.c b/target/i386/tcg/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/i386/tcg/translate.c
+++ b/target/i386/tcg/translate.c
@@ -XXX,XX +XXX,XX @@ static target_ulong disas_insn(DisasContext *s, CPUState *cpu)
         reg = (b & 7) | REX_B(s);
 #ifdef TARGET_X86_64
         if (dflag == MO_64) {
-            gen_op_mov_v_reg(s, MO_64, s->T0, reg);
-            tcg_gen_bswap64_i64(s->T0, s->T0);
-            gen_op_mov_reg_v(s, MO_64, reg, s->T0);
-        } else
-#endif
-        {
-            gen_op_mov_v_reg(s, MO_32, s->T0, reg);
-            tcg_gen_ext32u_tl(s->T0, s->T0);
-            tcg_gen_bswap32_tl(s->T0, s->T0, TCG_BSWAP_IZ | TCG_BSWAP_OZ);
-            gen_op_mov_reg_v(s, MO_32, reg, s->T0);
+            tcg_gen_bswap64_i64(cpu_regs[reg], cpu_regs[reg]);
+            break;
         }
+#endif
+        tcg_gen_bswap32_tl(cpu_regs[reg], cpu_regs[reg], TCG_BSWAP_OZ);
         break;
     case 0xd6: /* salc */
         if (CODE64(s))
-- 
2.25.1

There were two bugs here: (1) the required endianness was
not present in the MemOp, and (2) we were not providing a
zero-extended input to the bswap as semantics required.

The best fix is to fold the bswap into the memory operation,
producing the desired result directly.

Acked-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 target/mips/tcg/mxu_translate.c | 6 +-----
 1 file changed, 1 insertion(+), 5 deletions(-)

diff --git a/target/mips/tcg/mxu_translate.c b/target/mips/tcg/mxu_translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/mips/tcg/mxu_translate.c
+++ b/target/mips/tcg/mxu_translate.c
@@ -XXX,XX +XXX,XX @@ static void gen_mxu_s32ldd_s32lddr(DisasContext *ctx)
         tcg_gen_ori_tl(t1, t1, 0xFFFFF000);
     }
     tcg_gen_add_tl(t1, t0, t1);
-    tcg_gen_qemu_ld_tl(t1, t1, ctx->mem_idx, MO_SL);
+    tcg_gen_qemu_ld_tl(t1, t1, ctx->mem_idx, MO_TESL ^ (sel * MO_BSWAP));
 
-    if (sel == 1) {
-        /* S32LDDR */
-        tcg_gen_bswap32_tl(t1, t1, TCG_BSWAP_IZ | TCG_BSWAP_OZ);
-    }
     gen_store_mxu_gpr(t1, XRa);
 
     tcg_temp_free(t0);
-- 
2.25.1

Now that the middle-end can replicate the same tricks as tcg/arm
used for optimizing bswap for signed loads and for stores, do not
pretend to have these memory ops in the backend.

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/arm/tcg-target.h     |   2 +-
 tcg/arm/tcg-target.c.inc | 214 ++++++++++++++-------------------------
 2 files changed, 77 insertions(+), 139 deletions(-)

diff --git a/tcg/arm/tcg-target.h b/tcg/arm/tcg-target.h
index XXXXXXX..XXXXXXX 100644
--- a/tcg/arm/tcg-target.h
+++ b/tcg/arm/tcg-target.h
@@ -XXX,XX +XXX,XX @@ extern bool use_neon_instructions;
 #define TCG_TARGET_HAS_cmpsel_vec       0
 
 #define TCG_TARGET_DEFAULT_MO (0)
-#define TCG_TARGET_HAS_MEMORY_BSWAP     1
+#define TCG_TARGET_HAS_MEMORY_BSWAP     0
 
 /* not defined -- call should be eliminated at compile time */
 void tb_target_set_jmp_target(uintptr_t, uintptr_t, uintptr_t, uintptr_t);
diff --git a/tcg/arm/tcg-target.c.inc b/tcg/arm/tcg-target.c.inc
index XXXXXXX..XXXXXXX 100644
--- a/tcg/arm/tcg-target.c.inc
+++ b/tcg/arm/tcg-target.c.inc
@@ -XXX,XX +XXX,XX @@ static void tcg_out_vldst(TCGContext *s, ARMInsn insn,
 /* helper signature: helper_ret_ld_mmu(CPUState *env, target_ulong addr,
  *                                     int mmu_idx, uintptr_t ra)
  */
-static void * const qemu_ld_helpers[16] = {
+static void * const qemu_ld_helpers[8] = {
     [MO_UB]   = helper_ret_ldub_mmu,
     [MO_SB]   = helper_ret_ldsb_mmu,
-
-    [MO_LEUW] = helper_le_lduw_mmu,
-    [MO_LEUL] = helper_le_ldul_mmu,
-    [MO_LEQ]  = helper_le_ldq_mmu,
-    [MO_LESW] = helper_le_ldsw_mmu,
-    [MO_LESL] = helper_le_ldul_mmu,
-
-    [MO_BEUW] = helper_be_lduw_mmu,
-    [MO_BEUL] = helper_be_ldul_mmu,
-    [MO_BEQ]  = helper_be_ldq_mmu,
-    [MO_BESW] = helper_be_ldsw_mmu,
-    [MO_BESL] = helper_be_ldul_mmu,
+#ifdef HOST_WORDS_BIGENDIAN
+    [MO_UW] = helper_be_lduw_mmu,
+    [MO_UL] = helper_be_ldul_mmu,
+    [MO_Q]  = helper_be_ldq_mmu,
+    [MO_SW] = helper_be_ldsw_mmu,
+    [MO_SL] = helper_be_ldul_mmu,
+#else
+    [MO_UW] = helper_le_lduw_mmu,
+    [MO_UL] = helper_le_ldul_mmu,
+    [MO_Q]  = helper_le_ldq_mmu,
+    [MO_SW] = helper_le_ldsw_mmu,
+    [MO_SL] = helper_le_ldul_mmu,
+#endif
 };
 
 /* helper signature: helper_ret_st_mmu(CPUState *env, target_ulong addr,
  *                                     uintxx_t val, int mmu_idx, uintptr_t ra)
  */
-static void * const qemu_st_helpers[16] = {
-    [MO_UB]   = helper_ret_stb_mmu,
-    [MO_LEUW] = helper_le_stw_mmu,
-    [MO_LEUL] = helper_le_stl_mmu,
-    [MO_LEQ]  = helper_le_stq_mmu,
-    [MO_BEUW] = helper_be_stw_mmu,
-    [MO_BEUL] = helper_be_stl_mmu,
-    [MO_BEQ]  = helper_be_stq_mmu,
+static void * const qemu_st_helpers[4] = {
+    [MO_8]   = helper_ret_stb_mmu,
+#ifdef HOST_WORDS_BIGENDIAN
+    [MO_16] = helper_be_stw_mmu,
+    [MO_32] = helper_be_stl_mmu,
+    [MO_64] = helper_be_stq_mmu,
+#else
+    [MO_16] = helper_le_stw_mmu,
+    [MO_32] = helper_le_stl_mmu,
+    [MO_64] = helper_le_stq_mmu,
+#endif
 };
 
 /* Helper routines for marshalling helper function arguments into
@@ -XXX,XX +XXX,XX @@ static bool tcg_out_qemu_ld_slow_path(TCGContext *s, TCGLabelQemuLdst *lb)
        icache usage.  For pre-armv6, use the signed helpers since we do
        not have a single insn sign-extend.  */
     if (use_armv6_instructions) {
-        func = qemu_ld_helpers[opc & (MO_BSWAP | MO_SIZE)];
+        func = qemu_ld_helpers[opc & MO_SIZE];
     } else {
-        func = qemu_ld_helpers[opc & (MO_BSWAP | MO_SSIZE)];
+        func = qemu_ld_helpers[opc & MO_SSIZE];
         if (opc & MO_SIGN) {
             opc = MO_UL;
         }
@@ -XXX,XX +XXX,XX @@ static bool tcg_out_qemu_st_slow_path(TCGContext *s, TCGLabelQemuLdst *lb)
     argreg = tcg_out_arg_reg32(s, argreg, TCG_REG_R14);
 
     /* Tail-call to the helper, which will return to the fast path.  */
-    tcg_out_goto(s, COND_AL, qemu_st_helpers[opc & (MO_BSWAP | MO_SIZE)]);
+    tcg_out_goto(s, COND_AL, qemu_st_helpers[opc & MO_SIZE]);
     return true;
 }
 #endif /* SOFTMMU */
@@ -XXX,XX +XXX,XX @@ static inline void tcg_out_qemu_ld_index(TCGContext *s, MemOp opc,
                                          TCGReg datalo, TCGReg datahi,
                                          TCGReg addrlo, TCGReg addend)
 {
-    MemOp bswap = opc & MO_BSWAP;
+    /* Byte swapping is left to middle-end expansion. */
+    tcg_debug_assert((opc & MO_BSWAP) == 0);
 
     switch (opc & MO_SSIZE) {
     case MO_UB:
@@ -XXX,XX +XXX,XX @@ static inline void tcg_out_qemu_ld_index(TCGContext *s, MemOp opc,
         break;
     case MO_UW:
         tcg_out_ld16u_r(s, COND_AL, datalo, addrlo, addend);
-        if (bswap) {
-            tcg_out_bswap16(s, COND_AL, datalo, datalo,
-                            TCG_BSWAP_IZ | TCG_BSWAP_OZ);
-        }
         break;
     case MO_SW:
-        if (bswap) {
-            tcg_out_ld16u_r(s, COND_AL, datalo, addrlo, addend);
-            tcg_out_bswap16(s, COND_AL, datalo, datalo,
-                            TCG_BSWAP_IZ | TCG_BSWAP_OS);
-        } else {
-            tcg_out_ld16s_r(s, COND_AL, datalo, addrlo, addend);
-        }
+        tcg_out_ld16s_r(s, COND_AL, datalo, addrlo, addend);
         break;
     case MO_UL:
-    default:
         tcg_out_ld32_r(s, COND_AL, datalo, addrlo, addend);
-        if (bswap) {
-            tcg_out_bswap32(s, COND_AL, datalo, datalo);
-        }
         break;
     case MO_Q:
-        {
-            TCGReg dl = (bswap ? datahi : datalo);
-            TCGReg dh = (bswap ? datalo : datahi);
-
-            /* Avoid ldrd for user-only emulation, to handle unaligned.  */
-            if (USING_SOFTMMU && use_armv6_instructions
-                && (dl & 1) == 0 && dh == dl + 1) {
-                tcg_out_ldrd_r(s, COND_AL, dl, addrlo, addend);
-            } else if (dl != addend) {
-                tcg_out_ld32_rwb(s, COND_AL, dl, addend, addrlo);
-                tcg_out_ld32_12(s, COND_AL, dh, addend, 4);
-            } else {
-                tcg_out_dat_reg(s, COND_AL, ARITH_ADD, TCG_REG_TMP,
-                                addend, addrlo, SHIFT_IMM_LSL(0));
-                tcg_out_ld32_12(s, COND_AL, dl, TCG_REG_TMP, 0);
-                tcg_out_ld32_12(s, COND_AL, dh, TCG_REG_TMP, 4);
-            }
-            if (bswap) {
-                tcg_out_bswap32(s, COND_AL, dl, dl);
-                tcg_out_bswap32(s, COND_AL, dh, dh);
-            }
+        /* Avoid ldrd for user-only emulation, to handle unaligned.  */
+        if (USING_SOFTMMU && use_armv6_instructions
+            && (datalo & 1) == 0 && datahi == datalo + 1) {
+            tcg_out_ldrd_r(s, COND_AL, datalo, addrlo, addend);
+        } else if (datalo != addend) {
+            tcg_out_ld32_rwb(s, COND_AL, datalo, addend, addrlo);
+            tcg_out_ld32_12(s, COND_AL, datahi, addend, 4);
+        } else {
+            tcg_out_dat_reg(s, COND_AL, ARITH_ADD, TCG_REG_TMP,
+                            addend, addrlo, SHIFT_IMM_LSL(0));
+            tcg_out_ld32_12(s, COND_AL, datalo, TCG_REG_TMP, 0);
+            tcg_out_ld32_12(s, COND_AL, datahi, TCG_REG_TMP, 4);
         }
         break;
+    default:
+        g_assert_not_reached();
     }
 }
 
@@ -XXX,XX +XXX,XX @@ static inline void tcg_out_qemu_ld_direct(TCGContext *s, MemOp opc,
                                           TCGReg datalo, TCGReg datahi,
                                           TCGReg addrlo)
 {
-    MemOp bswap = opc & MO_BSWAP;
+    /* Byte swapping is left to middle-end expansion. */
+    tcg_debug_assert((opc & MO_BSWAP) == 0);
 
     switch (opc & MO_SSIZE) {
     case MO_UB:
@@ -XXX,XX +XXX,XX @@ static inline void tcg_out_qemu_ld_direct(TCGContext *s, MemOp opc,
         break;
     case MO_UW:
         tcg_out_ld16u_8(s, COND_AL, datalo, addrlo, 0);
-        if (bswap) {
-            tcg_out_bswap16(s, COND_AL, datalo, datalo,
-                            TCG_BSWAP_IZ | TCG_BSWAP_OZ);
-        }
         break;
     case MO_SW:
-        if (bswap) {
-            tcg_out_ld16u_8(s, COND_AL, datalo, addrlo, 0);
-            tcg_out_bswap16(s, COND_AL, datalo, datalo,
-                            TCG_BSWAP_IZ | TCG_BSWAP_OS);
-        } else {
-            tcg_out_ld16s_8(s, COND_AL, datalo, addrlo, 0);
-        }
+        tcg_out_ld16s_8(s, COND_AL, datalo, addrlo, 0);
         break;
     case MO_UL:
-    default:
         tcg_out_ld32_12(s, COND_AL, datalo, addrlo, 0);
-        if (bswap) {
-            tcg_out_bswap32(s, COND_AL, datalo, datalo);
-        }
         break;
     case MO_Q:
-        {
-            TCGReg dl = (bswap ? datahi : datalo);
-            TCGReg dh = (bswap ? datalo : datahi);
-
-            /* Avoid ldrd for user-only emulation, to handle unaligned.  */
-            if (USING_SOFTMMU && use_armv6_instructions
-                && (dl & 1) == 0 && dh == dl + 1) {
-                tcg_out_ldrd_8(s, COND_AL, dl, addrlo, 0);
-            } else if (dl == addrlo) {
-                tcg_out_ld32_12(s, COND_AL, dh, addrlo, bswap ? 0 : 4);
-                tcg_out_ld32_12(s, COND_AL, dl, addrlo, bswap ? 4 : 0);
-            } else {
-                tcg_out_ld32_12(s, COND_AL, dl, addrlo, bswap ? 4 : 0);
-                tcg_out_ld32_12(s, COND_AL, dh, addrlo, bswap ? 0 : 4);
-            }
-            if (bswap) {
-                tcg_out_bswap32(s, COND_AL, dl, dl);
-                tcg_out_bswap32(s, COND_AL, dh, dh);
-            }
+        /* Avoid ldrd for user-only emulation, to handle unaligned.  */
+        if (USING_SOFTMMU && use_armv6_instructions
+            && (datalo & 1) == 0 && datahi == datalo + 1) {
+            tcg_out_ldrd_8(s, COND_AL, datalo, addrlo, 0);
+        } else if (datalo == addrlo) {
+            tcg_out_ld32_12(s, COND_AL, datahi, addrlo, 4);
+            tcg_out_ld32_12(s, COND_AL, datalo, addrlo, 0);
+        } else {
+            tcg_out_ld32_12(s, COND_AL, datalo, addrlo, 0);
+            tcg_out_ld32_12(s, COND_AL, datahi, addrlo, 4);
         }
         break;
+    default:
+        g_assert_not_reached();
     }
 }
 
@@ -XXX,XX +XXX,XX @@ static inline void tcg_out_qemu_st_index(TCGContext *s, int cond, MemOp opc,
                                          TCGReg datalo, TCGReg datahi,
                                          TCGReg addrlo, TCGReg addend)
 {
-    MemOp bswap = opc & MO_BSWAP;
+    /* Byte swapping is left to middle-end expansion. */
+    tcg_debug_assert((opc & MO_BSWAP) == 0);
 
     switch (opc & MO_SIZE) {
     case MO_8:
         tcg_out_st8_r(s, cond, datalo, addrlo, addend);
         break;
     case MO_16:
-        if (bswap) {
-            tcg_out_bswap16(s, cond, TCG_REG_R0, datalo, 0);
-            tcg_out_st16_r(s, cond, TCG_REG_R0, addrlo, addend);
-        } else {
-            tcg_out_st16_r(s, cond, datalo, addrlo, addend);
-        }
+        tcg_out_st16_r(s, cond, datalo, addrlo, addend);
         break;
     case MO_32:
-    default:
-        if (bswap) {
-            tcg_out_bswap32(s, cond, TCG_REG_R0, datalo);
-            tcg_out_st32_r(s, cond, TCG_REG_R0, addrlo, addend);
-        } else {
-            tcg_out_st32_r(s, cond, datalo, addrlo, addend);
-        }
+        tcg_out_st32_r(s, cond, datalo, addrlo, addend);
         break;
     case MO_64:
         /* Avoid strd for user-only emulation, to handle unaligned.  */
-        if (bswap) {
-            tcg_out_bswap32(s, cond, TCG_REG_R0, datahi);
-            tcg_out_st32_rwb(s, cond, TCG_REG_R0, addend, addrlo);
-            tcg_out_bswap32(s, cond, TCG_REG_R0, datalo);
-            tcg_out_st32_12(s, cond, TCG_REG_R0, addend, 4);
-        } else if (USING_SOFTMMU && use_armv6_instructions
-                   && (datalo & 1) == 0 && datahi == datalo + 1) {
+        if (USING_SOFTMMU && use_armv6_instructions
+            && (datalo & 1) == 0 && datahi == datalo + 1) {
             tcg_out_strd_r(s, cond, datalo, addrlo, addend);
         } else {
             tcg_out_st32_rwb(s, cond, datalo, addend, addrlo);
             tcg_out_st32_12(s, cond, datahi, addend, 4);
         }
         break;
+    default:
+        g_assert_not_reached();
     }
 }
 
@@ -XXX,XX +XXX,XX @@ static inline void tcg_out_qemu_st_direct(TCGContext *s, MemOp opc,
                                           TCGReg datalo, TCGReg datahi,
                                           TCGReg addrlo)
 {
-    MemOp bswap = opc & MO_BSWAP;
+    /* Byte swapping is left to middle-end expansion. */
+    tcg_debug_assert((opc & MO_BSWAP) == 0);
 
     switch (opc & MO_SIZE) {
     case MO_8:
         tcg_out_st8_12(s, COND_AL, datalo, addrlo, 0);
         break;
     case MO_16:
-        if (bswap) {
-            tcg_out_bswap16(s, COND_AL, TCG_REG_R0, datalo, 0);
-            tcg_out_st16_8(s, COND_AL, TCG_REG_R0, addrlo, 0);
-        } else {
-            tcg_out_st16_8(s, COND_AL, datalo, addrlo, 0);
-        }
+        tcg_out_st16_8(s, COND_AL, datalo, addrlo, 0);
         break;
     case MO_32:
-    default:
-        if (bswap) {
-            tcg_out_bswap32(s, COND_AL, TCG_REG_R0, datalo);
-            tcg_out_st32_12(s, COND_AL, TCG_REG_R0, addrlo, 0);
-        } else {
-            tcg_out_st32_12(s, COND_AL, datalo, addrlo, 0);
-        }
+        tcg_out_st32_12(s, COND_AL, datalo, addrlo, 0);
         break;
     case MO_64:
         /* Avoid strd for user-only emulation, to handle unaligned.  */
-        if (bswap) {
-            tcg_out_bswap32(s, COND_AL, TCG_REG_R0, datahi);
-            tcg_out_st32_12(s, COND_AL, TCG_REG_R0, addrlo, 0);
-            tcg_out_bswap32(s, COND_AL, TCG_REG_R0, datalo);
-            tcg_out_st32_12(s, COND_AL, TCG_REG_R0, addrlo, 4);
-        } else if (USING_SOFTMMU && use_armv6_instructions
-                   && (datalo & 1) == 0 && datahi == datalo + 1) {
+        if (USING_SOFTMMU && use_armv6_instructions
+            && (datalo & 1) == 0 && datahi == datalo + 1) {
             tcg_out_strd_8(s, COND_AL, datalo, addrlo, 0);
         } else {
             tcg_out_st32_12(s, COND_AL, datalo, addrlo, 0);
             tcg_out_st32_12(s, COND_AL, datahi, addrlo, 4);
         }
         break;
+    default:
+        g_assert_not_reached();
     }
 }
 
-- 
2.25.1

The memory bswap support in the aarch64 backend merely dates from
a time when it was required.  There is nothing special about the
backend support that could not have been provided by the middle-end
even prior to the introduction of the bswap flags.

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/aarch64/tcg-target.h     |  2 +-
 tcg/aarch64/tcg-target.c.inc | 87 +++++++++++++-----------------------
 2 files changed, 32 insertions(+), 57 deletions(-)

diff --git a/tcg/aarch64/tcg-target.h b/tcg/aarch64/tcg-target.h
index XXXXXXX..XXXXXXX 100644
--- a/tcg/aarch64/tcg-target.h
+++ b/tcg/aarch64/tcg-target.h
@@ -XXX,XX +XXX,XX @@ typedef enum {
 #define TCG_TARGET_HAS_cmpsel_vec       0
 
 #define TCG_TARGET_DEFAULT_MO (0)
-#define TCG_TARGET_HAS_MEMORY_BSWAP     1
+#define TCG_TARGET_HAS_MEMORY_BSWAP     0
 
 void tb_target_set_jmp_target(uintptr_t, uintptr_t, uintptr_t, uintptr_t);
 
diff --git a/tcg/aarch64/tcg-target.c.inc b/tcg/aarch64/tcg-target.c.inc
index XXXXXXX..XXXXXXX 100644
--- a/tcg/aarch64/tcg-target.c.inc
+++ b/tcg/aarch64/tcg-target.c.inc
@@ -XXX,XX +XXX,XX @@ static void tcg_out_cltz(TCGContext *s, TCGType ext, TCGReg d,
 /* helper signature: helper_ret_ld_mmu(CPUState *env, target_ulong addr,
  *                                     TCGMemOpIdx oi, uintptr_t ra)
  */
-static void * const qemu_ld_helpers[16] = {
-    [MO_UB]   = helper_ret_ldub_mmu,
-    [MO_LEUW] = helper_le_lduw_mmu,
-    [MO_LEUL] = helper_le_ldul_mmu,
-    [MO_LEQ]  = helper_le_ldq_mmu,
-    [MO_BEUW] = helper_be_lduw_mmu,
-    [MO_BEUL] = helper_be_ldul_mmu,
-    [MO_BEQ]  = helper_be_ldq_mmu,
+static void * const qemu_ld_helpers[4] = {
+    [MO_8]  = helper_ret_ldub_mmu,
+#ifdef HOST_WORDS_BIGENDIAN
+    [MO_16] = helper_be_lduw_mmu,
+    [MO_32] = helper_be_ldul_mmu,
+    [MO_64] = helper_be_ldq_mmu,
+#else
+    [MO_16] = helper_le_lduw_mmu,
+    [MO_32] = helper_le_ldul_mmu,
+    [MO_64] = helper_le_ldq_mmu,
+#endif
 };
 
 /* helper signature: helper_ret_st_mmu(CPUState *env, target_ulong addr,
  *                                     uintxx_t val, TCGMemOpIdx oi,
  *                                     uintptr_t ra)
  */
-static void * const qemu_st_helpers[16] = {
-    [MO_UB]   = helper_ret_stb_mmu,
-    [MO_LEUW] = helper_le_stw_mmu,
-    [MO_LEUL] = helper_le_stl_mmu,
-    [MO_LEQ]  = helper_le_stq_mmu,
-    [MO_BEUW] = helper_be_stw_mmu,
-    [MO_BEUL] = helper_be_stl_mmu,
-    [MO_BEQ]  = helper_be_stq_mmu,
+static void * const qemu_st_helpers[4] = {
+    [MO_8]  = helper_ret_stb_mmu,
+#ifdef HOST_WORDS_BIGENDIAN
+    [MO_16] = helper_be_stw_mmu,
+    [MO_32] = helper_be_stl_mmu,
+    [MO_64] = helper_be_stq_mmu,
+#else
+    [MO_16] = helper_le_stw_mmu,
+    [MO_32] = helper_le_stl_mmu,
+    [MO_64] = helper_le_stq_mmu,
+#endif
 };
 
 static inline void tcg_out_adr(TCGContext *s, TCGReg rd, const void *target)
@@ -XXX,XX +XXX,XX @@ static bool tcg_out_qemu_ld_slow_path(TCGContext *s, TCGLabelQemuLdst *lb)
     tcg_out_mov(s, TARGET_LONG_BITS == 64, TCG_REG_X1, lb->addrlo_reg);
     tcg_out_movi(s, TCG_TYPE_I32, TCG_REG_X2, oi);
     tcg_out_adr(s, TCG_REG_X3, lb->raddr);
-    tcg_out_call(s, qemu_ld_helpers[opc & (MO_BSWAP | MO_SIZE)]);
+    tcg_out_call(s, qemu_ld_helpers[opc & MO_SIZE]);
     if (opc & MO_SIGN) {
         tcg_out_sxt(s, lb->type, size, lb->datalo_reg, TCG_REG_X0);
     } else {
@@ -XXX,XX +XXX,XX @@ static bool tcg_out_qemu_st_slow_path(TCGContext *s, TCGLabelQemuLdst *lb)
     tcg_out_mov(s, size == MO_64, TCG_REG_X2, lb->datalo_reg);
     tcg_out_movi(s, TCG_TYPE_I32, TCG_REG_X3, oi);
     tcg_out_adr(s, TCG_REG_X4, lb->raddr);
-    tcg_out_call(s, qemu_st_helpers[opc & (MO_BSWAP | MO_SIZE)]);
+    tcg_out_call(s, qemu_st_helpers[opc & MO_SIZE]);
     tcg_out_goto(s, lb->raddr);
     return true;
 }
@@ -XXX,XX +XXX,XX @@ static void tcg_out_qemu_ld_direct(TCGContext *s, MemOp memop, TCGType ext,
                                    TCGReg data_r, TCGReg addr_r,
                                    TCGType otype, TCGReg off_r)
 {
-    const MemOp bswap = memop & MO_BSWAP;
+    /* Byte swapping is left to middle-end expansion. */
+    tcg_debug_assert((memop & MO_BSWAP) == 0);
 
     switch (memop & MO_SSIZE) {
     case MO_UB:
@@ -XXX,XX +XXX,XX @@ static void tcg_out_qemu_ld_direct(TCGContext *s, MemOp memop, TCGType ext,
         break;
     case MO_UW:
         tcg_out_ldst_r(s, I3312_LDRH, data_r, addr_r, otype, off_r);
-        if (bswap) {
-            tcg_out_rev(s, TCG_TYPE_I32, MO_16, data_r, data_r);
-        }
         break;
     case MO_SW:
-        if (bswap) {
-            tcg_out_ldst_r(s, I3312_LDRH, data_r, addr_r, otype, off_r);
-            tcg_out_rev(s, TCG_TYPE_I32, MO_16, data_r, data_r);
-            tcg_out_sxt(s, ext, MO_16, data_r, data_r);
-        } else {
-            tcg_out_ldst_r(s, (ext ? I3312_LDRSHX : I3312_LDRSHW),
-                           data_r, addr_r, otype, off_r);
-        }
+        tcg_out_ldst_r(s, (ext ? I3312_LDRSHX : I3312_LDRSHW),
+                       data_r, addr_r, otype, off_r);
         break;
     case MO_UL:
         tcg_out_ldst_r(s, I3312_LDRW, data_r, addr_r, otype, off_r);
-        if (bswap) {
-            tcg_out_rev(s, TCG_TYPE_I32, MO_32, data_r, data_r);
-        }
         break;
     case MO_SL:
-        if (bswap) {
-            tcg_out_ldst_r(s, I3312_LDRW, data_r, addr_r, otype, off_r);
-            tcg_out_rev(s, TCG_TYPE_I32, MO_32, data_r, data_r);
-            tcg_out_sxt(s, TCG_TYPE_I64, MO_32, data_r, data_r);
-        } else {
-            tcg_out_ldst_r(s, I3312_LDRSWX, data_r, addr_r, otype, off_r);
-        }
+        tcg_out_ldst_r(s, I3312_LDRSWX, data_r, addr_r, otype, off_r);
         break;
     case MO_Q:
         tcg_out_ldst_r(s, I3312_LDRX, data_r, addr_r, otype, off_r);
-        if (bswap) {
-            tcg_out_rev(s, TCG_TYPE_I64, MO_64, data_r, data_r);
-        }
         break;
     default:
         tcg_abort();
@@ -XXX,XX +XXX,XX @@ static void tcg_out_qemu_st_direct(TCGContext *s, MemOp memop,
                                    TCGReg data_r, TCGReg addr_r,
                                    TCGType otype, TCGReg off_r)
 {
-    const MemOp bswap = memop & MO_BSWAP;
+    /* Byte swapping is left to middle-end expansion. */
+    tcg_debug_assert((memop & MO_BSWAP) == 0);
 
     switch (memop & MO_SIZE) {
     case MO_8:
         tcg_out_ldst_r(s, I3312_STRB, data_r, addr_r, otype, off_r);
         break;
     case MO_16:
-        if (bswap && data_r != TCG_REG_XZR) {
-            tcg_out_rev(s, TCG_TYPE_I32, MO_16, TCG_REG_TMP, data_r);
-            data_r = TCG_REG_TMP;
-        }
         tcg_out_ldst_r(s, I3312_STRH, data_r, addr_r, otype, off_r);
         break;
     case MO_32:
-        if (bswap && data_r != TCG_REG_XZR) {
-            tcg_out_rev(s, TCG_TYPE_I32, MO_32, TCG_REG_TMP, data_r);
-            data_r = TCG_REG_TMP;
-        }
         tcg_out_ldst_r(s, I3312_STRW, data_r, addr_r, otype, off_r);
         break;
     case MO_64:
-        if (bswap && data_r != TCG_REG_XZR) {
-            tcg_out_rev(s, TCG_TYPE_I64, MO_64, TCG_REG_TMP, data_r);
-            data_r = TCG_REG_TMP;
-        }
         tcg_out_ldst_r(s, I3312_STRX, data_r, addr_r, otype, off_r);
         break;
     default:
-- 
2.25.1

TCG_TARGET_HAS_MEMORY_BSWAP is already unset for this backend,
which means that MO_BSWAP be handled by the middle-end and
will never be seen by the backend.  Thus the indexes used with
qemu_{ld,st}_helpers will always be zero.

Tidy the comments and asserts in tcg_out_qemu_{ld,st}_direct.
It is not that we do not handle bswap "yet", but never will.

Acked-by: Alistair Francis <alistair.francis@wdc.com>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/riscv/tcg-target.c.inc | 64 ++++++++++++++++++++------------------
 1 file changed, 33 insertions(+), 31 deletions(-)

diff --git a/tcg/riscv/tcg-target.c.inc b/tcg/riscv/tcg-target.c.inc
index XXXXXXX..XXXXXXX 100644
--- a/tcg/riscv/tcg-target.c.inc
+++ b/tcg/riscv/tcg-target.c.inc
@@ -XXX,XX +XXX,XX @@ static void tcg_out_mb(TCGContext *s, TCGArg a0)
 /* helper signature: helper_ret_ld_mmu(CPUState *env, target_ulong addr,
  *                                     TCGMemOpIdx oi, uintptr_t ra)
  */
-static void * const qemu_ld_helpers[16] = {
-    [MO_UB]   = helper_ret_ldub_mmu,
-    [MO_SB]   = helper_ret_ldsb_mmu,
-    [MO_LEUW] = helper_le_lduw_mmu,
-    [MO_LESW] = helper_le_ldsw_mmu,
-    [MO_LEUL] = helper_le_ldul_mmu,
+static void * const qemu_ld_helpers[8] = {
+    [MO_UB] = helper_ret_ldub_mmu,
+    [MO_SB] = helper_ret_ldsb_mmu,
+#ifdef HOST_WORDS_BIGENDIAN
+    [MO_UW] = helper_be_lduw_mmu,
+    [MO_SW] = helper_be_ldsw_mmu,
+    [MO_UL] = helper_be_ldul_mmu,
 #if TCG_TARGET_REG_BITS == 64
-    [MO_LESL] = helper_le_ldsl_mmu,
+    [MO_SL] = helper_be_ldsl_mmu,
 #endif
-    [MO_LEQ]  = helper_le_ldq_mmu,
-    [MO_BEUW] = helper_be_lduw_mmu,
-    [MO_BESW] = helper_be_ldsw_mmu,
-    [MO_BEUL] = helper_be_ldul_mmu,
+    [MO_Q]  = helper_be_ldq_mmu,
+#else
+    [MO_UW] = helper_le_lduw_mmu,
+    [MO_SW] = helper_le_ldsw_mmu,
+    [MO_UL] = helper_le_ldul_mmu,
 #if TCG_TARGET_REG_BITS == 64
-    [MO_BESL] = helper_be_ldsl_mmu,
+    [MO_SL] = helper_le_ldsl_mmu,
+#endif
+    [MO_Q]  = helper_le_ldq_mmu,
 #endif
-    [MO_BEQ]  = helper_be_ldq_mmu,
 };
 
 /* helper signature: helper_ret_st_mmu(CPUState *env, target_ulong addr,
  *                                     uintxx_t val, TCGMemOpIdx oi,
  *                                     uintptr_t ra)
  */
-static void * const qemu_st_helpers[16] = {
-    [MO_UB]   = helper_ret_stb_mmu,
-    [MO_LEUW] = helper_le_stw_mmu,
-    [MO_LEUL] = helper_le_stl_mmu,
-    [MO_LEQ]  = helper_le_stq_mmu,
-    [MO_BEUW] = helper_be_stw_mmu,
-    [MO_BEUL] = helper_be_stl_mmu,
-    [MO_BEQ]  = helper_be_stq_mmu,
+static void * const qemu_st_helpers[4] = {
+    [MO_8]   = helper_ret_stb_mmu,
+#ifdef HOST_WORDS_BIGENDIAN
+    [MO_16] = helper_be_stw_mmu,
+    [MO_32] = helper_be_stl_mmu,
+    [MO_64] = helper_be_stq_mmu,
+#else
+    [MO_16] = helper_le_stw_mmu,
+    [MO_32] = helper_le_stl_mmu,
+    [MO_64] = helper_le_stq_mmu,
+#endif
 };
 
 /* We don't support oversize guests */
@@ -XXX,XX +XXX,XX @@ static bool tcg_out_qemu_ld_slow_path(TCGContext *s, TCGLabelQemuLdst *l)
     tcg_out_movi(s, TCG_TYPE_PTR, a2, oi);
     tcg_out_movi(s, TCG_TYPE_PTR, a3, (tcg_target_long)l->raddr);
 
-    tcg_out_call(s, qemu_ld_helpers[opc & (MO_BSWAP | MO_SSIZE)]);
+    tcg_out_call(s, qemu_ld_helpers[opc & MO_SSIZE]);
     tcg_out_mov(s, (opc & MO_SIZE) == MO_64, l->datalo_reg, a0);
 
     tcg_out_goto(s, l->raddr);
@@ -XXX,XX +XXX,XX @@ static bool tcg_out_qemu_st_slow_path(TCGContext *s, TCGLabelQemuLdst *l)
     tcg_out_movi(s, TCG_TYPE_PTR, a3, oi);
     tcg_out_movi(s, TCG_TYPE_PTR, a4, (tcg_target_long)l->raddr);
 
-    tcg_out_call(s, qemu_st_helpers[opc & (MO_BSWAP | MO_SSIZE)]);
+    tcg_out_call(s, qemu_st_helpers[opc & MO_SIZE]);
 
     tcg_out_goto(s, l->raddr);
     return true;
@@ -XXX,XX +XXX,XX @@ static bool tcg_out_qemu_st_slow_path(TCGContext *s, TCGLabelQemuLdst *l)
 static void tcg_out_qemu_ld_direct(TCGContext *s, TCGReg lo, TCGReg hi,
                                    TCGReg base, MemOp opc, bool is_64)
 {
-    const MemOp bswap = opc & MO_BSWAP;
-
-    /* We don't yet handle byteswapping, assert */
-    g_assert(!bswap);
+    /* Byte swapping is left to middle-end expansion. */
+    tcg_debug_assert((opc & MO_BSWAP) == 0);
 
     switch (opc & (MO_SSIZE)) {
     case MO_UB:
@@ -XXX,XX +XXX,XX @@ static void tcg_out_qemu_ld(TCGContext *s, const TCGArg *args, bool is_64)
 static void tcg_out_qemu_st_direct(TCGContext *s, TCGReg lo, TCGReg hi,
                                    TCGReg base, MemOp opc)
 {
-    const MemOp bswap = opc & MO_BSWAP;
-
-    /* We don't yet handle byteswapping, assert */
-    g_assert(!bswap);
+    /* Byte swapping is left to middle-end expansion. */
+    tcg_debug_assert((opc & MO_BSWAP) == 0);
 
     switch (opc & (MO_SSIZE)) {
     case MO_8:
-- 
2.25.1

The following changes since commit aa3a285b5bc56a4208b3b57d4a55291e9c260107:

Merge tag 'mem-2024-12-21' of https://github.com/davidhildenbrand/qemu into staging (2024-12-22 14:33:27 -0500)

are available in the Git repository at:

https://gitlab.com/rth7680/qemu.git tags/pull-tcg-20241224

for you to fetch changes up to e4a8e093dc74be049f4829831dce76e5edab0003:

accel/tcg: Move gen_intermediate_code to TCGCPUOps.translate_core (2024-12-24 08:32:15 -0800)

----------------------------------------------------------------
tcg/optimize: Remove in-flight mask data from OptContext
fpu: Add float*_muladd_scalbn
fpu: Remove float_muladd_halve_result
fpu: Add float_round_nearest_even_max
fpu: Add float_muladd_suppress_add_product_zero
target/hexagon: Use float32_muladd
accel/tcg: Move gen_intermediate_code to TCGCPUOps.translate_core

----------------------------------------------------------------
Ilya Leoshkevich (1):
      tests/tcg: Do not use inttypes.h in multiarch/system/memory.c

Pierrick Bouvier (1):
      plugins: optimize cpu_index code generation

Richard Henderson (70):
      tcg/optimize: Split out finish_bb, finish_ebb
      tcg/optimize: Split out fold_affected_mask
      tcg/optimize: Copy mask writeback to fold_masks
      tcg/optimize: Split out fold_masks_zs
      tcg/optimize: Augment s_mask from z_mask in fold_masks_zs
      tcg/optimize: Change representation of s_mask
      tcg/optimize: Use finish_folding in fold_add, fold_add_vec, fold_addsub2
      tcg/optimize: Introduce const value accessors for TempOptInfo
      tcg/optimize: Use fold_masks_zs in fold_and
      tcg/optimize: Use fold_masks_zs in fold_andc
      tcg/optimize: Use fold_masks_zs in fold_bswap
      tcg/optimize: Use fold_masks_zs in fold_count_zeros
      tcg/optimize: Use fold_masks_z in fold_ctpop
      tcg/optimize: Use fold_and and fold_masks_z in fold_deposit
      tcg/optimize: Compute sign mask in fold_deposit
      tcg/optimize: Use finish_folding in fold_divide
      tcg/optimize: Use finish_folding in fold_dup, fold_dup2
      tcg/optimize: Use fold_masks_s in fold_eqv
      tcg/optimize: Use fold_masks_z in fold_extract
      tcg/optimize: Use finish_folding in fold_extract2
      tcg/optimize: Use fold_masks_zs in fold_exts
      tcg/optimize: Use fold_masks_z in fold_extu
      tcg/optimize: Use fold_masks_zs in fold_movcond
      tcg/optimize: Use finish_folding in fold_mul*
      tcg/optimize: Use fold_masks_s in fold_nand
      tcg/optimize: Use fold_masks_z in fold_neg_no_const
      tcg/optimize: Use fold_masks_s in fold_nor
      tcg/optimize: Use fold_masks_s in fold_not
      tcg/optimize: Use fold_masks_zs in fold_or
      tcg/optimize: Use fold_masks_zs in fold_orc
      tcg/optimize: Use fold_masks_zs in fold_qemu_ld
      tcg/optimize: Return true from fold_qemu_st, fold_tcg_st
      tcg/optimize: Use finish_folding in fold_remainder
      tcg/optimize: Distinguish simplification in fold_setcond_zmask
      tcg/optimize: Use fold_masks_z in fold_setcond
      tcg/optimize: Use fold_masks_s in fold_negsetcond
      tcg/optimize: Use fold_masks_z in fold_setcond2
      tcg/optimize: Use finish_folding in fold_cmp_vec
      tcg/optimize: Use finish_folding in fold_cmpsel_vec
      tcg/optimize: Use fold_masks_zs in fold_sextract
      tcg/optimize: Use fold_masks_zs, fold_masks_s in fold_shift
      tcg/optimize: Simplify sign bit test in fold_shift
      tcg/optimize: Use finish_folding in fold_sub, fold_sub_vec
      tcg/optimize: Use fold_masks_zs in fold_tcg_ld
      tcg/optimize: Use finish_folding in fold_tcg_ld_memcopy
      tcg/optimize: Use fold_masks_zs in fold_xor
      tcg/optimize: Use finish_folding in fold_bitsel_vec
      tcg/optimize: Use finish_folding as default in tcg_optimize
      tcg/optimize: Remove z_mask, s_mask from OptContext
      tcg/optimize: Re-enable sign-mask optimizations
      tcg/optimize: Move fold_bitsel_vec into alphabetic sort
      tcg/optimize: Move fold_cmp_vec, fold_cmpsel_vec into alphabetic sort
      softfloat: Add float{16,32,64}_muladd_scalbn
      target/arm: Use float*_muladd_scalbn
      target/sparc: Use float*_muladd_scalbn
      softfloat: Remove float_muladd_halve_result
      softfloat: Add float_round_nearest_even_max
      softfloat: Add float_muladd_suppress_add_product_zero
      target/hexagon: Use float32_mul in helper_sfmpy
      target/hexagon: Use float32_muladd for helper_sffma
      target/hexagon: Use float32_muladd for helper_sffms
      target/hexagon: Use float32_muladd_scalbn for helper_sffma_sc
      target/hexagon: Use float32_muladd for helper_sffm[as]_lib
      target/hexagon: Remove internal_fmafx
      target/hexagon: Expand GEN_XF_ROUND
      target/hexagon: Remove Float
      target/hexagon: Remove Double
      target/hexagon: Use mulu64 for int128_mul_6464
      target/hexagon: Simplify internal_mpyhh setup
      accel/tcg: Move gen_intermediate_code to TCGCPUOps.translate_core

From: Ilya Leoshkevich <iii@linux.ibm.com>

make check-tcg fails on Fedora with the following error message:

alpha-linux-gnu-gcc [...] qemu/tests/tcg/multiarch/system/memory.c -o memory [...]
    qemu/tests/tcg/multiarch/system/memory.c:17:10: fatal error: inttypes.h: No such file or directory
       17 | #include <inttypes.h>
          |          ^~~~~~~~~~~~
    compilation terminated.

The reason is that Fedora has cross-compilers, but no cross-glibc
headers. Fix by hardcoding the format specifiers and dropping the
include.

An alternative fix would be to introduce a configure check for
inttypes.h. But this would make it impossible to use Fedora
cross-compilers for softmmu tests, which used to work so far.

Fixes: ecbcc9ead2f8 ("tests/tcg: add a system test to check memory instrumentation")
Signed-off-by: Ilya Leoshkevich <iii@linux.ibm.com>
Reviewed-by: Paolo Bonzini <pbonzini@redhat.com>
Message-ID: <20241010085906.226249-1-iii@linux.ibm.com>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tests/tcg/multiarch/system/memory.c | 9 ++++-----
 1 file changed, 4 insertions(+), 5 deletions(-)

diff --git a/tests/tcg/multiarch/system/memory.c b/tests/tcg/multiarch/system/memory.c
index XXXXXXX..XXXXXXX 100644
--- a/tests/tcg/multiarch/system/memory.c
+++ b/tests/tcg/multiarch/system/memory.c
@@ -XXX,XX +XXX,XX @@
 
 #include <stdint.h>
 #include <stdbool.h>
-#include <inttypes.h>
 #include <minilib.h>
 
 #ifndef CHECK_UNALIGNED
@@ -XXX,XX +XXX,XX @@ int main(void)
     int i;
     bool ok = true;
 
-    ml_printf("Test data start: 0x%"PRIxPTR"\n", &test_data[0]);
-    ml_printf("Test data end: 0x%"PRIxPTR"\n", &test_data[TEST_SIZE]);
+    ml_printf("Test data start: 0x%lx\n", (unsigned long)&test_data[0]);
+    ml_printf("Test data end: 0x%lx\n", (unsigned long)&test_data[TEST_SIZE]);
 
     /* Run through the unsigned tests first */
     for (i = 0; i < ARRAY_SIZE(init_ufns) && ok; i++) {
@@ -XXX,XX +XXX,XX @@ int main(void)
         ok = do_signed_reads(true);
     }
 
-    ml_printf("Test data read: %"PRId32"\n", test_read_count);
-    ml_printf("Test data write: %"PRId32"\n", test_write_count);
+    ml_printf("Test data read: %lu\n", (unsigned long)test_read_count);
+    ml_printf("Test data write: %lu\n", (unsigned long)test_write_count);
     ml_printf("Test complete: %s\n", ok ? "PASSED" : "FAILED");
     return ok ? 0 : -1;
 }
-- 
2.43.0

From: Pierrick Bouvier <pierrick.bouvier@linaro.org>

When running with a single vcpu, we can return a constant instead of a
load when accessing cpu_index.
A side effect is that all tcg operations using it are optimized, most
notably scoreboard access.
When running a simple loop in user-mode, the speedup is around 20%.

Signed-off-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-ID: <20241128213843.1023080-1-pierrick.bouvier@linaro.org>
---
 accel/tcg/plugin-gen.c | 9 +++++++++
 1 file changed, 9 insertions(+)

diff --git a/accel/tcg/plugin-gen.c b/accel/tcg/plugin-gen.c
index XXXXXXX..XXXXXXX 100644
--- a/accel/tcg/plugin-gen.c
+++ b/accel/tcg/plugin-gen.c
@@ -XXX,XX +XXX,XX @@ static void gen_disable_mem_helper(void)
 
 static TCGv_i32 gen_cpu_index(void)
 {
+    /*
+     * Optimize when we run with a single vcpu. All values using cpu_index,
+     * including scoreboard index, will be optimized out.
+     * User-mode calls tb_flush when setting this flag. In system-mode, all
+     * vcpus are created before generating code.
+     */
+    if (!tcg_cflags_has(current_cpu, CF_PARALLEL)) {
+        return tcg_constant_i32(current_cpu->cpu_index);
+    }
     TCGv_i32 cpu_index = tcg_temp_ebb_new_i32();
     tcg_gen_ld_i32(cpu_index, tcg_env,
                    -offsetof(ArchCPU, env) + offsetof(CPUState, cpu_index));
-- 
2.43.0

Call them directly from the opcode switch statement in tcg_optimize,
rather than in finish_folding based on opcode flags.  Adjust folding
of conditional branches to match.

Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/optimize.c | 47 +++++++++++++++++++++++++++++++----------------
 1 file changed, 31 insertions(+), 16 deletions(-)

diff --git a/tcg/optimize.c b/tcg/optimize.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/optimize.c
+++ b/tcg/optimize.c
@@ -XXX,XX +XXX,XX @@ static void copy_propagate(OptContext *ctx, TCGOp *op,
     }
 }
 
+static void finish_bb(OptContext *ctx)
+{
+    /* We only optimize memory barriers across basic blocks. */
+    ctx->prev_mb = NULL;
+}
+
+static void finish_ebb(OptContext *ctx)
+{
+    finish_bb(ctx);
+    /* We only optimize across extended basic blocks. */
+    memset(&ctx->temps_used, 0, sizeof(ctx->temps_used));
+    remove_mem_copy_all(ctx);
+}
+
 static void finish_folding(OptContext *ctx, TCGOp *op)
 {
     const TCGOpDef *def = &tcg_op_defs[op->opc];
     int i, nb_oargs;
 
-    /*
-     * We only optimize extended basic blocks.  If the opcode ends a BB
-     * and is not a conditional branch, reset all temp data.
-     */
-    if (def->flags & TCG_OPF_BB_END) {
-        ctx->prev_mb = NULL;
-        if (!(def->flags & TCG_OPF_COND_BRANCH)) {
-            memset(&ctx->temps_used, 0, sizeof(ctx->temps_used));
-            remove_mem_copy_all(ctx);
-        }
-        return;
-    }
-
     nb_oargs = def->nb_oargs;
     for (i = 0; i < nb_oargs; i++) {
         TCGTemp *ts = arg_temp(op->args[i]);
@@ -XXX,XX +XXX,XX @@ static bool fold_brcond(OptContext *ctx, TCGOp *op)
     if (i > 0) {
         op->opc = INDEX_op_br;
         op->args[0] = op->args[3];
+        finish_ebb(ctx);
+    } else {
+        finish_bb(ctx);
     }
-    return false;
+    return true;
 }
 
 static bool fold_brcond2(OptContext *ctx, TCGOp *op)
@@ -XXX,XX +XXX,XX @@ static bool fold_brcond2(OptContext *ctx, TCGOp *op)
         }
         op->opc = INDEX_op_br;
         op->args[0] = label;
-        break;
+        finish_ebb(ctx);
+        return true;
     }
-    return false;
+
+    finish_bb(ctx);
+    return true;
 }
 
 static bool fold_bswap(OptContext *ctx, TCGOp *op)
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
         CASE_OP_32_64_VEC(xor):
             done = fold_xor(&ctx, op);
             break;
+        case INDEX_op_set_label:
+        case INDEX_op_br:
+        case INDEX_op_exit_tb:
+        case INDEX_op_goto_tb:
+        case INDEX_op_goto_ptr:
+            finish_ebb(&ctx);
+            done = true;
+            break;
         default:
             break;
         }
-- 
2.43.0

There are only a few logical operations which can compute
an "affected" mask.  Split out handling of this optimization
to a separate function, only to be called when applicable.

Remove the a_mask field from OptContext, as the mask is
no longer stored anywhere.

Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/optimize.c | 42 +++++++++++++++++++++++++++---------------
 1 file changed, 27 insertions(+), 15 deletions(-)

diff --git a/tcg/optimize.c b/tcg/optimize.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/optimize.c
+++ b/tcg/optimize.c
@@ -XXX,XX +XXX,XX @@ typedef struct OptContext {
     QSIMPLEQ_HEAD(, MemCopyInfo) mem_free;
 
     /* In flight values from optimization. */
-    uint64_t a_mask;  /* mask bit is 0 iff value identical to first input */
     uint64_t z_mask;  /* mask bit is 0 iff value bit is 0 */
     uint64_t s_mask;  /* mask of clrsb(value) bits */
     TCGType type;
@@ -XXX,XX +XXX,XX @@ static bool fold_const2_commutative(OptContext *ctx, TCGOp *op)
 
 static bool fold_masks(OptContext *ctx, TCGOp *op)
 {
-    uint64_t a_mask = ctx->a_mask;
     uint64_t z_mask = ctx->z_mask;
     uint64_t s_mask = ctx->s_mask;
 
@@ -XXX,XX +XXX,XX @@ static bool fold_masks(OptContext *ctx, TCGOp *op)
      * type changing opcodes.
      */
     if (ctx->type == TCG_TYPE_I32) {
-        a_mask = (int32_t)a_mask;
         z_mask = (int32_t)z_mask;
         s_mask |= MAKE_64BIT_MASK(32, 32);
         ctx->z_mask = z_mask;
@@ -XXX,XX +XXX,XX @@ static bool fold_masks(OptContext *ctx, TCGOp *op)
     if (z_mask == 0) {
         return tcg_opt_gen_movi(ctx, op, op->args[0], 0);
     }
+    return false;
+}
+
+/*
+ * An "affected" mask bit is 0 if and only if the result is identical
+ * to the first input.  Thus if the entire mask is 0, the operation
+ * is equivalent to a copy.
+ */
+static bool fold_affected_mask(OptContext *ctx, TCGOp *op, uint64_t a_mask)
+{
+    if (ctx->type == TCG_TYPE_I32) {
+        a_mask = (uint32_t)a_mask;
+    }
     if (a_mask == 0) {
         return tcg_opt_gen_mov(ctx, op, op->args[0], op->args[1]);
     }
@@ -XXX,XX +XXX,XX @@ static bool fold_and(OptContext *ctx, TCGOp *op)
      * Known-zeros does not imply known-ones.  Therefore unless
      * arg2 is constant, we can't infer affected bits from it.
      */
-    if (arg_is_const(op->args[2])) {
-        ctx->a_mask = z1 & ~z2;
+    if (arg_is_const(op->args[2]) &&
+        fold_affected_mask(ctx, op, z1 & ~z2)) {
+        return true;
     }
 
     return fold_masks(ctx, op);
@@ -XXX,XX +XXX,XX @@ static bool fold_andc(OptContext *ctx, TCGOp *op)
      */
     if (arg_is_const(op->args[2])) {
         uint64_t z2 = ~arg_info(op->args[2])->z_mask;
-        ctx->a_mask = z1 & ~z2;
+        if (fold_affected_mask(ctx, op, z1 & ~z2)) {
+            return true;
+        }
         z1 &= z2;
     }
     ctx->z_mask = z1;
@@ -XXX,XX +XXX,XX @@ static bool fold_extract(OptContext *ctx, TCGOp *op)
 
     z_mask_old = arg_info(op->args[1])->z_mask;
     z_mask = extract64(z_mask_old, pos, len);
-    if (pos == 0) {
-        ctx->a_mask = z_mask_old ^ z_mask;
+    if (pos == 0 && fold_affected_mask(ctx, op, z_mask_old ^ z_mask)) {
+        return true;
     }
     ctx->z_mask = z_mask;
     ctx->s_mask = smask_from_zmask(z_mask);
@@ -XXX,XX +XXX,XX @@ static bool fold_exts(OptContext *ctx, TCGOp *op)
 
     ctx->z_mask = z_mask;
     ctx->s_mask = s_mask;
-    if (!type_change) {
-        ctx->a_mask = s_mask & ~s_mask_old;
+    if (!type_change && fold_affected_mask(ctx, op, s_mask & ~s_mask_old)) {
+        return true;
     }
 
     return fold_masks(ctx, op);
@@ -XXX,XX +XXX,XX @@ static bool fold_extu(OptContext *ctx, TCGOp *op)
 
     ctx->z_mask = z_mask;
     ctx->s_mask = smask_from_zmask(z_mask);
-    if (!type_change) {
-        ctx->a_mask = z_mask_old ^ z_mask;
+    if (!type_change && fold_affected_mask(ctx, op, z_mask_old ^ z_mask)) {
+        return true;
     }
     return fold_masks(ctx, op);
 }
@@ -XXX,XX +XXX,XX @@ static bool fold_sextract(OptContext *ctx, TCGOp *op)
     s_mask |= MAKE_64BIT_MASK(len, 64 - len);
     ctx->s_mask = s_mask;
 
-    if (pos == 0) {
-        ctx->a_mask = s_mask & ~s_mask_old;
+    if (pos == 0 && fold_affected_mask(ctx, op, s_mask & ~s_mask_old)) {
+        return true;
     }
 
     return fold_masks(ctx, op);
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
         }
 
         /* Assume all bits affected, no bits known zero, no sign reps. */
-        ctx.a_mask = -1;
         ctx.z_mask = -1;
         ctx.s_mask = 0;
 
-- 
2.43.0

Use of fold_masks should be restricted to those opcodes that
can reliably make use of it -- those with a single output,
and from higher-level folders that set up the masks.
Prepare for conversion of each folder in turn.

Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/optimize.c | 17 ++++++++++++++---
 1 file changed, 14 insertions(+), 3 deletions(-)

diff --git a/tcg/optimize.c b/tcg/optimize.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/optimize.c
+++ b/tcg/optimize.c
@@ -XXX,XX +XXX,XX @@ static bool fold_masks(OptContext *ctx, TCGOp *op)
 {
     uint64_t z_mask = ctx->z_mask;
     uint64_t s_mask = ctx->s_mask;
+    const TCGOpDef *def = &tcg_op_defs[op->opc];
+    TCGTemp *ts;
+    TempOptInfo *ti;
+
+    /* Only single-output opcodes are supported here. */
+    tcg_debug_assert(def->nb_oargs == 1);
 
     /*
      * 32-bit ops generate 32-bit results, which for the purpose of
@@ -XXX,XX +XXX,XX @@ static bool fold_masks(OptContext *ctx, TCGOp *op)
     if (ctx->type == TCG_TYPE_I32) {
         z_mask = (int32_t)z_mask;
         s_mask |= MAKE_64BIT_MASK(32, 32);
-        ctx->z_mask = z_mask;
-        ctx->s_mask = s_mask;
     }
 
     if (z_mask == 0) {
         return tcg_opt_gen_movi(ctx, op, op->args[0], 0);
     }
-    return false;
+
+    ts = arg_temp(op->args[0]);
+    reset_ts(ctx, ts);
+
+    ti = ts_info(ts);
+    ti->z_mask = z_mask;
+    ti->s_mask = s_mask;
+    return true;
 }
 
 /*
-- 
2.43.0

Add a routine to which masks can be passed directly, rather than
storing them into OptContext.  To be used in upcoming patches.

Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/optimize.c | 15 ++++++++++++---
 1 file changed, 12 insertions(+), 3 deletions(-)

diff --git a/tcg/optimize.c b/tcg/optimize.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/optimize.c
+++ b/tcg/optimize.c
@@ -XXX,XX +XXX,XX @@ static bool fold_const2_commutative(OptContext *ctx, TCGOp *op)
     return fold_const2(ctx, op);
 }
 
-static bool fold_masks(OptContext *ctx, TCGOp *op)
+/*
+ * Record "zero" and "sign" masks for the single output of @op.
+ * See TempOptInfo definition of z_mask and s_mask.
+ * If z_mask allows, fold the output to constant zero.
+ */
+static bool fold_masks_zs(OptContext *ctx, TCGOp *op,
+                          uint64_t z_mask, uint64_t s_mask)
 {
-    uint64_t z_mask = ctx->z_mask;
-    uint64_t s_mask = ctx->s_mask;
     const TCGOpDef *def = &tcg_op_defs[op->opc];
     TCGTemp *ts;
     TempOptInfo *ti;
@@ -XXX,XX +XXX,XX @@ static bool fold_masks(OptContext *ctx, TCGOp *op)
     return true;
 }
 
+static bool fold_masks(OptContext *ctx, TCGOp *op)
+{
+    return fold_masks_zs(ctx, op, ctx->z_mask, ctx->s_mask);
+}
+
 /*
  * An "affected" mask bit is 0 if and only if the result is identical
  * to the first input.  Thus if the entire mask is 0, the operation
-- 
2.43.0

Consider the passed s_mask to be a minimum deduced from
either existing s_mask or from a sign-extension operation.
We may be able to deduce more from the set of known zeros.
Remove identical logic from several opcode folders.

Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/optimize.c | 21 ++++++---------------
 1 file changed, 6 insertions(+), 15 deletions(-)

diff --git a/tcg/optimize.c b/tcg/optimize.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/optimize.c
+++ b/tcg/optimize.c
@@ -XXX,XX +XXX,XX @@ static bool fold_const2_commutative(OptContext *ctx, TCGOp *op)
  * Record "zero" and "sign" masks for the single output of @op.
  * See TempOptInfo definition of z_mask and s_mask.
  * If z_mask allows, fold the output to constant zero.
+ * The passed s_mask may be augmented by z_mask.
  */
 static bool fold_masks_zs(OptContext *ctx, TCGOp *op,
                           uint64_t z_mask, uint64_t s_mask)
@@ -XXX,XX +XXX,XX @@ static bool fold_masks_zs(OptContext *ctx, TCGOp *op,
 
     ti = ts_info(ts);
     ti->z_mask = z_mask;
-    ti->s_mask = s_mask;
+    ti->s_mask = s_mask | smask_from_zmask(z_mask);
     return true;
 }
 
@@ -XXX,XX +XXX,XX @@ static bool fold_bswap(OptContext *ctx, TCGOp *op)
     default:
         g_assert_not_reached();
     }
-    s_mask = smask_from_zmask(z_mask);
 
+    s_mask = 0;
     switch (op->args[2] & (TCG_BSWAP_OZ | TCG_BSWAP_OS)) {
     case TCG_BSWAP_OZ:
         break;
@@ -XXX,XX +XXX,XX @@ static bool fold_bswap(OptContext *ctx, TCGOp *op)
     default:
         /* The high bits are undefined: force all bits above the sign to 1. */
         z_mask |= sign << 1;
-        s_mask = 0;
         break;
     }
     ctx->z_mask = z_mask;
@@ -XXX,XX +XXX,XX @@ static bool fold_count_zeros(OptContext *ctx, TCGOp *op)
         g_assert_not_reached();
     }
     ctx->z_mask = arg_info(op->args[2])->z_mask | z_mask;
-    ctx->s_mask = smask_from_zmask(ctx->z_mask);
     return false;
 }
 
@@ -XXX,XX +XXX,XX @@ static bool fold_ctpop(OptContext *ctx, TCGOp *op)
     default:
         g_assert_not_reached();
     }
-    ctx->s_mask = smask_from_zmask(ctx->z_mask);
     return false;
 }
 
@@ -XXX,XX +XXX,XX @@ static bool fold_extract(OptContext *ctx, TCGOp *op)
         return true;
     }
     ctx->z_mask = z_mask;
-    ctx->s_mask = smask_from_zmask(z_mask);
 
     return fold_masks(ctx, op);
 }
@@ -XXX,XX +XXX,XX @@ static bool fold_extu(OptContext *ctx, TCGOp *op)
     }
 
     ctx->z_mask = z_mask;
-    ctx->s_mask = smask_from_zmask(z_mask);
     if (!type_change && fold_affected_mask(ctx, op, z_mask_old ^ z_mask)) {
         return true;
     }
@@ -XXX,XX +XXX,XX @@ static bool fold_qemu_ld(OptContext *ctx, TCGOp *op)
     int width = 8 * memop_size(mop);
 
     if (width < 64) {
-        ctx->s_mask = MAKE_64BIT_MASK(width, 64 - width);
-        if (!(mop & MO_SIGN)) {
+        if (mop & MO_SIGN) {
+            ctx->s_mask = MAKE_64BIT_MASK(width, 64 - width);
+        } else {
             ctx->z_mask = MAKE_64BIT_MASK(0, width);
-            ctx->s_mask <<= 1;
         }
     }
 
@@ -XXX,XX +XXX,XX @@ static bool fold_setcond(OptContext *ctx, TCGOp *op)
     fold_setcond_tst_pow2(ctx, op, false);
 
     ctx->z_mask = 1;
-    ctx->s_mask = smask_from_zmask(1);
     return false;
 }
 
@@ -XXX,XX +XXX,XX @@ static bool fold_setcond2(OptContext *ctx, TCGOp *op)
     }
 
     ctx->z_mask = 1;
-    ctx->s_mask = smask_from_zmask(1);
     return false;
 
  do_setcond_const:
@@ -XXX,XX +XXX,XX @@ static bool fold_tcg_ld(OptContext *ctx, TCGOp *op)
         break;
     CASE_OP_32_64(ld8u):
         ctx->z_mask = MAKE_64BIT_MASK(0, 8);
-        ctx->s_mask = MAKE_64BIT_MASK(9, 55);
         break;
     CASE_OP_32_64(ld16s):
         ctx->s_mask = MAKE_64BIT_MASK(16, 48);
         break;
     CASE_OP_32_64(ld16u):
         ctx->z_mask = MAKE_64BIT_MASK(0, 16);
-        ctx->s_mask = MAKE_64BIT_MASK(17, 47);
         break;
     case INDEX_op_ld32s_i64:
         ctx->s_mask = MAKE_64BIT_MASK(32, 32);
         break;
     case INDEX_op_ld32u_i64:
         ctx->z_mask = MAKE_64BIT_MASK(0, 32);
-        ctx->s_mask = MAKE_64BIT_MASK(33, 31);
         break;
     default:
         g_assert_not_reached();
-- 
2.43.0

Change the representation from sign bit repetitions to all bits equal
to the sign bit, including the sign bit itself.

The previous format has a problem in that it is difficult to recreate
a valid sign mask after a shift operation: the "repetitions" part of
the previous format meant that applying the same shift as for the value
lead to an off-by-one value.

The new format, including the sign bit itself, means that the sign mask
can be manipulated in exactly the same way as the value, canonicalization
is easier.

Canonicalize the s_mask in fold_masks_zs, rather than requiring callers
to do so.  Treat 0 as a non-canonical but typeless input for no sign
information, which will be reset as appropriate for the data type.
We can easily fold in the data from z_mask while canonicalizing.

Temporarily disable optimizations using s_mask while each operation is
converted to use fold_masks_zs and to the new form.

Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/optimize.c | 64 ++++++++++++--------------------------------------
 1 file changed, 15 insertions(+), 49 deletions(-)

diff --git a/tcg/optimize.c b/tcg/optimize.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/optimize.c
+++ b/tcg/optimize.c
@@ -XXX,XX +XXX,XX @@ typedef struct TempOptInfo {
     QSIMPLEQ_HEAD(, MemCopyInfo) mem_copy;
     uint64_t val;
     uint64_t z_mask;  /* mask bit is 0 if and only if value bit is 0 */
-    uint64_t s_mask;  /* a left-aligned mask of clrsb(value) bits. */
+    uint64_t s_mask;  /* mask bit is 1 if value bit matches msb */
 } TempOptInfo;
 
 typedef struct OptContext {
@@ -XXX,XX +XXX,XX @@ typedef struct OptContext {
 
     /* In flight values from optimization. */
     uint64_t z_mask;  /* mask bit is 0 iff value bit is 0 */
-    uint64_t s_mask;  /* mask of clrsb(value) bits */
+    uint64_t s_mask;  /* mask bit is 1 if value bit matches msb */
     TCGType type;
 } OptContext;
 
-/* Calculate the smask for a specific value. */
-static uint64_t smask_from_value(uint64_t value)
-{
-    int rep = clrsb64(value);
-    return ~(~0ull >> rep);
-}
-
-/*
- * Calculate the smask for a given set of known-zeros.
- * If there are lots of zeros on the left, we can consider the remainder
- * an unsigned field, and thus the corresponding signed field is one bit
- * larger.
- */
-static uint64_t smask_from_zmask(uint64_t zmask)
-{
-    /*
-     * Only the 0 bits are significant for zmask, thus the msb itself
-     * must be zero, else we have no sign information.
-     */
-    int rep = clz64(zmask);
-    if (rep == 0) {
-        return 0;
-    }
-    rep -= 1;
-    return ~(~0ull >> rep);
-}
-
-/*
- * Recreate a properly left-aligned smask after manipulation.
- * Some bit-shuffling, particularly shifts and rotates, may
- * retain sign bits on the left, but may scatter disconnected
- * sign bits on the right.  Retain only what remains to the left.
- */
-static uint64_t smask_from_smask(int64_t smask)
-{
-    /* Only the 1 bits are significant for smask */
-    return smask_from_zmask(~smask);
-}
-
 static inline TempOptInfo *ts_info(TCGTemp *ts)
 {
     return ts->state_ptr;
@@ -XXX,XX +XXX,XX @@ static void init_ts_info(OptContext *ctx, TCGTemp *ts)
         ti->is_const = true;
         ti->val = ts->val;
         ti->z_mask = ts->val;
-        ti->s_mask = smask_from_value(ts->val);
+        ti->s_mask = INT64_MIN >> clrsb64(ts->val);
     } else {
         ti->is_const = false;
         ti->z_mask = -1;
@@ -XXX,XX +XXX,XX @@ static void finish_folding(OptContext *ctx, TCGOp *op)
          */
         if (i == 0) {
             ts_info(ts)->z_mask = ctx->z_mask;
-            ts_info(ts)->s_mask = ctx->s_mask;
         }
     }
 }
@@ -XXX,XX +XXX,XX @@ static bool fold_const2_commutative(OptContext *ctx, TCGOp *op)
  * The passed s_mask may be augmented by z_mask.
  */
 static bool fold_masks_zs(OptContext *ctx, TCGOp *op,
-                          uint64_t z_mask, uint64_t s_mask)
+                          uint64_t z_mask, int64_t s_mask)
 {
     const TCGOpDef *def = &tcg_op_defs[op->opc];
     TCGTemp *ts;
     TempOptInfo *ti;
+    int rep;
 
     /* Only single-output opcodes are supported here. */
     tcg_debug_assert(def->nb_oargs == 1);
@@ -XXX,XX +XXX,XX @@ static bool fold_masks_zs(OptContext *ctx, TCGOp *op,
      */
     if (ctx->type == TCG_TYPE_I32) {
         z_mask = (int32_t)z_mask;
-        s_mask |= MAKE_64BIT_MASK(32, 32);
+        s_mask |= INT32_MIN;
     }
 
     if (z_mask == 0) {
@@ -XXX,XX +XXX,XX @@ static bool fold_masks_zs(OptContext *ctx, TCGOp *op,
 
     ti = ts_info(ts);
     ti->z_mask = z_mask;
-    ti->s_mask = s_mask | smask_from_zmask(z_mask);
+
+    /* Canonicalize s_mask and incorporate data from z_mask. */
+    rep = clz64(~s_mask);
+    rep = MAX(rep, clz64(z_mask));
+    rep = MAX(rep - 1, 0);
+    ti->s_mask = INT64_MIN >> rep;
+
     return true;
 }
 
@@ -XXX,XX +XXX,XX @@ static bool fold_exts(OptContext *ctx, TCGOp *op)
 
     ctx->z_mask = z_mask;
     ctx->s_mask = s_mask;
-    if (!type_change && fold_affected_mask(ctx, op, s_mask & ~s_mask_old)) {
+    if (0 && !type_change && fold_affected_mask(ctx, op, s_mask & ~s_mask_old)) {
         return true;
     }
 
@@ -XXX,XX +XXX,XX @@ static bool fold_sextract(OptContext *ctx, TCGOp *op)
     s_mask |= MAKE_64BIT_MASK(len, 64 - len);
     ctx->s_mask = s_mask;
 
-    if (pos == 0 && fold_affected_mask(ctx, op, s_mask & ~s_mask_old)) {
+    if (0 && pos == 0 && fold_affected_mask(ctx, op, s_mask & ~s_mask_old)) {
         return true;
     }
 
@@ -XXX,XX +XXX,XX @@ static bool fold_shift(OptContext *ctx, TCGOp *op)
         ctx->z_mask = do_constant_folding(op->opc, ctx->type, z_mask, sh);
 
         s_mask = do_constant_folding(op->opc, ctx->type, s_mask, sh);
-        ctx->s_mask = smask_from_smask(s_mask);
 
         return fold_masks(ctx, op);
     }
-- 
2.43.0

Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/optimize.c | 9 +++++----
 1 file changed, 5 insertions(+), 4 deletions(-)

diff --git a/tcg/optimize.c b/tcg/optimize.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/optimize.c
+++ b/tcg/optimize.c
@@ -XXX,XX +XXX,XX @@ static void finish_ebb(OptContext *ctx)
     remove_mem_copy_all(ctx);
 }
 
-static void finish_folding(OptContext *ctx, TCGOp *op)
+static bool finish_folding(OptContext *ctx, TCGOp *op)
 {
     const TCGOpDef *def = &tcg_op_defs[op->opc];
     int i, nb_oargs;
@@ -XXX,XX +XXX,XX @@ static void finish_folding(OptContext *ctx, TCGOp *op)
             ts_info(ts)->z_mask = ctx->z_mask;
         }
     }
+    return true;
 }
 
 /*
@@ -XXX,XX +XXX,XX @@ static bool fold_add(OptContext *ctx, TCGOp *op)
         fold_xi_to_x(ctx, op, 0)) {
         return true;
     }
-    return false;
+    return finish_folding(ctx, op);
 }
 
 /* We cannot as yet do_constant_folding with vectors. */
@@ -XXX,XX +XXX,XX @@ static bool fold_add_vec(OptContext *ctx, TCGOp *op)
         fold_xi_to_x(ctx, op, 0)) {
         return true;
     }
-    return false;
+    return finish_folding(ctx, op);
 }
 
 static bool fold_addsub2(OptContext *ctx, TCGOp *op, bool add)
@@ -XXX,XX +XXX,XX @@ static bool fold_addsub2(OptContext *ctx, TCGOp *op, bool add)
         op->args[4] = arg_new_constant(ctx, bl);
         op->args[5] = arg_new_constant(ctx, bh);
     }
-    return false;
+    return finish_folding(ctx, op);
 }
 
 static bool fold_add2(OptContext *ctx, TCGOp *op)
-- 
2.43.0

Introduce ti_is_const, ti_const_val, ti_is_const_val.

Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/optimize.c | 20 +++++++++++++++++---
 1 file changed, 17 insertions(+), 3 deletions(-)

diff --git a/tcg/optimize.c b/tcg/optimize.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/optimize.c
+++ b/tcg/optimize.c
@@ -XXX,XX +XXX,XX @@ static inline TempOptInfo *arg_info(TCGArg arg)
     return ts_info(arg_temp(arg));
 }
 
+static inline bool ti_is_const(TempOptInfo *ti)
+{
+    return ti->is_const;
+}
+
+static inline uint64_t ti_const_val(TempOptInfo *ti)
+{
+    return ti->val;
+}
+
+static inline bool ti_is_const_val(TempOptInfo *ti, uint64_t val)
+{
+    return ti_is_const(ti) && ti_const_val(ti) == val;
+}
+
 static inline bool ts_is_const(TCGTemp *ts)
 {
-    return ts_info(ts)->is_const;
+    return ti_is_const(ts_info(ts));
 }
 
 static inline bool ts_is_const_val(TCGTemp *ts, uint64_t val)
 {
-    TempOptInfo *ti = ts_info(ts);
-    return ti->is_const && ti->val == val;
+    return ti_is_const_val(ts_info(ts), val);
 }
 
 static inline bool arg_is_const(TCGArg arg)
-- 
2.43.0

Avoid the use of the OptContext slots.  Find TempOptInfo once.
Sink mask computation below fold_affected_mask early exit.

Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/optimize.c | 30 ++++++++++++++++--------------
 1 file changed, 16 insertions(+), 14 deletions(-)

diff --git a/tcg/optimize.c b/tcg/optimize.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/optimize.c
+++ b/tcg/optimize.c
@@ -XXX,XX +XXX,XX @@ static bool fold_add2(OptContext *ctx, TCGOp *op)
 
 static bool fold_and(OptContext *ctx, TCGOp *op)
 {
-    uint64_t z1, z2;
+    uint64_t z1, z2, z_mask, s_mask;
+    TempOptInfo *t1, *t2;
 
     if (fold_const2_commutative(ctx, op) ||
         fold_xi_to_i(ctx, op, 0) ||
@@ -XXX,XX +XXX,XX @@ static bool fold_and(OptContext *ctx, TCGOp *op)
         return true;
     }
 
-    z1 = arg_info(op->args[1])->z_mask;
-    z2 = arg_info(op->args[2])->z_mask;
-    ctx->z_mask = z1 & z2;
-
-    /*
-     * Sign repetitions are perforce all identical, whether they are 1 or 0.
-     * Bitwise operations preserve the relative quantity of the repetitions.
-     */
-    ctx->s_mask = arg_info(op->args[1])->s_mask
-                & arg_info(op->args[2])->s_mask;
+    t1 = arg_info(op->args[1]);
+    t2 = arg_info(op->args[2]);
+    z1 = t1->z_mask;
+    z2 = t2->z_mask;
 
     /*
      * Known-zeros does not imply known-ones.  Therefore unless
      * arg2 is constant, we can't infer affected bits from it.
      */
-    if (arg_is_const(op->args[2]) &&
-        fold_affected_mask(ctx, op, z1 & ~z2)) {
+    if (ti_is_const(t2) && fold_affected_mask(ctx, op, z1 & ~z2)) {
         return true;
     }
 
-    return fold_masks(ctx, op);
+    z_mask = z1 & z2;
+
+    /*
+     * Sign repetitions are perforce all identical, whether they are 1 or 0.
+     * Bitwise operations preserve the relative quantity of the repetitions.
+     */
+    s_mask = t1->s_mask & t2->s_mask;
+
+    return fold_masks_zs(ctx, op, z_mask, s_mask);
 }
 
 static bool fold_andc(OptContext *ctx, TCGOp *op)
-- 
2.43.0

Avoid the use of the OptContext slots.  Find TempOptInfo once.
Avoid double inversion of the value of second const operand.

Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/optimize.c | 21 +++++++++++----------
 1 file changed, 11 insertions(+), 10 deletions(-)

diff --git a/tcg/optimize.c b/tcg/optimize.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/optimize.c
+++ b/tcg/optimize.c
@@ -XXX,XX +XXX,XX @@ static bool fold_and(OptContext *ctx, TCGOp *op)
 
 static bool fold_andc(OptContext *ctx, TCGOp *op)
 {
-    uint64_t z1;
+    uint64_t z_mask, s_mask;
+    TempOptInfo *t1, *t2;
 
     if (fold_const2(ctx, op) ||
         fold_xx_to_i(ctx, op, 0) ||
@@ -XXX,XX +XXX,XX @@ static bool fold_andc(OptContext *ctx, TCGOp *op)
         return true;
     }
 
-    z1 = arg_info(op->args[1])->z_mask;
+    t1 = arg_info(op->args[1]);
+    t2 = arg_info(op->args[2]);
+    z_mask = t1->z_mask;
 
     /*
      * Known-zeros does not imply known-ones.  Therefore unless
      * arg2 is constant, we can't infer anything from it.
      */
-    if (arg_is_const(op->args[2])) {
-        uint64_t z2 = ~arg_info(op->args[2])->z_mask;
-        if (fold_affected_mask(ctx, op, z1 & ~z2)) {
+    if (ti_is_const(t2)) {
+        uint64_t v2 = ti_const_val(t2);
+        if (fold_affected_mask(ctx, op, z_mask & v2)) {
             return true;
         }
-        z1 &= z2;
+        z_mask &= ~v2;
     }
-    ctx->z_mask = z1;
 
-    ctx->s_mask = arg_info(op->args[1])->s_mask
-                & arg_info(op->args[2])->s_mask;
-    return fold_masks(ctx, op);
+    s_mask = t1->s_mask & t2->s_mask;
+    return fold_masks_zs(ctx, op, z_mask, s_mask);
 }
 
 static bool fold_brcond(OptContext *ctx, TCGOp *op)
-- 
2.43.0

Avoid the use of the OptContext slots.  Find TempOptInfo once.
Always set s_mask along the BSWAP_OS path, since the result is
being explicitly sign-extended.

Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/optimize.c | 21 ++++++++++-----------
 1 file changed, 10 insertions(+), 11 deletions(-)

diff --git a/tcg/optimize.c b/tcg/optimize.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/optimize.c
+++ b/tcg/optimize.c
@@ -XXX,XX +XXX,XX @@ static bool fold_brcond2(OptContext *ctx, TCGOp *op)
 static bool fold_bswap(OptContext *ctx, TCGOp *op)
 {
     uint64_t z_mask, s_mask, sign;
+    TempOptInfo *t1 = arg_info(op->args[1]);
 
-    if (arg_is_const(op->args[1])) {
-        uint64_t t = arg_info(op->args[1])->val;
-
-        t = do_constant_folding(op->opc, ctx->type, t, op->args[2]);
-        return tcg_opt_gen_movi(ctx, op, op->args[0], t);
+    if (ti_is_const(t1)) {
+        return tcg_opt_gen_movi(ctx, op, op->args[0],
+                                do_constant_folding(op->opc, ctx->type,
+                                                    ti_const_val(t1),
+                                                    op->args[2]));
     }
 
-    z_mask = arg_info(op->args[1])->z_mask;
-
+    z_mask = t1->z_mask;
     switch (op->opc) {
     case INDEX_op_bswap16_i32:
     case INDEX_op_bswap16_i64:
@@ -XXX,XX +XXX,XX @@ static bool fold_bswap(OptContext *ctx, TCGOp *op)
         /* If the sign bit may be 1, force all the bits above to 1. */
         if (z_mask & sign) {
             z_mask |= sign;
-            s_mask = sign << 1;
         }
+        /* The value and therefore s_mask is explicitly sign-extended. */
+        s_mask = sign;
         break;
     default:
         /* The high bits are undefined: force all bits above the sign to 1. */
         z_mask |= sign << 1;
         break;
     }
-    ctx->z_mask = z_mask;
-    ctx->s_mask = s_mask;
 
-    return fold_masks(ctx, op);
+    return fold_masks_zs(ctx, op, z_mask, s_mask);
 }
 
 static bool fold_call(OptContext *ctx, TCGOp *op)
-- 
2.43.0

Avoid the use of the OptContext slots. Find TempOptInfo once.
Compute s_mask from the union of the maximum count and the
op2 fallback for op1 being zero.

Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/optimize.c | 15 ++++++++++-----
 1 file changed, 10 insertions(+), 5 deletions(-)

diff --git a/tcg/optimize.c b/tcg/optimize.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/optimize.c
+++ b/tcg/optimize.c
@@ -XXX,XX +XXX,XX @@ static bool fold_call(OptContext *ctx, TCGOp *op)
 
 static bool fold_count_zeros(OptContext *ctx, TCGOp *op)
 {
-    uint64_t z_mask;
+    uint64_t z_mask, s_mask;
+    TempOptInfo *t1 = arg_info(op->args[1]);
+    TempOptInfo *t2 = arg_info(op->args[2]);
 
-    if (arg_is_const(op->args[1])) {
-        uint64_t t = arg_info(op->args[1])->val;
+    if (ti_is_const(t1)) {
+        uint64_t t = ti_const_val(t1);
 
         if (t != 0) {
             t = do_constant_folding(op->opc, ctx->type, t, 0);
@@ -XXX,XX +XXX,XX @@ static bool fold_count_zeros(OptContext *ctx, TCGOp *op)
     default:
         g_assert_not_reached();
     }
-    ctx->z_mask = arg_info(op->args[2])->z_mask | z_mask;
-    return false;
+    s_mask = ~z_mask;
+    z_mask |= t2->z_mask;
+    s_mask &= t2->s_mask;
+
+    return fold_masks_zs(ctx, op, z_mask, s_mask);
 }
 
 static bool fold_ctpop(OptContext *ctx, TCGOp *op)
-- 
2.43.0

Add fold_masks_z as a trivial wrapper around fold_masks_zs.
Avoid the use of the OptContext slots.

Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/optimize.c | 13 ++++++++++---
 1 file changed, 10 insertions(+), 3 deletions(-)

diff --git a/tcg/optimize.c b/tcg/optimize.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/optimize.c
+++ b/tcg/optimize.c
@@ -XXX,XX +XXX,XX @@ static bool fold_masks_zs(OptContext *ctx, TCGOp *op,
     return true;
 }
 
+static bool fold_masks_z(OptContext *ctx, TCGOp *op, uint64_t z_mask)
+{
+    return fold_masks_zs(ctx, op, z_mask, 0);
+}
+
 static bool fold_masks(OptContext *ctx, TCGOp *op)
 {
     return fold_masks_zs(ctx, op, ctx->z_mask, ctx->s_mask);
@@ -XXX,XX +XXX,XX @@ static bool fold_count_zeros(OptContext *ctx, TCGOp *op)
 
 static bool fold_ctpop(OptContext *ctx, TCGOp *op)
 {
+    uint64_t z_mask;
+
     if (fold_const1(ctx, op)) {
         return true;
     }
 
     switch (ctx->type) {
     case TCG_TYPE_I32:
-        ctx->z_mask = 32 | 31;
+        z_mask = 32 | 31;
         break;
     case TCG_TYPE_I64:
-        ctx->z_mask = 64 | 63;
+        z_mask = 64 | 63;
         break;
     default:
         g_assert_not_reached();
     }
-    return false;
+    return fold_masks_z(ctx, op, z_mask);
 }
 
 static bool fold_deposit(OptContext *ctx, TCGOp *op)
-- 
2.43.0

Avoid the use of the OptContext slots.  Find TempOptInfo once.
When we fold to and, use fold_and.

Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/optimize.c | 35 +++++++++++++++++------------------
 1 file changed, 17 insertions(+), 18 deletions(-)

diff --git a/tcg/optimize.c b/tcg/optimize.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/optimize.c
+++ b/tcg/optimize.c
@@ -XXX,XX +XXX,XX @@ static bool fold_ctpop(OptContext *ctx, TCGOp *op)
 
 static bool fold_deposit(OptContext *ctx, TCGOp *op)
 {
+    TempOptInfo *t1 = arg_info(op->args[1]);
+    TempOptInfo *t2 = arg_info(op->args[2]);
+    int ofs = op->args[3];
+    int len = op->args[4];
     TCGOpcode and_opc;
+    uint64_t z_mask;
 
-    if (arg_is_const(op->args[1]) && arg_is_const(op->args[2])) {
-        uint64_t t1 = arg_info(op->args[1])->val;
-        uint64_t t2 = arg_info(op->args[2])->val;
-
-        t1 = deposit64(t1, op->args[3], op->args[4], t2);
-        return tcg_opt_gen_movi(ctx, op, op->args[0], t1);
+    if (ti_is_const(t1) && ti_is_const(t2)) {
+        return tcg_opt_gen_movi(ctx, op, op->args[0],
+                                deposit64(ti_const_val(t1), ofs, len,
+                                          ti_const_val(t2)));
     }
 
     switch (ctx->type) {
@@ -XXX,XX +XXX,XX @@ static bool fold_deposit(OptContext *ctx, TCGOp *op)
     }
 
     /* Inserting a value into zero at offset 0. */
-    if (arg_is_const_val(op->args[1], 0) && op->args[3] == 0) {
-        uint64_t mask = MAKE_64BIT_MASK(0, op->args[4]);
+    if (ti_is_const_val(t1, 0) && ofs == 0) {
+        uint64_t mask = MAKE_64BIT_MASK(0, len);
 
         op->opc = and_opc;
         op->args[1] = op->args[2];
         op->args[2] = arg_new_constant(ctx, mask);
-        ctx->z_mask = mask & arg_info(op->args[1])->z_mask;
-        return false;
+        return fold_and(ctx, op);
     }
 
     /* Inserting zero into a value. */
-    if (arg_is_const_val(op->args[2], 0)) {
-        uint64_t mask = deposit64(-1, op->args[3], op->args[4], 0);
+    if (ti_is_const_val(t2, 0)) {
+        uint64_t mask = deposit64(-1, ofs, len, 0);
 
         op->opc = and_opc;
         op->args[2] = arg_new_constant(ctx, mask);
-        ctx->z_mask = mask & arg_info(op->args[1])->z_mask;
-        return false;
+        return fold_and(ctx, op);
     }
 
-    ctx->z_mask = deposit64(arg_info(op->args[1])->z_mask,
-                            op->args[3], op->args[4],
-                            arg_info(op->args[2])->z_mask);
-    return false;
+    z_mask = deposit64(t1->z_mask, ofs, len, t2->z_mask);
+    return fold_masks_z(ctx, op, z_mask);
 }
 
 static bool fold_divide(OptContext *ctx, TCGOp *op)
-- 
2.43.0

The input which overlaps the sign bit of the output can
have its input s_mask propagated to the output s_mask.

Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/optimize.c | 14 ++++++++++++--
 1 file changed, 12 insertions(+), 2 deletions(-)

diff --git a/tcg/optimize.c b/tcg/optimize.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/optimize.c
+++ b/tcg/optimize.c
@@ -XXX,XX +XXX,XX @@ static bool fold_deposit(OptContext *ctx, TCGOp *op)
     TempOptInfo *t2 = arg_info(op->args[2]);
     int ofs = op->args[3];
     int len = op->args[4];
+    int width;
     TCGOpcode and_opc;
-    uint64_t z_mask;
+    uint64_t z_mask, s_mask;
 
     if (ti_is_const(t1) && ti_is_const(t2)) {
         return tcg_opt_gen_movi(ctx, op, op->args[0],
@@ -XXX,XX +XXX,XX @@ static bool fold_deposit(OptContext *ctx, TCGOp *op)
     switch (ctx->type) {
     case TCG_TYPE_I32:
         and_opc = INDEX_op_and_i32;
+        width = 32;
         break;
     case TCG_TYPE_I64:
         and_opc = INDEX_op_and_i64;
+        width = 64;
         break;
     default:
         g_assert_not_reached();
@@ -XXX,XX +XXX,XX @@ static bool fold_deposit(OptContext *ctx, TCGOp *op)
         return fold_and(ctx, op);
     }
 
+    /* The s_mask from the top portion of the deposit is still valid. */
+    if (ofs + len == width) {
+        s_mask = t2->s_mask << ofs;
+    } else {
+        s_mask = t1->s_mask & ~MAKE_64BIT_MASK(0, ofs + len);
+    }
+
     z_mask = deposit64(t1->z_mask, ofs, len, t2->z_mask);
-    return fold_masks_z(ctx, op, z_mask);
+    return fold_masks_zs(ctx, op, z_mask, s_mask);
 }
 
 static bool fold_divide(OptContext *ctx, TCGOp *op)
-- 
2.43.0

Add fold_masks_s as a trivial wrapper around fold_masks_zs.
Avoid the use of the OptContext slots.

diff --git a/tcg/optimize.c b/tcg/optimize.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/optimize.c
+++ b/tcg/optimize.c
@@ -XXX,XX +XXX,XX @@ static bool fold_masks_z(OptContext *ctx, TCGOp *op, uint64_t z_mask)
     return fold_masks_zs(ctx, op, z_mask, 0);
 }
 
+static bool fold_masks_s(OptContext *ctx, TCGOp *op, uint64_t s_mask)
+{
+    return fold_masks_zs(ctx, op, -1, s_mask);
+}
+
 static bool fold_masks(OptContext *ctx, TCGOp *op)
 {
     return fold_masks_zs(ctx, op, ctx->z_mask, ctx->s_mask);
@@ -XXX,XX +XXX,XX @@ static bool fold_dup2(OptContext *ctx, TCGOp *op)
 
 static bool fold_eqv(OptContext *ctx, TCGOp *op)
 {
+    uint64_t s_mask;
+
     if (fold_const2_commutative(ctx, op) ||
         fold_xi_to_x(ctx, op, -1) ||
         fold_xi_to_not(ctx, op, 0)) {
         return true;
     }
 
-    ctx->s_mask = arg_info(op->args[1])->s_mask
-                & arg_info(op->args[2])->s_mask;
-    return false;
+    s_mask = arg_info(op->args[1])->s_mask
+           & arg_info(op->args[2])->s_mask;
+    return fold_masks_s(ctx, op, s_mask);
 }
 
 static bool fold_extract(OptContext *ctx, TCGOp *op)
-- 
2.43.0

Avoid the use of the OptContext slots.  Find TempOptInfo once.

Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/optimize.c | 15 ++++++---------
 1 file changed, 6 insertions(+), 9 deletions(-)

diff --git a/tcg/optimize.c b/tcg/optimize.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/optimize.c
+++ b/tcg/optimize.c
@@ -XXX,XX +XXX,XX @@ static bool fold_eqv(OptContext *ctx, TCGOp *op)
 static bool fold_extract(OptContext *ctx, TCGOp *op)
 {
     uint64_t z_mask_old, z_mask;
+    TempOptInfo *t1 = arg_info(op->args[1]);
     int pos = op->args[2];
     int len = op->args[3];
 
-    if (arg_is_const(op->args[1])) {
-        uint64_t t;
-
-        t = arg_info(op->args[1])->val;
-        t = extract64(t, pos, len);
-        return tcg_opt_gen_movi(ctx, op, op->args[0], t);
+    if (ti_is_const(t1)) {
+        return tcg_opt_gen_movi(ctx, op, op->args[0],
+                                extract64(ti_const_val(t1), pos, len));
     }
 
-    z_mask_old = arg_info(op->args[1])->z_mask;
+    z_mask_old = t1->z_mask;
     z_mask = extract64(z_mask_old, pos, len);
     if (pos == 0 && fold_affected_mask(ctx, op, z_mask_old ^ z_mask)) {
         return true;
     }
-    ctx->z_mask = z_mask;
 
-    return fold_masks(ctx, op);
+    return fold_masks_z(ctx, op, z_mask);
 }
 
 static bool fold_extract2(OptContext *ctx, TCGOp *op)
-- 
2.43.0

Avoid the use of the OptContext slots.  Find TempOptInfo once.
Explicitly sign-extend z_mask instead of doing that manually.

Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/optimize.c | 29 ++++++++++++-----------------
 1 file changed, 12 insertions(+), 17 deletions(-)

diff --git a/tcg/optimize.c b/tcg/optimize.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/optimize.c
+++ b/tcg/optimize.c
@@ -XXX,XX +XXX,XX @@ static bool fold_extract2(OptContext *ctx, TCGOp *op)
 
 static bool fold_exts(OptContext *ctx, TCGOp *op)
 {
-    uint64_t s_mask_old, s_mask, z_mask, sign;
+    uint64_t s_mask_old, s_mask, z_mask;
     bool type_change = false;
+    TempOptInfo *t1;
 
     if (fold_const1(ctx, op)) {
         return true;
     }
 
-    z_mask = arg_info(op->args[1])->z_mask;
-    s_mask = arg_info(op->args[1])->s_mask;
+    t1 = arg_info(op->args[1]);
+    z_mask = t1->z_mask;
+    s_mask = t1->s_mask;
     s_mask_old = s_mask;
 
     switch (op->opc) {
     CASE_OP_32_64(ext8s):
-        sign = INT8_MIN;
-        z_mask = (uint8_t)z_mask;
+        s_mask |= INT8_MIN;
+        z_mask = (int8_t)z_mask;
         break;
     CASE_OP_32_64(ext16s):
-        sign = INT16_MIN;
-        z_mask = (uint16_t)z_mask;
+        s_mask |= INT16_MIN;
+        z_mask = (int16_t)z_mask;
         break;
     case INDEX_op_ext_i32_i64:
         type_change = true;
         QEMU_FALLTHROUGH;
     case INDEX_op_ext32s_i64:
-        sign = INT32_MIN;
-        z_mask = (uint32_t)z_mask;
+        s_mask |= INT32_MIN;
+        z_mask = (int32_t)z_mask;
         break;
     default:
         g_assert_not_reached();
     }
 
-    if (z_mask & sign) {
-        z_mask |= sign;
-    }
-    s_mask |= sign << 1;
-
-    ctx->z_mask = z_mask;
-    ctx->s_mask = s_mask;
     if (0 && !type_change && fold_affected_mask(ctx, op, s_mask & ~s_mask_old)) {
         return true;
     }
 
-    return fold_masks(ctx, op);
+    return fold_masks_zs(ctx, op, z_mask, s_mask);
 }
 
 static bool fold_extu(OptContext *ctx, TCGOp *op)
-- 
2.43.0

Avoid the use of the OptContext slots.  Find TempOptInfo once.

Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/optimize.c | 19 +++++++++++--------
 1 file changed, 11 insertions(+), 8 deletions(-)

diff --git a/tcg/optimize.c b/tcg/optimize.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/optimize.c
+++ b/tcg/optimize.c
@@ -XXX,XX +XXX,XX @@ static bool fold_mov(OptContext *ctx, TCGOp *op)
 
 static bool fold_movcond(OptContext *ctx, TCGOp *op)
 {
+    uint64_t z_mask, s_mask;
+    TempOptInfo *tt, *ft;
     int i;
 
     /* If true and false values are the same, eliminate the cmp. */
@@ -XXX,XX +XXX,XX @@ static bool fold_movcond(OptContext *ctx, TCGOp *op)
         return tcg_opt_gen_mov(ctx, op, op->args[0], op->args[4 - i]);
     }
 
-    ctx->z_mask = arg_info(op->args[3])->z_mask
-                | arg_info(op->args[4])->z_mask;
-    ctx->s_mask = arg_info(op->args[3])->s_mask
-                & arg_info(op->args[4])->s_mask;
+    tt = arg_info(op->args[3]);
+    ft = arg_info(op->args[4]);
+    z_mask = tt->z_mask | ft->z_mask;
+    s_mask = tt->s_mask & ft->s_mask;
 
-    if (arg_is_const(op->args[3]) && arg_is_const(op->args[4])) {
-        uint64_t tv = arg_info(op->args[3])->val;
-        uint64_t fv = arg_info(op->args[4])->val;
+    if (ti_is_const(tt) && ti_is_const(ft)) {
+        uint64_t tv = ti_const_val(tt);
+        uint64_t fv = ti_const_val(ft);
         TCGOpcode opc, negopc = 0;
         TCGCond cond = op->args[5];
 
@@ -XXX,XX +XXX,XX @@ static bool fold_movcond(OptContext *ctx, TCGOp *op)
             }
         }
     }
-    return false;
+
+    return fold_masks_zs(ctx, op, z_mask, s_mask);
 }
 
 static bool fold_mul(OptContext *ctx, TCGOp *op)
-- 
2.43.0

Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/optimize.c | 6 +++---
 1 file changed, 3 insertions(+), 3 deletions(-)

diff --git a/tcg/optimize.c b/tcg/optimize.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/optimize.c
+++ b/tcg/optimize.c
@@ -XXX,XX +XXX,XX @@ static bool fold_mul(OptContext *ctx, TCGOp *op)
         fold_xi_to_x(ctx, op, 1)) {
         return true;
     }
-    return false;
+    return finish_folding(ctx, op);
 }
 
 static bool fold_mul_highpart(OptContext *ctx, TCGOp *op)
@@ -XXX,XX +XXX,XX @@ static bool fold_mul_highpart(OptContext *ctx, TCGOp *op)
         fold_xi_to_i(ctx, op, 0)) {
         return true;
     }
-    return false;
+    return finish_folding(ctx, op);
 }
 
 static bool fold_multiply2(OptContext *ctx, TCGOp *op)
@@ -XXX,XX +XXX,XX @@ static bool fold_multiply2(OptContext *ctx, TCGOp *op)
         tcg_opt_gen_movi(ctx, op2, rh, h);
         return true;
     }
-    return false;
+    return finish_folding(ctx, op);
 }
 
 static bool fold_nand(OptContext *ctx, TCGOp *op)
-- 
2.43.0

Avoid the use of the OptContext slots.  Find TempOptInfo once.

Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/optimize.c | 13 ++++++++-----
 1 file changed, 8 insertions(+), 5 deletions(-)

diff --git a/tcg/optimize.c b/tcg/optimize.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/optimize.c
+++ b/tcg/optimize.c
@@ -XXX,XX +XXX,XX @@ static bool fold_not(OptContext *ctx, TCGOp *op)
 
 static bool fold_or(OptContext *ctx, TCGOp *op)
 {
+    uint64_t z_mask, s_mask;
+    TempOptInfo *t1, *t2;
+
     if (fold_const2_commutative(ctx, op) ||
         fold_xi_to_x(ctx, op, 0) ||
         fold_xx_to_x(ctx, op)) {
         return true;
     }
 
-    ctx->z_mask = arg_info(op->args[1])->z_mask
-                | arg_info(op->args[2])->z_mask;
-    ctx->s_mask = arg_info(op->args[1])->s_mask
-                & arg_info(op->args[2])->s_mask;
-    return fold_masks(ctx, op);
+    t1 = arg_info(op->args[1]);
+    t2 = arg_info(op->args[2]);
+    z_mask = t1->z_mask | t2->z_mask;
+    s_mask = t1->s_mask & t2->s_mask;
+    return fold_masks_zs(ctx, op, z_mask, s_mask);
 }
 
 static bool fold_orc(OptContext *ctx, TCGOp *op)
-- 
2.43.0

Avoid the use of the OptContext slots.

Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/optimize.c | 8 +++++---
 1 file changed, 5 insertions(+), 3 deletions(-)

diff --git a/tcg/optimize.c b/tcg/optimize.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/optimize.c
+++ b/tcg/optimize.c
@@ -XXX,XX +XXX,XX @@ static bool fold_or(OptContext *ctx, TCGOp *op)
 
 static bool fold_orc(OptContext *ctx, TCGOp *op)
 {
+    uint64_t s_mask;
+
     if (fold_const2(ctx, op) ||
         fold_xx_to_i(ctx, op, -1) ||
         fold_xi_to_x(ctx, op, -1) ||
@@ -XXX,XX +XXX,XX @@ static bool fold_orc(OptContext *ctx, TCGOp *op)
         return true;
     }
 
-    ctx->s_mask = arg_info(op->args[1])->s_mask
-                & arg_info(op->args[2])->s_mask;
-    return false;
+    s_mask = arg_info(op->args[1])->s_mask
+           & arg_info(op->args[2])->s_mask;
+    return fold_masks_s(ctx, op, s_mask);
 }
 
 static bool fold_qemu_ld(OptContext *ctx, TCGOp *op)
-- 
2.43.0

Avoid the use of the OptContext slots.

Be careful not to call fold_masks_zs when the memory operation
is wide enough to require multiple outputs, so split into two
functions: fold_qemu_ld_1reg and fold_qemu_ld_2reg.

Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/optimize.c | 26 +++++++++++++++++++++-----
 1 file changed, 21 insertions(+), 5 deletions(-)

diff --git a/tcg/optimize.c b/tcg/optimize.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/optimize.c
+++ b/tcg/optimize.c
@@ -XXX,XX +XXX,XX @@ static bool fold_orc(OptContext *ctx, TCGOp *op)
     return fold_masks_s(ctx, op, s_mask);
 }
 
-static bool fold_qemu_ld(OptContext *ctx, TCGOp *op)
+static bool fold_qemu_ld_1reg(OptContext *ctx, TCGOp *op)
 {
     const TCGOpDef *def = &tcg_op_defs[op->opc];
     MemOpIdx oi = op->args[def->nb_oargs + def->nb_iargs];
     MemOp mop = get_memop(oi);
     int width = 8 * memop_size(mop);
+    uint64_t z_mask = -1, s_mask = 0;
 
     if (width < 64) {
         if (mop & MO_SIGN) {
-            ctx->s_mask = MAKE_64BIT_MASK(width, 64 - width);
+            s_mask = MAKE_64BIT_MASK(width - 1, 64 - (width - 1));
         } else {
-            ctx->z_mask = MAKE_64BIT_MASK(0, width);
+            z_mask = MAKE_64BIT_MASK(0, width);
         }
     }
 
     /* Opcodes that touch guest memory stop the mb optimization.  */
     ctx->prev_mb = NULL;
-    return false;
+
+    return fold_masks_zs(ctx, op, z_mask, s_mask);
+}
+
+static bool fold_qemu_ld_2reg(OptContext *ctx, TCGOp *op)
+{
+    /* Opcodes that touch guest memory stop the mb optimization.  */
+    ctx->prev_mb = NULL;
+    return finish_folding(ctx, op);
 }
 
 static bool fold_qemu_st(OptContext *ctx, TCGOp *op)
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
             break;
         case INDEX_op_qemu_ld_a32_i32:
         case INDEX_op_qemu_ld_a64_i32:
+            done = fold_qemu_ld_1reg(&ctx, op);
+            break;
         case INDEX_op_qemu_ld_a32_i64:
         case INDEX_op_qemu_ld_a64_i64:
+            if (TCG_TARGET_REG_BITS == 64) {
+                done = fold_qemu_ld_1reg(&ctx, op);
+                break;
+            }
+            QEMU_FALLTHROUGH;
         case INDEX_op_qemu_ld_a32_i128:
         case INDEX_op_qemu_ld_a64_i128:
-            done = fold_qemu_ld(&ctx, op);
+            done = fold_qemu_ld_2reg(&ctx, op);
             break;
         case INDEX_op_qemu_st8_a32_i32:
         case INDEX_op_qemu_st8_a64_i32:
-- 
2.43.0

Stores have no output operands, and so need no further work.

Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/optimize.c | 11 +++++------
 1 file changed, 5 insertions(+), 6 deletions(-)

diff --git a/tcg/optimize.c b/tcg/optimize.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/optimize.c
+++ b/tcg/optimize.c
@@ -XXX,XX +XXX,XX @@ static bool fold_qemu_st(OptContext *ctx, TCGOp *op)
 {
     /* Opcodes that touch guest memory stop the mb optimization.  */
     ctx->prev_mb = NULL;
-    return false;
+    return true;
 }
 
 static bool fold_remainder(OptContext *ctx, TCGOp *op)
@@ -XXX,XX +XXX,XX @@ static bool fold_tcg_st(OptContext *ctx, TCGOp *op)
 
     if (op->args[1] != tcgv_ptr_arg(tcg_env)) {
         remove_mem_copy_all(ctx);
-        return false;
+        return true;
     }
 
     switch (op->opc) {
@@ -XXX,XX +XXX,XX @@ static bool fold_tcg_st(OptContext *ctx, TCGOp *op)
         g_assert_not_reached();
     }
     remove_mem_copy_in(ctx, ofs, ofs + lm1);
-    return false;
+    return true;
 }
 
 static bool fold_tcg_st_memcopy(OptContext *ctx, TCGOp *op)
@@ -XXX,XX +XXX,XX @@ static bool fold_tcg_st_memcopy(OptContext *ctx, TCGOp *op)
     TCGType type;
 
     if (op->args[1] != tcgv_ptr_arg(tcg_env)) {
-        fold_tcg_st(ctx, op);
-        return false;
+        return fold_tcg_st(ctx, op);
     }
 
     src = arg_temp(op->args[0]);
@@ -XXX,XX +XXX,XX @@ static bool fold_tcg_st_memcopy(OptContext *ctx, TCGOp *op)
     last = ofs + tcg_type_size(type) - 1;
     remove_mem_copy_in(ctx, ofs, last);
     record_mem_copy(ctx, type, src, ofs, last);
-    return false;
+    return true;
 }
 
 static bool fold_xor(OptContext *ctx, TCGOp *op)
-- 
2.43.0

Change return from bool to int; distinguish between
complete folding, simplification, and no change.

Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/optimize.c | 22 ++++++++++++++--------
 1 file changed, 14 insertions(+), 8 deletions(-)

diff --git a/tcg/optimize.c b/tcg/optimize.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/optimize.c
+++ b/tcg/optimize.c
@@ -XXX,XX +XXX,XX @@ static bool fold_remainder(OptContext *ctx, TCGOp *op)
     return finish_folding(ctx, op);
 }
 
-static bool fold_setcond_zmask(OptContext *ctx, TCGOp *op, bool neg)
+/* Return 1 if finished, -1 if simplified, 0 if unchanged. */
+static int fold_setcond_zmask(OptContext *ctx, TCGOp *op, bool neg)
 {
     uint64_t a_zmask, b_val;
     TCGCond cond;
@@ -XXX,XX +XXX,XX @@ static bool fold_setcond_zmask(OptContext *ctx, TCGOp *op, bool neg)
                 op->opc = xor_opc;
                 op->args[2] = arg_new_constant(ctx, 1);
             }
-            return false;
+            return -1;
         }
     }
-
-    return false;
+    return 0;
 }
 
 static void fold_setcond_tst_pow2(OptContext *ctx, TCGOp *op, bool neg)
@@ -XXX,XX +XXX,XX @@ static bool fold_setcond(OptContext *ctx, TCGOp *op)
         return tcg_opt_gen_movi(ctx, op, op->args[0], i);
     }
 
-    if (fold_setcond_zmask(ctx, op, false)) {
+    i = fold_setcond_zmask(ctx, op, false);
+    if (i > 0) {
         return true;
     }
-    fold_setcond_tst_pow2(ctx, op, false);
+    if (i == 0) {
+        fold_setcond_tst_pow2(ctx, op, false);
+    }
 
     ctx->z_mask = 1;
     return false;
@@ -XXX,XX +XXX,XX @@ static bool fold_negsetcond(OptContext *ctx, TCGOp *op)
         return tcg_opt_gen_movi(ctx, op, op->args[0], -i);
     }
 
-    if (fold_setcond_zmask(ctx, op, true)) {
+    i = fold_setcond_zmask(ctx, op, true);
+    if (i > 0) {
         return true;
     }
-    fold_setcond_tst_pow2(ctx, op, true);
+    if (i == 0) {
+        fold_setcond_tst_pow2(ctx, op, true);
+    }
 
     /* Value is {0,-1} so all bits are repetitions of the sign. */
     ctx->s_mask = -1;
-- 
2.43.0

Avoid the use of the OptContext slots.  Find TempOptInfo once.

Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/optimize.c | 24 +++++++++---------------
 1 file changed, 9 insertions(+), 15 deletions(-)

diff --git a/tcg/optimize.c b/tcg/optimize.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/optimize.c
+++ b/tcg/optimize.c
@@ -XXX,XX +XXX,XX @@ static bool fold_cmpsel_vec(OptContext *ctx, TCGOp *op)
 static bool fold_sextract(OptContext *ctx, TCGOp *op)
 {
     uint64_t z_mask, s_mask, s_mask_old;
+    TempOptInfo *t1 = arg_info(op->args[1]);
     int pos = op->args[2];
     int len = op->args[3];
 
-    if (arg_is_const(op->args[1])) {
-        uint64_t t;
-
-        t = arg_info(op->args[1])->val;
-        t = sextract64(t, pos, len);
-        return tcg_opt_gen_movi(ctx, op, op->args[0], t);
+    if (ti_is_const(t1)) {
+        return tcg_opt_gen_movi(ctx, op, op->args[0],
+                                sextract64(ti_const_val(t1), pos, len));
     }
 
-    z_mask = arg_info(op->args[1])->z_mask;
-    z_mask = sextract64(z_mask, pos, len);
-    ctx->z_mask = z_mask;
-
-    s_mask_old = arg_info(op->args[1])->s_mask;
-    s_mask = sextract64(s_mask_old, pos, len);
-    s_mask |= MAKE_64BIT_MASK(len, 64 - len);
-    ctx->s_mask = s_mask;
+    s_mask_old = t1->s_mask;
+    s_mask = s_mask_old >> pos;
+    s_mask |= -1ull << (len - 1);
 
     if (0 && pos == 0 && fold_affected_mask(ctx, op, s_mask & ~s_mask_old)) {
         return true;
     }
 
-    return fold_masks(ctx, op);
+    z_mask = sextract64(t1->z_mask, pos, len);
+    return fold_masks_zs(ctx, op, z_mask, s_mask);
 }
 
 static bool fold_shift(OptContext *ctx, TCGOp *op)
-- 
2.43.0

Avoid the use of the OptContext slots.  Find TempOptInfo once.

Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/optimize.c | 27 ++++++++++++++-------------
 1 file changed, 14 insertions(+), 13 deletions(-)

diff --git a/tcg/optimize.c b/tcg/optimize.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/optimize.c
+++ b/tcg/optimize.c
@@ -XXX,XX +XXX,XX @@ static bool fold_sextract(OptContext *ctx, TCGOp *op)
 static bool fold_shift(OptContext *ctx, TCGOp *op)
 {
     uint64_t s_mask, z_mask, sign;
+    TempOptInfo *t1, *t2;
 
     if (fold_const2(ctx, op) ||
         fold_ix_to_i(ctx, op, 0) ||
@@ -XXX,XX +XXX,XX @@ static bool fold_shift(OptContext *ctx, TCGOp *op)
         return true;
     }
 
-    s_mask = arg_info(op->args[1])->s_mask;
-    z_mask = arg_info(op->args[1])->z_mask;
+    t1 = arg_info(op->args[1]);
+    t2 = arg_info(op->args[2]);
+    s_mask = t1->s_mask;
+    z_mask = t1->z_mask;
 
-    if (arg_is_const(op->args[2])) {
-        int sh = arg_info(op->args[2])->val;
-
-        ctx->z_mask = do_constant_folding(op->opc, ctx->type, z_mask, sh);
+    if (ti_is_const(t2)) {
+        int sh = ti_const_val(t2);
 
+        z_mask = do_constant_folding(op->opc, ctx->type, z_mask, sh);
         s_mask = do_constant_folding(op->opc, ctx->type, s_mask, sh);
 
-        return fold_masks(ctx, op);
+        return fold_masks_zs(ctx, op, z_mask, s_mask);
     }
 
     switch (op->opc) {
@@ -XXX,XX +XXX,XX @@ static bool fold_shift(OptContext *ctx, TCGOp *op)
          * Arithmetic right shift will not reduce the number of
          * input sign repetitions.
          */
-        ctx->s_mask = s_mask;
-        break;
+        return fold_masks_s(ctx, op, s_mask);
     CASE_OP_32_64(shr):
         /*
          * If the sign bit is known zero, then logical right shift
-         * will not reduced the number of input sign repetitions.
+         * will not reduce the number of input sign repetitions.
          */
-        sign = (s_mask & -s_mask) >> 1;
+        sign = -s_mask;
         if (sign && !(z_mask & sign)) {
-            ctx->s_mask = s_mask;
+            return fold_masks_s(ctx, op, s_mask);
         }
         break;
     default:
         break;
     }
 
-    return false;
+    return finish_folding(ctx, op);
 }
 
 static bool fold_sub_to_neg(OptContext *ctx, TCGOp *op)
-- 
2.43.0

Merge the two conditions, sign != 0 && !(z_mask & sign),
by testing ~z_mask & sign.   If sign == 0, the logical and
will produce false.

Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/optimize.c | 5 ++---
 1 file changed, 2 insertions(+), 3 deletions(-)

Duplicate fold_sub_vec into fold_sub instead of calling it,
now that fold_sub_vec always returns true.

Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/optimize.c | 9 ++++++---
 1 file changed, 6 insertions(+), 3 deletions(-)

diff --git a/tcg/optimize.c b/tcg/optimize.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/optimize.c
+++ b/tcg/optimize.c
@@ -XXX,XX +XXX,XX @@ static bool fold_sub_vec(OptContext *ctx, TCGOp *op)
         fold_sub_to_neg(ctx, op)) {
         return true;
     }
-    return false;
+    return finish_folding(ctx, op);
 }
 
 static bool fold_sub(OptContext *ctx, TCGOp *op)
 {
-    if (fold_const2(ctx, op) || fold_sub_vec(ctx, op)) {
+    if (fold_const2(ctx, op) ||
+        fold_xx_to_i(ctx, op, 0) ||
+        fold_xi_to_x(ctx, op, 0) ||
+        fold_sub_to_neg(ctx, op)) {
         return true;
     }
 
@@ -XXX,XX +XXX,XX @@ static bool fold_sub(OptContext *ctx, TCGOp *op)
                    ? INDEX_op_add_i32 : INDEX_op_add_i64);
         op->args[2] = arg_new_constant(ctx, -val);
     }
-    return false;
+    return finish_folding(ctx, op);
 }
 
 static bool fold_sub2(OptContext *ctx, TCGOp *op)
-- 
2.43.0

Avoid the use of the OptContext slots.

Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/optimize.c | 16 +++++++++-------
 1 file changed, 9 insertions(+), 7 deletions(-)

diff --git a/tcg/optimize.c b/tcg/optimize.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/optimize.c
+++ b/tcg/optimize.c
@@ -XXX,XX +XXX,XX @@ static bool fold_sub2(OptContext *ctx, TCGOp *op)
 
 static bool fold_tcg_ld(OptContext *ctx, TCGOp *op)
 {
+    uint64_t z_mask = -1, s_mask = 0;
+
     /* We can't do any folding with a load, but we can record bits. */
     switch (op->opc) {
     CASE_OP_32_64(ld8s):
-        ctx->s_mask = MAKE_64BIT_MASK(8, 56);
+        s_mask = INT8_MIN;
         break;
     CASE_OP_32_64(ld8u):
-        ctx->z_mask = MAKE_64BIT_MASK(0, 8);
+        z_mask = MAKE_64BIT_MASK(0, 8);
         break;
     CASE_OP_32_64(ld16s):
-        ctx->s_mask = MAKE_64BIT_MASK(16, 48);
+        s_mask = INT16_MIN;
         break;
     CASE_OP_32_64(ld16u):
-        ctx->z_mask = MAKE_64BIT_MASK(0, 16);
+        z_mask = MAKE_64BIT_MASK(0, 16);
         break;
     case INDEX_op_ld32s_i64:
-        ctx->s_mask = MAKE_64BIT_MASK(32, 32);
+        s_mask = INT32_MIN;
         break;
     case INDEX_op_ld32u_i64:
-        ctx->z_mask = MAKE_64BIT_MASK(0, 32);
+        z_mask = MAKE_64BIT_MASK(0, 32);
         break;
     default:
         g_assert_not_reached();
     }
-    return false;
+    return fold_masks_zs(ctx, op, z_mask, s_mask);
 }
 
 static bool fold_tcg_ld_memcopy(OptContext *ctx, TCGOp *op)
-- 
2.43.0

Avoid the use of the OptContext slots.  Find TempOptInfo once.
Remove fold_masks as the function becomes unused.

Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/optimize.c | 18 ++++++++----------
 1 file changed, 8 insertions(+), 10 deletions(-)

diff --git a/tcg/optimize.c b/tcg/optimize.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/optimize.c
+++ b/tcg/optimize.c
@@ -XXX,XX +XXX,XX @@ static bool fold_masks_s(OptContext *ctx, TCGOp *op, uint64_t s_mask)
     return fold_masks_zs(ctx, op, -1, s_mask);
 }
 
-static bool fold_masks(OptContext *ctx, TCGOp *op)
-{
-    return fold_masks_zs(ctx, op, ctx->z_mask, ctx->s_mask);
-}
-
 /*
  * An "affected" mask bit is 0 if and only if the result is identical
  * to the first input.  Thus if the entire mask is 0, the operation
@@ -XXX,XX +XXX,XX @@ static bool fold_tcg_st_memcopy(OptContext *ctx, TCGOp *op)
 
 static bool fold_xor(OptContext *ctx, TCGOp *op)
 {
+    uint64_t z_mask, s_mask;
+    TempOptInfo *t1, *t2;
+
     if (fold_const2_commutative(ctx, op) ||
         fold_xx_to_i(ctx, op, 0) ||
         fold_xi_to_x(ctx, op, 0) ||
@@ -XXX,XX +XXX,XX @@ static bool fold_xor(OptContext *ctx, TCGOp *op)
         return true;
     }
 
-    ctx->z_mask = arg_info(op->args[1])->z_mask
-                | arg_info(op->args[2])->z_mask;
-    ctx->s_mask = arg_info(op->args[1])->s_mask
-                & arg_info(op->args[2])->s_mask;
-    return fold_masks(ctx, op);
+    t1 = arg_info(op->args[1]);
+    t2 = arg_info(op->args[2]);
+    z_mask = t1->z_mask | t2->z_mask;
+    s_mask = t1->s_mask & t2->s_mask;
+    return fold_masks_zs(ctx, op, z_mask, s_mask);
 }
 
 static bool fold_bitsel_vec(OptContext *ctx, TCGOp *op)
-- 
2.43.0

All mask setting is now done with parameters via fold_masks_*.

Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/optimize.c | 13 -------------
 1 file changed, 13 deletions(-)

All instances of s_mask have been converted to the new
representation.  We can now re-enable usage.

Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/optimize.c | 4 ++--
 1 file changed, 2 insertions(+), 2 deletions(-)

diff --git a/tcg/optimize.c b/tcg/optimize.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/optimize.c
+++ b/tcg/optimize.c
@@ -XXX,XX +XXX,XX @@ static bool fold_exts(OptContext *ctx, TCGOp *op)
         g_assert_not_reached();
     }
 
-    if (0 && !type_change && fold_affected_mask(ctx, op, s_mask & ~s_mask_old)) {
+    if (!type_change && fold_affected_mask(ctx, op, s_mask & ~s_mask_old)) {
         return true;
     }
 
@@ -XXX,XX +XXX,XX @@ static bool fold_sextract(OptContext *ctx, TCGOp *op)
     s_mask = s_mask_old >> pos;
     s_mask |= -1ull << (len - 1);
 
-    if (0 && pos == 0 && fold_affected_mask(ctx, op, s_mask & ~s_mask_old)) {
+    if (pos == 0 && fold_affected_mask(ctx, op, s_mask & ~s_mask_old)) {
         return true;
     }
 
-- 
2.43.0

The big comment just above says functions should be sorted.
Add forward declarations as needed.

Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/optimize.c | 114 +++++++++++++++++++++++++------------------------
 1 file changed, 59 insertions(+), 55 deletions(-)

diff --git a/tcg/optimize.c b/tcg/optimize.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/optimize.c
+++ b/tcg/optimize.c
@@ -XXX,XX +XXX,XX @@ static bool fold_xx_to_x(OptContext *ctx, TCGOp *op)
  *   3) those that produce information about the result value.
  */
 
+static bool fold_or(OptContext *ctx, TCGOp *op);
+static bool fold_orc(OptContext *ctx, TCGOp *op);
+static bool fold_xor(OptContext *ctx, TCGOp *op);
+
 static bool fold_add(OptContext *ctx, TCGOp *op)
 {
     if (fold_const2_commutative(ctx, op) ||
@@ -XXX,XX +XXX,XX @@ static bool fold_andc(OptContext *ctx, TCGOp *op)
     return fold_masks_zs(ctx, op, z_mask, s_mask);
 }
 
+static bool fold_bitsel_vec(OptContext *ctx, TCGOp *op)
+{
+    /* If true and false values are the same, eliminate the cmp. */
+    if (args_are_copies(op->args[2], op->args[3])) {
+        return tcg_opt_gen_mov(ctx, op, op->args[0], op->args[2]);
+    }
+
+    if (arg_is_const(op->args[2]) && arg_is_const(op->args[3])) {
+        uint64_t tv = arg_info(op->args[2])->val;
+        uint64_t fv = arg_info(op->args[3])->val;
+
+        if (tv == -1 && fv == 0) {
+            return tcg_opt_gen_mov(ctx, op, op->args[0], op->args[1]);
+        }
+        if (tv == 0 && fv == -1) {
+            if (TCG_TARGET_HAS_not_vec) {
+                op->opc = INDEX_op_not_vec;
+                return fold_not(ctx, op);
+            } else {
+                op->opc = INDEX_op_xor_vec;
+                op->args[2] = arg_new_constant(ctx, -1);
+                return fold_xor(ctx, op);
+            }
+        }
+    }
+    if (arg_is_const(op->args[2])) {
+        uint64_t tv = arg_info(op->args[2])->val;
+        if (tv == -1) {
+            op->opc = INDEX_op_or_vec;
+            op->args[2] = op->args[3];
+            return fold_or(ctx, op);
+        }
+        if (tv == 0 && TCG_TARGET_HAS_andc_vec) {
+            op->opc = INDEX_op_andc_vec;
+            op->args[2] = op->args[1];
+            op->args[1] = op->args[3];
+            return fold_andc(ctx, op);
+        }
+    }
+    if (arg_is_const(op->args[3])) {
+        uint64_t fv = arg_info(op->args[3])->val;
+        if (fv == 0) {
+            op->opc = INDEX_op_and_vec;
+            return fold_and(ctx, op);
+        }
+        if (fv == -1 && TCG_TARGET_HAS_orc_vec) {
+            op->opc = INDEX_op_orc_vec;
+            op->args[2] = op->args[1];
+            op->args[1] = op->args[3];
+            return fold_orc(ctx, op);
+        }
+    }
+    return finish_folding(ctx, op);
+}
+
 static bool fold_brcond(OptContext *ctx, TCGOp *op)
 {
     int i = do_constant_folding_cond1(ctx, op, NO_DEST, &op->args[0],
@@ -XXX,XX +XXX,XX @@ static bool fold_xor(OptContext *ctx, TCGOp *op)
     return fold_masks_zs(ctx, op, z_mask, s_mask);
 }
 
-static bool fold_bitsel_vec(OptContext *ctx, TCGOp *op)
-{
-    /* If true and false values are the same, eliminate the cmp. */
-    if (args_are_copies(op->args[2], op->args[3])) {
-        return tcg_opt_gen_mov(ctx, op, op->args[0], op->args[2]);
-    }
-
-    if (arg_is_const(op->args[2]) && arg_is_const(op->args[3])) {
-        uint64_t tv = arg_info(op->args[2])->val;
-        uint64_t fv = arg_info(op->args[3])->val;
-
-        if (tv == -1 && fv == 0) {
-            return tcg_opt_gen_mov(ctx, op, op->args[0], op->args[1]);
-        }
-        if (tv == 0 && fv == -1) {
-            if (TCG_TARGET_HAS_not_vec) {
-                op->opc = INDEX_op_not_vec;
-                return fold_not(ctx, op);
-            } else {
-                op->opc = INDEX_op_xor_vec;
-                op->args[2] = arg_new_constant(ctx, -1);
-                return fold_xor(ctx, op);
-            }
-        }
-    }
-    if (arg_is_const(op->args[2])) {
-        uint64_t tv = arg_info(op->args[2])->val;
-        if (tv == -1) {
-            op->opc = INDEX_op_or_vec;
-            op->args[2] = op->args[3];
-            return fold_or(ctx, op);
-        }
-        if (tv == 0 && TCG_TARGET_HAS_andc_vec) {
-            op->opc = INDEX_op_andc_vec;
-            op->args[2] = op->args[1];
-            op->args[1] = op->args[3];
-            return fold_andc(ctx, op);
-        }
-    }
-    if (arg_is_const(op->args[3])) {
-        uint64_t fv = arg_info(op->args[3])->val;
-        if (fv == 0) {
-            op->opc = INDEX_op_and_vec;
-            return fold_and(ctx, op);
-        }
-        if (fv == -1 && TCG_TARGET_HAS_orc_vec) {
-            op->opc = INDEX_op_orc_vec;
-            op->args[2] = op->args[1];
-            op->args[1] = op->args[3];
-            return fold_orc(ctx, op);
-        }
-    }
-    return finish_folding(ctx, op);
-}
-
 /* Propagate constants and copies, fold constant expressions. */
 void tcg_optimize(TCGContext *s)
 {
-- 
2.43.0

The big comment just above says functions should be sorted.

Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/optimize.c | 60 +++++++++++++++++++++++++-------------------------
 1 file changed, 30 insertions(+), 30 deletions(-)

diff --git a/tcg/optimize.c b/tcg/optimize.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/optimize.c
+++ b/tcg/optimize.c
@@ -XXX,XX +XXX,XX @@ static bool fold_call(OptContext *ctx, TCGOp *op)
     return true;
 }
 
+static bool fold_cmp_vec(OptContext *ctx, TCGOp *op)
+{
+    /* Canonicalize the comparison to put immediate second. */
+    if (swap_commutative(NO_DEST, &op->args[1], &op->args[2])) {
+        op->args[3] = tcg_swap_cond(op->args[3]);
+    }
+    return finish_folding(ctx, op);
+}
+
+static bool fold_cmpsel_vec(OptContext *ctx, TCGOp *op)
+{
+    /* If true and false values are the same, eliminate the cmp. */
+    if (args_are_copies(op->args[3], op->args[4])) {
+        return tcg_opt_gen_mov(ctx, op, op->args[0], op->args[3]);
+    }
+
+    /* Canonicalize the comparison to put immediate second. */
+    if (swap_commutative(NO_DEST, &op->args[1], &op->args[2])) {
+        op->args[5] = tcg_swap_cond(op->args[5]);
+    }
+    /*
+     * Canonicalize the "false" input reg to match the destination,
+     * so that the tcg backend can implement "move if true".
+     */
+    if (swap_commutative(op->args[0], &op->args[4], &op->args[3])) {
+        op->args[5] = tcg_invert_cond(op->args[5]);
+    }
+    return finish_folding(ctx, op);
+}
+
 static bool fold_count_zeros(OptContext *ctx, TCGOp *op)
 {
     uint64_t z_mask, s_mask;
@@ -XXX,XX +XXX,XX @@ static bool fold_setcond2(OptContext *ctx, TCGOp *op)
     return tcg_opt_gen_movi(ctx, op, op->args[0], i);
 }
 
-static bool fold_cmp_vec(OptContext *ctx, TCGOp *op)
-{
-    /* Canonicalize the comparison to put immediate second. */
-    if (swap_commutative(NO_DEST, &op->args[1], &op->args[2])) {
-        op->args[3] = tcg_swap_cond(op->args[3]);
-    }
-    return finish_folding(ctx, op);
-}
-
-static bool fold_cmpsel_vec(OptContext *ctx, TCGOp *op)
-{
-    /* If true and false values are the same, eliminate the cmp. */
-    if (args_are_copies(op->args[3], op->args[4])) {
-        return tcg_opt_gen_mov(ctx, op, op->args[0], op->args[3]);
-    }
-
-    /* Canonicalize the comparison to put immediate second. */
-    if (swap_commutative(NO_DEST, &op->args[1], &op->args[2])) {
-        op->args[5] = tcg_swap_cond(op->args[5]);
-    }
-    /*
-     * Canonicalize the "false" input reg to match the destination,
-     * so that the tcg backend can implement "move if true".
-     */
-    if (swap_commutative(op->args[0], &op->args[4], &op->args[3])) {
-        op->args[5] = tcg_invert_cond(op->args[5]);
-    }
-    return finish_folding(ctx, op);
-}
-
 static bool fold_sextract(OptContext *ctx, TCGOp *op)
 {
     uint64_t z_mask, s_mask, s_mask_old;
-- 
2.43.0

We currently have a flag, float_muladd_halve_result, to scale
the result by 2**-1.  Extend this to handle arbitrary scaling.

Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 include/fpu/softfloat.h   |  6 ++++
 fpu/softfloat.c           | 58 ++++++++++++++++++++++-----------------
 fpu/softfloat-parts.c.inc |  7 +++--
 3 files changed, 44 insertions(+), 27 deletions(-)

diff --git a/include/fpu/softfloat.h b/include/fpu/softfloat.h
index XXXXXXX..XXXXXXX 100644
--- a/include/fpu/softfloat.h
+++ b/include/fpu/softfloat.h
@@ -XXX,XX +XXX,XX @@ float16 float16_add(float16, float16, float_status *status);
 float16 float16_sub(float16, float16, float_status *status);
 float16 float16_mul(float16, float16, float_status *status);
 float16 float16_muladd(float16, float16, float16, int, float_status *status);
+float16 float16_muladd_scalbn(float16, float16, float16,
+                              int, int, float_status *status);
 float16 float16_div(float16, float16, float_status *status);
 float16 float16_scalbn(float16, int, float_status *status);
 float16 float16_min(float16, float16, float_status *status);
@@ -XXX,XX +XXX,XX @@ float32 float32_mul(float32, float32, float_status *status);
 float32 float32_div(float32, float32, float_status *status);
 float32 float32_rem(float32, float32, float_status *status);
 float32 float32_muladd(float32, float32, float32, int, float_status *status);
+float32 float32_muladd_scalbn(float32, float32, float32,
+                              int, int, float_status *status);
 float32 float32_sqrt(float32, float_status *status);
 float32 float32_exp2(float32, float_status *status);
 float32 float32_log2(float32, float_status *status);
@@ -XXX,XX +XXX,XX @@ float64 float64_mul(float64, float64, float_status *status);
 float64 float64_div(float64, float64, float_status *status);
 float64 float64_rem(float64, float64, float_status *status);
 float64 float64_muladd(float64, float64, float64, int, float_status *status);
+float64 float64_muladd_scalbn(float64, float64, float64,
+                              int, int, float_status *status);
 float64 float64_sqrt(float64, float_status *status);
 float64 float64_log2(float64, float_status *status);
 FloatRelation float64_compare(float64, float64, float_status *status);
diff --git a/fpu/softfloat.c b/fpu/softfloat.c
index XXXXXXX..XXXXXXX 100644
--- a/fpu/softfloat.c
+++ b/fpu/softfloat.c
@@ -XXX,XX +XXX,XX @@ static FloatParts128 *parts128_mul(FloatParts128 *a, FloatParts128 *b,
 #define parts_mul(A, B, S) \
     PARTS_GENERIC_64_128(mul, A)(A, B, S)
 
-static FloatParts64 *parts64_muladd(FloatParts64 *a, FloatParts64 *b,
-                                    FloatParts64 *c, int flags,
-                                    float_status *s);
-static FloatParts128 *parts128_muladd(FloatParts128 *a, FloatParts128 *b,
-                                      FloatParts128 *c, int flags,
-                                      float_status *s);
+static FloatParts64 *parts64_muladd_scalbn(FloatParts64 *a, FloatParts64 *b,
+                                           FloatParts64 *c, int scale,
+                                           int flags, float_status *s);
+static FloatParts128 *parts128_muladd_scalbn(FloatParts128 *a, FloatParts128 *b,
+                                             FloatParts128 *c, int scale,
+                                             int flags, float_status *s);
 
-#define parts_muladd(A, B, C, Z, S) \
-    PARTS_GENERIC_64_128(muladd, A)(A, B, C, Z, S)
+#define parts_muladd_scalbn(A, B, C, Z, Y, S) \
+    PARTS_GENERIC_64_128(muladd_scalbn, A)(A, B, C, Z, Y, S)
 
 static FloatParts64 *parts64_div(FloatParts64 *a, FloatParts64 *b,
                                  float_status *s);
@@ -XXX,XX +XXX,XX @@ floatx80_mul(floatx80 a, floatx80 b, float_status *status)
  * Fused multiply-add
  */
 
-float16 QEMU_FLATTEN float16_muladd(float16 a, float16 b, float16 c,
-                                    int flags, float_status *status)
+float16 QEMU_FLATTEN
+float16_muladd_scalbn(float16 a, float16 b, float16 c,
+                      int scale, int flags, float_status *status)
 {
     FloatParts64 pa, pb, pc, *pr;
 
     float16_unpack_canonical(&pa, a, status);
     float16_unpack_canonical(&pb, b, status);
     float16_unpack_canonical(&pc, c, status);
-    pr = parts_muladd(&pa, &pb, &pc, flags, status);
+    pr = parts_muladd_scalbn(&pa, &pb, &pc, scale, flags, status);
 
     return float16_round_pack_canonical(pr, status);
 }
 
-static float32 QEMU_SOFTFLOAT_ATTR
-soft_f32_muladd(float32 a, float32 b, float32 c, int flags,
-                float_status *status)
+float16 float16_muladd(float16 a, float16 b, float16 c,
+                       int flags, float_status *status)
+{
+    return float16_muladd_scalbn(a, b, c, 0, flags, status);
+}
+
+float32 QEMU_SOFTFLOAT_ATTR
+float32_muladd_scalbn(float32 a, float32 b, float32 c,
+                      int scale, int flags, float_status *status)
 {
     FloatParts64 pa, pb, pc, *pr;
 
     float32_unpack_canonical(&pa, a, status);
     float32_unpack_canonical(&pb, b, status);
     float32_unpack_canonical(&pc, c, status);
-    pr = parts_muladd(&pa, &pb, &pc, flags, status);
+    pr = parts_muladd_scalbn(&pa, &pb, &pc, scale, flags, status);
 
     return float32_round_pack_canonical(pr, status);
 }
 
-static float64 QEMU_SOFTFLOAT_ATTR
-soft_f64_muladd(float64 a, float64 b, float64 c, int flags,
-                float_status *status)
+float64 QEMU_SOFTFLOAT_ATTR
+float64_muladd_scalbn(float64 a, float64 b, float64 c,
+                      int scale, int flags, float_status *status)
 {
     FloatParts64 pa, pb, pc, *pr;
 
     float64_unpack_canonical(&pa, a, status);
     float64_unpack_canonical(&pb, b, status);
     float64_unpack_canonical(&pc, c, status);
-    pr = parts_muladd(&pa, &pb, &pc, flags, status);
+    pr = parts_muladd_scalbn(&pa, &pb, &pc, scale, flags, status);
 
     return float64_round_pack_canonical(pr, status);
 }
@@ -XXX,XX +XXX,XX @@ float32_muladd(float32 xa, float32 xb, float32 xc, int flags, float_status *s)
     return ur.s;
 
  soft:
-    return soft_f32_muladd(ua.s, ub.s, uc.s, flags, s);
+    return float32_muladd_scalbn(ua.s, ub.s, uc.s, 0, flags, s);
 }
 
 float64 QEMU_FLATTEN
@@ -XXX,XX +XXX,XX @@ float64_muladd(float64 xa, float64 xb, float64 xc, int flags, float_status *s)
     return ur.s;
 
  soft:
-    return soft_f64_muladd(ua.s, ub.s, uc.s, flags, s);
+    return float64_muladd_scalbn(ua.s, ub.s, uc.s, 0, flags, s);
 }
 
 float64 float64r32_muladd(float64 a, float64 b, float64 c,
@@ -XXX,XX +XXX,XX @@ float64 float64r32_muladd(float64 a, float64 b, float64 c,
     float64_unpack_canonical(&pa, a, status);
     float64_unpack_canonical(&pb, b, status);
     float64_unpack_canonical(&pc, c, status);
-    pr = parts_muladd(&pa, &pb, &pc, flags, status);
+    pr = parts_muladd_scalbn(&pa, &pb, &pc, 0, flags, status);
 
     return float64r32_round_pack_canonical(pr, status);
 }
@@ -XXX,XX +XXX,XX @@ bfloat16 QEMU_FLATTEN bfloat16_muladd(bfloat16 a, bfloat16 b, bfloat16 c,
     bfloat16_unpack_canonical(&pa, a, status);
     bfloat16_unpack_canonical(&pb, b, status);
     bfloat16_unpack_canonical(&pc, c, status);
-    pr = parts_muladd(&pa, &pb, &pc, flags, status);
+    pr = parts_muladd_scalbn(&pa, &pb, &pc, 0, flags, status);
 
     return bfloat16_round_pack_canonical(pr, status);
 }
@@ -XXX,XX +XXX,XX @@ float128 QEMU_FLATTEN float128_muladd(float128 a, float128 b, float128 c,
     float128_unpack_canonical(&pa, a, status);
     float128_unpack_canonical(&pb, b, status);
     float128_unpack_canonical(&pc, c, status);
-    pr = parts_muladd(&pa, &pb, &pc, flags, status);
+    pr = parts_muladd_scalbn(&pa, &pb, &pc, 0, flags, status);
 
     return float128_round_pack_canonical(pr, status);
 }
@@ -XXX,XX +XXX,XX @@ float32 float32_exp2(float32 a, float_status *status)
 
     float64_unpack_canonical(&rp, float64_one, status);
     for (i = 0 ; i < 15 ; i++) {
+
         float64_unpack_canonical(&tp, float32_exp2_coefficients[i], status);
-        rp = *parts_muladd(&tp, &xnp, &rp, 0, status);
+        rp = *parts_muladd_scalbn(&tp, &xnp, &rp, 0, 0, status);
         xnp = *parts_mul(&xnp, &xp, status);
     }
 
diff --git a/fpu/softfloat-parts.c.inc b/fpu/softfloat-parts.c.inc
index XXXXXXX..XXXXXXX 100644
--- a/fpu/softfloat-parts.c.inc
+++ b/fpu/softfloat-parts.c.inc
@@ -XXX,XX +XXX,XX @@ static FloatPartsN *partsN(mul)(FloatPartsN *a, FloatPartsN *b,
  * Requires A and C extracted into a double-sized structure to provide the
  * extra space for the widening multiply.
  */
-static FloatPartsN *partsN(muladd)(FloatPartsN *a, FloatPartsN *b,
-                                   FloatPartsN *c, int flags, float_status *s)
+static FloatPartsN *partsN(muladd_scalbn)(FloatPartsN *a, FloatPartsN *b,
+                                          FloatPartsN *c, int scale,
+                                          int flags, float_status *s)
 {
     int ab_mask, abc_mask;
     FloatPartsW p_widen, c_widen;
@@ -XXX,XX +XXX,XX @@ static FloatPartsN *partsN(muladd)(FloatPartsN *a, FloatPartsN *b,
     a->exp = p_widen.exp;
 
  return_normal:
+    /* TODO: Replace all use of float_muladd_halve_result with scale. */
     if (flags & float_muladd_halve_result) {
         a->exp -= 1;
     }
+    a->exp += scale;
  finish_sign:
     if (flags & float_muladd_negate_result) {
         a->sign ^= 1;
-- 
2.43.0

Use the scalbn interface instead of float_muladd_halve_result.

Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 target/arm/tcg/helper-a64.c | 6 +++---
 1 file changed, 3 insertions(+), 3 deletions(-)

diff --git a/target/arm/tcg/helper-a64.c b/target/arm/tcg/helper-a64.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/helper-a64.c
+++ b/target/arm/tcg/helper-a64.c
@@ -XXX,XX +XXX,XX @@ uint32_t HELPER(rsqrtsf_f16)(uint32_t a, uint32_t b, float_status *fpst)
         (float16_is_infinity(b) && float16_is_zero(a))) {
         return float16_one_point_five;
     }
-    return float16_muladd(a, b, float16_three, float_muladd_halve_result, fpst);
+    return float16_muladd_scalbn(a, b, float16_three, -1, 0, fpst);
 }
 
 float32 HELPER(rsqrtsf_f32)(float32 a, float32 b, float_status *fpst)
@@ -XXX,XX +XXX,XX @@ float32 HELPER(rsqrtsf_f32)(float32 a, float32 b, float_status *fpst)
         (float32_is_infinity(b) && float32_is_zero(a))) {
         return float32_one_point_five;
     }
-    return float32_muladd(a, b, float32_three, float_muladd_halve_result, fpst);
+    return float32_muladd_scalbn(a, b, float32_three, -1, 0, fpst);
 }
 
 float64 HELPER(rsqrtsf_f64)(float64 a, float64 b, float_status *fpst)
@@ -XXX,XX +XXX,XX @@ float64 HELPER(rsqrtsf_f64)(float64 a, float64 b, float_status *fpst)
         (float64_is_infinity(b) && float64_is_zero(a))) {
         return float64_one_point_five;
     }
-    return float64_muladd(a, b, float64_three, float_muladd_halve_result, fpst);
+    return float64_muladd_scalbn(a, b, float64_three, -1, 0, fpst);
 }
 
 /* Floating-point reciprocal exponent - see FPRecpX in ARM ARM */
-- 
2.43.0

Use the scalbn interface instead of float_muladd_halve_result.

Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 target/sparc/helper.h     |  4 +-
 target/sparc/fop_helper.c |  8 ++--
 target/sparc/translate.c  | 80 +++++++++++++++++++++++----------------
 3 files changed, 54 insertions(+), 38 deletions(-)

diff --git a/target/sparc/helper.h b/target/sparc/helper.h
index XXXXXXX..XXXXXXX 100644
--- a/target/sparc/helper.h
+++ b/target/sparc/helper.h
@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_3(faddd, TCG_CALL_NO_WG, f64, env, f64, f64)
 DEF_HELPER_FLAGS_3(fsubd, TCG_CALL_NO_WG, f64, env, f64, f64)
 DEF_HELPER_FLAGS_3(fmuld, TCG_CALL_NO_WG, f64, env, f64, f64)
 DEF_HELPER_FLAGS_3(fdivd, TCG_CALL_NO_WG, f64, env, f64, f64)
-DEF_HELPER_FLAGS_5(fmaddd, TCG_CALL_NO_WG, f64, env, f64, f64, f64, i32)
+DEF_HELPER_FLAGS_6(fmaddd, TCG_CALL_NO_WG, f64, env, f64, f64, f64, s32, i32)
 DEF_HELPER_FLAGS_3(fnaddd, TCG_CALL_NO_WG, f64, env, f64, f64)
 DEF_HELPER_FLAGS_3(fnmuld, TCG_CALL_NO_WG, f64, env, f64, f64)
 
@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_3(fadds, TCG_CALL_NO_WG, f32, env, f32, f32)
 DEF_HELPER_FLAGS_3(fsubs, TCG_CALL_NO_WG, f32, env, f32, f32)
 DEF_HELPER_FLAGS_3(fmuls, TCG_CALL_NO_WG, f32, env, f32, f32)
 DEF_HELPER_FLAGS_3(fdivs, TCG_CALL_NO_WG, f32, env, f32, f32)
-DEF_HELPER_FLAGS_5(fmadds, TCG_CALL_NO_WG, f32, env, f32, f32, f32, i32)
+DEF_HELPER_FLAGS_6(fmadds, TCG_CALL_NO_WG, f32, env, f32, f32, f32, s32, i32)
 DEF_HELPER_FLAGS_3(fnadds, TCG_CALL_NO_WG, f32, env, f32, f32)
 DEF_HELPER_FLAGS_3(fnmuls, TCG_CALL_NO_WG, f32, env, f32, f32)
 
diff --git a/target/sparc/fop_helper.c b/target/sparc/fop_helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/sparc/fop_helper.c
+++ b/target/sparc/fop_helper.c
@@ -XXX,XX +XXX,XX @@ Int128 helper_fsqrtq(CPUSPARCState *env, Int128 src)
 }
 
 float32 helper_fmadds(CPUSPARCState *env, float32 s1,
-                      float32 s2, float32 s3, uint32_t op)
+                      float32 s2, float32 s3, int32_t sc, uint32_t op)
 {
-    float32 ret = float32_muladd(s1, s2, s3, op, &env->fp_status);
+    float32 ret = float32_muladd_scalbn(s1, s2, s3, sc, op, &env->fp_status);
     check_ieee_exceptions(env, GETPC());
     return ret;
 }
 
 float64 helper_fmaddd(CPUSPARCState *env, float64 s1,
-                      float64 s2, float64 s3, uint32_t op)
+                      float64 s2, float64 s3, int32_t sc, uint32_t op)
 {
-    float64 ret = float64_muladd(s1, s2, s3, op, &env->fp_status);
+    float64 ret = float64_muladd_scalbn(s1, s2, s3, sc, op, &env->fp_status);
     check_ieee_exceptions(env, GETPC());
     return ret;
 }
diff --git a/target/sparc/translate.c b/target/sparc/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/sparc/translate.c
+++ b/target/sparc/translate.c
@@ -XXX,XX +XXX,XX @@ static void gen_op_fabsq(TCGv_i128 dst, TCGv_i128 src)
 
 static void gen_op_fmadds(TCGv_i32 d, TCGv_i32 s1, TCGv_i32 s2, TCGv_i32 s3)
 {
-    gen_helper_fmadds(d, tcg_env, s1, s2, s3, tcg_constant_i32(0));
+    TCGv_i32 z = tcg_constant_i32(0);
+    gen_helper_fmadds(d, tcg_env, s1, s2, s3, z, z);
 }
 
 static void gen_op_fmaddd(TCGv_i64 d, TCGv_i64 s1, TCGv_i64 s2, TCGv_i64 s3)
 {
-    gen_helper_fmaddd(d, tcg_env, s1, s2, s3, tcg_constant_i32(0));
+    TCGv_i32 z = tcg_constant_i32(0);
+    gen_helper_fmaddd(d, tcg_env, s1, s2, s3, z, z);
 }
 
 static void gen_op_fmsubs(TCGv_i32 d, TCGv_i32 s1, TCGv_i32 s2, TCGv_i32 s3)
 {
-    int op = float_muladd_negate_c;
-    gen_helper_fmadds(d, tcg_env, s1, s2, s3, tcg_constant_i32(op));
+    TCGv_i32 z = tcg_constant_i32(0);
+    TCGv_i32 op = tcg_constant_i32(float_muladd_negate_c);
+    gen_helper_fmadds(d, tcg_env, s1, s2, s3, z, op);
 }
 
 static void gen_op_fmsubd(TCGv_i64 d, TCGv_i64 s1, TCGv_i64 s2, TCGv_i64 s3)
 {
-    int op = float_muladd_negate_c;
-    gen_helper_fmaddd(d, tcg_env, s1, s2, s3, tcg_constant_i32(op));
+    TCGv_i32 z = tcg_constant_i32(0);
+    TCGv_i32 op = tcg_constant_i32(float_muladd_negate_c);
+    gen_helper_fmaddd(d, tcg_env, s1, s2, s3, z, op);
 }
 
 static void gen_op_fnmsubs(TCGv_i32 d, TCGv_i32 s1, TCGv_i32 s2, TCGv_i32 s3)
 {
-    int op = float_muladd_negate_c | float_muladd_negate_result;
-    gen_helper_fmadds(d, tcg_env, s1, s2, s3, tcg_constant_i32(op));
+    TCGv_i32 z = tcg_constant_i32(0);
+    TCGv_i32 op = tcg_constant_i32(float_muladd_negate_c |
+                                   float_muladd_negate_result);
+    gen_helper_fmadds(d, tcg_env, s1, s2, s3, z, op);
 }
 
 static void gen_op_fnmsubd(TCGv_i64 d, TCGv_i64 s1, TCGv_i64 s2, TCGv_i64 s3)
 {
-    int op = float_muladd_negate_c | float_muladd_negate_result;
-    gen_helper_fmaddd(d, tcg_env, s1, s2, s3, tcg_constant_i32(op));
+    TCGv_i32 z = tcg_constant_i32(0);
+    TCGv_i32 op = tcg_constant_i32(float_muladd_negate_c |
+                                   float_muladd_negate_result);
+    gen_helper_fmaddd(d, tcg_env, s1, s2, s3, z, op);
 }
 
 static void gen_op_fnmadds(TCGv_i32 d, TCGv_i32 s1, TCGv_i32 s2, TCGv_i32 s3)
 {
-    int op = float_muladd_negate_result;
-    gen_helper_fmadds(d, tcg_env, s1, s2, s3, tcg_constant_i32(op));
+    TCGv_i32 z = tcg_constant_i32(0);
+    TCGv_i32 op = tcg_constant_i32(float_muladd_negate_result);
+    gen_helper_fmadds(d, tcg_env, s1, s2, s3, z, op);
 }
 
 static void gen_op_fnmaddd(TCGv_i64 d, TCGv_i64 s1, TCGv_i64 s2, TCGv_i64 s3)
 {
-    int op = float_muladd_negate_result;
-    gen_helper_fmaddd(d, tcg_env, s1, s2, s3, tcg_constant_i32(op));
+    TCGv_i32 z = tcg_constant_i32(0);
+    TCGv_i32 op = tcg_constant_i32(float_muladd_negate_result);
+    gen_helper_fmaddd(d, tcg_env, s1, s2, s3, z, op);
 }
 
 /* Use muladd to compute (1 * src1) + src2 / 2 with one rounding. */
 static void gen_op_fhadds(TCGv_i32 d, TCGv_i32 s1, TCGv_i32 s2)
 {
-    TCGv_i32 one = tcg_constant_i32(float32_one);
-    int op = float_muladd_halve_result;
-    gen_helper_fmadds(d, tcg_env, one, s1, s2, tcg_constant_i32(op));
+    TCGv_i32 fone = tcg_constant_i32(float32_one);
+    TCGv_i32 mone = tcg_constant_i32(-1);
+    TCGv_i32 op = tcg_constant_i32(0);
+    gen_helper_fmadds(d, tcg_env, fone, s1, s2, mone, op);
 }
 
 static void gen_op_fhaddd(TCGv_i64 d, TCGv_i64 s1, TCGv_i64 s2)
 {
-    TCGv_i64 one = tcg_constant_i64(float64_one);
-    int op = float_muladd_halve_result;
-    gen_helper_fmaddd(d, tcg_env, one, s1, s2, tcg_constant_i32(op));
+    TCGv_i64 fone = tcg_constant_i64(float64_one);
+    TCGv_i32 mone = tcg_constant_i32(-1);
+    TCGv_i32 op = tcg_constant_i32(0);
+    gen_helper_fmaddd(d, tcg_env, fone, s1, s2, mone, op);
 }
 
 /* Use muladd to compute (1 * src1) - src2 / 2 with one rounding. */
 static void gen_op_fhsubs(TCGv_i32 d, TCGv_i32 s1, TCGv_i32 s2)
 {
-    TCGv_i32 one = tcg_constant_i32(float32_one);
-    int op = float_muladd_negate_c | float_muladd_halve_result;
-    gen_helper_fmadds(d, tcg_env, one, s1, s2, tcg_constant_i32(op));
+    TCGv_i32 fone = tcg_constant_i32(float32_one);
+    TCGv_i32 mone = tcg_constant_i32(-1);
+    TCGv_i32 op = tcg_constant_i32(float_muladd_negate_c);
+    gen_helper_fmadds(d, tcg_env, fone, s1, s2, mone, op);
 }
 
 static void gen_op_fhsubd(TCGv_i64 d, TCGv_i64 s1, TCGv_i64 s2)
 {
-    TCGv_i64 one = tcg_constant_i64(float64_one);
-    int op = float_muladd_negate_c | float_muladd_halve_result;
-    gen_helper_fmaddd(d, tcg_env, one, s1, s2, tcg_constant_i32(op));
+    TCGv_i64 fone = tcg_constant_i64(float64_one);
+    TCGv_i32 mone = tcg_constant_i32(-1);
+    TCGv_i32 op = tcg_constant_i32(float_muladd_negate_c);
+    gen_helper_fmaddd(d, tcg_env, fone, s1, s2, mone, op);
 }
 
 /* Use muladd to compute -((1 * src1) + src2 / 2) with one rounding. */
 static void gen_op_fnhadds(TCGv_i32 d, TCGv_i32 s1, TCGv_i32 s2)
 {
-    TCGv_i32 one = tcg_constant_i32(float32_one);
-    int op = float_muladd_negate_result | float_muladd_halve_result;
-    gen_helper_fmadds(d, tcg_env, one, s1, s2, tcg_constant_i32(op));
+    TCGv_i32 fone = tcg_constant_i32(float32_one);
+    TCGv_i32 mone = tcg_constant_i32(-1);
+    TCGv_i32 op = tcg_constant_i32(float_muladd_negate_result);
+    gen_helper_fmadds(d, tcg_env, fone, s1, s2, mone, op);
 }
 
 static void gen_op_fnhaddd(TCGv_i64 d, TCGv_i64 s1, TCGv_i64 s2)
 {
-    TCGv_i64 one = tcg_constant_i64(float64_one);
-    int op = float_muladd_negate_result | float_muladd_halve_result;
-    gen_helper_fmaddd(d, tcg_env, one, s1, s2, tcg_constant_i32(op));
+    TCGv_i64 fone = tcg_constant_i64(float64_one);
+    TCGv_i32 mone = tcg_constant_i32(-1);
+    TCGv_i32 op = tcg_constant_i32(float_muladd_negate_result);
+    gen_helper_fmaddd(d, tcg_env, fone, s1, s2, mone, op);
 }
 
 static void gen_op_fpexception_im(DisasContext *dc, int ftt)
-- 
2.43.0

All uses have been convered to float*_muladd_scalbn.

Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 include/fpu/softfloat.h   | 3 ---
 fpu/softfloat.c           | 6 ------
 fpu/softfloat-parts.c.inc | 4 ----
 3 files changed, 13 deletions(-)

diff --git a/include/fpu/softfloat.h b/include/fpu/softfloat.h
index XXXXXXX..XXXXXXX 100644
--- a/include/fpu/softfloat.h
+++ b/include/fpu/softfloat.h
@@ -XXX,XX +XXX,XX @@ bfloat16 bfloat16_squash_input_denormal(bfloat16 a, float_status *status);
 | Using these differs from negating an input or output before calling
 | the muladd function in that this means that a NaN doesn't have its
 | sign bit inverted before it is propagated.
-| We also support halving the result before rounding, as a special
-| case to support the ARM fused-sqrt-step instruction FRSQRTS.
 *----------------------------------------------------------------------------*/
 enum {
     float_muladd_negate_c = 1,
     float_muladd_negate_product = 2,
     float_muladd_negate_result = 4,
-    float_muladd_halve_result = 8,
 };
 
 /*----------------------------------------------------------------------------
diff --git a/fpu/softfloat.c b/fpu/softfloat.c
index XXXXXXX..XXXXXXX 100644
--- a/fpu/softfloat.c
+++ b/fpu/softfloat.c
@@ -XXX,XX +XXX,XX @@ float32_muladd(float32 xa, float32 xb, float32 xc, int flags, float_status *s)
     if (unlikely(!can_use_fpu(s))) {
         goto soft;
     }
-    if (unlikely(flags & float_muladd_halve_result)) {
-        goto soft;
-    }
 
     float32_input_flush3(&ua.s, &ub.s, &uc.s, s);
     if (unlikely(!f32_is_zon3(ua, ub, uc))) {
@@ -XXX,XX +XXX,XX @@ float64_muladd(float64 xa, float64 xb, float64 xc, int flags, float_status *s)
     if (unlikely(!can_use_fpu(s))) {
         goto soft;
     }
-    if (unlikely(flags & float_muladd_halve_result)) {
-        goto soft;
-    }
 
     float64_input_flush3(&ua.s, &ub.s, &uc.s, s);
     if (unlikely(!f64_is_zon3(ua, ub, uc))) {
diff --git a/fpu/softfloat-parts.c.inc b/fpu/softfloat-parts.c.inc
index XXXXXXX..XXXXXXX 100644
--- a/fpu/softfloat-parts.c.inc
+++ b/fpu/softfloat-parts.c.inc
@@ -XXX,XX +XXX,XX @@ static FloatPartsN *partsN(muladd_scalbn)(FloatPartsN *a, FloatPartsN *b,
     a->exp = p_widen.exp;
 
  return_normal:
-    /* TODO: Replace all use of float_muladd_halve_result with scale. */
-    if (flags & float_muladd_halve_result) {
-        a->exp -= 1;
-    }
     a->exp += scale;
  finish_sign:
     if (flags & float_muladd_negate_result) {
-- 
2.43.0

This rounding mode is used by Hexagon.

Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 include/fpu/softfloat-types.h | 2 ++
 fpu/softfloat-parts.c.inc     | 3 +++
 2 files changed, 5 insertions(+)

diff --git a/include/fpu/softfloat-types.h b/include/fpu/softfloat-types.h
index XXXXXXX..XXXXXXX 100644
--- a/include/fpu/softfloat-types.h
+++ b/include/fpu/softfloat-types.h
@@ -XXX,XX +XXX,XX @@ typedef enum __attribute__((__packed__)) {
     float_round_to_odd       = 5,
     /* Not an IEEE rounding mode: round to closest odd, overflow to inf */
     float_round_to_odd_inf   = 6,
+    /* Not an IEEE rounding mode: round to nearest even, overflow to max */
+    float_round_nearest_even_max = 7,
 } FloatRoundMode;
 
 /*
diff --git a/fpu/softfloat-parts.c.inc b/fpu/softfloat-parts.c.inc
index XXXXXXX..XXXXXXX 100644
--- a/fpu/softfloat-parts.c.inc
+++ b/fpu/softfloat-parts.c.inc
@@ -XXX,XX +XXX,XX @@ static void partsN(uncanon_normal)(FloatPartsN *p, float_status *s,
     int exp, flags = 0;
 
     switch (s->float_rounding_mode) {
+    case float_round_nearest_even_max:
+        overflow_norm = true;
+        /* fall through */
     case float_round_nearest_even:
         if (N > 64 && frac_lsb == 0) {
             inc = ((p->frac_hi & 1) || (p->frac_lo & round_mask) != frac_lsbm1
-- 
2.43.0

Certain Hexagon instructions suppress changes to the result
when the product of fma() is a true zero.

Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 include/fpu/softfloat.h   | 5 +++++
 fpu/softfloat.c           | 3 +++
 fpu/softfloat-parts.c.inc | 4 +++-
 3 files changed, 11 insertions(+), 1 deletion(-)

diff --git a/include/fpu/softfloat.h b/include/fpu/softfloat.h
index XXXXXXX..XXXXXXX 100644
--- a/include/fpu/softfloat.h
+++ b/include/fpu/softfloat.h
@@ -XXX,XX +XXX,XX @@ bfloat16 bfloat16_squash_input_denormal(bfloat16 a, float_status *status);
 | Using these differs from negating an input or output before calling
 | the muladd function in that this means that a NaN doesn't have its
 | sign bit inverted before it is propagated.
+|
+| With float_muladd_suppress_add_product_zero, if A or B is zero
+| such that the product is a true zero, then return C without addition.
+| This preserves the sign of C when C is +/- 0.  Used for Hexagon.
 *----------------------------------------------------------------------------*/
 enum {
     float_muladd_negate_c = 1,
     float_muladd_negate_product = 2,
     float_muladd_negate_result = 4,
+    float_muladd_suppress_add_product_zero = 8,
 };
 
 /*----------------------------------------------------------------------------
diff --git a/fpu/softfloat.c b/fpu/softfloat.c
index XXXXXXX..XXXXXXX 100644
--- a/fpu/softfloat.c
+++ b/fpu/softfloat.c
@@ -XXX,XX +XXX,XX @@ float32_muladd(float32 xa, float32 xb, float32 xc, int flags, float_status *s)
     if (unlikely(!can_use_fpu(s))) {
         goto soft;
     }
+    if (unlikely(flags & float_muladd_suppress_add_product_zero)) {
+        goto soft;
+    }
 
     float32_input_flush3(&ua.s, &ub.s, &uc.s, s);
     if (unlikely(!f32_is_zon3(ua, ub, uc))) {
diff --git a/fpu/softfloat-parts.c.inc b/fpu/softfloat-parts.c.inc
index XXXXXXX..XXXXXXX 100644
--- a/fpu/softfloat-parts.c.inc
+++ b/fpu/softfloat-parts.c.inc
@@ -XXX,XX +XXX,XX @@ static FloatPartsN *partsN(muladd_scalbn)(FloatPartsN *a, FloatPartsN *b,
             goto return_normal;
         }
         if (c->cls == float_class_zero) {
-            if (a->sign != c->sign) {
+            if (flags & float_muladd_suppress_add_product_zero) {
+                a->sign = c->sign;
+            } else if (a->sign != c->sign) {
                 goto return_sub_zero;
             }
             goto return_zero;
-- 
2.43.0

There are no special cases for this instruction.
Remove internal_mpyf as unused.

Reviewed-by: Brian Cain <brian.cain@oss.qualcomm.com>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 target/hexagon/fma_emu.h   | 1 -
 target/hexagon/fma_emu.c   | 8 --------
 target/hexagon/op_helper.c | 2 +-
 3 files changed, 1 insertion(+), 10 deletions(-)

diff --git a/target/hexagon/fma_emu.h b/target/hexagon/fma_emu.h
index XXXXXXX..XXXXXXX 100644
--- a/target/hexagon/fma_emu.h
+++ b/target/hexagon/fma_emu.h
@@ -XXX,XX +XXX,XX @@ int32_t float32_getexp(float32 f32);
 float32 infinite_float32(uint8_t sign);
 float32 internal_fmafx(float32 a, float32 b, float32 c,
                        int scale, float_status *fp_status);
-float32 internal_mpyf(float32 a, float32 b, float_status *fp_status);
 float64 internal_mpyhh(float64 a, float64 b,
                        unsigned long long int accumulated,
                        float_status *fp_status);
diff --git a/target/hexagon/fma_emu.c b/target/hexagon/fma_emu.c
index XXXXXXX..XXXXXXX 100644
--- a/target/hexagon/fma_emu.c
+++ b/target/hexagon/fma_emu.c
@@ -XXX,XX +XXX,XX @@ float32 internal_fmafx(float32 a, float32 b, float32 c, int scale,
     return accum_round_float32(result, fp_status);
 }
 
-float32 internal_mpyf(float32 a, float32 b, float_status *fp_status)
-{
-    if (float32_is_zero(a) || float32_is_zero(b)) {
-        return float32_mul(a, b, fp_status);
-    }
-    return internal_fmafx(a, b, float32_zero, 0, fp_status);
-}
-
 float64 internal_mpyhh(float64 a, float64 b,
                       unsigned long long int accumulated,
                       float_status *fp_status)
diff --git a/target/hexagon/op_helper.c b/target/hexagon/op_helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/hexagon/op_helper.c
+++ b/target/hexagon/op_helper.c
@@ -XXX,XX +XXX,XX @@ float32 HELPER(sfmpy)(CPUHexagonState *env, float32 RsV, float32 RtV)
 {
     float32 RdV;
     arch_fpop_start(env);
-    RdV = internal_mpyf(RsV, RtV, &env->fp_status);
+    RdV = float32_mul(RsV, RtV, &env->fp_status);
     arch_fpop_end(env);
     return RdV;
 }
-- 
2.43.0

There are no special cases for this instruction.  Since hexagon
always uses default-nan mode, explicitly negating the first
input is unnecessary.  Use float_muladd_negate_product instead.

Reviewed-by: Brian Cain <brian.cain@oss.qualcomm.com>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 target/hexagon/op_helper.c | 5 ++---
 1 file changed, 2 insertions(+), 3 deletions(-)

This instruction has a special case that 0 * x + c returns c
without the normal sign folding that comes with 0 + -0.
Use the new float_muladd_suppress_add_product_zero to
describe this.

Reviewed-by: Brian Cain <brian.cain@oss.qualcomm.com>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 target/hexagon/op_helper.c | 11 +++--------
 1 file changed, 3 insertions(+), 8 deletions(-)

diff --git a/target/hexagon/op_helper.c b/target/hexagon/op_helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/hexagon/op_helper.c
+++ b/target/hexagon/op_helper.c
@@ -XXX,XX +XXX,XX @@ static float32 check_nan(float32 dst, float32 x, float_status *fp_status)
 float32 HELPER(sffma_sc)(CPUHexagonState *env, float32 RxV,
                          float32 RsV, float32 RtV, float32 PuV)
 {
-    size4s_t tmp;
     arch_fpop_start(env);
-    RxV = check_nan(RxV, RxV, &env->fp_status);
-    RxV = check_nan(RxV, RsV, &env->fp_status);
-    RxV = check_nan(RxV, RtV, &env->fp_status);
-    tmp = internal_fmafx(RsV, RtV, RxV, fSXTN(8, 64, PuV), &env->fp_status);
-    if (!(float32_is_zero(RxV) && is_zero_prod(RsV, RtV))) {
-        RxV = tmp;
-    }
+    RxV = float32_muladd_scalbn(RsV, RtV, RxV, fSXTN(8, 64, PuV),
+                                float_muladd_suppress_add_product_zero,
+                                &env->fp_status);
     arch_fpop_end(env);
     return RxV;
 }
-- 
2.43.0

There are multiple special cases for this instruction.
(1) The saturate to normal maximum instead of overflow to infinity is
    handled by the new float_round_nearest_even_max rounding mode.
(2) The 0 * n + c special case is handled by the new
    float_muladd_suppress_add_product_zero flag.
(3) The Inf - Inf -> 0 special case can be detected after the fact
    by examining float_flag_invalid_isi.

Reviewed-by: Brian Cain <brian.cain@oss.qualcomm.com>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 target/hexagon/op_helper.c | 105 +++++++++----------------------------
 1 file changed, 26 insertions(+), 79 deletions(-)

diff --git a/target/hexagon/op_helper.c b/target/hexagon/op_helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/hexagon/op_helper.c
+++ b/target/hexagon/op_helper.c
@@ -XXX,XX +XXX,XX @@ float32 HELPER(sffma)(CPUHexagonState *env, float32 RxV,
     return RxV;
 }
 
-static bool is_zero_prod(float32 a, float32 b)
-{
-    return ((float32_is_zero(a) && is_finite(b)) ||
-            (float32_is_zero(b) && is_finite(a)));
-}
-
-static float32 check_nan(float32 dst, float32 x, float_status *fp_status)
-{
-    float32 ret = dst;
-    if (float32_is_any_nan(x)) {
-        if (extract32(x, 22, 1) == 0) {
-            float_raise(float_flag_invalid, fp_status);
-        }
-        ret = make_float32(0xffffffff);    /* nan */
-    }
-    return ret;
-}
-
 float32 HELPER(sffma_sc)(CPUHexagonState *env, float32 RxV,
                          float32 RsV, float32 RtV, float32 PuV)
 {
@@ -XXX,XX +XXX,XX @@ float32 HELPER(sffms)(CPUHexagonState *env, float32 RxV,
     return RxV;
 }
 
-static bool is_inf_prod(int32_t a, int32_t b)
+static float32 do_sffma_lib(CPUHexagonState *env, float32 RxV,
+                            float32 RsV, float32 RtV, int negate)
 {
-    return (float32_is_infinity(a) && float32_is_infinity(b)) ||
-           (float32_is_infinity(a) && is_finite(b) && !float32_is_zero(b)) ||
-           (float32_is_infinity(b) && is_finite(a) && !float32_is_zero(a));
+    int flags;
+
+    arch_fpop_start(env);
+
+    set_float_rounding_mode(float_round_nearest_even_max, &env->fp_status);
+    RxV = float32_muladd(RsV, RtV, RxV,
+                         negate | float_muladd_suppress_add_product_zero,
+                         &env->fp_status);
+
+    flags = get_float_exception_flags(&env->fp_status);
+    if (flags) {
+        /* Flags are suppressed by this instruction. */
+        set_float_exception_flags(0, &env->fp_status);
+
+        /* Return 0 for Inf - Inf. */
+        if (flags & float_flag_invalid_isi) {
+            RxV = 0;
+        }
+    }
+
+    arch_fpop_end(env);
+    return RxV;
 }
 
 float32 HELPER(sffma_lib)(CPUHexagonState *env, float32 RxV,
                           float32 RsV, float32 RtV)
 {
-    bool infinp;
-    bool infminusinf;
-    float32 tmp;
-
-    arch_fpop_start(env);
-    set_float_rounding_mode(float_round_nearest_even, &env->fp_status);
-    infminusinf = float32_is_infinity(RxV) &&
-                  is_inf_prod(RsV, RtV) &&
-                  (fGETBIT(31, RsV ^ RxV ^ RtV) != 0);
-    infinp = float32_is_infinity(RxV) ||
-             float32_is_infinity(RtV) ||
-             float32_is_infinity(RsV);
-    RxV = check_nan(RxV, RxV, &env->fp_status);
-    RxV = check_nan(RxV, RsV, &env->fp_status);
-    RxV = check_nan(RxV, RtV, &env->fp_status);
-    tmp = internal_fmafx(RsV, RtV, RxV, 0, &env->fp_status);
-    if (!(float32_is_zero(RxV) && is_zero_prod(RsV, RtV))) {
-        RxV = tmp;
-    }
-    set_float_exception_flags(0, &env->fp_status);
-    if (float32_is_infinity(RxV) && !infinp) {
-        RxV = RxV - 1;
-    }
-    if (infminusinf) {
-        RxV = 0;
-    }
-    arch_fpop_end(env);
-    return RxV;
+    return do_sffma_lib(env, RxV, RsV, RtV, 0);
 }
 
 float32 HELPER(sffms_lib)(CPUHexagonState *env, float32 RxV,
                           float32 RsV, float32 RtV)
 {
-    bool infinp;
-    bool infminusinf;
-    float32 tmp;
-
-    arch_fpop_start(env);
-    set_float_rounding_mode(float_round_nearest_even, &env->fp_status);
-    infminusinf = float32_is_infinity(RxV) &&
-                  is_inf_prod(RsV, RtV) &&
-                  (fGETBIT(31, RsV ^ RxV ^ RtV) == 0);
-    infinp = float32_is_infinity(RxV) ||
-             float32_is_infinity(RtV) ||
-             float32_is_infinity(RsV);
-    RxV = check_nan(RxV, RxV, &env->fp_status);
-    RxV = check_nan(RxV, RsV, &env->fp_status);
-    RxV = check_nan(RxV, RtV, &env->fp_status);
-    float32 minus_RsV = float32_sub(float32_zero, RsV, &env->fp_status);
-    tmp = internal_fmafx(minus_RsV, RtV, RxV, 0, &env->fp_status);
-    if (!(float32_is_zero(RxV) && is_zero_prod(RsV, RtV))) {
-        RxV = tmp;
-    }
-    set_float_exception_flags(0, &env->fp_status);
-    if (float32_is_infinity(RxV) && !infinp) {
-        RxV = RxV - 1;
-    }
-    if (infminusinf) {
-        RxV = 0;
-    }
-    arch_fpop_end(env);
-    return RxV;
+    return do_sffma_lib(env, RxV, RsV, RtV, float_muladd_negate_product);
 }
 
 float64 HELPER(dfmpyfix)(CPUHexagonState *env, float64 RssV, float64 RttV)
-- 
2.43.0

The function is now unused.

Reviewed-by: Brian Cain <brian.cain@oss.qualcomm.com>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 target/hexagon/fma_emu.h |   2 -
 target/hexagon/fma_emu.c | 171 ---------------------------------------
 2 files changed, 173 deletions(-)

diff --git a/target/hexagon/fma_emu.h b/target/hexagon/fma_emu.h
index XXXXXXX..XXXXXXX 100644
--- a/target/hexagon/fma_emu.h
+++ b/target/hexagon/fma_emu.h
@@ -XXX,XX +XXX,XX @@ static inline uint32_t float32_getexp_raw(float32 f32)
 }
 int32_t float32_getexp(float32 f32);
 float32 infinite_float32(uint8_t sign);
-float32 internal_fmafx(float32 a, float32 b, float32 c,
-                       int scale, float_status *fp_status);
 float64 internal_mpyhh(float64 a, float64 b,
                        unsigned long long int accumulated,
                        float_status *fp_status);
diff --git a/target/hexagon/fma_emu.c b/target/hexagon/fma_emu.c
index XXXXXXX..XXXXXXX 100644
--- a/target/hexagon/fma_emu.c
+++ b/target/hexagon/fma_emu.c
@@ -XXX,XX +XXX,XX @@ int32_t float64_getexp(float64 f64)
     return -1;
 }
 
-static uint64_t float32_getmant(float32 f32)
-{
-    Float a = { .i = f32 };
-    if (float32_is_normal(f32)) {
-        return a.mant | 1ULL << 23;
-    }
-    if (float32_is_zero(f32)) {
-        return 0;
-    }
-    if (float32_is_denormal(f32)) {
-        return a.mant;
-    }
-    return ~0ULL;
-}
-
 int32_t float32_getexp(float32 f32)
 {
     Float a = { .i = f32 };
@@ -XXX,XX +XXX,XX @@ float32 infinite_float32(uint8_t sign)
 }
 
 /* Return a maximum finite value with the requested sign */
-static float32 maxfinite_float32(uint8_t sign)
-{
-    if (sign) {
-        return make_float32(SF_MINUS_MAXF);
-    } else {
-        return make_float32(SF_MAXF);
-    }
-}
-
-/* Return a zero value with requested sign */
-static float32 zero_float32(uint8_t sign)
-{
-    if (sign) {
-        return make_float32(0x80000000);
-    } else {
-        return float32_zero;
-    }
-}
-
 #define GEN_XF_ROUND(SUFFIX, MANTBITS, INF_EXP, INTERNAL_TYPE) \
 static SUFFIX accum_round_##SUFFIX(Accum a, float_status * fp_status) \
 { \
@@ -XXX,XX +XXX,XX @@ static SUFFIX accum_round_##SUFFIX(Accum a, float_status * fp_status) \
 }
 
 GEN_XF_ROUND(float64, DF_MANTBITS, DF_INF_EXP, Double)
-GEN_XF_ROUND(float32, SF_MANTBITS, SF_INF_EXP, Float)
-
-static bool is_inf_prod(float64 a, float64 b)
-{
-    return ((float64_is_infinity(a) && float64_is_infinity(b)) ||
-            (float64_is_infinity(a) && is_finite(b) && (!float64_is_zero(b))) ||
-            (float64_is_infinity(b) && is_finite(a) && (!float64_is_zero(a))));
-}
-
-static float64 special_fma(float64 a, float64 b, float64 c,
-                           float_status *fp_status)
-{
-    float64 ret = make_float64(0);
-
-    /*
-     * If A multiplied by B is an exact infinity and C is also an infinity
-     * but with the opposite sign, FMA returns NaN and raises invalid.
-     */
-    uint8_t a_sign = float64_is_neg(a);
-    uint8_t b_sign = float64_is_neg(b);
-    uint8_t c_sign = float64_is_neg(c);
-    if (is_inf_prod(a, b) && float64_is_infinity(c)) {
-        if ((a_sign ^ b_sign) != c_sign) {
-            ret = make_float64(DF_NAN);
-            float_raise(float_flag_invalid, fp_status);
-            return ret;
-        }
-    }
-    if ((float64_is_infinity(a) && float64_is_zero(b)) ||
-        (float64_is_zero(a) && float64_is_infinity(b))) {
-        ret = make_float64(DF_NAN);
-        float_raise(float_flag_invalid, fp_status);
-        return ret;
-    }
-    /*
-     * If none of the above checks are true and C is a NaN,
-     * a NaN shall be returned
-     * If A or B are NaN, a NAN shall be returned.
-     */
-    if (float64_is_any_nan(a) ||
-        float64_is_any_nan(b) ||
-        float64_is_any_nan(c)) {
-        if (float64_is_any_nan(a) && (fGETBIT(51, a) == 0)) {
-            float_raise(float_flag_invalid, fp_status);
-        }
-        if (float64_is_any_nan(b) && (fGETBIT(51, b) == 0)) {
-            float_raise(float_flag_invalid, fp_status);
-        }
-        if (float64_is_any_nan(c) && (fGETBIT(51, c) == 0)) {
-            float_raise(float_flag_invalid, fp_status);
-        }
-        ret = make_float64(DF_NAN);
-        return ret;
-    }
-    /*
-     * We have checked for adding opposite-signed infinities.
-     * Other infinities return infinity with the correct sign
-     */
-    if (float64_is_infinity(c)) {
-        ret = infinite_float64(c_sign);
-        return ret;
-    }
-    if (float64_is_infinity(a) || float64_is_infinity(b)) {
-        ret = infinite_float64(a_sign ^ b_sign);
-        return ret;
-    }
-    g_assert_not_reached();
-}
-
-static float32 special_fmaf(float32 a, float32 b, float32 c,
-                            float_status *fp_status)
-{
-    float64 aa, bb, cc;
-    aa = float32_to_float64(a, fp_status);
-    bb = float32_to_float64(b, fp_status);
-    cc = float32_to_float64(c, fp_status);
-    return float64_to_float32(special_fma(aa, bb, cc, fp_status), fp_status);
-}
-
-float32 internal_fmafx(float32 a, float32 b, float32 c, int scale,
-                       float_status *fp_status)
-{
-    Accum prod;
-    Accum acc;
-    Accum result;
-    accum_init(&prod);
-    accum_init(&acc);
-    accum_init(&result);
-
-    uint8_t a_sign = float32_is_neg(a);
-    uint8_t b_sign = float32_is_neg(b);
-    uint8_t c_sign = float32_is_neg(c);
-    if (float32_is_infinity(a) ||
-        float32_is_infinity(b) ||
-        float32_is_infinity(c)) {
-        return special_fmaf(a, b, c, fp_status);
-    }
-    if (float32_is_any_nan(a) ||
-        float32_is_any_nan(b) ||
-        float32_is_any_nan(c)) {
-        return special_fmaf(a, b, c, fp_status);
-    }
-    if ((scale == 0) && (float32_is_zero(a) || float32_is_zero(b))) {
-        float32 tmp = float32_mul(a, b, fp_status);
-        tmp = float32_add(tmp, c, fp_status);
-        return tmp;
-    }
-
-    /* (a * 2**b) * (c * 2**d) == a*c * 2**(b+d) */
-    prod.mant = int128_mul_6464(float32_getmant(a), float32_getmant(b));
-
-    /*
-     * Note: extracting the mantissa into an int is multiplying by
-     * 2**23, so adjust here
-     */
-    prod.exp = float32_getexp(a) + float32_getexp(b) - SF_BIAS - 23;
-    prod.sign = a_sign ^ b_sign;
-    if (float32_is_zero(a) || float32_is_zero(b)) {
-        prod.exp = -2 * WAY_BIG_EXP;
-    }
-    if ((scale > 0) && float32_is_denormal(c)) {
-        acc.mant = int128_mul_6464(0, 0);
-        acc.exp = -WAY_BIG_EXP;
-        acc.sign = c_sign;
-        acc.sticky = 1;
-        result = accum_add(prod, acc);
-    } else if (!float32_is_zero(c)) {
-        acc.mant = int128_mul_6464(float32_getmant(c), 1);
-        acc.exp = float32_getexp(c);
-        acc.sign = c_sign;
-        result = accum_add(prod, acc);
-    } else {
-        result = prod;
-    }
-    result.exp += scale;
-    return accum_round_float32(result, fp_status);
-}
 
 float64 internal_mpyhh(float64 a, float64 b,
                       unsigned long long int accumulated,
-- 
2.43.0

This massive macro is now only used once.
Expand it for use only by float64.

Reviewed-by: Brian Cain <brian.cain@oss.qualcomm.com>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 target/hexagon/fma_emu.c | 255 +++++++++++++++++++--------------------
 1 file changed, 127 insertions(+), 128 deletions(-)

diff --git a/target/hexagon/fma_emu.c b/target/hexagon/fma_emu.c
index XXXXXXX..XXXXXXX 100644
--- a/target/hexagon/fma_emu.c
+++ b/target/hexagon/fma_emu.c
@@ -XXX,XX +XXX,XX @@ float32 infinite_float32(uint8_t sign)
 }
 
 /* Return a maximum finite value with the requested sign */
-#define GEN_XF_ROUND(SUFFIX, MANTBITS, INF_EXP, INTERNAL_TYPE) \
-static SUFFIX accum_round_##SUFFIX(Accum a, float_status * fp_status) \
-{ \
-    if ((int128_gethi(a.mant) == 0) && (int128_getlo(a.mant) == 0) \
-        && ((a.guard | a.round | a.sticky) == 0)) { \
-        /* result zero */ \
-        switch (fp_status->float_rounding_mode) { \
-        case float_round_down: \
-            return zero_##SUFFIX(1); \
-        default: \
-            return zero_##SUFFIX(0); \
-        } \
-    } \
-    /* Normalize right */ \
-    /* We want MANTBITS bits of mantissa plus the leading one. */ \
-    /* That means that we want MANTBITS+1 bits, or 0x000000000000FF_FFFF */ \
-    /* So we need to normalize right while the high word is non-zero and \
-    * while the low word is nonzero when masked with 0xffe0_0000_0000_0000 */ \
-    while ((int128_gethi(a.mant) != 0) || \
-           ((int128_getlo(a.mant) >> (MANTBITS + 1)) != 0)) { \
-        a = accum_norm_right(a, 1); \
-    } \
-    /* \
-     * OK, now normalize left \
-     * We want to normalize left until we have a leading one in bit 24 \
-     * Theoretically, we only need to shift a maximum of one to the left if we \
-     * shifted out lots of bits from B, or if we had no shift / 1 shift sticky \
-     * should be 0  \
-     */ \
-    while ((int128_getlo(a.mant) & (1ULL << MANTBITS)) == 0) { \
-        a = accum_norm_left(a); \
-    } \
-    /* \
-     * OK, now we might need to denormalize because of potential underflow. \
-     * We need to do this before rounding, and rounding might make us normal \
-     * again \
-     */ \
-    while (a.exp <= 0) { \
-        a = accum_norm_right(a, 1 - a.exp); \
-        /* \
-         * Do we have underflow? \
-         * That's when we get an inexact answer because we ran out of bits \
-         * in a denormal. \
-         */ \
-        if (a.guard || a.round || a.sticky) { \
-            float_raise(float_flag_underflow, fp_status); \
-        } \
-    } \
-    /* OK, we're relatively canonical... now we need to round */ \
-    if (a.guard || a.round || a.sticky) { \
-        float_raise(float_flag_inexact, fp_status); \
-        switch (fp_status->float_rounding_mode) { \
-        case float_round_to_zero: \
-            /* Chop and we're done */ \
-            break; \
-        case float_round_up: \
-            if (a.sign == 0) { \
-                a.mant = int128_add(a.mant, int128_one()); \
-            } \
-            break; \
-        case float_round_down: \
-            if (a.sign != 0) { \
-                a.mant = int128_add(a.mant, int128_one()); \
-            } \
-            break; \
-        default: \
-            if (a.round || a.sticky) { \
-                /* round up if guard is 1, down if guard is zero */ \
-                a.mant = int128_add(a.mant, int128_make64(a.guard)); \
-            } else if (a.guard) { \
-                /* exactly .5, round up if odd */ \
-                a.mant = int128_add(a.mant, int128_and(a.mant, int128_one())); \
-            } \
-            break; \
-        } \
-    } \
-    /* \
-     * OK, now we might have carried all the way up. \
-     * So we might need to shr once \
-     * at least we know that the lsb should be zero if we rounded and \
-     * got a carry out... \
-     */ \
-    if ((int128_getlo(a.mant) >> (MANTBITS + 1)) != 0) { \
-        a = accum_norm_right(a, 1); \
-    } \
-    /* Overflow? */ \
-    if (a.exp >= INF_EXP) { \
-        /* Yep, inf result */ \
-        float_raise(float_flag_overflow, fp_status); \
-        float_raise(float_flag_inexact, fp_status); \
-        switch (fp_status->float_rounding_mode) { \
-        case float_round_to_zero: \
-            return maxfinite_##SUFFIX(a.sign); \
-        case float_round_up: \
-            if (a.sign == 0) { \
-                return infinite_##SUFFIX(a.sign); \
-            } else { \
-                return maxfinite_##SUFFIX(a.sign); \
-            } \
-        case float_round_down: \
-            if (a.sign != 0) { \
-                return infinite_##SUFFIX(a.sign); \
-            } else { \
-                return maxfinite_##SUFFIX(a.sign); \
-            } \
-        default: \
-            return infinite_##SUFFIX(a.sign); \
-        } \
-    } \
-    /* Underflow? */ \
-    if (int128_getlo(a.mant) & (1ULL << MANTBITS)) { \
-        /* Leading one means: No, we're normal. So, we should be done... */ \
-        INTERNAL_TYPE ret; \
-        ret.i = 0; \
-        ret.sign = a.sign; \
-        ret.exp = a.exp; \
-        ret.mant = int128_getlo(a.mant); \
-        return ret.i; \
-    } \
-    assert(a.exp == 1); \
-    INTERNAL_TYPE ret; \
-    ret.i = 0; \
-    ret.sign = a.sign; \
-    ret.exp = 0; \
-    ret.mant = int128_getlo(a.mant); \
-    return ret.i; \
+static float64 accum_round_float64(Accum a, float_status *fp_status)
+{
+    if ((int128_gethi(a.mant) == 0) && (int128_getlo(a.mant) == 0)
+        && ((a.guard | a.round | a.sticky) == 0)) {
+        /* result zero */
+        switch (fp_status->float_rounding_mode) {
+        case float_round_down:
+            return zero_float64(1);
+        default:
+            return zero_float64(0);
+        }
+    }
+    /*
+     * Normalize right
+     * We want DF_MANTBITS bits of mantissa plus the leading one.
+     * That means that we want DF_MANTBITS+1 bits, or 0x000000000000FF_FFFF
+     * So we need to normalize right while the high word is non-zero and
+     * while the low word is nonzero when masked with 0xffe0_0000_0000_0000
+     */
+    while ((int128_gethi(a.mant) != 0) ||
+           ((int128_getlo(a.mant) >> (DF_MANTBITS + 1)) != 0)) {
+        a = accum_norm_right(a, 1);
+    }
+    /*
+     * OK, now normalize left
+     * We want to normalize left until we have a leading one in bit 24
+     * Theoretically, we only need to shift a maximum of one to the left if we
+     * shifted out lots of bits from B, or if we had no shift / 1 shift sticky
+     * should be 0
+     */
+    while ((int128_getlo(a.mant) & (1ULL << DF_MANTBITS)) == 0) {
+        a = accum_norm_left(a);
+    }
+    /*
+     * OK, now we might need to denormalize because of potential underflow.
+     * We need to do this before rounding, and rounding might make us normal
+     * again
+     */
+    while (a.exp <= 0) {
+        a = accum_norm_right(a, 1 - a.exp);
+        /*
+         * Do we have underflow?
+         * That's when we get an inexact answer because we ran out of bits
+         * in a denormal.
+         */
+        if (a.guard || a.round || a.sticky) {
+            float_raise(float_flag_underflow, fp_status);
+        }
+    }
+    /* OK, we're relatively canonical... now we need to round */
+    if (a.guard || a.round || a.sticky) {
+        float_raise(float_flag_inexact, fp_status);
+        switch (fp_status->float_rounding_mode) {
+        case float_round_to_zero:
+            /* Chop and we're done */
+            break;
+        case float_round_up:
+            if (a.sign == 0) {
+                a.mant = int128_add(a.mant, int128_one());
+            }
+            break;
+        case float_round_down:
+            if (a.sign != 0) {
+                a.mant = int128_add(a.mant, int128_one());
+            }
+            break;
+        default:
+            if (a.round || a.sticky) {
+                /* round up if guard is 1, down if guard is zero */
+                a.mant = int128_add(a.mant, int128_make64(a.guard));
+            } else if (a.guard) {
+                /* exactly .5, round up if odd */
+                a.mant = int128_add(a.mant, int128_and(a.mant, int128_one()));
+            }
+            break;
+        }
+    }
+    /*
+     * OK, now we might have carried all the way up.
+     * So we might need to shr once
+     * at least we know that the lsb should be zero if we rounded and
+     * got a carry out...
+     */
+    if ((int128_getlo(a.mant) >> (DF_MANTBITS + 1)) != 0) {
+        a = accum_norm_right(a, 1);
+    }
+    /* Overflow? */
+    if (a.exp >= DF_INF_EXP) {
+        /* Yep, inf result */
+        float_raise(float_flag_overflow, fp_status);
+        float_raise(float_flag_inexact, fp_status);
+        switch (fp_status->float_rounding_mode) {
+        case float_round_to_zero:
+            return maxfinite_float64(a.sign);
+        case float_round_up:
+            if (a.sign == 0) {
+                return infinite_float64(a.sign);
+            } else {
+                return maxfinite_float64(a.sign);
+            }
+        case float_round_down:
+            if (a.sign != 0) {
+                return infinite_float64(a.sign);
+            } else {
+                return maxfinite_float64(a.sign);
+            }
+        default:
+            return infinite_float64(a.sign);
+        }
+    }
+    /* Underflow? */
+    if (int128_getlo(a.mant) & (1ULL << DF_MANTBITS)) {
+        /* Leading one means: No, we're normal. So, we should be done... */
+        Double ret;
+        ret.i = 0;
+        ret.sign = a.sign;
+        ret.exp = a.exp;
+        ret.mant = int128_getlo(a.mant);
+        return ret.i;
+    }
+    assert(a.exp == 1);
+    Double ret;
+    ret.i = 0;
+    ret.sign = a.sign;
+    ret.exp = 0;
+    ret.mant = int128_getlo(a.mant);
+    return ret.i;
 }
 
-GEN_XF_ROUND(float64, DF_MANTBITS, DF_INF_EXP, Double)
-
 float64 internal_mpyhh(float64 a, float64 b,
                       unsigned long long int accumulated,
                       float_status *fp_status)
-- 
2.43.0

This structure, with bitfields, is incorrect for big-endian.
Use the existing float32_getexp_raw which uses extract32.

Reviewed-by: Brian Cain <brian.cain@oss.qualcomm.com>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 target/hexagon/fma_emu.c | 16 +++-------------
 1 file changed, 3 insertions(+), 13 deletions(-)

diff --git a/target/hexagon/fma_emu.c b/target/hexagon/fma_emu.c
index XXXXXXX..XXXXXXX 100644
--- a/target/hexagon/fma_emu.c
+++ b/target/hexagon/fma_emu.c
@@ -XXX,XX +XXX,XX @@ typedef union {
     };
 } Double;
 
-typedef union {
-    float f;
-    uint32_t i;
-    struct {
-        uint32_t mant:23;
-        uint32_t exp:8;
-        uint32_t sign:1;
-    };
-} Float;
-
 static uint64_t float64_getmant(float64 f64)
 {
     Double a = { .i = f64 };
@@ -XXX,XX +XXX,XX @@ int32_t float64_getexp(float64 f64)
 
 int32_t float32_getexp(float32 f32)
 {
-    Float a = { .i = f32 };
+    int exp = float32_getexp_raw(f32);
     if (float32_is_normal(f32)) {
-        return a.exp;
+        return exp;
     }
     if (float32_is_denormal(f32)) {
-        return a.exp + 1;
+        return exp + 1;
     }
     return -1;
 }
-- 
2.43.0

This structure, with bitfields, is incorrect for big-endian.
Use extract64 and deposit64 instead.

Reviewed-by: Brian Cain <brian.cain@oss.qualcomm.com>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 target/hexagon/fma_emu.c | 46 ++++++++++++++--------------------------
 1 file changed, 16 insertions(+), 30 deletions(-)

diff --git a/target/hexagon/fma_emu.c b/target/hexagon/fma_emu.c
index XXXXXXX..XXXXXXX 100644
--- a/target/hexagon/fma_emu.c
+++ b/target/hexagon/fma_emu.c
@@ -XXX,XX +XXX,XX @@
 
 #define WAY_BIG_EXP 4096
 
-typedef union {
-    double f;
-    uint64_t i;
-    struct {
-        uint64_t mant:52;
-        uint64_t exp:11;
-        uint64_t sign:1;
-    };
-} Double;
-
 static uint64_t float64_getmant(float64 f64)
 {
-    Double a = { .i = f64 };
+    uint64_t mant = extract64(f64, 0, 52);
     if (float64_is_normal(f64)) {
-        return a.mant | 1ULL << 52;
+        return mant | 1ULL << 52;
     }
     if (float64_is_zero(f64)) {
         return 0;
     }
     if (float64_is_denormal(f64)) {
-        return a.mant;
+        return mant;
     }
     return ~0ULL;
 }
 
 int32_t float64_getexp(float64 f64)
 {
-    Double a = { .i = f64 };
+    int exp = extract64(f64, 52, 11);
     if (float64_is_normal(f64)) {
-        return a.exp;
+        return exp;
     }
     if (float64_is_denormal(f64)) {
-        return a.exp + 1;
+        return exp + 1;
     }
     return -1;
 }
@@ -XXX,XX +XXX,XX @@ float32 infinite_float32(uint8_t sign)
 /* Return a maximum finite value with the requested sign */
 static float64 accum_round_float64(Accum a, float_status *fp_status)
 {
+    uint64_t ret;
+
     if ((int128_gethi(a.mant) == 0) && (int128_getlo(a.mant) == 0)
         && ((a.guard | a.round | a.sticky) == 0)) {
         /* result zero */
@@ -XXX,XX +XXX,XX @@ static float64 accum_round_float64(Accum a, float_status *fp_status)
         }
     }
     /* Underflow? */
-    if (int128_getlo(a.mant) & (1ULL << DF_MANTBITS)) {
+    ret = int128_getlo(a.mant);
+    if (ret & (1ULL << DF_MANTBITS)) {
         /* Leading one means: No, we're normal. So, we should be done... */
-        Double ret;
-        ret.i = 0;
-        ret.sign = a.sign;
-        ret.exp = a.exp;
-        ret.mant = int128_getlo(a.mant);
-        return ret.i;
+        ret = deposit64(ret, 52, 11, a.exp);
+    } else {
+        assert(a.exp == 1);
+        ret = deposit64(ret, 52, 11, 0);
     }
-    assert(a.exp == 1);
-    Double ret;
-    ret.i = 0;
-    ret.sign = a.sign;
-    ret.exp = 0;
-    ret.mant = int128_getlo(a.mant);
-    return ret.i;
+    ret = deposit64(ret, 63, 1, a.sign);
+    return ret;
 }
 
 float64 internal_mpyhh(float64 a, float64 b,
-- 
2.43.0

No need to open-code 64x64->128-bit multiplication.

Reviewed-by: Brian Cain <brian.cain@oss.qualcomm.com>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 target/hexagon/fma_emu.c | 32 +++-----------------------------
 1 file changed, 3 insertions(+), 29 deletions(-)

diff --git a/target/hexagon/fma_emu.c b/target/hexagon/fma_emu.c
index XXXXXXX..XXXXXXX 100644
--- a/target/hexagon/fma_emu.c
+++ b/target/hexagon/fma_emu.c
@@ -XXX,XX +XXX,XX @@ int32_t float32_getexp(float32 f32)
     return -1;
 }
 
-static uint32_t int128_getw0(Int128 x)
-{
-    return int128_getlo(x);
-}
-
-static uint32_t int128_getw1(Int128 x)
-{
-    return int128_getlo(x) >> 32;
-}
-
 static Int128 int128_mul_6464(uint64_t ai, uint64_t bi)
 {
-    Int128 a, b;
-    uint64_t pp0, pp1a, pp1b, pp1s, pp2;
+    uint64_t l, h;
 
-    a = int128_make64(ai);
-    b = int128_make64(bi);
-    pp0 = (uint64_t)int128_getw0(a) * (uint64_t)int128_getw0(b);
-    pp1a = (uint64_t)int128_getw1(a) * (uint64_t)int128_getw0(b);
-    pp1b = (uint64_t)int128_getw1(b) * (uint64_t)int128_getw0(a);
-    pp2 = (uint64_t)int128_getw1(a) * (uint64_t)int128_getw1(b);
-
-    pp1s = pp1a + pp1b;
-    if ((pp1s < pp1a) || (pp1s < pp1b)) {
-        pp2 += (1ULL << 32);
-    }
-    uint64_t ret_low = pp0 + (pp1s << 32);
-    if ((ret_low < pp0) || (ret_low < (pp1s << 32))) {
-        pp2 += 1;
-    }
-
-    return int128_make128(ret_low, pp2 + (pp1s >> 32));
+    mulu64(&l, &h, ai, bi);
+    return int128_make128(l, h);
 }
 
 static Int128 int128_sub_borrow(Int128 a, Int128 b, int borrow)
-- 
2.43.0

Convert all targets simultaneously, as the gen_intermediate_code
function disappears from the target.  While there are possible
workarounds, they're larger than simply performing the conversion.

diff --git a/include/exec/translator.h b/include/exec/translator.h
index XXXXXXX..XXXXXXX 100644
--- a/include/exec/translator.h
+++ b/include/exec/translator.h
@@ -XXX,XX +XXX,XX @@
 #include "qemu/bswap.h"
 #include "exec/vaddr.h"
 
-/**
- * gen_intermediate_code
- * @cpu: cpu context
- * @tb: translation block
- * @max_insns: max number of instructions to translate
- * @pc: guest virtual program counter address
- * @host_pc: host physical program counter address
- *
- * This function must be provided by the target, which should create
- * the target-specific DisasContext, and then invoke translator_loop.
- */
-void gen_intermediate_code(CPUState *cpu, TranslationBlock *tb, int *max_insns,
-                           vaddr pc, void *host_pc);
-
 /**
  * DisasJumpType:
  * @DISAS_NEXT: Next instruction in program order.
diff --git a/include/hw/core/tcg-cpu-ops.h b/include/hw/core/tcg-cpu-ops.h
index XXXXXXX..XXXXXXX 100644
--- a/include/hw/core/tcg-cpu-ops.h
+++ b/include/hw/core/tcg-cpu-ops.h
@@ -XXX,XX +XXX,XX @@ struct TCGCPUOps {
      * Called when the first CPU is realized.
      */
     void (*initialize)(void);
+    /**
+     * @translate_code: Translate guest instructions to TCGOps
+     * @cpu: cpu context
+     * @tb: translation block
+     * @max_insns: max number of instructions to translate
+     * @pc: guest virtual program counter address
+     * @host_pc: host physical program counter address
+     *
+     * This function must be provided by the target, which should create
+     * the target-specific DisasContext, and then invoke translator_loop.
+     */
+    void (*translate_code)(CPUState *cpu, TranslationBlock *tb,
+                           int *max_insns, vaddr pc, void *host_pc);
     /**
      * @synchronize_from_tb: Synchronize state from a TCG #TranslationBlock
      *
diff --git a/target/alpha/cpu.h b/target/alpha/cpu.h
index XXXXXXX..XXXXXXX 100644
--- a/target/alpha/cpu.h
+++ b/target/alpha/cpu.h
@@ -XXX,XX +XXX,XX @@ enum {
 };
 
 void alpha_translate_init(void);
+void alpha_translate_code(CPUState *cs, TranslationBlock *tb,
+                          int *max_insns, vaddr pc, void *host_pc);
 
 #define CPU_RESOLVING_TYPE TYPE_ALPHA_CPU
 
diff --git a/target/arm/internals.h b/target/arm/internals.h
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/internals.h
+++ b/target/arm/internals.h
@@ -XXX,XX +XXX,XX @@ void init_cpreg_list(ARMCPU *cpu);
 
 void arm_cpu_register_gdb_regs_for_features(ARMCPU *cpu);
 void arm_translate_init(void);
+void arm_translate_code(CPUState *cs, TranslationBlock *tb,
+                        int *max_insns, vaddr pc, void *host_pc);
 
 void arm_cpu_register_gdb_commands(ARMCPU *cpu);
 void aarch64_cpu_register_gdb_commands(ARMCPU *cpu, GString *,
diff --git a/target/avr/cpu.h b/target/avr/cpu.h
index XXXXXXX..XXXXXXX 100644
--- a/target/avr/cpu.h
+++ b/target/avr/cpu.h
@@ -XXX,XX +XXX,XX @@ static inline void set_avr_feature(CPUAVRState *env, int feature)
 }
 
 void avr_cpu_tcg_init(void);
+void avr_cpu_translate_code(CPUState *cs, TranslationBlock *tb,
+                            int *max_insns, vaddr pc, void *host_pc);
 
 int cpu_avr_exec(CPUState *cpu);
 
diff --git a/target/hexagon/cpu.h b/target/hexagon/cpu.h
index XXXXXXX..XXXXXXX 100644
--- a/target/hexagon/cpu.h
+++ b/target/hexagon/cpu.h
@@ -XXX,XX +XXX,XX @@ static inline void cpu_get_tb_cpu_state(CPUHexagonState *env, vaddr *pc,
 typedef HexagonCPU ArchCPU;
 
 void hexagon_translate_init(void);
+void hexagon_translate_code(CPUState *cs, TranslationBlock *tb,
+                            int *max_insns, vaddr pc, void *host_pc);
 
 #include "exec/cpu-all.h"
 
diff --git a/target/hppa/cpu.h b/target/hppa/cpu.h
index XXXXXXX..XXXXXXX 100644
--- a/target/hppa/cpu.h
+++ b/target/hppa/cpu.h
@@ -XXX,XX +XXX,XX @@ static inline int HPPA_BTLB_ENTRIES(CPUHPPAState *env)
 }
 
 void hppa_translate_init(void);
+void hppa_translate_code(CPUState *cs, TranslationBlock *tb,
+                         int *max_insns, vaddr pc, void *host_pc);
 
 #define CPU_RESOLVING_TYPE TYPE_HPPA_CPU
 
diff --git a/target/i386/tcg/helper-tcg.h b/target/i386/tcg/helper-tcg.h
index XXXXXXX..XXXXXXX 100644
--- a/target/i386/tcg/helper-tcg.h
+++ b/target/i386/tcg/helper-tcg.h
@@ -XXX,XX +XXX,XX @@ static inline target_long lshift(target_long x, int n)
 
 /* translate.c */
 void tcg_x86_init(void);
+void x86_translate_code(CPUState *cs, TranslationBlock *tb,
+                        int *max_insns, vaddr pc, void *host_pc);
 
 /* excp_helper.c */
 G_NORETURN void raise_exception(CPUX86State *env, int exception_index);
diff --git a/target/loongarch/internals.h b/target/loongarch/internals.h
index XXXXXXX..XXXXXXX 100644
--- a/target/loongarch/internals.h
+++ b/target/loongarch/internals.h
@@ -XXX,XX +XXX,XX @@
 #define TARGET_VIRT_MASK MAKE_64BIT_MASK(0, TARGET_VIRT_ADDR_SPACE_BITS)
 
 void loongarch_translate_init(void);
+void loongarch_translate_code(CPUState *cs, TranslationBlock *tb,
+                              int *max_insns, vaddr pc, void *host_pc);
 
 void G_NORETURN do_raise_exception(CPULoongArchState *env,
                                    uint32_t exception,
diff --git a/target/m68k/cpu.h b/target/m68k/cpu.h
index XXXXXXX..XXXXXXX 100644
--- a/target/m68k/cpu.h
+++ b/target/m68k/cpu.h
@@ -XXX,XX +XXX,XX @@ int m68k_cpu_gdb_read_register(CPUState *cpu, GByteArray *buf, int reg);
 int m68k_cpu_gdb_write_register(CPUState *cpu, uint8_t *buf, int reg);
 
 void m68k_tcg_init(void);
+void m68k_translate_code(CPUState *cs, TranslationBlock *tb,
+                         int *max_insns, vaddr pc, void *host_pc);
 void m68k_cpu_init_gdb(M68kCPU *cpu);
 uint32_t cpu_m68k_get_ccr(CPUM68KState *env);
 void cpu_m68k_set_ccr(CPUM68KState *env, uint32_t);
diff --git a/target/microblaze/cpu.h b/target/microblaze/cpu.h
index XXXXXXX..XXXXXXX 100644
--- a/target/microblaze/cpu.h
+++ b/target/microblaze/cpu.h
@@ -XXX,XX +XXX,XX @@ static inline void mb_cpu_write_msr(CPUMBState *env, uint32_t val)
 }
 
 void mb_tcg_init(void);
+void mb_translate_code(CPUState *cs, TranslationBlock *tb,
+                       int *max_insns, vaddr pc, void *host_pc);
 
 #define CPU_RESOLVING_TYPE TYPE_MICROBLAZE_CPU
 
diff --git a/target/mips/tcg/tcg-internal.h b/target/mips/tcg/tcg-internal.h
index XXXXXXX..XXXXXXX 100644
--- a/target/mips/tcg/tcg-internal.h
+++ b/target/mips/tcg/tcg-internal.h
@@ -XXX,XX +XXX,XX @@
 #include "cpu.h"
 
 void mips_tcg_init(void);
+void mips_translate_code(CPUState *cs, TranslationBlock *tb,
+                         int *max_insns, vaddr pc, void *host_pc);
 
 void mips_cpu_synchronize_from_tb(CPUState *cs, const TranslationBlock *tb);
 G_NORETURN void mips_cpu_do_unaligned_access(CPUState *cpu, vaddr addr,
diff --git a/target/openrisc/cpu.h b/target/openrisc/cpu.h
index XXXXXXX..XXXXXXX 100644
--- a/target/openrisc/cpu.h
+++ b/target/openrisc/cpu.h
@@ -XXX,XX +XXX,XX @@ void openrisc_cpu_dump_state(CPUState *cpu, FILE *f, int flags);
 int openrisc_cpu_gdb_read_register(CPUState *cpu, GByteArray *buf, int reg);
 int openrisc_cpu_gdb_write_register(CPUState *cpu, uint8_t *buf, int reg);
 void openrisc_translate_init(void);
+void openrisc_translate_code(CPUState *cs, TranslationBlock *tb,
+                             int *max_insns, vaddr pc, void *host_pc);
 int print_insn_or1k(bfd_vma addr, disassemble_info *info);
 
 #ifndef CONFIG_USER_ONLY
diff --git a/target/ppc/cpu.h b/target/ppc/cpu.h
index XXXXXXX..XXXXXXX 100644
--- a/target/ppc/cpu.h
+++ b/target/ppc/cpu.h
@@ -XXX,XX +XXX,XX @@ extern const VMStateDescription vmstate_ppc_cpu;
 
 /*****************************************************************************/
 void ppc_translate_init(void);
+void ppc_translate_code(CPUState *cs, TranslationBlock *tb,
+                        int *max_insns, vaddr pc, void *host_pc);
 
 #if !defined(CONFIG_USER_ONLY)
 void ppc_store_sdr1(CPUPPCState *env, target_ulong value);
diff --git a/target/riscv/cpu.h b/target/riscv/cpu.h
index XXXXXXX..XXXXXXX 100644
--- a/target/riscv/cpu.h
+++ b/target/riscv/cpu.h
@@ -XXX,XX +XXX,XX @@ RISCVException smstateen_acc_ok(CPURISCVState *env, int index, uint64_t bit);
 void riscv_cpu_set_mode(CPURISCVState *env, target_ulong newpriv, bool virt_en);
 
 void riscv_translate_init(void);
+void riscv_translate_code(CPUState *cs, TranslationBlock *tb,
+                          int *max_insns, vaddr pc, void *host_pc);
+
 G_NORETURN void riscv_raise_exception(CPURISCVState *env,
                                       uint32_t exception, uintptr_t pc);
 
diff --git a/target/rx/cpu.h b/target/rx/cpu.h
index XXXXXXX..XXXXXXX 100644
--- a/target/rx/cpu.h
+++ b/target/rx/cpu.h
@@ -XXX,XX +XXX,XX @@ int rx_cpu_gdb_read_register(CPUState *cpu, GByteArray *buf, int reg);
 int rx_cpu_gdb_write_register(CPUState *cpu, uint8_t *buf, int reg);
 
 void rx_translate_init(void);
+void rx_translate_code(CPUState *cs, TranslationBlock *tb,
+                       int *max_insns, vaddr pc, void *host_pc);
 void rx_cpu_unpack_psw(CPURXState *env, uint32_t psw, int rte);
 
 #include "exec/cpu-all.h"
diff --git a/target/s390x/s390x-internal.h b/target/s390x/s390x-internal.h
index XXXXXXX..XXXXXXX 100644
--- a/target/s390x/s390x-internal.h
+++ b/target/s390x/s390x-internal.h
@@ -XXX,XX +XXX,XX @@ void handle_diag_308(CPUS390XState *env, uint64_t r1, uint64_t r3,
 
 /* translate.c */
 void s390x_translate_init(void);
+void s390x_translate_code(CPUState *cs, TranslationBlock *tb,
+                          int *max_insns, vaddr pc, void *host_pc);
 void s390x_restore_state_to_opc(CPUState *cs,
                                 const TranslationBlock *tb,
                                 const uint64_t *data);
diff --git a/target/sh4/cpu.h b/target/sh4/cpu.h
index XXXXXXX..XXXXXXX 100644
--- a/target/sh4/cpu.h
+++ b/target/sh4/cpu.h
@@ -XXX,XX +XXX,XX @@ G_NORETURN void superh_cpu_do_unaligned_access(CPUState *cpu, vaddr addr,
                                                uintptr_t retaddr);
 
 void sh4_translate_init(void);
+void sh4_translate_code(CPUState *cs, TranslationBlock *tb,
+                        int *max_insns, vaddr pc, void *host_pc);
 
 #if !defined(CONFIG_USER_ONLY)
 hwaddr superh_cpu_get_phys_page_debug(CPUState *cpu, vaddr addr);
diff --git a/target/sparc/cpu.h b/target/sparc/cpu.h
index XXXXXXX..XXXXXXX 100644
--- a/target/sparc/cpu.h
+++ b/target/sparc/cpu.h
@@ -XXX,XX +XXX,XX @@ int sparc_cpu_memory_rw_debug(CPUState *cpu, vaddr addr,
 
 /* translate.c */
 void sparc_tcg_init(void);
+void sparc_translate_code(CPUState *cs, TranslationBlock *tb,
+                          int *max_insns, vaddr pc, void *host_pc);
 
 /* fop_helper.c */
 target_ulong cpu_get_fsr(CPUSPARCState *);
diff --git a/target/tricore/cpu.h b/target/tricore/cpu.h
index XXXXXXX..XXXXXXX 100644
--- a/target/tricore/cpu.h
+++ b/target/tricore/cpu.h
@@ -XXX,XX +XXX,XX @@ FIELD(TB_FLAGS, PRIV, 0, 2)
 
 void cpu_state_reset(CPUTriCoreState *s);
 void tricore_tcg_init(void);
+void tricore_translate_code(CPUState *cs, TranslationBlock *tb,
+                            int *max_insns, vaddr pc, void *host_pc);
 
 static inline void cpu_get_tb_cpu_state(CPUTriCoreState *env, vaddr *pc,
                                         uint64_t *cs_base, uint32_t *flags)
diff --git a/target/xtensa/cpu.h b/target/xtensa/cpu.h
index XXXXXXX..XXXXXXX 100644
--- a/target/xtensa/cpu.h
+++ b/target/xtensa/cpu.h
@@ -XXX,XX +XXX,XX @@ G_NORETURN void xtensa_cpu_do_unaligned_access(CPUState *cpu, vaddr addr,
 
 void xtensa_collect_sr_names(const XtensaConfig *config);
 void xtensa_translate_init(void);
+void xtensa_translate_code(CPUState *cs, TranslationBlock *tb,
+                           int *max_insns, vaddr pc, void *host_pc);
 void **xtensa_get_regfile_by_name(const char *name, int entries, int bits);
 void xtensa_breakpoint_handler(CPUState *cs);
 void xtensa_register_core(XtensaConfigList *node);
diff --git a/accel/tcg/cpu-exec.c b/accel/tcg/cpu-exec.c
index XXXXXXX..XXXXXXX 100644
--- a/accel/tcg/cpu-exec.c
+++ b/accel/tcg/cpu-exec.c
@@ -XXX,XX +XXX,XX @@ bool tcg_exec_realizefn(CPUState *cpu, Error **errp)
 
     if (!tcg_target_initialized) {
         /* Check mandatory TCGCPUOps handlers */
+        const TCGCPUOps *tcg_ops = cpu->cc->tcg_ops;
 #ifndef CONFIG_USER_ONLY
-        assert(cpu->cc->tcg_ops->cpu_exec_halt);
-        assert(cpu->cc->tcg_ops->cpu_exec_interrupt);
+        assert(tcg_ops->cpu_exec_halt);
+        assert(tcg_ops->cpu_exec_interrupt);
 #endif /* !CONFIG_USER_ONLY */
-        cpu->cc->tcg_ops->initialize();
+        assert(tcg_ops->translate_code);
+        tcg_ops->initialize();
         tcg_target_initialized = true;
     }
 
diff --git a/accel/tcg/translate-all.c b/accel/tcg/translate-all.c
index XXXXXXX..XXXXXXX 100644
--- a/accel/tcg/translate-all.c
+++ b/accel/tcg/translate-all.c
@@ -XXX,XX +XXX,XX @@ static int setjmp_gen_code(CPUArchState *env, TranslationBlock *tb,
 
     tcg_func_start(tcg_ctx);
 
-    tcg_ctx->cpu = env_cpu(env);
-    gen_intermediate_code(env_cpu(env), tb, max_insns, pc, host_pc);
+    CPUState *cs = env_cpu(env);
+    tcg_ctx->cpu = cs;
+    cs->cc->tcg_ops->translate_code(cs, tb, max_insns, pc, host_pc);
+
     assert(tb->size != 0);
     tcg_ctx->cpu = NULL;
     *max_insns = tb->icount;
@@ -XXX,XX +XXX,XX @@ TranslationBlock *tb_gen_code(CPUState *cpu,
             /*
              * Overflow of code_gen_buffer, or the current slice of it.
              *
-             * TODO: We don't need to re-do gen_intermediate_code, nor
+             * TODO: We don't need to re-do tcg_ops->translate_code, nor
              * should we re-do the tcg optimization currently hidden
              * inside tcg_gen_code.  All that should be required is to
              * flush the TBs, allocate a new TB, re-initialize it per
diff --git a/target/alpha/cpu.c b/target/alpha/cpu.c
index XXXXXXX..XXXXXXX 100644
--- a/target/alpha/cpu.c
+++ b/target/alpha/cpu.c
@@ -XXX,XX +XXX,XX @@ static const struct SysemuCPUOps alpha_sysemu_ops = {
 
 static const TCGCPUOps alpha_tcg_ops = {
     .initialize = alpha_translate_init,
+    .translate_code = alpha_translate_code,
     .synchronize_from_tb = alpha_cpu_synchronize_from_tb,
     .restore_state_to_opc = alpha_restore_state_to_opc,
 
diff --git a/target/alpha/translate.c b/target/alpha/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/alpha/translate.c
+++ b/target/alpha/translate.c
@@ -XXX,XX +XXX,XX @@ static const TranslatorOps alpha_tr_ops = {
     .tb_stop            = alpha_tr_tb_stop,
 };
 
-void gen_intermediate_code(CPUState *cpu, TranslationBlock *tb, int *max_insns,
-                           vaddr pc, void *host_pc)
+void alpha_translate_code(CPUState *cpu, TranslationBlock *tb,
+                          int *max_insns, vaddr pc, void *host_pc)
 {
     DisasContext dc;
     translator_loop(cpu, tb, max_insns, pc, host_pc, &alpha_tr_ops, &dc.base);
diff --git a/target/arm/cpu.c b/target/arm/cpu.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/cpu.c
+++ b/target/arm/cpu.c
@@ -XXX,XX +XXX,XX @@ static const struct SysemuCPUOps arm_sysemu_ops = {
 #ifdef CONFIG_TCG
 static const TCGCPUOps arm_tcg_ops = {
     .initialize = arm_translate_init,
+    .translate_code = arm_translate_code,
     .synchronize_from_tb = arm_cpu_synchronize_from_tb,
     .debug_excp_handler = arm_debug_excp_handler,
     .restore_state_to_opc = arm_restore_state_to_opc,
diff --git a/target/arm/tcg/cpu-v7m.c b/target/arm/tcg/cpu-v7m.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/cpu-v7m.c
+++ b/target/arm/tcg/cpu-v7m.c
@@ -XXX,XX +XXX,XX @@ static void cortex_m55_initfn(Object *obj)
 
 static const TCGCPUOps arm_v7m_tcg_ops = {
     .initialize = arm_translate_init,
+    .translate_code = arm_translate_code,
     .synchronize_from_tb = arm_cpu_synchronize_from_tb,
     .debug_excp_handler = arm_debug_excp_handler,
     .restore_state_to_opc = arm_restore_state_to_opc,
diff --git a/target/arm/tcg/translate.c b/target/arm/tcg/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/translate.c
+++ b/target/arm/tcg/translate.c
@@ -XXX,XX +XXX,XX @@ static const TranslatorOps thumb_translator_ops = {
     .tb_stop            = arm_tr_tb_stop,
 };
 
-/* generate intermediate code for basic block 'tb'.  */
-void gen_intermediate_code(CPUState *cpu, TranslationBlock *tb, int *max_insns,
-                           vaddr pc, void *host_pc)
+void arm_translate_code(CPUState *cpu, TranslationBlock *tb,
+                        int *max_insns, vaddr pc, void *host_pc)
 {
     DisasContext dc = { };
     const TranslatorOps *ops = &arm_translator_ops;
diff --git a/target/avr/cpu.c b/target/avr/cpu.c
index XXXXXXX..XXXXXXX 100644
--- a/target/avr/cpu.c
+++ b/target/avr/cpu.c
@@ -XXX,XX +XXX,XX @@ static const struct SysemuCPUOps avr_sysemu_ops = {
 
 static const TCGCPUOps avr_tcg_ops = {
     .initialize = avr_cpu_tcg_init,
+    .translate_code = avr_cpu_translate_code,
     .synchronize_from_tb = avr_cpu_synchronize_from_tb,
     .restore_state_to_opc = avr_restore_state_to_opc,
     .cpu_exec_interrupt = avr_cpu_exec_interrupt,
diff --git a/target/avr/translate.c b/target/avr/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/avr/translate.c
+++ b/target/avr/translate.c
@@ -XXX,XX +XXX,XX @@ static bool trans_WDR(DisasContext *ctx, arg_WDR *a)
  *
  *    - translate()
  *    - canonicalize_skip()
- *    - gen_intermediate_code()
+ *    - translate_code()
  *    - restore_state_to_opc()
  *
  */
@@ -XXX,XX +XXX,XX @@ static const TranslatorOps avr_tr_ops = {
     .tb_stop            = avr_tr_tb_stop,
 };
 
-void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int *max_insns,
-                           vaddr pc, void *host_pc)
+void avr_cpu_translate_code(CPUState *cs, TranslationBlock *tb,
+                            int *max_insns, vaddr pc, void *host_pc)
 {
     DisasContext dc = { };
     translator_loop(cs, tb, max_insns, pc, host_pc, &avr_tr_ops, &dc.base);
diff --git a/target/hexagon/cpu.c b/target/hexagon/cpu.c
index XXXXXXX..XXXXXXX 100644
--- a/target/hexagon/cpu.c
+++ b/target/hexagon/cpu.c
@@ -XXX,XX +XXX,XX @@ static void hexagon_cpu_init(Object *obj)
 
 static const TCGCPUOps hexagon_tcg_ops = {
     .initialize = hexagon_translate_init,
+    .translate_code = hexagon_translate_code,
     .synchronize_from_tb = hexagon_cpu_synchronize_from_tb,
     .restore_state_to_opc = hexagon_restore_state_to_opc,
 };
diff --git a/target/hexagon/translate.c b/target/hexagon/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/hexagon/translate.c
+++ b/target/hexagon/translate.c
@@ -XXX,XX +XXX,XX @@ static const TranslatorOps hexagon_tr_ops = {
     .tb_stop            = hexagon_tr_tb_stop,
 };
 
-void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int *max_insns,
-                           vaddr pc, void *host_pc)
+void hexagon_translate_code(CPUState *cs, TranslationBlock *tb,
+                            int *max_insns, vaddr pc, void *host_pc)
 {
     DisasContext ctx;
 
diff --git a/target/hppa/cpu.c b/target/hppa/cpu.c
index XXXXXXX..XXXXXXX 100644
--- a/target/hppa/cpu.c
+++ b/target/hppa/cpu.c
@@ -XXX,XX +XXX,XX @@ static const struct SysemuCPUOps hppa_sysemu_ops = {
 
 static const TCGCPUOps hppa_tcg_ops = {
     .initialize = hppa_translate_init,
+    .translate_code = hppa_translate_code,
     .synchronize_from_tb = hppa_cpu_synchronize_from_tb,
     .restore_state_to_opc = hppa_restore_state_to_opc,
 
diff --git a/target/hppa/translate.c b/target/hppa/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/hppa/translate.c
+++ b/target/hppa/translate.c
@@ -XXX,XX +XXX,XX @@ static const TranslatorOps hppa_tr_ops = {
 #endif
 };
 
-void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int *max_insns,
-                           vaddr pc, void *host_pc)
+void hppa_translate_code(CPUState *cs, TranslationBlock *tb,
+                         int *max_insns, vaddr pc, void *host_pc)
 {
     DisasContext ctx = { };
     translator_loop(cs, tb, max_insns, pc, host_pc, &hppa_tr_ops, &ctx.base);
diff --git a/target/i386/tcg/tcg-cpu.c b/target/i386/tcg/tcg-cpu.c
index XXXXXXX..XXXXXXX 100644
--- a/target/i386/tcg/tcg-cpu.c
+++ b/target/i386/tcg/tcg-cpu.c
@@ -XXX,XX +XXX,XX @@ static bool x86_debug_check_breakpoint(CPUState *cs)
 
 static const TCGCPUOps x86_tcg_ops = {
     .initialize = tcg_x86_init,
+    .translate_code = x86_translate_code,
     .synchronize_from_tb = x86_cpu_synchronize_from_tb,
     .restore_state_to_opc = x86_restore_state_to_opc,
     .cpu_exec_enter = x86_cpu_exec_enter,
diff --git a/target/i386/tcg/translate.c b/target/i386/tcg/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/i386/tcg/translate.c
+++ b/target/i386/tcg/translate.c
@@ -XXX,XX +XXX,XX @@ static const TranslatorOps i386_tr_ops = {
     .tb_stop            = i386_tr_tb_stop,
 };
 
-/* generate intermediate code for basic block 'tb'.  */
-void gen_intermediate_code(CPUState *cpu, TranslationBlock *tb, int *max_insns,
-                           vaddr pc, void *host_pc)
+void x86_translate_code(CPUState *cpu, TranslationBlock *tb,
+                        int *max_insns, vaddr pc, void *host_pc)
 {
     DisasContext dc;
 
diff --git a/target/loongarch/cpu.c b/target/loongarch/cpu.c
index XXXXXXX..XXXXXXX 100644
--- a/target/loongarch/cpu.c
+++ b/target/loongarch/cpu.c
@@ -XXX,XX +XXX,XX @@ static void loongarch_cpu_dump_state(CPUState *cs, FILE *f, int flags)
 
 static const TCGCPUOps loongarch_tcg_ops = {
     .initialize = loongarch_translate_init,
+    .translate_code = loongarch_translate_code,
     .synchronize_from_tb = loongarch_cpu_synchronize_from_tb,
     .restore_state_to_opc = loongarch_restore_state_to_opc,
 
diff --git a/target/loongarch/tcg/translate.c b/target/loongarch/tcg/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/loongarch/tcg/translate.c
+++ b/target/loongarch/tcg/translate.c
@@ -XXX,XX +XXX,XX @@ static const TranslatorOps loongarch_tr_ops = {
     .tb_stop            = loongarch_tr_tb_stop,
 };
 
-void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int *max_insns,
-                           vaddr pc, void *host_pc)
+void loongarch_translate_code(CPUState *cs, TranslationBlock *tb,
+                              int *max_insns, vaddr pc, void *host_pc)
 {
     DisasContext ctx;
 
diff --git a/target/m68k/cpu.c b/target/m68k/cpu.c
index XXXXXXX..XXXXXXX 100644
--- a/target/m68k/cpu.c
+++ b/target/m68k/cpu.c
@@ -XXX,XX +XXX,XX @@ static const struct SysemuCPUOps m68k_sysemu_ops = {
 
 static const TCGCPUOps m68k_tcg_ops = {
     .initialize = m68k_tcg_init,
+    .translate_code = m68k_translate_code,
     .restore_state_to_opc = m68k_restore_state_to_opc,
 
 #ifndef CONFIG_USER_ONLY
diff --git a/target/m68k/translate.c b/target/m68k/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/m68k/translate.c
+++ b/target/m68k/translate.c
@@ -XXX,XX +XXX,XX @@ static const TranslatorOps m68k_tr_ops = {
     .tb_stop            = m68k_tr_tb_stop,
 };
 
-void gen_intermediate_code(CPUState *cpu, TranslationBlock *tb, int *max_insns,
-                           vaddr pc, void *host_pc)
+void m68k_translate_code(CPUState *cpu, TranslationBlock *tb,
+                         int *max_insns, vaddr pc, void *host_pc)
 {
     DisasContext dc;
     translator_loop(cpu, tb, max_insns, pc, host_pc, &m68k_tr_ops, &dc.base);
diff --git a/target/microblaze/cpu.c b/target/microblaze/cpu.c
index XXXXXXX..XXXXXXX 100644
--- a/target/microblaze/cpu.c
+++ b/target/microblaze/cpu.c
@@ -XXX,XX +XXX,XX @@ static const struct SysemuCPUOps mb_sysemu_ops = {
 
 static const TCGCPUOps mb_tcg_ops = {
     .initialize = mb_tcg_init,
+    .translate_code = mb_translate_code,
     .synchronize_from_tb = mb_cpu_synchronize_from_tb,
     .restore_state_to_opc = mb_restore_state_to_opc,
 
diff --git a/target/microblaze/translate.c b/target/microblaze/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/microblaze/translate.c
+++ b/target/microblaze/translate.c
@@ -XXX,XX +XXX,XX @@ static const TranslatorOps mb_tr_ops = {
     .tb_stop            = mb_tr_tb_stop,
 };
 
-void gen_intermediate_code(CPUState *cpu, TranslationBlock *tb, int *max_insns,
-                           vaddr pc, void *host_pc)
+void mb_translate_code(CPUState *cpu, TranslationBlock *tb,
+                       int *max_insns, vaddr pc, void *host_pc)
 {
     DisasContext dc;
     translator_loop(cpu, tb, max_insns, pc, host_pc, &mb_tr_ops, &dc.base);
diff --git a/target/mips/cpu.c b/target/mips/cpu.c
index XXXXXXX..XXXXXXX 100644
--- a/target/mips/cpu.c
+++ b/target/mips/cpu.c
@@ -XXX,XX +XXX,XX @@ static const Property mips_cpu_properties[] = {
 #include "hw/core/tcg-cpu-ops.h"
 static const TCGCPUOps mips_tcg_ops = {
     .initialize = mips_tcg_init,
+    .translate_code = mips_translate_code,
     .synchronize_from_tb = mips_cpu_synchronize_from_tb,
     .restore_state_to_opc = mips_restore_state_to_opc,
 
diff --git a/target/mips/tcg/translate.c b/target/mips/tcg/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/mips/tcg/translate.c
+++ b/target/mips/tcg/translate.c
@@ -XXX,XX +XXX,XX @@ static const TranslatorOps mips_tr_ops = {
     .tb_stop            = mips_tr_tb_stop,
 };
 
-void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int *max_insns,
-                           vaddr pc, void *host_pc)
+void mips_translate_code(CPUState *cs, TranslationBlock *tb,
+                         int *max_insns, vaddr pc, void *host_pc)
 {
     DisasContext ctx;
 
diff --git a/target/openrisc/cpu.c b/target/openrisc/cpu.c
index XXXXXXX..XXXXXXX 100644
--- a/target/openrisc/cpu.c
+++ b/target/openrisc/cpu.c
@@ -XXX,XX +XXX,XX @@ static const struct SysemuCPUOps openrisc_sysemu_ops = {
 
 static const TCGCPUOps openrisc_tcg_ops = {
     .initialize = openrisc_translate_init,
+    .translate_code = openrisc_translate_code,
     .synchronize_from_tb = openrisc_cpu_synchronize_from_tb,
     .restore_state_to_opc = openrisc_restore_state_to_opc,
 
diff --git a/target/openrisc/translate.c b/target/openrisc/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/openrisc/translate.c
+++ b/target/openrisc/translate.c
@@ -XXX,XX +XXX,XX @@ static const TranslatorOps openrisc_tr_ops = {
     .tb_stop            = openrisc_tr_tb_stop,
 };
 
-void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int *max_insns,
-                           vaddr pc, void *host_pc)
+void openrisc_translate_code(CPUState *cs, TranslationBlock *tb,
+                             int *max_insns, vaddr pc, void *host_pc)
 {
     DisasContext ctx;
 
diff --git a/target/ppc/cpu_init.c b/target/ppc/cpu_init.c
index XXXXXXX..XXXXXXX 100644
--- a/target/ppc/cpu_init.c
+++ b/target/ppc/cpu_init.c
@@ -XXX,XX +XXX,XX @@ static const struct SysemuCPUOps ppc_sysemu_ops = {
 
 static const TCGCPUOps ppc_tcg_ops = {
   .initialize = ppc_translate_init,
+  .translate_code = ppc_translate_code,
   .restore_state_to_opc = ppc_restore_state_to_opc,
 
 #ifdef CONFIG_USER_ONLY
diff --git a/target/ppc/translate.c b/target/ppc/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/ppc/translate.c
+++ b/target/ppc/translate.c
@@ -XXX,XX +XXX,XX @@ static const TranslatorOps ppc_tr_ops = {
     .tb_stop            = ppc_tr_tb_stop,
 };
 
-void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int *max_insns,
-                           vaddr pc, void *host_pc)
+void ppc_translate_code(CPUState *cs, TranslationBlock *tb,
+                        int *max_insns, vaddr pc, void *host_pc)
 {
     DisasContext ctx;
 
diff --git a/target/riscv/tcg/tcg-cpu.c b/target/riscv/tcg/tcg-cpu.c
index XXXXXXX..XXXXXXX 100644
--- a/target/riscv/tcg/tcg-cpu.c
+++ b/target/riscv/tcg/tcg-cpu.c
@@ -XXX,XX +XXX,XX @@ static void riscv_restore_state_to_opc(CPUState *cs,
 
 static const TCGCPUOps riscv_tcg_ops = {
     .initialize = riscv_translate_init,
+    .translate_code = riscv_translate_code,
     .synchronize_from_tb = riscv_cpu_synchronize_from_tb,
     .restore_state_to_opc = riscv_restore_state_to_opc,
 
diff --git a/target/riscv/translate.c b/target/riscv/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/riscv/translate.c
+++ b/target/riscv/translate.c
@@ -XXX,XX +XXX,XX @@ static const TranslatorOps riscv_tr_ops = {
     .tb_stop            = riscv_tr_tb_stop,
 };
 
-void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int *max_insns,
-                           vaddr pc, void *host_pc)
+void riscv_translate_code(CPUState *cs, TranslationBlock *tb,
+                          int *max_insns, vaddr pc, void *host_pc)
 {
     DisasContext ctx;
 
diff --git a/target/rx/cpu.c b/target/rx/cpu.c
index XXXXXXX..XXXXXXX 100644
--- a/target/rx/cpu.c
+++ b/target/rx/cpu.c
@@ -XXX,XX +XXX,XX @@ static const struct SysemuCPUOps rx_sysemu_ops = {
 
 static const TCGCPUOps rx_tcg_ops = {
     .initialize = rx_translate_init,
+    .translate_code = rx_translate_code,
     .synchronize_from_tb = rx_cpu_synchronize_from_tb,
     .restore_state_to_opc = rx_restore_state_to_opc,
     .tlb_fill = rx_cpu_tlb_fill,
diff --git a/target/rx/translate.c b/target/rx/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/rx/translate.c
+++ b/target/rx/translate.c
@@ -XXX,XX +XXX,XX @@ static const TranslatorOps rx_tr_ops = {
     .tb_stop            = rx_tr_tb_stop,
 };
 
-void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int *max_insns,
-                           vaddr pc, void *host_pc)
+void rx_translate_code(CPUState *cs, TranslationBlock *tb,
+                       int *max_insns, vaddr pc, void *host_pc)
 {
     DisasContext dc;
 
diff --git a/target/s390x/cpu.c b/target/s390x/cpu.c
index XXXXXXX..XXXXXXX 100644
--- a/target/s390x/cpu.c
+++ b/target/s390x/cpu.c
@@ -XXX,XX +XXX,XX @@ void cpu_get_tb_cpu_state(CPUS390XState *env, vaddr *pc,
 
 static const TCGCPUOps s390_tcg_ops = {
     .initialize = s390x_translate_init,
+    .translate_code = s390x_translate_code,
     .restore_state_to_opc = s390x_restore_state_to_opc,
 
 #ifdef CONFIG_USER_ONLY
diff --git a/target/s390x/tcg/translate.c b/target/s390x/tcg/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/s390x/tcg/translate.c
+++ b/target/s390x/tcg/translate.c
@@ -XXX,XX +XXX,XX @@ static const TranslatorOps s390x_tr_ops = {
     .disas_log          = s390x_tr_disas_log,
 };
 
-void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int *max_insns,
-                           vaddr pc, void *host_pc)
+void s390x_translate_code(CPUState *cs, TranslationBlock *tb,
+                          int *max_insns, vaddr pc, void *host_pc)
 {
     DisasContext dc;
 
diff --git a/target/sh4/cpu.c b/target/sh4/cpu.c
index XXXXXXX..XXXXXXX 100644
--- a/target/sh4/cpu.c
+++ b/target/sh4/cpu.c
@@ -XXX,XX +XXX,XX @@ static const struct SysemuCPUOps sh4_sysemu_ops = {
 
 static const TCGCPUOps superh_tcg_ops = {
     .initialize = sh4_translate_init,
+    .translate_code = sh4_translate_code,
     .synchronize_from_tb = superh_cpu_synchronize_from_tb,
     .restore_state_to_opc = superh_restore_state_to_opc,
 
diff --git a/target/sh4/translate.c b/target/sh4/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/sh4/translate.c
+++ b/target/sh4/translate.c
@@ -XXX,XX +XXX,XX @@ static const TranslatorOps sh4_tr_ops = {
     .tb_stop            = sh4_tr_tb_stop,
 };
 
-void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int *max_insns,
-                           vaddr pc, void *host_pc)
+void sh4_translate_code(CPUState *cs, TranslationBlock *tb,
+                        int *max_insns, vaddr pc, void *host_pc)
 {
     DisasContext ctx;
 
diff --git a/target/sparc/cpu.c b/target/sparc/cpu.c
index XXXXXXX..XXXXXXX 100644
--- a/target/sparc/cpu.c
+++ b/target/sparc/cpu.c
@@ -XXX,XX +XXX,XX @@ static const struct SysemuCPUOps sparc_sysemu_ops = {
 
 static const TCGCPUOps sparc_tcg_ops = {
     .initialize = sparc_tcg_init,
+    .translate_code = sparc_translate_code,
     .synchronize_from_tb = sparc_cpu_synchronize_from_tb,
     .restore_state_to_opc = sparc_restore_state_to_opc,
 
diff --git a/target/sparc/translate.c b/target/sparc/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/sparc/translate.c
+++ b/target/sparc/translate.c
@@ -XXX,XX +XXX,XX @@ static const TranslatorOps sparc_tr_ops = {
     .tb_stop            = sparc_tr_tb_stop,
 };
 
-void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int *max_insns,
-                           vaddr pc, void *host_pc)
+void sparc_translate_code(CPUState *cs, TranslationBlock *tb,
+                          int *max_insns, vaddr pc, void *host_pc)
 {
     DisasContext dc = {};
 
diff --git a/target/tricore/cpu.c b/target/tricore/cpu.c
index XXXXXXX..XXXXXXX 100644
--- a/target/tricore/cpu.c
+++ b/target/tricore/cpu.c
@@ -XXX,XX +XXX,XX @@ static const struct SysemuCPUOps tricore_sysemu_ops = {
 
 static const TCGCPUOps tricore_tcg_ops = {
     .initialize = tricore_tcg_init,
+    .translate_code = tricore_translate_code,
     .synchronize_from_tb = tricore_cpu_synchronize_from_tb,
     .restore_state_to_opc = tricore_restore_state_to_opc,
     .tlb_fill = tricore_cpu_tlb_fill,
diff --git a/target/tricore/translate.c b/target/tricore/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/tricore/translate.c
+++ b/target/tricore/translate.c
@@ -XXX,XX +XXX,XX @@ static const TranslatorOps tricore_tr_ops = {
     .tb_stop            = tricore_tr_tb_stop,
 };
 
-
-void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int *max_insns,
-                           vaddr pc, void *host_pc)
+void tricore_translate_code(CPUState *cs, TranslationBlock *tb,
+                            int *max_insns, vaddr pc, void *host_pc)
 {
     DisasContext ctx;
     translator_loop(cs, tb, max_insns, pc, host_pc,
diff --git a/target/xtensa/cpu.c b/target/xtensa/cpu.c
index XXXXXXX..XXXXXXX 100644
--- a/target/xtensa/cpu.c
+++ b/target/xtensa/cpu.c
@@ -XXX,XX +XXX,XX @@ static const struct SysemuCPUOps xtensa_sysemu_ops = {
 
 static const TCGCPUOps xtensa_tcg_ops = {
     .initialize = xtensa_translate_init,
+    .translate_code = xtensa_translate_code,
     .debug_excp_handler = xtensa_breakpoint_handler,
     .restore_state_to_opc = xtensa_restore_state_to_opc,
 
diff --git a/target/xtensa/translate.c b/target/xtensa/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/xtensa/translate.c
+++ b/target/xtensa/translate.c
@@ -XXX,XX +XXX,XX @@ static const TranslatorOps xtensa_translator_ops = {
     .tb_stop            = xtensa_tr_tb_stop,
 };
 
-void gen_intermediate_code(CPUState *cpu, TranslationBlock *tb, int *max_insns,
-                           vaddr pc, void *host_pc)
+void xtensa_translate_code(CPUState *cpu, TranslationBlock *tb,
+                           int *max_insns, vaddr pc, void *host_pc)
 {
     DisasContext dc = {};
     translator_loop(cpu, tb, max_insns, pc, host_pc,
-- 
2.43.0