Series comparison

-[PULL 00/28] tcg patch queue
+[PULL 00/72] tcg patch queue
-The following changes since commit e3acc2c1961cbe22ca474cd5da4163b7bbf7cea3:
+The following changes since commit aa3a285b5bc56a4208b3b57d4a55291e9c260107:
-  tests/docker/dockerfiles: Bump fedora-i386-cross to fedora 34 (2021-10-05 16:40:39 -0700)
+  Merge tag 'mem-2024-12-21' of https://github.com/davidhildenbrand/qemu into staging (2024-12-22 14:33:27 -0500)
 are available in the Git repository at:
-  https://gitlab.com/rth7680/qemu.git tags/pull-tcg-20211006
+  https://gitlab.com/rth7680/qemu.git tags/pull-tcg-20241224
-for you to fetch changes up to ea3f2af8f1b87d7bced9b75ef2e788b66ec49961:
+for you to fetch changes up to e4a8e093dc74be049f4829831dce76e5edab0003:
-  tcg/s390x: Implement TCG_TARGET_HAS_cmpsel_vec (2021-10-05 16:53:17 -0700)
+  accel/tcg: Move gen_intermediate_code to TCGCPUOps.translate_core (2024-12-24 08:32:15 -0800)
 ----------------------------------------------------------------
-More fixes for fedora-i386-cross
+tcg/optimize: Remove in-flight mask data from OptContext
-Add dup_const_tl
+fpu: Add float*_muladd_scalbn
-Expand MemOp MO_SIZE
+fpu: Remove float_muladd_halve_result
-Move MemOpIdx out of tcg.h
+fpu: Add float_round_nearest_even_max
-Vector support for tcg/s390x
+fpu: Add float_muladd_suppress_add_product_zero
 target/hexagon: Use float32_muladd
 accel/tcg: Move gen_intermediate_code to TCGCPUOps.translate_core
 ----------------------------------------------------------------
-Philipp Tomsich (1):
+Ilya Leoshkevich (1):
-      tcg: add dup_const_tl wrapper
+      tests/tcg: Do not use inttypes.h in multiarch/system/memory.c
-Richard Henderson (27):
+Pierrick Bouvier (1):
-      tests/docker: Remove fedora-i386-cross from DOCKER_PARTIAL_IMAGES
+      plugins: optimize cpu_index code generation
       tests/docker: Fix fedora-i386-cross cross-compilation
       accel/tcg: Drop signness in tracing in cputlb.c
       tcg: Expand MO_SIZE to 3 bits
       tcg: Rename TCGMemOpIdx to MemOpIdx
       tcg: Split out MemOpIdx to exec/memopidx.h
       trace/mem: Pass MemOpIdx to trace_mem_get_info
       accel/tcg: Pass MemOpIdx to atomic_trace_*_post
       plugins: Reorg arguments to qemu_plugin_vcpu_mem_cb
       trace: Split guest_mem_before
       hw/core/cpu: Re-sort the non-pointers to the end of CPUClass
       tcg: Expand usadd/ussub with umin/umax
       tcg/s390x: Rename from tcg/s390
       tcg/s390x: Change FACILITY representation
       tcg/s390x: Merge TCG_AREG0 and TCG_REG_CALL_STACK into TCGReg
       tcg/s390x: Add host vector framework
       tcg/s390x: Implement tcg_out_ld/st for vector types
       tcg/s390x: Implement tcg_out_mov for vector types
       tcg/s390x: Implement tcg_out_dup*_vec
       tcg/s390x: Implement minimal vector operations
       tcg/s390x: Implement andc, orc, abs, neg, not vector operations
       tcg/s390x: Implement TCG_TARGET_HAS_mul_vec
       tcg/s390x: Implement vector shift operations
       tcg/s390x: Implement TCG_TARGET_HAS_minmax_vec
       tcg/s390x: Implement TCG_TARGET_HAS_sat_vec
       tcg/s390x: Implement TCG_TARGET_HAS_bitsel_vec
       tcg/s390x: Implement TCG_TARGET_HAS_cmpsel_vec
- meson.build                                       |   2 -
+Richard Henderson (70):
- accel/tcg/atomic_template.h                       |  73 +-
+      tcg/optimize: Split out finish_bb, finish_ebb
- include/exec/memop.h                              |  14 +-
+      tcg/optimize: Split out fold_affected_mask
- include/exec/memopidx.h                           |  55 ++
+      tcg/optimize: Copy mask writeback to fold_masks
- include/hw/core/cpu.h                             |  11 +-
+      tcg/optimize: Split out fold_masks_zs
- include/qemu/plugin.h                             |  26 +-
+      tcg/optimize: Augment s_mask from z_mask in fold_masks_zs
- include/tcg/tcg.h                                 | 117 ++-
+      tcg/optimize: Change representation of s_mask
- tcg/{s390 => s390x}/tcg-target-con-set.h          |   7 +
+      tcg/optimize: Use finish_folding in fold_add, fold_add_vec, fold_addsub2
- tcg/{s390 => s390x}/tcg-target-con-str.h          |   1 +
+      tcg/optimize: Introduce const value accessors for TempOptInfo
- tcg/{s390 => s390x}/tcg-target.h                  |  91 ++-
+      tcg/optimize: Use fold_masks_zs in fold_and
- tcg/s390x/tcg-target.opc.h                        |  15 +
+      tcg/optimize: Use fold_masks_zs in fold_andc
- trace/mem.h                                       |  63 --
+      tcg/optimize: Use fold_masks_zs in fold_bswap
- accel/tcg/cputlb.c                                | 103 ++-
+      tcg/optimize: Use fold_masks_zs in fold_count_zeros
- accel/tcg/plugin-gen.c                            |   5 +-
+      tcg/optimize: Use fold_masks_z in fold_ctpop
- accel/tcg/user-exec.c                             | 133 ++-
+      tcg/optimize: Use fold_and and fold_masks_z in fold_deposit
- plugins/api.c                                     |  19 +-
+      tcg/optimize: Compute sign mask in fold_deposit
- plugins/core.c                                    |  10 +-
+      tcg/optimize: Use finish_folding in fold_divide
- target/arm/helper-a64.c                           |  16 +-
+      tcg/optimize: Use finish_folding in fold_dup, fold_dup2
- target/arm/m_helper.c                             |   2 +-
+      tcg/optimize: Use fold_masks_s in fold_eqv
- target/arm/translate-a64.c                        |   2 +-
+      tcg/optimize: Use fold_masks_z in fold_extract
- target/i386/tcg/mem_helper.c                      |   4 +-
+      tcg/optimize: Use finish_folding in fold_extract2
- target/m68k/op_helper.c                           |   2 +-
+      tcg/optimize: Use fold_masks_zs in fold_exts
- target/mips/tcg/msa_helper.c                      |   6 +-
+      tcg/optimize: Use fold_masks_z in fold_extu
- target/s390x/tcg/mem_helper.c                     |  20 +-
+      tcg/optimize: Use fold_masks_zs in fold_movcond
- target/sparc/ldst_helper.c                        |   2 +-
+      tcg/optimize: Use finish_folding in fold_mul*
- tcg/optimize.c                                    |   2 +-
+      tcg/optimize: Use fold_masks_s in fold_nand
- tcg/tcg-op-vec.c                                  |  37 +-
+      tcg/optimize: Use fold_masks_z in fold_neg_no_const
- tcg/tcg-op.c                                      |  60 +-
+      tcg/optimize: Use fold_masks_s in fold_nor
- tcg/tcg.c                                         |   2 +-
+      tcg/optimize: Use fold_masks_s in fold_not
- tcg/tci.c                                         |  14 +-
+      tcg/optimize: Use fold_masks_zs in fold_or
- accel/tcg/atomic_common.c.inc                     |  43 +-
+      tcg/optimize: Use fold_masks_zs in fold_orc
- target/s390x/tcg/translate_vx.c.inc               |   2 +-
+      tcg/optimize: Use fold_masks_zs in fold_qemu_ld
- tcg/aarch64/tcg-target.c.inc                      |  18 +-
+      tcg/optimize: Return true from fold_qemu_st, fold_tcg_st
- tcg/arm/tcg-target.c.inc                          |  14 +-
+      tcg/optimize: Use finish_folding in fold_remainder
- tcg/i386/tcg-target.c.inc                         |  14 +-
+      tcg/optimize: Distinguish simplification in fold_setcond_zmask
- tcg/mips/tcg-target.c.inc                         |  16 +-
+      tcg/optimize: Use fold_masks_z in fold_setcond
- tcg/ppc/tcg-target.c.inc                          |  18 +-
+      tcg/optimize: Use fold_masks_s in fold_negsetcond
- tcg/riscv/tcg-target.c.inc                        |  20 +-
+      tcg/optimize: Use fold_masks_z in fold_setcond2
- tcg/{s390 => s390x}/tcg-target.c.inc              | 949 ++++++++++++++++++++--
+      tcg/optimize: Use finish_folding in fold_cmp_vec
- tcg/sparc/tcg-target.c.inc                        |  20 +-
+      tcg/optimize: Use finish_folding in fold_cmpsel_vec
- tcg/tcg-ldst.c.inc                                |   2 +-
+      tcg/optimize: Use fold_masks_zs in fold_sextract
- tests/docker/Makefile.include                     |   2 +-
+      tcg/optimize: Use fold_masks_zs, fold_masks_s in fold_shift
- tests/docker/dockerfiles/fedora-i386-cross.docker |   5 +-
+      tcg/optimize: Simplify sign bit test in fold_shift
- trace-events                                      |  18 +-
+      tcg/optimize: Use finish_folding in fold_sub, fold_sub_vec
-files changed, 1445 insertions(+), 610 deletions(-)
+      tcg/optimize: Use fold_masks_zs in fold_tcg_ld
- create mode 100644 include/exec/memopidx.h
+      tcg/optimize: Use finish_folding in fold_tcg_ld_memcopy
- rename tcg/{s390 => s390x}/tcg-target-con-set.h (86%)
+      tcg/optimize: Use fold_masks_zs in fold_xor
- rename tcg/{s390 => s390x}/tcg-target-con-str.h (96%)
+      tcg/optimize: Use finish_folding in fold_bitsel_vec
- rename tcg/{s390 => s390x}/tcg-target.h (66%)
+      tcg/optimize: Use finish_folding as default in tcg_optimize
- create mode 100644 tcg/s390x/tcg-target.opc.h
+      tcg/optimize: Remove z_mask, s_mask from OptContext
- delete mode 100644 trace/mem.h
+      tcg/optimize: Re-enable sign-mask optimizations
- rename tcg/{s390 => s390x}/tcg-target.c.inc (73%)
+      tcg/optimize: Move fold_bitsel_vec into alphabetic sort
       tcg/optimize: Move fold_cmp_vec, fold_cmpsel_vec into alphabetic sort
       softfloat: Add float{16,32,64}_muladd_scalbn
       target/arm: Use float*_muladd_scalbn
       target/sparc: Use float*_muladd_scalbn
       softfloat: Remove float_muladd_halve_result
       softfloat: Add float_round_nearest_even_max
       softfloat: Add float_muladd_suppress_add_product_zero
       target/hexagon: Use float32_mul in helper_sfmpy
       target/hexagon: Use float32_muladd for helper_sffma
       target/hexagon: Use float32_muladd for helper_sffms
       target/hexagon: Use float32_muladd_scalbn for helper_sffma_sc
       target/hexagon: Use float32_muladd for helper_sffm[as]_lib
       target/hexagon: Remove internal_fmafx
       target/hexagon: Expand GEN_XF_ROUND
       target/hexagon: Remove Float
       target/hexagon: Remove Double
       target/hexagon: Use mulu64 for int128_mul_6464
       target/hexagon: Simplify internal_mpyhh setup
       accel/tcg: Move gen_intermediate_code to TCGCPUOps.translate_core
+ include/exec/translator.h           |  14 -
+ include/fpu/softfloat-types.h       |   2 +
+ include/fpu/softfloat.h             |  14 +-
+ include/hw/core/tcg-cpu-ops.h       |  13 +
+ target/alpha/cpu.h                  |   2 +
+ target/arm/internals.h              |   2 +
+ target/avr/cpu.h                    |   2 +
+ target/hexagon/cpu.h                |   2 +
+ target/hexagon/fma_emu.h            |   3 -
+ target/hppa/cpu.h                   |   2 +
+ target/i386/tcg/helper-tcg.h        |   2 +
+ target/loongarch/internals.h        |   2 +
+ target/m68k/cpu.h                   |   2 +
+ target/microblaze/cpu.h             |   2 +
+ target/mips/tcg/tcg-internal.h      |   2 +
+ target/openrisc/cpu.h               |   2 +
+ target/ppc/cpu.h                    |   2 +
+ target/riscv/cpu.h                  |   3 +
+ target/rx/cpu.h                     |   2 +
+ target/s390x/s390x-internal.h       |   2 +
+ target/sh4/cpu.h                    |   2 +
+ target/sparc/cpu.h                  |   2 +
+ target/sparc/helper.h               |   4 +-
+ target/tricore/cpu.h                |   2 +
+ target/xtensa/cpu.h                 |   2 +
+ accel/tcg/cpu-exec.c                |   8 +-
+ accel/tcg/plugin-gen.c              |   9 +
+ accel/tcg/translate-all.c           |   8 +-
+ fpu/softfloat.c                     |  63 +--
+ target/alpha/cpu.c                  |   1 +
+ target/alpha/translate.c            |   4 +-
+ target/arm/cpu.c                    |   1 +
+ target/arm/tcg/cpu-v7m.c            |   1 +
+ target/arm/tcg/helper-a64.c         |   6 +-
+ target/arm/tcg/translate.c          |   5 +-
+ target/avr/cpu.c                    |   1 +
+ target/avr/translate.c              |   6 +-
+ target/hexagon/cpu.c                |   1 +
+ target/hexagon/fma_emu.c            | 496 ++++++---------------
+ target/hexagon/op_helper.c          | 125 ++----
+ target/hexagon/translate.c          |   4 +-
+ target/hppa/cpu.c                   |   1 +
+ target/hppa/translate.c             |   4 +-
+ target/i386/tcg/tcg-cpu.c           |   1 +
+ target/i386/tcg/translate.c         |   5 +-
+ target/loongarch/cpu.c              |   1 +
+ target/loongarch/tcg/translate.c    |   4 +-
+ target/m68k/cpu.c                   |   1 +
+ target/m68k/translate.c             |   4 +-
+ target/microblaze/cpu.c             |   1 +
+ target/microblaze/translate.c       |   4 +-
+ target/mips/cpu.c                   |   1 +
+ target/mips/tcg/translate.c         |   4 +-
+ target/openrisc/cpu.c               |   1 +
+ target/openrisc/translate.c         |   4 +-
+ target/ppc/cpu_init.c               |   1 +
+ target/ppc/translate.c              |   4 +-
+ target/riscv/tcg/tcg-cpu.c          |   1 +
+ target/riscv/translate.c            |   4 +-
+ target/rx/cpu.c                     |   1 +
+ target/rx/translate.c               |   4 +-
+ target/s390x/cpu.c                  |   1 +
+ target/s390x/tcg/translate.c        |   4 +-
+ target/sh4/cpu.c                    |   1 +
+ target/sh4/translate.c              |   4 +-
+ target/sparc/cpu.c                  |   1 +
+ target/sparc/fop_helper.c           |   8 +-
+ target/sparc/translate.c            |  84 ++--
+ target/tricore/cpu.c                |   1 +
+ target/tricore/translate.c          |   5 +-
+ target/xtensa/cpu.c                 |   1 +
+ target/xtensa/translate.c           |   4 +-
+ tcg/optimize.c                      | 857 +++++++++++++++++++-----------------
+ tests/tcg/multiarch/system/memory.c |   9 +-
+ fpu/softfloat-parts.c.inc           |  16 +-
+files changed, 866 insertions(+), 1009 deletions(-)

-New patch
+[PULL 01/72] tests/tcg: Do not use inttypes.h in multiarch/system/memory.c
+From: Ilya Leoshkevich <iii@linux.ibm.com>
+make check-tcg fails on Fedora with the following error message:
+    alpha-linux-gnu-gcc [...] qemu/tests/tcg/multiarch/system/memory.c -o memory [...]
+    qemu/tests/tcg/multiarch/system/memory.c:17:10: fatal error: inttypes.h: No such file or directory
+| #include <inttypes.h>
+          |          ^~~~~~~~~~~~
+    compilation terminated.
+The reason is that Fedora has cross-compilers, but no cross-glibc
+headers. Fix by hardcoding the format specifiers and dropping the
+include.
+An alternative fix would be to introduce a configure check for
+inttypes.h. But this would make it impossible to use Fedora
+cross-compilers for softmmu tests, which used to work so far.
+Fixes: ecbcc9ead2f8 ("tests/tcg: add a system test to check memory instrumentation")
+Signed-off-by: Ilya Leoshkevich <iii@linux.ibm.com>
+Reviewed-by: Paolo Bonzini <pbonzini@redhat.com>
+Message-ID: <20241010085906.226249-1-iii@linux.ibm.com>
+Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
+---
+ tests/tcg/multiarch/system/memory.c | 9 ++++-----
+file changed, 4 insertions(+), 5 deletions(-)
+diff --git a/tests/tcg/multiarch/system/memory.c b/tests/tcg/multiarch/system/memory.c
+index XXXXXXX..XXXXXXX 100644
+--- a/tests/tcg/multiarch/system/memory.c
++++ b/tests/tcg/multiarch/system/memory.c
+@@ -XXX,XX +XXX,XX @@
+ #include <stdint.h>
+ #include <stdbool.h>
+-#include <inttypes.h>
+ #include <minilib.h>
+ #ifndef CHECK_UNALIGNED
+@@ -XXX,XX +XXX,XX @@ int main(void)
+     int i;
+     bool ok = true;
+-    ml_printf("Test data start: 0x%"PRIxPTR"\n", &test_data[0]);
+-    ml_printf("Test data end: 0x%"PRIxPTR"\n", &test_data[TEST_SIZE]);
++    ml_printf("Test data start: 0x%lx\n", (unsigned long)&test_data[0]);
++    ml_printf("Test data end: 0x%lx\n", (unsigned long)&test_data[TEST_SIZE]);
+     /* Run through the unsigned tests first */
+     for (i = 0; i < ARRAY_SIZE(init_ufns) && ok; i++) {
+@@ -XXX,XX +XXX,XX @@ int main(void)
+         ok = do_signed_reads(true);
+     }
+-    ml_printf("Test data read: %"PRId32"\n", test_read_count);
+-    ml_printf("Test data write: %"PRId32"\n", test_write_count);
++    ml_printf("Test data read: %lu\n", (unsigned long)test_read_count);
++    ml_printf("Test data write: %lu\n", (unsigned long)test_write_count);
+     ml_printf("Test complete: %s\n", ok ? "PASSED" : "FAILED");
+     return ok ? 0 : -1;
+ }
+--
+.43.0

-New patch
+[PULL 02/72] plugins: optimize cpu_index code generation
+From: Pierrick Bouvier <pierrick.bouvier@linaro.org>
+When running with a single vcpu, we can return a constant instead of a
+load when accessing cpu_index.
+A side effect is that all tcg operations using it are optimized, most
+notably scoreboard access.
+When running a simple loop in user-mode, the speedup is around 20%.
+Signed-off-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
+Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
+Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
+Message-ID: <20241128213843.1023080-1-pierrick.bouvier@linaro.org>
+---
+ accel/tcg/plugin-gen.c | 9 +++++++++
+file changed, 9 insertions(+)
+diff --git a/accel/tcg/plugin-gen.c b/accel/tcg/plugin-gen.c
+index XXXXXXX..XXXXXXX 100644
+--- a/accel/tcg/plugin-gen.c
++++ b/accel/tcg/plugin-gen.c
+@@ -XXX,XX +XXX,XX @@ static void gen_disable_mem_helper(void)
+ static TCGv_i32 gen_cpu_index(void)
+ {
++    /*
++     * Optimize when we run with a single vcpu. All values using cpu_index,
++     * including scoreboard index, will be optimized out.
++     * User-mode calls tb_flush when setting this flag. In system-mode, all
++     * vcpus are created before generating code.
++     */
++    if (!tcg_cflags_has(current_cpu, CF_PARALLEL)) {
++        return tcg_constant_i32(current_cpu->cpu_index);
++    }
+     TCGv_i32 cpu_index = tcg_temp_ebb_new_i32();
+     tcg_gen_ld_i32(cpu_index, tcg_env,
+                    -offsetof(ArchCPU, env) + offsetof(CPUState, cpu_index));
+--
+.43.0

-[PULL 20/28] tcg/s390x: Implement tcg_out_dup*_vec
+[PULL 03/72] tcg/optimize: Split out finish_bb, finish_ebb
+Call them directly from the opcode switch statement in tcg_optimize,
+rather than in finish_folding based on opcode flags.  Adjust folding
+of conditional branches to match.
+Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- tcg/s390x/tcg-target.c.inc | 122 ++++++++++++++++++++++++++++++++++++-
+ tcg/optimize.c | 47 +++++++++++++++++++++++++++++++----------------
-file changed, 119 insertions(+), 3 deletions(-)
+file changed, 31 insertions(+), 16 deletions(-)
-diff --git a/tcg/s390x/tcg-target.c.inc b/tcg/s390x/tcg-target.c.inc
+diff --git a/tcg/optimize.c b/tcg/optimize.c
 index XXXXXXX..XXXXXXX 100644
---- a/tcg/s390x/tcg-target.c.inc
+--- a/tcg/optimize.c
-+++ b/tcg/s390x/tcg-target.c.inc
++++ b/tcg/optimize.c
-@@ -XXX,XX +XXX,XX @@ typedef enum S390Opcode {
+@@ -XXX,XX +XXX,XX @@ static void copy_propagate(OptContext *ctx, TCGOp *op,
-     RX_STC      = 0x42,
+     }
      RX_STH      = 0x40,
 +    VRIa_VGBM   = 0xe744,
 +    VRIa_VREPI  = 0xe745,
 +    VRIb_VGM    = 0xe746,
 +    VRIc_VREP   = 0xe74d,
 +
      VRRa_VLR    = 0xe756,
 +    VRRf_VLVGP  = 0xe762,
      VRSb_VLVG   = 0xe722,
      VRSc_VLGV   = 0xe721,
      VRX_VL      = 0xe706,
      VRX_VLLEZ   = 0xe704,
 +    VRX_VLREP   = 0xe705,
      VRX_VST     = 0xe70e,
      VRX_VSTEF   = 0xe70b,
      VRX_VSTEG   = 0xe70a,
@@ -XXX,XX +XXX,XX @@ static int RXB(TCGReg v1, TCGReg v2, TCGReg v3, TCGReg v4)
           | ((v4 & 0x10) << (4 + 0));
  }
-+static void tcg_out_insn_VRIa(TCGContext *s, S390Opcode op,
++static void finish_bb(OptContext *ctx)
 +                              TCGReg v1, uint16_t i2, int m3)
 +{
-+    tcg_debug_assert(is_vector_reg(v1));
++    /* We only optimize memory barriers across basic blocks. */
-+    tcg_out16(s, (op & 0xff00) | ((v1 & 0xf) << 4));
++    ctx->prev_mb = NULL;
 +    tcg_out16(s, i2);
 +    tcg_out16(s, (op & 0x00ff) | RXB(v1, 0, 0, 0) | (m3 << 12));
 +}
 +
-+static void tcg_out_insn_VRIb(TCGContext *s, S390Opcode op,
++static void finish_ebb(OptContext *ctx)
 +                              TCGReg v1, uint8_t i2, uint8_t i3, int m4)
 +{
-+    tcg_debug_assert(is_vector_reg(v1));
++    finish_bb(ctx);
-+    tcg_out16(s, (op & 0xff00) | ((v1 & 0xf) << 4));
++    /* We only optimize across extended basic blocks. */
-+    tcg_out16(s, (i2 << 8) | (i3 & 0xff));
++    memset(&ctx->temps_used, 0, sizeof(ctx->temps_used));
-+    tcg_out16(s, (op & 0x00ff) | RXB(v1, 0, 0, 0) | (m4 << 12));
++    remove_mem_copy_all(ctx);
 +}
 +
-+static void tcg_out_insn_VRIc(TCGContext *s, S390Opcode op,
+ static void finish_folding(OptContext *ctx, TCGOp *op)
 +                              TCGReg v1, uint16_t i2, TCGReg v3, int m4)
 +{
 +    tcg_debug_assert(is_vector_reg(v1));
 +    tcg_debug_assert(is_vector_reg(v3));
 +    tcg_out16(s, (op & 0xff00) | ((v1 & 0xf) << 4) | (v3 & 0xf));
 +    tcg_out16(s, i2);
 +    tcg_out16(s, (op & 0x00ff) | RXB(v1, 0, v3, 0) | (m4 << 12));
 +}
 +
  static void tcg_out_insn_VRRa(TCGContext *s, S390Opcode op,
                                TCGReg v1, TCGReg v2, int m3)
  {
-@@ -XXX,XX +XXX,XX @@ static void tcg_out_insn_VRRa(TCGContext *s, S390Opcode op,
+     const TCGOpDef *def = &tcg_op_defs[op->opc];
-     tcg_out32(s, (op & 0x00ff) | RXB(v1, v2, 0, 0) | (m3 << 12));
+     int i, nb_oargs;
- }
+-    /*
-+static void tcg_out_insn_VRRf(TCGContext *s, S390Opcode op,
+-     * We only optimize extended basic blocks.  If the opcode ends a BB
-+                              TCGReg v1, TCGReg r2, TCGReg r3)
+-     * and is not a conditional branch, reset all temp data.
-+{
+-     */
-+    tcg_debug_assert(is_vector_reg(v1));
+-    if (def->flags & TCG_OPF_BB_END) {
-+    tcg_debug_assert(is_general_reg(r2));
+-        ctx->prev_mb = NULL;
-+    tcg_debug_assert(is_general_reg(r3));
+-        if (!(def->flags & TCG_OPF_COND_BRANCH)) {
-+    tcg_out16(s, (op & 0xff00) | ((v1 & 0xf) << 4) | r2);
+-            memset(&ctx->temps_used, 0, sizeof(ctx->temps_used));
-+    tcg_out16(s, r3 << 12);
+-            remove_mem_copy_all(ctx);
-+    tcg_out16(s, (op & 0x00ff) | RXB(v1, 0, 0, 0));
+-        }
-+}
+-        return;
-+
+-    }
- static void tcg_out_insn_VRSb(TCGContext *s, S390Opcode op, TCGReg v1,
+-
-                               intptr_t d2, TCGReg b2, TCGReg r3, int m4)
+     nb_oargs = def->nb_oargs;
- {
+     for (i = 0; i < nb_oargs; i++) {
-@@ -XXX,XX +XXX,XX @@ static inline void tcg_out_op(TCGContext *s, TCGOpcode opc,
+         TCGTemp *ts = arg_temp(op->args[i]);
- static bool tcg_out_dup_vec(TCGContext *s, TCGType type, unsigned vece,
+@@ -XXX,XX +XXX,XX @@ static bool fold_brcond(OptContext *ctx, TCGOp *op)
-                             TCGReg dst, TCGReg src)
+     if (i > 0) {
- {
+         op->opc = INDEX_op_br;
--    g_assert_not_reached();
+         op->args[0] = op->args[3];
-+    if (is_general_reg(src)) {
++        finish_ebb(ctx);
-+        /* Replicate general register into two MO_64. */
++    } else {
-+        tcg_out_insn(s, VRRf, VLVGP, dst, src, src);
++        finish_bb(ctx);
-+        if (vece == MO_64) {
+     }
-+            return true;
+-    return false;
 +        }
 +    }
 +
 +    /*
 +     * Recall that the "standard" integer, within a vector, is the
 +     * rightmost element of the leftmost doubleword, a-la VLLEZ.
 +     */
 +    tcg_out_insn(s, VRIc, VREP, dst, (8 >> vece) - 1, src, vece);
 +    return true;
  }
- static bool tcg_out_dupm_vec(TCGContext *s, TCGType type, unsigned vece,
+ static bool fold_brcond2(OptContext *ctx, TCGOp *op)
-                              TCGReg dst, TCGReg base, intptr_t offset)
+@@ -XXX,XX +XXX,XX @@ static bool fold_brcond2(OptContext *ctx, TCGOp *op)
- {
+         }
--    g_assert_not_reached();
+         op->opc = INDEX_op_br;
-+    tcg_out_vrx_mem(s, VRX_VLREP, dst, base, TCG_REG_NONE, offset, vece);
+         op->args[0] = label;
 -        break;
 +        finish_ebb(ctx);
 +        return true;
      }
 -    return false;
 +
 +    finish_bb(ctx);
 +    return true;
  }
- static void tcg_out_dupi_vec(TCGContext *s, TCGType type, unsigned vece,
+ static bool fold_bswap(OptContext *ctx, TCGOp *op)
-                              TCGReg dst, int64_t val)
+@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
- {
+         CASE_OP_32_64_VEC(xor):
--    g_assert_not_reached();
+             done = fold_xor(&ctx, op);
-+    int i, mask, msb, lsb;
+             break;
-+
++        case INDEX_op_set_label:
-+    /* Look for int16_t elements.  */
++        case INDEX_op_br:
-+    if (vece <= MO_16 ||
++        case INDEX_op_exit_tb:
-+        (vece == MO_32 ? (int32_t)val : val) == (int16_t)val) {
++        case INDEX_op_goto_tb:
-+        tcg_out_insn(s, VRIa, VREPI, dst, val, vece);
++        case INDEX_op_goto_ptr:
-+        return;
++            finish_ebb(&ctx);
-+    }
++            done = true;
 +
 +    /* Look for bit masks.  */
 +    if (vece == MO_32) {
 +        if (risbg_mask((int32_t)val)) {
 +            /* Handle wraparound by swapping msb and lsb.  */
 +            if ((val & 0x80000001u) == 0x80000001u) {
 +                msb = 32 - ctz32(~val);
 +                lsb = clz32(~val) - 1;
 +            } else {
 +                msb = clz32(val);
 +                lsb = 31 - ctz32(val);
 +            }
 +            tcg_out_insn(s, VRIb, VGM, dst, lsb, msb, MO_32);
 +            return;
 +        }
 +    } else {
 +        if (risbg_mask(val)) {
 +            /* Handle wraparound by swapping msb and lsb.  */
 +            if ((val & 0x8000000000000001ull) == 0x8000000000000001ull) {
 +                /* Handle wraparound by swapping msb and lsb.  */
 +                msb = 64 - ctz64(~val);
 +                lsb = clz64(~val) - 1;
 +            } else {
 +                msb = clz64(val);
 +                lsb = 63 - ctz64(val);
 +            }
 +            tcg_out_insn(s, VRIb, VGM, dst, lsb, msb, MO_64);
 +            return;
 +        }
 +    }
 +
 +    /* Look for all bytes 0x00 or 0xff.  */
 +    for (i = mask = 0; i < 8; i++) {
 +        uint8_t byte = val >> (i * 8);
 +        if (byte == 0xff) {
 +            mask |= 1 << i;
 +        } else if (byte != 0) {
 +            break;
-+        }
+         default:
-+    }
+             break;
-+    if (i == 8) {
+         }
 +        tcg_out_insn(s, VRIa, VGBM, dst, mask * 0x0101, 0);
 +        return;
 +    }
 +
 +    /* Otherwise, stuff it in the constant pool.  */
 +    tcg_out_insn(s, RIL, LARL, TCG_TMP0, 0);
 +    new_pool_label(s, val, R_390_PC32DBL, s->code_ptr - 2, 2);
 +    tcg_out_insn(s, VRX, VLREP, dst, TCG_TMP0, TCG_REG_NONE, 0, MO_64);
  }
  static void tcg_out_vec_op(TCGContext *s, TCGOpcode opc,
 --
-.25.1
+.43.0

-[PULL 10/28] plugins: Reorg arguments to qemu_plugin_vcpu_mem_cb
+[PULL 04/72] tcg/optimize: Split out fold_affected_mask
-Use the MemOpIdx directly, rather than the rearrangement
+There are only a few logical operations which can compute
-of the same bits currently done by the trace infrastructure.
+an "affected" mask.  Split out handling of this optimization
-Pass in enum qemu_plugin_mem_rw so that we are able to treat
+to a separate function, only to be called when applicable.
 read-modify-write operations as a single operation.
-Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
+Remove the a_mask field from OptContext, as the mask is
 no longer stored anywhere.
 Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- include/qemu/plugin.h         | 26 ++++++++++++++++++++++++--
+ tcg/optimize.c | 42 +++++++++++++++++++++++++++---------------
- accel/tcg/cputlb.c            |  4 ++--
+file changed, 27 insertions(+), 15 deletions(-)
  accel/tcg/plugin-gen.c        |  5 ++---
  accel/tcg/user-exec.c         | 28 ++++++++++++++--------------
  plugins/api.c                 | 19 +++++++++++--------
  plugins/core.c                | 10 +++++-----
  tcg/tcg-op.c                  | 30 +++++++++++++++++++++---------
  accel/tcg/atomic_common.c.inc | 13 +++----------
 files changed, 82 insertions(+), 53 deletions(-)
-diff --git a/include/qemu/plugin.h b/include/qemu/plugin.h
+diff --git a/tcg/optimize.c b/tcg/optimize.c
 index XXXXXXX..XXXXXXX 100644
---- a/include/qemu/plugin.h
+--- a/tcg/optimize.c
-+++ b/include/qemu/plugin.h
++++ b/tcg/optimize.c
-@@ -XXX,XX +XXX,XX @@
+@@ -XXX,XX +XXX,XX @@ typedef struct OptContext {
- #include "qemu/error-report.h"
+     QSIMPLEQ_HEAD(, MemCopyInfo) mem_free;
- #include "qemu/queue.h"
- #include "qemu/option.h"
+     /* In flight values from optimization. */
-+#include "exec/memopidx.h"
+-    uint64_t a_mask;  /* mask bit is 0 iff value identical to first input */
+     uint64_t z_mask;  /* mask bit is 0 iff value bit is 0 */
- /*
+     uint64_t s_mask;  /* mask of clrsb(value) bits */
-  * Events that plugins can subscribe to.
+     TCGType type;
-@@ -XXX,XX +XXX,XX @@ enum qemu_plugin_event {
+@@ -XXX,XX +XXX,XX @@ static bool fold_const2_commutative(OptContext *ctx, TCGOp *op)
- struct qemu_plugin_desc;
- typedef QTAILQ_HEAD(, qemu_plugin_desc) QemuPluginList;
+ static bool fold_masks(OptContext *ctx, TCGOp *op)
+ {
-+/*
+-    uint64_t a_mask = ctx->a_mask;
-+ * Construct a qemu_plugin_meminfo_t.
+     uint64_t z_mask = ctx->z_mask;
-+ */
+     uint64_t s_mask = ctx->s_mask;
-+static inline qemu_plugin_meminfo_t
-+make_plugin_meminfo(MemOpIdx oi, enum qemu_plugin_mem_rw rw)
+@@ -XXX,XX +XXX,XX @@ static bool fold_masks(OptContext *ctx, TCGOp *op)
-+{
+      * type changing opcodes.
-+    return oi | (rw << 16);
+      */
      if (ctx->type == TCG_TYPE_I32) {
 -        a_mask = (int32_t)a_mask;
          z_mask = (int32_t)z_mask;
          s_mask |= MAKE_64BIT_MASK(32, 32);
          ctx->z_mask = z_mask;
@@ -XXX,XX +XXX,XX @@ static bool fold_masks(OptContext *ctx, TCGOp *op)
      if (z_mask == 0) {
          return tcg_opt_gen_movi(ctx, op, op->args[0], 0);
      }
 +    return false;
 +}
 +
 +/*
-+ * Extract the memory operation direction from a qemu_plugin_meminfo_t.
++ * An "affected" mask bit is 0 if and only if the result is identical
-+ * Other portions may be extracted via get_memop and get_mmuidx.
++ * to the first input.  Thus if the entire mask is 0, the operation
 + * is equivalent to a copy.
 + */
-+static inline enum qemu_plugin_mem_rw
++static bool fold_affected_mask(OptContext *ctx, TCGOp *op, uint64_t a_mask)
 +get_plugin_meminfo_rw(qemu_plugin_meminfo_t i)
 +{
-+    return i >> 16;
++    if (ctx->type == TCG_TYPE_I32) {
-+}
++        a_mask = (uint32_t)a_mask;
-+
++    }
- #ifdef CONFIG_PLUGIN
+     if (a_mask == 0) {
- extern QemuOptsList qemu_plugin_opts;
+         return tcg_opt_gen_mov(ctx, op, op->args[0], op->args[1]);
+     }
-@@ -XXX,XX +XXX,XX @@ qemu_plugin_vcpu_syscall(CPUState *cpu, int64_t num, uint64_t a1,
+@@ -XXX,XX +XXX,XX @@ static bool fold_and(OptContext *ctx, TCGOp *op)
-                          uint64_t a6, uint64_t a7, uint64_t a8);
+      * Known-zeros does not imply known-ones.  Therefore unless
- void qemu_plugin_vcpu_syscall_ret(CPUState *cpu, int64_t num, int64_t ret);
+      * arg2 is constant, we can't infer affected bits from it.
+      */
--void qemu_plugin_vcpu_mem_cb(CPUState *cpu, uint64_t vaddr, uint32_t meminfo);
+-    if (arg_is_const(op->args[2])) {
-+void qemu_plugin_vcpu_mem_cb(CPUState *cpu, uint64_t vaddr,
+-        ctx->a_mask = z1 & ~z2;
-+                             MemOpIdx oi, enum qemu_plugin_mem_rw rw);
++    if (arg_is_const(op->args[2]) &&
++        fold_affected_mask(ctx, op, z1 & ~z2)) {
- void qemu_plugin_flush_cb(void);
++        return true;
+     }
-@@ -XXX,XX +XXX,XX @@ void qemu_plugin_vcpu_syscall_ret(CPUState *cpu, int64_t num, int64_t ret)
- { }
+     return fold_masks(ctx, op);
+@@ -XXX,XX +XXX,XX @@ static bool fold_andc(OptContext *ctx, TCGOp *op)
- static inline void qemu_plugin_vcpu_mem_cb(CPUState *cpu, uint64_t vaddr,
+      */
--                                           uint32_t meminfo)
+     if (arg_is_const(op->args[2])) {
-+                                           MemOpIdx oi,
+         uint64_t z2 = ~arg_info(op->args[2])->z_mask;
-+                                           enum qemu_plugin_mem_rw rw)
+-        ctx->a_mask = z1 & ~z2;
- { }
++        if (fold_affected_mask(ctx, op, z1 & ~z2)) {
++            return true;
- static inline void qemu_plugin_flush_cb(void)
++        }
-diff --git a/accel/tcg/cputlb.c b/accel/tcg/cputlb.c
+         z1 &= z2;
-index XXXXXXX..XXXXXXX 100644
+     }
---- a/accel/tcg/cputlb.c
+     ctx->z_mask = z1;
-+++ b/accel/tcg/cputlb.c
+@@ -XXX,XX +XXX,XX @@ static bool fold_extract(OptContext *ctx, TCGOp *op)
-@@ -XXX,XX +XXX,XX @@ static inline uint64_t cpu_load_helper(CPUArchState *env, abi_ptr addr,
+     z_mask_old = arg_info(op->args[1])->z_mask;
-     ret = full_load(env, addr, oi, retaddr);
+     z_mask = extract64(z_mask_old, pos, len);
+-    if (pos == 0) {
--    qemu_plugin_vcpu_mem_cb(env_cpu(env), addr, meminfo);
+-        ctx->a_mask = z_mask_old ^ z_mask;
-+    qemu_plugin_vcpu_mem_cb(env_cpu(env), addr, oi, QEMU_PLUGIN_MEM_R);
++    if (pos == 0 && fold_affected_mask(ctx, op, z_mask_old ^ z_mask)) {
++        return true;
-     return ret;
+     }
      ctx->z_mask = z_mask;
      ctx->s_mask = smask_from_zmask(z_mask);
@@ -XXX,XX +XXX,XX @@ static bool fold_exts(OptContext *ctx, TCGOp *op)
      ctx->z_mask = z_mask;
      ctx->s_mask = s_mask;
 -    if (!type_change) {
 -        ctx->a_mask = s_mask & ~s_mask_old;
 +    if (!type_change && fold_affected_mask(ctx, op, s_mask & ~s_mask_old)) {
 +        return true;
      }
      return fold_masks(ctx, op);
@@ -XXX,XX +XXX,XX @@ static bool fold_extu(OptContext *ctx, TCGOp *op)
      ctx->z_mask = z_mask;
      ctx->s_mask = smask_from_zmask(z_mask);
 -    if (!type_change) {
 -        ctx->a_mask = z_mask_old ^ z_mask;
 +    if (!type_change && fold_affected_mask(ctx, op, z_mask_old ^ z_mask)) {
 +        return true;
      }
      return fold_masks(ctx, op);
  }
-@@ -XXX,XX +XXX,XX @@ cpu_store_helper(CPUArchState *env, target_ulong addr, uint64_t val,
+@@ -XXX,XX +XXX,XX @@ static bool fold_sextract(OptContext *ctx, TCGOp *op)
+     s_mask |= MAKE_64BIT_MASK(len, 64 - len);
-     store_helper(env, addr, val, oi, retaddr, op);
+     ctx->s_mask = s_mask;
--    qemu_plugin_vcpu_mem_cb(env_cpu(env), addr, meminfo);
+-    if (pos == 0) {
-+    qemu_plugin_vcpu_mem_cb(env_cpu(env), addr, oi, QEMU_PLUGIN_MEM_W);
+-        ctx->a_mask = s_mask & ~s_mask_old;
- }
++    if (pos == 0 && fold_affected_mask(ctx, op, s_mask & ~s_mask_old)) {
++        return true;
  void cpu_stb_mmuidx_ra(CPUArchState *env, target_ulong addr, uint32_t val,
 diff --git a/accel/tcg/plugin-gen.c b/accel/tcg/plugin-gen.c
 index XXXXXXX..XXXXXXX 100644
 --- a/accel/tcg/plugin-gen.c
 +++ b/accel/tcg/plugin-gen.c
@@ -XXX,XX +XXX,XX @@
  #include "qemu/osdep.h"
  #include "tcg/tcg.h"
  #include "tcg/tcg-op.h"
 -#include "trace/mem.h"
  #include "exec/exec-all.h"
  #include "exec/plugin-gen.h"
  #include "exec/translator.h"
@@ -XXX,XX +XXX,XX @@ static void gen_mem_wrapped(enum plugin_gen_cb type,
                              const union mem_gen_fn *f, TCGv addr,
                              uint32_t info, bool is_mem)
  {
 -    int wr = !!(info & TRACE_MEM_ST);
 +    enum qemu_plugin_mem_rw rw = get_plugin_meminfo_rw(info);
 -    gen_plugin_cb_start(PLUGIN_GEN_FROM_MEM, type, wr);
 +    gen_plugin_cb_start(PLUGIN_GEN_FROM_MEM, type, rw);
      if (is_mem) {
          f->mem_fn(addr, info);
      } else {
 diff --git a/accel/tcg/user-exec.c b/accel/tcg/user-exec.c
 index XXXXXXX..XXXXXXX 100644
 --- a/accel/tcg/user-exec.c
 +++ b/accel/tcg/user-exec.c
@@ -XXX,XX +XXX,XX @@ uint32_t cpu_ldub_data(CPUArchState *env, abi_ptr ptr)
      trace_guest_mem_before_exec(env_cpu(env), ptr, meminfo);
      ret = ldub_p(g2h(env_cpu(env), ptr));
 -    qemu_plugin_vcpu_mem_cb(env_cpu(env), ptr, meminfo);
 +    qemu_plugin_vcpu_mem_cb(env_cpu(env), ptr, oi, QEMU_PLUGIN_MEM_R);
      return ret;
  }
@@ -XXX,XX +XXX,XX @@ uint32_t cpu_lduw_be_data(CPUArchState *env, abi_ptr ptr)
      trace_guest_mem_before_exec(env_cpu(env), ptr, meminfo);
      ret = lduw_be_p(g2h(env_cpu(env), ptr));
 -    qemu_plugin_vcpu_mem_cb(env_cpu(env), ptr, meminfo);
 +    qemu_plugin_vcpu_mem_cb(env_cpu(env), ptr, oi, QEMU_PLUGIN_MEM_R);
      return ret;
  }
@@ -XXX,XX +XXX,XX @@ uint32_t cpu_ldl_be_data(CPUArchState *env, abi_ptr ptr)
      trace_guest_mem_before_exec(env_cpu(env), ptr, meminfo);
      ret = ldl_be_p(g2h(env_cpu(env), ptr));
 -    qemu_plugin_vcpu_mem_cb(env_cpu(env), ptr, meminfo);
 +    qemu_plugin_vcpu_mem_cb(env_cpu(env), ptr, oi, QEMU_PLUGIN_MEM_R);
      return ret;
  }
@@ -XXX,XX +XXX,XX @@ uint64_t cpu_ldq_be_data(CPUArchState *env, abi_ptr ptr)
      trace_guest_mem_before_exec(env_cpu(env), ptr, meminfo);
      ret = ldq_be_p(g2h(env_cpu(env), ptr));
 -    qemu_plugin_vcpu_mem_cb(env_cpu(env), ptr, meminfo);
 +    qemu_plugin_vcpu_mem_cb(env_cpu(env), ptr, oi, QEMU_PLUGIN_MEM_R);
      return ret;
  }
@@ -XXX,XX +XXX,XX @@ uint32_t cpu_lduw_le_data(CPUArchState *env, abi_ptr ptr)
      trace_guest_mem_before_exec(env_cpu(env), ptr, meminfo);
      ret = lduw_le_p(g2h(env_cpu(env), ptr));
 -    qemu_plugin_vcpu_mem_cb(env_cpu(env), ptr, meminfo);
 +    qemu_plugin_vcpu_mem_cb(env_cpu(env), ptr, oi, QEMU_PLUGIN_MEM_R);
      return ret;
  }
@@ -XXX,XX +XXX,XX @@ uint32_t cpu_ldl_le_data(CPUArchState *env, abi_ptr ptr)
      trace_guest_mem_before_exec(env_cpu(env), ptr, meminfo);
      ret = ldl_le_p(g2h(env_cpu(env), ptr));
 -    qemu_plugin_vcpu_mem_cb(env_cpu(env), ptr, meminfo);
 +    qemu_plugin_vcpu_mem_cb(env_cpu(env), ptr, oi, QEMU_PLUGIN_MEM_R);
      return ret;
  }
@@ -XXX,XX +XXX,XX @@ uint64_t cpu_ldq_le_data(CPUArchState *env, abi_ptr ptr)
      trace_guest_mem_before_exec(env_cpu(env), ptr, meminfo);
      ret = ldq_le_p(g2h(env_cpu(env), ptr));
 -    qemu_plugin_vcpu_mem_cb(env_cpu(env), ptr, meminfo);
 +    qemu_plugin_vcpu_mem_cb(env_cpu(env), ptr, oi, QEMU_PLUGIN_MEM_R);
      return ret;
  }
@@ -XXX,XX +XXX,XX @@ void cpu_stb_data(CPUArchState *env, abi_ptr ptr, uint32_t val)
      trace_guest_mem_before_exec(env_cpu(env), ptr, meminfo);
      stb_p(g2h(env_cpu(env), ptr), val);
 -    qemu_plugin_vcpu_mem_cb(env_cpu(env), ptr, meminfo);
 +    qemu_plugin_vcpu_mem_cb(env_cpu(env), ptr, oi, QEMU_PLUGIN_MEM_W);
  }
  void cpu_stw_be_data(CPUArchState *env, abi_ptr ptr, uint32_t val)
@@ -XXX,XX +XXX,XX @@ void cpu_stw_be_data(CPUArchState *env, abi_ptr ptr, uint32_t val)
      trace_guest_mem_before_exec(env_cpu(env), ptr, meminfo);
      stw_be_p(g2h(env_cpu(env), ptr), val);
 -    qemu_plugin_vcpu_mem_cb(env_cpu(env), ptr, meminfo);
 +    qemu_plugin_vcpu_mem_cb(env_cpu(env), ptr, oi, QEMU_PLUGIN_MEM_W);
  }
  void cpu_stl_be_data(CPUArchState *env, abi_ptr ptr, uint32_t val)
@@ -XXX,XX +XXX,XX @@ void cpu_stl_be_data(CPUArchState *env, abi_ptr ptr, uint32_t val)
      trace_guest_mem_before_exec(env_cpu(env), ptr, meminfo);
      stl_be_p(g2h(env_cpu(env), ptr), val);
 -    qemu_plugin_vcpu_mem_cb(env_cpu(env), ptr, meminfo);
 +    qemu_plugin_vcpu_mem_cb(env_cpu(env), ptr, oi, QEMU_PLUGIN_MEM_W);
  }
  void cpu_stq_be_data(CPUArchState *env, abi_ptr ptr, uint64_t val)
@@ -XXX,XX +XXX,XX @@ void cpu_stq_be_data(CPUArchState *env, abi_ptr ptr, uint64_t val)
      trace_guest_mem_before_exec(env_cpu(env), ptr, meminfo);
      stq_be_p(g2h(env_cpu(env), ptr), val);
 -    qemu_plugin_vcpu_mem_cb(env_cpu(env), ptr, meminfo);
 +    qemu_plugin_vcpu_mem_cb(env_cpu(env), ptr, oi, QEMU_PLUGIN_MEM_W);
  }
  void cpu_stw_le_data(CPUArchState *env, abi_ptr ptr, uint32_t val)
@@ -XXX,XX +XXX,XX @@ void cpu_stw_le_data(CPUArchState *env, abi_ptr ptr, uint32_t val)
      trace_guest_mem_before_exec(env_cpu(env), ptr, meminfo);
      stw_le_p(g2h(env_cpu(env), ptr), val);
 -    qemu_plugin_vcpu_mem_cb(env_cpu(env), ptr, meminfo);
 +    qemu_plugin_vcpu_mem_cb(env_cpu(env), ptr, oi, QEMU_PLUGIN_MEM_W);
  }
  void cpu_stl_le_data(CPUArchState *env, abi_ptr ptr, uint32_t val)
@@ -XXX,XX +XXX,XX @@ void cpu_stl_le_data(CPUArchState *env, abi_ptr ptr, uint32_t val)
      trace_guest_mem_before_exec(env_cpu(env), ptr, meminfo);
      stl_le_p(g2h(env_cpu(env), ptr), val);
 -    qemu_plugin_vcpu_mem_cb(env_cpu(env), ptr, meminfo);
 +    qemu_plugin_vcpu_mem_cb(env_cpu(env), ptr, oi, QEMU_PLUGIN_MEM_W);
  }
  void cpu_stq_le_data(CPUArchState *env, abi_ptr ptr, uint64_t val)
@@ -XXX,XX +XXX,XX @@ void cpu_stq_le_data(CPUArchState *env, abi_ptr ptr, uint64_t val)
      trace_guest_mem_before_exec(env_cpu(env), ptr, meminfo);
      stq_le_p(g2h(env_cpu(env), ptr), val);
 -    qemu_plugin_vcpu_mem_cb(env_cpu(env), ptr, meminfo);
 +    qemu_plugin_vcpu_mem_cb(env_cpu(env), ptr, oi, QEMU_PLUGIN_MEM_W);
  }
  void cpu_stb_data_ra(CPUArchState *env, abi_ptr ptr,
 diff --git a/plugins/api.c b/plugins/api.c
 index XXXXXXX..XXXXXXX 100644
 --- a/plugins/api.c
 +++ b/plugins/api.c
@@ -XXX,XX +XXX,XX @@
  #include "qemu/plugin-memory.h"
  #include "hw/boards.h"
  #endif
 -#include "trace/mem.h"
  /* Uninstall and Reset handlers */
@@ -XXX,XX +XXX,XX @@ const char *qemu_plugin_insn_symbol(const struct qemu_plugin_insn *insn)
  unsigned qemu_plugin_mem_size_shift(qemu_plugin_meminfo_t info)
  {
 -    return info & TRACE_MEM_SZ_SHIFT_MASK;
 +    MemOp op = get_memop(info);
 +    return op & MO_SIZE;
  }
  bool qemu_plugin_mem_is_sign_extended(qemu_plugin_meminfo_t info)
  {
 -    return !!(info & TRACE_MEM_SE);
 +    MemOp op = get_memop(info);
 +    return op & MO_SIGN;
  }
  bool qemu_plugin_mem_is_big_endian(qemu_plugin_meminfo_t info)
  {
 -    return !!(info & TRACE_MEM_BE);
 +    MemOp op = get_memop(info);
 +    return (op & MO_BSWAP) == MO_BE;
  }
  bool qemu_plugin_mem_is_store(qemu_plugin_meminfo_t info)
  {
 -    return !!(info & TRACE_MEM_ST);
 +    return get_plugin_meminfo_rw(info) & QEMU_PLUGIN_MEM_W;
  }
  /*
@@ -XXX,XX +XXX,XX @@ struct qemu_plugin_hwaddr *qemu_plugin_get_hwaddr(qemu_plugin_meminfo_t info,
  {
  #ifdef CONFIG_SOFTMMU
      CPUState *cpu = current_cpu;
 -    unsigned int mmu_idx = info >> TRACE_MEM_MMU_SHIFT;
 -    hwaddr_info.is_store = info & TRACE_MEM_ST;
 +    unsigned int mmu_idx = get_mmuidx(info);
 +    enum qemu_plugin_mem_rw rw = get_plugin_meminfo_rw(info);
 +    hwaddr_info.is_store = (rw & QEMU_PLUGIN_MEM_W) != 0;
      if (!tlb_plugin_lookup(cpu, vaddr, mmu_idx,
 -                           info & TRACE_MEM_ST, &hwaddr_info)) {
 +                           hwaddr_info.is_store, &hwaddr_info)) {
          error_report("invalid use of qemu_plugin_get_hwaddr");
          return NULL;
      }
-diff --git a/plugins/core.c b/plugins/core.c
-index XXXXXXX..XXXXXXX 100644
+     return fold_masks(ctx, op);
---- a/plugins/core.c
+@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
 +++ b/plugins/core.c
@@ -XXX,XX +XXX,XX @@
  #include "exec/helper-proto.h"
  #include "tcg/tcg.h"
  #include "tcg/tcg-op.h"
 -#include "trace/mem.h" /* mem_info macros */
  #include "plugin.h"
  #include "qemu/compiler.h"
@@ -XXX,XX +XXX,XX @@ void exec_inline_op(struct qemu_plugin_dyn_cb *cb)
      }
  }
 -void qemu_plugin_vcpu_mem_cb(CPUState *cpu, uint64_t vaddr, uint32_t info)
 +void qemu_plugin_vcpu_mem_cb(CPUState *cpu, uint64_t vaddr,
 +                             MemOpIdx oi, enum qemu_plugin_mem_rw rw)
  {
      GArray *arr = cpu->plugin_mem_cbs;
      size_t i;
@@ -XXX,XX +XXX,XX @@ void qemu_plugin_vcpu_mem_cb(CPUState *cpu, uint64_t vaddr, uint32_t info)
      for (i = 0; i < arr->len; i++) {
          struct qemu_plugin_dyn_cb *cb =
              &g_array_index(arr, struct qemu_plugin_dyn_cb, i);
 -        int w = !!(info & TRACE_MEM_ST) + 1;
 -        if (!(w & cb->rw)) {
 +        if (!(rw & cb->rw)) {
                  break;
          }
-         switch (cb->type) {
-         case PLUGIN_CB_REGULAR:
+         /* Assume all bits affected, no bits known zero, no sign reps. */
--            cb->f.vcpu_mem(cpu->cpu_index, info, vaddr, cb->userp);
+-        ctx.a_mask = -1;
-+            cb->f.vcpu_mem(cpu->cpu_index, make_plugin_meminfo(oi, rw),
+         ctx.z_mask = -1;
-+                           vaddr, cb->userp);
+         ctx.s_mask = 0;
              break;
          case PLUGIN_CB_INLINE:
              exec_inline_op(cb);
 diff --git a/tcg/tcg-op.c b/tcg/tcg-op.c
 index XXXXXXX..XXXXXXX 100644
 --- a/tcg/tcg-op.c
 +++ b/tcg/tcg-op.c
@@ -XXX,XX +XXX,XX @@ static inline TCGv plugin_prep_mem_callbacks(TCGv vaddr)
      return vaddr;
  }
 -static inline void plugin_gen_mem_callbacks(TCGv vaddr, uint16_t info)
 +static void plugin_gen_mem_callbacks(TCGv vaddr, MemOpIdx oi,
 +                                     enum qemu_plugin_mem_rw rw)
  {
  #ifdef CONFIG_PLUGIN
      if (tcg_ctx->plugin_insn != NULL) {
 +        qemu_plugin_meminfo_t info = make_plugin_meminfo(oi, rw);
          plugin_gen_empty_mem_callback(vaddr, info);
          tcg_temp_free(vaddr);
      }
@@ -XXX,XX +XXX,XX @@ static inline void plugin_gen_mem_callbacks(TCGv vaddr, uint16_t info)
  void tcg_gen_qemu_ld_i32(TCGv_i32 val, TCGv addr, TCGArg idx, MemOp memop)
  {
      MemOp orig_memop;
 -    uint16_t info = trace_mem_get_info(make_memop_idx(memop, idx), 0);
 +    MemOpIdx oi;
 +    uint16_t info;
      tcg_gen_req_mo(TCG_MO_LD_LD | TCG_MO_ST_LD);
      memop = tcg_canonicalize_memop(memop, 0, 0);
 +    oi = make_memop_idx(memop, idx);
 +    info = trace_mem_get_info(oi, 0);
      trace_guest_mem_before_tcg(tcg_ctx->cpu, cpu_env, addr, info);
      orig_memop = memop;
@@ -XXX,XX +XXX,XX @@ void tcg_gen_qemu_ld_i32(TCGv_i32 val, TCGv addr, TCGArg idx, MemOp memop)
      addr = plugin_prep_mem_callbacks(addr);
      gen_ldst_i32(INDEX_op_qemu_ld_i32, val, addr, memop, idx);
 -    plugin_gen_mem_callbacks(addr, info);
 +    plugin_gen_mem_callbacks(addr, oi, QEMU_PLUGIN_MEM_R);
      if ((orig_memop ^ memop) & MO_BSWAP) {
          switch (orig_memop & MO_SIZE) {
@@ -XXX,XX +XXX,XX @@ void tcg_gen_qemu_ld_i32(TCGv_i32 val, TCGv addr, TCGArg idx, MemOp memop)
  void tcg_gen_qemu_st_i32(TCGv_i32 val, TCGv addr, TCGArg idx, MemOp memop)
  {
      TCGv_i32 swap = NULL;
 -    uint16_t info = trace_mem_get_info(make_memop_idx(memop, idx), 1);
 +    MemOpIdx oi;
 +    uint16_t info;
      tcg_gen_req_mo(TCG_MO_LD_ST | TCG_MO_ST_ST);
      memop = tcg_canonicalize_memop(memop, 0, 1);
 +    oi = make_memop_idx(memop, idx);
 +    info = trace_mem_get_info(oi, 1);
      trace_guest_mem_before_tcg(tcg_ctx->cpu, cpu_env, addr, info);
      if (!TCG_TARGET_HAS_MEMORY_BSWAP && (memop & MO_BSWAP)) {
@@ -XXX,XX +XXX,XX @@ void tcg_gen_qemu_st_i32(TCGv_i32 val, TCGv addr, TCGArg idx, MemOp memop)
      } else {
          gen_ldst_i32(INDEX_op_qemu_st_i32, val, addr, memop, idx);
      }
 -    plugin_gen_mem_callbacks(addr, info);
 +    plugin_gen_mem_callbacks(addr, oi, QEMU_PLUGIN_MEM_W);
      if (swap) {
          tcg_temp_free_i32(swap);
@@ -XXX,XX +XXX,XX @@ void tcg_gen_qemu_st_i32(TCGv_i32 val, TCGv addr, TCGArg idx, MemOp memop)
  void tcg_gen_qemu_ld_i64(TCGv_i64 val, TCGv addr, TCGArg idx, MemOp memop)
  {
      MemOp orig_memop;
 +    MemOpIdx oi;
      uint16_t info;
      if (TCG_TARGET_REG_BITS == 32 && (memop & MO_SIZE) < MO_64) {
@@ -XXX,XX +XXX,XX @@ void tcg_gen_qemu_ld_i64(TCGv_i64 val, TCGv addr, TCGArg idx, MemOp memop)
      tcg_gen_req_mo(TCG_MO_LD_LD | TCG_MO_ST_LD);
      memop = tcg_canonicalize_memop(memop, 1, 0);
 -    info = trace_mem_get_info(make_memop_idx(memop, idx), 0);
 +    oi = make_memop_idx(memop, idx);
 +    info = trace_mem_get_info(oi, 0);
      trace_guest_mem_before_tcg(tcg_ctx->cpu, cpu_env, addr, info);
      orig_memop = memop;
@@ -XXX,XX +XXX,XX @@ void tcg_gen_qemu_ld_i64(TCGv_i64 val, TCGv addr, TCGArg idx, MemOp memop)
      addr = plugin_prep_mem_callbacks(addr);
      gen_ldst_i64(INDEX_op_qemu_ld_i64, val, addr, memop, idx);
 -    plugin_gen_mem_callbacks(addr, info);
 +    plugin_gen_mem_callbacks(addr, oi, QEMU_PLUGIN_MEM_R);
      if ((orig_memop ^ memop) & MO_BSWAP) {
          int flags = (orig_memop & MO_SIGN
@@ -XXX,XX +XXX,XX @@ void tcg_gen_qemu_ld_i64(TCGv_i64 val, TCGv addr, TCGArg idx, MemOp memop)
  void tcg_gen_qemu_st_i64(TCGv_i64 val, TCGv addr, TCGArg idx, MemOp memop)
  {
      TCGv_i64 swap = NULL;
 +    MemOpIdx oi;
      uint16_t info;
      if (TCG_TARGET_REG_BITS == 32 && (memop & MO_SIZE) < MO_64) {
@@ -XXX,XX +XXX,XX @@ void tcg_gen_qemu_st_i64(TCGv_i64 val, TCGv addr, TCGArg idx, MemOp memop)
      tcg_gen_req_mo(TCG_MO_LD_ST | TCG_MO_ST_ST);
      memop = tcg_canonicalize_memop(memop, 1, 1);
 -    info = trace_mem_get_info(make_memop_idx(memop, idx), 1);
 +    oi = make_memop_idx(memop, idx);
 +    info = trace_mem_get_info(oi, 1);
      trace_guest_mem_before_tcg(tcg_ctx->cpu, cpu_env, addr, info);
      if (!TCG_TARGET_HAS_MEMORY_BSWAP && (memop & MO_BSWAP)) {
@@ -XXX,XX +XXX,XX @@ void tcg_gen_qemu_st_i64(TCGv_i64 val, TCGv addr, TCGArg idx, MemOp memop)
      addr = plugin_prep_mem_callbacks(addr);
      gen_ldst_i64(INDEX_op_qemu_st_i64, val, addr, memop, idx);
 -    plugin_gen_mem_callbacks(addr, info);
 +    plugin_gen_mem_callbacks(addr, oi, QEMU_PLUGIN_MEM_W);
      if (swap) {
          tcg_temp_free_i64(swap);
 diff --git a/accel/tcg/atomic_common.c.inc b/accel/tcg/atomic_common.c.inc
 index XXXXXXX..XXXXXXX 100644
 --- a/accel/tcg/atomic_common.c.inc
 +++ b/accel/tcg/atomic_common.c.inc
@@ -XXX,XX +XXX,XX @@ static void atomic_trace_rmw_pre(CPUArchState *env, target_ulong addr,
  static void atomic_trace_rmw_post(CPUArchState *env, target_ulong addr,
                                    MemOpIdx oi)
  {
 -    uint16_t info = trace_mem_get_info(oi, false);
 -
 -    qemu_plugin_vcpu_mem_cb(env_cpu(env), addr, info);
 -    qemu_plugin_vcpu_mem_cb(env_cpu(env), addr, info | TRACE_MEM_ST);
 +    qemu_plugin_vcpu_mem_cb(env_cpu(env), addr, oi, QEMU_PLUGIN_MEM_RW);
  }
  #if HAVE_ATOMIC128
@@ -XXX,XX +XXX,XX @@ static void atomic_trace_ld_pre(CPUArchState *env, target_ulong addr,
  static void atomic_trace_ld_post(CPUArchState *env, target_ulong addr,
                                   MemOpIdx oi)
  {
 -    uint16_t info = trace_mem_get_info(oi, false);
 -
 -    qemu_plugin_vcpu_mem_cb(env_cpu(env), addr, info);
 +    qemu_plugin_vcpu_mem_cb(env_cpu(env), addr, oi, QEMU_PLUGIN_MEM_R);
  }
  static void atomic_trace_st_pre(CPUArchState *env, target_ulong addr,
@@ -XXX,XX +XXX,XX @@ static void atomic_trace_st_pre(CPUArchState *env, target_ulong addr,
  static void atomic_trace_st_post(CPUArchState *env, target_ulong addr,
                                   MemOpIdx oi)
  {
 -    uint16_t info = trace_mem_get_info(oi, false);
 -
 -    qemu_plugin_vcpu_mem_cb(env_cpu(env), addr, info);
 +    qemu_plugin_vcpu_mem_cb(env_cpu(env), addr, oi, QEMU_PLUGIN_MEM_W);
  }
  #endif
 --
-.25.1
+.43.0

-[PULL 12/28] hw/core/cpu: Re-sort the non-pointers to the end of CPUClass
+[PULL 05/72] tcg/optimize: Copy mask writeback to fold_masks
-Despite the comment, the members were not kept at the end.
+Use of fold_masks should be restricted to those opcodes that
 can reliably make use of it -- those with a single output,
 and from higher-level folders that set up the masks.
 Prepare for conversion of each folder in turn.
-Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
+Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- include/hw/core/cpu.h | 11 +++++++----
+ tcg/optimize.c | 17 ++++++++++++++---
-file changed, 7 insertions(+), 4 deletions(-)
+file changed, 14 insertions(+), 3 deletions(-)
-diff --git a/include/hw/core/cpu.h b/include/hw/core/cpu.h
+diff --git a/tcg/optimize.c b/tcg/optimize.c
 index XXXXXXX..XXXXXXX 100644
---- a/include/hw/core/cpu.h
+--- a/tcg/optimize.c
-+++ b/include/hw/core/cpu.h
++++ b/tcg/optimize.c
-@@ -XXX,XX +XXX,XX @@ struct CPUClass {
+@@ -XXX,XX +XXX,XX @@ static bool fold_masks(OptContext *ctx, TCGOp *op)
-     ObjectClass *(*class_by_name)(const char *cpu_model);
+ {
-     void (*parse_features)(const char *typename, char *str, Error **errp);
+     uint64_t z_mask = ctx->z_mask;
+     uint64_t s_mask = ctx->s_mask;
--    int reset_dump_flags;
++    const TCGOpDef *def = &tcg_op_defs[op->opc];
-     bool (*has_work)(CPUState *cpu);
++    TCGTemp *ts;
-     int (*memory_rw_debug)(CPUState *cpu, vaddr addr,
++    TempOptInfo *ti;
                             uint8_t *buf, int len, bool is_write);
@@ -XXX,XX +XXX,XX @@ struct CPUClass {
      void (*disas_set_info)(CPUState *cpu, disassemble_info *info);
      const char *deprecation_note;
 -    /* Keep non-pointer data at the end to minimize holes.  */
 -    int gdb_num_core_regs;
 -    bool gdb_stop_before_watchpoint;
      struct AccelCPUClass *accel_cpu;
      /* when system emulation is not available, this pointer is NULL */
@@ -XXX,XX +XXX,XX @@ struct CPUClass {
       * class data that depends on the accelerator, see accel/accel-common.c.
       */
      void (*init_accel_cpu)(struct AccelCPUClass *accel_cpu, CPUClass *cc);
 +
-+    /*
++    /* Only single-output opcodes are supported here. */
-+     * Keep non-pointer data at the end to minimize holes.
++    tcg_debug_assert(def->nb_oargs == 1);
-+     */
-+    int reset_dump_flags;
+     /*
-+    int gdb_num_core_regs;
+      * 32-bit ops generate 32-bit results, which for the purpose of
-+    bool gdb_stop_before_watchpoint;
+@@ -XXX,XX +XXX,XX @@ static bool fold_masks(OptContext *ctx, TCGOp *op)
- };
+     if (ctx->type == TCG_TYPE_I32) {
          z_mask = (int32_t)z_mask;
          s_mask |= MAKE_64BIT_MASK(32, 32);
 -        ctx->z_mask = z_mask;
 -        ctx->s_mask = s_mask;
      }
      if (z_mask == 0) {
          return tcg_opt_gen_movi(ctx, op, op->args[0], 0);
      }
 -    return false;
 +
 +    ts = arg_temp(op->args[0]);
 +    reset_ts(ctx, ts);
 +
 +    ti = ts_info(ts);
 +    ti->z_mask = z_mask;
 +    ti->s_mask = s_mask;
 +    return true;
  }
  /*
 --
-.25.1
+.43.0

-[PULL 03/28] tcg: add dup_const_tl wrapper
+[PULL 06/72] tcg/optimize: Split out fold_masks_zs
-From: Philipp Tomsich <philipp.tomsich@vrull.eu>
+Add a routine to which masks can be passed directly, rather than
 storing them into OptContext.  To be used in upcoming patches.
-dup_const always generates a uint64_t, which may exceed the size of a
+Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
 target_long (generating warnings with recent-enough compilers).
 To ensure that we can use dup_const both for 64bit and 32bit targets,
 this adds dup_const_tl, which either maps back to dup_const (for 64bit
 targets) or provides a similar implementation using 32bit constants.
 Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
 Signed-off-by: Philipp Tomsich <philipp.tomsich@vrull.eu>
 Message-Id: <20211003214243.3813425-1-philipp.tomsich@vrull.eu>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- include/tcg/tcg.h | 12 ++++++++++++
+ tcg/optimize.c | 15 ++++++++++++---
-file changed, 12 insertions(+)
+file changed, 12 insertions(+), 3 deletions(-)
-diff --git a/include/tcg/tcg.h b/include/tcg/tcg.h
+diff --git a/tcg/optimize.c b/tcg/optimize.c
 index XXXXXXX..XXXXXXX 100644
---- a/include/tcg/tcg.h
+--- a/tcg/optimize.c
-+++ b/include/tcg/tcg.h
++++ b/tcg/optimize.c
-@@ -XXX,XX +XXX,XX @@ uint64_t dup_const(unsigned vece, uint64_t c);
+@@ -XXX,XX +XXX,XX @@ static bool fold_const2_commutative(OptContext *ctx, TCGOp *op)
-         : (qemu_build_not_reached_always(), 0))                    \
+     return fold_const2(ctx, op);
-      : dup_const(VECE, C))
+ }
-+#if TARGET_LONG_BITS == 64
+-static bool fold_masks(OptContext *ctx, TCGOp *op)
-+# define dup_const_tl  dup_const
++/*
-+#else
++ * Record "zero" and "sign" masks for the single output of @op.
-+# define dup_const_tl(VECE, C)                                     \
++ * See TempOptInfo definition of z_mask and s_mask.
-+    (__builtin_constant_p(VECE)                                    \
++ * If z_mask allows, fold the output to constant zero.
-+     ? (  (VECE) == MO_8  ? 0x01010101ul * (uint8_t)(C)            \
++ */
-+        : (VECE) == MO_16 ? 0x00010001ul * (uint16_t)(C)           \
++static bool fold_masks_zs(OptContext *ctx, TCGOp *op,
-+        : (VECE) == MO_32 ? 0x00000001ul * (uint32_t)(C)           \
++                          uint64_t z_mask, uint64_t s_mask)
-+        : (qemu_build_not_reached_always(), 0))                    \
+ {
-+     :  (target_long)dup_const(VECE, C))
+-    uint64_t z_mask = ctx->z_mask;
-+#endif
+-    uint64_t s_mask = ctx->s_mask;
      const TCGOpDef *def = &tcg_op_defs[op->opc];
      TCGTemp *ts;
      TempOptInfo *ti;
@@ -XXX,XX +XXX,XX @@ static bool fold_masks(OptContext *ctx, TCGOp *op)
      return true;
  }
 +static bool fold_masks(OptContext *ctx, TCGOp *op)
 +{
 +    return fold_masks_zs(ctx, op, ctx->z_mask, ctx->s_mask);
 +}
 +
  /*
-  * Memory helpers that will be used by TCG generated code.
+  * An "affected" mask bit is 0 if and only if the result is identical
-  */
+  * to the first input.  Thus if the entire mask is 0, the operation
 --
-.25.1
+.43.0

-[PULL 24/28] tcg/s390x: Implement vector shift operations
+[PULL 07/72] tcg/optimize: Augment s_mask from z_mask in fold_masks_zs
-Reviewed-by: David Hildenbrand <david@redhat.com>
+Consider the passed s_mask to be a minimum deduced from
 either existing s_mask or from a sign-extension operation.
 We may be able to deduce more from the set of known zeros.
 Remove identical logic from several opcode folders.
 Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- tcg/s390x/tcg-target-con-set.h |  1 +
+ tcg/optimize.c | 21 ++++++---------------
- tcg/s390x/tcg-target.h         | 12 ++---
+file changed, 6 insertions(+), 15 deletions(-)
  tcg/s390x/tcg-target.c.inc     | 93 +++++++++++++++++++++++++++++++++-
 files changed, 99 insertions(+), 7 deletions(-)
-diff --git a/tcg/s390x/tcg-target-con-set.h b/tcg/s390x/tcg-target-con-set.h
+diff --git a/tcg/optimize.c b/tcg/optimize.c
 index XXXXXXX..XXXXXXX 100644
---- a/tcg/s390x/tcg-target-con-set.h
+--- a/tcg/optimize.c
-+++ b/tcg/s390x/tcg-target-con-set.h
++++ b/tcg/optimize.c
-@@ -XXX,XX +XXX,XX @@ C_O1_I2(r, 0, rI)
+@@ -XXX,XX +XXX,XX @@ static bool fold_const2_commutative(OptContext *ctx, TCGOp *op)
- C_O1_I2(r, 0, rJ)
+  * Record "zero" and "sign" masks for the single output of @op.
- C_O1_I2(r, r, ri)
+  * See TempOptInfo definition of z_mask and s_mask.
- C_O1_I2(r, rZ, r)
+  * If z_mask allows, fold the output to constant zero.
-+C_O1_I2(v, v, r)
++ * The passed s_mask may be augmented by z_mask.
- C_O1_I2(v, v, v)
+  */
- C_O1_I4(r, r, ri, r, 0)
+ static bool fold_masks_zs(OptContext *ctx, TCGOp *op,
- C_O1_I4(r, r, ri, rI, 0)
+                           uint64_t z_mask, uint64_t s_mask)
-diff --git a/tcg/s390x/tcg-target.h b/tcg/s390x/tcg-target.h
+@@ -XXX,XX +XXX,XX @@ static bool fold_masks_zs(OptContext *ctx, TCGOp *op,
-index XXXXXXX..XXXXXXX 100644
---- a/tcg/s390x/tcg-target.h
+     ti = ts_info(ts);
-+++ b/tcg/s390x/tcg-target.h
+     ti->z_mask = z_mask;
-@@ -XXX,XX +XXX,XX @@ extern uint64_t s390_facilities[3];
+-    ti->s_mask = s_mask;
- #define TCG_TARGET_HAS_not_vec        1
++    ti->s_mask = s_mask | smask_from_zmask(z_mask);
- #define TCG_TARGET_HAS_neg_vec        1
+     return true;
  #define TCG_TARGET_HAS_abs_vec        1
 -#define TCG_TARGET_HAS_roti_vec       0
 -#define TCG_TARGET_HAS_rots_vec       0
 -#define TCG_TARGET_HAS_rotv_vec       0
 -#define TCG_TARGET_HAS_shi_vec        0
 -#define TCG_TARGET_HAS_shs_vec        0
 -#define TCG_TARGET_HAS_shv_vec        0
 +#define TCG_TARGET_HAS_roti_vec       1
 +#define TCG_TARGET_HAS_rots_vec       1
 +#define TCG_TARGET_HAS_rotv_vec       1
 +#define TCG_TARGET_HAS_shi_vec        1
 +#define TCG_TARGET_HAS_shs_vec        1
 +#define TCG_TARGET_HAS_shv_vec        1
  #define TCG_TARGET_HAS_mul_vec        1
  #define TCG_TARGET_HAS_sat_vec        0
  #define TCG_TARGET_HAS_minmax_vec     0
 diff --git a/tcg/s390x/tcg-target.c.inc b/tcg/s390x/tcg-target.c.inc
 index XXXXXXX..XXXXXXX 100644
 --- a/tcg/s390x/tcg-target.c.inc
 +++ b/tcg/s390x/tcg-target.c.inc
@@ -XXX,XX +XXX,XX @@ typedef enum S390Opcode {
      VRRc_VCEQ   = 0xe7f8,   /* we leave the m5 cs field 0 */
      VRRc_VCH    = 0xe7fb,   /* " */
      VRRc_VCHL   = 0xe7f9,   /* " */
 +    VRRc_VERLLV = 0xe773,
 +    VRRc_VESLV  = 0xe770,
 +    VRRc_VESRAV = 0xe77a,
 +    VRRc_VESRLV = 0xe778,
      VRRc_VML    = 0xe7a2,
      VRRc_VN     = 0xe768,
      VRRc_VNC    = 0xe769,
@@ -XXX,XX +XXX,XX @@ typedef enum S390Opcode {
      VRRc_VX     = 0xe76d,
      VRRf_VLVGP  = 0xe762,
 +    VRSa_VERLL  = 0xe733,
 +    VRSa_VESL   = 0xe730,
 +    VRSa_VESRA  = 0xe73a,
 +    VRSa_VESRL  = 0xe738,
      VRSb_VLVG   = 0xe722,
      VRSc_VLGV   = 0xe721,
@@ -XXX,XX +XXX,XX @@ static void tcg_out_insn_VRRf(TCGContext *s, S390Opcode op,
      tcg_out16(s, (op & 0x00ff) | RXB(v1, 0, 0, 0));
  }
-+static void tcg_out_insn_VRSa(TCGContext *s, S390Opcode op, TCGReg v1,
+@@ -XXX,XX +XXX,XX @@ static bool fold_bswap(OptContext *ctx, TCGOp *op)
 +                              intptr_t d2, TCGReg b2, TCGReg v3, int m4)
 +{
 +    tcg_debug_assert(is_vector_reg(v1));
 +    tcg_debug_assert(d2 >= 0 && d2 <= 0xfff);
 +    tcg_debug_assert(is_general_reg(b2));
 +    tcg_debug_assert(is_vector_reg(v3));
 +    tcg_out16(s, (op & 0xff00) | ((v1 & 0xf) << 4) | (v3 & 0xf));
 +    tcg_out16(s, b2 << 12 | d2);
 +    tcg_out16(s, (op & 0x00ff) | RXB(v1, 0, v3, 0) | (m4 << 12));
 +}
 +
  static void tcg_out_insn_VRSb(TCGContext *s, S390Opcode op, TCGReg v1,
                                intptr_t d2, TCGReg b2, TCGReg r3, int m4)
  {
@@ -XXX,XX +XXX,XX @@ static void tcg_out_vec_op(TCGContext *s, TCGOpcode opc,
          tcg_out_insn(s, VRRc, VX, a0, a1, a2, 0);
          break;
 +    case INDEX_op_shli_vec:
 +        tcg_out_insn(s, VRSa, VESL, a0, a2, TCG_REG_NONE, a1, vece);
 +        break;
 +    case INDEX_op_shri_vec:
 +        tcg_out_insn(s, VRSa, VESRL, a0, a2, TCG_REG_NONE, a1, vece);
 +        break;
 +    case INDEX_op_sari_vec:
 +        tcg_out_insn(s, VRSa, VESRA, a0, a2, TCG_REG_NONE, a1, vece);
 +        break;
 +    case INDEX_op_rotli_vec:
 +        tcg_out_insn(s, VRSa, VERLL, a0, a2, TCG_REG_NONE, a1, vece);
 +        break;
 +    case INDEX_op_shls_vec:
 +        tcg_out_insn(s, VRSa, VESL, a0, 0, a2, a1, vece);
 +        break;
 +    case INDEX_op_shrs_vec:
 +        tcg_out_insn(s, VRSa, VESRL, a0, 0, a2, a1, vece);
 +        break;
 +    case INDEX_op_sars_vec:
 +        tcg_out_insn(s, VRSa, VESRA, a0, 0, a2, a1, vece);
 +        break;
 +    case INDEX_op_rotls_vec:
 +        tcg_out_insn(s, VRSa, VERLL, a0, 0, a2, a1, vece);
 +        break;
 +    case INDEX_op_shlv_vec:
 +        tcg_out_insn(s, VRRc, VESLV, a0, a1, a2, vece);
 +        break;
 +    case INDEX_op_shrv_vec:
 +        tcg_out_insn(s, VRRc, VESRLV, a0, a1, a2, vece);
 +        break;
 +    case INDEX_op_sarv_vec:
 +        tcg_out_insn(s, VRRc, VESRAV, a0, a1, a2, vece);
 +        break;
 +    case INDEX_op_rotlv_vec:
 +        tcg_out_insn(s, VRRc, VERLLV, a0, a1, a2, vece);
 +        break;
 +
      case INDEX_op_cmp_vec:
          switch ((TCGCond)args[3]) {
          case TCG_COND_EQ:
@@ -XXX,XX +XXX,XX @@ int tcg_can_emit_vec_op(TCGOpcode opc, TCGType type, unsigned vece)
      case INDEX_op_not_vec:
      case INDEX_op_or_vec:
      case INDEX_op_orc_vec:
 +    case INDEX_op_rotli_vec:
 +    case INDEX_op_rotls_vec:
 +    case INDEX_op_rotlv_vec:
 +    case INDEX_op_sari_vec:
 +    case INDEX_op_sars_vec:
 +    case INDEX_op_sarv_vec:
 +    case INDEX_op_shli_vec:
 +    case INDEX_op_shls_vec:
 +    case INDEX_op_shlv_vec:
 +    case INDEX_op_shri_vec:
 +    case INDEX_op_shrs_vec:
 +    case INDEX_op_shrv_vec:
      case INDEX_op_sub_vec:
      case INDEX_op_xor_vec:
          return 1;
      case INDEX_op_cmp_vec:
 +    case INDEX_op_rotrv_vec:
          return -1;
      case INDEX_op_mul_vec:
          return vece < MO_64;
@@ -XXX,XX +XXX,XX @@ void tcg_expand_vec_op(TCGOpcode opc, TCGType type, unsigned vece,
                         TCGArg a0, ...)
  {
      va_list va;
 -    TCGv_vec v0, v1, v2;
 +    TCGv_vec v0, v1, v2, t0;
      va_start(va, a0);
      v0 = temp_tcgv_vec(arg_temp(a0));
@@ -XXX,XX +XXX,XX @@ void tcg_expand_vec_op(TCGOpcode opc, TCGType type, unsigned vece,
          expand_vec_cmp(type, vece, v0, v1, v2, va_arg(va, TCGArg));
          break;
 +    case INDEX_op_rotrv_vec:
 +        t0 = tcg_temp_new_vec(type);
 +        tcg_gen_neg_vec(vece, t0, v2);
 +        tcg_gen_rotlv_vec(vece, v0, v1, t0);
 +        tcg_temp_free_vec(t0);
 +        break;
 +
      default:
          g_assert_not_reached();
      }
-@@ -XXX,XX +XXX,XX @@ static TCGConstraintSetIndex tcg_target_op_def(TCGOpcode op)
+-    s_mask = smask_from_zmask(z_mask);
-     case INDEX_op_abs_vec:
-     case INDEX_op_neg_vec:
++    s_mask = 0;
-     case INDEX_op_not_vec:
+     switch (op->args[2] & (TCG_BSWAP_OZ | TCG_BSWAP_OS)) {
-+    case INDEX_op_rotli_vec:
+     case TCG_BSWAP_OZ:
-+    case INDEX_op_sari_vec:
+         break;
-+    case INDEX_op_shli_vec:
+@@ -XXX,XX +XXX,XX @@ static bool fold_bswap(OptContext *ctx, TCGOp *op)
-+    case INDEX_op_shri_vec:
+     default:
-         return C_O1_I1(v, v);
+         /* The high bits are undefined: force all bits above the sign to 1. */
-     case INDEX_op_add_vec:
+         z_mask |= sign << 1;
-     case INDEX_op_sub_vec:
+-        s_mask = 0;
-@@ -XXX,XX +XXX,XX @@ static TCGConstraintSetIndex tcg_target_op_def(TCGOpcode op)
+         break;
-     case INDEX_op_xor_vec:
+     }
-     case INDEX_op_cmp_vec:
+     ctx->z_mask = z_mask;
-     case INDEX_op_mul_vec:
+@@ -XXX,XX +XXX,XX @@ static bool fold_count_zeros(OptContext *ctx, TCGOp *op)
-+    case INDEX_op_rotlv_vec:
+         g_assert_not_reached();
-+    case INDEX_op_rotrv_vec:
+     }
-+    case INDEX_op_shlv_vec:
+     ctx->z_mask = arg_info(op->args[2])->z_mask | z_mask;
-+    case INDEX_op_shrv_vec:
+-    ctx->s_mask = smask_from_zmask(ctx->z_mask);
-+    case INDEX_op_sarv_vec:
+     return false;
-         return C_O1_I2(v, v, v);
+ }
-+    case INDEX_op_rotls_vec:
-+    case INDEX_op_shls_vec:
+@@ -XXX,XX +XXX,XX @@ static bool fold_ctpop(OptContext *ctx, TCGOp *op)
-+    case INDEX_op_shrs_vec:
+     default:
-+    case INDEX_op_sars_vec:
+         g_assert_not_reached();
-+        return C_O1_I2(v, v, r);
+     }
+-    ctx->s_mask = smask_from_zmask(ctx->z_mask);
      return false;
  }
@@ -XXX,XX +XXX,XX @@ static bool fold_extract(OptContext *ctx, TCGOp *op)
          return true;
      }
      ctx->z_mask = z_mask;
 -    ctx->s_mask = smask_from_zmask(z_mask);
      return fold_masks(ctx, op);
  }
@@ -XXX,XX +XXX,XX @@ static bool fold_extu(OptContext *ctx, TCGOp *op)
      }
      ctx->z_mask = z_mask;
 -    ctx->s_mask = smask_from_zmask(z_mask);
      if (!type_change && fold_affected_mask(ctx, op, z_mask_old ^ z_mask)) {
          return true;
      }
@@ -XXX,XX +XXX,XX @@ static bool fold_qemu_ld(OptContext *ctx, TCGOp *op)
      int width = 8 * memop_size(mop);
      if (width < 64) {
 -        ctx->s_mask = MAKE_64BIT_MASK(width, 64 - width);
 -        if (!(mop & MO_SIGN)) {
 +        if (mop & MO_SIGN) {
 +            ctx->s_mask = MAKE_64BIT_MASK(width, 64 - width);
 +        } else {
              ctx->z_mask = MAKE_64BIT_MASK(0, width);
 -            ctx->s_mask <<= 1;
          }
      }
@@ -XXX,XX +XXX,XX @@ static bool fold_setcond(OptContext *ctx, TCGOp *op)
      fold_setcond_tst_pow2(ctx, op, false);
      ctx->z_mask = 1;
 -    ctx->s_mask = smask_from_zmask(1);
      return false;
  }
@@ -XXX,XX +XXX,XX @@ static bool fold_setcond2(OptContext *ctx, TCGOp *op)
      }
      ctx->z_mask = 1;
 -    ctx->s_mask = smask_from_zmask(1);
      return false;
   do_setcond_const:
@@ -XXX,XX +XXX,XX @@ static bool fold_tcg_ld(OptContext *ctx, TCGOp *op)
          break;
      CASE_OP_32_64(ld8u):
          ctx->z_mask = MAKE_64BIT_MASK(0, 8);
 -        ctx->s_mask = MAKE_64BIT_MASK(9, 55);
          break;
      CASE_OP_32_64(ld16s):
          ctx->s_mask = MAKE_64BIT_MASK(16, 48);
          break;
      CASE_OP_32_64(ld16u):
          ctx->z_mask = MAKE_64BIT_MASK(0, 16);
 -        ctx->s_mask = MAKE_64BIT_MASK(17, 47);
          break;
      case INDEX_op_ld32s_i64:
          ctx->s_mask = MAKE_64BIT_MASK(32, 32);
          break;
      case INDEX_op_ld32u_i64:
          ctx->z_mask = MAKE_64BIT_MASK(0, 32);
 -        ctx->s_mask = MAKE_64BIT_MASK(33, 31);
          break;
      default:
          g_assert_not_reached();
 --
-.25.1
+.43.0

-New patch
+[PULL 08/72] tcg/optimize: Change representation of s_mask
+Change the representation from sign bit repetitions to all bits equal
+to the sign bit, including the sign bit itself.
+The previous format has a problem in that it is difficult to recreate
+a valid sign mask after a shift operation: the "repetitions" part of
+the previous format meant that applying the same shift as for the value
+lead to an off-by-one value.
+The new format, including the sign bit itself, means that the sign mask
+can be manipulated in exactly the same way as the value, canonicalization
+is easier.
+Canonicalize the s_mask in fold_masks_zs, rather than requiring callers
+to do so.  Treat 0 as a non-canonical but typeless input for no sign
+information, which will be reset as appropriate for the data type.
+We can easily fold in the data from z_mask while canonicalizing.
+Temporarily disable optimizations using s_mask while each operation is
+converted to use fold_masks_zs and to the new form.
+Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
+Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
+---
+ tcg/optimize.c | 64 ++++++++++++--------------------------------------
+file changed, 15 insertions(+), 49 deletions(-)
+diff --git a/tcg/optimize.c b/tcg/optimize.c
+index XXXXXXX..XXXXXXX 100644
+--- a/tcg/optimize.c
++++ b/tcg/optimize.c
+@@ -XXX,XX +XXX,XX @@ typedef struct TempOptInfo {
+     QSIMPLEQ_HEAD(, MemCopyInfo) mem_copy;
+     uint64_t val;
+     uint64_t z_mask;  /* mask bit is 0 if and only if value bit is 0 */
+-    uint64_t s_mask;  /* a left-aligned mask of clrsb(value) bits. */
++    uint64_t s_mask;  /* mask bit is 1 if value bit matches msb */
+ } TempOptInfo;
+ typedef struct OptContext {
+@@ -XXX,XX +XXX,XX @@ typedef struct OptContext {
+     /* In flight values from optimization. */
+     uint64_t z_mask;  /* mask bit is 0 iff value bit is 0 */
+-    uint64_t s_mask;  /* mask of clrsb(value) bits */
++    uint64_t s_mask;  /* mask bit is 1 if value bit matches msb */
+     TCGType type;
+ } OptContext;
+-/* Calculate the smask for a specific value. */
+-static uint64_t smask_from_value(uint64_t value)
+-{
+-    int rep = clrsb64(value);
+-    return ~(~0ull >> rep);
+-}
+-
+-/*
+- * Calculate the smask for a given set of known-zeros.
+- * If there are lots of zeros on the left, we can consider the remainder
+- * an unsigned field, and thus the corresponding signed field is one bit
+- * larger.
+- */
+-static uint64_t smask_from_zmask(uint64_t zmask)
+-{
+-    /*
+-     * Only the 0 bits are significant for zmask, thus the msb itself
+-     * must be zero, else we have no sign information.
+-     */
+-    int rep = clz64(zmask);
+-    if (rep == 0) {
+-        return 0;
+-    }
+-    rep -= 1;
+-    return ~(~0ull >> rep);
+-}
+-
+-/*
+- * Recreate a properly left-aligned smask after manipulation.
+- * Some bit-shuffling, particularly shifts and rotates, may
+- * retain sign bits on the left, but may scatter disconnected
+- * sign bits on the right.  Retain only what remains to the left.
+- */
+-static uint64_t smask_from_smask(int64_t smask)
+-{
+-    /* Only the 1 bits are significant for smask */
+-    return smask_from_zmask(~smask);
+-}
+-
+ static inline TempOptInfo *ts_info(TCGTemp *ts)
+ {
+     return ts->state_ptr;
+@@ -XXX,XX +XXX,XX @@ static void init_ts_info(OptContext *ctx, TCGTemp *ts)
+         ti->is_const = true;
+         ti->val = ts->val;
+         ti->z_mask = ts->val;
+-        ti->s_mask = smask_from_value(ts->val);
++        ti->s_mask = INT64_MIN >> clrsb64(ts->val);
+     } else {
+         ti->is_const = false;
+         ti->z_mask = -1;
+@@ -XXX,XX +XXX,XX @@ static void finish_folding(OptContext *ctx, TCGOp *op)
+          */
+         if (i == 0) {
+             ts_info(ts)->z_mask = ctx->z_mask;
+-            ts_info(ts)->s_mask = ctx->s_mask;
+         }
+     }
+ }
+@@ -XXX,XX +XXX,XX @@ static bool fold_const2_commutative(OptContext *ctx, TCGOp *op)
+  * The passed s_mask may be augmented by z_mask.
+  */
+ static bool fold_masks_zs(OptContext *ctx, TCGOp *op,
+-                          uint64_t z_mask, uint64_t s_mask)
++                          uint64_t z_mask, int64_t s_mask)
+ {
+     const TCGOpDef *def = &tcg_op_defs[op->opc];
+     TCGTemp *ts;
+     TempOptInfo *ti;
++    int rep;
+     /* Only single-output opcodes are supported here. */
+     tcg_debug_assert(def->nb_oargs == 1);
+@@ -XXX,XX +XXX,XX @@ static bool fold_masks_zs(OptContext *ctx, TCGOp *op,
+      */
+     if (ctx->type == TCG_TYPE_I32) {
+         z_mask = (int32_t)z_mask;
+-        s_mask |= MAKE_64BIT_MASK(32, 32);
++        s_mask |= INT32_MIN;
+     }
+     if (z_mask == 0) {
+@@ -XXX,XX +XXX,XX @@ static bool fold_masks_zs(OptContext *ctx, TCGOp *op,
+     ti = ts_info(ts);
+     ti->z_mask = z_mask;
+-    ti->s_mask = s_mask | smask_from_zmask(z_mask);
++
++    /* Canonicalize s_mask and incorporate data from z_mask. */
++    rep = clz64(~s_mask);
++    rep = MAX(rep, clz64(z_mask));
++    rep = MAX(rep - 1, 0);
++    ti->s_mask = INT64_MIN >> rep;
++
+     return true;
+ }
+@@ -XXX,XX +XXX,XX @@ static bool fold_exts(OptContext *ctx, TCGOp *op)
+     ctx->z_mask = z_mask;
+     ctx->s_mask = s_mask;
+-    if (!type_change && fold_affected_mask(ctx, op, s_mask & ~s_mask_old)) {
++    if (0 && !type_change && fold_affected_mask(ctx, op, s_mask & ~s_mask_old)) {
+         return true;
+     }
+@@ -XXX,XX +XXX,XX @@ static bool fold_sextract(OptContext *ctx, TCGOp *op)
+     s_mask |= MAKE_64BIT_MASK(len, 64 - len);
+     ctx->s_mask = s_mask;
+-    if (pos == 0 && fold_affected_mask(ctx, op, s_mask & ~s_mask_old)) {
++    if (0 && pos == 0 && fold_affected_mask(ctx, op, s_mask & ~s_mask_old)) {
+         return true;
+     }
+@@ -XXX,XX +XXX,XX @@ static bool fold_shift(OptContext *ctx, TCGOp *op)
+         ctx->z_mask = do_constant_folding(op->opc, ctx->type, z_mask, sh);
+         s_mask = do_constant_folding(op->opc, ctx->type, s_mask, sh);
+-        ctx->s_mask = smask_from_smask(s_mask);
+         return fold_masks(ctx, op);
+     }
+--
+.43.0

-[PULL 06/28] tcg: Rename TCGMemOpIdx to MemOpIdx
+[PULL 09/72] tcg/optimize: Use finish_folding in fold_add, fold_add_vec, fold_addsub2
-We're about to move this out of tcg.h, so rename it
+Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
 as we did when moving MemOp.
 Reviewed-by: Alistair Francis <alistair.francis@wdc.com>
 Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- accel/tcg/atomic_template.h   | 24 +++++------
+ tcg/optimize.c | 9 +++++----
- include/tcg/tcg.h             | 74 ++++++++++++++++-----------------
+file changed, 5 insertions(+), 4 deletions(-)
  accel/tcg/cputlb.c            | 78 +++++++++++++++++------------------
  accel/tcg/user-exec.c         |  2 +-
  target/arm/helper-a64.c       | 16 +++----
  target/arm/m_helper.c         |  2 +-
  target/i386/tcg/mem_helper.c  |  4 +-
  target/m68k/op_helper.c       |  2 +-
  target/mips/tcg/msa_helper.c  |  6 +--
  target/s390x/tcg/mem_helper.c | 20 ++++-----
  target/sparc/ldst_helper.c    |  2 +-
  tcg/optimize.c                |  2 +-
  tcg/tcg-op.c                  | 12 +++---
  tcg/tcg.c                     |  2 +-
  tcg/tci.c                     | 14 +++----
  accel/tcg/atomic_common.c.inc |  6 +--
  tcg/aarch64/tcg-target.c.inc  | 14 +++----
  tcg/arm/tcg-target.c.inc      | 10 ++---
  tcg/i386/tcg-target.c.inc     | 10 ++---
  tcg/mips/tcg-target.c.inc     | 12 +++---
  tcg/ppc/tcg-target.c.inc      | 10 ++---
  tcg/riscv/tcg-target.c.inc    | 16 +++----
  tcg/s390/tcg-target.c.inc     | 10 ++---
  tcg/sparc/tcg-target.c.inc    |  4 +-
  tcg/tcg-ldst.c.inc            |  2 +-
 files changed, 177 insertions(+), 177 deletions(-)
-diff --git a/accel/tcg/atomic_template.h b/accel/tcg/atomic_template.h
-index XXXXXXX..XXXXXXX 100644
---- a/accel/tcg/atomic_template.h
-+++ b/accel/tcg/atomic_template.h
-@@ -XXX,XX +XXX,XX @@
- ABI_TYPE ATOMIC_NAME(cmpxchg)(CPUArchState *env, target_ulong addr,
-                               ABI_TYPE cmpv, ABI_TYPE newv,
--                              TCGMemOpIdx oi, uintptr_t retaddr)
-+                              MemOpIdx oi, uintptr_t retaddr)
- {
-     DATA_TYPE *haddr = atomic_mmu_lookup(env, addr, oi, DATA_SIZE,
-                                          PAGE_READ | PAGE_WRITE, retaddr);
-@@ -XXX,XX +XXX,XX @@ ABI_TYPE ATOMIC_NAME(cmpxchg)(CPUArchState *env, target_ulong addr,
- #if DATA_SIZE >= 16
- #if HAVE_ATOMIC128
- ABI_TYPE ATOMIC_NAME(ld)(CPUArchState *env, target_ulong addr,
--                         TCGMemOpIdx oi, uintptr_t retaddr)
-+                         MemOpIdx oi, uintptr_t retaddr)
- {
-     DATA_TYPE *haddr = atomic_mmu_lookup(env, addr, oi, DATA_SIZE,
-                                          PAGE_READ, retaddr);
-@@ -XXX,XX +XXX,XX @@ ABI_TYPE ATOMIC_NAME(ld)(CPUArchState *env, target_ulong addr,
- }
- void ATOMIC_NAME(st)(CPUArchState *env, target_ulong addr, ABI_TYPE val,
--                     TCGMemOpIdx oi, uintptr_t retaddr)
-+                     MemOpIdx oi, uintptr_t retaddr)
- {
-     DATA_TYPE *haddr = atomic_mmu_lookup(env, addr, oi, DATA_SIZE,
-                                          PAGE_WRITE, retaddr);
-@@ -XXX,XX +XXX,XX @@ void ATOMIC_NAME(st)(CPUArchState *env, target_ulong addr, ABI_TYPE val,
- #endif
- #else
- ABI_TYPE ATOMIC_NAME(xchg)(CPUArchState *env, target_ulong addr, ABI_TYPE val,
--                           TCGMemOpIdx oi, uintptr_t retaddr)
-+                           MemOpIdx oi, uintptr_t retaddr)
- {
-     DATA_TYPE *haddr = atomic_mmu_lookup(env, addr, oi, DATA_SIZE,
-                                          PAGE_READ | PAGE_WRITE, retaddr);
-@@ -XXX,XX +XXX,XX @@ ABI_TYPE ATOMIC_NAME(xchg)(CPUArchState *env, target_ulong addr, ABI_TYPE val,
- #define GEN_ATOMIC_HELPER(X)                                        \
- ABI_TYPE ATOMIC_NAME(X)(CPUArchState *env, target_ulong addr,       \
--                        ABI_TYPE val, TCGMemOpIdx oi, uintptr_t retaddr) \
-+                        ABI_TYPE val, MemOpIdx oi, uintptr_t retaddr) \
- {                                                                   \
-     DATA_TYPE *haddr = atomic_mmu_lookup(env, addr, oi, DATA_SIZE,  \
-                                          PAGE_READ | PAGE_WRITE, retaddr); \
-@@ -XXX,XX +XXX,XX @@ GEN_ATOMIC_HELPER(xor_fetch)
-  */
- #define GEN_ATOMIC_HELPER_FN(X, FN, XDATA_TYPE, RET)                \
- ABI_TYPE ATOMIC_NAME(X)(CPUArchState *env, target_ulong addr,       \
--                        ABI_TYPE xval, TCGMemOpIdx oi, uintptr_t retaddr) \
-+                        ABI_TYPE xval, MemOpIdx oi, uintptr_t retaddr) \
- {                                                                   \
-     XDATA_TYPE *haddr = atomic_mmu_lookup(env, addr, oi, DATA_SIZE, \
-                                           PAGE_READ | PAGE_WRITE, retaddr); \
-@@ -XXX,XX +XXX,XX @@ GEN_ATOMIC_HELPER_FN(umax_fetch, MAX,  DATA_TYPE, new)
- ABI_TYPE ATOMIC_NAME(cmpxchg)(CPUArchState *env, target_ulong addr,
-                               ABI_TYPE cmpv, ABI_TYPE newv,
--                              TCGMemOpIdx oi, uintptr_t retaddr)
-+                              MemOpIdx oi, uintptr_t retaddr)
- {
-     DATA_TYPE *haddr = atomic_mmu_lookup(env, addr, oi, DATA_SIZE,
-                                          PAGE_READ | PAGE_WRITE, retaddr);
-@@ -XXX,XX +XXX,XX @@ ABI_TYPE ATOMIC_NAME(cmpxchg)(CPUArchState *env, target_ulong addr,
- #if DATA_SIZE >= 16
- #if HAVE_ATOMIC128
- ABI_TYPE ATOMIC_NAME(ld)(CPUArchState *env, target_ulong addr,
--                         TCGMemOpIdx oi, uintptr_t retaddr)
-+                         MemOpIdx oi, uintptr_t retaddr)
- {
-     DATA_TYPE *haddr = atomic_mmu_lookup(env, addr, oi, DATA_SIZE,
-                                          PAGE_READ, retaddr);
-@@ -XXX,XX +XXX,XX @@ ABI_TYPE ATOMIC_NAME(ld)(CPUArchState *env, target_ulong addr,
- }
- void ATOMIC_NAME(st)(CPUArchState *env, target_ulong addr, ABI_TYPE val,
--                     TCGMemOpIdx oi, uintptr_t retaddr)
-+                     MemOpIdx oi, uintptr_t retaddr)
- {
-     DATA_TYPE *haddr = atomic_mmu_lookup(env, addr, oi, DATA_SIZE,
-                                          PAGE_WRITE, retaddr);
-@@ -XXX,XX +XXX,XX @@ void ATOMIC_NAME(st)(CPUArchState *env, target_ulong addr, ABI_TYPE val,
- #endif
- #else
- ABI_TYPE ATOMIC_NAME(xchg)(CPUArchState *env, target_ulong addr, ABI_TYPE val,
--                           TCGMemOpIdx oi, uintptr_t retaddr)
-+                           MemOpIdx oi, uintptr_t retaddr)
- {
-     DATA_TYPE *haddr = atomic_mmu_lookup(env, addr, oi, DATA_SIZE,
-                                          PAGE_READ | PAGE_WRITE, retaddr);
-@@ -XXX,XX +XXX,XX @@ ABI_TYPE ATOMIC_NAME(xchg)(CPUArchState *env, target_ulong addr, ABI_TYPE val,
- #define GEN_ATOMIC_HELPER(X)                                        \
- ABI_TYPE ATOMIC_NAME(X)(CPUArchState *env, target_ulong addr,       \
--                        ABI_TYPE val, TCGMemOpIdx oi, uintptr_t retaddr) \
-+                        ABI_TYPE val, MemOpIdx oi, uintptr_t retaddr) \
- {                                                                   \
-     DATA_TYPE *haddr = atomic_mmu_lookup(env, addr, oi, DATA_SIZE,  \
-                                          PAGE_READ | PAGE_WRITE, retaddr); \
-@@ -XXX,XX +XXX,XX @@ GEN_ATOMIC_HELPER(xor_fetch)
-  */
- #define GEN_ATOMIC_HELPER_FN(X, FN, XDATA_TYPE, RET)                \
- ABI_TYPE ATOMIC_NAME(X)(CPUArchState *env, target_ulong addr,       \
--                        ABI_TYPE xval, TCGMemOpIdx oi, uintptr_t retaddr) \
-+                        ABI_TYPE xval, MemOpIdx oi, uintptr_t retaddr) \
- {                                                                   \
-     XDATA_TYPE *haddr = atomic_mmu_lookup(env, addr, oi, DATA_SIZE, \
-                                           PAGE_READ | PAGE_WRITE, retaddr); \
-diff --git a/include/tcg/tcg.h b/include/tcg/tcg.h
-index XXXXXXX..XXXXXXX 100644
---- a/include/tcg/tcg.h
-+++ b/include/tcg/tcg.h
-@@ -XXX,XX +XXX,XX @@ static inline size_t tcg_current_code_size(TCGContext *s)
- }
- /* Combine the MemOp and mmu_idx parameters into a single value.  */
--typedef uint32_t TCGMemOpIdx;
-+typedef uint32_t MemOpIdx;
- /**
-  * make_memop_idx
-@@ -XXX,XX +XXX,XX @@ typedef uint32_t TCGMemOpIdx;
-  *
-  * Encode these values into a single parameter.
-  */
--static inline TCGMemOpIdx make_memop_idx(MemOp op, unsigned idx)
-+static inline MemOpIdx make_memop_idx(MemOp op, unsigned idx)
- {
-     tcg_debug_assert(idx <= 15);
-     return (op << 4) | idx;
-@@ -XXX,XX +XXX,XX @@ static inline TCGMemOpIdx make_memop_idx(MemOp op, unsigned idx)
-  *
-  * Extract the memory operation from the combined value.
-  */
--static inline MemOp get_memop(TCGMemOpIdx oi)
-+static inline MemOp get_memop(MemOpIdx oi)
- {
-     return oi >> 4;
- }
-@@ -XXX,XX +XXX,XX @@ static inline MemOp get_memop(TCGMemOpIdx oi)
-  *
-  * Extract the mmu index from the combined value.
-  */
--static inline unsigned get_mmuidx(TCGMemOpIdx oi)
-+static inline unsigned get_mmuidx(MemOpIdx oi)
- {
-     return oi & 15;
- }
-@@ -XXX,XX +XXX,XX @@ uint64_t dup_const(unsigned vece, uint64_t c);
- #ifdef CONFIG_SOFTMMU
- /* Value zero-extended to tcg register size.  */
- tcg_target_ulong helper_ret_ldub_mmu(CPUArchState *env, target_ulong addr,
--                                     TCGMemOpIdx oi, uintptr_t retaddr);
-+                                     MemOpIdx oi, uintptr_t retaddr);
- tcg_target_ulong helper_le_lduw_mmu(CPUArchState *env, target_ulong addr,
--                                    TCGMemOpIdx oi, uintptr_t retaddr);
-+                                    MemOpIdx oi, uintptr_t retaddr);
- tcg_target_ulong helper_le_ldul_mmu(CPUArchState *env, target_ulong addr,
--                                    TCGMemOpIdx oi, uintptr_t retaddr);
-+                                    MemOpIdx oi, uintptr_t retaddr);
- uint64_t helper_le_ldq_mmu(CPUArchState *env, target_ulong addr,
--                           TCGMemOpIdx oi, uintptr_t retaddr);
-+                           MemOpIdx oi, uintptr_t retaddr);
- tcg_target_ulong helper_be_lduw_mmu(CPUArchState *env, target_ulong addr,
--                                    TCGMemOpIdx oi, uintptr_t retaddr);
-+                                    MemOpIdx oi, uintptr_t retaddr);
- tcg_target_ulong helper_be_ldul_mmu(CPUArchState *env, target_ulong addr,
--                                    TCGMemOpIdx oi, uintptr_t retaddr);
-+                                    MemOpIdx oi, uintptr_t retaddr);
- uint64_t helper_be_ldq_mmu(CPUArchState *env, target_ulong addr,
--                           TCGMemOpIdx oi, uintptr_t retaddr);
-+                           MemOpIdx oi, uintptr_t retaddr);
- /* Value sign-extended to tcg register size.  */
- tcg_target_ulong helper_ret_ldsb_mmu(CPUArchState *env, target_ulong addr,
--                                     TCGMemOpIdx oi, uintptr_t retaddr);
-+                                     MemOpIdx oi, uintptr_t retaddr);
- tcg_target_ulong helper_le_ldsw_mmu(CPUArchState *env, target_ulong addr,
--                                    TCGMemOpIdx oi, uintptr_t retaddr);
-+                                    MemOpIdx oi, uintptr_t retaddr);
- tcg_target_ulong helper_le_ldsl_mmu(CPUArchState *env, target_ulong addr,
--                                    TCGMemOpIdx oi, uintptr_t retaddr);
-+                                    MemOpIdx oi, uintptr_t retaddr);
- tcg_target_ulong helper_be_ldsw_mmu(CPUArchState *env, target_ulong addr,
--                                    TCGMemOpIdx oi, uintptr_t retaddr);
-+                                    MemOpIdx oi, uintptr_t retaddr);
- tcg_target_ulong helper_be_ldsl_mmu(CPUArchState *env, target_ulong addr,
--                                    TCGMemOpIdx oi, uintptr_t retaddr);
-+                                    MemOpIdx oi, uintptr_t retaddr);
- void helper_ret_stb_mmu(CPUArchState *env, target_ulong addr, uint8_t val,
--                        TCGMemOpIdx oi, uintptr_t retaddr);
-+                        MemOpIdx oi, uintptr_t retaddr);
- void helper_le_stw_mmu(CPUArchState *env, target_ulong addr, uint16_t val,
--                       TCGMemOpIdx oi, uintptr_t retaddr);
-+                       MemOpIdx oi, uintptr_t retaddr);
- void helper_le_stl_mmu(CPUArchState *env, target_ulong addr, uint32_t val,
--                       TCGMemOpIdx oi, uintptr_t retaddr);
-+                       MemOpIdx oi, uintptr_t retaddr);
- void helper_le_stq_mmu(CPUArchState *env, target_ulong addr, uint64_t val,
--                       TCGMemOpIdx oi, uintptr_t retaddr);
-+                       MemOpIdx oi, uintptr_t retaddr);
- void helper_be_stw_mmu(CPUArchState *env, target_ulong addr, uint16_t val,
--                       TCGMemOpIdx oi, uintptr_t retaddr);
-+                       MemOpIdx oi, uintptr_t retaddr);
- void helper_be_stl_mmu(CPUArchState *env, target_ulong addr, uint32_t val,
--                       TCGMemOpIdx oi, uintptr_t retaddr);
-+                       MemOpIdx oi, uintptr_t retaddr);
- void helper_be_stq_mmu(CPUArchState *env, target_ulong addr, uint64_t val,
--                       TCGMemOpIdx oi, uintptr_t retaddr);
-+                       MemOpIdx oi, uintptr_t retaddr);
- /* Temporary aliases until backends are converted.  */
- #ifdef TARGET_WORDS_BIGENDIAN
-@@ -XXX,XX +XXX,XX @@ void helper_be_stq_mmu(CPUArchState *env, target_ulong addr, uint64_t val,
- uint32_t cpu_atomic_cmpxchgb_mmu(CPUArchState *env, target_ulong addr,
-                                  uint32_t cmpv, uint32_t newv,
--                                 TCGMemOpIdx oi, uintptr_t retaddr);
-+                                 MemOpIdx oi, uintptr_t retaddr);
- uint32_t cpu_atomic_cmpxchgw_le_mmu(CPUArchState *env, target_ulong addr,
-                                     uint32_t cmpv, uint32_t newv,
--                                    TCGMemOpIdx oi, uintptr_t retaddr);
-+                                    MemOpIdx oi, uintptr_t retaddr);
- uint32_t cpu_atomic_cmpxchgl_le_mmu(CPUArchState *env, target_ulong addr,
-                                     uint32_t cmpv, uint32_t newv,
--                                    TCGMemOpIdx oi, uintptr_t retaddr);
-+                                    MemOpIdx oi, uintptr_t retaddr);
- uint64_t cpu_atomic_cmpxchgq_le_mmu(CPUArchState *env, target_ulong addr,
-                                     uint64_t cmpv, uint64_t newv,
--                                    TCGMemOpIdx oi, uintptr_t retaddr);
-+                                    MemOpIdx oi, uintptr_t retaddr);
- uint32_t cpu_atomic_cmpxchgw_be_mmu(CPUArchState *env, target_ulong addr,
-                                     uint32_t cmpv, uint32_t newv,
--                                    TCGMemOpIdx oi, uintptr_t retaddr);
-+                                    MemOpIdx oi, uintptr_t retaddr);
- uint32_t cpu_atomic_cmpxchgl_be_mmu(CPUArchState *env, target_ulong addr,
-                                     uint32_t cmpv, uint32_t newv,
--                                    TCGMemOpIdx oi, uintptr_t retaddr);
-+                                    MemOpIdx oi, uintptr_t retaddr);
- uint64_t cpu_atomic_cmpxchgq_be_mmu(CPUArchState *env, target_ulong addr,
-                                     uint64_t cmpv, uint64_t newv,
--                                    TCGMemOpIdx oi, uintptr_t retaddr);
-+                                    MemOpIdx oi, uintptr_t retaddr);
- #define GEN_ATOMIC_HELPER(NAME, TYPE, SUFFIX)         \
- TYPE cpu_atomic_ ## NAME ## SUFFIX ## _mmu            \
-     (CPUArchState *env, target_ulong addr, TYPE val,  \
--     TCGMemOpIdx oi, uintptr_t retaddr);
-+     MemOpIdx oi, uintptr_t retaddr);
- #ifdef CONFIG_ATOMIC64
- #define GEN_ATOMIC_HELPER_ALL(NAME)          \
-@@ -XXX,XX +XXX,XX @@ GEN_ATOMIC_HELPER_ALL(xchg)
- Int128 cpu_atomic_cmpxchgo_le_mmu(CPUArchState *env, target_ulong addr,
-                                   Int128 cmpv, Int128 newv,
--                                  TCGMemOpIdx oi, uintptr_t retaddr);
-+                                  MemOpIdx oi, uintptr_t retaddr);
- Int128 cpu_atomic_cmpxchgo_be_mmu(CPUArchState *env, target_ulong addr,
-                                   Int128 cmpv, Int128 newv,
--                                  TCGMemOpIdx oi, uintptr_t retaddr);
-+                                  MemOpIdx oi, uintptr_t retaddr);
- Int128 cpu_atomic_ldo_le_mmu(CPUArchState *env, target_ulong addr,
--                             TCGMemOpIdx oi, uintptr_t retaddr);
-+                             MemOpIdx oi, uintptr_t retaddr);
- Int128 cpu_atomic_ldo_be_mmu(CPUArchState *env, target_ulong addr,
--                             TCGMemOpIdx oi, uintptr_t retaddr);
-+                             MemOpIdx oi, uintptr_t retaddr);
- void cpu_atomic_sto_le_mmu(CPUArchState *env, target_ulong addr, Int128 val,
--                           TCGMemOpIdx oi, uintptr_t retaddr);
-+                           MemOpIdx oi, uintptr_t retaddr);
- void cpu_atomic_sto_be_mmu(CPUArchState *env, target_ulong addr, Int128 val,
--                           TCGMemOpIdx oi, uintptr_t retaddr);
-+                           MemOpIdx oi, uintptr_t retaddr);
- #ifdef CONFIG_DEBUG_TCG
- void tcg_assert_listed_vecop(TCGOpcode);
-diff --git a/accel/tcg/cputlb.c b/accel/tcg/cputlb.c
-index XXXXXXX..XXXXXXX 100644
---- a/accel/tcg/cputlb.c
-+++ b/accel/tcg/cputlb.c
-@@ -XXX,XX +XXX,XX @@ bool tlb_plugin_lookup(CPUState *cpu, target_ulong addr, int mmu_idx,
-  * @prot may be PAGE_READ, PAGE_WRITE, or PAGE_READ|PAGE_WRITE.
-  */
- static void *atomic_mmu_lookup(CPUArchState *env, target_ulong addr,
--                               TCGMemOpIdx oi, int size, int prot,
-+                               MemOpIdx oi, int size, int prot,
-                                uintptr_t retaddr)
- {
-     size_t mmu_idx = get_mmuidx(oi);
-@@ -XXX,XX +XXX,XX @@ static void *atomic_mmu_lookup(CPUArchState *env, target_ulong addr,
-  */
- typedef uint64_t FullLoadHelper(CPUArchState *env, target_ulong addr,
--                                TCGMemOpIdx oi, uintptr_t retaddr);
-+                                MemOpIdx oi, uintptr_t retaddr);
- static inline uint64_t QEMU_ALWAYS_INLINE
- load_memop(const void *haddr, MemOp op)
-@@ -XXX,XX +XXX,XX @@ load_memop(const void *haddr, MemOp op)
- }
- static inline uint64_t QEMU_ALWAYS_INLINE
--load_helper(CPUArchState *env, target_ulong addr, TCGMemOpIdx oi,
-+load_helper(CPUArchState *env, target_ulong addr, MemOpIdx oi,
-             uintptr_t retaddr, MemOp op, bool code_read,
-             FullLoadHelper *full_load)
- {
-@@ -XXX,XX +XXX,XX @@ load_helper(CPUArchState *env, target_ulong addr, TCGMemOpIdx oi,
-  */
- static uint64_t full_ldub_mmu(CPUArchState *env, target_ulong addr,
--                              TCGMemOpIdx oi, uintptr_t retaddr)
-+                              MemOpIdx oi, uintptr_t retaddr)
- {
-     return load_helper(env, addr, oi, retaddr, MO_UB, false, full_ldub_mmu);
- }
- tcg_target_ulong helper_ret_ldub_mmu(CPUArchState *env, target_ulong addr,
--                                     TCGMemOpIdx oi, uintptr_t retaddr)
-+                                     MemOpIdx oi, uintptr_t retaddr)
- {
-     return full_ldub_mmu(env, addr, oi, retaddr);
- }
- static uint64_t full_le_lduw_mmu(CPUArchState *env, target_ulong addr,
--                                 TCGMemOpIdx oi, uintptr_t retaddr)
-+                                 MemOpIdx oi, uintptr_t retaddr)
- {
-     return load_helper(env, addr, oi, retaddr, MO_LEUW, false,
-                        full_le_lduw_mmu);
- }
- tcg_target_ulong helper_le_lduw_mmu(CPUArchState *env, target_ulong addr,
--                                    TCGMemOpIdx oi, uintptr_t retaddr)
-+                                    MemOpIdx oi, uintptr_t retaddr)
- {
-     return full_le_lduw_mmu(env, addr, oi, retaddr);
- }
- static uint64_t full_be_lduw_mmu(CPUArchState *env, target_ulong addr,
--                                 TCGMemOpIdx oi, uintptr_t retaddr)
-+                                 MemOpIdx oi, uintptr_t retaddr)
- {
-     return load_helper(env, addr, oi, retaddr, MO_BEUW, false,
-                        full_be_lduw_mmu);
- }
- tcg_target_ulong helper_be_lduw_mmu(CPUArchState *env, target_ulong addr,
--                                    TCGMemOpIdx oi, uintptr_t retaddr)
-+                                    MemOpIdx oi, uintptr_t retaddr)
- {
-     return full_be_lduw_mmu(env, addr, oi, retaddr);
- }
- static uint64_t full_le_ldul_mmu(CPUArchState *env, target_ulong addr,
--                                 TCGMemOpIdx oi, uintptr_t retaddr)
-+                                 MemOpIdx oi, uintptr_t retaddr)
- {
-     return load_helper(env, addr, oi, retaddr, MO_LEUL, false,
-                        full_le_ldul_mmu);
- }
- tcg_target_ulong helper_le_ldul_mmu(CPUArchState *env, target_ulong addr,
--                                    TCGMemOpIdx oi, uintptr_t retaddr)
-+                                    MemOpIdx oi, uintptr_t retaddr)
- {
-     return full_le_ldul_mmu(env, addr, oi, retaddr);
- }
- static uint64_t full_be_ldul_mmu(CPUArchState *env, target_ulong addr,
--                                 TCGMemOpIdx oi, uintptr_t retaddr)
-+                                 MemOpIdx oi, uintptr_t retaddr)
- {
-     return load_helper(env, addr, oi, retaddr, MO_BEUL, false,
-                        full_be_ldul_mmu);
- }
- tcg_target_ulong helper_be_ldul_mmu(CPUArchState *env, target_ulong addr,
--                                    TCGMemOpIdx oi, uintptr_t retaddr)
-+                                    MemOpIdx oi, uintptr_t retaddr)
- {
-     return full_be_ldul_mmu(env, addr, oi, retaddr);
- }
- uint64_t helper_le_ldq_mmu(CPUArchState *env, target_ulong addr,
--                           TCGMemOpIdx oi, uintptr_t retaddr)
-+                           MemOpIdx oi, uintptr_t retaddr)
- {
-     return load_helper(env, addr, oi, retaddr, MO_LEQ, false,
-                        helper_le_ldq_mmu);
- }
- uint64_t helper_be_ldq_mmu(CPUArchState *env, target_ulong addr,
--                           TCGMemOpIdx oi, uintptr_t retaddr)
-+                           MemOpIdx oi, uintptr_t retaddr)
- {
-     return load_helper(env, addr, oi, retaddr, MO_BEQ, false,
-                        helper_be_ldq_mmu);
-@@ -XXX,XX +XXX,XX @@ uint64_t helper_be_ldq_mmu(CPUArchState *env, target_ulong addr,
- tcg_target_ulong helper_ret_ldsb_mmu(CPUArchState *env, target_ulong addr,
--                                     TCGMemOpIdx oi, uintptr_t retaddr)
-+                                     MemOpIdx oi, uintptr_t retaddr)
- {
-     return (int8_t)helper_ret_ldub_mmu(env, addr, oi, retaddr);
- }
- tcg_target_ulong helper_le_ldsw_mmu(CPUArchState *env, target_ulong addr,
--                                    TCGMemOpIdx oi, uintptr_t retaddr)
-+                                    MemOpIdx oi, uintptr_t retaddr)
- {
-     return (int16_t)helper_le_lduw_mmu(env, addr, oi, retaddr);
- }
- tcg_target_ulong helper_be_ldsw_mmu(CPUArchState *env, target_ulong addr,
--                                    TCGMemOpIdx oi, uintptr_t retaddr)
-+                                    MemOpIdx oi, uintptr_t retaddr)
- {
-     return (int16_t)helper_be_lduw_mmu(env, addr, oi, retaddr);
- }
- tcg_target_ulong helper_le_ldsl_mmu(CPUArchState *env, target_ulong addr,
--                                    TCGMemOpIdx oi, uintptr_t retaddr)
-+                                    MemOpIdx oi, uintptr_t retaddr)
- {
-     return (int32_t)helper_le_ldul_mmu(env, addr, oi, retaddr);
- }
- tcg_target_ulong helper_be_ldsl_mmu(CPUArchState *env, target_ulong addr,
--                                    TCGMemOpIdx oi, uintptr_t retaddr)
-+                                    MemOpIdx oi, uintptr_t retaddr)
- {
-     return (int32_t)helper_be_ldul_mmu(env, addr, oi, retaddr);
- }
-@@ -XXX,XX +XXX,XX @@ static inline uint64_t cpu_load_helper(CPUArchState *env, abi_ptr addr,
-                                        MemOp op, FullLoadHelper *full_load)
- {
-     uint16_t meminfo;
--    TCGMemOpIdx oi;
-+    MemOpIdx oi;
-     uint64_t ret;
-     meminfo = trace_mem_get_info(op, mmu_idx, false);
-@@ -XXX,XX +XXX,XX @@ store_helper_unaligned(CPUArchState *env, target_ulong addr, uint64_t val,
-     uintptr_t index, index2;
-     CPUTLBEntry *entry, *entry2;
-     target_ulong page2, tlb_addr, tlb_addr2;
--    TCGMemOpIdx oi;
-+    MemOpIdx oi;
-     size_t size2;
-     int i;
-@@ -XXX,XX +XXX,XX @@ store_helper_unaligned(CPUArchState *env, target_ulong addr, uint64_t val,
- static inline void QEMU_ALWAYS_INLINE
- store_helper(CPUArchState *env, target_ulong addr, uint64_t val,
--             TCGMemOpIdx oi, uintptr_t retaddr, MemOp op)
-+             MemOpIdx oi, uintptr_t retaddr, MemOp op)
- {
-     uintptr_t mmu_idx = get_mmuidx(oi);
-     uintptr_t index = tlb_index(env, mmu_idx, addr);
-@@ -XXX,XX +XXX,XX @@ store_helper(CPUArchState *env, target_ulong addr, uint64_t val,
- void __attribute__((noinline))
- helper_ret_stb_mmu(CPUArchState *env, target_ulong addr, uint8_t val,
--                   TCGMemOpIdx oi, uintptr_t retaddr)
-+                   MemOpIdx oi, uintptr_t retaddr)
- {
-     store_helper(env, addr, val, oi, retaddr, MO_UB);
- }
- void helper_le_stw_mmu(CPUArchState *env, target_ulong addr, uint16_t val,
--                       TCGMemOpIdx oi, uintptr_t retaddr)
-+                       MemOpIdx oi, uintptr_t retaddr)
- {
-     store_helper(env, addr, val, oi, retaddr, MO_LEUW);
- }
- void helper_be_stw_mmu(CPUArchState *env, target_ulong addr, uint16_t val,
--                       TCGMemOpIdx oi, uintptr_t retaddr)
-+                       MemOpIdx oi, uintptr_t retaddr)
- {
-     store_helper(env, addr, val, oi, retaddr, MO_BEUW);
- }
- void helper_le_stl_mmu(CPUArchState *env, target_ulong addr, uint32_t val,
--                       TCGMemOpIdx oi, uintptr_t retaddr)
-+                       MemOpIdx oi, uintptr_t retaddr)
- {
-     store_helper(env, addr, val, oi, retaddr, MO_LEUL);
- }
- void helper_be_stl_mmu(CPUArchState *env, target_ulong addr, uint32_t val,
--                       TCGMemOpIdx oi, uintptr_t retaddr)
-+                       MemOpIdx oi, uintptr_t retaddr)
- {
-     store_helper(env, addr, val, oi, retaddr, MO_BEUL);
- }
- void helper_le_stq_mmu(CPUArchState *env, target_ulong addr, uint64_t val,
--                       TCGMemOpIdx oi, uintptr_t retaddr)
-+                       MemOpIdx oi, uintptr_t retaddr)
- {
-     store_helper(env, addr, val, oi, retaddr, MO_LEQ);
- }
- void helper_be_stq_mmu(CPUArchState *env, target_ulong addr, uint64_t val,
--                       TCGMemOpIdx oi, uintptr_t retaddr)
-+                       MemOpIdx oi, uintptr_t retaddr)
- {
-     store_helper(env, addr, val, oi, retaddr, MO_BEQ);
- }
-@@ -XXX,XX +XXX,XX @@ static inline void QEMU_ALWAYS_INLINE
- cpu_store_helper(CPUArchState *env, target_ulong addr, uint64_t val,
-                  int mmu_idx, uintptr_t retaddr, MemOp op)
- {
--    TCGMemOpIdx oi;
-+    MemOpIdx oi;
-     uint16_t meminfo;
-     meminfo = trace_mem_get_info(op, mmu_idx, true);
-@@ -XXX,XX +XXX,XX @@ void cpu_stq_le_data(CPUArchState *env, target_ulong ptr, uint64_t val)
- /* Code access functions.  */
- static uint64_t full_ldub_code(CPUArchState *env, target_ulong addr,
--                               TCGMemOpIdx oi, uintptr_t retaddr)
-+                               MemOpIdx oi, uintptr_t retaddr)
- {
-     return load_helper(env, addr, oi, retaddr, MO_8, true, full_ldub_code);
- }
- uint32_t cpu_ldub_code(CPUArchState *env, abi_ptr addr)
- {
--    TCGMemOpIdx oi = make_memop_idx(MO_UB, cpu_mmu_index(env, true));
-+    MemOpIdx oi = make_memop_idx(MO_UB, cpu_mmu_index(env, true));
-     return full_ldub_code(env, addr, oi, 0);
- }
- static uint64_t full_lduw_code(CPUArchState *env, target_ulong addr,
--                               TCGMemOpIdx oi, uintptr_t retaddr)
-+                               MemOpIdx oi, uintptr_t retaddr)
- {
-     return load_helper(env, addr, oi, retaddr, MO_TEUW, true, full_lduw_code);
- }
- uint32_t cpu_lduw_code(CPUArchState *env, abi_ptr addr)
- {
--    TCGMemOpIdx oi = make_memop_idx(MO_TEUW, cpu_mmu_index(env, true));
-+    MemOpIdx oi = make_memop_idx(MO_TEUW, cpu_mmu_index(env, true));
-     return full_lduw_code(env, addr, oi, 0);
- }
- static uint64_t full_ldl_code(CPUArchState *env, target_ulong addr,
--                              TCGMemOpIdx oi, uintptr_t retaddr)
-+                              MemOpIdx oi, uintptr_t retaddr)
- {
-     return load_helper(env, addr, oi, retaddr, MO_TEUL, true, full_ldl_code);
- }
- uint32_t cpu_ldl_code(CPUArchState *env, abi_ptr addr)
- {
--    TCGMemOpIdx oi = make_memop_idx(MO_TEUL, cpu_mmu_index(env, true));
-+    MemOpIdx oi = make_memop_idx(MO_TEUL, cpu_mmu_index(env, true));
-     return full_ldl_code(env, addr, oi, 0);
- }
- static uint64_t full_ldq_code(CPUArchState *env, target_ulong addr,
--                              TCGMemOpIdx oi, uintptr_t retaddr)
-+                              MemOpIdx oi, uintptr_t retaddr)
- {
-     return load_helper(env, addr, oi, retaddr, MO_TEQ, true, full_ldq_code);
- }
- uint64_t cpu_ldq_code(CPUArchState *env, abi_ptr addr)
- {
--    TCGMemOpIdx oi = make_memop_idx(MO_TEQ, cpu_mmu_index(env, true));
-+    MemOpIdx oi = make_memop_idx(MO_TEQ, cpu_mmu_index(env, true));
-     return full_ldq_code(env, addr, oi, 0);
- }
-diff --git a/accel/tcg/user-exec.c b/accel/tcg/user-exec.c
-index XXXXXXX..XXXXXXX 100644
---- a/accel/tcg/user-exec.c
-+++ b/accel/tcg/user-exec.c
-@@ -XXX,XX +XXX,XX @@ uint64_t cpu_ldq_code(CPUArchState *env, abi_ptr ptr)
-  * @prot may be PAGE_READ, PAGE_WRITE, or PAGE_READ|PAGE_WRITE.
-  */
- static void *atomic_mmu_lookup(CPUArchState *env, target_ulong addr,
--                               TCGMemOpIdx oi, int size, int prot,
-+                               MemOpIdx oi, int size, int prot,
-                                uintptr_t retaddr)
- {
-     /* Enforce qemu required alignment.  */
-diff --git a/target/arm/helper-a64.c b/target/arm/helper-a64.c
-index XXXXXXX..XXXXXXX 100644
---- a/target/arm/helper-a64.c
-+++ b/target/arm/helper-a64.c
-@@ -XXX,XX +XXX,XX @@ uint64_t HELPER(paired_cmpxchg64_le)(CPUARMState *env, uint64_t addr,
-     clear_helper_retaddr();
- #else
-     int mem_idx = cpu_mmu_index(env, false);
--    TCGMemOpIdx oi0 = make_memop_idx(MO_LEQ | MO_ALIGN_16, mem_idx);
--    TCGMemOpIdx oi1 = make_memop_idx(MO_LEQ, mem_idx);
-+    MemOpIdx oi0 = make_memop_idx(MO_LEQ | MO_ALIGN_16, mem_idx);
-+    MemOpIdx oi1 = make_memop_idx(MO_LEQ, mem_idx);
-     o0 = helper_le_ldq_mmu(env, addr + 0, oi0, ra);
-     o1 = helper_le_ldq_mmu(env, addr + 8, oi1, ra);
-@@ -XXX,XX +XXX,XX @@ uint64_t HELPER(paired_cmpxchg64_le_parallel)(CPUARMState *env, uint64_t addr,
-     uintptr_t ra = GETPC();
-     bool success;
-     int mem_idx;
--    TCGMemOpIdx oi;
-+    MemOpIdx oi;
-     assert(HAVE_CMPXCHG128);
-@@ -XXX,XX +XXX,XX @@ uint64_t HELPER(paired_cmpxchg64_be)(CPUARMState *env, uint64_t addr,
-     clear_helper_retaddr();
- #else
-     int mem_idx = cpu_mmu_index(env, false);
--    TCGMemOpIdx oi0 = make_memop_idx(MO_BEQ | MO_ALIGN_16, mem_idx);
--    TCGMemOpIdx oi1 = make_memop_idx(MO_BEQ, mem_idx);
-+    MemOpIdx oi0 = make_memop_idx(MO_BEQ | MO_ALIGN_16, mem_idx);
-+    MemOpIdx oi1 = make_memop_idx(MO_BEQ, mem_idx);
-     o1 = helper_be_ldq_mmu(env, addr + 0, oi0, ra);
-     o0 = helper_be_ldq_mmu(env, addr + 8, oi1, ra);
-@@ -XXX,XX +XXX,XX @@ uint64_t HELPER(paired_cmpxchg64_be_parallel)(CPUARMState *env, uint64_t addr,
-     uintptr_t ra = GETPC();
-     bool success;
-     int mem_idx;
--    TCGMemOpIdx oi;
-+    MemOpIdx oi;
-     assert(HAVE_CMPXCHG128);
-@@ -XXX,XX +XXX,XX @@ void HELPER(casp_le_parallel)(CPUARMState *env, uint32_t rs, uint64_t addr,
-     Int128 oldv, cmpv, newv;
-     uintptr_t ra = GETPC();
-     int mem_idx;
--    TCGMemOpIdx oi;
-+    MemOpIdx oi;
-     assert(HAVE_CMPXCHG128);
-@@ -XXX,XX +XXX,XX @@ void HELPER(casp_be_parallel)(CPUARMState *env, uint32_t rs, uint64_t addr,
-     Int128 oldv, cmpv, newv;
-     uintptr_t ra = GETPC();
-     int mem_idx;
--    TCGMemOpIdx oi;
-+    MemOpIdx oi;
-     assert(HAVE_CMPXCHG128);
-diff --git a/target/arm/m_helper.c b/target/arm/m_helper.c
-index XXXXXXX..XXXXXXX 100644
---- a/target/arm/m_helper.c
-+++ b/target/arm/m_helper.c
-@@ -XXX,XX +XXX,XX @@ static bool do_v7m_function_return(ARMCPU *cpu)
-     {
-         bool threadmode, spsel;
--        TCGMemOpIdx oi;
-+        MemOpIdx oi;
-         ARMMMUIdx mmu_idx;
-         uint32_t *frame_sp_p;
-         uint32_t frameptr;
-diff --git a/target/i386/tcg/mem_helper.c b/target/i386/tcg/mem_helper.c
-index XXXXXXX..XXXXXXX 100644
---- a/target/i386/tcg/mem_helper.c
-+++ b/target/i386/tcg/mem_helper.c
-@@ -XXX,XX +XXX,XX @@ void helper_cmpxchg8b(CPUX86State *env, target_ulong a0)
-     {
-         uintptr_t ra = GETPC();
-         int mem_idx = cpu_mmu_index(env, false);
--        TCGMemOpIdx oi = make_memop_idx(MO_TEQ, mem_idx);
-+        MemOpIdx oi = make_memop_idx(MO_TEQ, mem_idx);
-         oldv = cpu_atomic_cmpxchgq_le_mmu(env, a0, cmpv, newv, oi, ra);
-     }
-@@ -XXX,XX +XXX,XX @@ void helper_cmpxchg16b(CPUX86State *env, target_ulong a0)
-         Int128 newv = int128_make128(env->regs[R_EBX], env->regs[R_ECX]);
-         int mem_idx = cpu_mmu_index(env, false);
--        TCGMemOpIdx oi = make_memop_idx(MO_TEQ | MO_ALIGN_16, mem_idx);
-+        MemOpIdx oi = make_memop_idx(MO_TEQ | MO_ALIGN_16, mem_idx);
-         Int128 oldv = cpu_atomic_cmpxchgo_le_mmu(env, a0, cmpv, newv, oi, ra);
-         if (int128_eq(oldv, cmpv)) {
-diff --git a/target/m68k/op_helper.c b/target/m68k/op_helper.c
-index XXXXXXX..XXXXXXX 100644
---- a/target/m68k/op_helper.c
-+++ b/target/m68k/op_helper.c
-@@ -XXX,XX +XXX,XX @@ static void do_cas2l(CPUM68KState *env, uint32_t regs, uint32_t a1, uint32_t a2,
-     uintptr_t ra = GETPC();
- #if defined(CONFIG_ATOMIC64)
-     int mmu_idx = cpu_mmu_index(env, 0);
--    TCGMemOpIdx oi = make_memop_idx(MO_BEQ, mmu_idx);
-+    MemOpIdx oi = make_memop_idx(MO_BEQ, mmu_idx);
- #endif
-     if (parallel) {
-diff --git a/target/mips/tcg/msa_helper.c b/target/mips/tcg/msa_helper.c
-index XXXXXXX..XXXXXXX 100644
---- a/target/mips/tcg/msa_helper.c
-+++ b/target/mips/tcg/msa_helper.c
-@@ -XXX,XX +XXX,XX @@ void helper_msa_ffint_u_df(CPUMIPSState *env, uint32_t df, uint32_t wd,
- #define DF_ELEMENTS(df) (MSA_WRLEN / DF_BITS(df))
- #if !defined(CONFIG_USER_ONLY)
--#define MEMOP_IDX(DF)                                           \
--        TCGMemOpIdx oi = make_memop_idx(MO_TE | DF | MO_UNALN,  \
--                                        cpu_mmu_index(env, false));
-+#define MEMOP_IDX(DF)                                                   \
-+    MemOpIdx oi = make_memop_idx(MO_TE | DF | MO_UNALN,                 \
-+                                 cpu_mmu_index(env, false));
- #else
- #define MEMOP_IDX(DF)
- #endif
-diff --git a/target/s390x/tcg/mem_helper.c b/target/s390x/tcg/mem_helper.c
-index XXXXXXX..XXXXXXX 100644
---- a/target/s390x/tcg/mem_helper.c
-+++ b/target/s390x/tcg/mem_helper.c
-@@ -XXX,XX +XXX,XX @@ static void do_access_memset(CPUS390XState *env, vaddr vaddr, char *haddr,
-     g_assert(haddr);
-     memset(haddr, byte, size);
- #else
--    TCGMemOpIdx oi = make_memop_idx(MO_UB, mmu_idx);
-+    MemOpIdx oi = make_memop_idx(MO_UB, mmu_idx);
-     int i;
-     if (likely(haddr)) {
-@@ -XXX,XX +XXX,XX @@ static uint8_t do_access_get_byte(CPUS390XState *env, vaddr vaddr, char **haddr,
- #ifdef CONFIG_USER_ONLY
-     return ldub_p(*haddr + offset);
- #else
--    TCGMemOpIdx oi = make_memop_idx(MO_UB, mmu_idx);
-+    MemOpIdx oi = make_memop_idx(MO_UB, mmu_idx);
-     uint8_t byte;
-     if (likely(*haddr)) {
-@@ -XXX,XX +XXX,XX @@ static void do_access_set_byte(CPUS390XState *env, vaddr vaddr, char **haddr,
- #ifdef CONFIG_USER_ONLY
-     stb_p(*haddr + offset, byte);
- #else
--    TCGMemOpIdx oi = make_memop_idx(MO_UB, mmu_idx);
-+    MemOpIdx oi = make_memop_idx(MO_UB, mmu_idx);
-     if (likely(*haddr)) {
-         stb_p(*haddr + offset, byte);
-@@ -XXX,XX +XXX,XX @@ void HELPER(cdsg_parallel)(CPUS390XState *env, uint64_t addr,
-     Int128 cmpv = int128_make128(env->regs[r1 + 1], env->regs[r1]);
-     Int128 newv = int128_make128(env->regs[r3 + 1], env->regs[r3]);
-     int mem_idx;
--    TCGMemOpIdx oi;
-+    MemOpIdx oi;
-     Int128 oldv;
-     bool fail;
-@@ -XXX,XX +XXX,XX @@ static uint32_t do_csst(CPUS390XState *env, uint32_t r3, uint64_t a1,
-                 uint32_t *haddr = g2h(env_cpu(env), a1);
-                 ov = qatomic_cmpxchg__nocheck(haddr, cv, nv);
- #else
--                TCGMemOpIdx oi = make_memop_idx(MO_TEUL | MO_ALIGN, mem_idx);
-+                MemOpIdx oi = make_memop_idx(MO_TEUL | MO_ALIGN, mem_idx);
-                 ov = cpu_atomic_cmpxchgl_be_mmu(env, a1, cv, nv, oi, ra);
- #endif
-             } else {
-@@ -XXX,XX +XXX,XX @@ static uint32_t do_csst(CPUS390XState *env, uint32_t r3, uint64_t a1,
-             if (parallel) {
- #ifdef CONFIG_ATOMIC64
--                TCGMemOpIdx oi = make_memop_idx(MO_TEQ | MO_ALIGN, mem_idx);
-+                MemOpIdx oi = make_memop_idx(MO_TEQ | MO_ALIGN, mem_idx);
-                 ov = cpu_atomic_cmpxchgq_be_mmu(env, a1, cv, nv, oi, ra);
- #else
-                 /* Note that we asserted !parallel above.  */
-@@ -XXX,XX +XXX,XX @@ static uint32_t do_csst(CPUS390XState *env, uint32_t r3, uint64_t a1,
-                 cpu_stq_data_ra(env, a1 + 0, int128_gethi(nv), ra);
-                 cpu_stq_data_ra(env, a1 + 8, int128_getlo(nv), ra);
-             } else if (HAVE_CMPXCHG128) {
--                TCGMemOpIdx oi = make_memop_idx(MO_TEQ | MO_ALIGN_16, mem_idx);
-+                MemOpIdx oi = make_memop_idx(MO_TEQ | MO_ALIGN_16, mem_idx);
-                 ov = cpu_atomic_cmpxchgo_be_mmu(env, a1, cv, nv, oi, ra);
-                 cc = !int128_eq(ov, cv);
-             } else {
-@@ -XXX,XX +XXX,XX @@ static uint32_t do_csst(CPUS390XState *env, uint32_t r3, uint64_t a1,
-                 cpu_stq_data_ra(env, a2 + 0, svh, ra);
-                 cpu_stq_data_ra(env, a2 + 8, svl, ra);
-             } else if (HAVE_ATOMIC128) {
--                TCGMemOpIdx oi = make_memop_idx(MO_TEQ | MO_ALIGN_16, mem_idx);
-+                MemOpIdx oi = make_memop_idx(MO_TEQ | MO_ALIGN_16, mem_idx);
-                 Int128 sv = int128_make128(svl, svh);
-                 cpu_atomic_sto_be_mmu(env, a2, sv, oi, ra);
-             } else {
-@@ -XXX,XX +XXX,XX @@ uint64_t HELPER(lpq_parallel)(CPUS390XState *env, uint64_t addr)
-     uintptr_t ra = GETPC();
-     uint64_t hi, lo;
-     int mem_idx;
--    TCGMemOpIdx oi;
-+    MemOpIdx oi;
-     Int128 v;
-     assert(HAVE_ATOMIC128);
-@@ -XXX,XX +XXX,XX @@ void HELPER(stpq_parallel)(CPUS390XState *env, uint64_t addr,
- {
-     uintptr_t ra = GETPC();
-     int mem_idx;
--    TCGMemOpIdx oi;
-+    MemOpIdx oi;
-     Int128 v;
-     assert(HAVE_ATOMIC128);
-diff --git a/target/sparc/ldst_helper.c b/target/sparc/ldst_helper.c
-index XXXXXXX..XXXXXXX 100644
---- a/target/sparc/ldst_helper.c
-+++ b/target/sparc/ldst_helper.c
-@@ -XXX,XX +XXX,XX @@ uint64_t helper_ld_asi(CPUSPARCState *env, target_ulong addr,
-     case ASI_SNF:
-     case ASI_SNFL:
-         {
--            TCGMemOpIdx oi;
-+            MemOpIdx oi;
-             int idx = (env->pstate & PS_PRIV
-                        ? (asi & 1 ? MMU_KERNEL_SECONDARY_IDX : MMU_KERNEL_IDX)
-                        : (asi & 1 ? MMU_USER_SECONDARY_IDX : MMU_USER_IDX));
 diff --git a/tcg/optimize.c b/tcg/optimize.c
 index XXXXXXX..XXXXXXX 100644
 --- a/tcg/optimize.c
 +++ b/tcg/optimize.c
-@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
+@@ -XXX,XX +XXX,XX @@ static void finish_ebb(OptContext *ctx)
+     remove_mem_copy_all(ctx);
-         CASE_OP_32_64(qemu_ld):
+ }
-             {
--                TCGMemOpIdx oi = op->args[nb_oargs + nb_iargs];
+-static void finish_folding(OptContext *ctx, TCGOp *op)
-+                MemOpIdx oi = op->args[nb_oargs + nb_iargs];
++static bool finish_folding(OptContext *ctx, TCGOp *op)
                  MemOp mop = get_memop(oi);
                  if (!(mop & MO_SIGN)) {
                      mask = (2ULL << ((8 << (mop & MO_SIZE)) - 1)) - 1;
 diff --git a/tcg/tcg-op.c b/tcg/tcg-op.c
 index XXXXXXX..XXXXXXX 100644
 --- a/tcg/tcg-op.c
 +++ b/tcg/tcg-op.c
@@ -XXX,XX +XXX,XX @@ static inline MemOp tcg_canonicalize_memop(MemOp op, bool is64, bool st)
  static void gen_ldst_i32(TCGOpcode opc, TCGv_i32 val, TCGv addr,
                           MemOp memop, TCGArg idx)
  {
--    TCGMemOpIdx oi = make_memop_idx(memop, idx);
+     const TCGOpDef *def = &tcg_op_defs[op->opc];
-+    MemOpIdx oi = make_memop_idx(memop, idx);
+     int i, nb_oargs;
- #if TARGET_LONG_BITS == 32
+@@ -XXX,XX +XXX,XX @@ static void finish_folding(OptContext *ctx, TCGOp *op)
-     tcg_gen_op3i_i32(opc, val, addr, oi);
+             ts_info(ts)->z_mask = ctx->z_mask;
- #else
+         }
-@@ -XXX,XX +XXX,XX @@ static void gen_ldst_i32(TCGOpcode opc, TCGv_i32 val, TCGv addr,
+     }
- static void gen_ldst_i64(TCGOpcode opc, TCGv_i64 val, TCGv addr,
++    return true;
                           MemOp memop, TCGArg idx)
  {
 -    TCGMemOpIdx oi = make_memop_idx(memop, idx);
 +    MemOpIdx oi = make_memop_idx(memop, idx);
  #if TARGET_LONG_BITS == 32
      if (TCG_TARGET_REG_BITS == 32) {
          tcg_gen_op4i_i32(opc, TCGV_LOW(val), TCGV_HIGH(val), addr, oi);
@@ -XXX,XX +XXX,XX @@ void tcg_gen_atomic_cmpxchg_i32(TCGv_i32 retv, TCGv addr, TCGv_i32 cmpv,
          tcg_temp_free_i32(t1);
      } else {
          gen_atomic_cx_i32 gen;
 -        TCGMemOpIdx oi;
 +        MemOpIdx oi;
          gen = table_cmpxchg[memop & (MO_SIZE | MO_BSWAP)];
          tcg_debug_assert(gen != NULL);
@@ -XXX,XX +XXX,XX @@ void tcg_gen_atomic_cmpxchg_i64(TCGv_i64 retv, TCGv addr, TCGv_i64 cmpv,
      } else if ((memop & MO_SIZE) == MO_64) {
  #ifdef CONFIG_ATOMIC64
          gen_atomic_cx_i64 gen;
 -        TCGMemOpIdx oi;
 +        MemOpIdx oi;
          gen = table_cmpxchg[memop & (MO_SIZE | MO_BSWAP)];
          tcg_debug_assert(gen != NULL);
@@ -XXX,XX +XXX,XX @@ static void do_atomic_op_i32(TCGv_i32 ret, TCGv addr, TCGv_i32 val,
                               TCGArg idx, MemOp memop, void * const table[])
  {
      gen_atomic_op_i32 gen;
 -    TCGMemOpIdx oi;
 +    MemOpIdx oi;
      memop = tcg_canonicalize_memop(memop, 0, 0);
@@ -XXX,XX +XXX,XX @@ static void do_atomic_op_i64(TCGv_i64 ret, TCGv addr, TCGv_i64 val,
      if ((memop & MO_SIZE) == MO_64) {
  #ifdef CONFIG_ATOMIC64
          gen_atomic_op_i64 gen;
 -        TCGMemOpIdx oi;
 +        MemOpIdx oi;
          gen = table[memop & (MO_SIZE | MO_BSWAP)];
          tcg_debug_assert(gen != NULL);
 diff --git a/tcg/tcg.c b/tcg/tcg.c
 index XXXXXXX..XXXXXXX 100644
 --- a/tcg/tcg.c
 +++ b/tcg/tcg.c
@@ -XXX,XX +XXX,XX @@ static void tcg_dump_ops(TCGContext *s, bool have_prefs)
              case INDEX_op_qemu_ld_i64:
              case INDEX_op_qemu_st_i64:
                  {
 -                    TCGMemOpIdx oi = op->args[k++];
 +                    MemOpIdx oi = op->args[k++];
                      MemOp op = get_memop(oi);
                      unsigned ix = get_mmuidx(oi);
 diff --git a/tcg/tci.c b/tcg/tci.c
 index XXXXXXX..XXXXXXX 100644
 --- a/tcg/tci.c
 +++ b/tcg/tci.c
@@ -XXX,XX +XXX,XX @@ static uint64_t tci_uint64(uint32_t high, uint32_t low)
   *   i = immediate (uint32_t)
   *   I = immediate (tcg_target_ulong)
   *   l = label or pointer
 - *   m = immediate (TCGMemOpIdx)
 + *   m = immediate (MemOpIdx)
   *   n = immediate (call return length)
   *   r = register
   *   s = signed ldst offset
@@ -XXX,XX +XXX,XX @@ static void tci_args_ri(uint32_t insn, TCGReg *r0, tcg_target_ulong *i1)
  }
- static void tci_args_rrm(uint32_t insn, TCGReg *r0,
+ /*
--                         TCGReg *r1, TCGMemOpIdx *m2)
+@@ -XXX,XX +XXX,XX @@ static bool fold_add(OptContext *ctx, TCGOp *op)
-+                         TCGReg *r1, MemOpIdx *m2)
+         fold_xi_to_x(ctx, op, 0)) {
- {
+         return true;
-     *r0 = extract32(insn, 8, 4);
+     }
-     *r1 = extract32(insn, 12, 4);
+-    return false;
-@@ -XXX,XX +XXX,XX @@ static void tci_args_rrrc(uint32_t insn,
++    return finish_folding(ctx, op);
  }
- static void tci_args_rrrm(uint32_t insn,
+ /* We cannot as yet do_constant_folding with vectors. */
--                          TCGReg *r0, TCGReg *r1, TCGReg *r2, TCGMemOpIdx *m3)
+@@ -XXX,XX +XXX,XX @@ static bool fold_add_vec(OptContext *ctx, TCGOp *op)
-+                          TCGReg *r0, TCGReg *r1, TCGReg *r2, MemOpIdx *m3)
+         fold_xi_to_x(ctx, op, 0)) {
- {
+         return true;
-     *r0 = extract32(insn, 8, 4);
+     }
-     *r1 = extract32(insn, 12, 4);
+-    return false;
-@@ -XXX,XX +XXX,XX @@ static bool tci_compare64(uint64_t u0, uint64_t u1, TCGCond condition)
++    return finish_folding(ctx, op);
  }
- static uint64_t tci_qemu_ld(CPUArchState *env, target_ulong taddr,
+ static bool fold_addsub2(OptContext *ctx, TCGOp *op, bool add)
--                            TCGMemOpIdx oi, const void *tb_ptr)
+@@ -XXX,XX +XXX,XX @@ static bool fold_addsub2(OptContext *ctx, TCGOp *op, bool add)
-+                            MemOpIdx oi, const void *tb_ptr)
+         op->args[4] = arg_new_constant(ctx, bl);
- {
+         op->args[5] = arg_new_constant(ctx, bh);
-     MemOp mop = get_memop(oi) & (MO_BSWAP | MO_SSIZE);
+     }
-     uintptr_t ra = (uintptr_t)tb_ptr;
+-    return false;
-@@ -XXX,XX +XXX,XX @@ static uint64_t tci_qemu_ld(CPUArchState *env, target_ulong taddr,
++    return finish_folding(ctx, op);
  }
- static void tci_qemu_st(CPUArchState *env, target_ulong taddr, uint64_t val,
+ static bool fold_add2(OptContext *ctx, TCGOp *op)
 -                        TCGMemOpIdx oi, const void *tb_ptr)
 +                        MemOpIdx oi, const void *tb_ptr)
  {
      MemOp mop = get_memop(oi) & (MO_BSWAP | MO_SSIZE);
      uintptr_t ra = (uintptr_t)tb_ptr;
@@ -XXX,XX +XXX,XX @@ uintptr_t QEMU_DISABLE_CFI tcg_qemu_tb_exec(CPUArchState *env,
          uint32_t tmp32;
          uint64_t tmp64;
          uint64_t T1, T2;
 -        TCGMemOpIdx oi;
 +        MemOpIdx oi;
          int32_t ofs;
          void *ptr;
@@ -XXX,XX +XXX,XX @@ int print_insn_tci(bfd_vma addr, disassemble_info *info)
      tcg_target_ulong i1;
      int32_t s2;
      TCGCond c;
 -    TCGMemOpIdx oi;
 +    MemOpIdx oi;
      uint8_t pos, len;
      void *ptr;
 diff --git a/accel/tcg/atomic_common.c.inc b/accel/tcg/atomic_common.c.inc
 index XXXXXXX..XXXXXXX 100644
 --- a/accel/tcg/atomic_common.c.inc
 +++ b/accel/tcg/atomic_common.c.inc
@@ -XXX,XX +XXX,XX @@
   */
  static uint16_t atomic_trace_rmw_pre(CPUArchState *env, target_ulong addr,
 -                                     TCGMemOpIdx oi)
 +                                     MemOpIdx oi)
  {
      CPUState *cpu = env_cpu(env);
      uint16_t info = trace_mem_get_info(get_memop(oi), get_mmuidx(oi), false);
@@ -XXX,XX +XXX,XX @@ static void atomic_trace_rmw_post(CPUArchState *env, target_ulong addr,
  #if HAVE_ATOMIC128
  static uint16_t atomic_trace_ld_pre(CPUArchState *env, target_ulong addr,
 -                                    TCGMemOpIdx oi)
 +                                    MemOpIdx oi)
  {
      uint16_t info = trace_mem_get_info(get_memop(oi), get_mmuidx(oi), false);
@@ -XXX,XX +XXX,XX @@ static void atomic_trace_ld_post(CPUArchState *env, target_ulong addr,
  }
  static uint16_t atomic_trace_st_pre(CPUArchState *env, target_ulong addr,
 -                                    TCGMemOpIdx oi)
 +                                    MemOpIdx oi)
  {
      uint16_t info = trace_mem_get_info(get_memop(oi), get_mmuidx(oi), true);
 diff --git a/tcg/aarch64/tcg-target.c.inc b/tcg/aarch64/tcg-target.c.inc
 index XXXXXXX..XXXXXXX 100644
 --- a/tcg/aarch64/tcg-target.c.inc
 +++ b/tcg/aarch64/tcg-target.c.inc
@@ -XXX,XX +XXX,XX @@ static void tcg_out_cltz(TCGContext *s, TCGType ext, TCGReg d,
  #include "../tcg-ldst.c.inc"
  /* helper signature: helper_ret_ld_mmu(CPUState *env, target_ulong addr,
 - *                                     TCGMemOpIdx oi, uintptr_t ra)
 + *                                     MemOpIdx oi, uintptr_t ra)
   */
  static void * const qemu_ld_helpers[MO_SIZE + 1] = {
      [MO_8]  = helper_ret_ldub_mmu,
@@ -XXX,XX +XXX,XX @@ static void * const qemu_ld_helpers[MO_SIZE + 1] = {
  };
  /* helper signature: helper_ret_st_mmu(CPUState *env, target_ulong addr,
 - *                                     uintxx_t val, TCGMemOpIdx oi,
 + *                                     uintxx_t val, MemOpIdx oi,
   *                                     uintptr_t ra)
   */
  static void * const qemu_st_helpers[MO_SIZE + 1] = {
@@ -XXX,XX +XXX,XX @@ static inline void tcg_out_adr(TCGContext *s, TCGReg rd, const void *target)
  static bool tcg_out_qemu_ld_slow_path(TCGContext *s, TCGLabelQemuLdst *lb)
  {
 -    TCGMemOpIdx oi = lb->oi;
 +    MemOpIdx oi = lb->oi;
      MemOp opc = get_memop(oi);
      MemOp size = opc & MO_SIZE;
@@ -XXX,XX +XXX,XX @@ static bool tcg_out_qemu_ld_slow_path(TCGContext *s, TCGLabelQemuLdst *lb)
  static bool tcg_out_qemu_st_slow_path(TCGContext *s, TCGLabelQemuLdst *lb)
  {
 -    TCGMemOpIdx oi = lb->oi;
 +    MemOpIdx oi = lb->oi;
      MemOp opc = get_memop(oi);
      MemOp size = opc & MO_SIZE;
@@ -XXX,XX +XXX,XX @@ static bool tcg_out_qemu_st_slow_path(TCGContext *s, TCGLabelQemuLdst *lb)
      return true;
  }
 -static void add_qemu_ldst_label(TCGContext *s, bool is_ld, TCGMemOpIdx oi,
 +static void add_qemu_ldst_label(TCGContext *s, bool is_ld, MemOpIdx oi,
                                  TCGType ext, TCGReg data_reg, TCGReg addr_reg,
                                  tcg_insn_unit *raddr, tcg_insn_unit *label_ptr)
  {
@@ -XXX,XX +XXX,XX @@ static void tcg_out_qemu_st_direct(TCGContext *s, MemOp memop,
  }
  static void tcg_out_qemu_ld(TCGContext *s, TCGReg data_reg, TCGReg addr_reg,
 -                            TCGMemOpIdx oi, TCGType ext)
 +                            MemOpIdx oi, TCGType ext)
  {
      MemOp memop = get_memop(oi);
      const TCGType otype = TARGET_LONG_BITS == 64 ? TCG_TYPE_I64 : TCG_TYPE_I32;
@@ -XXX,XX +XXX,XX @@ static void tcg_out_qemu_ld(TCGContext *s, TCGReg data_reg, TCGReg addr_reg,
  }
  static void tcg_out_qemu_st(TCGContext *s, TCGReg data_reg, TCGReg addr_reg,
 -                            TCGMemOpIdx oi)
 +                            MemOpIdx oi)
  {
      MemOp memop = get_memop(oi);
      const TCGType otype = TARGET_LONG_BITS == 64 ? TCG_TYPE_I64 : TCG_TYPE_I32;
 diff --git a/tcg/arm/tcg-target.c.inc b/tcg/arm/tcg-target.c.inc
 index XXXXXXX..XXXXXXX 100644
 --- a/tcg/arm/tcg-target.c.inc
 +++ b/tcg/arm/tcg-target.c.inc
@@ -XXX,XX +XXX,XX @@ static TCGReg tcg_out_tlb_read(TCGContext *s, TCGReg addrlo, TCGReg addrhi,
  /* Record the context of a call to the out of line helper code for the slow
     path for a load or store, so that we can later generate the correct
     helper code.  */
 -static void add_qemu_ldst_label(TCGContext *s, bool is_ld, TCGMemOpIdx oi,
 +static void add_qemu_ldst_label(TCGContext *s, bool is_ld, MemOpIdx oi,
                                  TCGReg datalo, TCGReg datahi, TCGReg addrlo,
                                  TCGReg addrhi, tcg_insn_unit *raddr,
                                  tcg_insn_unit *label_ptr)
@@ -XXX,XX +XXX,XX @@ static void add_qemu_ldst_label(TCGContext *s, bool is_ld, TCGMemOpIdx oi,
  static bool tcg_out_qemu_ld_slow_path(TCGContext *s, TCGLabelQemuLdst *lb)
  {
      TCGReg argreg, datalo, datahi;
 -    TCGMemOpIdx oi = lb->oi;
 +    MemOpIdx oi = lb->oi;
      MemOp opc = get_memop(oi);
      void *func;
@@ -XXX,XX +XXX,XX @@ static bool tcg_out_qemu_ld_slow_path(TCGContext *s, TCGLabelQemuLdst *lb)
  static bool tcg_out_qemu_st_slow_path(TCGContext *s, TCGLabelQemuLdst *lb)
  {
      TCGReg argreg, datalo, datahi;
 -    TCGMemOpIdx oi = lb->oi;
 +    MemOpIdx oi = lb->oi;
      MemOp opc = get_memop(oi);
      if (!reloc_pc24(lb->label_ptr[0], tcg_splitwx_to_rx(s->code_ptr))) {
@@ -XXX,XX +XXX,XX @@ static void tcg_out_qemu_ld_direct(TCGContext *s, MemOp opc, TCGReg datalo,
  static void tcg_out_qemu_ld(TCGContext *s, const TCGArg *args, bool is64)
  {
      TCGReg addrlo, datalo, datahi, addrhi __attribute__((unused));
 -    TCGMemOpIdx oi;
 +    MemOpIdx oi;
      MemOp opc;
  #ifdef CONFIG_SOFTMMU
      int mem_index;
@@ -XXX,XX +XXX,XX @@ static void tcg_out_qemu_st_direct(TCGContext *s, MemOp opc, TCGReg datalo,
  static void tcg_out_qemu_st(TCGContext *s, const TCGArg *args, bool is64)
  {
      TCGReg addrlo, datalo, datahi, addrhi __attribute__((unused));
 -    TCGMemOpIdx oi;
 +    MemOpIdx oi;
      MemOp opc;
  #ifdef CONFIG_SOFTMMU
      int mem_index;
 diff --git a/tcg/i386/tcg-target.c.inc b/tcg/i386/tcg-target.c.inc
 index XXXXXXX..XXXXXXX 100644
 --- a/tcg/i386/tcg-target.c.inc
 +++ b/tcg/i386/tcg-target.c.inc
@@ -XXX,XX +XXX,XX @@ static inline void tcg_out_tlb_load(TCGContext *s, TCGReg addrlo, TCGReg addrhi,
   * for a load or store, so that we can later generate the correct helper code
   */
  static void add_qemu_ldst_label(TCGContext *s, bool is_ld, bool is_64,
 -                                TCGMemOpIdx oi,
 +                                MemOpIdx oi,
                                  TCGReg datalo, TCGReg datahi,
                                  TCGReg addrlo, TCGReg addrhi,
                                  tcg_insn_unit *raddr,
@@ -XXX,XX +XXX,XX @@ static void add_qemu_ldst_label(TCGContext *s, bool is_ld, bool is_64,
   */
  static bool tcg_out_qemu_ld_slow_path(TCGContext *s, TCGLabelQemuLdst *l)
  {
 -    TCGMemOpIdx oi = l->oi;
 +    MemOpIdx oi = l->oi;
      MemOp opc = get_memop(oi);
      TCGReg data_reg;
      tcg_insn_unit **label_ptr = &l->label_ptr[0];
@@ -XXX,XX +XXX,XX @@ static bool tcg_out_qemu_ld_slow_path(TCGContext *s, TCGLabelQemuLdst *l)
   */
  static bool tcg_out_qemu_st_slow_path(TCGContext *s, TCGLabelQemuLdst *l)
  {
 -    TCGMemOpIdx oi = l->oi;
 +    MemOpIdx oi = l->oi;
      MemOp opc = get_memop(oi);
      MemOp s_bits = opc & MO_SIZE;
      tcg_insn_unit **label_ptr = &l->label_ptr[0];
@@ -XXX,XX +XXX,XX @@ static void tcg_out_qemu_ld(TCGContext *s, const TCGArg *args, bool is64)
  {
      TCGReg datalo, datahi, addrlo;
      TCGReg addrhi __attribute__((unused));
 -    TCGMemOpIdx oi;
 +    MemOpIdx oi;
      MemOp opc;
  #if defined(CONFIG_SOFTMMU)
      int mem_index;
@@ -XXX,XX +XXX,XX @@ static void tcg_out_qemu_st(TCGContext *s, const TCGArg *args, bool is64)
  {
      TCGReg datalo, datahi, addrlo;
      TCGReg addrhi __attribute__((unused));
 -    TCGMemOpIdx oi;
 +    MemOpIdx oi;
      MemOp opc;
  #if defined(CONFIG_SOFTMMU)
      int mem_index;
 diff --git a/tcg/mips/tcg-target.c.inc b/tcg/mips/tcg-target.c.inc
 index XXXXXXX..XXXXXXX 100644
 --- a/tcg/mips/tcg-target.c.inc
 +++ b/tcg/mips/tcg-target.c.inc
@@ -XXX,XX +XXX,XX @@ QEMU_BUILD_BUG_ON(TLB_MASK_TABLE_OFS(0) < -32768);
   * Clobbers TMP0, TMP1, TMP2, TMP3.
   */
  static void tcg_out_tlb_load(TCGContext *s, TCGReg base, TCGReg addrl,
 -                             TCGReg addrh, TCGMemOpIdx oi,
 +                             TCGReg addrh, MemOpIdx oi,
                               tcg_insn_unit *label_ptr[2], bool is_load)
  {
      MemOp opc = get_memop(oi);
@@ -XXX,XX +XXX,XX @@ static void tcg_out_tlb_load(TCGContext *s, TCGReg base, TCGReg addrl,
      tcg_out_opc_reg(s, ALIAS_PADD, base, TCG_TMP2, addrl);
  }
 -static void add_qemu_ldst_label(TCGContext *s, int is_ld, TCGMemOpIdx oi,
 +static void add_qemu_ldst_label(TCGContext *s, int is_ld, MemOpIdx oi,
                                  TCGType ext,
                                  TCGReg datalo, TCGReg datahi,
                                  TCGReg addrlo, TCGReg addrhi,
@@ -XXX,XX +XXX,XX @@ static void add_qemu_ldst_label(TCGContext *s, int is_ld, TCGMemOpIdx oi,
  static bool tcg_out_qemu_ld_slow_path(TCGContext *s, TCGLabelQemuLdst *l)
  {
      const tcg_insn_unit *tgt_rx = tcg_splitwx_to_rx(s->code_ptr);
 -    TCGMemOpIdx oi = l->oi;
 +    MemOpIdx oi = l->oi;
      MemOp opc = get_memop(oi);
      TCGReg v0;
      int i;
@@ -XXX,XX +XXX,XX @@ static bool tcg_out_qemu_ld_slow_path(TCGContext *s, TCGLabelQemuLdst *l)
  static bool tcg_out_qemu_st_slow_path(TCGContext *s, TCGLabelQemuLdst *l)
  {
      const tcg_insn_unit *tgt_rx = tcg_splitwx_to_rx(s->code_ptr);
 -    TCGMemOpIdx oi = l->oi;
 +    MemOpIdx oi = l->oi;
      MemOp opc = get_memop(oi);
      MemOp s_bits = opc & MO_SIZE;
      int i;
@@ -XXX,XX +XXX,XX @@ static void tcg_out_qemu_ld(TCGContext *s, const TCGArg *args, bool is_64)
  {
      TCGReg addr_regl, addr_regh __attribute__((unused));
      TCGReg data_regl, data_regh;
 -    TCGMemOpIdx oi;
 +    MemOpIdx oi;
      MemOp opc;
  #if defined(CONFIG_SOFTMMU)
      tcg_insn_unit *label_ptr[2];
@@ -XXX,XX +XXX,XX @@ static void tcg_out_qemu_st(TCGContext *s, const TCGArg *args, bool is_64)
  {
      TCGReg addr_regl, addr_regh __attribute__((unused));
      TCGReg data_regl, data_regh;
 -    TCGMemOpIdx oi;
 +    MemOpIdx oi;
      MemOp opc;
  #if defined(CONFIG_SOFTMMU)
      tcg_insn_unit *label_ptr[2];
 diff --git a/tcg/ppc/tcg-target.c.inc b/tcg/ppc/tcg-target.c.inc
 index XXXXXXX..XXXXXXX 100644
 --- a/tcg/ppc/tcg-target.c.inc
 +++ b/tcg/ppc/tcg-target.c.inc
@@ -XXX,XX +XXX,XX @@ static TCGReg tcg_out_tlb_read(TCGContext *s, MemOp opc,
  /* Record the context of a call to the out of line helper code for the slow
     path for a load or store, so that we can later generate the correct
     helper code.  */
 -static void add_qemu_ldst_label(TCGContext *s, bool is_ld, TCGMemOpIdx oi,
 +static void add_qemu_ldst_label(TCGContext *s, bool is_ld, MemOpIdx oi,
                                  TCGReg datalo_reg, TCGReg datahi_reg,
                                  TCGReg addrlo_reg, TCGReg addrhi_reg,
                                  tcg_insn_unit *raddr, tcg_insn_unit *lptr)
@@ -XXX,XX +XXX,XX @@ static void add_qemu_ldst_label(TCGContext *s, bool is_ld, TCGMemOpIdx oi,
  static bool tcg_out_qemu_ld_slow_path(TCGContext *s, TCGLabelQemuLdst *lb)
  {
 -    TCGMemOpIdx oi = lb->oi;
 +    MemOpIdx oi = lb->oi;
      MemOp opc = get_memop(oi);
      TCGReg hi, lo, arg = TCG_REG_R3;
@@ -XXX,XX +XXX,XX @@ static bool tcg_out_qemu_ld_slow_path(TCGContext *s, TCGLabelQemuLdst *lb)
  static bool tcg_out_qemu_st_slow_path(TCGContext *s, TCGLabelQemuLdst *lb)
  {
 -    TCGMemOpIdx oi = lb->oi;
 +    MemOpIdx oi = lb->oi;
      MemOp opc = get_memop(oi);
      MemOp s_bits = opc & MO_SIZE;
      TCGReg hi, lo, arg = TCG_REG_R3;
@@ -XXX,XX +XXX,XX @@ static void tcg_out_qemu_ld(TCGContext *s, const TCGArg *args, bool is_64)
  {
      TCGReg datalo, datahi, addrlo, rbase;
      TCGReg addrhi __attribute__((unused));
 -    TCGMemOpIdx oi;
 +    MemOpIdx oi;
      MemOp opc, s_bits;
  #ifdef CONFIG_SOFTMMU
      int mem_index;
@@ -XXX,XX +XXX,XX @@ static void tcg_out_qemu_st(TCGContext *s, const TCGArg *args, bool is_64)
  {
      TCGReg datalo, datahi, addrlo, rbase;
      TCGReg addrhi __attribute__((unused));
 -    TCGMemOpIdx oi;
 +    MemOpIdx oi;
      MemOp opc, s_bits;
  #ifdef CONFIG_SOFTMMU
      int mem_index;
 diff --git a/tcg/riscv/tcg-target.c.inc b/tcg/riscv/tcg-target.c.inc
 index XXXXXXX..XXXXXXX 100644
 --- a/tcg/riscv/tcg-target.c.inc
 +++ b/tcg/riscv/tcg-target.c.inc
@@ -XXX,XX +XXX,XX @@ static void tcg_out_mb(TCGContext *s, TCGArg a0)
  #include "../tcg-ldst.c.inc"
  /* helper signature: helper_ret_ld_mmu(CPUState *env, target_ulong addr,
 - *                                     TCGMemOpIdx oi, uintptr_t ra)
 + *                                     MemOpIdx oi, uintptr_t ra)
   */
  static void * const qemu_ld_helpers[MO_SSIZE + 1] = {
      [MO_UB] = helper_ret_ldub_mmu,
@@ -XXX,XX +XXX,XX @@ static void * const qemu_ld_helpers[MO_SSIZE + 1] = {
  };
  /* helper signature: helper_ret_st_mmu(CPUState *env, target_ulong addr,
 - *                                     uintxx_t val, TCGMemOpIdx oi,
 + *                                     uintxx_t val, MemOpIdx oi,
   *                                     uintptr_t ra)
   */
  static void * const qemu_st_helpers[MO_SIZE + 1] = {
@@ -XXX,XX +XXX,XX @@ static void tcg_out_goto(TCGContext *s, const tcg_insn_unit *target)
  }
  static void tcg_out_tlb_load(TCGContext *s, TCGReg addrl,
 -                             TCGReg addrh, TCGMemOpIdx oi,
 +                             TCGReg addrh, MemOpIdx oi,
                               tcg_insn_unit **label_ptr, bool is_load)
  {
      MemOp opc = get_memop(oi);
@@ -XXX,XX +XXX,XX @@ static void tcg_out_tlb_load(TCGContext *s, TCGReg addrl,
      tcg_out_opc_reg(s, OPC_ADD, TCG_REG_TMP0, TCG_REG_TMP2, addrl);
  }
 -static void add_qemu_ldst_label(TCGContext *s, int is_ld, TCGMemOpIdx oi,
 +static void add_qemu_ldst_label(TCGContext *s, int is_ld, MemOpIdx oi,
                                  TCGType ext,
                                  TCGReg datalo, TCGReg datahi,
                                  TCGReg addrlo, TCGReg addrhi,
@@ -XXX,XX +XXX,XX @@ static void add_qemu_ldst_label(TCGContext *s, int is_ld, TCGMemOpIdx oi,
  static bool tcg_out_qemu_ld_slow_path(TCGContext *s, TCGLabelQemuLdst *l)
  {
 -    TCGMemOpIdx oi = l->oi;
 +    MemOpIdx oi = l->oi;
      MemOp opc = get_memop(oi);
      TCGReg a0 = tcg_target_call_iarg_regs[0];
      TCGReg a1 = tcg_target_call_iarg_regs[1];
@@ -XXX,XX +XXX,XX @@ static bool tcg_out_qemu_ld_slow_path(TCGContext *s, TCGLabelQemuLdst *l)
  static bool tcg_out_qemu_st_slow_path(TCGContext *s, TCGLabelQemuLdst *l)
  {
 -    TCGMemOpIdx oi = l->oi;
 +    MemOpIdx oi = l->oi;
      MemOp opc = get_memop(oi);
      MemOp s_bits = opc & MO_SIZE;
      TCGReg a0 = tcg_target_call_iarg_regs[0];
@@ -XXX,XX +XXX,XX @@ static void tcg_out_qemu_ld(TCGContext *s, const TCGArg *args, bool is_64)
  {
      TCGReg addr_regl, addr_regh __attribute__((unused));
      TCGReg data_regl, data_regh;
 -    TCGMemOpIdx oi;
 +    MemOpIdx oi;
      MemOp opc;
  #if defined(CONFIG_SOFTMMU)
      tcg_insn_unit *label_ptr[1];
@@ -XXX,XX +XXX,XX @@ static void tcg_out_qemu_st(TCGContext *s, const TCGArg *args, bool is_64)
  {
      TCGReg addr_regl, addr_regh __attribute__((unused));
      TCGReg data_regl, data_regh;
 -    TCGMemOpIdx oi;
 +    MemOpIdx oi;
      MemOp opc;
  #if defined(CONFIG_SOFTMMU)
      tcg_insn_unit *label_ptr[1];
 diff --git a/tcg/s390/tcg-target.c.inc b/tcg/s390/tcg-target.c.inc
 index XXXXXXX..XXXXXXX 100644
 --- a/tcg/s390/tcg-target.c.inc
 +++ b/tcg/s390/tcg-target.c.inc
@@ -XXX,XX +XXX,XX @@ static TCGReg tcg_out_tlb_read(TCGContext *s, TCGReg addr_reg, MemOp opc,
      return addr_reg;
  }
 -static void add_qemu_ldst_label(TCGContext *s, bool is_ld, TCGMemOpIdx oi,
 +static void add_qemu_ldst_label(TCGContext *s, bool is_ld, MemOpIdx oi,
                                  TCGReg data, TCGReg addr,
                                  tcg_insn_unit *raddr, tcg_insn_unit *label_ptr)
  {
@@ -XXX,XX +XXX,XX @@ static bool tcg_out_qemu_ld_slow_path(TCGContext *s, TCGLabelQemuLdst *lb)
  {
      TCGReg addr_reg = lb->addrlo_reg;
      TCGReg data_reg = lb->datalo_reg;
 -    TCGMemOpIdx oi = lb->oi;
 +    MemOpIdx oi = lb->oi;
      MemOp opc = get_memop(oi);
      if (!patch_reloc(lb->label_ptr[0], R_390_PC16DBL,
@@ -XXX,XX +XXX,XX @@ static bool tcg_out_qemu_st_slow_path(TCGContext *s, TCGLabelQemuLdst *lb)
  {
      TCGReg addr_reg = lb->addrlo_reg;
      TCGReg data_reg = lb->datalo_reg;
 -    TCGMemOpIdx oi = lb->oi;
 +    MemOpIdx oi = lb->oi;
      MemOp opc = get_memop(oi);
      if (!patch_reloc(lb->label_ptr[0], R_390_PC16DBL,
@@ -XXX,XX +XXX,XX @@ static void tcg_prepare_user_ldst(TCGContext *s, TCGReg *addr_reg,
  #endif /* CONFIG_SOFTMMU */
  static void tcg_out_qemu_ld(TCGContext* s, TCGReg data_reg, TCGReg addr_reg,
 -                            TCGMemOpIdx oi)
 +                            MemOpIdx oi)
  {
      MemOp opc = get_memop(oi);
  #ifdef CONFIG_SOFTMMU
@@ -XXX,XX +XXX,XX @@ static void tcg_out_qemu_ld(TCGContext* s, TCGReg data_reg, TCGReg addr_reg,
  }
  static void tcg_out_qemu_st(TCGContext* s, TCGReg data_reg, TCGReg addr_reg,
 -                            TCGMemOpIdx oi)
 +                            MemOpIdx oi)
  {
      MemOp opc = get_memop(oi);
  #ifdef CONFIG_SOFTMMU
 diff --git a/tcg/sparc/tcg-target.c.inc b/tcg/sparc/tcg-target.c.inc
 index XXXXXXX..XXXXXXX 100644
 --- a/tcg/sparc/tcg-target.c.inc
 +++ b/tcg/sparc/tcg-target.c.inc
@@ -XXX,XX +XXX,XX @@ static const int qemu_st_opc[(MO_SIZE | MO_BSWAP) + 1] = {
  };
  static void tcg_out_qemu_ld(TCGContext *s, TCGReg data, TCGReg addr,
 -                            TCGMemOpIdx oi, bool is_64)
 +                            MemOpIdx oi, bool is_64)
  {
      MemOp memop = get_memop(oi);
  #ifdef CONFIG_SOFTMMU
@@ -XXX,XX +XXX,XX @@ static void tcg_out_qemu_ld(TCGContext *s, TCGReg data, TCGReg addr,
  }
  static void tcg_out_qemu_st(TCGContext *s, TCGReg data, TCGReg addr,
 -                            TCGMemOpIdx oi)
 +                            MemOpIdx oi)
  {
      MemOp memop = get_memop(oi);
  #ifdef CONFIG_SOFTMMU
 diff --git a/tcg/tcg-ldst.c.inc b/tcg/tcg-ldst.c.inc
 index XXXXXXX..XXXXXXX 100644
 --- a/tcg/tcg-ldst.c.inc
 +++ b/tcg/tcg-ldst.c.inc
@@ -XXX,XX +XXX,XX @@
  typedef struct TCGLabelQemuLdst {
      bool is_ld;             /* qemu_ld: true, qemu_st: false */
 -    TCGMemOpIdx oi;
 +    MemOpIdx oi;
      TCGType type;           /* result type of a load */
      TCGReg addrlo_reg;      /* reg index for low word of guest virtual addr */
      TCGReg addrhi_reg;      /* reg index for high word of guest virtual addr */
 --
-.25.1
+.43.0

-[PULL 17/28] tcg/s390x: Add host vector framework
+[PULL 10/72] tcg/optimize: Introduce const value accessors for TempOptInfo
-Add registers and function stubs.  The functionality
+Introduce ti_is_const, ti_const_val, ti_is_const_val.
 is disabled via squashing s390_facilities[2] to 0.
-We must still include results for the mandatory opcodes in
-tcg_target_op_def, as all opcodes are checked during tcg init.
-Reviewed-by: David Hildenbrand <david@redhat.com>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- tcg/s390x/tcg-target-con-set.h |   4 +
+ tcg/optimize.c | 20 +++++++++++++++++---
- tcg/s390x/tcg-target-con-str.h |   1 +
+file changed, 17 insertions(+), 3 deletions(-)
  tcg/s390x/tcg-target.h         |  35 ++++++++-
  tcg/s390x/tcg-target.opc.h     |  12 +++
  tcg/s390x/tcg-target.c.inc     | 137 ++++++++++++++++++++++++++++++++-
 files changed, 184 insertions(+), 5 deletions(-)
  create mode 100644 tcg/s390x/tcg-target.opc.h
-diff --git a/tcg/s390x/tcg-target-con-set.h b/tcg/s390x/tcg-target-con-set.h
+diff --git a/tcg/optimize.c b/tcg/optimize.c
 index XXXXXXX..XXXXXXX 100644
---- a/tcg/s390x/tcg-target-con-set.h
+--- a/tcg/optimize.c
-+++ b/tcg/s390x/tcg-target-con-set.h
++++ b/tcg/optimize.c
-@@ -XXX,XX +XXX,XX @@ C_O0_I1(r)
+@@ -XXX,XX +XXX,XX @@ static inline TempOptInfo *arg_info(TCGArg arg)
- C_O0_I2(L, L)
+     return ts_info(arg_temp(arg));
  C_O0_I2(r, r)
  C_O0_I2(r, ri)
 +C_O0_I2(v, r)
  C_O1_I1(r, L)
  C_O1_I1(r, r)
 +C_O1_I1(v, r)
 +C_O1_I1(v, vr)
  C_O1_I2(r, 0, ri)
  C_O1_I2(r, 0, rI)
  C_O1_I2(r, 0, rJ)
  C_O1_I2(r, r, ri)
  C_O1_I2(r, rZ, r)
 +C_O1_I2(v, v, v)
  C_O1_I4(r, r, ri, r, 0)
  C_O1_I4(r, r, ri, rI, 0)
  C_O2_I2(b, a, 0, r)
 diff --git a/tcg/s390x/tcg-target-con-str.h b/tcg/s390x/tcg-target-con-str.h
 index XXXXXXX..XXXXXXX 100644
 --- a/tcg/s390x/tcg-target-con-str.h
 +++ b/tcg/s390x/tcg-target-con-str.h
@@ -XXX,XX +XXX,XX @@
   */
  REGS('r', ALL_GENERAL_REGS)
  REGS('L', ALL_GENERAL_REGS & ~SOFTMMU_RESERVE_REGS)
 +REGS('v', ALL_VECTOR_REGS)
  /*
   * A (single) even/odd pair for division.
   * TODO: Add something to the register allocator to allow
 diff --git a/tcg/s390x/tcg-target.h b/tcg/s390x/tcg-target.h
 index XXXXXXX..XXXXXXX 100644
 --- a/tcg/s390x/tcg-target.h
 +++ b/tcg/s390x/tcg-target.h
@@ -XXX,XX +XXX,XX @@ typedef enum TCGReg {
      TCG_REG_R8,  TCG_REG_R9,  TCG_REG_R10, TCG_REG_R11,
      TCG_REG_R12, TCG_REG_R13, TCG_REG_R14, TCG_REG_R15,
 +    TCG_REG_V0 = 32, TCG_REG_V1,  TCG_REG_V2,  TCG_REG_V3,
 +    TCG_REG_V4,  TCG_REG_V5,  TCG_REG_V6,  TCG_REG_V7,
 +    TCG_REG_V8,  TCG_REG_V9,  TCG_REG_V10, TCG_REG_V11,
 +    TCG_REG_V12, TCG_REG_V13, TCG_REG_V14, TCG_REG_V15,
 +    TCG_REG_V16, TCG_REG_V17, TCG_REG_V18, TCG_REG_V19,
 +    TCG_REG_V20, TCG_REG_V21, TCG_REG_V22, TCG_REG_V23,
 +    TCG_REG_V24, TCG_REG_V25, TCG_REG_V26, TCG_REG_V27,
 +    TCG_REG_V28, TCG_REG_V29, TCG_REG_V30, TCG_REG_V31,
 +
      TCG_AREG0 = TCG_REG_R10,
      TCG_REG_CALL_STACK = TCG_REG_R15
  } TCGReg;
 -#define TCG_TARGET_NB_REGS 16
 +#define TCG_TARGET_NB_REGS 64
  /* A list of relevant facilities used by this translator.  Some of these
     are required for proper operation, and these are checked at startup.  */
@@ -XXX,XX +XXX,XX @@ typedef enum TCGReg {
  #define FACILITY_FAST_BCR_SER         FACILITY_LOAD_ON_COND
  #define FACILITY_DISTINCT_OPS         FACILITY_LOAD_ON_COND
  #define FACILITY_LOAD_ON_COND2        53
 +#define FACILITY_VECTOR               129
 -extern uint64_t s390_facilities[1];
 +extern uint64_t s390_facilities[3];
  #define HAVE_FACILITY(X) \
      ((s390_facilities[FACILITY_##X / 64] >> (63 - FACILITY_##X % 64)) & 1)
@@ -XXX,XX +XXX,XX @@ extern uint64_t s390_facilities[1];
  #define TCG_TARGET_HAS_muluh_i64      0
  #define TCG_TARGET_HAS_mulsh_i64      0
 +#define TCG_TARGET_HAS_v64            HAVE_FACILITY(VECTOR)
 +#define TCG_TARGET_HAS_v128           HAVE_FACILITY(VECTOR)
 +#define TCG_TARGET_HAS_v256           0
 +
 +#define TCG_TARGET_HAS_andc_vec       0
 +#define TCG_TARGET_HAS_orc_vec        0
 +#define TCG_TARGET_HAS_not_vec        0
 +#define TCG_TARGET_HAS_neg_vec        0
 +#define TCG_TARGET_HAS_abs_vec        0
 +#define TCG_TARGET_HAS_roti_vec       0
 +#define TCG_TARGET_HAS_rots_vec       0
 +#define TCG_TARGET_HAS_rotv_vec       0
 +#define TCG_TARGET_HAS_shi_vec        0
 +#define TCG_TARGET_HAS_shs_vec        0
 +#define TCG_TARGET_HAS_shv_vec        0
 +#define TCG_TARGET_HAS_mul_vec        0
 +#define TCG_TARGET_HAS_sat_vec        0
 +#define TCG_TARGET_HAS_minmax_vec     0
 +#define TCG_TARGET_HAS_bitsel_vec     0
 +#define TCG_TARGET_HAS_cmpsel_vec     0
 +
  /* used for function call generation */
  #define TCG_TARGET_STACK_ALIGN        8
  #define TCG_TARGET_CALL_STACK_OFFSET    160
 diff --git a/tcg/s390x/tcg-target.opc.h b/tcg/s390x/tcg-target.opc.h
 new file mode 100644
 index XXXXXXX..XXXXXXX
 --- /dev/null
 +++ b/tcg/s390x/tcg-target.opc.h
@@ -XXX,XX +XXX,XX @@
 +/*
 + * Copyright (c) 2021 Linaro
 + *
 + * This work is licensed under the terms of the GNU GPL, version 2 or
 + * (at your option) any later version.
 + *
 + * See the COPYING file in the top-level directory for details.
 + *
 + * Target-specific opcodes for host vector expansion.  These will be
 + * emitted by tcg_expand_vec_op.  For those familiar with GCC internals,
 + * consider these to be UNSPEC with names.
 + */
 diff --git a/tcg/s390x/tcg-target.c.inc b/tcg/s390x/tcg-target.c.inc
 index XXXXXXX..XXXXXXX 100644
 --- a/tcg/s390x/tcg-target.c.inc
 +++ b/tcg/s390x/tcg-target.c.inc
@@ -XXX,XX +XXX,XX @@
  #define TCG_CT_CONST_ZERO  0x800
  #define ALL_GENERAL_REGS     MAKE_64BIT_MASK(0, 16)
 +#define ALL_VECTOR_REGS      MAKE_64BIT_MASK(32, 32)
 +
  /*
   * For softmmu, we need to avoid conflicts with the first 3
   * argument registers to perform the tlb lookup, and to call
@@ -XXX,XX +XXX,XX @@ typedef enum S390Opcode {
  #ifdef CONFIG_DEBUG_TCG
  static const char * const tcg_target_reg_names[TCG_TARGET_NB_REGS] = {
 -    "%r0", "%r1", "%r2", "%r3", "%r4", "%r5", "%r6", "%r7",
 -    "%r8", "%r9", "%r10" "%r11" "%r12" "%r13" "%r14" "%r15"
 +    "%r0",  "%r1",  "%r2",  "%r3",  "%r4",  "%r5",  "%r6",  "%r7",
 +    "%r8",  "%r9",  "%r10", "%r11", "%r12", "%r13", "%r14", "%r15",
 +    0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
 +    "%v0",  "%v1",  "%v2",  "%v3",  "%v4",  "%v5",  "%v6",  "%v7",
 +    "%v8",  "%v9",  "%v10", "%v11", "%v12", "%v13", "%v14", "%v15",
 +    "%v16", "%v17", "%v18", "%v19", "%v20", "%v21", "%v22", "%v23",
 +    "%v24", "%v25", "%v26", "%v27", "%v28", "%v29", "%v30", "%v31",
  };
  #endif
@@ -XXX,XX +XXX,XX @@ static const int tcg_target_reg_alloc_order[] = {
      TCG_REG_R4,
      TCG_REG_R3,
      TCG_REG_R2,
 +
 +    /* V8-V15 are call saved, and omitted. */
 +    TCG_REG_V0,
 +    TCG_REG_V1,
 +    TCG_REG_V2,
 +    TCG_REG_V3,
 +    TCG_REG_V4,
 +    TCG_REG_V5,
 +    TCG_REG_V6,
 +    TCG_REG_V7,
 +    TCG_REG_V16,
 +    TCG_REG_V17,
 +    TCG_REG_V18,
 +    TCG_REG_V19,
 +    TCG_REG_V20,
 +    TCG_REG_V21,
 +    TCG_REG_V22,
 +    TCG_REG_V23,
 +    TCG_REG_V24,
 +    TCG_REG_V25,
 +    TCG_REG_V26,
 +    TCG_REG_V27,
 +    TCG_REG_V28,
 +    TCG_REG_V29,
 +    TCG_REG_V30,
 +    TCG_REG_V31,
  };
  static const int tcg_target_call_iarg_regs[] = {
@@ -XXX,XX +XXX,XX @@ static void * const qemu_st_helpers[(MO_SIZE | MO_BSWAP) + 1] = {
  #endif
  static const tcg_insn_unit *tb_ret_addr;
 -uint64_t s390_facilities[1];
 +uint64_t s390_facilities[3];
  static bool patch_reloc(tcg_insn_unit *src_rw, int type,
                          intptr_t value, intptr_t addend)
@@ -XXX,XX +XXX,XX @@ static inline void tcg_out_op(TCGContext *s, TCGOpcode opc,
      }
  }
-+static bool tcg_out_dup_vec(TCGContext *s, TCGType type, unsigned vece,
++static inline bool ti_is_const(TempOptInfo *ti)
 +                            TCGReg dst, TCGReg src)
 +{
-+    g_assert_not_reached();
++    return ti->is_const;
 +}
 +
-+static bool tcg_out_dupm_vec(TCGContext *s, TCGType type, unsigned vece,
++static inline uint64_t ti_const_val(TempOptInfo *ti)
 +                             TCGReg dst, TCGReg base, intptr_t offset)
 +{
-+    g_assert_not_reached();
++    return ti->val;
 +}
 +
-+static void tcg_out_dupi_vec(TCGContext *s, TCGType type, unsigned vece,
++static inline bool ti_is_const_val(TempOptInfo *ti, uint64_t val)
 +                             TCGReg dst, int64_t val)
 +{
-+    g_assert_not_reached();
++    return ti_is_const(ti) && ti_const_val(ti) == val;
 +}
 +
-+static void tcg_out_vec_op(TCGContext *s, TCGOpcode opc,
+ static inline bool ts_is_const(TCGTemp *ts)
 +                           unsigned vecl, unsigned vece,
 +                           const TCGArg *args, const int *const_args)
 +{
 +    g_assert_not_reached();
 +}
 +
 +int tcg_can_emit_vec_op(TCGOpcode opc, TCGType type, unsigned vece)
 +{
 +    return 0;
 +}
 +
 +void tcg_expand_vec_op(TCGOpcode opc, TCGType type, unsigned vece,
 +                       TCGArg a0, ...)
 +{
 +    g_assert_not_reached();
 +}
 +
  static TCGConstraintSetIndex tcg_target_op_def(TCGOpcode op)
  {
-     switch (op) {
+-    return ts_info(ts)->is_const;
-@@ -XXX,XX +XXX,XX @@ static TCGConstraintSetIndex tcg_target_op_def(TCGOpcode op)
++    return ti_is_const(ts_info(ts));
                  ? C_O2_I4(r, r, 0, 1, rA, r)
                  : C_O2_I4(r, r, 0, 1, r, r));
 +    case INDEX_op_st_vec:
 +        return C_O0_I2(v, r);
 +    case INDEX_op_ld_vec:
 +    case INDEX_op_dupm_vec:
 +        return C_O1_I1(v, r);
 +    case INDEX_op_dup_vec:
 +        return C_O1_I1(v, vr);
 +    case INDEX_op_add_vec:
 +    case INDEX_op_sub_vec:
 +    case INDEX_op_and_vec:
 +    case INDEX_op_or_vec:
 +    case INDEX_op_xor_vec:
 +    case INDEX_op_cmp_vec:
 +        return C_O1_I2(v, v, v);
 +
      default:
          g_assert_not_reached();
      }
  }
-+/*
+ static inline bool ts_is_const_val(TCGTemp *ts, uint64_t val)
 + * Mainline glibc added HWCAP_S390_VX before it was kernel abi.
 + * Some distros have fixed this up locally, others have not.
 + */
 +#ifndef HWCAP_S390_VXRS
 +#define HWCAP_S390_VXRS 2048
 +#endif
 +
  static void query_s390_facilities(void)
  {
-     unsigned long hwcap = qemu_getauxval(AT_HWCAP);
+-    TempOptInfo *ti = ts_info(ts);
-@@ -XXX,XX +XXX,XX @@ static void query_s390_facilities(void)
+-    return ti->is_const && ti->val == val;
-         asm volatile(".word 0xb2b0,0x1000"
++    return ti_is_const_val(ts_info(ts), val);
                       : "=r"(r0) : "r"(r0), "r"(r1) : "memory", "cc");
      }
 +
 +    /*
 +     * Use of vector registers requires os support beyond the facility bit.
 +     * If the kernel does not advertise support, disable the facility bits.
 +     * There is nothing else we currently care about in the 3rd word, so
 +     * disable VECTOR with one store.
 +     */
 +    if (1 || !(hwcap & HWCAP_S390_VXRS)) {
 +        s390_facilities[2] = 0;
 +    }
  }
- static void tcg_target_init(TCGContext *s)
+ static inline bool arg_is_const(TCGArg arg)
@@ -XXX,XX +XXX,XX @@ static void tcg_target_init(TCGContext *s)
      tcg_target_available_regs[TCG_TYPE_I32] = 0xffff;
      tcg_target_available_regs[TCG_TYPE_I64] = 0xffff;
 +    if (HAVE_FACILITY(VECTOR)) {
 +        tcg_target_available_regs[TCG_TYPE_V64] = 0xffffffff00000000ull;
 +        tcg_target_available_regs[TCG_TYPE_V128] = 0xffffffff00000000ull;
 +    }
      tcg_target_call_clobber_regs = 0;
      tcg_regset_set_reg(tcg_target_call_clobber_regs, TCG_REG_R0);
@@ -XXX,XX +XXX,XX @@ static void tcg_target_init(TCGContext *s)
      /* The return register can be considered call-clobbered.  */
      tcg_regset_set_reg(tcg_target_call_clobber_regs, TCG_REG_R14);
 +    tcg_regset_set_reg(tcg_target_call_clobber_regs, TCG_REG_V0);
 +    tcg_regset_set_reg(tcg_target_call_clobber_regs, TCG_REG_V1);
 +    tcg_regset_set_reg(tcg_target_call_clobber_regs, TCG_REG_V2);
 +    tcg_regset_set_reg(tcg_target_call_clobber_regs, TCG_REG_V3);
 +    tcg_regset_set_reg(tcg_target_call_clobber_regs, TCG_REG_V4);
 +    tcg_regset_set_reg(tcg_target_call_clobber_regs, TCG_REG_V5);
 +    tcg_regset_set_reg(tcg_target_call_clobber_regs, TCG_REG_V6);
 +    tcg_regset_set_reg(tcg_target_call_clobber_regs, TCG_REG_V7);
 +    tcg_regset_set_reg(tcg_target_call_clobber_regs, TCG_REG_V16);
 +    tcg_regset_set_reg(tcg_target_call_clobber_regs, TCG_REG_V17);
 +    tcg_regset_set_reg(tcg_target_call_clobber_regs, TCG_REG_V18);
 +    tcg_regset_set_reg(tcg_target_call_clobber_regs, TCG_REG_V19);
 +    tcg_regset_set_reg(tcg_target_call_clobber_regs, TCG_REG_V20);
 +    tcg_regset_set_reg(tcg_target_call_clobber_regs, TCG_REG_V21);
 +    tcg_regset_set_reg(tcg_target_call_clobber_regs, TCG_REG_V22);
 +    tcg_regset_set_reg(tcg_target_call_clobber_regs, TCG_REG_V23);
 +    tcg_regset_set_reg(tcg_target_call_clobber_regs, TCG_REG_V24);
 +    tcg_regset_set_reg(tcg_target_call_clobber_regs, TCG_REG_V25);
 +    tcg_regset_set_reg(tcg_target_call_clobber_regs, TCG_REG_V26);
 +    tcg_regset_set_reg(tcg_target_call_clobber_regs, TCG_REG_V27);
 +    tcg_regset_set_reg(tcg_target_call_clobber_regs, TCG_REG_V28);
 +    tcg_regset_set_reg(tcg_target_call_clobber_regs, TCG_REG_V29);
 +    tcg_regset_set_reg(tcg_target_call_clobber_regs, TCG_REG_V30);
 +    tcg_regset_set_reg(tcg_target_call_clobber_regs, TCG_REG_V31);
 +
      s->reserved_regs = 0;
      tcg_regset_set_reg(s->reserved_regs, TCG_TMP0);
      /* XXX many insns can't be used with R0, so we better avoid it for now */
 --
-.25.1
+.43.0

-New patch
+[PULL 11/72] tcg/optimize: Use fold_masks_zs in fold_and
+Avoid the use of the OptContext slots.  Find TempOptInfo once.
+Sink mask computation below fold_affected_mask early exit.
+Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
+Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
+---
+ tcg/optimize.c | 30 ++++++++++++++++--------------
+file changed, 16 insertions(+), 14 deletions(-)
+diff --git a/tcg/optimize.c b/tcg/optimize.c
+index XXXXXXX..XXXXXXX 100644
+--- a/tcg/optimize.c
++++ b/tcg/optimize.c
+@@ -XXX,XX +XXX,XX @@ static bool fold_add2(OptContext *ctx, TCGOp *op)
+ static bool fold_and(OptContext *ctx, TCGOp *op)
+ {
+-    uint64_t z1, z2;
++    uint64_t z1, z2, z_mask, s_mask;
++    TempOptInfo *t1, *t2;
+     if (fold_const2_commutative(ctx, op) ||
+         fold_xi_to_i(ctx, op, 0) ||
+@@ -XXX,XX +XXX,XX @@ static bool fold_and(OptContext *ctx, TCGOp *op)
+         return true;
+     }
+-    z1 = arg_info(op->args[1])->z_mask;
+-    z2 = arg_info(op->args[2])->z_mask;
+-    ctx->z_mask = z1 & z2;
+-
+-    /*
+-     * Sign repetitions are perforce all identical, whether they are 1 or 0.
+-     * Bitwise operations preserve the relative quantity of the repetitions.
+-     */
+-    ctx->s_mask = arg_info(op->args[1])->s_mask
+-                & arg_info(op->args[2])->s_mask;
++    t1 = arg_info(op->args[1]);
++    t2 = arg_info(op->args[2]);
++    z1 = t1->z_mask;
++    z2 = t2->z_mask;
+     /*
+      * Known-zeros does not imply known-ones.  Therefore unless
+      * arg2 is constant, we can't infer affected bits from it.
+      */
+-    if (arg_is_const(op->args[2]) &&
+-        fold_affected_mask(ctx, op, z1 & ~z2)) {
++    if (ti_is_const(t2) && fold_affected_mask(ctx, op, z1 & ~z2)) {
+         return true;
+     }
+-    return fold_masks(ctx, op);
++    z_mask = z1 & z2;
++
++    /*
++     * Sign repetitions are perforce all identical, whether they are 1 or 0.
++     * Bitwise operations preserve the relative quantity of the repetitions.
++     */
++    s_mask = t1->s_mask & t2->s_mask;
++
++    return fold_masks_zs(ctx, op, z_mask, s_mask);
+ }
+ static bool fold_andc(OptContext *ctx, TCGOp *op)
+--
+.43.0

-New patch
+[PULL 12/72] tcg/optimize: Use fold_masks_zs in fold_andc
+Avoid the use of the OptContext slots.  Find TempOptInfo once.
+Avoid double inversion of the value of second const operand.
+Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
+Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
+---
+ tcg/optimize.c | 21 +++++++++++----------
+file changed, 11 insertions(+), 10 deletions(-)
+diff --git a/tcg/optimize.c b/tcg/optimize.c
+index XXXXXXX..XXXXXXX 100644
+--- a/tcg/optimize.c
++++ b/tcg/optimize.c
+@@ -XXX,XX +XXX,XX @@ static bool fold_and(OptContext *ctx, TCGOp *op)
+ static bool fold_andc(OptContext *ctx, TCGOp *op)
+ {
+-    uint64_t z1;
++    uint64_t z_mask, s_mask;
++    TempOptInfo *t1, *t2;
+     if (fold_const2(ctx, op) ||
+         fold_xx_to_i(ctx, op, 0) ||
+@@ -XXX,XX +XXX,XX @@ static bool fold_andc(OptContext *ctx, TCGOp *op)
+         return true;
+     }
+-    z1 = arg_info(op->args[1])->z_mask;
++    t1 = arg_info(op->args[1]);
++    t2 = arg_info(op->args[2]);
++    z_mask = t1->z_mask;
+     /*
+      * Known-zeros does not imply known-ones.  Therefore unless
+      * arg2 is constant, we can't infer anything from it.
+      */
+-    if (arg_is_const(op->args[2])) {
+-        uint64_t z2 = ~arg_info(op->args[2])->z_mask;
+-        if (fold_affected_mask(ctx, op, z1 & ~z2)) {
++    if (ti_is_const(t2)) {
++        uint64_t v2 = ti_const_val(t2);
++        if (fold_affected_mask(ctx, op, z_mask & v2)) {
+             return true;
+         }
+-        z1 &= z2;
++        z_mask &= ~v2;
+     }
+-    ctx->z_mask = z1;
+-    ctx->s_mask = arg_info(op->args[1])->s_mask
+-                & arg_info(op->args[2])->s_mask;
+-    return fold_masks(ctx, op);
++    s_mask = t1->s_mask & t2->s_mask;
++    return fold_masks_zs(ctx, op, z_mask, s_mask);
+ }
+ static bool fold_brcond(OptContext *ctx, TCGOp *op)
+--
+.43.0

-New patch
+[PULL 13/72] tcg/optimize: Use fold_masks_zs in fold_bswap
+Avoid the use of the OptContext slots.  Find TempOptInfo once.
+Always set s_mask along the BSWAP_OS path, since the result is
+being explicitly sign-extended.
+Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
+Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
+---
+ tcg/optimize.c | 21 ++++++++++-----------
+file changed, 10 insertions(+), 11 deletions(-)
+diff --git a/tcg/optimize.c b/tcg/optimize.c
+index XXXXXXX..XXXXXXX 100644
+--- a/tcg/optimize.c
++++ b/tcg/optimize.c
+@@ -XXX,XX +XXX,XX @@ static bool fold_brcond2(OptContext *ctx, TCGOp *op)
+ static bool fold_bswap(OptContext *ctx, TCGOp *op)
+ {
+     uint64_t z_mask, s_mask, sign;
++    TempOptInfo *t1 = arg_info(op->args[1]);
+-    if (arg_is_const(op->args[1])) {
+-        uint64_t t = arg_info(op->args[1])->val;
+-
+-        t = do_constant_folding(op->opc, ctx->type, t, op->args[2]);
+-        return tcg_opt_gen_movi(ctx, op, op->args[0], t);
++    if (ti_is_const(t1)) {
++        return tcg_opt_gen_movi(ctx, op, op->args[0],
++                                do_constant_folding(op->opc, ctx->type,
++                                                    ti_const_val(t1),
++                                                    op->args[2]));
+     }
+-    z_mask = arg_info(op->args[1])->z_mask;
+-
++    z_mask = t1->z_mask;
+     switch (op->opc) {
+     case INDEX_op_bswap16_i32:
+     case INDEX_op_bswap16_i64:
+@@ -XXX,XX +XXX,XX @@ static bool fold_bswap(OptContext *ctx, TCGOp *op)
+         /* If the sign bit may be 1, force all the bits above to 1. */
+         if (z_mask & sign) {
+             z_mask |= sign;
+-            s_mask = sign << 1;
+         }
++        /* The value and therefore s_mask is explicitly sign-extended. */
++        s_mask = sign;
+         break;
+     default:
+         /* The high bits are undefined: force all bits above the sign to 1. */
+         z_mask |= sign << 1;
+         break;
+     }
+-    ctx->z_mask = z_mask;
+-    ctx->s_mask = s_mask;
+-    return fold_masks(ctx, op);
++    return fold_masks_zs(ctx, op, z_mask, s_mask);
+ }
+ static bool fold_call(OptContext *ctx, TCGOp *op)
+--
+.43.0

-New patch
+[PULL 14/72] tcg/optimize: Use fold_masks_zs in fold_count_zeros
+Avoid the use of the OptContext slots. Find TempOptInfo once.
+Compute s_mask from the union of the maximum count and the
+op2 fallback for op1 being zero.
+Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
+Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
+---
+ tcg/optimize.c | 15 ++++++++++-----
+file changed, 10 insertions(+), 5 deletions(-)
+diff --git a/tcg/optimize.c b/tcg/optimize.c
+index XXXXXXX..XXXXXXX 100644
+--- a/tcg/optimize.c
++++ b/tcg/optimize.c
+@@ -XXX,XX +XXX,XX @@ static bool fold_call(OptContext *ctx, TCGOp *op)
+ static bool fold_count_zeros(OptContext *ctx, TCGOp *op)
+ {
+-    uint64_t z_mask;
++    uint64_t z_mask, s_mask;
++    TempOptInfo *t1 = arg_info(op->args[1]);
++    TempOptInfo *t2 = arg_info(op->args[2]);
+-    if (arg_is_const(op->args[1])) {
+-        uint64_t t = arg_info(op->args[1])->val;
++    if (ti_is_const(t1)) {
++        uint64_t t = ti_const_val(t1);
+         if (t != 0) {
+             t = do_constant_folding(op->opc, ctx->type, t, 0);
+@@ -XXX,XX +XXX,XX @@ static bool fold_count_zeros(OptContext *ctx, TCGOp *op)
+     default:
+         g_assert_not_reached();
+     }
+-    ctx->z_mask = arg_info(op->args[2])->z_mask | z_mask;
+-    return false;
++    s_mask = ~z_mask;
++    z_mask |= t2->z_mask;
++    s_mask &= t2->s_mask;
++
++    return fold_masks_zs(ctx, op, z_mask, s_mask);
+ }
+ static bool fold_ctpop(OptContext *ctx, TCGOp *op)
+--
+.43.0

-[PULL 26/28] tcg/s390x: Implement TCG_TARGET_HAS_sat_vec
+[PULL 15/72] tcg/optimize: Use fold_masks_z in fold_ctpop
-The unsigned saturations are handled via generic code
+Add fold_masks_z as a trivial wrapper around fold_masks_zs.
-using min/max.  The signed saturations are expanded using
+Avoid the use of the OptContext slots.
 double-sized arithmetic and a saturating pack.
-Since all operations are done via expansion, do not
+Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
 actually set TCG_TARGET_HAS_sat_vec.
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- tcg/s390x/tcg-target.opc.h |  3 ++
+ tcg/optimize.c | 13 ++++++++++---
- tcg/s390x/tcg-target.c.inc | 63 ++++++++++++++++++++++++++++++++++++++
+file changed, 10 insertions(+), 3 deletions(-)
 files changed, 66 insertions(+)
-diff --git a/tcg/s390x/tcg-target.opc.h b/tcg/s390x/tcg-target.opc.h
+diff --git a/tcg/optimize.c b/tcg/optimize.c
 index XXXXXXX..XXXXXXX 100644
---- a/tcg/s390x/tcg-target.opc.h
+--- a/tcg/optimize.c
-+++ b/tcg/s390x/tcg-target.opc.h
++++ b/tcg/optimize.c
-@@ -XXX,XX +XXX,XX @@
+@@ -XXX,XX +XXX,XX @@ static bool fold_masks_zs(OptContext *ctx, TCGOp *op,
-  * emitted by tcg_expand_vec_op.  For those familiar with GCC internals,
+     return true;
   * consider these to be UNSPEC with names.
   */
 +DEF(s390_vuph_vec, 1, 1, 0, IMPLVEC)
 +DEF(s390_vupl_vec, 1, 1, 0, IMPLVEC)
 +DEF(s390_vpks_vec, 1, 2, 0, IMPLVEC)
 diff --git a/tcg/s390x/tcg-target.c.inc b/tcg/s390x/tcg-target.c.inc
 index XXXXXXX..XXXXXXX 100644
 --- a/tcg/s390x/tcg-target.c.inc
 +++ b/tcg/s390x/tcg-target.c.inc
@@ -XXX,XX +XXX,XX @@ typedef enum S390Opcode {
      VRRc_VNO    = 0xe76b,
      VRRc_VO     = 0xe76a,
      VRRc_VOC    = 0xe76f,
 +    VRRc_VPKS   = 0xe797,   /* we leave the m5 cs field 0 */
      VRRc_VS     = 0xe7f7,
 +    VRRa_VUPH   = 0xe7d7,
 +    VRRa_VUPL   = 0xe7d6,
      VRRc_VX     = 0xe76d,
      VRRf_VLVGP  = 0xe762,
@@ -XXX,XX +XXX,XX @@ static void tcg_out_vec_op(TCGContext *s, TCGOpcode opc,
          }
          break;
 +    case INDEX_op_s390_vuph_vec:
 +        tcg_out_insn(s, VRRa, VUPH, a0, a1, vece);
 +        break;
 +    case INDEX_op_s390_vupl_vec:
 +        tcg_out_insn(s, VRRa, VUPL, a0, a1, vece);
 +        break;
 +    case INDEX_op_s390_vpks_vec:
 +        tcg_out_insn(s, VRRc, VPKS, a0, a1, a2, vece);
 +        break;
 +
      case INDEX_op_mov_vec:   /* Always emitted via tcg_out_mov.  */
      case INDEX_op_dup_vec:   /* Always emitted via tcg_out_dup_vec.  */
      default:
@@ -XXX,XX +XXX,XX @@ int tcg_can_emit_vec_op(TCGOpcode opc, TCGType type, unsigned vece)
          return -1;
      case INDEX_op_mul_vec:
          return vece < MO_64;
 +    case INDEX_op_ssadd_vec:
 +    case INDEX_op_sssub_vec:
 +        return vece < MO_64 ? -1 : 0;
      default:
          return 0;
      }
@@ -XXX,XX +XXX,XX @@ static void expand_vec_cmp(TCGType type, unsigned vece, TCGv_vec v0,
      }
  }
-+static void expand_vec_sat(TCGType type, unsigned vece, TCGv_vec v0,
++static bool fold_masks_z(OptContext *ctx, TCGOp *op, uint64_t z_mask)
 +                           TCGv_vec v1, TCGv_vec v2, TCGOpcode add_sub_opc)
 +{
-+    TCGv_vec h1 = tcg_temp_new_vec(type);
++    return fold_masks_zs(ctx, op, z_mask, 0);
 +    TCGv_vec h2 = tcg_temp_new_vec(type);
 +    TCGv_vec l1 = tcg_temp_new_vec(type);
 +    TCGv_vec l2 = tcg_temp_new_vec(type);
 +
 +    tcg_debug_assert (vece < MO_64);
 +
 +    /* Unpack with sign-extension. */
 +    vec_gen_2(INDEX_op_s390_vuph_vec, type, vece,
 +              tcgv_vec_arg(h1), tcgv_vec_arg(v1));
 +    vec_gen_2(INDEX_op_s390_vuph_vec, type, vece,
 +              tcgv_vec_arg(h2), tcgv_vec_arg(v2));
 +
 +    vec_gen_2(INDEX_op_s390_vupl_vec, type, vece,
 +              tcgv_vec_arg(l1), tcgv_vec_arg(v1));
 +    vec_gen_2(INDEX_op_s390_vupl_vec, type, vece,
 +              tcgv_vec_arg(l2), tcgv_vec_arg(v2));
 +
 +    /* Arithmetic on a wider element size. */
 +    vec_gen_3(add_sub_opc, type, vece + 1, tcgv_vec_arg(h1),
 +              tcgv_vec_arg(h1), tcgv_vec_arg(h2));
 +    vec_gen_3(add_sub_opc, type, vece + 1, tcgv_vec_arg(l1),
 +              tcgv_vec_arg(l1), tcgv_vec_arg(l2));
 +
 +    /* Pack with saturation. */
 +    vec_gen_3(INDEX_op_s390_vpks_vec, type, vece + 1,
 +              tcgv_vec_arg(v0), tcgv_vec_arg(h1), tcgv_vec_arg(l1));
 +
 +    tcg_temp_free_vec(h1);
 +    tcg_temp_free_vec(h2);
 +    tcg_temp_free_vec(l1);
 +    tcg_temp_free_vec(l2);
 +}
 +
- void tcg_expand_vec_op(TCGOpcode opc, TCGType type, unsigned vece,
+ static bool fold_masks(OptContext *ctx, TCGOp *op)
                         TCGArg a0, ...)
  {
-@@ -XXX,XX +XXX,XX @@ void tcg_expand_vec_op(TCGOpcode opc, TCGType type, unsigned vece,
+     return fold_masks_zs(ctx, op, ctx->z_mask, ctx->s_mask);
-         tcg_temp_free_vec(t0);
+@@ -XXX,XX +XXX,XX @@ static bool fold_count_zeros(OptContext *ctx, TCGOp *op)
  static bool fold_ctpop(OptContext *ctx, TCGOp *op)
  {
 +    uint64_t z_mask;
 +
      if (fold_const1(ctx, op)) {
          return true;
      }
      switch (ctx->type) {
      case TCG_TYPE_I32:
 -        ctx->z_mask = 32 | 31;
 +        z_mask = 32 | 31;
          break;
+     case TCG_TYPE_I64:
-+    case INDEX_op_ssadd_vec:
+-        ctx->z_mask = 64 | 63;
-+        expand_vec_sat(type, vece, v0, v1, v2, INDEX_op_add_vec);
++        z_mask = 64 | 63;
-+        break;
+         break;
 +    case INDEX_op_sssub_vec:
 +        expand_vec_sat(type, vece, v0, v1, v2, INDEX_op_sub_vec);
 +        break;
 +
      default:
          g_assert_not_reached();
      }
-@@ -XXX,XX +XXX,XX @@ static TCGConstraintSetIndex tcg_target_op_def(TCGOpcode op)
+-    return false;
-     case INDEX_op_sari_vec:
++    return fold_masks_z(ctx, op, z_mask);
-     case INDEX_op_shli_vec:
+ }
-     case INDEX_op_shri_vec:
-+    case INDEX_op_s390_vuph_vec:
+ static bool fold_deposit(OptContext *ctx, TCGOp *op)
 +    case INDEX_op_s390_vupl_vec:
          return C_O1_I1(v, v);
      case INDEX_op_add_vec:
      case INDEX_op_sub_vec:
@@ -XXX,XX +XXX,XX @@ static TCGConstraintSetIndex tcg_target_op_def(TCGOpcode op)
      case INDEX_op_smin_vec:
      case INDEX_op_umax_vec:
      case INDEX_op_umin_vec:
 +    case INDEX_op_s390_vpks_vec:
          return C_O1_I2(v, v, v);
      case INDEX_op_rotls_vec:
      case INDEX_op_shls_vec:
 --
-.25.1
+.43.0

-New patch
+[PULL 16/72] tcg/optimize: Use fold_and and fold_masks_z in fold_deposit
+Avoid the use of the OptContext slots.  Find TempOptInfo once.
+When we fold to and, use fold_and.
+Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
+Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
+---
+ tcg/optimize.c | 35 +++++++++++++++++------------------
+file changed, 17 insertions(+), 18 deletions(-)
+diff --git a/tcg/optimize.c b/tcg/optimize.c
+index XXXXXXX..XXXXXXX 100644
+--- a/tcg/optimize.c
++++ b/tcg/optimize.c
+@@ -XXX,XX +XXX,XX @@ static bool fold_ctpop(OptContext *ctx, TCGOp *op)
+ static bool fold_deposit(OptContext *ctx, TCGOp *op)
+ {
++    TempOptInfo *t1 = arg_info(op->args[1]);
++    TempOptInfo *t2 = arg_info(op->args[2]);
++    int ofs = op->args[3];
++    int len = op->args[4];
+     TCGOpcode and_opc;
++    uint64_t z_mask;
+-    if (arg_is_const(op->args[1]) && arg_is_const(op->args[2])) {
+-        uint64_t t1 = arg_info(op->args[1])->val;
+-        uint64_t t2 = arg_info(op->args[2])->val;
+-
+-        t1 = deposit64(t1, op->args[3], op->args[4], t2);
+-        return tcg_opt_gen_movi(ctx, op, op->args[0], t1);
++    if (ti_is_const(t1) && ti_is_const(t2)) {
++        return tcg_opt_gen_movi(ctx, op, op->args[0],
++                                deposit64(ti_const_val(t1), ofs, len,
++                                          ti_const_val(t2)));
+     }
+     switch (ctx->type) {
+@@ -XXX,XX +XXX,XX @@ static bool fold_deposit(OptContext *ctx, TCGOp *op)
+     }
+     /* Inserting a value into zero at offset 0. */
+-    if (arg_is_const_val(op->args[1], 0) && op->args[3] == 0) {
+-        uint64_t mask = MAKE_64BIT_MASK(0, op->args[4]);
++    if (ti_is_const_val(t1, 0) && ofs == 0) {
++        uint64_t mask = MAKE_64BIT_MASK(0, len);
+         op->opc = and_opc;
+         op->args[1] = op->args[2];
+         op->args[2] = arg_new_constant(ctx, mask);
+-        ctx->z_mask = mask & arg_info(op->args[1])->z_mask;
+-        return false;
++        return fold_and(ctx, op);
+     }
+     /* Inserting zero into a value. */
+-    if (arg_is_const_val(op->args[2], 0)) {
+-        uint64_t mask = deposit64(-1, op->args[3], op->args[4], 0);
++    if (ti_is_const_val(t2, 0)) {
++        uint64_t mask = deposit64(-1, ofs, len, 0);
+         op->opc = and_opc;
+         op->args[2] = arg_new_constant(ctx, mask);
+-        ctx->z_mask = mask & arg_info(op->args[1])->z_mask;
+-        return false;
++        return fold_and(ctx, op);
+     }
+-    ctx->z_mask = deposit64(arg_info(op->args[1])->z_mask,
+-                            op->args[3], op->args[4],
+-                            arg_info(op->args[2])->z_mask);
+-    return false;
++    z_mask = deposit64(t1->z_mask, ofs, len, t2->z_mask);
++    return fold_masks_z(ctx, op, z_mask);
+ }
+ static bool fold_divide(OptContext *ctx, TCGOp *op)
+--
+.43.0

-New patch
+[PULL 17/72] tcg/optimize: Compute sign mask in fold_deposit
+The input which overlaps the sign bit of the output can
+have its input s_mask propagated to the output s_mask.
+Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
+Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
+---
+ tcg/optimize.c | 14 ++++++++++++--
+file changed, 12 insertions(+), 2 deletions(-)
+diff --git a/tcg/optimize.c b/tcg/optimize.c
+index XXXXXXX..XXXXXXX 100644
+--- a/tcg/optimize.c
++++ b/tcg/optimize.c
+@@ -XXX,XX +XXX,XX @@ static bool fold_deposit(OptContext *ctx, TCGOp *op)
+     TempOptInfo *t2 = arg_info(op->args[2]);
+     int ofs = op->args[3];
+     int len = op->args[4];
++    int width;
+     TCGOpcode and_opc;
+-    uint64_t z_mask;
++    uint64_t z_mask, s_mask;
+     if (ti_is_const(t1) && ti_is_const(t2)) {
+         return tcg_opt_gen_movi(ctx, op, op->args[0],
+@@ -XXX,XX +XXX,XX @@ static bool fold_deposit(OptContext *ctx, TCGOp *op)
+     switch (ctx->type) {
+     case TCG_TYPE_I32:
+         and_opc = INDEX_op_and_i32;
++        width = 32;
+         break;
+     case TCG_TYPE_I64:
+         and_opc = INDEX_op_and_i64;
++        width = 64;
+         break;
+     default:
+         g_assert_not_reached();
+@@ -XXX,XX +XXX,XX @@ static bool fold_deposit(OptContext *ctx, TCGOp *op)
+         return fold_and(ctx, op);
+     }
++    /* The s_mask from the top portion of the deposit is still valid. */
++    if (ofs + len == width) {
++        s_mask = t2->s_mask << ofs;
++    } else {
++        s_mask = t1->s_mask & ~MAKE_64BIT_MASK(0, ofs + len);
++    }
++
+     z_mask = deposit64(t1->z_mask, ofs, len, t2->z_mask);
+-    return fold_masks_z(ctx, op, z_mask);
++    return fold_masks_zs(ctx, op, z_mask, s_mask);
+ }
+ static bool fold_divide(OptContext *ctx, TCGOp *op)
+--
+.43.0

-New patch
+[PULL 18/72] tcg/optimize: Use finish_folding in fold_divide
+Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
+Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
+---
+ tcg/optimize.c | 2 +-
+file changed, 1 insertion(+), 1 deletion(-)
+diff --git a/tcg/optimize.c b/tcg/optimize.c
+index XXXXXXX..XXXXXXX 100644
+--- a/tcg/optimize.c
++++ b/tcg/optimize.c
+@@ -XXX,XX +XXX,XX @@ static bool fold_divide(OptContext *ctx, TCGOp *op)
+         fold_xi_to_x(ctx, op, 1)) {
+         return true;
+     }
+-    return false;
++    return finish_folding(ctx, op);
+ }
+ static bool fold_dup(OptContext *ctx, TCGOp *op)
+--
+.43.0

-New patch
+[PULL 19/72] tcg/optimize: Use finish_folding in fold_dup, fold_dup2
+Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
+Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
+---
+ tcg/optimize.c | 4 ++--
+file changed, 2 insertions(+), 2 deletions(-)
+diff --git a/tcg/optimize.c b/tcg/optimize.c
+index XXXXXXX..XXXXXXX 100644
+--- a/tcg/optimize.c
++++ b/tcg/optimize.c
+@@ -XXX,XX +XXX,XX @@ static bool fold_dup(OptContext *ctx, TCGOp *op)
+         t = dup_const(TCGOP_VECE(op), t);
+         return tcg_opt_gen_movi(ctx, op, op->args[0], t);
+     }
+-    return false;
++    return finish_folding(ctx, op);
+ }
+ static bool fold_dup2(OptContext *ctx, TCGOp *op)
+@@ -XXX,XX +XXX,XX @@ static bool fold_dup2(OptContext *ctx, TCGOp *op)
+         op->opc = INDEX_op_dup_vec;
+         TCGOP_VECE(op) = MO_32;
+     }
+-    return false;
++    return finish_folding(ctx, op);
+ }
+ static bool fold_eqv(OptContext *ctx, TCGOp *op)
+--
+.43.0

-[PULL 28/28] tcg/s390x: Implement TCG_TARGET_HAS_cmpsel_vec
+[PULL 20/72] tcg/optimize: Use fold_masks_s in fold_eqv
-This is via expansion; don't actually set TCG_TARGET_HAS_cmpsel_vec.
+Add fold_masks_s as a trivial wrapper around fold_masks_zs.
 Avoid the use of the OptContext slots.
+Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- tcg/s390x/tcg-target.c.inc | 24 +++++++++++++++++++++++-
+ tcg/optimize.c | 13 ++++++++++---
-file changed, 23 insertions(+), 1 deletion(-)
+file changed, 10 insertions(+), 3 deletions(-)
-diff --git a/tcg/s390x/tcg-target.c.inc b/tcg/s390x/tcg-target.c.inc
+diff --git a/tcg/optimize.c b/tcg/optimize.c
 index XXXXXXX..XXXXXXX 100644
---- a/tcg/s390x/tcg-target.c.inc
+--- a/tcg/optimize.c
-+++ b/tcg/s390x/tcg-target.c.inc
++++ b/tcg/optimize.c
-@@ -XXX,XX +XXX,XX @@ int tcg_can_emit_vec_op(TCGOpcode opc, TCGType type, unsigned vece)
+@@ -XXX,XX +XXX,XX @@ static bool fold_masks_z(OptContext *ctx, TCGOp *op, uint64_t z_mask)
-     case INDEX_op_xor_vec:
+     return fold_masks_zs(ctx, op, z_mask, 0);
          return 1;
      case INDEX_op_cmp_vec:
 +    case INDEX_op_cmpsel_vec:
      case INDEX_op_rotrv_vec:
          return -1;
      case INDEX_op_mul_vec:
@@ -XXX,XX +XXX,XX @@ static void expand_vec_cmp(TCGType type, unsigned vece, TCGv_vec v0,
      }
  }
-+static void expand_vec_cmpsel(TCGType type, unsigned vece, TCGv_vec v0,
++static bool fold_masks_s(OptContext *ctx, TCGOp *op, uint64_t s_mask)
 +                              TCGv_vec c1, TCGv_vec c2,
 +                              TCGv_vec v3, TCGv_vec v4, TCGCond cond)
 +{
-+    TCGv_vec t = tcg_temp_new_vec(type);
++    return fold_masks_zs(ctx, op, -1, s_mask);
 +
 +    if (expand_vec_cmp_noinv(type, vece, t, c1, c2, cond)) {
 +        /* Invert the sense of the compare by swapping arguments.  */
 +        tcg_gen_bitsel_vec(vece, v0, t, v4, v3);
 +    } else {
 +        tcg_gen_bitsel_vec(vece, v0, t, v3, v4);
 +    }
 +    tcg_temp_free_vec(t);
 +}
 +
- static void expand_vec_sat(TCGType type, unsigned vece, TCGv_vec v0,
+ static bool fold_masks(OptContext *ctx, TCGOp *op)
                             TCGv_vec v1, TCGv_vec v2, TCGOpcode add_sub_opc)
  {
-@@ -XXX,XX +XXX,XX @@ void tcg_expand_vec_op(TCGOpcode opc, TCGType type, unsigned vece,
+     return fold_masks_zs(ctx, op, ctx->z_mask, ctx->s_mask);
-                        TCGArg a0, ...)
+@@ -XXX,XX +XXX,XX @@ static bool fold_dup2(OptContext *ctx, TCGOp *op)
  static bool fold_eqv(OptContext *ctx, TCGOp *op)
  {
-     va_list va;
++    uint64_t s_mask;
 -    TCGv_vec v0, v1, v2, t0;
 +    TCGv_vec v0, v1, v2, v3, v4, t0;
      va_start(va, a0);
      v0 = temp_tcgv_vec(arg_temp(a0));
@@ -XXX,XX +XXX,XX @@ void tcg_expand_vec_op(TCGOpcode opc, TCGType type, unsigned vece,
          expand_vec_cmp(type, vece, v0, v1, v2, va_arg(va, TCGArg));
          break;
 +    case INDEX_op_cmpsel_vec:
 +        v3 = temp_tcgv_vec(arg_temp(va_arg(va, TCGArg)));
 +        v4 = temp_tcgv_vec(arg_temp(va_arg(va, TCGArg)));
 +        expand_vec_cmpsel(type, vece, v0, v1, v2, v3, v4, va_arg(va, TCGArg));
 +        break;
 +
-     case INDEX_op_rotrv_vec:
+     if (fold_const2_commutative(ctx, op) ||
-         t0 = tcg_temp_new_vec(type);
+         fold_xi_to_x(ctx, op, -1) ||
-         tcg_gen_neg_vec(vece, t0, v2);
+         fold_xi_to_not(ctx, op, 0)) {
          return true;
      }
 -    ctx->s_mask = arg_info(op->args[1])->s_mask
 -                & arg_info(op->args[2])->s_mask;
 -    return false;
 +    s_mask = arg_info(op->args[1])->s_mask
 +           & arg_info(op->args[2])->s_mask;
 +    return fold_masks_s(ctx, op, s_mask);
  }
  static bool fold_extract(OptContext *ctx, TCGOp *op)
 --
-.25.1
+.43.0

-New patch
+[PULL 21/72] tcg/optimize: Use fold_masks_z in fold_extract
+Avoid the use of the OptContext slots.  Find TempOptInfo once.
+Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
+Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
+---
+ tcg/optimize.c | 15 ++++++---------
+file changed, 6 insertions(+), 9 deletions(-)
+diff --git a/tcg/optimize.c b/tcg/optimize.c
+index XXXXXXX..XXXXXXX 100644
+--- a/tcg/optimize.c
++++ b/tcg/optimize.c
+@@ -XXX,XX +XXX,XX @@ static bool fold_eqv(OptContext *ctx, TCGOp *op)
+ static bool fold_extract(OptContext *ctx, TCGOp *op)
+ {
+     uint64_t z_mask_old, z_mask;
++    TempOptInfo *t1 = arg_info(op->args[1]);
+     int pos = op->args[2];
+     int len = op->args[3];
+-    if (arg_is_const(op->args[1])) {
+-        uint64_t t;
+-
+-        t = arg_info(op->args[1])->val;
+-        t = extract64(t, pos, len);
+-        return tcg_opt_gen_movi(ctx, op, op->args[0], t);
++    if (ti_is_const(t1)) {
++        return tcg_opt_gen_movi(ctx, op, op->args[0],
++                                extract64(ti_const_val(t1), pos, len));
+     }
+-    z_mask_old = arg_info(op->args[1])->z_mask;
++    z_mask_old = t1->z_mask;
+     z_mask = extract64(z_mask_old, pos, len);
+     if (pos == 0 && fold_affected_mask(ctx, op, z_mask_old ^ z_mask)) {
+         return true;
+     }
+-    ctx->z_mask = z_mask;
+-    return fold_masks(ctx, op);
++    return fold_masks_z(ctx, op, z_mask);
+ }
+ static bool fold_extract2(OptContext *ctx, TCGOp *op)
+--
+.43.0

-New patch
+[PULL 22/72] tcg/optimize: Use finish_folding in fold_extract2
+Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
+Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
+---
+ tcg/optimize.c | 2 +-
+file changed, 1 insertion(+), 1 deletion(-)
+diff --git a/tcg/optimize.c b/tcg/optimize.c
+index XXXXXXX..XXXXXXX 100644
+--- a/tcg/optimize.c
++++ b/tcg/optimize.c
+@@ -XXX,XX +XXX,XX @@ static bool fold_extract2(OptContext *ctx, TCGOp *op)
+         }
+         return tcg_opt_gen_movi(ctx, op, op->args[0], v1 | v2);
+     }
+-    return false;
++    return finish_folding(ctx, op);
+ }
+ static bool fold_exts(OptContext *ctx, TCGOp *op)
+--
+.43.0

-New patch
+[PULL 23/72] tcg/optimize: Use fold_masks_zs in fold_exts
+Avoid the use of the OptContext slots.  Find TempOptInfo once.
+Explicitly sign-extend z_mask instead of doing that manually.
+Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
+Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
+---
+ tcg/optimize.c | 29 ++++++++++++-----------------
+file changed, 12 insertions(+), 17 deletions(-)
+diff --git a/tcg/optimize.c b/tcg/optimize.c
+index XXXXXXX..XXXXXXX 100644
+--- a/tcg/optimize.c
++++ b/tcg/optimize.c
+@@ -XXX,XX +XXX,XX @@ static bool fold_extract2(OptContext *ctx, TCGOp *op)
+ static bool fold_exts(OptContext *ctx, TCGOp *op)
+ {
+-    uint64_t s_mask_old, s_mask, z_mask, sign;
++    uint64_t s_mask_old, s_mask, z_mask;
+     bool type_change = false;
++    TempOptInfo *t1;
+     if (fold_const1(ctx, op)) {
+         return true;
+     }
+-    z_mask = arg_info(op->args[1])->z_mask;
+-    s_mask = arg_info(op->args[1])->s_mask;
++    t1 = arg_info(op->args[1]);
++    z_mask = t1->z_mask;
++    s_mask = t1->s_mask;
+     s_mask_old = s_mask;
+     switch (op->opc) {
+     CASE_OP_32_64(ext8s):
+-        sign = INT8_MIN;
+-        z_mask = (uint8_t)z_mask;
++        s_mask |= INT8_MIN;
++        z_mask = (int8_t)z_mask;
+         break;
+     CASE_OP_32_64(ext16s):
+-        sign = INT16_MIN;
+-        z_mask = (uint16_t)z_mask;
++        s_mask |= INT16_MIN;
++        z_mask = (int16_t)z_mask;
+         break;
+     case INDEX_op_ext_i32_i64:
+         type_change = true;
+         QEMU_FALLTHROUGH;
+     case INDEX_op_ext32s_i64:
+-        sign = INT32_MIN;
+-        z_mask = (uint32_t)z_mask;
++        s_mask |= INT32_MIN;
++        z_mask = (int32_t)z_mask;
+         break;
+     default:
+         g_assert_not_reached();
+     }
+-    if (z_mask & sign) {
+-        z_mask |= sign;
+-    }
+-    s_mask |= sign << 1;
+-
+-    ctx->z_mask = z_mask;
+-    ctx->s_mask = s_mask;
+     if (0 && !type_change && fold_affected_mask(ctx, op, s_mask & ~s_mask_old)) {
+         return true;
+     }
+-    return fold_masks(ctx, op);
++    return fold_masks_zs(ctx, op, z_mask, s_mask);
+ }
+ static bool fold_extu(OptContext *ctx, TCGOp *op)
+--
+.43.0

-New patch
+[PULL 24/72] tcg/optimize: Use fold_masks_z in fold_extu
+Avoid the use of the OptContext slots.
+Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
+Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
+---
+ tcg/optimize.c | 4 ++--
+file changed, 2 insertions(+), 2 deletions(-)
+diff --git a/tcg/optimize.c b/tcg/optimize.c
+index XXXXXXX..XXXXXXX 100644
+--- a/tcg/optimize.c
++++ b/tcg/optimize.c
+@@ -XXX,XX +XXX,XX @@ static bool fold_extu(OptContext *ctx, TCGOp *op)
+         g_assert_not_reached();
+     }
+-    ctx->z_mask = z_mask;
+     if (!type_change && fold_affected_mask(ctx, op, z_mask_old ^ z_mask)) {
+         return true;
+     }
+-    return fold_masks(ctx, op);
++
++    return fold_masks_z(ctx, op, z_mask);
+ }
+ static bool fold_mb(OptContext *ctx, TCGOp *op)
+--
+.43.0

-New patch
+[PULL 25/72] tcg/optimize: Use fold_masks_zs in fold_movcond
+Avoid the use of the OptContext slots.  Find TempOptInfo once.
+Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
+Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
+---
+ tcg/optimize.c | 19 +++++++++++--------
+file changed, 11 insertions(+), 8 deletions(-)
+diff --git a/tcg/optimize.c b/tcg/optimize.c
+index XXXXXXX..XXXXXXX 100644
+--- a/tcg/optimize.c
++++ b/tcg/optimize.c
+@@ -XXX,XX +XXX,XX @@ static bool fold_mov(OptContext *ctx, TCGOp *op)
+ static bool fold_movcond(OptContext *ctx, TCGOp *op)
+ {
++    uint64_t z_mask, s_mask;
++    TempOptInfo *tt, *ft;
+     int i;
+     /* If true and false values are the same, eliminate the cmp. */
+@@ -XXX,XX +XXX,XX @@ static bool fold_movcond(OptContext *ctx, TCGOp *op)
+         return tcg_opt_gen_mov(ctx, op, op->args[0], op->args[4 - i]);
+     }
+-    ctx->z_mask = arg_info(op->args[3])->z_mask
+-                | arg_info(op->args[4])->z_mask;
+-    ctx->s_mask = arg_info(op->args[3])->s_mask
+-                & arg_info(op->args[4])->s_mask;
++    tt = arg_info(op->args[3]);
++    ft = arg_info(op->args[4]);
++    z_mask = tt->z_mask | ft->z_mask;
++    s_mask = tt->s_mask & ft->s_mask;
+-    if (arg_is_const(op->args[3]) && arg_is_const(op->args[4])) {
+-        uint64_t tv = arg_info(op->args[3])->val;
+-        uint64_t fv = arg_info(op->args[4])->val;
++    if (ti_is_const(tt) && ti_is_const(ft)) {
++        uint64_t tv = ti_const_val(tt);
++        uint64_t fv = ti_const_val(ft);
+         TCGOpcode opc, negopc = 0;
+         TCGCond cond = op->args[5];
+@@ -XXX,XX +XXX,XX @@ static bool fold_movcond(OptContext *ctx, TCGOp *op)
+             }
+         }
+     }
+-    return false;
++
++    return fold_masks_zs(ctx, op, z_mask, s_mask);
+ }
+ static bool fold_mul(OptContext *ctx, TCGOp *op)
+--
+.43.0

-[PULL 05/28] tcg: Expand MO_SIZE to 3 bits
+[PULL 26/72] tcg/optimize: Use finish_folding in fold_mul*
-We have lacked expressive support for memory sizes larger
+Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
 than 64-bits for a while.  Fixing that requires adjustment
 to several points where we used this for array indexing,
 and two places that develop -Wswitch warnings after the change.
 Reviewed-by: Alistair Francis <alistair.francis@wdc.com>
 Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- include/exec/memop.h                | 14 +++++++++-----
+ tcg/optimize.c | 6 +++---
- target/arm/translate-a64.c          |  2 +-
+file changed, 3 insertions(+), 3 deletions(-)
  tcg/tcg-op.c                        | 13 ++++++++-----
  target/s390x/tcg/translate_vx.c.inc |  2 +-
  tcg/aarch64/tcg-target.c.inc        |  4 ++--
  tcg/arm/tcg-target.c.inc            |  4 ++--
  tcg/i386/tcg-target.c.inc           |  4 ++--
  tcg/mips/tcg-target.c.inc           |  4 ++--
  tcg/ppc/tcg-target.c.inc            |  8 ++++----
  tcg/riscv/tcg-target.c.inc          |  4 ++--
  tcg/s390/tcg-target.c.inc           |  4 ++--
  tcg/sparc/tcg-target.c.inc          | 16 ++++++++--------
 files changed, 43 insertions(+), 36 deletions(-)
-diff --git a/include/exec/memop.h b/include/exec/memop.h
+diff --git a/tcg/optimize.c b/tcg/optimize.c
 index XXXXXXX..XXXXXXX 100644
---- a/include/exec/memop.h
+--- a/tcg/optimize.c
-+++ b/include/exec/memop.h
++++ b/tcg/optimize.c
-@@ -XXX,XX +XXX,XX @@ typedef enum MemOp {
+@@ -XXX,XX +XXX,XX @@ static bool fold_mul(OptContext *ctx, TCGOp *op)
-     MO_16    = 1,
+         fold_xi_to_x(ctx, op, 1)) {
-     MO_32    = 2,
+         return true;
      MO_64    = 3,
 -    MO_SIZE  = 3,   /* Mask for the above.  */
 +    MO_128   = 4,
 +    MO_256   = 5,
 +    MO_512   = 6,
 +    MO_1024  = 7,
 +    MO_SIZE  = 0x07,   /* Mask for the above.  */
 -    MO_SIGN  = 4,   /* Sign-extended, otherwise zero-extended.  */
 +    MO_SIGN  = 0x08,   /* Sign-extended, otherwise zero-extended.  */
 -    MO_BSWAP = 8,   /* Host reverse endian.  */
 +    MO_BSWAP = 0x10,   /* Host reverse endian.  */
  #ifdef HOST_WORDS_BIGENDIAN
      MO_LE    = MO_BSWAP,
      MO_BE    = 0,
@@ -XXX,XX +XXX,XX @@ typedef enum MemOp {
       * - an alignment to a specified size, which may be more or less than
       *   the access size (MO_ALIGN_x where 'x' is a size in bytes);
       */
 -    MO_ASHIFT = 4,
 -    MO_AMASK = 7 << MO_ASHIFT,
 +    MO_ASHIFT = 5,
 +    MO_AMASK = 0x7 << MO_ASHIFT,
  #ifdef NEED_CPU_H
  #ifdef TARGET_ALIGNED_ONLY
      MO_ALIGN = 0,
 diff --git a/target/arm/translate-a64.c b/target/arm/translate-a64.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/translate-a64.c
 +++ b/target/arm/translate-a64.c
@@ -XXX,XX +XXX,XX @@ static void read_vec_element(DisasContext *s, TCGv_i64 tcg_dest, int srcidx,
                               int element, MemOp memop)
  {
      int vect_off = vec_reg_offset(s, srcidx, element, memop & MO_SIZE);
 -    switch (memop) {
 +    switch ((unsigned)memop) {
      case MO_8:
          tcg_gen_ld8u_i64(tcg_dest, cpu_env, vect_off);
          break;
 diff --git a/tcg/tcg-op.c b/tcg/tcg-op.c
 index XXXXXXX..XXXXXXX 100644
 --- a/tcg/tcg-op.c
 +++ b/tcg/tcg-op.c
@@ -XXX,XX +XXX,XX @@ static inline MemOp tcg_canonicalize_memop(MemOp op, bool is64, bool st)
          }
          break;
      case MO_64:
 -        if (!is64) {
 -            tcg_abort();
 +        if (is64) {
 +            op &= ~MO_SIGN;
 +            break;
          }
 -        break;
 +        /* fall through */
 +    default:
 +        g_assert_not_reached();
      }
-     if (st) {
+-    return false;
-         op &= ~MO_SIGN;
++    return finish_folding(ctx, op);
@@ -XXX,XX +XXX,XX @@ typedef void (*gen_atomic_op_i64)(TCGv_i64, TCGv_env, TCGv,
  # define WITH_ATOMIC64(X)
  #endif
 -static void * const table_cmpxchg[16] = {
 +static void * const table_cmpxchg[(MO_SIZE | MO_BSWAP) + 1] = {
      [MO_8] = gen_helper_atomic_cmpxchgb,
      [MO_16 | MO_LE] = gen_helper_atomic_cmpxchgw_le,
      [MO_16 | MO_BE] = gen_helper_atomic_cmpxchgw_be,
@@ -XXX,XX +XXX,XX @@ static void do_atomic_op_i64(TCGv_i64 ret, TCGv addr, TCGv_i64 val,
  }
- #define GEN_ATOMIC_HELPER(NAME, OP, NEW)                                \
+ static bool fold_mul_highpart(OptContext *ctx, TCGOp *op)
--static void * const table_##NAME[16] = {                                \
+@@ -XXX,XX +XXX,XX @@ static bool fold_mul_highpart(OptContext *ctx, TCGOp *op)
-+static void * const table_##NAME[(MO_SIZE | MO_BSWAP) + 1] = {          \
+         fold_xi_to_i(ctx, op, 0)) {
-     [MO_8] = gen_helper_atomic_##NAME##b,                               \
+         return true;
-     [MO_16 | MO_LE] = gen_helper_atomic_##NAME##w_le,                   \
+     }
-     [MO_16 | MO_BE] = gen_helper_atomic_##NAME##w_be,                   \
+-    return false;
-diff --git a/target/s390x/tcg/translate_vx.c.inc b/target/s390x/tcg/translate_vx.c.inc
++    return finish_folding(ctx, op);
 index XXXXXXX..XXXXXXX 100644
 --- a/target/s390x/tcg/translate_vx.c.inc
 +++ b/target/s390x/tcg/translate_vx.c.inc
@@ -XXX,XX +XXX,XX @@ static void read_vec_element_i64(TCGv_i64 dst, uint8_t reg, uint8_t enr,
  {
      const int offs = vec_reg_offset(reg, enr, memop & MO_SIZE);
 -    switch (memop) {
 +    switch ((unsigned)memop) {
      case ES_8:
          tcg_gen_ld8u_i64(dst, cpu_env, offs);
          break;
 diff --git a/tcg/aarch64/tcg-target.c.inc b/tcg/aarch64/tcg-target.c.inc
 index XXXXXXX..XXXXXXX 100644
 --- a/tcg/aarch64/tcg-target.c.inc
 +++ b/tcg/aarch64/tcg-target.c.inc
@@ -XXX,XX +XXX,XX @@ static void tcg_out_cltz(TCGContext *s, TCGType ext, TCGReg d,
  /* helper signature: helper_ret_ld_mmu(CPUState *env, target_ulong addr,
   *                                     TCGMemOpIdx oi, uintptr_t ra)
   */
 -static void * const qemu_ld_helpers[4] = {
 +static void * const qemu_ld_helpers[MO_SIZE + 1] = {
      [MO_8]  = helper_ret_ldub_mmu,
  #ifdef HOST_WORDS_BIGENDIAN
      [MO_16] = helper_be_lduw_mmu,
@@ -XXX,XX +XXX,XX @@ static void * const qemu_ld_helpers[4] = {
   *                                     uintxx_t val, TCGMemOpIdx oi,
   *                                     uintptr_t ra)
   */
 -static void * const qemu_st_helpers[4] = {
 +static void * const qemu_st_helpers[MO_SIZE + 1] = {
      [MO_8]  = helper_ret_stb_mmu,
  #ifdef HOST_WORDS_BIGENDIAN
      [MO_16] = helper_be_stw_mmu,
 diff --git a/tcg/arm/tcg-target.c.inc b/tcg/arm/tcg-target.c.inc
 index XXXXXXX..XXXXXXX 100644
 --- a/tcg/arm/tcg-target.c.inc
 +++ b/tcg/arm/tcg-target.c.inc
@@ -XXX,XX +XXX,XX @@ static void tcg_out_vldst(TCGContext *s, ARMInsn insn,
  /* helper signature: helper_ret_ld_mmu(CPUState *env, target_ulong addr,
   *                                     int mmu_idx, uintptr_t ra)
   */
 -static void * const qemu_ld_helpers[8] = {
 +static void * const qemu_ld_helpers[MO_SSIZE + 1] = {
      [MO_UB]   = helper_ret_ldub_mmu,
      [MO_SB]   = helper_ret_ldsb_mmu,
  #ifdef HOST_WORDS_BIGENDIAN
@@ -XXX,XX +XXX,XX @@ static void * const qemu_ld_helpers[8] = {
  /* helper signature: helper_ret_st_mmu(CPUState *env, target_ulong addr,
   *                                     uintxx_t val, int mmu_idx, uintptr_t ra)
   */
 -static void * const qemu_st_helpers[4] = {
 +static void * const qemu_st_helpers[MO_SIZE + 1] = {
      [MO_8]   = helper_ret_stb_mmu,
  #ifdef HOST_WORDS_BIGENDIAN
      [MO_16] = helper_be_stw_mmu,
 diff --git a/tcg/i386/tcg-target.c.inc b/tcg/i386/tcg-target.c.inc
 index XXXXXXX..XXXXXXX 100644
 --- a/tcg/i386/tcg-target.c.inc
 +++ b/tcg/i386/tcg-target.c.inc
@@ -XXX,XX +XXX,XX @@ static void tcg_out_nopn(TCGContext *s, int n)
  /* helper signature: helper_ret_ld_mmu(CPUState *env, target_ulong addr,
   *                                     int mmu_idx, uintptr_t ra)
   */
 -static void * const qemu_ld_helpers[16] = {
 +static void * const qemu_ld_helpers[(MO_SIZE | MO_BSWAP) + 1] = {
      [MO_UB]   = helper_ret_ldub_mmu,
      [MO_LEUW] = helper_le_lduw_mmu,
      [MO_LEUL] = helper_le_ldul_mmu,
@@ -XXX,XX +XXX,XX @@ static void * const qemu_ld_helpers[16] = {
  /* helper signature: helper_ret_st_mmu(CPUState *env, target_ulong addr,
   *                                     uintxx_t val, int mmu_idx, uintptr_t ra)
   */
 -static void * const qemu_st_helpers[16] = {
 +static void * const qemu_st_helpers[(MO_SIZE | MO_BSWAP) + 1] = {
      [MO_UB]   = helper_ret_stb_mmu,
      [MO_LEUW] = helper_le_stw_mmu,
      [MO_LEUL] = helper_le_stl_mmu,
 diff --git a/tcg/mips/tcg-target.c.inc b/tcg/mips/tcg-target.c.inc
 index XXXXXXX..XXXXXXX 100644
 --- a/tcg/mips/tcg-target.c.inc
 +++ b/tcg/mips/tcg-target.c.inc
@@ -XXX,XX +XXX,XX @@ static void tcg_out_call(TCGContext *s, const tcg_insn_unit *arg)
  #if defined(CONFIG_SOFTMMU)
  #include "../tcg-ldst.c.inc"
 -static void * const qemu_ld_helpers[16] = {
 +static void * const qemu_ld_helpers[(MO_SSIZE | MO_BSWAP) + 1] = {
      [MO_UB]   = helper_ret_ldub_mmu,
      [MO_SB]   = helper_ret_ldsb_mmu,
      [MO_LEUW] = helper_le_lduw_mmu,
@@ -XXX,XX +XXX,XX @@ static void * const qemu_ld_helpers[16] = {
  #endif
  };
 -static void * const qemu_st_helpers[16] = {
 +static void * const qemu_st_helpers[(MO_SIZE | MO_BSWAP) + 1] = {
      [MO_UB]   = helper_ret_stb_mmu,
      [MO_LEUW] = helper_le_stw_mmu,
      [MO_LEUL] = helper_le_stl_mmu,
 diff --git a/tcg/ppc/tcg-target.c.inc b/tcg/ppc/tcg-target.c.inc
 index XXXXXXX..XXXXXXX 100644
 --- a/tcg/ppc/tcg-target.c.inc
 +++ b/tcg/ppc/tcg-target.c.inc
@@ -XXX,XX +XXX,XX @@ static void tcg_out_call(TCGContext *s, const tcg_insn_unit *target)
  #endif
  }
--static const uint32_t qemu_ldx_opc[16] = {
+ static bool fold_multiply2(OptContext *ctx, TCGOp *op)
-+static const uint32_t qemu_ldx_opc[(MO_SSIZE + MO_BSWAP) + 1] = {
+@@ -XXX,XX +XXX,XX @@ static bool fold_multiply2(OptContext *ctx, TCGOp *op)
-     [MO_UB] = LBZX,
+         tcg_opt_gen_movi(ctx, op2, rh, h);
-     [MO_UW] = LHZX,
+         return true;
-     [MO_UL] = LWZX,
+     }
-@@ -XXX,XX +XXX,XX @@ static const uint32_t qemu_ldx_opc[16] = {
+-    return false;
-     [MO_BSWAP | MO_Q]  = LDBRX,
++    return finish_folding(ctx, op);
  };
 -static const uint32_t qemu_stx_opc[16] = {
 +static const uint32_t qemu_stx_opc[(MO_SIZE + MO_BSWAP) + 1] = {
      [MO_UB] = STBX,
      [MO_UW] = STHX,
      [MO_UL] = STWX,
@@ -XXX,XX +XXX,XX @@ static const uint32_t qemu_exts_opc[4] = {
  /* helper signature: helper_ld_mmu(CPUState *env, target_ulong addr,
   *                                 int mmu_idx, uintptr_t ra)
   */
 -static void * const qemu_ld_helpers[16] = {
 +static void * const qemu_ld_helpers[(MO_SIZE | MO_BSWAP) + 1] = {
      [MO_UB]   = helper_ret_ldub_mmu,
      [MO_LEUW] = helper_le_lduw_mmu,
      [MO_LEUL] = helper_le_ldul_mmu,
@@ -XXX,XX +XXX,XX @@ static void * const qemu_ld_helpers[16] = {
  /* helper signature: helper_st_mmu(CPUState *env, target_ulong addr,
   *                                 uintxx_t val, int mmu_idx, uintptr_t ra)
   */
 -static void * const qemu_st_helpers[16] = {
 +static void * const qemu_st_helpers[(MO_SIZE | MO_BSWAP) + 1] = {
      [MO_UB]   = helper_ret_stb_mmu,
      [MO_LEUW] = helper_le_stw_mmu,
      [MO_LEUL] = helper_le_stl_mmu,
 diff --git a/tcg/riscv/tcg-target.c.inc b/tcg/riscv/tcg-target.c.inc
 index XXXXXXX..XXXXXXX 100644
 --- a/tcg/riscv/tcg-target.c.inc
 +++ b/tcg/riscv/tcg-target.c.inc
@@ -XXX,XX +XXX,XX @@ static void tcg_out_mb(TCGContext *s, TCGArg a0)
  /* helper signature: helper_ret_ld_mmu(CPUState *env, target_ulong addr,
   *                                     TCGMemOpIdx oi, uintptr_t ra)
   */
 -static void * const qemu_ld_helpers[8] = {
 +static void * const qemu_ld_helpers[MO_SSIZE + 1] = {
      [MO_UB] = helper_ret_ldub_mmu,
      [MO_SB] = helper_ret_ldsb_mmu,
  #ifdef HOST_WORDS_BIGENDIAN
@@ -XXX,XX +XXX,XX @@ static void * const qemu_ld_helpers[8] = {
   *                                     uintxx_t val, TCGMemOpIdx oi,
   *                                     uintptr_t ra)
   */
 -static void * const qemu_st_helpers[4] = {
 +static void * const qemu_st_helpers[MO_SIZE + 1] = {
      [MO_8]   = helper_ret_stb_mmu,
  #ifdef HOST_WORDS_BIGENDIAN
      [MO_16] = helper_be_stw_mmu,
 diff --git a/tcg/s390/tcg-target.c.inc b/tcg/s390/tcg-target.c.inc
 index XXXXXXX..XXXXXXX 100644
 --- a/tcg/s390/tcg-target.c.inc
 +++ b/tcg/s390/tcg-target.c.inc
@@ -XXX,XX +XXX,XX @@ static const uint8_t tcg_cond_to_ltr_cond[] = {
  };
  #ifdef CONFIG_SOFTMMU
 -static void * const qemu_ld_helpers[16] = {
 +static void * const qemu_ld_helpers[(MO_SSIZE | MO_BSWAP) + 1] = {
      [MO_UB]   = helper_ret_ldub_mmu,
      [MO_SB]   = helper_ret_ldsb_mmu,
      [MO_LEUW] = helper_le_lduw_mmu,
@@ -XXX,XX +XXX,XX @@ static void * const qemu_ld_helpers[16] = {
      [MO_BEQ]  = helper_be_ldq_mmu,
  };
 -static void * const qemu_st_helpers[16] = {
 +static void * const qemu_st_helpers[(MO_SIZE | MO_BSWAP) + 1] = {
      [MO_UB]   = helper_ret_stb_mmu,
      [MO_LEUW] = helper_le_stw_mmu,
      [MO_LEUL] = helper_le_stl_mmu,
 diff --git a/tcg/sparc/tcg-target.c.inc b/tcg/sparc/tcg-target.c.inc
 index XXXXXXX..XXXXXXX 100644
 --- a/tcg/sparc/tcg-target.c.inc
 +++ b/tcg/sparc/tcg-target.c.inc
@@ -XXX,XX +XXX,XX @@ static void tcg_out_mb(TCGContext *s, TCGArg a0)
  }
- #ifdef CONFIG_SOFTMMU
+ static bool fold_nand(OptContext *ctx, TCGOp *op)
 -static const tcg_insn_unit *qemu_ld_trampoline[16];
 -static const tcg_insn_unit *qemu_st_trampoline[16];
 +static const tcg_insn_unit *qemu_ld_trampoline[(MO_SSIZE | MO_BSWAP) + 1];
 +static const tcg_insn_unit *qemu_st_trampoline[(MO_SIZE | MO_BSWAP) + 1];
  static void emit_extend(TCGContext *s, TCGReg r, int op)
  {
@@ -XXX,XX +XXX,XX @@ static void emit_extend(TCGContext *s, TCGReg r, int op)
  static void build_trampolines(TCGContext *s)
  {
 -    static void * const qemu_ld_helpers[16] = {
 +    static void * const qemu_ld_helpers[] = {
          [MO_UB]   = helper_ret_ldub_mmu,
          [MO_SB]   = helper_ret_ldsb_mmu,
          [MO_LEUW] = helper_le_lduw_mmu,
@@ -XXX,XX +XXX,XX @@ static void build_trampolines(TCGContext *s)
          [MO_BEUL] = helper_be_ldul_mmu,
          [MO_BEQ]  = helper_be_ldq_mmu,
      };
 -    static void * const qemu_st_helpers[16] = {
 +    static void * const qemu_st_helpers[] = {
          [MO_UB]   = helper_ret_stb_mmu,
          [MO_LEUW] = helper_le_stw_mmu,
          [MO_LEUL] = helper_le_stl_mmu,
@@ -XXX,XX +XXX,XX @@ static void build_trampolines(TCGContext *s)
      int i;
      TCGReg ra;
 -    for (i = 0; i < 16; ++i) {
 +    for (i = 0; i < ARRAY_SIZE(qemu_ld_helpers); ++i) {
          if (qemu_ld_helpers[i] == NULL) {
              continue;
          }
@@ -XXX,XX +XXX,XX @@ static void build_trampolines(TCGContext *s)
          tcg_out_mov(s, TCG_TYPE_PTR, TCG_REG_O7, ra);
      }
 -    for (i = 0; i < 16; ++i) {
 +    for (i = 0; i < ARRAY_SIZE(qemu_st_helpers); ++i) {
          if (qemu_st_helpers[i] == NULL) {
              continue;
          }
@@ -XXX,XX +XXX,XX @@ static TCGReg tcg_out_tlb_load(TCGContext *s, TCGReg addr, int mem_index,
  }
  #endif /* CONFIG_SOFTMMU */
 -static const int qemu_ld_opc[16] = {
 +static const int qemu_ld_opc[(MO_SSIZE | MO_BSWAP) + 1] = {
      [MO_UB]   = LDUB,
      [MO_SB]   = LDSB,
@@ -XXX,XX +XXX,XX @@ static const int qemu_ld_opc[16] = {
      [MO_LEQ]  = LDX_LE,
  };
 -static const int qemu_st_opc[16] = {
 +static const int qemu_st_opc[(MO_SIZE | MO_BSWAP) + 1] = {
      [MO_UB]   = STB,
      [MO_BEUW] = STH,
 --
-.25.1
+.43.0

-New patch
+[PULL 27/72] tcg/optimize: Use fold_masks_s in fold_nand
+Avoid the use of the OptContext slots.
+Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
+Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
+---
+ tcg/optimize.c | 8 +++++---
+file changed, 5 insertions(+), 3 deletions(-)
+diff --git a/tcg/optimize.c b/tcg/optimize.c
+index XXXXXXX..XXXXXXX 100644
+--- a/tcg/optimize.c
++++ b/tcg/optimize.c
+@@ -XXX,XX +XXX,XX @@ static bool fold_multiply2(OptContext *ctx, TCGOp *op)
+ static bool fold_nand(OptContext *ctx, TCGOp *op)
+ {
++    uint64_t s_mask;
++
+     if (fold_const2_commutative(ctx, op) ||
+         fold_xi_to_not(ctx, op, -1)) {
+         return true;
+     }
+-    ctx->s_mask = arg_info(op->args[1])->s_mask
+-                & arg_info(op->args[2])->s_mask;
+-    return false;
++    s_mask = arg_info(op->args[1])->s_mask
++           & arg_info(op->args[2])->s_mask;
++    return fold_masks_s(ctx, op, s_mask);
+ }
+ static bool fold_neg_no_const(OptContext *ctx, TCGOp *op)
+--
+.43.0

-New patch
+[PULL 28/72] tcg/optimize: Use fold_masks_z in fold_neg_no_const
+Avoid the use of the OptContext slots.
+Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
+Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
+---
+ tcg/optimize.c | 9 ++-------
+file changed, 2 insertions(+), 7 deletions(-)
+diff --git a/tcg/optimize.c b/tcg/optimize.c
+index XXXXXXX..XXXXXXX 100644
+--- a/tcg/optimize.c
++++ b/tcg/optimize.c
+@@ -XXX,XX +XXX,XX @@ static bool fold_neg_no_const(OptContext *ctx, TCGOp *op)
+ {
+     /* Set to 1 all bits to the left of the rightmost.  */
+     uint64_t z_mask = arg_info(op->args[1])->z_mask;
+-    ctx->z_mask = -(z_mask & -z_mask);
++    z_mask = -(z_mask & -z_mask);
+-    /*
+-     * Because of fold_sub_to_neg, we want to always return true,
+-     * via finish_folding.
+-     */
+-    finish_folding(ctx, op);
+-    return true;
++    return fold_masks_z(ctx, op, z_mask);
+ }
+ static bool fold_neg(OptContext *ctx, TCGOp *op)
+--
+.43.0

-New patch
+[PULL 29/72] tcg/optimize: Use fold_masks_s in fold_nor
+Avoid the use of the OptContext slots.
+Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
+Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
+---
+ tcg/optimize.c | 8 +++++---
+file changed, 5 insertions(+), 3 deletions(-)
+diff --git a/tcg/optimize.c b/tcg/optimize.c
+index XXXXXXX..XXXXXXX 100644
+--- a/tcg/optimize.c
++++ b/tcg/optimize.c
+@@ -XXX,XX +XXX,XX @@ static bool fold_neg(OptContext *ctx, TCGOp *op)
+ static bool fold_nor(OptContext *ctx, TCGOp *op)
+ {
++    uint64_t s_mask;
++
+     if (fold_const2_commutative(ctx, op) ||
+         fold_xi_to_not(ctx, op, 0)) {
+         return true;
+     }
+-    ctx->s_mask = arg_info(op->args[1])->s_mask
+-                & arg_info(op->args[2])->s_mask;
+-    return false;
++    s_mask = arg_info(op->args[1])->s_mask
++           & arg_info(op->args[2])->s_mask;
++    return fold_masks_s(ctx, op, s_mask);
+ }
+ static bool fold_not(OptContext *ctx, TCGOp *op)
+--
+.43.0

-New patch
+[PULL 30/72] tcg/optimize: Use fold_masks_s in fold_not
+Avoid the use of the OptContext slots.
+Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
+Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
+---
+ tcg/optimize.c | 7 +------
+file changed, 1 insertion(+), 6 deletions(-)
+diff --git a/tcg/optimize.c b/tcg/optimize.c
+index XXXXXXX..XXXXXXX 100644
+--- a/tcg/optimize.c
++++ b/tcg/optimize.c
+@@ -XXX,XX +XXX,XX @@ static bool fold_not(OptContext *ctx, TCGOp *op)
+     if (fold_const1(ctx, op)) {
+         return true;
+     }
+-
+-    ctx->s_mask = arg_info(op->args[1])->s_mask;
+-
+-    /* Because of fold_to_not, we want to always return true, via finish. */
+-    finish_folding(ctx, op);
+-    return true;
++    return fold_masks_s(ctx, op, arg_info(op->args[1])->s_mask);
+ }
+ static bool fold_or(OptContext *ctx, TCGOp *op)
+--
+.43.0

-New patch
+[PULL 31/72] tcg/optimize: Use fold_masks_zs in fold_or
+Avoid the use of the OptContext slots.  Find TempOptInfo once.
+Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
+Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
+---
+ tcg/optimize.c | 13 ++++++++-----
+file changed, 8 insertions(+), 5 deletions(-)
+diff --git a/tcg/optimize.c b/tcg/optimize.c
+index XXXXXXX..XXXXXXX 100644
+--- a/tcg/optimize.c
++++ b/tcg/optimize.c
+@@ -XXX,XX +XXX,XX @@ static bool fold_not(OptContext *ctx, TCGOp *op)
+ static bool fold_or(OptContext *ctx, TCGOp *op)
+ {
++    uint64_t z_mask, s_mask;
++    TempOptInfo *t1, *t2;
++
+     if (fold_const2_commutative(ctx, op) ||
+         fold_xi_to_x(ctx, op, 0) ||
+         fold_xx_to_x(ctx, op)) {
+         return true;
+     }
+-    ctx->z_mask = arg_info(op->args[1])->z_mask
+-                | arg_info(op->args[2])->z_mask;
+-    ctx->s_mask = arg_info(op->args[1])->s_mask
+-                & arg_info(op->args[2])->s_mask;
+-    return fold_masks(ctx, op);
++    t1 = arg_info(op->args[1]);
++    t2 = arg_info(op->args[2]);
++    z_mask = t1->z_mask | t2->z_mask;
++    s_mask = t1->s_mask & t2->s_mask;
++    return fold_masks_zs(ctx, op, z_mask, s_mask);
+ }
+ static bool fold_orc(OptContext *ctx, TCGOp *op)
+--
+.43.0

-New patch
+[PULL 32/72] tcg/optimize: Use fold_masks_zs in fold_orc
+Avoid the use of the OptContext slots.
+Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
+Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
+---
+ tcg/optimize.c | 8 +++++---
+file changed, 5 insertions(+), 3 deletions(-)
+diff --git a/tcg/optimize.c b/tcg/optimize.c
+index XXXXXXX..XXXXXXX 100644
+--- a/tcg/optimize.c
++++ b/tcg/optimize.c
+@@ -XXX,XX +XXX,XX @@ static bool fold_or(OptContext *ctx, TCGOp *op)
+ static bool fold_orc(OptContext *ctx, TCGOp *op)
+ {
++    uint64_t s_mask;
++
+     if (fold_const2(ctx, op) ||
+         fold_xx_to_i(ctx, op, -1) ||
+         fold_xi_to_x(ctx, op, -1) ||
+@@ -XXX,XX +XXX,XX @@ static bool fold_orc(OptContext *ctx, TCGOp *op)
+         return true;
+     }
+-    ctx->s_mask = arg_info(op->args[1])->s_mask
+-                & arg_info(op->args[2])->s_mask;
+-    return false;
++    s_mask = arg_info(op->args[1])->s_mask
++           & arg_info(op->args[2])->s_mask;
++    return fold_masks_s(ctx, op, s_mask);
+ }
+ static bool fold_qemu_ld(OptContext *ctx, TCGOp *op)
+--
+.43.0

-[PULL 27/28] tcg/s390x: Implement TCG_TARGET_HAS_bitsel_vec
+[PULL 33/72] tcg/optimize: Use fold_masks_zs in fold_qemu_ld
+Avoid the use of the OptContext slots.
+Be careful not to call fold_masks_zs when the memory operation
+is wide enough to require multiple outputs, so split into two
+functions: fold_qemu_ld_1reg and fold_qemu_ld_2reg.
+Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- tcg/s390x/tcg-target-con-set.h |  1 +
+ tcg/optimize.c | 26 +++++++++++++++++++++-----
- tcg/s390x/tcg-target.h         |  2 +-
+file changed, 21 insertions(+), 5 deletions(-)
  tcg/s390x/tcg-target.c.inc     | 20 ++++++++++++++++++++
 files changed, 22 insertions(+), 1 deletion(-)
-diff --git a/tcg/s390x/tcg-target-con-set.h b/tcg/s390x/tcg-target-con-set.h
+diff --git a/tcg/optimize.c b/tcg/optimize.c
 index XXXXXXX..XXXXXXX 100644
---- a/tcg/s390x/tcg-target-con-set.h
+--- a/tcg/optimize.c
-+++ b/tcg/s390x/tcg-target-con-set.h
++++ b/tcg/optimize.c
-@@ -XXX,XX +XXX,XX @@ C_O1_I2(r, r, ri)
+@@ -XXX,XX +XXX,XX @@ static bool fold_orc(OptContext *ctx, TCGOp *op)
- C_O1_I2(r, rZ, r)
+     return fold_masks_s(ctx, op, s_mask);
  C_O1_I2(v, v, r)
  C_O1_I2(v, v, v)
 +C_O1_I3(v, v, v, v)
  C_O1_I4(r, r, ri, r, 0)
  C_O1_I4(r, r, ri, rI, 0)
  C_O2_I2(b, a, 0, r)
 diff --git a/tcg/s390x/tcg-target.h b/tcg/s390x/tcg-target.h
 index XXXXXXX..XXXXXXX 100644
 --- a/tcg/s390x/tcg-target.h
 +++ b/tcg/s390x/tcg-target.h
@@ -XXX,XX +XXX,XX @@ extern uint64_t s390_facilities[3];
  #define TCG_TARGET_HAS_mul_vec        1
  #define TCG_TARGET_HAS_sat_vec        0
  #define TCG_TARGET_HAS_minmax_vec     1
 -#define TCG_TARGET_HAS_bitsel_vec     0
 +#define TCG_TARGET_HAS_bitsel_vec     1
  #define TCG_TARGET_HAS_cmpsel_vec     0
  /* used for function call generation */
 diff --git a/tcg/s390x/tcg-target.c.inc b/tcg/s390x/tcg-target.c.inc
 index XXXXXXX..XXXXXXX 100644
 --- a/tcg/s390x/tcg-target.c.inc
 +++ b/tcg/s390x/tcg-target.c.inc
@@ -XXX,XX +XXX,XX @@ typedef enum S390Opcode {
      VRRa_VUPH   = 0xe7d7,
      VRRa_VUPL   = 0xe7d6,
      VRRc_VX     = 0xe76d,
 +    VRRe_VSEL   = 0xe78d,
      VRRf_VLVGP  = 0xe762,
      VRSa_VERLL  = 0xe733,
@@ -XXX,XX +XXX,XX @@ static void tcg_out_insn_VRRc(TCGContext *s, S390Opcode op,
      tcg_out16(s, (op & 0x00ff) | RXB(v1, v2, v3, 0) | (m4 << 12));
  }
-+static void tcg_out_insn_VRRe(TCGContext *s, S390Opcode op,
+-static bool fold_qemu_ld(OptContext *ctx, TCGOp *op)
-+                              TCGReg v1, TCGReg v2, TCGReg v3, TCGReg v4)
++static bool fold_qemu_ld_1reg(OptContext *ctx, TCGOp *op)
-+{
+ {
-+    tcg_debug_assert(is_vector_reg(v1));
+     const TCGOpDef *def = &tcg_op_defs[op->opc];
-+    tcg_debug_assert(is_vector_reg(v2));
+     MemOpIdx oi = op->args[def->nb_oargs + def->nb_iargs];
-+    tcg_debug_assert(is_vector_reg(v3));
+     MemOp mop = get_memop(oi);
-+    tcg_debug_assert(is_vector_reg(v4));
+     int width = 8 * memop_size(mop);
-+    tcg_out16(s, (op & 0xff00) | ((v1 & 0xf) << 4) | (v2 & 0xf));
++    uint64_t z_mask = -1, s_mask = 0;
-+    tcg_out16(s, v3 << 12);
-+    tcg_out16(s, (op & 0x00ff) | RXB(v1, v2, v3, v4) | (v4 << 12));
+     if (width < 64) {
          if (mop & MO_SIGN) {
 -            ctx->s_mask = MAKE_64BIT_MASK(width, 64 - width);
 +            s_mask = MAKE_64BIT_MASK(width - 1, 64 - (width - 1));
          } else {
 -            ctx->z_mask = MAKE_64BIT_MASK(0, width);
 +            z_mask = MAKE_64BIT_MASK(0, width);
          }
      }
      /* Opcodes that touch guest memory stop the mb optimization.  */
      ctx->prev_mb = NULL;
 -    return false;
 +
 +    return fold_masks_zs(ctx, op, z_mask, s_mask);
 +}
 +
- static void tcg_out_insn_VRRf(TCGContext *s, S390Opcode op,
++static bool fold_qemu_ld_2reg(OptContext *ctx, TCGOp *op)
-                               TCGReg v1, TCGReg r2, TCGReg r3)
++{
- {
++    /* Opcodes that touch guest memory stop the mb optimization.  */
-@@ -XXX,XX +XXX,XX @@ static void tcg_out_vec_op(TCGContext *s, TCGOpcode opc,
++    ctx->prev_mb = NULL;
-         tcg_out_insn(s, VRRc, VMXL, a0, a1, a2, vece);
++    return finish_folding(ctx, op);
-         break;
+ }
-+    case INDEX_op_bitsel_vec:
+ static bool fold_qemu_st(OptContext *ctx, TCGOp *op)
-+        tcg_out_insn(s, VRRe, VSEL, a0, a1, a2, args[3]);
+@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
-+        break;
+             break;
-+
+         case INDEX_op_qemu_ld_a32_i32:
-     case INDEX_op_cmp_vec:
+         case INDEX_op_qemu_ld_a64_i32:
-         switch ((TCGCond)args[3]) {
++            done = fold_qemu_ld_1reg(&ctx, op);
-         case TCG_COND_EQ:
++            break;
-@@ -XXX,XX +XXX,XX @@ int tcg_can_emit_vec_op(TCGOpcode opc, TCGType type, unsigned vece)
+         case INDEX_op_qemu_ld_a32_i64:
-     case INDEX_op_add_vec:
+         case INDEX_op_qemu_ld_a64_i64:
-     case INDEX_op_and_vec:
++            if (TCG_TARGET_REG_BITS == 64) {
-     case INDEX_op_andc_vec:
++                done = fold_qemu_ld_1reg(&ctx, op);
-+    case INDEX_op_bitsel_vec:
++                break;
-     case INDEX_op_neg_vec:
++            }
-     case INDEX_op_not_vec:
++            QEMU_FALLTHROUGH;
-     case INDEX_op_or_vec:
+         case INDEX_op_qemu_ld_a32_i128:
-@@ -XXX,XX +XXX,XX @@ static TCGConstraintSetIndex tcg_target_op_def(TCGOpcode op)
+         case INDEX_op_qemu_ld_a64_i128:
-     case INDEX_op_shrs_vec:
+-            done = fold_qemu_ld(&ctx, op);
-     case INDEX_op_sars_vec:
++            done = fold_qemu_ld_2reg(&ctx, op);
-         return C_O1_I2(v, v, r);
+             break;
-+    case INDEX_op_bitsel_vec:
+         case INDEX_op_qemu_st8_a32_i32:
-+        return C_O1_I3(v, v, v, v);
+         case INDEX_op_qemu_st8_a64_i32:
      default:
          g_assert_not_reached();
 --
-.25.1
+.43.0

-New patch
+[PULL 34/72] tcg/optimize: Return true from fold_qemu_st, fold_tcg_st
+Stores have no output operands, and so need no further work.
+Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
+Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
+---
+ tcg/optimize.c | 11 +++++------
+file changed, 5 insertions(+), 6 deletions(-)
+diff --git a/tcg/optimize.c b/tcg/optimize.c
+index XXXXXXX..XXXXXXX 100644
+--- a/tcg/optimize.c
++++ b/tcg/optimize.c
+@@ -XXX,XX +XXX,XX @@ static bool fold_qemu_st(OptContext *ctx, TCGOp *op)
+ {
+     /* Opcodes that touch guest memory stop the mb optimization.  */
+     ctx->prev_mb = NULL;
+-    return false;
++    return true;
+ }
+ static bool fold_remainder(OptContext *ctx, TCGOp *op)
+@@ -XXX,XX +XXX,XX @@ static bool fold_tcg_st(OptContext *ctx, TCGOp *op)
+     if (op->args[1] != tcgv_ptr_arg(tcg_env)) {
+         remove_mem_copy_all(ctx);
+-        return false;
++        return true;
+     }
+     switch (op->opc) {
+@@ -XXX,XX +XXX,XX @@ static bool fold_tcg_st(OptContext *ctx, TCGOp *op)
+         g_assert_not_reached();
+     }
+     remove_mem_copy_in(ctx, ofs, ofs + lm1);
+-    return false;
++    return true;
+ }
+ static bool fold_tcg_st_memcopy(OptContext *ctx, TCGOp *op)
+@@ -XXX,XX +XXX,XX @@ static bool fold_tcg_st_memcopy(OptContext *ctx, TCGOp *op)
+     TCGType type;
+     if (op->args[1] != tcgv_ptr_arg(tcg_env)) {
+-        fold_tcg_st(ctx, op);
+-        return false;
++        return fold_tcg_st(ctx, op);
+     }
+     src = arg_temp(op->args[0]);
+@@ -XXX,XX +XXX,XX @@ static bool fold_tcg_st_memcopy(OptContext *ctx, TCGOp *op)
+     last = ofs + tcg_type_size(type) - 1;
+     remove_mem_copy_in(ctx, ofs, last);
+     record_mem_copy(ctx, type, src, ofs, last);
+-    return false;
++    return true;
+ }
+ static bool fold_xor(OptContext *ctx, TCGOp *op)
+--
+.43.0

-New patch
+[PULL 35/72] tcg/optimize: Use finish_folding in fold_remainder
+Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
+Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
+---
+ tcg/optimize.c | 2 +-
+file changed, 1 insertion(+), 1 deletion(-)
+diff --git a/tcg/optimize.c b/tcg/optimize.c
+index XXXXXXX..XXXXXXX 100644
+--- a/tcg/optimize.c
++++ b/tcg/optimize.c
+@@ -XXX,XX +XXX,XX @@ static bool fold_remainder(OptContext *ctx, TCGOp *op)
+         fold_xx_to_i(ctx, op, 0)) {
+         return true;
+     }
+-    return false;
++    return finish_folding(ctx, op);
+ }
+ static bool fold_setcond_zmask(OptContext *ctx, TCGOp *op, bool neg)
+--
+.43.0

-New patch
+[PULL 36/72] tcg/optimize: Distinguish simplification in fold_setcond_zmask
+Change return from bool to int; distinguish between
+complete folding, simplification, and no change.
+Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
+Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
+---
+ tcg/optimize.c | 22 ++++++++++++++--------
+file changed, 14 insertions(+), 8 deletions(-)
+diff --git a/tcg/optimize.c b/tcg/optimize.c
+index XXXXXXX..XXXXXXX 100644
+--- a/tcg/optimize.c
++++ b/tcg/optimize.c
+@@ -XXX,XX +XXX,XX @@ static bool fold_remainder(OptContext *ctx, TCGOp *op)
+     return finish_folding(ctx, op);
+ }
+-static bool fold_setcond_zmask(OptContext *ctx, TCGOp *op, bool neg)
++/* Return 1 if finished, -1 if simplified, 0 if unchanged. */
++static int fold_setcond_zmask(OptContext *ctx, TCGOp *op, bool neg)
+ {
+     uint64_t a_zmask, b_val;
+     TCGCond cond;
+@@ -XXX,XX +XXX,XX @@ static bool fold_setcond_zmask(OptContext *ctx, TCGOp *op, bool neg)
+                 op->opc = xor_opc;
+                 op->args[2] = arg_new_constant(ctx, 1);
+             }
+-            return false;
++            return -1;
+         }
+     }
+-
+-    return false;
++    return 0;
+ }
+ static void fold_setcond_tst_pow2(OptContext *ctx, TCGOp *op, bool neg)
+@@ -XXX,XX +XXX,XX @@ static bool fold_setcond(OptContext *ctx, TCGOp *op)
+         return tcg_opt_gen_movi(ctx, op, op->args[0], i);
+     }
+-    if (fold_setcond_zmask(ctx, op, false)) {
++    i = fold_setcond_zmask(ctx, op, false);
++    if (i > 0) {
+         return true;
+     }
+-    fold_setcond_tst_pow2(ctx, op, false);
++    if (i == 0) {
++        fold_setcond_tst_pow2(ctx, op, false);
++    }
+     ctx->z_mask = 1;
+     return false;
+@@ -XXX,XX +XXX,XX @@ static bool fold_negsetcond(OptContext *ctx, TCGOp *op)
+         return tcg_opt_gen_movi(ctx, op, op->args[0], -i);
+     }
+-    if (fold_setcond_zmask(ctx, op, true)) {
++    i = fold_setcond_zmask(ctx, op, true);
++    if (i > 0) {
+         return true;
+     }
+-    fold_setcond_tst_pow2(ctx, op, true);
++    if (i == 0) {
++        fold_setcond_tst_pow2(ctx, op, true);
++    }
+     /* Value is {0,-1} so all bits are repetitions of the sign. */
+     ctx->s_mask = -1;
+--
+.43.0

-New patch
+[PULL 37/72] tcg/optimize: Use fold_masks_z in fold_setcond
+Avoid the use of the OptContext slots.
+Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
+Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
+---
+ tcg/optimize.c | 3 +--
+file changed, 1 insertion(+), 2 deletions(-)
+diff --git a/tcg/optimize.c b/tcg/optimize.c
+index XXXXXXX..XXXXXXX 100644
+--- a/tcg/optimize.c
++++ b/tcg/optimize.c
+@@ -XXX,XX +XXX,XX @@ static bool fold_setcond(OptContext *ctx, TCGOp *op)
+         fold_setcond_tst_pow2(ctx, op, false);
+     }
+-    ctx->z_mask = 1;
+-    return false;
++    return fold_masks_z(ctx, op, 1);
+ }
+ static bool fold_negsetcond(OptContext *ctx, TCGOp *op)
+--
+.43.0

-New patch
+[PULL 38/72] tcg/optimize: Use fold_masks_s in fold_negsetcond
+Avoid the use of the OptContext slots.
+Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
+Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
+---
+ tcg/optimize.c | 3 +--
+file changed, 1 insertion(+), 2 deletions(-)
+diff --git a/tcg/optimize.c b/tcg/optimize.c
+index XXXXXXX..XXXXXXX 100644
+--- a/tcg/optimize.c
++++ b/tcg/optimize.c
+@@ -XXX,XX +XXX,XX @@ static bool fold_negsetcond(OptContext *ctx, TCGOp *op)
+     }
+     /* Value is {0,-1} so all bits are repetitions of the sign. */
+-    ctx->s_mask = -1;
+-    return false;
++    return fold_masks_s(ctx, op, -1);
+ }
+ static bool fold_setcond2(OptContext *ctx, TCGOp *op)
+--
+.43.0

-New patch
+[PULL 39/72] tcg/optimize: Use fold_masks_z in fold_setcond2
+Avoid the use of the OptContext slots.
+Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
+Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
+---
+ tcg/optimize.c | 3 +--
+file changed, 1 insertion(+), 2 deletions(-)
+diff --git a/tcg/optimize.c b/tcg/optimize.c
+index XXXXXXX..XXXXXXX 100644
+--- a/tcg/optimize.c
++++ b/tcg/optimize.c
+@@ -XXX,XX +XXX,XX @@ static bool fold_setcond2(OptContext *ctx, TCGOp *op)
+         return fold_setcond(ctx, op);
+     }
+-    ctx->z_mask = 1;
+-    return false;
++    return fold_masks_z(ctx, op, 1);
+  do_setcond_const:
+     return tcg_opt_gen_movi(ctx, op, op->args[0], i);
+--
+.43.0

-New patch
+[PULL 40/72] tcg/optimize: Use finish_folding in fold_cmp_vec
+Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
+Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
+---
+ tcg/optimize.c | 2 +-
+file changed, 1 insertion(+), 1 deletion(-)
+diff --git a/tcg/optimize.c b/tcg/optimize.c
+index XXXXXXX..XXXXXXX 100644
+--- a/tcg/optimize.c
++++ b/tcg/optimize.c
+@@ -XXX,XX +XXX,XX @@ static bool fold_cmp_vec(OptContext *ctx, TCGOp *op)
+     if (swap_commutative(NO_DEST, &op->args[1], &op->args[2])) {
+         op->args[3] = tcg_swap_cond(op->args[3]);
+     }
+-    return false;
++    return finish_folding(ctx, op);
+ }
+ static bool fold_cmpsel_vec(OptContext *ctx, TCGOp *op)
+--
+.43.0

-New patch
+[PULL 41/72] tcg/optimize: Use finish_folding in fold_cmpsel_vec
+Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
+Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
+---
+ tcg/optimize.c | 2 +-
+file changed, 1 insertion(+), 1 deletion(-)
+diff --git a/tcg/optimize.c b/tcg/optimize.c
+index XXXXXXX..XXXXXXX 100644
+--- a/tcg/optimize.c
++++ b/tcg/optimize.c
+@@ -XXX,XX +XXX,XX @@ static bool fold_cmpsel_vec(OptContext *ctx, TCGOp *op)
+     if (swap_commutative(op->args[0], &op->args[4], &op->args[3])) {
+         op->args[5] = tcg_invert_cond(op->args[5]);
+     }
+-    return false;
++    return finish_folding(ctx, op);
+ }
+ static bool fold_sextract(OptContext *ctx, TCGOp *op)
+--
+.43.0

-New patch
+[PULL 42/72] tcg/optimize: Use fold_masks_zs in fold_sextract
+Avoid the use of the OptContext slots.  Find TempOptInfo once.
+Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
+Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
+---
+ tcg/optimize.c | 24 +++++++++---------------
+file changed, 9 insertions(+), 15 deletions(-)
+diff --git a/tcg/optimize.c b/tcg/optimize.c
+index XXXXXXX..XXXXXXX 100644
+--- a/tcg/optimize.c
++++ b/tcg/optimize.c
+@@ -XXX,XX +XXX,XX @@ static bool fold_cmpsel_vec(OptContext *ctx, TCGOp *op)
+ static bool fold_sextract(OptContext *ctx, TCGOp *op)
+ {
+     uint64_t z_mask, s_mask, s_mask_old;
++    TempOptInfo *t1 = arg_info(op->args[1]);
+     int pos = op->args[2];
+     int len = op->args[3];
+-    if (arg_is_const(op->args[1])) {
+-        uint64_t t;
+-
+-        t = arg_info(op->args[1])->val;
+-        t = sextract64(t, pos, len);
+-        return tcg_opt_gen_movi(ctx, op, op->args[0], t);
++    if (ti_is_const(t1)) {
++        return tcg_opt_gen_movi(ctx, op, op->args[0],
++                                sextract64(ti_const_val(t1), pos, len));
+     }
+-    z_mask = arg_info(op->args[1])->z_mask;
+-    z_mask = sextract64(z_mask, pos, len);
+-    ctx->z_mask = z_mask;
+-
+-    s_mask_old = arg_info(op->args[1])->s_mask;
+-    s_mask = sextract64(s_mask_old, pos, len);
+-    s_mask |= MAKE_64BIT_MASK(len, 64 - len);
+-    ctx->s_mask = s_mask;
++    s_mask_old = t1->s_mask;
++    s_mask = s_mask_old >> pos;
++    s_mask |= -1ull << (len - 1);
+     if (0 && pos == 0 && fold_affected_mask(ctx, op, s_mask & ~s_mask_old)) {
+         return true;
+     }
+-    return fold_masks(ctx, op);
++    z_mask = sextract64(t1->z_mask, pos, len);
++    return fold_masks_zs(ctx, op, z_mask, s_mask);
+ }
+ static bool fold_shift(OptContext *ctx, TCGOp *op)
+--
+.43.0

-[PULL 15/28] tcg/s390x: Change FACILITY representation
+[PULL 43/72] tcg/optimize: Use fold_masks_zs, fold_masks_s in fold_shift
-We will shortly need to be able to check facilities beyond the
+Avoid the use of the OptContext slots.  Find TempOptInfo once.
 first 64.  Instead of explicitly masking against s390_facilities,
 create a HAVE_FACILITY macro that indexes an array.
-Reviewed-by: David Hildenbrand <david@redhat.com>
+Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
-v2: Change name to HAVE_FACILITY (david)
+ tcg/optimize.c | 27 ++++++++++++++-------------
----
+file changed, 14 insertions(+), 13 deletions(-)
  tcg/s390x/tcg-target.h     | 29 ++++++++-------
  tcg/s390x/tcg-target.c.inc | 74 +++++++++++++++++++-------------------
 files changed, 52 insertions(+), 51 deletions(-)
-diff --git a/tcg/s390x/tcg-target.h b/tcg/s390x/tcg-target.h
+diff --git a/tcg/optimize.c b/tcg/optimize.c
 index XXXXXXX..XXXXXXX 100644
---- a/tcg/s390x/tcg-target.h
+--- a/tcg/optimize.c
-+++ b/tcg/s390x/tcg-target.h
++++ b/tcg/optimize.c
-@@ -XXX,XX +XXX,XX @@ typedef enum TCGReg {
+@@ -XXX,XX +XXX,XX @@ static bool fold_sextract(OptContext *ctx, TCGOp *op)
- /* A list of relevant facilities used by this translator.  Some of these
+ static bool fold_shift(OptContext *ctx, TCGOp *op)
-    are required for proper operation, and these are checked at startup.  */
+ {
+     uint64_t s_mask, z_mask, sign;
--#define FACILITY_ZARCH_ACTIVE         (1ULL << (63 - 2))
++    TempOptInfo *t1, *t2;
--#define FACILITY_LONG_DISP            (1ULL << (63 - 18))
--#define FACILITY_EXT_IMM              (1ULL << (63 - 21))
+     if (fold_const2(ctx, op) ||
--#define FACILITY_GEN_INST_EXT         (1ULL << (63 - 34))
+         fold_ix_to_i(ctx, op, 0) ||
--#define FACILITY_LOAD_ON_COND         (1ULL << (63 - 45))
+@@ -XXX,XX +XXX,XX @@ static bool fold_shift(OptContext *ctx, TCGOp *op)
-+#define FACILITY_ZARCH_ACTIVE         2
+         return true;
 +#define FACILITY_LONG_DISP            18
 +#define FACILITY_EXT_IMM              21
 +#define FACILITY_GEN_INST_EXT         34
 +#define FACILITY_LOAD_ON_COND         45
  #define FACILITY_FAST_BCR_SER         FACILITY_LOAD_ON_COND
  #define FACILITY_DISTINCT_OPS         FACILITY_LOAD_ON_COND
 -#define FACILITY_LOAD_ON_COND2        (1ULL << (63 - 53))
 +#define FACILITY_LOAD_ON_COND2        53
 -extern uint64_t s390_facilities;
 +extern uint64_t s390_facilities[1];
 +
 +#define HAVE_FACILITY(X) \
 +    ((s390_facilities[FACILITY_##X / 64] >> (63 - FACILITY_##X % 64)) & 1)
  /* optional instructions */
  #define TCG_TARGET_HAS_div2_i32       1
@@ -XXX,XX +XXX,XX @@ extern uint64_t s390_facilities;
  #define TCG_TARGET_HAS_clz_i32        0
  #define TCG_TARGET_HAS_ctz_i32        0
  #define TCG_TARGET_HAS_ctpop_i32      0
 -#define TCG_TARGET_HAS_deposit_i32    (s390_facilities & FACILITY_GEN_INST_EXT)
 -#define TCG_TARGET_HAS_extract_i32    (s390_facilities & FACILITY_GEN_INST_EXT)
 +#define TCG_TARGET_HAS_deposit_i32    HAVE_FACILITY(GEN_INST_EXT)
 +#define TCG_TARGET_HAS_extract_i32    HAVE_FACILITY(GEN_INST_EXT)
  #define TCG_TARGET_HAS_sextract_i32   0
  #define TCG_TARGET_HAS_extract2_i32   0
  #define TCG_TARGET_HAS_movcond_i32    1
@@ -XXX,XX +XXX,XX @@ extern uint64_t s390_facilities;
  #define TCG_TARGET_HAS_mulsh_i32      0
  #define TCG_TARGET_HAS_extrl_i64_i32  0
  #define TCG_TARGET_HAS_extrh_i64_i32  0
 -#define TCG_TARGET_HAS_direct_jump    (s390_facilities & FACILITY_GEN_INST_EXT)
 +#define TCG_TARGET_HAS_direct_jump    HAVE_FACILITY(GEN_INST_EXT)
  #define TCG_TARGET_HAS_qemu_st8_i32   0
  #define TCG_TARGET_HAS_div2_i64       1
@@ -XXX,XX +XXX,XX @@ extern uint64_t s390_facilities;
  #define TCG_TARGET_HAS_eqv_i64        0
  #define TCG_TARGET_HAS_nand_i64       0
  #define TCG_TARGET_HAS_nor_i64        0
 -#define TCG_TARGET_HAS_clz_i64        (s390_facilities & FACILITY_EXT_IMM)
 +#define TCG_TARGET_HAS_clz_i64        HAVE_FACILITY(EXT_IMM)
  #define TCG_TARGET_HAS_ctz_i64        0
  #define TCG_TARGET_HAS_ctpop_i64      0
 -#define TCG_TARGET_HAS_deposit_i64    (s390_facilities & FACILITY_GEN_INST_EXT)
 -#define TCG_TARGET_HAS_extract_i64    (s390_facilities & FACILITY_GEN_INST_EXT)
 +#define TCG_TARGET_HAS_deposit_i64    HAVE_FACILITY(GEN_INST_EXT)
 +#define TCG_TARGET_HAS_extract_i64    HAVE_FACILITY(GEN_INST_EXT)
  #define TCG_TARGET_HAS_sextract_i64   0
  #define TCG_TARGET_HAS_extract2_i64   0
  #define TCG_TARGET_HAS_movcond_i64    1
 diff --git a/tcg/s390x/tcg-target.c.inc b/tcg/s390x/tcg-target.c.inc
 index XXXXXXX..XXXXXXX 100644
 --- a/tcg/s390x/tcg-target.c.inc
 +++ b/tcg/s390x/tcg-target.c.inc
@@ -XXX,XX +XXX,XX @@
     We don't need this when we have pc-relative loads with the general
     instructions extension facility.  */
  #define TCG_REG_TB      TCG_REG_R12
 -#define USE_REG_TB      (!(s390_facilities & FACILITY_GEN_INST_EXT))
 +#define USE_REG_TB      (!HAVE_FACILITY(GEN_INST_EXT))
  #ifndef CONFIG_SOFTMMU
  #define TCG_GUEST_BASE_REG TCG_REG_R13
@@ -XXX,XX +XXX,XX @@ static void * const qemu_st_helpers[(MO_SIZE | MO_BSWAP) + 1] = {
  #endif
  static const tcg_insn_unit *tb_ret_addr;
 -uint64_t s390_facilities;
 +uint64_t s390_facilities[1];
  static bool patch_reloc(tcg_insn_unit *src_rw, int type,
                          intptr_t value, intptr_t addend)
@@ -XXX,XX +XXX,XX @@ static void tcg_out_movi_int(TCGContext *s, TCGType type, TCGReg ret,
      }
-     /* Try all 48-bit insns that can load it in one go.  */
+-    s_mask = arg_info(op->args[1])->s_mask;
--    if (s390_facilities & FACILITY_EXT_IMM) {
+-    z_mask = arg_info(op->args[1])->z_mask;
-+    if (HAVE_FACILITY(EXT_IMM)) {
++    t1 = arg_info(op->args[1]);
-         if (sval == (int32_t)sval) {
++    t2 = arg_info(op->args[2]);
-             tcg_out_insn(s, RIL, LGFI, ret, sval);
++    s_mask = t1->s_mask;
-             return;
++    z_mask = t1->z_mask;
-@@ -XXX,XX +XXX,XX @@ static void tcg_out_movi_int(TCGContext *s, TCGType type, TCGReg ret,
 -    if (arg_is_const(op->args[2])) {
 -        int sh = arg_info(op->args[2])->val;
 -
 -        ctx->z_mask = do_constant_folding(op->opc, ctx->type, z_mask, sh);
 +    if (ti_is_const(t2)) {
 +        int sh = ti_const_val(t2);
 +        z_mask = do_constant_folding(op->opc, ctx->type, z_mask, sh);
          s_mask = do_constant_folding(op->opc, ctx->type, s_mask, sh);
 -        return fold_masks(ctx, op);
 +        return fold_masks_zs(ctx, op, z_mask, s_mask);
      }
-     /* Otherwise, stuff it in the constant pool.  */
+     switch (op->opc) {
--    if (s390_facilities & FACILITY_GEN_INST_EXT) {
+@@ -XXX,XX +XXX,XX @@ static bool fold_shift(OptContext *ctx, TCGOp *op)
-+    if (HAVE_FACILITY(GEN_INST_EXT)) {
+          * Arithmetic right shift will not reduce the number of
-         tcg_out_insn(s, RIL, LGRL, ret, 0);
+          * input sign repetitions.
-         new_pool_label(s, sval, R_390_PC32DBL, s->code_ptr - 2, 2);
+          */
-     } else if (USE_REG_TB && !in_prologue) {
+-        ctx->s_mask = s_mask;
-@@ -XXX,XX +XXX,XX @@ static void tcg_out_ld_abs(TCGContext *s, TCGType type,
+-        break;
- {
++        return fold_masks_s(ctx, op, s_mask);
-     intptr_t addr = (intptr_t)abs;
+     CASE_OP_32_64(shr):
+         /*
--    if ((s390_facilities & FACILITY_GEN_INST_EXT) && !(addr & 1)) {
+          * If the sign bit is known zero, then logical right shift
-+    if (HAVE_FACILITY(GEN_INST_EXT) && !(addr & 1)) {
+-         * will not reduced the number of input sign repetitions.
-         ptrdiff_t disp = tcg_pcrel_diff(s, abs) >> 1;
++         * will not reduce the number of input sign repetitions.
-         if (disp == (int32_t)disp) {
+          */
-             if (type == TCG_TYPE_I32) {
+-        sign = (s_mask & -s_mask) >> 1;
-@@ -XXX,XX +XXX,XX @@ static inline void tcg_out_risbg(TCGContext *s, TCGReg dest, TCGReg src,
++        sign = -s_mask;
+         if (sign && !(z_mask & sign)) {
- static void tgen_ext8s(TCGContext *s, TCGType type, TCGReg dest, TCGReg src)
+-            ctx->s_mask = s_mask;
- {
++            return fold_masks_s(ctx, op, s_mask);
 -    if (s390_facilities & FACILITY_EXT_IMM) {
 +    if (HAVE_FACILITY(EXT_IMM)) {
          tcg_out_insn(s, RRE, LGBR, dest, src);
          return;
      }
@@ -XXX,XX +XXX,XX @@ static void tgen_ext8s(TCGContext *s, TCGType type, TCGReg dest, TCGReg src)
  static void tgen_ext8u(TCGContext *s, TCGType type, TCGReg dest, TCGReg src)
  {
 -    if (s390_facilities & FACILITY_EXT_IMM) {
 +    if (HAVE_FACILITY(EXT_IMM)) {
          tcg_out_insn(s, RRE, LLGCR, dest, src);
          return;
      }
@@ -XXX,XX +XXX,XX @@ static void tgen_ext8u(TCGContext *s, TCGType type, TCGReg dest, TCGReg src)
  static void tgen_ext16s(TCGContext *s, TCGType type, TCGReg dest, TCGReg src)
  {
 -    if (s390_facilities & FACILITY_EXT_IMM) {
 +    if (HAVE_FACILITY(EXT_IMM)) {
          tcg_out_insn(s, RRE, LGHR, dest, src);
          return;
      }
@@ -XXX,XX +XXX,XX @@ static void tgen_ext16s(TCGContext *s, TCGType type, TCGReg dest, TCGReg src)
  static void tgen_ext16u(TCGContext *s, TCGType type, TCGReg dest, TCGReg src)
  {
 -    if (s390_facilities & FACILITY_EXT_IMM) {
 +    if (HAVE_FACILITY(EXT_IMM)) {
          tcg_out_insn(s, RRE, LLGHR, dest, src);
          return;
      }
@@ -XXX,XX +XXX,XX @@ static void tgen_andi(TCGContext *s, TCGType type, TCGReg dest, uint64_t val)
          tgen_ext32u(s, dest, dest);
          return;
      }
 -    if (s390_facilities & FACILITY_EXT_IMM) {
 +    if (HAVE_FACILITY(EXT_IMM)) {
          if ((val & valid) == 0xff) {
              tgen_ext8u(s, TCG_TYPE_I64, dest, dest);
              return;
@@ -XXX,XX +XXX,XX @@ static void tgen_andi(TCGContext *s, TCGType type, TCGReg dest, uint64_t val)
      }
      /* Try all 48-bit insns that can perform it in one go.  */
 -    if (s390_facilities & FACILITY_EXT_IMM) {
 +    if (HAVE_FACILITY(EXT_IMM)) {
          for (i = 0; i < 2; i++) {
              tcg_target_ulong mask = ~(0xffffffffull << i*32);
              if (((val | ~valid) & mask) == mask) {
@@ -XXX,XX +XXX,XX @@ static void tgen_andi(TCGContext *s, TCGType type, TCGReg dest, uint64_t val)
              }
          }
      }
 -    if ((s390_facilities & FACILITY_GEN_INST_EXT) && risbg_mask(val)) {
 +    if (HAVE_FACILITY(GEN_INST_EXT) && risbg_mask(val)) {
          tgen_andi_risbg(s, dest, dest, val);
          return;
      }
@@ -XXX,XX +XXX,XX @@ static void tgen_ori(TCGContext *s, TCGType type, TCGReg dest, uint64_t val)
      }
      /* Try all 48-bit insns that can perform it in one go.  */
 -    if (s390_facilities & FACILITY_EXT_IMM) {
 +    if (HAVE_FACILITY(EXT_IMM)) {
          for (i = 0; i < 2; i++) {
              tcg_target_ulong mask = (0xffffffffull << i*32);
              if ((val & mask) != 0 && (val & ~mask) == 0) {
@@ -XXX,XX +XXX,XX @@ static void tgen_ori(TCGContext *s, TCGType type, TCGReg dest, uint64_t val)
          /* Perform the OR via sequential modifications to the high and
             low parts.  Do this via recursion to handle 16-bit vs 32-bit
             masks in each half.  */
 -        tcg_debug_assert(s390_facilities & FACILITY_EXT_IMM);
 +        tcg_debug_assert(HAVE_FACILITY(EXT_IMM));
          tgen_ori(s, type, dest, val & 0x00000000ffffffffull);
          tgen_ori(s, type, dest, val & 0xffffffff00000000ull);
      }
@@ -XXX,XX +XXX,XX @@ static void tgen_ori(TCGContext *s, TCGType type, TCGReg dest, uint64_t val)
  static void tgen_xori(TCGContext *s, TCGType type, TCGReg dest, uint64_t val)
  {
      /* Try all 48-bit insns that can perform it in one go.  */
 -    if (s390_facilities & FACILITY_EXT_IMM) {
 +    if (HAVE_FACILITY(EXT_IMM)) {
          if ((val & 0xffffffff00000000ull) == 0) {
              tcg_out_insn(s, RIL, XILF, dest, val);
              return;
@@ -XXX,XX +XXX,XX @@ static void tgen_xori(TCGContext *s, TCGType type, TCGReg dest, uint64_t val)
                         tcg_tbrel_diff(s, NULL));
      } else {
          /* Perform the xor by parts.  */
 -        tcg_debug_assert(s390_facilities & FACILITY_EXT_IMM);
 +        tcg_debug_assert(HAVE_FACILITY(EXT_IMM));
          if (val & 0xffffffff) {
              tcg_out_insn(s, RIL, XILF, dest, val);
          }
@@ -XXX,XX +XXX,XX @@ static int tgen_cmp(TCGContext *s, TCGType type, TCGCond c, TCGReg r1,
              goto exit;
          }
 -        if (s390_facilities & FACILITY_EXT_IMM) {
 +        if (HAVE_FACILITY(EXT_IMM)) {
              if (type == TCG_TYPE_I32) {
                  op = (is_unsigned ? RIL_CLFI : RIL_CFI);
                  tcg_out_insn_RIL(s, op, r1, c2);
@@ -XXX,XX +XXX,XX @@ static void tgen_setcond(TCGContext *s, TCGType type, TCGCond cond,
      bool have_loc;
      /* With LOC2, we can always emit the minimum 3 insns.  */
 -    if (s390_facilities & FACILITY_LOAD_ON_COND2) {
 +    if (HAVE_FACILITY(LOAD_ON_COND2)) {
          /* Emit: d = 0, d = (cc ? 1 : d).  */
          cc = tgen_cmp(s, type, cond, c1, c2, c2const, false);
          tcg_out_movi(s, TCG_TYPE_I64, dest, 0);
@@ -XXX,XX +XXX,XX @@ static void tgen_setcond(TCGContext *s, TCGType type, TCGCond cond,
          return;
      }
 -    have_loc = (s390_facilities & FACILITY_LOAD_ON_COND) != 0;
 +    have_loc = HAVE_FACILITY(LOAD_ON_COND);
      /* For HAVE_LOC, only the paths through GTU/GT/LEU/LE are smaller.  */
   restart:
@@ -XXX,XX +XXX,XX @@ static void tgen_movcond(TCGContext *s, TCGType type, TCGCond c, TCGReg dest,
                           TCGArg v3, int v3const)
  {
      int cc;
 -    if (s390_facilities & FACILITY_LOAD_ON_COND) {
 +    if (HAVE_FACILITY(LOAD_ON_COND)) {
          cc = tgen_cmp(s, type, c, c1, c2, c2const, false);
          if (v3const) {
              tcg_out_insn(s, RIE, LOCGHI, dest, v3, cc);
@@ -XXX,XX +XXX,XX @@ static void tgen_clz(TCGContext *s, TCGReg dest, TCGReg a1,
          } else {
              tcg_out_mov(s, TCG_TYPE_I64, dest, a2);
          }
 -        if (s390_facilities & FACILITY_LOAD_ON_COND) {
 +        if (HAVE_FACILITY(LOAD_ON_COND)) {
              /* Emit: if (one bit found) dest = r0.  */
              tcg_out_insn(s, RRF, LOCGR, dest, TCG_REG_R0, 2);
          } else {
@@ -XXX,XX +XXX,XX @@ static void tgen_brcond(TCGContext *s, TCGType type, TCGCond c,
  {
      int cc;
 -    if (s390_facilities & FACILITY_GEN_INST_EXT) {
 +    if (HAVE_FACILITY(GEN_INST_EXT)) {
          bool is_unsigned = is_unsigned_cond(c);
          bool in_range;
          S390Opcode opc;
@@ -XXX,XX +XXX,XX @@ static TCGReg tcg_out_tlb_read(TCGContext *s, TCGReg addr_reg, MemOp opc,
         cross pages using the address of the last byte of the access.  */
      a_off = (a_bits >= s_bits ? 0 : s_mask - a_mask);
      tlb_mask = (uint64_t)TARGET_PAGE_MASK | a_mask;
 -    if ((s390_facilities & FACILITY_GEN_INST_EXT) && a_off == 0) {
 +    if (HAVE_FACILITY(GEN_INST_EXT) && a_off == 0) {
          tgen_andi_risbg(s, TCG_REG_R3, addr_reg, tlb_mask);
      } else {
          tcg_out_insn(s, RX, LA, TCG_REG_R3, addr_reg, TCG_REG_NONE, a_off);
@@ -XXX,XX +XXX,XX @@ static inline void tcg_out_op(TCGContext *s, TCGOpcode opc,
                      tcg_out_insn(s, RI, AHI, a0, a2);
                      break;
                  }
 -                if (s390_facilities & FACILITY_EXT_IMM) {
 +                if (HAVE_FACILITY(EXT_IMM)) {
                      tcg_out_insn(s, RIL, AFI, a0, a2);
                      break;
                  }
@@ -XXX,XX +XXX,XX @@ static inline void tcg_out_op(TCGContext *s, TCGOpcode opc,
                      tcg_out_insn(s, RI, AGHI, a0, a2);
                      break;
                  }
 -                if (s390_facilities & FACILITY_EXT_IMM) {
 +                if (HAVE_FACILITY(EXT_IMM)) {
                      if (a2 == (int32_t)a2) {
                          tcg_out_insn(s, RIL, AGFI, a0, a2);
                          break;
@@ -XXX,XX +XXX,XX @@ static inline void tcg_out_op(TCGContext *s, TCGOpcode opc,
          /* The host memory model is quite strong, we simply need to
             serialize the instruction stream.  */
          if (args[0] & TCG_MO_ST_LD) {
 -            tcg_out_insn(s, RR, BCR,
 -                         s390_facilities & FACILITY_FAST_BCR_SER ? 14 : 15, 0);
 +            tcg_out_insn(s, RR, BCR, HAVE_FACILITY(FAST_BCR_SER) ? 14 : 15, 0);
          }
          break;
+     default:
-@@ -XXX,XX +XXX,XX @@ static TCGConstraintSetIndex tcg_target_op_def(TCGOpcode op)
+         break;
      case INDEX_op_or_i64:
      case INDEX_op_xor_i32:
      case INDEX_op_xor_i64:
 -        return (s390_facilities & FACILITY_DISTINCT_OPS
 +        return (HAVE_FACILITY(DISTINCT_OPS)
                  ? C_O1_I2(r, r, ri)
                  : C_O1_I2(r, 0, ri));
@@ -XXX,XX +XXX,XX @@ static TCGConstraintSetIndex tcg_target_op_def(TCGOpcode op)
          /* If we have the general-instruction-extensions, then we have
             MULTIPLY SINGLE IMMEDIATE with a signed 32-bit, otherwise we
             have only MULTIPLY HALFWORD IMMEDIATE, with a signed 16-bit.  */
 -        return (s390_facilities & FACILITY_GEN_INST_EXT
 +        return (HAVE_FACILITY(GEN_INST_EXT)
                  ? C_O1_I2(r, 0, ri)
                  : C_O1_I2(r, 0, rI));
      case INDEX_op_mul_i64:
 -        return (s390_facilities & FACILITY_GEN_INST_EXT
 +        return (HAVE_FACILITY(GEN_INST_EXT)
                  ? C_O1_I2(r, 0, rJ)
                  : C_O1_I2(r, 0, rI));
      case INDEX_op_shl_i32:
      case INDEX_op_shr_i32:
      case INDEX_op_sar_i32:
 -        return (s390_facilities & FACILITY_DISTINCT_OPS
 +        return (HAVE_FACILITY(DISTINCT_OPS)
                  ? C_O1_I2(r, r, ri)
                  : C_O1_I2(r, 0, ri));
@@ -XXX,XX +XXX,XX @@ static TCGConstraintSetIndex tcg_target_op_def(TCGOpcode op)
      case INDEX_op_movcond_i32:
      case INDEX_op_movcond_i64:
 -        return (s390_facilities & FACILITY_LOAD_ON_COND2
 +        return (HAVE_FACILITY(LOAD_ON_COND2)
                  ? C_O1_I4(r, r, ri, rI, 0)
                  : C_O1_I4(r, r, ri, r, 0));
@@ -XXX,XX +XXX,XX @@ static TCGConstraintSetIndex tcg_target_op_def(TCGOpcode op)
      case INDEX_op_add2_i32:
      case INDEX_op_sub2_i32:
 -        return (s390_facilities & FACILITY_EXT_IMM
 +        return (HAVE_FACILITY(EXT_IMM)
                  ? C_O2_I4(r, r, 0, 1, ri, r)
                  : C_O2_I4(r, r, 0, 1, r, r));
      case INDEX_op_add2_i64:
      case INDEX_op_sub2_i64:
 -        return (s390_facilities & FACILITY_EXT_IMM
 +        return (HAVE_FACILITY(EXT_IMM)
                  ? C_O2_I4(r, r, 0, 1, rA, r)
                  : C_O2_I4(r, r, 0, 1, r, r));
@@ -XXX,XX +XXX,XX @@ static void query_s390_facilities(void)
      /* Is STORE FACILITY LIST EXTENDED available?  Honestly, I believe this
         is present on all 64-bit systems, but let's check for it anyway.  */
      if (hwcap & HWCAP_S390_STFLE) {
 -        register int r0 __asm__("0");
 -        register void *r1 __asm__("1");
 +        register int r0 __asm__("0") = ARRAY_SIZE(s390_facilities) - 1;
 +        register void *r1 __asm__("1") = s390_facilities;
          /* stfle 0(%r1) */
 -        r1 = &s390_facilities;
          asm volatile(".word 0xb2b0,0x1000"
 -                     : "=r"(r0) : "0"(0), "r"(r1) : "memory", "cc");
 +                     : "=r"(r0) : "r"(r0), "r"(r1) : "memory", "cc");
      }
+-    return false;
++    return finish_folding(ctx, op);
  }
+ static bool fold_sub_to_neg(OptContext *ctx, TCGOp *op)
 --
-.25.1
+.43.0

-New patch
+[PULL 44/72] tcg/optimize: Simplify sign bit test in fold_shift
+Merge the two conditions, sign != 0 && !(z_mask & sign),
+by testing ~z_mask & sign.   If sign == 0, the logical and
+will produce false.
+Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
+Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
+---
+ tcg/optimize.c | 5 ++---
+file changed, 2 insertions(+), 3 deletions(-)
+diff --git a/tcg/optimize.c b/tcg/optimize.c
+index XXXXXXX..XXXXXXX 100644
+--- a/tcg/optimize.c
++++ b/tcg/optimize.c
+@@ -XXX,XX +XXX,XX @@ static bool fold_sextract(OptContext *ctx, TCGOp *op)
+ static bool fold_shift(OptContext *ctx, TCGOp *op)
+ {
+-    uint64_t s_mask, z_mask, sign;
++    uint64_t s_mask, z_mask;
+     TempOptInfo *t1, *t2;
+     if (fold_const2(ctx, op) ||
+@@ -XXX,XX +XXX,XX @@ static bool fold_shift(OptContext *ctx, TCGOp *op)
+          * If the sign bit is known zero, then logical right shift
+          * will not reduce the number of input sign repetitions.
+          */
+-        sign = -s_mask;
+-        if (sign && !(z_mask & sign)) {
++        if (~z_mask & -s_mask) {
+             return fold_masks_s(ctx, op, s_mask);
+         }
+         break;
+--
+.43.0

-New patch
+[PULL 45/72] tcg/optimize: Use finish_folding in fold_sub, fold_sub_vec
+Duplicate fold_sub_vec into fold_sub instead of calling it,
+now that fold_sub_vec always returns true.
+Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
+Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
+---
+ tcg/optimize.c | 9 ++++++---
+file changed, 6 insertions(+), 3 deletions(-)
+diff --git a/tcg/optimize.c b/tcg/optimize.c
+index XXXXXXX..XXXXXXX 100644
+--- a/tcg/optimize.c
++++ b/tcg/optimize.c
+@@ -XXX,XX +XXX,XX @@ static bool fold_sub_vec(OptContext *ctx, TCGOp *op)
+         fold_sub_to_neg(ctx, op)) {
+         return true;
+     }
+-    return false;
++    return finish_folding(ctx, op);
+ }
+ static bool fold_sub(OptContext *ctx, TCGOp *op)
+ {
+-    if (fold_const2(ctx, op) || fold_sub_vec(ctx, op)) {
++    if (fold_const2(ctx, op) ||
++        fold_xx_to_i(ctx, op, 0) ||
++        fold_xi_to_x(ctx, op, 0) ||
++        fold_sub_to_neg(ctx, op)) {
+         return true;
+     }
+@@ -XXX,XX +XXX,XX @@ static bool fold_sub(OptContext *ctx, TCGOp *op)
+                    ? INDEX_op_add_i32 : INDEX_op_add_i64);
+         op->args[2] = arg_new_constant(ctx, -val);
+     }
+-    return false;
++    return finish_folding(ctx, op);
+ }
+ static bool fold_sub2(OptContext *ctx, TCGOp *op)
+--
+.43.0

-New patch
+[PULL 46/72] tcg/optimize: Use fold_masks_zs in fold_tcg_ld
+Avoid the use of the OptContext slots.
+Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
+Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
+---
+ tcg/optimize.c | 16 +++++++++-------
+file changed, 9 insertions(+), 7 deletions(-)
+diff --git a/tcg/optimize.c b/tcg/optimize.c
+index XXXXXXX..XXXXXXX 100644
+--- a/tcg/optimize.c
++++ b/tcg/optimize.c
+@@ -XXX,XX +XXX,XX @@ static bool fold_sub2(OptContext *ctx, TCGOp *op)
+ static bool fold_tcg_ld(OptContext *ctx, TCGOp *op)
+ {
++    uint64_t z_mask = -1, s_mask = 0;
++
+     /* We can't do any folding with a load, but we can record bits. */
+     switch (op->opc) {
+     CASE_OP_32_64(ld8s):
+-        ctx->s_mask = MAKE_64BIT_MASK(8, 56);
++        s_mask = INT8_MIN;
+         break;
+     CASE_OP_32_64(ld8u):
+-        ctx->z_mask = MAKE_64BIT_MASK(0, 8);
++        z_mask = MAKE_64BIT_MASK(0, 8);
+         break;
+     CASE_OP_32_64(ld16s):
+-        ctx->s_mask = MAKE_64BIT_MASK(16, 48);
++        s_mask = INT16_MIN;
+         break;
+     CASE_OP_32_64(ld16u):
+-        ctx->z_mask = MAKE_64BIT_MASK(0, 16);
++        z_mask = MAKE_64BIT_MASK(0, 16);
+         break;
+     case INDEX_op_ld32s_i64:
+-        ctx->s_mask = MAKE_64BIT_MASK(32, 32);
++        s_mask = INT32_MIN;
+         break;
+     case INDEX_op_ld32u_i64:
+-        ctx->z_mask = MAKE_64BIT_MASK(0, 32);
++        z_mask = MAKE_64BIT_MASK(0, 32);
+         break;
+     default:
+         g_assert_not_reached();
+     }
+-    return false;
++    return fold_masks_zs(ctx, op, z_mask, s_mask);
+ }
+ static bool fold_tcg_ld_memcopy(OptContext *ctx, TCGOp *op)
+--
+.43.0

-New patch
+[PULL 47/72] tcg/optimize: Use finish_folding in fold_tcg_ld_memcopy
+Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
+Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
+---
+ tcg/optimize.c | 2 +-
+file changed, 1 insertion(+), 1 deletion(-)
+diff --git a/tcg/optimize.c b/tcg/optimize.c
+index XXXXXXX..XXXXXXX 100644
+--- a/tcg/optimize.c
++++ b/tcg/optimize.c
+@@ -XXX,XX +XXX,XX @@ static bool fold_tcg_ld_memcopy(OptContext *ctx, TCGOp *op)
+     TCGType type;
+     if (op->args[1] != tcgv_ptr_arg(tcg_env)) {
+-        return false;
++        return finish_folding(ctx, op);
+     }
+     type = ctx->type;
+--
+.43.0

-New patch
+[PULL 48/72] tcg/optimize: Use fold_masks_zs in fold_xor
+Avoid the use of the OptContext slots.  Find TempOptInfo once.
+Remove fold_masks as the function becomes unused.
+Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
+Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
+---
+ tcg/optimize.c | 18 ++++++++----------
+file changed, 8 insertions(+), 10 deletions(-)
+diff --git a/tcg/optimize.c b/tcg/optimize.c
+index XXXXXXX..XXXXXXX 100644
+--- a/tcg/optimize.c
++++ b/tcg/optimize.c
+@@ -XXX,XX +XXX,XX @@ static bool fold_masks_s(OptContext *ctx, TCGOp *op, uint64_t s_mask)
+     return fold_masks_zs(ctx, op, -1, s_mask);
+ }
+-static bool fold_masks(OptContext *ctx, TCGOp *op)
+-{
+-    return fold_masks_zs(ctx, op, ctx->z_mask, ctx->s_mask);
+-}
+-
+ /*
+  * An "affected" mask bit is 0 if and only if the result is identical
+  * to the first input.  Thus if the entire mask is 0, the operation
+@@ -XXX,XX +XXX,XX @@ static bool fold_tcg_st_memcopy(OptContext *ctx, TCGOp *op)
+ static bool fold_xor(OptContext *ctx, TCGOp *op)
+ {
++    uint64_t z_mask, s_mask;
++    TempOptInfo *t1, *t2;
++
+     if (fold_const2_commutative(ctx, op) ||
+         fold_xx_to_i(ctx, op, 0) ||
+         fold_xi_to_x(ctx, op, 0) ||
+@@ -XXX,XX +XXX,XX @@ static bool fold_xor(OptContext *ctx, TCGOp *op)
+         return true;
+     }
+-    ctx->z_mask = arg_info(op->args[1])->z_mask
+-                | arg_info(op->args[2])->z_mask;
+-    ctx->s_mask = arg_info(op->args[1])->s_mask
+-                & arg_info(op->args[2])->s_mask;
+-    return fold_masks(ctx, op);
++    t1 = arg_info(op->args[1]);
++    t2 = arg_info(op->args[2]);
++    z_mask = t1->z_mask | t2->z_mask;
++    s_mask = t1->s_mask & t2->s_mask;
++    return fold_masks_zs(ctx, op, z_mask, s_mask);
+ }
+ static bool fold_bitsel_vec(OptContext *ctx, TCGOp *op)
+--
+.43.0

-New patch
+[PULL 49/72] tcg/optimize: Use finish_folding in fold_bitsel_vec
+Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
+Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
+---
+ tcg/optimize.c | 2 +-
+file changed, 1 insertion(+), 1 deletion(-)
+diff --git a/tcg/optimize.c b/tcg/optimize.c
+index XXXXXXX..XXXXXXX 100644
+--- a/tcg/optimize.c
++++ b/tcg/optimize.c
+@@ -XXX,XX +XXX,XX @@ static bool fold_bitsel_vec(OptContext *ctx, TCGOp *op)
+             return fold_orc(ctx, op);
+         }
+     }
+-    return false;
++    return finish_folding(ctx, op);
+ }
+ /* Propagate constants and copies, fold constant expressions. */
+--
+.43.0

-New patch
+[PULL 50/72] tcg/optimize: Use finish_folding as default in tcg_optimize
+All non-default cases now finish folding within each function.
+Do the same with the default case and assert it is done after.
+Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
+Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
+---
+ tcg/optimize.c | 6 ++----
+file changed, 2 insertions(+), 4 deletions(-)
+diff --git a/tcg/optimize.c b/tcg/optimize.c
+index XXXXXXX..XXXXXXX 100644
+--- a/tcg/optimize.c
++++ b/tcg/optimize.c
+@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
+             done = true;
+             break;
+         default:
++            done = finish_folding(&ctx, op);
+             break;
+         }
+-
+-        if (!done) {
+-            finish_folding(&ctx, op);
+-        }
++        tcg_debug_assert(done);
+     }
+ }
+--
+.43.0

-New patch
+[PULL 51/72] tcg/optimize: Remove z_mask, s_mask from OptContext
+All mask setting is now done with parameters via fold_masks_*.
+Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
+Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
+---
+ tcg/optimize.c | 13 -------------
+file changed, 13 deletions(-)
+diff --git a/tcg/optimize.c b/tcg/optimize.c
+index XXXXXXX..XXXXXXX 100644
+--- a/tcg/optimize.c
++++ b/tcg/optimize.c
+@@ -XXX,XX +XXX,XX @@ typedef struct OptContext {
+     QSIMPLEQ_HEAD(, MemCopyInfo) mem_free;
+     /* In flight values from optimization. */
+-    uint64_t z_mask;  /* mask bit is 0 iff value bit is 0 */
+-    uint64_t s_mask;  /* mask bit is 1 if value bit matches msb */
+     TCGType type;
+ } OptContext;
+@@ -XXX,XX +XXX,XX @@ static bool finish_folding(OptContext *ctx, TCGOp *op)
+     for (i = 0; i < nb_oargs; i++) {
+         TCGTemp *ts = arg_temp(op->args[i]);
+         reset_ts(ctx, ts);
+-        /*
+-         * Save the corresponding known-zero/sign bits mask for the
+-         * first output argument (only one supported so far).
+-         */
+-        if (i == 0) {
+-            ts_info(ts)->z_mask = ctx->z_mask;
+-        }
+     }
+     return true;
+ }
+@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
+             ctx.type = TCG_TYPE_I32;
+         }
+-        /* Assume all bits affected, no bits known zero, no sign reps. */
+-        ctx.z_mask = -1;
+-        ctx.s_mask = 0;
+-
+         /*
+          * Process each opcode.
+          * Sorted alphabetically by opcode as much as possible.
+--
+.43.0

-New patch
+[PULL 52/72] tcg/optimize: Re-enable sign-mask optimizations
+All instances of s_mask have been converted to the new
+representation.  We can now re-enable usage.
+Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
+Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
+---
+ tcg/optimize.c | 4 ++--
+file changed, 2 insertions(+), 2 deletions(-)
+diff --git a/tcg/optimize.c b/tcg/optimize.c
+index XXXXXXX..XXXXXXX 100644
+--- a/tcg/optimize.c
++++ b/tcg/optimize.c
+@@ -XXX,XX +XXX,XX @@ static bool fold_exts(OptContext *ctx, TCGOp *op)
+         g_assert_not_reached();
+     }
+-    if (0 && !type_change && fold_affected_mask(ctx, op, s_mask & ~s_mask_old)) {
++    if (!type_change && fold_affected_mask(ctx, op, s_mask & ~s_mask_old)) {
+         return true;
+     }
+@@ -XXX,XX +XXX,XX @@ static bool fold_sextract(OptContext *ctx, TCGOp *op)
+     s_mask = s_mask_old >> pos;
+     s_mask |= -1ull << (len - 1);
+-    if (0 && pos == 0 && fold_affected_mask(ctx, op, s_mask & ~s_mask_old)) {
++    if (pos == 0 && fold_affected_mask(ctx, op, s_mask & ~s_mask_old)) {
+         return true;
+     }
+--
+.43.0

-[PULL 11/28] trace: Split guest_mem_before
+[PULL 53/72] tcg/optimize: Move fold_bitsel_vec into alphabetic sort
-There is no point in encoding load/store within a bit of
+The big comment just above says functions should be sorted.
-the memory trace info operand.  Represent atomic operations
+Add forward declarations as needed.
 as a single read-modify-write tracepoint.  Use MemOpIdx
 instead of inventing a form specifically for traces.
-Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
+Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- accel/tcg/atomic_template.h   |  1 -
+ tcg/optimize.c | 114 +++++++++++++++++++++++++------------------------
- trace/mem.h                   | 51 -----------------------------------
+file changed, 59 insertions(+), 55 deletions(-)
  accel/tcg/cputlb.c            |  7 ++---
  accel/tcg/user-exec.c         | 44 +++++++++++-------------------
  tcg/tcg-op.c                  | 17 +++---------
  accel/tcg/atomic_common.c.inc | 12 +++------
  trace-events                  | 18 +++----------
 files changed, 28 insertions(+), 122 deletions(-)
  delete mode 100644 trace/mem.h
-diff --git a/accel/tcg/atomic_template.h b/accel/tcg/atomic_template.h
+diff --git a/tcg/optimize.c b/tcg/optimize.c
 index XXXXXXX..XXXXXXX 100644
---- a/accel/tcg/atomic_template.h
+--- a/tcg/optimize.c
-+++ b/accel/tcg/atomic_template.h
++++ b/tcg/optimize.c
-@@ -XXX,XX +XXX,XX @@
+@@ -XXX,XX +XXX,XX @@ static bool fold_xx_to_x(OptContext *ctx, TCGOp *op)
   *   3) those that produce information about the result value.
   */
- #include "qemu/plugin.h"
++static bool fold_or(OptContext *ctx, TCGOp *op);
--#include "trace/mem.h"
++static bool fold_orc(OptContext *ctx, TCGOp *op);
++static bool fold_xor(OptContext *ctx, TCGOp *op);
- #if DATA_SIZE == 16
++
- # define SUFFIX     o
+ static bool fold_add(OptContext *ctx, TCGOp *op)
-diff --git a/trace/mem.h b/trace/mem.h
+ {
-deleted file mode 100644
+     if (fold_const2_commutative(ctx, op) ||
-index XXXXXXX..XXXXXXX
+@@ -XXX,XX +XXX,XX @@ static bool fold_andc(OptContext *ctx, TCGOp *op)
---- a/trace/mem.h
+     return fold_masks_zs(ctx, op, z_mask, s_mask);
-+++ /dev/null
+ }
-@@ -XXX,XX +XXX,XX @@
--/*
++static bool fold_bitsel_vec(OptContext *ctx, TCGOp *op)
-- * Helper functions for guest memory tracing
++{
-- *
++    /* If true and false values are the same, eliminate the cmp. */
-- * Copyright (C) 2016 Lluís Vilanova <vilanova@ac.upc.edu>
++    if (args_are_copies(op->args[2], op->args[3])) {
-- *
++        return tcg_opt_gen_mov(ctx, op, op->args[0], op->args[2]);
-- * This work is licensed under the terms of the GNU GPL, version 2 or later.
++    }
-- * See the COPYING file in the top-level directory.
++
-- */
++    if (arg_is_const(op->args[2]) && arg_is_const(op->args[3])) {
 +        uint64_t tv = arg_info(op->args[2])->val;
 +        uint64_t fv = arg_info(op->args[3])->val;
 +
 +        if (tv == -1 && fv == 0) {
 +            return tcg_opt_gen_mov(ctx, op, op->args[0], op->args[1]);
 +        }
 +        if (tv == 0 && fv == -1) {
 +            if (TCG_TARGET_HAS_not_vec) {
 +                op->opc = INDEX_op_not_vec;
 +                return fold_not(ctx, op);
 +            } else {
 +                op->opc = INDEX_op_xor_vec;
 +                op->args[2] = arg_new_constant(ctx, -1);
 +                return fold_xor(ctx, op);
 +            }
 +        }
 +    }
 +    if (arg_is_const(op->args[2])) {
 +        uint64_t tv = arg_info(op->args[2])->val;
 +        if (tv == -1) {
 +            op->opc = INDEX_op_or_vec;
 +            op->args[2] = op->args[3];
 +            return fold_or(ctx, op);
 +        }
 +        if (tv == 0 && TCG_TARGET_HAS_andc_vec) {
 +            op->opc = INDEX_op_andc_vec;
 +            op->args[2] = op->args[1];
 +            op->args[1] = op->args[3];
 +            return fold_andc(ctx, op);
 +        }
 +    }
 +    if (arg_is_const(op->args[3])) {
 +        uint64_t fv = arg_info(op->args[3])->val;
 +        if (fv == 0) {
 +            op->opc = INDEX_op_and_vec;
 +            return fold_and(ctx, op);
 +        }
 +        if (fv == -1 && TCG_TARGET_HAS_orc_vec) {
 +            op->opc = INDEX_op_orc_vec;
 +            op->args[2] = op->args[1];
 +            op->args[1] = op->args[3];
 +            return fold_orc(ctx, op);
 +        }
 +    }
 +    return finish_folding(ctx, op);
 +}
 +
  static bool fold_brcond(OptContext *ctx, TCGOp *op)
  {
      int i = do_constant_folding_cond1(ctx, op, NO_DEST, &op->args[0],
@@ -XXX,XX +XXX,XX @@ static bool fold_xor(OptContext *ctx, TCGOp *op)
      return fold_masks_zs(ctx, op, z_mask, s_mask);
  }
 -static bool fold_bitsel_vec(OptContext *ctx, TCGOp *op)
 -{
 -    /* If true and false values are the same, eliminate the cmp. */
 -    if (args_are_copies(op->args[2], op->args[3])) {
 -        return tcg_opt_gen_mov(ctx, op, op->args[0], op->args[2]);
 -    }
 -
--#ifndef TRACE__MEM_H
+-    if (arg_is_const(op->args[2]) && arg_is_const(op->args[3])) {
--#define TRACE__MEM_H
+-        uint64_t tv = arg_info(op->args[2])->val;
 -        uint64_t fv = arg_info(op->args[3])->val;
 -
--#include "exec/memopidx.h"
+-        if (tv == -1 && fv == 0) {
--
+-            return tcg_opt_gen_mov(ctx, op, op->args[0], op->args[1]);
--#define TRACE_MEM_SZ_SHIFT_MASK 0xf /* size shift mask */
+-        }
--#define TRACE_MEM_SE (1ULL << 4)    /* sign extended (y/n) */
+-        if (tv == 0 && fv == -1) {
--#define TRACE_MEM_BE (1ULL << 5)    /* big endian (y/n) */
+-            if (TCG_TARGET_HAS_not_vec) {
--#define TRACE_MEM_ST (1ULL << 6)    /* store (y/n) */
+-                op->opc = INDEX_op_not_vec;
--#define TRACE_MEM_MMU_SHIFT 8       /* mmu idx */
+-                return fold_not(ctx, op);
--
+-            } else {
--/**
+-                op->opc = INDEX_op_xor_vec;
-- * trace_mem_get_info:
+-                op->args[2] = arg_new_constant(ctx, -1);
-- *
+-                return fold_xor(ctx, op);
-- * Return a value for the 'info' argument in guest memory access traces.
+-            }
-- */
+-        }
 -static inline uint16_t trace_mem_get_info(MemOpIdx oi, bool store)
 -{
 -    MemOp op = get_memop(oi);
 -    uint32_t size_shift = op & MO_SIZE;
 -    bool sign_extend = op & MO_SIGN;
 -    bool big_endian = (op & MO_BSWAP) == MO_BE;
 -    uint16_t res;
 -
 -    res = size_shift & TRACE_MEM_SZ_SHIFT_MASK;
 -    if (sign_extend) {
 -        res |= TRACE_MEM_SE;
 -    }
--    if (big_endian) {
+-    if (arg_is_const(op->args[2])) {
--        res |= TRACE_MEM_BE;
+-        uint64_t tv = arg_info(op->args[2])->val;
 -        if (tv == -1) {
 -            op->opc = INDEX_op_or_vec;
 -            op->args[2] = op->args[3];
 -            return fold_or(ctx, op);
 -        }
 -        if (tv == 0 && TCG_TARGET_HAS_andc_vec) {
 -            op->opc = INDEX_op_andc_vec;
 -            op->args[2] = op->args[1];
 -            op->args[1] = op->args[3];
 -            return fold_andc(ctx, op);
 -        }
 -    }
--    if (store) {
+-    if (arg_is_const(op->args[3])) {
--        res |= TRACE_MEM_ST;
+-        uint64_t fv = arg_info(op->args[3])->val;
 -        if (fv == 0) {
 -            op->opc = INDEX_op_and_vec;
 -            return fold_and(ctx, op);
 -        }
 -        if (fv == -1 && TCG_TARGET_HAS_orc_vec) {
 -            op->opc = INDEX_op_orc_vec;
 -            op->args[2] = op->args[1];
 -            op->args[1] = op->args[3];
 -            return fold_orc(ctx, op);
 -        }
 -    }
--#ifdef CONFIG_SOFTMMU
+-    return finish_folding(ctx, op);
 -    res |= get_mmuidx(oi) << TRACE_MEM_MMU_SHIFT;
 -#endif
 -
 -    return res;
 -}
 -
--#endif /* TRACE__MEM_H */
+ /* Propagate constants and copies, fold constant expressions. */
-diff --git a/accel/tcg/cputlb.c b/accel/tcg/cputlb.c
+ void tcg_optimize(TCGContext *s)
 index XXXXXXX..XXXXXXX 100644
 --- a/accel/tcg/cputlb.c
 +++ b/accel/tcg/cputlb.c
@@ -XXX,XX +XXX,XX @@
  #include "qemu/atomic128.h"
  #include "exec/translate-all.h"
  #include "trace/trace-root.h"
 -#include "trace/mem.h"
  #include "tb-hash.h"
  #include "internal.h"
  #ifdef CONFIG_PLUGIN
@@ -XXX,XX +XXX,XX @@ static inline uint64_t cpu_load_helper(CPUArchState *env, abi_ptr addr,
                                         MemOp op, FullLoadHelper *full_load)
  {
-     MemOpIdx oi = make_memop_idx(op, mmu_idx);
--    uint16_t meminfo = trace_mem_get_info(oi, false);
-     uint64_t ret;
--    trace_guest_mem_before_exec(env_cpu(env), addr, meminfo);
-+    trace_guest_ld_before_exec(env_cpu(env), addr, oi);
-     ret = full_load(env, addr, oi, retaddr);
-@@ -XXX,XX +XXX,XX @@ cpu_store_helper(CPUArchState *env, target_ulong addr, uint64_t val,
-                  int mmu_idx, uintptr_t retaddr, MemOp op)
- {
-     MemOpIdx oi = make_memop_idx(op, mmu_idx);
--    uint16_t meminfo = trace_mem_get_info(oi, true);
--    trace_guest_mem_before_exec(env_cpu(env), addr, meminfo);
-+    trace_guest_st_before_exec(env_cpu(env), addr, oi);
-     store_helper(env, addr, val, oi, retaddr, op);
-diff --git a/accel/tcg/user-exec.c b/accel/tcg/user-exec.c
-index XXXXXXX..XXXXXXX 100644
---- a/accel/tcg/user-exec.c
-+++ b/accel/tcg/user-exec.c
-@@ -XXX,XX +XXX,XX @@
- #include "exec/helper-proto.h"
- #include "qemu/atomic128.h"
- #include "trace/trace-root.h"
--#include "trace/mem.h"
-+#include "internal.h"
- #undef EAX
- #undef ECX
-@@ -XXX,XX +XXX,XX @@ int cpu_signal_handler(int host_signum, void *pinfo,
- uint32_t cpu_ldub_data(CPUArchState *env, abi_ptr ptr)
- {
-     MemOpIdx oi = make_memop_idx(MO_UB, MMU_USER_IDX);
--    uint16_t meminfo = trace_mem_get_info(oi, false);
-     uint32_t ret;
--    trace_guest_mem_before_exec(env_cpu(env), ptr, meminfo);
-+    trace_guest_ld_before_exec(env_cpu(env), ptr, oi);
-     ret = ldub_p(g2h(env_cpu(env), ptr));
-     qemu_plugin_vcpu_mem_cb(env_cpu(env), ptr, oi, QEMU_PLUGIN_MEM_R);
-     return ret;
-@@ -XXX,XX +XXX,XX @@ int cpu_ldsb_data(CPUArchState *env, abi_ptr ptr)
- uint32_t cpu_lduw_be_data(CPUArchState *env, abi_ptr ptr)
- {
-     MemOpIdx oi = make_memop_idx(MO_BEUW, MMU_USER_IDX);
--    uint16_t meminfo = trace_mem_get_info(oi, false);
-     uint32_t ret;
--    trace_guest_mem_before_exec(env_cpu(env), ptr, meminfo);
-+    trace_guest_ld_before_exec(env_cpu(env), ptr, oi);
-     ret = lduw_be_p(g2h(env_cpu(env), ptr));
-     qemu_plugin_vcpu_mem_cb(env_cpu(env), ptr, oi, QEMU_PLUGIN_MEM_R);
-     return ret;
-@@ -XXX,XX +XXX,XX @@ int cpu_ldsw_be_data(CPUArchState *env, abi_ptr ptr)
- uint32_t cpu_ldl_be_data(CPUArchState *env, abi_ptr ptr)
- {
-     MemOpIdx oi = make_memop_idx(MO_BEUL, MMU_USER_IDX);
--    uint16_t meminfo = trace_mem_get_info(oi, false);
-     uint32_t ret;
--    trace_guest_mem_before_exec(env_cpu(env), ptr, meminfo);
-+    trace_guest_ld_before_exec(env_cpu(env), ptr, oi);
-     ret = ldl_be_p(g2h(env_cpu(env), ptr));
-     qemu_plugin_vcpu_mem_cb(env_cpu(env), ptr, oi, QEMU_PLUGIN_MEM_R);
-     return ret;
-@@ -XXX,XX +XXX,XX @@ uint32_t cpu_ldl_be_data(CPUArchState *env, abi_ptr ptr)
- uint64_t cpu_ldq_be_data(CPUArchState *env, abi_ptr ptr)
- {
-     MemOpIdx oi = make_memop_idx(MO_BEQ, MMU_USER_IDX);
--    uint16_t meminfo = trace_mem_get_info(oi, false);
-     uint64_t ret;
--    trace_guest_mem_before_exec(env_cpu(env), ptr, meminfo);
-+    trace_guest_ld_before_exec(env_cpu(env), ptr, oi);
-     ret = ldq_be_p(g2h(env_cpu(env), ptr));
-     qemu_plugin_vcpu_mem_cb(env_cpu(env), ptr, oi, QEMU_PLUGIN_MEM_R);
-     return ret;
-@@ -XXX,XX +XXX,XX @@ uint64_t cpu_ldq_be_data(CPUArchState *env, abi_ptr ptr)
- uint32_t cpu_lduw_le_data(CPUArchState *env, abi_ptr ptr)
- {
-     MemOpIdx oi = make_memop_idx(MO_LEUW, MMU_USER_IDX);
--    uint16_t meminfo = trace_mem_get_info(oi, false);
-     uint32_t ret;
--    trace_guest_mem_before_exec(env_cpu(env), ptr, meminfo);
-+    trace_guest_ld_before_exec(env_cpu(env), ptr, oi);
-     ret = lduw_le_p(g2h(env_cpu(env), ptr));
-     qemu_plugin_vcpu_mem_cb(env_cpu(env), ptr, oi, QEMU_PLUGIN_MEM_R);
-     return ret;
-@@ -XXX,XX +XXX,XX @@ int cpu_ldsw_le_data(CPUArchState *env, abi_ptr ptr)
- uint32_t cpu_ldl_le_data(CPUArchState *env, abi_ptr ptr)
- {
-     MemOpIdx oi = make_memop_idx(MO_LEUL, MMU_USER_IDX);
--    uint16_t meminfo = trace_mem_get_info(oi, false);
-     uint32_t ret;
--    trace_guest_mem_before_exec(env_cpu(env), ptr, meminfo);
-+    trace_guest_ld_before_exec(env_cpu(env), ptr, oi);
-     ret = ldl_le_p(g2h(env_cpu(env), ptr));
-     qemu_plugin_vcpu_mem_cb(env_cpu(env), ptr, oi, QEMU_PLUGIN_MEM_R);
-     return ret;
-@@ -XXX,XX +XXX,XX @@ uint32_t cpu_ldl_le_data(CPUArchState *env, abi_ptr ptr)
- uint64_t cpu_ldq_le_data(CPUArchState *env, abi_ptr ptr)
- {
-     MemOpIdx oi = make_memop_idx(MO_LEQ, MMU_USER_IDX);
--    uint16_t meminfo = trace_mem_get_info(oi, false);
-     uint64_t ret;
--    trace_guest_mem_before_exec(env_cpu(env), ptr, meminfo);
-+    trace_guest_ld_before_exec(env_cpu(env), ptr, oi);
-     ret = ldq_le_p(g2h(env_cpu(env), ptr));
-     qemu_plugin_vcpu_mem_cb(env_cpu(env), ptr, oi, QEMU_PLUGIN_MEM_R);
-     return ret;
-@@ -XXX,XX +XXX,XX @@ uint64_t cpu_ldq_le_data_ra(CPUArchState *env, abi_ptr ptr, uintptr_t retaddr)
- void cpu_stb_data(CPUArchState *env, abi_ptr ptr, uint32_t val)
- {
-     MemOpIdx oi = make_memop_idx(MO_UB, MMU_USER_IDX);
--    uint16_t meminfo = trace_mem_get_info(oi, true);
--    trace_guest_mem_before_exec(env_cpu(env), ptr, meminfo);
-+    trace_guest_st_before_exec(env_cpu(env), ptr, oi);
-     stb_p(g2h(env_cpu(env), ptr), val);
-     qemu_plugin_vcpu_mem_cb(env_cpu(env), ptr, oi, QEMU_PLUGIN_MEM_W);
- }
-@@ -XXX,XX +XXX,XX @@ void cpu_stb_data(CPUArchState *env, abi_ptr ptr, uint32_t val)
- void cpu_stw_be_data(CPUArchState *env, abi_ptr ptr, uint32_t val)
- {
-     MemOpIdx oi = make_memop_idx(MO_BEUW, MMU_USER_IDX);
--    uint16_t meminfo = trace_mem_get_info(oi, true);
--    trace_guest_mem_before_exec(env_cpu(env), ptr, meminfo);
-+    trace_guest_st_before_exec(env_cpu(env), ptr, oi);
-     stw_be_p(g2h(env_cpu(env), ptr), val);
-     qemu_plugin_vcpu_mem_cb(env_cpu(env), ptr, oi, QEMU_PLUGIN_MEM_W);
- }
-@@ -XXX,XX +XXX,XX @@ void cpu_stw_be_data(CPUArchState *env, abi_ptr ptr, uint32_t val)
- void cpu_stl_be_data(CPUArchState *env, abi_ptr ptr, uint32_t val)
- {
-     MemOpIdx oi = make_memop_idx(MO_BEUL, MMU_USER_IDX);
--    uint16_t meminfo = trace_mem_get_info(oi, true);
--    trace_guest_mem_before_exec(env_cpu(env), ptr, meminfo);
-+    trace_guest_st_before_exec(env_cpu(env), ptr, oi);
-     stl_be_p(g2h(env_cpu(env), ptr), val);
-     qemu_plugin_vcpu_mem_cb(env_cpu(env), ptr, oi, QEMU_PLUGIN_MEM_W);
- }
-@@ -XXX,XX +XXX,XX @@ void cpu_stl_be_data(CPUArchState *env, abi_ptr ptr, uint32_t val)
- void cpu_stq_be_data(CPUArchState *env, abi_ptr ptr, uint64_t val)
- {
-     MemOpIdx oi = make_memop_idx(MO_BEQ, MMU_USER_IDX);
--    uint16_t meminfo = trace_mem_get_info(oi, true);
--    trace_guest_mem_before_exec(env_cpu(env), ptr, meminfo);
-+    trace_guest_st_before_exec(env_cpu(env), ptr, oi);
-     stq_be_p(g2h(env_cpu(env), ptr), val);
-     qemu_plugin_vcpu_mem_cb(env_cpu(env), ptr, oi, QEMU_PLUGIN_MEM_W);
- }
-@@ -XXX,XX +XXX,XX @@ void cpu_stq_be_data(CPUArchState *env, abi_ptr ptr, uint64_t val)
- void cpu_stw_le_data(CPUArchState *env, abi_ptr ptr, uint32_t val)
- {
-     MemOpIdx oi = make_memop_idx(MO_LEUW, MMU_USER_IDX);
--    uint16_t meminfo = trace_mem_get_info(oi, true);
--    trace_guest_mem_before_exec(env_cpu(env), ptr, meminfo);
-+    trace_guest_st_before_exec(env_cpu(env), ptr, oi);
-     stw_le_p(g2h(env_cpu(env), ptr), val);
-     qemu_plugin_vcpu_mem_cb(env_cpu(env), ptr, oi, QEMU_PLUGIN_MEM_W);
- }
-@@ -XXX,XX +XXX,XX @@ void cpu_stw_le_data(CPUArchState *env, abi_ptr ptr, uint32_t val)
- void cpu_stl_le_data(CPUArchState *env, abi_ptr ptr, uint32_t val)
- {
-     MemOpIdx oi = make_memop_idx(MO_LEUL, MMU_USER_IDX);
--    uint16_t meminfo = trace_mem_get_info(oi, true);
--    trace_guest_mem_before_exec(env_cpu(env), ptr, meminfo);
-+    trace_guest_st_before_exec(env_cpu(env), ptr, oi);
-     stl_le_p(g2h(env_cpu(env), ptr), val);
-     qemu_plugin_vcpu_mem_cb(env_cpu(env), ptr, oi, QEMU_PLUGIN_MEM_W);
- }
-@@ -XXX,XX +XXX,XX @@ void cpu_stl_le_data(CPUArchState *env, abi_ptr ptr, uint32_t val)
- void cpu_stq_le_data(CPUArchState *env, abi_ptr ptr, uint64_t val)
- {
-     MemOpIdx oi = make_memop_idx(MO_LEQ, MMU_USER_IDX);
--    uint16_t meminfo = trace_mem_get_info(oi, true);
--    trace_guest_mem_before_exec(env_cpu(env), ptr, meminfo);
-+    trace_guest_st_before_exec(env_cpu(env), ptr, oi);
-     stq_le_p(g2h(env_cpu(env), ptr), val);
-     qemu_plugin_vcpu_mem_cb(env_cpu(env), ptr, oi, QEMU_PLUGIN_MEM_W);
- }
-diff --git a/tcg/tcg-op.c b/tcg/tcg-op.c
-index XXXXXXX..XXXXXXX 100644
---- a/tcg/tcg-op.c
-+++ b/tcg/tcg-op.c
-@@ -XXX,XX +XXX,XX @@
- #include "tcg/tcg-op.h"
- #include "tcg/tcg-mo.h"
- #include "trace-tcg.h"
--#include "trace/mem.h"
- #include "exec/plugin-gen.h"
- /* Reduce the number of ifdefs below.  This assumes that all uses of
-@@ -XXX,XX +XXX,XX @@ void tcg_gen_qemu_ld_i32(TCGv_i32 val, TCGv addr, TCGArg idx, MemOp memop)
- {
-     MemOp orig_memop;
-     MemOpIdx oi;
--    uint16_t info;
-     tcg_gen_req_mo(TCG_MO_LD_LD | TCG_MO_ST_LD);
-     memop = tcg_canonicalize_memop(memop, 0, 0);
-     oi = make_memop_idx(memop, idx);
--    info = trace_mem_get_info(oi, 0);
--    trace_guest_mem_before_tcg(tcg_ctx->cpu, cpu_env, addr, info);
-+    trace_guest_ld_before_tcg(tcg_ctx->cpu, cpu_env, addr, oi);
-     orig_memop = memop;
-     if (!TCG_TARGET_HAS_MEMORY_BSWAP && (memop & MO_BSWAP)) {
-@@ -XXX,XX +XXX,XX @@ void tcg_gen_qemu_st_i32(TCGv_i32 val, TCGv addr, TCGArg idx, MemOp memop)
- {
-     TCGv_i32 swap = NULL;
-     MemOpIdx oi;
--    uint16_t info;
-     tcg_gen_req_mo(TCG_MO_LD_ST | TCG_MO_ST_ST);
-     memop = tcg_canonicalize_memop(memop, 0, 1);
-     oi = make_memop_idx(memop, idx);
--    info = trace_mem_get_info(oi, 1);
--    trace_guest_mem_before_tcg(tcg_ctx->cpu, cpu_env, addr, info);
-+    trace_guest_st_before_tcg(tcg_ctx->cpu, cpu_env, addr, oi);
-     if (!TCG_TARGET_HAS_MEMORY_BSWAP && (memop & MO_BSWAP)) {
-         swap = tcg_temp_new_i32();
-@@ -XXX,XX +XXX,XX @@ void tcg_gen_qemu_ld_i64(TCGv_i64 val, TCGv addr, TCGArg idx, MemOp memop)
- {
-     MemOp orig_memop;
-     MemOpIdx oi;
--    uint16_t info;
-     if (TCG_TARGET_REG_BITS == 32 && (memop & MO_SIZE) < MO_64) {
-         tcg_gen_qemu_ld_i32(TCGV_LOW(val), addr, idx, memop);
-@@ -XXX,XX +XXX,XX @@ void tcg_gen_qemu_ld_i64(TCGv_i64 val, TCGv addr, TCGArg idx, MemOp memop)
-     tcg_gen_req_mo(TCG_MO_LD_LD | TCG_MO_ST_LD);
-     memop = tcg_canonicalize_memop(memop, 1, 0);
-     oi = make_memop_idx(memop, idx);
--    info = trace_mem_get_info(oi, 0);
--    trace_guest_mem_before_tcg(tcg_ctx->cpu, cpu_env, addr, info);
-+    trace_guest_ld_before_tcg(tcg_ctx->cpu, cpu_env, addr, oi);
-     orig_memop = memop;
-     if (!TCG_TARGET_HAS_MEMORY_BSWAP && (memop & MO_BSWAP)) {
-@@ -XXX,XX +XXX,XX @@ void tcg_gen_qemu_st_i64(TCGv_i64 val, TCGv addr, TCGArg idx, MemOp memop)
- {
-     TCGv_i64 swap = NULL;
-     MemOpIdx oi;
--    uint16_t info;
-     if (TCG_TARGET_REG_BITS == 32 && (memop & MO_SIZE) < MO_64) {
-         tcg_gen_qemu_st_i32(TCGV_LOW(val), addr, idx, memop);
-@@ -XXX,XX +XXX,XX @@ void tcg_gen_qemu_st_i64(TCGv_i64 val, TCGv addr, TCGArg idx, MemOp memop)
-     tcg_gen_req_mo(TCG_MO_LD_ST | TCG_MO_ST_ST);
-     memop = tcg_canonicalize_memop(memop, 1, 1);
-     oi = make_memop_idx(memop, idx);
--    info = trace_mem_get_info(oi, 1);
--    trace_guest_mem_before_tcg(tcg_ctx->cpu, cpu_env, addr, info);
-+    trace_guest_st_before_tcg(tcg_ctx->cpu, cpu_env, addr, oi);
-     if (!TCG_TARGET_HAS_MEMORY_BSWAP && (memop & MO_BSWAP)) {
-         swap = tcg_temp_new_i64();
-diff --git a/accel/tcg/atomic_common.c.inc b/accel/tcg/atomic_common.c.inc
-index XXXXXXX..XXXXXXX 100644
---- a/accel/tcg/atomic_common.c.inc
-+++ b/accel/tcg/atomic_common.c.inc
-@@ -XXX,XX +XXX,XX @@ static void atomic_trace_rmw_pre(CPUArchState *env, target_ulong addr,
-                                  MemOpIdx oi)
- {
-     CPUState *cpu = env_cpu(env);
--    uint16_t info = trace_mem_get_info(oi, false);
--    trace_guest_mem_before_exec(cpu, addr, info);
--    trace_guest_mem_before_exec(cpu, addr, info | TRACE_MEM_ST);
-+    trace_guest_rmw_before_exec(cpu, addr, oi);
- }
- static void atomic_trace_rmw_post(CPUArchState *env, target_ulong addr,
-@@ -XXX,XX +XXX,XX @@ static void atomic_trace_rmw_post(CPUArchState *env, target_ulong addr,
- static void atomic_trace_ld_pre(CPUArchState *env, target_ulong addr,
-                                 MemOpIdx oi)
- {
--    uint16_t info = trace_mem_get_info(oi, false);
--
--    trace_guest_mem_before_exec(env_cpu(env), addr, info);
-+    trace_guest_ld_before_exec(env_cpu(env), addr, oi);
- }
- static void atomic_trace_ld_post(CPUArchState *env, target_ulong addr,
-@@ -XXX,XX +XXX,XX @@ static void atomic_trace_ld_post(CPUArchState *env, target_ulong addr,
- static void atomic_trace_st_pre(CPUArchState *env, target_ulong addr,
-                                 MemOpIdx oi)
- {
--    uint16_t info = trace_mem_get_info(oi, true);
--
--    trace_guest_mem_before_exec(env_cpu(env), addr, info);
-+    trace_guest_st_before_exec(env_cpu(env), addr, oi);
- }
- static void atomic_trace_st_post(CPUArchState *env, target_ulong addr,
-diff --git a/trace-events b/trace-events
-index XXXXXXX..XXXXXXX 100644
---- a/trace-events
-+++ b/trace-events
-@@ -XXX,XX +XXX,XX @@ vcpu guest_cpu_reset(void)
- # tcg/tcg-op.c
- # @vaddr: Access' virtual address.
--# @info : Access' information (see below).
-+# @memopidx: Access' information (see below).
- #
- # Start virtual memory access (before any potential access violation).
--#
- # Does not include memory accesses performed by devices.
- #
--# Access information can be parsed as:
--#
--# struct mem_info {
--#     uint8_t size_shift : 4; /* interpreted as "1 << size_shift" bytes */
--#     bool    sign_extend: 1; /* sign-extended */
--#     uint8_t endianness : 1; /* 0: little, 1: big */
--#     bool    store      : 1; /* whether it is a store operation */
--#             pad        : 1;
--#     uint8_t mmuidx     : 4; /* mmuidx (softmmu only)  */
--# };
--#
- # Mode: user, softmmu
- # Targets: TCG(all)
--vcpu tcg guest_mem_before(TCGv vaddr, uint16_t info) "info=%d", "vaddr=0x%016"PRIx64" info=%d"
-+vcpu tcg guest_ld_before(TCGv vaddr, uint32_t memopidx) "info=%d", "vaddr=0x%016"PRIx64" memopidx=0x%x"
-+vcpu tcg guest_st_before(TCGv vaddr, uint32_t memopidx) "info=%d", "vaddr=0x%016"PRIx64" memopidx=0x%x"
-+vcpu tcg guest_rmw_before(TCGv vaddr, uint32_t memopidx) "info=%d", "vaddr=0x%016"PRIx64" memopidx=0x%x"
- # include/user/syscall-trace.h
 --
-.25.1
+.43.0

-[PULL 07/28] tcg: Split out MemOpIdx to exec/memopidx.h
+[PULL 54/72] tcg/optimize: Move fold_cmp_vec, fold_cmpsel_vec into alphabetic sort
-Move this code from tcg/tcg.h to its own header.
+The big comment just above says functions should be sorted.
-Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
+Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- include/exec/memopidx.h | 55 +++++++++++++++++++++++++++++++++++++++++
+ tcg/optimize.c | 60 +++++++++++++++++++++++++-------------------------
- include/tcg/tcg.h       | 39 +----------------------------
+file changed, 30 insertions(+), 30 deletions(-)
 files changed, 56 insertions(+), 38 deletions(-)
  create mode 100644 include/exec/memopidx.h
-diff --git a/include/exec/memopidx.h b/include/exec/memopidx.h
+diff --git a/tcg/optimize.c b/tcg/optimize.c
-new file mode 100644
+index XXXXXXX..XXXXXXX 100644
-index XXXXXXX..XXXXXXX
+--- a/tcg/optimize.c
---- /dev/null
++++ b/tcg/optimize.c
-+++ b/include/exec/memopidx.h
+@@ -XXX,XX +XXX,XX @@ static bool fold_call(OptContext *ctx, TCGOp *op)
-@@ -XXX,XX +XXX,XX @@
+     return true;
-+/*
+ }
-+ * Combine the MemOp and mmu_idx parameters into a single value.
-+ *
++static bool fold_cmp_vec(OptContext *ctx, TCGOp *op)
 + * Authors:
 + *  Richard Henderson <rth@twiddle.net>
 + *
 + * This work is licensed under the terms of the GNU GPL, version 2 or later.
 + * See the COPYING file in the top-level directory.
 + */
 +
 +#ifndef EXEC_MEMOPIDX_H
 +#define EXEC_MEMOPIDX_H 1
 +
 +#include "exec/memop.h"
 +
 +typedef uint32_t MemOpIdx;
 +
 +/**
 + * make_memop_idx
 + * @op: memory operation
 + * @idx: mmu index
 + *
 + * Encode these values into a single parameter.
 + */
 +static inline MemOpIdx make_memop_idx(MemOp op, unsigned idx)
 +{
-+#ifdef CONFIG_DEBUG_TCG
++    /* Canonicalize the comparison to put immediate second. */
-+    assert(idx <= 15);
++    if (swap_commutative(NO_DEST, &op->args[1], &op->args[2])) {
-+#endif
++        op->args[3] = tcg_swap_cond(op->args[3]);
-+    return (op << 4) | idx;
++    }
 +    return finish_folding(ctx, op);
 +}
 +
-+/**
++static bool fold_cmpsel_vec(OptContext *ctx, TCGOp *op)
 + * get_memop
 + * @oi: combined op/idx parameter
 + *
 + * Extract the memory operation from the combined value.
 + */
 +static inline MemOp get_memop(MemOpIdx oi)
 +{
-+    return oi >> 4;
++    /* If true and false values are the same, eliminate the cmp. */
 +    if (args_are_copies(op->args[3], op->args[4])) {
 +        return tcg_opt_gen_mov(ctx, op, op->args[0], op->args[3]);
 +    }
 +
 +    /* Canonicalize the comparison to put immediate second. */
 +    if (swap_commutative(NO_DEST, &op->args[1], &op->args[2])) {
 +        op->args[5] = tcg_swap_cond(op->args[5]);
 +    }
 +    /*
 +     * Canonicalize the "false" input reg to match the destination,
 +     * so that the tcg backend can implement "move if true".
 +     */
 +    if (swap_commutative(op->args[0], &op->args[4], &op->args[3])) {
 +        op->args[5] = tcg_invert_cond(op->args[5]);
 +    }
 +    return finish_folding(ctx, op);
 +}
 +
-+/**
+ static bool fold_count_zeros(OptContext *ctx, TCGOp *op)
-+ * get_mmuidx
+ {
-+ * @oi: combined op/idx parameter
+     uint64_t z_mask, s_mask;
-+ *
+@@ -XXX,XX +XXX,XX @@ static bool fold_setcond2(OptContext *ctx, TCGOp *op)
-+ * Extract the mmu index from the combined value.
+     return tcg_opt_gen_movi(ctx, op, op->args[0], i);
 + */
 +static inline unsigned get_mmuidx(MemOpIdx oi)
 +{
 +    return oi & 15;
 +}
 +
 +#endif
 diff --git a/include/tcg/tcg.h b/include/tcg/tcg.h
 index XXXXXXX..XXXXXXX 100644
 --- a/include/tcg/tcg.h
 +++ b/include/tcg/tcg.h
@@ -XXX,XX +XXX,XX @@
  #include "cpu.h"
  #include "exec/memop.h"
 +#include "exec/memopidx.h"
  #include "qemu/bitops.h"
  #include "qemu/plugin.h"
  #include "qemu/queue.h"
@@ -XXX,XX +XXX,XX @@ static inline size_t tcg_current_code_size(TCGContext *s)
      return tcg_ptr_byte_diff(s->code_ptr, s->code_buf);
  }
--/* Combine the MemOp and mmu_idx parameters into a single value.  */
+-static bool fold_cmp_vec(OptContext *ctx, TCGOp *op)
 -typedef uint32_t MemOpIdx;
 -
 -/**
 - * make_memop_idx
 - * @op: memory operation
 - * @idx: mmu index
 - *
 - * Encode these values into a single parameter.
 - */
 -static inline MemOpIdx make_memop_idx(MemOp op, unsigned idx)
 -{
--    tcg_debug_assert(idx <= 15);
+-    /* Canonicalize the comparison to put immediate second. */
--    return (op << 4) | idx;
+-    if (swap_commutative(NO_DEST, &op->args[1], &op->args[2])) {
 -        op->args[3] = tcg_swap_cond(op->args[3]);
 -    }
 -    return finish_folding(ctx, op);
 -}
 -
--/**
+-static bool fold_cmpsel_vec(OptContext *ctx, TCGOp *op)
 - * get_memop
 - * @oi: combined op/idx parameter
 - *
 - * Extract the memory operation from the combined value.
 - */
 -static inline MemOp get_memop(MemOpIdx oi)
 -{
--    return oi >> 4;
+-    /* If true and false values are the same, eliminate the cmp. */
 -    if (args_are_copies(op->args[3], op->args[4])) {
 -        return tcg_opt_gen_mov(ctx, op, op->args[0], op->args[3]);
 -    }
 -
 -    /* Canonicalize the comparison to put immediate second. */
 -    if (swap_commutative(NO_DEST, &op->args[1], &op->args[2])) {
 -        op->args[5] = tcg_swap_cond(op->args[5]);
 -    }
 -    /*
 -     * Canonicalize the "false" input reg to match the destination,
 -     * so that the tcg backend can implement "move if true".
 -     */
 -    if (swap_commutative(op->args[0], &op->args[4], &op->args[3])) {
 -        op->args[5] = tcg_invert_cond(op->args[5]);
 -    }
 -    return finish_folding(ctx, op);
 -}
 -
--/**
+ static bool fold_sextract(OptContext *ctx, TCGOp *op)
-- * get_mmuidx
+ {
-- * @oi: combined op/idx parameter
+     uint64_t z_mask, s_mask, s_mask_old;
 - *
 - * Extract the mmu index from the combined value.
 - */
 -static inline unsigned get_mmuidx(MemOpIdx oi)
 -{
 -    return oi & 15;
 -}
 -
  /**
   * tcg_qemu_tb_exec:
   * @env: pointer to CPUArchState for the CPU
 --
-.25.1
+.43.0

-New patch
+[PULL 55/72] softfloat: Add float{16,32,64}_muladd_scalbn
+We currently have a flag, float_muladd_halve_result, to scale
 the result by 2**-1.  Extend this to handle arbitrary scaling.
 Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
  include/fpu/softfloat.h   |  6 ++++
  fpu/softfloat.c           | 58 ++++++++++++++++++++++-----------------
  fpu/softfloat-parts.c.inc |  7 +++--
 files changed, 44 insertions(+), 27 deletions(-)
 diff --git a/include/fpu/softfloat.h b/include/fpu/softfloat.h
 index XXXXXXX..XXXXXXX 100644
 --- a/include/fpu/softfloat.h
 +++ b/include/fpu/softfloat.h
@@ -XXX,XX +XXX,XX @@ float16 float16_add(float16, float16, float_status *status);
  float16 float16_sub(float16, float16, float_status *status);
  float16 float16_mul(float16, float16, float_status *status);
  float16 float16_muladd(float16, float16, float16, int, float_status *status);
 +float16 float16_muladd_scalbn(float16, float16, float16,
 +                              int, int, float_status *status);
  float16 float16_div(float16, float16, float_status *status);
  float16 float16_scalbn(float16, int, float_status *status);
  float16 float16_min(float16, float16, float_status *status);
@@ -XXX,XX +XXX,XX @@ float32 float32_mul(float32, float32, float_status *status);
  float32 float32_div(float32, float32, float_status *status);
  float32 float32_rem(float32, float32, float_status *status);
  float32 float32_muladd(float32, float32, float32, int, float_status *status);
 +float32 float32_muladd_scalbn(float32, float32, float32,
 +                              int, int, float_status *status);
  float32 float32_sqrt(float32, float_status *status);
  float32 float32_exp2(float32, float_status *status);
  float32 float32_log2(float32, float_status *status);
@@ -XXX,XX +XXX,XX @@ float64 float64_mul(float64, float64, float_status *status);
  float64 float64_div(float64, float64, float_status *status);
  float64 float64_rem(float64, float64, float_status *status);
  float64 float64_muladd(float64, float64, float64, int, float_status *status);
 +float64 float64_muladd_scalbn(float64, float64, float64,
 +                              int, int, float_status *status);
  float64 float64_sqrt(float64, float_status *status);
  float64 float64_log2(float64, float_status *status);
  FloatRelation float64_compare(float64, float64, float_status *status);
 diff --git a/fpu/softfloat.c b/fpu/softfloat.c
 index XXXXXXX..XXXXXXX 100644
 --- a/fpu/softfloat.c
 +++ b/fpu/softfloat.c
@@ -XXX,XX +XXX,XX @@ static FloatParts128 *parts128_mul(FloatParts128 *a, FloatParts128 *b,
  #define parts_mul(A, B, S) \
      PARTS_GENERIC_64_128(mul, A)(A, B, S)
 -static FloatParts64 *parts64_muladd(FloatParts64 *a, FloatParts64 *b,
 -                                    FloatParts64 *c, int flags,
 -                                    float_status *s);
 -static FloatParts128 *parts128_muladd(FloatParts128 *a, FloatParts128 *b,
 -                                      FloatParts128 *c, int flags,
 -                                      float_status *s);
 +static FloatParts64 *parts64_muladd_scalbn(FloatParts64 *a, FloatParts64 *b,
 +                                           FloatParts64 *c, int scale,
 +                                           int flags, float_status *s);
 +static FloatParts128 *parts128_muladd_scalbn(FloatParts128 *a, FloatParts128 *b,
 +                                             FloatParts128 *c, int scale,
 +                                             int flags, float_status *s);
 -#define parts_muladd(A, B, C, Z, S) \
 -    PARTS_GENERIC_64_128(muladd, A)(A, B, C, Z, S)
 +#define parts_muladd_scalbn(A, B, C, Z, Y, S) \
 +    PARTS_GENERIC_64_128(muladd_scalbn, A)(A, B, C, Z, Y, S)
  static FloatParts64 *parts64_div(FloatParts64 *a, FloatParts64 *b,
                                   float_status *s);
@@ -XXX,XX +XXX,XX @@ floatx80_mul(floatx80 a, floatx80 b, float_status *status)
   * Fused multiply-add
   */
 -float16 QEMU_FLATTEN float16_muladd(float16 a, float16 b, float16 c,
 -                                    int flags, float_status *status)
 +float16 QEMU_FLATTEN
 +float16_muladd_scalbn(float16 a, float16 b, float16 c,
 +                      int scale, int flags, float_status *status)
  {
      FloatParts64 pa, pb, pc, *pr;
      float16_unpack_canonical(&pa, a, status);
      float16_unpack_canonical(&pb, b, status);
      float16_unpack_canonical(&pc, c, status);
 -    pr = parts_muladd(&pa, &pb, &pc, flags, status);
 +    pr = parts_muladd_scalbn(&pa, &pb, &pc, scale, flags, status);
      return float16_round_pack_canonical(pr, status);
  }
 -static float32 QEMU_SOFTFLOAT_ATTR
 -soft_f32_muladd(float32 a, float32 b, float32 c, int flags,
 -                float_status *status)
 +float16 float16_muladd(float16 a, float16 b, float16 c,
 +                       int flags, float_status *status)
 +{
 +    return float16_muladd_scalbn(a, b, c, 0, flags, status);
 +}
 +
 +float32 QEMU_SOFTFLOAT_ATTR
 +float32_muladd_scalbn(float32 a, float32 b, float32 c,
 +                      int scale, int flags, float_status *status)
  {
      FloatParts64 pa, pb, pc, *pr;
      float32_unpack_canonical(&pa, a, status);
      float32_unpack_canonical(&pb, b, status);
      float32_unpack_canonical(&pc, c, status);
 -    pr = parts_muladd(&pa, &pb, &pc, flags, status);
 +    pr = parts_muladd_scalbn(&pa, &pb, &pc, scale, flags, status);
      return float32_round_pack_canonical(pr, status);
  }
 -static float64 QEMU_SOFTFLOAT_ATTR
 -soft_f64_muladd(float64 a, float64 b, float64 c, int flags,
 -                float_status *status)
 +float64 QEMU_SOFTFLOAT_ATTR
 +float64_muladd_scalbn(float64 a, float64 b, float64 c,
 +                      int scale, int flags, float_status *status)
  {
      FloatParts64 pa, pb, pc, *pr;
      float64_unpack_canonical(&pa, a, status);
      float64_unpack_canonical(&pb, b, status);
      float64_unpack_canonical(&pc, c, status);
 -    pr = parts_muladd(&pa, &pb, &pc, flags, status);
 +    pr = parts_muladd_scalbn(&pa, &pb, &pc, scale, flags, status);
      return float64_round_pack_canonical(pr, status);
  }
@@ -XXX,XX +XXX,XX @@ float32_muladd(float32 xa, float32 xb, float32 xc, int flags, float_status *s)
      return ur.s;
   soft:
 -    return soft_f32_muladd(ua.s, ub.s, uc.s, flags, s);
 +    return float32_muladd_scalbn(ua.s, ub.s, uc.s, 0, flags, s);
  }
  float64 QEMU_FLATTEN
@@ -XXX,XX +XXX,XX @@ float64_muladd(float64 xa, float64 xb, float64 xc, int flags, float_status *s)
      return ur.s;
   soft:
 -    return soft_f64_muladd(ua.s, ub.s, uc.s, flags, s);
 +    return float64_muladd_scalbn(ua.s, ub.s, uc.s, 0, flags, s);
  }
  float64 float64r32_muladd(float64 a, float64 b, float64 c,
@@ -XXX,XX +XXX,XX @@ float64 float64r32_muladd(float64 a, float64 b, float64 c,
      float64_unpack_canonical(&pa, a, status);
      float64_unpack_canonical(&pb, b, status);
      float64_unpack_canonical(&pc, c, status);
 -    pr = parts_muladd(&pa, &pb, &pc, flags, status);
 +    pr = parts_muladd_scalbn(&pa, &pb, &pc, 0, flags, status);
      return float64r32_round_pack_canonical(pr, status);
  }
@@ -XXX,XX +XXX,XX @@ bfloat16 QEMU_FLATTEN bfloat16_muladd(bfloat16 a, bfloat16 b, bfloat16 c,
      bfloat16_unpack_canonical(&pa, a, status);
      bfloat16_unpack_canonical(&pb, b, status);
      bfloat16_unpack_canonical(&pc, c, status);
 -    pr = parts_muladd(&pa, &pb, &pc, flags, status);
 +    pr = parts_muladd_scalbn(&pa, &pb, &pc, 0, flags, status);
      return bfloat16_round_pack_canonical(pr, status);
  }
@@ -XXX,XX +XXX,XX @@ float128 QEMU_FLATTEN float128_muladd(float128 a, float128 b, float128 c,
      float128_unpack_canonical(&pa, a, status);
      float128_unpack_canonical(&pb, b, status);
      float128_unpack_canonical(&pc, c, status);
 -    pr = parts_muladd(&pa, &pb, &pc, flags, status);
 +    pr = parts_muladd_scalbn(&pa, &pb, &pc, 0, flags, status);
      return float128_round_pack_canonical(pr, status);
  }
@@ -XXX,XX +XXX,XX @@ float32 float32_exp2(float32 a, float_status *status)
      float64_unpack_canonical(&rp, float64_one, status);
      for (i = 0 ; i < 15 ; i++) {
 +
          float64_unpack_canonical(&tp, float32_exp2_coefficients[i], status);
 -        rp = *parts_muladd(&tp, &xnp, &rp, 0, status);
 +        rp = *parts_muladd_scalbn(&tp, &xnp, &rp, 0, 0, status);
          xnp = *parts_mul(&xnp, &xp, status);
      }
 diff --git a/fpu/softfloat-parts.c.inc b/fpu/softfloat-parts.c.inc
 index XXXXXXX..XXXXXXX 100644
 --- a/fpu/softfloat-parts.c.inc
 +++ b/fpu/softfloat-parts.c.inc
@@ -XXX,XX +XXX,XX @@ static FloatPartsN *partsN(mul)(FloatPartsN *a, FloatPartsN *b,
   * Requires A and C extracted into a double-sized structure to provide the
   * extra space for the widening multiply.
   */
 -static FloatPartsN *partsN(muladd)(FloatPartsN *a, FloatPartsN *b,
 -                                   FloatPartsN *c, int flags, float_status *s)
 +static FloatPartsN *partsN(muladd_scalbn)(FloatPartsN *a, FloatPartsN *b,
 +                                          FloatPartsN *c, int scale,
 +                                          int flags, float_status *s)
  {
      int ab_mask, abc_mask;
      FloatPartsW p_widen, c_widen;
@@ -XXX,XX +XXX,XX @@ static FloatPartsN *partsN(muladd)(FloatPartsN *a, FloatPartsN *b,
      a->exp = p_widen.exp;
   return_normal:
 +    /* TODO: Replace all use of float_muladd_halve_result with scale. */
      if (flags & float_muladd_halve_result) {
          a->exp -= 1;
      }
 +    a->exp += scale;
   finish_sign:
      if (flags & float_muladd_negate_result) {
          a->sign ^= 1;
 --
 .43.0

-[PULL 18/28] tcg/s390x: Implement tcg_out_ld/st for vector types
+[PULL 56/72] target/arm: Use float*_muladd_scalbn
-Reviewed-by: David Hildenbrand <david@redhat.com>
+Use the scalbn interface instead of float_muladd_halve_result.
 Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- tcg/s390x/tcg-target.c.inc | 132 +++++++++++++++++++++++++++++++++----
+ target/arm/tcg/helper-a64.c | 6 +++---
-file changed, 120 insertions(+), 12 deletions(-)
+file changed, 3 insertions(+), 3 deletions(-)
-diff --git a/tcg/s390x/tcg-target.c.inc b/tcg/s390x/tcg-target.c.inc
+diff --git a/target/arm/tcg/helper-a64.c b/target/arm/tcg/helper-a64.c
 index XXXXXXX..XXXXXXX 100644
---- a/tcg/s390x/tcg-target.c.inc
+--- a/target/arm/tcg/helper-a64.c
-+++ b/tcg/s390x/tcg-target.c.inc
++++ b/target/arm/tcg/helper-a64.c
-@@ -XXX,XX +XXX,XX @@ typedef enum S390Opcode {
+@@ -XXX,XX +XXX,XX @@ uint32_t HELPER(rsqrtsf_f16)(uint32_t a, uint32_t b, float_status *fpst)
-     RX_STC      = 0x42,
+         (float16_is_infinity(b) && float16_is_zero(a))) {
-     RX_STH      = 0x40,
+         return float16_one_point_five;
 +    VRX_VL      = 0xe706,
 +    VRX_VLLEZ   = 0xe704,
 +    VRX_VST     = 0xe70e,
 +    VRX_VSTEF   = 0xe70b,
 +    VRX_VSTEG   = 0xe70a,
 +
      NOP         = 0x0707,
  } S390Opcode;
@@ -XXX,XX +XXX,XX @@ static void * const qemu_st_helpers[(MO_SIZE | MO_BSWAP) + 1] = {
  static const tcg_insn_unit *tb_ret_addr;
  uint64_t s390_facilities[3];
 +static inline bool is_general_reg(TCGReg r)
 +{
 +    return r <= TCG_REG_R15;
 +}
 +
 +static inline bool is_vector_reg(TCGReg r)
 +{
 +    return r >= TCG_REG_V0 && r <= TCG_REG_V31;
 +}
 +
  static bool patch_reloc(tcg_insn_unit *src_rw, int type,
                          intptr_t value, intptr_t addend)
  {
@@ -XXX,XX +XXX,XX @@ static void tcg_out_insn_RSY(TCGContext *s, S390Opcode op, TCGReg r1,
  #define tcg_out_insn_RX   tcg_out_insn_RS
  #define tcg_out_insn_RXY  tcg_out_insn_RSY
 +static int RXB(TCGReg v1, TCGReg v2, TCGReg v3, TCGReg v4)
 +{
 +    /*
 +     * Shift bit 4 of each regno to its corresponding bit of RXB.
 +     * RXB itself begins at bit 8 of the instruction so 8 - 4 = 4
 +     * is the left-shift of the 4th operand.
 +     */
 +    return ((v1 & 0x10) << (4 + 3))
 +         | ((v2 & 0x10) << (4 + 2))
 +         | ((v3 & 0x10) << (4 + 1))
 +         | ((v4 & 0x10) << (4 + 0));
 +}
 +
 +static void tcg_out_insn_VRX(TCGContext *s, S390Opcode op, TCGReg v1,
 +                             TCGReg b2, TCGReg x2, intptr_t d2, int m3)
 +{
 +    tcg_debug_assert(is_vector_reg(v1));
 +    tcg_debug_assert(d2 >= 0 && d2 <= 0xfff);
 +    tcg_debug_assert(is_general_reg(x2));
 +    tcg_debug_assert(is_general_reg(b2));
 +    tcg_out16(s, (op & 0xff00) | ((v1 & 0xf) << 4) | x2);
 +    tcg_out16(s, (b2 << 12) | d2);
 +    tcg_out16(s, (op & 0x00ff) | RXB(v1, 0, 0, 0) | (m3 << 12));
 +}
 +
  /* Emit an opcode with "type-checking" of the format.  */
  #define tcg_out_insn(S, FMT, OP, ...) \
      glue(tcg_out_insn_,FMT)(S, glue(glue(FMT,_),OP), ## __VA_ARGS__)
@@ -XXX,XX +XXX,XX @@ static void tcg_out_mem(TCGContext *s, S390Opcode opc_rx, S390Opcode opc_rxy,
      }
+-    return float16_muladd(a, b, float16_three, float_muladd_halve_result, fpst);
++    return float16_muladd_scalbn(a, b, float16_three, -1, 0, fpst);
  }
-+static void tcg_out_vrx_mem(TCGContext *s, S390Opcode opc_vrx,
+ float32 HELPER(rsqrtsf_f32)(float32 a, float32 b, float_status *fpst)
-+                            TCGReg data, TCGReg base, TCGReg index,
+@@ -XXX,XX +XXX,XX @@ float32 HELPER(rsqrtsf_f32)(float32 a, float32 b, float_status *fpst)
-+                            tcg_target_long ofs, int m3)
+         (float32_is_infinity(b) && float32_is_zero(a))) {
-+{
+         return float32_one_point_five;
 +    if (ofs < 0 || ofs >= 0x1000) {
 +        if (ofs >= -0x80000 && ofs < 0x80000) {
 +            tcg_out_insn(s, RXY, LAY, TCG_TMP0, base, index, ofs);
 +            base = TCG_TMP0;
 +            index = TCG_REG_NONE;
 +            ofs = 0;
 +        } else {
 +            tcg_out_movi(s, TCG_TYPE_PTR, TCG_TMP0, ofs);
 +            if (index != TCG_REG_NONE) {
 +                tcg_out_insn(s, RRE, AGR, TCG_TMP0, index);
 +            }
 +            index = TCG_TMP0;
 +            ofs = 0;
 +        }
 +    }
 +    tcg_out_insn_VRX(s, opc_vrx, data, base, index, ofs, m3);
 +}
  /* load data without address translation or endianness conversion */
 -static inline void tcg_out_ld(TCGContext *s, TCGType type, TCGReg data,
 -                              TCGReg base, intptr_t ofs)
 +static void tcg_out_ld(TCGContext *s, TCGType type, TCGReg data,
 +                       TCGReg base, intptr_t ofs)
  {
 -    if (type == TCG_TYPE_I32) {
 -        tcg_out_mem(s, RX_L, RXY_LY, data, base, TCG_REG_NONE, ofs);
 -    } else {
 -        tcg_out_mem(s, 0, RXY_LG, data, base, TCG_REG_NONE, ofs);
 +    switch (type) {
 +    case TCG_TYPE_I32:
 +        if (likely(is_general_reg(data))) {
 +            tcg_out_mem(s, RX_L, RXY_LY, data, base, TCG_REG_NONE, ofs);
 +            break;
 +        }
 +        tcg_out_vrx_mem(s, VRX_VLLEZ, data, base, TCG_REG_NONE, ofs, MO_32);
 +        break;
 +
 +    case TCG_TYPE_I64:
 +        if (likely(is_general_reg(data))) {
 +            tcg_out_mem(s, 0, RXY_LG, data, base, TCG_REG_NONE, ofs);
 +            break;
 +        }
 +        /* fallthru */
 +
 +    case TCG_TYPE_V64:
 +        tcg_out_vrx_mem(s, VRX_VLLEZ, data, base, TCG_REG_NONE, ofs, MO_64);
 +        break;
 +
 +    case TCG_TYPE_V128:
 +        /* Hint quadword aligned.  */
 +        tcg_out_vrx_mem(s, VRX_VL, data, base, TCG_REG_NONE, ofs, 4);
 +        break;
 +
 +    default:
 +        g_assert_not_reached();
      }
+-    return float32_muladd(a, b, float32_three, float_muladd_halve_result, fpst);
++    return float32_muladd_scalbn(a, b, float32_three, -1, 0, fpst);
  }
--static inline void tcg_out_st(TCGContext *s, TCGType type, TCGReg data,
+ float64 HELPER(rsqrtsf_f64)(float64 a, float64 b, float_status *fpst)
--                              TCGReg base, intptr_t ofs)
+@@ -XXX,XX +XXX,XX @@ float64 HELPER(rsqrtsf_f64)(float64 a, float64 b, float_status *fpst)
-+static void tcg_out_st(TCGContext *s, TCGType type, TCGReg data,
+         (float64_is_infinity(b) && float64_is_zero(a))) {
-+                       TCGReg base, intptr_t ofs)
+         return float64_one_point_five;
  {
 -    if (type == TCG_TYPE_I32) {
 -        tcg_out_mem(s, RX_ST, RXY_STY, data, base, TCG_REG_NONE, ofs);
 -    } else {
 -        tcg_out_mem(s, 0, RXY_STG, data, base, TCG_REG_NONE, ofs);
 +    switch (type) {
 +    case TCG_TYPE_I32:
 +        if (likely(is_general_reg(data))) {
 +            tcg_out_mem(s, RX_ST, RXY_STY, data, base, TCG_REG_NONE, ofs);
 +        } else {
 +            tcg_out_vrx_mem(s, VRX_VSTEF, data, base, TCG_REG_NONE, ofs, 1);
 +        }
 +        break;
 +
 +    case TCG_TYPE_I64:
 +        if (likely(is_general_reg(data))) {
 +            tcg_out_mem(s, 0, RXY_STG, data, base, TCG_REG_NONE, ofs);
 +            break;
 +        }
 +        /* fallthru */
 +
 +    case TCG_TYPE_V64:
 +        tcg_out_vrx_mem(s, VRX_VSTEG, data, base, TCG_REG_NONE, ofs, 0);
 +        break;
 +
 +    case TCG_TYPE_V128:
 +        /* Hint quadword aligned.  */
 +        tcg_out_vrx_mem(s, VRX_VST, data, base, TCG_REG_NONE, ofs, 4);
 +        break;
 +
 +    default:
 +        g_assert_not_reached();
      }
+-    return float64_muladd(a, b, float64_three, float_muladd_halve_result, fpst);
++    return float64_muladd_scalbn(a, b, float64_three, -1, 0, fpst);
  }
+ /* Floating-point reciprocal exponent - see FPRecpX in ARM ARM */
 --
-.25.1
+.43.0

-[PULL 09/28] accel/tcg: Pass MemOpIdx to atomic_trace_*_post
+[PULL 57/72] target/sparc: Use float*_muladd_scalbn
-We will shortly use the MemOpIdx directly, but in the meantime
+Use the scalbn interface instead of float_muladd_halve_result.
-re-compute the trace meminfo.
+Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
 Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- accel/tcg/atomic_template.h   | 48 +++++++++++++++++------------------
+ target/sparc/helper.h     |  4 +-
- accel/tcg/atomic_common.c.inc | 30 +++++++++++-----------
+ target/sparc/fop_helper.c |  8 ++--
-files changed, 39 insertions(+), 39 deletions(-)
+ target/sparc/translate.c  | 80 +++++++++++++++++++++++----------------
+files changed, 54 insertions(+), 38 deletions(-)
-diff --git a/accel/tcg/atomic_template.h b/accel/tcg/atomic_template.h
 diff --git a/target/sparc/helper.h b/target/sparc/helper.h
 index XXXXXXX..XXXXXXX 100644
---- a/accel/tcg/atomic_template.h
+--- a/target/sparc/helper.h
-+++ b/accel/tcg/atomic_template.h
++++ b/target/sparc/helper.h
-@@ -XXX,XX +XXX,XX @@ ABI_TYPE ATOMIC_NAME(cmpxchg)(CPUArchState *env, target_ulong addr,
+@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_3(faddd, TCG_CALL_NO_WG, f64, env, f64, f64)
-     DATA_TYPE *haddr = atomic_mmu_lookup(env, addr, oi, DATA_SIZE,
+ DEF_HELPER_FLAGS_3(fsubd, TCG_CALL_NO_WG, f64, env, f64, f64)
-                                          PAGE_READ | PAGE_WRITE, retaddr);
+ DEF_HELPER_FLAGS_3(fmuld, TCG_CALL_NO_WG, f64, env, f64, f64)
-     DATA_TYPE ret;
+ DEF_HELPER_FLAGS_3(fdivd, TCG_CALL_NO_WG, f64, env, f64, f64)
--    uint16_t info = atomic_trace_rmw_pre(env, addr, oi);
+-DEF_HELPER_FLAGS_5(fmaddd, TCG_CALL_NO_WG, f64, env, f64, f64, f64, i32)
++DEF_HELPER_FLAGS_6(fmaddd, TCG_CALL_NO_WG, f64, env, f64, f64, f64, s32, i32)
-+    atomic_trace_rmw_pre(env, addr, oi);
+ DEF_HELPER_FLAGS_3(fnaddd, TCG_CALL_NO_WG, f64, env, f64, f64)
- #if DATA_SIZE == 16
+ DEF_HELPER_FLAGS_3(fnmuld, TCG_CALL_NO_WG, f64, env, f64, f64)
-     ret = atomic16_cmpxchg(haddr, cmpv, newv);
- #else
+@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_3(fadds, TCG_CALL_NO_WG, f32, env, f32, f32)
-     ret = qatomic_cmpxchg__nocheck(haddr, cmpv, newv);
+ DEF_HELPER_FLAGS_3(fsubs, TCG_CALL_NO_WG, f32, env, f32, f32)
- #endif
+ DEF_HELPER_FLAGS_3(fmuls, TCG_CALL_NO_WG, f32, env, f32, f32)
-     ATOMIC_MMU_CLEANUP;
+ DEF_HELPER_FLAGS_3(fdivs, TCG_CALL_NO_WG, f32, env, f32, f32)
--    atomic_trace_rmw_post(env, addr, info);
+-DEF_HELPER_FLAGS_5(fmadds, TCG_CALL_NO_WG, f32, env, f32, f32, f32, i32)
-+    atomic_trace_rmw_post(env, addr, oi);
++DEF_HELPER_FLAGS_6(fmadds, TCG_CALL_NO_WG, f32, env, f32, f32, f32, s32, i32)
  DEF_HELPER_FLAGS_3(fnadds, TCG_CALL_NO_WG, f32, env, f32, f32)
  DEF_HELPER_FLAGS_3(fnmuls, TCG_CALL_NO_WG, f32, env, f32, f32)
 diff --git a/target/sparc/fop_helper.c b/target/sparc/fop_helper.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/sparc/fop_helper.c
 +++ b/target/sparc/fop_helper.c
@@ -XXX,XX +XXX,XX @@ Int128 helper_fsqrtq(CPUSPARCState *env, Int128 src)
  }
  float32 helper_fmadds(CPUSPARCState *env, float32 s1,
 -                      float32 s2, float32 s3, uint32_t op)
 +                      float32 s2, float32 s3, int32_t sc, uint32_t op)
  {
 -    float32 ret = float32_muladd(s1, s2, s3, op, &env->fp_status);
 +    float32 ret = float32_muladd_scalbn(s1, s2, s3, sc, op, &env->fp_status);
      check_ieee_exceptions(env, GETPC());
      return ret;
  }
-@@ -XXX,XX +XXX,XX @@ ABI_TYPE ATOMIC_NAME(ld)(CPUArchState *env, target_ulong addr,
+ float64 helper_fmaddd(CPUSPARCState *env, float64 s1,
-     DATA_TYPE *haddr = atomic_mmu_lookup(env, addr, oi, DATA_SIZE,
+-                      float64 s2, float64 s3, uint32_t op)
-                                          PAGE_READ, retaddr);
++                      float64 s2, float64 s3, int32_t sc, uint32_t op)
-     DATA_TYPE val;
+ {
--    uint16_t info = atomic_trace_ld_pre(env, addr, oi);
+-    float64 ret = float64_muladd(s1, s2, s3, op, &env->fp_status);
++    float64 ret = float64_muladd_scalbn(s1, s2, s3, sc, op, &env->fp_status);
-+    atomic_trace_ld_pre(env, addr, oi);
+     check_ieee_exceptions(env, GETPC());
      val = atomic16_read(haddr);
      ATOMIC_MMU_CLEANUP;
 -    atomic_trace_ld_post(env, addr, info);
 +    atomic_trace_ld_post(env, addr, oi);
      return val;
  }
@@ -XXX,XX +XXX,XX @@ void ATOMIC_NAME(st)(CPUArchState *env, target_ulong addr, ABI_TYPE val,
  {
      DATA_TYPE *haddr = atomic_mmu_lookup(env, addr, oi, DATA_SIZE,
                                           PAGE_WRITE, retaddr);
 -    uint16_t info = atomic_trace_st_pre(env, addr, oi);
 +    atomic_trace_st_pre(env, addr, oi);
      atomic16_set(haddr, val);
      ATOMIC_MMU_CLEANUP;
 -    atomic_trace_st_post(env, addr, info);
 +    atomic_trace_st_post(env, addr, oi);
  }
  #endif
  #else
@@ -XXX,XX +XXX,XX @@ ABI_TYPE ATOMIC_NAME(xchg)(CPUArchState *env, target_ulong addr, ABI_TYPE val,
      DATA_TYPE *haddr = atomic_mmu_lookup(env, addr, oi, DATA_SIZE,
                                           PAGE_READ | PAGE_WRITE, retaddr);
      DATA_TYPE ret;
 -    uint16_t info = atomic_trace_rmw_pre(env, addr, oi);
 +    atomic_trace_rmw_pre(env, addr, oi);
      ret = qatomic_xchg__nocheck(haddr, val);
      ATOMIC_MMU_CLEANUP;
 -    atomic_trace_rmw_post(env, addr, info);
 +    atomic_trace_rmw_post(env, addr, oi);
      return ret;
  }
+diff --git a/target/sparc/translate.c b/target/sparc/translate.c
@@ -XXX,XX +XXX,XX @@ ABI_TYPE ATOMIC_NAME(X)(CPUArchState *env, target_ulong addr,       \
      DATA_TYPE *haddr = atomic_mmu_lookup(env, addr, oi, DATA_SIZE,  \
                                           PAGE_READ | PAGE_WRITE, retaddr); \
      DATA_TYPE ret;                                                  \
 -    uint16_t info = atomic_trace_rmw_pre(env, addr, oi);            \
 +    atomic_trace_rmw_pre(env, addr, oi);                            \
      ret = qatomic_##X(haddr, val);                                  \
      ATOMIC_MMU_CLEANUP;                                             \
 -    atomic_trace_rmw_post(env, addr, info);                         \
 +    atomic_trace_rmw_post(env, addr, oi);                           \
      return ret;                                                     \
  }
@@ -XXX,XX +XXX,XX @@ ABI_TYPE ATOMIC_NAME(X)(CPUArchState *env, target_ulong addr,       \
      XDATA_TYPE *haddr = atomic_mmu_lookup(env, addr, oi, DATA_SIZE, \
                                            PAGE_READ | PAGE_WRITE, retaddr); \
      XDATA_TYPE cmp, old, new, val = xval;                           \
 -    uint16_t info = atomic_trace_rmw_pre(env, addr, oi);            \
 +    atomic_trace_rmw_pre(env, addr, oi);                            \
      smp_mb();                                                       \
      cmp = qatomic_read__nocheck(haddr);                             \
      do {                                                            \
@@ -XXX,XX +XXX,XX @@ ABI_TYPE ATOMIC_NAME(X)(CPUArchState *env, target_ulong addr,       \
          cmp = qatomic_cmpxchg__nocheck(haddr, old, new);            \
      } while (cmp != old);                                           \
      ATOMIC_MMU_CLEANUP;                                             \
 -    atomic_trace_rmw_post(env, addr, info);                         \
 +    atomic_trace_rmw_post(env, addr, oi);                           \
      return RET;                                                     \
  }
@@ -XXX,XX +XXX,XX @@ ABI_TYPE ATOMIC_NAME(cmpxchg)(CPUArchState *env, target_ulong addr,
      DATA_TYPE *haddr = atomic_mmu_lookup(env, addr, oi, DATA_SIZE,
                                           PAGE_READ | PAGE_WRITE, retaddr);
      DATA_TYPE ret;
 -    uint16_t info = atomic_trace_rmw_pre(env, addr, oi);
 +    atomic_trace_rmw_pre(env, addr, oi);
  #if DATA_SIZE == 16
      ret = atomic16_cmpxchg(haddr, BSWAP(cmpv), BSWAP(newv));
  #else
      ret = qatomic_cmpxchg__nocheck(haddr, BSWAP(cmpv), BSWAP(newv));
  #endif
      ATOMIC_MMU_CLEANUP;
 -    atomic_trace_rmw_post(env, addr, info);
 +    atomic_trace_rmw_post(env, addr, oi);
      return BSWAP(ret);
  }
@@ -XXX,XX +XXX,XX @@ ABI_TYPE ATOMIC_NAME(ld)(CPUArchState *env, target_ulong addr,
      DATA_TYPE *haddr = atomic_mmu_lookup(env, addr, oi, DATA_SIZE,
                                           PAGE_READ, retaddr);
      DATA_TYPE val;
 -    uint16_t info = atomic_trace_ld_pre(env, addr, oi);
 +    atomic_trace_ld_pre(env, addr, oi);
      val = atomic16_read(haddr);
      ATOMIC_MMU_CLEANUP;
 -    atomic_trace_ld_post(env, addr, info);
 +    atomic_trace_ld_post(env, addr, oi);
      return BSWAP(val);
  }
@@ -XXX,XX +XXX,XX @@ void ATOMIC_NAME(st)(CPUArchState *env, target_ulong addr, ABI_TYPE val,
  {
      DATA_TYPE *haddr = atomic_mmu_lookup(env, addr, oi, DATA_SIZE,
                                           PAGE_WRITE, retaddr);
 -    uint16_t info = atomic_trace_st_pre(env, addr, oi);
 +    atomic_trace_st_pre(env, addr, oi);
      val = BSWAP(val);
      atomic16_set(haddr, val);
      ATOMIC_MMU_CLEANUP;
 -    atomic_trace_st_post(env, addr, info);
 +    atomic_trace_st_post(env, addr, oi);
  }
  #endif
  #else
@@ -XXX,XX +XXX,XX @@ ABI_TYPE ATOMIC_NAME(xchg)(CPUArchState *env, target_ulong addr, ABI_TYPE val,
      DATA_TYPE *haddr = atomic_mmu_lookup(env, addr, oi, DATA_SIZE,
                                           PAGE_READ | PAGE_WRITE, retaddr);
      ABI_TYPE ret;
 -    uint16_t info = atomic_trace_rmw_pre(env, addr, oi);
 +    atomic_trace_rmw_pre(env, addr, oi);
      ret = qatomic_xchg__nocheck(haddr, BSWAP(val));
      ATOMIC_MMU_CLEANUP;
 -    atomic_trace_rmw_post(env, addr, info);
 +    atomic_trace_rmw_post(env, addr, oi);
      return BSWAP(ret);
  }
@@ -XXX,XX +XXX,XX @@ ABI_TYPE ATOMIC_NAME(X)(CPUArchState *env, target_ulong addr,       \
      DATA_TYPE *haddr = atomic_mmu_lookup(env, addr, oi, DATA_SIZE,  \
                                           PAGE_READ | PAGE_WRITE, retaddr); \
      DATA_TYPE ret;                                                  \
 -    uint16_t info = atomic_trace_rmw_pre(env, addr, oi);            \
 +    atomic_trace_rmw_pre(env, addr, oi);                            \
      ret = qatomic_##X(haddr, BSWAP(val));                           \
      ATOMIC_MMU_CLEANUP;                                             \
 -    atomic_trace_rmw_post(env, addr, info);                         \
 +    atomic_trace_rmw_post(env, addr, oi);                           \
      return BSWAP(ret);                                              \
  }
@@ -XXX,XX +XXX,XX @@ ABI_TYPE ATOMIC_NAME(X)(CPUArchState *env, target_ulong addr,       \
      XDATA_TYPE *haddr = atomic_mmu_lookup(env, addr, oi, DATA_SIZE, \
                                            PAGE_READ | PAGE_WRITE, retaddr); \
      XDATA_TYPE ldo, ldn, old, new, val = xval;                      \
 -    uint16_t info = atomic_trace_rmw_pre(env, addr, oi);            \
 +    atomic_trace_rmw_pre(env, addr, oi);                            \
      smp_mb();                                                       \
      ldn = qatomic_read__nocheck(haddr);                             \
      do {                                                            \
@@ -XXX,XX +XXX,XX @@ ABI_TYPE ATOMIC_NAME(X)(CPUArchState *env, target_ulong addr,       \
          ldn = qatomic_cmpxchg__nocheck(haddr, ldo, BSWAP(new));     \
      } while (ldo != ldn);                                           \
      ATOMIC_MMU_CLEANUP;                                             \
 -    atomic_trace_rmw_post(env, addr, info);                         \
 +    atomic_trace_rmw_post(env, addr, oi);                           \
      return RET;                                                     \
  }
 diff --git a/accel/tcg/atomic_common.c.inc b/accel/tcg/atomic_common.c.inc
 index XXXXXXX..XXXXXXX 100644
---- a/accel/tcg/atomic_common.c.inc
+--- a/target/sparc/translate.c
-+++ b/accel/tcg/atomic_common.c.inc
++++ b/target/sparc/translate.c
-@@ -XXX,XX +XXX,XX @@
+@@ -XXX,XX +XXX,XX @@ static void gen_op_fabsq(TCGv_i128 dst, TCGv_i128 src)
-  * See the COPYING file in the top-level directory.
-  */
+ static void gen_op_fmadds(TCGv_i32 d, TCGv_i32 s1, TCGv_i32 s2, TCGv_i32 s3)
+ {
--static uint16_t atomic_trace_rmw_pre(CPUArchState *env, target_ulong addr,
+-    gen_helper_fmadds(d, tcg_env, s1, s2, s3, tcg_constant_i32(0));
--                                     MemOpIdx oi)
++    TCGv_i32 z = tcg_constant_i32(0);
-+static void atomic_trace_rmw_pre(CPUArchState *env, target_ulong addr,
++    gen_helper_fmadds(d, tcg_env, s1, s2, s3, z, z);
-+                                 MemOpIdx oi)
+ }
- {
-     CPUState *cpu = env_cpu(env);
+ static void gen_op_fmaddd(TCGv_i64 d, TCGv_i64 s1, TCGv_i64 s2, TCGv_i64 s3)
-     uint16_t info = trace_mem_get_info(oi, false);
+ {
+-    gen_helper_fmaddd(d, tcg_env, s1, s2, s3, tcg_constant_i32(0));
-     trace_guest_mem_before_exec(cpu, addr, info);
++    TCGv_i32 z = tcg_constant_i32(0);
-     trace_guest_mem_before_exec(cpu, addr, info | TRACE_MEM_ST);
++    gen_helper_fmaddd(d, tcg_env, s1, s2, s3, z, z);
--
+ }
--    return info;
- }
+ static void gen_op_fmsubs(TCGv_i32 d, TCGv_i32 s1, TCGv_i32 s2, TCGv_i32 s3)
+ {
- static void atomic_trace_rmw_post(CPUArchState *env, target_ulong addr,
+-    int op = float_muladd_negate_c;
--                                  uint16_t info)
+-    gen_helper_fmadds(d, tcg_env, s1, s2, s3, tcg_constant_i32(op));
-+                                  MemOpIdx oi)
++    TCGv_i32 z = tcg_constant_i32(0);
- {
++    TCGv_i32 op = tcg_constant_i32(float_muladd_negate_c);
-+    uint16_t info = trace_mem_get_info(oi, false);
++    gen_helper_fmadds(d, tcg_env, s1, s2, s3, z, op);
-+
+ }
-     qemu_plugin_vcpu_mem_cb(env_cpu(env), addr, info);
-     qemu_plugin_vcpu_mem_cb(env_cpu(env), addr, info | TRACE_MEM_ST);
+ static void gen_op_fmsubd(TCGv_i64 d, TCGv_i64 s1, TCGv_i64 s2, TCGv_i64 s3)
- }
+ {
+-    int op = float_muladd_negate_c;
- #if HAVE_ATOMIC128
+-    gen_helper_fmaddd(d, tcg_env, s1, s2, s3, tcg_constant_i32(op));
--static uint16_t atomic_trace_ld_pre(CPUArchState *env, target_ulong addr,
++    TCGv_i32 z = tcg_constant_i32(0);
--                                    MemOpIdx oi)
++    TCGv_i32 op = tcg_constant_i32(float_muladd_negate_c);
-+static void atomic_trace_ld_pre(CPUArchState *env, target_ulong addr,
++    gen_helper_fmaddd(d, tcg_env, s1, s2, s3, z, op);
-+                                MemOpIdx oi)
+ }
- {
-     uint16_t info = trace_mem_get_info(oi, false);
+ static void gen_op_fnmsubs(TCGv_i32 d, TCGv_i32 s1, TCGv_i32 s2, TCGv_i32 s3)
+ {
-     trace_guest_mem_before_exec(env_cpu(env), addr, info);
+-    int op = float_muladd_negate_c | float_muladd_negate_result;
--
+-    gen_helper_fmadds(d, tcg_env, s1, s2, s3, tcg_constant_i32(op));
--    return info;
++    TCGv_i32 z = tcg_constant_i32(0);
- }
++    TCGv_i32 op = tcg_constant_i32(float_muladd_negate_c |
++                                   float_muladd_negate_result);
- static void atomic_trace_ld_post(CPUArchState *env, target_ulong addr,
++    gen_helper_fmadds(d, tcg_env, s1, s2, s3, z, op);
--                                 uint16_t info)
+ }
-+                                 MemOpIdx oi)
- {
+ static void gen_op_fnmsubd(TCGv_i64 d, TCGv_i64 s1, TCGv_i64 s2, TCGv_i64 s3)
-+    uint16_t info = trace_mem_get_info(oi, false);
+ {
-+
+-    int op = float_muladd_negate_c | float_muladd_negate_result;
-     qemu_plugin_vcpu_mem_cb(env_cpu(env), addr, info);
+-    gen_helper_fmaddd(d, tcg_env, s1, s2, s3, tcg_constant_i32(op));
- }
++    TCGv_i32 z = tcg_constant_i32(0);
++    TCGv_i32 op = tcg_constant_i32(float_muladd_negate_c |
--static uint16_t atomic_trace_st_pre(CPUArchState *env, target_ulong addr,
++                                   float_muladd_negate_result);
--                                    MemOpIdx oi)
++    gen_helper_fmaddd(d, tcg_env, s1, s2, s3, z, op);
-+static void atomic_trace_st_pre(CPUArchState *env, target_ulong addr,
+ }
-+                                MemOpIdx oi)
- {
+ static void gen_op_fnmadds(TCGv_i32 d, TCGv_i32 s1, TCGv_i32 s2, TCGv_i32 s3)
-     uint16_t info = trace_mem_get_info(oi, true);
+ {
+-    int op = float_muladd_negate_result;
-     trace_guest_mem_before_exec(env_cpu(env), addr, info);
+-    gen_helper_fmadds(d, tcg_env, s1, s2, s3, tcg_constant_i32(op));
--
++    TCGv_i32 z = tcg_constant_i32(0);
--    return info;
++    TCGv_i32 op = tcg_constant_i32(float_muladd_negate_result);
- }
++    gen_helper_fmadds(d, tcg_env, s1, s2, s3, z, op);
+ }
- static void atomic_trace_st_post(CPUArchState *env, target_ulong addr,
--                                 uint16_t info)
+ static void gen_op_fnmaddd(TCGv_i64 d, TCGv_i64 s1, TCGv_i64 s2, TCGv_i64 s3)
-+                                 MemOpIdx oi)
+ {
- {
+-    int op = float_muladd_negate_result;
-+    uint16_t info = trace_mem_get_info(oi, false);
+-    gen_helper_fmaddd(d, tcg_env, s1, s2, s3, tcg_constant_i32(op));
-+
++    TCGv_i32 z = tcg_constant_i32(0);
-     qemu_plugin_vcpu_mem_cb(env_cpu(env), addr, info);
++    TCGv_i32 op = tcg_constant_i32(float_muladd_negate_result);
- }
++    gen_helper_fmaddd(d, tcg_env, s1, s2, s3, z, op);
- #endif
+ }
  /* Use muladd to compute (1 * src1) + src2 / 2 with one rounding. */
  static void gen_op_fhadds(TCGv_i32 d, TCGv_i32 s1, TCGv_i32 s2)
  {
 -    TCGv_i32 one = tcg_constant_i32(float32_one);
 -    int op = float_muladd_halve_result;
 -    gen_helper_fmadds(d, tcg_env, one, s1, s2, tcg_constant_i32(op));
 +    TCGv_i32 fone = tcg_constant_i32(float32_one);
 +    TCGv_i32 mone = tcg_constant_i32(-1);
 +    TCGv_i32 op = tcg_constant_i32(0);
 +    gen_helper_fmadds(d, tcg_env, fone, s1, s2, mone, op);
  }
  static void gen_op_fhaddd(TCGv_i64 d, TCGv_i64 s1, TCGv_i64 s2)
  {
 -    TCGv_i64 one = tcg_constant_i64(float64_one);
 -    int op = float_muladd_halve_result;
 -    gen_helper_fmaddd(d, tcg_env, one, s1, s2, tcg_constant_i32(op));
 +    TCGv_i64 fone = tcg_constant_i64(float64_one);
 +    TCGv_i32 mone = tcg_constant_i32(-1);
 +    TCGv_i32 op = tcg_constant_i32(0);
 +    gen_helper_fmaddd(d, tcg_env, fone, s1, s2, mone, op);
  }
  /* Use muladd to compute (1 * src1) - src2 / 2 with one rounding. */
  static void gen_op_fhsubs(TCGv_i32 d, TCGv_i32 s1, TCGv_i32 s2)
  {
 -    TCGv_i32 one = tcg_constant_i32(float32_one);
 -    int op = float_muladd_negate_c | float_muladd_halve_result;
 -    gen_helper_fmadds(d, tcg_env, one, s1, s2, tcg_constant_i32(op));
 +    TCGv_i32 fone = tcg_constant_i32(float32_one);
 +    TCGv_i32 mone = tcg_constant_i32(-1);
 +    TCGv_i32 op = tcg_constant_i32(float_muladd_negate_c);
 +    gen_helper_fmadds(d, tcg_env, fone, s1, s2, mone, op);
  }
  static void gen_op_fhsubd(TCGv_i64 d, TCGv_i64 s1, TCGv_i64 s2)
  {
 -    TCGv_i64 one = tcg_constant_i64(float64_one);
 -    int op = float_muladd_negate_c | float_muladd_halve_result;
 -    gen_helper_fmaddd(d, tcg_env, one, s1, s2, tcg_constant_i32(op));
 +    TCGv_i64 fone = tcg_constant_i64(float64_one);
 +    TCGv_i32 mone = tcg_constant_i32(-1);
 +    TCGv_i32 op = tcg_constant_i32(float_muladd_negate_c);
 +    gen_helper_fmaddd(d, tcg_env, fone, s1, s2, mone, op);
  }
  /* Use muladd to compute -((1 * src1) + src2 / 2) with one rounding. */
  static void gen_op_fnhadds(TCGv_i32 d, TCGv_i32 s1, TCGv_i32 s2)
  {
 -    TCGv_i32 one = tcg_constant_i32(float32_one);
 -    int op = float_muladd_negate_result | float_muladd_halve_result;
 -    gen_helper_fmadds(d, tcg_env, one, s1, s2, tcg_constant_i32(op));
 +    TCGv_i32 fone = tcg_constant_i32(float32_one);
 +    TCGv_i32 mone = tcg_constant_i32(-1);
 +    TCGv_i32 op = tcg_constant_i32(float_muladd_negate_result);
 +    gen_helper_fmadds(d, tcg_env, fone, s1, s2, mone, op);
  }
  static void gen_op_fnhaddd(TCGv_i64 d, TCGv_i64 s1, TCGv_i64 s2)
  {
 -    TCGv_i64 one = tcg_constant_i64(float64_one);
 -    int op = float_muladd_negate_result | float_muladd_halve_result;
 -    gen_helper_fmaddd(d, tcg_env, one, s1, s2, tcg_constant_i32(op));
 +    TCGv_i64 fone = tcg_constant_i64(float64_one);
 +    TCGv_i32 mone = tcg_constant_i32(-1);
 +    TCGv_i32 op = tcg_constant_i32(float_muladd_negate_result);
 +    gen_helper_fmaddd(d, tcg_env, fone, s1, s2, mone, op);
  }
  static void gen_op_fpexception_im(DisasContext *dc, int ftt)
 --
-.25.1
+.43.0

-[PULL 25/28] tcg/s390x: Implement TCG_TARGET_HAS_minmax_vec
+[PULL 58/72] softfloat: Remove float_muladd_halve_result
-Reviewed-by: David Hildenbrand <david@redhat.com>
+All uses have been convered to float*_muladd_scalbn.
 Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- tcg/s390x/tcg-target.h     |  2 +-
+ include/fpu/softfloat.h   | 3 ---
- tcg/s390x/tcg-target.c.inc | 25 +++++++++++++++++++++++++
+ fpu/softfloat.c           | 6 ------
-files changed, 26 insertions(+), 1 deletion(-)
+ fpu/softfloat-parts.c.inc | 4 ----
 files changed, 13 deletions(-)
-diff --git a/tcg/s390x/tcg-target.h b/tcg/s390x/tcg-target.h
+diff --git a/include/fpu/softfloat.h b/include/fpu/softfloat.h
 index XXXXXXX..XXXXXXX 100644
---- a/tcg/s390x/tcg-target.h
+--- a/include/fpu/softfloat.h
-+++ b/tcg/s390x/tcg-target.h
++++ b/include/fpu/softfloat.h
-@@ -XXX,XX +XXX,XX @@ extern uint64_t s390_facilities[3];
+@@ -XXX,XX +XXX,XX @@ bfloat16 bfloat16_squash_input_denormal(bfloat16 a, float_status *status);
- #define TCG_TARGET_HAS_shv_vec        1
+ | Using these differs from negating an input or output before calling
- #define TCG_TARGET_HAS_mul_vec        1
+ | the muladd function in that this means that a NaN doesn't have its
- #define TCG_TARGET_HAS_sat_vec        0
+ | sign bit inverted before it is propagated.
--#define TCG_TARGET_HAS_minmax_vec     0
+-| We also support halving the result before rounding, as a special
-+#define TCG_TARGET_HAS_minmax_vec     1
+-| case to support the ARM fused-sqrt-step instruction FRSQRTS.
- #define TCG_TARGET_HAS_bitsel_vec     0
+ *----------------------------------------------------------------------------*/
- #define TCG_TARGET_HAS_cmpsel_vec     0
+ enum {
+     float_muladd_negate_c = 1,
-diff --git a/tcg/s390x/tcg-target.c.inc b/tcg/s390x/tcg-target.c.inc
+     float_muladd_negate_product = 2,
      float_muladd_negate_result = 4,
 -    float_muladd_halve_result = 8,
  };
  /*----------------------------------------------------------------------------
 diff --git a/fpu/softfloat.c b/fpu/softfloat.c
 index XXXXXXX..XXXXXXX 100644
---- a/tcg/s390x/tcg-target.c.inc
+--- a/fpu/softfloat.c
-+++ b/tcg/s390x/tcg-target.c.inc
++++ b/fpu/softfloat.c
-@@ -XXX,XX +XXX,XX @@ typedef enum S390Opcode {
+@@ -XXX,XX +XXX,XX @@ float32_muladd(float32 xa, float32 xb, float32 xc, int flags, float_status *s)
-     VRRc_VESRAV = 0xe77a,
+     if (unlikely(!can_use_fpu(s))) {
-     VRRc_VESRLV = 0xe778,
+         goto soft;
-     VRRc_VML    = 0xe7a2,
+     }
-+    VRRc_VMN    = 0xe7fe,
+-    if (unlikely(flags & float_muladd_halve_result)) {
-+    VRRc_VMNL   = 0xe7fc,
+-        goto soft;
-+    VRRc_VMX    = 0xe7ff,
+-    }
-+    VRRc_VMXL   = 0xe7fd,
-     VRRc_VN     = 0xe768,
+     float32_input_flush3(&ua.s, &ub.s, &uc.s, s);
-     VRRc_VNC    = 0xe769,
+     if (unlikely(!f32_is_zon3(ua, ub, uc))) {
-     VRRc_VNO    = 0xe76b,
+@@ -XXX,XX +XXX,XX @@ float64_muladd(float64 xa, float64 xb, float64 xc, int flags, float_status *s)
-@@ -XXX,XX +XXX,XX @@ static void tcg_out_vec_op(TCGContext *s, TCGOpcode opc,
+     if (unlikely(!can_use_fpu(s))) {
-         tcg_out_insn(s, VRRc, VERLLV, a0, a1, a2, vece);
+         goto soft;
-         break;
+     }
+-    if (unlikely(flags & float_muladd_halve_result)) {
-+    case INDEX_op_smin_vec:
+-        goto soft;
-+        tcg_out_insn(s, VRRc, VMN, a0, a1, a2, vece);
+-    }
-+        break;
-+    case INDEX_op_smax_vec:
+     float64_input_flush3(&ua.s, &ub.s, &uc.s, s);
-+        tcg_out_insn(s, VRRc, VMX, a0, a1, a2, vece);
+     if (unlikely(!f64_is_zon3(ua, ub, uc))) {
-+        break;
+diff --git a/fpu/softfloat-parts.c.inc b/fpu/softfloat-parts.c.inc
-+    case INDEX_op_umin_vec:
+index XXXXXXX..XXXXXXX 100644
-+        tcg_out_insn(s, VRRc, VMNL, a0, a1, a2, vece);
+--- a/fpu/softfloat-parts.c.inc
-+        break;
++++ b/fpu/softfloat-parts.c.inc
-+    case INDEX_op_umax_vec:
+@@ -XXX,XX +XXX,XX @@ static FloatPartsN *partsN(muladd_scalbn)(FloatPartsN *a, FloatPartsN *b,
-+        tcg_out_insn(s, VRRc, VMXL, a0, a1, a2, vece);
+     a->exp = p_widen.exp;
-+        break;
-+
+  return_normal:
-     case INDEX_op_cmp_vec:
+-    /* TODO: Replace all use of float_muladd_halve_result with scale. */
-         switch ((TCGCond)args[3]) {
+-    if (flags & float_muladd_halve_result) {
-         case TCG_COND_EQ:
+-        a->exp -= 1;
-@@ -XXX,XX +XXX,XX @@ int tcg_can_emit_vec_op(TCGOpcode opc, TCGType type, unsigned vece)
+-    }
-     case INDEX_op_shri_vec:
+     a->exp += scale;
-     case INDEX_op_shrs_vec:
+  finish_sign:
-     case INDEX_op_shrv_vec:
+     if (flags & float_muladd_negate_result) {
 +    case INDEX_op_smax_vec:
 +    case INDEX_op_smin_vec:
      case INDEX_op_sub_vec:
 +    case INDEX_op_umax_vec:
 +    case INDEX_op_umin_vec:
      case INDEX_op_xor_vec:
          return 1;
      case INDEX_op_cmp_vec:
@@ -XXX,XX +XXX,XX @@ static TCGConstraintSetIndex tcg_target_op_def(TCGOpcode op)
      case INDEX_op_shlv_vec:
      case INDEX_op_shrv_vec:
      case INDEX_op_sarv_vec:
 +    case INDEX_op_smax_vec:
 +    case INDEX_op_smin_vec:
 +    case INDEX_op_umax_vec:
 +    case INDEX_op_umin_vec:
          return C_O1_I2(v, v, v);
      case INDEX_op_rotls_vec:
      case INDEX_op_shls_vec:
 --
-.25.1
+.43.0

-New patch
+[PULL 59/72] softfloat: Add float_round_nearest_even_max
+This rounding mode is used by Hexagon.
+Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
+---
+ include/fpu/softfloat-types.h | 2 ++
+ fpu/softfloat-parts.c.inc     | 3 +++
+files changed, 5 insertions(+)
+diff --git a/include/fpu/softfloat-types.h b/include/fpu/softfloat-types.h
+index XXXXXXX..XXXXXXX 100644
+--- a/include/fpu/softfloat-types.h
++++ b/include/fpu/softfloat-types.h
+@@ -XXX,XX +XXX,XX @@ typedef enum __attribute__((__packed__)) {
+     float_round_to_odd       = 5,
+     /* Not an IEEE rounding mode: round to closest odd, overflow to inf */
+     float_round_to_odd_inf   = 6,
++    /* Not an IEEE rounding mode: round to nearest even, overflow to max */
++    float_round_nearest_even_max = 7,
+ } FloatRoundMode;
+ /*
+diff --git a/fpu/softfloat-parts.c.inc b/fpu/softfloat-parts.c.inc
+index XXXXXXX..XXXXXXX 100644
+--- a/fpu/softfloat-parts.c.inc
++++ b/fpu/softfloat-parts.c.inc
+@@ -XXX,XX +XXX,XX @@ static void partsN(uncanon_normal)(FloatPartsN *p, float_status *s,
+     int exp, flags = 0;
+     switch (s->float_rounding_mode) {
++    case float_round_nearest_even_max:
++        overflow_norm = true;
++        /* fall through */
+     case float_round_nearest_even:
+         if (N > 64 && frac_lsb == 0) {
+             inc = ((p->frac_hi & 1) || (p->frac_lo & round_mask) != frac_lsbm1
+--
+.43.0

-[PULL 02/28] tests/docker: Fix fedora-i386-cross cross-compilation
+[PULL 60/72] softfloat: Add float_muladd_suppress_add_product_zero
-By using PKG_CONFIG_PATH instead of PKG_CONFIG_LIBDIR,
+Certain Hexagon instructions suppress changes to the result
-we were still including the 64-bit packages.  Install
+when the product of fma() is a true zero.
 pcre-devel.i686 to fill a missing glib2 dependency.
 By using --extra-cflags instead of --cpu, we incorrectly
 use the wrong probing during meson.
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
-Reviewed-by: Richard W.M. Jones <rjones@redhat.com>
-Reviewed-by: Daniel P. Berrangé <berrange@redhat.com>
-Message-Id: <20210930163636.721311-3-richard.henderson@linaro.org>
 ---
- tests/docker/dockerfiles/fedora-i386-cross.docker | 5 +++--
+ include/fpu/softfloat.h   | 5 +++++
-file changed, 3 insertions(+), 2 deletions(-)
+ fpu/softfloat.c           | 3 +++
  fpu/softfloat-parts.c.inc | 4 +++-
 files changed, 11 insertions(+), 1 deletion(-)
-diff --git a/tests/docker/dockerfiles/fedora-i386-cross.docker b/tests/docker/dockerfiles/fedora-i386-cross.docker
+diff --git a/include/fpu/softfloat.h b/include/fpu/softfloat.h
 index XXXXXXX..XXXXXXX 100644
---- a/tests/docker/dockerfiles/fedora-i386-cross.docker
+--- a/include/fpu/softfloat.h
-+++ b/tests/docker/dockerfiles/fedora-i386-cross.docker
++++ b/include/fpu/softfloat.h
-@@ -XXX,XX +XXX,XX @@ ENV PACKAGES \
+@@ -XXX,XX +XXX,XX @@ bfloat16 bfloat16_squash_input_denormal(bfloat16 a, float_status *status);
-     glibc-static.i686 \
+ | Using these differs from negating an input or output before calling
-     gnutls-devel.i686 \
+ | the muladd function in that this means that a NaN doesn't have its
-     nettle-devel.i686 \
+ | sign bit inverted before it is propagated.
-+    pcre-devel.i686 \
++|
-     perl-Test-Harness \
++| With float_muladd_suppress_add_product_zero, if A or B is zero
-     pixman-devel.i686 \
++| such that the product is a true zero, then return C without addition.
-     sysprof-capture-devel.i686 \
++| This preserves the sign of C when C is +/- 0.  Used for Hexagon.
-     zlib-devel.i686
+ *----------------------------------------------------------------------------*/
+ enum {
--ENV QEMU_CONFIGURE_OPTS --extra-cflags=-m32 --disable-vhost-user
+     float_muladd_negate_c = 1,
--ENV PKG_CONFIG_PATH /usr/lib/pkgconfig
+     float_muladd_negate_product = 2,
-+ENV QEMU_CONFIGURE_OPTS --cpu=i386 --disable-vhost-user
+     float_muladd_negate_result = 4,
-+ENV PKG_CONFIG_LIBDIR /usr/lib/pkgconfig
++    float_muladd_suppress_add_product_zero = 8,
+ };
- RUN dnf update -y && dnf install -y $PACKAGES
- RUN rpm -q $PACKAGES | sort > /packages.txt
+ /*----------------------------------------------------------------------------
 diff --git a/fpu/softfloat.c b/fpu/softfloat.c
 index XXXXXXX..XXXXXXX 100644
 --- a/fpu/softfloat.c
 +++ b/fpu/softfloat.c
@@ -XXX,XX +XXX,XX @@ float32_muladd(float32 xa, float32 xb, float32 xc, int flags, float_status *s)
      if (unlikely(!can_use_fpu(s))) {
          goto soft;
      }
 +    if (unlikely(flags & float_muladd_suppress_add_product_zero)) {
 +        goto soft;
 +    }
      float32_input_flush3(&ua.s, &ub.s, &uc.s, s);
      if (unlikely(!f32_is_zon3(ua, ub, uc))) {
 diff --git a/fpu/softfloat-parts.c.inc b/fpu/softfloat-parts.c.inc
 index XXXXXXX..XXXXXXX 100644
 --- a/fpu/softfloat-parts.c.inc
 +++ b/fpu/softfloat-parts.c.inc
@@ -XXX,XX +XXX,XX @@ static FloatPartsN *partsN(muladd_scalbn)(FloatPartsN *a, FloatPartsN *b,
              goto return_normal;
          }
          if (c->cls == float_class_zero) {
 -            if (a->sign != c->sign) {
 +            if (flags & float_muladd_suppress_add_product_zero) {
 +                a->sign = c->sign;
 +            } else if (a->sign != c->sign) {
                  goto return_sub_zero;
              }
              goto return_zero;
 --
-.25.1
+.43.0

-[PULL 19/28] tcg/s390x: Implement tcg_out_mov for vector types
+[PULL 61/72] target/hexagon: Use float32_mul in helper_sfmpy
-Reviewed-by: David Hildenbrand <david@redhat.com>
+There are no special cases for this instruction.
 Remove internal_mpyf as unused.
 Reviewed-by: Brian Cain <brian.cain@oss.qualcomm.com>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- tcg/s390x/tcg-target.c.inc | 72 +++++++++++++++++++++++++++++++++++---
+ target/hexagon/fma_emu.h   | 1 -
-file changed, 68 insertions(+), 4 deletions(-)
+ target/hexagon/fma_emu.c   | 8 --------
  target/hexagon/op_helper.c | 2 +-
 files changed, 1 insertion(+), 10 deletions(-)
-diff --git a/tcg/s390x/tcg-target.c.inc b/tcg/s390x/tcg-target.c.inc
+diff --git a/target/hexagon/fma_emu.h b/target/hexagon/fma_emu.h
 index XXXXXXX..XXXXXXX 100644
---- a/tcg/s390x/tcg-target.c.inc
+--- a/target/hexagon/fma_emu.h
-+++ b/tcg/s390x/tcg-target.c.inc
++++ b/target/hexagon/fma_emu.h
-@@ -XXX,XX +XXX,XX @@ typedef enum S390Opcode {
+@@ -XXX,XX +XXX,XX @@ int32_t float32_getexp(float32 f32);
-     RX_STC      = 0x42,
+ float32 infinite_float32(uint8_t sign);
-     RX_STH      = 0x40,
+ float32 internal_fmafx(float32 a, float32 b, float32 c,
+                        int scale, float_status *fp_status);
-+    VRRa_VLR    = 0xe756,
+-float32 internal_mpyf(float32 a, float32 b, float_status *fp_status);
-+
+ float64 internal_mpyhh(float64 a, float64 b,
-+    VRSb_VLVG   = 0xe722,
+                        unsigned long long int accumulated,
-+    VRSc_VLGV   = 0xe721,
+                        float_status *fp_status);
-+
+diff --git a/target/hexagon/fma_emu.c b/target/hexagon/fma_emu.c
-     VRX_VL      = 0xe706,
+index XXXXXXX..XXXXXXX 100644
-     VRX_VLLEZ   = 0xe704,
+--- a/target/hexagon/fma_emu.c
-     VRX_VST     = 0xe70e,
++++ b/target/hexagon/fma_emu.c
-@@ -XXX,XX +XXX,XX @@ static int RXB(TCGReg v1, TCGReg v2, TCGReg v3, TCGReg v4)
+@@ -XXX,XX +XXX,XX @@ float32 internal_fmafx(float32 a, float32 b, float32 c, int scale,
-          | ((v4 & 0x10) << (4 + 0));
+     return accum_round_float32(result, fp_status);
  }
-+static void tcg_out_insn_VRRa(TCGContext *s, S390Opcode op,
+-float32 internal_mpyf(float32 a, float32 b, float_status *fp_status)
-+                              TCGReg v1, TCGReg v2, int m3)
+-{
-+{
+-    if (float32_is_zero(a) || float32_is_zero(b)) {
-+    tcg_debug_assert(is_vector_reg(v1));
+-        return float32_mul(a, b, fp_status);
-+    tcg_debug_assert(is_vector_reg(v2));
+-    }
-+    tcg_out16(s, (op & 0xff00) | ((v1 & 0xf) << 4) | (v2 & 0xf));
+-    return internal_fmafx(a, b, float32_zero, 0, fp_status);
-+    tcg_out32(s, (op & 0x00ff) | RXB(v1, v2, 0, 0) | (m3 << 12));
+-}
-+}
+-
-+
+ float64 internal_mpyhh(float64 a, float64 b,
-+static void tcg_out_insn_VRSb(TCGContext *s, S390Opcode op, TCGReg v1,
+                       unsigned long long int accumulated,
-+                              intptr_t d2, TCGReg b2, TCGReg r3, int m4)
+                       float_status *fp_status)
-+{
+diff --git a/target/hexagon/op_helper.c b/target/hexagon/op_helper.c
-+    tcg_debug_assert(is_vector_reg(v1));
+index XXXXXXX..XXXXXXX 100644
-+    tcg_debug_assert(d2 >= 0 && d2 <= 0xfff);
+--- a/target/hexagon/op_helper.c
-+    tcg_debug_assert(is_general_reg(b2));
++++ b/target/hexagon/op_helper.c
-+    tcg_debug_assert(is_general_reg(r3));
+@@ -XXX,XX +XXX,XX @@ float32 HELPER(sfmpy)(CPUHexagonState *env, float32 RsV, float32 RtV)
 +    tcg_out16(s, (op & 0xff00) | ((v1 & 0xf) << 4) | r3);
 +    tcg_out16(s, b2 << 12 | d2);
 +    tcg_out16(s, (op & 0x00ff) | RXB(v1, 0, 0, 0) | (m4 << 12));
 +}
 +
 +static void tcg_out_insn_VRSc(TCGContext *s, S390Opcode op, TCGReg r1,
 +                              intptr_t d2, TCGReg b2, TCGReg v3, int m4)
 +{
 +    tcg_debug_assert(is_general_reg(r1));
 +    tcg_debug_assert(d2 >= 0 && d2 <= 0xfff);
 +    tcg_debug_assert(is_general_reg(b2));
 +    tcg_debug_assert(is_vector_reg(v3));
 +    tcg_out16(s, (op & 0xff00) | (r1 << 4) | (v3 & 0xf));
 +    tcg_out16(s, b2 << 12 | d2);
 +    tcg_out16(s, (op & 0x00ff) | RXB(0, 0, v3, 0) | (m4 << 12));
 +}
 +
  static void tcg_out_insn_VRX(TCGContext *s, S390Opcode op, TCGReg v1,
                               TCGReg b2, TCGReg x2, intptr_t d2, int m3)
  {
-@@ -XXX,XX +XXX,XX @@ static void tcg_out_sh32(TCGContext* s, S390Opcode op, TCGReg dest,
+     float32 RdV;
+     arch_fpop_start(env);
- static bool tcg_out_mov(TCGContext *s, TCGType type, TCGReg dst, TCGReg src)
+-    RdV = internal_mpyf(RsV, RtV, &env->fp_status);
- {
++    RdV = float32_mul(RsV, RtV, &env->fp_status);
--    if (src != dst) {
+     arch_fpop_end(env);
--        if (type == TCG_TYPE_I32) {
+     return RdV;
 +    if (src == dst) {
 +        return true;
 +    }
 +    switch (type) {
 +    case TCG_TYPE_I32:
 +        if (likely(is_general_reg(dst) && is_general_reg(src))) {
              tcg_out_insn(s, RR, LR, dst, src);
 -        } else {
 -            tcg_out_insn(s, RRE, LGR, dst, src);
 +            break;
          }
 +        /* fallthru */
 +
 +    case TCG_TYPE_I64:
 +        if (likely(is_general_reg(dst))) {
 +            if (likely(is_general_reg(src))) {
 +                tcg_out_insn(s, RRE, LGR, dst, src);
 +            } else {
 +                tcg_out_insn(s, VRSc, VLGV, dst, 0, 0, src, 3);
 +            }
 +            break;
 +        } else if (is_general_reg(src)) {
 +            tcg_out_insn(s, VRSb, VLVG, dst, 0, 0, src, 3);
 +            break;
 +        }
 +        /* fallthru */
 +
 +    case TCG_TYPE_V64:
 +    case TCG_TYPE_V128:
 +        tcg_out_insn(s, VRRa, VLR, dst, src, 0);
 +        break;
 +
 +    default:
 +        g_assert_not_reached();
      }
      return true;
  }
 --
-.25.1
+.43.0

-New patch
+[PULL 62/72] target/hexagon: Use float32_muladd for helper_sffma
+There are no special cases for this instruction.
+Reviewed-by: Brian Cain <brian.cain@oss.qualcomm.com>
+Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
+---
+ target/hexagon/op_helper.c | 2 +-
+file changed, 1 insertion(+), 1 deletion(-)
+diff --git a/target/hexagon/op_helper.c b/target/hexagon/op_helper.c
+index XXXXXXX..XXXXXXX 100644
+--- a/target/hexagon/op_helper.c
++++ b/target/hexagon/op_helper.c
+@@ -XXX,XX +XXX,XX @@ float32 HELPER(sffma)(CPUHexagonState *env, float32 RxV,
+                       float32 RsV, float32 RtV)
+ {
+     arch_fpop_start(env);
+-    RxV = internal_fmafx(RsV, RtV, RxV, 0, &env->fp_status);
++    RxV = float32_muladd(RsV, RtV, RxV, 0, &env->fp_status);
+     arch_fpop_end(env);
+     return RxV;
+ }
+--
+.43.0

-New patch
+[PULL 63/72] target/hexagon: Use float32_muladd for helper_sffms
+There are no special cases for this instruction.  Since hexagon
+always uses default-nan mode, explicitly negating the first
+input is unnecessary.  Use float_muladd_negate_product instead.
+Reviewed-by: Brian Cain <brian.cain@oss.qualcomm.com>
+Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
+---
+ target/hexagon/op_helper.c | 5 ++---
+file changed, 2 insertions(+), 3 deletions(-)
+diff --git a/target/hexagon/op_helper.c b/target/hexagon/op_helper.c
+index XXXXXXX..XXXXXXX 100644
+--- a/target/hexagon/op_helper.c
++++ b/target/hexagon/op_helper.c
+@@ -XXX,XX +XXX,XX @@ float32 HELPER(sffma_sc)(CPUHexagonState *env, float32 RxV,
+ float32 HELPER(sffms)(CPUHexagonState *env, float32 RxV,
+                       float32 RsV, float32 RtV)
+ {
+-    float32 neg_RsV;
+     arch_fpop_start(env);
+-    neg_RsV = float32_set_sign(RsV, float32_is_neg(RsV) ? 0 : 1);
+-    RxV = internal_fmafx(neg_RsV, RtV, RxV, 0, &env->fp_status);
++    RxV = float32_muladd(RsV, RtV, RxV, float_muladd_negate_product,
++                         &env->fp_status);
+     arch_fpop_end(env);
+     return RxV;
+ }
+--
+.43.0

-[PULL 22/28] tcg/s390x: Implement andc, orc, abs, neg, not vector operations
+[PULL 64/72] target/hexagon: Use float32_muladd_scalbn for helper_sffma_sc
-These logical and arithmetic operations are optional but trivial.
+This instruction has a special case that 0 * x + c returns c
 without the normal sign folding that comes with 0 + -0.
 Use the new float_muladd_suppress_add_product_zero to
 describe this.
-Reviewed-by: David Hildenbrand <david@redhat.com>
+Reviewed-by: Brian Cain <brian.cain@oss.qualcomm.com>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- tcg/s390x/tcg-target-con-set.h |  1 +
+ target/hexagon/op_helper.c | 11 +++--------
- tcg/s390x/tcg-target.h         | 11 ++++++-----
+file changed, 3 insertions(+), 8 deletions(-)
  tcg/s390x/tcg-target.c.inc     | 32 ++++++++++++++++++++++++++++++++
 files changed, 39 insertions(+), 5 deletions(-)
-diff --git a/tcg/s390x/tcg-target-con-set.h b/tcg/s390x/tcg-target-con-set.h
+diff --git a/target/hexagon/op_helper.c b/target/hexagon/op_helper.c
 index XXXXXXX..XXXXXXX 100644
---- a/tcg/s390x/tcg-target-con-set.h
+--- a/target/hexagon/op_helper.c
-+++ b/tcg/s390x/tcg-target-con-set.h
++++ b/target/hexagon/op_helper.c
-@@ -XXX,XX +XXX,XX @@ C_O0_I2(v, r)
+@@ -XXX,XX +XXX,XX @@ static float32 check_nan(float32 dst, float32 x, float_status *fp_status)
- C_O1_I1(r, L)
+ float32 HELPER(sffma_sc)(CPUHexagonState *env, float32 RxV,
- C_O1_I1(r, r)
+                          float32 RsV, float32 RtV, float32 PuV)
  C_O1_I1(v, r)
 +C_O1_I1(v, v)
  C_O1_I1(v, vr)
  C_O1_I2(r, 0, ri)
  C_O1_I2(r, 0, rI)
 diff --git a/tcg/s390x/tcg-target.h b/tcg/s390x/tcg-target.h
 index XXXXXXX..XXXXXXX 100644
 --- a/tcg/s390x/tcg-target.h
 +++ b/tcg/s390x/tcg-target.h
@@ -XXX,XX +XXX,XX @@ typedef enum TCGReg {
  #define FACILITY_DISTINCT_OPS         FACILITY_LOAD_ON_COND
  #define FACILITY_LOAD_ON_COND2        53
  #define FACILITY_VECTOR               129
 +#define FACILITY_VECTOR_ENH1          135
  extern uint64_t s390_facilities[3];
@@ -XXX,XX +XXX,XX @@ extern uint64_t s390_facilities[3];
  #define TCG_TARGET_HAS_v128           HAVE_FACILITY(VECTOR)
  #define TCG_TARGET_HAS_v256           0
 -#define TCG_TARGET_HAS_andc_vec       0
 -#define TCG_TARGET_HAS_orc_vec        0
 -#define TCG_TARGET_HAS_not_vec        0
 -#define TCG_TARGET_HAS_neg_vec        0
 -#define TCG_TARGET_HAS_abs_vec        0
 +#define TCG_TARGET_HAS_andc_vec       1
 +#define TCG_TARGET_HAS_orc_vec        HAVE_FACILITY(VECTOR_ENH1)
 +#define TCG_TARGET_HAS_not_vec        1
 +#define TCG_TARGET_HAS_neg_vec        1
 +#define TCG_TARGET_HAS_abs_vec        1
  #define TCG_TARGET_HAS_roti_vec       0
  #define TCG_TARGET_HAS_rots_vec       0
  #define TCG_TARGET_HAS_rotv_vec       0
 diff --git a/tcg/s390x/tcg-target.c.inc b/tcg/s390x/tcg-target.c.inc
 index XXXXXXX..XXXXXXX 100644
 --- a/tcg/s390x/tcg-target.c.inc
 +++ b/tcg/s390x/tcg-target.c.inc
@@ -XXX,XX +XXX,XX @@ typedef enum S390Opcode {
      VRIb_VGM    = 0xe746,
      VRIc_VREP   = 0xe74d,
 +    VRRa_VLC    = 0xe7de,
 +    VRRa_VLP    = 0xe7df,
      VRRa_VLR    = 0xe756,
      VRRc_VA     = 0xe7f3,
      VRRc_VCEQ   = 0xe7f8,   /* we leave the m5 cs field 0 */
      VRRc_VCH    = 0xe7fb,   /* " */
      VRRc_VCHL   = 0xe7f9,   /* " */
      VRRc_VN     = 0xe768,
 +    VRRc_VNC    = 0xe769,
 +    VRRc_VNO    = 0xe76b,
      VRRc_VO     = 0xe76a,
 +    VRRc_VOC    = 0xe76f,
      VRRc_VS     = 0xe7f7,
      VRRc_VX     = 0xe76d,
      VRRf_VLVGP  = 0xe762,
@@ -XXX,XX +XXX,XX @@ static void tcg_out_vec_op(TCGContext *s, TCGOpcode opc,
          tcg_out_dupm_vec(s, type, vece, a0, a1, a2);
          break;
 +    case INDEX_op_abs_vec:
 +        tcg_out_insn(s, VRRa, VLP, a0, a1, vece);
 +        break;
 +    case INDEX_op_neg_vec:
 +        tcg_out_insn(s, VRRa, VLC, a0, a1, vece);
 +        break;
 +    case INDEX_op_not_vec:
 +        tcg_out_insn(s, VRRc, VNO, a0, a1, a1, 0);
 +        break;
 +
      case INDEX_op_add_vec:
          tcg_out_insn(s, VRRc, VA, a0, a1, a2, vece);
          break;
@@ -XXX,XX +XXX,XX @@ static void tcg_out_vec_op(TCGContext *s, TCGOpcode opc,
      case INDEX_op_and_vec:
          tcg_out_insn(s, VRRc, VN, a0, a1, a2, 0);
          break;
 +    case INDEX_op_andc_vec:
 +        tcg_out_insn(s, VRRc, VNC, a0, a1, a2, 0);
 +        break;
      case INDEX_op_or_vec:
          tcg_out_insn(s, VRRc, VO, a0, a1, a2, 0);
          break;
 +    case INDEX_op_orc_vec:
 +        tcg_out_insn(s, VRRc, VOC, a0, a1, a2, 0);
 +        break;
      case INDEX_op_xor_vec:
          tcg_out_insn(s, VRRc, VX, a0, a1, a2, 0);
          break;
@@ -XXX,XX +XXX,XX @@ static void tcg_out_vec_op(TCGContext *s, TCGOpcode opc,
  int tcg_can_emit_vec_op(TCGOpcode opc, TCGType type, unsigned vece)
  {
-     switch (opc) {
+-    size4s_t tmp;
-+    case INDEX_op_abs_vec:
+     arch_fpop_start(env);
-     case INDEX_op_add_vec:
+-    RxV = check_nan(RxV, RxV, &env->fp_status);
-     case INDEX_op_and_vec:
+-    RxV = check_nan(RxV, RsV, &env->fp_status);
-+    case INDEX_op_andc_vec:
+-    RxV = check_nan(RxV, RtV, &env->fp_status);
-+    case INDEX_op_neg_vec:
+-    tmp = internal_fmafx(RsV, RtV, RxV, fSXTN(8, 64, PuV), &env->fp_status);
-+    case INDEX_op_not_vec:
+-    if (!(float32_is_zero(RxV) && is_zero_prod(RsV, RtV))) {
-     case INDEX_op_or_vec:
+-        RxV = tmp;
-+    case INDEX_op_orc_vec:
+-    }
-     case INDEX_op_sub_vec:
++    RxV = float32_muladd_scalbn(RsV, RtV, RxV, fSXTN(8, 64, PuV),
-     case INDEX_op_xor_vec:
++                                float_muladd_suppress_add_product_zero,
-         return 1;
++                                &env->fp_status);
-@@ -XXX,XX +XXX,XX @@ static TCGConstraintSetIndex tcg_target_op_def(TCGOpcode op)
+     arch_fpop_end(env);
-         return C_O1_I1(v, r);
+     return RxV;
-     case INDEX_op_dup_vec:
+ }
          return C_O1_I1(v, vr);
 +    case INDEX_op_abs_vec:
 +    case INDEX_op_neg_vec:
 +    case INDEX_op_not_vec:
 +        return C_O1_I1(v, v);
      case INDEX_op_add_vec:
      case INDEX_op_sub_vec:
      case INDEX_op_and_vec:
 +    case INDEX_op_andc_vec:
      case INDEX_op_or_vec:
 +    case INDEX_op_orc_vec:
      case INDEX_op_xor_vec:
      case INDEX_op_cmp_vec:
          return C_O1_I2(v, v, v);
 --
-.25.1
+.43.0

-[PULL 21/28] tcg/s390x: Implement minimal vector operations
+[PULL 65/72] target/hexagon: Use float32_muladd for helper_sffm[as]_lib
-Implementing add, sub, and, or, xor as the minimal set.
+There are multiple special cases for this instruction.
-This allows us to actually enable vectors in query_s390_facilities.
+(1) The saturate to normal maximum instead of overflow to infinity is
     handled by the new float_round_nearest_even_max rounding mode.
 (2) The 0 * n + c special case is handled by the new
     float_muladd_suppress_add_product_zero flag.
 (3) The Inf - Inf -> 0 special case can be detected after the fact
     by examining float_flag_invalid_isi.
-Reviewed-by: David Hildenbrand <david@redhat.com>
+Reviewed-by: Brian Cain <brian.cain@oss.qualcomm.com>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- tcg/s390x/tcg-target.c.inc | 154 ++++++++++++++++++++++++++++++++++++-
+ target/hexagon/op_helper.c | 105 +++++++++----------------------------
-file changed, 150 insertions(+), 4 deletions(-)
+file changed, 26 insertions(+), 79 deletions(-)
-diff --git a/tcg/s390x/tcg-target.c.inc b/tcg/s390x/tcg-target.c.inc
+diff --git a/target/hexagon/op_helper.c b/target/hexagon/op_helper.c
 index XXXXXXX..XXXXXXX 100644
---- a/tcg/s390x/tcg-target.c.inc
+--- a/target/hexagon/op_helper.c
-+++ b/tcg/s390x/tcg-target.c.inc
++++ b/target/hexagon/op_helper.c
-@@ -XXX,XX +XXX,XX @@ typedef enum S390Opcode {
+@@ -XXX,XX +XXX,XX @@ float32 HELPER(sffma)(CPUHexagonState *env, float32 RxV,
-     VRIc_VREP   = 0xe74d,
+     return RxV;
      VRRa_VLR    = 0xe756,
 +    VRRc_VA     = 0xe7f3,
 +    VRRc_VCEQ   = 0xe7f8,   /* we leave the m5 cs field 0 */
 +    VRRc_VCH    = 0xe7fb,   /* " */
 +    VRRc_VCHL   = 0xe7f9,   /* " */
 +    VRRc_VN     = 0xe768,
 +    VRRc_VO     = 0xe76a,
 +    VRRc_VS     = 0xe7f7,
 +    VRRc_VX     = 0xe76d,
      VRRf_VLVGP  = 0xe762,
      VRSb_VLVG   = 0xe722,
@@ -XXX,XX +XXX,XX @@ static void tcg_out_insn_VRRa(TCGContext *s, S390Opcode op,
      tcg_out32(s, (op & 0x00ff) | RXB(v1, v2, 0, 0) | (m3 << 12));
  }
-+static void tcg_out_insn_VRRc(TCGContext *s, S390Opcode op,
+-static bool is_zero_prod(float32 a, float32 b)
-+                              TCGReg v1, TCGReg v2, TCGReg v3, int m4)
+-{
-+{
+-    return ((float32_is_zero(a) && is_finite(b)) ||
-+    tcg_debug_assert(is_vector_reg(v1));
+-            (float32_is_zero(b) && is_finite(a)));
-+    tcg_debug_assert(is_vector_reg(v2));
+-}
-+    tcg_debug_assert(is_vector_reg(v3));
+-
-+    tcg_out16(s, (op & 0xff00) | ((v1 & 0xf) << 4) | (v2 & 0xf));
+-static float32 check_nan(float32 dst, float32 x, float_status *fp_status)
-+    tcg_out16(s, v3 << 12);
+-{
-+    tcg_out16(s, (op & 0x00ff) | RXB(v1, v2, v3, 0) | (m4 << 12));
+-    float32 ret = dst;
-+}
+-    if (float32_is_any_nan(x)) {
 -        if (extract32(x, 22, 1) == 0) {
 -            float_raise(float_flag_invalid, fp_status);
 -        }
 -        ret = make_float32(0xffffffff);    /* nan */
 -    }
 -    return ret;
 -}
 -
  float32 HELPER(sffma_sc)(CPUHexagonState *env, float32 RxV,
                           float32 RsV, float32 RtV, float32 PuV)
  {
@@ -XXX,XX +XXX,XX @@ float32 HELPER(sffms)(CPUHexagonState *env, float32 RxV,
      return RxV;
  }
 -static bool is_inf_prod(int32_t a, int32_t b)
 +static float32 do_sffma_lib(CPUHexagonState *env, float32 RxV,
 +                            float32 RsV, float32 RtV, int negate)
  {
 -    return (float32_is_infinity(a) && float32_is_infinity(b)) ||
 -           (float32_is_infinity(a) && is_finite(b) && !float32_is_zero(b)) ||
 -           (float32_is_infinity(b) && is_finite(a) && !float32_is_zero(a));
 +    int flags;
 +
- static void tcg_out_insn_VRRf(TCGContext *s, S390Opcode op,
++    arch_fpop_start(env);
                                TCGReg v1, TCGReg r2, TCGReg r3)
  {
@@ -XXX,XX +XXX,XX @@ static void tcg_out_vec_op(TCGContext *s, TCGOpcode opc,
                             unsigned vecl, unsigned vece,
                             const TCGArg *args, const int *const_args)
  {
 -    g_assert_not_reached();
 +    TCGType type = vecl + TCG_TYPE_V64;
 +    TCGArg a0 = args[0], a1 = args[1], a2 = args[2];
 +
-+    switch (opc) {
++    set_float_rounding_mode(float_round_nearest_even_max, &env->fp_status);
-+    case INDEX_op_ld_vec:
++    RxV = float32_muladd(RsV, RtV, RxV,
-+        tcg_out_ld(s, type, a0, a1, a2);
++                         negate | float_muladd_suppress_add_product_zero,
-+        break;
++                         &env->fp_status);
 +    case INDEX_op_st_vec:
 +        tcg_out_st(s, type, a0, a1, a2);
 +        break;
 +    case INDEX_op_dupm_vec:
 +        tcg_out_dupm_vec(s, type, vece, a0, a1, a2);
 +        break;
 +
-+    case INDEX_op_add_vec:
++    flags = get_float_exception_flags(&env->fp_status);
-+        tcg_out_insn(s, VRRc, VA, a0, a1, a2, vece);
++    if (flags) {
-+        break;
++        /* Flags are suppressed by this instruction. */
-+    case INDEX_op_sub_vec:
++        set_float_exception_flags(0, &env->fp_status);
 +        tcg_out_insn(s, VRRc, VS, a0, a1, a2, vece);
 +        break;
 +    case INDEX_op_and_vec:
 +        tcg_out_insn(s, VRRc, VN, a0, a1, a2, 0);
 +        break;
 +    case INDEX_op_or_vec:
 +        tcg_out_insn(s, VRRc, VO, a0, a1, a2, 0);
 +        break;
 +    case INDEX_op_xor_vec:
 +        tcg_out_insn(s, VRRc, VX, a0, a1, a2, 0);
 +        break;
 +
-+    case INDEX_op_cmp_vec:
++        /* Return 0 for Inf - Inf. */
-+        switch ((TCGCond)args[3]) {
++        if (flags & float_flag_invalid_isi) {
-+        case TCG_COND_EQ:
++            RxV = 0;
 +            tcg_out_insn(s, VRRc, VCEQ, a0, a1, a2, vece);
 +            break;
 +        case TCG_COND_GT:
 +            tcg_out_insn(s, VRRc, VCH, a0, a1, a2, vece);
 +            break;
 +        case TCG_COND_GTU:
 +            tcg_out_insn(s, VRRc, VCHL, a0, a1, a2, vece);
 +            break;
 +        default:
 +            g_assert_not_reached();
 +        }
-+        break;
-+
-+    case INDEX_op_mov_vec:   /* Always emitted via tcg_out_mov.  */
-+    case INDEX_op_dup_vec:   /* Always emitted via tcg_out_dup_vec.  */
-+    default:
-+        g_assert_not_reached();
-+    }
- }
- int tcg_can_emit_vec_op(TCGOpcode opc, TCGType type, unsigned vece)
- {
--    return 0;
-+    switch (opc) {
-+    case INDEX_op_add_vec:
-+    case INDEX_op_and_vec:
-+    case INDEX_op_or_vec:
-+    case INDEX_op_sub_vec:
-+    case INDEX_op_xor_vec:
-+        return 1;
-+    case INDEX_op_cmp_vec:
-+        return -1;
-+    default:
-+        return 0;
-+    }
-+}
-+
-+static bool expand_vec_cmp_noinv(TCGType type, unsigned vece, TCGv_vec v0,
-+                                 TCGv_vec v1, TCGv_vec v2, TCGCond cond)
-+{
-+    bool need_swap = false, need_inv = false;
-+
-+    switch (cond) {
-+    case TCG_COND_EQ:
-+    case TCG_COND_GT:
-+    case TCG_COND_GTU:
-+        break;
-+    case TCG_COND_NE:
-+    case TCG_COND_LE:
-+    case TCG_COND_LEU:
-+        need_inv = true;
-+        break;
-+    case TCG_COND_LT:
-+    case TCG_COND_LTU:
-+        need_swap = true;
-+        break;
-+    case TCG_COND_GE:
-+    case TCG_COND_GEU:
-+        need_swap = need_inv = true;
-+        break;
-+    default:
-+        g_assert_not_reached();
 +    }
 +
-+    if (need_inv) {
++    arch_fpop_end(env);
-+        cond = tcg_invert_cond(cond);
++    return RxV;
 +    }
 +    if (need_swap) {
 +        TCGv_vec t1;
 +        t1 = v1, v1 = v2, v2 = t1;
 +        cond = tcg_swap_cond(cond);
 +    }
 +
 +    vec_gen_4(INDEX_op_cmp_vec, type, vece, tcgv_vec_arg(v0),
 +              tcgv_vec_arg(v1), tcgv_vec_arg(v2), cond);
 +
 +    return need_inv;
 +}
 +
 +static void expand_vec_cmp(TCGType type, unsigned vece, TCGv_vec v0,
 +                           TCGv_vec v1, TCGv_vec v2, TCGCond cond)
 +{
 +    if (expand_vec_cmp_noinv(type, vece, v0, v1, v2, cond)) {
 +        tcg_gen_not_vec(vece, v0, v0);
 +    }
  }
- void tcg_expand_vec_op(TCGOpcode opc, TCGType type, unsigned vece,
+ float32 HELPER(sffma_lib)(CPUHexagonState *env, float32 RxV,
-                        TCGArg a0, ...)
+                           float32 RsV, float32 RtV)
  {
--    g_assert_not_reached();
+-    bool infinp;
-+    va_list va;
+-    bool infminusinf;
-+    TCGv_vec v0, v1, v2;
+-    float32 tmp;
-+
+-
-+    va_start(va, a0);
+-    arch_fpop_start(env);
-+    v0 = temp_tcgv_vec(arg_temp(a0));
+-    set_float_rounding_mode(float_round_nearest_even, &env->fp_status);
-+    v1 = temp_tcgv_vec(arg_temp(va_arg(va, TCGArg)));
+-    infminusinf = float32_is_infinity(RxV) &&
-+    v2 = temp_tcgv_vec(arg_temp(va_arg(va, TCGArg)));
+-                  is_inf_prod(RsV, RtV) &&
-+
+-                  (fGETBIT(31, RsV ^ RxV ^ RtV) != 0);
-+    switch (opc) {
+-    infinp = float32_is_infinity(RxV) ||
-+    case INDEX_op_cmp_vec:
+-             float32_is_infinity(RtV) ||
-+        expand_vec_cmp(type, vece, v0, v1, v2, va_arg(va, TCGArg));
+-             float32_is_infinity(RsV);
-+        break;
+-    RxV = check_nan(RxV, RxV, &env->fp_status);
-+
+-    RxV = check_nan(RxV, RsV, &env->fp_status);
-+    default:
+-    RxV = check_nan(RxV, RtV, &env->fp_status);
-+        g_assert_not_reached();
+-    tmp = internal_fmafx(RsV, RtV, RxV, 0, &env->fp_status);
-+    }
+-    if (!(float32_is_zero(RxV) && is_zero_prod(RsV, RtV))) {
-+    va_end(va);
+-        RxV = tmp;
 -    }
 -    set_float_exception_flags(0, &env->fp_status);
 -    if (float32_is_infinity(RxV) && !infinp) {
 -        RxV = RxV - 1;
 -    }
 -    if (infminusinf) {
 -        RxV = 0;
 -    }
 -    arch_fpop_end(env);
 -    return RxV;
 +    return do_sffma_lib(env, RxV, RsV, RtV, 0);
  }
- static TCGConstraintSetIndex tcg_target_op_def(TCGOpcode op)
+ float32 HELPER(sffms_lib)(CPUHexagonState *env, float32 RxV,
-@@ -XXX,XX +XXX,XX @@ static void query_s390_facilities(void)
+                           float32 RsV, float32 RtV)
-      * There is nothing else we currently care about in the 3rd word, so
+ {
-      * disable VECTOR with one store.
+-    bool infinp;
-      */
+-    bool infminusinf;
--    if (1 || !(hwcap & HWCAP_S390_VXRS)) {
+-    float32 tmp;
-+    if (!(hwcap & HWCAP_S390_VXRS)) {
+-
-         s390_facilities[2] = 0;
+-    arch_fpop_start(env);
-     }
+-    set_float_rounding_mode(float_round_nearest_even, &env->fp_status);
 -    infminusinf = float32_is_infinity(RxV) &&
 -                  is_inf_prod(RsV, RtV) &&
 -                  (fGETBIT(31, RsV ^ RxV ^ RtV) == 0);
 -    infinp = float32_is_infinity(RxV) ||
 -             float32_is_infinity(RtV) ||
 -             float32_is_infinity(RsV);
 -    RxV = check_nan(RxV, RxV, &env->fp_status);
 -    RxV = check_nan(RxV, RsV, &env->fp_status);
 -    RxV = check_nan(RxV, RtV, &env->fp_status);
 -    float32 minus_RsV = float32_sub(float32_zero, RsV, &env->fp_status);
 -    tmp = internal_fmafx(minus_RsV, RtV, RxV, 0, &env->fp_status);
 -    if (!(float32_is_zero(RxV) && is_zero_prod(RsV, RtV))) {
 -        RxV = tmp;
 -    }
 -    set_float_exception_flags(0, &env->fp_status);
 -    if (float32_is_infinity(RxV) && !infinp) {
 -        RxV = RxV - 1;
 -    }
 -    if (infminusinf) {
 -        RxV = 0;
 -    }
 -    arch_fpop_end(env);
 -    return RxV;
 +    return do_sffma_lib(env, RxV, RsV, RtV, float_muladd_negate_product);
  }
+ float64 HELPER(dfmpyfix)(CPUHexagonState *env, float64 RssV, float64 RttV)
 --
-.25.1
+.43.0

-[PULL 16/28] tcg/s390x: Merge TCG_AREG0 and TCG_REG_CALL_STACK into TCGReg
+[PULL 66/72] target/hexagon: Remove internal_fmafx
-They are rightly values in the same enumeration.
+The function is now unused.
-Reviewed-by: David Hildenbrand <david@redhat.com>
+Reviewed-by: Brian Cain <brian.cain@oss.qualcomm.com>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- tcg/s390x/tcg-target.h | 28 +++++++---------------------
+ target/hexagon/fma_emu.h |   2 -
-file changed, 7 insertions(+), 21 deletions(-)
+ target/hexagon/fma_emu.c | 171 ---------------------------------------
 files changed, 173 deletions(-)
-diff --git a/tcg/s390x/tcg-target.h b/tcg/s390x/tcg-target.h
+diff --git a/target/hexagon/fma_emu.h b/target/hexagon/fma_emu.h
 index XXXXXXX..XXXXXXX 100644
---- a/tcg/s390x/tcg-target.h
+--- a/target/hexagon/fma_emu.h
-+++ b/tcg/s390x/tcg-target.h
++++ b/target/hexagon/fma_emu.h
-@@ -XXX,XX +XXX,XX @@
+@@ -XXX,XX +XXX,XX @@ static inline uint32_t float32_getexp_raw(float32 f32)
- #define MAX_CODE_GEN_BUFFER_SIZE  (3 * GiB)
+ }
+ int32_t float32_getexp(float32 f32);
- typedef enum TCGReg {
+ float32 infinite_float32(uint8_t sign);
--    TCG_REG_R0 = 0,
+-float32 internal_fmafx(float32 a, float32 b, float32 c,
--    TCG_REG_R1,
+-                       int scale, float_status *fp_status);
--    TCG_REG_R2,
+ float64 internal_mpyhh(float64 a, float64 b,
--    TCG_REG_R3,
+                        unsigned long long int accumulated,
--    TCG_REG_R4,
+                        float_status *fp_status);
--    TCG_REG_R5,
+diff --git a/target/hexagon/fma_emu.c b/target/hexagon/fma_emu.c
--    TCG_REG_R6,
+index XXXXXXX..XXXXXXX 100644
--    TCG_REG_R7,
+--- a/target/hexagon/fma_emu.c
--    TCG_REG_R8,
++++ b/target/hexagon/fma_emu.c
--    TCG_REG_R9,
+@@ -XXX,XX +XXX,XX @@ int32_t float64_getexp(float64 f64)
--    TCG_REG_R10,
+     return -1;
--    TCG_REG_R11,
+ }
--    TCG_REG_R12,
--    TCG_REG_R13,
+-static uint64_t float32_getmant(float32 f32)
--    TCG_REG_R14,
+-{
--    TCG_REG_R15
+-    Float a = { .i = f32 };
-+    TCG_REG_R0,  TCG_REG_R1,  TCG_REG_R2,  TCG_REG_R3,
+-    if (float32_is_normal(f32)) {
-+    TCG_REG_R4,  TCG_REG_R5,  TCG_REG_R6,  TCG_REG_R7,
+-        return a.mant | 1ULL << 23;
-+    TCG_REG_R8,  TCG_REG_R9,  TCG_REG_R10, TCG_REG_R11,
+-    }
-+    TCG_REG_R12, TCG_REG_R13, TCG_REG_R14, TCG_REG_R15,
+-    if (float32_is_zero(f32)) {
-+
+-        return 0;
-+    TCG_AREG0 = TCG_REG_R10,
+-    }
-+    TCG_REG_CALL_STACK = TCG_REG_R15
+-    if (float32_is_denormal(f32)) {
- } TCGReg;
+-        return a.mant;
+-    }
- #define TCG_TARGET_NB_REGS 16
+-    return ~0ULL;
-@@ -XXX,XX +XXX,XX @@ extern uint64_t s390_facilities[1];
+-}
- #define TCG_TARGET_HAS_mulsh_i64      0
+-
+ int32_t float32_getexp(float32 f32)
  /* used for function call generation */
 -#define TCG_REG_CALL_STACK        TCG_REG_R15
  #define TCG_TARGET_STACK_ALIGN        8
  #define TCG_TARGET_CALL_STACK_OFFSET    160
@@ -XXX,XX +XXX,XX @@ extern uint64_t s390_facilities[1];
  #define TCG_TARGET_DEFAULT_MO (TCG_MO_ALL & ~TCG_MO_ST_LD)
 -enum {
 -    TCG_AREG0 = TCG_REG_R10,
 -};
 -
  static inline void tb_target_set_jmp_target(uintptr_t tc_ptr, uintptr_t jmp_rx,
                                              uintptr_t jmp_rw, uintptr_t addr)
  {
+     Float a = { .i = f32 };
+@@ -XXX,XX +XXX,XX @@ float32 infinite_float32(uint8_t sign)
+ }
+ /* Return a maximum finite value with the requested sign */
+-static float32 maxfinite_float32(uint8_t sign)
+-{
+-    if (sign) {
+-        return make_float32(SF_MINUS_MAXF);
+-    } else {
+-        return make_float32(SF_MAXF);
+-    }
+-}
+-
+-/* Return a zero value with requested sign */
+-static float32 zero_float32(uint8_t sign)
+-{
+-    if (sign) {
+-        return make_float32(0x80000000);
+-    } else {
+-        return float32_zero;
+-    }
+-}
+-
+ #define GEN_XF_ROUND(SUFFIX, MANTBITS, INF_EXP, INTERNAL_TYPE) \
+ static SUFFIX accum_round_##SUFFIX(Accum a, float_status * fp_status) \
+ { \
+@@ -XXX,XX +XXX,XX @@ static SUFFIX accum_round_##SUFFIX(Accum a, float_status * fp_status) \
+ }
+ GEN_XF_ROUND(float64, DF_MANTBITS, DF_INF_EXP, Double)
+-GEN_XF_ROUND(float32, SF_MANTBITS, SF_INF_EXP, Float)
+-
+-static bool is_inf_prod(float64 a, float64 b)
+-{
+-    return ((float64_is_infinity(a) && float64_is_infinity(b)) ||
+-            (float64_is_infinity(a) && is_finite(b) && (!float64_is_zero(b))) ||
+-            (float64_is_infinity(b) && is_finite(a) && (!float64_is_zero(a))));
+-}
+-
+-static float64 special_fma(float64 a, float64 b, float64 c,
+-                           float_status *fp_status)
+-{
+-    float64 ret = make_float64(0);
+-
+-    /*
+-     * If A multiplied by B is an exact infinity and C is also an infinity
+-     * but with the opposite sign, FMA returns NaN and raises invalid.
+-     */
+-    uint8_t a_sign = float64_is_neg(a);
+-    uint8_t b_sign = float64_is_neg(b);
+-    uint8_t c_sign = float64_is_neg(c);
+-    if (is_inf_prod(a, b) && float64_is_infinity(c)) {
+-        if ((a_sign ^ b_sign) != c_sign) {
+-            ret = make_float64(DF_NAN);
+-            float_raise(float_flag_invalid, fp_status);
+-            return ret;
+-        }
+-    }
+-    if ((float64_is_infinity(a) && float64_is_zero(b)) ||
+-        (float64_is_zero(a) && float64_is_infinity(b))) {
+-        ret = make_float64(DF_NAN);
+-        float_raise(float_flag_invalid, fp_status);
+-        return ret;
+-    }
+-    /*
+-     * If none of the above checks are true and C is a NaN,
+-     * a NaN shall be returned
+-     * If A or B are NaN, a NAN shall be returned.
+-     */
+-    if (float64_is_any_nan(a) ||
+-        float64_is_any_nan(b) ||
+-        float64_is_any_nan(c)) {
+-        if (float64_is_any_nan(a) && (fGETBIT(51, a) == 0)) {
+-            float_raise(float_flag_invalid, fp_status);
+-        }
+-        if (float64_is_any_nan(b) && (fGETBIT(51, b) == 0)) {
+-            float_raise(float_flag_invalid, fp_status);
+-        }
+-        if (float64_is_any_nan(c) && (fGETBIT(51, c) == 0)) {
+-            float_raise(float_flag_invalid, fp_status);
+-        }
+-        ret = make_float64(DF_NAN);
+-        return ret;
+-    }
+-    /*
+-     * We have checked for adding opposite-signed infinities.
+-     * Other infinities return infinity with the correct sign
+-     */
+-    if (float64_is_infinity(c)) {
+-        ret = infinite_float64(c_sign);
+-        return ret;
+-    }
+-    if (float64_is_infinity(a) || float64_is_infinity(b)) {
+-        ret = infinite_float64(a_sign ^ b_sign);
+-        return ret;
+-    }
+-    g_assert_not_reached();
+-}
+-
+-static float32 special_fmaf(float32 a, float32 b, float32 c,
+-                            float_status *fp_status)
+-{
+-    float64 aa, bb, cc;
+-    aa = float32_to_float64(a, fp_status);
+-    bb = float32_to_float64(b, fp_status);
+-    cc = float32_to_float64(c, fp_status);
+-    return float64_to_float32(special_fma(aa, bb, cc, fp_status), fp_status);
+-}
+-
+-float32 internal_fmafx(float32 a, float32 b, float32 c, int scale,
+-                       float_status *fp_status)
+-{
+-    Accum prod;
+-    Accum acc;
+-    Accum result;
+-    accum_init(&prod);
+-    accum_init(&acc);
+-    accum_init(&result);
+-
+-    uint8_t a_sign = float32_is_neg(a);
+-    uint8_t b_sign = float32_is_neg(b);
+-    uint8_t c_sign = float32_is_neg(c);
+-    if (float32_is_infinity(a) ||
+-        float32_is_infinity(b) ||
+-        float32_is_infinity(c)) {
+-        return special_fmaf(a, b, c, fp_status);
+-    }
+-    if (float32_is_any_nan(a) ||
+-        float32_is_any_nan(b) ||
+-        float32_is_any_nan(c)) {
+-        return special_fmaf(a, b, c, fp_status);
+-    }
+-    if ((scale == 0) && (float32_is_zero(a) || float32_is_zero(b))) {
+-        float32 tmp = float32_mul(a, b, fp_status);
+-        tmp = float32_add(tmp, c, fp_status);
+-        return tmp;
+-    }
+-
+-    /* (a * 2**b) * (c * 2**d) == a*c * 2**(b+d) */
+-    prod.mant = int128_mul_6464(float32_getmant(a), float32_getmant(b));
+-
+-    /*
+-     * Note: extracting the mantissa into an int is multiplying by
+-     * 2**23, so adjust here
+-     */
+-    prod.exp = float32_getexp(a) + float32_getexp(b) - SF_BIAS - 23;
+-    prod.sign = a_sign ^ b_sign;
+-    if (float32_is_zero(a) || float32_is_zero(b)) {
+-        prod.exp = -2 * WAY_BIG_EXP;
+-    }
+-    if ((scale > 0) && float32_is_denormal(c)) {
+-        acc.mant = int128_mul_6464(0, 0);
+-        acc.exp = -WAY_BIG_EXP;
+-        acc.sign = c_sign;
+-        acc.sticky = 1;
+-        result = accum_add(prod, acc);
+-    } else if (!float32_is_zero(c)) {
+-        acc.mant = int128_mul_6464(float32_getmant(c), 1);
+-        acc.exp = float32_getexp(c);
+-        acc.sign = c_sign;
+-        result = accum_add(prod, acc);
+-    } else {
+-        result = prod;
+-    }
+-    result.exp += scale;
+-    return accum_round_float32(result, fp_status);
+-}
+ float64 internal_mpyhh(float64 a, float64 b,
+                       unsigned long long int accumulated,
 --
-.25.1
+.43.0

-[PULL 13/28] tcg: Expand usadd/ussub with umin/umax
+[PULL 67/72] target/hexagon: Expand GEN_XF_ROUND
-For usadd, we only have to consider overflow.  Since ~B + B == -1,
+This massive macro is now only used once.
-the maximum value for A that saturates is ~B.
+Expand it for use only by float64.
-For ussub, we only have to consider underflow.  The minimum value
+Reviewed-by: Brian Cain <brian.cain@oss.qualcomm.com>
 that saturates to 0 from A - B is B.
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- tcg/tcg-op-vec.c | 37 +++++++++++++++++++++++++++++++++++--
+ target/hexagon/fma_emu.c | 255 +++++++++++++++++++--------------------
-file changed, 35 insertions(+), 2 deletions(-)
+file changed, 127 insertions(+), 128 deletions(-)
-diff --git a/tcg/tcg-op-vec.c b/tcg/tcg-op-vec.c
+diff --git a/target/hexagon/fma_emu.c b/target/hexagon/fma_emu.c
 index XXXXXXX..XXXXXXX 100644
---- a/tcg/tcg-op-vec.c
+--- a/target/hexagon/fma_emu.c
-+++ b/tcg/tcg-op-vec.c
++++ b/target/hexagon/fma_emu.c
-@@ -XXX,XX +XXX,XX @@ bool tcg_can_emit_vecop_list(const TCGOpcode *list,
+@@ -XXX,XX +XXX,XX @@ float32 infinite_float32(uint8_t sign)
                  continue;
              }
              break;
 +        case INDEX_op_usadd_vec:
 +            if (tcg_can_emit_vec_op(INDEX_op_umin_vec, type, vece) ||
 +                tcg_can_emit_vec_op(INDEX_op_cmp_vec, type, vece)) {
 +                continue;
 +            }
 +            break;
 +        case INDEX_op_ussub_vec:
 +            if (tcg_can_emit_vec_op(INDEX_op_umax_vec, type, vece) ||
 +                tcg_can_emit_vec_op(INDEX_op_cmp_vec, type, vece)) {
 +                continue;
 +            }
 +            break;
          case INDEX_op_cmpsel_vec:
          case INDEX_op_smin_vec:
          case INDEX_op_smax_vec:
@@ -XXX,XX +XXX,XX @@ void tcg_gen_ssadd_vec(unsigned vece, TCGv_vec r, TCGv_vec a, TCGv_vec b)
  void tcg_gen_usadd_vec(unsigned vece, TCGv_vec r, TCGv_vec a, TCGv_vec b)
  {
 -    do_op3_nofail(vece, r, a, b, INDEX_op_usadd_vec);
 +    if (!do_op3(vece, r, a, b, INDEX_op_usadd_vec)) {
 +        const TCGOpcode *hold_list = tcg_swap_vecop_list(NULL);
 +        TCGv_vec t = tcg_temp_new_vec_matching(r);
 +
 +        /* usadd(a, b) = min(a, ~b) + b */
 +        tcg_gen_not_vec(vece, t, b);
 +        tcg_gen_umin_vec(vece, t, t, a);
 +        tcg_gen_add_vec(vece, r, t, b);
 +
 +        tcg_temp_free_vec(t);
 +        tcg_swap_vecop_list(hold_list);
 +    }
  }
- void tcg_gen_sssub_vec(unsigned vece, TCGv_vec r, TCGv_vec a, TCGv_vec b)
+ /* Return a maximum finite value with the requested sign */
-@@ -XXX,XX +XXX,XX @@ void tcg_gen_sssub_vec(unsigned vece, TCGv_vec r, TCGv_vec a, TCGv_vec b)
+-#define GEN_XF_ROUND(SUFFIX, MANTBITS, INF_EXP, INTERNAL_TYPE) \
+-static SUFFIX accum_round_##SUFFIX(Accum a, float_status * fp_status) \
- void tcg_gen_ussub_vec(unsigned vece, TCGv_vec r, TCGv_vec a, TCGv_vec b)
+-{ \
- {
+-    if ((int128_gethi(a.mant) == 0) && (int128_getlo(a.mant) == 0) \
--    do_op3_nofail(vece, r, a, b, INDEX_op_ussub_vec);
+-        && ((a.guard | a.round | a.sticky) == 0)) { \
-+    if (!do_op3(vece, r, a, b, INDEX_op_ussub_vec)) {
+-        /* result zero */ \
-+        const TCGOpcode *hold_list = tcg_swap_vecop_list(NULL);
+-        switch (fp_status->float_rounding_mode) { \
-+        TCGv_vec t = tcg_temp_new_vec_matching(r);
+-        case float_round_down: \
-+
+-            return zero_##SUFFIX(1); \
-+        /* ussub(a, b) = max(a, b) - b */
+-        default: \
-+        tcg_gen_umax_vec(vece, t, a, b);
+-            return zero_##SUFFIX(0); \
-+        tcg_gen_sub_vec(vece, r, t, b);
+-        } \
-+
+-    } \
-+        tcg_temp_free_vec(t);
+-    /* Normalize right */ \
-+        tcg_swap_vecop_list(hold_list);
+-    /* We want MANTBITS bits of mantissa plus the leading one. */ \
-+    }
+-    /* That means that we want MANTBITS+1 bits, or 0x000000000000FF_FFFF */ \
 -    /* So we need to normalize right while the high word is non-zero and \
 -    * while the low word is nonzero when masked with 0xffe0_0000_0000_0000 */ \
 -    while ((int128_gethi(a.mant) != 0) || \
 -           ((int128_getlo(a.mant) >> (MANTBITS + 1)) != 0)) { \
 -        a = accum_norm_right(a, 1); \
 -    } \
 -    /* \
 -     * OK, now normalize left \
 -     * We want to normalize left until we have a leading one in bit 24 \
 -     * Theoretically, we only need to shift a maximum of one to the left if we \
 -     * shifted out lots of bits from B, or if we had no shift / 1 shift sticky \
 -     * should be 0  \
 -     */ \
 -    while ((int128_getlo(a.mant) & (1ULL << MANTBITS)) == 0) { \
 -        a = accum_norm_left(a); \
 -    } \
 -    /* \
 -     * OK, now we might need to denormalize because of potential underflow. \
 -     * We need to do this before rounding, and rounding might make us normal \
 -     * again \
 -     */ \
 -    while (a.exp <= 0) { \
 -        a = accum_norm_right(a, 1 - a.exp); \
 -        /* \
 -         * Do we have underflow? \
 -         * That's when we get an inexact answer because we ran out of bits \
 -         * in a denormal. \
 -         */ \
 -        if (a.guard || a.round || a.sticky) { \
 -            float_raise(float_flag_underflow, fp_status); \
 -        } \
 -    } \
 -    /* OK, we're relatively canonical... now we need to round */ \
 -    if (a.guard || a.round || a.sticky) { \
 -        float_raise(float_flag_inexact, fp_status); \
 -        switch (fp_status->float_rounding_mode) { \
 -        case float_round_to_zero: \
 -            /* Chop and we're done */ \
 -            break; \
 -        case float_round_up: \
 -            if (a.sign == 0) { \
 -                a.mant = int128_add(a.mant, int128_one()); \
 -            } \
 -            break; \
 -        case float_round_down: \
 -            if (a.sign != 0) { \
 -                a.mant = int128_add(a.mant, int128_one()); \
 -            } \
 -            break; \
 -        default: \
 -            if (a.round || a.sticky) { \
 -                /* round up if guard is 1, down if guard is zero */ \
 -                a.mant = int128_add(a.mant, int128_make64(a.guard)); \
 -            } else if (a.guard) { \
 -                /* exactly .5, round up if odd */ \
 -                a.mant = int128_add(a.mant, int128_and(a.mant, int128_one())); \
 -            } \
 -            break; \
 -        } \
 -    } \
 -    /* \
 -     * OK, now we might have carried all the way up. \
 -     * So we might need to shr once \
 -     * at least we know that the lsb should be zero if we rounded and \
 -     * got a carry out... \
 -     */ \
 -    if ((int128_getlo(a.mant) >> (MANTBITS + 1)) != 0) { \
 -        a = accum_norm_right(a, 1); \
 -    } \
 -    /* Overflow? */ \
 -    if (a.exp >= INF_EXP) { \
 -        /* Yep, inf result */ \
 -        float_raise(float_flag_overflow, fp_status); \
 -        float_raise(float_flag_inexact, fp_status); \
 -        switch (fp_status->float_rounding_mode) { \
 -        case float_round_to_zero: \
 -            return maxfinite_##SUFFIX(a.sign); \
 -        case float_round_up: \
 -            if (a.sign == 0) { \
 -                return infinite_##SUFFIX(a.sign); \
 -            } else { \
 -                return maxfinite_##SUFFIX(a.sign); \
 -            } \
 -        case float_round_down: \
 -            if (a.sign != 0) { \
 -                return infinite_##SUFFIX(a.sign); \
 -            } else { \
 -                return maxfinite_##SUFFIX(a.sign); \
 -            } \
 -        default: \
 -            return infinite_##SUFFIX(a.sign); \
 -        } \
 -    } \
 -    /* Underflow? */ \
 -    if (int128_getlo(a.mant) & (1ULL << MANTBITS)) { \
 -        /* Leading one means: No, we're normal. So, we should be done... */ \
 -        INTERNAL_TYPE ret; \
 -        ret.i = 0; \
 -        ret.sign = a.sign; \
 -        ret.exp = a.exp; \
 -        ret.mant = int128_getlo(a.mant); \
 -        return ret.i; \
 -    } \
 -    assert(a.exp == 1); \
 -    INTERNAL_TYPE ret; \
 -    ret.i = 0; \
 -    ret.sign = a.sign; \
 -    ret.exp = 0; \
 -    ret.mant = int128_getlo(a.mant); \
 -    return ret.i; \
 +static float64 accum_round_float64(Accum a, float_status *fp_status)
 +{
 +    if ((int128_gethi(a.mant) == 0) && (int128_getlo(a.mant) == 0)
 +        && ((a.guard | a.round | a.sticky) == 0)) {
 +        /* result zero */
 +        switch (fp_status->float_rounding_mode) {
 +        case float_round_down:
 +            return zero_float64(1);
 +        default:
 +            return zero_float64(0);
 +        }
 +    }
 +    /*
 +     * Normalize right
 +     * We want DF_MANTBITS bits of mantissa plus the leading one.
 +     * That means that we want DF_MANTBITS+1 bits, or 0x000000000000FF_FFFF
 +     * So we need to normalize right while the high word is non-zero and
 +     * while the low word is nonzero when masked with 0xffe0_0000_0000_0000
 +     */
 +    while ((int128_gethi(a.mant) != 0) ||
 +           ((int128_getlo(a.mant) >> (DF_MANTBITS + 1)) != 0)) {
 +        a = accum_norm_right(a, 1);
 +    }
 +    /*
 +     * OK, now normalize left
 +     * We want to normalize left until we have a leading one in bit 24
 +     * Theoretically, we only need to shift a maximum of one to the left if we
 +     * shifted out lots of bits from B, or if we had no shift / 1 shift sticky
 +     * should be 0
 +     */
 +    while ((int128_getlo(a.mant) & (1ULL << DF_MANTBITS)) == 0) {
 +        a = accum_norm_left(a);
 +    }
 +    /*
 +     * OK, now we might need to denormalize because of potential underflow.
 +     * We need to do this before rounding, and rounding might make us normal
 +     * again
 +     */
 +    while (a.exp <= 0) {
 +        a = accum_norm_right(a, 1 - a.exp);
 +        /*
 +         * Do we have underflow?
 +         * That's when we get an inexact answer because we ran out of bits
 +         * in a denormal.
 +         */
 +        if (a.guard || a.round || a.sticky) {
 +            float_raise(float_flag_underflow, fp_status);
 +        }
 +    }
 +    /* OK, we're relatively canonical... now we need to round */
 +    if (a.guard || a.round || a.sticky) {
 +        float_raise(float_flag_inexact, fp_status);
 +        switch (fp_status->float_rounding_mode) {
 +        case float_round_to_zero:
 +            /* Chop and we're done */
 +            break;
 +        case float_round_up:
 +            if (a.sign == 0) {
 +                a.mant = int128_add(a.mant, int128_one());
 +            }
 +            break;
 +        case float_round_down:
 +            if (a.sign != 0) {
 +                a.mant = int128_add(a.mant, int128_one());
 +            }
 +            break;
 +        default:
 +            if (a.round || a.sticky) {
 +                /* round up if guard is 1, down if guard is zero */
 +                a.mant = int128_add(a.mant, int128_make64(a.guard));
 +            } else if (a.guard) {
 +                /* exactly .5, round up if odd */
 +                a.mant = int128_add(a.mant, int128_and(a.mant, int128_one()));
 +            }
 +            break;
 +        }
 +    }
 +    /*
 +     * OK, now we might have carried all the way up.
 +     * So we might need to shr once
 +     * at least we know that the lsb should be zero if we rounded and
 +     * got a carry out...
 +     */
 +    if ((int128_getlo(a.mant) >> (DF_MANTBITS + 1)) != 0) {
 +        a = accum_norm_right(a, 1);
 +    }
 +    /* Overflow? */
 +    if (a.exp >= DF_INF_EXP) {
 +        /* Yep, inf result */
 +        float_raise(float_flag_overflow, fp_status);
 +        float_raise(float_flag_inexact, fp_status);
 +        switch (fp_status->float_rounding_mode) {
 +        case float_round_to_zero:
 +            return maxfinite_float64(a.sign);
 +        case float_round_up:
 +            if (a.sign == 0) {
 +                return infinite_float64(a.sign);
 +            } else {
 +                return maxfinite_float64(a.sign);
 +            }
 +        case float_round_down:
 +            if (a.sign != 0) {
 +                return infinite_float64(a.sign);
 +            } else {
 +                return maxfinite_float64(a.sign);
 +            }
 +        default:
 +            return infinite_float64(a.sign);
 +        }
 +    }
 +    /* Underflow? */
 +    if (int128_getlo(a.mant) & (1ULL << DF_MANTBITS)) {
 +        /* Leading one means: No, we're normal. So, we should be done... */
 +        Double ret;
 +        ret.i = 0;
 +        ret.sign = a.sign;
 +        ret.exp = a.exp;
 +        ret.mant = int128_getlo(a.mant);
 +        return ret.i;
 +    }
 +    assert(a.exp == 1);
 +    Double ret;
 +    ret.i = 0;
 +    ret.sign = a.sign;
 +    ret.exp = 0;
 +    ret.mant = int128_getlo(a.mant);
 +    return ret.i;
  }
- static void do_minmax(unsigned vece, TCGv_vec r, TCGv_vec a,
+-GEN_XF_ROUND(float64, DF_MANTBITS, DF_INF_EXP, Double)
 -
  float64 internal_mpyhh(float64 a, float64 b,
                        unsigned long long int accumulated,
                        float_status *fp_status)
 --
-.25.1
+.43.0

-[PULL 14/28] tcg/s390x: Rename from tcg/s390
+[PULL 68/72] target/hexagon: Remove Float
-This emphasizes that we don't support s390, only 64-bit s390x hosts.
+This structure, with bitfields, is incorrect for big-endian.
 Use the existing float32_getexp_raw which uses extract32.
-Reviewed-by: Thomas Huth <thuth@redhat.com>
+Reviewed-by: Brian Cain <brian.cain@oss.qualcomm.com>
 Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
 Reviewed-by: David Hildenbrand <david@redhat.com>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- meson.build                              | 2 --
+ target/hexagon/fma_emu.c | 16 +++-------------
- tcg/{s390 => s390x}/tcg-target-con-set.h | 0
+file changed, 3 insertions(+), 13 deletions(-)
  tcg/{s390 => s390x}/tcg-target-con-str.h | 0
  tcg/{s390 => s390x}/tcg-target.h         | 0
  tcg/{s390 => s390x}/tcg-target.c.inc     | 0
 files changed, 2 deletions(-)
  rename tcg/{s390 => s390x}/tcg-target-con-set.h (100%)
  rename tcg/{s390 => s390x}/tcg-target-con-str.h (100%)
  rename tcg/{s390 => s390x}/tcg-target.h (100%)
  rename tcg/{s390 => s390x}/tcg-target.c.inc (100%)
-diff --git a/meson.build b/meson.build
+diff --git a/target/hexagon/fma_emu.c b/target/hexagon/fma_emu.c
 index XXXXXXX..XXXXXXX 100644
---- a/meson.build
+--- a/target/hexagon/fma_emu.c
-+++ b/meson.build
++++ b/target/hexagon/fma_emu.c
-@@ -XXX,XX +XXX,XX @@ if not get_option('tcg').disabled()
+@@ -XXX,XX +XXX,XX @@ typedef union {
-     tcg_arch = 'tci'
+     };
-   elif config_host['ARCH'] == 'sparc64'
+ } Double;
-     tcg_arch = 'sparc'
--  elif config_host['ARCH'] == 's390x'
+-typedef union {
--    tcg_arch = 's390'
+-    float f;
-   elif config_host['ARCH'] in ['x86_64', 'x32']
+-    uint32_t i;
-     tcg_arch = 'i386'
+-    struct {
-   elif config_host['ARCH'] == 'ppc64'
+-        uint32_t mant:23;
-diff --git a/tcg/s390/tcg-target-con-set.h b/tcg/s390x/tcg-target-con-set.h
+-        uint32_t exp:8;
-similarity index 100%
+-        uint32_t sign:1;
-rename from tcg/s390/tcg-target-con-set.h
+-    };
-rename to tcg/s390x/tcg-target-con-set.h
+-} Float;
-diff --git a/tcg/s390/tcg-target-con-str.h b/tcg/s390x/tcg-target-con-str.h
+-
-similarity index 100%
+ static uint64_t float64_getmant(float64 f64)
-rename from tcg/s390/tcg-target-con-str.h
+ {
-rename to tcg/s390x/tcg-target-con-str.h
+     Double a = { .i = f64 };
-diff --git a/tcg/s390/tcg-target.h b/tcg/s390x/tcg-target.h
+@@ -XXX,XX +XXX,XX @@ int32_t float64_getexp(float64 f64)
-similarity index 100%
-rename from tcg/s390/tcg-target.h
+ int32_t float32_getexp(float32 f32)
-rename to tcg/s390x/tcg-target.h
+ {
-diff --git a/tcg/s390/tcg-target.c.inc b/tcg/s390x/tcg-target.c.inc
+-    Float a = { .i = f32 };
-similarity index 100%
++    int exp = float32_getexp_raw(f32);
-rename from tcg/s390/tcg-target.c.inc
+     if (float32_is_normal(f32)) {
-rename to tcg/s390x/tcg-target.c.inc
+-        return a.exp;
 +        return exp;
      }
      if (float32_is_denormal(f32)) {
 -        return a.exp + 1;
 +        return exp + 1;
      }
      return -1;
  }
 --
-.25.1
+.43.0

-[PULL 23/28] tcg/s390x: Implement TCG_TARGET_HAS_mul_vec
+[PULL 69/72] target/hexagon: Remove Double
-Reviewed-by: David Hildenbrand <david@redhat.com>
+This structure, with bitfields, is incorrect for big-endian.
 Use extract64 and deposit64 instead.
 Reviewed-by: Brian Cain <brian.cain@oss.qualcomm.com>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- tcg/s390x/tcg-target.h     | 2 +-
+ target/hexagon/fma_emu.c | 46 ++++++++++++++--------------------------
- tcg/s390x/tcg-target.c.inc | 7 +++++++
+file changed, 16 insertions(+), 30 deletions(-)
 files changed, 8 insertions(+), 1 deletion(-)
-diff --git a/tcg/s390x/tcg-target.h b/tcg/s390x/tcg-target.h
+diff --git a/target/hexagon/fma_emu.c b/target/hexagon/fma_emu.c
 index XXXXXXX..XXXXXXX 100644
---- a/tcg/s390x/tcg-target.h
+--- a/target/hexagon/fma_emu.c
-+++ b/tcg/s390x/tcg-target.h
++++ b/target/hexagon/fma_emu.c
-@@ -XXX,XX +XXX,XX @@ extern uint64_t s390_facilities[3];
+@@ -XXX,XX +XXX,XX @@
- #define TCG_TARGET_HAS_shi_vec        0
- #define TCG_TARGET_HAS_shs_vec        0
+ #define WAY_BIG_EXP 4096
- #define TCG_TARGET_HAS_shv_vec        0
--#define TCG_TARGET_HAS_mul_vec        0
+-typedef union {
-+#define TCG_TARGET_HAS_mul_vec        1
+-    double f;
- #define TCG_TARGET_HAS_sat_vec        0
+-    uint64_t i;
- #define TCG_TARGET_HAS_minmax_vec     0
+-    struct {
- #define TCG_TARGET_HAS_bitsel_vec     0
+-        uint64_t mant:52;
-diff --git a/tcg/s390x/tcg-target.c.inc b/tcg/s390x/tcg-target.c.inc
+-        uint64_t exp:11;
-index XXXXXXX..XXXXXXX 100644
+-        uint64_t sign:1;
---- a/tcg/s390x/tcg-target.c.inc
+-    };
-+++ b/tcg/s390x/tcg-target.c.inc
+-} Double;
-@@ -XXX,XX +XXX,XX @@ typedef enum S390Opcode {
+-
-     VRRc_VCEQ   = 0xe7f8,   /* we leave the m5 cs field 0 */
+ static uint64_t float64_getmant(float64 f64)
-     VRRc_VCH    = 0xe7fb,   /* " */
+ {
-     VRRc_VCHL   = 0xe7f9,   /* " */
+-    Double a = { .i = f64 };
-+    VRRc_VML    = 0xe7a2,
++    uint64_t mant = extract64(f64, 0, 52);
-     VRRc_VN     = 0xe768,
+     if (float64_is_normal(f64)) {
-     VRRc_VNC    = 0xe769,
+-        return a.mant | 1ULL << 52;
-     VRRc_VNO    = 0xe76b,
++        return mant | 1ULL << 52;
-@@ -XXX,XX +XXX,XX @@ static void tcg_out_vec_op(TCGContext *s, TCGOpcode opc,
+     }
-     case INDEX_op_andc_vec:
+     if (float64_is_zero(f64)) {
          tcg_out_insn(s, VRRc, VNC, a0, a1, a2, 0);
          break;
 +    case INDEX_op_mul_vec:
 +        tcg_out_insn(s, VRRc, VML, a0, a1, a2, vece);
 +        break;
      case INDEX_op_or_vec:
          tcg_out_insn(s, VRRc, VO, a0, a1, a2, 0);
          break;
@@ -XXX,XX +XXX,XX @@ int tcg_can_emit_vec_op(TCGOpcode opc, TCGType type, unsigned vece)
          return 1;
      case INDEX_op_cmp_vec:
          return -1;
 +    case INDEX_op_mul_vec:
 +        return vece < MO_64;
      default:
          return 0;
      }
-@@ -XXX,XX +XXX,XX @@ static TCGConstraintSetIndex tcg_target_op_def(TCGOpcode op)
+     if (float64_is_denormal(f64)) {
-     case INDEX_op_orc_vec:
+-        return a.mant;
-     case INDEX_op_xor_vec:
++        return mant;
-     case INDEX_op_cmp_vec:
+     }
-+    case INDEX_op_mul_vec:
+     return ~0ULL;
-         return C_O1_I2(v, v, v);
+ }
-     default:
+ int32_t float64_getexp(float64 f64)
  {
 -    Double a = { .i = f64 };
 +    int exp = extract64(f64, 52, 11);
      if (float64_is_normal(f64)) {
 -        return a.exp;
 +        return exp;
      }
      if (float64_is_denormal(f64)) {
 -        return a.exp + 1;
 +        return exp + 1;
      }
      return -1;
  }
@@ -XXX,XX +XXX,XX @@ float32 infinite_float32(uint8_t sign)
  /* Return a maximum finite value with the requested sign */
  static float64 accum_round_float64(Accum a, float_status *fp_status)
  {
 +    uint64_t ret;
 +
      if ((int128_gethi(a.mant) == 0) && (int128_getlo(a.mant) == 0)
          && ((a.guard | a.round | a.sticky) == 0)) {
          /* result zero */
@@ -XXX,XX +XXX,XX @@ static float64 accum_round_float64(Accum a, float_status *fp_status)
          }
      }
      /* Underflow? */
 -    if (int128_getlo(a.mant) & (1ULL << DF_MANTBITS)) {
 +    ret = int128_getlo(a.mant);
 +    if (ret & (1ULL << DF_MANTBITS)) {
          /* Leading one means: No, we're normal. So, we should be done... */
 -        Double ret;
 -        ret.i = 0;
 -        ret.sign = a.sign;
 -        ret.exp = a.exp;
 -        ret.mant = int128_getlo(a.mant);
 -        return ret.i;
 +        ret = deposit64(ret, 52, 11, a.exp);
 +    } else {
 +        assert(a.exp == 1);
 +        ret = deposit64(ret, 52, 11, 0);
      }
 -    assert(a.exp == 1);
 -    Double ret;
 -    ret.i = 0;
 -    ret.sign = a.sign;
 -    ret.exp = 0;
 -    ret.mant = int128_getlo(a.mant);
 -    return ret.i;
 +    ret = deposit64(ret, 63, 1, a.sign);
 +    return ret;
  }
  float64 internal_mpyhh(float64 a, float64 b,
 --
-.25.1
+.43.0

-[PULL 08/28] trace/mem: Pass MemOpIdx to trace_mem_get_info
+[PULL 70/72] target/hexagon: Use mulu64 for int128_mul_6464
-We (will) often have the complete MemOpIdx handy, so use that.
+No need to open-code 64x64->128-bit multiplication.
-Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
+Reviewed-by: Brian Cain <brian.cain@oss.qualcomm.com>
 Reviewed-by: Alistair Francis <alistair.francis@wdc.com>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- trace/mem.h                   | 32 +++++++++-----------------
+ target/hexagon/fma_emu.c | 32 +++-----------------------------
- accel/tcg/cputlb.c            | 12 ++++------
+file changed, 3 insertions(+), 29 deletions(-)
  accel/tcg/user-exec.c         | 42 +++++++++++++++++++++++------------
  tcg/tcg-op.c                  |  8 +++----
  accel/tcg/atomic_common.c.inc |  6 ++---
 files changed, 49 insertions(+), 51 deletions(-)
-diff --git a/trace/mem.h b/trace/mem.h
+diff --git a/target/hexagon/fma_emu.c b/target/hexagon/fma_emu.c
 index XXXXXXX..XXXXXXX 100644
---- a/trace/mem.h
+--- a/target/hexagon/fma_emu.c
-+++ b/trace/mem.h
++++ b/target/hexagon/fma_emu.c
-@@ -XXX,XX +XXX,XX @@
+@@ -XXX,XX +XXX,XX @@ int32_t float32_getexp(float32 f32)
- #ifndef TRACE__MEM_H
+     return -1;
  #define TRACE__MEM_H
 -#include "tcg/tcg.h"
 +#include "exec/memopidx.h"
  #define TRACE_MEM_SZ_SHIFT_MASK 0xf /* size shift mask */
  #define TRACE_MEM_SE (1ULL << 4)    /* sign extended (y/n) */
@@ -XXX,XX +XXX,XX @@
  #define TRACE_MEM_MMU_SHIFT 8       /* mmu idx */
  /**
 - * trace_mem_build_info:
 + * trace_mem_get_info:
   *
   * Return a value for the 'info' argument in guest memory access traces.
   */
 -static inline uint16_t trace_mem_build_info(int size_shift, bool sign_extend,
 -                                            MemOp endianness, bool store,
 -                                            unsigned int mmu_idx)
 +static inline uint16_t trace_mem_get_info(MemOpIdx oi, bool store)
  {
 +    MemOp op = get_memop(oi);
 +    uint32_t size_shift = op & MO_SIZE;
 +    bool sign_extend = op & MO_SIGN;
 +    bool big_endian = (op & MO_BSWAP) == MO_BE;
      uint16_t res;
      res = size_shift & TRACE_MEM_SZ_SHIFT_MASK;
      if (sign_extend) {
          res |= TRACE_MEM_SE;
      }
 -    if (endianness == MO_BE) {
 +    if (big_endian) {
          res |= TRACE_MEM_BE;
      }
      if (store) {
          res |= TRACE_MEM_ST;
      }
  #ifdef CONFIG_SOFTMMU
 -    res |= mmu_idx << TRACE_MEM_MMU_SHIFT;
 +    res |= get_mmuidx(oi) << TRACE_MEM_MMU_SHIFT;
  #endif
 +
      return res;
  }
--
+-static uint32_t int128_getw0(Int128 x)
 -/**
 - * trace_mem_get_info:
 - *
 - * Return a value for the 'info' argument in guest memory access traces.
 - */
 -static inline uint16_t trace_mem_get_info(MemOp op,
 -                                          unsigned int mmu_idx,
 -                                          bool store)
 -{
--    return trace_mem_build_info(op & MO_SIZE, !!(op & MO_SIGN),
+-    return int128_getlo(x);
 -                                op & MO_BSWAP, store,
 -                                mmu_idx);
 -}
 -
- #endif /* TRACE__MEM_H */
+-static uint32_t int128_getw1(Int128 x)
-diff --git a/accel/tcg/cputlb.c b/accel/tcg/cputlb.c
+-{
-index XXXXXXX..XXXXXXX 100644
+-    return int128_getlo(x) >> 32;
---- a/accel/tcg/cputlb.c
+-}
-+++ b/accel/tcg/cputlb.c
+-
-@@ -XXX,XX +XXX,XX @@ static inline uint64_t cpu_load_helper(CPUArchState *env, abi_ptr addr,
+ static Int128 int128_mul_6464(uint64_t ai, uint64_t bi)
                                         int mmu_idx, uintptr_t retaddr,
                                         MemOp op, FullLoadHelper *full_load)
  {
--    uint16_t meminfo;
+-    Int128 a, b;
--    MemOpIdx oi;
+-    uint64_t pp0, pp1a, pp1b, pp1s, pp2;
-+    MemOpIdx oi = make_memop_idx(op, mmu_idx);
++    uint64_t l, h;
-+    uint16_t meminfo = trace_mem_get_info(oi, false);
-     uint64_t ret;
+-    a = int128_make64(ai);
+-    b = int128_make64(bi);
--    meminfo = trace_mem_get_info(op, mmu_idx, false);
+-    pp0 = (uint64_t)int128_getw0(a) * (uint64_t)int128_getw0(b);
-     trace_guest_mem_before_exec(env_cpu(env), addr, meminfo);
+-    pp1a = (uint64_t)int128_getw1(a) * (uint64_t)int128_getw0(b);
+-    pp1b = (uint64_t)int128_getw1(b) * (uint64_t)int128_getw0(a);
--    oi = make_memop_idx(op, mmu_idx);
+-    pp2 = (uint64_t)int128_getw1(a) * (uint64_t)int128_getw1(b);
-     ret = full_load(env, addr, oi, retaddr);
+-
+-    pp1s = pp1a + pp1b;
-     qemu_plugin_vcpu_mem_cb(env_cpu(env), addr, meminfo);
+-    if ((pp1s < pp1a) || (pp1s < pp1b)) {
-@@ -XXX,XX +XXX,XX @@ static inline void QEMU_ALWAYS_INLINE
+-        pp2 += (1ULL << 32);
- cpu_store_helper(CPUArchState *env, target_ulong addr, uint64_t val,
+-    }
-                  int mmu_idx, uintptr_t retaddr, MemOp op)
+-    uint64_t ret_low = pp0 + (pp1s << 32);
- {
+-    if ((ret_low < pp0) || (ret_low < (pp1s << 32))) {
--    MemOpIdx oi;
+-        pp2 += 1;
--    uint16_t meminfo;
+-    }
-+    MemOpIdx oi = make_memop_idx(op, mmu_idx);
+-
-+    uint16_t meminfo = trace_mem_get_info(oi, true);
+-    return int128_make128(ret_low, pp2 + (pp1s >> 32));
++    mulu64(&l, &h, ai, bi);
--    meminfo = trace_mem_get_info(op, mmu_idx, true);
++    return int128_make128(l, h);
-     trace_guest_mem_before_exec(env_cpu(env), addr, meminfo);
+ }
--    oi = make_memop_idx(op, mmu_idx);
+ static Int128 int128_sub_borrow(Int128 a, Int128 b, int borrow)
      store_helper(env, addr, val, oi, retaddr, op);
      qemu_plugin_vcpu_mem_cb(env_cpu(env), addr, meminfo);
 diff --git a/accel/tcg/user-exec.c b/accel/tcg/user-exec.c
 index XXXXXXX..XXXXXXX 100644
 --- a/accel/tcg/user-exec.c
 +++ b/accel/tcg/user-exec.c
@@ -XXX,XX +XXX,XX @@ int cpu_signal_handler(int host_signum, void *pinfo,
  uint32_t cpu_ldub_data(CPUArchState *env, abi_ptr ptr)
  {
 +    MemOpIdx oi = make_memop_idx(MO_UB, MMU_USER_IDX);
 +    uint16_t meminfo = trace_mem_get_info(oi, false);
      uint32_t ret;
 -    uint16_t meminfo = trace_mem_get_info(MO_UB, MMU_USER_IDX, false);
      trace_guest_mem_before_exec(env_cpu(env), ptr, meminfo);
      ret = ldub_p(g2h(env_cpu(env), ptr));
@@ -XXX,XX +XXX,XX @@ int cpu_ldsb_data(CPUArchState *env, abi_ptr ptr)
  uint32_t cpu_lduw_be_data(CPUArchState *env, abi_ptr ptr)
  {
 +    MemOpIdx oi = make_memop_idx(MO_BEUW, MMU_USER_IDX);
 +    uint16_t meminfo = trace_mem_get_info(oi, false);
      uint32_t ret;
 -    uint16_t meminfo = trace_mem_get_info(MO_BEUW, MMU_USER_IDX, false);
      trace_guest_mem_before_exec(env_cpu(env), ptr, meminfo);
      ret = lduw_be_p(g2h(env_cpu(env), ptr));
@@ -XXX,XX +XXX,XX @@ int cpu_ldsw_be_data(CPUArchState *env, abi_ptr ptr)
  uint32_t cpu_ldl_be_data(CPUArchState *env, abi_ptr ptr)
  {
 +    MemOpIdx oi = make_memop_idx(MO_BEUL, MMU_USER_IDX);
 +    uint16_t meminfo = trace_mem_get_info(oi, false);
      uint32_t ret;
 -    uint16_t meminfo = trace_mem_get_info(MO_BEUL, MMU_USER_IDX, false);
      trace_guest_mem_before_exec(env_cpu(env), ptr, meminfo);
      ret = ldl_be_p(g2h(env_cpu(env), ptr));
@@ -XXX,XX +XXX,XX @@ uint32_t cpu_ldl_be_data(CPUArchState *env, abi_ptr ptr)
  uint64_t cpu_ldq_be_data(CPUArchState *env, abi_ptr ptr)
  {
 +    MemOpIdx oi = make_memop_idx(MO_BEQ, MMU_USER_IDX);
 +    uint16_t meminfo = trace_mem_get_info(oi, false);
      uint64_t ret;
 -    uint16_t meminfo = trace_mem_get_info(MO_BEQ, MMU_USER_IDX, false);
      trace_guest_mem_before_exec(env_cpu(env), ptr, meminfo);
      ret = ldq_be_p(g2h(env_cpu(env), ptr));
@@ -XXX,XX +XXX,XX @@ uint64_t cpu_ldq_be_data(CPUArchState *env, abi_ptr ptr)
  uint32_t cpu_lduw_le_data(CPUArchState *env, abi_ptr ptr)
  {
 +    MemOpIdx oi = make_memop_idx(MO_LEUW, MMU_USER_IDX);
 +    uint16_t meminfo = trace_mem_get_info(oi, false);
      uint32_t ret;
 -    uint16_t meminfo = trace_mem_get_info(MO_LEUW, MMU_USER_IDX, false);
      trace_guest_mem_before_exec(env_cpu(env), ptr, meminfo);
      ret = lduw_le_p(g2h(env_cpu(env), ptr));
@@ -XXX,XX +XXX,XX @@ int cpu_ldsw_le_data(CPUArchState *env, abi_ptr ptr)
  uint32_t cpu_ldl_le_data(CPUArchState *env, abi_ptr ptr)
  {
 +    MemOpIdx oi = make_memop_idx(MO_LEUL, MMU_USER_IDX);
 +    uint16_t meminfo = trace_mem_get_info(oi, false);
      uint32_t ret;
 -    uint16_t meminfo = trace_mem_get_info(MO_LEUL, MMU_USER_IDX, false);
      trace_guest_mem_before_exec(env_cpu(env), ptr, meminfo);
      ret = ldl_le_p(g2h(env_cpu(env), ptr));
@@ -XXX,XX +XXX,XX @@ uint32_t cpu_ldl_le_data(CPUArchState *env, abi_ptr ptr)
  uint64_t cpu_ldq_le_data(CPUArchState *env, abi_ptr ptr)
  {
 +    MemOpIdx oi = make_memop_idx(MO_LEQ, MMU_USER_IDX);
 +    uint16_t meminfo = trace_mem_get_info(oi, false);
      uint64_t ret;
 -    uint16_t meminfo = trace_mem_get_info(MO_LEQ, MMU_USER_IDX, false);
      trace_guest_mem_before_exec(env_cpu(env), ptr, meminfo);
      ret = ldq_le_p(g2h(env_cpu(env), ptr));
@@ -XXX,XX +XXX,XX @@ uint64_t cpu_ldq_le_data_ra(CPUArchState *env, abi_ptr ptr, uintptr_t retaddr)
  void cpu_stb_data(CPUArchState *env, abi_ptr ptr, uint32_t val)
  {
 -    uint16_t meminfo = trace_mem_get_info(MO_UB, MMU_USER_IDX, true);
 +    MemOpIdx oi = make_memop_idx(MO_UB, MMU_USER_IDX);
 +    uint16_t meminfo = trace_mem_get_info(oi, true);
      trace_guest_mem_before_exec(env_cpu(env), ptr, meminfo);
      stb_p(g2h(env_cpu(env), ptr), val);
@@ -XXX,XX +XXX,XX @@ void cpu_stb_data(CPUArchState *env, abi_ptr ptr, uint32_t val)
  void cpu_stw_be_data(CPUArchState *env, abi_ptr ptr, uint32_t val)
  {
 -    uint16_t meminfo = trace_mem_get_info(MO_BEUW, MMU_USER_IDX, true);
 +    MemOpIdx oi = make_memop_idx(MO_BEUW, MMU_USER_IDX);
 +    uint16_t meminfo = trace_mem_get_info(oi, true);
      trace_guest_mem_before_exec(env_cpu(env), ptr, meminfo);
      stw_be_p(g2h(env_cpu(env), ptr), val);
@@ -XXX,XX +XXX,XX @@ void cpu_stw_be_data(CPUArchState *env, abi_ptr ptr, uint32_t val)
  void cpu_stl_be_data(CPUArchState *env, abi_ptr ptr, uint32_t val)
  {
 -    uint16_t meminfo = trace_mem_get_info(MO_BEUL, MMU_USER_IDX, true);
 +    MemOpIdx oi = make_memop_idx(MO_BEUL, MMU_USER_IDX);
 +    uint16_t meminfo = trace_mem_get_info(oi, true);
      trace_guest_mem_before_exec(env_cpu(env), ptr, meminfo);
      stl_be_p(g2h(env_cpu(env), ptr), val);
@@ -XXX,XX +XXX,XX @@ void cpu_stl_be_data(CPUArchState *env, abi_ptr ptr, uint32_t val)
  void cpu_stq_be_data(CPUArchState *env, abi_ptr ptr, uint64_t val)
  {
 -    uint16_t meminfo = trace_mem_get_info(MO_BEQ, MMU_USER_IDX, true);
 +    MemOpIdx oi = make_memop_idx(MO_BEQ, MMU_USER_IDX);
 +    uint16_t meminfo = trace_mem_get_info(oi, true);
      trace_guest_mem_before_exec(env_cpu(env), ptr, meminfo);
      stq_be_p(g2h(env_cpu(env), ptr), val);
@@ -XXX,XX +XXX,XX @@ void cpu_stq_be_data(CPUArchState *env, abi_ptr ptr, uint64_t val)
  void cpu_stw_le_data(CPUArchState *env, abi_ptr ptr, uint32_t val)
  {
 -    uint16_t meminfo = trace_mem_get_info(MO_LEUW, MMU_USER_IDX, true);
 +    MemOpIdx oi = make_memop_idx(MO_LEUW, MMU_USER_IDX);
 +    uint16_t meminfo = trace_mem_get_info(oi, true);
      trace_guest_mem_before_exec(env_cpu(env), ptr, meminfo);
      stw_le_p(g2h(env_cpu(env), ptr), val);
@@ -XXX,XX +XXX,XX @@ void cpu_stw_le_data(CPUArchState *env, abi_ptr ptr, uint32_t val)
  void cpu_stl_le_data(CPUArchState *env, abi_ptr ptr, uint32_t val)
  {
 -    uint16_t meminfo = trace_mem_get_info(MO_LEUL, MMU_USER_IDX, true);
 +    MemOpIdx oi = make_memop_idx(MO_LEUL, MMU_USER_IDX);
 +    uint16_t meminfo = trace_mem_get_info(oi, true);
      trace_guest_mem_before_exec(env_cpu(env), ptr, meminfo);
      stl_le_p(g2h(env_cpu(env), ptr), val);
@@ -XXX,XX +XXX,XX @@ void cpu_stl_le_data(CPUArchState *env, abi_ptr ptr, uint32_t val)
  void cpu_stq_le_data(CPUArchState *env, abi_ptr ptr, uint64_t val)
  {
 -    uint16_t meminfo = trace_mem_get_info(MO_LEQ, MMU_USER_IDX, true);
 +    MemOpIdx oi = make_memop_idx(MO_LEQ, MMU_USER_IDX);
 +    uint16_t meminfo = trace_mem_get_info(oi, true);
      trace_guest_mem_before_exec(env_cpu(env), ptr, meminfo);
      stq_le_p(g2h(env_cpu(env), ptr), val);
 diff --git a/tcg/tcg-op.c b/tcg/tcg-op.c
 index XXXXXXX..XXXXXXX 100644
 --- a/tcg/tcg-op.c
 +++ b/tcg/tcg-op.c
@@ -XXX,XX +XXX,XX @@ static inline void plugin_gen_mem_callbacks(TCGv vaddr, uint16_t info)
  void tcg_gen_qemu_ld_i32(TCGv_i32 val, TCGv addr, TCGArg idx, MemOp memop)
  {
      MemOp orig_memop;
 -    uint16_t info = trace_mem_get_info(memop, idx, 0);
 +    uint16_t info = trace_mem_get_info(make_memop_idx(memop, idx), 0);
      tcg_gen_req_mo(TCG_MO_LD_LD | TCG_MO_ST_LD);
      memop = tcg_canonicalize_memop(memop, 0, 0);
@@ -XXX,XX +XXX,XX @@ void tcg_gen_qemu_ld_i32(TCGv_i32 val, TCGv addr, TCGArg idx, MemOp memop)
  void tcg_gen_qemu_st_i32(TCGv_i32 val, TCGv addr, TCGArg idx, MemOp memop)
  {
      TCGv_i32 swap = NULL;
 -    uint16_t info = trace_mem_get_info(memop, idx, 1);
 +    uint16_t info = trace_mem_get_info(make_memop_idx(memop, idx), 1);
      tcg_gen_req_mo(TCG_MO_LD_ST | TCG_MO_ST_ST);
      memop = tcg_canonicalize_memop(memop, 0, 1);
@@ -XXX,XX +XXX,XX @@ void tcg_gen_qemu_ld_i64(TCGv_i64 val, TCGv addr, TCGArg idx, MemOp memop)
      tcg_gen_req_mo(TCG_MO_LD_LD | TCG_MO_ST_LD);
      memop = tcg_canonicalize_memop(memop, 1, 0);
 -    info = trace_mem_get_info(memop, idx, 0);
 +    info = trace_mem_get_info(make_memop_idx(memop, idx), 0);
      trace_guest_mem_before_tcg(tcg_ctx->cpu, cpu_env, addr, info);
      orig_memop = memop;
@@ -XXX,XX +XXX,XX @@ void tcg_gen_qemu_st_i64(TCGv_i64 val, TCGv addr, TCGArg idx, MemOp memop)
      tcg_gen_req_mo(TCG_MO_LD_ST | TCG_MO_ST_ST);
      memop = tcg_canonicalize_memop(memop, 1, 1);
 -    info = trace_mem_get_info(memop, idx, 1);
 +    info = trace_mem_get_info(make_memop_idx(memop, idx), 1);
      trace_guest_mem_before_tcg(tcg_ctx->cpu, cpu_env, addr, info);
      if (!TCG_TARGET_HAS_MEMORY_BSWAP && (memop & MO_BSWAP)) {
 diff --git a/accel/tcg/atomic_common.c.inc b/accel/tcg/atomic_common.c.inc
 index XXXXXXX..XXXXXXX 100644
 --- a/accel/tcg/atomic_common.c.inc
 +++ b/accel/tcg/atomic_common.c.inc
@@ -XXX,XX +XXX,XX @@ static uint16_t atomic_trace_rmw_pre(CPUArchState *env, target_ulong addr,
                                       MemOpIdx oi)
  {
      CPUState *cpu = env_cpu(env);
 -    uint16_t info = trace_mem_get_info(get_memop(oi), get_mmuidx(oi), false);
 +    uint16_t info = trace_mem_get_info(oi, false);
      trace_guest_mem_before_exec(cpu, addr, info);
      trace_guest_mem_before_exec(cpu, addr, info | TRACE_MEM_ST);
@@ -XXX,XX +XXX,XX @@ static void atomic_trace_rmw_post(CPUArchState *env, target_ulong addr,
  static uint16_t atomic_trace_ld_pre(CPUArchState *env, target_ulong addr,
                                      MemOpIdx oi)
  {
 -    uint16_t info = trace_mem_get_info(get_memop(oi), get_mmuidx(oi), false);
 +    uint16_t info = trace_mem_get_info(oi, false);
      trace_guest_mem_before_exec(env_cpu(env), addr, info);
@@ -XXX,XX +XXX,XX @@ static void atomic_trace_ld_post(CPUArchState *env, target_ulong addr,
  static uint16_t atomic_trace_st_pre(CPUArchState *env, target_ulong addr,
                                      MemOpIdx oi)
  {
 -    uint16_t info = trace_mem_get_info(get_memop(oi), get_mmuidx(oi), true);
 +    uint16_t info = trace_mem_get_info(oi, true);
      trace_guest_mem_before_exec(env_cpu(env), addr, info);
 --
-.25.1
+.43.0

-[PULL 01/28] tests/docker: Remove fedora-i386-cross from DOCKER_PARTIAL_IMAGES
+[PULL 71/72] target/hexagon: Simplify internal_mpyhh setup
-The image was upgraded to a full image in ee381b7fe146.
+Initialize x with accumulated via direct assignment,
-This makes it possible to use docker-test@image syntax
+rather than multiplying by 1.
 with this container.
+Reviewed-by: Brian Cain <brian.cain@oss.qualcomm.com>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
-Reviewed-by: Daniel P. Berrangé <berrange@redhat.com>
-Message-Id: <20210930163636.721311-2-richard.henderson@linaro.org>
 ---
- tests/docker/Makefile.include | 2 +-
+ target/hexagon/fma_emu.c | 2 +-
 file changed, 1 insertion(+), 1 deletion(-)
-diff --git a/tests/docker/Makefile.include b/tests/docker/Makefile.include
+diff --git a/target/hexagon/fma_emu.c b/target/hexagon/fma_emu.c
 index XXXXXXX..XXXXXXX 100644
---- a/tests/docker/Makefile.include
+--- a/target/hexagon/fma_emu.c
-+++ b/tests/docker/Makefile.include
++++ b/target/hexagon/fma_emu.c
-@@ -XXX,XX +XXX,XX @@ DOCKER_PARTIAL_IMAGES += debian-riscv64-cross
+@@ -XXX,XX +XXX,XX @@ float64 internal_mpyhh(float64 a, float64 b,
- DOCKER_PARTIAL_IMAGES += debian-sh4-cross debian-sparc64-cross
+         float64_is_infinity(b)) {
- DOCKER_PARTIAL_IMAGES += debian-tricore-cross
+         return float64_mul(a, b, fp_status);
- DOCKER_PARTIAL_IMAGES += debian-xtensa-cross
+     }
--DOCKER_PARTIAL_IMAGES += fedora-i386-cross fedora-cris-cross
+-    x.mant = int128_mul_6464(accumulated, 1);
-+DOCKER_PARTIAL_IMAGES += fedora-cris-cross
++    x.mant = int128_make64(accumulated);
+     x.sticky = sticky;
- # Rules for building linux-user powered images
+     prod = fGETUWORD(1, float64_getmant(a)) * fGETUWORD(1, float64_getmant(b));
- #
+     x.mant = int128_add(x.mant, int128_mul_6464(prod, 0x100000000ULL));
 --
-.25.1
+.43.0

-[PULL 04/28] accel/tcg: Drop signness in tracing in cputlb.c
+[PULL 72/72] accel/tcg: Move gen_intermediate_code to TCGCPUOps.translate_core
-We are already inconsistent about whether or not
+Convert all targets simultaneously, as the gen_intermediate_code
-MO_SIGN is set in trace_mem_get_info.  Dropping it
+function disappears from the target.  While there are possible
-entirely allows some simplification.
+workarounds, they're larger than simply performing the conversion.
-Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
+Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- accel/tcg/cputlb.c    | 10 +++-------
+ include/exec/translator.h        | 14 --------------
- accel/tcg/user-exec.c | 45 ++++++-------------------------------------
+ include/hw/core/tcg-cpu-ops.h    | 13 +++++++++++++
-files changed, 9 insertions(+), 46 deletions(-)
+ target/alpha/cpu.h               |  2 ++
  target/arm/internals.h           |  2 ++
  target/avr/cpu.h                 |  2 ++
  target/hexagon/cpu.h             |  2 ++
  target/hppa/cpu.h                |  2 ++
  target/i386/tcg/helper-tcg.h     |  2 ++
  target/loongarch/internals.h     |  2 ++
  target/m68k/cpu.h                |  2 ++
  target/microblaze/cpu.h          |  2 ++
  target/mips/tcg/tcg-internal.h   |  2 ++
  target/openrisc/cpu.h            |  2 ++
  target/ppc/cpu.h                 |  2 ++
  target/riscv/cpu.h               |  3 +++
  target/rx/cpu.h                  |  2 ++
  target/s390x/s390x-internal.h    |  2 ++
  target/sh4/cpu.h                 |  2 ++
  target/sparc/cpu.h               |  2 ++
  target/tricore/cpu.h             |  2 ++
  target/xtensa/cpu.h              |  2 ++
  accel/tcg/cpu-exec.c             |  8 +++++---
  accel/tcg/translate-all.c        |  8 +++++---
  target/alpha/cpu.c               |  1 +
  target/alpha/translate.c         |  4 ++--
  target/arm/cpu.c                 |  1 +
  target/arm/tcg/cpu-v7m.c         |  1 +
  target/arm/tcg/translate.c       |  5 ++---
  target/avr/cpu.c                 |  1 +
  target/avr/translate.c           |  6 +++---
  target/hexagon/cpu.c             |  1 +
  target/hexagon/translate.c       |  4 ++--
  target/hppa/cpu.c                |  1 +
  target/hppa/translate.c          |  4 ++--
  target/i386/tcg/tcg-cpu.c        |  1 +
  target/i386/tcg/translate.c      |  5 ++---
  target/loongarch/cpu.c           |  1 +
  target/loongarch/tcg/translate.c |  4 ++--
  target/m68k/cpu.c                |  1 +
  target/m68k/translate.c          |  4 ++--
  target/microblaze/cpu.c          |  1 +
  target/microblaze/translate.c    |  4 ++--
  target/mips/cpu.c                |  1 +
  target/mips/tcg/translate.c      |  4 ++--
  target/openrisc/cpu.c            |  1 +
  target/openrisc/translate.c      |  4 ++--
  target/ppc/cpu_init.c            |  1 +
  target/ppc/translate.c           |  4 ++--
  target/riscv/tcg/tcg-cpu.c       |  1 +
  target/riscv/translate.c         |  4 ++--
  target/rx/cpu.c                  |  1 +
  target/rx/translate.c            |  4 ++--
  target/s390x/cpu.c               |  1 +
  target/s390x/tcg/translate.c     |  4 ++--
  target/sh4/cpu.c                 |  1 +
  target/sh4/translate.c           |  4 ++--
  target/sparc/cpu.c               |  1 +
  target/sparc/translate.c         |  4 ++--
  target/tricore/cpu.c             |  1 +
  target/tricore/translate.c       |  5 ++---
  target/xtensa/cpu.c              |  1 +
  target/xtensa/translate.c        |  4 ++--
 files changed, 121 insertions(+), 62 deletions(-)
-diff --git a/accel/tcg/cputlb.c b/accel/tcg/cputlb.c
+diff --git a/include/exec/translator.h b/include/exec/translator.h
 index XXXXXXX..XXXXXXX 100644
---- a/accel/tcg/cputlb.c
+--- a/include/exec/translator.h
-+++ b/accel/tcg/cputlb.c
++++ b/include/exec/translator.h
-@@ -XXX,XX +XXX,XX @@ static inline uint64_t cpu_load_helper(CPUArchState *env, abi_ptr addr,
+@@ -XXX,XX +XXX,XX @@
-     meminfo = trace_mem_get_info(op, mmu_idx, false);
+ #include "qemu/bswap.h"
-     trace_guest_mem_before_exec(env_cpu(env), addr, meminfo);
+ #include "exec/vaddr.h"
--    op &= ~MO_SIGN;
+-/**
-     oi = make_memop_idx(op, mmu_idx);
+- * gen_intermediate_code
-     ret = full_load(env, addr, oi, retaddr);
+- * @cpu: cpu context
+- * @tb: translation block
-@@ -XXX,XX +XXX,XX @@ uint32_t cpu_ldub_mmuidx_ra(CPUArchState *env, abi_ptr addr,
+- * @max_insns: max number of instructions to translate
- int cpu_ldsb_mmuidx_ra(CPUArchState *env, abi_ptr addr,
+- * @pc: guest virtual program counter address
-                        int mmu_idx, uintptr_t ra)
+- * @host_pc: host physical program counter address
- {
+- *
--    return (int8_t)cpu_load_helper(env, addr, mmu_idx, ra, MO_SB,
+- * This function must be provided by the target, which should create
--                                   full_ldub_mmu);
+- * the target-specific DisasContext, and then invoke translator_loop.
-+    return (int8_t)cpu_ldub_mmuidx_ra(env, addr, mmu_idx, ra);
+- */
 -void gen_intermediate_code(CPUState *cpu, TranslationBlock *tb, int *max_insns,
 -                           vaddr pc, void *host_pc);
 -
  /**
   * DisasJumpType:
   * @DISAS_NEXT: Next instruction in program order.
 diff --git a/include/hw/core/tcg-cpu-ops.h b/include/hw/core/tcg-cpu-ops.h
 index XXXXXXX..XXXXXXX 100644
 --- a/include/hw/core/tcg-cpu-ops.h
 +++ b/include/hw/core/tcg-cpu-ops.h
@@ -XXX,XX +XXX,XX @@ struct TCGCPUOps {
       * Called when the first CPU is realized.
       */
      void (*initialize)(void);
 +    /**
 +     * @translate_code: Translate guest instructions to TCGOps
 +     * @cpu: cpu context
 +     * @tb: translation block
 +     * @max_insns: max number of instructions to translate
 +     * @pc: guest virtual program counter address
 +     * @host_pc: host physical program counter address
 +     *
 +     * This function must be provided by the target, which should create
 +     * the target-specific DisasContext, and then invoke translator_loop.
 +     */
 +    void (*translate_code)(CPUState *cpu, TranslationBlock *tb,
 +                           int *max_insns, vaddr pc, void *host_pc);
      /**
       * @synchronize_from_tb: Synchronize state from a TCG #TranslationBlock
       *
 diff --git a/target/alpha/cpu.h b/target/alpha/cpu.h
 index XXXXXXX..XXXXXXX 100644
 --- a/target/alpha/cpu.h
 +++ b/target/alpha/cpu.h
@@ -XXX,XX +XXX,XX @@ enum {
  };
  void alpha_translate_init(void);
 +void alpha_translate_code(CPUState *cs, TranslationBlock *tb,
 +                          int *max_insns, vaddr pc, void *host_pc);
  #define CPU_RESOLVING_TYPE TYPE_ALPHA_CPU
 diff --git a/target/arm/internals.h b/target/arm/internals.h
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/internals.h
 +++ b/target/arm/internals.h
@@ -XXX,XX +XXX,XX @@ void init_cpreg_list(ARMCPU *cpu);
  void arm_cpu_register_gdb_regs_for_features(ARMCPU *cpu);
  void arm_translate_init(void);
 +void arm_translate_code(CPUState *cs, TranslationBlock *tb,
 +                        int *max_insns, vaddr pc, void *host_pc);
  void arm_cpu_register_gdb_commands(ARMCPU *cpu);
  void aarch64_cpu_register_gdb_commands(ARMCPU *cpu, GString *,
 diff --git a/target/avr/cpu.h b/target/avr/cpu.h
 index XXXXXXX..XXXXXXX 100644
 --- a/target/avr/cpu.h
 +++ b/target/avr/cpu.h
@@ -XXX,XX +XXX,XX @@ static inline void set_avr_feature(CPUAVRState *env, int feature)
  }
- uint32_t cpu_lduw_be_mmuidx_ra(CPUArchState *env, abi_ptr addr,
+ void avr_cpu_tcg_init(void);
-@@ -XXX,XX +XXX,XX @@ uint32_t cpu_lduw_be_mmuidx_ra(CPUArchState *env, abi_ptr addr,
++void avr_cpu_translate_code(CPUState *cs, TranslationBlock *tb,
- int cpu_ldsw_be_mmuidx_ra(CPUArchState *env, abi_ptr addr,
++                            int *max_insns, vaddr pc, void *host_pc);
-                           int mmu_idx, uintptr_t ra)
- {
+ int cpu_avr_exec(CPUState *cpu);
--    return (int16_t)cpu_load_helper(env, addr, mmu_idx, ra, MO_BESW,
--                                    full_be_lduw_mmu);
+diff --git a/target/hexagon/cpu.h b/target/hexagon/cpu.h
-+    return (int16_t)cpu_lduw_be_mmuidx_ra(env, addr, mmu_idx, ra);
+index XXXXXXX..XXXXXXX 100644
 --- a/target/hexagon/cpu.h
 +++ b/target/hexagon/cpu.h
@@ -XXX,XX +XXX,XX @@ static inline void cpu_get_tb_cpu_state(CPUHexagonState *env, vaddr *pc,
  typedef HexagonCPU ArchCPU;
  void hexagon_translate_init(void);
 +void hexagon_translate_code(CPUState *cs, TranslationBlock *tb,
 +                            int *max_insns, vaddr pc, void *host_pc);
  #include "exec/cpu-all.h"
 diff --git a/target/hppa/cpu.h b/target/hppa/cpu.h
 index XXXXXXX..XXXXXXX 100644
 --- a/target/hppa/cpu.h
 +++ b/target/hppa/cpu.h
@@ -XXX,XX +XXX,XX @@ static inline int HPPA_BTLB_ENTRIES(CPUHPPAState *env)
  }
- uint32_t cpu_ldl_be_mmuidx_ra(CPUArchState *env, abi_ptr addr,
+ void hppa_translate_init(void);
-@@ -XXX,XX +XXX,XX @@ uint32_t cpu_lduw_le_mmuidx_ra(CPUArchState *env, abi_ptr addr,
++void hppa_translate_code(CPUState *cs, TranslationBlock *tb,
- int cpu_ldsw_le_mmuidx_ra(CPUArchState *env, abi_ptr addr,
++                         int *max_insns, vaddr pc, void *host_pc);
-                           int mmu_idx, uintptr_t ra)
- {
+ #define CPU_RESOLVING_TYPE TYPE_HPPA_CPU
--    return (int16_t)cpu_load_helper(env, addr, mmu_idx, ra, MO_LESW,
--                                    full_le_lduw_mmu);
+diff --git a/target/i386/tcg/helper-tcg.h b/target/i386/tcg/helper-tcg.h
-+    return (int16_t)cpu_lduw_le_mmuidx_ra(env, addr, mmu_idx, ra);
+index XXXXXXX..XXXXXXX 100644
 --- a/target/i386/tcg/helper-tcg.h
 +++ b/target/i386/tcg/helper-tcg.h
@@ -XXX,XX +XXX,XX @@ static inline target_long lshift(target_long x, int n)
  /* translate.c */
  void tcg_x86_init(void);
 +void x86_translate_code(CPUState *cs, TranslationBlock *tb,
 +                        int *max_insns, vaddr pc, void *host_pc);
  /* excp_helper.c */
  G_NORETURN void raise_exception(CPUX86State *env, int exception_index);
 diff --git a/target/loongarch/internals.h b/target/loongarch/internals.h
 index XXXXXXX..XXXXXXX 100644
 --- a/target/loongarch/internals.h
 +++ b/target/loongarch/internals.h
@@ -XXX,XX +XXX,XX @@
  #define TARGET_VIRT_MASK MAKE_64BIT_MASK(0, TARGET_VIRT_ADDR_SPACE_BITS)
  void loongarch_translate_init(void);
 +void loongarch_translate_code(CPUState *cs, TranslationBlock *tb,
 +                              int *max_insns, vaddr pc, void *host_pc);
  void G_NORETURN do_raise_exception(CPULoongArchState *env,
                                     uint32_t exception,
 diff --git a/target/m68k/cpu.h b/target/m68k/cpu.h
 index XXXXXXX..XXXXXXX 100644
 --- a/target/m68k/cpu.h
 +++ b/target/m68k/cpu.h
@@ -XXX,XX +XXX,XX @@ int m68k_cpu_gdb_read_register(CPUState *cpu, GByteArray *buf, int reg);
  int m68k_cpu_gdb_write_register(CPUState *cpu, uint8_t *buf, int reg);
  void m68k_tcg_init(void);
 +void m68k_translate_code(CPUState *cs, TranslationBlock *tb,
 +                         int *max_insns, vaddr pc, void *host_pc);
  void m68k_cpu_init_gdb(M68kCPU *cpu);
  uint32_t cpu_m68k_get_ccr(CPUM68KState *env);
  void cpu_m68k_set_ccr(CPUM68KState *env, uint32_t);
 diff --git a/target/microblaze/cpu.h b/target/microblaze/cpu.h
 index XXXXXXX..XXXXXXX 100644
 --- a/target/microblaze/cpu.h
 +++ b/target/microblaze/cpu.h
@@ -XXX,XX +XXX,XX @@ static inline void mb_cpu_write_msr(CPUMBState *env, uint32_t val)
  }
- uint32_t cpu_ldl_le_mmuidx_ra(CPUArchState *env, abi_ptr addr,
+ void mb_tcg_init(void);
-diff --git a/accel/tcg/user-exec.c b/accel/tcg/user-exec.c
++void mb_translate_code(CPUState *cs, TranslationBlock *tb,
-index XXXXXXX..XXXXXXX 100644
++                       int *max_insns, vaddr pc, void *host_pc);
---- a/accel/tcg/user-exec.c
-+++ b/accel/tcg/user-exec.c
+ #define CPU_RESOLVING_TYPE TYPE_MICROBLAZE_CPU
-@@ -XXX,XX +XXX,XX @@ uint32_t cpu_ldub_data(CPUArchState *env, abi_ptr ptr)
+diff --git a/target/mips/tcg/tcg-internal.h b/target/mips/tcg/tcg-internal.h
- int cpu_ldsb_data(CPUArchState *env, abi_ptr ptr)
+index XXXXXXX..XXXXXXX 100644
- {
+--- a/target/mips/tcg/tcg-internal.h
--    int ret;
++++ b/target/mips/tcg/tcg-internal.h
--    uint16_t meminfo = trace_mem_get_info(MO_SB, MMU_USER_IDX, false);
+@@ -XXX,XX +XXX,XX @@
  #include "cpu.h"
  void mips_tcg_init(void);
 +void mips_translate_code(CPUState *cs, TranslationBlock *tb,
 +                         int *max_insns, vaddr pc, void *host_pc);
  void mips_cpu_synchronize_from_tb(CPUState *cs, const TranslationBlock *tb);
  G_NORETURN void mips_cpu_do_unaligned_access(CPUState *cpu, vaddr addr,
 diff --git a/target/openrisc/cpu.h b/target/openrisc/cpu.h
 index XXXXXXX..XXXXXXX 100644
 --- a/target/openrisc/cpu.h
 +++ b/target/openrisc/cpu.h
@@ -XXX,XX +XXX,XX @@ void openrisc_cpu_dump_state(CPUState *cpu, FILE *f, int flags);
  int openrisc_cpu_gdb_read_register(CPUState *cpu, GByteArray *buf, int reg);
  int openrisc_cpu_gdb_write_register(CPUState *cpu, uint8_t *buf, int reg);
  void openrisc_translate_init(void);
 +void openrisc_translate_code(CPUState *cs, TranslationBlock *tb,
 +                             int *max_insns, vaddr pc, void *host_pc);
  int print_insn_or1k(bfd_vma addr, disassemble_info *info);
  #ifndef CONFIG_USER_ONLY
 diff --git a/target/ppc/cpu.h b/target/ppc/cpu.h
 index XXXXXXX..XXXXXXX 100644
 --- a/target/ppc/cpu.h
 +++ b/target/ppc/cpu.h
@@ -XXX,XX +XXX,XX @@ extern const VMStateDescription vmstate_ppc_cpu;
  /*****************************************************************************/
  void ppc_translate_init(void);
 +void ppc_translate_code(CPUState *cs, TranslationBlock *tb,
 +                        int *max_insns, vaddr pc, void *host_pc);
  #if !defined(CONFIG_USER_ONLY)
  void ppc_store_sdr1(CPUPPCState *env, target_ulong value);
 diff --git a/target/riscv/cpu.h b/target/riscv/cpu.h
 index XXXXXXX..XXXXXXX 100644
 --- a/target/riscv/cpu.h
 +++ b/target/riscv/cpu.h
@@ -XXX,XX +XXX,XX @@ RISCVException smstateen_acc_ok(CPURISCVState *env, int index, uint64_t bit);
  void riscv_cpu_set_mode(CPURISCVState *env, target_ulong newpriv, bool virt_en);
  void riscv_translate_init(void);
 +void riscv_translate_code(CPUState *cs, TranslationBlock *tb,
 +                          int *max_insns, vaddr pc, void *host_pc);
 +
  G_NORETURN void riscv_raise_exception(CPURISCVState *env,
                                        uint32_t exception, uintptr_t pc);
 diff --git a/target/rx/cpu.h b/target/rx/cpu.h
 index XXXXXXX..XXXXXXX 100644
 --- a/target/rx/cpu.h
 +++ b/target/rx/cpu.h
@@ -XXX,XX +XXX,XX @@ int rx_cpu_gdb_read_register(CPUState *cpu, GByteArray *buf, int reg);
  int rx_cpu_gdb_write_register(CPUState *cpu, uint8_t *buf, int reg);
  void rx_translate_init(void);
 +void rx_translate_code(CPUState *cs, TranslationBlock *tb,
 +                       int *max_insns, vaddr pc, void *host_pc);
  void rx_cpu_unpack_psw(CPURXState *env, uint32_t psw, int rte);
  #include "exec/cpu-all.h"
 diff --git a/target/s390x/s390x-internal.h b/target/s390x/s390x-internal.h
 index XXXXXXX..XXXXXXX 100644
 --- a/target/s390x/s390x-internal.h
 +++ b/target/s390x/s390x-internal.h
@@ -XXX,XX +XXX,XX @@ void handle_diag_308(CPUS390XState *env, uint64_t r1, uint64_t r3,
  /* translate.c */
  void s390x_translate_init(void);
 +void s390x_translate_code(CPUState *cs, TranslationBlock *tb,
 +                          int *max_insns, vaddr pc, void *host_pc);
  void s390x_restore_state_to_opc(CPUState *cs,
                                  const TranslationBlock *tb,
                                  const uint64_t *data);
 diff --git a/target/sh4/cpu.h b/target/sh4/cpu.h
 index XXXXXXX..XXXXXXX 100644
 --- a/target/sh4/cpu.h
 +++ b/target/sh4/cpu.h
@@ -XXX,XX +XXX,XX @@ G_NORETURN void superh_cpu_do_unaligned_access(CPUState *cpu, vaddr addr,
                                                 uintptr_t retaddr);
  void sh4_translate_init(void);
 +void sh4_translate_code(CPUState *cs, TranslationBlock *tb,
 +                        int *max_insns, vaddr pc, void *host_pc);
  #if !defined(CONFIG_USER_ONLY)
  hwaddr superh_cpu_get_phys_page_debug(CPUState *cpu, vaddr addr);
 diff --git a/target/sparc/cpu.h b/target/sparc/cpu.h
 index XXXXXXX..XXXXXXX 100644
 --- a/target/sparc/cpu.h
 +++ b/target/sparc/cpu.h
@@ -XXX,XX +XXX,XX @@ int sparc_cpu_memory_rw_debug(CPUState *cpu, vaddr addr,
  /* translate.c */
  void sparc_tcg_init(void);
 +void sparc_translate_code(CPUState *cs, TranslationBlock *tb,
 +                          int *max_insns, vaddr pc, void *host_pc);
  /* fop_helper.c */
  target_ulong cpu_get_fsr(CPUSPARCState *);
 diff --git a/target/tricore/cpu.h b/target/tricore/cpu.h
 index XXXXXXX..XXXXXXX 100644
 --- a/target/tricore/cpu.h
 +++ b/target/tricore/cpu.h
@@ -XXX,XX +XXX,XX @@ FIELD(TB_FLAGS, PRIV, 0, 2)
  void cpu_state_reset(CPUTriCoreState *s);
  void tricore_tcg_init(void);
 +void tricore_translate_code(CPUState *cs, TranslationBlock *tb,
 +                            int *max_insns, vaddr pc, void *host_pc);
  static inline void cpu_get_tb_cpu_state(CPUTriCoreState *env, vaddr *pc,
                                          uint64_t *cs_base, uint32_t *flags)
 diff --git a/target/xtensa/cpu.h b/target/xtensa/cpu.h
 index XXXXXXX..XXXXXXX 100644
 --- a/target/xtensa/cpu.h
 +++ b/target/xtensa/cpu.h
@@ -XXX,XX +XXX,XX @@ G_NORETURN void xtensa_cpu_do_unaligned_access(CPUState *cpu, vaddr addr,
  void xtensa_collect_sr_names(const XtensaConfig *config);
  void xtensa_translate_init(void);
 +void xtensa_translate_code(CPUState *cs, TranslationBlock *tb,
 +                           int *max_insns, vaddr pc, void *host_pc);
  void **xtensa_get_regfile_by_name(const char *name, int entries, int bits);
  void xtensa_breakpoint_handler(CPUState *cs);
  void xtensa_register_core(XtensaConfigList *node);
 diff --git a/accel/tcg/cpu-exec.c b/accel/tcg/cpu-exec.c
 index XXXXXXX..XXXXXXX 100644
 --- a/accel/tcg/cpu-exec.c
 +++ b/accel/tcg/cpu-exec.c
@@ -XXX,XX +XXX,XX @@ bool tcg_exec_realizefn(CPUState *cpu, Error **errp)
      if (!tcg_target_initialized) {
          /* Check mandatory TCGCPUOps handlers */
 +        const TCGCPUOps *tcg_ops = cpu->cc->tcg_ops;
  #ifndef CONFIG_USER_ONLY
 -        assert(cpu->cc->tcg_ops->cpu_exec_halt);
 -        assert(cpu->cc->tcg_ops->cpu_exec_interrupt);
 +        assert(tcg_ops->cpu_exec_halt);
 +        assert(tcg_ops->cpu_exec_interrupt);
  #endif /* !CONFIG_USER_ONLY */
 -        cpu->cc->tcg_ops->initialize();
 +        assert(tcg_ops->translate_code);
 +        tcg_ops->initialize();
          tcg_target_initialized = true;
      }
 diff --git a/accel/tcg/translate-all.c b/accel/tcg/translate-all.c
 index XXXXXXX..XXXXXXX 100644
 --- a/accel/tcg/translate-all.c
 +++ b/accel/tcg/translate-all.c
@@ -XXX,XX +XXX,XX @@ static int setjmp_gen_code(CPUArchState *env, TranslationBlock *tb,
      tcg_func_start(tcg_ctx);
 -    tcg_ctx->cpu = env_cpu(env);
 -    gen_intermediate_code(env_cpu(env), tb, max_insns, pc, host_pc);
 +    CPUState *cs = env_cpu(env);
 +    tcg_ctx->cpu = cs;
 +    cs->cc->tcg_ops->translate_code(cs, tb, max_insns, pc, host_pc);
 +
      assert(tb->size != 0);
      tcg_ctx->cpu = NULL;
      *max_insns = tb->icount;
@@ -XXX,XX +XXX,XX @@ TranslationBlock *tb_gen_code(CPUState *cpu,
              /*
               * Overflow of code_gen_buffer, or the current slice of it.
               *
 -             * TODO: We don't need to re-do gen_intermediate_code, nor
 +             * TODO: We don't need to re-do tcg_ops->translate_code, nor
               * should we re-do the tcg optimization currently hidden
               * inside tcg_gen_code.  All that should be required is to
               * flush the TBs, allocate a new TB, re-initialize it per
 diff --git a/target/alpha/cpu.c b/target/alpha/cpu.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/alpha/cpu.c
 +++ b/target/alpha/cpu.c
@@ -XXX,XX +XXX,XX @@ static const struct SysemuCPUOps alpha_sysemu_ops = {
  static const TCGCPUOps alpha_tcg_ops = {
      .initialize = alpha_translate_init,
 +    .translate_code = alpha_translate_code,
      .synchronize_from_tb = alpha_cpu_synchronize_from_tb,
      .restore_state_to_opc = alpha_restore_state_to_opc,
 diff --git a/target/alpha/translate.c b/target/alpha/translate.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/alpha/translate.c
 +++ b/target/alpha/translate.c
@@ -XXX,XX +XXX,XX @@ static const TranslatorOps alpha_tr_ops = {
      .tb_stop            = alpha_tr_tb_stop,
  };
 -void gen_intermediate_code(CPUState *cpu, TranslationBlock *tb, int *max_insns,
 -                           vaddr pc, void *host_pc)
 +void alpha_translate_code(CPUState *cpu, TranslationBlock *tb,
 +                          int *max_insns, vaddr pc, void *host_pc)
  {
      DisasContext dc;
      translator_loop(cpu, tb, max_insns, pc, host_pc, &alpha_tr_ops, &dc.base);
 diff --git a/target/arm/cpu.c b/target/arm/cpu.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/cpu.c
 +++ b/target/arm/cpu.c
@@ -XXX,XX +XXX,XX @@ static const struct SysemuCPUOps arm_sysemu_ops = {
  #ifdef CONFIG_TCG
  static const TCGCPUOps arm_tcg_ops = {
      .initialize = arm_translate_init,
 +    .translate_code = arm_translate_code,
      .synchronize_from_tb = arm_cpu_synchronize_from_tb,
      .debug_excp_handler = arm_debug_excp_handler,
      .restore_state_to_opc = arm_restore_state_to_opc,
 diff --git a/target/arm/tcg/cpu-v7m.c b/target/arm/tcg/cpu-v7m.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/tcg/cpu-v7m.c
 +++ b/target/arm/tcg/cpu-v7m.c
@@ -XXX,XX +XXX,XX @@ static void cortex_m55_initfn(Object *obj)
  static const TCGCPUOps arm_v7m_tcg_ops = {
      .initialize = arm_translate_init,
 +    .translate_code = arm_translate_code,
      .synchronize_from_tb = arm_cpu_synchronize_from_tb,
      .debug_excp_handler = arm_debug_excp_handler,
      .restore_state_to_opc = arm_restore_state_to_opc,
 diff --git a/target/arm/tcg/translate.c b/target/arm/tcg/translate.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/tcg/translate.c
 +++ b/target/arm/tcg/translate.c
@@ -XXX,XX +XXX,XX @@ static const TranslatorOps thumb_translator_ops = {
      .tb_stop            = arm_tr_tb_stop,
  };
 -/* generate intermediate code for basic block 'tb'.  */
 -void gen_intermediate_code(CPUState *cpu, TranslationBlock *tb, int *max_insns,
 -                           vaddr pc, void *host_pc)
 +void arm_translate_code(CPUState *cpu, TranslationBlock *tb,
 +                        int *max_insns, vaddr pc, void *host_pc)
  {
      DisasContext dc = { };
      const TranslatorOps *ops = &arm_translator_ops;
 diff --git a/target/avr/cpu.c b/target/avr/cpu.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/avr/cpu.c
 +++ b/target/avr/cpu.c
@@ -XXX,XX +XXX,XX @@ static const struct SysemuCPUOps avr_sysemu_ops = {
  static const TCGCPUOps avr_tcg_ops = {
      .initialize = avr_cpu_tcg_init,
 +    .translate_code = avr_cpu_translate_code,
      .synchronize_from_tb = avr_cpu_synchronize_from_tb,
      .restore_state_to_opc = avr_restore_state_to_opc,
      .cpu_exec_interrupt = avr_cpu_exec_interrupt,
 diff --git a/target/avr/translate.c b/target/avr/translate.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/avr/translate.c
 +++ b/target/avr/translate.c
@@ -XXX,XX +XXX,XX @@ static bool trans_WDR(DisasContext *ctx, arg_WDR *a)
   *
   *    - translate()
   *    - canonicalize_skip()
 - *    - gen_intermediate_code()
 + *    - translate_code()
   *    - restore_state_to_opc()
   *
   */
@@ -XXX,XX +XXX,XX @@ static const TranslatorOps avr_tr_ops = {
      .tb_stop            = avr_tr_tb_stop,
  };
 -void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int *max_insns,
 -                           vaddr pc, void *host_pc)
 +void avr_cpu_translate_code(CPUState *cs, TranslationBlock *tb,
 +                            int *max_insns, vaddr pc, void *host_pc)
  {
      DisasContext dc = { };
      translator_loop(cs, tb, max_insns, pc, host_pc, &avr_tr_ops, &dc.base);
 diff --git a/target/hexagon/cpu.c b/target/hexagon/cpu.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/hexagon/cpu.c
 +++ b/target/hexagon/cpu.c
@@ -XXX,XX +XXX,XX @@ static void hexagon_cpu_init(Object *obj)
  static const TCGCPUOps hexagon_tcg_ops = {
      .initialize = hexagon_translate_init,
 +    .translate_code = hexagon_translate_code,
      .synchronize_from_tb = hexagon_cpu_synchronize_from_tb,
      .restore_state_to_opc = hexagon_restore_state_to_opc,
  };
 diff --git a/target/hexagon/translate.c b/target/hexagon/translate.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/hexagon/translate.c
 +++ b/target/hexagon/translate.c
@@ -XXX,XX +XXX,XX @@ static const TranslatorOps hexagon_tr_ops = {
      .tb_stop            = hexagon_tr_tb_stop,
  };
 -void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int *max_insns,
 -                           vaddr pc, void *host_pc)
 +void hexagon_translate_code(CPUState *cs, TranslationBlock *tb,
 +                            int *max_insns, vaddr pc, void *host_pc)
  {
      DisasContext ctx;
 diff --git a/target/hppa/cpu.c b/target/hppa/cpu.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/hppa/cpu.c
 +++ b/target/hppa/cpu.c
@@ -XXX,XX +XXX,XX @@ static const struct SysemuCPUOps hppa_sysemu_ops = {
  static const TCGCPUOps hppa_tcg_ops = {
      .initialize = hppa_translate_init,
 +    .translate_code = hppa_translate_code,
      .synchronize_from_tb = hppa_cpu_synchronize_from_tb,
      .restore_state_to_opc = hppa_restore_state_to_opc,
 diff --git a/target/hppa/translate.c b/target/hppa/translate.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/hppa/translate.c
 +++ b/target/hppa/translate.c
@@ -XXX,XX +XXX,XX @@ static const TranslatorOps hppa_tr_ops = {
  #endif
  };
 -void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int *max_insns,
 -                           vaddr pc, void *host_pc)
 +void hppa_translate_code(CPUState *cs, TranslationBlock *tb,
 +                         int *max_insns, vaddr pc, void *host_pc)
  {
      DisasContext ctx = { };
      translator_loop(cs, tb, max_insns, pc, host_pc, &hppa_tr_ops, &ctx.base);
 diff --git a/target/i386/tcg/tcg-cpu.c b/target/i386/tcg/tcg-cpu.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/i386/tcg/tcg-cpu.c
 +++ b/target/i386/tcg/tcg-cpu.c
@@ -XXX,XX +XXX,XX @@ static bool x86_debug_check_breakpoint(CPUState *cs)
  static const TCGCPUOps x86_tcg_ops = {
      .initialize = tcg_x86_init,
 +    .translate_code = x86_translate_code,
      .synchronize_from_tb = x86_cpu_synchronize_from_tb,
      .restore_state_to_opc = x86_restore_state_to_opc,
      .cpu_exec_enter = x86_cpu_exec_enter,
 diff --git a/target/i386/tcg/translate.c b/target/i386/tcg/translate.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/i386/tcg/translate.c
 +++ b/target/i386/tcg/translate.c
@@ -XXX,XX +XXX,XX @@ static const TranslatorOps i386_tr_ops = {
      .tb_stop            = i386_tr_tb_stop,
  };
 -/* generate intermediate code for basic block 'tb'.  */
 -void gen_intermediate_code(CPUState *cpu, TranslationBlock *tb, int *max_insns,
 -                           vaddr pc, void *host_pc)
 +void x86_translate_code(CPUState *cpu, TranslationBlock *tb,
 +                        int *max_insns, vaddr pc, void *host_pc)
  {
      DisasContext dc;
 diff --git a/target/loongarch/cpu.c b/target/loongarch/cpu.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/loongarch/cpu.c
 +++ b/target/loongarch/cpu.c
@@ -XXX,XX +XXX,XX @@ static void loongarch_cpu_dump_state(CPUState *cs, FILE *f, int flags)
  static const TCGCPUOps loongarch_tcg_ops = {
      .initialize = loongarch_translate_init,
 +    .translate_code = loongarch_translate_code,
      .synchronize_from_tb = loongarch_cpu_synchronize_from_tb,
      .restore_state_to_opc = loongarch_restore_state_to_opc,
 diff --git a/target/loongarch/tcg/translate.c b/target/loongarch/tcg/translate.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/loongarch/tcg/translate.c
 +++ b/target/loongarch/tcg/translate.c
@@ -XXX,XX +XXX,XX @@ static const TranslatorOps loongarch_tr_ops = {
      .tb_stop            = loongarch_tr_tb_stop,
  };
 -void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int *max_insns,
 -                           vaddr pc, void *host_pc)
 +void loongarch_translate_code(CPUState *cs, TranslationBlock *tb,
 +                              int *max_insns, vaddr pc, void *host_pc)
  {
      DisasContext ctx;
 diff --git a/target/m68k/cpu.c b/target/m68k/cpu.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/m68k/cpu.c
 +++ b/target/m68k/cpu.c
@@ -XXX,XX +XXX,XX @@ static const struct SysemuCPUOps m68k_sysemu_ops = {
  static const TCGCPUOps m68k_tcg_ops = {
      .initialize = m68k_tcg_init,
 +    .translate_code = m68k_translate_code,
      .restore_state_to_opc = m68k_restore_state_to_opc,
  #ifndef CONFIG_USER_ONLY
 diff --git a/target/m68k/translate.c b/target/m68k/translate.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/m68k/translate.c
 +++ b/target/m68k/translate.c
@@ -XXX,XX +XXX,XX @@ static const TranslatorOps m68k_tr_ops = {
      .tb_stop            = m68k_tr_tb_stop,
  };
 -void gen_intermediate_code(CPUState *cpu, TranslationBlock *tb, int *max_insns,
 -                           vaddr pc, void *host_pc)
 +void m68k_translate_code(CPUState *cpu, TranslationBlock *tb,
 +                         int *max_insns, vaddr pc, void *host_pc)
  {
      DisasContext dc;
      translator_loop(cpu, tb, max_insns, pc, host_pc, &m68k_tr_ops, &dc.base);
 diff --git a/target/microblaze/cpu.c b/target/microblaze/cpu.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/microblaze/cpu.c
 +++ b/target/microblaze/cpu.c
@@ -XXX,XX +XXX,XX @@ static const struct SysemuCPUOps mb_sysemu_ops = {
  static const TCGCPUOps mb_tcg_ops = {
      .initialize = mb_tcg_init,
 +    .translate_code = mb_translate_code,
      .synchronize_from_tb = mb_cpu_synchronize_from_tb,
      .restore_state_to_opc = mb_restore_state_to_opc,
 diff --git a/target/microblaze/translate.c b/target/microblaze/translate.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/microblaze/translate.c
 +++ b/target/microblaze/translate.c
@@ -XXX,XX +XXX,XX @@ static const TranslatorOps mb_tr_ops = {
      .tb_stop            = mb_tr_tb_stop,
  };
 -void gen_intermediate_code(CPUState *cpu, TranslationBlock *tb, int *max_insns,
 -                           vaddr pc, void *host_pc)
 +void mb_translate_code(CPUState *cpu, TranslationBlock *tb,
 +                       int *max_insns, vaddr pc, void *host_pc)
  {
      DisasContext dc;
      translator_loop(cpu, tb, max_insns, pc, host_pc, &mb_tr_ops, &dc.base);
 diff --git a/target/mips/cpu.c b/target/mips/cpu.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/mips/cpu.c
 +++ b/target/mips/cpu.c
@@ -XXX,XX +XXX,XX @@ static const Property mips_cpu_properties[] = {
  #include "hw/core/tcg-cpu-ops.h"
  static const TCGCPUOps mips_tcg_ops = {
      .initialize = mips_tcg_init,
 +    .translate_code = mips_translate_code,
      .synchronize_from_tb = mips_cpu_synchronize_from_tb,
      .restore_state_to_opc = mips_restore_state_to_opc,
 diff --git a/target/mips/tcg/translate.c b/target/mips/tcg/translate.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/mips/tcg/translate.c
 +++ b/target/mips/tcg/translate.c
@@ -XXX,XX +XXX,XX @@ static const TranslatorOps mips_tr_ops = {
      .tb_stop            = mips_tr_tb_stop,
  };
 -void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int *max_insns,
 -                           vaddr pc, void *host_pc)
 +void mips_translate_code(CPUState *cs, TranslationBlock *tb,
 +                         int *max_insns, vaddr pc, void *host_pc)
  {
      DisasContext ctx;
 diff --git a/target/openrisc/cpu.c b/target/openrisc/cpu.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/openrisc/cpu.c
 +++ b/target/openrisc/cpu.c
@@ -XXX,XX +XXX,XX @@ static const struct SysemuCPUOps openrisc_sysemu_ops = {
  static const TCGCPUOps openrisc_tcg_ops = {
      .initialize = openrisc_translate_init,
 +    .translate_code = openrisc_translate_code,
      .synchronize_from_tb = openrisc_cpu_synchronize_from_tb,
      .restore_state_to_opc = openrisc_restore_state_to_opc,
 diff --git a/target/openrisc/translate.c b/target/openrisc/translate.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/openrisc/translate.c
 +++ b/target/openrisc/translate.c
@@ -XXX,XX +XXX,XX @@ static const TranslatorOps openrisc_tr_ops = {
      .tb_stop            = openrisc_tr_tb_stop,
  };
 -void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int *max_insns,
 -                           vaddr pc, void *host_pc)
 +void openrisc_translate_code(CPUState *cs, TranslationBlock *tb,
 +                             int *max_insns, vaddr pc, void *host_pc)
  {
      DisasContext ctx;
 diff --git a/target/ppc/cpu_init.c b/target/ppc/cpu_init.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/ppc/cpu_init.c
 +++ b/target/ppc/cpu_init.c
@@ -XXX,XX +XXX,XX @@ static const struct SysemuCPUOps ppc_sysemu_ops = {
  static const TCGCPUOps ppc_tcg_ops = {
    .initialize = ppc_translate_init,
 +  .translate_code = ppc_translate_code,
    .restore_state_to_opc = ppc_restore_state_to_opc,
  #ifdef CONFIG_USER_ONLY
 diff --git a/target/ppc/translate.c b/target/ppc/translate.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/ppc/translate.c
 +++ b/target/ppc/translate.c
@@ -XXX,XX +XXX,XX @@ static const TranslatorOps ppc_tr_ops = {
      .tb_stop            = ppc_tr_tb_stop,
  };
 -void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int *max_insns,
 -                           vaddr pc, void *host_pc)
 +void ppc_translate_code(CPUState *cs, TranslationBlock *tb,
 +                        int *max_insns, vaddr pc, void *host_pc)
  {
      DisasContext ctx;
 diff --git a/target/riscv/tcg/tcg-cpu.c b/target/riscv/tcg/tcg-cpu.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/riscv/tcg/tcg-cpu.c
 +++ b/target/riscv/tcg/tcg-cpu.c
@@ -XXX,XX +XXX,XX @@ static void riscv_restore_state_to_opc(CPUState *cs,
  static const TCGCPUOps riscv_tcg_ops = {
      .initialize = riscv_translate_init,
 +    .translate_code = riscv_translate_code,
      .synchronize_from_tb = riscv_cpu_synchronize_from_tb,
      .restore_state_to_opc = riscv_restore_state_to_opc,
 diff --git a/target/riscv/translate.c b/target/riscv/translate.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/riscv/translate.c
 +++ b/target/riscv/translate.c
@@ -XXX,XX +XXX,XX @@ static const TranslatorOps riscv_tr_ops = {
      .tb_stop            = riscv_tr_tb_stop,
  };
 -void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int *max_insns,
 -                           vaddr pc, void *host_pc)
 +void riscv_translate_code(CPUState *cs, TranslationBlock *tb,
 +                          int *max_insns, vaddr pc, void *host_pc)
  {
      DisasContext ctx;
 diff --git a/target/rx/cpu.c b/target/rx/cpu.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/rx/cpu.c
 +++ b/target/rx/cpu.c
@@ -XXX,XX +XXX,XX @@ static const struct SysemuCPUOps rx_sysemu_ops = {
  static const TCGCPUOps rx_tcg_ops = {
      .initialize = rx_translate_init,
 +    .translate_code = rx_translate_code,
      .synchronize_from_tb = rx_cpu_synchronize_from_tb,
      .restore_state_to_opc = rx_restore_state_to_opc,
      .tlb_fill = rx_cpu_tlb_fill,
 diff --git a/target/rx/translate.c b/target/rx/translate.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/rx/translate.c
 +++ b/target/rx/translate.c
@@ -XXX,XX +XXX,XX @@ static const TranslatorOps rx_tr_ops = {
      .tb_stop            = rx_tr_tb_stop,
  };
 -void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int *max_insns,
 -                           vaddr pc, void *host_pc)
 +void rx_translate_code(CPUState *cs, TranslationBlock *tb,
 +                       int *max_insns, vaddr pc, void *host_pc)
  {
      DisasContext dc;
 diff --git a/target/s390x/cpu.c b/target/s390x/cpu.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/s390x/cpu.c
 +++ b/target/s390x/cpu.c
@@ -XXX,XX +XXX,XX @@ void cpu_get_tb_cpu_state(CPUS390XState *env, vaddr *pc,
  static const TCGCPUOps s390_tcg_ops = {
      .initialize = s390x_translate_init,
 +    .translate_code = s390x_translate_code,
      .restore_state_to_opc = s390x_restore_state_to_opc,
  #ifdef CONFIG_USER_ONLY
 diff --git a/target/s390x/tcg/translate.c b/target/s390x/tcg/translate.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/s390x/tcg/translate.c
 +++ b/target/s390x/tcg/translate.c
@@ -XXX,XX +XXX,XX @@ static const TranslatorOps s390x_tr_ops = {
      .disas_log          = s390x_tr_disas_log,
  };
 -void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int *max_insns,
 -                           vaddr pc, void *host_pc)
 +void s390x_translate_code(CPUState *cs, TranslationBlock *tb,
 +                          int *max_insns, vaddr pc, void *host_pc)
  {
      DisasContext dc;
 diff --git a/target/sh4/cpu.c b/target/sh4/cpu.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/sh4/cpu.c
 +++ b/target/sh4/cpu.c
@@ -XXX,XX +XXX,XX @@ static const struct SysemuCPUOps sh4_sysemu_ops = {
  static const TCGCPUOps superh_tcg_ops = {
      .initialize = sh4_translate_init,
 +    .translate_code = sh4_translate_code,
      .synchronize_from_tb = superh_cpu_synchronize_from_tb,
      .restore_state_to_opc = superh_restore_state_to_opc,
 diff --git a/target/sh4/translate.c b/target/sh4/translate.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/sh4/translate.c
 +++ b/target/sh4/translate.c
@@ -XXX,XX +XXX,XX @@ static const TranslatorOps sh4_tr_ops = {
      .tb_stop            = sh4_tr_tb_stop,
  };
 -void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int *max_insns,
 -                           vaddr pc, void *host_pc)
 +void sh4_translate_code(CPUState *cs, TranslationBlock *tb,
 +                        int *max_insns, vaddr pc, void *host_pc)
  {
      DisasContext ctx;
 diff --git a/target/sparc/cpu.c b/target/sparc/cpu.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/sparc/cpu.c
 +++ b/target/sparc/cpu.c
@@ -XXX,XX +XXX,XX @@ static const struct SysemuCPUOps sparc_sysemu_ops = {
  static const TCGCPUOps sparc_tcg_ops = {
      .initialize = sparc_tcg_init,
 +    .translate_code = sparc_translate_code,
      .synchronize_from_tb = sparc_cpu_synchronize_from_tb,
      .restore_state_to_opc = sparc_restore_state_to_opc,
 diff --git a/target/sparc/translate.c b/target/sparc/translate.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/sparc/translate.c
 +++ b/target/sparc/translate.c
@@ -XXX,XX +XXX,XX @@ static const TranslatorOps sparc_tr_ops = {
      .tb_stop            = sparc_tr_tb_stop,
  };
 -void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int *max_insns,
 -                           vaddr pc, void *host_pc)
 +void sparc_translate_code(CPUState *cs, TranslationBlock *tb,
 +                          int *max_insns, vaddr pc, void *host_pc)
  {
      DisasContext dc = {};
 diff --git a/target/tricore/cpu.c b/target/tricore/cpu.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/tricore/cpu.c
 +++ b/target/tricore/cpu.c
@@ -XXX,XX +XXX,XX @@ static const struct SysemuCPUOps tricore_sysemu_ops = {
  static const TCGCPUOps tricore_tcg_ops = {
      .initialize = tricore_tcg_init,
 +    .translate_code = tricore_translate_code,
      .synchronize_from_tb = tricore_cpu_synchronize_from_tb,
      .restore_state_to_opc = tricore_restore_state_to_opc,
      .tlb_fill = tricore_cpu_tlb_fill,
 diff --git a/target/tricore/translate.c b/target/tricore/translate.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/tricore/translate.c
 +++ b/target/tricore/translate.c
@@ -XXX,XX +XXX,XX @@ static const TranslatorOps tricore_tr_ops = {
      .tb_stop            = tricore_tr_tb_stop,
  };
 -
--    trace_guest_mem_before_exec(env_cpu(env), ptr, meminfo);
+-void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int *max_insns,
--    ret = ldsb_p(g2h(env_cpu(env), ptr));
+-                           vaddr pc, void *host_pc)
--    qemu_plugin_vcpu_mem_cb(env_cpu(env), ptr, meminfo);
++void tricore_translate_code(CPUState *cs, TranslationBlock *tb,
--    return ret;
++                            int *max_insns, vaddr pc, void *host_pc)
-+    return (int8_t)cpu_ldub_data(env, ptr);
+ {
- }
+     DisasContext ctx;
+     translator_loop(cs, tb, max_insns, pc, host_pc,
- uint32_t cpu_lduw_be_data(CPUArchState *env, abi_ptr ptr)
+diff --git a/target/xtensa/cpu.c b/target/xtensa/cpu.c
-@@ -XXX,XX +XXX,XX @@ uint32_t cpu_lduw_be_data(CPUArchState *env, abi_ptr ptr)
+index XXXXXXX..XXXXXXX 100644
+--- a/target/xtensa/cpu.c
- int cpu_ldsw_be_data(CPUArchState *env, abi_ptr ptr)
++++ b/target/xtensa/cpu.c
- {
+@@ -XXX,XX +XXX,XX @@ static const struct SysemuCPUOps xtensa_sysemu_ops = {
--    int ret;
--    uint16_t meminfo = trace_mem_get_info(MO_BESW, MMU_USER_IDX, false);
+ static const TCGCPUOps xtensa_tcg_ops = {
--
+     .initialize = xtensa_translate_init,
--    trace_guest_mem_before_exec(env_cpu(env), ptr, meminfo);
++    .translate_code = xtensa_translate_code,
--    ret = ldsw_be_p(g2h(env_cpu(env), ptr));
+     .debug_excp_handler = xtensa_breakpoint_handler,
--    qemu_plugin_vcpu_mem_cb(env_cpu(env), ptr, meminfo);
+     .restore_state_to_opc = xtensa_restore_state_to_opc,
--    return ret;
-+    return (int16_t)cpu_lduw_be_data(env, ptr);
+diff --git a/target/xtensa/translate.c b/target/xtensa/translate.c
- }
+index XXXXXXX..XXXXXXX 100644
+--- a/target/xtensa/translate.c
- uint32_t cpu_ldl_be_data(CPUArchState *env, abi_ptr ptr)
++++ b/target/xtensa/translate.c
-@@ -XXX,XX +XXX,XX @@ uint32_t cpu_lduw_le_data(CPUArchState *env, abi_ptr ptr)
+@@ -XXX,XX +XXX,XX @@ static const TranslatorOps xtensa_translator_ops = {
+     .tb_stop            = xtensa_tr_tb_stop,
- int cpu_ldsw_le_data(CPUArchState *env, abi_ptr ptr)
+ };
- {
--    int ret;
+-void gen_intermediate_code(CPUState *cpu, TranslationBlock *tb, int *max_insns,
--    uint16_t meminfo = trace_mem_get_info(MO_LESW, MMU_USER_IDX, false);
+-                           vaddr pc, void *host_pc)
--
++void xtensa_translate_code(CPUState *cpu, TranslationBlock *tb,
--    trace_guest_mem_before_exec(env_cpu(env), ptr, meminfo);
++                           int *max_insns, vaddr pc, void *host_pc)
--    ret = ldsw_le_p(g2h(env_cpu(env), ptr));
+ {
--    qemu_plugin_vcpu_mem_cb(env_cpu(env), ptr, meminfo);
+     DisasContext dc = {};
--    return ret;
+     translator_loop(cpu, tb, max_insns, pc, host_pc,
 +    return (int16_t)cpu_lduw_le_data(env, ptr);
  }
  uint32_t cpu_ldl_le_data(CPUArchState *env, abi_ptr ptr)
@@ -XXX,XX +XXX,XX @@ uint32_t cpu_ldub_data_ra(CPUArchState *env, abi_ptr ptr, uintptr_t retaddr)
  int cpu_ldsb_data_ra(CPUArchState *env, abi_ptr ptr, uintptr_t retaddr)
  {
 -    int ret;
 -
 -    set_helper_retaddr(retaddr);
 -    ret = cpu_ldsb_data(env, ptr);
 -    clear_helper_retaddr();
 -    return ret;
 +    return (int8_t)cpu_ldub_data_ra(env, ptr, retaddr);
  }
  uint32_t cpu_lduw_be_data_ra(CPUArchState *env, abi_ptr ptr, uintptr_t retaddr)
@@ -XXX,XX +XXX,XX @@ uint32_t cpu_lduw_be_data_ra(CPUArchState *env, abi_ptr ptr, uintptr_t retaddr)
  int cpu_ldsw_be_data_ra(CPUArchState *env, abi_ptr ptr, uintptr_t retaddr)
  {
 -    int ret;
 -
 -    set_helper_retaddr(retaddr);
 -    ret = cpu_ldsw_be_data(env, ptr);
 -    clear_helper_retaddr();
 -    return ret;
 +    return (int16_t)cpu_lduw_be_data_ra(env, ptr, retaddr);
  }
  uint32_t cpu_ldl_be_data_ra(CPUArchState *env, abi_ptr ptr, uintptr_t retaddr)
@@ -XXX,XX +XXX,XX @@ uint32_t cpu_lduw_le_data_ra(CPUArchState *env, abi_ptr ptr, uintptr_t retaddr)
  int cpu_ldsw_le_data_ra(CPUArchState *env, abi_ptr ptr, uintptr_t retaddr)
  {
 -    int ret;
 -
 -    set_helper_retaddr(retaddr);
 -    ret = cpu_ldsw_le_data(env, ptr);
 -    clear_helper_retaddr();
 -    return ret;
 +    return (int16_t)cpu_lduw_le_data_ra(env, ptr, retaddr);
  }
  uint32_t cpu_ldl_le_data_ra(CPUArchState *env, abi_ptr ptr, uintptr_t retaddr)
 --
-.25.1
+.43.0

The following changes since commit e3acc2c1961cbe22ca474cd5da4163b7bbf7cea3:

tests/docker/dockerfiles: Bump fedora-i386-cross to fedora 34 (2021-10-05 16:40:39 -0700)

are available in the Git repository at:

https://gitlab.com/rth7680/qemu.git tags/pull-tcg-20211006

for you to fetch changes up to ea3f2af8f1b87d7bced9b75ef2e788b66ec49961:

tcg/s390x: Implement TCG_TARGET_HAS_cmpsel_vec (2021-10-05 16:53:17 -0700)

----------------------------------------------------------------
More fixes for fedora-i386-cross
Add dup_const_tl
Expand MemOp MO_SIZE
Move MemOpIdx out of tcg.h
Vector support for tcg/s390x

----------------------------------------------------------------
Philipp Tomsich (1):
      tcg: add dup_const_tl wrapper

Richard Henderson (27):
      tests/docker: Remove fedora-i386-cross from DOCKER_PARTIAL_IMAGES
      tests/docker: Fix fedora-i386-cross cross-compilation
      accel/tcg: Drop signness in tracing in cputlb.c
      tcg: Expand MO_SIZE to 3 bits
      tcg: Rename TCGMemOpIdx to MemOpIdx
      tcg: Split out MemOpIdx to exec/memopidx.h
      trace/mem: Pass MemOpIdx to trace_mem_get_info
      accel/tcg: Pass MemOpIdx to atomic_trace_*_post
      plugins: Reorg arguments to qemu_plugin_vcpu_mem_cb
      trace: Split guest_mem_before
      hw/core/cpu: Re-sort the non-pointers to the end of CPUClass
      tcg: Expand usadd/ussub with umin/umax
      tcg/s390x: Rename from tcg/s390
      tcg/s390x: Change FACILITY representation
      tcg/s390x: Merge TCG_AREG0 and TCG_REG_CALL_STACK into TCGReg
      tcg/s390x: Add host vector framework
      tcg/s390x: Implement tcg_out_ld/st for vector types
      tcg/s390x: Implement tcg_out_mov for vector types
      tcg/s390x: Implement tcg_out_dup*_vec
      tcg/s390x: Implement minimal vector operations
      tcg/s390x: Implement andc, orc, abs, neg, not vector operations
      tcg/s390x: Implement TCG_TARGET_HAS_mul_vec
      tcg/s390x: Implement vector shift operations
      tcg/s390x: Implement TCG_TARGET_HAS_minmax_vec
      tcg/s390x: Implement TCG_TARGET_HAS_sat_vec
      tcg/s390x: Implement TCG_TARGET_HAS_bitsel_vec
      tcg/s390x: Implement TCG_TARGET_HAS_cmpsel_vec

meson.build                                       |   2 -
 accel/tcg/atomic_template.h                       |  73 +-
 include/exec/memop.h                              |  14 +-
 include/exec/memopidx.h                           |  55 ++
 include/hw/core/cpu.h                             |  11 +-
 include/qemu/plugin.h                             |  26 +-
 include/tcg/tcg.h                                 | 117 ++-
 tcg/{s390 => s390x}/tcg-target-con-set.h          |   7 +
 tcg/{s390 => s390x}/tcg-target-con-str.h          |   1 +
 tcg/{s390 => s390x}/tcg-target.h                  |  91 ++-
 tcg/s390x/tcg-target.opc.h                        |  15 +
 trace/mem.h                                       |  63 --
 accel/tcg/cputlb.c                                | 103 ++-
 accel/tcg/plugin-gen.c                            |   5 +-
 accel/tcg/user-exec.c                             | 133 ++-
 plugins/api.c                                     |  19 +-
 plugins/core.c                                    |  10 +-
 target/arm/helper-a64.c                           |  16 +-
 target/arm/m_helper.c                             |   2 +-
 target/arm/translate-a64.c                        |   2 +-
 target/i386/tcg/mem_helper.c                      |   4 +-
 target/m68k/op_helper.c                           |   2 +-
 target/mips/tcg/msa_helper.c                      |   6 +-
 target/s390x/tcg/mem_helper.c                     |  20 +-
 target/sparc/ldst_helper.c                        |   2 +-
 tcg/optimize.c                                    |   2 +-
 tcg/tcg-op-vec.c                                  |  37 +-
 tcg/tcg-op.c                                      |  60 +-
 tcg/tcg.c                                         |   2 +-
 tcg/tci.c                                         |  14 +-
 accel/tcg/atomic_common.c.inc                     |  43 +-
 target/s390x/tcg/translate_vx.c.inc               |   2 +-
 tcg/aarch64/tcg-target.c.inc                      |  18 +-
 tcg/arm/tcg-target.c.inc                          |  14 +-
 tcg/i386/tcg-target.c.inc                         |  14 +-
 tcg/mips/tcg-target.c.inc                         |  16 +-
 tcg/ppc/tcg-target.c.inc                          |  18 +-
 tcg/riscv/tcg-target.c.inc                        |  20 +-
 tcg/{s390 => s390x}/tcg-target.c.inc              | 949 ++++++++++++++++++++--
 tcg/sparc/tcg-target.c.inc                        |  20 +-
 tcg/tcg-ldst.c.inc                                |   2 +-
 tests/docker/Makefile.include                     |   2 +-
 tests/docker/dockerfiles/fedora-i386-cross.docker |   5 +-
 trace-events                                      |  18 +-
 44 files changed, 1445 insertions(+), 610 deletions(-)
 create mode 100644 include/exec/memopidx.h
 rename tcg/{s390 => s390x}/tcg-target-con-set.h (86%)
 rename tcg/{s390 => s390x}/tcg-target-con-str.h (96%)
 rename tcg/{s390 => s390x}/tcg-target.h (66%)
 create mode 100644 tcg/s390x/tcg-target.opc.h
 delete mode 100644 trace/mem.h
 rename tcg/{s390 => s390x}/tcg-target.c.inc (73%)

By using PKG_CONFIG_PATH instead of PKG_CONFIG_LIBDIR,
we were still including the 64-bit packages.  Install
pcre-devel.i686 to fill a missing glib2 dependency.

By using --extra-cflags instead of --cpu, we incorrectly
use the wrong probing during meson.

Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Reviewed-by: Richard W.M. Jones <rjones@redhat.com>
Reviewed-by: Daniel P. Berrangé <berrange@redhat.com>
Message-Id: <20210930163636.721311-3-richard.henderson@linaro.org>
---
 tests/docker/dockerfiles/fedora-i386-cross.docker | 5 +++--
 1 file changed, 3 insertions(+), 2 deletions(-)

diff --git a/tests/docker/dockerfiles/fedora-i386-cross.docker b/tests/docker/dockerfiles/fedora-i386-cross.docker
index XXXXXXX..XXXXXXX 100644
--- a/tests/docker/dockerfiles/fedora-i386-cross.docker
+++ b/tests/docker/dockerfiles/fedora-i386-cross.docker
@@ -XXX,XX +XXX,XX @@ ENV PACKAGES \
     glibc-static.i686 \
     gnutls-devel.i686 \
     nettle-devel.i686 \
+    pcre-devel.i686 \
     perl-Test-Harness \
     pixman-devel.i686 \
     sysprof-capture-devel.i686 \
     zlib-devel.i686
 
-ENV QEMU_CONFIGURE_OPTS --extra-cflags=-m32 --disable-vhost-user
-ENV PKG_CONFIG_PATH /usr/lib/pkgconfig
+ENV QEMU_CONFIGURE_OPTS --cpu=i386 --disable-vhost-user
+ENV PKG_CONFIG_LIBDIR /usr/lib/pkgconfig
 
 RUN dnf update -y && dnf install -y $PACKAGES
 RUN rpm -q $PACKAGES | sort > /packages.txt
-- 
2.25.1

From: Philipp Tomsich <philipp.tomsich@vrull.eu>

dup_const always generates a uint64_t, which may exceed the size of a
target_long (generating warnings with recent-enough compilers).

To ensure that we can use dup_const both for 64bit and 32bit targets,
this adds dup_const_tl, which either maps back to dup_const (for 64bit
targets) or provides a similar implementation using 32bit constants.

Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
Signed-off-by: Philipp Tomsich <philipp.tomsich@vrull.eu>
Message-Id: <20211003214243.3813425-1-philipp.tomsich@vrull.eu>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 include/tcg/tcg.h | 12 ++++++++++++
 1 file changed, 12 insertions(+)

diff --git a/include/tcg/tcg.h b/include/tcg/tcg.h
index XXXXXXX..XXXXXXX 100644
--- a/include/tcg/tcg.h
+++ b/include/tcg/tcg.h
@@ -XXX,XX +XXX,XX @@ uint64_t dup_const(unsigned vece, uint64_t c);
         : (qemu_build_not_reached_always(), 0))                    \
      : dup_const(VECE, C))
 
+#if TARGET_LONG_BITS == 64
+# define dup_const_tl  dup_const
+#else
+# define dup_const_tl(VECE, C)                                     \
+    (__builtin_constant_p(VECE)                                    \
+     ? (  (VECE) == MO_8  ? 0x01010101ul * (uint8_t)(C)            \
+        : (VECE) == MO_16 ? 0x00010001ul * (uint16_t)(C)           \
+        : (VECE) == MO_32 ? 0x00000001ul * (uint32_t)(C)           \
+        : (qemu_build_not_reached_always(), 0))                    \
+     :  (target_long)dup_const(VECE, C))
+#endif
+
 /*
  * Memory helpers that will be used by TCG generated code.
  */
-- 
2.25.1

We are already inconsistent about whether or not
MO_SIGN is set in trace_mem_get_info.  Dropping it
entirely allows some simplification.

Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 accel/tcg/cputlb.c    | 10 +++-------
 accel/tcg/user-exec.c | 45 ++++++-------------------------------------
 2 files changed, 9 insertions(+), 46 deletions(-)

diff --git a/accel/tcg/cputlb.c b/accel/tcg/cputlb.c
index XXXXXXX..XXXXXXX 100644
--- a/accel/tcg/cputlb.c
+++ b/accel/tcg/cputlb.c
@@ -XXX,XX +XXX,XX @@ static inline uint64_t cpu_load_helper(CPUArchState *env, abi_ptr addr,
     meminfo = trace_mem_get_info(op, mmu_idx, false);
     trace_guest_mem_before_exec(env_cpu(env), addr, meminfo);
 
-    op &= ~MO_SIGN;
     oi = make_memop_idx(op, mmu_idx);
     ret = full_load(env, addr, oi, retaddr);
 
@@ -XXX,XX +XXX,XX @@ uint32_t cpu_ldub_mmuidx_ra(CPUArchState *env, abi_ptr addr,
 int cpu_ldsb_mmuidx_ra(CPUArchState *env, abi_ptr addr,
                        int mmu_idx, uintptr_t ra)
 {
-    return (int8_t)cpu_load_helper(env, addr, mmu_idx, ra, MO_SB,
-                                   full_ldub_mmu);
+    return (int8_t)cpu_ldub_mmuidx_ra(env, addr, mmu_idx, ra);
 }
 
 uint32_t cpu_lduw_be_mmuidx_ra(CPUArchState *env, abi_ptr addr,
@@ -XXX,XX +XXX,XX @@ uint32_t cpu_lduw_be_mmuidx_ra(CPUArchState *env, abi_ptr addr,
 int cpu_ldsw_be_mmuidx_ra(CPUArchState *env, abi_ptr addr,
                           int mmu_idx, uintptr_t ra)
 {
-    return (int16_t)cpu_load_helper(env, addr, mmu_idx, ra, MO_BESW,
-                                    full_be_lduw_mmu);
+    return (int16_t)cpu_lduw_be_mmuidx_ra(env, addr, mmu_idx, ra);
 }
 
 uint32_t cpu_ldl_be_mmuidx_ra(CPUArchState *env, abi_ptr addr,
@@ -XXX,XX +XXX,XX @@ uint32_t cpu_lduw_le_mmuidx_ra(CPUArchState *env, abi_ptr addr,
 int cpu_ldsw_le_mmuidx_ra(CPUArchState *env, abi_ptr addr,
                           int mmu_idx, uintptr_t ra)
 {
-    return (int16_t)cpu_load_helper(env, addr, mmu_idx, ra, MO_LESW,
-                                    full_le_lduw_mmu);
+    return (int16_t)cpu_lduw_le_mmuidx_ra(env, addr, mmu_idx, ra);
 }
 
 uint32_t cpu_ldl_le_mmuidx_ra(CPUArchState *env, abi_ptr addr,
diff --git a/accel/tcg/user-exec.c b/accel/tcg/user-exec.c
index XXXXXXX..XXXXXXX 100644
--- a/accel/tcg/user-exec.c
+++ b/accel/tcg/user-exec.c
@@ -XXX,XX +XXX,XX @@ uint32_t cpu_ldub_data(CPUArchState *env, abi_ptr ptr)
 
 int cpu_ldsb_data(CPUArchState *env, abi_ptr ptr)
 {
-    int ret;
-    uint16_t meminfo = trace_mem_get_info(MO_SB, MMU_USER_IDX, false);
-
-    trace_guest_mem_before_exec(env_cpu(env), ptr, meminfo);
-    ret = ldsb_p(g2h(env_cpu(env), ptr));
-    qemu_plugin_vcpu_mem_cb(env_cpu(env), ptr, meminfo);
-    return ret;
+    return (int8_t)cpu_ldub_data(env, ptr);
 }
 
 uint32_t cpu_lduw_be_data(CPUArchState *env, abi_ptr ptr)
@@ -XXX,XX +XXX,XX @@ uint32_t cpu_lduw_be_data(CPUArchState *env, abi_ptr ptr)
 
 int cpu_ldsw_be_data(CPUArchState *env, abi_ptr ptr)
 {
-    int ret;
-    uint16_t meminfo = trace_mem_get_info(MO_BESW, MMU_USER_IDX, false);
-
-    trace_guest_mem_before_exec(env_cpu(env), ptr, meminfo);
-    ret = ldsw_be_p(g2h(env_cpu(env), ptr));
-    qemu_plugin_vcpu_mem_cb(env_cpu(env), ptr, meminfo);
-    return ret;
+    return (int16_t)cpu_lduw_be_data(env, ptr);
 }
 
 uint32_t cpu_ldl_be_data(CPUArchState *env, abi_ptr ptr)
@@ -XXX,XX +XXX,XX @@ uint32_t cpu_lduw_le_data(CPUArchState *env, abi_ptr ptr)
 
 int cpu_ldsw_le_data(CPUArchState *env, abi_ptr ptr)
 {
-    int ret;
-    uint16_t meminfo = trace_mem_get_info(MO_LESW, MMU_USER_IDX, false);
-
-    trace_guest_mem_before_exec(env_cpu(env), ptr, meminfo);
-    ret = ldsw_le_p(g2h(env_cpu(env), ptr));
-    qemu_plugin_vcpu_mem_cb(env_cpu(env), ptr, meminfo);
-    return ret;
+    return (int16_t)cpu_lduw_le_data(env, ptr);
 }
 
 uint32_t cpu_ldl_le_data(CPUArchState *env, abi_ptr ptr)
@@ -XXX,XX +XXX,XX @@ uint32_t cpu_ldub_data_ra(CPUArchState *env, abi_ptr ptr, uintptr_t retaddr)
 
 int cpu_ldsb_data_ra(CPUArchState *env, abi_ptr ptr, uintptr_t retaddr)
 {
-    int ret;
-
-    set_helper_retaddr(retaddr);
-    ret = cpu_ldsb_data(env, ptr);
-    clear_helper_retaddr();
-    return ret;
+    return (int8_t)cpu_ldub_data_ra(env, ptr, retaddr);
 }
 
 uint32_t cpu_lduw_be_data_ra(CPUArchState *env, abi_ptr ptr, uintptr_t retaddr)
@@ -XXX,XX +XXX,XX @@ uint32_t cpu_lduw_be_data_ra(CPUArchState *env, abi_ptr ptr, uintptr_t retaddr)
 
 int cpu_ldsw_be_data_ra(CPUArchState *env, abi_ptr ptr, uintptr_t retaddr)
 {
-    int ret;
-
-    set_helper_retaddr(retaddr);
-    ret = cpu_ldsw_be_data(env, ptr);
-    clear_helper_retaddr();
-    return ret;
+    return (int16_t)cpu_lduw_be_data_ra(env, ptr, retaddr);
 }
 
 uint32_t cpu_ldl_be_data_ra(CPUArchState *env, abi_ptr ptr, uintptr_t retaddr)
@@ -XXX,XX +XXX,XX @@ uint32_t cpu_lduw_le_data_ra(CPUArchState *env, abi_ptr ptr, uintptr_t retaddr)
 
 int cpu_ldsw_le_data_ra(CPUArchState *env, abi_ptr ptr, uintptr_t retaddr)
 {
-    int ret;
-
-    set_helper_retaddr(retaddr);
-    ret = cpu_ldsw_le_data(env, ptr);
-    clear_helper_retaddr();
-    return ret;
+    return (int16_t)cpu_lduw_le_data_ra(env, ptr, retaddr);
 }
 
 uint32_t cpu_ldl_le_data_ra(CPUArchState *env, abi_ptr ptr, uintptr_t retaddr)
-- 
2.25.1

We have lacked expressive support for memory sizes larger
than 64-bits for a while.  Fixing that requires adjustment
to several points where we used this for array indexing,
and two places that develop -Wswitch warnings after the change.

Reviewed-by: Alistair Francis <alistair.francis@wdc.com>
Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 include/exec/memop.h                | 14 +++++++++-----
 target/arm/translate-a64.c          |  2 +-
 tcg/tcg-op.c                        | 13 ++++++++-----
 target/s390x/tcg/translate_vx.c.inc |  2 +-
 tcg/aarch64/tcg-target.c.inc        |  4 ++--
 tcg/arm/tcg-target.c.inc            |  4 ++--
 tcg/i386/tcg-target.c.inc           |  4 ++--
 tcg/mips/tcg-target.c.inc           |  4 ++--
 tcg/ppc/tcg-target.c.inc            |  8 ++++----
 tcg/riscv/tcg-target.c.inc          |  4 ++--
 tcg/s390/tcg-target.c.inc           |  4 ++--
 tcg/sparc/tcg-target.c.inc          | 16 ++++++++--------
 12 files changed, 43 insertions(+), 36 deletions(-)

diff --git a/include/exec/memop.h b/include/exec/memop.h
index XXXXXXX..XXXXXXX 100644
--- a/include/exec/memop.h
+++ b/include/exec/memop.h
@@ -XXX,XX +XXX,XX @@ typedef enum MemOp {
     MO_16    = 1,
     MO_32    = 2,
     MO_64    = 3,
-    MO_SIZE  = 3,   /* Mask for the above.  */
+    MO_128   = 4,
+    MO_256   = 5,
+    MO_512   = 6,
+    MO_1024  = 7,
+    MO_SIZE  = 0x07,   /* Mask for the above.  */
 
-    MO_SIGN  = 4,   /* Sign-extended, otherwise zero-extended.  */
+    MO_SIGN  = 0x08,   /* Sign-extended, otherwise zero-extended.  */
 
-    MO_BSWAP = 8,   /* Host reverse endian.  */
+    MO_BSWAP = 0x10,   /* Host reverse endian.  */
 #ifdef HOST_WORDS_BIGENDIAN
     MO_LE    = MO_BSWAP,
     MO_BE    = 0,
@@ -XXX,XX +XXX,XX @@ typedef enum MemOp {
      * - an alignment to a specified size, which may be more or less than
      *   the access size (MO_ALIGN_x where 'x' is a size in bytes);
      */
-    MO_ASHIFT = 4,
-    MO_AMASK = 7 << MO_ASHIFT,
+    MO_ASHIFT = 5,
+    MO_AMASK = 0x7 << MO_ASHIFT,
 #ifdef NEED_CPU_H
 #ifdef TARGET_ALIGNED_ONLY
     MO_ALIGN = 0,
diff --git a/target/arm/translate-a64.c b/target/arm/translate-a64.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate-a64.c
+++ b/target/arm/translate-a64.c
@@ -XXX,XX +XXX,XX @@ static void read_vec_element(DisasContext *s, TCGv_i64 tcg_dest, int srcidx,
                              int element, MemOp memop)
 {
     int vect_off = vec_reg_offset(s, srcidx, element, memop & MO_SIZE);
-    switch (memop) {
+    switch ((unsigned)memop) {
     case MO_8:
         tcg_gen_ld8u_i64(tcg_dest, cpu_env, vect_off);
         break;
diff --git a/tcg/tcg-op.c b/tcg/tcg-op.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/tcg-op.c
+++ b/tcg/tcg-op.c
@@ -XXX,XX +XXX,XX @@ static inline MemOp tcg_canonicalize_memop(MemOp op, bool is64, bool st)
         }
         break;
     case MO_64:
-        if (!is64) {
-            tcg_abort();
+        if (is64) {
+            op &= ~MO_SIGN;
+            break;
         }
-        break;
+        /* fall through */
+    default:
+        g_assert_not_reached();
     }
     if (st) {
         op &= ~MO_SIGN;
@@ -XXX,XX +XXX,XX @@ typedef void (*gen_atomic_op_i64)(TCGv_i64, TCGv_env, TCGv,
 # define WITH_ATOMIC64(X)
 #endif
 
-static void * const table_cmpxchg[16] = {
+static void * const table_cmpxchg[(MO_SIZE | MO_BSWAP) + 1] = {
     [MO_8] = gen_helper_atomic_cmpxchgb,
     [MO_16 | MO_LE] = gen_helper_atomic_cmpxchgw_le,
     [MO_16 | MO_BE] = gen_helper_atomic_cmpxchgw_be,
@@ -XXX,XX +XXX,XX @@ static void do_atomic_op_i64(TCGv_i64 ret, TCGv addr, TCGv_i64 val,
 }
 
 #define GEN_ATOMIC_HELPER(NAME, OP, NEW)                                \
-static void * const table_##NAME[16] = {                                \
+static void * const table_##NAME[(MO_SIZE | MO_BSWAP) + 1] = {          \
     [MO_8] = gen_helper_atomic_##NAME##b,                               \
     [MO_16 | MO_LE] = gen_helper_atomic_##NAME##w_le,                   \
     [MO_16 | MO_BE] = gen_helper_atomic_##NAME##w_be,                   \
diff --git a/target/s390x/tcg/translate_vx.c.inc b/target/s390x/tcg/translate_vx.c.inc
index XXXXXXX..XXXXXXX 100644
--- a/target/s390x/tcg/translate_vx.c.inc
+++ b/target/s390x/tcg/translate_vx.c.inc
@@ -XXX,XX +XXX,XX @@ static void read_vec_element_i64(TCGv_i64 dst, uint8_t reg, uint8_t enr,
 {
     const int offs = vec_reg_offset(reg, enr, memop & MO_SIZE);
 
-    switch (memop) {
+    switch ((unsigned)memop) {
     case ES_8:
         tcg_gen_ld8u_i64(dst, cpu_env, offs);
         break;
diff --git a/tcg/aarch64/tcg-target.c.inc b/tcg/aarch64/tcg-target.c.inc
index XXXXXXX..XXXXXXX 100644
--- a/tcg/aarch64/tcg-target.c.inc
+++ b/tcg/aarch64/tcg-target.c.inc
@@ -XXX,XX +XXX,XX @@ static void tcg_out_cltz(TCGContext *s, TCGType ext, TCGReg d,
 /* helper signature: helper_ret_ld_mmu(CPUState *env, target_ulong addr,
  *                                     TCGMemOpIdx oi, uintptr_t ra)
  */
-static void * const qemu_ld_helpers[4] = {
+static void * const qemu_ld_helpers[MO_SIZE + 1] = {
     [MO_8]  = helper_ret_ldub_mmu,
 #ifdef HOST_WORDS_BIGENDIAN
     [MO_16] = helper_be_lduw_mmu,
@@ -XXX,XX +XXX,XX @@ static void * const qemu_ld_helpers[4] = {
  *                                     uintxx_t val, TCGMemOpIdx oi,
  *                                     uintptr_t ra)
  */
-static void * const qemu_st_helpers[4] = {
+static void * const qemu_st_helpers[MO_SIZE + 1] = {
     [MO_8]  = helper_ret_stb_mmu,
 #ifdef HOST_WORDS_BIGENDIAN
     [MO_16] = helper_be_stw_mmu,
diff --git a/tcg/arm/tcg-target.c.inc b/tcg/arm/tcg-target.c.inc
index XXXXXXX..XXXXXXX 100644
--- a/tcg/arm/tcg-target.c.inc
+++ b/tcg/arm/tcg-target.c.inc
@@ -XXX,XX +XXX,XX @@ static void tcg_out_vldst(TCGContext *s, ARMInsn insn,
 /* helper signature: helper_ret_ld_mmu(CPUState *env, target_ulong addr,
  *                                     int mmu_idx, uintptr_t ra)
  */
-static void * const qemu_ld_helpers[8] = {
+static void * const qemu_ld_helpers[MO_SSIZE + 1] = {
     [MO_UB]   = helper_ret_ldub_mmu,
     [MO_SB]   = helper_ret_ldsb_mmu,
 #ifdef HOST_WORDS_BIGENDIAN
@@ -XXX,XX +XXX,XX @@ static void * const qemu_ld_helpers[8] = {
 /* helper signature: helper_ret_st_mmu(CPUState *env, target_ulong addr,
  *                                     uintxx_t val, int mmu_idx, uintptr_t ra)
  */
-static void * const qemu_st_helpers[4] = {
+static void * const qemu_st_helpers[MO_SIZE + 1] = {
     [MO_8]   = helper_ret_stb_mmu,
 #ifdef HOST_WORDS_BIGENDIAN
     [MO_16] = helper_be_stw_mmu,
diff --git a/tcg/i386/tcg-target.c.inc b/tcg/i386/tcg-target.c.inc
index XXXXXXX..XXXXXXX 100644
--- a/tcg/i386/tcg-target.c.inc
+++ b/tcg/i386/tcg-target.c.inc
@@ -XXX,XX +XXX,XX @@ static void tcg_out_nopn(TCGContext *s, int n)
 /* helper signature: helper_ret_ld_mmu(CPUState *env, target_ulong addr,
  *                                     int mmu_idx, uintptr_t ra)
  */
-static void * const qemu_ld_helpers[16] = {
+static void * const qemu_ld_helpers[(MO_SIZE | MO_BSWAP) + 1] = {
     [MO_UB]   = helper_ret_ldub_mmu,
     [MO_LEUW] = helper_le_lduw_mmu,
     [MO_LEUL] = helper_le_ldul_mmu,
@@ -XXX,XX +XXX,XX @@ static void * const qemu_ld_helpers[16] = {
 /* helper signature: helper_ret_st_mmu(CPUState *env, target_ulong addr,
  *                                     uintxx_t val, int mmu_idx, uintptr_t ra)
  */
-static void * const qemu_st_helpers[16] = {
+static void * const qemu_st_helpers[(MO_SIZE | MO_BSWAP) + 1] = {
     [MO_UB]   = helper_ret_stb_mmu,
     [MO_LEUW] = helper_le_stw_mmu,
     [MO_LEUL] = helper_le_stl_mmu,
diff --git a/tcg/mips/tcg-target.c.inc b/tcg/mips/tcg-target.c.inc
index XXXXXXX..XXXXXXX 100644
--- a/tcg/mips/tcg-target.c.inc
+++ b/tcg/mips/tcg-target.c.inc
@@ -XXX,XX +XXX,XX @@ static void tcg_out_call(TCGContext *s, const tcg_insn_unit *arg)
 #if defined(CONFIG_SOFTMMU)
 #include "../tcg-ldst.c.inc"
 
-static void * const qemu_ld_helpers[16] = {
+static void * const qemu_ld_helpers[(MO_SSIZE | MO_BSWAP) + 1] = {
     [MO_UB]   = helper_ret_ldub_mmu,
     [MO_SB]   = helper_ret_ldsb_mmu,
     [MO_LEUW] = helper_le_lduw_mmu,
@@ -XXX,XX +XXX,XX @@ static void * const qemu_ld_helpers[16] = {
 #endif
 };
 
-static void * const qemu_st_helpers[16] = {
+static void * const qemu_st_helpers[(MO_SIZE | MO_BSWAP) + 1] = {
     [MO_UB]   = helper_ret_stb_mmu,
     [MO_LEUW] = helper_le_stw_mmu,
     [MO_LEUL] = helper_le_stl_mmu,
diff --git a/tcg/ppc/tcg-target.c.inc b/tcg/ppc/tcg-target.c.inc
index XXXXXXX..XXXXXXX 100644
--- a/tcg/ppc/tcg-target.c.inc
+++ b/tcg/ppc/tcg-target.c.inc
@@ -XXX,XX +XXX,XX @@ static void tcg_out_call(TCGContext *s, const tcg_insn_unit *target)
 #endif
 }
 
-static const uint32_t qemu_ldx_opc[16] = {
+static const uint32_t qemu_ldx_opc[(MO_SSIZE + MO_BSWAP) + 1] = {
     [MO_UB] = LBZX,
     [MO_UW] = LHZX,
     [MO_UL] = LWZX,
@@ -XXX,XX +XXX,XX @@ static const uint32_t qemu_ldx_opc[16] = {
     [MO_BSWAP | MO_Q]  = LDBRX,
 };
 
-static const uint32_t qemu_stx_opc[16] = {
+static const uint32_t qemu_stx_opc[(MO_SIZE + MO_BSWAP) + 1] = {
     [MO_UB] = STBX,
     [MO_UW] = STHX,
     [MO_UL] = STWX,
@@ -XXX,XX +XXX,XX @@ static const uint32_t qemu_exts_opc[4] = {
 /* helper signature: helper_ld_mmu(CPUState *env, target_ulong addr,
  *                                 int mmu_idx, uintptr_t ra)
  */
-static void * const qemu_ld_helpers[16] = {
+static void * const qemu_ld_helpers[(MO_SIZE | MO_BSWAP) + 1] = {
     [MO_UB]   = helper_ret_ldub_mmu,
     [MO_LEUW] = helper_le_lduw_mmu,
     [MO_LEUL] = helper_le_ldul_mmu,
@@ -XXX,XX +XXX,XX @@ static void * const qemu_ld_helpers[16] = {
 /* helper signature: helper_st_mmu(CPUState *env, target_ulong addr,
  *                                 uintxx_t val, int mmu_idx, uintptr_t ra)
  */
-static void * const qemu_st_helpers[16] = {
+static void * const qemu_st_helpers[(MO_SIZE | MO_BSWAP) + 1] = {
     [MO_UB]   = helper_ret_stb_mmu,
     [MO_LEUW] = helper_le_stw_mmu,
     [MO_LEUL] = helper_le_stl_mmu,
diff --git a/tcg/riscv/tcg-target.c.inc b/tcg/riscv/tcg-target.c.inc
index XXXXXXX..XXXXXXX 100644
--- a/tcg/riscv/tcg-target.c.inc
+++ b/tcg/riscv/tcg-target.c.inc
@@ -XXX,XX +XXX,XX @@ static void tcg_out_mb(TCGContext *s, TCGArg a0)
 /* helper signature: helper_ret_ld_mmu(CPUState *env, target_ulong addr,
  *                                     TCGMemOpIdx oi, uintptr_t ra)
  */
-static void * const qemu_ld_helpers[8] = {
+static void * const qemu_ld_helpers[MO_SSIZE + 1] = {
     [MO_UB] = helper_ret_ldub_mmu,
     [MO_SB] = helper_ret_ldsb_mmu,
 #ifdef HOST_WORDS_BIGENDIAN
@@ -XXX,XX +XXX,XX @@ static void * const qemu_ld_helpers[8] = {
  *                                     uintxx_t val, TCGMemOpIdx oi,
  *                                     uintptr_t ra)
  */
-static void * const qemu_st_helpers[4] = {
+static void * const qemu_st_helpers[MO_SIZE + 1] = {
     [MO_8]   = helper_ret_stb_mmu,
 #ifdef HOST_WORDS_BIGENDIAN
     [MO_16] = helper_be_stw_mmu,
diff --git a/tcg/s390/tcg-target.c.inc b/tcg/s390/tcg-target.c.inc
index XXXXXXX..XXXXXXX 100644
--- a/tcg/s390/tcg-target.c.inc
+++ b/tcg/s390/tcg-target.c.inc
@@ -XXX,XX +XXX,XX @@ static const uint8_t tcg_cond_to_ltr_cond[] = {
 };
 
 #ifdef CONFIG_SOFTMMU
-static void * const qemu_ld_helpers[16] = {
+static void * const qemu_ld_helpers[(MO_SSIZE | MO_BSWAP) + 1] = {
     [MO_UB]   = helper_ret_ldub_mmu,
     [MO_SB]   = helper_ret_ldsb_mmu,
     [MO_LEUW] = helper_le_lduw_mmu,
@@ -XXX,XX +XXX,XX @@ static void * const qemu_ld_helpers[16] = {
     [MO_BEQ]  = helper_be_ldq_mmu,
 };
 
-static void * const qemu_st_helpers[16] = {
+static void * const qemu_st_helpers[(MO_SIZE | MO_BSWAP) + 1] = {
     [MO_UB]   = helper_ret_stb_mmu,
     [MO_LEUW] = helper_le_stw_mmu,
     [MO_LEUL] = helper_le_stl_mmu,
diff --git a/tcg/sparc/tcg-target.c.inc b/tcg/sparc/tcg-target.c.inc
index XXXXXXX..XXXXXXX 100644
--- a/tcg/sparc/tcg-target.c.inc
+++ b/tcg/sparc/tcg-target.c.inc
@@ -XXX,XX +XXX,XX @@ static void tcg_out_mb(TCGContext *s, TCGArg a0)
 }
 
 #ifdef CONFIG_SOFTMMU
-static const tcg_insn_unit *qemu_ld_trampoline[16];
-static const tcg_insn_unit *qemu_st_trampoline[16];
+static const tcg_insn_unit *qemu_ld_trampoline[(MO_SSIZE | MO_BSWAP) + 1];
+static const tcg_insn_unit *qemu_st_trampoline[(MO_SIZE | MO_BSWAP) + 1];
 
 static void emit_extend(TCGContext *s, TCGReg r, int op)
 {
@@ -XXX,XX +XXX,XX @@ static void emit_extend(TCGContext *s, TCGReg r, int op)
 
 static void build_trampolines(TCGContext *s)
 {
-    static void * const qemu_ld_helpers[16] = {
+    static void * const qemu_ld_helpers[] = {
         [MO_UB]   = helper_ret_ldub_mmu,
         [MO_SB]   = helper_ret_ldsb_mmu,
         [MO_LEUW] = helper_le_lduw_mmu,
@@ -XXX,XX +XXX,XX @@ static void build_trampolines(TCGContext *s)
         [MO_BEUL] = helper_be_ldul_mmu,
         [MO_BEQ]  = helper_be_ldq_mmu,
     };
-    static void * const qemu_st_helpers[16] = {
+    static void * const qemu_st_helpers[] = {
         [MO_UB]   = helper_ret_stb_mmu,
         [MO_LEUW] = helper_le_stw_mmu,
         [MO_LEUL] = helper_le_stl_mmu,
@@ -XXX,XX +XXX,XX @@ static void build_trampolines(TCGContext *s)
     int i;
     TCGReg ra;
 
-    for (i = 0; i < 16; ++i) {
+    for (i = 0; i < ARRAY_SIZE(qemu_ld_helpers); ++i) {
         if (qemu_ld_helpers[i] == NULL) {
             continue;
         }
@@ -XXX,XX +XXX,XX @@ static void build_trampolines(TCGContext *s)
         tcg_out_mov(s, TCG_TYPE_PTR, TCG_REG_O7, ra);
     }
 
-    for (i = 0; i < 16; ++i) {
+    for (i = 0; i < ARRAY_SIZE(qemu_st_helpers); ++i) {
         if (qemu_st_helpers[i] == NULL) {
             continue;
         }
@@ -XXX,XX +XXX,XX @@ static TCGReg tcg_out_tlb_load(TCGContext *s, TCGReg addr, int mem_index,
 }
 #endif /* CONFIG_SOFTMMU */
 
-static const int qemu_ld_opc[16] = {
+static const int qemu_ld_opc[(MO_SSIZE | MO_BSWAP) + 1] = {
     [MO_UB]   = LDUB,
     [MO_SB]   = LDSB,
 
@@ -XXX,XX +XXX,XX @@ static const int qemu_ld_opc[16] = {
     [MO_LEQ]  = LDX_LE,
 };
 
-static const int qemu_st_opc[16] = {
+static const int qemu_st_opc[(MO_SIZE | MO_BSWAP) + 1] = {
     [MO_UB]   = STB,
 
     [MO_BEUW] = STH,
-- 
2.25.1

We're about to move this out of tcg.h, so rename it
as we did when moving MemOp.

Reviewed-by: Alistair Francis <alistair.francis@wdc.com>
Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 accel/tcg/atomic_template.h   | 24 +++++------
 include/tcg/tcg.h             | 74 ++++++++++++++++-----------------
 accel/tcg/cputlb.c            | 78 +++++++++++++++++------------------
 accel/tcg/user-exec.c         |  2 +-
 target/arm/helper-a64.c       | 16 +++----
 target/arm/m_helper.c         |  2 +-
 target/i386/tcg/mem_helper.c  |  4 +-
 target/m68k/op_helper.c       |  2 +-
 target/mips/tcg/msa_helper.c  |  6 +--
 target/s390x/tcg/mem_helper.c | 20 ++++-----
 target/sparc/ldst_helper.c    |  2 +-
 tcg/optimize.c                |  2 +-
 tcg/tcg-op.c                  | 12 +++---
 tcg/tcg.c                     |  2 +-
 tcg/tci.c                     | 14 +++----
 accel/tcg/atomic_common.c.inc |  6 +--
 tcg/aarch64/tcg-target.c.inc  | 14 +++----
 tcg/arm/tcg-target.c.inc      | 10 ++---
 tcg/i386/tcg-target.c.inc     | 10 ++---
 tcg/mips/tcg-target.c.inc     | 12 +++---
 tcg/ppc/tcg-target.c.inc      | 10 ++---
 tcg/riscv/tcg-target.c.inc    | 16 +++----
 tcg/s390/tcg-target.c.inc     | 10 ++---
 tcg/sparc/tcg-target.c.inc    |  4 +-
 tcg/tcg-ldst.c.inc            |  2 +-
 25 files changed, 177 insertions(+), 177 deletions(-)

diff --git a/accel/tcg/atomic_template.h b/accel/tcg/atomic_template.h
index XXXXXXX..XXXXXXX 100644
--- a/accel/tcg/atomic_template.h
+++ b/accel/tcg/atomic_template.h
@@ -XXX,XX +XXX,XX @@
 
 ABI_TYPE ATOMIC_NAME(cmpxchg)(CPUArchState *env, target_ulong addr,
                               ABI_TYPE cmpv, ABI_TYPE newv,
-                              TCGMemOpIdx oi, uintptr_t retaddr)
+                              MemOpIdx oi, uintptr_t retaddr)
 {
     DATA_TYPE *haddr = atomic_mmu_lookup(env, addr, oi, DATA_SIZE,
                                          PAGE_READ | PAGE_WRITE, retaddr);
@@ -XXX,XX +XXX,XX @@ ABI_TYPE ATOMIC_NAME(cmpxchg)(CPUArchState *env, target_ulong addr,
 #if DATA_SIZE >= 16
 #if HAVE_ATOMIC128
 ABI_TYPE ATOMIC_NAME(ld)(CPUArchState *env, target_ulong addr,
-                         TCGMemOpIdx oi, uintptr_t retaddr)
+                         MemOpIdx oi, uintptr_t retaddr)
 {
     DATA_TYPE *haddr = atomic_mmu_lookup(env, addr, oi, DATA_SIZE,
                                          PAGE_READ, retaddr);
@@ -XXX,XX +XXX,XX @@ ABI_TYPE ATOMIC_NAME(ld)(CPUArchState *env, target_ulong addr,
 }
 
 void ATOMIC_NAME(st)(CPUArchState *env, target_ulong addr, ABI_TYPE val,
-                     TCGMemOpIdx oi, uintptr_t retaddr)
+                     MemOpIdx oi, uintptr_t retaddr)
 {
     DATA_TYPE *haddr = atomic_mmu_lookup(env, addr, oi, DATA_SIZE,
                                          PAGE_WRITE, retaddr);
@@ -XXX,XX +XXX,XX @@ void ATOMIC_NAME(st)(CPUArchState *env, target_ulong addr, ABI_TYPE val,
 #endif
 #else
 ABI_TYPE ATOMIC_NAME(xchg)(CPUArchState *env, target_ulong addr, ABI_TYPE val,
-                           TCGMemOpIdx oi, uintptr_t retaddr)
+                           MemOpIdx oi, uintptr_t retaddr)
 {
     DATA_TYPE *haddr = atomic_mmu_lookup(env, addr, oi, DATA_SIZE,
                                          PAGE_READ | PAGE_WRITE, retaddr);
@@ -XXX,XX +XXX,XX @@ ABI_TYPE ATOMIC_NAME(xchg)(CPUArchState *env, target_ulong addr, ABI_TYPE val,
 
 #define GEN_ATOMIC_HELPER(X)                                        \
 ABI_TYPE ATOMIC_NAME(X)(CPUArchState *env, target_ulong addr,       \
-                        ABI_TYPE val, TCGMemOpIdx oi, uintptr_t retaddr) \
+                        ABI_TYPE val, MemOpIdx oi, uintptr_t retaddr) \
 {                                                                   \
     DATA_TYPE *haddr = atomic_mmu_lookup(env, addr, oi, DATA_SIZE,  \
                                          PAGE_READ | PAGE_WRITE, retaddr); \
@@ -XXX,XX +XXX,XX @@ GEN_ATOMIC_HELPER(xor_fetch)
  */
 #define GEN_ATOMIC_HELPER_FN(X, FN, XDATA_TYPE, RET)                \
 ABI_TYPE ATOMIC_NAME(X)(CPUArchState *env, target_ulong addr,       \
-                        ABI_TYPE xval, TCGMemOpIdx oi, uintptr_t retaddr) \
+                        ABI_TYPE xval, MemOpIdx oi, uintptr_t retaddr) \
 {                                                                   \
     XDATA_TYPE *haddr = atomic_mmu_lookup(env, addr, oi, DATA_SIZE, \
                                           PAGE_READ | PAGE_WRITE, retaddr); \
@@ -XXX,XX +XXX,XX @@ GEN_ATOMIC_HELPER_FN(umax_fetch, MAX,  DATA_TYPE, new)
 
 ABI_TYPE ATOMIC_NAME(cmpxchg)(CPUArchState *env, target_ulong addr,
                               ABI_TYPE cmpv, ABI_TYPE newv,
-                              TCGMemOpIdx oi, uintptr_t retaddr)
+                              MemOpIdx oi, uintptr_t retaddr)
 {
     DATA_TYPE *haddr = atomic_mmu_lookup(env, addr, oi, DATA_SIZE,
                                          PAGE_READ | PAGE_WRITE, retaddr);
@@ -XXX,XX +XXX,XX @@ ABI_TYPE ATOMIC_NAME(cmpxchg)(CPUArchState *env, target_ulong addr,
 #if DATA_SIZE >= 16
 #if HAVE_ATOMIC128
 ABI_TYPE ATOMIC_NAME(ld)(CPUArchState *env, target_ulong addr,
-                         TCGMemOpIdx oi, uintptr_t retaddr)
+                         MemOpIdx oi, uintptr_t retaddr)
 {
     DATA_TYPE *haddr = atomic_mmu_lookup(env, addr, oi, DATA_SIZE,
                                          PAGE_READ, retaddr);
@@ -XXX,XX +XXX,XX @@ ABI_TYPE ATOMIC_NAME(ld)(CPUArchState *env, target_ulong addr,
 }
 
 void ATOMIC_NAME(st)(CPUArchState *env, target_ulong addr, ABI_TYPE val,
-                     TCGMemOpIdx oi, uintptr_t retaddr)
+                     MemOpIdx oi, uintptr_t retaddr)
 {
     DATA_TYPE *haddr = atomic_mmu_lookup(env, addr, oi, DATA_SIZE,
                                          PAGE_WRITE, retaddr);
@@ -XXX,XX +XXX,XX @@ void ATOMIC_NAME(st)(CPUArchState *env, target_ulong addr, ABI_TYPE val,
 #endif
 #else
 ABI_TYPE ATOMIC_NAME(xchg)(CPUArchState *env, target_ulong addr, ABI_TYPE val,
-                           TCGMemOpIdx oi, uintptr_t retaddr)
+                           MemOpIdx oi, uintptr_t retaddr)
 {
     DATA_TYPE *haddr = atomic_mmu_lookup(env, addr, oi, DATA_SIZE,
                                          PAGE_READ | PAGE_WRITE, retaddr);
@@ -XXX,XX +XXX,XX @@ ABI_TYPE ATOMIC_NAME(xchg)(CPUArchState *env, target_ulong addr, ABI_TYPE val,
 
 #define GEN_ATOMIC_HELPER(X)                                        \
 ABI_TYPE ATOMIC_NAME(X)(CPUArchState *env, target_ulong addr,       \
-                        ABI_TYPE val, TCGMemOpIdx oi, uintptr_t retaddr) \
+                        ABI_TYPE val, MemOpIdx oi, uintptr_t retaddr) \
 {                                                                   \
     DATA_TYPE *haddr = atomic_mmu_lookup(env, addr, oi, DATA_SIZE,  \
                                          PAGE_READ | PAGE_WRITE, retaddr); \
@@ -XXX,XX +XXX,XX @@ GEN_ATOMIC_HELPER(xor_fetch)
  */
 #define GEN_ATOMIC_HELPER_FN(X, FN, XDATA_TYPE, RET)                \
 ABI_TYPE ATOMIC_NAME(X)(CPUArchState *env, target_ulong addr,       \
-                        ABI_TYPE xval, TCGMemOpIdx oi, uintptr_t retaddr) \
+                        ABI_TYPE xval, MemOpIdx oi, uintptr_t retaddr) \
 {                                                                   \
     XDATA_TYPE *haddr = atomic_mmu_lookup(env, addr, oi, DATA_SIZE, \
                                           PAGE_READ | PAGE_WRITE, retaddr); \
diff --git a/include/tcg/tcg.h b/include/tcg/tcg.h
index XXXXXXX..XXXXXXX 100644
--- a/include/tcg/tcg.h
+++ b/include/tcg/tcg.h
@@ -XXX,XX +XXX,XX @@ static inline size_t tcg_current_code_size(TCGContext *s)
 }
 
 /* Combine the MemOp and mmu_idx parameters into a single value.  */
-typedef uint32_t TCGMemOpIdx;
+typedef uint32_t MemOpIdx;
 
 /**
  * make_memop_idx
@@ -XXX,XX +XXX,XX @@ typedef uint32_t TCGMemOpIdx;
  *
  * Encode these values into a single parameter.
  */
-static inline TCGMemOpIdx make_memop_idx(MemOp op, unsigned idx)
+static inline MemOpIdx make_memop_idx(MemOp op, unsigned idx)
 {
     tcg_debug_assert(idx <= 15);
     return (op << 4) | idx;
@@ -XXX,XX +XXX,XX @@ static inline TCGMemOpIdx make_memop_idx(MemOp op, unsigned idx)
  *
  * Extract the memory operation from the combined value.
  */
-static inline MemOp get_memop(TCGMemOpIdx oi)
+static inline MemOp get_memop(MemOpIdx oi)
 {
     return oi >> 4;
 }
@@ -XXX,XX +XXX,XX @@ static inline MemOp get_memop(TCGMemOpIdx oi)
  *
  * Extract the mmu index from the combined value.
  */
-static inline unsigned get_mmuidx(TCGMemOpIdx oi)
+static inline unsigned get_mmuidx(MemOpIdx oi)
 {
     return oi & 15;
 }
@@ -XXX,XX +XXX,XX @@ uint64_t dup_const(unsigned vece, uint64_t c);
 #ifdef CONFIG_SOFTMMU
 /* Value zero-extended to tcg register size.  */
 tcg_target_ulong helper_ret_ldub_mmu(CPUArchState *env, target_ulong addr,
-                                     TCGMemOpIdx oi, uintptr_t retaddr);
+                                     MemOpIdx oi, uintptr_t retaddr);
 tcg_target_ulong helper_le_lduw_mmu(CPUArchState *env, target_ulong addr,
-                                    TCGMemOpIdx oi, uintptr_t retaddr);
+                                    MemOpIdx oi, uintptr_t retaddr);
 tcg_target_ulong helper_le_ldul_mmu(CPUArchState *env, target_ulong addr,
-                                    TCGMemOpIdx oi, uintptr_t retaddr);
+                                    MemOpIdx oi, uintptr_t retaddr);
 uint64_t helper_le_ldq_mmu(CPUArchState *env, target_ulong addr,
-                           TCGMemOpIdx oi, uintptr_t retaddr);
+                           MemOpIdx oi, uintptr_t retaddr);
 tcg_target_ulong helper_be_lduw_mmu(CPUArchState *env, target_ulong addr,
-                                    TCGMemOpIdx oi, uintptr_t retaddr);
+                                    MemOpIdx oi, uintptr_t retaddr);
 tcg_target_ulong helper_be_ldul_mmu(CPUArchState *env, target_ulong addr,
-                                    TCGMemOpIdx oi, uintptr_t retaddr);
+                                    MemOpIdx oi, uintptr_t retaddr);
 uint64_t helper_be_ldq_mmu(CPUArchState *env, target_ulong addr,
-                           TCGMemOpIdx oi, uintptr_t retaddr);
+                           MemOpIdx oi, uintptr_t retaddr);
 
 /* Value sign-extended to tcg register size.  */
 tcg_target_ulong helper_ret_ldsb_mmu(CPUArchState *env, target_ulong addr,
-                                     TCGMemOpIdx oi, uintptr_t retaddr);
+                                     MemOpIdx oi, uintptr_t retaddr);
 tcg_target_ulong helper_le_ldsw_mmu(CPUArchState *env, target_ulong addr,
-                                    TCGMemOpIdx oi, uintptr_t retaddr);
+                                    MemOpIdx oi, uintptr_t retaddr);
 tcg_target_ulong helper_le_ldsl_mmu(CPUArchState *env, target_ulong addr,
-                                    TCGMemOpIdx oi, uintptr_t retaddr);
+                                    MemOpIdx oi, uintptr_t retaddr);
 tcg_target_ulong helper_be_ldsw_mmu(CPUArchState *env, target_ulong addr,
-                                    TCGMemOpIdx oi, uintptr_t retaddr);
+                                    MemOpIdx oi, uintptr_t retaddr);
 tcg_target_ulong helper_be_ldsl_mmu(CPUArchState *env, target_ulong addr,
-                                    TCGMemOpIdx oi, uintptr_t retaddr);
+                                    MemOpIdx oi, uintptr_t retaddr);
 
 void helper_ret_stb_mmu(CPUArchState *env, target_ulong addr, uint8_t val,
-                        TCGMemOpIdx oi, uintptr_t retaddr);
+                        MemOpIdx oi, uintptr_t retaddr);
 void helper_le_stw_mmu(CPUArchState *env, target_ulong addr, uint16_t val,
-                       TCGMemOpIdx oi, uintptr_t retaddr);
+                       MemOpIdx oi, uintptr_t retaddr);
 void helper_le_stl_mmu(CPUArchState *env, target_ulong addr, uint32_t val,
-                       TCGMemOpIdx oi, uintptr_t retaddr);
+                       MemOpIdx oi, uintptr_t retaddr);
 void helper_le_stq_mmu(CPUArchState *env, target_ulong addr, uint64_t val,
-                       TCGMemOpIdx oi, uintptr_t retaddr);
+                       MemOpIdx oi, uintptr_t retaddr);
 void helper_be_stw_mmu(CPUArchState *env, target_ulong addr, uint16_t val,
-                       TCGMemOpIdx oi, uintptr_t retaddr);
+                       MemOpIdx oi, uintptr_t retaddr);
 void helper_be_stl_mmu(CPUArchState *env, target_ulong addr, uint32_t val,
-                       TCGMemOpIdx oi, uintptr_t retaddr);
+                       MemOpIdx oi, uintptr_t retaddr);
 void helper_be_stq_mmu(CPUArchState *env, target_ulong addr, uint64_t val,
-                       TCGMemOpIdx oi, uintptr_t retaddr);
+                       MemOpIdx oi, uintptr_t retaddr);
 
 /* Temporary aliases until backends are converted.  */
 #ifdef TARGET_WORDS_BIGENDIAN
@@ -XXX,XX +XXX,XX @@ void helper_be_stq_mmu(CPUArchState *env, target_ulong addr, uint64_t val,
 
 uint32_t cpu_atomic_cmpxchgb_mmu(CPUArchState *env, target_ulong addr,
                                  uint32_t cmpv, uint32_t newv,
-                                 TCGMemOpIdx oi, uintptr_t retaddr);
+                                 MemOpIdx oi, uintptr_t retaddr);
 uint32_t cpu_atomic_cmpxchgw_le_mmu(CPUArchState *env, target_ulong addr,
                                     uint32_t cmpv, uint32_t newv,
-                                    TCGMemOpIdx oi, uintptr_t retaddr);
+                                    MemOpIdx oi, uintptr_t retaddr);
 uint32_t cpu_atomic_cmpxchgl_le_mmu(CPUArchState *env, target_ulong addr,
                                     uint32_t cmpv, uint32_t newv,
-                                    TCGMemOpIdx oi, uintptr_t retaddr);
+                                    MemOpIdx oi, uintptr_t retaddr);
 uint64_t cpu_atomic_cmpxchgq_le_mmu(CPUArchState *env, target_ulong addr,
                                     uint64_t cmpv, uint64_t newv,
-                                    TCGMemOpIdx oi, uintptr_t retaddr);
+                                    MemOpIdx oi, uintptr_t retaddr);
 uint32_t cpu_atomic_cmpxchgw_be_mmu(CPUArchState *env, target_ulong addr,
                                     uint32_t cmpv, uint32_t newv,
-                                    TCGMemOpIdx oi, uintptr_t retaddr);
+                                    MemOpIdx oi, uintptr_t retaddr);
 uint32_t cpu_atomic_cmpxchgl_be_mmu(CPUArchState *env, target_ulong addr,
                                     uint32_t cmpv, uint32_t newv,
-                                    TCGMemOpIdx oi, uintptr_t retaddr);
+                                    MemOpIdx oi, uintptr_t retaddr);
 uint64_t cpu_atomic_cmpxchgq_be_mmu(CPUArchState *env, target_ulong addr,
                                     uint64_t cmpv, uint64_t newv,
-                                    TCGMemOpIdx oi, uintptr_t retaddr);
+                                    MemOpIdx oi, uintptr_t retaddr);
 
 #define GEN_ATOMIC_HELPER(NAME, TYPE, SUFFIX)         \
 TYPE cpu_atomic_ ## NAME ## SUFFIX ## _mmu            \
     (CPUArchState *env, target_ulong addr, TYPE val,  \
-     TCGMemOpIdx oi, uintptr_t retaddr);
+     MemOpIdx oi, uintptr_t retaddr);
 
 #ifdef CONFIG_ATOMIC64
 #define GEN_ATOMIC_HELPER_ALL(NAME)          \
@@ -XXX,XX +XXX,XX @@ GEN_ATOMIC_HELPER_ALL(xchg)
 
 Int128 cpu_atomic_cmpxchgo_le_mmu(CPUArchState *env, target_ulong addr,
                                   Int128 cmpv, Int128 newv,
-                                  TCGMemOpIdx oi, uintptr_t retaddr);
+                                  MemOpIdx oi, uintptr_t retaddr);
 Int128 cpu_atomic_cmpxchgo_be_mmu(CPUArchState *env, target_ulong addr,
                                   Int128 cmpv, Int128 newv,
-                                  TCGMemOpIdx oi, uintptr_t retaddr);
+                                  MemOpIdx oi, uintptr_t retaddr);
 
 Int128 cpu_atomic_ldo_le_mmu(CPUArchState *env, target_ulong addr,
-                             TCGMemOpIdx oi, uintptr_t retaddr);
+                             MemOpIdx oi, uintptr_t retaddr);
 Int128 cpu_atomic_ldo_be_mmu(CPUArchState *env, target_ulong addr,
-                             TCGMemOpIdx oi, uintptr_t retaddr);
+                             MemOpIdx oi, uintptr_t retaddr);
 void cpu_atomic_sto_le_mmu(CPUArchState *env, target_ulong addr, Int128 val,
-                           TCGMemOpIdx oi, uintptr_t retaddr);
+                           MemOpIdx oi, uintptr_t retaddr);
 void cpu_atomic_sto_be_mmu(CPUArchState *env, target_ulong addr, Int128 val,
-                           TCGMemOpIdx oi, uintptr_t retaddr);
+                           MemOpIdx oi, uintptr_t retaddr);
 
 #ifdef CONFIG_DEBUG_TCG
 void tcg_assert_listed_vecop(TCGOpcode);
diff --git a/accel/tcg/cputlb.c b/accel/tcg/cputlb.c
index XXXXXXX..XXXXXXX 100644
--- a/accel/tcg/cputlb.c
+++ b/accel/tcg/cputlb.c
@@ -XXX,XX +XXX,XX @@ bool tlb_plugin_lookup(CPUState *cpu, target_ulong addr, int mmu_idx,
  * @prot may be PAGE_READ, PAGE_WRITE, or PAGE_READ|PAGE_WRITE.
  */
 static void *atomic_mmu_lookup(CPUArchState *env, target_ulong addr,
-                               TCGMemOpIdx oi, int size, int prot,
+                               MemOpIdx oi, int size, int prot,
                                uintptr_t retaddr)
 {
     size_t mmu_idx = get_mmuidx(oi);
@@ -XXX,XX +XXX,XX @@ static void *atomic_mmu_lookup(CPUArchState *env, target_ulong addr,
  */
 
 typedef uint64_t FullLoadHelper(CPUArchState *env, target_ulong addr,
-                                TCGMemOpIdx oi, uintptr_t retaddr);
+                                MemOpIdx oi, uintptr_t retaddr);
 
 static inline uint64_t QEMU_ALWAYS_INLINE
 load_memop(const void *haddr, MemOp op)
@@ -XXX,XX +XXX,XX @@ load_memop(const void *haddr, MemOp op)
 }
 
 static inline uint64_t QEMU_ALWAYS_INLINE
-load_helper(CPUArchState *env, target_ulong addr, TCGMemOpIdx oi,
+load_helper(CPUArchState *env, target_ulong addr, MemOpIdx oi,
             uintptr_t retaddr, MemOp op, bool code_read,
             FullLoadHelper *full_load)
 {
@@ -XXX,XX +XXX,XX @@ load_helper(CPUArchState *env, target_ulong addr, TCGMemOpIdx oi,
  */
 
 static uint64_t full_ldub_mmu(CPUArchState *env, target_ulong addr,
-                              TCGMemOpIdx oi, uintptr_t retaddr)
+                              MemOpIdx oi, uintptr_t retaddr)
 {
     return load_helper(env, addr, oi, retaddr, MO_UB, false, full_ldub_mmu);
 }
 
 tcg_target_ulong helper_ret_ldub_mmu(CPUArchState *env, target_ulong addr,
-                                     TCGMemOpIdx oi, uintptr_t retaddr)
+                                     MemOpIdx oi, uintptr_t retaddr)
 {
     return full_ldub_mmu(env, addr, oi, retaddr);
 }
 
 static uint64_t full_le_lduw_mmu(CPUArchState *env, target_ulong addr,
-                                 TCGMemOpIdx oi, uintptr_t retaddr)
+                                 MemOpIdx oi, uintptr_t retaddr)
 {
     return load_helper(env, addr, oi, retaddr, MO_LEUW, false,
                        full_le_lduw_mmu);
 }
 
 tcg_target_ulong helper_le_lduw_mmu(CPUArchState *env, target_ulong addr,
-                                    TCGMemOpIdx oi, uintptr_t retaddr)
+                                    MemOpIdx oi, uintptr_t retaddr)
 {
     return full_le_lduw_mmu(env, addr, oi, retaddr);
 }
 
 static uint64_t full_be_lduw_mmu(CPUArchState *env, target_ulong addr,
-                                 TCGMemOpIdx oi, uintptr_t retaddr)
+                                 MemOpIdx oi, uintptr_t retaddr)
 {
     return load_helper(env, addr, oi, retaddr, MO_BEUW, false,
                        full_be_lduw_mmu);
 }
 
 tcg_target_ulong helper_be_lduw_mmu(CPUArchState *env, target_ulong addr,
-                                    TCGMemOpIdx oi, uintptr_t retaddr)
+                                    MemOpIdx oi, uintptr_t retaddr)
 {
     return full_be_lduw_mmu(env, addr, oi, retaddr);
 }
 
 static uint64_t full_le_ldul_mmu(CPUArchState *env, target_ulong addr,
-                                 TCGMemOpIdx oi, uintptr_t retaddr)
+                                 MemOpIdx oi, uintptr_t retaddr)
 {
     return load_helper(env, addr, oi, retaddr, MO_LEUL, false,
                        full_le_ldul_mmu);
 }
 
 tcg_target_ulong helper_le_ldul_mmu(CPUArchState *env, target_ulong addr,
-                                    TCGMemOpIdx oi, uintptr_t retaddr)
+                                    MemOpIdx oi, uintptr_t retaddr)
 {
     return full_le_ldul_mmu(env, addr, oi, retaddr);
 }
 
 static uint64_t full_be_ldul_mmu(CPUArchState *env, target_ulong addr,
-                                 TCGMemOpIdx oi, uintptr_t retaddr)
+                                 MemOpIdx oi, uintptr_t retaddr)
 {
     return load_helper(env, addr, oi, retaddr, MO_BEUL, false,
                        full_be_ldul_mmu);
 }
 
 tcg_target_ulong helper_be_ldul_mmu(CPUArchState *env, target_ulong addr,
-                                    TCGMemOpIdx oi, uintptr_t retaddr)
+                                    MemOpIdx oi, uintptr_t retaddr)
 {
     return full_be_ldul_mmu(env, addr, oi, retaddr);
 }
 
 uint64_t helper_le_ldq_mmu(CPUArchState *env, target_ulong addr,
-                           TCGMemOpIdx oi, uintptr_t retaddr)
+                           MemOpIdx oi, uintptr_t retaddr)
 {
     return load_helper(env, addr, oi, retaddr, MO_LEQ, false,
                        helper_le_ldq_mmu);
 }
 
 uint64_t helper_be_ldq_mmu(CPUArchState *env, target_ulong addr,
-                           TCGMemOpIdx oi, uintptr_t retaddr)
+                           MemOpIdx oi, uintptr_t retaddr)
 {
     return load_helper(env, addr, oi, retaddr, MO_BEQ, false,
                        helper_be_ldq_mmu);
@@ -XXX,XX +XXX,XX @@ uint64_t helper_be_ldq_mmu(CPUArchState *env, target_ulong addr,
 
 
 tcg_target_ulong helper_ret_ldsb_mmu(CPUArchState *env, target_ulong addr,
-                                     TCGMemOpIdx oi, uintptr_t retaddr)
+                                     MemOpIdx oi, uintptr_t retaddr)
 {
     return (int8_t)helper_ret_ldub_mmu(env, addr, oi, retaddr);
 }
 
 tcg_target_ulong helper_le_ldsw_mmu(CPUArchState *env, target_ulong addr,
-                                    TCGMemOpIdx oi, uintptr_t retaddr)
+                                    MemOpIdx oi, uintptr_t retaddr)
 {
     return (int16_t)helper_le_lduw_mmu(env, addr, oi, retaddr);
 }
 
 tcg_target_ulong helper_be_ldsw_mmu(CPUArchState *env, target_ulong addr,
-                                    TCGMemOpIdx oi, uintptr_t retaddr)
+                                    MemOpIdx oi, uintptr_t retaddr)
 {
     return (int16_t)helper_be_lduw_mmu(env, addr, oi, retaddr);
 }
 
 tcg_target_ulong helper_le_ldsl_mmu(CPUArchState *env, target_ulong addr,
-                                    TCGMemOpIdx oi, uintptr_t retaddr)
+                                    MemOpIdx oi, uintptr_t retaddr)
 {
     return (int32_t)helper_le_ldul_mmu(env, addr, oi, retaddr);
 }
 
 tcg_target_ulong helper_be_ldsl_mmu(CPUArchState *env, target_ulong addr,
-                                    TCGMemOpIdx oi, uintptr_t retaddr)
+                                    MemOpIdx oi, uintptr_t retaddr)
 {
     return (int32_t)helper_be_ldul_mmu(env, addr, oi, retaddr);
 }
@@ -XXX,XX +XXX,XX @@ static inline uint64_t cpu_load_helper(CPUArchState *env, abi_ptr addr,
                                        MemOp op, FullLoadHelper *full_load)
 {
     uint16_t meminfo;
-    TCGMemOpIdx oi;
+    MemOpIdx oi;
     uint64_t ret;
 
     meminfo = trace_mem_get_info(op, mmu_idx, false);
@@ -XXX,XX +XXX,XX @@ store_helper_unaligned(CPUArchState *env, target_ulong addr, uint64_t val,
     uintptr_t index, index2;
     CPUTLBEntry *entry, *entry2;
     target_ulong page2, tlb_addr, tlb_addr2;
-    TCGMemOpIdx oi;
+    MemOpIdx oi;
     size_t size2;
     int i;
 
@@ -XXX,XX +XXX,XX @@ store_helper_unaligned(CPUArchState *env, target_ulong addr, uint64_t val,
 
 static inline void QEMU_ALWAYS_INLINE
 store_helper(CPUArchState *env, target_ulong addr, uint64_t val,
-             TCGMemOpIdx oi, uintptr_t retaddr, MemOp op)
+             MemOpIdx oi, uintptr_t retaddr, MemOp op)
 {
     uintptr_t mmu_idx = get_mmuidx(oi);
     uintptr_t index = tlb_index(env, mmu_idx, addr);
@@ -XXX,XX +XXX,XX @@ store_helper(CPUArchState *env, target_ulong addr, uint64_t val,
 
 void __attribute__((noinline))
 helper_ret_stb_mmu(CPUArchState *env, target_ulong addr, uint8_t val,
-                   TCGMemOpIdx oi, uintptr_t retaddr)
+                   MemOpIdx oi, uintptr_t retaddr)
 {
     store_helper(env, addr, val, oi, retaddr, MO_UB);
 }
 
 void helper_le_stw_mmu(CPUArchState *env, target_ulong addr, uint16_t val,
-                       TCGMemOpIdx oi, uintptr_t retaddr)
+                       MemOpIdx oi, uintptr_t retaddr)
 {
     store_helper(env, addr, val, oi, retaddr, MO_LEUW);
 }
 
 void helper_be_stw_mmu(CPUArchState *env, target_ulong addr, uint16_t val,
-                       TCGMemOpIdx oi, uintptr_t retaddr)
+                       MemOpIdx oi, uintptr_t retaddr)
 {
     store_helper(env, addr, val, oi, retaddr, MO_BEUW);
 }
 
 void helper_le_stl_mmu(CPUArchState *env, target_ulong addr, uint32_t val,
-                       TCGMemOpIdx oi, uintptr_t retaddr)
+                       MemOpIdx oi, uintptr_t retaddr)
 {
     store_helper(env, addr, val, oi, retaddr, MO_LEUL);
 }
 
 void helper_be_stl_mmu(CPUArchState *env, target_ulong addr, uint32_t val,
-                       TCGMemOpIdx oi, uintptr_t retaddr)
+                       MemOpIdx oi, uintptr_t retaddr)
 {
     store_helper(env, addr, val, oi, retaddr, MO_BEUL);
 }
 
 void helper_le_stq_mmu(CPUArchState *env, target_ulong addr, uint64_t val,
-                       TCGMemOpIdx oi, uintptr_t retaddr)
+                       MemOpIdx oi, uintptr_t retaddr)
 {
     store_helper(env, addr, val, oi, retaddr, MO_LEQ);
 }
 
 void helper_be_stq_mmu(CPUArchState *env, target_ulong addr, uint64_t val,
-                       TCGMemOpIdx oi, uintptr_t retaddr)
+                       MemOpIdx oi, uintptr_t retaddr)
 {
     store_helper(env, addr, val, oi, retaddr, MO_BEQ);
 }
@@ -XXX,XX +XXX,XX @@ static inline void QEMU_ALWAYS_INLINE
 cpu_store_helper(CPUArchState *env, target_ulong addr, uint64_t val,
                  int mmu_idx, uintptr_t retaddr, MemOp op)
 {
-    TCGMemOpIdx oi;
+    MemOpIdx oi;
     uint16_t meminfo;
 
     meminfo = trace_mem_get_info(op, mmu_idx, true);
@@ -XXX,XX +XXX,XX @@ void cpu_stq_le_data(CPUArchState *env, target_ulong ptr, uint64_t val)
 /* Code access functions.  */
 
 static uint64_t full_ldub_code(CPUArchState *env, target_ulong addr,
-                               TCGMemOpIdx oi, uintptr_t retaddr)
+                               MemOpIdx oi, uintptr_t retaddr)
 {
     return load_helper(env, addr, oi, retaddr, MO_8, true, full_ldub_code);
 }
 
 uint32_t cpu_ldub_code(CPUArchState *env, abi_ptr addr)
 {
-    TCGMemOpIdx oi = make_memop_idx(MO_UB, cpu_mmu_index(env, true));
+    MemOpIdx oi = make_memop_idx(MO_UB, cpu_mmu_index(env, true));
     return full_ldub_code(env, addr, oi, 0);
 }
 
 static uint64_t full_lduw_code(CPUArchState *env, target_ulong addr,
-                               TCGMemOpIdx oi, uintptr_t retaddr)
+                               MemOpIdx oi, uintptr_t retaddr)
 {
     return load_helper(env, addr, oi, retaddr, MO_TEUW, true, full_lduw_code);
 }
 
 uint32_t cpu_lduw_code(CPUArchState *env, abi_ptr addr)
 {
-    TCGMemOpIdx oi = make_memop_idx(MO_TEUW, cpu_mmu_index(env, true));
+    MemOpIdx oi = make_memop_idx(MO_TEUW, cpu_mmu_index(env, true));
     return full_lduw_code(env, addr, oi, 0);
 }
 
 static uint64_t full_ldl_code(CPUArchState *env, target_ulong addr,
-                              TCGMemOpIdx oi, uintptr_t retaddr)
+                              MemOpIdx oi, uintptr_t retaddr)
 {
     return load_helper(env, addr, oi, retaddr, MO_TEUL, true, full_ldl_code);
 }
 
 uint32_t cpu_ldl_code(CPUArchState *env, abi_ptr addr)
 {
-    TCGMemOpIdx oi = make_memop_idx(MO_TEUL, cpu_mmu_index(env, true));
+    MemOpIdx oi = make_memop_idx(MO_TEUL, cpu_mmu_index(env, true));
     return full_ldl_code(env, addr, oi, 0);
 }
 
 static uint64_t full_ldq_code(CPUArchState *env, target_ulong addr,
-                              TCGMemOpIdx oi, uintptr_t retaddr)
+                              MemOpIdx oi, uintptr_t retaddr)
 {
     return load_helper(env, addr, oi, retaddr, MO_TEQ, true, full_ldq_code);
 }
 
 uint64_t cpu_ldq_code(CPUArchState *env, abi_ptr addr)
 {
-    TCGMemOpIdx oi = make_memop_idx(MO_TEQ, cpu_mmu_index(env, true));
+    MemOpIdx oi = make_memop_idx(MO_TEQ, cpu_mmu_index(env, true));
     return full_ldq_code(env, addr, oi, 0);
 }
diff --git a/accel/tcg/user-exec.c b/accel/tcg/user-exec.c
index XXXXXXX..XXXXXXX 100644
--- a/accel/tcg/user-exec.c
+++ b/accel/tcg/user-exec.c
@@ -XXX,XX +XXX,XX @@ uint64_t cpu_ldq_code(CPUArchState *env, abi_ptr ptr)
  * @prot may be PAGE_READ, PAGE_WRITE, or PAGE_READ|PAGE_WRITE.
  */
 static void *atomic_mmu_lookup(CPUArchState *env, target_ulong addr,
-                               TCGMemOpIdx oi, int size, int prot,
+                               MemOpIdx oi, int size, int prot,
                                uintptr_t retaddr)
 {
     /* Enforce qemu required alignment.  */
diff --git a/target/arm/helper-a64.c b/target/arm/helper-a64.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/helper-a64.c
+++ b/target/arm/helper-a64.c
@@ -XXX,XX +XXX,XX @@ uint64_t HELPER(paired_cmpxchg64_le)(CPUARMState *env, uint64_t addr,
     clear_helper_retaddr();
 #else
     int mem_idx = cpu_mmu_index(env, false);
-    TCGMemOpIdx oi0 = make_memop_idx(MO_LEQ | MO_ALIGN_16, mem_idx);
-    TCGMemOpIdx oi1 = make_memop_idx(MO_LEQ, mem_idx);
+    MemOpIdx oi0 = make_memop_idx(MO_LEQ | MO_ALIGN_16, mem_idx);
+    MemOpIdx oi1 = make_memop_idx(MO_LEQ, mem_idx);
 
     o0 = helper_le_ldq_mmu(env, addr + 0, oi0, ra);
     o1 = helper_le_ldq_mmu(env, addr + 8, oi1, ra);
@@ -XXX,XX +XXX,XX @@ uint64_t HELPER(paired_cmpxchg64_le_parallel)(CPUARMState *env, uint64_t addr,
     uintptr_t ra = GETPC();
     bool success;
     int mem_idx;
-    TCGMemOpIdx oi;
+    MemOpIdx oi;
 
     assert(HAVE_CMPXCHG128);
 
@@ -XXX,XX +XXX,XX @@ uint64_t HELPER(paired_cmpxchg64_be)(CPUARMState *env, uint64_t addr,
     clear_helper_retaddr();
 #else
     int mem_idx = cpu_mmu_index(env, false);
-    TCGMemOpIdx oi0 = make_memop_idx(MO_BEQ | MO_ALIGN_16, mem_idx);
-    TCGMemOpIdx oi1 = make_memop_idx(MO_BEQ, mem_idx);
+    MemOpIdx oi0 = make_memop_idx(MO_BEQ | MO_ALIGN_16, mem_idx);
+    MemOpIdx oi1 = make_memop_idx(MO_BEQ, mem_idx);
 
     o1 = helper_be_ldq_mmu(env, addr + 0, oi0, ra);
     o0 = helper_be_ldq_mmu(env, addr + 8, oi1, ra);
@@ -XXX,XX +XXX,XX @@ uint64_t HELPER(paired_cmpxchg64_be_parallel)(CPUARMState *env, uint64_t addr,
     uintptr_t ra = GETPC();
     bool success;
     int mem_idx;
-    TCGMemOpIdx oi;
+    MemOpIdx oi;
 
     assert(HAVE_CMPXCHG128);
 
@@ -XXX,XX +XXX,XX @@ void HELPER(casp_le_parallel)(CPUARMState *env, uint32_t rs, uint64_t addr,
     Int128 oldv, cmpv, newv;
     uintptr_t ra = GETPC();
     int mem_idx;
-    TCGMemOpIdx oi;
+    MemOpIdx oi;
 
     assert(HAVE_CMPXCHG128);
 
@@ -XXX,XX +XXX,XX @@ void HELPER(casp_be_parallel)(CPUARMState *env, uint32_t rs, uint64_t addr,
     Int128 oldv, cmpv, newv;
     uintptr_t ra = GETPC();
     int mem_idx;
-    TCGMemOpIdx oi;
+    MemOpIdx oi;
 
     assert(HAVE_CMPXCHG128);
 
diff --git a/target/arm/m_helper.c b/target/arm/m_helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/m_helper.c
+++ b/target/arm/m_helper.c
@@ -XXX,XX +XXX,XX @@ static bool do_v7m_function_return(ARMCPU *cpu)
 
     {
         bool threadmode, spsel;
-        TCGMemOpIdx oi;
+        MemOpIdx oi;
         ARMMMUIdx mmu_idx;
         uint32_t *frame_sp_p;
         uint32_t frameptr;
diff --git a/target/i386/tcg/mem_helper.c b/target/i386/tcg/mem_helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/i386/tcg/mem_helper.c
+++ b/target/i386/tcg/mem_helper.c
@@ -XXX,XX +XXX,XX @@ void helper_cmpxchg8b(CPUX86State *env, target_ulong a0)
     {
         uintptr_t ra = GETPC();
         int mem_idx = cpu_mmu_index(env, false);
-        TCGMemOpIdx oi = make_memop_idx(MO_TEQ, mem_idx);
+        MemOpIdx oi = make_memop_idx(MO_TEQ, mem_idx);
         oldv = cpu_atomic_cmpxchgq_le_mmu(env, a0, cmpv, newv, oi, ra);
     }
 
@@ -XXX,XX +XXX,XX @@ void helper_cmpxchg16b(CPUX86State *env, target_ulong a0)
         Int128 newv = int128_make128(env->regs[R_EBX], env->regs[R_ECX]);
 
         int mem_idx = cpu_mmu_index(env, false);
-        TCGMemOpIdx oi = make_memop_idx(MO_TEQ | MO_ALIGN_16, mem_idx);
+        MemOpIdx oi = make_memop_idx(MO_TEQ | MO_ALIGN_16, mem_idx);
         Int128 oldv = cpu_atomic_cmpxchgo_le_mmu(env, a0, cmpv, newv, oi, ra);
 
         if (int128_eq(oldv, cmpv)) {
diff --git a/target/m68k/op_helper.c b/target/m68k/op_helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/m68k/op_helper.c
+++ b/target/m68k/op_helper.c
@@ -XXX,XX +XXX,XX @@ static void do_cas2l(CPUM68KState *env, uint32_t regs, uint32_t a1, uint32_t a2,
     uintptr_t ra = GETPC();
 #if defined(CONFIG_ATOMIC64)
     int mmu_idx = cpu_mmu_index(env, 0);
-    TCGMemOpIdx oi = make_memop_idx(MO_BEQ, mmu_idx);
+    MemOpIdx oi = make_memop_idx(MO_BEQ, mmu_idx);
 #endif
 
     if (parallel) {
diff --git a/target/mips/tcg/msa_helper.c b/target/mips/tcg/msa_helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/mips/tcg/msa_helper.c
+++ b/target/mips/tcg/msa_helper.c
@@ -XXX,XX +XXX,XX @@ void helper_msa_ffint_u_df(CPUMIPSState *env, uint32_t df, uint32_t wd,
 #define DF_ELEMENTS(df) (MSA_WRLEN / DF_BITS(df))
 
 #if !defined(CONFIG_USER_ONLY)
-#define MEMOP_IDX(DF)                                           \
-        TCGMemOpIdx oi = make_memop_idx(MO_TE | DF | MO_UNALN,  \
-                                        cpu_mmu_index(env, false));
+#define MEMOP_IDX(DF)                                                   \
+    MemOpIdx oi = make_memop_idx(MO_TE | DF | MO_UNALN,                 \
+                                 cpu_mmu_index(env, false));
 #else
 #define MEMOP_IDX(DF)
 #endif
diff --git a/target/s390x/tcg/mem_helper.c b/target/s390x/tcg/mem_helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/s390x/tcg/mem_helper.c
+++ b/target/s390x/tcg/mem_helper.c
@@ -XXX,XX +XXX,XX @@ static void do_access_memset(CPUS390XState *env, vaddr vaddr, char *haddr,
     g_assert(haddr);
     memset(haddr, byte, size);
 #else
-    TCGMemOpIdx oi = make_memop_idx(MO_UB, mmu_idx);
+    MemOpIdx oi = make_memop_idx(MO_UB, mmu_idx);
     int i;
 
     if (likely(haddr)) {
@@ -XXX,XX +XXX,XX @@ static uint8_t do_access_get_byte(CPUS390XState *env, vaddr vaddr, char **haddr,
 #ifdef CONFIG_USER_ONLY
     return ldub_p(*haddr + offset);
 #else
-    TCGMemOpIdx oi = make_memop_idx(MO_UB, mmu_idx);
+    MemOpIdx oi = make_memop_idx(MO_UB, mmu_idx);
     uint8_t byte;
 
     if (likely(*haddr)) {
@@ -XXX,XX +XXX,XX @@ static void do_access_set_byte(CPUS390XState *env, vaddr vaddr, char **haddr,
 #ifdef CONFIG_USER_ONLY
     stb_p(*haddr + offset, byte);
 #else
-    TCGMemOpIdx oi = make_memop_idx(MO_UB, mmu_idx);
+    MemOpIdx oi = make_memop_idx(MO_UB, mmu_idx);
 
     if (likely(*haddr)) {
         stb_p(*haddr + offset, byte);
@@ -XXX,XX +XXX,XX @@ void HELPER(cdsg_parallel)(CPUS390XState *env, uint64_t addr,
     Int128 cmpv = int128_make128(env->regs[r1 + 1], env->regs[r1]);
     Int128 newv = int128_make128(env->regs[r3 + 1], env->regs[r3]);
     int mem_idx;
-    TCGMemOpIdx oi;
+    MemOpIdx oi;
     Int128 oldv;
     bool fail;
 
@@ -XXX,XX +XXX,XX @@ static uint32_t do_csst(CPUS390XState *env, uint32_t r3, uint64_t a1,
                 uint32_t *haddr = g2h(env_cpu(env), a1);
                 ov = qatomic_cmpxchg__nocheck(haddr, cv, nv);
 #else
-                TCGMemOpIdx oi = make_memop_idx(MO_TEUL | MO_ALIGN, mem_idx);
+                MemOpIdx oi = make_memop_idx(MO_TEUL | MO_ALIGN, mem_idx);
                 ov = cpu_atomic_cmpxchgl_be_mmu(env, a1, cv, nv, oi, ra);
 #endif
             } else {
@@ -XXX,XX +XXX,XX @@ static uint32_t do_csst(CPUS390XState *env, uint32_t r3, uint64_t a1,
 
             if (parallel) {
 #ifdef CONFIG_ATOMIC64
-                TCGMemOpIdx oi = make_memop_idx(MO_TEQ | MO_ALIGN, mem_idx);
+                MemOpIdx oi = make_memop_idx(MO_TEQ | MO_ALIGN, mem_idx);
                 ov = cpu_atomic_cmpxchgq_be_mmu(env, a1, cv, nv, oi, ra);
 #else
                 /* Note that we asserted !parallel above.  */
@@ -XXX,XX +XXX,XX @@ static uint32_t do_csst(CPUS390XState *env, uint32_t r3, uint64_t a1,
                 cpu_stq_data_ra(env, a1 + 0, int128_gethi(nv), ra);
                 cpu_stq_data_ra(env, a1 + 8, int128_getlo(nv), ra);
             } else if (HAVE_CMPXCHG128) {
-                TCGMemOpIdx oi = make_memop_idx(MO_TEQ | MO_ALIGN_16, mem_idx);
+                MemOpIdx oi = make_memop_idx(MO_TEQ | MO_ALIGN_16, mem_idx);
                 ov = cpu_atomic_cmpxchgo_be_mmu(env, a1, cv, nv, oi, ra);
                 cc = !int128_eq(ov, cv);
             } else {
@@ -XXX,XX +XXX,XX @@ static uint32_t do_csst(CPUS390XState *env, uint32_t r3, uint64_t a1,
                 cpu_stq_data_ra(env, a2 + 0, svh, ra);
                 cpu_stq_data_ra(env, a2 + 8, svl, ra);
             } else if (HAVE_ATOMIC128) {
-                TCGMemOpIdx oi = make_memop_idx(MO_TEQ | MO_ALIGN_16, mem_idx);
+                MemOpIdx oi = make_memop_idx(MO_TEQ | MO_ALIGN_16, mem_idx);
                 Int128 sv = int128_make128(svl, svh);
                 cpu_atomic_sto_be_mmu(env, a2, sv, oi, ra);
             } else {
@@ -XXX,XX +XXX,XX @@ uint64_t HELPER(lpq_parallel)(CPUS390XState *env, uint64_t addr)
     uintptr_t ra = GETPC();
     uint64_t hi, lo;
     int mem_idx;
-    TCGMemOpIdx oi;
+    MemOpIdx oi;
     Int128 v;
 
     assert(HAVE_ATOMIC128);
@@ -XXX,XX +XXX,XX @@ void HELPER(stpq_parallel)(CPUS390XState *env, uint64_t addr,
 {
     uintptr_t ra = GETPC();
     int mem_idx;
-    TCGMemOpIdx oi;
+    MemOpIdx oi;
     Int128 v;
 
     assert(HAVE_ATOMIC128);
diff --git a/target/sparc/ldst_helper.c b/target/sparc/ldst_helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/sparc/ldst_helper.c
+++ b/target/sparc/ldst_helper.c
@@ -XXX,XX +XXX,XX @@ uint64_t helper_ld_asi(CPUSPARCState *env, target_ulong addr,
     case ASI_SNF:
     case ASI_SNFL:
         {
-            TCGMemOpIdx oi;
+            MemOpIdx oi;
             int idx = (env->pstate & PS_PRIV
                        ? (asi & 1 ? MMU_KERNEL_SECONDARY_IDX : MMU_KERNEL_IDX)
                        : (asi & 1 ? MMU_USER_SECONDARY_IDX : MMU_USER_IDX));
diff --git a/tcg/optimize.c b/tcg/optimize.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/optimize.c
+++ b/tcg/optimize.c
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
 
         CASE_OP_32_64(qemu_ld):
             {
-                TCGMemOpIdx oi = op->args[nb_oargs + nb_iargs];
+                MemOpIdx oi = op->args[nb_oargs + nb_iargs];
                 MemOp mop = get_memop(oi);
                 if (!(mop & MO_SIGN)) {
                     mask = (2ULL << ((8 << (mop & MO_SIZE)) - 1)) - 1;
diff --git a/tcg/tcg-op.c b/tcg/tcg-op.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/tcg-op.c
+++ b/tcg/tcg-op.c
@@ -XXX,XX +XXX,XX @@ static inline MemOp tcg_canonicalize_memop(MemOp op, bool is64, bool st)
 static void gen_ldst_i32(TCGOpcode opc, TCGv_i32 val, TCGv addr,
                          MemOp memop, TCGArg idx)
 {
-    TCGMemOpIdx oi = make_memop_idx(memop, idx);
+    MemOpIdx oi = make_memop_idx(memop, idx);
 #if TARGET_LONG_BITS == 32
     tcg_gen_op3i_i32(opc, val, addr, oi);
 #else
@@ -XXX,XX +XXX,XX @@ static void gen_ldst_i32(TCGOpcode opc, TCGv_i32 val, TCGv addr,
 static void gen_ldst_i64(TCGOpcode opc, TCGv_i64 val, TCGv addr,
                          MemOp memop, TCGArg idx)
 {
-    TCGMemOpIdx oi = make_memop_idx(memop, idx);
+    MemOpIdx oi = make_memop_idx(memop, idx);
 #if TARGET_LONG_BITS == 32
     if (TCG_TARGET_REG_BITS == 32) {
         tcg_gen_op4i_i32(opc, TCGV_LOW(val), TCGV_HIGH(val), addr, oi);
@@ -XXX,XX +XXX,XX @@ void tcg_gen_atomic_cmpxchg_i32(TCGv_i32 retv, TCGv addr, TCGv_i32 cmpv,
         tcg_temp_free_i32(t1);
     } else {
         gen_atomic_cx_i32 gen;
-        TCGMemOpIdx oi;
+        MemOpIdx oi;
 
         gen = table_cmpxchg[memop & (MO_SIZE | MO_BSWAP)];
         tcg_debug_assert(gen != NULL);
@@ -XXX,XX +XXX,XX @@ void tcg_gen_atomic_cmpxchg_i64(TCGv_i64 retv, TCGv addr, TCGv_i64 cmpv,
     } else if ((memop & MO_SIZE) == MO_64) {
 #ifdef CONFIG_ATOMIC64
         gen_atomic_cx_i64 gen;
-        TCGMemOpIdx oi;
+        MemOpIdx oi;
 
         gen = table_cmpxchg[memop & (MO_SIZE | MO_BSWAP)];
         tcg_debug_assert(gen != NULL);
@@ -XXX,XX +XXX,XX @@ static void do_atomic_op_i32(TCGv_i32 ret, TCGv addr, TCGv_i32 val,
                              TCGArg idx, MemOp memop, void * const table[])
 {
     gen_atomic_op_i32 gen;
-    TCGMemOpIdx oi;
+    MemOpIdx oi;
 
     memop = tcg_canonicalize_memop(memop, 0, 0);
 
@@ -XXX,XX +XXX,XX @@ static void do_atomic_op_i64(TCGv_i64 ret, TCGv addr, TCGv_i64 val,
     if ((memop & MO_SIZE) == MO_64) {
 #ifdef CONFIG_ATOMIC64
         gen_atomic_op_i64 gen;
-        TCGMemOpIdx oi;
+        MemOpIdx oi;
 
         gen = table[memop & (MO_SIZE | MO_BSWAP)];
         tcg_debug_assert(gen != NULL);
diff --git a/tcg/tcg.c b/tcg/tcg.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/tcg.c
+++ b/tcg/tcg.c
@@ -XXX,XX +XXX,XX @@ static void tcg_dump_ops(TCGContext *s, bool have_prefs)
             case INDEX_op_qemu_ld_i64:
             case INDEX_op_qemu_st_i64:
                 {
-                    TCGMemOpIdx oi = op->args[k++];
+                    MemOpIdx oi = op->args[k++];
                     MemOp op = get_memop(oi);
                     unsigned ix = get_mmuidx(oi);
 
diff --git a/tcg/tci.c b/tcg/tci.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/tci.c
+++ b/tcg/tci.c
@@ -XXX,XX +XXX,XX @@ static uint64_t tci_uint64(uint32_t high, uint32_t low)
  *   i = immediate (uint32_t)
  *   I = immediate (tcg_target_ulong)
  *   l = label or pointer
- *   m = immediate (TCGMemOpIdx)
+ *   m = immediate (MemOpIdx)
  *   n = immediate (call return length)
  *   r = register
  *   s = signed ldst offset
@@ -XXX,XX +XXX,XX @@ static void tci_args_ri(uint32_t insn, TCGReg *r0, tcg_target_ulong *i1)
 }
 
 static void tci_args_rrm(uint32_t insn, TCGReg *r0,
-                         TCGReg *r1, TCGMemOpIdx *m2)
+                         TCGReg *r1, MemOpIdx *m2)
 {
     *r0 = extract32(insn, 8, 4);
     *r1 = extract32(insn, 12, 4);
@@ -XXX,XX +XXX,XX @@ static void tci_args_rrrc(uint32_t insn,
 }
 
 static void tci_args_rrrm(uint32_t insn,
-                          TCGReg *r0, TCGReg *r1, TCGReg *r2, TCGMemOpIdx *m3)
+                          TCGReg *r0, TCGReg *r1, TCGReg *r2, MemOpIdx *m3)
 {
     *r0 = extract32(insn, 8, 4);
     *r1 = extract32(insn, 12, 4);
@@ -XXX,XX +XXX,XX @@ static bool tci_compare64(uint64_t u0, uint64_t u1, TCGCond condition)
 }
 
 static uint64_t tci_qemu_ld(CPUArchState *env, target_ulong taddr,
-                            TCGMemOpIdx oi, const void *tb_ptr)
+                            MemOpIdx oi, const void *tb_ptr)
 {
     MemOp mop = get_memop(oi) & (MO_BSWAP | MO_SSIZE);
     uintptr_t ra = (uintptr_t)tb_ptr;
@@ -XXX,XX +XXX,XX @@ static uint64_t tci_qemu_ld(CPUArchState *env, target_ulong taddr,
 }
 
 static void tci_qemu_st(CPUArchState *env, target_ulong taddr, uint64_t val,
-                        TCGMemOpIdx oi, const void *tb_ptr)
+                        MemOpIdx oi, const void *tb_ptr)
 {
     MemOp mop = get_memop(oi) & (MO_BSWAP | MO_SSIZE);
     uintptr_t ra = (uintptr_t)tb_ptr;
@@ -XXX,XX +XXX,XX @@ uintptr_t QEMU_DISABLE_CFI tcg_qemu_tb_exec(CPUArchState *env,
         uint32_t tmp32;
         uint64_t tmp64;
         uint64_t T1, T2;
-        TCGMemOpIdx oi;
+        MemOpIdx oi;
         int32_t ofs;
         void *ptr;
 
@@ -XXX,XX +XXX,XX @@ int print_insn_tci(bfd_vma addr, disassemble_info *info)
     tcg_target_ulong i1;
     int32_t s2;
     TCGCond c;
-    TCGMemOpIdx oi;
+    MemOpIdx oi;
     uint8_t pos, len;
     void *ptr;
 
diff --git a/accel/tcg/atomic_common.c.inc b/accel/tcg/atomic_common.c.inc
index XXXXXXX..XXXXXXX 100644
--- a/accel/tcg/atomic_common.c.inc
+++ b/accel/tcg/atomic_common.c.inc
@@ -XXX,XX +XXX,XX @@
  */
 
 static uint16_t atomic_trace_rmw_pre(CPUArchState *env, target_ulong addr,
-                                     TCGMemOpIdx oi)
+                                     MemOpIdx oi)
 {
     CPUState *cpu = env_cpu(env);
     uint16_t info = trace_mem_get_info(get_memop(oi), get_mmuidx(oi), false);
@@ -XXX,XX +XXX,XX @@ static void atomic_trace_rmw_post(CPUArchState *env, target_ulong addr,
 
 #if HAVE_ATOMIC128
 static uint16_t atomic_trace_ld_pre(CPUArchState *env, target_ulong addr,
-                                    TCGMemOpIdx oi)
+                                    MemOpIdx oi)
 {
     uint16_t info = trace_mem_get_info(get_memop(oi), get_mmuidx(oi), false);
 
@@ -XXX,XX +XXX,XX @@ static void atomic_trace_ld_post(CPUArchState *env, target_ulong addr,
 }
 
 static uint16_t atomic_trace_st_pre(CPUArchState *env, target_ulong addr,
-                                    TCGMemOpIdx oi)
+                                    MemOpIdx oi)
 {
     uint16_t info = trace_mem_get_info(get_memop(oi), get_mmuidx(oi), true);
 
diff --git a/tcg/aarch64/tcg-target.c.inc b/tcg/aarch64/tcg-target.c.inc
index XXXXXXX..XXXXXXX 100644
--- a/tcg/aarch64/tcg-target.c.inc
+++ b/tcg/aarch64/tcg-target.c.inc
@@ -XXX,XX +XXX,XX @@ static void tcg_out_cltz(TCGContext *s, TCGType ext, TCGReg d,
 #include "../tcg-ldst.c.inc"
 
 /* helper signature: helper_ret_ld_mmu(CPUState *env, target_ulong addr,
- *                                     TCGMemOpIdx oi, uintptr_t ra)
+ *                                     MemOpIdx oi, uintptr_t ra)
  */
 static void * const qemu_ld_helpers[MO_SIZE + 1] = {
     [MO_8]  = helper_ret_ldub_mmu,
@@ -XXX,XX +XXX,XX @@ static void * const qemu_ld_helpers[MO_SIZE + 1] = {
 };
 
 /* helper signature: helper_ret_st_mmu(CPUState *env, target_ulong addr,
- *                                     uintxx_t val, TCGMemOpIdx oi,
+ *                                     uintxx_t val, MemOpIdx oi,
  *                                     uintptr_t ra)
  */
 static void * const qemu_st_helpers[MO_SIZE + 1] = {
@@ -XXX,XX +XXX,XX @@ static inline void tcg_out_adr(TCGContext *s, TCGReg rd, const void *target)
 
 static bool tcg_out_qemu_ld_slow_path(TCGContext *s, TCGLabelQemuLdst *lb)
 {
-    TCGMemOpIdx oi = lb->oi;
+    MemOpIdx oi = lb->oi;
     MemOp opc = get_memop(oi);
     MemOp size = opc & MO_SIZE;
 
@@ -XXX,XX +XXX,XX @@ static bool tcg_out_qemu_ld_slow_path(TCGContext *s, TCGLabelQemuLdst *lb)
 
 static bool tcg_out_qemu_st_slow_path(TCGContext *s, TCGLabelQemuLdst *lb)
 {
-    TCGMemOpIdx oi = lb->oi;
+    MemOpIdx oi = lb->oi;
     MemOp opc = get_memop(oi);
     MemOp size = opc & MO_SIZE;
 
@@ -XXX,XX +XXX,XX @@ static bool tcg_out_qemu_st_slow_path(TCGContext *s, TCGLabelQemuLdst *lb)
     return true;
 }
 
-static void add_qemu_ldst_label(TCGContext *s, bool is_ld, TCGMemOpIdx oi,
+static void add_qemu_ldst_label(TCGContext *s, bool is_ld, MemOpIdx oi,
                                 TCGType ext, TCGReg data_reg, TCGReg addr_reg,
                                 tcg_insn_unit *raddr, tcg_insn_unit *label_ptr)
 {
@@ -XXX,XX +XXX,XX @@ static void tcg_out_qemu_st_direct(TCGContext *s, MemOp memop,
 }
 
 static void tcg_out_qemu_ld(TCGContext *s, TCGReg data_reg, TCGReg addr_reg,
-                            TCGMemOpIdx oi, TCGType ext)
+                            MemOpIdx oi, TCGType ext)
 {
     MemOp memop = get_memop(oi);
     const TCGType otype = TARGET_LONG_BITS == 64 ? TCG_TYPE_I64 : TCG_TYPE_I32;
@@ -XXX,XX +XXX,XX @@ static void tcg_out_qemu_ld(TCGContext *s, TCGReg data_reg, TCGReg addr_reg,
 }
 
 static void tcg_out_qemu_st(TCGContext *s, TCGReg data_reg, TCGReg addr_reg,
-                            TCGMemOpIdx oi)
+                            MemOpIdx oi)
 {
     MemOp memop = get_memop(oi);
     const TCGType otype = TARGET_LONG_BITS == 64 ? TCG_TYPE_I64 : TCG_TYPE_I32;
diff --git a/tcg/arm/tcg-target.c.inc b/tcg/arm/tcg-target.c.inc
index XXXXXXX..XXXXXXX 100644
--- a/tcg/arm/tcg-target.c.inc
+++ b/tcg/arm/tcg-target.c.inc
@@ -XXX,XX +XXX,XX @@ static TCGReg tcg_out_tlb_read(TCGContext *s, TCGReg addrlo, TCGReg addrhi,
 /* Record the context of a call to the out of line helper code for the slow
    path for a load or store, so that we can later generate the correct
    helper code.  */
-static void add_qemu_ldst_label(TCGContext *s, bool is_ld, TCGMemOpIdx oi,
+static void add_qemu_ldst_label(TCGContext *s, bool is_ld, MemOpIdx oi,
                                 TCGReg datalo, TCGReg datahi, TCGReg addrlo,
                                 TCGReg addrhi, tcg_insn_unit *raddr,
                                 tcg_insn_unit *label_ptr)
@@ -XXX,XX +XXX,XX @@ static void add_qemu_ldst_label(TCGContext *s, bool is_ld, TCGMemOpIdx oi,
 static bool tcg_out_qemu_ld_slow_path(TCGContext *s, TCGLabelQemuLdst *lb)
 {
     TCGReg argreg, datalo, datahi;
-    TCGMemOpIdx oi = lb->oi;
+    MemOpIdx oi = lb->oi;
     MemOp opc = get_memop(oi);
     void *func;
 
@@ -XXX,XX +XXX,XX @@ static bool tcg_out_qemu_ld_slow_path(TCGContext *s, TCGLabelQemuLdst *lb)
 static bool tcg_out_qemu_st_slow_path(TCGContext *s, TCGLabelQemuLdst *lb)
 {
     TCGReg argreg, datalo, datahi;
-    TCGMemOpIdx oi = lb->oi;
+    MemOpIdx oi = lb->oi;
     MemOp opc = get_memop(oi);
 
     if (!reloc_pc24(lb->label_ptr[0], tcg_splitwx_to_rx(s->code_ptr))) {
@@ -XXX,XX +XXX,XX @@ static void tcg_out_qemu_ld_direct(TCGContext *s, MemOp opc, TCGReg datalo,
 static void tcg_out_qemu_ld(TCGContext *s, const TCGArg *args, bool is64)
 {
     TCGReg addrlo, datalo, datahi, addrhi __attribute__((unused));
-    TCGMemOpIdx oi;
+    MemOpIdx oi;
     MemOp opc;
 #ifdef CONFIG_SOFTMMU
     int mem_index;
@@ -XXX,XX +XXX,XX @@ static void tcg_out_qemu_st_direct(TCGContext *s, MemOp opc, TCGReg datalo,
 static void tcg_out_qemu_st(TCGContext *s, const TCGArg *args, bool is64)
 {
     TCGReg addrlo, datalo, datahi, addrhi __attribute__((unused));
-    TCGMemOpIdx oi;
+    MemOpIdx oi;
     MemOp opc;
 #ifdef CONFIG_SOFTMMU
     int mem_index;
diff --git a/tcg/i386/tcg-target.c.inc b/tcg/i386/tcg-target.c.inc
index XXXXXXX..XXXXXXX 100644
--- a/tcg/i386/tcg-target.c.inc
+++ b/tcg/i386/tcg-target.c.inc
@@ -XXX,XX +XXX,XX @@ static inline void tcg_out_tlb_load(TCGContext *s, TCGReg addrlo, TCGReg addrhi,
  * for a load or store, so that we can later generate the correct helper code
  */
 static void add_qemu_ldst_label(TCGContext *s, bool is_ld, bool is_64,
-                                TCGMemOpIdx oi,
+                                MemOpIdx oi,
                                 TCGReg datalo, TCGReg datahi,
                                 TCGReg addrlo, TCGReg addrhi,
                                 tcg_insn_unit *raddr,
@@ -XXX,XX +XXX,XX @@ static void add_qemu_ldst_label(TCGContext *s, bool is_ld, bool is_64,
  */
 static bool tcg_out_qemu_ld_slow_path(TCGContext *s, TCGLabelQemuLdst *l)
 {
-    TCGMemOpIdx oi = l->oi;
+    MemOpIdx oi = l->oi;
     MemOp opc = get_memop(oi);
     TCGReg data_reg;
     tcg_insn_unit **label_ptr = &l->label_ptr[0];
@@ -XXX,XX +XXX,XX @@ static bool tcg_out_qemu_ld_slow_path(TCGContext *s, TCGLabelQemuLdst *l)
  */
 static bool tcg_out_qemu_st_slow_path(TCGContext *s, TCGLabelQemuLdst *l)
 {
-    TCGMemOpIdx oi = l->oi;
+    MemOpIdx oi = l->oi;
     MemOp opc = get_memop(oi);
     MemOp s_bits = opc & MO_SIZE;
     tcg_insn_unit **label_ptr = &l->label_ptr[0];
@@ -XXX,XX +XXX,XX @@ static void tcg_out_qemu_ld(TCGContext *s, const TCGArg *args, bool is64)
 {
     TCGReg datalo, datahi, addrlo;
     TCGReg addrhi __attribute__((unused));
-    TCGMemOpIdx oi;
+    MemOpIdx oi;
     MemOp opc;
 #if defined(CONFIG_SOFTMMU)
     int mem_index;
@@ -XXX,XX +XXX,XX @@ static void tcg_out_qemu_st(TCGContext *s, const TCGArg *args, bool is64)
 {
     TCGReg datalo, datahi, addrlo;
     TCGReg addrhi __attribute__((unused));
-    TCGMemOpIdx oi;
+    MemOpIdx oi;
     MemOp opc;
 #if defined(CONFIG_SOFTMMU)
     int mem_index;
diff --git a/tcg/mips/tcg-target.c.inc b/tcg/mips/tcg-target.c.inc
index XXXXXXX..XXXXXXX 100644
--- a/tcg/mips/tcg-target.c.inc
+++ b/tcg/mips/tcg-target.c.inc
@@ -XXX,XX +XXX,XX @@ QEMU_BUILD_BUG_ON(TLB_MASK_TABLE_OFS(0) < -32768);
  * Clobbers TMP0, TMP1, TMP2, TMP3.
  */
 static void tcg_out_tlb_load(TCGContext *s, TCGReg base, TCGReg addrl,
-                             TCGReg addrh, TCGMemOpIdx oi,
+                             TCGReg addrh, MemOpIdx oi,
                              tcg_insn_unit *label_ptr[2], bool is_load)
 {
     MemOp opc = get_memop(oi);
@@ -XXX,XX +XXX,XX @@ static void tcg_out_tlb_load(TCGContext *s, TCGReg base, TCGReg addrl,
     tcg_out_opc_reg(s, ALIAS_PADD, base, TCG_TMP2, addrl);
 }
 
-static void add_qemu_ldst_label(TCGContext *s, int is_ld, TCGMemOpIdx oi,
+static void add_qemu_ldst_label(TCGContext *s, int is_ld, MemOpIdx oi,
                                 TCGType ext,
                                 TCGReg datalo, TCGReg datahi,
                                 TCGReg addrlo, TCGReg addrhi,
@@ -XXX,XX +XXX,XX @@ static void add_qemu_ldst_label(TCGContext *s, int is_ld, TCGMemOpIdx oi,
 static bool tcg_out_qemu_ld_slow_path(TCGContext *s, TCGLabelQemuLdst *l)
 {
     const tcg_insn_unit *tgt_rx = tcg_splitwx_to_rx(s->code_ptr);
-    TCGMemOpIdx oi = l->oi;
+    MemOpIdx oi = l->oi;
     MemOp opc = get_memop(oi);
     TCGReg v0;
     int i;
@@ -XXX,XX +XXX,XX @@ static bool tcg_out_qemu_ld_slow_path(TCGContext *s, TCGLabelQemuLdst *l)
 static bool tcg_out_qemu_st_slow_path(TCGContext *s, TCGLabelQemuLdst *l)
 {
     const tcg_insn_unit *tgt_rx = tcg_splitwx_to_rx(s->code_ptr);
-    TCGMemOpIdx oi = l->oi;
+    MemOpIdx oi = l->oi;
     MemOp opc = get_memop(oi);
     MemOp s_bits = opc & MO_SIZE;
     int i;
@@ -XXX,XX +XXX,XX @@ static void tcg_out_qemu_ld(TCGContext *s, const TCGArg *args, bool is_64)
 {
     TCGReg addr_regl, addr_regh __attribute__((unused));
     TCGReg data_regl, data_regh;
-    TCGMemOpIdx oi;
+    MemOpIdx oi;
     MemOp opc;
 #if defined(CONFIG_SOFTMMU)
     tcg_insn_unit *label_ptr[2];
@@ -XXX,XX +XXX,XX @@ static void tcg_out_qemu_st(TCGContext *s, const TCGArg *args, bool is_64)
 {
     TCGReg addr_regl, addr_regh __attribute__((unused));
     TCGReg data_regl, data_regh;
-    TCGMemOpIdx oi;
+    MemOpIdx oi;
     MemOp opc;
 #if defined(CONFIG_SOFTMMU)
     tcg_insn_unit *label_ptr[2];
diff --git a/tcg/ppc/tcg-target.c.inc b/tcg/ppc/tcg-target.c.inc
index XXXXXXX..XXXXXXX 100644
--- a/tcg/ppc/tcg-target.c.inc
+++ b/tcg/ppc/tcg-target.c.inc
@@ -XXX,XX +XXX,XX @@ static TCGReg tcg_out_tlb_read(TCGContext *s, MemOp opc,
 /* Record the context of a call to the out of line helper code for the slow
    path for a load or store, so that we can later generate the correct
    helper code.  */
-static void add_qemu_ldst_label(TCGContext *s, bool is_ld, TCGMemOpIdx oi,
+static void add_qemu_ldst_label(TCGContext *s, bool is_ld, MemOpIdx oi,
                                 TCGReg datalo_reg, TCGReg datahi_reg,
                                 TCGReg addrlo_reg, TCGReg addrhi_reg,
                                 tcg_insn_unit *raddr, tcg_insn_unit *lptr)
@@ -XXX,XX +XXX,XX @@ static void add_qemu_ldst_label(TCGContext *s, bool is_ld, TCGMemOpIdx oi,
 
 static bool tcg_out_qemu_ld_slow_path(TCGContext *s, TCGLabelQemuLdst *lb)
 {
-    TCGMemOpIdx oi = lb->oi;
+    MemOpIdx oi = lb->oi;
     MemOp opc = get_memop(oi);
     TCGReg hi, lo, arg = TCG_REG_R3;
 
@@ -XXX,XX +XXX,XX @@ static bool tcg_out_qemu_ld_slow_path(TCGContext *s, TCGLabelQemuLdst *lb)
 
 static bool tcg_out_qemu_st_slow_path(TCGContext *s, TCGLabelQemuLdst *lb)
 {
-    TCGMemOpIdx oi = lb->oi;
+    MemOpIdx oi = lb->oi;
     MemOp opc = get_memop(oi);
     MemOp s_bits = opc & MO_SIZE;
     TCGReg hi, lo, arg = TCG_REG_R3;
@@ -XXX,XX +XXX,XX @@ static void tcg_out_qemu_ld(TCGContext *s, const TCGArg *args, bool is_64)
 {
     TCGReg datalo, datahi, addrlo, rbase;
     TCGReg addrhi __attribute__((unused));
-    TCGMemOpIdx oi;
+    MemOpIdx oi;
     MemOp opc, s_bits;
 #ifdef CONFIG_SOFTMMU
     int mem_index;
@@ -XXX,XX +XXX,XX @@ static void tcg_out_qemu_st(TCGContext *s, const TCGArg *args, bool is_64)
 {
     TCGReg datalo, datahi, addrlo, rbase;
     TCGReg addrhi __attribute__((unused));
-    TCGMemOpIdx oi;
+    MemOpIdx oi;
     MemOp opc, s_bits;
 #ifdef CONFIG_SOFTMMU
     int mem_index;
diff --git a/tcg/riscv/tcg-target.c.inc b/tcg/riscv/tcg-target.c.inc
index XXXXXXX..XXXXXXX 100644
--- a/tcg/riscv/tcg-target.c.inc
+++ b/tcg/riscv/tcg-target.c.inc
@@ -XXX,XX +XXX,XX @@ static void tcg_out_mb(TCGContext *s, TCGArg a0)
 #include "../tcg-ldst.c.inc"
 
 /* helper signature: helper_ret_ld_mmu(CPUState *env, target_ulong addr,
- *                                     TCGMemOpIdx oi, uintptr_t ra)
+ *                                     MemOpIdx oi, uintptr_t ra)
  */
 static void * const qemu_ld_helpers[MO_SSIZE + 1] = {
     [MO_UB] = helper_ret_ldub_mmu,
@@ -XXX,XX +XXX,XX @@ static void * const qemu_ld_helpers[MO_SSIZE + 1] = {
 };
 
 /* helper signature: helper_ret_st_mmu(CPUState *env, target_ulong addr,
- *                                     uintxx_t val, TCGMemOpIdx oi,
+ *                                     uintxx_t val, MemOpIdx oi,
  *                                     uintptr_t ra)
  */
 static void * const qemu_st_helpers[MO_SIZE + 1] = {
@@ -XXX,XX +XXX,XX @@ static void tcg_out_goto(TCGContext *s, const tcg_insn_unit *target)
 }
 
 static void tcg_out_tlb_load(TCGContext *s, TCGReg addrl,
-                             TCGReg addrh, TCGMemOpIdx oi,
+                             TCGReg addrh, MemOpIdx oi,
                              tcg_insn_unit **label_ptr, bool is_load)
 {
     MemOp opc = get_memop(oi);
@@ -XXX,XX +XXX,XX @@ static void tcg_out_tlb_load(TCGContext *s, TCGReg addrl,
     tcg_out_opc_reg(s, OPC_ADD, TCG_REG_TMP0, TCG_REG_TMP2, addrl);
 }
 
-static void add_qemu_ldst_label(TCGContext *s, int is_ld, TCGMemOpIdx oi,
+static void add_qemu_ldst_label(TCGContext *s, int is_ld, MemOpIdx oi,
                                 TCGType ext,
                                 TCGReg datalo, TCGReg datahi,
                                 TCGReg addrlo, TCGReg addrhi,
@@ -XXX,XX +XXX,XX @@ static void add_qemu_ldst_label(TCGContext *s, int is_ld, TCGMemOpIdx oi,
 
 static bool tcg_out_qemu_ld_slow_path(TCGContext *s, TCGLabelQemuLdst *l)
 {
-    TCGMemOpIdx oi = l->oi;
+    MemOpIdx oi = l->oi;
     MemOp opc = get_memop(oi);
     TCGReg a0 = tcg_target_call_iarg_regs[0];
     TCGReg a1 = tcg_target_call_iarg_regs[1];
@@ -XXX,XX +XXX,XX @@ static bool tcg_out_qemu_ld_slow_path(TCGContext *s, TCGLabelQemuLdst *l)
 
 static bool tcg_out_qemu_st_slow_path(TCGContext *s, TCGLabelQemuLdst *l)
 {
-    TCGMemOpIdx oi = l->oi;
+    MemOpIdx oi = l->oi;
     MemOp opc = get_memop(oi);
     MemOp s_bits = opc & MO_SIZE;
     TCGReg a0 = tcg_target_call_iarg_regs[0];
@@ -XXX,XX +XXX,XX @@ static void tcg_out_qemu_ld(TCGContext *s, const TCGArg *args, bool is_64)
 {
     TCGReg addr_regl, addr_regh __attribute__((unused));
     TCGReg data_regl, data_regh;
-    TCGMemOpIdx oi;
+    MemOpIdx oi;
     MemOp opc;
 #if defined(CONFIG_SOFTMMU)
     tcg_insn_unit *label_ptr[1];
@@ -XXX,XX +XXX,XX @@ static void tcg_out_qemu_st(TCGContext *s, const TCGArg *args, bool is_64)
 {
     TCGReg addr_regl, addr_regh __attribute__((unused));
     TCGReg data_regl, data_regh;
-    TCGMemOpIdx oi;
+    MemOpIdx oi;
     MemOp opc;
 #if defined(CONFIG_SOFTMMU)
     tcg_insn_unit *label_ptr[1];
diff --git a/tcg/s390/tcg-target.c.inc b/tcg/s390/tcg-target.c.inc
index XXXXXXX..XXXXXXX 100644
--- a/tcg/s390/tcg-target.c.inc
+++ b/tcg/s390/tcg-target.c.inc
@@ -XXX,XX +XXX,XX @@ static TCGReg tcg_out_tlb_read(TCGContext *s, TCGReg addr_reg, MemOp opc,
     return addr_reg;
 }
 
-static void add_qemu_ldst_label(TCGContext *s, bool is_ld, TCGMemOpIdx oi,
+static void add_qemu_ldst_label(TCGContext *s, bool is_ld, MemOpIdx oi,
                                 TCGReg data, TCGReg addr,
                                 tcg_insn_unit *raddr, tcg_insn_unit *label_ptr)
 {
@@ -XXX,XX +XXX,XX @@ static bool tcg_out_qemu_ld_slow_path(TCGContext *s, TCGLabelQemuLdst *lb)
 {
     TCGReg addr_reg = lb->addrlo_reg;
     TCGReg data_reg = lb->datalo_reg;
-    TCGMemOpIdx oi = lb->oi;
+    MemOpIdx oi = lb->oi;
     MemOp opc = get_memop(oi);
 
     if (!patch_reloc(lb->label_ptr[0], R_390_PC16DBL,
@@ -XXX,XX +XXX,XX @@ static bool tcg_out_qemu_st_slow_path(TCGContext *s, TCGLabelQemuLdst *lb)
 {
     TCGReg addr_reg = lb->addrlo_reg;
     TCGReg data_reg = lb->datalo_reg;
-    TCGMemOpIdx oi = lb->oi;
+    MemOpIdx oi = lb->oi;
     MemOp opc = get_memop(oi);
 
     if (!patch_reloc(lb->label_ptr[0], R_390_PC16DBL,
@@ -XXX,XX +XXX,XX @@ static void tcg_prepare_user_ldst(TCGContext *s, TCGReg *addr_reg,
 #endif /* CONFIG_SOFTMMU */
 
 static void tcg_out_qemu_ld(TCGContext* s, TCGReg data_reg, TCGReg addr_reg,
-                            TCGMemOpIdx oi)
+                            MemOpIdx oi)
 {
     MemOp opc = get_memop(oi);
 #ifdef CONFIG_SOFTMMU
@@ -XXX,XX +XXX,XX @@ static void tcg_out_qemu_ld(TCGContext* s, TCGReg data_reg, TCGReg addr_reg,
 }
 
 static void tcg_out_qemu_st(TCGContext* s, TCGReg data_reg, TCGReg addr_reg,
-                            TCGMemOpIdx oi)
+                            MemOpIdx oi)
 {
     MemOp opc = get_memop(oi);
 #ifdef CONFIG_SOFTMMU
diff --git a/tcg/sparc/tcg-target.c.inc b/tcg/sparc/tcg-target.c.inc
index XXXXXXX..XXXXXXX 100644
--- a/tcg/sparc/tcg-target.c.inc
+++ b/tcg/sparc/tcg-target.c.inc
@@ -XXX,XX +XXX,XX @@ static const int qemu_st_opc[(MO_SIZE | MO_BSWAP) + 1] = {
 };
 
 static void tcg_out_qemu_ld(TCGContext *s, TCGReg data, TCGReg addr,
-                            TCGMemOpIdx oi, bool is_64)
+                            MemOpIdx oi, bool is_64)
 {
     MemOp memop = get_memop(oi);
 #ifdef CONFIG_SOFTMMU
@@ -XXX,XX +XXX,XX @@ static void tcg_out_qemu_ld(TCGContext *s, TCGReg data, TCGReg addr,
 }
 
 static void tcg_out_qemu_st(TCGContext *s, TCGReg data, TCGReg addr,
-                            TCGMemOpIdx oi)
+                            MemOpIdx oi)
 {
     MemOp memop = get_memop(oi);
 #ifdef CONFIG_SOFTMMU
diff --git a/tcg/tcg-ldst.c.inc b/tcg/tcg-ldst.c.inc
index XXXXXXX..XXXXXXX 100644
--- a/tcg/tcg-ldst.c.inc
+++ b/tcg/tcg-ldst.c.inc
@@ -XXX,XX +XXX,XX @@
 
 typedef struct TCGLabelQemuLdst {
     bool is_ld;             /* qemu_ld: true, qemu_st: false */
-    TCGMemOpIdx oi;
+    MemOpIdx oi;
     TCGType type;           /* result type of a load */
     TCGReg addrlo_reg;      /* reg index for low word of guest virtual addr */
     TCGReg addrhi_reg;      /* reg index for high word of guest virtual addr */
-- 
2.25.1

Move this code from tcg/tcg.h to its own header.

Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 include/exec/memopidx.h | 55 +++++++++++++++++++++++++++++++++++++++++
 include/tcg/tcg.h       | 39 +----------------------------
 2 files changed, 56 insertions(+), 38 deletions(-)
 create mode 100644 include/exec/memopidx.h

diff --git a/include/exec/memopidx.h b/include/exec/memopidx.h
new file mode 100644
index XXXXXXX..XXXXXXX
--- /dev/null
+++ b/include/exec/memopidx.h
@@ -XXX,XX +XXX,XX @@
+/*
+ * Combine the MemOp and mmu_idx parameters into a single value.
+ *
+ * Authors:
+ *  Richard Henderson <rth@twiddle.net>
+ *
+ * This work is licensed under the terms of the GNU GPL, version 2 or later.
+ * See the COPYING file in the top-level directory.
+ */
+
+#ifndef EXEC_MEMOPIDX_H
+#define EXEC_MEMOPIDX_H 1
+
+#include "exec/memop.h"
+
+typedef uint32_t MemOpIdx;
+
+/**
+ * make_memop_idx
+ * @op: memory operation
+ * @idx: mmu index
+ *
+ * Encode these values into a single parameter.
+ */
+static inline MemOpIdx make_memop_idx(MemOp op, unsigned idx)
+{
+#ifdef CONFIG_DEBUG_TCG
+    assert(idx <= 15);
+#endif
+    return (op << 4) | idx;
+}
+
+/**
+ * get_memop
+ * @oi: combined op/idx parameter
+ *
+ * Extract the memory operation from the combined value.
+ */
+static inline MemOp get_memop(MemOpIdx oi)
+{
+    return oi >> 4;
+}
+
+/**
+ * get_mmuidx
+ * @oi: combined op/idx parameter
+ *
+ * Extract the mmu index from the combined value.
+ */
+static inline unsigned get_mmuidx(MemOpIdx oi)
+{
+    return oi & 15;
+}
+
+#endif
diff --git a/include/tcg/tcg.h b/include/tcg/tcg.h
index XXXXXXX..XXXXXXX 100644
--- a/include/tcg/tcg.h
+++ b/include/tcg/tcg.h
@@ -XXX,XX +XXX,XX @@
 
 #include "cpu.h"
 #include "exec/memop.h"
+#include "exec/memopidx.h"
 #include "qemu/bitops.h"
 #include "qemu/plugin.h"
 #include "qemu/queue.h"
@@ -XXX,XX +XXX,XX @@ static inline size_t tcg_current_code_size(TCGContext *s)
     return tcg_ptr_byte_diff(s->code_ptr, s->code_buf);
 }
 
-/* Combine the MemOp and mmu_idx parameters into a single value.  */
-typedef uint32_t MemOpIdx;
-
-/**
- * make_memop_idx
- * @op: memory operation
- * @idx: mmu index
- *
- * Encode these values into a single parameter.
- */
-static inline MemOpIdx make_memop_idx(MemOp op, unsigned idx)
-{
-    tcg_debug_assert(idx <= 15);
-    return (op << 4) | idx;
-}
-
-/**
- * get_memop
- * @oi: combined op/idx parameter
- *
- * Extract the memory operation from the combined value.
- */
-static inline MemOp get_memop(MemOpIdx oi)
-{
-    return oi >> 4;
-}
-
-/**
- * get_mmuidx
- * @oi: combined op/idx parameter
- *
- * Extract the mmu index from the combined value.
- */
-static inline unsigned get_mmuidx(MemOpIdx oi)
-{
-    return oi & 15;
-}
-
 /**
  * tcg_qemu_tb_exec:
  * @env: pointer to CPUArchState for the CPU
-- 
2.25.1

We (will) often have the complete MemOpIdx handy, so use that.

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Alistair Francis <alistair.francis@wdc.com>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 trace/mem.h                   | 32 +++++++++-----------------
 accel/tcg/cputlb.c            | 12 ++++------
 accel/tcg/user-exec.c         | 42 +++++++++++++++++++++++------------
 tcg/tcg-op.c                  |  8 +++----
 accel/tcg/atomic_common.c.inc |  6 ++---
 5 files changed, 49 insertions(+), 51 deletions(-)

diff --git a/trace/mem.h b/trace/mem.h
index XXXXXXX..XXXXXXX 100644
--- a/trace/mem.h
+++ b/trace/mem.h
@@ -XXX,XX +XXX,XX @@
 #ifndef TRACE__MEM_H
 #define TRACE__MEM_H
 
-#include "tcg/tcg.h"
+#include "exec/memopidx.h"
 
 #define TRACE_MEM_SZ_SHIFT_MASK 0xf /* size shift mask */
 #define TRACE_MEM_SE (1ULL << 4)    /* sign extended (y/n) */
@@ -XXX,XX +XXX,XX @@
 #define TRACE_MEM_MMU_SHIFT 8       /* mmu idx */
 
 /**
- * trace_mem_build_info:
+ * trace_mem_get_info:
  *
  * Return a value for the 'info' argument in guest memory access traces.
  */
-static inline uint16_t trace_mem_build_info(int size_shift, bool sign_extend,
-                                            MemOp endianness, bool store,
-                                            unsigned int mmu_idx)
+static inline uint16_t trace_mem_get_info(MemOpIdx oi, bool store)
 {
+    MemOp op = get_memop(oi);
+    uint32_t size_shift = op & MO_SIZE;
+    bool sign_extend = op & MO_SIGN;
+    bool big_endian = (op & MO_BSWAP) == MO_BE;
     uint16_t res;
 
     res = size_shift & TRACE_MEM_SZ_SHIFT_MASK;
     if (sign_extend) {
         res |= TRACE_MEM_SE;
     }
-    if (endianness == MO_BE) {
+    if (big_endian) {
         res |= TRACE_MEM_BE;
     }
     if (store) {
         res |= TRACE_MEM_ST;
     }
 #ifdef CONFIG_SOFTMMU
-    res |= mmu_idx << TRACE_MEM_MMU_SHIFT;
+    res |= get_mmuidx(oi) << TRACE_MEM_MMU_SHIFT;
 #endif
+
     return res;
 }
 
-
-/**
- * trace_mem_get_info:
- *
- * Return a value for the 'info' argument in guest memory access traces.
- */
-static inline uint16_t trace_mem_get_info(MemOp op,
-                                          unsigned int mmu_idx,
-                                          bool store)
-{
-    return trace_mem_build_info(op & MO_SIZE, !!(op & MO_SIGN),
-                                op & MO_BSWAP, store,
-                                mmu_idx);
-}
-
 #endif /* TRACE__MEM_H */
diff --git a/accel/tcg/cputlb.c b/accel/tcg/cputlb.c
index XXXXXXX..XXXXXXX 100644
--- a/accel/tcg/cputlb.c
+++ b/accel/tcg/cputlb.c
@@ -XXX,XX +XXX,XX @@ static inline uint64_t cpu_load_helper(CPUArchState *env, abi_ptr addr,
                                        int mmu_idx, uintptr_t retaddr,
                                        MemOp op, FullLoadHelper *full_load)
 {
-    uint16_t meminfo;
-    MemOpIdx oi;
+    MemOpIdx oi = make_memop_idx(op, mmu_idx);
+    uint16_t meminfo = trace_mem_get_info(oi, false);
     uint64_t ret;
 
-    meminfo = trace_mem_get_info(op, mmu_idx, false);
     trace_guest_mem_before_exec(env_cpu(env), addr, meminfo);
 
-    oi = make_memop_idx(op, mmu_idx);
     ret = full_load(env, addr, oi, retaddr);
 
     qemu_plugin_vcpu_mem_cb(env_cpu(env), addr, meminfo);
@@ -XXX,XX +XXX,XX @@ static inline void QEMU_ALWAYS_INLINE
 cpu_store_helper(CPUArchState *env, target_ulong addr, uint64_t val,
                  int mmu_idx, uintptr_t retaddr, MemOp op)
 {
-    MemOpIdx oi;
-    uint16_t meminfo;
+    MemOpIdx oi = make_memop_idx(op, mmu_idx);
+    uint16_t meminfo = trace_mem_get_info(oi, true);
 
-    meminfo = trace_mem_get_info(op, mmu_idx, true);
     trace_guest_mem_before_exec(env_cpu(env), addr, meminfo);
 
-    oi = make_memop_idx(op, mmu_idx);
     store_helper(env, addr, val, oi, retaddr, op);
 
     qemu_plugin_vcpu_mem_cb(env_cpu(env), addr, meminfo);
diff --git a/accel/tcg/user-exec.c b/accel/tcg/user-exec.c
index XXXXXXX..XXXXXXX 100644
--- a/accel/tcg/user-exec.c
+++ b/accel/tcg/user-exec.c
@@ -XXX,XX +XXX,XX @@ int cpu_signal_handler(int host_signum, void *pinfo,
 
 uint32_t cpu_ldub_data(CPUArchState *env, abi_ptr ptr)
 {
+    MemOpIdx oi = make_memop_idx(MO_UB, MMU_USER_IDX);
+    uint16_t meminfo = trace_mem_get_info(oi, false);
     uint32_t ret;
-    uint16_t meminfo = trace_mem_get_info(MO_UB, MMU_USER_IDX, false);
 
     trace_guest_mem_before_exec(env_cpu(env), ptr, meminfo);
     ret = ldub_p(g2h(env_cpu(env), ptr));
@@ -XXX,XX +XXX,XX @@ int cpu_ldsb_data(CPUArchState *env, abi_ptr ptr)
 
 uint32_t cpu_lduw_be_data(CPUArchState *env, abi_ptr ptr)
 {
+    MemOpIdx oi = make_memop_idx(MO_BEUW, MMU_USER_IDX);
+    uint16_t meminfo = trace_mem_get_info(oi, false);
     uint32_t ret;
-    uint16_t meminfo = trace_mem_get_info(MO_BEUW, MMU_USER_IDX, false);
 
     trace_guest_mem_before_exec(env_cpu(env), ptr, meminfo);
     ret = lduw_be_p(g2h(env_cpu(env), ptr));
@@ -XXX,XX +XXX,XX @@ int cpu_ldsw_be_data(CPUArchState *env, abi_ptr ptr)
 
 uint32_t cpu_ldl_be_data(CPUArchState *env, abi_ptr ptr)
 {
+    MemOpIdx oi = make_memop_idx(MO_BEUL, MMU_USER_IDX);
+    uint16_t meminfo = trace_mem_get_info(oi, false);
     uint32_t ret;
-    uint16_t meminfo = trace_mem_get_info(MO_BEUL, MMU_USER_IDX, false);
 
     trace_guest_mem_before_exec(env_cpu(env), ptr, meminfo);
     ret = ldl_be_p(g2h(env_cpu(env), ptr));
@@ -XXX,XX +XXX,XX @@ uint32_t cpu_ldl_be_data(CPUArchState *env, abi_ptr ptr)
 
 uint64_t cpu_ldq_be_data(CPUArchState *env, abi_ptr ptr)
 {
+    MemOpIdx oi = make_memop_idx(MO_BEQ, MMU_USER_IDX);
+    uint16_t meminfo = trace_mem_get_info(oi, false);
     uint64_t ret;
-    uint16_t meminfo = trace_mem_get_info(MO_BEQ, MMU_USER_IDX, false);
 
     trace_guest_mem_before_exec(env_cpu(env), ptr, meminfo);
     ret = ldq_be_p(g2h(env_cpu(env), ptr));
@@ -XXX,XX +XXX,XX @@ uint64_t cpu_ldq_be_data(CPUArchState *env, abi_ptr ptr)
 
 uint32_t cpu_lduw_le_data(CPUArchState *env, abi_ptr ptr)
 {
+    MemOpIdx oi = make_memop_idx(MO_LEUW, MMU_USER_IDX);
+    uint16_t meminfo = trace_mem_get_info(oi, false);
     uint32_t ret;
-    uint16_t meminfo = trace_mem_get_info(MO_LEUW, MMU_USER_IDX, false);
 
     trace_guest_mem_before_exec(env_cpu(env), ptr, meminfo);
     ret = lduw_le_p(g2h(env_cpu(env), ptr));
@@ -XXX,XX +XXX,XX @@ int cpu_ldsw_le_data(CPUArchState *env, abi_ptr ptr)
 
 uint32_t cpu_ldl_le_data(CPUArchState *env, abi_ptr ptr)
 {
+    MemOpIdx oi = make_memop_idx(MO_LEUL, MMU_USER_IDX);
+    uint16_t meminfo = trace_mem_get_info(oi, false);
     uint32_t ret;
-    uint16_t meminfo = trace_mem_get_info(MO_LEUL, MMU_USER_IDX, false);
 
     trace_guest_mem_before_exec(env_cpu(env), ptr, meminfo);
     ret = ldl_le_p(g2h(env_cpu(env), ptr));
@@ -XXX,XX +XXX,XX @@ uint32_t cpu_ldl_le_data(CPUArchState *env, abi_ptr ptr)
 
 uint64_t cpu_ldq_le_data(CPUArchState *env, abi_ptr ptr)
 {
+    MemOpIdx oi = make_memop_idx(MO_LEQ, MMU_USER_IDX);
+    uint16_t meminfo = trace_mem_get_info(oi, false);
     uint64_t ret;
-    uint16_t meminfo = trace_mem_get_info(MO_LEQ, MMU_USER_IDX, false);
 
     trace_guest_mem_before_exec(env_cpu(env), ptr, meminfo);
     ret = ldq_le_p(g2h(env_cpu(env), ptr));
@@ -XXX,XX +XXX,XX @@ uint64_t cpu_ldq_le_data_ra(CPUArchState *env, abi_ptr ptr, uintptr_t retaddr)
 
 void cpu_stb_data(CPUArchState *env, abi_ptr ptr, uint32_t val)
 {
-    uint16_t meminfo = trace_mem_get_info(MO_UB, MMU_USER_IDX, true);
+    MemOpIdx oi = make_memop_idx(MO_UB, MMU_USER_IDX);
+    uint16_t meminfo = trace_mem_get_info(oi, true);
 
     trace_guest_mem_before_exec(env_cpu(env), ptr, meminfo);
     stb_p(g2h(env_cpu(env), ptr), val);
@@ -XXX,XX +XXX,XX @@ void cpu_stb_data(CPUArchState *env, abi_ptr ptr, uint32_t val)
 
 void cpu_stw_be_data(CPUArchState *env, abi_ptr ptr, uint32_t val)
 {
-    uint16_t meminfo = trace_mem_get_info(MO_BEUW, MMU_USER_IDX, true);
+    MemOpIdx oi = make_memop_idx(MO_BEUW, MMU_USER_IDX);
+    uint16_t meminfo = trace_mem_get_info(oi, true);
 
     trace_guest_mem_before_exec(env_cpu(env), ptr, meminfo);
     stw_be_p(g2h(env_cpu(env), ptr), val);
@@ -XXX,XX +XXX,XX @@ void cpu_stw_be_data(CPUArchState *env, abi_ptr ptr, uint32_t val)
 
 void cpu_stl_be_data(CPUArchState *env, abi_ptr ptr, uint32_t val)
 {
-    uint16_t meminfo = trace_mem_get_info(MO_BEUL, MMU_USER_IDX, true);
+    MemOpIdx oi = make_memop_idx(MO_BEUL, MMU_USER_IDX);
+    uint16_t meminfo = trace_mem_get_info(oi, true);
 
     trace_guest_mem_before_exec(env_cpu(env), ptr, meminfo);
     stl_be_p(g2h(env_cpu(env), ptr), val);
@@ -XXX,XX +XXX,XX @@ void cpu_stl_be_data(CPUArchState *env, abi_ptr ptr, uint32_t val)
 
 void cpu_stq_be_data(CPUArchState *env, abi_ptr ptr, uint64_t val)
 {
-    uint16_t meminfo = trace_mem_get_info(MO_BEQ, MMU_USER_IDX, true);
+    MemOpIdx oi = make_memop_idx(MO_BEQ, MMU_USER_IDX);
+    uint16_t meminfo = trace_mem_get_info(oi, true);
 
     trace_guest_mem_before_exec(env_cpu(env), ptr, meminfo);
     stq_be_p(g2h(env_cpu(env), ptr), val);
@@ -XXX,XX +XXX,XX @@ void cpu_stq_be_data(CPUArchState *env, abi_ptr ptr, uint64_t val)
 
 void cpu_stw_le_data(CPUArchState *env, abi_ptr ptr, uint32_t val)
 {
-    uint16_t meminfo = trace_mem_get_info(MO_LEUW, MMU_USER_IDX, true);
+    MemOpIdx oi = make_memop_idx(MO_LEUW, MMU_USER_IDX);
+    uint16_t meminfo = trace_mem_get_info(oi, true);
 
     trace_guest_mem_before_exec(env_cpu(env), ptr, meminfo);
     stw_le_p(g2h(env_cpu(env), ptr), val);
@@ -XXX,XX +XXX,XX @@ void cpu_stw_le_data(CPUArchState *env, abi_ptr ptr, uint32_t val)
 
 void cpu_stl_le_data(CPUArchState *env, abi_ptr ptr, uint32_t val)
 {
-    uint16_t meminfo = trace_mem_get_info(MO_LEUL, MMU_USER_IDX, true);
+    MemOpIdx oi = make_memop_idx(MO_LEUL, MMU_USER_IDX);
+    uint16_t meminfo = trace_mem_get_info(oi, true);
 
     trace_guest_mem_before_exec(env_cpu(env), ptr, meminfo);
     stl_le_p(g2h(env_cpu(env), ptr), val);
@@ -XXX,XX +XXX,XX @@ void cpu_stl_le_data(CPUArchState *env, abi_ptr ptr, uint32_t val)
 
 void cpu_stq_le_data(CPUArchState *env, abi_ptr ptr, uint64_t val)
 {
-    uint16_t meminfo = trace_mem_get_info(MO_LEQ, MMU_USER_IDX, true);
+    MemOpIdx oi = make_memop_idx(MO_LEQ, MMU_USER_IDX);
+    uint16_t meminfo = trace_mem_get_info(oi, true);
 
     trace_guest_mem_before_exec(env_cpu(env), ptr, meminfo);
     stq_le_p(g2h(env_cpu(env), ptr), val);
diff --git a/tcg/tcg-op.c b/tcg/tcg-op.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/tcg-op.c
+++ b/tcg/tcg-op.c
@@ -XXX,XX +XXX,XX @@ static inline void plugin_gen_mem_callbacks(TCGv vaddr, uint16_t info)
 void tcg_gen_qemu_ld_i32(TCGv_i32 val, TCGv addr, TCGArg idx, MemOp memop)
 {
     MemOp orig_memop;
-    uint16_t info = trace_mem_get_info(memop, idx, 0);
+    uint16_t info = trace_mem_get_info(make_memop_idx(memop, idx), 0);
 
     tcg_gen_req_mo(TCG_MO_LD_LD | TCG_MO_ST_LD);
     memop = tcg_canonicalize_memop(memop, 0, 0);
@@ -XXX,XX +XXX,XX @@ void tcg_gen_qemu_ld_i32(TCGv_i32 val, TCGv addr, TCGArg idx, MemOp memop)
 void tcg_gen_qemu_st_i32(TCGv_i32 val, TCGv addr, TCGArg idx, MemOp memop)
 {
     TCGv_i32 swap = NULL;
-    uint16_t info = trace_mem_get_info(memop, idx, 1);
+    uint16_t info = trace_mem_get_info(make_memop_idx(memop, idx), 1);
 
     tcg_gen_req_mo(TCG_MO_LD_ST | TCG_MO_ST_ST);
     memop = tcg_canonicalize_memop(memop, 0, 1);
@@ -XXX,XX +XXX,XX @@ void tcg_gen_qemu_ld_i64(TCGv_i64 val, TCGv addr, TCGArg idx, MemOp memop)
 
     tcg_gen_req_mo(TCG_MO_LD_LD | TCG_MO_ST_LD);
     memop = tcg_canonicalize_memop(memop, 1, 0);
-    info = trace_mem_get_info(memop, idx, 0);
+    info = trace_mem_get_info(make_memop_idx(memop, idx), 0);
     trace_guest_mem_before_tcg(tcg_ctx->cpu, cpu_env, addr, info);
 
     orig_memop = memop;
@@ -XXX,XX +XXX,XX @@ void tcg_gen_qemu_st_i64(TCGv_i64 val, TCGv addr, TCGArg idx, MemOp memop)
 
     tcg_gen_req_mo(TCG_MO_LD_ST | TCG_MO_ST_ST);
     memop = tcg_canonicalize_memop(memop, 1, 1);
-    info = trace_mem_get_info(memop, idx, 1);
+    info = trace_mem_get_info(make_memop_idx(memop, idx), 1);
     trace_guest_mem_before_tcg(tcg_ctx->cpu, cpu_env, addr, info);
 
     if (!TCG_TARGET_HAS_MEMORY_BSWAP && (memop & MO_BSWAP)) {
diff --git a/accel/tcg/atomic_common.c.inc b/accel/tcg/atomic_common.c.inc
index XXXXXXX..XXXXXXX 100644
--- a/accel/tcg/atomic_common.c.inc
+++ b/accel/tcg/atomic_common.c.inc
@@ -XXX,XX +XXX,XX @@ static uint16_t atomic_trace_rmw_pre(CPUArchState *env, target_ulong addr,
                                      MemOpIdx oi)
 {
     CPUState *cpu = env_cpu(env);
-    uint16_t info = trace_mem_get_info(get_memop(oi), get_mmuidx(oi), false);
+    uint16_t info = trace_mem_get_info(oi, false);
 
     trace_guest_mem_before_exec(cpu, addr, info);
     trace_guest_mem_before_exec(cpu, addr, info | TRACE_MEM_ST);
@@ -XXX,XX +XXX,XX @@ static void atomic_trace_rmw_post(CPUArchState *env, target_ulong addr,
 static uint16_t atomic_trace_ld_pre(CPUArchState *env, target_ulong addr,
                                     MemOpIdx oi)
 {
-    uint16_t info = trace_mem_get_info(get_memop(oi), get_mmuidx(oi), false);
+    uint16_t info = trace_mem_get_info(oi, false);
 
     trace_guest_mem_before_exec(env_cpu(env), addr, info);
 
@@ -XXX,XX +XXX,XX @@ static void atomic_trace_ld_post(CPUArchState *env, target_ulong addr,
 static uint16_t atomic_trace_st_pre(CPUArchState *env, target_ulong addr,
                                     MemOpIdx oi)
 {
-    uint16_t info = trace_mem_get_info(get_memop(oi), get_mmuidx(oi), true);
+    uint16_t info = trace_mem_get_info(oi, true);
 
     trace_guest_mem_before_exec(env_cpu(env), addr, info);
 
-- 
2.25.1

We will shortly use the MemOpIdx directly, but in the meantime
re-compute the trace meminfo.

Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 accel/tcg/atomic_template.h   | 48 +++++++++++++++++------------------
 accel/tcg/atomic_common.c.inc | 30 +++++++++++-----------
 2 files changed, 39 insertions(+), 39 deletions(-)

Use the MemOpIdx directly, rather than the rearrangement
of the same bits currently done by the trace infrastructure.
Pass in enum qemu_plugin_mem_rw so that we are able to treat
read-modify-write operations as a single operation.

Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 include/qemu/plugin.h         | 26 ++++++++++++++++++++++++--
 accel/tcg/cputlb.c            |  4 ++--
 accel/tcg/plugin-gen.c        |  5 ++---
 accel/tcg/user-exec.c         | 28 ++++++++++++++--------------
 plugins/api.c                 | 19 +++++++++++--------
 plugins/core.c                | 10 +++++-----
 tcg/tcg-op.c                  | 30 +++++++++++++++++++++---------
 accel/tcg/atomic_common.c.inc | 13 +++----------
 8 files changed, 82 insertions(+), 53 deletions(-)

diff --git a/include/qemu/plugin.h b/include/qemu/plugin.h
index XXXXXXX..XXXXXXX 100644
--- a/include/qemu/plugin.h
+++ b/include/qemu/plugin.h
@@ -XXX,XX +XXX,XX @@
 #include "qemu/error-report.h"
 #include "qemu/queue.h"
 #include "qemu/option.h"
+#include "exec/memopidx.h"
 
 /*
  * Events that plugins can subscribe to.
@@ -XXX,XX +XXX,XX @@ enum qemu_plugin_event {
 struct qemu_plugin_desc;
 typedef QTAILQ_HEAD(, qemu_plugin_desc) QemuPluginList;
 
+/*
+ * Construct a qemu_plugin_meminfo_t.
+ */
+static inline qemu_plugin_meminfo_t
+make_plugin_meminfo(MemOpIdx oi, enum qemu_plugin_mem_rw rw)
+{
+    return oi | (rw << 16);
+}
+
+/*
+ * Extract the memory operation direction from a qemu_plugin_meminfo_t.
+ * Other portions may be extracted via get_memop and get_mmuidx.
+ */
+static inline enum qemu_plugin_mem_rw
+get_plugin_meminfo_rw(qemu_plugin_meminfo_t i)
+{
+    return i >> 16;
+}
+
 #ifdef CONFIG_PLUGIN
 extern QemuOptsList qemu_plugin_opts;
 
@@ -XXX,XX +XXX,XX @@ qemu_plugin_vcpu_syscall(CPUState *cpu, int64_t num, uint64_t a1,
                          uint64_t a6, uint64_t a7, uint64_t a8);
 void qemu_plugin_vcpu_syscall_ret(CPUState *cpu, int64_t num, int64_t ret);
 
-void qemu_plugin_vcpu_mem_cb(CPUState *cpu, uint64_t vaddr, uint32_t meminfo);
+void qemu_plugin_vcpu_mem_cb(CPUState *cpu, uint64_t vaddr,
+                             MemOpIdx oi, enum qemu_plugin_mem_rw rw);
 
 void qemu_plugin_flush_cb(void);
 
@@ -XXX,XX +XXX,XX @@ void qemu_plugin_vcpu_syscall_ret(CPUState *cpu, int64_t num, int64_t ret)
 { }
 
 static inline void qemu_plugin_vcpu_mem_cb(CPUState *cpu, uint64_t vaddr,
-                                           uint32_t meminfo)
+                                           MemOpIdx oi,
+                                           enum qemu_plugin_mem_rw rw)
 { }
 
 static inline void qemu_plugin_flush_cb(void)
diff --git a/accel/tcg/cputlb.c b/accel/tcg/cputlb.c
index XXXXXXX..XXXXXXX 100644
--- a/accel/tcg/cputlb.c
+++ b/accel/tcg/cputlb.c
@@ -XXX,XX +XXX,XX @@ static inline uint64_t cpu_load_helper(CPUArchState *env, abi_ptr addr,
 
     ret = full_load(env, addr, oi, retaddr);
 
-    qemu_plugin_vcpu_mem_cb(env_cpu(env), addr, meminfo);
+    qemu_plugin_vcpu_mem_cb(env_cpu(env), addr, oi, QEMU_PLUGIN_MEM_R);
 
     return ret;
 }
@@ -XXX,XX +XXX,XX @@ cpu_store_helper(CPUArchState *env, target_ulong addr, uint64_t val,
 
     store_helper(env, addr, val, oi, retaddr, op);
 
-    qemu_plugin_vcpu_mem_cb(env_cpu(env), addr, meminfo);
+    qemu_plugin_vcpu_mem_cb(env_cpu(env), addr, oi, QEMU_PLUGIN_MEM_W);
 }
 
 void cpu_stb_mmuidx_ra(CPUArchState *env, target_ulong addr, uint32_t val,
diff --git a/accel/tcg/plugin-gen.c b/accel/tcg/plugin-gen.c
index XXXXXXX..XXXXXXX 100644
--- a/accel/tcg/plugin-gen.c
+++ b/accel/tcg/plugin-gen.c
@@ -XXX,XX +XXX,XX @@
 #include "qemu/osdep.h"
 #include "tcg/tcg.h"
 #include "tcg/tcg-op.h"
-#include "trace/mem.h"
 #include "exec/exec-all.h"
 #include "exec/plugin-gen.h"
 #include "exec/translator.h"
@@ -XXX,XX +XXX,XX @@ static void gen_mem_wrapped(enum plugin_gen_cb type,
                             const union mem_gen_fn *f, TCGv addr,
                             uint32_t info, bool is_mem)
 {
-    int wr = !!(info & TRACE_MEM_ST);
+    enum qemu_plugin_mem_rw rw = get_plugin_meminfo_rw(info);
 
-    gen_plugin_cb_start(PLUGIN_GEN_FROM_MEM, type, wr);
+    gen_plugin_cb_start(PLUGIN_GEN_FROM_MEM, type, rw);
     if (is_mem) {
         f->mem_fn(addr, info);
     } else {
diff --git a/accel/tcg/user-exec.c b/accel/tcg/user-exec.c
index XXXXXXX..XXXXXXX 100644
--- a/accel/tcg/user-exec.c
+++ b/accel/tcg/user-exec.c
@@ -XXX,XX +XXX,XX @@ uint32_t cpu_ldub_data(CPUArchState *env, abi_ptr ptr)
 
     trace_guest_mem_before_exec(env_cpu(env), ptr, meminfo);
     ret = ldub_p(g2h(env_cpu(env), ptr));
-    qemu_plugin_vcpu_mem_cb(env_cpu(env), ptr, meminfo);
+    qemu_plugin_vcpu_mem_cb(env_cpu(env), ptr, oi, QEMU_PLUGIN_MEM_R);
     return ret;
 }
 
@@ -XXX,XX +XXX,XX @@ uint32_t cpu_lduw_be_data(CPUArchState *env, abi_ptr ptr)
 
     trace_guest_mem_before_exec(env_cpu(env), ptr, meminfo);
     ret = lduw_be_p(g2h(env_cpu(env), ptr));
-    qemu_plugin_vcpu_mem_cb(env_cpu(env), ptr, meminfo);
+    qemu_plugin_vcpu_mem_cb(env_cpu(env), ptr, oi, QEMU_PLUGIN_MEM_R);
     return ret;
 }
 
@@ -XXX,XX +XXX,XX @@ uint32_t cpu_ldl_be_data(CPUArchState *env, abi_ptr ptr)
 
     trace_guest_mem_before_exec(env_cpu(env), ptr, meminfo);
     ret = ldl_be_p(g2h(env_cpu(env), ptr));
-    qemu_plugin_vcpu_mem_cb(env_cpu(env), ptr, meminfo);
+    qemu_plugin_vcpu_mem_cb(env_cpu(env), ptr, oi, QEMU_PLUGIN_MEM_R);
     return ret;
 }
 
@@ -XXX,XX +XXX,XX @@ uint64_t cpu_ldq_be_data(CPUArchState *env, abi_ptr ptr)
 
     trace_guest_mem_before_exec(env_cpu(env), ptr, meminfo);
     ret = ldq_be_p(g2h(env_cpu(env), ptr));
-    qemu_plugin_vcpu_mem_cb(env_cpu(env), ptr, meminfo);
+    qemu_plugin_vcpu_mem_cb(env_cpu(env), ptr, oi, QEMU_PLUGIN_MEM_R);
     return ret;
 }
 
@@ -XXX,XX +XXX,XX @@ uint32_t cpu_lduw_le_data(CPUArchState *env, abi_ptr ptr)
 
     trace_guest_mem_before_exec(env_cpu(env), ptr, meminfo);
     ret = lduw_le_p(g2h(env_cpu(env), ptr));
-    qemu_plugin_vcpu_mem_cb(env_cpu(env), ptr, meminfo);
+    qemu_plugin_vcpu_mem_cb(env_cpu(env), ptr, oi, QEMU_PLUGIN_MEM_R);
     return ret;
 }
 
@@ -XXX,XX +XXX,XX @@ uint32_t cpu_ldl_le_data(CPUArchState *env, abi_ptr ptr)
 
     trace_guest_mem_before_exec(env_cpu(env), ptr, meminfo);
     ret = ldl_le_p(g2h(env_cpu(env), ptr));
-    qemu_plugin_vcpu_mem_cb(env_cpu(env), ptr, meminfo);
+    qemu_plugin_vcpu_mem_cb(env_cpu(env), ptr, oi, QEMU_PLUGIN_MEM_R);
     return ret;
 }
 
@@ -XXX,XX +XXX,XX @@ uint64_t cpu_ldq_le_data(CPUArchState *env, abi_ptr ptr)
 
     trace_guest_mem_before_exec(env_cpu(env), ptr, meminfo);
     ret = ldq_le_p(g2h(env_cpu(env), ptr));
-    qemu_plugin_vcpu_mem_cb(env_cpu(env), ptr, meminfo);
+    qemu_plugin_vcpu_mem_cb(env_cpu(env), ptr, oi, QEMU_PLUGIN_MEM_R);
     return ret;
 }
 
@@ -XXX,XX +XXX,XX @@ void cpu_stb_data(CPUArchState *env, abi_ptr ptr, uint32_t val)
 
     trace_guest_mem_before_exec(env_cpu(env), ptr, meminfo);
     stb_p(g2h(env_cpu(env), ptr), val);
-    qemu_plugin_vcpu_mem_cb(env_cpu(env), ptr, meminfo);
+    qemu_plugin_vcpu_mem_cb(env_cpu(env), ptr, oi, QEMU_PLUGIN_MEM_W);
 }
 
 void cpu_stw_be_data(CPUArchState *env, abi_ptr ptr, uint32_t val)
@@ -XXX,XX +XXX,XX @@ void cpu_stw_be_data(CPUArchState *env, abi_ptr ptr, uint32_t val)
 
     trace_guest_mem_before_exec(env_cpu(env), ptr, meminfo);
     stw_be_p(g2h(env_cpu(env), ptr), val);
-    qemu_plugin_vcpu_mem_cb(env_cpu(env), ptr, meminfo);
+    qemu_plugin_vcpu_mem_cb(env_cpu(env), ptr, oi, QEMU_PLUGIN_MEM_W);
 }
 
 void cpu_stl_be_data(CPUArchState *env, abi_ptr ptr, uint32_t val)
@@ -XXX,XX +XXX,XX @@ void cpu_stl_be_data(CPUArchState *env, abi_ptr ptr, uint32_t val)
 
     trace_guest_mem_before_exec(env_cpu(env), ptr, meminfo);
     stl_be_p(g2h(env_cpu(env), ptr), val);
-    qemu_plugin_vcpu_mem_cb(env_cpu(env), ptr, meminfo);
+    qemu_plugin_vcpu_mem_cb(env_cpu(env), ptr, oi, QEMU_PLUGIN_MEM_W);
 }
 
 void cpu_stq_be_data(CPUArchState *env, abi_ptr ptr, uint64_t val)
@@ -XXX,XX +XXX,XX @@ void cpu_stq_be_data(CPUArchState *env, abi_ptr ptr, uint64_t val)
 
     trace_guest_mem_before_exec(env_cpu(env), ptr, meminfo);
     stq_be_p(g2h(env_cpu(env), ptr), val);
-    qemu_plugin_vcpu_mem_cb(env_cpu(env), ptr, meminfo);
+    qemu_plugin_vcpu_mem_cb(env_cpu(env), ptr, oi, QEMU_PLUGIN_MEM_W);
 }
 
 void cpu_stw_le_data(CPUArchState *env, abi_ptr ptr, uint32_t val)
@@ -XXX,XX +XXX,XX @@ void cpu_stw_le_data(CPUArchState *env, abi_ptr ptr, uint32_t val)
 
     trace_guest_mem_before_exec(env_cpu(env), ptr, meminfo);
     stw_le_p(g2h(env_cpu(env), ptr), val);
-    qemu_plugin_vcpu_mem_cb(env_cpu(env), ptr, meminfo);
+    qemu_plugin_vcpu_mem_cb(env_cpu(env), ptr, oi, QEMU_PLUGIN_MEM_W);
 }
 
 void cpu_stl_le_data(CPUArchState *env, abi_ptr ptr, uint32_t val)
@@ -XXX,XX +XXX,XX @@ void cpu_stl_le_data(CPUArchState *env, abi_ptr ptr, uint32_t val)
 
     trace_guest_mem_before_exec(env_cpu(env), ptr, meminfo);
     stl_le_p(g2h(env_cpu(env), ptr), val);
-    qemu_plugin_vcpu_mem_cb(env_cpu(env), ptr, meminfo);
+    qemu_plugin_vcpu_mem_cb(env_cpu(env), ptr, oi, QEMU_PLUGIN_MEM_W);
 }
 
 void cpu_stq_le_data(CPUArchState *env, abi_ptr ptr, uint64_t val)
@@ -XXX,XX +XXX,XX @@ void cpu_stq_le_data(CPUArchState *env, abi_ptr ptr, uint64_t val)
 
     trace_guest_mem_before_exec(env_cpu(env), ptr, meminfo);
     stq_le_p(g2h(env_cpu(env), ptr), val);
-    qemu_plugin_vcpu_mem_cb(env_cpu(env), ptr, meminfo);
+    qemu_plugin_vcpu_mem_cb(env_cpu(env), ptr, oi, QEMU_PLUGIN_MEM_W);
 }
 
 void cpu_stb_data_ra(CPUArchState *env, abi_ptr ptr,
diff --git a/plugins/api.c b/plugins/api.c
index XXXXXXX..XXXXXXX 100644
--- a/plugins/api.c
+++ b/plugins/api.c
@@ -XXX,XX +XXX,XX @@
 #include "qemu/plugin-memory.h"
 #include "hw/boards.h"
 #endif
-#include "trace/mem.h"
 
 /* Uninstall and Reset handlers */
 
@@ -XXX,XX +XXX,XX @@ const char *qemu_plugin_insn_symbol(const struct qemu_plugin_insn *insn)
 
 unsigned qemu_plugin_mem_size_shift(qemu_plugin_meminfo_t info)
 {
-    return info & TRACE_MEM_SZ_SHIFT_MASK;
+    MemOp op = get_memop(info);
+    return op & MO_SIZE;
 }
 
 bool qemu_plugin_mem_is_sign_extended(qemu_plugin_meminfo_t info)
 {
-    return !!(info & TRACE_MEM_SE);
+    MemOp op = get_memop(info);
+    return op & MO_SIGN;
 }
 
 bool qemu_plugin_mem_is_big_endian(qemu_plugin_meminfo_t info)
 {
-    return !!(info & TRACE_MEM_BE);
+    MemOp op = get_memop(info);
+    return (op & MO_BSWAP) == MO_BE;
 }
 
 bool qemu_plugin_mem_is_store(qemu_plugin_meminfo_t info)
 {
-    return !!(info & TRACE_MEM_ST);
+    return get_plugin_meminfo_rw(info) & QEMU_PLUGIN_MEM_W;
 }
 
 /*
@@ -XXX,XX +XXX,XX @@ struct qemu_plugin_hwaddr *qemu_plugin_get_hwaddr(qemu_plugin_meminfo_t info,
 {
 #ifdef CONFIG_SOFTMMU
     CPUState *cpu = current_cpu;
-    unsigned int mmu_idx = info >> TRACE_MEM_MMU_SHIFT;
-    hwaddr_info.is_store = info & TRACE_MEM_ST;
+    unsigned int mmu_idx = get_mmuidx(info);
+    enum qemu_plugin_mem_rw rw = get_plugin_meminfo_rw(info);
+    hwaddr_info.is_store = (rw & QEMU_PLUGIN_MEM_W) != 0;
 
     if (!tlb_plugin_lookup(cpu, vaddr, mmu_idx,
-                           info & TRACE_MEM_ST, &hwaddr_info)) {
+                           hwaddr_info.is_store, &hwaddr_info)) {
         error_report("invalid use of qemu_plugin_get_hwaddr");
         return NULL;
     }
diff --git a/plugins/core.c b/plugins/core.c
index XXXXXXX..XXXXXXX 100644
--- a/plugins/core.c
+++ b/plugins/core.c
@@ -XXX,XX +XXX,XX @@
 #include "exec/helper-proto.h"
 #include "tcg/tcg.h"
 #include "tcg/tcg-op.h"
-#include "trace/mem.h" /* mem_info macros */
 #include "plugin.h"
 #include "qemu/compiler.h"
 
@@ -XXX,XX +XXX,XX @@ void exec_inline_op(struct qemu_plugin_dyn_cb *cb)
     }
 }
 
-void qemu_plugin_vcpu_mem_cb(CPUState *cpu, uint64_t vaddr, uint32_t info)
+void qemu_plugin_vcpu_mem_cb(CPUState *cpu, uint64_t vaddr,
+                             MemOpIdx oi, enum qemu_plugin_mem_rw rw)
 {
     GArray *arr = cpu->plugin_mem_cbs;
     size_t i;
@@ -XXX,XX +XXX,XX @@ void qemu_plugin_vcpu_mem_cb(CPUState *cpu, uint64_t vaddr, uint32_t info)
     for (i = 0; i < arr->len; i++) {
         struct qemu_plugin_dyn_cb *cb =
             &g_array_index(arr, struct qemu_plugin_dyn_cb, i);
-        int w = !!(info & TRACE_MEM_ST) + 1;
 
-        if (!(w & cb->rw)) {
+        if (!(rw & cb->rw)) {
                 break;
         }
         switch (cb->type) {
         case PLUGIN_CB_REGULAR:
-            cb->f.vcpu_mem(cpu->cpu_index, info, vaddr, cb->userp);
+            cb->f.vcpu_mem(cpu->cpu_index, make_plugin_meminfo(oi, rw),
+                           vaddr, cb->userp);
             break;
         case PLUGIN_CB_INLINE:
             exec_inline_op(cb);
diff --git a/tcg/tcg-op.c b/tcg/tcg-op.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/tcg-op.c
+++ b/tcg/tcg-op.c
@@ -XXX,XX +XXX,XX @@ static inline TCGv plugin_prep_mem_callbacks(TCGv vaddr)
     return vaddr;
 }
 
-static inline void plugin_gen_mem_callbacks(TCGv vaddr, uint16_t info)
+static void plugin_gen_mem_callbacks(TCGv vaddr, MemOpIdx oi,
+                                     enum qemu_plugin_mem_rw rw)
 {
 #ifdef CONFIG_PLUGIN
     if (tcg_ctx->plugin_insn != NULL) {
+        qemu_plugin_meminfo_t info = make_plugin_meminfo(oi, rw);
         plugin_gen_empty_mem_callback(vaddr, info);
         tcg_temp_free(vaddr);
     }
@@ -XXX,XX +XXX,XX @@ static inline void plugin_gen_mem_callbacks(TCGv vaddr, uint16_t info)
 void tcg_gen_qemu_ld_i32(TCGv_i32 val, TCGv addr, TCGArg idx, MemOp memop)
 {
     MemOp orig_memop;
-    uint16_t info = trace_mem_get_info(make_memop_idx(memop, idx), 0);
+    MemOpIdx oi;
+    uint16_t info;
 
     tcg_gen_req_mo(TCG_MO_LD_LD | TCG_MO_ST_LD);
     memop = tcg_canonicalize_memop(memop, 0, 0);
+    oi = make_memop_idx(memop, idx);
+    info = trace_mem_get_info(oi, 0);
     trace_guest_mem_before_tcg(tcg_ctx->cpu, cpu_env, addr, info);
 
     orig_memop = memop;
@@ -XXX,XX +XXX,XX @@ void tcg_gen_qemu_ld_i32(TCGv_i32 val, TCGv addr, TCGArg idx, MemOp memop)
 
     addr = plugin_prep_mem_callbacks(addr);
     gen_ldst_i32(INDEX_op_qemu_ld_i32, val, addr, memop, idx);
-    plugin_gen_mem_callbacks(addr, info);
+    plugin_gen_mem_callbacks(addr, oi, QEMU_PLUGIN_MEM_R);
 
     if ((orig_memop ^ memop) & MO_BSWAP) {
         switch (orig_memop & MO_SIZE) {
@@ -XXX,XX +XXX,XX @@ void tcg_gen_qemu_ld_i32(TCGv_i32 val, TCGv addr, TCGArg idx, MemOp memop)
 void tcg_gen_qemu_st_i32(TCGv_i32 val, TCGv addr, TCGArg idx, MemOp memop)
 {
     TCGv_i32 swap = NULL;
-    uint16_t info = trace_mem_get_info(make_memop_idx(memop, idx), 1);
+    MemOpIdx oi;
+    uint16_t info;
 
     tcg_gen_req_mo(TCG_MO_LD_ST | TCG_MO_ST_ST);
     memop = tcg_canonicalize_memop(memop, 0, 1);
+    oi = make_memop_idx(memop, idx);
+    info = trace_mem_get_info(oi, 1);
     trace_guest_mem_before_tcg(tcg_ctx->cpu, cpu_env, addr, info);
 
     if (!TCG_TARGET_HAS_MEMORY_BSWAP && (memop & MO_BSWAP)) {
@@ -XXX,XX +XXX,XX @@ void tcg_gen_qemu_st_i32(TCGv_i32 val, TCGv addr, TCGArg idx, MemOp memop)
     } else {
         gen_ldst_i32(INDEX_op_qemu_st_i32, val, addr, memop, idx);
     }
-    plugin_gen_mem_callbacks(addr, info);
+    plugin_gen_mem_callbacks(addr, oi, QEMU_PLUGIN_MEM_W);
 
     if (swap) {
         tcg_temp_free_i32(swap);
@@ -XXX,XX +XXX,XX @@ void tcg_gen_qemu_st_i32(TCGv_i32 val, TCGv addr, TCGArg idx, MemOp memop)
 void tcg_gen_qemu_ld_i64(TCGv_i64 val, TCGv addr, TCGArg idx, MemOp memop)
 {
     MemOp orig_memop;
+    MemOpIdx oi;
     uint16_t info;
 
     if (TCG_TARGET_REG_BITS == 32 && (memop & MO_SIZE) < MO_64) {
@@ -XXX,XX +XXX,XX @@ void tcg_gen_qemu_ld_i64(TCGv_i64 val, TCGv addr, TCGArg idx, MemOp memop)
 
     tcg_gen_req_mo(TCG_MO_LD_LD | TCG_MO_ST_LD);
     memop = tcg_canonicalize_memop(memop, 1, 0);
-    info = trace_mem_get_info(make_memop_idx(memop, idx), 0);
+    oi = make_memop_idx(memop, idx);
+    info = trace_mem_get_info(oi, 0);
     trace_guest_mem_before_tcg(tcg_ctx->cpu, cpu_env, addr, info);
 
     orig_memop = memop;
@@ -XXX,XX +XXX,XX @@ void tcg_gen_qemu_ld_i64(TCGv_i64 val, TCGv addr, TCGArg idx, MemOp memop)
 
     addr = plugin_prep_mem_callbacks(addr);
     gen_ldst_i64(INDEX_op_qemu_ld_i64, val, addr, memop, idx);
-    plugin_gen_mem_callbacks(addr, info);
+    plugin_gen_mem_callbacks(addr, oi, QEMU_PLUGIN_MEM_R);
 
     if ((orig_memop ^ memop) & MO_BSWAP) {
         int flags = (orig_memop & MO_SIGN
@@ -XXX,XX +XXX,XX @@ void tcg_gen_qemu_ld_i64(TCGv_i64 val, TCGv addr, TCGArg idx, MemOp memop)
 void tcg_gen_qemu_st_i64(TCGv_i64 val, TCGv addr, TCGArg idx, MemOp memop)
 {
     TCGv_i64 swap = NULL;
+    MemOpIdx oi;
     uint16_t info;
 
     if (TCG_TARGET_REG_BITS == 32 && (memop & MO_SIZE) < MO_64) {
@@ -XXX,XX +XXX,XX @@ void tcg_gen_qemu_st_i64(TCGv_i64 val, TCGv addr, TCGArg idx, MemOp memop)
 
     tcg_gen_req_mo(TCG_MO_LD_ST | TCG_MO_ST_ST);
     memop = tcg_canonicalize_memop(memop, 1, 1);
-    info = trace_mem_get_info(make_memop_idx(memop, idx), 1);
+    oi = make_memop_idx(memop, idx);
+    info = trace_mem_get_info(oi, 1);
     trace_guest_mem_before_tcg(tcg_ctx->cpu, cpu_env, addr, info);
 
     if (!TCG_TARGET_HAS_MEMORY_BSWAP && (memop & MO_BSWAP)) {
@@ -XXX,XX +XXX,XX @@ void tcg_gen_qemu_st_i64(TCGv_i64 val, TCGv addr, TCGArg idx, MemOp memop)
 
     addr = plugin_prep_mem_callbacks(addr);
     gen_ldst_i64(INDEX_op_qemu_st_i64, val, addr, memop, idx);
-    plugin_gen_mem_callbacks(addr, info);
+    plugin_gen_mem_callbacks(addr, oi, QEMU_PLUGIN_MEM_W);
 
     if (swap) {
         tcg_temp_free_i64(swap);
diff --git a/accel/tcg/atomic_common.c.inc b/accel/tcg/atomic_common.c.inc
index XXXXXXX..XXXXXXX 100644
--- a/accel/tcg/atomic_common.c.inc
+++ b/accel/tcg/atomic_common.c.inc
@@ -XXX,XX +XXX,XX @@ static void atomic_trace_rmw_pre(CPUArchState *env, target_ulong addr,
 static void atomic_trace_rmw_post(CPUArchState *env, target_ulong addr,
                                   MemOpIdx oi)
 {
-    uint16_t info = trace_mem_get_info(oi, false);
-
-    qemu_plugin_vcpu_mem_cb(env_cpu(env), addr, info);
-    qemu_plugin_vcpu_mem_cb(env_cpu(env), addr, info | TRACE_MEM_ST);
+    qemu_plugin_vcpu_mem_cb(env_cpu(env), addr, oi, QEMU_PLUGIN_MEM_RW);
 }
 
 #if HAVE_ATOMIC128
@@ -XXX,XX +XXX,XX @@ static void atomic_trace_ld_pre(CPUArchState *env, target_ulong addr,
 static void atomic_trace_ld_post(CPUArchState *env, target_ulong addr,
                                  MemOpIdx oi)
 {
-    uint16_t info = trace_mem_get_info(oi, false);
-
-    qemu_plugin_vcpu_mem_cb(env_cpu(env), addr, info);
+    qemu_plugin_vcpu_mem_cb(env_cpu(env), addr, oi, QEMU_PLUGIN_MEM_R);
 }
 
 static void atomic_trace_st_pre(CPUArchState *env, target_ulong addr,
@@ -XXX,XX +XXX,XX @@ static void atomic_trace_st_pre(CPUArchState *env, target_ulong addr,
 static void atomic_trace_st_post(CPUArchState *env, target_ulong addr,
                                  MemOpIdx oi)
 {
-    uint16_t info = trace_mem_get_info(oi, false);
-
-    qemu_plugin_vcpu_mem_cb(env_cpu(env), addr, info);
+    qemu_plugin_vcpu_mem_cb(env_cpu(env), addr, oi, QEMU_PLUGIN_MEM_W);
 }
 #endif
 
-- 
2.25.1

There is no point in encoding load/store within a bit of
the memory trace info operand.  Represent atomic operations
as a single read-modify-write tracepoint.  Use MemOpIdx
instead of inventing a form specifically for traces.

Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 accel/tcg/atomic_template.h   |  1 -
 trace/mem.h                   | 51 -----------------------------------
 accel/tcg/cputlb.c            |  7 ++---
 accel/tcg/user-exec.c         | 44 +++++++++++-------------------
 tcg/tcg-op.c                  | 17 +++---------
 accel/tcg/atomic_common.c.inc | 12 +++------
 trace-events                  | 18 +++----------
 7 files changed, 28 insertions(+), 122 deletions(-)
 delete mode 100644 trace/mem.h

diff --git a/accel/tcg/atomic_template.h b/accel/tcg/atomic_template.h
index XXXXXXX..XXXXXXX 100644
--- a/accel/tcg/atomic_template.h
+++ b/accel/tcg/atomic_template.h
@@ -XXX,XX +XXX,XX @@
  */
 
 #include "qemu/plugin.h"
-#include "trace/mem.h"
 
 #if DATA_SIZE == 16
 # define SUFFIX     o
diff --git a/trace/mem.h b/trace/mem.h
deleted file mode 100644
index XXXXXXX..XXXXXXX
--- a/trace/mem.h
+++ /dev/null
@@ -XXX,XX +XXX,XX @@
-/*
- * Helper functions for guest memory tracing
- *
- * Copyright (C) 2016 Lluís Vilanova <vilanova@ac.upc.edu>
- *
- * This work is licensed under the terms of the GNU GPL, version 2 or later.
- * See the COPYING file in the top-level directory.
- */
-
-#ifndef TRACE__MEM_H
-#define TRACE__MEM_H
-
-#include "exec/memopidx.h"
-
-#define TRACE_MEM_SZ_SHIFT_MASK 0xf /* size shift mask */
-#define TRACE_MEM_SE (1ULL << 4)    /* sign extended (y/n) */
-#define TRACE_MEM_BE (1ULL << 5)    /* big endian (y/n) */
-#define TRACE_MEM_ST (1ULL << 6)    /* store (y/n) */
-#define TRACE_MEM_MMU_SHIFT 8       /* mmu idx */
-
-/**
- * trace_mem_get_info:
- *
- * Return a value for the 'info' argument in guest memory access traces.
- */
-static inline uint16_t trace_mem_get_info(MemOpIdx oi, bool store)
-{
-    MemOp op = get_memop(oi);
-    uint32_t size_shift = op & MO_SIZE;
-    bool sign_extend = op & MO_SIGN;
-    bool big_endian = (op & MO_BSWAP) == MO_BE;
-    uint16_t res;
-
-    res = size_shift & TRACE_MEM_SZ_SHIFT_MASK;
-    if (sign_extend) {
-        res |= TRACE_MEM_SE;
-    }
-    if (big_endian) {
-        res |= TRACE_MEM_BE;
-    }
-    if (store) {
-        res |= TRACE_MEM_ST;
-    }
-#ifdef CONFIG_SOFTMMU
-    res |= get_mmuidx(oi) << TRACE_MEM_MMU_SHIFT;
-#endif
-
-    return res;
-}
-
-#endif /* TRACE__MEM_H */
diff --git a/accel/tcg/cputlb.c b/accel/tcg/cputlb.c
index XXXXXXX..XXXXXXX 100644
--- a/accel/tcg/cputlb.c
+++ b/accel/tcg/cputlb.c
@@ -XXX,XX +XXX,XX @@
 #include "qemu/atomic128.h"
 #include "exec/translate-all.h"
 #include "trace/trace-root.h"
-#include "trace/mem.h"
 #include "tb-hash.h"
 #include "internal.h"
 #ifdef CONFIG_PLUGIN
@@ -XXX,XX +XXX,XX @@ static inline uint64_t cpu_load_helper(CPUArchState *env, abi_ptr addr,
                                        MemOp op, FullLoadHelper *full_load)
 {
     MemOpIdx oi = make_memop_idx(op, mmu_idx);
-    uint16_t meminfo = trace_mem_get_info(oi, false);
     uint64_t ret;
 
-    trace_guest_mem_before_exec(env_cpu(env), addr, meminfo);
+    trace_guest_ld_before_exec(env_cpu(env), addr, oi);
 
     ret = full_load(env, addr, oi, retaddr);
 
@@ -XXX,XX +XXX,XX @@ cpu_store_helper(CPUArchState *env, target_ulong addr, uint64_t val,
                  int mmu_idx, uintptr_t retaddr, MemOp op)
 {
     MemOpIdx oi = make_memop_idx(op, mmu_idx);
-    uint16_t meminfo = trace_mem_get_info(oi, true);
 
-    trace_guest_mem_before_exec(env_cpu(env), addr, meminfo);
+    trace_guest_st_before_exec(env_cpu(env), addr, oi);
 
     store_helper(env, addr, val, oi, retaddr, op);
 
diff --git a/accel/tcg/user-exec.c b/accel/tcg/user-exec.c
index XXXXXXX..XXXXXXX 100644
--- a/accel/tcg/user-exec.c
+++ b/accel/tcg/user-exec.c
@@ -XXX,XX +XXX,XX @@
 #include "exec/helper-proto.h"
 #include "qemu/atomic128.h"
 #include "trace/trace-root.h"
-#include "trace/mem.h"
+#include "internal.h"
 
 #undef EAX
 #undef ECX
@@ -XXX,XX +XXX,XX @@ int cpu_signal_handler(int host_signum, void *pinfo,
 uint32_t cpu_ldub_data(CPUArchState *env, abi_ptr ptr)
 {
     MemOpIdx oi = make_memop_idx(MO_UB, MMU_USER_IDX);
-    uint16_t meminfo = trace_mem_get_info(oi, false);
     uint32_t ret;
 
-    trace_guest_mem_before_exec(env_cpu(env), ptr, meminfo);
+    trace_guest_ld_before_exec(env_cpu(env), ptr, oi);
     ret = ldub_p(g2h(env_cpu(env), ptr));
     qemu_plugin_vcpu_mem_cb(env_cpu(env), ptr, oi, QEMU_PLUGIN_MEM_R);
     return ret;
@@ -XXX,XX +XXX,XX @@ int cpu_ldsb_data(CPUArchState *env, abi_ptr ptr)
 uint32_t cpu_lduw_be_data(CPUArchState *env, abi_ptr ptr)
 {
     MemOpIdx oi = make_memop_idx(MO_BEUW, MMU_USER_IDX);
-    uint16_t meminfo = trace_mem_get_info(oi, false);
     uint32_t ret;
 
-    trace_guest_mem_before_exec(env_cpu(env), ptr, meminfo);
+    trace_guest_ld_before_exec(env_cpu(env), ptr, oi);
     ret = lduw_be_p(g2h(env_cpu(env), ptr));
     qemu_plugin_vcpu_mem_cb(env_cpu(env), ptr, oi, QEMU_PLUGIN_MEM_R);
     return ret;
@@ -XXX,XX +XXX,XX @@ int cpu_ldsw_be_data(CPUArchState *env, abi_ptr ptr)
 uint32_t cpu_ldl_be_data(CPUArchState *env, abi_ptr ptr)
 {
     MemOpIdx oi = make_memop_idx(MO_BEUL, MMU_USER_IDX);
-    uint16_t meminfo = trace_mem_get_info(oi, false);
     uint32_t ret;
 
-    trace_guest_mem_before_exec(env_cpu(env), ptr, meminfo);
+    trace_guest_ld_before_exec(env_cpu(env), ptr, oi);
     ret = ldl_be_p(g2h(env_cpu(env), ptr));
     qemu_plugin_vcpu_mem_cb(env_cpu(env), ptr, oi, QEMU_PLUGIN_MEM_R);
     return ret;
@@ -XXX,XX +XXX,XX @@ uint32_t cpu_ldl_be_data(CPUArchState *env, abi_ptr ptr)
 uint64_t cpu_ldq_be_data(CPUArchState *env, abi_ptr ptr)
 {
     MemOpIdx oi = make_memop_idx(MO_BEQ, MMU_USER_IDX);
-    uint16_t meminfo = trace_mem_get_info(oi, false);
     uint64_t ret;
 
-    trace_guest_mem_before_exec(env_cpu(env), ptr, meminfo);
+    trace_guest_ld_before_exec(env_cpu(env), ptr, oi);
     ret = ldq_be_p(g2h(env_cpu(env), ptr));
     qemu_plugin_vcpu_mem_cb(env_cpu(env), ptr, oi, QEMU_PLUGIN_MEM_R);
     return ret;
@@ -XXX,XX +XXX,XX @@ uint64_t cpu_ldq_be_data(CPUArchState *env, abi_ptr ptr)
 uint32_t cpu_lduw_le_data(CPUArchState *env, abi_ptr ptr)
 {
     MemOpIdx oi = make_memop_idx(MO_LEUW, MMU_USER_IDX);
-    uint16_t meminfo = trace_mem_get_info(oi, false);
     uint32_t ret;
 
-    trace_guest_mem_before_exec(env_cpu(env), ptr, meminfo);
+    trace_guest_ld_before_exec(env_cpu(env), ptr, oi);
     ret = lduw_le_p(g2h(env_cpu(env), ptr));
     qemu_plugin_vcpu_mem_cb(env_cpu(env), ptr, oi, QEMU_PLUGIN_MEM_R);
     return ret;
@@ -XXX,XX +XXX,XX @@ int cpu_ldsw_le_data(CPUArchState *env, abi_ptr ptr)
 uint32_t cpu_ldl_le_data(CPUArchState *env, abi_ptr ptr)
 {
     MemOpIdx oi = make_memop_idx(MO_LEUL, MMU_USER_IDX);
-    uint16_t meminfo = trace_mem_get_info(oi, false);
     uint32_t ret;
 
-    trace_guest_mem_before_exec(env_cpu(env), ptr, meminfo);
+    trace_guest_ld_before_exec(env_cpu(env), ptr, oi);
     ret = ldl_le_p(g2h(env_cpu(env), ptr));
     qemu_plugin_vcpu_mem_cb(env_cpu(env), ptr, oi, QEMU_PLUGIN_MEM_R);
     return ret;
@@ -XXX,XX +XXX,XX @@ uint32_t cpu_ldl_le_data(CPUArchState *env, abi_ptr ptr)
 uint64_t cpu_ldq_le_data(CPUArchState *env, abi_ptr ptr)
 {
     MemOpIdx oi = make_memop_idx(MO_LEQ, MMU_USER_IDX);
-    uint16_t meminfo = trace_mem_get_info(oi, false);
     uint64_t ret;
 
-    trace_guest_mem_before_exec(env_cpu(env), ptr, meminfo);
+    trace_guest_ld_before_exec(env_cpu(env), ptr, oi);
     ret = ldq_le_p(g2h(env_cpu(env), ptr));
     qemu_plugin_vcpu_mem_cb(env_cpu(env), ptr, oi, QEMU_PLUGIN_MEM_R);
     return ret;
@@ -XXX,XX +XXX,XX @@ uint64_t cpu_ldq_le_data_ra(CPUArchState *env, abi_ptr ptr, uintptr_t retaddr)
 void cpu_stb_data(CPUArchState *env, abi_ptr ptr, uint32_t val)
 {
     MemOpIdx oi = make_memop_idx(MO_UB, MMU_USER_IDX);
-    uint16_t meminfo = trace_mem_get_info(oi, true);
 
-    trace_guest_mem_before_exec(env_cpu(env), ptr, meminfo);
+    trace_guest_st_before_exec(env_cpu(env), ptr, oi);
     stb_p(g2h(env_cpu(env), ptr), val);
     qemu_plugin_vcpu_mem_cb(env_cpu(env), ptr, oi, QEMU_PLUGIN_MEM_W);
 }
@@ -XXX,XX +XXX,XX @@ void cpu_stb_data(CPUArchState *env, abi_ptr ptr, uint32_t val)
 void cpu_stw_be_data(CPUArchState *env, abi_ptr ptr, uint32_t val)
 {
     MemOpIdx oi = make_memop_idx(MO_BEUW, MMU_USER_IDX);
-    uint16_t meminfo = trace_mem_get_info(oi, true);
 
-    trace_guest_mem_before_exec(env_cpu(env), ptr, meminfo);
+    trace_guest_st_before_exec(env_cpu(env), ptr, oi);
     stw_be_p(g2h(env_cpu(env), ptr), val);
     qemu_plugin_vcpu_mem_cb(env_cpu(env), ptr, oi, QEMU_PLUGIN_MEM_W);
 }
@@ -XXX,XX +XXX,XX @@ void cpu_stw_be_data(CPUArchState *env, abi_ptr ptr, uint32_t val)
 void cpu_stl_be_data(CPUArchState *env, abi_ptr ptr, uint32_t val)
 {
     MemOpIdx oi = make_memop_idx(MO_BEUL, MMU_USER_IDX);
-    uint16_t meminfo = trace_mem_get_info(oi, true);
 
-    trace_guest_mem_before_exec(env_cpu(env), ptr, meminfo);
+    trace_guest_st_before_exec(env_cpu(env), ptr, oi);
     stl_be_p(g2h(env_cpu(env), ptr), val);
     qemu_plugin_vcpu_mem_cb(env_cpu(env), ptr, oi, QEMU_PLUGIN_MEM_W);
 }
@@ -XXX,XX +XXX,XX @@ void cpu_stl_be_data(CPUArchState *env, abi_ptr ptr, uint32_t val)
 void cpu_stq_be_data(CPUArchState *env, abi_ptr ptr, uint64_t val)
 {
     MemOpIdx oi = make_memop_idx(MO_BEQ, MMU_USER_IDX);
-    uint16_t meminfo = trace_mem_get_info(oi, true);
 
-    trace_guest_mem_before_exec(env_cpu(env), ptr, meminfo);
+    trace_guest_st_before_exec(env_cpu(env), ptr, oi);
     stq_be_p(g2h(env_cpu(env), ptr), val);
     qemu_plugin_vcpu_mem_cb(env_cpu(env), ptr, oi, QEMU_PLUGIN_MEM_W);
 }
@@ -XXX,XX +XXX,XX @@ void cpu_stq_be_data(CPUArchState *env, abi_ptr ptr, uint64_t val)
 void cpu_stw_le_data(CPUArchState *env, abi_ptr ptr, uint32_t val)
 {
     MemOpIdx oi = make_memop_idx(MO_LEUW, MMU_USER_IDX);
-    uint16_t meminfo = trace_mem_get_info(oi, true);
 
-    trace_guest_mem_before_exec(env_cpu(env), ptr, meminfo);
+    trace_guest_st_before_exec(env_cpu(env), ptr, oi);
     stw_le_p(g2h(env_cpu(env), ptr), val);
     qemu_plugin_vcpu_mem_cb(env_cpu(env), ptr, oi, QEMU_PLUGIN_MEM_W);
 }
@@ -XXX,XX +XXX,XX @@ void cpu_stw_le_data(CPUArchState *env, abi_ptr ptr, uint32_t val)
 void cpu_stl_le_data(CPUArchState *env, abi_ptr ptr, uint32_t val)
 {
     MemOpIdx oi = make_memop_idx(MO_LEUL, MMU_USER_IDX);
-    uint16_t meminfo = trace_mem_get_info(oi, true);
 
-    trace_guest_mem_before_exec(env_cpu(env), ptr, meminfo);
+    trace_guest_st_before_exec(env_cpu(env), ptr, oi);
     stl_le_p(g2h(env_cpu(env), ptr), val);
     qemu_plugin_vcpu_mem_cb(env_cpu(env), ptr, oi, QEMU_PLUGIN_MEM_W);
 }
@@ -XXX,XX +XXX,XX @@ void cpu_stl_le_data(CPUArchState *env, abi_ptr ptr, uint32_t val)
 void cpu_stq_le_data(CPUArchState *env, abi_ptr ptr, uint64_t val)
 {
     MemOpIdx oi = make_memop_idx(MO_LEQ, MMU_USER_IDX);
-    uint16_t meminfo = trace_mem_get_info(oi, true);
 
-    trace_guest_mem_before_exec(env_cpu(env), ptr, meminfo);
+    trace_guest_st_before_exec(env_cpu(env), ptr, oi);
     stq_le_p(g2h(env_cpu(env), ptr), val);
     qemu_plugin_vcpu_mem_cb(env_cpu(env), ptr, oi, QEMU_PLUGIN_MEM_W);
 }
diff --git a/tcg/tcg-op.c b/tcg/tcg-op.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/tcg-op.c
+++ b/tcg/tcg-op.c
@@ -XXX,XX +XXX,XX @@
 #include "tcg/tcg-op.h"
 #include "tcg/tcg-mo.h"
 #include "trace-tcg.h"
-#include "trace/mem.h"
 #include "exec/plugin-gen.h"
 
 /* Reduce the number of ifdefs below.  This assumes that all uses of
@@ -XXX,XX +XXX,XX @@ void tcg_gen_qemu_ld_i32(TCGv_i32 val, TCGv addr, TCGArg idx, MemOp memop)
 {
     MemOp orig_memop;
     MemOpIdx oi;
-    uint16_t info;
 
     tcg_gen_req_mo(TCG_MO_LD_LD | TCG_MO_ST_LD);
     memop = tcg_canonicalize_memop(memop, 0, 0);
     oi = make_memop_idx(memop, idx);
-    info = trace_mem_get_info(oi, 0);
-    trace_guest_mem_before_tcg(tcg_ctx->cpu, cpu_env, addr, info);
+    trace_guest_ld_before_tcg(tcg_ctx->cpu, cpu_env, addr, oi);
 
     orig_memop = memop;
     if (!TCG_TARGET_HAS_MEMORY_BSWAP && (memop & MO_BSWAP)) {
@@ -XXX,XX +XXX,XX @@ void tcg_gen_qemu_st_i32(TCGv_i32 val, TCGv addr, TCGArg idx, MemOp memop)
 {
     TCGv_i32 swap = NULL;
     MemOpIdx oi;
-    uint16_t info;
 
     tcg_gen_req_mo(TCG_MO_LD_ST | TCG_MO_ST_ST);
     memop = tcg_canonicalize_memop(memop, 0, 1);
     oi = make_memop_idx(memop, idx);
-    info = trace_mem_get_info(oi, 1);
-    trace_guest_mem_before_tcg(tcg_ctx->cpu, cpu_env, addr, info);
+    trace_guest_st_before_tcg(tcg_ctx->cpu, cpu_env, addr, oi);
 
     if (!TCG_TARGET_HAS_MEMORY_BSWAP && (memop & MO_BSWAP)) {
         swap = tcg_temp_new_i32();
@@ -XXX,XX +XXX,XX @@ void tcg_gen_qemu_ld_i64(TCGv_i64 val, TCGv addr, TCGArg idx, MemOp memop)
 {
     MemOp orig_memop;
     MemOpIdx oi;
-    uint16_t info;
 
     if (TCG_TARGET_REG_BITS == 32 && (memop & MO_SIZE) < MO_64) {
         tcg_gen_qemu_ld_i32(TCGV_LOW(val), addr, idx, memop);
@@ -XXX,XX +XXX,XX @@ void tcg_gen_qemu_ld_i64(TCGv_i64 val, TCGv addr, TCGArg idx, MemOp memop)
     tcg_gen_req_mo(TCG_MO_LD_LD | TCG_MO_ST_LD);
     memop = tcg_canonicalize_memop(memop, 1, 0);
     oi = make_memop_idx(memop, idx);
-    info = trace_mem_get_info(oi, 0);
-    trace_guest_mem_before_tcg(tcg_ctx->cpu, cpu_env, addr, info);
+    trace_guest_ld_before_tcg(tcg_ctx->cpu, cpu_env, addr, oi);
 
     orig_memop = memop;
     if (!TCG_TARGET_HAS_MEMORY_BSWAP && (memop & MO_BSWAP)) {
@@ -XXX,XX +XXX,XX @@ void tcg_gen_qemu_st_i64(TCGv_i64 val, TCGv addr, TCGArg idx, MemOp memop)
 {
     TCGv_i64 swap = NULL;
     MemOpIdx oi;
-    uint16_t info;
 
     if (TCG_TARGET_REG_BITS == 32 && (memop & MO_SIZE) < MO_64) {
         tcg_gen_qemu_st_i32(TCGV_LOW(val), addr, idx, memop);
@@ -XXX,XX +XXX,XX @@ void tcg_gen_qemu_st_i64(TCGv_i64 val, TCGv addr, TCGArg idx, MemOp memop)
     tcg_gen_req_mo(TCG_MO_LD_ST | TCG_MO_ST_ST);
     memop = tcg_canonicalize_memop(memop, 1, 1);
     oi = make_memop_idx(memop, idx);
-    info = trace_mem_get_info(oi, 1);
-    trace_guest_mem_before_tcg(tcg_ctx->cpu, cpu_env, addr, info);
+    trace_guest_st_before_tcg(tcg_ctx->cpu, cpu_env, addr, oi);
 
     if (!TCG_TARGET_HAS_MEMORY_BSWAP && (memop & MO_BSWAP)) {
         swap = tcg_temp_new_i64();
diff --git a/accel/tcg/atomic_common.c.inc b/accel/tcg/atomic_common.c.inc
index XXXXXXX..XXXXXXX 100644
--- a/accel/tcg/atomic_common.c.inc
+++ b/accel/tcg/atomic_common.c.inc
@@ -XXX,XX +XXX,XX @@ static void atomic_trace_rmw_pre(CPUArchState *env, target_ulong addr,
                                  MemOpIdx oi)
 {
     CPUState *cpu = env_cpu(env);
-    uint16_t info = trace_mem_get_info(oi, false);
 
-    trace_guest_mem_before_exec(cpu, addr, info);
-    trace_guest_mem_before_exec(cpu, addr, info | TRACE_MEM_ST);
+    trace_guest_rmw_before_exec(cpu, addr, oi);
 }
 
 static void atomic_trace_rmw_post(CPUArchState *env, target_ulong addr,
@@ -XXX,XX +XXX,XX @@ static void atomic_trace_rmw_post(CPUArchState *env, target_ulong addr,
 static void atomic_trace_ld_pre(CPUArchState *env, target_ulong addr,
                                 MemOpIdx oi)
 {
-    uint16_t info = trace_mem_get_info(oi, false);
-
-    trace_guest_mem_before_exec(env_cpu(env), addr, info);
+    trace_guest_ld_before_exec(env_cpu(env), addr, oi);
 }
 
 static void atomic_trace_ld_post(CPUArchState *env, target_ulong addr,
@@ -XXX,XX +XXX,XX @@ static void atomic_trace_ld_post(CPUArchState *env, target_ulong addr,
 static void atomic_trace_st_pre(CPUArchState *env, target_ulong addr,
                                 MemOpIdx oi)
 {
-    uint16_t info = trace_mem_get_info(oi, true);
-
-    trace_guest_mem_before_exec(env_cpu(env), addr, info);
+    trace_guest_st_before_exec(env_cpu(env), addr, oi);
 }
 
 static void atomic_trace_st_post(CPUArchState *env, target_ulong addr,
diff --git a/trace-events b/trace-events
index XXXXXXX..XXXXXXX 100644
--- a/trace-events
+++ b/trace-events
@@ -XXX,XX +XXX,XX @@ vcpu guest_cpu_reset(void)
 # tcg/tcg-op.c
 
 # @vaddr: Access' virtual address.
-# @info : Access' information (see below).
+# @memopidx: Access' information (see below).
 #
 # Start virtual memory access (before any potential access violation).
-#
 # Does not include memory accesses performed by devices.
 #
-# Access information can be parsed as:
-#
-# struct mem_info {
-#     uint8_t size_shift : 4; /* interpreted as "1 << size_shift" bytes */
-#     bool    sign_extend: 1; /* sign-extended */
-#     uint8_t endianness : 1; /* 0: little, 1: big */
-#     bool    store      : 1; /* whether it is a store operation */
-#             pad        : 1;
-#     uint8_t mmuidx     : 4; /* mmuidx (softmmu only)  */
-# };
-#
 # Mode: user, softmmu
 # Targets: TCG(all)
-vcpu tcg guest_mem_before(TCGv vaddr, uint16_t info) "info=%d", "vaddr=0x%016"PRIx64" info=%d"
+vcpu tcg guest_ld_before(TCGv vaddr, uint32_t memopidx) "info=%d", "vaddr=0x%016"PRIx64" memopidx=0x%x"
+vcpu tcg guest_st_before(TCGv vaddr, uint32_t memopidx) "info=%d", "vaddr=0x%016"PRIx64" memopidx=0x%x"
+vcpu tcg guest_rmw_before(TCGv vaddr, uint32_t memopidx) "info=%d", "vaddr=0x%016"PRIx64" memopidx=0x%x"
 
 # include/user/syscall-trace.h
 
-- 
2.25.1

Despite the comment, the members were not kept at the end.

Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 include/hw/core/cpu.h | 11 +++++++----
 1 file changed, 7 insertions(+), 4 deletions(-)

diff --git a/include/hw/core/cpu.h b/include/hw/core/cpu.h
index XXXXXXX..XXXXXXX 100644
--- a/include/hw/core/cpu.h
+++ b/include/hw/core/cpu.h
@@ -XXX,XX +XXX,XX @@ struct CPUClass {
     ObjectClass *(*class_by_name)(const char *cpu_model);
     void (*parse_features)(const char *typename, char *str, Error **errp);
 
-    int reset_dump_flags;
     bool (*has_work)(CPUState *cpu);
     int (*memory_rw_debug)(CPUState *cpu, vaddr addr,
                            uint8_t *buf, int len, bool is_write);
@@ -XXX,XX +XXX,XX @@ struct CPUClass {
     void (*disas_set_info)(CPUState *cpu, disassemble_info *info);
 
     const char *deprecation_note;
-    /* Keep non-pointer data at the end to minimize holes.  */
-    int gdb_num_core_regs;
-    bool gdb_stop_before_watchpoint;
     struct AccelCPUClass *accel_cpu;
 
     /* when system emulation is not available, this pointer is NULL */
@@ -XXX,XX +XXX,XX @@ struct CPUClass {
      * class data that depends on the accelerator, see accel/accel-common.c.
      */
     void (*init_accel_cpu)(struct AccelCPUClass *accel_cpu, CPUClass *cc);
+
+    /*
+     * Keep non-pointer data at the end to minimize holes.
+     */
+    int reset_dump_flags;
+    int gdb_num_core_regs;
+    bool gdb_stop_before_watchpoint;
 };
 
 /*
-- 
2.25.1

For usadd, we only have to consider overflow.  Since ~B + B == -1,
the maximum value for A that saturates is ~B.

For ussub, we only have to consider underflow.  The minimum value
that saturates to 0 from A - B is B.

Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/tcg-op-vec.c | 37 +++++++++++++++++++++++++++++++++++--
 1 file changed, 35 insertions(+), 2 deletions(-)

diff --git a/tcg/tcg-op-vec.c b/tcg/tcg-op-vec.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/tcg-op-vec.c
+++ b/tcg/tcg-op-vec.c
@@ -XXX,XX +XXX,XX @@ bool tcg_can_emit_vecop_list(const TCGOpcode *list,
                 continue;
             }
             break;
+        case INDEX_op_usadd_vec:
+            if (tcg_can_emit_vec_op(INDEX_op_umin_vec, type, vece) ||
+                tcg_can_emit_vec_op(INDEX_op_cmp_vec, type, vece)) {
+                continue;
+            }
+            break;
+        case INDEX_op_ussub_vec:
+            if (tcg_can_emit_vec_op(INDEX_op_umax_vec, type, vece) ||
+                tcg_can_emit_vec_op(INDEX_op_cmp_vec, type, vece)) {
+                continue;
+            }
+            break;
         case INDEX_op_cmpsel_vec:
         case INDEX_op_smin_vec:
         case INDEX_op_smax_vec:
@@ -XXX,XX +XXX,XX @@ void tcg_gen_ssadd_vec(unsigned vece, TCGv_vec r, TCGv_vec a, TCGv_vec b)
 
 void tcg_gen_usadd_vec(unsigned vece, TCGv_vec r, TCGv_vec a, TCGv_vec b)
 {
-    do_op3_nofail(vece, r, a, b, INDEX_op_usadd_vec);
+    if (!do_op3(vece, r, a, b, INDEX_op_usadd_vec)) {
+        const TCGOpcode *hold_list = tcg_swap_vecop_list(NULL);
+        TCGv_vec t = tcg_temp_new_vec_matching(r);
+
+        /* usadd(a, b) = min(a, ~b) + b */
+        tcg_gen_not_vec(vece, t, b);
+        tcg_gen_umin_vec(vece, t, t, a);
+        tcg_gen_add_vec(vece, r, t, b);
+
+        tcg_temp_free_vec(t);
+        tcg_swap_vecop_list(hold_list);
+    }
 }
 
 void tcg_gen_sssub_vec(unsigned vece, TCGv_vec r, TCGv_vec a, TCGv_vec b)
@@ -XXX,XX +XXX,XX @@ void tcg_gen_sssub_vec(unsigned vece, TCGv_vec r, TCGv_vec a, TCGv_vec b)
 
 void tcg_gen_ussub_vec(unsigned vece, TCGv_vec r, TCGv_vec a, TCGv_vec b)
 {
-    do_op3_nofail(vece, r, a, b, INDEX_op_ussub_vec);
+    if (!do_op3(vece, r, a, b, INDEX_op_ussub_vec)) {
+        const TCGOpcode *hold_list = tcg_swap_vecop_list(NULL);
+        TCGv_vec t = tcg_temp_new_vec_matching(r);
+
+        /* ussub(a, b) = max(a, b) - b */
+        tcg_gen_umax_vec(vece, t, a, b);
+        tcg_gen_sub_vec(vece, r, t, b);
+
+        tcg_temp_free_vec(t);
+        tcg_swap_vecop_list(hold_list);
+    }
 }
 
 static void do_minmax(unsigned vece, TCGv_vec r, TCGv_vec a,
-- 
2.25.1

This emphasizes that we don't support s390, only 64-bit s390x hosts.

Reviewed-by: Thomas Huth <thuth@redhat.com>
Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
Reviewed-by: David Hildenbrand <david@redhat.com>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 meson.build                              | 2 --
 tcg/{s390 => s390x}/tcg-target-con-set.h | 0
 tcg/{s390 => s390x}/tcg-target-con-str.h | 0
 tcg/{s390 => s390x}/tcg-target.h         | 0
 tcg/{s390 => s390x}/tcg-target.c.inc     | 0
 5 files changed, 2 deletions(-)
 rename tcg/{s390 => s390x}/tcg-target-con-set.h (100%)
 rename tcg/{s390 => s390x}/tcg-target-con-str.h (100%)
 rename tcg/{s390 => s390x}/tcg-target.h (100%)
 rename tcg/{s390 => s390x}/tcg-target.c.inc (100%)

diff --git a/meson.build b/meson.build
index XXXXXXX..XXXXXXX 100644
--- a/meson.build
+++ b/meson.build
@@ -XXX,XX +XXX,XX @@ if not get_option('tcg').disabled()
     tcg_arch = 'tci'
   elif config_host['ARCH'] == 'sparc64'
     tcg_arch = 'sparc'
-  elif config_host['ARCH'] == 's390x'
-    tcg_arch = 's390'
   elif config_host['ARCH'] in ['x86_64', 'x32']
     tcg_arch = 'i386'
   elif config_host['ARCH'] == 'ppc64'
diff --git a/tcg/s390/tcg-target-con-set.h b/tcg/s390x/tcg-target-con-set.h
similarity index 100%
rename from tcg/s390/tcg-target-con-set.h
rename to tcg/s390x/tcg-target-con-set.h
diff --git a/tcg/s390/tcg-target-con-str.h b/tcg/s390x/tcg-target-con-str.h
similarity index 100%
rename from tcg/s390/tcg-target-con-str.h
rename to tcg/s390x/tcg-target-con-str.h
diff --git a/tcg/s390/tcg-target.h b/tcg/s390x/tcg-target.h
similarity index 100%
rename from tcg/s390/tcg-target.h
rename to tcg/s390x/tcg-target.h
diff --git a/tcg/s390/tcg-target.c.inc b/tcg/s390x/tcg-target.c.inc
similarity index 100%
rename from tcg/s390/tcg-target.c.inc
rename to tcg/s390x/tcg-target.c.inc
-- 
2.25.1

We will shortly need to be able to check facilities beyond the
first 64.  Instead of explicitly masking against s390_facilities,
create a HAVE_FACILITY macro that indexes an array.

Reviewed-by: David Hildenbrand <david@redhat.com>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
v2: Change name to HAVE_FACILITY (david)
---
 tcg/s390x/tcg-target.h     | 29 ++++++++-------
 tcg/s390x/tcg-target.c.inc | 74 +++++++++++++++++++-------------------
 2 files changed, 52 insertions(+), 51 deletions(-)

diff --git a/tcg/s390x/tcg-target.h b/tcg/s390x/tcg-target.h
index XXXXXXX..XXXXXXX 100644
--- a/tcg/s390x/tcg-target.h
+++ b/tcg/s390x/tcg-target.h
@@ -XXX,XX +XXX,XX @@ typedef enum TCGReg {
 /* A list of relevant facilities used by this translator.  Some of these
    are required for proper operation, and these are checked at startup.  */
 
-#define FACILITY_ZARCH_ACTIVE         (1ULL << (63 - 2))
-#define FACILITY_LONG_DISP            (1ULL << (63 - 18))
-#define FACILITY_EXT_IMM              (1ULL << (63 - 21))
-#define FACILITY_GEN_INST_EXT         (1ULL << (63 - 34))
-#define FACILITY_LOAD_ON_COND         (1ULL << (63 - 45))
+#define FACILITY_ZARCH_ACTIVE         2
+#define FACILITY_LONG_DISP            18
+#define FACILITY_EXT_IMM              21
+#define FACILITY_GEN_INST_EXT         34
+#define FACILITY_LOAD_ON_COND         45
 #define FACILITY_FAST_BCR_SER         FACILITY_LOAD_ON_COND
 #define FACILITY_DISTINCT_OPS         FACILITY_LOAD_ON_COND
-#define FACILITY_LOAD_ON_COND2        (1ULL << (63 - 53))
+#define FACILITY_LOAD_ON_COND2        53
 
-extern uint64_t s390_facilities;
+extern uint64_t s390_facilities[1];
+
+#define HAVE_FACILITY(X) \
+    ((s390_facilities[FACILITY_##X / 64] >> (63 - FACILITY_##X % 64)) & 1)
 
 /* optional instructions */
 #define TCG_TARGET_HAS_div2_i32       1
@@ -XXX,XX +XXX,XX @@ extern uint64_t s390_facilities;
 #define TCG_TARGET_HAS_clz_i32        0
 #define TCG_TARGET_HAS_ctz_i32        0
 #define TCG_TARGET_HAS_ctpop_i32      0
-#define TCG_TARGET_HAS_deposit_i32    (s390_facilities & FACILITY_GEN_INST_EXT)
-#define TCG_TARGET_HAS_extract_i32    (s390_facilities & FACILITY_GEN_INST_EXT)
+#define TCG_TARGET_HAS_deposit_i32    HAVE_FACILITY(GEN_INST_EXT)
+#define TCG_TARGET_HAS_extract_i32    HAVE_FACILITY(GEN_INST_EXT)
 #define TCG_TARGET_HAS_sextract_i32   0
 #define TCG_TARGET_HAS_extract2_i32   0
 #define TCG_TARGET_HAS_movcond_i32    1
@@ -XXX,XX +XXX,XX @@ extern uint64_t s390_facilities;
 #define TCG_TARGET_HAS_mulsh_i32      0
 #define TCG_TARGET_HAS_extrl_i64_i32  0
 #define TCG_TARGET_HAS_extrh_i64_i32  0
-#define TCG_TARGET_HAS_direct_jump    (s390_facilities & FACILITY_GEN_INST_EXT)
+#define TCG_TARGET_HAS_direct_jump    HAVE_FACILITY(GEN_INST_EXT)
 #define TCG_TARGET_HAS_qemu_st8_i32   0
 
 #define TCG_TARGET_HAS_div2_i64       1
@@ -XXX,XX +XXX,XX @@ extern uint64_t s390_facilities;
 #define TCG_TARGET_HAS_eqv_i64        0
 #define TCG_TARGET_HAS_nand_i64       0
 #define TCG_TARGET_HAS_nor_i64        0
-#define TCG_TARGET_HAS_clz_i64        (s390_facilities & FACILITY_EXT_IMM)
+#define TCG_TARGET_HAS_clz_i64        HAVE_FACILITY(EXT_IMM)
 #define TCG_TARGET_HAS_ctz_i64        0
 #define TCG_TARGET_HAS_ctpop_i64      0
-#define TCG_TARGET_HAS_deposit_i64    (s390_facilities & FACILITY_GEN_INST_EXT)
-#define TCG_TARGET_HAS_extract_i64    (s390_facilities & FACILITY_GEN_INST_EXT)
+#define TCG_TARGET_HAS_deposit_i64    HAVE_FACILITY(GEN_INST_EXT)
+#define TCG_TARGET_HAS_extract_i64    HAVE_FACILITY(GEN_INST_EXT)
 #define TCG_TARGET_HAS_sextract_i64   0
 #define TCG_TARGET_HAS_extract2_i64   0
 #define TCG_TARGET_HAS_movcond_i64    1
diff --git a/tcg/s390x/tcg-target.c.inc b/tcg/s390x/tcg-target.c.inc
index XXXXXXX..XXXXXXX 100644
--- a/tcg/s390x/tcg-target.c.inc
+++ b/tcg/s390x/tcg-target.c.inc
@@ -XXX,XX +XXX,XX @@
    We don't need this when we have pc-relative loads with the general
    instructions extension facility.  */
 #define TCG_REG_TB      TCG_REG_R12
-#define USE_REG_TB      (!(s390_facilities & FACILITY_GEN_INST_EXT))
+#define USE_REG_TB      (!HAVE_FACILITY(GEN_INST_EXT))
 
 #ifndef CONFIG_SOFTMMU
 #define TCG_GUEST_BASE_REG TCG_REG_R13
@@ -XXX,XX +XXX,XX @@ static void * const qemu_st_helpers[(MO_SIZE | MO_BSWAP) + 1] = {
 #endif
 
 static const tcg_insn_unit *tb_ret_addr;
-uint64_t s390_facilities;
+uint64_t s390_facilities[1];
 
 static bool patch_reloc(tcg_insn_unit *src_rw, int type,
                         intptr_t value, intptr_t addend)
@@ -XXX,XX +XXX,XX @@ static void tcg_out_movi_int(TCGContext *s, TCGType type, TCGReg ret,
     }
 
     /* Try all 48-bit insns that can load it in one go.  */
-    if (s390_facilities & FACILITY_EXT_IMM) {
+    if (HAVE_FACILITY(EXT_IMM)) {
         if (sval == (int32_t)sval) {
             tcg_out_insn(s, RIL, LGFI, ret, sval);
             return;
@@ -XXX,XX +XXX,XX @@ static void tcg_out_movi_int(TCGContext *s, TCGType type, TCGReg ret,
     }
 
     /* Otherwise, stuff it in the constant pool.  */
-    if (s390_facilities & FACILITY_GEN_INST_EXT) {
+    if (HAVE_FACILITY(GEN_INST_EXT)) {
         tcg_out_insn(s, RIL, LGRL, ret, 0);
         new_pool_label(s, sval, R_390_PC32DBL, s->code_ptr - 2, 2);
     } else if (USE_REG_TB && !in_prologue) {
@@ -XXX,XX +XXX,XX @@ static void tcg_out_ld_abs(TCGContext *s, TCGType type,
 {
     intptr_t addr = (intptr_t)abs;
 
-    if ((s390_facilities & FACILITY_GEN_INST_EXT) && !(addr & 1)) {
+    if (HAVE_FACILITY(GEN_INST_EXT) && !(addr & 1)) {
         ptrdiff_t disp = tcg_pcrel_diff(s, abs) >> 1;
         if (disp == (int32_t)disp) {
             if (type == TCG_TYPE_I32) {
@@ -XXX,XX +XXX,XX @@ static inline void tcg_out_risbg(TCGContext *s, TCGReg dest, TCGReg src,
 
 static void tgen_ext8s(TCGContext *s, TCGType type, TCGReg dest, TCGReg src)
 {
-    if (s390_facilities & FACILITY_EXT_IMM) {
+    if (HAVE_FACILITY(EXT_IMM)) {
         tcg_out_insn(s, RRE, LGBR, dest, src);
         return;
     }
@@ -XXX,XX +XXX,XX @@ static void tgen_ext8s(TCGContext *s, TCGType type, TCGReg dest, TCGReg src)
 
 static void tgen_ext8u(TCGContext *s, TCGType type, TCGReg dest, TCGReg src)
 {
-    if (s390_facilities & FACILITY_EXT_IMM) {
+    if (HAVE_FACILITY(EXT_IMM)) {
         tcg_out_insn(s, RRE, LLGCR, dest, src);
         return;
     }
@@ -XXX,XX +XXX,XX @@ static void tgen_ext8u(TCGContext *s, TCGType type, TCGReg dest, TCGReg src)
 
 static void tgen_ext16s(TCGContext *s, TCGType type, TCGReg dest, TCGReg src)
 {
-    if (s390_facilities & FACILITY_EXT_IMM) {
+    if (HAVE_FACILITY(EXT_IMM)) {
         tcg_out_insn(s, RRE, LGHR, dest, src);
         return;
     }
@@ -XXX,XX +XXX,XX @@ static void tgen_ext16s(TCGContext *s, TCGType type, TCGReg dest, TCGReg src)
 
 static void tgen_ext16u(TCGContext *s, TCGType type, TCGReg dest, TCGReg src)
 {
-    if (s390_facilities & FACILITY_EXT_IMM) {
+    if (HAVE_FACILITY(EXT_IMM)) {
         tcg_out_insn(s, RRE, LLGHR, dest, src);
         return;
     }
@@ -XXX,XX +XXX,XX @@ static void tgen_andi(TCGContext *s, TCGType type, TCGReg dest, uint64_t val)
         tgen_ext32u(s, dest, dest);
         return;
     }
-    if (s390_facilities & FACILITY_EXT_IMM) {
+    if (HAVE_FACILITY(EXT_IMM)) {
         if ((val & valid) == 0xff) {
             tgen_ext8u(s, TCG_TYPE_I64, dest, dest);
             return;
@@ -XXX,XX +XXX,XX @@ static void tgen_andi(TCGContext *s, TCGType type, TCGReg dest, uint64_t val)
     }
 
     /* Try all 48-bit insns that can perform it in one go.  */
-    if (s390_facilities & FACILITY_EXT_IMM) {
+    if (HAVE_FACILITY(EXT_IMM)) {
         for (i = 0; i < 2; i++) {
             tcg_target_ulong mask = ~(0xffffffffull << i*32);
             if (((val | ~valid) & mask) == mask) {
@@ -XXX,XX +XXX,XX @@ static void tgen_andi(TCGContext *s, TCGType type, TCGReg dest, uint64_t val)
             }
         }
     }
-    if ((s390_facilities & FACILITY_GEN_INST_EXT) && risbg_mask(val)) {
+    if (HAVE_FACILITY(GEN_INST_EXT) && risbg_mask(val)) {
         tgen_andi_risbg(s, dest, dest, val);
         return;
     }
@@ -XXX,XX +XXX,XX @@ static void tgen_ori(TCGContext *s, TCGType type, TCGReg dest, uint64_t val)
     }
 
     /* Try all 48-bit insns that can perform it in one go.  */
-    if (s390_facilities & FACILITY_EXT_IMM) {
+    if (HAVE_FACILITY(EXT_IMM)) {
         for (i = 0; i < 2; i++) {
             tcg_target_ulong mask = (0xffffffffull << i*32);
             if ((val & mask) != 0 && (val & ~mask) == 0) {
@@ -XXX,XX +XXX,XX @@ static void tgen_ori(TCGContext *s, TCGType type, TCGReg dest, uint64_t val)
         /* Perform the OR via sequential modifications to the high and
            low parts.  Do this via recursion to handle 16-bit vs 32-bit
            masks in each half.  */
-        tcg_debug_assert(s390_facilities & FACILITY_EXT_IMM);
+        tcg_debug_assert(HAVE_FACILITY(EXT_IMM));
         tgen_ori(s, type, dest, val & 0x00000000ffffffffull);
         tgen_ori(s, type, dest, val & 0xffffffff00000000ull);
     }
@@ -XXX,XX +XXX,XX @@ static void tgen_ori(TCGContext *s, TCGType type, TCGReg dest, uint64_t val)
 static void tgen_xori(TCGContext *s, TCGType type, TCGReg dest, uint64_t val)
 {
     /* Try all 48-bit insns that can perform it in one go.  */
-    if (s390_facilities & FACILITY_EXT_IMM) {
+    if (HAVE_FACILITY(EXT_IMM)) {
         if ((val & 0xffffffff00000000ull) == 0) {
             tcg_out_insn(s, RIL, XILF, dest, val);
             return;
@@ -XXX,XX +XXX,XX @@ static void tgen_xori(TCGContext *s, TCGType type, TCGReg dest, uint64_t val)
                        tcg_tbrel_diff(s, NULL));
     } else {
         /* Perform the xor by parts.  */
-        tcg_debug_assert(s390_facilities & FACILITY_EXT_IMM);
+        tcg_debug_assert(HAVE_FACILITY(EXT_IMM));
         if (val & 0xffffffff) {
             tcg_out_insn(s, RIL, XILF, dest, val);
         }
@@ -XXX,XX +XXX,XX @@ static int tgen_cmp(TCGContext *s, TCGType type, TCGCond c, TCGReg r1,
             goto exit;
         }
 
-        if (s390_facilities & FACILITY_EXT_IMM) {
+        if (HAVE_FACILITY(EXT_IMM)) {
             if (type == TCG_TYPE_I32) {
                 op = (is_unsigned ? RIL_CLFI : RIL_CFI);
                 tcg_out_insn_RIL(s, op, r1, c2);
@@ -XXX,XX +XXX,XX @@ static void tgen_setcond(TCGContext *s, TCGType type, TCGCond cond,
     bool have_loc;
 
     /* With LOC2, we can always emit the minimum 3 insns.  */
-    if (s390_facilities & FACILITY_LOAD_ON_COND2) {
+    if (HAVE_FACILITY(LOAD_ON_COND2)) {
         /* Emit: d = 0, d = (cc ? 1 : d).  */
         cc = tgen_cmp(s, type, cond, c1, c2, c2const, false);
         tcg_out_movi(s, TCG_TYPE_I64, dest, 0);
@@ -XXX,XX +XXX,XX @@ static void tgen_setcond(TCGContext *s, TCGType type, TCGCond cond,
         return;
     }
 
-    have_loc = (s390_facilities & FACILITY_LOAD_ON_COND) != 0;
+    have_loc = HAVE_FACILITY(LOAD_ON_COND);
 
     /* For HAVE_LOC, only the paths through GTU/GT/LEU/LE are smaller.  */
  restart:
@@ -XXX,XX +XXX,XX @@ static void tgen_movcond(TCGContext *s, TCGType type, TCGCond c, TCGReg dest,
                          TCGArg v3, int v3const)
 {
     int cc;
-    if (s390_facilities & FACILITY_LOAD_ON_COND) {
+    if (HAVE_FACILITY(LOAD_ON_COND)) {
         cc = tgen_cmp(s, type, c, c1, c2, c2const, false);
         if (v3const) {
             tcg_out_insn(s, RIE, LOCGHI, dest, v3, cc);
@@ -XXX,XX +XXX,XX @@ static void tgen_clz(TCGContext *s, TCGReg dest, TCGReg a1,
         } else {
             tcg_out_mov(s, TCG_TYPE_I64, dest, a2);
         }
-        if (s390_facilities & FACILITY_LOAD_ON_COND) {
+        if (HAVE_FACILITY(LOAD_ON_COND)) {
             /* Emit: if (one bit found) dest = r0.  */
             tcg_out_insn(s, RRF, LOCGR, dest, TCG_REG_R0, 2);
         } else {
@@ -XXX,XX +XXX,XX @@ static void tgen_brcond(TCGContext *s, TCGType type, TCGCond c,
 {
     int cc;
 
-    if (s390_facilities & FACILITY_GEN_INST_EXT) {
+    if (HAVE_FACILITY(GEN_INST_EXT)) {
         bool is_unsigned = is_unsigned_cond(c);
         bool in_range;
         S390Opcode opc;
@@ -XXX,XX +XXX,XX @@ static TCGReg tcg_out_tlb_read(TCGContext *s, TCGReg addr_reg, MemOp opc,
        cross pages using the address of the last byte of the access.  */
     a_off = (a_bits >= s_bits ? 0 : s_mask - a_mask);
     tlb_mask = (uint64_t)TARGET_PAGE_MASK | a_mask;
-    if ((s390_facilities & FACILITY_GEN_INST_EXT) && a_off == 0) {
+    if (HAVE_FACILITY(GEN_INST_EXT) && a_off == 0) {
         tgen_andi_risbg(s, TCG_REG_R3, addr_reg, tlb_mask);
     } else {
         tcg_out_insn(s, RX, LA, TCG_REG_R3, addr_reg, TCG_REG_NONE, a_off);
@@ -XXX,XX +XXX,XX @@ static inline void tcg_out_op(TCGContext *s, TCGOpcode opc,
                     tcg_out_insn(s, RI, AHI, a0, a2);
                     break;
                 }
-                if (s390_facilities & FACILITY_EXT_IMM) {
+                if (HAVE_FACILITY(EXT_IMM)) {
                     tcg_out_insn(s, RIL, AFI, a0, a2);
                     break;
                 }
@@ -XXX,XX +XXX,XX @@ static inline void tcg_out_op(TCGContext *s, TCGOpcode opc,
                     tcg_out_insn(s, RI, AGHI, a0, a2);
                     break;
                 }
-                if (s390_facilities & FACILITY_EXT_IMM) {
+                if (HAVE_FACILITY(EXT_IMM)) {
                     if (a2 == (int32_t)a2) {
                         tcg_out_insn(s, RIL, AGFI, a0, a2);
                         break;
@@ -XXX,XX +XXX,XX @@ static inline void tcg_out_op(TCGContext *s, TCGOpcode opc,
         /* The host memory model is quite strong, we simply need to
            serialize the instruction stream.  */
         if (args[0] & TCG_MO_ST_LD) {
-            tcg_out_insn(s, RR, BCR,
-                         s390_facilities & FACILITY_FAST_BCR_SER ? 14 : 15, 0);
+            tcg_out_insn(s, RR, BCR, HAVE_FACILITY(FAST_BCR_SER) ? 14 : 15, 0);
         }
         break;
 
@@ -XXX,XX +XXX,XX @@ static TCGConstraintSetIndex tcg_target_op_def(TCGOpcode op)
     case INDEX_op_or_i64:
     case INDEX_op_xor_i32:
     case INDEX_op_xor_i64:
-        return (s390_facilities & FACILITY_DISTINCT_OPS
+        return (HAVE_FACILITY(DISTINCT_OPS)
                 ? C_O1_I2(r, r, ri)
                 : C_O1_I2(r, 0, ri));
 
@@ -XXX,XX +XXX,XX @@ static TCGConstraintSetIndex tcg_target_op_def(TCGOpcode op)
         /* If we have the general-instruction-extensions, then we have
            MULTIPLY SINGLE IMMEDIATE with a signed 32-bit, otherwise we
            have only MULTIPLY HALFWORD IMMEDIATE, with a signed 16-bit.  */
-        return (s390_facilities & FACILITY_GEN_INST_EXT
+        return (HAVE_FACILITY(GEN_INST_EXT)
                 ? C_O1_I2(r, 0, ri)
                 : C_O1_I2(r, 0, rI));
 
     case INDEX_op_mul_i64:
-        return (s390_facilities & FACILITY_GEN_INST_EXT
+        return (HAVE_FACILITY(GEN_INST_EXT)
                 ? C_O1_I2(r, 0, rJ)
                 : C_O1_I2(r, 0, rI));
 
     case INDEX_op_shl_i32:
     case INDEX_op_shr_i32:
     case INDEX_op_sar_i32:
-        return (s390_facilities & FACILITY_DISTINCT_OPS
+        return (HAVE_FACILITY(DISTINCT_OPS)
                 ? C_O1_I2(r, r, ri)
                 : C_O1_I2(r, 0, ri));
 
@@ -XXX,XX +XXX,XX @@ static TCGConstraintSetIndex tcg_target_op_def(TCGOpcode op)
 
     case INDEX_op_movcond_i32:
     case INDEX_op_movcond_i64:
-        return (s390_facilities & FACILITY_LOAD_ON_COND2
+        return (HAVE_FACILITY(LOAD_ON_COND2)
                 ? C_O1_I4(r, r, ri, rI, 0)
                 : C_O1_I4(r, r, ri, r, 0));
 
@@ -XXX,XX +XXX,XX @@ static TCGConstraintSetIndex tcg_target_op_def(TCGOpcode op)
 
     case INDEX_op_add2_i32:
     case INDEX_op_sub2_i32:
-        return (s390_facilities & FACILITY_EXT_IMM
+        return (HAVE_FACILITY(EXT_IMM)
                 ? C_O2_I4(r, r, 0, 1, ri, r)
                 : C_O2_I4(r, r, 0, 1, r, r));
 
     case INDEX_op_add2_i64:
     case INDEX_op_sub2_i64:
-        return (s390_facilities & FACILITY_EXT_IMM
+        return (HAVE_FACILITY(EXT_IMM)
                 ? C_O2_I4(r, r, 0, 1, rA, r)
                 : C_O2_I4(r, r, 0, 1, r, r));
 
@@ -XXX,XX +XXX,XX @@ static void query_s390_facilities(void)
     /* Is STORE FACILITY LIST EXTENDED available?  Honestly, I believe this
        is present on all 64-bit systems, but let's check for it anyway.  */
     if (hwcap & HWCAP_S390_STFLE) {
-        register int r0 __asm__("0");
-        register void *r1 __asm__("1");
+        register int r0 __asm__("0") = ARRAY_SIZE(s390_facilities) - 1;
+        register void *r1 __asm__("1") = s390_facilities;
 
         /* stfle 0(%r1) */
-        r1 = &s390_facilities;
         asm volatile(".word 0xb2b0,0x1000"
-                     : "=r"(r0) : "0"(0), "r"(r1) : "memory", "cc");
+                     : "=r"(r0) : "r"(r0), "r"(r1) : "memory", "cc");
     }
 }
 
-- 
2.25.1

They are rightly values in the same enumeration.

Reviewed-by: David Hildenbrand <david@redhat.com>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/s390x/tcg-target.h | 28 +++++++---------------------
 1 file changed, 7 insertions(+), 21 deletions(-)

diff --git a/tcg/s390x/tcg-target.h b/tcg/s390x/tcg-target.h
index XXXXXXX..XXXXXXX 100644
--- a/tcg/s390x/tcg-target.h
+++ b/tcg/s390x/tcg-target.h
@@ -XXX,XX +XXX,XX @@
 #define MAX_CODE_GEN_BUFFER_SIZE  (3 * GiB)
 
 typedef enum TCGReg {
-    TCG_REG_R0 = 0,
-    TCG_REG_R1,
-    TCG_REG_R2,
-    TCG_REG_R3,
-    TCG_REG_R4,
-    TCG_REG_R5,
-    TCG_REG_R6,
-    TCG_REG_R7,
-    TCG_REG_R8,
-    TCG_REG_R9,
-    TCG_REG_R10,
-    TCG_REG_R11,
-    TCG_REG_R12,
-    TCG_REG_R13,
-    TCG_REG_R14,
-    TCG_REG_R15
+    TCG_REG_R0,  TCG_REG_R1,  TCG_REG_R2,  TCG_REG_R3,
+    TCG_REG_R4,  TCG_REG_R5,  TCG_REG_R6,  TCG_REG_R7,
+    TCG_REG_R8,  TCG_REG_R9,  TCG_REG_R10, TCG_REG_R11,
+    TCG_REG_R12, TCG_REG_R13, TCG_REG_R14, TCG_REG_R15,
+
+    TCG_AREG0 = TCG_REG_R10,
+    TCG_REG_CALL_STACK = TCG_REG_R15
 } TCGReg;
 
 #define TCG_TARGET_NB_REGS 16
@@ -XXX,XX +XXX,XX @@ extern uint64_t s390_facilities[1];
 #define TCG_TARGET_HAS_mulsh_i64      0
 
 /* used for function call generation */
-#define TCG_REG_CALL_STACK		TCG_REG_R15
 #define TCG_TARGET_STACK_ALIGN		8
 #define TCG_TARGET_CALL_STACK_OFFSET	160
 
@@ -XXX,XX +XXX,XX @@ extern uint64_t s390_facilities[1];
 
 #define TCG_TARGET_DEFAULT_MO (TCG_MO_ALL & ~TCG_MO_ST_LD)
 
-enum {
-    TCG_AREG0 = TCG_REG_R10,
-};
-
 static inline void tb_target_set_jmp_target(uintptr_t tc_ptr, uintptr_t jmp_rx,
                                             uintptr_t jmp_rw, uintptr_t addr)
 {
-- 
2.25.1

Add registers and function stubs.  The functionality
is disabled via squashing s390_facilities[2] to 0.

We must still include results for the mandatory opcodes in
tcg_target_op_def, as all opcodes are checked during tcg init.

Reviewed-by: David Hildenbrand <david@redhat.com>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/s390x/tcg-target-con-set.h |   4 +
 tcg/s390x/tcg-target-con-str.h |   1 +
 tcg/s390x/tcg-target.h         |  35 ++++++++-
 tcg/s390x/tcg-target.opc.h     |  12 +++
 tcg/s390x/tcg-target.c.inc     | 137 ++++++++++++++++++++++++++++++++-
 5 files changed, 184 insertions(+), 5 deletions(-)
 create mode 100644 tcg/s390x/tcg-target.opc.h

diff --git a/tcg/s390x/tcg-target-con-set.h b/tcg/s390x/tcg-target-con-set.h
index XXXXXXX..XXXXXXX 100644
--- a/tcg/s390x/tcg-target-con-set.h
+++ b/tcg/s390x/tcg-target-con-set.h
@@ -XXX,XX +XXX,XX @@ C_O0_I1(r)
 C_O0_I2(L, L)
 C_O0_I2(r, r)
 C_O0_I2(r, ri)
+C_O0_I2(v, r)
 C_O1_I1(r, L)
 C_O1_I1(r, r)
+C_O1_I1(v, r)
+C_O1_I1(v, vr)
 C_O1_I2(r, 0, ri)
 C_O1_I2(r, 0, rI)
 C_O1_I2(r, 0, rJ)
 C_O1_I2(r, r, ri)
 C_O1_I2(r, rZ, r)
+C_O1_I2(v, v, v)
 C_O1_I4(r, r, ri, r, 0)
 C_O1_I4(r, r, ri, rI, 0)
 C_O2_I2(b, a, 0, r)
diff --git a/tcg/s390x/tcg-target-con-str.h b/tcg/s390x/tcg-target-con-str.h
index XXXXXXX..XXXXXXX 100644
--- a/tcg/s390x/tcg-target-con-str.h
+++ b/tcg/s390x/tcg-target-con-str.h
@@ -XXX,XX +XXX,XX @@
  */
 REGS('r', ALL_GENERAL_REGS)
 REGS('L', ALL_GENERAL_REGS & ~SOFTMMU_RESERVE_REGS)
+REGS('v', ALL_VECTOR_REGS)
 /*
  * A (single) even/odd pair for division.
  * TODO: Add something to the register allocator to allow
diff --git a/tcg/s390x/tcg-target.h b/tcg/s390x/tcg-target.h
index XXXXXXX..XXXXXXX 100644
--- a/tcg/s390x/tcg-target.h
+++ b/tcg/s390x/tcg-target.h
@@ -XXX,XX +XXX,XX @@ typedef enum TCGReg {
     TCG_REG_R8,  TCG_REG_R9,  TCG_REG_R10, TCG_REG_R11,
     TCG_REG_R12, TCG_REG_R13, TCG_REG_R14, TCG_REG_R15,
 
+    TCG_REG_V0 = 32, TCG_REG_V1,  TCG_REG_V2,  TCG_REG_V3,
+    TCG_REG_V4,  TCG_REG_V5,  TCG_REG_V6,  TCG_REG_V7,
+    TCG_REG_V8,  TCG_REG_V9,  TCG_REG_V10, TCG_REG_V11,
+    TCG_REG_V12, TCG_REG_V13, TCG_REG_V14, TCG_REG_V15,
+    TCG_REG_V16, TCG_REG_V17, TCG_REG_V18, TCG_REG_V19,
+    TCG_REG_V20, TCG_REG_V21, TCG_REG_V22, TCG_REG_V23,
+    TCG_REG_V24, TCG_REG_V25, TCG_REG_V26, TCG_REG_V27,
+    TCG_REG_V28, TCG_REG_V29, TCG_REG_V30, TCG_REG_V31,
+
     TCG_AREG0 = TCG_REG_R10,
     TCG_REG_CALL_STACK = TCG_REG_R15
 } TCGReg;
 
-#define TCG_TARGET_NB_REGS 16
+#define TCG_TARGET_NB_REGS 64
 
 /* A list of relevant facilities used by this translator.  Some of these
    are required for proper operation, and these are checked at startup.  */
@@ -XXX,XX +XXX,XX @@ typedef enum TCGReg {
 #define FACILITY_FAST_BCR_SER         FACILITY_LOAD_ON_COND
 #define FACILITY_DISTINCT_OPS         FACILITY_LOAD_ON_COND
 #define FACILITY_LOAD_ON_COND2        53
+#define FACILITY_VECTOR               129
 
-extern uint64_t s390_facilities[1];
+extern uint64_t s390_facilities[3];
 
 #define HAVE_FACILITY(X) \
     ((s390_facilities[FACILITY_##X / 64] >> (63 - FACILITY_##X % 64)) & 1)
@@ -XXX,XX +XXX,XX @@ extern uint64_t s390_facilities[1];
 #define TCG_TARGET_HAS_muluh_i64      0
 #define TCG_TARGET_HAS_mulsh_i64      0
 
+#define TCG_TARGET_HAS_v64            HAVE_FACILITY(VECTOR)
+#define TCG_TARGET_HAS_v128           HAVE_FACILITY(VECTOR)
+#define TCG_TARGET_HAS_v256           0
+
+#define TCG_TARGET_HAS_andc_vec       0
+#define TCG_TARGET_HAS_orc_vec        0
+#define TCG_TARGET_HAS_not_vec        0
+#define TCG_TARGET_HAS_neg_vec        0
+#define TCG_TARGET_HAS_abs_vec        0
+#define TCG_TARGET_HAS_roti_vec       0
+#define TCG_TARGET_HAS_rots_vec       0
+#define TCG_TARGET_HAS_rotv_vec       0
+#define TCG_TARGET_HAS_shi_vec        0
+#define TCG_TARGET_HAS_shs_vec        0
+#define TCG_TARGET_HAS_shv_vec        0
+#define TCG_TARGET_HAS_mul_vec        0
+#define TCG_TARGET_HAS_sat_vec        0
+#define TCG_TARGET_HAS_minmax_vec     0
+#define TCG_TARGET_HAS_bitsel_vec     0
+#define TCG_TARGET_HAS_cmpsel_vec     0
+
 /* used for function call generation */
 #define TCG_TARGET_STACK_ALIGN		8
 #define TCG_TARGET_CALL_STACK_OFFSET	160
diff --git a/tcg/s390x/tcg-target.opc.h b/tcg/s390x/tcg-target.opc.h
new file mode 100644
index XXXXXXX..XXXXXXX
--- /dev/null
+++ b/tcg/s390x/tcg-target.opc.h
@@ -XXX,XX +XXX,XX @@
+/*
+ * Copyright (c) 2021 Linaro
+ *
+ * This work is licensed under the terms of the GNU GPL, version 2 or
+ * (at your option) any later version.
+ *
+ * See the COPYING file in the top-level directory for details.
+ *
+ * Target-specific opcodes for host vector expansion.  These will be
+ * emitted by tcg_expand_vec_op.  For those familiar with GCC internals,
+ * consider these to be UNSPEC with names.
+ */
diff --git a/tcg/s390x/tcg-target.c.inc b/tcg/s390x/tcg-target.c.inc
index XXXXXXX..XXXXXXX 100644
--- a/tcg/s390x/tcg-target.c.inc
+++ b/tcg/s390x/tcg-target.c.inc
@@ -XXX,XX +XXX,XX @@
 #define TCG_CT_CONST_ZERO  0x800
 
 #define ALL_GENERAL_REGS     MAKE_64BIT_MASK(0, 16)
+#define ALL_VECTOR_REGS      MAKE_64BIT_MASK(32, 32)
+
 /*
  * For softmmu, we need to avoid conflicts with the first 3
  * argument registers to perform the tlb lookup, and to call
@@ -XXX,XX +XXX,XX @@ typedef enum S390Opcode {
 
 #ifdef CONFIG_DEBUG_TCG
 static const char * const tcg_target_reg_names[TCG_TARGET_NB_REGS] = {
-    "%r0", "%r1", "%r2", "%r3", "%r4", "%r5", "%r6", "%r7",
-    "%r8", "%r9", "%r10" "%r11" "%r12" "%r13" "%r14" "%r15"
+    "%r0",  "%r1",  "%r2",  "%r3",  "%r4",  "%r5",  "%r6",  "%r7",
+    "%r8",  "%r9",  "%r10", "%r11", "%r12", "%r13", "%r14", "%r15",
+    0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
+    "%v0",  "%v1",  "%v2",  "%v3",  "%v4",  "%v5",  "%v6",  "%v7",
+    "%v8",  "%v9",  "%v10", "%v11", "%v12", "%v13", "%v14", "%v15",
+    "%v16", "%v17", "%v18", "%v19", "%v20", "%v21", "%v22", "%v23",
+    "%v24", "%v25", "%v26", "%v27", "%v28", "%v29", "%v30", "%v31",
 };
 #endif
 
@@ -XXX,XX +XXX,XX @@ static const int tcg_target_reg_alloc_order[] = {
     TCG_REG_R4,
     TCG_REG_R3,
     TCG_REG_R2,
+
+    /* V8-V15 are call saved, and omitted. */
+    TCG_REG_V0,
+    TCG_REG_V1,
+    TCG_REG_V2,
+    TCG_REG_V3,
+    TCG_REG_V4,
+    TCG_REG_V5,
+    TCG_REG_V6,
+    TCG_REG_V7,
+    TCG_REG_V16,
+    TCG_REG_V17,
+    TCG_REG_V18,
+    TCG_REG_V19,
+    TCG_REG_V20,
+    TCG_REG_V21,
+    TCG_REG_V22,
+    TCG_REG_V23,
+    TCG_REG_V24,
+    TCG_REG_V25,
+    TCG_REG_V26,
+    TCG_REG_V27,
+    TCG_REG_V28,
+    TCG_REG_V29,
+    TCG_REG_V30,
+    TCG_REG_V31,
 };
 
 static const int tcg_target_call_iarg_regs[] = {
@@ -XXX,XX +XXX,XX @@ static void * const qemu_st_helpers[(MO_SIZE | MO_BSWAP) + 1] = {
 #endif
 
 static const tcg_insn_unit *tb_ret_addr;
-uint64_t s390_facilities[1];
+uint64_t s390_facilities[3];
 
 static bool patch_reloc(tcg_insn_unit *src_rw, int type,
                         intptr_t value, intptr_t addend)
@@ -XXX,XX +XXX,XX @@ static inline void tcg_out_op(TCGContext *s, TCGOpcode opc,
     }
 }
 
+static bool tcg_out_dup_vec(TCGContext *s, TCGType type, unsigned vece,
+                            TCGReg dst, TCGReg src)
+{
+    g_assert_not_reached();
+}
+
+static bool tcg_out_dupm_vec(TCGContext *s, TCGType type, unsigned vece,
+                             TCGReg dst, TCGReg base, intptr_t offset)
+{
+    g_assert_not_reached();
+}
+
+static void tcg_out_dupi_vec(TCGContext *s, TCGType type, unsigned vece,
+                             TCGReg dst, int64_t val)
+{
+    g_assert_not_reached();
+}
+
+static void tcg_out_vec_op(TCGContext *s, TCGOpcode opc,
+                           unsigned vecl, unsigned vece,
+                           const TCGArg *args, const int *const_args)
+{
+    g_assert_not_reached();
+}
+
+int tcg_can_emit_vec_op(TCGOpcode opc, TCGType type, unsigned vece)
+{
+    return 0;
+}
+
+void tcg_expand_vec_op(TCGOpcode opc, TCGType type, unsigned vece,
+                       TCGArg a0, ...)
+{
+    g_assert_not_reached();
+}
+
 static TCGConstraintSetIndex tcg_target_op_def(TCGOpcode op)
 {
     switch (op) {
@@ -XXX,XX +XXX,XX @@ static TCGConstraintSetIndex tcg_target_op_def(TCGOpcode op)
                 ? C_O2_I4(r, r, 0, 1, rA, r)
                 : C_O2_I4(r, r, 0, 1, r, r));
 
+    case INDEX_op_st_vec:
+        return C_O0_I2(v, r);
+    case INDEX_op_ld_vec:
+    case INDEX_op_dupm_vec:
+        return C_O1_I1(v, r);
+    case INDEX_op_dup_vec:
+        return C_O1_I1(v, vr);
+    case INDEX_op_add_vec:
+    case INDEX_op_sub_vec:
+    case INDEX_op_and_vec:
+    case INDEX_op_or_vec:
+    case INDEX_op_xor_vec:
+    case INDEX_op_cmp_vec:
+        return C_O1_I2(v, v, v);
+
     default:
         g_assert_not_reached();
     }
 }
 
+/*
+ * Mainline glibc added HWCAP_S390_VX before it was kernel abi.
+ * Some distros have fixed this up locally, others have not.
+ */
+#ifndef HWCAP_S390_VXRS
+#define HWCAP_S390_VXRS 2048
+#endif
+
 static void query_s390_facilities(void)
 {
     unsigned long hwcap = qemu_getauxval(AT_HWCAP);
@@ -XXX,XX +XXX,XX @@ static void query_s390_facilities(void)
         asm volatile(".word 0xb2b0,0x1000"
                      : "=r"(r0) : "r"(r0), "r"(r1) : "memory", "cc");
     }
+
+    /*
+     * Use of vector registers requires os support beyond the facility bit.
+     * If the kernel does not advertise support, disable the facility bits.
+     * There is nothing else we currently care about in the 3rd word, so
+     * disable VECTOR with one store.
+     */
+    if (1 || !(hwcap & HWCAP_S390_VXRS)) {
+        s390_facilities[2] = 0;
+    }
 }
 
 static void tcg_target_init(TCGContext *s)
@@ -XXX,XX +XXX,XX @@ static void tcg_target_init(TCGContext *s)
 
     tcg_target_available_regs[TCG_TYPE_I32] = 0xffff;
     tcg_target_available_regs[TCG_TYPE_I64] = 0xffff;
+    if (HAVE_FACILITY(VECTOR)) {
+        tcg_target_available_regs[TCG_TYPE_V64] = 0xffffffff00000000ull;
+        tcg_target_available_regs[TCG_TYPE_V128] = 0xffffffff00000000ull;
+    }
 
     tcg_target_call_clobber_regs = 0;
     tcg_regset_set_reg(tcg_target_call_clobber_regs, TCG_REG_R0);
@@ -XXX,XX +XXX,XX @@ static void tcg_target_init(TCGContext *s)
     /* The return register can be considered call-clobbered.  */
     tcg_regset_set_reg(tcg_target_call_clobber_regs, TCG_REG_R14);
 
+    tcg_regset_set_reg(tcg_target_call_clobber_regs, TCG_REG_V0);
+    tcg_regset_set_reg(tcg_target_call_clobber_regs, TCG_REG_V1);
+    tcg_regset_set_reg(tcg_target_call_clobber_regs, TCG_REG_V2);
+    tcg_regset_set_reg(tcg_target_call_clobber_regs, TCG_REG_V3);
+    tcg_regset_set_reg(tcg_target_call_clobber_regs, TCG_REG_V4);
+    tcg_regset_set_reg(tcg_target_call_clobber_regs, TCG_REG_V5);
+    tcg_regset_set_reg(tcg_target_call_clobber_regs, TCG_REG_V6);
+    tcg_regset_set_reg(tcg_target_call_clobber_regs, TCG_REG_V7);
+    tcg_regset_set_reg(tcg_target_call_clobber_regs, TCG_REG_V16);
+    tcg_regset_set_reg(tcg_target_call_clobber_regs, TCG_REG_V17);
+    tcg_regset_set_reg(tcg_target_call_clobber_regs, TCG_REG_V18);
+    tcg_regset_set_reg(tcg_target_call_clobber_regs, TCG_REG_V19);
+    tcg_regset_set_reg(tcg_target_call_clobber_regs, TCG_REG_V20);
+    tcg_regset_set_reg(tcg_target_call_clobber_regs, TCG_REG_V21);
+    tcg_regset_set_reg(tcg_target_call_clobber_regs, TCG_REG_V22);
+    tcg_regset_set_reg(tcg_target_call_clobber_regs, TCG_REG_V23);
+    tcg_regset_set_reg(tcg_target_call_clobber_regs, TCG_REG_V24);
+    tcg_regset_set_reg(tcg_target_call_clobber_regs, TCG_REG_V25);
+    tcg_regset_set_reg(tcg_target_call_clobber_regs, TCG_REG_V26);
+    tcg_regset_set_reg(tcg_target_call_clobber_regs, TCG_REG_V27);
+    tcg_regset_set_reg(tcg_target_call_clobber_regs, TCG_REG_V28);
+    tcg_regset_set_reg(tcg_target_call_clobber_regs, TCG_REG_V29);
+    tcg_regset_set_reg(tcg_target_call_clobber_regs, TCG_REG_V30);
+    tcg_regset_set_reg(tcg_target_call_clobber_regs, TCG_REG_V31);
+
     s->reserved_regs = 0;
     tcg_regset_set_reg(s->reserved_regs, TCG_TMP0);
     /* XXX many insns can't be used with R0, so we better avoid it for now */
-- 
2.25.1

Reviewed-by: David Hildenbrand <david@redhat.com>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/s390x/tcg-target.c.inc | 132 +++++++++++++++++++++++++++++++++----
 1 file changed, 120 insertions(+), 12 deletions(-)

diff --git a/tcg/s390x/tcg-target.c.inc b/tcg/s390x/tcg-target.c.inc
index XXXXXXX..XXXXXXX 100644
--- a/tcg/s390x/tcg-target.c.inc
+++ b/tcg/s390x/tcg-target.c.inc
@@ -XXX,XX +XXX,XX @@ typedef enum S390Opcode {
     RX_STC      = 0x42,
     RX_STH      = 0x40,
 
+    VRX_VL      = 0xe706,
+    VRX_VLLEZ   = 0xe704,
+    VRX_VST     = 0xe70e,
+    VRX_VSTEF   = 0xe70b,
+    VRX_VSTEG   = 0xe70a,
+
     NOP         = 0x0707,
 } S390Opcode;
 
@@ -XXX,XX +XXX,XX @@ static void * const qemu_st_helpers[(MO_SIZE | MO_BSWAP) + 1] = {
 static const tcg_insn_unit *tb_ret_addr;
 uint64_t s390_facilities[3];
 
+static inline bool is_general_reg(TCGReg r)
+{
+    return r <= TCG_REG_R15;
+}
+
+static inline bool is_vector_reg(TCGReg r)
+{
+    return r >= TCG_REG_V0 && r <= TCG_REG_V31;
+}
+
 static bool patch_reloc(tcg_insn_unit *src_rw, int type,
                         intptr_t value, intptr_t addend)
 {
@@ -XXX,XX +XXX,XX @@ static void tcg_out_insn_RSY(TCGContext *s, S390Opcode op, TCGReg r1,
 #define tcg_out_insn_RX   tcg_out_insn_RS
 #define tcg_out_insn_RXY  tcg_out_insn_RSY
 
+static int RXB(TCGReg v1, TCGReg v2, TCGReg v3, TCGReg v4)
+{
+    /*
+     * Shift bit 4 of each regno to its corresponding bit of RXB.
+     * RXB itself begins at bit 8 of the instruction so 8 - 4 = 4
+     * is the left-shift of the 4th operand.
+     */
+    return ((v1 & 0x10) << (4 + 3))
+         | ((v2 & 0x10) << (4 + 2))
+         | ((v3 & 0x10) << (4 + 1))
+         | ((v4 & 0x10) << (4 + 0));
+}
+
+static void tcg_out_insn_VRX(TCGContext *s, S390Opcode op, TCGReg v1,
+                             TCGReg b2, TCGReg x2, intptr_t d2, int m3)
+{
+    tcg_debug_assert(is_vector_reg(v1));
+    tcg_debug_assert(d2 >= 0 && d2 <= 0xfff);
+    tcg_debug_assert(is_general_reg(x2));
+    tcg_debug_assert(is_general_reg(b2));
+    tcg_out16(s, (op & 0xff00) | ((v1 & 0xf) << 4) | x2);
+    tcg_out16(s, (b2 << 12) | d2);
+    tcg_out16(s, (op & 0x00ff) | RXB(v1, 0, 0, 0) | (m3 << 12));
+}
+
 /* Emit an opcode with "type-checking" of the format.  */
 #define tcg_out_insn(S, FMT, OP, ...) \
     glue(tcg_out_insn_,FMT)(S, glue(glue(FMT,_),OP), ## __VA_ARGS__)
@@ -XXX,XX +XXX,XX @@ static void tcg_out_mem(TCGContext *s, S390Opcode opc_rx, S390Opcode opc_rxy,
     }
 }
 
+static void tcg_out_vrx_mem(TCGContext *s, S390Opcode opc_vrx,
+                            TCGReg data, TCGReg base, TCGReg index,
+                            tcg_target_long ofs, int m3)
+{
+    if (ofs < 0 || ofs >= 0x1000) {
+        if (ofs >= -0x80000 && ofs < 0x80000) {
+            tcg_out_insn(s, RXY, LAY, TCG_TMP0, base, index, ofs);
+            base = TCG_TMP0;
+            index = TCG_REG_NONE;
+            ofs = 0;
+        } else {
+            tcg_out_movi(s, TCG_TYPE_PTR, TCG_TMP0, ofs);
+            if (index != TCG_REG_NONE) {
+                tcg_out_insn(s, RRE, AGR, TCG_TMP0, index);
+            }
+            index = TCG_TMP0;
+            ofs = 0;
+        }
+    }
+    tcg_out_insn_VRX(s, opc_vrx, data, base, index, ofs, m3);
+}
 
 /* load data without address translation or endianness conversion */
-static inline void tcg_out_ld(TCGContext *s, TCGType type, TCGReg data,
-                              TCGReg base, intptr_t ofs)
+static void tcg_out_ld(TCGContext *s, TCGType type, TCGReg data,
+                       TCGReg base, intptr_t ofs)
 {
-    if (type == TCG_TYPE_I32) {
-        tcg_out_mem(s, RX_L, RXY_LY, data, base, TCG_REG_NONE, ofs);
-    } else {
-        tcg_out_mem(s, 0, RXY_LG, data, base, TCG_REG_NONE, ofs);
+    switch (type) {
+    case TCG_TYPE_I32:
+        if (likely(is_general_reg(data))) {
+            tcg_out_mem(s, RX_L, RXY_LY, data, base, TCG_REG_NONE, ofs);
+            break;
+        }
+        tcg_out_vrx_mem(s, VRX_VLLEZ, data, base, TCG_REG_NONE, ofs, MO_32);
+        break;
+
+    case TCG_TYPE_I64:
+        if (likely(is_general_reg(data))) {
+            tcg_out_mem(s, 0, RXY_LG, data, base, TCG_REG_NONE, ofs);
+            break;
+        }
+        /* fallthru */
+
+    case TCG_TYPE_V64:
+        tcg_out_vrx_mem(s, VRX_VLLEZ, data, base, TCG_REG_NONE, ofs, MO_64);
+        break;
+
+    case TCG_TYPE_V128:
+        /* Hint quadword aligned.  */
+        tcg_out_vrx_mem(s, VRX_VL, data, base, TCG_REG_NONE, ofs, 4);
+        break;
+
+    default:
+        g_assert_not_reached();
     }
 }
 
-static inline void tcg_out_st(TCGContext *s, TCGType type, TCGReg data,
-                              TCGReg base, intptr_t ofs)
+static void tcg_out_st(TCGContext *s, TCGType type, TCGReg data,
+                       TCGReg base, intptr_t ofs)
 {
-    if (type == TCG_TYPE_I32) {
-        tcg_out_mem(s, RX_ST, RXY_STY, data, base, TCG_REG_NONE, ofs);
-    } else {
-        tcg_out_mem(s, 0, RXY_STG, data, base, TCG_REG_NONE, ofs);
+    switch (type) {
+    case TCG_TYPE_I32:
+        if (likely(is_general_reg(data))) {
+            tcg_out_mem(s, RX_ST, RXY_STY, data, base, TCG_REG_NONE, ofs);
+        } else {
+            tcg_out_vrx_mem(s, VRX_VSTEF, data, base, TCG_REG_NONE, ofs, 1);
+        }
+        break;
+
+    case TCG_TYPE_I64:
+        if (likely(is_general_reg(data))) {
+            tcg_out_mem(s, 0, RXY_STG, data, base, TCG_REG_NONE, ofs);
+            break;
+        }
+        /* fallthru */
+
+    case TCG_TYPE_V64:
+        tcg_out_vrx_mem(s, VRX_VSTEG, data, base, TCG_REG_NONE, ofs, 0);
+        break;
+
+    case TCG_TYPE_V128:
+        /* Hint quadword aligned.  */
+        tcg_out_vrx_mem(s, VRX_VST, data, base, TCG_REG_NONE, ofs, 4);
+        break;
+
+    default:
+        g_assert_not_reached();
     }
 }
 
-- 
2.25.1

Reviewed-by: David Hildenbrand <david@redhat.com>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/s390x/tcg-target.c.inc | 72 +++++++++++++++++++++++++++++++++++---
 1 file changed, 68 insertions(+), 4 deletions(-)

Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/s390x/tcg-target.c.inc | 122 ++++++++++++++++++++++++++++++++++++-
 1 file changed, 119 insertions(+), 3 deletions(-)

diff --git a/tcg/s390x/tcg-target.c.inc b/tcg/s390x/tcg-target.c.inc
index XXXXXXX..XXXXXXX 100644
--- a/tcg/s390x/tcg-target.c.inc
+++ b/tcg/s390x/tcg-target.c.inc
@@ -XXX,XX +XXX,XX @@ typedef enum S390Opcode {
     RX_STC      = 0x42,
     RX_STH      = 0x40,
 
+    VRIa_VGBM   = 0xe744,
+    VRIa_VREPI  = 0xe745,
+    VRIb_VGM    = 0xe746,
+    VRIc_VREP   = 0xe74d,
+
     VRRa_VLR    = 0xe756,
+    VRRf_VLVGP  = 0xe762,
 
     VRSb_VLVG   = 0xe722,
     VRSc_VLGV   = 0xe721,
 
     VRX_VL      = 0xe706,
     VRX_VLLEZ   = 0xe704,
+    VRX_VLREP   = 0xe705,
     VRX_VST     = 0xe70e,
     VRX_VSTEF   = 0xe70b,
     VRX_VSTEG   = 0xe70a,
@@ -XXX,XX +XXX,XX @@ static int RXB(TCGReg v1, TCGReg v2, TCGReg v3, TCGReg v4)
          | ((v4 & 0x10) << (4 + 0));
 }
 
+static void tcg_out_insn_VRIa(TCGContext *s, S390Opcode op,
+                              TCGReg v1, uint16_t i2, int m3)
+{
+    tcg_debug_assert(is_vector_reg(v1));
+    tcg_out16(s, (op & 0xff00) | ((v1 & 0xf) << 4));
+    tcg_out16(s, i2);
+    tcg_out16(s, (op & 0x00ff) | RXB(v1, 0, 0, 0) | (m3 << 12));
+}
+
+static void tcg_out_insn_VRIb(TCGContext *s, S390Opcode op,
+                              TCGReg v1, uint8_t i2, uint8_t i3, int m4)
+{
+    tcg_debug_assert(is_vector_reg(v1));
+    tcg_out16(s, (op & 0xff00) | ((v1 & 0xf) << 4));
+    tcg_out16(s, (i2 << 8) | (i3 & 0xff));
+    tcg_out16(s, (op & 0x00ff) | RXB(v1, 0, 0, 0) | (m4 << 12));
+}
+
+static void tcg_out_insn_VRIc(TCGContext *s, S390Opcode op,
+                              TCGReg v1, uint16_t i2, TCGReg v3, int m4)
+{
+    tcg_debug_assert(is_vector_reg(v1));
+    tcg_debug_assert(is_vector_reg(v3));
+    tcg_out16(s, (op & 0xff00) | ((v1 & 0xf) << 4) | (v3 & 0xf));
+    tcg_out16(s, i2);
+    tcg_out16(s, (op & 0x00ff) | RXB(v1, 0, v3, 0) | (m4 << 12));
+}
+
 static void tcg_out_insn_VRRa(TCGContext *s, S390Opcode op,
                               TCGReg v1, TCGReg v2, int m3)
 {
@@ -XXX,XX +XXX,XX @@ static void tcg_out_insn_VRRa(TCGContext *s, S390Opcode op,
     tcg_out32(s, (op & 0x00ff) | RXB(v1, v2, 0, 0) | (m3 << 12));
 }
 
+static void tcg_out_insn_VRRf(TCGContext *s, S390Opcode op,
+                              TCGReg v1, TCGReg r2, TCGReg r3)
+{
+    tcg_debug_assert(is_vector_reg(v1));
+    tcg_debug_assert(is_general_reg(r2));
+    tcg_debug_assert(is_general_reg(r3));
+    tcg_out16(s, (op & 0xff00) | ((v1 & 0xf) << 4) | r2);
+    tcg_out16(s, r3 << 12);
+    tcg_out16(s, (op & 0x00ff) | RXB(v1, 0, 0, 0));
+}
+
 static void tcg_out_insn_VRSb(TCGContext *s, S390Opcode op, TCGReg v1,
                               intptr_t d2, TCGReg b2, TCGReg r3, int m4)
 {
@@ -XXX,XX +XXX,XX @@ static inline void tcg_out_op(TCGContext *s, TCGOpcode opc,
 static bool tcg_out_dup_vec(TCGContext *s, TCGType type, unsigned vece,
                             TCGReg dst, TCGReg src)
 {
-    g_assert_not_reached();
+    if (is_general_reg(src)) {
+        /* Replicate general register into two MO_64. */
+        tcg_out_insn(s, VRRf, VLVGP, dst, src, src);
+        if (vece == MO_64) {
+            return true;
+        }
+    }
+
+    /*
+     * Recall that the "standard" integer, within a vector, is the
+     * rightmost element of the leftmost doubleword, a-la VLLEZ.
+     */
+    tcg_out_insn(s, VRIc, VREP, dst, (8 >> vece) - 1, src, vece);
+    return true;
 }
 
 static bool tcg_out_dupm_vec(TCGContext *s, TCGType type, unsigned vece,
                              TCGReg dst, TCGReg base, intptr_t offset)
 {
-    g_assert_not_reached();
+    tcg_out_vrx_mem(s, VRX_VLREP, dst, base, TCG_REG_NONE, offset, vece);
+    return true;
 }
 
 static void tcg_out_dupi_vec(TCGContext *s, TCGType type, unsigned vece,
                              TCGReg dst, int64_t val)
 {
-    g_assert_not_reached();
+    int i, mask, msb, lsb;
+
+    /* Look for int16_t elements.  */
+    if (vece <= MO_16 ||
+        (vece == MO_32 ? (int32_t)val : val) == (int16_t)val) {
+        tcg_out_insn(s, VRIa, VREPI, dst, val, vece);
+        return;
+    }
+
+    /* Look for bit masks.  */
+    if (vece == MO_32) {
+        if (risbg_mask((int32_t)val)) {
+            /* Handle wraparound by swapping msb and lsb.  */
+            if ((val & 0x80000001u) == 0x80000001u) {
+                msb = 32 - ctz32(~val);
+                lsb = clz32(~val) - 1;
+            } else {
+                msb = clz32(val);
+                lsb = 31 - ctz32(val);
+            }
+            tcg_out_insn(s, VRIb, VGM, dst, lsb, msb, MO_32);
+            return;
+        }
+    } else {
+        if (risbg_mask(val)) {
+            /* Handle wraparound by swapping msb and lsb.  */
+            if ((val & 0x8000000000000001ull) == 0x8000000000000001ull) {
+                /* Handle wraparound by swapping msb and lsb.  */
+                msb = 64 - ctz64(~val);
+                lsb = clz64(~val) - 1;
+            } else {
+                msb = clz64(val);
+                lsb = 63 - ctz64(val);
+            }
+            tcg_out_insn(s, VRIb, VGM, dst, lsb, msb, MO_64);
+            return;
+        }
+    }
+
+    /* Look for all bytes 0x00 or 0xff.  */
+    for (i = mask = 0; i < 8; i++) {
+        uint8_t byte = val >> (i * 8);
+        if (byte == 0xff) {
+            mask |= 1 << i;
+        } else if (byte != 0) {
+            break;
+        }
+    }
+    if (i == 8) {
+        tcg_out_insn(s, VRIa, VGBM, dst, mask * 0x0101, 0);
+        return;
+    }
+
+    /* Otherwise, stuff it in the constant pool.  */
+    tcg_out_insn(s, RIL, LARL, TCG_TMP0, 0);
+    new_pool_label(s, val, R_390_PC32DBL, s->code_ptr - 2, 2);
+    tcg_out_insn(s, VRX, VLREP, dst, TCG_TMP0, TCG_REG_NONE, 0, MO_64);
 }
 
 static void tcg_out_vec_op(TCGContext *s, TCGOpcode opc,
-- 
2.25.1

Implementing add, sub, and, or, xor as the minimal set.
This allows us to actually enable vectors in query_s390_facilities.

Reviewed-by: David Hildenbrand <david@redhat.com>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/s390x/tcg-target.c.inc | 154 ++++++++++++++++++++++++++++++++++++-
 1 file changed, 150 insertions(+), 4 deletions(-)

diff --git a/tcg/s390x/tcg-target.c.inc b/tcg/s390x/tcg-target.c.inc
index XXXXXXX..XXXXXXX 100644
--- a/tcg/s390x/tcg-target.c.inc
+++ b/tcg/s390x/tcg-target.c.inc
@@ -XXX,XX +XXX,XX @@ typedef enum S390Opcode {
     VRIc_VREP   = 0xe74d,
 
     VRRa_VLR    = 0xe756,
+    VRRc_VA     = 0xe7f3,
+    VRRc_VCEQ   = 0xe7f8,   /* we leave the m5 cs field 0 */
+    VRRc_VCH    = 0xe7fb,   /* " */
+    VRRc_VCHL   = 0xe7f9,   /* " */
+    VRRc_VN     = 0xe768,
+    VRRc_VO     = 0xe76a,
+    VRRc_VS     = 0xe7f7,
+    VRRc_VX     = 0xe76d,
     VRRf_VLVGP  = 0xe762,
 
     VRSb_VLVG   = 0xe722,
@@ -XXX,XX +XXX,XX @@ static void tcg_out_insn_VRRa(TCGContext *s, S390Opcode op,
     tcg_out32(s, (op & 0x00ff) | RXB(v1, v2, 0, 0) | (m3 << 12));
 }
 
+static void tcg_out_insn_VRRc(TCGContext *s, S390Opcode op,
+                              TCGReg v1, TCGReg v2, TCGReg v3, int m4)
+{
+    tcg_debug_assert(is_vector_reg(v1));
+    tcg_debug_assert(is_vector_reg(v2));
+    tcg_debug_assert(is_vector_reg(v3));
+    tcg_out16(s, (op & 0xff00) | ((v1 & 0xf) << 4) | (v2 & 0xf));
+    tcg_out16(s, v3 << 12);
+    tcg_out16(s, (op & 0x00ff) | RXB(v1, v2, v3, 0) | (m4 << 12));
+}
+
 static void tcg_out_insn_VRRf(TCGContext *s, S390Opcode op,
                               TCGReg v1, TCGReg r2, TCGReg r3)
 {
@@ -XXX,XX +XXX,XX @@ static void tcg_out_vec_op(TCGContext *s, TCGOpcode opc,
                            unsigned vecl, unsigned vece,
                            const TCGArg *args, const int *const_args)
 {
-    g_assert_not_reached();
+    TCGType type = vecl + TCG_TYPE_V64;
+    TCGArg a0 = args[0], a1 = args[1], a2 = args[2];
+
+    switch (opc) {
+    case INDEX_op_ld_vec:
+        tcg_out_ld(s, type, a0, a1, a2);
+        break;
+    case INDEX_op_st_vec:
+        tcg_out_st(s, type, a0, a1, a2);
+        break;
+    case INDEX_op_dupm_vec:
+        tcg_out_dupm_vec(s, type, vece, a0, a1, a2);
+        break;
+
+    case INDEX_op_add_vec:
+        tcg_out_insn(s, VRRc, VA, a0, a1, a2, vece);
+        break;
+    case INDEX_op_sub_vec:
+        tcg_out_insn(s, VRRc, VS, a0, a1, a2, vece);
+        break;
+    case INDEX_op_and_vec:
+        tcg_out_insn(s, VRRc, VN, a0, a1, a2, 0);
+        break;
+    case INDEX_op_or_vec:
+        tcg_out_insn(s, VRRc, VO, a0, a1, a2, 0);
+        break;
+    case INDEX_op_xor_vec:
+        tcg_out_insn(s, VRRc, VX, a0, a1, a2, 0);
+        break;
+
+    case INDEX_op_cmp_vec:
+        switch ((TCGCond)args[3]) {
+        case TCG_COND_EQ:
+            tcg_out_insn(s, VRRc, VCEQ, a0, a1, a2, vece);
+            break;
+        case TCG_COND_GT:
+            tcg_out_insn(s, VRRc, VCH, a0, a1, a2, vece);
+            break;
+        case TCG_COND_GTU:
+            tcg_out_insn(s, VRRc, VCHL, a0, a1, a2, vece);
+            break;
+        default:
+            g_assert_not_reached();
+        }
+        break;
+
+    case INDEX_op_mov_vec:   /* Always emitted via tcg_out_mov.  */
+    case INDEX_op_dup_vec:   /* Always emitted via tcg_out_dup_vec.  */
+    default:
+        g_assert_not_reached();
+    }
 }
 
 int tcg_can_emit_vec_op(TCGOpcode opc, TCGType type, unsigned vece)
 {
-    return 0;
+    switch (opc) {
+    case INDEX_op_add_vec:
+    case INDEX_op_and_vec:
+    case INDEX_op_or_vec:
+    case INDEX_op_sub_vec:
+    case INDEX_op_xor_vec:
+        return 1;
+    case INDEX_op_cmp_vec:
+        return -1;
+    default:
+        return 0;
+    }
+}
+
+static bool expand_vec_cmp_noinv(TCGType type, unsigned vece, TCGv_vec v0,
+                                 TCGv_vec v1, TCGv_vec v2, TCGCond cond)
+{
+    bool need_swap = false, need_inv = false;
+
+    switch (cond) {
+    case TCG_COND_EQ:
+    case TCG_COND_GT:
+    case TCG_COND_GTU:
+        break;
+    case TCG_COND_NE:
+    case TCG_COND_LE:
+    case TCG_COND_LEU:
+        need_inv = true;
+        break;
+    case TCG_COND_LT:
+    case TCG_COND_LTU:
+        need_swap = true;
+        break;
+    case TCG_COND_GE:
+    case TCG_COND_GEU:
+        need_swap = need_inv = true;
+        break;
+    default:
+        g_assert_not_reached();
+    }
+
+    if (need_inv) {
+        cond = tcg_invert_cond(cond);
+    }
+    if (need_swap) {
+        TCGv_vec t1;
+        t1 = v1, v1 = v2, v2 = t1;
+        cond = tcg_swap_cond(cond);
+    }
+
+    vec_gen_4(INDEX_op_cmp_vec, type, vece, tcgv_vec_arg(v0),
+              tcgv_vec_arg(v1), tcgv_vec_arg(v2), cond);
+
+    return need_inv;
+}
+
+static void expand_vec_cmp(TCGType type, unsigned vece, TCGv_vec v0,
+                           TCGv_vec v1, TCGv_vec v2, TCGCond cond)
+{
+    if (expand_vec_cmp_noinv(type, vece, v0, v1, v2, cond)) {
+        tcg_gen_not_vec(vece, v0, v0);
+    }
 }
 
 void tcg_expand_vec_op(TCGOpcode opc, TCGType type, unsigned vece,
                        TCGArg a0, ...)
 {
-    g_assert_not_reached();
+    va_list va;
+    TCGv_vec v0, v1, v2;
+
+    va_start(va, a0);
+    v0 = temp_tcgv_vec(arg_temp(a0));
+    v1 = temp_tcgv_vec(arg_temp(va_arg(va, TCGArg)));
+    v2 = temp_tcgv_vec(arg_temp(va_arg(va, TCGArg)));
+
+    switch (opc) {
+    case INDEX_op_cmp_vec:
+        expand_vec_cmp(type, vece, v0, v1, v2, va_arg(va, TCGArg));
+        break;
+
+    default:
+        g_assert_not_reached();
+    }
+    va_end(va);
 }
 
 static TCGConstraintSetIndex tcg_target_op_def(TCGOpcode op)
@@ -XXX,XX +XXX,XX @@ static void query_s390_facilities(void)
      * There is nothing else we currently care about in the 3rd word, so
      * disable VECTOR with one store.
      */
-    if (1 || !(hwcap & HWCAP_S390_VXRS)) {
+    if (!(hwcap & HWCAP_S390_VXRS)) {
         s390_facilities[2] = 0;
     }
 }
-- 
2.25.1

These logical and arithmetic operations are optional but trivial.

Reviewed-by: David Hildenbrand <david@redhat.com>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/s390x/tcg-target-con-set.h |  1 +
 tcg/s390x/tcg-target.h         | 11 ++++++-----
 tcg/s390x/tcg-target.c.inc     | 32 ++++++++++++++++++++++++++++++++
 3 files changed, 39 insertions(+), 5 deletions(-)

Reviewed-by: David Hildenbrand <david@redhat.com>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/s390x/tcg-target.h     | 2 +-
 tcg/s390x/tcg-target.c.inc | 7 +++++++
 2 files changed, 8 insertions(+), 1 deletion(-)

diff --git a/tcg/s390x/tcg-target.h b/tcg/s390x/tcg-target.h
index XXXXXXX..XXXXXXX 100644
--- a/tcg/s390x/tcg-target.h
+++ b/tcg/s390x/tcg-target.h
@@ -XXX,XX +XXX,XX @@ extern uint64_t s390_facilities[3];
 #define TCG_TARGET_HAS_shi_vec        0
 #define TCG_TARGET_HAS_shs_vec        0
 #define TCG_TARGET_HAS_shv_vec        0
-#define TCG_TARGET_HAS_mul_vec        0
+#define TCG_TARGET_HAS_mul_vec        1
 #define TCG_TARGET_HAS_sat_vec        0
 #define TCG_TARGET_HAS_minmax_vec     0
 #define TCG_TARGET_HAS_bitsel_vec     0
diff --git a/tcg/s390x/tcg-target.c.inc b/tcg/s390x/tcg-target.c.inc
index XXXXXXX..XXXXXXX 100644
--- a/tcg/s390x/tcg-target.c.inc
+++ b/tcg/s390x/tcg-target.c.inc
@@ -XXX,XX +XXX,XX @@ typedef enum S390Opcode {
     VRRc_VCEQ   = 0xe7f8,   /* we leave the m5 cs field 0 */
     VRRc_VCH    = 0xe7fb,   /* " */
     VRRc_VCHL   = 0xe7f9,   /* " */
+    VRRc_VML    = 0xe7a2,
     VRRc_VN     = 0xe768,
     VRRc_VNC    = 0xe769,
     VRRc_VNO    = 0xe76b,
@@ -XXX,XX +XXX,XX @@ static void tcg_out_vec_op(TCGContext *s, TCGOpcode opc,
     case INDEX_op_andc_vec:
         tcg_out_insn(s, VRRc, VNC, a0, a1, a2, 0);
         break;
+    case INDEX_op_mul_vec:
+        tcg_out_insn(s, VRRc, VML, a0, a1, a2, vece);
+        break;
     case INDEX_op_or_vec:
         tcg_out_insn(s, VRRc, VO, a0, a1, a2, 0);
         break;
@@ -XXX,XX +XXX,XX @@ int tcg_can_emit_vec_op(TCGOpcode opc, TCGType type, unsigned vece)
         return 1;
     case INDEX_op_cmp_vec:
         return -1;
+    case INDEX_op_mul_vec:
+        return vece < MO_64;
     default:
         return 0;
     }
@@ -XXX,XX +XXX,XX @@ static TCGConstraintSetIndex tcg_target_op_def(TCGOpcode op)
     case INDEX_op_orc_vec:
     case INDEX_op_xor_vec:
     case INDEX_op_cmp_vec:
+    case INDEX_op_mul_vec:
         return C_O1_I2(v, v, v);
 
     default:
-- 
2.25.1

Reviewed-by: David Hildenbrand <david@redhat.com>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/s390x/tcg-target-con-set.h |  1 +
 tcg/s390x/tcg-target.h         | 12 ++---
 tcg/s390x/tcg-target.c.inc     | 93 +++++++++++++++++++++++++++++++++-
 3 files changed, 99 insertions(+), 7 deletions(-)

Reviewed-by: David Hildenbrand <david@redhat.com>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/s390x/tcg-target.h     |  2 +-
 tcg/s390x/tcg-target.c.inc | 25 +++++++++++++++++++++++++
 2 files changed, 26 insertions(+), 1 deletion(-)

diff --git a/tcg/s390x/tcg-target.h b/tcg/s390x/tcg-target.h
index XXXXXXX..XXXXXXX 100644
--- a/tcg/s390x/tcg-target.h
+++ b/tcg/s390x/tcg-target.h
@@ -XXX,XX +XXX,XX @@ extern uint64_t s390_facilities[3];
 #define TCG_TARGET_HAS_shv_vec        1
 #define TCG_TARGET_HAS_mul_vec        1
 #define TCG_TARGET_HAS_sat_vec        0
-#define TCG_TARGET_HAS_minmax_vec     0
+#define TCG_TARGET_HAS_minmax_vec     1
 #define TCG_TARGET_HAS_bitsel_vec     0
 #define TCG_TARGET_HAS_cmpsel_vec     0
 
diff --git a/tcg/s390x/tcg-target.c.inc b/tcg/s390x/tcg-target.c.inc
index XXXXXXX..XXXXXXX 100644
--- a/tcg/s390x/tcg-target.c.inc
+++ b/tcg/s390x/tcg-target.c.inc
@@ -XXX,XX +XXX,XX @@ typedef enum S390Opcode {
     VRRc_VESRAV = 0xe77a,
     VRRc_VESRLV = 0xe778,
     VRRc_VML    = 0xe7a2,
+    VRRc_VMN    = 0xe7fe,
+    VRRc_VMNL   = 0xe7fc,
+    VRRc_VMX    = 0xe7ff,
+    VRRc_VMXL   = 0xe7fd,
     VRRc_VN     = 0xe768,
     VRRc_VNC    = 0xe769,
     VRRc_VNO    = 0xe76b,
@@ -XXX,XX +XXX,XX @@ static void tcg_out_vec_op(TCGContext *s, TCGOpcode opc,
         tcg_out_insn(s, VRRc, VERLLV, a0, a1, a2, vece);
         break;
 
+    case INDEX_op_smin_vec:
+        tcg_out_insn(s, VRRc, VMN, a0, a1, a2, vece);
+        break;
+    case INDEX_op_smax_vec:
+        tcg_out_insn(s, VRRc, VMX, a0, a1, a2, vece);
+        break;
+    case INDEX_op_umin_vec:
+        tcg_out_insn(s, VRRc, VMNL, a0, a1, a2, vece);
+        break;
+    case INDEX_op_umax_vec:
+        tcg_out_insn(s, VRRc, VMXL, a0, a1, a2, vece);
+        break;
+
     case INDEX_op_cmp_vec:
         switch ((TCGCond)args[3]) {
         case TCG_COND_EQ:
@@ -XXX,XX +XXX,XX @@ int tcg_can_emit_vec_op(TCGOpcode opc, TCGType type, unsigned vece)
     case INDEX_op_shri_vec:
     case INDEX_op_shrs_vec:
     case INDEX_op_shrv_vec:
+    case INDEX_op_smax_vec:
+    case INDEX_op_smin_vec:
     case INDEX_op_sub_vec:
+    case INDEX_op_umax_vec:
+    case INDEX_op_umin_vec:
     case INDEX_op_xor_vec:
         return 1;
     case INDEX_op_cmp_vec:
@@ -XXX,XX +XXX,XX @@ static TCGConstraintSetIndex tcg_target_op_def(TCGOpcode op)
     case INDEX_op_shlv_vec:
     case INDEX_op_shrv_vec:
     case INDEX_op_sarv_vec:
+    case INDEX_op_smax_vec:
+    case INDEX_op_smin_vec:
+    case INDEX_op_umax_vec:
+    case INDEX_op_umin_vec:
         return C_O1_I2(v, v, v);
     case INDEX_op_rotls_vec:
     case INDEX_op_shls_vec:
-- 
2.25.1

The unsigned saturations are handled via generic code
using min/max.  The signed saturations are expanded using
double-sized arithmetic and a saturating pack.

Since all operations are done via expansion, do not
actually set TCG_TARGET_HAS_sat_vec.

Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/s390x/tcg-target.opc.h |  3 ++
 tcg/s390x/tcg-target.c.inc | 63 ++++++++++++++++++++++++++++++++++++++
 2 files changed, 66 insertions(+)

diff --git a/tcg/s390x/tcg-target.opc.h b/tcg/s390x/tcg-target.opc.h
index XXXXXXX..XXXXXXX 100644
--- a/tcg/s390x/tcg-target.opc.h
+++ b/tcg/s390x/tcg-target.opc.h
@@ -XXX,XX +XXX,XX @@
  * emitted by tcg_expand_vec_op.  For those familiar with GCC internals,
  * consider these to be UNSPEC with names.
  */
+DEF(s390_vuph_vec, 1, 1, 0, IMPLVEC)
+DEF(s390_vupl_vec, 1, 1, 0, IMPLVEC)
+DEF(s390_vpks_vec, 1, 2, 0, IMPLVEC)
diff --git a/tcg/s390x/tcg-target.c.inc b/tcg/s390x/tcg-target.c.inc
index XXXXXXX..XXXXXXX 100644
--- a/tcg/s390x/tcg-target.c.inc
+++ b/tcg/s390x/tcg-target.c.inc
@@ -XXX,XX +XXX,XX @@ typedef enum S390Opcode {
     VRRc_VNO    = 0xe76b,
     VRRc_VO     = 0xe76a,
     VRRc_VOC    = 0xe76f,
+    VRRc_VPKS   = 0xe797,   /* we leave the m5 cs field 0 */
     VRRc_VS     = 0xe7f7,
+    VRRa_VUPH   = 0xe7d7,
+    VRRa_VUPL   = 0xe7d6,
     VRRc_VX     = 0xe76d,
     VRRf_VLVGP  = 0xe762,
 
@@ -XXX,XX +XXX,XX @@ static void tcg_out_vec_op(TCGContext *s, TCGOpcode opc,
         }
         break;
 
+    case INDEX_op_s390_vuph_vec:
+        tcg_out_insn(s, VRRa, VUPH, a0, a1, vece);
+        break;
+    case INDEX_op_s390_vupl_vec:
+        tcg_out_insn(s, VRRa, VUPL, a0, a1, vece);
+        break;
+    case INDEX_op_s390_vpks_vec:
+        tcg_out_insn(s, VRRc, VPKS, a0, a1, a2, vece);
+        break;
+
     case INDEX_op_mov_vec:   /* Always emitted via tcg_out_mov.  */
     case INDEX_op_dup_vec:   /* Always emitted via tcg_out_dup_vec.  */
     default:
@@ -XXX,XX +XXX,XX @@ int tcg_can_emit_vec_op(TCGOpcode opc, TCGType type, unsigned vece)
         return -1;
     case INDEX_op_mul_vec:
         return vece < MO_64;
+    case INDEX_op_ssadd_vec:
+    case INDEX_op_sssub_vec:
+        return vece < MO_64 ? -1 : 0;
     default:
         return 0;
     }
@@ -XXX,XX +XXX,XX @@ static void expand_vec_cmp(TCGType type, unsigned vece, TCGv_vec v0,
     }
 }
 
+static void expand_vec_sat(TCGType type, unsigned vece, TCGv_vec v0,
+                           TCGv_vec v1, TCGv_vec v2, TCGOpcode add_sub_opc)
+{
+    TCGv_vec h1 = tcg_temp_new_vec(type);
+    TCGv_vec h2 = tcg_temp_new_vec(type);
+    TCGv_vec l1 = tcg_temp_new_vec(type);
+    TCGv_vec l2 = tcg_temp_new_vec(type);
+
+    tcg_debug_assert (vece < MO_64);
+
+    /* Unpack with sign-extension. */
+    vec_gen_2(INDEX_op_s390_vuph_vec, type, vece,
+              tcgv_vec_arg(h1), tcgv_vec_arg(v1));
+    vec_gen_2(INDEX_op_s390_vuph_vec, type, vece,
+              tcgv_vec_arg(h2), tcgv_vec_arg(v2));
+
+    vec_gen_2(INDEX_op_s390_vupl_vec, type, vece,
+              tcgv_vec_arg(l1), tcgv_vec_arg(v1));
+    vec_gen_2(INDEX_op_s390_vupl_vec, type, vece,
+              tcgv_vec_arg(l2), tcgv_vec_arg(v2));
+
+    /* Arithmetic on a wider element size. */
+    vec_gen_3(add_sub_opc, type, vece + 1, tcgv_vec_arg(h1),
+              tcgv_vec_arg(h1), tcgv_vec_arg(h2));
+    vec_gen_3(add_sub_opc, type, vece + 1, tcgv_vec_arg(l1),
+              tcgv_vec_arg(l1), tcgv_vec_arg(l2));
+
+    /* Pack with saturation. */
+    vec_gen_3(INDEX_op_s390_vpks_vec, type, vece + 1,
+              tcgv_vec_arg(v0), tcgv_vec_arg(h1), tcgv_vec_arg(l1));
+
+    tcg_temp_free_vec(h1);
+    tcg_temp_free_vec(h2);
+    tcg_temp_free_vec(l1);
+    tcg_temp_free_vec(l2);
+}
+
 void tcg_expand_vec_op(TCGOpcode opc, TCGType type, unsigned vece,
                        TCGArg a0, ...)
 {
@@ -XXX,XX +XXX,XX @@ void tcg_expand_vec_op(TCGOpcode opc, TCGType type, unsigned vece,
         tcg_temp_free_vec(t0);
         break;
 
+    case INDEX_op_ssadd_vec:
+        expand_vec_sat(type, vece, v0, v1, v2, INDEX_op_add_vec);
+        break;
+    case INDEX_op_sssub_vec:
+        expand_vec_sat(type, vece, v0, v1, v2, INDEX_op_sub_vec);
+        break;
+
     default:
         g_assert_not_reached();
     }
@@ -XXX,XX +XXX,XX @@ static TCGConstraintSetIndex tcg_target_op_def(TCGOpcode op)
     case INDEX_op_sari_vec:
     case INDEX_op_shli_vec:
     case INDEX_op_shri_vec:
+    case INDEX_op_s390_vuph_vec:
+    case INDEX_op_s390_vupl_vec:
         return C_O1_I1(v, v);
     case INDEX_op_add_vec:
     case INDEX_op_sub_vec:
@@ -XXX,XX +XXX,XX @@ static TCGConstraintSetIndex tcg_target_op_def(TCGOpcode op)
     case INDEX_op_smin_vec:
     case INDEX_op_umax_vec:
     case INDEX_op_umin_vec:
+    case INDEX_op_s390_vpks_vec:
         return C_O1_I2(v, v, v);
     case INDEX_op_rotls_vec:
     case INDEX_op_shls_vec:
-- 
2.25.1

Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/s390x/tcg-target-con-set.h |  1 +
 tcg/s390x/tcg-target.h         |  2 +-
 tcg/s390x/tcg-target.c.inc     | 20 ++++++++++++++++++++
 3 files changed, 22 insertions(+), 1 deletion(-)

This is via expansion; don't actually set TCG_TARGET_HAS_cmpsel_vec.

Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/s390x/tcg-target.c.inc | 24 +++++++++++++++++++++++-
 1 file changed, 23 insertions(+), 1 deletion(-)

diff --git a/tcg/s390x/tcg-target.c.inc b/tcg/s390x/tcg-target.c.inc
index XXXXXXX..XXXXXXX 100644
--- a/tcg/s390x/tcg-target.c.inc
+++ b/tcg/s390x/tcg-target.c.inc
@@ -XXX,XX +XXX,XX @@ int tcg_can_emit_vec_op(TCGOpcode opc, TCGType type, unsigned vece)
     case INDEX_op_xor_vec:
         return 1;
     case INDEX_op_cmp_vec:
+    case INDEX_op_cmpsel_vec:
     case INDEX_op_rotrv_vec:
         return -1;
     case INDEX_op_mul_vec:
@@ -XXX,XX +XXX,XX @@ static void expand_vec_cmp(TCGType type, unsigned vece, TCGv_vec v0,
     }
 }
 
+static void expand_vec_cmpsel(TCGType type, unsigned vece, TCGv_vec v0,
+                              TCGv_vec c1, TCGv_vec c2,
+                              TCGv_vec v3, TCGv_vec v4, TCGCond cond)
+{
+    TCGv_vec t = tcg_temp_new_vec(type);
+
+    if (expand_vec_cmp_noinv(type, vece, t, c1, c2, cond)) {
+        /* Invert the sense of the compare by swapping arguments.  */
+        tcg_gen_bitsel_vec(vece, v0, t, v4, v3);
+    } else {
+        tcg_gen_bitsel_vec(vece, v0, t, v3, v4);
+    }
+    tcg_temp_free_vec(t);
+}
+
 static void expand_vec_sat(TCGType type, unsigned vece, TCGv_vec v0,
                            TCGv_vec v1, TCGv_vec v2, TCGOpcode add_sub_opc)
 {
@@ -XXX,XX +XXX,XX @@ void tcg_expand_vec_op(TCGOpcode opc, TCGType type, unsigned vece,
                        TCGArg a0, ...)
 {
     va_list va;
-    TCGv_vec v0, v1, v2, t0;
+    TCGv_vec v0, v1, v2, v3, v4, t0;
 
     va_start(va, a0);
     v0 = temp_tcgv_vec(arg_temp(a0));
@@ -XXX,XX +XXX,XX @@ void tcg_expand_vec_op(TCGOpcode opc, TCGType type, unsigned vece,
         expand_vec_cmp(type, vece, v0, v1, v2, va_arg(va, TCGArg));
         break;
 
+    case INDEX_op_cmpsel_vec:
+        v3 = temp_tcgv_vec(arg_temp(va_arg(va, TCGArg)));
+        v4 = temp_tcgv_vec(arg_temp(va_arg(va, TCGArg)));
+        expand_vec_cmpsel(type, vece, v0, v1, v2, v3, v4, va_arg(va, TCGArg));
+        break;
+
     case INDEX_op_rotrv_vec:
         t0 = tcg_temp_new_vec(type);
         tcg_gen_neg_vec(vece, t0, v2);
-- 
2.25.1

The following changes since commit aa3a285b5bc56a4208b3b57d4a55291e9c260107:

Merge tag 'mem-2024-12-21' of https://github.com/davidhildenbrand/qemu into staging (2024-12-22 14:33:27 -0500)

are available in the Git repository at:

https://gitlab.com/rth7680/qemu.git tags/pull-tcg-20241224

for you to fetch changes up to e4a8e093dc74be049f4829831dce76e5edab0003:

accel/tcg: Move gen_intermediate_code to TCGCPUOps.translate_core (2024-12-24 08:32:15 -0800)

----------------------------------------------------------------
tcg/optimize: Remove in-flight mask data from OptContext
fpu: Add float*_muladd_scalbn
fpu: Remove float_muladd_halve_result
fpu: Add float_round_nearest_even_max
fpu: Add float_muladd_suppress_add_product_zero
target/hexagon: Use float32_muladd
accel/tcg: Move gen_intermediate_code to TCGCPUOps.translate_core

----------------------------------------------------------------
Ilya Leoshkevich (1):
      tests/tcg: Do not use inttypes.h in multiarch/system/memory.c

Pierrick Bouvier (1):
      plugins: optimize cpu_index code generation

Richard Henderson (70):
      tcg/optimize: Split out finish_bb, finish_ebb
      tcg/optimize: Split out fold_affected_mask
      tcg/optimize: Copy mask writeback to fold_masks
      tcg/optimize: Split out fold_masks_zs
      tcg/optimize: Augment s_mask from z_mask in fold_masks_zs
      tcg/optimize: Change representation of s_mask
      tcg/optimize: Use finish_folding in fold_add, fold_add_vec, fold_addsub2
      tcg/optimize: Introduce const value accessors for TempOptInfo
      tcg/optimize: Use fold_masks_zs in fold_and
      tcg/optimize: Use fold_masks_zs in fold_andc
      tcg/optimize: Use fold_masks_zs in fold_bswap
      tcg/optimize: Use fold_masks_zs in fold_count_zeros
      tcg/optimize: Use fold_masks_z in fold_ctpop
      tcg/optimize: Use fold_and and fold_masks_z in fold_deposit
      tcg/optimize: Compute sign mask in fold_deposit
      tcg/optimize: Use finish_folding in fold_divide
      tcg/optimize: Use finish_folding in fold_dup, fold_dup2
      tcg/optimize: Use fold_masks_s in fold_eqv
      tcg/optimize: Use fold_masks_z in fold_extract
      tcg/optimize: Use finish_folding in fold_extract2
      tcg/optimize: Use fold_masks_zs in fold_exts
      tcg/optimize: Use fold_masks_z in fold_extu
      tcg/optimize: Use fold_masks_zs in fold_movcond
      tcg/optimize: Use finish_folding in fold_mul*
      tcg/optimize: Use fold_masks_s in fold_nand
      tcg/optimize: Use fold_masks_z in fold_neg_no_const
      tcg/optimize: Use fold_masks_s in fold_nor
      tcg/optimize: Use fold_masks_s in fold_not
      tcg/optimize: Use fold_masks_zs in fold_or
      tcg/optimize: Use fold_masks_zs in fold_orc
      tcg/optimize: Use fold_masks_zs in fold_qemu_ld
      tcg/optimize: Return true from fold_qemu_st, fold_tcg_st
      tcg/optimize: Use finish_folding in fold_remainder
      tcg/optimize: Distinguish simplification in fold_setcond_zmask
      tcg/optimize: Use fold_masks_z in fold_setcond
      tcg/optimize: Use fold_masks_s in fold_negsetcond
      tcg/optimize: Use fold_masks_z in fold_setcond2
      tcg/optimize: Use finish_folding in fold_cmp_vec
      tcg/optimize: Use finish_folding in fold_cmpsel_vec
      tcg/optimize: Use fold_masks_zs in fold_sextract
      tcg/optimize: Use fold_masks_zs, fold_masks_s in fold_shift
      tcg/optimize: Simplify sign bit test in fold_shift
      tcg/optimize: Use finish_folding in fold_sub, fold_sub_vec
      tcg/optimize: Use fold_masks_zs in fold_tcg_ld
      tcg/optimize: Use finish_folding in fold_tcg_ld_memcopy
      tcg/optimize: Use fold_masks_zs in fold_xor
      tcg/optimize: Use finish_folding in fold_bitsel_vec
      tcg/optimize: Use finish_folding as default in tcg_optimize
      tcg/optimize: Remove z_mask, s_mask from OptContext
      tcg/optimize: Re-enable sign-mask optimizations
      tcg/optimize: Move fold_bitsel_vec into alphabetic sort
      tcg/optimize: Move fold_cmp_vec, fold_cmpsel_vec into alphabetic sort
      softfloat: Add float{16,32,64}_muladd_scalbn
      target/arm: Use float*_muladd_scalbn
      target/sparc: Use float*_muladd_scalbn
      softfloat: Remove float_muladd_halve_result
      softfloat: Add float_round_nearest_even_max
      softfloat: Add float_muladd_suppress_add_product_zero
      target/hexagon: Use float32_mul in helper_sfmpy
      target/hexagon: Use float32_muladd for helper_sffma
      target/hexagon: Use float32_muladd for helper_sffms
      target/hexagon: Use float32_muladd_scalbn for helper_sffma_sc
      target/hexagon: Use float32_muladd for helper_sffm[as]_lib
      target/hexagon: Remove internal_fmafx
      target/hexagon: Expand GEN_XF_ROUND
      target/hexagon: Remove Float
      target/hexagon: Remove Double
      target/hexagon: Use mulu64 for int128_mul_6464
      target/hexagon: Simplify internal_mpyhh setup
      accel/tcg: Move gen_intermediate_code to TCGCPUOps.translate_core

From: Ilya Leoshkevich <iii@linux.ibm.com>

make check-tcg fails on Fedora with the following error message:

alpha-linux-gnu-gcc [...] qemu/tests/tcg/multiarch/system/memory.c -o memory [...]
    qemu/tests/tcg/multiarch/system/memory.c:17:10: fatal error: inttypes.h: No such file or directory
       17 | #include <inttypes.h>
          |          ^~~~~~~~~~~~
    compilation terminated.

The reason is that Fedora has cross-compilers, but no cross-glibc
headers. Fix by hardcoding the format specifiers and dropping the
include.

An alternative fix would be to introduce a configure check for
inttypes.h. But this would make it impossible to use Fedora
cross-compilers for softmmu tests, which used to work so far.

Fixes: ecbcc9ead2f8 ("tests/tcg: add a system test to check memory instrumentation")
Signed-off-by: Ilya Leoshkevich <iii@linux.ibm.com>
Reviewed-by: Paolo Bonzini <pbonzini@redhat.com>
Message-ID: <20241010085906.226249-1-iii@linux.ibm.com>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tests/tcg/multiarch/system/memory.c | 9 ++++-----
 1 file changed, 4 insertions(+), 5 deletions(-)

diff --git a/tests/tcg/multiarch/system/memory.c b/tests/tcg/multiarch/system/memory.c
index XXXXXXX..XXXXXXX 100644
--- a/tests/tcg/multiarch/system/memory.c
+++ b/tests/tcg/multiarch/system/memory.c
@@ -XXX,XX +XXX,XX @@
 
 #include <stdint.h>
 #include <stdbool.h>
-#include <inttypes.h>
 #include <minilib.h>
 
 #ifndef CHECK_UNALIGNED
@@ -XXX,XX +XXX,XX @@ int main(void)
     int i;
     bool ok = true;
 
-    ml_printf("Test data start: 0x%"PRIxPTR"\n", &test_data[0]);
-    ml_printf("Test data end: 0x%"PRIxPTR"\n", &test_data[TEST_SIZE]);
+    ml_printf("Test data start: 0x%lx\n", (unsigned long)&test_data[0]);
+    ml_printf("Test data end: 0x%lx\n", (unsigned long)&test_data[TEST_SIZE]);
 
     /* Run through the unsigned tests first */
     for (i = 0; i < ARRAY_SIZE(init_ufns) && ok; i++) {
@@ -XXX,XX +XXX,XX @@ int main(void)
         ok = do_signed_reads(true);
     }
 
-    ml_printf("Test data read: %"PRId32"\n", test_read_count);
-    ml_printf("Test data write: %"PRId32"\n", test_write_count);
+    ml_printf("Test data read: %lu\n", (unsigned long)test_read_count);
+    ml_printf("Test data write: %lu\n", (unsigned long)test_write_count);
     ml_printf("Test complete: %s\n", ok ? "PASSED" : "FAILED");
     return ok ? 0 : -1;
 }
-- 
2.43.0

From: Pierrick Bouvier <pierrick.bouvier@linaro.org>

When running with a single vcpu, we can return a constant instead of a
load when accessing cpu_index.
A side effect is that all tcg operations using it are optimized, most
notably scoreboard access.
When running a simple loop in user-mode, the speedup is around 20%.

Signed-off-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-ID: <20241128213843.1023080-1-pierrick.bouvier@linaro.org>
---
 accel/tcg/plugin-gen.c | 9 +++++++++
 1 file changed, 9 insertions(+)

diff --git a/accel/tcg/plugin-gen.c b/accel/tcg/plugin-gen.c
index XXXXXXX..XXXXXXX 100644
--- a/accel/tcg/plugin-gen.c
+++ b/accel/tcg/plugin-gen.c
@@ -XXX,XX +XXX,XX @@ static void gen_disable_mem_helper(void)
 
 static TCGv_i32 gen_cpu_index(void)
 {
+    /*
+     * Optimize when we run with a single vcpu. All values using cpu_index,
+     * including scoreboard index, will be optimized out.
+     * User-mode calls tb_flush when setting this flag. In system-mode, all
+     * vcpus are created before generating code.
+     */
+    if (!tcg_cflags_has(current_cpu, CF_PARALLEL)) {
+        return tcg_constant_i32(current_cpu->cpu_index);
+    }
     TCGv_i32 cpu_index = tcg_temp_ebb_new_i32();
     tcg_gen_ld_i32(cpu_index, tcg_env,
                    -offsetof(ArchCPU, env) + offsetof(CPUState, cpu_index));
-- 
2.43.0

Call them directly from the opcode switch statement in tcg_optimize,
rather than in finish_folding based on opcode flags.  Adjust folding
of conditional branches to match.

Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/optimize.c | 47 +++++++++++++++++++++++++++++++----------------
 1 file changed, 31 insertions(+), 16 deletions(-)

diff --git a/tcg/optimize.c b/tcg/optimize.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/optimize.c
+++ b/tcg/optimize.c
@@ -XXX,XX +XXX,XX @@ static void copy_propagate(OptContext *ctx, TCGOp *op,
     }
 }
 
+static void finish_bb(OptContext *ctx)
+{
+    /* We only optimize memory barriers across basic blocks. */
+    ctx->prev_mb = NULL;
+}
+
+static void finish_ebb(OptContext *ctx)
+{
+    finish_bb(ctx);
+    /* We only optimize across extended basic blocks. */
+    memset(&ctx->temps_used, 0, sizeof(ctx->temps_used));
+    remove_mem_copy_all(ctx);
+}
+
 static void finish_folding(OptContext *ctx, TCGOp *op)
 {
     const TCGOpDef *def = &tcg_op_defs[op->opc];
     int i, nb_oargs;
 
-    /*
-     * We only optimize extended basic blocks.  If the opcode ends a BB
-     * and is not a conditional branch, reset all temp data.
-     */
-    if (def->flags & TCG_OPF_BB_END) {
-        ctx->prev_mb = NULL;
-        if (!(def->flags & TCG_OPF_COND_BRANCH)) {
-            memset(&ctx->temps_used, 0, sizeof(ctx->temps_used));
-            remove_mem_copy_all(ctx);
-        }
-        return;
-    }
-
     nb_oargs = def->nb_oargs;
     for (i = 0; i < nb_oargs; i++) {
         TCGTemp *ts = arg_temp(op->args[i]);
@@ -XXX,XX +XXX,XX @@ static bool fold_brcond(OptContext *ctx, TCGOp *op)
     if (i > 0) {
         op->opc = INDEX_op_br;
         op->args[0] = op->args[3];
+        finish_ebb(ctx);
+    } else {
+        finish_bb(ctx);
     }
-    return false;
+    return true;
 }
 
 static bool fold_brcond2(OptContext *ctx, TCGOp *op)
@@ -XXX,XX +XXX,XX @@ static bool fold_brcond2(OptContext *ctx, TCGOp *op)
         }
         op->opc = INDEX_op_br;
         op->args[0] = label;
-        break;
+        finish_ebb(ctx);
+        return true;
     }
-    return false;
+
+    finish_bb(ctx);
+    return true;
 }
 
 static bool fold_bswap(OptContext *ctx, TCGOp *op)
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
         CASE_OP_32_64_VEC(xor):
             done = fold_xor(&ctx, op);
             break;
+        case INDEX_op_set_label:
+        case INDEX_op_br:
+        case INDEX_op_exit_tb:
+        case INDEX_op_goto_tb:
+        case INDEX_op_goto_ptr:
+            finish_ebb(&ctx);
+            done = true;
+            break;
         default:
             break;
         }
-- 
2.43.0

There are only a few logical operations which can compute
an "affected" mask.  Split out handling of this optimization
to a separate function, only to be called when applicable.

Remove the a_mask field from OptContext, as the mask is
no longer stored anywhere.

Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/optimize.c | 42 +++++++++++++++++++++++++++---------------
 1 file changed, 27 insertions(+), 15 deletions(-)

diff --git a/tcg/optimize.c b/tcg/optimize.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/optimize.c
+++ b/tcg/optimize.c
@@ -XXX,XX +XXX,XX @@ typedef struct OptContext {
     QSIMPLEQ_HEAD(, MemCopyInfo) mem_free;
 
     /* In flight values from optimization. */
-    uint64_t a_mask;  /* mask bit is 0 iff value identical to first input */
     uint64_t z_mask;  /* mask bit is 0 iff value bit is 0 */
     uint64_t s_mask;  /* mask of clrsb(value) bits */
     TCGType type;
@@ -XXX,XX +XXX,XX @@ static bool fold_const2_commutative(OptContext *ctx, TCGOp *op)
 
 static bool fold_masks(OptContext *ctx, TCGOp *op)
 {
-    uint64_t a_mask = ctx->a_mask;
     uint64_t z_mask = ctx->z_mask;
     uint64_t s_mask = ctx->s_mask;
 
@@ -XXX,XX +XXX,XX @@ static bool fold_masks(OptContext *ctx, TCGOp *op)
      * type changing opcodes.
      */
     if (ctx->type == TCG_TYPE_I32) {
-        a_mask = (int32_t)a_mask;
         z_mask = (int32_t)z_mask;
         s_mask |= MAKE_64BIT_MASK(32, 32);
         ctx->z_mask = z_mask;
@@ -XXX,XX +XXX,XX @@ static bool fold_masks(OptContext *ctx, TCGOp *op)
     if (z_mask == 0) {
         return tcg_opt_gen_movi(ctx, op, op->args[0], 0);
     }
+    return false;
+}
+
+/*
+ * An "affected" mask bit is 0 if and only if the result is identical
+ * to the first input.  Thus if the entire mask is 0, the operation
+ * is equivalent to a copy.
+ */
+static bool fold_affected_mask(OptContext *ctx, TCGOp *op, uint64_t a_mask)
+{
+    if (ctx->type == TCG_TYPE_I32) {
+        a_mask = (uint32_t)a_mask;
+    }
     if (a_mask == 0) {
         return tcg_opt_gen_mov(ctx, op, op->args[0], op->args[1]);
     }
@@ -XXX,XX +XXX,XX @@ static bool fold_and(OptContext *ctx, TCGOp *op)
      * Known-zeros does not imply known-ones.  Therefore unless
      * arg2 is constant, we can't infer affected bits from it.
      */
-    if (arg_is_const(op->args[2])) {
-        ctx->a_mask = z1 & ~z2;
+    if (arg_is_const(op->args[2]) &&
+        fold_affected_mask(ctx, op, z1 & ~z2)) {
+        return true;
     }
 
     return fold_masks(ctx, op);
@@ -XXX,XX +XXX,XX @@ static bool fold_andc(OptContext *ctx, TCGOp *op)
      */
     if (arg_is_const(op->args[2])) {
         uint64_t z2 = ~arg_info(op->args[2])->z_mask;
-        ctx->a_mask = z1 & ~z2;
+        if (fold_affected_mask(ctx, op, z1 & ~z2)) {
+            return true;
+        }
         z1 &= z2;
     }
     ctx->z_mask = z1;
@@ -XXX,XX +XXX,XX @@ static bool fold_extract(OptContext *ctx, TCGOp *op)
 
     z_mask_old = arg_info(op->args[1])->z_mask;
     z_mask = extract64(z_mask_old, pos, len);
-    if (pos == 0) {
-        ctx->a_mask = z_mask_old ^ z_mask;
+    if (pos == 0 && fold_affected_mask(ctx, op, z_mask_old ^ z_mask)) {
+        return true;
     }
     ctx->z_mask = z_mask;
     ctx->s_mask = smask_from_zmask(z_mask);
@@ -XXX,XX +XXX,XX @@ static bool fold_exts(OptContext *ctx, TCGOp *op)
 
     ctx->z_mask = z_mask;
     ctx->s_mask = s_mask;
-    if (!type_change) {
-        ctx->a_mask = s_mask & ~s_mask_old;
+    if (!type_change && fold_affected_mask(ctx, op, s_mask & ~s_mask_old)) {
+        return true;
     }
 
     return fold_masks(ctx, op);
@@ -XXX,XX +XXX,XX @@ static bool fold_extu(OptContext *ctx, TCGOp *op)
 
     ctx->z_mask = z_mask;
     ctx->s_mask = smask_from_zmask(z_mask);
-    if (!type_change) {
-        ctx->a_mask = z_mask_old ^ z_mask;
+    if (!type_change && fold_affected_mask(ctx, op, z_mask_old ^ z_mask)) {
+        return true;
     }
     return fold_masks(ctx, op);
 }
@@ -XXX,XX +XXX,XX @@ static bool fold_sextract(OptContext *ctx, TCGOp *op)
     s_mask |= MAKE_64BIT_MASK(len, 64 - len);
     ctx->s_mask = s_mask;
 
-    if (pos == 0) {
-        ctx->a_mask = s_mask & ~s_mask_old;
+    if (pos == 0 && fold_affected_mask(ctx, op, s_mask & ~s_mask_old)) {
+        return true;
     }
 
     return fold_masks(ctx, op);
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
         }
 
         /* Assume all bits affected, no bits known zero, no sign reps. */
-        ctx.a_mask = -1;
         ctx.z_mask = -1;
         ctx.s_mask = 0;
 
-- 
2.43.0

Use of fold_masks should be restricted to those opcodes that
can reliably make use of it -- those with a single output,
and from higher-level folders that set up the masks.
Prepare for conversion of each folder in turn.

Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/optimize.c | 17 ++++++++++++++---
 1 file changed, 14 insertions(+), 3 deletions(-)

diff --git a/tcg/optimize.c b/tcg/optimize.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/optimize.c
+++ b/tcg/optimize.c
@@ -XXX,XX +XXX,XX @@ static bool fold_masks(OptContext *ctx, TCGOp *op)
 {
     uint64_t z_mask = ctx->z_mask;
     uint64_t s_mask = ctx->s_mask;
+    const TCGOpDef *def = &tcg_op_defs[op->opc];
+    TCGTemp *ts;
+    TempOptInfo *ti;
+
+    /* Only single-output opcodes are supported here. */
+    tcg_debug_assert(def->nb_oargs == 1);
 
     /*
      * 32-bit ops generate 32-bit results, which for the purpose of
@@ -XXX,XX +XXX,XX @@ static bool fold_masks(OptContext *ctx, TCGOp *op)
     if (ctx->type == TCG_TYPE_I32) {
         z_mask = (int32_t)z_mask;
         s_mask |= MAKE_64BIT_MASK(32, 32);
-        ctx->z_mask = z_mask;
-        ctx->s_mask = s_mask;
     }
 
     if (z_mask == 0) {
         return tcg_opt_gen_movi(ctx, op, op->args[0], 0);
     }
-    return false;
+
+    ts = arg_temp(op->args[0]);
+    reset_ts(ctx, ts);
+
+    ti = ts_info(ts);
+    ti->z_mask = z_mask;
+    ti->s_mask = s_mask;
+    return true;
 }
 
 /*
-- 
2.43.0

Add a routine to which masks can be passed directly, rather than
storing them into OptContext.  To be used in upcoming patches.

Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/optimize.c | 15 ++++++++++++---
 1 file changed, 12 insertions(+), 3 deletions(-)

diff --git a/tcg/optimize.c b/tcg/optimize.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/optimize.c
+++ b/tcg/optimize.c
@@ -XXX,XX +XXX,XX @@ static bool fold_const2_commutative(OptContext *ctx, TCGOp *op)
     return fold_const2(ctx, op);
 }
 
-static bool fold_masks(OptContext *ctx, TCGOp *op)
+/*
+ * Record "zero" and "sign" masks for the single output of @op.
+ * See TempOptInfo definition of z_mask and s_mask.
+ * If z_mask allows, fold the output to constant zero.
+ */
+static bool fold_masks_zs(OptContext *ctx, TCGOp *op,
+                          uint64_t z_mask, uint64_t s_mask)
 {
-    uint64_t z_mask = ctx->z_mask;
-    uint64_t s_mask = ctx->s_mask;
     const TCGOpDef *def = &tcg_op_defs[op->opc];
     TCGTemp *ts;
     TempOptInfo *ti;
@@ -XXX,XX +XXX,XX @@ static bool fold_masks(OptContext *ctx, TCGOp *op)
     return true;
 }
 
+static bool fold_masks(OptContext *ctx, TCGOp *op)
+{
+    return fold_masks_zs(ctx, op, ctx->z_mask, ctx->s_mask);
+}
+
 /*
  * An "affected" mask bit is 0 if and only if the result is identical
  * to the first input.  Thus if the entire mask is 0, the operation
-- 
2.43.0

Consider the passed s_mask to be a minimum deduced from
either existing s_mask or from a sign-extension operation.
We may be able to deduce more from the set of known zeros.
Remove identical logic from several opcode folders.

Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/optimize.c | 21 ++++++---------------
 1 file changed, 6 insertions(+), 15 deletions(-)

diff --git a/tcg/optimize.c b/tcg/optimize.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/optimize.c
+++ b/tcg/optimize.c
@@ -XXX,XX +XXX,XX @@ static bool fold_const2_commutative(OptContext *ctx, TCGOp *op)
  * Record "zero" and "sign" masks for the single output of @op.
  * See TempOptInfo definition of z_mask and s_mask.
  * If z_mask allows, fold the output to constant zero.
+ * The passed s_mask may be augmented by z_mask.
  */
 static bool fold_masks_zs(OptContext *ctx, TCGOp *op,
                           uint64_t z_mask, uint64_t s_mask)
@@ -XXX,XX +XXX,XX @@ static bool fold_masks_zs(OptContext *ctx, TCGOp *op,
 
     ti = ts_info(ts);
     ti->z_mask = z_mask;
-    ti->s_mask = s_mask;
+    ti->s_mask = s_mask | smask_from_zmask(z_mask);
     return true;
 }
 
@@ -XXX,XX +XXX,XX @@ static bool fold_bswap(OptContext *ctx, TCGOp *op)
     default:
         g_assert_not_reached();
     }
-    s_mask = smask_from_zmask(z_mask);
 
+    s_mask = 0;
     switch (op->args[2] & (TCG_BSWAP_OZ | TCG_BSWAP_OS)) {
     case TCG_BSWAP_OZ:
         break;
@@ -XXX,XX +XXX,XX @@ static bool fold_bswap(OptContext *ctx, TCGOp *op)
     default:
         /* The high bits are undefined: force all bits above the sign to 1. */
         z_mask |= sign << 1;
-        s_mask = 0;
         break;
     }
     ctx->z_mask = z_mask;
@@ -XXX,XX +XXX,XX @@ static bool fold_count_zeros(OptContext *ctx, TCGOp *op)
         g_assert_not_reached();
     }
     ctx->z_mask = arg_info(op->args[2])->z_mask | z_mask;
-    ctx->s_mask = smask_from_zmask(ctx->z_mask);
     return false;
 }
 
@@ -XXX,XX +XXX,XX @@ static bool fold_ctpop(OptContext *ctx, TCGOp *op)
     default:
         g_assert_not_reached();
     }
-    ctx->s_mask = smask_from_zmask(ctx->z_mask);
     return false;
 }
 
@@ -XXX,XX +XXX,XX @@ static bool fold_extract(OptContext *ctx, TCGOp *op)
         return true;
     }
     ctx->z_mask = z_mask;
-    ctx->s_mask = smask_from_zmask(z_mask);
 
     return fold_masks(ctx, op);
 }
@@ -XXX,XX +XXX,XX @@ static bool fold_extu(OptContext *ctx, TCGOp *op)
     }
 
     ctx->z_mask = z_mask;
-    ctx->s_mask = smask_from_zmask(z_mask);
     if (!type_change && fold_affected_mask(ctx, op, z_mask_old ^ z_mask)) {
         return true;
     }
@@ -XXX,XX +XXX,XX @@ static bool fold_qemu_ld(OptContext *ctx, TCGOp *op)
     int width = 8 * memop_size(mop);
 
     if (width < 64) {
-        ctx->s_mask = MAKE_64BIT_MASK(width, 64 - width);
-        if (!(mop & MO_SIGN)) {
+        if (mop & MO_SIGN) {
+            ctx->s_mask = MAKE_64BIT_MASK(width, 64 - width);
+        } else {
             ctx->z_mask = MAKE_64BIT_MASK(0, width);
-            ctx->s_mask <<= 1;
         }
     }
 
@@ -XXX,XX +XXX,XX @@ static bool fold_setcond(OptContext *ctx, TCGOp *op)
     fold_setcond_tst_pow2(ctx, op, false);
 
     ctx->z_mask = 1;
-    ctx->s_mask = smask_from_zmask(1);
     return false;
 }
 
@@ -XXX,XX +XXX,XX @@ static bool fold_setcond2(OptContext *ctx, TCGOp *op)
     }
 
     ctx->z_mask = 1;
-    ctx->s_mask = smask_from_zmask(1);
     return false;
 
  do_setcond_const:
@@ -XXX,XX +XXX,XX @@ static bool fold_tcg_ld(OptContext *ctx, TCGOp *op)
         break;
     CASE_OP_32_64(ld8u):
         ctx->z_mask = MAKE_64BIT_MASK(0, 8);
-        ctx->s_mask = MAKE_64BIT_MASK(9, 55);
         break;
     CASE_OP_32_64(ld16s):
         ctx->s_mask = MAKE_64BIT_MASK(16, 48);
         break;
     CASE_OP_32_64(ld16u):
         ctx->z_mask = MAKE_64BIT_MASK(0, 16);
-        ctx->s_mask = MAKE_64BIT_MASK(17, 47);
         break;
     case INDEX_op_ld32s_i64:
         ctx->s_mask = MAKE_64BIT_MASK(32, 32);
         break;
     case INDEX_op_ld32u_i64:
         ctx->z_mask = MAKE_64BIT_MASK(0, 32);
-        ctx->s_mask = MAKE_64BIT_MASK(33, 31);
         break;
     default:
         g_assert_not_reached();
-- 
2.43.0

Change the representation from sign bit repetitions to all bits equal
to the sign bit, including the sign bit itself.

The previous format has a problem in that it is difficult to recreate
a valid sign mask after a shift operation: the "repetitions" part of
the previous format meant that applying the same shift as for the value
lead to an off-by-one value.

The new format, including the sign bit itself, means that the sign mask
can be manipulated in exactly the same way as the value, canonicalization
is easier.

Canonicalize the s_mask in fold_masks_zs, rather than requiring callers
to do so.  Treat 0 as a non-canonical but typeless input for no sign
information, which will be reset as appropriate for the data type.
We can easily fold in the data from z_mask while canonicalizing.

Temporarily disable optimizations using s_mask while each operation is
converted to use fold_masks_zs and to the new form.

Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/optimize.c | 64 ++++++++++++--------------------------------------
 1 file changed, 15 insertions(+), 49 deletions(-)

diff --git a/tcg/optimize.c b/tcg/optimize.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/optimize.c
+++ b/tcg/optimize.c
@@ -XXX,XX +XXX,XX @@ typedef struct TempOptInfo {
     QSIMPLEQ_HEAD(, MemCopyInfo) mem_copy;
     uint64_t val;
     uint64_t z_mask;  /* mask bit is 0 if and only if value bit is 0 */
-    uint64_t s_mask;  /* a left-aligned mask of clrsb(value) bits. */
+    uint64_t s_mask;  /* mask bit is 1 if value bit matches msb */
 } TempOptInfo;
 
 typedef struct OptContext {
@@ -XXX,XX +XXX,XX @@ typedef struct OptContext {
 
     /* In flight values from optimization. */
     uint64_t z_mask;  /* mask bit is 0 iff value bit is 0 */
-    uint64_t s_mask;  /* mask of clrsb(value) bits */
+    uint64_t s_mask;  /* mask bit is 1 if value bit matches msb */
     TCGType type;
 } OptContext;
 
-/* Calculate the smask for a specific value. */
-static uint64_t smask_from_value(uint64_t value)
-{
-    int rep = clrsb64(value);
-    return ~(~0ull >> rep);
-}
-
-/*
- * Calculate the smask for a given set of known-zeros.
- * If there are lots of zeros on the left, we can consider the remainder
- * an unsigned field, and thus the corresponding signed field is one bit
- * larger.
- */
-static uint64_t smask_from_zmask(uint64_t zmask)
-{
-    /*
-     * Only the 0 bits are significant for zmask, thus the msb itself
-     * must be zero, else we have no sign information.
-     */
-    int rep = clz64(zmask);
-    if (rep == 0) {
-        return 0;
-    }
-    rep -= 1;
-    return ~(~0ull >> rep);
-}
-
-/*
- * Recreate a properly left-aligned smask after manipulation.
- * Some bit-shuffling, particularly shifts and rotates, may
- * retain sign bits on the left, but may scatter disconnected
- * sign bits on the right.  Retain only what remains to the left.
- */
-static uint64_t smask_from_smask(int64_t smask)
-{
-    /* Only the 1 bits are significant for smask */
-    return smask_from_zmask(~smask);
-}
-
 static inline TempOptInfo *ts_info(TCGTemp *ts)
 {
     return ts->state_ptr;
@@ -XXX,XX +XXX,XX @@ static void init_ts_info(OptContext *ctx, TCGTemp *ts)
         ti->is_const = true;
         ti->val = ts->val;
         ti->z_mask = ts->val;
-        ti->s_mask = smask_from_value(ts->val);
+        ti->s_mask = INT64_MIN >> clrsb64(ts->val);
     } else {
         ti->is_const = false;
         ti->z_mask = -1;
@@ -XXX,XX +XXX,XX @@ static void finish_folding(OptContext *ctx, TCGOp *op)
          */
         if (i == 0) {
             ts_info(ts)->z_mask = ctx->z_mask;
-            ts_info(ts)->s_mask = ctx->s_mask;
         }
     }
 }
@@ -XXX,XX +XXX,XX @@ static bool fold_const2_commutative(OptContext *ctx, TCGOp *op)
  * The passed s_mask may be augmented by z_mask.
  */
 static bool fold_masks_zs(OptContext *ctx, TCGOp *op,
-                          uint64_t z_mask, uint64_t s_mask)
+                          uint64_t z_mask, int64_t s_mask)
 {
     const TCGOpDef *def = &tcg_op_defs[op->opc];
     TCGTemp *ts;
     TempOptInfo *ti;
+    int rep;
 
     /* Only single-output opcodes are supported here. */
     tcg_debug_assert(def->nb_oargs == 1);
@@ -XXX,XX +XXX,XX @@ static bool fold_masks_zs(OptContext *ctx, TCGOp *op,
      */
     if (ctx->type == TCG_TYPE_I32) {
         z_mask = (int32_t)z_mask;
-        s_mask |= MAKE_64BIT_MASK(32, 32);
+        s_mask |= INT32_MIN;
     }
 
     if (z_mask == 0) {
@@ -XXX,XX +XXX,XX @@ static bool fold_masks_zs(OptContext *ctx, TCGOp *op,
 
     ti = ts_info(ts);
     ti->z_mask = z_mask;
-    ti->s_mask = s_mask | smask_from_zmask(z_mask);
+
+    /* Canonicalize s_mask and incorporate data from z_mask. */
+    rep = clz64(~s_mask);
+    rep = MAX(rep, clz64(z_mask));
+    rep = MAX(rep - 1, 0);
+    ti->s_mask = INT64_MIN >> rep;
+
     return true;
 }
 
@@ -XXX,XX +XXX,XX @@ static bool fold_exts(OptContext *ctx, TCGOp *op)
 
     ctx->z_mask = z_mask;
     ctx->s_mask = s_mask;
-    if (!type_change && fold_affected_mask(ctx, op, s_mask & ~s_mask_old)) {
+    if (0 && !type_change && fold_affected_mask(ctx, op, s_mask & ~s_mask_old)) {
         return true;
     }
 
@@ -XXX,XX +XXX,XX @@ static bool fold_sextract(OptContext *ctx, TCGOp *op)
     s_mask |= MAKE_64BIT_MASK(len, 64 - len);
     ctx->s_mask = s_mask;
 
-    if (pos == 0 && fold_affected_mask(ctx, op, s_mask & ~s_mask_old)) {
+    if (0 && pos == 0 && fold_affected_mask(ctx, op, s_mask & ~s_mask_old)) {
         return true;
     }
 
@@ -XXX,XX +XXX,XX @@ static bool fold_shift(OptContext *ctx, TCGOp *op)
         ctx->z_mask = do_constant_folding(op->opc, ctx->type, z_mask, sh);
 
         s_mask = do_constant_folding(op->opc, ctx->type, s_mask, sh);
-        ctx->s_mask = smask_from_smask(s_mask);
 
         return fold_masks(ctx, op);
     }
-- 
2.43.0

Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/optimize.c | 9 +++++----
 1 file changed, 5 insertions(+), 4 deletions(-)

diff --git a/tcg/optimize.c b/tcg/optimize.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/optimize.c
+++ b/tcg/optimize.c
@@ -XXX,XX +XXX,XX @@ static void finish_ebb(OptContext *ctx)
     remove_mem_copy_all(ctx);
 }
 
-static void finish_folding(OptContext *ctx, TCGOp *op)
+static bool finish_folding(OptContext *ctx, TCGOp *op)
 {
     const TCGOpDef *def = &tcg_op_defs[op->opc];
     int i, nb_oargs;
@@ -XXX,XX +XXX,XX @@ static void finish_folding(OptContext *ctx, TCGOp *op)
             ts_info(ts)->z_mask = ctx->z_mask;
         }
     }
+    return true;
 }
 
 /*
@@ -XXX,XX +XXX,XX @@ static bool fold_add(OptContext *ctx, TCGOp *op)
         fold_xi_to_x(ctx, op, 0)) {
         return true;
     }
-    return false;
+    return finish_folding(ctx, op);
 }
 
 /* We cannot as yet do_constant_folding with vectors. */
@@ -XXX,XX +XXX,XX @@ static bool fold_add_vec(OptContext *ctx, TCGOp *op)
         fold_xi_to_x(ctx, op, 0)) {
         return true;
     }
-    return false;
+    return finish_folding(ctx, op);
 }
 
 static bool fold_addsub2(OptContext *ctx, TCGOp *op, bool add)
@@ -XXX,XX +XXX,XX @@ static bool fold_addsub2(OptContext *ctx, TCGOp *op, bool add)
         op->args[4] = arg_new_constant(ctx, bl);
         op->args[5] = arg_new_constant(ctx, bh);
     }
-    return false;
+    return finish_folding(ctx, op);
 }
 
 static bool fold_add2(OptContext *ctx, TCGOp *op)
-- 
2.43.0

Introduce ti_is_const, ti_const_val, ti_is_const_val.

Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/optimize.c | 20 +++++++++++++++++---
 1 file changed, 17 insertions(+), 3 deletions(-)

diff --git a/tcg/optimize.c b/tcg/optimize.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/optimize.c
+++ b/tcg/optimize.c
@@ -XXX,XX +XXX,XX @@ static inline TempOptInfo *arg_info(TCGArg arg)
     return ts_info(arg_temp(arg));
 }
 
+static inline bool ti_is_const(TempOptInfo *ti)
+{
+    return ti->is_const;
+}
+
+static inline uint64_t ti_const_val(TempOptInfo *ti)
+{
+    return ti->val;
+}
+
+static inline bool ti_is_const_val(TempOptInfo *ti, uint64_t val)
+{
+    return ti_is_const(ti) && ti_const_val(ti) == val;
+}
+
 static inline bool ts_is_const(TCGTemp *ts)
 {
-    return ts_info(ts)->is_const;
+    return ti_is_const(ts_info(ts));
 }
 
 static inline bool ts_is_const_val(TCGTemp *ts, uint64_t val)
 {
-    TempOptInfo *ti = ts_info(ts);
-    return ti->is_const && ti->val == val;
+    return ti_is_const_val(ts_info(ts), val);
 }
 
 static inline bool arg_is_const(TCGArg arg)
-- 
2.43.0

Avoid the use of the OptContext slots.  Find TempOptInfo once.
Sink mask computation below fold_affected_mask early exit.

Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/optimize.c | 30 ++++++++++++++++--------------
 1 file changed, 16 insertions(+), 14 deletions(-)

diff --git a/tcg/optimize.c b/tcg/optimize.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/optimize.c
+++ b/tcg/optimize.c
@@ -XXX,XX +XXX,XX @@ static bool fold_add2(OptContext *ctx, TCGOp *op)
 
 static bool fold_and(OptContext *ctx, TCGOp *op)
 {
-    uint64_t z1, z2;
+    uint64_t z1, z2, z_mask, s_mask;
+    TempOptInfo *t1, *t2;
 
     if (fold_const2_commutative(ctx, op) ||
         fold_xi_to_i(ctx, op, 0) ||
@@ -XXX,XX +XXX,XX @@ static bool fold_and(OptContext *ctx, TCGOp *op)
         return true;
     }
 
-    z1 = arg_info(op->args[1])->z_mask;
-    z2 = arg_info(op->args[2])->z_mask;
-    ctx->z_mask = z1 & z2;
-
-    /*
-     * Sign repetitions are perforce all identical, whether they are 1 or 0.
-     * Bitwise operations preserve the relative quantity of the repetitions.
-     */
-    ctx->s_mask = arg_info(op->args[1])->s_mask
-                & arg_info(op->args[2])->s_mask;
+    t1 = arg_info(op->args[1]);
+    t2 = arg_info(op->args[2]);
+    z1 = t1->z_mask;
+    z2 = t2->z_mask;
 
     /*
      * Known-zeros does not imply known-ones.  Therefore unless
      * arg2 is constant, we can't infer affected bits from it.
      */
-    if (arg_is_const(op->args[2]) &&
-        fold_affected_mask(ctx, op, z1 & ~z2)) {
+    if (ti_is_const(t2) && fold_affected_mask(ctx, op, z1 & ~z2)) {
         return true;
     }
 
-    return fold_masks(ctx, op);
+    z_mask = z1 & z2;
+
+    /*
+     * Sign repetitions are perforce all identical, whether they are 1 or 0.
+     * Bitwise operations preserve the relative quantity of the repetitions.
+     */
+    s_mask = t1->s_mask & t2->s_mask;
+
+    return fold_masks_zs(ctx, op, z_mask, s_mask);
 }
 
 static bool fold_andc(OptContext *ctx, TCGOp *op)
-- 
2.43.0

Avoid the use of the OptContext slots.  Find TempOptInfo once.
Avoid double inversion of the value of second const operand.

Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/optimize.c | 21 +++++++++++----------
 1 file changed, 11 insertions(+), 10 deletions(-)

diff --git a/tcg/optimize.c b/tcg/optimize.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/optimize.c
+++ b/tcg/optimize.c
@@ -XXX,XX +XXX,XX @@ static bool fold_and(OptContext *ctx, TCGOp *op)
 
 static bool fold_andc(OptContext *ctx, TCGOp *op)
 {
-    uint64_t z1;
+    uint64_t z_mask, s_mask;
+    TempOptInfo *t1, *t2;
 
     if (fold_const2(ctx, op) ||
         fold_xx_to_i(ctx, op, 0) ||
@@ -XXX,XX +XXX,XX @@ static bool fold_andc(OptContext *ctx, TCGOp *op)
         return true;
     }
 
-    z1 = arg_info(op->args[1])->z_mask;
+    t1 = arg_info(op->args[1]);
+    t2 = arg_info(op->args[2]);
+    z_mask = t1->z_mask;
 
     /*
      * Known-zeros does not imply known-ones.  Therefore unless
      * arg2 is constant, we can't infer anything from it.
      */
-    if (arg_is_const(op->args[2])) {
-        uint64_t z2 = ~arg_info(op->args[2])->z_mask;
-        if (fold_affected_mask(ctx, op, z1 & ~z2)) {
+    if (ti_is_const(t2)) {
+        uint64_t v2 = ti_const_val(t2);
+        if (fold_affected_mask(ctx, op, z_mask & v2)) {
             return true;
         }
-        z1 &= z2;
+        z_mask &= ~v2;
     }
-    ctx->z_mask = z1;
 
-    ctx->s_mask = arg_info(op->args[1])->s_mask
-                & arg_info(op->args[2])->s_mask;
-    return fold_masks(ctx, op);
+    s_mask = t1->s_mask & t2->s_mask;
+    return fold_masks_zs(ctx, op, z_mask, s_mask);
 }
 
 static bool fold_brcond(OptContext *ctx, TCGOp *op)
-- 
2.43.0

Avoid the use of the OptContext slots.  Find TempOptInfo once.
Always set s_mask along the BSWAP_OS path, since the result is
being explicitly sign-extended.

Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/optimize.c | 21 ++++++++++-----------
 1 file changed, 10 insertions(+), 11 deletions(-)

diff --git a/tcg/optimize.c b/tcg/optimize.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/optimize.c
+++ b/tcg/optimize.c
@@ -XXX,XX +XXX,XX @@ static bool fold_brcond2(OptContext *ctx, TCGOp *op)
 static bool fold_bswap(OptContext *ctx, TCGOp *op)
 {
     uint64_t z_mask, s_mask, sign;
+    TempOptInfo *t1 = arg_info(op->args[1]);
 
-    if (arg_is_const(op->args[1])) {
-        uint64_t t = arg_info(op->args[1])->val;
-
-        t = do_constant_folding(op->opc, ctx->type, t, op->args[2]);
-        return tcg_opt_gen_movi(ctx, op, op->args[0], t);
+    if (ti_is_const(t1)) {
+        return tcg_opt_gen_movi(ctx, op, op->args[0],
+                                do_constant_folding(op->opc, ctx->type,
+                                                    ti_const_val(t1),
+                                                    op->args[2]));
     }
 
-    z_mask = arg_info(op->args[1])->z_mask;
-
+    z_mask = t1->z_mask;
     switch (op->opc) {
     case INDEX_op_bswap16_i32:
     case INDEX_op_bswap16_i64:
@@ -XXX,XX +XXX,XX @@ static bool fold_bswap(OptContext *ctx, TCGOp *op)
         /* If the sign bit may be 1, force all the bits above to 1. */
         if (z_mask & sign) {
             z_mask |= sign;
-            s_mask = sign << 1;
         }
+        /* The value and therefore s_mask is explicitly sign-extended. */
+        s_mask = sign;
         break;
     default:
         /* The high bits are undefined: force all bits above the sign to 1. */
         z_mask |= sign << 1;
         break;
     }
-    ctx->z_mask = z_mask;
-    ctx->s_mask = s_mask;
 
-    return fold_masks(ctx, op);
+    return fold_masks_zs(ctx, op, z_mask, s_mask);
 }
 
 static bool fold_call(OptContext *ctx, TCGOp *op)
-- 
2.43.0

Avoid the use of the OptContext slots. Find TempOptInfo once.
Compute s_mask from the union of the maximum count and the
op2 fallback for op1 being zero.

Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/optimize.c | 15 ++++++++++-----
 1 file changed, 10 insertions(+), 5 deletions(-)

diff --git a/tcg/optimize.c b/tcg/optimize.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/optimize.c
+++ b/tcg/optimize.c
@@ -XXX,XX +XXX,XX @@ static bool fold_call(OptContext *ctx, TCGOp *op)
 
 static bool fold_count_zeros(OptContext *ctx, TCGOp *op)
 {
-    uint64_t z_mask;
+    uint64_t z_mask, s_mask;
+    TempOptInfo *t1 = arg_info(op->args[1]);
+    TempOptInfo *t2 = arg_info(op->args[2]);
 
-    if (arg_is_const(op->args[1])) {
-        uint64_t t = arg_info(op->args[1])->val;
+    if (ti_is_const(t1)) {
+        uint64_t t = ti_const_val(t1);
 
         if (t != 0) {
             t = do_constant_folding(op->opc, ctx->type, t, 0);
@@ -XXX,XX +XXX,XX @@ static bool fold_count_zeros(OptContext *ctx, TCGOp *op)
     default:
         g_assert_not_reached();
     }
-    ctx->z_mask = arg_info(op->args[2])->z_mask | z_mask;
-    return false;
+    s_mask = ~z_mask;
+    z_mask |= t2->z_mask;
+    s_mask &= t2->s_mask;
+
+    return fold_masks_zs(ctx, op, z_mask, s_mask);
 }
 
 static bool fold_ctpop(OptContext *ctx, TCGOp *op)
-- 
2.43.0

Add fold_masks_z as a trivial wrapper around fold_masks_zs.
Avoid the use of the OptContext slots.

Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/optimize.c | 13 ++++++++++---
 1 file changed, 10 insertions(+), 3 deletions(-)

diff --git a/tcg/optimize.c b/tcg/optimize.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/optimize.c
+++ b/tcg/optimize.c
@@ -XXX,XX +XXX,XX @@ static bool fold_masks_zs(OptContext *ctx, TCGOp *op,
     return true;
 }
 
+static bool fold_masks_z(OptContext *ctx, TCGOp *op, uint64_t z_mask)
+{
+    return fold_masks_zs(ctx, op, z_mask, 0);
+}
+
 static bool fold_masks(OptContext *ctx, TCGOp *op)
 {
     return fold_masks_zs(ctx, op, ctx->z_mask, ctx->s_mask);
@@ -XXX,XX +XXX,XX @@ static bool fold_count_zeros(OptContext *ctx, TCGOp *op)
 
 static bool fold_ctpop(OptContext *ctx, TCGOp *op)
 {
+    uint64_t z_mask;
+
     if (fold_const1(ctx, op)) {
         return true;
     }
 
     switch (ctx->type) {
     case TCG_TYPE_I32:
-        ctx->z_mask = 32 | 31;
+        z_mask = 32 | 31;
         break;
     case TCG_TYPE_I64:
-        ctx->z_mask = 64 | 63;
+        z_mask = 64 | 63;
         break;
     default:
         g_assert_not_reached();
     }
-    return false;
+    return fold_masks_z(ctx, op, z_mask);
 }
 
 static bool fold_deposit(OptContext *ctx, TCGOp *op)
-- 
2.43.0

Avoid the use of the OptContext slots.  Find TempOptInfo once.
When we fold to and, use fold_and.

Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/optimize.c | 35 +++++++++++++++++------------------
 1 file changed, 17 insertions(+), 18 deletions(-)

diff --git a/tcg/optimize.c b/tcg/optimize.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/optimize.c
+++ b/tcg/optimize.c
@@ -XXX,XX +XXX,XX @@ static bool fold_ctpop(OptContext *ctx, TCGOp *op)
 
 static bool fold_deposit(OptContext *ctx, TCGOp *op)
 {
+    TempOptInfo *t1 = arg_info(op->args[1]);
+    TempOptInfo *t2 = arg_info(op->args[2]);
+    int ofs = op->args[3];
+    int len = op->args[4];
     TCGOpcode and_opc;
+    uint64_t z_mask;
 
-    if (arg_is_const(op->args[1]) && arg_is_const(op->args[2])) {
-        uint64_t t1 = arg_info(op->args[1])->val;
-        uint64_t t2 = arg_info(op->args[2])->val;
-
-        t1 = deposit64(t1, op->args[3], op->args[4], t2);
-        return tcg_opt_gen_movi(ctx, op, op->args[0], t1);
+    if (ti_is_const(t1) && ti_is_const(t2)) {
+        return tcg_opt_gen_movi(ctx, op, op->args[0],
+                                deposit64(ti_const_val(t1), ofs, len,
+                                          ti_const_val(t2)));
     }
 
     switch (ctx->type) {
@@ -XXX,XX +XXX,XX @@ static bool fold_deposit(OptContext *ctx, TCGOp *op)
     }
 
     /* Inserting a value into zero at offset 0. */
-    if (arg_is_const_val(op->args[1], 0) && op->args[3] == 0) {
-        uint64_t mask = MAKE_64BIT_MASK(0, op->args[4]);
+    if (ti_is_const_val(t1, 0) && ofs == 0) {
+        uint64_t mask = MAKE_64BIT_MASK(0, len);
 
         op->opc = and_opc;
         op->args[1] = op->args[2];
         op->args[2] = arg_new_constant(ctx, mask);
-        ctx->z_mask = mask & arg_info(op->args[1])->z_mask;
-        return false;
+        return fold_and(ctx, op);
     }
 
     /* Inserting zero into a value. */
-    if (arg_is_const_val(op->args[2], 0)) {
-        uint64_t mask = deposit64(-1, op->args[3], op->args[4], 0);
+    if (ti_is_const_val(t2, 0)) {
+        uint64_t mask = deposit64(-1, ofs, len, 0);
 
         op->opc = and_opc;
         op->args[2] = arg_new_constant(ctx, mask);
-        ctx->z_mask = mask & arg_info(op->args[1])->z_mask;
-        return false;
+        return fold_and(ctx, op);
     }
 
-    ctx->z_mask = deposit64(arg_info(op->args[1])->z_mask,
-                            op->args[3], op->args[4],
-                            arg_info(op->args[2])->z_mask);
-    return false;
+    z_mask = deposit64(t1->z_mask, ofs, len, t2->z_mask);
+    return fold_masks_z(ctx, op, z_mask);
 }
 
 static bool fold_divide(OptContext *ctx, TCGOp *op)
-- 
2.43.0

The input which overlaps the sign bit of the output can
have its input s_mask propagated to the output s_mask.

Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/optimize.c | 14 ++++++++++++--
 1 file changed, 12 insertions(+), 2 deletions(-)

diff --git a/tcg/optimize.c b/tcg/optimize.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/optimize.c
+++ b/tcg/optimize.c
@@ -XXX,XX +XXX,XX @@ static bool fold_deposit(OptContext *ctx, TCGOp *op)
     TempOptInfo *t2 = arg_info(op->args[2]);
     int ofs = op->args[3];
     int len = op->args[4];
+    int width;
     TCGOpcode and_opc;
-    uint64_t z_mask;
+    uint64_t z_mask, s_mask;
 
     if (ti_is_const(t1) && ti_is_const(t2)) {
         return tcg_opt_gen_movi(ctx, op, op->args[0],
@@ -XXX,XX +XXX,XX @@ static bool fold_deposit(OptContext *ctx, TCGOp *op)
     switch (ctx->type) {
     case TCG_TYPE_I32:
         and_opc = INDEX_op_and_i32;
+        width = 32;
         break;
     case TCG_TYPE_I64:
         and_opc = INDEX_op_and_i64;
+        width = 64;
         break;
     default:
         g_assert_not_reached();
@@ -XXX,XX +XXX,XX @@ static bool fold_deposit(OptContext *ctx, TCGOp *op)
         return fold_and(ctx, op);
     }
 
+    /* The s_mask from the top portion of the deposit is still valid. */
+    if (ofs + len == width) {
+        s_mask = t2->s_mask << ofs;
+    } else {
+        s_mask = t1->s_mask & ~MAKE_64BIT_MASK(0, ofs + len);
+    }
+
     z_mask = deposit64(t1->z_mask, ofs, len, t2->z_mask);
-    return fold_masks_z(ctx, op, z_mask);
+    return fold_masks_zs(ctx, op, z_mask, s_mask);
 }
 
 static bool fold_divide(OptContext *ctx, TCGOp *op)
-- 
2.43.0

Add fold_masks_s as a trivial wrapper around fold_masks_zs.
Avoid the use of the OptContext slots.

diff --git a/tcg/optimize.c b/tcg/optimize.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/optimize.c
+++ b/tcg/optimize.c
@@ -XXX,XX +XXX,XX @@ static bool fold_masks_z(OptContext *ctx, TCGOp *op, uint64_t z_mask)
     return fold_masks_zs(ctx, op, z_mask, 0);
 }
 
+static bool fold_masks_s(OptContext *ctx, TCGOp *op, uint64_t s_mask)
+{
+    return fold_masks_zs(ctx, op, -1, s_mask);
+}
+
 static bool fold_masks(OptContext *ctx, TCGOp *op)
 {
     return fold_masks_zs(ctx, op, ctx->z_mask, ctx->s_mask);
@@ -XXX,XX +XXX,XX @@ static bool fold_dup2(OptContext *ctx, TCGOp *op)
 
 static bool fold_eqv(OptContext *ctx, TCGOp *op)
 {
+    uint64_t s_mask;
+
     if (fold_const2_commutative(ctx, op) ||
         fold_xi_to_x(ctx, op, -1) ||
         fold_xi_to_not(ctx, op, 0)) {
         return true;
     }
 
-    ctx->s_mask = arg_info(op->args[1])->s_mask
-                & arg_info(op->args[2])->s_mask;
-    return false;
+    s_mask = arg_info(op->args[1])->s_mask
+           & arg_info(op->args[2])->s_mask;
+    return fold_masks_s(ctx, op, s_mask);
 }
 
 static bool fold_extract(OptContext *ctx, TCGOp *op)
-- 
2.43.0

Avoid the use of the OptContext slots.  Find TempOptInfo once.

Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/optimize.c | 15 ++++++---------
 1 file changed, 6 insertions(+), 9 deletions(-)

diff --git a/tcg/optimize.c b/tcg/optimize.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/optimize.c
+++ b/tcg/optimize.c
@@ -XXX,XX +XXX,XX @@ static bool fold_eqv(OptContext *ctx, TCGOp *op)
 static bool fold_extract(OptContext *ctx, TCGOp *op)
 {
     uint64_t z_mask_old, z_mask;
+    TempOptInfo *t1 = arg_info(op->args[1]);
     int pos = op->args[2];
     int len = op->args[3];
 
-    if (arg_is_const(op->args[1])) {
-        uint64_t t;
-
-        t = arg_info(op->args[1])->val;
-        t = extract64(t, pos, len);
-        return tcg_opt_gen_movi(ctx, op, op->args[0], t);
+    if (ti_is_const(t1)) {
+        return tcg_opt_gen_movi(ctx, op, op->args[0],
+                                extract64(ti_const_val(t1), pos, len));
     }
 
-    z_mask_old = arg_info(op->args[1])->z_mask;
+    z_mask_old = t1->z_mask;
     z_mask = extract64(z_mask_old, pos, len);
     if (pos == 0 && fold_affected_mask(ctx, op, z_mask_old ^ z_mask)) {
         return true;
     }
-    ctx->z_mask = z_mask;
 
-    return fold_masks(ctx, op);
+    return fold_masks_z(ctx, op, z_mask);
 }
 
 static bool fold_extract2(OptContext *ctx, TCGOp *op)
-- 
2.43.0

Avoid the use of the OptContext slots.  Find TempOptInfo once.
Explicitly sign-extend z_mask instead of doing that manually.

Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/optimize.c | 29 ++++++++++++-----------------
 1 file changed, 12 insertions(+), 17 deletions(-)

diff --git a/tcg/optimize.c b/tcg/optimize.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/optimize.c
+++ b/tcg/optimize.c
@@ -XXX,XX +XXX,XX @@ static bool fold_extract2(OptContext *ctx, TCGOp *op)
 
 static bool fold_exts(OptContext *ctx, TCGOp *op)
 {
-    uint64_t s_mask_old, s_mask, z_mask, sign;
+    uint64_t s_mask_old, s_mask, z_mask;
     bool type_change = false;
+    TempOptInfo *t1;
 
     if (fold_const1(ctx, op)) {
         return true;
     }
 
-    z_mask = arg_info(op->args[1])->z_mask;
-    s_mask = arg_info(op->args[1])->s_mask;
+    t1 = arg_info(op->args[1]);
+    z_mask = t1->z_mask;
+    s_mask = t1->s_mask;
     s_mask_old = s_mask;
 
     switch (op->opc) {
     CASE_OP_32_64(ext8s):
-        sign = INT8_MIN;
-        z_mask = (uint8_t)z_mask;
+        s_mask |= INT8_MIN;
+        z_mask = (int8_t)z_mask;
         break;
     CASE_OP_32_64(ext16s):
-        sign = INT16_MIN;
-        z_mask = (uint16_t)z_mask;
+        s_mask |= INT16_MIN;
+        z_mask = (int16_t)z_mask;
         break;
     case INDEX_op_ext_i32_i64:
         type_change = true;
         QEMU_FALLTHROUGH;
     case INDEX_op_ext32s_i64:
-        sign = INT32_MIN;
-        z_mask = (uint32_t)z_mask;
+        s_mask |= INT32_MIN;
+        z_mask = (int32_t)z_mask;
         break;
     default:
         g_assert_not_reached();
     }
 
-    if (z_mask & sign) {
-        z_mask |= sign;
-    }
-    s_mask |= sign << 1;
-
-    ctx->z_mask = z_mask;
-    ctx->s_mask = s_mask;
     if (0 && !type_change && fold_affected_mask(ctx, op, s_mask & ~s_mask_old)) {
         return true;
     }
 
-    return fold_masks(ctx, op);
+    return fold_masks_zs(ctx, op, z_mask, s_mask);
 }
 
 static bool fold_extu(OptContext *ctx, TCGOp *op)
-- 
2.43.0

Avoid the use of the OptContext slots.  Find TempOptInfo once.

Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/optimize.c | 19 +++++++++++--------
 1 file changed, 11 insertions(+), 8 deletions(-)

diff --git a/tcg/optimize.c b/tcg/optimize.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/optimize.c
+++ b/tcg/optimize.c
@@ -XXX,XX +XXX,XX @@ static bool fold_mov(OptContext *ctx, TCGOp *op)
 
 static bool fold_movcond(OptContext *ctx, TCGOp *op)
 {
+    uint64_t z_mask, s_mask;
+    TempOptInfo *tt, *ft;
     int i;
 
     /* If true and false values are the same, eliminate the cmp. */
@@ -XXX,XX +XXX,XX @@ static bool fold_movcond(OptContext *ctx, TCGOp *op)
         return tcg_opt_gen_mov(ctx, op, op->args[0], op->args[4 - i]);
     }
 
-    ctx->z_mask = arg_info(op->args[3])->z_mask
-                | arg_info(op->args[4])->z_mask;
-    ctx->s_mask = arg_info(op->args[3])->s_mask
-                & arg_info(op->args[4])->s_mask;
+    tt = arg_info(op->args[3]);
+    ft = arg_info(op->args[4]);
+    z_mask = tt->z_mask | ft->z_mask;
+    s_mask = tt->s_mask & ft->s_mask;
 
-    if (arg_is_const(op->args[3]) && arg_is_const(op->args[4])) {
-        uint64_t tv = arg_info(op->args[3])->val;
-        uint64_t fv = arg_info(op->args[4])->val;
+    if (ti_is_const(tt) && ti_is_const(ft)) {
+        uint64_t tv = ti_const_val(tt);
+        uint64_t fv = ti_const_val(ft);
         TCGOpcode opc, negopc = 0;
         TCGCond cond = op->args[5];
 
@@ -XXX,XX +XXX,XX @@ static bool fold_movcond(OptContext *ctx, TCGOp *op)
             }
         }
     }
-    return false;
+
+    return fold_masks_zs(ctx, op, z_mask, s_mask);
 }
 
 static bool fold_mul(OptContext *ctx, TCGOp *op)
-- 
2.43.0

Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/optimize.c | 6 +++---
 1 file changed, 3 insertions(+), 3 deletions(-)

diff --git a/tcg/optimize.c b/tcg/optimize.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/optimize.c
+++ b/tcg/optimize.c
@@ -XXX,XX +XXX,XX @@ static bool fold_mul(OptContext *ctx, TCGOp *op)
         fold_xi_to_x(ctx, op, 1)) {
         return true;
     }
-    return false;
+    return finish_folding(ctx, op);
 }
 
 static bool fold_mul_highpart(OptContext *ctx, TCGOp *op)
@@ -XXX,XX +XXX,XX @@ static bool fold_mul_highpart(OptContext *ctx, TCGOp *op)
         fold_xi_to_i(ctx, op, 0)) {
         return true;
     }
-    return false;
+    return finish_folding(ctx, op);
 }
 
 static bool fold_multiply2(OptContext *ctx, TCGOp *op)
@@ -XXX,XX +XXX,XX @@ static bool fold_multiply2(OptContext *ctx, TCGOp *op)
         tcg_opt_gen_movi(ctx, op2, rh, h);
         return true;
     }
-    return false;
+    return finish_folding(ctx, op);
 }
 
 static bool fold_nand(OptContext *ctx, TCGOp *op)
-- 
2.43.0

Avoid the use of the OptContext slots.  Find TempOptInfo once.

Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/optimize.c | 13 ++++++++-----
 1 file changed, 8 insertions(+), 5 deletions(-)

diff --git a/tcg/optimize.c b/tcg/optimize.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/optimize.c
+++ b/tcg/optimize.c
@@ -XXX,XX +XXX,XX @@ static bool fold_not(OptContext *ctx, TCGOp *op)
 
 static bool fold_or(OptContext *ctx, TCGOp *op)
 {
+    uint64_t z_mask, s_mask;
+    TempOptInfo *t1, *t2;
+
     if (fold_const2_commutative(ctx, op) ||
         fold_xi_to_x(ctx, op, 0) ||
         fold_xx_to_x(ctx, op)) {
         return true;
     }
 
-    ctx->z_mask = arg_info(op->args[1])->z_mask
-                | arg_info(op->args[2])->z_mask;
-    ctx->s_mask = arg_info(op->args[1])->s_mask
-                & arg_info(op->args[2])->s_mask;
-    return fold_masks(ctx, op);
+    t1 = arg_info(op->args[1]);
+    t2 = arg_info(op->args[2]);
+    z_mask = t1->z_mask | t2->z_mask;
+    s_mask = t1->s_mask & t2->s_mask;
+    return fold_masks_zs(ctx, op, z_mask, s_mask);
 }
 
 static bool fold_orc(OptContext *ctx, TCGOp *op)
-- 
2.43.0

Avoid the use of the OptContext slots.

Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/optimize.c | 8 +++++---
 1 file changed, 5 insertions(+), 3 deletions(-)

diff --git a/tcg/optimize.c b/tcg/optimize.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/optimize.c
+++ b/tcg/optimize.c
@@ -XXX,XX +XXX,XX @@ static bool fold_or(OptContext *ctx, TCGOp *op)
 
 static bool fold_orc(OptContext *ctx, TCGOp *op)
 {
+    uint64_t s_mask;
+
     if (fold_const2(ctx, op) ||
         fold_xx_to_i(ctx, op, -1) ||
         fold_xi_to_x(ctx, op, -1) ||
@@ -XXX,XX +XXX,XX @@ static bool fold_orc(OptContext *ctx, TCGOp *op)
         return true;
     }
 
-    ctx->s_mask = arg_info(op->args[1])->s_mask
-                & arg_info(op->args[2])->s_mask;
-    return false;
+    s_mask = arg_info(op->args[1])->s_mask
+           & arg_info(op->args[2])->s_mask;
+    return fold_masks_s(ctx, op, s_mask);
 }
 
 static bool fold_qemu_ld(OptContext *ctx, TCGOp *op)
-- 
2.43.0

Avoid the use of the OptContext slots.

Be careful not to call fold_masks_zs when the memory operation
is wide enough to require multiple outputs, so split into two
functions: fold_qemu_ld_1reg and fold_qemu_ld_2reg.

Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/optimize.c | 26 +++++++++++++++++++++-----
 1 file changed, 21 insertions(+), 5 deletions(-)

diff --git a/tcg/optimize.c b/tcg/optimize.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/optimize.c
+++ b/tcg/optimize.c
@@ -XXX,XX +XXX,XX @@ static bool fold_orc(OptContext *ctx, TCGOp *op)
     return fold_masks_s(ctx, op, s_mask);
 }
 
-static bool fold_qemu_ld(OptContext *ctx, TCGOp *op)
+static bool fold_qemu_ld_1reg(OptContext *ctx, TCGOp *op)
 {
     const TCGOpDef *def = &tcg_op_defs[op->opc];
     MemOpIdx oi = op->args[def->nb_oargs + def->nb_iargs];
     MemOp mop = get_memop(oi);
     int width = 8 * memop_size(mop);
+    uint64_t z_mask = -1, s_mask = 0;
 
     if (width < 64) {
         if (mop & MO_SIGN) {
-            ctx->s_mask = MAKE_64BIT_MASK(width, 64 - width);
+            s_mask = MAKE_64BIT_MASK(width - 1, 64 - (width - 1));
         } else {
-            ctx->z_mask = MAKE_64BIT_MASK(0, width);
+            z_mask = MAKE_64BIT_MASK(0, width);
         }
     }
 
     /* Opcodes that touch guest memory stop the mb optimization.  */
     ctx->prev_mb = NULL;
-    return false;
+
+    return fold_masks_zs(ctx, op, z_mask, s_mask);
+}
+
+static bool fold_qemu_ld_2reg(OptContext *ctx, TCGOp *op)
+{
+    /* Opcodes that touch guest memory stop the mb optimization.  */
+    ctx->prev_mb = NULL;
+    return finish_folding(ctx, op);
 }
 
 static bool fold_qemu_st(OptContext *ctx, TCGOp *op)
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
             break;
         case INDEX_op_qemu_ld_a32_i32:
         case INDEX_op_qemu_ld_a64_i32:
+            done = fold_qemu_ld_1reg(&ctx, op);
+            break;
         case INDEX_op_qemu_ld_a32_i64:
         case INDEX_op_qemu_ld_a64_i64:
+            if (TCG_TARGET_REG_BITS == 64) {
+                done = fold_qemu_ld_1reg(&ctx, op);
+                break;
+            }
+            QEMU_FALLTHROUGH;
         case INDEX_op_qemu_ld_a32_i128:
         case INDEX_op_qemu_ld_a64_i128:
-            done = fold_qemu_ld(&ctx, op);
+            done = fold_qemu_ld_2reg(&ctx, op);
             break;
         case INDEX_op_qemu_st8_a32_i32:
         case INDEX_op_qemu_st8_a64_i32:
-- 
2.43.0

Stores have no output operands, and so need no further work.

Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/optimize.c | 11 +++++------
 1 file changed, 5 insertions(+), 6 deletions(-)

diff --git a/tcg/optimize.c b/tcg/optimize.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/optimize.c
+++ b/tcg/optimize.c
@@ -XXX,XX +XXX,XX @@ static bool fold_qemu_st(OptContext *ctx, TCGOp *op)
 {
     /* Opcodes that touch guest memory stop the mb optimization.  */
     ctx->prev_mb = NULL;
-    return false;
+    return true;
 }
 
 static bool fold_remainder(OptContext *ctx, TCGOp *op)
@@ -XXX,XX +XXX,XX @@ static bool fold_tcg_st(OptContext *ctx, TCGOp *op)
 
     if (op->args[1] != tcgv_ptr_arg(tcg_env)) {
         remove_mem_copy_all(ctx);
-        return false;
+        return true;
     }
 
     switch (op->opc) {
@@ -XXX,XX +XXX,XX @@ static bool fold_tcg_st(OptContext *ctx, TCGOp *op)
         g_assert_not_reached();
     }
     remove_mem_copy_in(ctx, ofs, ofs + lm1);
-    return false;
+    return true;
 }
 
 static bool fold_tcg_st_memcopy(OptContext *ctx, TCGOp *op)
@@ -XXX,XX +XXX,XX @@ static bool fold_tcg_st_memcopy(OptContext *ctx, TCGOp *op)
     TCGType type;
 
     if (op->args[1] != tcgv_ptr_arg(tcg_env)) {
-        fold_tcg_st(ctx, op);
-        return false;
+        return fold_tcg_st(ctx, op);
     }
 
     src = arg_temp(op->args[0]);
@@ -XXX,XX +XXX,XX @@ static bool fold_tcg_st_memcopy(OptContext *ctx, TCGOp *op)
     last = ofs + tcg_type_size(type) - 1;
     remove_mem_copy_in(ctx, ofs, last);
     record_mem_copy(ctx, type, src, ofs, last);
-    return false;
+    return true;
 }
 
 static bool fold_xor(OptContext *ctx, TCGOp *op)
-- 
2.43.0

Change return from bool to int; distinguish between
complete folding, simplification, and no change.

Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/optimize.c | 22 ++++++++++++++--------
 1 file changed, 14 insertions(+), 8 deletions(-)

diff --git a/tcg/optimize.c b/tcg/optimize.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/optimize.c
+++ b/tcg/optimize.c
@@ -XXX,XX +XXX,XX @@ static bool fold_remainder(OptContext *ctx, TCGOp *op)
     return finish_folding(ctx, op);
 }
 
-static bool fold_setcond_zmask(OptContext *ctx, TCGOp *op, bool neg)
+/* Return 1 if finished, -1 if simplified, 0 if unchanged. */
+static int fold_setcond_zmask(OptContext *ctx, TCGOp *op, bool neg)
 {
     uint64_t a_zmask, b_val;
     TCGCond cond;
@@ -XXX,XX +XXX,XX @@ static bool fold_setcond_zmask(OptContext *ctx, TCGOp *op, bool neg)
                 op->opc = xor_opc;
                 op->args[2] = arg_new_constant(ctx, 1);
             }
-            return false;
+            return -1;
         }
     }
-
-    return false;
+    return 0;
 }
 
 static void fold_setcond_tst_pow2(OptContext *ctx, TCGOp *op, bool neg)
@@ -XXX,XX +XXX,XX @@ static bool fold_setcond(OptContext *ctx, TCGOp *op)
         return tcg_opt_gen_movi(ctx, op, op->args[0], i);
     }
 
-    if (fold_setcond_zmask(ctx, op, false)) {
+    i = fold_setcond_zmask(ctx, op, false);
+    if (i > 0) {
         return true;
     }
-    fold_setcond_tst_pow2(ctx, op, false);
+    if (i == 0) {
+        fold_setcond_tst_pow2(ctx, op, false);
+    }
 
     ctx->z_mask = 1;
     return false;
@@ -XXX,XX +XXX,XX @@ static bool fold_negsetcond(OptContext *ctx, TCGOp *op)
         return tcg_opt_gen_movi(ctx, op, op->args[0], -i);
     }
 
-    if (fold_setcond_zmask(ctx, op, true)) {
+    i = fold_setcond_zmask(ctx, op, true);
+    if (i > 0) {
         return true;
     }
-    fold_setcond_tst_pow2(ctx, op, true);
+    if (i == 0) {
+        fold_setcond_tst_pow2(ctx, op, true);
+    }
 
     /* Value is {0,-1} so all bits are repetitions of the sign. */
     ctx->s_mask = -1;
-- 
2.43.0

Avoid the use of the OptContext slots.  Find TempOptInfo once.

Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/optimize.c | 24 +++++++++---------------
 1 file changed, 9 insertions(+), 15 deletions(-)

diff --git a/tcg/optimize.c b/tcg/optimize.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/optimize.c
+++ b/tcg/optimize.c
@@ -XXX,XX +XXX,XX @@ static bool fold_cmpsel_vec(OptContext *ctx, TCGOp *op)
 static bool fold_sextract(OptContext *ctx, TCGOp *op)
 {
     uint64_t z_mask, s_mask, s_mask_old;
+    TempOptInfo *t1 = arg_info(op->args[1]);
     int pos = op->args[2];
     int len = op->args[3];
 
-    if (arg_is_const(op->args[1])) {
-        uint64_t t;
-
-        t = arg_info(op->args[1])->val;
-        t = sextract64(t, pos, len);
-        return tcg_opt_gen_movi(ctx, op, op->args[0], t);
+    if (ti_is_const(t1)) {
+        return tcg_opt_gen_movi(ctx, op, op->args[0],
+                                sextract64(ti_const_val(t1), pos, len));
     }
 
-    z_mask = arg_info(op->args[1])->z_mask;
-    z_mask = sextract64(z_mask, pos, len);
-    ctx->z_mask = z_mask;
-
-    s_mask_old = arg_info(op->args[1])->s_mask;
-    s_mask = sextract64(s_mask_old, pos, len);
-    s_mask |= MAKE_64BIT_MASK(len, 64 - len);
-    ctx->s_mask = s_mask;
+    s_mask_old = t1->s_mask;
+    s_mask = s_mask_old >> pos;
+    s_mask |= -1ull << (len - 1);
 
     if (0 && pos == 0 && fold_affected_mask(ctx, op, s_mask & ~s_mask_old)) {
         return true;
     }
 
-    return fold_masks(ctx, op);
+    z_mask = sextract64(t1->z_mask, pos, len);
+    return fold_masks_zs(ctx, op, z_mask, s_mask);
 }
 
 static bool fold_shift(OptContext *ctx, TCGOp *op)
-- 
2.43.0

Avoid the use of the OptContext slots.  Find TempOptInfo once.

Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/optimize.c | 27 ++++++++++++++-------------
 1 file changed, 14 insertions(+), 13 deletions(-)

diff --git a/tcg/optimize.c b/tcg/optimize.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/optimize.c
+++ b/tcg/optimize.c
@@ -XXX,XX +XXX,XX @@ static bool fold_sextract(OptContext *ctx, TCGOp *op)
 static bool fold_shift(OptContext *ctx, TCGOp *op)
 {
     uint64_t s_mask, z_mask, sign;
+    TempOptInfo *t1, *t2;
 
     if (fold_const2(ctx, op) ||
         fold_ix_to_i(ctx, op, 0) ||
@@ -XXX,XX +XXX,XX @@ static bool fold_shift(OptContext *ctx, TCGOp *op)
         return true;
     }
 
-    s_mask = arg_info(op->args[1])->s_mask;
-    z_mask = arg_info(op->args[1])->z_mask;
+    t1 = arg_info(op->args[1]);
+    t2 = arg_info(op->args[2]);
+    s_mask = t1->s_mask;
+    z_mask = t1->z_mask;
 
-    if (arg_is_const(op->args[2])) {
-        int sh = arg_info(op->args[2])->val;
-
-        ctx->z_mask = do_constant_folding(op->opc, ctx->type, z_mask, sh);
+    if (ti_is_const(t2)) {
+        int sh = ti_const_val(t2);
 
+        z_mask = do_constant_folding(op->opc, ctx->type, z_mask, sh);
         s_mask = do_constant_folding(op->opc, ctx->type, s_mask, sh);
 
-        return fold_masks(ctx, op);
+        return fold_masks_zs(ctx, op, z_mask, s_mask);
     }
 
     switch (op->opc) {
@@ -XXX,XX +XXX,XX @@ static bool fold_shift(OptContext *ctx, TCGOp *op)
          * Arithmetic right shift will not reduce the number of
          * input sign repetitions.
          */
-        ctx->s_mask = s_mask;
-        break;
+        return fold_masks_s(ctx, op, s_mask);
     CASE_OP_32_64(shr):
         /*
          * If the sign bit is known zero, then logical right shift
-         * will not reduced the number of input sign repetitions.
+         * will not reduce the number of input sign repetitions.
          */
-        sign = (s_mask & -s_mask) >> 1;
+        sign = -s_mask;
         if (sign && !(z_mask & sign)) {
-            ctx->s_mask = s_mask;
+            return fold_masks_s(ctx, op, s_mask);
         }
         break;
     default:
         break;
     }
 
-    return false;
+    return finish_folding(ctx, op);
 }
 
 static bool fold_sub_to_neg(OptContext *ctx, TCGOp *op)
-- 
2.43.0

Merge the two conditions, sign != 0 && !(z_mask & sign),
by testing ~z_mask & sign.   If sign == 0, the logical and
will produce false.

Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/optimize.c | 5 ++---
 1 file changed, 2 insertions(+), 3 deletions(-)

Duplicate fold_sub_vec into fold_sub instead of calling it,
now that fold_sub_vec always returns true.

Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/optimize.c | 9 ++++++---
 1 file changed, 6 insertions(+), 3 deletions(-)

diff --git a/tcg/optimize.c b/tcg/optimize.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/optimize.c
+++ b/tcg/optimize.c
@@ -XXX,XX +XXX,XX @@ static bool fold_sub_vec(OptContext *ctx, TCGOp *op)
         fold_sub_to_neg(ctx, op)) {
         return true;
     }
-    return false;
+    return finish_folding(ctx, op);
 }
 
 static bool fold_sub(OptContext *ctx, TCGOp *op)
 {
-    if (fold_const2(ctx, op) || fold_sub_vec(ctx, op)) {
+    if (fold_const2(ctx, op) ||
+        fold_xx_to_i(ctx, op, 0) ||
+        fold_xi_to_x(ctx, op, 0) ||
+        fold_sub_to_neg(ctx, op)) {
         return true;
     }
 
@@ -XXX,XX +XXX,XX @@ static bool fold_sub(OptContext *ctx, TCGOp *op)
                    ? INDEX_op_add_i32 : INDEX_op_add_i64);
         op->args[2] = arg_new_constant(ctx, -val);
     }
-    return false;
+    return finish_folding(ctx, op);
 }
 
 static bool fold_sub2(OptContext *ctx, TCGOp *op)
-- 
2.43.0

Avoid the use of the OptContext slots.

Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/optimize.c | 16 +++++++++-------
 1 file changed, 9 insertions(+), 7 deletions(-)

diff --git a/tcg/optimize.c b/tcg/optimize.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/optimize.c
+++ b/tcg/optimize.c
@@ -XXX,XX +XXX,XX @@ static bool fold_sub2(OptContext *ctx, TCGOp *op)
 
 static bool fold_tcg_ld(OptContext *ctx, TCGOp *op)
 {
+    uint64_t z_mask = -1, s_mask = 0;
+
     /* We can't do any folding with a load, but we can record bits. */
     switch (op->opc) {
     CASE_OP_32_64(ld8s):
-        ctx->s_mask = MAKE_64BIT_MASK(8, 56);
+        s_mask = INT8_MIN;
         break;
     CASE_OP_32_64(ld8u):
-        ctx->z_mask = MAKE_64BIT_MASK(0, 8);
+        z_mask = MAKE_64BIT_MASK(0, 8);
         break;
     CASE_OP_32_64(ld16s):
-        ctx->s_mask = MAKE_64BIT_MASK(16, 48);
+        s_mask = INT16_MIN;
         break;
     CASE_OP_32_64(ld16u):
-        ctx->z_mask = MAKE_64BIT_MASK(0, 16);
+        z_mask = MAKE_64BIT_MASK(0, 16);
         break;
     case INDEX_op_ld32s_i64:
-        ctx->s_mask = MAKE_64BIT_MASK(32, 32);
+        s_mask = INT32_MIN;
         break;
     case INDEX_op_ld32u_i64:
-        ctx->z_mask = MAKE_64BIT_MASK(0, 32);
+        z_mask = MAKE_64BIT_MASK(0, 32);
         break;
     default:
         g_assert_not_reached();
     }
-    return false;
+    return fold_masks_zs(ctx, op, z_mask, s_mask);
 }
 
 static bool fold_tcg_ld_memcopy(OptContext *ctx, TCGOp *op)
-- 
2.43.0

Avoid the use of the OptContext slots.  Find TempOptInfo once.
Remove fold_masks as the function becomes unused.

Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/optimize.c | 18 ++++++++----------
 1 file changed, 8 insertions(+), 10 deletions(-)

diff --git a/tcg/optimize.c b/tcg/optimize.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/optimize.c
+++ b/tcg/optimize.c
@@ -XXX,XX +XXX,XX @@ static bool fold_masks_s(OptContext *ctx, TCGOp *op, uint64_t s_mask)
     return fold_masks_zs(ctx, op, -1, s_mask);
 }
 
-static bool fold_masks(OptContext *ctx, TCGOp *op)
-{
-    return fold_masks_zs(ctx, op, ctx->z_mask, ctx->s_mask);
-}
-
 /*
  * An "affected" mask bit is 0 if and only if the result is identical
  * to the first input.  Thus if the entire mask is 0, the operation
@@ -XXX,XX +XXX,XX @@ static bool fold_tcg_st_memcopy(OptContext *ctx, TCGOp *op)
 
 static bool fold_xor(OptContext *ctx, TCGOp *op)
 {
+    uint64_t z_mask, s_mask;
+    TempOptInfo *t1, *t2;
+
     if (fold_const2_commutative(ctx, op) ||
         fold_xx_to_i(ctx, op, 0) ||
         fold_xi_to_x(ctx, op, 0) ||
@@ -XXX,XX +XXX,XX @@ static bool fold_xor(OptContext *ctx, TCGOp *op)
         return true;
     }
 
-    ctx->z_mask = arg_info(op->args[1])->z_mask
-                | arg_info(op->args[2])->z_mask;
-    ctx->s_mask = arg_info(op->args[1])->s_mask
-                & arg_info(op->args[2])->s_mask;
-    return fold_masks(ctx, op);
+    t1 = arg_info(op->args[1]);
+    t2 = arg_info(op->args[2]);
+    z_mask = t1->z_mask | t2->z_mask;
+    s_mask = t1->s_mask & t2->s_mask;
+    return fold_masks_zs(ctx, op, z_mask, s_mask);
 }
 
 static bool fold_bitsel_vec(OptContext *ctx, TCGOp *op)
-- 
2.43.0

All mask setting is now done with parameters via fold_masks_*.

Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/optimize.c | 13 -------------
 1 file changed, 13 deletions(-)

All instances of s_mask have been converted to the new
representation.  We can now re-enable usage.

Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/optimize.c | 4 ++--
 1 file changed, 2 insertions(+), 2 deletions(-)

diff --git a/tcg/optimize.c b/tcg/optimize.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/optimize.c
+++ b/tcg/optimize.c
@@ -XXX,XX +XXX,XX @@ static bool fold_exts(OptContext *ctx, TCGOp *op)
         g_assert_not_reached();
     }
 
-    if (0 && !type_change && fold_affected_mask(ctx, op, s_mask & ~s_mask_old)) {
+    if (!type_change && fold_affected_mask(ctx, op, s_mask & ~s_mask_old)) {
         return true;
     }
 
@@ -XXX,XX +XXX,XX @@ static bool fold_sextract(OptContext *ctx, TCGOp *op)
     s_mask = s_mask_old >> pos;
     s_mask |= -1ull << (len - 1);
 
-    if (0 && pos == 0 && fold_affected_mask(ctx, op, s_mask & ~s_mask_old)) {
+    if (pos == 0 && fold_affected_mask(ctx, op, s_mask & ~s_mask_old)) {
         return true;
     }
 
-- 
2.43.0

The big comment just above says functions should be sorted.
Add forward declarations as needed.

Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/optimize.c | 114 +++++++++++++++++++++++++------------------------
 1 file changed, 59 insertions(+), 55 deletions(-)

diff --git a/tcg/optimize.c b/tcg/optimize.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/optimize.c
+++ b/tcg/optimize.c
@@ -XXX,XX +XXX,XX @@ static bool fold_xx_to_x(OptContext *ctx, TCGOp *op)
  *   3) those that produce information about the result value.
  */
 
+static bool fold_or(OptContext *ctx, TCGOp *op);
+static bool fold_orc(OptContext *ctx, TCGOp *op);
+static bool fold_xor(OptContext *ctx, TCGOp *op);
+
 static bool fold_add(OptContext *ctx, TCGOp *op)
 {
     if (fold_const2_commutative(ctx, op) ||
@@ -XXX,XX +XXX,XX @@ static bool fold_andc(OptContext *ctx, TCGOp *op)
     return fold_masks_zs(ctx, op, z_mask, s_mask);
 }
 
+static bool fold_bitsel_vec(OptContext *ctx, TCGOp *op)
+{
+    /* If true and false values are the same, eliminate the cmp. */
+    if (args_are_copies(op->args[2], op->args[3])) {
+        return tcg_opt_gen_mov(ctx, op, op->args[0], op->args[2]);
+    }
+
+    if (arg_is_const(op->args[2]) && arg_is_const(op->args[3])) {
+        uint64_t tv = arg_info(op->args[2])->val;
+        uint64_t fv = arg_info(op->args[3])->val;
+
+        if (tv == -1 && fv == 0) {
+            return tcg_opt_gen_mov(ctx, op, op->args[0], op->args[1]);
+        }
+        if (tv == 0 && fv == -1) {
+            if (TCG_TARGET_HAS_not_vec) {
+                op->opc = INDEX_op_not_vec;
+                return fold_not(ctx, op);
+            } else {
+                op->opc = INDEX_op_xor_vec;
+                op->args[2] = arg_new_constant(ctx, -1);
+                return fold_xor(ctx, op);
+            }
+        }
+    }
+    if (arg_is_const(op->args[2])) {
+        uint64_t tv = arg_info(op->args[2])->val;
+        if (tv == -1) {
+            op->opc = INDEX_op_or_vec;
+            op->args[2] = op->args[3];
+            return fold_or(ctx, op);
+        }
+        if (tv == 0 && TCG_TARGET_HAS_andc_vec) {
+            op->opc = INDEX_op_andc_vec;
+            op->args[2] = op->args[1];
+            op->args[1] = op->args[3];
+            return fold_andc(ctx, op);
+        }
+    }
+    if (arg_is_const(op->args[3])) {
+        uint64_t fv = arg_info(op->args[3])->val;
+        if (fv == 0) {
+            op->opc = INDEX_op_and_vec;
+            return fold_and(ctx, op);
+        }
+        if (fv == -1 && TCG_TARGET_HAS_orc_vec) {
+            op->opc = INDEX_op_orc_vec;
+            op->args[2] = op->args[1];
+            op->args[1] = op->args[3];
+            return fold_orc(ctx, op);
+        }
+    }
+    return finish_folding(ctx, op);
+}
+
 static bool fold_brcond(OptContext *ctx, TCGOp *op)
 {
     int i = do_constant_folding_cond1(ctx, op, NO_DEST, &op->args[0],
@@ -XXX,XX +XXX,XX @@ static bool fold_xor(OptContext *ctx, TCGOp *op)
     return fold_masks_zs(ctx, op, z_mask, s_mask);
 }
 
-static bool fold_bitsel_vec(OptContext *ctx, TCGOp *op)
-{
-    /* If true and false values are the same, eliminate the cmp. */
-    if (args_are_copies(op->args[2], op->args[3])) {
-        return tcg_opt_gen_mov(ctx, op, op->args[0], op->args[2]);
-    }
-
-    if (arg_is_const(op->args[2]) && arg_is_const(op->args[3])) {
-        uint64_t tv = arg_info(op->args[2])->val;
-        uint64_t fv = arg_info(op->args[3])->val;
-
-        if (tv == -1 && fv == 0) {
-            return tcg_opt_gen_mov(ctx, op, op->args[0], op->args[1]);
-        }
-        if (tv == 0 && fv == -1) {
-            if (TCG_TARGET_HAS_not_vec) {
-                op->opc = INDEX_op_not_vec;
-                return fold_not(ctx, op);
-            } else {
-                op->opc = INDEX_op_xor_vec;
-                op->args[2] = arg_new_constant(ctx, -1);
-                return fold_xor(ctx, op);
-            }
-        }
-    }
-    if (arg_is_const(op->args[2])) {
-        uint64_t tv = arg_info(op->args[2])->val;
-        if (tv == -1) {
-            op->opc = INDEX_op_or_vec;
-            op->args[2] = op->args[3];
-            return fold_or(ctx, op);
-        }
-        if (tv == 0 && TCG_TARGET_HAS_andc_vec) {
-            op->opc = INDEX_op_andc_vec;
-            op->args[2] = op->args[1];
-            op->args[1] = op->args[3];
-            return fold_andc(ctx, op);
-        }
-    }
-    if (arg_is_const(op->args[3])) {
-        uint64_t fv = arg_info(op->args[3])->val;
-        if (fv == 0) {
-            op->opc = INDEX_op_and_vec;
-            return fold_and(ctx, op);
-        }
-        if (fv == -1 && TCG_TARGET_HAS_orc_vec) {
-            op->opc = INDEX_op_orc_vec;
-            op->args[2] = op->args[1];
-            op->args[1] = op->args[3];
-            return fold_orc(ctx, op);
-        }
-    }
-    return finish_folding(ctx, op);
-}
-
 /* Propagate constants and copies, fold constant expressions. */
 void tcg_optimize(TCGContext *s)
 {
-- 
2.43.0

The big comment just above says functions should be sorted.

Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/optimize.c | 60 +++++++++++++++++++++++++-------------------------
 1 file changed, 30 insertions(+), 30 deletions(-)

diff --git a/tcg/optimize.c b/tcg/optimize.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/optimize.c
+++ b/tcg/optimize.c
@@ -XXX,XX +XXX,XX @@ static bool fold_call(OptContext *ctx, TCGOp *op)
     return true;
 }
 
+static bool fold_cmp_vec(OptContext *ctx, TCGOp *op)
+{
+    /* Canonicalize the comparison to put immediate second. */
+    if (swap_commutative(NO_DEST, &op->args[1], &op->args[2])) {
+        op->args[3] = tcg_swap_cond(op->args[3]);
+    }
+    return finish_folding(ctx, op);
+}
+
+static bool fold_cmpsel_vec(OptContext *ctx, TCGOp *op)
+{
+    /* If true and false values are the same, eliminate the cmp. */
+    if (args_are_copies(op->args[3], op->args[4])) {
+        return tcg_opt_gen_mov(ctx, op, op->args[0], op->args[3]);
+    }
+
+    /* Canonicalize the comparison to put immediate second. */
+    if (swap_commutative(NO_DEST, &op->args[1], &op->args[2])) {
+        op->args[5] = tcg_swap_cond(op->args[5]);
+    }
+    /*
+     * Canonicalize the "false" input reg to match the destination,
+     * so that the tcg backend can implement "move if true".
+     */
+    if (swap_commutative(op->args[0], &op->args[4], &op->args[3])) {
+        op->args[5] = tcg_invert_cond(op->args[5]);
+    }
+    return finish_folding(ctx, op);
+}
+
 static bool fold_count_zeros(OptContext *ctx, TCGOp *op)
 {
     uint64_t z_mask, s_mask;
@@ -XXX,XX +XXX,XX @@ static bool fold_setcond2(OptContext *ctx, TCGOp *op)
     return tcg_opt_gen_movi(ctx, op, op->args[0], i);
 }
 
-static bool fold_cmp_vec(OptContext *ctx, TCGOp *op)
-{
-    /* Canonicalize the comparison to put immediate second. */
-    if (swap_commutative(NO_DEST, &op->args[1], &op->args[2])) {
-        op->args[3] = tcg_swap_cond(op->args[3]);
-    }
-    return finish_folding(ctx, op);
-}
-
-static bool fold_cmpsel_vec(OptContext *ctx, TCGOp *op)
-{
-    /* If true and false values are the same, eliminate the cmp. */
-    if (args_are_copies(op->args[3], op->args[4])) {
-        return tcg_opt_gen_mov(ctx, op, op->args[0], op->args[3]);
-    }
-
-    /* Canonicalize the comparison to put immediate second. */
-    if (swap_commutative(NO_DEST, &op->args[1], &op->args[2])) {
-        op->args[5] = tcg_swap_cond(op->args[5]);
-    }
-    /*
-     * Canonicalize the "false" input reg to match the destination,
-     * so that the tcg backend can implement "move if true".
-     */
-    if (swap_commutative(op->args[0], &op->args[4], &op->args[3])) {
-        op->args[5] = tcg_invert_cond(op->args[5]);
-    }
-    return finish_folding(ctx, op);
-}
-
 static bool fold_sextract(OptContext *ctx, TCGOp *op)
 {
     uint64_t z_mask, s_mask, s_mask_old;
-- 
2.43.0

We currently have a flag, float_muladd_halve_result, to scale
the result by 2**-1.  Extend this to handle arbitrary scaling.

Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 include/fpu/softfloat.h   |  6 ++++
 fpu/softfloat.c           | 58 ++++++++++++++++++++++-----------------
 fpu/softfloat-parts.c.inc |  7 +++--
 3 files changed, 44 insertions(+), 27 deletions(-)

diff --git a/include/fpu/softfloat.h b/include/fpu/softfloat.h
index XXXXXXX..XXXXXXX 100644
--- a/include/fpu/softfloat.h
+++ b/include/fpu/softfloat.h
@@ -XXX,XX +XXX,XX @@ float16 float16_add(float16, float16, float_status *status);
 float16 float16_sub(float16, float16, float_status *status);
 float16 float16_mul(float16, float16, float_status *status);
 float16 float16_muladd(float16, float16, float16, int, float_status *status);
+float16 float16_muladd_scalbn(float16, float16, float16,
+                              int, int, float_status *status);
 float16 float16_div(float16, float16, float_status *status);
 float16 float16_scalbn(float16, int, float_status *status);
 float16 float16_min(float16, float16, float_status *status);
@@ -XXX,XX +XXX,XX @@ float32 float32_mul(float32, float32, float_status *status);
 float32 float32_div(float32, float32, float_status *status);
 float32 float32_rem(float32, float32, float_status *status);
 float32 float32_muladd(float32, float32, float32, int, float_status *status);
+float32 float32_muladd_scalbn(float32, float32, float32,
+                              int, int, float_status *status);
 float32 float32_sqrt(float32, float_status *status);
 float32 float32_exp2(float32, float_status *status);
 float32 float32_log2(float32, float_status *status);
@@ -XXX,XX +XXX,XX @@ float64 float64_mul(float64, float64, float_status *status);
 float64 float64_div(float64, float64, float_status *status);
 float64 float64_rem(float64, float64, float_status *status);
 float64 float64_muladd(float64, float64, float64, int, float_status *status);
+float64 float64_muladd_scalbn(float64, float64, float64,
+                              int, int, float_status *status);
 float64 float64_sqrt(float64, float_status *status);
 float64 float64_log2(float64, float_status *status);
 FloatRelation float64_compare(float64, float64, float_status *status);
diff --git a/fpu/softfloat.c b/fpu/softfloat.c
index XXXXXXX..XXXXXXX 100644
--- a/fpu/softfloat.c
+++ b/fpu/softfloat.c
@@ -XXX,XX +XXX,XX @@ static FloatParts128 *parts128_mul(FloatParts128 *a, FloatParts128 *b,
 #define parts_mul(A, B, S) \
     PARTS_GENERIC_64_128(mul, A)(A, B, S)
 
-static FloatParts64 *parts64_muladd(FloatParts64 *a, FloatParts64 *b,
-                                    FloatParts64 *c, int flags,
-                                    float_status *s);
-static FloatParts128 *parts128_muladd(FloatParts128 *a, FloatParts128 *b,
-                                      FloatParts128 *c, int flags,
-                                      float_status *s);
+static FloatParts64 *parts64_muladd_scalbn(FloatParts64 *a, FloatParts64 *b,
+                                           FloatParts64 *c, int scale,
+                                           int flags, float_status *s);
+static FloatParts128 *parts128_muladd_scalbn(FloatParts128 *a, FloatParts128 *b,
+                                             FloatParts128 *c, int scale,
+                                             int flags, float_status *s);
 
-#define parts_muladd(A, B, C, Z, S) \
-    PARTS_GENERIC_64_128(muladd, A)(A, B, C, Z, S)
+#define parts_muladd_scalbn(A, B, C, Z, Y, S) \
+    PARTS_GENERIC_64_128(muladd_scalbn, A)(A, B, C, Z, Y, S)
 
 static FloatParts64 *parts64_div(FloatParts64 *a, FloatParts64 *b,
                                  float_status *s);
@@ -XXX,XX +XXX,XX @@ floatx80_mul(floatx80 a, floatx80 b, float_status *status)
  * Fused multiply-add
  */
 
-float16 QEMU_FLATTEN float16_muladd(float16 a, float16 b, float16 c,
-                                    int flags, float_status *status)
+float16 QEMU_FLATTEN
+float16_muladd_scalbn(float16 a, float16 b, float16 c,
+                      int scale, int flags, float_status *status)
 {
     FloatParts64 pa, pb, pc, *pr;
 
     float16_unpack_canonical(&pa, a, status);
     float16_unpack_canonical(&pb, b, status);
     float16_unpack_canonical(&pc, c, status);
-    pr = parts_muladd(&pa, &pb, &pc, flags, status);
+    pr = parts_muladd_scalbn(&pa, &pb, &pc, scale, flags, status);
 
     return float16_round_pack_canonical(pr, status);
 }
 
-static float32 QEMU_SOFTFLOAT_ATTR
-soft_f32_muladd(float32 a, float32 b, float32 c, int flags,
-                float_status *status)
+float16 float16_muladd(float16 a, float16 b, float16 c,
+                       int flags, float_status *status)
+{
+    return float16_muladd_scalbn(a, b, c, 0, flags, status);
+}
+
+float32 QEMU_SOFTFLOAT_ATTR
+float32_muladd_scalbn(float32 a, float32 b, float32 c,
+                      int scale, int flags, float_status *status)
 {
     FloatParts64 pa, pb, pc, *pr;
 
     float32_unpack_canonical(&pa, a, status);
     float32_unpack_canonical(&pb, b, status);
     float32_unpack_canonical(&pc, c, status);
-    pr = parts_muladd(&pa, &pb, &pc, flags, status);
+    pr = parts_muladd_scalbn(&pa, &pb, &pc, scale, flags, status);
 
     return float32_round_pack_canonical(pr, status);
 }
 
-static float64 QEMU_SOFTFLOAT_ATTR
-soft_f64_muladd(float64 a, float64 b, float64 c, int flags,
-                float_status *status)
+float64 QEMU_SOFTFLOAT_ATTR
+float64_muladd_scalbn(float64 a, float64 b, float64 c,
+                      int scale, int flags, float_status *status)
 {
     FloatParts64 pa, pb, pc, *pr;
 
     float64_unpack_canonical(&pa, a, status);
     float64_unpack_canonical(&pb, b, status);
     float64_unpack_canonical(&pc, c, status);
-    pr = parts_muladd(&pa, &pb, &pc, flags, status);
+    pr = parts_muladd_scalbn(&pa, &pb, &pc, scale, flags, status);
 
     return float64_round_pack_canonical(pr, status);
 }
@@ -XXX,XX +XXX,XX @@ float32_muladd(float32 xa, float32 xb, float32 xc, int flags, float_status *s)
     return ur.s;
 
  soft:
-    return soft_f32_muladd(ua.s, ub.s, uc.s, flags, s);
+    return float32_muladd_scalbn(ua.s, ub.s, uc.s, 0, flags, s);
 }
 
 float64 QEMU_FLATTEN
@@ -XXX,XX +XXX,XX @@ float64_muladd(float64 xa, float64 xb, float64 xc, int flags, float_status *s)
     return ur.s;
 
  soft:
-    return soft_f64_muladd(ua.s, ub.s, uc.s, flags, s);
+    return float64_muladd_scalbn(ua.s, ub.s, uc.s, 0, flags, s);
 }
 
 float64 float64r32_muladd(float64 a, float64 b, float64 c,
@@ -XXX,XX +XXX,XX @@ float64 float64r32_muladd(float64 a, float64 b, float64 c,
     float64_unpack_canonical(&pa, a, status);
     float64_unpack_canonical(&pb, b, status);
     float64_unpack_canonical(&pc, c, status);
-    pr = parts_muladd(&pa, &pb, &pc, flags, status);
+    pr = parts_muladd_scalbn(&pa, &pb, &pc, 0, flags, status);
 
     return float64r32_round_pack_canonical(pr, status);
 }
@@ -XXX,XX +XXX,XX @@ bfloat16 QEMU_FLATTEN bfloat16_muladd(bfloat16 a, bfloat16 b, bfloat16 c,
     bfloat16_unpack_canonical(&pa, a, status);
     bfloat16_unpack_canonical(&pb, b, status);
     bfloat16_unpack_canonical(&pc, c, status);
-    pr = parts_muladd(&pa, &pb, &pc, flags, status);
+    pr = parts_muladd_scalbn(&pa, &pb, &pc, 0, flags, status);
 
     return bfloat16_round_pack_canonical(pr, status);
 }
@@ -XXX,XX +XXX,XX @@ float128 QEMU_FLATTEN float128_muladd(float128 a, float128 b, float128 c,
     float128_unpack_canonical(&pa, a, status);
     float128_unpack_canonical(&pb, b, status);
     float128_unpack_canonical(&pc, c, status);
-    pr = parts_muladd(&pa, &pb, &pc, flags, status);
+    pr = parts_muladd_scalbn(&pa, &pb, &pc, 0, flags, status);
 
     return float128_round_pack_canonical(pr, status);
 }
@@ -XXX,XX +XXX,XX @@ float32 float32_exp2(float32 a, float_status *status)
 
     float64_unpack_canonical(&rp, float64_one, status);
     for (i = 0 ; i < 15 ; i++) {
+
         float64_unpack_canonical(&tp, float32_exp2_coefficients[i], status);
-        rp = *parts_muladd(&tp, &xnp, &rp, 0, status);
+        rp = *parts_muladd_scalbn(&tp, &xnp, &rp, 0, 0, status);
         xnp = *parts_mul(&xnp, &xp, status);
     }
 
diff --git a/fpu/softfloat-parts.c.inc b/fpu/softfloat-parts.c.inc
index XXXXXXX..XXXXXXX 100644
--- a/fpu/softfloat-parts.c.inc
+++ b/fpu/softfloat-parts.c.inc
@@ -XXX,XX +XXX,XX @@ static FloatPartsN *partsN(mul)(FloatPartsN *a, FloatPartsN *b,
  * Requires A and C extracted into a double-sized structure to provide the
  * extra space for the widening multiply.
  */
-static FloatPartsN *partsN(muladd)(FloatPartsN *a, FloatPartsN *b,
-                                   FloatPartsN *c, int flags, float_status *s)
+static FloatPartsN *partsN(muladd_scalbn)(FloatPartsN *a, FloatPartsN *b,
+                                          FloatPartsN *c, int scale,
+                                          int flags, float_status *s)
 {
     int ab_mask, abc_mask;
     FloatPartsW p_widen, c_widen;
@@ -XXX,XX +XXX,XX @@ static FloatPartsN *partsN(muladd)(FloatPartsN *a, FloatPartsN *b,
     a->exp = p_widen.exp;
 
  return_normal:
+    /* TODO: Replace all use of float_muladd_halve_result with scale. */
     if (flags & float_muladd_halve_result) {
         a->exp -= 1;
     }
+    a->exp += scale;
  finish_sign:
     if (flags & float_muladd_negate_result) {
         a->sign ^= 1;
-- 
2.43.0

Use the scalbn interface instead of float_muladd_halve_result.

Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 target/arm/tcg/helper-a64.c | 6 +++---
 1 file changed, 3 insertions(+), 3 deletions(-)

diff --git a/target/arm/tcg/helper-a64.c b/target/arm/tcg/helper-a64.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/helper-a64.c
+++ b/target/arm/tcg/helper-a64.c
@@ -XXX,XX +XXX,XX @@ uint32_t HELPER(rsqrtsf_f16)(uint32_t a, uint32_t b, float_status *fpst)
         (float16_is_infinity(b) && float16_is_zero(a))) {
         return float16_one_point_five;
     }
-    return float16_muladd(a, b, float16_three, float_muladd_halve_result, fpst);
+    return float16_muladd_scalbn(a, b, float16_three, -1, 0, fpst);
 }
 
 float32 HELPER(rsqrtsf_f32)(float32 a, float32 b, float_status *fpst)
@@ -XXX,XX +XXX,XX @@ float32 HELPER(rsqrtsf_f32)(float32 a, float32 b, float_status *fpst)
         (float32_is_infinity(b) && float32_is_zero(a))) {
         return float32_one_point_five;
     }
-    return float32_muladd(a, b, float32_three, float_muladd_halve_result, fpst);
+    return float32_muladd_scalbn(a, b, float32_three, -1, 0, fpst);
 }
 
 float64 HELPER(rsqrtsf_f64)(float64 a, float64 b, float_status *fpst)
@@ -XXX,XX +XXX,XX @@ float64 HELPER(rsqrtsf_f64)(float64 a, float64 b, float_status *fpst)
         (float64_is_infinity(b) && float64_is_zero(a))) {
         return float64_one_point_five;
     }
-    return float64_muladd(a, b, float64_three, float_muladd_halve_result, fpst);
+    return float64_muladd_scalbn(a, b, float64_three, -1, 0, fpst);
 }
 
 /* Floating-point reciprocal exponent - see FPRecpX in ARM ARM */
-- 
2.43.0

Use the scalbn interface instead of float_muladd_halve_result.

Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 target/sparc/helper.h     |  4 +-
 target/sparc/fop_helper.c |  8 ++--
 target/sparc/translate.c  | 80 +++++++++++++++++++++++----------------
 3 files changed, 54 insertions(+), 38 deletions(-)

diff --git a/target/sparc/helper.h b/target/sparc/helper.h
index XXXXXXX..XXXXXXX 100644
--- a/target/sparc/helper.h
+++ b/target/sparc/helper.h
@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_3(faddd, TCG_CALL_NO_WG, f64, env, f64, f64)
 DEF_HELPER_FLAGS_3(fsubd, TCG_CALL_NO_WG, f64, env, f64, f64)
 DEF_HELPER_FLAGS_3(fmuld, TCG_CALL_NO_WG, f64, env, f64, f64)
 DEF_HELPER_FLAGS_3(fdivd, TCG_CALL_NO_WG, f64, env, f64, f64)
-DEF_HELPER_FLAGS_5(fmaddd, TCG_CALL_NO_WG, f64, env, f64, f64, f64, i32)
+DEF_HELPER_FLAGS_6(fmaddd, TCG_CALL_NO_WG, f64, env, f64, f64, f64, s32, i32)
 DEF_HELPER_FLAGS_3(fnaddd, TCG_CALL_NO_WG, f64, env, f64, f64)
 DEF_HELPER_FLAGS_3(fnmuld, TCG_CALL_NO_WG, f64, env, f64, f64)
 
@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_3(fadds, TCG_CALL_NO_WG, f32, env, f32, f32)
 DEF_HELPER_FLAGS_3(fsubs, TCG_CALL_NO_WG, f32, env, f32, f32)
 DEF_HELPER_FLAGS_3(fmuls, TCG_CALL_NO_WG, f32, env, f32, f32)
 DEF_HELPER_FLAGS_3(fdivs, TCG_CALL_NO_WG, f32, env, f32, f32)
-DEF_HELPER_FLAGS_5(fmadds, TCG_CALL_NO_WG, f32, env, f32, f32, f32, i32)
+DEF_HELPER_FLAGS_6(fmadds, TCG_CALL_NO_WG, f32, env, f32, f32, f32, s32, i32)
 DEF_HELPER_FLAGS_3(fnadds, TCG_CALL_NO_WG, f32, env, f32, f32)
 DEF_HELPER_FLAGS_3(fnmuls, TCG_CALL_NO_WG, f32, env, f32, f32)
 
diff --git a/target/sparc/fop_helper.c b/target/sparc/fop_helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/sparc/fop_helper.c
+++ b/target/sparc/fop_helper.c
@@ -XXX,XX +XXX,XX @@ Int128 helper_fsqrtq(CPUSPARCState *env, Int128 src)
 }
 
 float32 helper_fmadds(CPUSPARCState *env, float32 s1,
-                      float32 s2, float32 s3, uint32_t op)
+                      float32 s2, float32 s3, int32_t sc, uint32_t op)
 {
-    float32 ret = float32_muladd(s1, s2, s3, op, &env->fp_status);
+    float32 ret = float32_muladd_scalbn(s1, s2, s3, sc, op, &env->fp_status);
     check_ieee_exceptions(env, GETPC());
     return ret;
 }
 
 float64 helper_fmaddd(CPUSPARCState *env, float64 s1,
-                      float64 s2, float64 s3, uint32_t op)
+                      float64 s2, float64 s3, int32_t sc, uint32_t op)
 {
-    float64 ret = float64_muladd(s1, s2, s3, op, &env->fp_status);
+    float64 ret = float64_muladd_scalbn(s1, s2, s3, sc, op, &env->fp_status);
     check_ieee_exceptions(env, GETPC());
     return ret;
 }
diff --git a/target/sparc/translate.c b/target/sparc/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/sparc/translate.c
+++ b/target/sparc/translate.c
@@ -XXX,XX +XXX,XX @@ static void gen_op_fabsq(TCGv_i128 dst, TCGv_i128 src)
 
 static void gen_op_fmadds(TCGv_i32 d, TCGv_i32 s1, TCGv_i32 s2, TCGv_i32 s3)
 {
-    gen_helper_fmadds(d, tcg_env, s1, s2, s3, tcg_constant_i32(0));
+    TCGv_i32 z = tcg_constant_i32(0);
+    gen_helper_fmadds(d, tcg_env, s1, s2, s3, z, z);
 }
 
 static void gen_op_fmaddd(TCGv_i64 d, TCGv_i64 s1, TCGv_i64 s2, TCGv_i64 s3)
 {
-    gen_helper_fmaddd(d, tcg_env, s1, s2, s3, tcg_constant_i32(0));
+    TCGv_i32 z = tcg_constant_i32(0);
+    gen_helper_fmaddd(d, tcg_env, s1, s2, s3, z, z);
 }
 
 static void gen_op_fmsubs(TCGv_i32 d, TCGv_i32 s1, TCGv_i32 s2, TCGv_i32 s3)
 {
-    int op = float_muladd_negate_c;
-    gen_helper_fmadds(d, tcg_env, s1, s2, s3, tcg_constant_i32(op));
+    TCGv_i32 z = tcg_constant_i32(0);
+    TCGv_i32 op = tcg_constant_i32(float_muladd_negate_c);
+    gen_helper_fmadds(d, tcg_env, s1, s2, s3, z, op);
 }
 
 static void gen_op_fmsubd(TCGv_i64 d, TCGv_i64 s1, TCGv_i64 s2, TCGv_i64 s3)
 {
-    int op = float_muladd_negate_c;
-    gen_helper_fmaddd(d, tcg_env, s1, s2, s3, tcg_constant_i32(op));
+    TCGv_i32 z = tcg_constant_i32(0);
+    TCGv_i32 op = tcg_constant_i32(float_muladd_negate_c);
+    gen_helper_fmaddd(d, tcg_env, s1, s2, s3, z, op);
 }
 
 static void gen_op_fnmsubs(TCGv_i32 d, TCGv_i32 s1, TCGv_i32 s2, TCGv_i32 s3)
 {
-    int op = float_muladd_negate_c | float_muladd_negate_result;
-    gen_helper_fmadds(d, tcg_env, s1, s2, s3, tcg_constant_i32(op));
+    TCGv_i32 z = tcg_constant_i32(0);
+    TCGv_i32 op = tcg_constant_i32(float_muladd_negate_c |
+                                   float_muladd_negate_result);
+    gen_helper_fmadds(d, tcg_env, s1, s2, s3, z, op);
 }
 
 static void gen_op_fnmsubd(TCGv_i64 d, TCGv_i64 s1, TCGv_i64 s2, TCGv_i64 s3)
 {
-    int op = float_muladd_negate_c | float_muladd_negate_result;
-    gen_helper_fmaddd(d, tcg_env, s1, s2, s3, tcg_constant_i32(op));
+    TCGv_i32 z = tcg_constant_i32(0);
+    TCGv_i32 op = tcg_constant_i32(float_muladd_negate_c |
+                                   float_muladd_negate_result);
+    gen_helper_fmaddd(d, tcg_env, s1, s2, s3, z, op);
 }
 
 static void gen_op_fnmadds(TCGv_i32 d, TCGv_i32 s1, TCGv_i32 s2, TCGv_i32 s3)
 {
-    int op = float_muladd_negate_result;
-    gen_helper_fmadds(d, tcg_env, s1, s2, s3, tcg_constant_i32(op));
+    TCGv_i32 z = tcg_constant_i32(0);
+    TCGv_i32 op = tcg_constant_i32(float_muladd_negate_result);
+    gen_helper_fmadds(d, tcg_env, s1, s2, s3, z, op);
 }
 
 static void gen_op_fnmaddd(TCGv_i64 d, TCGv_i64 s1, TCGv_i64 s2, TCGv_i64 s3)
 {
-    int op = float_muladd_negate_result;
-    gen_helper_fmaddd(d, tcg_env, s1, s2, s3, tcg_constant_i32(op));
+    TCGv_i32 z = tcg_constant_i32(0);
+    TCGv_i32 op = tcg_constant_i32(float_muladd_negate_result);
+    gen_helper_fmaddd(d, tcg_env, s1, s2, s3, z, op);
 }
 
 /* Use muladd to compute (1 * src1) + src2 / 2 with one rounding. */
 static void gen_op_fhadds(TCGv_i32 d, TCGv_i32 s1, TCGv_i32 s2)
 {
-    TCGv_i32 one = tcg_constant_i32(float32_one);
-    int op = float_muladd_halve_result;
-    gen_helper_fmadds(d, tcg_env, one, s1, s2, tcg_constant_i32(op));
+    TCGv_i32 fone = tcg_constant_i32(float32_one);
+    TCGv_i32 mone = tcg_constant_i32(-1);
+    TCGv_i32 op = tcg_constant_i32(0);
+    gen_helper_fmadds(d, tcg_env, fone, s1, s2, mone, op);
 }
 
 static void gen_op_fhaddd(TCGv_i64 d, TCGv_i64 s1, TCGv_i64 s2)
 {
-    TCGv_i64 one = tcg_constant_i64(float64_one);
-    int op = float_muladd_halve_result;
-    gen_helper_fmaddd(d, tcg_env, one, s1, s2, tcg_constant_i32(op));
+    TCGv_i64 fone = tcg_constant_i64(float64_one);
+    TCGv_i32 mone = tcg_constant_i32(-1);
+    TCGv_i32 op = tcg_constant_i32(0);
+    gen_helper_fmaddd(d, tcg_env, fone, s1, s2, mone, op);
 }
 
 /* Use muladd to compute (1 * src1) - src2 / 2 with one rounding. */
 static void gen_op_fhsubs(TCGv_i32 d, TCGv_i32 s1, TCGv_i32 s2)
 {
-    TCGv_i32 one = tcg_constant_i32(float32_one);
-    int op = float_muladd_negate_c | float_muladd_halve_result;
-    gen_helper_fmadds(d, tcg_env, one, s1, s2, tcg_constant_i32(op));
+    TCGv_i32 fone = tcg_constant_i32(float32_one);
+    TCGv_i32 mone = tcg_constant_i32(-1);
+    TCGv_i32 op = tcg_constant_i32(float_muladd_negate_c);
+    gen_helper_fmadds(d, tcg_env, fone, s1, s2, mone, op);
 }
 
 static void gen_op_fhsubd(TCGv_i64 d, TCGv_i64 s1, TCGv_i64 s2)
 {
-    TCGv_i64 one = tcg_constant_i64(float64_one);
-    int op = float_muladd_negate_c | float_muladd_halve_result;
-    gen_helper_fmaddd(d, tcg_env, one, s1, s2, tcg_constant_i32(op));
+    TCGv_i64 fone = tcg_constant_i64(float64_one);
+    TCGv_i32 mone = tcg_constant_i32(-1);
+    TCGv_i32 op = tcg_constant_i32(float_muladd_negate_c);
+    gen_helper_fmaddd(d, tcg_env, fone, s1, s2, mone, op);
 }
 
 /* Use muladd to compute -((1 * src1) + src2 / 2) with one rounding. */
 static void gen_op_fnhadds(TCGv_i32 d, TCGv_i32 s1, TCGv_i32 s2)
 {
-    TCGv_i32 one = tcg_constant_i32(float32_one);
-    int op = float_muladd_negate_result | float_muladd_halve_result;
-    gen_helper_fmadds(d, tcg_env, one, s1, s2, tcg_constant_i32(op));
+    TCGv_i32 fone = tcg_constant_i32(float32_one);
+    TCGv_i32 mone = tcg_constant_i32(-1);
+    TCGv_i32 op = tcg_constant_i32(float_muladd_negate_result);
+    gen_helper_fmadds(d, tcg_env, fone, s1, s2, mone, op);
 }
 
 static void gen_op_fnhaddd(TCGv_i64 d, TCGv_i64 s1, TCGv_i64 s2)
 {
-    TCGv_i64 one = tcg_constant_i64(float64_one);
-    int op = float_muladd_negate_result | float_muladd_halve_result;
-    gen_helper_fmaddd(d, tcg_env, one, s1, s2, tcg_constant_i32(op));
+    TCGv_i64 fone = tcg_constant_i64(float64_one);
+    TCGv_i32 mone = tcg_constant_i32(-1);
+    TCGv_i32 op = tcg_constant_i32(float_muladd_negate_result);
+    gen_helper_fmaddd(d, tcg_env, fone, s1, s2, mone, op);
 }
 
 static void gen_op_fpexception_im(DisasContext *dc, int ftt)
-- 
2.43.0

All uses have been convered to float*_muladd_scalbn.

Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 include/fpu/softfloat.h   | 3 ---
 fpu/softfloat.c           | 6 ------
 fpu/softfloat-parts.c.inc | 4 ----
 3 files changed, 13 deletions(-)

diff --git a/include/fpu/softfloat.h b/include/fpu/softfloat.h
index XXXXXXX..XXXXXXX 100644
--- a/include/fpu/softfloat.h
+++ b/include/fpu/softfloat.h
@@ -XXX,XX +XXX,XX @@ bfloat16 bfloat16_squash_input_denormal(bfloat16 a, float_status *status);
 | Using these differs from negating an input or output before calling
 | the muladd function in that this means that a NaN doesn't have its
 | sign bit inverted before it is propagated.
-| We also support halving the result before rounding, as a special
-| case to support the ARM fused-sqrt-step instruction FRSQRTS.
 *----------------------------------------------------------------------------*/
 enum {
     float_muladd_negate_c = 1,
     float_muladd_negate_product = 2,
     float_muladd_negate_result = 4,
-    float_muladd_halve_result = 8,
 };
 
 /*----------------------------------------------------------------------------
diff --git a/fpu/softfloat.c b/fpu/softfloat.c
index XXXXXXX..XXXXXXX 100644
--- a/fpu/softfloat.c
+++ b/fpu/softfloat.c
@@ -XXX,XX +XXX,XX @@ float32_muladd(float32 xa, float32 xb, float32 xc, int flags, float_status *s)
     if (unlikely(!can_use_fpu(s))) {
         goto soft;
     }
-    if (unlikely(flags & float_muladd_halve_result)) {
-        goto soft;
-    }
 
     float32_input_flush3(&ua.s, &ub.s, &uc.s, s);
     if (unlikely(!f32_is_zon3(ua, ub, uc))) {
@@ -XXX,XX +XXX,XX @@ float64_muladd(float64 xa, float64 xb, float64 xc, int flags, float_status *s)
     if (unlikely(!can_use_fpu(s))) {
         goto soft;
     }
-    if (unlikely(flags & float_muladd_halve_result)) {
-        goto soft;
-    }
 
     float64_input_flush3(&ua.s, &ub.s, &uc.s, s);
     if (unlikely(!f64_is_zon3(ua, ub, uc))) {
diff --git a/fpu/softfloat-parts.c.inc b/fpu/softfloat-parts.c.inc
index XXXXXXX..XXXXXXX 100644
--- a/fpu/softfloat-parts.c.inc
+++ b/fpu/softfloat-parts.c.inc
@@ -XXX,XX +XXX,XX @@ static FloatPartsN *partsN(muladd_scalbn)(FloatPartsN *a, FloatPartsN *b,
     a->exp = p_widen.exp;
 
  return_normal:
-    /* TODO: Replace all use of float_muladd_halve_result with scale. */
-    if (flags & float_muladd_halve_result) {
-        a->exp -= 1;
-    }
     a->exp += scale;
  finish_sign:
     if (flags & float_muladd_negate_result) {
-- 
2.43.0

This rounding mode is used by Hexagon.

Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 include/fpu/softfloat-types.h | 2 ++
 fpu/softfloat-parts.c.inc     | 3 +++
 2 files changed, 5 insertions(+)

diff --git a/include/fpu/softfloat-types.h b/include/fpu/softfloat-types.h
index XXXXXXX..XXXXXXX 100644
--- a/include/fpu/softfloat-types.h
+++ b/include/fpu/softfloat-types.h
@@ -XXX,XX +XXX,XX @@ typedef enum __attribute__((__packed__)) {
     float_round_to_odd       = 5,
     /* Not an IEEE rounding mode: round to closest odd, overflow to inf */
     float_round_to_odd_inf   = 6,
+    /* Not an IEEE rounding mode: round to nearest even, overflow to max */
+    float_round_nearest_even_max = 7,
 } FloatRoundMode;
 
 /*
diff --git a/fpu/softfloat-parts.c.inc b/fpu/softfloat-parts.c.inc
index XXXXXXX..XXXXXXX 100644
--- a/fpu/softfloat-parts.c.inc
+++ b/fpu/softfloat-parts.c.inc
@@ -XXX,XX +XXX,XX @@ static void partsN(uncanon_normal)(FloatPartsN *p, float_status *s,
     int exp, flags = 0;
 
     switch (s->float_rounding_mode) {
+    case float_round_nearest_even_max:
+        overflow_norm = true;
+        /* fall through */
     case float_round_nearest_even:
         if (N > 64 && frac_lsb == 0) {
             inc = ((p->frac_hi & 1) || (p->frac_lo & round_mask) != frac_lsbm1
-- 
2.43.0

Certain Hexagon instructions suppress changes to the result
when the product of fma() is a true zero.

Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 include/fpu/softfloat.h   | 5 +++++
 fpu/softfloat.c           | 3 +++
 fpu/softfloat-parts.c.inc | 4 +++-
 3 files changed, 11 insertions(+), 1 deletion(-)

diff --git a/include/fpu/softfloat.h b/include/fpu/softfloat.h
index XXXXXXX..XXXXXXX 100644
--- a/include/fpu/softfloat.h
+++ b/include/fpu/softfloat.h
@@ -XXX,XX +XXX,XX @@ bfloat16 bfloat16_squash_input_denormal(bfloat16 a, float_status *status);
 | Using these differs from negating an input or output before calling
 | the muladd function in that this means that a NaN doesn't have its
 | sign bit inverted before it is propagated.
+|
+| With float_muladd_suppress_add_product_zero, if A or B is zero
+| such that the product is a true zero, then return C without addition.
+| This preserves the sign of C when C is +/- 0.  Used for Hexagon.
 *----------------------------------------------------------------------------*/
 enum {
     float_muladd_negate_c = 1,
     float_muladd_negate_product = 2,
     float_muladd_negate_result = 4,
+    float_muladd_suppress_add_product_zero = 8,
 };
 
 /*----------------------------------------------------------------------------
diff --git a/fpu/softfloat.c b/fpu/softfloat.c
index XXXXXXX..XXXXXXX 100644
--- a/fpu/softfloat.c
+++ b/fpu/softfloat.c
@@ -XXX,XX +XXX,XX @@ float32_muladd(float32 xa, float32 xb, float32 xc, int flags, float_status *s)
     if (unlikely(!can_use_fpu(s))) {
         goto soft;
     }
+    if (unlikely(flags & float_muladd_suppress_add_product_zero)) {
+        goto soft;
+    }
 
     float32_input_flush3(&ua.s, &ub.s, &uc.s, s);
     if (unlikely(!f32_is_zon3(ua, ub, uc))) {
diff --git a/fpu/softfloat-parts.c.inc b/fpu/softfloat-parts.c.inc
index XXXXXXX..XXXXXXX 100644
--- a/fpu/softfloat-parts.c.inc
+++ b/fpu/softfloat-parts.c.inc
@@ -XXX,XX +XXX,XX @@ static FloatPartsN *partsN(muladd_scalbn)(FloatPartsN *a, FloatPartsN *b,
             goto return_normal;
         }
         if (c->cls == float_class_zero) {
-            if (a->sign != c->sign) {
+            if (flags & float_muladd_suppress_add_product_zero) {
+                a->sign = c->sign;
+            } else if (a->sign != c->sign) {
                 goto return_sub_zero;
             }
             goto return_zero;
-- 
2.43.0

There are no special cases for this instruction.
Remove internal_mpyf as unused.

Reviewed-by: Brian Cain <brian.cain@oss.qualcomm.com>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 target/hexagon/fma_emu.h   | 1 -
 target/hexagon/fma_emu.c   | 8 --------
 target/hexagon/op_helper.c | 2 +-
 3 files changed, 1 insertion(+), 10 deletions(-)

diff --git a/target/hexagon/fma_emu.h b/target/hexagon/fma_emu.h
index XXXXXXX..XXXXXXX 100644
--- a/target/hexagon/fma_emu.h
+++ b/target/hexagon/fma_emu.h
@@ -XXX,XX +XXX,XX @@ int32_t float32_getexp(float32 f32);
 float32 infinite_float32(uint8_t sign);
 float32 internal_fmafx(float32 a, float32 b, float32 c,
                        int scale, float_status *fp_status);
-float32 internal_mpyf(float32 a, float32 b, float_status *fp_status);
 float64 internal_mpyhh(float64 a, float64 b,
                        unsigned long long int accumulated,
                        float_status *fp_status);
diff --git a/target/hexagon/fma_emu.c b/target/hexagon/fma_emu.c
index XXXXXXX..XXXXXXX 100644
--- a/target/hexagon/fma_emu.c
+++ b/target/hexagon/fma_emu.c
@@ -XXX,XX +XXX,XX @@ float32 internal_fmafx(float32 a, float32 b, float32 c, int scale,
     return accum_round_float32(result, fp_status);
 }
 
-float32 internal_mpyf(float32 a, float32 b, float_status *fp_status)
-{
-    if (float32_is_zero(a) || float32_is_zero(b)) {
-        return float32_mul(a, b, fp_status);
-    }
-    return internal_fmafx(a, b, float32_zero, 0, fp_status);
-}
-
 float64 internal_mpyhh(float64 a, float64 b,
                       unsigned long long int accumulated,
                       float_status *fp_status)
diff --git a/target/hexagon/op_helper.c b/target/hexagon/op_helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/hexagon/op_helper.c
+++ b/target/hexagon/op_helper.c
@@ -XXX,XX +XXX,XX @@ float32 HELPER(sfmpy)(CPUHexagonState *env, float32 RsV, float32 RtV)
 {
     float32 RdV;
     arch_fpop_start(env);
-    RdV = internal_mpyf(RsV, RtV, &env->fp_status);
+    RdV = float32_mul(RsV, RtV, &env->fp_status);
     arch_fpop_end(env);
     return RdV;
 }
-- 
2.43.0

There are no special cases for this instruction.  Since hexagon
always uses default-nan mode, explicitly negating the first
input is unnecessary.  Use float_muladd_negate_product instead.

Reviewed-by: Brian Cain <brian.cain@oss.qualcomm.com>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 target/hexagon/op_helper.c | 5 ++---
 1 file changed, 2 insertions(+), 3 deletions(-)

This instruction has a special case that 0 * x + c returns c
without the normal sign folding that comes with 0 + -0.
Use the new float_muladd_suppress_add_product_zero to
describe this.

Reviewed-by: Brian Cain <brian.cain@oss.qualcomm.com>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 target/hexagon/op_helper.c | 11 +++--------
 1 file changed, 3 insertions(+), 8 deletions(-)

diff --git a/target/hexagon/op_helper.c b/target/hexagon/op_helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/hexagon/op_helper.c
+++ b/target/hexagon/op_helper.c
@@ -XXX,XX +XXX,XX @@ static float32 check_nan(float32 dst, float32 x, float_status *fp_status)
 float32 HELPER(sffma_sc)(CPUHexagonState *env, float32 RxV,
                          float32 RsV, float32 RtV, float32 PuV)
 {
-    size4s_t tmp;
     arch_fpop_start(env);
-    RxV = check_nan(RxV, RxV, &env->fp_status);
-    RxV = check_nan(RxV, RsV, &env->fp_status);
-    RxV = check_nan(RxV, RtV, &env->fp_status);
-    tmp = internal_fmafx(RsV, RtV, RxV, fSXTN(8, 64, PuV), &env->fp_status);
-    if (!(float32_is_zero(RxV) && is_zero_prod(RsV, RtV))) {
-        RxV = tmp;
-    }
+    RxV = float32_muladd_scalbn(RsV, RtV, RxV, fSXTN(8, 64, PuV),
+                                float_muladd_suppress_add_product_zero,
+                                &env->fp_status);
     arch_fpop_end(env);
     return RxV;
 }
-- 
2.43.0

There are multiple special cases for this instruction.
(1) The saturate to normal maximum instead of overflow to infinity is
    handled by the new float_round_nearest_even_max rounding mode.
(2) The 0 * n + c special case is handled by the new
    float_muladd_suppress_add_product_zero flag.
(3) The Inf - Inf -> 0 special case can be detected after the fact
    by examining float_flag_invalid_isi.

Reviewed-by: Brian Cain <brian.cain@oss.qualcomm.com>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 target/hexagon/op_helper.c | 105 +++++++++----------------------------
 1 file changed, 26 insertions(+), 79 deletions(-)

diff --git a/target/hexagon/op_helper.c b/target/hexagon/op_helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/hexagon/op_helper.c
+++ b/target/hexagon/op_helper.c
@@ -XXX,XX +XXX,XX @@ float32 HELPER(sffma)(CPUHexagonState *env, float32 RxV,
     return RxV;
 }
 
-static bool is_zero_prod(float32 a, float32 b)
-{
-    return ((float32_is_zero(a) && is_finite(b)) ||
-            (float32_is_zero(b) && is_finite(a)));
-}
-
-static float32 check_nan(float32 dst, float32 x, float_status *fp_status)
-{
-    float32 ret = dst;
-    if (float32_is_any_nan(x)) {
-        if (extract32(x, 22, 1) == 0) {
-            float_raise(float_flag_invalid, fp_status);
-        }
-        ret = make_float32(0xffffffff);    /* nan */
-    }
-    return ret;
-}
-
 float32 HELPER(sffma_sc)(CPUHexagonState *env, float32 RxV,
                          float32 RsV, float32 RtV, float32 PuV)
 {
@@ -XXX,XX +XXX,XX @@ float32 HELPER(sffms)(CPUHexagonState *env, float32 RxV,
     return RxV;
 }
 
-static bool is_inf_prod(int32_t a, int32_t b)
+static float32 do_sffma_lib(CPUHexagonState *env, float32 RxV,
+                            float32 RsV, float32 RtV, int negate)
 {
-    return (float32_is_infinity(a) && float32_is_infinity(b)) ||
-           (float32_is_infinity(a) && is_finite(b) && !float32_is_zero(b)) ||
-           (float32_is_infinity(b) && is_finite(a) && !float32_is_zero(a));
+    int flags;
+
+    arch_fpop_start(env);
+
+    set_float_rounding_mode(float_round_nearest_even_max, &env->fp_status);
+    RxV = float32_muladd(RsV, RtV, RxV,
+                         negate | float_muladd_suppress_add_product_zero,
+                         &env->fp_status);
+
+    flags = get_float_exception_flags(&env->fp_status);
+    if (flags) {
+        /* Flags are suppressed by this instruction. */
+        set_float_exception_flags(0, &env->fp_status);
+
+        /* Return 0 for Inf - Inf. */
+        if (flags & float_flag_invalid_isi) {
+            RxV = 0;
+        }
+    }
+
+    arch_fpop_end(env);
+    return RxV;
 }
 
 float32 HELPER(sffma_lib)(CPUHexagonState *env, float32 RxV,
                           float32 RsV, float32 RtV)
 {
-    bool infinp;
-    bool infminusinf;
-    float32 tmp;
-
-    arch_fpop_start(env);
-    set_float_rounding_mode(float_round_nearest_even, &env->fp_status);
-    infminusinf = float32_is_infinity(RxV) &&
-                  is_inf_prod(RsV, RtV) &&
-                  (fGETBIT(31, RsV ^ RxV ^ RtV) != 0);
-    infinp = float32_is_infinity(RxV) ||
-             float32_is_infinity(RtV) ||
-             float32_is_infinity(RsV);
-    RxV = check_nan(RxV, RxV, &env->fp_status);
-    RxV = check_nan(RxV, RsV, &env->fp_status);
-    RxV = check_nan(RxV, RtV, &env->fp_status);
-    tmp = internal_fmafx(RsV, RtV, RxV, 0, &env->fp_status);
-    if (!(float32_is_zero(RxV) && is_zero_prod(RsV, RtV))) {
-        RxV = tmp;
-    }
-    set_float_exception_flags(0, &env->fp_status);
-    if (float32_is_infinity(RxV) && !infinp) {
-        RxV = RxV - 1;
-    }
-    if (infminusinf) {
-        RxV = 0;
-    }
-    arch_fpop_end(env);
-    return RxV;
+    return do_sffma_lib(env, RxV, RsV, RtV, 0);
 }
 
 float32 HELPER(sffms_lib)(CPUHexagonState *env, float32 RxV,
                           float32 RsV, float32 RtV)
 {
-    bool infinp;
-    bool infminusinf;
-    float32 tmp;
-
-    arch_fpop_start(env);
-    set_float_rounding_mode(float_round_nearest_even, &env->fp_status);
-    infminusinf = float32_is_infinity(RxV) &&
-                  is_inf_prod(RsV, RtV) &&
-                  (fGETBIT(31, RsV ^ RxV ^ RtV) == 0);
-    infinp = float32_is_infinity(RxV) ||
-             float32_is_infinity(RtV) ||
-             float32_is_infinity(RsV);
-    RxV = check_nan(RxV, RxV, &env->fp_status);
-    RxV = check_nan(RxV, RsV, &env->fp_status);
-    RxV = check_nan(RxV, RtV, &env->fp_status);
-    float32 minus_RsV = float32_sub(float32_zero, RsV, &env->fp_status);
-    tmp = internal_fmafx(minus_RsV, RtV, RxV, 0, &env->fp_status);
-    if (!(float32_is_zero(RxV) && is_zero_prod(RsV, RtV))) {
-        RxV = tmp;
-    }
-    set_float_exception_flags(0, &env->fp_status);
-    if (float32_is_infinity(RxV) && !infinp) {
-        RxV = RxV - 1;
-    }
-    if (infminusinf) {
-        RxV = 0;
-    }
-    arch_fpop_end(env);
-    return RxV;
+    return do_sffma_lib(env, RxV, RsV, RtV, float_muladd_negate_product);
 }
 
 float64 HELPER(dfmpyfix)(CPUHexagonState *env, float64 RssV, float64 RttV)
-- 
2.43.0

The function is now unused.

Reviewed-by: Brian Cain <brian.cain@oss.qualcomm.com>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 target/hexagon/fma_emu.h |   2 -
 target/hexagon/fma_emu.c | 171 ---------------------------------------
 2 files changed, 173 deletions(-)

diff --git a/target/hexagon/fma_emu.h b/target/hexagon/fma_emu.h
index XXXXXXX..XXXXXXX 100644
--- a/target/hexagon/fma_emu.h
+++ b/target/hexagon/fma_emu.h
@@ -XXX,XX +XXX,XX @@ static inline uint32_t float32_getexp_raw(float32 f32)
 }
 int32_t float32_getexp(float32 f32);
 float32 infinite_float32(uint8_t sign);
-float32 internal_fmafx(float32 a, float32 b, float32 c,
-                       int scale, float_status *fp_status);
 float64 internal_mpyhh(float64 a, float64 b,
                        unsigned long long int accumulated,
                        float_status *fp_status);
diff --git a/target/hexagon/fma_emu.c b/target/hexagon/fma_emu.c
index XXXXXXX..XXXXXXX 100644
--- a/target/hexagon/fma_emu.c
+++ b/target/hexagon/fma_emu.c
@@ -XXX,XX +XXX,XX @@ int32_t float64_getexp(float64 f64)
     return -1;
 }
 
-static uint64_t float32_getmant(float32 f32)
-{
-    Float a = { .i = f32 };
-    if (float32_is_normal(f32)) {
-        return a.mant | 1ULL << 23;
-    }
-    if (float32_is_zero(f32)) {
-        return 0;
-    }
-    if (float32_is_denormal(f32)) {
-        return a.mant;
-    }
-    return ~0ULL;
-}
-
 int32_t float32_getexp(float32 f32)
 {
     Float a = { .i = f32 };
@@ -XXX,XX +XXX,XX @@ float32 infinite_float32(uint8_t sign)
 }
 
 /* Return a maximum finite value with the requested sign */
-static float32 maxfinite_float32(uint8_t sign)
-{
-    if (sign) {
-        return make_float32(SF_MINUS_MAXF);
-    } else {
-        return make_float32(SF_MAXF);
-    }
-}
-
-/* Return a zero value with requested sign */
-static float32 zero_float32(uint8_t sign)
-{
-    if (sign) {
-        return make_float32(0x80000000);
-    } else {
-        return float32_zero;
-    }
-}
-
 #define GEN_XF_ROUND(SUFFIX, MANTBITS, INF_EXP, INTERNAL_TYPE) \
 static SUFFIX accum_round_##SUFFIX(Accum a, float_status * fp_status) \
 { \
@@ -XXX,XX +XXX,XX @@ static SUFFIX accum_round_##SUFFIX(Accum a, float_status * fp_status) \
 }
 
 GEN_XF_ROUND(float64, DF_MANTBITS, DF_INF_EXP, Double)
-GEN_XF_ROUND(float32, SF_MANTBITS, SF_INF_EXP, Float)
-
-static bool is_inf_prod(float64 a, float64 b)
-{
-    return ((float64_is_infinity(a) && float64_is_infinity(b)) ||
-            (float64_is_infinity(a) && is_finite(b) && (!float64_is_zero(b))) ||
-            (float64_is_infinity(b) && is_finite(a) && (!float64_is_zero(a))));
-}
-
-static float64 special_fma(float64 a, float64 b, float64 c,
-                           float_status *fp_status)
-{
-    float64 ret = make_float64(0);
-
-    /*
-     * If A multiplied by B is an exact infinity and C is also an infinity
-     * but with the opposite sign, FMA returns NaN and raises invalid.
-     */
-    uint8_t a_sign = float64_is_neg(a);
-    uint8_t b_sign = float64_is_neg(b);
-    uint8_t c_sign = float64_is_neg(c);
-    if (is_inf_prod(a, b) && float64_is_infinity(c)) {
-        if ((a_sign ^ b_sign) != c_sign) {
-            ret = make_float64(DF_NAN);
-            float_raise(float_flag_invalid, fp_status);
-            return ret;
-        }
-    }
-    if ((float64_is_infinity(a) && float64_is_zero(b)) ||
-        (float64_is_zero(a) && float64_is_infinity(b))) {
-        ret = make_float64(DF_NAN);
-        float_raise(float_flag_invalid, fp_status);
-        return ret;
-    }
-    /*
-     * If none of the above checks are true and C is a NaN,
-     * a NaN shall be returned
-     * If A or B are NaN, a NAN shall be returned.
-     */
-    if (float64_is_any_nan(a) ||
-        float64_is_any_nan(b) ||
-        float64_is_any_nan(c)) {
-        if (float64_is_any_nan(a) && (fGETBIT(51, a) == 0)) {
-            float_raise(float_flag_invalid, fp_status);
-        }
-        if (float64_is_any_nan(b) && (fGETBIT(51, b) == 0)) {
-            float_raise(float_flag_invalid, fp_status);
-        }
-        if (float64_is_any_nan(c) && (fGETBIT(51, c) == 0)) {
-            float_raise(float_flag_invalid, fp_status);
-        }
-        ret = make_float64(DF_NAN);
-        return ret;
-    }
-    /*
-     * We have checked for adding opposite-signed infinities.
-     * Other infinities return infinity with the correct sign
-     */
-    if (float64_is_infinity(c)) {
-        ret = infinite_float64(c_sign);
-        return ret;
-    }
-    if (float64_is_infinity(a) || float64_is_infinity(b)) {
-        ret = infinite_float64(a_sign ^ b_sign);
-        return ret;
-    }
-    g_assert_not_reached();
-}
-
-static float32 special_fmaf(float32 a, float32 b, float32 c,
-                            float_status *fp_status)
-{
-    float64 aa, bb, cc;
-    aa = float32_to_float64(a, fp_status);
-    bb = float32_to_float64(b, fp_status);
-    cc = float32_to_float64(c, fp_status);
-    return float64_to_float32(special_fma(aa, bb, cc, fp_status), fp_status);
-}
-
-float32 internal_fmafx(float32 a, float32 b, float32 c, int scale,
-                       float_status *fp_status)
-{
-    Accum prod;
-    Accum acc;
-    Accum result;
-    accum_init(&prod);
-    accum_init(&acc);
-    accum_init(&result);
-
-    uint8_t a_sign = float32_is_neg(a);
-    uint8_t b_sign = float32_is_neg(b);
-    uint8_t c_sign = float32_is_neg(c);
-    if (float32_is_infinity(a) ||
-        float32_is_infinity(b) ||
-        float32_is_infinity(c)) {
-        return special_fmaf(a, b, c, fp_status);
-    }
-    if (float32_is_any_nan(a) ||
-        float32_is_any_nan(b) ||
-        float32_is_any_nan(c)) {
-        return special_fmaf(a, b, c, fp_status);
-    }
-    if ((scale == 0) && (float32_is_zero(a) || float32_is_zero(b))) {
-        float32 tmp = float32_mul(a, b, fp_status);
-        tmp = float32_add(tmp, c, fp_status);
-        return tmp;
-    }
-
-    /* (a * 2**b) * (c * 2**d) == a*c * 2**(b+d) */
-    prod.mant = int128_mul_6464(float32_getmant(a), float32_getmant(b));
-
-    /*
-     * Note: extracting the mantissa into an int is multiplying by
-     * 2**23, so adjust here
-     */
-    prod.exp = float32_getexp(a) + float32_getexp(b) - SF_BIAS - 23;
-    prod.sign = a_sign ^ b_sign;
-    if (float32_is_zero(a) || float32_is_zero(b)) {
-        prod.exp = -2 * WAY_BIG_EXP;
-    }
-    if ((scale > 0) && float32_is_denormal(c)) {
-        acc.mant = int128_mul_6464(0, 0);
-        acc.exp = -WAY_BIG_EXP;
-        acc.sign = c_sign;
-        acc.sticky = 1;
-        result = accum_add(prod, acc);
-    } else if (!float32_is_zero(c)) {
-        acc.mant = int128_mul_6464(float32_getmant(c), 1);
-        acc.exp = float32_getexp(c);
-        acc.sign = c_sign;
-        result = accum_add(prod, acc);
-    } else {
-        result = prod;
-    }
-    result.exp += scale;
-    return accum_round_float32(result, fp_status);
-}
 
 float64 internal_mpyhh(float64 a, float64 b,
                       unsigned long long int accumulated,
-- 
2.43.0

This massive macro is now only used once.
Expand it for use only by float64.

Reviewed-by: Brian Cain <brian.cain@oss.qualcomm.com>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 target/hexagon/fma_emu.c | 255 +++++++++++++++++++--------------------
 1 file changed, 127 insertions(+), 128 deletions(-)

diff --git a/target/hexagon/fma_emu.c b/target/hexagon/fma_emu.c
index XXXXXXX..XXXXXXX 100644
--- a/target/hexagon/fma_emu.c
+++ b/target/hexagon/fma_emu.c
@@ -XXX,XX +XXX,XX @@ float32 infinite_float32(uint8_t sign)
 }
 
 /* Return a maximum finite value with the requested sign */
-#define GEN_XF_ROUND(SUFFIX, MANTBITS, INF_EXP, INTERNAL_TYPE) \
-static SUFFIX accum_round_##SUFFIX(Accum a, float_status * fp_status) \
-{ \
-    if ((int128_gethi(a.mant) == 0) && (int128_getlo(a.mant) == 0) \
-        && ((a.guard | a.round | a.sticky) == 0)) { \
-        /* result zero */ \
-        switch (fp_status->float_rounding_mode) { \
-        case float_round_down: \
-            return zero_##SUFFIX(1); \
-        default: \
-            return zero_##SUFFIX(0); \
-        } \
-    } \
-    /* Normalize right */ \
-    /* We want MANTBITS bits of mantissa plus the leading one. */ \
-    /* That means that we want MANTBITS+1 bits, or 0x000000000000FF_FFFF */ \
-    /* So we need to normalize right while the high word is non-zero and \
-    * while the low word is nonzero when masked with 0xffe0_0000_0000_0000 */ \
-    while ((int128_gethi(a.mant) != 0) || \
-           ((int128_getlo(a.mant) >> (MANTBITS + 1)) != 0)) { \
-        a = accum_norm_right(a, 1); \
-    } \
-    /* \
-     * OK, now normalize left \
-     * We want to normalize left until we have a leading one in bit 24 \
-     * Theoretically, we only need to shift a maximum of one to the left if we \
-     * shifted out lots of bits from B, or if we had no shift / 1 shift sticky \
-     * should be 0  \
-     */ \
-    while ((int128_getlo(a.mant) & (1ULL << MANTBITS)) == 0) { \
-        a = accum_norm_left(a); \
-    } \
-    /* \
-     * OK, now we might need to denormalize because of potential underflow. \
-     * We need to do this before rounding, and rounding might make us normal \
-     * again \
-     */ \
-    while (a.exp <= 0) { \
-        a = accum_norm_right(a, 1 - a.exp); \
-        /* \
-         * Do we have underflow? \
-         * That's when we get an inexact answer because we ran out of bits \
-         * in a denormal. \
-         */ \
-        if (a.guard || a.round || a.sticky) { \
-            float_raise(float_flag_underflow, fp_status); \
-        } \
-    } \
-    /* OK, we're relatively canonical... now we need to round */ \
-    if (a.guard || a.round || a.sticky) { \
-        float_raise(float_flag_inexact, fp_status); \
-        switch (fp_status->float_rounding_mode) { \
-        case float_round_to_zero: \
-            /* Chop and we're done */ \
-            break; \
-        case float_round_up: \
-            if (a.sign == 0) { \
-                a.mant = int128_add(a.mant, int128_one()); \
-            } \
-            break; \
-        case float_round_down: \
-            if (a.sign != 0) { \
-                a.mant = int128_add(a.mant, int128_one()); \
-            } \
-            break; \
-        default: \
-            if (a.round || a.sticky) { \
-                /* round up if guard is 1, down if guard is zero */ \
-                a.mant = int128_add(a.mant, int128_make64(a.guard)); \
-            } else if (a.guard) { \
-                /* exactly .5, round up if odd */ \
-                a.mant = int128_add(a.mant, int128_and(a.mant, int128_one())); \
-            } \
-            break; \
-        } \
-    } \
-    /* \
-     * OK, now we might have carried all the way up. \
-     * So we might need to shr once \
-     * at least we know that the lsb should be zero if we rounded and \
-     * got a carry out... \
-     */ \
-    if ((int128_getlo(a.mant) >> (MANTBITS + 1)) != 0) { \
-        a = accum_norm_right(a, 1); \
-    } \
-    /* Overflow? */ \
-    if (a.exp >= INF_EXP) { \
-        /* Yep, inf result */ \
-        float_raise(float_flag_overflow, fp_status); \
-        float_raise(float_flag_inexact, fp_status); \
-        switch (fp_status->float_rounding_mode) { \
-        case float_round_to_zero: \
-            return maxfinite_##SUFFIX(a.sign); \
-        case float_round_up: \
-            if (a.sign == 0) { \
-                return infinite_##SUFFIX(a.sign); \
-            } else { \
-                return maxfinite_##SUFFIX(a.sign); \
-            } \
-        case float_round_down: \
-            if (a.sign != 0) { \
-                return infinite_##SUFFIX(a.sign); \
-            } else { \
-                return maxfinite_##SUFFIX(a.sign); \
-            } \
-        default: \
-            return infinite_##SUFFIX(a.sign); \
-        } \
-    } \
-    /* Underflow? */ \
-    if (int128_getlo(a.mant) & (1ULL << MANTBITS)) { \
-        /* Leading one means: No, we're normal. So, we should be done... */ \
-        INTERNAL_TYPE ret; \
-        ret.i = 0; \
-        ret.sign = a.sign; \
-        ret.exp = a.exp; \
-        ret.mant = int128_getlo(a.mant); \
-        return ret.i; \
-    } \
-    assert(a.exp == 1); \
-    INTERNAL_TYPE ret; \
-    ret.i = 0; \
-    ret.sign = a.sign; \
-    ret.exp = 0; \
-    ret.mant = int128_getlo(a.mant); \
-    return ret.i; \
+static float64 accum_round_float64(Accum a, float_status *fp_status)
+{
+    if ((int128_gethi(a.mant) == 0) && (int128_getlo(a.mant) == 0)
+        && ((a.guard | a.round | a.sticky) == 0)) {
+        /* result zero */
+        switch (fp_status->float_rounding_mode) {
+        case float_round_down:
+            return zero_float64(1);
+        default:
+            return zero_float64(0);
+        }
+    }
+    /*
+     * Normalize right
+     * We want DF_MANTBITS bits of mantissa plus the leading one.
+     * That means that we want DF_MANTBITS+1 bits, or 0x000000000000FF_FFFF
+     * So we need to normalize right while the high word is non-zero and
+     * while the low word is nonzero when masked with 0xffe0_0000_0000_0000
+     */
+    while ((int128_gethi(a.mant) != 0) ||
+           ((int128_getlo(a.mant) >> (DF_MANTBITS + 1)) != 0)) {
+        a = accum_norm_right(a, 1);
+    }
+    /*
+     * OK, now normalize left
+     * We want to normalize left until we have a leading one in bit 24
+     * Theoretically, we only need to shift a maximum of one to the left if we
+     * shifted out lots of bits from B, or if we had no shift / 1 shift sticky
+     * should be 0
+     */
+    while ((int128_getlo(a.mant) & (1ULL << DF_MANTBITS)) == 0) {
+        a = accum_norm_left(a);
+    }
+    /*
+     * OK, now we might need to denormalize because of potential underflow.
+     * We need to do this before rounding, and rounding might make us normal
+     * again
+     */
+    while (a.exp <= 0) {
+        a = accum_norm_right(a, 1 - a.exp);
+        /*
+         * Do we have underflow?
+         * That's when we get an inexact answer because we ran out of bits
+         * in a denormal.
+         */
+        if (a.guard || a.round || a.sticky) {
+            float_raise(float_flag_underflow, fp_status);
+        }
+    }
+    /* OK, we're relatively canonical... now we need to round */
+    if (a.guard || a.round || a.sticky) {
+        float_raise(float_flag_inexact, fp_status);
+        switch (fp_status->float_rounding_mode) {
+        case float_round_to_zero:
+            /* Chop and we're done */
+            break;
+        case float_round_up:
+            if (a.sign == 0) {
+                a.mant = int128_add(a.mant, int128_one());
+            }
+            break;
+        case float_round_down:
+            if (a.sign != 0) {
+                a.mant = int128_add(a.mant, int128_one());
+            }
+            break;
+        default:
+            if (a.round || a.sticky) {
+                /* round up if guard is 1, down if guard is zero */
+                a.mant = int128_add(a.mant, int128_make64(a.guard));
+            } else if (a.guard) {
+                /* exactly .5, round up if odd */
+                a.mant = int128_add(a.mant, int128_and(a.mant, int128_one()));
+            }
+            break;
+        }
+    }
+    /*
+     * OK, now we might have carried all the way up.
+     * So we might need to shr once
+     * at least we know that the lsb should be zero if we rounded and
+     * got a carry out...
+     */
+    if ((int128_getlo(a.mant) >> (DF_MANTBITS + 1)) != 0) {
+        a = accum_norm_right(a, 1);
+    }
+    /* Overflow? */
+    if (a.exp >= DF_INF_EXP) {
+        /* Yep, inf result */
+        float_raise(float_flag_overflow, fp_status);
+        float_raise(float_flag_inexact, fp_status);
+        switch (fp_status->float_rounding_mode) {
+        case float_round_to_zero:
+            return maxfinite_float64(a.sign);
+        case float_round_up:
+            if (a.sign == 0) {
+                return infinite_float64(a.sign);
+            } else {
+                return maxfinite_float64(a.sign);
+            }
+        case float_round_down:
+            if (a.sign != 0) {
+                return infinite_float64(a.sign);
+            } else {
+                return maxfinite_float64(a.sign);
+            }
+        default:
+            return infinite_float64(a.sign);
+        }
+    }
+    /* Underflow? */
+    if (int128_getlo(a.mant) & (1ULL << DF_MANTBITS)) {
+        /* Leading one means: No, we're normal. So, we should be done... */
+        Double ret;
+        ret.i = 0;
+        ret.sign = a.sign;
+        ret.exp = a.exp;
+        ret.mant = int128_getlo(a.mant);
+        return ret.i;
+    }
+    assert(a.exp == 1);
+    Double ret;
+    ret.i = 0;
+    ret.sign = a.sign;
+    ret.exp = 0;
+    ret.mant = int128_getlo(a.mant);
+    return ret.i;
 }
 
-GEN_XF_ROUND(float64, DF_MANTBITS, DF_INF_EXP, Double)
-
 float64 internal_mpyhh(float64 a, float64 b,
                       unsigned long long int accumulated,
                       float_status *fp_status)
-- 
2.43.0

This structure, with bitfields, is incorrect for big-endian.
Use the existing float32_getexp_raw which uses extract32.

Reviewed-by: Brian Cain <brian.cain@oss.qualcomm.com>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 target/hexagon/fma_emu.c | 16 +++-------------
 1 file changed, 3 insertions(+), 13 deletions(-)

diff --git a/target/hexagon/fma_emu.c b/target/hexagon/fma_emu.c
index XXXXXXX..XXXXXXX 100644
--- a/target/hexagon/fma_emu.c
+++ b/target/hexagon/fma_emu.c
@@ -XXX,XX +XXX,XX @@ typedef union {
     };
 } Double;
 
-typedef union {
-    float f;
-    uint32_t i;
-    struct {
-        uint32_t mant:23;
-        uint32_t exp:8;
-        uint32_t sign:1;
-    };
-} Float;
-
 static uint64_t float64_getmant(float64 f64)
 {
     Double a = { .i = f64 };
@@ -XXX,XX +XXX,XX @@ int32_t float64_getexp(float64 f64)
 
 int32_t float32_getexp(float32 f32)
 {
-    Float a = { .i = f32 };
+    int exp = float32_getexp_raw(f32);
     if (float32_is_normal(f32)) {
-        return a.exp;
+        return exp;
     }
     if (float32_is_denormal(f32)) {
-        return a.exp + 1;
+        return exp + 1;
     }
     return -1;
 }
-- 
2.43.0

This structure, with bitfields, is incorrect for big-endian.
Use extract64 and deposit64 instead.

Reviewed-by: Brian Cain <brian.cain@oss.qualcomm.com>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 target/hexagon/fma_emu.c | 46 ++++++++++++++--------------------------
 1 file changed, 16 insertions(+), 30 deletions(-)

diff --git a/target/hexagon/fma_emu.c b/target/hexagon/fma_emu.c
index XXXXXXX..XXXXXXX 100644
--- a/target/hexagon/fma_emu.c
+++ b/target/hexagon/fma_emu.c
@@ -XXX,XX +XXX,XX @@
 
 #define WAY_BIG_EXP 4096
 
-typedef union {
-    double f;
-    uint64_t i;
-    struct {
-        uint64_t mant:52;
-        uint64_t exp:11;
-        uint64_t sign:1;
-    };
-} Double;
-
 static uint64_t float64_getmant(float64 f64)
 {
-    Double a = { .i = f64 };
+    uint64_t mant = extract64(f64, 0, 52);
     if (float64_is_normal(f64)) {
-        return a.mant | 1ULL << 52;
+        return mant | 1ULL << 52;
     }
     if (float64_is_zero(f64)) {
         return 0;
     }
     if (float64_is_denormal(f64)) {
-        return a.mant;
+        return mant;
     }
     return ~0ULL;
 }
 
 int32_t float64_getexp(float64 f64)
 {
-    Double a = { .i = f64 };
+    int exp = extract64(f64, 52, 11);
     if (float64_is_normal(f64)) {
-        return a.exp;
+        return exp;
     }
     if (float64_is_denormal(f64)) {
-        return a.exp + 1;
+        return exp + 1;
     }
     return -1;
 }
@@ -XXX,XX +XXX,XX @@ float32 infinite_float32(uint8_t sign)
 /* Return a maximum finite value with the requested sign */
 static float64 accum_round_float64(Accum a, float_status *fp_status)
 {
+    uint64_t ret;
+
     if ((int128_gethi(a.mant) == 0) && (int128_getlo(a.mant) == 0)
         && ((a.guard | a.round | a.sticky) == 0)) {
         /* result zero */
@@ -XXX,XX +XXX,XX @@ static float64 accum_round_float64(Accum a, float_status *fp_status)
         }
     }
     /* Underflow? */
-    if (int128_getlo(a.mant) & (1ULL << DF_MANTBITS)) {
+    ret = int128_getlo(a.mant);
+    if (ret & (1ULL << DF_MANTBITS)) {
         /* Leading one means: No, we're normal. So, we should be done... */
-        Double ret;
-        ret.i = 0;
-        ret.sign = a.sign;
-        ret.exp = a.exp;
-        ret.mant = int128_getlo(a.mant);
-        return ret.i;
+        ret = deposit64(ret, 52, 11, a.exp);
+    } else {
+        assert(a.exp == 1);
+        ret = deposit64(ret, 52, 11, 0);
     }
-    assert(a.exp == 1);
-    Double ret;
-    ret.i = 0;
-    ret.sign = a.sign;
-    ret.exp = 0;
-    ret.mant = int128_getlo(a.mant);
-    return ret.i;
+    ret = deposit64(ret, 63, 1, a.sign);
+    return ret;
 }
 
 float64 internal_mpyhh(float64 a, float64 b,
-- 
2.43.0

No need to open-code 64x64->128-bit multiplication.

Reviewed-by: Brian Cain <brian.cain@oss.qualcomm.com>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 target/hexagon/fma_emu.c | 32 +++-----------------------------
 1 file changed, 3 insertions(+), 29 deletions(-)

diff --git a/target/hexagon/fma_emu.c b/target/hexagon/fma_emu.c
index XXXXXXX..XXXXXXX 100644
--- a/target/hexagon/fma_emu.c
+++ b/target/hexagon/fma_emu.c
@@ -XXX,XX +XXX,XX @@ int32_t float32_getexp(float32 f32)
     return -1;
 }
 
-static uint32_t int128_getw0(Int128 x)
-{
-    return int128_getlo(x);
-}
-
-static uint32_t int128_getw1(Int128 x)
-{
-    return int128_getlo(x) >> 32;
-}
-
 static Int128 int128_mul_6464(uint64_t ai, uint64_t bi)
 {
-    Int128 a, b;
-    uint64_t pp0, pp1a, pp1b, pp1s, pp2;
+    uint64_t l, h;
 
-    a = int128_make64(ai);
-    b = int128_make64(bi);
-    pp0 = (uint64_t)int128_getw0(a) * (uint64_t)int128_getw0(b);
-    pp1a = (uint64_t)int128_getw1(a) * (uint64_t)int128_getw0(b);
-    pp1b = (uint64_t)int128_getw1(b) * (uint64_t)int128_getw0(a);
-    pp2 = (uint64_t)int128_getw1(a) * (uint64_t)int128_getw1(b);
-
-    pp1s = pp1a + pp1b;
-    if ((pp1s < pp1a) || (pp1s < pp1b)) {
-        pp2 += (1ULL << 32);
-    }
-    uint64_t ret_low = pp0 + (pp1s << 32);
-    if ((ret_low < pp0) || (ret_low < (pp1s << 32))) {
-        pp2 += 1;
-    }
-
-    return int128_make128(ret_low, pp2 + (pp1s >> 32));
+    mulu64(&l, &h, ai, bi);
+    return int128_make128(l, h);
 }
 
 static Int128 int128_sub_borrow(Int128 a, Int128 b, int borrow)
-- 
2.43.0

Convert all targets simultaneously, as the gen_intermediate_code
function disappears from the target.  While there are possible
workarounds, they're larger than simply performing the conversion.

diff --git a/include/exec/translator.h b/include/exec/translator.h
index XXXXXXX..XXXXXXX 100644
--- a/include/exec/translator.h
+++ b/include/exec/translator.h
@@ -XXX,XX +XXX,XX @@
 #include "qemu/bswap.h"
 #include "exec/vaddr.h"
 
-/**
- * gen_intermediate_code
- * @cpu: cpu context
- * @tb: translation block
- * @max_insns: max number of instructions to translate
- * @pc: guest virtual program counter address
- * @host_pc: host physical program counter address
- *
- * This function must be provided by the target, which should create
- * the target-specific DisasContext, and then invoke translator_loop.
- */
-void gen_intermediate_code(CPUState *cpu, TranslationBlock *tb, int *max_insns,
-                           vaddr pc, void *host_pc);
-
 /**
  * DisasJumpType:
  * @DISAS_NEXT: Next instruction in program order.
diff --git a/include/hw/core/tcg-cpu-ops.h b/include/hw/core/tcg-cpu-ops.h
index XXXXXXX..XXXXXXX 100644
--- a/include/hw/core/tcg-cpu-ops.h
+++ b/include/hw/core/tcg-cpu-ops.h
@@ -XXX,XX +XXX,XX @@ struct TCGCPUOps {
      * Called when the first CPU is realized.
      */
     void (*initialize)(void);
+    /**
+     * @translate_code: Translate guest instructions to TCGOps
+     * @cpu: cpu context
+     * @tb: translation block
+     * @max_insns: max number of instructions to translate
+     * @pc: guest virtual program counter address
+     * @host_pc: host physical program counter address
+     *
+     * This function must be provided by the target, which should create
+     * the target-specific DisasContext, and then invoke translator_loop.
+     */
+    void (*translate_code)(CPUState *cpu, TranslationBlock *tb,
+                           int *max_insns, vaddr pc, void *host_pc);
     /**
      * @synchronize_from_tb: Synchronize state from a TCG #TranslationBlock
      *
diff --git a/target/alpha/cpu.h b/target/alpha/cpu.h
index XXXXXXX..XXXXXXX 100644
--- a/target/alpha/cpu.h
+++ b/target/alpha/cpu.h
@@ -XXX,XX +XXX,XX @@ enum {
 };
 
 void alpha_translate_init(void);
+void alpha_translate_code(CPUState *cs, TranslationBlock *tb,
+                          int *max_insns, vaddr pc, void *host_pc);
 
 #define CPU_RESOLVING_TYPE TYPE_ALPHA_CPU
 
diff --git a/target/arm/internals.h b/target/arm/internals.h
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/internals.h
+++ b/target/arm/internals.h
@@ -XXX,XX +XXX,XX @@ void init_cpreg_list(ARMCPU *cpu);
 
 void arm_cpu_register_gdb_regs_for_features(ARMCPU *cpu);
 void arm_translate_init(void);
+void arm_translate_code(CPUState *cs, TranslationBlock *tb,
+                        int *max_insns, vaddr pc, void *host_pc);
 
 void arm_cpu_register_gdb_commands(ARMCPU *cpu);
 void aarch64_cpu_register_gdb_commands(ARMCPU *cpu, GString *,
diff --git a/target/avr/cpu.h b/target/avr/cpu.h
index XXXXXXX..XXXXXXX 100644
--- a/target/avr/cpu.h
+++ b/target/avr/cpu.h
@@ -XXX,XX +XXX,XX @@ static inline void set_avr_feature(CPUAVRState *env, int feature)
 }
 
 void avr_cpu_tcg_init(void);
+void avr_cpu_translate_code(CPUState *cs, TranslationBlock *tb,
+                            int *max_insns, vaddr pc, void *host_pc);
 
 int cpu_avr_exec(CPUState *cpu);
 
diff --git a/target/hexagon/cpu.h b/target/hexagon/cpu.h
index XXXXXXX..XXXXXXX 100644
--- a/target/hexagon/cpu.h
+++ b/target/hexagon/cpu.h
@@ -XXX,XX +XXX,XX @@ static inline void cpu_get_tb_cpu_state(CPUHexagonState *env, vaddr *pc,
 typedef HexagonCPU ArchCPU;
 
 void hexagon_translate_init(void);
+void hexagon_translate_code(CPUState *cs, TranslationBlock *tb,
+                            int *max_insns, vaddr pc, void *host_pc);
 
 #include "exec/cpu-all.h"
 
diff --git a/target/hppa/cpu.h b/target/hppa/cpu.h
index XXXXXXX..XXXXXXX 100644
--- a/target/hppa/cpu.h
+++ b/target/hppa/cpu.h
@@ -XXX,XX +XXX,XX @@ static inline int HPPA_BTLB_ENTRIES(CPUHPPAState *env)
 }
 
 void hppa_translate_init(void);
+void hppa_translate_code(CPUState *cs, TranslationBlock *tb,
+                         int *max_insns, vaddr pc, void *host_pc);
 
 #define CPU_RESOLVING_TYPE TYPE_HPPA_CPU
 
diff --git a/target/i386/tcg/helper-tcg.h b/target/i386/tcg/helper-tcg.h
index XXXXXXX..XXXXXXX 100644
--- a/target/i386/tcg/helper-tcg.h
+++ b/target/i386/tcg/helper-tcg.h
@@ -XXX,XX +XXX,XX @@ static inline target_long lshift(target_long x, int n)
 
 /* translate.c */
 void tcg_x86_init(void);
+void x86_translate_code(CPUState *cs, TranslationBlock *tb,
+                        int *max_insns, vaddr pc, void *host_pc);
 
 /* excp_helper.c */
 G_NORETURN void raise_exception(CPUX86State *env, int exception_index);
diff --git a/target/loongarch/internals.h b/target/loongarch/internals.h
index XXXXXXX..XXXXXXX 100644
--- a/target/loongarch/internals.h
+++ b/target/loongarch/internals.h
@@ -XXX,XX +XXX,XX @@
 #define TARGET_VIRT_MASK MAKE_64BIT_MASK(0, TARGET_VIRT_ADDR_SPACE_BITS)
 
 void loongarch_translate_init(void);
+void loongarch_translate_code(CPUState *cs, TranslationBlock *tb,
+                              int *max_insns, vaddr pc, void *host_pc);
 
 void G_NORETURN do_raise_exception(CPULoongArchState *env,
                                    uint32_t exception,
diff --git a/target/m68k/cpu.h b/target/m68k/cpu.h
index XXXXXXX..XXXXXXX 100644
--- a/target/m68k/cpu.h
+++ b/target/m68k/cpu.h
@@ -XXX,XX +XXX,XX @@ int m68k_cpu_gdb_read_register(CPUState *cpu, GByteArray *buf, int reg);
 int m68k_cpu_gdb_write_register(CPUState *cpu, uint8_t *buf, int reg);
 
 void m68k_tcg_init(void);
+void m68k_translate_code(CPUState *cs, TranslationBlock *tb,
+                         int *max_insns, vaddr pc, void *host_pc);
 void m68k_cpu_init_gdb(M68kCPU *cpu);
 uint32_t cpu_m68k_get_ccr(CPUM68KState *env);
 void cpu_m68k_set_ccr(CPUM68KState *env, uint32_t);
diff --git a/target/microblaze/cpu.h b/target/microblaze/cpu.h
index XXXXXXX..XXXXXXX 100644
--- a/target/microblaze/cpu.h
+++ b/target/microblaze/cpu.h
@@ -XXX,XX +XXX,XX @@ static inline void mb_cpu_write_msr(CPUMBState *env, uint32_t val)
 }
 
 void mb_tcg_init(void);
+void mb_translate_code(CPUState *cs, TranslationBlock *tb,
+                       int *max_insns, vaddr pc, void *host_pc);
 
 #define CPU_RESOLVING_TYPE TYPE_MICROBLAZE_CPU
 
diff --git a/target/mips/tcg/tcg-internal.h b/target/mips/tcg/tcg-internal.h
index XXXXXXX..XXXXXXX 100644
--- a/target/mips/tcg/tcg-internal.h
+++ b/target/mips/tcg/tcg-internal.h
@@ -XXX,XX +XXX,XX @@
 #include "cpu.h"
 
 void mips_tcg_init(void);
+void mips_translate_code(CPUState *cs, TranslationBlock *tb,
+                         int *max_insns, vaddr pc, void *host_pc);
 
 void mips_cpu_synchronize_from_tb(CPUState *cs, const TranslationBlock *tb);
 G_NORETURN void mips_cpu_do_unaligned_access(CPUState *cpu, vaddr addr,
diff --git a/target/openrisc/cpu.h b/target/openrisc/cpu.h
index XXXXXXX..XXXXXXX 100644
--- a/target/openrisc/cpu.h
+++ b/target/openrisc/cpu.h
@@ -XXX,XX +XXX,XX @@ void openrisc_cpu_dump_state(CPUState *cpu, FILE *f, int flags);
 int openrisc_cpu_gdb_read_register(CPUState *cpu, GByteArray *buf, int reg);
 int openrisc_cpu_gdb_write_register(CPUState *cpu, uint8_t *buf, int reg);
 void openrisc_translate_init(void);
+void openrisc_translate_code(CPUState *cs, TranslationBlock *tb,
+                             int *max_insns, vaddr pc, void *host_pc);
 int print_insn_or1k(bfd_vma addr, disassemble_info *info);
 
 #ifndef CONFIG_USER_ONLY
diff --git a/target/ppc/cpu.h b/target/ppc/cpu.h
index XXXXXXX..XXXXXXX 100644
--- a/target/ppc/cpu.h
+++ b/target/ppc/cpu.h
@@ -XXX,XX +XXX,XX @@ extern const VMStateDescription vmstate_ppc_cpu;
 
 /*****************************************************************************/
 void ppc_translate_init(void);
+void ppc_translate_code(CPUState *cs, TranslationBlock *tb,
+                        int *max_insns, vaddr pc, void *host_pc);
 
 #if !defined(CONFIG_USER_ONLY)
 void ppc_store_sdr1(CPUPPCState *env, target_ulong value);
diff --git a/target/riscv/cpu.h b/target/riscv/cpu.h
index XXXXXXX..XXXXXXX 100644
--- a/target/riscv/cpu.h
+++ b/target/riscv/cpu.h
@@ -XXX,XX +XXX,XX @@ RISCVException smstateen_acc_ok(CPURISCVState *env, int index, uint64_t bit);
 void riscv_cpu_set_mode(CPURISCVState *env, target_ulong newpriv, bool virt_en);
 
 void riscv_translate_init(void);
+void riscv_translate_code(CPUState *cs, TranslationBlock *tb,
+                          int *max_insns, vaddr pc, void *host_pc);
+
 G_NORETURN void riscv_raise_exception(CPURISCVState *env,
                                       uint32_t exception, uintptr_t pc);
 
diff --git a/target/rx/cpu.h b/target/rx/cpu.h
index XXXXXXX..XXXXXXX 100644
--- a/target/rx/cpu.h
+++ b/target/rx/cpu.h
@@ -XXX,XX +XXX,XX @@ int rx_cpu_gdb_read_register(CPUState *cpu, GByteArray *buf, int reg);
 int rx_cpu_gdb_write_register(CPUState *cpu, uint8_t *buf, int reg);
 
 void rx_translate_init(void);
+void rx_translate_code(CPUState *cs, TranslationBlock *tb,
+                       int *max_insns, vaddr pc, void *host_pc);
 void rx_cpu_unpack_psw(CPURXState *env, uint32_t psw, int rte);
 
 #include "exec/cpu-all.h"
diff --git a/target/s390x/s390x-internal.h b/target/s390x/s390x-internal.h
index XXXXXXX..XXXXXXX 100644
--- a/target/s390x/s390x-internal.h
+++ b/target/s390x/s390x-internal.h
@@ -XXX,XX +XXX,XX @@ void handle_diag_308(CPUS390XState *env, uint64_t r1, uint64_t r3,
 
 /* translate.c */
 void s390x_translate_init(void);
+void s390x_translate_code(CPUState *cs, TranslationBlock *tb,
+                          int *max_insns, vaddr pc, void *host_pc);
 void s390x_restore_state_to_opc(CPUState *cs,
                                 const TranslationBlock *tb,
                                 const uint64_t *data);
diff --git a/target/sh4/cpu.h b/target/sh4/cpu.h
index XXXXXXX..XXXXXXX 100644
--- a/target/sh4/cpu.h
+++ b/target/sh4/cpu.h
@@ -XXX,XX +XXX,XX @@ G_NORETURN void superh_cpu_do_unaligned_access(CPUState *cpu, vaddr addr,
                                                uintptr_t retaddr);
 
 void sh4_translate_init(void);
+void sh4_translate_code(CPUState *cs, TranslationBlock *tb,
+                        int *max_insns, vaddr pc, void *host_pc);
 
 #if !defined(CONFIG_USER_ONLY)
 hwaddr superh_cpu_get_phys_page_debug(CPUState *cpu, vaddr addr);
diff --git a/target/sparc/cpu.h b/target/sparc/cpu.h
index XXXXXXX..XXXXXXX 100644
--- a/target/sparc/cpu.h
+++ b/target/sparc/cpu.h
@@ -XXX,XX +XXX,XX @@ int sparc_cpu_memory_rw_debug(CPUState *cpu, vaddr addr,
 
 /* translate.c */
 void sparc_tcg_init(void);
+void sparc_translate_code(CPUState *cs, TranslationBlock *tb,
+                          int *max_insns, vaddr pc, void *host_pc);
 
 /* fop_helper.c */
 target_ulong cpu_get_fsr(CPUSPARCState *);
diff --git a/target/tricore/cpu.h b/target/tricore/cpu.h
index XXXXXXX..XXXXXXX 100644
--- a/target/tricore/cpu.h
+++ b/target/tricore/cpu.h
@@ -XXX,XX +XXX,XX @@ FIELD(TB_FLAGS, PRIV, 0, 2)
 
 void cpu_state_reset(CPUTriCoreState *s);
 void tricore_tcg_init(void);
+void tricore_translate_code(CPUState *cs, TranslationBlock *tb,
+                            int *max_insns, vaddr pc, void *host_pc);
 
 static inline void cpu_get_tb_cpu_state(CPUTriCoreState *env, vaddr *pc,
                                         uint64_t *cs_base, uint32_t *flags)
diff --git a/target/xtensa/cpu.h b/target/xtensa/cpu.h
index XXXXXXX..XXXXXXX 100644
--- a/target/xtensa/cpu.h
+++ b/target/xtensa/cpu.h
@@ -XXX,XX +XXX,XX @@ G_NORETURN void xtensa_cpu_do_unaligned_access(CPUState *cpu, vaddr addr,
 
 void xtensa_collect_sr_names(const XtensaConfig *config);
 void xtensa_translate_init(void);
+void xtensa_translate_code(CPUState *cs, TranslationBlock *tb,
+                           int *max_insns, vaddr pc, void *host_pc);
 void **xtensa_get_regfile_by_name(const char *name, int entries, int bits);
 void xtensa_breakpoint_handler(CPUState *cs);
 void xtensa_register_core(XtensaConfigList *node);
diff --git a/accel/tcg/cpu-exec.c b/accel/tcg/cpu-exec.c
index XXXXXXX..XXXXXXX 100644
--- a/accel/tcg/cpu-exec.c
+++ b/accel/tcg/cpu-exec.c
@@ -XXX,XX +XXX,XX @@ bool tcg_exec_realizefn(CPUState *cpu, Error **errp)
 
     if (!tcg_target_initialized) {
         /* Check mandatory TCGCPUOps handlers */
+        const TCGCPUOps *tcg_ops = cpu->cc->tcg_ops;
 #ifndef CONFIG_USER_ONLY
-        assert(cpu->cc->tcg_ops->cpu_exec_halt);
-        assert(cpu->cc->tcg_ops->cpu_exec_interrupt);
+        assert(tcg_ops->cpu_exec_halt);
+        assert(tcg_ops->cpu_exec_interrupt);
 #endif /* !CONFIG_USER_ONLY */
-        cpu->cc->tcg_ops->initialize();
+        assert(tcg_ops->translate_code);
+        tcg_ops->initialize();
         tcg_target_initialized = true;
     }
 
diff --git a/accel/tcg/translate-all.c b/accel/tcg/translate-all.c
index XXXXXXX..XXXXXXX 100644
--- a/accel/tcg/translate-all.c
+++ b/accel/tcg/translate-all.c
@@ -XXX,XX +XXX,XX @@ static int setjmp_gen_code(CPUArchState *env, TranslationBlock *tb,
 
     tcg_func_start(tcg_ctx);
 
-    tcg_ctx->cpu = env_cpu(env);
-    gen_intermediate_code(env_cpu(env), tb, max_insns, pc, host_pc);
+    CPUState *cs = env_cpu(env);
+    tcg_ctx->cpu = cs;
+    cs->cc->tcg_ops->translate_code(cs, tb, max_insns, pc, host_pc);
+
     assert(tb->size != 0);
     tcg_ctx->cpu = NULL;
     *max_insns = tb->icount;
@@ -XXX,XX +XXX,XX @@ TranslationBlock *tb_gen_code(CPUState *cpu,
             /*
              * Overflow of code_gen_buffer, or the current slice of it.
              *
-             * TODO: We don't need to re-do gen_intermediate_code, nor
+             * TODO: We don't need to re-do tcg_ops->translate_code, nor
              * should we re-do the tcg optimization currently hidden
              * inside tcg_gen_code.  All that should be required is to
              * flush the TBs, allocate a new TB, re-initialize it per
diff --git a/target/alpha/cpu.c b/target/alpha/cpu.c
index XXXXXXX..XXXXXXX 100644
--- a/target/alpha/cpu.c
+++ b/target/alpha/cpu.c
@@ -XXX,XX +XXX,XX @@ static const struct SysemuCPUOps alpha_sysemu_ops = {
 
 static const TCGCPUOps alpha_tcg_ops = {
     .initialize = alpha_translate_init,
+    .translate_code = alpha_translate_code,
     .synchronize_from_tb = alpha_cpu_synchronize_from_tb,
     .restore_state_to_opc = alpha_restore_state_to_opc,
 
diff --git a/target/alpha/translate.c b/target/alpha/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/alpha/translate.c
+++ b/target/alpha/translate.c
@@ -XXX,XX +XXX,XX @@ static const TranslatorOps alpha_tr_ops = {
     .tb_stop            = alpha_tr_tb_stop,
 };
 
-void gen_intermediate_code(CPUState *cpu, TranslationBlock *tb, int *max_insns,
-                           vaddr pc, void *host_pc)
+void alpha_translate_code(CPUState *cpu, TranslationBlock *tb,
+                          int *max_insns, vaddr pc, void *host_pc)
 {
     DisasContext dc;
     translator_loop(cpu, tb, max_insns, pc, host_pc, &alpha_tr_ops, &dc.base);
diff --git a/target/arm/cpu.c b/target/arm/cpu.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/cpu.c
+++ b/target/arm/cpu.c
@@ -XXX,XX +XXX,XX @@ static const struct SysemuCPUOps arm_sysemu_ops = {
 #ifdef CONFIG_TCG
 static const TCGCPUOps arm_tcg_ops = {
     .initialize = arm_translate_init,
+    .translate_code = arm_translate_code,
     .synchronize_from_tb = arm_cpu_synchronize_from_tb,
     .debug_excp_handler = arm_debug_excp_handler,
     .restore_state_to_opc = arm_restore_state_to_opc,
diff --git a/target/arm/tcg/cpu-v7m.c b/target/arm/tcg/cpu-v7m.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/cpu-v7m.c
+++ b/target/arm/tcg/cpu-v7m.c
@@ -XXX,XX +XXX,XX @@ static void cortex_m55_initfn(Object *obj)
 
 static const TCGCPUOps arm_v7m_tcg_ops = {
     .initialize = arm_translate_init,
+    .translate_code = arm_translate_code,
     .synchronize_from_tb = arm_cpu_synchronize_from_tb,
     .debug_excp_handler = arm_debug_excp_handler,
     .restore_state_to_opc = arm_restore_state_to_opc,
diff --git a/target/arm/tcg/translate.c b/target/arm/tcg/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/translate.c
+++ b/target/arm/tcg/translate.c
@@ -XXX,XX +XXX,XX @@ static const TranslatorOps thumb_translator_ops = {
     .tb_stop            = arm_tr_tb_stop,
 };
 
-/* generate intermediate code for basic block 'tb'.  */
-void gen_intermediate_code(CPUState *cpu, TranslationBlock *tb, int *max_insns,
-                           vaddr pc, void *host_pc)
+void arm_translate_code(CPUState *cpu, TranslationBlock *tb,
+                        int *max_insns, vaddr pc, void *host_pc)
 {
     DisasContext dc = { };
     const TranslatorOps *ops = &arm_translator_ops;
diff --git a/target/avr/cpu.c b/target/avr/cpu.c
index XXXXXXX..XXXXXXX 100644
--- a/target/avr/cpu.c
+++ b/target/avr/cpu.c
@@ -XXX,XX +XXX,XX @@ static const struct SysemuCPUOps avr_sysemu_ops = {
 
 static const TCGCPUOps avr_tcg_ops = {
     .initialize = avr_cpu_tcg_init,
+    .translate_code = avr_cpu_translate_code,
     .synchronize_from_tb = avr_cpu_synchronize_from_tb,
     .restore_state_to_opc = avr_restore_state_to_opc,
     .cpu_exec_interrupt = avr_cpu_exec_interrupt,
diff --git a/target/avr/translate.c b/target/avr/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/avr/translate.c
+++ b/target/avr/translate.c
@@ -XXX,XX +XXX,XX @@ static bool trans_WDR(DisasContext *ctx, arg_WDR *a)
  *
  *    - translate()
  *    - canonicalize_skip()
- *    - gen_intermediate_code()
+ *    - translate_code()
  *    - restore_state_to_opc()
  *
  */
@@ -XXX,XX +XXX,XX @@ static const TranslatorOps avr_tr_ops = {
     .tb_stop            = avr_tr_tb_stop,
 };
 
-void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int *max_insns,
-                           vaddr pc, void *host_pc)
+void avr_cpu_translate_code(CPUState *cs, TranslationBlock *tb,
+                            int *max_insns, vaddr pc, void *host_pc)
 {
     DisasContext dc = { };
     translator_loop(cs, tb, max_insns, pc, host_pc, &avr_tr_ops, &dc.base);
diff --git a/target/hexagon/cpu.c b/target/hexagon/cpu.c
index XXXXXXX..XXXXXXX 100644
--- a/target/hexagon/cpu.c
+++ b/target/hexagon/cpu.c
@@ -XXX,XX +XXX,XX @@ static void hexagon_cpu_init(Object *obj)
 
 static const TCGCPUOps hexagon_tcg_ops = {
     .initialize = hexagon_translate_init,
+    .translate_code = hexagon_translate_code,
     .synchronize_from_tb = hexagon_cpu_synchronize_from_tb,
     .restore_state_to_opc = hexagon_restore_state_to_opc,
 };
diff --git a/target/hexagon/translate.c b/target/hexagon/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/hexagon/translate.c
+++ b/target/hexagon/translate.c
@@ -XXX,XX +XXX,XX @@ static const TranslatorOps hexagon_tr_ops = {
     .tb_stop            = hexagon_tr_tb_stop,
 };
 
-void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int *max_insns,
-                           vaddr pc, void *host_pc)
+void hexagon_translate_code(CPUState *cs, TranslationBlock *tb,
+                            int *max_insns, vaddr pc, void *host_pc)
 {
     DisasContext ctx;
 
diff --git a/target/hppa/cpu.c b/target/hppa/cpu.c
index XXXXXXX..XXXXXXX 100644
--- a/target/hppa/cpu.c
+++ b/target/hppa/cpu.c
@@ -XXX,XX +XXX,XX @@ static const struct SysemuCPUOps hppa_sysemu_ops = {
 
 static const TCGCPUOps hppa_tcg_ops = {
     .initialize = hppa_translate_init,
+    .translate_code = hppa_translate_code,
     .synchronize_from_tb = hppa_cpu_synchronize_from_tb,
     .restore_state_to_opc = hppa_restore_state_to_opc,
 
diff --git a/target/hppa/translate.c b/target/hppa/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/hppa/translate.c
+++ b/target/hppa/translate.c
@@ -XXX,XX +XXX,XX @@ static const TranslatorOps hppa_tr_ops = {
 #endif
 };
 
-void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int *max_insns,
-                           vaddr pc, void *host_pc)
+void hppa_translate_code(CPUState *cs, TranslationBlock *tb,
+                         int *max_insns, vaddr pc, void *host_pc)
 {
     DisasContext ctx = { };
     translator_loop(cs, tb, max_insns, pc, host_pc, &hppa_tr_ops, &ctx.base);
diff --git a/target/i386/tcg/tcg-cpu.c b/target/i386/tcg/tcg-cpu.c
index XXXXXXX..XXXXXXX 100644
--- a/target/i386/tcg/tcg-cpu.c
+++ b/target/i386/tcg/tcg-cpu.c
@@ -XXX,XX +XXX,XX @@ static bool x86_debug_check_breakpoint(CPUState *cs)
 
 static const TCGCPUOps x86_tcg_ops = {
     .initialize = tcg_x86_init,
+    .translate_code = x86_translate_code,
     .synchronize_from_tb = x86_cpu_synchronize_from_tb,
     .restore_state_to_opc = x86_restore_state_to_opc,
     .cpu_exec_enter = x86_cpu_exec_enter,
diff --git a/target/i386/tcg/translate.c b/target/i386/tcg/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/i386/tcg/translate.c
+++ b/target/i386/tcg/translate.c
@@ -XXX,XX +XXX,XX @@ static const TranslatorOps i386_tr_ops = {
     .tb_stop            = i386_tr_tb_stop,
 };
 
-/* generate intermediate code for basic block 'tb'.  */
-void gen_intermediate_code(CPUState *cpu, TranslationBlock *tb, int *max_insns,
-                           vaddr pc, void *host_pc)
+void x86_translate_code(CPUState *cpu, TranslationBlock *tb,
+                        int *max_insns, vaddr pc, void *host_pc)
 {
     DisasContext dc;
 
diff --git a/target/loongarch/cpu.c b/target/loongarch/cpu.c
index XXXXXXX..XXXXXXX 100644
--- a/target/loongarch/cpu.c
+++ b/target/loongarch/cpu.c
@@ -XXX,XX +XXX,XX @@ static void loongarch_cpu_dump_state(CPUState *cs, FILE *f, int flags)
 
 static const TCGCPUOps loongarch_tcg_ops = {
     .initialize = loongarch_translate_init,
+    .translate_code = loongarch_translate_code,
     .synchronize_from_tb = loongarch_cpu_synchronize_from_tb,
     .restore_state_to_opc = loongarch_restore_state_to_opc,
 
diff --git a/target/loongarch/tcg/translate.c b/target/loongarch/tcg/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/loongarch/tcg/translate.c
+++ b/target/loongarch/tcg/translate.c
@@ -XXX,XX +XXX,XX @@ static const TranslatorOps loongarch_tr_ops = {
     .tb_stop            = loongarch_tr_tb_stop,
 };
 
-void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int *max_insns,
-                           vaddr pc, void *host_pc)
+void loongarch_translate_code(CPUState *cs, TranslationBlock *tb,
+                              int *max_insns, vaddr pc, void *host_pc)
 {
     DisasContext ctx;
 
diff --git a/target/m68k/cpu.c b/target/m68k/cpu.c
index XXXXXXX..XXXXXXX 100644
--- a/target/m68k/cpu.c
+++ b/target/m68k/cpu.c
@@ -XXX,XX +XXX,XX @@ static const struct SysemuCPUOps m68k_sysemu_ops = {
 
 static const TCGCPUOps m68k_tcg_ops = {
     .initialize = m68k_tcg_init,
+    .translate_code = m68k_translate_code,
     .restore_state_to_opc = m68k_restore_state_to_opc,
 
 #ifndef CONFIG_USER_ONLY
diff --git a/target/m68k/translate.c b/target/m68k/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/m68k/translate.c
+++ b/target/m68k/translate.c
@@ -XXX,XX +XXX,XX @@ static const TranslatorOps m68k_tr_ops = {
     .tb_stop            = m68k_tr_tb_stop,
 };
 
-void gen_intermediate_code(CPUState *cpu, TranslationBlock *tb, int *max_insns,
-                           vaddr pc, void *host_pc)
+void m68k_translate_code(CPUState *cpu, TranslationBlock *tb,
+                         int *max_insns, vaddr pc, void *host_pc)
 {
     DisasContext dc;
     translator_loop(cpu, tb, max_insns, pc, host_pc, &m68k_tr_ops, &dc.base);
diff --git a/target/microblaze/cpu.c b/target/microblaze/cpu.c
index XXXXXXX..XXXXXXX 100644
--- a/target/microblaze/cpu.c
+++ b/target/microblaze/cpu.c
@@ -XXX,XX +XXX,XX @@ static const struct SysemuCPUOps mb_sysemu_ops = {
 
 static const TCGCPUOps mb_tcg_ops = {
     .initialize = mb_tcg_init,
+    .translate_code = mb_translate_code,
     .synchronize_from_tb = mb_cpu_synchronize_from_tb,
     .restore_state_to_opc = mb_restore_state_to_opc,
 
diff --git a/target/microblaze/translate.c b/target/microblaze/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/microblaze/translate.c
+++ b/target/microblaze/translate.c
@@ -XXX,XX +XXX,XX @@ static const TranslatorOps mb_tr_ops = {
     .tb_stop            = mb_tr_tb_stop,
 };
 
-void gen_intermediate_code(CPUState *cpu, TranslationBlock *tb, int *max_insns,
-                           vaddr pc, void *host_pc)
+void mb_translate_code(CPUState *cpu, TranslationBlock *tb,
+                       int *max_insns, vaddr pc, void *host_pc)
 {
     DisasContext dc;
     translator_loop(cpu, tb, max_insns, pc, host_pc, &mb_tr_ops, &dc.base);
diff --git a/target/mips/cpu.c b/target/mips/cpu.c
index XXXXXXX..XXXXXXX 100644
--- a/target/mips/cpu.c
+++ b/target/mips/cpu.c
@@ -XXX,XX +XXX,XX @@ static const Property mips_cpu_properties[] = {
 #include "hw/core/tcg-cpu-ops.h"
 static const TCGCPUOps mips_tcg_ops = {
     .initialize = mips_tcg_init,
+    .translate_code = mips_translate_code,
     .synchronize_from_tb = mips_cpu_synchronize_from_tb,
     .restore_state_to_opc = mips_restore_state_to_opc,
 
diff --git a/target/mips/tcg/translate.c b/target/mips/tcg/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/mips/tcg/translate.c
+++ b/target/mips/tcg/translate.c
@@ -XXX,XX +XXX,XX @@ static const TranslatorOps mips_tr_ops = {
     .tb_stop            = mips_tr_tb_stop,
 };
 
-void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int *max_insns,
-                           vaddr pc, void *host_pc)
+void mips_translate_code(CPUState *cs, TranslationBlock *tb,
+                         int *max_insns, vaddr pc, void *host_pc)
 {
     DisasContext ctx;
 
diff --git a/target/openrisc/cpu.c b/target/openrisc/cpu.c
index XXXXXXX..XXXXXXX 100644
--- a/target/openrisc/cpu.c
+++ b/target/openrisc/cpu.c
@@ -XXX,XX +XXX,XX @@ static const struct SysemuCPUOps openrisc_sysemu_ops = {
 
 static const TCGCPUOps openrisc_tcg_ops = {
     .initialize = openrisc_translate_init,
+    .translate_code = openrisc_translate_code,
     .synchronize_from_tb = openrisc_cpu_synchronize_from_tb,
     .restore_state_to_opc = openrisc_restore_state_to_opc,
 
diff --git a/target/openrisc/translate.c b/target/openrisc/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/openrisc/translate.c
+++ b/target/openrisc/translate.c
@@ -XXX,XX +XXX,XX @@ static const TranslatorOps openrisc_tr_ops = {
     .tb_stop            = openrisc_tr_tb_stop,
 };
 
-void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int *max_insns,
-                           vaddr pc, void *host_pc)
+void openrisc_translate_code(CPUState *cs, TranslationBlock *tb,
+                             int *max_insns, vaddr pc, void *host_pc)
 {
     DisasContext ctx;
 
diff --git a/target/ppc/cpu_init.c b/target/ppc/cpu_init.c
index XXXXXXX..XXXXXXX 100644
--- a/target/ppc/cpu_init.c
+++ b/target/ppc/cpu_init.c
@@ -XXX,XX +XXX,XX @@ static const struct SysemuCPUOps ppc_sysemu_ops = {
 
 static const TCGCPUOps ppc_tcg_ops = {
   .initialize = ppc_translate_init,
+  .translate_code = ppc_translate_code,
   .restore_state_to_opc = ppc_restore_state_to_opc,
 
 #ifdef CONFIG_USER_ONLY
diff --git a/target/ppc/translate.c b/target/ppc/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/ppc/translate.c
+++ b/target/ppc/translate.c
@@ -XXX,XX +XXX,XX @@ static const TranslatorOps ppc_tr_ops = {
     .tb_stop            = ppc_tr_tb_stop,
 };
 
-void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int *max_insns,
-                           vaddr pc, void *host_pc)
+void ppc_translate_code(CPUState *cs, TranslationBlock *tb,
+                        int *max_insns, vaddr pc, void *host_pc)
 {
     DisasContext ctx;
 
diff --git a/target/riscv/tcg/tcg-cpu.c b/target/riscv/tcg/tcg-cpu.c
index XXXXXXX..XXXXXXX 100644
--- a/target/riscv/tcg/tcg-cpu.c
+++ b/target/riscv/tcg/tcg-cpu.c
@@ -XXX,XX +XXX,XX @@ static void riscv_restore_state_to_opc(CPUState *cs,
 
 static const TCGCPUOps riscv_tcg_ops = {
     .initialize = riscv_translate_init,
+    .translate_code = riscv_translate_code,
     .synchronize_from_tb = riscv_cpu_synchronize_from_tb,
     .restore_state_to_opc = riscv_restore_state_to_opc,
 
diff --git a/target/riscv/translate.c b/target/riscv/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/riscv/translate.c
+++ b/target/riscv/translate.c
@@ -XXX,XX +XXX,XX @@ static const TranslatorOps riscv_tr_ops = {
     .tb_stop            = riscv_tr_tb_stop,
 };
 
-void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int *max_insns,
-                           vaddr pc, void *host_pc)
+void riscv_translate_code(CPUState *cs, TranslationBlock *tb,
+                          int *max_insns, vaddr pc, void *host_pc)
 {
     DisasContext ctx;
 
diff --git a/target/rx/cpu.c b/target/rx/cpu.c
index XXXXXXX..XXXXXXX 100644
--- a/target/rx/cpu.c
+++ b/target/rx/cpu.c
@@ -XXX,XX +XXX,XX @@ static const struct SysemuCPUOps rx_sysemu_ops = {
 
 static const TCGCPUOps rx_tcg_ops = {
     .initialize = rx_translate_init,
+    .translate_code = rx_translate_code,
     .synchronize_from_tb = rx_cpu_synchronize_from_tb,
     .restore_state_to_opc = rx_restore_state_to_opc,
     .tlb_fill = rx_cpu_tlb_fill,
diff --git a/target/rx/translate.c b/target/rx/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/rx/translate.c
+++ b/target/rx/translate.c
@@ -XXX,XX +XXX,XX @@ static const TranslatorOps rx_tr_ops = {
     .tb_stop            = rx_tr_tb_stop,
 };
 
-void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int *max_insns,
-                           vaddr pc, void *host_pc)
+void rx_translate_code(CPUState *cs, TranslationBlock *tb,
+                       int *max_insns, vaddr pc, void *host_pc)
 {
     DisasContext dc;
 
diff --git a/target/s390x/cpu.c b/target/s390x/cpu.c
index XXXXXXX..XXXXXXX 100644
--- a/target/s390x/cpu.c
+++ b/target/s390x/cpu.c
@@ -XXX,XX +XXX,XX @@ void cpu_get_tb_cpu_state(CPUS390XState *env, vaddr *pc,
 
 static const TCGCPUOps s390_tcg_ops = {
     .initialize = s390x_translate_init,
+    .translate_code = s390x_translate_code,
     .restore_state_to_opc = s390x_restore_state_to_opc,
 
 #ifdef CONFIG_USER_ONLY
diff --git a/target/s390x/tcg/translate.c b/target/s390x/tcg/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/s390x/tcg/translate.c
+++ b/target/s390x/tcg/translate.c
@@ -XXX,XX +XXX,XX @@ static const TranslatorOps s390x_tr_ops = {
     .disas_log          = s390x_tr_disas_log,
 };
 
-void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int *max_insns,
-                           vaddr pc, void *host_pc)
+void s390x_translate_code(CPUState *cs, TranslationBlock *tb,
+                          int *max_insns, vaddr pc, void *host_pc)
 {
     DisasContext dc;
 
diff --git a/target/sh4/cpu.c b/target/sh4/cpu.c
index XXXXXXX..XXXXXXX 100644
--- a/target/sh4/cpu.c
+++ b/target/sh4/cpu.c
@@ -XXX,XX +XXX,XX @@ static const struct SysemuCPUOps sh4_sysemu_ops = {
 
 static const TCGCPUOps superh_tcg_ops = {
     .initialize = sh4_translate_init,
+    .translate_code = sh4_translate_code,
     .synchronize_from_tb = superh_cpu_synchronize_from_tb,
     .restore_state_to_opc = superh_restore_state_to_opc,
 
diff --git a/target/sh4/translate.c b/target/sh4/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/sh4/translate.c
+++ b/target/sh4/translate.c
@@ -XXX,XX +XXX,XX @@ static const TranslatorOps sh4_tr_ops = {
     .tb_stop            = sh4_tr_tb_stop,
 };
 
-void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int *max_insns,
-                           vaddr pc, void *host_pc)
+void sh4_translate_code(CPUState *cs, TranslationBlock *tb,
+                        int *max_insns, vaddr pc, void *host_pc)
 {
     DisasContext ctx;
 
diff --git a/target/sparc/cpu.c b/target/sparc/cpu.c
index XXXXXXX..XXXXXXX 100644
--- a/target/sparc/cpu.c
+++ b/target/sparc/cpu.c
@@ -XXX,XX +XXX,XX @@ static const struct SysemuCPUOps sparc_sysemu_ops = {
 
 static const TCGCPUOps sparc_tcg_ops = {
     .initialize = sparc_tcg_init,
+    .translate_code = sparc_translate_code,
     .synchronize_from_tb = sparc_cpu_synchronize_from_tb,
     .restore_state_to_opc = sparc_restore_state_to_opc,
 
diff --git a/target/sparc/translate.c b/target/sparc/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/sparc/translate.c
+++ b/target/sparc/translate.c
@@ -XXX,XX +XXX,XX @@ static const TranslatorOps sparc_tr_ops = {
     .tb_stop            = sparc_tr_tb_stop,
 };
 
-void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int *max_insns,
-                           vaddr pc, void *host_pc)
+void sparc_translate_code(CPUState *cs, TranslationBlock *tb,
+                          int *max_insns, vaddr pc, void *host_pc)
 {
     DisasContext dc = {};
 
diff --git a/target/tricore/cpu.c b/target/tricore/cpu.c
index XXXXXXX..XXXXXXX 100644
--- a/target/tricore/cpu.c
+++ b/target/tricore/cpu.c
@@ -XXX,XX +XXX,XX @@ static const struct SysemuCPUOps tricore_sysemu_ops = {
 
 static const TCGCPUOps tricore_tcg_ops = {
     .initialize = tricore_tcg_init,
+    .translate_code = tricore_translate_code,
     .synchronize_from_tb = tricore_cpu_synchronize_from_tb,
     .restore_state_to_opc = tricore_restore_state_to_opc,
     .tlb_fill = tricore_cpu_tlb_fill,
diff --git a/target/tricore/translate.c b/target/tricore/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/tricore/translate.c
+++ b/target/tricore/translate.c
@@ -XXX,XX +XXX,XX @@ static const TranslatorOps tricore_tr_ops = {
     .tb_stop            = tricore_tr_tb_stop,
 };
 
-
-void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int *max_insns,
-                           vaddr pc, void *host_pc)
+void tricore_translate_code(CPUState *cs, TranslationBlock *tb,
+                            int *max_insns, vaddr pc, void *host_pc)
 {
     DisasContext ctx;
     translator_loop(cs, tb, max_insns, pc, host_pc,
diff --git a/target/xtensa/cpu.c b/target/xtensa/cpu.c
index XXXXXXX..XXXXXXX 100644
--- a/target/xtensa/cpu.c
+++ b/target/xtensa/cpu.c
@@ -XXX,XX +XXX,XX @@ static const struct SysemuCPUOps xtensa_sysemu_ops = {
 
 static const TCGCPUOps xtensa_tcg_ops = {
     .initialize = xtensa_translate_init,
+    .translate_code = xtensa_translate_code,
     .debug_excp_handler = xtensa_breakpoint_handler,
     .restore_state_to_opc = xtensa_restore_state_to_opc,
 
diff --git a/target/xtensa/translate.c b/target/xtensa/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/xtensa/translate.c
+++ b/target/xtensa/translate.c
@@ -XXX,XX +XXX,XX @@ static const TranslatorOps xtensa_translator_ops = {
     .tb_stop            = xtensa_tr_tb_stop,
 };
 
-void gen_intermediate_code(CPUState *cpu, TranslationBlock *tb, int *max_insns,
-                           vaddr pc, void *host_pc)
+void xtensa_translate_code(CPUState *cpu, TranslationBlock *tb,
+                           int *max_insns, vaddr pc, void *host_pc)
 {
     DisasContext dc = {};
     translator_loop(cpu, tb, max_insns, pc, host_pc,
-- 
2.43.0