Series comparison

-[PULL 00/53] tcg patch queue
+[PULL 00/72] tcg patch queue
-The following changes since commit d530697ca20e19f7a626f4c1c8b26fccd0dc4470:
+The following changes since commit aa3a285b5bc56a4208b3b57d4a55291e9c260107:
-  Merge tag 'pull-testing-updates-100523-1' of https://gitlab.com/stsquad/qemu into staging (2023-05-10 16:43:01 +0100)
+  Merge tag 'mem-2024-12-21' of https://github.com/davidhildenbrand/qemu into staging (2024-12-22 14:33:27 -0500)
 are available in the Git repository at:
-  https://gitlab.com/rth7680/qemu.git tags/pull-tcg-20230511
+  https://gitlab.com/rth7680/qemu.git tags/pull-tcg-20241224
-for you to fetch changes up to b2d4d6616c22325dff802e0a35092167f2dc2268:
+for you to fetch changes up to e4a8e093dc74be049f4829831dce76e5edab0003:
-  target/loongarch: Do not include tcg-ldst.h (2023-05-11 06:06:04 +0100)
+  accel/tcg: Move gen_intermediate_code to TCGCPUOps.translate_core (2024-12-24 08:32:15 -0800)
 ----------------------------------------------------------------
-target/m68k: Fix gen_load_fp regression
+tcg/optimize: Remove in-flight mask data from OptContext
-accel/tcg: Ensure fairness with icount
+fpu: Add float*_muladd_scalbn
-disas: Move disas.c into the target-independent source sets
+fpu: Remove float_muladd_halve_result
-tcg: Use common routines for calling slow path helpers
+fpu: Add float_round_nearest_even_max
-tcg/*: Cleanups to qemu_ld/st constraints
+fpu: Add float_muladd_suppress_add_product_zero
-tcg: Remove TARGET_ALIGNED_ONLY
+target/hexagon: Use float32_muladd
-accel/tcg: Reorg system mode load/store helpers
+accel/tcg: Move gen_intermediate_code to TCGCPUOps.translate_core
 ----------------------------------------------------------------
-Jamie Iles (2):
+Ilya Leoshkevich (1):
-      cpu: expose qemu_cpu_list_lock for lock-guard use
+      tests/tcg: Do not use inttypes.h in multiarch/system/memory.c
       accel/tcg/tcg-accel-ops-rr: ensure fairness with icount
-Richard Henderson (49):
+Pierrick Bouvier (1):
-      target/m68k: Fix gen_load_fp for OS_LONG
+      plugins: optimize cpu_index code generation
       accel/tcg: Fix atomic_mmu_lookup for reads
       disas: Fix tabs and braces in disas.c
       disas: Move disas.c to disas/
       disas: Remove target_ulong from the interface
       disas: Remove target-specific headers
       tcg/i386: Introduce prepare_host_addr
       tcg/i386: Use indexed addressing for softmmu fast path
       tcg/aarch64: Introduce prepare_host_addr
       tcg/arm: Introduce prepare_host_addr
       tcg/loongarch64: Introduce prepare_host_addr
       tcg/mips: Introduce prepare_host_addr
       tcg/ppc: Introduce prepare_host_addr
       tcg/riscv: Introduce prepare_host_addr
       tcg/s390x: Introduce prepare_host_addr
       tcg: Add routines for calling slow-path helpers
       tcg/i386: Convert tcg_out_qemu_ld_slow_path
       tcg/i386: Convert tcg_out_qemu_st_slow_path
       tcg/aarch64: Convert tcg_out_qemu_{ld,st}_slow_path
       tcg/arm: Convert tcg_out_qemu_{ld,st}_slow_path
       tcg/loongarch64: Convert tcg_out_qemu_{ld,st}_slow_path
       tcg/mips: Convert tcg_out_qemu_{ld,st}_slow_path
       tcg/ppc: Convert tcg_out_qemu_{ld,st}_slow_path
       tcg/riscv: Convert tcg_out_qemu_{ld,st}_slow_path
       tcg/s390x: Convert tcg_out_qemu_{ld,st}_slow_path
       tcg/loongarch64: Simplify constraints on qemu_ld/st
       tcg/mips: Remove MO_BSWAP handling
       tcg/mips: Reorg tlb load within prepare_host_addr
       tcg/mips: Simplify constraints on qemu_ld/st
       tcg/ppc: Reorg tcg_out_tlb_read
       tcg/ppc: Adjust constraints on qemu_ld/st
       tcg/ppc: Remove unused constraints A, B, C, D
       tcg/ppc: Remove unused constraint J
       tcg/riscv: Simplify constraints on qemu_ld/st
       tcg/s390x: Use ALGFR in constructing softmmu host address
       tcg/s390x: Simplify constraints on qemu_ld/st
       target/mips: Add MO_ALIGN to gen_llwp, gen_scwp
       target/mips: Add missing default_tcg_memop_mask
       target/mips: Use MO_ALIGN instead of 0
       target/mips: Remove TARGET_ALIGNED_ONLY
       target/nios2: Remove TARGET_ALIGNED_ONLY
       target/sh4: Use MO_ALIGN where required
       target/sh4: Remove TARGET_ALIGNED_ONLY
       tcg: Remove TARGET_ALIGNED_ONLY
       accel/tcg: Add cpu_in_serial_context
       accel/tcg: Introduce tlb_read_idx
       accel/tcg: Reorg system mode load helpers
       accel/tcg: Reorg system mode store helpers
       target/loongarch: Do not include tcg-ldst.h
-Thomas Huth (2):
+Richard Henderson (70):
-      disas: Move softmmu specific code to separate file
+      tcg/optimize: Split out finish_bb, finish_ebb
-      disas: Move disas.c into the target-independent source set
+      tcg/optimize: Split out fold_affected_mask
       tcg/optimize: Copy mask writeback to fold_masks
       tcg/optimize: Split out fold_masks_zs
       tcg/optimize: Augment s_mask from z_mask in fold_masks_zs
       tcg/optimize: Change representation of s_mask
       tcg/optimize: Use finish_folding in fold_add, fold_add_vec, fold_addsub2
       tcg/optimize: Introduce const value accessors for TempOptInfo
       tcg/optimize: Use fold_masks_zs in fold_and
       tcg/optimize: Use fold_masks_zs in fold_andc
       tcg/optimize: Use fold_masks_zs in fold_bswap
       tcg/optimize: Use fold_masks_zs in fold_count_zeros
       tcg/optimize: Use fold_masks_z in fold_ctpop
       tcg/optimize: Use fold_and and fold_masks_z in fold_deposit
       tcg/optimize: Compute sign mask in fold_deposit
       tcg/optimize: Use finish_folding in fold_divide
       tcg/optimize: Use finish_folding in fold_dup, fold_dup2
       tcg/optimize: Use fold_masks_s in fold_eqv
       tcg/optimize: Use fold_masks_z in fold_extract
       tcg/optimize: Use finish_folding in fold_extract2
       tcg/optimize: Use fold_masks_zs in fold_exts
       tcg/optimize: Use fold_masks_z in fold_extu
       tcg/optimize: Use fold_masks_zs in fold_movcond
       tcg/optimize: Use finish_folding in fold_mul*
       tcg/optimize: Use fold_masks_s in fold_nand
       tcg/optimize: Use fold_masks_z in fold_neg_no_const
       tcg/optimize: Use fold_masks_s in fold_nor
       tcg/optimize: Use fold_masks_s in fold_not
       tcg/optimize: Use fold_masks_zs in fold_or
       tcg/optimize: Use fold_masks_zs in fold_orc
       tcg/optimize: Use fold_masks_zs in fold_qemu_ld
       tcg/optimize: Return true from fold_qemu_st, fold_tcg_st
       tcg/optimize: Use finish_folding in fold_remainder
       tcg/optimize: Distinguish simplification in fold_setcond_zmask
       tcg/optimize: Use fold_masks_z in fold_setcond
       tcg/optimize: Use fold_masks_s in fold_negsetcond
       tcg/optimize: Use fold_masks_z in fold_setcond2
       tcg/optimize: Use finish_folding in fold_cmp_vec
       tcg/optimize: Use finish_folding in fold_cmpsel_vec
       tcg/optimize: Use fold_masks_zs in fold_sextract
       tcg/optimize: Use fold_masks_zs, fold_masks_s in fold_shift
       tcg/optimize: Simplify sign bit test in fold_shift
       tcg/optimize: Use finish_folding in fold_sub, fold_sub_vec
       tcg/optimize: Use fold_masks_zs in fold_tcg_ld
       tcg/optimize: Use finish_folding in fold_tcg_ld_memcopy
       tcg/optimize: Use fold_masks_zs in fold_xor
       tcg/optimize: Use finish_folding in fold_bitsel_vec
       tcg/optimize: Use finish_folding as default in tcg_optimize
       tcg/optimize: Remove z_mask, s_mask from OptContext
       tcg/optimize: Re-enable sign-mask optimizations
       tcg/optimize: Move fold_bitsel_vec into alphabetic sort
       tcg/optimize: Move fold_cmp_vec, fold_cmpsel_vec into alphabetic sort
       softfloat: Add float{16,32,64}_muladd_scalbn
       target/arm: Use float*_muladd_scalbn
       target/sparc: Use float*_muladd_scalbn
       softfloat: Remove float_muladd_halve_result
       softfloat: Add float_round_nearest_even_max
       softfloat: Add float_muladd_suppress_add_product_zero
       target/hexagon: Use float32_mul in helper_sfmpy
       target/hexagon: Use float32_muladd for helper_sffma
       target/hexagon: Use float32_muladd for helper_sffms
       target/hexagon: Use float32_muladd_scalbn for helper_sffma_sc
       target/hexagon: Use float32_muladd for helper_sffm[as]_lib
       target/hexagon: Remove internal_fmafx
       target/hexagon: Expand GEN_XF_ROUND
       target/hexagon: Remove Float
       target/hexagon: Remove Double
       target/hexagon: Use mulu64 for int128_mul_6464
       target/hexagon: Simplify internal_mpyhh setup
       accel/tcg: Move gen_intermediate_code to TCGCPUOps.translate_core
- configs/targets/mips-linux-user.mak       |    1 -
+ include/exec/translator.h           |  14 -
- configs/targets/mips-softmmu.mak          |    1 -
+ include/fpu/softfloat-types.h       |   2 +
- configs/targets/mips64-linux-user.mak     |    1 -
+ include/fpu/softfloat.h             |  14 +-
- configs/targets/mips64-softmmu.mak        |    1 -
+ include/hw/core/tcg-cpu-ops.h       |  13 +
- configs/targets/mips64el-linux-user.mak   |    1 -
+ target/alpha/cpu.h                  |   2 +
- configs/targets/mips64el-softmmu.mak      |    1 -
+ target/arm/internals.h              |   2 +
- configs/targets/mipsel-linux-user.mak     |    1 -
+ target/avr/cpu.h                    |   2 +
- configs/targets/mipsel-softmmu.mak        |    1 -
+ target/hexagon/cpu.h                |   2 +
- configs/targets/mipsn32-linux-user.mak    |    1 -
+ target/hexagon/fma_emu.h            |   3 -
- configs/targets/mipsn32el-linux-user.mak  |    1 -
+ target/hppa/cpu.h                   |   2 +
- configs/targets/nios2-softmmu.mak         |    1 -
+ target/i386/tcg/helper-tcg.h        |   2 +
- configs/targets/sh4-linux-user.mak        |    1 -
+ target/loongarch/internals.h        |   2 +
- configs/targets/sh4-softmmu.mak           |    1 -
+ target/m68k/cpu.h                   |   2 +
- configs/targets/sh4eb-linux-user.mak      |    1 -
+ target/microblaze/cpu.h             |   2 +
- configs/targets/sh4eb-softmmu.mak         |    1 -
+ target/mips/tcg/tcg-internal.h      |   2 +
- meson.build                               |    3 -
+ target/openrisc/cpu.h               |   2 +
- accel/tcg/internal.h                      |    9 +
+ target/ppc/cpu.h                    |   2 +
- accel/tcg/tcg-accel-ops-icount.h          |    3 +-
+ target/riscv/cpu.h                  |   3 +
- disas/disas-internal.h                    |   21 +
+ target/rx/cpu.h                     |   2 +
- include/disas/disas.h                     |   23 +-
+ target/s390x/s390x-internal.h       |   2 +
- include/exec/cpu-common.h                 |    1 +
+ target/sh4/cpu.h                    |   2 +
- include/exec/cpu-defs.h                   |    7 +-
+ target/sparc/cpu.h                  |   2 +
- include/exec/cpu_ldst.h                   |   26 +-
+ target/sparc/helper.h               |   4 +-
- include/exec/memop.h                      |   13 +-
+ target/tricore/cpu.h                |   2 +
- include/exec/poison.h                     |    1 -
+ target/xtensa/cpu.h                 |   2 +
- tcg/loongarch64/tcg-target-con-set.h      |    2 -
+ accel/tcg/cpu-exec.c                |   8 +-
- tcg/loongarch64/tcg-target-con-str.h      |    1 -
+ accel/tcg/plugin-gen.c              |   9 +
- tcg/mips/tcg-target-con-set.h             |   13 +-
+ accel/tcg/translate-all.c           |   8 +-
- tcg/mips/tcg-target-con-str.h             |    2 -
+ fpu/softfloat.c                     |  63 +--
- tcg/mips/tcg-target.h                     |    4 +-
+ target/alpha/cpu.c                  |   1 +
- tcg/ppc/tcg-target-con-set.h              |   11 +-
+ target/alpha/translate.c            |   4 +-
- tcg/ppc/tcg-target-con-str.h              |    7 -
+ target/arm/cpu.c                    |   1 +
- tcg/riscv/tcg-target-con-set.h            |    2 -
+ target/arm/tcg/cpu-v7m.c            |   1 +
- tcg/riscv/tcg-target-con-str.h            |    1 -
+ target/arm/tcg/helper-a64.c         |   6 +-
- tcg/s390x/tcg-target-con-set.h            |    2 -
+ target/arm/tcg/translate.c          |   5 +-
- tcg/s390x/tcg-target-con-str.h            |    1 -
+ target/avr/cpu.c                    |   1 +
- accel/tcg/cpu-exec-common.c               |    3 +
+ target/avr/translate.c              |   6 +-
- accel/tcg/cputlb.c                        | 1113 ++++++++++++++++-------------
+ target/hexagon/cpu.c                |   1 +
- accel/tcg/tb-maint.c                      |    2 +-
+ target/hexagon/fma_emu.c            | 496 ++++++---------------
- accel/tcg/tcg-accel-ops-icount.c          |   21 +-
+ target/hexagon/op_helper.c          | 125 ++----
- accel/tcg/tcg-accel-ops-rr.c              |   37 +-
+ target/hexagon/translate.c          |   4 +-
- bsd-user/elfload.c                        |    5 +-
+ target/hppa/cpu.c                   |   1 +
- cpus-common.c                             |    2 +-
+ target/hppa/translate.c             |   4 +-
- disas/disas-mon.c                         |   65 ++
+ target/i386/tcg/tcg-cpu.c           |   1 +
- disas.c => disas/disas.c                  |  109 +--
+ target/i386/tcg/translate.c         |   5 +-
- linux-user/elfload.c                      |   18 +-
+ target/loongarch/cpu.c              |   1 +
- migration/dirtyrate.c                     |   26 +-
+ target/loongarch/tcg/translate.c    |   4 +-
- replay/replay.c                           |    3 +-
+ target/m68k/cpu.c                   |   1 +
- target/loongarch/csr_helper.c             |    1 -
+ target/m68k/translate.c             |   4 +-
- target/loongarch/iocsr_helper.c           |    1 -
+ target/microblaze/cpu.c             |   1 +
- target/m68k/translate.c                   |    1 +
+ target/microblaze/translate.c       |   4 +-
- target/mips/tcg/mxu_translate.c           |    3 +-
+ target/mips/cpu.c                   |   1 +
- target/nios2/translate.c                  |   10 +
+ target/mips/tcg/translate.c         |   4 +-
- target/sh4/translate.c                    |  102 ++-
+ target/openrisc/cpu.c               |   1 +
- tcg/tcg.c                                 |  480 ++++++++++++-
+ target/openrisc/translate.c         |   4 +-
- trace/control-target.c                    |    9 +-
+ target/ppc/cpu_init.c               |   1 +
- target/mips/tcg/micromips_translate.c.inc |   24 +-
+ target/ppc/translate.c              |   4 +-
- target/mips/tcg/mips16e_translate.c.inc   |   18 +-
+ target/riscv/tcg/tcg-cpu.c          |   1 +
- target/mips/tcg/nanomips_translate.c.inc  |   32 +-
+ target/riscv/translate.c            |   4 +-
- tcg/aarch64/tcg-target.c.inc              |  347 ++++-----
+ target/rx/cpu.c                     |   1 +
- tcg/arm/tcg-target.c.inc                  |  455 +++++-------
+ target/rx/translate.c               |   4 +-
- tcg/i386/tcg-target.c.inc                 |  453 +++++-------
+ target/s390x/cpu.c                  |   1 +
- tcg/loongarch64/tcg-target.c.inc          |  313 +++-----
+ target/s390x/tcg/translate.c        |   4 +-
- tcg/mips/tcg-target.c.inc                 |  870 +++++++---------------
+ target/sh4/cpu.c                    |   1 +
- tcg/ppc/tcg-target.c.inc                  |  512 ++++++-------
+ target/sh4/translate.c              |   4 +-
- tcg/riscv/tcg-target.c.inc                |  304 ++++----
+ target/sparc/cpu.c                  |   1 +
- tcg/s390x/tcg-target.c.inc                |  314 ++++----
+ target/sparc/fop_helper.c           |   8 +-
- disas/meson.build                         |    6 +-
+ target/sparc/translate.c            |  84 ++--
-files changed, 2788 insertions(+), 3039 deletions(-)
+ target/tricore/cpu.c                |   1 +
- create mode 100644 disas/disas-internal.h
+ target/tricore/translate.c          |   5 +-
- create mode 100644 disas/disas-mon.c
+ target/xtensa/cpu.c                 |   1 +
- rename disas.c => disas/disas.c (79%)
+ target/xtensa/translate.c           |   4 +-
  tcg/optimize.c                      | 857 +++++++++++++++++++-----------------
  tests/tcg/multiarch/system/memory.c |   9 +-
  fpu/softfloat-parts.c.inc           |  16 +-
 files changed, 866 insertions(+), 1009 deletions(-)

-[PULL 21/53] tcg/i386: Convert tcg_out_qemu_ld_slow_path
+[PULL 01/72] tests/tcg: Do not use inttypes.h in multiarch/system/memory.c
-Use tcg_out_ld_helper_args and tcg_out_ld_helper_ret.
+From: Ilya Leoshkevich <iii@linux.ibm.com>
-Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
+make check-tcg fails on Fedora with the following error message:
     alpha-linux-gnu-gcc [...] qemu/tests/tcg/multiarch/system/memory.c -o memory [...]
     qemu/tests/tcg/multiarch/system/memory.c:17:10: fatal error: inttypes.h: No such file or directory
 | #include <inttypes.h>
           |          ^~~~~~~~~~~~
     compilation terminated.
 The reason is that Fedora has cross-compilers, but no cross-glibc
 headers. Fix by hardcoding the format specifiers and dropping the
 include.
 An alternative fix would be to introduce a configure check for
 inttypes.h. But this would make it impossible to use Fedora
 cross-compilers for softmmu tests, which used to work so far.
 Fixes: ecbcc9ead2f8 ("tests/tcg: add a system test to check memory instrumentation")
 Signed-off-by: Ilya Leoshkevich <iii@linux.ibm.com>
 Reviewed-by: Paolo Bonzini <pbonzini@redhat.com>
 Message-ID: <20241010085906.226249-1-iii@linux.ibm.com>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- tcg/i386/tcg-target.c.inc | 71 +++++++++++++++------------------------
+ tests/tcg/multiarch/system/memory.c | 9 ++++-----
-file changed, 28 insertions(+), 43 deletions(-)
+file changed, 4 insertions(+), 5 deletions(-)
-diff --git a/tcg/i386/tcg-target.c.inc b/tcg/i386/tcg-target.c.inc
+diff --git a/tests/tcg/multiarch/system/memory.c b/tests/tcg/multiarch/system/memory.c
 index XXXXXXX..XXXXXXX 100644
---- a/tcg/i386/tcg-target.c.inc
+--- a/tests/tcg/multiarch/system/memory.c
-+++ b/tcg/i386/tcg-target.c.inc
++++ b/tests/tcg/multiarch/system/memory.c
-@@ -XXX,XX +XXX,XX @@ static void * const qemu_st_helpers[(MO_SIZE | MO_BSWAP) + 1] = {
+@@ -XXX,XX +XXX,XX @@
-     [MO_BEUQ] = helper_be_stq_mmu,
- };
+ #include <stdint.h>
+ #include <stdbool.h>
-+/*
+-#include <inttypes.h>
-+ * Because i686 has no register parameters and because x86_64 has xchg
+ #include <minilib.h>
-+ * to handle addr/data register overlap, we have placed all input arguments
-+ * before we need might need a scratch reg.
+ #ifndef CHECK_UNALIGNED
-+ *
+@@ -XXX,XX +XXX,XX @@ int main(void)
-+ * Even then, a scratch is only needed for l->raddr.  Rather than expose
+     int i;
-+ * a general-purpose scratch when we don't actually know it's available,
+     bool ok = true;
-+ * use the ra_gen hook to load into RAX if needed.
-+ */
+-    ml_printf("Test data start: 0x%"PRIxPTR"\n", &test_data[0]);
-+#if TCG_TARGET_REG_BITS == 64
+-    ml_printf("Test data end: 0x%"PRIxPTR"\n", &test_data[TEST_SIZE]);
-+static TCGReg ldst_ra_gen(TCGContext *s, const TCGLabelQemuLdst *l, int arg)
++    ml_printf("Test data start: 0x%lx\n", (unsigned long)&test_data[0]);
-+{
++    ml_printf("Test data end: 0x%lx\n", (unsigned long)&test_data[TEST_SIZE]);
-+    if (arg < 0) {
-+        arg = TCG_REG_RAX;
+     /* Run through the unsigned tests first */
-+    }
+     for (i = 0; i < ARRAY_SIZE(init_ufns) && ok; i++) {
-+    tcg_out_movi(s, TCG_TYPE_PTR, arg, (uintptr_t)l->raddr);
+@@ -XXX,XX +XXX,XX @@ int main(void)
-+    return arg;
+         ok = do_signed_reads(true);
 +}
 +static const TCGLdstHelperParam ldst_helper_param = {
 +    .ra_gen = ldst_ra_gen
 +};
 +#else
 +static const TCGLdstHelperParam ldst_helper_param = { };
 +#endif
 +
  /*
   * Generate code for the slow path for a load at the end of block
   */
  static bool tcg_out_qemu_ld_slow_path(TCGContext *s, TCGLabelQemuLdst *l)
  {
 -    MemOpIdx oi = l->oi;
 -    MemOp opc = get_memop(oi);
 +    MemOp opc = get_memop(l->oi);
      tcg_insn_unit **label_ptr = &l->label_ptr[0];
      /* resolve label address */
@@ -XXX,XX +XXX,XX @@ static bool tcg_out_qemu_ld_slow_path(TCGContext *s, TCGLabelQemuLdst *l)
          tcg_patch32(label_ptr[1], s->code_ptr - label_ptr[1] - 4);
      }
--    if (TCG_TARGET_REG_BITS == 32) {
+-    ml_printf("Test data read: %"PRId32"\n", test_read_count);
--        int ofs = 0;
+-    ml_printf("Test data write: %"PRId32"\n", test_write_count);
--
++    ml_printf("Test data read: %lu\n", (unsigned long)test_read_count);
--        tcg_out_st(s, TCG_TYPE_PTR, TCG_AREG0, TCG_REG_ESP, ofs);
++    ml_printf("Test data write: %lu\n", (unsigned long)test_write_count);
--        ofs += 4;
+     ml_printf("Test complete: %s\n", ok ? "PASSED" : "FAILED");
--
+     return ok ? 0 : -1;
 -        tcg_out_st(s, TCG_TYPE_I32, l->addrlo_reg, TCG_REG_ESP, ofs);
 -        ofs += 4;
 -
 -        if (TARGET_LONG_BITS == 64) {
 -            tcg_out_st(s, TCG_TYPE_I32, l->addrhi_reg, TCG_REG_ESP, ofs);
 -            ofs += 4;
 -        }
 -
 -        tcg_out_sti(s, TCG_TYPE_I32, oi, TCG_REG_ESP, ofs);
 -        ofs += 4;
 -
 -        tcg_out_sti(s, TCG_TYPE_PTR, (uintptr_t)l->raddr, TCG_REG_ESP, ofs);
 -    } else {
 -        tcg_out_mov(s, TCG_TYPE_PTR, tcg_target_call_iarg_regs[0], TCG_AREG0);
 -        tcg_out_mov(s, TCG_TYPE_TL, tcg_target_call_iarg_regs[1],
 -                    l->addrlo_reg);
 -        tcg_out_movi(s, TCG_TYPE_I32, tcg_target_call_iarg_regs[2], oi);
 -        tcg_out_movi(s, TCG_TYPE_PTR, tcg_target_call_iarg_regs[3],
 -                     (uintptr_t)l->raddr);
 -    }
 -
 +    tcg_out_ld_helper_args(s, l, &ldst_helper_param);
      tcg_out_branch(s, 1, qemu_ld_helpers[opc & (MO_BSWAP | MO_SIZE)]);
 +    tcg_out_ld_helper_ret(s, l, false, &ldst_helper_param);
 -    if (TCG_TARGET_REG_BITS == 32 && (opc & MO_SIZE) == MO_64) {
 -        TCGMovExtend ext[2] = {
 -            { .dst = l->datalo_reg, .dst_type = TCG_TYPE_I32,
 -              .src = TCG_REG_EAX, .src_type = TCG_TYPE_I32, .src_ext = MO_UL },
 -            { .dst = l->datahi_reg, .dst_type = TCG_TYPE_I32,
 -              .src = TCG_REG_EDX, .src_type = TCG_TYPE_I32, .src_ext = MO_UL },
 -        };
 -        tcg_out_movext2(s, &ext[0], &ext[1], -1);
 -    } else {
 -        tcg_out_movext(s, l->type, l->datalo_reg,
 -                       TCG_TYPE_REG, opc & MO_SSIZE, TCG_REG_EAX);
 -    }
 -
 -    /* Jump to the code corresponding to next IR of qemu_st */
      tcg_out_jmp(s, l->raddr);
      return true;
  }
 --
-.34.1
+.43.0

-New patch
+[PULL 02/72] plugins: optimize cpu_index code generation
+From: Pierrick Bouvier <pierrick.bouvier@linaro.org>
+When running with a single vcpu, we can return a constant instead of a
+load when accessing cpu_index.
+A side effect is that all tcg operations using it are optimized, most
+notably scoreboard access.
+When running a simple loop in user-mode, the speedup is around 20%.
+Signed-off-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
+Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
+Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
+Message-ID: <20241128213843.1023080-1-pierrick.bouvier@linaro.org>
+---
+ accel/tcg/plugin-gen.c | 9 +++++++++
+file changed, 9 insertions(+)
+diff --git a/accel/tcg/plugin-gen.c b/accel/tcg/plugin-gen.c
+index XXXXXXX..XXXXXXX 100644
+--- a/accel/tcg/plugin-gen.c
++++ b/accel/tcg/plugin-gen.c
+@@ -XXX,XX +XXX,XX @@ static void gen_disable_mem_helper(void)
+ static TCGv_i32 gen_cpu_index(void)
+ {
++    /*
++     * Optimize when we run with a single vcpu. All values using cpu_index,
++     * including scoreboard index, will be optimized out.
++     * User-mode calls tb_flush when setting this flag. In system-mode, all
++     * vcpus are created before generating code.
++     */
++    if (!tcg_cflags_has(current_cpu, CF_PARALLEL)) {
++        return tcg_constant_i32(current_cpu->cpu_index);
++    }
+     TCGv_i32 cpu_index = tcg_temp_ebb_new_i32();
+     tcg_gen_ld_i32(cpu_index, tcg_env,
+                    -offsetof(ArchCPU, env) + offsetof(CPUState, cpu_index));
+--
+.43.0

-[PULL 52/53] accel/tcg: Reorg system mode store helpers
+[PULL 03/72] tcg/optimize: Split out finish_bb, finish_ebb
-Instead of trying to unify all operations on uint64_t, use
+Call them directly from the opcode switch statement in tcg_optimize,
-mmu_lookup() to perform the basic tlb hit and resolution.
+rather than in finish_folding based on opcode flags.  Adjust folding
-Create individual functions to handle access by size.
+of conditional branches to match.
-Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
+Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- accel/tcg/cputlb.c | 408 +++++++++++++++++++++------------------------
+ tcg/optimize.c | 47 +++++++++++++++++++++++++++++++----------------
-file changed, 193 insertions(+), 215 deletions(-)
+file changed, 31 insertions(+), 16 deletions(-)
-diff --git a/accel/tcg/cputlb.c b/accel/tcg/cputlb.c
+diff --git a/tcg/optimize.c b/tcg/optimize.c
 index XXXXXXX..XXXXXXX 100644
---- a/accel/tcg/cputlb.c
+--- a/tcg/optimize.c
-+++ b/accel/tcg/cputlb.c
++++ b/tcg/optimize.c
-@@ -XXX,XX +XXX,XX @@ store_memop(void *haddr, uint64_t val, MemOp op)
+@@ -XXX,XX +XXX,XX @@ static void copy_propagate(OptContext *ctx, TCGOp *op,
      }
  }
--static void full_stb_mmu(CPUArchState *env, target_ulong addr, uint64_t val,
++static void finish_bb(OptContext *ctx)
--                         MemOpIdx oi, uintptr_t retaddr);
++{
--
++    /* We only optimize memory barriers across basic blocks. */
--static void __attribute__((noinline))
++    ctx->prev_mb = NULL;
--store_helper_unaligned(CPUArchState *env, target_ulong addr, uint64_t val,
++}
--                       uintptr_t retaddr, size_t size, uintptr_t mmu_idx,
++
--                       bool big_endian)
++static void finish_ebb(OptContext *ctx)
-+/**
++{
-+ * do_st_mmio_leN:
++    finish_bb(ctx);
-+ * @env: cpu context
++    /* We only optimize across extended basic blocks. */
-+ * @p: translation parameters
++    memset(&ctx->temps_used, 0, sizeof(ctx->temps_used));
-+ * @val_le: data to store
++    remove_mem_copy_all(ctx);
-+ * @mmu_idx: virtual address context
++}
-+ * @ra: return address into tcg generated code, or 0
++
-+ *
+ static void finish_folding(OptContext *ctx, TCGOp *op)
 + * Store @p->size bytes at @p->addr, which is memory-mapped i/o.
 + * The bytes to store are extracted in little-endian order from @val_le;
 + * return the bytes of @val_le beyond @p->size that have not been stored.
 + */
 +static uint64_t do_st_mmio_leN(CPUArchState *env, MMULookupPageData *p,
 +                               uint64_t val_le, int mmu_idx, uintptr_t ra)
  {
--    uintptr_t index, index2;
+     const TCGOpDef *def = &tcg_op_defs[op->opc];
--    CPUTLBEntry *entry, *entry2;
+     int i, nb_oargs;
 -    target_ulong page1, page2, tlb_addr, tlb_addr2;
 -    MemOpIdx oi;
 -    size_t size2;
 -    int i;
 +    CPUTLBEntryFull *full = p->full;
 +    target_ulong addr = p->addr;
 +    int i, size = p->size;
 -    /*
--     * Ensure the second page is in the TLB.  Note that the first page
+-     * We only optimize extended basic blocks.  If the opcode ends a BB
--     * is already guaranteed to be filled, and that the second page
+-     * and is not a conditional branch, reset all temp data.
 -     * cannot evict the first.  An exception to this rule is PAGE_WRITE_INV
 -     * handling: the first page could have evicted itself.
 -     */
--    page1 = addr & TARGET_PAGE_MASK;
+-    if (def->flags & TCG_OPF_BB_END) {
--    page2 = (addr + size) & TARGET_PAGE_MASK;
+-        ctx->prev_mb = NULL;
--    size2 = (addr + size) & ~TARGET_PAGE_MASK;
+-        if (!(def->flags & TCG_OPF_COND_BRANCH)) {
--    index2 = tlb_index(env, mmu_idx, page2);
+-            memset(&ctx->temps_used, 0, sizeof(ctx->temps_used));
--    entry2 = tlb_entry(env, mmu_idx, page2);
+-            remove_mem_copy_all(ctx);
 -
 -    tlb_addr2 = tlb_addr_write(entry2);
 -    if (page1 != page2 && !tlb_hit_page(tlb_addr2, page2)) {
 -        if (!victim_tlb_hit(env, mmu_idx, index2, MMU_DATA_STORE, page2)) {
 -            tlb_fill(env_cpu(env), page2, size2, MMU_DATA_STORE,
 -                     mmu_idx, retaddr);
 -            index2 = tlb_index(env, mmu_idx, page2);
 -            entry2 = tlb_entry(env, mmu_idx, page2);
 -        }
 -        tlb_addr2 = tlb_addr_write(entry2);
 +    QEMU_IOTHREAD_LOCK_GUARD();
 +    for (i = 0; i < size; i++, val_le >>= 8) {
 +        io_writex(env, full, mmu_idx, val_le, addr + i, ra, MO_UB);
      }
 +    return val_le;
 +}
 -    index = tlb_index(env, mmu_idx, addr);
 -    entry = tlb_entry(env, mmu_idx, addr);
 -    tlb_addr = tlb_addr_write(entry);
 +/**
 + * do_st_bytes_leN:
 + * @p: translation parameters
 + * @val_le: data to store
 + *
 + * Store @p->size bytes at @p->haddr, which is RAM.
 + * The bytes to store are extracted in little-endian order from @val_le;
 + * return the bytes of @val_le beyond @p->size that have not been stored.
 + */
 +static uint64_t do_st_bytes_leN(MMULookupPageData *p, uint64_t val_le)
 +{
 +    uint8_t *haddr = p->haddr;
 +    int i, size = p->size;
 -    /*
 -     * Handle watchpoints.  Since this may trap, all checks
 -     * must happen before any store.
 -     */
 -    if (unlikely(tlb_addr & TLB_WATCHPOINT)) {
 -        cpu_check_watchpoint(env_cpu(env), addr, size - size2,
 -                             env_tlb(env)->d[mmu_idx].fulltlb[index].attrs,
 -                             BP_MEM_WRITE, retaddr);
 -    }
 -    if (unlikely(tlb_addr2 & TLB_WATCHPOINT)) {
 -        cpu_check_watchpoint(env_cpu(env), page2, size2,
 -                             env_tlb(env)->d[mmu_idx].fulltlb[index2].attrs,
 -                             BP_MEM_WRITE, retaddr);
 +    for (i = 0; i < size; i++, val_le >>= 8) {
 +        haddr[i] = val_le;
      }
 +    return val_le;
 +}
 -    /*
 -     * XXX: not efficient, but simple.
 -     * This loop must go in the forward direction to avoid issues
 -     * with self-modifying code in Windows 64-bit.
 -     */
 -    oi = make_memop_idx(MO_UB, mmu_idx);
 -    if (big_endian) {
 -        for (i = 0; i < size; ++i) {
 -            /* Big-endian extract.  */
 -            uint8_t val8 = val >> (((size - 1) * 8) - (i * 8));
 -            full_stb_mmu(env, addr + i, val8, oi, retaddr);
 -        }
 +/*
 + * Wrapper for the above.
 + */
 +static uint64_t do_st_leN(CPUArchState *env, MMULookupPageData *p,
 +                          uint64_t val_le, int mmu_idx, uintptr_t ra)
 +{
 +    if (unlikely(p->flags & TLB_MMIO)) {
 +        return do_st_mmio_leN(env, p, val_le, mmu_idx, ra);
 +    } else if (unlikely(p->flags & TLB_DISCARD_WRITE)) {
 +        return val_le >> (p->size * 8);
      } else {
 -        for (i = 0; i < size; ++i) {
 -            /* Little-endian extract.  */
 -            uint8_t val8 = val >> (i * 8);
 -            full_stb_mmu(env, addr + i, val8, oi, retaddr);
 -        }
 +        return do_st_bytes_leN(p, val_le);
      }
  }
 -static inline void QEMU_ALWAYS_INLINE
 -store_helper(CPUArchState *env, target_ulong addr, uint64_t val,
 -             MemOpIdx oi, uintptr_t retaddr, MemOp op)
 +static void do_st_1(CPUArchState *env, MMULookupPageData *p, uint8_t val,
 +                    int mmu_idx, uintptr_t ra)
  {
 -    const unsigned a_bits = get_alignment_bits(get_memop(oi));
 -    const size_t size = memop_size(op);
 -    uintptr_t mmu_idx = get_mmuidx(oi);
 -    uintptr_t index;
 -    CPUTLBEntry *entry;
 -    target_ulong tlb_addr;
 -    void *haddr;
 -
 -    tcg_debug_assert(mmu_idx < NB_MMU_MODES);
 -
 -    /* Handle CPU specific unaligned behaviour */
 -    if (addr & ((1 << a_bits) - 1)) {
 -        cpu_unaligned_access(env_cpu(env), addr, MMU_DATA_STORE,
 -                             mmu_idx, retaddr);
 +    if (unlikely(p->flags & TLB_MMIO)) {
 +        io_writex(env, p->full, mmu_idx, val, p->addr, ra, MO_UB);
 +    } else if (unlikely(p->flags & TLB_DISCARD_WRITE)) {
 +        /* nothing */
 +    } else {
 +        *(uint8_t *)p->haddr = val;
      }
 -
 -    index = tlb_index(env, mmu_idx, addr);
 -    entry = tlb_entry(env, mmu_idx, addr);
 -    tlb_addr = tlb_addr_write(entry);
 -
 -    /* If the TLB entry is for a different page, reload and try again.  */
 -    if (!tlb_hit(tlb_addr, addr)) {
 -        if (!victim_tlb_hit(env, mmu_idx, index, MMU_DATA_STORE,
 -            addr & TARGET_PAGE_MASK)) {
 -            tlb_fill(env_cpu(env), addr, size, MMU_DATA_STORE,
 -                     mmu_idx, retaddr);
 -            index = tlb_index(env, mmu_idx, addr);
 -            entry = tlb_entry(env, mmu_idx, addr);
 -        }
 -        tlb_addr = tlb_addr_write(entry) & ~TLB_INVALID_MASK;
 -    }
 -
 -    /* Handle anything that isn't just a straight memory access.  */
 -    if (unlikely(tlb_addr & ~TARGET_PAGE_MASK)) {
 -        CPUTLBEntryFull *full;
 -        bool need_swap;
 -
 -        /* For anything that is unaligned, recurse through byte stores.  */
 -        if ((addr & (size - 1)) != 0) {
 -            goto do_unaligned_access;
 -        }
 -
 -        full = &env_tlb(env)->d[mmu_idx].fulltlb[index];
 -
 -        /* Handle watchpoints.  */
 -        if (unlikely(tlb_addr & TLB_WATCHPOINT)) {
 -            /* On watchpoint hit, this will longjmp out.  */
 -            cpu_check_watchpoint(env_cpu(env), addr, size,
 -                                 full->attrs, BP_MEM_WRITE, retaddr);
 -        }
 -
 -        need_swap = size > 1 && (tlb_addr & TLB_BSWAP);
 -
 -        /* Handle I/O access.  */
 -        if (tlb_addr & TLB_MMIO) {
 -            io_writex(env, full, mmu_idx, val, addr, retaddr,
 -                      op ^ (need_swap * MO_BSWAP));
 -            return;
 -        }
 -
 -        /* Ignore writes to ROM.  */
 -        if (unlikely(tlb_addr & TLB_DISCARD_WRITE)) {
 -            return;
 -        }
 -
 -        /* Handle clean RAM pages.  */
 -        if (tlb_addr & TLB_NOTDIRTY) {
 -            notdirty_write(env_cpu(env), addr, size, full, retaddr);
 -        }
 -
 -        haddr = (void *)((uintptr_t)addr + entry->addend);
 -
 -        /*
 -         * Keep these two store_memop separate to ensure that the compiler
 -         * is able to fold the entire function to a single instruction.
 -         * There is a build-time assert inside to remind you of this.  ;-)
 -         */
 -        if (unlikely(need_swap)) {
 -            store_memop(haddr, val, op ^ MO_BSWAP);
 -        } else {
 -            store_memop(haddr, val, op);
 -        }
 -        return;
 -    }
 -
--    /* Handle slow unaligned access (it spans two pages or IO).  */
+     nb_oargs = def->nb_oargs;
--    if (size > 1
+     for (i = 0; i < nb_oargs; i++) {
--        && unlikely((addr & ~TARGET_PAGE_MASK) + size - 1
+         TCGTemp *ts = arg_temp(op->args[i]);
--                     >= TARGET_PAGE_SIZE)) {
+@@ -XXX,XX +XXX,XX @@ static bool fold_brcond(OptContext *ctx, TCGOp *op)
--    do_unaligned_access:
+     if (i > 0) {
--        store_helper_unaligned(env, addr, val, retaddr, size,
+         op->opc = INDEX_op_br;
--                               mmu_idx, memop_big_endian(op));
+         op->args[0] = op->args[3];
--        return;
++        finish_ebb(ctx);
--    }
++    } else {
--
++        finish_bb(ctx);
--    haddr = (void *)((uintptr_t)addr + entry->addend);
+     }
--    store_memop(haddr, val, op);
+-    return false;
 +    return true;
  }
--static void __attribute__((noinline))
+ static bool fold_brcond2(OptContext *ctx, TCGOp *op)
--full_stb_mmu(CPUArchState *env, target_ulong addr, uint64_t val,
+@@ -XXX,XX +XXX,XX @@ static bool fold_brcond2(OptContext *ctx, TCGOp *op)
--             MemOpIdx oi, uintptr_t retaddr)
+         }
-+static void do_st_2(CPUArchState *env, MMULookupPageData *p, uint16_t val,
+         op->opc = INDEX_op_br;
-+                    int mmu_idx, MemOp memop, uintptr_t ra)
+         op->args[0] = label;
- {
+-        break;
--    validate_memop(oi, MO_UB);
++        finish_ebb(ctx);
--    store_helper(env, addr, val, oi, retaddr, MO_UB);
++        return true;
-+    if (unlikely(p->flags & TLB_MMIO)) {
+     }
-+        io_writex(env, p->full, mmu_idx, val, p->addr, ra, memop);
+-    return false;
 +    } else if (unlikely(p->flags & TLB_DISCARD_WRITE)) {
 +        /* nothing */
 +    } else {
 +        /* Swap to host endian if necessary, then store. */
 +        if (memop & MO_BSWAP) {
 +            val = bswap16(val);
 +        }
 +        store_memop(p->haddr, val, MO_UW);
 +    }
 +}
 +
-+static void do_st_4(CPUArchState *env, MMULookupPageData *p, uint32_t val,
++    finish_bb(ctx);
-+                    int mmu_idx, MemOp memop, uintptr_t ra)
++    return true;
 +{
 +    if (unlikely(p->flags & TLB_MMIO)) {
 +        io_writex(env, p->full, mmu_idx, val, p->addr, ra, memop);
 +    } else if (unlikely(p->flags & TLB_DISCARD_WRITE)) {
 +        /* nothing */
 +    } else {
 +        /* Swap to host endian if necessary, then store. */
 +        if (memop & MO_BSWAP) {
 +            val = bswap32(val);
 +        }
 +        store_memop(p->haddr, val, MO_UL);
 +    }
 +}
 +
 +static void do_st_8(CPUArchState *env, MMULookupPageData *p, uint64_t val,
 +                    int mmu_idx, MemOp memop, uintptr_t ra)
 +{
 +    if (unlikely(p->flags & TLB_MMIO)) {
 +        io_writex(env, p->full, mmu_idx, val, p->addr, ra, memop);
 +    } else if (unlikely(p->flags & TLB_DISCARD_WRITE)) {
 +        /* nothing */
 +    } else {
 +        /* Swap to host endian if necessary, then store. */
 +        if (memop & MO_BSWAP) {
 +            val = bswap64(val);
 +        }
 +        store_memop(p->haddr, val, MO_UQ);
 +    }
  }
- void helper_ret_stb_mmu(CPUArchState *env, target_ulong addr, uint32_t val,
+ static bool fold_bswap(OptContext *ctx, TCGOp *op)
--                        MemOpIdx oi, uintptr_t retaddr)
+@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
-+                        MemOpIdx oi, uintptr_t ra)
+         CASE_OP_32_64_VEC(xor):
- {
+             done = fold_xor(&ctx, op);
--    full_stb_mmu(env, addr, val, oi, retaddr);
+             break;
-+    MMULookupLocals l;
++        case INDEX_op_set_label:
-+    bool crosspage;
++        case INDEX_op_br:
-+
++        case INDEX_op_exit_tb:
-+    validate_memop(oi, MO_UB);
++        case INDEX_op_goto_tb:
-+    crosspage = mmu_lookup(env, addr, oi, ra, MMU_DATA_STORE, &l);
++        case INDEX_op_goto_ptr:
-+    tcg_debug_assert(!crosspage);
++            finish_ebb(&ctx);
-+
++            done = true;
-+    do_st_1(env, &l.page[0], val, l.mmu_idx, ra);
++            break;
- }
+         default:
+             break;
--static void full_le_stw_mmu(CPUArchState *env, target_ulong addr, uint64_t val,
+         }
 -                            MemOpIdx oi, uintptr_t retaddr)
 +static void do_st2_mmu(CPUArchState *env, target_ulong addr, uint16_t val,
 +                       MemOpIdx oi, uintptr_t ra)
  {
 -    validate_memop(oi, MO_LEUW);
 -    store_helper(env, addr, val, oi, retaddr, MO_LEUW);
 +    MMULookupLocals l;
 +    bool crosspage;
 +    uint8_t a, b;
 +
 +    crosspage = mmu_lookup(env, addr, oi, ra, MMU_DATA_STORE, &l);
 +    if (likely(!crosspage)) {
 +        do_st_2(env, &l.page[0], val, l.mmu_idx, l.memop, ra);
 +        return;
 +    }
 +
 +    if ((l.memop & MO_BSWAP) == MO_LE) {
 +        a = val, b = val >> 8;
 +    } else {
 +        b = val, a = val >> 8;
 +    }
 +    do_st_1(env, &l.page[0], a, l.mmu_idx, ra);
 +    do_st_1(env, &l.page[1], b, l.mmu_idx, ra);
  }
  void helper_le_stw_mmu(CPUArchState *env, target_ulong addr, uint32_t val,
                         MemOpIdx oi, uintptr_t retaddr)
  {
 -    full_le_stw_mmu(env, addr, val, oi, retaddr);
 -}
 -
 -static void full_be_stw_mmu(CPUArchState *env, target_ulong addr, uint64_t val,
 -                            MemOpIdx oi, uintptr_t retaddr)
 -{
 -    validate_memop(oi, MO_BEUW);
 -    store_helper(env, addr, val, oi, retaddr, MO_BEUW);
 +    validate_memop(oi, MO_LEUW);
 +    do_st2_mmu(env, addr, val, oi, retaddr);
  }
  void helper_be_stw_mmu(CPUArchState *env, target_ulong addr, uint32_t val,
                         MemOpIdx oi, uintptr_t retaddr)
  {
 -    full_be_stw_mmu(env, addr, val, oi, retaddr);
 +    validate_memop(oi, MO_BEUW);
 +    do_st2_mmu(env, addr, val, oi, retaddr);
  }
 -static void full_le_stl_mmu(CPUArchState *env, target_ulong addr, uint64_t val,
 -                            MemOpIdx oi, uintptr_t retaddr)
 +static void do_st4_mmu(CPUArchState *env, target_ulong addr, uint32_t val,
 +                       MemOpIdx oi, uintptr_t ra)
  {
 -    validate_memop(oi, MO_LEUL);
 -    store_helper(env, addr, val, oi, retaddr, MO_LEUL);
 +    MMULookupLocals l;
 +    bool crosspage;
 +
 +    crosspage = mmu_lookup(env, addr, oi, ra, MMU_DATA_STORE, &l);
 +    if (likely(!crosspage)) {
 +        do_st_4(env, &l.page[0], val, l.mmu_idx, l.memop, ra);
 +        return;
 +    }
 +
 +    /* Swap to little endian for simplicity, then store by bytes. */
 +    if ((l.memop & MO_BSWAP) != MO_LE) {
 +        val = bswap32(val);
 +    }
 +    val = do_st_leN(env, &l.page[0], val, l.mmu_idx, ra);
 +    (void) do_st_leN(env, &l.page[1], val, l.mmu_idx, ra);
  }
  void helper_le_stl_mmu(CPUArchState *env, target_ulong addr, uint32_t val,
                         MemOpIdx oi, uintptr_t retaddr)
  {
 -    full_le_stl_mmu(env, addr, val, oi, retaddr);
 -}
 -
 -static void full_be_stl_mmu(CPUArchState *env, target_ulong addr, uint64_t val,
 -                            MemOpIdx oi, uintptr_t retaddr)
 -{
 -    validate_memop(oi, MO_BEUL);
 -    store_helper(env, addr, val, oi, retaddr, MO_BEUL);
 +    validate_memop(oi, MO_LEUL);
 +    do_st4_mmu(env, addr, val, oi, retaddr);
  }
  void helper_be_stl_mmu(CPUArchState *env, target_ulong addr, uint32_t val,
                         MemOpIdx oi, uintptr_t retaddr)
  {
 -    full_be_stl_mmu(env, addr, val, oi, retaddr);
 +    validate_memop(oi, MO_BEUL);
 +    do_st4_mmu(env, addr, val, oi, retaddr);
 +}
 +
 +static void do_st8_mmu(CPUArchState *env, target_ulong addr, uint64_t val,
 +                       MemOpIdx oi, uintptr_t ra)
 +{
 +    MMULookupLocals l;
 +    bool crosspage;
 +
 +    crosspage = mmu_lookup(env, addr, oi, ra, MMU_DATA_STORE, &l);
 +    if (likely(!crosspage)) {
 +        do_st_8(env, &l.page[0], val, l.mmu_idx, l.memop, ra);
 +        return;
 +    }
 +
 +    /* Swap to little endian for simplicity, then store by bytes. */
 +    if ((l.memop & MO_BSWAP) != MO_LE) {
 +        val = bswap64(val);
 +    }
 +    val = do_st_leN(env, &l.page[0], val, l.mmu_idx, ra);
 +    (void) do_st_leN(env, &l.page[1], val, l.mmu_idx, ra);
  }
  void helper_le_stq_mmu(CPUArchState *env, target_ulong addr, uint64_t val,
                         MemOpIdx oi, uintptr_t retaddr)
  {
      validate_memop(oi, MO_LEUQ);
 -    store_helper(env, addr, val, oi, retaddr, MO_LEUQ);
 +    do_st8_mmu(env, addr, val, oi, retaddr);
  }
  void helper_be_stq_mmu(CPUArchState *env, target_ulong addr, uint64_t val,
                         MemOpIdx oi, uintptr_t retaddr)
  {
      validate_memop(oi, MO_BEUQ);
 -    store_helper(env, addr, val, oi, retaddr, MO_BEUQ);
 +    do_st8_mmu(env, addr, val, oi, retaddr);
  }
  /*
   * Store Helpers for cpu_ldst.h
   */
 -typedef void FullStoreHelper(CPUArchState *env, target_ulong addr,
 -                             uint64_t val, MemOpIdx oi, uintptr_t retaddr);
 -
 -static inline void cpu_store_helper(CPUArchState *env, target_ulong addr,
 -                                    uint64_t val, MemOpIdx oi, uintptr_t ra,
 -                                    FullStoreHelper *full_store)
 +static void plugin_store_cb(CPUArchState *env, abi_ptr addr, MemOpIdx oi)
  {
 -    full_store(env, addr, val, oi, ra);
      qemu_plugin_vcpu_mem_cb(env_cpu(env), addr, oi, QEMU_PLUGIN_MEM_W);
  }
  void cpu_stb_mmu(CPUArchState *env, target_ulong addr, uint8_t val,
                   MemOpIdx oi, uintptr_t retaddr)
  {
 -    cpu_store_helper(env, addr, val, oi, retaddr, full_stb_mmu);
 +    helper_ret_stb_mmu(env, addr, val, oi, retaddr);
 +    plugin_store_cb(env, addr, oi);
  }
  void cpu_stw_be_mmu(CPUArchState *env, target_ulong addr, uint16_t val,
                      MemOpIdx oi, uintptr_t retaddr)
  {
 -    cpu_store_helper(env, addr, val, oi, retaddr, full_be_stw_mmu);
 +    helper_be_stw_mmu(env, addr, val, oi, retaddr);
 +    plugin_store_cb(env, addr, oi);
  }
  void cpu_stl_be_mmu(CPUArchState *env, target_ulong addr, uint32_t val,
                      MemOpIdx oi, uintptr_t retaddr)
  {
 -    cpu_store_helper(env, addr, val, oi, retaddr, full_be_stl_mmu);
 +    helper_be_stl_mmu(env, addr, val, oi, retaddr);
 +    plugin_store_cb(env, addr, oi);
  }
  void cpu_stq_be_mmu(CPUArchState *env, target_ulong addr, uint64_t val,
                      MemOpIdx oi, uintptr_t retaddr)
  {
 -    cpu_store_helper(env, addr, val, oi, retaddr, helper_be_stq_mmu);
 +    helper_be_stq_mmu(env, addr, val, oi, retaddr);
 +    plugin_store_cb(env, addr, oi);
  }
  void cpu_stw_le_mmu(CPUArchState *env, target_ulong addr, uint16_t val,
                      MemOpIdx oi, uintptr_t retaddr)
  {
 -    cpu_store_helper(env, addr, val, oi, retaddr, full_le_stw_mmu);
 +    helper_le_stw_mmu(env, addr, val, oi, retaddr);
 +    plugin_store_cb(env, addr, oi);
  }
  void cpu_stl_le_mmu(CPUArchState *env, target_ulong addr, uint32_t val,
                      MemOpIdx oi, uintptr_t retaddr)
  {
 -    cpu_store_helper(env, addr, val, oi, retaddr, full_le_stl_mmu);
 +    helper_le_stl_mmu(env, addr, val, oi, retaddr);
 +    plugin_store_cb(env, addr, oi);
  }
  void cpu_stq_le_mmu(CPUArchState *env, target_ulong addr, uint64_t val,
                      MemOpIdx oi, uintptr_t retaddr)
  {
 -    cpu_store_helper(env, addr, val, oi, retaddr, helper_le_stq_mmu);
 +    helper_le_stq_mmu(env, addr, val, oi, retaddr);
 +    plugin_store_cb(env, addr, oi);
  }
  void cpu_st16_be_mmu(CPUArchState *env, abi_ptr addr, Int128 val,
 --
-.34.1
+.43.0

-[PULL 27/53] tcg/ppc: Convert tcg_out_qemu_{ld,st}_slow_path
+[PULL 04/72] tcg/optimize: Split out fold_affected_mask
-Use tcg_out_ld_helper_args, tcg_out_ld_helper_ret,
+There are only a few logical operations which can compute
-and tcg_out_st_helper_args.
+an "affected" mask.  Split out handling of this optimization
 to a separate function, only to be called when applicable.
-Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
+Remove the a_mask field from OptContext, as the mask is
-Reviewed-by: Daniel Henrique Barboza <danielhb413@gmail.com>
+no longer stored anywhere.
 Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- tcg/ppc/tcg-target.c.inc | 88 ++++++++++++----------------------------
+ tcg/optimize.c | 42 +++++++++++++++++++++++++++---------------
-file changed, 26 insertions(+), 62 deletions(-)
+file changed, 27 insertions(+), 15 deletions(-)
-diff --git a/tcg/ppc/tcg-target.c.inc b/tcg/ppc/tcg-target.c.inc
+diff --git a/tcg/optimize.c b/tcg/optimize.c
 index XXXXXXX..XXXXXXX 100644
---- a/tcg/ppc/tcg-target.c.inc
+--- a/tcg/optimize.c
-+++ b/tcg/ppc/tcg-target.c.inc
++++ b/tcg/optimize.c
-@@ -XXX,XX +XXX,XX @@ static void * const qemu_st_helpers[(MO_SIZE | MO_BSWAP) + 1] = {
+@@ -XXX,XX +XXX,XX @@ typedef struct OptContext {
-     [MO_BEUQ] = helper_be_stq_mmu,
+     QSIMPLEQ_HEAD(, MemCopyInfo) mem_free;
- };
+     /* In flight values from optimization. */
-+static TCGReg ldst_ra_gen(TCGContext *s, const TCGLabelQemuLdst *l, int arg)
+-    uint64_t a_mask;  /* mask bit is 0 iff value identical to first input */
-+{
+     uint64_t z_mask;  /* mask bit is 0 iff value bit is 0 */
-+    if (arg < 0) {
+     uint64_t s_mask;  /* mask of clrsb(value) bits */
-+        arg = TCG_REG_TMP1;
+     TCGType type;
-+    }
+@@ -XXX,XX +XXX,XX @@ static bool fold_const2_commutative(OptContext *ctx, TCGOp *op)
-+    tcg_out32(s, MFSPR | RT(arg) | LR);
-+    return arg;
+ static bool fold_masks(OptContext *ctx, TCGOp *op)
  {
 -    uint64_t a_mask = ctx->a_mask;
      uint64_t z_mask = ctx->z_mask;
      uint64_t s_mask = ctx->s_mask;
@@ -XXX,XX +XXX,XX @@ static bool fold_masks(OptContext *ctx, TCGOp *op)
       * type changing opcodes.
       */
      if (ctx->type == TCG_TYPE_I32) {
 -        a_mask = (int32_t)a_mask;
          z_mask = (int32_t)z_mask;
          s_mask |= MAKE_64BIT_MASK(32, 32);
          ctx->z_mask = z_mask;
@@ -XXX,XX +XXX,XX @@ static bool fold_masks(OptContext *ctx, TCGOp *op)
      if (z_mask == 0) {
          return tcg_opt_gen_movi(ctx, op, op->args[0], 0);
      }
 +    return false;
 +}
 +
 +/*
-+ * For the purposes of ppc32 sorting 4 input registers into 4 argument
++ * An "affected" mask bit is 0 if and only if the result is identical
-+ * registers, there is an outside chance we would require 3 temps.
++ * to the first input.  Thus if the entire mask is 0, the operation
-+ * Because of constraints, no inputs are in r3, and env will not be
++ * is equivalent to a copy.
 + * placed into r3 until after the sorting is done, and is thus free.
 + */
-+static const TCGLdstHelperParam ldst_helper_param = {
++static bool fold_affected_mask(OptContext *ctx, TCGOp *op, uint64_t a_mask)
-+    .ra_gen = ldst_ra_gen,
++{
-+    .ntmp = 3,
++    if (ctx->type == TCG_TYPE_I32) {
-+    .tmp = { TCG_REG_TMP1, TCG_REG_R0, TCG_REG_R3 }
++        a_mask = (uint32_t)a_mask;
-+};
++    }
-+
+     if (a_mask == 0) {
- static bool tcg_out_qemu_ld_slow_path(TCGContext *s, TCGLabelQemuLdst *lb)
+         return tcg_opt_gen_mov(ctx, op, op->args[0], op->args[1]);
  {
 -    MemOpIdx oi = lb->oi;
 -    MemOp opc = get_memop(oi);
 -    TCGReg hi, lo, arg = TCG_REG_R3;
 +    MemOp opc = get_memop(lb->oi);
      if (!reloc_pc14(lb->label_ptr[0], tcg_splitwx_to_rx(s->code_ptr))) {
          return false;
      }
+@@ -XXX,XX +XXX,XX @@ static bool fold_and(OptContext *ctx, TCGOp *op)
--    tcg_out_mov(s, TCG_TYPE_PTR, arg++, TCG_AREG0);
+      * Known-zeros does not imply known-ones.  Therefore unless
--
+      * arg2 is constant, we can't infer affected bits from it.
--    lo = lb->addrlo_reg;
+      */
--    hi = lb->addrhi_reg;
+-    if (arg_is_const(op->args[2])) {
--    if (TCG_TARGET_REG_BITS < TARGET_LONG_BITS) {
+-        ctx->a_mask = z1 & ~z2;
--        arg |= (TCG_TARGET_CALL_ARG_I64 == TCG_CALL_ARG_EVEN);
++    if (arg_is_const(op->args[2]) &&
--        tcg_out_mov(s, TCG_TYPE_I32, arg++, hi);
++        fold_affected_mask(ctx, op, z1 & ~z2)) {
--        tcg_out_mov(s, TCG_TYPE_I32, arg++, lo);
++        return true;
 -    } else {
 -        /* If the address needed to be zero-extended, we'll have already
 -           placed it in R4.  The only remaining case is 64-bit guest.  */
 -        tcg_out_mov(s, TCG_TYPE_TL, arg++, lo);
 -    }
 -
 -    tcg_out_movi(s, TCG_TYPE_I32, arg++, oi);
 -    tcg_out32(s, MFSPR | RT(arg) | LR);
 -
 +    tcg_out_ld_helper_args(s, lb, &ldst_helper_param);
      tcg_out_call_int(s, LK, qemu_ld_helpers[opc & (MO_BSWAP | MO_SIZE)]);
 -
 -    lo = lb->datalo_reg;
 -    hi = lb->datahi_reg;
 -    if (TCG_TARGET_REG_BITS == 32 && (opc & MO_SIZE) == MO_64) {
 -        tcg_out_mov(s, TCG_TYPE_I32, lo, TCG_REG_R4);
 -        tcg_out_mov(s, TCG_TYPE_I32, hi, TCG_REG_R3);
 -    } else {
 -        tcg_out_movext(s, lb->type, lo,
 -                       TCG_TYPE_REG, opc & MO_SSIZE, TCG_REG_R3);
 -    }
 +    tcg_out_ld_helper_ret(s, lb, false, &ldst_helper_param);
      tcg_out_b(s, 0, lb->raddr);
      return true;
@@ -XXX,XX +XXX,XX @@ static bool tcg_out_qemu_ld_slow_path(TCGContext *s, TCGLabelQemuLdst *lb)
  static bool tcg_out_qemu_st_slow_path(TCGContext *s, TCGLabelQemuLdst *lb)
  {
 -    MemOpIdx oi = lb->oi;
 -    MemOp opc = get_memop(oi);
 -    MemOp s_bits = opc & MO_SIZE;
 -    TCGReg hi, lo, arg = TCG_REG_R3;
 +    MemOp opc = get_memop(lb->oi);
      if (!reloc_pc14(lb->label_ptr[0], tcg_splitwx_to_rx(s->code_ptr))) {
          return false;
      }
--    tcg_out_mov(s, TCG_TYPE_PTR, arg++, TCG_AREG0);
+     return fold_masks(ctx, op);
--
+@@ -XXX,XX +XXX,XX @@ static bool fold_andc(OptContext *ctx, TCGOp *op)
--    lo = lb->addrlo_reg;
+      */
--    hi = lb->addrhi_reg;
+     if (arg_is_const(op->args[2])) {
--    if (TCG_TARGET_REG_BITS < TARGET_LONG_BITS) {
+         uint64_t z2 = ~arg_info(op->args[2])->z_mask;
--        arg |= (TCG_TARGET_CALL_ARG_I64 == TCG_CALL_ARG_EVEN);
+-        ctx->a_mask = z1 & ~z2;
--        tcg_out_mov(s, TCG_TYPE_I32, arg++, hi);
++        if (fold_affected_mask(ctx, op, z1 & ~z2)) {
--        tcg_out_mov(s, TCG_TYPE_I32, arg++, lo);
++            return true;
--    } else {
++        }
--        /* If the address needed to be zero-extended, we'll have already
+         z1 &= z2;
--           placed it in R4.  The only remaining case is 64-bit guest.  */
+     }
--        tcg_out_mov(s, TCG_TYPE_TL, arg++, lo);
+     ctx->z_mask = z1;
--    }
+@@ -XXX,XX +XXX,XX @@ static bool fold_extract(OptContext *ctx, TCGOp *op)
--
--    lo = lb->datalo_reg;
+     z_mask_old = arg_info(op->args[1])->z_mask;
--    hi = lb->datahi_reg;
+     z_mask = extract64(z_mask_old, pos, len);
--    if (TCG_TARGET_REG_BITS == 32 && s_bits == MO_64) {
+-    if (pos == 0) {
--        arg |= (TCG_TARGET_CALL_ARG_I64 == TCG_CALL_ARG_EVEN);
+-        ctx->a_mask = z_mask_old ^ z_mask;
--        tcg_out_mov(s, TCG_TYPE_I32, arg++, hi);
++    if (pos == 0 && fold_affected_mask(ctx, op, z_mask_old ^ z_mask)) {
--        tcg_out_mov(s, TCG_TYPE_I32, arg++, lo);
++        return true;
--    } else {
+     }
--        tcg_out_movext(s, s_bits == MO_64 ? TCG_TYPE_I64 : TCG_TYPE_I32,
+     ctx->z_mask = z_mask;
--                       arg++, lb->type, s_bits, lo);
+     ctx->s_mask = smask_from_zmask(z_mask);
--    }
+@@ -XXX,XX +XXX,XX @@ static bool fold_exts(OptContext *ctx, TCGOp *op)
--
--    tcg_out_movi(s, TCG_TYPE_I32, arg++, oi);
+     ctx->z_mask = z_mask;
--    tcg_out32(s, MFSPR | RT(arg) | LR);
+     ctx->s_mask = s_mask;
--
+-    if (!type_change) {
-+    tcg_out_st_helper_args(s, lb, &ldst_helper_param);
+-        ctx->a_mask = s_mask & ~s_mask_old;
-     tcg_out_call_int(s, LK, qemu_st_helpers[opc & (MO_BSWAP | MO_SIZE)]);
++    if (!type_change && fold_affected_mask(ctx, op, s_mask & ~s_mask_old)) {
++        return true;
-     tcg_out_b(s, 0, lb->raddr);
+     }
      return fold_masks(ctx, op);
@@ -XXX,XX +XXX,XX @@ static bool fold_extu(OptContext *ctx, TCGOp *op)
      ctx->z_mask = z_mask;
      ctx->s_mask = smask_from_zmask(z_mask);
 -    if (!type_change) {
 -        ctx->a_mask = z_mask_old ^ z_mask;
 +    if (!type_change && fold_affected_mask(ctx, op, z_mask_old ^ z_mask)) {
 +        return true;
      }
      return fold_masks(ctx, op);
  }
@@ -XXX,XX +XXX,XX @@ static bool fold_sextract(OptContext *ctx, TCGOp *op)
      s_mask |= MAKE_64BIT_MASK(len, 64 - len);
      ctx->s_mask = s_mask;
 -    if (pos == 0) {
 -        ctx->a_mask = s_mask & ~s_mask_old;
 +    if (pos == 0 && fold_affected_mask(ctx, op, s_mask & ~s_mask_old)) {
 +        return true;
      }
      return fold_masks(ctx, op);
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
          }
          /* Assume all bits affected, no bits known zero, no sign reps. */
 -        ctx.a_mask = -1;
          ctx.z_mask = -1;
          ctx.s_mask = 0;
 --
-.34.1
+.43.0

-[PULL 36/53] tcg/ppc: Remove unused constraints A, B, C, D
+[PULL 05/72] tcg/optimize: Copy mask writeback to fold_masks
-These constraints have not been used for quite some time.
+Use of fold_masks should be restricted to those opcodes that
 can reliably make use of it -- those with a single output,
 and from higher-level folders that set up the masks.
 Prepare for conversion of each folder in turn.
-Fixes: 77b73de67632 ("Use rem/div[u]_i32 drop div[u]2_i32")
+Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
 Reviewed-by: Daniel Henrique Barboza <danielhb413@gmail.com>
 Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
 Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- tcg/ppc/tcg-target-con-str.h | 4 ----
+ tcg/optimize.c | 17 ++++++++++++++---
-file changed, 4 deletions(-)
+file changed, 14 insertions(+), 3 deletions(-)
-diff --git a/tcg/ppc/tcg-target-con-str.h b/tcg/ppc/tcg-target-con-str.h
+diff --git a/tcg/optimize.c b/tcg/optimize.c
 index XXXXXXX..XXXXXXX 100644
---- a/tcg/ppc/tcg-target-con-str.h
+--- a/tcg/optimize.c
-+++ b/tcg/ppc/tcg-target-con-str.h
++++ b/tcg/optimize.c
-@@ -XXX,XX +XXX,XX @@
+@@ -XXX,XX +XXX,XX @@ static bool fold_masks(OptContext *ctx, TCGOp *op)
-  */
+ {
- REGS('r', ALL_GENERAL_REGS)
+     uint64_t z_mask = ctx->z_mask;
- REGS('v', ALL_VECTOR_REGS)
+     uint64_t s_mask = ctx->s_mask;
--REGS('A', 1u << TCG_REG_R3)
++    const TCGOpDef *def = &tcg_op_defs[op->opc];
--REGS('B', 1u << TCG_REG_R4)
++    TCGTemp *ts;
--REGS('C', 1u << TCG_REG_R5)
++    TempOptInfo *ti;
--REGS('D', 1u << TCG_REG_R6)
++
 +    /* Only single-output opcodes are supported here. */
 +    tcg_debug_assert(def->nb_oargs == 1);
      /*
       * 32-bit ops generate 32-bit results, which for the purpose of
@@ -XXX,XX +XXX,XX @@ static bool fold_masks(OptContext *ctx, TCGOp *op)
      if (ctx->type == TCG_TYPE_I32) {
          z_mask = (int32_t)z_mask;
          s_mask |= MAKE_64BIT_MASK(32, 32);
 -        ctx->z_mask = z_mask;
 -        ctx->s_mask = s_mask;
      }
      if (z_mask == 0) {
          return tcg_opt_gen_movi(ctx, op, op->args[0], 0);
      }
 -    return false;
 +
 +    ts = arg_temp(op->args[0]);
 +    reset_ts(ctx, ts);
 +
 +    ti = ts_info(ts);
 +    ti->z_mask = z_mask;
 +    ti->s_mask = s_mask;
 +    return true;
  }
  /*
-  * Define constraint letters for constants:
 --
-.34.1
+.43.0

-[PULL 49/53] accel/tcg: Add cpu_in_serial_context
+[PULL 06/72] tcg/optimize: Split out fold_masks_zs
-Like cpu_in_exclusive_context, but also true if
+Add a routine to which masks can be passed directly, rather than
-there is no other cpu against which we could race.
+storing them into OptContext.  To be used in upcoming patches.
-Use it in tb_flush as a direct replacement.
+Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
 Use it in cpu_loop_exit_atomic to ensure that there
 is no loop against cpu_exec_step_atomic.
 Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
 Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
 Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- accel/tcg/internal.h        | 9 +++++++++
+ tcg/optimize.c | 15 ++++++++++++---
- accel/tcg/cpu-exec-common.c | 3 +++
+file changed, 12 insertions(+), 3 deletions(-)
  accel/tcg/tb-maint.c        | 2 +-
 files changed, 13 insertions(+), 1 deletion(-)
-diff --git a/accel/tcg/internal.h b/accel/tcg/internal.h
+diff --git a/tcg/optimize.c b/tcg/optimize.c
 index XXXXXXX..XXXXXXX 100644
---- a/accel/tcg/internal.h
+--- a/tcg/optimize.c
-+++ b/accel/tcg/internal.h
++++ b/tcg/optimize.c
-@@ -XXX,XX +XXX,XX @@ static inline target_ulong log_pc(CPUState *cpu, const TranslationBlock *tb)
+@@ -XXX,XX +XXX,XX @@ static bool fold_const2_commutative(OptContext *ctx, TCGOp *op)
-     }
+     return fold_const2(ctx, op);
  }
+-static bool fold_masks(OptContext *ctx, TCGOp *op)
 +/*
-+ * Return true if CS is not running in parallel with other cpus, either
++ * Record "zero" and "sign" masks for the single output of @op.
-+ * because there are no other cpus or we are within an exclusive context.
++ * See TempOptInfo definition of z_mask and s_mask.
 + * If z_mask allows, fold the output to constant zero.
 + */
-+static inline bool cpu_in_serial_context(CPUState *cs)
++static bool fold_masks_zs(OptContext *ctx, TCGOp *op,
 +                          uint64_t z_mask, uint64_t s_mask)
  {
 -    uint64_t z_mask = ctx->z_mask;
 -    uint64_t s_mask = ctx->s_mask;
      const TCGOpDef *def = &tcg_op_defs[op->opc];
      TCGTemp *ts;
      TempOptInfo *ti;
@@ -XXX,XX +XXX,XX @@ static bool fold_masks(OptContext *ctx, TCGOp *op)
      return true;
  }
 +static bool fold_masks(OptContext *ctx, TCGOp *op)
 +{
-+    return !(cs->tcg_cflags & CF_PARALLEL) || cpu_in_exclusive_context(cs);
++    return fold_masks_zs(ctx, op, ctx->z_mask, ctx->s_mask);
 +}
 +
- extern int64_t max_delay;
+ /*
- extern int64_t max_advance;
+  * An "affected" mask bit is 0 if and only if the result is identical
+  * to the first input.  Thus if the entire mask is 0, the operation
 diff --git a/accel/tcg/cpu-exec-common.c b/accel/tcg/cpu-exec-common.c
 index XXXXXXX..XXXXXXX 100644
 --- a/accel/tcg/cpu-exec-common.c
 +++ b/accel/tcg/cpu-exec-common.c
@@ -XXX,XX +XXX,XX @@
  #include "sysemu/tcg.h"
  #include "exec/exec-all.h"
  #include "qemu/plugin.h"
 +#include "internal.h"
  bool tcg_allowed;
@@ -XXX,XX +XXX,XX @@ void cpu_loop_exit_restore(CPUState *cpu, uintptr_t pc)
  void cpu_loop_exit_atomic(CPUState *cpu, uintptr_t pc)
  {
 +    /* Prevent looping if already executing in a serial context. */
 +    g_assert(!cpu_in_serial_context(cpu));
      cpu->exception_index = EXCP_ATOMIC;
      cpu_loop_exit_restore(cpu, pc);
  }
 diff --git a/accel/tcg/tb-maint.c b/accel/tcg/tb-maint.c
 index XXXXXXX..XXXXXXX 100644
 --- a/accel/tcg/tb-maint.c
 +++ b/accel/tcg/tb-maint.c
@@ -XXX,XX +XXX,XX @@ void tb_flush(CPUState *cpu)
      if (tcg_enabled()) {
          unsigned tb_flush_count = qatomic_read(&tb_ctx.tb_flush_count);
 -        if (cpu_in_exclusive_context(cpu)) {
 +        if (cpu_in_serial_context(cpu)) {
              do_tb_flush(cpu, RUN_ON_CPU_HOST_INT(tb_flush_count));
          } else {
              async_safe_run_on_cpu(cpu, do_tb_flush,
 --
-.34.1
+.43.0

-[PULL 31/53] tcg/mips: Remove MO_BSWAP handling
+[PULL 07/72] tcg/optimize: Augment s_mask from z_mask in fold_masks_zs
-While performing the load in the delay slot of the call to the common
+Consider the passed s_mask to be a minimum deduced from
-bswap helper function is cute, it is not worth the added complexity.
+either existing s_mask or from a sign-extension operation.
 We may be able to deduce more from the set of known zeros.
 Remove identical logic from several opcode folders.
-Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
+Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- tcg/mips/tcg-target.h     |   4 +-
+ tcg/optimize.c | 21 ++++++---------------
- tcg/mips/tcg-target.c.inc | 284 ++++++--------------------------------
+file changed, 6 insertions(+), 15 deletions(-)
 files changed, 48 insertions(+), 240 deletions(-)
-diff --git a/tcg/mips/tcg-target.h b/tcg/mips/tcg-target.h
+diff --git a/tcg/optimize.c b/tcg/optimize.c
 index XXXXXXX..XXXXXXX 100644
---- a/tcg/mips/tcg-target.h
+--- a/tcg/optimize.c
-+++ b/tcg/mips/tcg-target.h
++++ b/tcg/optimize.c
-@@ -XXX,XX +XXX,XX @@ extern bool use_mips32r2_instructions;
+@@ -XXX,XX +XXX,XX @@ static bool fold_const2_commutative(OptContext *ctx, TCGOp *op)
- #define TCG_TARGET_HAS_ext16u_i64       0 /* andi rt, rs, 0xffff */
+  * Record "zero" and "sign" masks for the single output of @op.
- #endif
+  * See TempOptInfo definition of z_mask and s_mask.
+  * If z_mask allows, fold the output to constant zero.
--#define TCG_TARGET_DEFAULT_MO (0)
++ * The passed s_mask may be augmented by z_mask.
--#define TCG_TARGET_HAS_MEMORY_BSWAP     1
+  */
-+#define TCG_TARGET_DEFAULT_MO           0
+ static bool fold_masks_zs(OptContext *ctx, TCGOp *op,
-+#define TCG_TARGET_HAS_MEMORY_BSWAP     0
+                           uint64_t z_mask, uint64_t s_mask)
+@@ -XXX,XX +XXX,XX @@ static bool fold_masks_zs(OptContext *ctx, TCGOp *op,
- #define TCG_TARGET_NEED_LDST_LABELS
+     ti = ts_info(ts);
-diff --git a/tcg/mips/tcg-target.c.inc b/tcg/mips/tcg-target.c.inc
+     ti->z_mask = z_mask;
-index XXXXXXX..XXXXXXX 100644
+-    ti->s_mask = s_mask;
---- a/tcg/mips/tcg-target.c.inc
++    ti->s_mask = s_mask | smask_from_zmask(z_mask);
-+++ b/tcg/mips/tcg-target.c.inc
+     return true;
@@ -XXX,XX +XXX,XX @@ static void tcg_out_call(TCGContext *s, const tcg_insn_unit *arg,
  }
- #if defined(CONFIG_SOFTMMU)
+@@ -XXX,XX +XXX,XX @@ static bool fold_bswap(OptContext *ctx, TCGOp *op)
 -static void * const qemu_ld_helpers[(MO_SSIZE | MO_BSWAP) + 1] = {
 +static void * const qemu_ld_helpers[MO_SSIZE + 1] = {
      [MO_UB]   = helper_ret_ldub_mmu,
      [MO_SB]   = helper_ret_ldsb_mmu,
 -    [MO_LEUW] = helper_le_lduw_mmu,
 -    [MO_LESW] = helper_le_ldsw_mmu,
 -    [MO_LEUL] = helper_le_ldul_mmu,
 -    [MO_LEUQ] = helper_le_ldq_mmu,
 -    [MO_BEUW] = helper_be_lduw_mmu,
 -    [MO_BESW] = helper_be_ldsw_mmu,
 -    [MO_BEUL] = helper_be_ldul_mmu,
 -    [MO_BEUQ] = helper_be_ldq_mmu,
 -#if TCG_TARGET_REG_BITS == 64
 -    [MO_LESL] = helper_le_ldsl_mmu,
 -    [MO_BESL] = helper_be_ldsl_mmu,
 +#if HOST_BIG_ENDIAN
 +    [MO_UW] = helper_be_lduw_mmu,
 +    [MO_SW] = helper_be_ldsw_mmu,
 +    [MO_UL] = helper_be_ldul_mmu,
 +    [MO_SL] = helper_be_ldsl_mmu,
 +    [MO_UQ] = helper_be_ldq_mmu,
 +#else
 +    [MO_UW] = helper_le_lduw_mmu,
 +    [MO_SW] = helper_le_ldsw_mmu,
 +    [MO_UL] = helper_le_ldul_mmu,
 +    [MO_UQ] = helper_le_ldq_mmu,
 +    [MO_SL] = helper_le_ldsl_mmu,
  #endif
  };
 -static void * const qemu_st_helpers[(MO_SIZE | MO_BSWAP) + 1] = {
 +static void * const qemu_st_helpers[MO_SIZE + 1] = {
      [MO_UB]   = helper_ret_stb_mmu,
 -    [MO_LEUW] = helper_le_stw_mmu,
 -    [MO_LEUL] = helper_le_stl_mmu,
 -    [MO_LEUQ] = helper_le_stq_mmu,
 -    [MO_BEUW] = helper_be_stw_mmu,
 -    [MO_BEUL] = helper_be_stl_mmu,
 -    [MO_BEUQ] = helper_be_stq_mmu,
 +#if HOST_BIG_ENDIAN
 +    [MO_UW] = helper_be_stw_mmu,
 +    [MO_UL] = helper_be_stl_mmu,
 +    [MO_UQ] = helper_be_stq_mmu,
 +#else
 +    [MO_UW] = helper_le_stw_mmu,
 +    [MO_UL] = helper_le_stl_mmu,
 +    [MO_UQ] = helper_le_stq_mmu,
 +#endif
  };
  /* We have four temps, we might as well expose three of them. */
@@ -XXX,XX +XXX,XX @@ static bool tcg_out_qemu_ld_slow_path(TCGContext *s, TCGLabelQemuLdst *l)
      tcg_out_ld_helper_args(s, l, &ldst_helper_param);
 -    tcg_out_call_int(s, qemu_ld_helpers[opc & (MO_BSWAP | MO_SSIZE)], false);
 +    tcg_out_call_int(s, qemu_ld_helpers[opc & MO_SSIZE], false);
      /* delay slot */
      tcg_out_nop(s);
@@ -XXX,XX +XXX,XX @@ static bool tcg_out_qemu_st_slow_path(TCGContext *s, TCGLabelQemuLdst *l)
      tcg_out_st_helper_args(s, l, &ldst_helper_param);
 -    tcg_out_call_int(s, qemu_st_helpers[opc & (MO_BSWAP | MO_SIZE)], false);
 +    tcg_out_call_int(s, qemu_st_helpers[opc & MO_SIZE], false);
      /* delay slot */
      tcg_out_nop(s);
@@ -XXX,XX +XXX,XX @@ static TCGLabelQemuLdst *prepare_host_addr(TCGContext *s, HostAddress *h,
  static void tcg_out_qemu_ld_direct(TCGContext *s, TCGReg lo, TCGReg hi,
                                     TCGReg base, MemOp opc, TCGType type)
  {
 -    switch (opc & (MO_SSIZE | MO_BSWAP)) {
 +    switch (opc & MO_SSIZE) {
      case MO_UB:
          tcg_out_opc_imm(s, OPC_LBU, lo, base, 0);
          break;
      case MO_SB:
          tcg_out_opc_imm(s, OPC_LB, lo, base, 0);
          break;
 -    case MO_UW | MO_BSWAP:
 -        tcg_out_opc_imm(s, OPC_LHU, TCG_TMP1, base, 0);
 -        tcg_out_bswap16(s, lo, TCG_TMP1, TCG_BSWAP_IZ | TCG_BSWAP_OZ);
 -        break;
      case MO_UW:
          tcg_out_opc_imm(s, OPC_LHU, lo, base, 0);
          break;
 -    case MO_SW | MO_BSWAP:
 -        tcg_out_opc_imm(s, OPC_LHU, TCG_TMP1, base, 0);
 -        tcg_out_bswap16(s, lo, TCG_TMP1, TCG_BSWAP_IZ | TCG_BSWAP_OS);
 -        break;
      case MO_SW:
          tcg_out_opc_imm(s, OPC_LH, lo, base, 0);
          break;
 -    case MO_UL | MO_BSWAP:
 -        if (TCG_TARGET_REG_BITS == 64 && type == TCG_TYPE_I64) {
 -            if (use_mips32r2_instructions) {
 -                tcg_out_opc_imm(s, OPC_LWU, lo, base, 0);
 -                tcg_out_bswap32(s, lo, lo, TCG_BSWAP_IZ | TCG_BSWAP_OZ);
 -            } else {
 -                tcg_out_bswap_subr(s, bswap32u_addr);
 -                /* delay slot */
 -                tcg_out_opc_imm(s, OPC_LWU, TCG_TMP0, base, 0);
 -                tcg_out_mov(s, TCG_TYPE_I64, lo, TCG_TMP3);
 -            }
 -            break;
 -        }
 -        /* FALLTHRU */
 -    case MO_SL | MO_BSWAP:
 -        if (use_mips32r2_instructions) {
 -            tcg_out_opc_imm(s, OPC_LW, lo, base, 0);
 -            tcg_out_bswap32(s, lo, lo, 0);
 -        } else {
 -            tcg_out_bswap_subr(s, bswap32_addr);
 -            /* delay slot */
 -            tcg_out_opc_imm(s, OPC_LW, TCG_TMP0, base, 0);
 -            tcg_out_mov(s, TCG_TYPE_I32, lo, TCG_TMP3);
 -        }
 -        break;
      case MO_UL:
          if (TCG_TARGET_REG_BITS == 64 && type == TCG_TYPE_I64) {
              tcg_out_opc_imm(s, OPC_LWU, lo, base, 0);
@@ -XXX,XX +XXX,XX @@ static void tcg_out_qemu_ld_direct(TCGContext *s, TCGReg lo, TCGReg hi,
      case MO_SL:
          tcg_out_opc_imm(s, OPC_LW, lo, base, 0);
          break;
 -    case MO_UQ | MO_BSWAP:
 -        if (TCG_TARGET_REG_BITS == 64) {
 -            if (use_mips32r2_instructions) {
 -                tcg_out_opc_imm(s, OPC_LD, lo, base, 0);
 -                tcg_out_bswap64(s, lo, lo);
 -            } else {
 -                tcg_out_bswap_subr(s, bswap64_addr);
 -                /* delay slot */
 -                tcg_out_opc_imm(s, OPC_LD, TCG_TMP0, base, 0);
 -                tcg_out_mov(s, TCG_TYPE_I64, lo, TCG_TMP3);
 -            }
 -        } else if (use_mips32r2_instructions) {
 -            tcg_out_opc_imm(s, OPC_LW, TCG_TMP0, base, 0);
 -            tcg_out_opc_imm(s, OPC_LW, TCG_TMP1, base, 4);
 -            tcg_out_opc_reg(s, OPC_WSBH, TCG_TMP0, 0, TCG_TMP0);
 -            tcg_out_opc_reg(s, OPC_WSBH, TCG_TMP1, 0, TCG_TMP1);
 -            tcg_out_opc_sa(s, OPC_ROTR, MIPS_BE ? lo : hi, TCG_TMP0, 16);
 -            tcg_out_opc_sa(s, OPC_ROTR, MIPS_BE ? hi : lo, TCG_TMP1, 16);
 -        } else {
 -            tcg_out_bswap_subr(s, bswap32_addr);
 -            /* delay slot */
 -            tcg_out_opc_imm(s, OPC_LW, TCG_TMP0, base, 0);
 -            tcg_out_opc_imm(s, OPC_LW, TCG_TMP0, base, 4);
 -            tcg_out_bswap_subr(s, bswap32_addr);
 -            /* delay slot */
 -            tcg_out_mov(s, TCG_TYPE_I32, MIPS_BE ? lo : hi, TCG_TMP3);
 -            tcg_out_mov(s, TCG_TYPE_I32, MIPS_BE ? hi : lo, TCG_TMP3);
 -        }
 -        break;
      case MO_UQ:
          /* Prefer to load from offset 0 first, but allow for overlap.  */
          if (TCG_TARGET_REG_BITS == 64) {
@@ -XXX,XX +XXX,XX @@ static void tcg_out_qemu_ld_unalign(TCGContext *s, TCGReg lo, TCGReg hi,
      const MIPSInsn lw2 = MIPS_BE ? OPC_LWR : OPC_LWL;
      const MIPSInsn ld1 = MIPS_BE ? OPC_LDL : OPC_LDR;
      const MIPSInsn ld2 = MIPS_BE ? OPC_LDR : OPC_LDL;
 +    bool sgn = opc & MO_SIGN;
 -    bool sgn = (opc & MO_SIGN);
 -
 -    switch (opc & (MO_SSIZE | MO_BSWAP)) {
 -    case MO_SW | MO_BE:
 -    case MO_UW | MO_BE:
 -        tcg_out_opc_imm(s, sgn ? OPC_LB : OPC_LBU, TCG_TMP0, base, 0);
 -        tcg_out_opc_imm(s, OPC_LBU, lo, base, 1);
 -        if (use_mips32r2_instructions) {
 -            tcg_out_opc_bf(s, OPC_INS, lo, TCG_TMP0, 31, 8);
 -        } else {
 -            tcg_out_opc_sa(s, OPC_SLL, TCG_TMP0, TCG_TMP0, 8);
 -            tcg_out_opc_reg(s, OPC_OR, lo, TCG_TMP0, TCG_TMP1);
 -        }
 -        break;
 -
 -    case MO_SW | MO_LE:
 -    case MO_UW | MO_LE:
 -        if (use_mips32r2_instructions && lo != base) {
 +    switch (opc & MO_SIZE) {
 +    case MO_16:
 +        if (HOST_BIG_ENDIAN) {
 +            tcg_out_opc_imm(s, sgn ? OPC_LB : OPC_LBU, TCG_TMP0, base, 0);
 +            tcg_out_opc_imm(s, OPC_LBU, lo, base, 1);
 +            if (use_mips32r2_instructions) {
 +                tcg_out_opc_bf(s, OPC_INS, lo, TCG_TMP0, 31, 8);
 +            } else {
 +                tcg_out_opc_sa(s, OPC_SLL, TCG_TMP0, TCG_TMP0, 8);
 +                tcg_out_opc_reg(s, OPC_OR, lo, lo, TCG_TMP0);
 +            }
 +        } else if (use_mips32r2_instructions && lo != base) {
              tcg_out_opc_imm(s, OPC_LBU, lo, base, 0);
              tcg_out_opc_imm(s, sgn ? OPC_LB : OPC_LBU, TCG_TMP0, base, 1);
              tcg_out_opc_bf(s, OPC_INS, lo, TCG_TMP0, 31, 8);
@@ -XXX,XX +XXX,XX @@ static void tcg_out_qemu_ld_unalign(TCGContext *s, TCGReg lo, TCGReg hi,
          }
          break;
 -    case MO_SL:
 -    case MO_UL:
 +    case MO_32:
          tcg_out_opc_imm(s, lw1, lo, base, 0);
          tcg_out_opc_imm(s, lw2, lo, base, 3);
          if (TCG_TARGET_REG_BITS == 64 && type == TCG_TYPE_I64 && !sgn) {
@@ -XXX,XX +XXX,XX @@ static void tcg_out_qemu_ld_unalign(TCGContext *s, TCGReg lo, TCGReg hi,
          }
          break;
 -    case MO_UL | MO_BSWAP:
 -    case MO_SL | MO_BSWAP:
 -        if (use_mips32r2_instructions) {
 -            tcg_out_opc_imm(s, lw1, lo, base, 0);
 -            tcg_out_opc_imm(s, lw2, lo, base, 3);
 -            tcg_out_bswap32(s, lo, lo,
 -                            TCG_TARGET_REG_BITS == 64 && type == TCG_TYPE_I64
 -                            ? (sgn ? TCG_BSWAP_OS : TCG_BSWAP_OZ) : 0);
 -        } else {
 -            const tcg_insn_unit *subr =
 -                (TCG_TARGET_REG_BITS == 64 && type == TCG_TYPE_I64 && !sgn
 -                 ? bswap32u_addr : bswap32_addr);
 -
 -            tcg_out_opc_imm(s, lw1, TCG_TMP0, base, 0);
 -            tcg_out_bswap_subr(s, subr);
 -            /* delay slot */
 -            tcg_out_opc_imm(s, lw2, TCG_TMP0, base, 3);
 -            tcg_out_mov(s, type, lo, TCG_TMP3);
 -        }
 -        break;
 -
 -    case MO_UQ:
 +    case MO_64:
          if (TCG_TARGET_REG_BITS == 64) {
              tcg_out_opc_imm(s, ld1, lo, base, 0);
              tcg_out_opc_imm(s, ld2, lo, base, 7);
@@ -XXX,XX +XXX,XX @@ static void tcg_out_qemu_ld_unalign(TCGContext *s, TCGReg lo, TCGReg hi,
          }
          break;
 -    case MO_UQ | MO_BSWAP:
 -        if (TCG_TARGET_REG_BITS == 64) {
 -            if (use_mips32r2_instructions) {
 -                tcg_out_opc_imm(s, ld1, lo, base, 0);
 -                tcg_out_opc_imm(s, ld2, lo, base, 7);
 -                tcg_out_bswap64(s, lo, lo);
 -            } else {
 -                tcg_out_opc_imm(s, ld1, TCG_TMP0, base, 0);
 -                tcg_out_bswap_subr(s, bswap64_addr);
 -                /* delay slot */
 -                tcg_out_opc_imm(s, ld2, TCG_TMP0, base, 7);
 -                tcg_out_mov(s, TCG_TYPE_I64, lo, TCG_TMP3);
 -            }
 -        } else if (use_mips32r2_instructions) {
 -            tcg_out_opc_imm(s, lw1, TCG_TMP0, base, 0 + 0);
 -            tcg_out_opc_imm(s, lw2, TCG_TMP0, base, 0 + 3);
 -            tcg_out_opc_imm(s, lw1, TCG_TMP1, base, 4 + 0);
 -            tcg_out_opc_imm(s, lw2, TCG_TMP1, base, 4 + 3);
 -            tcg_out_opc_reg(s, OPC_WSBH, TCG_TMP0, 0, TCG_TMP0);
 -            tcg_out_opc_reg(s, OPC_WSBH, TCG_TMP1, 0, TCG_TMP1);
 -            tcg_out_opc_sa(s, OPC_ROTR, MIPS_BE ? lo : hi, TCG_TMP0, 16);
 -            tcg_out_opc_sa(s, OPC_ROTR, MIPS_BE ? hi : lo, TCG_TMP1, 16);
 -        } else {
 -            tcg_out_opc_imm(s, lw1, TCG_TMP0, base, 0 + 0);
 -            tcg_out_bswap_subr(s, bswap32_addr);
 -            /* delay slot */
 -            tcg_out_opc_imm(s, lw2, TCG_TMP0, base, 0 + 3);
 -            tcg_out_opc_imm(s, lw1, TCG_TMP0, base, 4 + 0);
 -            tcg_out_mov(s, TCG_TYPE_I32, MIPS_BE ? lo : hi, TCG_TMP3);
 -            tcg_out_bswap_subr(s, bswap32_addr);
 -            /* delay slot */
 -            tcg_out_opc_imm(s, lw2, TCG_TMP0, base, 4 + 3);
 -            tcg_out_mov(s, TCG_TYPE_I32, MIPS_BE ? hi : lo, TCG_TMP3);
 -        }
 -        break;
 -
      default:
          g_assert_not_reached();
      }
-@@ -XXX,XX +XXX,XX @@ static void tcg_out_qemu_ld(TCGContext *s, TCGReg datalo, TCGReg datahi,
+-    s_mask = smask_from_zmask(z_mask);
- static void tcg_out_qemu_st_direct(TCGContext *s, TCGReg lo, TCGReg hi,
-                                    TCGReg base, MemOp opc)
++    s_mask = 0;
- {
+     switch (op->args[2] & (TCG_BSWAP_OZ | TCG_BSWAP_OS)) {
--    /* Don't clutter the code below with checks to avoid bswapping ZERO.  */
+     case TCG_BSWAP_OZ:
 -    if ((lo | hi) == 0) {
 -        opc &= ~MO_BSWAP;
 -    }
 -
 -    switch (opc & (MO_SIZE | MO_BSWAP)) {
 +    switch (opc & MO_SIZE) {
      case MO_8:
          tcg_out_opc_imm(s, OPC_SB, lo, base, 0);
          break;
--
+@@ -XXX,XX +XXX,XX @@ static bool fold_bswap(OptContext *ctx, TCGOp *op)
--    case MO_16 | MO_BSWAP:
+     default:
--        tcg_out_bswap16(s, TCG_TMP1, lo, 0);
+         /* The high bits are undefined: force all bits above the sign to 1. */
--        lo = TCG_TMP1;
+         z_mask |= sign << 1;
--        /* FALLTHRU */
+-        s_mask = 0;
      case MO_16:
          tcg_out_opc_imm(s, OPC_SH, lo, base, 0);
          break;
--
+     }
--    case MO_32 | MO_BSWAP:
+     ctx->z_mask = z_mask;
--        tcg_out_bswap32(s, TCG_TMP3, lo, 0);
+@@ -XXX,XX +XXX,XX @@ static bool fold_count_zeros(OptContext *ctx, TCGOp *op)
--        lo = TCG_TMP3;
+         g_assert_not_reached();
--        /* FALLTHRU */
+     }
-     case MO_32:
+     ctx->z_mask = arg_info(op->args[2])->z_mask | z_mask;
-         tcg_out_opc_imm(s, OPC_SW, lo, base, 0);
+-    ctx->s_mask = smask_from_zmask(ctx->z_mask);
-         break;
+     return false;
--
+ }
--    case MO_64 | MO_BSWAP:
--        if (TCG_TARGET_REG_BITS == 64) {
+@@ -XXX,XX +XXX,XX @@ static bool fold_ctpop(OptContext *ctx, TCGOp *op)
 -            tcg_out_bswap64(s, TCG_TMP3, lo);
 -            tcg_out_opc_imm(s, OPC_SD, TCG_TMP3, base, 0);
 -        } else if (use_mips32r2_instructions) {
 -            tcg_out_opc_reg(s, OPC_WSBH, TCG_TMP0, 0, MIPS_BE ? lo : hi);
 -            tcg_out_opc_reg(s, OPC_WSBH, TCG_TMP1, 0, MIPS_BE ? hi : lo);
 -            tcg_out_opc_sa(s, OPC_ROTR, TCG_TMP0, TCG_TMP0, 16);
 -            tcg_out_opc_sa(s, OPC_ROTR, TCG_TMP1, TCG_TMP1, 16);
 -            tcg_out_opc_imm(s, OPC_SW, TCG_TMP0, base, 0);
 -            tcg_out_opc_imm(s, OPC_SW, TCG_TMP1, base, 4);
 -        } else {
 -            tcg_out_bswap32(s, TCG_TMP3, MIPS_BE ? lo : hi, 0);
 -            tcg_out_opc_imm(s, OPC_SW, TCG_TMP3, base, 0);
 -            tcg_out_bswap32(s, TCG_TMP3, MIPS_BE ? hi : lo, 0);
 -            tcg_out_opc_imm(s, OPC_SW, TCG_TMP3, base, 4);
 -        }
 -        break;
      case MO_64:
          if (TCG_TARGET_REG_BITS == 64) {
              tcg_out_opc_imm(s, OPC_SD, lo, base, 0);
@@ -XXX,XX +XXX,XX @@ static void tcg_out_qemu_st_direct(TCGContext *s, TCGReg lo, TCGReg hi,
              tcg_out_opc_imm(s, OPC_SW, MIPS_BE ? lo : hi, base, 4);
          }
          break;
 -
      default:
          g_assert_not_reached();
      }
-@@ -XXX,XX +XXX,XX @@ static void tcg_out_qemu_st_unalign(TCGContext *s, TCGReg lo, TCGReg hi,
+-    ctx->s_mask = smask_from_zmask(ctx->z_mask);
-     const MIPSInsn sd1 = MIPS_BE ? OPC_SDL : OPC_SDR;
+     return false;
-     const MIPSInsn sd2 = MIPS_BE ? OPC_SDR : OPC_SDL;
+ }
--    /* Don't clutter the code below with checks to avoid bswapping ZERO.  */
+@@ -XXX,XX +XXX,XX @@ static bool fold_extract(OptContext *ctx, TCGOp *op)
--    if ((lo | hi) == 0) {
+         return true;
--        opc &= ~MO_BSWAP;
+     }
--    }
+     ctx->z_mask = z_mask;
--
+-    ctx->s_mask = smask_from_zmask(z_mask);
--    switch (opc & (MO_SIZE | MO_BSWAP)) {
--    case MO_16 | MO_BE:
+     return fold_masks(ctx, op);
-+    switch (opc & MO_SIZE) {
+ }
-+    case MO_16:
+@@ -XXX,XX +XXX,XX @@ static bool fold_extu(OptContext *ctx, TCGOp *op)
-         tcg_out_opc_sa(s, OPC_SRL, TCG_TMP0, lo, 8);
+     }
--        tcg_out_opc_imm(s, OPC_SB, TCG_TMP0, base, 0);
--        tcg_out_opc_imm(s, OPC_SB, lo, base, 1);
+     ctx->z_mask = z_mask;
-+        tcg_out_opc_imm(s, OPC_SB, HOST_BIG_ENDIAN ? TCG_TMP0 : lo, base, 0);
+-    ctx->s_mask = smask_from_zmask(z_mask);
-+        tcg_out_opc_imm(s, OPC_SB, HOST_BIG_ENDIAN ? lo : TCG_TMP0, base, 1);
+     if (!type_change && fold_affected_mask(ctx, op, z_mask_old ^ z_mask)) {
          return true;
      }
@@ -XXX,XX +XXX,XX @@ static bool fold_qemu_ld(OptContext *ctx, TCGOp *op)
      int width = 8 * memop_size(mop);
      if (width < 64) {
 -        ctx->s_mask = MAKE_64BIT_MASK(width, 64 - width);
 -        if (!(mop & MO_SIGN)) {
 +        if (mop & MO_SIGN) {
 +            ctx->s_mask = MAKE_64BIT_MASK(width, 64 - width);
 +        } else {
              ctx->z_mask = MAKE_64BIT_MASK(0, width);
 -            ctx->s_mask <<= 1;
          }
      }
@@ -XXX,XX +XXX,XX @@ static bool fold_setcond(OptContext *ctx, TCGOp *op)
      fold_setcond_tst_pow2(ctx, op, false);
      ctx->z_mask = 1;
 -    ctx->s_mask = smask_from_zmask(1);
      return false;
  }
@@ -XXX,XX +XXX,XX @@ static bool fold_setcond2(OptContext *ctx, TCGOp *op)
      }
      ctx->z_mask = 1;
 -    ctx->s_mask = smask_from_zmask(1);
      return false;
   do_setcond_const:
@@ -XXX,XX +XXX,XX @@ static bool fold_tcg_ld(OptContext *ctx, TCGOp *op)
          break;
+     CASE_OP_32_64(ld8u):
--    case MO_16 | MO_LE:
+         ctx->z_mask = MAKE_64BIT_MASK(0, 8);
--        tcg_out_opc_sa(s, OPC_SRL, TCG_TMP0, lo, 8);
+-        ctx->s_mask = MAKE_64BIT_MASK(9, 55);
 -        tcg_out_opc_imm(s, OPC_SB, lo, base, 0);
 -        tcg_out_opc_imm(s, OPC_SB, TCG_TMP0, base, 1);
 -        break;
 -
 -    case MO_32 | MO_BSWAP:
 -        tcg_out_bswap32(s, TCG_TMP3, lo, 0);
 -        lo = TCG_TMP3;
 -        /* fall through */
      case MO_32:
          tcg_out_opc_imm(s, sw1, lo, base, 0);
          tcg_out_opc_imm(s, sw2, lo, base, 3);
          break;
+     CASE_OP_32_64(ld16s):
--    case MO_64 | MO_BSWAP:
+         ctx->s_mask = MAKE_64BIT_MASK(16, 48);
--        if (TCG_TARGET_REG_BITS == 64) {
+         break;
--            tcg_out_bswap64(s, TCG_TMP3, lo);
+     CASE_OP_32_64(ld16u):
--            lo = TCG_TMP3;
+         ctx->z_mask = MAKE_64BIT_MASK(0, 16);
--        } else if (use_mips32r2_instructions) {
+-        ctx->s_mask = MAKE_64BIT_MASK(17, 47);
--            tcg_out_opc_reg(s, OPC_WSBH, TCG_TMP0, 0, MIPS_BE ? hi : lo);
+         break;
--            tcg_out_opc_reg(s, OPC_WSBH, TCG_TMP1, 0, MIPS_BE ? lo : hi);
+     case INDEX_op_ld32s_i64:
--            tcg_out_opc_sa(s, OPC_ROTR, TCG_TMP0, TCG_TMP0, 16);
+         ctx->s_mask = MAKE_64BIT_MASK(32, 32);
--            tcg_out_opc_sa(s, OPC_ROTR, TCG_TMP1, TCG_TMP1, 16);
+         break;
--            hi = MIPS_BE ? TCG_TMP0 : TCG_TMP1;
+     case INDEX_op_ld32u_i64:
--            lo = MIPS_BE ? TCG_TMP1 : TCG_TMP0;
+         ctx->z_mask = MAKE_64BIT_MASK(0, 32);
--        } else {
+-        ctx->s_mask = MAKE_64BIT_MASK(33, 31);
--            tcg_out_bswap32(s, TCG_TMP3, MIPS_BE ? lo : hi, 0);
+         break;
--            tcg_out_opc_imm(s, sw1, TCG_TMP3, base, 0 + 0);
+     default:
--            tcg_out_opc_imm(s, sw2, TCG_TMP3, base, 0 + 3);
+         g_assert_not_reached();
 -            tcg_out_bswap32(s, TCG_TMP3, MIPS_BE ? hi : lo, 0);
 -            tcg_out_opc_imm(s, sw1, TCG_TMP3, base, 4 + 0);
 -            tcg_out_opc_imm(s, sw2, TCG_TMP3, base, 4 + 3);
 -            break;
 -        }
 -        /* fall through */
      case MO_64:
          if (TCG_TARGET_REG_BITS == 64) {
              tcg_out_opc_imm(s, sd1, lo, base, 0);
 --
-.34.1
+.43.0

-[PULL 26/53] tcg/mips: Convert tcg_out_qemu_{ld,st}_slow_path
+[PULL 08/72] tcg/optimize: Change representation of s_mask
-Use tcg_out_ld_helper_args, tcg_out_ld_helper_ret,
+Change the representation from sign bit repetitions to all bits equal
-and tcg_out_st_helper_args.  This allows our local
+to the sign bit, including the sign bit itself.
 tcg_out_arg_* infrastructure to be removed.
-We are no longer filling the call or return branch
+The previous format has a problem in that it is difficult to recreate
-delay slots, nor are we tail-calling for the store,
+a valid sign mask after a shift operation: the "repetitions" part of
-but this seems a small price to pay.
+the previous format meant that applying the same shift as for the value
 lead to an off-by-one value.
-Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
+The new format, including the sign bit itself, means that the sign mask
 can be manipulated in exactly the same way as the value, canonicalization
 is easier.
 Canonicalize the s_mask in fold_masks_zs, rather than requiring callers
 to do so.  Treat 0 as a non-canonical but typeless input for no sign
 information, which will be reset as appropriate for the data type.
 We can easily fold in the data from z_mask while canonicalizing.
 Temporarily disable optimizations using s_mask while each operation is
 converted to use fold_masks_zs and to the new form.
 Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- tcg/mips/tcg-target.c.inc | 154 ++++++--------------------------------
+ tcg/optimize.c | 64 ++++++++++++--------------------------------------
-file changed, 22 insertions(+), 132 deletions(-)
+file changed, 15 insertions(+), 49 deletions(-)
-diff --git a/tcg/mips/tcg-target.c.inc b/tcg/mips/tcg-target.c.inc
+diff --git a/tcg/optimize.c b/tcg/optimize.c
 index XXXXXXX..XXXXXXX 100644
---- a/tcg/mips/tcg-target.c.inc
+--- a/tcg/optimize.c
-+++ b/tcg/mips/tcg-target.c.inc
++++ b/tcg/optimize.c
-@@ -XXX,XX +XXX,XX @@ static void * const qemu_st_helpers[(MO_SIZE | MO_BSWAP) + 1] = {
+@@ -XXX,XX +XXX,XX @@ typedef struct TempOptInfo {
-     [MO_BEUQ] = helper_be_stq_mmu,
+     QSIMPLEQ_HEAD(, MemCopyInfo) mem_copy;
- };
+     uint64_t val;
+     uint64_t z_mask;  /* mask bit is 0 if and only if value bit is 0 */
--/* Helper routines for marshalling helper function arguments into
+-    uint64_t s_mask;  /* a left-aligned mask of clrsb(value) bits. */
-- * the correct registers and stack.
++    uint64_t s_mask;  /* mask bit is 1 if value bit matches msb */
-- * I is where we want to put this argument, and is updated and returned
+ } TempOptInfo;
-- * for the next call. ARG is the argument itself.
-- *
+ typedef struct OptContext {
-- * We provide routines for arguments which are: immediate, 32 bit
+@@ -XXX,XX +XXX,XX @@ typedef struct OptContext {
-- * value in register, 16 and 8 bit values in register (which must be zero
-- * extended before use) and 64 bit value in a lo:hi register pair.
+     /* In flight values from optimization. */
-- */
+     uint64_t z_mask;  /* mask bit is 0 iff value bit is 0 */
--
+-    uint64_t s_mask;  /* mask of clrsb(value) bits */
--static int tcg_out_call_iarg_reg(TCGContext *s, int i, TCGReg arg)
++    uint64_t s_mask;  /* mask bit is 1 if value bit matches msb */
      TCGType type;
  } OptContext;
 -/* Calculate the smask for a specific value. */
 -static uint64_t smask_from_value(uint64_t value)
 -{
--    if (i < ARRAY_SIZE(tcg_target_call_iarg_regs)) {
+-    int rep = clrsb64(value);
--        tcg_out_mov(s, TCG_TYPE_REG, tcg_target_call_iarg_regs[i], arg);
+-    return ~(~0ull >> rep);
 -    } else {
 -        /* For N32 and N64, the initial offset is different.  But there
 -           we also have 8 argument register so we don't run out here.  */
 -        tcg_debug_assert(TCG_TARGET_REG_BITS == 32);
 -        tcg_out_st(s, TCG_TYPE_REG, arg, TCG_REG_SP, 4 * i);
 -    }
 -    return i + 1;
 -}
 -
--static int tcg_out_call_iarg_reg8(TCGContext *s, int i, TCGReg arg)
+-/*
 - * Calculate the smask for a given set of known-zeros.
 - * If there are lots of zeros on the left, we can consider the remainder
 - * an unsigned field, and thus the corresponding signed field is one bit
 - * larger.
 - */
 -static uint64_t smask_from_zmask(uint64_t zmask)
 -{
--    TCGReg tmp = TCG_TMP0;
+-    /*
--    if (i < ARRAY_SIZE(tcg_target_call_iarg_regs)) {
+-     * Only the 0 bits are significant for zmask, thus the msb itself
--        tmp = tcg_target_call_iarg_regs[i];
+-     * must be zero, else we have no sign information.
 -     */
 -    int rep = clz64(zmask);
 -    if (rep == 0) {
 -        return 0;
 -    }
--    tcg_out_ext8u(s, tmp, arg);
+-    rep -= 1;
--    return tcg_out_call_iarg_reg(s, i, tmp);
+-    return ~(~0ull >> rep);
 -}
 -
--static int tcg_out_call_iarg_reg16(TCGContext *s, int i, TCGReg arg)
+-/*
 - * Recreate a properly left-aligned smask after manipulation.
 - * Some bit-shuffling, particularly shifts and rotates, may
 - * retain sign bits on the left, but may scatter disconnected
 - * sign bits on the right.  Retain only what remains to the left.
 - */
 -static uint64_t smask_from_smask(int64_t smask)
 -{
--    TCGReg tmp = TCG_TMP0;
+-    /* Only the 1 bits are significant for smask */
--    if (i < ARRAY_SIZE(tcg_target_call_iarg_regs)) {
+-    return smask_from_zmask(~smask);
 -        tmp = tcg_target_call_iarg_regs[i];
 -    }
 -    tcg_out_opc_imm(s, OPC_ANDI, tmp, arg, 0xffff);
 -    return tcg_out_call_iarg_reg(s, i, tmp);
 -}
 -
--static int tcg_out_call_iarg_imm(TCGContext *s, int i, TCGArg arg)
+ static inline TempOptInfo *ts_info(TCGTemp *ts)
 -{
 -    TCGReg tmp = TCG_TMP0;
 -    if (arg == 0) {
 -        tmp = TCG_REG_ZERO;
 -    } else {
 -        if (i < ARRAY_SIZE(tcg_target_call_iarg_regs)) {
 -            tmp = tcg_target_call_iarg_regs[i];
 -        }
 -        tcg_out_movi(s, TCG_TYPE_REG, tmp, arg);
 -    }
 -    return tcg_out_call_iarg_reg(s, i, tmp);
 -}
 -
 -static int tcg_out_call_iarg_reg2(TCGContext *s, int i, TCGReg al, TCGReg ah)
 -{
 -    tcg_debug_assert(TCG_TARGET_REG_BITS == 32);
 -    i = (i + 1) & ~1;
 -    i = tcg_out_call_iarg_reg(s, i, (MIPS_BE ? ah : al));
 -    i = tcg_out_call_iarg_reg(s, i, (MIPS_BE ? al : ah));
 -    return i;
 -}
 +/* We have four temps, we might as well expose three of them. */
 +static const TCGLdstHelperParam ldst_helper_param = {
 +    .ntmp = 3, .tmp = { TCG_TMP0, TCG_TMP1, TCG_TMP2 }
 +};
  static bool tcg_out_qemu_ld_slow_path(TCGContext *s, TCGLabelQemuLdst *l)
  {
-     const tcg_insn_unit *tgt_rx = tcg_splitwx_to_rx(s->code_ptr);
+     return ts->state_ptr;
--    MemOpIdx oi = l->oi;
+@@ -XXX,XX +XXX,XX @@ static void init_ts_info(OptContext *ctx, TCGTemp *ts)
--    MemOp opc = get_memop(oi);
+         ti->is_const = true;
--    TCGReg v0;
+         ti->val = ts->val;
--    int i;
+         ti->z_mask = ts->val;
-+    MemOp opc = get_memop(l->oi);
+-        ti->s_mask = smask_from_value(ts->val);
++        ti->s_mask = INT64_MIN >> clrsb64(ts->val);
-     /* resolve label address */
+     } else {
-     if (!reloc_pc16(l->label_ptr[0], tgt_rx)
+         ti->is_const = false;
-@@ -XXX,XX +XXX,XX @@ static bool tcg_out_qemu_ld_slow_path(TCGContext *s, TCGLabelQemuLdst *l)
+         ti->z_mask = -1;
-         return false;
+@@ -XXX,XX +XXX,XX @@ static void finish_folding(OptContext *ctx, TCGOp *op)
           */
          if (i == 0) {
              ts_info(ts)->z_mask = ctx->z_mask;
 -            ts_info(ts)->s_mask = ctx->s_mask;
          }
      }
+ }
--    i = 1;
+@@ -XXX,XX +XXX,XX @@ static bool fold_const2_commutative(OptContext *ctx, TCGOp *op)
--    if (TCG_TARGET_REG_BITS < TARGET_LONG_BITS) {
+  * The passed s_mask may be augmented by z_mask.
--        i = tcg_out_call_iarg_reg2(s, i, l->addrlo_reg, l->addrhi_reg);
+  */
--    } else {
+ static bool fold_masks_zs(OptContext *ctx, TCGOp *op,
--        i = tcg_out_call_iarg_reg(s, i, l->addrlo_reg);
+-                          uint64_t z_mask, uint64_t s_mask)
--    }
++                          uint64_t z_mask, int64_t s_mask)
--    i = tcg_out_call_iarg_imm(s, i, oi);
+ {
--    i = tcg_out_call_iarg_imm(s, i, (intptr_t)l->raddr);
+     const TCGOpDef *def = &tcg_op_defs[op->opc];
-+    tcg_out_ld_helper_args(s, l, &ldst_helper_param);
+     TCGTemp *ts;
      TempOptInfo *ti;
 +    int rep;
      /* Only single-output opcodes are supported here. */
      tcg_debug_assert(def->nb_oargs == 1);
@@ -XXX,XX +XXX,XX @@ static bool fold_masks_zs(OptContext *ctx, TCGOp *op,
       */
      if (ctx->type == TCG_TYPE_I32) {
          z_mask = (int32_t)z_mask;
 -        s_mask |= MAKE_64BIT_MASK(32, 32);
 +        s_mask |= INT32_MIN;
      }
      if (z_mask == 0) {
@@ -XXX,XX +XXX,XX @@ static bool fold_masks_zs(OptContext *ctx, TCGOp *op,
      ti = ts_info(ts);
      ti->z_mask = z_mask;
 -    ti->s_mask = s_mask | smask_from_zmask(z_mask);
 +
-     tcg_out_call_int(s, qemu_ld_helpers[opc & (MO_BSWAP | MO_SSIZE)], false);
++    /* Canonicalize s_mask and incorporate data from z_mask. */
-     /* delay slot */
++    rep = clz64(~s_mask);
--    tcg_out_mov(s, TCG_TYPE_PTR, tcg_target_call_iarg_regs[0], TCG_AREG0);
++    rep = MAX(rep, clz64(z_mask));
-+    tcg_out_nop(s);
++    rep = MAX(rep - 1, 0);
++    ti->s_mask = INT64_MIN >> rep;
--    v0 = l->datalo_reg;
++
 -    if (TCG_TARGET_REG_BITS == 32 && (opc & MO_SIZE) == MO_64) {
 -        /* We eliminated V0 from the possible output registers, so it
 -           cannot be clobbered here.  So we must move V1 first.  */
 -        if (MIPS_BE) {
 -            tcg_out_mov(s, TCG_TYPE_I32, v0, TCG_REG_V1);
 -            v0 = l->datahi_reg;
 -        } else {
 -            tcg_out_mov(s, TCG_TYPE_I32, l->datahi_reg, TCG_REG_V1);
 -        }
 -    }
 +    tcg_out_ld_helper_ret(s, l, true, &ldst_helper_param);
      tcg_out_opc_br(s, OPC_BEQ, TCG_REG_ZERO, TCG_REG_ZERO);
      if (!reloc_pc16(s->code_ptr - 1, l->raddr)) {
@@ -XXX,XX +XXX,XX @@ static bool tcg_out_qemu_ld_slow_path(TCGContext *s, TCGLabelQemuLdst *l)
      }
      /* delay slot */
 -    if (TCG_TARGET_REG_BITS == 64 && l->type == TCG_TYPE_I32) {
 -        /* we always sign-extend 32-bit loads */
 -        tcg_out_ext32s(s, v0, TCG_REG_V0);
 -    } else {
 -        tcg_out_opc_reg(s, OPC_OR, v0, TCG_REG_V0, TCG_REG_ZERO);
 -    }
 +    tcg_out_nop(s);
      return true;
  }
- static bool tcg_out_qemu_st_slow_path(TCGContext *s, TCGLabelQemuLdst *l)
+@@ -XXX,XX +XXX,XX @@ static bool fold_exts(OptContext *ctx, TCGOp *op)
- {
-     const tcg_insn_unit *tgt_rx = tcg_splitwx_to_rx(s->code_ptr);
+     ctx->z_mask = z_mask;
--    MemOpIdx oi = l->oi;
+     ctx->s_mask = s_mask;
--    MemOp opc = get_memop(oi);
+-    if (!type_change && fold_affected_mask(ctx, op, s_mask & ~s_mask_old)) {
--    MemOp s_bits = opc & MO_SIZE;
++    if (0 && !type_change && fold_affected_mask(ctx, op, s_mask & ~s_mask_old)) {
--    int i;
+         return true;
 +    MemOp opc = get_memop(l->oi);
      /* resolve label address */
      if (!reloc_pc16(l->label_ptr[0], tgt_rx)
@@ -XXX,XX +XXX,XX @@ static bool tcg_out_qemu_st_slow_path(TCGContext *s, TCGLabelQemuLdst *l)
          return false;
      }
--    i = 1;
+@@ -XXX,XX +XXX,XX @@ static bool fold_sextract(OptContext *ctx, TCGOp *op)
--    if (TCG_TARGET_REG_BITS < TARGET_LONG_BITS) {
+     s_mask |= MAKE_64BIT_MASK(len, 64 - len);
--        i = tcg_out_call_iarg_reg2(s, i, l->addrlo_reg, l->addrhi_reg);
+     ctx->s_mask = s_mask;
--    } else {
--        i = tcg_out_call_iarg_reg(s, i, l->addrlo_reg);
+-    if (pos == 0 && fold_affected_mask(ctx, op, s_mask & ~s_mask_old)) {
--    }
++    if (0 && pos == 0 && fold_affected_mask(ctx, op, s_mask & ~s_mask_old)) {
--    switch (s_bits) {
+         return true;
--    case MO_8:
+     }
--        i = tcg_out_call_iarg_reg8(s, i, l->datalo_reg);
--        break;
+@@ -XXX,XX +XXX,XX @@ static bool fold_shift(OptContext *ctx, TCGOp *op)
--    case MO_16:
+         ctx->z_mask = do_constant_folding(op->opc, ctx->type, z_mask, sh);
--        i = tcg_out_call_iarg_reg16(s, i, l->datalo_reg);
--        break;
+         s_mask = do_constant_folding(op->opc, ctx->type, s_mask, sh);
--    case MO_32:
+-        ctx->s_mask = smask_from_smask(s_mask);
--        i = tcg_out_call_iarg_reg(s, i, l->datalo_reg);
--        break;
+         return fold_masks(ctx, op);
--    case MO_64:
+     }
 -        if (TCG_TARGET_REG_BITS == 32) {
 -            i = tcg_out_call_iarg_reg2(s, i, l->datalo_reg, l->datahi_reg);
 -        } else {
 -            i = tcg_out_call_iarg_reg(s, i, l->datalo_reg);
 -        }
 -        break;
 -    default:
 -        g_assert_not_reached();
 -    }
 -    i = tcg_out_call_iarg_imm(s, i, oi);
 +    tcg_out_st_helper_args(s, l, &ldst_helper_param);
 -    /* Tail call to the store helper.  Thus force the return address
 -       computation to take place in the return address register.  */
 -    tcg_out_movi(s, TCG_TYPE_PTR, TCG_REG_RA, (intptr_t)l->raddr);
 -    i = tcg_out_call_iarg_reg(s, i, TCG_REG_RA);
 -    tcg_out_call_int(s, qemu_st_helpers[opc & (MO_BSWAP | MO_SIZE)], true);
 +    tcg_out_call_int(s, qemu_st_helpers[opc & (MO_BSWAP | MO_SIZE)], false);
      /* delay slot */
 -    tcg_out_mov(s, TCG_TYPE_PTR, tcg_target_call_iarg_regs[0], TCG_AREG0);
 +    tcg_out_nop(s);
 +
 +    tcg_out_opc_br(s, OPC_BEQ, TCG_REG_ZERO, TCG_REG_ZERO);
 +    if (!reloc_pc16(s->code_ptr - 1, l->raddr)) {
 +        return false;
 +    }
 +
 +    /* delay slot */
 +    tcg_out_nop(s);
      return true;
  }
 --
-.34.1
+.43.0

-[PULL 50/53] accel/tcg: Introduce tlb_read_idx
+[PULL 09/72] tcg/optimize: Use finish_folding in fold_add, fold_add_vec, fold_addsub2
-Instead of playing with offsetof in various places, use
+Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
 MMUAccessType to index an array.  This is easily defined
 instead of the previous dummy padding array in the union.
 Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
 Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
 Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- include/exec/cpu-defs.h |   7 ++-
+ tcg/optimize.c | 9 +++++----
- include/exec/cpu_ldst.h |  26 ++++++++--
+file changed, 5 insertions(+), 4 deletions(-)
  accel/tcg/cputlb.c      | 104 +++++++++++++---------------------------
 files changed, 59 insertions(+), 78 deletions(-)
-diff --git a/include/exec/cpu-defs.h b/include/exec/cpu-defs.h
+diff --git a/tcg/optimize.c b/tcg/optimize.c
 index XXXXXXX..XXXXXXX 100644
---- a/include/exec/cpu-defs.h
+--- a/tcg/optimize.c
-+++ b/include/exec/cpu-defs.h
++++ b/tcg/optimize.c
-@@ -XXX,XX +XXX,XX @@ typedef struct CPUTLBEntry {
+@@ -XXX,XX +XXX,XX @@ static void finish_ebb(OptContext *ctx)
-                use the corresponding iotlb value.  */
+     remove_mem_copy_all(ctx);
-             uintptr_t addend;
+ }
-         };
--        /* padding to get a power of two size */
+-static void finish_folding(OptContext *ctx, TCGOp *op)
--        uint8_t dummy[1 << CPU_TLB_ENTRY_BITS];
++static bool finish_folding(OptContext *ctx, TCGOp *op)
 +        /*
 +         * Padding to get a power of two size, as well as index
 +         * access to addr_{read,write,code}.
 +         */
 +        target_ulong addr_idx[(1 << CPU_TLB_ENTRY_BITS) / TARGET_LONG_SIZE];
      };
  } CPUTLBEntry;
 diff --git a/include/exec/cpu_ldst.h b/include/exec/cpu_ldst.h
 index XXXXXXX..XXXXXXX 100644
 --- a/include/exec/cpu_ldst.h
 +++ b/include/exec/cpu_ldst.h
@@ -XXX,XX +XXX,XX @@ static inline void clear_helper_retaddr(void)
  /* Needed for TCG_OVERSIZED_GUEST */
  #include "tcg/tcg.h"
 +static inline target_ulong tlb_read_idx(const CPUTLBEntry *entry,
 +                                        MMUAccessType access_type)
 +{
 +    /* Do not rearrange the CPUTLBEntry structure members. */
 +    QEMU_BUILD_BUG_ON(offsetof(CPUTLBEntry, addr_read) !=
 +                      MMU_DATA_LOAD * TARGET_LONG_SIZE);
 +    QEMU_BUILD_BUG_ON(offsetof(CPUTLBEntry, addr_write) !=
 +                      MMU_DATA_STORE * TARGET_LONG_SIZE);
 +    QEMU_BUILD_BUG_ON(offsetof(CPUTLBEntry, addr_code) !=
 +                      MMU_INST_FETCH * TARGET_LONG_SIZE);
 +
 +    const target_ulong *ptr = &entry->addr_idx[access_type];
 +#if TCG_OVERSIZED_GUEST
 +    return *ptr;
 +#else
 +    /* ofs might correspond to .addr_write, so use qatomic_read */
 +    return qatomic_read(ptr);
 +#endif
 +}
 +
  static inline target_ulong tlb_addr_write(const CPUTLBEntry *entry)
  {
--#if TCG_OVERSIZED_GUEST
+     const TCGOpDef *def = &tcg_op_defs[op->opc];
--    return entry->addr_write;
+     int i, nb_oargs;
--#else
+@@ -XXX,XX +XXX,XX @@ static void finish_folding(OptContext *ctx, TCGOp *op)
--    return qatomic_read(&entry->addr_write);
+             ts_info(ts)->z_mask = ctx->z_mask;
--#endif
+         }
-+    return tlb_read_idx(entry, MMU_DATA_STORE);
+     }
 +    return true;
  }
- /* Find the TLB index corresponding to the mmu_idx + address pair.  */
+ /*
-diff --git a/accel/tcg/cputlb.c b/accel/tcg/cputlb.c
+@@ -XXX,XX +XXX,XX @@ static bool fold_add(OptContext *ctx, TCGOp *op)
-index XXXXXXX..XXXXXXX 100644
+         fold_xi_to_x(ctx, op, 0)) {
---- a/accel/tcg/cputlb.c
+         return true;
 +++ b/accel/tcg/cputlb.c
@@ -XXX,XX +XXX,XX @@ static void io_writex(CPUArchState *env, CPUTLBEntryFull *full,
      }
+-    return false;
++    return finish_folding(ctx, op);
  }
--static inline target_ulong tlb_read_ofs(CPUTLBEntry *entry, size_t ofs)
+ /* We cannot as yet do_constant_folding with vectors. */
--{
+@@ -XXX,XX +XXX,XX @@ static bool fold_add_vec(OptContext *ctx, TCGOp *op)
--#if TCG_OVERSIZED_GUEST
+         fold_xi_to_x(ctx, op, 0)) {
--    return *(target_ulong *)((uintptr_t)entry + ofs);
+         return true;
--#else
+     }
--    /* ofs might correspond to .addr_write, so use qatomic_read */
+-    return false;
--    return qatomic_read((target_ulong *)((uintptr_t)entry + ofs));
++    return finish_folding(ctx, op);
 -#endif
 -}
 -
  /* Return true if ADDR is present in the victim tlb, and has been copied
     back to the main tlb.  */
  static bool victim_tlb_hit(CPUArchState *env, size_t mmu_idx, size_t index,
 -                           size_t elt_ofs, target_ulong page)
 +                           MMUAccessType access_type, target_ulong page)
  {
      size_t vidx;
      assert_cpu_is_self(env_cpu(env));
      for (vidx = 0; vidx < CPU_VTLB_SIZE; ++vidx) {
          CPUTLBEntry *vtlb = &env_tlb(env)->d[mmu_idx].vtable[vidx];
 -        target_ulong cmp;
 -
 -        /* elt_ofs might correspond to .addr_write, so use qatomic_read */
 -#if TCG_OVERSIZED_GUEST
 -        cmp = *(target_ulong *)((uintptr_t)vtlb + elt_ofs);
 -#else
 -        cmp = qatomic_read((target_ulong *)((uintptr_t)vtlb + elt_ofs));
 -#endif
 +        target_ulong cmp = tlb_read_idx(vtlb, access_type);
          if (cmp == page) {
              /* Found entry in victim tlb, swap tlb and iotlb.  */
@@ -XXX,XX +XXX,XX @@ static bool victim_tlb_hit(CPUArchState *env, size_t mmu_idx, size_t index,
      return false;
  }
--/* Macro to call the above, with local variables from the use context.  */
+ static bool fold_addsub2(OptContext *ctx, TCGOp *op, bool add)
--#define VICTIM_TLB_HIT(TY, ADDR) \
+@@ -XXX,XX +XXX,XX @@ static bool fold_addsub2(OptContext *ctx, TCGOp *op, bool add)
--  victim_tlb_hit(env, mmu_idx, index, offsetof(CPUTLBEntry, TY), \
+         op->args[4] = arg_new_constant(ctx, bl);
--                 (ADDR) & TARGET_PAGE_MASK)
+         op->args[5] = arg_new_constant(ctx, bh);
 -
  static void notdirty_write(CPUState *cpu, vaddr mem_vaddr, unsigned size,
                             CPUTLBEntryFull *full, uintptr_t retaddr)
  {
@@ -XXX,XX +XXX,XX @@ static int probe_access_internal(CPUArchState *env, target_ulong addr,
  {
      uintptr_t index = tlb_index(env, mmu_idx, addr);
      CPUTLBEntry *entry = tlb_entry(env, mmu_idx, addr);
 -    target_ulong tlb_addr, page_addr;
 -    size_t elt_ofs;
 -    int flags;
 +    target_ulong tlb_addr = tlb_read_idx(entry, access_type);
 +    target_ulong page_addr = addr & TARGET_PAGE_MASK;
 +    int flags = TLB_FLAGS_MASK;
 -    switch (access_type) {
 -    case MMU_DATA_LOAD:
 -        elt_ofs = offsetof(CPUTLBEntry, addr_read);
 -        break;
 -    case MMU_DATA_STORE:
 -        elt_ofs = offsetof(CPUTLBEntry, addr_write);
 -        break;
 -    case MMU_INST_FETCH:
 -        elt_ofs = offsetof(CPUTLBEntry, addr_code);
 -        break;
 -    default:
 -        g_assert_not_reached();
 -    }
 -    tlb_addr = tlb_read_ofs(entry, elt_ofs);
 -
 -    flags = TLB_FLAGS_MASK;
 -    page_addr = addr & TARGET_PAGE_MASK;
      if (!tlb_hit_page(tlb_addr, page_addr)) {
 -        if (!victim_tlb_hit(env, mmu_idx, index, elt_ofs, page_addr)) {
 +        if (!victim_tlb_hit(env, mmu_idx, index, access_type, page_addr)) {
              CPUState *cs = env_cpu(env);
              if (!cs->cc->tcg_ops->tlb_fill(cs, addr, fault_size, access_type,
@@ -XXX,XX +XXX,XX @@ static int probe_access_internal(CPUArchState *env, target_ulong addr,
               */
              flags &= ~TLB_INVALID_MASK;
          }
 -        tlb_addr = tlb_read_ofs(entry, elt_ofs);
 +        tlb_addr = tlb_read_idx(entry, access_type);
      }
-     flags &= tlb_addr;
+-    return false;
++    return finish_folding(ctx, op);
@@ -XXX,XX +XXX,XX @@ static void *atomic_mmu_lookup(CPUArchState *env, target_ulong addr,
      if (prot & PAGE_WRITE) {
          tlb_addr = tlb_addr_write(tlbe);
          if (!tlb_hit(tlb_addr, addr)) {
 -            if (!VICTIM_TLB_HIT(addr_write, addr)) {
 +            if (!victim_tlb_hit(env, mmu_idx, index, MMU_DATA_STORE,
 +                                addr & TARGET_PAGE_MASK)) {
                  tlb_fill(env_cpu(env), addr, size,
                           MMU_DATA_STORE, mmu_idx, retaddr);
                  index = tlb_index(env, mmu_idx, addr);
@@ -XXX,XX +XXX,XX @@ static void *atomic_mmu_lookup(CPUArchState *env, target_ulong addr,
      } else /* if (prot & PAGE_READ) */ {
          tlb_addr = tlbe->addr_read;
          if (!tlb_hit(tlb_addr, addr)) {
 -            if (!VICTIM_TLB_HIT(addr_read, addr)) {
 +            if (!victim_tlb_hit(env, mmu_idx, index, MMU_DATA_LOAD,
 +                                addr & TARGET_PAGE_MASK)) {
                  tlb_fill(env_cpu(env), addr, size,
                           MMU_DATA_LOAD, mmu_idx, retaddr);
                  index = tlb_index(env, mmu_idx, addr);
@@ -XXX,XX +XXX,XX @@ load_memop(const void *haddr, MemOp op)
  static inline uint64_t QEMU_ALWAYS_INLINE
  load_helper(CPUArchState *env, target_ulong addr, MemOpIdx oi,
 -            uintptr_t retaddr, MemOp op, bool code_read,
 +            uintptr_t retaddr, MemOp op, MMUAccessType access_type,
              FullLoadHelper *full_load)
  {
 -    const size_t tlb_off = code_read ?
 -        offsetof(CPUTLBEntry, addr_code) : offsetof(CPUTLBEntry, addr_read);
 -    const MMUAccessType access_type =
 -        code_read ? MMU_INST_FETCH : MMU_DATA_LOAD;
      const unsigned a_bits = get_alignment_bits(get_memop(oi));
      const size_t size = memop_size(op);
      uintptr_t mmu_idx = get_mmuidx(oi);
@@ -XXX,XX +XXX,XX @@ load_helper(CPUArchState *env, target_ulong addr, MemOpIdx oi,
      index = tlb_index(env, mmu_idx, addr);
      entry = tlb_entry(env, mmu_idx, addr);
 -    tlb_addr = code_read ? entry->addr_code : entry->addr_read;
 +    tlb_addr = tlb_read_idx(entry, access_type);
      /* If the TLB entry is for a different page, reload and try again.  */
      if (!tlb_hit(tlb_addr, addr)) {
 -        if (!victim_tlb_hit(env, mmu_idx, index, tlb_off,
 +        if (!victim_tlb_hit(env, mmu_idx, index, access_type,
                              addr & TARGET_PAGE_MASK)) {
              tlb_fill(env_cpu(env), addr, size,
                       access_type, mmu_idx, retaddr);
              index = tlb_index(env, mmu_idx, addr);
              entry = tlb_entry(env, mmu_idx, addr);
          }
 -        tlb_addr = code_read ? entry->addr_code : entry->addr_read;
 +        tlb_addr = tlb_read_idx(entry, access_type);
          tlb_addr &= ~TLB_INVALID_MASK;
      }
@@ -XXX,XX +XXX,XX @@ static uint64_t full_ldub_mmu(CPUArchState *env, target_ulong addr,
                                MemOpIdx oi, uintptr_t retaddr)
  {
      validate_memop(oi, MO_UB);
 -    return load_helper(env, addr, oi, retaddr, MO_UB, false, full_ldub_mmu);
 +    return load_helper(env, addr, oi, retaddr, MO_UB, MMU_DATA_LOAD,
 +                       full_ldub_mmu);
  }
- tcg_target_ulong helper_ret_ldub_mmu(CPUArchState *env, target_ulong addr,
+ static bool fold_add2(OptContext *ctx, TCGOp *op)
@@ -XXX,XX +XXX,XX @@ static uint64_t full_le_lduw_mmu(CPUArchState *env, target_ulong addr,
                                   MemOpIdx oi, uintptr_t retaddr)
  {
      validate_memop(oi, MO_LEUW);
 -    return load_helper(env, addr, oi, retaddr, MO_LEUW, false,
 +    return load_helper(env, addr, oi, retaddr, MO_LEUW, MMU_DATA_LOAD,
                         full_le_lduw_mmu);
  }
@@ -XXX,XX +XXX,XX @@ static uint64_t full_be_lduw_mmu(CPUArchState *env, target_ulong addr,
                                   MemOpIdx oi, uintptr_t retaddr)
  {
      validate_memop(oi, MO_BEUW);
 -    return load_helper(env, addr, oi, retaddr, MO_BEUW, false,
 +    return load_helper(env, addr, oi, retaddr, MO_BEUW, MMU_DATA_LOAD,
                         full_be_lduw_mmu);
  }
@@ -XXX,XX +XXX,XX @@ static uint64_t full_le_ldul_mmu(CPUArchState *env, target_ulong addr,
                                   MemOpIdx oi, uintptr_t retaddr)
  {
      validate_memop(oi, MO_LEUL);
 -    return load_helper(env, addr, oi, retaddr, MO_LEUL, false,
 +    return load_helper(env, addr, oi, retaddr, MO_LEUL, MMU_DATA_LOAD,
                         full_le_ldul_mmu);
  }
@@ -XXX,XX +XXX,XX @@ static uint64_t full_be_ldul_mmu(CPUArchState *env, target_ulong addr,
                                   MemOpIdx oi, uintptr_t retaddr)
  {
      validate_memop(oi, MO_BEUL);
 -    return load_helper(env, addr, oi, retaddr, MO_BEUL, false,
 +    return load_helper(env, addr, oi, retaddr, MO_BEUL, MMU_DATA_LOAD,
                         full_be_ldul_mmu);
  }
@@ -XXX,XX +XXX,XX @@ uint64_t helper_le_ldq_mmu(CPUArchState *env, target_ulong addr,
                             MemOpIdx oi, uintptr_t retaddr)
  {
      validate_memop(oi, MO_LEUQ);
 -    return load_helper(env, addr, oi, retaddr, MO_LEUQ, false,
 +    return load_helper(env, addr, oi, retaddr, MO_LEUQ, MMU_DATA_LOAD,
                         helper_le_ldq_mmu);
  }
@@ -XXX,XX +XXX,XX @@ uint64_t helper_be_ldq_mmu(CPUArchState *env, target_ulong addr,
                             MemOpIdx oi, uintptr_t retaddr)
  {
      validate_memop(oi, MO_BEUQ);
 -    return load_helper(env, addr, oi, retaddr, MO_BEUQ, false,
 +    return load_helper(env, addr, oi, retaddr, MO_BEUQ, MMU_DATA_LOAD,
                         helper_be_ldq_mmu);
  }
@@ -XXX,XX +XXX,XX @@ store_helper_unaligned(CPUArchState *env, target_ulong addr, uint64_t val,
                         uintptr_t retaddr, size_t size, uintptr_t mmu_idx,
                         bool big_endian)
  {
 -    const size_t tlb_off = offsetof(CPUTLBEntry, addr_write);
      uintptr_t index, index2;
      CPUTLBEntry *entry, *entry2;
      target_ulong page1, page2, tlb_addr, tlb_addr2;
@@ -XXX,XX +XXX,XX @@ store_helper_unaligned(CPUArchState *env, target_ulong addr, uint64_t val,
      tlb_addr2 = tlb_addr_write(entry2);
      if (page1 != page2 && !tlb_hit_page(tlb_addr2, page2)) {
 -        if (!victim_tlb_hit(env, mmu_idx, index2, tlb_off, page2)) {
 +        if (!victim_tlb_hit(env, mmu_idx, index2, MMU_DATA_STORE, page2)) {
              tlb_fill(env_cpu(env), page2, size2, MMU_DATA_STORE,
                       mmu_idx, retaddr);
              index2 = tlb_index(env, mmu_idx, page2);
@@ -XXX,XX +XXX,XX @@ static inline void QEMU_ALWAYS_INLINE
  store_helper(CPUArchState *env, target_ulong addr, uint64_t val,
               MemOpIdx oi, uintptr_t retaddr, MemOp op)
  {
 -    const size_t tlb_off = offsetof(CPUTLBEntry, addr_write);
      const unsigned a_bits = get_alignment_bits(get_memop(oi));
      const size_t size = memop_size(op);
      uintptr_t mmu_idx = get_mmuidx(oi);
@@ -XXX,XX +XXX,XX @@ store_helper(CPUArchState *env, target_ulong addr, uint64_t val,
      /* If the TLB entry is for a different page, reload and try again.  */
      if (!tlb_hit(tlb_addr, addr)) {
 -        if (!victim_tlb_hit(env, mmu_idx, index, tlb_off,
 +        if (!victim_tlb_hit(env, mmu_idx, index, MMU_DATA_STORE,
              addr & TARGET_PAGE_MASK)) {
              tlb_fill(env_cpu(env), addr, size, MMU_DATA_STORE,
                       mmu_idx, retaddr);
@@ -XXX,XX +XXX,XX @@ void cpu_st16_le_mmu(CPUArchState *env, abi_ptr addr, Int128 val,
  static uint64_t full_ldub_code(CPUArchState *env, target_ulong addr,
                                 MemOpIdx oi, uintptr_t retaddr)
  {
 -    return load_helper(env, addr, oi, retaddr, MO_8, true, full_ldub_code);
 +    return load_helper(env, addr, oi, retaddr, MO_8,
 +                       MMU_INST_FETCH, full_ldub_code);
  }
  uint32_t cpu_ldub_code(CPUArchState *env, abi_ptr addr)
@@ -XXX,XX +XXX,XX @@ uint32_t cpu_ldub_code(CPUArchState *env, abi_ptr addr)
  static uint64_t full_lduw_code(CPUArchState *env, target_ulong addr,
                                 MemOpIdx oi, uintptr_t retaddr)
  {
 -    return load_helper(env, addr, oi, retaddr, MO_TEUW, true, full_lduw_code);
 +    return load_helper(env, addr, oi, retaddr, MO_TEUW,
 +                       MMU_INST_FETCH, full_lduw_code);
  }
  uint32_t cpu_lduw_code(CPUArchState *env, abi_ptr addr)
@@ -XXX,XX +XXX,XX @@ uint32_t cpu_lduw_code(CPUArchState *env, abi_ptr addr)
  static uint64_t full_ldl_code(CPUArchState *env, target_ulong addr,
                                MemOpIdx oi, uintptr_t retaddr)
  {
 -    return load_helper(env, addr, oi, retaddr, MO_TEUL, true, full_ldl_code);
 +    return load_helper(env, addr, oi, retaddr, MO_TEUL,
 +                       MMU_INST_FETCH, full_ldl_code);
  }
  uint32_t cpu_ldl_code(CPUArchState *env, abi_ptr addr)
@@ -XXX,XX +XXX,XX @@ uint32_t cpu_ldl_code(CPUArchState *env, abi_ptr addr)
  static uint64_t full_ldq_code(CPUArchState *env, target_ulong addr,
                                MemOpIdx oi, uintptr_t retaddr)
  {
 -    return load_helper(env, addr, oi, retaddr, MO_TEUQ, true, full_ldq_code);
 +    return load_helper(env, addr, oi, retaddr, MO_TEUQ,
 +                       MMU_INST_FETCH, full_ldq_code);
  }
  uint64_t cpu_ldq_code(CPUArchState *env, abi_ptr addr)
 --
-.34.1
+.43.0

-[PULL 20/53] tcg: Add routines for calling slow-path helpers
+[PULL 10/72] tcg/optimize: Introduce const value accessors for TempOptInfo
-Add tcg_out_ld_helper_args, tcg_out_ld_helper_ret,
+Introduce ti_is_const, ti_const_val, ti_is_const_val.
 and tcg_out_st_helper_args.  These and their subroutines
 use the existing knowledge of the host function call abi
 to load the function call arguments and return results.
-These will be used to simplify the backends in turn.
-Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- tcg/tcg.c | 475 +++++++++++++++++++++++++++++++++++++++++++++++++++++-
+ tcg/optimize.c | 20 +++++++++++++++++---
-file changed, 471 insertions(+), 4 deletions(-)
+file changed, 17 insertions(+), 3 deletions(-)
-diff --git a/tcg/tcg.c b/tcg/tcg.c
+diff --git a/tcg/optimize.c b/tcg/optimize.c
 index XXXXXXX..XXXXXXX 100644
---- a/tcg/tcg.c
+--- a/tcg/optimize.c
-+++ b/tcg/tcg.c
++++ b/tcg/optimize.c
-@@ -XXX,XX +XXX,XX @@ static bool tcg_target_const_match(int64_t val, TCGType type, int ct);
+@@ -XXX,XX +XXX,XX @@ static inline TempOptInfo *arg_info(TCGArg arg)
- static int tcg_out_ldst_finalize(TCGContext *s);
+     return ts_info(arg_temp(arg));
  #endif
 +typedef struct TCGLdstHelperParam {
 +    TCGReg (*ra_gen)(TCGContext *s, const TCGLabelQemuLdst *l, int arg_reg);
 +    unsigned ntmp;
 +    int tmp[3];
 +} TCGLdstHelperParam;
 +
 +static void tcg_out_ld_helper_args(TCGContext *s, const TCGLabelQemuLdst *l,
 +                                   const TCGLdstHelperParam *p)
 +    __attribute__((unused));
 +static void tcg_out_ld_helper_ret(TCGContext *s, const TCGLabelQemuLdst *l,
 +                                  bool load_sign, const TCGLdstHelperParam *p)
 +    __attribute__((unused));
 +static void tcg_out_st_helper_args(TCGContext *s, const TCGLabelQemuLdst *l,
 +                                   const TCGLdstHelperParam *p)
 +    __attribute__((unused));
 +
  TCGContext tcg_init_ctx;
  __thread TCGContext *tcg_ctx;
@@ -XXX,XX +XXX,XX @@ void tcg_raise_tb_overflow(TCGContext *s)
      siglongjmp(s->jmp_trans, -2);
  }
-+/*
++static inline bool ti_is_const(TempOptInfo *ti)
 + * Used by tcg_out_movext{1,2} to hold the arguments for tcg_out_movext.
 + * By the time we arrive at tcg_out_movext1, @dst is always a TCGReg.
 + *
 + * However, tcg_out_helper_load_slots reuses this field to hold an
 + * argument slot number (which may designate a argument register or an
 + * argument stack slot), converting to TCGReg once all arguments that
 + * are destined for the stack are processed.
 + */
  typedef struct TCGMovExtend {
 -    TCGReg dst;
 +    unsigned dst;
      TCGReg src;
      TCGType dst_type;
      TCGType src_type;
@@ -XXX,XX +XXX,XX @@ static void tcg_out_movext1(TCGContext *s, const TCGMovExtend *i)
   * between the sources and destinations.
   */
 -static void __attribute__((unused))
 -tcg_out_movext2(TCGContext *s, const TCGMovExtend *i1,
 -                const TCGMovExtend *i2, int scratch)
 +static void tcg_out_movext2(TCGContext *s, const TCGMovExtend *i1,
 +                            const TCGMovExtend *i2, int scratch)
  {
      TCGReg src1 = i1->src;
      TCGReg src2 = i2->src;
@@ -XXX,XX +XXX,XX @@ static TCGHelperInfo all_helpers[] = {
  };
  static GHashTable *helper_table;
 +/*
 + * Create TCGHelperInfo structures for "tcg/tcg-ldst.h" functions,
 + * akin to what "exec/helper-tcg.h" does with DEF_HELPER_FLAGS_N.
 + * We only use these for layout in tcg_out_ld_helper_ret and
 + * tcg_out_st_helper_args, and share them between several of
 + * the helpers, with the end result that it's easier to build manually.
 + */
 +
 +#if TCG_TARGET_REG_BITS == 32
 +# define dh_typecode_ttl  dh_typecode_i32
 +#else
 +# define dh_typecode_ttl  dh_typecode_i64
 +#endif
 +
 +static TCGHelperInfo info_helper_ld32_mmu = {
 +    .flags = TCG_CALL_NO_WG,
 +    .typemask = dh_typemask(ttl, 0)  /* return tcg_target_ulong */
 +              | dh_typemask(env, 1)
 +              | dh_typemask(tl, 2)   /* target_ulong addr */
 +              | dh_typemask(i32, 3)  /* unsigned oi */
 +              | dh_typemask(ptr, 4)  /* uintptr_t ra */
 +};
 +
 +static TCGHelperInfo info_helper_ld64_mmu = {
 +    .flags = TCG_CALL_NO_WG,
 +    .typemask = dh_typemask(i64, 0)  /* return uint64_t */
 +              | dh_typemask(env, 1)
 +              | dh_typemask(tl, 2)   /* target_ulong addr */
 +              | dh_typemask(i32, 3)  /* unsigned oi */
 +              | dh_typemask(ptr, 4)  /* uintptr_t ra */
 +};
 +
 +static TCGHelperInfo info_helper_st32_mmu = {
 +    .flags = TCG_CALL_NO_WG,
 +    .typemask = dh_typemask(void, 0)
 +              | dh_typemask(env, 1)
 +              | dh_typemask(tl, 2)   /* target_ulong addr */
 +              | dh_typemask(i32, 3)  /* uint32_t data */
 +              | dh_typemask(i32, 4)  /* unsigned oi */
 +              | dh_typemask(ptr, 5)  /* uintptr_t ra */
 +};
 +
 +static TCGHelperInfo info_helper_st64_mmu = {
 +    .flags = TCG_CALL_NO_WG,
 +    .typemask = dh_typemask(void, 0)
 +              | dh_typemask(env, 1)
 +              | dh_typemask(tl, 2)   /* target_ulong addr */
 +              | dh_typemask(i64, 3)  /* uint64_t data */
 +              | dh_typemask(i32, 4)  /* unsigned oi */
 +              | dh_typemask(ptr, 5)  /* uintptr_t ra */
 +};
 +
  #ifdef CONFIG_TCG_INTERPRETER
  static ffi_type *typecode_to_ffi(int argmask)
  {
@@ -XXX,XX +XXX,XX @@ static void tcg_context_init(unsigned max_cpus)
                              (gpointer)&all_helpers[i]);
      }
 +    init_call_layout(&info_helper_ld32_mmu);
 +    init_call_layout(&info_helper_ld64_mmu);
 +    init_call_layout(&info_helper_st32_mmu);
 +    init_call_layout(&info_helper_st64_mmu);
 +
  #ifdef CONFIG_TCG_INTERPRETER
      init_ffi_layouts();
  #endif
@@ -XXX,XX +XXX,XX @@ static void tcg_reg_alloc_call(TCGContext *s, TCGOp *op)
      }
  }
 +/*
 + * Similarly for qemu_ld/st slow path helpers.
 + * We must re-implement tcg_gen_callN and tcg_reg_alloc_call simultaneously,
 + * using only the provided backend tcg_out_* functions.
 + */
 +
 +static int tcg_out_helper_stk_ofs(TCGType type, unsigned slot)
 +{
-+    int ofs = arg_slot_stk_ofs(slot);
++    return ti->is_const;
 +
 +    /*
 +     * Each stack slot is TCG_TARGET_LONG_BITS.  If the host does not
 +     * require extension to uint64_t, adjust the address for uint32_t.
 +     */
 +    if (HOST_BIG_ENDIAN &&
 +        TCG_TARGET_REG_BITS == 64 &&
 +        type == TCG_TYPE_I32) {
 +        ofs += 4;
 +    }
 +    return ofs;
 +}
 +
-+static void tcg_out_helper_load_regs(TCGContext *s,
++static inline uint64_t ti_const_val(TempOptInfo *ti)
 +                                     unsigned nmov, TCGMovExtend *mov,
 +                                     unsigned ntmp, const int *tmp)
 +{
-+    switch (nmov) {
++    return ti->val;
 +    default:
 +        /* The backend must have provided enough temps for the worst case. */
 +        tcg_debug_assert(ntmp + 1 >= nmov);
 +
 +        for (unsigned i = nmov - 1; i >= 2; --i) {
 +            TCGReg dst = mov[i].dst;
 +
 +            for (unsigned j = 0; j < i; ++j) {
 +                if (dst == mov[j].src) {
 +                    /*
 +                     * Conflict.
 +                     * Copy the source to a temporary, recurse for the
 +                     * remaining moves, perform the extension from our
 +                     * scratch on the way out.
 +                     */
 +                    TCGReg scratch = tmp[--ntmp];
 +                    tcg_out_mov(s, mov[i].src_type, scratch, mov[i].src);
 +                    mov[i].src = scratch;
 +
 +                    tcg_out_helper_load_regs(s, i, mov, ntmp, tmp);
 +                    tcg_out_movext1(s, &mov[i]);
 +                    return;
 +                }
 +            }
 +
 +            /* No conflicts: perform this move and continue. */
 +            tcg_out_movext1(s, &mov[i]);
 +        }
 +        /* fall through for the final two moves */
 +
 +    case 2:
 +        tcg_out_movext2(s, mov, mov + 1, ntmp ? tmp[0] : -1);
 +        return;
 +    case 1:
 +        tcg_out_movext1(s, mov);
 +        return;
 +    case 0:
 +        g_assert_not_reached();
 +    }
 +}
 +
-+static void tcg_out_helper_load_slots(TCGContext *s,
++static inline bool ti_is_const_val(TempOptInfo *ti, uint64_t val)
 +                                      unsigned nmov, TCGMovExtend *mov,
 +                                      const TCGLdstHelperParam *parm)
 +{
-+    unsigned i;
++    return ti_is_const(ti) && ti_const_val(ti) == val;
 +
 +    /*
 +     * Start from the end, storing to the stack first.
 +     * This frees those registers, so we need not consider overlap.
 +     */
 +    for (i = nmov; i-- > 0; ) {
 +        unsigned slot = mov[i].dst;
 +
 +        if (arg_slot_reg_p(slot)) {
 +            goto found_reg;
 +        }
 +
 +        TCGReg src = mov[i].src;
 +        TCGType dst_type = mov[i].dst_type;
 +        MemOp dst_mo = dst_type == TCG_TYPE_I32 ? MO_32 : MO_64;
 +
 +        /* The argument is going onto the stack; extend into scratch. */
 +        if ((mov[i].src_ext & MO_SIZE) != dst_mo) {
 +            tcg_debug_assert(parm->ntmp != 0);
 +            mov[i].dst = src = parm->tmp[0];
 +            tcg_out_movext1(s, &mov[i]);
 +        }
 +
 +        tcg_out_st(s, dst_type, src, TCG_REG_CALL_STACK,
 +                   tcg_out_helper_stk_ofs(dst_type, slot));
 +    }
 +    return;
 +
 + found_reg:
 +    /*
 +     * The remaining arguments are in registers.
 +     * Convert slot numbers to argument registers.
 +     */
 +    nmov = i + 1;
 +    for (i = 0; i < nmov; ++i) {
 +        mov[i].dst = tcg_target_call_iarg_regs[mov[i].dst];
 +    }
 +    tcg_out_helper_load_regs(s, nmov, mov, parm->ntmp, parm->tmp);
 +}
 +
-+static void tcg_out_helper_load_imm(TCGContext *s, unsigned slot,
+ static inline bool ts_is_const(TCGTemp *ts)
-+                                    TCGType type, tcg_target_long imm,
+ {
-+                                    const TCGLdstHelperParam *parm)
+-    return ts_info(ts)->is_const;
-+{
++    return ti_is_const(ts_info(ts));
-+    if (arg_slot_reg_p(slot)) {
+ }
-+        tcg_out_movi(s, type, tcg_target_call_iarg_regs[slot], imm);
-+    } else {
+ static inline bool ts_is_const_val(TCGTemp *ts, uint64_t val)
-+        int ofs = tcg_out_helper_stk_ofs(type, slot);
+ {
-+        if (!tcg_out_sti(s, type, imm, TCG_REG_CALL_STACK, ofs)) {
+-    TempOptInfo *ti = ts_info(ts);
-+            tcg_debug_assert(parm->ntmp != 0);
+-    return ti->is_const && ti->val == val;
-+            tcg_out_movi(s, type, parm->tmp[0], imm);
++    return ti_is_const_val(ts_info(ts), val);
-+            tcg_out_st(s, type, parm->tmp[0], TCG_REG_CALL_STACK, ofs);
+ }
-+        }
-+    }
+ static inline bool arg_is_const(TCGArg arg)
 +}
 +
 +static void tcg_out_helper_load_common_args(TCGContext *s,
 +                                            const TCGLabelQemuLdst *ldst,
 +                                            const TCGLdstHelperParam *parm,
 +                                            const TCGHelperInfo *info,
 +                                            unsigned next_arg)
 +{
 +    TCGMovExtend ptr_mov = {
 +        .dst_type = TCG_TYPE_PTR,
 +        .src_type = TCG_TYPE_PTR,
 +        .src_ext = sizeof(void *) == 4 ? MO_32 : MO_64
 +    };
 +    const TCGCallArgumentLoc *loc = &info->in[0];
 +    TCGType type;
 +    unsigned slot;
 +    tcg_target_ulong imm;
 +
 +    /*
 +     * Handle env, which is always first.
 +     */
 +    ptr_mov.dst = loc->arg_slot;
 +    ptr_mov.src = TCG_AREG0;
 +    tcg_out_helper_load_slots(s, 1, &ptr_mov, parm);
 +
 +    /*
 +     * Handle oi.
 +     */
 +    imm = ldst->oi;
 +    loc = &info->in[next_arg];
 +    type = TCG_TYPE_I32;
 +    switch (loc->kind) {
 +    case TCG_CALL_ARG_NORMAL:
 +        break;
 +    case TCG_CALL_ARG_EXTEND_U:
 +    case TCG_CALL_ARG_EXTEND_S:
 +        /* No extension required for MemOpIdx. */
 +        tcg_debug_assert(imm <= INT32_MAX);
 +        type = TCG_TYPE_REG;
 +        break;
 +    default:
 +        g_assert_not_reached();
 +    }
 +    tcg_out_helper_load_imm(s, loc->arg_slot, type, imm, parm);
 +    next_arg++;
 +
 +    /*
 +     * Handle ra.
 +     */
 +    loc = &info->in[next_arg];
 +    slot = loc->arg_slot;
 +    if (parm->ra_gen) {
 +        int arg_reg = -1;
 +        TCGReg ra_reg;
 +
 +        if (arg_slot_reg_p(slot)) {
 +            arg_reg = tcg_target_call_iarg_regs[slot];
 +        }
 +        ra_reg = parm->ra_gen(s, ldst, arg_reg);
 +
 +        ptr_mov.dst = slot;
 +        ptr_mov.src = ra_reg;
 +        tcg_out_helper_load_slots(s, 1, &ptr_mov, parm);
 +    } else {
 +        imm = (uintptr_t)ldst->raddr;
 +        tcg_out_helper_load_imm(s, slot, TCG_TYPE_PTR, imm, parm);
 +    }
 +}
 +
 +static unsigned tcg_out_helper_add_mov(TCGMovExtend *mov,
 +                                       const TCGCallArgumentLoc *loc,
 +                                       TCGType dst_type, TCGType src_type,
 +                                       TCGReg lo, TCGReg hi)
 +{
 +    if (dst_type <= TCG_TYPE_REG) {
 +        MemOp src_ext;
 +
 +        switch (loc->kind) {
 +        case TCG_CALL_ARG_NORMAL:
 +            src_ext = src_type == TCG_TYPE_I32 ? MO_32 : MO_64;
 +            break;
 +        case TCG_CALL_ARG_EXTEND_U:
 +            dst_type = TCG_TYPE_REG;
 +            src_ext = MO_UL;
 +            break;
 +        case TCG_CALL_ARG_EXTEND_S:
 +            dst_type = TCG_TYPE_REG;
 +            src_ext = MO_SL;
 +            break;
 +        default:
 +            g_assert_not_reached();
 +        }
 +
 +        mov[0].dst = loc->arg_slot;
 +        mov[0].dst_type = dst_type;
 +        mov[0].src = lo;
 +        mov[0].src_type = src_type;
 +        mov[0].src_ext = src_ext;
 +        return 1;
 +    }
 +
 +    assert(TCG_TARGET_REG_BITS == 32);
 +
 +    mov[0].dst = loc[HOST_BIG_ENDIAN].arg_slot;
 +    mov[0].src = lo;
 +    mov[0].dst_type = TCG_TYPE_I32;
 +    mov[0].src_type = TCG_TYPE_I32;
 +    mov[0].src_ext = MO_32;
 +
 +    mov[1].dst = loc[!HOST_BIG_ENDIAN].arg_slot;
 +    mov[1].src = hi;
 +    mov[1].dst_type = TCG_TYPE_I32;
 +    mov[1].src_type = TCG_TYPE_I32;
 +    mov[1].src_ext = MO_32;
 +
 +    return 2;
 +}
 +
 +static void tcg_out_ld_helper_args(TCGContext *s, const TCGLabelQemuLdst *ldst,
 +                                   const TCGLdstHelperParam *parm)
 +{
 +    const TCGHelperInfo *info;
 +    const TCGCallArgumentLoc *loc;
 +    TCGMovExtend mov[2];
 +    unsigned next_arg, nmov;
 +    MemOp mop = get_memop(ldst->oi);
 +
 +    switch (mop & MO_SIZE) {
 +    case MO_8:
 +    case MO_16:
 +    case MO_32:
 +        info = &info_helper_ld32_mmu;
 +        break;
 +    case MO_64:
 +        info = &info_helper_ld64_mmu;
 +        break;
 +    default:
 +        g_assert_not_reached();
 +    }
 +
 +    /* Defer env argument. */
 +    next_arg = 1;
 +
 +    loc = &info->in[next_arg];
 +    nmov = tcg_out_helper_add_mov(mov, loc, TCG_TYPE_TL, TCG_TYPE_TL,
 +                                  ldst->addrlo_reg, ldst->addrhi_reg);
 +    next_arg += nmov;
 +
 +    tcg_out_helper_load_slots(s, nmov, mov, parm);
 +
 +    /* No special attention for 32 and 64-bit return values. */
 +    tcg_debug_assert(info->out_kind == TCG_CALL_RET_NORMAL);
 +
 +    tcg_out_helper_load_common_args(s, ldst, parm, info, next_arg);
 +}
 +
 +static void tcg_out_ld_helper_ret(TCGContext *s, const TCGLabelQemuLdst *ldst,
 +                                  bool load_sign,
 +                                  const TCGLdstHelperParam *parm)
 +{
 +    TCGMovExtend mov[2];
 +
 +    if (ldst->type <= TCG_TYPE_REG) {
 +        MemOp mop = get_memop(ldst->oi);
 +
 +        mov[0].dst = ldst->datalo_reg;
 +        mov[0].src = tcg_target_call_oarg_reg(TCG_CALL_RET_NORMAL, 0);
 +        mov[0].dst_type = ldst->type;
 +        mov[0].src_type = TCG_TYPE_REG;
 +
 +        /*
 +         * If load_sign, then we allowed the helper to perform the
 +         * appropriate sign extension to tcg_target_ulong, and all
 +         * we need now is a plain move.
 +         *
 +         * If they do not, then we expect the relevant extension
 +         * instruction to be no more expensive than a move, and
 +         * we thus save the icache etc by only using one of two
 +         * helper functions.
 +         */
 +        if (load_sign || !(mop & MO_SIGN)) {
 +            if (TCG_TARGET_REG_BITS == 32 || ldst->type == TCG_TYPE_I32) {
 +                mov[0].src_ext = MO_32;
 +            } else {
 +                mov[0].src_ext = MO_64;
 +            }
 +        } else {
 +            mov[0].src_ext = mop & MO_SSIZE;
 +        }
 +        tcg_out_movext1(s, mov);
 +    } else {
 +        assert(TCG_TARGET_REG_BITS == 32);
 +
 +        mov[0].dst = ldst->datalo_reg;
 +        mov[0].src =
 +            tcg_target_call_oarg_reg(TCG_CALL_RET_NORMAL, HOST_BIG_ENDIAN);
 +        mov[0].dst_type = TCG_TYPE_I32;
 +        mov[0].src_type = TCG_TYPE_I32;
 +        mov[0].src_ext = MO_32;
 +
 +        mov[1].dst = ldst->datahi_reg;
 +        mov[1].src =
 +            tcg_target_call_oarg_reg(TCG_CALL_RET_NORMAL, !HOST_BIG_ENDIAN);
 +        mov[1].dst_type = TCG_TYPE_REG;
 +        mov[1].src_type = TCG_TYPE_REG;
 +        mov[1].src_ext = MO_32;
 +
 +        tcg_out_movext2(s, mov, mov + 1, parm->ntmp ? parm->tmp[0] : -1);
 +    }
 +}
 +
 +static void tcg_out_st_helper_args(TCGContext *s, const TCGLabelQemuLdst *ldst,
 +                                   const TCGLdstHelperParam *parm)
 +{
 +    const TCGHelperInfo *info;
 +    const TCGCallArgumentLoc *loc;
 +    TCGMovExtend mov[4];
 +    TCGType data_type;
 +    unsigned next_arg, nmov, n;
 +    MemOp mop = get_memop(ldst->oi);
 +
 +    switch (mop & MO_SIZE) {
 +    case MO_8:
 +    case MO_16:
 +    case MO_32:
 +        info = &info_helper_st32_mmu;
 +        data_type = TCG_TYPE_I32;
 +        break;
 +    case MO_64:
 +        info = &info_helper_st64_mmu;
 +        data_type = TCG_TYPE_I64;
 +        break;
 +    default:
 +        g_assert_not_reached();
 +    }
 +
 +    /* Defer env argument. */
 +    next_arg = 1;
 +    nmov = 0;
 +
 +    /* Handle addr argument. */
 +    loc = &info->in[next_arg];
 +    n = tcg_out_helper_add_mov(mov, loc, TCG_TYPE_TL, TCG_TYPE_TL,
 +                               ldst->addrlo_reg, ldst->addrhi_reg);
 +    next_arg += n;
 +    nmov += n;
 +
 +    /* Handle data argument. */
 +    loc = &info->in[next_arg];
 +    n = tcg_out_helper_add_mov(mov + nmov, loc, data_type, ldst->type,
 +                               ldst->datalo_reg, ldst->datahi_reg);
 +    next_arg += n;
 +    nmov += n;
 +    tcg_debug_assert(nmov <= ARRAY_SIZE(mov));
 +
 +    tcg_out_helper_load_slots(s, nmov, mov, parm);
 +    tcg_out_helper_load_common_args(s, ldst, parm, info, next_arg);
 +}
 +
  #ifdef CONFIG_PROFILER
  /* avoid copy/paste errors */
 --
-.34.1
+.43.0

-[PULL 40/53] tcg/s390x: Simplify constraints on qemu_ld/st
+[PULL 11/72] tcg/optimize: Use fold_masks_zs in fold_and
-Adjust the softmmu tlb to use R0+R1, not any of the normally available
+Avoid the use of the OptContext slots.  Find TempOptInfo once.
-registers.  Since we handle overlap betwen inputs and helper arguments,
+Sink mask computation below fold_affected_mask early exit.
 we can allow any allocatable reg.
-Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
+Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- tcg/s390x/tcg-target-con-set.h |  2 --
+ tcg/optimize.c | 30 ++++++++++++++++--------------
- tcg/s390x/tcg-target-con-str.h |  1 -
+file changed, 16 insertions(+), 14 deletions(-)
  tcg/s390x/tcg-target.c.inc     | 36 ++++++++++++----------------------
 files changed, 12 insertions(+), 27 deletions(-)
-diff --git a/tcg/s390x/tcg-target-con-set.h b/tcg/s390x/tcg-target-con-set.h
+diff --git a/tcg/optimize.c b/tcg/optimize.c
 index XXXXXXX..XXXXXXX 100644
---- a/tcg/s390x/tcg-target-con-set.h
+--- a/tcg/optimize.c
-+++ b/tcg/s390x/tcg-target-con-set.h
++++ b/tcg/optimize.c
-@@ -XXX,XX +XXX,XX @@
+@@ -XXX,XX +XXX,XX @@ static bool fold_add2(OptContext *ctx, TCGOp *op)
-  * tcg-target-con-str.h; the constraint combination is inclusive or.
-  */
+ static bool fold_and(OptContext *ctx, TCGOp *op)
- C_O0_I1(r)
+ {
--C_O0_I2(L, L)
+-    uint64_t z1, z2;
- C_O0_I2(r, r)
++    uint64_t z1, z2, z_mask, s_mask;
- C_O0_I2(r, ri)
++    TempOptInfo *t1, *t2;
- C_O0_I2(r, rA)
- C_O0_I2(v, r)
+     if (fold_const2_commutative(ctx, op) ||
--C_O1_I1(r, L)
+         fold_xi_to_i(ctx, op, 0) ||
- C_O1_I1(r, r)
+@@ -XXX,XX +XXX,XX @@ static bool fold_and(OptContext *ctx, TCGOp *op)
- C_O1_I1(v, r)
+         return true;
- C_O1_I1(v, v)
+     }
-diff --git a/tcg/s390x/tcg-target-con-str.h b/tcg/s390x/tcg-target-con-str.h
-index XXXXXXX..XXXXXXX 100644
+-    z1 = arg_info(op->args[1])->z_mask;
---- a/tcg/s390x/tcg-target-con-str.h
+-    z2 = arg_info(op->args[2])->z_mask;
-+++ b/tcg/s390x/tcg-target-con-str.h
+-    ctx->z_mask = z1 & z2;
@@ -XXX,XX +XXX,XX @@
   * REGS(letter, register_mask)
   */
  REGS('r', ALL_GENERAL_REGS)
 -REGS('L', ALL_GENERAL_REGS & ~SOFTMMU_RESERVE_REGS)
  REGS('v', ALL_VECTOR_REGS)
  REGS('o', 0xaaaa) /* odd numbered general regs */
 diff --git a/tcg/s390x/tcg-target.c.inc b/tcg/s390x/tcg-target.c.inc
 index XXXXXXX..XXXXXXX 100644
 --- a/tcg/s390x/tcg-target.c.inc
 +++ b/tcg/s390x/tcg-target.c.inc
@@ -XXX,XX +XXX,XX @@
  #define ALL_GENERAL_REGS     MAKE_64BIT_MASK(0, 16)
  #define ALL_VECTOR_REGS      MAKE_64BIT_MASK(32, 32)
 -/*
 - * For softmmu, we need to avoid conflicts with the first 3
 - * argument registers to perform the tlb lookup, and to call
 - * the helper function.
 - */
 -#ifdef CONFIG_SOFTMMU
 -#define SOFTMMU_RESERVE_REGS MAKE_64BIT_MASK(TCG_REG_R2, 3)
 -#else
 -#define SOFTMMU_RESERVE_REGS 0
 -#endif
 -
--
+-    /*
- /* Several places within the instruction set 0 means "no register"
+-     * Sign repetitions are perforce all identical, whether they are 1 or 0.
-    rather than TCG_REG_R0.  */
+-     * Bitwise operations preserve the relative quantity of the repetitions.
- #define TCG_REG_NONE    0
+-     */
-@@ -XXX,XX +XXX,XX @@ static TCGLabelQemuLdst *prepare_host_addr(TCGContext *s, HostAddress *h,
+-    ctx->s_mask = arg_info(op->args[1])->s_mask
-     ldst->oi = oi;
+-                & arg_info(op->args[2])->s_mask;
-     ldst->addrlo_reg = addr_reg;
++    t1 = arg_info(op->args[1]);
++    t2 = arg_info(op->args[2]);
--    tcg_out_sh64(s, RSY_SRLG, TCG_REG_R2, addr_reg, TCG_REG_NONE,
++    z1 = t1->z_mask;
-+    tcg_out_sh64(s, RSY_SRLG, TCG_TMP0, addr_reg, TCG_REG_NONE,
++    z2 = t2->z_mask;
                   TARGET_PAGE_BITS - CPU_TLB_ENTRY_BITS);
      QEMU_BUILD_BUG_ON(TLB_MASK_TABLE_OFS(0) > 0);
      QEMU_BUILD_BUG_ON(TLB_MASK_TABLE_OFS(0) < -(1 << 19));
 -    tcg_out_insn(s, RXY, NG, TCG_REG_R2, TCG_AREG0, TCG_REG_NONE, mask_off);
 -    tcg_out_insn(s, RXY, AG, TCG_REG_R2, TCG_AREG0, TCG_REG_NONE, table_off);
 +    tcg_out_insn(s, RXY, NG, TCG_TMP0, TCG_AREG0, TCG_REG_NONE, mask_off);
 +    tcg_out_insn(s, RXY, AG, TCG_TMP0, TCG_AREG0, TCG_REG_NONE, table_off);
      /*
-      * For aligned accesses, we check the first byte and include the alignment
+      * Known-zeros does not imply known-ones.  Therefore unless
-@@ -XXX,XX +XXX,XX @@ static TCGLabelQemuLdst *prepare_host_addr(TCGContext *s, HostAddress *h,
+      * arg2 is constant, we can't infer affected bits from it.
-     a_off = (a_bits >= s_bits ? 0 : s_mask - a_mask);
+      */
-     tlb_mask = (uint64_t)TARGET_PAGE_MASK | a_mask;
+-    if (arg_is_const(op->args[2]) &&
-     if (a_off == 0) {
+-        fold_affected_mask(ctx, op, z1 & ~z2)) {
--        tgen_andi_risbg(s, TCG_REG_R3, addr_reg, tlb_mask);
++    if (ti_is_const(t2) && fold_affected_mask(ctx, op, z1 & ~z2)) {
-+        tgen_andi_risbg(s, TCG_REG_R0, addr_reg, tlb_mask);
+         return true;
      } else {
 -        tcg_out_insn(s, RX, LA, TCG_REG_R3, addr_reg, TCG_REG_NONE, a_off);
 -        tgen_andi(s, TCG_TYPE_TL, TCG_REG_R3, tlb_mask);
 +        tcg_out_insn(s, RX, LA, TCG_REG_R0, addr_reg, TCG_REG_NONE, a_off);
 +        tgen_andi(s, TCG_TYPE_TL, TCG_REG_R0, tlb_mask);
      }
-     if (is_ld) {
+-    return fold_masks(ctx, op);
-@@ -XXX,XX +XXX,XX @@ static TCGLabelQemuLdst *prepare_host_addr(TCGContext *s, HostAddress *h,
++    z_mask = z1 & z2;
-         ofs = offsetof(CPUTLBEntry, addr_write);
++
-     }
++    /*
-     if (TARGET_LONG_BITS == 32) {
++     * Sign repetitions are perforce all identical, whether they are 1 or 0.
--        tcg_out_insn(s, RX, C, TCG_REG_R3, TCG_REG_R2, TCG_REG_NONE, ofs);
++     * Bitwise operations preserve the relative quantity of the repetitions.
-+        tcg_out_insn(s, RX, C, TCG_REG_R0, TCG_TMP0, TCG_REG_NONE, ofs);
++     */
-     } else {
++    s_mask = t1->s_mask & t2->s_mask;
--        tcg_out_insn(s, RXY, CG, TCG_REG_R3, TCG_REG_R2, TCG_REG_NONE, ofs);
++
-+        tcg_out_insn(s, RXY, CG, TCG_REG_R0, TCG_TMP0, TCG_REG_NONE, ofs);
++    return fold_masks_zs(ctx, op, z_mask, s_mask);
-     }
+ }
-     tcg_out16(s, RI_BRC | (S390_CC_NE << 4));
+ static bool fold_andc(OptContext *ctx, TCGOp *op)
      ldst->label_ptr[0] = s->code_ptr++;
 -    h->index = TCG_REG_R2;
 -    tcg_out_insn(s, RXY, LG, h->index, TCG_REG_R2, TCG_REG_NONE,
 +    h->index = TCG_TMP0;
 +    tcg_out_insn(s, RXY, LG, h->index, TCG_TMP0, TCG_REG_NONE,
                   offsetof(CPUTLBEntry, addend));
      if (TARGET_LONG_BITS == 32) {
@@ -XXX,XX +XXX,XX @@ static TCGConstraintSetIndex tcg_target_op_def(TCGOpcode op)
      case INDEX_op_qemu_ld_i32:
      case INDEX_op_qemu_ld_i64:
 -        return C_O1_I1(r, L);
 +        return C_O1_I1(r, r);
      case INDEX_op_qemu_st_i64:
      case INDEX_op_qemu_st_i32:
 -        return C_O0_I2(L, L);
 +        return C_O0_I2(r, r);
      case INDEX_op_deposit_i32:
      case INDEX_op_deposit_i64:
 --
-.34.1
+.43.0

-New patch
+[PULL 12/72] tcg/optimize: Use fold_masks_zs in fold_andc
+Avoid the use of the OptContext slots.  Find TempOptInfo once.
+Avoid double inversion of the value of second const operand.
+Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
+Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
+---
+ tcg/optimize.c | 21 +++++++++++----------
+file changed, 11 insertions(+), 10 deletions(-)
+diff --git a/tcg/optimize.c b/tcg/optimize.c
+index XXXXXXX..XXXXXXX 100644
+--- a/tcg/optimize.c
++++ b/tcg/optimize.c
+@@ -XXX,XX +XXX,XX @@ static bool fold_and(OptContext *ctx, TCGOp *op)
+ static bool fold_andc(OptContext *ctx, TCGOp *op)
+ {
+-    uint64_t z1;
++    uint64_t z_mask, s_mask;
++    TempOptInfo *t1, *t2;
+     if (fold_const2(ctx, op) ||
+         fold_xx_to_i(ctx, op, 0) ||
+@@ -XXX,XX +XXX,XX @@ static bool fold_andc(OptContext *ctx, TCGOp *op)
+         return true;
+     }
+-    z1 = arg_info(op->args[1])->z_mask;
++    t1 = arg_info(op->args[1]);
++    t2 = arg_info(op->args[2]);
++    z_mask = t1->z_mask;
+     /*
+      * Known-zeros does not imply known-ones.  Therefore unless
+      * arg2 is constant, we can't infer anything from it.
+      */
+-    if (arg_is_const(op->args[2])) {
+-        uint64_t z2 = ~arg_info(op->args[2])->z_mask;
+-        if (fold_affected_mask(ctx, op, z1 & ~z2)) {
++    if (ti_is_const(t2)) {
++        uint64_t v2 = ti_const_val(t2);
++        if (fold_affected_mask(ctx, op, z_mask & v2)) {
+             return true;
+         }
+-        z1 &= z2;
++        z_mask &= ~v2;
+     }
+-    ctx->z_mask = z1;
+-    ctx->s_mask = arg_info(op->args[1])->s_mask
+-                & arg_info(op->args[2])->s_mask;
+-    return fold_masks(ctx, op);
++    s_mask = t1->s_mask & t2->s_mask;
++    return fold_masks_zs(ctx, op, z_mask, s_mask);
+ }
+ static bool fold_brcond(OptContext *ctx, TCGOp *op)
+--
+.43.0

-New patch
+[PULL 13/72] tcg/optimize: Use fold_masks_zs in fold_bswap
+Avoid the use of the OptContext slots.  Find TempOptInfo once.
+Always set s_mask along the BSWAP_OS path, since the result is
+being explicitly sign-extended.
+Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
+Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
+---
+ tcg/optimize.c | 21 ++++++++++-----------
+file changed, 10 insertions(+), 11 deletions(-)
+diff --git a/tcg/optimize.c b/tcg/optimize.c
+index XXXXXXX..XXXXXXX 100644
+--- a/tcg/optimize.c
++++ b/tcg/optimize.c
+@@ -XXX,XX +XXX,XX @@ static bool fold_brcond2(OptContext *ctx, TCGOp *op)
+ static bool fold_bswap(OptContext *ctx, TCGOp *op)
+ {
+     uint64_t z_mask, s_mask, sign;
++    TempOptInfo *t1 = arg_info(op->args[1]);
+-    if (arg_is_const(op->args[1])) {
+-        uint64_t t = arg_info(op->args[1])->val;
+-
+-        t = do_constant_folding(op->opc, ctx->type, t, op->args[2]);
+-        return tcg_opt_gen_movi(ctx, op, op->args[0], t);
++    if (ti_is_const(t1)) {
++        return tcg_opt_gen_movi(ctx, op, op->args[0],
++                                do_constant_folding(op->opc, ctx->type,
++                                                    ti_const_val(t1),
++                                                    op->args[2]));
+     }
+-    z_mask = arg_info(op->args[1])->z_mask;
+-
++    z_mask = t1->z_mask;
+     switch (op->opc) {
+     case INDEX_op_bswap16_i32:
+     case INDEX_op_bswap16_i64:
+@@ -XXX,XX +XXX,XX @@ static bool fold_bswap(OptContext *ctx, TCGOp *op)
+         /* If the sign bit may be 1, force all the bits above to 1. */
+         if (z_mask & sign) {
+             z_mask |= sign;
+-            s_mask = sign << 1;
+         }
++        /* The value and therefore s_mask is explicitly sign-extended. */
++        s_mask = sign;
+         break;
+     default:
+         /* The high bits are undefined: force all bits above the sign to 1. */
+         z_mask |= sign << 1;
+         break;
+     }
+-    ctx->z_mask = z_mask;
+-    ctx->s_mask = s_mask;
+-    return fold_masks(ctx, op);
++    return fold_masks_zs(ctx, op, z_mask, s_mask);
+ }
+ static bool fold_call(OptContext *ctx, TCGOp *op)
+--
+.43.0

-New patch
+[PULL 14/72] tcg/optimize: Use fold_masks_zs in fold_count_zeros
+Avoid the use of the OptContext slots. Find TempOptInfo once.
+Compute s_mask from the union of the maximum count and the
+op2 fallback for op1 being zero.
+Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
+Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
+---
+ tcg/optimize.c | 15 ++++++++++-----
+file changed, 10 insertions(+), 5 deletions(-)
+diff --git a/tcg/optimize.c b/tcg/optimize.c
+index XXXXXXX..XXXXXXX 100644
+--- a/tcg/optimize.c
++++ b/tcg/optimize.c
+@@ -XXX,XX +XXX,XX @@ static bool fold_call(OptContext *ctx, TCGOp *op)
+ static bool fold_count_zeros(OptContext *ctx, TCGOp *op)
+ {
+-    uint64_t z_mask;
++    uint64_t z_mask, s_mask;
++    TempOptInfo *t1 = arg_info(op->args[1]);
++    TempOptInfo *t2 = arg_info(op->args[2]);
+-    if (arg_is_const(op->args[1])) {
+-        uint64_t t = arg_info(op->args[1])->val;
++    if (ti_is_const(t1)) {
++        uint64_t t = ti_const_val(t1);
+         if (t != 0) {
+             t = do_constant_folding(op->opc, ctx->type, t, 0);
+@@ -XXX,XX +XXX,XX @@ static bool fold_count_zeros(OptContext *ctx, TCGOp *op)
+     default:
+         g_assert_not_reached();
+     }
+-    ctx->z_mask = arg_info(op->args[2])->z_mask | z_mask;
+-    return false;
++    s_mask = ~z_mask;
++    z_mask |= t2->z_mask;
++    s_mask &= t2->s_mask;
++
++    return fold_masks_zs(ctx, op, z_mask, s_mask);
+ }
+ static bool fold_ctpop(OptContext *ctx, TCGOp *op)
+--
+.43.0

-[PULL 17/53] tcg/ppc: Introduce prepare_host_addr
+[PULL 15/72] tcg/optimize: Use fold_masks_z in fold_ctpop
-Merge tcg_out_tlb_load, add_qemu_ldst_label, tcg_out_test_alignment,
+Add fold_masks_z as a trivial wrapper around fold_masks_zs.
-and some code that lived in both tcg_out_qemu_ld and tcg_out_qemu_st
+Avoid the use of the OptContext slots.
 into one function that returns HostAddress and TCGLabelQemuLdst structures.
-Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
+Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- tcg/ppc/tcg-target.c.inc | 381 ++++++++++++++++++---------------------
+ tcg/optimize.c | 13 ++++++++++---
-file changed, 172 insertions(+), 209 deletions(-)
+file changed, 10 insertions(+), 3 deletions(-)
-diff --git a/tcg/ppc/tcg-target.c.inc b/tcg/ppc/tcg-target.c.inc
+diff --git a/tcg/optimize.c b/tcg/optimize.c
 index XXXXXXX..XXXXXXX 100644
---- a/tcg/ppc/tcg-target.c.inc
+--- a/tcg/optimize.c
-+++ b/tcg/ppc/tcg-target.c.inc
++++ b/tcg/optimize.c
-@@ -XXX,XX +XXX,XX @@ static void * const qemu_st_helpers[(MO_SIZE | MO_BSWAP) + 1] = {
+@@ -XXX,XX +XXX,XX @@ static bool fold_masks_zs(OptContext *ctx, TCGOp *op,
      [MO_BEUQ] = helper_be_stq_mmu,
  };
 -/* We expect to use a 16-bit negative offset from ENV.  */
 -QEMU_BUILD_BUG_ON(TLB_MASK_TABLE_OFS(0) > 0);
 -QEMU_BUILD_BUG_ON(TLB_MASK_TABLE_OFS(0) < -32768);
 -
 -/* Perform the TLB load and compare.  Places the result of the comparison
 -   in CR7, loads the addend of the TLB into R3, and returns the register
 -   containing the guest address (zero-extended into R4).  Clobbers R0 and R2. */
 -
 -static TCGReg tcg_out_tlb_read(TCGContext *s, MemOp opc,
 -                               TCGReg addrlo, TCGReg addrhi,
 -                               int mem_index, bool is_read)
 -{
 -    int cmp_off
 -        = (is_read
 -           ? offsetof(CPUTLBEntry, addr_read)
 -           : offsetof(CPUTLBEntry, addr_write));
 -    int fast_off = TLB_MASK_TABLE_OFS(mem_index);
 -    int mask_off = fast_off + offsetof(CPUTLBDescFast, mask);
 -    int table_off = fast_off + offsetof(CPUTLBDescFast, table);
 -    unsigned s_bits = opc & MO_SIZE;
 -    unsigned a_bits = get_alignment_bits(opc);
 -
 -    /* Load tlb_mask[mmu_idx] and tlb_table[mmu_idx].  */
 -    tcg_out_ld(s, TCG_TYPE_PTR, TCG_REG_R3, TCG_AREG0, mask_off);
 -    tcg_out_ld(s, TCG_TYPE_PTR, TCG_REG_R4, TCG_AREG0, table_off);
 -
 -    /* Extract the page index, shifted into place for tlb index.  */
 -    if (TCG_TARGET_REG_BITS == 32) {
 -        tcg_out_shri32(s, TCG_REG_TMP1, addrlo,
 -                       TARGET_PAGE_BITS - CPU_TLB_ENTRY_BITS);
 -    } else {
 -        tcg_out_shri64(s, TCG_REG_TMP1, addrlo,
 -                       TARGET_PAGE_BITS - CPU_TLB_ENTRY_BITS);
 -    }
 -    tcg_out32(s, AND | SAB(TCG_REG_R3, TCG_REG_R3, TCG_REG_TMP1));
 -
 -    /* Load the TLB comparator.  */
 -    if (cmp_off == 0 && TCG_TARGET_REG_BITS >= TARGET_LONG_BITS) {
 -        uint32_t lxu = (TCG_TARGET_REG_BITS == 32 || TARGET_LONG_BITS == 32
 -                        ? LWZUX : LDUX);
 -        tcg_out32(s, lxu | TAB(TCG_REG_TMP1, TCG_REG_R3, TCG_REG_R4));
 -    } else {
 -        tcg_out32(s, ADD | TAB(TCG_REG_R3, TCG_REG_R3, TCG_REG_R4));
 -        if (TCG_TARGET_REG_BITS < TARGET_LONG_BITS) {
 -            tcg_out_ld(s, TCG_TYPE_I32, TCG_REG_TMP1, TCG_REG_R3, cmp_off + 4);
 -            tcg_out_ld(s, TCG_TYPE_I32, TCG_REG_R4, TCG_REG_R3, cmp_off);
 -        } else {
 -            tcg_out_ld(s, TCG_TYPE_TL, TCG_REG_TMP1, TCG_REG_R3, cmp_off);
 -        }
 -    }
 -
 -    /* Load the TLB addend for use on the fast path.  Do this asap
 -       to minimize any load use delay.  */
 -    tcg_out_ld(s, TCG_TYPE_PTR, TCG_REG_R3, TCG_REG_R3,
 -               offsetof(CPUTLBEntry, addend));
 -
 -    /* Clear the non-page, non-alignment bits from the address */
 -    if (TCG_TARGET_REG_BITS == 32) {
 -        /* We don't support unaligned accesses on 32-bits.
 -         * Preserve the bottom bits and thus trigger a comparison
 -         * failure on unaligned accesses.
 -         */
 -        if (a_bits < s_bits) {
 -            a_bits = s_bits;
 -        }
 -        tcg_out_rlw(s, RLWINM, TCG_REG_R0, addrlo, 0,
 -                    (32 - a_bits) & 31, 31 - TARGET_PAGE_BITS);
 -    } else {
 -        TCGReg t = addrlo;
 -
 -        /* If the access is unaligned, we need to make sure we fail if we
 -         * cross a page boundary.  The trick is to add the access size-1
 -         * to the address before masking the low bits.  That will make the
 -         * address overflow to the next page if we cross a page boundary,
 -         * which will then force a mismatch of the TLB compare.
 -         */
 -        if (a_bits < s_bits) {
 -            unsigned a_mask = (1 << a_bits) - 1;
 -            unsigned s_mask = (1 << s_bits) - 1;
 -            tcg_out32(s, ADDI | TAI(TCG_REG_R0, t, s_mask - a_mask));
 -            t = TCG_REG_R0;
 -        }
 -
 -        /* Mask the address for the requested alignment.  */
 -        if (TARGET_LONG_BITS == 32) {
 -            tcg_out_rlw(s, RLWINM, TCG_REG_R0, t, 0,
 -                        (32 - a_bits) & 31, 31 - TARGET_PAGE_BITS);
 -            /* Zero-extend the address for use in the final address.  */
 -            tcg_out_ext32u(s, TCG_REG_R4, addrlo);
 -            addrlo = TCG_REG_R4;
 -        } else if (a_bits == 0) {
 -            tcg_out_rld(s, RLDICR, TCG_REG_R0, t, 0, 63 - TARGET_PAGE_BITS);
 -        } else {
 -            tcg_out_rld(s, RLDICL, TCG_REG_R0, t,
 -                        64 - TARGET_PAGE_BITS, TARGET_PAGE_BITS - a_bits);
 -            tcg_out_rld(s, RLDICL, TCG_REG_R0, TCG_REG_R0, TARGET_PAGE_BITS, 0);
 -        }
 -    }
 -
 -    if (TCG_TARGET_REG_BITS < TARGET_LONG_BITS) {
 -        tcg_out_cmp(s, TCG_COND_EQ, TCG_REG_R0, TCG_REG_TMP1,
 -                    0, 7, TCG_TYPE_I32);
 -        tcg_out_cmp(s, TCG_COND_EQ, addrhi, TCG_REG_R4, 0, 6, TCG_TYPE_I32);
 -        tcg_out32(s, CRAND | BT(7, CR_EQ) | BA(6, CR_EQ) | BB(7, CR_EQ));
 -    } else {
 -        tcg_out_cmp(s, TCG_COND_EQ, TCG_REG_R0, TCG_REG_TMP1,
 -                    0, 7, TCG_TYPE_TL);
 -    }
 -
 -    return addrlo;
 -}
 -
 -/* Record the context of a call to the out of line helper code for the slow
 -   path for a load or store, so that we can later generate the correct
 -   helper code.  */
 -static void add_qemu_ldst_label(TCGContext *s, bool is_ld,
 -                                TCGType type, MemOpIdx oi,
 -                                TCGReg datalo_reg, TCGReg datahi_reg,
 -                                TCGReg addrlo_reg, TCGReg addrhi_reg,
 -                                tcg_insn_unit *raddr, tcg_insn_unit *lptr)
 -{
 -    TCGLabelQemuLdst *label = new_ldst_label(s);
 -
 -    label->is_ld = is_ld;
 -    label->type = type;
 -    label->oi = oi;
 -    label->datalo_reg = datalo_reg;
 -    label->datahi_reg = datahi_reg;
 -    label->addrlo_reg = addrlo_reg;
 -    label->addrhi_reg = addrhi_reg;
 -    label->raddr = tcg_splitwx_to_rx(raddr);
 -    label->label_ptr[0] = lptr;
 -}
 -
  static bool tcg_out_qemu_ld_slow_path(TCGContext *s, TCGLabelQemuLdst *lb)
  {
      MemOpIdx oi = lb->oi;
@@ -XXX,XX +XXX,XX @@ static bool tcg_out_qemu_st_slow_path(TCGContext *s, TCGLabelQemuLdst *lb)
      return true;
  }
- #else
--
++static bool fold_masks_z(OptContext *ctx, TCGOp *op, uint64_t z_mask)
 -static void tcg_out_test_alignment(TCGContext *s, bool is_ld, TCGReg addrlo,
 -                                   TCGReg addrhi, unsigned a_bits)
 -{
 -    unsigned a_mask = (1 << a_bits) - 1;
 -    TCGLabelQemuLdst *label = new_ldst_label(s);
 -
 -    label->is_ld = is_ld;
 -    label->addrlo_reg = addrlo;
 -    label->addrhi_reg = addrhi;
 -
 -    /* We are expecting a_bits to max out at 7, much lower than ANDI. */
 -    tcg_debug_assert(a_bits < 16);
 -    tcg_out32(s, ANDI | SAI(addrlo, TCG_REG_R0, a_mask));
 -
 -    label->label_ptr[0] = s->code_ptr;
 -    tcg_out32(s, BC | BI(0, CR_EQ) | BO_COND_FALSE | LK);
 -
 -    label->raddr = tcg_splitwx_to_rx(s->code_ptr);
 -}
 -
  static bool tcg_out_fail_alignment(TCGContext *s, TCGLabelQemuLdst *l)
  {
      if (!reloc_pc14(l->label_ptr[0], tcg_splitwx_to_rx(s->code_ptr))) {
@@ -XXX,XX +XXX,XX @@ typedef struct {
      TCGReg index;
  } HostAddress;
 +/*
 + * For softmmu, perform the TLB load and compare.
 + * For useronly, perform any required alignment tests.
 + * In both cases, return a TCGLabelQemuLdst structure if the slow path
 + * is required and fill in @h with the host address for the fast path.
 + */
 +static TCGLabelQemuLdst *prepare_host_addr(TCGContext *s, HostAddress *h,
 +                                           TCGReg addrlo, TCGReg addrhi,
 +                                           MemOpIdx oi, bool is_ld)
 +{
-+    TCGLabelQemuLdst *ldst = NULL;
++    return fold_masks_zs(ctx, op, z_mask, 0);
 +    MemOp opc = get_memop(oi);
 +    unsigned a_bits = get_alignment_bits(opc);
 +
 +#ifdef CONFIG_SOFTMMU
 +    int mem_index = get_mmuidx(oi);
 +    int cmp_off = is_ld ? offsetof(CPUTLBEntry, addr_read)
 +                        : offsetof(CPUTLBEntry, addr_write);
 +    int fast_off = TLB_MASK_TABLE_OFS(mem_index);
 +    int mask_off = fast_off + offsetof(CPUTLBDescFast, mask);
 +    int table_off = fast_off + offsetof(CPUTLBDescFast, table);
 +    unsigned s_bits = opc & MO_SIZE;
 +
 +    ldst = new_ldst_label(s);
 +    ldst->is_ld = is_ld;
 +    ldst->oi = oi;
 +    ldst->addrlo_reg = addrlo;
 +    ldst->addrhi_reg = addrhi;
 +
 +    /* Load tlb_mask[mmu_idx] and tlb_table[mmu_idx].  */
 +    QEMU_BUILD_BUG_ON(TLB_MASK_TABLE_OFS(0) > 0);
 +    QEMU_BUILD_BUG_ON(TLB_MASK_TABLE_OFS(0) < -32768);
 +    tcg_out_ld(s, TCG_TYPE_PTR, TCG_REG_R3, TCG_AREG0, mask_off);
 +    tcg_out_ld(s, TCG_TYPE_PTR, TCG_REG_R4, TCG_AREG0, table_off);
 +
 +    /* Extract the page index, shifted into place for tlb index.  */
 +    if (TCG_TARGET_REG_BITS == 32) {
 +        tcg_out_shri32(s, TCG_REG_TMP1, addrlo,
 +                       TARGET_PAGE_BITS - CPU_TLB_ENTRY_BITS);
 +    } else {
 +        tcg_out_shri64(s, TCG_REG_TMP1, addrlo,
 +                       TARGET_PAGE_BITS - CPU_TLB_ENTRY_BITS);
 +    }
 +    tcg_out32(s, AND | SAB(TCG_REG_R3, TCG_REG_R3, TCG_REG_TMP1));
 +
 +    /* Load the TLB comparator.  */
 +    if (cmp_off == 0 && TCG_TARGET_REG_BITS >= TARGET_LONG_BITS) {
 +        uint32_t lxu = (TCG_TARGET_REG_BITS == 32 || TARGET_LONG_BITS == 32
 +                        ? LWZUX : LDUX);
 +        tcg_out32(s, lxu | TAB(TCG_REG_TMP1, TCG_REG_R3, TCG_REG_R4));
 +    } else {
 +        tcg_out32(s, ADD | TAB(TCG_REG_R3, TCG_REG_R3, TCG_REG_R4));
 +        if (TCG_TARGET_REG_BITS < TARGET_LONG_BITS) {
 +            tcg_out_ld(s, TCG_TYPE_I32, TCG_REG_TMP1, TCG_REG_R3, cmp_off + 4);
 +            tcg_out_ld(s, TCG_TYPE_I32, TCG_REG_R4, TCG_REG_R3, cmp_off);
 +        } else {
 +            tcg_out_ld(s, TCG_TYPE_TL, TCG_REG_TMP1, TCG_REG_R3, cmp_off);
 +        }
 +    }
 +
 +    /*
 +     * Load the TLB addend for use on the fast path.
 +     * Do this asap to minimize any load use delay.
 +     */
 +    h->base = TCG_REG_R3;
 +    tcg_out_ld(s, TCG_TYPE_PTR, h->base, TCG_REG_R3,
 +               offsetof(CPUTLBEntry, addend));
 +
 +    /* Clear the non-page, non-alignment bits from the address */
 +    if (TCG_TARGET_REG_BITS == 32) {
 +        /*
 +         * We don't support unaligned accesses on 32-bits.
 +         * Preserve the bottom bits and thus trigger a comparison
 +         * failure on unaligned accesses.
 +         */
 +        if (a_bits < s_bits) {
 +            a_bits = s_bits;
 +        }
 +        tcg_out_rlw(s, RLWINM, TCG_REG_R0, addrlo, 0,
 +                    (32 - a_bits) & 31, 31 - TARGET_PAGE_BITS);
 +    } else {
 +        TCGReg t = addrlo;
 +
 +        /*
 +         * If the access is unaligned, we need to make sure we fail if we
 +         * cross a page boundary.  The trick is to add the access size-1
 +         * to the address before masking the low bits.  That will make the
 +         * address overflow to the next page if we cross a page boundary,
 +         * which will then force a mismatch of the TLB compare.
 +         */
 +        if (a_bits < s_bits) {
 +            unsigned a_mask = (1 << a_bits) - 1;
 +            unsigned s_mask = (1 << s_bits) - 1;
 +            tcg_out32(s, ADDI | TAI(TCG_REG_R0, t, s_mask - a_mask));
 +            t = TCG_REG_R0;
 +        }
 +
 +        /* Mask the address for the requested alignment.  */
 +        if (TARGET_LONG_BITS == 32) {
 +            tcg_out_rlw(s, RLWINM, TCG_REG_R0, t, 0,
 +                        (32 - a_bits) & 31, 31 - TARGET_PAGE_BITS);
 +            /* Zero-extend the address for use in the final address.  */
 +            tcg_out_ext32u(s, TCG_REG_R4, addrlo);
 +            addrlo = TCG_REG_R4;
 +        } else if (a_bits == 0) {
 +            tcg_out_rld(s, RLDICR, TCG_REG_R0, t, 0, 63 - TARGET_PAGE_BITS);
 +        } else {
 +            tcg_out_rld(s, RLDICL, TCG_REG_R0, t,
 +                        64 - TARGET_PAGE_BITS, TARGET_PAGE_BITS - a_bits);
 +            tcg_out_rld(s, RLDICL, TCG_REG_R0, TCG_REG_R0, TARGET_PAGE_BITS, 0);
 +        }
 +    }
 +    h->index = addrlo;
 +
 +    if (TCG_TARGET_REG_BITS < TARGET_LONG_BITS) {
 +        tcg_out_cmp(s, TCG_COND_EQ, TCG_REG_R0, TCG_REG_TMP1,
 +                    0, 7, TCG_TYPE_I32);
 +        tcg_out_cmp(s, TCG_COND_EQ, addrhi, TCG_REG_R4, 0, 6, TCG_TYPE_I32);
 +        tcg_out32(s, CRAND | BT(7, CR_EQ) | BA(6, CR_EQ) | BB(7, CR_EQ));
 +    } else {
 +        tcg_out_cmp(s, TCG_COND_EQ, TCG_REG_R0, TCG_REG_TMP1,
 +                    0, 7, TCG_TYPE_TL);
 +    }
 +
 +    /* Load a pointer into the current opcode w/conditional branch-link. */
 +    ldst->label_ptr[0] = s->code_ptr;
 +    tcg_out32(s, BC | BI(7, CR_EQ) | BO_COND_FALSE | LK);
 +#else
 +    if (a_bits) {
 +        ldst = new_ldst_label(s);
 +        ldst->is_ld = is_ld;
 +        ldst->oi = oi;
 +        ldst->addrlo_reg = addrlo;
 +        ldst->addrhi_reg = addrhi;
 +
 +        /* We are expecting a_bits to max out at 7, much lower than ANDI. */
 +        tcg_debug_assert(a_bits < 16);
 +        tcg_out32(s, ANDI | SAI(addrlo, TCG_REG_R0, (1 << a_bits) - 1));
 +
 +        ldst->label_ptr[0] = s->code_ptr;
 +        tcg_out32(s, BC | BI(0, CR_EQ) | BO_COND_FALSE | LK);
 +    }
 +
 +    h->base = guest_base ? TCG_GUEST_BASE_REG : 0;
 +    h->index = addrlo;
 +    if (TCG_TARGET_REG_BITS > TARGET_LONG_BITS) {
 +        tcg_out_ext32u(s, TCG_REG_TMP1, addrlo);
 +        h->index = TCG_REG_TMP1;
 +    }
 +#endif
 +
 +    return ldst;
 +}
 +
- static void tcg_out_qemu_ld(TCGContext *s, TCGReg datalo, TCGReg datahi,
+ static bool fold_masks(OptContext *ctx, TCGOp *op)
                              TCGReg addrlo, TCGReg addrhi,
                              MemOpIdx oi, TCGType data_type)
  {
-     MemOp opc = get_memop(oi);
+     return fold_masks_zs(ctx, op, ctx->z_mask, ctx->s_mask);
--    MemOp s_bits = opc & MO_SIZE;
+@@ -XXX,XX +XXX,XX @@ static bool fold_count_zeros(OptContext *ctx, TCGOp *op)
-+    TCGLabelQemuLdst *ldst;
-     HostAddress h;
+ static bool fold_ctpop(OptContext *ctx, TCGOp *op)
+ {
--#ifdef CONFIG_SOFTMMU
++    uint64_t z_mask;
--    tcg_insn_unit *label_ptr;
++
-+    ldst = prepare_host_addr(s, &h, addrlo, addrhi, oi, true);
+     if (fold_const1(ctx, op)) {
+         return true;
 -    h.index = tcg_out_tlb_read(s, opc, addrlo, addrhi, get_mmuidx(oi), true);
 -    h.base = TCG_REG_R3;
 -
 -    /* Load a pointer into the current opcode w/conditional branch-link. */
 -    label_ptr = s->code_ptr;
 -    tcg_out32(s, BC | BI(7, CR_EQ) | BO_COND_FALSE | LK);
 -#else  /* !CONFIG_SOFTMMU */
 -    unsigned a_bits = get_alignment_bits(opc);
 -    if (a_bits) {
 -        tcg_out_test_alignment(s, true, addrlo, addrhi, a_bits);
 -    }
 -    h.base = guest_base ? TCG_GUEST_BASE_REG : 0;
 -    h.index = addrlo;
 -    if (TCG_TARGET_REG_BITS > TARGET_LONG_BITS) {
 -        tcg_out_ext32u(s, TCG_REG_TMP1, addrlo);
 -        h.index = TCG_REG_TMP1;
 -    }
 -#endif
 -
 -    if (TCG_TARGET_REG_BITS == 32 && s_bits == MO_64) {
 +    if (TCG_TARGET_REG_BITS == 32 && (opc & MO_SIZE) == MO_64) {
          if (opc & MO_BSWAP) {
              tcg_out32(s, ADDI | TAI(TCG_REG_R0, h.index, 4));
              tcg_out32(s, LWBRX | TAB(datalo, h.base, h.index));
@@ -XXX,XX +XXX,XX @@ static void tcg_out_qemu_ld(TCGContext *s, TCGReg datalo, TCGReg datahi,
          }
      }
--#ifdef CONFIG_SOFTMMU
+     switch (ctx->type) {
--    add_qemu_ldst_label(s, true, data_type, oi, datalo, datahi,
+     case TCG_TYPE_I32:
--                        addrlo, addrhi, s->code_ptr, label_ptr);
+-        ctx->z_mask = 32 | 31;
--#endif
++        z_mask = 32 | 31;
-+    if (ldst) {
+         break;
-+        ldst->type = data_type;
+     case TCG_TYPE_I64:
-+        ldst->datalo_reg = datalo;
+-        ctx->z_mask = 64 | 63;
-+        ldst->datahi_reg = datahi;
++        z_mask = 64 | 63;
-+        ldst->raddr = tcg_splitwx_to_rx(s->code_ptr);
+         break;
-+    }
+     default:
          g_assert_not_reached();
      }
 -    return false;
 +    return fold_masks_z(ctx, op, z_mask);
  }
- static void tcg_out_qemu_st(TCGContext *s, TCGReg datalo, TCGReg datahi,
+ static bool fold_deposit(OptContext *ctx, TCGOp *op)
@@ -XXX,XX +XXX,XX @@ static void tcg_out_qemu_st(TCGContext *s, TCGReg datalo, TCGReg datahi,
                              MemOpIdx oi, TCGType data_type)
  {
      MemOp opc = get_memop(oi);
 -    MemOp s_bits = opc & MO_SIZE;
 +    TCGLabelQemuLdst *ldst;
      HostAddress h;
 -#ifdef CONFIG_SOFTMMU
 -    tcg_insn_unit *label_ptr;
 +    ldst = prepare_host_addr(s, &h, addrlo, addrhi, oi, false);
 -    h.index = tcg_out_tlb_read(s, opc, addrlo, addrhi, get_mmuidx(oi), false);
 -    h.base = TCG_REG_R3;
 -
 -    /* Load a pointer into the current opcode w/conditional branch-link. */
 -    label_ptr = s->code_ptr;
 -    tcg_out32(s, BC | BI(7, CR_EQ) | BO_COND_FALSE | LK);
 -#else  /* !CONFIG_SOFTMMU */
 -    unsigned a_bits = get_alignment_bits(opc);
 -    if (a_bits) {
 -        tcg_out_test_alignment(s, false, addrlo, addrhi, a_bits);
 -    }
 -    h.base = guest_base ? TCG_GUEST_BASE_REG : 0;
 -    h.index = addrlo;
 -    if (TCG_TARGET_REG_BITS > TARGET_LONG_BITS) {
 -        tcg_out_ext32u(s, TCG_REG_TMP1, addrlo);
 -        h.index = TCG_REG_TMP1;
 -    }
 -#endif
 -
 -    if (TCG_TARGET_REG_BITS == 32 && s_bits == MO_64) {
 +    if (TCG_TARGET_REG_BITS == 32 && (opc & MO_SIZE) == MO_64) {
          if (opc & MO_BSWAP) {
              tcg_out32(s, ADDI | TAI(TCG_REG_R0, h.index, 4));
              tcg_out32(s, STWBRX | SAB(datalo, h.base, h.index));
@@ -XXX,XX +XXX,XX @@ static void tcg_out_qemu_st(TCGContext *s, TCGReg datalo, TCGReg datahi,
          }
      }
 -#ifdef CONFIG_SOFTMMU
 -    add_qemu_ldst_label(s, false, data_type, oi, datalo, datahi,
 -                        addrlo, addrhi, s->code_ptr, label_ptr);
 -#endif
 +    if (ldst) {
 +        ldst->type = data_type;
 +        ldst->datalo_reg = datalo;
 +        ldst->datahi_reg = datahi;
 +        ldst->raddr = tcg_splitwx_to_rx(s->code_ptr);
 +    }
  }
  static void tcg_out_nop_fill(tcg_insn_unit *p, int count)
 --
-.34.1
+.43.0

-[PULL 32/53] tcg/mips: Reorg tlb load within prepare_host_addr
+[PULL 16/72] tcg/optimize: Use fold_and and fold_masks_z in fold_deposit
-Compare the address vs the tlb entry with sign-extended values.
+Avoid the use of the OptContext slots.  Find TempOptInfo once.
-This simplifies the page+alignment mask constant, and the
+When we fold to and, use fold_and.
 generation of the last byte address for the misaligned test.
-Move the tlb addend load up, and the zero-extension down.
+Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
 This frees up a register, which allows us use TMP3 as the returned base
 address register instead of A0, which we were using as a 5th temporary.
 Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- tcg/mips/tcg-target.c.inc | 38 ++++++++++++++++++--------------------
+ tcg/optimize.c | 35 +++++++++++++++++------------------
-file changed, 18 insertions(+), 20 deletions(-)
+file changed, 17 insertions(+), 18 deletions(-)
-diff --git a/tcg/mips/tcg-target.c.inc b/tcg/mips/tcg-target.c.inc
+diff --git a/tcg/optimize.c b/tcg/optimize.c
 index XXXXXXX..XXXXXXX 100644
---- a/tcg/mips/tcg-target.c.inc
+--- a/tcg/optimize.c
-+++ b/tcg/mips/tcg-target.c.inc
++++ b/tcg/optimize.c
-@@ -XXX,XX +XXX,XX @@ typedef enum {
+@@ -XXX,XX +XXX,XX @@ static bool fold_ctpop(OptContext *ctx, TCGOp *op)
-     ALIAS_PADDI    = sizeof(void *) == 4 ? OPC_ADDIU : OPC_DADDIU,
-     ALIAS_TSRL     = TARGET_LONG_BITS == 32 || TCG_TARGET_REG_BITS == 32
+ static bool fold_deposit(OptContext *ctx, TCGOp *op)
-                      ? OPC_SRL : OPC_DSRL,
+ {
-+    ALIAS_TADDI    = TARGET_LONG_BITS == 32 || TCG_TARGET_REG_BITS == 32
++    TempOptInfo *t1 = arg_info(op->args[1]);
-+                     ? OPC_ADDIU : OPC_DADDIU,
++    TempOptInfo *t2 = arg_info(op->args[2]);
- } MIPSInsn;
++    int ofs = op->args[3];
++    int len = op->args[4];
- /*
+     TCGOpcode and_opc;
-@@ -XXX,XX +XXX,XX @@ static TCGLabelQemuLdst *prepare_host_addr(TCGContext *s, HostAddress *h,
++    uint64_t z_mask;
-     int add_off = offsetof(CPUTLBEntry, addend);
-     int cmp_off = is_ld ? offsetof(CPUTLBEntry, addr_read)
+-    if (arg_is_const(op->args[1]) && arg_is_const(op->args[2])) {
-                         : offsetof(CPUTLBEntry, addr_write);
+-        uint64_t t1 = arg_info(op->args[1])->val;
--    target_ulong tlb_mask;
+-        uint64_t t2 = arg_info(op->args[2])->val;
+-
-     ldst = new_ldst_label(s);
+-        t1 = deposit64(t1, op->args[3], op->args[4], t2);
-     ldst->is_ld = is_ld;
+-        return tcg_opt_gen_movi(ctx, op, op->args[0], t1);
-     ldst->oi = oi;
++    if (ti_is_const(t1) && ti_is_const(t2)) {
-     ldst->addrlo_reg = addrlo;
++        return tcg_opt_gen_movi(ctx, op, op->args[0],
-     ldst->addrhi_reg = addrhi;
++                                deposit64(ti_const_val(t1), ofs, len,
--    base = TCG_REG_A0;
++                                          ti_const_val(t2)));
      /* Load tlb_mask[mmu_idx] and tlb_table[mmu_idx].  */
      QEMU_BUILD_BUG_ON(TLB_MASK_TABLE_OFS(0) > 0);
@@ -XXX,XX +XXX,XX @@ static TCGLabelQemuLdst *prepare_host_addr(TCGContext *s, HostAddress *h,
      if (TCG_TARGET_REG_BITS < TARGET_LONG_BITS) {
          tcg_out_ldst(s, OPC_LW, TCG_TMP0, TCG_TMP3, cmp_off + LO_OFF);
      } else {
 -        tcg_out_ldst(s, (TARGET_LONG_BITS == 64 ? OPC_LD
 -                         : TCG_TARGET_REG_BITS == 64 ? OPC_LWU : OPC_LW),
 -                     TCG_TMP0, TCG_TMP3, cmp_off);
 +        tcg_out_ld(s, TCG_TYPE_TL, TCG_TMP0, TCG_TMP3, cmp_off);
      }
--    /* Zero extend a 32-bit guest address for a 64-bit host. */
+     switch (ctx->type) {
--    if (TCG_TARGET_REG_BITS > TARGET_LONG_BITS) {
+@@ -XXX,XX +XXX,XX @@ static bool fold_deposit(OptContext *ctx, TCGOp *op)
 -        tcg_out_ext32u(s, base, addrlo);
 -        addrlo = base;
 +    if (TCG_TARGET_REG_BITS >= TARGET_LONG_BITS) {
 +        /* Load the tlb addend for the fast path.  */
 +        tcg_out_ld(s, TCG_TYPE_PTR, TCG_TMP3, TCG_TMP3, add_off);
      }
-     /*
+     /* Inserting a value into zero at offset 0. */
-@@ -XXX,XX +XXX,XX @@ static TCGLabelQemuLdst *prepare_host_addr(TCGContext *s, HostAddress *h,
+-    if (arg_is_const_val(op->args[1], 0) && op->args[3] == 0) {
-      * For unaligned accesses, compare against the end of the access to
+-        uint64_t mask = MAKE_64BIT_MASK(0, op->args[4]);
-      * verify that it does not cross a page boundary.
++    if (ti_is_const_val(t1, 0) && ofs == 0) {
-      */
++        uint64_t mask = MAKE_64BIT_MASK(0, len);
--    tlb_mask = (target_ulong)TARGET_PAGE_MASK | a_mask;
--    tcg_out_movi(s, TCG_TYPE_I32, TCG_TMP1, tlb_mask);
+         op->opc = and_opc;
--    if (a_mask >= s_mask) {
+         op->args[1] = op->args[2];
--        tcg_out_opc_reg(s, OPC_AND, TCG_TMP1, TCG_TMP1, addrlo);
+         op->args[2] = arg_new_constant(ctx, mask);
--    } else {
+-        ctx->z_mask = mask & arg_info(op->args[1])->z_mask;
--        tcg_out_opc_imm(s, ALIAS_PADDI, TCG_TMP2, addrlo, s_mask - a_mask);
+-        return false;
-+    tcg_out_movi(s, TCG_TYPE_TL, TCG_TMP1, TARGET_PAGE_MASK | a_mask);
++        return fold_and(ctx, op);
 +    if (a_mask < s_mask) {
 +        tcg_out_opc_imm(s, ALIAS_TADDI, TCG_TMP2, addrlo, s_mask - a_mask);
          tcg_out_opc_reg(s, OPC_AND, TCG_TMP1, TCG_TMP1, TCG_TMP2);
 +    } else {
 +        tcg_out_opc_reg(s, OPC_AND, TCG_TMP1, TCG_TMP1, addrlo);
      }
--    if (TCG_TARGET_REG_BITS >= TARGET_LONG_BITS) {
+     /* Inserting zero into a value. */
--        /* Load the tlb addend for the fast path.  */
+-    if (arg_is_const_val(op->args[2], 0)) {
--        tcg_out_ld(s, TCG_TYPE_PTR, TCG_TMP2, TCG_TMP3, add_off);
+-        uint64_t mask = deposit64(-1, op->args[3], op->args[4], 0);
-+    /* Zero extend a 32-bit guest address for a 64-bit host. */
++    if (ti_is_const_val(t2, 0)) {
-+    if (TCG_TARGET_REG_BITS > TARGET_LONG_BITS) {
++        uint64_t mask = deposit64(-1, ofs, len, 0);
-+        tcg_out_ext32u(s, TCG_TMP2, addrlo);
-+        addrlo = TCG_TMP2;
+         op->opc = and_opc;
          op->args[2] = arg_new_constant(ctx, mask);
 -        ctx->z_mask = mask & arg_info(op->args[1])->z_mask;
 -        return false;
 +        return fold_and(ctx, op);
      }
-     ldst->label_ptr[0] = s->code_ptr;
+-    ctx->z_mask = deposit64(arg_info(op->args[1])->z_mask,
-@@ -XXX,XX +XXX,XX @@ static TCGLabelQemuLdst *prepare_host_addr(TCGContext *s, HostAddress *h,
+-                            op->args[3], op->args[4],
-         tcg_out_ldst(s, OPC_LW, TCG_TMP0, TCG_TMP3, cmp_off + HI_OFF);
+-                            arg_info(op->args[2])->z_mask);
+-    return false;
-         /* Load the tlb addend for the fast path.  */
++    z_mask = deposit64(t1->z_mask, ofs, len, t2->z_mask);
--        tcg_out_ld(s, TCG_TYPE_PTR, TCG_TMP2, TCG_TMP3, add_off);
++    return fold_masks_z(ctx, op, z_mask);
-+        tcg_out_ld(s, TCG_TYPE_PTR, TCG_TMP3, TCG_TMP3, add_off);
+ }
-         ldst->label_ptr[1] = s->code_ptr;
+ static bool fold_divide(OptContext *ctx, TCGOp *op)
          tcg_out_opc_br(s, OPC_BNE, addrhi, TCG_TMP0);
      }
      /* delay slot */
 -    tcg_out_opc_reg(s, ALIAS_PADD, base, TCG_TMP2, addrlo);
 +    base = TCG_TMP3;
 +    tcg_out_opc_reg(s, ALIAS_PADD, base, TCG_TMP3, addrlo);
  #else
      if (a_mask && (use_mips32r6_instructions || a_bits != s_bits)) {
          ldst = new_ldst_label(s);
 --
-.34.1
+.43.0

-[PULL 13/53] tcg/aarch64: Introduce prepare_host_addr
+[PULL 17/72] tcg/optimize: Compute sign mask in fold_deposit
-Merge tcg_out_tlb_load, add_qemu_ldst_label, tcg_out_test_alignment,
+The input which overlaps the sign bit of the output can
-and some code that lived in both tcg_out_qemu_ld and tcg_out_qemu_st
+have its input s_mask propagated to the output s_mask.
 into one function that returns HostAddress and TCGLabelQemuLdst structures.
-Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
+Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- tcg/aarch64/tcg-target.c.inc | 313 +++++++++++++++--------------------
+ tcg/optimize.c | 14 ++++++++++++--
-file changed, 133 insertions(+), 180 deletions(-)
+file changed, 12 insertions(+), 2 deletions(-)
-diff --git a/tcg/aarch64/tcg-target.c.inc b/tcg/aarch64/tcg-target.c.inc
+diff --git a/tcg/optimize.c b/tcg/optimize.c
 index XXXXXXX..XXXXXXX 100644
---- a/tcg/aarch64/tcg-target.c.inc
+--- a/tcg/optimize.c
-+++ b/tcg/aarch64/tcg-target.c.inc
++++ b/tcg/optimize.c
-@@ -XXX,XX +XXX,XX @@ static bool tcg_out_qemu_st_slow_path(TCGContext *s, TCGLabelQemuLdst *lb)
+@@ -XXX,XX +XXX,XX @@ static bool fold_deposit(OptContext *ctx, TCGOp *op)
-     tcg_out_goto(s, lb->raddr);
+     TempOptInfo *t2 = arg_info(op->args[2]);
-     return true;
+     int ofs = op->args[3];
- }
+     int len = op->args[4];
--
++    int width;
--static void add_qemu_ldst_label(TCGContext *s, bool is_ld, MemOpIdx oi,
+     TCGOpcode and_opc;
--                                TCGType ext, TCGReg data_reg, TCGReg addr_reg,
+-    uint64_t z_mask;
--                                tcg_insn_unit *raddr, tcg_insn_unit *label_ptr)
++    uint64_t z_mask, s_mask;
--{
--    TCGLabelQemuLdst *label = new_ldst_label(s);
+     if (ti_is_const(t1) && ti_is_const(t2)) {
--
+         return tcg_opt_gen_movi(ctx, op, op->args[0],
--    label->is_ld = is_ld;
+@@ -XXX,XX +XXX,XX @@ static bool fold_deposit(OptContext *ctx, TCGOp *op)
--    label->oi = oi;
+     switch (ctx->type) {
--    label->type = ext;
+     case TCG_TYPE_I32:
--    label->datalo_reg = data_reg;
+         and_opc = INDEX_op_and_i32;
--    label->addrlo_reg = addr_reg;
++        width = 32;
--    label->raddr = tcg_splitwx_to_rx(raddr);
+         break;
--    label->label_ptr[0] = label_ptr;
+     case TCG_TYPE_I64:
--}
+         and_opc = INDEX_op_and_i64;
--
++        width = 64;
--/* We expect to use a 7-bit scaled negative offset from ENV.  */
+         break;
--QEMU_BUILD_BUG_ON(TLB_MASK_TABLE_OFS(0) > 0);
+     default:
--QEMU_BUILD_BUG_ON(TLB_MASK_TABLE_OFS(0) < -512);
+         g_assert_not_reached();
--
+@@ -XXX,XX +XXX,XX @@ static bool fold_deposit(OptContext *ctx, TCGOp *op)
--/* These offsets are built into the LDP below.  */
+         return fold_and(ctx, op);
--QEMU_BUILD_BUG_ON(offsetof(CPUTLBDescFast, mask) != 0);
+     }
--QEMU_BUILD_BUG_ON(offsetof(CPUTLBDescFast, table) != 8);
--
++    /* The s_mask from the top portion of the deposit is still valid. */
--/* Load and compare a TLB entry, emitting the conditional jump to the
++    if (ofs + len == width) {
--   slow path for the failure case, which will be patched later when finalizing
++        s_mask = t2->s_mask << ofs;
 -   the slow path. Generated code returns the host addend in X1,
 -   clobbers X0,X2,X3,TMP. */
 -static void tcg_out_tlb_read(TCGContext *s, TCGReg addr_reg, MemOp opc,
 -                             tcg_insn_unit **label_ptr, int mem_index,
 -                             bool is_read)
 -{
 -    unsigned a_bits = get_alignment_bits(opc);
 -    unsigned s_bits = opc & MO_SIZE;
 -    unsigned a_mask = (1u << a_bits) - 1;
 -    unsigned s_mask = (1u << s_bits) - 1;
 -    TCGReg x3;
 -    TCGType mask_type;
 -    uint64_t compare_mask;
 -
 -    mask_type = (TARGET_PAGE_BITS + CPU_TLB_DYN_MAX_BITS > 32
 -                 ? TCG_TYPE_I64 : TCG_TYPE_I32);
 -
 -    /* Load env_tlb(env)->f[mmu_idx].{mask,table} into {x0,x1}.  */
 -    tcg_out_insn(s, 3314, LDP, TCG_REG_X0, TCG_REG_X1, TCG_AREG0,
 -                 TLB_MASK_TABLE_OFS(mem_index), 1, 0);
 -
 -    /* Extract the TLB index from the address into X0.  */
 -    tcg_out_insn(s, 3502S, AND_LSR, mask_type == TCG_TYPE_I64,
 -                 TCG_REG_X0, TCG_REG_X0, addr_reg,
 -                 TARGET_PAGE_BITS - CPU_TLB_ENTRY_BITS);
 -
 -    /* Add the tlb_table pointer, creating the CPUTLBEntry address into X1.  */
 -    tcg_out_insn(s, 3502, ADD, 1, TCG_REG_X1, TCG_REG_X1, TCG_REG_X0);
 -
 -    /* Load the tlb comparator into X0, and the fast path addend into X1.  */
 -    tcg_out_ld(s, TCG_TYPE_TL, TCG_REG_X0, TCG_REG_X1, is_read
 -               ? offsetof(CPUTLBEntry, addr_read)
 -               : offsetof(CPUTLBEntry, addr_write));
 -    tcg_out_ld(s, TCG_TYPE_PTR, TCG_REG_X1, TCG_REG_X1,
 -               offsetof(CPUTLBEntry, addend));
 -
 -    /* For aligned accesses, we check the first byte and include the alignment
 -       bits within the address.  For unaligned access, we check that we don't
 -       cross pages using the address of the last byte of the access.  */
 -    if (a_bits >= s_bits) {
 -        x3 = addr_reg;
 -    } else {
 -        tcg_out_insn(s, 3401, ADDI, TARGET_LONG_BITS == 64,
 -                     TCG_REG_X3, addr_reg, s_mask - a_mask);
 -        x3 = TCG_REG_X3;
 -    }
 -    compare_mask = (uint64_t)TARGET_PAGE_MASK | a_mask;
 -
 -    /* Store the page mask part of the address into X3.  */
 -    tcg_out_logicali(s, I3404_ANDI, TARGET_LONG_BITS == 64,
 -                     TCG_REG_X3, x3, compare_mask);
 -
 -    /* Perform the address comparison. */
 -    tcg_out_cmp(s, TARGET_LONG_BITS == 64, TCG_REG_X0, TCG_REG_X3, 0);
 -
 -    /* If not equal, we jump to the slow path. */
 -    *label_ptr = s->code_ptr;
 -    tcg_out_insn(s, 3202, B_C, TCG_COND_NE, 0);
 -}
 -
  #else
 -static void tcg_out_test_alignment(TCGContext *s, bool is_ld, TCGReg addr_reg,
 -                                   unsigned a_bits)
 -{
 -    unsigned a_mask = (1 << a_bits) - 1;
 -    TCGLabelQemuLdst *label = new_ldst_label(s);
 -
 -    label->is_ld = is_ld;
 -    label->addrlo_reg = addr_reg;
 -
 -    /* tst addr, #mask */
 -    tcg_out_logicali(s, I3404_ANDSI, 0, TCG_REG_XZR, addr_reg, a_mask);
 -
 -    label->label_ptr[0] = s->code_ptr;
 -
 -    /* b.ne slow_path */
 -    tcg_out_insn(s, 3202, B_C, TCG_COND_NE, 0);
 -
 -    label->raddr = tcg_splitwx_to_rx(s->code_ptr);
 -}
 -
  static bool tcg_out_fail_alignment(TCGContext *s, TCGLabelQemuLdst *l)
  {
      if (!reloc_pc19(l->label_ptr[0], tcg_splitwx_to_rx(s->code_ptr))) {
@@ -XXX,XX +XXX,XX @@ static bool tcg_out_qemu_st_slow_path(TCGContext *s, TCGLabelQemuLdst *l)
  }
  #endif /* CONFIG_SOFTMMU */
 +/*
 + * For softmmu, perform the TLB load and compare.
 + * For useronly, perform any required alignment tests.
 + * In both cases, return a TCGLabelQemuLdst structure if the slow path
 + * is required and fill in @h with the host address for the fast path.
 + */
 +static TCGLabelQemuLdst *prepare_host_addr(TCGContext *s, HostAddress *h,
 +                                           TCGReg addr_reg, MemOpIdx oi,
 +                                           bool is_ld)
 +{
 +    TCGType addr_type = TARGET_LONG_BITS == 64 ? TCG_TYPE_I64 : TCG_TYPE_I32;
 +    TCGLabelQemuLdst *ldst = NULL;
 +    MemOp opc = get_memop(oi);
 +    unsigned a_bits = get_alignment_bits(opc);
 +    unsigned a_mask = (1u << a_bits) - 1;
 +
 +#ifdef CONFIG_SOFTMMU
 +    unsigned s_bits = opc & MO_SIZE;
 +    unsigned s_mask = (1u << s_bits) - 1;
 +    unsigned mem_index = get_mmuidx(oi);
 +    TCGReg x3;
 +    TCGType mask_type;
 +    uint64_t compare_mask;
 +
 +    ldst = new_ldst_label(s);
 +    ldst->is_ld = is_ld;
 +    ldst->oi = oi;
 +    ldst->addrlo_reg = addr_reg;
 +
 +    mask_type = (TARGET_PAGE_BITS + CPU_TLB_DYN_MAX_BITS > 32
 +                 ? TCG_TYPE_I64 : TCG_TYPE_I32);
 +
 +    /* Load env_tlb(env)->f[mmu_idx].{mask,table} into {x0,x1}.  */
 +    QEMU_BUILD_BUG_ON(TLB_MASK_TABLE_OFS(0) > 0);
 +    QEMU_BUILD_BUG_ON(TLB_MASK_TABLE_OFS(0) < -512);
 +    QEMU_BUILD_BUG_ON(offsetof(CPUTLBDescFast, mask) != 0);
 +    QEMU_BUILD_BUG_ON(offsetof(CPUTLBDescFast, table) != 8);
 +    tcg_out_insn(s, 3314, LDP, TCG_REG_X0, TCG_REG_X1, TCG_AREG0,
 +                 TLB_MASK_TABLE_OFS(mem_index), 1, 0);
 +
 +    /* Extract the TLB index from the address into X0.  */
 +    tcg_out_insn(s, 3502S, AND_LSR, mask_type == TCG_TYPE_I64,
 +                 TCG_REG_X0, TCG_REG_X0, addr_reg,
 +                 TARGET_PAGE_BITS - CPU_TLB_ENTRY_BITS);
 +
 +    /* Add the tlb_table pointer, creating the CPUTLBEntry address into X1.  */
 +    tcg_out_insn(s, 3502, ADD, 1, TCG_REG_X1, TCG_REG_X1, TCG_REG_X0);
 +
 +    /* Load the tlb comparator into X0, and the fast path addend into X1.  */
 +    tcg_out_ld(s, TCG_TYPE_TL, TCG_REG_X0, TCG_REG_X1,
 +               is_ld ? offsetof(CPUTLBEntry, addr_read)
 +                     : offsetof(CPUTLBEntry, addr_write));
 +    tcg_out_ld(s, TCG_TYPE_PTR, TCG_REG_X1, TCG_REG_X1,
 +               offsetof(CPUTLBEntry, addend));
 +
 +    /*
 +     * For aligned accesses, we check the first byte and include the alignment
 +     * bits within the address.  For unaligned access, we check that we don't
 +     * cross pages using the address of the last byte of the access.
 +     */
 +    if (a_bits >= s_bits) {
 +        x3 = addr_reg;
 +    } else {
-+        tcg_out_insn(s, 3401, ADDI, TARGET_LONG_BITS == 64,
++        s_mask = t1->s_mask & ~MAKE_64BIT_MASK(0, ofs + len);
 +                     TCG_REG_X3, addr_reg, s_mask - a_mask);
 +        x3 = TCG_REG_X3;
 +    }
 +    compare_mask = (uint64_t)TARGET_PAGE_MASK | a_mask;
 +
 +    /* Store the page mask part of the address into X3.  */
 +    tcg_out_logicali(s, I3404_ANDI, TARGET_LONG_BITS == 64,
 +                     TCG_REG_X3, x3, compare_mask);
 +
 +    /* Perform the address comparison. */
 +    tcg_out_cmp(s, TARGET_LONG_BITS == 64, TCG_REG_X0, TCG_REG_X3, 0);
 +
 +    /* If not equal, we jump to the slow path. */
 +    ldst->label_ptr[0] = s->code_ptr;
 +    tcg_out_insn(s, 3202, B_C, TCG_COND_NE, 0);
 +
 +    *h = (HostAddress){
 +        .base = TCG_REG_X1,
 +        .index = addr_reg,
 +        .index_ext = addr_type
 +    };
 +#else
 +    if (a_mask) {
 +        ldst = new_ldst_label(s);
 +
 +        ldst->is_ld = is_ld;
 +        ldst->oi = oi;
 +        ldst->addrlo_reg = addr_reg;
 +
 +        /* tst addr, #mask */
 +        tcg_out_logicali(s, I3404_ANDSI, 0, TCG_REG_XZR, addr_reg, a_mask);
 +
 +        /* b.ne slow_path */
 +        ldst->label_ptr[0] = s->code_ptr;
 +        tcg_out_insn(s, 3202, B_C, TCG_COND_NE, 0);
 +    }
 +
-+    if (USE_GUEST_BASE) {
+     z_mask = deposit64(t1->z_mask, ofs, len, t2->z_mask);
-+        *h = (HostAddress){
+-    return fold_masks_z(ctx, op, z_mask);
-+            .base = TCG_REG_GUEST_BASE,
++    return fold_masks_zs(ctx, op, z_mask, s_mask);
 +            .index = addr_reg,
 +            .index_ext = addr_type
 +        };
 +    } else {
 +        *h = (HostAddress){
 +            .base = addr_reg,
 +            .index = TCG_REG_XZR,
 +            .index_ext = TCG_TYPE_I64
 +        };
 +    }
 +#endif
 +
 +    return ldst;
 +}
 +
  static void tcg_out_qemu_ld_direct(TCGContext *s, MemOp memop, TCGType ext,
                                     TCGReg data_r, HostAddress h)
  {
@@ -XXX,XX +XXX,XX @@ static void tcg_out_qemu_st_direct(TCGContext *s, MemOp memop,
  static void tcg_out_qemu_ld(TCGContext *s, TCGReg data_reg, TCGReg addr_reg,
                              MemOpIdx oi, TCGType data_type)
  {
 -    MemOp memop = get_memop(oi);
 -    TCGType addr_type = TARGET_LONG_BITS == 64 ? TCG_TYPE_I64 : TCG_TYPE_I32;
 +    TCGLabelQemuLdst *ldst;
      HostAddress h;
 -    /* Byte swapping is left to middle-end expansion. */
 -    tcg_debug_assert((memop & MO_BSWAP) == 0);
 +    ldst = prepare_host_addr(s, &h, addr_reg, oi, true);
 +    tcg_out_qemu_ld_direct(s, get_memop(oi), data_type, data_reg, h);
 -#ifdef CONFIG_SOFTMMU
 -    tcg_insn_unit *label_ptr;
 -
 -    tcg_out_tlb_read(s, addr_reg, memop, &label_ptr, get_mmuidx(oi), 1);
 -
 -    h = (HostAddress){
 -        .base = TCG_REG_X1,
 -        .index = addr_reg,
 -        .index_ext = addr_type
 -    };
 -    tcg_out_qemu_ld_direct(s, memop, data_type, data_reg, h);
 -
 -    add_qemu_ldst_label(s, true, oi, data_type, data_reg, addr_reg,
 -                        s->code_ptr, label_ptr);
 -#else /* !CONFIG_SOFTMMU */
 -    unsigned a_bits = get_alignment_bits(memop);
 -    if (a_bits) {
 -        tcg_out_test_alignment(s, true, addr_reg, a_bits);
 +    if (ldst) {
 +        ldst->type = data_type;
 +        ldst->datalo_reg = data_reg;
 +        ldst->raddr = tcg_splitwx_to_rx(s->code_ptr);
      }
 -    if (USE_GUEST_BASE) {
 -        h = (HostAddress){
 -            .base = TCG_REG_GUEST_BASE,
 -            .index = addr_reg,
 -            .index_ext = addr_type
 -        };
 -    } else {
 -        h = (HostAddress){
 -            .base = addr_reg,
 -            .index = TCG_REG_XZR,
 -            .index_ext = TCG_TYPE_I64
 -        };
 -    }
 -    tcg_out_qemu_ld_direct(s, memop, data_type, data_reg, h);
 -#endif /* CONFIG_SOFTMMU */
  }
- static void tcg_out_qemu_st(TCGContext *s, TCGReg data_reg, TCGReg addr_reg,
+ static bool fold_divide(OptContext *ctx, TCGOp *op)
                              MemOpIdx oi, TCGType data_type)
  {
 -    MemOp memop = get_memop(oi);
 -    TCGType addr_type = TARGET_LONG_BITS == 64 ? TCG_TYPE_I64 : TCG_TYPE_I32;
 +    TCGLabelQemuLdst *ldst;
      HostAddress h;
 -    /* Byte swapping is left to middle-end expansion. */
 -    tcg_debug_assert((memop & MO_BSWAP) == 0);
 +    ldst = prepare_host_addr(s, &h, addr_reg, oi, false);
 +    tcg_out_qemu_st_direct(s, get_memop(oi), data_reg, h);
 -#ifdef CONFIG_SOFTMMU
 -    tcg_insn_unit *label_ptr;
 -
 -    tcg_out_tlb_read(s, addr_reg, memop, &label_ptr, get_mmuidx(oi), 0);
 -
 -    h = (HostAddress){
 -        .base = TCG_REG_X1,
 -        .index = addr_reg,
 -        .index_ext = addr_type
 -    };
 -    tcg_out_qemu_st_direct(s, memop, data_reg, h);
 -
 -    add_qemu_ldst_label(s, false, oi, data_type, data_reg, addr_reg,
 -                        s->code_ptr, label_ptr);
 -#else /* !CONFIG_SOFTMMU */
 -    unsigned a_bits = get_alignment_bits(memop);
 -    if (a_bits) {
 -        tcg_out_test_alignment(s, false, addr_reg, a_bits);
 +    if (ldst) {
 +        ldst->type = data_type;
 +        ldst->datalo_reg = data_reg;
 +        ldst->raddr = tcg_splitwx_to_rx(s->code_ptr);
      }
 -    if (USE_GUEST_BASE) {
 -        h = (HostAddress){
 -            .base = TCG_REG_GUEST_BASE,
 -            .index = addr_reg,
 -            .index_ext = addr_type
 -        };
 -    } else {
 -        h = (HostAddress){
 -            .base = addr_reg,
 -            .index = TCG_REG_XZR,
 -            .index_ext = TCG_TYPE_I64
 -        };
 -    }
 -    tcg_out_qemu_st_direct(s, memop, data_reg, h);
 -#endif /* CONFIG_SOFTMMU */
  }
  static const tcg_insn_unit *tb_ret_addr;
 --
-.34.1
+.43.0

-New patch
+[PULL 18/72] tcg/optimize: Use finish_folding in fold_divide
+Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
+Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
+---
+ tcg/optimize.c | 2 +-
+file changed, 1 insertion(+), 1 deletion(-)
+diff --git a/tcg/optimize.c b/tcg/optimize.c
+index XXXXXXX..XXXXXXX 100644
+--- a/tcg/optimize.c
++++ b/tcg/optimize.c
+@@ -XXX,XX +XXX,XX @@ static bool fold_divide(OptContext *ctx, TCGOp *op)
+         fold_xi_to_x(ctx, op, 1)) {
+         return true;
+     }
+-    return false;
++    return finish_folding(ctx, op);
+ }
+ static bool fold_dup(OptContext *ctx, TCGOp *op)
+--
+.43.0

-New patch
+[PULL 19/72] tcg/optimize: Use finish_folding in fold_dup, fold_dup2
+Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
+Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
+---
+ tcg/optimize.c | 4 ++--
+file changed, 2 insertions(+), 2 deletions(-)
+diff --git a/tcg/optimize.c b/tcg/optimize.c
+index XXXXXXX..XXXXXXX 100644
+--- a/tcg/optimize.c
++++ b/tcg/optimize.c
+@@ -XXX,XX +XXX,XX @@ static bool fold_dup(OptContext *ctx, TCGOp *op)
+         t = dup_const(TCGOP_VECE(op), t);
+         return tcg_opt_gen_movi(ctx, op, op->args[0], t);
+     }
+-    return false;
++    return finish_folding(ctx, op);
+ }
+ static bool fold_dup2(OptContext *ctx, TCGOp *op)
+@@ -XXX,XX +XXX,XX @@ static bool fold_dup2(OptContext *ctx, TCGOp *op)
+         op->opc = INDEX_op_dup_vec;
+         TCGOP_VECE(op) = MO_32;
+     }
+-    return false;
++    return finish_folding(ctx, op);
+ }
+ static bool fold_eqv(OptContext *ctx, TCGOp *op)
+--
+.43.0

-[PULL 18/53] tcg/riscv: Introduce prepare_host_addr
+[PULL 20/72] tcg/optimize: Use fold_masks_s in fold_eqv
-Merge tcg_out_tlb_load, add_qemu_ldst_label, tcg_out_test_alignment,
+Add fold_masks_s as a trivial wrapper around fold_masks_zs.
-and some code that lived in both tcg_out_qemu_ld and tcg_out_qemu_st
+Avoid the use of the OptContext slots.
 into one function that returns TCGReg and TCGLabelQemuLdst.
-Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
+Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- tcg/riscv/tcg-target.c.inc | 253 +++++++++++++++++--------------------
+ tcg/optimize.c | 13 ++++++++++---
-file changed, 114 insertions(+), 139 deletions(-)
+file changed, 10 insertions(+), 3 deletions(-)
-diff --git a/tcg/riscv/tcg-target.c.inc b/tcg/riscv/tcg-target.c.inc
+diff --git a/tcg/optimize.c b/tcg/optimize.c
 index XXXXXXX..XXXXXXX 100644
---- a/tcg/riscv/tcg-target.c.inc
+--- a/tcg/optimize.c
-+++ b/tcg/riscv/tcg-target.c.inc
++++ b/tcg/optimize.c
-@@ -XXX,XX +XXX,XX @@ static void * const qemu_st_helpers[MO_SIZE + 1] = {
+@@ -XXX,XX +XXX,XX @@ static bool fold_masks_z(OptContext *ctx, TCGOp *op, uint64_t z_mask)
- #endif
+     return fold_masks_zs(ctx, op, z_mask, 0);
  };
 -/* We expect to use a 12-bit negative offset from ENV.  */
 -QEMU_BUILD_BUG_ON(TLB_MASK_TABLE_OFS(0) > 0);
 -QEMU_BUILD_BUG_ON(TLB_MASK_TABLE_OFS(0) < -(1 << 11));
 -
  static void tcg_out_goto(TCGContext *s, const tcg_insn_unit *target)
  {
      tcg_out_opc_jump(s, OPC_JAL, TCG_REG_ZERO, 0);
@@ -XXX,XX +XXX,XX @@ static void tcg_out_goto(TCGContext *s, const tcg_insn_unit *target)
      tcg_debug_assert(ok);
  }
--static TCGReg tcg_out_tlb_load(TCGContext *s, TCGReg addr, MemOpIdx oi,
++static bool fold_masks_s(OptContext *ctx, TCGOp *op, uint64_t s_mask)
 -                               tcg_insn_unit **label_ptr, bool is_load)
 -{
 -    MemOp opc = get_memop(oi);
 -    unsigned s_bits = opc & MO_SIZE;
 -    unsigned a_bits = get_alignment_bits(opc);
 -    tcg_target_long compare_mask;
 -    int mem_index = get_mmuidx(oi);
 -    int fast_ofs = TLB_MASK_TABLE_OFS(mem_index);
 -    int mask_ofs = fast_ofs + offsetof(CPUTLBDescFast, mask);
 -    int table_ofs = fast_ofs + offsetof(CPUTLBDescFast, table);
 -    TCGReg mask_base = TCG_AREG0, table_base = TCG_AREG0;
 -
 -    tcg_out_ld(s, TCG_TYPE_PTR, TCG_REG_TMP0, mask_base, mask_ofs);
 -    tcg_out_ld(s, TCG_TYPE_PTR, TCG_REG_TMP1, table_base, table_ofs);
 -
 -    tcg_out_opc_imm(s, OPC_SRLI, TCG_REG_TMP2, addr,
 -                    TARGET_PAGE_BITS - CPU_TLB_ENTRY_BITS);
 -    tcg_out_opc_reg(s, OPC_AND, TCG_REG_TMP2, TCG_REG_TMP2, TCG_REG_TMP0);
 -    tcg_out_opc_reg(s, OPC_ADD, TCG_REG_TMP2, TCG_REG_TMP2, TCG_REG_TMP1);
 -
 -    /* Load the tlb comparator and the addend.  */
 -    tcg_out_ld(s, TCG_TYPE_TL, TCG_REG_TMP0, TCG_REG_TMP2,
 -               is_load ? offsetof(CPUTLBEntry, addr_read)
 -               : offsetof(CPUTLBEntry, addr_write));
 -    tcg_out_ld(s, TCG_TYPE_PTR, TCG_REG_TMP2, TCG_REG_TMP2,
 -               offsetof(CPUTLBEntry, addend));
 -
 -    /* We don't support unaligned accesses. */
 -    if (a_bits < s_bits) {
 -        a_bits = s_bits;
 -    }
 -    /* Clear the non-page, non-alignment bits from the address.  */
 -    compare_mask = (tcg_target_long)TARGET_PAGE_MASK | ((1 << a_bits) - 1);
 -    if (compare_mask == sextreg(compare_mask, 0, 12)) {
 -        tcg_out_opc_imm(s, OPC_ANDI, TCG_REG_TMP1, addr, compare_mask);
 -    } else {
 -        tcg_out_movi(s, TCG_TYPE_TL, TCG_REG_TMP1, compare_mask);
 -        tcg_out_opc_reg(s, OPC_AND, TCG_REG_TMP1, TCG_REG_TMP1, addr);
 -    }
 -
 -    /* Compare masked address with the TLB entry. */
 -    label_ptr[0] = s->code_ptr;
 -    tcg_out_opc_branch(s, OPC_BNE, TCG_REG_TMP0, TCG_REG_TMP1, 0);
 -
 -    /* TLB Hit - translate address using addend.  */
 -    if (TARGET_LONG_BITS == 32) {
 -        tcg_out_ext32u(s, TCG_REG_TMP0, addr);
 -        addr = TCG_REG_TMP0;
 -    }
 -    tcg_out_opc_reg(s, OPC_ADD, TCG_REG_TMP0, TCG_REG_TMP2, addr);
 -    return TCG_REG_TMP0;
 -}
 -
 -static void add_qemu_ldst_label(TCGContext *s, int is_ld, MemOpIdx oi,
 -                                TCGType data_type, TCGReg data_reg,
 -                                TCGReg addr_reg, void *raddr,
 -                                tcg_insn_unit **label_ptr)
 -{
 -    TCGLabelQemuLdst *label = new_ldst_label(s);
 -
 -    label->is_ld = is_ld;
 -    label->oi = oi;
 -    label->type = data_type;
 -    label->datalo_reg = data_reg;
 -    label->addrlo_reg = addr_reg;
 -    label->raddr = tcg_splitwx_to_rx(raddr);
 -    label->label_ptr[0] = label_ptr[0];
 -}
 -
  static bool tcg_out_qemu_ld_slow_path(TCGContext *s, TCGLabelQemuLdst *l)
  {
      MemOpIdx oi = l->oi;
@@ -XXX,XX +XXX,XX @@ static bool tcg_out_qemu_st_slow_path(TCGContext *s, TCGLabelQemuLdst *l)
      return true;
  }
  #else
 -
 -static void tcg_out_test_alignment(TCGContext *s, bool is_ld, TCGReg addr_reg,
 -                                   unsigned a_bits)
 -{
 -    unsigned a_mask = (1 << a_bits) - 1;
 -    TCGLabelQemuLdst *l = new_ldst_label(s);
 -
 -    l->is_ld = is_ld;
 -    l->addrlo_reg = addr_reg;
 -
 -    /* We are expecting a_bits to max out at 7, so we can always use andi. */
 -    tcg_debug_assert(a_bits < 12);
 -    tcg_out_opc_imm(s, OPC_ANDI, TCG_REG_TMP1, addr_reg, a_mask);
 -
 -    l->label_ptr[0] = s->code_ptr;
 -    tcg_out_opc_branch(s, OPC_BNE, TCG_REG_TMP1, TCG_REG_ZERO, 0);
 -
 -    l->raddr = tcg_splitwx_to_rx(s->code_ptr);
 -}
 -
  static bool tcg_out_fail_alignment(TCGContext *s, TCGLabelQemuLdst *l)
  {
      /* resolve label address */
@@ -XXX,XX +XXX,XX @@ static bool tcg_out_qemu_st_slow_path(TCGContext *s, TCGLabelQemuLdst *l)
  {
      return tcg_out_fail_alignment(s, l);
  }
 -
  #endif /* CONFIG_SOFTMMU */
 +/*
 + * For softmmu, perform the TLB load and compare.
 + * For useronly, perform any required alignment tests.
 + * In both cases, return a TCGLabelQemuLdst structure if the slow path
 + * is required and fill in @h with the host address for the fast path.
 + */
 +static TCGLabelQemuLdst *prepare_host_addr(TCGContext *s, TCGReg *pbase,
 +                                           TCGReg addr_reg, MemOpIdx oi,
 +                                           bool is_ld)
 +{
-+    TCGLabelQemuLdst *ldst = NULL;
++    return fold_masks_zs(ctx, op, -1, s_mask);
 +    MemOp opc = get_memop(oi);
 +    unsigned a_bits = get_alignment_bits(opc);
 +    unsigned a_mask = (1u << a_bits) - 1;
 +
 +#ifdef CONFIG_SOFTMMU
 +    unsigned s_bits = opc & MO_SIZE;
 +    int mem_index = get_mmuidx(oi);
 +    int fast_ofs = TLB_MASK_TABLE_OFS(mem_index);
 +    int mask_ofs = fast_ofs + offsetof(CPUTLBDescFast, mask);
 +    int table_ofs = fast_ofs + offsetof(CPUTLBDescFast, table);
 +    TCGReg mask_base = TCG_AREG0, table_base = TCG_AREG0;
 +    tcg_target_long compare_mask;
 +
 +    ldst = new_ldst_label(s);
 +    ldst->is_ld = is_ld;
 +    ldst->oi = oi;
 +    ldst->addrlo_reg = addr_reg;
 +
 +    QEMU_BUILD_BUG_ON(TLB_MASK_TABLE_OFS(0) > 0);
 +    QEMU_BUILD_BUG_ON(TLB_MASK_TABLE_OFS(0) < -(1 << 11));
 +    tcg_out_ld(s, TCG_TYPE_PTR, TCG_REG_TMP0, mask_base, mask_ofs);
 +    tcg_out_ld(s, TCG_TYPE_PTR, TCG_REG_TMP1, table_base, table_ofs);
 +
 +    tcg_out_opc_imm(s, OPC_SRLI, TCG_REG_TMP2, addr_reg,
 +                    TARGET_PAGE_BITS - CPU_TLB_ENTRY_BITS);
 +    tcg_out_opc_reg(s, OPC_AND, TCG_REG_TMP2, TCG_REG_TMP2, TCG_REG_TMP0);
 +    tcg_out_opc_reg(s, OPC_ADD, TCG_REG_TMP2, TCG_REG_TMP2, TCG_REG_TMP1);
 +
 +    /* Load the tlb comparator and the addend.  */
 +    tcg_out_ld(s, TCG_TYPE_TL, TCG_REG_TMP0, TCG_REG_TMP2,
 +               is_ld ? offsetof(CPUTLBEntry, addr_read)
 +                     : offsetof(CPUTLBEntry, addr_write));
 +    tcg_out_ld(s, TCG_TYPE_PTR, TCG_REG_TMP2, TCG_REG_TMP2,
 +               offsetof(CPUTLBEntry, addend));
 +
 +    /* We don't support unaligned accesses. */
 +    if (a_bits < s_bits) {
 +        a_bits = s_bits;
 +    }
 +    /* Clear the non-page, non-alignment bits from the address.  */
 +    compare_mask = (tcg_target_long)TARGET_PAGE_MASK | a_mask;
 +    if (compare_mask == sextreg(compare_mask, 0, 12)) {
 +        tcg_out_opc_imm(s, OPC_ANDI, TCG_REG_TMP1, addr_reg, compare_mask);
 +    } else {
 +        tcg_out_movi(s, TCG_TYPE_TL, TCG_REG_TMP1, compare_mask);
 +        tcg_out_opc_reg(s, OPC_AND, TCG_REG_TMP1, TCG_REG_TMP1, addr_reg);
 +    }
 +
 +    /* Compare masked address with the TLB entry. */
 +    ldst->label_ptr[0] = s->code_ptr;
 +    tcg_out_opc_branch(s, OPC_BNE, TCG_REG_TMP0, TCG_REG_TMP1, 0);
 +
 +    /* TLB Hit - translate address using addend.  */
 +    if (TARGET_LONG_BITS == 32) {
 +        tcg_out_ext32u(s, TCG_REG_TMP0, addr_reg);
 +        addr_reg = TCG_REG_TMP0;
 +    }
 +    tcg_out_opc_reg(s, OPC_ADD, TCG_REG_TMP0, TCG_REG_TMP2, addr_reg);
 +    *pbase = TCG_REG_TMP0;
 +#else
 +    if (a_mask) {
 +        ldst = new_ldst_label(s);
 +        ldst->is_ld = is_ld;
 +        ldst->oi = oi;
 +        ldst->addrlo_reg = addr_reg;
 +
 +        /* We are expecting a_bits max 7, so we can always use andi. */
 +        tcg_debug_assert(a_bits < 12);
 +        tcg_out_opc_imm(s, OPC_ANDI, TCG_REG_TMP1, addr_reg, a_mask);
 +
 +        ldst->label_ptr[0] = s->code_ptr;
 +        tcg_out_opc_branch(s, OPC_BNE, TCG_REG_TMP1, TCG_REG_ZERO, 0);
 +    }
 +
 +    TCGReg base = addr_reg;
 +    if (TARGET_LONG_BITS == 32) {
 +        tcg_out_ext32u(s, TCG_REG_TMP0, base);
 +        base = TCG_REG_TMP0;
 +    }
 +    if (guest_base != 0) {
 +        tcg_out_opc_reg(s, OPC_ADD, TCG_REG_TMP0, TCG_GUEST_BASE_REG, base);
 +        base = TCG_REG_TMP0;
 +    }
 +    *pbase = base;
 +#endif
 +
 +    return ldst;
 +}
 +
- static void tcg_out_qemu_ld_direct(TCGContext *s, TCGReg val,
+ static bool fold_masks(OptContext *ctx, TCGOp *op)
                                     TCGReg base, MemOp opc, TCGType type)
  {
-@@ -XXX,XX +XXX,XX @@ static void tcg_out_qemu_ld_direct(TCGContext *s, TCGReg val,
+     return fold_masks_zs(ctx, op, ctx->z_mask, ctx->s_mask);
- static void tcg_out_qemu_ld(TCGContext *s, TCGReg data_reg, TCGReg addr_reg,
+@@ -XXX,XX +XXX,XX @@ static bool fold_dup2(OptContext *ctx, TCGOp *op)
-                             MemOpIdx oi, TCGType data_type)
  static bool fold_eqv(OptContext *ctx, TCGOp *op)
  {
--    MemOp opc = get_memop(oi);
++    uint64_t s_mask;
-+    TCGLabelQemuLdst *ldst;
++
-     TCGReg base;
+     if (fold_const2_commutative(ctx, op) ||
+         fold_xi_to_x(ctx, op, -1) ||
--#if defined(CONFIG_SOFTMMU)
+         fold_xi_to_not(ctx, op, 0)) {
--    tcg_insn_unit *label_ptr[1];
+         return true;
 +    ldst = prepare_host_addr(s, &base, addr_reg, oi, true);
 +    tcg_out_qemu_ld_direct(s, data_reg, base, get_memop(oi), data_type);
 -    base = tcg_out_tlb_load(s, addr_reg, oi, label_ptr, 1);
 -    tcg_out_qemu_ld_direct(s, data_reg, base, opc, data_type);
 -    add_qemu_ldst_label(s, true, oi, data_type, data_reg, addr_reg,
 -                        s->code_ptr, label_ptr);
 -#else
 -    unsigned a_bits = get_alignment_bits(opc);
 -    if (a_bits) {
 -        tcg_out_test_alignment(s, true, addr_reg, a_bits);
 +    if (ldst) {
 +        ldst->type = data_type;
 +        ldst->datalo_reg = data_reg;
 +        ldst->raddr = tcg_splitwx_to_rx(s->code_ptr);
      }
--    base = addr_reg;
--    if (TARGET_LONG_BITS == 32) {
+-    ctx->s_mask = arg_info(op->args[1])->s_mask
--        tcg_out_ext32u(s, TCG_REG_TMP0, base);
+-                & arg_info(op->args[2])->s_mask;
--        base = TCG_REG_TMP0;
+-    return false;
--    }
++    s_mask = arg_info(op->args[1])->s_mask
--    if (guest_base != 0) {
++           & arg_info(op->args[2])->s_mask;
--        tcg_out_opc_reg(s, OPC_ADD, TCG_REG_TMP0, TCG_GUEST_BASE_REG, base);
++    return fold_masks_s(ctx, op, s_mask);
 -        base = TCG_REG_TMP0;
 -    }
 -    tcg_out_qemu_ld_direct(s, data_reg, base, opc, data_type);
 -#endif
  }
- static void tcg_out_qemu_st_direct(TCGContext *s, TCGReg val,
+ static bool fold_extract(OptContext *ctx, TCGOp *op)
@@ -XXX,XX +XXX,XX @@ static void tcg_out_qemu_st_direct(TCGContext *s, TCGReg val,
  static void tcg_out_qemu_st(TCGContext *s, TCGReg data_reg, TCGReg addr_reg,
                              MemOpIdx oi, TCGType data_type)
  {
 -    MemOp opc = get_memop(oi);
 +    TCGLabelQemuLdst *ldst;
      TCGReg base;
 -#if defined(CONFIG_SOFTMMU)
 -    tcg_insn_unit *label_ptr[1];
 +    ldst = prepare_host_addr(s, &base, addr_reg, oi, false);
 +    tcg_out_qemu_st_direct(s, data_reg, base, get_memop(oi));
 -    base = tcg_out_tlb_load(s, addr_reg, oi, label_ptr, 0);
 -    tcg_out_qemu_st_direct(s, data_reg, base, opc);
 -    add_qemu_ldst_label(s, false, oi, data_type, data_reg, addr_reg,
 -                        s->code_ptr, label_ptr);
 -#else
 -    unsigned a_bits = get_alignment_bits(opc);
 -    if (a_bits) {
 -        tcg_out_test_alignment(s, false, addr_reg, a_bits);
 +    if (ldst) {
 +        ldst->type = data_type;
 +        ldst->datalo_reg = data_reg;
 +        ldst->raddr = tcg_splitwx_to_rx(s->code_ptr);
      }
 -    base = addr_reg;
 -    if (TARGET_LONG_BITS == 32) {
 -        tcg_out_ext32u(s, TCG_REG_TMP0, base);
 -        base = TCG_REG_TMP0;
 -    }
 -    if (guest_base != 0) {
 -        tcg_out_opc_reg(s, OPC_ADD, TCG_REG_TMP0, TCG_GUEST_BASE_REG, base);
 -        base = TCG_REG_TMP0;
 -    }
 -    tcg_out_qemu_st_direct(s, data_reg, base, opc);
 -#endif
  }
  static const tcg_insn_unit *tb_ret_addr;
 --
-.34.1
+.43.0

-New patch
+[PULL 21/72] tcg/optimize: Use fold_masks_z in fold_extract
+Avoid the use of the OptContext slots.  Find TempOptInfo once.
+Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
+Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
+---
+ tcg/optimize.c | 15 ++++++---------
+file changed, 6 insertions(+), 9 deletions(-)
+diff --git a/tcg/optimize.c b/tcg/optimize.c
+index XXXXXXX..XXXXXXX 100644
+--- a/tcg/optimize.c
++++ b/tcg/optimize.c
+@@ -XXX,XX +XXX,XX @@ static bool fold_eqv(OptContext *ctx, TCGOp *op)
+ static bool fold_extract(OptContext *ctx, TCGOp *op)
+ {
+     uint64_t z_mask_old, z_mask;
++    TempOptInfo *t1 = arg_info(op->args[1]);
+     int pos = op->args[2];
+     int len = op->args[3];
+-    if (arg_is_const(op->args[1])) {
+-        uint64_t t;
+-
+-        t = arg_info(op->args[1])->val;
+-        t = extract64(t, pos, len);
+-        return tcg_opt_gen_movi(ctx, op, op->args[0], t);
++    if (ti_is_const(t1)) {
++        return tcg_opt_gen_movi(ctx, op, op->args[0],
++                                extract64(ti_const_val(t1), pos, len));
+     }
+-    z_mask_old = arg_info(op->args[1])->z_mask;
++    z_mask_old = t1->z_mask;
+     z_mask = extract64(z_mask_old, pos, len);
+     if (pos == 0 && fold_affected_mask(ctx, op, z_mask_old ^ z_mask)) {
+         return true;
+     }
+-    ctx->z_mask = z_mask;
+-    return fold_masks(ctx, op);
++    return fold_masks_z(ctx, op, z_mask);
+ }
+ static bool fold_extract2(OptContext *ctx, TCGOp *op)
+--
+.43.0

-New patch
+[PULL 22/72] tcg/optimize: Use finish_folding in fold_extract2
+Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
+Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
+---
+ tcg/optimize.c | 2 +-
+file changed, 1 insertion(+), 1 deletion(-)
+diff --git a/tcg/optimize.c b/tcg/optimize.c
+index XXXXXXX..XXXXXXX 100644
+--- a/tcg/optimize.c
++++ b/tcg/optimize.c
+@@ -XXX,XX +XXX,XX @@ static bool fold_extract2(OptContext *ctx, TCGOp *op)
+         }
+         return tcg_opt_gen_movi(ctx, op, op->args[0], v1 | v2);
+     }
+-    return false;
++    return finish_folding(ctx, op);
+ }
+ static bool fold_exts(OptContext *ctx, TCGOp *op)
+--
+.43.0

-[PULL 38/53] tcg/riscv: Simplify constraints on qemu_ld/st
+[PULL 23/72] tcg/optimize: Use fold_masks_zs in fold_exts
-The softmmu tlb uses TCG_REG_TMP[0-2], not any of the normally available
+Avoid the use of the OptContext slots.  Find TempOptInfo once.
-registers.  Now that we handle overlap betwen inputs and helper arguments,
+Explicitly sign-extend z_mask instead of doing that manually.
 we can allow any allocatable reg.
-Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
+Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
 Reviewed-by: Daniel Henrique Barboza <dbarboza@ventanamicro.com>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- tcg/riscv/tcg-target-con-set.h |  2 --
+ tcg/optimize.c | 29 ++++++++++++-----------------
- tcg/riscv/tcg-target-con-str.h |  1 -
+file changed, 12 insertions(+), 17 deletions(-)
  tcg/riscv/tcg-target.c.inc     | 16 +++-------------
 files changed, 3 insertions(+), 16 deletions(-)
-diff --git a/tcg/riscv/tcg-target-con-set.h b/tcg/riscv/tcg-target-con-set.h
+diff --git a/tcg/optimize.c b/tcg/optimize.c
 index XXXXXXX..XXXXXXX 100644
---- a/tcg/riscv/tcg-target-con-set.h
+--- a/tcg/optimize.c
-+++ b/tcg/riscv/tcg-target-con-set.h
++++ b/tcg/optimize.c
-@@ -XXX,XX +XXX,XX @@
+@@ -XXX,XX +XXX,XX @@ static bool fold_extract2(OptContext *ctx, TCGOp *op)
-  * tcg-target-con-str.h; the constraint combination is inclusive or.
-  */
+ static bool fold_exts(OptContext *ctx, TCGOp *op)
- C_O0_I1(r)
+ {
--C_O0_I2(LZ, L)
+-    uint64_t s_mask_old, s_mask, z_mask, sign;
- C_O0_I2(rZ, r)
++    uint64_t s_mask_old, s_mask, z_mask;
- C_O0_I2(rZ, rZ)
+     bool type_change = false;
--C_O1_I1(r, L)
++    TempOptInfo *t1;
- C_O1_I1(r, r)
- C_O1_I2(r, r, ri)
+     if (fold_const1(ctx, op)) {
- C_O1_I2(r, r, rI)
+         return true;
-diff --git a/tcg/riscv/tcg-target-con-str.h b/tcg/riscv/tcg-target-con-str.h
+     }
-index XXXXXXX..XXXXXXX 100644
---- a/tcg/riscv/tcg-target-con-str.h
+-    z_mask = arg_info(op->args[1])->z_mask;
-+++ b/tcg/riscv/tcg-target-con-str.h
+-    s_mask = arg_info(op->args[1])->s_mask;
-@@ -XXX,XX +XXX,XX @@
++    t1 = arg_info(op->args[1]);
-  * REGS(letter, register_mask)
++    z_mask = t1->z_mask;
-  */
++    s_mask = t1->s_mask;
- REGS('r', ALL_GENERAL_REGS)
+     s_mask_old = s_mask;
--REGS('L', ALL_GENERAL_REGS & ~SOFTMMU_RESERVE_REGS)
+     switch (op->opc) {
- /*
+     CASE_OP_32_64(ext8s):
-  * Define constraint letters for constants:
+-        sign = INT8_MIN;
-diff --git a/tcg/riscv/tcg-target.c.inc b/tcg/riscv/tcg-target.c.inc
+-        z_mask = (uint8_t)z_mask;
-index XXXXXXX..XXXXXXX 100644
++        s_mask |= INT8_MIN;
---- a/tcg/riscv/tcg-target.c.inc
++        z_mask = (int8_t)z_mask;
-+++ b/tcg/riscv/tcg-target.c.inc
+         break;
-@@ -XXX,XX +XXX,XX @@ static TCGReg tcg_target_call_oarg_reg(TCGCallReturnKind kind, int slot)
+     CASE_OP_32_64(ext16s):
- #define TCG_CT_CONST_N12   0x400
+-        sign = INT16_MIN;
- #define TCG_CT_CONST_M12   0x800
+-        z_mask = (uint16_t)z_mask;
++        s_mask |= INT16_MIN;
--#define ALL_GENERAL_REGS      MAKE_64BIT_MASK(0, 32)
++        z_mask = (int16_t)z_mask;
--/*
+         break;
-- * For softmmu, we need to avoid conflicts with the first 5
+     case INDEX_op_ext_i32_i64:
-- * argument registers to call the helper.  Some of these are
+         type_change = true;
-- * also used for the tlb lookup.
+         QEMU_FALLTHROUGH;
-- */
+     case INDEX_op_ext32s_i64:
--#ifdef CONFIG_SOFTMMU
+-        sign = INT32_MIN;
--#define SOFTMMU_RESERVE_REGS  MAKE_64BIT_MASK(TCG_REG_A0, 5)
+-        z_mask = (uint32_t)z_mask;
--#else
++        s_mask |= INT32_MIN;
--#define SOFTMMU_RESERVE_REGS  0
++        z_mask = (int32_t)z_mask;
--#endif
+         break;
 +#define ALL_GENERAL_REGS   MAKE_64BIT_MASK(0, 32)
  #define sextreg  sextract64
@@ -XXX,XX +XXX,XX @@ static TCGConstraintSetIndex tcg_target_op_def(TCGOpcode op)
      case INDEX_op_qemu_ld_i32:
      case INDEX_op_qemu_ld_i64:
 -        return C_O1_I1(r, L);
 +        return C_O1_I1(r, r);
      case INDEX_op_qemu_st_i32:
      case INDEX_op_qemu_st_i64:
 -        return C_O0_I2(LZ, L);
 +        return C_O0_I2(rZ, r);
      default:
          g_assert_not_reached();
+     }
+-    if (z_mask & sign) {
+-        z_mask |= sign;
+-    }
+-    s_mask |= sign << 1;
+-
+-    ctx->z_mask = z_mask;
+-    ctx->s_mask = s_mask;
+     if (0 && !type_change && fold_affected_mask(ctx, op, s_mask & ~s_mask_old)) {
+         return true;
+     }
+-    return fold_masks(ctx, op);
++    return fold_masks_zs(ctx, op, z_mask, s_mask);
+ }
+ static bool fold_extu(OptContext *ctx, TCGOp *op)
 --
-.34.1
+.43.0

-New patch
+[PULL 24/72] tcg/optimize: Use fold_masks_z in fold_extu
+Avoid the use of the OptContext slots.
+Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
+Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
+---
+ tcg/optimize.c | 4 ++--
+file changed, 2 insertions(+), 2 deletions(-)
+diff --git a/tcg/optimize.c b/tcg/optimize.c
+index XXXXXXX..XXXXXXX 100644
+--- a/tcg/optimize.c
++++ b/tcg/optimize.c
+@@ -XXX,XX +XXX,XX @@ static bool fold_extu(OptContext *ctx, TCGOp *op)
+         g_assert_not_reached();
+     }
+-    ctx->z_mask = z_mask;
+     if (!type_change && fold_affected_mask(ctx, op, z_mask_old ^ z_mask)) {
+         return true;
+     }
+-    return fold_masks(ctx, op);
++
++    return fold_masks_z(ctx, op, z_mask);
+ }
+ static bool fold_mb(OptContext *ctx, TCGOp *op)
+--
+.43.0

-[PULL 10/53] accel/tcg/tcg-accel-ops-rr: ensure fairness with icount
+[PULL 25/72] tcg/optimize: Use fold_masks_zs in fold_movcond
-From: Jamie Iles <quic_jiles@quicinc.com>
+Avoid the use of the OptContext slots.  Find TempOptInfo once.
-The round-robin scheduler will iterate over the CPU list with an
+Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
 assigned budget until the next timer expiry and may exit early because
 of a TB exit.  This is fine under normal operation but with icount
 enabled and SMP it is possible for a CPU to be starved of run time and
 the system live-locks.
 For example, booting a riscv64 platform with '-icount
 shift=0,align=off,sleep=on -smp 2' we observe a livelock once the kernel
 has timers enabled and starts performing TLB shootdowns.  In this case
 we have CPU 0 in M-mode with interrupts disabled sending an IPI to CPU
 .  As we enter the TCG loop, we assign the icount budget to next timer
 interrupt to CPU 0 and begin executing where the guest is sat in a busy
 loop exhausting all of the budget before we try to execute CPU 1 which
 is the target of the IPI but CPU 1 is left with no budget with which to
 execute and the process repeats.
 We try here to add some fairness by splitting the budget across all of
 the CPUs on the thread fairly before entering each one.  The CPU count
 is cached on CPU list generation ID to avoid iterating the list on each
 loop iteration.  With this change it is possible to boot an SMP rv64
 guest with icount enabled and no hangs.
 Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
 Tested-by: Peter Maydell <peter.maydell@linaro.org>
 Signed-off-by: Jamie Iles <quic_jiles@quicinc.com>
 Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
 Message-Id: <20230427020925.51003-3-quic_jiles@quicinc.com>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- accel/tcg/tcg-accel-ops-icount.h |  3 ++-
+ tcg/optimize.c | 19 +++++++++++--------
- accel/tcg/tcg-accel-ops-icount.c | 21 ++++++++++++++----
+file changed, 11 insertions(+), 8 deletions(-)
  accel/tcg/tcg-accel-ops-rr.c     | 37 +++++++++++++++++++++++++++++++-
  replay/replay.c                  |  3 +--
 files changed, 56 insertions(+), 8 deletions(-)
-diff --git a/accel/tcg/tcg-accel-ops-icount.h b/accel/tcg/tcg-accel-ops-icount.h
+diff --git a/tcg/optimize.c b/tcg/optimize.c
 index XXXXXXX..XXXXXXX 100644
---- a/accel/tcg/tcg-accel-ops-icount.h
+--- a/tcg/optimize.c
-+++ b/accel/tcg/tcg-accel-ops-icount.h
++++ b/tcg/optimize.c
-@@ -XXX,XX +XXX,XX @@
+@@ -XXX,XX +XXX,XX @@ static bool fold_mov(OptContext *ctx, TCGOp *op)
- #define TCG_ACCEL_OPS_ICOUNT_H
+ static bool fold_movcond(OptContext *ctx, TCGOp *op)
- void icount_handle_deadline(void);
+ {
--void icount_prepare_for_run(CPUState *cpu);
++    uint64_t z_mask, s_mask;
-+void icount_prepare_for_run(CPUState *cpu, int64_t cpu_budget);
++    TempOptInfo *tt, *ft;
-+int64_t icount_percpu_budget(int cpu_count);
+     int i;
- void icount_process_data(CPUState *cpu);
+     /* If true and false values are the same, eliminate the cmp. */
- void icount_handle_interrupt(CPUState *cpu, int mask);
+@@ -XXX,XX +XXX,XX @@ static bool fold_movcond(OptContext *ctx, TCGOp *op)
-diff --git a/accel/tcg/tcg-accel-ops-icount.c b/accel/tcg/tcg-accel-ops-icount.c
+         return tcg_opt_gen_mov(ctx, op, op->args[0], op->args[4 - i]);
 index XXXXXXX..XXXXXXX 100644
 --- a/accel/tcg/tcg-accel-ops-icount.c
 +++ b/accel/tcg/tcg-accel-ops-icount.c
@@ -XXX,XX +XXX,XX @@ void icount_handle_deadline(void)
      }
- }
+-    ctx->z_mask = arg_info(op->args[3])->z_mask
--void icount_prepare_for_run(CPUState *cpu)
+-                | arg_info(op->args[4])->z_mask;
-+/* Distribute the budget evenly across all CPUs */
+-    ctx->s_mask = arg_info(op->args[3])->s_mask
-+int64_t icount_percpu_budget(int cpu_count)
+-                & arg_info(op->args[4])->s_mask;
-+{
++    tt = arg_info(op->args[3]);
-+    int64_t limit = icount_get_limit();
++    ft = arg_info(op->args[4]);
-+    int64_t timeslice = limit / cpu_count;
++    z_mask = tt->z_mask | ft->z_mask;
-+
++    s_mask = tt->s_mask & ft->s_mask;
-+    if (timeslice == 0) {
-+        timeslice = limit;
+-    if (arg_is_const(op->args[3]) && arg_is_const(op->args[4])) {
-+    }
+-        uint64_t tv = arg_info(op->args[3])->val;
-+
+-        uint64_t fv = arg_info(op->args[4])->val;
-+    return timeslice;
++    if (ti_is_const(tt) && ti_is_const(ft)) {
-+}
++        uint64_t tv = ti_const_val(tt);
-+
++        uint64_t fv = ti_const_val(ft);
-+void icount_prepare_for_run(CPUState *cpu, int64_t cpu_budget)
+         TCGOpcode opc, negopc = 0;
- {
+         TCGCond cond = op->args[5];
-     int insns_left;
+@@ -XXX,XX +XXX,XX @@ static bool fold_movcond(OptContext *ctx, TCGOp *op)
@@ -XXX,XX +XXX,XX @@ void icount_prepare_for_run(CPUState *cpu)
      g_assert(cpu_neg(cpu)->icount_decr.u16.low == 0);
      g_assert(cpu->icount_extra == 0);
 -    cpu->icount_budget = icount_get_limit();
 +    replay_mutex_lock();
 +
 +    cpu->icount_budget = MIN(icount_get_limit(), cpu_budget);
      insns_left = MIN(0xffff, cpu->icount_budget);
      cpu_neg(cpu)->icount_decr.u16.low = insns_left;
      cpu->icount_extra = cpu->icount_budget - insns_left;
 -    replay_mutex_lock();
 -
      if (cpu->icount_budget == 0) {
          /*
           * We're called without the iothread lock, so must take it while
 diff --git a/accel/tcg/tcg-accel-ops-rr.c b/accel/tcg/tcg-accel-ops-rr.c
 index XXXXXXX..XXXXXXX 100644
 --- a/accel/tcg/tcg-accel-ops-rr.c
 +++ b/accel/tcg/tcg-accel-ops-rr.c
@@ -XXX,XX +XXX,XX @@
   */
  #include "qemu/osdep.h"
 +#include "qemu/lockable.h"
  #include "sysemu/tcg.h"
  #include "sysemu/replay.h"
  #include "sysemu/cpu-timers.h"
@@ -XXX,XX +XXX,XX @@ static void rr_force_rcu(Notifier *notify, void *data)
      rr_kick_next_cpu();
  }
 +/*
 + * Calculate the number of CPUs that we will process in a single iteration of
 + * the main CPU thread loop so that we can fairly distribute the instruction
 + * count across CPUs.
 + *
 + * The CPU count is cached based on the CPU list generation ID to avoid
 + * iterating the list every time.
 + */
 +static int rr_cpu_count(void)
 +{
 +    static unsigned int last_gen_id = ~0;
 +    static int cpu_count;
 +    CPUState *cpu;
 +
 +    QEMU_LOCK_GUARD(&qemu_cpu_list_lock);
 +
 +    if (cpu_list_generation_id_get() != last_gen_id) {
 +        cpu_count = 0;
 +        CPU_FOREACH(cpu) {
 +            ++cpu_count;
 +        }
 +        last_gen_id = cpu_list_generation_id_get();
 +    }
 +
 +    return cpu_count;
 +}
 +
  /*
   * In the single-threaded case each vCPU is simulated in turn. If
   * there is more than a single vCPU we create a simple timer to kick
@@ -XXX,XX +XXX,XX @@ static void *rr_cpu_thread_fn(void *arg)
      cpu->exit_request = 1;
      while (1) {
 +        /* Only used for icount_enabled() */
 +        int64_t cpu_budget = 0;
 +
          qemu_mutex_unlock_iothread();
          replay_mutex_lock();
          qemu_mutex_lock_iothread();
          if (icount_enabled()) {
 +            int cpu_count = rr_cpu_count();
 +
              /* Account partial waits to QEMU_CLOCK_VIRTUAL.  */
              icount_account_warp_timer();
              /*
@@ -XXX,XX +XXX,XX @@ static void *rr_cpu_thread_fn(void *arg)
               * waking up the I/O thread and waiting for completion.
               */
              icount_handle_deadline();
 +
 +            cpu_budget = icount_percpu_budget(cpu_count);
          }
          replay_mutex_unlock();
@@ -XXX,XX +XXX,XX @@ static void *rr_cpu_thread_fn(void *arg)
                  qemu_mutex_unlock_iothread();
                  if (icount_enabled()) {
 -                    icount_prepare_for_run(cpu);
 +                    icount_prepare_for_run(cpu, cpu_budget);
                  }
                  r = tcg_cpus_exec(cpu);
                  if (icount_enabled()) {
 diff --git a/replay/replay.c b/replay/replay.c
 index XXXXXXX..XXXXXXX 100644
 --- a/replay/replay.c
 +++ b/replay/replay.c
@@ -XXX,XX +XXX,XX @@ uint64_t replay_get_current_icount(void)
  int replay_get_instructions(void)
  {
      int res = 0;
 -    replay_mutex_lock();
 +    g_assert(replay_mutex_locked());
      if (replay_next_event_is(EVENT_INSTRUCTION)) {
          res = replay_state.instruction_count;
          if (replay_break_icount != -1LL) {
@@ -XXX,XX +XXX,XX @@ int replay_get_instructions(void)
              }
          }
      }
--    replay_mutex_unlock();
+-    return false;
-     return res;
++
 +    return fold_masks_zs(ctx, op, z_mask, s_mask);
  }
+ static bool fold_mul(OptContext *ctx, TCGOp *op)
 --
-.34.1
+.43.0

-[PULL 05/53] disas: Remove target_ulong from the interface
+[PULL 26/72] tcg/optimize: Use finish_folding in fold_mul*
-Use uint64_t for the pc, and size_t for the size.
+Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
  tcg/optimize.c | 6 +++---
 file changed, 3 insertions(+), 3 deletions(-)
-Reviewed-by: Thomas Huth <thuth@redhat.com>
+diff --git a/tcg/optimize.c b/tcg/optimize.c
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 Message-Id: <20230503072331.1747057-81-richard.henderson@linaro.org>
 ---
  include/disas/disas.h | 17 ++++++-----------
  bsd-user/elfload.c    |  5 +++--
  disas/disas.c         | 19 +++++++++----------
  linux-user/elfload.c  |  5 +++--
 files changed, 21 insertions(+), 25 deletions(-)
 diff --git a/include/disas/disas.h b/include/disas/disas.h
 index XXXXXXX..XXXXXXX 100644
---- a/include/disas/disas.h
+--- a/tcg/optimize.c
-+++ b/include/disas/disas.h
++++ b/tcg/optimize.c
-@@ -XXX,XX +XXX,XX @@
+@@ -XXX,XX +XXX,XX @@ static bool fold_mul(OptContext *ctx, TCGOp *op)
- #include "cpu.h"
+         fold_xi_to_x(ctx, op, 1)) {
+         return true;
- /* Disassemble this for me please... (debugging). */
+     }
--void disas(FILE *out, const void *code, unsigned long size);
+-    return false;
--void target_disas(FILE *out, CPUState *cpu, target_ulong code,
++    return finish_folding(ctx, op);
 -                  target_ulong size);
 +void disas(FILE *out, const void *code, size_t size);
 +void target_disas(FILE *out, CPUState *cpu, uint64_t code, size_t size);
 -void monitor_disas(Monitor *mon, CPUState *cpu,
 -                   target_ulong pc, int nb_insn, int is_physical);
 +void monitor_disas(Monitor *mon, CPUState *cpu, uint64_t pc,
 +                   int nb_insn, bool is_physical);
  char *plugin_disas(CPUState *cpu, uint64_t addr, size_t size);
  /* Look up symbol for debugging purpose.  Returns "" if unknown. */
 -const char *lookup_symbol(target_ulong orig_addr);
 +const char *lookup_symbol(uint64_t orig_addr);
  #endif
  struct syminfo;
  struct elf32_sym;
  struct elf64_sym;
 -#if defined(CONFIG_USER_ONLY)
 -typedef const char *(*lookup_symbol_t)(struct syminfo *s, target_ulong orig_addr);
 -#else
 -typedef const char *(*lookup_symbol_t)(struct syminfo *s, hwaddr orig_addr);
 -#endif
 +typedef const char *(*lookup_symbol_t)(struct syminfo *s, uint64_t orig_addr);
  struct syminfo {
      lookup_symbol_t lookup_symbol;
 diff --git a/bsd-user/elfload.c b/bsd-user/elfload.c
 index XXXXXXX..XXXXXXX 100644
 --- a/bsd-user/elfload.c
 +++ b/bsd-user/elfload.c
@@ -XXX,XX +XXX,XX @@ static abi_ulong load_elf_interp(struct elfhdr *interp_elf_ex,
  static int symfind(const void *s0, const void *s1)
  {
 -    target_ulong addr = *(target_ulong *)s0;
 +    __typeof(sym->st_value) addr = *(uint64_t *)s0;
      struct elf_sym *sym = (struct elf_sym *)s1;
      int result = 0;
 +
      if (addr < sym->st_value) {
          result = -1;
      } else if (addr >= sym->st_value + sym->st_size) {
@@ -XXX,XX +XXX,XX @@ static int symfind(const void *s0, const void *s1)
      return result;
  }
--static const char *lookup_symbolxx(struct syminfo *s, target_ulong orig_addr)
+ static bool fold_mul_highpart(OptContext *ctx, TCGOp *op)
-+static const char *lookup_symbolxx(struct syminfo *s, uint64_t orig_addr)
+@@ -XXX,XX +XXX,XX @@ static bool fold_mul_highpart(OptContext *ctx, TCGOp *op)
- {
+         fold_xi_to_i(ctx, op, 0)) {
- #if ELF_CLASS == ELFCLASS32
+         return true;
-     struct elf_sym *syms = s->disas_symtab.elf32;
+     }
-diff --git a/disas/disas.c b/disas/disas.c
+-    return false;
-index XXXXXXX..XXXXXXX 100644
++    return finish_folding(ctx, op);
 --- a/disas/disas.c
 +++ b/disas/disas.c
@@ -XXX,XX +XXX,XX @@ static void initialize_debug_host(CPUDebug *s)
  }
- /* Disassemble this for me please... (debugging).  */
+ static bool fold_multiply2(OptContext *ctx, TCGOp *op)
--void target_disas(FILE *out, CPUState *cpu, target_ulong code,
+@@ -XXX,XX +XXX,XX @@ static bool fold_multiply2(OptContext *ctx, TCGOp *op)
--                  target_ulong size)
+         tcg_opt_gen_movi(ctx, op2, rh, h);
-+void target_disas(FILE *out, CPUState *cpu, uint64_t code, size_t size)
+         return true;
  {
 -    target_ulong pc;
 +    uint64_t pc;
      int count;
      CPUDebug s;
@@ -XXX,XX +XXX,XX @@ void target_disas(FILE *out, CPUState *cpu, target_ulong code,
      }
+-    return false;
-     for (pc = code; size > 0; pc += count, size -= count) {
++    return finish_folding(ctx, op);
 -        fprintf(out, "0x" TARGET_FMT_lx ":  ", pc);
 +        fprintf(out, "0x%08" PRIx64 ":  ", pc);
          count = s.info.print_insn(pc, &s.info);
          fprintf(out, "\n");
          if (count < 0) {
@@ -XXX,XX +XXX,XX @@ char *plugin_disas(CPUState *cpu, uint64_t addr, size_t size)
  }
- /* Disassemble this for me please... (debugging). */
+ static bool fold_nand(OptContext *ctx, TCGOp *op)
 -void disas(FILE *out, const void *code, unsigned long size)
 +void disas(FILE *out, const void *code, size_t size)
  {
      uintptr_t pc;
      int count;
@@ -XXX,XX +XXX,XX @@ void disas(FILE *out, const void *code, unsigned long size)
  }
  /* Look up symbol for debugging purpose.  Returns "" if unknown. */
 -const char *lookup_symbol(target_ulong orig_addr)
 +const char *lookup_symbol(uint64_t orig_addr)
  {
      const char *symbol = "";
      struct syminfo *s;
@@ -XXX,XX +XXX,XX @@ physical_read_memory(bfd_vma memaddr, bfd_byte *myaddr, int length,
  }
  /* Disassembler for the monitor.  */
 -void monitor_disas(Monitor *mon, CPUState *cpu,
 -                   target_ulong pc, int nb_insn, int is_physical)
 +void monitor_disas(Monitor *mon, CPUState *cpu, uint64_t pc,
 +                   int nb_insn, bool is_physical)
  {
      int count, i;
      CPUDebug s;
@@ -XXX,XX +XXX,XX @@ void monitor_disas(Monitor *mon, CPUState *cpu,
      }
      if (!s.info.print_insn) {
 -        monitor_printf(mon, "0x" TARGET_FMT_lx
 +        monitor_printf(mon, "0x%08" PRIx64
                         ": Asm output not supported on this arch\n", pc);
          return;
      }
      for (i = 0; i < nb_insn; i++) {
 -        g_string_append_printf(ds, "0x" TARGET_FMT_lx ":  ", pc);
 +        g_string_append_printf(ds, "0x%08" PRIx64 ":  ", pc);
          count = s.info.print_insn(pc, &s.info);
          g_string_append_c(ds, '\n');
          if (count < 0) {
 diff --git a/linux-user/elfload.c b/linux-user/elfload.c
 index XXXXXXX..XXXXXXX 100644
 --- a/linux-user/elfload.c
 +++ b/linux-user/elfload.c
@@ -XXX,XX +XXX,XX @@ static void load_elf_interp(const char *filename, struct image_info *info,
  static int symfind(const void *s0, const void *s1)
  {
 -    target_ulong addr = *(target_ulong *)s0;
      struct elf_sym *sym = (struct elf_sym *)s1;
 +    __typeof(sym->st_value) addr = *(uint64_t *)s0;
      int result = 0;
 +
      if (addr < sym->st_value) {
          result = -1;
      } else if (addr >= sym->st_value + sym->st_size) {
@@ -XXX,XX +XXX,XX @@ static int symfind(const void *s0, const void *s1)
      return result;
  }
 -static const char *lookup_symbolxx(struct syminfo *s, target_ulong orig_addr)
 +static const char *lookup_symbolxx(struct syminfo *s, uint64_t orig_addr)
  {
  #if ELF_CLASS == ELFCLASS32
      struct elf_sym *syms = s->disas_symtab.elf32;
 --
-.34.1
+.43.0

-New patch
+[PULL 27/72] tcg/optimize: Use fold_masks_s in fold_nand
+Avoid the use of the OptContext slots.
+Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
+Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
+---
+ tcg/optimize.c | 8 +++++---
+file changed, 5 insertions(+), 3 deletions(-)
+diff --git a/tcg/optimize.c b/tcg/optimize.c
+index XXXXXXX..XXXXXXX 100644
+--- a/tcg/optimize.c
++++ b/tcg/optimize.c
+@@ -XXX,XX +XXX,XX @@ static bool fold_multiply2(OptContext *ctx, TCGOp *op)
+ static bool fold_nand(OptContext *ctx, TCGOp *op)
+ {
++    uint64_t s_mask;
++
+     if (fold_const2_commutative(ctx, op) ||
+         fold_xi_to_not(ctx, op, -1)) {
+         return true;
+     }
+-    ctx->s_mask = arg_info(op->args[1])->s_mask
+-                & arg_info(op->args[2])->s_mask;
+-    return false;
++    s_mask = arg_info(op->args[1])->s_mask
++           & arg_info(op->args[2])->s_mask;
++    return fold_masks_s(ctx, op, s_mask);
+ }
+ static bool fold_neg_no_const(OptContext *ctx, TCGOp *op)
+--
+.43.0

-New patch
+[PULL 28/72] tcg/optimize: Use fold_masks_z in fold_neg_no_const
+Avoid the use of the OptContext slots.
+Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
+Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
+---
+ tcg/optimize.c | 9 ++-------
+file changed, 2 insertions(+), 7 deletions(-)
+diff --git a/tcg/optimize.c b/tcg/optimize.c
+index XXXXXXX..XXXXXXX 100644
+--- a/tcg/optimize.c
++++ b/tcg/optimize.c
+@@ -XXX,XX +XXX,XX @@ static bool fold_neg_no_const(OptContext *ctx, TCGOp *op)
+ {
+     /* Set to 1 all bits to the left of the rightmost.  */
+     uint64_t z_mask = arg_info(op->args[1])->z_mask;
+-    ctx->z_mask = -(z_mask & -z_mask);
++    z_mask = -(z_mask & -z_mask);
+-    /*
+-     * Because of fold_sub_to_neg, we want to always return true,
+-     * via finish_folding.
+-     */
+-    finish_folding(ctx, op);
+-    return true;
++    return fold_masks_z(ctx, op, z_mask);
+ }
+ static bool fold_neg(OptContext *ctx, TCGOp *op)
+--
+.43.0

-New patch
+[PULL 29/72] tcg/optimize: Use fold_masks_s in fold_nor
+Avoid the use of the OptContext slots.
+Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
+Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
+---
+ tcg/optimize.c | 8 +++++---
+file changed, 5 insertions(+), 3 deletions(-)
+diff --git a/tcg/optimize.c b/tcg/optimize.c
+index XXXXXXX..XXXXXXX 100644
+--- a/tcg/optimize.c
++++ b/tcg/optimize.c
+@@ -XXX,XX +XXX,XX @@ static bool fold_neg(OptContext *ctx, TCGOp *op)
+ static bool fold_nor(OptContext *ctx, TCGOp *op)
+ {
++    uint64_t s_mask;
++
+     if (fold_const2_commutative(ctx, op) ||
+         fold_xi_to_not(ctx, op, 0)) {
+         return true;
+     }
+-    ctx->s_mask = arg_info(op->args[1])->s_mask
+-                & arg_info(op->args[2])->s_mask;
+-    return false;
++    s_mask = arg_info(op->args[1])->s_mask
++           & arg_info(op->args[2])->s_mask;
++    return fold_masks_s(ctx, op, s_mask);
+ }
+ static bool fold_not(OptContext *ctx, TCGOp *op)
+--
+.43.0

-[PULL 11/53] tcg/i386: Introduce prepare_host_addr
+[PULL 30/72] tcg/optimize: Use fold_masks_s in fold_not
-Merge tcg_out_tlb_load, add_qemu_ldst_label,
+Avoid the use of the OptContext slots.
 tcg_out_test_alignment, and some code that lived in both
 tcg_out_qemu_ld and tcg_out_qemu_st into one function
 that returns HostAddress and TCGLabelQemuLdst structures.
-Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
+Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- tcg/i386/tcg-target.c.inc | 346 ++++++++++++++++----------------------
+ tcg/optimize.c | 7 +------
-file changed, 145 insertions(+), 201 deletions(-)
+file changed, 1 insertion(+), 6 deletions(-)
-diff --git a/tcg/i386/tcg-target.c.inc b/tcg/i386/tcg-target.c.inc
+diff --git a/tcg/optimize.c b/tcg/optimize.c
 index XXXXXXX..XXXXXXX 100644
---- a/tcg/i386/tcg-target.c.inc
+--- a/tcg/optimize.c
-+++ b/tcg/i386/tcg-target.c.inc
++++ b/tcg/optimize.c
-@@ -XXX,XX +XXX,XX @@ static void * const qemu_st_helpers[(MO_SIZE | MO_BSWAP) + 1] = {
+@@ -XXX,XX +XXX,XX @@ static bool fold_not(OptContext *ctx, TCGOp *op)
-     [MO_BEUQ] = helper_be_stq_mmu,
+     if (fold_const1(ctx, op)) {
- };
+         return true;
 -/* Perform the TLB load and compare.
 -
 -   Inputs:
 -   ADDRLO and ADDRHI contain the low and high part of the address.
 -
 -   MEM_INDEX and S_BITS are the memory context and log2 size of the load.
 -
 -   WHICH is the offset into the CPUTLBEntry structure of the slot to read.
 -   This should be offsetof addr_read or addr_write.
 -
 -   Outputs:
 -   LABEL_PTRS is filled with 1 (32-bit addresses) or 2 (64-bit addresses)
 -   positions of the displacements of forward jumps to the TLB miss case.
 -
 -   Second argument register is loaded with the low part of the address.
 -   In the TLB hit case, it has been adjusted as indicated by the TLB
 -   and so is a host address.  In the TLB miss case, it continues to
 -   hold a guest address.
 -
 -   First argument register is clobbered.  */
 -
 -static inline void tcg_out_tlb_load(TCGContext *s, TCGReg addrlo, TCGReg addrhi,
 -                                    int mem_index, MemOp opc,
 -                                    tcg_insn_unit **label_ptr, int which)
 -{
 -    TCGType ttype = TCG_TYPE_I32;
 -    TCGType tlbtype = TCG_TYPE_I32;
 -    int trexw = 0, hrexw = 0, tlbrexw = 0;
 -    unsigned a_bits = get_alignment_bits(opc);
 -    unsigned s_bits = opc & MO_SIZE;
 -    unsigned a_mask = (1 << a_bits) - 1;
 -    unsigned s_mask = (1 << s_bits) - 1;
 -    target_ulong tlb_mask;
 -
 -    if (TCG_TARGET_REG_BITS == 64) {
 -        if (TARGET_LONG_BITS == 64) {
 -            ttype = TCG_TYPE_I64;
 -            trexw = P_REXW;
 -        }
 -        if (TCG_TYPE_PTR == TCG_TYPE_I64) {
 -            hrexw = P_REXW;
 -            if (TARGET_PAGE_BITS + CPU_TLB_DYN_MAX_BITS > 32) {
 -                tlbtype = TCG_TYPE_I64;
 -                tlbrexw = P_REXW;
 -            }
 -        }
 -    }
 -
 -    tcg_out_mov(s, tlbtype, TCG_REG_L0, addrlo);
 -    tcg_out_shifti(s, SHIFT_SHR + tlbrexw, TCG_REG_L0,
 -                   TARGET_PAGE_BITS - CPU_TLB_ENTRY_BITS);
 -
 -    tcg_out_modrm_offset(s, OPC_AND_GvEv + trexw, TCG_REG_L0, TCG_AREG0,
 -                         TLB_MASK_TABLE_OFS(mem_index) +
 -                         offsetof(CPUTLBDescFast, mask));
 -
 -    tcg_out_modrm_offset(s, OPC_ADD_GvEv + hrexw, TCG_REG_L0, TCG_AREG0,
 -                         TLB_MASK_TABLE_OFS(mem_index) +
 -                         offsetof(CPUTLBDescFast, table));
 -
 -    /* If the required alignment is at least as large as the access, simply
 -       copy the address and mask.  For lesser alignments, check that we don't
 -       cross pages for the complete access.  */
 -    if (a_bits >= s_bits) {
 -        tcg_out_mov(s, ttype, TCG_REG_L1, addrlo);
 -    } else {
 -        tcg_out_modrm_offset(s, OPC_LEA + trexw, TCG_REG_L1,
 -                             addrlo, s_mask - a_mask);
 -    }
 -    tlb_mask = (target_ulong)TARGET_PAGE_MASK | a_mask;
 -    tgen_arithi(s, ARITH_AND + trexw, TCG_REG_L1, tlb_mask, 0);
 -
 -    /* cmp 0(TCG_REG_L0), TCG_REG_L1 */
 -    tcg_out_modrm_offset(s, OPC_CMP_GvEv + trexw,
 -                         TCG_REG_L1, TCG_REG_L0, which);
 -
 -    /* Prepare for both the fast path add of the tlb addend, and the slow
 -       path function argument setup.  */
 -    tcg_out_mov(s, ttype, TCG_REG_L1, addrlo);
 -
 -    /* jne slow_path */
 -    tcg_out_opc(s, OPC_JCC_long + JCC_JNE, 0, 0, 0);
 -    label_ptr[0] = s->code_ptr;
 -    s->code_ptr += 4;
 -
 -    if (TARGET_LONG_BITS > TCG_TARGET_REG_BITS) {
 -        /* cmp 4(TCG_REG_L0), addrhi */
 -        tcg_out_modrm_offset(s, OPC_CMP_GvEv, addrhi, TCG_REG_L0, which + 4);
 -
 -        /* jne slow_path */
 -        tcg_out_opc(s, OPC_JCC_long + JCC_JNE, 0, 0, 0);
 -        label_ptr[1] = s->code_ptr;
 -        s->code_ptr += 4;
 -    }
 -
 -    /* TLB Hit.  */
 -
 -    /* add addend(TCG_REG_L0), TCG_REG_L1 */
 -    tcg_out_modrm_offset(s, OPC_ADD_GvEv + hrexw, TCG_REG_L1, TCG_REG_L0,
 -                         offsetof(CPUTLBEntry, addend));
 -}
 -
 -/*
 - * Record the context of a call to the out of line helper code for the slow path
 - * for a load or store, so that we can later generate the correct helper code
 - */
 -static void add_qemu_ldst_label(TCGContext *s, bool is_ld,
 -                                TCGType type, MemOpIdx oi,
 -                                TCGReg datalo, TCGReg datahi,
 -                                TCGReg addrlo, TCGReg addrhi,
 -                                tcg_insn_unit *raddr,
 -                                tcg_insn_unit **label_ptr)
 -{
 -    TCGLabelQemuLdst *label = new_ldst_label(s);
 -
 -    label->is_ld = is_ld;
 -    label->oi = oi;
 -    label->type = type;
 -    label->datalo_reg = datalo;
 -    label->datahi_reg = datahi;
 -    label->addrlo_reg = addrlo;
 -    label->addrhi_reg = addrhi;
 -    label->raddr = tcg_splitwx_to_rx(raddr);
 -    label->label_ptr[0] = label_ptr[0];
 -    if (TARGET_LONG_BITS > TCG_TARGET_REG_BITS) {
 -        label->label_ptr[1] = label_ptr[1];
 -    }
 -}
 -
  /*
   * Generate code for the slow path for a load at the end of block
   */
@@ -XXX,XX +XXX,XX @@ static bool tcg_out_qemu_st_slow_path(TCGContext *s, TCGLabelQemuLdst *l)
      return true;
  }
  #else
 -
 -static void tcg_out_test_alignment(TCGContext *s, bool is_ld, TCGReg addrlo,
 -                                   TCGReg addrhi, unsigned a_bits)
 -{
 -    unsigned a_mask = (1 << a_bits) - 1;
 -    TCGLabelQemuLdst *label;
 -
 -    tcg_out_testi(s, addrlo, a_mask);
 -    /* jne slow_path */
 -    tcg_out_opc(s, OPC_JCC_long + JCC_JNE, 0, 0, 0);
 -
 -    label = new_ldst_label(s);
 -    label->is_ld = is_ld;
 -    label->addrlo_reg = addrlo;
 -    label->addrhi_reg = addrhi;
 -    label->raddr = tcg_splitwx_to_rx(s->code_ptr + 4);
 -    label->label_ptr[0] = s->code_ptr;
 -
 -    s->code_ptr += 4;
 -}
 -
  static bool tcg_out_fail_alignment(TCGContext *s, TCGLabelQemuLdst *l)
  {
      /* resolve label address */
@@ -XXX,XX +XXX,XX @@ static inline int setup_guest_base_seg(void)
  #endif /* setup_guest_base_seg */
  #endif /* SOFTMMU */
 +/*
 + * For softmmu, perform the TLB load and compare.
 + * For useronly, perform any required alignment tests.
 + * In both cases, return a TCGLabelQemuLdst structure if the slow path
 + * is required and fill in @h with the host address for the fast path.
 + */
 +static TCGLabelQemuLdst *prepare_host_addr(TCGContext *s, HostAddress *h,
 +                                           TCGReg addrlo, TCGReg addrhi,
 +                                           MemOpIdx oi, bool is_ld)
 +{
 +    TCGLabelQemuLdst *ldst = NULL;
 +    MemOp opc = get_memop(oi);
 +    unsigned a_bits = get_alignment_bits(opc);
 +    unsigned a_mask = (1 << a_bits) - 1;
 +
 +#ifdef CONFIG_SOFTMMU
 +    int cmp_ofs = is_ld ? offsetof(CPUTLBEntry, addr_read)
 +                        : offsetof(CPUTLBEntry, addr_write);
 +    TCGType ttype = TCG_TYPE_I32;
 +    TCGType tlbtype = TCG_TYPE_I32;
 +    int trexw = 0, hrexw = 0, tlbrexw = 0;
 +    unsigned mem_index = get_mmuidx(oi);
 +    unsigned s_bits = opc & MO_SIZE;
 +    unsigned s_mask = (1 << s_bits) - 1;
 +    target_ulong tlb_mask;
 +
 +    ldst = new_ldst_label(s);
 +    ldst->is_ld = is_ld;
 +    ldst->oi = oi;
 +    ldst->addrlo_reg = addrlo;
 +    ldst->addrhi_reg = addrhi;
 +
 +    if (TCG_TARGET_REG_BITS == 64) {
 +        if (TARGET_LONG_BITS == 64) {
 +            ttype = TCG_TYPE_I64;
 +            trexw = P_REXW;
 +        }
 +        if (TCG_TYPE_PTR == TCG_TYPE_I64) {
 +            hrexw = P_REXW;
 +            if (TARGET_PAGE_BITS + CPU_TLB_DYN_MAX_BITS > 32) {
 +                tlbtype = TCG_TYPE_I64;
 +                tlbrexw = P_REXW;
 +            }
 +        }
 +    }
 +
 +    tcg_out_mov(s, tlbtype, TCG_REG_L0, addrlo);
 +    tcg_out_shifti(s, SHIFT_SHR + tlbrexw, TCG_REG_L0,
 +                   TARGET_PAGE_BITS - CPU_TLB_ENTRY_BITS);
 +
 +    tcg_out_modrm_offset(s, OPC_AND_GvEv + trexw, TCG_REG_L0, TCG_AREG0,
 +                         TLB_MASK_TABLE_OFS(mem_index) +
 +                         offsetof(CPUTLBDescFast, mask));
 +
 +    tcg_out_modrm_offset(s, OPC_ADD_GvEv + hrexw, TCG_REG_L0, TCG_AREG0,
 +                         TLB_MASK_TABLE_OFS(mem_index) +
 +                         offsetof(CPUTLBDescFast, table));
 +
 +    /*
 +     * If the required alignment is at least as large as the access, simply
 +     * copy the address and mask.  For lesser alignments, check that we don't
 +     * cross pages for the complete access.
 +     */
 +    if (a_bits >= s_bits) {
 +        tcg_out_mov(s, ttype, TCG_REG_L1, addrlo);
 +    } else {
 +        tcg_out_modrm_offset(s, OPC_LEA + trexw, TCG_REG_L1,
 +                             addrlo, s_mask - a_mask);
 +    }
 +    tlb_mask = (target_ulong)TARGET_PAGE_MASK | a_mask;
 +    tgen_arithi(s, ARITH_AND + trexw, TCG_REG_L1, tlb_mask, 0);
 +
 +    /* cmp 0(TCG_REG_L0), TCG_REG_L1 */
 +    tcg_out_modrm_offset(s, OPC_CMP_GvEv + trexw,
 +                         TCG_REG_L1, TCG_REG_L0, cmp_ofs);
 +
 +    /*
 +     * Prepare for both the fast path add of the tlb addend, and the slow
 +     * path function argument setup.
 +     */
 +    *h = (HostAddress) {
 +        .base = TCG_REG_L1,
 +        .index = -1
 +    };
 +    tcg_out_mov(s, ttype, h->base, addrlo);
 +
 +    /* jne slow_path */
 +    tcg_out_opc(s, OPC_JCC_long + JCC_JNE, 0, 0, 0);
 +    ldst->label_ptr[0] = s->code_ptr;
 +    s->code_ptr += 4;
 +
 +    if (TARGET_LONG_BITS > TCG_TARGET_REG_BITS) {
 +        /* cmp 4(TCG_REG_L0), addrhi */
 +        tcg_out_modrm_offset(s, OPC_CMP_GvEv, addrhi, TCG_REG_L0, cmp_ofs + 4);
 +
 +        /* jne slow_path */
 +        tcg_out_opc(s, OPC_JCC_long + JCC_JNE, 0, 0, 0);
 +        ldst->label_ptr[1] = s->code_ptr;
 +        s->code_ptr += 4;
 +    }
 +
 +    /* TLB Hit.  */
 +
 +    /* add addend(TCG_REG_L0), TCG_REG_L1 */
 +    tcg_out_modrm_offset(s, OPC_ADD_GvEv + hrexw, h->base, TCG_REG_L0,
 +                         offsetof(CPUTLBEntry, addend));
 +#else
 +    if (a_bits) {
 +        ldst = new_ldst_label(s);
 +
 +        ldst->is_ld = is_ld;
 +        ldst->oi = oi;
 +        ldst->addrlo_reg = addrlo;
 +        ldst->addrhi_reg = addrhi;
 +
 +        tcg_out_testi(s, addrlo, a_mask);
 +        /* jne slow_path */
 +        tcg_out_opc(s, OPC_JCC_long + JCC_JNE, 0, 0, 0);
 +        ldst->label_ptr[0] = s->code_ptr;
 +        s->code_ptr += 4;
 +    }
 +
 +    *h = x86_guest_base;
 +    h->base = addrlo;
 +#endif
 +
 +    return ldst;
 +}
 +
  static void tcg_out_qemu_ld_direct(TCGContext *s, TCGReg datalo, TCGReg datahi,
                                     HostAddress h, TCGType type, MemOp memop)
  {
@@ -XXX,XX +XXX,XX @@ static void tcg_out_qemu_ld(TCGContext *s, TCGReg datalo, TCGReg datahi,
                              TCGReg addrlo, TCGReg addrhi,
                              MemOpIdx oi, TCGType data_type)
  {
 -    MemOp opc = get_memop(oi);
 +    TCGLabelQemuLdst *ldst;
      HostAddress h;
 -#if defined(CONFIG_SOFTMMU)
 -    tcg_insn_unit *label_ptr[2];
 +    ldst = prepare_host_addr(s, &h, addrlo, addrhi, oi, true);
 +    tcg_out_qemu_ld_direct(s, datalo, datahi, h, data_type, get_memop(oi));
 -    tcg_out_tlb_load(s, addrlo, addrhi, get_mmuidx(oi), opc,
 -                     label_ptr, offsetof(CPUTLBEntry, addr_read));
 -
 -    /* TLB Hit.  */
 -    h.base = TCG_REG_L1;
 -    h.index = -1;
 -    h.ofs = 0;
 -    h.seg = 0;
 -    tcg_out_qemu_ld_direct(s, datalo, datahi, h, data_type, opc);
 -
 -    /* Record the current context of a load into ldst label */
 -    add_qemu_ldst_label(s, true, data_type, oi, datalo, datahi,
 -                        addrlo, addrhi, s->code_ptr, label_ptr);
 -#else
 -    unsigned a_bits = get_alignment_bits(opc);
 -    if (a_bits) {
 -        tcg_out_test_alignment(s, true, addrlo, addrhi, a_bits);
 +    if (ldst) {
 +        ldst->type = data_type;
 +        ldst->datalo_reg = datalo;
 +        ldst->datahi_reg = datahi;
 +        ldst->raddr = tcg_splitwx_to_rx(s->code_ptr);
      }
 -
--    h = x86_guest_base;
+-    ctx->s_mask = arg_info(op->args[1])->s_mask;
--    h.base = addrlo;
+-
--    tcg_out_qemu_ld_direct(s, datalo, datahi, h, data_type, opc);
+-    /* Because of fold_to_not, we want to always return true, via finish. */
--#endif
+-    finish_folding(ctx, op);
 -    return true;
 +    return fold_masks_s(ctx, op, arg_info(op->args[1])->s_mask);
  }
- static void tcg_out_qemu_st_direct(TCGContext *s, TCGReg datalo, TCGReg datahi,
+ static bool fold_or(OptContext *ctx, TCGOp *op)
@@ -XXX,XX +XXX,XX @@ static void tcg_out_qemu_st(TCGContext *s, TCGReg datalo, TCGReg datahi,
                              TCGReg addrlo, TCGReg addrhi,
                              MemOpIdx oi, TCGType data_type)
  {
 -    MemOp opc = get_memop(oi);
 +    TCGLabelQemuLdst *ldst;
      HostAddress h;
 -#if defined(CONFIG_SOFTMMU)
 -    tcg_insn_unit *label_ptr[2];
 +    ldst = prepare_host_addr(s, &h, addrlo, addrhi, oi, false);
 +    tcg_out_qemu_st_direct(s, datalo, datahi, h, get_memop(oi));
 -    tcg_out_tlb_load(s, addrlo, addrhi, get_mmuidx(oi), opc,
 -                     label_ptr, offsetof(CPUTLBEntry, addr_write));
 -
 -    /* TLB Hit.  */
 -    h.base = TCG_REG_L1;
 -    h.index = -1;
 -    h.ofs = 0;
 -    h.seg = 0;
 -    tcg_out_qemu_st_direct(s, datalo, datahi, h, opc);
 -
 -    /* Record the current context of a store into ldst label */
 -    add_qemu_ldst_label(s, false, data_type, oi, datalo, datahi,
 -                        addrlo, addrhi, s->code_ptr, label_ptr);
 -#else
 -    unsigned a_bits = get_alignment_bits(opc);
 -    if (a_bits) {
 -        tcg_out_test_alignment(s, false, addrlo, addrhi, a_bits);
 +    if (ldst) {
 +        ldst->type = data_type;
 +        ldst->datalo_reg = datalo;
 +        ldst->datahi_reg = datahi;
 +        ldst->raddr = tcg_splitwx_to_rx(s->code_ptr);
      }
 -
 -    h = x86_guest_base;
 -    h.base = addrlo;
 -
 -    tcg_out_qemu_st_direct(s, datalo, datahi, h, opc);
 -#endif
  }
  static void tcg_out_exit_tb(TCGContext *s, uintptr_t a0)
 --
-.34.1
+.43.0

-New patch
+[PULL 31/72] tcg/optimize: Use fold_masks_zs in fold_or
+Avoid the use of the OptContext slots.  Find TempOptInfo once.
+Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
+Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
+---
+ tcg/optimize.c | 13 ++++++++-----
+file changed, 8 insertions(+), 5 deletions(-)
+diff --git a/tcg/optimize.c b/tcg/optimize.c
+index XXXXXXX..XXXXXXX 100644
+--- a/tcg/optimize.c
++++ b/tcg/optimize.c
+@@ -XXX,XX +XXX,XX @@ static bool fold_not(OptContext *ctx, TCGOp *op)
+ static bool fold_or(OptContext *ctx, TCGOp *op)
+ {
++    uint64_t z_mask, s_mask;
++    TempOptInfo *t1, *t2;
++
+     if (fold_const2_commutative(ctx, op) ||
+         fold_xi_to_x(ctx, op, 0) ||
+         fold_xx_to_x(ctx, op)) {
+         return true;
+     }
+-    ctx->z_mask = arg_info(op->args[1])->z_mask
+-                | arg_info(op->args[2])->z_mask;
+-    ctx->s_mask = arg_info(op->args[1])->s_mask
+-                & arg_info(op->args[2])->s_mask;
+-    return fold_masks(ctx, op);
++    t1 = arg_info(op->args[1]);
++    t2 = arg_info(op->args[2]);
++    z_mask = t1->z_mask | t2->z_mask;
++    s_mask = t1->s_mask & t2->s_mask;
++    return fold_masks_zs(ctx, op, z_mask, s_mask);
+ }
+ static bool fold_orc(OptContext *ctx, TCGOp *op)
+--
+.43.0

-[PULL 39/53] tcg/s390x: Use ALGFR in constructing softmmu host address
+[PULL 32/72] tcg/optimize: Use fold_masks_zs in fold_orc
-Rather than zero-extend the guest address into a register,
+Avoid the use of the OptContext slots.
 use an add instruction which zero-extends the second input.
-Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
+Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- tcg/s390x/tcg-target.c.inc | 8 +++++---
+ tcg/optimize.c | 8 +++++---
 file changed, 5 insertions(+), 3 deletions(-)
-diff --git a/tcg/s390x/tcg-target.c.inc b/tcg/s390x/tcg-target.c.inc
+diff --git a/tcg/optimize.c b/tcg/optimize.c
 index XXXXXXX..XXXXXXX 100644
---- a/tcg/s390x/tcg-target.c.inc
+--- a/tcg/optimize.c
-+++ b/tcg/s390x/tcg-target.c.inc
++++ b/tcg/optimize.c
-@@ -XXX,XX +XXX,XX @@ typedef enum S390Opcode {
+@@ -XXX,XX +XXX,XX @@ static bool fold_or(OptContext *ctx, TCGOp *op)
-     RRE_ALGR    = 0xb90a,
-     RRE_ALCR    = 0xb998,
+ static bool fold_orc(OptContext *ctx, TCGOp *op)
-     RRE_ALCGR   = 0xb988,
+ {
-+    RRE_ALGFR   = 0xb91a,
++    uint64_t s_mask;
-     RRE_CGR     = 0xb920,
++
-     RRE_CLGR    = 0xb921,
+     if (fold_const2(ctx, op) ||
-     RRE_DLGR    = 0xb987,
+         fold_xx_to_i(ctx, op, -1) ||
-@@ -XXX,XX +XXX,XX @@ static TCGLabelQemuLdst *prepare_host_addr(TCGContext *s, HostAddress *h,
+         fold_xi_to_x(ctx, op, -1) ||
-     tcg_out_insn(s, RXY, LG, h->index, TCG_REG_R2, TCG_REG_NONE,
+@@ -XXX,XX +XXX,XX @@ static bool fold_orc(OptContext *ctx, TCGOp *op)
-                  offsetof(CPUTLBEntry, addend));
+         return true;
 -    h->base = addr_reg;
      if (TARGET_LONG_BITS == 32) {
 -        tcg_out_ext32u(s, TCG_REG_R3, addr_reg);
 -        h->base = TCG_REG_R3;
 +        tcg_out_insn(s, RRE, ALGFR, h->index, addr_reg);
 +        h->base = TCG_REG_NONE;
 +    } else {
 +        h->base = addr_reg;
      }
-     h->disp = 0;
- #else
+-    ctx->s_mask = arg_info(op->args[1])->s_mask
 -                & arg_info(op->args[2])->s_mask;
 -    return false;
 +    s_mask = arg_info(op->args[1])->s_mask
 +           & arg_info(op->args[2])->s_mask;
 +    return fold_masks_s(ctx, op, s_mask);
  }
  static bool fold_qemu_ld(OptContext *ctx, TCGOp *op)
 --
-.34.1
+.43.0

-[PULL 34/53] tcg/ppc: Reorg tcg_out_tlb_read
+[PULL 33/72] tcg/optimize: Use fold_masks_zs in fold_qemu_ld
-Allocate TCG_REG_TMP2.  Use R0, TMP1, TMP2 instead of any of
+Avoid the use of the OptContext slots.
 the normally allocated registers for the tlb load.
-Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
+Be careful not to call fold_masks_zs when the memory operation
-Reviewed-by: Daniel Henrique Barboza <danielhb413@gmail.com>
+is wide enough to require multiple outputs, so split into two
 functions: fold_qemu_ld_1reg and fold_qemu_ld_2reg.
 Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- tcg/ppc/tcg-target.c.inc | 78 ++++++++++++++++++++++++----------------
+ tcg/optimize.c | 26 +++++++++++++++++++++-----
-file changed, 47 insertions(+), 31 deletions(-)
+file changed, 21 insertions(+), 5 deletions(-)
-diff --git a/tcg/ppc/tcg-target.c.inc b/tcg/ppc/tcg-target.c.inc
+diff --git a/tcg/optimize.c b/tcg/optimize.c
 index XXXXXXX..XXXXXXX 100644
---- a/tcg/ppc/tcg-target.c.inc
+--- a/tcg/optimize.c
-+++ b/tcg/ppc/tcg-target.c.inc
++++ b/tcg/optimize.c
-@@ -XXX,XX +XXX,XX @@
+@@ -XXX,XX +XXX,XX @@ static bool fold_orc(OptContext *ctx, TCGOp *op)
- #else
+     return fold_masks_s(ctx, op, s_mask);
- # define TCG_REG_TMP1   TCG_REG_R12
+ }
- #endif
-+#define TCG_REG_TMP2    TCG_REG_R11
+-static bool fold_qemu_ld(OptContext *ctx, TCGOp *op)
++static bool fold_qemu_ld_1reg(OptContext *ctx, TCGOp *op)
- #define TCG_VEC_TMP1    TCG_REG_V0
+ {
- #define TCG_VEC_TMP2    TCG_REG_V1
+     const TCGOpDef *def = &tcg_op_defs[op->opc];
-@@ -XXX,XX +XXX,XX @@ static TCGReg ldst_ra_gen(TCGContext *s, const TCGLabelQemuLdst *l, int arg)
+     MemOpIdx oi = op->args[def->nb_oargs + def->nb_iargs];
- /*
+     MemOp mop = get_memop(oi);
-  * For the purposes of ppc32 sorting 4 input registers into 4 argument
+     int width = 8 * memop_size(mop);
-  * registers, there is an outside chance we would require 3 temps.
++    uint64_t z_mask = -1, s_mask = 0;
-- * Because of constraints, no inputs are in r3, and env will not be
-- * placed into r3 until after the sorting is done, and is thus free.
+     if (width < 64) {
-  */
+         if (mop & MO_SIGN) {
- static const TCGLdstHelperParam ldst_helper_param = {
+-            ctx->s_mask = MAKE_64BIT_MASK(width, 64 - width);
-     .ra_gen = ldst_ra_gen,
++            s_mask = MAKE_64BIT_MASK(width - 1, 64 - (width - 1));
      .ntmp = 3,
 -    .tmp = { TCG_REG_TMP1, TCG_REG_R0, TCG_REG_R3 }
 +    .tmp = { TCG_REG_TMP1, TCG_REG_TMP2, TCG_REG_R0 }
  };
  static bool tcg_out_qemu_ld_slow_path(TCGContext *s, TCGLabelQemuLdst *lb)
@@ -XXX,XX +XXX,XX @@ static TCGLabelQemuLdst *prepare_host_addr(TCGContext *s, HostAddress *h,
      /* Load tlb_mask[mmu_idx] and tlb_table[mmu_idx].  */
      QEMU_BUILD_BUG_ON(TLB_MASK_TABLE_OFS(0) > 0);
      QEMU_BUILD_BUG_ON(TLB_MASK_TABLE_OFS(0) < -32768);
 -    tcg_out_ld(s, TCG_TYPE_PTR, TCG_REG_R3, TCG_AREG0, mask_off);
 -    tcg_out_ld(s, TCG_TYPE_PTR, TCG_REG_R4, TCG_AREG0, table_off);
 +    tcg_out_ld(s, TCG_TYPE_PTR, TCG_REG_TMP1, TCG_AREG0, mask_off);
 +    tcg_out_ld(s, TCG_TYPE_PTR, TCG_REG_TMP2, TCG_AREG0, table_off);
      /* Extract the page index, shifted into place for tlb index.  */
      if (TCG_TARGET_REG_BITS == 32) {
 -        tcg_out_shri32(s, TCG_REG_TMP1, addrlo,
 +        tcg_out_shri32(s, TCG_REG_R0, addrlo,
                         TARGET_PAGE_BITS - CPU_TLB_ENTRY_BITS);
      } else {
 -        tcg_out_shri64(s, TCG_REG_TMP1, addrlo,
 +        tcg_out_shri64(s, TCG_REG_R0, addrlo,
                         TARGET_PAGE_BITS - CPU_TLB_ENTRY_BITS);
      }
 -    tcg_out32(s, AND | SAB(TCG_REG_R3, TCG_REG_R3, TCG_REG_TMP1));
 +    tcg_out32(s, AND | SAB(TCG_REG_TMP1, TCG_REG_TMP1, TCG_REG_R0));
 -    /* Load the TLB comparator.  */
 +    /* Load the (low part) TLB comparator into TMP2.  */
      if (cmp_off == 0 && TCG_TARGET_REG_BITS >= TARGET_LONG_BITS) {
          uint32_t lxu = (TCG_TARGET_REG_BITS == 32 || TARGET_LONG_BITS == 32
                          ? LWZUX : LDUX);
 -        tcg_out32(s, lxu | TAB(TCG_REG_TMP1, TCG_REG_R3, TCG_REG_R4));
 +        tcg_out32(s, lxu | TAB(TCG_REG_TMP2, TCG_REG_TMP1, TCG_REG_TMP2));
      } else {
 -        tcg_out32(s, ADD | TAB(TCG_REG_R3, TCG_REG_R3, TCG_REG_R4));
 +        tcg_out32(s, ADD | TAB(TCG_REG_TMP1, TCG_REG_TMP1, TCG_REG_TMP2));
          if (TCG_TARGET_REG_BITS < TARGET_LONG_BITS) {
 -            tcg_out_ld(s, TCG_TYPE_I32, TCG_REG_TMP1, TCG_REG_R3, cmp_off + 4);
 -            tcg_out_ld(s, TCG_TYPE_I32, TCG_REG_R4, TCG_REG_R3, cmp_off);
 +            tcg_out_ld(s, TCG_TYPE_I32, TCG_REG_TMP2,
 +                       TCG_REG_TMP1, cmp_off + 4 * HOST_BIG_ENDIAN);
          } else {
--            tcg_out_ld(s, TCG_TYPE_TL, TCG_REG_TMP1, TCG_REG_R3, cmp_off);
+-            ctx->z_mask = MAKE_64BIT_MASK(0, width);
-+            tcg_out_ld(s, TCG_TYPE_TL, TCG_REG_TMP2, TCG_REG_TMP1, cmp_off);
++            z_mask = MAKE_64BIT_MASK(0, width);
          }
      }
-@@ -XXX,XX +XXX,XX @@ static TCGLabelQemuLdst *prepare_host_addr(TCGContext *s, HostAddress *h,
+     /* Opcodes that touch guest memory stop the mb optimization.  */
-      * Load the TLB addend for use on the fast path.
+     ctx->prev_mb = NULL;
-      * Do this asap to minimize any load use delay.
+-    return false;
       */
 -    h->base = TCG_REG_R3;
 -    tcg_out_ld(s, TCG_TYPE_PTR, h->base, TCG_REG_R3,
 -               offsetof(CPUTLBEntry, addend));
 +    if (TCG_TARGET_REG_BITS >= TARGET_LONG_BITS) {
 +        tcg_out_ld(s, TCG_TYPE_PTR, TCG_REG_TMP1, TCG_REG_TMP1,
 +                   offsetof(CPUTLBEntry, addend));
 +    }
 -    /* Clear the non-page, non-alignment bits from the address */
 +    /* Clear the non-page, non-alignment bits from the address in R0. */
      if (TCG_TARGET_REG_BITS == 32) {
          /*
           * We don't support unaligned accesses on 32-bits.
@@ -XXX,XX +XXX,XX @@ static TCGLabelQemuLdst *prepare_host_addr(TCGContext *s, HostAddress *h,
          if (TARGET_LONG_BITS == 32) {
              tcg_out_rlw(s, RLWINM, TCG_REG_R0, t, 0,
                          (32 - a_bits) & 31, 31 - TARGET_PAGE_BITS);
 -            /* Zero-extend the address for use in the final address.  */
 -            tcg_out_ext32u(s, TCG_REG_R4, addrlo);
 -            addrlo = TCG_REG_R4;
          } else if (a_bits == 0) {
              tcg_out_rld(s, RLDICR, TCG_REG_R0, t, 0, 63 - TARGET_PAGE_BITS);
          } else {
@@ -XXX,XX +XXX,XX @@ static TCGLabelQemuLdst *prepare_host_addr(TCGContext *s, HostAddress *h,
              tcg_out_rld(s, RLDICL, TCG_REG_R0, TCG_REG_R0, TARGET_PAGE_BITS, 0);
          }
      }
 -    h->index = addrlo;
      if (TCG_TARGET_REG_BITS < TARGET_LONG_BITS) {
 -        tcg_out_cmp(s, TCG_COND_EQ, TCG_REG_R0, TCG_REG_TMP1,
 +        /* Low part comparison into cr7. */
 +        tcg_out_cmp(s, TCG_COND_EQ, TCG_REG_R0, TCG_REG_TMP2,
 , 7, TCG_TYPE_I32);
 -        tcg_out_cmp(s, TCG_COND_EQ, addrhi, TCG_REG_R4, 0, 6, TCG_TYPE_I32);
 +
-+        /* Load the high part TLB comparator into TMP2.  */
++    return fold_masks_zs(ctx, op, z_mask, s_mask);
-+        tcg_out_ld(s, TCG_TYPE_I32, TCG_REG_TMP2, TCG_REG_TMP1,
++}
 +                   cmp_off + 4 * !HOST_BIG_ENDIAN);
 +
-+        /* Load addend, deferred for this case. */
++static bool fold_qemu_ld_2reg(OptContext *ctx, TCGOp *op)
-+        tcg_out_ld(s, TCG_TYPE_PTR, TCG_REG_TMP1, TCG_REG_TMP1,
++{
-+                   offsetof(CPUTLBEntry, addend));
++    /* Opcodes that touch guest memory stop the mb optimization.  */
-+
++    ctx->prev_mb = NULL;
-+        /* High part comparison into cr6. */
++    return finish_folding(ctx, op);
 +        tcg_out_cmp(s, TCG_COND_EQ, addrhi, TCG_REG_TMP2, 0, 6, TCG_TYPE_I32);
 +
 +        /* Combine comparisons into cr7. */
          tcg_out32(s, CRAND | BT(7, CR_EQ) | BA(6, CR_EQ) | BB(7, CR_EQ));
      } else {
 -        tcg_out_cmp(s, TCG_COND_EQ, TCG_REG_R0, TCG_REG_TMP1,
 +        /* Full comparison into cr7. */
 +        tcg_out_cmp(s, TCG_COND_EQ, TCG_REG_R0, TCG_REG_TMP2,
 , 7, TCG_TYPE_TL);
      }
      /* Load a pointer into the current opcode w/conditional branch-link. */
      ldst->label_ptr[0] = s->code_ptr;
      tcg_out32(s, BC | BI(7, CR_EQ) | BO_COND_FALSE | LK);
 +
 +    h->base = TCG_REG_TMP1;
  #else
      if (a_bits) {
          ldst = new_ldst_label(s);
@@ -XXX,XX +XXX,XX @@ static TCGLabelQemuLdst *prepare_host_addr(TCGContext *s, HostAddress *h,
      }
      h->base = guest_base ? TCG_GUEST_BASE_REG : 0;
 -    h->index = addrlo;
 -    if (TCG_TARGET_REG_BITS > TARGET_LONG_BITS) {
 -        tcg_out_ext32u(s, TCG_REG_TMP1, addrlo);
 -        h->index = TCG_REG_TMP1;
 -    }
  #endif
 +    if (TCG_TARGET_REG_BITS > TARGET_LONG_BITS) {
 +        /* Zero-extend the guest address for use in the host address. */
 +        tcg_out_ext32u(s, TCG_REG_R0, addrlo);
 +        h->index = TCG_REG_R0;
 +    } else {
 +        h->index = addrlo;
 +    }
 +
      return ldst;
  }
-@@ -XXX,XX +XXX,XX @@ static void tcg_target_init(TCGContext *s)
+ static bool fold_qemu_st(OptContext *ctx, TCGOp *op)
- #if defined(_CALL_SYSV) || TCG_TARGET_REG_BITS == 64
+@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
-     tcg_regset_set_reg(s->reserved_regs, TCG_REG_R13); /* thread pointer */
+             break;
- #endif
+         case INDEX_op_qemu_ld_a32_i32:
--    tcg_regset_set_reg(s->reserved_regs, TCG_REG_TMP1); /* mem temp */
+         case INDEX_op_qemu_ld_a64_i32:
-+    tcg_regset_set_reg(s->reserved_regs, TCG_REG_TMP1);
++            done = fold_qemu_ld_1reg(&ctx, op);
-+    tcg_regset_set_reg(s->reserved_regs, TCG_REG_TMP2);
++            break;
-     tcg_regset_set_reg(s->reserved_regs, TCG_VEC_TMP1);
+         case INDEX_op_qemu_ld_a32_i64:
-     tcg_regset_set_reg(s->reserved_regs, TCG_VEC_TMP2);
+         case INDEX_op_qemu_ld_a64_i64:
-     if (USE_REG_TB) {
++            if (TCG_TARGET_REG_BITS == 64) {
 +                done = fold_qemu_ld_1reg(&ctx, op);
 +                break;
 +            }
 +            QEMU_FALLTHROUGH;
          case INDEX_op_qemu_ld_a32_i128:
          case INDEX_op_qemu_ld_a64_i128:
 -            done = fold_qemu_ld(&ctx, op);
 +            done = fold_qemu_ld_2reg(&ctx, op);
              break;
          case INDEX_op_qemu_st8_a32_i32:
          case INDEX_op_qemu_st8_a64_i32:
 --
-.34.1
+.43.0

-[PULL 25/53] tcg/loongarch64: Convert tcg_out_qemu_{ld,st}_slow_path
+[PULL 34/72] tcg/optimize: Return true from fold_qemu_st, fold_tcg_st
-Use tcg_out_ld_helper_args, tcg_out_ld_helper_ret,
+Stores have no output operands, and so need no further work.
 and tcg_out_st_helper_args.
-Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
+Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- tcg/loongarch64/tcg-target.c.inc | 37 ++++++++++----------------------
+ tcg/optimize.c | 11 +++++------
-file changed, 11 insertions(+), 26 deletions(-)
+file changed, 5 insertions(+), 6 deletions(-)
-diff --git a/tcg/loongarch64/tcg-target.c.inc b/tcg/loongarch64/tcg-target.c.inc
+diff --git a/tcg/optimize.c b/tcg/optimize.c
 index XXXXXXX..XXXXXXX 100644
---- a/tcg/loongarch64/tcg-target.c.inc
+--- a/tcg/optimize.c
-+++ b/tcg/loongarch64/tcg-target.c.inc
++++ b/tcg/optimize.c
-@@ -XXX,XX +XXX,XX @@ static bool tcg_out_goto(TCGContext *s, const tcg_insn_unit *target)
+@@ -XXX,XX +XXX,XX @@ static bool fold_qemu_st(OptContext *ctx, TCGOp *op)
-     return reloc_br_sd10k16(s->code_ptr - 1, target);
+ {
      /* Opcodes that touch guest memory stop the mb optimization.  */
      ctx->prev_mb = NULL;
 -    return false;
 +    return true;
  }
-+static const TCGLdstHelperParam ldst_helper_param = {
+ static bool fold_remainder(OptContext *ctx, TCGOp *op)
-+    .ntmp = 1, .tmp = { TCG_REG_TMP0 }
+@@ -XXX,XX +XXX,XX @@ static bool fold_tcg_st(OptContext *ctx, TCGOp *op)
-+};
-+
+     if (op->args[1] != tcgv_ptr_arg(tcg_env)) {
- static bool tcg_out_qemu_ld_slow_path(TCGContext *s, TCGLabelQemuLdst *l)
+         remove_mem_copy_all(ctx);
- {
+-        return false;
--    MemOpIdx oi = l->oi;
++        return true;
 -    MemOp opc = get_memop(oi);
 -    MemOp size = opc & MO_SIZE;
 +    MemOp opc = get_memop(l->oi);
      /* resolve label address */
      if (!reloc_br_sk16(l->label_ptr[0], tcg_splitwx_to_rx(s->code_ptr))) {
          return false;
      }
--    /* call load helper */
+     switch (op->opc) {
--    tcg_out_mov(s, TCG_TYPE_PTR, TCG_REG_A0, TCG_AREG0);
+@@ -XXX,XX +XXX,XX @@ static bool fold_tcg_st(OptContext *ctx, TCGOp *op)
--    tcg_out_mov(s, TCG_TYPE_PTR, TCG_REG_A1, l->addrlo_reg);
+         g_assert_not_reached();
--    tcg_out_movi(s, TCG_TYPE_PTR, TCG_REG_A2, oi);
+     }
--    tcg_out_movi(s, TCG_TYPE_PTR, TCG_REG_A3, (tcg_target_long)l->raddr);
+     remove_mem_copy_in(ctx, ofs, ofs + lm1);
--
+-    return false;
--    tcg_out_call_int(s, qemu_ld_helpers[size], false);
++    return true;
 -
 -    tcg_out_movext(s, l->type, l->datalo_reg,
 -                   TCG_TYPE_REG, opc & MO_SSIZE, TCG_REG_A0);
 +    tcg_out_ld_helper_args(s, l, &ldst_helper_param);
 +    tcg_out_call_int(s, qemu_ld_helpers[opc & MO_SIZE], false);
 +    tcg_out_ld_helper_ret(s, l, false, &ldst_helper_param);
      return tcg_out_goto(s, l->raddr);
  }
- static bool tcg_out_qemu_st_slow_path(TCGContext *s, TCGLabelQemuLdst *l)
+ static bool fold_tcg_st_memcopy(OptContext *ctx, TCGOp *op)
- {
+@@ -XXX,XX +XXX,XX @@ static bool fold_tcg_st_memcopy(OptContext *ctx, TCGOp *op)
--    MemOpIdx oi = l->oi;
+     TCGType type;
--    MemOp opc = get_memop(oi);
--    MemOp size = opc & MO_SIZE;
+     if (op->args[1] != tcgv_ptr_arg(tcg_env)) {
-+    MemOp opc = get_memop(l->oi);
+-        fold_tcg_st(ctx, op);
+-        return false;
-     /* resolve label address */
++        return fold_tcg_st(ctx, op);
      if (!reloc_br_sk16(l->label_ptr[0], tcg_splitwx_to_rx(s->code_ptr))) {
          return false;
      }
--    /* call store helper */
+     src = arg_temp(op->args[0]);
--    tcg_out_mov(s, TCG_TYPE_PTR, TCG_REG_A0, TCG_AREG0);
+@@ -XXX,XX +XXX,XX @@ static bool fold_tcg_st_memcopy(OptContext *ctx, TCGOp *op)
--    tcg_out_mov(s, TCG_TYPE_PTR, TCG_REG_A1, l->addrlo_reg);
+     last = ofs + tcg_type_size(type) - 1;
--    tcg_out_movext(s, size == MO_64 ? TCG_TYPE_I32 : TCG_TYPE_I32, TCG_REG_A2,
+     remove_mem_copy_in(ctx, ofs, last);
--                   l->type, size, l->datalo_reg);
+     record_mem_copy(ctx, type, src, ofs, last);
--    tcg_out_movi(s, TCG_TYPE_PTR, TCG_REG_A3, oi);
+-    return false;
--    tcg_out_movi(s, TCG_TYPE_PTR, TCG_REG_A4, (tcg_target_long)l->raddr);
++    return true;
 -
 -    tcg_out_call_int(s, qemu_st_helpers[size], false);
 -
 +    tcg_out_st_helper_args(s, l, &ldst_helper_param);
 +    tcg_out_call_int(s, qemu_st_helpers[opc & MO_SIZE], false);
      return tcg_out_goto(s, l->raddr);
  }
- #else
  static bool fold_xor(OptContext *ctx, TCGOp *op)
 --
-.34.1
+.43.0

-New patch
+[PULL 35/72] tcg/optimize: Use finish_folding in fold_remainder
+Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
+Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
+---
+ tcg/optimize.c | 2 +-
+file changed, 1 insertion(+), 1 deletion(-)
+diff --git a/tcg/optimize.c b/tcg/optimize.c
+index XXXXXXX..XXXXXXX 100644
+--- a/tcg/optimize.c
++++ b/tcg/optimize.c
+@@ -XXX,XX +XXX,XX @@ static bool fold_remainder(OptContext *ctx, TCGOp *op)
+         fold_xx_to_i(ctx, op, 0)) {
+         return true;
+     }
+-    return false;
++    return finish_folding(ctx, op);
+ }
+ static bool fold_setcond_zmask(OptContext *ctx, TCGOp *op, bool neg)
+--
+.43.0

-[PULL 14/53] tcg/arm: Introduce prepare_host_addr
+[PULL 36/72] tcg/optimize: Distinguish simplification in fold_setcond_zmask
-Merge tcg_out_tlb_load, add_qemu_ldst_label, and some code that lived
+Change return from bool to int; distinguish between
-in both tcg_out_qemu_ld and tcg_out_qemu_st into one function that
+complete folding, simplification, and no change.
 returns HostAddress and TCGLabelQemuLdst structures.
-Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
+Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- tcg/arm/tcg-target.c.inc | 351 ++++++++++++++++++---------------------
+ tcg/optimize.c | 22 ++++++++++++++--------
-file changed, 159 insertions(+), 192 deletions(-)
+file changed, 14 insertions(+), 8 deletions(-)
-diff --git a/tcg/arm/tcg-target.c.inc b/tcg/arm/tcg-target.c.inc
+diff --git a/tcg/optimize.c b/tcg/optimize.c
 index XXXXXXX..XXXXXXX 100644
---- a/tcg/arm/tcg-target.c.inc
+--- a/tcg/optimize.c
-+++ b/tcg/arm/tcg-target.c.inc
++++ b/tcg/optimize.c
-@@ -XXX,XX +XXX,XX @@ static TCGReg tcg_out_arg_reg64(TCGContext *s, TCGReg argreg,
+@@ -XXX,XX +XXX,XX @@ static bool fold_remainder(OptContext *ctx, TCGOp *op)
-     }
+     return finish_folding(ctx, op);
  }
--#define TLB_SHIFT    (CPU_TLB_ENTRY_BITS + CPU_TLB_BITS)
+-static bool fold_setcond_zmask(OptContext *ctx, TCGOp *op, bool neg)
--
++/* Return 1 if finished, -1 if simplified, 0 if unchanged. */
--/* We expect to use an 9-bit sign-magnitude negative offset from ENV.  */
++static int fold_setcond_zmask(OptContext *ctx, TCGOp *op, bool neg)
 -QEMU_BUILD_BUG_ON(TLB_MASK_TABLE_OFS(0) > 0);
 -QEMU_BUILD_BUG_ON(TLB_MASK_TABLE_OFS(0) < -256);
 -
 -/* These offsets are built into the LDRD below.  */
 -QEMU_BUILD_BUG_ON(offsetof(CPUTLBDescFast, mask) != 0);
 -QEMU_BUILD_BUG_ON(offsetof(CPUTLBDescFast, table) != 4);
 -
 -/* Load and compare a TLB entry, leaving the flags set.  Returns the register
 -   containing the addend of the tlb entry.  Clobbers R0, R1, R2, TMP.  */
 -
 -static TCGReg tcg_out_tlb_read(TCGContext *s, TCGReg addrlo, TCGReg addrhi,
 -                               MemOp opc, int mem_index, bool is_load)
 -{
 -    int cmp_off = (is_load ? offsetof(CPUTLBEntry, addr_read)
 -                   : offsetof(CPUTLBEntry, addr_write));
 -    int fast_off = TLB_MASK_TABLE_OFS(mem_index);
 -    unsigned s_mask = (1 << (opc & MO_SIZE)) - 1;
 -    unsigned a_mask = (1 << get_alignment_bits(opc)) - 1;
 -    TCGReg t_addr;
 -
 -    /* Load env_tlb(env)->f[mmu_idx].{mask,table} into {r0,r1}.  */
 -    tcg_out_ldrd_8(s, COND_AL, TCG_REG_R0, TCG_AREG0, fast_off);
 -
 -    /* Extract the tlb index from the address into R0.  */
 -    tcg_out_dat_reg(s, COND_AL, ARITH_AND, TCG_REG_R0, TCG_REG_R0, addrlo,
 -                    SHIFT_IMM_LSR(TARGET_PAGE_BITS - CPU_TLB_ENTRY_BITS));
 -
 -    /*
 -     * Add the tlb_table pointer, creating the CPUTLBEntry address in R1.
 -     * Load the tlb comparator into R2/R3 and the fast path addend into R1.
 -     */
 -    if (cmp_off == 0) {
 -        if (TARGET_LONG_BITS == 64) {
 -            tcg_out_ldrd_rwb(s, COND_AL, TCG_REG_R2, TCG_REG_R1, TCG_REG_R0);
 -        } else {
 -            tcg_out_ld32_rwb(s, COND_AL, TCG_REG_R2, TCG_REG_R1, TCG_REG_R0);
 -        }
 -    } else {
 -        tcg_out_dat_reg(s, COND_AL, ARITH_ADD,
 -                        TCG_REG_R1, TCG_REG_R1, TCG_REG_R0, 0);
 -        if (TARGET_LONG_BITS == 64) {
 -            tcg_out_ldrd_8(s, COND_AL, TCG_REG_R2, TCG_REG_R1, cmp_off);
 -        } else {
 -            tcg_out_ld32_12(s, COND_AL, TCG_REG_R2, TCG_REG_R1, cmp_off);
 -        }
 -    }
 -
 -    /* Load the tlb addend.  */
 -    tcg_out_ld32_12(s, COND_AL, TCG_REG_R1, TCG_REG_R1,
 -                    offsetof(CPUTLBEntry, addend));
 -
 -    /*
 -     * Check alignment, check comparators.
 -     * Do this in 2-4 insns.  Use MOVW for v7, if possible,
 -     * to reduce the number of sequential conditional instructions.
 -     * Almost all guests have at least 4k pages, which means that we need
 -     * to clear at least 9 bits even for an 8-byte memory, which means it
 -     * isn't worth checking for an immediate operand for BIC.
 -     *
 -     * For unaligned accesses, test the page of the last unit of alignment.
 -     * This leaves the least significant alignment bits unchanged, and of
 -     * course must be zero.
 -     */
 -    t_addr = addrlo;
 -    if (a_mask < s_mask) {
 -        t_addr = TCG_REG_R0;
 -        tcg_out_dat_imm(s, COND_AL, ARITH_ADD, t_addr,
 -                        addrlo, s_mask - a_mask);
 -    }
 -    if (use_armv7_instructions && TARGET_PAGE_BITS <= 16) {
 -        tcg_out_movi32(s, COND_AL, TCG_REG_TMP, ~(TARGET_PAGE_MASK | a_mask));
 -        tcg_out_dat_reg(s, COND_AL, ARITH_BIC, TCG_REG_TMP,
 -                        t_addr, TCG_REG_TMP, 0);
 -        tcg_out_dat_reg(s, COND_AL, ARITH_CMP, 0, TCG_REG_R2, TCG_REG_TMP, 0);
 -    } else {
 -        if (a_mask) {
 -            tcg_debug_assert(a_mask <= 0xff);
 -            tcg_out_dat_imm(s, COND_AL, ARITH_TST, 0, addrlo, a_mask);
 -        }
 -        tcg_out_dat_reg(s, COND_AL, ARITH_MOV, TCG_REG_TMP, 0, t_addr,
 -                        SHIFT_IMM_LSR(TARGET_PAGE_BITS));
 -        tcg_out_dat_reg(s, (a_mask ? COND_EQ : COND_AL), ARITH_CMP,
 -                        0, TCG_REG_R2, TCG_REG_TMP,
 -                        SHIFT_IMM_LSL(TARGET_PAGE_BITS));
 -    }
 -
 -    if (TARGET_LONG_BITS == 64) {
 -        tcg_out_dat_reg(s, COND_EQ, ARITH_CMP, 0, TCG_REG_R3, addrhi, 0);
 -    }
 -
 -    return TCG_REG_R1;
 -}
 -
 -/* Record the context of a call to the out of line helper code for the slow
 -   path for a load or store, so that we can later generate the correct
 -   helper code.  */
 -static void add_qemu_ldst_label(TCGContext *s, bool is_ld,
 -                                MemOpIdx oi, TCGType type,
 -                                TCGReg datalo, TCGReg datahi,
 -                                TCGReg addrlo, TCGReg addrhi,
 -                                tcg_insn_unit *raddr,
 -                                tcg_insn_unit *label_ptr)
 -{
 -    TCGLabelQemuLdst *label = new_ldst_label(s);
 -
 -    label->is_ld = is_ld;
 -    label->oi = oi;
 -    label->type = type;
 -    label->datalo_reg = datalo;
 -    label->datahi_reg = datahi;
 -    label->addrlo_reg = addrlo;
 -    label->addrhi_reg = addrhi;
 -    label->raddr = tcg_splitwx_to_rx(raddr);
 -    label->label_ptr[0] = label_ptr;
 -}
 -
  static bool tcg_out_qemu_ld_slow_path(TCGContext *s, TCGLabelQemuLdst *lb)
  {
-     TCGReg argreg;
+     uint64_t a_zmask, b_val;
-@@ -XXX,XX +XXX,XX @@ static bool tcg_out_qemu_st_slow_path(TCGContext *s, TCGLabelQemuLdst *lb)
+     TCGCond cond;
-     return true;
+@@ -XXX,XX +XXX,XX @@ static bool fold_setcond_zmask(OptContext *ctx, TCGOp *op, bool neg)
- }
+                 op->opc = xor_opc;
- #else
+                 op->args[2] = arg_new_constant(ctx, 1);
--
+             }
--static void tcg_out_test_alignment(TCGContext *s, bool is_ld, TCGReg addrlo,
+-            return false;
--                                   TCGReg addrhi, unsigned a_bits)
++            return -1;
--{
+         }
 -    unsigned a_mask = (1 << a_bits) - 1;
 -    TCGLabelQemuLdst *label = new_ldst_label(s);
 -
 -    label->is_ld = is_ld;
 -    label->addrlo_reg = addrlo;
 -    label->addrhi_reg = addrhi;
 -
 -    /* We are expecting a_bits to max out at 7, and can easily support 8. */
 -    tcg_debug_assert(a_mask <= 0xff);
 -    /* tst addr, #mask */
 -    tcg_out_dat_imm(s, COND_AL, ARITH_TST, 0, addrlo, a_mask);
 -
 -    /* blne slow_path */
 -    label->label_ptr[0] = s->code_ptr;
 -    tcg_out_bl_imm(s, COND_NE, 0);
 -
 -    label->raddr = tcg_splitwx_to_rx(s->code_ptr);
 -}
 -
  static bool tcg_out_fail_alignment(TCGContext *s, TCGLabelQemuLdst *l)
  {
      if (!reloc_pc24(l->label_ptr[0], tcg_splitwx_to_rx(s->code_ptr))) {
@@ -XXX,XX +XXX,XX @@ static bool tcg_out_qemu_st_slow_path(TCGContext *s, TCGLabelQemuLdst *l)
  }
  #endif /* SOFTMMU */
 +static TCGLabelQemuLdst *prepare_host_addr(TCGContext *s, HostAddress *h,
 +                                           TCGReg addrlo, TCGReg addrhi,
 +                                           MemOpIdx oi, bool is_ld)
 +{
 +    TCGLabelQemuLdst *ldst = NULL;
 +    MemOp opc = get_memop(oi);
 +    MemOp a_bits = get_alignment_bits(opc);
 +    unsigned a_mask = (1 << a_bits) - 1;
 +
 +#ifdef CONFIG_SOFTMMU
 +    int mem_index = get_mmuidx(oi);
 +    int cmp_off = is_ld ? offsetof(CPUTLBEntry, addr_read)
 +                        : offsetof(CPUTLBEntry, addr_write);
 +    int fast_off = TLB_MASK_TABLE_OFS(mem_index);
 +    unsigned s_mask = (1 << (opc & MO_SIZE)) - 1;
 +    TCGReg t_addr;
 +
 +    ldst = new_ldst_label(s);
 +    ldst->is_ld = is_ld;
 +    ldst->oi = oi;
 +    ldst->addrlo_reg = addrlo;
 +    ldst->addrhi_reg = addrhi;
 +
 +    /* Load env_tlb(env)->f[mmu_idx].{mask,table} into {r0,r1}.  */
 +    QEMU_BUILD_BUG_ON(TLB_MASK_TABLE_OFS(0) > 0);
 +    QEMU_BUILD_BUG_ON(TLB_MASK_TABLE_OFS(0) < -256);
 +    QEMU_BUILD_BUG_ON(offsetof(CPUTLBDescFast, mask) != 0);
 +    QEMU_BUILD_BUG_ON(offsetof(CPUTLBDescFast, table) != 4);
 +    tcg_out_ldrd_8(s, COND_AL, TCG_REG_R0, TCG_AREG0, fast_off);
 +
 +    /* Extract the tlb index from the address into R0.  */
 +    tcg_out_dat_reg(s, COND_AL, ARITH_AND, TCG_REG_R0, TCG_REG_R0, addrlo,
 +                    SHIFT_IMM_LSR(TARGET_PAGE_BITS - CPU_TLB_ENTRY_BITS));
 +
 +    /*
 +     * Add the tlb_table pointer, creating the CPUTLBEntry address in R1.
 +     * Load the tlb comparator into R2/R3 and the fast path addend into R1.
 +     */
 +    if (cmp_off == 0) {
 +        if (TARGET_LONG_BITS == 64) {
 +            tcg_out_ldrd_rwb(s, COND_AL, TCG_REG_R2, TCG_REG_R1, TCG_REG_R0);
 +        } else {
 +            tcg_out_ld32_rwb(s, COND_AL, TCG_REG_R2, TCG_REG_R1, TCG_REG_R0);
 +        }
 +    } else {
 +        tcg_out_dat_reg(s, COND_AL, ARITH_ADD,
 +                        TCG_REG_R1, TCG_REG_R1, TCG_REG_R0, 0);
 +        if (TARGET_LONG_BITS == 64) {
 +            tcg_out_ldrd_8(s, COND_AL, TCG_REG_R2, TCG_REG_R1, cmp_off);
 +        } else {
 +            tcg_out_ld32_12(s, COND_AL, TCG_REG_R2, TCG_REG_R1, cmp_off);
 +        }
 +    }
 +
 +    /* Load the tlb addend.  */
 +    tcg_out_ld32_12(s, COND_AL, TCG_REG_R1, TCG_REG_R1,
 +                    offsetof(CPUTLBEntry, addend));
 +
 +    /*
 +     * Check alignment, check comparators.
 +     * Do this in 2-4 insns.  Use MOVW for v7, if possible,
 +     * to reduce the number of sequential conditional instructions.
 +     * Almost all guests have at least 4k pages, which means that we need
 +     * to clear at least 9 bits even for an 8-byte memory, which means it
 +     * isn't worth checking for an immediate operand for BIC.
 +     *
 +     * For unaligned accesses, test the page of the last unit of alignment.
 +     * This leaves the least significant alignment bits unchanged, and of
 +     * course must be zero.
 +     */
 +    t_addr = addrlo;
 +    if (a_mask < s_mask) {
 +        t_addr = TCG_REG_R0;
 +        tcg_out_dat_imm(s, COND_AL, ARITH_ADD, t_addr,
 +                        addrlo, s_mask - a_mask);
 +    }
 +    if (use_armv7_instructions && TARGET_PAGE_BITS <= 16) {
 +        tcg_out_movi32(s, COND_AL, TCG_REG_TMP, ~(TARGET_PAGE_MASK | a_mask));
 +        tcg_out_dat_reg(s, COND_AL, ARITH_BIC, TCG_REG_TMP,
 +                        t_addr, TCG_REG_TMP, 0);
 +        tcg_out_dat_reg(s, COND_AL, ARITH_CMP, 0, TCG_REG_R2, TCG_REG_TMP, 0);
 +    } else {
 +        if (a_mask) {
 +            tcg_debug_assert(a_mask <= 0xff);
 +            tcg_out_dat_imm(s, COND_AL, ARITH_TST, 0, addrlo, a_mask);
 +        }
 +        tcg_out_dat_reg(s, COND_AL, ARITH_MOV, TCG_REG_TMP, 0, t_addr,
 +                        SHIFT_IMM_LSR(TARGET_PAGE_BITS));
 +        tcg_out_dat_reg(s, (a_mask ? COND_EQ : COND_AL), ARITH_CMP,
 +                        0, TCG_REG_R2, TCG_REG_TMP,
 +                        SHIFT_IMM_LSL(TARGET_PAGE_BITS));
 +    }
 +
 +    if (TARGET_LONG_BITS == 64) {
 +        tcg_out_dat_reg(s, COND_EQ, ARITH_CMP, 0, TCG_REG_R3, addrhi, 0);
 +    }
 +
 +    *h = (HostAddress){
 +        .cond = COND_AL,
 +        .base = addrlo,
 +        .index = TCG_REG_R1,
 +        .index_scratch = true,
 +    };
 +#else
 +    if (a_mask) {
 +        ldst = new_ldst_label(s);
 +        ldst->is_ld = is_ld;
 +        ldst->oi = oi;
 +        ldst->addrlo_reg = addrlo;
 +        ldst->addrhi_reg = addrhi;
 +
 +        /* We are expecting a_bits to max out at 7 */
 +        tcg_debug_assert(a_mask <= 0xff);
 +        /* tst addr, #mask */
 +        tcg_out_dat_imm(s, COND_AL, ARITH_TST, 0, addrlo, a_mask);
 +    }
 +
 +    *h = (HostAddress){
 +        .cond = COND_AL,
 +        .base = addrlo,
 +        .index = guest_base ? TCG_REG_GUEST_BASE : -1,
 +        .index_scratch = false,
 +    };
 +#endif
 +
 +    return ldst;
 +}
 +
  static void tcg_out_qemu_ld_direct(TCGContext *s, MemOp opc, TCGReg datalo,
                                     TCGReg datahi, HostAddress h)
  {
@@ -XXX,XX +XXX,XX @@ static void tcg_out_qemu_ld(TCGContext *s, TCGReg datalo, TCGReg datahi,
                              MemOpIdx oi, TCGType data_type)
  {
      MemOp opc = get_memop(oi);
 +    TCGLabelQemuLdst *ldst;
      HostAddress h;
 -#ifdef CONFIG_SOFTMMU
 -    h.cond = COND_AL;
 -    h.base = addrlo;
 -    h.index_scratch = true;
 -    h.index = tcg_out_tlb_read(s, addrlo, addrhi, opc, get_mmuidx(oi), 1);
 +    ldst = prepare_host_addr(s, &h, addrlo, addrhi, oi, true);
 +    if (ldst) {
 +        ldst->type = data_type;
 +        ldst->datalo_reg = datalo;
 +        ldst->datahi_reg = datahi;
 -    /*
 -     * This a conditional BL only to load a pointer within this opcode into
 -     * LR for the slow path.  We will not be using the value for a tail call.
 -     */
 -    tcg_insn_unit *label_ptr = s->code_ptr;
 -    tcg_out_bl_imm(s, COND_NE, 0);
 +        /*
 +         * This a conditional BL only to load a pointer within this
 +         * opcode into LR for the slow path.  We will not be using
 +         * the value for a tail call.
 +         */
 +        ldst->label_ptr[0] = s->code_ptr;
 +        tcg_out_bl_imm(s, COND_NE, 0);
 -    tcg_out_qemu_ld_direct(s, opc, datalo, datahi, h);
 -
 -    add_qemu_ldst_label(s, true, oi, data_type, datalo, datahi,
 -                        addrlo, addrhi, s->code_ptr, label_ptr);
 -#else
 -    unsigned a_bits = get_alignment_bits(opc);
 -    if (a_bits) {
 -        tcg_out_test_alignment(s, true, addrlo, addrhi, a_bits);
 +        tcg_out_qemu_ld_direct(s, opc, datalo, datahi, h);
 +        ldst->raddr = tcg_splitwx_to_rx(s->code_ptr);
 +    } else {
 +        tcg_out_qemu_ld_direct(s, opc, datalo, datahi, h);
      }
 -
--    h.cond = COND_AL;
+-    return false;
--    h.base = addrlo;
++    return 0;
 -    h.index = guest_base ? TCG_REG_GUEST_BASE : -1;
 -    h.index_scratch = false;
 -    tcg_out_qemu_ld_direct(s, opc, datalo, datahi, h);
 -#endif
  }
- static void tcg_out_qemu_st_direct(TCGContext *s, MemOp opc, TCGReg datalo,
+ static void fold_setcond_tst_pow2(OptContext *ctx, TCGOp *op, bool neg)
-@@ -XXX,XX +XXX,XX @@ static void tcg_out_qemu_st(TCGContext *s, TCGReg datalo, TCGReg datahi,
+@@ -XXX,XX +XXX,XX @@ static bool fold_setcond(OptContext *ctx, TCGOp *op)
-                             MemOpIdx oi, TCGType data_type)
+         return tcg_opt_gen_movi(ctx, op, op->args[0], i);
- {
+     }
-     MemOp opc = get_memop(oi);
-+    TCGLabelQemuLdst *ldst;
+-    if (fold_setcond_zmask(ctx, op, false)) {
-     HostAddress h;
++    i = fold_setcond_zmask(ctx, op, false);
++    if (i > 0) {
--#ifdef CONFIG_SOFTMMU
+         return true;
--    h.cond = COND_EQ;
+     }
--    h.base = addrlo;
+-    fold_setcond_tst_pow2(ctx, op, false);
--    h.index_scratch = true;
++    if (i == 0) {
--    h.index = tcg_out_tlb_read(s, addrlo, addrhi, opc, get_mmuidx(oi), 0);
++        fold_setcond_tst_pow2(ctx, op, false);
 -    tcg_out_qemu_st_direct(s, opc, datalo, datahi, h);
 +    ldst = prepare_host_addr(s, &h, addrlo, addrhi, oi, false);
 +    if (ldst) {
 +        ldst->type = data_type;
 +        ldst->datalo_reg = datalo;
 +        ldst->datahi_reg = datahi;
 -    /* The conditional call must come last, as we're going to return here.  */
 -    tcg_insn_unit *label_ptr = s->code_ptr;
 -    tcg_out_bl_imm(s, COND_NE, 0);
 -
 -    add_qemu_ldst_label(s, false, oi, data_type, datalo, datahi,
 -                        addrlo, addrhi, s->code_ptr, label_ptr);
 -#else
 -    unsigned a_bits = get_alignment_bits(opc);
 -
 -    h.cond = COND_AL;
 -    if (a_bits) {
 -        tcg_out_test_alignment(s, false, addrlo, addrhi, a_bits);
          h.cond = COND_EQ;
 -    }
 +        tcg_out_qemu_st_direct(s, opc, datalo, datahi, h);
 -    h.base = addrlo;
 -    h.index = guest_base ? TCG_REG_GUEST_BASE : -1;
 -    h.index_scratch = false;
 -    tcg_out_qemu_st_direct(s, opc, datalo, datahi, h);
 -#endif
 +        /* The conditional call is last, as we're going to return here. */
 +        ldst->label_ptr[0] = s->code_ptr;
 +        tcg_out_bl_imm(s, COND_NE, 0);
 +        ldst->raddr = tcg_splitwx_to_rx(s->code_ptr);
 +    } else {
 +        tcg_out_qemu_st_direct(s, opc, datalo, datahi, h);
 +    }
- }
+     ctx->z_mask = 1;
- static void tcg_out_epilogue(TCGContext *s);
+     return false;
@@ -XXX,XX +XXX,XX @@ static bool fold_negsetcond(OptContext *ctx, TCGOp *op)
          return tcg_opt_gen_movi(ctx, op, op->args[0], -i);
      }
 -    if (fold_setcond_zmask(ctx, op, true)) {
 +    i = fold_setcond_zmask(ctx, op, true);
 +    if (i > 0) {
          return true;
      }
 -    fold_setcond_tst_pow2(ctx, op, true);
 +    if (i == 0) {
 +        fold_setcond_tst_pow2(ctx, op, true);
 +    }
      /* Value is {0,-1} so all bits are repetitions of the sign. */
      ctx->s_mask = -1;
 --
-.34.1
+.43.0

-New patch
+[PULL 37/72] tcg/optimize: Use fold_masks_z in fold_setcond
+Avoid the use of the OptContext slots.
+Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
+Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
+---
+ tcg/optimize.c | 3 +--
+file changed, 1 insertion(+), 2 deletions(-)
+diff --git a/tcg/optimize.c b/tcg/optimize.c
+index XXXXXXX..XXXXXXX 100644
+--- a/tcg/optimize.c
++++ b/tcg/optimize.c
+@@ -XXX,XX +XXX,XX @@ static bool fold_setcond(OptContext *ctx, TCGOp *op)
+         fold_setcond_tst_pow2(ctx, op, false);
+     }
+-    ctx->z_mask = 1;
+-    return false;
++    return fold_masks_z(ctx, op, 1);
+ }
+ static bool fold_negsetcond(OptContext *ctx, TCGOp *op)
+--
+.43.0

-New patch
+[PULL 38/72] tcg/optimize: Use fold_masks_s in fold_negsetcond
+Avoid the use of the OptContext slots.
+Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
+Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
+---
+ tcg/optimize.c | 3 +--
+file changed, 1 insertion(+), 2 deletions(-)
+diff --git a/tcg/optimize.c b/tcg/optimize.c
+index XXXXXXX..XXXXXXX 100644
+--- a/tcg/optimize.c
++++ b/tcg/optimize.c
+@@ -XXX,XX +XXX,XX @@ static bool fold_negsetcond(OptContext *ctx, TCGOp *op)
+     }
+     /* Value is {0,-1} so all bits are repetitions of the sign. */
+-    ctx->s_mask = -1;
+-    return false;
++    return fold_masks_s(ctx, op, -1);
+ }
+ static bool fold_setcond2(OptContext *ctx, TCGOp *op)
+--
+.43.0

-New patch
+[PULL 39/72] tcg/optimize: Use fold_masks_z in fold_setcond2
+Avoid the use of the OptContext slots.
+Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
+Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
+---
+ tcg/optimize.c | 3 +--
+file changed, 1 insertion(+), 2 deletions(-)
+diff --git a/tcg/optimize.c b/tcg/optimize.c
+index XXXXXXX..XXXXXXX 100644
+--- a/tcg/optimize.c
++++ b/tcg/optimize.c
+@@ -XXX,XX +XXX,XX @@ static bool fold_setcond2(OptContext *ctx, TCGOp *op)
+         return fold_setcond(ctx, op);
+     }
+-    ctx->z_mask = 1;
+-    return false;
++    return fold_masks_z(ctx, op, 1);
+  do_setcond_const:
+     return tcg_opt_gen_movi(ctx, op, op->args[0], i);
+--
+.43.0

-New patch
+[PULL 40/72] tcg/optimize: Use finish_folding in fold_cmp_vec
+Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
+Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
+---
+ tcg/optimize.c | 2 +-
+file changed, 1 insertion(+), 1 deletion(-)
+diff --git a/tcg/optimize.c b/tcg/optimize.c
+index XXXXXXX..XXXXXXX 100644
+--- a/tcg/optimize.c
++++ b/tcg/optimize.c
+@@ -XXX,XX +XXX,XX @@ static bool fold_cmp_vec(OptContext *ctx, TCGOp *op)
+     if (swap_commutative(NO_DEST, &op->args[1], &op->args[2])) {
+         op->args[3] = tcg_swap_cond(op->args[3]);
+     }
+-    return false;
++    return finish_folding(ctx, op);
+ }
+ static bool fold_cmpsel_vec(OptContext *ctx, TCGOp *op)
+--
+.43.0

-New patch
+[PULL 41/72] tcg/optimize: Use finish_folding in fold_cmpsel_vec
+Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
+Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
+---
+ tcg/optimize.c | 2 +-
+file changed, 1 insertion(+), 1 deletion(-)
+diff --git a/tcg/optimize.c b/tcg/optimize.c
+index XXXXXXX..XXXXXXX 100644
+--- a/tcg/optimize.c
++++ b/tcg/optimize.c
+@@ -XXX,XX +XXX,XX @@ static bool fold_cmpsel_vec(OptContext *ctx, TCGOp *op)
+     if (swap_commutative(op->args[0], &op->args[4], &op->args[3])) {
+         op->args[5] = tcg_invert_cond(op->args[5]);
+     }
+-    return false;
++    return finish_folding(ctx, op);
+ }
+ static bool fold_sextract(OptContext *ctx, TCGOp *op)
+--
+.43.0

-[PULL 53/53] target/loongarch: Do not include tcg-ldst.h
+[PULL 42/72] tcg/optimize: Use fold_masks_zs in fold_sextract
-This header is supposed to be private to tcg and in fact
+Avoid the use of the OptContext slots.  Find TempOptInfo once.
 does not need to be included here at all.
-Reviewed-by: Song Gao <gaosong@loongson.cn>
+Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
 Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- target/loongarch/csr_helper.c   | 1 -
+ tcg/optimize.c | 24 +++++++++---------------
- target/loongarch/iocsr_helper.c | 1 -
+file changed, 9 insertions(+), 15 deletions(-)
 files changed, 2 deletions(-)
-diff --git a/target/loongarch/csr_helper.c b/target/loongarch/csr_helper.c
+diff --git a/tcg/optimize.c b/tcg/optimize.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/loongarch/csr_helper.c
+--- a/tcg/optimize.c
-+++ b/target/loongarch/csr_helper.c
++++ b/tcg/optimize.c
-@@ -XXX,XX +XXX,XX @@
+@@ -XXX,XX +XXX,XX @@ static bool fold_cmpsel_vec(OptContext *ctx, TCGOp *op)
- #include "exec/cpu_ldst.h"
+ static bool fold_sextract(OptContext *ctx, TCGOp *op)
  #include "hw/irq.h"
  #include "cpu-csr.h"
 -#include "tcg/tcg-ldst.h"
  target_ulong helper_csrrd_pgd(CPULoongArchState *env)
  {
-diff --git a/target/loongarch/iocsr_helper.c b/target/loongarch/iocsr_helper.c
+     uint64_t z_mask, s_mask, s_mask_old;
-index XXXXXXX..XXXXXXX 100644
++    TempOptInfo *t1 = arg_info(op->args[1]);
---- a/target/loongarch/iocsr_helper.c
+     int pos = op->args[2];
-+++ b/target/loongarch/iocsr_helper.c
+     int len = op->args[3];
-@@ -XXX,XX +XXX,XX @@
- #include "exec/helper-proto.h"
+-    if (arg_is_const(op->args[1])) {
- #include "exec/exec-all.h"
+-        uint64_t t;
- #include "exec/cpu_ldst.h"
+-
--#include "tcg/tcg-ldst.h"
+-        t = arg_info(op->args[1])->val;
+-        t = sextract64(t, pos, len);
- #define GET_MEMTXATTRS(cas) \
+-        return tcg_opt_gen_movi(ctx, op, op->args[0], t);
-         ((MemTxAttrs){.requester_id = env_cpu(cas)->cpu_index})
++    if (ti_is_const(t1)) {
 +        return tcg_opt_gen_movi(ctx, op, op->args[0],
 +                                sextract64(ti_const_val(t1), pos, len));
      }
 -    z_mask = arg_info(op->args[1])->z_mask;
 -    z_mask = sextract64(z_mask, pos, len);
 -    ctx->z_mask = z_mask;
 -
 -    s_mask_old = arg_info(op->args[1])->s_mask;
 -    s_mask = sextract64(s_mask_old, pos, len);
 -    s_mask |= MAKE_64BIT_MASK(len, 64 - len);
 -    ctx->s_mask = s_mask;
 +    s_mask_old = t1->s_mask;
 +    s_mask = s_mask_old >> pos;
 +    s_mask |= -1ull << (len - 1);
      if (0 && pos == 0 && fold_affected_mask(ctx, op, s_mask & ~s_mask_old)) {
          return true;
      }
 -    return fold_masks(ctx, op);
 +    z_mask = sextract64(t1->z_mask, pos, len);
 +    return fold_masks_zs(ctx, op, z_mask, s_mask);
  }
  static bool fold_shift(OptContext *ctx, TCGOp *op)
 --
-.34.1
+.43.0

-[PULL 12/53] tcg/i386: Use indexed addressing for softmmu fast path
+[PULL 43/72] tcg/optimize: Use fold_masks_zs, fold_masks_s in fold_shift
-Since tcg_out_{ld,st}_helper_args, the slow path no longer requires
+Avoid the use of the OptContext slots.  Find TempOptInfo once.
 the address argument to be set up by the tlb load sequence.  Use a
 plain load for the addend and indexed addressing with the original
 input address register.
-Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
+Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- tcg/i386/tcg-target.c.inc | 25 ++++++++++---------------
+ tcg/optimize.c | 27 ++++++++++++++-------------
-file changed, 10 insertions(+), 15 deletions(-)
+file changed, 14 insertions(+), 13 deletions(-)
-diff --git a/tcg/i386/tcg-target.c.inc b/tcg/i386/tcg-target.c.inc
+diff --git a/tcg/optimize.c b/tcg/optimize.c
 index XXXXXXX..XXXXXXX 100644
---- a/tcg/i386/tcg-target.c.inc
+--- a/tcg/optimize.c
-+++ b/tcg/i386/tcg-target.c.inc
++++ b/tcg/optimize.c
-@@ -XXX,XX +XXX,XX @@ static bool tcg_out_qemu_ld_slow_path(TCGContext *s, TCGLabelQemuLdst *l)
+@@ -XXX,XX +XXX,XX @@ static bool fold_sextract(OptContext *ctx, TCGOp *op)
-         tcg_out_sti(s, TCG_TYPE_PTR, (uintptr_t)l->raddr, TCG_REG_ESP, ofs);
+ static bool fold_shift(OptContext *ctx, TCGOp *op)
-     } else {
+ {
-         tcg_out_mov(s, TCG_TYPE_PTR, tcg_target_call_iarg_regs[0], TCG_AREG0);
+     uint64_t s_mask, z_mask, sign;
--        /* The second argument is already loaded with addrlo.  */
++    TempOptInfo *t1, *t2;
-+        tcg_out_mov(s, TCG_TYPE_TL, tcg_target_call_iarg_regs[1],
-+                    l->addrlo_reg);
+     if (fold_const2(ctx, op) ||
-         tcg_out_movi(s, TCG_TYPE_I32, tcg_target_call_iarg_regs[2], oi);
+         fold_ix_to_i(ctx, op, 0) ||
-         tcg_out_movi(s, TCG_TYPE_PTR, tcg_target_call_iarg_regs[3],
+@@ -XXX,XX +XXX,XX @@ static bool fold_shift(OptContext *ctx, TCGOp *op)
-                      (uintptr_t)l->raddr);
+         return true;
-@@ -XXX,XX +XXX,XX @@ static bool tcg_out_qemu_st_slow_path(TCGContext *s, TCGLabelQemuLdst *l)
+     }
-         tcg_out_st(s, TCG_TYPE_PTR, retaddr, TCG_REG_ESP, ofs);
-     } else {
+-    s_mask = arg_info(op->args[1])->s_mask;
-         tcg_out_mov(s, TCG_TYPE_PTR, tcg_target_call_iarg_regs[0], TCG_AREG0);
+-    z_mask = arg_info(op->args[1])->z_mask;
--        /* The second argument is already loaded with addrlo.  */
++    t1 = arg_info(op->args[1]);
-+        tcg_out_mov(s, TCG_TYPE_TL, tcg_target_call_iarg_regs[1],
++    t2 = arg_info(op->args[2]);
-+                    l->addrlo_reg);
++    s_mask = t1->s_mask;
-         tcg_out_mov(s, (s_bits == MO_64 ? TCG_TYPE_I64 : TCG_TYPE_I32),
++    z_mask = t1->z_mask;
-                     tcg_target_call_iarg_regs[2], l->datalo_reg);
-         tcg_out_movi(s, TCG_TYPE_I32, tcg_target_call_iarg_regs[3], oi);
+-    if (arg_is_const(op->args[2])) {
-@@ -XXX,XX +XXX,XX @@ static TCGLabelQemuLdst *prepare_host_addr(TCGContext *s, HostAddress *h,
+-        int sh = arg_info(op->args[2])->val;
      tcg_out_modrm_offset(s, OPC_CMP_GvEv + trexw,
                           TCG_REG_L1, TCG_REG_L0, cmp_ofs);
 -    /*
 -     * Prepare for both the fast path add of the tlb addend, and the slow
 -     * path function argument setup.
 -     */
 -    *h = (HostAddress) {
 -        .base = TCG_REG_L1,
 -        .index = -1
 -    };
 -    tcg_out_mov(s, ttype, h->base, addrlo);
 -
-     /* jne slow_path */
+-        ctx->z_mask = do_constant_folding(op->opc, ctx->type, z_mask, sh);
-     tcg_out_opc(s, OPC_JCC_long + JCC_JNE, 0, 0, 0);
++    if (ti_is_const(t2)) {
-     ldst->label_ptr[0] = s->code_ptr;
++        int sh = ti_const_val(t2);
-@@ -XXX,XX +XXX,XX @@ static TCGLabelQemuLdst *prepare_host_addr(TCGContext *s, HostAddress *h,
 +        z_mask = do_constant_folding(op->opc, ctx->type, z_mask, sh);
          s_mask = do_constant_folding(op->opc, ctx->type, s_mask, sh);
 -        return fold_masks(ctx, op);
 +        return fold_masks_zs(ctx, op, z_mask, s_mask);
      }
-     /* TLB Hit.  */
+     switch (op->opc) {
-+    tcg_out_ld(s, TCG_TYPE_PTR, TCG_REG_L0, TCG_REG_L0,
+@@ -XXX,XX +XXX,XX @@ static bool fold_shift(OptContext *ctx, TCGOp *op)
-+               offsetof(CPUTLBEntry, addend));
+          * Arithmetic right shift will not reduce the number of
+          * input sign repetitions.
--    /* add addend(TCG_REG_L0), TCG_REG_L1 */
+          */
--    tcg_out_modrm_offset(s, OPC_ADD_GvEv + hrexw, h->base, TCG_REG_L0,
+-        ctx->s_mask = s_mask;
--                         offsetof(CPUTLBEntry, addend));
+-        break;
-+    *h = (HostAddress) {
++        return fold_masks_s(ctx, op, s_mask);
-+        .base = addrlo,
+     CASE_OP_32_64(shr):
-+        .index = TCG_REG_L0,
+         /*
-+    };
+          * If the sign bit is known zero, then logical right shift
- #else
+-         * will not reduced the number of input sign repetitions.
-     if (a_bits) {
++         * will not reduce the number of input sign repetitions.
-         ldst = new_ldst_label(s);
+          */
 -        sign = (s_mask & -s_mask) >> 1;
 +        sign = -s_mask;
          if (sign && !(z_mask & sign)) {
 -            ctx->s_mask = s_mask;
 +            return fold_masks_s(ctx, op, s_mask);
          }
          break;
      default:
          break;
      }
 -    return false;
 +    return finish_folding(ctx, op);
  }
  static bool fold_sub_to_neg(OptContext *ctx, TCGOp *op)
 --
-.34.1
+.43.0

-[PULL 01/53] target/m68k: Fix gen_load_fp for OS_LONG
+[PULL 44/72] tcg/optimize: Simplify sign bit test in fold_shift
-Case was accidentally dropped in b7a94da9550b.
+Merge the two conditions, sign != 0 && !(z_mask & sign),
 by testing ~z_mask & sign.   If sign == 0, the logical and
 will produce false.
-Tested-by: Laurent Vivier <laurent@vivier.eu>
+Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
 Reviewed-by: Laurent Vivier <laurent@vivier.eu>
 Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- target/m68k/translate.c | 1 +
+ tcg/optimize.c | 5 ++---
-file changed, 1 insertion(+)
+file changed, 2 insertions(+), 3 deletions(-)
-diff --git a/target/m68k/translate.c b/target/m68k/translate.c
+diff --git a/tcg/optimize.c b/tcg/optimize.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/m68k/translate.c
+--- a/tcg/optimize.c
-+++ b/target/m68k/translate.c
++++ b/tcg/optimize.c
-@@ -XXX,XX +XXX,XX @@ static void gen_load_fp(DisasContext *s, int opsize, TCGv addr, TCGv_ptr fp,
+@@ -XXX,XX +XXX,XX @@ static bool fold_sextract(OptContext *ctx, TCGOp *op)
-     switch (opsize) {
-     case OS_BYTE:
+ static bool fold_shift(OptContext *ctx, TCGOp *op)
-     case OS_WORD:
+ {
-+    case OS_LONG:
+-    uint64_t s_mask, z_mask, sign;
-         tcg_gen_qemu_ld_tl(tmp, addr, index, opsize | MO_SIGN | MO_TE);
++    uint64_t s_mask, z_mask;
-         gen_helper_exts32(cpu_env, fp, tmp);
+     TempOptInfo *t1, *t2;
      if (fold_const2(ctx, op) ||
@@ -XXX,XX +XXX,XX @@ static bool fold_shift(OptContext *ctx, TCGOp *op)
           * If the sign bit is known zero, then logical right shift
           * will not reduce the number of input sign repetitions.
           */
 -        sign = -s_mask;
 -        if (sign && !(z_mask & sign)) {
 +        if (~z_mask & -s_mask) {
              return fold_masks_s(ctx, op, s_mask);
          }
          break;
 --
-.34.1
+.43.0

-[PULL 29/53] tcg/s390x: Convert tcg_out_qemu_{ld,st}_slow_path
+[PULL 45/72] tcg/optimize: Use finish_folding in fold_sub, fold_sub_vec
-Use tcg_out_ld_helper_args, tcg_out_ld_helper_ret,
+Duplicate fold_sub_vec into fold_sub instead of calling it,
-and tcg_out_st_helper_args.
+now that fold_sub_vec always returns true.
-Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
+Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- tcg/s390x/tcg-target.c.inc | 35 ++++++++++-------------------------
+ tcg/optimize.c | 9 ++++++---
-file changed, 10 insertions(+), 25 deletions(-)
+file changed, 6 insertions(+), 3 deletions(-)
-diff --git a/tcg/s390x/tcg-target.c.inc b/tcg/s390x/tcg-target.c.inc
+diff --git a/tcg/optimize.c b/tcg/optimize.c
 index XXXXXXX..XXXXXXX 100644
---- a/tcg/s390x/tcg-target.c.inc
+--- a/tcg/optimize.c
-+++ b/tcg/s390x/tcg-target.c.inc
++++ b/tcg/optimize.c
-@@ -XXX,XX +XXX,XX @@ static void tcg_out_qemu_st_direct(TCGContext *s, MemOp opc, TCGReg data,
+@@ -XXX,XX +XXX,XX @@ static bool fold_sub_vec(OptContext *ctx, TCGOp *op)
          fold_sub_to_neg(ctx, op)) {
          return true;
      }
 -    return false;
 +    return finish_folding(ctx, op);
  }
- #if defined(CONFIG_SOFTMMU)
+ static bool fold_sub(OptContext *ctx, TCGOp *op)
 +static const TCGLdstHelperParam ldst_helper_param = {
 +    .ntmp = 1, .tmp = { TCG_TMP0 }
 +};
 +
  static bool tcg_out_qemu_ld_slow_path(TCGContext *s, TCGLabelQemuLdst *lb)
  {
--    TCGReg addr_reg = lb->addrlo_reg;
+-    if (fold_const2(ctx, op) || fold_sub_vec(ctx, op)) {
--    TCGReg data_reg = lb->datalo_reg;
++    if (fold_const2(ctx, op) ||
--    MemOpIdx oi = lb->oi;
++        fold_xx_to_i(ctx, op, 0) ||
--    MemOp opc = get_memop(oi);
++        fold_xi_to_x(ctx, op, 0) ||
-+    MemOp opc = get_memop(lb->oi);
++        fold_sub_to_neg(ctx, op)) {
+         return true;
      if (!patch_reloc(lb->label_ptr[0], R_390_PC16DBL,
                       (intptr_t)tcg_splitwx_to_rx(s->code_ptr), 2)) {
          return false;
      }
--    tcg_out_mov(s, TCG_TYPE_PTR, TCG_REG_R2, TCG_AREG0);
+@@ -XXX,XX +XXX,XX @@ static bool fold_sub(OptContext *ctx, TCGOp *op)
--    if (TARGET_LONG_BITS == 64) {
+                    ? INDEX_op_add_i32 : INDEX_op_add_i64);
--        tcg_out_mov(s, TCG_TYPE_I64, TCG_REG_R3, addr_reg);
+         op->args[2] = arg_new_constant(ctx, -val);
 -    }
 -    tcg_out_movi(s, TCG_TYPE_I32, TCG_REG_R4, oi);
 -    tcg_out_movi(s, TCG_TYPE_PTR, TCG_REG_R5, (uintptr_t)lb->raddr);
 -    tcg_out_call_int(s, qemu_ld_helpers[opc & (MO_BSWAP | MO_SSIZE)]);
 -    tcg_out_mov(s, TCG_TYPE_I64, data_reg, TCG_REG_R2);
 +    tcg_out_ld_helper_args(s, lb, &ldst_helper_param);
 +    tcg_out_call_int(s, qemu_ld_helpers[opc & (MO_BSWAP | MO_SIZE)]);
 +    tcg_out_ld_helper_ret(s, lb, false, &ldst_helper_param);
      tgen_gotoi(s, S390_CC_ALWAYS, lb->raddr);
      return true;
@@ -XXX,XX +XXX,XX @@ static bool tcg_out_qemu_ld_slow_path(TCGContext *s, TCGLabelQemuLdst *lb)
  static bool tcg_out_qemu_st_slow_path(TCGContext *s, TCGLabelQemuLdst *lb)
  {
 -    TCGReg addr_reg = lb->addrlo_reg;
 -    TCGReg data_reg = lb->datalo_reg;
 -    MemOpIdx oi = lb->oi;
 -    MemOp opc = get_memop(oi);
 -    MemOp size = opc & MO_SIZE;
 +    MemOp opc = get_memop(lb->oi);
      if (!patch_reloc(lb->label_ptr[0], R_390_PC16DBL,
                       (intptr_t)tcg_splitwx_to_rx(s->code_ptr), 2)) {
          return false;
      }
+-    return false;
--    tcg_out_mov(s, TCG_TYPE_PTR, TCG_REG_R2, TCG_AREG0);
++    return finish_folding(ctx, op);
--    if (TARGET_LONG_BITS == 64) {
+ }
--        tcg_out_mov(s, TCG_TYPE_I64, TCG_REG_R3, addr_reg);
--    }
+ static bool fold_sub2(OptContext *ctx, TCGOp *op)
 -    tcg_out_movext(s, size == MO_64 ? TCG_TYPE_I64 : TCG_TYPE_I32,
 -                   TCG_REG_R4, lb->type, size, data_reg);
 -    tcg_out_movi(s, TCG_TYPE_I32, TCG_REG_R5, oi);
 -    tcg_out_movi(s, TCG_TYPE_PTR, TCG_REG_R6, (uintptr_t)lb->raddr);
 +    tcg_out_st_helper_args(s, lb, &ldst_helper_param);
      tcg_out_call_int(s, qemu_st_helpers[opc & (MO_BSWAP | MO_SIZE)]);
      tgen_gotoi(s, S390_CC_ALWAYS, lb->raddr);
 --
-.34.1
+.43.0

-[PULL 33/53] tcg/mips: Simplify constraints on qemu_ld/st
+[PULL 46/72] tcg/optimize: Use fold_masks_zs in fold_tcg_ld
-The softmmu tlb uses TCG_REG_TMP[0-3], not any of the normally available
+Avoid the use of the OptContext slots.
 registers.  Now that we handle overlap betwen inputs and helper arguments,
 and have eliminated use of A0, we can allow any allocatable reg.
-Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
+Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- tcg/mips/tcg-target-con-set.h | 13 +++++--------
+ tcg/optimize.c | 16 +++++++++-------
- tcg/mips/tcg-target-con-str.h |  2 --
+file changed, 9 insertions(+), 7 deletions(-)
  tcg/mips/tcg-target.c.inc     | 30 ++++++++----------------------
 files changed, 13 insertions(+), 32 deletions(-)
-diff --git a/tcg/mips/tcg-target-con-set.h b/tcg/mips/tcg-target-con-set.h
+diff --git a/tcg/optimize.c b/tcg/optimize.c
 index XXXXXXX..XXXXXXX 100644
---- a/tcg/mips/tcg-target-con-set.h
+--- a/tcg/optimize.c
-+++ b/tcg/mips/tcg-target-con-set.h
++++ b/tcg/optimize.c
-@@ -XXX,XX +XXX,XX @@
+@@ -XXX,XX +XXX,XX @@ static bool fold_sub2(OptContext *ctx, TCGOp *op)
- C_O0_I1(r)
- C_O0_I2(rZ, r)
+ static bool fold_tcg_ld(OptContext *ctx, TCGOp *op)
  C_O0_I2(rZ, rZ)
 -C_O0_I2(SZ, S)
 -C_O0_I3(SZ, S, S)
 -C_O0_I3(SZ, SZ, S)
 +C_O0_I3(rZ, r, r)
 +C_O0_I3(rZ, rZ, r)
  C_O0_I4(rZ, rZ, rZ, rZ)
 -C_O0_I4(SZ, SZ, S, S)
 -C_O1_I1(r, L)
 +C_O0_I4(rZ, rZ, r, r)
  C_O1_I1(r, r)
  C_O1_I2(r, 0, rZ)
 -C_O1_I2(r, L, L)
 +C_O1_I2(r, r, r)
  C_O1_I2(r, r, ri)
  C_O1_I2(r, r, rI)
  C_O1_I2(r, r, rIK)
@@ -XXX,XX +XXX,XX @@ C_O1_I2(r, rZ, rN)
  C_O1_I2(r, rZ, rZ)
  C_O1_I4(r, rZ, rZ, rZ, 0)
  C_O1_I4(r, rZ, rZ, rZ, rZ)
 -C_O2_I1(r, r, L)
 -C_O2_I2(r, r, L, L)
 +C_O2_I1(r, r, r)
  C_O2_I2(r, r, r, r)
  C_O2_I4(r, r, rZ, rZ, rN, rN)
 diff --git a/tcg/mips/tcg-target-con-str.h b/tcg/mips/tcg-target-con-str.h
 index XXXXXXX..XXXXXXX 100644
 --- a/tcg/mips/tcg-target-con-str.h
 +++ b/tcg/mips/tcg-target-con-str.h
@@ -XXX,XX +XXX,XX @@
   * REGS(letter, register_mask)
   */
  REGS('r', ALL_GENERAL_REGS)
 -REGS('L', ALL_QLOAD_REGS)
 -REGS('S', ALL_QSTORE_REGS)
  /*
   * Define constraint letters for constants:
 diff --git a/tcg/mips/tcg-target.c.inc b/tcg/mips/tcg-target.c.inc
 index XXXXXXX..XXXXXXX 100644
 --- a/tcg/mips/tcg-target.c.inc
 +++ b/tcg/mips/tcg-target.c.inc
@@ -XXX,XX +XXX,XX @@ static bool patch_reloc(tcg_insn_unit *code_ptr, int type,
  #define TCG_CT_CONST_WSZ  0x2000   /* word size */
  #define ALL_GENERAL_REGS  0xffffffffu
 -#define NOA0_REGS         (ALL_GENERAL_REGS & ~(1 << TCG_REG_A0))
 -
 -#ifdef CONFIG_SOFTMMU
 -#define ALL_QLOAD_REGS \
 -    (NOA0_REGS & ~((TCG_TARGET_REG_BITS < TARGET_LONG_BITS) << TCG_REG_A2))
 -#define ALL_QSTORE_REGS \
 -    (NOA0_REGS & ~(TCG_TARGET_REG_BITS < TARGET_LONG_BITS   \
 -                   ? (1 << TCG_REG_A2) | (1 << TCG_REG_A3)  \
 -                   : (1 << TCG_REG_A1)))
 -#else
 -#define ALL_QLOAD_REGS   NOA0_REGS
 -#define ALL_QSTORE_REGS  NOA0_REGS
 -#endif
 -
  static bool is_p2m1(tcg_target_long val)
  {
-@@ -XXX,XX +XXX,XX @@ static TCGConstraintSetIndex tcg_target_op_def(TCGOpcode op)
++    uint64_t z_mask = -1, s_mask = 0;
++
-     case INDEX_op_qemu_ld_i32:
+     /* We can't do any folding with a load, but we can record bits. */
-         return (TCG_TARGET_REG_BITS == 64 || TARGET_LONG_BITS == 32
+     switch (op->opc) {
--                ? C_O1_I1(r, L) : C_O1_I2(r, L, L));
+     CASE_OP_32_64(ld8s):
-+                ? C_O1_I1(r, r) : C_O1_I2(r, r, r));
+-        ctx->s_mask = MAKE_64BIT_MASK(8, 56);
-     case INDEX_op_qemu_st_i32:
++        s_mask = INT8_MIN;
-         return (TCG_TARGET_REG_BITS == 64 || TARGET_LONG_BITS == 32
+         break;
--                ? C_O0_I2(SZ, S) : C_O0_I3(SZ, S, S));
+     CASE_OP_32_64(ld8u):
-+                ? C_O0_I2(rZ, r) : C_O0_I3(rZ, r, r));
+-        ctx->z_mask = MAKE_64BIT_MASK(0, 8);
-     case INDEX_op_qemu_ld_i64:
++        z_mask = MAKE_64BIT_MASK(0, 8);
--        return (TCG_TARGET_REG_BITS == 64 ? C_O1_I1(r, L)
+         break;
--                : TARGET_LONG_BITS == 32 ? C_O2_I1(r, r, L)
+     CASE_OP_32_64(ld16s):
--                : C_O2_I2(r, r, L, L));
+-        ctx->s_mask = MAKE_64BIT_MASK(16, 48);
-+        return (TCG_TARGET_REG_BITS == 64 ? C_O1_I1(r, r)
++        s_mask = INT16_MIN;
-+                : TARGET_LONG_BITS == 32 ? C_O2_I1(r, r, r)
+         break;
-+                : C_O2_I2(r, r, r, r));
+     CASE_OP_32_64(ld16u):
-     case INDEX_op_qemu_st_i64:
+-        ctx->z_mask = MAKE_64BIT_MASK(0, 16);
--        return (TCG_TARGET_REG_BITS == 64 ? C_O0_I2(SZ, S)
++        z_mask = MAKE_64BIT_MASK(0, 16);
--                : TARGET_LONG_BITS == 32 ? C_O0_I3(SZ, SZ, S)
+         break;
--                : C_O0_I4(SZ, SZ, S, S));
+     case INDEX_op_ld32s_i64:
-+        return (TCG_TARGET_REG_BITS == 64 ? C_O0_I2(rZ, r)
+-        ctx->s_mask = MAKE_64BIT_MASK(32, 32);
-+                : TARGET_LONG_BITS == 32 ? C_O0_I3(rZ, rZ, r)
++        s_mask = INT32_MIN;
-+                : C_O0_I4(rZ, rZ, r, r));
+         break;
+     case INDEX_op_ld32u_i64:
 -        ctx->z_mask = MAKE_64BIT_MASK(0, 32);
 +        z_mask = MAKE_64BIT_MASK(0, 32);
          break;
      default:
          g_assert_not_reached();
+     }
+-    return false;
++    return fold_masks_zs(ctx, op, z_mask, s_mask);
+ }
+ static bool fold_tcg_ld_memcopy(OptContext *ctx, TCGOp *op)
 --
-.34.1
+.43.0

-[PULL 03/53] disas: Fix tabs and braces in disas.c
+[PULL 47/72] tcg/optimize: Use finish_folding in fold_tcg_ld_memcopy
-Fix these before moving the file, for checkpatch.pl.
+Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
  tcg/optimize.c | 2 +-
 file changed, 1 insertion(+), 1 deletion(-)
-Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
+diff --git a/tcg/optimize.c b/tcg/optimize.c
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 Message-Id: <20230510170812.663149-1-richard.henderson@linaro.org>
 ---
  disas.c | 11 ++++++-----
 file changed, 6 insertions(+), 5 deletions(-)
 diff --git a/disas.c b/disas.c
 index XXXXXXX..XXXXXXX 100644
---- a/disas.c
+--- a/tcg/optimize.c
-+++ b/disas.c
++++ b/tcg/optimize.c
-@@ -XXX,XX +XXX,XX @@ void target_disas(FILE *out, CPUState *cpu, target_ulong code,
+@@ -XXX,XX +XXX,XX @@ static bool fold_tcg_ld_memcopy(OptContext *ctx, TCGOp *op)
      TCGType type;
      if (op->args[1] != tcgv_ptr_arg(tcg_env)) {
 -        return false;
 +        return finish_folding(ctx, op);
      }
-     for (pc = code; size > 0; pc += count, size -= count) {
+     type = ctx->type;
 -    fprintf(out, "0x" TARGET_FMT_lx ":  ", pc);
 -    count = s.info.print_insn(pc, &s.info);
 -    fprintf(out, "\n");
 -    if (count < 0)
 -        break;
 +        fprintf(out, "0x" TARGET_FMT_lx ":  ", pc);
 +        count = s.info.print_insn(pc, &s.info);
 +        fprintf(out, "\n");
 +        if (count < 0) {
 +            break;
 +        }
          if (size < count) {
              fprintf(out,
                      "Disassembler disagrees with translator over instruction "
 --
-.34.1
+.43.0

-[PULL 23/53] tcg/aarch64: Convert tcg_out_qemu_{ld,st}_slow_path
+[PULL 48/72] tcg/optimize: Use fold_masks_zs in fold_xor
-Use tcg_out_ld_helper_args, tcg_out_ld_helper_ret,
+Avoid the use of the OptContext slots.  Find TempOptInfo once.
-and tcg_out_st_helper_args.
+Remove fold_masks as the function becomes unused.
-Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
+Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- tcg/aarch64/tcg-target.c.inc | 40 +++++++++++++++---------------------
+ tcg/optimize.c | 18 ++++++++----------
-file changed, 16 insertions(+), 24 deletions(-)
+file changed, 8 insertions(+), 10 deletions(-)
-diff --git a/tcg/aarch64/tcg-target.c.inc b/tcg/aarch64/tcg-target.c.inc
+diff --git a/tcg/optimize.c b/tcg/optimize.c
 index XXXXXXX..XXXXXXX 100644
---- a/tcg/aarch64/tcg-target.c.inc
+--- a/tcg/optimize.c
-+++ b/tcg/aarch64/tcg-target.c.inc
++++ b/tcg/optimize.c
-@@ -XXX,XX +XXX,XX @@ static void tcg_out_cltz(TCGContext *s, TCGType ext, TCGReg d,
+@@ -XXX,XX +XXX,XX @@ static bool fold_masks_s(OptContext *ctx, TCGOp *op, uint64_t s_mask)
-     }
+     return fold_masks_zs(ctx, op, -1, s_mask);
  }
--static void tcg_out_adr(TCGContext *s, TCGReg rd, const void *target)
+-static bool fold_masks(OptContext *ctx, TCGOp *op)
 -{
--    ptrdiff_t offset = tcg_pcrel_diff(s, target);
+-    return fold_masks_zs(ctx, op, ctx->z_mask, ctx->s_mask);
 -    tcg_debug_assert(offset == sextract64(offset, 0, 21));
 -    tcg_out_insn(s, 3406, ADR, rd, offset);
 -}
 -
- typedef struct {
+ /*
-     TCGReg base;
+  * An "affected" mask bit is 0 if and only if the result is identical
-     TCGReg index;
+  * to the first input.  Thus if the entire mask is 0, the operation
-@@ -XXX,XX +XXX,XX @@ static void * const qemu_st_helpers[MO_SIZE + 1] = {
+@@ -XXX,XX +XXX,XX @@ static bool fold_tcg_st_memcopy(OptContext *ctx, TCGOp *op)
- #endif
- };
+ static bool fold_xor(OptContext *ctx, TCGOp *op)
+ {
-+static const TCGLdstHelperParam ldst_helper_param = {
++    uint64_t z_mask, s_mask;
-+    .ntmp = 1, .tmp = { TCG_REG_TMP }
++    TempOptInfo *t1, *t2;
 +};
 +
- static bool tcg_out_qemu_ld_slow_path(TCGContext *s, TCGLabelQemuLdst *lb)
+     if (fold_const2_commutative(ctx, op) ||
- {
+         fold_xx_to_i(ctx, op, 0) ||
--    MemOpIdx oi = lb->oi;
+         fold_xi_to_x(ctx, op, 0) ||
--    MemOp opc = get_memop(oi);
+@@ -XXX,XX +XXX,XX @@ static bool fold_xor(OptContext *ctx, TCGOp *op)
-+    MemOp opc = get_memop(lb->oi);
+         return true;
      if (!reloc_pc19(lb->label_ptr[0], tcg_splitwx_to_rx(s->code_ptr))) {
          return false;
      }
--    tcg_out_mov(s, TCG_TYPE_PTR, TCG_REG_X0, TCG_AREG0);
+-    ctx->z_mask = arg_info(op->args[1])->z_mask
--    tcg_out_mov(s, TARGET_LONG_BITS == 64, TCG_REG_X1, lb->addrlo_reg);
+-                | arg_info(op->args[2])->z_mask;
--    tcg_out_movi(s, TCG_TYPE_I32, TCG_REG_X2, oi);
+-    ctx->s_mask = arg_info(op->args[1])->s_mask
--    tcg_out_adr(s, TCG_REG_X3, lb->raddr);
+-                & arg_info(op->args[2])->s_mask;
-+    tcg_out_ld_helper_args(s, lb, &ldst_helper_param);
+-    return fold_masks(ctx, op);
-     tcg_out_call_int(s, qemu_ld_helpers[opc & MO_SIZE]);
++    t1 = arg_info(op->args[1]);
--
++    t2 = arg_info(op->args[2]);
--    tcg_out_movext(s, lb->type, lb->datalo_reg,
++    z_mask = t1->z_mask | t2->z_mask;
--                   TCG_TYPE_REG, opc & MO_SSIZE, TCG_REG_X0);
++    s_mask = t1->s_mask & t2->s_mask;
-+    tcg_out_ld_helper_ret(s, lb, false, &ldst_helper_param);
++    return fold_masks_zs(ctx, op, z_mask, s_mask);
      tcg_out_goto(s, lb->raddr);
      return true;
  }
- static bool tcg_out_qemu_st_slow_path(TCGContext *s, TCGLabelQemuLdst *lb)
+ static bool fold_bitsel_vec(OptContext *ctx, TCGOp *op)
  {
 -    MemOpIdx oi = lb->oi;
 -    MemOp opc = get_memop(oi);
 -    MemOp size = opc & MO_SIZE;
 +    MemOp opc = get_memop(lb->oi);
      if (!reloc_pc19(lb->label_ptr[0], tcg_splitwx_to_rx(s->code_ptr))) {
          return false;
      }
 -    tcg_out_mov(s, TCG_TYPE_PTR, TCG_REG_X0, TCG_AREG0);
 -    tcg_out_mov(s, TARGET_LONG_BITS == 64, TCG_REG_X1, lb->addrlo_reg);
 -    tcg_out_mov(s, size == MO_64, TCG_REG_X2, lb->datalo_reg);
 -    tcg_out_movi(s, TCG_TYPE_I32, TCG_REG_X3, oi);
 -    tcg_out_adr(s, TCG_REG_X4, lb->raddr);
 +    tcg_out_st_helper_args(s, lb, &ldst_helper_param);
      tcg_out_call_int(s, qemu_st_helpers[opc & MO_SIZE]);
      tcg_out_goto(s, lb->raddr);
      return true;
  }
  #else
 +static void tcg_out_adr(TCGContext *s, TCGReg rd, const void *target)
 +{
 +    ptrdiff_t offset = tcg_pcrel_diff(s, target);
 +    tcg_debug_assert(offset == sextract64(offset, 0, 21));
 +    tcg_out_insn(s, 3406, ADR, rd, offset);
 +}
 +
  static bool tcg_out_fail_alignment(TCGContext *s, TCGLabelQemuLdst *l)
  {
      if (!reloc_pc19(l->label_ptr[0], tcg_splitwx_to_rx(s->code_ptr))) {
 --
-.34.1
+.43.0

-[PULL 44/53] target/mips: Remove TARGET_ALIGNED_ONLY
+[PULL 49/72] tcg/optimize: Use finish_folding in fold_bitsel_vec
+Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- configs/targets/mips-linux-user.mak      | 1 -
+ tcg/optimize.c | 2 +-
- configs/targets/mips-softmmu.mak         | 1 -
+file changed, 1 insertion(+), 1 deletion(-)
  configs/targets/mips64-linux-user.mak    | 1 -
  configs/targets/mips64-softmmu.mak       | 1 -
  configs/targets/mips64el-linux-user.mak  | 1 -
  configs/targets/mips64el-softmmu.mak     | 1 -
  configs/targets/mipsel-linux-user.mak    | 1 -
  configs/targets/mipsel-softmmu.mak       | 1 -
  configs/targets/mipsn32-linux-user.mak   | 1 -
  configs/targets/mipsn32el-linux-user.mak | 1 -
 files changed, 10 deletions(-)
-diff --git a/configs/targets/mips-linux-user.mak b/configs/targets/mips-linux-user.mak
+diff --git a/tcg/optimize.c b/tcg/optimize.c
 index XXXXXXX..XXXXXXX 100644
---- a/configs/targets/mips-linux-user.mak
+--- a/tcg/optimize.c
-+++ b/configs/targets/mips-linux-user.mak
++++ b/tcg/optimize.c
-@@ -XXX,XX +XXX,XX @@ TARGET_ARCH=mips
+@@ -XXX,XX +XXX,XX @@ static bool fold_bitsel_vec(OptContext *ctx, TCGOp *op)
- TARGET_ABI_MIPSO32=y
+             return fold_orc(ctx, op);
- TARGET_SYSTBL_ABI=o32
+         }
- TARGET_SYSTBL=syscall_o32.tbl
+     }
--TARGET_ALIGNED_ONLY=y
+-    return false;
- TARGET_BIG_ENDIAN=y
++    return finish_folding(ctx, op);
-diff --git a/configs/targets/mips-softmmu.mak b/configs/targets/mips-softmmu.mak
+ }
-index XXXXXXX..XXXXXXX 100644
---- a/configs/targets/mips-softmmu.mak
+ /* Propagate constants and copies, fold constant expressions. */
 +++ b/configs/targets/mips-softmmu.mak
@@ -XXX,XX +XXX,XX @@
  TARGET_ARCH=mips
 -TARGET_ALIGNED_ONLY=y
  TARGET_BIG_ENDIAN=y
  TARGET_SUPPORTS_MTTCG=y
 diff --git a/configs/targets/mips64-linux-user.mak b/configs/targets/mips64-linux-user.mak
 index XXXXXXX..XXXXXXX 100644
 --- a/configs/targets/mips64-linux-user.mak
 +++ b/configs/targets/mips64-linux-user.mak
@@ -XXX,XX +XXX,XX @@ TARGET_ABI_MIPSN64=y
  TARGET_BASE_ARCH=mips
  TARGET_SYSTBL_ABI=n64
  TARGET_SYSTBL=syscall_n64.tbl
 -TARGET_ALIGNED_ONLY=y
  TARGET_BIG_ENDIAN=y
 diff --git a/configs/targets/mips64-softmmu.mak b/configs/targets/mips64-softmmu.mak
 index XXXXXXX..XXXXXXX 100644
 --- a/configs/targets/mips64-softmmu.mak
 +++ b/configs/targets/mips64-softmmu.mak
@@ -XXX,XX +XXX,XX @@
  TARGET_ARCH=mips64
  TARGET_BASE_ARCH=mips
 -TARGET_ALIGNED_ONLY=y
  TARGET_BIG_ENDIAN=y
 diff --git a/configs/targets/mips64el-linux-user.mak b/configs/targets/mips64el-linux-user.mak
 index XXXXXXX..XXXXXXX 100644
 --- a/configs/targets/mips64el-linux-user.mak
 +++ b/configs/targets/mips64el-linux-user.mak
@@ -XXX,XX +XXX,XX @@ TARGET_ABI_MIPSN64=y
  TARGET_BASE_ARCH=mips
  TARGET_SYSTBL_ABI=n64
  TARGET_SYSTBL=syscall_n64.tbl
 -TARGET_ALIGNED_ONLY=y
 diff --git a/configs/targets/mips64el-softmmu.mak b/configs/targets/mips64el-softmmu.mak
 index XXXXXXX..XXXXXXX 100644
 --- a/configs/targets/mips64el-softmmu.mak
 +++ b/configs/targets/mips64el-softmmu.mak
@@ -XXX,XX +XXX,XX @@
  TARGET_ARCH=mips64
  TARGET_BASE_ARCH=mips
 -TARGET_ALIGNED_ONLY=y
  TARGET_NEED_FDT=y
 diff --git a/configs/targets/mipsel-linux-user.mak b/configs/targets/mipsel-linux-user.mak
 index XXXXXXX..XXXXXXX 100644
 --- a/configs/targets/mipsel-linux-user.mak
 +++ b/configs/targets/mipsel-linux-user.mak
@@ -XXX,XX +XXX,XX @@ TARGET_ARCH=mips
  TARGET_ABI_MIPSO32=y
  TARGET_SYSTBL_ABI=o32
  TARGET_SYSTBL=syscall_o32.tbl
 -TARGET_ALIGNED_ONLY=y
 diff --git a/configs/targets/mipsel-softmmu.mak b/configs/targets/mipsel-softmmu.mak
 index XXXXXXX..XXXXXXX 100644
 --- a/configs/targets/mipsel-softmmu.mak
 +++ b/configs/targets/mipsel-softmmu.mak
@@ -XXX,XX +XXX,XX @@
  TARGET_ARCH=mips
 -TARGET_ALIGNED_ONLY=y
  TARGET_SUPPORTS_MTTCG=y
 diff --git a/configs/targets/mipsn32-linux-user.mak b/configs/targets/mipsn32-linux-user.mak
 index XXXXXXX..XXXXXXX 100644
 --- a/configs/targets/mipsn32-linux-user.mak
 +++ b/configs/targets/mipsn32-linux-user.mak
@@ -XXX,XX +XXX,XX @@ TARGET_ABI32=y
  TARGET_BASE_ARCH=mips
  TARGET_SYSTBL_ABI=n32
  TARGET_SYSTBL=syscall_n32.tbl
 -TARGET_ALIGNED_ONLY=y
  TARGET_BIG_ENDIAN=y
 diff --git a/configs/targets/mipsn32el-linux-user.mak b/configs/targets/mipsn32el-linux-user.mak
 index XXXXXXX..XXXXXXX 100644
 --- a/configs/targets/mipsn32el-linux-user.mak
 +++ b/configs/targets/mipsn32el-linux-user.mak
@@ -XXX,XX +XXX,XX @@ TARGET_ABI32=y
  TARGET_BASE_ARCH=mips
  TARGET_SYSTBL_ABI=n32
  TARGET_SYSTBL=syscall_n32.tbl
 -TARGET_ALIGNED_ONLY=y
 --
-.34.1
+.43.0

-[PULL 42/53] target/mips: Add missing default_tcg_memop_mask
+[PULL 50/72] tcg/optimize: Use finish_folding as default in tcg_optimize
-Memory operations that are not already aligned, or otherwise
+All non-default cases now finish folding within each function.
-marked up, require addition of ctx->default_tcg_memop_mask.
+Do the same with the default case and assert it is done after.
+Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- target/mips/tcg/mxu_translate.c           |  3 ++-
+ tcg/optimize.c | 6 ++----
- target/mips/tcg/micromips_translate.c.inc | 24 ++++++++++++++--------
+file changed, 2 insertions(+), 4 deletions(-)
  target/mips/tcg/mips16e_translate.c.inc   | 18 ++++++++++------
  target/mips/tcg/nanomips_translate.c.inc  | 25 +++++++++++------------
 files changed, 42 insertions(+), 28 deletions(-)
-diff --git a/target/mips/tcg/mxu_translate.c b/target/mips/tcg/mxu_translate.c
+diff --git a/tcg/optimize.c b/tcg/optimize.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/mips/tcg/mxu_translate.c
+--- a/tcg/optimize.c
-+++ b/target/mips/tcg/mxu_translate.c
++++ b/tcg/optimize.c
-@@ -XXX,XX +XXX,XX @@ static void gen_mxu_s32ldd_s32lddr(DisasContext *ctx)
+@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
-         tcg_gen_ori_tl(t1, t1, 0xFFFFF000);
+             done = true;
              break;
          default:
 +            done = finish_folding(&ctx, op);
              break;
          }
 -
 -        if (!done) {
 -            finish_folding(&ctx, op);
 -        }
 +        tcg_debug_assert(done);
      }
-     tcg_gen_add_tl(t1, t0, t1);
--    tcg_gen_qemu_ld_tl(t1, t1, ctx->mem_idx, MO_TESL ^ (sel * MO_BSWAP));
-+    tcg_gen_qemu_ld_tl(t1, t1, ctx->mem_idx, (MO_TESL ^ (sel * MO_BSWAP)) |
-+                       ctx->default_tcg_memop_mask);
-     gen_store_mxu_gpr(t1, XRa);
  }
-diff --git a/target/mips/tcg/micromips_translate.c.inc b/target/mips/tcg/micromips_translate.c.inc
-index XXXXXXX..XXXXXXX 100644
---- a/target/mips/tcg/micromips_translate.c.inc
-+++ b/target/mips/tcg/micromips_translate.c.inc
-@@ -XXX,XX +XXX,XX @@ static void gen_ldst_pair(DisasContext *ctx, uint32_t opc, int rd,
-             gen_reserved_instruction(ctx);
-             return;
-         }
--        tcg_gen_qemu_ld_tl(t1, t0, ctx->mem_idx, MO_TESL);
-+        tcg_gen_qemu_ld_tl(t1, t0, ctx->mem_idx, MO_TESL |
-+                           ctx->default_tcg_memop_mask);
-         gen_store_gpr(t1, rd);
-         tcg_gen_movi_tl(t1, 4);
-         gen_op_addr_add(ctx, t0, t0, t1);
--        tcg_gen_qemu_ld_tl(t1, t0, ctx->mem_idx, MO_TESL);
-+        tcg_gen_qemu_ld_tl(t1, t0, ctx->mem_idx, MO_TESL |
-+                           ctx->default_tcg_memop_mask);
-         gen_store_gpr(t1, rd + 1);
-         break;
-     case SWP:
-         gen_load_gpr(t1, rd);
--        tcg_gen_qemu_st_tl(t1, t0, ctx->mem_idx, MO_TEUL);
-+        tcg_gen_qemu_st_tl(t1, t0, ctx->mem_idx, MO_TEUL |
-+                           ctx->default_tcg_memop_mask);
-         tcg_gen_movi_tl(t1, 4);
-         gen_op_addr_add(ctx, t0, t0, t1);
-         gen_load_gpr(t1, rd + 1);
--        tcg_gen_qemu_st_tl(t1, t0, ctx->mem_idx, MO_TEUL);
-+        tcg_gen_qemu_st_tl(t1, t0, ctx->mem_idx, MO_TEUL |
-+                           ctx->default_tcg_memop_mask);
-         break;
- #ifdef TARGET_MIPS64
-     case LDP:
-@@ -XXX,XX +XXX,XX @@ static void gen_ldst_pair(DisasContext *ctx, uint32_t opc, int rd,
-             gen_reserved_instruction(ctx);
-             return;
-         }
--        tcg_gen_qemu_ld_tl(t1, t0, ctx->mem_idx, MO_TEUQ);
-+        tcg_gen_qemu_ld_tl(t1, t0, ctx->mem_idx, MO_TEUQ |
-+                           ctx->default_tcg_memop_mask);
-         gen_store_gpr(t1, rd);
-         tcg_gen_movi_tl(t1, 8);
-         gen_op_addr_add(ctx, t0, t0, t1);
--        tcg_gen_qemu_ld_tl(t1, t0, ctx->mem_idx, MO_TEUQ);
-+        tcg_gen_qemu_ld_tl(t1, t0, ctx->mem_idx, MO_TEUQ |
-+                           ctx->default_tcg_memop_mask);
-         gen_store_gpr(t1, rd + 1);
-         break;
-     case SDP:
-         gen_load_gpr(t1, rd);
--        tcg_gen_qemu_st_tl(t1, t0, ctx->mem_idx, MO_TEUQ);
-+        tcg_gen_qemu_st_tl(t1, t0, ctx->mem_idx, MO_TEUQ |
-+                           ctx->default_tcg_memop_mask);
-         tcg_gen_movi_tl(t1, 8);
-         gen_op_addr_add(ctx, t0, t0, t1);
-         gen_load_gpr(t1, rd + 1);
--        tcg_gen_qemu_st_tl(t1, t0, ctx->mem_idx, MO_TEUQ);
-+        tcg_gen_qemu_st_tl(t1, t0, ctx->mem_idx, MO_TEUQ |
-+                           ctx->default_tcg_memop_mask);
-         break;
- #endif
-     }
-diff --git a/target/mips/tcg/mips16e_translate.c.inc b/target/mips/tcg/mips16e_translate.c.inc
-index XXXXXXX..XXXXXXX 100644
---- a/target/mips/tcg/mips16e_translate.c.inc
-+++ b/target/mips/tcg/mips16e_translate.c.inc
-@@ -XXX,XX +XXX,XX @@ static void gen_mips16_save(DisasContext *ctx,
-     case 4:
-         gen_base_offset_addr(ctx, t0, 29, 12);
-         gen_load_gpr(t1, 7);
--        tcg_gen_qemu_st_tl(t1, t0, ctx->mem_idx, MO_TEUL);
-+        tcg_gen_qemu_st_tl(t1, t0, ctx->mem_idx, MO_TEUL |
-+                           ctx->default_tcg_memop_mask);
-         /* Fall through */
-     case 3:
-         gen_base_offset_addr(ctx, t0, 29, 8);
-         gen_load_gpr(t1, 6);
--        tcg_gen_qemu_st_tl(t1, t0, ctx->mem_idx, MO_TEUL);
-+        tcg_gen_qemu_st_tl(t1, t0, ctx->mem_idx, MO_TEUL |
-+                           ctx->default_tcg_memop_mask);
-         /* Fall through */
-     case 2:
-         gen_base_offset_addr(ctx, t0, 29, 4);
-         gen_load_gpr(t1, 5);
--        tcg_gen_qemu_st_tl(t1, t0, ctx->mem_idx, MO_TEUL);
-+        tcg_gen_qemu_st_tl(t1, t0, ctx->mem_idx, MO_TEUL |
-+                           ctx->default_tcg_memop_mask);
-         /* Fall through */
-     case 1:
-         gen_base_offset_addr(ctx, t0, 29, 0);
-         gen_load_gpr(t1, 4);
--        tcg_gen_qemu_st_tl(t1, t0, ctx->mem_idx, MO_TEUL);
-+        tcg_gen_qemu_st_tl(t1, t0, ctx->mem_idx, MO_TEUL |
-+                           ctx->default_tcg_memop_mask);
-     }
-     gen_load_gpr(t0, 29);
-@@ -XXX,XX +XXX,XX @@ static void gen_mips16_save(DisasContext *ctx,
-         tcg_gen_movi_tl(t2, -4);                                 \
-         gen_op_addr_add(ctx, t0, t0, t2);                        \
-         gen_load_gpr(t1, reg);                                   \
--        tcg_gen_qemu_st_tl(t1, t0, ctx->mem_idx, MO_TEUL); \
-+        tcg_gen_qemu_st_tl(t1, t0, ctx->mem_idx, MO_TEUL |       \
-+                           ctx->default_tcg_memop_mask);         \
-     } while (0)
-     if (do_ra) {
-@@ -XXX,XX +XXX,XX @@ static void gen_mips16_restore(DisasContext *ctx,
- #define DECR_AND_LOAD(reg) do {                            \
-         tcg_gen_movi_tl(t2, -4);                           \
-         gen_op_addr_add(ctx, t0, t0, t2);                  \
--        tcg_gen_qemu_ld_tl(t1, t0, ctx->mem_idx, MO_TESL); \
-+        tcg_gen_qemu_ld_tl(t1, t0, ctx->mem_idx, MO_TESL | \
-+                           ctx->default_tcg_memop_mask);   \
-         gen_store_gpr(t1, reg);                            \
-     } while (0)
-diff --git a/target/mips/tcg/nanomips_translate.c.inc b/target/mips/tcg/nanomips_translate.c.inc
-index XXXXXXX..XXXXXXX 100644
---- a/target/mips/tcg/nanomips_translate.c.inc
-+++ b/target/mips/tcg/nanomips_translate.c.inc
-@@ -XXX,XX +XXX,XX @@ static void gen_p_lsx(DisasContext *ctx, int rd, int rs, int rt)
-     switch (extract32(ctx->opcode, 7, 4)) {
-     case NM_LBX:
--        tcg_gen_qemu_ld_tl(t0, t0, ctx->mem_idx,
--                           MO_SB);
-+        tcg_gen_qemu_ld_tl(t0, t0, ctx->mem_idx, MO_SB);
-         gen_store_gpr(t0, rd);
-         break;
-     case NM_LHX:
-     /*case NM_LHXS:*/
-         tcg_gen_qemu_ld_tl(t0, t0, ctx->mem_idx,
--                           MO_TESW);
-+                           MO_TESW | ctx->default_tcg_memop_mask);
-         gen_store_gpr(t0, rd);
-         break;
-     case NM_LWX:
-     /*case NM_LWXS:*/
-         tcg_gen_qemu_ld_tl(t0, t0, ctx->mem_idx,
--                           MO_TESL);
-+                           MO_TESL | ctx->default_tcg_memop_mask);
-         gen_store_gpr(t0, rd);
-         break;
-     case NM_LBUX:
--        tcg_gen_qemu_ld_tl(t0, t0, ctx->mem_idx,
--                           MO_UB);
-+        tcg_gen_qemu_ld_tl(t0, t0, ctx->mem_idx, MO_UB);
-         gen_store_gpr(t0, rd);
-         break;
-     case NM_LHUX:
-     /*case NM_LHUXS:*/
-         tcg_gen_qemu_ld_tl(t0, t0, ctx->mem_idx,
--                           MO_TEUW);
-+                           MO_TEUW | ctx->default_tcg_memop_mask);
-         gen_store_gpr(t0, rd);
-         break;
-     case NM_SBX:
-         check_nms(ctx);
-         gen_load_gpr(t1, rd);
--        tcg_gen_qemu_st_tl(t1, t0, ctx->mem_idx,
--                           MO_8);
-+        tcg_gen_qemu_st_tl(t1, t0, ctx->mem_idx, MO_8);
-         break;
-     case NM_SHX:
-     /*case NM_SHXS:*/
-         check_nms(ctx);
-         gen_load_gpr(t1, rd);
-         tcg_gen_qemu_st_tl(t1, t0, ctx->mem_idx,
--                           MO_TEUW);
-+                           MO_TEUW | ctx->default_tcg_memop_mask);
-         break;
-     case NM_SWX:
-     /*case NM_SWXS:*/
-         check_nms(ctx);
-         gen_load_gpr(t1, rd);
-         tcg_gen_qemu_st_tl(t1, t0, ctx->mem_idx,
--                           MO_TEUL);
-+                           MO_TEUL | ctx->default_tcg_memop_mask);
-         break;
-     case NM_LWC1X:
-     /*case NM_LWC1XS:*/
-@@ -XXX,XX +XXX,XX @@ static int decode_nanomips_32_48_opc(CPUMIPSState *env, DisasContext *ctx)
-                                                 addr_off);
-                     tcg_gen_movi_tl(t0, addr);
--                    tcg_gen_qemu_ld_tl(cpu_gpr[rt], t0, ctx->mem_idx, MO_TESL);
-+                    tcg_gen_qemu_ld_tl(cpu_gpr[rt], t0, ctx->mem_idx,
-+                                       MO_TESL | ctx->default_tcg_memop_mask);
-                 }
-                 break;
-             case NM_SWPC48:
-@@ -XXX,XX +XXX,XX @@ static int decode_nanomips_32_48_opc(CPUMIPSState *env, DisasContext *ctx)
-                     tcg_gen_movi_tl(t0, addr);
-                     gen_load_gpr(t1, rt);
--                    tcg_gen_qemu_st_tl(t1, t0, ctx->mem_idx, MO_TEUL);
-+                    tcg_gen_qemu_st_tl(t1, t0, ctx->mem_idx,
-+                                       MO_TEUL | ctx->default_tcg_memop_mask);
-                 }
-                 break;
-             default:
 --
-.34.1
+.43.0

-[PULL 22/53] tcg/i386: Convert tcg_out_qemu_st_slow_path
+[PULL 51/72] tcg/optimize: Remove z_mask, s_mask from OptContext
-Use tcg_out_st_helper_args.  This eliminates the use of a tail call to
+All mask setting is now done with parameters via fold_masks_*.
 the store helper.  This may or may not be an improvement, depending on
 the call/return branch prediction of the host microarchitecture.
-Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
+Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- tcg/i386/tcg-target.c.inc | 57 +++------------------------------------
+ tcg/optimize.c | 13 -------------
-file changed, 4 insertions(+), 53 deletions(-)
+file changed, 13 deletions(-)
-diff --git a/tcg/i386/tcg-target.c.inc b/tcg/i386/tcg-target.c.inc
+diff --git a/tcg/optimize.c b/tcg/optimize.c
 index XXXXXXX..XXXXXXX 100644
---- a/tcg/i386/tcg-target.c.inc
+--- a/tcg/optimize.c
-+++ b/tcg/i386/tcg-target.c.inc
++++ b/tcg/optimize.c
-@@ -XXX,XX +XXX,XX @@ static bool tcg_out_qemu_ld_slow_path(TCGContext *s, TCGLabelQemuLdst *l)
+@@ -XXX,XX +XXX,XX @@ typedef struct OptContext {
-  */
+     QSIMPLEQ_HEAD(, MemCopyInfo) mem_free;
- static bool tcg_out_qemu_st_slow_path(TCGContext *s, TCGLabelQemuLdst *l)
- {
+     /* In flight values from optimization. */
--    MemOpIdx oi = l->oi;
+-    uint64_t z_mask;  /* mask bit is 0 iff value bit is 0 */
--    MemOp opc = get_memop(oi);
+-    uint64_t s_mask;  /* mask bit is 1 if value bit matches msb */
--    MemOp s_bits = opc & MO_SIZE;
+     TCGType type;
-+    MemOp opc = get_memop(l->oi);
+ } OptContext;
-     tcg_insn_unit **label_ptr = &l->label_ptr[0];
--    TCGReg retaddr;
+@@ -XXX,XX +XXX,XX @@ static bool finish_folding(OptContext *ctx, TCGOp *op)
+     for (i = 0; i < nb_oargs; i++) {
-     /* resolve label address */
+         TCGTemp *ts = arg_temp(op->args[i]);
-     tcg_patch32(label_ptr[0], s->code_ptr - label_ptr[0] - 4);
+         reset_ts(ctx, ts);
-@@ -XXX,XX +XXX,XX @@ static bool tcg_out_qemu_st_slow_path(TCGContext *s, TCGLabelQemuLdst *l)
+-        /*
-         tcg_patch32(label_ptr[1], s->code_ptr - label_ptr[1] - 4);
+-         * Save the corresponding known-zero/sign bits mask for the
 -         * first output argument (only one supported so far).
 -         */
 -        if (i == 0) {
 -            ts_info(ts)->z_mask = ctx->z_mask;
 -        }
      }
--    if (TCG_TARGET_REG_BITS == 32) {
--        int ofs = 0;
-+    tcg_out_st_helper_args(s, l, &ldst_helper_param);
-+    tcg_out_branch(s, 1, qemu_st_helpers[opc & (MO_BSWAP | MO_SIZE)]);
--        tcg_out_st(s, TCG_TYPE_PTR, TCG_AREG0, TCG_REG_ESP, ofs);
--        ofs += 4;
--
--        tcg_out_st(s, TCG_TYPE_I32, l->addrlo_reg, TCG_REG_ESP, ofs);
--        ofs += 4;
--
--        if (TARGET_LONG_BITS == 64) {
--            tcg_out_st(s, TCG_TYPE_I32, l->addrhi_reg, TCG_REG_ESP, ofs);
--            ofs += 4;
--        }
--
--        tcg_out_st(s, TCG_TYPE_I32, l->datalo_reg, TCG_REG_ESP, ofs);
--        ofs += 4;
--
--        if (s_bits == MO_64) {
--            tcg_out_st(s, TCG_TYPE_I32, l->datahi_reg, TCG_REG_ESP, ofs);
--            ofs += 4;
--        }
--
--        tcg_out_sti(s, TCG_TYPE_I32, oi, TCG_REG_ESP, ofs);
--        ofs += 4;
--
--        retaddr = TCG_REG_EAX;
--        tcg_out_movi(s, TCG_TYPE_PTR, retaddr, (uintptr_t)l->raddr);
--        tcg_out_st(s, TCG_TYPE_PTR, retaddr, TCG_REG_ESP, ofs);
--    } else {
--        tcg_out_mov(s, TCG_TYPE_PTR, tcg_target_call_iarg_regs[0], TCG_AREG0);
--        tcg_out_mov(s, TCG_TYPE_TL, tcg_target_call_iarg_regs[1],
--                    l->addrlo_reg);
--        tcg_out_mov(s, (s_bits == MO_64 ? TCG_TYPE_I64 : TCG_TYPE_I32),
--                    tcg_target_call_iarg_regs[2], l->datalo_reg);
--        tcg_out_movi(s, TCG_TYPE_I32, tcg_target_call_iarg_regs[3], oi);
--
--        if (ARRAY_SIZE(tcg_target_call_iarg_regs) > 4) {
--            retaddr = tcg_target_call_iarg_regs[4];
--            tcg_out_movi(s, TCG_TYPE_PTR, retaddr, (uintptr_t)l->raddr);
--        } else {
--            retaddr = TCG_REG_RAX;
--            tcg_out_movi(s, TCG_TYPE_PTR, retaddr, (uintptr_t)l->raddr);
--            tcg_out_st(s, TCG_TYPE_PTR, retaddr, TCG_REG_ESP,
--                       TCG_TARGET_CALL_STACK_OFFSET);
--        }
--    }
--
--    /* "Tail call" to the helper, with the return address back inline.  */
--    tcg_out_push(s, retaddr);
--    tcg_out_jmp(s, qemu_st_helpers[opc & (MO_BSWAP | MO_SIZE)]);
-+    tcg_out_jmp(s, l->raddr);
      return true;
  }
- #else
+@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
              ctx.type = TCG_TYPE_I32;
          }
 -        /* Assume all bits affected, no bits known zero, no sign reps. */
 -        ctx.z_mask = -1;
 -        ctx.s_mask = 0;
 -
          /*
           * Process each opcode.
           * Sorted alphabetically by opcode as much as possible.
 --
-.34.1
+.43.0

-[PULL 28/53] tcg/riscv: Convert tcg_out_qemu_{ld,st}_slow_path
+[PULL 52/72] tcg/optimize: Re-enable sign-mask optimizations
-Use tcg_out_ld_helper_args, tcg_out_ld_helper_ret,
+All instances of s_mask have been converted to the new
-and tcg_out_st_helper_args.
+representation.  We can now re-enable usage.
-Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
+Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
 Reviewed-by: Daniel Henrique Barboza <dbarboza@ventanamicro.com>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- tcg/riscv/tcg-target.c.inc | 37 ++++++++++---------------------------
+ tcg/optimize.c | 4 ++--
-file changed, 10 insertions(+), 27 deletions(-)
+file changed, 2 insertions(+), 2 deletions(-)
-diff --git a/tcg/riscv/tcg-target.c.inc b/tcg/riscv/tcg-target.c.inc
+diff --git a/tcg/optimize.c b/tcg/optimize.c
 index XXXXXXX..XXXXXXX 100644
---- a/tcg/riscv/tcg-target.c.inc
+--- a/tcg/optimize.c
-+++ b/tcg/riscv/tcg-target.c.inc
++++ b/tcg/optimize.c
-@@ -XXX,XX +XXX,XX @@ static void tcg_out_goto(TCGContext *s, const tcg_insn_unit *target)
+@@ -XXX,XX +XXX,XX @@ static bool fold_exts(OptContext *ctx, TCGOp *op)
-     tcg_debug_assert(ok);
+         g_assert_not_reached();
  }
 +/* We have three temps, we might as well expose them. */
 +static const TCGLdstHelperParam ldst_helper_param = {
 +    .ntmp = 3, .tmp = { TCG_REG_TMP0, TCG_REG_TMP1, TCG_REG_TMP2 }
 +};
 +
  static bool tcg_out_qemu_ld_slow_path(TCGContext *s, TCGLabelQemuLdst *l)
  {
 -    MemOpIdx oi = l->oi;
 -    MemOp opc = get_memop(oi);
 -    TCGReg a0 = tcg_target_call_iarg_regs[0];
 -    TCGReg a1 = tcg_target_call_iarg_regs[1];
 -    TCGReg a2 = tcg_target_call_iarg_regs[2];
 -    TCGReg a3 = tcg_target_call_iarg_regs[3];
 +    MemOp opc = get_memop(l->oi);
      /* resolve label address */
      if (!reloc_sbimm12(l->label_ptr[0], tcg_splitwx_to_rx(s->code_ptr))) {
@@ -XXX,XX +XXX,XX @@ static bool tcg_out_qemu_ld_slow_path(TCGContext *s, TCGLabelQemuLdst *l)
      }
-     /* call load helper */
+-    if (0 && !type_change && fold_affected_mask(ctx, op, s_mask & ~s_mask_old)) {
--    tcg_out_mov(s, TCG_TYPE_PTR, a0, TCG_AREG0);
++    if (!type_change && fold_affected_mask(ctx, op, s_mask & ~s_mask_old)) {
--    tcg_out_mov(s, TCG_TYPE_PTR, a1, l->addrlo_reg);
+         return true;
 -    tcg_out_movi(s, TCG_TYPE_PTR, a2, oi);
 -    tcg_out_movi(s, TCG_TYPE_PTR, a3, (tcg_target_long)l->raddr);
 -
 +    tcg_out_ld_helper_args(s, l, &ldst_helper_param);
      tcg_out_call_int(s, qemu_ld_helpers[opc & MO_SSIZE], false);
 -    tcg_out_mov(s, (opc & MO_SIZE) == MO_64, l->datalo_reg, a0);
 +    tcg_out_ld_helper_ret(s, l, true, &ldst_helper_param);
      tcg_out_goto(s, l->raddr);
      return true;
@@ -XXX,XX +XXX,XX @@ static bool tcg_out_qemu_ld_slow_path(TCGContext *s, TCGLabelQemuLdst *l)
  static bool tcg_out_qemu_st_slow_path(TCGContext *s, TCGLabelQemuLdst *l)
  {
 -    MemOpIdx oi = l->oi;
 -    MemOp opc = get_memop(oi);
 -    MemOp s_bits = opc & MO_SIZE;
 -    TCGReg a0 = tcg_target_call_iarg_regs[0];
 -    TCGReg a1 = tcg_target_call_iarg_regs[1];
 -    TCGReg a2 = tcg_target_call_iarg_regs[2];
 -    TCGReg a3 = tcg_target_call_iarg_regs[3];
 -    TCGReg a4 = tcg_target_call_iarg_regs[4];
 +    MemOp opc = get_memop(l->oi);
      /* resolve label address */
      if (!reloc_sbimm12(l->label_ptr[0], tcg_splitwx_to_rx(s->code_ptr))) {
@@ -XXX,XX +XXX,XX @@ static bool tcg_out_qemu_st_slow_path(TCGContext *s, TCGLabelQemuLdst *l)
      }
-     /* call store helper */
+@@ -XXX,XX +XXX,XX @@ static bool fold_sextract(OptContext *ctx, TCGOp *op)
--    tcg_out_mov(s, TCG_TYPE_PTR, a0, TCG_AREG0);
+     s_mask = s_mask_old >> pos;
--    tcg_out_mov(s, TCG_TYPE_PTR, a1, l->addrlo_reg);
+     s_mask |= -1ull << (len - 1);
--    tcg_out_movext(s, s_bits == MO_64 ? TCG_TYPE_I64 : TCG_TYPE_I32, a2,
--                   l->type, s_bits, l->datalo_reg);
+-    if (0 && pos == 0 && fold_affected_mask(ctx, op, s_mask & ~s_mask_old)) {
--    tcg_out_movi(s, TCG_TYPE_PTR, a3, oi);
++    if (pos == 0 && fold_affected_mask(ctx, op, s_mask & ~s_mask_old)) {
--    tcg_out_movi(s, TCG_TYPE_PTR, a4, (tcg_target_long)l->raddr);
+         return true;
--
+     }
-+    tcg_out_st_helper_args(s, l, &ldst_helper_param);
      tcg_out_call_int(s, qemu_st_helpers[opc & MO_SIZE], false);
      tcg_out_goto(s, l->raddr);
 --
-.34.1
+.43.0

-[PULL 51/53] accel/tcg: Reorg system mode load helpers
+[PULL 53/72] tcg/optimize: Move fold_bitsel_vec into alphabetic sort
-Instead of trying to unify all operations on uint64_t, pull out
+The big comment just above says functions should be sorted.
-mmu_lookup() to perform the basic tlb hit and resolution.
+Add forward declarations as needed.
 Create individual functions to handle access by size.
-Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
+Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
 Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- accel/tcg/cputlb.c | 645 +++++++++++++++++++++++++++++----------------
+ tcg/optimize.c | 114 +++++++++++++++++++++++++------------------------
-file changed, 424 insertions(+), 221 deletions(-)
+file changed, 59 insertions(+), 55 deletions(-)
-diff --git a/accel/tcg/cputlb.c b/accel/tcg/cputlb.c
+diff --git a/tcg/optimize.c b/tcg/optimize.c
 index XXXXXXX..XXXXXXX 100644
---- a/accel/tcg/cputlb.c
+--- a/tcg/optimize.c
-+++ b/accel/tcg/cputlb.c
++++ b/tcg/optimize.c
-@@ -XXX,XX +XXX,XX @@ bool tlb_plugin_lookup(CPUState *cpu, target_ulong addr, int mmu_idx,
+@@ -XXX,XX +XXX,XX @@ static bool fold_xx_to_x(OptContext *ctx, TCGOp *op)
+  *   3) those that produce information about the result value.
- #endif
+  */
-+/*
++static bool fold_or(OptContext *ctx, TCGOp *op);
-+ * Probe for a load/store operation.
++static bool fold_orc(OptContext *ctx, TCGOp *op);
-+ * Return the host address and into @flags.
++static bool fold_xor(OptContext *ctx, TCGOp *op);
 + */
 +
-+typedef struct MMULookupPageData {
+ static bool fold_add(OptContext *ctx, TCGOp *op)
-+    CPUTLBEntryFull *full;
+ {
-+    void *haddr;
+     if (fold_const2_commutative(ctx, op) ||
-+    target_ulong addr;
+@@ -XXX,XX +XXX,XX @@ static bool fold_andc(OptContext *ctx, TCGOp *op)
-+    int flags;
+     return fold_masks_zs(ctx, op, z_mask, s_mask);
-+    int size;
+ }
-+} MMULookupPageData;
-+
++static bool fold_bitsel_vec(OptContext *ctx, TCGOp *op)
 +typedef struct MMULookupLocals {
 +    MMULookupPageData page[2];
 +    MemOp memop;
 +    int mmu_idx;
 +} MMULookupLocals;
 +
 +/**
 + * mmu_lookup1: translate one page
 + * @env: cpu context
 + * @data: lookup parameters
 + * @mmu_idx: virtual address context
 + * @access_type: load/store/code
 + * @ra: return address into tcg generated code, or 0
 + *
 + * Resolve the translation for the one page at @data.addr, filling in
 + * the rest of @data with the results.  If the translation fails,
 + * tlb_fill will longjmp out.  Return true if the softmmu tlb for
 + * @mmu_idx may have resized.
 + */
 +static bool mmu_lookup1(CPUArchState *env, MMULookupPageData *data,
 +                        int mmu_idx, MMUAccessType access_type, uintptr_t ra)
 +{
-+    target_ulong addr = data->addr;
++    /* If true and false values are the same, eliminate the cmp. */
-+    uintptr_t index = tlb_index(env, mmu_idx, addr);
++    if (args_are_copies(op->args[2], op->args[3])) {
-+    CPUTLBEntry *entry = tlb_entry(env, mmu_idx, addr);
++        return tcg_opt_gen_mov(ctx, op, op->args[0], op->args[2]);
 +    target_ulong tlb_addr = tlb_read_idx(entry, access_type);
 +    bool maybe_resized = false;
 +
 +    /* If the TLB entry is for a different page, reload and try again.  */
 +    if (!tlb_hit(tlb_addr, addr)) {
 +        if (!victim_tlb_hit(env, mmu_idx, index, access_type,
 +                            addr & TARGET_PAGE_MASK)) {
 +            tlb_fill(env_cpu(env), addr, data->size, access_type, mmu_idx, ra);
 +            maybe_resized = true;
 +            index = tlb_index(env, mmu_idx, addr);
 +            entry = tlb_entry(env, mmu_idx, addr);
 +        }
 +        tlb_addr = tlb_read_idx(entry, access_type) & ~TLB_INVALID_MASK;
 +    }
 +
-+    data->flags = tlb_addr & TLB_FLAGS_MASK;
++    if (arg_is_const(op->args[2]) && arg_is_const(op->args[3])) {
-+    data->full = &env_tlb(env)->d[mmu_idx].fulltlb[index];
++        uint64_t tv = arg_info(op->args[2])->val;
-+    /* Compute haddr speculatively; depending on flags it might be invalid. */
++        uint64_t fv = arg_info(op->args[3])->val;
 +    data->haddr = (void *)((uintptr_t)addr + entry->addend);
 +
-+    return maybe_resized;
++        if (tv == -1 && fv == 0) {
 +            return tcg_opt_gen_mov(ctx, op, op->args[0], op->args[1]);
 +        }
 +        if (tv == 0 && fv == -1) {
 +            if (TCG_TARGET_HAS_not_vec) {
 +                op->opc = INDEX_op_not_vec;
 +                return fold_not(ctx, op);
 +            } else {
 +                op->opc = INDEX_op_xor_vec;
 +                op->args[2] = arg_new_constant(ctx, -1);
 +                return fold_xor(ctx, op);
 +            }
 +        }
 +    }
 +    if (arg_is_const(op->args[2])) {
 +        uint64_t tv = arg_info(op->args[2])->val;
 +        if (tv == -1) {
 +            op->opc = INDEX_op_or_vec;
 +            op->args[2] = op->args[3];
 +            return fold_or(ctx, op);
 +        }
 +        if (tv == 0 && TCG_TARGET_HAS_andc_vec) {
 +            op->opc = INDEX_op_andc_vec;
 +            op->args[2] = op->args[1];
 +            op->args[1] = op->args[3];
 +            return fold_andc(ctx, op);
 +        }
 +    }
 +    if (arg_is_const(op->args[3])) {
 +        uint64_t fv = arg_info(op->args[3])->val;
 +        if (fv == 0) {
 +            op->opc = INDEX_op_and_vec;
 +            return fold_and(ctx, op);
 +        }
 +        if (fv == -1 && TCG_TARGET_HAS_orc_vec) {
 +            op->opc = INDEX_op_orc_vec;
 +            op->args[2] = op->args[1];
 +            op->args[1] = op->args[3];
 +            return fold_orc(ctx, op);
 +        }
 +    }
 +    return finish_folding(ctx, op);
 +}
 +
-+/**
+ static bool fold_brcond(OptContext *ctx, TCGOp *op)
-+ * mmu_watch_or_dirty
+ {
-+ * @env: cpu context
+     int i = do_constant_folding_cond1(ctx, op, NO_DEST, &op->args[0],
-+ * @data: lookup parameters
+@@ -XXX,XX +XXX,XX @@ static bool fold_xor(OptContext *ctx, TCGOp *op)
-+ * @access_type: load/store/code
+     return fold_masks_zs(ctx, op, z_mask, s_mask);
 + * @ra: return address into tcg generated code, or 0
 + *
 + * Trigger watchpoints for @data.addr:@data.size;
 + * record writes to protected clean pages.
 + */
 +static void mmu_watch_or_dirty(CPUArchState *env, MMULookupPageData *data,
 +                               MMUAccessType access_type, uintptr_t ra)
 +{
 +    CPUTLBEntryFull *full = data->full;
 +    target_ulong addr = data->addr;
 +    int flags = data->flags;
 +    int size = data->size;
 +
 +    /* On watchpoint hit, this will longjmp out.  */
 +    if (flags & TLB_WATCHPOINT) {
 +        int wp = access_type == MMU_DATA_STORE ? BP_MEM_WRITE : BP_MEM_READ;
 +        cpu_check_watchpoint(env_cpu(env), addr, size, full->attrs, wp, ra);
 +        flags &= ~TLB_WATCHPOINT;
 +    }
 +
 +    /* Note that notdirty is only set for writes. */
 +    if (flags & TLB_NOTDIRTY) {
 +        notdirty_write(env_cpu(env), addr, size, full, ra);
 +        flags &= ~TLB_NOTDIRTY;
 +    }
 +    data->flags = flags;
 +}
 +
 +/**
 + * mmu_lookup: translate page(s)
 + * @env: cpu context
 + * @addr: virtual address
 + * @oi: combined mmu_idx and MemOp
 + * @ra: return address into tcg generated code, or 0
 + * @access_type: load/store/code
 + * @l: output result
 + *
 + * Resolve the translation for the page(s) beginning at @addr, for MemOp.size
 + * bytes.  Return true if the lookup crosses a page boundary.
 + */
 +static bool mmu_lookup(CPUArchState *env, target_ulong addr, MemOpIdx oi,
 +                       uintptr_t ra, MMUAccessType type, MMULookupLocals *l)
 +{
 +    unsigned a_bits;
 +    bool crosspage;
 +    int flags;
 +
 +    l->memop = get_memop(oi);
 +    l->mmu_idx = get_mmuidx(oi);
 +
 +    tcg_debug_assert(l->mmu_idx < NB_MMU_MODES);
 +
 +    /* Handle CPU specific unaligned behaviour */
 +    a_bits = get_alignment_bits(l->memop);
 +    if (addr & ((1 << a_bits) - 1)) {
 +        cpu_unaligned_access(env_cpu(env), addr, type, l->mmu_idx, ra);
 +    }
 +
 +    l->page[0].addr = addr;
 +    l->page[0].size = memop_size(l->memop);
 +    l->page[1].addr = (addr + l->page[0].size - 1) & TARGET_PAGE_MASK;
 +    l->page[1].size = 0;
 +    crosspage = (addr ^ l->page[1].addr) & TARGET_PAGE_MASK;
 +
 +    if (likely(!crosspage)) {
 +        mmu_lookup1(env, &l->page[0], l->mmu_idx, type, ra);
 +
 +        flags = l->page[0].flags;
 +        if (unlikely(flags & (TLB_WATCHPOINT | TLB_NOTDIRTY))) {
 +            mmu_watch_or_dirty(env, &l->page[0], type, ra);
 +        }
 +        if (unlikely(flags & TLB_BSWAP)) {
 +            l->memop ^= MO_BSWAP;
 +        }
 +    } else {
 +        /* Finish compute of page crossing. */
 +        int size0 = l->page[1].addr - addr;
 +        l->page[1].size = l->page[0].size - size0;
 +        l->page[0].size = size0;
 +
 +        /*
 +         * Lookup both pages, recognizing exceptions from either.  If the
 +         * second lookup potentially resized, refresh first CPUTLBEntryFull.
 +         */
 +        mmu_lookup1(env, &l->page[0], l->mmu_idx, type, ra);
 +        if (mmu_lookup1(env, &l->page[1], l->mmu_idx, type, ra)) {
 +            uintptr_t index = tlb_index(env, l->mmu_idx, addr);
 +            l->page[0].full = &env_tlb(env)->d[l->mmu_idx].fulltlb[index];
 +        }
 +
 +        flags = l->page[0].flags | l->page[1].flags;
 +        if (unlikely(flags & (TLB_WATCHPOINT | TLB_NOTDIRTY))) {
 +            mmu_watch_or_dirty(env, &l->page[0], type, ra);
 +            mmu_watch_or_dirty(env, &l->page[1], type, ra);
 +        }
 +
 +        /*
 +         * Since target/sparc is the only user of TLB_BSWAP, and all
 +         * Sparc accesses are aligned, any treatment across two pages
 +         * would be arbitrary.  Refuse it until there's a use.
 +         */
 +        tcg_debug_assert((flags & TLB_BSWAP) == 0);
 +    }
 +
 +    return crosspage;
 +}
 +
  /*
   * Probe for an atomic operation.  Do not allow unaligned operations,
   * or io operations to proceed.  Return the host address.
@@ -XXX,XX +XXX,XX @@ load_memop(const void *haddr, MemOp op)
      }
  }
--static inline uint64_t QEMU_ALWAYS_INLINE
+-static bool fold_bitsel_vec(OptContext *ctx, TCGOp *op)
 -load_helper(CPUArchState *env, target_ulong addr, MemOpIdx oi,
 -            uintptr_t retaddr, MemOp op, MMUAccessType access_type,
 -            FullLoadHelper *full_load)
 -{
--    const unsigned a_bits = get_alignment_bits(get_memop(oi));
+-    /* If true and false values are the same, eliminate the cmp. */
--    const size_t size = memop_size(op);
+-    if (args_are_copies(op->args[2], op->args[3])) {
--    uintptr_t mmu_idx = get_mmuidx(oi);
+-        return tcg_opt_gen_mov(ctx, op, op->args[0], op->args[2]);
 -    uintptr_t index;
 -    CPUTLBEntry *entry;
 -    target_ulong tlb_addr;
 -    void *haddr;
 -    uint64_t res;
 -
 -    tcg_debug_assert(mmu_idx < NB_MMU_MODES);
 -
 -    /* Handle CPU specific unaligned behaviour */
 -    if (addr & ((1 << a_bits) - 1)) {
 -        cpu_unaligned_access(env_cpu(env), addr, access_type,
 -                             mmu_idx, retaddr);
 -    }
 -
--    index = tlb_index(env, mmu_idx, addr);
+-    if (arg_is_const(op->args[2]) && arg_is_const(op->args[3])) {
--    entry = tlb_entry(env, mmu_idx, addr);
+-        uint64_t tv = arg_info(op->args[2])->val;
--    tlb_addr = tlb_read_idx(entry, access_type);
+-        uint64_t fv = arg_info(op->args[3])->val;
 -
--    /* If the TLB entry is for a different page, reload and try again.  */
+-        if (tv == -1 && fv == 0) {
--    if (!tlb_hit(tlb_addr, addr)) {
+-            return tcg_opt_gen_mov(ctx, op, op->args[0], op->args[1]);
 -        if (!victim_tlb_hit(env, mmu_idx, index, access_type,
 -                            addr & TARGET_PAGE_MASK)) {
 -            tlb_fill(env_cpu(env), addr, size,
 -                     access_type, mmu_idx, retaddr);
 -            index = tlb_index(env, mmu_idx, addr);
 -            entry = tlb_entry(env, mmu_idx, addr);
 -        }
--        tlb_addr = tlb_read_idx(entry, access_type);
+-        if (tv == 0 && fv == -1) {
--        tlb_addr &= ~TLB_INVALID_MASK;
+-            if (TCG_TARGET_HAS_not_vec) {
 -                op->opc = INDEX_op_not_vec;
 -                return fold_not(ctx, op);
 -            } else {
 -                op->opc = INDEX_op_xor_vec;
 -                op->args[2] = arg_new_constant(ctx, -1);
 -                return fold_xor(ctx, op);
 -            }
 -        }
 -    }
--
+-    if (arg_is_const(op->args[2])) {
--    /* Handle anything that isn't just a straight memory access.  */
+-        uint64_t tv = arg_info(op->args[2])->val;
--    if (unlikely(tlb_addr & ~TARGET_PAGE_MASK)) {
+-        if (tv == -1) {
--        CPUTLBEntryFull *full;
+-            op->opc = INDEX_op_or_vec;
--        bool need_swap;
+-            op->args[2] = op->args[3];
--
+-            return fold_or(ctx, op);
 -        /* For anything that is unaligned, recurse through full_load.  */
 -        if ((addr & (size - 1)) != 0) {
 -            goto do_unaligned_access;
 -        }
--
+-        if (tv == 0 && TCG_TARGET_HAS_andc_vec) {
--        full = &env_tlb(env)->d[mmu_idx].fulltlb[index];
+-            op->opc = INDEX_op_andc_vec;
--
+-            op->args[2] = op->args[1];
--        /* Handle watchpoints.  */
+-            op->args[1] = op->args[3];
--        if (unlikely(tlb_addr & TLB_WATCHPOINT)) {
+-            return fold_andc(ctx, op);
 -            /* On watchpoint hit, this will longjmp out.  */
 -            cpu_check_watchpoint(env_cpu(env), addr, size,
 -                                 full->attrs, BP_MEM_READ, retaddr);
 -        }
--
+-    }
--        need_swap = size > 1 && (tlb_addr & TLB_BSWAP);
+-    if (arg_is_const(op->args[3])) {
--
+-        uint64_t fv = arg_info(op->args[3])->val;
--        /* Handle I/O access.  */
+-        if (fv == 0) {
--        if (likely(tlb_addr & TLB_MMIO)) {
+-            op->opc = INDEX_op_and_vec;
--            return io_readx(env, full, mmu_idx, addr, retaddr,
+-            return fold_and(ctx, op);
 -                            access_type, op ^ (need_swap * MO_BSWAP));
 -        }
--
+-        if (fv == -1 && TCG_TARGET_HAS_orc_vec) {
--        haddr = (void *)((uintptr_t)addr + entry->addend);
+-            op->opc = INDEX_op_orc_vec;
--
+-            op->args[2] = op->args[1];
--        /*
+-            op->args[1] = op->args[3];
--         * Keep these two load_memop separate to ensure that the compiler
+-            return fold_orc(ctx, op);
 -         * is able to fold the entire function to a single instruction.
 -         * There is a build-time assert inside to remind you of this.  ;-)
 -         */
 -        if (unlikely(need_swap)) {
 -            return load_memop(haddr, op ^ MO_BSWAP);
 -        }
--        return load_memop(haddr, op);
 -    }
--
+-    return finish_folding(ctx, op);
 -    /* Handle slow unaligned access (it spans two pages or IO).  */
 -    if (size > 1
 -        && unlikely((addr & ~TARGET_PAGE_MASK) + size - 1
 -                    >= TARGET_PAGE_SIZE)) {
 -        target_ulong addr1, addr2;
 -        uint64_t r1, r2;
 -        unsigned shift;
 -    do_unaligned_access:
 -        addr1 = addr & ~((target_ulong)size - 1);
 -        addr2 = addr1 + size;
 -        r1 = full_load(env, addr1, oi, retaddr);
 -        r2 = full_load(env, addr2, oi, retaddr);
 -        shift = (addr & (size - 1)) * 8;
 -
 -        if (memop_big_endian(op)) {
 -            /* Big-endian combine.  */
 -            res = (r1 << shift) | (r2 >> ((size * 8) - shift));
 -        } else {
 -            /* Little-endian combine.  */
 -            res = (r1 >> shift) | (r2 << ((size * 8) - shift));
 -        }
 -        return res & MAKE_64BIT_MASK(0, size * 8);
 -    }
 -
 -    haddr = (void *)((uintptr_t)addr + entry->addend);
 -    return load_memop(haddr, op);
 -}
 -
- /*
+ /* Propagate constants and copies, fold constant expressions. */
-  * For the benefit of TCG generated code, we want to avoid the
+ void tcg_optimize(TCGContext *s)
   * complication of ABI-specific return type promotion and always
@@ -XXX,XX +XXX,XX @@ load_helper(CPUArchState *env, target_ulong addr, MemOpIdx oi,
   * We don't bother with this widened value for SOFTMMU_CODE_ACCESS.
   */
 -static uint64_t full_ldub_mmu(CPUArchState *env, target_ulong addr,
 -                              MemOpIdx oi, uintptr_t retaddr)
 +/**
 + * do_ld_mmio_beN:
 + * @env: cpu context
 + * @p: translation parameters
 + * @ret_be: accumulated data
 + * @mmu_idx: virtual address context
 + * @ra: return address into tcg generated code, or 0
 + *
 + * Load @p->size bytes from @p->addr, which is memory-mapped i/o.
 + * The bytes are concatenated in big-endian order with @ret_be.
 + */
 +static uint64_t do_ld_mmio_beN(CPUArchState *env, MMULookupPageData *p,
 +                               uint64_t ret_be, int mmu_idx,
 +                               MMUAccessType type, uintptr_t ra)
  {
--    validate_memop(oi, MO_UB);
--    return load_helper(env, addr, oi, retaddr, MO_UB, MMU_DATA_LOAD,
--                       full_ldub_mmu);
-+    CPUTLBEntryFull *full = p->full;
-+    target_ulong addr = p->addr;
-+    int i, size = p->size;
-+
-+    QEMU_IOTHREAD_LOCK_GUARD();
-+    for (i = 0; i < size; i++) {
-+        uint8_t x = io_readx(env, full, mmu_idx, addr + i, ra, type, MO_UB);
-+        ret_be = (ret_be << 8) | x;
-+    }
-+    return ret_be;
-+}
-+
-+/**
-+ * do_ld_bytes_beN
-+ * @p: translation parameters
-+ * @ret_be: accumulated data
-+ *
-+ * Load @p->size bytes from @p->haddr, which is RAM.
-+ * The bytes to concatenated in big-endian order with @ret_be.
-+ */
-+static uint64_t do_ld_bytes_beN(MMULookupPageData *p, uint64_t ret_be)
-+{
-+    uint8_t *haddr = p->haddr;
-+    int i, size = p->size;
-+
-+    for (i = 0; i < size; i++) {
-+        ret_be = (ret_be << 8) | haddr[i];
-+    }
-+    return ret_be;
-+}
-+
-+/*
-+ * Wrapper for the above.
-+ */
-+static uint64_t do_ld_beN(CPUArchState *env, MMULookupPageData *p,
-+                          uint64_t ret_be, int mmu_idx,
-+                          MMUAccessType type, uintptr_t ra)
-+{
-+    if (unlikely(p->flags & TLB_MMIO)) {
-+        return do_ld_mmio_beN(env, p, ret_be, mmu_idx, type, ra);
-+    } else {
-+        return do_ld_bytes_beN(p, ret_be);
-+    }
-+}
-+
-+static uint8_t do_ld_1(CPUArchState *env, MMULookupPageData *p, int mmu_idx,
-+                       MMUAccessType type, uintptr_t ra)
-+{
-+    if (unlikely(p->flags & TLB_MMIO)) {
-+        return io_readx(env, p->full, mmu_idx, p->addr, ra, type, MO_UB);
-+    } else {
-+        return *(uint8_t *)p->haddr;
-+    }
-+}
-+
-+static uint16_t do_ld_2(CPUArchState *env, MMULookupPageData *p, int mmu_idx,
-+                        MMUAccessType type, MemOp memop, uintptr_t ra)
-+{
-+    uint64_t ret;
-+
-+    if (unlikely(p->flags & TLB_MMIO)) {
-+        return io_readx(env, p->full, mmu_idx, p->addr, ra, type, memop);
-+    }
-+
-+    /* Perform the load host endian, then swap if necessary. */
-+    ret = load_memop(p->haddr, MO_UW);
-+    if (memop & MO_BSWAP) {
-+        ret = bswap16(ret);
-+    }
-+    return ret;
-+}
-+
-+static uint32_t do_ld_4(CPUArchState *env, MMULookupPageData *p, int mmu_idx,
-+                        MMUAccessType type, MemOp memop, uintptr_t ra)
-+{
-+    uint32_t ret;
-+
-+    if (unlikely(p->flags & TLB_MMIO)) {
-+        return io_readx(env, p->full, mmu_idx, p->addr, ra, type, memop);
-+    }
-+
-+    /* Perform the load host endian. */
-+    ret = load_memop(p->haddr, MO_UL);
-+    if (memop & MO_BSWAP) {
-+        ret = bswap32(ret);
-+    }
-+    return ret;
-+}
-+
-+static uint64_t do_ld_8(CPUArchState *env, MMULookupPageData *p, int mmu_idx,
-+                        MMUAccessType type, MemOp memop, uintptr_t ra)
-+{
-+    uint64_t ret;
-+
-+    if (unlikely(p->flags & TLB_MMIO)) {
-+        return io_readx(env, p->full, mmu_idx, p->addr, ra, type, memop);
-+    }
-+
-+    /* Perform the load host endian. */
-+    ret = load_memop(p->haddr, MO_UQ);
-+    if (memop & MO_BSWAP) {
-+        ret = bswap64(ret);
-+    }
-+    return ret;
-+}
-+
-+static uint8_t do_ld1_mmu(CPUArchState *env, target_ulong addr, MemOpIdx oi,
-+                          uintptr_t ra, MMUAccessType access_type)
-+{
-+    MMULookupLocals l;
-+    bool crosspage;
-+
-+    crosspage = mmu_lookup(env, addr, oi, ra, access_type, &l);
-+    tcg_debug_assert(!crosspage);
-+
-+    return do_ld_1(env, &l.page[0], l.mmu_idx, access_type, ra);
- }
- tcg_target_ulong helper_ret_ldub_mmu(CPUArchState *env, target_ulong addr,
-                                      MemOpIdx oi, uintptr_t retaddr)
- {
--    return full_ldub_mmu(env, addr, oi, retaddr);
-+    validate_memop(oi, MO_UB);
-+    return do_ld1_mmu(env, addr, oi, retaddr, MMU_DATA_LOAD);
- }
--static uint64_t full_le_lduw_mmu(CPUArchState *env, target_ulong addr,
--                                 MemOpIdx oi, uintptr_t retaddr)
-+static uint16_t do_ld2_mmu(CPUArchState *env, target_ulong addr, MemOpIdx oi,
-+                           uintptr_t ra, MMUAccessType access_type)
- {
--    validate_memop(oi, MO_LEUW);
--    return load_helper(env, addr, oi, retaddr, MO_LEUW, MMU_DATA_LOAD,
--                       full_le_lduw_mmu);
-+    MMULookupLocals l;
-+    bool crosspage;
-+    uint16_t ret;
-+    uint8_t a, b;
-+
-+    crosspage = mmu_lookup(env, addr, oi, ra, access_type, &l);
-+    if (likely(!crosspage)) {
-+        return do_ld_2(env, &l.page[0], l.mmu_idx, access_type, l.memop, ra);
-+    }
-+
-+    a = do_ld_1(env, &l.page[0], l.mmu_idx, access_type, ra);
-+    b = do_ld_1(env, &l.page[1], l.mmu_idx, access_type, ra);
-+
-+    if ((l.memop & MO_BSWAP) == MO_LE) {
-+        ret = a | (b << 8);
-+    } else {
-+        ret = b | (a << 8);
-+    }
-+    return ret;
- }
- tcg_target_ulong helper_le_lduw_mmu(CPUArchState *env, target_ulong addr,
-                                     MemOpIdx oi, uintptr_t retaddr)
- {
--    return full_le_lduw_mmu(env, addr, oi, retaddr);
--}
--
--static uint64_t full_be_lduw_mmu(CPUArchState *env, target_ulong addr,
--                                 MemOpIdx oi, uintptr_t retaddr)
--{
--    validate_memop(oi, MO_BEUW);
--    return load_helper(env, addr, oi, retaddr, MO_BEUW, MMU_DATA_LOAD,
--                       full_be_lduw_mmu);
-+    validate_memop(oi, MO_LEUW);
-+    return do_ld2_mmu(env, addr, oi, retaddr, MMU_DATA_LOAD);
- }
- tcg_target_ulong helper_be_lduw_mmu(CPUArchState *env, target_ulong addr,
-                                     MemOpIdx oi, uintptr_t retaddr)
- {
--    return full_be_lduw_mmu(env, addr, oi, retaddr);
-+    validate_memop(oi, MO_BEUW);
-+    return do_ld2_mmu(env, addr, oi, retaddr, MMU_DATA_LOAD);
- }
--static uint64_t full_le_ldul_mmu(CPUArchState *env, target_ulong addr,
--                                 MemOpIdx oi, uintptr_t retaddr)
-+static uint32_t do_ld4_mmu(CPUArchState *env, target_ulong addr, MemOpIdx oi,
-+                           uintptr_t ra, MMUAccessType access_type)
- {
--    validate_memop(oi, MO_LEUL);
--    return load_helper(env, addr, oi, retaddr, MO_LEUL, MMU_DATA_LOAD,
--                       full_le_ldul_mmu);
-+    MMULookupLocals l;
-+    bool crosspage;
-+    uint32_t ret;
-+
-+    crosspage = mmu_lookup(env, addr, oi, ra, access_type, &l);
-+    if (likely(!crosspage)) {
-+        return do_ld_4(env, &l.page[0], l.mmu_idx, access_type, l.memop, ra);
-+    }
-+
-+    ret = do_ld_beN(env, &l.page[0], 0, l.mmu_idx, access_type, ra);
-+    ret = do_ld_beN(env, &l.page[1], ret, l.mmu_idx, access_type, ra);
-+    if ((l.memop & MO_BSWAP) == MO_LE) {
-+        ret = bswap32(ret);
-+    }
-+    return ret;
- }
- tcg_target_ulong helper_le_ldul_mmu(CPUArchState *env, target_ulong addr,
-                                     MemOpIdx oi, uintptr_t retaddr)
- {
--    return full_le_ldul_mmu(env, addr, oi, retaddr);
--}
--
--static uint64_t full_be_ldul_mmu(CPUArchState *env, target_ulong addr,
--                                 MemOpIdx oi, uintptr_t retaddr)
--{
--    validate_memop(oi, MO_BEUL);
--    return load_helper(env, addr, oi, retaddr, MO_BEUL, MMU_DATA_LOAD,
--                       full_be_ldul_mmu);
-+    validate_memop(oi, MO_LEUL);
-+    return do_ld4_mmu(env, addr, oi, retaddr, MMU_DATA_LOAD);
- }
- tcg_target_ulong helper_be_ldul_mmu(CPUArchState *env, target_ulong addr,
-                                     MemOpIdx oi, uintptr_t retaddr)
- {
--    return full_be_ldul_mmu(env, addr, oi, retaddr);
-+    validate_memop(oi, MO_BEUL);
-+    return do_ld4_mmu(env, addr, oi, retaddr, MMU_DATA_LOAD);
-+}
-+
-+static uint64_t do_ld8_mmu(CPUArchState *env, target_ulong addr, MemOpIdx oi,
-+                           uintptr_t ra, MMUAccessType access_type)
-+{
-+    MMULookupLocals l;
-+    bool crosspage;
-+    uint64_t ret;
-+
-+    crosspage = mmu_lookup(env, addr, oi, ra, access_type, &l);
-+    if (likely(!crosspage)) {
-+        return do_ld_8(env, &l.page[0], l.mmu_idx, access_type, l.memop, ra);
-+    }
-+
-+    ret = do_ld_beN(env, &l.page[0], 0, l.mmu_idx, access_type, ra);
-+    ret = do_ld_beN(env, &l.page[1], ret, l.mmu_idx, access_type, ra);
-+    if ((l.memop & MO_BSWAP) == MO_LE) {
-+        ret = bswap64(ret);
-+    }
-+    return ret;
- }
- uint64_t helper_le_ldq_mmu(CPUArchState *env, target_ulong addr,
-                            MemOpIdx oi, uintptr_t retaddr)
- {
-     validate_memop(oi, MO_LEUQ);
--    return load_helper(env, addr, oi, retaddr, MO_LEUQ, MMU_DATA_LOAD,
--                       helper_le_ldq_mmu);
-+    return do_ld8_mmu(env, addr, oi, retaddr, MMU_DATA_LOAD);
- }
- uint64_t helper_be_ldq_mmu(CPUArchState *env, target_ulong addr,
-                            MemOpIdx oi, uintptr_t retaddr)
- {
-     validate_memop(oi, MO_BEUQ);
--    return load_helper(env, addr, oi, retaddr, MO_BEUQ, MMU_DATA_LOAD,
--                       helper_be_ldq_mmu);
-+    return do_ld8_mmu(env, addr, oi, retaddr, MMU_DATA_LOAD);
- }
- /*
-@@ -XXX,XX +XXX,XX @@ tcg_target_ulong helper_be_ldsl_mmu(CPUArchState *env, target_ulong addr,
-  * Load helpers for cpu_ldst.h.
-  */
--static inline uint64_t cpu_load_helper(CPUArchState *env, abi_ptr addr,
--                                       MemOpIdx oi, uintptr_t retaddr,
--                                       FullLoadHelper *full_load)
-+static void plugin_load_cb(CPUArchState *env, abi_ptr addr, MemOpIdx oi)
- {
--    uint64_t ret;
--
--    ret = full_load(env, addr, oi, retaddr);
-     qemu_plugin_vcpu_mem_cb(env_cpu(env), addr, oi, QEMU_PLUGIN_MEM_R);
--    return ret;
- }
- uint8_t cpu_ldb_mmu(CPUArchState *env, abi_ptr addr, MemOpIdx oi, uintptr_t ra)
- {
--    return cpu_load_helper(env, addr, oi, ra, full_ldub_mmu);
-+    uint8_t ret;
-+
-+    validate_memop(oi, MO_UB);
-+    ret = do_ld1_mmu(env, addr, oi, ra, MMU_DATA_LOAD);
-+    plugin_load_cb(env, addr, oi);
-+    return ret;
- }
- uint16_t cpu_ldw_be_mmu(CPUArchState *env, abi_ptr addr,
-                         MemOpIdx oi, uintptr_t ra)
- {
--    return cpu_load_helper(env, addr, oi, ra, full_be_lduw_mmu);
-+    uint16_t ret;
-+
-+    validate_memop(oi, MO_BEUW);
-+    ret = do_ld2_mmu(env, addr, oi, ra, MMU_DATA_LOAD);
-+    plugin_load_cb(env, addr, oi);
-+    return ret;
- }
- uint32_t cpu_ldl_be_mmu(CPUArchState *env, abi_ptr addr,
-                         MemOpIdx oi, uintptr_t ra)
- {
--    return cpu_load_helper(env, addr, oi, ra, full_be_ldul_mmu);
-+    uint32_t ret;
-+
-+    validate_memop(oi, MO_BEUL);
-+    ret = do_ld4_mmu(env, addr, oi, ra, MMU_DATA_LOAD);
-+    plugin_load_cb(env, addr, oi);
-+    return ret;
- }
- uint64_t cpu_ldq_be_mmu(CPUArchState *env, abi_ptr addr,
-                         MemOpIdx oi, uintptr_t ra)
- {
--    return cpu_load_helper(env, addr, oi, ra, helper_be_ldq_mmu);
-+    uint64_t ret;
-+
-+    validate_memop(oi, MO_BEUQ);
-+    ret = do_ld8_mmu(env, addr, oi, ra, MMU_DATA_LOAD);
-+    plugin_load_cb(env, addr, oi);
-+    return ret;
- }
- uint16_t cpu_ldw_le_mmu(CPUArchState *env, abi_ptr addr,
-                         MemOpIdx oi, uintptr_t ra)
- {
--    return cpu_load_helper(env, addr, oi, ra, full_le_lduw_mmu);
-+    uint16_t ret;
-+
-+    validate_memop(oi, MO_LEUW);
-+    ret = do_ld2_mmu(env, addr, oi, ra, MMU_DATA_LOAD);
-+    plugin_load_cb(env, addr, oi);
-+    return ret;
- }
- uint32_t cpu_ldl_le_mmu(CPUArchState *env, abi_ptr addr,
-                         MemOpIdx oi, uintptr_t ra)
- {
--    return cpu_load_helper(env, addr, oi, ra, full_le_ldul_mmu);
-+    uint32_t ret;
-+
-+    validate_memop(oi, MO_LEUL);
-+    ret = do_ld4_mmu(env, addr, oi, ra, MMU_DATA_LOAD);
-+    plugin_load_cb(env, addr, oi);
-+    return ret;
- }
- uint64_t cpu_ldq_le_mmu(CPUArchState *env, abi_ptr addr,
-                         MemOpIdx oi, uintptr_t ra)
- {
--    return cpu_load_helper(env, addr, oi, ra, helper_le_ldq_mmu);
-+    uint64_t ret;
-+
-+    validate_memop(oi, MO_LEUQ);
-+    ret = do_ld8_mmu(env, addr, oi, ra, MMU_DATA_LOAD);
-+    plugin_load_cb(env, addr, oi);
-+    return ret;
- }
- Int128 cpu_ld16_be_mmu(CPUArchState *env, abi_ptr addr,
-@@ -XXX,XX +XXX,XX @@ void cpu_st16_le_mmu(CPUArchState *env, abi_ptr addr, Int128 val,
- /* Code access functions.  */
--static uint64_t full_ldub_code(CPUArchState *env, target_ulong addr,
--                               MemOpIdx oi, uintptr_t retaddr)
--{
--    return load_helper(env, addr, oi, retaddr, MO_8,
--                       MMU_INST_FETCH, full_ldub_code);
--}
--
- uint32_t cpu_ldub_code(CPUArchState *env, abi_ptr addr)
- {
-     MemOpIdx oi = make_memop_idx(MO_UB, cpu_mmu_index(env, true));
--    return full_ldub_code(env, addr, oi, 0);
--}
--
--static uint64_t full_lduw_code(CPUArchState *env, target_ulong addr,
--                               MemOpIdx oi, uintptr_t retaddr)
--{
--    return load_helper(env, addr, oi, retaddr, MO_TEUW,
--                       MMU_INST_FETCH, full_lduw_code);
-+    return do_ld1_mmu(env, addr, oi, 0, MMU_INST_FETCH);
- }
- uint32_t cpu_lduw_code(CPUArchState *env, abi_ptr addr)
- {
-     MemOpIdx oi = make_memop_idx(MO_TEUW, cpu_mmu_index(env, true));
--    return full_lduw_code(env, addr, oi, 0);
--}
--
--static uint64_t full_ldl_code(CPUArchState *env, target_ulong addr,
--                              MemOpIdx oi, uintptr_t retaddr)
--{
--    return load_helper(env, addr, oi, retaddr, MO_TEUL,
--                       MMU_INST_FETCH, full_ldl_code);
-+    return do_ld2_mmu(env, addr, oi, 0, MMU_INST_FETCH);
- }
- uint32_t cpu_ldl_code(CPUArchState *env, abi_ptr addr)
- {
-     MemOpIdx oi = make_memop_idx(MO_TEUL, cpu_mmu_index(env, true));
--    return full_ldl_code(env, addr, oi, 0);
--}
--
--static uint64_t full_ldq_code(CPUArchState *env, target_ulong addr,
--                              MemOpIdx oi, uintptr_t retaddr)
--{
--    return load_helper(env, addr, oi, retaddr, MO_TEUQ,
--                       MMU_INST_FETCH, full_ldq_code);
-+    return do_ld4_mmu(env, addr, oi, 0, MMU_INST_FETCH);
- }
- uint64_t cpu_ldq_code(CPUArchState *env, abi_ptr addr)
- {
-     MemOpIdx oi = make_memop_idx(MO_TEUQ, cpu_mmu_index(env, true));
--    return full_ldq_code(env, addr, oi, 0);
-+    return do_ld8_mmu(env, addr, oi, 0, MMU_INST_FETCH);
- }
- uint8_t cpu_ldb_code_mmu(CPUArchState *env, abi_ptr addr,
-                          MemOpIdx oi, uintptr_t retaddr)
- {
--    return full_ldub_code(env, addr, oi, retaddr);
-+    return do_ld1_mmu(env, addr, oi, retaddr, MMU_INST_FETCH);
- }
- uint16_t cpu_ldw_code_mmu(CPUArchState *env, abi_ptr addr,
-                           MemOpIdx oi, uintptr_t retaddr)
- {
--    MemOp mop = get_memop(oi);
--    int idx = get_mmuidx(oi);
--    uint16_t ret;
--
--    ret = full_lduw_code(env, addr, make_memop_idx(MO_TEUW, idx), retaddr);
--    if ((mop & MO_BSWAP) != MO_TE) {
--        ret = bswap16(ret);
--    }
--    return ret;
-+    return do_ld2_mmu(env, addr, oi, retaddr, MMU_INST_FETCH);
- }
- uint32_t cpu_ldl_code_mmu(CPUArchState *env, abi_ptr addr,
-                           MemOpIdx oi, uintptr_t retaddr)
- {
--    MemOp mop = get_memop(oi);
--    int idx = get_mmuidx(oi);
--    uint32_t ret;
--
--    ret = full_ldl_code(env, addr, make_memop_idx(MO_TEUL, idx), retaddr);
--    if ((mop & MO_BSWAP) != MO_TE) {
--        ret = bswap32(ret);
--    }
--    return ret;
-+    return do_ld4_mmu(env, addr, oi, retaddr, MMU_INST_FETCH);
- }
- uint64_t cpu_ldq_code_mmu(CPUArchState *env, abi_ptr addr,
-                           MemOpIdx oi, uintptr_t retaddr)
- {
--    MemOp mop = get_memop(oi);
--    int idx = get_mmuidx(oi);
--    uint64_t ret;
--
--    ret = full_ldq_code(env, addr, make_memop_idx(MO_TEUQ, idx), retaddr);
--    if ((mop & MO_BSWAP) != MO_TE) {
--        ret = bswap64(ret);
--    }
--    return ret;
-+    return do_ld8_mmu(env, addr, oi, retaddr, MMU_INST_FETCH);
- }
 --
-.34.1
+.43.0

-[PULL 07/53] disas: Move softmmu specific code to separate file
+[PULL 54/72] tcg/optimize: Move fold_cmp_vec, fold_cmpsel_vec into alphabetic sort
-From: Thomas Huth <thuth@redhat.com>
+The big comment just above says functions should be sorted.
-We'd like to move disas.c into the common code source set, where
+Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
 CONFIG_USER_ONLY is not available anymore. So we have to move
 the related code into a separate file instead.
 Signed-off-by: Thomas Huth <thuth@redhat.com>
 Message-Id: <20230508133745.109463-2-thuth@redhat.com>
 [rth: Type change done in a separate patch]
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- disas/disas-internal.h | 21 ++++++++++++
+ tcg/optimize.c | 60 +++++++++++++++++++++++++-------------------------
- disas/disas-mon.c      | 65 ++++++++++++++++++++++++++++++++++++
+file changed, 30 insertions(+), 30 deletions(-)
  disas/disas.c          | 76 ++++--------------------------------------
  disas/meson.build      |  1 +
 files changed, 93 insertions(+), 70 deletions(-)
  create mode 100644 disas/disas-internal.h
  create mode 100644 disas/disas-mon.c
-diff --git a/disas/disas-internal.h b/disas/disas-internal.h
+diff --git a/tcg/optimize.c b/tcg/optimize.c
-new file mode 100644
+index XXXXXXX..XXXXXXX 100644
-index XXXXXXX..XXXXXXX
+--- a/tcg/optimize.c
---- /dev/null
++++ b/tcg/optimize.c
-+++ b/disas/disas-internal.h
+@@ -XXX,XX +XXX,XX @@ static bool fold_call(OptContext *ctx, TCGOp *op)
-@@ -XXX,XX +XXX,XX @@
+     return true;
-+/*
+ }
-+ * Definitions used internally in the disassembly code
-+ *
++static bool fold_cmp_vec(OptContext *ctx, TCGOp *op)
 + * SPDX-License-Identifier: GPL-2.0-or-later
 + */
 +
 +#ifndef DISAS_INTERNAL_H
 +#define DISAS_INTERNAL_H
 +
 +#include "disas/dis-asm.h"
 +
 +typedef struct CPUDebug {
 +    struct disassemble_info info;
 +    CPUState *cpu;
 +} CPUDebug;
 +
 +void disas_initialize_debug_target(CPUDebug *s, CPUState *cpu);
 +int disas_gstring_printf(FILE *stream, const char *fmt, ...)
 +    G_GNUC_PRINTF(2, 3);
 +
 +#endif
 diff --git a/disas/disas-mon.c b/disas/disas-mon.c
 new file mode 100644
 index XXXXXXX..XXXXXXX
 --- /dev/null
 +++ b/disas/disas-mon.c
@@ -XXX,XX +XXX,XX @@
 +/*
 + * Functions related to disassembly from the monitor
 + *
 + * SPDX-License-Identifier: GPL-2.0-or-later
 + */
 +
 +#include "qemu/osdep.h"
 +#include "disas-internal.h"
 +#include "disas/disas.h"
 +#include "exec/memory.h"
 +#include "hw/core/cpu.h"
 +#include "monitor/monitor.h"
 +
 +static int
 +physical_read_memory(bfd_vma memaddr, bfd_byte *myaddr, int length,
 +                     struct disassemble_info *info)
 +{
-+    CPUDebug *s = container_of(info, CPUDebug, info);
++    /* Canonicalize the comparison to put immediate second. */
-+    MemTxResult res;
++    if (swap_commutative(NO_DEST, &op->args[1], &op->args[2])) {
-+
++        op->args[3] = tcg_swap_cond(op->args[3]);
-+    res = address_space_read(s->cpu->as, memaddr, MEMTXATTRS_UNSPECIFIED,
++    }
-+                             myaddr, length);
++    return finish_folding(ctx, op);
 +    return res == MEMTX_OK ? 0 : EIO;
 +}
 +
-+/* Disassembler for the monitor.  */
++static bool fold_cmpsel_vec(OptContext *ctx, TCGOp *op)
 +void monitor_disas(Monitor *mon, CPUState *cpu, uint64_t pc,
 +                   int nb_insn, bool is_physical)
 +{
-+    int count, i;
++    /* If true and false values are the same, eliminate the cmp. */
-+    CPUDebug s;
++    if (args_are_copies(op->args[3], op->args[4])) {
-+    g_autoptr(GString) ds = g_string_new("");
++        return tcg_opt_gen_mov(ctx, op, op->args[0], op->args[3]);
 +
 +    disas_initialize_debug_target(&s, cpu);
 +    s.info.fprintf_func = disas_gstring_printf;
 +    s.info.stream = (FILE *)ds;  /* abuse this slot */
 +
 +    if (is_physical) {
 +        s.info.read_memory_func = physical_read_memory;
 +    }
 +    s.info.buffer_vma = pc;
 +
 +    if (s.info.cap_arch >= 0 && cap_disas_monitor(&s.info, pc, nb_insn)) {
 +        monitor_puts(mon, ds->str);
 +        return;
 +    }
 +
-+    if (!s.info.print_insn) {
++    /* Canonicalize the comparison to put immediate second. */
-+        monitor_printf(mon, "0x%08" PRIx64
++    if (swap_commutative(NO_DEST, &op->args[1], &op->args[2])) {
-+                       ": Asm output not supported on this arch\n", pc);
++        op->args[5] = tcg_swap_cond(op->args[5]);
 +        return;
 +    }
++    /*
++     * Canonicalize the "false" input reg to match the destination,
++     * so that the tcg backend can implement "move if true".
++     */
++    if (swap_commutative(op->args[0], &op->args[4], &op->args[3])) {
++        op->args[5] = tcg_invert_cond(op->args[5]);
++    }
++    return finish_folding(ctx, op);
++}
 +
-+    for (i = 0; i < nb_insn; i++) {
+ static bool fold_count_zeros(OptContext *ctx, TCGOp *op)
-+        g_string_append_printf(ds, "0x%08" PRIx64 ":  ", pc);
+ {
-+        count = s.info.print_insn(pc, &s.info);
+     uint64_t z_mask, s_mask;
-+        g_string_append_c(ds, '\n');
+@@ -XXX,XX +XXX,XX @@ static bool fold_setcond2(OptContext *ctx, TCGOp *op)
-+        if (count < 0) {
+     return tcg_opt_gen_movi(ctx, op, op->args[0], i);
 +            break;
 +        }
 +        pc += count;
 +    }
 +
 +    monitor_puts(mon, ds->str);
 +}
 diff --git a/disas/disas.c b/disas/disas.c
 index XXXXXXX..XXXXXXX 100644
 --- a/disas/disas.c
 +++ b/disas/disas.c
@@ -XXX,XX +XXX,XX @@
  /* General "disassemble this chunk" code.  Used for debugging. */
  #include "qemu/osdep.h"
 -#include "disas/dis-asm.h"
 +#include "disas/disas-internal.h"
  #include "elf.h"
  #include "qemu/qemu-print.h"
  #include "disas/disas.h"
@@ -XXX,XX +XXX,XX @@
  #include "hw/core/cpu.h"
  #include "exec/memory.h"
 -typedef struct CPUDebug {
 -    struct disassemble_info info;
 -    CPUState *cpu;
 -} CPUDebug;
 -
  /* Filled in by elfload.c.  Simplistic, but will do for now. */
  struct syminfo *syminfos = NULL;
@@ -XXX,XX +XXX,XX @@ static void initialize_debug(CPUDebug *s)
      s->info.symbol_at_address_func = symbol_at_address;
  }
--static void initialize_debug_target(CPUDebug *s, CPUState *cpu)
+-static bool fold_cmp_vec(OptContext *ctx, TCGOp *op)
 +void disas_initialize_debug_target(CPUDebug *s, CPUState *cpu)
  {
      initialize_debug(s);
@@ -XXX,XX +XXX,XX @@ void target_disas(FILE *out, CPUState *cpu, uint64_t code, size_t size)
      int count;
      CPUDebug s;
 -    initialize_debug_target(&s, cpu);
 +    disas_initialize_debug_target(&s, cpu);
      s.info.fprintf_func = fprintf;
      s.info.stream = out;
      s.info.buffer_vma = code;
@@ -XXX,XX +XXX,XX @@ void target_disas(FILE *out, CPUState *cpu, uint64_t code, size_t size)
      }
  }
 -static int G_GNUC_PRINTF(2, 3)
 -gstring_printf(FILE *stream, const char *fmt, ...)
 +int disas_gstring_printf(FILE *stream, const char *fmt, ...)
  {
      /* We abuse the FILE parameter to pass a GString. */
      GString *s = (GString *)stream;
@@ -XXX,XX +XXX,XX @@ char *plugin_disas(CPUState *cpu, uint64_t addr, size_t size)
      CPUDebug s;
      GString *ds = g_string_new(NULL);
 -    initialize_debug_target(&s, cpu);
 -    s.info.fprintf_func = gstring_printf;
 +    disas_initialize_debug_target(&s, cpu);
 +    s.info.fprintf_func = disas_gstring_printf;
      s.info.stream = (FILE *)ds;  /* abuse this slot */
      s.info.buffer_vma = addr;
      s.info.buffer_length = size;
@@ -XXX,XX +XXX,XX @@ const char *lookup_symbol(uint64_t orig_addr)
      return symbol;
  }
 -
 -#if !defined(CONFIG_USER_ONLY)
 -
 -#include "monitor/monitor.h"
 -
 -static int
 -physical_read_memory(bfd_vma memaddr, bfd_byte *myaddr, int length,
 -                     struct disassemble_info *info)
 -{
--    CPUDebug *s = container_of(info, CPUDebug, info);
+-    /* Canonicalize the comparison to put immediate second. */
--    MemTxResult res;
+-    if (swap_commutative(NO_DEST, &op->args[1], &op->args[2])) {
--
+-        op->args[3] = tcg_swap_cond(op->args[3]);
--    res = address_space_read(s->cpu->as, memaddr, MEMTXATTRS_UNSPECIFIED,
+-    }
--                             myaddr, length);
+-    return finish_folding(ctx, op);
 -    return res == MEMTX_OK ? 0 : EIO;
 -}
 -
--/* Disassembler for the monitor.  */
+-static bool fold_cmpsel_vec(OptContext *ctx, TCGOp *op)
 -void monitor_disas(Monitor *mon, CPUState *cpu, uint64_t pc,
 -                   int nb_insn, bool is_physical)
 -{
--    int count, i;
+-    /* If true and false values are the same, eliminate the cmp. */
--    CPUDebug s;
+-    if (args_are_copies(op->args[3], op->args[4])) {
--    g_autoptr(GString) ds = g_string_new("");
+-        return tcg_opt_gen_mov(ctx, op, op->args[0], op->args[3]);
 -
 -    initialize_debug_target(&s, cpu);
 -    s.info.fprintf_func = gstring_printf;
 -    s.info.stream = (FILE *)ds;  /* abuse this slot */
 -
 -    if (is_physical) {
 -        s.info.read_memory_func = physical_read_memory;
 -    }
 -    s.info.buffer_vma = pc;
 -
 -    if (s.info.cap_arch >= 0 && cap_disas_monitor(&s.info, pc, nb_insn)) {
 -        monitor_puts(mon, ds->str);
 -        return;
 -    }
 -
--    if (!s.info.print_insn) {
+-    /* Canonicalize the comparison to put immediate second. */
--        monitor_printf(mon, "0x%08" PRIx64
+-    if (swap_commutative(NO_DEST, &op->args[1], &op->args[2])) {
--                       ": Asm output not supported on this arch\n", pc);
+-        op->args[5] = tcg_swap_cond(op->args[5]);
 -        return;
 -    }
+-    /*
+-     * Canonicalize the "false" input reg to match the destination,
+-     * so that the tcg backend can implement "move if true".
+-     */
+-    if (swap_commutative(op->args[0], &op->args[4], &op->args[3])) {
+-        op->args[5] = tcg_invert_cond(op->args[5]);
+-    }
+-    return finish_folding(ctx, op);
+-}
 -
--    for (i = 0; i < nb_insn; i++) {
+ static bool fold_sextract(OptContext *ctx, TCGOp *op)
--        g_string_append_printf(ds, "0x%08" PRIx64 ":  ", pc);
+ {
--        count = s.info.print_insn(pc, &s.info);
+     uint64_t z_mask, s_mask, s_mask_old;
 -        g_string_append_c(ds, '\n');
 -        if (count < 0) {
 -            break;
 -        }
 -        pc += count;
 -    }
 -
 -    monitor_puts(mon, ds->str);
 -}
 -#endif
 diff --git a/disas/meson.build b/disas/meson.build
 index XXXXXXX..XXXXXXX 100644
 --- a/disas/meson.build
 +++ b/disas/meson.build
@@ -XXX,XX +XXX,XX @@ common_ss.add(when: 'CONFIG_SPARC_DIS', if_true: files('sparc.c'))
  common_ss.add(when: 'CONFIG_XTENSA_DIS', if_true: files('xtensa.c'))
  common_ss.add(when: capstone, if_true: [files('capstone.c'), capstone])
 +softmmu_ss.add(files('disas-mon.c'))
  specific_ss.add(files('disas.c'), capstone)
 --
-.34.1
+.43.0

-[PULL 47/53] target/sh4: Remove TARGET_ALIGNED_ONLY
+[PULL 55/72] softfloat: Add float{16,32,64}_muladd_scalbn
+We currently have a flag, float_muladd_halve_result, to scale
+the result by 2**-1.  Extend this to handle arbitrary scaling.
 Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- configs/targets/sh4-linux-user.mak   | 1 -
+ include/fpu/softfloat.h   |  6 ++++
- configs/targets/sh4-softmmu.mak      | 1 -
+ fpu/softfloat.c           | 58 ++++++++++++++++++++++-----------------
- configs/targets/sh4eb-linux-user.mak | 1 -
+ fpu/softfloat-parts.c.inc |  7 +++--
- configs/targets/sh4eb-softmmu.mak    | 1 -
+files changed, 44 insertions(+), 27 deletions(-)
-files changed, 4 deletions(-)
+diff --git a/include/fpu/softfloat.h b/include/fpu/softfloat.h
 diff --git a/configs/targets/sh4-linux-user.mak b/configs/targets/sh4-linux-user.mak
 index XXXXXXX..XXXXXXX 100644
---- a/configs/targets/sh4-linux-user.mak
+--- a/include/fpu/softfloat.h
-+++ b/configs/targets/sh4-linux-user.mak
++++ b/include/fpu/softfloat.h
-@@ -XXX,XX +XXX,XX @@
+@@ -XXX,XX +XXX,XX @@ float16 float16_add(float16, float16, float_status *status);
- TARGET_ARCH=sh4
+ float16 float16_sub(float16, float16, float_status *status);
- TARGET_SYSTBL_ABI=common
+ float16 float16_mul(float16, float16, float_status *status);
- TARGET_SYSTBL=syscall.tbl
+ float16 float16_muladd(float16, float16, float16, int, float_status *status);
--TARGET_ALIGNED_ONLY=y
++float16 float16_muladd_scalbn(float16, float16, float16,
- TARGET_HAS_BFLT=y
++                              int, int, float_status *status);
-diff --git a/configs/targets/sh4-softmmu.mak b/configs/targets/sh4-softmmu.mak
+ float16 float16_div(float16, float16, float_status *status);
  float16 float16_scalbn(float16, int, float_status *status);
  float16 float16_min(float16, float16, float_status *status);
@@ -XXX,XX +XXX,XX @@ float32 float32_mul(float32, float32, float_status *status);
  float32 float32_div(float32, float32, float_status *status);
  float32 float32_rem(float32, float32, float_status *status);
  float32 float32_muladd(float32, float32, float32, int, float_status *status);
 +float32 float32_muladd_scalbn(float32, float32, float32,
 +                              int, int, float_status *status);
  float32 float32_sqrt(float32, float_status *status);
  float32 float32_exp2(float32, float_status *status);
  float32 float32_log2(float32, float_status *status);
@@ -XXX,XX +XXX,XX @@ float64 float64_mul(float64, float64, float_status *status);
  float64 float64_div(float64, float64, float_status *status);
  float64 float64_rem(float64, float64, float_status *status);
  float64 float64_muladd(float64, float64, float64, int, float_status *status);
 +float64 float64_muladd_scalbn(float64, float64, float64,
 +                              int, int, float_status *status);
  float64 float64_sqrt(float64, float_status *status);
  float64 float64_log2(float64, float_status *status);
  FloatRelation float64_compare(float64, float64, float_status *status);
 diff --git a/fpu/softfloat.c b/fpu/softfloat.c
 index XXXXXXX..XXXXXXX 100644
---- a/configs/targets/sh4-softmmu.mak
+--- a/fpu/softfloat.c
-+++ b/configs/targets/sh4-softmmu.mak
++++ b/fpu/softfloat.c
-@@ -1,2 +1 @@
+@@ -XXX,XX +XXX,XX @@ static FloatParts128 *parts128_mul(FloatParts128 *a, FloatParts128 *b,
- TARGET_ARCH=sh4
+ #define parts_mul(A, B, S) \
--TARGET_ALIGNED_ONLY=y
+     PARTS_GENERIC_64_128(mul, A)(A, B, S)
-diff --git a/configs/targets/sh4eb-linux-user.mak b/configs/targets/sh4eb-linux-user.mak
 -static FloatParts64 *parts64_muladd(FloatParts64 *a, FloatParts64 *b,
 -                                    FloatParts64 *c, int flags,
 -                                    float_status *s);
 -static FloatParts128 *parts128_muladd(FloatParts128 *a, FloatParts128 *b,
 -                                      FloatParts128 *c, int flags,
 -                                      float_status *s);
 +static FloatParts64 *parts64_muladd_scalbn(FloatParts64 *a, FloatParts64 *b,
 +                                           FloatParts64 *c, int scale,
 +                                           int flags, float_status *s);
 +static FloatParts128 *parts128_muladd_scalbn(FloatParts128 *a, FloatParts128 *b,
 +                                             FloatParts128 *c, int scale,
 +                                             int flags, float_status *s);
 -#define parts_muladd(A, B, C, Z, S) \
 -    PARTS_GENERIC_64_128(muladd, A)(A, B, C, Z, S)
 +#define parts_muladd_scalbn(A, B, C, Z, Y, S) \
 +    PARTS_GENERIC_64_128(muladd_scalbn, A)(A, B, C, Z, Y, S)
  static FloatParts64 *parts64_div(FloatParts64 *a, FloatParts64 *b,
                                   float_status *s);
@@ -XXX,XX +XXX,XX @@ floatx80_mul(floatx80 a, floatx80 b, float_status *status)
   * Fused multiply-add
   */
 -float16 QEMU_FLATTEN float16_muladd(float16 a, float16 b, float16 c,
 -                                    int flags, float_status *status)
 +float16 QEMU_FLATTEN
 +float16_muladd_scalbn(float16 a, float16 b, float16 c,
 +                      int scale, int flags, float_status *status)
  {
      FloatParts64 pa, pb, pc, *pr;
      float16_unpack_canonical(&pa, a, status);
      float16_unpack_canonical(&pb, b, status);
      float16_unpack_canonical(&pc, c, status);
 -    pr = parts_muladd(&pa, &pb, &pc, flags, status);
 +    pr = parts_muladd_scalbn(&pa, &pb, &pc, scale, flags, status);
      return float16_round_pack_canonical(pr, status);
  }
 -static float32 QEMU_SOFTFLOAT_ATTR
 -soft_f32_muladd(float32 a, float32 b, float32 c, int flags,
 -                float_status *status)
 +float16 float16_muladd(float16 a, float16 b, float16 c,
 +                       int flags, float_status *status)
 +{
 +    return float16_muladd_scalbn(a, b, c, 0, flags, status);
 +}
 +
 +float32 QEMU_SOFTFLOAT_ATTR
 +float32_muladd_scalbn(float32 a, float32 b, float32 c,
 +                      int scale, int flags, float_status *status)
  {
      FloatParts64 pa, pb, pc, *pr;
      float32_unpack_canonical(&pa, a, status);
      float32_unpack_canonical(&pb, b, status);
      float32_unpack_canonical(&pc, c, status);
 -    pr = parts_muladd(&pa, &pb, &pc, flags, status);
 +    pr = parts_muladd_scalbn(&pa, &pb, &pc, scale, flags, status);
      return float32_round_pack_canonical(pr, status);
  }
 -static float64 QEMU_SOFTFLOAT_ATTR
 -soft_f64_muladd(float64 a, float64 b, float64 c, int flags,
 -                float_status *status)
 +float64 QEMU_SOFTFLOAT_ATTR
 +float64_muladd_scalbn(float64 a, float64 b, float64 c,
 +                      int scale, int flags, float_status *status)
  {
      FloatParts64 pa, pb, pc, *pr;
      float64_unpack_canonical(&pa, a, status);
      float64_unpack_canonical(&pb, b, status);
      float64_unpack_canonical(&pc, c, status);
 -    pr = parts_muladd(&pa, &pb, &pc, flags, status);
 +    pr = parts_muladd_scalbn(&pa, &pb, &pc, scale, flags, status);
      return float64_round_pack_canonical(pr, status);
  }
@@ -XXX,XX +XXX,XX @@ float32_muladd(float32 xa, float32 xb, float32 xc, int flags, float_status *s)
      return ur.s;
   soft:
 -    return soft_f32_muladd(ua.s, ub.s, uc.s, flags, s);
 +    return float32_muladd_scalbn(ua.s, ub.s, uc.s, 0, flags, s);
  }
  float64 QEMU_FLATTEN
@@ -XXX,XX +XXX,XX @@ float64_muladd(float64 xa, float64 xb, float64 xc, int flags, float_status *s)
      return ur.s;
   soft:
 -    return soft_f64_muladd(ua.s, ub.s, uc.s, flags, s);
 +    return float64_muladd_scalbn(ua.s, ub.s, uc.s, 0, flags, s);
  }
  float64 float64r32_muladd(float64 a, float64 b, float64 c,
@@ -XXX,XX +XXX,XX @@ float64 float64r32_muladd(float64 a, float64 b, float64 c,
      float64_unpack_canonical(&pa, a, status);
      float64_unpack_canonical(&pb, b, status);
      float64_unpack_canonical(&pc, c, status);
 -    pr = parts_muladd(&pa, &pb, &pc, flags, status);
 +    pr = parts_muladd_scalbn(&pa, &pb, &pc, 0, flags, status);
      return float64r32_round_pack_canonical(pr, status);
  }
@@ -XXX,XX +XXX,XX @@ bfloat16 QEMU_FLATTEN bfloat16_muladd(bfloat16 a, bfloat16 b, bfloat16 c,
      bfloat16_unpack_canonical(&pa, a, status);
      bfloat16_unpack_canonical(&pb, b, status);
      bfloat16_unpack_canonical(&pc, c, status);
 -    pr = parts_muladd(&pa, &pb, &pc, flags, status);
 +    pr = parts_muladd_scalbn(&pa, &pb, &pc, 0, flags, status);
      return bfloat16_round_pack_canonical(pr, status);
  }
@@ -XXX,XX +XXX,XX @@ float128 QEMU_FLATTEN float128_muladd(float128 a, float128 b, float128 c,
      float128_unpack_canonical(&pa, a, status);
      float128_unpack_canonical(&pb, b, status);
      float128_unpack_canonical(&pc, c, status);
 -    pr = parts_muladd(&pa, &pb, &pc, flags, status);
 +    pr = parts_muladd_scalbn(&pa, &pb, &pc, 0, flags, status);
      return float128_round_pack_canonical(pr, status);
  }
@@ -XXX,XX +XXX,XX @@ float32 float32_exp2(float32 a, float_status *status)
      float64_unpack_canonical(&rp, float64_one, status);
      for (i = 0 ; i < 15 ; i++) {
 +
          float64_unpack_canonical(&tp, float32_exp2_coefficients[i], status);
 -        rp = *parts_muladd(&tp, &xnp, &rp, 0, status);
 +        rp = *parts_muladd_scalbn(&tp, &xnp, &rp, 0, 0, status);
          xnp = *parts_mul(&xnp, &xp, status);
      }
 diff --git a/fpu/softfloat-parts.c.inc b/fpu/softfloat-parts.c.inc
 index XXXXXXX..XXXXXXX 100644
---- a/configs/targets/sh4eb-linux-user.mak
+--- a/fpu/softfloat-parts.c.inc
-+++ b/configs/targets/sh4eb-linux-user.mak
++++ b/fpu/softfloat-parts.c.inc
-@@ -XXX,XX +XXX,XX @@
+@@ -XXX,XX +XXX,XX @@ static FloatPartsN *partsN(mul)(FloatPartsN *a, FloatPartsN *b,
- TARGET_ARCH=sh4
+  * Requires A and C extracted into a double-sized structure to provide the
- TARGET_SYSTBL_ABI=common
+  * extra space for the widening multiply.
- TARGET_SYSTBL=syscall.tbl
+  */
--TARGET_ALIGNED_ONLY=y
+-static FloatPartsN *partsN(muladd)(FloatPartsN *a, FloatPartsN *b,
- TARGET_BIG_ENDIAN=y
+-                                   FloatPartsN *c, int flags, float_status *s)
- TARGET_HAS_BFLT=y
++static FloatPartsN *partsN(muladd_scalbn)(FloatPartsN *a, FloatPartsN *b,
-diff --git a/configs/targets/sh4eb-softmmu.mak b/configs/targets/sh4eb-softmmu.mak
++                                          FloatPartsN *c, int scale,
-index XXXXXXX..XXXXXXX 100644
++                                          int flags, float_status *s)
---- a/configs/targets/sh4eb-softmmu.mak
+ {
-+++ b/configs/targets/sh4eb-softmmu.mak
+     int ab_mask, abc_mask;
-@@ -XXX,XX +XXX,XX @@
+     FloatPartsW p_widen, c_widen;
- TARGET_ARCH=sh4
+@@ -XXX,XX +XXX,XX @@ static FloatPartsN *partsN(muladd)(FloatPartsN *a, FloatPartsN *b,
--TARGET_ALIGNED_ONLY=y
+     a->exp = p_widen.exp;
- TARGET_BIG_ENDIAN=y
   return_normal:
 +    /* TODO: Replace all use of float_muladd_halve_result with scale. */
      if (flags & float_muladd_halve_result) {
          a->exp -= 1;
      }
 +    a->exp += scale;
   finish_sign:
      if (flags & float_muladd_negate_result) {
          a->sign ^= 1;
 --
-.34.1
+.43.0

-[PULL 45/53] target/nios2: Remove TARGET_ALIGNED_ONLY
+[PULL 56/72] target/arm: Use float*_muladd_scalbn
-In gen_ldx/gen_stx, the only two locations for memory operations,
+Use the scalbn interface instead of float_muladd_halve_result.
 mark the operation as either aligned (softmmu) or unaligned
 (user-only, as if emulated by the kernel).
 Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- configs/targets/nios2-softmmu.mak |  1 -
+ target/arm/tcg/helper-a64.c | 6 +++---
- target/nios2/translate.c          | 10 ++++++++++
+file changed, 3 insertions(+), 3 deletions(-)
 files changed, 10 insertions(+), 1 deletion(-)
-diff --git a/configs/targets/nios2-softmmu.mak b/configs/targets/nios2-softmmu.mak
+diff --git a/target/arm/tcg/helper-a64.c b/target/arm/tcg/helper-a64.c
 index XXXXXXX..XXXXXXX 100644
---- a/configs/targets/nios2-softmmu.mak
+--- a/target/arm/tcg/helper-a64.c
-+++ b/configs/targets/nios2-softmmu.mak
++++ b/target/arm/tcg/helper-a64.c
-@@ -XXX,XX +XXX,XX @@
+@@ -XXX,XX +XXX,XX @@ uint32_t HELPER(rsqrtsf_f16)(uint32_t a, uint32_t b, float_status *fpst)
- TARGET_ARCH=nios2
+         (float16_is_infinity(b) && float16_is_zero(a))) {
--TARGET_ALIGNED_ONLY=y
+         return float16_one_point_five;
- TARGET_NEED_FDT=y
+     }
-diff --git a/target/nios2/translate.c b/target/nios2/translate.c
+-    return float16_muladd(a, b, float16_three, float_muladd_halve_result, fpst);
-index XXXXXXX..XXXXXXX 100644
++    return float16_muladd_scalbn(a, b, float16_three, -1, 0, fpst);
 --- a/target/nios2/translate.c
 +++ b/target/nios2/translate.c
@@ -XXX,XX +XXX,XX @@ static void gen_ldx(DisasContext *dc, uint32_t code, uint32_t flags)
      TCGv data = dest_gpr(dc, instr.b);
      tcg_gen_addi_tl(addr, load_gpr(dc, instr.a), instr.imm16.s);
 +#ifdef CONFIG_USER_ONLY
 +    flags |= MO_UNALN;
 +#else
 +    flags |= MO_ALIGN;
 +#endif
      tcg_gen_qemu_ld_tl(data, addr, dc->mem_idx, flags);
  }
-@@ -XXX,XX +XXX,XX @@ static void gen_stx(DisasContext *dc, uint32_t code, uint32_t flags)
+ float32 HELPER(rsqrtsf_f32)(float32 a, float32 b, float_status *fpst)
+@@ -XXX,XX +XXX,XX @@ float32 HELPER(rsqrtsf_f32)(float32 a, float32 b, float_status *fpst)
-     TCGv addr = tcg_temp_new();
+         (float32_is_infinity(b) && float32_is_zero(a))) {
-     tcg_gen_addi_tl(addr, load_gpr(dc, instr.a), instr.imm16.s);
+         return float32_one_point_five;
-+#ifdef CONFIG_USER_ONLY
+     }
-+    flags |= MO_UNALN;
+-    return float32_muladd(a, b, float32_three, float_muladd_halve_result, fpst);
-+#else
++    return float32_muladd_scalbn(a, b, float32_three, -1, 0, fpst);
 +    flags |= MO_ALIGN;
 +#endif
      tcg_gen_qemu_st_tl(val, addr, dc->mem_idx, flags);
  }
+ float64 HELPER(rsqrtsf_f64)(float64 a, float64 b, float_status *fpst)
+@@ -XXX,XX +XXX,XX @@ float64 HELPER(rsqrtsf_f64)(float64 a, float64 b, float_status *fpst)
+         (float64_is_infinity(b) && float64_is_zero(a))) {
+         return float64_one_point_five;
+     }
+-    return float64_muladd(a, b, float64_three, float_muladd_halve_result, fpst);
++    return float64_muladd_scalbn(a, b, float64_three, -1, 0, fpst);
+ }
+ /* Floating-point reciprocal exponent - see FPRecpX in ARM ARM */
 --
-.34.1
+.43.0

-[PULL 48/53] tcg: Remove TARGET_ALIGNED_ONLY
+[PULL 57/72] target/sparc: Use float*_muladd_scalbn
-All uses have now been expunged.
+Use the scalbn interface instead of float_muladd_halve_result.
 Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- include/exec/memop.h  | 13 ++-----------
+ target/sparc/helper.h     |  4 +-
- include/exec/poison.h |  1 -
+ target/sparc/fop_helper.c |  8 ++--
- tcg/tcg.c             |  5 -----
+ target/sparc/translate.c  | 80 +++++++++++++++++++++++----------------
-files changed, 2 insertions(+), 17 deletions(-)
+files changed, 54 insertions(+), 38 deletions(-)
-diff --git a/include/exec/memop.h b/include/exec/memop.h
+diff --git a/target/sparc/helper.h b/target/sparc/helper.h
 index XXXXXXX..XXXXXXX 100644
---- a/include/exec/memop.h
+--- a/target/sparc/helper.h
-+++ b/include/exec/memop.h
++++ b/target/sparc/helper.h
-@@ -XXX,XX +XXX,XX @@ typedef enum MemOp {
+@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_3(faddd, TCG_CALL_NO_WG, f64, env, f64, f64)
-      * MO_UNALN accesses are never checked for alignment.
+ DEF_HELPER_FLAGS_3(fsubd, TCG_CALL_NO_WG, f64, env, f64, f64)
-      * MO_ALIGN accesses will result in a call to the CPU's
+ DEF_HELPER_FLAGS_3(fmuld, TCG_CALL_NO_WG, f64, env, f64, f64)
-      * do_unaligned_access hook if the guest address is not aligned.
+ DEF_HELPER_FLAGS_3(fdivd, TCG_CALL_NO_WG, f64, env, f64, f64)
--     * The default depends on whether the target CPU defines
+-DEF_HELPER_FLAGS_5(fmaddd, TCG_CALL_NO_WG, f64, env, f64, f64, f64, i32)
--     * TARGET_ALIGNED_ONLY.
++DEF_HELPER_FLAGS_6(fmaddd, TCG_CALL_NO_WG, f64, env, f64, f64, f64, s32, i32)
-      *
+ DEF_HELPER_FLAGS_3(fnaddd, TCG_CALL_NO_WG, f64, env, f64, f64)
-      * Some architectures (e.g. ARMv8) need the address which is aligned
+ DEF_HELPER_FLAGS_3(fnmuld, TCG_CALL_NO_WG, f64, env, f64, f64)
-      * to a size more than the size of the memory access.
-@@ -XXX,XX +XXX,XX @@ typedef enum MemOp {
+@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_3(fadds, TCG_CALL_NO_WG, f32, env, f32, f32)
-      */
+ DEF_HELPER_FLAGS_3(fsubs, TCG_CALL_NO_WG, f32, env, f32, f32)
-     MO_ASHIFT = 5,
+ DEF_HELPER_FLAGS_3(fmuls, TCG_CALL_NO_WG, f32, env, f32, f32)
-     MO_AMASK = 0x7 << MO_ASHIFT,
+ DEF_HELPER_FLAGS_3(fdivs, TCG_CALL_NO_WG, f32, env, f32, f32)
--#ifdef NEED_CPU_H
+-DEF_HELPER_FLAGS_5(fmadds, TCG_CALL_NO_WG, f32, env, f32, f32, f32, i32)
--#ifdef TARGET_ALIGNED_ONLY
++DEF_HELPER_FLAGS_6(fmadds, TCG_CALL_NO_WG, f32, env, f32, f32, f32, s32, i32)
--    MO_ALIGN = 0,
+ DEF_HELPER_FLAGS_3(fnadds, TCG_CALL_NO_WG, f32, env, f32, f32)
--    MO_UNALN = MO_AMASK,
+ DEF_HELPER_FLAGS_3(fnmuls, TCG_CALL_NO_WG, f32, env, f32, f32)
--#else
--    MO_ALIGN = MO_AMASK,
+diff --git a/target/sparc/fop_helper.c b/target/sparc/fop_helper.c
 -    MO_UNALN = 0,
 -#endif
 -#endif
 +    MO_UNALN    = 0,
      MO_ALIGN_2  = 1 << MO_ASHIFT,
      MO_ALIGN_4  = 2 << MO_ASHIFT,
      MO_ALIGN_8  = 3 << MO_ASHIFT,
      MO_ALIGN_16 = 4 << MO_ASHIFT,
      MO_ALIGN_32 = 5 << MO_ASHIFT,
      MO_ALIGN_64 = 6 << MO_ASHIFT,
 +    MO_ALIGN    = MO_AMASK,
      /* Combinations of the above, for ease of use.  */
      MO_UB    = MO_8,
 diff --git a/include/exec/poison.h b/include/exec/poison.h
 index XXXXXXX..XXXXXXX 100644
---- a/include/exec/poison.h
+--- a/target/sparc/fop_helper.c
-+++ b/include/exec/poison.h
++++ b/target/sparc/fop_helper.c
-@@ -XXX,XX +XXX,XX @@
+@@ -XXX,XX +XXX,XX @@ Int128 helper_fsqrtq(CPUSPARCState *env, Int128 src)
- #pragma GCC poison TARGET_TRICORE
+ }
- #pragma GCC poison TARGET_XTENSA
+ float32 helper_fmadds(CPUSPARCState *env, float32 s1,
--#pragma GCC poison TARGET_ALIGNED_ONLY
+-                      float32 s2, float32 s3, uint32_t op)
- #pragma GCC poison TARGET_HAS_BFLT
++                      float32 s2, float32 s3, int32_t sc, uint32_t op)
- #pragma GCC poison TARGET_NAME
+ {
- #pragma GCC poison TARGET_SUPPORTS_MTTCG
+-    float32 ret = float32_muladd(s1, s2, s3, op, &env->fp_status);
-diff --git a/tcg/tcg.c b/tcg/tcg.c
++    float32 ret = float32_muladd_scalbn(s1, s2, s3, sc, op, &env->fp_status);
      check_ieee_exceptions(env, GETPC());
      return ret;
  }
  float64 helper_fmaddd(CPUSPARCState *env, float64 s1,
 -                      float64 s2, float64 s3, uint32_t op)
 +                      float64 s2, float64 s3, int32_t sc, uint32_t op)
  {
 -    float64 ret = float64_muladd(s1, s2, s3, op, &env->fp_status);
 +    float64 ret = float64_muladd_scalbn(s1, s2, s3, sc, op, &env->fp_status);
      check_ieee_exceptions(env, GETPC());
      return ret;
  }
 diff --git a/target/sparc/translate.c b/target/sparc/translate.c
 index XXXXXXX..XXXXXXX 100644
---- a/tcg/tcg.c
+--- a/target/sparc/translate.c
-+++ b/tcg/tcg.c
++++ b/target/sparc/translate.c
-@@ -XXX,XX +XXX,XX @@ static const char * const ldst_name[] =
+@@ -XXX,XX +XXX,XX @@ static void gen_op_fabsq(TCGv_i128 dst, TCGv_i128 src)
- };
+ static void gen_op_fmadds(TCGv_i32 d, TCGv_i32 s1, TCGv_i32 s2, TCGv_i32 s3)
- static const char * const alignment_name[(MO_AMASK >> MO_ASHIFT) + 1] = {
+ {
--#ifdef TARGET_ALIGNED_ONLY
+-    gen_helper_fmadds(d, tcg_env, s1, s2, s3, tcg_constant_i32(0));
-     [MO_UNALN >> MO_ASHIFT]    = "un+",
++    TCGv_i32 z = tcg_constant_i32(0);
--    [MO_ALIGN >> MO_ASHIFT]    = "",
++    gen_helper_fmadds(d, tcg_env, s1, s2, s3, z, z);
--#else
+ }
--    [MO_UNALN >> MO_ASHIFT]    = "",
-     [MO_ALIGN >> MO_ASHIFT]    = "al+",
+ static void gen_op_fmaddd(TCGv_i64 d, TCGv_i64 s1, TCGv_i64 s2, TCGv_i64 s3)
--#endif
+ {
-     [MO_ALIGN_2 >> MO_ASHIFT]  = "al2+",
+-    gen_helper_fmaddd(d, tcg_env, s1, s2, s3, tcg_constant_i32(0));
-     [MO_ALIGN_4 >> MO_ASHIFT]  = "al4+",
++    TCGv_i32 z = tcg_constant_i32(0);
-     [MO_ALIGN_8 >> MO_ASHIFT]  = "al8+",
++    gen_helper_fmaddd(d, tcg_env, s1, s2, s3, z, z);
  }
  static void gen_op_fmsubs(TCGv_i32 d, TCGv_i32 s1, TCGv_i32 s2, TCGv_i32 s3)
  {
 -    int op = float_muladd_negate_c;
 -    gen_helper_fmadds(d, tcg_env, s1, s2, s3, tcg_constant_i32(op));
 +    TCGv_i32 z = tcg_constant_i32(0);
 +    TCGv_i32 op = tcg_constant_i32(float_muladd_negate_c);
 +    gen_helper_fmadds(d, tcg_env, s1, s2, s3, z, op);
  }
  static void gen_op_fmsubd(TCGv_i64 d, TCGv_i64 s1, TCGv_i64 s2, TCGv_i64 s3)
  {
 -    int op = float_muladd_negate_c;
 -    gen_helper_fmaddd(d, tcg_env, s1, s2, s3, tcg_constant_i32(op));
 +    TCGv_i32 z = tcg_constant_i32(0);
 +    TCGv_i32 op = tcg_constant_i32(float_muladd_negate_c);
 +    gen_helper_fmaddd(d, tcg_env, s1, s2, s3, z, op);
  }
  static void gen_op_fnmsubs(TCGv_i32 d, TCGv_i32 s1, TCGv_i32 s2, TCGv_i32 s3)
  {
 -    int op = float_muladd_negate_c | float_muladd_negate_result;
 -    gen_helper_fmadds(d, tcg_env, s1, s2, s3, tcg_constant_i32(op));
 +    TCGv_i32 z = tcg_constant_i32(0);
 +    TCGv_i32 op = tcg_constant_i32(float_muladd_negate_c |
 +                                   float_muladd_negate_result);
 +    gen_helper_fmadds(d, tcg_env, s1, s2, s3, z, op);
  }
  static void gen_op_fnmsubd(TCGv_i64 d, TCGv_i64 s1, TCGv_i64 s2, TCGv_i64 s3)
  {
 -    int op = float_muladd_negate_c | float_muladd_negate_result;
 -    gen_helper_fmaddd(d, tcg_env, s1, s2, s3, tcg_constant_i32(op));
 +    TCGv_i32 z = tcg_constant_i32(0);
 +    TCGv_i32 op = tcg_constant_i32(float_muladd_negate_c |
 +                                   float_muladd_negate_result);
 +    gen_helper_fmaddd(d, tcg_env, s1, s2, s3, z, op);
  }
  static void gen_op_fnmadds(TCGv_i32 d, TCGv_i32 s1, TCGv_i32 s2, TCGv_i32 s3)
  {
 -    int op = float_muladd_negate_result;
 -    gen_helper_fmadds(d, tcg_env, s1, s2, s3, tcg_constant_i32(op));
 +    TCGv_i32 z = tcg_constant_i32(0);
 +    TCGv_i32 op = tcg_constant_i32(float_muladd_negate_result);
 +    gen_helper_fmadds(d, tcg_env, s1, s2, s3, z, op);
  }
  static void gen_op_fnmaddd(TCGv_i64 d, TCGv_i64 s1, TCGv_i64 s2, TCGv_i64 s3)
  {
 -    int op = float_muladd_negate_result;
 -    gen_helper_fmaddd(d, tcg_env, s1, s2, s3, tcg_constant_i32(op));
 +    TCGv_i32 z = tcg_constant_i32(0);
 +    TCGv_i32 op = tcg_constant_i32(float_muladd_negate_result);
 +    gen_helper_fmaddd(d, tcg_env, s1, s2, s3, z, op);
  }
  /* Use muladd to compute (1 * src1) + src2 / 2 with one rounding. */
  static void gen_op_fhadds(TCGv_i32 d, TCGv_i32 s1, TCGv_i32 s2)
  {
 -    TCGv_i32 one = tcg_constant_i32(float32_one);
 -    int op = float_muladd_halve_result;
 -    gen_helper_fmadds(d, tcg_env, one, s1, s2, tcg_constant_i32(op));
 +    TCGv_i32 fone = tcg_constant_i32(float32_one);
 +    TCGv_i32 mone = tcg_constant_i32(-1);
 +    TCGv_i32 op = tcg_constant_i32(0);
 +    gen_helper_fmadds(d, tcg_env, fone, s1, s2, mone, op);
  }
  static void gen_op_fhaddd(TCGv_i64 d, TCGv_i64 s1, TCGv_i64 s2)
  {
 -    TCGv_i64 one = tcg_constant_i64(float64_one);
 -    int op = float_muladd_halve_result;
 -    gen_helper_fmaddd(d, tcg_env, one, s1, s2, tcg_constant_i32(op));
 +    TCGv_i64 fone = tcg_constant_i64(float64_one);
 +    TCGv_i32 mone = tcg_constant_i32(-1);
 +    TCGv_i32 op = tcg_constant_i32(0);
 +    gen_helper_fmaddd(d, tcg_env, fone, s1, s2, mone, op);
  }
  /* Use muladd to compute (1 * src1) - src2 / 2 with one rounding. */
  static void gen_op_fhsubs(TCGv_i32 d, TCGv_i32 s1, TCGv_i32 s2)
  {
 -    TCGv_i32 one = tcg_constant_i32(float32_one);
 -    int op = float_muladd_negate_c | float_muladd_halve_result;
 -    gen_helper_fmadds(d, tcg_env, one, s1, s2, tcg_constant_i32(op));
 +    TCGv_i32 fone = tcg_constant_i32(float32_one);
 +    TCGv_i32 mone = tcg_constant_i32(-1);
 +    TCGv_i32 op = tcg_constant_i32(float_muladd_negate_c);
 +    gen_helper_fmadds(d, tcg_env, fone, s1, s2, mone, op);
  }
  static void gen_op_fhsubd(TCGv_i64 d, TCGv_i64 s1, TCGv_i64 s2)
  {
 -    TCGv_i64 one = tcg_constant_i64(float64_one);
 -    int op = float_muladd_negate_c | float_muladd_halve_result;
 -    gen_helper_fmaddd(d, tcg_env, one, s1, s2, tcg_constant_i32(op));
 +    TCGv_i64 fone = tcg_constant_i64(float64_one);
 +    TCGv_i32 mone = tcg_constant_i32(-1);
 +    TCGv_i32 op = tcg_constant_i32(float_muladd_negate_c);
 +    gen_helper_fmaddd(d, tcg_env, fone, s1, s2, mone, op);
  }
  /* Use muladd to compute -((1 * src1) + src2 / 2) with one rounding. */
  static void gen_op_fnhadds(TCGv_i32 d, TCGv_i32 s1, TCGv_i32 s2)
  {
 -    TCGv_i32 one = tcg_constant_i32(float32_one);
 -    int op = float_muladd_negate_result | float_muladd_halve_result;
 -    gen_helper_fmadds(d, tcg_env, one, s1, s2, tcg_constant_i32(op));
 +    TCGv_i32 fone = tcg_constant_i32(float32_one);
 +    TCGv_i32 mone = tcg_constant_i32(-1);
 +    TCGv_i32 op = tcg_constant_i32(float_muladd_negate_result);
 +    gen_helper_fmadds(d, tcg_env, fone, s1, s2, mone, op);
  }
  static void gen_op_fnhaddd(TCGv_i64 d, TCGv_i64 s1, TCGv_i64 s2)
  {
 -    TCGv_i64 one = tcg_constant_i64(float64_one);
 -    int op = float_muladd_negate_result | float_muladd_halve_result;
 -    gen_helper_fmaddd(d, tcg_env, one, s1, s2, tcg_constant_i32(op));
 +    TCGv_i64 fone = tcg_constant_i64(float64_one);
 +    TCGv_i32 mone = tcg_constant_i32(-1);
 +    TCGv_i32 op = tcg_constant_i32(float_muladd_negate_result);
 +    gen_helper_fmaddd(d, tcg_env, fone, s1, s2, mone, op);
  }
  static void gen_op_fpexception_im(DisasContext *dc, int ftt)
 --
-.34.1
+.43.0

-[PULL 43/53] target/mips: Use MO_ALIGN instead of 0
+[PULL 58/72] softfloat: Remove float_muladd_halve_result
-The opposite of MO_UNALN is MO_ALIGN.
+All uses have been convered to float*_muladd_scalbn.
 Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- target/mips/tcg/nanomips_translate.c.inc | 2 +-
+ include/fpu/softfloat.h   | 3 ---
-file changed, 1 insertion(+), 1 deletion(-)
+ fpu/softfloat.c           | 6 ------
  fpu/softfloat-parts.c.inc | 4 ----
 files changed, 13 deletions(-)
-diff --git a/target/mips/tcg/nanomips_translate.c.inc b/target/mips/tcg/nanomips_translate.c.inc
+diff --git a/include/fpu/softfloat.h b/include/fpu/softfloat.h
 index XXXXXXX..XXXXXXX 100644
---- a/target/mips/tcg/nanomips_translate.c.inc
+--- a/include/fpu/softfloat.h
-+++ b/target/mips/tcg/nanomips_translate.c.inc
++++ b/include/fpu/softfloat.h
-@@ -XXX,XX +XXX,XX @@ static int decode_nanomips_32_48_opc(CPUMIPSState *env, DisasContext *ctx)
+@@ -XXX,XX +XXX,XX @@ bfloat16 bfloat16_squash_input_denormal(bfloat16 a, float_status *status);
-                     TCGv va = tcg_temp_new();
+ | Using these differs from negating an input or output before calling
-                     TCGv t1 = tcg_temp_new();
+ | the muladd function in that this means that a NaN doesn't have its
-                     MemOp memop = (extract32(ctx->opcode, 8, 3)) ==
+ | sign bit inverted before it is propagated.
--                                      NM_P_LS_UAWM ? MO_UNALN : 0;
+-| We also support halving the result before rounding, as a special
-+                                      NM_P_LS_UAWM ? MO_UNALN : MO_ALIGN;
+-| case to support the ARM fused-sqrt-step instruction FRSQRTS.
+ *----------------------------------------------------------------------------*/
-                     count = (count == 0) ? 8 : count;
+ enum {
-                     while (counter != count) {
+     float_muladd_negate_c = 1,
      float_muladd_negate_product = 2,
      float_muladd_negate_result = 4,
 -    float_muladd_halve_result = 8,
  };
  /*----------------------------------------------------------------------------
 diff --git a/fpu/softfloat.c b/fpu/softfloat.c
 index XXXXXXX..XXXXXXX 100644
 --- a/fpu/softfloat.c
 +++ b/fpu/softfloat.c
@@ -XXX,XX +XXX,XX @@ float32_muladd(float32 xa, float32 xb, float32 xc, int flags, float_status *s)
      if (unlikely(!can_use_fpu(s))) {
          goto soft;
      }
 -    if (unlikely(flags & float_muladd_halve_result)) {
 -        goto soft;
 -    }
      float32_input_flush3(&ua.s, &ub.s, &uc.s, s);
      if (unlikely(!f32_is_zon3(ua, ub, uc))) {
@@ -XXX,XX +XXX,XX @@ float64_muladd(float64 xa, float64 xb, float64 xc, int flags, float_status *s)
      if (unlikely(!can_use_fpu(s))) {
          goto soft;
      }
 -    if (unlikely(flags & float_muladd_halve_result)) {
 -        goto soft;
 -    }
      float64_input_flush3(&ua.s, &ub.s, &uc.s, s);
      if (unlikely(!f64_is_zon3(ua, ub, uc))) {
 diff --git a/fpu/softfloat-parts.c.inc b/fpu/softfloat-parts.c.inc
 index XXXXXXX..XXXXXXX 100644
 --- a/fpu/softfloat-parts.c.inc
 +++ b/fpu/softfloat-parts.c.inc
@@ -XXX,XX +XXX,XX @@ static FloatPartsN *partsN(muladd_scalbn)(FloatPartsN *a, FloatPartsN *b,
      a->exp = p_widen.exp;
   return_normal:
 -    /* TODO: Replace all use of float_muladd_halve_result with scale. */
 -    if (flags & float_muladd_halve_result) {
 -        a->exp -= 1;
 -    }
      a->exp += scale;
   finish_sign:
      if (flags & float_muladd_negate_result) {
 --
-.34.1
+.43.0

-[PULL 41/53] target/mips: Add MO_ALIGN to gen_llwp, gen_scwp
+[PULL 59/72] softfloat: Add float_round_nearest_even_max
-These are atomic operations, so mark as requiring alignment.
+This rounding mode is used by Hexagon.
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- target/mips/tcg/nanomips_translate.c.inc | 5 +++--
+ include/fpu/softfloat-types.h | 2 ++
-file changed, 3 insertions(+), 2 deletions(-)
+ fpu/softfloat-parts.c.inc     | 3 +++
 files changed, 5 insertions(+)
-diff --git a/target/mips/tcg/nanomips_translate.c.inc b/target/mips/tcg/nanomips_translate.c.inc
+diff --git a/include/fpu/softfloat-types.h b/include/fpu/softfloat-types.h
 index XXXXXXX..XXXXXXX 100644
---- a/target/mips/tcg/nanomips_translate.c.inc
+--- a/include/fpu/softfloat-types.h
-+++ b/target/mips/tcg/nanomips_translate.c.inc
++++ b/include/fpu/softfloat-types.h
-@@ -XXX,XX +XXX,XX @@ static void gen_llwp(DisasContext *ctx, uint32_t base, int16_t offset,
+@@ -XXX,XX +XXX,XX @@ typedef enum __attribute__((__packed__)) {
-     TCGv tmp2 = tcg_temp_new();
+     float_round_to_odd       = 5,
+     /* Not an IEEE rounding mode: round to closest odd, overflow to inf */
-     gen_base_offset_addr(ctx, taddr, base, offset);
+     float_round_to_odd_inf   = 6,
--    tcg_gen_qemu_ld_i64(tval, taddr, ctx->mem_idx, MO_TEUQ);
++    /* Not an IEEE rounding mode: round to nearest even, overflow to max */
-+    tcg_gen_qemu_ld_i64(tval, taddr, ctx->mem_idx, MO_TEUQ | MO_ALIGN);
++    float_round_nearest_even_max = 7,
-     if (cpu_is_bigendian(ctx)) {
+ } FloatRoundMode;
-         tcg_gen_extr_i64_tl(tmp2, tmp1, tval);
-     } else {
+ /*
-@@ -XXX,XX +XXX,XX @@ static void gen_scwp(DisasContext *ctx, uint32_t base, int16_t offset,
+diff --git a/fpu/softfloat-parts.c.inc b/fpu/softfloat-parts.c.inc
+index XXXXXXX..XXXXXXX 100644
-     tcg_gen_ld_i64(llval, cpu_env, offsetof(CPUMIPSState, llval_wp));
+--- a/fpu/softfloat-parts.c.inc
-     tcg_gen_atomic_cmpxchg_i64(val, taddr, llval, tval,
++++ b/fpu/softfloat-parts.c.inc
--                               eva ? MIPS_HFLAG_UM : ctx->mem_idx, MO_64);
+@@ -XXX,XX +XXX,XX @@ static void partsN(uncanon_normal)(FloatPartsN *p, float_status *s,
-+                               eva ? MIPS_HFLAG_UM : ctx->mem_idx,
+     int exp, flags = 0;
-+                               MO_64 | MO_ALIGN);
-     if (reg1 != 0) {
+     switch (s->float_rounding_mode) {
-         tcg_gen_movi_tl(cpu_gpr[reg1], 1);
++    case float_round_nearest_even_max:
-     }
++        overflow_norm = true;
 +        /* fall through */
      case float_round_nearest_even:
          if (N > 64 && frac_lsb == 0) {
              inc = ((p->frac_hi & 1) || (p->frac_lo & round_mask) != frac_lsbm1
 --
-.34.1
+.43.0

-[PULL 08/53] disas: Move disas.c into the target-independent source set
+[PULL 60/72] softfloat: Add float_muladd_suppress_add_product_zero
-From: Thomas Huth <thuth@redhat.com>
+Certain Hexagon instructions suppress changes to the result
 when the product of fma() is a true zero.
-By using target_words_bigendian() instead of an ifdef,
-we can build this code once.
-Signed-off-by: Thomas Huth <thuth@redhat.com>
-Message-Id: <20230508133745.109463-3-thuth@redhat.com>
-[rth: Type change done in a separate patch]
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- disas/disas.c     | 10 +++++-----
+ include/fpu/softfloat.h   | 5 +++++
- disas/meson.build |  3 ++-
+ fpu/softfloat.c           | 3 +++
-files changed, 7 insertions(+), 6 deletions(-)
+ fpu/softfloat-parts.c.inc | 4 +++-
 files changed, 11 insertions(+), 1 deletion(-)
-diff --git a/disas/disas.c b/disas/disas.c
+diff --git a/include/fpu/softfloat.h b/include/fpu/softfloat.h
 index XXXXXXX..XXXXXXX 100644
---- a/disas/disas.c
+--- a/include/fpu/softfloat.h
-+++ b/disas/disas.c
++++ b/include/fpu/softfloat.h
-@@ -XXX,XX +XXX,XX @@ void disas_initialize_debug_target(CPUDebug *s, CPUState *cpu)
+@@ -XXX,XX +XXX,XX @@ bfloat16 bfloat16_squash_input_denormal(bfloat16 a, float_status *status);
-     s->cpu = cpu;
+ | Using these differs from negating an input or output before calling
-     s->info.read_memory_func = target_read_memory;
+ | the muladd function in that this means that a NaN doesn't have its
-     s->info.print_address_func = print_address;
+ | sign bit inverted before it is propagated.
--#if TARGET_BIG_ENDIAN
++|
--    s->info.endian = BFD_ENDIAN_BIG;
++| With float_muladd_suppress_add_product_zero, if A or B is zero
--#else
++| such that the product is a true zero, then return C without addition.
--    s->info.endian = BFD_ENDIAN_LITTLE;
++| This preserves the sign of C when C is +/- 0.  Used for Hexagon.
--#endif
+ *----------------------------------------------------------------------------*/
-+    if (target_words_bigendian()) {
+ enum {
-+        s->info.endian = BFD_ENDIAN_BIG;
+     float_muladd_negate_c = 1,
-+    } else {
+     float_muladd_negate_product = 2,
-+        s->info.endian =  BFD_ENDIAN_LITTLE;
+     float_muladd_negate_result = 4,
 +    float_muladd_suppress_add_product_zero = 8,
  };
  /*----------------------------------------------------------------------------
 diff --git a/fpu/softfloat.c b/fpu/softfloat.c
 index XXXXXXX..XXXXXXX 100644
 --- a/fpu/softfloat.c
 +++ b/fpu/softfloat.c
@@ -XXX,XX +XXX,XX @@ float32_muladd(float32 xa, float32 xb, float32 xc, int flags, float_status *s)
      if (unlikely(!can_use_fpu(s))) {
          goto soft;
      }
 +    if (unlikely(flags & float_muladd_suppress_add_product_zero)) {
 +        goto soft;
 +    }
-     CPUClass *cc = CPU_GET_CLASS(cpu);
+     float32_input_flush3(&ua.s, &ub.s, &uc.s, s);
-     if (cc->disas_set_info) {
+     if (unlikely(!f32_is_zon3(ua, ub, uc))) {
-diff --git a/disas/meson.build b/disas/meson.build
+diff --git a/fpu/softfloat-parts.c.inc b/fpu/softfloat-parts.c.inc
 index XXXXXXX..XXXXXXX 100644
---- a/disas/meson.build
+--- a/fpu/softfloat-parts.c.inc
-+++ b/disas/meson.build
++++ b/fpu/softfloat-parts.c.inc
-@@ -XXX,XX +XXX,XX @@ common_ss.add(when: 'CONFIG_SH4_DIS', if_true: files('sh4.c'))
+@@ -XXX,XX +XXX,XX @@ static FloatPartsN *partsN(muladd_scalbn)(FloatPartsN *a, FloatPartsN *b,
- common_ss.add(when: 'CONFIG_SPARC_DIS', if_true: files('sparc.c'))
+             goto return_normal;
- common_ss.add(when: 'CONFIG_XTENSA_DIS', if_true: files('xtensa.c'))
+         }
- common_ss.add(when: capstone, if_true: [files('capstone.c'), capstone])
+         if (c->cls == float_class_zero) {
-+common_ss.add(files('disas.c'))
+-            if (a->sign != c->sign) {
++            if (flags & float_muladd_suppress_add_product_zero) {
- softmmu_ss.add(files('disas-mon.c'))
++                a->sign = c->sign;
--specific_ss.add(files('disas.c'), capstone)
++            } else if (a->sign != c->sign) {
-+specific_ss.add(capstone)
+                 goto return_sub_zero;
              }
              goto return_zero;
 --
-.34.1
+.43.0

-[PULL 19/53] tcg/s390x: Introduce prepare_host_addr
+[PULL 61/72] target/hexagon: Use float32_mul in helper_sfmpy
-Merge tcg_out_tlb_load, add_qemu_ldst_label, tcg_out_test_alignment,
+There are no special cases for this instruction.
-tcg_prepare_user_ldst, and some code that lived in both tcg_out_qemu_ld
+Remove internal_mpyf as unused.
 and tcg_out_qemu_st into one function that returns HostAddress and
 TCGLabelQemuLdst structures.
-Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
+Reviewed-by: Brian Cain <brian.cain@oss.qualcomm.com>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- tcg/s390x/tcg-target.c.inc | 263 ++++++++++++++++---------------------
+ target/hexagon/fma_emu.h   | 1 -
-file changed, 113 insertions(+), 150 deletions(-)
+ target/hexagon/fma_emu.c   | 8 --------
  target/hexagon/op_helper.c | 2 +-
 files changed, 1 insertion(+), 10 deletions(-)
-diff --git a/tcg/s390x/tcg-target.c.inc b/tcg/s390x/tcg-target.c.inc
+diff --git a/target/hexagon/fma_emu.h b/target/hexagon/fma_emu.h
 index XXXXXXX..XXXXXXX 100644
---- a/tcg/s390x/tcg-target.c.inc
+--- a/target/hexagon/fma_emu.h
-+++ b/tcg/s390x/tcg-target.c.inc
++++ b/target/hexagon/fma_emu.h
-@@ -XXX,XX +XXX,XX @@ static void tcg_out_qemu_st_direct(TCGContext *s, MemOp opc, TCGReg data,
+@@ -XXX,XX +XXX,XX @@ int32_t float32_getexp(float32 f32);
  float32 infinite_float32(uint8_t sign);
  float32 internal_fmafx(float32 a, float32 b, float32 c,
                         int scale, float_status *fp_status);
 -float32 internal_mpyf(float32 a, float32 b, float_status *fp_status);
  float64 internal_mpyhh(float64 a, float64 b,
                         unsigned long long int accumulated,
                         float_status *fp_status);
 diff --git a/target/hexagon/fma_emu.c b/target/hexagon/fma_emu.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/hexagon/fma_emu.c
 +++ b/target/hexagon/fma_emu.c
@@ -XXX,XX +XXX,XX @@ float32 internal_fmafx(float32 a, float32 b, float32 c, int scale,
      return accum_round_float32(result, fp_status);
  }
- #if defined(CONFIG_SOFTMMU)
+-float32 internal_mpyf(float32 a, float32 b, float_status *fp_status)
 -/* We're expecting to use a 20-bit negative offset on the tlb memory ops.  */
 -QEMU_BUILD_BUG_ON(TLB_MASK_TABLE_OFS(0) > 0);
 -QEMU_BUILD_BUG_ON(TLB_MASK_TABLE_OFS(0) < -(1 << 19));
 -
 -/* Load and compare a TLB entry, leaving the flags set.  Loads the TLB
 -   addend into R2.  Returns a register with the santitized guest address.  */
 -static TCGReg tcg_out_tlb_read(TCGContext *s, TCGReg addr_reg, MemOp opc,
 -                               int mem_index, bool is_ld)
 -{
--    unsigned s_bits = opc & MO_SIZE;
+-    if (float32_is_zero(a) || float32_is_zero(b)) {
--    unsigned a_bits = get_alignment_bits(opc);
+-        return float32_mul(a, b, fp_status);
 -    unsigned s_mask = (1 << s_bits) - 1;
 -    unsigned a_mask = (1 << a_bits) - 1;
 -    int fast_off = TLB_MASK_TABLE_OFS(mem_index);
 -    int mask_off = fast_off + offsetof(CPUTLBDescFast, mask);
 -    int table_off = fast_off + offsetof(CPUTLBDescFast, table);
 -    int ofs, a_off;
 -    uint64_t tlb_mask;
 -
 -    tcg_out_sh64(s, RSY_SRLG, TCG_REG_R2, addr_reg, TCG_REG_NONE,
 -                 TARGET_PAGE_BITS - CPU_TLB_ENTRY_BITS);
 -    tcg_out_insn(s, RXY, NG, TCG_REG_R2, TCG_AREG0, TCG_REG_NONE, mask_off);
 -    tcg_out_insn(s, RXY, AG, TCG_REG_R2, TCG_AREG0, TCG_REG_NONE, table_off);
 -
 -    /* For aligned accesses, we check the first byte and include the alignment
 -       bits within the address.  For unaligned access, we check that we don't
 -       cross pages using the address of the last byte of the access.  */
 -    a_off = (a_bits >= s_bits ? 0 : s_mask - a_mask);
 -    tlb_mask = (uint64_t)TARGET_PAGE_MASK | a_mask;
 -    if (a_off == 0) {
 -        tgen_andi_risbg(s, TCG_REG_R3, addr_reg, tlb_mask);
 -    } else {
 -        tcg_out_insn(s, RX, LA, TCG_REG_R3, addr_reg, TCG_REG_NONE, a_off);
 -        tgen_andi(s, TCG_TYPE_TL, TCG_REG_R3, tlb_mask);
 -    }
--
+-    return internal_fmafx(a, b, float32_zero, 0, fp_status);
 -    if (is_ld) {
 -        ofs = offsetof(CPUTLBEntry, addr_read);
 -    } else {
 -        ofs = offsetof(CPUTLBEntry, addr_write);
 -    }
 -    if (TARGET_LONG_BITS == 32) {
 -        tcg_out_insn(s, RX, C, TCG_REG_R3, TCG_REG_R2, TCG_REG_NONE, ofs);
 -    } else {
 -        tcg_out_insn(s, RXY, CG, TCG_REG_R3, TCG_REG_R2, TCG_REG_NONE, ofs);
 -    }
 -
 -    tcg_out_insn(s, RXY, LG, TCG_REG_R2, TCG_REG_R2, TCG_REG_NONE,
 -                 offsetof(CPUTLBEntry, addend));
 -
 -    if (TARGET_LONG_BITS == 32) {
 -        tcg_out_ext32u(s, TCG_REG_R3, addr_reg);
 -        return TCG_REG_R3;
 -    }
 -    return addr_reg;
 -}
 -
--static void add_qemu_ldst_label(TCGContext *s, bool is_ld, MemOpIdx oi,
+ float64 internal_mpyhh(float64 a, float64 b,
--                                TCGType type, TCGReg data, TCGReg addr,
+                       unsigned long long int accumulated,
--                                tcg_insn_unit *raddr, tcg_insn_unit *label_ptr)
+                       float_status *fp_status)
--{
+diff --git a/target/hexagon/op_helper.c b/target/hexagon/op_helper.c
--    TCGLabelQemuLdst *label = new_ldst_label(s);
+index XXXXXXX..XXXXXXX 100644
--
+--- a/target/hexagon/op_helper.c
--    label->is_ld = is_ld;
++++ b/target/hexagon/op_helper.c
--    label->oi = oi;
+@@ -XXX,XX +XXX,XX @@ float32 HELPER(sfmpy)(CPUHexagonState *env, float32 RsV, float32 RtV)
 -    label->type = type;
 -    label->datalo_reg = data;
 -    label->addrlo_reg = addr;
 -    label->raddr = tcg_splitwx_to_rx(raddr);
 -    label->label_ptr[0] = label_ptr;
 -}
 -
  static bool tcg_out_qemu_ld_slow_path(TCGContext *s, TCGLabelQemuLdst *lb)
  {
-     TCGReg addr_reg = lb->addrlo_reg;
+     float32 RdV;
-@@ -XXX,XX +XXX,XX @@ static bool tcg_out_qemu_st_slow_path(TCGContext *s, TCGLabelQemuLdst *lb)
+     arch_fpop_start(env);
-     return true;
+-    RdV = internal_mpyf(RsV, RtV, &env->fp_status);
 +    RdV = float32_mul(RsV, RtV, &env->fp_status);
      arch_fpop_end(env);
      return RdV;
  }
- #else
--static void tcg_out_test_alignment(TCGContext *s, bool is_ld,
--                                   TCGReg addrlo, unsigned a_bits)
--{
--    unsigned a_mask = (1 << a_bits) - 1;
--    TCGLabelQemuLdst *l = new_ldst_label(s);
--
--    l->is_ld = is_ld;
--    l->addrlo_reg = addrlo;
--
--    /* We are expecting a_bits to max out at 7, much lower than TMLL. */
--    tcg_debug_assert(a_bits < 16);
--    tcg_out_insn(s, RI, TMLL, addrlo, a_mask);
--
--    tcg_out16(s, RI_BRC | (7 << 4)); /* CC in {1,2,3} */
--    l->label_ptr[0] = s->code_ptr;
--    s->code_ptr += 1;
--
--    l->raddr = tcg_splitwx_to_rx(s->code_ptr);
--}
--
- static bool tcg_out_fail_alignment(TCGContext *s, TCGLabelQemuLdst *l)
- {
-     if (!patch_reloc(l->label_ptr[0], R_390_PC16DBL,
-@@ -XXX,XX +XXX,XX @@ static bool tcg_out_qemu_st_slow_path(TCGContext *s, TCGLabelQemuLdst *l)
- {
-     return tcg_out_fail_alignment(s, l);
- }
-+#endif /* CONFIG_SOFTMMU */
--static HostAddress tcg_prepare_user_ldst(TCGContext *s, TCGReg addr_reg)
-+/*
-+ * For softmmu, perform the TLB load and compare.
-+ * For useronly, perform any required alignment tests.
-+ * In both cases, return a TCGLabelQemuLdst structure if the slow path
-+ * is required and fill in @h with the host address for the fast path.
-+ */
-+static TCGLabelQemuLdst *prepare_host_addr(TCGContext *s, HostAddress *h,
-+                                           TCGReg addr_reg, MemOpIdx oi,
-+                                           bool is_ld)
- {
--    TCGReg index;
--    int disp;
-+    TCGLabelQemuLdst *ldst = NULL;
-+    MemOp opc = get_memop(oi);
-+    unsigned a_bits = get_alignment_bits(opc);
-+    unsigned a_mask = (1u << a_bits) - 1;
-+#ifdef CONFIG_SOFTMMU
-+    unsigned s_bits = opc & MO_SIZE;
-+    unsigned s_mask = (1 << s_bits) - 1;
-+    int mem_index = get_mmuidx(oi);
-+    int fast_off = TLB_MASK_TABLE_OFS(mem_index);
-+    int mask_off = fast_off + offsetof(CPUTLBDescFast, mask);
-+    int table_off = fast_off + offsetof(CPUTLBDescFast, table);
-+    int ofs, a_off;
-+    uint64_t tlb_mask;
-+
-+    ldst = new_ldst_label(s);
-+    ldst->is_ld = is_ld;
-+    ldst->oi = oi;
-+    ldst->addrlo_reg = addr_reg;
-+
-+    tcg_out_sh64(s, RSY_SRLG, TCG_REG_R2, addr_reg, TCG_REG_NONE,
-+                 TARGET_PAGE_BITS - CPU_TLB_ENTRY_BITS);
-+
-+    QEMU_BUILD_BUG_ON(TLB_MASK_TABLE_OFS(0) > 0);
-+    QEMU_BUILD_BUG_ON(TLB_MASK_TABLE_OFS(0) < -(1 << 19));
-+    tcg_out_insn(s, RXY, NG, TCG_REG_R2, TCG_AREG0, TCG_REG_NONE, mask_off);
-+    tcg_out_insn(s, RXY, AG, TCG_REG_R2, TCG_AREG0, TCG_REG_NONE, table_off);
-+
-+    /*
-+     * For aligned accesses, we check the first byte and include the alignment
-+     * bits within the address.  For unaligned access, we check that we don't
-+     * cross pages using the address of the last byte of the access.
-+     */
-+    a_off = (a_bits >= s_bits ? 0 : s_mask - a_mask);
-+    tlb_mask = (uint64_t)TARGET_PAGE_MASK | a_mask;
-+    if (a_off == 0) {
-+        tgen_andi_risbg(s, TCG_REG_R3, addr_reg, tlb_mask);
-+    } else {
-+        tcg_out_insn(s, RX, LA, TCG_REG_R3, addr_reg, TCG_REG_NONE, a_off);
-+        tgen_andi(s, TCG_TYPE_TL, TCG_REG_R3, tlb_mask);
-+    }
-+
-+    if (is_ld) {
-+        ofs = offsetof(CPUTLBEntry, addr_read);
-+    } else {
-+        ofs = offsetof(CPUTLBEntry, addr_write);
-+    }
-+    if (TARGET_LONG_BITS == 32) {
-+        tcg_out_insn(s, RX, C, TCG_REG_R3, TCG_REG_R2, TCG_REG_NONE, ofs);
-+    } else {
-+        tcg_out_insn(s, RXY, CG, TCG_REG_R3, TCG_REG_R2, TCG_REG_NONE, ofs);
-+    }
-+
-+    tcg_out16(s, RI_BRC | (S390_CC_NE << 4));
-+    ldst->label_ptr[0] = s->code_ptr++;
-+
-+    h->index = TCG_REG_R2;
-+    tcg_out_insn(s, RXY, LG, h->index, TCG_REG_R2, TCG_REG_NONE,
-+                 offsetof(CPUTLBEntry, addend));
-+
-+    h->base = addr_reg;
-+    if (TARGET_LONG_BITS == 32) {
-+        tcg_out_ext32u(s, TCG_REG_R3, addr_reg);
-+        h->base = TCG_REG_R3;
-+    }
-+    h->disp = 0;
-+#else
-+    if (a_mask) {
-+        ldst = new_ldst_label(s);
-+        ldst->is_ld = is_ld;
-+        ldst->oi = oi;
-+        ldst->addrlo_reg = addr_reg;
-+
-+        /* We are expecting a_bits to max out at 7, much lower than TMLL. */
-+        tcg_debug_assert(a_bits < 16);
-+        tcg_out_insn(s, RI, TMLL, addr_reg, a_mask);
-+
-+        tcg_out16(s, RI_BRC | (7 << 4)); /* CC in {1,2,3} */
-+        ldst->label_ptr[0] = s->code_ptr++;
-+    }
-+
-+    h->base = addr_reg;
-     if (TARGET_LONG_BITS == 32) {
-         tcg_out_ext32u(s, TCG_TMP0, addr_reg);
--        addr_reg = TCG_TMP0;
-+        h->base = TCG_TMP0;
-     }
-     if (guest_base < 0x80000) {
--        index = TCG_REG_NONE;
--        disp = guest_base;
-+        h->index = TCG_REG_NONE;
-+        h->disp = guest_base;
-     } else {
--        index = TCG_GUEST_BASE_REG;
--        disp = 0;
-+        h->index = TCG_GUEST_BASE_REG;
-+        h->disp = 0;
-     }
--    return (HostAddress){ .base = addr_reg, .index = index, .disp = disp };
-+#endif
-+
-+    return ldst;
- }
--#endif /* CONFIG_SOFTMMU */
- static void tcg_out_qemu_ld(TCGContext* s, TCGReg data_reg, TCGReg addr_reg,
-                             MemOpIdx oi, TCGType data_type)
- {
--    MemOp opc = get_memop(oi);
-+    TCGLabelQemuLdst *ldst;
-     HostAddress h;
--#ifdef CONFIG_SOFTMMU
--    unsigned mem_index = get_mmuidx(oi);
--    tcg_insn_unit *label_ptr;
-+    ldst = prepare_host_addr(s, &h, addr_reg, oi, true);
-+    tcg_out_qemu_ld_direct(s, get_memop(oi), data_reg, h);
--    h.base = tcg_out_tlb_read(s, addr_reg, opc, mem_index, 1);
--    h.index = TCG_REG_R2;
--    h.disp = 0;
--
--    tcg_out16(s, RI_BRC | (S390_CC_NE << 4));
--    label_ptr = s->code_ptr;
--    s->code_ptr += 1;
--
--    tcg_out_qemu_ld_direct(s, opc, data_reg, h);
--
--    add_qemu_ldst_label(s, true, oi, data_type, data_reg, addr_reg,
--                        s->code_ptr, label_ptr);
--#else
--    unsigned a_bits = get_alignment_bits(opc);
--
--    if (a_bits) {
--        tcg_out_test_alignment(s, true, addr_reg, a_bits);
-+    if (ldst) {
-+        ldst->type = data_type;
-+        ldst->datalo_reg = data_reg;
-+        ldst->raddr = tcg_splitwx_to_rx(s->code_ptr);
-     }
--    h = tcg_prepare_user_ldst(s, addr_reg);
--    tcg_out_qemu_ld_direct(s, opc, data_reg, h);
--#endif
- }
- static void tcg_out_qemu_st(TCGContext* s, TCGReg data_reg, TCGReg addr_reg,
-                             MemOpIdx oi, TCGType data_type)
- {
--    MemOp opc = get_memop(oi);
-+    TCGLabelQemuLdst *ldst;
-     HostAddress h;
--#ifdef CONFIG_SOFTMMU
--    unsigned mem_index = get_mmuidx(oi);
--    tcg_insn_unit *label_ptr;
-+    ldst = prepare_host_addr(s, &h, addr_reg, oi, false);
-+    tcg_out_qemu_st_direct(s, get_memop(oi), data_reg, h);
--    h.base = tcg_out_tlb_read(s, addr_reg, opc, mem_index, 0);
--    h.index = TCG_REG_R2;
--    h.disp = 0;
--
--    tcg_out16(s, RI_BRC | (S390_CC_NE << 4));
--    label_ptr = s->code_ptr;
--    s->code_ptr += 1;
--
--    tcg_out_qemu_st_direct(s, opc, data_reg, h);
--
--    add_qemu_ldst_label(s, false, oi, data_type, data_reg, addr_reg,
--                        s->code_ptr, label_ptr);
--#else
--    unsigned a_bits = get_alignment_bits(opc);
--
--    if (a_bits) {
--        tcg_out_test_alignment(s, false, addr_reg, a_bits);
-+    if (ldst) {
-+        ldst->type = data_type;
-+        ldst->datalo_reg = data_reg;
-+        ldst->raddr = tcg_splitwx_to_rx(s->code_ptr);
-     }
--    h = tcg_prepare_user_ldst(s, addr_reg);
--    tcg_out_qemu_st_direct(s, opc, data_reg, h);
--#endif
- }
- static void tcg_out_exit_tb(TCGContext *s, uintptr_t a0)
 --
-.34.1
+.43.0

-[PULL 37/53] tcg/ppc: Remove unused constraint J
+[PULL 62/72] target/hexagon: Use float32_muladd for helper_sffma
-Never used since its introduction.
+There are no special cases for this instruction.
-Fixes: 3d582c6179c ("tcg-ppc64: Rearrange integer constant constraints")
+Reviewed-by: Brian Cain <brian.cain@oss.qualcomm.com>
 Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- tcg/ppc/tcg-target-con-str.h | 1 -
+ target/hexagon/op_helper.c | 2 +-
- tcg/ppc/tcg-target.c.inc     | 3 ---
+file changed, 1 insertion(+), 1 deletion(-)
 files changed, 4 deletions(-)
-diff --git a/tcg/ppc/tcg-target-con-str.h b/tcg/ppc/tcg-target-con-str.h
+diff --git a/target/hexagon/op_helper.c b/target/hexagon/op_helper.c
 index XXXXXXX..XXXXXXX 100644
---- a/tcg/ppc/tcg-target-con-str.h
+--- a/target/hexagon/op_helper.c
-+++ b/tcg/ppc/tcg-target-con-str.h
++++ b/target/hexagon/op_helper.c
-@@ -XXX,XX +XXX,XX @@ REGS('v', ALL_VECTOR_REGS)
+@@ -XXX,XX +XXX,XX @@ float32 HELPER(sffma)(CPUHexagonState *env, float32 RxV,
-  * CONST(letter, TCG_CT_CONST_* bit set)
+                       float32 RsV, float32 RtV)
-  */
+ {
- CONST('I', TCG_CT_CONST_S16)
+     arch_fpop_start(env);
--CONST('J', TCG_CT_CONST_U16)
+-    RxV = internal_fmafx(RsV, RtV, RxV, 0, &env->fp_status);
- CONST('M', TCG_CT_CONST_MONE)
++    RxV = float32_muladd(RsV, RtV, RxV, 0, &env->fp_status);
- CONST('T', TCG_CT_CONST_S32)
+     arch_fpop_end(env);
- CONST('U', TCG_CT_CONST_U32)
+     return RxV;
-diff --git a/tcg/ppc/tcg-target.c.inc b/tcg/ppc/tcg-target.c.inc
+ }
 index XXXXXXX..XXXXXXX 100644
 --- a/tcg/ppc/tcg-target.c.inc
 +++ b/tcg/ppc/tcg-target.c.inc
@@ -XXX,XX +XXX,XX @@
  #define SZR  (TCG_TARGET_REG_BITS / 8)
  #define TCG_CT_CONST_S16  0x100
 -#define TCG_CT_CONST_U16  0x200
  #define TCG_CT_CONST_S32  0x400
  #define TCG_CT_CONST_U32  0x800
  #define TCG_CT_CONST_ZERO 0x1000
@@ -XXX,XX +XXX,XX @@ static bool tcg_target_const_match(int64_t val, TCGType type, int ct)
      if ((ct & TCG_CT_CONST_S16) && val == (int16_t)val) {
          return 1;
 -    } else if ((ct & TCG_CT_CONST_U16) && val == (uint16_t)val) {
 -        return 1;
      } else if ((ct & TCG_CT_CONST_S32) && val == (int32_t)val) {
          return 1;
      } else if ((ct & TCG_CT_CONST_U32) && val == (uint32_t)val) {
 --
-.34.1
+.43.0

-[PULL 35/53] tcg/ppc: Adjust constraints on qemu_ld/st
+[PULL 63/72] target/hexagon: Use float32_muladd for helper_sffms
-The softmmu tlb uses TCG_REG_{TMP1,TMP2,R0}, not any of the normally
+There are no special cases for this instruction.  Since hexagon
-available registers.  Now that we handle overlap betwen inputs and
+always uses default-nan mode, explicitly negating the first
-helper arguments, we can allow any allocatable reg.
+input is unnecessary.  Use float_muladd_negate_product instead.
-Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
+Reviewed-by: Brian Cain <brian.cain@oss.qualcomm.com>
 Reviewed-by: Daniel Henrique Barboza <danielhb413@gmail.com>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- tcg/ppc/tcg-target-con-set.h | 11 ++++-------
+ target/hexagon/op_helper.c | 5 ++---
- tcg/ppc/tcg-target-con-str.h |  2 --
+file changed, 2 insertions(+), 3 deletions(-)
  tcg/ppc/tcg-target.c.inc     | 32 ++++++++++----------------------
 files changed, 14 insertions(+), 31 deletions(-)
-diff --git a/tcg/ppc/tcg-target-con-set.h b/tcg/ppc/tcg-target-con-set.h
+diff --git a/target/hexagon/op_helper.c b/target/hexagon/op_helper.c
 index XXXXXXX..XXXXXXX 100644
---- a/tcg/ppc/tcg-target-con-set.h
+--- a/target/hexagon/op_helper.c
-+++ b/tcg/ppc/tcg-target-con-set.h
++++ b/target/hexagon/op_helper.c
-@@ -XXX,XX +XXX,XX @@
+@@ -XXX,XX +XXX,XX @@ float32 HELPER(sffma_sc)(CPUHexagonState *env, float32 RxV,
- C_O0_I1(r)
+ float32 HELPER(sffms)(CPUHexagonState *env, float32 RxV,
- C_O0_I2(r, r)
+                       float32 RsV, float32 RtV)
- C_O0_I2(r, ri)
+ {
--C_O0_I2(S, S)
+-    float32 neg_RsV;
- C_O0_I2(v, r)
+     arch_fpop_start(env);
--C_O0_I3(S, S, S)
+-    neg_RsV = float32_set_sign(RsV, float32_is_neg(RsV) ? 0 : 1);
-+C_O0_I3(r, r, r)
+-    RxV = internal_fmafx(neg_RsV, RtV, RxV, 0, &env->fp_status);
- C_O0_I4(r, r, ri, ri)
++    RxV = float32_muladd(RsV, RtV, RxV, float_muladd_negate_product,
--C_O0_I4(S, S, S, S)
++                         &env->fp_status);
--C_O1_I1(r, L)
+     arch_fpop_end(env);
-+C_O0_I4(r, r, r, r)
+     return RxV;
- C_O1_I1(r, r)
+ }
  C_O1_I1(v, r)
  C_O1_I1(v, v)
  C_O1_I1(v, vr)
  C_O1_I2(r, 0, rZ)
 -C_O1_I2(r, L, L)
  C_O1_I2(r, rI, ri)
  C_O1_I2(r, rI, rT)
  C_O1_I2(r, r, r)
@@ -XXX,XX +XXX,XX @@ C_O1_I2(v, v, v)
  C_O1_I3(v, v, v, v)
  C_O1_I4(r, r, ri, rZ, rZ)
  C_O1_I4(r, r, r, ri, ri)
 -C_O2_I1(L, L, L)
 -C_O2_I2(L, L, L, L)
 +C_O2_I1(r, r, r)
 +C_O2_I2(r, r, r, r)
  C_O2_I4(r, r, rI, rZM, r, r)
  C_O2_I4(r, r, r, r, rI, rZM)
 diff --git a/tcg/ppc/tcg-target-con-str.h b/tcg/ppc/tcg-target-con-str.h
 index XXXXXXX..XXXXXXX 100644
 --- a/tcg/ppc/tcg-target-con-str.h
 +++ b/tcg/ppc/tcg-target-con-str.h
@@ -XXX,XX +XXX,XX @@ REGS('A', 1u << TCG_REG_R3)
  REGS('B', 1u << TCG_REG_R4)
  REGS('C', 1u << TCG_REG_R5)
  REGS('D', 1u << TCG_REG_R6)
 -REGS('L', ALL_QLOAD_REGS)
 -REGS('S', ALL_QSTORE_REGS)
  /*
   * Define constraint letters for constants:
 diff --git a/tcg/ppc/tcg-target.c.inc b/tcg/ppc/tcg-target.c.inc
 index XXXXXXX..XXXXXXX 100644
 --- a/tcg/ppc/tcg-target.c.inc
 +++ b/tcg/ppc/tcg-target.c.inc
@@ -XXX,XX +XXX,XX @@
  #define ALL_GENERAL_REGS  0xffffffffu
  #define ALL_VECTOR_REGS   0xffffffff00000000ull
 -#ifdef CONFIG_SOFTMMU
 -#define ALL_QLOAD_REGS \
 -    (ALL_GENERAL_REGS & \
 -     ~((1 << TCG_REG_R3) | (1 << TCG_REG_R4) | (1 << TCG_REG_R5)))
 -#define ALL_QSTORE_REGS \
 -    (ALL_GENERAL_REGS & ~((1 << TCG_REG_R3) | (1 << TCG_REG_R4) | \
 -                          (1 << TCG_REG_R5) | (1 << TCG_REG_R6)))
 -#else
 -#define ALL_QLOAD_REGS  (ALL_GENERAL_REGS & ~(1 << TCG_REG_R3))
 -#define ALL_QSTORE_REGS ALL_QLOAD_REGS
 -#endif
 -
  TCGPowerISA have_isa;
  static bool have_isel;
  bool have_altivec;
@@ -XXX,XX +XXX,XX @@ static TCGConstraintSetIndex tcg_target_op_def(TCGOpcode op)
      case INDEX_op_qemu_ld_i32:
          return (TCG_TARGET_REG_BITS == 64 || TARGET_LONG_BITS == 32
 -                ? C_O1_I1(r, L)
 -                : C_O1_I2(r, L, L));
 +                ? C_O1_I1(r, r)
 +                : C_O1_I2(r, r, r));
      case INDEX_op_qemu_st_i32:
          return (TCG_TARGET_REG_BITS == 64 || TARGET_LONG_BITS == 32
 -                ? C_O0_I2(S, S)
 -                : C_O0_I3(S, S, S));
 +                ? C_O0_I2(r, r)
 +                : C_O0_I3(r, r, r));
      case INDEX_op_qemu_ld_i64:
 -        return (TCG_TARGET_REG_BITS == 64 ? C_O1_I1(r, L)
 -                : TARGET_LONG_BITS == 32 ? C_O2_I1(L, L, L)
 -                : C_O2_I2(L, L, L, L));
 +        return (TCG_TARGET_REG_BITS == 64 ? C_O1_I1(r, r)
 +                : TARGET_LONG_BITS == 32 ? C_O2_I1(r, r, r)
 +                : C_O2_I2(r, r, r, r));
      case INDEX_op_qemu_st_i64:
 -        return (TCG_TARGET_REG_BITS == 64 ? C_O0_I2(S, S)
 -                : TARGET_LONG_BITS == 32 ? C_O0_I3(S, S, S)
 -                : C_O0_I4(S, S, S, S));
 +        return (TCG_TARGET_REG_BITS == 64 ? C_O0_I2(r, r)
 +                : TARGET_LONG_BITS == 32 ? C_O0_I3(r, r, r)
 +                : C_O0_I4(r, r, r, r));
      case INDEX_op_add_vec:
      case INDEX_op_sub_vec:
 --
-.34.1
+.43.0

-[PULL 30/53] tcg/loongarch64: Simplify constraints on qemu_ld/st
+[PULL 64/72] target/hexagon: Use float32_muladd_scalbn for helper_sffma_sc
-The softmmu tlb uses TCG_REG_TMP[0-2], not any of the normally available
+This instruction has a special case that 0 * x + c returns c
-registers.  Now that we handle overlap betwen inputs and helper arguments,
+without the normal sign folding that comes with 0 + -0.
-we can allow any allocatable reg.
+Use the new float_muladd_suppress_add_product_zero to
 describe this.
-Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
+Reviewed-by: Brian Cain <brian.cain@oss.qualcomm.com>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- tcg/loongarch64/tcg-target-con-set.h |  2 --
+ target/hexagon/op_helper.c | 11 +++--------
- tcg/loongarch64/tcg-target-con-str.h |  1 -
+file changed, 3 insertions(+), 8 deletions(-)
  tcg/loongarch64/tcg-target.c.inc     | 23 ++++-------------------
 files changed, 4 insertions(+), 22 deletions(-)
-diff --git a/tcg/loongarch64/tcg-target-con-set.h b/tcg/loongarch64/tcg-target-con-set.h
+diff --git a/target/hexagon/op_helper.c b/target/hexagon/op_helper.c
 index XXXXXXX..XXXXXXX 100644
---- a/tcg/loongarch64/tcg-target-con-set.h
+--- a/target/hexagon/op_helper.c
-+++ b/tcg/loongarch64/tcg-target-con-set.h
++++ b/target/hexagon/op_helper.c
-@@ -XXX,XX +XXX,XX @@
+@@ -XXX,XX +XXX,XX @@ static float32 check_nan(float32 dst, float32 x, float_status *fp_status)
- C_O0_I1(r)
+ float32 HELPER(sffma_sc)(CPUHexagonState *env, float32 RxV,
- C_O0_I2(rZ, r)
+                          float32 RsV, float32 RtV, float32 PuV)
  C_O0_I2(rZ, rZ)
 -C_O0_I2(LZ, L)
  C_O1_I1(r, r)
 -C_O1_I1(r, L)
  C_O1_I2(r, r, rC)
  C_O1_I2(r, r, ri)
  C_O1_I2(r, r, rI)
 diff --git a/tcg/loongarch64/tcg-target-con-str.h b/tcg/loongarch64/tcg-target-con-str.h
 index XXXXXXX..XXXXXXX 100644
 --- a/tcg/loongarch64/tcg-target-con-str.h
 +++ b/tcg/loongarch64/tcg-target-con-str.h
@@ -XXX,XX +XXX,XX @@
   * REGS(letter, register_mask)
   */
  REGS('r', ALL_GENERAL_REGS)
 -REGS('L', ALL_GENERAL_REGS & ~SOFTMMU_RESERVE_REGS)
  /*
   * Define constraint letters for constants:
 diff --git a/tcg/loongarch64/tcg-target.c.inc b/tcg/loongarch64/tcg-target.c.inc
 index XXXXXXX..XXXXXXX 100644
 --- a/tcg/loongarch64/tcg-target.c.inc
 +++ b/tcg/loongarch64/tcg-target.c.inc
@@ -XXX,XX +XXX,XX @@ static TCGReg tcg_target_call_oarg_reg(TCGCallReturnKind kind, int slot)
  #define TCG_CT_CONST_C12   0x1000
  #define TCG_CT_CONST_WSZ   0x2000
 -#define ALL_GENERAL_REGS      MAKE_64BIT_MASK(0, 32)
 -/*
 - * For softmmu, we need to avoid conflicts with the first 5
 - * argument registers to call the helper.  Some of these are
 - * also used for the tlb lookup.
 - */
 -#ifdef CONFIG_SOFTMMU
 -#define SOFTMMU_RESERVE_REGS  MAKE_64BIT_MASK(TCG_REG_A0, 5)
 -#else
 -#define SOFTMMU_RESERVE_REGS  0
 -#endif
 -
 +#define ALL_GENERAL_REGS   MAKE_64BIT_MASK(0, 32)
  static inline tcg_target_long sextreg(tcg_target_long val, int pos, int len)
  {
-@@ -XXX,XX +XXX,XX @@ static TCGConstraintSetIndex tcg_target_op_def(TCGOpcode op)
+-    size4s_t tmp;
-     case INDEX_op_st32_i64:
+     arch_fpop_start(env);
-     case INDEX_op_st_i32:
+-    RxV = check_nan(RxV, RxV, &env->fp_status);
-     case INDEX_op_st_i64:
+-    RxV = check_nan(RxV, RsV, &env->fp_status);
-+    case INDEX_op_qemu_st_i32:
+-    RxV = check_nan(RxV, RtV, &env->fp_status);
-+    case INDEX_op_qemu_st_i64:
+-    tmp = internal_fmafx(RsV, RtV, RxV, fSXTN(8, 64, PuV), &env->fp_status);
-         return C_O0_I2(rZ, r);
+-    if (!(float32_is_zero(RxV) && is_zero_prod(RsV, RtV))) {
+-        RxV = tmp;
-     case INDEX_op_brcond_i32:
+-    }
-     case INDEX_op_brcond_i64:
++    RxV = float32_muladd_scalbn(RsV, RtV, RxV, fSXTN(8, 64, PuV),
-         return C_O0_I2(rZ, rZ);
++                                float_muladd_suppress_add_product_zero,
++                                &env->fp_status);
--    case INDEX_op_qemu_st_i32:
+     arch_fpop_end(env);
--    case INDEX_op_qemu_st_i64:
+     return RxV;
--        return C_O0_I2(LZ, L);
+ }
 -
      case INDEX_op_ext8s_i32:
      case INDEX_op_ext8s_i64:
      case INDEX_op_ext8u_i32:
@@ -XXX,XX +XXX,XX @@ static TCGConstraintSetIndex tcg_target_op_def(TCGOpcode op)
      case INDEX_op_ld32u_i64:
      case INDEX_op_ld_i32:
      case INDEX_op_ld_i64:
 -        return C_O1_I1(r, r);
 -
      case INDEX_op_qemu_ld_i32:
      case INDEX_op_qemu_ld_i64:
 -        return C_O1_I1(r, L);
 +        return C_O1_I1(r, r);
      case INDEX_op_andc_i32:
      case INDEX_op_andc_i64:
 --
-.34.1
+.43.0

-[PULL 16/53] tcg/mips: Introduce prepare_host_addr
+[PULL 65/72] target/hexagon: Use float32_muladd for helper_sffm[as]_lib
-Merge tcg_out_tlb_load, add_qemu_ldst_label, tcg_out_test_alignment,
+There are multiple special cases for this instruction.
-and some code that lived in both tcg_out_qemu_ld and tcg_out_qemu_st
+(1) The saturate to normal maximum instead of overflow to infinity is
-into one function that returns HostAddress and TCGLabelQemuLdst structures.
+    handled by the new float_round_nearest_even_max rounding mode.
 (2) The 0 * n + c special case is handled by the new
     float_muladd_suppress_add_product_zero flag.
 (3) The Inf - Inf -> 0 special case can be detected after the fact
     by examining float_flag_invalid_isi.
-Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
+Reviewed-by: Brian Cain <brian.cain@oss.qualcomm.com>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- tcg/mips/tcg-target.c.inc | 404 ++++++++++++++++----------------------
+ target/hexagon/op_helper.c | 105 +++++++++----------------------------
-file changed, 172 insertions(+), 232 deletions(-)
+file changed, 26 insertions(+), 79 deletions(-)
-diff --git a/tcg/mips/tcg-target.c.inc b/tcg/mips/tcg-target.c.inc
+diff --git a/target/hexagon/op_helper.c b/target/hexagon/op_helper.c
 index XXXXXXX..XXXXXXX 100644
---- a/tcg/mips/tcg-target.c.inc
+--- a/target/hexagon/op_helper.c
-+++ b/tcg/mips/tcg-target.c.inc
++++ b/target/hexagon/op_helper.c
-@@ -XXX,XX +XXX,XX @@ static int tcg_out_call_iarg_reg2(TCGContext *s, int i, TCGReg al, TCGReg ah)
+@@ -XXX,XX +XXX,XX @@ float32 HELPER(sffma)(CPUHexagonState *env, float32 RxV,
-     return i;
+     return RxV;
  }
--/* We expect to use a 16-bit negative offset from ENV.  */
+-static bool is_zero_prod(float32 a, float32 b)
 -QEMU_BUILD_BUG_ON(TLB_MASK_TABLE_OFS(0) > 0);
 -QEMU_BUILD_BUG_ON(TLB_MASK_TABLE_OFS(0) < -32768);
 -
 -/*
 - * Perform the tlb comparison operation.
 - * The complete host address is placed in BASE.
 - * Clobbers TMP0, TMP1, TMP2, TMP3.
 - */
 -static void tcg_out_tlb_load(TCGContext *s, TCGReg base, TCGReg addrl,
 -                             TCGReg addrh, MemOpIdx oi,
 -                             tcg_insn_unit *label_ptr[2], bool is_load)
 -{
--    MemOp opc = get_memop(oi);
+-    return ((float32_is_zero(a) && is_finite(b)) ||
--    unsigned a_bits = get_alignment_bits(opc);
+-            (float32_is_zero(b) && is_finite(a)));
 -    unsigned s_bits = opc & MO_SIZE;
 -    unsigned a_mask = (1 << a_bits) - 1;
 -    unsigned s_mask = (1 << s_bits) - 1;
 -    int mem_index = get_mmuidx(oi);
 -    int fast_off = TLB_MASK_TABLE_OFS(mem_index);
 -    int mask_off = fast_off + offsetof(CPUTLBDescFast, mask);
 -    int table_off = fast_off + offsetof(CPUTLBDescFast, table);
 -    int add_off = offsetof(CPUTLBEntry, addend);
 -    int cmp_off = (is_load ? offsetof(CPUTLBEntry, addr_read)
 -                   : offsetof(CPUTLBEntry, addr_write));
 -    target_ulong tlb_mask;
 -
 -    /* Load tlb_mask[mmu_idx] and tlb_table[mmu_idx].  */
 -    tcg_out_ld(s, TCG_TYPE_PTR, TCG_TMP0, TCG_AREG0, mask_off);
 -    tcg_out_ld(s, TCG_TYPE_PTR, TCG_TMP1, TCG_AREG0, table_off);
 -
 -    /* Extract the TLB index from the address into TMP3.  */
 -    tcg_out_opc_sa(s, ALIAS_TSRL, TCG_TMP3, addrl,
 -                   TARGET_PAGE_BITS - CPU_TLB_ENTRY_BITS);
 -    tcg_out_opc_reg(s, OPC_AND, TCG_TMP3, TCG_TMP3, TCG_TMP0);
 -
 -    /* Add the tlb_table pointer, creating the CPUTLBEntry address in TMP3.  */
 -    tcg_out_opc_reg(s, ALIAS_PADD, TCG_TMP3, TCG_TMP3, TCG_TMP1);
 -
 -    /* Load the (low-half) tlb comparator.  */
 -    if (TCG_TARGET_REG_BITS < TARGET_LONG_BITS) {
 -        tcg_out_ldst(s, OPC_LW, TCG_TMP0, TCG_TMP3, cmp_off + LO_OFF);
 -    } else {
 -        tcg_out_ldst(s, (TARGET_LONG_BITS == 64 ? OPC_LD
 -                         : TCG_TARGET_REG_BITS == 64 ? OPC_LWU : OPC_LW),
 -                     TCG_TMP0, TCG_TMP3, cmp_off);
 -    }
 -
 -    /* Zero extend a 32-bit guest address for a 64-bit host. */
 -    if (TCG_TARGET_REG_BITS > TARGET_LONG_BITS) {
 -        tcg_out_ext32u(s, base, addrl);
 -        addrl = base;
 -    }
 -
 -    /*
 -     * Mask the page bits, keeping the alignment bits to compare against.
 -     * For unaligned accesses, compare against the end of the access to
 -     * verify that it does not cross a page boundary.
 -     */
 -    tlb_mask = (target_ulong)TARGET_PAGE_MASK | a_mask;
 -    tcg_out_movi(s, TCG_TYPE_I32, TCG_TMP1, tlb_mask);
 -    if (a_mask >= s_mask) {
 -        tcg_out_opc_reg(s, OPC_AND, TCG_TMP1, TCG_TMP1, addrl);
 -    } else {
 -        tcg_out_opc_imm(s, ALIAS_PADDI, TCG_TMP2, addrl, s_mask - a_mask);
 -        tcg_out_opc_reg(s, OPC_AND, TCG_TMP1, TCG_TMP1, TCG_TMP2);
 -    }
 -
 -    if (TCG_TARGET_REG_BITS >= TARGET_LONG_BITS) {
 -        /* Load the tlb addend for the fast path.  */
 -        tcg_out_ld(s, TCG_TYPE_PTR, TCG_TMP2, TCG_TMP3, add_off);
 -    }
 -
 -    label_ptr[0] = s->code_ptr;
 -    tcg_out_opc_br(s, OPC_BNE, TCG_TMP1, TCG_TMP0);
 -
 -    /* Load and test the high half tlb comparator.  */
 -    if (TCG_TARGET_REG_BITS < TARGET_LONG_BITS) {
 -        /* delay slot */
 -        tcg_out_ldst(s, OPC_LW, TCG_TMP0, TCG_TMP3, cmp_off + HI_OFF);
 -
 -        /* Load the tlb addend for the fast path.  */
 -        tcg_out_ld(s, TCG_TYPE_PTR, TCG_TMP2, TCG_TMP3, add_off);
 -
 -        label_ptr[1] = s->code_ptr;
 -        tcg_out_opc_br(s, OPC_BNE, addrh, TCG_TMP0);
 -    }
 -
 -    /* delay slot */
 -    tcg_out_opc_reg(s, ALIAS_PADD, base, TCG_TMP2, addrl);
 -}
 -
--static void add_qemu_ldst_label(TCGContext *s, int is_ld, MemOpIdx oi,
+-static float32 check_nan(float32 dst, float32 x, float_status *fp_status)
 -                                TCGType ext,
 -                                TCGReg datalo, TCGReg datahi,
 -                                TCGReg addrlo, TCGReg addrhi,
 -                                void *raddr, tcg_insn_unit *label_ptr[2])
 -{
--    TCGLabelQemuLdst *label = new_ldst_label(s);
+-    float32 ret = dst;
--
+-    if (float32_is_any_nan(x)) {
--    label->is_ld = is_ld;
+-        if (extract32(x, 22, 1) == 0) {
--    label->oi = oi;
+-            float_raise(float_flag_invalid, fp_status);
--    label->type = ext;
+-        }
--    label->datalo_reg = datalo;
+-        ret = make_float32(0xffffffff);    /* nan */
 -    label->datahi_reg = datahi;
 -    label->addrlo_reg = addrlo;
 -    label->addrhi_reg = addrhi;
 -    label->raddr = tcg_splitwx_to_rx(raddr);
 -    label->label_ptr[0] = label_ptr[0];
 -    if (TCG_TARGET_REG_BITS < TARGET_LONG_BITS) {
 -        label->label_ptr[1] = label_ptr[1];
 -    }
+-    return ret;
 -}
 -
- static bool tcg_out_qemu_ld_slow_path(TCGContext *s, TCGLabelQemuLdst *l)
+ float32 HELPER(sffma_sc)(CPUHexagonState *env, float32 RxV,
                           float32 RsV, float32 RtV, float32 PuV)
  {
-     const tcg_insn_unit *tgt_rx = tcg_splitwx_to_rx(s->code_ptr);
+@@ -XXX,XX +XXX,XX @@ float32 HELPER(sffms)(CPUHexagonState *env, float32 RxV,
-@@ -XXX,XX +XXX,XX @@ static bool tcg_out_qemu_st_slow_path(TCGContext *s, TCGLabelQemuLdst *l)
+     return RxV;
  }
- #else
+-static bool is_inf_prod(int32_t a, int32_t b)
--
++static float32 do_sffma_lib(CPUHexagonState *env, float32 RxV,
--static void tcg_out_test_alignment(TCGContext *s, bool is_ld, TCGReg addrlo,
++                            float32 RsV, float32 RtV, int negate)
 -                                   TCGReg addrhi, unsigned a_bits)
 -{
 -    unsigned a_mask = (1 << a_bits) - 1;
 -    TCGLabelQemuLdst *l = new_ldst_label(s);
 -
 -    l->is_ld = is_ld;
 -    l->addrlo_reg = addrlo;
 -    l->addrhi_reg = addrhi;
 -
 -    /* We are expecting a_bits to max out at 7, much lower than ANDI. */
 -    tcg_debug_assert(a_bits < 16);
 -    tcg_out_opc_imm(s, OPC_ANDI, TCG_TMP0, addrlo, a_mask);
 -
 -    l->label_ptr[0] = s->code_ptr;
 -    if (use_mips32r6_instructions) {
 -        tcg_out_opc_br(s, OPC_BNEZALC_R6, TCG_REG_ZERO, TCG_TMP0);
 -    } else {
 -        tcg_out_opc_br(s, OPC_BNEL, TCG_TMP0, TCG_REG_ZERO);
 -        tcg_out_nop(s);
 -    }
 -
 -    l->raddr = tcg_splitwx_to_rx(s->code_ptr);
 -}
 -
  static bool tcg_out_fail_alignment(TCGContext *s, TCGLabelQemuLdst *l)
  {
-     void *target;
+-    return (float32_is_infinity(a) && float32_is_infinity(b)) ||
-@@ -XXX,XX +XXX,XX @@ static bool tcg_out_qemu_st_slow_path(TCGContext *s, TCGLabelQemuLdst *l)
+-           (float32_is_infinity(a) && is_finite(b) && !float32_is_zero(b)) ||
- }
+-           (float32_is_infinity(b) && is_finite(a) && !float32_is_zero(a));
- #endif /* SOFTMMU */
++    int flags;
 +typedef struct {
 +    TCGReg base;
 +    MemOp align;
 +} HostAddress;
 +
-+/*
++    arch_fpop_start(env);
 + * For softmmu, perform the TLB load and compare.
 + * For useronly, perform any required alignment tests.
 + * In both cases, return a TCGLabelQemuLdst structure if the slow path
 + * is required and fill in @h with the host address for the fast path.
 + */
 +static TCGLabelQemuLdst *prepare_host_addr(TCGContext *s, HostAddress *h,
 +                                           TCGReg addrlo, TCGReg addrhi,
 +                                           MemOpIdx oi, bool is_ld)
 +{
 +    TCGLabelQemuLdst *ldst = NULL;
 +    MemOp opc = get_memop(oi);
 +    unsigned a_bits = get_alignment_bits(opc);
 +    unsigned s_bits = opc & MO_SIZE;
 +    unsigned a_mask = (1 << a_bits) - 1;
 +    TCGReg base;
 +
-+#ifdef CONFIG_SOFTMMU
++    set_float_rounding_mode(float_round_nearest_even_max, &env->fp_status);
-+    unsigned s_mask = (1 << s_bits) - 1;
++    RxV = float32_muladd(RsV, RtV, RxV,
-+    int mem_index = get_mmuidx(oi);
++                         negate | float_muladd_suppress_add_product_zero,
-+    int fast_off = TLB_MASK_TABLE_OFS(mem_index);
++                         &env->fp_status);
 +    int mask_off = fast_off + offsetof(CPUTLBDescFast, mask);
 +    int table_off = fast_off + offsetof(CPUTLBDescFast, table);
 +    int add_off = offsetof(CPUTLBEntry, addend);
 +    int cmp_off = is_ld ? offsetof(CPUTLBEntry, addr_read)
 +                        : offsetof(CPUTLBEntry, addr_write);
 +    target_ulong tlb_mask;
 +
-+    ldst = new_ldst_label(s);
++    flags = get_float_exception_flags(&env->fp_status);
-+    ldst->is_ld = is_ld;
++    if (flags) {
-+    ldst->oi = oi;
++        /* Flags are suppressed by this instruction. */
-+    ldst->addrlo_reg = addrlo;
++        set_float_exception_flags(0, &env->fp_status);
 +    ldst->addrhi_reg = addrhi;
 +    base = TCG_REG_A0;
 +
-+    /* Load tlb_mask[mmu_idx] and tlb_table[mmu_idx].  */
++        /* Return 0 for Inf - Inf. */
-+    QEMU_BUILD_BUG_ON(TLB_MASK_TABLE_OFS(0) > 0);
++        if (flags & float_flag_invalid_isi) {
-+    QEMU_BUILD_BUG_ON(TLB_MASK_TABLE_OFS(0) < -32768);
++            RxV = 0;
 +    tcg_out_ld(s, TCG_TYPE_PTR, TCG_TMP0, TCG_AREG0, mask_off);
 +    tcg_out_ld(s, TCG_TYPE_PTR, TCG_TMP1, TCG_AREG0, table_off);
 +
 +    /* Extract the TLB index from the address into TMP3.  */
 +    tcg_out_opc_sa(s, ALIAS_TSRL, TCG_TMP3, addrlo,
 +                   TARGET_PAGE_BITS - CPU_TLB_ENTRY_BITS);
 +    tcg_out_opc_reg(s, OPC_AND, TCG_TMP3, TCG_TMP3, TCG_TMP0);
 +
 +    /* Add the tlb_table pointer, creating the CPUTLBEntry address in TMP3.  */
 +    tcg_out_opc_reg(s, ALIAS_PADD, TCG_TMP3, TCG_TMP3, TCG_TMP1);
 +
 +    /* Load the (low-half) tlb comparator.  */
 +    if (TCG_TARGET_REG_BITS < TARGET_LONG_BITS) {
 +        tcg_out_ldst(s, OPC_LW, TCG_TMP0, TCG_TMP3, cmp_off + LO_OFF);
 +    } else {
 +        tcg_out_ldst(s, (TARGET_LONG_BITS == 64 ? OPC_LD
 +                         : TCG_TARGET_REG_BITS == 64 ? OPC_LWU : OPC_LW),
 +                     TCG_TMP0, TCG_TMP3, cmp_off);
 +    }
 +
 +    /* Zero extend a 32-bit guest address for a 64-bit host. */
 +    if (TCG_TARGET_REG_BITS > TARGET_LONG_BITS) {
 +        tcg_out_ext32u(s, base, addrlo);
 +        addrlo = base;
 +    }
 +
 +    /*
 +     * Mask the page bits, keeping the alignment bits to compare against.
 +     * For unaligned accesses, compare against the end of the access to
 +     * verify that it does not cross a page boundary.
 +     */
 +    tlb_mask = (target_ulong)TARGET_PAGE_MASK | a_mask;
 +    tcg_out_movi(s, TCG_TYPE_I32, TCG_TMP1, tlb_mask);
 +    if (a_mask >= s_mask) {
 +        tcg_out_opc_reg(s, OPC_AND, TCG_TMP1, TCG_TMP1, addrlo);
 +    } else {
 +        tcg_out_opc_imm(s, ALIAS_PADDI, TCG_TMP2, addrlo, s_mask - a_mask);
 +        tcg_out_opc_reg(s, OPC_AND, TCG_TMP1, TCG_TMP1, TCG_TMP2);
 +    }
 +
 +    if (TCG_TARGET_REG_BITS >= TARGET_LONG_BITS) {
 +        /* Load the tlb addend for the fast path.  */
 +        tcg_out_ld(s, TCG_TYPE_PTR, TCG_TMP2, TCG_TMP3, add_off);
 +    }
 +
 +    ldst->label_ptr[0] = s->code_ptr;
 +    tcg_out_opc_br(s, OPC_BNE, TCG_TMP1, TCG_TMP0);
 +
 +    /* Load and test the high half tlb comparator.  */
 +    if (TCG_TARGET_REG_BITS < TARGET_LONG_BITS) {
 +        /* delay slot */
 +        tcg_out_ldst(s, OPC_LW, TCG_TMP0, TCG_TMP3, cmp_off + HI_OFF);
 +
 +        /* Load the tlb addend for the fast path.  */
 +        tcg_out_ld(s, TCG_TYPE_PTR, TCG_TMP2, TCG_TMP3, add_off);
 +
 +        ldst->label_ptr[1] = s->code_ptr;
 +        tcg_out_opc_br(s, OPC_BNE, addrhi, TCG_TMP0);
 +    }
 +
 +    /* delay slot */
 +    tcg_out_opc_reg(s, ALIAS_PADD, base, TCG_TMP2, addrlo);
 +#else
 +    if (a_mask && (use_mips32r6_instructions || a_bits != s_bits)) {
 +        ldst = new_ldst_label(s);
 +
 +        ldst->is_ld = is_ld;
 +        ldst->oi = oi;
 +        ldst->addrlo_reg = addrlo;
 +        ldst->addrhi_reg = addrhi;
 +
 +        /* We are expecting a_bits to max out at 7, much lower than ANDI. */
 +        tcg_debug_assert(a_bits < 16);
 +        tcg_out_opc_imm(s, OPC_ANDI, TCG_TMP0, addrlo, a_mask);
 +
 +        ldst->label_ptr[0] = s->code_ptr;
 +        if (use_mips32r6_instructions) {
 +            tcg_out_opc_br(s, OPC_BNEZALC_R6, TCG_REG_ZERO, TCG_TMP0);
 +        } else {
 +            tcg_out_opc_br(s, OPC_BNEL, TCG_TMP0, TCG_REG_ZERO);
 +            tcg_out_nop(s);
 +        }
 +    }
 +
-+    base = addrlo;
++    arch_fpop_end(env);
-+    if (TCG_TARGET_REG_BITS > TARGET_LONG_BITS) {
++    return RxV;
-+        tcg_out_ext32u(s, TCG_REG_A0, base);
+ }
-+        base = TCG_REG_A0;
-+    }
+ float32 HELPER(sffma_lib)(CPUHexagonState *env, float32 RxV,
-+    if (guest_base) {
+                           float32 RsV, float32 RtV)
 +        if (guest_base == (int16_t)guest_base) {
 +            tcg_out_opc_imm(s, ALIAS_PADDI, TCG_REG_A0, base, guest_base);
 +        } else {
 +            tcg_out_opc_reg(s, ALIAS_PADD, TCG_REG_A0, base,
 +                            TCG_GUEST_BASE_REG);
 +        }
 +        base = TCG_REG_A0;
 +    }
 +#endif
 +
 +    h->base = base;
 +    h->align = a_bits;
 +    return ldst;
 +}
 +
  static void tcg_out_qemu_ld_direct(TCGContext *s, TCGReg lo, TCGReg hi,
                                     TCGReg base, MemOp opc, TCGType type)
  {
-@@ -XXX,XX +XXX,XX @@ static void tcg_out_qemu_ld(TCGContext *s, TCGReg datalo, TCGReg datahi,
+-    bool infinp;
-                             MemOpIdx oi, TCGType data_type)
+-    bool infminusinf;
 -    float32 tmp;
 -
 -    arch_fpop_start(env);
 -    set_float_rounding_mode(float_round_nearest_even, &env->fp_status);
 -    infminusinf = float32_is_infinity(RxV) &&
 -                  is_inf_prod(RsV, RtV) &&
 -                  (fGETBIT(31, RsV ^ RxV ^ RtV) != 0);
 -    infinp = float32_is_infinity(RxV) ||
 -             float32_is_infinity(RtV) ||
 -             float32_is_infinity(RsV);
 -    RxV = check_nan(RxV, RxV, &env->fp_status);
 -    RxV = check_nan(RxV, RsV, &env->fp_status);
 -    RxV = check_nan(RxV, RtV, &env->fp_status);
 -    tmp = internal_fmafx(RsV, RtV, RxV, 0, &env->fp_status);
 -    if (!(float32_is_zero(RxV) && is_zero_prod(RsV, RtV))) {
 -        RxV = tmp;
 -    }
 -    set_float_exception_flags(0, &env->fp_status);
 -    if (float32_is_infinity(RxV) && !infinp) {
 -        RxV = RxV - 1;
 -    }
 -    if (infminusinf) {
 -        RxV = 0;
 -    }
 -    arch_fpop_end(env);
 -    return RxV;
 +    return do_sffma_lib(env, RxV, RsV, RtV, 0);
  }
  float32 HELPER(sffms_lib)(CPUHexagonState *env, float32 RxV,
                            float32 RsV, float32 RtV)
  {
-     MemOp opc = get_memop(oi);
+-    bool infinp;
--    unsigned a_bits = get_alignment_bits(opc);
+-    bool infminusinf;
--    unsigned s_bits = opc & MO_SIZE;
+-    float32 tmp;
--    TCGReg base;
+-
-+    TCGLabelQemuLdst *ldst;
+-    arch_fpop_start(env);
-+    HostAddress h;
+-    set_float_rounding_mode(float_round_nearest_even, &env->fp_status);
+-    infminusinf = float32_is_infinity(RxV) &&
--    /*
+-                  is_inf_prod(RsV, RtV) &&
--     * R6 removes the left/right instructions but requires the
+-                  (fGETBIT(31, RsV ^ RxV ^ RtV) == 0);
--     * system to support misaligned memory accesses.
+-    infinp = float32_is_infinity(RxV) ||
--     */
+-             float32_is_infinity(RtV) ||
--#if defined(CONFIG_SOFTMMU)
+-             float32_is_infinity(RsV);
--    tcg_insn_unit *label_ptr[2];
+-    RxV = check_nan(RxV, RxV, &env->fp_status);
-+    ldst = prepare_host_addr(s, &h, addrlo, addrhi, oi, true);
+-    RxV = check_nan(RxV, RsV, &env->fp_status);
+-    RxV = check_nan(RxV, RtV, &env->fp_status);
--    base = TCG_REG_A0;
+-    float32 minus_RsV = float32_sub(float32_zero, RsV, &env->fp_status);
--    tcg_out_tlb_load(s, base, addrlo, addrhi, oi, label_ptr, 1);
+-    tmp = internal_fmafx(minus_RsV, RtV, RxV, 0, &env->fp_status);
--    if (use_mips32r6_instructions || a_bits >= s_bits) {
+-    if (!(float32_is_zero(RxV) && is_zero_prod(RsV, RtV))) {
--        tcg_out_qemu_ld_direct(s, datalo, datahi, base, opc, data_type);
+-        RxV = tmp;
 +    if (use_mips32r6_instructions || h.align >= (opc & MO_SIZE)) {
 +        tcg_out_qemu_ld_direct(s, datalo, datahi, h.base, opc, data_type);
      } else {
 -        tcg_out_qemu_ld_unalign(s, datalo, datahi, base, opc, data_type);
 +        tcg_out_qemu_ld_unalign(s, datalo, datahi, h.base, opc, data_type);
      }
 -    add_qemu_ldst_label(s, true, oi, data_type, datalo, datahi,
 -                        addrlo, addrhi, s->code_ptr, label_ptr);
 -#else
 -    base = addrlo;
 -    if (TCG_TARGET_REG_BITS > TARGET_LONG_BITS) {
 -        tcg_out_ext32u(s, TCG_REG_A0, base);
 -        base = TCG_REG_A0;
 +
 +    if (ldst) {
 +        ldst->type = data_type;
 +        ldst->datalo_reg = datalo;
 +        ldst->datahi_reg = datahi;
 +        ldst->raddr = tcg_splitwx_to_rx(s->code_ptr);
      }
 -    if (guest_base) {
 -        if (guest_base == (int16_t)guest_base) {
 -            tcg_out_opc_imm(s, ALIAS_PADDI, TCG_REG_A0, base, guest_base);
 -        } else {
 -            tcg_out_opc_reg(s, ALIAS_PADD, TCG_REG_A0, base,
 -                            TCG_GUEST_BASE_REG);
 -        }
 -        base = TCG_REG_A0;
 -    }
--    if (use_mips32r6_instructions) {
+-    set_float_exception_flags(0, &env->fp_status);
--        if (a_bits) {
+-    if (float32_is_infinity(RxV) && !infinp) {
--            tcg_out_test_alignment(s, true, addrlo, addrhi, a_bits);
+-        RxV = RxV - 1;
 -        }
 -        tcg_out_qemu_ld_direct(s, datalo, datahi, base, opc, data_type);
 -    } else {
 -        if (a_bits && a_bits != s_bits) {
 -            tcg_out_test_alignment(s, true, addrlo, addrhi, a_bits);
 -        }
 -        if (a_bits >= s_bits) {
 -            tcg_out_qemu_ld_direct(s, datalo, datahi, base, opc, data_type);
 -        } else {
 -            tcg_out_qemu_ld_unalign(s, datalo, datahi, base, opc, data_type);
 -        }
 -    }
--#endif
+-    if (infminusinf) {
 -        RxV = 0;
 -    }
 -    arch_fpop_end(env);
 -    return RxV;
 +    return do_sffma_lib(env, RxV, RsV, RtV, float_muladd_negate_product);
  }
- static void tcg_out_qemu_st_direct(TCGContext *s, TCGReg lo, TCGReg hi,
+ float64 HELPER(dfmpyfix)(CPUHexagonState *env, float64 RssV, float64 RttV)
@@ -XXX,XX +XXX,XX @@ static void tcg_out_qemu_st(TCGContext *s, TCGReg datalo, TCGReg datahi,
                              MemOpIdx oi, TCGType data_type)
  {
      MemOp opc = get_memop(oi);
 -    unsigned a_bits = get_alignment_bits(opc);
 -    unsigned s_bits = opc & MO_SIZE;
 -    TCGReg base;
 +    TCGLabelQemuLdst *ldst;
 +    HostAddress h;
 -    /*
 -     * R6 removes the left/right instructions but requires the
 -     * system to support misaligned memory accesses.
 -     */
 -#if defined(CONFIG_SOFTMMU)
 -    tcg_insn_unit *label_ptr[2];
 +    ldst = prepare_host_addr(s, &h, addrlo, addrhi, oi, false);
 -    base = TCG_REG_A0;
 -    tcg_out_tlb_load(s, base, addrlo, addrhi, oi, label_ptr, 0);
 -    if (use_mips32r6_instructions || a_bits >= s_bits) {
 -        tcg_out_qemu_st_direct(s, datalo, datahi, base, opc);
 +    if (use_mips32r6_instructions || h.align >= (opc & MO_SIZE)) {
 +        tcg_out_qemu_st_direct(s, datalo, datahi, h.base, opc);
      } else {
 -        tcg_out_qemu_st_unalign(s, datalo, datahi, base, opc);
 +        tcg_out_qemu_st_unalign(s, datalo, datahi, h.base, opc);
      }
 -    add_qemu_ldst_label(s, false, oi, data_type, datalo, datahi,
 -                        addrlo, addrhi, s->code_ptr, label_ptr);
 -#else
 -    base = addrlo;
 -    if (TCG_TARGET_REG_BITS > TARGET_LONG_BITS) {
 -        tcg_out_ext32u(s, TCG_REG_A0, base);
 -        base = TCG_REG_A0;
 +
 +    if (ldst) {
 +        ldst->type = data_type;
 +        ldst->datalo_reg = datalo;
 +        ldst->datahi_reg = datahi;
 +        ldst->raddr = tcg_splitwx_to_rx(s->code_ptr);
      }
 -    if (guest_base) {
 -        if (guest_base == (int16_t)guest_base) {
 -            tcg_out_opc_imm(s, ALIAS_PADDI, TCG_REG_A0, base, guest_base);
 -        } else {
 -            tcg_out_opc_reg(s, ALIAS_PADD, TCG_REG_A0, base,
 -                            TCG_GUEST_BASE_REG);
 -        }
 -        base = TCG_REG_A0;
 -    }
 -    if (use_mips32r6_instructions) {
 -        if (a_bits) {
 -            tcg_out_test_alignment(s, true, addrlo, addrhi, a_bits);
 -        }
 -        tcg_out_qemu_st_direct(s, datalo, datahi, base, opc);
 -    } else {
 -        if (a_bits && a_bits != s_bits) {
 -            tcg_out_test_alignment(s, true, addrlo, addrhi, a_bits);
 -        }
 -        if (a_bits >= s_bits) {
 -            tcg_out_qemu_st_direct(s, datalo, datahi, base, opc);
 -        } else {
 -            tcg_out_qemu_st_unalign(s, datalo, datahi, base, opc);
 -        }
 -    }
 -#endif
  }
  static void tcg_out_mb(TCGContext *s, TCGArg a0)
 --
-.34.1
+.43.0

-[PULL 06/53] disas: Remove target-specific headers
+[PULL 66/72] target/hexagon: Remove internal_fmafx
-Reviewed-by: Thomas Huth <thuth@redhat.com>
+The function is now unused.
 Reviewed-by: Brian Cain <brian.cain@oss.qualcomm.com>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
-Message-Id: <20230503072331.1747057-83-richard.henderson@linaro.org>
 ---
- include/disas/disas.h | 6 ------
+ target/hexagon/fma_emu.h |   2 -
- disas/disas.c         | 3 ++-
+ target/hexagon/fma_emu.c | 171 ---------------------------------------
-files changed, 2 insertions(+), 7 deletions(-)
+files changed, 173 deletions(-)
-diff --git a/include/disas/disas.h b/include/disas/disas.h
+diff --git a/target/hexagon/fma_emu.h b/target/hexagon/fma_emu.h
 index XXXXXXX..XXXXXXX 100644
---- a/include/disas/disas.h
+--- a/target/hexagon/fma_emu.h
-+++ b/include/disas/disas.h
++++ b/target/hexagon/fma_emu.h
-@@ -XXX,XX +XXX,XX @@
+@@ -XXX,XX +XXX,XX @@ static inline uint32_t float32_getexp_raw(float32 f32)
- #ifndef QEMU_DISAS_H
+ }
- #define QEMU_DISAS_H
+ int32_t float32_getexp(float32 f32);
+ float32 infinite_float32(uint8_t sign);
--#include "exec/hwaddr.h"
+-float32 internal_fmafx(float32 a, float32 b, float32 c,
--
+-                       int scale, float_status *fp_status);
--#ifdef NEED_CPU_H
+ float64 internal_mpyhh(float64 a, float64 b,
--#include "cpu.h"
+                        unsigned long long int accumulated,
--
+                        float_status *fp_status);
- /* Disassemble this for me please... (debugging). */
+diff --git a/target/hexagon/fma_emu.c b/target/hexagon/fma_emu.c
  void disas(FILE *out, const void *code, size_t size);
  void target_disas(FILE *out, CPUState *cpu, uint64_t code, size_t size);
@@ -XXX,XX +XXX,XX @@ char *plugin_disas(CPUState *cpu, uint64_t addr, size_t size);
  /* Look up symbol for debugging purpose.  Returns "" if unknown. */
  const char *lookup_symbol(uint64_t orig_addr);
 -#endif
  struct syminfo;
  struct elf32_sym;
 diff --git a/disas/disas.c b/disas/disas.c
 index XXXXXXX..XXXXXXX 100644
---- a/disas/disas.c
+--- a/target/hexagon/fma_emu.c
-+++ b/disas/disas.c
++++ b/target/hexagon/fma_emu.c
-@@ -XXX,XX +XXX,XX @@
+@@ -XXX,XX +XXX,XX @@ int32_t float64_getexp(float64 f64)
- #include "disas/dis-asm.h"
+     return -1;
- #include "elf.h"
+ }
- #include "qemu/qemu-print.h"
--
+-static uint64_t float32_getmant(float32 f32)
- #include "disas/disas.h"
+-{
- #include "disas/capstone.h"
+-    Float a = { .i = f32 };
-+#include "hw/core/cpu.h"
+-    if (float32_is_normal(f32)) {
-+#include "exec/memory.h"
+-        return a.mant | 1ULL << 23;
+-    }
- typedef struct CPUDebug {
+-    if (float32_is_zero(f32)) {
-     struct disassemble_info info;
+-        return 0;
 -    }
 -    if (float32_is_denormal(f32)) {
 -        return a.mant;
 -    }
 -    return ~0ULL;
 -}
 -
  int32_t float32_getexp(float32 f32)
  {
      Float a = { .i = f32 };
@@ -XXX,XX +XXX,XX @@ float32 infinite_float32(uint8_t sign)
  }
  /* Return a maximum finite value with the requested sign */
 -static float32 maxfinite_float32(uint8_t sign)
 -{
 -    if (sign) {
 -        return make_float32(SF_MINUS_MAXF);
 -    } else {
 -        return make_float32(SF_MAXF);
 -    }
 -}
 -
 -/* Return a zero value with requested sign */
 -static float32 zero_float32(uint8_t sign)
 -{
 -    if (sign) {
 -        return make_float32(0x80000000);
 -    } else {
 -        return float32_zero;
 -    }
 -}
 -
  #define GEN_XF_ROUND(SUFFIX, MANTBITS, INF_EXP, INTERNAL_TYPE) \
  static SUFFIX accum_round_##SUFFIX(Accum a, float_status * fp_status) \
  { \
@@ -XXX,XX +XXX,XX @@ static SUFFIX accum_round_##SUFFIX(Accum a, float_status * fp_status) \
  }
  GEN_XF_ROUND(float64, DF_MANTBITS, DF_INF_EXP, Double)
 -GEN_XF_ROUND(float32, SF_MANTBITS, SF_INF_EXP, Float)
 -
 -static bool is_inf_prod(float64 a, float64 b)
 -{
 -    return ((float64_is_infinity(a) && float64_is_infinity(b)) ||
 -            (float64_is_infinity(a) && is_finite(b) && (!float64_is_zero(b))) ||
 -            (float64_is_infinity(b) && is_finite(a) && (!float64_is_zero(a))));
 -}
 -
 -static float64 special_fma(float64 a, float64 b, float64 c,
 -                           float_status *fp_status)
 -{
 -    float64 ret = make_float64(0);
 -
 -    /*
 -     * If A multiplied by B is an exact infinity and C is also an infinity
 -     * but with the opposite sign, FMA returns NaN and raises invalid.
 -     */
 -    uint8_t a_sign = float64_is_neg(a);
 -    uint8_t b_sign = float64_is_neg(b);
 -    uint8_t c_sign = float64_is_neg(c);
 -    if (is_inf_prod(a, b) && float64_is_infinity(c)) {
 -        if ((a_sign ^ b_sign) != c_sign) {
 -            ret = make_float64(DF_NAN);
 -            float_raise(float_flag_invalid, fp_status);
 -            return ret;
 -        }
 -    }
 -    if ((float64_is_infinity(a) && float64_is_zero(b)) ||
 -        (float64_is_zero(a) && float64_is_infinity(b))) {
 -        ret = make_float64(DF_NAN);
 -        float_raise(float_flag_invalid, fp_status);
 -        return ret;
 -    }
 -    /*
 -     * If none of the above checks are true and C is a NaN,
 -     * a NaN shall be returned
 -     * If A or B are NaN, a NAN shall be returned.
 -     */
 -    if (float64_is_any_nan(a) ||
 -        float64_is_any_nan(b) ||
 -        float64_is_any_nan(c)) {
 -        if (float64_is_any_nan(a) && (fGETBIT(51, a) == 0)) {
 -            float_raise(float_flag_invalid, fp_status);
 -        }
 -        if (float64_is_any_nan(b) && (fGETBIT(51, b) == 0)) {
 -            float_raise(float_flag_invalid, fp_status);
 -        }
 -        if (float64_is_any_nan(c) && (fGETBIT(51, c) == 0)) {
 -            float_raise(float_flag_invalid, fp_status);
 -        }
 -        ret = make_float64(DF_NAN);
 -        return ret;
 -    }
 -    /*
 -     * We have checked for adding opposite-signed infinities.
 -     * Other infinities return infinity with the correct sign
 -     */
 -    if (float64_is_infinity(c)) {
 -        ret = infinite_float64(c_sign);
 -        return ret;
 -    }
 -    if (float64_is_infinity(a) || float64_is_infinity(b)) {
 -        ret = infinite_float64(a_sign ^ b_sign);
 -        return ret;
 -    }
 -    g_assert_not_reached();
 -}
 -
 -static float32 special_fmaf(float32 a, float32 b, float32 c,
 -                            float_status *fp_status)
 -{
 -    float64 aa, bb, cc;
 -    aa = float32_to_float64(a, fp_status);
 -    bb = float32_to_float64(b, fp_status);
 -    cc = float32_to_float64(c, fp_status);
 -    return float64_to_float32(special_fma(aa, bb, cc, fp_status), fp_status);
 -}
 -
 -float32 internal_fmafx(float32 a, float32 b, float32 c, int scale,
 -                       float_status *fp_status)
 -{
 -    Accum prod;
 -    Accum acc;
 -    Accum result;
 -    accum_init(&prod);
 -    accum_init(&acc);
 -    accum_init(&result);
 -
 -    uint8_t a_sign = float32_is_neg(a);
 -    uint8_t b_sign = float32_is_neg(b);
 -    uint8_t c_sign = float32_is_neg(c);
 -    if (float32_is_infinity(a) ||
 -        float32_is_infinity(b) ||
 -        float32_is_infinity(c)) {
 -        return special_fmaf(a, b, c, fp_status);
 -    }
 -    if (float32_is_any_nan(a) ||
 -        float32_is_any_nan(b) ||
 -        float32_is_any_nan(c)) {
 -        return special_fmaf(a, b, c, fp_status);
 -    }
 -    if ((scale == 0) && (float32_is_zero(a) || float32_is_zero(b))) {
 -        float32 tmp = float32_mul(a, b, fp_status);
 -        tmp = float32_add(tmp, c, fp_status);
 -        return tmp;
 -    }
 -
 -    /* (a * 2**b) * (c * 2**d) == a*c * 2**(b+d) */
 -    prod.mant = int128_mul_6464(float32_getmant(a), float32_getmant(b));
 -
 -    /*
 -     * Note: extracting the mantissa into an int is multiplying by
 -     * 2**23, so adjust here
 -     */
 -    prod.exp = float32_getexp(a) + float32_getexp(b) - SF_BIAS - 23;
 -    prod.sign = a_sign ^ b_sign;
 -    if (float32_is_zero(a) || float32_is_zero(b)) {
 -        prod.exp = -2 * WAY_BIG_EXP;
 -    }
 -    if ((scale > 0) && float32_is_denormal(c)) {
 -        acc.mant = int128_mul_6464(0, 0);
 -        acc.exp = -WAY_BIG_EXP;
 -        acc.sign = c_sign;
 -        acc.sticky = 1;
 -        result = accum_add(prod, acc);
 -    } else if (!float32_is_zero(c)) {
 -        acc.mant = int128_mul_6464(float32_getmant(c), 1);
 -        acc.exp = float32_getexp(c);
 -        acc.sign = c_sign;
 -        result = accum_add(prod, acc);
 -    } else {
 -        result = prod;
 -    }
 -    result.exp += scale;
 -    return accum_round_float32(result, fp_status);
 -}
  float64 internal_mpyhh(float64 a, float64 b,
                        unsigned long long int accumulated,
 --
-.34.1
+.43.0

-[PULL 09/53] cpu: expose qemu_cpu_list_lock for lock-guard use
+[PULL 67/72] target/hexagon: Expand GEN_XF_ROUND
-From: Jamie Iles <quic_jiles@quicinc.com>
+This massive macro is now only used once.
 Expand it for use only by float64.
-Expose qemu_cpu_list_lock globally so that we can use
+Reviewed-by: Brian Cain <brian.cain@oss.qualcomm.com>
 WITH_QEMU_LOCK_GUARD and QEMU_LOCK_GUARD to simplify a few code paths
 now and in future.
 Signed-off-by: Jamie Iles <quic_jiles@quicinc.com>
 Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
 Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
 Message-Id: <20230427020925.51003-2-quic_jiles@quicinc.com>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- include/exec/cpu-common.h |  1 +
+ target/hexagon/fma_emu.c | 255 +++++++++++++++++++--------------------
- cpus-common.c             |  2 +-
+file changed, 127 insertions(+), 128 deletions(-)
  linux-user/elfload.c      | 13 +++++++------
  migration/dirtyrate.c     | 26 +++++++++++++-------------
  trace/control-target.c    |  9 ++++-----
 files changed, 26 insertions(+), 25 deletions(-)
-diff --git a/include/exec/cpu-common.h b/include/exec/cpu-common.h
+diff --git a/target/hexagon/fma_emu.c b/target/hexagon/fma_emu.c
 index XXXXXXX..XXXXXXX 100644
---- a/include/exec/cpu-common.h
+--- a/target/hexagon/fma_emu.c
-+++ b/include/exec/cpu-common.h
++++ b/target/hexagon/fma_emu.c
-@@ -XXX,XX +XXX,XX @@ extern intptr_t qemu_host_page_mask;
+@@ -XXX,XX +XXX,XX @@ float32 infinite_float32(uint8_t sign)
  #define REAL_HOST_PAGE_ALIGN(addr) ROUND_UP((addr), qemu_real_host_page_size())
  /* The CPU list lock nests outside page_(un)lock or mmap_(un)lock */
 +extern QemuMutex qemu_cpu_list_lock;
  void qemu_init_cpu_list(void);
  void cpu_list_lock(void);
  void cpu_list_unlock(void);
 diff --git a/cpus-common.c b/cpus-common.c
 index XXXXXXX..XXXXXXX 100644
 --- a/cpus-common.c
 +++ b/cpus-common.c
@@ -XXX,XX +XXX,XX @@
  #include "qemu/lockable.h"
  #include "trace/trace-root.h"
 -static QemuMutex qemu_cpu_list_lock;
 +QemuMutex qemu_cpu_list_lock;
  static QemuCond exclusive_cond;
  static QemuCond exclusive_resume;
  static QemuCond qemu_work_cond;
 diff --git a/linux-user/elfload.c b/linux-user/elfload.c
 index XXXXXXX..XXXXXXX 100644
 --- a/linux-user/elfload.c
 +++ b/linux-user/elfload.c
@@ -XXX,XX +XXX,XX @@
  #include "qemu/guest-random.h"
  #include "qemu/units.h"
  #include "qemu/selfmap.h"
 +#include "qemu/lockable.h"
  #include "qapi/error.h"
  #include "qemu/error-report.h"
  #include "target_signal.h"
@@ -XXX,XX +XXX,XX @@ static int fill_note_info(struct elf_note_info *info,
          info->notes_size += note_size(&info->notes[i]);
      /* read and fill status of all threads */
 -    cpu_list_lock();
 -    CPU_FOREACH(cpu) {
 -        if (cpu == thread_cpu) {
 -            continue;
 +    WITH_QEMU_LOCK_GUARD(&qemu_cpu_list_lock) {
 +        CPU_FOREACH(cpu) {
 +            if (cpu == thread_cpu) {
 +                continue;
 +            }
 +            fill_thread_info(info, cpu->env_ptr);
          }
 -        fill_thread_info(info, cpu->env_ptr);
      }
 -    cpu_list_unlock();
      return (0);
  }
-diff --git a/migration/dirtyrate.c b/migration/dirtyrate.c
-index XXXXXXX..XXXXXXX 100644
+ /* Return a maximum finite value with the requested sign */
---- a/migration/dirtyrate.c
+-#define GEN_XF_ROUND(SUFFIX, MANTBITS, INF_EXP, INTERNAL_TYPE) \
-+++ b/migration/dirtyrate.c
+-static SUFFIX accum_round_##SUFFIX(Accum a, float_status * fp_status) \
-@@ -XXX,XX +XXX,XX @@ int64_t vcpu_calculate_dirtyrate(int64_t calc_time_ms,
+-{ \
- retry:
+-    if ((int128_gethi(a.mant) == 0) && (int128_getlo(a.mant) == 0) \
-     init_time_ms = qemu_clock_get_ms(QEMU_CLOCK_REALTIME);
+-        && ((a.guard | a.round | a.sticky) == 0)) { \
+-        /* result zero */ \
--    cpu_list_lock();
+-        switch (fp_status->float_rounding_mode) { \
--    gen_id = cpu_list_generation_id_get();
+-        case float_round_down: \
--    records = vcpu_dirty_stat_alloc(stat);
+-            return zero_##SUFFIX(1); \
--    vcpu_dirty_stat_collect(stat, records, true);
+-        default: \
--    cpu_list_unlock();
+-            return zero_##SUFFIX(0); \
-+    WITH_QEMU_LOCK_GUARD(&qemu_cpu_list_lock) {
+-        } \
-+        gen_id = cpu_list_generation_id_get();
+-    } \
-+        records = vcpu_dirty_stat_alloc(stat);
+-    /* Normalize right */ \
-+        vcpu_dirty_stat_collect(stat, records, true);
+-    /* We want MANTBITS bits of mantissa plus the leading one. */ \
-+    }
+-    /* That means that we want MANTBITS+1 bits, or 0x000000000000FF_FFFF */ \
+-    /* So we need to normalize right while the high word is non-zero and \
-     duration = dirty_stat_wait(calc_time_ms, init_time_ms);
+-    * while the low word is nonzero when masked with 0xffe0_0000_0000_0000 */ \
+-    while ((int128_gethi(a.mant) != 0) || \
-     global_dirty_log_sync(flag, one_shot);
+-           ((int128_getlo(a.mant) >> (MANTBITS + 1)) != 0)) { \
+-        a = accum_norm_right(a, 1); \
--    cpu_list_lock();
+-    } \
--    if (gen_id != cpu_list_generation_id_get()) {
+-    /* \
--        g_free(records);
+-     * OK, now normalize left \
--        g_free(stat->rates);
+-     * We want to normalize left until we have a leading one in bit 24 \
--        cpu_list_unlock();
+-     * Theoretically, we only need to shift a maximum of one to the left if we \
--        goto retry;
+-     * shifted out lots of bits from B, or if we had no shift / 1 shift sticky \
-+    WITH_QEMU_LOCK_GUARD(&qemu_cpu_list_lock) {
+-     * should be 0  \
-+        if (gen_id != cpu_list_generation_id_get()) {
+-     */ \
-+            g_free(records);
+-    while ((int128_getlo(a.mant) & (1ULL << MANTBITS)) == 0) { \
-+            g_free(stat->rates);
+-        a = accum_norm_left(a); \
-+            cpu_list_unlock();
+-    } \
-+            goto retry;
+-    /* \
-+        }
+-     * OK, now we might need to denormalize because of potential underflow. \
-+        vcpu_dirty_stat_collect(stat, records, false);
+-     * We need to do this before rounding, and rounding might make us normal \
-     }
+-     * again \
--    vcpu_dirty_stat_collect(stat, records, false);
+-     */ \
--    cpu_list_unlock();
+-    while (a.exp <= 0) { \
+-        a = accum_norm_right(a, 1 - a.exp); \
-     for (i = 0; i < stat->nvcpu; i++) {
+-        /* \
-         dirtyrate = do_calculate_dirtyrate(records[i], duration);
+-         * Do we have underflow? \
-diff --git a/trace/control-target.c b/trace/control-target.c
+-         * That's when we get an inexact answer because we ran out of bits \
-index XXXXXXX..XXXXXXX 100644
+-         * in a denormal. \
---- a/trace/control-target.c
+-         */ \
-+++ b/trace/control-target.c
+-        if (a.guard || a.round || a.sticky) { \
-@@ -XXX,XX +XXX,XX @@
+-            float_raise(float_flag_underflow, fp_status); \
-  */
+-        } \
+-    } \
- #include "qemu/osdep.h"
+-    /* OK, we're relatively canonical... now we need to round */ \
-+#include "qemu/lockable.h"
+-    if (a.guard || a.round || a.sticky) { \
- #include "cpu.h"
+-        float_raise(float_flag_inexact, fp_status); \
- #include "trace/trace-root.h"
+-        switch (fp_status->float_rounding_mode) { \
- #include "trace/control.h"
+-        case float_round_to_zero: \
-@@ -XXX,XX +XXX,XX @@ static bool adding_first_cpu1(void)
+-            /* Chop and we're done */ \
+-            break; \
- static bool adding_first_cpu(void)
+-        case float_round_up: \
- {
+-            if (a.sign == 0) { \
--    bool res;
+-                a.mant = int128_add(a.mant, int128_one()); \
--    cpu_list_lock();
+-            } \
--    res = adding_first_cpu1();
+-            break; \
--    cpu_list_unlock();
+-        case float_round_down: \
--    return res;
+-            if (a.sign != 0) { \
-+    QEMU_LOCK_GUARD(&qemu_cpu_list_lock);
+-                a.mant = int128_add(a.mant, int128_one()); \
-+
+-            } \
-+    return adding_first_cpu1();
+-            break; \
 -        default: \
 -            if (a.round || a.sticky) { \
 -                /* round up if guard is 1, down if guard is zero */ \
 -                a.mant = int128_add(a.mant, int128_make64(a.guard)); \
 -            } else if (a.guard) { \
 -                /* exactly .5, round up if odd */ \
 -                a.mant = int128_add(a.mant, int128_and(a.mant, int128_one())); \
 -            } \
 -            break; \
 -        } \
 -    } \
 -    /* \
 -     * OK, now we might have carried all the way up. \
 -     * So we might need to shr once \
 -     * at least we know that the lsb should be zero if we rounded and \
 -     * got a carry out... \
 -     */ \
 -    if ((int128_getlo(a.mant) >> (MANTBITS + 1)) != 0) { \
 -        a = accum_norm_right(a, 1); \
 -    } \
 -    /* Overflow? */ \
 -    if (a.exp >= INF_EXP) { \
 -        /* Yep, inf result */ \
 -        float_raise(float_flag_overflow, fp_status); \
 -        float_raise(float_flag_inexact, fp_status); \
 -        switch (fp_status->float_rounding_mode) { \
 -        case float_round_to_zero: \
 -            return maxfinite_##SUFFIX(a.sign); \
 -        case float_round_up: \
 -            if (a.sign == 0) { \
 -                return infinite_##SUFFIX(a.sign); \
 -            } else { \
 -                return maxfinite_##SUFFIX(a.sign); \
 -            } \
 -        case float_round_down: \
 -            if (a.sign != 0) { \
 -                return infinite_##SUFFIX(a.sign); \
 -            } else { \
 -                return maxfinite_##SUFFIX(a.sign); \
 -            } \
 -        default: \
 -            return infinite_##SUFFIX(a.sign); \
 -        } \
 -    } \
 -    /* Underflow? */ \
 -    if (int128_getlo(a.mant) & (1ULL << MANTBITS)) { \
 -        /* Leading one means: No, we're normal. So, we should be done... */ \
 -        INTERNAL_TYPE ret; \
 -        ret.i = 0; \
 -        ret.sign = a.sign; \
 -        ret.exp = a.exp; \
 -        ret.mant = int128_getlo(a.mant); \
 -        return ret.i; \
 -    } \
 -    assert(a.exp == 1); \
 -    INTERNAL_TYPE ret; \
 -    ret.i = 0; \
 -    ret.sign = a.sign; \
 -    ret.exp = 0; \
 -    ret.mant = int128_getlo(a.mant); \
 -    return ret.i; \
 +static float64 accum_round_float64(Accum a, float_status *fp_status)
 +{
 +    if ((int128_gethi(a.mant) == 0) && (int128_getlo(a.mant) == 0)
 +        && ((a.guard | a.round | a.sticky) == 0)) {
 +        /* result zero */
 +        switch (fp_status->float_rounding_mode) {
 +        case float_round_down:
 +            return zero_float64(1);
 +        default:
 +            return zero_float64(0);
 +        }
 +    }
 +    /*
 +     * Normalize right
 +     * We want DF_MANTBITS bits of mantissa plus the leading one.
 +     * That means that we want DF_MANTBITS+1 bits, or 0x000000000000FF_FFFF
 +     * So we need to normalize right while the high word is non-zero and
 +     * while the low word is nonzero when masked with 0xffe0_0000_0000_0000
 +     */
 +    while ((int128_gethi(a.mant) != 0) ||
 +           ((int128_getlo(a.mant) >> (DF_MANTBITS + 1)) != 0)) {
 +        a = accum_norm_right(a, 1);
 +    }
 +    /*
 +     * OK, now normalize left
 +     * We want to normalize left until we have a leading one in bit 24
 +     * Theoretically, we only need to shift a maximum of one to the left if we
 +     * shifted out lots of bits from B, or if we had no shift / 1 shift sticky
 +     * should be 0
 +     */
 +    while ((int128_getlo(a.mant) & (1ULL << DF_MANTBITS)) == 0) {
 +        a = accum_norm_left(a);
 +    }
 +    /*
 +     * OK, now we might need to denormalize because of potential underflow.
 +     * We need to do this before rounding, and rounding might make us normal
 +     * again
 +     */
 +    while (a.exp <= 0) {
 +        a = accum_norm_right(a, 1 - a.exp);
 +        /*
 +         * Do we have underflow?
 +         * That's when we get an inexact answer because we ran out of bits
 +         * in a denormal.
 +         */
 +        if (a.guard || a.round || a.sticky) {
 +            float_raise(float_flag_underflow, fp_status);
 +        }
 +    }
 +    /* OK, we're relatively canonical... now we need to round */
 +    if (a.guard || a.round || a.sticky) {
 +        float_raise(float_flag_inexact, fp_status);
 +        switch (fp_status->float_rounding_mode) {
 +        case float_round_to_zero:
 +            /* Chop and we're done */
 +            break;
 +        case float_round_up:
 +            if (a.sign == 0) {
 +                a.mant = int128_add(a.mant, int128_one());
 +            }
 +            break;
 +        case float_round_down:
 +            if (a.sign != 0) {
 +                a.mant = int128_add(a.mant, int128_one());
 +            }
 +            break;
 +        default:
 +            if (a.round || a.sticky) {
 +                /* round up if guard is 1, down if guard is zero */
 +                a.mant = int128_add(a.mant, int128_make64(a.guard));
 +            } else if (a.guard) {
 +                /* exactly .5, round up if odd */
 +                a.mant = int128_add(a.mant, int128_and(a.mant, int128_one()));
 +            }
 +            break;
 +        }
 +    }
 +    /*
 +     * OK, now we might have carried all the way up.
 +     * So we might need to shr once
 +     * at least we know that the lsb should be zero if we rounded and
 +     * got a carry out...
 +     */
 +    if ((int128_getlo(a.mant) >> (DF_MANTBITS + 1)) != 0) {
 +        a = accum_norm_right(a, 1);
 +    }
 +    /* Overflow? */
 +    if (a.exp >= DF_INF_EXP) {
 +        /* Yep, inf result */
 +        float_raise(float_flag_overflow, fp_status);
 +        float_raise(float_flag_inexact, fp_status);
 +        switch (fp_status->float_rounding_mode) {
 +        case float_round_to_zero:
 +            return maxfinite_float64(a.sign);
 +        case float_round_up:
 +            if (a.sign == 0) {
 +                return infinite_float64(a.sign);
 +            } else {
 +                return maxfinite_float64(a.sign);
 +            }
 +        case float_round_down:
 +            if (a.sign != 0) {
 +                return infinite_float64(a.sign);
 +            } else {
 +                return maxfinite_float64(a.sign);
 +            }
 +        default:
 +            return infinite_float64(a.sign);
 +        }
 +    }
 +    /* Underflow? */
 +    if (int128_getlo(a.mant) & (1ULL << DF_MANTBITS)) {
 +        /* Leading one means: No, we're normal. So, we should be done... */
 +        Double ret;
 +        ret.i = 0;
 +        ret.sign = a.sign;
 +        ret.exp = a.exp;
 +        ret.mant = int128_getlo(a.mant);
 +        return ret.i;
 +    }
 +    assert(a.exp == 1);
 +    Double ret;
 +    ret.i = 0;
 +    ret.sign = a.sign;
 +    ret.exp = 0;
 +    ret.mant = int128_getlo(a.mant);
 +    return ret.i;
  }
- void trace_init_vcpu(CPUState *vcpu)
+-GEN_XF_ROUND(float64, DF_MANTBITS, DF_INF_EXP, Double)
 -
  float64 internal_mpyhh(float64 a, float64 b,
                        unsigned long long int accumulated,
                        float_status *fp_status)
 --
-.34.1
+.43.0

-[PULL 04/53] disas: Move disas.c to disas/
+[PULL 68/72] target/hexagon: Remove Float
-Reviewed-by: Thomas Huth <thuth@redhat.com>
+This structure, with bitfields, is incorrect for big-endian.
 Use the existing float32_getexp_raw which uses extract32.
 Reviewed-by: Brian Cain <brian.cain@oss.qualcomm.com>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
-Message-Id: <20230503072331.1747057-80-richard.henderson@linaro.org>
 ---
- meson.build              | 3 ---
+ target/hexagon/fma_emu.c | 16 +++-------------
- disas.c => disas/disas.c | 0
+file changed, 3 insertions(+), 13 deletions(-)
  disas/meson.build        | 4 +++-
 files changed, 3 insertions(+), 4 deletions(-)
  rename disas.c => disas/disas.c (100%)
-diff --git a/meson.build b/meson.build
+diff --git a/target/hexagon/fma_emu.c b/target/hexagon/fma_emu.c
 index XXXXXXX..XXXXXXX 100644
---- a/meson.build
+--- a/target/hexagon/fma_emu.c
-+++ b/meson.build
++++ b/target/hexagon/fma_emu.c
-@@ -XXX,XX +XXX,XX @@ specific_ss.add(files('cpu.c'))
+@@ -XXX,XX +XXX,XX @@ typedef union {
+     };
- subdir('softmmu')
+ } Double;
--common_ss.add(capstone)
+-typedef union {
--specific_ss.add(files('disas.c'), capstone)
+-    float f;
 -    uint32_t i;
 -    struct {
 -        uint32_t mant:23;
 -        uint32_t exp:8;
 -        uint32_t sign:1;
 -    };
 -} Float;
 -
- # Work around a gcc bug/misfeature wherein constant propagation looks
+ static uint64_t float64_getmant(float64 f64)
- # through an alias:
+ {
- #   https://gcc.gnu.org/bugzilla/show_bug.cgi?id=99696
+     Double a = { .i = f64 };
-diff --git a/disas.c b/disas/disas.c
+@@ -XXX,XX +XXX,XX @@ int32_t float64_getexp(float64 f64)
-similarity index 100%
-rename from disas.c
+ int32_t float32_getexp(float32 f32)
-rename to disas/disas.c
+ {
-diff --git a/disas/meson.build b/disas/meson.build
+-    Float a = { .i = f32 };
-index XXXXXXX..XXXXXXX 100644
++    int exp = float32_getexp_raw(f32);
---- a/disas/meson.build
+     if (float32_is_normal(f32)) {
-+++ b/disas/meson.build
+-        return a.exp;
-@@ -XXX,XX +XXX,XX @@ common_ss.add(when: 'CONFIG_RISCV_DIS', if_true: files('riscv.c'))
++        return exp;
- common_ss.add(when: 'CONFIG_SH4_DIS', if_true: files('sh4.c'))
+     }
- common_ss.add(when: 'CONFIG_SPARC_DIS', if_true: files('sparc.c'))
+     if (float32_is_denormal(f32)) {
- common_ss.add(when: 'CONFIG_XTENSA_DIS', if_true: files('xtensa.c'))
+-        return a.exp + 1;
--common_ss.add(when: capstone, if_true: files('capstone.c'))
++        return exp + 1;
-+common_ss.add(when: capstone, if_true: [files('capstone.c'), capstone])
+     }
-+
+     return -1;
-+specific_ss.add(files('disas.c'), capstone)
+ }
 --
-.34.1
+.43.0

-[PULL 15/53] tcg/loongarch64: Introduce prepare_host_addr
+[PULL 69/72] target/hexagon: Remove Double
-Merge tcg_out_tlb_load, add_qemu_ldst_label, tcg_out_test_alignment,
+This structure, with bitfields, is incorrect for big-endian.
-tcg_out_zext_addr_if_32_bit, and some code that lived in both
+Use extract64 and deposit64 instead.
 tcg_out_qemu_ld and tcg_out_qemu_st into one function that returns
 HostAddress and TCGLabelQemuLdst structures.
-Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
+Reviewed-by: Brian Cain <brian.cain@oss.qualcomm.com>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- tcg/loongarch64/tcg-target.c.inc | 255 +++++++++++++------------------
+ target/hexagon/fma_emu.c | 46 ++++++++++++++--------------------------
-file changed, 105 insertions(+), 150 deletions(-)
+file changed, 16 insertions(+), 30 deletions(-)
-diff --git a/tcg/loongarch64/tcg-target.c.inc b/tcg/loongarch64/tcg-target.c.inc
+diff --git a/target/hexagon/fma_emu.c b/target/hexagon/fma_emu.c
 index XXXXXXX..XXXXXXX 100644
---- a/tcg/loongarch64/tcg-target.c.inc
+--- a/target/hexagon/fma_emu.c
-+++ b/tcg/loongarch64/tcg-target.c.inc
++++ b/target/hexagon/fma_emu.c
-@@ -XXX,XX +XXX,XX @@ static void * const qemu_st_helpers[4] = {
+@@ -XXX,XX +XXX,XX @@
-     [MO_64] = helper_le_stq_mmu,
- };
+ #define WAY_BIG_EXP 4096
--/* We expect to use a 12-bit negative offset from ENV.  */
+-typedef union {
--QEMU_BUILD_BUG_ON(TLB_MASK_TABLE_OFS(0) > 0);
+-    double f;
--QEMU_BUILD_BUG_ON(TLB_MASK_TABLE_OFS(0) < -(1 << 11));
+-    uint64_t i;
 -    struct {
 -        uint64_t mant:52;
 -        uint64_t exp:11;
 -        uint64_t sign:1;
 -    };
 -} Double;
 -
- static bool tcg_out_goto(TCGContext *s, const tcg_insn_unit *target)
+ static uint64_t float64_getmant(float64 f64)
  {
-     tcg_out_opc_b(s, 0);
+-    Double a = { .i = f64 };
-     return reloc_br_sd10k16(s->code_ptr - 1, target);
++    uint64_t mant = extract64(f64, 0, 52);
      if (float64_is_normal(f64)) {
 -        return a.mant | 1ULL << 52;
 +        return mant | 1ULL << 52;
      }
      if (float64_is_zero(f64)) {
          return 0;
      }
      if (float64_is_denormal(f64)) {
 -        return a.mant;
 +        return mant;
      }
      return ~0ULL;
  }
--/*
+ int32_t float64_getexp(float64 f64)
 - * Emits common code for TLB addend lookup, that eventually loads the
 - * addend in TCG_REG_TMP2.
 - */
 -static void tcg_out_tlb_load(TCGContext *s, TCGReg addrl, MemOpIdx oi,
 -                             tcg_insn_unit **label_ptr, bool is_load)
 -{
 -    MemOp opc = get_memop(oi);
 -    unsigned s_bits = opc & MO_SIZE;
 -    unsigned a_bits = get_alignment_bits(opc);
 -    tcg_target_long compare_mask;
 -    int mem_index = get_mmuidx(oi);
 -    int fast_ofs = TLB_MASK_TABLE_OFS(mem_index);
 -    int mask_ofs = fast_ofs + offsetof(CPUTLBDescFast, mask);
 -    int table_ofs = fast_ofs + offsetof(CPUTLBDescFast, table);
 -
 -    tcg_out_ld(s, TCG_TYPE_PTR, TCG_REG_TMP0, TCG_AREG0, mask_ofs);
 -    tcg_out_ld(s, TCG_TYPE_PTR, TCG_REG_TMP1, TCG_AREG0, table_ofs);
 -
 -    tcg_out_opc_srli_d(s, TCG_REG_TMP2, addrl,
 -                    TARGET_PAGE_BITS - CPU_TLB_ENTRY_BITS);
 -    tcg_out_opc_and(s, TCG_REG_TMP2, TCG_REG_TMP2, TCG_REG_TMP0);
 -    tcg_out_opc_add_d(s, TCG_REG_TMP2, TCG_REG_TMP2, TCG_REG_TMP1);
 -
 -    /* Load the tlb comparator and the addend.  */
 -    tcg_out_ld(s, TCG_TYPE_TL, TCG_REG_TMP0, TCG_REG_TMP2,
 -               is_load ? offsetof(CPUTLBEntry, addr_read)
 -               : offsetof(CPUTLBEntry, addr_write));
 -    tcg_out_ld(s, TCG_TYPE_PTR, TCG_REG_TMP2, TCG_REG_TMP2,
 -               offsetof(CPUTLBEntry, addend));
 -
 -    /* We don't support unaligned accesses.  */
 -    if (a_bits < s_bits) {
 -        a_bits = s_bits;
 -    }
 -    /* Clear the non-page, non-alignment bits from the address.  */
 -    compare_mask = (tcg_target_long)TARGET_PAGE_MASK | ((1 << a_bits) - 1);
 -    tcg_out_movi(s, TCG_TYPE_TL, TCG_REG_TMP1, compare_mask);
 -    tcg_out_opc_and(s, TCG_REG_TMP1, TCG_REG_TMP1, addrl);
 -
 -    /* Compare masked address with the TLB entry.  */
 -    label_ptr[0] = s->code_ptr;
 -    tcg_out_opc_bne(s, TCG_REG_TMP0, TCG_REG_TMP1, 0);
 -
 -    /* TLB Hit - addend in TCG_REG_TMP2, ready for use.  */
 -}
 -
 -static void add_qemu_ldst_label(TCGContext *s, int is_ld, MemOpIdx oi,
 -                                TCGType type,
 -                                TCGReg datalo, TCGReg addrlo,
 -                                void *raddr, tcg_insn_unit **label_ptr)
 -{
 -    TCGLabelQemuLdst *label = new_ldst_label(s);
 -
 -    label->is_ld = is_ld;
 -    label->oi = oi;
 -    label->type = type;
 -    label->datalo_reg = datalo;
 -    label->datahi_reg = 0; /* unused */
 -    label->addrlo_reg = addrlo;
 -    label->addrhi_reg = 0; /* unused */
 -    label->raddr = tcg_splitwx_to_rx(raddr);
 -    label->label_ptr[0] = label_ptr[0];
 -}
 -
  static bool tcg_out_qemu_ld_slow_path(TCGContext *s, TCGLabelQemuLdst *l)
  {
-     MemOpIdx oi = l->oi;
+-    Double a = { .i = f64 };
-@@ -XXX,XX +XXX,XX @@ static bool tcg_out_qemu_st_slow_path(TCGContext *s, TCGLabelQemuLdst *l)
++    int exp = extract64(f64, 52, 11);
-     return tcg_out_goto(s, l->raddr);
+     if (float64_is_normal(f64)) {
 -        return a.exp;
 +        return exp;
      }
      if (float64_is_denormal(f64)) {
 -        return a.exp + 1;
 +        return exp + 1;
      }
      return -1;
  }
- #else
+@@ -XXX,XX +XXX,XX @@ float32 infinite_float32(uint8_t sign)
--
+ /* Return a maximum finite value with the requested sign */
--/*
+ static float64 accum_round_float64(Accum a, float_status *fp_status)
 - * Alignment helpers for user-mode emulation
 - */
 -
 -static void tcg_out_test_alignment(TCGContext *s, bool is_ld, TCGReg addr_reg,
 -                                   unsigned a_bits)
 -{
 -    TCGLabelQemuLdst *l = new_ldst_label(s);
 -
 -    l->is_ld = is_ld;
 -    l->addrlo_reg = addr_reg;
 -
 -    /*
 -     * Without micro-architecture details, we don't know which of bstrpick or
 -     * andi is faster, so use bstrpick as it's not constrained by imm field
 -     * width. (Not to say alignments >= 2^12 are going to happen any time
 -     * soon, though)
 -     */
 -    tcg_out_opc_bstrpick_d(s, TCG_REG_TMP1, addr_reg, 0, a_bits - 1);
 -
 -    l->label_ptr[0] = s->code_ptr;
 -    tcg_out_opc_bne(s, TCG_REG_TMP1, TCG_REG_ZERO, 0);
 -
 -    l->raddr = tcg_splitwx_to_rx(s->code_ptr);
 -}
 -
  static bool tcg_out_fail_alignment(TCGContext *s, TCGLabelQemuLdst *l)
  {
-     /* resolve label address */
++    uint64_t ret;
@@ -XXX,XX +XXX,XX @@ static bool tcg_out_qemu_st_slow_path(TCGContext *s, TCGLabelQemuLdst *l)
  #endif /* CONFIG_SOFTMMU */
 -/*
 - * `ext32u` the address register into the temp register given,
 - * if target is 32-bit, no-op otherwise.
 - *
 - * Returns the address register ready for use with TLB addend.
 - */
 -static TCGReg tcg_out_zext_addr_if_32_bit(TCGContext *s,
 -                                          TCGReg addr, TCGReg tmp)
 -{
 -    if (TARGET_LONG_BITS == 32) {
 -        tcg_out_ext32u(s, tmp, addr);
 -        return tmp;
 -    }
 -    return addr;
 -}
 -
  typedef struct {
      TCGReg base;
      TCGReg index;
  } HostAddress;
 +/*
 + * For softmmu, perform the TLB load and compare.
 + * For useronly, perform any required alignment tests.
 + * In both cases, return a TCGLabelQemuLdst structure if the slow path
 + * is required and fill in @h with the host address for the fast path.
 + */
 +static TCGLabelQemuLdst *prepare_host_addr(TCGContext *s, HostAddress *h,
 +                                           TCGReg addr_reg, MemOpIdx oi,
 +                                           bool is_ld)
 +{
 +    TCGLabelQemuLdst *ldst = NULL;
 +    MemOp opc = get_memop(oi);
 +    unsigned a_bits = get_alignment_bits(opc);
 +
-+#ifdef CONFIG_SOFTMMU
+     if ((int128_gethi(a.mant) == 0) && (int128_getlo(a.mant) == 0)
-+    unsigned s_bits = opc & MO_SIZE;
+         && ((a.guard | a.round | a.sticky) == 0)) {
-+    int mem_index = get_mmuidx(oi);
+         /* result zero */
-+    int fast_ofs = TLB_MASK_TABLE_OFS(mem_index);
+@@ -XXX,XX +XXX,XX @@ static float64 accum_round_float64(Accum a, float_status *fp_status)
-+    int mask_ofs = fast_ofs + offsetof(CPUTLBDescFast, mask);
+         }
-+    int table_ofs = fast_ofs + offsetof(CPUTLBDescFast, table);
+     }
-+    tcg_target_long compare_mask;
+     /* Underflow? */
-+
+-    if (int128_getlo(a.mant) & (1ULL << DF_MANTBITS)) {
-+    ldst = new_ldst_label(s);
++    ret = int128_getlo(a.mant);
-+    ldst->is_ld = is_ld;
++    if (ret & (1ULL << DF_MANTBITS)) {
-+    ldst->oi = oi;
+         /* Leading one means: No, we're normal. So, we should be done... */
-+    ldst->addrlo_reg = addr_reg;
+-        Double ret;
-+
+-        ret.i = 0;
-+    QEMU_BUILD_BUG_ON(TLB_MASK_TABLE_OFS(0) > 0);
+-        ret.sign = a.sign;
-+    QEMU_BUILD_BUG_ON(TLB_MASK_TABLE_OFS(0) < -(1 << 11));
+-        ret.exp = a.exp;
-+    tcg_out_ld(s, TCG_TYPE_PTR, TCG_REG_TMP0, TCG_AREG0, mask_ofs);
+-        ret.mant = int128_getlo(a.mant);
-+    tcg_out_ld(s, TCG_TYPE_PTR, TCG_REG_TMP1, TCG_AREG0, table_ofs);
+-        return ret.i;
-+
++        ret = deposit64(ret, 52, 11, a.exp);
 +    tcg_out_opc_srli_d(s, TCG_REG_TMP2, addr_reg,
 +                    TARGET_PAGE_BITS - CPU_TLB_ENTRY_BITS);
 +    tcg_out_opc_and(s, TCG_REG_TMP2, TCG_REG_TMP2, TCG_REG_TMP0);
 +    tcg_out_opc_add_d(s, TCG_REG_TMP2, TCG_REG_TMP2, TCG_REG_TMP1);
 +
 +    /* Load the tlb comparator and the addend.  */
 +    tcg_out_ld(s, TCG_TYPE_TL, TCG_REG_TMP0, TCG_REG_TMP2,
 +               is_ld ? offsetof(CPUTLBEntry, addr_read)
 +                     : offsetof(CPUTLBEntry, addr_write));
 +    tcg_out_ld(s, TCG_TYPE_PTR, TCG_REG_TMP2, TCG_REG_TMP2,
 +               offsetof(CPUTLBEntry, addend));
 +
 +    /* We don't support unaligned accesses.  */
 +    if (a_bits < s_bits) {
 +        a_bits = s_bits;
 +    }
 +    /* Clear the non-page, non-alignment bits from the address.  */
 +    compare_mask = (tcg_target_long)TARGET_PAGE_MASK | ((1 << a_bits) - 1);
 +    tcg_out_movi(s, TCG_TYPE_TL, TCG_REG_TMP1, compare_mask);
 +    tcg_out_opc_and(s, TCG_REG_TMP1, TCG_REG_TMP1, addr_reg);
 +
 +    /* Compare masked address with the TLB entry.  */
 +    ldst->label_ptr[0] = s->code_ptr;
 +    tcg_out_opc_bne(s, TCG_REG_TMP0, TCG_REG_TMP1, 0);
 +
 +    h->index = TCG_REG_TMP2;
 +#else
 +    if (a_bits) {
 +        ldst = new_ldst_label(s);
 +
 +        ldst->is_ld = is_ld;
 +        ldst->oi = oi;
 +        ldst->addrlo_reg = addr_reg;
 +
 +        /*
 +         * Without micro-architecture details, we don't know which of
 +         * bstrpick or andi is faster, so use bstrpick as it's not
 +         * constrained by imm field width. Not to say alignments >= 2^12
 +         * are going to happen any time soon.
 +         */
 +        tcg_out_opc_bstrpick_d(s, TCG_REG_TMP1, addr_reg, 0, a_bits - 1);
 +
 +        ldst->label_ptr[0] = s->code_ptr;
 +        tcg_out_opc_bne(s, TCG_REG_TMP1, TCG_REG_ZERO, 0);
 +    }
 +
 +    h->index = USE_GUEST_BASE ? TCG_GUEST_BASE_REG : TCG_REG_ZERO;
 +#endif
 +
 +    if (TARGET_LONG_BITS == 32) {
 +        h->base = TCG_REG_TMP0;
 +        tcg_out_ext32u(s, h->base, addr_reg);
 +    } else {
-+        h->base = addr_reg;
++        assert(a.exp == 1);
-+    }
++        ret = deposit64(ret, 52, 11, 0);
 +
 +    return ldst;
 +}
 +
  static void tcg_out_qemu_ld_indexed(TCGContext *s, MemOp opc, TCGType type,
                                      TCGReg rd, HostAddress h)
  {
@@ -XXX,XX +XXX,XX @@ static void tcg_out_qemu_ld_indexed(TCGContext *s, MemOp opc, TCGType type,
  static void tcg_out_qemu_ld(TCGContext *s, TCGReg data_reg, TCGReg addr_reg,
                              MemOpIdx oi, TCGType data_type)
  {
 -    MemOp opc = get_memop(oi);
 +    TCGLabelQemuLdst *ldst;
      HostAddress h;
 -#ifdef CONFIG_SOFTMMU
 -    tcg_insn_unit *label_ptr[1];
 +    ldst = prepare_host_addr(s, &h, addr_reg, oi, true);
 +    tcg_out_qemu_ld_indexed(s, get_memop(oi), data_type, data_reg, h);
 -    tcg_out_tlb_load(s, addr_reg, oi, label_ptr, 1);
 -    h.index = TCG_REG_TMP2;
 -#else
 -    unsigned a_bits = get_alignment_bits(opc);
 -    if (a_bits) {
 -        tcg_out_test_alignment(s, true, addr_reg, a_bits);
 +    if (ldst) {
 +        ldst->type = data_type;
 +        ldst->datalo_reg = data_reg;
 +        ldst->raddr = tcg_splitwx_to_rx(s->code_ptr);
      }
--    h.index = USE_GUEST_BASE ? TCG_GUEST_BASE_REG : TCG_REG_ZERO;
+-    assert(a.exp == 1);
--#endif
+-    Double ret;
--
+-    ret.i = 0;
--    h.base = tcg_out_zext_addr_if_32_bit(s, addr_reg, TCG_REG_TMP0);
+-    ret.sign = a.sign;
--    tcg_out_qemu_ld_indexed(s, opc, data_type, data_reg, h);
+-    ret.exp = 0;
--
+-    ret.mant = int128_getlo(a.mant);
--#ifdef CONFIG_SOFTMMU
+-    return ret.i;
--    add_qemu_ldst_label(s, true, oi, data_type, data_reg, addr_reg,
++    ret = deposit64(ret, 63, 1, a.sign);
--                        s->code_ptr, label_ptr);
++    return ret;
 -#endif
  }
- static void tcg_out_qemu_st_indexed(TCGContext *s, MemOp opc,
+ float64 internal_mpyhh(float64 a, float64 b,
@@ -XXX,XX +XXX,XX @@ static void tcg_out_qemu_st_indexed(TCGContext *s, MemOp opc,
  static void tcg_out_qemu_st(TCGContext *s, TCGReg data_reg, TCGReg addr_reg,
                              MemOpIdx oi, TCGType data_type)
  {
 -    MemOp opc = get_memop(oi);
 +    TCGLabelQemuLdst *ldst;
      HostAddress h;
 -#ifdef CONFIG_SOFTMMU
 -    tcg_insn_unit *label_ptr[1];
 +    ldst = prepare_host_addr(s, &h, addr_reg, oi, false);
 +    tcg_out_qemu_st_indexed(s, get_memop(oi), data_reg, h);
 -    tcg_out_tlb_load(s, addr_reg, oi, label_ptr, 0);
 -    h.index = TCG_REG_TMP2;
 -#else
 -    unsigned a_bits = get_alignment_bits(opc);
 -    if (a_bits) {
 -        tcg_out_test_alignment(s, false, addr_reg, a_bits);
 +    if (ldst) {
 +        ldst->type = data_type;
 +        ldst->datalo_reg = data_reg;
 +        ldst->raddr = tcg_splitwx_to_rx(s->code_ptr);
      }
 -    h.index = USE_GUEST_BASE ? TCG_GUEST_BASE_REG : TCG_REG_ZERO;
 -#endif
 -
 -    h.base = tcg_out_zext_addr_if_32_bit(s, addr_reg, TCG_REG_TMP0);
 -    tcg_out_qemu_st_indexed(s, opc, data_reg, h);
 -
 -#ifdef CONFIG_SOFTMMU
 -    add_qemu_ldst_label(s, false, oi, data_type, data_reg, addr_reg,
 -                        s->code_ptr, label_ptr);
 -#endif
  }
  /*
 --
-.34.1
+.43.0

-[PULL 24/53] tcg/arm: Convert tcg_out_qemu_{ld,st}_slow_path
+[PULL 70/72] target/hexagon: Use mulu64 for int128_mul_6464
-Use tcg_out_ld_helper_args, tcg_out_ld_helper_ret,
+No need to open-code 64x64->128-bit multiplication.
 and tcg_out_st_helper_args.  This allows our local
 tcg_out_arg_* infrastructure to be removed.
-Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
+Reviewed-by: Brian Cain <brian.cain@oss.qualcomm.com>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- tcg/arm/tcg-target.c.inc | 140 +++++----------------------------------
+ target/hexagon/fma_emu.c | 32 +++-----------------------------
-file changed, 18 insertions(+), 122 deletions(-)
+file changed, 3 insertions(+), 29 deletions(-)
-diff --git a/tcg/arm/tcg-target.c.inc b/tcg/arm/tcg-target.c.inc
+diff --git a/target/hexagon/fma_emu.c b/target/hexagon/fma_emu.c
 index XXXXXXX..XXXXXXX 100644
---- a/tcg/arm/tcg-target.c.inc
+--- a/target/hexagon/fma_emu.c
-+++ b/tcg/arm/tcg-target.c.inc
++++ b/target/hexagon/fma_emu.c
-@@ -XXX,XX +XXX,XX @@ tcg_out_ldrd_rwb(TCGContext *s, ARMCond cond, TCGReg rt, TCGReg rn, TCGReg rm)
+@@ -XXX,XX +XXX,XX @@ int32_t float32_getexp(float32 f32)
-     tcg_out_memop_r(s, cond, INSN_LDRD_REG, rt, rn, rm, 1, 1, 1);
+     return -1;
  }
--static void tcg_out_strd_8(TCGContext *s, ARMCond cond, TCGReg rt,
+-static uint32_t int128_getw0(Int128 x)
 -                           TCGReg rn, int imm8)
 +static void __attribute__((unused))
 +tcg_out_strd_8(TCGContext *s, ARMCond cond, TCGReg rt, TCGReg rn, int imm8)
  {
      tcg_out_memop_8(s, cond, INSN_STRD_IMM, rt, rn, imm8, 1, 0);
  }
@@ -XXX,XX +XXX,XX @@ static void tcg_out_ext8u(TCGContext *s, TCGReg rd, TCGReg rn)
      tcg_out_dat_imm(s, COND_AL, ARITH_AND, rd, rn, 0xff);
  }
 -static void __attribute__((unused))
 -tcg_out_ext8u_cond(TCGContext *s, ARMCond cond, TCGReg rd, TCGReg rn)
 -{
--    tcg_out_dat_imm(s, cond, ARITH_AND, rd, rn, 0xff);
+-    return int128_getlo(x);
 -}
 -
- static void tcg_out_ext16s(TCGContext *s, TCGType t, TCGReg rd, TCGReg rn)
+-static uint32_t int128_getw1(Int128 x)
  {
      /* sxth */
      tcg_out32(s, 0x06bf0070 | (COND_AL << 28) | (rd << 12) | rn);
  }
 -static void tcg_out_ext16u_cond(TCGContext *s, ARMCond cond,
 -                                TCGReg rd, TCGReg rn)
 -{
--    /* uxth */
+-    return int128_getlo(x) >> 32;
 -    tcg_out32(s, 0x06ff0070 | (cond << 28) | (rd << 12) | rn);
 -}
 -
- static void tcg_out_ext16u(TCGContext *s, TCGReg rd, TCGReg rn)
+ static Int128 int128_mul_6464(uint64_t ai, uint64_t bi)
  {
--    tcg_out_ext16u_cond(s, COND_AL, rd, rn);
+-    Int128 a, b;
-+    /* uxth */
+-    uint64_t pp0, pp1a, pp1b, pp1s, pp2;
-+    tcg_out32(s, 0x06ff0070 | (COND_AL << 28) | (rd << 12) | rn);
++    uint64_t l, h;
- }
+-    a = int128_make64(ai);
- static void tcg_out_ext32s(TCGContext *s, TCGReg rd, TCGReg rn)
+-    b = int128_make64(bi);
-@@ -XXX,XX +XXX,XX @@ static void * const qemu_st_helpers[MO_SIZE + 1] = {
+-    pp0 = (uint64_t)int128_getw0(a) * (uint64_t)int128_getw0(b);
- #endif
+-    pp1a = (uint64_t)int128_getw1(a) * (uint64_t)int128_getw0(b);
- };
+-    pp1b = (uint64_t)int128_getw1(b) * (uint64_t)int128_getw0(a);
+-    pp2 = (uint64_t)int128_getw1(a) * (uint64_t)int128_getw1(b);
 -/* Helper routines for marshalling helper function arguments into
 - * the correct registers and stack.
 - * argreg is where we want to put this argument, arg is the argument itself.
 - * Return value is the updated argreg ready for the next call.
 - * Note that argreg 0..3 is real registers, 4+ on stack.
 - *
 - * We provide routines for arguments which are: immediate, 32 bit
 - * value in register, 16 and 8 bit values in register (which must be zero
 - * extended before use) and 64 bit value in a lo:hi register pair.
 - */
 -#define DEFINE_TCG_OUT_ARG(NAME, ARGTYPE, MOV_ARG, EXT_ARG)                \
 -static TCGReg NAME(TCGContext *s, TCGReg argreg, ARGTYPE arg)              \
 -{                                                                          \
 -    if (argreg < 4) {                                                      \
 -        MOV_ARG(s, COND_AL, argreg, arg);                                  \
 -    } else {                                                               \
 -        int ofs = (argreg - 4) * 4;                                        \
 -        EXT_ARG;                                                           \
 -        tcg_debug_assert(ofs + 4 <= TCG_STATIC_CALL_ARGS_SIZE);            \
 -        tcg_out_st32_12(s, COND_AL, arg, TCG_REG_CALL_STACK, ofs);         \
 -    }                                                                      \
 -    return argreg + 1;                                                     \
 -}
 -
--DEFINE_TCG_OUT_ARG(tcg_out_arg_imm32, uint32_t, tcg_out_movi32,
+-    pp1s = pp1a + pp1b;
--    (tcg_out_movi32(s, COND_AL, TCG_REG_TMP, arg), arg = TCG_REG_TMP))
+-    if ((pp1s < pp1a) || (pp1s < pp1b)) {
--DEFINE_TCG_OUT_ARG(tcg_out_arg_reg8, TCGReg, tcg_out_ext8u_cond,
+-        pp2 += (1ULL << 32);
 -    (tcg_out_ext8u_cond(s, COND_AL, TCG_REG_TMP, arg), arg = TCG_REG_TMP))
 -DEFINE_TCG_OUT_ARG(tcg_out_arg_reg16, TCGReg, tcg_out_ext16u_cond,
 -    (tcg_out_ext16u_cond(s, COND_AL, TCG_REG_TMP, arg), arg = TCG_REG_TMP))
 -DEFINE_TCG_OUT_ARG(tcg_out_arg_reg32, TCGReg, tcg_out_mov_reg, )
 -
 -static TCGReg tcg_out_arg_reg64(TCGContext *s, TCGReg argreg,
 -                                TCGReg arglo, TCGReg arghi)
 +static TCGReg ldst_ra_gen(TCGContext *s, const TCGLabelQemuLdst *l, int arg)
  {
 -    /* 64 bit arguments must go in even/odd register pairs
 -     * and in 8-aligned stack slots.
 -     */
 -    if (argreg & 1) {
 -        argreg++;
 -    }
--    if (argreg >= 4 && (arglo & 1) == 0 && arghi == arglo + 1) {
+-    uint64_t ret_low = pp0 + (pp1s << 32);
--        tcg_out_strd_8(s, COND_AL, arglo,
+-    if ((ret_low < pp0) || (ret_low < (pp1s << 32))) {
--                       TCG_REG_CALL_STACK, (argreg - 4) * 4);
+-        pp2 += 1;
 -        return argreg + 2;
 -    } else {
 -        argreg = tcg_out_arg_reg32(s, argreg, arglo);
 -        argreg = tcg_out_arg_reg32(s, argreg, arghi);
 -        return argreg;
 -    }
 +    /* We arrive at the slow path via "BLNE", so R14 contains l->raddr. */
 +    return TCG_REG_R14;
  }
 +static const TCGLdstHelperParam ldst_helper_param = {
 +    .ra_gen = ldst_ra_gen,
 +    .ntmp = 1,
 +    .tmp = { TCG_REG_TMP },
 +};
 +
  static bool tcg_out_qemu_ld_slow_path(TCGContext *s, TCGLabelQemuLdst *lb)
  {
 -    TCGReg argreg;
 -    MemOpIdx oi = lb->oi;
 -    MemOp opc = get_memop(oi);
 +    MemOp opc = get_memop(lb->oi);
      if (!reloc_pc24(lb->label_ptr[0], tcg_splitwx_to_rx(s->code_ptr))) {
          return false;
      }
 -    argreg = tcg_out_arg_reg32(s, TCG_REG_R0, TCG_AREG0);
 -    if (TARGET_LONG_BITS == 64) {
 -        argreg = tcg_out_arg_reg64(s, argreg, lb->addrlo_reg, lb->addrhi_reg);
 -    } else {
 -        argreg = tcg_out_arg_reg32(s, argreg, lb->addrlo_reg);
 -    }
 -    argreg = tcg_out_arg_imm32(s, argreg, oi);
 -    argreg = tcg_out_arg_reg32(s, argreg, TCG_REG_R14);
 -
 -    /* Use the canonical unsigned helpers and minimize icache usage. */
 +    tcg_out_ld_helper_args(s, lb, &ldst_helper_param);
      tcg_out_call_int(s, qemu_ld_helpers[opc & MO_SIZE]);
 -
 -    if ((opc & MO_SIZE) == MO_64) {
 -        TCGMovExtend ext[2] = {
 -            { .dst = lb->datalo_reg, .dst_type = TCG_TYPE_I32,
 -              .src = TCG_REG_R0, .src_type = TCG_TYPE_I32, .src_ext = MO_UL },
 -            { .dst = lb->datahi_reg, .dst_type = TCG_TYPE_I32,
 -              .src = TCG_REG_R1, .src_type = TCG_TYPE_I32, .src_ext = MO_UL },
 -        };
 -        tcg_out_movext2(s, &ext[0], &ext[1], TCG_REG_TMP);
 -    } else {
 -        tcg_out_movext(s, TCG_TYPE_I32, lb->datalo_reg,
 -                       TCG_TYPE_I32, opc & MO_SSIZE, TCG_REG_R0);
 -    }
 +    tcg_out_ld_helper_ret(s, lb, false, &ldst_helper_param);
      tcg_out_goto(s, COND_AL, lb->raddr);
      return true;
@@ -XXX,XX +XXX,XX @@ static bool tcg_out_qemu_ld_slow_path(TCGContext *s, TCGLabelQemuLdst *lb)
  static bool tcg_out_qemu_st_slow_path(TCGContext *s, TCGLabelQemuLdst *lb)
  {
 -    TCGReg argreg, datalo, datahi;
 -    MemOpIdx oi = lb->oi;
 -    MemOp opc = get_memop(oi);
 +    MemOp opc = get_memop(lb->oi);
      if (!reloc_pc24(lb->label_ptr[0], tcg_splitwx_to_rx(s->code_ptr))) {
          return false;
      }
 -    argreg = TCG_REG_R0;
 -    argreg = tcg_out_arg_reg32(s, argreg, TCG_AREG0);
 -    if (TARGET_LONG_BITS == 64) {
 -        argreg = tcg_out_arg_reg64(s, argreg, lb->addrlo_reg, lb->addrhi_reg);
 -    } else {
 -        argreg = tcg_out_arg_reg32(s, argreg, lb->addrlo_reg);
 -    }
 -
--    datalo = lb->datalo_reg;
+-    return int128_make128(ret_low, pp2 + (pp1s >> 32));
--    datahi = lb->datahi_reg;
++    mulu64(&l, &h, ai, bi);
--    switch (opc & MO_SIZE) {
++    return int128_make128(l, h);
--    case MO_8:
+ }
--        argreg = tcg_out_arg_reg8(s, argreg, datalo);
--        break;
+ static Int128 int128_sub_borrow(Int128 a, Int128 b, int borrow)
 -    case MO_16:
 -        argreg = tcg_out_arg_reg16(s, argreg, datalo);
 -        break;
 -    case MO_32:
 -    default:
 -        argreg = tcg_out_arg_reg32(s, argreg, datalo);
 -        break;
 -    case MO_64:
 -        argreg = tcg_out_arg_reg64(s, argreg, datalo, datahi);
 -        break;
 -    }
 -
 -    argreg = tcg_out_arg_imm32(s, argreg, oi);
 -    argreg = tcg_out_arg_reg32(s, argreg, TCG_REG_R14);
 +    tcg_out_st_helper_args(s, lb, &ldst_helper_param);
      /* Tail-call to the helper, which will return to the fast path.  */
      tcg_out_goto(s, COND_AL, qemu_st_helpers[opc & MO_SIZE]);
 --
-.34.1
+.43.0

-[PULL 02/53] accel/tcg: Fix atomic_mmu_lookup for reads
+[PULL 71/72] target/hexagon: Simplify internal_mpyhh setup
-A copy-paste bug had us looking at the victim cache for writes.
+Initialize x with accumulated via direct assignment,
 rather than multiplying by 1.
-Cc: qemu-stable@nongnu.org
+Reviewed-by: Brian Cain <brian.cain@oss.qualcomm.com>
 Reported-by: Peter Maydell <peter.maydell@linaro.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
-Fixes: 08dff435e2 ("tcg: Probe the proper permissions for atomic ops")
-Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
-Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
-Message-Id: <20230505204049.352469-1-richard.henderson@linaro.org>
 ---
- accel/tcg/cputlb.c | 2 +-
+ target/hexagon/fma_emu.c | 2 +-
 file changed, 1 insertion(+), 1 deletion(-)
-diff --git a/accel/tcg/cputlb.c b/accel/tcg/cputlb.c
+diff --git a/target/hexagon/fma_emu.c b/target/hexagon/fma_emu.c
 index XXXXXXX..XXXXXXX 100644
---- a/accel/tcg/cputlb.c
+--- a/target/hexagon/fma_emu.c
-+++ b/accel/tcg/cputlb.c
++++ b/target/hexagon/fma_emu.c
-@@ -XXX,XX +XXX,XX @@ static void *atomic_mmu_lookup(CPUArchState *env, target_ulong addr,
+@@ -XXX,XX +XXX,XX @@ float64 internal_mpyhh(float64 a, float64 b,
-     } else /* if (prot & PAGE_READ) */ {
+         float64_is_infinity(b)) {
-         tlb_addr = tlbe->addr_read;
+         return float64_mul(a, b, fp_status);
-         if (!tlb_hit(tlb_addr, addr)) {
+     }
--            if (!VICTIM_TLB_HIT(addr_write, addr)) {
+-    x.mant = int128_mul_6464(accumulated, 1);
-+            if (!VICTIM_TLB_HIT(addr_read, addr)) {
++    x.mant = int128_make64(accumulated);
-                 tlb_fill(env_cpu(env), addr, size,
+     x.sticky = sticky;
-                          MMU_DATA_LOAD, mmu_idx, retaddr);
+     prod = fGETUWORD(1, float64_getmant(a)) * fGETUWORD(1, float64_getmant(b));
-                 index = tlb_index(env, mmu_idx, addr);
+     x.mant = int128_add(x.mant, int128_mul_6464(prod, 0x100000000ULL));
 --
-.34.1
+.43.0

-[PULL 46/53] target/sh4: Use MO_ALIGN where required
+[PULL 72/72] accel/tcg: Move gen_intermediate_code to TCGCPUOps.translate_core
-Mark all memory operations that are not already marked with UNALIGN.
+Convert all targets simultaneously, as the gen_intermediate_code
 function disappears from the target.  While there are possible
 workarounds, they're larger than simply performing the conversion.
 Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- target/sh4/translate.c | 102 ++++++++++++++++++++++++++---------------
+ include/exec/translator.h        | 14 --------------
-file changed, 66 insertions(+), 36 deletions(-)
+ include/hw/core/tcg-cpu-ops.h    | 13 +++++++++++++
  target/alpha/cpu.h               |  2 ++
  target/arm/internals.h           |  2 ++
  target/avr/cpu.h                 |  2 ++
  target/hexagon/cpu.h             |  2 ++
  target/hppa/cpu.h                |  2 ++
  target/i386/tcg/helper-tcg.h     |  2 ++
  target/loongarch/internals.h     |  2 ++
  target/m68k/cpu.h                |  2 ++
  target/microblaze/cpu.h          |  2 ++
  target/mips/tcg/tcg-internal.h   |  2 ++
  target/openrisc/cpu.h            |  2 ++
  target/ppc/cpu.h                 |  2 ++
  target/riscv/cpu.h               |  3 +++
  target/rx/cpu.h                  |  2 ++
  target/s390x/s390x-internal.h    |  2 ++
  target/sh4/cpu.h                 |  2 ++
  target/sparc/cpu.h               |  2 ++
  target/tricore/cpu.h             |  2 ++
  target/xtensa/cpu.h              |  2 ++
  accel/tcg/cpu-exec.c             |  8 +++++---
  accel/tcg/translate-all.c        |  8 +++++---
  target/alpha/cpu.c               |  1 +
  target/alpha/translate.c         |  4 ++--
  target/arm/cpu.c                 |  1 +
  target/arm/tcg/cpu-v7m.c         |  1 +
  target/arm/tcg/translate.c       |  5 ++---
  target/avr/cpu.c                 |  1 +
  target/avr/translate.c           |  6 +++---
  target/hexagon/cpu.c             |  1 +
  target/hexagon/translate.c       |  4 ++--
  target/hppa/cpu.c                |  1 +
  target/hppa/translate.c          |  4 ++--
  target/i386/tcg/tcg-cpu.c        |  1 +
  target/i386/tcg/translate.c      |  5 ++---
  target/loongarch/cpu.c           |  1 +
  target/loongarch/tcg/translate.c |  4 ++--
  target/m68k/cpu.c                |  1 +
  target/m68k/translate.c          |  4 ++--
  target/microblaze/cpu.c          |  1 +
  target/microblaze/translate.c    |  4 ++--
  target/mips/cpu.c                |  1 +
  target/mips/tcg/translate.c      |  4 ++--
  target/openrisc/cpu.c            |  1 +
  target/openrisc/translate.c      |  4 ++--
  target/ppc/cpu_init.c            |  1 +
  target/ppc/translate.c           |  4 ++--
  target/riscv/tcg/tcg-cpu.c       |  1 +
  target/riscv/translate.c         |  4 ++--
  target/rx/cpu.c                  |  1 +
  target/rx/translate.c            |  4 ++--
  target/s390x/cpu.c               |  1 +
  target/s390x/tcg/translate.c     |  4 ++--
  target/sh4/cpu.c                 |  1 +
  target/sh4/translate.c           |  4 ++--
  target/sparc/cpu.c               |  1 +
  target/sparc/translate.c         |  4 ++--
  target/tricore/cpu.c             |  1 +
  target/tricore/translate.c       |  5 ++---
  target/xtensa/cpu.c              |  1 +
  target/xtensa/translate.c        |  4 ++--
 files changed, 121 insertions(+), 62 deletions(-)
+diff --git a/include/exec/translator.h b/include/exec/translator.h
+index XXXXXXX..XXXXXXX 100644
+--- a/include/exec/translator.h
++++ b/include/exec/translator.h
+@@ -XXX,XX +XXX,XX @@
+ #include "qemu/bswap.h"
+ #include "exec/vaddr.h"
+-/**
+- * gen_intermediate_code
+- * @cpu: cpu context
+- * @tb: translation block
+- * @max_insns: max number of instructions to translate
+- * @pc: guest virtual program counter address
+- * @host_pc: host physical program counter address
+- *
+- * This function must be provided by the target, which should create
+- * the target-specific DisasContext, and then invoke translator_loop.
+- */
+-void gen_intermediate_code(CPUState *cpu, TranslationBlock *tb, int *max_insns,
+-                           vaddr pc, void *host_pc);
+-
+ /**
+  * DisasJumpType:
+  * @DISAS_NEXT: Next instruction in program order.
+diff --git a/include/hw/core/tcg-cpu-ops.h b/include/hw/core/tcg-cpu-ops.h
+index XXXXXXX..XXXXXXX 100644
+--- a/include/hw/core/tcg-cpu-ops.h
++++ b/include/hw/core/tcg-cpu-ops.h
+@@ -XXX,XX +XXX,XX @@ struct TCGCPUOps {
+      * Called when the first CPU is realized.
+      */
+     void (*initialize)(void);
++    /**
++     * @translate_code: Translate guest instructions to TCGOps
++     * @cpu: cpu context
++     * @tb: translation block
++     * @max_insns: max number of instructions to translate
++     * @pc: guest virtual program counter address
++     * @host_pc: host physical program counter address
++     *
++     * This function must be provided by the target, which should create
++     * the target-specific DisasContext, and then invoke translator_loop.
++     */
++    void (*translate_code)(CPUState *cpu, TranslationBlock *tb,
++                           int *max_insns, vaddr pc, void *host_pc);
+     /**
+      * @synchronize_from_tb: Synchronize state from a TCG #TranslationBlock
+      *
+diff --git a/target/alpha/cpu.h b/target/alpha/cpu.h
+index XXXXXXX..XXXXXXX 100644
+--- a/target/alpha/cpu.h
++++ b/target/alpha/cpu.h
+@@ -XXX,XX +XXX,XX @@ enum {
+ };
+ void alpha_translate_init(void);
++void alpha_translate_code(CPUState *cs, TranslationBlock *tb,
++                          int *max_insns, vaddr pc, void *host_pc);
+ #define CPU_RESOLVING_TYPE TYPE_ALPHA_CPU
+diff --git a/target/arm/internals.h b/target/arm/internals.h
+index XXXXXXX..XXXXXXX 100644
+--- a/target/arm/internals.h
++++ b/target/arm/internals.h
+@@ -XXX,XX +XXX,XX @@ void init_cpreg_list(ARMCPU *cpu);
+ void arm_cpu_register_gdb_regs_for_features(ARMCPU *cpu);
+ void arm_translate_init(void);
++void arm_translate_code(CPUState *cs, TranslationBlock *tb,
++                        int *max_insns, vaddr pc, void *host_pc);
+ void arm_cpu_register_gdb_commands(ARMCPU *cpu);
+ void aarch64_cpu_register_gdb_commands(ARMCPU *cpu, GString *,
+diff --git a/target/avr/cpu.h b/target/avr/cpu.h
+index XXXXXXX..XXXXXXX 100644
+--- a/target/avr/cpu.h
++++ b/target/avr/cpu.h
+@@ -XXX,XX +XXX,XX @@ static inline void set_avr_feature(CPUAVRState *env, int feature)
+ }
+ void avr_cpu_tcg_init(void);
++void avr_cpu_translate_code(CPUState *cs, TranslationBlock *tb,
++                            int *max_insns, vaddr pc, void *host_pc);
+ int cpu_avr_exec(CPUState *cpu);
+diff --git a/target/hexagon/cpu.h b/target/hexagon/cpu.h
+index XXXXXXX..XXXXXXX 100644
+--- a/target/hexagon/cpu.h
++++ b/target/hexagon/cpu.h
+@@ -XXX,XX +XXX,XX @@ static inline void cpu_get_tb_cpu_state(CPUHexagonState *env, vaddr *pc,
+ typedef HexagonCPU ArchCPU;
+ void hexagon_translate_init(void);
++void hexagon_translate_code(CPUState *cs, TranslationBlock *tb,
++                            int *max_insns, vaddr pc, void *host_pc);
+ #include "exec/cpu-all.h"
+diff --git a/target/hppa/cpu.h b/target/hppa/cpu.h
+index XXXXXXX..XXXXXXX 100644
+--- a/target/hppa/cpu.h
++++ b/target/hppa/cpu.h
+@@ -XXX,XX +XXX,XX @@ static inline int HPPA_BTLB_ENTRIES(CPUHPPAState *env)
+ }
+ void hppa_translate_init(void);
++void hppa_translate_code(CPUState *cs, TranslationBlock *tb,
++                         int *max_insns, vaddr pc, void *host_pc);
+ #define CPU_RESOLVING_TYPE TYPE_HPPA_CPU
+diff --git a/target/i386/tcg/helper-tcg.h b/target/i386/tcg/helper-tcg.h
+index XXXXXXX..XXXXXXX 100644
+--- a/target/i386/tcg/helper-tcg.h
++++ b/target/i386/tcg/helper-tcg.h
+@@ -XXX,XX +XXX,XX @@ static inline target_long lshift(target_long x, int n)
+ /* translate.c */
+ void tcg_x86_init(void);
++void x86_translate_code(CPUState *cs, TranslationBlock *tb,
++                        int *max_insns, vaddr pc, void *host_pc);
+ /* excp_helper.c */
+ G_NORETURN void raise_exception(CPUX86State *env, int exception_index);
+diff --git a/target/loongarch/internals.h b/target/loongarch/internals.h
+index XXXXXXX..XXXXXXX 100644
+--- a/target/loongarch/internals.h
++++ b/target/loongarch/internals.h
+@@ -XXX,XX +XXX,XX @@
+ #define TARGET_VIRT_MASK MAKE_64BIT_MASK(0, TARGET_VIRT_ADDR_SPACE_BITS)
+ void loongarch_translate_init(void);
++void loongarch_translate_code(CPUState *cs, TranslationBlock *tb,
++                              int *max_insns, vaddr pc, void *host_pc);
+ void G_NORETURN do_raise_exception(CPULoongArchState *env,
+                                    uint32_t exception,
+diff --git a/target/m68k/cpu.h b/target/m68k/cpu.h
+index XXXXXXX..XXXXXXX 100644
+--- a/target/m68k/cpu.h
++++ b/target/m68k/cpu.h
+@@ -XXX,XX +XXX,XX @@ int m68k_cpu_gdb_read_register(CPUState *cpu, GByteArray *buf, int reg);
+ int m68k_cpu_gdb_write_register(CPUState *cpu, uint8_t *buf, int reg);
+ void m68k_tcg_init(void);
++void m68k_translate_code(CPUState *cs, TranslationBlock *tb,
++                         int *max_insns, vaddr pc, void *host_pc);
+ void m68k_cpu_init_gdb(M68kCPU *cpu);
+ uint32_t cpu_m68k_get_ccr(CPUM68KState *env);
+ void cpu_m68k_set_ccr(CPUM68KState *env, uint32_t);
+diff --git a/target/microblaze/cpu.h b/target/microblaze/cpu.h
+index XXXXXXX..XXXXXXX 100644
+--- a/target/microblaze/cpu.h
++++ b/target/microblaze/cpu.h
+@@ -XXX,XX +XXX,XX @@ static inline void mb_cpu_write_msr(CPUMBState *env, uint32_t val)
+ }
+ void mb_tcg_init(void);
++void mb_translate_code(CPUState *cs, TranslationBlock *tb,
++                       int *max_insns, vaddr pc, void *host_pc);
+ #define CPU_RESOLVING_TYPE TYPE_MICROBLAZE_CPU
+diff --git a/target/mips/tcg/tcg-internal.h b/target/mips/tcg/tcg-internal.h
+index XXXXXXX..XXXXXXX 100644
+--- a/target/mips/tcg/tcg-internal.h
++++ b/target/mips/tcg/tcg-internal.h
+@@ -XXX,XX +XXX,XX @@
+ #include "cpu.h"
+ void mips_tcg_init(void);
++void mips_translate_code(CPUState *cs, TranslationBlock *tb,
++                         int *max_insns, vaddr pc, void *host_pc);
+ void mips_cpu_synchronize_from_tb(CPUState *cs, const TranslationBlock *tb);
+ G_NORETURN void mips_cpu_do_unaligned_access(CPUState *cpu, vaddr addr,
+diff --git a/target/openrisc/cpu.h b/target/openrisc/cpu.h
+index XXXXXXX..XXXXXXX 100644
+--- a/target/openrisc/cpu.h
++++ b/target/openrisc/cpu.h
+@@ -XXX,XX +XXX,XX @@ void openrisc_cpu_dump_state(CPUState *cpu, FILE *f, int flags);
+ int openrisc_cpu_gdb_read_register(CPUState *cpu, GByteArray *buf, int reg);
+ int openrisc_cpu_gdb_write_register(CPUState *cpu, uint8_t *buf, int reg);
+ void openrisc_translate_init(void);
++void openrisc_translate_code(CPUState *cs, TranslationBlock *tb,
++                             int *max_insns, vaddr pc, void *host_pc);
+ int print_insn_or1k(bfd_vma addr, disassemble_info *info);
+ #ifndef CONFIG_USER_ONLY
+diff --git a/target/ppc/cpu.h b/target/ppc/cpu.h
+index XXXXXXX..XXXXXXX 100644
+--- a/target/ppc/cpu.h
++++ b/target/ppc/cpu.h
+@@ -XXX,XX +XXX,XX @@ extern const VMStateDescription vmstate_ppc_cpu;
+ /*****************************************************************************/
+ void ppc_translate_init(void);
++void ppc_translate_code(CPUState *cs, TranslationBlock *tb,
++                        int *max_insns, vaddr pc, void *host_pc);
+ #if !defined(CONFIG_USER_ONLY)
+ void ppc_store_sdr1(CPUPPCState *env, target_ulong value);
+diff --git a/target/riscv/cpu.h b/target/riscv/cpu.h
+index XXXXXXX..XXXXXXX 100644
+--- a/target/riscv/cpu.h
++++ b/target/riscv/cpu.h
+@@ -XXX,XX +XXX,XX @@ RISCVException smstateen_acc_ok(CPURISCVState *env, int index, uint64_t bit);
+ void riscv_cpu_set_mode(CPURISCVState *env, target_ulong newpriv, bool virt_en);
+ void riscv_translate_init(void);
++void riscv_translate_code(CPUState *cs, TranslationBlock *tb,
++                          int *max_insns, vaddr pc, void *host_pc);
++
+ G_NORETURN void riscv_raise_exception(CPURISCVState *env,
+                                       uint32_t exception, uintptr_t pc);
+diff --git a/target/rx/cpu.h b/target/rx/cpu.h
+index XXXXXXX..XXXXXXX 100644
+--- a/target/rx/cpu.h
++++ b/target/rx/cpu.h
+@@ -XXX,XX +XXX,XX @@ int rx_cpu_gdb_read_register(CPUState *cpu, GByteArray *buf, int reg);
+ int rx_cpu_gdb_write_register(CPUState *cpu, uint8_t *buf, int reg);
+ void rx_translate_init(void);
++void rx_translate_code(CPUState *cs, TranslationBlock *tb,
++                       int *max_insns, vaddr pc, void *host_pc);
+ void rx_cpu_unpack_psw(CPURXState *env, uint32_t psw, int rte);
+ #include "exec/cpu-all.h"
+diff --git a/target/s390x/s390x-internal.h b/target/s390x/s390x-internal.h
+index XXXXXXX..XXXXXXX 100644
+--- a/target/s390x/s390x-internal.h
++++ b/target/s390x/s390x-internal.h
+@@ -XXX,XX +XXX,XX @@ void handle_diag_308(CPUS390XState *env, uint64_t r1, uint64_t r3,
+ /* translate.c */
+ void s390x_translate_init(void);
++void s390x_translate_code(CPUState *cs, TranslationBlock *tb,
++                          int *max_insns, vaddr pc, void *host_pc);
+ void s390x_restore_state_to_opc(CPUState *cs,
+                                 const TranslationBlock *tb,
+                                 const uint64_t *data);
+diff --git a/target/sh4/cpu.h b/target/sh4/cpu.h
+index XXXXXXX..XXXXXXX 100644
+--- a/target/sh4/cpu.h
++++ b/target/sh4/cpu.h
+@@ -XXX,XX +XXX,XX @@ G_NORETURN void superh_cpu_do_unaligned_access(CPUState *cpu, vaddr addr,
+                                                uintptr_t retaddr);
+ void sh4_translate_init(void);
++void sh4_translate_code(CPUState *cs, TranslationBlock *tb,
++                        int *max_insns, vaddr pc, void *host_pc);
+ #if !defined(CONFIG_USER_ONLY)
+ hwaddr superh_cpu_get_phys_page_debug(CPUState *cpu, vaddr addr);
+diff --git a/target/sparc/cpu.h b/target/sparc/cpu.h
+index XXXXXXX..XXXXXXX 100644
+--- a/target/sparc/cpu.h
++++ b/target/sparc/cpu.h
+@@ -XXX,XX +XXX,XX @@ int sparc_cpu_memory_rw_debug(CPUState *cpu, vaddr addr,
+ /* translate.c */
+ void sparc_tcg_init(void);
++void sparc_translate_code(CPUState *cs, TranslationBlock *tb,
++                          int *max_insns, vaddr pc, void *host_pc);
+ /* fop_helper.c */
+ target_ulong cpu_get_fsr(CPUSPARCState *);
+diff --git a/target/tricore/cpu.h b/target/tricore/cpu.h
+index XXXXXXX..XXXXXXX 100644
+--- a/target/tricore/cpu.h
++++ b/target/tricore/cpu.h
+@@ -XXX,XX +XXX,XX @@ FIELD(TB_FLAGS, PRIV, 0, 2)
+ void cpu_state_reset(CPUTriCoreState *s);
+ void tricore_tcg_init(void);
++void tricore_translate_code(CPUState *cs, TranslationBlock *tb,
++                            int *max_insns, vaddr pc, void *host_pc);
+ static inline void cpu_get_tb_cpu_state(CPUTriCoreState *env, vaddr *pc,
+                                         uint64_t *cs_base, uint32_t *flags)
+diff --git a/target/xtensa/cpu.h b/target/xtensa/cpu.h
+index XXXXXXX..XXXXXXX 100644
+--- a/target/xtensa/cpu.h
++++ b/target/xtensa/cpu.h
+@@ -XXX,XX +XXX,XX @@ G_NORETURN void xtensa_cpu_do_unaligned_access(CPUState *cpu, vaddr addr,
+ void xtensa_collect_sr_names(const XtensaConfig *config);
+ void xtensa_translate_init(void);
++void xtensa_translate_code(CPUState *cs, TranslationBlock *tb,
++                           int *max_insns, vaddr pc, void *host_pc);
+ void **xtensa_get_regfile_by_name(const char *name, int entries, int bits);
+ void xtensa_breakpoint_handler(CPUState *cs);
+ void xtensa_register_core(XtensaConfigList *node);
+diff --git a/accel/tcg/cpu-exec.c b/accel/tcg/cpu-exec.c
+index XXXXXXX..XXXXXXX 100644
+--- a/accel/tcg/cpu-exec.c
++++ b/accel/tcg/cpu-exec.c
+@@ -XXX,XX +XXX,XX @@ bool tcg_exec_realizefn(CPUState *cpu, Error **errp)
+     if (!tcg_target_initialized) {
+         /* Check mandatory TCGCPUOps handlers */
++        const TCGCPUOps *tcg_ops = cpu->cc->tcg_ops;
+ #ifndef CONFIG_USER_ONLY
+-        assert(cpu->cc->tcg_ops->cpu_exec_halt);
+-        assert(cpu->cc->tcg_ops->cpu_exec_interrupt);
++        assert(tcg_ops->cpu_exec_halt);
++        assert(tcg_ops->cpu_exec_interrupt);
+ #endif /* !CONFIG_USER_ONLY */
+-        cpu->cc->tcg_ops->initialize();
++        assert(tcg_ops->translate_code);
++        tcg_ops->initialize();
+         tcg_target_initialized = true;
+     }
+diff --git a/accel/tcg/translate-all.c b/accel/tcg/translate-all.c
+index XXXXXXX..XXXXXXX 100644
+--- a/accel/tcg/translate-all.c
++++ b/accel/tcg/translate-all.c
+@@ -XXX,XX +XXX,XX @@ static int setjmp_gen_code(CPUArchState *env, TranslationBlock *tb,
+     tcg_func_start(tcg_ctx);
+-    tcg_ctx->cpu = env_cpu(env);
+-    gen_intermediate_code(env_cpu(env), tb, max_insns, pc, host_pc);
++    CPUState *cs = env_cpu(env);
++    tcg_ctx->cpu = cs;
++    cs->cc->tcg_ops->translate_code(cs, tb, max_insns, pc, host_pc);
++
+     assert(tb->size != 0);
+     tcg_ctx->cpu = NULL;
+     *max_insns = tb->icount;
+@@ -XXX,XX +XXX,XX @@ TranslationBlock *tb_gen_code(CPUState *cpu,
+             /*
+              * Overflow of code_gen_buffer, or the current slice of it.
+              *
+-             * TODO: We don't need to re-do gen_intermediate_code, nor
++             * TODO: We don't need to re-do tcg_ops->translate_code, nor
+              * should we re-do the tcg optimization currently hidden
+              * inside tcg_gen_code.  All that should be required is to
+              * flush the TBs, allocate a new TB, re-initialize it per
+diff --git a/target/alpha/cpu.c b/target/alpha/cpu.c
+index XXXXXXX..XXXXXXX 100644
+--- a/target/alpha/cpu.c
++++ b/target/alpha/cpu.c
+@@ -XXX,XX +XXX,XX @@ static const struct SysemuCPUOps alpha_sysemu_ops = {
+ static const TCGCPUOps alpha_tcg_ops = {
+     .initialize = alpha_translate_init,
++    .translate_code = alpha_translate_code,
+     .synchronize_from_tb = alpha_cpu_synchronize_from_tb,
+     .restore_state_to_opc = alpha_restore_state_to_opc,
+diff --git a/target/alpha/translate.c b/target/alpha/translate.c
+index XXXXXXX..XXXXXXX 100644
+--- a/target/alpha/translate.c
++++ b/target/alpha/translate.c
+@@ -XXX,XX +XXX,XX @@ static const TranslatorOps alpha_tr_ops = {
+     .tb_stop            = alpha_tr_tb_stop,
+ };
+-void gen_intermediate_code(CPUState *cpu, TranslationBlock *tb, int *max_insns,
+-                           vaddr pc, void *host_pc)
++void alpha_translate_code(CPUState *cpu, TranslationBlock *tb,
++                          int *max_insns, vaddr pc, void *host_pc)
+ {
+     DisasContext dc;
+     translator_loop(cpu, tb, max_insns, pc, host_pc, &alpha_tr_ops, &dc.base);
+diff --git a/target/arm/cpu.c b/target/arm/cpu.c
+index XXXXXXX..XXXXXXX 100644
+--- a/target/arm/cpu.c
++++ b/target/arm/cpu.c
+@@ -XXX,XX +XXX,XX @@ static const struct SysemuCPUOps arm_sysemu_ops = {
+ #ifdef CONFIG_TCG
+ static const TCGCPUOps arm_tcg_ops = {
+     .initialize = arm_translate_init,
++    .translate_code = arm_translate_code,
+     .synchronize_from_tb = arm_cpu_synchronize_from_tb,
+     .debug_excp_handler = arm_debug_excp_handler,
+     .restore_state_to_opc = arm_restore_state_to_opc,
+diff --git a/target/arm/tcg/cpu-v7m.c b/target/arm/tcg/cpu-v7m.c
+index XXXXXXX..XXXXXXX 100644
+--- a/target/arm/tcg/cpu-v7m.c
++++ b/target/arm/tcg/cpu-v7m.c
+@@ -XXX,XX +XXX,XX @@ static void cortex_m55_initfn(Object *obj)
+ static const TCGCPUOps arm_v7m_tcg_ops = {
+     .initialize = arm_translate_init,
++    .translate_code = arm_translate_code,
+     .synchronize_from_tb = arm_cpu_synchronize_from_tb,
+     .debug_excp_handler = arm_debug_excp_handler,
+     .restore_state_to_opc = arm_restore_state_to_opc,
+diff --git a/target/arm/tcg/translate.c b/target/arm/tcg/translate.c
+index XXXXXXX..XXXXXXX 100644
+--- a/target/arm/tcg/translate.c
++++ b/target/arm/tcg/translate.c
+@@ -XXX,XX +XXX,XX @@ static const TranslatorOps thumb_translator_ops = {
+     .tb_stop            = arm_tr_tb_stop,
+ };
+-/* generate intermediate code for basic block 'tb'.  */
+-void gen_intermediate_code(CPUState *cpu, TranslationBlock *tb, int *max_insns,
+-                           vaddr pc, void *host_pc)
++void arm_translate_code(CPUState *cpu, TranslationBlock *tb,
++                        int *max_insns, vaddr pc, void *host_pc)
+ {
+     DisasContext dc = { };
+     const TranslatorOps *ops = &arm_translator_ops;
+diff --git a/target/avr/cpu.c b/target/avr/cpu.c
+index XXXXXXX..XXXXXXX 100644
+--- a/target/avr/cpu.c
++++ b/target/avr/cpu.c
+@@ -XXX,XX +XXX,XX @@ static const struct SysemuCPUOps avr_sysemu_ops = {
+ static const TCGCPUOps avr_tcg_ops = {
+     .initialize = avr_cpu_tcg_init,
++    .translate_code = avr_cpu_translate_code,
+     .synchronize_from_tb = avr_cpu_synchronize_from_tb,
+     .restore_state_to_opc = avr_restore_state_to_opc,
+     .cpu_exec_interrupt = avr_cpu_exec_interrupt,
+diff --git a/target/avr/translate.c b/target/avr/translate.c
+index XXXXXXX..XXXXXXX 100644
+--- a/target/avr/translate.c
++++ b/target/avr/translate.c
+@@ -XXX,XX +XXX,XX @@ static bool trans_WDR(DisasContext *ctx, arg_WDR *a)
+  *
+  *    - translate()
+  *    - canonicalize_skip()
+- *    - gen_intermediate_code()
++ *    - translate_code()
+  *    - restore_state_to_opc()
+  *
+  */
+@@ -XXX,XX +XXX,XX @@ static const TranslatorOps avr_tr_ops = {
+     .tb_stop            = avr_tr_tb_stop,
+ };
+-void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int *max_insns,
+-                           vaddr pc, void *host_pc)
++void avr_cpu_translate_code(CPUState *cs, TranslationBlock *tb,
++                            int *max_insns, vaddr pc, void *host_pc)
+ {
+     DisasContext dc = { };
+     translator_loop(cs, tb, max_insns, pc, host_pc, &avr_tr_ops, &dc.base);
+diff --git a/target/hexagon/cpu.c b/target/hexagon/cpu.c
+index XXXXXXX..XXXXXXX 100644
+--- a/target/hexagon/cpu.c
++++ b/target/hexagon/cpu.c
+@@ -XXX,XX +XXX,XX @@ static void hexagon_cpu_init(Object *obj)
+ static const TCGCPUOps hexagon_tcg_ops = {
+     .initialize = hexagon_translate_init,
++    .translate_code = hexagon_translate_code,
+     .synchronize_from_tb = hexagon_cpu_synchronize_from_tb,
+     .restore_state_to_opc = hexagon_restore_state_to_opc,
+ };
+diff --git a/target/hexagon/translate.c b/target/hexagon/translate.c
+index XXXXXXX..XXXXXXX 100644
+--- a/target/hexagon/translate.c
++++ b/target/hexagon/translate.c
+@@ -XXX,XX +XXX,XX @@ static const TranslatorOps hexagon_tr_ops = {
+     .tb_stop            = hexagon_tr_tb_stop,
+ };
+-void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int *max_insns,
+-                           vaddr pc, void *host_pc)
++void hexagon_translate_code(CPUState *cs, TranslationBlock *tb,
++                            int *max_insns, vaddr pc, void *host_pc)
+ {
+     DisasContext ctx;
+diff --git a/target/hppa/cpu.c b/target/hppa/cpu.c
+index XXXXXXX..XXXXXXX 100644
+--- a/target/hppa/cpu.c
++++ b/target/hppa/cpu.c
+@@ -XXX,XX +XXX,XX @@ static const struct SysemuCPUOps hppa_sysemu_ops = {
+ static const TCGCPUOps hppa_tcg_ops = {
+     .initialize = hppa_translate_init,
++    .translate_code = hppa_translate_code,
+     .synchronize_from_tb = hppa_cpu_synchronize_from_tb,
+     .restore_state_to_opc = hppa_restore_state_to_opc,
+diff --git a/target/hppa/translate.c b/target/hppa/translate.c
+index XXXXXXX..XXXXXXX 100644
+--- a/target/hppa/translate.c
++++ b/target/hppa/translate.c
+@@ -XXX,XX +XXX,XX @@ static const TranslatorOps hppa_tr_ops = {
+ #endif
+ };
+-void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int *max_insns,
+-                           vaddr pc, void *host_pc)
++void hppa_translate_code(CPUState *cs, TranslationBlock *tb,
++                         int *max_insns, vaddr pc, void *host_pc)
+ {
+     DisasContext ctx = { };
+     translator_loop(cs, tb, max_insns, pc, host_pc, &hppa_tr_ops, &ctx.base);
+diff --git a/target/i386/tcg/tcg-cpu.c b/target/i386/tcg/tcg-cpu.c
+index XXXXXXX..XXXXXXX 100644
+--- a/target/i386/tcg/tcg-cpu.c
++++ b/target/i386/tcg/tcg-cpu.c
+@@ -XXX,XX +XXX,XX @@ static bool x86_debug_check_breakpoint(CPUState *cs)
+ static const TCGCPUOps x86_tcg_ops = {
+     .initialize = tcg_x86_init,
++    .translate_code = x86_translate_code,
+     .synchronize_from_tb = x86_cpu_synchronize_from_tb,
+     .restore_state_to_opc = x86_restore_state_to_opc,
+     .cpu_exec_enter = x86_cpu_exec_enter,
+diff --git a/target/i386/tcg/translate.c b/target/i386/tcg/translate.c
+index XXXXXXX..XXXXXXX 100644
+--- a/target/i386/tcg/translate.c
++++ b/target/i386/tcg/translate.c
+@@ -XXX,XX +XXX,XX @@ static const TranslatorOps i386_tr_ops = {
+     .tb_stop            = i386_tr_tb_stop,
+ };
+-/* generate intermediate code for basic block 'tb'.  */
+-void gen_intermediate_code(CPUState *cpu, TranslationBlock *tb, int *max_insns,
+-                           vaddr pc, void *host_pc)
++void x86_translate_code(CPUState *cpu, TranslationBlock *tb,
++                        int *max_insns, vaddr pc, void *host_pc)
+ {
+     DisasContext dc;
+diff --git a/target/loongarch/cpu.c b/target/loongarch/cpu.c
+index XXXXXXX..XXXXXXX 100644
+--- a/target/loongarch/cpu.c
++++ b/target/loongarch/cpu.c
+@@ -XXX,XX +XXX,XX @@ static void loongarch_cpu_dump_state(CPUState *cs, FILE *f, int flags)
+ static const TCGCPUOps loongarch_tcg_ops = {
+     .initialize = loongarch_translate_init,
++    .translate_code = loongarch_translate_code,
+     .synchronize_from_tb = loongarch_cpu_synchronize_from_tb,
+     .restore_state_to_opc = loongarch_restore_state_to_opc,
+diff --git a/target/loongarch/tcg/translate.c b/target/loongarch/tcg/translate.c
+index XXXXXXX..XXXXXXX 100644
+--- a/target/loongarch/tcg/translate.c
++++ b/target/loongarch/tcg/translate.c
+@@ -XXX,XX +XXX,XX @@ static const TranslatorOps loongarch_tr_ops = {
+     .tb_stop            = loongarch_tr_tb_stop,
+ };
+-void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int *max_insns,
+-                           vaddr pc, void *host_pc)
++void loongarch_translate_code(CPUState *cs, TranslationBlock *tb,
++                              int *max_insns, vaddr pc, void *host_pc)
+ {
+     DisasContext ctx;
+diff --git a/target/m68k/cpu.c b/target/m68k/cpu.c
+index XXXXXXX..XXXXXXX 100644
+--- a/target/m68k/cpu.c
++++ b/target/m68k/cpu.c
+@@ -XXX,XX +XXX,XX @@ static const struct SysemuCPUOps m68k_sysemu_ops = {
+ static const TCGCPUOps m68k_tcg_ops = {
+     .initialize = m68k_tcg_init,
++    .translate_code = m68k_translate_code,
+     .restore_state_to_opc = m68k_restore_state_to_opc,
+ #ifndef CONFIG_USER_ONLY
+diff --git a/target/m68k/translate.c b/target/m68k/translate.c
+index XXXXXXX..XXXXXXX 100644
+--- a/target/m68k/translate.c
++++ b/target/m68k/translate.c
+@@ -XXX,XX +XXX,XX @@ static const TranslatorOps m68k_tr_ops = {
+     .tb_stop            = m68k_tr_tb_stop,
+ };
+-void gen_intermediate_code(CPUState *cpu, TranslationBlock *tb, int *max_insns,
+-                           vaddr pc, void *host_pc)
++void m68k_translate_code(CPUState *cpu, TranslationBlock *tb,
++                         int *max_insns, vaddr pc, void *host_pc)
+ {
+     DisasContext dc;
+     translator_loop(cpu, tb, max_insns, pc, host_pc, &m68k_tr_ops, &dc.base);
+diff --git a/target/microblaze/cpu.c b/target/microblaze/cpu.c
+index XXXXXXX..XXXXXXX 100644
+--- a/target/microblaze/cpu.c
++++ b/target/microblaze/cpu.c
+@@ -XXX,XX +XXX,XX @@ static const struct SysemuCPUOps mb_sysemu_ops = {
+ static const TCGCPUOps mb_tcg_ops = {
+     .initialize = mb_tcg_init,
++    .translate_code = mb_translate_code,
+     .synchronize_from_tb = mb_cpu_synchronize_from_tb,
+     .restore_state_to_opc = mb_restore_state_to_opc,
+diff --git a/target/microblaze/translate.c b/target/microblaze/translate.c
+index XXXXXXX..XXXXXXX 100644
+--- a/target/microblaze/translate.c
++++ b/target/microblaze/translate.c
+@@ -XXX,XX +XXX,XX @@ static const TranslatorOps mb_tr_ops = {
+     .tb_stop            = mb_tr_tb_stop,
+ };
+-void gen_intermediate_code(CPUState *cpu, TranslationBlock *tb, int *max_insns,
+-                           vaddr pc, void *host_pc)
++void mb_translate_code(CPUState *cpu, TranslationBlock *tb,
++                       int *max_insns, vaddr pc, void *host_pc)
+ {
+     DisasContext dc;
+     translator_loop(cpu, tb, max_insns, pc, host_pc, &mb_tr_ops, &dc.base);
+diff --git a/target/mips/cpu.c b/target/mips/cpu.c
+index XXXXXXX..XXXXXXX 100644
+--- a/target/mips/cpu.c
++++ b/target/mips/cpu.c
+@@ -XXX,XX +XXX,XX @@ static const Property mips_cpu_properties[] = {
+ #include "hw/core/tcg-cpu-ops.h"
+ static const TCGCPUOps mips_tcg_ops = {
+     .initialize = mips_tcg_init,
++    .translate_code = mips_translate_code,
+     .synchronize_from_tb = mips_cpu_synchronize_from_tb,
+     .restore_state_to_opc = mips_restore_state_to_opc,
+diff --git a/target/mips/tcg/translate.c b/target/mips/tcg/translate.c
+index XXXXXXX..XXXXXXX 100644
+--- a/target/mips/tcg/translate.c
++++ b/target/mips/tcg/translate.c
+@@ -XXX,XX +XXX,XX @@ static const TranslatorOps mips_tr_ops = {
+     .tb_stop            = mips_tr_tb_stop,
+ };
+-void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int *max_insns,
+-                           vaddr pc, void *host_pc)
++void mips_translate_code(CPUState *cs, TranslationBlock *tb,
++                         int *max_insns, vaddr pc, void *host_pc)
+ {
+     DisasContext ctx;
+diff --git a/target/openrisc/cpu.c b/target/openrisc/cpu.c
+index XXXXXXX..XXXXXXX 100644
+--- a/target/openrisc/cpu.c
++++ b/target/openrisc/cpu.c
+@@ -XXX,XX +XXX,XX @@ static const struct SysemuCPUOps openrisc_sysemu_ops = {
+ static const TCGCPUOps openrisc_tcg_ops = {
+     .initialize = openrisc_translate_init,
++    .translate_code = openrisc_translate_code,
+     .synchronize_from_tb = openrisc_cpu_synchronize_from_tb,
+     .restore_state_to_opc = openrisc_restore_state_to_opc,
+diff --git a/target/openrisc/translate.c b/target/openrisc/translate.c
+index XXXXXXX..XXXXXXX 100644
+--- a/target/openrisc/translate.c
++++ b/target/openrisc/translate.c
+@@ -XXX,XX +XXX,XX @@ static const TranslatorOps openrisc_tr_ops = {
+     .tb_stop            = openrisc_tr_tb_stop,
+ };
+-void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int *max_insns,
+-                           vaddr pc, void *host_pc)
++void openrisc_translate_code(CPUState *cs, TranslationBlock *tb,
++                             int *max_insns, vaddr pc, void *host_pc)
+ {
+     DisasContext ctx;
+diff --git a/target/ppc/cpu_init.c b/target/ppc/cpu_init.c
+index XXXXXXX..XXXXXXX 100644
+--- a/target/ppc/cpu_init.c
++++ b/target/ppc/cpu_init.c
+@@ -XXX,XX +XXX,XX @@ static const struct SysemuCPUOps ppc_sysemu_ops = {
+ static const TCGCPUOps ppc_tcg_ops = {
+   .initialize = ppc_translate_init,
++  .translate_code = ppc_translate_code,
+   .restore_state_to_opc = ppc_restore_state_to_opc,
+ #ifdef CONFIG_USER_ONLY
+diff --git a/target/ppc/translate.c b/target/ppc/translate.c
+index XXXXXXX..XXXXXXX 100644
+--- a/target/ppc/translate.c
++++ b/target/ppc/translate.c
+@@ -XXX,XX +XXX,XX @@ static const TranslatorOps ppc_tr_ops = {
+     .tb_stop            = ppc_tr_tb_stop,
+ };
+-void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int *max_insns,
+-                           vaddr pc, void *host_pc)
++void ppc_translate_code(CPUState *cs, TranslationBlock *tb,
++                        int *max_insns, vaddr pc, void *host_pc)
+ {
+     DisasContext ctx;
+diff --git a/target/riscv/tcg/tcg-cpu.c b/target/riscv/tcg/tcg-cpu.c
+index XXXXXXX..XXXXXXX 100644
+--- a/target/riscv/tcg/tcg-cpu.c
++++ b/target/riscv/tcg/tcg-cpu.c
+@@ -XXX,XX +XXX,XX @@ static void riscv_restore_state_to_opc(CPUState *cs,
+ static const TCGCPUOps riscv_tcg_ops = {
+     .initialize = riscv_translate_init,
++    .translate_code = riscv_translate_code,
+     .synchronize_from_tb = riscv_cpu_synchronize_from_tb,
+     .restore_state_to_opc = riscv_restore_state_to_opc,
+diff --git a/target/riscv/translate.c b/target/riscv/translate.c
+index XXXXXXX..XXXXXXX 100644
+--- a/target/riscv/translate.c
++++ b/target/riscv/translate.c
+@@ -XXX,XX +XXX,XX @@ static const TranslatorOps riscv_tr_ops = {
+     .tb_stop            = riscv_tr_tb_stop,
+ };
+-void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int *max_insns,
+-                           vaddr pc, void *host_pc)
++void riscv_translate_code(CPUState *cs, TranslationBlock *tb,
++                          int *max_insns, vaddr pc, void *host_pc)
+ {
+     DisasContext ctx;
+diff --git a/target/rx/cpu.c b/target/rx/cpu.c
+index XXXXXXX..XXXXXXX 100644
+--- a/target/rx/cpu.c
++++ b/target/rx/cpu.c
+@@ -XXX,XX +XXX,XX @@ static const struct SysemuCPUOps rx_sysemu_ops = {
+ static const TCGCPUOps rx_tcg_ops = {
+     .initialize = rx_translate_init,
++    .translate_code = rx_translate_code,
+     .synchronize_from_tb = rx_cpu_synchronize_from_tb,
+     .restore_state_to_opc = rx_restore_state_to_opc,
+     .tlb_fill = rx_cpu_tlb_fill,
+diff --git a/target/rx/translate.c b/target/rx/translate.c
+index XXXXXXX..XXXXXXX 100644
+--- a/target/rx/translate.c
++++ b/target/rx/translate.c
+@@ -XXX,XX +XXX,XX @@ static const TranslatorOps rx_tr_ops = {
+     .tb_stop            = rx_tr_tb_stop,
+ };
+-void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int *max_insns,
+-                           vaddr pc, void *host_pc)
++void rx_translate_code(CPUState *cs, TranslationBlock *tb,
++                       int *max_insns, vaddr pc, void *host_pc)
+ {
+     DisasContext dc;
+diff --git a/target/s390x/cpu.c b/target/s390x/cpu.c
+index XXXXXXX..XXXXXXX 100644
+--- a/target/s390x/cpu.c
++++ b/target/s390x/cpu.c
+@@ -XXX,XX +XXX,XX @@ void cpu_get_tb_cpu_state(CPUS390XState *env, vaddr *pc,
+ static const TCGCPUOps s390_tcg_ops = {
+     .initialize = s390x_translate_init,
++    .translate_code = s390x_translate_code,
+     .restore_state_to_opc = s390x_restore_state_to_opc,
+ #ifdef CONFIG_USER_ONLY
+diff --git a/target/s390x/tcg/translate.c b/target/s390x/tcg/translate.c
+index XXXXXXX..XXXXXXX 100644
+--- a/target/s390x/tcg/translate.c
++++ b/target/s390x/tcg/translate.c
+@@ -XXX,XX +XXX,XX @@ static const TranslatorOps s390x_tr_ops = {
+     .disas_log          = s390x_tr_disas_log,
+ };
+-void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int *max_insns,
+-                           vaddr pc, void *host_pc)
++void s390x_translate_code(CPUState *cs, TranslationBlock *tb,
++                          int *max_insns, vaddr pc, void *host_pc)
+ {
+     DisasContext dc;
+diff --git a/target/sh4/cpu.c b/target/sh4/cpu.c
+index XXXXXXX..XXXXXXX 100644
+--- a/target/sh4/cpu.c
++++ b/target/sh4/cpu.c
+@@ -XXX,XX +XXX,XX @@ static const struct SysemuCPUOps sh4_sysemu_ops = {
+ static const TCGCPUOps superh_tcg_ops = {
+     .initialize = sh4_translate_init,
++    .translate_code = sh4_translate_code,
+     .synchronize_from_tb = superh_cpu_synchronize_from_tb,
+     .restore_state_to_opc = superh_restore_state_to_opc,
 diff --git a/target/sh4/translate.c b/target/sh4/translate.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/sh4/translate.c
 +++ b/target/sh4/translate.c
-@@ -XXX,XX +XXX,XX @@ static void _decode_opc(DisasContext * ctx)
+@@ -XXX,XX +XXX,XX @@ static const TranslatorOps sh4_tr_ops = {
-     case 0x9000:        /* mov.w @(disp,PC),Rn */
+     .tb_stop            = sh4_tr_tb_stop,
-     {
+ };
-             TCGv addr = tcg_constant_i32(ctx->base.pc_next + 4 + B7_0 * 2);
--            tcg_gen_qemu_ld_i32(REG(B11_8), addr, ctx->memidx, MO_TESW);
+-void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int *max_insns,
-+            tcg_gen_qemu_ld_i32(REG(B11_8), addr, ctx->memidx,
+-                           vaddr pc, void *host_pc)
-+                                MO_TESW | MO_ALIGN);
++void sh4_translate_code(CPUState *cs, TranslationBlock *tb,
-     }
++                        int *max_insns, vaddr pc, void *host_pc)
-     return;
+ {
-     case 0xd000:        /* mov.l @(disp,PC),Rn */
+     DisasContext ctx;
-     {
-             TCGv addr = tcg_constant_i32((ctx->base.pc_next + 4 + B7_0 * 4) & ~3);
+diff --git a/target/sparc/cpu.c b/target/sparc/cpu.c
--            tcg_gen_qemu_ld_i32(REG(B11_8), addr, ctx->memidx, MO_TESL);
+index XXXXXXX..XXXXXXX 100644
-+            tcg_gen_qemu_ld_i32(REG(B11_8), addr, ctx->memidx,
+--- a/target/sparc/cpu.c
-+                                MO_TESL | MO_ALIGN);
++++ b/target/sparc/cpu.c
-     }
+@@ -XXX,XX +XXX,XX @@ static const struct SysemuCPUOps sparc_sysemu_ops = {
-     return;
-     case 0x7000:        /* add #imm,Rn */
+ static const TCGCPUOps sparc_tcg_ops = {
-@@ -XXX,XX +XXX,XX @@ static void _decode_opc(DisasContext * ctx)
+     .initialize = sparc_tcg_init,
-     {
++    .translate_code = sparc_translate_code,
-         TCGv arg0, arg1;
+     .synchronize_from_tb = sparc_cpu_synchronize_from_tb,
-         arg0 = tcg_temp_new();
+     .restore_state_to_opc = sparc_restore_state_to_opc,
--            tcg_gen_qemu_ld_i32(arg0, REG(B7_4), ctx->memidx, MO_TESL);
-+            tcg_gen_qemu_ld_i32(arg0, REG(B7_4), ctx->memidx,
+diff --git a/target/sparc/translate.c b/target/sparc/translate.c
-+                                MO_TESL | MO_ALIGN);
+index XXXXXXX..XXXXXXX 100644
-         arg1 = tcg_temp_new();
+--- a/target/sparc/translate.c
--            tcg_gen_qemu_ld_i32(arg1, REG(B11_8), ctx->memidx, MO_TESL);
++++ b/target/sparc/translate.c
-+            tcg_gen_qemu_ld_i32(arg1, REG(B11_8), ctx->memidx,
+@@ -XXX,XX +XXX,XX @@ static const TranslatorOps sparc_tr_ops = {
-+                                MO_TESL | MO_ALIGN);
+     .tb_stop            = sparc_tr_tb_stop,
-             gen_helper_macl(cpu_env, arg0, arg1);
+ };
-         tcg_gen_addi_i32(REG(B7_4), REG(B7_4), 4);
-         tcg_gen_addi_i32(REG(B11_8), REG(B11_8), 4);
+-void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int *max_insns,
-@@ -XXX,XX +XXX,XX @@ static void _decode_opc(DisasContext * ctx)
+-                           vaddr pc, void *host_pc)
-     {
++void sparc_translate_code(CPUState *cs, TranslationBlock *tb,
-         TCGv arg0, arg1;
++                          int *max_insns, vaddr pc, void *host_pc)
-         arg0 = tcg_temp_new();
+ {
--            tcg_gen_qemu_ld_i32(arg0, REG(B7_4), ctx->memidx, MO_TESL);
+     DisasContext dc = {};
-+            tcg_gen_qemu_ld_i32(arg0, REG(B7_4), ctx->memidx,
-+                                MO_TESL | MO_ALIGN);
+diff --git a/target/tricore/cpu.c b/target/tricore/cpu.c
-         arg1 = tcg_temp_new();
+index XXXXXXX..XXXXXXX 100644
--            tcg_gen_qemu_ld_i32(arg1, REG(B11_8), ctx->memidx, MO_TESL);
+--- a/target/tricore/cpu.c
-+            tcg_gen_qemu_ld_i32(arg1, REG(B11_8), ctx->memidx,
++++ b/target/tricore/cpu.c
-+                                MO_TESL | MO_ALIGN);
+@@ -XXX,XX +XXX,XX @@ static const struct SysemuCPUOps tricore_sysemu_ops = {
-             gen_helper_macw(cpu_env, arg0, arg1);
-         tcg_gen_addi_i32(REG(B11_8), REG(B11_8), 2);
+ static const TCGCPUOps tricore_tcg_ops = {
-         tcg_gen_addi_i32(REG(B7_4), REG(B7_4), 2);
+     .initialize = tricore_tcg_init,
-@@ -XXX,XX +XXX,XX @@ static void _decode_opc(DisasContext * ctx)
++    .translate_code = tricore_translate_code,
-         if (ctx->tbflags & FPSCR_SZ) {
+     .synchronize_from_tb = tricore_cpu_synchronize_from_tb,
-             TCGv_i64 fp = tcg_temp_new_i64();
+     .restore_state_to_opc = tricore_restore_state_to_opc,
-             gen_load_fpr64(ctx, fp, XHACK(B7_4));
+     .tlb_fill = tricore_cpu_tlb_fill,
--            tcg_gen_qemu_st_i64(fp, REG(B11_8), ctx->memidx, MO_TEUQ);
+diff --git a/target/tricore/translate.c b/target/tricore/translate.c
-+            tcg_gen_qemu_st_i64(fp, REG(B11_8), ctx->memidx,
+index XXXXXXX..XXXXXXX 100644
-+                                MO_TEUQ | MO_ALIGN);
+--- a/target/tricore/translate.c
-     } else {
++++ b/target/tricore/translate.c
--            tcg_gen_qemu_st_i32(FREG(B7_4), REG(B11_8), ctx->memidx, MO_TEUL);
+@@ -XXX,XX +XXX,XX @@ static const TranslatorOps tricore_tr_ops = {
-+            tcg_gen_qemu_st_i32(FREG(B7_4), REG(B11_8), ctx->memidx,
+     .tb_stop            = tricore_tr_tb_stop,
-+                                MO_TEUL | MO_ALIGN);
+ };
-     }
-     return;
+-
-     case 0xf008: /* fmov @Rm,{F,D,X}Rn - FPSCR: Nothing */
+-void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int *max_insns,
-     CHECK_FPU_ENABLED
+-                           vaddr pc, void *host_pc)
-         if (ctx->tbflags & FPSCR_SZ) {
++void tricore_translate_code(CPUState *cs, TranslationBlock *tb,
-             TCGv_i64 fp = tcg_temp_new_i64();
++                            int *max_insns, vaddr pc, void *host_pc)
--            tcg_gen_qemu_ld_i64(fp, REG(B7_4), ctx->memidx, MO_TEUQ);
+ {
-+            tcg_gen_qemu_ld_i64(fp, REG(B7_4), ctx->memidx,
+     DisasContext ctx;
-+                                MO_TEUQ | MO_ALIGN);
+     translator_loop(cs, tb, max_insns, pc, host_pc,
-             gen_store_fpr64(ctx, fp, XHACK(B11_8));
+diff --git a/target/xtensa/cpu.c b/target/xtensa/cpu.c
-     } else {
+index XXXXXXX..XXXXXXX 100644
--            tcg_gen_qemu_ld_i32(FREG(B11_8), REG(B7_4), ctx->memidx, MO_TEUL);
+--- a/target/xtensa/cpu.c
-+            tcg_gen_qemu_ld_i32(FREG(B11_8), REG(B7_4), ctx->memidx,
++++ b/target/xtensa/cpu.c
-+                                MO_TEUL | MO_ALIGN);
+@@ -XXX,XX +XXX,XX @@ static const struct SysemuCPUOps xtensa_sysemu_ops = {
-     }
-     return;
+ static const TCGCPUOps xtensa_tcg_ops = {
-     case 0xf009: /* fmov @Rm+,{F,D,X}Rn - FPSCR: Nothing */
+     .initialize = xtensa_translate_init,
-     CHECK_FPU_ENABLED
++    .translate_code = xtensa_translate_code,
-         if (ctx->tbflags & FPSCR_SZ) {
+     .debug_excp_handler = xtensa_breakpoint_handler,
-             TCGv_i64 fp = tcg_temp_new_i64();
+     .restore_state_to_opc = xtensa_restore_state_to_opc,
--            tcg_gen_qemu_ld_i64(fp, REG(B7_4), ctx->memidx, MO_TEUQ);
-+            tcg_gen_qemu_ld_i64(fp, REG(B7_4), ctx->memidx,
+diff --git a/target/xtensa/translate.c b/target/xtensa/translate.c
-+                                MO_TEUQ | MO_ALIGN);
+index XXXXXXX..XXXXXXX 100644
-             gen_store_fpr64(ctx, fp, XHACK(B11_8));
+--- a/target/xtensa/translate.c
-             tcg_gen_addi_i32(REG(B7_4), REG(B7_4), 8);
++++ b/target/xtensa/translate.c
-     } else {
+@@ -XXX,XX +XXX,XX @@ static const TranslatorOps xtensa_translator_ops = {
--            tcg_gen_qemu_ld_i32(FREG(B11_8), REG(B7_4), ctx->memidx, MO_TEUL);
+     .tb_stop            = xtensa_tr_tb_stop,
-+            tcg_gen_qemu_ld_i32(FREG(B11_8), REG(B7_4), ctx->memidx,
+ };
-+                                MO_TEUL | MO_ALIGN);
-         tcg_gen_addi_i32(REG(B7_4), REG(B7_4), 4);
+-void gen_intermediate_code(CPUState *cpu, TranslationBlock *tb, int *max_insns,
-     }
+-                           vaddr pc, void *host_pc)
-     return;
++void xtensa_translate_code(CPUState *cpu, TranslationBlock *tb,
-@@ -XXX,XX +XXX,XX @@ static void _decode_opc(DisasContext * ctx)
++                           int *max_insns, vaddr pc, void *host_pc)
-                 TCGv_i64 fp = tcg_temp_new_i64();
+ {
-                 gen_load_fpr64(ctx, fp, XHACK(B7_4));
+     DisasContext dc = {};
-                 tcg_gen_subi_i32(addr, REG(B11_8), 8);
+     translator_loop(cpu, tb, max_insns, pc, host_pc,
 -                tcg_gen_qemu_st_i64(fp, addr, ctx->memidx, MO_TEUQ);
 +                tcg_gen_qemu_st_i64(fp, addr, ctx->memidx,
 +                                    MO_TEUQ | MO_ALIGN);
              } else {
                  tcg_gen_subi_i32(addr, REG(B11_8), 4);
 -                tcg_gen_qemu_st_i32(FREG(B7_4), addr, ctx->memidx, MO_TEUL);
 +                tcg_gen_qemu_st_i32(FREG(B7_4), addr, ctx->memidx,
 +                                    MO_TEUL | MO_ALIGN);
              }
              tcg_gen_mov_i32(REG(B11_8), addr);
          }
@@ -XXX,XX +XXX,XX @@ static void _decode_opc(DisasContext * ctx)
          tcg_gen_add_i32(addr, REG(B7_4), REG(0));
              if (ctx->tbflags & FPSCR_SZ) {
                  TCGv_i64 fp = tcg_temp_new_i64();
 -                tcg_gen_qemu_ld_i64(fp, addr, ctx->memidx, MO_TEUQ);
 +                tcg_gen_qemu_ld_i64(fp, addr, ctx->memidx,
 +                                    MO_TEUQ | MO_ALIGN);
                  gen_store_fpr64(ctx, fp, XHACK(B11_8));
          } else {
 -                tcg_gen_qemu_ld_i32(FREG(B11_8), addr, ctx->memidx, MO_TEUL);
 +                tcg_gen_qemu_ld_i32(FREG(B11_8), addr, ctx->memidx,
 +                                    MO_TEUL | MO_ALIGN);
          }
      }
      return;
@@ -XXX,XX +XXX,XX @@ static void _decode_opc(DisasContext * ctx)
              if (ctx->tbflags & FPSCR_SZ) {
                  TCGv_i64 fp = tcg_temp_new_i64();
                  gen_load_fpr64(ctx, fp, XHACK(B7_4));
 -                tcg_gen_qemu_st_i64(fp, addr, ctx->memidx, MO_TEUQ);
 +                tcg_gen_qemu_st_i64(fp, addr, ctx->memidx,
 +                                    MO_TEUQ | MO_ALIGN);
          } else {
 -                tcg_gen_qemu_st_i32(FREG(B7_4), addr, ctx->memidx, MO_TEUL);
 +                tcg_gen_qemu_st_i32(FREG(B7_4), addr, ctx->memidx,
 +                                    MO_TEUL | MO_ALIGN);
          }
      }
      return;
@@ -XXX,XX +XXX,XX @@ static void _decode_opc(DisasContext * ctx)
      {
          TCGv addr = tcg_temp_new();
          tcg_gen_addi_i32(addr, cpu_gbr, B7_0 * 2);
 -            tcg_gen_qemu_ld_i32(REG(0), addr, ctx->memidx, MO_TESW);
 +            tcg_gen_qemu_ld_i32(REG(0), addr, ctx->memidx, MO_TESW | MO_ALIGN);
      }
      return;
      case 0xc600:        /* mov.l @(disp,GBR),R0 */
      {
          TCGv addr = tcg_temp_new();
          tcg_gen_addi_i32(addr, cpu_gbr, B7_0 * 4);
 -            tcg_gen_qemu_ld_i32(REG(0), addr, ctx->memidx, MO_TESL);
 +            tcg_gen_qemu_ld_i32(REG(0), addr, ctx->memidx, MO_TESL | MO_ALIGN);
      }
      return;
      case 0xc000:        /* mov.b R0,@(disp,GBR) */
@@ -XXX,XX +XXX,XX @@ static void _decode_opc(DisasContext * ctx)
      {
          TCGv addr = tcg_temp_new();
          tcg_gen_addi_i32(addr, cpu_gbr, B7_0 * 2);
 -            tcg_gen_qemu_st_i32(REG(0), addr, ctx->memidx, MO_TEUW);
 +            tcg_gen_qemu_st_i32(REG(0), addr, ctx->memidx, MO_TEUW | MO_ALIGN);
      }
      return;
      case 0xc200:        /* mov.l R0,@(disp,GBR) */
      {
          TCGv addr = tcg_temp_new();
          tcg_gen_addi_i32(addr, cpu_gbr, B7_0 * 4);
 -            tcg_gen_qemu_st_i32(REG(0), addr, ctx->memidx, MO_TEUL);
 +            tcg_gen_qemu_st_i32(REG(0), addr, ctx->memidx, MO_TEUL | MO_ALIGN);
      }
      return;
      case 0x8000:        /* mov.b R0,@(disp,Rn) */
@@ -XXX,XX +XXX,XX @@ static void _decode_opc(DisasContext * ctx)
      return;
      case 0x4087:        /* ldc.l @Rm+,Rn_BANK */
      CHECK_PRIVILEGED
 -        tcg_gen_qemu_ld_i32(ALTREG(B6_4), REG(B11_8), ctx->memidx, MO_TESL);
 +        tcg_gen_qemu_ld_i32(ALTREG(B6_4), REG(B11_8), ctx->memidx,
 +                            MO_TESL | MO_ALIGN);
      tcg_gen_addi_i32(REG(B11_8), REG(B11_8), 4);
      return;
      case 0x0082:        /* stc Rm_BANK,Rn */
@@ -XXX,XX +XXX,XX @@ static void _decode_opc(DisasContext * ctx)
      {
          TCGv addr = tcg_temp_new();
          tcg_gen_subi_i32(addr, REG(B11_8), 4);
 -            tcg_gen_qemu_st_i32(ALTREG(B6_4), addr, ctx->memidx, MO_TEUL);
 +            tcg_gen_qemu_st_i32(ALTREG(B6_4), addr, ctx->memidx,
 +                                MO_TEUL | MO_ALIGN);
          tcg_gen_mov_i32(REG(B11_8), addr);
      }
      return;
@@ -XXX,XX +XXX,XX @@ static void _decode_opc(DisasContext * ctx)
      CHECK_PRIVILEGED
      {
          TCGv val = tcg_temp_new();
 -            tcg_gen_qemu_ld_i32(val, REG(B11_8), ctx->memidx, MO_TESL);
 +            tcg_gen_qemu_ld_i32(val, REG(B11_8), ctx->memidx,
 +                                MO_TESL | MO_ALIGN);
              tcg_gen_andi_i32(val, val, 0x700083f3);
              gen_write_sr(val);
          tcg_gen_addi_i32(REG(B11_8), REG(B11_8), 4);
@@ -XXX,XX +XXX,XX @@ static void _decode_opc(DisasContext * ctx)
              TCGv val = tcg_temp_new();
          tcg_gen_subi_i32(addr, REG(B11_8), 4);
              gen_read_sr(val);
 -            tcg_gen_qemu_st_i32(val, addr, ctx->memidx, MO_TEUL);
 +            tcg_gen_qemu_st_i32(val, addr, ctx->memidx, MO_TEUL | MO_ALIGN);
          tcg_gen_mov_i32(REG(B11_8), addr);
      }
      return;
@@ -XXX,XX +XXX,XX @@ static void _decode_opc(DisasContext * ctx)
      return;                            \
    case ldpnum:                            \
      prechk                                \
 -    tcg_gen_qemu_ld_i32(cpu_##reg, REG(B11_8), ctx->memidx, MO_TESL); \
 +    tcg_gen_qemu_ld_i32(cpu_##reg, REG(B11_8), ctx->memidx,     \
 +                        MO_TESL | MO_ALIGN);                    \
      tcg_gen_addi_i32(REG(B11_8), REG(B11_8), 4);        \
      return;
  #define ST(reg,stnum,stpnum,prechk)        \
@@ -XXX,XX +XXX,XX @@ static void _decode_opc(DisasContext * ctx)
      {                                \
      TCGv addr = tcg_temp_new();                \
      tcg_gen_subi_i32(addr, REG(B11_8), 4);            \
 -        tcg_gen_qemu_st_i32(cpu_##reg, addr, ctx->memidx, MO_TEUL); \
 +        tcg_gen_qemu_st_i32(cpu_##reg, addr, ctx->memidx,       \
 +                            MO_TEUL | MO_ALIGN);                \
      tcg_gen_mov_i32(REG(B11_8), addr);            \
      }                                \
      return;
@@ -XXX,XX +XXX,XX @@ static void _decode_opc(DisasContext * ctx)
      CHECK_FPU_ENABLED
      {
          TCGv addr = tcg_temp_new();
 -            tcg_gen_qemu_ld_i32(addr, REG(B11_8), ctx->memidx, MO_TESL);
 +            tcg_gen_qemu_ld_i32(addr, REG(B11_8), ctx->memidx,
 +                                MO_TESL | MO_ALIGN);
          tcg_gen_addi_i32(REG(B11_8), REG(B11_8), 4);
              gen_helper_ld_fpscr(cpu_env, addr);
              ctx->base.is_jmp = DISAS_STOP;
@@ -XXX,XX +XXX,XX @@ static void _decode_opc(DisasContext * ctx)
          tcg_gen_andi_i32(val, cpu_fpscr, 0x003fffff);
          addr = tcg_temp_new();
          tcg_gen_subi_i32(addr, REG(B11_8), 4);
 -            tcg_gen_qemu_st_i32(val, addr, ctx->memidx, MO_TEUL);
 +            tcg_gen_qemu_st_i32(val, addr, ctx->memidx, MO_TEUL | MO_ALIGN);
          tcg_gen_mov_i32(REG(B11_8), addr);
      }
      return;
      case 0x00c3:        /* movca.l R0,@Rm */
          {
              TCGv val = tcg_temp_new();
 -            tcg_gen_qemu_ld_i32(val, REG(B11_8), ctx->memidx, MO_TEUL);
 +            tcg_gen_qemu_ld_i32(val, REG(B11_8), ctx->memidx,
 +                                MO_TEUL | MO_ALIGN);
              gen_helper_movcal(cpu_env, REG(B11_8), val);
 -            tcg_gen_qemu_st_i32(REG(0), REG(B11_8), ctx->memidx, MO_TEUL);
 +            tcg_gen_qemu_st_i32(REG(0), REG(B11_8), ctx->memidx,
 +                                MO_TEUL | MO_ALIGN);
          }
          ctx->has_movcal = 1;
      return;
@@ -XXX,XX +XXX,XX @@ static void _decode_opc(DisasContext * ctx)
                                     cpu_lock_addr, fail);
                  tmp = tcg_temp_new();
                  tcg_gen_atomic_cmpxchg_i32(tmp, REG(B11_8), cpu_lock_value,
 -                                           REG(0), ctx->memidx, MO_TEUL);
 +                                           REG(0), ctx->memidx,
 +                                           MO_TEUL | MO_ALIGN);
                  tcg_gen_setcond_i32(TCG_COND_EQ, cpu_sr_t, tmp, cpu_lock_value);
              } else {
                  tcg_gen_brcondi_i32(TCG_COND_EQ, cpu_lock_addr, -1, fail);
 -                tcg_gen_qemu_st_i32(REG(0), REG(B11_8), ctx->memidx, MO_TEUL);
 +                tcg_gen_qemu_st_i32(REG(0), REG(B11_8), ctx->memidx,
 +                                    MO_TEUL | MO_ALIGN);
                  tcg_gen_movi_i32(cpu_sr_t, 1);
              }
              tcg_gen_br(done);
@@ -XXX,XX +XXX,XX @@ static void _decode_opc(DisasContext * ctx)
          if ((tb_cflags(ctx->base.tb) & CF_PARALLEL)) {
              TCGv tmp = tcg_temp_new();
              tcg_gen_mov_i32(tmp, REG(B11_8));
 -            tcg_gen_qemu_ld_i32(REG(0), REG(B11_8), ctx->memidx, MO_TESL);
 +            tcg_gen_qemu_ld_i32(REG(0), REG(B11_8), ctx->memidx,
 +                                MO_TESL | MO_ALIGN);
              tcg_gen_mov_i32(cpu_lock_value, REG(0));
              tcg_gen_mov_i32(cpu_lock_addr, tmp);
          } else {
 -            tcg_gen_qemu_ld_i32(REG(0), REG(B11_8), ctx->memidx, MO_TESL);
 +            tcg_gen_qemu_ld_i32(REG(0), REG(B11_8), ctx->memidx,
 +                                MO_TESL | MO_ALIGN);
              tcg_gen_movi_i32(cpu_lock_addr, 0);
          }
          return;
 --
-.34.1
+.43.0

The following changes since commit d530697ca20e19f7a626f4c1c8b26fccd0dc4470:

Merge tag 'pull-testing-updates-100523-1' of https://gitlab.com/stsquad/qemu into staging (2023-05-10 16:43:01 +0100)

are available in the Git repository at:

https://gitlab.com/rth7680/qemu.git tags/pull-tcg-20230511

for you to fetch changes up to b2d4d6616c22325dff802e0a35092167f2dc2268:

target/loongarch: Do not include tcg-ldst.h (2023-05-11 06:06:04 +0100)

----------------------------------------------------------------
target/m68k: Fix gen_load_fp regression
accel/tcg: Ensure fairness with icount
disas: Move disas.c into the target-independent source sets
tcg: Use common routines for calling slow path helpers
tcg/*: Cleanups to qemu_ld/st constraints
tcg: Remove TARGET_ALIGNED_ONLY
accel/tcg: Reorg system mode load/store helpers

----------------------------------------------------------------
Jamie Iles (2):
      cpu: expose qemu_cpu_list_lock for lock-guard use
      accel/tcg/tcg-accel-ops-rr: ensure fairness with icount

Richard Henderson (49):
      target/m68k: Fix gen_load_fp for OS_LONG
      accel/tcg: Fix atomic_mmu_lookup for reads
      disas: Fix tabs and braces in disas.c
      disas: Move disas.c to disas/
      disas: Remove target_ulong from the interface
      disas: Remove target-specific headers
      tcg/i386: Introduce prepare_host_addr
      tcg/i386: Use indexed addressing for softmmu fast path
      tcg/aarch64: Introduce prepare_host_addr
      tcg/arm: Introduce prepare_host_addr
      tcg/loongarch64: Introduce prepare_host_addr
      tcg/mips: Introduce prepare_host_addr
      tcg/ppc: Introduce prepare_host_addr
      tcg/riscv: Introduce prepare_host_addr
      tcg/s390x: Introduce prepare_host_addr
      tcg: Add routines for calling slow-path helpers
      tcg/i386: Convert tcg_out_qemu_ld_slow_path
      tcg/i386: Convert tcg_out_qemu_st_slow_path
      tcg/aarch64: Convert tcg_out_qemu_{ld,st}_slow_path
      tcg/arm: Convert tcg_out_qemu_{ld,st}_slow_path
      tcg/loongarch64: Convert tcg_out_qemu_{ld,st}_slow_path
      tcg/mips: Convert tcg_out_qemu_{ld,st}_slow_path
      tcg/ppc: Convert tcg_out_qemu_{ld,st}_slow_path
      tcg/riscv: Convert tcg_out_qemu_{ld,st}_slow_path
      tcg/s390x: Convert tcg_out_qemu_{ld,st}_slow_path
      tcg/loongarch64: Simplify constraints on qemu_ld/st
      tcg/mips: Remove MO_BSWAP handling
      tcg/mips: Reorg tlb load within prepare_host_addr
      tcg/mips: Simplify constraints on qemu_ld/st
      tcg/ppc: Reorg tcg_out_tlb_read
      tcg/ppc: Adjust constraints on qemu_ld/st
      tcg/ppc: Remove unused constraints A, B, C, D
      tcg/ppc: Remove unused constraint J
      tcg/riscv: Simplify constraints on qemu_ld/st
      tcg/s390x: Use ALGFR in constructing softmmu host address
      tcg/s390x: Simplify constraints on qemu_ld/st
      target/mips: Add MO_ALIGN to gen_llwp, gen_scwp
      target/mips: Add missing default_tcg_memop_mask
      target/mips: Use MO_ALIGN instead of 0
      target/mips: Remove TARGET_ALIGNED_ONLY
      target/nios2: Remove TARGET_ALIGNED_ONLY
      target/sh4: Use MO_ALIGN where required
      target/sh4: Remove TARGET_ALIGNED_ONLY
      tcg: Remove TARGET_ALIGNED_ONLY
      accel/tcg: Add cpu_in_serial_context
      accel/tcg: Introduce tlb_read_idx
      accel/tcg: Reorg system mode load helpers
      accel/tcg: Reorg system mode store helpers
      target/loongarch: Do not include tcg-ldst.h

Thomas Huth (2):
      disas: Move softmmu specific code to separate file
      disas: Move disas.c into the target-independent source set

A copy-paste bug had us looking at the victim cache for writes.

Cc: qemu-stable@nongnu.org
Reported-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Fixes: 08dff435e2 ("tcg: Probe the proper permissions for atomic ops")
Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Message-Id: <20230505204049.352469-1-richard.henderson@linaro.org>
---
 accel/tcg/cputlb.c | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/accel/tcg/cputlb.c b/accel/tcg/cputlb.c
index XXXXXXX..XXXXXXX 100644
--- a/accel/tcg/cputlb.c
+++ b/accel/tcg/cputlb.c
@@ -XXX,XX +XXX,XX @@ static void *atomic_mmu_lookup(CPUArchState *env, target_ulong addr,
     } else /* if (prot & PAGE_READ) */ {
         tlb_addr = tlbe->addr_read;
         if (!tlb_hit(tlb_addr, addr)) {
-            if (!VICTIM_TLB_HIT(addr_write, addr)) {
+            if (!VICTIM_TLB_HIT(addr_read, addr)) {
                 tlb_fill(env_cpu(env), addr, size,
                          MMU_DATA_LOAD, mmu_idx, retaddr);
                 index = tlb_index(env, mmu_idx, addr);
-- 
2.34.1

Fix these before moving the file, for checkpatch.pl.

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-Id: <20230510170812.663149-1-richard.henderson@linaro.org>
---
 disas.c | 11 ++++++-----
 1 file changed, 6 insertions(+), 5 deletions(-)

diff --git a/disas.c b/disas.c
index XXXXXXX..XXXXXXX 100644
--- a/disas.c
+++ b/disas.c
@@ -XXX,XX +XXX,XX @@ void target_disas(FILE *out, CPUState *cpu, target_ulong code,
     }
 
     for (pc = code; size > 0; pc += count, size -= count) {
-	fprintf(out, "0x" TARGET_FMT_lx ":  ", pc);
-	count = s.info.print_insn(pc, &s.info);
-	fprintf(out, "\n");
-	if (count < 0)
-	    break;
+        fprintf(out, "0x" TARGET_FMT_lx ":  ", pc);
+        count = s.info.print_insn(pc, &s.info);
+        fprintf(out, "\n");
+        if (count < 0) {
+            break;
+        }
         if (size < count) {
             fprintf(out,
                     "Disassembler disagrees with translator over instruction "
-- 
2.34.1

Reviewed-by: Thomas Huth <thuth@redhat.com>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-Id: <20230503072331.1747057-80-richard.henderson@linaro.org>
---
 meson.build              | 3 ---
 disas.c => disas/disas.c | 0
 disas/meson.build        | 4 +++-
 3 files changed, 3 insertions(+), 4 deletions(-)
 rename disas.c => disas/disas.c (100%)

diff --git a/meson.build b/meson.build
index XXXXXXX..XXXXXXX 100644
--- a/meson.build
+++ b/meson.build
@@ -XXX,XX +XXX,XX @@ specific_ss.add(files('cpu.c'))
 
 subdir('softmmu')
 
-common_ss.add(capstone)
-specific_ss.add(files('disas.c'), capstone)
-
 # Work around a gcc bug/misfeature wherein constant propagation looks
 # through an alias:
 #   https://gcc.gnu.org/bugzilla/show_bug.cgi?id=99696
diff --git a/disas.c b/disas/disas.c
similarity index 100%
rename from disas.c
rename to disas/disas.c
diff --git a/disas/meson.build b/disas/meson.build
index XXXXXXX..XXXXXXX 100644
--- a/disas/meson.build
+++ b/disas/meson.build
@@ -XXX,XX +XXX,XX @@ common_ss.add(when: 'CONFIG_RISCV_DIS', if_true: files('riscv.c'))
 common_ss.add(when: 'CONFIG_SH4_DIS', if_true: files('sh4.c'))
 common_ss.add(when: 'CONFIG_SPARC_DIS', if_true: files('sparc.c'))
 common_ss.add(when: 'CONFIG_XTENSA_DIS', if_true: files('xtensa.c'))
-common_ss.add(when: capstone, if_true: files('capstone.c'))
+common_ss.add(when: capstone, if_true: [files('capstone.c'), capstone])
+
+specific_ss.add(files('disas.c'), capstone)
-- 
2.34.1

Use uint64_t for the pc, and size_t for the size.

Reviewed-by: Thomas Huth <thuth@redhat.com>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-Id: <20230503072331.1747057-81-richard.henderson@linaro.org>
---
 include/disas/disas.h | 17 ++++++-----------
 bsd-user/elfload.c    |  5 +++--
 disas/disas.c         | 19 +++++++++----------
 linux-user/elfload.c  |  5 +++--
 4 files changed, 21 insertions(+), 25 deletions(-)

diff --git a/include/disas/disas.h b/include/disas/disas.h
index XXXXXXX..XXXXXXX 100644
--- a/include/disas/disas.h
+++ b/include/disas/disas.h
@@ -XXX,XX +XXX,XX @@
 #include "cpu.h"
 
 /* Disassemble this for me please... (debugging). */
-void disas(FILE *out, const void *code, unsigned long size);
-void target_disas(FILE *out, CPUState *cpu, target_ulong code,
-                  target_ulong size);
+void disas(FILE *out, const void *code, size_t size);
+void target_disas(FILE *out, CPUState *cpu, uint64_t code, size_t size);
 
-void monitor_disas(Monitor *mon, CPUState *cpu,
-                   target_ulong pc, int nb_insn, int is_physical);
+void monitor_disas(Monitor *mon, CPUState *cpu, uint64_t pc,
+                   int nb_insn, bool is_physical);
 
 char *plugin_disas(CPUState *cpu, uint64_t addr, size_t size);
 
 /* Look up symbol for debugging purpose.  Returns "" if unknown. */
-const char *lookup_symbol(target_ulong orig_addr);
+const char *lookup_symbol(uint64_t orig_addr);
 #endif
 
 struct syminfo;
 struct elf32_sym;
 struct elf64_sym;
 
-#if defined(CONFIG_USER_ONLY)
-typedef const char *(*lookup_symbol_t)(struct syminfo *s, target_ulong orig_addr);
-#else
-typedef const char *(*lookup_symbol_t)(struct syminfo *s, hwaddr orig_addr);
-#endif
+typedef const char *(*lookup_symbol_t)(struct syminfo *s, uint64_t orig_addr);
 
 struct syminfo {
     lookup_symbol_t lookup_symbol;
diff --git a/bsd-user/elfload.c b/bsd-user/elfload.c
index XXXXXXX..XXXXXXX 100644
--- a/bsd-user/elfload.c
+++ b/bsd-user/elfload.c
@@ -XXX,XX +XXX,XX @@ static abi_ulong load_elf_interp(struct elfhdr *interp_elf_ex,
 
 static int symfind(const void *s0, const void *s1)
 {
-    target_ulong addr = *(target_ulong *)s0;
+    __typeof(sym->st_value) addr = *(uint64_t *)s0;
     struct elf_sym *sym = (struct elf_sym *)s1;
     int result = 0;
+
     if (addr < sym->st_value) {
         result = -1;
     } else if (addr >= sym->st_value + sym->st_size) {
@@ -XXX,XX +XXX,XX @@ static int symfind(const void *s0, const void *s1)
     return result;
 }
 
-static const char *lookup_symbolxx(struct syminfo *s, target_ulong orig_addr)
+static const char *lookup_symbolxx(struct syminfo *s, uint64_t orig_addr)
 {
 #if ELF_CLASS == ELFCLASS32
     struct elf_sym *syms = s->disas_symtab.elf32;
diff --git a/disas/disas.c b/disas/disas.c
index XXXXXXX..XXXXXXX 100644
--- a/disas/disas.c
+++ b/disas/disas.c
@@ -XXX,XX +XXX,XX @@ static void initialize_debug_host(CPUDebug *s)
 }
 
 /* Disassemble this for me please... (debugging).  */
-void target_disas(FILE *out, CPUState *cpu, target_ulong code,
-                  target_ulong size)
+void target_disas(FILE *out, CPUState *cpu, uint64_t code, size_t size)
 {
-    target_ulong pc;
+    uint64_t pc;
     int count;
     CPUDebug s;
 
@@ -XXX,XX +XXX,XX @@ void target_disas(FILE *out, CPUState *cpu, target_ulong code,
     }
 
     for (pc = code; size > 0; pc += count, size -= count) {
-        fprintf(out, "0x" TARGET_FMT_lx ":  ", pc);
+        fprintf(out, "0x%08" PRIx64 ":  ", pc);
         count = s.info.print_insn(pc, &s.info);
         fprintf(out, "\n");
         if (count < 0) {
@@ -XXX,XX +XXX,XX @@ char *plugin_disas(CPUState *cpu, uint64_t addr, size_t size)
 }
 
 /* Disassemble this for me please... (debugging). */
-void disas(FILE *out, const void *code, unsigned long size)
+void disas(FILE *out, const void *code, size_t size)
 {
     uintptr_t pc;
     int count;
@@ -XXX,XX +XXX,XX @@ void disas(FILE *out, const void *code, unsigned long size)
 }
 
 /* Look up symbol for debugging purpose.  Returns "" if unknown. */
-const char *lookup_symbol(target_ulong orig_addr)
+const char *lookup_symbol(uint64_t orig_addr)
 {
     const char *symbol = "";
     struct syminfo *s;
@@ -XXX,XX +XXX,XX @@ physical_read_memory(bfd_vma memaddr, bfd_byte *myaddr, int length,
 }
 
 /* Disassembler for the monitor.  */
-void monitor_disas(Monitor *mon, CPUState *cpu,
-                   target_ulong pc, int nb_insn, int is_physical)
+void monitor_disas(Monitor *mon, CPUState *cpu, uint64_t pc,
+                   int nb_insn, bool is_physical)
 {
     int count, i;
     CPUDebug s;
@@ -XXX,XX +XXX,XX @@ void monitor_disas(Monitor *mon, CPUState *cpu,
     }
 
     if (!s.info.print_insn) {
-        monitor_printf(mon, "0x" TARGET_FMT_lx
+        monitor_printf(mon, "0x%08" PRIx64
                        ": Asm output not supported on this arch\n", pc);
         return;
     }
 
     for (i = 0; i < nb_insn; i++) {
-        g_string_append_printf(ds, "0x" TARGET_FMT_lx ":  ", pc);
+        g_string_append_printf(ds, "0x%08" PRIx64 ":  ", pc);
         count = s.info.print_insn(pc, &s.info);
         g_string_append_c(ds, '\n');
         if (count < 0) {
diff --git a/linux-user/elfload.c b/linux-user/elfload.c
index XXXXXXX..XXXXXXX 100644
--- a/linux-user/elfload.c
+++ b/linux-user/elfload.c
@@ -XXX,XX +XXX,XX @@ static void load_elf_interp(const char *filename, struct image_info *info,
 
 static int symfind(const void *s0, const void *s1)
 {
-    target_ulong addr = *(target_ulong *)s0;
     struct elf_sym *sym = (struct elf_sym *)s1;
+    __typeof(sym->st_value) addr = *(uint64_t *)s0;
     int result = 0;
+
     if (addr < sym->st_value) {
         result = -1;
     } else if (addr >= sym->st_value + sym->st_size) {
@@ -XXX,XX +XXX,XX @@ static int symfind(const void *s0, const void *s1)
     return result;
 }
 
-static const char *lookup_symbolxx(struct syminfo *s, target_ulong orig_addr)
+static const char *lookup_symbolxx(struct syminfo *s, uint64_t orig_addr)
 {
 #if ELF_CLASS == ELFCLASS32
     struct elf_sym *syms = s->disas_symtab.elf32;
-- 
2.34.1

Reviewed-by: Thomas Huth <thuth@redhat.com>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-Id: <20230503072331.1747057-83-richard.henderson@linaro.org>
---
 include/disas/disas.h | 6 ------
 disas/disas.c         | 3 ++-
 2 files changed, 2 insertions(+), 7 deletions(-)

diff --git a/include/disas/disas.h b/include/disas/disas.h
index XXXXXXX..XXXXXXX 100644
--- a/include/disas/disas.h
+++ b/include/disas/disas.h
@@ -XXX,XX +XXX,XX @@
 #ifndef QEMU_DISAS_H
 #define QEMU_DISAS_H
 
-#include "exec/hwaddr.h"
-
-#ifdef NEED_CPU_H
-#include "cpu.h"
-
 /* Disassemble this for me please... (debugging). */
 void disas(FILE *out, const void *code, size_t size);
 void target_disas(FILE *out, CPUState *cpu, uint64_t code, size_t size);
@@ -XXX,XX +XXX,XX @@ char *plugin_disas(CPUState *cpu, uint64_t addr, size_t size);
 
 /* Look up symbol for debugging purpose.  Returns "" if unknown. */
 const char *lookup_symbol(uint64_t orig_addr);
-#endif
 
 struct syminfo;
 struct elf32_sym;
diff --git a/disas/disas.c b/disas/disas.c
index XXXXXXX..XXXXXXX 100644
--- a/disas/disas.c
+++ b/disas/disas.c
@@ -XXX,XX +XXX,XX @@
 #include "disas/dis-asm.h"
 #include "elf.h"
 #include "qemu/qemu-print.h"
-
 #include "disas/disas.h"
 #include "disas/capstone.h"
+#include "hw/core/cpu.h"
+#include "exec/memory.h"
 
 typedef struct CPUDebug {
     struct disassemble_info info;
-- 
2.34.1

From: Thomas Huth <thuth@redhat.com>

We'd like to move disas.c into the common code source set, where
CONFIG_USER_ONLY is not available anymore. So we have to move
the related code into a separate file instead.

Signed-off-by: Thomas Huth <thuth@redhat.com>
Message-Id: <20230508133745.109463-2-thuth@redhat.com>
[rth: Type change done in a separate patch]
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 disas/disas-internal.h | 21 ++++++++++++
 disas/disas-mon.c      | 65 ++++++++++++++++++++++++++++++++++++
 disas/disas.c          | 76 ++++--------------------------------------
 disas/meson.build      |  1 +
 4 files changed, 93 insertions(+), 70 deletions(-)
 create mode 100644 disas/disas-internal.h
 create mode 100644 disas/disas-mon.c

diff --git a/disas/disas-internal.h b/disas/disas-internal.h
new file mode 100644
index XXXXXXX..XXXXXXX
--- /dev/null
+++ b/disas/disas-internal.h
@@ -XXX,XX +XXX,XX @@
+/*
+ * Definitions used internally in the disassembly code
+ *
+ * SPDX-License-Identifier: GPL-2.0-or-later
+ */
+
+#ifndef DISAS_INTERNAL_H
+#define DISAS_INTERNAL_H
+
+#include "disas/dis-asm.h"
+
+typedef struct CPUDebug {
+    struct disassemble_info info;
+    CPUState *cpu;
+} CPUDebug;
+
+void disas_initialize_debug_target(CPUDebug *s, CPUState *cpu);
+int disas_gstring_printf(FILE *stream, const char *fmt, ...)
+    G_GNUC_PRINTF(2, 3);
+
+#endif
diff --git a/disas/disas-mon.c b/disas/disas-mon.c
new file mode 100644
index XXXXXXX..XXXXXXX
--- /dev/null
+++ b/disas/disas-mon.c
@@ -XXX,XX +XXX,XX @@
+/*
+ * Functions related to disassembly from the monitor
+ *
+ * SPDX-License-Identifier: GPL-2.0-or-later
+ */
+
+#include "qemu/osdep.h"
+#include "disas-internal.h"
+#include "disas/disas.h"
+#include "exec/memory.h"
+#include "hw/core/cpu.h"
+#include "monitor/monitor.h"
+
+static int
+physical_read_memory(bfd_vma memaddr, bfd_byte *myaddr, int length,
+                     struct disassemble_info *info)
+{
+    CPUDebug *s = container_of(info, CPUDebug, info);
+    MemTxResult res;
+
+    res = address_space_read(s->cpu->as, memaddr, MEMTXATTRS_UNSPECIFIED,
+                             myaddr, length);
+    return res == MEMTX_OK ? 0 : EIO;
+}
+
+/* Disassembler for the monitor.  */
+void monitor_disas(Monitor *mon, CPUState *cpu, uint64_t pc,
+                   int nb_insn, bool is_physical)
+{
+    int count, i;
+    CPUDebug s;
+    g_autoptr(GString) ds = g_string_new("");
+
+    disas_initialize_debug_target(&s, cpu);
+    s.info.fprintf_func = disas_gstring_printf;
+    s.info.stream = (FILE *)ds;  /* abuse this slot */
+
+    if (is_physical) {
+        s.info.read_memory_func = physical_read_memory;
+    }
+    s.info.buffer_vma = pc;
+
+    if (s.info.cap_arch >= 0 && cap_disas_monitor(&s.info, pc, nb_insn)) {
+        monitor_puts(mon, ds->str);
+        return;
+    }
+
+    if (!s.info.print_insn) {
+        monitor_printf(mon, "0x%08" PRIx64
+                       ": Asm output not supported on this arch\n", pc);
+        return;
+    }
+
+    for (i = 0; i < nb_insn; i++) {
+        g_string_append_printf(ds, "0x%08" PRIx64 ":  ", pc);
+        count = s.info.print_insn(pc, &s.info);
+        g_string_append_c(ds, '\n');
+        if (count < 0) {
+            break;
+        }
+        pc += count;
+    }
+
+    monitor_puts(mon, ds->str);
+}
diff --git a/disas/disas.c b/disas/disas.c
index XXXXXXX..XXXXXXX 100644
--- a/disas/disas.c
+++ b/disas/disas.c
@@ -XXX,XX +XXX,XX @@
 /* General "disassemble this chunk" code.  Used for debugging. */
 #include "qemu/osdep.h"
-#include "disas/dis-asm.h"
+#include "disas/disas-internal.h"
 #include "elf.h"
 #include "qemu/qemu-print.h"
 #include "disas/disas.h"
@@ -XXX,XX +XXX,XX @@
 #include "hw/core/cpu.h"
 #include "exec/memory.h"
 
-typedef struct CPUDebug {
-    struct disassemble_info info;
-    CPUState *cpu;
-} CPUDebug;
-
 /* Filled in by elfload.c.  Simplistic, but will do for now. */
 struct syminfo *syminfos = NULL;
 
@@ -XXX,XX +XXX,XX @@ static void initialize_debug(CPUDebug *s)
     s->info.symbol_at_address_func = symbol_at_address;
 }
 
-static void initialize_debug_target(CPUDebug *s, CPUState *cpu)
+void disas_initialize_debug_target(CPUDebug *s, CPUState *cpu)
 {
     initialize_debug(s);
 
@@ -XXX,XX +XXX,XX @@ void target_disas(FILE *out, CPUState *cpu, uint64_t code, size_t size)
     int count;
     CPUDebug s;
 
-    initialize_debug_target(&s, cpu);
+    disas_initialize_debug_target(&s, cpu);
     s.info.fprintf_func = fprintf;
     s.info.stream = out;
     s.info.buffer_vma = code;
@@ -XXX,XX +XXX,XX @@ void target_disas(FILE *out, CPUState *cpu, uint64_t code, size_t size)
     }
 }
 
-static int G_GNUC_PRINTF(2, 3)
-gstring_printf(FILE *stream, const char *fmt, ...)
+int disas_gstring_printf(FILE *stream, const char *fmt, ...)
 {
     /* We abuse the FILE parameter to pass a GString. */
     GString *s = (GString *)stream;
@@ -XXX,XX +XXX,XX @@ char *plugin_disas(CPUState *cpu, uint64_t addr, size_t size)
     CPUDebug s;
     GString *ds = g_string_new(NULL);
 
-    initialize_debug_target(&s, cpu);
-    s.info.fprintf_func = gstring_printf;
+    disas_initialize_debug_target(&s, cpu);
+    s.info.fprintf_func = disas_gstring_printf;
     s.info.stream = (FILE *)ds;  /* abuse this slot */
     s.info.buffer_vma = addr;
     s.info.buffer_length = size;
@@ -XXX,XX +XXX,XX @@ const char *lookup_symbol(uint64_t orig_addr)
 
     return symbol;
 }
-
-#if !defined(CONFIG_USER_ONLY)
-
-#include "monitor/monitor.h"
-
-static int
-physical_read_memory(bfd_vma memaddr, bfd_byte *myaddr, int length,
-                     struct disassemble_info *info)
-{
-    CPUDebug *s = container_of(info, CPUDebug, info);
-    MemTxResult res;
-
-    res = address_space_read(s->cpu->as, memaddr, MEMTXATTRS_UNSPECIFIED,
-                             myaddr, length);
-    return res == MEMTX_OK ? 0 : EIO;
-}
-
-/* Disassembler for the monitor.  */
-void monitor_disas(Monitor *mon, CPUState *cpu, uint64_t pc,
-                   int nb_insn, bool is_physical)
-{
-    int count, i;
-    CPUDebug s;
-    g_autoptr(GString) ds = g_string_new("");
-
-    initialize_debug_target(&s, cpu);
-    s.info.fprintf_func = gstring_printf;
-    s.info.stream = (FILE *)ds;  /* abuse this slot */
-
-    if (is_physical) {
-        s.info.read_memory_func = physical_read_memory;
-    }
-    s.info.buffer_vma = pc;
-
-    if (s.info.cap_arch >= 0 && cap_disas_monitor(&s.info, pc, nb_insn)) {
-        monitor_puts(mon, ds->str);
-        return;
-    }
-
-    if (!s.info.print_insn) {
-        monitor_printf(mon, "0x%08" PRIx64
-                       ": Asm output not supported on this arch\n", pc);
-        return;
-    }
-
-    for (i = 0; i < nb_insn; i++) {
-        g_string_append_printf(ds, "0x%08" PRIx64 ":  ", pc);
-        count = s.info.print_insn(pc, &s.info);
-        g_string_append_c(ds, '\n');
-        if (count < 0) {
-            break;
-        }
-        pc += count;
-    }
-
-    monitor_puts(mon, ds->str);
-}
-#endif
diff --git a/disas/meson.build b/disas/meson.build
index XXXXXXX..XXXXXXX 100644
--- a/disas/meson.build
+++ b/disas/meson.build
@@ -XXX,XX +XXX,XX @@ common_ss.add(when: 'CONFIG_SPARC_DIS', if_true: files('sparc.c'))
 common_ss.add(when: 'CONFIG_XTENSA_DIS', if_true: files('xtensa.c'))
 common_ss.add(when: capstone, if_true: [files('capstone.c'), capstone])
 
+softmmu_ss.add(files('disas-mon.c'))
 specific_ss.add(files('disas.c'), capstone)
-- 
2.34.1

From: Thomas Huth <thuth@redhat.com>

By using target_words_bigendian() instead of an ifdef,
we can build this code once.

Signed-off-by: Thomas Huth <thuth@redhat.com>
Message-Id: <20230508133745.109463-3-thuth@redhat.com>
[rth: Type change done in a separate patch]
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 disas/disas.c     | 10 +++++-----
 disas/meson.build |  3 ++-
 2 files changed, 7 insertions(+), 6 deletions(-)

diff --git a/disas/disas.c b/disas/disas.c
index XXXXXXX..XXXXXXX 100644
--- a/disas/disas.c
+++ b/disas/disas.c
@@ -XXX,XX +XXX,XX @@ void disas_initialize_debug_target(CPUDebug *s, CPUState *cpu)
     s->cpu = cpu;
     s->info.read_memory_func = target_read_memory;
     s->info.print_address_func = print_address;
-#if TARGET_BIG_ENDIAN
-    s->info.endian = BFD_ENDIAN_BIG;
-#else
-    s->info.endian = BFD_ENDIAN_LITTLE;
-#endif
+    if (target_words_bigendian()) {
+        s->info.endian = BFD_ENDIAN_BIG;
+    } else {
+        s->info.endian =  BFD_ENDIAN_LITTLE;
+    }
 
     CPUClass *cc = CPU_GET_CLASS(cpu);
     if (cc->disas_set_info) {
diff --git a/disas/meson.build b/disas/meson.build
index XXXXXXX..XXXXXXX 100644
--- a/disas/meson.build
+++ b/disas/meson.build
@@ -XXX,XX +XXX,XX @@ common_ss.add(when: 'CONFIG_SH4_DIS', if_true: files('sh4.c'))
 common_ss.add(when: 'CONFIG_SPARC_DIS', if_true: files('sparc.c'))
 common_ss.add(when: 'CONFIG_XTENSA_DIS', if_true: files('xtensa.c'))
 common_ss.add(when: capstone, if_true: [files('capstone.c'), capstone])
+common_ss.add(files('disas.c'))
 
 softmmu_ss.add(files('disas-mon.c'))
-specific_ss.add(files('disas.c'), capstone)
+specific_ss.add(capstone)
-- 
2.34.1

From: Jamie Iles <quic_jiles@quicinc.com>

Expose qemu_cpu_list_lock globally so that we can use
WITH_QEMU_LOCK_GUARD and QEMU_LOCK_GUARD to simplify a few code paths
now and in future.

Signed-off-by: Jamie Iles <quic_jiles@quicinc.com>
Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-Id: <20230427020925.51003-2-quic_jiles@quicinc.com>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 include/exec/cpu-common.h |  1 +
 cpus-common.c             |  2 +-
 linux-user/elfload.c      | 13 +++++++------
 migration/dirtyrate.c     | 26 +++++++++++++-------------
 trace/control-target.c    |  9 ++++-----
 5 files changed, 26 insertions(+), 25 deletions(-)

diff --git a/include/exec/cpu-common.h b/include/exec/cpu-common.h
index XXXXXXX..XXXXXXX 100644
--- a/include/exec/cpu-common.h
+++ b/include/exec/cpu-common.h
@@ -XXX,XX +XXX,XX @@ extern intptr_t qemu_host_page_mask;
 #define REAL_HOST_PAGE_ALIGN(addr) ROUND_UP((addr), qemu_real_host_page_size())
 
 /* The CPU list lock nests outside page_(un)lock or mmap_(un)lock */
+extern QemuMutex qemu_cpu_list_lock;
 void qemu_init_cpu_list(void);
 void cpu_list_lock(void);
 void cpu_list_unlock(void);
diff --git a/cpus-common.c b/cpus-common.c
index XXXXXXX..XXXXXXX 100644
--- a/cpus-common.c
+++ b/cpus-common.c
@@ -XXX,XX +XXX,XX @@
 #include "qemu/lockable.h"
 #include "trace/trace-root.h"
 
-static QemuMutex qemu_cpu_list_lock;
+QemuMutex qemu_cpu_list_lock;
 static QemuCond exclusive_cond;
 static QemuCond exclusive_resume;
 static QemuCond qemu_work_cond;
diff --git a/linux-user/elfload.c b/linux-user/elfload.c
index XXXXXXX..XXXXXXX 100644
--- a/linux-user/elfload.c
+++ b/linux-user/elfload.c
@@ -XXX,XX +XXX,XX @@
 #include "qemu/guest-random.h"
 #include "qemu/units.h"
 #include "qemu/selfmap.h"
+#include "qemu/lockable.h"
 #include "qapi/error.h"
 #include "qemu/error-report.h"
 #include "target_signal.h"
@@ -XXX,XX +XXX,XX @@ static int fill_note_info(struct elf_note_info *info,
         info->notes_size += note_size(&info->notes[i]);
 
     /* read and fill status of all threads */
-    cpu_list_lock();
-    CPU_FOREACH(cpu) {
-        if (cpu == thread_cpu) {
-            continue;
+    WITH_QEMU_LOCK_GUARD(&qemu_cpu_list_lock) {
+        CPU_FOREACH(cpu) {
+            if (cpu == thread_cpu) {
+                continue;
+            }
+            fill_thread_info(info, cpu->env_ptr);
         }
-        fill_thread_info(info, cpu->env_ptr);
     }
-    cpu_list_unlock();
 
     return (0);
 }
diff --git a/migration/dirtyrate.c b/migration/dirtyrate.c
index XXXXXXX..XXXXXXX 100644
--- a/migration/dirtyrate.c
+++ b/migration/dirtyrate.c
@@ -XXX,XX +XXX,XX @@ int64_t vcpu_calculate_dirtyrate(int64_t calc_time_ms,
 retry:
     init_time_ms = qemu_clock_get_ms(QEMU_CLOCK_REALTIME);
 
-    cpu_list_lock();
-    gen_id = cpu_list_generation_id_get();
-    records = vcpu_dirty_stat_alloc(stat);
-    vcpu_dirty_stat_collect(stat, records, true);
-    cpu_list_unlock();
+    WITH_QEMU_LOCK_GUARD(&qemu_cpu_list_lock) {
+        gen_id = cpu_list_generation_id_get();
+        records = vcpu_dirty_stat_alloc(stat);
+        vcpu_dirty_stat_collect(stat, records, true);
+    }
 
     duration = dirty_stat_wait(calc_time_ms, init_time_ms);
 
     global_dirty_log_sync(flag, one_shot);
 
-    cpu_list_lock();
-    if (gen_id != cpu_list_generation_id_get()) {
-        g_free(records);
-        g_free(stat->rates);
-        cpu_list_unlock();
-        goto retry;
+    WITH_QEMU_LOCK_GUARD(&qemu_cpu_list_lock) {
+        if (gen_id != cpu_list_generation_id_get()) {
+            g_free(records);
+            g_free(stat->rates);
+            cpu_list_unlock();
+            goto retry;
+        }
+        vcpu_dirty_stat_collect(stat, records, false);
     }
-    vcpu_dirty_stat_collect(stat, records, false);
-    cpu_list_unlock();
 
     for (i = 0; i < stat->nvcpu; i++) {
         dirtyrate = do_calculate_dirtyrate(records[i], duration);
diff --git a/trace/control-target.c b/trace/control-target.c
index XXXXXXX..XXXXXXX 100644
--- a/trace/control-target.c
+++ b/trace/control-target.c
@@ -XXX,XX +XXX,XX @@
  */
 
 #include "qemu/osdep.h"
+#include "qemu/lockable.h"
 #include "cpu.h"
 #include "trace/trace-root.h"
 #include "trace/control.h"
@@ -XXX,XX +XXX,XX @@ static bool adding_first_cpu1(void)
 
 static bool adding_first_cpu(void)
 {
-    bool res;
-    cpu_list_lock();
-    res = adding_first_cpu1();
-    cpu_list_unlock();
-    return res;
+    QEMU_LOCK_GUARD(&qemu_cpu_list_lock);
+
+    return adding_first_cpu1();
 }
 
 void trace_init_vcpu(CPUState *vcpu)
-- 
2.34.1

From: Jamie Iles <quic_jiles@quicinc.com>

The round-robin scheduler will iterate over the CPU list with an
assigned budget until the next timer expiry and may exit early because
of a TB exit.  This is fine under normal operation but with icount
enabled and SMP it is possible for a CPU to be starved of run time and
the system live-locks.

For example, booting a riscv64 platform with '-icount
shift=0,align=off,sleep=on -smp 2' we observe a livelock once the kernel
has timers enabled and starts performing TLB shootdowns.  In this case
we have CPU 0 in M-mode with interrupts disabled sending an IPI to CPU
1.  As we enter the TCG loop, we assign the icount budget to next timer
interrupt to CPU 0 and begin executing where the guest is sat in a busy
loop exhausting all of the budget before we try to execute CPU 1 which
is the target of the IPI but CPU 1 is left with no budget with which to
execute and the process repeats.

We try here to add some fairness by splitting the budget across all of
the CPUs on the thread fairly before entering each one.  The CPU count
is cached on CPU list generation ID to avoid iterating the list on each
loop iteration.  With this change it is possible to boot an SMP rv64
guest with icount enabled and no hangs.

Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
Tested-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Jamie Iles <quic_jiles@quicinc.com>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-Id: <20230427020925.51003-3-quic_jiles@quicinc.com>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 accel/tcg/tcg-accel-ops-icount.h |  3 ++-
 accel/tcg/tcg-accel-ops-icount.c | 21 ++++++++++++++----
 accel/tcg/tcg-accel-ops-rr.c     | 37 +++++++++++++++++++++++++++++++-
 replay/replay.c                  |  3 +--
 4 files changed, 56 insertions(+), 8 deletions(-)

diff --git a/accel/tcg/tcg-accel-ops-icount.h b/accel/tcg/tcg-accel-ops-icount.h
index XXXXXXX..XXXXXXX 100644
--- a/accel/tcg/tcg-accel-ops-icount.h
+++ b/accel/tcg/tcg-accel-ops-icount.h
@@ -XXX,XX +XXX,XX @@
 #define TCG_ACCEL_OPS_ICOUNT_H
 
 void icount_handle_deadline(void);
-void icount_prepare_for_run(CPUState *cpu);
+void icount_prepare_for_run(CPUState *cpu, int64_t cpu_budget);
+int64_t icount_percpu_budget(int cpu_count);
 void icount_process_data(CPUState *cpu);
 
 void icount_handle_interrupt(CPUState *cpu, int mask);
diff --git a/accel/tcg/tcg-accel-ops-icount.c b/accel/tcg/tcg-accel-ops-icount.c
index XXXXXXX..XXXXXXX 100644
--- a/accel/tcg/tcg-accel-ops-icount.c
+++ b/accel/tcg/tcg-accel-ops-icount.c
@@ -XXX,XX +XXX,XX @@ void icount_handle_deadline(void)
     }
 }
 
-void icount_prepare_for_run(CPUState *cpu)
+/* Distribute the budget evenly across all CPUs */
+int64_t icount_percpu_budget(int cpu_count)
+{
+    int64_t limit = icount_get_limit();
+    int64_t timeslice = limit / cpu_count;
+
+    if (timeslice == 0) {
+        timeslice = limit;
+    }
+
+    return timeslice;
+}
+
+void icount_prepare_for_run(CPUState *cpu, int64_t cpu_budget)
 {
     int insns_left;
 
@@ -XXX,XX +XXX,XX @@ void icount_prepare_for_run(CPUState *cpu)
     g_assert(cpu_neg(cpu)->icount_decr.u16.low == 0);
     g_assert(cpu->icount_extra == 0);
 
-    cpu->icount_budget = icount_get_limit();
+    replay_mutex_lock();
+
+    cpu->icount_budget = MIN(icount_get_limit(), cpu_budget);
     insns_left = MIN(0xffff, cpu->icount_budget);
     cpu_neg(cpu)->icount_decr.u16.low = insns_left;
     cpu->icount_extra = cpu->icount_budget - insns_left;
 
-    replay_mutex_lock();
-
     if (cpu->icount_budget == 0) {
         /*
          * We're called without the iothread lock, so must take it while
diff --git a/accel/tcg/tcg-accel-ops-rr.c b/accel/tcg/tcg-accel-ops-rr.c
index XXXXXXX..XXXXXXX 100644
--- a/accel/tcg/tcg-accel-ops-rr.c
+++ b/accel/tcg/tcg-accel-ops-rr.c
@@ -XXX,XX +XXX,XX @@
  */
 
 #include "qemu/osdep.h"
+#include "qemu/lockable.h"
 #include "sysemu/tcg.h"
 #include "sysemu/replay.h"
 #include "sysemu/cpu-timers.h"
@@ -XXX,XX +XXX,XX @@ static void rr_force_rcu(Notifier *notify, void *data)
     rr_kick_next_cpu();
 }
 
+/*
+ * Calculate the number of CPUs that we will process in a single iteration of
+ * the main CPU thread loop so that we can fairly distribute the instruction
+ * count across CPUs.
+ *
+ * The CPU count is cached based on the CPU list generation ID to avoid
+ * iterating the list every time.
+ */
+static int rr_cpu_count(void)
+{
+    static unsigned int last_gen_id = ~0;
+    static int cpu_count;
+    CPUState *cpu;
+
+    QEMU_LOCK_GUARD(&qemu_cpu_list_lock);
+
+    if (cpu_list_generation_id_get() != last_gen_id) {
+        cpu_count = 0;
+        CPU_FOREACH(cpu) {
+            ++cpu_count;
+        }
+        last_gen_id = cpu_list_generation_id_get();
+    }
+
+    return cpu_count;
+}
+
 /*
  * In the single-threaded case each vCPU is simulated in turn. If
  * there is more than a single vCPU we create a simple timer to kick
@@ -XXX,XX +XXX,XX @@ static void *rr_cpu_thread_fn(void *arg)
     cpu->exit_request = 1;
 
     while (1) {
+        /* Only used for icount_enabled() */
+        int64_t cpu_budget = 0;
+
         qemu_mutex_unlock_iothread();
         replay_mutex_lock();
         qemu_mutex_lock_iothread();
 
         if (icount_enabled()) {
+            int cpu_count = rr_cpu_count();
+
             /* Account partial waits to QEMU_CLOCK_VIRTUAL.  */
             icount_account_warp_timer();
             /*
@@ -XXX,XX +XXX,XX @@ static void *rr_cpu_thread_fn(void *arg)
              * waking up the I/O thread and waiting for completion.
              */
             icount_handle_deadline();
+
+            cpu_budget = icount_percpu_budget(cpu_count);
         }
 
         replay_mutex_unlock();
@@ -XXX,XX +XXX,XX @@ static void *rr_cpu_thread_fn(void *arg)
 
                 qemu_mutex_unlock_iothread();
                 if (icount_enabled()) {
-                    icount_prepare_for_run(cpu);
+                    icount_prepare_for_run(cpu, cpu_budget);
                 }
                 r = tcg_cpus_exec(cpu);
                 if (icount_enabled()) {
diff --git a/replay/replay.c b/replay/replay.c
index XXXXXXX..XXXXXXX 100644
--- a/replay/replay.c
+++ b/replay/replay.c
@@ -XXX,XX +XXX,XX @@ uint64_t replay_get_current_icount(void)
 int replay_get_instructions(void)
 {
     int res = 0;
-    replay_mutex_lock();
+    g_assert(replay_mutex_locked());
     if (replay_next_event_is(EVENT_INSTRUCTION)) {
         res = replay_state.instruction_count;
         if (replay_break_icount != -1LL) {
@@ -XXX,XX +XXX,XX @@ int replay_get_instructions(void)
             }
         }
     }
-    replay_mutex_unlock();
     return res;
 }
 
-- 
2.34.1

Merge tcg_out_tlb_load, add_qemu_ldst_label,
tcg_out_test_alignment, and some code that lived in both
tcg_out_qemu_ld and tcg_out_qemu_st into one function
that returns HostAddress and TCGLabelQemuLdst structures.

Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/i386/tcg-target.c.inc | 346 ++++++++++++++++----------------------
 1 file changed, 145 insertions(+), 201 deletions(-)

diff --git a/tcg/i386/tcg-target.c.inc b/tcg/i386/tcg-target.c.inc
index XXXXXXX..XXXXXXX 100644
--- a/tcg/i386/tcg-target.c.inc
+++ b/tcg/i386/tcg-target.c.inc
@@ -XXX,XX +XXX,XX @@ static void * const qemu_st_helpers[(MO_SIZE | MO_BSWAP) + 1] = {
     [MO_BEUQ] = helper_be_stq_mmu,
 };
 
-/* Perform the TLB load and compare.
-
-   Inputs:
-   ADDRLO and ADDRHI contain the low and high part of the address.
-
-   MEM_INDEX and S_BITS are the memory context and log2 size of the load.
-
-   WHICH is the offset into the CPUTLBEntry structure of the slot to read.
-   This should be offsetof addr_read or addr_write.
-
-   Outputs:
-   LABEL_PTRS is filled with 1 (32-bit addresses) or 2 (64-bit addresses)
-   positions of the displacements of forward jumps to the TLB miss case.
-
-   Second argument register is loaded with the low part of the address.
-   In the TLB hit case, it has been adjusted as indicated by the TLB
-   and so is a host address.  In the TLB miss case, it continues to
-   hold a guest address.
-
-   First argument register is clobbered.  */
-
-static inline void tcg_out_tlb_load(TCGContext *s, TCGReg addrlo, TCGReg addrhi,
-                                    int mem_index, MemOp opc,
-                                    tcg_insn_unit **label_ptr, int which)
-{
-    TCGType ttype = TCG_TYPE_I32;
-    TCGType tlbtype = TCG_TYPE_I32;
-    int trexw = 0, hrexw = 0, tlbrexw = 0;
-    unsigned a_bits = get_alignment_bits(opc);
-    unsigned s_bits = opc & MO_SIZE;
-    unsigned a_mask = (1 << a_bits) - 1;
-    unsigned s_mask = (1 << s_bits) - 1;
-    target_ulong tlb_mask;
-
-    if (TCG_TARGET_REG_BITS == 64) {
-        if (TARGET_LONG_BITS == 64) {
-            ttype = TCG_TYPE_I64;
-            trexw = P_REXW;
-        }
-        if (TCG_TYPE_PTR == TCG_TYPE_I64) {
-            hrexw = P_REXW;
-            if (TARGET_PAGE_BITS + CPU_TLB_DYN_MAX_BITS > 32) {
-                tlbtype = TCG_TYPE_I64;
-                tlbrexw = P_REXW;
-            }
-        }
-    }
-
-    tcg_out_mov(s, tlbtype, TCG_REG_L0, addrlo);
-    tcg_out_shifti(s, SHIFT_SHR + tlbrexw, TCG_REG_L0,
-                   TARGET_PAGE_BITS - CPU_TLB_ENTRY_BITS);
-
-    tcg_out_modrm_offset(s, OPC_AND_GvEv + trexw, TCG_REG_L0, TCG_AREG0,
-                         TLB_MASK_TABLE_OFS(mem_index) +
-                         offsetof(CPUTLBDescFast, mask));
-
-    tcg_out_modrm_offset(s, OPC_ADD_GvEv + hrexw, TCG_REG_L0, TCG_AREG0,
-                         TLB_MASK_TABLE_OFS(mem_index) +
-                         offsetof(CPUTLBDescFast, table));
-
-    /* If the required alignment is at least as large as the access, simply
-       copy the address and mask.  For lesser alignments, check that we don't
-       cross pages for the complete access.  */
-    if (a_bits >= s_bits) {
-        tcg_out_mov(s, ttype, TCG_REG_L1, addrlo);
-    } else {
-        tcg_out_modrm_offset(s, OPC_LEA + trexw, TCG_REG_L1,
-                             addrlo, s_mask - a_mask);
-    }
-    tlb_mask = (target_ulong)TARGET_PAGE_MASK | a_mask;
-    tgen_arithi(s, ARITH_AND + trexw, TCG_REG_L1, tlb_mask, 0);
-
-    /* cmp 0(TCG_REG_L0), TCG_REG_L1 */
-    tcg_out_modrm_offset(s, OPC_CMP_GvEv + trexw,
-                         TCG_REG_L1, TCG_REG_L0, which);
-
-    /* Prepare for both the fast path add of the tlb addend, and the slow
-       path function argument setup.  */
-    tcg_out_mov(s, ttype, TCG_REG_L1, addrlo);
-
-    /* jne slow_path */
-    tcg_out_opc(s, OPC_JCC_long + JCC_JNE, 0, 0, 0);
-    label_ptr[0] = s->code_ptr;
-    s->code_ptr += 4;
-
-    if (TARGET_LONG_BITS > TCG_TARGET_REG_BITS) {
-        /* cmp 4(TCG_REG_L0), addrhi */
-        tcg_out_modrm_offset(s, OPC_CMP_GvEv, addrhi, TCG_REG_L0, which + 4);
-
-        /* jne slow_path */
-        tcg_out_opc(s, OPC_JCC_long + JCC_JNE, 0, 0, 0);
-        label_ptr[1] = s->code_ptr;
-        s->code_ptr += 4;
-    }
-
-    /* TLB Hit.  */
-
-    /* add addend(TCG_REG_L0), TCG_REG_L1 */
-    tcg_out_modrm_offset(s, OPC_ADD_GvEv + hrexw, TCG_REG_L1, TCG_REG_L0,
-                         offsetof(CPUTLBEntry, addend));
-}
-
-/*
- * Record the context of a call to the out of line helper code for the slow path
- * for a load or store, so that we can later generate the correct helper code
- */
-static void add_qemu_ldst_label(TCGContext *s, bool is_ld,
-                                TCGType type, MemOpIdx oi,
-                                TCGReg datalo, TCGReg datahi,
-                                TCGReg addrlo, TCGReg addrhi,
-                                tcg_insn_unit *raddr,
-                                tcg_insn_unit **label_ptr)
-{
-    TCGLabelQemuLdst *label = new_ldst_label(s);
-
-    label->is_ld = is_ld;
-    label->oi = oi;
-    label->type = type;
-    label->datalo_reg = datalo;
-    label->datahi_reg = datahi;
-    label->addrlo_reg = addrlo;
-    label->addrhi_reg = addrhi;
-    label->raddr = tcg_splitwx_to_rx(raddr);
-    label->label_ptr[0] = label_ptr[0];
-    if (TARGET_LONG_BITS > TCG_TARGET_REG_BITS) {
-        label->label_ptr[1] = label_ptr[1];
-    }
-}
-
 /*
  * Generate code for the slow path for a load at the end of block
  */
@@ -XXX,XX +XXX,XX @@ static bool tcg_out_qemu_st_slow_path(TCGContext *s, TCGLabelQemuLdst *l)
     return true;
 }
 #else
-
-static void tcg_out_test_alignment(TCGContext *s, bool is_ld, TCGReg addrlo,
-                                   TCGReg addrhi, unsigned a_bits)
-{
-    unsigned a_mask = (1 << a_bits) - 1;
-    TCGLabelQemuLdst *label;
-
-    tcg_out_testi(s, addrlo, a_mask);
-    /* jne slow_path */
-    tcg_out_opc(s, OPC_JCC_long + JCC_JNE, 0, 0, 0);
-
-    label = new_ldst_label(s);
-    label->is_ld = is_ld;
-    label->addrlo_reg = addrlo;
-    label->addrhi_reg = addrhi;
-    label->raddr = tcg_splitwx_to_rx(s->code_ptr + 4);
-    label->label_ptr[0] = s->code_ptr;
-
-    s->code_ptr += 4;
-}
-
 static bool tcg_out_fail_alignment(TCGContext *s, TCGLabelQemuLdst *l)
 {
     /* resolve label address */
@@ -XXX,XX +XXX,XX @@ static inline int setup_guest_base_seg(void)
 #endif /* setup_guest_base_seg */
 #endif /* SOFTMMU */
 
+/*
+ * For softmmu, perform the TLB load and compare.
+ * For useronly, perform any required alignment tests.
+ * In both cases, return a TCGLabelQemuLdst structure if the slow path
+ * is required and fill in @h with the host address for the fast path.
+ */
+static TCGLabelQemuLdst *prepare_host_addr(TCGContext *s, HostAddress *h,
+                                           TCGReg addrlo, TCGReg addrhi,
+                                           MemOpIdx oi, bool is_ld)
+{
+    TCGLabelQemuLdst *ldst = NULL;
+    MemOp opc = get_memop(oi);
+    unsigned a_bits = get_alignment_bits(opc);
+    unsigned a_mask = (1 << a_bits) - 1;
+
+#ifdef CONFIG_SOFTMMU
+    int cmp_ofs = is_ld ? offsetof(CPUTLBEntry, addr_read)
+                        : offsetof(CPUTLBEntry, addr_write);
+    TCGType ttype = TCG_TYPE_I32;
+    TCGType tlbtype = TCG_TYPE_I32;
+    int trexw = 0, hrexw = 0, tlbrexw = 0;
+    unsigned mem_index = get_mmuidx(oi);
+    unsigned s_bits = opc & MO_SIZE;
+    unsigned s_mask = (1 << s_bits) - 1;
+    target_ulong tlb_mask;
+
+    ldst = new_ldst_label(s);
+    ldst->is_ld = is_ld;
+    ldst->oi = oi;
+    ldst->addrlo_reg = addrlo;
+    ldst->addrhi_reg = addrhi;
+
+    if (TCG_TARGET_REG_BITS == 64) {
+        if (TARGET_LONG_BITS == 64) {
+            ttype = TCG_TYPE_I64;
+            trexw = P_REXW;
+        }
+        if (TCG_TYPE_PTR == TCG_TYPE_I64) {
+            hrexw = P_REXW;
+            if (TARGET_PAGE_BITS + CPU_TLB_DYN_MAX_BITS > 32) {
+                tlbtype = TCG_TYPE_I64;
+                tlbrexw = P_REXW;
+            }
+        }
+    }
+
+    tcg_out_mov(s, tlbtype, TCG_REG_L0, addrlo);
+    tcg_out_shifti(s, SHIFT_SHR + tlbrexw, TCG_REG_L0,
+                   TARGET_PAGE_BITS - CPU_TLB_ENTRY_BITS);
+
+    tcg_out_modrm_offset(s, OPC_AND_GvEv + trexw, TCG_REG_L0, TCG_AREG0,
+                         TLB_MASK_TABLE_OFS(mem_index) +
+                         offsetof(CPUTLBDescFast, mask));
+
+    tcg_out_modrm_offset(s, OPC_ADD_GvEv + hrexw, TCG_REG_L0, TCG_AREG0,
+                         TLB_MASK_TABLE_OFS(mem_index) +
+                         offsetof(CPUTLBDescFast, table));
+
+    /*
+     * If the required alignment is at least as large as the access, simply
+     * copy the address and mask.  For lesser alignments, check that we don't
+     * cross pages for the complete access.
+     */
+    if (a_bits >= s_bits) {
+        tcg_out_mov(s, ttype, TCG_REG_L1, addrlo);
+    } else {
+        tcg_out_modrm_offset(s, OPC_LEA + trexw, TCG_REG_L1,
+                             addrlo, s_mask - a_mask);
+    }
+    tlb_mask = (target_ulong)TARGET_PAGE_MASK | a_mask;
+    tgen_arithi(s, ARITH_AND + trexw, TCG_REG_L1, tlb_mask, 0);
+
+    /* cmp 0(TCG_REG_L0), TCG_REG_L1 */
+    tcg_out_modrm_offset(s, OPC_CMP_GvEv + trexw,
+                         TCG_REG_L1, TCG_REG_L0, cmp_ofs);
+
+    /*
+     * Prepare for both the fast path add of the tlb addend, and the slow
+     * path function argument setup.
+     */
+    *h = (HostAddress) {
+        .base = TCG_REG_L1,
+        .index = -1
+    };
+    tcg_out_mov(s, ttype, h->base, addrlo);
+
+    /* jne slow_path */
+    tcg_out_opc(s, OPC_JCC_long + JCC_JNE, 0, 0, 0);
+    ldst->label_ptr[0] = s->code_ptr;
+    s->code_ptr += 4;
+
+    if (TARGET_LONG_BITS > TCG_TARGET_REG_BITS) {
+        /* cmp 4(TCG_REG_L0), addrhi */
+        tcg_out_modrm_offset(s, OPC_CMP_GvEv, addrhi, TCG_REG_L0, cmp_ofs + 4);
+
+        /* jne slow_path */
+        tcg_out_opc(s, OPC_JCC_long + JCC_JNE, 0, 0, 0);
+        ldst->label_ptr[1] = s->code_ptr;
+        s->code_ptr += 4;
+    }
+
+    /* TLB Hit.  */
+
+    /* add addend(TCG_REG_L0), TCG_REG_L1 */
+    tcg_out_modrm_offset(s, OPC_ADD_GvEv + hrexw, h->base, TCG_REG_L0,
+                         offsetof(CPUTLBEntry, addend));
+#else
+    if (a_bits) {
+        ldst = new_ldst_label(s);
+
+        ldst->is_ld = is_ld;
+        ldst->oi = oi;
+        ldst->addrlo_reg = addrlo;
+        ldst->addrhi_reg = addrhi;
+
+        tcg_out_testi(s, addrlo, a_mask);
+        /* jne slow_path */
+        tcg_out_opc(s, OPC_JCC_long + JCC_JNE, 0, 0, 0);
+        ldst->label_ptr[0] = s->code_ptr;
+        s->code_ptr += 4;
+    }
+
+    *h = x86_guest_base;
+    h->base = addrlo;
+#endif
+
+    return ldst;
+}
+
 static void tcg_out_qemu_ld_direct(TCGContext *s, TCGReg datalo, TCGReg datahi,
                                    HostAddress h, TCGType type, MemOp memop)
 {
@@ -XXX,XX +XXX,XX @@ static void tcg_out_qemu_ld(TCGContext *s, TCGReg datalo, TCGReg datahi,
                             TCGReg addrlo, TCGReg addrhi,
                             MemOpIdx oi, TCGType data_type)
 {
-    MemOp opc = get_memop(oi);
+    TCGLabelQemuLdst *ldst;
     HostAddress h;
 
-#if defined(CONFIG_SOFTMMU)
-    tcg_insn_unit *label_ptr[2];
+    ldst = prepare_host_addr(s, &h, addrlo, addrhi, oi, true);
+    tcg_out_qemu_ld_direct(s, datalo, datahi, h, data_type, get_memop(oi));
 
-    tcg_out_tlb_load(s, addrlo, addrhi, get_mmuidx(oi), opc,
-                     label_ptr, offsetof(CPUTLBEntry, addr_read));
-
-    /* TLB Hit.  */
-    h.base = TCG_REG_L1;
-    h.index = -1;
-    h.ofs = 0;
-    h.seg = 0;
-    tcg_out_qemu_ld_direct(s, datalo, datahi, h, data_type, opc);
-
-    /* Record the current context of a load into ldst label */
-    add_qemu_ldst_label(s, true, data_type, oi, datalo, datahi,
-                        addrlo, addrhi, s->code_ptr, label_ptr);
-#else
-    unsigned a_bits = get_alignment_bits(opc);
-    if (a_bits) {
-        tcg_out_test_alignment(s, true, addrlo, addrhi, a_bits);
+    if (ldst) {
+        ldst->type = data_type;
+        ldst->datalo_reg = datalo;
+        ldst->datahi_reg = datahi;
+        ldst->raddr = tcg_splitwx_to_rx(s->code_ptr);
     }
-
-    h = x86_guest_base;
-    h.base = addrlo;
-    tcg_out_qemu_ld_direct(s, datalo, datahi, h, data_type, opc);
-#endif
 }
 
 static void tcg_out_qemu_st_direct(TCGContext *s, TCGReg datalo, TCGReg datahi,
@@ -XXX,XX +XXX,XX @@ static void tcg_out_qemu_st(TCGContext *s, TCGReg datalo, TCGReg datahi,
                             TCGReg addrlo, TCGReg addrhi,
                             MemOpIdx oi, TCGType data_type)
 {
-    MemOp opc = get_memop(oi);
+    TCGLabelQemuLdst *ldst;
     HostAddress h;
 
-#if defined(CONFIG_SOFTMMU)
-    tcg_insn_unit *label_ptr[2];
+    ldst = prepare_host_addr(s, &h, addrlo, addrhi, oi, false);
+    tcg_out_qemu_st_direct(s, datalo, datahi, h, get_memop(oi));
 
-    tcg_out_tlb_load(s, addrlo, addrhi, get_mmuidx(oi), opc,
-                     label_ptr, offsetof(CPUTLBEntry, addr_write));
-
-    /* TLB Hit.  */
-    h.base = TCG_REG_L1;
-    h.index = -1;
-    h.ofs = 0;
-    h.seg = 0;
-    tcg_out_qemu_st_direct(s, datalo, datahi, h, opc);
-
-    /* Record the current context of a store into ldst label */
-    add_qemu_ldst_label(s, false, data_type, oi, datalo, datahi,
-                        addrlo, addrhi, s->code_ptr, label_ptr);
-#else
-    unsigned a_bits = get_alignment_bits(opc);
-    if (a_bits) {
-        tcg_out_test_alignment(s, false, addrlo, addrhi, a_bits);
+    if (ldst) {
+        ldst->type = data_type;
+        ldst->datalo_reg = datalo;
+        ldst->datahi_reg = datahi;
+        ldst->raddr = tcg_splitwx_to_rx(s->code_ptr);
     }
-
-    h = x86_guest_base;
-    h.base = addrlo;
-
-    tcg_out_qemu_st_direct(s, datalo, datahi, h, opc);
-#endif
 }
 
 static void tcg_out_exit_tb(TCGContext *s, uintptr_t a0)
-- 
2.34.1

Since tcg_out_{ld,st}_helper_args, the slow path no longer requires
the address argument to be set up by the tlb load sequence.  Use a
plain load for the addend and indexed addressing with the original
input address register.

Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/i386/tcg-target.c.inc | 25 ++++++++++---------------
 1 file changed, 10 insertions(+), 15 deletions(-)

diff --git a/tcg/i386/tcg-target.c.inc b/tcg/i386/tcg-target.c.inc
index XXXXXXX..XXXXXXX 100644
--- a/tcg/i386/tcg-target.c.inc
+++ b/tcg/i386/tcg-target.c.inc
@@ -XXX,XX +XXX,XX @@ static bool tcg_out_qemu_ld_slow_path(TCGContext *s, TCGLabelQemuLdst *l)
         tcg_out_sti(s, TCG_TYPE_PTR, (uintptr_t)l->raddr, TCG_REG_ESP, ofs);
     } else {
         tcg_out_mov(s, TCG_TYPE_PTR, tcg_target_call_iarg_regs[0], TCG_AREG0);
-        /* The second argument is already loaded with addrlo.  */
+        tcg_out_mov(s, TCG_TYPE_TL, tcg_target_call_iarg_regs[1],
+                    l->addrlo_reg);
         tcg_out_movi(s, TCG_TYPE_I32, tcg_target_call_iarg_regs[2], oi);
         tcg_out_movi(s, TCG_TYPE_PTR, tcg_target_call_iarg_regs[3],
                      (uintptr_t)l->raddr);
@@ -XXX,XX +XXX,XX @@ static bool tcg_out_qemu_st_slow_path(TCGContext *s, TCGLabelQemuLdst *l)
         tcg_out_st(s, TCG_TYPE_PTR, retaddr, TCG_REG_ESP, ofs);
     } else {
         tcg_out_mov(s, TCG_TYPE_PTR, tcg_target_call_iarg_regs[0], TCG_AREG0);
-        /* The second argument is already loaded with addrlo.  */
+        tcg_out_mov(s, TCG_TYPE_TL, tcg_target_call_iarg_regs[1],
+                    l->addrlo_reg);
         tcg_out_mov(s, (s_bits == MO_64 ? TCG_TYPE_I64 : TCG_TYPE_I32),
                     tcg_target_call_iarg_regs[2], l->datalo_reg);
         tcg_out_movi(s, TCG_TYPE_I32, tcg_target_call_iarg_regs[3], oi);
@@ -XXX,XX +XXX,XX @@ static TCGLabelQemuLdst *prepare_host_addr(TCGContext *s, HostAddress *h,
     tcg_out_modrm_offset(s, OPC_CMP_GvEv + trexw,
                          TCG_REG_L1, TCG_REG_L0, cmp_ofs);
 
-    /*
-     * Prepare for both the fast path add of the tlb addend, and the slow
-     * path function argument setup.
-     */
-    *h = (HostAddress) {
-        .base = TCG_REG_L1,
-        .index = -1
-    };
-    tcg_out_mov(s, ttype, h->base, addrlo);
-
     /* jne slow_path */
     tcg_out_opc(s, OPC_JCC_long + JCC_JNE, 0, 0, 0);
     ldst->label_ptr[0] = s->code_ptr;
@@ -XXX,XX +XXX,XX @@ static TCGLabelQemuLdst *prepare_host_addr(TCGContext *s, HostAddress *h,
     }
 
     /* TLB Hit.  */
+    tcg_out_ld(s, TCG_TYPE_PTR, TCG_REG_L0, TCG_REG_L0,
+               offsetof(CPUTLBEntry, addend));
 
-    /* add addend(TCG_REG_L0), TCG_REG_L1 */
-    tcg_out_modrm_offset(s, OPC_ADD_GvEv + hrexw, h->base, TCG_REG_L0,
-                         offsetof(CPUTLBEntry, addend));
+    *h = (HostAddress) {
+        .base = addrlo,
+        .index = TCG_REG_L0,
+    };
 #else
     if (a_bits) {
         ldst = new_ldst_label(s);
-- 
2.34.1

Merge tcg_out_tlb_load, add_qemu_ldst_label, tcg_out_test_alignment,
and some code that lived in both tcg_out_qemu_ld and tcg_out_qemu_st
into one function that returns HostAddress and TCGLabelQemuLdst structures.

Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/aarch64/tcg-target.c.inc | 313 +++++++++++++++--------------------
 1 file changed, 133 insertions(+), 180 deletions(-)

diff --git a/tcg/aarch64/tcg-target.c.inc b/tcg/aarch64/tcg-target.c.inc
index XXXXXXX..XXXXXXX 100644
--- a/tcg/aarch64/tcg-target.c.inc
+++ b/tcg/aarch64/tcg-target.c.inc
@@ -XXX,XX +XXX,XX @@ static bool tcg_out_qemu_st_slow_path(TCGContext *s, TCGLabelQemuLdst *lb)
     tcg_out_goto(s, lb->raddr);
     return true;
 }
-
-static void add_qemu_ldst_label(TCGContext *s, bool is_ld, MemOpIdx oi,
-                                TCGType ext, TCGReg data_reg, TCGReg addr_reg,
-                                tcg_insn_unit *raddr, tcg_insn_unit *label_ptr)
-{
-    TCGLabelQemuLdst *label = new_ldst_label(s);
-
-    label->is_ld = is_ld;
-    label->oi = oi;
-    label->type = ext;
-    label->datalo_reg = data_reg;
-    label->addrlo_reg = addr_reg;
-    label->raddr = tcg_splitwx_to_rx(raddr);
-    label->label_ptr[0] = label_ptr;
-}
-
-/* We expect to use a 7-bit scaled negative offset from ENV.  */
-QEMU_BUILD_BUG_ON(TLB_MASK_TABLE_OFS(0) > 0);
-QEMU_BUILD_BUG_ON(TLB_MASK_TABLE_OFS(0) < -512);
-
-/* These offsets are built into the LDP below.  */
-QEMU_BUILD_BUG_ON(offsetof(CPUTLBDescFast, mask) != 0);
-QEMU_BUILD_BUG_ON(offsetof(CPUTLBDescFast, table) != 8);
-
-/* Load and compare a TLB entry, emitting the conditional jump to the
-   slow path for the failure case, which will be patched later when finalizing
-   the slow path. Generated code returns the host addend in X1,
-   clobbers X0,X2,X3,TMP. */
-static void tcg_out_tlb_read(TCGContext *s, TCGReg addr_reg, MemOp opc,
-                             tcg_insn_unit **label_ptr, int mem_index,
-                             bool is_read)
-{
-    unsigned a_bits = get_alignment_bits(opc);
-    unsigned s_bits = opc & MO_SIZE;
-    unsigned a_mask = (1u << a_bits) - 1;
-    unsigned s_mask = (1u << s_bits) - 1;
-    TCGReg x3;
-    TCGType mask_type;
-    uint64_t compare_mask;
-
-    mask_type = (TARGET_PAGE_BITS + CPU_TLB_DYN_MAX_BITS > 32
-                 ? TCG_TYPE_I64 : TCG_TYPE_I32);
-
-    /* Load env_tlb(env)->f[mmu_idx].{mask,table} into {x0,x1}.  */
-    tcg_out_insn(s, 3314, LDP, TCG_REG_X0, TCG_REG_X1, TCG_AREG0,
-                 TLB_MASK_TABLE_OFS(mem_index), 1, 0);
-
-    /* Extract the TLB index from the address into X0.  */
-    tcg_out_insn(s, 3502S, AND_LSR, mask_type == TCG_TYPE_I64,
-                 TCG_REG_X0, TCG_REG_X0, addr_reg,
-                 TARGET_PAGE_BITS - CPU_TLB_ENTRY_BITS);
-
-    /* Add the tlb_table pointer, creating the CPUTLBEntry address into X1.  */
-    tcg_out_insn(s, 3502, ADD, 1, TCG_REG_X1, TCG_REG_X1, TCG_REG_X0);
-
-    /* Load the tlb comparator into X0, and the fast path addend into X1.  */
-    tcg_out_ld(s, TCG_TYPE_TL, TCG_REG_X0, TCG_REG_X1, is_read
-               ? offsetof(CPUTLBEntry, addr_read)
-               : offsetof(CPUTLBEntry, addr_write));
-    tcg_out_ld(s, TCG_TYPE_PTR, TCG_REG_X1, TCG_REG_X1,
-               offsetof(CPUTLBEntry, addend));
-
-    /* For aligned accesses, we check the first byte and include the alignment
-       bits within the address.  For unaligned access, we check that we don't
-       cross pages using the address of the last byte of the access.  */
-    if (a_bits >= s_bits) {
-        x3 = addr_reg;
-    } else {
-        tcg_out_insn(s, 3401, ADDI, TARGET_LONG_BITS == 64,
-                     TCG_REG_X3, addr_reg, s_mask - a_mask);
-        x3 = TCG_REG_X3;
-    }
-    compare_mask = (uint64_t)TARGET_PAGE_MASK | a_mask;
-
-    /* Store the page mask part of the address into X3.  */
-    tcg_out_logicali(s, I3404_ANDI, TARGET_LONG_BITS == 64,
-                     TCG_REG_X3, x3, compare_mask);
-
-    /* Perform the address comparison. */
-    tcg_out_cmp(s, TARGET_LONG_BITS == 64, TCG_REG_X0, TCG_REG_X3, 0);
-
-    /* If not equal, we jump to the slow path. */
-    *label_ptr = s->code_ptr;
-    tcg_out_insn(s, 3202, B_C, TCG_COND_NE, 0);
-}
-
 #else
-static void tcg_out_test_alignment(TCGContext *s, bool is_ld, TCGReg addr_reg,
-                                   unsigned a_bits)
-{
-    unsigned a_mask = (1 << a_bits) - 1;
-    TCGLabelQemuLdst *label = new_ldst_label(s);
-
-    label->is_ld = is_ld;
-    label->addrlo_reg = addr_reg;
-
-    /* tst addr, #mask */
-    tcg_out_logicali(s, I3404_ANDSI, 0, TCG_REG_XZR, addr_reg, a_mask);
-
-    label->label_ptr[0] = s->code_ptr;
-
-    /* b.ne slow_path */
-    tcg_out_insn(s, 3202, B_C, TCG_COND_NE, 0);
-
-    label->raddr = tcg_splitwx_to_rx(s->code_ptr);
-}
-
 static bool tcg_out_fail_alignment(TCGContext *s, TCGLabelQemuLdst *l)
 {
     if (!reloc_pc19(l->label_ptr[0], tcg_splitwx_to_rx(s->code_ptr))) {
@@ -XXX,XX +XXX,XX @@ static bool tcg_out_qemu_st_slow_path(TCGContext *s, TCGLabelQemuLdst *l)
 }
 #endif /* CONFIG_SOFTMMU */
 
+/*
+ * For softmmu, perform the TLB load and compare.
+ * For useronly, perform any required alignment tests.
+ * In both cases, return a TCGLabelQemuLdst structure if the slow path
+ * is required and fill in @h with the host address for the fast path.
+ */
+static TCGLabelQemuLdst *prepare_host_addr(TCGContext *s, HostAddress *h,
+                                           TCGReg addr_reg, MemOpIdx oi,
+                                           bool is_ld)
+{
+    TCGType addr_type = TARGET_LONG_BITS == 64 ? TCG_TYPE_I64 : TCG_TYPE_I32;
+    TCGLabelQemuLdst *ldst = NULL;
+    MemOp opc = get_memop(oi);
+    unsigned a_bits = get_alignment_bits(opc);
+    unsigned a_mask = (1u << a_bits) - 1;
+
+#ifdef CONFIG_SOFTMMU
+    unsigned s_bits = opc & MO_SIZE;
+    unsigned s_mask = (1u << s_bits) - 1;
+    unsigned mem_index = get_mmuidx(oi);
+    TCGReg x3;
+    TCGType mask_type;
+    uint64_t compare_mask;
+
+    ldst = new_ldst_label(s);
+    ldst->is_ld = is_ld;
+    ldst->oi = oi;
+    ldst->addrlo_reg = addr_reg;
+
+    mask_type = (TARGET_PAGE_BITS + CPU_TLB_DYN_MAX_BITS > 32
+                 ? TCG_TYPE_I64 : TCG_TYPE_I32);
+
+    /* Load env_tlb(env)->f[mmu_idx].{mask,table} into {x0,x1}.  */
+    QEMU_BUILD_BUG_ON(TLB_MASK_TABLE_OFS(0) > 0);
+    QEMU_BUILD_BUG_ON(TLB_MASK_TABLE_OFS(0) < -512);
+    QEMU_BUILD_BUG_ON(offsetof(CPUTLBDescFast, mask) != 0);
+    QEMU_BUILD_BUG_ON(offsetof(CPUTLBDescFast, table) != 8);
+    tcg_out_insn(s, 3314, LDP, TCG_REG_X0, TCG_REG_X1, TCG_AREG0,
+                 TLB_MASK_TABLE_OFS(mem_index), 1, 0);
+
+    /* Extract the TLB index from the address into X0.  */
+    tcg_out_insn(s, 3502S, AND_LSR, mask_type == TCG_TYPE_I64,
+                 TCG_REG_X0, TCG_REG_X0, addr_reg,
+                 TARGET_PAGE_BITS - CPU_TLB_ENTRY_BITS);
+
+    /* Add the tlb_table pointer, creating the CPUTLBEntry address into X1.  */
+    tcg_out_insn(s, 3502, ADD, 1, TCG_REG_X1, TCG_REG_X1, TCG_REG_X0);
+
+    /* Load the tlb comparator into X0, and the fast path addend into X1.  */
+    tcg_out_ld(s, TCG_TYPE_TL, TCG_REG_X0, TCG_REG_X1,
+               is_ld ? offsetof(CPUTLBEntry, addr_read)
+                     : offsetof(CPUTLBEntry, addr_write));
+    tcg_out_ld(s, TCG_TYPE_PTR, TCG_REG_X1, TCG_REG_X1,
+               offsetof(CPUTLBEntry, addend));
+
+    /*
+     * For aligned accesses, we check the first byte and include the alignment
+     * bits within the address.  For unaligned access, we check that we don't
+     * cross pages using the address of the last byte of the access.
+     */
+    if (a_bits >= s_bits) {
+        x3 = addr_reg;
+    } else {
+        tcg_out_insn(s, 3401, ADDI, TARGET_LONG_BITS == 64,
+                     TCG_REG_X3, addr_reg, s_mask - a_mask);
+        x3 = TCG_REG_X3;
+    }
+    compare_mask = (uint64_t)TARGET_PAGE_MASK | a_mask;
+
+    /* Store the page mask part of the address into X3.  */
+    tcg_out_logicali(s, I3404_ANDI, TARGET_LONG_BITS == 64,
+                     TCG_REG_X3, x3, compare_mask);
+
+    /* Perform the address comparison. */
+    tcg_out_cmp(s, TARGET_LONG_BITS == 64, TCG_REG_X0, TCG_REG_X3, 0);
+
+    /* If not equal, we jump to the slow path. */
+    ldst->label_ptr[0] = s->code_ptr;
+    tcg_out_insn(s, 3202, B_C, TCG_COND_NE, 0);
+
+    *h = (HostAddress){
+        .base = TCG_REG_X1,
+        .index = addr_reg,
+        .index_ext = addr_type
+    };
+#else
+    if (a_mask) {
+        ldst = new_ldst_label(s);
+
+        ldst->is_ld = is_ld;
+        ldst->oi = oi;
+        ldst->addrlo_reg = addr_reg;
+
+        /* tst addr, #mask */
+        tcg_out_logicali(s, I3404_ANDSI, 0, TCG_REG_XZR, addr_reg, a_mask);
+
+        /* b.ne slow_path */
+        ldst->label_ptr[0] = s->code_ptr;
+        tcg_out_insn(s, 3202, B_C, TCG_COND_NE, 0);
+    }
+
+    if (USE_GUEST_BASE) {
+        *h = (HostAddress){
+            .base = TCG_REG_GUEST_BASE,
+            .index = addr_reg,
+            .index_ext = addr_type
+        };
+    } else {
+        *h = (HostAddress){
+            .base = addr_reg,
+            .index = TCG_REG_XZR,
+            .index_ext = TCG_TYPE_I64
+        };
+    }
+#endif
+
+    return ldst;
+}
+
 static void tcg_out_qemu_ld_direct(TCGContext *s, MemOp memop, TCGType ext,
                                    TCGReg data_r, HostAddress h)
 {
@@ -XXX,XX +XXX,XX @@ static void tcg_out_qemu_st_direct(TCGContext *s, MemOp memop,
 static void tcg_out_qemu_ld(TCGContext *s, TCGReg data_reg, TCGReg addr_reg,
                             MemOpIdx oi, TCGType data_type)
 {
-    MemOp memop = get_memop(oi);
-    TCGType addr_type = TARGET_LONG_BITS == 64 ? TCG_TYPE_I64 : TCG_TYPE_I32;
+    TCGLabelQemuLdst *ldst;
     HostAddress h;
 
-    /* Byte swapping is left to middle-end expansion. */
-    tcg_debug_assert((memop & MO_BSWAP) == 0);
+    ldst = prepare_host_addr(s, &h, addr_reg, oi, true);
+    tcg_out_qemu_ld_direct(s, get_memop(oi), data_type, data_reg, h);
 
-#ifdef CONFIG_SOFTMMU
-    tcg_insn_unit *label_ptr;
-
-    tcg_out_tlb_read(s, addr_reg, memop, &label_ptr, get_mmuidx(oi), 1);
-
-    h = (HostAddress){
-        .base = TCG_REG_X1,
-        .index = addr_reg,
-        .index_ext = addr_type
-    };
-    tcg_out_qemu_ld_direct(s, memop, data_type, data_reg, h);
-
-    add_qemu_ldst_label(s, true, oi, data_type, data_reg, addr_reg,
-                        s->code_ptr, label_ptr);
-#else /* !CONFIG_SOFTMMU */
-    unsigned a_bits = get_alignment_bits(memop);
-    if (a_bits) {
-        tcg_out_test_alignment(s, true, addr_reg, a_bits);
+    if (ldst) {
+        ldst->type = data_type;
+        ldst->datalo_reg = data_reg;
+        ldst->raddr = tcg_splitwx_to_rx(s->code_ptr);
     }
-    if (USE_GUEST_BASE) {
-        h = (HostAddress){
-            .base = TCG_REG_GUEST_BASE,
-            .index = addr_reg,
-            .index_ext = addr_type
-        };
-    } else {
-        h = (HostAddress){
-            .base = addr_reg,
-            .index = TCG_REG_XZR,
-            .index_ext = TCG_TYPE_I64
-        };
-    }
-    tcg_out_qemu_ld_direct(s, memop, data_type, data_reg, h);
-#endif /* CONFIG_SOFTMMU */
 }
 
 static void tcg_out_qemu_st(TCGContext *s, TCGReg data_reg, TCGReg addr_reg,
                             MemOpIdx oi, TCGType data_type)
 {
-    MemOp memop = get_memop(oi);
-    TCGType addr_type = TARGET_LONG_BITS == 64 ? TCG_TYPE_I64 : TCG_TYPE_I32;
+    TCGLabelQemuLdst *ldst;
     HostAddress h;
 
-    /* Byte swapping is left to middle-end expansion. */
-    tcg_debug_assert((memop & MO_BSWAP) == 0);
+    ldst = prepare_host_addr(s, &h, addr_reg, oi, false);
+    tcg_out_qemu_st_direct(s, get_memop(oi), data_reg, h);
 
-#ifdef CONFIG_SOFTMMU
-    tcg_insn_unit *label_ptr;
-
-    tcg_out_tlb_read(s, addr_reg, memop, &label_ptr, get_mmuidx(oi), 0);
-
-    h = (HostAddress){
-        .base = TCG_REG_X1,
-        .index = addr_reg,
-        .index_ext = addr_type
-    };
-    tcg_out_qemu_st_direct(s, memop, data_reg, h);
-
-    add_qemu_ldst_label(s, false, oi, data_type, data_reg, addr_reg,
-                        s->code_ptr, label_ptr);
-#else /* !CONFIG_SOFTMMU */
-    unsigned a_bits = get_alignment_bits(memop);
-    if (a_bits) {
-        tcg_out_test_alignment(s, false, addr_reg, a_bits);
+    if (ldst) {
+        ldst->type = data_type;
+        ldst->datalo_reg = data_reg;
+        ldst->raddr = tcg_splitwx_to_rx(s->code_ptr);
     }
-    if (USE_GUEST_BASE) {
-        h = (HostAddress){
-            .base = TCG_REG_GUEST_BASE,
-            .index = addr_reg,
-            .index_ext = addr_type
-        };
-    } else {
-        h = (HostAddress){
-            .base = addr_reg,
-            .index = TCG_REG_XZR,
-            .index_ext = TCG_TYPE_I64
-        };
-    }
-    tcg_out_qemu_st_direct(s, memop, data_reg, h);
-#endif /* CONFIG_SOFTMMU */
 }
 
 static const tcg_insn_unit *tb_ret_addr;
-- 
2.34.1

Merge tcg_out_tlb_load, add_qemu_ldst_label, and some code that lived
in both tcg_out_qemu_ld and tcg_out_qemu_st into one function that
returns HostAddress and TCGLabelQemuLdst structures.

Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/arm/tcg-target.c.inc | 351 ++++++++++++++++++---------------------
 1 file changed, 159 insertions(+), 192 deletions(-)

diff --git a/tcg/arm/tcg-target.c.inc b/tcg/arm/tcg-target.c.inc
index XXXXXXX..XXXXXXX 100644
--- a/tcg/arm/tcg-target.c.inc
+++ b/tcg/arm/tcg-target.c.inc
@@ -XXX,XX +XXX,XX @@ static TCGReg tcg_out_arg_reg64(TCGContext *s, TCGReg argreg,
     }
 }
 
-#define TLB_SHIFT	(CPU_TLB_ENTRY_BITS + CPU_TLB_BITS)
-
-/* We expect to use an 9-bit sign-magnitude negative offset from ENV.  */
-QEMU_BUILD_BUG_ON(TLB_MASK_TABLE_OFS(0) > 0);
-QEMU_BUILD_BUG_ON(TLB_MASK_TABLE_OFS(0) < -256);
-
-/* These offsets are built into the LDRD below.  */
-QEMU_BUILD_BUG_ON(offsetof(CPUTLBDescFast, mask) != 0);
-QEMU_BUILD_BUG_ON(offsetof(CPUTLBDescFast, table) != 4);
-
-/* Load and compare a TLB entry, leaving the flags set.  Returns the register
-   containing the addend of the tlb entry.  Clobbers R0, R1, R2, TMP.  */
-
-static TCGReg tcg_out_tlb_read(TCGContext *s, TCGReg addrlo, TCGReg addrhi,
-                               MemOp opc, int mem_index, bool is_load)
-{
-    int cmp_off = (is_load ? offsetof(CPUTLBEntry, addr_read)
-                   : offsetof(CPUTLBEntry, addr_write));
-    int fast_off = TLB_MASK_TABLE_OFS(mem_index);
-    unsigned s_mask = (1 << (opc & MO_SIZE)) - 1;
-    unsigned a_mask = (1 << get_alignment_bits(opc)) - 1;
-    TCGReg t_addr;
-
-    /* Load env_tlb(env)->f[mmu_idx].{mask,table} into {r0,r1}.  */
-    tcg_out_ldrd_8(s, COND_AL, TCG_REG_R0, TCG_AREG0, fast_off);
-
-    /* Extract the tlb index from the address into R0.  */
-    tcg_out_dat_reg(s, COND_AL, ARITH_AND, TCG_REG_R0, TCG_REG_R0, addrlo,
-                    SHIFT_IMM_LSR(TARGET_PAGE_BITS - CPU_TLB_ENTRY_BITS));
-
-    /*
-     * Add the tlb_table pointer, creating the CPUTLBEntry address in R1.
-     * Load the tlb comparator into R2/R3 and the fast path addend into R1.
-     */
-    if (cmp_off == 0) {
-        if (TARGET_LONG_BITS == 64) {
-            tcg_out_ldrd_rwb(s, COND_AL, TCG_REG_R2, TCG_REG_R1, TCG_REG_R0);
-        } else {
-            tcg_out_ld32_rwb(s, COND_AL, TCG_REG_R2, TCG_REG_R1, TCG_REG_R0);
-        }
-    } else {
-        tcg_out_dat_reg(s, COND_AL, ARITH_ADD,
-                        TCG_REG_R1, TCG_REG_R1, TCG_REG_R0, 0);
-        if (TARGET_LONG_BITS == 64) {
-            tcg_out_ldrd_8(s, COND_AL, TCG_REG_R2, TCG_REG_R1, cmp_off);
-        } else {
-            tcg_out_ld32_12(s, COND_AL, TCG_REG_R2, TCG_REG_R1, cmp_off);
-        }
-    }
-
-    /* Load the tlb addend.  */
-    tcg_out_ld32_12(s, COND_AL, TCG_REG_R1, TCG_REG_R1,
-                    offsetof(CPUTLBEntry, addend));
-
-    /*
-     * Check alignment, check comparators.
-     * Do this in 2-4 insns.  Use MOVW for v7, if possible,
-     * to reduce the number of sequential conditional instructions.
-     * Almost all guests have at least 4k pages, which means that we need
-     * to clear at least 9 bits even for an 8-byte memory, which means it
-     * isn't worth checking for an immediate operand for BIC.
-     *
-     * For unaligned accesses, test the page of the last unit of alignment.
-     * This leaves the least significant alignment bits unchanged, and of
-     * course must be zero.
-     */
-    t_addr = addrlo;
-    if (a_mask < s_mask) {
-        t_addr = TCG_REG_R0;
-        tcg_out_dat_imm(s, COND_AL, ARITH_ADD, t_addr,
-                        addrlo, s_mask - a_mask);
-    }
-    if (use_armv7_instructions && TARGET_PAGE_BITS <= 16) {
-        tcg_out_movi32(s, COND_AL, TCG_REG_TMP, ~(TARGET_PAGE_MASK | a_mask));
-        tcg_out_dat_reg(s, COND_AL, ARITH_BIC, TCG_REG_TMP,
-                        t_addr, TCG_REG_TMP, 0);
-        tcg_out_dat_reg(s, COND_AL, ARITH_CMP, 0, TCG_REG_R2, TCG_REG_TMP, 0);
-    } else {
-        if (a_mask) {
-            tcg_debug_assert(a_mask <= 0xff);
-            tcg_out_dat_imm(s, COND_AL, ARITH_TST, 0, addrlo, a_mask);
-        }
-        tcg_out_dat_reg(s, COND_AL, ARITH_MOV, TCG_REG_TMP, 0, t_addr,
-                        SHIFT_IMM_LSR(TARGET_PAGE_BITS));
-        tcg_out_dat_reg(s, (a_mask ? COND_EQ : COND_AL), ARITH_CMP,
-                        0, TCG_REG_R2, TCG_REG_TMP,
-                        SHIFT_IMM_LSL(TARGET_PAGE_BITS));
-    }
-
-    if (TARGET_LONG_BITS == 64) {
-        tcg_out_dat_reg(s, COND_EQ, ARITH_CMP, 0, TCG_REG_R3, addrhi, 0);
-    }
-
-    return TCG_REG_R1;
-}
-
-/* Record the context of a call to the out of line helper code for the slow
-   path for a load or store, so that we can later generate the correct
-   helper code.  */
-static void add_qemu_ldst_label(TCGContext *s, bool is_ld,
-                                MemOpIdx oi, TCGType type,
-                                TCGReg datalo, TCGReg datahi,
-                                TCGReg addrlo, TCGReg addrhi,
-                                tcg_insn_unit *raddr,
-                                tcg_insn_unit *label_ptr)
-{
-    TCGLabelQemuLdst *label = new_ldst_label(s);
-
-    label->is_ld = is_ld;
-    label->oi = oi;
-    label->type = type;
-    label->datalo_reg = datalo;
-    label->datahi_reg = datahi;
-    label->addrlo_reg = addrlo;
-    label->addrhi_reg = addrhi;
-    label->raddr = tcg_splitwx_to_rx(raddr);
-    label->label_ptr[0] = label_ptr;
-}
-
 static bool tcg_out_qemu_ld_slow_path(TCGContext *s, TCGLabelQemuLdst *lb)
 {
     TCGReg argreg;
@@ -XXX,XX +XXX,XX @@ static bool tcg_out_qemu_st_slow_path(TCGContext *s, TCGLabelQemuLdst *lb)
     return true;
 }
 #else
-
-static void tcg_out_test_alignment(TCGContext *s, bool is_ld, TCGReg addrlo,
-                                   TCGReg addrhi, unsigned a_bits)
-{
-    unsigned a_mask = (1 << a_bits) - 1;
-    TCGLabelQemuLdst *label = new_ldst_label(s);
-
-    label->is_ld = is_ld;
-    label->addrlo_reg = addrlo;
-    label->addrhi_reg = addrhi;
-
-    /* We are expecting a_bits to max out at 7, and can easily support 8. */
-    tcg_debug_assert(a_mask <= 0xff);
-    /* tst addr, #mask */
-    tcg_out_dat_imm(s, COND_AL, ARITH_TST, 0, addrlo, a_mask);
-
-    /* blne slow_path */
-    label->label_ptr[0] = s->code_ptr;
-    tcg_out_bl_imm(s, COND_NE, 0);
-
-    label->raddr = tcg_splitwx_to_rx(s->code_ptr);
-}
-
 static bool tcg_out_fail_alignment(TCGContext *s, TCGLabelQemuLdst *l)
 {
     if (!reloc_pc24(l->label_ptr[0], tcg_splitwx_to_rx(s->code_ptr))) {
@@ -XXX,XX +XXX,XX @@ static bool tcg_out_qemu_st_slow_path(TCGContext *s, TCGLabelQemuLdst *l)
 }
 #endif /* SOFTMMU */
 
+static TCGLabelQemuLdst *prepare_host_addr(TCGContext *s, HostAddress *h,
+                                           TCGReg addrlo, TCGReg addrhi,
+                                           MemOpIdx oi, bool is_ld)
+{
+    TCGLabelQemuLdst *ldst = NULL;
+    MemOp opc = get_memop(oi);
+    MemOp a_bits = get_alignment_bits(opc);
+    unsigned a_mask = (1 << a_bits) - 1;
+
+#ifdef CONFIG_SOFTMMU
+    int mem_index = get_mmuidx(oi);
+    int cmp_off = is_ld ? offsetof(CPUTLBEntry, addr_read)
+                        : offsetof(CPUTLBEntry, addr_write);
+    int fast_off = TLB_MASK_TABLE_OFS(mem_index);
+    unsigned s_mask = (1 << (opc & MO_SIZE)) - 1;
+    TCGReg t_addr;
+
+    ldst = new_ldst_label(s);
+    ldst->is_ld = is_ld;
+    ldst->oi = oi;
+    ldst->addrlo_reg = addrlo;
+    ldst->addrhi_reg = addrhi;
+
+    /* Load env_tlb(env)->f[mmu_idx].{mask,table} into {r0,r1}.  */
+    QEMU_BUILD_BUG_ON(TLB_MASK_TABLE_OFS(0) > 0);
+    QEMU_BUILD_BUG_ON(TLB_MASK_TABLE_OFS(0) < -256);
+    QEMU_BUILD_BUG_ON(offsetof(CPUTLBDescFast, mask) != 0);
+    QEMU_BUILD_BUG_ON(offsetof(CPUTLBDescFast, table) != 4);
+    tcg_out_ldrd_8(s, COND_AL, TCG_REG_R0, TCG_AREG0, fast_off);
+
+    /* Extract the tlb index from the address into R0.  */
+    tcg_out_dat_reg(s, COND_AL, ARITH_AND, TCG_REG_R0, TCG_REG_R0, addrlo,
+                    SHIFT_IMM_LSR(TARGET_PAGE_BITS - CPU_TLB_ENTRY_BITS));
+
+    /*
+     * Add the tlb_table pointer, creating the CPUTLBEntry address in R1.
+     * Load the tlb comparator into R2/R3 and the fast path addend into R1.
+     */
+    if (cmp_off == 0) {
+        if (TARGET_LONG_BITS == 64) {
+            tcg_out_ldrd_rwb(s, COND_AL, TCG_REG_R2, TCG_REG_R1, TCG_REG_R0);
+        } else {
+            tcg_out_ld32_rwb(s, COND_AL, TCG_REG_R2, TCG_REG_R1, TCG_REG_R0);
+        }
+    } else {
+        tcg_out_dat_reg(s, COND_AL, ARITH_ADD,
+                        TCG_REG_R1, TCG_REG_R1, TCG_REG_R0, 0);
+        if (TARGET_LONG_BITS == 64) {
+            tcg_out_ldrd_8(s, COND_AL, TCG_REG_R2, TCG_REG_R1, cmp_off);
+        } else {
+            tcg_out_ld32_12(s, COND_AL, TCG_REG_R2, TCG_REG_R1, cmp_off);
+        }
+    }
+
+    /* Load the tlb addend.  */
+    tcg_out_ld32_12(s, COND_AL, TCG_REG_R1, TCG_REG_R1,
+                    offsetof(CPUTLBEntry, addend));
+
+    /*
+     * Check alignment, check comparators.
+     * Do this in 2-4 insns.  Use MOVW for v7, if possible,
+     * to reduce the number of sequential conditional instructions.
+     * Almost all guests have at least 4k pages, which means that we need
+     * to clear at least 9 bits even for an 8-byte memory, which means it
+     * isn't worth checking for an immediate operand for BIC.
+     *
+     * For unaligned accesses, test the page of the last unit of alignment.
+     * This leaves the least significant alignment bits unchanged, and of
+     * course must be zero.
+     */
+    t_addr = addrlo;
+    if (a_mask < s_mask) {
+        t_addr = TCG_REG_R0;
+        tcg_out_dat_imm(s, COND_AL, ARITH_ADD, t_addr,
+                        addrlo, s_mask - a_mask);
+    }
+    if (use_armv7_instructions && TARGET_PAGE_BITS <= 16) {
+        tcg_out_movi32(s, COND_AL, TCG_REG_TMP, ~(TARGET_PAGE_MASK | a_mask));
+        tcg_out_dat_reg(s, COND_AL, ARITH_BIC, TCG_REG_TMP,
+                        t_addr, TCG_REG_TMP, 0);
+        tcg_out_dat_reg(s, COND_AL, ARITH_CMP, 0, TCG_REG_R2, TCG_REG_TMP, 0);
+    } else {
+        if (a_mask) {
+            tcg_debug_assert(a_mask <= 0xff);
+            tcg_out_dat_imm(s, COND_AL, ARITH_TST, 0, addrlo, a_mask);
+        }
+        tcg_out_dat_reg(s, COND_AL, ARITH_MOV, TCG_REG_TMP, 0, t_addr,
+                        SHIFT_IMM_LSR(TARGET_PAGE_BITS));
+        tcg_out_dat_reg(s, (a_mask ? COND_EQ : COND_AL), ARITH_CMP,
+                        0, TCG_REG_R2, TCG_REG_TMP,
+                        SHIFT_IMM_LSL(TARGET_PAGE_BITS));
+    }
+
+    if (TARGET_LONG_BITS == 64) {
+        tcg_out_dat_reg(s, COND_EQ, ARITH_CMP, 0, TCG_REG_R3, addrhi, 0);
+    }
+
+    *h = (HostAddress){
+        .cond = COND_AL,
+        .base = addrlo,
+        .index = TCG_REG_R1,
+        .index_scratch = true,
+    };
+#else
+    if (a_mask) {
+        ldst = new_ldst_label(s);
+        ldst->is_ld = is_ld;
+        ldst->oi = oi;
+        ldst->addrlo_reg = addrlo;
+        ldst->addrhi_reg = addrhi;
+
+        /* We are expecting a_bits to max out at 7 */
+        tcg_debug_assert(a_mask <= 0xff);
+        /* tst addr, #mask */
+        tcg_out_dat_imm(s, COND_AL, ARITH_TST, 0, addrlo, a_mask);
+    }
+
+    *h = (HostAddress){
+        .cond = COND_AL,
+        .base = addrlo,
+        .index = guest_base ? TCG_REG_GUEST_BASE : -1,
+        .index_scratch = false,
+    };
+#endif
+
+    return ldst;
+}
+
 static void tcg_out_qemu_ld_direct(TCGContext *s, MemOp opc, TCGReg datalo,
                                    TCGReg datahi, HostAddress h)
 {
@@ -XXX,XX +XXX,XX @@ static void tcg_out_qemu_ld(TCGContext *s, TCGReg datalo, TCGReg datahi,
                             MemOpIdx oi, TCGType data_type)
 {
     MemOp opc = get_memop(oi);
+    TCGLabelQemuLdst *ldst;
     HostAddress h;
 
-#ifdef CONFIG_SOFTMMU
-    h.cond = COND_AL;
-    h.base = addrlo;
-    h.index_scratch = true;
-    h.index = tcg_out_tlb_read(s, addrlo, addrhi, opc, get_mmuidx(oi), 1);
+    ldst = prepare_host_addr(s, &h, addrlo, addrhi, oi, true);
+    if (ldst) {
+        ldst->type = data_type;
+        ldst->datalo_reg = datalo;
+        ldst->datahi_reg = datahi;
 
-    /*
-     * This a conditional BL only to load a pointer within this opcode into
-     * LR for the slow path.  We will not be using the value for a tail call.
-     */
-    tcg_insn_unit *label_ptr = s->code_ptr;
-    tcg_out_bl_imm(s, COND_NE, 0);
+        /*
+         * This a conditional BL only to load a pointer within this
+         * opcode into LR for the slow path.  We will not be using
+         * the value for a tail call.
+         */
+        ldst->label_ptr[0] = s->code_ptr;
+        tcg_out_bl_imm(s, COND_NE, 0);
 
-    tcg_out_qemu_ld_direct(s, opc, datalo, datahi, h);
-
-    add_qemu_ldst_label(s, true, oi, data_type, datalo, datahi,
-                        addrlo, addrhi, s->code_ptr, label_ptr);
-#else
-    unsigned a_bits = get_alignment_bits(opc);
-    if (a_bits) {
-        tcg_out_test_alignment(s, true, addrlo, addrhi, a_bits);
+        tcg_out_qemu_ld_direct(s, opc, datalo, datahi, h);
+        ldst->raddr = tcg_splitwx_to_rx(s->code_ptr);
+    } else {
+        tcg_out_qemu_ld_direct(s, opc, datalo, datahi, h);
     }
-
-    h.cond = COND_AL;
-    h.base = addrlo;
-    h.index = guest_base ? TCG_REG_GUEST_BASE : -1;
-    h.index_scratch = false;
-    tcg_out_qemu_ld_direct(s, opc, datalo, datahi, h);
-#endif
 }
 
 static void tcg_out_qemu_st_direct(TCGContext *s, MemOp opc, TCGReg datalo,
@@ -XXX,XX +XXX,XX @@ static void tcg_out_qemu_st(TCGContext *s, TCGReg datalo, TCGReg datahi,
                             MemOpIdx oi, TCGType data_type)
 {
     MemOp opc = get_memop(oi);
+    TCGLabelQemuLdst *ldst;
     HostAddress h;
 
-#ifdef CONFIG_SOFTMMU
-    h.cond = COND_EQ;
-    h.base = addrlo;
-    h.index_scratch = true;
-    h.index = tcg_out_tlb_read(s, addrlo, addrhi, opc, get_mmuidx(oi), 0);
-    tcg_out_qemu_st_direct(s, opc, datalo, datahi, h);
+    ldst = prepare_host_addr(s, &h, addrlo, addrhi, oi, false);
+    if (ldst) {
+        ldst->type = data_type;
+        ldst->datalo_reg = datalo;
+        ldst->datahi_reg = datahi;
 
-    /* The conditional call must come last, as we're going to return here.  */
-    tcg_insn_unit *label_ptr = s->code_ptr;
-    tcg_out_bl_imm(s, COND_NE, 0);
-
-    add_qemu_ldst_label(s, false, oi, data_type, datalo, datahi,
-                        addrlo, addrhi, s->code_ptr, label_ptr);
-#else
-    unsigned a_bits = get_alignment_bits(opc);
-
-    h.cond = COND_AL;
-    if (a_bits) {
-        tcg_out_test_alignment(s, false, addrlo, addrhi, a_bits);
         h.cond = COND_EQ;
-    }
+        tcg_out_qemu_st_direct(s, opc, datalo, datahi, h);
 
-    h.base = addrlo;
-    h.index = guest_base ? TCG_REG_GUEST_BASE : -1;
-    h.index_scratch = false;
-    tcg_out_qemu_st_direct(s, opc, datalo, datahi, h);
-#endif
+        /* The conditional call is last, as we're going to return here. */
+        ldst->label_ptr[0] = s->code_ptr;
+        tcg_out_bl_imm(s, COND_NE, 0);
+        ldst->raddr = tcg_splitwx_to_rx(s->code_ptr);
+    } else {
+        tcg_out_qemu_st_direct(s, opc, datalo, datahi, h);
+    }
 }
 
 static void tcg_out_epilogue(TCGContext *s);
-- 
2.34.1

Merge tcg_out_tlb_load, add_qemu_ldst_label, tcg_out_test_alignment,
tcg_out_zext_addr_if_32_bit, and some code that lived in both
tcg_out_qemu_ld and tcg_out_qemu_st into one function that returns
HostAddress and TCGLabelQemuLdst structures.

Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/loongarch64/tcg-target.c.inc | 255 +++++++++++++------------------
 1 file changed, 105 insertions(+), 150 deletions(-)

diff --git a/tcg/loongarch64/tcg-target.c.inc b/tcg/loongarch64/tcg-target.c.inc
index XXXXXXX..XXXXXXX 100644
--- a/tcg/loongarch64/tcg-target.c.inc
+++ b/tcg/loongarch64/tcg-target.c.inc
@@ -XXX,XX +XXX,XX @@ static void * const qemu_st_helpers[4] = {
     [MO_64] = helper_le_stq_mmu,
 };
 
-/* We expect to use a 12-bit negative offset from ENV.  */
-QEMU_BUILD_BUG_ON(TLB_MASK_TABLE_OFS(0) > 0);
-QEMU_BUILD_BUG_ON(TLB_MASK_TABLE_OFS(0) < -(1 << 11));
-
 static bool tcg_out_goto(TCGContext *s, const tcg_insn_unit *target)
 {
     tcg_out_opc_b(s, 0);
     return reloc_br_sd10k16(s->code_ptr - 1, target);
 }
 
-/*
- * Emits common code for TLB addend lookup, that eventually loads the
- * addend in TCG_REG_TMP2.
- */
-static void tcg_out_tlb_load(TCGContext *s, TCGReg addrl, MemOpIdx oi,
-                             tcg_insn_unit **label_ptr, bool is_load)
-{
-    MemOp opc = get_memop(oi);
-    unsigned s_bits = opc & MO_SIZE;
-    unsigned a_bits = get_alignment_bits(opc);
-    tcg_target_long compare_mask;
-    int mem_index = get_mmuidx(oi);
-    int fast_ofs = TLB_MASK_TABLE_OFS(mem_index);
-    int mask_ofs = fast_ofs + offsetof(CPUTLBDescFast, mask);
-    int table_ofs = fast_ofs + offsetof(CPUTLBDescFast, table);
-
-    tcg_out_ld(s, TCG_TYPE_PTR, TCG_REG_TMP0, TCG_AREG0, mask_ofs);
-    tcg_out_ld(s, TCG_TYPE_PTR, TCG_REG_TMP1, TCG_AREG0, table_ofs);
-
-    tcg_out_opc_srli_d(s, TCG_REG_TMP2, addrl,
-                    TARGET_PAGE_BITS - CPU_TLB_ENTRY_BITS);
-    tcg_out_opc_and(s, TCG_REG_TMP2, TCG_REG_TMP2, TCG_REG_TMP0);
-    tcg_out_opc_add_d(s, TCG_REG_TMP2, TCG_REG_TMP2, TCG_REG_TMP1);
-
-    /* Load the tlb comparator and the addend.  */
-    tcg_out_ld(s, TCG_TYPE_TL, TCG_REG_TMP0, TCG_REG_TMP2,
-               is_load ? offsetof(CPUTLBEntry, addr_read)
-               : offsetof(CPUTLBEntry, addr_write));
-    tcg_out_ld(s, TCG_TYPE_PTR, TCG_REG_TMP2, TCG_REG_TMP2,
-               offsetof(CPUTLBEntry, addend));
-
-    /* We don't support unaligned accesses.  */
-    if (a_bits < s_bits) {
-        a_bits = s_bits;
-    }
-    /* Clear the non-page, non-alignment bits from the address.  */
-    compare_mask = (tcg_target_long)TARGET_PAGE_MASK | ((1 << a_bits) - 1);
-    tcg_out_movi(s, TCG_TYPE_TL, TCG_REG_TMP1, compare_mask);
-    tcg_out_opc_and(s, TCG_REG_TMP1, TCG_REG_TMP1, addrl);
-
-    /* Compare masked address with the TLB entry.  */
-    label_ptr[0] = s->code_ptr;
-    tcg_out_opc_bne(s, TCG_REG_TMP0, TCG_REG_TMP1, 0);
-
-    /* TLB Hit - addend in TCG_REG_TMP2, ready for use.  */
-}
-
-static void add_qemu_ldst_label(TCGContext *s, int is_ld, MemOpIdx oi,
-                                TCGType type,
-                                TCGReg datalo, TCGReg addrlo,
-                                void *raddr, tcg_insn_unit **label_ptr)
-{
-    TCGLabelQemuLdst *label = new_ldst_label(s);
-
-    label->is_ld = is_ld;
-    label->oi = oi;
-    label->type = type;
-    label->datalo_reg = datalo;
-    label->datahi_reg = 0; /* unused */
-    label->addrlo_reg = addrlo;
-    label->addrhi_reg = 0; /* unused */
-    label->raddr = tcg_splitwx_to_rx(raddr);
-    label->label_ptr[0] = label_ptr[0];
-}
-
 static bool tcg_out_qemu_ld_slow_path(TCGContext *s, TCGLabelQemuLdst *l)
 {
     MemOpIdx oi = l->oi;
@@ -XXX,XX +XXX,XX @@ static bool tcg_out_qemu_st_slow_path(TCGContext *s, TCGLabelQemuLdst *l)
     return tcg_out_goto(s, l->raddr);
 }
 #else
-
-/*
- * Alignment helpers for user-mode emulation
- */
-
-static void tcg_out_test_alignment(TCGContext *s, bool is_ld, TCGReg addr_reg,
-                                   unsigned a_bits)
-{
-    TCGLabelQemuLdst *l = new_ldst_label(s);
-
-    l->is_ld = is_ld;
-    l->addrlo_reg = addr_reg;
-
-    /*
-     * Without micro-architecture details, we don't know which of bstrpick or
-     * andi is faster, so use bstrpick as it's not constrained by imm field
-     * width. (Not to say alignments >= 2^12 are going to happen any time
-     * soon, though)
-     */
-    tcg_out_opc_bstrpick_d(s, TCG_REG_TMP1, addr_reg, 0, a_bits - 1);
-
-    l->label_ptr[0] = s->code_ptr;
-    tcg_out_opc_bne(s, TCG_REG_TMP1, TCG_REG_ZERO, 0);
-
-    l->raddr = tcg_splitwx_to_rx(s->code_ptr);
-}
-
 static bool tcg_out_fail_alignment(TCGContext *s, TCGLabelQemuLdst *l)
 {
     /* resolve label address */
@@ -XXX,XX +XXX,XX @@ static bool tcg_out_qemu_st_slow_path(TCGContext *s, TCGLabelQemuLdst *l)
 
 #endif /* CONFIG_SOFTMMU */
 
-/*
- * `ext32u` the address register into the temp register given,
- * if target is 32-bit, no-op otherwise.
- *
- * Returns the address register ready for use with TLB addend.
- */
-static TCGReg tcg_out_zext_addr_if_32_bit(TCGContext *s,
-                                          TCGReg addr, TCGReg tmp)
-{
-    if (TARGET_LONG_BITS == 32) {
-        tcg_out_ext32u(s, tmp, addr);
-        return tmp;
-    }
-    return addr;
-}
-
 typedef struct {
     TCGReg base;
     TCGReg index;
 } HostAddress;
 
+/*
+ * For softmmu, perform the TLB load and compare.
+ * For useronly, perform any required alignment tests.
+ * In both cases, return a TCGLabelQemuLdst structure if the slow path
+ * is required and fill in @h with the host address for the fast path.
+ */
+static TCGLabelQemuLdst *prepare_host_addr(TCGContext *s, HostAddress *h,
+                                           TCGReg addr_reg, MemOpIdx oi,
+                                           bool is_ld)
+{
+    TCGLabelQemuLdst *ldst = NULL;
+    MemOp opc = get_memop(oi);
+    unsigned a_bits = get_alignment_bits(opc);
+
+#ifdef CONFIG_SOFTMMU
+    unsigned s_bits = opc & MO_SIZE;
+    int mem_index = get_mmuidx(oi);
+    int fast_ofs = TLB_MASK_TABLE_OFS(mem_index);
+    int mask_ofs = fast_ofs + offsetof(CPUTLBDescFast, mask);
+    int table_ofs = fast_ofs + offsetof(CPUTLBDescFast, table);
+    tcg_target_long compare_mask;
+
+    ldst = new_ldst_label(s);
+    ldst->is_ld = is_ld;
+    ldst->oi = oi;
+    ldst->addrlo_reg = addr_reg;
+
+    QEMU_BUILD_BUG_ON(TLB_MASK_TABLE_OFS(0) > 0);
+    QEMU_BUILD_BUG_ON(TLB_MASK_TABLE_OFS(0) < -(1 << 11));
+    tcg_out_ld(s, TCG_TYPE_PTR, TCG_REG_TMP0, TCG_AREG0, mask_ofs);
+    tcg_out_ld(s, TCG_TYPE_PTR, TCG_REG_TMP1, TCG_AREG0, table_ofs);
+
+    tcg_out_opc_srli_d(s, TCG_REG_TMP2, addr_reg,
+                    TARGET_PAGE_BITS - CPU_TLB_ENTRY_BITS);
+    tcg_out_opc_and(s, TCG_REG_TMP2, TCG_REG_TMP2, TCG_REG_TMP0);
+    tcg_out_opc_add_d(s, TCG_REG_TMP2, TCG_REG_TMP2, TCG_REG_TMP1);
+
+    /* Load the tlb comparator and the addend.  */
+    tcg_out_ld(s, TCG_TYPE_TL, TCG_REG_TMP0, TCG_REG_TMP2,
+               is_ld ? offsetof(CPUTLBEntry, addr_read)
+                     : offsetof(CPUTLBEntry, addr_write));
+    tcg_out_ld(s, TCG_TYPE_PTR, TCG_REG_TMP2, TCG_REG_TMP2,
+               offsetof(CPUTLBEntry, addend));
+
+    /* We don't support unaligned accesses.  */
+    if (a_bits < s_bits) {
+        a_bits = s_bits;
+    }
+    /* Clear the non-page, non-alignment bits from the address.  */
+    compare_mask = (tcg_target_long)TARGET_PAGE_MASK | ((1 << a_bits) - 1);
+    tcg_out_movi(s, TCG_TYPE_TL, TCG_REG_TMP1, compare_mask);
+    tcg_out_opc_and(s, TCG_REG_TMP1, TCG_REG_TMP1, addr_reg);
+
+    /* Compare masked address with the TLB entry.  */
+    ldst->label_ptr[0] = s->code_ptr;
+    tcg_out_opc_bne(s, TCG_REG_TMP0, TCG_REG_TMP1, 0);
+
+    h->index = TCG_REG_TMP2;
+#else
+    if (a_bits) {
+        ldst = new_ldst_label(s);
+
+        ldst->is_ld = is_ld;
+        ldst->oi = oi;
+        ldst->addrlo_reg = addr_reg;
+
+        /*
+         * Without micro-architecture details, we don't know which of
+         * bstrpick or andi is faster, so use bstrpick as it's not
+         * constrained by imm field width. Not to say alignments >= 2^12
+         * are going to happen any time soon.
+         */
+        tcg_out_opc_bstrpick_d(s, TCG_REG_TMP1, addr_reg, 0, a_bits - 1);
+
+        ldst->label_ptr[0] = s->code_ptr;
+        tcg_out_opc_bne(s, TCG_REG_TMP1, TCG_REG_ZERO, 0);
+    }
+
+    h->index = USE_GUEST_BASE ? TCG_GUEST_BASE_REG : TCG_REG_ZERO;
+#endif
+
+    if (TARGET_LONG_BITS == 32) {
+        h->base = TCG_REG_TMP0;
+        tcg_out_ext32u(s, h->base, addr_reg);
+    } else {
+        h->base = addr_reg;
+    }
+
+    return ldst;
+}
+
 static void tcg_out_qemu_ld_indexed(TCGContext *s, MemOp opc, TCGType type,
                                     TCGReg rd, HostAddress h)
 {
@@ -XXX,XX +XXX,XX @@ static void tcg_out_qemu_ld_indexed(TCGContext *s, MemOp opc, TCGType type,
 static void tcg_out_qemu_ld(TCGContext *s, TCGReg data_reg, TCGReg addr_reg,
                             MemOpIdx oi, TCGType data_type)
 {
-    MemOp opc = get_memop(oi);
+    TCGLabelQemuLdst *ldst;
     HostAddress h;
 
-#ifdef CONFIG_SOFTMMU
-    tcg_insn_unit *label_ptr[1];
+    ldst = prepare_host_addr(s, &h, addr_reg, oi, true);
+    tcg_out_qemu_ld_indexed(s, get_memop(oi), data_type, data_reg, h);
 
-    tcg_out_tlb_load(s, addr_reg, oi, label_ptr, 1);
-    h.index = TCG_REG_TMP2;
-#else
-    unsigned a_bits = get_alignment_bits(opc);
-    if (a_bits) {
-        tcg_out_test_alignment(s, true, addr_reg, a_bits);
+    if (ldst) {
+        ldst->type = data_type;
+        ldst->datalo_reg = data_reg;
+        ldst->raddr = tcg_splitwx_to_rx(s->code_ptr);
     }
-    h.index = USE_GUEST_BASE ? TCG_GUEST_BASE_REG : TCG_REG_ZERO;
-#endif
-
-    h.base = tcg_out_zext_addr_if_32_bit(s, addr_reg, TCG_REG_TMP0);
-    tcg_out_qemu_ld_indexed(s, opc, data_type, data_reg, h);
-
-#ifdef CONFIG_SOFTMMU
-    add_qemu_ldst_label(s, true, oi, data_type, data_reg, addr_reg,
-                        s->code_ptr, label_ptr);
-#endif
 }
 
 static void tcg_out_qemu_st_indexed(TCGContext *s, MemOp opc,
@@ -XXX,XX +XXX,XX @@ static void tcg_out_qemu_st_indexed(TCGContext *s, MemOp opc,
 static void tcg_out_qemu_st(TCGContext *s, TCGReg data_reg, TCGReg addr_reg,
                             MemOpIdx oi, TCGType data_type)
 {
-    MemOp opc = get_memop(oi);
+    TCGLabelQemuLdst *ldst;
     HostAddress h;
 
-#ifdef CONFIG_SOFTMMU
-    tcg_insn_unit *label_ptr[1];
+    ldst = prepare_host_addr(s, &h, addr_reg, oi, false);
+    tcg_out_qemu_st_indexed(s, get_memop(oi), data_reg, h);
 
-    tcg_out_tlb_load(s, addr_reg, oi, label_ptr, 0);
-    h.index = TCG_REG_TMP2;
-#else
-    unsigned a_bits = get_alignment_bits(opc);
-    if (a_bits) {
-        tcg_out_test_alignment(s, false, addr_reg, a_bits);
+    if (ldst) {
+        ldst->type = data_type;
+        ldst->datalo_reg = data_reg;
+        ldst->raddr = tcg_splitwx_to_rx(s->code_ptr);
     }
-    h.index = USE_GUEST_BASE ? TCG_GUEST_BASE_REG : TCG_REG_ZERO;
-#endif
-
-    h.base = tcg_out_zext_addr_if_32_bit(s, addr_reg, TCG_REG_TMP0);
-    tcg_out_qemu_st_indexed(s, opc, data_reg, h);
-
-#ifdef CONFIG_SOFTMMU
-    add_qemu_ldst_label(s, false, oi, data_type, data_reg, addr_reg,
-                        s->code_ptr, label_ptr);
-#endif
 }
 
 /*
-- 
2.34.1

Merge tcg_out_tlb_load, add_qemu_ldst_label, tcg_out_test_alignment,
and some code that lived in both tcg_out_qemu_ld and tcg_out_qemu_st
into one function that returns HostAddress and TCGLabelQemuLdst structures.

Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/mips/tcg-target.c.inc | 404 ++++++++++++++++----------------------
 1 file changed, 172 insertions(+), 232 deletions(-)

diff --git a/tcg/mips/tcg-target.c.inc b/tcg/mips/tcg-target.c.inc
index XXXXXXX..XXXXXXX 100644
--- a/tcg/mips/tcg-target.c.inc
+++ b/tcg/mips/tcg-target.c.inc
@@ -XXX,XX +XXX,XX @@ static int tcg_out_call_iarg_reg2(TCGContext *s, int i, TCGReg al, TCGReg ah)
     return i;
 }
 
-/* We expect to use a 16-bit negative offset from ENV.  */
-QEMU_BUILD_BUG_ON(TLB_MASK_TABLE_OFS(0) > 0);
-QEMU_BUILD_BUG_ON(TLB_MASK_TABLE_OFS(0) < -32768);
-
-/*
- * Perform the tlb comparison operation.
- * The complete host address is placed in BASE.
- * Clobbers TMP0, TMP1, TMP2, TMP3.
- */
-static void tcg_out_tlb_load(TCGContext *s, TCGReg base, TCGReg addrl,
-                             TCGReg addrh, MemOpIdx oi,
-                             tcg_insn_unit *label_ptr[2], bool is_load)
-{
-    MemOp opc = get_memop(oi);
-    unsigned a_bits = get_alignment_bits(opc);
-    unsigned s_bits = opc & MO_SIZE;
-    unsigned a_mask = (1 << a_bits) - 1;
-    unsigned s_mask = (1 << s_bits) - 1;
-    int mem_index = get_mmuidx(oi);
-    int fast_off = TLB_MASK_TABLE_OFS(mem_index);
-    int mask_off = fast_off + offsetof(CPUTLBDescFast, mask);
-    int table_off = fast_off + offsetof(CPUTLBDescFast, table);
-    int add_off = offsetof(CPUTLBEntry, addend);
-    int cmp_off = (is_load ? offsetof(CPUTLBEntry, addr_read)
-                   : offsetof(CPUTLBEntry, addr_write));
-    target_ulong tlb_mask;
-
-    /* Load tlb_mask[mmu_idx] and tlb_table[mmu_idx].  */
-    tcg_out_ld(s, TCG_TYPE_PTR, TCG_TMP0, TCG_AREG0, mask_off);
-    tcg_out_ld(s, TCG_TYPE_PTR, TCG_TMP1, TCG_AREG0, table_off);
-
-    /* Extract the TLB index from the address into TMP3.  */
-    tcg_out_opc_sa(s, ALIAS_TSRL, TCG_TMP3, addrl,
-                   TARGET_PAGE_BITS - CPU_TLB_ENTRY_BITS);
-    tcg_out_opc_reg(s, OPC_AND, TCG_TMP3, TCG_TMP3, TCG_TMP0);
-
-    /* Add the tlb_table pointer, creating the CPUTLBEntry address in TMP3.  */
-    tcg_out_opc_reg(s, ALIAS_PADD, TCG_TMP3, TCG_TMP3, TCG_TMP1);
-
-    /* Load the (low-half) tlb comparator.  */
-    if (TCG_TARGET_REG_BITS < TARGET_LONG_BITS) {
-        tcg_out_ldst(s, OPC_LW, TCG_TMP0, TCG_TMP3, cmp_off + LO_OFF);
-    } else {
-        tcg_out_ldst(s, (TARGET_LONG_BITS == 64 ? OPC_LD
-                         : TCG_TARGET_REG_BITS == 64 ? OPC_LWU : OPC_LW),
-                     TCG_TMP0, TCG_TMP3, cmp_off);
-    }
-
-    /* Zero extend a 32-bit guest address for a 64-bit host. */
-    if (TCG_TARGET_REG_BITS > TARGET_LONG_BITS) {
-        tcg_out_ext32u(s, base, addrl);
-        addrl = base;
-    }
-
-    /*
-     * Mask the page bits, keeping the alignment bits to compare against.
-     * For unaligned accesses, compare against the end of the access to
-     * verify that it does not cross a page boundary.
-     */
-    tlb_mask = (target_ulong)TARGET_PAGE_MASK | a_mask;
-    tcg_out_movi(s, TCG_TYPE_I32, TCG_TMP1, tlb_mask);
-    if (a_mask >= s_mask) {
-        tcg_out_opc_reg(s, OPC_AND, TCG_TMP1, TCG_TMP1, addrl);
-    } else {
-        tcg_out_opc_imm(s, ALIAS_PADDI, TCG_TMP2, addrl, s_mask - a_mask);
-        tcg_out_opc_reg(s, OPC_AND, TCG_TMP1, TCG_TMP1, TCG_TMP2);
-    }
-
-    if (TCG_TARGET_REG_BITS >= TARGET_LONG_BITS) {
-        /* Load the tlb addend for the fast path.  */
-        tcg_out_ld(s, TCG_TYPE_PTR, TCG_TMP2, TCG_TMP3, add_off);
-    }
-
-    label_ptr[0] = s->code_ptr;
-    tcg_out_opc_br(s, OPC_BNE, TCG_TMP1, TCG_TMP0);
-
-    /* Load and test the high half tlb comparator.  */
-    if (TCG_TARGET_REG_BITS < TARGET_LONG_BITS) {
-        /* delay slot */
-        tcg_out_ldst(s, OPC_LW, TCG_TMP0, TCG_TMP3, cmp_off + HI_OFF);
-
-        /* Load the tlb addend for the fast path.  */
-        tcg_out_ld(s, TCG_TYPE_PTR, TCG_TMP2, TCG_TMP3, add_off);
-
-        label_ptr[1] = s->code_ptr;
-        tcg_out_opc_br(s, OPC_BNE, addrh, TCG_TMP0);
-    }
-
-    /* delay slot */
-    tcg_out_opc_reg(s, ALIAS_PADD, base, TCG_TMP2, addrl);
-}
-
-static void add_qemu_ldst_label(TCGContext *s, int is_ld, MemOpIdx oi,
-                                TCGType ext,
-                                TCGReg datalo, TCGReg datahi,
-                                TCGReg addrlo, TCGReg addrhi,
-                                void *raddr, tcg_insn_unit *label_ptr[2])
-{
-    TCGLabelQemuLdst *label = new_ldst_label(s);
-
-    label->is_ld = is_ld;
-    label->oi = oi;
-    label->type = ext;
-    label->datalo_reg = datalo;
-    label->datahi_reg = datahi;
-    label->addrlo_reg = addrlo;
-    label->addrhi_reg = addrhi;
-    label->raddr = tcg_splitwx_to_rx(raddr);
-    label->label_ptr[0] = label_ptr[0];
-    if (TCG_TARGET_REG_BITS < TARGET_LONG_BITS) {
-        label->label_ptr[1] = label_ptr[1];
-    }
-}
-
 static bool tcg_out_qemu_ld_slow_path(TCGContext *s, TCGLabelQemuLdst *l)
 {
     const tcg_insn_unit *tgt_rx = tcg_splitwx_to_rx(s->code_ptr);
@@ -XXX,XX +XXX,XX @@ static bool tcg_out_qemu_st_slow_path(TCGContext *s, TCGLabelQemuLdst *l)
 }
 
 #else
-
-static void tcg_out_test_alignment(TCGContext *s, bool is_ld, TCGReg addrlo,
-                                   TCGReg addrhi, unsigned a_bits)
-{
-    unsigned a_mask = (1 << a_bits) - 1;
-    TCGLabelQemuLdst *l = new_ldst_label(s);
-
-    l->is_ld = is_ld;
-    l->addrlo_reg = addrlo;
-    l->addrhi_reg = addrhi;
-
-    /* We are expecting a_bits to max out at 7, much lower than ANDI. */
-    tcg_debug_assert(a_bits < 16);
-    tcg_out_opc_imm(s, OPC_ANDI, TCG_TMP0, addrlo, a_mask);
-
-    l->label_ptr[0] = s->code_ptr;
-    if (use_mips32r6_instructions) {
-        tcg_out_opc_br(s, OPC_BNEZALC_R6, TCG_REG_ZERO, TCG_TMP0);
-    } else {
-        tcg_out_opc_br(s, OPC_BNEL, TCG_TMP0, TCG_REG_ZERO);
-        tcg_out_nop(s);
-    }
-
-    l->raddr = tcg_splitwx_to_rx(s->code_ptr);
-}
-
 static bool tcg_out_fail_alignment(TCGContext *s, TCGLabelQemuLdst *l)
 {
     void *target;
@@ -XXX,XX +XXX,XX @@ static bool tcg_out_qemu_st_slow_path(TCGContext *s, TCGLabelQemuLdst *l)
 }
 #endif /* SOFTMMU */
 
+typedef struct {
+    TCGReg base;
+    MemOp align;
+} HostAddress;
+
+/*
+ * For softmmu, perform the TLB load and compare.
+ * For useronly, perform any required alignment tests.
+ * In both cases, return a TCGLabelQemuLdst structure if the slow path
+ * is required and fill in @h with the host address for the fast path.
+ */
+static TCGLabelQemuLdst *prepare_host_addr(TCGContext *s, HostAddress *h,
+                                           TCGReg addrlo, TCGReg addrhi,
+                                           MemOpIdx oi, bool is_ld)
+{
+    TCGLabelQemuLdst *ldst = NULL;
+    MemOp opc = get_memop(oi);
+    unsigned a_bits = get_alignment_bits(opc);
+    unsigned s_bits = opc & MO_SIZE;
+    unsigned a_mask = (1 << a_bits) - 1;
+    TCGReg base;
+
+#ifdef CONFIG_SOFTMMU
+    unsigned s_mask = (1 << s_bits) - 1;
+    int mem_index = get_mmuidx(oi);
+    int fast_off = TLB_MASK_TABLE_OFS(mem_index);
+    int mask_off = fast_off + offsetof(CPUTLBDescFast, mask);
+    int table_off = fast_off + offsetof(CPUTLBDescFast, table);
+    int add_off = offsetof(CPUTLBEntry, addend);
+    int cmp_off = is_ld ? offsetof(CPUTLBEntry, addr_read)
+                        : offsetof(CPUTLBEntry, addr_write);
+    target_ulong tlb_mask;
+
+    ldst = new_ldst_label(s);
+    ldst->is_ld = is_ld;
+    ldst->oi = oi;
+    ldst->addrlo_reg = addrlo;
+    ldst->addrhi_reg = addrhi;
+    base = TCG_REG_A0;
+
+    /* Load tlb_mask[mmu_idx] and tlb_table[mmu_idx].  */
+    QEMU_BUILD_BUG_ON(TLB_MASK_TABLE_OFS(0) > 0);
+    QEMU_BUILD_BUG_ON(TLB_MASK_TABLE_OFS(0) < -32768);
+    tcg_out_ld(s, TCG_TYPE_PTR, TCG_TMP0, TCG_AREG0, mask_off);
+    tcg_out_ld(s, TCG_TYPE_PTR, TCG_TMP1, TCG_AREG0, table_off);
+
+    /* Extract the TLB index from the address into TMP3.  */
+    tcg_out_opc_sa(s, ALIAS_TSRL, TCG_TMP3, addrlo,
+                   TARGET_PAGE_BITS - CPU_TLB_ENTRY_BITS);
+    tcg_out_opc_reg(s, OPC_AND, TCG_TMP3, TCG_TMP3, TCG_TMP0);
+
+    /* Add the tlb_table pointer, creating the CPUTLBEntry address in TMP3.  */
+    tcg_out_opc_reg(s, ALIAS_PADD, TCG_TMP3, TCG_TMP3, TCG_TMP1);
+
+    /* Load the (low-half) tlb comparator.  */
+    if (TCG_TARGET_REG_BITS < TARGET_LONG_BITS) {
+        tcg_out_ldst(s, OPC_LW, TCG_TMP0, TCG_TMP3, cmp_off + LO_OFF);
+    } else {
+        tcg_out_ldst(s, (TARGET_LONG_BITS == 64 ? OPC_LD
+                         : TCG_TARGET_REG_BITS == 64 ? OPC_LWU : OPC_LW),
+                     TCG_TMP0, TCG_TMP3, cmp_off);
+    }
+
+    /* Zero extend a 32-bit guest address for a 64-bit host. */
+    if (TCG_TARGET_REG_BITS > TARGET_LONG_BITS) {
+        tcg_out_ext32u(s, base, addrlo);
+        addrlo = base;
+    }
+
+    /*
+     * Mask the page bits, keeping the alignment bits to compare against.
+     * For unaligned accesses, compare against the end of the access to
+     * verify that it does not cross a page boundary.
+     */
+    tlb_mask = (target_ulong)TARGET_PAGE_MASK | a_mask;
+    tcg_out_movi(s, TCG_TYPE_I32, TCG_TMP1, tlb_mask);
+    if (a_mask >= s_mask) {
+        tcg_out_opc_reg(s, OPC_AND, TCG_TMP1, TCG_TMP1, addrlo);
+    } else {
+        tcg_out_opc_imm(s, ALIAS_PADDI, TCG_TMP2, addrlo, s_mask - a_mask);
+        tcg_out_opc_reg(s, OPC_AND, TCG_TMP1, TCG_TMP1, TCG_TMP2);
+    }
+
+    if (TCG_TARGET_REG_BITS >= TARGET_LONG_BITS) {
+        /* Load the tlb addend for the fast path.  */
+        tcg_out_ld(s, TCG_TYPE_PTR, TCG_TMP2, TCG_TMP3, add_off);
+    }
+
+    ldst->label_ptr[0] = s->code_ptr;
+    tcg_out_opc_br(s, OPC_BNE, TCG_TMP1, TCG_TMP0);
+
+    /* Load and test the high half tlb comparator.  */
+    if (TCG_TARGET_REG_BITS < TARGET_LONG_BITS) {
+        /* delay slot */
+        tcg_out_ldst(s, OPC_LW, TCG_TMP0, TCG_TMP3, cmp_off + HI_OFF);
+
+        /* Load the tlb addend for the fast path.  */
+        tcg_out_ld(s, TCG_TYPE_PTR, TCG_TMP2, TCG_TMP3, add_off);
+
+        ldst->label_ptr[1] = s->code_ptr;
+        tcg_out_opc_br(s, OPC_BNE, addrhi, TCG_TMP0);
+    }
+
+    /* delay slot */
+    tcg_out_opc_reg(s, ALIAS_PADD, base, TCG_TMP2, addrlo);
+#else
+    if (a_mask && (use_mips32r6_instructions || a_bits != s_bits)) {
+        ldst = new_ldst_label(s);
+
+        ldst->is_ld = is_ld;
+        ldst->oi = oi;
+        ldst->addrlo_reg = addrlo;
+        ldst->addrhi_reg = addrhi;
+
+        /* We are expecting a_bits to max out at 7, much lower than ANDI. */
+        tcg_debug_assert(a_bits < 16);
+        tcg_out_opc_imm(s, OPC_ANDI, TCG_TMP0, addrlo, a_mask);
+
+        ldst->label_ptr[0] = s->code_ptr;
+        if (use_mips32r6_instructions) {
+            tcg_out_opc_br(s, OPC_BNEZALC_R6, TCG_REG_ZERO, TCG_TMP0);
+        } else {
+            tcg_out_opc_br(s, OPC_BNEL, TCG_TMP0, TCG_REG_ZERO);
+            tcg_out_nop(s);
+        }
+    }
+
+    base = addrlo;
+    if (TCG_TARGET_REG_BITS > TARGET_LONG_BITS) {
+        tcg_out_ext32u(s, TCG_REG_A0, base);
+        base = TCG_REG_A0;
+    }
+    if (guest_base) {
+        if (guest_base == (int16_t)guest_base) {
+            tcg_out_opc_imm(s, ALIAS_PADDI, TCG_REG_A0, base, guest_base);
+        } else {
+            tcg_out_opc_reg(s, ALIAS_PADD, TCG_REG_A0, base,
+                            TCG_GUEST_BASE_REG);
+        }
+        base = TCG_REG_A0;
+    }
+#endif
+
+    h->base = base;
+    h->align = a_bits;
+    return ldst;
+}
+
 static void tcg_out_qemu_ld_direct(TCGContext *s, TCGReg lo, TCGReg hi,
                                    TCGReg base, MemOp opc, TCGType type)
 {
@@ -XXX,XX +XXX,XX @@ static void tcg_out_qemu_ld(TCGContext *s, TCGReg datalo, TCGReg datahi,
                             MemOpIdx oi, TCGType data_type)
 {
     MemOp opc = get_memop(oi);
-    unsigned a_bits = get_alignment_bits(opc);
-    unsigned s_bits = opc & MO_SIZE;
-    TCGReg base;
+    TCGLabelQemuLdst *ldst;
+    HostAddress h;
 
-    /*
-     * R6 removes the left/right instructions but requires the
-     * system to support misaligned memory accesses.
-     */
-#if defined(CONFIG_SOFTMMU)
-    tcg_insn_unit *label_ptr[2];
+    ldst = prepare_host_addr(s, &h, addrlo, addrhi, oi, true);
 
-    base = TCG_REG_A0;
-    tcg_out_tlb_load(s, base, addrlo, addrhi, oi, label_ptr, 1);
-    if (use_mips32r6_instructions || a_bits >= s_bits) {
-        tcg_out_qemu_ld_direct(s, datalo, datahi, base, opc, data_type);
+    if (use_mips32r6_instructions || h.align >= (opc & MO_SIZE)) {
+        tcg_out_qemu_ld_direct(s, datalo, datahi, h.base, opc, data_type);
     } else {
-        tcg_out_qemu_ld_unalign(s, datalo, datahi, base, opc, data_type);
+        tcg_out_qemu_ld_unalign(s, datalo, datahi, h.base, opc, data_type);
     }
-    add_qemu_ldst_label(s, true, oi, data_type, datalo, datahi,
-                        addrlo, addrhi, s->code_ptr, label_ptr);
-#else
-    base = addrlo;
-    if (TCG_TARGET_REG_BITS > TARGET_LONG_BITS) {
-        tcg_out_ext32u(s, TCG_REG_A0, base);
-        base = TCG_REG_A0;
+
+    if (ldst) {
+        ldst->type = data_type;
+        ldst->datalo_reg = datalo;
+        ldst->datahi_reg = datahi;
+        ldst->raddr = tcg_splitwx_to_rx(s->code_ptr);
     }
-    if (guest_base) {
-        if (guest_base == (int16_t)guest_base) {
-            tcg_out_opc_imm(s, ALIAS_PADDI, TCG_REG_A0, base, guest_base);
-        } else {
-            tcg_out_opc_reg(s, ALIAS_PADD, TCG_REG_A0, base,
-                            TCG_GUEST_BASE_REG);
-        }
-        base = TCG_REG_A0;
-    }
-    if (use_mips32r6_instructions) {
-        if (a_bits) {
-            tcg_out_test_alignment(s, true, addrlo, addrhi, a_bits);
-        }
-        tcg_out_qemu_ld_direct(s, datalo, datahi, base, opc, data_type);
-    } else {
-        if (a_bits && a_bits != s_bits) {
-            tcg_out_test_alignment(s, true, addrlo, addrhi, a_bits);
-        }
-        if (a_bits >= s_bits) {
-            tcg_out_qemu_ld_direct(s, datalo, datahi, base, opc, data_type);
-        } else {
-            tcg_out_qemu_ld_unalign(s, datalo, datahi, base, opc, data_type);
-        }
-    }
-#endif
 }
 
 static void tcg_out_qemu_st_direct(TCGContext *s, TCGReg lo, TCGReg hi,
@@ -XXX,XX +XXX,XX @@ static void tcg_out_qemu_st(TCGContext *s, TCGReg datalo, TCGReg datahi,
                             MemOpIdx oi, TCGType data_type)
 {
     MemOp opc = get_memop(oi);
-    unsigned a_bits = get_alignment_bits(opc);
-    unsigned s_bits = opc & MO_SIZE;
-    TCGReg base;
+    TCGLabelQemuLdst *ldst;
+    HostAddress h;
 
-    /*
-     * R6 removes the left/right instructions but requires the
-     * system to support misaligned memory accesses.
-     */
-#if defined(CONFIG_SOFTMMU)
-    tcg_insn_unit *label_ptr[2];
+    ldst = prepare_host_addr(s, &h, addrlo, addrhi, oi, false);
 
-    base = TCG_REG_A0;
-    tcg_out_tlb_load(s, base, addrlo, addrhi, oi, label_ptr, 0);
-    if (use_mips32r6_instructions || a_bits >= s_bits) {
-        tcg_out_qemu_st_direct(s, datalo, datahi, base, opc);
+    if (use_mips32r6_instructions || h.align >= (opc & MO_SIZE)) {
+        tcg_out_qemu_st_direct(s, datalo, datahi, h.base, opc);
     } else {
-        tcg_out_qemu_st_unalign(s, datalo, datahi, base, opc);
+        tcg_out_qemu_st_unalign(s, datalo, datahi, h.base, opc);
     }
-    add_qemu_ldst_label(s, false, oi, data_type, datalo, datahi,
-                        addrlo, addrhi, s->code_ptr, label_ptr);
-#else
-    base = addrlo;
-    if (TCG_TARGET_REG_BITS > TARGET_LONG_BITS) {
-        tcg_out_ext32u(s, TCG_REG_A0, base);
-        base = TCG_REG_A0;
+
+    if (ldst) {
+        ldst->type = data_type;
+        ldst->datalo_reg = datalo;
+        ldst->datahi_reg = datahi;
+        ldst->raddr = tcg_splitwx_to_rx(s->code_ptr);
     }
-    if (guest_base) {
-        if (guest_base == (int16_t)guest_base) {
-            tcg_out_opc_imm(s, ALIAS_PADDI, TCG_REG_A0, base, guest_base);
-        } else {
-            tcg_out_opc_reg(s, ALIAS_PADD, TCG_REG_A0, base,
-                            TCG_GUEST_BASE_REG);
-        }
-        base = TCG_REG_A0;
-    }
-    if (use_mips32r6_instructions) {
-        if (a_bits) {
-            tcg_out_test_alignment(s, true, addrlo, addrhi, a_bits);
-        }
-        tcg_out_qemu_st_direct(s, datalo, datahi, base, opc);
-    } else {
-        if (a_bits && a_bits != s_bits) {
-            tcg_out_test_alignment(s, true, addrlo, addrhi, a_bits);
-        }
-        if (a_bits >= s_bits) {
-            tcg_out_qemu_st_direct(s, datalo, datahi, base, opc);
-        } else {
-            tcg_out_qemu_st_unalign(s, datalo, datahi, base, opc);
-        }
-    }
-#endif
 }
 
 static void tcg_out_mb(TCGContext *s, TCGArg a0)
-- 
2.34.1

Merge tcg_out_tlb_load, add_qemu_ldst_label, tcg_out_test_alignment,
and some code that lived in both tcg_out_qemu_ld and tcg_out_qemu_st
into one function that returns HostAddress and TCGLabelQemuLdst structures.

Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/ppc/tcg-target.c.inc | 381 ++++++++++++++++++---------------------
 1 file changed, 172 insertions(+), 209 deletions(-)

diff --git a/tcg/ppc/tcg-target.c.inc b/tcg/ppc/tcg-target.c.inc
index XXXXXXX..XXXXXXX 100644
--- a/tcg/ppc/tcg-target.c.inc
+++ b/tcg/ppc/tcg-target.c.inc
@@ -XXX,XX +XXX,XX @@ static void * const qemu_st_helpers[(MO_SIZE | MO_BSWAP) + 1] = {
     [MO_BEUQ] = helper_be_stq_mmu,
 };
 
-/* We expect to use a 16-bit negative offset from ENV.  */
-QEMU_BUILD_BUG_ON(TLB_MASK_TABLE_OFS(0) > 0);
-QEMU_BUILD_BUG_ON(TLB_MASK_TABLE_OFS(0) < -32768);
-
-/* Perform the TLB load and compare.  Places the result of the comparison
-   in CR7, loads the addend of the TLB into R3, and returns the register
-   containing the guest address (zero-extended into R4).  Clobbers R0 and R2. */
-
-static TCGReg tcg_out_tlb_read(TCGContext *s, MemOp opc,
-                               TCGReg addrlo, TCGReg addrhi,
-                               int mem_index, bool is_read)
-{
-    int cmp_off
-        = (is_read
-           ? offsetof(CPUTLBEntry, addr_read)
-           : offsetof(CPUTLBEntry, addr_write));
-    int fast_off = TLB_MASK_TABLE_OFS(mem_index);
-    int mask_off = fast_off + offsetof(CPUTLBDescFast, mask);
-    int table_off = fast_off + offsetof(CPUTLBDescFast, table);
-    unsigned s_bits = opc & MO_SIZE;
-    unsigned a_bits = get_alignment_bits(opc);
-
-    /* Load tlb_mask[mmu_idx] and tlb_table[mmu_idx].  */
-    tcg_out_ld(s, TCG_TYPE_PTR, TCG_REG_R3, TCG_AREG0, mask_off);
-    tcg_out_ld(s, TCG_TYPE_PTR, TCG_REG_R4, TCG_AREG0, table_off);
-
-    /* Extract the page index, shifted into place for tlb index.  */
-    if (TCG_TARGET_REG_BITS == 32) {
-        tcg_out_shri32(s, TCG_REG_TMP1, addrlo,
-                       TARGET_PAGE_BITS - CPU_TLB_ENTRY_BITS);
-    } else {
-        tcg_out_shri64(s, TCG_REG_TMP1, addrlo,
-                       TARGET_PAGE_BITS - CPU_TLB_ENTRY_BITS);
-    }
-    tcg_out32(s, AND | SAB(TCG_REG_R3, TCG_REG_R3, TCG_REG_TMP1));
-
-    /* Load the TLB comparator.  */
-    if (cmp_off == 0 && TCG_TARGET_REG_BITS >= TARGET_LONG_BITS) {
-        uint32_t lxu = (TCG_TARGET_REG_BITS == 32 || TARGET_LONG_BITS == 32
-                        ? LWZUX : LDUX);
-        tcg_out32(s, lxu | TAB(TCG_REG_TMP1, TCG_REG_R3, TCG_REG_R4));
-    } else {
-        tcg_out32(s, ADD | TAB(TCG_REG_R3, TCG_REG_R3, TCG_REG_R4));
-        if (TCG_TARGET_REG_BITS < TARGET_LONG_BITS) {
-            tcg_out_ld(s, TCG_TYPE_I32, TCG_REG_TMP1, TCG_REG_R3, cmp_off + 4);
-            tcg_out_ld(s, TCG_TYPE_I32, TCG_REG_R4, TCG_REG_R3, cmp_off);
-        } else {
-            tcg_out_ld(s, TCG_TYPE_TL, TCG_REG_TMP1, TCG_REG_R3, cmp_off);
-        }
-    }
-
-    /* Load the TLB addend for use on the fast path.  Do this asap
-       to minimize any load use delay.  */
-    tcg_out_ld(s, TCG_TYPE_PTR, TCG_REG_R3, TCG_REG_R3,
-               offsetof(CPUTLBEntry, addend));
-
-    /* Clear the non-page, non-alignment bits from the address */
-    if (TCG_TARGET_REG_BITS == 32) {
-        /* We don't support unaligned accesses on 32-bits.
-         * Preserve the bottom bits and thus trigger a comparison
-         * failure on unaligned accesses.
-         */
-        if (a_bits < s_bits) {
-            a_bits = s_bits;
-        }
-        tcg_out_rlw(s, RLWINM, TCG_REG_R0, addrlo, 0,
-                    (32 - a_bits) & 31, 31 - TARGET_PAGE_BITS);
-    } else {
-        TCGReg t = addrlo;
-
-        /* If the access is unaligned, we need to make sure we fail if we
-         * cross a page boundary.  The trick is to add the access size-1
-         * to the address before masking the low bits.  That will make the
-         * address overflow to the next page if we cross a page boundary,
-         * which will then force a mismatch of the TLB compare.
-         */
-        if (a_bits < s_bits) {
-            unsigned a_mask = (1 << a_bits) - 1;
-            unsigned s_mask = (1 << s_bits) - 1;
-            tcg_out32(s, ADDI | TAI(TCG_REG_R0, t, s_mask - a_mask));
-            t = TCG_REG_R0;
-        }
-
-        /* Mask the address for the requested alignment.  */
-        if (TARGET_LONG_BITS == 32) {
-            tcg_out_rlw(s, RLWINM, TCG_REG_R0, t, 0,
-                        (32 - a_bits) & 31, 31 - TARGET_PAGE_BITS);
-            /* Zero-extend the address for use in the final address.  */
-            tcg_out_ext32u(s, TCG_REG_R4, addrlo);
-            addrlo = TCG_REG_R4;
-        } else if (a_bits == 0) {
-            tcg_out_rld(s, RLDICR, TCG_REG_R0, t, 0, 63 - TARGET_PAGE_BITS);
-        } else {
-            tcg_out_rld(s, RLDICL, TCG_REG_R0, t,
-                        64 - TARGET_PAGE_BITS, TARGET_PAGE_BITS - a_bits);
-            tcg_out_rld(s, RLDICL, TCG_REG_R0, TCG_REG_R0, TARGET_PAGE_BITS, 0);
-        }
-    }
-
-    if (TCG_TARGET_REG_BITS < TARGET_LONG_BITS) {
-        tcg_out_cmp(s, TCG_COND_EQ, TCG_REG_R0, TCG_REG_TMP1,
-                    0, 7, TCG_TYPE_I32);
-        tcg_out_cmp(s, TCG_COND_EQ, addrhi, TCG_REG_R4, 0, 6, TCG_TYPE_I32);
-        tcg_out32(s, CRAND | BT(7, CR_EQ) | BA(6, CR_EQ) | BB(7, CR_EQ));
-    } else {
-        tcg_out_cmp(s, TCG_COND_EQ, TCG_REG_R0, TCG_REG_TMP1,
-                    0, 7, TCG_TYPE_TL);
-    }
-
-    return addrlo;
-}
-
-/* Record the context of a call to the out of line helper code for the slow
-   path for a load or store, so that we can later generate the correct
-   helper code.  */
-static void add_qemu_ldst_label(TCGContext *s, bool is_ld,
-                                TCGType type, MemOpIdx oi,
-                                TCGReg datalo_reg, TCGReg datahi_reg,
-                                TCGReg addrlo_reg, TCGReg addrhi_reg,
-                                tcg_insn_unit *raddr, tcg_insn_unit *lptr)
-{
-    TCGLabelQemuLdst *label = new_ldst_label(s);
-
-    label->is_ld = is_ld;
-    label->type = type;
-    label->oi = oi;
-    label->datalo_reg = datalo_reg;
-    label->datahi_reg = datahi_reg;
-    label->addrlo_reg = addrlo_reg;
-    label->addrhi_reg = addrhi_reg;
-    label->raddr = tcg_splitwx_to_rx(raddr);
-    label->label_ptr[0] = lptr;
-}
-
 static bool tcg_out_qemu_ld_slow_path(TCGContext *s, TCGLabelQemuLdst *lb)
 {
     MemOpIdx oi = lb->oi;
@@ -XXX,XX +XXX,XX @@ static bool tcg_out_qemu_st_slow_path(TCGContext *s, TCGLabelQemuLdst *lb)
     return true;
 }
 #else
-
-static void tcg_out_test_alignment(TCGContext *s, bool is_ld, TCGReg addrlo,
-                                   TCGReg addrhi, unsigned a_bits)
-{
-    unsigned a_mask = (1 << a_bits) - 1;
-    TCGLabelQemuLdst *label = new_ldst_label(s);
-
-    label->is_ld = is_ld;
-    label->addrlo_reg = addrlo;
-    label->addrhi_reg = addrhi;
-
-    /* We are expecting a_bits to max out at 7, much lower than ANDI. */
-    tcg_debug_assert(a_bits < 16);
-    tcg_out32(s, ANDI | SAI(addrlo, TCG_REG_R0, a_mask));
-
-    label->label_ptr[0] = s->code_ptr;
-    tcg_out32(s, BC | BI(0, CR_EQ) | BO_COND_FALSE | LK);
-
-    label->raddr = tcg_splitwx_to_rx(s->code_ptr);
-}
-
 static bool tcg_out_fail_alignment(TCGContext *s, TCGLabelQemuLdst *l)
 {
     if (!reloc_pc14(l->label_ptr[0], tcg_splitwx_to_rx(s->code_ptr))) {
@@ -XXX,XX +XXX,XX @@ typedef struct {
     TCGReg index;
 } HostAddress;
 
+/*
+ * For softmmu, perform the TLB load and compare.
+ * For useronly, perform any required alignment tests.
+ * In both cases, return a TCGLabelQemuLdst structure if the slow path
+ * is required and fill in @h with the host address for the fast path.
+ */
+static TCGLabelQemuLdst *prepare_host_addr(TCGContext *s, HostAddress *h,
+                                           TCGReg addrlo, TCGReg addrhi,
+                                           MemOpIdx oi, bool is_ld)
+{
+    TCGLabelQemuLdst *ldst = NULL;
+    MemOp opc = get_memop(oi);
+    unsigned a_bits = get_alignment_bits(opc);
+
+#ifdef CONFIG_SOFTMMU
+    int mem_index = get_mmuidx(oi);
+    int cmp_off = is_ld ? offsetof(CPUTLBEntry, addr_read)
+                        : offsetof(CPUTLBEntry, addr_write);
+    int fast_off = TLB_MASK_TABLE_OFS(mem_index);
+    int mask_off = fast_off + offsetof(CPUTLBDescFast, mask);
+    int table_off = fast_off + offsetof(CPUTLBDescFast, table);
+    unsigned s_bits = opc & MO_SIZE;
+
+    ldst = new_ldst_label(s);
+    ldst->is_ld = is_ld;
+    ldst->oi = oi;
+    ldst->addrlo_reg = addrlo;
+    ldst->addrhi_reg = addrhi;
+
+    /* Load tlb_mask[mmu_idx] and tlb_table[mmu_idx].  */
+    QEMU_BUILD_BUG_ON(TLB_MASK_TABLE_OFS(0) > 0);
+    QEMU_BUILD_BUG_ON(TLB_MASK_TABLE_OFS(0) < -32768);
+    tcg_out_ld(s, TCG_TYPE_PTR, TCG_REG_R3, TCG_AREG0, mask_off);
+    tcg_out_ld(s, TCG_TYPE_PTR, TCG_REG_R4, TCG_AREG0, table_off);
+
+    /* Extract the page index, shifted into place for tlb index.  */
+    if (TCG_TARGET_REG_BITS == 32) {
+        tcg_out_shri32(s, TCG_REG_TMP1, addrlo,
+                       TARGET_PAGE_BITS - CPU_TLB_ENTRY_BITS);
+    } else {
+        tcg_out_shri64(s, TCG_REG_TMP1, addrlo,
+                       TARGET_PAGE_BITS - CPU_TLB_ENTRY_BITS);
+    }
+    tcg_out32(s, AND | SAB(TCG_REG_R3, TCG_REG_R3, TCG_REG_TMP1));
+
+    /* Load the TLB comparator.  */
+    if (cmp_off == 0 && TCG_TARGET_REG_BITS >= TARGET_LONG_BITS) {
+        uint32_t lxu = (TCG_TARGET_REG_BITS == 32 || TARGET_LONG_BITS == 32
+                        ? LWZUX : LDUX);
+        tcg_out32(s, lxu | TAB(TCG_REG_TMP1, TCG_REG_R3, TCG_REG_R4));
+    } else {
+        tcg_out32(s, ADD | TAB(TCG_REG_R3, TCG_REG_R3, TCG_REG_R4));
+        if (TCG_TARGET_REG_BITS < TARGET_LONG_BITS) {
+            tcg_out_ld(s, TCG_TYPE_I32, TCG_REG_TMP1, TCG_REG_R3, cmp_off + 4);
+            tcg_out_ld(s, TCG_TYPE_I32, TCG_REG_R4, TCG_REG_R3, cmp_off);
+        } else {
+            tcg_out_ld(s, TCG_TYPE_TL, TCG_REG_TMP1, TCG_REG_R3, cmp_off);
+        }
+    }
+
+    /*
+     * Load the TLB addend for use on the fast path.
+     * Do this asap to minimize any load use delay.
+     */
+    h->base = TCG_REG_R3;
+    tcg_out_ld(s, TCG_TYPE_PTR, h->base, TCG_REG_R3,
+               offsetof(CPUTLBEntry, addend));
+
+    /* Clear the non-page, non-alignment bits from the address */
+    if (TCG_TARGET_REG_BITS == 32) {
+        /*
+         * We don't support unaligned accesses on 32-bits.
+         * Preserve the bottom bits and thus trigger a comparison
+         * failure on unaligned accesses.
+         */
+        if (a_bits < s_bits) {
+            a_bits = s_bits;
+        }
+        tcg_out_rlw(s, RLWINM, TCG_REG_R0, addrlo, 0,
+                    (32 - a_bits) & 31, 31 - TARGET_PAGE_BITS);
+    } else {
+        TCGReg t = addrlo;
+
+        /*
+         * If the access is unaligned, we need to make sure we fail if we
+         * cross a page boundary.  The trick is to add the access size-1
+         * to the address before masking the low bits.  That will make the
+         * address overflow to the next page if we cross a page boundary,
+         * which will then force a mismatch of the TLB compare.
+         */
+        if (a_bits < s_bits) {
+            unsigned a_mask = (1 << a_bits) - 1;
+            unsigned s_mask = (1 << s_bits) - 1;
+            tcg_out32(s, ADDI | TAI(TCG_REG_R0, t, s_mask - a_mask));
+            t = TCG_REG_R0;
+        }
+
+        /* Mask the address for the requested alignment.  */
+        if (TARGET_LONG_BITS == 32) {
+            tcg_out_rlw(s, RLWINM, TCG_REG_R0, t, 0,
+                        (32 - a_bits) & 31, 31 - TARGET_PAGE_BITS);
+            /* Zero-extend the address for use in the final address.  */
+            tcg_out_ext32u(s, TCG_REG_R4, addrlo);
+            addrlo = TCG_REG_R4;
+        } else if (a_bits == 0) {
+            tcg_out_rld(s, RLDICR, TCG_REG_R0, t, 0, 63 - TARGET_PAGE_BITS);
+        } else {
+            tcg_out_rld(s, RLDICL, TCG_REG_R0, t,
+                        64 - TARGET_PAGE_BITS, TARGET_PAGE_BITS - a_bits);
+            tcg_out_rld(s, RLDICL, TCG_REG_R0, TCG_REG_R0, TARGET_PAGE_BITS, 0);
+        }
+    }
+    h->index = addrlo;
+
+    if (TCG_TARGET_REG_BITS < TARGET_LONG_BITS) {
+        tcg_out_cmp(s, TCG_COND_EQ, TCG_REG_R0, TCG_REG_TMP1,
+                    0, 7, TCG_TYPE_I32);
+        tcg_out_cmp(s, TCG_COND_EQ, addrhi, TCG_REG_R4, 0, 6, TCG_TYPE_I32);
+        tcg_out32(s, CRAND | BT(7, CR_EQ) | BA(6, CR_EQ) | BB(7, CR_EQ));
+    } else {
+        tcg_out_cmp(s, TCG_COND_EQ, TCG_REG_R0, TCG_REG_TMP1,
+                    0, 7, TCG_TYPE_TL);
+    }
+
+    /* Load a pointer into the current opcode w/conditional branch-link. */
+    ldst->label_ptr[0] = s->code_ptr;
+    tcg_out32(s, BC | BI(7, CR_EQ) | BO_COND_FALSE | LK);
+#else
+    if (a_bits) {
+        ldst = new_ldst_label(s);
+        ldst->is_ld = is_ld;
+        ldst->oi = oi;
+        ldst->addrlo_reg = addrlo;
+        ldst->addrhi_reg = addrhi;
+
+        /* We are expecting a_bits to max out at 7, much lower than ANDI. */
+        tcg_debug_assert(a_bits < 16);
+        tcg_out32(s, ANDI | SAI(addrlo, TCG_REG_R0, (1 << a_bits) - 1));
+
+        ldst->label_ptr[0] = s->code_ptr;
+        tcg_out32(s, BC | BI(0, CR_EQ) | BO_COND_FALSE | LK);
+    }
+
+    h->base = guest_base ? TCG_GUEST_BASE_REG : 0;
+    h->index = addrlo;
+    if (TCG_TARGET_REG_BITS > TARGET_LONG_BITS) {
+        tcg_out_ext32u(s, TCG_REG_TMP1, addrlo);
+        h->index = TCG_REG_TMP1;
+    }
+#endif
+
+    return ldst;
+}
+
 static void tcg_out_qemu_ld(TCGContext *s, TCGReg datalo, TCGReg datahi,
                             TCGReg addrlo, TCGReg addrhi,
                             MemOpIdx oi, TCGType data_type)
 {
     MemOp opc = get_memop(oi);
-    MemOp s_bits = opc & MO_SIZE;
+    TCGLabelQemuLdst *ldst;
     HostAddress h;
 
-#ifdef CONFIG_SOFTMMU
-    tcg_insn_unit *label_ptr;
+    ldst = prepare_host_addr(s, &h, addrlo, addrhi, oi, true);
 
-    h.index = tcg_out_tlb_read(s, opc, addrlo, addrhi, get_mmuidx(oi), true);
-    h.base = TCG_REG_R3;
-
-    /* Load a pointer into the current opcode w/conditional branch-link. */
-    label_ptr = s->code_ptr;
-    tcg_out32(s, BC | BI(7, CR_EQ) | BO_COND_FALSE | LK);
-#else  /* !CONFIG_SOFTMMU */
-    unsigned a_bits = get_alignment_bits(opc);
-    if (a_bits) {
-        tcg_out_test_alignment(s, true, addrlo, addrhi, a_bits);
-    }
-    h.base = guest_base ? TCG_GUEST_BASE_REG : 0;
-    h.index = addrlo;
-    if (TCG_TARGET_REG_BITS > TARGET_LONG_BITS) {
-        tcg_out_ext32u(s, TCG_REG_TMP1, addrlo);
-        h.index = TCG_REG_TMP1;
-    }
-#endif
-
-    if (TCG_TARGET_REG_BITS == 32 && s_bits == MO_64) {
+    if (TCG_TARGET_REG_BITS == 32 && (opc & MO_SIZE) == MO_64) {
         if (opc & MO_BSWAP) {
             tcg_out32(s, ADDI | TAI(TCG_REG_R0, h.index, 4));
             tcg_out32(s, LWBRX | TAB(datalo, h.base, h.index));
@@ -XXX,XX +XXX,XX @@ static void tcg_out_qemu_ld(TCGContext *s, TCGReg datalo, TCGReg datahi,
         }
     }
 
-#ifdef CONFIG_SOFTMMU
-    add_qemu_ldst_label(s, true, data_type, oi, datalo, datahi,
-                        addrlo, addrhi, s->code_ptr, label_ptr);
-#endif
+    if (ldst) {
+        ldst->type = data_type;
+        ldst->datalo_reg = datalo;
+        ldst->datahi_reg = datahi;
+        ldst->raddr = tcg_splitwx_to_rx(s->code_ptr);
+    }
 }
 
 static void tcg_out_qemu_st(TCGContext *s, TCGReg datalo, TCGReg datahi,
@@ -XXX,XX +XXX,XX @@ static void tcg_out_qemu_st(TCGContext *s, TCGReg datalo, TCGReg datahi,
                             MemOpIdx oi, TCGType data_type)
 {
     MemOp opc = get_memop(oi);
-    MemOp s_bits = opc & MO_SIZE;
+    TCGLabelQemuLdst *ldst;
     HostAddress h;
 
-#ifdef CONFIG_SOFTMMU
-    tcg_insn_unit *label_ptr;
+    ldst = prepare_host_addr(s, &h, addrlo, addrhi, oi, false);
 
-    h.index = tcg_out_tlb_read(s, opc, addrlo, addrhi, get_mmuidx(oi), false);
-    h.base = TCG_REG_R3;
-
-    /* Load a pointer into the current opcode w/conditional branch-link. */
-    label_ptr = s->code_ptr;
-    tcg_out32(s, BC | BI(7, CR_EQ) | BO_COND_FALSE | LK);
-#else  /* !CONFIG_SOFTMMU */
-    unsigned a_bits = get_alignment_bits(opc);
-    if (a_bits) {
-        tcg_out_test_alignment(s, false, addrlo, addrhi, a_bits);
-    }
-    h.base = guest_base ? TCG_GUEST_BASE_REG : 0;
-    h.index = addrlo;
-    if (TCG_TARGET_REG_BITS > TARGET_LONG_BITS) {
-        tcg_out_ext32u(s, TCG_REG_TMP1, addrlo);
-        h.index = TCG_REG_TMP1;
-    }
-#endif
-
-    if (TCG_TARGET_REG_BITS == 32 && s_bits == MO_64) {
+    if (TCG_TARGET_REG_BITS == 32 && (opc & MO_SIZE) == MO_64) {
         if (opc & MO_BSWAP) {
             tcg_out32(s, ADDI | TAI(TCG_REG_R0, h.index, 4));
             tcg_out32(s, STWBRX | SAB(datalo, h.base, h.index));
@@ -XXX,XX +XXX,XX @@ static void tcg_out_qemu_st(TCGContext *s, TCGReg datalo, TCGReg datahi,
         }
     }
 
-#ifdef CONFIG_SOFTMMU
-    add_qemu_ldst_label(s, false, data_type, oi, datalo, datahi,
-                        addrlo, addrhi, s->code_ptr, label_ptr);
-#endif
+    if (ldst) {
+        ldst->type = data_type;
+        ldst->datalo_reg = datalo;
+        ldst->datahi_reg = datahi;
+        ldst->raddr = tcg_splitwx_to_rx(s->code_ptr);
+    }
 }
 
 static void tcg_out_nop_fill(tcg_insn_unit *p, int count)
-- 
2.34.1

Merge tcg_out_tlb_load, add_qemu_ldst_label, tcg_out_test_alignment,
and some code that lived in both tcg_out_qemu_ld and tcg_out_qemu_st
into one function that returns TCGReg and TCGLabelQemuLdst.

Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/riscv/tcg-target.c.inc | 253 +++++++++++++++++--------------------
 1 file changed, 114 insertions(+), 139 deletions(-)

diff --git a/tcg/riscv/tcg-target.c.inc b/tcg/riscv/tcg-target.c.inc
index XXXXXXX..XXXXXXX 100644
--- a/tcg/riscv/tcg-target.c.inc
+++ b/tcg/riscv/tcg-target.c.inc
@@ -XXX,XX +XXX,XX @@ static void * const qemu_st_helpers[MO_SIZE + 1] = {
 #endif
 };
 
-/* We expect to use a 12-bit negative offset from ENV.  */
-QEMU_BUILD_BUG_ON(TLB_MASK_TABLE_OFS(0) > 0);
-QEMU_BUILD_BUG_ON(TLB_MASK_TABLE_OFS(0) < -(1 << 11));
-
 static void tcg_out_goto(TCGContext *s, const tcg_insn_unit *target)
 {
     tcg_out_opc_jump(s, OPC_JAL, TCG_REG_ZERO, 0);
@@ -XXX,XX +XXX,XX @@ static void tcg_out_goto(TCGContext *s, const tcg_insn_unit *target)
     tcg_debug_assert(ok);
 }
 
-static TCGReg tcg_out_tlb_load(TCGContext *s, TCGReg addr, MemOpIdx oi,
-                               tcg_insn_unit **label_ptr, bool is_load)
-{
-    MemOp opc = get_memop(oi);
-    unsigned s_bits = opc & MO_SIZE;
-    unsigned a_bits = get_alignment_bits(opc);
-    tcg_target_long compare_mask;
-    int mem_index = get_mmuidx(oi);
-    int fast_ofs = TLB_MASK_TABLE_OFS(mem_index);
-    int mask_ofs = fast_ofs + offsetof(CPUTLBDescFast, mask);
-    int table_ofs = fast_ofs + offsetof(CPUTLBDescFast, table);
-    TCGReg mask_base = TCG_AREG0, table_base = TCG_AREG0;
-
-    tcg_out_ld(s, TCG_TYPE_PTR, TCG_REG_TMP0, mask_base, mask_ofs);
-    tcg_out_ld(s, TCG_TYPE_PTR, TCG_REG_TMP1, table_base, table_ofs);
-
-    tcg_out_opc_imm(s, OPC_SRLI, TCG_REG_TMP2, addr,
-                    TARGET_PAGE_BITS - CPU_TLB_ENTRY_BITS);
-    tcg_out_opc_reg(s, OPC_AND, TCG_REG_TMP2, TCG_REG_TMP2, TCG_REG_TMP0);
-    tcg_out_opc_reg(s, OPC_ADD, TCG_REG_TMP2, TCG_REG_TMP2, TCG_REG_TMP1);
-
-    /* Load the tlb comparator and the addend.  */
-    tcg_out_ld(s, TCG_TYPE_TL, TCG_REG_TMP0, TCG_REG_TMP2,
-               is_load ? offsetof(CPUTLBEntry, addr_read)
-               : offsetof(CPUTLBEntry, addr_write));
-    tcg_out_ld(s, TCG_TYPE_PTR, TCG_REG_TMP2, TCG_REG_TMP2,
-               offsetof(CPUTLBEntry, addend));
-
-    /* We don't support unaligned accesses. */
-    if (a_bits < s_bits) {
-        a_bits = s_bits;
-    }
-    /* Clear the non-page, non-alignment bits from the address.  */
-    compare_mask = (tcg_target_long)TARGET_PAGE_MASK | ((1 << a_bits) - 1);
-    if (compare_mask == sextreg(compare_mask, 0, 12)) {
-        tcg_out_opc_imm(s, OPC_ANDI, TCG_REG_TMP1, addr, compare_mask);
-    } else {
-        tcg_out_movi(s, TCG_TYPE_TL, TCG_REG_TMP1, compare_mask);
-        tcg_out_opc_reg(s, OPC_AND, TCG_REG_TMP1, TCG_REG_TMP1, addr);
-    }
-
-    /* Compare masked address with the TLB entry. */
-    label_ptr[0] = s->code_ptr;
-    tcg_out_opc_branch(s, OPC_BNE, TCG_REG_TMP0, TCG_REG_TMP1, 0);
-
-    /* TLB Hit - translate address using addend.  */
-    if (TARGET_LONG_BITS == 32) {
-        tcg_out_ext32u(s, TCG_REG_TMP0, addr);
-        addr = TCG_REG_TMP0;
-    }
-    tcg_out_opc_reg(s, OPC_ADD, TCG_REG_TMP0, TCG_REG_TMP2, addr);
-    return TCG_REG_TMP0;
-}
-
-static void add_qemu_ldst_label(TCGContext *s, int is_ld, MemOpIdx oi,
-                                TCGType data_type, TCGReg data_reg,
-                                TCGReg addr_reg, void *raddr,
-                                tcg_insn_unit **label_ptr)
-{
-    TCGLabelQemuLdst *label = new_ldst_label(s);
-
-    label->is_ld = is_ld;
-    label->oi = oi;
-    label->type = data_type;
-    label->datalo_reg = data_reg;
-    label->addrlo_reg = addr_reg;
-    label->raddr = tcg_splitwx_to_rx(raddr);
-    label->label_ptr[0] = label_ptr[0];
-}
-
 static bool tcg_out_qemu_ld_slow_path(TCGContext *s, TCGLabelQemuLdst *l)
 {
     MemOpIdx oi = l->oi;
@@ -XXX,XX +XXX,XX @@ static bool tcg_out_qemu_st_slow_path(TCGContext *s, TCGLabelQemuLdst *l)
     return true;
 }
 #else
-
-static void tcg_out_test_alignment(TCGContext *s, bool is_ld, TCGReg addr_reg,
-                                   unsigned a_bits)
-{
-    unsigned a_mask = (1 << a_bits) - 1;
-    TCGLabelQemuLdst *l = new_ldst_label(s);
-
-    l->is_ld = is_ld;
-    l->addrlo_reg = addr_reg;
-
-    /* We are expecting a_bits to max out at 7, so we can always use andi. */
-    tcg_debug_assert(a_bits < 12);
-    tcg_out_opc_imm(s, OPC_ANDI, TCG_REG_TMP1, addr_reg, a_mask);
-
-    l->label_ptr[0] = s->code_ptr;
-    tcg_out_opc_branch(s, OPC_BNE, TCG_REG_TMP1, TCG_REG_ZERO, 0);
-
-    l->raddr = tcg_splitwx_to_rx(s->code_ptr);
-}
-
 static bool tcg_out_fail_alignment(TCGContext *s, TCGLabelQemuLdst *l)
 {
     /* resolve label address */
@@ -XXX,XX +XXX,XX @@ static bool tcg_out_qemu_st_slow_path(TCGContext *s, TCGLabelQemuLdst *l)
 {
     return tcg_out_fail_alignment(s, l);
 }
-
 #endif /* CONFIG_SOFTMMU */
 
+/*
+ * For softmmu, perform the TLB load and compare.
+ * For useronly, perform any required alignment tests.
+ * In both cases, return a TCGLabelQemuLdst structure if the slow path
+ * is required and fill in @h with the host address for the fast path.
+ */
+static TCGLabelQemuLdst *prepare_host_addr(TCGContext *s, TCGReg *pbase,
+                                           TCGReg addr_reg, MemOpIdx oi,
+                                           bool is_ld)
+{
+    TCGLabelQemuLdst *ldst = NULL;
+    MemOp opc = get_memop(oi);
+    unsigned a_bits = get_alignment_bits(opc);
+    unsigned a_mask = (1u << a_bits) - 1;
+
+#ifdef CONFIG_SOFTMMU
+    unsigned s_bits = opc & MO_SIZE;
+    int mem_index = get_mmuidx(oi);
+    int fast_ofs = TLB_MASK_TABLE_OFS(mem_index);
+    int mask_ofs = fast_ofs + offsetof(CPUTLBDescFast, mask);
+    int table_ofs = fast_ofs + offsetof(CPUTLBDescFast, table);
+    TCGReg mask_base = TCG_AREG0, table_base = TCG_AREG0;
+    tcg_target_long compare_mask;
+
+    ldst = new_ldst_label(s);
+    ldst->is_ld = is_ld;
+    ldst->oi = oi;
+    ldst->addrlo_reg = addr_reg;
+
+    QEMU_BUILD_BUG_ON(TLB_MASK_TABLE_OFS(0) > 0);
+    QEMU_BUILD_BUG_ON(TLB_MASK_TABLE_OFS(0) < -(1 << 11));
+    tcg_out_ld(s, TCG_TYPE_PTR, TCG_REG_TMP0, mask_base, mask_ofs);
+    tcg_out_ld(s, TCG_TYPE_PTR, TCG_REG_TMP1, table_base, table_ofs);
+
+    tcg_out_opc_imm(s, OPC_SRLI, TCG_REG_TMP2, addr_reg,
+                    TARGET_PAGE_BITS - CPU_TLB_ENTRY_BITS);
+    tcg_out_opc_reg(s, OPC_AND, TCG_REG_TMP2, TCG_REG_TMP2, TCG_REG_TMP0);
+    tcg_out_opc_reg(s, OPC_ADD, TCG_REG_TMP2, TCG_REG_TMP2, TCG_REG_TMP1);
+
+    /* Load the tlb comparator and the addend.  */
+    tcg_out_ld(s, TCG_TYPE_TL, TCG_REG_TMP0, TCG_REG_TMP2,
+               is_ld ? offsetof(CPUTLBEntry, addr_read)
+                     : offsetof(CPUTLBEntry, addr_write));
+    tcg_out_ld(s, TCG_TYPE_PTR, TCG_REG_TMP2, TCG_REG_TMP2,
+               offsetof(CPUTLBEntry, addend));
+
+    /* We don't support unaligned accesses. */
+    if (a_bits < s_bits) {
+        a_bits = s_bits;
+    }
+    /* Clear the non-page, non-alignment bits from the address.  */
+    compare_mask = (tcg_target_long)TARGET_PAGE_MASK | a_mask;
+    if (compare_mask == sextreg(compare_mask, 0, 12)) {
+        tcg_out_opc_imm(s, OPC_ANDI, TCG_REG_TMP1, addr_reg, compare_mask);
+    } else {
+        tcg_out_movi(s, TCG_TYPE_TL, TCG_REG_TMP1, compare_mask);
+        tcg_out_opc_reg(s, OPC_AND, TCG_REG_TMP1, TCG_REG_TMP1, addr_reg);
+    }
+
+    /* Compare masked address with the TLB entry. */
+    ldst->label_ptr[0] = s->code_ptr;
+    tcg_out_opc_branch(s, OPC_BNE, TCG_REG_TMP0, TCG_REG_TMP1, 0);
+
+    /* TLB Hit - translate address using addend.  */
+    if (TARGET_LONG_BITS == 32) {
+        tcg_out_ext32u(s, TCG_REG_TMP0, addr_reg);
+        addr_reg = TCG_REG_TMP0;
+    }
+    tcg_out_opc_reg(s, OPC_ADD, TCG_REG_TMP0, TCG_REG_TMP2, addr_reg);
+    *pbase = TCG_REG_TMP0;
+#else
+    if (a_mask) {
+        ldst = new_ldst_label(s);
+        ldst->is_ld = is_ld;
+        ldst->oi = oi;
+        ldst->addrlo_reg = addr_reg;
+
+        /* We are expecting a_bits max 7, so we can always use andi. */
+        tcg_debug_assert(a_bits < 12);
+        tcg_out_opc_imm(s, OPC_ANDI, TCG_REG_TMP1, addr_reg, a_mask);
+
+        ldst->label_ptr[0] = s->code_ptr;
+        tcg_out_opc_branch(s, OPC_BNE, TCG_REG_TMP1, TCG_REG_ZERO, 0);
+    }
+
+    TCGReg base = addr_reg;
+    if (TARGET_LONG_BITS == 32) {
+        tcg_out_ext32u(s, TCG_REG_TMP0, base);
+        base = TCG_REG_TMP0;
+    }
+    if (guest_base != 0) {
+        tcg_out_opc_reg(s, OPC_ADD, TCG_REG_TMP0, TCG_GUEST_BASE_REG, base);
+        base = TCG_REG_TMP0;
+    }
+    *pbase = base;
+#endif
+
+    return ldst;
+}
+
 static void tcg_out_qemu_ld_direct(TCGContext *s, TCGReg val,
                                    TCGReg base, MemOp opc, TCGType type)
 {
@@ -XXX,XX +XXX,XX @@ static void tcg_out_qemu_ld_direct(TCGContext *s, TCGReg val,
 static void tcg_out_qemu_ld(TCGContext *s, TCGReg data_reg, TCGReg addr_reg,
                             MemOpIdx oi, TCGType data_type)
 {
-    MemOp opc = get_memop(oi);
+    TCGLabelQemuLdst *ldst;
     TCGReg base;
 
-#if defined(CONFIG_SOFTMMU)
-    tcg_insn_unit *label_ptr[1];
+    ldst = prepare_host_addr(s, &base, addr_reg, oi, true);
+    tcg_out_qemu_ld_direct(s, data_reg, base, get_memop(oi), data_type);
 
-    base = tcg_out_tlb_load(s, addr_reg, oi, label_ptr, 1);
-    tcg_out_qemu_ld_direct(s, data_reg, base, opc, data_type);
-    add_qemu_ldst_label(s, true, oi, data_type, data_reg, addr_reg,
-                        s->code_ptr, label_ptr);
-#else
-    unsigned a_bits = get_alignment_bits(opc);
-    if (a_bits) {
-        tcg_out_test_alignment(s, true, addr_reg, a_bits);
+    if (ldst) {
+        ldst->type = data_type;
+        ldst->datalo_reg = data_reg;
+        ldst->raddr = tcg_splitwx_to_rx(s->code_ptr);
     }
-    base = addr_reg;
-    if (TARGET_LONG_BITS == 32) {
-        tcg_out_ext32u(s, TCG_REG_TMP0, base);
-        base = TCG_REG_TMP0;
-    }
-    if (guest_base != 0) {
-        tcg_out_opc_reg(s, OPC_ADD, TCG_REG_TMP0, TCG_GUEST_BASE_REG, base);
-        base = TCG_REG_TMP0;
-    }
-    tcg_out_qemu_ld_direct(s, data_reg, base, opc, data_type);
-#endif
 }
 
 static void tcg_out_qemu_st_direct(TCGContext *s, TCGReg val,
@@ -XXX,XX +XXX,XX @@ static void tcg_out_qemu_st_direct(TCGContext *s, TCGReg val,
 static void tcg_out_qemu_st(TCGContext *s, TCGReg data_reg, TCGReg addr_reg,
                             MemOpIdx oi, TCGType data_type)
 {
-    MemOp opc = get_memop(oi);
+    TCGLabelQemuLdst *ldst;
     TCGReg base;
 
-#if defined(CONFIG_SOFTMMU)
-    tcg_insn_unit *label_ptr[1];
+    ldst = prepare_host_addr(s, &base, addr_reg, oi, false);
+    tcg_out_qemu_st_direct(s, data_reg, base, get_memop(oi));
 
-    base = tcg_out_tlb_load(s, addr_reg, oi, label_ptr, 0);
-    tcg_out_qemu_st_direct(s, data_reg, base, opc);
-    add_qemu_ldst_label(s, false, oi, data_type, data_reg, addr_reg,
-                        s->code_ptr, label_ptr);
-#else
-    unsigned a_bits = get_alignment_bits(opc);
-    if (a_bits) {
-        tcg_out_test_alignment(s, false, addr_reg, a_bits);
+    if (ldst) {
+        ldst->type = data_type;
+        ldst->datalo_reg = data_reg;
+        ldst->raddr = tcg_splitwx_to_rx(s->code_ptr);
     }
-    base = addr_reg;
-    if (TARGET_LONG_BITS == 32) {
-        tcg_out_ext32u(s, TCG_REG_TMP0, base);
-        base = TCG_REG_TMP0;
-    }
-    if (guest_base != 0) {
-        tcg_out_opc_reg(s, OPC_ADD, TCG_REG_TMP0, TCG_GUEST_BASE_REG, base);
-        base = TCG_REG_TMP0;
-    }
-    tcg_out_qemu_st_direct(s, data_reg, base, opc);
-#endif
 }
 
 static const tcg_insn_unit *tb_ret_addr;
-- 
2.34.1

Merge tcg_out_tlb_load, add_qemu_ldst_label, tcg_out_test_alignment,
tcg_prepare_user_ldst, and some code that lived in both tcg_out_qemu_ld
and tcg_out_qemu_st into one function that returns HostAddress and
TCGLabelQemuLdst structures.

Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/s390x/tcg-target.c.inc | 263 ++++++++++++++++---------------------
 1 file changed, 113 insertions(+), 150 deletions(-)

diff --git a/tcg/s390x/tcg-target.c.inc b/tcg/s390x/tcg-target.c.inc
index XXXXXXX..XXXXXXX 100644
--- a/tcg/s390x/tcg-target.c.inc
+++ b/tcg/s390x/tcg-target.c.inc
@@ -XXX,XX +XXX,XX @@ static void tcg_out_qemu_st_direct(TCGContext *s, MemOp opc, TCGReg data,
 }
 
 #if defined(CONFIG_SOFTMMU)
-/* We're expecting to use a 20-bit negative offset on the tlb memory ops.  */
-QEMU_BUILD_BUG_ON(TLB_MASK_TABLE_OFS(0) > 0);
-QEMU_BUILD_BUG_ON(TLB_MASK_TABLE_OFS(0) < -(1 << 19));
-
-/* Load and compare a TLB entry, leaving the flags set.  Loads the TLB
-   addend into R2.  Returns a register with the santitized guest address.  */
-static TCGReg tcg_out_tlb_read(TCGContext *s, TCGReg addr_reg, MemOp opc,
-                               int mem_index, bool is_ld)
-{
-    unsigned s_bits = opc & MO_SIZE;
-    unsigned a_bits = get_alignment_bits(opc);
-    unsigned s_mask = (1 << s_bits) - 1;
-    unsigned a_mask = (1 << a_bits) - 1;
-    int fast_off = TLB_MASK_TABLE_OFS(mem_index);
-    int mask_off = fast_off + offsetof(CPUTLBDescFast, mask);
-    int table_off = fast_off + offsetof(CPUTLBDescFast, table);
-    int ofs, a_off;
-    uint64_t tlb_mask;
-
-    tcg_out_sh64(s, RSY_SRLG, TCG_REG_R2, addr_reg, TCG_REG_NONE,
-                 TARGET_PAGE_BITS - CPU_TLB_ENTRY_BITS);
-    tcg_out_insn(s, RXY, NG, TCG_REG_R2, TCG_AREG0, TCG_REG_NONE, mask_off);
-    tcg_out_insn(s, RXY, AG, TCG_REG_R2, TCG_AREG0, TCG_REG_NONE, table_off);
-
-    /* For aligned accesses, we check the first byte and include the alignment
-       bits within the address.  For unaligned access, we check that we don't
-       cross pages using the address of the last byte of the access.  */
-    a_off = (a_bits >= s_bits ? 0 : s_mask - a_mask);
-    tlb_mask = (uint64_t)TARGET_PAGE_MASK | a_mask;
-    if (a_off == 0) {
-        tgen_andi_risbg(s, TCG_REG_R3, addr_reg, tlb_mask);
-    } else {
-        tcg_out_insn(s, RX, LA, TCG_REG_R3, addr_reg, TCG_REG_NONE, a_off);
-        tgen_andi(s, TCG_TYPE_TL, TCG_REG_R3, tlb_mask);
-    }
-
-    if (is_ld) {
-        ofs = offsetof(CPUTLBEntry, addr_read);
-    } else {
-        ofs = offsetof(CPUTLBEntry, addr_write);
-    }
-    if (TARGET_LONG_BITS == 32) {
-        tcg_out_insn(s, RX, C, TCG_REG_R3, TCG_REG_R2, TCG_REG_NONE, ofs);
-    } else {
-        tcg_out_insn(s, RXY, CG, TCG_REG_R3, TCG_REG_R2, TCG_REG_NONE, ofs);
-    }
-
-    tcg_out_insn(s, RXY, LG, TCG_REG_R2, TCG_REG_R2, TCG_REG_NONE,
-                 offsetof(CPUTLBEntry, addend));
-
-    if (TARGET_LONG_BITS == 32) {
-        tcg_out_ext32u(s, TCG_REG_R3, addr_reg);
-        return TCG_REG_R3;
-    }
-    return addr_reg;
-}
-
-static void add_qemu_ldst_label(TCGContext *s, bool is_ld, MemOpIdx oi,
-                                TCGType type, TCGReg data, TCGReg addr,
-                                tcg_insn_unit *raddr, tcg_insn_unit *label_ptr)
-{
-    TCGLabelQemuLdst *label = new_ldst_label(s);
-
-    label->is_ld = is_ld;
-    label->oi = oi;
-    label->type = type;
-    label->datalo_reg = data;
-    label->addrlo_reg = addr;
-    label->raddr = tcg_splitwx_to_rx(raddr);
-    label->label_ptr[0] = label_ptr;
-}
-
 static bool tcg_out_qemu_ld_slow_path(TCGContext *s, TCGLabelQemuLdst *lb)
 {
     TCGReg addr_reg = lb->addrlo_reg;
@@ -XXX,XX +XXX,XX @@ static bool tcg_out_qemu_st_slow_path(TCGContext *s, TCGLabelQemuLdst *lb)
     return true;
 }
 #else
-static void tcg_out_test_alignment(TCGContext *s, bool is_ld,
-                                   TCGReg addrlo, unsigned a_bits)
-{
-    unsigned a_mask = (1 << a_bits) - 1;
-    TCGLabelQemuLdst *l = new_ldst_label(s);
-
-    l->is_ld = is_ld;
-    l->addrlo_reg = addrlo;
-
-    /* We are expecting a_bits to max out at 7, much lower than TMLL. */
-    tcg_debug_assert(a_bits < 16);
-    tcg_out_insn(s, RI, TMLL, addrlo, a_mask);
-
-    tcg_out16(s, RI_BRC | (7 << 4)); /* CC in {1,2,3} */
-    l->label_ptr[0] = s->code_ptr;
-    s->code_ptr += 1;
-
-    l->raddr = tcg_splitwx_to_rx(s->code_ptr);
-}
-
 static bool tcg_out_fail_alignment(TCGContext *s, TCGLabelQemuLdst *l)
 {
     if (!patch_reloc(l->label_ptr[0], R_390_PC16DBL,
@@ -XXX,XX +XXX,XX @@ static bool tcg_out_qemu_st_slow_path(TCGContext *s, TCGLabelQemuLdst *l)
 {
     return tcg_out_fail_alignment(s, l);
 }
+#endif /* CONFIG_SOFTMMU */
 
-static HostAddress tcg_prepare_user_ldst(TCGContext *s, TCGReg addr_reg)
+/*
+ * For softmmu, perform the TLB load and compare.
+ * For useronly, perform any required alignment tests.
+ * In both cases, return a TCGLabelQemuLdst structure if the slow path
+ * is required and fill in @h with the host address for the fast path.
+ */
+static TCGLabelQemuLdst *prepare_host_addr(TCGContext *s, HostAddress *h,
+                                           TCGReg addr_reg, MemOpIdx oi,
+                                           bool is_ld)
 {
-    TCGReg index;
-    int disp;
+    TCGLabelQemuLdst *ldst = NULL;
+    MemOp opc = get_memop(oi);
+    unsigned a_bits = get_alignment_bits(opc);
+    unsigned a_mask = (1u << a_bits) - 1;
 
+#ifdef CONFIG_SOFTMMU
+    unsigned s_bits = opc & MO_SIZE;
+    unsigned s_mask = (1 << s_bits) - 1;
+    int mem_index = get_mmuidx(oi);
+    int fast_off = TLB_MASK_TABLE_OFS(mem_index);
+    int mask_off = fast_off + offsetof(CPUTLBDescFast, mask);
+    int table_off = fast_off + offsetof(CPUTLBDescFast, table);
+    int ofs, a_off;
+    uint64_t tlb_mask;
+
+    ldst = new_ldst_label(s);
+    ldst->is_ld = is_ld;
+    ldst->oi = oi;
+    ldst->addrlo_reg = addr_reg;
+
+    tcg_out_sh64(s, RSY_SRLG, TCG_REG_R2, addr_reg, TCG_REG_NONE,
+                 TARGET_PAGE_BITS - CPU_TLB_ENTRY_BITS);
+
+    QEMU_BUILD_BUG_ON(TLB_MASK_TABLE_OFS(0) > 0);
+    QEMU_BUILD_BUG_ON(TLB_MASK_TABLE_OFS(0) < -(1 << 19));
+    tcg_out_insn(s, RXY, NG, TCG_REG_R2, TCG_AREG0, TCG_REG_NONE, mask_off);
+    tcg_out_insn(s, RXY, AG, TCG_REG_R2, TCG_AREG0, TCG_REG_NONE, table_off);
+
+    /*
+     * For aligned accesses, we check the first byte and include the alignment
+     * bits within the address.  For unaligned access, we check that we don't
+     * cross pages using the address of the last byte of the access.
+     */
+    a_off = (a_bits >= s_bits ? 0 : s_mask - a_mask);
+    tlb_mask = (uint64_t)TARGET_PAGE_MASK | a_mask;
+    if (a_off == 0) {
+        tgen_andi_risbg(s, TCG_REG_R3, addr_reg, tlb_mask);
+    } else {
+        tcg_out_insn(s, RX, LA, TCG_REG_R3, addr_reg, TCG_REG_NONE, a_off);
+        tgen_andi(s, TCG_TYPE_TL, TCG_REG_R3, tlb_mask);
+    }
+
+    if (is_ld) {
+        ofs = offsetof(CPUTLBEntry, addr_read);
+    } else {
+        ofs = offsetof(CPUTLBEntry, addr_write);
+    }
+    if (TARGET_LONG_BITS == 32) {
+        tcg_out_insn(s, RX, C, TCG_REG_R3, TCG_REG_R2, TCG_REG_NONE, ofs);
+    } else {
+        tcg_out_insn(s, RXY, CG, TCG_REG_R3, TCG_REG_R2, TCG_REG_NONE, ofs);
+    }
+
+    tcg_out16(s, RI_BRC | (S390_CC_NE << 4));
+    ldst->label_ptr[0] = s->code_ptr++;
+
+    h->index = TCG_REG_R2;
+    tcg_out_insn(s, RXY, LG, h->index, TCG_REG_R2, TCG_REG_NONE,
+                 offsetof(CPUTLBEntry, addend));
+
+    h->base = addr_reg;
+    if (TARGET_LONG_BITS == 32) {
+        tcg_out_ext32u(s, TCG_REG_R3, addr_reg);
+        h->base = TCG_REG_R3;
+    }
+    h->disp = 0;
+#else
+    if (a_mask) {
+        ldst = new_ldst_label(s);
+        ldst->is_ld = is_ld;
+        ldst->oi = oi;
+        ldst->addrlo_reg = addr_reg;
+
+        /* We are expecting a_bits to max out at 7, much lower than TMLL. */
+        tcg_debug_assert(a_bits < 16);
+        tcg_out_insn(s, RI, TMLL, addr_reg, a_mask);
+
+        tcg_out16(s, RI_BRC | (7 << 4)); /* CC in {1,2,3} */
+        ldst->label_ptr[0] = s->code_ptr++;
+    }
+
+    h->base = addr_reg;
     if (TARGET_LONG_BITS == 32) {
         tcg_out_ext32u(s, TCG_TMP0, addr_reg);
-        addr_reg = TCG_TMP0;
+        h->base = TCG_TMP0;
     }
     if (guest_base < 0x80000) {
-        index = TCG_REG_NONE;
-        disp = guest_base;
+        h->index = TCG_REG_NONE;
+        h->disp = guest_base;
     } else {
-        index = TCG_GUEST_BASE_REG;
-        disp = 0;
+        h->index = TCG_GUEST_BASE_REG;
+        h->disp = 0;
     }
-    return (HostAddress){ .base = addr_reg, .index = index, .disp = disp };
+#endif
+
+    return ldst;
 }
-#endif /* CONFIG_SOFTMMU */
 
 static void tcg_out_qemu_ld(TCGContext* s, TCGReg data_reg, TCGReg addr_reg,
                             MemOpIdx oi, TCGType data_type)
 {
-    MemOp opc = get_memop(oi);
+    TCGLabelQemuLdst *ldst;
     HostAddress h;
 
-#ifdef CONFIG_SOFTMMU
-    unsigned mem_index = get_mmuidx(oi);
-    tcg_insn_unit *label_ptr;
+    ldst = prepare_host_addr(s, &h, addr_reg, oi, true);
+    tcg_out_qemu_ld_direct(s, get_memop(oi), data_reg, h);
 
-    h.base = tcg_out_tlb_read(s, addr_reg, opc, mem_index, 1);
-    h.index = TCG_REG_R2;
-    h.disp = 0;
-
-    tcg_out16(s, RI_BRC | (S390_CC_NE << 4));
-    label_ptr = s->code_ptr;
-    s->code_ptr += 1;
-
-    tcg_out_qemu_ld_direct(s, opc, data_reg, h);
-
-    add_qemu_ldst_label(s, true, oi, data_type, data_reg, addr_reg,
-                        s->code_ptr, label_ptr);
-#else
-    unsigned a_bits = get_alignment_bits(opc);
-
-    if (a_bits) {
-        tcg_out_test_alignment(s, true, addr_reg, a_bits);
+    if (ldst) {
+        ldst->type = data_type;
+        ldst->datalo_reg = data_reg;
+        ldst->raddr = tcg_splitwx_to_rx(s->code_ptr);
     }
-    h = tcg_prepare_user_ldst(s, addr_reg);
-    tcg_out_qemu_ld_direct(s, opc, data_reg, h);
-#endif
 }
 
 static void tcg_out_qemu_st(TCGContext* s, TCGReg data_reg, TCGReg addr_reg,
                             MemOpIdx oi, TCGType data_type)
 {
-    MemOp opc = get_memop(oi);
+    TCGLabelQemuLdst *ldst;
     HostAddress h;
 
-#ifdef CONFIG_SOFTMMU
-    unsigned mem_index = get_mmuidx(oi);
-    tcg_insn_unit *label_ptr;
+    ldst = prepare_host_addr(s, &h, addr_reg, oi, false);
+    tcg_out_qemu_st_direct(s, get_memop(oi), data_reg, h);
 
-    h.base = tcg_out_tlb_read(s, addr_reg, opc, mem_index, 0);
-    h.index = TCG_REG_R2;
-    h.disp = 0;
-
-    tcg_out16(s, RI_BRC | (S390_CC_NE << 4));
-    label_ptr = s->code_ptr;
-    s->code_ptr += 1;
-
-    tcg_out_qemu_st_direct(s, opc, data_reg, h);
-
-    add_qemu_ldst_label(s, false, oi, data_type, data_reg, addr_reg,
-                        s->code_ptr, label_ptr);
-#else
-    unsigned a_bits = get_alignment_bits(opc);
-
-    if (a_bits) {
-        tcg_out_test_alignment(s, false, addr_reg, a_bits);
+    if (ldst) {
+        ldst->type = data_type;
+        ldst->datalo_reg = data_reg;
+        ldst->raddr = tcg_splitwx_to_rx(s->code_ptr);
     }
-    h = tcg_prepare_user_ldst(s, addr_reg);
-    tcg_out_qemu_st_direct(s, opc, data_reg, h);
-#endif
 }
 
 static void tcg_out_exit_tb(TCGContext *s, uintptr_t a0)
-- 
2.34.1

Add tcg_out_ld_helper_args, tcg_out_ld_helper_ret,
and tcg_out_st_helper_args.  These and their subroutines
use the existing knowledge of the host function call abi
to load the function call arguments and return results.

These will be used to simplify the backends in turn.

Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/tcg.c | 475 +++++++++++++++++++++++++++++++++++++++++++++++++++++-
 1 file changed, 471 insertions(+), 4 deletions(-)

diff --git a/tcg/tcg.c b/tcg/tcg.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/tcg.c
+++ b/tcg/tcg.c
@@ -XXX,XX +XXX,XX @@ static bool tcg_target_const_match(int64_t val, TCGType type, int ct);
 static int tcg_out_ldst_finalize(TCGContext *s);
 #endif
 
+typedef struct TCGLdstHelperParam {
+    TCGReg (*ra_gen)(TCGContext *s, const TCGLabelQemuLdst *l, int arg_reg);
+    unsigned ntmp;
+    int tmp[3];
+} TCGLdstHelperParam;
+
+static void tcg_out_ld_helper_args(TCGContext *s, const TCGLabelQemuLdst *l,
+                                   const TCGLdstHelperParam *p)
+    __attribute__((unused));
+static void tcg_out_ld_helper_ret(TCGContext *s, const TCGLabelQemuLdst *l,
+                                  bool load_sign, const TCGLdstHelperParam *p)
+    __attribute__((unused));
+static void tcg_out_st_helper_args(TCGContext *s, const TCGLabelQemuLdst *l,
+                                   const TCGLdstHelperParam *p)
+    __attribute__((unused));
+
 TCGContext tcg_init_ctx;
 __thread TCGContext *tcg_ctx;
 
@@ -XXX,XX +XXX,XX @@ void tcg_raise_tb_overflow(TCGContext *s)
     siglongjmp(s->jmp_trans, -2);
 }
 
+/*
+ * Used by tcg_out_movext{1,2} to hold the arguments for tcg_out_movext.
+ * By the time we arrive at tcg_out_movext1, @dst is always a TCGReg.
+ *
+ * However, tcg_out_helper_load_slots reuses this field to hold an
+ * argument slot number (which may designate a argument register or an
+ * argument stack slot), converting to TCGReg once all arguments that
+ * are destined for the stack are processed.
+ */
 typedef struct TCGMovExtend {
-    TCGReg dst;
+    unsigned dst;
     TCGReg src;
     TCGType dst_type;
     TCGType src_type;
@@ -XXX,XX +XXX,XX @@ static void tcg_out_movext1(TCGContext *s, const TCGMovExtend *i)
  * between the sources and destinations.
  */
 
-static void __attribute__((unused))
-tcg_out_movext2(TCGContext *s, const TCGMovExtend *i1,
-                const TCGMovExtend *i2, int scratch)
+static void tcg_out_movext2(TCGContext *s, const TCGMovExtend *i1,
+                            const TCGMovExtend *i2, int scratch)
 {
     TCGReg src1 = i1->src;
     TCGReg src2 = i2->src;
@@ -XXX,XX +XXX,XX @@ static TCGHelperInfo all_helpers[] = {
 };
 static GHashTable *helper_table;
 
+/*
+ * Create TCGHelperInfo structures for "tcg/tcg-ldst.h" functions,
+ * akin to what "exec/helper-tcg.h" does with DEF_HELPER_FLAGS_N.
+ * We only use these for layout in tcg_out_ld_helper_ret and
+ * tcg_out_st_helper_args, and share them between several of
+ * the helpers, with the end result that it's easier to build manually.
+ */
+
+#if TCG_TARGET_REG_BITS == 32
+# define dh_typecode_ttl  dh_typecode_i32
+#else
+# define dh_typecode_ttl  dh_typecode_i64
+#endif
+
+static TCGHelperInfo info_helper_ld32_mmu = {
+    .flags = TCG_CALL_NO_WG,
+    .typemask = dh_typemask(ttl, 0)  /* return tcg_target_ulong */
+              | dh_typemask(env, 1)
+              | dh_typemask(tl, 2)   /* target_ulong addr */
+              | dh_typemask(i32, 3)  /* unsigned oi */
+              | dh_typemask(ptr, 4)  /* uintptr_t ra */
+};
+
+static TCGHelperInfo info_helper_ld64_mmu = {
+    .flags = TCG_CALL_NO_WG,
+    .typemask = dh_typemask(i64, 0)  /* return uint64_t */
+              | dh_typemask(env, 1)
+              | dh_typemask(tl, 2)   /* target_ulong addr */
+              | dh_typemask(i32, 3)  /* unsigned oi */
+              | dh_typemask(ptr, 4)  /* uintptr_t ra */
+};
+
+static TCGHelperInfo info_helper_st32_mmu = {
+    .flags = TCG_CALL_NO_WG,
+    .typemask = dh_typemask(void, 0)
+              | dh_typemask(env, 1)
+              | dh_typemask(tl, 2)   /* target_ulong addr */
+              | dh_typemask(i32, 3)  /* uint32_t data */
+              | dh_typemask(i32, 4)  /* unsigned oi */
+              | dh_typemask(ptr, 5)  /* uintptr_t ra */
+};
+
+static TCGHelperInfo info_helper_st64_mmu = {
+    .flags = TCG_CALL_NO_WG,
+    .typemask = dh_typemask(void, 0)
+              | dh_typemask(env, 1)
+              | dh_typemask(tl, 2)   /* target_ulong addr */
+              | dh_typemask(i64, 3)  /* uint64_t data */
+              | dh_typemask(i32, 4)  /* unsigned oi */
+              | dh_typemask(ptr, 5)  /* uintptr_t ra */
+};
+
 #ifdef CONFIG_TCG_INTERPRETER
 static ffi_type *typecode_to_ffi(int argmask)
 {
@@ -XXX,XX +XXX,XX @@ static void tcg_context_init(unsigned max_cpus)
                             (gpointer)&all_helpers[i]);
     }
 
+    init_call_layout(&info_helper_ld32_mmu);
+    init_call_layout(&info_helper_ld64_mmu);
+    init_call_layout(&info_helper_st32_mmu);
+    init_call_layout(&info_helper_st64_mmu);
+
 #ifdef CONFIG_TCG_INTERPRETER
     init_ffi_layouts();
 #endif
@@ -XXX,XX +XXX,XX @@ static void tcg_reg_alloc_call(TCGContext *s, TCGOp *op)
     }
 }
 
+/*
+ * Similarly for qemu_ld/st slow path helpers.
+ * We must re-implement tcg_gen_callN and tcg_reg_alloc_call simultaneously,
+ * using only the provided backend tcg_out_* functions.
+ */
+
+static int tcg_out_helper_stk_ofs(TCGType type, unsigned slot)
+{
+    int ofs = arg_slot_stk_ofs(slot);
+
+    /*
+     * Each stack slot is TCG_TARGET_LONG_BITS.  If the host does not
+     * require extension to uint64_t, adjust the address for uint32_t.
+     */
+    if (HOST_BIG_ENDIAN &&
+        TCG_TARGET_REG_BITS == 64 &&
+        type == TCG_TYPE_I32) {
+        ofs += 4;
+    }
+    return ofs;
+}
+
+static void tcg_out_helper_load_regs(TCGContext *s,
+                                     unsigned nmov, TCGMovExtend *mov,
+                                     unsigned ntmp, const int *tmp)
+{
+    switch (nmov) {
+    default:
+        /* The backend must have provided enough temps for the worst case. */
+        tcg_debug_assert(ntmp + 1 >= nmov);
+
+        for (unsigned i = nmov - 1; i >= 2; --i) {
+            TCGReg dst = mov[i].dst;
+
+            for (unsigned j = 0; j < i; ++j) {
+                if (dst == mov[j].src) {
+                    /*
+                     * Conflict.
+                     * Copy the source to a temporary, recurse for the
+                     * remaining moves, perform the extension from our
+                     * scratch on the way out.
+                     */
+                    TCGReg scratch = tmp[--ntmp];
+                    tcg_out_mov(s, mov[i].src_type, scratch, mov[i].src);
+                    mov[i].src = scratch;
+
+                    tcg_out_helper_load_regs(s, i, mov, ntmp, tmp);
+                    tcg_out_movext1(s, &mov[i]);
+                    return;
+                }
+            }
+
+            /* No conflicts: perform this move and continue. */
+            tcg_out_movext1(s, &mov[i]);
+        }
+        /* fall through for the final two moves */
+
+    case 2:
+        tcg_out_movext2(s, mov, mov + 1, ntmp ? tmp[0] : -1);
+        return;
+    case 1:
+        tcg_out_movext1(s, mov);
+        return;
+    case 0:
+        g_assert_not_reached();
+    }
+}
+
+static void tcg_out_helper_load_slots(TCGContext *s,
+                                      unsigned nmov, TCGMovExtend *mov,
+                                      const TCGLdstHelperParam *parm)
+{
+    unsigned i;
+
+    /*
+     * Start from the end, storing to the stack first.
+     * This frees those registers, so we need not consider overlap.
+     */
+    for (i = nmov; i-- > 0; ) {
+        unsigned slot = mov[i].dst;
+
+        if (arg_slot_reg_p(slot)) {
+            goto found_reg;
+        }
+
+        TCGReg src = mov[i].src;
+        TCGType dst_type = mov[i].dst_type;
+        MemOp dst_mo = dst_type == TCG_TYPE_I32 ? MO_32 : MO_64;
+
+        /* The argument is going onto the stack; extend into scratch. */
+        if ((mov[i].src_ext & MO_SIZE) != dst_mo) {
+            tcg_debug_assert(parm->ntmp != 0);
+            mov[i].dst = src = parm->tmp[0];
+            tcg_out_movext1(s, &mov[i]);
+        }
+
+        tcg_out_st(s, dst_type, src, TCG_REG_CALL_STACK,
+                   tcg_out_helper_stk_ofs(dst_type, slot));
+    }
+    return;
+
+ found_reg:
+    /*
+     * The remaining arguments are in registers.
+     * Convert slot numbers to argument registers.
+     */
+    nmov = i + 1;
+    for (i = 0; i < nmov; ++i) {
+        mov[i].dst = tcg_target_call_iarg_regs[mov[i].dst];
+    }
+    tcg_out_helper_load_regs(s, nmov, mov, parm->ntmp, parm->tmp);
+}
+
+static void tcg_out_helper_load_imm(TCGContext *s, unsigned slot,
+                                    TCGType type, tcg_target_long imm,
+                                    const TCGLdstHelperParam *parm)
+{
+    if (arg_slot_reg_p(slot)) {
+        tcg_out_movi(s, type, tcg_target_call_iarg_regs[slot], imm);
+    } else {
+        int ofs = tcg_out_helper_stk_ofs(type, slot);
+        if (!tcg_out_sti(s, type, imm, TCG_REG_CALL_STACK, ofs)) {
+            tcg_debug_assert(parm->ntmp != 0);
+            tcg_out_movi(s, type, parm->tmp[0], imm);
+            tcg_out_st(s, type, parm->tmp[0], TCG_REG_CALL_STACK, ofs);
+        }
+    }
+}
+
+static void tcg_out_helper_load_common_args(TCGContext *s,
+                                            const TCGLabelQemuLdst *ldst,
+                                            const TCGLdstHelperParam *parm,
+                                            const TCGHelperInfo *info,
+                                            unsigned next_arg)
+{
+    TCGMovExtend ptr_mov = {
+        .dst_type = TCG_TYPE_PTR,
+        .src_type = TCG_TYPE_PTR,
+        .src_ext = sizeof(void *) == 4 ? MO_32 : MO_64
+    };
+    const TCGCallArgumentLoc *loc = &info->in[0];
+    TCGType type;
+    unsigned slot;
+    tcg_target_ulong imm;
+
+    /*
+     * Handle env, which is always first.
+     */
+    ptr_mov.dst = loc->arg_slot;
+    ptr_mov.src = TCG_AREG0;
+    tcg_out_helper_load_slots(s, 1, &ptr_mov, parm);
+
+    /*
+     * Handle oi.
+     */
+    imm = ldst->oi;
+    loc = &info->in[next_arg];
+    type = TCG_TYPE_I32;
+    switch (loc->kind) {
+    case TCG_CALL_ARG_NORMAL:
+        break;
+    case TCG_CALL_ARG_EXTEND_U:
+    case TCG_CALL_ARG_EXTEND_S:
+        /* No extension required for MemOpIdx. */
+        tcg_debug_assert(imm <= INT32_MAX);
+        type = TCG_TYPE_REG;
+        break;
+    default:
+        g_assert_not_reached();
+    }
+    tcg_out_helper_load_imm(s, loc->arg_slot, type, imm, parm);
+    next_arg++;
+
+    /*
+     * Handle ra.
+     */
+    loc = &info->in[next_arg];
+    slot = loc->arg_slot;
+    if (parm->ra_gen) {
+        int arg_reg = -1;
+        TCGReg ra_reg;
+
+        if (arg_slot_reg_p(slot)) {
+            arg_reg = tcg_target_call_iarg_regs[slot];
+        }
+        ra_reg = parm->ra_gen(s, ldst, arg_reg);
+
+        ptr_mov.dst = slot;
+        ptr_mov.src = ra_reg;
+        tcg_out_helper_load_slots(s, 1, &ptr_mov, parm);
+    } else {
+        imm = (uintptr_t)ldst->raddr;
+        tcg_out_helper_load_imm(s, slot, TCG_TYPE_PTR, imm, parm);
+    }
+}
+
+static unsigned tcg_out_helper_add_mov(TCGMovExtend *mov,
+                                       const TCGCallArgumentLoc *loc,
+                                       TCGType dst_type, TCGType src_type,
+                                       TCGReg lo, TCGReg hi)
+{
+    if (dst_type <= TCG_TYPE_REG) {
+        MemOp src_ext;
+
+        switch (loc->kind) {
+        case TCG_CALL_ARG_NORMAL:
+            src_ext = src_type == TCG_TYPE_I32 ? MO_32 : MO_64;
+            break;
+        case TCG_CALL_ARG_EXTEND_U:
+            dst_type = TCG_TYPE_REG;
+            src_ext = MO_UL;
+            break;
+        case TCG_CALL_ARG_EXTEND_S:
+            dst_type = TCG_TYPE_REG;
+            src_ext = MO_SL;
+            break;
+        default:
+            g_assert_not_reached();
+        }
+
+        mov[0].dst = loc->arg_slot;
+        mov[0].dst_type = dst_type;
+        mov[0].src = lo;
+        mov[0].src_type = src_type;
+        mov[0].src_ext = src_ext;
+        return 1;
+    }
+
+    assert(TCG_TARGET_REG_BITS == 32);
+
+    mov[0].dst = loc[HOST_BIG_ENDIAN].arg_slot;
+    mov[0].src = lo;
+    mov[0].dst_type = TCG_TYPE_I32;
+    mov[0].src_type = TCG_TYPE_I32;
+    mov[0].src_ext = MO_32;
+
+    mov[1].dst = loc[!HOST_BIG_ENDIAN].arg_slot;
+    mov[1].src = hi;
+    mov[1].dst_type = TCG_TYPE_I32;
+    mov[1].src_type = TCG_TYPE_I32;
+    mov[1].src_ext = MO_32;
+
+    return 2;
+}
+
+static void tcg_out_ld_helper_args(TCGContext *s, const TCGLabelQemuLdst *ldst,
+                                   const TCGLdstHelperParam *parm)
+{
+    const TCGHelperInfo *info;
+    const TCGCallArgumentLoc *loc;
+    TCGMovExtend mov[2];
+    unsigned next_arg, nmov;
+    MemOp mop = get_memop(ldst->oi);
+
+    switch (mop & MO_SIZE) {
+    case MO_8:
+    case MO_16:
+    case MO_32:
+        info = &info_helper_ld32_mmu;
+        break;
+    case MO_64:
+        info = &info_helper_ld64_mmu;
+        break;
+    default:
+        g_assert_not_reached();
+    }
+
+    /* Defer env argument. */
+    next_arg = 1;
+
+    loc = &info->in[next_arg];
+    nmov = tcg_out_helper_add_mov(mov, loc, TCG_TYPE_TL, TCG_TYPE_TL,
+                                  ldst->addrlo_reg, ldst->addrhi_reg);
+    next_arg += nmov;
+
+    tcg_out_helper_load_slots(s, nmov, mov, parm);
+
+    /* No special attention for 32 and 64-bit return values. */
+    tcg_debug_assert(info->out_kind == TCG_CALL_RET_NORMAL);
+
+    tcg_out_helper_load_common_args(s, ldst, parm, info, next_arg);
+}
+
+static void tcg_out_ld_helper_ret(TCGContext *s, const TCGLabelQemuLdst *ldst,
+                                  bool load_sign,
+                                  const TCGLdstHelperParam *parm)
+{
+    TCGMovExtend mov[2];
+
+    if (ldst->type <= TCG_TYPE_REG) {
+        MemOp mop = get_memop(ldst->oi);
+
+        mov[0].dst = ldst->datalo_reg;
+        mov[0].src = tcg_target_call_oarg_reg(TCG_CALL_RET_NORMAL, 0);
+        mov[0].dst_type = ldst->type;
+        mov[0].src_type = TCG_TYPE_REG;
+
+        /*
+         * If load_sign, then we allowed the helper to perform the
+         * appropriate sign extension to tcg_target_ulong, and all
+         * we need now is a plain move.
+         *
+         * If they do not, then we expect the relevant extension
+         * instruction to be no more expensive than a move, and
+         * we thus save the icache etc by only using one of two
+         * helper functions.
+         */
+        if (load_sign || !(mop & MO_SIGN)) {
+            if (TCG_TARGET_REG_BITS == 32 || ldst->type == TCG_TYPE_I32) {
+                mov[0].src_ext = MO_32;
+            } else {
+                mov[0].src_ext = MO_64;
+            }
+        } else {
+            mov[0].src_ext = mop & MO_SSIZE;
+        }
+        tcg_out_movext1(s, mov);
+    } else {
+        assert(TCG_TARGET_REG_BITS == 32);
+
+        mov[0].dst = ldst->datalo_reg;
+        mov[0].src =
+            tcg_target_call_oarg_reg(TCG_CALL_RET_NORMAL, HOST_BIG_ENDIAN);
+        mov[0].dst_type = TCG_TYPE_I32;
+        mov[0].src_type = TCG_TYPE_I32;
+        mov[0].src_ext = MO_32;
+
+        mov[1].dst = ldst->datahi_reg;
+        mov[1].src =
+            tcg_target_call_oarg_reg(TCG_CALL_RET_NORMAL, !HOST_BIG_ENDIAN);
+        mov[1].dst_type = TCG_TYPE_REG;
+        mov[1].src_type = TCG_TYPE_REG;
+        mov[1].src_ext = MO_32;
+
+        tcg_out_movext2(s, mov, mov + 1, parm->ntmp ? parm->tmp[0] : -1);
+    }
+}
+
+static void tcg_out_st_helper_args(TCGContext *s, const TCGLabelQemuLdst *ldst,
+                                   const TCGLdstHelperParam *parm)
+{
+    const TCGHelperInfo *info;
+    const TCGCallArgumentLoc *loc;
+    TCGMovExtend mov[4];
+    TCGType data_type;
+    unsigned next_arg, nmov, n;
+    MemOp mop = get_memop(ldst->oi);
+
+    switch (mop & MO_SIZE) {
+    case MO_8:
+    case MO_16:
+    case MO_32:
+        info = &info_helper_st32_mmu;
+        data_type = TCG_TYPE_I32;
+        break;
+    case MO_64:
+        info = &info_helper_st64_mmu;
+        data_type = TCG_TYPE_I64;
+        break;
+    default:
+        g_assert_not_reached();
+    }
+
+    /* Defer env argument. */
+    next_arg = 1;
+    nmov = 0;
+
+    /* Handle addr argument. */
+    loc = &info->in[next_arg];
+    n = tcg_out_helper_add_mov(mov, loc, TCG_TYPE_TL, TCG_TYPE_TL,
+                               ldst->addrlo_reg, ldst->addrhi_reg);
+    next_arg += n;
+    nmov += n;
+
+    /* Handle data argument. */
+    loc = &info->in[next_arg];
+    n = tcg_out_helper_add_mov(mov + nmov, loc, data_type, ldst->type,
+                               ldst->datalo_reg, ldst->datahi_reg);
+    next_arg += n;
+    nmov += n;
+    tcg_debug_assert(nmov <= ARRAY_SIZE(mov));
+
+    tcg_out_helper_load_slots(s, nmov, mov, parm);
+    tcg_out_helper_load_common_args(s, ldst, parm, info, next_arg);
+}
+
 #ifdef CONFIG_PROFILER
 
 /* avoid copy/paste errors */
-- 
2.34.1

Use tcg_out_ld_helper_args and tcg_out_ld_helper_ret.

Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/i386/tcg-target.c.inc | 71 +++++++++++++++------------------------
 1 file changed, 28 insertions(+), 43 deletions(-)

Use tcg_out_st_helper_args.  This eliminates the use of a tail call to
the store helper.  This may or may not be an improvement, depending on
the call/return branch prediction of the host microarchitecture.

Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/i386/tcg-target.c.inc | 57 +++------------------------------------
 1 file changed, 4 insertions(+), 53 deletions(-)

diff --git a/tcg/i386/tcg-target.c.inc b/tcg/i386/tcg-target.c.inc
index XXXXXXX..XXXXXXX 100644
--- a/tcg/i386/tcg-target.c.inc
+++ b/tcg/i386/tcg-target.c.inc
@@ -XXX,XX +XXX,XX @@ static bool tcg_out_qemu_ld_slow_path(TCGContext *s, TCGLabelQemuLdst *l)
  */
 static bool tcg_out_qemu_st_slow_path(TCGContext *s, TCGLabelQemuLdst *l)
 {
-    MemOpIdx oi = l->oi;
-    MemOp opc = get_memop(oi);
-    MemOp s_bits = opc & MO_SIZE;
+    MemOp opc = get_memop(l->oi);
     tcg_insn_unit **label_ptr = &l->label_ptr[0];
-    TCGReg retaddr;
 
     /* resolve label address */
     tcg_patch32(label_ptr[0], s->code_ptr - label_ptr[0] - 4);
@@ -XXX,XX +XXX,XX @@ static bool tcg_out_qemu_st_slow_path(TCGContext *s, TCGLabelQemuLdst *l)
         tcg_patch32(label_ptr[1], s->code_ptr - label_ptr[1] - 4);
     }
 
-    if (TCG_TARGET_REG_BITS == 32) {
-        int ofs = 0;
+    tcg_out_st_helper_args(s, l, &ldst_helper_param);
+    tcg_out_branch(s, 1, qemu_st_helpers[opc & (MO_BSWAP | MO_SIZE)]);
 
-        tcg_out_st(s, TCG_TYPE_PTR, TCG_AREG0, TCG_REG_ESP, ofs);
-        ofs += 4;
-
-        tcg_out_st(s, TCG_TYPE_I32, l->addrlo_reg, TCG_REG_ESP, ofs);
-        ofs += 4;
-
-        if (TARGET_LONG_BITS == 64) {
-            tcg_out_st(s, TCG_TYPE_I32, l->addrhi_reg, TCG_REG_ESP, ofs);
-            ofs += 4;
-        }
-
-        tcg_out_st(s, TCG_TYPE_I32, l->datalo_reg, TCG_REG_ESP, ofs);
-        ofs += 4;
-
-        if (s_bits == MO_64) {
-            tcg_out_st(s, TCG_TYPE_I32, l->datahi_reg, TCG_REG_ESP, ofs);
-            ofs += 4;
-        }
-
-        tcg_out_sti(s, TCG_TYPE_I32, oi, TCG_REG_ESP, ofs);
-        ofs += 4;
-
-        retaddr = TCG_REG_EAX;
-        tcg_out_movi(s, TCG_TYPE_PTR, retaddr, (uintptr_t)l->raddr);
-        tcg_out_st(s, TCG_TYPE_PTR, retaddr, TCG_REG_ESP, ofs);
-    } else {
-        tcg_out_mov(s, TCG_TYPE_PTR, tcg_target_call_iarg_regs[0], TCG_AREG0);
-        tcg_out_mov(s, TCG_TYPE_TL, tcg_target_call_iarg_regs[1],
-                    l->addrlo_reg);
-        tcg_out_mov(s, (s_bits == MO_64 ? TCG_TYPE_I64 : TCG_TYPE_I32),
-                    tcg_target_call_iarg_regs[2], l->datalo_reg);
-        tcg_out_movi(s, TCG_TYPE_I32, tcg_target_call_iarg_regs[3], oi);
-
-        if (ARRAY_SIZE(tcg_target_call_iarg_regs) > 4) {
-            retaddr = tcg_target_call_iarg_regs[4];
-            tcg_out_movi(s, TCG_TYPE_PTR, retaddr, (uintptr_t)l->raddr);
-        } else {
-            retaddr = TCG_REG_RAX;
-            tcg_out_movi(s, TCG_TYPE_PTR, retaddr, (uintptr_t)l->raddr);
-            tcg_out_st(s, TCG_TYPE_PTR, retaddr, TCG_REG_ESP,
-                       TCG_TARGET_CALL_STACK_OFFSET);
-        }
-    }
-
-    /* "Tail call" to the helper, with the return address back inline.  */
-    tcg_out_push(s, retaddr);
-    tcg_out_jmp(s, qemu_st_helpers[opc & (MO_BSWAP | MO_SIZE)]);
+    tcg_out_jmp(s, l->raddr);
     return true;
 }
 #else
-- 
2.34.1

Use tcg_out_ld_helper_args, tcg_out_ld_helper_ret,
and tcg_out_st_helper_args.

Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/aarch64/tcg-target.c.inc | 40 +++++++++++++++---------------------
 1 file changed, 16 insertions(+), 24 deletions(-)

diff --git a/tcg/aarch64/tcg-target.c.inc b/tcg/aarch64/tcg-target.c.inc
index XXXXXXX..XXXXXXX 100644
--- a/tcg/aarch64/tcg-target.c.inc
+++ b/tcg/aarch64/tcg-target.c.inc
@@ -XXX,XX +XXX,XX @@ static void tcg_out_cltz(TCGContext *s, TCGType ext, TCGReg d,
     }
 }
 
-static void tcg_out_adr(TCGContext *s, TCGReg rd, const void *target)
-{
-    ptrdiff_t offset = tcg_pcrel_diff(s, target);
-    tcg_debug_assert(offset == sextract64(offset, 0, 21));
-    tcg_out_insn(s, 3406, ADR, rd, offset);
-}
-
 typedef struct {
     TCGReg base;
     TCGReg index;
@@ -XXX,XX +XXX,XX @@ static void * const qemu_st_helpers[MO_SIZE + 1] = {
 #endif
 };
 
+static const TCGLdstHelperParam ldst_helper_param = {
+    .ntmp = 1, .tmp = { TCG_REG_TMP }
+};
+
 static bool tcg_out_qemu_ld_slow_path(TCGContext *s, TCGLabelQemuLdst *lb)
 {
-    MemOpIdx oi = lb->oi;
-    MemOp opc = get_memop(oi);
+    MemOp opc = get_memop(lb->oi);
 
     if (!reloc_pc19(lb->label_ptr[0], tcg_splitwx_to_rx(s->code_ptr))) {
         return false;
     }
 
-    tcg_out_mov(s, TCG_TYPE_PTR, TCG_REG_X0, TCG_AREG0);
-    tcg_out_mov(s, TARGET_LONG_BITS == 64, TCG_REG_X1, lb->addrlo_reg);
-    tcg_out_movi(s, TCG_TYPE_I32, TCG_REG_X2, oi);
-    tcg_out_adr(s, TCG_REG_X3, lb->raddr);
+    tcg_out_ld_helper_args(s, lb, &ldst_helper_param);
     tcg_out_call_int(s, qemu_ld_helpers[opc & MO_SIZE]);
-
-    tcg_out_movext(s, lb->type, lb->datalo_reg,
-                   TCG_TYPE_REG, opc & MO_SSIZE, TCG_REG_X0);
+    tcg_out_ld_helper_ret(s, lb, false, &ldst_helper_param);
     tcg_out_goto(s, lb->raddr);
     return true;
 }
 
 static bool tcg_out_qemu_st_slow_path(TCGContext *s, TCGLabelQemuLdst *lb)
 {
-    MemOpIdx oi = lb->oi;
-    MemOp opc = get_memop(oi);
-    MemOp size = opc & MO_SIZE;
+    MemOp opc = get_memop(lb->oi);
 
     if (!reloc_pc19(lb->label_ptr[0], tcg_splitwx_to_rx(s->code_ptr))) {
         return false;
     }
 
-    tcg_out_mov(s, TCG_TYPE_PTR, TCG_REG_X0, TCG_AREG0);
-    tcg_out_mov(s, TARGET_LONG_BITS == 64, TCG_REG_X1, lb->addrlo_reg);
-    tcg_out_mov(s, size == MO_64, TCG_REG_X2, lb->datalo_reg);
-    tcg_out_movi(s, TCG_TYPE_I32, TCG_REG_X3, oi);
-    tcg_out_adr(s, TCG_REG_X4, lb->raddr);
+    tcg_out_st_helper_args(s, lb, &ldst_helper_param);
     tcg_out_call_int(s, qemu_st_helpers[opc & MO_SIZE]);
     tcg_out_goto(s, lb->raddr);
     return true;
 }
 #else
+static void tcg_out_adr(TCGContext *s, TCGReg rd, const void *target)
+{
+    ptrdiff_t offset = tcg_pcrel_diff(s, target);
+    tcg_debug_assert(offset == sextract64(offset, 0, 21));
+    tcg_out_insn(s, 3406, ADR, rd, offset);
+}
+
 static bool tcg_out_fail_alignment(TCGContext *s, TCGLabelQemuLdst *l)
 {
     if (!reloc_pc19(l->label_ptr[0], tcg_splitwx_to_rx(s->code_ptr))) {
-- 
2.34.1

Use tcg_out_ld_helper_args, tcg_out_ld_helper_ret,
and tcg_out_st_helper_args.  This allows our local
tcg_out_arg_* infrastructure to be removed.

Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/arm/tcg-target.c.inc | 140 +++++----------------------------------
 1 file changed, 18 insertions(+), 122 deletions(-)

diff --git a/tcg/arm/tcg-target.c.inc b/tcg/arm/tcg-target.c.inc
index XXXXXXX..XXXXXXX 100644
--- a/tcg/arm/tcg-target.c.inc
+++ b/tcg/arm/tcg-target.c.inc
@@ -XXX,XX +XXX,XX @@ tcg_out_ldrd_rwb(TCGContext *s, ARMCond cond, TCGReg rt, TCGReg rn, TCGReg rm)
     tcg_out_memop_r(s, cond, INSN_LDRD_REG, rt, rn, rm, 1, 1, 1);
 }
 
-static void tcg_out_strd_8(TCGContext *s, ARMCond cond, TCGReg rt,
-                           TCGReg rn, int imm8)
+static void __attribute__((unused))
+tcg_out_strd_8(TCGContext *s, ARMCond cond, TCGReg rt, TCGReg rn, int imm8)
 {
     tcg_out_memop_8(s, cond, INSN_STRD_IMM, rt, rn, imm8, 1, 0);
 }
@@ -XXX,XX +XXX,XX @@ static void tcg_out_ext8u(TCGContext *s, TCGReg rd, TCGReg rn)
     tcg_out_dat_imm(s, COND_AL, ARITH_AND, rd, rn, 0xff);
 }
 
-static void __attribute__((unused))
-tcg_out_ext8u_cond(TCGContext *s, ARMCond cond, TCGReg rd, TCGReg rn)
-{
-    tcg_out_dat_imm(s, cond, ARITH_AND, rd, rn, 0xff);
-}
-
 static void tcg_out_ext16s(TCGContext *s, TCGType t, TCGReg rd, TCGReg rn)
 {
     /* sxth */
     tcg_out32(s, 0x06bf0070 | (COND_AL << 28) | (rd << 12) | rn);
 }
 
-static void tcg_out_ext16u_cond(TCGContext *s, ARMCond cond,
-                                TCGReg rd, TCGReg rn)
-{
-    /* uxth */
-    tcg_out32(s, 0x06ff0070 | (cond << 28) | (rd << 12) | rn);
-}
-
 static void tcg_out_ext16u(TCGContext *s, TCGReg rd, TCGReg rn)
 {
-    tcg_out_ext16u_cond(s, COND_AL, rd, rn);
+    /* uxth */
+    tcg_out32(s, 0x06ff0070 | (COND_AL << 28) | (rd << 12) | rn);
 }
 
 static void tcg_out_ext32s(TCGContext *s, TCGReg rd, TCGReg rn)
@@ -XXX,XX +XXX,XX @@ static void * const qemu_st_helpers[MO_SIZE + 1] = {
 #endif
 };
 
-/* Helper routines for marshalling helper function arguments into
- * the correct registers and stack.
- * argreg is where we want to put this argument, arg is the argument itself.
- * Return value is the updated argreg ready for the next call.
- * Note that argreg 0..3 is real registers, 4+ on stack.
- *
- * We provide routines for arguments which are: immediate, 32 bit
- * value in register, 16 and 8 bit values in register (which must be zero
- * extended before use) and 64 bit value in a lo:hi register pair.
- */
-#define DEFINE_TCG_OUT_ARG(NAME, ARGTYPE, MOV_ARG, EXT_ARG)                \
-static TCGReg NAME(TCGContext *s, TCGReg argreg, ARGTYPE arg)              \
-{                                                                          \
-    if (argreg < 4) {                                                      \
-        MOV_ARG(s, COND_AL, argreg, arg);                                  \
-    } else {                                                               \
-        int ofs = (argreg - 4) * 4;                                        \
-        EXT_ARG;                                                           \
-        tcg_debug_assert(ofs + 4 <= TCG_STATIC_CALL_ARGS_SIZE);            \
-        tcg_out_st32_12(s, COND_AL, arg, TCG_REG_CALL_STACK, ofs);         \
-    }                                                                      \
-    return argreg + 1;                                                     \
-}
-
-DEFINE_TCG_OUT_ARG(tcg_out_arg_imm32, uint32_t, tcg_out_movi32,
-    (tcg_out_movi32(s, COND_AL, TCG_REG_TMP, arg), arg = TCG_REG_TMP))
-DEFINE_TCG_OUT_ARG(tcg_out_arg_reg8, TCGReg, tcg_out_ext8u_cond,
-    (tcg_out_ext8u_cond(s, COND_AL, TCG_REG_TMP, arg), arg = TCG_REG_TMP))
-DEFINE_TCG_OUT_ARG(tcg_out_arg_reg16, TCGReg, tcg_out_ext16u_cond,
-    (tcg_out_ext16u_cond(s, COND_AL, TCG_REG_TMP, arg), arg = TCG_REG_TMP))
-DEFINE_TCG_OUT_ARG(tcg_out_arg_reg32, TCGReg, tcg_out_mov_reg, )
-
-static TCGReg tcg_out_arg_reg64(TCGContext *s, TCGReg argreg,
-                                TCGReg arglo, TCGReg arghi)
+static TCGReg ldst_ra_gen(TCGContext *s, const TCGLabelQemuLdst *l, int arg)
 {
-    /* 64 bit arguments must go in even/odd register pairs
-     * and in 8-aligned stack slots.
-     */
-    if (argreg & 1) {
-        argreg++;
-    }
-    if (argreg >= 4 && (arglo & 1) == 0 && arghi == arglo + 1) {
-        tcg_out_strd_8(s, COND_AL, arglo,
-                       TCG_REG_CALL_STACK, (argreg - 4) * 4);
-        return argreg + 2;
-    } else {
-        argreg = tcg_out_arg_reg32(s, argreg, arglo);
-        argreg = tcg_out_arg_reg32(s, argreg, arghi);
-        return argreg;
-    }
+    /* We arrive at the slow path via "BLNE", so R14 contains l->raddr. */
+    return TCG_REG_R14;
 }
 
+static const TCGLdstHelperParam ldst_helper_param = {
+    .ra_gen = ldst_ra_gen,
+    .ntmp = 1,
+    .tmp = { TCG_REG_TMP },
+};
+
 static bool tcg_out_qemu_ld_slow_path(TCGContext *s, TCGLabelQemuLdst *lb)
 {
-    TCGReg argreg;
-    MemOpIdx oi = lb->oi;
-    MemOp opc = get_memop(oi);
+    MemOp opc = get_memop(lb->oi);
 
     if (!reloc_pc24(lb->label_ptr[0], tcg_splitwx_to_rx(s->code_ptr))) {
         return false;
     }
 
-    argreg = tcg_out_arg_reg32(s, TCG_REG_R0, TCG_AREG0);
-    if (TARGET_LONG_BITS == 64) {
-        argreg = tcg_out_arg_reg64(s, argreg, lb->addrlo_reg, lb->addrhi_reg);
-    } else {
-        argreg = tcg_out_arg_reg32(s, argreg, lb->addrlo_reg);
-    }
-    argreg = tcg_out_arg_imm32(s, argreg, oi);
-    argreg = tcg_out_arg_reg32(s, argreg, TCG_REG_R14);
-
-    /* Use the canonical unsigned helpers and minimize icache usage. */
+    tcg_out_ld_helper_args(s, lb, &ldst_helper_param);
     tcg_out_call_int(s, qemu_ld_helpers[opc & MO_SIZE]);
-
-    if ((opc & MO_SIZE) == MO_64) {
-        TCGMovExtend ext[2] = {
-            { .dst = lb->datalo_reg, .dst_type = TCG_TYPE_I32,
-              .src = TCG_REG_R0, .src_type = TCG_TYPE_I32, .src_ext = MO_UL },
-            { .dst = lb->datahi_reg, .dst_type = TCG_TYPE_I32,
-              .src = TCG_REG_R1, .src_type = TCG_TYPE_I32, .src_ext = MO_UL },
-        };
-        tcg_out_movext2(s, &ext[0], &ext[1], TCG_REG_TMP);
-    } else {
-        tcg_out_movext(s, TCG_TYPE_I32, lb->datalo_reg,
-                       TCG_TYPE_I32, opc & MO_SSIZE, TCG_REG_R0);
-    }
+    tcg_out_ld_helper_ret(s, lb, false, &ldst_helper_param);
 
     tcg_out_goto(s, COND_AL, lb->raddr);
     return true;
@@ -XXX,XX +XXX,XX @@ static bool tcg_out_qemu_ld_slow_path(TCGContext *s, TCGLabelQemuLdst *lb)
 
 static bool tcg_out_qemu_st_slow_path(TCGContext *s, TCGLabelQemuLdst *lb)
 {
-    TCGReg argreg, datalo, datahi;
-    MemOpIdx oi = lb->oi;
-    MemOp opc = get_memop(oi);
+    MemOp opc = get_memop(lb->oi);
 
     if (!reloc_pc24(lb->label_ptr[0], tcg_splitwx_to_rx(s->code_ptr))) {
         return false;
     }
 
-    argreg = TCG_REG_R0;
-    argreg = tcg_out_arg_reg32(s, argreg, TCG_AREG0);
-    if (TARGET_LONG_BITS == 64) {
-        argreg = tcg_out_arg_reg64(s, argreg, lb->addrlo_reg, lb->addrhi_reg);
-    } else {
-        argreg = tcg_out_arg_reg32(s, argreg, lb->addrlo_reg);
-    }
-
-    datalo = lb->datalo_reg;
-    datahi = lb->datahi_reg;
-    switch (opc & MO_SIZE) {
-    case MO_8:
-        argreg = tcg_out_arg_reg8(s, argreg, datalo);
-        break;
-    case MO_16:
-        argreg = tcg_out_arg_reg16(s, argreg, datalo);
-        break;
-    case MO_32:
-    default:
-        argreg = tcg_out_arg_reg32(s, argreg, datalo);
-        break;
-    case MO_64:
-        argreg = tcg_out_arg_reg64(s, argreg, datalo, datahi);
-        break;
-    }
-
-    argreg = tcg_out_arg_imm32(s, argreg, oi);
-    argreg = tcg_out_arg_reg32(s, argreg, TCG_REG_R14);
+    tcg_out_st_helper_args(s, lb, &ldst_helper_param);
 
     /* Tail-call to the helper, which will return to the fast path.  */
     tcg_out_goto(s, COND_AL, qemu_st_helpers[opc & MO_SIZE]);
-- 
2.34.1

Use tcg_out_ld_helper_args, tcg_out_ld_helper_ret,
and tcg_out_st_helper_args.

Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/loongarch64/tcg-target.c.inc | 37 ++++++++++----------------------
 1 file changed, 11 insertions(+), 26 deletions(-)

diff --git a/tcg/loongarch64/tcg-target.c.inc b/tcg/loongarch64/tcg-target.c.inc
index XXXXXXX..XXXXXXX 100644
--- a/tcg/loongarch64/tcg-target.c.inc
+++ b/tcg/loongarch64/tcg-target.c.inc
@@ -XXX,XX +XXX,XX @@ static bool tcg_out_goto(TCGContext *s, const tcg_insn_unit *target)
     return reloc_br_sd10k16(s->code_ptr - 1, target);
 }
 
+static const TCGLdstHelperParam ldst_helper_param = {
+    .ntmp = 1, .tmp = { TCG_REG_TMP0 }
+};
+
 static bool tcg_out_qemu_ld_slow_path(TCGContext *s, TCGLabelQemuLdst *l)
 {
-    MemOpIdx oi = l->oi;
-    MemOp opc = get_memop(oi);
-    MemOp size = opc & MO_SIZE;
+    MemOp opc = get_memop(l->oi);
 
     /* resolve label address */
     if (!reloc_br_sk16(l->label_ptr[0], tcg_splitwx_to_rx(s->code_ptr))) {
         return false;
     }
 
-    /* call load helper */
-    tcg_out_mov(s, TCG_TYPE_PTR, TCG_REG_A0, TCG_AREG0);
-    tcg_out_mov(s, TCG_TYPE_PTR, TCG_REG_A1, l->addrlo_reg);
-    tcg_out_movi(s, TCG_TYPE_PTR, TCG_REG_A2, oi);
-    tcg_out_movi(s, TCG_TYPE_PTR, TCG_REG_A3, (tcg_target_long)l->raddr);
-
-    tcg_out_call_int(s, qemu_ld_helpers[size], false);
-
-    tcg_out_movext(s, l->type, l->datalo_reg,
-                   TCG_TYPE_REG, opc & MO_SSIZE, TCG_REG_A0);
+    tcg_out_ld_helper_args(s, l, &ldst_helper_param);
+    tcg_out_call_int(s, qemu_ld_helpers[opc & MO_SIZE], false);
+    tcg_out_ld_helper_ret(s, l, false, &ldst_helper_param);
     return tcg_out_goto(s, l->raddr);
 }
 
 static bool tcg_out_qemu_st_slow_path(TCGContext *s, TCGLabelQemuLdst *l)
 {
-    MemOpIdx oi = l->oi;
-    MemOp opc = get_memop(oi);
-    MemOp size = opc & MO_SIZE;
+    MemOp opc = get_memop(l->oi);
 
     /* resolve label address */
     if (!reloc_br_sk16(l->label_ptr[0], tcg_splitwx_to_rx(s->code_ptr))) {
         return false;
     }
 
-    /* call store helper */
-    tcg_out_mov(s, TCG_TYPE_PTR, TCG_REG_A0, TCG_AREG0);
-    tcg_out_mov(s, TCG_TYPE_PTR, TCG_REG_A1, l->addrlo_reg);
-    tcg_out_movext(s, size == MO_64 ? TCG_TYPE_I32 : TCG_TYPE_I32, TCG_REG_A2,
-                   l->type, size, l->datalo_reg);
-    tcg_out_movi(s, TCG_TYPE_PTR, TCG_REG_A3, oi);
-    tcg_out_movi(s, TCG_TYPE_PTR, TCG_REG_A4, (tcg_target_long)l->raddr);
-
-    tcg_out_call_int(s, qemu_st_helpers[size], false);
-
+    tcg_out_st_helper_args(s, l, &ldst_helper_param);
+    tcg_out_call_int(s, qemu_st_helpers[opc & MO_SIZE], false);
     return tcg_out_goto(s, l->raddr);
 }
 #else
-- 
2.34.1

Use tcg_out_ld_helper_args, tcg_out_ld_helper_ret,
and tcg_out_st_helper_args.  This allows our local
tcg_out_arg_* infrastructure to be removed.

We are no longer filling the call or return branch
delay slots, nor are we tail-calling for the store,
but this seems a small price to pay.

Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/mips/tcg-target.c.inc | 154 ++++++--------------------------------
 1 file changed, 22 insertions(+), 132 deletions(-)

diff --git a/tcg/mips/tcg-target.c.inc b/tcg/mips/tcg-target.c.inc
index XXXXXXX..XXXXXXX 100644
--- a/tcg/mips/tcg-target.c.inc
+++ b/tcg/mips/tcg-target.c.inc
@@ -XXX,XX +XXX,XX @@ static void * const qemu_st_helpers[(MO_SIZE | MO_BSWAP) + 1] = {
     [MO_BEUQ] = helper_be_stq_mmu,
 };
 
-/* Helper routines for marshalling helper function arguments into
- * the correct registers and stack.
- * I is where we want to put this argument, and is updated and returned
- * for the next call. ARG is the argument itself.
- *
- * We provide routines for arguments which are: immediate, 32 bit
- * value in register, 16 and 8 bit values in register (which must be zero
- * extended before use) and 64 bit value in a lo:hi register pair.
- */
-
-static int tcg_out_call_iarg_reg(TCGContext *s, int i, TCGReg arg)
-{
-    if (i < ARRAY_SIZE(tcg_target_call_iarg_regs)) {
-        tcg_out_mov(s, TCG_TYPE_REG, tcg_target_call_iarg_regs[i], arg);
-    } else {
-        /* For N32 and N64, the initial offset is different.  But there
-           we also have 8 argument register so we don't run out here.  */
-        tcg_debug_assert(TCG_TARGET_REG_BITS == 32);
-        tcg_out_st(s, TCG_TYPE_REG, arg, TCG_REG_SP, 4 * i);
-    }
-    return i + 1;
-}
-
-static int tcg_out_call_iarg_reg8(TCGContext *s, int i, TCGReg arg)
-{
-    TCGReg tmp = TCG_TMP0;
-    if (i < ARRAY_SIZE(tcg_target_call_iarg_regs)) {
-        tmp = tcg_target_call_iarg_regs[i];
-    }
-    tcg_out_ext8u(s, tmp, arg);
-    return tcg_out_call_iarg_reg(s, i, tmp);
-}
-
-static int tcg_out_call_iarg_reg16(TCGContext *s, int i, TCGReg arg)
-{
-    TCGReg tmp = TCG_TMP0;
-    if (i < ARRAY_SIZE(tcg_target_call_iarg_regs)) {
-        tmp = tcg_target_call_iarg_regs[i];
-    }
-    tcg_out_opc_imm(s, OPC_ANDI, tmp, arg, 0xffff);
-    return tcg_out_call_iarg_reg(s, i, tmp);
-}
-
-static int tcg_out_call_iarg_imm(TCGContext *s, int i, TCGArg arg)
-{
-    TCGReg tmp = TCG_TMP0;
-    if (arg == 0) {
-        tmp = TCG_REG_ZERO;
-    } else {
-        if (i < ARRAY_SIZE(tcg_target_call_iarg_regs)) {
-            tmp = tcg_target_call_iarg_regs[i];
-        }
-        tcg_out_movi(s, TCG_TYPE_REG, tmp, arg);
-    }
-    return tcg_out_call_iarg_reg(s, i, tmp);
-}
-
-static int tcg_out_call_iarg_reg2(TCGContext *s, int i, TCGReg al, TCGReg ah)
-{
-    tcg_debug_assert(TCG_TARGET_REG_BITS == 32);
-    i = (i + 1) & ~1;
-    i = tcg_out_call_iarg_reg(s, i, (MIPS_BE ? ah : al));
-    i = tcg_out_call_iarg_reg(s, i, (MIPS_BE ? al : ah));
-    return i;
-}
+/* We have four temps, we might as well expose three of them. */
+static const TCGLdstHelperParam ldst_helper_param = {
+    .ntmp = 3, .tmp = { TCG_TMP0, TCG_TMP1, TCG_TMP2 }
+};
 
 static bool tcg_out_qemu_ld_slow_path(TCGContext *s, TCGLabelQemuLdst *l)
 {
     const tcg_insn_unit *tgt_rx = tcg_splitwx_to_rx(s->code_ptr);
-    MemOpIdx oi = l->oi;
-    MemOp opc = get_memop(oi);
-    TCGReg v0;
-    int i;
+    MemOp opc = get_memop(l->oi);
 
     /* resolve label address */
     if (!reloc_pc16(l->label_ptr[0], tgt_rx)
@@ -XXX,XX +XXX,XX @@ static bool tcg_out_qemu_ld_slow_path(TCGContext *s, TCGLabelQemuLdst *l)
         return false;
     }
 
-    i = 1;
-    if (TCG_TARGET_REG_BITS < TARGET_LONG_BITS) {
-        i = tcg_out_call_iarg_reg2(s, i, l->addrlo_reg, l->addrhi_reg);
-    } else {
-        i = tcg_out_call_iarg_reg(s, i, l->addrlo_reg);
-    }
-    i = tcg_out_call_iarg_imm(s, i, oi);
-    i = tcg_out_call_iarg_imm(s, i, (intptr_t)l->raddr);
+    tcg_out_ld_helper_args(s, l, &ldst_helper_param);
+
     tcg_out_call_int(s, qemu_ld_helpers[opc & (MO_BSWAP | MO_SSIZE)], false);
     /* delay slot */
-    tcg_out_mov(s, TCG_TYPE_PTR, tcg_target_call_iarg_regs[0], TCG_AREG0);
+    tcg_out_nop(s);
 
-    v0 = l->datalo_reg;
-    if (TCG_TARGET_REG_BITS == 32 && (opc & MO_SIZE) == MO_64) {
-        /* We eliminated V0 from the possible output registers, so it
-           cannot be clobbered here.  So we must move V1 first.  */
-        if (MIPS_BE) {
-            tcg_out_mov(s, TCG_TYPE_I32, v0, TCG_REG_V1);
-            v0 = l->datahi_reg;
-        } else {
-            tcg_out_mov(s, TCG_TYPE_I32, l->datahi_reg, TCG_REG_V1);
-        }
-    }
+    tcg_out_ld_helper_ret(s, l, true, &ldst_helper_param);
 
     tcg_out_opc_br(s, OPC_BEQ, TCG_REG_ZERO, TCG_REG_ZERO);
     if (!reloc_pc16(s->code_ptr - 1, l->raddr)) {
@@ -XXX,XX +XXX,XX @@ static bool tcg_out_qemu_ld_slow_path(TCGContext *s, TCGLabelQemuLdst *l)
     }
 
     /* delay slot */
-    if (TCG_TARGET_REG_BITS == 64 && l->type == TCG_TYPE_I32) {
-        /* we always sign-extend 32-bit loads */
-        tcg_out_ext32s(s, v0, TCG_REG_V0);
-    } else {
-        tcg_out_opc_reg(s, OPC_OR, v0, TCG_REG_V0, TCG_REG_ZERO);
-    }
+    tcg_out_nop(s);
     return true;
 }
 
 static bool tcg_out_qemu_st_slow_path(TCGContext *s, TCGLabelQemuLdst *l)
 {
     const tcg_insn_unit *tgt_rx = tcg_splitwx_to_rx(s->code_ptr);
-    MemOpIdx oi = l->oi;
-    MemOp opc = get_memop(oi);
-    MemOp s_bits = opc & MO_SIZE;
-    int i;
+    MemOp opc = get_memop(l->oi);
 
     /* resolve label address */
     if (!reloc_pc16(l->label_ptr[0], tgt_rx)
@@ -XXX,XX +XXX,XX @@ static bool tcg_out_qemu_st_slow_path(TCGContext *s, TCGLabelQemuLdst *l)
         return false;
     }
 
-    i = 1;
-    if (TCG_TARGET_REG_BITS < TARGET_LONG_BITS) {
-        i = tcg_out_call_iarg_reg2(s, i, l->addrlo_reg, l->addrhi_reg);
-    } else {
-        i = tcg_out_call_iarg_reg(s, i, l->addrlo_reg);
-    }
-    switch (s_bits) {
-    case MO_8:
-        i = tcg_out_call_iarg_reg8(s, i, l->datalo_reg);
-        break;
-    case MO_16:
-        i = tcg_out_call_iarg_reg16(s, i, l->datalo_reg);
-        break;
-    case MO_32:
-        i = tcg_out_call_iarg_reg(s, i, l->datalo_reg);
-        break;
-    case MO_64:
-        if (TCG_TARGET_REG_BITS == 32) {
-            i = tcg_out_call_iarg_reg2(s, i, l->datalo_reg, l->datahi_reg);
-        } else {
-            i = tcg_out_call_iarg_reg(s, i, l->datalo_reg);
-        }
-        break;
-    default:
-        g_assert_not_reached();
-    }
-    i = tcg_out_call_iarg_imm(s, i, oi);
+    tcg_out_st_helper_args(s, l, &ldst_helper_param);
 
-    /* Tail call to the store helper.  Thus force the return address
-       computation to take place in the return address register.  */
-    tcg_out_movi(s, TCG_TYPE_PTR, TCG_REG_RA, (intptr_t)l->raddr);
-    i = tcg_out_call_iarg_reg(s, i, TCG_REG_RA);
-    tcg_out_call_int(s, qemu_st_helpers[opc & (MO_BSWAP | MO_SIZE)], true);
+    tcg_out_call_int(s, qemu_st_helpers[opc & (MO_BSWAP | MO_SIZE)], false);
     /* delay slot */
-    tcg_out_mov(s, TCG_TYPE_PTR, tcg_target_call_iarg_regs[0], TCG_AREG0);
+    tcg_out_nop(s);
+
+    tcg_out_opc_br(s, OPC_BEQ, TCG_REG_ZERO, TCG_REG_ZERO);
+    if (!reloc_pc16(s->code_ptr - 1, l->raddr)) {
+        return false;
+    }
+
+    /* delay slot */
+    tcg_out_nop(s);
     return true;
 }
 
-- 
2.34.1

Use tcg_out_ld_helper_args, tcg_out_ld_helper_ret,
and tcg_out_st_helper_args.

Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
Reviewed-by: Daniel Henrique Barboza <danielhb413@gmail.com>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/ppc/tcg-target.c.inc | 88 ++++++++++++----------------------------
 1 file changed, 26 insertions(+), 62 deletions(-)

Use tcg_out_ld_helper_args, tcg_out_ld_helper_ret,
and tcg_out_st_helper_args.

Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
Reviewed-by: Daniel Henrique Barboza <dbarboza@ventanamicro.com>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/riscv/tcg-target.c.inc | 37 ++++++++++---------------------------
 1 file changed, 10 insertions(+), 27 deletions(-)

diff --git a/tcg/riscv/tcg-target.c.inc b/tcg/riscv/tcg-target.c.inc
index XXXXXXX..XXXXXXX 100644
--- a/tcg/riscv/tcg-target.c.inc
+++ b/tcg/riscv/tcg-target.c.inc
@@ -XXX,XX +XXX,XX @@ static void tcg_out_goto(TCGContext *s, const tcg_insn_unit *target)
     tcg_debug_assert(ok);
 }
 
+/* We have three temps, we might as well expose them. */
+static const TCGLdstHelperParam ldst_helper_param = {
+    .ntmp = 3, .tmp = { TCG_REG_TMP0, TCG_REG_TMP1, TCG_REG_TMP2 }
+};
+
 static bool tcg_out_qemu_ld_slow_path(TCGContext *s, TCGLabelQemuLdst *l)
 {
-    MemOpIdx oi = l->oi;
-    MemOp opc = get_memop(oi);
-    TCGReg a0 = tcg_target_call_iarg_regs[0];
-    TCGReg a1 = tcg_target_call_iarg_regs[1];
-    TCGReg a2 = tcg_target_call_iarg_regs[2];
-    TCGReg a3 = tcg_target_call_iarg_regs[3];
+    MemOp opc = get_memop(l->oi);
 
     /* resolve label address */
     if (!reloc_sbimm12(l->label_ptr[0], tcg_splitwx_to_rx(s->code_ptr))) {
@@ -XXX,XX +XXX,XX @@ static bool tcg_out_qemu_ld_slow_path(TCGContext *s, TCGLabelQemuLdst *l)
     }
 
     /* call load helper */
-    tcg_out_mov(s, TCG_TYPE_PTR, a0, TCG_AREG0);
-    tcg_out_mov(s, TCG_TYPE_PTR, a1, l->addrlo_reg);
-    tcg_out_movi(s, TCG_TYPE_PTR, a2, oi);
-    tcg_out_movi(s, TCG_TYPE_PTR, a3, (tcg_target_long)l->raddr);
-
+    tcg_out_ld_helper_args(s, l, &ldst_helper_param);
     tcg_out_call_int(s, qemu_ld_helpers[opc & MO_SSIZE], false);
-    tcg_out_mov(s, (opc & MO_SIZE) == MO_64, l->datalo_reg, a0);
+    tcg_out_ld_helper_ret(s, l, true, &ldst_helper_param);
 
     tcg_out_goto(s, l->raddr);
     return true;
@@ -XXX,XX +XXX,XX @@ static bool tcg_out_qemu_ld_slow_path(TCGContext *s, TCGLabelQemuLdst *l)
 
 static bool tcg_out_qemu_st_slow_path(TCGContext *s, TCGLabelQemuLdst *l)
 {
-    MemOpIdx oi = l->oi;
-    MemOp opc = get_memop(oi);
-    MemOp s_bits = opc & MO_SIZE;
-    TCGReg a0 = tcg_target_call_iarg_regs[0];
-    TCGReg a1 = tcg_target_call_iarg_regs[1];
-    TCGReg a2 = tcg_target_call_iarg_regs[2];
-    TCGReg a3 = tcg_target_call_iarg_regs[3];
-    TCGReg a4 = tcg_target_call_iarg_regs[4];
+    MemOp opc = get_memop(l->oi);
 
     /* resolve label address */
     if (!reloc_sbimm12(l->label_ptr[0], tcg_splitwx_to_rx(s->code_ptr))) {
@@ -XXX,XX +XXX,XX @@ static bool tcg_out_qemu_st_slow_path(TCGContext *s, TCGLabelQemuLdst *l)
     }
 
     /* call store helper */
-    tcg_out_mov(s, TCG_TYPE_PTR, a0, TCG_AREG0);
-    tcg_out_mov(s, TCG_TYPE_PTR, a1, l->addrlo_reg);
-    tcg_out_movext(s, s_bits == MO_64 ? TCG_TYPE_I64 : TCG_TYPE_I32, a2,
-                   l->type, s_bits, l->datalo_reg);
-    tcg_out_movi(s, TCG_TYPE_PTR, a3, oi);
-    tcg_out_movi(s, TCG_TYPE_PTR, a4, (tcg_target_long)l->raddr);
-
+    tcg_out_st_helper_args(s, l, &ldst_helper_param);
     tcg_out_call_int(s, qemu_st_helpers[opc & MO_SIZE], false);
 
     tcg_out_goto(s, l->raddr);
-- 
2.34.1

Use tcg_out_ld_helper_args, tcg_out_ld_helper_ret,
and tcg_out_st_helper_args.

Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/s390x/tcg-target.c.inc | 35 ++++++++++-------------------------
 1 file changed, 10 insertions(+), 25 deletions(-)

The softmmu tlb uses TCG_REG_TMP[0-2], not any of the normally available
registers.  Now that we handle overlap betwen inputs and helper arguments,
we can allow any allocatable reg.

Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/loongarch64/tcg-target-con-set.h |  2 --
 tcg/loongarch64/tcg-target-con-str.h |  1 -
 tcg/loongarch64/tcg-target.c.inc     | 23 ++++-------------------
 3 files changed, 4 insertions(+), 22 deletions(-)

diff --git a/tcg/loongarch64/tcg-target-con-set.h b/tcg/loongarch64/tcg-target-con-set.h
index XXXXXXX..XXXXXXX 100644
--- a/tcg/loongarch64/tcg-target-con-set.h
+++ b/tcg/loongarch64/tcg-target-con-set.h
@@ -XXX,XX +XXX,XX @@
 C_O0_I1(r)
 C_O0_I2(rZ, r)
 C_O0_I2(rZ, rZ)
-C_O0_I2(LZ, L)
 C_O1_I1(r, r)
-C_O1_I1(r, L)
 C_O1_I2(r, r, rC)
 C_O1_I2(r, r, ri)
 C_O1_I2(r, r, rI)
diff --git a/tcg/loongarch64/tcg-target-con-str.h b/tcg/loongarch64/tcg-target-con-str.h
index XXXXXXX..XXXXXXX 100644
--- a/tcg/loongarch64/tcg-target-con-str.h
+++ b/tcg/loongarch64/tcg-target-con-str.h
@@ -XXX,XX +XXX,XX @@
  * REGS(letter, register_mask)
  */
 REGS('r', ALL_GENERAL_REGS)
-REGS('L', ALL_GENERAL_REGS & ~SOFTMMU_RESERVE_REGS)
 
 /*
  * Define constraint letters for constants:
diff --git a/tcg/loongarch64/tcg-target.c.inc b/tcg/loongarch64/tcg-target.c.inc
index XXXXXXX..XXXXXXX 100644
--- a/tcg/loongarch64/tcg-target.c.inc
+++ b/tcg/loongarch64/tcg-target.c.inc
@@ -XXX,XX +XXX,XX @@ static TCGReg tcg_target_call_oarg_reg(TCGCallReturnKind kind, int slot)
 #define TCG_CT_CONST_C12   0x1000
 #define TCG_CT_CONST_WSZ   0x2000
 
-#define ALL_GENERAL_REGS      MAKE_64BIT_MASK(0, 32)
-/*
- * For softmmu, we need to avoid conflicts with the first 5
- * argument registers to call the helper.  Some of these are
- * also used for the tlb lookup.
- */
-#ifdef CONFIG_SOFTMMU
-#define SOFTMMU_RESERVE_REGS  MAKE_64BIT_MASK(TCG_REG_A0, 5)
-#else
-#define SOFTMMU_RESERVE_REGS  0
-#endif
-
+#define ALL_GENERAL_REGS   MAKE_64BIT_MASK(0, 32)
 
 static inline tcg_target_long sextreg(tcg_target_long val, int pos, int len)
 {
@@ -XXX,XX +XXX,XX @@ static TCGConstraintSetIndex tcg_target_op_def(TCGOpcode op)
     case INDEX_op_st32_i64:
     case INDEX_op_st_i32:
     case INDEX_op_st_i64:
+    case INDEX_op_qemu_st_i32:
+    case INDEX_op_qemu_st_i64:
         return C_O0_I2(rZ, r);
 
     case INDEX_op_brcond_i32:
     case INDEX_op_brcond_i64:
         return C_O0_I2(rZ, rZ);
 
-    case INDEX_op_qemu_st_i32:
-    case INDEX_op_qemu_st_i64:
-        return C_O0_I2(LZ, L);
-
     case INDEX_op_ext8s_i32:
     case INDEX_op_ext8s_i64:
     case INDEX_op_ext8u_i32:
@@ -XXX,XX +XXX,XX @@ static TCGConstraintSetIndex tcg_target_op_def(TCGOpcode op)
     case INDEX_op_ld32u_i64:
     case INDEX_op_ld_i32:
     case INDEX_op_ld_i64:
-        return C_O1_I1(r, r);
-
     case INDEX_op_qemu_ld_i32:
     case INDEX_op_qemu_ld_i64:
-        return C_O1_I1(r, L);
+        return C_O1_I1(r, r);
 
     case INDEX_op_andc_i32:
     case INDEX_op_andc_i64:
-- 
2.34.1

While performing the load in the delay slot of the call to the common
bswap helper function is cute, it is not worth the added complexity.

Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/mips/tcg-target.h     |   4 +-
 tcg/mips/tcg-target.c.inc | 284 ++++++--------------------------------
 2 files changed, 48 insertions(+), 240 deletions(-)

diff --git a/tcg/mips/tcg-target.h b/tcg/mips/tcg-target.h
index XXXXXXX..XXXXXXX 100644
--- a/tcg/mips/tcg-target.h
+++ b/tcg/mips/tcg-target.h
@@ -XXX,XX +XXX,XX @@ extern bool use_mips32r2_instructions;
 #define TCG_TARGET_HAS_ext16u_i64       0 /* andi rt, rs, 0xffff */
 #endif
 
-#define TCG_TARGET_DEFAULT_MO (0)
-#define TCG_TARGET_HAS_MEMORY_BSWAP     1
+#define TCG_TARGET_DEFAULT_MO           0
+#define TCG_TARGET_HAS_MEMORY_BSWAP     0
 
 #define TCG_TARGET_NEED_LDST_LABELS
 
diff --git a/tcg/mips/tcg-target.c.inc b/tcg/mips/tcg-target.c.inc
index XXXXXXX..XXXXXXX 100644
--- a/tcg/mips/tcg-target.c.inc
+++ b/tcg/mips/tcg-target.c.inc
@@ -XXX,XX +XXX,XX @@ static void tcg_out_call(TCGContext *s, const tcg_insn_unit *arg,
 }
 
 #if defined(CONFIG_SOFTMMU)
-static void * const qemu_ld_helpers[(MO_SSIZE | MO_BSWAP) + 1] = {
+static void * const qemu_ld_helpers[MO_SSIZE + 1] = {
     [MO_UB]   = helper_ret_ldub_mmu,
     [MO_SB]   = helper_ret_ldsb_mmu,
-    [MO_LEUW] = helper_le_lduw_mmu,
-    [MO_LESW] = helper_le_ldsw_mmu,
-    [MO_LEUL] = helper_le_ldul_mmu,
-    [MO_LEUQ] = helper_le_ldq_mmu,
-    [MO_BEUW] = helper_be_lduw_mmu,
-    [MO_BESW] = helper_be_ldsw_mmu,
-    [MO_BEUL] = helper_be_ldul_mmu,
-    [MO_BEUQ] = helper_be_ldq_mmu,
-#if TCG_TARGET_REG_BITS == 64
-    [MO_LESL] = helper_le_ldsl_mmu,
-    [MO_BESL] = helper_be_ldsl_mmu,
+#if HOST_BIG_ENDIAN
+    [MO_UW] = helper_be_lduw_mmu,
+    [MO_SW] = helper_be_ldsw_mmu,
+    [MO_UL] = helper_be_ldul_mmu,
+    [MO_SL] = helper_be_ldsl_mmu,
+    [MO_UQ] = helper_be_ldq_mmu,
+#else
+    [MO_UW] = helper_le_lduw_mmu,
+    [MO_SW] = helper_le_ldsw_mmu,
+    [MO_UL] = helper_le_ldul_mmu,
+    [MO_UQ] = helper_le_ldq_mmu,
+    [MO_SL] = helper_le_ldsl_mmu,
 #endif
 };
 
-static void * const qemu_st_helpers[(MO_SIZE | MO_BSWAP) + 1] = {
+static void * const qemu_st_helpers[MO_SIZE + 1] = {
     [MO_UB]   = helper_ret_stb_mmu,
-    [MO_LEUW] = helper_le_stw_mmu,
-    [MO_LEUL] = helper_le_stl_mmu,
-    [MO_LEUQ] = helper_le_stq_mmu,
-    [MO_BEUW] = helper_be_stw_mmu,
-    [MO_BEUL] = helper_be_stl_mmu,
-    [MO_BEUQ] = helper_be_stq_mmu,
+#if HOST_BIG_ENDIAN
+    [MO_UW] = helper_be_stw_mmu,
+    [MO_UL] = helper_be_stl_mmu,
+    [MO_UQ] = helper_be_stq_mmu,
+#else
+    [MO_UW] = helper_le_stw_mmu,
+    [MO_UL] = helper_le_stl_mmu,
+    [MO_UQ] = helper_le_stq_mmu,
+#endif
 };
 
 /* We have four temps, we might as well expose three of them. */
@@ -XXX,XX +XXX,XX @@ static bool tcg_out_qemu_ld_slow_path(TCGContext *s, TCGLabelQemuLdst *l)
 
     tcg_out_ld_helper_args(s, l, &ldst_helper_param);
 
-    tcg_out_call_int(s, qemu_ld_helpers[opc & (MO_BSWAP | MO_SSIZE)], false);
+    tcg_out_call_int(s, qemu_ld_helpers[opc & MO_SSIZE], false);
     /* delay slot */
     tcg_out_nop(s);
 
@@ -XXX,XX +XXX,XX @@ static bool tcg_out_qemu_st_slow_path(TCGContext *s, TCGLabelQemuLdst *l)
 
     tcg_out_st_helper_args(s, l, &ldst_helper_param);
 
-    tcg_out_call_int(s, qemu_st_helpers[opc & (MO_BSWAP | MO_SIZE)], false);
+    tcg_out_call_int(s, qemu_st_helpers[opc & MO_SIZE], false);
     /* delay slot */
     tcg_out_nop(s);
 
@@ -XXX,XX +XXX,XX @@ static TCGLabelQemuLdst *prepare_host_addr(TCGContext *s, HostAddress *h,
 static void tcg_out_qemu_ld_direct(TCGContext *s, TCGReg lo, TCGReg hi,
                                    TCGReg base, MemOp opc, TCGType type)
 {
-    switch (opc & (MO_SSIZE | MO_BSWAP)) {
+    switch (opc & MO_SSIZE) {
     case MO_UB:
         tcg_out_opc_imm(s, OPC_LBU, lo, base, 0);
         break;
     case MO_SB:
         tcg_out_opc_imm(s, OPC_LB, lo, base, 0);
         break;
-    case MO_UW | MO_BSWAP:
-        tcg_out_opc_imm(s, OPC_LHU, TCG_TMP1, base, 0);
-        tcg_out_bswap16(s, lo, TCG_TMP1, TCG_BSWAP_IZ | TCG_BSWAP_OZ);
-        break;
     case MO_UW:
         tcg_out_opc_imm(s, OPC_LHU, lo, base, 0);
         break;
-    case MO_SW | MO_BSWAP:
-        tcg_out_opc_imm(s, OPC_LHU, TCG_TMP1, base, 0);
-        tcg_out_bswap16(s, lo, TCG_TMP1, TCG_BSWAP_IZ | TCG_BSWAP_OS);
-        break;
     case MO_SW:
         tcg_out_opc_imm(s, OPC_LH, lo, base, 0);
         break;
-    case MO_UL | MO_BSWAP:
-        if (TCG_TARGET_REG_BITS == 64 && type == TCG_TYPE_I64) {
-            if (use_mips32r2_instructions) {
-                tcg_out_opc_imm(s, OPC_LWU, lo, base, 0);
-                tcg_out_bswap32(s, lo, lo, TCG_BSWAP_IZ | TCG_BSWAP_OZ);
-            } else {
-                tcg_out_bswap_subr(s, bswap32u_addr);
-                /* delay slot */
-                tcg_out_opc_imm(s, OPC_LWU, TCG_TMP0, base, 0);
-                tcg_out_mov(s, TCG_TYPE_I64, lo, TCG_TMP3);
-            }
-            break;
-        }
-        /* FALLTHRU */
-    case MO_SL | MO_BSWAP:
-        if (use_mips32r2_instructions) {
-            tcg_out_opc_imm(s, OPC_LW, lo, base, 0);
-            tcg_out_bswap32(s, lo, lo, 0);
-        } else {
-            tcg_out_bswap_subr(s, bswap32_addr);
-            /* delay slot */
-            tcg_out_opc_imm(s, OPC_LW, TCG_TMP0, base, 0);
-            tcg_out_mov(s, TCG_TYPE_I32, lo, TCG_TMP3);
-        }
-        break;
     case MO_UL:
         if (TCG_TARGET_REG_BITS == 64 && type == TCG_TYPE_I64) {
             tcg_out_opc_imm(s, OPC_LWU, lo, base, 0);
@@ -XXX,XX +XXX,XX @@ static void tcg_out_qemu_ld_direct(TCGContext *s, TCGReg lo, TCGReg hi,
     case MO_SL:
         tcg_out_opc_imm(s, OPC_LW, lo, base, 0);
         break;
-    case MO_UQ | MO_BSWAP:
-        if (TCG_TARGET_REG_BITS == 64) {
-            if (use_mips32r2_instructions) {
-                tcg_out_opc_imm(s, OPC_LD, lo, base, 0);
-                tcg_out_bswap64(s, lo, lo);
-            } else {
-                tcg_out_bswap_subr(s, bswap64_addr);
-                /* delay slot */
-                tcg_out_opc_imm(s, OPC_LD, TCG_TMP0, base, 0);
-                tcg_out_mov(s, TCG_TYPE_I64, lo, TCG_TMP3);
-            }
-        } else if (use_mips32r2_instructions) {
-            tcg_out_opc_imm(s, OPC_LW, TCG_TMP0, base, 0);
-            tcg_out_opc_imm(s, OPC_LW, TCG_TMP1, base, 4);
-            tcg_out_opc_reg(s, OPC_WSBH, TCG_TMP0, 0, TCG_TMP0);
-            tcg_out_opc_reg(s, OPC_WSBH, TCG_TMP1, 0, TCG_TMP1);
-            tcg_out_opc_sa(s, OPC_ROTR, MIPS_BE ? lo : hi, TCG_TMP0, 16);
-            tcg_out_opc_sa(s, OPC_ROTR, MIPS_BE ? hi : lo, TCG_TMP1, 16);
-        } else {
-            tcg_out_bswap_subr(s, bswap32_addr);
-            /* delay slot */
-            tcg_out_opc_imm(s, OPC_LW, TCG_TMP0, base, 0);
-            tcg_out_opc_imm(s, OPC_LW, TCG_TMP0, base, 4);
-            tcg_out_bswap_subr(s, bswap32_addr);
-            /* delay slot */
-            tcg_out_mov(s, TCG_TYPE_I32, MIPS_BE ? lo : hi, TCG_TMP3);
-            tcg_out_mov(s, TCG_TYPE_I32, MIPS_BE ? hi : lo, TCG_TMP3);
-        }
-        break;
     case MO_UQ:
         /* Prefer to load from offset 0 first, but allow for overlap.  */
         if (TCG_TARGET_REG_BITS == 64) {
@@ -XXX,XX +XXX,XX @@ static void tcg_out_qemu_ld_unalign(TCGContext *s, TCGReg lo, TCGReg hi,
     const MIPSInsn lw2 = MIPS_BE ? OPC_LWR : OPC_LWL;
     const MIPSInsn ld1 = MIPS_BE ? OPC_LDL : OPC_LDR;
     const MIPSInsn ld2 = MIPS_BE ? OPC_LDR : OPC_LDL;
+    bool sgn = opc & MO_SIGN;
 
-    bool sgn = (opc & MO_SIGN);
-
-    switch (opc & (MO_SSIZE | MO_BSWAP)) {
-    case MO_SW | MO_BE:
-    case MO_UW | MO_BE:
-        tcg_out_opc_imm(s, sgn ? OPC_LB : OPC_LBU, TCG_TMP0, base, 0);
-        tcg_out_opc_imm(s, OPC_LBU, lo, base, 1);
-        if (use_mips32r2_instructions) {
-            tcg_out_opc_bf(s, OPC_INS, lo, TCG_TMP0, 31, 8);
-        } else {
-            tcg_out_opc_sa(s, OPC_SLL, TCG_TMP0, TCG_TMP0, 8);
-            tcg_out_opc_reg(s, OPC_OR, lo, TCG_TMP0, TCG_TMP1);
-        }
-        break;
-
-    case MO_SW | MO_LE:
-    case MO_UW | MO_LE:
-        if (use_mips32r2_instructions && lo != base) {
+    switch (opc & MO_SIZE) {
+    case MO_16:
+        if (HOST_BIG_ENDIAN) {
+            tcg_out_opc_imm(s, sgn ? OPC_LB : OPC_LBU, TCG_TMP0, base, 0);
+            tcg_out_opc_imm(s, OPC_LBU, lo, base, 1);
+            if (use_mips32r2_instructions) {
+                tcg_out_opc_bf(s, OPC_INS, lo, TCG_TMP0, 31, 8);
+            } else {
+                tcg_out_opc_sa(s, OPC_SLL, TCG_TMP0, TCG_TMP0, 8);
+                tcg_out_opc_reg(s, OPC_OR, lo, lo, TCG_TMP0);
+            }
+        } else if (use_mips32r2_instructions && lo != base) {
             tcg_out_opc_imm(s, OPC_LBU, lo, base, 0);
             tcg_out_opc_imm(s, sgn ? OPC_LB : OPC_LBU, TCG_TMP0, base, 1);
             tcg_out_opc_bf(s, OPC_INS, lo, TCG_TMP0, 31, 8);
@@ -XXX,XX +XXX,XX @@ static void tcg_out_qemu_ld_unalign(TCGContext *s, TCGReg lo, TCGReg hi,
         }
         break;
 
-    case MO_SL:
-    case MO_UL:
+    case MO_32:
         tcg_out_opc_imm(s, lw1, lo, base, 0);
         tcg_out_opc_imm(s, lw2, lo, base, 3);
         if (TCG_TARGET_REG_BITS == 64 && type == TCG_TYPE_I64 && !sgn) {
@@ -XXX,XX +XXX,XX @@ static void tcg_out_qemu_ld_unalign(TCGContext *s, TCGReg lo, TCGReg hi,
         }
         break;
 
-    case MO_UL | MO_BSWAP:
-    case MO_SL | MO_BSWAP:
-        if (use_mips32r2_instructions) {
-            tcg_out_opc_imm(s, lw1, lo, base, 0);
-            tcg_out_opc_imm(s, lw2, lo, base, 3);
-            tcg_out_bswap32(s, lo, lo,
-                            TCG_TARGET_REG_BITS == 64 && type == TCG_TYPE_I64
-                            ? (sgn ? TCG_BSWAP_OS : TCG_BSWAP_OZ) : 0);
-        } else {
-            const tcg_insn_unit *subr =
-                (TCG_TARGET_REG_BITS == 64 && type == TCG_TYPE_I64 && !sgn
-                 ? bswap32u_addr : bswap32_addr);
-
-            tcg_out_opc_imm(s, lw1, TCG_TMP0, base, 0);
-            tcg_out_bswap_subr(s, subr);
-            /* delay slot */
-            tcg_out_opc_imm(s, lw2, TCG_TMP0, base, 3);
-            tcg_out_mov(s, type, lo, TCG_TMP3);
-        }
-        break;
-
-    case MO_UQ:
+    case MO_64:
         if (TCG_TARGET_REG_BITS == 64) {
             tcg_out_opc_imm(s, ld1, lo, base, 0);
             tcg_out_opc_imm(s, ld2, lo, base, 7);
@@ -XXX,XX +XXX,XX @@ static void tcg_out_qemu_ld_unalign(TCGContext *s, TCGReg lo, TCGReg hi,
         }
         break;
 
-    case MO_UQ | MO_BSWAP:
-        if (TCG_TARGET_REG_BITS == 64) {
-            if (use_mips32r2_instructions) {
-                tcg_out_opc_imm(s, ld1, lo, base, 0);
-                tcg_out_opc_imm(s, ld2, lo, base, 7);
-                tcg_out_bswap64(s, lo, lo);
-            } else {
-                tcg_out_opc_imm(s, ld1, TCG_TMP0, base, 0);
-                tcg_out_bswap_subr(s, bswap64_addr);
-                /* delay slot */
-                tcg_out_opc_imm(s, ld2, TCG_TMP0, base, 7);
-                tcg_out_mov(s, TCG_TYPE_I64, lo, TCG_TMP3);
-            }
-        } else if (use_mips32r2_instructions) {
-            tcg_out_opc_imm(s, lw1, TCG_TMP0, base, 0 + 0);
-            tcg_out_opc_imm(s, lw2, TCG_TMP0, base, 0 + 3);
-            tcg_out_opc_imm(s, lw1, TCG_TMP1, base, 4 + 0);
-            tcg_out_opc_imm(s, lw2, TCG_TMP1, base, 4 + 3);
-            tcg_out_opc_reg(s, OPC_WSBH, TCG_TMP0, 0, TCG_TMP0);
-            tcg_out_opc_reg(s, OPC_WSBH, TCG_TMP1, 0, TCG_TMP1);
-            tcg_out_opc_sa(s, OPC_ROTR, MIPS_BE ? lo : hi, TCG_TMP0, 16);
-            tcg_out_opc_sa(s, OPC_ROTR, MIPS_BE ? hi : lo, TCG_TMP1, 16);
-        } else {
-            tcg_out_opc_imm(s, lw1, TCG_TMP0, base, 0 + 0);
-            tcg_out_bswap_subr(s, bswap32_addr);
-            /* delay slot */
-            tcg_out_opc_imm(s, lw2, TCG_TMP0, base, 0 + 3);
-            tcg_out_opc_imm(s, lw1, TCG_TMP0, base, 4 + 0);
-            tcg_out_mov(s, TCG_TYPE_I32, MIPS_BE ? lo : hi, TCG_TMP3);
-            tcg_out_bswap_subr(s, bswap32_addr);
-            /* delay slot */
-            tcg_out_opc_imm(s, lw2, TCG_TMP0, base, 4 + 3);
-            tcg_out_mov(s, TCG_TYPE_I32, MIPS_BE ? hi : lo, TCG_TMP3);
-        }
-        break;
-
     default:
         g_assert_not_reached();
     }
@@ -XXX,XX +XXX,XX @@ static void tcg_out_qemu_ld(TCGContext *s, TCGReg datalo, TCGReg datahi,
 static void tcg_out_qemu_st_direct(TCGContext *s, TCGReg lo, TCGReg hi,
                                    TCGReg base, MemOp opc)
 {
-    /* Don't clutter the code below with checks to avoid bswapping ZERO.  */
-    if ((lo | hi) == 0) {
-        opc &= ~MO_BSWAP;
-    }
-
-    switch (opc & (MO_SIZE | MO_BSWAP)) {
+    switch (opc & MO_SIZE) {
     case MO_8:
         tcg_out_opc_imm(s, OPC_SB, lo, base, 0);
         break;
-
-    case MO_16 | MO_BSWAP:
-        tcg_out_bswap16(s, TCG_TMP1, lo, 0);
-        lo = TCG_TMP1;
-        /* FALLTHRU */
     case MO_16:
         tcg_out_opc_imm(s, OPC_SH, lo, base, 0);
         break;
-
-    case MO_32 | MO_BSWAP:
-        tcg_out_bswap32(s, TCG_TMP3, lo, 0);
-        lo = TCG_TMP3;
-        /* FALLTHRU */
     case MO_32:
         tcg_out_opc_imm(s, OPC_SW, lo, base, 0);
         break;
-
-    case MO_64 | MO_BSWAP:
-        if (TCG_TARGET_REG_BITS == 64) {
-            tcg_out_bswap64(s, TCG_TMP3, lo);
-            tcg_out_opc_imm(s, OPC_SD, TCG_TMP3, base, 0);
-        } else if (use_mips32r2_instructions) {
-            tcg_out_opc_reg(s, OPC_WSBH, TCG_TMP0, 0, MIPS_BE ? lo : hi);
-            tcg_out_opc_reg(s, OPC_WSBH, TCG_TMP1, 0, MIPS_BE ? hi : lo);
-            tcg_out_opc_sa(s, OPC_ROTR, TCG_TMP0, TCG_TMP0, 16);
-            tcg_out_opc_sa(s, OPC_ROTR, TCG_TMP1, TCG_TMP1, 16);
-            tcg_out_opc_imm(s, OPC_SW, TCG_TMP0, base, 0);
-            tcg_out_opc_imm(s, OPC_SW, TCG_TMP1, base, 4);
-        } else {
-            tcg_out_bswap32(s, TCG_TMP3, MIPS_BE ? lo : hi, 0);
-            tcg_out_opc_imm(s, OPC_SW, TCG_TMP3, base, 0);
-            tcg_out_bswap32(s, TCG_TMP3, MIPS_BE ? hi : lo, 0);
-            tcg_out_opc_imm(s, OPC_SW, TCG_TMP3, base, 4);
-        }
-        break;
     case MO_64:
         if (TCG_TARGET_REG_BITS == 64) {
             tcg_out_opc_imm(s, OPC_SD, lo, base, 0);
@@ -XXX,XX +XXX,XX @@ static void tcg_out_qemu_st_direct(TCGContext *s, TCGReg lo, TCGReg hi,
             tcg_out_opc_imm(s, OPC_SW, MIPS_BE ? lo : hi, base, 4);
         }
         break;
-
     default:
         g_assert_not_reached();
     }
@@ -XXX,XX +XXX,XX @@ static void tcg_out_qemu_st_unalign(TCGContext *s, TCGReg lo, TCGReg hi,
     const MIPSInsn sd1 = MIPS_BE ? OPC_SDL : OPC_SDR;
     const MIPSInsn sd2 = MIPS_BE ? OPC_SDR : OPC_SDL;
 
-    /* Don't clutter the code below with checks to avoid bswapping ZERO.  */
-    if ((lo | hi) == 0) {
-        opc &= ~MO_BSWAP;
-    }
-
-    switch (opc & (MO_SIZE | MO_BSWAP)) {
-    case MO_16 | MO_BE:
+    switch (opc & MO_SIZE) {
+    case MO_16:
         tcg_out_opc_sa(s, OPC_SRL, TCG_TMP0, lo, 8);
-        tcg_out_opc_imm(s, OPC_SB, TCG_TMP0, base, 0);
-        tcg_out_opc_imm(s, OPC_SB, lo, base, 1);
+        tcg_out_opc_imm(s, OPC_SB, HOST_BIG_ENDIAN ? TCG_TMP0 : lo, base, 0);
+        tcg_out_opc_imm(s, OPC_SB, HOST_BIG_ENDIAN ? lo : TCG_TMP0, base, 1);
         break;
 
-    case MO_16 | MO_LE:
-        tcg_out_opc_sa(s, OPC_SRL, TCG_TMP0, lo, 8);
-        tcg_out_opc_imm(s, OPC_SB, lo, base, 0);
-        tcg_out_opc_imm(s, OPC_SB, TCG_TMP0, base, 1);
-        break;
-
-    case MO_32 | MO_BSWAP:
-        tcg_out_bswap32(s, TCG_TMP3, lo, 0);
-        lo = TCG_TMP3;
-        /* fall through */
     case MO_32:
         tcg_out_opc_imm(s, sw1, lo, base, 0);
         tcg_out_opc_imm(s, sw2, lo, base, 3);
         break;
 
-    case MO_64 | MO_BSWAP:
-        if (TCG_TARGET_REG_BITS == 64) {
-            tcg_out_bswap64(s, TCG_TMP3, lo);
-            lo = TCG_TMP3;
-        } else if (use_mips32r2_instructions) {
-            tcg_out_opc_reg(s, OPC_WSBH, TCG_TMP0, 0, MIPS_BE ? hi : lo);
-            tcg_out_opc_reg(s, OPC_WSBH, TCG_TMP1, 0, MIPS_BE ? lo : hi);
-            tcg_out_opc_sa(s, OPC_ROTR, TCG_TMP0, TCG_TMP0, 16);
-            tcg_out_opc_sa(s, OPC_ROTR, TCG_TMP1, TCG_TMP1, 16);
-            hi = MIPS_BE ? TCG_TMP0 : TCG_TMP1;
-            lo = MIPS_BE ? TCG_TMP1 : TCG_TMP0;
-        } else {
-            tcg_out_bswap32(s, TCG_TMP3, MIPS_BE ? lo : hi, 0);
-            tcg_out_opc_imm(s, sw1, TCG_TMP3, base, 0 + 0);
-            tcg_out_opc_imm(s, sw2, TCG_TMP3, base, 0 + 3);
-            tcg_out_bswap32(s, TCG_TMP3, MIPS_BE ? hi : lo, 0);
-            tcg_out_opc_imm(s, sw1, TCG_TMP3, base, 4 + 0);
-            tcg_out_opc_imm(s, sw2, TCG_TMP3, base, 4 + 3);
-            break;
-        }
-        /* fall through */
     case MO_64:
         if (TCG_TARGET_REG_BITS == 64) {
             tcg_out_opc_imm(s, sd1, lo, base, 0);
-- 
2.34.1

Compare the address vs the tlb entry with sign-extended values.
This simplifies the page+alignment mask constant, and the
generation of the last byte address for the misaligned test.

Move the tlb addend load up, and the zero-extension down.

This frees up a register, which allows us use TMP3 as the returned base
address register instead of A0, which we were using as a 5th temporary.

Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/mips/tcg-target.c.inc | 38 ++++++++++++++++++--------------------
 1 file changed, 18 insertions(+), 20 deletions(-)

diff --git a/tcg/mips/tcg-target.c.inc b/tcg/mips/tcg-target.c.inc
index XXXXXXX..XXXXXXX 100644
--- a/tcg/mips/tcg-target.c.inc
+++ b/tcg/mips/tcg-target.c.inc
@@ -XXX,XX +XXX,XX @@ typedef enum {
     ALIAS_PADDI    = sizeof(void *) == 4 ? OPC_ADDIU : OPC_DADDIU,
     ALIAS_TSRL     = TARGET_LONG_BITS == 32 || TCG_TARGET_REG_BITS == 32
                      ? OPC_SRL : OPC_DSRL,
+    ALIAS_TADDI    = TARGET_LONG_BITS == 32 || TCG_TARGET_REG_BITS == 32
+                     ? OPC_ADDIU : OPC_DADDIU,
 } MIPSInsn;
 
 /*
@@ -XXX,XX +XXX,XX @@ static TCGLabelQemuLdst *prepare_host_addr(TCGContext *s, HostAddress *h,
     int add_off = offsetof(CPUTLBEntry, addend);
     int cmp_off = is_ld ? offsetof(CPUTLBEntry, addr_read)
                         : offsetof(CPUTLBEntry, addr_write);
-    target_ulong tlb_mask;
 
     ldst = new_ldst_label(s);
     ldst->is_ld = is_ld;
     ldst->oi = oi;
     ldst->addrlo_reg = addrlo;
     ldst->addrhi_reg = addrhi;
-    base = TCG_REG_A0;
 
     /* Load tlb_mask[mmu_idx] and tlb_table[mmu_idx].  */
     QEMU_BUILD_BUG_ON(TLB_MASK_TABLE_OFS(0) > 0);
@@ -XXX,XX +XXX,XX @@ static TCGLabelQemuLdst *prepare_host_addr(TCGContext *s, HostAddress *h,
     if (TCG_TARGET_REG_BITS < TARGET_LONG_BITS) {
         tcg_out_ldst(s, OPC_LW, TCG_TMP0, TCG_TMP3, cmp_off + LO_OFF);
     } else {
-        tcg_out_ldst(s, (TARGET_LONG_BITS == 64 ? OPC_LD
-                         : TCG_TARGET_REG_BITS == 64 ? OPC_LWU : OPC_LW),
-                     TCG_TMP0, TCG_TMP3, cmp_off);
+        tcg_out_ld(s, TCG_TYPE_TL, TCG_TMP0, TCG_TMP3, cmp_off);
     }
 
-    /* Zero extend a 32-bit guest address for a 64-bit host. */
-    if (TCG_TARGET_REG_BITS > TARGET_LONG_BITS) {
-        tcg_out_ext32u(s, base, addrlo);
-        addrlo = base;
+    if (TCG_TARGET_REG_BITS >= TARGET_LONG_BITS) {
+        /* Load the tlb addend for the fast path.  */
+        tcg_out_ld(s, TCG_TYPE_PTR, TCG_TMP3, TCG_TMP3, add_off);
     }
 
     /*
@@ -XXX,XX +XXX,XX @@ static TCGLabelQemuLdst *prepare_host_addr(TCGContext *s, HostAddress *h,
      * For unaligned accesses, compare against the end of the access to
      * verify that it does not cross a page boundary.
      */
-    tlb_mask = (target_ulong)TARGET_PAGE_MASK | a_mask;
-    tcg_out_movi(s, TCG_TYPE_I32, TCG_TMP1, tlb_mask);
-    if (a_mask >= s_mask) {
-        tcg_out_opc_reg(s, OPC_AND, TCG_TMP1, TCG_TMP1, addrlo);
-    } else {
-        tcg_out_opc_imm(s, ALIAS_PADDI, TCG_TMP2, addrlo, s_mask - a_mask);
+    tcg_out_movi(s, TCG_TYPE_TL, TCG_TMP1, TARGET_PAGE_MASK | a_mask);
+    if (a_mask < s_mask) {
+        tcg_out_opc_imm(s, ALIAS_TADDI, TCG_TMP2, addrlo, s_mask - a_mask);
         tcg_out_opc_reg(s, OPC_AND, TCG_TMP1, TCG_TMP1, TCG_TMP2);
+    } else {
+        tcg_out_opc_reg(s, OPC_AND, TCG_TMP1, TCG_TMP1, addrlo);
     }
 
-    if (TCG_TARGET_REG_BITS >= TARGET_LONG_BITS) {
-        /* Load the tlb addend for the fast path.  */
-        tcg_out_ld(s, TCG_TYPE_PTR, TCG_TMP2, TCG_TMP3, add_off);
+    /* Zero extend a 32-bit guest address for a 64-bit host. */
+    if (TCG_TARGET_REG_BITS > TARGET_LONG_BITS) {
+        tcg_out_ext32u(s, TCG_TMP2, addrlo);
+        addrlo = TCG_TMP2;
     }
 
     ldst->label_ptr[0] = s->code_ptr;
@@ -XXX,XX +XXX,XX @@ static TCGLabelQemuLdst *prepare_host_addr(TCGContext *s, HostAddress *h,
         tcg_out_ldst(s, OPC_LW, TCG_TMP0, TCG_TMP3, cmp_off + HI_OFF);
 
         /* Load the tlb addend for the fast path.  */
-        tcg_out_ld(s, TCG_TYPE_PTR, TCG_TMP2, TCG_TMP3, add_off);
+        tcg_out_ld(s, TCG_TYPE_PTR, TCG_TMP3, TCG_TMP3, add_off);
 
         ldst->label_ptr[1] = s->code_ptr;
         tcg_out_opc_br(s, OPC_BNE, addrhi, TCG_TMP0);
     }
 
     /* delay slot */
-    tcg_out_opc_reg(s, ALIAS_PADD, base, TCG_TMP2, addrlo);
+    base = TCG_TMP3;
+    tcg_out_opc_reg(s, ALIAS_PADD, base, TCG_TMP3, addrlo);
 #else
     if (a_mask && (use_mips32r6_instructions || a_bits != s_bits)) {
         ldst = new_ldst_label(s);
-- 
2.34.1

The softmmu tlb uses TCG_REG_TMP[0-3], not any of the normally available
registers.  Now that we handle overlap betwen inputs and helper arguments,
and have eliminated use of A0, we can allow any allocatable reg.

Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/mips/tcg-target-con-set.h | 13 +++++--------
 tcg/mips/tcg-target-con-str.h |  2 --
 tcg/mips/tcg-target.c.inc     | 30 ++++++++----------------------
 3 files changed, 13 insertions(+), 32 deletions(-)

diff --git a/tcg/mips/tcg-target-con-set.h b/tcg/mips/tcg-target-con-set.h
index XXXXXXX..XXXXXXX 100644
--- a/tcg/mips/tcg-target-con-set.h
+++ b/tcg/mips/tcg-target-con-set.h
@@ -XXX,XX +XXX,XX @@
 C_O0_I1(r)
 C_O0_I2(rZ, r)
 C_O0_I2(rZ, rZ)
-C_O0_I2(SZ, S)
-C_O0_I3(SZ, S, S)
-C_O0_I3(SZ, SZ, S)
+C_O0_I3(rZ, r, r)
+C_O0_I3(rZ, rZ, r)
 C_O0_I4(rZ, rZ, rZ, rZ)
-C_O0_I4(SZ, SZ, S, S)
-C_O1_I1(r, L)
+C_O0_I4(rZ, rZ, r, r)
 C_O1_I1(r, r)
 C_O1_I2(r, 0, rZ)
-C_O1_I2(r, L, L)
+C_O1_I2(r, r, r)
 C_O1_I2(r, r, ri)
 C_O1_I2(r, r, rI)
 C_O1_I2(r, r, rIK)
@@ -XXX,XX +XXX,XX @@ C_O1_I2(r, rZ, rN)
 C_O1_I2(r, rZ, rZ)
 C_O1_I4(r, rZ, rZ, rZ, 0)
 C_O1_I4(r, rZ, rZ, rZ, rZ)
-C_O2_I1(r, r, L)
-C_O2_I2(r, r, L, L)
+C_O2_I1(r, r, r)
 C_O2_I2(r, r, r, r)
 C_O2_I4(r, r, rZ, rZ, rN, rN)
diff --git a/tcg/mips/tcg-target-con-str.h b/tcg/mips/tcg-target-con-str.h
index XXXXXXX..XXXXXXX 100644
--- a/tcg/mips/tcg-target-con-str.h
+++ b/tcg/mips/tcg-target-con-str.h
@@ -XXX,XX +XXX,XX @@
  * REGS(letter, register_mask)
  */
 REGS('r', ALL_GENERAL_REGS)
-REGS('L', ALL_QLOAD_REGS)
-REGS('S', ALL_QSTORE_REGS)
 
 /*
  * Define constraint letters for constants:
diff --git a/tcg/mips/tcg-target.c.inc b/tcg/mips/tcg-target.c.inc
index XXXXXXX..XXXXXXX 100644
--- a/tcg/mips/tcg-target.c.inc
+++ b/tcg/mips/tcg-target.c.inc
@@ -XXX,XX +XXX,XX @@ static bool patch_reloc(tcg_insn_unit *code_ptr, int type,
 #define TCG_CT_CONST_WSZ  0x2000   /* word size */
 
 #define ALL_GENERAL_REGS  0xffffffffu
-#define NOA0_REGS         (ALL_GENERAL_REGS & ~(1 << TCG_REG_A0))
-
-#ifdef CONFIG_SOFTMMU
-#define ALL_QLOAD_REGS \
-    (NOA0_REGS & ~((TCG_TARGET_REG_BITS < TARGET_LONG_BITS) << TCG_REG_A2))
-#define ALL_QSTORE_REGS \
-    (NOA0_REGS & ~(TCG_TARGET_REG_BITS < TARGET_LONG_BITS   \
-                   ? (1 << TCG_REG_A2) | (1 << TCG_REG_A3)  \
-                   : (1 << TCG_REG_A1)))
-#else
-#define ALL_QLOAD_REGS   NOA0_REGS
-#define ALL_QSTORE_REGS  NOA0_REGS
-#endif
-
 
 static bool is_p2m1(tcg_target_long val)
 {
@@ -XXX,XX +XXX,XX @@ static TCGConstraintSetIndex tcg_target_op_def(TCGOpcode op)
 
     case INDEX_op_qemu_ld_i32:
         return (TCG_TARGET_REG_BITS == 64 || TARGET_LONG_BITS == 32
-                ? C_O1_I1(r, L) : C_O1_I2(r, L, L));
+                ? C_O1_I1(r, r) : C_O1_I2(r, r, r));
     case INDEX_op_qemu_st_i32:
         return (TCG_TARGET_REG_BITS == 64 || TARGET_LONG_BITS == 32
-                ? C_O0_I2(SZ, S) : C_O0_I3(SZ, S, S));
+                ? C_O0_I2(rZ, r) : C_O0_I3(rZ, r, r));
     case INDEX_op_qemu_ld_i64:
-        return (TCG_TARGET_REG_BITS == 64 ? C_O1_I1(r, L)
-                : TARGET_LONG_BITS == 32 ? C_O2_I1(r, r, L)
-                : C_O2_I2(r, r, L, L));
+        return (TCG_TARGET_REG_BITS == 64 ? C_O1_I1(r, r)
+                : TARGET_LONG_BITS == 32 ? C_O2_I1(r, r, r)
+                : C_O2_I2(r, r, r, r));
     case INDEX_op_qemu_st_i64:
-        return (TCG_TARGET_REG_BITS == 64 ? C_O0_I2(SZ, S)
-                : TARGET_LONG_BITS == 32 ? C_O0_I3(SZ, SZ, S)
-                : C_O0_I4(SZ, SZ, S, S));
+        return (TCG_TARGET_REG_BITS == 64 ? C_O0_I2(rZ, r)
+                : TARGET_LONG_BITS == 32 ? C_O0_I3(rZ, rZ, r)
+                : C_O0_I4(rZ, rZ, r, r));
 
     default:
         g_assert_not_reached();
-- 
2.34.1

Allocate TCG_REG_TMP2.  Use R0, TMP1, TMP2 instead of any of
the normally allocated registers for the tlb load.

Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
Reviewed-by: Daniel Henrique Barboza <danielhb413@gmail.com>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/ppc/tcg-target.c.inc | 78 ++++++++++++++++++++++++----------------
 1 file changed, 47 insertions(+), 31 deletions(-)

diff --git a/tcg/ppc/tcg-target.c.inc b/tcg/ppc/tcg-target.c.inc
index XXXXXXX..XXXXXXX 100644
--- a/tcg/ppc/tcg-target.c.inc
+++ b/tcg/ppc/tcg-target.c.inc
@@ -XXX,XX +XXX,XX @@
 #else
 # define TCG_REG_TMP1   TCG_REG_R12
 #endif
+#define TCG_REG_TMP2    TCG_REG_R11
 
 #define TCG_VEC_TMP1    TCG_REG_V0
 #define TCG_VEC_TMP2    TCG_REG_V1
@@ -XXX,XX +XXX,XX @@ static TCGReg ldst_ra_gen(TCGContext *s, const TCGLabelQemuLdst *l, int arg)
 /*
  * For the purposes of ppc32 sorting 4 input registers into 4 argument
  * registers, there is an outside chance we would require 3 temps.
- * Because of constraints, no inputs are in r3, and env will not be
- * placed into r3 until after the sorting is done, and is thus free.
  */
 static const TCGLdstHelperParam ldst_helper_param = {
     .ra_gen = ldst_ra_gen,
     .ntmp = 3,
-    .tmp = { TCG_REG_TMP1, TCG_REG_R0, TCG_REG_R3 }
+    .tmp = { TCG_REG_TMP1, TCG_REG_TMP2, TCG_REG_R0 }
 };
 
 static bool tcg_out_qemu_ld_slow_path(TCGContext *s, TCGLabelQemuLdst *lb)
@@ -XXX,XX +XXX,XX @@ static TCGLabelQemuLdst *prepare_host_addr(TCGContext *s, HostAddress *h,
     /* Load tlb_mask[mmu_idx] and tlb_table[mmu_idx].  */
     QEMU_BUILD_BUG_ON(TLB_MASK_TABLE_OFS(0) > 0);
     QEMU_BUILD_BUG_ON(TLB_MASK_TABLE_OFS(0) < -32768);
-    tcg_out_ld(s, TCG_TYPE_PTR, TCG_REG_R3, TCG_AREG0, mask_off);
-    tcg_out_ld(s, TCG_TYPE_PTR, TCG_REG_R4, TCG_AREG0, table_off);
+    tcg_out_ld(s, TCG_TYPE_PTR, TCG_REG_TMP1, TCG_AREG0, mask_off);
+    tcg_out_ld(s, TCG_TYPE_PTR, TCG_REG_TMP2, TCG_AREG0, table_off);
 
     /* Extract the page index, shifted into place for tlb index.  */
     if (TCG_TARGET_REG_BITS == 32) {
-        tcg_out_shri32(s, TCG_REG_TMP1, addrlo,
+        tcg_out_shri32(s, TCG_REG_R0, addrlo,
                        TARGET_PAGE_BITS - CPU_TLB_ENTRY_BITS);
     } else {
-        tcg_out_shri64(s, TCG_REG_TMP1, addrlo,
+        tcg_out_shri64(s, TCG_REG_R0, addrlo,
                        TARGET_PAGE_BITS - CPU_TLB_ENTRY_BITS);
     }
-    tcg_out32(s, AND | SAB(TCG_REG_R3, TCG_REG_R3, TCG_REG_TMP1));
+    tcg_out32(s, AND | SAB(TCG_REG_TMP1, TCG_REG_TMP1, TCG_REG_R0));
 
-    /* Load the TLB comparator.  */
+    /* Load the (low part) TLB comparator into TMP2.  */
     if (cmp_off == 0 && TCG_TARGET_REG_BITS >= TARGET_LONG_BITS) {
         uint32_t lxu = (TCG_TARGET_REG_BITS == 32 || TARGET_LONG_BITS == 32
                         ? LWZUX : LDUX);
-        tcg_out32(s, lxu | TAB(TCG_REG_TMP1, TCG_REG_R3, TCG_REG_R4));
+        tcg_out32(s, lxu | TAB(TCG_REG_TMP2, TCG_REG_TMP1, TCG_REG_TMP2));
     } else {
-        tcg_out32(s, ADD | TAB(TCG_REG_R3, TCG_REG_R3, TCG_REG_R4));
+        tcg_out32(s, ADD | TAB(TCG_REG_TMP1, TCG_REG_TMP1, TCG_REG_TMP2));
         if (TCG_TARGET_REG_BITS < TARGET_LONG_BITS) {
-            tcg_out_ld(s, TCG_TYPE_I32, TCG_REG_TMP1, TCG_REG_R3, cmp_off + 4);
-            tcg_out_ld(s, TCG_TYPE_I32, TCG_REG_R4, TCG_REG_R3, cmp_off);
+            tcg_out_ld(s, TCG_TYPE_I32, TCG_REG_TMP2,
+                       TCG_REG_TMP1, cmp_off + 4 * HOST_BIG_ENDIAN);
         } else {
-            tcg_out_ld(s, TCG_TYPE_TL, TCG_REG_TMP1, TCG_REG_R3, cmp_off);
+            tcg_out_ld(s, TCG_TYPE_TL, TCG_REG_TMP2, TCG_REG_TMP1, cmp_off);
         }
     }
 
@@ -XXX,XX +XXX,XX @@ static TCGLabelQemuLdst *prepare_host_addr(TCGContext *s, HostAddress *h,
      * Load the TLB addend for use on the fast path.
      * Do this asap to minimize any load use delay.
      */
-    h->base = TCG_REG_R3;
-    tcg_out_ld(s, TCG_TYPE_PTR, h->base, TCG_REG_R3,
-               offsetof(CPUTLBEntry, addend));
+    if (TCG_TARGET_REG_BITS >= TARGET_LONG_BITS) {
+        tcg_out_ld(s, TCG_TYPE_PTR, TCG_REG_TMP1, TCG_REG_TMP1,
+                   offsetof(CPUTLBEntry, addend));
+    }
 
-    /* Clear the non-page, non-alignment bits from the address */
+    /* Clear the non-page, non-alignment bits from the address in R0. */
     if (TCG_TARGET_REG_BITS == 32) {
         /*
          * We don't support unaligned accesses on 32-bits.
@@ -XXX,XX +XXX,XX @@ static TCGLabelQemuLdst *prepare_host_addr(TCGContext *s, HostAddress *h,
         if (TARGET_LONG_BITS == 32) {
             tcg_out_rlw(s, RLWINM, TCG_REG_R0, t, 0,
                         (32 - a_bits) & 31, 31 - TARGET_PAGE_BITS);
-            /* Zero-extend the address for use in the final address.  */
-            tcg_out_ext32u(s, TCG_REG_R4, addrlo);
-            addrlo = TCG_REG_R4;
         } else if (a_bits == 0) {
             tcg_out_rld(s, RLDICR, TCG_REG_R0, t, 0, 63 - TARGET_PAGE_BITS);
         } else {
@@ -XXX,XX +XXX,XX @@ static TCGLabelQemuLdst *prepare_host_addr(TCGContext *s, HostAddress *h,
             tcg_out_rld(s, RLDICL, TCG_REG_R0, TCG_REG_R0, TARGET_PAGE_BITS, 0);
         }
     }
-    h->index = addrlo;
 
     if (TCG_TARGET_REG_BITS < TARGET_LONG_BITS) {
-        tcg_out_cmp(s, TCG_COND_EQ, TCG_REG_R0, TCG_REG_TMP1,
+        /* Low part comparison into cr7. */
+        tcg_out_cmp(s, TCG_COND_EQ, TCG_REG_R0, TCG_REG_TMP2,
                     0, 7, TCG_TYPE_I32);
-        tcg_out_cmp(s, TCG_COND_EQ, addrhi, TCG_REG_R4, 0, 6, TCG_TYPE_I32);
+
+        /* Load the high part TLB comparator into TMP2.  */
+        tcg_out_ld(s, TCG_TYPE_I32, TCG_REG_TMP2, TCG_REG_TMP1,
+                   cmp_off + 4 * !HOST_BIG_ENDIAN);
+
+        /* Load addend, deferred for this case. */
+        tcg_out_ld(s, TCG_TYPE_PTR, TCG_REG_TMP1, TCG_REG_TMP1,
+                   offsetof(CPUTLBEntry, addend));
+
+        /* High part comparison into cr6. */
+        tcg_out_cmp(s, TCG_COND_EQ, addrhi, TCG_REG_TMP2, 0, 6, TCG_TYPE_I32);
+
+        /* Combine comparisons into cr7. */
         tcg_out32(s, CRAND | BT(7, CR_EQ) | BA(6, CR_EQ) | BB(7, CR_EQ));
     } else {
-        tcg_out_cmp(s, TCG_COND_EQ, TCG_REG_R0, TCG_REG_TMP1,
+        /* Full comparison into cr7. */
+        tcg_out_cmp(s, TCG_COND_EQ, TCG_REG_R0, TCG_REG_TMP2,
                     0, 7, TCG_TYPE_TL);
     }
 
     /* Load a pointer into the current opcode w/conditional branch-link. */
     ldst->label_ptr[0] = s->code_ptr;
     tcg_out32(s, BC | BI(7, CR_EQ) | BO_COND_FALSE | LK);
+
+    h->base = TCG_REG_TMP1;
 #else
     if (a_bits) {
         ldst = new_ldst_label(s);
@@ -XXX,XX +XXX,XX @@ static TCGLabelQemuLdst *prepare_host_addr(TCGContext *s, HostAddress *h,
     }
 
     h->base = guest_base ? TCG_GUEST_BASE_REG : 0;
-    h->index = addrlo;
-    if (TCG_TARGET_REG_BITS > TARGET_LONG_BITS) {
-        tcg_out_ext32u(s, TCG_REG_TMP1, addrlo);
-        h->index = TCG_REG_TMP1;
-    }
 #endif
 
+    if (TCG_TARGET_REG_BITS > TARGET_LONG_BITS) {
+        /* Zero-extend the guest address for use in the host address. */
+        tcg_out_ext32u(s, TCG_REG_R0, addrlo);
+        h->index = TCG_REG_R0;
+    } else {
+        h->index = addrlo;
+    }
+
     return ldst;
 }
 
@@ -XXX,XX +XXX,XX @@ static void tcg_target_init(TCGContext *s)
 #if defined(_CALL_SYSV) || TCG_TARGET_REG_BITS == 64
     tcg_regset_set_reg(s->reserved_regs, TCG_REG_R13); /* thread pointer */
 #endif
-    tcg_regset_set_reg(s->reserved_regs, TCG_REG_TMP1); /* mem temp */
+    tcg_regset_set_reg(s->reserved_regs, TCG_REG_TMP1);
+    tcg_regset_set_reg(s->reserved_regs, TCG_REG_TMP2);
     tcg_regset_set_reg(s->reserved_regs, TCG_VEC_TMP1);
     tcg_regset_set_reg(s->reserved_regs, TCG_VEC_TMP2);
     if (USE_REG_TB) {
-- 
2.34.1

The softmmu tlb uses TCG_REG_{TMP1,TMP2,R0}, not any of the normally
available registers.  Now that we handle overlap betwen inputs and
helper arguments, we can allow any allocatable reg.

Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
Reviewed-by: Daniel Henrique Barboza <danielhb413@gmail.com>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/ppc/tcg-target-con-set.h | 11 ++++-------
 tcg/ppc/tcg-target-con-str.h |  2 --
 tcg/ppc/tcg-target.c.inc     | 32 ++++++++++----------------------
 3 files changed, 14 insertions(+), 31 deletions(-)

diff --git a/tcg/ppc/tcg-target-con-set.h b/tcg/ppc/tcg-target-con-set.h
index XXXXXXX..XXXXXXX 100644
--- a/tcg/ppc/tcg-target-con-set.h
+++ b/tcg/ppc/tcg-target-con-set.h
@@ -XXX,XX +XXX,XX @@
 C_O0_I1(r)
 C_O0_I2(r, r)
 C_O0_I2(r, ri)
-C_O0_I2(S, S)
 C_O0_I2(v, r)
-C_O0_I3(S, S, S)
+C_O0_I3(r, r, r)
 C_O0_I4(r, r, ri, ri)
-C_O0_I4(S, S, S, S)
-C_O1_I1(r, L)
+C_O0_I4(r, r, r, r)
 C_O1_I1(r, r)
 C_O1_I1(v, r)
 C_O1_I1(v, v)
 C_O1_I1(v, vr)
 C_O1_I2(r, 0, rZ)
-C_O1_I2(r, L, L)
 C_O1_I2(r, rI, ri)
 C_O1_I2(r, rI, rT)
 C_O1_I2(r, r, r)
@@ -XXX,XX +XXX,XX @@ C_O1_I2(v, v, v)
 C_O1_I3(v, v, v, v)
 C_O1_I4(r, r, ri, rZ, rZ)
 C_O1_I4(r, r, r, ri, ri)
-C_O2_I1(L, L, L)
-C_O2_I2(L, L, L, L)
+C_O2_I1(r, r, r)
+C_O2_I2(r, r, r, r)
 C_O2_I4(r, r, rI, rZM, r, r)
 C_O2_I4(r, r, r, r, rI, rZM)
diff --git a/tcg/ppc/tcg-target-con-str.h b/tcg/ppc/tcg-target-con-str.h
index XXXXXXX..XXXXXXX 100644
--- a/tcg/ppc/tcg-target-con-str.h
+++ b/tcg/ppc/tcg-target-con-str.h
@@ -XXX,XX +XXX,XX @@ REGS('A', 1u << TCG_REG_R3)
 REGS('B', 1u << TCG_REG_R4)
 REGS('C', 1u << TCG_REG_R5)
 REGS('D', 1u << TCG_REG_R6)
-REGS('L', ALL_QLOAD_REGS)
-REGS('S', ALL_QSTORE_REGS)
 
 /*
  * Define constraint letters for constants:
diff --git a/tcg/ppc/tcg-target.c.inc b/tcg/ppc/tcg-target.c.inc
index XXXXXXX..XXXXXXX 100644
--- a/tcg/ppc/tcg-target.c.inc
+++ b/tcg/ppc/tcg-target.c.inc
@@ -XXX,XX +XXX,XX @@
 #define ALL_GENERAL_REGS  0xffffffffu
 #define ALL_VECTOR_REGS   0xffffffff00000000ull
 
-#ifdef CONFIG_SOFTMMU
-#define ALL_QLOAD_REGS \
-    (ALL_GENERAL_REGS & \
-     ~((1 << TCG_REG_R3) | (1 << TCG_REG_R4) | (1 << TCG_REG_R5)))
-#define ALL_QSTORE_REGS \
-    (ALL_GENERAL_REGS & ~((1 << TCG_REG_R3) | (1 << TCG_REG_R4) | \
-                          (1 << TCG_REG_R5) | (1 << TCG_REG_R6)))
-#else
-#define ALL_QLOAD_REGS  (ALL_GENERAL_REGS & ~(1 << TCG_REG_R3))
-#define ALL_QSTORE_REGS ALL_QLOAD_REGS
-#endif
-
 TCGPowerISA have_isa;
 static bool have_isel;
 bool have_altivec;
@@ -XXX,XX +XXX,XX @@ static TCGConstraintSetIndex tcg_target_op_def(TCGOpcode op)
 
     case INDEX_op_qemu_ld_i32:
         return (TCG_TARGET_REG_BITS == 64 || TARGET_LONG_BITS == 32
-                ? C_O1_I1(r, L)
-                : C_O1_I2(r, L, L));
+                ? C_O1_I1(r, r)
+                : C_O1_I2(r, r, r));
 
     case INDEX_op_qemu_st_i32:
         return (TCG_TARGET_REG_BITS == 64 || TARGET_LONG_BITS == 32
-                ? C_O0_I2(S, S)
-                : C_O0_I3(S, S, S));
+                ? C_O0_I2(r, r)
+                : C_O0_I3(r, r, r));
 
     case INDEX_op_qemu_ld_i64:
-        return (TCG_TARGET_REG_BITS == 64 ? C_O1_I1(r, L)
-                : TARGET_LONG_BITS == 32 ? C_O2_I1(L, L, L)
-                : C_O2_I2(L, L, L, L));
+        return (TCG_TARGET_REG_BITS == 64 ? C_O1_I1(r, r)
+                : TARGET_LONG_BITS == 32 ? C_O2_I1(r, r, r)
+                : C_O2_I2(r, r, r, r));
 
     case INDEX_op_qemu_st_i64:
-        return (TCG_TARGET_REG_BITS == 64 ? C_O0_I2(S, S)
-                : TARGET_LONG_BITS == 32 ? C_O0_I3(S, S, S)
-                : C_O0_I4(S, S, S, S));
+        return (TCG_TARGET_REG_BITS == 64 ? C_O0_I2(r, r)
+                : TARGET_LONG_BITS == 32 ? C_O0_I3(r, r, r)
+                : C_O0_I4(r, r, r, r));
 
     case INDEX_op_add_vec:
     case INDEX_op_sub_vec:
-- 
2.34.1

Never used since its introduction.

Fixes: 3d582c6179c ("tcg-ppc64: Rearrange integer constant constraints")
Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/ppc/tcg-target-con-str.h | 1 -
 tcg/ppc/tcg-target.c.inc     | 3 ---
 2 files changed, 4 deletions(-)

diff --git a/tcg/ppc/tcg-target-con-str.h b/tcg/ppc/tcg-target-con-str.h
index XXXXXXX..XXXXXXX 100644
--- a/tcg/ppc/tcg-target-con-str.h
+++ b/tcg/ppc/tcg-target-con-str.h
@@ -XXX,XX +XXX,XX @@ REGS('v', ALL_VECTOR_REGS)
  * CONST(letter, TCG_CT_CONST_* bit set)
  */
 CONST('I', TCG_CT_CONST_S16)
-CONST('J', TCG_CT_CONST_U16)
 CONST('M', TCG_CT_CONST_MONE)
 CONST('T', TCG_CT_CONST_S32)
 CONST('U', TCG_CT_CONST_U32)
diff --git a/tcg/ppc/tcg-target.c.inc b/tcg/ppc/tcg-target.c.inc
index XXXXXXX..XXXXXXX 100644
--- a/tcg/ppc/tcg-target.c.inc
+++ b/tcg/ppc/tcg-target.c.inc
@@ -XXX,XX +XXX,XX @@
 #define SZR  (TCG_TARGET_REG_BITS / 8)
 
 #define TCG_CT_CONST_S16  0x100
-#define TCG_CT_CONST_U16  0x200
 #define TCG_CT_CONST_S32  0x400
 #define TCG_CT_CONST_U32  0x800
 #define TCG_CT_CONST_ZERO 0x1000
@@ -XXX,XX +XXX,XX @@ static bool tcg_target_const_match(int64_t val, TCGType type, int ct)
 
     if ((ct & TCG_CT_CONST_S16) && val == (int16_t)val) {
         return 1;
-    } else if ((ct & TCG_CT_CONST_U16) && val == (uint16_t)val) {
-        return 1;
     } else if ((ct & TCG_CT_CONST_S32) && val == (int32_t)val) {
         return 1;
     } else if ((ct & TCG_CT_CONST_U32) && val == (uint32_t)val) {
-- 
2.34.1

The softmmu tlb uses TCG_REG_TMP[0-2], not any of the normally available
registers.  Now that we handle overlap betwen inputs and helper arguments,
we can allow any allocatable reg.

Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
Reviewed-by: Daniel Henrique Barboza <dbarboza@ventanamicro.com>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/riscv/tcg-target-con-set.h |  2 --
 tcg/riscv/tcg-target-con-str.h |  1 -
 tcg/riscv/tcg-target.c.inc     | 16 +++-------------
 3 files changed, 3 insertions(+), 16 deletions(-)

diff --git a/tcg/riscv/tcg-target-con-set.h b/tcg/riscv/tcg-target-con-set.h
index XXXXXXX..XXXXXXX 100644
--- a/tcg/riscv/tcg-target-con-set.h
+++ b/tcg/riscv/tcg-target-con-set.h
@@ -XXX,XX +XXX,XX @@
  * tcg-target-con-str.h; the constraint combination is inclusive or.
  */
 C_O0_I1(r)
-C_O0_I2(LZ, L)
 C_O0_I2(rZ, r)
 C_O0_I2(rZ, rZ)
-C_O1_I1(r, L)
 C_O1_I1(r, r)
 C_O1_I2(r, r, ri)
 C_O1_I2(r, r, rI)
diff --git a/tcg/riscv/tcg-target-con-str.h b/tcg/riscv/tcg-target-con-str.h
index XXXXXXX..XXXXXXX 100644
--- a/tcg/riscv/tcg-target-con-str.h
+++ b/tcg/riscv/tcg-target-con-str.h
@@ -XXX,XX +XXX,XX @@
  * REGS(letter, register_mask)
  */
 REGS('r', ALL_GENERAL_REGS)
-REGS('L', ALL_GENERAL_REGS & ~SOFTMMU_RESERVE_REGS)
 
 /*
  * Define constraint letters for constants:
diff --git a/tcg/riscv/tcg-target.c.inc b/tcg/riscv/tcg-target.c.inc
index XXXXXXX..XXXXXXX 100644
--- a/tcg/riscv/tcg-target.c.inc
+++ b/tcg/riscv/tcg-target.c.inc
@@ -XXX,XX +XXX,XX @@ static TCGReg tcg_target_call_oarg_reg(TCGCallReturnKind kind, int slot)
 #define TCG_CT_CONST_N12   0x400
 #define TCG_CT_CONST_M12   0x800
 
-#define ALL_GENERAL_REGS      MAKE_64BIT_MASK(0, 32)
-/*
- * For softmmu, we need to avoid conflicts with the first 5
- * argument registers to call the helper.  Some of these are
- * also used for the tlb lookup.
- */
-#ifdef CONFIG_SOFTMMU
-#define SOFTMMU_RESERVE_REGS  MAKE_64BIT_MASK(TCG_REG_A0, 5)
-#else
-#define SOFTMMU_RESERVE_REGS  0
-#endif
+#define ALL_GENERAL_REGS   MAKE_64BIT_MASK(0, 32)
 
 #define sextreg  sextract64
 
@@ -XXX,XX +XXX,XX @@ static TCGConstraintSetIndex tcg_target_op_def(TCGOpcode op)
 
     case INDEX_op_qemu_ld_i32:
     case INDEX_op_qemu_ld_i64:
-        return C_O1_I1(r, L);
+        return C_O1_I1(r, r);
     case INDEX_op_qemu_st_i32:
     case INDEX_op_qemu_st_i64:
-        return C_O0_I2(LZ, L);
+        return C_O0_I2(rZ, r);
 
     default:
         g_assert_not_reached();
-- 
2.34.1

Rather than zero-extend the guest address into a register,
use an add instruction which zero-extends the second input.

Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/s390x/tcg-target.c.inc | 8 +++++---
 1 file changed, 5 insertions(+), 3 deletions(-)

diff --git a/tcg/s390x/tcg-target.c.inc b/tcg/s390x/tcg-target.c.inc
index XXXXXXX..XXXXXXX 100644
--- a/tcg/s390x/tcg-target.c.inc
+++ b/tcg/s390x/tcg-target.c.inc
@@ -XXX,XX +XXX,XX @@ typedef enum S390Opcode {
     RRE_ALGR    = 0xb90a,
     RRE_ALCR    = 0xb998,
     RRE_ALCGR   = 0xb988,
+    RRE_ALGFR   = 0xb91a,
     RRE_CGR     = 0xb920,
     RRE_CLGR    = 0xb921,
     RRE_DLGR    = 0xb987,
@@ -XXX,XX +XXX,XX @@ static TCGLabelQemuLdst *prepare_host_addr(TCGContext *s, HostAddress *h,
     tcg_out_insn(s, RXY, LG, h->index, TCG_REG_R2, TCG_REG_NONE,
                  offsetof(CPUTLBEntry, addend));
 
-    h->base = addr_reg;
     if (TARGET_LONG_BITS == 32) {
-        tcg_out_ext32u(s, TCG_REG_R3, addr_reg);
-        h->base = TCG_REG_R3;
+        tcg_out_insn(s, RRE, ALGFR, h->index, addr_reg);
+        h->base = TCG_REG_NONE;
+    } else {
+        h->base = addr_reg;
     }
     h->disp = 0;
 #else
-- 
2.34.1

Adjust the softmmu tlb to use R0+R1, not any of the normally available
registers.  Since we handle overlap betwen inputs and helper arguments,
we can allow any allocatable reg.

Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/s390x/tcg-target-con-set.h |  2 --
 tcg/s390x/tcg-target-con-str.h |  1 -
 tcg/s390x/tcg-target.c.inc     | 36 ++++++++++++----------------------
 3 files changed, 12 insertions(+), 27 deletions(-)

diff --git a/tcg/s390x/tcg-target-con-set.h b/tcg/s390x/tcg-target-con-set.h
index XXXXXXX..XXXXXXX 100644
--- a/tcg/s390x/tcg-target-con-set.h
+++ b/tcg/s390x/tcg-target-con-set.h
@@ -XXX,XX +XXX,XX @@
  * tcg-target-con-str.h; the constraint combination is inclusive or.
  */
 C_O0_I1(r)
-C_O0_I2(L, L)
 C_O0_I2(r, r)
 C_O0_I2(r, ri)
 C_O0_I2(r, rA)
 C_O0_I2(v, r)
-C_O1_I1(r, L)
 C_O1_I1(r, r)
 C_O1_I1(v, r)
 C_O1_I1(v, v)
diff --git a/tcg/s390x/tcg-target-con-str.h b/tcg/s390x/tcg-target-con-str.h
index XXXXXXX..XXXXXXX 100644
--- a/tcg/s390x/tcg-target-con-str.h
+++ b/tcg/s390x/tcg-target-con-str.h
@@ -XXX,XX +XXX,XX @@
  * REGS(letter, register_mask)
  */
 REGS('r', ALL_GENERAL_REGS)
-REGS('L', ALL_GENERAL_REGS & ~SOFTMMU_RESERVE_REGS)
 REGS('v', ALL_VECTOR_REGS)
 REGS('o', 0xaaaa) /* odd numbered general regs */
 
diff --git a/tcg/s390x/tcg-target.c.inc b/tcg/s390x/tcg-target.c.inc
index XXXXXXX..XXXXXXX 100644
--- a/tcg/s390x/tcg-target.c.inc
+++ b/tcg/s390x/tcg-target.c.inc
@@ -XXX,XX +XXX,XX @@
 #define ALL_GENERAL_REGS     MAKE_64BIT_MASK(0, 16)
 #define ALL_VECTOR_REGS      MAKE_64BIT_MASK(32, 32)
 
-/*
- * For softmmu, we need to avoid conflicts with the first 3
- * argument registers to perform the tlb lookup, and to call
- * the helper function.
- */
-#ifdef CONFIG_SOFTMMU
-#define SOFTMMU_RESERVE_REGS MAKE_64BIT_MASK(TCG_REG_R2, 3)
-#else
-#define SOFTMMU_RESERVE_REGS 0
-#endif
-
-
 /* Several places within the instruction set 0 means "no register"
    rather than TCG_REG_R0.  */
 #define TCG_REG_NONE    0
@@ -XXX,XX +XXX,XX @@ static TCGLabelQemuLdst *prepare_host_addr(TCGContext *s, HostAddress *h,
     ldst->oi = oi;
     ldst->addrlo_reg = addr_reg;
 
-    tcg_out_sh64(s, RSY_SRLG, TCG_REG_R2, addr_reg, TCG_REG_NONE,
+    tcg_out_sh64(s, RSY_SRLG, TCG_TMP0, addr_reg, TCG_REG_NONE,
                  TARGET_PAGE_BITS - CPU_TLB_ENTRY_BITS);
 
     QEMU_BUILD_BUG_ON(TLB_MASK_TABLE_OFS(0) > 0);
     QEMU_BUILD_BUG_ON(TLB_MASK_TABLE_OFS(0) < -(1 << 19));
-    tcg_out_insn(s, RXY, NG, TCG_REG_R2, TCG_AREG0, TCG_REG_NONE, mask_off);
-    tcg_out_insn(s, RXY, AG, TCG_REG_R2, TCG_AREG0, TCG_REG_NONE, table_off);
+    tcg_out_insn(s, RXY, NG, TCG_TMP0, TCG_AREG0, TCG_REG_NONE, mask_off);
+    tcg_out_insn(s, RXY, AG, TCG_TMP0, TCG_AREG0, TCG_REG_NONE, table_off);
 
     /*
      * For aligned accesses, we check the first byte and include the alignment
@@ -XXX,XX +XXX,XX @@ static TCGLabelQemuLdst *prepare_host_addr(TCGContext *s, HostAddress *h,
     a_off = (a_bits >= s_bits ? 0 : s_mask - a_mask);
     tlb_mask = (uint64_t)TARGET_PAGE_MASK | a_mask;
     if (a_off == 0) {
-        tgen_andi_risbg(s, TCG_REG_R3, addr_reg, tlb_mask);
+        tgen_andi_risbg(s, TCG_REG_R0, addr_reg, tlb_mask);
     } else {
-        tcg_out_insn(s, RX, LA, TCG_REG_R3, addr_reg, TCG_REG_NONE, a_off);
-        tgen_andi(s, TCG_TYPE_TL, TCG_REG_R3, tlb_mask);
+        tcg_out_insn(s, RX, LA, TCG_REG_R0, addr_reg, TCG_REG_NONE, a_off);
+        tgen_andi(s, TCG_TYPE_TL, TCG_REG_R0, tlb_mask);
     }
 
     if (is_ld) {
@@ -XXX,XX +XXX,XX @@ static TCGLabelQemuLdst *prepare_host_addr(TCGContext *s, HostAddress *h,
         ofs = offsetof(CPUTLBEntry, addr_write);
     }
     if (TARGET_LONG_BITS == 32) {
-        tcg_out_insn(s, RX, C, TCG_REG_R3, TCG_REG_R2, TCG_REG_NONE, ofs);
+        tcg_out_insn(s, RX, C, TCG_REG_R0, TCG_TMP0, TCG_REG_NONE, ofs);
     } else {
-        tcg_out_insn(s, RXY, CG, TCG_REG_R3, TCG_REG_R2, TCG_REG_NONE, ofs);
+        tcg_out_insn(s, RXY, CG, TCG_REG_R0, TCG_TMP0, TCG_REG_NONE, ofs);
     }
 
     tcg_out16(s, RI_BRC | (S390_CC_NE << 4));
     ldst->label_ptr[0] = s->code_ptr++;
 
-    h->index = TCG_REG_R2;
-    tcg_out_insn(s, RXY, LG, h->index, TCG_REG_R2, TCG_REG_NONE,
+    h->index = TCG_TMP0;
+    tcg_out_insn(s, RXY, LG, h->index, TCG_TMP0, TCG_REG_NONE,
                  offsetof(CPUTLBEntry, addend));
 
     if (TARGET_LONG_BITS == 32) {
@@ -XXX,XX +XXX,XX @@ static TCGConstraintSetIndex tcg_target_op_def(TCGOpcode op)
 
     case INDEX_op_qemu_ld_i32:
     case INDEX_op_qemu_ld_i64:
-        return C_O1_I1(r, L);
+        return C_O1_I1(r, r);
     case INDEX_op_qemu_st_i64:
     case INDEX_op_qemu_st_i32:
-        return C_O0_I2(L, L);
+        return C_O0_I2(r, r);
 
     case INDEX_op_deposit_i32:
     case INDEX_op_deposit_i64:
-- 
2.34.1

These are atomic operations, so mark as requiring alignment.

Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 target/mips/tcg/nanomips_translate.c.inc | 5 +++--
 1 file changed, 3 insertions(+), 2 deletions(-)

diff --git a/target/mips/tcg/nanomips_translate.c.inc b/target/mips/tcg/nanomips_translate.c.inc
index XXXXXXX..XXXXXXX 100644
--- a/target/mips/tcg/nanomips_translate.c.inc
+++ b/target/mips/tcg/nanomips_translate.c.inc
@@ -XXX,XX +XXX,XX @@ static void gen_llwp(DisasContext *ctx, uint32_t base, int16_t offset,
     TCGv tmp2 = tcg_temp_new();
 
     gen_base_offset_addr(ctx, taddr, base, offset);
-    tcg_gen_qemu_ld_i64(tval, taddr, ctx->mem_idx, MO_TEUQ);
+    tcg_gen_qemu_ld_i64(tval, taddr, ctx->mem_idx, MO_TEUQ | MO_ALIGN);
     if (cpu_is_bigendian(ctx)) {
         tcg_gen_extr_i64_tl(tmp2, tmp1, tval);
     } else {
@@ -XXX,XX +XXX,XX @@ static void gen_scwp(DisasContext *ctx, uint32_t base, int16_t offset,
 
     tcg_gen_ld_i64(llval, cpu_env, offsetof(CPUMIPSState, llval_wp));
     tcg_gen_atomic_cmpxchg_i64(val, taddr, llval, tval,
-                               eva ? MIPS_HFLAG_UM : ctx->mem_idx, MO_64);
+                               eva ? MIPS_HFLAG_UM : ctx->mem_idx,
+                               MO_64 | MO_ALIGN);
     if (reg1 != 0) {
         tcg_gen_movi_tl(cpu_gpr[reg1], 1);
     }
-- 
2.34.1

Memory operations that are not already aligned, or otherwise
marked up, require addition of ctx->default_tcg_memop_mask.

Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 target/mips/tcg/mxu_translate.c           |  3 ++-
 target/mips/tcg/micromips_translate.c.inc | 24 ++++++++++++++--------
 target/mips/tcg/mips16e_translate.c.inc   | 18 ++++++++++------
 target/mips/tcg/nanomips_translate.c.inc  | 25 +++++++++++------------
 4 files changed, 42 insertions(+), 28 deletions(-)

diff --git a/target/mips/tcg/mxu_translate.c b/target/mips/tcg/mxu_translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/mips/tcg/mxu_translate.c
+++ b/target/mips/tcg/mxu_translate.c
@@ -XXX,XX +XXX,XX @@ static void gen_mxu_s32ldd_s32lddr(DisasContext *ctx)
         tcg_gen_ori_tl(t1, t1, 0xFFFFF000);
     }
     tcg_gen_add_tl(t1, t0, t1);
-    tcg_gen_qemu_ld_tl(t1, t1, ctx->mem_idx, MO_TESL ^ (sel * MO_BSWAP));
+    tcg_gen_qemu_ld_tl(t1, t1, ctx->mem_idx, (MO_TESL ^ (sel * MO_BSWAP)) |
+                       ctx->default_tcg_memop_mask);
 
     gen_store_mxu_gpr(t1, XRa);
 }
diff --git a/target/mips/tcg/micromips_translate.c.inc b/target/mips/tcg/micromips_translate.c.inc
index XXXXXXX..XXXXXXX 100644
--- a/target/mips/tcg/micromips_translate.c.inc
+++ b/target/mips/tcg/micromips_translate.c.inc
@@ -XXX,XX +XXX,XX @@ static void gen_ldst_pair(DisasContext *ctx, uint32_t opc, int rd,
             gen_reserved_instruction(ctx);
             return;
         }
-        tcg_gen_qemu_ld_tl(t1, t0, ctx->mem_idx, MO_TESL);
+        tcg_gen_qemu_ld_tl(t1, t0, ctx->mem_idx, MO_TESL |
+                           ctx->default_tcg_memop_mask);
         gen_store_gpr(t1, rd);
         tcg_gen_movi_tl(t1, 4);
         gen_op_addr_add(ctx, t0, t0, t1);
-        tcg_gen_qemu_ld_tl(t1, t0, ctx->mem_idx, MO_TESL);
+        tcg_gen_qemu_ld_tl(t1, t0, ctx->mem_idx, MO_TESL |
+                           ctx->default_tcg_memop_mask);
         gen_store_gpr(t1, rd + 1);
         break;
     case SWP:
         gen_load_gpr(t1, rd);
-        tcg_gen_qemu_st_tl(t1, t0, ctx->mem_idx, MO_TEUL);
+        tcg_gen_qemu_st_tl(t1, t0, ctx->mem_idx, MO_TEUL |
+                           ctx->default_tcg_memop_mask);
         tcg_gen_movi_tl(t1, 4);
         gen_op_addr_add(ctx, t0, t0, t1);
         gen_load_gpr(t1, rd + 1);
-        tcg_gen_qemu_st_tl(t1, t0, ctx->mem_idx, MO_TEUL);
+        tcg_gen_qemu_st_tl(t1, t0, ctx->mem_idx, MO_TEUL |
+                           ctx->default_tcg_memop_mask);
         break;
 #ifdef TARGET_MIPS64
     case LDP:
@@ -XXX,XX +XXX,XX @@ static void gen_ldst_pair(DisasContext *ctx, uint32_t opc, int rd,
             gen_reserved_instruction(ctx);
             return;
         }
-        tcg_gen_qemu_ld_tl(t1, t0, ctx->mem_idx, MO_TEUQ);
+        tcg_gen_qemu_ld_tl(t1, t0, ctx->mem_idx, MO_TEUQ |
+                           ctx->default_tcg_memop_mask);
         gen_store_gpr(t1, rd);
         tcg_gen_movi_tl(t1, 8);
         gen_op_addr_add(ctx, t0, t0, t1);
-        tcg_gen_qemu_ld_tl(t1, t0, ctx->mem_idx, MO_TEUQ);
+        tcg_gen_qemu_ld_tl(t1, t0, ctx->mem_idx, MO_TEUQ |
+                           ctx->default_tcg_memop_mask);
         gen_store_gpr(t1, rd + 1);
         break;
     case SDP:
         gen_load_gpr(t1, rd);
-        tcg_gen_qemu_st_tl(t1, t0, ctx->mem_idx, MO_TEUQ);
+        tcg_gen_qemu_st_tl(t1, t0, ctx->mem_idx, MO_TEUQ |
+                           ctx->default_tcg_memop_mask);
         tcg_gen_movi_tl(t1, 8);
         gen_op_addr_add(ctx, t0, t0, t1);
         gen_load_gpr(t1, rd + 1);
-        tcg_gen_qemu_st_tl(t1, t0, ctx->mem_idx, MO_TEUQ);
+        tcg_gen_qemu_st_tl(t1, t0, ctx->mem_idx, MO_TEUQ |
+                           ctx->default_tcg_memop_mask);
         break;
 #endif
     }
diff --git a/target/mips/tcg/mips16e_translate.c.inc b/target/mips/tcg/mips16e_translate.c.inc
index XXXXXXX..XXXXXXX 100644
--- a/target/mips/tcg/mips16e_translate.c.inc
+++ b/target/mips/tcg/mips16e_translate.c.inc
@@ -XXX,XX +XXX,XX @@ static void gen_mips16_save(DisasContext *ctx,
     case 4:
         gen_base_offset_addr(ctx, t0, 29, 12);
         gen_load_gpr(t1, 7);
-        tcg_gen_qemu_st_tl(t1, t0, ctx->mem_idx, MO_TEUL);
+        tcg_gen_qemu_st_tl(t1, t0, ctx->mem_idx, MO_TEUL |
+                           ctx->default_tcg_memop_mask);
         /* Fall through */
     case 3:
         gen_base_offset_addr(ctx, t0, 29, 8);
         gen_load_gpr(t1, 6);
-        tcg_gen_qemu_st_tl(t1, t0, ctx->mem_idx, MO_TEUL);
+        tcg_gen_qemu_st_tl(t1, t0, ctx->mem_idx, MO_TEUL |
+                           ctx->default_tcg_memop_mask);
         /* Fall through */
     case 2:
         gen_base_offset_addr(ctx, t0, 29, 4);
         gen_load_gpr(t1, 5);
-        tcg_gen_qemu_st_tl(t1, t0, ctx->mem_idx, MO_TEUL);
+        tcg_gen_qemu_st_tl(t1, t0, ctx->mem_idx, MO_TEUL |
+                           ctx->default_tcg_memop_mask);
         /* Fall through */
     case 1:
         gen_base_offset_addr(ctx, t0, 29, 0);
         gen_load_gpr(t1, 4);
-        tcg_gen_qemu_st_tl(t1, t0, ctx->mem_idx, MO_TEUL);
+        tcg_gen_qemu_st_tl(t1, t0, ctx->mem_idx, MO_TEUL |
+                           ctx->default_tcg_memop_mask);
     }
 
     gen_load_gpr(t0, 29);
@@ -XXX,XX +XXX,XX @@ static void gen_mips16_save(DisasContext *ctx,
         tcg_gen_movi_tl(t2, -4);                                 \
         gen_op_addr_add(ctx, t0, t0, t2);                        \
         gen_load_gpr(t1, reg);                                   \
-        tcg_gen_qemu_st_tl(t1, t0, ctx->mem_idx, MO_TEUL); \
+        tcg_gen_qemu_st_tl(t1, t0, ctx->mem_idx, MO_TEUL |       \
+                           ctx->default_tcg_memop_mask);         \
     } while (0)
 
     if (do_ra) {
@@ -XXX,XX +XXX,XX @@ static void gen_mips16_restore(DisasContext *ctx,
 #define DECR_AND_LOAD(reg) do {                            \
         tcg_gen_movi_tl(t2, -4);                           \
         gen_op_addr_add(ctx, t0, t0, t2);                  \
-        tcg_gen_qemu_ld_tl(t1, t0, ctx->mem_idx, MO_TESL); \
+        tcg_gen_qemu_ld_tl(t1, t0, ctx->mem_idx, MO_TESL | \
+                           ctx->default_tcg_memop_mask);   \
         gen_store_gpr(t1, reg);                            \
     } while (0)
 
diff --git a/target/mips/tcg/nanomips_translate.c.inc b/target/mips/tcg/nanomips_translate.c.inc
index XXXXXXX..XXXXXXX 100644
--- a/target/mips/tcg/nanomips_translate.c.inc
+++ b/target/mips/tcg/nanomips_translate.c.inc
@@ -XXX,XX +XXX,XX @@ static void gen_p_lsx(DisasContext *ctx, int rd, int rs, int rt)
 
     switch (extract32(ctx->opcode, 7, 4)) {
     case NM_LBX:
-        tcg_gen_qemu_ld_tl(t0, t0, ctx->mem_idx,
-                           MO_SB);
+        tcg_gen_qemu_ld_tl(t0, t0, ctx->mem_idx, MO_SB);
         gen_store_gpr(t0, rd);
         break;
     case NM_LHX:
     /*case NM_LHXS:*/
         tcg_gen_qemu_ld_tl(t0, t0, ctx->mem_idx,
-                           MO_TESW);
+                           MO_TESW | ctx->default_tcg_memop_mask);
         gen_store_gpr(t0, rd);
         break;
     case NM_LWX:
     /*case NM_LWXS:*/
         tcg_gen_qemu_ld_tl(t0, t0, ctx->mem_idx,
-                           MO_TESL);
+                           MO_TESL | ctx->default_tcg_memop_mask);
         gen_store_gpr(t0, rd);
         break;
     case NM_LBUX:
-        tcg_gen_qemu_ld_tl(t0, t0, ctx->mem_idx,
-                           MO_UB);
+        tcg_gen_qemu_ld_tl(t0, t0, ctx->mem_idx, MO_UB);
         gen_store_gpr(t0, rd);
         break;
     case NM_LHUX:
     /*case NM_LHUXS:*/
         tcg_gen_qemu_ld_tl(t0, t0, ctx->mem_idx,
-                           MO_TEUW);
+                           MO_TEUW | ctx->default_tcg_memop_mask);
         gen_store_gpr(t0, rd);
         break;
     case NM_SBX:
         check_nms(ctx);
         gen_load_gpr(t1, rd);
-        tcg_gen_qemu_st_tl(t1, t0, ctx->mem_idx,
-                           MO_8);
+        tcg_gen_qemu_st_tl(t1, t0, ctx->mem_idx, MO_8);
         break;
     case NM_SHX:
     /*case NM_SHXS:*/
         check_nms(ctx);
         gen_load_gpr(t1, rd);
         tcg_gen_qemu_st_tl(t1, t0, ctx->mem_idx,
-                           MO_TEUW);
+                           MO_TEUW | ctx->default_tcg_memop_mask);
         break;
     case NM_SWX:
     /*case NM_SWXS:*/
         check_nms(ctx);
         gen_load_gpr(t1, rd);
         tcg_gen_qemu_st_tl(t1, t0, ctx->mem_idx,
-                           MO_TEUL);
+                           MO_TEUL | ctx->default_tcg_memop_mask);
         break;
     case NM_LWC1X:
     /*case NM_LWC1XS:*/
@@ -XXX,XX +XXX,XX @@ static int decode_nanomips_32_48_opc(CPUMIPSState *env, DisasContext *ctx)
                                                 addr_off);
 
                     tcg_gen_movi_tl(t0, addr);
-                    tcg_gen_qemu_ld_tl(cpu_gpr[rt], t0, ctx->mem_idx, MO_TESL);
+                    tcg_gen_qemu_ld_tl(cpu_gpr[rt], t0, ctx->mem_idx,
+                                       MO_TESL | ctx->default_tcg_memop_mask);
                 }
                 break;
             case NM_SWPC48:
@@ -XXX,XX +XXX,XX @@ static int decode_nanomips_32_48_opc(CPUMIPSState *env, DisasContext *ctx)
                     tcg_gen_movi_tl(t0, addr);
                     gen_load_gpr(t1, rt);
 
-                    tcg_gen_qemu_st_tl(t1, t0, ctx->mem_idx, MO_TEUL);
+                    tcg_gen_qemu_st_tl(t1, t0, ctx->mem_idx,
+                                       MO_TEUL | ctx->default_tcg_memop_mask);
                 }
                 break;
             default:
-- 
2.34.1

Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 configs/targets/mips-linux-user.mak      | 1 -
 configs/targets/mips-softmmu.mak         | 1 -
 configs/targets/mips64-linux-user.mak    | 1 -
 configs/targets/mips64-softmmu.mak       | 1 -
 configs/targets/mips64el-linux-user.mak  | 1 -
 configs/targets/mips64el-softmmu.mak     | 1 -
 configs/targets/mipsel-linux-user.mak    | 1 -
 configs/targets/mipsel-softmmu.mak       | 1 -
 configs/targets/mipsn32-linux-user.mak   | 1 -
 configs/targets/mipsn32el-linux-user.mak | 1 -
 10 files changed, 10 deletions(-)

diff --git a/configs/targets/mips-linux-user.mak b/configs/targets/mips-linux-user.mak
index XXXXXXX..XXXXXXX 100644
--- a/configs/targets/mips-linux-user.mak
+++ b/configs/targets/mips-linux-user.mak
@@ -XXX,XX +XXX,XX @@ TARGET_ARCH=mips
 TARGET_ABI_MIPSO32=y
 TARGET_SYSTBL_ABI=o32
 TARGET_SYSTBL=syscall_o32.tbl
-TARGET_ALIGNED_ONLY=y
 TARGET_BIG_ENDIAN=y
diff --git a/configs/targets/mips-softmmu.mak b/configs/targets/mips-softmmu.mak
index XXXXXXX..XXXXXXX 100644
--- a/configs/targets/mips-softmmu.mak
+++ b/configs/targets/mips-softmmu.mak
@@ -XXX,XX +XXX,XX @@
 TARGET_ARCH=mips
-TARGET_ALIGNED_ONLY=y
 TARGET_BIG_ENDIAN=y
 TARGET_SUPPORTS_MTTCG=y
diff --git a/configs/targets/mips64-linux-user.mak b/configs/targets/mips64-linux-user.mak
index XXXXXXX..XXXXXXX 100644
--- a/configs/targets/mips64-linux-user.mak
+++ b/configs/targets/mips64-linux-user.mak
@@ -XXX,XX +XXX,XX @@ TARGET_ABI_MIPSN64=y
 TARGET_BASE_ARCH=mips
 TARGET_SYSTBL_ABI=n64
 TARGET_SYSTBL=syscall_n64.tbl
-TARGET_ALIGNED_ONLY=y
 TARGET_BIG_ENDIAN=y
diff --git a/configs/targets/mips64-softmmu.mak b/configs/targets/mips64-softmmu.mak
index XXXXXXX..XXXXXXX 100644
--- a/configs/targets/mips64-softmmu.mak
+++ b/configs/targets/mips64-softmmu.mak
@@ -XXX,XX +XXX,XX @@
 TARGET_ARCH=mips64
 TARGET_BASE_ARCH=mips
-TARGET_ALIGNED_ONLY=y
 TARGET_BIG_ENDIAN=y
diff --git a/configs/targets/mips64el-linux-user.mak b/configs/targets/mips64el-linux-user.mak
index XXXXXXX..XXXXXXX 100644
--- a/configs/targets/mips64el-linux-user.mak
+++ b/configs/targets/mips64el-linux-user.mak
@@ -XXX,XX +XXX,XX @@ TARGET_ABI_MIPSN64=y
 TARGET_BASE_ARCH=mips
 TARGET_SYSTBL_ABI=n64
 TARGET_SYSTBL=syscall_n64.tbl
-TARGET_ALIGNED_ONLY=y
diff --git a/configs/targets/mips64el-softmmu.mak b/configs/targets/mips64el-softmmu.mak
index XXXXXXX..XXXXXXX 100644
--- a/configs/targets/mips64el-softmmu.mak
+++ b/configs/targets/mips64el-softmmu.mak
@@ -XXX,XX +XXX,XX @@
 TARGET_ARCH=mips64
 TARGET_BASE_ARCH=mips
-TARGET_ALIGNED_ONLY=y
 TARGET_NEED_FDT=y
diff --git a/configs/targets/mipsel-linux-user.mak b/configs/targets/mipsel-linux-user.mak
index XXXXXXX..XXXXXXX 100644
--- a/configs/targets/mipsel-linux-user.mak
+++ b/configs/targets/mipsel-linux-user.mak
@@ -XXX,XX +XXX,XX @@ TARGET_ARCH=mips
 TARGET_ABI_MIPSO32=y
 TARGET_SYSTBL_ABI=o32
 TARGET_SYSTBL=syscall_o32.tbl
-TARGET_ALIGNED_ONLY=y
diff --git a/configs/targets/mipsel-softmmu.mak b/configs/targets/mipsel-softmmu.mak
index XXXXXXX..XXXXXXX 100644
--- a/configs/targets/mipsel-softmmu.mak
+++ b/configs/targets/mipsel-softmmu.mak
@@ -XXX,XX +XXX,XX @@
 TARGET_ARCH=mips
-TARGET_ALIGNED_ONLY=y
 TARGET_SUPPORTS_MTTCG=y
diff --git a/configs/targets/mipsn32-linux-user.mak b/configs/targets/mipsn32-linux-user.mak
index XXXXXXX..XXXXXXX 100644
--- a/configs/targets/mipsn32-linux-user.mak
+++ b/configs/targets/mipsn32-linux-user.mak
@@ -XXX,XX +XXX,XX @@ TARGET_ABI32=y
 TARGET_BASE_ARCH=mips
 TARGET_SYSTBL_ABI=n32
 TARGET_SYSTBL=syscall_n32.tbl
-TARGET_ALIGNED_ONLY=y
 TARGET_BIG_ENDIAN=y
diff --git a/configs/targets/mipsn32el-linux-user.mak b/configs/targets/mipsn32el-linux-user.mak
index XXXXXXX..XXXXXXX 100644
--- a/configs/targets/mipsn32el-linux-user.mak
+++ b/configs/targets/mipsn32el-linux-user.mak
@@ -XXX,XX +XXX,XX @@ TARGET_ABI32=y
 TARGET_BASE_ARCH=mips
 TARGET_SYSTBL_ABI=n32
 TARGET_SYSTBL=syscall_n32.tbl
-TARGET_ALIGNED_ONLY=y
-- 
2.34.1

In gen_ldx/gen_stx, the only two locations for memory operations,
mark the operation as either aligned (softmmu) or unaligned
(user-only, as if emulated by the kernel).

Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 configs/targets/nios2-softmmu.mak |  1 -
 target/nios2/translate.c          | 10 ++++++++++
 2 files changed, 10 insertions(+), 1 deletion(-)

diff --git a/configs/targets/nios2-softmmu.mak b/configs/targets/nios2-softmmu.mak
index XXXXXXX..XXXXXXX 100644
--- a/configs/targets/nios2-softmmu.mak
+++ b/configs/targets/nios2-softmmu.mak
@@ -XXX,XX +XXX,XX @@
 TARGET_ARCH=nios2
-TARGET_ALIGNED_ONLY=y
 TARGET_NEED_FDT=y
diff --git a/target/nios2/translate.c b/target/nios2/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/nios2/translate.c
+++ b/target/nios2/translate.c
@@ -XXX,XX +XXX,XX @@ static void gen_ldx(DisasContext *dc, uint32_t code, uint32_t flags)
     TCGv data = dest_gpr(dc, instr.b);
 
     tcg_gen_addi_tl(addr, load_gpr(dc, instr.a), instr.imm16.s);
+#ifdef CONFIG_USER_ONLY
+    flags |= MO_UNALN;
+#else
+    flags |= MO_ALIGN;
+#endif
     tcg_gen_qemu_ld_tl(data, addr, dc->mem_idx, flags);
 }
 
@@ -XXX,XX +XXX,XX @@ static void gen_stx(DisasContext *dc, uint32_t code, uint32_t flags)
 
     TCGv addr = tcg_temp_new();
     tcg_gen_addi_tl(addr, load_gpr(dc, instr.a), instr.imm16.s);
+#ifdef CONFIG_USER_ONLY
+    flags |= MO_UNALN;
+#else
+    flags |= MO_ALIGN;
+#endif
     tcg_gen_qemu_st_tl(val, addr, dc->mem_idx, flags);
 }
 
-- 
2.34.1

Mark all memory operations that are not already marked with UNALIGN.

Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 target/sh4/translate.c | 102 ++++++++++++++++++++++++++---------------
 1 file changed, 66 insertions(+), 36 deletions(-)

diff --git a/target/sh4/translate.c b/target/sh4/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/sh4/translate.c
+++ b/target/sh4/translate.c
@@ -XXX,XX +XXX,XX @@ static void _decode_opc(DisasContext * ctx)
     case 0x9000:		/* mov.w @(disp,PC),Rn */
 	{
             TCGv addr = tcg_constant_i32(ctx->base.pc_next + 4 + B7_0 * 2);
-            tcg_gen_qemu_ld_i32(REG(B11_8), addr, ctx->memidx, MO_TESW);
+            tcg_gen_qemu_ld_i32(REG(B11_8), addr, ctx->memidx,
+                                MO_TESW | MO_ALIGN);
 	}
 	return;
     case 0xd000:		/* mov.l @(disp,PC),Rn */
 	{
             TCGv addr = tcg_constant_i32((ctx->base.pc_next + 4 + B7_0 * 4) & ~3);
-            tcg_gen_qemu_ld_i32(REG(B11_8), addr, ctx->memidx, MO_TESL);
+            tcg_gen_qemu_ld_i32(REG(B11_8), addr, ctx->memidx,
+                                MO_TESL | MO_ALIGN);
 	}
 	return;
     case 0x7000:		/* add #imm,Rn */
@@ -XXX,XX +XXX,XX @@ static void _decode_opc(DisasContext * ctx)
 	{
 	    TCGv arg0, arg1;
 	    arg0 = tcg_temp_new();
-            tcg_gen_qemu_ld_i32(arg0, REG(B7_4), ctx->memidx, MO_TESL);
+            tcg_gen_qemu_ld_i32(arg0, REG(B7_4), ctx->memidx,
+                                MO_TESL | MO_ALIGN);
 	    arg1 = tcg_temp_new();
-            tcg_gen_qemu_ld_i32(arg1, REG(B11_8), ctx->memidx, MO_TESL);
+            tcg_gen_qemu_ld_i32(arg1, REG(B11_8), ctx->memidx,
+                                MO_TESL | MO_ALIGN);
             gen_helper_macl(cpu_env, arg0, arg1);
 	    tcg_gen_addi_i32(REG(B7_4), REG(B7_4), 4);
 	    tcg_gen_addi_i32(REG(B11_8), REG(B11_8), 4);
@@ -XXX,XX +XXX,XX @@ static void _decode_opc(DisasContext * ctx)
 	{
 	    TCGv arg0, arg1;
 	    arg0 = tcg_temp_new();
-            tcg_gen_qemu_ld_i32(arg0, REG(B7_4), ctx->memidx, MO_TESL);
+            tcg_gen_qemu_ld_i32(arg0, REG(B7_4), ctx->memidx,
+                                MO_TESL | MO_ALIGN);
 	    arg1 = tcg_temp_new();
-            tcg_gen_qemu_ld_i32(arg1, REG(B11_8), ctx->memidx, MO_TESL);
+            tcg_gen_qemu_ld_i32(arg1, REG(B11_8), ctx->memidx,
+                                MO_TESL | MO_ALIGN);
             gen_helper_macw(cpu_env, arg0, arg1);
 	    tcg_gen_addi_i32(REG(B11_8), REG(B11_8), 2);
 	    tcg_gen_addi_i32(REG(B7_4), REG(B7_4), 2);
@@ -XXX,XX +XXX,XX @@ static void _decode_opc(DisasContext * ctx)
         if (ctx->tbflags & FPSCR_SZ) {
             TCGv_i64 fp = tcg_temp_new_i64();
             gen_load_fpr64(ctx, fp, XHACK(B7_4));
-            tcg_gen_qemu_st_i64(fp, REG(B11_8), ctx->memidx, MO_TEUQ);
+            tcg_gen_qemu_st_i64(fp, REG(B11_8), ctx->memidx,
+                                MO_TEUQ | MO_ALIGN);
 	} else {
-            tcg_gen_qemu_st_i32(FREG(B7_4), REG(B11_8), ctx->memidx, MO_TEUL);
+            tcg_gen_qemu_st_i32(FREG(B7_4), REG(B11_8), ctx->memidx,
+                                MO_TEUL | MO_ALIGN);
 	}
 	return;
     case 0xf008: /* fmov @Rm,{F,D,X}Rn - FPSCR: Nothing */
 	CHECK_FPU_ENABLED
         if (ctx->tbflags & FPSCR_SZ) {
             TCGv_i64 fp = tcg_temp_new_i64();
-            tcg_gen_qemu_ld_i64(fp, REG(B7_4), ctx->memidx, MO_TEUQ);
+            tcg_gen_qemu_ld_i64(fp, REG(B7_4), ctx->memidx,
+                                MO_TEUQ | MO_ALIGN);
             gen_store_fpr64(ctx, fp, XHACK(B11_8));
 	} else {
-            tcg_gen_qemu_ld_i32(FREG(B11_8), REG(B7_4), ctx->memidx, MO_TEUL);
+            tcg_gen_qemu_ld_i32(FREG(B11_8), REG(B7_4), ctx->memidx,
+                                MO_TEUL | MO_ALIGN);
 	}
 	return;
     case 0xf009: /* fmov @Rm+,{F,D,X}Rn - FPSCR: Nothing */
 	CHECK_FPU_ENABLED
         if (ctx->tbflags & FPSCR_SZ) {
             TCGv_i64 fp = tcg_temp_new_i64();
-            tcg_gen_qemu_ld_i64(fp, REG(B7_4), ctx->memidx, MO_TEUQ);
+            tcg_gen_qemu_ld_i64(fp, REG(B7_4), ctx->memidx,
+                                MO_TEUQ | MO_ALIGN);
             gen_store_fpr64(ctx, fp, XHACK(B11_8));
             tcg_gen_addi_i32(REG(B7_4), REG(B7_4), 8);
 	} else {
-            tcg_gen_qemu_ld_i32(FREG(B11_8), REG(B7_4), ctx->memidx, MO_TEUL);
+            tcg_gen_qemu_ld_i32(FREG(B11_8), REG(B7_4), ctx->memidx,
+                                MO_TEUL | MO_ALIGN);
 	    tcg_gen_addi_i32(REG(B7_4), REG(B7_4), 4);
 	}
 	return;
@@ -XXX,XX +XXX,XX @@ static void _decode_opc(DisasContext * ctx)
                 TCGv_i64 fp = tcg_temp_new_i64();
                 gen_load_fpr64(ctx, fp, XHACK(B7_4));
                 tcg_gen_subi_i32(addr, REG(B11_8), 8);
-                tcg_gen_qemu_st_i64(fp, addr, ctx->memidx, MO_TEUQ);
+                tcg_gen_qemu_st_i64(fp, addr, ctx->memidx,
+                                    MO_TEUQ | MO_ALIGN);
             } else {
                 tcg_gen_subi_i32(addr, REG(B11_8), 4);
-                tcg_gen_qemu_st_i32(FREG(B7_4), addr, ctx->memidx, MO_TEUL);
+                tcg_gen_qemu_st_i32(FREG(B7_4), addr, ctx->memidx,
+                                    MO_TEUL | MO_ALIGN);
             }
             tcg_gen_mov_i32(REG(B11_8), addr);
         }
@@ -XXX,XX +XXX,XX @@ static void _decode_opc(DisasContext * ctx)
 	    tcg_gen_add_i32(addr, REG(B7_4), REG(0));
             if (ctx->tbflags & FPSCR_SZ) {
                 TCGv_i64 fp = tcg_temp_new_i64();
-                tcg_gen_qemu_ld_i64(fp, addr, ctx->memidx, MO_TEUQ);
+                tcg_gen_qemu_ld_i64(fp, addr, ctx->memidx,
+                                    MO_TEUQ | MO_ALIGN);
                 gen_store_fpr64(ctx, fp, XHACK(B11_8));
 	    } else {
-                tcg_gen_qemu_ld_i32(FREG(B11_8), addr, ctx->memidx, MO_TEUL);
+                tcg_gen_qemu_ld_i32(FREG(B11_8), addr, ctx->memidx,
+                                    MO_TEUL | MO_ALIGN);
 	    }
 	}
 	return;
@@ -XXX,XX +XXX,XX @@ static void _decode_opc(DisasContext * ctx)
             if (ctx->tbflags & FPSCR_SZ) {
                 TCGv_i64 fp = tcg_temp_new_i64();
                 gen_load_fpr64(ctx, fp, XHACK(B7_4));
-                tcg_gen_qemu_st_i64(fp, addr, ctx->memidx, MO_TEUQ);
+                tcg_gen_qemu_st_i64(fp, addr, ctx->memidx,
+                                    MO_TEUQ | MO_ALIGN);
 	    } else {
-                tcg_gen_qemu_st_i32(FREG(B7_4), addr, ctx->memidx, MO_TEUL);
+                tcg_gen_qemu_st_i32(FREG(B7_4), addr, ctx->memidx,
+                                    MO_TEUL | MO_ALIGN);
 	    }
 	}
 	return;
@@ -XXX,XX +XXX,XX @@ static void _decode_opc(DisasContext * ctx)
 	{
 	    TCGv addr = tcg_temp_new();
 	    tcg_gen_addi_i32(addr, cpu_gbr, B7_0 * 2);
-            tcg_gen_qemu_ld_i32(REG(0), addr, ctx->memidx, MO_TESW);
+            tcg_gen_qemu_ld_i32(REG(0), addr, ctx->memidx, MO_TESW | MO_ALIGN);
 	}
 	return;
     case 0xc600:		/* mov.l @(disp,GBR),R0 */
 	{
 	    TCGv addr = tcg_temp_new();
 	    tcg_gen_addi_i32(addr, cpu_gbr, B7_0 * 4);
-            tcg_gen_qemu_ld_i32(REG(0), addr, ctx->memidx, MO_TESL);
+            tcg_gen_qemu_ld_i32(REG(0), addr, ctx->memidx, MO_TESL | MO_ALIGN);
 	}
 	return;
     case 0xc000:		/* mov.b R0,@(disp,GBR) */
@@ -XXX,XX +XXX,XX @@ static void _decode_opc(DisasContext * ctx)
 	{
 	    TCGv addr = tcg_temp_new();
 	    tcg_gen_addi_i32(addr, cpu_gbr, B7_0 * 2);
-            tcg_gen_qemu_st_i32(REG(0), addr, ctx->memidx, MO_TEUW);
+            tcg_gen_qemu_st_i32(REG(0), addr, ctx->memidx, MO_TEUW | MO_ALIGN);
 	}
 	return;
     case 0xc200:		/* mov.l R0,@(disp,GBR) */
 	{
 	    TCGv addr = tcg_temp_new();
 	    tcg_gen_addi_i32(addr, cpu_gbr, B7_0 * 4);
-            tcg_gen_qemu_st_i32(REG(0), addr, ctx->memidx, MO_TEUL);
+            tcg_gen_qemu_st_i32(REG(0), addr, ctx->memidx, MO_TEUL | MO_ALIGN);
 	}
 	return;
     case 0x8000:		/* mov.b R0,@(disp,Rn) */
@@ -XXX,XX +XXX,XX @@ static void _decode_opc(DisasContext * ctx)
 	return;
     case 0x4087:		/* ldc.l @Rm+,Rn_BANK */
 	CHECK_PRIVILEGED
-        tcg_gen_qemu_ld_i32(ALTREG(B6_4), REG(B11_8), ctx->memidx, MO_TESL);
+        tcg_gen_qemu_ld_i32(ALTREG(B6_4), REG(B11_8), ctx->memidx,
+                            MO_TESL | MO_ALIGN);
 	tcg_gen_addi_i32(REG(B11_8), REG(B11_8), 4);
 	return;
     case 0x0082:		/* stc Rm_BANK,Rn */
@@ -XXX,XX +XXX,XX @@ static void _decode_opc(DisasContext * ctx)
 	{
 	    TCGv addr = tcg_temp_new();
 	    tcg_gen_subi_i32(addr, REG(B11_8), 4);
-            tcg_gen_qemu_st_i32(ALTREG(B6_4), addr, ctx->memidx, MO_TEUL);
+            tcg_gen_qemu_st_i32(ALTREG(B6_4), addr, ctx->memidx,
+                                MO_TEUL | MO_ALIGN);
 	    tcg_gen_mov_i32(REG(B11_8), addr);
 	}
 	return;
@@ -XXX,XX +XXX,XX @@ static void _decode_opc(DisasContext * ctx)
 	CHECK_PRIVILEGED
 	{
 	    TCGv val = tcg_temp_new();
-            tcg_gen_qemu_ld_i32(val, REG(B11_8), ctx->memidx, MO_TESL);
+            tcg_gen_qemu_ld_i32(val, REG(B11_8), ctx->memidx,
+                                MO_TESL | MO_ALIGN);
             tcg_gen_andi_i32(val, val, 0x700083f3);
             gen_write_sr(val);
 	    tcg_gen_addi_i32(REG(B11_8), REG(B11_8), 4);
@@ -XXX,XX +XXX,XX @@ static void _decode_opc(DisasContext * ctx)
             TCGv val = tcg_temp_new();
 	    tcg_gen_subi_i32(addr, REG(B11_8), 4);
             gen_read_sr(val);
-            tcg_gen_qemu_st_i32(val, addr, ctx->memidx, MO_TEUL);
+            tcg_gen_qemu_st_i32(val, addr, ctx->memidx, MO_TEUL | MO_ALIGN);
 	    tcg_gen_mov_i32(REG(B11_8), addr);
 	}
 	return;
@@ -XXX,XX +XXX,XX @@ static void _decode_opc(DisasContext * ctx)
     return;							\
   case ldpnum:							\
     prechk    							\
-    tcg_gen_qemu_ld_i32(cpu_##reg, REG(B11_8), ctx->memidx, MO_TESL); \
+    tcg_gen_qemu_ld_i32(cpu_##reg, REG(B11_8), ctx->memidx,     \
+                        MO_TESL | MO_ALIGN);                    \
     tcg_gen_addi_i32(REG(B11_8), REG(B11_8), 4);		\
     return;
 #define ST(reg,stnum,stpnum,prechk)		\
@@ -XXX,XX +XXX,XX @@ static void _decode_opc(DisasContext * ctx)
     {								\
 	TCGv addr = tcg_temp_new();				\
 	tcg_gen_subi_i32(addr, REG(B11_8), 4);			\
-        tcg_gen_qemu_st_i32(cpu_##reg, addr, ctx->memidx, MO_TEUL); \
+        tcg_gen_qemu_st_i32(cpu_##reg, addr, ctx->memidx,       \
+                            MO_TEUL | MO_ALIGN);                \
 	tcg_gen_mov_i32(REG(B11_8), addr);			\
     }								\
     return;
@@ -XXX,XX +XXX,XX @@ static void _decode_opc(DisasContext * ctx)
 	CHECK_FPU_ENABLED
 	{
 	    TCGv addr = tcg_temp_new();
-            tcg_gen_qemu_ld_i32(addr, REG(B11_8), ctx->memidx, MO_TESL);
+            tcg_gen_qemu_ld_i32(addr, REG(B11_8), ctx->memidx,
+                                MO_TESL | MO_ALIGN);
 	    tcg_gen_addi_i32(REG(B11_8), REG(B11_8), 4);
             gen_helper_ld_fpscr(cpu_env, addr);
             ctx->base.is_jmp = DISAS_STOP;
@@ -XXX,XX +XXX,XX @@ static void _decode_opc(DisasContext * ctx)
 	    tcg_gen_andi_i32(val, cpu_fpscr, 0x003fffff);
 	    addr = tcg_temp_new();
 	    tcg_gen_subi_i32(addr, REG(B11_8), 4);
-            tcg_gen_qemu_st_i32(val, addr, ctx->memidx, MO_TEUL);
+            tcg_gen_qemu_st_i32(val, addr, ctx->memidx, MO_TEUL | MO_ALIGN);
 	    tcg_gen_mov_i32(REG(B11_8), addr);
 	}
 	return;
     case 0x00c3:		/* movca.l R0,@Rm */
         {
             TCGv val = tcg_temp_new();
-            tcg_gen_qemu_ld_i32(val, REG(B11_8), ctx->memidx, MO_TEUL);
+            tcg_gen_qemu_ld_i32(val, REG(B11_8), ctx->memidx,
+                                MO_TEUL | MO_ALIGN);
             gen_helper_movcal(cpu_env, REG(B11_8), val);
-            tcg_gen_qemu_st_i32(REG(0), REG(B11_8), ctx->memidx, MO_TEUL);
+            tcg_gen_qemu_st_i32(REG(0), REG(B11_8), ctx->memidx,
+                                MO_TEUL | MO_ALIGN);
         }
         ctx->has_movcal = 1;
 	return;
@@ -XXX,XX +XXX,XX @@ static void _decode_opc(DisasContext * ctx)
                                    cpu_lock_addr, fail);
                 tmp = tcg_temp_new();
                 tcg_gen_atomic_cmpxchg_i32(tmp, REG(B11_8), cpu_lock_value,
-                                           REG(0), ctx->memidx, MO_TEUL);
+                                           REG(0), ctx->memidx,
+                                           MO_TEUL | MO_ALIGN);
                 tcg_gen_setcond_i32(TCG_COND_EQ, cpu_sr_t, tmp, cpu_lock_value);
             } else {
                 tcg_gen_brcondi_i32(TCG_COND_EQ, cpu_lock_addr, -1, fail);
-                tcg_gen_qemu_st_i32(REG(0), REG(B11_8), ctx->memidx, MO_TEUL);
+                tcg_gen_qemu_st_i32(REG(0), REG(B11_8), ctx->memidx,
+                                    MO_TEUL | MO_ALIGN);
                 tcg_gen_movi_i32(cpu_sr_t, 1);
             }
             tcg_gen_br(done);
@@ -XXX,XX +XXX,XX @@ static void _decode_opc(DisasContext * ctx)
         if ((tb_cflags(ctx->base.tb) & CF_PARALLEL)) {
             TCGv tmp = tcg_temp_new();
             tcg_gen_mov_i32(tmp, REG(B11_8));
-            tcg_gen_qemu_ld_i32(REG(0), REG(B11_8), ctx->memidx, MO_TESL);
+            tcg_gen_qemu_ld_i32(REG(0), REG(B11_8), ctx->memidx,
+                                MO_TESL | MO_ALIGN);
             tcg_gen_mov_i32(cpu_lock_value, REG(0));
             tcg_gen_mov_i32(cpu_lock_addr, tmp);
         } else {
-            tcg_gen_qemu_ld_i32(REG(0), REG(B11_8), ctx->memidx, MO_TESL);
+            tcg_gen_qemu_ld_i32(REG(0), REG(B11_8), ctx->memidx,
+                                MO_TESL | MO_ALIGN);
             tcg_gen_movi_i32(cpu_lock_addr, 0);
         }
         return;
-- 
2.34.1

Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 configs/targets/sh4-linux-user.mak   | 1 -
 configs/targets/sh4-softmmu.mak      | 1 -
 configs/targets/sh4eb-linux-user.mak | 1 -
 configs/targets/sh4eb-softmmu.mak    | 1 -
 4 files changed, 4 deletions(-)

diff --git a/configs/targets/sh4-linux-user.mak b/configs/targets/sh4-linux-user.mak
index XXXXXXX..XXXXXXX 100644
--- a/configs/targets/sh4-linux-user.mak
+++ b/configs/targets/sh4-linux-user.mak
@@ -XXX,XX +XXX,XX @@
 TARGET_ARCH=sh4
 TARGET_SYSTBL_ABI=common
 TARGET_SYSTBL=syscall.tbl
-TARGET_ALIGNED_ONLY=y
 TARGET_HAS_BFLT=y
diff --git a/configs/targets/sh4-softmmu.mak b/configs/targets/sh4-softmmu.mak
index XXXXXXX..XXXXXXX 100644
--- a/configs/targets/sh4-softmmu.mak
+++ b/configs/targets/sh4-softmmu.mak
@@ -1,2 +1 @@
 TARGET_ARCH=sh4
-TARGET_ALIGNED_ONLY=y
diff --git a/configs/targets/sh4eb-linux-user.mak b/configs/targets/sh4eb-linux-user.mak
index XXXXXXX..XXXXXXX 100644
--- a/configs/targets/sh4eb-linux-user.mak
+++ b/configs/targets/sh4eb-linux-user.mak
@@ -XXX,XX +XXX,XX @@
 TARGET_ARCH=sh4
 TARGET_SYSTBL_ABI=common
 TARGET_SYSTBL=syscall.tbl
-TARGET_ALIGNED_ONLY=y
 TARGET_BIG_ENDIAN=y
 TARGET_HAS_BFLT=y
diff --git a/configs/targets/sh4eb-softmmu.mak b/configs/targets/sh4eb-softmmu.mak
index XXXXXXX..XXXXXXX 100644
--- a/configs/targets/sh4eb-softmmu.mak
+++ b/configs/targets/sh4eb-softmmu.mak
@@ -XXX,XX +XXX,XX @@
 TARGET_ARCH=sh4
-TARGET_ALIGNED_ONLY=y
 TARGET_BIG_ENDIAN=y
-- 
2.34.1

All uses have now been expunged.

Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 include/exec/memop.h  | 13 ++-----------
 include/exec/poison.h |  1 -
 tcg/tcg.c             |  5 -----
 3 files changed, 2 insertions(+), 17 deletions(-)

diff --git a/include/exec/memop.h b/include/exec/memop.h
index XXXXXXX..XXXXXXX 100644
--- a/include/exec/memop.h
+++ b/include/exec/memop.h
@@ -XXX,XX +XXX,XX @@ typedef enum MemOp {
      * MO_UNALN accesses are never checked for alignment.
      * MO_ALIGN accesses will result in a call to the CPU's
      * do_unaligned_access hook if the guest address is not aligned.
-     * The default depends on whether the target CPU defines
-     * TARGET_ALIGNED_ONLY.
      *
      * Some architectures (e.g. ARMv8) need the address which is aligned
      * to a size more than the size of the memory access.
@@ -XXX,XX +XXX,XX @@ typedef enum MemOp {
      */
     MO_ASHIFT = 5,
     MO_AMASK = 0x7 << MO_ASHIFT,
-#ifdef NEED_CPU_H
-#ifdef TARGET_ALIGNED_ONLY
-    MO_ALIGN = 0,
-    MO_UNALN = MO_AMASK,
-#else
-    MO_ALIGN = MO_AMASK,
-    MO_UNALN = 0,
-#endif
-#endif
+    MO_UNALN    = 0,
     MO_ALIGN_2  = 1 << MO_ASHIFT,
     MO_ALIGN_4  = 2 << MO_ASHIFT,
     MO_ALIGN_8  = 3 << MO_ASHIFT,
     MO_ALIGN_16 = 4 << MO_ASHIFT,
     MO_ALIGN_32 = 5 << MO_ASHIFT,
     MO_ALIGN_64 = 6 << MO_ASHIFT,
+    MO_ALIGN    = MO_AMASK,
 
     /* Combinations of the above, for ease of use.  */
     MO_UB    = MO_8,
diff --git a/include/exec/poison.h b/include/exec/poison.h
index XXXXXXX..XXXXXXX 100644
--- a/include/exec/poison.h
+++ b/include/exec/poison.h
@@ -XXX,XX +XXX,XX @@
 #pragma GCC poison TARGET_TRICORE
 #pragma GCC poison TARGET_XTENSA
 
-#pragma GCC poison TARGET_ALIGNED_ONLY
 #pragma GCC poison TARGET_HAS_BFLT
 #pragma GCC poison TARGET_NAME
 #pragma GCC poison TARGET_SUPPORTS_MTTCG
diff --git a/tcg/tcg.c b/tcg/tcg.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/tcg.c
+++ b/tcg/tcg.c
@@ -XXX,XX +XXX,XX @@ static const char * const ldst_name[] =
 };
 
 static const char * const alignment_name[(MO_AMASK >> MO_ASHIFT) + 1] = {
-#ifdef TARGET_ALIGNED_ONLY
     [MO_UNALN >> MO_ASHIFT]    = "un+",
-    [MO_ALIGN >> MO_ASHIFT]    = "",
-#else
-    [MO_UNALN >> MO_ASHIFT]    = "",
     [MO_ALIGN >> MO_ASHIFT]    = "al+",
-#endif
     [MO_ALIGN_2 >> MO_ASHIFT]  = "al2+",
     [MO_ALIGN_4 >> MO_ASHIFT]  = "al4+",
     [MO_ALIGN_8 >> MO_ASHIFT]  = "al8+",
-- 
2.34.1

Like cpu_in_exclusive_context, but also true if
there is no other cpu against which we could race.

Use it in tb_flush as a direct replacement.
Use it in cpu_loop_exit_atomic to ensure that there
is no loop against cpu_exec_step_atomic.

Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 accel/tcg/internal.h        | 9 +++++++++
 accel/tcg/cpu-exec-common.c | 3 +++
 accel/tcg/tb-maint.c        | 2 +-
 3 files changed, 13 insertions(+), 1 deletion(-)

diff --git a/accel/tcg/internal.h b/accel/tcg/internal.h
index XXXXXXX..XXXXXXX 100644
--- a/accel/tcg/internal.h
+++ b/accel/tcg/internal.h
@@ -XXX,XX +XXX,XX @@ static inline target_ulong log_pc(CPUState *cpu, const TranslationBlock *tb)
     }
 }
 
+/*
+ * Return true if CS is not running in parallel with other cpus, either
+ * because there are no other cpus or we are within an exclusive context.
+ */
+static inline bool cpu_in_serial_context(CPUState *cs)
+{
+    return !(cs->tcg_cflags & CF_PARALLEL) || cpu_in_exclusive_context(cs);
+}
+
 extern int64_t max_delay;
 extern int64_t max_advance;
 
diff --git a/accel/tcg/cpu-exec-common.c b/accel/tcg/cpu-exec-common.c
index XXXXXXX..XXXXXXX 100644
--- a/accel/tcg/cpu-exec-common.c
+++ b/accel/tcg/cpu-exec-common.c
@@ -XXX,XX +XXX,XX @@
 #include "sysemu/tcg.h"
 #include "exec/exec-all.h"
 #include "qemu/plugin.h"
+#include "internal.h"
 
 bool tcg_allowed;
 
@@ -XXX,XX +XXX,XX @@ void cpu_loop_exit_restore(CPUState *cpu, uintptr_t pc)
 
 void cpu_loop_exit_atomic(CPUState *cpu, uintptr_t pc)
 {
+    /* Prevent looping if already executing in a serial context. */
+    g_assert(!cpu_in_serial_context(cpu));
     cpu->exception_index = EXCP_ATOMIC;
     cpu_loop_exit_restore(cpu, pc);
 }
diff --git a/accel/tcg/tb-maint.c b/accel/tcg/tb-maint.c
index XXXXXXX..XXXXXXX 100644
--- a/accel/tcg/tb-maint.c
+++ b/accel/tcg/tb-maint.c
@@ -XXX,XX +XXX,XX @@ void tb_flush(CPUState *cpu)
     if (tcg_enabled()) {
         unsigned tb_flush_count = qatomic_read(&tb_ctx.tb_flush_count);
 
-        if (cpu_in_exclusive_context(cpu)) {
+        if (cpu_in_serial_context(cpu)) {
             do_tb_flush(cpu, RUN_ON_CPU_HOST_INT(tb_flush_count));
         } else {
             async_safe_run_on_cpu(cpu, do_tb_flush,
-- 
2.34.1

Instead of playing with offsetof in various places, use
MMUAccessType to index an array.  This is easily defined
instead of the previous dummy padding array in the union.

Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 include/exec/cpu-defs.h |   7 ++-
 include/exec/cpu_ldst.h |  26 ++++++++--
 accel/tcg/cputlb.c      | 104 +++++++++++++---------------------------
 3 files changed, 59 insertions(+), 78 deletions(-)

diff --git a/include/exec/cpu-defs.h b/include/exec/cpu-defs.h
index XXXXXXX..XXXXXXX 100644
--- a/include/exec/cpu-defs.h
+++ b/include/exec/cpu-defs.h
@@ -XXX,XX +XXX,XX @@ typedef struct CPUTLBEntry {
                use the corresponding iotlb value.  */
             uintptr_t addend;
         };
-        /* padding to get a power of two size */
-        uint8_t dummy[1 << CPU_TLB_ENTRY_BITS];
+        /*
+         * Padding to get a power of two size, as well as index
+         * access to addr_{read,write,code}.
+         */
+        target_ulong addr_idx[(1 << CPU_TLB_ENTRY_BITS) / TARGET_LONG_SIZE];
     };
 } CPUTLBEntry;
 
diff --git a/include/exec/cpu_ldst.h b/include/exec/cpu_ldst.h
index XXXXXXX..XXXXXXX 100644
--- a/include/exec/cpu_ldst.h
+++ b/include/exec/cpu_ldst.h
@@ -XXX,XX +XXX,XX @@ static inline void clear_helper_retaddr(void)
 /* Needed for TCG_OVERSIZED_GUEST */
 #include "tcg/tcg.h"
 
+static inline target_ulong tlb_read_idx(const CPUTLBEntry *entry,
+                                        MMUAccessType access_type)
+{
+    /* Do not rearrange the CPUTLBEntry structure members. */
+    QEMU_BUILD_BUG_ON(offsetof(CPUTLBEntry, addr_read) !=
+                      MMU_DATA_LOAD * TARGET_LONG_SIZE);
+    QEMU_BUILD_BUG_ON(offsetof(CPUTLBEntry, addr_write) !=
+                      MMU_DATA_STORE * TARGET_LONG_SIZE);
+    QEMU_BUILD_BUG_ON(offsetof(CPUTLBEntry, addr_code) !=
+                      MMU_INST_FETCH * TARGET_LONG_SIZE);
+
+    const target_ulong *ptr = &entry->addr_idx[access_type];
+#if TCG_OVERSIZED_GUEST
+    return *ptr;
+#else
+    /* ofs might correspond to .addr_write, so use qatomic_read */
+    return qatomic_read(ptr);
+#endif
+}
+
 static inline target_ulong tlb_addr_write(const CPUTLBEntry *entry)
 {
-#if TCG_OVERSIZED_GUEST
-    return entry->addr_write;
-#else
-    return qatomic_read(&entry->addr_write);
-#endif
+    return tlb_read_idx(entry, MMU_DATA_STORE);
 }
 
 /* Find the TLB index corresponding to the mmu_idx + address pair.  */
diff --git a/accel/tcg/cputlb.c b/accel/tcg/cputlb.c
index XXXXXXX..XXXXXXX 100644
--- a/accel/tcg/cputlb.c
+++ b/accel/tcg/cputlb.c
@@ -XXX,XX +XXX,XX @@ static void io_writex(CPUArchState *env, CPUTLBEntryFull *full,
     }
 }
 
-static inline target_ulong tlb_read_ofs(CPUTLBEntry *entry, size_t ofs)
-{
-#if TCG_OVERSIZED_GUEST
-    return *(target_ulong *)((uintptr_t)entry + ofs);
-#else
-    /* ofs might correspond to .addr_write, so use qatomic_read */
-    return qatomic_read((target_ulong *)((uintptr_t)entry + ofs));
-#endif
-}
-
 /* Return true if ADDR is present in the victim tlb, and has been copied
    back to the main tlb.  */
 static bool victim_tlb_hit(CPUArchState *env, size_t mmu_idx, size_t index,
-                           size_t elt_ofs, target_ulong page)
+                           MMUAccessType access_type, target_ulong page)
 {
     size_t vidx;
 
     assert_cpu_is_self(env_cpu(env));
     for (vidx = 0; vidx < CPU_VTLB_SIZE; ++vidx) {
         CPUTLBEntry *vtlb = &env_tlb(env)->d[mmu_idx].vtable[vidx];
-        target_ulong cmp;
-
-        /* elt_ofs might correspond to .addr_write, so use qatomic_read */
-#if TCG_OVERSIZED_GUEST
-        cmp = *(target_ulong *)((uintptr_t)vtlb + elt_ofs);
-#else
-        cmp = qatomic_read((target_ulong *)((uintptr_t)vtlb + elt_ofs));
-#endif
+        target_ulong cmp = tlb_read_idx(vtlb, access_type);
 
         if (cmp == page) {
             /* Found entry in victim tlb, swap tlb and iotlb.  */
@@ -XXX,XX +XXX,XX @@ static bool victim_tlb_hit(CPUArchState *env, size_t mmu_idx, size_t index,
     return false;
 }
 
-/* Macro to call the above, with local variables from the use context.  */
-#define VICTIM_TLB_HIT(TY, ADDR) \
-  victim_tlb_hit(env, mmu_idx, index, offsetof(CPUTLBEntry, TY), \
-                 (ADDR) & TARGET_PAGE_MASK)
-
 static void notdirty_write(CPUState *cpu, vaddr mem_vaddr, unsigned size,
                            CPUTLBEntryFull *full, uintptr_t retaddr)
 {
@@ -XXX,XX +XXX,XX @@ static int probe_access_internal(CPUArchState *env, target_ulong addr,
 {
     uintptr_t index = tlb_index(env, mmu_idx, addr);
     CPUTLBEntry *entry = tlb_entry(env, mmu_idx, addr);
-    target_ulong tlb_addr, page_addr;
-    size_t elt_ofs;
-    int flags;
+    target_ulong tlb_addr = tlb_read_idx(entry, access_type);
+    target_ulong page_addr = addr & TARGET_PAGE_MASK;
+    int flags = TLB_FLAGS_MASK;
 
-    switch (access_type) {
-    case MMU_DATA_LOAD:
-        elt_ofs = offsetof(CPUTLBEntry, addr_read);
-        break;
-    case MMU_DATA_STORE:
-        elt_ofs = offsetof(CPUTLBEntry, addr_write);
-        break;
-    case MMU_INST_FETCH:
-        elt_ofs = offsetof(CPUTLBEntry, addr_code);
-        break;
-    default:
-        g_assert_not_reached();
-    }
-    tlb_addr = tlb_read_ofs(entry, elt_ofs);
-
-    flags = TLB_FLAGS_MASK;
-    page_addr = addr & TARGET_PAGE_MASK;
     if (!tlb_hit_page(tlb_addr, page_addr)) {
-        if (!victim_tlb_hit(env, mmu_idx, index, elt_ofs, page_addr)) {
+        if (!victim_tlb_hit(env, mmu_idx, index, access_type, page_addr)) {
             CPUState *cs = env_cpu(env);
 
             if (!cs->cc->tcg_ops->tlb_fill(cs, addr, fault_size, access_type,
@@ -XXX,XX +XXX,XX @@ static int probe_access_internal(CPUArchState *env, target_ulong addr,
              */
             flags &= ~TLB_INVALID_MASK;
         }
-        tlb_addr = tlb_read_ofs(entry, elt_ofs);
+        tlb_addr = tlb_read_idx(entry, access_type);
     }
     flags &= tlb_addr;
 
@@ -XXX,XX +XXX,XX @@ static void *atomic_mmu_lookup(CPUArchState *env, target_ulong addr,
     if (prot & PAGE_WRITE) {
         tlb_addr = tlb_addr_write(tlbe);
         if (!tlb_hit(tlb_addr, addr)) {
-            if (!VICTIM_TLB_HIT(addr_write, addr)) {
+            if (!victim_tlb_hit(env, mmu_idx, index, MMU_DATA_STORE,
+                                addr & TARGET_PAGE_MASK)) {
                 tlb_fill(env_cpu(env), addr, size,
                          MMU_DATA_STORE, mmu_idx, retaddr);
                 index = tlb_index(env, mmu_idx, addr);
@@ -XXX,XX +XXX,XX @@ static void *atomic_mmu_lookup(CPUArchState *env, target_ulong addr,
     } else /* if (prot & PAGE_READ) */ {
         tlb_addr = tlbe->addr_read;
         if (!tlb_hit(tlb_addr, addr)) {
-            if (!VICTIM_TLB_HIT(addr_read, addr)) {
+            if (!victim_tlb_hit(env, mmu_idx, index, MMU_DATA_LOAD,
+                                addr & TARGET_PAGE_MASK)) {
                 tlb_fill(env_cpu(env), addr, size,
                          MMU_DATA_LOAD, mmu_idx, retaddr);
                 index = tlb_index(env, mmu_idx, addr);
@@ -XXX,XX +XXX,XX @@ load_memop(const void *haddr, MemOp op)
 
 static inline uint64_t QEMU_ALWAYS_INLINE
 load_helper(CPUArchState *env, target_ulong addr, MemOpIdx oi,
-            uintptr_t retaddr, MemOp op, bool code_read,
+            uintptr_t retaddr, MemOp op, MMUAccessType access_type,
             FullLoadHelper *full_load)
 {
-    const size_t tlb_off = code_read ?
-        offsetof(CPUTLBEntry, addr_code) : offsetof(CPUTLBEntry, addr_read);
-    const MMUAccessType access_type =
-        code_read ? MMU_INST_FETCH : MMU_DATA_LOAD;
     const unsigned a_bits = get_alignment_bits(get_memop(oi));
     const size_t size = memop_size(op);
     uintptr_t mmu_idx = get_mmuidx(oi);
@@ -XXX,XX +XXX,XX @@ load_helper(CPUArchState *env, target_ulong addr, MemOpIdx oi,
 
     index = tlb_index(env, mmu_idx, addr);
     entry = tlb_entry(env, mmu_idx, addr);
-    tlb_addr = code_read ? entry->addr_code : entry->addr_read;
+    tlb_addr = tlb_read_idx(entry, access_type);
 
     /* If the TLB entry is for a different page, reload and try again.  */
     if (!tlb_hit(tlb_addr, addr)) {
-        if (!victim_tlb_hit(env, mmu_idx, index, tlb_off,
+        if (!victim_tlb_hit(env, mmu_idx, index, access_type,
                             addr & TARGET_PAGE_MASK)) {
             tlb_fill(env_cpu(env), addr, size,
                      access_type, mmu_idx, retaddr);
             index = tlb_index(env, mmu_idx, addr);
             entry = tlb_entry(env, mmu_idx, addr);
         }
-        tlb_addr = code_read ? entry->addr_code : entry->addr_read;
+        tlb_addr = tlb_read_idx(entry, access_type);
         tlb_addr &= ~TLB_INVALID_MASK;
     }
 
@@ -XXX,XX +XXX,XX @@ static uint64_t full_ldub_mmu(CPUArchState *env, target_ulong addr,
                               MemOpIdx oi, uintptr_t retaddr)
 {
     validate_memop(oi, MO_UB);
-    return load_helper(env, addr, oi, retaddr, MO_UB, false, full_ldub_mmu);
+    return load_helper(env, addr, oi, retaddr, MO_UB, MMU_DATA_LOAD,
+                       full_ldub_mmu);
 }
 
 tcg_target_ulong helper_ret_ldub_mmu(CPUArchState *env, target_ulong addr,
@@ -XXX,XX +XXX,XX @@ static uint64_t full_le_lduw_mmu(CPUArchState *env, target_ulong addr,
                                  MemOpIdx oi, uintptr_t retaddr)
 {
     validate_memop(oi, MO_LEUW);
-    return load_helper(env, addr, oi, retaddr, MO_LEUW, false,
+    return load_helper(env, addr, oi, retaddr, MO_LEUW, MMU_DATA_LOAD,
                        full_le_lduw_mmu);
 }
 
@@ -XXX,XX +XXX,XX @@ static uint64_t full_be_lduw_mmu(CPUArchState *env, target_ulong addr,
                                  MemOpIdx oi, uintptr_t retaddr)
 {
     validate_memop(oi, MO_BEUW);
-    return load_helper(env, addr, oi, retaddr, MO_BEUW, false,
+    return load_helper(env, addr, oi, retaddr, MO_BEUW, MMU_DATA_LOAD,
                        full_be_lduw_mmu);
 }
 
@@ -XXX,XX +XXX,XX @@ static uint64_t full_le_ldul_mmu(CPUArchState *env, target_ulong addr,
                                  MemOpIdx oi, uintptr_t retaddr)
 {
     validate_memop(oi, MO_LEUL);
-    return load_helper(env, addr, oi, retaddr, MO_LEUL, false,
+    return load_helper(env, addr, oi, retaddr, MO_LEUL, MMU_DATA_LOAD,
                        full_le_ldul_mmu);
 }
 
@@ -XXX,XX +XXX,XX @@ static uint64_t full_be_ldul_mmu(CPUArchState *env, target_ulong addr,
                                  MemOpIdx oi, uintptr_t retaddr)
 {
     validate_memop(oi, MO_BEUL);
-    return load_helper(env, addr, oi, retaddr, MO_BEUL, false,
+    return load_helper(env, addr, oi, retaddr, MO_BEUL, MMU_DATA_LOAD,
                        full_be_ldul_mmu);
 }
 
@@ -XXX,XX +XXX,XX @@ uint64_t helper_le_ldq_mmu(CPUArchState *env, target_ulong addr,
                            MemOpIdx oi, uintptr_t retaddr)
 {
     validate_memop(oi, MO_LEUQ);
-    return load_helper(env, addr, oi, retaddr, MO_LEUQ, false,
+    return load_helper(env, addr, oi, retaddr, MO_LEUQ, MMU_DATA_LOAD,
                        helper_le_ldq_mmu);
 }
 
@@ -XXX,XX +XXX,XX @@ uint64_t helper_be_ldq_mmu(CPUArchState *env, target_ulong addr,
                            MemOpIdx oi, uintptr_t retaddr)
 {
     validate_memop(oi, MO_BEUQ);
-    return load_helper(env, addr, oi, retaddr, MO_BEUQ, false,
+    return load_helper(env, addr, oi, retaddr, MO_BEUQ, MMU_DATA_LOAD,
                        helper_be_ldq_mmu);
 }
 
@@ -XXX,XX +XXX,XX @@ store_helper_unaligned(CPUArchState *env, target_ulong addr, uint64_t val,
                        uintptr_t retaddr, size_t size, uintptr_t mmu_idx,
                        bool big_endian)
 {
-    const size_t tlb_off = offsetof(CPUTLBEntry, addr_write);
     uintptr_t index, index2;
     CPUTLBEntry *entry, *entry2;
     target_ulong page1, page2, tlb_addr, tlb_addr2;
@@ -XXX,XX +XXX,XX @@ store_helper_unaligned(CPUArchState *env, target_ulong addr, uint64_t val,
 
     tlb_addr2 = tlb_addr_write(entry2);
     if (page1 != page2 && !tlb_hit_page(tlb_addr2, page2)) {
-        if (!victim_tlb_hit(env, mmu_idx, index2, tlb_off, page2)) {
+        if (!victim_tlb_hit(env, mmu_idx, index2, MMU_DATA_STORE, page2)) {
             tlb_fill(env_cpu(env), page2, size2, MMU_DATA_STORE,
                      mmu_idx, retaddr);
             index2 = tlb_index(env, mmu_idx, page2);
@@ -XXX,XX +XXX,XX @@ static inline void QEMU_ALWAYS_INLINE
 store_helper(CPUArchState *env, target_ulong addr, uint64_t val,
              MemOpIdx oi, uintptr_t retaddr, MemOp op)
 {
-    const size_t tlb_off = offsetof(CPUTLBEntry, addr_write);
     const unsigned a_bits = get_alignment_bits(get_memop(oi));
     const size_t size = memop_size(op);
     uintptr_t mmu_idx = get_mmuidx(oi);
@@ -XXX,XX +XXX,XX @@ store_helper(CPUArchState *env, target_ulong addr, uint64_t val,
 
     /* If the TLB entry is for a different page, reload and try again.  */
     if (!tlb_hit(tlb_addr, addr)) {
-        if (!victim_tlb_hit(env, mmu_idx, index, tlb_off,
+        if (!victim_tlb_hit(env, mmu_idx, index, MMU_DATA_STORE,
             addr & TARGET_PAGE_MASK)) {
             tlb_fill(env_cpu(env), addr, size, MMU_DATA_STORE,
                      mmu_idx, retaddr);
@@ -XXX,XX +XXX,XX @@ void cpu_st16_le_mmu(CPUArchState *env, abi_ptr addr, Int128 val,
 static uint64_t full_ldub_code(CPUArchState *env, target_ulong addr,
                                MemOpIdx oi, uintptr_t retaddr)
 {
-    return load_helper(env, addr, oi, retaddr, MO_8, true, full_ldub_code);
+    return load_helper(env, addr, oi, retaddr, MO_8,
+                       MMU_INST_FETCH, full_ldub_code);
 }
 
 uint32_t cpu_ldub_code(CPUArchState *env, abi_ptr addr)
@@ -XXX,XX +XXX,XX @@ uint32_t cpu_ldub_code(CPUArchState *env, abi_ptr addr)
 static uint64_t full_lduw_code(CPUArchState *env, target_ulong addr,
                                MemOpIdx oi, uintptr_t retaddr)
 {
-    return load_helper(env, addr, oi, retaddr, MO_TEUW, true, full_lduw_code);
+    return load_helper(env, addr, oi, retaddr, MO_TEUW,
+                       MMU_INST_FETCH, full_lduw_code);
 }
 
 uint32_t cpu_lduw_code(CPUArchState *env, abi_ptr addr)
@@ -XXX,XX +XXX,XX @@ uint32_t cpu_lduw_code(CPUArchState *env, abi_ptr addr)
 static uint64_t full_ldl_code(CPUArchState *env, target_ulong addr,
                               MemOpIdx oi, uintptr_t retaddr)
 {
-    return load_helper(env, addr, oi, retaddr, MO_TEUL, true, full_ldl_code);
+    return load_helper(env, addr, oi, retaddr, MO_TEUL,
+                       MMU_INST_FETCH, full_ldl_code);
 }
 
 uint32_t cpu_ldl_code(CPUArchState *env, abi_ptr addr)
@@ -XXX,XX +XXX,XX @@ uint32_t cpu_ldl_code(CPUArchState *env, abi_ptr addr)
 static uint64_t full_ldq_code(CPUArchState *env, target_ulong addr,
                               MemOpIdx oi, uintptr_t retaddr)
 {
-    return load_helper(env, addr, oi, retaddr, MO_TEUQ, true, full_ldq_code);
+    return load_helper(env, addr, oi, retaddr, MO_TEUQ,
+                       MMU_INST_FETCH, full_ldq_code);
 }
 
 uint64_t cpu_ldq_code(CPUArchState *env, abi_ptr addr)
-- 
2.34.1

Instead of trying to unify all operations on uint64_t, pull out
mmu_lookup() to perform the basic tlb hit and resolution.
Create individual functions to handle access by size.

Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 accel/tcg/cputlb.c | 645 +++++++++++++++++++++++++++++----------------
 1 file changed, 424 insertions(+), 221 deletions(-)

diff --git a/accel/tcg/cputlb.c b/accel/tcg/cputlb.c
index XXXXXXX..XXXXXXX 100644
--- a/accel/tcg/cputlb.c
+++ b/accel/tcg/cputlb.c
@@ -XXX,XX +XXX,XX @@ bool tlb_plugin_lookup(CPUState *cpu, target_ulong addr, int mmu_idx,
 
 #endif
 
+/*
+ * Probe for a load/store operation.
+ * Return the host address and into @flags.
+ */
+
+typedef struct MMULookupPageData {
+    CPUTLBEntryFull *full;
+    void *haddr;
+    target_ulong addr;
+    int flags;
+    int size;
+} MMULookupPageData;
+
+typedef struct MMULookupLocals {
+    MMULookupPageData page[2];
+    MemOp memop;
+    int mmu_idx;
+} MMULookupLocals;
+
+/**
+ * mmu_lookup1: translate one page
+ * @env: cpu context
+ * @data: lookup parameters
+ * @mmu_idx: virtual address context
+ * @access_type: load/store/code
+ * @ra: return address into tcg generated code, or 0
+ *
+ * Resolve the translation for the one page at @data.addr, filling in
+ * the rest of @data with the results.  If the translation fails,
+ * tlb_fill will longjmp out.  Return true if the softmmu tlb for
+ * @mmu_idx may have resized.
+ */
+static bool mmu_lookup1(CPUArchState *env, MMULookupPageData *data,
+                        int mmu_idx, MMUAccessType access_type, uintptr_t ra)
+{
+    target_ulong addr = data->addr;
+    uintptr_t index = tlb_index(env, mmu_idx, addr);
+    CPUTLBEntry *entry = tlb_entry(env, mmu_idx, addr);
+    target_ulong tlb_addr = tlb_read_idx(entry, access_type);
+    bool maybe_resized = false;
+
+    /* If the TLB entry is for a different page, reload and try again.  */
+    if (!tlb_hit(tlb_addr, addr)) {
+        if (!victim_tlb_hit(env, mmu_idx, index, access_type,
+                            addr & TARGET_PAGE_MASK)) {
+            tlb_fill(env_cpu(env), addr, data->size, access_type, mmu_idx, ra);
+            maybe_resized = true;
+            index = tlb_index(env, mmu_idx, addr);
+            entry = tlb_entry(env, mmu_idx, addr);
+        }
+        tlb_addr = tlb_read_idx(entry, access_type) & ~TLB_INVALID_MASK;
+    }
+
+    data->flags = tlb_addr & TLB_FLAGS_MASK;
+    data->full = &env_tlb(env)->d[mmu_idx].fulltlb[index];
+    /* Compute haddr speculatively; depending on flags it might be invalid. */
+    data->haddr = (void *)((uintptr_t)addr + entry->addend);
+
+    return maybe_resized;
+}
+
+/**
+ * mmu_watch_or_dirty
+ * @env: cpu context
+ * @data: lookup parameters
+ * @access_type: load/store/code
+ * @ra: return address into tcg generated code, or 0
+ *
+ * Trigger watchpoints for @data.addr:@data.size;
+ * record writes to protected clean pages.
+ */
+static void mmu_watch_or_dirty(CPUArchState *env, MMULookupPageData *data,
+                               MMUAccessType access_type, uintptr_t ra)
+{
+    CPUTLBEntryFull *full = data->full;
+    target_ulong addr = data->addr;
+    int flags = data->flags;
+    int size = data->size;
+
+    /* On watchpoint hit, this will longjmp out.  */
+    if (flags & TLB_WATCHPOINT) {
+        int wp = access_type == MMU_DATA_STORE ? BP_MEM_WRITE : BP_MEM_READ;
+        cpu_check_watchpoint(env_cpu(env), addr, size, full->attrs, wp, ra);
+        flags &= ~TLB_WATCHPOINT;
+    }
+
+    /* Note that notdirty is only set for writes. */
+    if (flags & TLB_NOTDIRTY) {
+        notdirty_write(env_cpu(env), addr, size, full, ra);
+        flags &= ~TLB_NOTDIRTY;
+    }
+    data->flags = flags;
+}
+
+/**
+ * mmu_lookup: translate page(s)
+ * @env: cpu context
+ * @addr: virtual address
+ * @oi: combined mmu_idx and MemOp
+ * @ra: return address into tcg generated code, or 0
+ * @access_type: load/store/code
+ * @l: output result
+ *
+ * Resolve the translation for the page(s) beginning at @addr, for MemOp.size
+ * bytes.  Return true if the lookup crosses a page boundary.
+ */
+static bool mmu_lookup(CPUArchState *env, target_ulong addr, MemOpIdx oi,
+                       uintptr_t ra, MMUAccessType type, MMULookupLocals *l)
+{
+    unsigned a_bits;
+    bool crosspage;
+    int flags;
+
+    l->memop = get_memop(oi);
+    l->mmu_idx = get_mmuidx(oi);
+
+    tcg_debug_assert(l->mmu_idx < NB_MMU_MODES);
+
+    /* Handle CPU specific unaligned behaviour */
+    a_bits = get_alignment_bits(l->memop);
+    if (addr & ((1 << a_bits) - 1)) {
+        cpu_unaligned_access(env_cpu(env), addr, type, l->mmu_idx, ra);
+    }
+
+    l->page[0].addr = addr;
+    l->page[0].size = memop_size(l->memop);
+    l->page[1].addr = (addr + l->page[0].size - 1) & TARGET_PAGE_MASK;
+    l->page[1].size = 0;
+    crosspage = (addr ^ l->page[1].addr) & TARGET_PAGE_MASK;
+
+    if (likely(!crosspage)) {
+        mmu_lookup1(env, &l->page[0], l->mmu_idx, type, ra);
+
+        flags = l->page[0].flags;
+        if (unlikely(flags & (TLB_WATCHPOINT | TLB_NOTDIRTY))) {
+            mmu_watch_or_dirty(env, &l->page[0], type, ra);
+        }
+        if (unlikely(flags & TLB_BSWAP)) {
+            l->memop ^= MO_BSWAP;
+        }
+    } else {
+        /* Finish compute of page crossing. */
+        int size0 = l->page[1].addr - addr;
+        l->page[1].size = l->page[0].size - size0;
+        l->page[0].size = size0;
+
+        /*
+         * Lookup both pages, recognizing exceptions from either.  If the
+         * second lookup potentially resized, refresh first CPUTLBEntryFull.
+         */
+        mmu_lookup1(env, &l->page[0], l->mmu_idx, type, ra);
+        if (mmu_lookup1(env, &l->page[1], l->mmu_idx, type, ra)) {
+            uintptr_t index = tlb_index(env, l->mmu_idx, addr);
+            l->page[0].full = &env_tlb(env)->d[l->mmu_idx].fulltlb[index];
+        }
+
+        flags = l->page[0].flags | l->page[1].flags;
+        if (unlikely(flags & (TLB_WATCHPOINT | TLB_NOTDIRTY))) {
+            mmu_watch_or_dirty(env, &l->page[0], type, ra);
+            mmu_watch_or_dirty(env, &l->page[1], type, ra);
+        }
+
+        /*
+         * Since target/sparc is the only user of TLB_BSWAP, and all
+         * Sparc accesses are aligned, any treatment across two pages
+         * would be arbitrary.  Refuse it until there's a use.
+         */
+        tcg_debug_assert((flags & TLB_BSWAP) == 0);
+    }
+
+    return crosspage;
+}
+
 /*
  * Probe for an atomic operation.  Do not allow unaligned operations,
  * or io operations to proceed.  Return the host address.
@@ -XXX,XX +XXX,XX @@ load_memop(const void *haddr, MemOp op)
     }
 }
 
-static inline uint64_t QEMU_ALWAYS_INLINE
-load_helper(CPUArchState *env, target_ulong addr, MemOpIdx oi,
-            uintptr_t retaddr, MemOp op, MMUAccessType access_type,
-            FullLoadHelper *full_load)
-{
-    const unsigned a_bits = get_alignment_bits(get_memop(oi));
-    const size_t size = memop_size(op);
-    uintptr_t mmu_idx = get_mmuidx(oi);
-    uintptr_t index;
-    CPUTLBEntry *entry;
-    target_ulong tlb_addr;
-    void *haddr;
-    uint64_t res;
-
-    tcg_debug_assert(mmu_idx < NB_MMU_MODES);
-
-    /* Handle CPU specific unaligned behaviour */
-    if (addr & ((1 << a_bits) - 1)) {
-        cpu_unaligned_access(env_cpu(env), addr, access_type,
-                             mmu_idx, retaddr);
-    }
-
-    index = tlb_index(env, mmu_idx, addr);
-    entry = tlb_entry(env, mmu_idx, addr);
-    tlb_addr = tlb_read_idx(entry, access_type);
-
-    /* If the TLB entry is for a different page, reload and try again.  */
-    if (!tlb_hit(tlb_addr, addr)) {
-        if (!victim_tlb_hit(env, mmu_idx, index, access_type,
-                            addr & TARGET_PAGE_MASK)) {
-            tlb_fill(env_cpu(env), addr, size,
-                     access_type, mmu_idx, retaddr);
-            index = tlb_index(env, mmu_idx, addr);
-            entry = tlb_entry(env, mmu_idx, addr);
-        }
-        tlb_addr = tlb_read_idx(entry, access_type);
-        tlb_addr &= ~TLB_INVALID_MASK;
-    }
-
-    /* Handle anything that isn't just a straight memory access.  */
-    if (unlikely(tlb_addr & ~TARGET_PAGE_MASK)) {
-        CPUTLBEntryFull *full;
-        bool need_swap;
-
-        /* For anything that is unaligned, recurse through full_load.  */
-        if ((addr & (size - 1)) != 0) {
-            goto do_unaligned_access;
-        }
-
-        full = &env_tlb(env)->d[mmu_idx].fulltlb[index];
-
-        /* Handle watchpoints.  */
-        if (unlikely(tlb_addr & TLB_WATCHPOINT)) {
-            /* On watchpoint hit, this will longjmp out.  */
-            cpu_check_watchpoint(env_cpu(env), addr, size,
-                                 full->attrs, BP_MEM_READ, retaddr);
-        }
-
-        need_swap = size > 1 && (tlb_addr & TLB_BSWAP);
-
-        /* Handle I/O access.  */
-        if (likely(tlb_addr & TLB_MMIO)) {
-            return io_readx(env, full, mmu_idx, addr, retaddr,
-                            access_type, op ^ (need_swap * MO_BSWAP));
-        }
-
-        haddr = (void *)((uintptr_t)addr + entry->addend);
-
-        /*
-         * Keep these two load_memop separate to ensure that the compiler
-         * is able to fold the entire function to a single instruction.
-         * There is a build-time assert inside to remind you of this.  ;-)
-         */
-        if (unlikely(need_swap)) {
-            return load_memop(haddr, op ^ MO_BSWAP);
-        }
-        return load_memop(haddr, op);
-    }
-
-    /* Handle slow unaligned access (it spans two pages or IO).  */
-    if (size > 1
-        && unlikely((addr & ~TARGET_PAGE_MASK) + size - 1
-                    >= TARGET_PAGE_SIZE)) {
-        target_ulong addr1, addr2;
-        uint64_t r1, r2;
-        unsigned shift;
-    do_unaligned_access:
-        addr1 = addr & ~((target_ulong)size - 1);
-        addr2 = addr1 + size;
-        r1 = full_load(env, addr1, oi, retaddr);
-        r2 = full_load(env, addr2, oi, retaddr);
-        shift = (addr & (size - 1)) * 8;
-
-        if (memop_big_endian(op)) {
-            /* Big-endian combine.  */
-            res = (r1 << shift) | (r2 >> ((size * 8) - shift));
-        } else {
-            /* Little-endian combine.  */
-            res = (r1 >> shift) | (r2 << ((size * 8) - shift));
-        }
-        return res & MAKE_64BIT_MASK(0, size * 8);
-    }
-
-    haddr = (void *)((uintptr_t)addr + entry->addend);
-    return load_memop(haddr, op);
-}
-
 /*
  * For the benefit of TCG generated code, we want to avoid the
  * complication of ABI-specific return type promotion and always
@@ -XXX,XX +XXX,XX @@ load_helper(CPUArchState *env, target_ulong addr, MemOpIdx oi,
  * We don't bother with this widened value for SOFTMMU_CODE_ACCESS.
  */
 
-static uint64_t full_ldub_mmu(CPUArchState *env, target_ulong addr,
-                              MemOpIdx oi, uintptr_t retaddr)
+/**
+ * do_ld_mmio_beN:
+ * @env: cpu context
+ * @p: translation parameters
+ * @ret_be: accumulated data
+ * @mmu_idx: virtual address context
+ * @ra: return address into tcg generated code, or 0
+ *
+ * Load @p->size bytes from @p->addr, which is memory-mapped i/o.
+ * The bytes are concatenated in big-endian order with @ret_be.
+ */
+static uint64_t do_ld_mmio_beN(CPUArchState *env, MMULookupPageData *p,
+                               uint64_t ret_be, int mmu_idx,
+                               MMUAccessType type, uintptr_t ra)
 {
-    validate_memop(oi, MO_UB);
-    return load_helper(env, addr, oi, retaddr, MO_UB, MMU_DATA_LOAD,
-                       full_ldub_mmu);
+    CPUTLBEntryFull *full = p->full;
+    target_ulong addr = p->addr;
+    int i, size = p->size;
+
+    QEMU_IOTHREAD_LOCK_GUARD();
+    for (i = 0; i < size; i++) {
+        uint8_t x = io_readx(env, full, mmu_idx, addr + i, ra, type, MO_UB);
+        ret_be = (ret_be << 8) | x;
+    }
+    return ret_be;
+}
+
+/**
+ * do_ld_bytes_beN
+ * @p: translation parameters
+ * @ret_be: accumulated data
+ *
+ * Load @p->size bytes from @p->haddr, which is RAM.
+ * The bytes to concatenated in big-endian order with @ret_be.
+ */
+static uint64_t do_ld_bytes_beN(MMULookupPageData *p, uint64_t ret_be)
+{
+    uint8_t *haddr = p->haddr;
+    int i, size = p->size;
+
+    for (i = 0; i < size; i++) {
+        ret_be = (ret_be << 8) | haddr[i];
+    }
+    return ret_be;
+}
+
+/*
+ * Wrapper for the above.
+ */
+static uint64_t do_ld_beN(CPUArchState *env, MMULookupPageData *p,
+                          uint64_t ret_be, int mmu_idx,
+                          MMUAccessType type, uintptr_t ra)
+{
+    if (unlikely(p->flags & TLB_MMIO)) {
+        return do_ld_mmio_beN(env, p, ret_be, mmu_idx, type, ra);
+    } else {
+        return do_ld_bytes_beN(p, ret_be);
+    }
+}
+
+static uint8_t do_ld_1(CPUArchState *env, MMULookupPageData *p, int mmu_idx,
+                       MMUAccessType type, uintptr_t ra)
+{
+    if (unlikely(p->flags & TLB_MMIO)) {
+        return io_readx(env, p->full, mmu_idx, p->addr, ra, type, MO_UB);
+    } else {
+        return *(uint8_t *)p->haddr;
+    }
+}
+
+static uint16_t do_ld_2(CPUArchState *env, MMULookupPageData *p, int mmu_idx,
+                        MMUAccessType type, MemOp memop, uintptr_t ra)
+{
+    uint64_t ret;
+
+    if (unlikely(p->flags & TLB_MMIO)) {
+        return io_readx(env, p->full, mmu_idx, p->addr, ra, type, memop);
+    }
+
+    /* Perform the load host endian, then swap if necessary. */
+    ret = load_memop(p->haddr, MO_UW);
+    if (memop & MO_BSWAP) {
+        ret = bswap16(ret);
+    }
+    return ret;
+}
+
+static uint32_t do_ld_4(CPUArchState *env, MMULookupPageData *p, int mmu_idx,
+                        MMUAccessType type, MemOp memop, uintptr_t ra)
+{
+    uint32_t ret;
+
+    if (unlikely(p->flags & TLB_MMIO)) {
+        return io_readx(env, p->full, mmu_idx, p->addr, ra, type, memop);
+    }
+
+    /* Perform the load host endian. */
+    ret = load_memop(p->haddr, MO_UL);
+    if (memop & MO_BSWAP) {
+        ret = bswap32(ret);
+    }
+    return ret;
+}
+
+static uint64_t do_ld_8(CPUArchState *env, MMULookupPageData *p, int mmu_idx,
+                        MMUAccessType type, MemOp memop, uintptr_t ra)
+{
+    uint64_t ret;
+
+    if (unlikely(p->flags & TLB_MMIO)) {
+        return io_readx(env, p->full, mmu_idx, p->addr, ra, type, memop);
+    }
+
+    /* Perform the load host endian. */
+    ret = load_memop(p->haddr, MO_UQ);
+    if (memop & MO_BSWAP) {
+        ret = bswap64(ret);
+    }
+    return ret;
+}
+
+static uint8_t do_ld1_mmu(CPUArchState *env, target_ulong addr, MemOpIdx oi,
+                          uintptr_t ra, MMUAccessType access_type)
+{
+    MMULookupLocals l;
+    bool crosspage;
+
+    crosspage = mmu_lookup(env, addr, oi, ra, access_type, &l);
+    tcg_debug_assert(!crosspage);
+
+    return do_ld_1(env, &l.page[0], l.mmu_idx, access_type, ra);
 }
 
 tcg_target_ulong helper_ret_ldub_mmu(CPUArchState *env, target_ulong addr,
                                      MemOpIdx oi, uintptr_t retaddr)
 {
-    return full_ldub_mmu(env, addr, oi, retaddr);
+    validate_memop(oi, MO_UB);
+    return do_ld1_mmu(env, addr, oi, retaddr, MMU_DATA_LOAD);
 }
 
-static uint64_t full_le_lduw_mmu(CPUArchState *env, target_ulong addr,
-                                 MemOpIdx oi, uintptr_t retaddr)
+static uint16_t do_ld2_mmu(CPUArchState *env, target_ulong addr, MemOpIdx oi,
+                           uintptr_t ra, MMUAccessType access_type)
 {
-    validate_memop(oi, MO_LEUW);
-    return load_helper(env, addr, oi, retaddr, MO_LEUW, MMU_DATA_LOAD,
-                       full_le_lduw_mmu);
+    MMULookupLocals l;
+    bool crosspage;
+    uint16_t ret;
+    uint8_t a, b;
+
+    crosspage = mmu_lookup(env, addr, oi, ra, access_type, &l);
+    if (likely(!crosspage)) {
+        return do_ld_2(env, &l.page[0], l.mmu_idx, access_type, l.memop, ra);
+    }
+
+    a = do_ld_1(env, &l.page[0], l.mmu_idx, access_type, ra);
+    b = do_ld_1(env, &l.page[1], l.mmu_idx, access_type, ra);
+
+    if ((l.memop & MO_BSWAP) == MO_LE) {
+        ret = a | (b << 8);
+    } else {
+        ret = b | (a << 8);
+    }
+    return ret;
 }
 
 tcg_target_ulong helper_le_lduw_mmu(CPUArchState *env, target_ulong addr,
                                     MemOpIdx oi, uintptr_t retaddr)
 {
-    return full_le_lduw_mmu(env, addr, oi, retaddr);
-}
-
-static uint64_t full_be_lduw_mmu(CPUArchState *env, target_ulong addr,
-                                 MemOpIdx oi, uintptr_t retaddr)
-{
-    validate_memop(oi, MO_BEUW);
-    return load_helper(env, addr, oi, retaddr, MO_BEUW, MMU_DATA_LOAD,
-                       full_be_lduw_mmu);
+    validate_memop(oi, MO_LEUW);
+    return do_ld2_mmu(env, addr, oi, retaddr, MMU_DATA_LOAD);
 }
 
 tcg_target_ulong helper_be_lduw_mmu(CPUArchState *env, target_ulong addr,
                                     MemOpIdx oi, uintptr_t retaddr)
 {
-    return full_be_lduw_mmu(env, addr, oi, retaddr);
+    validate_memop(oi, MO_BEUW);
+    return do_ld2_mmu(env, addr, oi, retaddr, MMU_DATA_LOAD);
 }
 
-static uint64_t full_le_ldul_mmu(CPUArchState *env, target_ulong addr,
-                                 MemOpIdx oi, uintptr_t retaddr)
+static uint32_t do_ld4_mmu(CPUArchState *env, target_ulong addr, MemOpIdx oi,
+                           uintptr_t ra, MMUAccessType access_type)
 {
-    validate_memop(oi, MO_LEUL);
-    return load_helper(env, addr, oi, retaddr, MO_LEUL, MMU_DATA_LOAD,
-                       full_le_ldul_mmu);
+    MMULookupLocals l;
+    bool crosspage;
+    uint32_t ret;
+
+    crosspage = mmu_lookup(env, addr, oi, ra, access_type, &l);
+    if (likely(!crosspage)) {
+        return do_ld_4(env, &l.page[0], l.mmu_idx, access_type, l.memop, ra);
+    }
+
+    ret = do_ld_beN(env, &l.page[0], 0, l.mmu_idx, access_type, ra);
+    ret = do_ld_beN(env, &l.page[1], ret, l.mmu_idx, access_type, ra);
+    if ((l.memop & MO_BSWAP) == MO_LE) {
+        ret = bswap32(ret);
+    }
+    return ret;
 }
 
 tcg_target_ulong helper_le_ldul_mmu(CPUArchState *env, target_ulong addr,
                                     MemOpIdx oi, uintptr_t retaddr)
 {
-    return full_le_ldul_mmu(env, addr, oi, retaddr);
-}
-
-static uint64_t full_be_ldul_mmu(CPUArchState *env, target_ulong addr,
-                                 MemOpIdx oi, uintptr_t retaddr)
-{
-    validate_memop(oi, MO_BEUL);
-    return load_helper(env, addr, oi, retaddr, MO_BEUL, MMU_DATA_LOAD,
-                       full_be_ldul_mmu);
+    validate_memop(oi, MO_LEUL);
+    return do_ld4_mmu(env, addr, oi, retaddr, MMU_DATA_LOAD);
 }
 
 tcg_target_ulong helper_be_ldul_mmu(CPUArchState *env, target_ulong addr,
                                     MemOpIdx oi, uintptr_t retaddr)
 {
-    return full_be_ldul_mmu(env, addr, oi, retaddr);
+    validate_memop(oi, MO_BEUL);
+    return do_ld4_mmu(env, addr, oi, retaddr, MMU_DATA_LOAD);
+}
+
+static uint64_t do_ld8_mmu(CPUArchState *env, target_ulong addr, MemOpIdx oi,
+                           uintptr_t ra, MMUAccessType access_type)
+{
+    MMULookupLocals l;
+    bool crosspage;
+    uint64_t ret;
+
+    crosspage = mmu_lookup(env, addr, oi, ra, access_type, &l);
+    if (likely(!crosspage)) {
+        return do_ld_8(env, &l.page[0], l.mmu_idx, access_type, l.memop, ra);
+    }
+
+    ret = do_ld_beN(env, &l.page[0], 0, l.mmu_idx, access_type, ra);
+    ret = do_ld_beN(env, &l.page[1], ret, l.mmu_idx, access_type, ra);
+    if ((l.memop & MO_BSWAP) == MO_LE) {
+        ret = bswap64(ret);
+    }
+    return ret;
 }
 
 uint64_t helper_le_ldq_mmu(CPUArchState *env, target_ulong addr,
                            MemOpIdx oi, uintptr_t retaddr)
 {
     validate_memop(oi, MO_LEUQ);
-    return load_helper(env, addr, oi, retaddr, MO_LEUQ, MMU_DATA_LOAD,
-                       helper_le_ldq_mmu);
+    return do_ld8_mmu(env, addr, oi, retaddr, MMU_DATA_LOAD);
 }
 
 uint64_t helper_be_ldq_mmu(CPUArchState *env, target_ulong addr,
                            MemOpIdx oi, uintptr_t retaddr)
 {
     validate_memop(oi, MO_BEUQ);
-    return load_helper(env, addr, oi, retaddr, MO_BEUQ, MMU_DATA_LOAD,
-                       helper_be_ldq_mmu);
+    return do_ld8_mmu(env, addr, oi, retaddr, MMU_DATA_LOAD);
 }
 
 /*
@@ -XXX,XX +XXX,XX @@ tcg_target_ulong helper_be_ldsl_mmu(CPUArchState *env, target_ulong addr,
  * Load helpers for cpu_ldst.h.
  */
 
-static inline uint64_t cpu_load_helper(CPUArchState *env, abi_ptr addr,
-                                       MemOpIdx oi, uintptr_t retaddr,
-                                       FullLoadHelper *full_load)
+static void plugin_load_cb(CPUArchState *env, abi_ptr addr, MemOpIdx oi)
 {
-    uint64_t ret;
-
-    ret = full_load(env, addr, oi, retaddr);
     qemu_plugin_vcpu_mem_cb(env_cpu(env), addr, oi, QEMU_PLUGIN_MEM_R);
-    return ret;
 }
 
 uint8_t cpu_ldb_mmu(CPUArchState *env, abi_ptr addr, MemOpIdx oi, uintptr_t ra)
 {
-    return cpu_load_helper(env, addr, oi, ra, full_ldub_mmu);
+    uint8_t ret;
+
+    validate_memop(oi, MO_UB);
+    ret = do_ld1_mmu(env, addr, oi, ra, MMU_DATA_LOAD);
+    plugin_load_cb(env, addr, oi);
+    return ret;
 }
 
 uint16_t cpu_ldw_be_mmu(CPUArchState *env, abi_ptr addr,
                         MemOpIdx oi, uintptr_t ra)
 {
-    return cpu_load_helper(env, addr, oi, ra, full_be_lduw_mmu);
+    uint16_t ret;
+
+    validate_memop(oi, MO_BEUW);
+    ret = do_ld2_mmu(env, addr, oi, ra, MMU_DATA_LOAD);
+    plugin_load_cb(env, addr, oi);
+    return ret;
 }
 
 uint32_t cpu_ldl_be_mmu(CPUArchState *env, abi_ptr addr,
                         MemOpIdx oi, uintptr_t ra)
 {
-    return cpu_load_helper(env, addr, oi, ra, full_be_ldul_mmu);
+    uint32_t ret;
+
+    validate_memop(oi, MO_BEUL);
+    ret = do_ld4_mmu(env, addr, oi, ra, MMU_DATA_LOAD);
+    plugin_load_cb(env, addr, oi);
+    return ret;
 }
 
 uint64_t cpu_ldq_be_mmu(CPUArchState *env, abi_ptr addr,
                         MemOpIdx oi, uintptr_t ra)
 {
-    return cpu_load_helper(env, addr, oi, ra, helper_be_ldq_mmu);
+    uint64_t ret;
+
+    validate_memop(oi, MO_BEUQ);
+    ret = do_ld8_mmu(env, addr, oi, ra, MMU_DATA_LOAD);
+    plugin_load_cb(env, addr, oi);
+    return ret;
 }
 
 uint16_t cpu_ldw_le_mmu(CPUArchState *env, abi_ptr addr,
                         MemOpIdx oi, uintptr_t ra)
 {
-    return cpu_load_helper(env, addr, oi, ra, full_le_lduw_mmu);
+    uint16_t ret;
+
+    validate_memop(oi, MO_LEUW);
+    ret = do_ld2_mmu(env, addr, oi, ra, MMU_DATA_LOAD);
+    plugin_load_cb(env, addr, oi);
+    return ret;
 }
 
 uint32_t cpu_ldl_le_mmu(CPUArchState *env, abi_ptr addr,
                         MemOpIdx oi, uintptr_t ra)
 {
-    return cpu_load_helper(env, addr, oi, ra, full_le_ldul_mmu);
+    uint32_t ret;
+
+    validate_memop(oi, MO_LEUL);
+    ret = do_ld4_mmu(env, addr, oi, ra, MMU_DATA_LOAD);
+    plugin_load_cb(env, addr, oi);
+    return ret;
 }
 
 uint64_t cpu_ldq_le_mmu(CPUArchState *env, abi_ptr addr,
                         MemOpIdx oi, uintptr_t ra)
 {
-    return cpu_load_helper(env, addr, oi, ra, helper_le_ldq_mmu);
+    uint64_t ret;
+
+    validate_memop(oi, MO_LEUQ);
+    ret = do_ld8_mmu(env, addr, oi, ra, MMU_DATA_LOAD);
+    plugin_load_cb(env, addr, oi);
+    return ret;
 }
 
 Int128 cpu_ld16_be_mmu(CPUArchState *env, abi_ptr addr,
@@ -XXX,XX +XXX,XX @@ void cpu_st16_le_mmu(CPUArchState *env, abi_ptr addr, Int128 val,
 
 /* Code access functions.  */
 
-static uint64_t full_ldub_code(CPUArchState *env, target_ulong addr,
-                               MemOpIdx oi, uintptr_t retaddr)
-{
-    return load_helper(env, addr, oi, retaddr, MO_8,
-                       MMU_INST_FETCH, full_ldub_code);
-}
-
 uint32_t cpu_ldub_code(CPUArchState *env, abi_ptr addr)
 {
     MemOpIdx oi = make_memop_idx(MO_UB, cpu_mmu_index(env, true));
-    return full_ldub_code(env, addr, oi, 0);
-}
-
-static uint64_t full_lduw_code(CPUArchState *env, target_ulong addr,
-                               MemOpIdx oi, uintptr_t retaddr)
-{
-    return load_helper(env, addr, oi, retaddr, MO_TEUW,
-                       MMU_INST_FETCH, full_lduw_code);
+    return do_ld1_mmu(env, addr, oi, 0, MMU_INST_FETCH);
 }
 
 uint32_t cpu_lduw_code(CPUArchState *env, abi_ptr addr)
 {
     MemOpIdx oi = make_memop_idx(MO_TEUW, cpu_mmu_index(env, true));
-    return full_lduw_code(env, addr, oi, 0);
-}
-
-static uint64_t full_ldl_code(CPUArchState *env, target_ulong addr,
-                              MemOpIdx oi, uintptr_t retaddr)
-{
-    return load_helper(env, addr, oi, retaddr, MO_TEUL,
-                       MMU_INST_FETCH, full_ldl_code);
+    return do_ld2_mmu(env, addr, oi, 0, MMU_INST_FETCH);
 }
 
 uint32_t cpu_ldl_code(CPUArchState *env, abi_ptr addr)
 {
     MemOpIdx oi = make_memop_idx(MO_TEUL, cpu_mmu_index(env, true));
-    return full_ldl_code(env, addr, oi, 0);
-}
-
-static uint64_t full_ldq_code(CPUArchState *env, target_ulong addr,
-                              MemOpIdx oi, uintptr_t retaddr)
-{
-    return load_helper(env, addr, oi, retaddr, MO_TEUQ,
-                       MMU_INST_FETCH, full_ldq_code);
+    return do_ld4_mmu(env, addr, oi, 0, MMU_INST_FETCH);
 }
 
 uint64_t cpu_ldq_code(CPUArchState *env, abi_ptr addr)
 {
     MemOpIdx oi = make_memop_idx(MO_TEUQ, cpu_mmu_index(env, true));
-    return full_ldq_code(env, addr, oi, 0);
+    return do_ld8_mmu(env, addr, oi, 0, MMU_INST_FETCH);
 }
 
 uint8_t cpu_ldb_code_mmu(CPUArchState *env, abi_ptr addr,
                          MemOpIdx oi, uintptr_t retaddr)
 {
-    return full_ldub_code(env, addr, oi, retaddr);
+    return do_ld1_mmu(env, addr, oi, retaddr, MMU_INST_FETCH);
 }
 
 uint16_t cpu_ldw_code_mmu(CPUArchState *env, abi_ptr addr,
                           MemOpIdx oi, uintptr_t retaddr)
 {
-    MemOp mop = get_memop(oi);
-    int idx = get_mmuidx(oi);
-    uint16_t ret;
-
-    ret = full_lduw_code(env, addr, make_memop_idx(MO_TEUW, idx), retaddr);
-    if ((mop & MO_BSWAP) != MO_TE) {
-        ret = bswap16(ret);
-    }
-    return ret;
+    return do_ld2_mmu(env, addr, oi, retaddr, MMU_INST_FETCH);
 }
 
 uint32_t cpu_ldl_code_mmu(CPUArchState *env, abi_ptr addr,
                           MemOpIdx oi, uintptr_t retaddr)
 {
-    MemOp mop = get_memop(oi);
-    int idx = get_mmuidx(oi);
-    uint32_t ret;
-
-    ret = full_ldl_code(env, addr, make_memop_idx(MO_TEUL, idx), retaddr);
-    if ((mop & MO_BSWAP) != MO_TE) {
-        ret = bswap32(ret);
-    }
-    return ret;
+    return do_ld4_mmu(env, addr, oi, retaddr, MMU_INST_FETCH);
 }
 
 uint64_t cpu_ldq_code_mmu(CPUArchState *env, abi_ptr addr,
                           MemOpIdx oi, uintptr_t retaddr)
 {
-    MemOp mop = get_memop(oi);
-    int idx = get_mmuidx(oi);
-    uint64_t ret;
-
-    ret = full_ldq_code(env, addr, make_memop_idx(MO_TEUQ, idx), retaddr);
-    if ((mop & MO_BSWAP) != MO_TE) {
-        ret = bswap64(ret);
-    }
-    return ret;
+    return do_ld8_mmu(env, addr, oi, retaddr, MMU_INST_FETCH);
 }
-- 
2.34.1

Instead of trying to unify all operations on uint64_t, use
mmu_lookup() to perform the basic tlb hit and resolution.
Create individual functions to handle access by size.

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 accel/tcg/cputlb.c | 408 +++++++++++++++++++++------------------------
 1 file changed, 193 insertions(+), 215 deletions(-)

diff --git a/accel/tcg/cputlb.c b/accel/tcg/cputlb.c
index XXXXXXX..XXXXXXX 100644
--- a/accel/tcg/cputlb.c
+++ b/accel/tcg/cputlb.c
@@ -XXX,XX +XXX,XX @@ store_memop(void *haddr, uint64_t val, MemOp op)
     }
 }
 
-static void full_stb_mmu(CPUArchState *env, target_ulong addr, uint64_t val,
-                         MemOpIdx oi, uintptr_t retaddr);
-
-static void __attribute__((noinline))
-store_helper_unaligned(CPUArchState *env, target_ulong addr, uint64_t val,
-                       uintptr_t retaddr, size_t size, uintptr_t mmu_idx,
-                       bool big_endian)
+/**
+ * do_st_mmio_leN:
+ * @env: cpu context
+ * @p: translation parameters
+ * @val_le: data to store
+ * @mmu_idx: virtual address context
+ * @ra: return address into tcg generated code, or 0
+ *
+ * Store @p->size bytes at @p->addr, which is memory-mapped i/o.
+ * The bytes to store are extracted in little-endian order from @val_le;
+ * return the bytes of @val_le beyond @p->size that have not been stored.
+ */
+static uint64_t do_st_mmio_leN(CPUArchState *env, MMULookupPageData *p,
+                               uint64_t val_le, int mmu_idx, uintptr_t ra)
 {
-    uintptr_t index, index2;
-    CPUTLBEntry *entry, *entry2;
-    target_ulong page1, page2, tlb_addr, tlb_addr2;
-    MemOpIdx oi;
-    size_t size2;
-    int i;
+    CPUTLBEntryFull *full = p->full;
+    target_ulong addr = p->addr;
+    int i, size = p->size;
 
-    /*
-     * Ensure the second page is in the TLB.  Note that the first page
-     * is already guaranteed to be filled, and that the second page
-     * cannot evict the first.  An exception to this rule is PAGE_WRITE_INV
-     * handling: the first page could have evicted itself.
-     */
-    page1 = addr & TARGET_PAGE_MASK;
-    page2 = (addr + size) & TARGET_PAGE_MASK;
-    size2 = (addr + size) & ~TARGET_PAGE_MASK;
-    index2 = tlb_index(env, mmu_idx, page2);
-    entry2 = tlb_entry(env, mmu_idx, page2);
-
-    tlb_addr2 = tlb_addr_write(entry2);
-    if (page1 != page2 && !tlb_hit_page(tlb_addr2, page2)) {
-        if (!victim_tlb_hit(env, mmu_idx, index2, MMU_DATA_STORE, page2)) {
-            tlb_fill(env_cpu(env), page2, size2, MMU_DATA_STORE,
-                     mmu_idx, retaddr);
-            index2 = tlb_index(env, mmu_idx, page2);
-            entry2 = tlb_entry(env, mmu_idx, page2);
-        }
-        tlb_addr2 = tlb_addr_write(entry2);
+    QEMU_IOTHREAD_LOCK_GUARD();
+    for (i = 0; i < size; i++, val_le >>= 8) {
+        io_writex(env, full, mmu_idx, val_le, addr + i, ra, MO_UB);
     }
+    return val_le;
+}
 
-    index = tlb_index(env, mmu_idx, addr);
-    entry = tlb_entry(env, mmu_idx, addr);
-    tlb_addr = tlb_addr_write(entry);
+/**
+ * do_st_bytes_leN:
+ * @p: translation parameters
+ * @val_le: data to store
+ *
+ * Store @p->size bytes at @p->haddr, which is RAM.
+ * The bytes to store are extracted in little-endian order from @val_le;
+ * return the bytes of @val_le beyond @p->size that have not been stored.
+ */
+static uint64_t do_st_bytes_leN(MMULookupPageData *p, uint64_t val_le)
+{
+    uint8_t *haddr = p->haddr;
+    int i, size = p->size;
 
-    /*
-     * Handle watchpoints.  Since this may trap, all checks
-     * must happen before any store.
-     */
-    if (unlikely(tlb_addr & TLB_WATCHPOINT)) {
-        cpu_check_watchpoint(env_cpu(env), addr, size - size2,
-                             env_tlb(env)->d[mmu_idx].fulltlb[index].attrs,
-                             BP_MEM_WRITE, retaddr);
-    }
-    if (unlikely(tlb_addr2 & TLB_WATCHPOINT)) {
-        cpu_check_watchpoint(env_cpu(env), page2, size2,
-                             env_tlb(env)->d[mmu_idx].fulltlb[index2].attrs,
-                             BP_MEM_WRITE, retaddr);
+    for (i = 0; i < size; i++, val_le >>= 8) {
+        haddr[i] = val_le;
     }
+    return val_le;
+}
 
-    /*
-     * XXX: not efficient, but simple.
-     * This loop must go in the forward direction to avoid issues
-     * with self-modifying code in Windows 64-bit.
-     */
-    oi = make_memop_idx(MO_UB, mmu_idx);
-    if (big_endian) {
-        for (i = 0; i < size; ++i) {
-            /* Big-endian extract.  */
-            uint8_t val8 = val >> (((size - 1) * 8) - (i * 8));
-            full_stb_mmu(env, addr + i, val8, oi, retaddr);
-        }
+/*
+ * Wrapper for the above.
+ */
+static uint64_t do_st_leN(CPUArchState *env, MMULookupPageData *p,
+                          uint64_t val_le, int mmu_idx, uintptr_t ra)
+{
+    if (unlikely(p->flags & TLB_MMIO)) {
+        return do_st_mmio_leN(env, p, val_le, mmu_idx, ra);
+    } else if (unlikely(p->flags & TLB_DISCARD_WRITE)) {
+        return val_le >> (p->size * 8);
     } else {
-        for (i = 0; i < size; ++i) {
-            /* Little-endian extract.  */
-            uint8_t val8 = val >> (i * 8);
-            full_stb_mmu(env, addr + i, val8, oi, retaddr);
-        }
+        return do_st_bytes_leN(p, val_le);
     }
 }
 
-static inline void QEMU_ALWAYS_INLINE
-store_helper(CPUArchState *env, target_ulong addr, uint64_t val,
-             MemOpIdx oi, uintptr_t retaddr, MemOp op)
+static void do_st_1(CPUArchState *env, MMULookupPageData *p, uint8_t val,
+                    int mmu_idx, uintptr_t ra)
 {
-    const unsigned a_bits = get_alignment_bits(get_memop(oi));
-    const size_t size = memop_size(op);
-    uintptr_t mmu_idx = get_mmuidx(oi);
-    uintptr_t index;
-    CPUTLBEntry *entry;
-    target_ulong tlb_addr;
-    void *haddr;
-
-    tcg_debug_assert(mmu_idx < NB_MMU_MODES);
-
-    /* Handle CPU specific unaligned behaviour */
-    if (addr & ((1 << a_bits) - 1)) {
-        cpu_unaligned_access(env_cpu(env), addr, MMU_DATA_STORE,
-                             mmu_idx, retaddr);
+    if (unlikely(p->flags & TLB_MMIO)) {
+        io_writex(env, p->full, mmu_idx, val, p->addr, ra, MO_UB);
+    } else if (unlikely(p->flags & TLB_DISCARD_WRITE)) {
+        /* nothing */
+    } else {
+        *(uint8_t *)p->haddr = val;
     }
-
-    index = tlb_index(env, mmu_idx, addr);
-    entry = tlb_entry(env, mmu_idx, addr);
-    tlb_addr = tlb_addr_write(entry);
-
-    /* If the TLB entry is for a different page, reload and try again.  */
-    if (!tlb_hit(tlb_addr, addr)) {
-        if (!victim_tlb_hit(env, mmu_idx, index, MMU_DATA_STORE,
-            addr & TARGET_PAGE_MASK)) {
-            tlb_fill(env_cpu(env), addr, size, MMU_DATA_STORE,
-                     mmu_idx, retaddr);
-            index = tlb_index(env, mmu_idx, addr);
-            entry = tlb_entry(env, mmu_idx, addr);
-        }
-        tlb_addr = tlb_addr_write(entry) & ~TLB_INVALID_MASK;
-    }
-
-    /* Handle anything that isn't just a straight memory access.  */
-    if (unlikely(tlb_addr & ~TARGET_PAGE_MASK)) {
-        CPUTLBEntryFull *full;
-        bool need_swap;
-
-        /* For anything that is unaligned, recurse through byte stores.  */
-        if ((addr & (size - 1)) != 0) {
-            goto do_unaligned_access;
-        }
-
-        full = &env_tlb(env)->d[mmu_idx].fulltlb[index];
-
-        /* Handle watchpoints.  */
-        if (unlikely(tlb_addr & TLB_WATCHPOINT)) {
-            /* On watchpoint hit, this will longjmp out.  */
-            cpu_check_watchpoint(env_cpu(env), addr, size,
-                                 full->attrs, BP_MEM_WRITE, retaddr);
-        }
-
-        need_swap = size > 1 && (tlb_addr & TLB_BSWAP);
-
-        /* Handle I/O access.  */
-        if (tlb_addr & TLB_MMIO) {
-            io_writex(env, full, mmu_idx, val, addr, retaddr,
-                      op ^ (need_swap * MO_BSWAP));
-            return;
-        }
-
-        /* Ignore writes to ROM.  */
-        if (unlikely(tlb_addr & TLB_DISCARD_WRITE)) {
-            return;
-        }
-
-        /* Handle clean RAM pages.  */
-        if (tlb_addr & TLB_NOTDIRTY) {
-            notdirty_write(env_cpu(env), addr, size, full, retaddr);
-        }
-
-        haddr = (void *)((uintptr_t)addr + entry->addend);
-
-        /*
-         * Keep these two store_memop separate to ensure that the compiler
-         * is able to fold the entire function to a single instruction.
-         * There is a build-time assert inside to remind you of this.  ;-)
-         */
-        if (unlikely(need_swap)) {
-            store_memop(haddr, val, op ^ MO_BSWAP);
-        } else {
-            store_memop(haddr, val, op);
-        }
-        return;
-    }
-
-    /* Handle slow unaligned access (it spans two pages or IO).  */
-    if (size > 1
-        && unlikely((addr & ~TARGET_PAGE_MASK) + size - 1
-                     >= TARGET_PAGE_SIZE)) {
-    do_unaligned_access:
-        store_helper_unaligned(env, addr, val, retaddr, size,
-                               mmu_idx, memop_big_endian(op));
-        return;
-    }
-
-    haddr = (void *)((uintptr_t)addr + entry->addend);
-    store_memop(haddr, val, op);
 }
 
-static void __attribute__((noinline))
-full_stb_mmu(CPUArchState *env, target_ulong addr, uint64_t val,
-             MemOpIdx oi, uintptr_t retaddr)
+static void do_st_2(CPUArchState *env, MMULookupPageData *p, uint16_t val,
+                    int mmu_idx, MemOp memop, uintptr_t ra)
 {
-    validate_memop(oi, MO_UB);
-    store_helper(env, addr, val, oi, retaddr, MO_UB);
+    if (unlikely(p->flags & TLB_MMIO)) {
+        io_writex(env, p->full, mmu_idx, val, p->addr, ra, memop);
+    } else if (unlikely(p->flags & TLB_DISCARD_WRITE)) {
+        /* nothing */
+    } else {
+        /* Swap to host endian if necessary, then store. */
+        if (memop & MO_BSWAP) {
+            val = bswap16(val);
+        }
+        store_memop(p->haddr, val, MO_UW);
+    }
+}
+
+static void do_st_4(CPUArchState *env, MMULookupPageData *p, uint32_t val,
+                    int mmu_idx, MemOp memop, uintptr_t ra)
+{
+    if (unlikely(p->flags & TLB_MMIO)) {
+        io_writex(env, p->full, mmu_idx, val, p->addr, ra, memop);
+    } else if (unlikely(p->flags & TLB_DISCARD_WRITE)) {
+        /* nothing */
+    } else {
+        /* Swap to host endian if necessary, then store. */
+        if (memop & MO_BSWAP) {
+            val = bswap32(val);
+        }
+        store_memop(p->haddr, val, MO_UL);
+    }
+}
+
+static void do_st_8(CPUArchState *env, MMULookupPageData *p, uint64_t val,
+                    int mmu_idx, MemOp memop, uintptr_t ra)
+{
+    if (unlikely(p->flags & TLB_MMIO)) {
+        io_writex(env, p->full, mmu_idx, val, p->addr, ra, memop);
+    } else if (unlikely(p->flags & TLB_DISCARD_WRITE)) {
+        /* nothing */
+    } else {
+        /* Swap to host endian if necessary, then store. */
+        if (memop & MO_BSWAP) {
+            val = bswap64(val);
+        }
+        store_memop(p->haddr, val, MO_UQ);
+    }
 }
 
 void helper_ret_stb_mmu(CPUArchState *env, target_ulong addr, uint32_t val,
-                        MemOpIdx oi, uintptr_t retaddr)
+                        MemOpIdx oi, uintptr_t ra)
 {
-    full_stb_mmu(env, addr, val, oi, retaddr);
+    MMULookupLocals l;
+    bool crosspage;
+
+    validate_memop(oi, MO_UB);
+    crosspage = mmu_lookup(env, addr, oi, ra, MMU_DATA_STORE, &l);
+    tcg_debug_assert(!crosspage);
+
+    do_st_1(env, &l.page[0], val, l.mmu_idx, ra);
 }
 
-static void full_le_stw_mmu(CPUArchState *env, target_ulong addr, uint64_t val,
-                            MemOpIdx oi, uintptr_t retaddr)
+static void do_st2_mmu(CPUArchState *env, target_ulong addr, uint16_t val,
+                       MemOpIdx oi, uintptr_t ra)
 {
-    validate_memop(oi, MO_LEUW);
-    store_helper(env, addr, val, oi, retaddr, MO_LEUW);
+    MMULookupLocals l;
+    bool crosspage;
+    uint8_t a, b;
+
+    crosspage = mmu_lookup(env, addr, oi, ra, MMU_DATA_STORE, &l);
+    if (likely(!crosspage)) {
+        do_st_2(env, &l.page[0], val, l.mmu_idx, l.memop, ra);
+        return;
+    }
+
+    if ((l.memop & MO_BSWAP) == MO_LE) {
+        a = val, b = val >> 8;
+    } else {
+        b = val, a = val >> 8;
+    }
+    do_st_1(env, &l.page[0], a, l.mmu_idx, ra);
+    do_st_1(env, &l.page[1], b, l.mmu_idx, ra);
 }
 
 void helper_le_stw_mmu(CPUArchState *env, target_ulong addr, uint32_t val,
                        MemOpIdx oi, uintptr_t retaddr)
 {
-    full_le_stw_mmu(env, addr, val, oi, retaddr);
-}
-
-static void full_be_stw_mmu(CPUArchState *env, target_ulong addr, uint64_t val,
-                            MemOpIdx oi, uintptr_t retaddr)
-{
-    validate_memop(oi, MO_BEUW);
-    store_helper(env, addr, val, oi, retaddr, MO_BEUW);
+    validate_memop(oi, MO_LEUW);
+    do_st2_mmu(env, addr, val, oi, retaddr);
 }
 
 void helper_be_stw_mmu(CPUArchState *env, target_ulong addr, uint32_t val,
                        MemOpIdx oi, uintptr_t retaddr)
 {
-    full_be_stw_mmu(env, addr, val, oi, retaddr);
+    validate_memop(oi, MO_BEUW);
+    do_st2_mmu(env, addr, val, oi, retaddr);
 }
 
-static void full_le_stl_mmu(CPUArchState *env, target_ulong addr, uint64_t val,
-                            MemOpIdx oi, uintptr_t retaddr)
+static void do_st4_mmu(CPUArchState *env, target_ulong addr, uint32_t val,
+                       MemOpIdx oi, uintptr_t ra)
 {
-    validate_memop(oi, MO_LEUL);
-    store_helper(env, addr, val, oi, retaddr, MO_LEUL);
+    MMULookupLocals l;
+    bool crosspage;
+
+    crosspage = mmu_lookup(env, addr, oi, ra, MMU_DATA_STORE, &l);
+    if (likely(!crosspage)) {
+        do_st_4(env, &l.page[0], val, l.mmu_idx, l.memop, ra);
+        return;
+    }
+
+    /* Swap to little endian for simplicity, then store by bytes. */
+    if ((l.memop & MO_BSWAP) != MO_LE) {
+        val = bswap32(val);
+    }
+    val = do_st_leN(env, &l.page[0], val, l.mmu_idx, ra);
+    (void) do_st_leN(env, &l.page[1], val, l.mmu_idx, ra);
 }
 
 void helper_le_stl_mmu(CPUArchState *env, target_ulong addr, uint32_t val,
                        MemOpIdx oi, uintptr_t retaddr)
 {
-    full_le_stl_mmu(env, addr, val, oi, retaddr);
-}
-
-static void full_be_stl_mmu(CPUArchState *env, target_ulong addr, uint64_t val,
-                            MemOpIdx oi, uintptr_t retaddr)
-{
-    validate_memop(oi, MO_BEUL);
-    store_helper(env, addr, val, oi, retaddr, MO_BEUL);
+    validate_memop(oi, MO_LEUL);
+    do_st4_mmu(env, addr, val, oi, retaddr);
 }
 
 void helper_be_stl_mmu(CPUArchState *env, target_ulong addr, uint32_t val,
                        MemOpIdx oi, uintptr_t retaddr)
 {
-    full_be_stl_mmu(env, addr, val, oi, retaddr);
+    validate_memop(oi, MO_BEUL);
+    do_st4_mmu(env, addr, val, oi, retaddr);
+}
+
+static void do_st8_mmu(CPUArchState *env, target_ulong addr, uint64_t val,
+                       MemOpIdx oi, uintptr_t ra)
+{
+    MMULookupLocals l;
+    bool crosspage;
+
+    crosspage = mmu_lookup(env, addr, oi, ra, MMU_DATA_STORE, &l);
+    if (likely(!crosspage)) {
+        do_st_8(env, &l.page[0], val, l.mmu_idx, l.memop, ra);
+        return;
+    }
+
+    /* Swap to little endian for simplicity, then store by bytes. */
+    if ((l.memop & MO_BSWAP) != MO_LE) {
+        val = bswap64(val);
+    }
+    val = do_st_leN(env, &l.page[0], val, l.mmu_idx, ra);
+    (void) do_st_leN(env, &l.page[1], val, l.mmu_idx, ra);
 }
 
 void helper_le_stq_mmu(CPUArchState *env, target_ulong addr, uint64_t val,
                        MemOpIdx oi, uintptr_t retaddr)
 {
     validate_memop(oi, MO_LEUQ);
-    store_helper(env, addr, val, oi, retaddr, MO_LEUQ);
+    do_st8_mmu(env, addr, val, oi, retaddr);
 }
 
 void helper_be_stq_mmu(CPUArchState *env, target_ulong addr, uint64_t val,
                        MemOpIdx oi, uintptr_t retaddr)
 {
     validate_memop(oi, MO_BEUQ);
-    store_helper(env, addr, val, oi, retaddr, MO_BEUQ);
+    do_st8_mmu(env, addr, val, oi, retaddr);
 }
 
 /*
  * Store Helpers for cpu_ldst.h
  */
 
-typedef void FullStoreHelper(CPUArchState *env, target_ulong addr,
-                             uint64_t val, MemOpIdx oi, uintptr_t retaddr);
-
-static inline void cpu_store_helper(CPUArchState *env, target_ulong addr,
-                                    uint64_t val, MemOpIdx oi, uintptr_t ra,
-                                    FullStoreHelper *full_store)
+static void plugin_store_cb(CPUArchState *env, abi_ptr addr, MemOpIdx oi)
 {
-    full_store(env, addr, val, oi, ra);
     qemu_plugin_vcpu_mem_cb(env_cpu(env), addr, oi, QEMU_PLUGIN_MEM_W);
 }
 
 void cpu_stb_mmu(CPUArchState *env, target_ulong addr, uint8_t val,
                  MemOpIdx oi, uintptr_t retaddr)
 {
-    cpu_store_helper(env, addr, val, oi, retaddr, full_stb_mmu);
+    helper_ret_stb_mmu(env, addr, val, oi, retaddr);
+    plugin_store_cb(env, addr, oi);
 }
 
 void cpu_stw_be_mmu(CPUArchState *env, target_ulong addr, uint16_t val,
                     MemOpIdx oi, uintptr_t retaddr)
 {
-    cpu_store_helper(env, addr, val, oi, retaddr, full_be_stw_mmu);
+    helper_be_stw_mmu(env, addr, val, oi, retaddr);
+    plugin_store_cb(env, addr, oi);
 }
 
 void cpu_stl_be_mmu(CPUArchState *env, target_ulong addr, uint32_t val,
                     MemOpIdx oi, uintptr_t retaddr)
 {
-    cpu_store_helper(env, addr, val, oi, retaddr, full_be_stl_mmu);
+    helper_be_stl_mmu(env, addr, val, oi, retaddr);
+    plugin_store_cb(env, addr, oi);
 }
 
 void cpu_stq_be_mmu(CPUArchState *env, target_ulong addr, uint64_t val,
                     MemOpIdx oi, uintptr_t retaddr)
 {
-    cpu_store_helper(env, addr, val, oi, retaddr, helper_be_stq_mmu);
+    helper_be_stq_mmu(env, addr, val, oi, retaddr);
+    plugin_store_cb(env, addr, oi);
 }
 
 void cpu_stw_le_mmu(CPUArchState *env, target_ulong addr, uint16_t val,
                     MemOpIdx oi, uintptr_t retaddr)
 {
-    cpu_store_helper(env, addr, val, oi, retaddr, full_le_stw_mmu);
+    helper_le_stw_mmu(env, addr, val, oi, retaddr);
+    plugin_store_cb(env, addr, oi);
 }
 
 void cpu_stl_le_mmu(CPUArchState *env, target_ulong addr, uint32_t val,
                     MemOpIdx oi, uintptr_t retaddr)
 {
-    cpu_store_helper(env, addr, val, oi, retaddr, full_le_stl_mmu);
+    helper_le_stl_mmu(env, addr, val, oi, retaddr);
+    plugin_store_cb(env, addr, oi);
 }
 
 void cpu_stq_le_mmu(CPUArchState *env, target_ulong addr, uint64_t val,
                     MemOpIdx oi, uintptr_t retaddr)
 {
-    cpu_store_helper(env, addr, val, oi, retaddr, helper_le_stq_mmu);
+    helper_le_stq_mmu(env, addr, val, oi, retaddr);
+    plugin_store_cb(env, addr, oi);
 }
 
 void cpu_st16_be_mmu(CPUArchState *env, abi_ptr addr, Int128 val,
-- 
2.34.1

This header is supposed to be private to tcg and in fact
does not need to be included here at all.

Reviewed-by: Song Gao <gaosong@loongson.cn>
Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 target/loongarch/csr_helper.c   | 1 -
 target/loongarch/iocsr_helper.c | 1 -
 2 files changed, 2 deletions(-)

diff --git a/target/loongarch/csr_helper.c b/target/loongarch/csr_helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/loongarch/csr_helper.c
+++ b/target/loongarch/csr_helper.c
@@ -XXX,XX +XXX,XX @@
 #include "exec/cpu_ldst.h"
 #include "hw/irq.h"
 #include "cpu-csr.h"
-#include "tcg/tcg-ldst.h"
 
 target_ulong helper_csrrd_pgd(CPULoongArchState *env)
 {
diff --git a/target/loongarch/iocsr_helper.c b/target/loongarch/iocsr_helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/loongarch/iocsr_helper.c
+++ b/target/loongarch/iocsr_helper.c
@@ -XXX,XX +XXX,XX @@
 #include "exec/helper-proto.h"
 #include "exec/exec-all.h"
 #include "exec/cpu_ldst.h"
-#include "tcg/tcg-ldst.h"
 
 #define GET_MEMTXATTRS(cas) \
         ((MemTxAttrs){.requester_id = env_cpu(cas)->cpu_index})
-- 
2.34.1

The following changes since commit aa3a285b5bc56a4208b3b57d4a55291e9c260107:

Merge tag 'mem-2024-12-21' of https://github.com/davidhildenbrand/qemu into staging (2024-12-22 14:33:27 -0500)

are available in the Git repository at:

https://gitlab.com/rth7680/qemu.git tags/pull-tcg-20241224

for you to fetch changes up to e4a8e093dc74be049f4829831dce76e5edab0003:

accel/tcg: Move gen_intermediate_code to TCGCPUOps.translate_core (2024-12-24 08:32:15 -0800)

----------------------------------------------------------------
tcg/optimize: Remove in-flight mask data from OptContext
fpu: Add float*_muladd_scalbn
fpu: Remove float_muladd_halve_result
fpu: Add float_round_nearest_even_max
fpu: Add float_muladd_suppress_add_product_zero
target/hexagon: Use float32_muladd
accel/tcg: Move gen_intermediate_code to TCGCPUOps.translate_core

----------------------------------------------------------------
Ilya Leoshkevich (1):
      tests/tcg: Do not use inttypes.h in multiarch/system/memory.c

Pierrick Bouvier (1):
      plugins: optimize cpu_index code generation

Richard Henderson (70):
      tcg/optimize: Split out finish_bb, finish_ebb
      tcg/optimize: Split out fold_affected_mask
      tcg/optimize: Copy mask writeback to fold_masks
      tcg/optimize: Split out fold_masks_zs
      tcg/optimize: Augment s_mask from z_mask in fold_masks_zs
      tcg/optimize: Change representation of s_mask
      tcg/optimize: Use finish_folding in fold_add, fold_add_vec, fold_addsub2
      tcg/optimize: Introduce const value accessors for TempOptInfo
      tcg/optimize: Use fold_masks_zs in fold_and
      tcg/optimize: Use fold_masks_zs in fold_andc
      tcg/optimize: Use fold_masks_zs in fold_bswap
      tcg/optimize: Use fold_masks_zs in fold_count_zeros
      tcg/optimize: Use fold_masks_z in fold_ctpop
      tcg/optimize: Use fold_and and fold_masks_z in fold_deposit
      tcg/optimize: Compute sign mask in fold_deposit
      tcg/optimize: Use finish_folding in fold_divide
      tcg/optimize: Use finish_folding in fold_dup, fold_dup2
      tcg/optimize: Use fold_masks_s in fold_eqv
      tcg/optimize: Use fold_masks_z in fold_extract
      tcg/optimize: Use finish_folding in fold_extract2
      tcg/optimize: Use fold_masks_zs in fold_exts
      tcg/optimize: Use fold_masks_z in fold_extu
      tcg/optimize: Use fold_masks_zs in fold_movcond
      tcg/optimize: Use finish_folding in fold_mul*
      tcg/optimize: Use fold_masks_s in fold_nand
      tcg/optimize: Use fold_masks_z in fold_neg_no_const
      tcg/optimize: Use fold_masks_s in fold_nor
      tcg/optimize: Use fold_masks_s in fold_not
      tcg/optimize: Use fold_masks_zs in fold_or
      tcg/optimize: Use fold_masks_zs in fold_orc
      tcg/optimize: Use fold_masks_zs in fold_qemu_ld
      tcg/optimize: Return true from fold_qemu_st, fold_tcg_st
      tcg/optimize: Use finish_folding in fold_remainder
      tcg/optimize: Distinguish simplification in fold_setcond_zmask
      tcg/optimize: Use fold_masks_z in fold_setcond
      tcg/optimize: Use fold_masks_s in fold_negsetcond
      tcg/optimize: Use fold_masks_z in fold_setcond2
      tcg/optimize: Use finish_folding in fold_cmp_vec
      tcg/optimize: Use finish_folding in fold_cmpsel_vec
      tcg/optimize: Use fold_masks_zs in fold_sextract
      tcg/optimize: Use fold_masks_zs, fold_masks_s in fold_shift
      tcg/optimize: Simplify sign bit test in fold_shift
      tcg/optimize: Use finish_folding in fold_sub, fold_sub_vec
      tcg/optimize: Use fold_masks_zs in fold_tcg_ld
      tcg/optimize: Use finish_folding in fold_tcg_ld_memcopy
      tcg/optimize: Use fold_masks_zs in fold_xor
      tcg/optimize: Use finish_folding in fold_bitsel_vec
      tcg/optimize: Use finish_folding as default in tcg_optimize
      tcg/optimize: Remove z_mask, s_mask from OptContext
      tcg/optimize: Re-enable sign-mask optimizations
      tcg/optimize: Move fold_bitsel_vec into alphabetic sort
      tcg/optimize: Move fold_cmp_vec, fold_cmpsel_vec into alphabetic sort
      softfloat: Add float{16,32,64}_muladd_scalbn
      target/arm: Use float*_muladd_scalbn
      target/sparc: Use float*_muladd_scalbn
      softfloat: Remove float_muladd_halve_result
      softfloat: Add float_round_nearest_even_max
      softfloat: Add float_muladd_suppress_add_product_zero
      target/hexagon: Use float32_mul in helper_sfmpy
      target/hexagon: Use float32_muladd for helper_sffma
      target/hexagon: Use float32_muladd for helper_sffms
      target/hexagon: Use float32_muladd_scalbn for helper_sffma_sc
      target/hexagon: Use float32_muladd for helper_sffm[as]_lib
      target/hexagon: Remove internal_fmafx
      target/hexagon: Expand GEN_XF_ROUND
      target/hexagon: Remove Float
      target/hexagon: Remove Double
      target/hexagon: Use mulu64 for int128_mul_6464
      target/hexagon: Simplify internal_mpyhh setup
      accel/tcg: Move gen_intermediate_code to TCGCPUOps.translate_core

From: Ilya Leoshkevich <iii@linux.ibm.com>

make check-tcg fails on Fedora with the following error message:

alpha-linux-gnu-gcc [...] qemu/tests/tcg/multiarch/system/memory.c -o memory [...]
    qemu/tests/tcg/multiarch/system/memory.c:17:10: fatal error: inttypes.h: No such file or directory
       17 | #include <inttypes.h>
          |          ^~~~~~~~~~~~
    compilation terminated.

The reason is that Fedora has cross-compilers, but no cross-glibc
headers. Fix by hardcoding the format specifiers and dropping the
include.

An alternative fix would be to introduce a configure check for
inttypes.h. But this would make it impossible to use Fedora
cross-compilers for softmmu tests, which used to work so far.

Fixes: ecbcc9ead2f8 ("tests/tcg: add a system test to check memory instrumentation")
Signed-off-by: Ilya Leoshkevich <iii@linux.ibm.com>
Reviewed-by: Paolo Bonzini <pbonzini@redhat.com>
Message-ID: <20241010085906.226249-1-iii@linux.ibm.com>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tests/tcg/multiarch/system/memory.c | 9 ++++-----
 1 file changed, 4 insertions(+), 5 deletions(-)

diff --git a/tests/tcg/multiarch/system/memory.c b/tests/tcg/multiarch/system/memory.c
index XXXXXXX..XXXXXXX 100644
--- a/tests/tcg/multiarch/system/memory.c
+++ b/tests/tcg/multiarch/system/memory.c
@@ -XXX,XX +XXX,XX @@
 
 #include <stdint.h>
 #include <stdbool.h>
-#include <inttypes.h>
 #include <minilib.h>
 
 #ifndef CHECK_UNALIGNED
@@ -XXX,XX +XXX,XX @@ int main(void)
     int i;
     bool ok = true;
 
-    ml_printf("Test data start: 0x%"PRIxPTR"\n", &test_data[0]);
-    ml_printf("Test data end: 0x%"PRIxPTR"\n", &test_data[TEST_SIZE]);
+    ml_printf("Test data start: 0x%lx\n", (unsigned long)&test_data[0]);
+    ml_printf("Test data end: 0x%lx\n", (unsigned long)&test_data[TEST_SIZE]);
 
     /* Run through the unsigned tests first */
     for (i = 0; i < ARRAY_SIZE(init_ufns) && ok; i++) {
@@ -XXX,XX +XXX,XX @@ int main(void)
         ok = do_signed_reads(true);
     }
 
-    ml_printf("Test data read: %"PRId32"\n", test_read_count);
-    ml_printf("Test data write: %"PRId32"\n", test_write_count);
+    ml_printf("Test data read: %lu\n", (unsigned long)test_read_count);
+    ml_printf("Test data write: %lu\n", (unsigned long)test_write_count);
     ml_printf("Test complete: %s\n", ok ? "PASSED" : "FAILED");
     return ok ? 0 : -1;
 }
-- 
2.43.0

From: Pierrick Bouvier <pierrick.bouvier@linaro.org>

When running with a single vcpu, we can return a constant instead of a
load when accessing cpu_index.
A side effect is that all tcg operations using it are optimized, most
notably scoreboard access.
When running a simple loop in user-mode, the speedup is around 20%.

Signed-off-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-ID: <20241128213843.1023080-1-pierrick.bouvier@linaro.org>
---
 accel/tcg/plugin-gen.c | 9 +++++++++
 1 file changed, 9 insertions(+)

diff --git a/accel/tcg/plugin-gen.c b/accel/tcg/plugin-gen.c
index XXXXXXX..XXXXXXX 100644
--- a/accel/tcg/plugin-gen.c
+++ b/accel/tcg/plugin-gen.c
@@ -XXX,XX +XXX,XX @@ static void gen_disable_mem_helper(void)
 
 static TCGv_i32 gen_cpu_index(void)
 {
+    /*
+     * Optimize when we run with a single vcpu. All values using cpu_index,
+     * including scoreboard index, will be optimized out.
+     * User-mode calls tb_flush when setting this flag. In system-mode, all
+     * vcpus are created before generating code.
+     */
+    if (!tcg_cflags_has(current_cpu, CF_PARALLEL)) {
+        return tcg_constant_i32(current_cpu->cpu_index);
+    }
     TCGv_i32 cpu_index = tcg_temp_ebb_new_i32();
     tcg_gen_ld_i32(cpu_index, tcg_env,
                    -offsetof(ArchCPU, env) + offsetof(CPUState, cpu_index));
-- 
2.43.0

Call them directly from the opcode switch statement in tcg_optimize,
rather than in finish_folding based on opcode flags.  Adjust folding
of conditional branches to match.

Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/optimize.c | 47 +++++++++++++++++++++++++++++++----------------
 1 file changed, 31 insertions(+), 16 deletions(-)

diff --git a/tcg/optimize.c b/tcg/optimize.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/optimize.c
+++ b/tcg/optimize.c
@@ -XXX,XX +XXX,XX @@ static void copy_propagate(OptContext *ctx, TCGOp *op,
     }
 }
 
+static void finish_bb(OptContext *ctx)
+{
+    /* We only optimize memory barriers across basic blocks. */
+    ctx->prev_mb = NULL;
+}
+
+static void finish_ebb(OptContext *ctx)
+{
+    finish_bb(ctx);
+    /* We only optimize across extended basic blocks. */
+    memset(&ctx->temps_used, 0, sizeof(ctx->temps_used));
+    remove_mem_copy_all(ctx);
+}
+
 static void finish_folding(OptContext *ctx, TCGOp *op)
 {
     const TCGOpDef *def = &tcg_op_defs[op->opc];
     int i, nb_oargs;
 
-    /*
-     * We only optimize extended basic blocks.  If the opcode ends a BB
-     * and is not a conditional branch, reset all temp data.
-     */
-    if (def->flags & TCG_OPF_BB_END) {
-        ctx->prev_mb = NULL;
-        if (!(def->flags & TCG_OPF_COND_BRANCH)) {
-            memset(&ctx->temps_used, 0, sizeof(ctx->temps_used));
-            remove_mem_copy_all(ctx);
-        }
-        return;
-    }
-
     nb_oargs = def->nb_oargs;
     for (i = 0; i < nb_oargs; i++) {
         TCGTemp *ts = arg_temp(op->args[i]);
@@ -XXX,XX +XXX,XX @@ static bool fold_brcond(OptContext *ctx, TCGOp *op)
     if (i > 0) {
         op->opc = INDEX_op_br;
         op->args[0] = op->args[3];
+        finish_ebb(ctx);
+    } else {
+        finish_bb(ctx);
     }
-    return false;
+    return true;
 }
 
 static bool fold_brcond2(OptContext *ctx, TCGOp *op)
@@ -XXX,XX +XXX,XX @@ static bool fold_brcond2(OptContext *ctx, TCGOp *op)
         }
         op->opc = INDEX_op_br;
         op->args[0] = label;
-        break;
+        finish_ebb(ctx);
+        return true;
     }
-    return false;
+
+    finish_bb(ctx);
+    return true;
 }
 
 static bool fold_bswap(OptContext *ctx, TCGOp *op)
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
         CASE_OP_32_64_VEC(xor):
             done = fold_xor(&ctx, op);
             break;
+        case INDEX_op_set_label:
+        case INDEX_op_br:
+        case INDEX_op_exit_tb:
+        case INDEX_op_goto_tb:
+        case INDEX_op_goto_ptr:
+            finish_ebb(&ctx);
+            done = true;
+            break;
         default:
             break;
         }
-- 
2.43.0

There are only a few logical operations which can compute
an "affected" mask.  Split out handling of this optimization
to a separate function, only to be called when applicable.

Remove the a_mask field from OptContext, as the mask is
no longer stored anywhere.

Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/optimize.c | 42 +++++++++++++++++++++++++++---------------
 1 file changed, 27 insertions(+), 15 deletions(-)

diff --git a/tcg/optimize.c b/tcg/optimize.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/optimize.c
+++ b/tcg/optimize.c
@@ -XXX,XX +XXX,XX @@ typedef struct OptContext {
     QSIMPLEQ_HEAD(, MemCopyInfo) mem_free;
 
     /* In flight values from optimization. */
-    uint64_t a_mask;  /* mask bit is 0 iff value identical to first input */
     uint64_t z_mask;  /* mask bit is 0 iff value bit is 0 */
     uint64_t s_mask;  /* mask of clrsb(value) bits */
     TCGType type;
@@ -XXX,XX +XXX,XX @@ static bool fold_const2_commutative(OptContext *ctx, TCGOp *op)
 
 static bool fold_masks(OptContext *ctx, TCGOp *op)
 {
-    uint64_t a_mask = ctx->a_mask;
     uint64_t z_mask = ctx->z_mask;
     uint64_t s_mask = ctx->s_mask;
 
@@ -XXX,XX +XXX,XX @@ static bool fold_masks(OptContext *ctx, TCGOp *op)
      * type changing opcodes.
      */
     if (ctx->type == TCG_TYPE_I32) {
-        a_mask = (int32_t)a_mask;
         z_mask = (int32_t)z_mask;
         s_mask |= MAKE_64BIT_MASK(32, 32);
         ctx->z_mask = z_mask;
@@ -XXX,XX +XXX,XX @@ static bool fold_masks(OptContext *ctx, TCGOp *op)
     if (z_mask == 0) {
         return tcg_opt_gen_movi(ctx, op, op->args[0], 0);
     }
+    return false;
+}
+
+/*
+ * An "affected" mask bit is 0 if and only if the result is identical
+ * to the first input.  Thus if the entire mask is 0, the operation
+ * is equivalent to a copy.
+ */
+static bool fold_affected_mask(OptContext *ctx, TCGOp *op, uint64_t a_mask)
+{
+    if (ctx->type == TCG_TYPE_I32) {
+        a_mask = (uint32_t)a_mask;
+    }
     if (a_mask == 0) {
         return tcg_opt_gen_mov(ctx, op, op->args[0], op->args[1]);
     }
@@ -XXX,XX +XXX,XX @@ static bool fold_and(OptContext *ctx, TCGOp *op)
      * Known-zeros does not imply known-ones.  Therefore unless
      * arg2 is constant, we can't infer affected bits from it.
      */
-    if (arg_is_const(op->args[2])) {
-        ctx->a_mask = z1 & ~z2;
+    if (arg_is_const(op->args[2]) &&
+        fold_affected_mask(ctx, op, z1 & ~z2)) {
+        return true;
     }
 
     return fold_masks(ctx, op);
@@ -XXX,XX +XXX,XX @@ static bool fold_andc(OptContext *ctx, TCGOp *op)
      */
     if (arg_is_const(op->args[2])) {
         uint64_t z2 = ~arg_info(op->args[2])->z_mask;
-        ctx->a_mask = z1 & ~z2;
+        if (fold_affected_mask(ctx, op, z1 & ~z2)) {
+            return true;
+        }
         z1 &= z2;
     }
     ctx->z_mask = z1;
@@ -XXX,XX +XXX,XX @@ static bool fold_extract(OptContext *ctx, TCGOp *op)
 
     z_mask_old = arg_info(op->args[1])->z_mask;
     z_mask = extract64(z_mask_old, pos, len);
-    if (pos == 0) {
-        ctx->a_mask = z_mask_old ^ z_mask;
+    if (pos == 0 && fold_affected_mask(ctx, op, z_mask_old ^ z_mask)) {
+        return true;
     }
     ctx->z_mask = z_mask;
     ctx->s_mask = smask_from_zmask(z_mask);
@@ -XXX,XX +XXX,XX @@ static bool fold_exts(OptContext *ctx, TCGOp *op)
 
     ctx->z_mask = z_mask;
     ctx->s_mask = s_mask;
-    if (!type_change) {
-        ctx->a_mask = s_mask & ~s_mask_old;
+    if (!type_change && fold_affected_mask(ctx, op, s_mask & ~s_mask_old)) {
+        return true;
     }
 
     return fold_masks(ctx, op);
@@ -XXX,XX +XXX,XX @@ static bool fold_extu(OptContext *ctx, TCGOp *op)
 
     ctx->z_mask = z_mask;
     ctx->s_mask = smask_from_zmask(z_mask);
-    if (!type_change) {
-        ctx->a_mask = z_mask_old ^ z_mask;
+    if (!type_change && fold_affected_mask(ctx, op, z_mask_old ^ z_mask)) {
+        return true;
     }
     return fold_masks(ctx, op);
 }
@@ -XXX,XX +XXX,XX @@ static bool fold_sextract(OptContext *ctx, TCGOp *op)
     s_mask |= MAKE_64BIT_MASK(len, 64 - len);
     ctx->s_mask = s_mask;
 
-    if (pos == 0) {
-        ctx->a_mask = s_mask & ~s_mask_old;
+    if (pos == 0 && fold_affected_mask(ctx, op, s_mask & ~s_mask_old)) {
+        return true;
     }
 
     return fold_masks(ctx, op);
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
         }
 
         /* Assume all bits affected, no bits known zero, no sign reps. */
-        ctx.a_mask = -1;
         ctx.z_mask = -1;
         ctx.s_mask = 0;
 
-- 
2.43.0

Use of fold_masks should be restricted to those opcodes that
can reliably make use of it -- those with a single output,
and from higher-level folders that set up the masks.
Prepare for conversion of each folder in turn.

Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/optimize.c | 17 ++++++++++++++---
 1 file changed, 14 insertions(+), 3 deletions(-)

diff --git a/tcg/optimize.c b/tcg/optimize.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/optimize.c
+++ b/tcg/optimize.c
@@ -XXX,XX +XXX,XX @@ static bool fold_masks(OptContext *ctx, TCGOp *op)
 {
     uint64_t z_mask = ctx->z_mask;
     uint64_t s_mask = ctx->s_mask;
+    const TCGOpDef *def = &tcg_op_defs[op->opc];
+    TCGTemp *ts;
+    TempOptInfo *ti;
+
+    /* Only single-output opcodes are supported here. */
+    tcg_debug_assert(def->nb_oargs == 1);
 
     /*
      * 32-bit ops generate 32-bit results, which for the purpose of
@@ -XXX,XX +XXX,XX @@ static bool fold_masks(OptContext *ctx, TCGOp *op)
     if (ctx->type == TCG_TYPE_I32) {
         z_mask = (int32_t)z_mask;
         s_mask |= MAKE_64BIT_MASK(32, 32);
-        ctx->z_mask = z_mask;
-        ctx->s_mask = s_mask;
     }
 
     if (z_mask == 0) {
         return tcg_opt_gen_movi(ctx, op, op->args[0], 0);
     }
-    return false;
+
+    ts = arg_temp(op->args[0]);
+    reset_ts(ctx, ts);
+
+    ti = ts_info(ts);
+    ti->z_mask = z_mask;
+    ti->s_mask = s_mask;
+    return true;
 }
 
 /*
-- 
2.43.0

Add a routine to which masks can be passed directly, rather than
storing them into OptContext.  To be used in upcoming patches.

Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/optimize.c | 15 ++++++++++++---
 1 file changed, 12 insertions(+), 3 deletions(-)

diff --git a/tcg/optimize.c b/tcg/optimize.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/optimize.c
+++ b/tcg/optimize.c
@@ -XXX,XX +XXX,XX @@ static bool fold_const2_commutative(OptContext *ctx, TCGOp *op)
     return fold_const2(ctx, op);
 }
 
-static bool fold_masks(OptContext *ctx, TCGOp *op)
+/*
+ * Record "zero" and "sign" masks for the single output of @op.
+ * See TempOptInfo definition of z_mask and s_mask.
+ * If z_mask allows, fold the output to constant zero.
+ */
+static bool fold_masks_zs(OptContext *ctx, TCGOp *op,
+                          uint64_t z_mask, uint64_t s_mask)
 {
-    uint64_t z_mask = ctx->z_mask;
-    uint64_t s_mask = ctx->s_mask;
     const TCGOpDef *def = &tcg_op_defs[op->opc];
     TCGTemp *ts;
     TempOptInfo *ti;
@@ -XXX,XX +XXX,XX @@ static bool fold_masks(OptContext *ctx, TCGOp *op)
     return true;
 }
 
+static bool fold_masks(OptContext *ctx, TCGOp *op)
+{
+    return fold_masks_zs(ctx, op, ctx->z_mask, ctx->s_mask);
+}
+
 /*
  * An "affected" mask bit is 0 if and only if the result is identical
  * to the first input.  Thus if the entire mask is 0, the operation
-- 
2.43.0

Consider the passed s_mask to be a minimum deduced from
either existing s_mask or from a sign-extension operation.
We may be able to deduce more from the set of known zeros.
Remove identical logic from several opcode folders.

Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/optimize.c | 21 ++++++---------------
 1 file changed, 6 insertions(+), 15 deletions(-)

diff --git a/tcg/optimize.c b/tcg/optimize.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/optimize.c
+++ b/tcg/optimize.c
@@ -XXX,XX +XXX,XX @@ static bool fold_const2_commutative(OptContext *ctx, TCGOp *op)
  * Record "zero" and "sign" masks for the single output of @op.
  * See TempOptInfo definition of z_mask and s_mask.
  * If z_mask allows, fold the output to constant zero.
+ * The passed s_mask may be augmented by z_mask.
  */
 static bool fold_masks_zs(OptContext *ctx, TCGOp *op,
                           uint64_t z_mask, uint64_t s_mask)
@@ -XXX,XX +XXX,XX @@ static bool fold_masks_zs(OptContext *ctx, TCGOp *op,
 
     ti = ts_info(ts);
     ti->z_mask = z_mask;
-    ti->s_mask = s_mask;
+    ti->s_mask = s_mask | smask_from_zmask(z_mask);
     return true;
 }
 
@@ -XXX,XX +XXX,XX @@ static bool fold_bswap(OptContext *ctx, TCGOp *op)
     default:
         g_assert_not_reached();
     }
-    s_mask = smask_from_zmask(z_mask);
 
+    s_mask = 0;
     switch (op->args[2] & (TCG_BSWAP_OZ | TCG_BSWAP_OS)) {
     case TCG_BSWAP_OZ:
         break;
@@ -XXX,XX +XXX,XX @@ static bool fold_bswap(OptContext *ctx, TCGOp *op)
     default:
         /* The high bits are undefined: force all bits above the sign to 1. */
         z_mask |= sign << 1;
-        s_mask = 0;
         break;
     }
     ctx->z_mask = z_mask;
@@ -XXX,XX +XXX,XX @@ static bool fold_count_zeros(OptContext *ctx, TCGOp *op)
         g_assert_not_reached();
     }
     ctx->z_mask = arg_info(op->args[2])->z_mask | z_mask;
-    ctx->s_mask = smask_from_zmask(ctx->z_mask);
     return false;
 }
 
@@ -XXX,XX +XXX,XX @@ static bool fold_ctpop(OptContext *ctx, TCGOp *op)
     default:
         g_assert_not_reached();
     }
-    ctx->s_mask = smask_from_zmask(ctx->z_mask);
     return false;
 }
 
@@ -XXX,XX +XXX,XX @@ static bool fold_extract(OptContext *ctx, TCGOp *op)
         return true;
     }
     ctx->z_mask = z_mask;
-    ctx->s_mask = smask_from_zmask(z_mask);
 
     return fold_masks(ctx, op);
 }
@@ -XXX,XX +XXX,XX @@ static bool fold_extu(OptContext *ctx, TCGOp *op)
     }
 
     ctx->z_mask = z_mask;
-    ctx->s_mask = smask_from_zmask(z_mask);
     if (!type_change && fold_affected_mask(ctx, op, z_mask_old ^ z_mask)) {
         return true;
     }
@@ -XXX,XX +XXX,XX @@ static bool fold_qemu_ld(OptContext *ctx, TCGOp *op)
     int width = 8 * memop_size(mop);
 
     if (width < 64) {
-        ctx->s_mask = MAKE_64BIT_MASK(width, 64 - width);
-        if (!(mop & MO_SIGN)) {
+        if (mop & MO_SIGN) {
+            ctx->s_mask = MAKE_64BIT_MASK(width, 64 - width);
+        } else {
             ctx->z_mask = MAKE_64BIT_MASK(0, width);
-            ctx->s_mask <<= 1;
         }
     }
 
@@ -XXX,XX +XXX,XX @@ static bool fold_setcond(OptContext *ctx, TCGOp *op)
     fold_setcond_tst_pow2(ctx, op, false);
 
     ctx->z_mask = 1;
-    ctx->s_mask = smask_from_zmask(1);
     return false;
 }
 
@@ -XXX,XX +XXX,XX @@ static bool fold_setcond2(OptContext *ctx, TCGOp *op)
     }
 
     ctx->z_mask = 1;
-    ctx->s_mask = smask_from_zmask(1);
     return false;
 
  do_setcond_const:
@@ -XXX,XX +XXX,XX @@ static bool fold_tcg_ld(OptContext *ctx, TCGOp *op)
         break;
     CASE_OP_32_64(ld8u):
         ctx->z_mask = MAKE_64BIT_MASK(0, 8);
-        ctx->s_mask = MAKE_64BIT_MASK(9, 55);
         break;
     CASE_OP_32_64(ld16s):
         ctx->s_mask = MAKE_64BIT_MASK(16, 48);
         break;
     CASE_OP_32_64(ld16u):
         ctx->z_mask = MAKE_64BIT_MASK(0, 16);
-        ctx->s_mask = MAKE_64BIT_MASK(17, 47);
         break;
     case INDEX_op_ld32s_i64:
         ctx->s_mask = MAKE_64BIT_MASK(32, 32);
         break;
     case INDEX_op_ld32u_i64:
         ctx->z_mask = MAKE_64BIT_MASK(0, 32);
-        ctx->s_mask = MAKE_64BIT_MASK(33, 31);
         break;
     default:
         g_assert_not_reached();
-- 
2.43.0

Change the representation from sign bit repetitions to all bits equal
to the sign bit, including the sign bit itself.

The previous format has a problem in that it is difficult to recreate
a valid sign mask after a shift operation: the "repetitions" part of
the previous format meant that applying the same shift as for the value
lead to an off-by-one value.

The new format, including the sign bit itself, means that the sign mask
can be manipulated in exactly the same way as the value, canonicalization
is easier.

Canonicalize the s_mask in fold_masks_zs, rather than requiring callers
to do so.  Treat 0 as a non-canonical but typeless input for no sign
information, which will be reset as appropriate for the data type.
We can easily fold in the data from z_mask while canonicalizing.

Temporarily disable optimizations using s_mask while each operation is
converted to use fold_masks_zs and to the new form.

Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/optimize.c | 64 ++++++++++++--------------------------------------
 1 file changed, 15 insertions(+), 49 deletions(-)

diff --git a/tcg/optimize.c b/tcg/optimize.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/optimize.c
+++ b/tcg/optimize.c
@@ -XXX,XX +XXX,XX @@ typedef struct TempOptInfo {
     QSIMPLEQ_HEAD(, MemCopyInfo) mem_copy;
     uint64_t val;
     uint64_t z_mask;  /* mask bit is 0 if and only if value bit is 0 */
-    uint64_t s_mask;  /* a left-aligned mask of clrsb(value) bits. */
+    uint64_t s_mask;  /* mask bit is 1 if value bit matches msb */
 } TempOptInfo;
 
 typedef struct OptContext {
@@ -XXX,XX +XXX,XX @@ typedef struct OptContext {
 
     /* In flight values from optimization. */
     uint64_t z_mask;  /* mask bit is 0 iff value bit is 0 */
-    uint64_t s_mask;  /* mask of clrsb(value) bits */
+    uint64_t s_mask;  /* mask bit is 1 if value bit matches msb */
     TCGType type;
 } OptContext;
 
-/* Calculate the smask for a specific value. */
-static uint64_t smask_from_value(uint64_t value)
-{
-    int rep = clrsb64(value);
-    return ~(~0ull >> rep);
-}
-
-/*
- * Calculate the smask for a given set of known-zeros.
- * If there are lots of zeros on the left, we can consider the remainder
- * an unsigned field, and thus the corresponding signed field is one bit
- * larger.
- */
-static uint64_t smask_from_zmask(uint64_t zmask)
-{
-    /*
-     * Only the 0 bits are significant for zmask, thus the msb itself
-     * must be zero, else we have no sign information.
-     */
-    int rep = clz64(zmask);
-    if (rep == 0) {
-        return 0;
-    }
-    rep -= 1;
-    return ~(~0ull >> rep);
-}
-
-/*
- * Recreate a properly left-aligned smask after manipulation.
- * Some bit-shuffling, particularly shifts and rotates, may
- * retain sign bits on the left, but may scatter disconnected
- * sign bits on the right.  Retain only what remains to the left.
- */
-static uint64_t smask_from_smask(int64_t smask)
-{
-    /* Only the 1 bits are significant for smask */
-    return smask_from_zmask(~smask);
-}
-
 static inline TempOptInfo *ts_info(TCGTemp *ts)
 {
     return ts->state_ptr;
@@ -XXX,XX +XXX,XX @@ static void init_ts_info(OptContext *ctx, TCGTemp *ts)
         ti->is_const = true;
         ti->val = ts->val;
         ti->z_mask = ts->val;
-        ti->s_mask = smask_from_value(ts->val);
+        ti->s_mask = INT64_MIN >> clrsb64(ts->val);
     } else {
         ti->is_const = false;
         ti->z_mask = -1;
@@ -XXX,XX +XXX,XX @@ static void finish_folding(OptContext *ctx, TCGOp *op)
          */
         if (i == 0) {
             ts_info(ts)->z_mask = ctx->z_mask;
-            ts_info(ts)->s_mask = ctx->s_mask;
         }
     }
 }
@@ -XXX,XX +XXX,XX @@ static bool fold_const2_commutative(OptContext *ctx, TCGOp *op)
  * The passed s_mask may be augmented by z_mask.
  */
 static bool fold_masks_zs(OptContext *ctx, TCGOp *op,
-                          uint64_t z_mask, uint64_t s_mask)
+                          uint64_t z_mask, int64_t s_mask)
 {
     const TCGOpDef *def = &tcg_op_defs[op->opc];
     TCGTemp *ts;
     TempOptInfo *ti;
+    int rep;
 
     /* Only single-output opcodes are supported here. */
     tcg_debug_assert(def->nb_oargs == 1);
@@ -XXX,XX +XXX,XX @@ static bool fold_masks_zs(OptContext *ctx, TCGOp *op,
      */
     if (ctx->type == TCG_TYPE_I32) {
         z_mask = (int32_t)z_mask;
-        s_mask |= MAKE_64BIT_MASK(32, 32);
+        s_mask |= INT32_MIN;
     }
 
     if (z_mask == 0) {
@@ -XXX,XX +XXX,XX @@ static bool fold_masks_zs(OptContext *ctx, TCGOp *op,
 
     ti = ts_info(ts);
     ti->z_mask = z_mask;
-    ti->s_mask = s_mask | smask_from_zmask(z_mask);
+
+    /* Canonicalize s_mask and incorporate data from z_mask. */
+    rep = clz64(~s_mask);
+    rep = MAX(rep, clz64(z_mask));
+    rep = MAX(rep - 1, 0);
+    ti->s_mask = INT64_MIN >> rep;
+
     return true;
 }
 
@@ -XXX,XX +XXX,XX @@ static bool fold_exts(OptContext *ctx, TCGOp *op)
 
     ctx->z_mask = z_mask;
     ctx->s_mask = s_mask;
-    if (!type_change && fold_affected_mask(ctx, op, s_mask & ~s_mask_old)) {
+    if (0 && !type_change && fold_affected_mask(ctx, op, s_mask & ~s_mask_old)) {
         return true;
     }
 
@@ -XXX,XX +XXX,XX @@ static bool fold_sextract(OptContext *ctx, TCGOp *op)
     s_mask |= MAKE_64BIT_MASK(len, 64 - len);
     ctx->s_mask = s_mask;
 
-    if (pos == 0 && fold_affected_mask(ctx, op, s_mask & ~s_mask_old)) {
+    if (0 && pos == 0 && fold_affected_mask(ctx, op, s_mask & ~s_mask_old)) {
         return true;
     }
 
@@ -XXX,XX +XXX,XX @@ static bool fold_shift(OptContext *ctx, TCGOp *op)
         ctx->z_mask = do_constant_folding(op->opc, ctx->type, z_mask, sh);
 
         s_mask = do_constant_folding(op->opc, ctx->type, s_mask, sh);
-        ctx->s_mask = smask_from_smask(s_mask);
 
         return fold_masks(ctx, op);
     }
-- 
2.43.0

Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/optimize.c | 9 +++++----
 1 file changed, 5 insertions(+), 4 deletions(-)

diff --git a/tcg/optimize.c b/tcg/optimize.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/optimize.c
+++ b/tcg/optimize.c
@@ -XXX,XX +XXX,XX @@ static void finish_ebb(OptContext *ctx)
     remove_mem_copy_all(ctx);
 }
 
-static void finish_folding(OptContext *ctx, TCGOp *op)
+static bool finish_folding(OptContext *ctx, TCGOp *op)
 {
     const TCGOpDef *def = &tcg_op_defs[op->opc];
     int i, nb_oargs;
@@ -XXX,XX +XXX,XX @@ static void finish_folding(OptContext *ctx, TCGOp *op)
             ts_info(ts)->z_mask = ctx->z_mask;
         }
     }
+    return true;
 }
 
 /*
@@ -XXX,XX +XXX,XX @@ static bool fold_add(OptContext *ctx, TCGOp *op)
         fold_xi_to_x(ctx, op, 0)) {
         return true;
     }
-    return false;
+    return finish_folding(ctx, op);
 }
 
 /* We cannot as yet do_constant_folding with vectors. */
@@ -XXX,XX +XXX,XX @@ static bool fold_add_vec(OptContext *ctx, TCGOp *op)
         fold_xi_to_x(ctx, op, 0)) {
         return true;
     }
-    return false;
+    return finish_folding(ctx, op);
 }
 
 static bool fold_addsub2(OptContext *ctx, TCGOp *op, bool add)
@@ -XXX,XX +XXX,XX @@ static bool fold_addsub2(OptContext *ctx, TCGOp *op, bool add)
         op->args[4] = arg_new_constant(ctx, bl);
         op->args[5] = arg_new_constant(ctx, bh);
     }
-    return false;
+    return finish_folding(ctx, op);
 }
 
 static bool fold_add2(OptContext *ctx, TCGOp *op)
-- 
2.43.0

Introduce ti_is_const, ti_const_val, ti_is_const_val.

Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/optimize.c | 20 +++++++++++++++++---
 1 file changed, 17 insertions(+), 3 deletions(-)

diff --git a/tcg/optimize.c b/tcg/optimize.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/optimize.c
+++ b/tcg/optimize.c
@@ -XXX,XX +XXX,XX @@ static inline TempOptInfo *arg_info(TCGArg arg)
     return ts_info(arg_temp(arg));
 }
 
+static inline bool ti_is_const(TempOptInfo *ti)
+{
+    return ti->is_const;
+}
+
+static inline uint64_t ti_const_val(TempOptInfo *ti)
+{
+    return ti->val;
+}
+
+static inline bool ti_is_const_val(TempOptInfo *ti, uint64_t val)
+{
+    return ti_is_const(ti) && ti_const_val(ti) == val;
+}
+
 static inline bool ts_is_const(TCGTemp *ts)
 {
-    return ts_info(ts)->is_const;
+    return ti_is_const(ts_info(ts));
 }
 
 static inline bool ts_is_const_val(TCGTemp *ts, uint64_t val)
 {
-    TempOptInfo *ti = ts_info(ts);
-    return ti->is_const && ti->val == val;
+    return ti_is_const_val(ts_info(ts), val);
 }
 
 static inline bool arg_is_const(TCGArg arg)
-- 
2.43.0

Avoid the use of the OptContext slots.  Find TempOptInfo once.
Sink mask computation below fold_affected_mask early exit.

Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/optimize.c | 30 ++++++++++++++++--------------
 1 file changed, 16 insertions(+), 14 deletions(-)

diff --git a/tcg/optimize.c b/tcg/optimize.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/optimize.c
+++ b/tcg/optimize.c
@@ -XXX,XX +XXX,XX @@ static bool fold_add2(OptContext *ctx, TCGOp *op)
 
 static bool fold_and(OptContext *ctx, TCGOp *op)
 {
-    uint64_t z1, z2;
+    uint64_t z1, z2, z_mask, s_mask;
+    TempOptInfo *t1, *t2;
 
     if (fold_const2_commutative(ctx, op) ||
         fold_xi_to_i(ctx, op, 0) ||
@@ -XXX,XX +XXX,XX @@ static bool fold_and(OptContext *ctx, TCGOp *op)
         return true;
     }
 
-    z1 = arg_info(op->args[1])->z_mask;
-    z2 = arg_info(op->args[2])->z_mask;
-    ctx->z_mask = z1 & z2;
-
-    /*
-     * Sign repetitions are perforce all identical, whether they are 1 or 0.
-     * Bitwise operations preserve the relative quantity of the repetitions.
-     */
-    ctx->s_mask = arg_info(op->args[1])->s_mask
-                & arg_info(op->args[2])->s_mask;
+    t1 = arg_info(op->args[1]);
+    t2 = arg_info(op->args[2]);
+    z1 = t1->z_mask;
+    z2 = t2->z_mask;
 
     /*
      * Known-zeros does not imply known-ones.  Therefore unless
      * arg2 is constant, we can't infer affected bits from it.
      */
-    if (arg_is_const(op->args[2]) &&
-        fold_affected_mask(ctx, op, z1 & ~z2)) {
+    if (ti_is_const(t2) && fold_affected_mask(ctx, op, z1 & ~z2)) {
         return true;
     }
 
-    return fold_masks(ctx, op);
+    z_mask = z1 & z2;
+
+    /*
+     * Sign repetitions are perforce all identical, whether they are 1 or 0.
+     * Bitwise operations preserve the relative quantity of the repetitions.
+     */
+    s_mask = t1->s_mask & t2->s_mask;
+
+    return fold_masks_zs(ctx, op, z_mask, s_mask);
 }
 
 static bool fold_andc(OptContext *ctx, TCGOp *op)
-- 
2.43.0

Avoid the use of the OptContext slots.  Find TempOptInfo once.
Avoid double inversion of the value of second const operand.

Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/optimize.c | 21 +++++++++++----------
 1 file changed, 11 insertions(+), 10 deletions(-)

diff --git a/tcg/optimize.c b/tcg/optimize.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/optimize.c
+++ b/tcg/optimize.c
@@ -XXX,XX +XXX,XX @@ static bool fold_and(OptContext *ctx, TCGOp *op)
 
 static bool fold_andc(OptContext *ctx, TCGOp *op)
 {
-    uint64_t z1;
+    uint64_t z_mask, s_mask;
+    TempOptInfo *t1, *t2;
 
     if (fold_const2(ctx, op) ||
         fold_xx_to_i(ctx, op, 0) ||
@@ -XXX,XX +XXX,XX @@ static bool fold_andc(OptContext *ctx, TCGOp *op)
         return true;
     }
 
-    z1 = arg_info(op->args[1])->z_mask;
+    t1 = arg_info(op->args[1]);
+    t2 = arg_info(op->args[2]);
+    z_mask = t1->z_mask;
 
     /*
      * Known-zeros does not imply known-ones.  Therefore unless
      * arg2 is constant, we can't infer anything from it.
      */
-    if (arg_is_const(op->args[2])) {
-        uint64_t z2 = ~arg_info(op->args[2])->z_mask;
-        if (fold_affected_mask(ctx, op, z1 & ~z2)) {
+    if (ti_is_const(t2)) {
+        uint64_t v2 = ti_const_val(t2);
+        if (fold_affected_mask(ctx, op, z_mask & v2)) {
             return true;
         }
-        z1 &= z2;
+        z_mask &= ~v2;
     }
-    ctx->z_mask = z1;
 
-    ctx->s_mask = arg_info(op->args[1])->s_mask
-                & arg_info(op->args[2])->s_mask;
-    return fold_masks(ctx, op);
+    s_mask = t1->s_mask & t2->s_mask;
+    return fold_masks_zs(ctx, op, z_mask, s_mask);
 }
 
 static bool fold_brcond(OptContext *ctx, TCGOp *op)
-- 
2.43.0

Avoid the use of the OptContext slots.  Find TempOptInfo once.
Always set s_mask along the BSWAP_OS path, since the result is
being explicitly sign-extended.

Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/optimize.c | 21 ++++++++++-----------
 1 file changed, 10 insertions(+), 11 deletions(-)

diff --git a/tcg/optimize.c b/tcg/optimize.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/optimize.c
+++ b/tcg/optimize.c
@@ -XXX,XX +XXX,XX @@ static bool fold_brcond2(OptContext *ctx, TCGOp *op)
 static bool fold_bswap(OptContext *ctx, TCGOp *op)
 {
     uint64_t z_mask, s_mask, sign;
+    TempOptInfo *t1 = arg_info(op->args[1]);
 
-    if (arg_is_const(op->args[1])) {
-        uint64_t t = arg_info(op->args[1])->val;
-
-        t = do_constant_folding(op->opc, ctx->type, t, op->args[2]);
-        return tcg_opt_gen_movi(ctx, op, op->args[0], t);
+    if (ti_is_const(t1)) {
+        return tcg_opt_gen_movi(ctx, op, op->args[0],
+                                do_constant_folding(op->opc, ctx->type,
+                                                    ti_const_val(t1),
+                                                    op->args[2]));
     }
 
-    z_mask = arg_info(op->args[1])->z_mask;
-
+    z_mask = t1->z_mask;
     switch (op->opc) {
     case INDEX_op_bswap16_i32:
     case INDEX_op_bswap16_i64:
@@ -XXX,XX +XXX,XX @@ static bool fold_bswap(OptContext *ctx, TCGOp *op)
         /* If the sign bit may be 1, force all the bits above to 1. */
         if (z_mask & sign) {
             z_mask |= sign;
-            s_mask = sign << 1;
         }
+        /* The value and therefore s_mask is explicitly sign-extended. */
+        s_mask = sign;
         break;
     default:
         /* The high bits are undefined: force all bits above the sign to 1. */
         z_mask |= sign << 1;
         break;
     }
-    ctx->z_mask = z_mask;
-    ctx->s_mask = s_mask;
 
-    return fold_masks(ctx, op);
+    return fold_masks_zs(ctx, op, z_mask, s_mask);
 }
 
 static bool fold_call(OptContext *ctx, TCGOp *op)
-- 
2.43.0

Avoid the use of the OptContext slots. Find TempOptInfo once.
Compute s_mask from the union of the maximum count and the
op2 fallback for op1 being zero.

Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/optimize.c | 15 ++++++++++-----
 1 file changed, 10 insertions(+), 5 deletions(-)

diff --git a/tcg/optimize.c b/tcg/optimize.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/optimize.c
+++ b/tcg/optimize.c
@@ -XXX,XX +XXX,XX @@ static bool fold_call(OptContext *ctx, TCGOp *op)
 
 static bool fold_count_zeros(OptContext *ctx, TCGOp *op)
 {
-    uint64_t z_mask;
+    uint64_t z_mask, s_mask;
+    TempOptInfo *t1 = arg_info(op->args[1]);
+    TempOptInfo *t2 = arg_info(op->args[2]);
 
-    if (arg_is_const(op->args[1])) {
-        uint64_t t = arg_info(op->args[1])->val;
+    if (ti_is_const(t1)) {
+        uint64_t t = ti_const_val(t1);
 
         if (t != 0) {
             t = do_constant_folding(op->opc, ctx->type, t, 0);
@@ -XXX,XX +XXX,XX @@ static bool fold_count_zeros(OptContext *ctx, TCGOp *op)
     default:
         g_assert_not_reached();
     }
-    ctx->z_mask = arg_info(op->args[2])->z_mask | z_mask;
-    return false;
+    s_mask = ~z_mask;
+    z_mask |= t2->z_mask;
+    s_mask &= t2->s_mask;
+
+    return fold_masks_zs(ctx, op, z_mask, s_mask);
 }
 
 static bool fold_ctpop(OptContext *ctx, TCGOp *op)
-- 
2.43.0

Add fold_masks_z as a trivial wrapper around fold_masks_zs.
Avoid the use of the OptContext slots.

Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/optimize.c | 13 ++++++++++---
 1 file changed, 10 insertions(+), 3 deletions(-)

diff --git a/tcg/optimize.c b/tcg/optimize.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/optimize.c
+++ b/tcg/optimize.c
@@ -XXX,XX +XXX,XX @@ static bool fold_masks_zs(OptContext *ctx, TCGOp *op,
     return true;
 }
 
+static bool fold_masks_z(OptContext *ctx, TCGOp *op, uint64_t z_mask)
+{
+    return fold_masks_zs(ctx, op, z_mask, 0);
+}
+
 static bool fold_masks(OptContext *ctx, TCGOp *op)
 {
     return fold_masks_zs(ctx, op, ctx->z_mask, ctx->s_mask);
@@ -XXX,XX +XXX,XX @@ static bool fold_count_zeros(OptContext *ctx, TCGOp *op)
 
 static bool fold_ctpop(OptContext *ctx, TCGOp *op)
 {
+    uint64_t z_mask;
+
     if (fold_const1(ctx, op)) {
         return true;
     }
 
     switch (ctx->type) {
     case TCG_TYPE_I32:
-        ctx->z_mask = 32 | 31;
+        z_mask = 32 | 31;
         break;
     case TCG_TYPE_I64:
-        ctx->z_mask = 64 | 63;
+        z_mask = 64 | 63;
         break;
     default:
         g_assert_not_reached();
     }
-    return false;
+    return fold_masks_z(ctx, op, z_mask);
 }
 
 static bool fold_deposit(OptContext *ctx, TCGOp *op)
-- 
2.43.0

Avoid the use of the OptContext slots.  Find TempOptInfo once.
When we fold to and, use fold_and.

Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/optimize.c | 35 +++++++++++++++++------------------
 1 file changed, 17 insertions(+), 18 deletions(-)

diff --git a/tcg/optimize.c b/tcg/optimize.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/optimize.c
+++ b/tcg/optimize.c
@@ -XXX,XX +XXX,XX @@ static bool fold_ctpop(OptContext *ctx, TCGOp *op)
 
 static bool fold_deposit(OptContext *ctx, TCGOp *op)
 {
+    TempOptInfo *t1 = arg_info(op->args[1]);
+    TempOptInfo *t2 = arg_info(op->args[2]);
+    int ofs = op->args[3];
+    int len = op->args[4];
     TCGOpcode and_opc;
+    uint64_t z_mask;
 
-    if (arg_is_const(op->args[1]) && arg_is_const(op->args[2])) {
-        uint64_t t1 = arg_info(op->args[1])->val;
-        uint64_t t2 = arg_info(op->args[2])->val;
-
-        t1 = deposit64(t1, op->args[3], op->args[4], t2);
-        return tcg_opt_gen_movi(ctx, op, op->args[0], t1);
+    if (ti_is_const(t1) && ti_is_const(t2)) {
+        return tcg_opt_gen_movi(ctx, op, op->args[0],
+                                deposit64(ti_const_val(t1), ofs, len,
+                                          ti_const_val(t2)));
     }
 
     switch (ctx->type) {
@@ -XXX,XX +XXX,XX @@ static bool fold_deposit(OptContext *ctx, TCGOp *op)
     }
 
     /* Inserting a value into zero at offset 0. */
-    if (arg_is_const_val(op->args[1], 0) && op->args[3] == 0) {
-        uint64_t mask = MAKE_64BIT_MASK(0, op->args[4]);
+    if (ti_is_const_val(t1, 0) && ofs == 0) {
+        uint64_t mask = MAKE_64BIT_MASK(0, len);
 
         op->opc = and_opc;
         op->args[1] = op->args[2];
         op->args[2] = arg_new_constant(ctx, mask);
-        ctx->z_mask = mask & arg_info(op->args[1])->z_mask;
-        return false;
+        return fold_and(ctx, op);
     }
 
     /* Inserting zero into a value. */
-    if (arg_is_const_val(op->args[2], 0)) {
-        uint64_t mask = deposit64(-1, op->args[3], op->args[4], 0);
+    if (ti_is_const_val(t2, 0)) {
+        uint64_t mask = deposit64(-1, ofs, len, 0);
 
         op->opc = and_opc;
         op->args[2] = arg_new_constant(ctx, mask);
-        ctx->z_mask = mask & arg_info(op->args[1])->z_mask;
-        return false;
+        return fold_and(ctx, op);
     }
 
-    ctx->z_mask = deposit64(arg_info(op->args[1])->z_mask,
-                            op->args[3], op->args[4],
-                            arg_info(op->args[2])->z_mask);
-    return false;
+    z_mask = deposit64(t1->z_mask, ofs, len, t2->z_mask);
+    return fold_masks_z(ctx, op, z_mask);
 }
 
 static bool fold_divide(OptContext *ctx, TCGOp *op)
-- 
2.43.0

The input which overlaps the sign bit of the output can
have its input s_mask propagated to the output s_mask.

Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/optimize.c | 14 ++++++++++++--
 1 file changed, 12 insertions(+), 2 deletions(-)

diff --git a/tcg/optimize.c b/tcg/optimize.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/optimize.c
+++ b/tcg/optimize.c
@@ -XXX,XX +XXX,XX @@ static bool fold_deposit(OptContext *ctx, TCGOp *op)
     TempOptInfo *t2 = arg_info(op->args[2]);
     int ofs = op->args[3];
     int len = op->args[4];
+    int width;
     TCGOpcode and_opc;
-    uint64_t z_mask;
+    uint64_t z_mask, s_mask;
 
     if (ti_is_const(t1) && ti_is_const(t2)) {
         return tcg_opt_gen_movi(ctx, op, op->args[0],
@@ -XXX,XX +XXX,XX @@ static bool fold_deposit(OptContext *ctx, TCGOp *op)
     switch (ctx->type) {
     case TCG_TYPE_I32:
         and_opc = INDEX_op_and_i32;
+        width = 32;
         break;
     case TCG_TYPE_I64:
         and_opc = INDEX_op_and_i64;
+        width = 64;
         break;
     default:
         g_assert_not_reached();
@@ -XXX,XX +XXX,XX @@ static bool fold_deposit(OptContext *ctx, TCGOp *op)
         return fold_and(ctx, op);
     }
 
+    /* The s_mask from the top portion of the deposit is still valid. */
+    if (ofs + len == width) {
+        s_mask = t2->s_mask << ofs;
+    } else {
+        s_mask = t1->s_mask & ~MAKE_64BIT_MASK(0, ofs + len);
+    }
+
     z_mask = deposit64(t1->z_mask, ofs, len, t2->z_mask);
-    return fold_masks_z(ctx, op, z_mask);
+    return fold_masks_zs(ctx, op, z_mask, s_mask);
 }
 
 static bool fold_divide(OptContext *ctx, TCGOp *op)
-- 
2.43.0

Add fold_masks_s as a trivial wrapper around fold_masks_zs.
Avoid the use of the OptContext slots.

diff --git a/tcg/optimize.c b/tcg/optimize.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/optimize.c
+++ b/tcg/optimize.c
@@ -XXX,XX +XXX,XX @@ static bool fold_masks_z(OptContext *ctx, TCGOp *op, uint64_t z_mask)
     return fold_masks_zs(ctx, op, z_mask, 0);
 }
 
+static bool fold_masks_s(OptContext *ctx, TCGOp *op, uint64_t s_mask)
+{
+    return fold_masks_zs(ctx, op, -1, s_mask);
+}
+
 static bool fold_masks(OptContext *ctx, TCGOp *op)
 {
     return fold_masks_zs(ctx, op, ctx->z_mask, ctx->s_mask);
@@ -XXX,XX +XXX,XX @@ static bool fold_dup2(OptContext *ctx, TCGOp *op)
 
 static bool fold_eqv(OptContext *ctx, TCGOp *op)
 {
+    uint64_t s_mask;
+
     if (fold_const2_commutative(ctx, op) ||
         fold_xi_to_x(ctx, op, -1) ||
         fold_xi_to_not(ctx, op, 0)) {
         return true;
     }
 
-    ctx->s_mask = arg_info(op->args[1])->s_mask
-                & arg_info(op->args[2])->s_mask;
-    return false;
+    s_mask = arg_info(op->args[1])->s_mask
+           & arg_info(op->args[2])->s_mask;
+    return fold_masks_s(ctx, op, s_mask);
 }
 
 static bool fold_extract(OptContext *ctx, TCGOp *op)
-- 
2.43.0

Avoid the use of the OptContext slots.  Find TempOptInfo once.

Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/optimize.c | 15 ++++++---------
 1 file changed, 6 insertions(+), 9 deletions(-)

diff --git a/tcg/optimize.c b/tcg/optimize.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/optimize.c
+++ b/tcg/optimize.c
@@ -XXX,XX +XXX,XX @@ static bool fold_eqv(OptContext *ctx, TCGOp *op)
 static bool fold_extract(OptContext *ctx, TCGOp *op)
 {
     uint64_t z_mask_old, z_mask;
+    TempOptInfo *t1 = arg_info(op->args[1]);
     int pos = op->args[2];
     int len = op->args[3];
 
-    if (arg_is_const(op->args[1])) {
-        uint64_t t;
-
-        t = arg_info(op->args[1])->val;
-        t = extract64(t, pos, len);
-        return tcg_opt_gen_movi(ctx, op, op->args[0], t);
+    if (ti_is_const(t1)) {
+        return tcg_opt_gen_movi(ctx, op, op->args[0],
+                                extract64(ti_const_val(t1), pos, len));
     }
 
-    z_mask_old = arg_info(op->args[1])->z_mask;
+    z_mask_old = t1->z_mask;
     z_mask = extract64(z_mask_old, pos, len);
     if (pos == 0 && fold_affected_mask(ctx, op, z_mask_old ^ z_mask)) {
         return true;
     }
-    ctx->z_mask = z_mask;
 
-    return fold_masks(ctx, op);
+    return fold_masks_z(ctx, op, z_mask);
 }
 
 static bool fold_extract2(OptContext *ctx, TCGOp *op)
-- 
2.43.0

Avoid the use of the OptContext slots.  Find TempOptInfo once.
Explicitly sign-extend z_mask instead of doing that manually.

Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/optimize.c | 29 ++++++++++++-----------------
 1 file changed, 12 insertions(+), 17 deletions(-)

diff --git a/tcg/optimize.c b/tcg/optimize.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/optimize.c
+++ b/tcg/optimize.c
@@ -XXX,XX +XXX,XX @@ static bool fold_extract2(OptContext *ctx, TCGOp *op)
 
 static bool fold_exts(OptContext *ctx, TCGOp *op)
 {
-    uint64_t s_mask_old, s_mask, z_mask, sign;
+    uint64_t s_mask_old, s_mask, z_mask;
     bool type_change = false;
+    TempOptInfo *t1;
 
     if (fold_const1(ctx, op)) {
         return true;
     }
 
-    z_mask = arg_info(op->args[1])->z_mask;
-    s_mask = arg_info(op->args[1])->s_mask;
+    t1 = arg_info(op->args[1]);
+    z_mask = t1->z_mask;
+    s_mask = t1->s_mask;
     s_mask_old = s_mask;
 
     switch (op->opc) {
     CASE_OP_32_64(ext8s):
-        sign = INT8_MIN;
-        z_mask = (uint8_t)z_mask;
+        s_mask |= INT8_MIN;
+        z_mask = (int8_t)z_mask;
         break;
     CASE_OP_32_64(ext16s):
-        sign = INT16_MIN;
-        z_mask = (uint16_t)z_mask;
+        s_mask |= INT16_MIN;
+        z_mask = (int16_t)z_mask;
         break;
     case INDEX_op_ext_i32_i64:
         type_change = true;
         QEMU_FALLTHROUGH;
     case INDEX_op_ext32s_i64:
-        sign = INT32_MIN;
-        z_mask = (uint32_t)z_mask;
+        s_mask |= INT32_MIN;
+        z_mask = (int32_t)z_mask;
         break;
     default:
         g_assert_not_reached();
     }
 
-    if (z_mask & sign) {
-        z_mask |= sign;
-    }
-    s_mask |= sign << 1;
-
-    ctx->z_mask = z_mask;
-    ctx->s_mask = s_mask;
     if (0 && !type_change && fold_affected_mask(ctx, op, s_mask & ~s_mask_old)) {
         return true;
     }
 
-    return fold_masks(ctx, op);
+    return fold_masks_zs(ctx, op, z_mask, s_mask);
 }
 
 static bool fold_extu(OptContext *ctx, TCGOp *op)
-- 
2.43.0

Avoid the use of the OptContext slots.  Find TempOptInfo once.

Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/optimize.c | 19 +++++++++++--------
 1 file changed, 11 insertions(+), 8 deletions(-)

diff --git a/tcg/optimize.c b/tcg/optimize.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/optimize.c
+++ b/tcg/optimize.c
@@ -XXX,XX +XXX,XX @@ static bool fold_mov(OptContext *ctx, TCGOp *op)
 
 static bool fold_movcond(OptContext *ctx, TCGOp *op)
 {
+    uint64_t z_mask, s_mask;
+    TempOptInfo *tt, *ft;
     int i;
 
     /* If true and false values are the same, eliminate the cmp. */
@@ -XXX,XX +XXX,XX @@ static bool fold_movcond(OptContext *ctx, TCGOp *op)
         return tcg_opt_gen_mov(ctx, op, op->args[0], op->args[4 - i]);
     }
 
-    ctx->z_mask = arg_info(op->args[3])->z_mask
-                | arg_info(op->args[4])->z_mask;
-    ctx->s_mask = arg_info(op->args[3])->s_mask
-                & arg_info(op->args[4])->s_mask;
+    tt = arg_info(op->args[3]);
+    ft = arg_info(op->args[4]);
+    z_mask = tt->z_mask | ft->z_mask;
+    s_mask = tt->s_mask & ft->s_mask;
 
-    if (arg_is_const(op->args[3]) && arg_is_const(op->args[4])) {
-        uint64_t tv = arg_info(op->args[3])->val;
-        uint64_t fv = arg_info(op->args[4])->val;
+    if (ti_is_const(tt) && ti_is_const(ft)) {
+        uint64_t tv = ti_const_val(tt);
+        uint64_t fv = ti_const_val(ft);
         TCGOpcode opc, negopc = 0;
         TCGCond cond = op->args[5];
 
@@ -XXX,XX +XXX,XX @@ static bool fold_movcond(OptContext *ctx, TCGOp *op)
             }
         }
     }
-    return false;
+
+    return fold_masks_zs(ctx, op, z_mask, s_mask);
 }
 
 static bool fold_mul(OptContext *ctx, TCGOp *op)
-- 
2.43.0

Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/optimize.c | 6 +++---
 1 file changed, 3 insertions(+), 3 deletions(-)

diff --git a/tcg/optimize.c b/tcg/optimize.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/optimize.c
+++ b/tcg/optimize.c
@@ -XXX,XX +XXX,XX @@ static bool fold_mul(OptContext *ctx, TCGOp *op)
         fold_xi_to_x(ctx, op, 1)) {
         return true;
     }
-    return false;
+    return finish_folding(ctx, op);
 }
 
 static bool fold_mul_highpart(OptContext *ctx, TCGOp *op)
@@ -XXX,XX +XXX,XX @@ static bool fold_mul_highpart(OptContext *ctx, TCGOp *op)
         fold_xi_to_i(ctx, op, 0)) {
         return true;
     }
-    return false;
+    return finish_folding(ctx, op);
 }
 
 static bool fold_multiply2(OptContext *ctx, TCGOp *op)
@@ -XXX,XX +XXX,XX @@ static bool fold_multiply2(OptContext *ctx, TCGOp *op)
         tcg_opt_gen_movi(ctx, op2, rh, h);
         return true;
     }
-    return false;
+    return finish_folding(ctx, op);
 }
 
 static bool fold_nand(OptContext *ctx, TCGOp *op)
-- 
2.43.0

Avoid the use of the OptContext slots.  Find TempOptInfo once.

Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/optimize.c | 13 ++++++++-----
 1 file changed, 8 insertions(+), 5 deletions(-)

diff --git a/tcg/optimize.c b/tcg/optimize.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/optimize.c
+++ b/tcg/optimize.c
@@ -XXX,XX +XXX,XX @@ static bool fold_not(OptContext *ctx, TCGOp *op)
 
 static bool fold_or(OptContext *ctx, TCGOp *op)
 {
+    uint64_t z_mask, s_mask;
+    TempOptInfo *t1, *t2;
+
     if (fold_const2_commutative(ctx, op) ||
         fold_xi_to_x(ctx, op, 0) ||
         fold_xx_to_x(ctx, op)) {
         return true;
     }
 
-    ctx->z_mask = arg_info(op->args[1])->z_mask
-                | arg_info(op->args[2])->z_mask;
-    ctx->s_mask = arg_info(op->args[1])->s_mask
-                & arg_info(op->args[2])->s_mask;
-    return fold_masks(ctx, op);
+    t1 = arg_info(op->args[1]);
+    t2 = arg_info(op->args[2]);
+    z_mask = t1->z_mask | t2->z_mask;
+    s_mask = t1->s_mask & t2->s_mask;
+    return fold_masks_zs(ctx, op, z_mask, s_mask);
 }
 
 static bool fold_orc(OptContext *ctx, TCGOp *op)
-- 
2.43.0

Avoid the use of the OptContext slots.

Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/optimize.c | 8 +++++---
 1 file changed, 5 insertions(+), 3 deletions(-)

diff --git a/tcg/optimize.c b/tcg/optimize.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/optimize.c
+++ b/tcg/optimize.c
@@ -XXX,XX +XXX,XX @@ static bool fold_or(OptContext *ctx, TCGOp *op)
 
 static bool fold_orc(OptContext *ctx, TCGOp *op)
 {
+    uint64_t s_mask;
+
     if (fold_const2(ctx, op) ||
         fold_xx_to_i(ctx, op, -1) ||
         fold_xi_to_x(ctx, op, -1) ||
@@ -XXX,XX +XXX,XX @@ static bool fold_orc(OptContext *ctx, TCGOp *op)
         return true;
     }
 
-    ctx->s_mask = arg_info(op->args[1])->s_mask
-                & arg_info(op->args[2])->s_mask;
-    return false;
+    s_mask = arg_info(op->args[1])->s_mask
+           & arg_info(op->args[2])->s_mask;
+    return fold_masks_s(ctx, op, s_mask);
 }
 
 static bool fold_qemu_ld(OptContext *ctx, TCGOp *op)
-- 
2.43.0

Avoid the use of the OptContext slots.

Be careful not to call fold_masks_zs when the memory operation
is wide enough to require multiple outputs, so split into two
functions: fold_qemu_ld_1reg and fold_qemu_ld_2reg.

Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/optimize.c | 26 +++++++++++++++++++++-----
 1 file changed, 21 insertions(+), 5 deletions(-)

diff --git a/tcg/optimize.c b/tcg/optimize.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/optimize.c
+++ b/tcg/optimize.c
@@ -XXX,XX +XXX,XX @@ static bool fold_orc(OptContext *ctx, TCGOp *op)
     return fold_masks_s(ctx, op, s_mask);
 }
 
-static bool fold_qemu_ld(OptContext *ctx, TCGOp *op)
+static bool fold_qemu_ld_1reg(OptContext *ctx, TCGOp *op)
 {
     const TCGOpDef *def = &tcg_op_defs[op->opc];
     MemOpIdx oi = op->args[def->nb_oargs + def->nb_iargs];
     MemOp mop = get_memop(oi);
     int width = 8 * memop_size(mop);
+    uint64_t z_mask = -1, s_mask = 0;
 
     if (width < 64) {
         if (mop & MO_SIGN) {
-            ctx->s_mask = MAKE_64BIT_MASK(width, 64 - width);
+            s_mask = MAKE_64BIT_MASK(width - 1, 64 - (width - 1));
         } else {
-            ctx->z_mask = MAKE_64BIT_MASK(0, width);
+            z_mask = MAKE_64BIT_MASK(0, width);
         }
     }
 
     /* Opcodes that touch guest memory stop the mb optimization.  */
     ctx->prev_mb = NULL;
-    return false;
+
+    return fold_masks_zs(ctx, op, z_mask, s_mask);
+}
+
+static bool fold_qemu_ld_2reg(OptContext *ctx, TCGOp *op)
+{
+    /* Opcodes that touch guest memory stop the mb optimization.  */
+    ctx->prev_mb = NULL;
+    return finish_folding(ctx, op);
 }
 
 static bool fold_qemu_st(OptContext *ctx, TCGOp *op)
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
             break;
         case INDEX_op_qemu_ld_a32_i32:
         case INDEX_op_qemu_ld_a64_i32:
+            done = fold_qemu_ld_1reg(&ctx, op);
+            break;
         case INDEX_op_qemu_ld_a32_i64:
         case INDEX_op_qemu_ld_a64_i64:
+            if (TCG_TARGET_REG_BITS == 64) {
+                done = fold_qemu_ld_1reg(&ctx, op);
+                break;
+            }
+            QEMU_FALLTHROUGH;
         case INDEX_op_qemu_ld_a32_i128:
         case INDEX_op_qemu_ld_a64_i128:
-            done = fold_qemu_ld(&ctx, op);
+            done = fold_qemu_ld_2reg(&ctx, op);
             break;
         case INDEX_op_qemu_st8_a32_i32:
         case INDEX_op_qemu_st8_a64_i32:
-- 
2.43.0

Stores have no output operands, and so need no further work.

Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/optimize.c | 11 +++++------
 1 file changed, 5 insertions(+), 6 deletions(-)

diff --git a/tcg/optimize.c b/tcg/optimize.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/optimize.c
+++ b/tcg/optimize.c
@@ -XXX,XX +XXX,XX @@ static bool fold_qemu_st(OptContext *ctx, TCGOp *op)
 {
     /* Opcodes that touch guest memory stop the mb optimization.  */
     ctx->prev_mb = NULL;
-    return false;
+    return true;
 }
 
 static bool fold_remainder(OptContext *ctx, TCGOp *op)
@@ -XXX,XX +XXX,XX @@ static bool fold_tcg_st(OptContext *ctx, TCGOp *op)
 
     if (op->args[1] != tcgv_ptr_arg(tcg_env)) {
         remove_mem_copy_all(ctx);
-        return false;
+        return true;
     }
 
     switch (op->opc) {
@@ -XXX,XX +XXX,XX @@ static bool fold_tcg_st(OptContext *ctx, TCGOp *op)
         g_assert_not_reached();
     }
     remove_mem_copy_in(ctx, ofs, ofs + lm1);
-    return false;
+    return true;
 }
 
 static bool fold_tcg_st_memcopy(OptContext *ctx, TCGOp *op)
@@ -XXX,XX +XXX,XX @@ static bool fold_tcg_st_memcopy(OptContext *ctx, TCGOp *op)
     TCGType type;
 
     if (op->args[1] != tcgv_ptr_arg(tcg_env)) {
-        fold_tcg_st(ctx, op);
-        return false;
+        return fold_tcg_st(ctx, op);
     }
 
     src = arg_temp(op->args[0]);
@@ -XXX,XX +XXX,XX @@ static bool fold_tcg_st_memcopy(OptContext *ctx, TCGOp *op)
     last = ofs + tcg_type_size(type) - 1;
     remove_mem_copy_in(ctx, ofs, last);
     record_mem_copy(ctx, type, src, ofs, last);
-    return false;
+    return true;
 }
 
 static bool fold_xor(OptContext *ctx, TCGOp *op)
-- 
2.43.0

Change return from bool to int; distinguish between
complete folding, simplification, and no change.

Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/optimize.c | 22 ++++++++++++++--------
 1 file changed, 14 insertions(+), 8 deletions(-)

diff --git a/tcg/optimize.c b/tcg/optimize.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/optimize.c
+++ b/tcg/optimize.c
@@ -XXX,XX +XXX,XX @@ static bool fold_remainder(OptContext *ctx, TCGOp *op)
     return finish_folding(ctx, op);
 }
 
-static bool fold_setcond_zmask(OptContext *ctx, TCGOp *op, bool neg)
+/* Return 1 if finished, -1 if simplified, 0 if unchanged. */
+static int fold_setcond_zmask(OptContext *ctx, TCGOp *op, bool neg)
 {
     uint64_t a_zmask, b_val;
     TCGCond cond;
@@ -XXX,XX +XXX,XX @@ static bool fold_setcond_zmask(OptContext *ctx, TCGOp *op, bool neg)
                 op->opc = xor_opc;
                 op->args[2] = arg_new_constant(ctx, 1);
             }
-            return false;
+            return -1;
         }
     }
-
-    return false;
+    return 0;
 }
 
 static void fold_setcond_tst_pow2(OptContext *ctx, TCGOp *op, bool neg)
@@ -XXX,XX +XXX,XX @@ static bool fold_setcond(OptContext *ctx, TCGOp *op)
         return tcg_opt_gen_movi(ctx, op, op->args[0], i);
     }
 
-    if (fold_setcond_zmask(ctx, op, false)) {
+    i = fold_setcond_zmask(ctx, op, false);
+    if (i > 0) {
         return true;
     }
-    fold_setcond_tst_pow2(ctx, op, false);
+    if (i == 0) {
+        fold_setcond_tst_pow2(ctx, op, false);
+    }
 
     ctx->z_mask = 1;
     return false;
@@ -XXX,XX +XXX,XX @@ static bool fold_negsetcond(OptContext *ctx, TCGOp *op)
         return tcg_opt_gen_movi(ctx, op, op->args[0], -i);
     }
 
-    if (fold_setcond_zmask(ctx, op, true)) {
+    i = fold_setcond_zmask(ctx, op, true);
+    if (i > 0) {
         return true;
     }
-    fold_setcond_tst_pow2(ctx, op, true);
+    if (i == 0) {
+        fold_setcond_tst_pow2(ctx, op, true);
+    }
 
     /* Value is {0,-1} so all bits are repetitions of the sign. */
     ctx->s_mask = -1;
-- 
2.43.0

Avoid the use of the OptContext slots.  Find TempOptInfo once.

Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/optimize.c | 24 +++++++++---------------
 1 file changed, 9 insertions(+), 15 deletions(-)

diff --git a/tcg/optimize.c b/tcg/optimize.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/optimize.c
+++ b/tcg/optimize.c
@@ -XXX,XX +XXX,XX @@ static bool fold_cmpsel_vec(OptContext *ctx, TCGOp *op)
 static bool fold_sextract(OptContext *ctx, TCGOp *op)
 {
     uint64_t z_mask, s_mask, s_mask_old;
+    TempOptInfo *t1 = arg_info(op->args[1]);
     int pos = op->args[2];
     int len = op->args[3];
 
-    if (arg_is_const(op->args[1])) {
-        uint64_t t;
-
-        t = arg_info(op->args[1])->val;
-        t = sextract64(t, pos, len);
-        return tcg_opt_gen_movi(ctx, op, op->args[0], t);
+    if (ti_is_const(t1)) {
+        return tcg_opt_gen_movi(ctx, op, op->args[0],
+                                sextract64(ti_const_val(t1), pos, len));
     }
 
-    z_mask = arg_info(op->args[1])->z_mask;
-    z_mask = sextract64(z_mask, pos, len);
-    ctx->z_mask = z_mask;
-
-    s_mask_old = arg_info(op->args[1])->s_mask;
-    s_mask = sextract64(s_mask_old, pos, len);
-    s_mask |= MAKE_64BIT_MASK(len, 64 - len);
-    ctx->s_mask = s_mask;
+    s_mask_old = t1->s_mask;
+    s_mask = s_mask_old >> pos;
+    s_mask |= -1ull << (len - 1);
 
     if (0 && pos == 0 && fold_affected_mask(ctx, op, s_mask & ~s_mask_old)) {
         return true;
     }
 
-    return fold_masks(ctx, op);
+    z_mask = sextract64(t1->z_mask, pos, len);
+    return fold_masks_zs(ctx, op, z_mask, s_mask);
 }
 
 static bool fold_shift(OptContext *ctx, TCGOp *op)
-- 
2.43.0

Avoid the use of the OptContext slots.  Find TempOptInfo once.

Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/optimize.c | 27 ++++++++++++++-------------
 1 file changed, 14 insertions(+), 13 deletions(-)

diff --git a/tcg/optimize.c b/tcg/optimize.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/optimize.c
+++ b/tcg/optimize.c
@@ -XXX,XX +XXX,XX @@ static bool fold_sextract(OptContext *ctx, TCGOp *op)
 static bool fold_shift(OptContext *ctx, TCGOp *op)
 {
     uint64_t s_mask, z_mask, sign;
+    TempOptInfo *t1, *t2;
 
     if (fold_const2(ctx, op) ||
         fold_ix_to_i(ctx, op, 0) ||
@@ -XXX,XX +XXX,XX @@ static bool fold_shift(OptContext *ctx, TCGOp *op)
         return true;
     }
 
-    s_mask = arg_info(op->args[1])->s_mask;
-    z_mask = arg_info(op->args[1])->z_mask;
+    t1 = arg_info(op->args[1]);
+    t2 = arg_info(op->args[2]);
+    s_mask = t1->s_mask;
+    z_mask = t1->z_mask;
 
-    if (arg_is_const(op->args[2])) {
-        int sh = arg_info(op->args[2])->val;
-
-        ctx->z_mask = do_constant_folding(op->opc, ctx->type, z_mask, sh);
+    if (ti_is_const(t2)) {
+        int sh = ti_const_val(t2);
 
+        z_mask = do_constant_folding(op->opc, ctx->type, z_mask, sh);
         s_mask = do_constant_folding(op->opc, ctx->type, s_mask, sh);
 
-        return fold_masks(ctx, op);
+        return fold_masks_zs(ctx, op, z_mask, s_mask);
     }
 
     switch (op->opc) {
@@ -XXX,XX +XXX,XX @@ static bool fold_shift(OptContext *ctx, TCGOp *op)
          * Arithmetic right shift will not reduce the number of
          * input sign repetitions.
          */
-        ctx->s_mask = s_mask;
-        break;
+        return fold_masks_s(ctx, op, s_mask);
     CASE_OP_32_64(shr):
         /*
          * If the sign bit is known zero, then logical right shift
-         * will not reduced the number of input sign repetitions.
+         * will not reduce the number of input sign repetitions.
          */
-        sign = (s_mask & -s_mask) >> 1;
+        sign = -s_mask;
         if (sign && !(z_mask & sign)) {
-            ctx->s_mask = s_mask;
+            return fold_masks_s(ctx, op, s_mask);
         }
         break;
     default:
         break;
     }
 
-    return false;
+    return finish_folding(ctx, op);
 }
 
 static bool fold_sub_to_neg(OptContext *ctx, TCGOp *op)
-- 
2.43.0

Merge the two conditions, sign != 0 && !(z_mask & sign),
by testing ~z_mask & sign.   If sign == 0, the logical and
will produce false.

Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/optimize.c | 5 ++---
 1 file changed, 2 insertions(+), 3 deletions(-)

Duplicate fold_sub_vec into fold_sub instead of calling it,
now that fold_sub_vec always returns true.

Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/optimize.c | 9 ++++++---
 1 file changed, 6 insertions(+), 3 deletions(-)

diff --git a/tcg/optimize.c b/tcg/optimize.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/optimize.c
+++ b/tcg/optimize.c
@@ -XXX,XX +XXX,XX @@ static bool fold_sub_vec(OptContext *ctx, TCGOp *op)
         fold_sub_to_neg(ctx, op)) {
         return true;
     }
-    return false;
+    return finish_folding(ctx, op);
 }
 
 static bool fold_sub(OptContext *ctx, TCGOp *op)
 {
-    if (fold_const2(ctx, op) || fold_sub_vec(ctx, op)) {
+    if (fold_const2(ctx, op) ||
+        fold_xx_to_i(ctx, op, 0) ||
+        fold_xi_to_x(ctx, op, 0) ||
+        fold_sub_to_neg(ctx, op)) {
         return true;
     }
 
@@ -XXX,XX +XXX,XX @@ static bool fold_sub(OptContext *ctx, TCGOp *op)
                    ? INDEX_op_add_i32 : INDEX_op_add_i64);
         op->args[2] = arg_new_constant(ctx, -val);
     }
-    return false;
+    return finish_folding(ctx, op);
 }
 
 static bool fold_sub2(OptContext *ctx, TCGOp *op)
-- 
2.43.0

Avoid the use of the OptContext slots.

Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/optimize.c | 16 +++++++++-------
 1 file changed, 9 insertions(+), 7 deletions(-)

diff --git a/tcg/optimize.c b/tcg/optimize.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/optimize.c
+++ b/tcg/optimize.c
@@ -XXX,XX +XXX,XX @@ static bool fold_sub2(OptContext *ctx, TCGOp *op)
 
 static bool fold_tcg_ld(OptContext *ctx, TCGOp *op)
 {
+    uint64_t z_mask = -1, s_mask = 0;
+
     /* We can't do any folding with a load, but we can record bits. */
     switch (op->opc) {
     CASE_OP_32_64(ld8s):
-        ctx->s_mask = MAKE_64BIT_MASK(8, 56);
+        s_mask = INT8_MIN;
         break;
     CASE_OP_32_64(ld8u):
-        ctx->z_mask = MAKE_64BIT_MASK(0, 8);
+        z_mask = MAKE_64BIT_MASK(0, 8);
         break;
     CASE_OP_32_64(ld16s):
-        ctx->s_mask = MAKE_64BIT_MASK(16, 48);
+        s_mask = INT16_MIN;
         break;
     CASE_OP_32_64(ld16u):
-        ctx->z_mask = MAKE_64BIT_MASK(0, 16);
+        z_mask = MAKE_64BIT_MASK(0, 16);
         break;
     case INDEX_op_ld32s_i64:
-        ctx->s_mask = MAKE_64BIT_MASK(32, 32);
+        s_mask = INT32_MIN;
         break;
     case INDEX_op_ld32u_i64:
-        ctx->z_mask = MAKE_64BIT_MASK(0, 32);
+        z_mask = MAKE_64BIT_MASK(0, 32);
         break;
     default:
         g_assert_not_reached();
     }
-    return false;
+    return fold_masks_zs(ctx, op, z_mask, s_mask);
 }
 
 static bool fold_tcg_ld_memcopy(OptContext *ctx, TCGOp *op)
-- 
2.43.0

Avoid the use of the OptContext slots.  Find TempOptInfo once.
Remove fold_masks as the function becomes unused.

Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/optimize.c | 18 ++++++++----------
 1 file changed, 8 insertions(+), 10 deletions(-)

diff --git a/tcg/optimize.c b/tcg/optimize.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/optimize.c
+++ b/tcg/optimize.c
@@ -XXX,XX +XXX,XX @@ static bool fold_masks_s(OptContext *ctx, TCGOp *op, uint64_t s_mask)
     return fold_masks_zs(ctx, op, -1, s_mask);
 }
 
-static bool fold_masks(OptContext *ctx, TCGOp *op)
-{
-    return fold_masks_zs(ctx, op, ctx->z_mask, ctx->s_mask);
-}
-
 /*
  * An "affected" mask bit is 0 if and only if the result is identical
  * to the first input.  Thus if the entire mask is 0, the operation
@@ -XXX,XX +XXX,XX @@ static bool fold_tcg_st_memcopy(OptContext *ctx, TCGOp *op)
 
 static bool fold_xor(OptContext *ctx, TCGOp *op)
 {
+    uint64_t z_mask, s_mask;
+    TempOptInfo *t1, *t2;
+
     if (fold_const2_commutative(ctx, op) ||
         fold_xx_to_i(ctx, op, 0) ||
         fold_xi_to_x(ctx, op, 0) ||
@@ -XXX,XX +XXX,XX @@ static bool fold_xor(OptContext *ctx, TCGOp *op)
         return true;
     }
 
-    ctx->z_mask = arg_info(op->args[1])->z_mask
-                | arg_info(op->args[2])->z_mask;
-    ctx->s_mask = arg_info(op->args[1])->s_mask
-                & arg_info(op->args[2])->s_mask;
-    return fold_masks(ctx, op);
+    t1 = arg_info(op->args[1]);
+    t2 = arg_info(op->args[2]);
+    z_mask = t1->z_mask | t2->z_mask;
+    s_mask = t1->s_mask & t2->s_mask;
+    return fold_masks_zs(ctx, op, z_mask, s_mask);
 }
 
 static bool fold_bitsel_vec(OptContext *ctx, TCGOp *op)
-- 
2.43.0

All mask setting is now done with parameters via fold_masks_*.

Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/optimize.c | 13 -------------
 1 file changed, 13 deletions(-)

All instances of s_mask have been converted to the new
representation.  We can now re-enable usage.

Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/optimize.c | 4 ++--
 1 file changed, 2 insertions(+), 2 deletions(-)

diff --git a/tcg/optimize.c b/tcg/optimize.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/optimize.c
+++ b/tcg/optimize.c
@@ -XXX,XX +XXX,XX @@ static bool fold_exts(OptContext *ctx, TCGOp *op)
         g_assert_not_reached();
     }
 
-    if (0 && !type_change && fold_affected_mask(ctx, op, s_mask & ~s_mask_old)) {
+    if (!type_change && fold_affected_mask(ctx, op, s_mask & ~s_mask_old)) {
         return true;
     }
 
@@ -XXX,XX +XXX,XX @@ static bool fold_sextract(OptContext *ctx, TCGOp *op)
     s_mask = s_mask_old >> pos;
     s_mask |= -1ull << (len - 1);
 
-    if (0 && pos == 0 && fold_affected_mask(ctx, op, s_mask & ~s_mask_old)) {
+    if (pos == 0 && fold_affected_mask(ctx, op, s_mask & ~s_mask_old)) {
         return true;
     }
 
-- 
2.43.0

The big comment just above says functions should be sorted.
Add forward declarations as needed.

Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/optimize.c | 114 +++++++++++++++++++++++++------------------------
 1 file changed, 59 insertions(+), 55 deletions(-)

diff --git a/tcg/optimize.c b/tcg/optimize.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/optimize.c
+++ b/tcg/optimize.c
@@ -XXX,XX +XXX,XX @@ static bool fold_xx_to_x(OptContext *ctx, TCGOp *op)
  *   3) those that produce information about the result value.
  */
 
+static bool fold_or(OptContext *ctx, TCGOp *op);
+static bool fold_orc(OptContext *ctx, TCGOp *op);
+static bool fold_xor(OptContext *ctx, TCGOp *op);
+
 static bool fold_add(OptContext *ctx, TCGOp *op)
 {
     if (fold_const2_commutative(ctx, op) ||
@@ -XXX,XX +XXX,XX @@ static bool fold_andc(OptContext *ctx, TCGOp *op)
     return fold_masks_zs(ctx, op, z_mask, s_mask);
 }
 
+static bool fold_bitsel_vec(OptContext *ctx, TCGOp *op)
+{
+    /* If true and false values are the same, eliminate the cmp. */
+    if (args_are_copies(op->args[2], op->args[3])) {
+        return tcg_opt_gen_mov(ctx, op, op->args[0], op->args[2]);
+    }
+
+    if (arg_is_const(op->args[2]) && arg_is_const(op->args[3])) {
+        uint64_t tv = arg_info(op->args[2])->val;
+        uint64_t fv = arg_info(op->args[3])->val;
+
+        if (tv == -1 && fv == 0) {
+            return tcg_opt_gen_mov(ctx, op, op->args[0], op->args[1]);
+        }
+        if (tv == 0 && fv == -1) {
+            if (TCG_TARGET_HAS_not_vec) {
+                op->opc = INDEX_op_not_vec;
+                return fold_not(ctx, op);
+            } else {
+                op->opc = INDEX_op_xor_vec;
+                op->args[2] = arg_new_constant(ctx, -1);
+                return fold_xor(ctx, op);
+            }
+        }
+    }
+    if (arg_is_const(op->args[2])) {
+        uint64_t tv = arg_info(op->args[2])->val;
+        if (tv == -1) {
+            op->opc = INDEX_op_or_vec;
+            op->args[2] = op->args[3];
+            return fold_or(ctx, op);
+        }
+        if (tv == 0 && TCG_TARGET_HAS_andc_vec) {
+            op->opc = INDEX_op_andc_vec;
+            op->args[2] = op->args[1];
+            op->args[1] = op->args[3];
+            return fold_andc(ctx, op);
+        }
+    }
+    if (arg_is_const(op->args[3])) {
+        uint64_t fv = arg_info(op->args[3])->val;
+        if (fv == 0) {
+            op->opc = INDEX_op_and_vec;
+            return fold_and(ctx, op);
+        }
+        if (fv == -1 && TCG_TARGET_HAS_orc_vec) {
+            op->opc = INDEX_op_orc_vec;
+            op->args[2] = op->args[1];
+            op->args[1] = op->args[3];
+            return fold_orc(ctx, op);
+        }
+    }
+    return finish_folding(ctx, op);
+}
+
 static bool fold_brcond(OptContext *ctx, TCGOp *op)
 {
     int i = do_constant_folding_cond1(ctx, op, NO_DEST, &op->args[0],
@@ -XXX,XX +XXX,XX @@ static bool fold_xor(OptContext *ctx, TCGOp *op)
     return fold_masks_zs(ctx, op, z_mask, s_mask);
 }
 
-static bool fold_bitsel_vec(OptContext *ctx, TCGOp *op)
-{
-    /* If true and false values are the same, eliminate the cmp. */
-    if (args_are_copies(op->args[2], op->args[3])) {
-        return tcg_opt_gen_mov(ctx, op, op->args[0], op->args[2]);
-    }
-
-    if (arg_is_const(op->args[2]) && arg_is_const(op->args[3])) {
-        uint64_t tv = arg_info(op->args[2])->val;
-        uint64_t fv = arg_info(op->args[3])->val;
-
-        if (tv == -1 && fv == 0) {
-            return tcg_opt_gen_mov(ctx, op, op->args[0], op->args[1]);
-        }
-        if (tv == 0 && fv == -1) {
-            if (TCG_TARGET_HAS_not_vec) {
-                op->opc = INDEX_op_not_vec;
-                return fold_not(ctx, op);
-            } else {
-                op->opc = INDEX_op_xor_vec;
-                op->args[2] = arg_new_constant(ctx, -1);
-                return fold_xor(ctx, op);
-            }
-        }
-    }
-    if (arg_is_const(op->args[2])) {
-        uint64_t tv = arg_info(op->args[2])->val;
-        if (tv == -1) {
-            op->opc = INDEX_op_or_vec;
-            op->args[2] = op->args[3];
-            return fold_or(ctx, op);
-        }
-        if (tv == 0 && TCG_TARGET_HAS_andc_vec) {
-            op->opc = INDEX_op_andc_vec;
-            op->args[2] = op->args[1];
-            op->args[1] = op->args[3];
-            return fold_andc(ctx, op);
-        }
-    }
-    if (arg_is_const(op->args[3])) {
-        uint64_t fv = arg_info(op->args[3])->val;
-        if (fv == 0) {
-            op->opc = INDEX_op_and_vec;
-            return fold_and(ctx, op);
-        }
-        if (fv == -1 && TCG_TARGET_HAS_orc_vec) {
-            op->opc = INDEX_op_orc_vec;
-            op->args[2] = op->args[1];
-            op->args[1] = op->args[3];
-            return fold_orc(ctx, op);
-        }
-    }
-    return finish_folding(ctx, op);
-}
-
 /* Propagate constants and copies, fold constant expressions. */
 void tcg_optimize(TCGContext *s)
 {
-- 
2.43.0

The big comment just above says functions should be sorted.

Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/optimize.c | 60 +++++++++++++++++++++++++-------------------------
 1 file changed, 30 insertions(+), 30 deletions(-)

diff --git a/tcg/optimize.c b/tcg/optimize.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/optimize.c
+++ b/tcg/optimize.c
@@ -XXX,XX +XXX,XX @@ static bool fold_call(OptContext *ctx, TCGOp *op)
     return true;
 }
 
+static bool fold_cmp_vec(OptContext *ctx, TCGOp *op)
+{
+    /* Canonicalize the comparison to put immediate second. */
+    if (swap_commutative(NO_DEST, &op->args[1], &op->args[2])) {
+        op->args[3] = tcg_swap_cond(op->args[3]);
+    }
+    return finish_folding(ctx, op);
+}
+
+static bool fold_cmpsel_vec(OptContext *ctx, TCGOp *op)
+{
+    /* If true and false values are the same, eliminate the cmp. */
+    if (args_are_copies(op->args[3], op->args[4])) {
+        return tcg_opt_gen_mov(ctx, op, op->args[0], op->args[3]);
+    }
+
+    /* Canonicalize the comparison to put immediate second. */
+    if (swap_commutative(NO_DEST, &op->args[1], &op->args[2])) {
+        op->args[5] = tcg_swap_cond(op->args[5]);
+    }
+    /*
+     * Canonicalize the "false" input reg to match the destination,
+     * so that the tcg backend can implement "move if true".
+     */
+    if (swap_commutative(op->args[0], &op->args[4], &op->args[3])) {
+        op->args[5] = tcg_invert_cond(op->args[5]);
+    }
+    return finish_folding(ctx, op);
+}
+
 static bool fold_count_zeros(OptContext *ctx, TCGOp *op)
 {
     uint64_t z_mask, s_mask;
@@ -XXX,XX +XXX,XX @@ static bool fold_setcond2(OptContext *ctx, TCGOp *op)
     return tcg_opt_gen_movi(ctx, op, op->args[0], i);
 }
 
-static bool fold_cmp_vec(OptContext *ctx, TCGOp *op)
-{
-    /* Canonicalize the comparison to put immediate second. */
-    if (swap_commutative(NO_DEST, &op->args[1], &op->args[2])) {
-        op->args[3] = tcg_swap_cond(op->args[3]);
-    }
-    return finish_folding(ctx, op);
-}
-
-static bool fold_cmpsel_vec(OptContext *ctx, TCGOp *op)
-{
-    /* If true and false values are the same, eliminate the cmp. */
-    if (args_are_copies(op->args[3], op->args[4])) {
-        return tcg_opt_gen_mov(ctx, op, op->args[0], op->args[3]);
-    }
-
-    /* Canonicalize the comparison to put immediate second. */
-    if (swap_commutative(NO_DEST, &op->args[1], &op->args[2])) {
-        op->args[5] = tcg_swap_cond(op->args[5]);
-    }
-    /*
-     * Canonicalize the "false" input reg to match the destination,
-     * so that the tcg backend can implement "move if true".
-     */
-    if (swap_commutative(op->args[0], &op->args[4], &op->args[3])) {
-        op->args[5] = tcg_invert_cond(op->args[5]);
-    }
-    return finish_folding(ctx, op);
-}
-
 static bool fold_sextract(OptContext *ctx, TCGOp *op)
 {
     uint64_t z_mask, s_mask, s_mask_old;
-- 
2.43.0

We currently have a flag, float_muladd_halve_result, to scale
the result by 2**-1.  Extend this to handle arbitrary scaling.

Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 include/fpu/softfloat.h   |  6 ++++
 fpu/softfloat.c           | 58 ++++++++++++++++++++++-----------------
 fpu/softfloat-parts.c.inc |  7 +++--
 3 files changed, 44 insertions(+), 27 deletions(-)

diff --git a/include/fpu/softfloat.h b/include/fpu/softfloat.h
index XXXXXXX..XXXXXXX 100644
--- a/include/fpu/softfloat.h
+++ b/include/fpu/softfloat.h
@@ -XXX,XX +XXX,XX @@ float16 float16_add(float16, float16, float_status *status);
 float16 float16_sub(float16, float16, float_status *status);
 float16 float16_mul(float16, float16, float_status *status);
 float16 float16_muladd(float16, float16, float16, int, float_status *status);
+float16 float16_muladd_scalbn(float16, float16, float16,
+                              int, int, float_status *status);
 float16 float16_div(float16, float16, float_status *status);
 float16 float16_scalbn(float16, int, float_status *status);
 float16 float16_min(float16, float16, float_status *status);
@@ -XXX,XX +XXX,XX @@ float32 float32_mul(float32, float32, float_status *status);
 float32 float32_div(float32, float32, float_status *status);
 float32 float32_rem(float32, float32, float_status *status);
 float32 float32_muladd(float32, float32, float32, int, float_status *status);
+float32 float32_muladd_scalbn(float32, float32, float32,
+                              int, int, float_status *status);
 float32 float32_sqrt(float32, float_status *status);
 float32 float32_exp2(float32, float_status *status);
 float32 float32_log2(float32, float_status *status);
@@ -XXX,XX +XXX,XX @@ float64 float64_mul(float64, float64, float_status *status);
 float64 float64_div(float64, float64, float_status *status);
 float64 float64_rem(float64, float64, float_status *status);
 float64 float64_muladd(float64, float64, float64, int, float_status *status);
+float64 float64_muladd_scalbn(float64, float64, float64,
+                              int, int, float_status *status);
 float64 float64_sqrt(float64, float_status *status);
 float64 float64_log2(float64, float_status *status);
 FloatRelation float64_compare(float64, float64, float_status *status);
diff --git a/fpu/softfloat.c b/fpu/softfloat.c
index XXXXXXX..XXXXXXX 100644
--- a/fpu/softfloat.c
+++ b/fpu/softfloat.c
@@ -XXX,XX +XXX,XX @@ static FloatParts128 *parts128_mul(FloatParts128 *a, FloatParts128 *b,
 #define parts_mul(A, B, S) \
     PARTS_GENERIC_64_128(mul, A)(A, B, S)
 
-static FloatParts64 *parts64_muladd(FloatParts64 *a, FloatParts64 *b,
-                                    FloatParts64 *c, int flags,
-                                    float_status *s);
-static FloatParts128 *parts128_muladd(FloatParts128 *a, FloatParts128 *b,
-                                      FloatParts128 *c, int flags,
-                                      float_status *s);
+static FloatParts64 *parts64_muladd_scalbn(FloatParts64 *a, FloatParts64 *b,
+                                           FloatParts64 *c, int scale,
+                                           int flags, float_status *s);
+static FloatParts128 *parts128_muladd_scalbn(FloatParts128 *a, FloatParts128 *b,
+                                             FloatParts128 *c, int scale,
+                                             int flags, float_status *s);
 
-#define parts_muladd(A, B, C, Z, S) \
-    PARTS_GENERIC_64_128(muladd, A)(A, B, C, Z, S)
+#define parts_muladd_scalbn(A, B, C, Z, Y, S) \
+    PARTS_GENERIC_64_128(muladd_scalbn, A)(A, B, C, Z, Y, S)
 
 static FloatParts64 *parts64_div(FloatParts64 *a, FloatParts64 *b,
                                  float_status *s);
@@ -XXX,XX +XXX,XX @@ floatx80_mul(floatx80 a, floatx80 b, float_status *status)
  * Fused multiply-add
  */
 
-float16 QEMU_FLATTEN float16_muladd(float16 a, float16 b, float16 c,
-                                    int flags, float_status *status)
+float16 QEMU_FLATTEN
+float16_muladd_scalbn(float16 a, float16 b, float16 c,
+                      int scale, int flags, float_status *status)
 {
     FloatParts64 pa, pb, pc, *pr;
 
     float16_unpack_canonical(&pa, a, status);
     float16_unpack_canonical(&pb, b, status);
     float16_unpack_canonical(&pc, c, status);
-    pr = parts_muladd(&pa, &pb, &pc, flags, status);
+    pr = parts_muladd_scalbn(&pa, &pb, &pc, scale, flags, status);
 
     return float16_round_pack_canonical(pr, status);
 }
 
-static float32 QEMU_SOFTFLOAT_ATTR
-soft_f32_muladd(float32 a, float32 b, float32 c, int flags,
-                float_status *status)
+float16 float16_muladd(float16 a, float16 b, float16 c,
+                       int flags, float_status *status)
+{
+    return float16_muladd_scalbn(a, b, c, 0, flags, status);
+}
+
+float32 QEMU_SOFTFLOAT_ATTR
+float32_muladd_scalbn(float32 a, float32 b, float32 c,
+                      int scale, int flags, float_status *status)
 {
     FloatParts64 pa, pb, pc, *pr;
 
     float32_unpack_canonical(&pa, a, status);
     float32_unpack_canonical(&pb, b, status);
     float32_unpack_canonical(&pc, c, status);
-    pr = parts_muladd(&pa, &pb, &pc, flags, status);
+    pr = parts_muladd_scalbn(&pa, &pb, &pc, scale, flags, status);
 
     return float32_round_pack_canonical(pr, status);
 }
 
-static float64 QEMU_SOFTFLOAT_ATTR
-soft_f64_muladd(float64 a, float64 b, float64 c, int flags,
-                float_status *status)
+float64 QEMU_SOFTFLOAT_ATTR
+float64_muladd_scalbn(float64 a, float64 b, float64 c,
+                      int scale, int flags, float_status *status)
 {
     FloatParts64 pa, pb, pc, *pr;
 
     float64_unpack_canonical(&pa, a, status);
     float64_unpack_canonical(&pb, b, status);
     float64_unpack_canonical(&pc, c, status);
-    pr = parts_muladd(&pa, &pb, &pc, flags, status);
+    pr = parts_muladd_scalbn(&pa, &pb, &pc, scale, flags, status);
 
     return float64_round_pack_canonical(pr, status);
 }
@@ -XXX,XX +XXX,XX @@ float32_muladd(float32 xa, float32 xb, float32 xc, int flags, float_status *s)
     return ur.s;
 
  soft:
-    return soft_f32_muladd(ua.s, ub.s, uc.s, flags, s);
+    return float32_muladd_scalbn(ua.s, ub.s, uc.s, 0, flags, s);
 }
 
 float64 QEMU_FLATTEN
@@ -XXX,XX +XXX,XX @@ float64_muladd(float64 xa, float64 xb, float64 xc, int flags, float_status *s)
     return ur.s;
 
  soft:
-    return soft_f64_muladd(ua.s, ub.s, uc.s, flags, s);
+    return float64_muladd_scalbn(ua.s, ub.s, uc.s, 0, flags, s);
 }
 
 float64 float64r32_muladd(float64 a, float64 b, float64 c,
@@ -XXX,XX +XXX,XX @@ float64 float64r32_muladd(float64 a, float64 b, float64 c,
     float64_unpack_canonical(&pa, a, status);
     float64_unpack_canonical(&pb, b, status);
     float64_unpack_canonical(&pc, c, status);
-    pr = parts_muladd(&pa, &pb, &pc, flags, status);
+    pr = parts_muladd_scalbn(&pa, &pb, &pc, 0, flags, status);
 
     return float64r32_round_pack_canonical(pr, status);
 }
@@ -XXX,XX +XXX,XX @@ bfloat16 QEMU_FLATTEN bfloat16_muladd(bfloat16 a, bfloat16 b, bfloat16 c,
     bfloat16_unpack_canonical(&pa, a, status);
     bfloat16_unpack_canonical(&pb, b, status);
     bfloat16_unpack_canonical(&pc, c, status);
-    pr = parts_muladd(&pa, &pb, &pc, flags, status);
+    pr = parts_muladd_scalbn(&pa, &pb, &pc, 0, flags, status);
 
     return bfloat16_round_pack_canonical(pr, status);
 }
@@ -XXX,XX +XXX,XX @@ float128 QEMU_FLATTEN float128_muladd(float128 a, float128 b, float128 c,
     float128_unpack_canonical(&pa, a, status);
     float128_unpack_canonical(&pb, b, status);
     float128_unpack_canonical(&pc, c, status);
-    pr = parts_muladd(&pa, &pb, &pc, flags, status);
+    pr = parts_muladd_scalbn(&pa, &pb, &pc, 0, flags, status);
 
     return float128_round_pack_canonical(pr, status);
 }
@@ -XXX,XX +XXX,XX @@ float32 float32_exp2(float32 a, float_status *status)
 
     float64_unpack_canonical(&rp, float64_one, status);
     for (i = 0 ; i < 15 ; i++) {
+
         float64_unpack_canonical(&tp, float32_exp2_coefficients[i], status);
-        rp = *parts_muladd(&tp, &xnp, &rp, 0, status);
+        rp = *parts_muladd_scalbn(&tp, &xnp, &rp, 0, 0, status);
         xnp = *parts_mul(&xnp, &xp, status);
     }
 
diff --git a/fpu/softfloat-parts.c.inc b/fpu/softfloat-parts.c.inc
index XXXXXXX..XXXXXXX 100644
--- a/fpu/softfloat-parts.c.inc
+++ b/fpu/softfloat-parts.c.inc
@@ -XXX,XX +XXX,XX @@ static FloatPartsN *partsN(mul)(FloatPartsN *a, FloatPartsN *b,
  * Requires A and C extracted into a double-sized structure to provide the
  * extra space for the widening multiply.
  */
-static FloatPartsN *partsN(muladd)(FloatPartsN *a, FloatPartsN *b,
-                                   FloatPartsN *c, int flags, float_status *s)
+static FloatPartsN *partsN(muladd_scalbn)(FloatPartsN *a, FloatPartsN *b,
+                                          FloatPartsN *c, int scale,
+                                          int flags, float_status *s)
 {
     int ab_mask, abc_mask;
     FloatPartsW p_widen, c_widen;
@@ -XXX,XX +XXX,XX @@ static FloatPartsN *partsN(muladd)(FloatPartsN *a, FloatPartsN *b,
     a->exp = p_widen.exp;
 
  return_normal:
+    /* TODO: Replace all use of float_muladd_halve_result with scale. */
     if (flags & float_muladd_halve_result) {
         a->exp -= 1;
     }
+    a->exp += scale;
  finish_sign:
     if (flags & float_muladd_negate_result) {
         a->sign ^= 1;
-- 
2.43.0

Use the scalbn interface instead of float_muladd_halve_result.

Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 target/arm/tcg/helper-a64.c | 6 +++---
 1 file changed, 3 insertions(+), 3 deletions(-)

diff --git a/target/arm/tcg/helper-a64.c b/target/arm/tcg/helper-a64.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/helper-a64.c
+++ b/target/arm/tcg/helper-a64.c
@@ -XXX,XX +XXX,XX @@ uint32_t HELPER(rsqrtsf_f16)(uint32_t a, uint32_t b, float_status *fpst)
         (float16_is_infinity(b) && float16_is_zero(a))) {
         return float16_one_point_five;
     }
-    return float16_muladd(a, b, float16_three, float_muladd_halve_result, fpst);
+    return float16_muladd_scalbn(a, b, float16_three, -1, 0, fpst);
 }
 
 float32 HELPER(rsqrtsf_f32)(float32 a, float32 b, float_status *fpst)
@@ -XXX,XX +XXX,XX @@ float32 HELPER(rsqrtsf_f32)(float32 a, float32 b, float_status *fpst)
         (float32_is_infinity(b) && float32_is_zero(a))) {
         return float32_one_point_five;
     }
-    return float32_muladd(a, b, float32_three, float_muladd_halve_result, fpst);
+    return float32_muladd_scalbn(a, b, float32_three, -1, 0, fpst);
 }
 
 float64 HELPER(rsqrtsf_f64)(float64 a, float64 b, float_status *fpst)
@@ -XXX,XX +XXX,XX @@ float64 HELPER(rsqrtsf_f64)(float64 a, float64 b, float_status *fpst)
         (float64_is_infinity(b) && float64_is_zero(a))) {
         return float64_one_point_five;
     }
-    return float64_muladd(a, b, float64_three, float_muladd_halve_result, fpst);
+    return float64_muladd_scalbn(a, b, float64_three, -1, 0, fpst);
 }
 
 /* Floating-point reciprocal exponent - see FPRecpX in ARM ARM */
-- 
2.43.0

Use the scalbn interface instead of float_muladd_halve_result.

Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 target/sparc/helper.h     |  4 +-
 target/sparc/fop_helper.c |  8 ++--
 target/sparc/translate.c  | 80 +++++++++++++++++++++++----------------
 3 files changed, 54 insertions(+), 38 deletions(-)

diff --git a/target/sparc/helper.h b/target/sparc/helper.h
index XXXXXXX..XXXXXXX 100644
--- a/target/sparc/helper.h
+++ b/target/sparc/helper.h
@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_3(faddd, TCG_CALL_NO_WG, f64, env, f64, f64)
 DEF_HELPER_FLAGS_3(fsubd, TCG_CALL_NO_WG, f64, env, f64, f64)
 DEF_HELPER_FLAGS_3(fmuld, TCG_CALL_NO_WG, f64, env, f64, f64)
 DEF_HELPER_FLAGS_3(fdivd, TCG_CALL_NO_WG, f64, env, f64, f64)
-DEF_HELPER_FLAGS_5(fmaddd, TCG_CALL_NO_WG, f64, env, f64, f64, f64, i32)
+DEF_HELPER_FLAGS_6(fmaddd, TCG_CALL_NO_WG, f64, env, f64, f64, f64, s32, i32)
 DEF_HELPER_FLAGS_3(fnaddd, TCG_CALL_NO_WG, f64, env, f64, f64)
 DEF_HELPER_FLAGS_3(fnmuld, TCG_CALL_NO_WG, f64, env, f64, f64)
 
@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_3(fadds, TCG_CALL_NO_WG, f32, env, f32, f32)
 DEF_HELPER_FLAGS_3(fsubs, TCG_CALL_NO_WG, f32, env, f32, f32)
 DEF_HELPER_FLAGS_3(fmuls, TCG_CALL_NO_WG, f32, env, f32, f32)
 DEF_HELPER_FLAGS_3(fdivs, TCG_CALL_NO_WG, f32, env, f32, f32)
-DEF_HELPER_FLAGS_5(fmadds, TCG_CALL_NO_WG, f32, env, f32, f32, f32, i32)
+DEF_HELPER_FLAGS_6(fmadds, TCG_CALL_NO_WG, f32, env, f32, f32, f32, s32, i32)
 DEF_HELPER_FLAGS_3(fnadds, TCG_CALL_NO_WG, f32, env, f32, f32)
 DEF_HELPER_FLAGS_3(fnmuls, TCG_CALL_NO_WG, f32, env, f32, f32)
 
diff --git a/target/sparc/fop_helper.c b/target/sparc/fop_helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/sparc/fop_helper.c
+++ b/target/sparc/fop_helper.c
@@ -XXX,XX +XXX,XX @@ Int128 helper_fsqrtq(CPUSPARCState *env, Int128 src)
 }
 
 float32 helper_fmadds(CPUSPARCState *env, float32 s1,
-                      float32 s2, float32 s3, uint32_t op)
+                      float32 s2, float32 s3, int32_t sc, uint32_t op)
 {
-    float32 ret = float32_muladd(s1, s2, s3, op, &env->fp_status);
+    float32 ret = float32_muladd_scalbn(s1, s2, s3, sc, op, &env->fp_status);
     check_ieee_exceptions(env, GETPC());
     return ret;
 }
 
 float64 helper_fmaddd(CPUSPARCState *env, float64 s1,
-                      float64 s2, float64 s3, uint32_t op)
+                      float64 s2, float64 s3, int32_t sc, uint32_t op)
 {
-    float64 ret = float64_muladd(s1, s2, s3, op, &env->fp_status);
+    float64 ret = float64_muladd_scalbn(s1, s2, s3, sc, op, &env->fp_status);
     check_ieee_exceptions(env, GETPC());
     return ret;
 }
diff --git a/target/sparc/translate.c b/target/sparc/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/sparc/translate.c
+++ b/target/sparc/translate.c
@@ -XXX,XX +XXX,XX @@ static void gen_op_fabsq(TCGv_i128 dst, TCGv_i128 src)
 
 static void gen_op_fmadds(TCGv_i32 d, TCGv_i32 s1, TCGv_i32 s2, TCGv_i32 s3)
 {
-    gen_helper_fmadds(d, tcg_env, s1, s2, s3, tcg_constant_i32(0));
+    TCGv_i32 z = tcg_constant_i32(0);
+    gen_helper_fmadds(d, tcg_env, s1, s2, s3, z, z);
 }
 
 static void gen_op_fmaddd(TCGv_i64 d, TCGv_i64 s1, TCGv_i64 s2, TCGv_i64 s3)
 {
-    gen_helper_fmaddd(d, tcg_env, s1, s2, s3, tcg_constant_i32(0));
+    TCGv_i32 z = tcg_constant_i32(0);
+    gen_helper_fmaddd(d, tcg_env, s1, s2, s3, z, z);
 }
 
 static void gen_op_fmsubs(TCGv_i32 d, TCGv_i32 s1, TCGv_i32 s2, TCGv_i32 s3)
 {
-    int op = float_muladd_negate_c;
-    gen_helper_fmadds(d, tcg_env, s1, s2, s3, tcg_constant_i32(op));
+    TCGv_i32 z = tcg_constant_i32(0);
+    TCGv_i32 op = tcg_constant_i32(float_muladd_negate_c);
+    gen_helper_fmadds(d, tcg_env, s1, s2, s3, z, op);
 }
 
 static void gen_op_fmsubd(TCGv_i64 d, TCGv_i64 s1, TCGv_i64 s2, TCGv_i64 s3)
 {
-    int op = float_muladd_negate_c;
-    gen_helper_fmaddd(d, tcg_env, s1, s2, s3, tcg_constant_i32(op));
+    TCGv_i32 z = tcg_constant_i32(0);
+    TCGv_i32 op = tcg_constant_i32(float_muladd_negate_c);
+    gen_helper_fmaddd(d, tcg_env, s1, s2, s3, z, op);
 }
 
 static void gen_op_fnmsubs(TCGv_i32 d, TCGv_i32 s1, TCGv_i32 s2, TCGv_i32 s3)
 {
-    int op = float_muladd_negate_c | float_muladd_negate_result;
-    gen_helper_fmadds(d, tcg_env, s1, s2, s3, tcg_constant_i32(op));
+    TCGv_i32 z = tcg_constant_i32(0);
+    TCGv_i32 op = tcg_constant_i32(float_muladd_negate_c |
+                                   float_muladd_negate_result);
+    gen_helper_fmadds(d, tcg_env, s1, s2, s3, z, op);
 }
 
 static void gen_op_fnmsubd(TCGv_i64 d, TCGv_i64 s1, TCGv_i64 s2, TCGv_i64 s3)
 {
-    int op = float_muladd_negate_c | float_muladd_negate_result;
-    gen_helper_fmaddd(d, tcg_env, s1, s2, s3, tcg_constant_i32(op));
+    TCGv_i32 z = tcg_constant_i32(0);
+    TCGv_i32 op = tcg_constant_i32(float_muladd_negate_c |
+                                   float_muladd_negate_result);
+    gen_helper_fmaddd(d, tcg_env, s1, s2, s3, z, op);
 }
 
 static void gen_op_fnmadds(TCGv_i32 d, TCGv_i32 s1, TCGv_i32 s2, TCGv_i32 s3)
 {
-    int op = float_muladd_negate_result;
-    gen_helper_fmadds(d, tcg_env, s1, s2, s3, tcg_constant_i32(op));
+    TCGv_i32 z = tcg_constant_i32(0);
+    TCGv_i32 op = tcg_constant_i32(float_muladd_negate_result);
+    gen_helper_fmadds(d, tcg_env, s1, s2, s3, z, op);
 }
 
 static void gen_op_fnmaddd(TCGv_i64 d, TCGv_i64 s1, TCGv_i64 s2, TCGv_i64 s3)
 {
-    int op = float_muladd_negate_result;
-    gen_helper_fmaddd(d, tcg_env, s1, s2, s3, tcg_constant_i32(op));
+    TCGv_i32 z = tcg_constant_i32(0);
+    TCGv_i32 op = tcg_constant_i32(float_muladd_negate_result);
+    gen_helper_fmaddd(d, tcg_env, s1, s2, s3, z, op);
 }
 
 /* Use muladd to compute (1 * src1) + src2 / 2 with one rounding. */
 static void gen_op_fhadds(TCGv_i32 d, TCGv_i32 s1, TCGv_i32 s2)
 {
-    TCGv_i32 one = tcg_constant_i32(float32_one);
-    int op = float_muladd_halve_result;
-    gen_helper_fmadds(d, tcg_env, one, s1, s2, tcg_constant_i32(op));
+    TCGv_i32 fone = tcg_constant_i32(float32_one);
+    TCGv_i32 mone = tcg_constant_i32(-1);
+    TCGv_i32 op = tcg_constant_i32(0);
+    gen_helper_fmadds(d, tcg_env, fone, s1, s2, mone, op);
 }
 
 static void gen_op_fhaddd(TCGv_i64 d, TCGv_i64 s1, TCGv_i64 s2)
 {
-    TCGv_i64 one = tcg_constant_i64(float64_one);
-    int op = float_muladd_halve_result;
-    gen_helper_fmaddd(d, tcg_env, one, s1, s2, tcg_constant_i32(op));
+    TCGv_i64 fone = tcg_constant_i64(float64_one);
+    TCGv_i32 mone = tcg_constant_i32(-1);
+    TCGv_i32 op = tcg_constant_i32(0);
+    gen_helper_fmaddd(d, tcg_env, fone, s1, s2, mone, op);
 }
 
 /* Use muladd to compute (1 * src1) - src2 / 2 with one rounding. */
 static void gen_op_fhsubs(TCGv_i32 d, TCGv_i32 s1, TCGv_i32 s2)
 {
-    TCGv_i32 one = tcg_constant_i32(float32_one);
-    int op = float_muladd_negate_c | float_muladd_halve_result;
-    gen_helper_fmadds(d, tcg_env, one, s1, s2, tcg_constant_i32(op));
+    TCGv_i32 fone = tcg_constant_i32(float32_one);
+    TCGv_i32 mone = tcg_constant_i32(-1);
+    TCGv_i32 op = tcg_constant_i32(float_muladd_negate_c);
+    gen_helper_fmadds(d, tcg_env, fone, s1, s2, mone, op);
 }
 
 static void gen_op_fhsubd(TCGv_i64 d, TCGv_i64 s1, TCGv_i64 s2)
 {
-    TCGv_i64 one = tcg_constant_i64(float64_one);
-    int op = float_muladd_negate_c | float_muladd_halve_result;
-    gen_helper_fmaddd(d, tcg_env, one, s1, s2, tcg_constant_i32(op));
+    TCGv_i64 fone = tcg_constant_i64(float64_one);
+    TCGv_i32 mone = tcg_constant_i32(-1);
+    TCGv_i32 op = tcg_constant_i32(float_muladd_negate_c);
+    gen_helper_fmaddd(d, tcg_env, fone, s1, s2, mone, op);
 }
 
 /* Use muladd to compute -((1 * src1) + src2 / 2) with one rounding. */
 static void gen_op_fnhadds(TCGv_i32 d, TCGv_i32 s1, TCGv_i32 s2)
 {
-    TCGv_i32 one = tcg_constant_i32(float32_one);
-    int op = float_muladd_negate_result | float_muladd_halve_result;
-    gen_helper_fmadds(d, tcg_env, one, s1, s2, tcg_constant_i32(op));
+    TCGv_i32 fone = tcg_constant_i32(float32_one);
+    TCGv_i32 mone = tcg_constant_i32(-1);
+    TCGv_i32 op = tcg_constant_i32(float_muladd_negate_result);
+    gen_helper_fmadds(d, tcg_env, fone, s1, s2, mone, op);
 }
 
 static void gen_op_fnhaddd(TCGv_i64 d, TCGv_i64 s1, TCGv_i64 s2)
 {
-    TCGv_i64 one = tcg_constant_i64(float64_one);
-    int op = float_muladd_negate_result | float_muladd_halve_result;
-    gen_helper_fmaddd(d, tcg_env, one, s1, s2, tcg_constant_i32(op));
+    TCGv_i64 fone = tcg_constant_i64(float64_one);
+    TCGv_i32 mone = tcg_constant_i32(-1);
+    TCGv_i32 op = tcg_constant_i32(float_muladd_negate_result);
+    gen_helper_fmaddd(d, tcg_env, fone, s1, s2, mone, op);
 }
 
 static void gen_op_fpexception_im(DisasContext *dc, int ftt)
-- 
2.43.0

All uses have been convered to float*_muladd_scalbn.

Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 include/fpu/softfloat.h   | 3 ---
 fpu/softfloat.c           | 6 ------
 fpu/softfloat-parts.c.inc | 4 ----
 3 files changed, 13 deletions(-)

diff --git a/include/fpu/softfloat.h b/include/fpu/softfloat.h
index XXXXXXX..XXXXXXX 100644
--- a/include/fpu/softfloat.h
+++ b/include/fpu/softfloat.h
@@ -XXX,XX +XXX,XX @@ bfloat16 bfloat16_squash_input_denormal(bfloat16 a, float_status *status);
 | Using these differs from negating an input or output before calling
 | the muladd function in that this means that a NaN doesn't have its
 | sign bit inverted before it is propagated.
-| We also support halving the result before rounding, as a special
-| case to support the ARM fused-sqrt-step instruction FRSQRTS.
 *----------------------------------------------------------------------------*/
 enum {
     float_muladd_negate_c = 1,
     float_muladd_negate_product = 2,
     float_muladd_negate_result = 4,
-    float_muladd_halve_result = 8,
 };
 
 /*----------------------------------------------------------------------------
diff --git a/fpu/softfloat.c b/fpu/softfloat.c
index XXXXXXX..XXXXXXX 100644
--- a/fpu/softfloat.c
+++ b/fpu/softfloat.c
@@ -XXX,XX +XXX,XX @@ float32_muladd(float32 xa, float32 xb, float32 xc, int flags, float_status *s)
     if (unlikely(!can_use_fpu(s))) {
         goto soft;
     }
-    if (unlikely(flags & float_muladd_halve_result)) {
-        goto soft;
-    }
 
     float32_input_flush3(&ua.s, &ub.s, &uc.s, s);
     if (unlikely(!f32_is_zon3(ua, ub, uc))) {
@@ -XXX,XX +XXX,XX @@ float64_muladd(float64 xa, float64 xb, float64 xc, int flags, float_status *s)
     if (unlikely(!can_use_fpu(s))) {
         goto soft;
     }
-    if (unlikely(flags & float_muladd_halve_result)) {
-        goto soft;
-    }
 
     float64_input_flush3(&ua.s, &ub.s, &uc.s, s);
     if (unlikely(!f64_is_zon3(ua, ub, uc))) {
diff --git a/fpu/softfloat-parts.c.inc b/fpu/softfloat-parts.c.inc
index XXXXXXX..XXXXXXX 100644
--- a/fpu/softfloat-parts.c.inc
+++ b/fpu/softfloat-parts.c.inc
@@ -XXX,XX +XXX,XX @@ static FloatPartsN *partsN(muladd_scalbn)(FloatPartsN *a, FloatPartsN *b,
     a->exp = p_widen.exp;
 
  return_normal:
-    /* TODO: Replace all use of float_muladd_halve_result with scale. */
-    if (flags & float_muladd_halve_result) {
-        a->exp -= 1;
-    }
     a->exp += scale;
  finish_sign:
     if (flags & float_muladd_negate_result) {
-- 
2.43.0

This rounding mode is used by Hexagon.

Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 include/fpu/softfloat-types.h | 2 ++
 fpu/softfloat-parts.c.inc     | 3 +++
 2 files changed, 5 insertions(+)

diff --git a/include/fpu/softfloat-types.h b/include/fpu/softfloat-types.h
index XXXXXXX..XXXXXXX 100644
--- a/include/fpu/softfloat-types.h
+++ b/include/fpu/softfloat-types.h
@@ -XXX,XX +XXX,XX @@ typedef enum __attribute__((__packed__)) {
     float_round_to_odd       = 5,
     /* Not an IEEE rounding mode: round to closest odd, overflow to inf */
     float_round_to_odd_inf   = 6,
+    /* Not an IEEE rounding mode: round to nearest even, overflow to max */
+    float_round_nearest_even_max = 7,
 } FloatRoundMode;
 
 /*
diff --git a/fpu/softfloat-parts.c.inc b/fpu/softfloat-parts.c.inc
index XXXXXXX..XXXXXXX 100644
--- a/fpu/softfloat-parts.c.inc
+++ b/fpu/softfloat-parts.c.inc
@@ -XXX,XX +XXX,XX @@ static void partsN(uncanon_normal)(FloatPartsN *p, float_status *s,
     int exp, flags = 0;
 
     switch (s->float_rounding_mode) {
+    case float_round_nearest_even_max:
+        overflow_norm = true;
+        /* fall through */
     case float_round_nearest_even:
         if (N > 64 && frac_lsb == 0) {
             inc = ((p->frac_hi & 1) || (p->frac_lo & round_mask) != frac_lsbm1
-- 
2.43.0

Certain Hexagon instructions suppress changes to the result
when the product of fma() is a true zero.

Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 include/fpu/softfloat.h   | 5 +++++
 fpu/softfloat.c           | 3 +++
 fpu/softfloat-parts.c.inc | 4 +++-
 3 files changed, 11 insertions(+), 1 deletion(-)

diff --git a/include/fpu/softfloat.h b/include/fpu/softfloat.h
index XXXXXXX..XXXXXXX 100644
--- a/include/fpu/softfloat.h
+++ b/include/fpu/softfloat.h
@@ -XXX,XX +XXX,XX @@ bfloat16 bfloat16_squash_input_denormal(bfloat16 a, float_status *status);
 | Using these differs from negating an input or output before calling
 | the muladd function in that this means that a NaN doesn't have its
 | sign bit inverted before it is propagated.
+|
+| With float_muladd_suppress_add_product_zero, if A or B is zero
+| such that the product is a true zero, then return C without addition.
+| This preserves the sign of C when C is +/- 0.  Used for Hexagon.
 *----------------------------------------------------------------------------*/
 enum {
     float_muladd_negate_c = 1,
     float_muladd_negate_product = 2,
     float_muladd_negate_result = 4,
+    float_muladd_suppress_add_product_zero = 8,
 };
 
 /*----------------------------------------------------------------------------
diff --git a/fpu/softfloat.c b/fpu/softfloat.c
index XXXXXXX..XXXXXXX 100644
--- a/fpu/softfloat.c
+++ b/fpu/softfloat.c
@@ -XXX,XX +XXX,XX @@ float32_muladd(float32 xa, float32 xb, float32 xc, int flags, float_status *s)
     if (unlikely(!can_use_fpu(s))) {
         goto soft;
     }
+    if (unlikely(flags & float_muladd_suppress_add_product_zero)) {
+        goto soft;
+    }
 
     float32_input_flush3(&ua.s, &ub.s, &uc.s, s);
     if (unlikely(!f32_is_zon3(ua, ub, uc))) {
diff --git a/fpu/softfloat-parts.c.inc b/fpu/softfloat-parts.c.inc
index XXXXXXX..XXXXXXX 100644
--- a/fpu/softfloat-parts.c.inc
+++ b/fpu/softfloat-parts.c.inc
@@ -XXX,XX +XXX,XX @@ static FloatPartsN *partsN(muladd_scalbn)(FloatPartsN *a, FloatPartsN *b,
             goto return_normal;
         }
         if (c->cls == float_class_zero) {
-            if (a->sign != c->sign) {
+            if (flags & float_muladd_suppress_add_product_zero) {
+                a->sign = c->sign;
+            } else if (a->sign != c->sign) {
                 goto return_sub_zero;
             }
             goto return_zero;
-- 
2.43.0

There are no special cases for this instruction.
Remove internal_mpyf as unused.

Reviewed-by: Brian Cain <brian.cain@oss.qualcomm.com>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 target/hexagon/fma_emu.h   | 1 -
 target/hexagon/fma_emu.c   | 8 --------
 target/hexagon/op_helper.c | 2 +-
 3 files changed, 1 insertion(+), 10 deletions(-)

diff --git a/target/hexagon/fma_emu.h b/target/hexagon/fma_emu.h
index XXXXXXX..XXXXXXX 100644
--- a/target/hexagon/fma_emu.h
+++ b/target/hexagon/fma_emu.h
@@ -XXX,XX +XXX,XX @@ int32_t float32_getexp(float32 f32);
 float32 infinite_float32(uint8_t sign);
 float32 internal_fmafx(float32 a, float32 b, float32 c,
                        int scale, float_status *fp_status);
-float32 internal_mpyf(float32 a, float32 b, float_status *fp_status);
 float64 internal_mpyhh(float64 a, float64 b,
                        unsigned long long int accumulated,
                        float_status *fp_status);
diff --git a/target/hexagon/fma_emu.c b/target/hexagon/fma_emu.c
index XXXXXXX..XXXXXXX 100644
--- a/target/hexagon/fma_emu.c
+++ b/target/hexagon/fma_emu.c
@@ -XXX,XX +XXX,XX @@ float32 internal_fmafx(float32 a, float32 b, float32 c, int scale,
     return accum_round_float32(result, fp_status);
 }
 
-float32 internal_mpyf(float32 a, float32 b, float_status *fp_status)
-{
-    if (float32_is_zero(a) || float32_is_zero(b)) {
-        return float32_mul(a, b, fp_status);
-    }
-    return internal_fmafx(a, b, float32_zero, 0, fp_status);
-}
-
 float64 internal_mpyhh(float64 a, float64 b,
                       unsigned long long int accumulated,
                       float_status *fp_status)
diff --git a/target/hexagon/op_helper.c b/target/hexagon/op_helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/hexagon/op_helper.c
+++ b/target/hexagon/op_helper.c
@@ -XXX,XX +XXX,XX @@ float32 HELPER(sfmpy)(CPUHexagonState *env, float32 RsV, float32 RtV)
 {
     float32 RdV;
     arch_fpop_start(env);
-    RdV = internal_mpyf(RsV, RtV, &env->fp_status);
+    RdV = float32_mul(RsV, RtV, &env->fp_status);
     arch_fpop_end(env);
     return RdV;
 }
-- 
2.43.0

There are no special cases for this instruction.  Since hexagon
always uses default-nan mode, explicitly negating the first
input is unnecessary.  Use float_muladd_negate_product instead.

Reviewed-by: Brian Cain <brian.cain@oss.qualcomm.com>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 target/hexagon/op_helper.c | 5 ++---
 1 file changed, 2 insertions(+), 3 deletions(-)

This instruction has a special case that 0 * x + c returns c
without the normal sign folding that comes with 0 + -0.
Use the new float_muladd_suppress_add_product_zero to
describe this.

Reviewed-by: Brian Cain <brian.cain@oss.qualcomm.com>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 target/hexagon/op_helper.c | 11 +++--------
 1 file changed, 3 insertions(+), 8 deletions(-)

diff --git a/target/hexagon/op_helper.c b/target/hexagon/op_helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/hexagon/op_helper.c
+++ b/target/hexagon/op_helper.c
@@ -XXX,XX +XXX,XX @@ static float32 check_nan(float32 dst, float32 x, float_status *fp_status)
 float32 HELPER(sffma_sc)(CPUHexagonState *env, float32 RxV,
                          float32 RsV, float32 RtV, float32 PuV)
 {
-    size4s_t tmp;
     arch_fpop_start(env);
-    RxV = check_nan(RxV, RxV, &env->fp_status);
-    RxV = check_nan(RxV, RsV, &env->fp_status);
-    RxV = check_nan(RxV, RtV, &env->fp_status);
-    tmp = internal_fmafx(RsV, RtV, RxV, fSXTN(8, 64, PuV), &env->fp_status);
-    if (!(float32_is_zero(RxV) && is_zero_prod(RsV, RtV))) {
-        RxV = tmp;
-    }
+    RxV = float32_muladd_scalbn(RsV, RtV, RxV, fSXTN(8, 64, PuV),
+                                float_muladd_suppress_add_product_zero,
+                                &env->fp_status);
     arch_fpop_end(env);
     return RxV;
 }
-- 
2.43.0

There are multiple special cases for this instruction.
(1) The saturate to normal maximum instead of overflow to infinity is
    handled by the new float_round_nearest_even_max rounding mode.
(2) The 0 * n + c special case is handled by the new
    float_muladd_suppress_add_product_zero flag.
(3) The Inf - Inf -> 0 special case can be detected after the fact
    by examining float_flag_invalid_isi.

Reviewed-by: Brian Cain <brian.cain@oss.qualcomm.com>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 target/hexagon/op_helper.c | 105 +++++++++----------------------------
 1 file changed, 26 insertions(+), 79 deletions(-)

diff --git a/target/hexagon/op_helper.c b/target/hexagon/op_helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/hexagon/op_helper.c
+++ b/target/hexagon/op_helper.c
@@ -XXX,XX +XXX,XX @@ float32 HELPER(sffma)(CPUHexagonState *env, float32 RxV,
     return RxV;
 }
 
-static bool is_zero_prod(float32 a, float32 b)
-{
-    return ((float32_is_zero(a) && is_finite(b)) ||
-            (float32_is_zero(b) && is_finite(a)));
-}
-
-static float32 check_nan(float32 dst, float32 x, float_status *fp_status)
-{
-    float32 ret = dst;
-    if (float32_is_any_nan(x)) {
-        if (extract32(x, 22, 1) == 0) {
-            float_raise(float_flag_invalid, fp_status);
-        }
-        ret = make_float32(0xffffffff);    /* nan */
-    }
-    return ret;
-}
-
 float32 HELPER(sffma_sc)(CPUHexagonState *env, float32 RxV,
                          float32 RsV, float32 RtV, float32 PuV)
 {
@@ -XXX,XX +XXX,XX @@ float32 HELPER(sffms)(CPUHexagonState *env, float32 RxV,
     return RxV;
 }
 
-static bool is_inf_prod(int32_t a, int32_t b)
+static float32 do_sffma_lib(CPUHexagonState *env, float32 RxV,
+                            float32 RsV, float32 RtV, int negate)
 {
-    return (float32_is_infinity(a) && float32_is_infinity(b)) ||
-           (float32_is_infinity(a) && is_finite(b) && !float32_is_zero(b)) ||
-           (float32_is_infinity(b) && is_finite(a) && !float32_is_zero(a));
+    int flags;
+
+    arch_fpop_start(env);
+
+    set_float_rounding_mode(float_round_nearest_even_max, &env->fp_status);
+    RxV = float32_muladd(RsV, RtV, RxV,
+                         negate | float_muladd_suppress_add_product_zero,
+                         &env->fp_status);
+
+    flags = get_float_exception_flags(&env->fp_status);
+    if (flags) {
+        /* Flags are suppressed by this instruction. */
+        set_float_exception_flags(0, &env->fp_status);
+
+        /* Return 0 for Inf - Inf. */
+        if (flags & float_flag_invalid_isi) {
+            RxV = 0;
+        }
+    }
+
+    arch_fpop_end(env);
+    return RxV;
 }
 
 float32 HELPER(sffma_lib)(CPUHexagonState *env, float32 RxV,
                           float32 RsV, float32 RtV)
 {
-    bool infinp;
-    bool infminusinf;
-    float32 tmp;
-
-    arch_fpop_start(env);
-    set_float_rounding_mode(float_round_nearest_even, &env->fp_status);
-    infminusinf = float32_is_infinity(RxV) &&
-                  is_inf_prod(RsV, RtV) &&
-                  (fGETBIT(31, RsV ^ RxV ^ RtV) != 0);
-    infinp = float32_is_infinity(RxV) ||
-             float32_is_infinity(RtV) ||
-             float32_is_infinity(RsV);
-    RxV = check_nan(RxV, RxV, &env->fp_status);
-    RxV = check_nan(RxV, RsV, &env->fp_status);
-    RxV = check_nan(RxV, RtV, &env->fp_status);
-    tmp = internal_fmafx(RsV, RtV, RxV, 0, &env->fp_status);
-    if (!(float32_is_zero(RxV) && is_zero_prod(RsV, RtV))) {
-        RxV = tmp;
-    }
-    set_float_exception_flags(0, &env->fp_status);
-    if (float32_is_infinity(RxV) && !infinp) {
-        RxV = RxV - 1;
-    }
-    if (infminusinf) {
-        RxV = 0;
-    }
-    arch_fpop_end(env);
-    return RxV;
+    return do_sffma_lib(env, RxV, RsV, RtV, 0);
 }
 
 float32 HELPER(sffms_lib)(CPUHexagonState *env, float32 RxV,
                           float32 RsV, float32 RtV)
 {
-    bool infinp;
-    bool infminusinf;
-    float32 tmp;
-
-    arch_fpop_start(env);
-    set_float_rounding_mode(float_round_nearest_even, &env->fp_status);
-    infminusinf = float32_is_infinity(RxV) &&
-                  is_inf_prod(RsV, RtV) &&
-                  (fGETBIT(31, RsV ^ RxV ^ RtV) == 0);
-    infinp = float32_is_infinity(RxV) ||
-             float32_is_infinity(RtV) ||
-             float32_is_infinity(RsV);
-    RxV = check_nan(RxV, RxV, &env->fp_status);
-    RxV = check_nan(RxV, RsV, &env->fp_status);
-    RxV = check_nan(RxV, RtV, &env->fp_status);
-    float32 minus_RsV = float32_sub(float32_zero, RsV, &env->fp_status);
-    tmp = internal_fmafx(minus_RsV, RtV, RxV, 0, &env->fp_status);
-    if (!(float32_is_zero(RxV) && is_zero_prod(RsV, RtV))) {
-        RxV = tmp;
-    }
-    set_float_exception_flags(0, &env->fp_status);
-    if (float32_is_infinity(RxV) && !infinp) {
-        RxV = RxV - 1;
-    }
-    if (infminusinf) {
-        RxV = 0;
-    }
-    arch_fpop_end(env);
-    return RxV;
+    return do_sffma_lib(env, RxV, RsV, RtV, float_muladd_negate_product);
 }
 
 float64 HELPER(dfmpyfix)(CPUHexagonState *env, float64 RssV, float64 RttV)
-- 
2.43.0

The function is now unused.

Reviewed-by: Brian Cain <brian.cain@oss.qualcomm.com>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 target/hexagon/fma_emu.h |   2 -
 target/hexagon/fma_emu.c | 171 ---------------------------------------
 2 files changed, 173 deletions(-)

diff --git a/target/hexagon/fma_emu.h b/target/hexagon/fma_emu.h
index XXXXXXX..XXXXXXX 100644
--- a/target/hexagon/fma_emu.h
+++ b/target/hexagon/fma_emu.h
@@ -XXX,XX +XXX,XX @@ static inline uint32_t float32_getexp_raw(float32 f32)
 }
 int32_t float32_getexp(float32 f32);
 float32 infinite_float32(uint8_t sign);
-float32 internal_fmafx(float32 a, float32 b, float32 c,
-                       int scale, float_status *fp_status);
 float64 internal_mpyhh(float64 a, float64 b,
                        unsigned long long int accumulated,
                        float_status *fp_status);
diff --git a/target/hexagon/fma_emu.c b/target/hexagon/fma_emu.c
index XXXXXXX..XXXXXXX 100644
--- a/target/hexagon/fma_emu.c
+++ b/target/hexagon/fma_emu.c
@@ -XXX,XX +XXX,XX @@ int32_t float64_getexp(float64 f64)
     return -1;
 }
 
-static uint64_t float32_getmant(float32 f32)
-{
-    Float a = { .i = f32 };
-    if (float32_is_normal(f32)) {
-        return a.mant | 1ULL << 23;
-    }
-    if (float32_is_zero(f32)) {
-        return 0;
-    }
-    if (float32_is_denormal(f32)) {
-        return a.mant;
-    }
-    return ~0ULL;
-}
-
 int32_t float32_getexp(float32 f32)
 {
     Float a = { .i = f32 };
@@ -XXX,XX +XXX,XX @@ float32 infinite_float32(uint8_t sign)
 }
 
 /* Return a maximum finite value with the requested sign */
-static float32 maxfinite_float32(uint8_t sign)
-{
-    if (sign) {
-        return make_float32(SF_MINUS_MAXF);
-    } else {
-        return make_float32(SF_MAXF);
-    }
-}
-
-/* Return a zero value with requested sign */
-static float32 zero_float32(uint8_t sign)
-{
-    if (sign) {
-        return make_float32(0x80000000);
-    } else {
-        return float32_zero;
-    }
-}
-
 #define GEN_XF_ROUND(SUFFIX, MANTBITS, INF_EXP, INTERNAL_TYPE) \
 static SUFFIX accum_round_##SUFFIX(Accum a, float_status * fp_status) \
 { \
@@ -XXX,XX +XXX,XX @@ static SUFFIX accum_round_##SUFFIX(Accum a, float_status * fp_status) \
 }
 
 GEN_XF_ROUND(float64, DF_MANTBITS, DF_INF_EXP, Double)
-GEN_XF_ROUND(float32, SF_MANTBITS, SF_INF_EXP, Float)
-
-static bool is_inf_prod(float64 a, float64 b)
-{
-    return ((float64_is_infinity(a) && float64_is_infinity(b)) ||
-            (float64_is_infinity(a) && is_finite(b) && (!float64_is_zero(b))) ||
-            (float64_is_infinity(b) && is_finite(a) && (!float64_is_zero(a))));
-}
-
-static float64 special_fma(float64 a, float64 b, float64 c,
-                           float_status *fp_status)
-{
-    float64 ret = make_float64(0);
-
-    /*
-     * If A multiplied by B is an exact infinity and C is also an infinity
-     * but with the opposite sign, FMA returns NaN and raises invalid.
-     */
-    uint8_t a_sign = float64_is_neg(a);
-    uint8_t b_sign = float64_is_neg(b);
-    uint8_t c_sign = float64_is_neg(c);
-    if (is_inf_prod(a, b) && float64_is_infinity(c)) {
-        if ((a_sign ^ b_sign) != c_sign) {
-            ret = make_float64(DF_NAN);
-            float_raise(float_flag_invalid, fp_status);
-            return ret;
-        }
-    }
-    if ((float64_is_infinity(a) && float64_is_zero(b)) ||
-        (float64_is_zero(a) && float64_is_infinity(b))) {
-        ret = make_float64(DF_NAN);
-        float_raise(float_flag_invalid, fp_status);
-        return ret;
-    }
-    /*
-     * If none of the above checks are true and C is a NaN,
-     * a NaN shall be returned
-     * If A or B are NaN, a NAN shall be returned.
-     */
-    if (float64_is_any_nan(a) ||
-        float64_is_any_nan(b) ||
-        float64_is_any_nan(c)) {
-        if (float64_is_any_nan(a) && (fGETBIT(51, a) == 0)) {
-            float_raise(float_flag_invalid, fp_status);
-        }
-        if (float64_is_any_nan(b) && (fGETBIT(51, b) == 0)) {
-            float_raise(float_flag_invalid, fp_status);
-        }
-        if (float64_is_any_nan(c) && (fGETBIT(51, c) == 0)) {
-            float_raise(float_flag_invalid, fp_status);
-        }
-        ret = make_float64(DF_NAN);
-        return ret;
-    }
-    /*
-     * We have checked for adding opposite-signed infinities.
-     * Other infinities return infinity with the correct sign
-     */
-    if (float64_is_infinity(c)) {
-        ret = infinite_float64(c_sign);
-        return ret;
-    }
-    if (float64_is_infinity(a) || float64_is_infinity(b)) {
-        ret = infinite_float64(a_sign ^ b_sign);
-        return ret;
-    }
-    g_assert_not_reached();
-}
-
-static float32 special_fmaf(float32 a, float32 b, float32 c,
-                            float_status *fp_status)
-{
-    float64 aa, bb, cc;
-    aa = float32_to_float64(a, fp_status);
-    bb = float32_to_float64(b, fp_status);
-    cc = float32_to_float64(c, fp_status);
-    return float64_to_float32(special_fma(aa, bb, cc, fp_status), fp_status);
-}
-
-float32 internal_fmafx(float32 a, float32 b, float32 c, int scale,
-                       float_status *fp_status)
-{
-    Accum prod;
-    Accum acc;
-    Accum result;
-    accum_init(&prod);
-    accum_init(&acc);
-    accum_init(&result);
-
-    uint8_t a_sign = float32_is_neg(a);
-    uint8_t b_sign = float32_is_neg(b);
-    uint8_t c_sign = float32_is_neg(c);
-    if (float32_is_infinity(a) ||
-        float32_is_infinity(b) ||
-        float32_is_infinity(c)) {
-        return special_fmaf(a, b, c, fp_status);
-    }
-    if (float32_is_any_nan(a) ||
-        float32_is_any_nan(b) ||
-        float32_is_any_nan(c)) {
-        return special_fmaf(a, b, c, fp_status);
-    }
-    if ((scale == 0) && (float32_is_zero(a) || float32_is_zero(b))) {
-        float32 tmp = float32_mul(a, b, fp_status);
-        tmp = float32_add(tmp, c, fp_status);
-        return tmp;
-    }
-
-    /* (a * 2**b) * (c * 2**d) == a*c * 2**(b+d) */
-    prod.mant = int128_mul_6464(float32_getmant(a), float32_getmant(b));
-
-    /*
-     * Note: extracting the mantissa into an int is multiplying by
-     * 2**23, so adjust here
-     */
-    prod.exp = float32_getexp(a) + float32_getexp(b) - SF_BIAS - 23;
-    prod.sign = a_sign ^ b_sign;
-    if (float32_is_zero(a) || float32_is_zero(b)) {
-        prod.exp = -2 * WAY_BIG_EXP;
-    }
-    if ((scale > 0) && float32_is_denormal(c)) {
-        acc.mant = int128_mul_6464(0, 0);
-        acc.exp = -WAY_BIG_EXP;
-        acc.sign = c_sign;
-        acc.sticky = 1;
-        result = accum_add(prod, acc);
-    } else if (!float32_is_zero(c)) {
-        acc.mant = int128_mul_6464(float32_getmant(c), 1);
-        acc.exp = float32_getexp(c);
-        acc.sign = c_sign;
-        result = accum_add(prod, acc);
-    } else {
-        result = prod;
-    }
-    result.exp += scale;
-    return accum_round_float32(result, fp_status);
-}
 
 float64 internal_mpyhh(float64 a, float64 b,
                       unsigned long long int accumulated,
-- 
2.43.0

This massive macro is now only used once.
Expand it for use only by float64.

Reviewed-by: Brian Cain <brian.cain@oss.qualcomm.com>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 target/hexagon/fma_emu.c | 255 +++++++++++++++++++--------------------
 1 file changed, 127 insertions(+), 128 deletions(-)

diff --git a/target/hexagon/fma_emu.c b/target/hexagon/fma_emu.c
index XXXXXXX..XXXXXXX 100644
--- a/target/hexagon/fma_emu.c
+++ b/target/hexagon/fma_emu.c
@@ -XXX,XX +XXX,XX @@ float32 infinite_float32(uint8_t sign)
 }
 
 /* Return a maximum finite value with the requested sign */
-#define GEN_XF_ROUND(SUFFIX, MANTBITS, INF_EXP, INTERNAL_TYPE) \
-static SUFFIX accum_round_##SUFFIX(Accum a, float_status * fp_status) \
-{ \
-    if ((int128_gethi(a.mant) == 0) && (int128_getlo(a.mant) == 0) \
-        && ((a.guard | a.round | a.sticky) == 0)) { \
-        /* result zero */ \
-        switch (fp_status->float_rounding_mode) { \
-        case float_round_down: \
-            return zero_##SUFFIX(1); \
-        default: \
-            return zero_##SUFFIX(0); \
-        } \
-    } \
-    /* Normalize right */ \
-    /* We want MANTBITS bits of mantissa plus the leading one. */ \
-    /* That means that we want MANTBITS+1 bits, or 0x000000000000FF_FFFF */ \
-    /* So we need to normalize right while the high word is non-zero and \
-    * while the low word is nonzero when masked with 0xffe0_0000_0000_0000 */ \
-    while ((int128_gethi(a.mant) != 0) || \
-           ((int128_getlo(a.mant) >> (MANTBITS + 1)) != 0)) { \
-        a = accum_norm_right(a, 1); \
-    } \
-    /* \
-     * OK, now normalize left \
-     * We want to normalize left until we have a leading one in bit 24 \
-     * Theoretically, we only need to shift a maximum of one to the left if we \
-     * shifted out lots of bits from B, or if we had no shift / 1 shift sticky \
-     * should be 0  \
-     */ \
-    while ((int128_getlo(a.mant) & (1ULL << MANTBITS)) == 0) { \
-        a = accum_norm_left(a); \
-    } \
-    /* \
-     * OK, now we might need to denormalize because of potential underflow. \
-     * We need to do this before rounding, and rounding might make us normal \
-     * again \
-     */ \
-    while (a.exp <= 0) { \
-        a = accum_norm_right(a, 1 - a.exp); \
-        /* \
-         * Do we have underflow? \
-         * That's when we get an inexact answer because we ran out of bits \
-         * in a denormal. \
-         */ \
-        if (a.guard || a.round || a.sticky) { \
-            float_raise(float_flag_underflow, fp_status); \
-        } \
-    } \
-    /* OK, we're relatively canonical... now we need to round */ \
-    if (a.guard || a.round || a.sticky) { \
-        float_raise(float_flag_inexact, fp_status); \
-        switch (fp_status->float_rounding_mode) { \
-        case float_round_to_zero: \
-            /* Chop and we're done */ \
-            break; \
-        case float_round_up: \
-            if (a.sign == 0) { \
-                a.mant = int128_add(a.mant, int128_one()); \
-            } \
-            break; \
-        case float_round_down: \
-            if (a.sign != 0) { \
-                a.mant = int128_add(a.mant, int128_one()); \
-            } \
-            break; \
-        default: \
-            if (a.round || a.sticky) { \
-                /* round up if guard is 1, down if guard is zero */ \
-                a.mant = int128_add(a.mant, int128_make64(a.guard)); \
-            } else if (a.guard) { \
-                /* exactly .5, round up if odd */ \
-                a.mant = int128_add(a.mant, int128_and(a.mant, int128_one())); \
-            } \
-            break; \
-        } \
-    } \
-    /* \
-     * OK, now we might have carried all the way up. \
-     * So we might need to shr once \
-     * at least we know that the lsb should be zero if we rounded and \
-     * got a carry out... \
-     */ \
-    if ((int128_getlo(a.mant) >> (MANTBITS + 1)) != 0) { \
-        a = accum_norm_right(a, 1); \
-    } \
-    /* Overflow? */ \
-    if (a.exp >= INF_EXP) { \
-        /* Yep, inf result */ \
-        float_raise(float_flag_overflow, fp_status); \
-        float_raise(float_flag_inexact, fp_status); \
-        switch (fp_status->float_rounding_mode) { \
-        case float_round_to_zero: \
-            return maxfinite_##SUFFIX(a.sign); \
-        case float_round_up: \
-            if (a.sign == 0) { \
-                return infinite_##SUFFIX(a.sign); \
-            } else { \
-                return maxfinite_##SUFFIX(a.sign); \
-            } \
-        case float_round_down: \
-            if (a.sign != 0) { \
-                return infinite_##SUFFIX(a.sign); \
-            } else { \
-                return maxfinite_##SUFFIX(a.sign); \
-            } \
-        default: \
-            return infinite_##SUFFIX(a.sign); \
-        } \
-    } \
-    /* Underflow? */ \
-    if (int128_getlo(a.mant) & (1ULL << MANTBITS)) { \
-        /* Leading one means: No, we're normal. So, we should be done... */ \
-        INTERNAL_TYPE ret; \
-        ret.i = 0; \
-        ret.sign = a.sign; \
-        ret.exp = a.exp; \
-        ret.mant = int128_getlo(a.mant); \
-        return ret.i; \
-    } \
-    assert(a.exp == 1); \
-    INTERNAL_TYPE ret; \
-    ret.i = 0; \
-    ret.sign = a.sign; \
-    ret.exp = 0; \
-    ret.mant = int128_getlo(a.mant); \
-    return ret.i; \
+static float64 accum_round_float64(Accum a, float_status *fp_status)
+{
+    if ((int128_gethi(a.mant) == 0) && (int128_getlo(a.mant) == 0)
+        && ((a.guard | a.round | a.sticky) == 0)) {
+        /* result zero */
+        switch (fp_status->float_rounding_mode) {
+        case float_round_down:
+            return zero_float64(1);
+        default:
+            return zero_float64(0);
+        }
+    }
+    /*
+     * Normalize right
+     * We want DF_MANTBITS bits of mantissa plus the leading one.
+     * That means that we want DF_MANTBITS+1 bits, or 0x000000000000FF_FFFF
+     * So we need to normalize right while the high word is non-zero and
+     * while the low word is nonzero when masked with 0xffe0_0000_0000_0000
+     */
+    while ((int128_gethi(a.mant) != 0) ||
+           ((int128_getlo(a.mant) >> (DF_MANTBITS + 1)) != 0)) {
+        a = accum_norm_right(a, 1);
+    }
+    /*
+     * OK, now normalize left
+     * We want to normalize left until we have a leading one in bit 24
+     * Theoretically, we only need to shift a maximum of one to the left if we
+     * shifted out lots of bits from B, or if we had no shift / 1 shift sticky
+     * should be 0
+     */
+    while ((int128_getlo(a.mant) & (1ULL << DF_MANTBITS)) == 0) {
+        a = accum_norm_left(a);
+    }
+    /*
+     * OK, now we might need to denormalize because of potential underflow.
+     * We need to do this before rounding, and rounding might make us normal
+     * again
+     */
+    while (a.exp <= 0) {
+        a = accum_norm_right(a, 1 - a.exp);
+        /*
+         * Do we have underflow?
+         * That's when we get an inexact answer because we ran out of bits
+         * in a denormal.
+         */
+        if (a.guard || a.round || a.sticky) {
+            float_raise(float_flag_underflow, fp_status);
+        }
+    }
+    /* OK, we're relatively canonical... now we need to round */
+    if (a.guard || a.round || a.sticky) {
+        float_raise(float_flag_inexact, fp_status);
+        switch (fp_status->float_rounding_mode) {
+        case float_round_to_zero:
+            /* Chop and we're done */
+            break;
+        case float_round_up:
+            if (a.sign == 0) {
+                a.mant = int128_add(a.mant, int128_one());
+            }
+            break;
+        case float_round_down:
+            if (a.sign != 0) {
+                a.mant = int128_add(a.mant, int128_one());
+            }
+            break;
+        default:
+            if (a.round || a.sticky) {
+                /* round up if guard is 1, down if guard is zero */
+                a.mant = int128_add(a.mant, int128_make64(a.guard));
+            } else if (a.guard) {
+                /* exactly .5, round up if odd */
+                a.mant = int128_add(a.mant, int128_and(a.mant, int128_one()));
+            }
+            break;
+        }
+    }
+    /*
+     * OK, now we might have carried all the way up.
+     * So we might need to shr once
+     * at least we know that the lsb should be zero if we rounded and
+     * got a carry out...
+     */
+    if ((int128_getlo(a.mant) >> (DF_MANTBITS + 1)) != 0) {
+        a = accum_norm_right(a, 1);
+    }
+    /* Overflow? */
+    if (a.exp >= DF_INF_EXP) {
+        /* Yep, inf result */
+        float_raise(float_flag_overflow, fp_status);
+        float_raise(float_flag_inexact, fp_status);
+        switch (fp_status->float_rounding_mode) {
+        case float_round_to_zero:
+            return maxfinite_float64(a.sign);
+        case float_round_up:
+            if (a.sign == 0) {
+                return infinite_float64(a.sign);
+            } else {
+                return maxfinite_float64(a.sign);
+            }
+        case float_round_down:
+            if (a.sign != 0) {
+                return infinite_float64(a.sign);
+            } else {
+                return maxfinite_float64(a.sign);
+            }
+        default:
+            return infinite_float64(a.sign);
+        }
+    }
+    /* Underflow? */
+    if (int128_getlo(a.mant) & (1ULL << DF_MANTBITS)) {
+        /* Leading one means: No, we're normal. So, we should be done... */
+        Double ret;
+        ret.i = 0;
+        ret.sign = a.sign;
+        ret.exp = a.exp;
+        ret.mant = int128_getlo(a.mant);
+        return ret.i;
+    }
+    assert(a.exp == 1);
+    Double ret;
+    ret.i = 0;
+    ret.sign = a.sign;
+    ret.exp = 0;
+    ret.mant = int128_getlo(a.mant);
+    return ret.i;
 }
 
-GEN_XF_ROUND(float64, DF_MANTBITS, DF_INF_EXP, Double)
-
 float64 internal_mpyhh(float64 a, float64 b,
                       unsigned long long int accumulated,
                       float_status *fp_status)
-- 
2.43.0

This structure, with bitfields, is incorrect for big-endian.
Use the existing float32_getexp_raw which uses extract32.

Reviewed-by: Brian Cain <brian.cain@oss.qualcomm.com>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 target/hexagon/fma_emu.c | 16 +++-------------
 1 file changed, 3 insertions(+), 13 deletions(-)

diff --git a/target/hexagon/fma_emu.c b/target/hexagon/fma_emu.c
index XXXXXXX..XXXXXXX 100644
--- a/target/hexagon/fma_emu.c
+++ b/target/hexagon/fma_emu.c
@@ -XXX,XX +XXX,XX @@ typedef union {
     };
 } Double;
 
-typedef union {
-    float f;
-    uint32_t i;
-    struct {
-        uint32_t mant:23;
-        uint32_t exp:8;
-        uint32_t sign:1;
-    };
-} Float;
-
 static uint64_t float64_getmant(float64 f64)
 {
     Double a = { .i = f64 };
@@ -XXX,XX +XXX,XX @@ int32_t float64_getexp(float64 f64)
 
 int32_t float32_getexp(float32 f32)
 {
-    Float a = { .i = f32 };
+    int exp = float32_getexp_raw(f32);
     if (float32_is_normal(f32)) {
-        return a.exp;
+        return exp;
     }
     if (float32_is_denormal(f32)) {
-        return a.exp + 1;
+        return exp + 1;
     }
     return -1;
 }
-- 
2.43.0

This structure, with bitfields, is incorrect for big-endian.
Use extract64 and deposit64 instead.

Reviewed-by: Brian Cain <brian.cain@oss.qualcomm.com>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 target/hexagon/fma_emu.c | 46 ++++++++++++++--------------------------
 1 file changed, 16 insertions(+), 30 deletions(-)

diff --git a/target/hexagon/fma_emu.c b/target/hexagon/fma_emu.c
index XXXXXXX..XXXXXXX 100644
--- a/target/hexagon/fma_emu.c
+++ b/target/hexagon/fma_emu.c
@@ -XXX,XX +XXX,XX @@
 
 #define WAY_BIG_EXP 4096
 
-typedef union {
-    double f;
-    uint64_t i;
-    struct {
-        uint64_t mant:52;
-        uint64_t exp:11;
-        uint64_t sign:1;
-    };
-} Double;
-
 static uint64_t float64_getmant(float64 f64)
 {
-    Double a = { .i = f64 };
+    uint64_t mant = extract64(f64, 0, 52);
     if (float64_is_normal(f64)) {
-        return a.mant | 1ULL << 52;
+        return mant | 1ULL << 52;
     }
     if (float64_is_zero(f64)) {
         return 0;
     }
     if (float64_is_denormal(f64)) {
-        return a.mant;
+        return mant;
     }
     return ~0ULL;
 }
 
 int32_t float64_getexp(float64 f64)
 {
-    Double a = { .i = f64 };
+    int exp = extract64(f64, 52, 11);
     if (float64_is_normal(f64)) {
-        return a.exp;
+        return exp;
     }
     if (float64_is_denormal(f64)) {
-        return a.exp + 1;
+        return exp + 1;
     }
     return -1;
 }
@@ -XXX,XX +XXX,XX @@ float32 infinite_float32(uint8_t sign)
 /* Return a maximum finite value with the requested sign */
 static float64 accum_round_float64(Accum a, float_status *fp_status)
 {
+    uint64_t ret;
+
     if ((int128_gethi(a.mant) == 0) && (int128_getlo(a.mant) == 0)
         && ((a.guard | a.round | a.sticky) == 0)) {
         /* result zero */
@@ -XXX,XX +XXX,XX @@ static float64 accum_round_float64(Accum a, float_status *fp_status)
         }
     }
     /* Underflow? */
-    if (int128_getlo(a.mant) & (1ULL << DF_MANTBITS)) {
+    ret = int128_getlo(a.mant);
+    if (ret & (1ULL << DF_MANTBITS)) {
         /* Leading one means: No, we're normal. So, we should be done... */
-        Double ret;
-        ret.i = 0;
-        ret.sign = a.sign;
-        ret.exp = a.exp;
-        ret.mant = int128_getlo(a.mant);
-        return ret.i;
+        ret = deposit64(ret, 52, 11, a.exp);
+    } else {
+        assert(a.exp == 1);
+        ret = deposit64(ret, 52, 11, 0);
     }
-    assert(a.exp == 1);
-    Double ret;
-    ret.i = 0;
-    ret.sign = a.sign;
-    ret.exp = 0;
-    ret.mant = int128_getlo(a.mant);
-    return ret.i;
+    ret = deposit64(ret, 63, 1, a.sign);
+    return ret;
 }
 
 float64 internal_mpyhh(float64 a, float64 b,
-- 
2.43.0

No need to open-code 64x64->128-bit multiplication.

Reviewed-by: Brian Cain <brian.cain@oss.qualcomm.com>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 target/hexagon/fma_emu.c | 32 +++-----------------------------
 1 file changed, 3 insertions(+), 29 deletions(-)

diff --git a/target/hexagon/fma_emu.c b/target/hexagon/fma_emu.c
index XXXXXXX..XXXXXXX 100644
--- a/target/hexagon/fma_emu.c
+++ b/target/hexagon/fma_emu.c
@@ -XXX,XX +XXX,XX @@ int32_t float32_getexp(float32 f32)
     return -1;
 }
 
-static uint32_t int128_getw0(Int128 x)
-{
-    return int128_getlo(x);
-}
-
-static uint32_t int128_getw1(Int128 x)
-{
-    return int128_getlo(x) >> 32;
-}
-
 static Int128 int128_mul_6464(uint64_t ai, uint64_t bi)
 {
-    Int128 a, b;
-    uint64_t pp0, pp1a, pp1b, pp1s, pp2;
+    uint64_t l, h;
 
-    a = int128_make64(ai);
-    b = int128_make64(bi);
-    pp0 = (uint64_t)int128_getw0(a) * (uint64_t)int128_getw0(b);
-    pp1a = (uint64_t)int128_getw1(a) * (uint64_t)int128_getw0(b);
-    pp1b = (uint64_t)int128_getw1(b) * (uint64_t)int128_getw0(a);
-    pp2 = (uint64_t)int128_getw1(a) * (uint64_t)int128_getw1(b);
-
-    pp1s = pp1a + pp1b;
-    if ((pp1s < pp1a) || (pp1s < pp1b)) {
-        pp2 += (1ULL << 32);
-    }
-    uint64_t ret_low = pp0 + (pp1s << 32);
-    if ((ret_low < pp0) || (ret_low < (pp1s << 32))) {
-        pp2 += 1;
-    }
-
-    return int128_make128(ret_low, pp2 + (pp1s >> 32));
+    mulu64(&l, &h, ai, bi);
+    return int128_make128(l, h);
 }
 
 static Int128 int128_sub_borrow(Int128 a, Int128 b, int borrow)
-- 
2.43.0

Convert all targets simultaneously, as the gen_intermediate_code
function disappears from the target.  While there are possible
workarounds, they're larger than simply performing the conversion.

diff --git a/include/exec/translator.h b/include/exec/translator.h
index XXXXXXX..XXXXXXX 100644
--- a/include/exec/translator.h
+++ b/include/exec/translator.h
@@ -XXX,XX +XXX,XX @@
 #include "qemu/bswap.h"
 #include "exec/vaddr.h"
 
-/**
- * gen_intermediate_code
- * @cpu: cpu context
- * @tb: translation block
- * @max_insns: max number of instructions to translate
- * @pc: guest virtual program counter address
- * @host_pc: host physical program counter address
- *
- * This function must be provided by the target, which should create
- * the target-specific DisasContext, and then invoke translator_loop.
- */
-void gen_intermediate_code(CPUState *cpu, TranslationBlock *tb, int *max_insns,
-                           vaddr pc, void *host_pc);
-
 /**
  * DisasJumpType:
  * @DISAS_NEXT: Next instruction in program order.
diff --git a/include/hw/core/tcg-cpu-ops.h b/include/hw/core/tcg-cpu-ops.h
index XXXXXXX..XXXXXXX 100644
--- a/include/hw/core/tcg-cpu-ops.h
+++ b/include/hw/core/tcg-cpu-ops.h
@@ -XXX,XX +XXX,XX @@ struct TCGCPUOps {
      * Called when the first CPU is realized.
      */
     void (*initialize)(void);
+    /**
+     * @translate_code: Translate guest instructions to TCGOps
+     * @cpu: cpu context
+     * @tb: translation block
+     * @max_insns: max number of instructions to translate
+     * @pc: guest virtual program counter address
+     * @host_pc: host physical program counter address
+     *
+     * This function must be provided by the target, which should create
+     * the target-specific DisasContext, and then invoke translator_loop.
+     */
+    void (*translate_code)(CPUState *cpu, TranslationBlock *tb,
+                           int *max_insns, vaddr pc, void *host_pc);
     /**
      * @synchronize_from_tb: Synchronize state from a TCG #TranslationBlock
      *
diff --git a/target/alpha/cpu.h b/target/alpha/cpu.h
index XXXXXXX..XXXXXXX 100644
--- a/target/alpha/cpu.h
+++ b/target/alpha/cpu.h
@@ -XXX,XX +XXX,XX @@ enum {
 };
 
 void alpha_translate_init(void);
+void alpha_translate_code(CPUState *cs, TranslationBlock *tb,
+                          int *max_insns, vaddr pc, void *host_pc);
 
 #define CPU_RESOLVING_TYPE TYPE_ALPHA_CPU
 
diff --git a/target/arm/internals.h b/target/arm/internals.h
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/internals.h
+++ b/target/arm/internals.h
@@ -XXX,XX +XXX,XX @@ void init_cpreg_list(ARMCPU *cpu);
 
 void arm_cpu_register_gdb_regs_for_features(ARMCPU *cpu);
 void arm_translate_init(void);
+void arm_translate_code(CPUState *cs, TranslationBlock *tb,
+                        int *max_insns, vaddr pc, void *host_pc);
 
 void arm_cpu_register_gdb_commands(ARMCPU *cpu);
 void aarch64_cpu_register_gdb_commands(ARMCPU *cpu, GString *,
diff --git a/target/avr/cpu.h b/target/avr/cpu.h
index XXXXXXX..XXXXXXX 100644
--- a/target/avr/cpu.h
+++ b/target/avr/cpu.h
@@ -XXX,XX +XXX,XX @@ static inline void set_avr_feature(CPUAVRState *env, int feature)
 }
 
 void avr_cpu_tcg_init(void);
+void avr_cpu_translate_code(CPUState *cs, TranslationBlock *tb,
+                            int *max_insns, vaddr pc, void *host_pc);
 
 int cpu_avr_exec(CPUState *cpu);
 
diff --git a/target/hexagon/cpu.h b/target/hexagon/cpu.h
index XXXXXXX..XXXXXXX 100644
--- a/target/hexagon/cpu.h
+++ b/target/hexagon/cpu.h
@@ -XXX,XX +XXX,XX @@ static inline void cpu_get_tb_cpu_state(CPUHexagonState *env, vaddr *pc,
 typedef HexagonCPU ArchCPU;
 
 void hexagon_translate_init(void);
+void hexagon_translate_code(CPUState *cs, TranslationBlock *tb,
+                            int *max_insns, vaddr pc, void *host_pc);
 
 #include "exec/cpu-all.h"
 
diff --git a/target/hppa/cpu.h b/target/hppa/cpu.h
index XXXXXXX..XXXXXXX 100644
--- a/target/hppa/cpu.h
+++ b/target/hppa/cpu.h
@@ -XXX,XX +XXX,XX @@ static inline int HPPA_BTLB_ENTRIES(CPUHPPAState *env)
 }
 
 void hppa_translate_init(void);
+void hppa_translate_code(CPUState *cs, TranslationBlock *tb,
+                         int *max_insns, vaddr pc, void *host_pc);
 
 #define CPU_RESOLVING_TYPE TYPE_HPPA_CPU
 
diff --git a/target/i386/tcg/helper-tcg.h b/target/i386/tcg/helper-tcg.h
index XXXXXXX..XXXXXXX 100644
--- a/target/i386/tcg/helper-tcg.h
+++ b/target/i386/tcg/helper-tcg.h
@@ -XXX,XX +XXX,XX @@ static inline target_long lshift(target_long x, int n)
 
 /* translate.c */
 void tcg_x86_init(void);
+void x86_translate_code(CPUState *cs, TranslationBlock *tb,
+                        int *max_insns, vaddr pc, void *host_pc);
 
 /* excp_helper.c */
 G_NORETURN void raise_exception(CPUX86State *env, int exception_index);
diff --git a/target/loongarch/internals.h b/target/loongarch/internals.h
index XXXXXXX..XXXXXXX 100644
--- a/target/loongarch/internals.h
+++ b/target/loongarch/internals.h
@@ -XXX,XX +XXX,XX @@
 #define TARGET_VIRT_MASK MAKE_64BIT_MASK(0, TARGET_VIRT_ADDR_SPACE_BITS)
 
 void loongarch_translate_init(void);
+void loongarch_translate_code(CPUState *cs, TranslationBlock *tb,
+                              int *max_insns, vaddr pc, void *host_pc);
 
 void G_NORETURN do_raise_exception(CPULoongArchState *env,
                                    uint32_t exception,
diff --git a/target/m68k/cpu.h b/target/m68k/cpu.h
index XXXXXXX..XXXXXXX 100644
--- a/target/m68k/cpu.h
+++ b/target/m68k/cpu.h
@@ -XXX,XX +XXX,XX @@ int m68k_cpu_gdb_read_register(CPUState *cpu, GByteArray *buf, int reg);
 int m68k_cpu_gdb_write_register(CPUState *cpu, uint8_t *buf, int reg);
 
 void m68k_tcg_init(void);
+void m68k_translate_code(CPUState *cs, TranslationBlock *tb,
+                         int *max_insns, vaddr pc, void *host_pc);
 void m68k_cpu_init_gdb(M68kCPU *cpu);
 uint32_t cpu_m68k_get_ccr(CPUM68KState *env);
 void cpu_m68k_set_ccr(CPUM68KState *env, uint32_t);
diff --git a/target/microblaze/cpu.h b/target/microblaze/cpu.h
index XXXXXXX..XXXXXXX 100644
--- a/target/microblaze/cpu.h
+++ b/target/microblaze/cpu.h
@@ -XXX,XX +XXX,XX @@ static inline void mb_cpu_write_msr(CPUMBState *env, uint32_t val)
 }
 
 void mb_tcg_init(void);
+void mb_translate_code(CPUState *cs, TranslationBlock *tb,
+                       int *max_insns, vaddr pc, void *host_pc);
 
 #define CPU_RESOLVING_TYPE TYPE_MICROBLAZE_CPU
 
diff --git a/target/mips/tcg/tcg-internal.h b/target/mips/tcg/tcg-internal.h
index XXXXXXX..XXXXXXX 100644
--- a/target/mips/tcg/tcg-internal.h
+++ b/target/mips/tcg/tcg-internal.h
@@ -XXX,XX +XXX,XX @@
 #include "cpu.h"
 
 void mips_tcg_init(void);
+void mips_translate_code(CPUState *cs, TranslationBlock *tb,
+                         int *max_insns, vaddr pc, void *host_pc);
 
 void mips_cpu_synchronize_from_tb(CPUState *cs, const TranslationBlock *tb);
 G_NORETURN void mips_cpu_do_unaligned_access(CPUState *cpu, vaddr addr,
diff --git a/target/openrisc/cpu.h b/target/openrisc/cpu.h
index XXXXXXX..XXXXXXX 100644
--- a/target/openrisc/cpu.h
+++ b/target/openrisc/cpu.h
@@ -XXX,XX +XXX,XX @@ void openrisc_cpu_dump_state(CPUState *cpu, FILE *f, int flags);
 int openrisc_cpu_gdb_read_register(CPUState *cpu, GByteArray *buf, int reg);
 int openrisc_cpu_gdb_write_register(CPUState *cpu, uint8_t *buf, int reg);
 void openrisc_translate_init(void);
+void openrisc_translate_code(CPUState *cs, TranslationBlock *tb,
+                             int *max_insns, vaddr pc, void *host_pc);
 int print_insn_or1k(bfd_vma addr, disassemble_info *info);
 
 #ifndef CONFIG_USER_ONLY
diff --git a/target/ppc/cpu.h b/target/ppc/cpu.h
index XXXXXXX..XXXXXXX 100644
--- a/target/ppc/cpu.h
+++ b/target/ppc/cpu.h
@@ -XXX,XX +XXX,XX @@ extern const VMStateDescription vmstate_ppc_cpu;
 
 /*****************************************************************************/
 void ppc_translate_init(void);
+void ppc_translate_code(CPUState *cs, TranslationBlock *tb,
+                        int *max_insns, vaddr pc, void *host_pc);
 
 #if !defined(CONFIG_USER_ONLY)
 void ppc_store_sdr1(CPUPPCState *env, target_ulong value);
diff --git a/target/riscv/cpu.h b/target/riscv/cpu.h
index XXXXXXX..XXXXXXX 100644
--- a/target/riscv/cpu.h
+++ b/target/riscv/cpu.h
@@ -XXX,XX +XXX,XX @@ RISCVException smstateen_acc_ok(CPURISCVState *env, int index, uint64_t bit);
 void riscv_cpu_set_mode(CPURISCVState *env, target_ulong newpriv, bool virt_en);
 
 void riscv_translate_init(void);
+void riscv_translate_code(CPUState *cs, TranslationBlock *tb,
+                          int *max_insns, vaddr pc, void *host_pc);
+
 G_NORETURN void riscv_raise_exception(CPURISCVState *env,
                                       uint32_t exception, uintptr_t pc);
 
diff --git a/target/rx/cpu.h b/target/rx/cpu.h
index XXXXXXX..XXXXXXX 100644
--- a/target/rx/cpu.h
+++ b/target/rx/cpu.h
@@ -XXX,XX +XXX,XX @@ int rx_cpu_gdb_read_register(CPUState *cpu, GByteArray *buf, int reg);
 int rx_cpu_gdb_write_register(CPUState *cpu, uint8_t *buf, int reg);
 
 void rx_translate_init(void);
+void rx_translate_code(CPUState *cs, TranslationBlock *tb,
+                       int *max_insns, vaddr pc, void *host_pc);
 void rx_cpu_unpack_psw(CPURXState *env, uint32_t psw, int rte);
 
 #include "exec/cpu-all.h"
diff --git a/target/s390x/s390x-internal.h b/target/s390x/s390x-internal.h
index XXXXXXX..XXXXXXX 100644
--- a/target/s390x/s390x-internal.h
+++ b/target/s390x/s390x-internal.h
@@ -XXX,XX +XXX,XX @@ void handle_diag_308(CPUS390XState *env, uint64_t r1, uint64_t r3,
 
 /* translate.c */
 void s390x_translate_init(void);
+void s390x_translate_code(CPUState *cs, TranslationBlock *tb,
+                          int *max_insns, vaddr pc, void *host_pc);
 void s390x_restore_state_to_opc(CPUState *cs,
                                 const TranslationBlock *tb,
                                 const uint64_t *data);
diff --git a/target/sh4/cpu.h b/target/sh4/cpu.h
index XXXXXXX..XXXXXXX 100644
--- a/target/sh4/cpu.h
+++ b/target/sh4/cpu.h
@@ -XXX,XX +XXX,XX @@ G_NORETURN void superh_cpu_do_unaligned_access(CPUState *cpu, vaddr addr,
                                                uintptr_t retaddr);
 
 void sh4_translate_init(void);
+void sh4_translate_code(CPUState *cs, TranslationBlock *tb,
+                        int *max_insns, vaddr pc, void *host_pc);
 
 #if !defined(CONFIG_USER_ONLY)
 hwaddr superh_cpu_get_phys_page_debug(CPUState *cpu, vaddr addr);
diff --git a/target/sparc/cpu.h b/target/sparc/cpu.h
index XXXXXXX..XXXXXXX 100644
--- a/target/sparc/cpu.h
+++ b/target/sparc/cpu.h
@@ -XXX,XX +XXX,XX @@ int sparc_cpu_memory_rw_debug(CPUState *cpu, vaddr addr,
 
 /* translate.c */
 void sparc_tcg_init(void);
+void sparc_translate_code(CPUState *cs, TranslationBlock *tb,
+                          int *max_insns, vaddr pc, void *host_pc);
 
 /* fop_helper.c */
 target_ulong cpu_get_fsr(CPUSPARCState *);
diff --git a/target/tricore/cpu.h b/target/tricore/cpu.h
index XXXXXXX..XXXXXXX 100644
--- a/target/tricore/cpu.h
+++ b/target/tricore/cpu.h
@@ -XXX,XX +XXX,XX @@ FIELD(TB_FLAGS, PRIV, 0, 2)
 
 void cpu_state_reset(CPUTriCoreState *s);
 void tricore_tcg_init(void);
+void tricore_translate_code(CPUState *cs, TranslationBlock *tb,
+                            int *max_insns, vaddr pc, void *host_pc);
 
 static inline void cpu_get_tb_cpu_state(CPUTriCoreState *env, vaddr *pc,
                                         uint64_t *cs_base, uint32_t *flags)
diff --git a/target/xtensa/cpu.h b/target/xtensa/cpu.h
index XXXXXXX..XXXXXXX 100644
--- a/target/xtensa/cpu.h
+++ b/target/xtensa/cpu.h
@@ -XXX,XX +XXX,XX @@ G_NORETURN void xtensa_cpu_do_unaligned_access(CPUState *cpu, vaddr addr,
 
 void xtensa_collect_sr_names(const XtensaConfig *config);
 void xtensa_translate_init(void);
+void xtensa_translate_code(CPUState *cs, TranslationBlock *tb,
+                           int *max_insns, vaddr pc, void *host_pc);
 void **xtensa_get_regfile_by_name(const char *name, int entries, int bits);
 void xtensa_breakpoint_handler(CPUState *cs);
 void xtensa_register_core(XtensaConfigList *node);
diff --git a/accel/tcg/cpu-exec.c b/accel/tcg/cpu-exec.c
index XXXXXXX..XXXXXXX 100644
--- a/accel/tcg/cpu-exec.c
+++ b/accel/tcg/cpu-exec.c
@@ -XXX,XX +XXX,XX @@ bool tcg_exec_realizefn(CPUState *cpu, Error **errp)
 
     if (!tcg_target_initialized) {
         /* Check mandatory TCGCPUOps handlers */
+        const TCGCPUOps *tcg_ops = cpu->cc->tcg_ops;
 #ifndef CONFIG_USER_ONLY
-        assert(cpu->cc->tcg_ops->cpu_exec_halt);
-        assert(cpu->cc->tcg_ops->cpu_exec_interrupt);
+        assert(tcg_ops->cpu_exec_halt);
+        assert(tcg_ops->cpu_exec_interrupt);
 #endif /* !CONFIG_USER_ONLY */
-        cpu->cc->tcg_ops->initialize();
+        assert(tcg_ops->translate_code);
+        tcg_ops->initialize();
         tcg_target_initialized = true;
     }
 
diff --git a/accel/tcg/translate-all.c b/accel/tcg/translate-all.c
index XXXXXXX..XXXXXXX 100644
--- a/accel/tcg/translate-all.c
+++ b/accel/tcg/translate-all.c
@@ -XXX,XX +XXX,XX @@ static int setjmp_gen_code(CPUArchState *env, TranslationBlock *tb,
 
     tcg_func_start(tcg_ctx);
 
-    tcg_ctx->cpu = env_cpu(env);
-    gen_intermediate_code(env_cpu(env), tb, max_insns, pc, host_pc);
+    CPUState *cs = env_cpu(env);
+    tcg_ctx->cpu = cs;
+    cs->cc->tcg_ops->translate_code(cs, tb, max_insns, pc, host_pc);
+
     assert(tb->size != 0);
     tcg_ctx->cpu = NULL;
     *max_insns = tb->icount;
@@ -XXX,XX +XXX,XX @@ TranslationBlock *tb_gen_code(CPUState *cpu,
             /*
              * Overflow of code_gen_buffer, or the current slice of it.
              *
-             * TODO: We don't need to re-do gen_intermediate_code, nor
+             * TODO: We don't need to re-do tcg_ops->translate_code, nor
              * should we re-do the tcg optimization currently hidden
              * inside tcg_gen_code.  All that should be required is to
              * flush the TBs, allocate a new TB, re-initialize it per
diff --git a/target/alpha/cpu.c b/target/alpha/cpu.c
index XXXXXXX..XXXXXXX 100644
--- a/target/alpha/cpu.c
+++ b/target/alpha/cpu.c
@@ -XXX,XX +XXX,XX @@ static const struct SysemuCPUOps alpha_sysemu_ops = {
 
 static const TCGCPUOps alpha_tcg_ops = {
     .initialize = alpha_translate_init,
+    .translate_code = alpha_translate_code,
     .synchronize_from_tb = alpha_cpu_synchronize_from_tb,
     .restore_state_to_opc = alpha_restore_state_to_opc,
 
diff --git a/target/alpha/translate.c b/target/alpha/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/alpha/translate.c
+++ b/target/alpha/translate.c
@@ -XXX,XX +XXX,XX @@ static const TranslatorOps alpha_tr_ops = {
     .tb_stop            = alpha_tr_tb_stop,
 };
 
-void gen_intermediate_code(CPUState *cpu, TranslationBlock *tb, int *max_insns,
-                           vaddr pc, void *host_pc)
+void alpha_translate_code(CPUState *cpu, TranslationBlock *tb,
+                          int *max_insns, vaddr pc, void *host_pc)
 {
     DisasContext dc;
     translator_loop(cpu, tb, max_insns, pc, host_pc, &alpha_tr_ops, &dc.base);
diff --git a/target/arm/cpu.c b/target/arm/cpu.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/cpu.c
+++ b/target/arm/cpu.c
@@ -XXX,XX +XXX,XX @@ static const struct SysemuCPUOps arm_sysemu_ops = {
 #ifdef CONFIG_TCG
 static const TCGCPUOps arm_tcg_ops = {
     .initialize = arm_translate_init,
+    .translate_code = arm_translate_code,
     .synchronize_from_tb = arm_cpu_synchronize_from_tb,
     .debug_excp_handler = arm_debug_excp_handler,
     .restore_state_to_opc = arm_restore_state_to_opc,
diff --git a/target/arm/tcg/cpu-v7m.c b/target/arm/tcg/cpu-v7m.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/cpu-v7m.c
+++ b/target/arm/tcg/cpu-v7m.c
@@ -XXX,XX +XXX,XX @@ static void cortex_m55_initfn(Object *obj)
 
 static const TCGCPUOps arm_v7m_tcg_ops = {
     .initialize = arm_translate_init,
+    .translate_code = arm_translate_code,
     .synchronize_from_tb = arm_cpu_synchronize_from_tb,
     .debug_excp_handler = arm_debug_excp_handler,
     .restore_state_to_opc = arm_restore_state_to_opc,
diff --git a/target/arm/tcg/translate.c b/target/arm/tcg/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/translate.c
+++ b/target/arm/tcg/translate.c
@@ -XXX,XX +XXX,XX @@ static const TranslatorOps thumb_translator_ops = {
     .tb_stop            = arm_tr_tb_stop,
 };
 
-/* generate intermediate code for basic block 'tb'.  */
-void gen_intermediate_code(CPUState *cpu, TranslationBlock *tb, int *max_insns,
-                           vaddr pc, void *host_pc)
+void arm_translate_code(CPUState *cpu, TranslationBlock *tb,
+                        int *max_insns, vaddr pc, void *host_pc)
 {
     DisasContext dc = { };
     const TranslatorOps *ops = &arm_translator_ops;
diff --git a/target/avr/cpu.c b/target/avr/cpu.c
index XXXXXXX..XXXXXXX 100644
--- a/target/avr/cpu.c
+++ b/target/avr/cpu.c
@@ -XXX,XX +XXX,XX @@ static const struct SysemuCPUOps avr_sysemu_ops = {
 
 static const TCGCPUOps avr_tcg_ops = {
     .initialize = avr_cpu_tcg_init,
+    .translate_code = avr_cpu_translate_code,
     .synchronize_from_tb = avr_cpu_synchronize_from_tb,
     .restore_state_to_opc = avr_restore_state_to_opc,
     .cpu_exec_interrupt = avr_cpu_exec_interrupt,
diff --git a/target/avr/translate.c b/target/avr/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/avr/translate.c
+++ b/target/avr/translate.c
@@ -XXX,XX +XXX,XX @@ static bool trans_WDR(DisasContext *ctx, arg_WDR *a)
  *
  *    - translate()
  *    - canonicalize_skip()
- *    - gen_intermediate_code()
+ *    - translate_code()
  *    - restore_state_to_opc()
  *
  */
@@ -XXX,XX +XXX,XX @@ static const TranslatorOps avr_tr_ops = {
     .tb_stop            = avr_tr_tb_stop,
 };
 
-void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int *max_insns,
-                           vaddr pc, void *host_pc)
+void avr_cpu_translate_code(CPUState *cs, TranslationBlock *tb,
+                            int *max_insns, vaddr pc, void *host_pc)
 {
     DisasContext dc = { };
     translator_loop(cs, tb, max_insns, pc, host_pc, &avr_tr_ops, &dc.base);
diff --git a/target/hexagon/cpu.c b/target/hexagon/cpu.c
index XXXXXXX..XXXXXXX 100644
--- a/target/hexagon/cpu.c
+++ b/target/hexagon/cpu.c
@@ -XXX,XX +XXX,XX @@ static void hexagon_cpu_init(Object *obj)
 
 static const TCGCPUOps hexagon_tcg_ops = {
     .initialize = hexagon_translate_init,
+    .translate_code = hexagon_translate_code,
     .synchronize_from_tb = hexagon_cpu_synchronize_from_tb,
     .restore_state_to_opc = hexagon_restore_state_to_opc,
 };
diff --git a/target/hexagon/translate.c b/target/hexagon/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/hexagon/translate.c
+++ b/target/hexagon/translate.c
@@ -XXX,XX +XXX,XX @@ static const TranslatorOps hexagon_tr_ops = {
     .tb_stop            = hexagon_tr_tb_stop,
 };
 
-void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int *max_insns,
-                           vaddr pc, void *host_pc)
+void hexagon_translate_code(CPUState *cs, TranslationBlock *tb,
+                            int *max_insns, vaddr pc, void *host_pc)
 {
     DisasContext ctx;
 
diff --git a/target/hppa/cpu.c b/target/hppa/cpu.c
index XXXXXXX..XXXXXXX 100644
--- a/target/hppa/cpu.c
+++ b/target/hppa/cpu.c
@@ -XXX,XX +XXX,XX @@ static const struct SysemuCPUOps hppa_sysemu_ops = {
 
 static const TCGCPUOps hppa_tcg_ops = {
     .initialize = hppa_translate_init,
+    .translate_code = hppa_translate_code,
     .synchronize_from_tb = hppa_cpu_synchronize_from_tb,
     .restore_state_to_opc = hppa_restore_state_to_opc,
 
diff --git a/target/hppa/translate.c b/target/hppa/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/hppa/translate.c
+++ b/target/hppa/translate.c
@@ -XXX,XX +XXX,XX @@ static const TranslatorOps hppa_tr_ops = {
 #endif
 };
 
-void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int *max_insns,
-                           vaddr pc, void *host_pc)
+void hppa_translate_code(CPUState *cs, TranslationBlock *tb,
+                         int *max_insns, vaddr pc, void *host_pc)
 {
     DisasContext ctx = { };
     translator_loop(cs, tb, max_insns, pc, host_pc, &hppa_tr_ops, &ctx.base);
diff --git a/target/i386/tcg/tcg-cpu.c b/target/i386/tcg/tcg-cpu.c
index XXXXXXX..XXXXXXX 100644
--- a/target/i386/tcg/tcg-cpu.c
+++ b/target/i386/tcg/tcg-cpu.c
@@ -XXX,XX +XXX,XX @@ static bool x86_debug_check_breakpoint(CPUState *cs)
 
 static const TCGCPUOps x86_tcg_ops = {
     .initialize = tcg_x86_init,
+    .translate_code = x86_translate_code,
     .synchronize_from_tb = x86_cpu_synchronize_from_tb,
     .restore_state_to_opc = x86_restore_state_to_opc,
     .cpu_exec_enter = x86_cpu_exec_enter,
diff --git a/target/i386/tcg/translate.c b/target/i386/tcg/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/i386/tcg/translate.c
+++ b/target/i386/tcg/translate.c
@@ -XXX,XX +XXX,XX @@ static const TranslatorOps i386_tr_ops = {
     .tb_stop            = i386_tr_tb_stop,
 };
 
-/* generate intermediate code for basic block 'tb'.  */
-void gen_intermediate_code(CPUState *cpu, TranslationBlock *tb, int *max_insns,
-                           vaddr pc, void *host_pc)
+void x86_translate_code(CPUState *cpu, TranslationBlock *tb,
+                        int *max_insns, vaddr pc, void *host_pc)
 {
     DisasContext dc;
 
diff --git a/target/loongarch/cpu.c b/target/loongarch/cpu.c
index XXXXXXX..XXXXXXX 100644
--- a/target/loongarch/cpu.c
+++ b/target/loongarch/cpu.c
@@ -XXX,XX +XXX,XX @@ static void loongarch_cpu_dump_state(CPUState *cs, FILE *f, int flags)
 
 static const TCGCPUOps loongarch_tcg_ops = {
     .initialize = loongarch_translate_init,
+    .translate_code = loongarch_translate_code,
     .synchronize_from_tb = loongarch_cpu_synchronize_from_tb,
     .restore_state_to_opc = loongarch_restore_state_to_opc,
 
diff --git a/target/loongarch/tcg/translate.c b/target/loongarch/tcg/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/loongarch/tcg/translate.c
+++ b/target/loongarch/tcg/translate.c
@@ -XXX,XX +XXX,XX @@ static const TranslatorOps loongarch_tr_ops = {
     .tb_stop            = loongarch_tr_tb_stop,
 };
 
-void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int *max_insns,
-                           vaddr pc, void *host_pc)
+void loongarch_translate_code(CPUState *cs, TranslationBlock *tb,
+                              int *max_insns, vaddr pc, void *host_pc)
 {
     DisasContext ctx;
 
diff --git a/target/m68k/cpu.c b/target/m68k/cpu.c
index XXXXXXX..XXXXXXX 100644
--- a/target/m68k/cpu.c
+++ b/target/m68k/cpu.c
@@ -XXX,XX +XXX,XX @@ static const struct SysemuCPUOps m68k_sysemu_ops = {
 
 static const TCGCPUOps m68k_tcg_ops = {
     .initialize = m68k_tcg_init,
+    .translate_code = m68k_translate_code,
     .restore_state_to_opc = m68k_restore_state_to_opc,
 
 #ifndef CONFIG_USER_ONLY
diff --git a/target/m68k/translate.c b/target/m68k/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/m68k/translate.c
+++ b/target/m68k/translate.c
@@ -XXX,XX +XXX,XX @@ static const TranslatorOps m68k_tr_ops = {
     .tb_stop            = m68k_tr_tb_stop,
 };
 
-void gen_intermediate_code(CPUState *cpu, TranslationBlock *tb, int *max_insns,
-                           vaddr pc, void *host_pc)
+void m68k_translate_code(CPUState *cpu, TranslationBlock *tb,
+                         int *max_insns, vaddr pc, void *host_pc)
 {
     DisasContext dc;
     translator_loop(cpu, tb, max_insns, pc, host_pc, &m68k_tr_ops, &dc.base);
diff --git a/target/microblaze/cpu.c b/target/microblaze/cpu.c
index XXXXXXX..XXXXXXX 100644
--- a/target/microblaze/cpu.c
+++ b/target/microblaze/cpu.c
@@ -XXX,XX +XXX,XX @@ static const struct SysemuCPUOps mb_sysemu_ops = {
 
 static const TCGCPUOps mb_tcg_ops = {
     .initialize = mb_tcg_init,
+    .translate_code = mb_translate_code,
     .synchronize_from_tb = mb_cpu_synchronize_from_tb,
     .restore_state_to_opc = mb_restore_state_to_opc,
 
diff --git a/target/microblaze/translate.c b/target/microblaze/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/microblaze/translate.c
+++ b/target/microblaze/translate.c
@@ -XXX,XX +XXX,XX @@ static const TranslatorOps mb_tr_ops = {
     .tb_stop            = mb_tr_tb_stop,
 };
 
-void gen_intermediate_code(CPUState *cpu, TranslationBlock *tb, int *max_insns,
-                           vaddr pc, void *host_pc)
+void mb_translate_code(CPUState *cpu, TranslationBlock *tb,
+                       int *max_insns, vaddr pc, void *host_pc)
 {
     DisasContext dc;
     translator_loop(cpu, tb, max_insns, pc, host_pc, &mb_tr_ops, &dc.base);
diff --git a/target/mips/cpu.c b/target/mips/cpu.c
index XXXXXXX..XXXXXXX 100644
--- a/target/mips/cpu.c
+++ b/target/mips/cpu.c
@@ -XXX,XX +XXX,XX @@ static const Property mips_cpu_properties[] = {
 #include "hw/core/tcg-cpu-ops.h"
 static const TCGCPUOps mips_tcg_ops = {
     .initialize = mips_tcg_init,
+    .translate_code = mips_translate_code,
     .synchronize_from_tb = mips_cpu_synchronize_from_tb,
     .restore_state_to_opc = mips_restore_state_to_opc,
 
diff --git a/target/mips/tcg/translate.c b/target/mips/tcg/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/mips/tcg/translate.c
+++ b/target/mips/tcg/translate.c
@@ -XXX,XX +XXX,XX @@ static const TranslatorOps mips_tr_ops = {
     .tb_stop            = mips_tr_tb_stop,
 };
 
-void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int *max_insns,
-                           vaddr pc, void *host_pc)
+void mips_translate_code(CPUState *cs, TranslationBlock *tb,
+                         int *max_insns, vaddr pc, void *host_pc)
 {
     DisasContext ctx;
 
diff --git a/target/openrisc/cpu.c b/target/openrisc/cpu.c
index XXXXXXX..XXXXXXX 100644
--- a/target/openrisc/cpu.c
+++ b/target/openrisc/cpu.c
@@ -XXX,XX +XXX,XX @@ static const struct SysemuCPUOps openrisc_sysemu_ops = {
 
 static const TCGCPUOps openrisc_tcg_ops = {
     .initialize = openrisc_translate_init,
+    .translate_code = openrisc_translate_code,
     .synchronize_from_tb = openrisc_cpu_synchronize_from_tb,
     .restore_state_to_opc = openrisc_restore_state_to_opc,
 
diff --git a/target/openrisc/translate.c b/target/openrisc/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/openrisc/translate.c
+++ b/target/openrisc/translate.c
@@ -XXX,XX +XXX,XX @@ static const TranslatorOps openrisc_tr_ops = {
     .tb_stop            = openrisc_tr_tb_stop,
 };
 
-void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int *max_insns,
-                           vaddr pc, void *host_pc)
+void openrisc_translate_code(CPUState *cs, TranslationBlock *tb,
+                             int *max_insns, vaddr pc, void *host_pc)
 {
     DisasContext ctx;
 
diff --git a/target/ppc/cpu_init.c b/target/ppc/cpu_init.c
index XXXXXXX..XXXXXXX 100644
--- a/target/ppc/cpu_init.c
+++ b/target/ppc/cpu_init.c
@@ -XXX,XX +XXX,XX @@ static const struct SysemuCPUOps ppc_sysemu_ops = {
 
 static const TCGCPUOps ppc_tcg_ops = {
   .initialize = ppc_translate_init,
+  .translate_code = ppc_translate_code,
   .restore_state_to_opc = ppc_restore_state_to_opc,
 
 #ifdef CONFIG_USER_ONLY
diff --git a/target/ppc/translate.c b/target/ppc/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/ppc/translate.c
+++ b/target/ppc/translate.c
@@ -XXX,XX +XXX,XX @@ static const TranslatorOps ppc_tr_ops = {
     .tb_stop            = ppc_tr_tb_stop,
 };
 
-void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int *max_insns,
-                           vaddr pc, void *host_pc)
+void ppc_translate_code(CPUState *cs, TranslationBlock *tb,
+                        int *max_insns, vaddr pc, void *host_pc)
 {
     DisasContext ctx;
 
diff --git a/target/riscv/tcg/tcg-cpu.c b/target/riscv/tcg/tcg-cpu.c
index XXXXXXX..XXXXXXX 100644
--- a/target/riscv/tcg/tcg-cpu.c
+++ b/target/riscv/tcg/tcg-cpu.c
@@ -XXX,XX +XXX,XX @@ static void riscv_restore_state_to_opc(CPUState *cs,
 
 static const TCGCPUOps riscv_tcg_ops = {
     .initialize = riscv_translate_init,
+    .translate_code = riscv_translate_code,
     .synchronize_from_tb = riscv_cpu_synchronize_from_tb,
     .restore_state_to_opc = riscv_restore_state_to_opc,
 
diff --git a/target/riscv/translate.c b/target/riscv/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/riscv/translate.c
+++ b/target/riscv/translate.c
@@ -XXX,XX +XXX,XX @@ static const TranslatorOps riscv_tr_ops = {
     .tb_stop            = riscv_tr_tb_stop,
 };
 
-void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int *max_insns,
-                           vaddr pc, void *host_pc)
+void riscv_translate_code(CPUState *cs, TranslationBlock *tb,
+                          int *max_insns, vaddr pc, void *host_pc)
 {
     DisasContext ctx;
 
diff --git a/target/rx/cpu.c b/target/rx/cpu.c
index XXXXXXX..XXXXXXX 100644
--- a/target/rx/cpu.c
+++ b/target/rx/cpu.c
@@ -XXX,XX +XXX,XX @@ static const struct SysemuCPUOps rx_sysemu_ops = {
 
 static const TCGCPUOps rx_tcg_ops = {
     .initialize = rx_translate_init,
+    .translate_code = rx_translate_code,
     .synchronize_from_tb = rx_cpu_synchronize_from_tb,
     .restore_state_to_opc = rx_restore_state_to_opc,
     .tlb_fill = rx_cpu_tlb_fill,
diff --git a/target/rx/translate.c b/target/rx/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/rx/translate.c
+++ b/target/rx/translate.c
@@ -XXX,XX +XXX,XX @@ static const TranslatorOps rx_tr_ops = {
     .tb_stop            = rx_tr_tb_stop,
 };
 
-void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int *max_insns,
-                           vaddr pc, void *host_pc)
+void rx_translate_code(CPUState *cs, TranslationBlock *tb,
+                       int *max_insns, vaddr pc, void *host_pc)
 {
     DisasContext dc;
 
diff --git a/target/s390x/cpu.c b/target/s390x/cpu.c
index XXXXXXX..XXXXXXX 100644
--- a/target/s390x/cpu.c
+++ b/target/s390x/cpu.c
@@ -XXX,XX +XXX,XX @@ void cpu_get_tb_cpu_state(CPUS390XState *env, vaddr *pc,
 
 static const TCGCPUOps s390_tcg_ops = {
     .initialize = s390x_translate_init,
+    .translate_code = s390x_translate_code,
     .restore_state_to_opc = s390x_restore_state_to_opc,
 
 #ifdef CONFIG_USER_ONLY
diff --git a/target/s390x/tcg/translate.c b/target/s390x/tcg/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/s390x/tcg/translate.c
+++ b/target/s390x/tcg/translate.c
@@ -XXX,XX +XXX,XX @@ static const TranslatorOps s390x_tr_ops = {
     .disas_log          = s390x_tr_disas_log,
 };
 
-void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int *max_insns,
-                           vaddr pc, void *host_pc)
+void s390x_translate_code(CPUState *cs, TranslationBlock *tb,
+                          int *max_insns, vaddr pc, void *host_pc)
 {
     DisasContext dc;
 
diff --git a/target/sh4/cpu.c b/target/sh4/cpu.c
index XXXXXXX..XXXXXXX 100644
--- a/target/sh4/cpu.c
+++ b/target/sh4/cpu.c
@@ -XXX,XX +XXX,XX @@ static const struct SysemuCPUOps sh4_sysemu_ops = {
 
 static const TCGCPUOps superh_tcg_ops = {
     .initialize = sh4_translate_init,
+    .translate_code = sh4_translate_code,
     .synchronize_from_tb = superh_cpu_synchronize_from_tb,
     .restore_state_to_opc = superh_restore_state_to_opc,
 
diff --git a/target/sh4/translate.c b/target/sh4/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/sh4/translate.c
+++ b/target/sh4/translate.c
@@ -XXX,XX +XXX,XX @@ static const TranslatorOps sh4_tr_ops = {
     .tb_stop            = sh4_tr_tb_stop,
 };
 
-void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int *max_insns,
-                           vaddr pc, void *host_pc)
+void sh4_translate_code(CPUState *cs, TranslationBlock *tb,
+                        int *max_insns, vaddr pc, void *host_pc)
 {
     DisasContext ctx;
 
diff --git a/target/sparc/cpu.c b/target/sparc/cpu.c
index XXXXXXX..XXXXXXX 100644
--- a/target/sparc/cpu.c
+++ b/target/sparc/cpu.c
@@ -XXX,XX +XXX,XX @@ static const struct SysemuCPUOps sparc_sysemu_ops = {
 
 static const TCGCPUOps sparc_tcg_ops = {
     .initialize = sparc_tcg_init,
+    .translate_code = sparc_translate_code,
     .synchronize_from_tb = sparc_cpu_synchronize_from_tb,
     .restore_state_to_opc = sparc_restore_state_to_opc,
 
diff --git a/target/sparc/translate.c b/target/sparc/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/sparc/translate.c
+++ b/target/sparc/translate.c
@@ -XXX,XX +XXX,XX @@ static const TranslatorOps sparc_tr_ops = {
     .tb_stop            = sparc_tr_tb_stop,
 };
 
-void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int *max_insns,
-                           vaddr pc, void *host_pc)
+void sparc_translate_code(CPUState *cs, TranslationBlock *tb,
+                          int *max_insns, vaddr pc, void *host_pc)
 {
     DisasContext dc = {};
 
diff --git a/target/tricore/cpu.c b/target/tricore/cpu.c
index XXXXXXX..XXXXXXX 100644
--- a/target/tricore/cpu.c
+++ b/target/tricore/cpu.c
@@ -XXX,XX +XXX,XX @@ static const struct SysemuCPUOps tricore_sysemu_ops = {
 
 static const TCGCPUOps tricore_tcg_ops = {
     .initialize = tricore_tcg_init,
+    .translate_code = tricore_translate_code,
     .synchronize_from_tb = tricore_cpu_synchronize_from_tb,
     .restore_state_to_opc = tricore_restore_state_to_opc,
     .tlb_fill = tricore_cpu_tlb_fill,
diff --git a/target/tricore/translate.c b/target/tricore/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/tricore/translate.c
+++ b/target/tricore/translate.c
@@ -XXX,XX +XXX,XX @@ static const TranslatorOps tricore_tr_ops = {
     .tb_stop            = tricore_tr_tb_stop,
 };
 
-
-void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int *max_insns,
-                           vaddr pc, void *host_pc)
+void tricore_translate_code(CPUState *cs, TranslationBlock *tb,
+                            int *max_insns, vaddr pc, void *host_pc)
 {
     DisasContext ctx;
     translator_loop(cs, tb, max_insns, pc, host_pc,
diff --git a/target/xtensa/cpu.c b/target/xtensa/cpu.c
index XXXXXXX..XXXXXXX 100644
--- a/target/xtensa/cpu.c
+++ b/target/xtensa/cpu.c
@@ -XXX,XX +XXX,XX @@ static const struct SysemuCPUOps xtensa_sysemu_ops = {
 
 static const TCGCPUOps xtensa_tcg_ops = {
     .initialize = xtensa_translate_init,
+    .translate_code = xtensa_translate_code,
     .debug_excp_handler = xtensa_breakpoint_handler,
     .restore_state_to_opc = xtensa_restore_state_to_opc,
 
diff --git a/target/xtensa/translate.c b/target/xtensa/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/xtensa/translate.c
+++ b/target/xtensa/translate.c
@@ -XXX,XX +XXX,XX @@ static const TranslatorOps xtensa_translator_ops = {
     .tb_stop            = xtensa_tr_tb_stop,
 };
 
-void gen_intermediate_code(CPUState *cpu, TranslationBlock *tb, int *max_insns,
-                           vaddr pc, void *host_pc)
+void xtensa_translate_code(CPUState *cpu, TranslationBlock *tb,
+                           int *max_insns, vaddr pc, void *host_pc)
 {
     DisasContext dc = {};
     translator_loop(cpu, tb, max_insns, pc, host_pc,
-- 
2.43.0